高负载低延迟：动态算法+Hadoop+AWS+NoSQL解析

wangfans · 发表于 2013-4-5 10:36

为了减少柱状图所使用的存储量，并改善其可视化，原来的计算柱状图中许多小的项目被转化成几个大的不同宽度的项目。下图显示了一个特定的柱状图转化的最佳方案：

wangfans · 发表于 2013-4-5 10:36

wangfans · 发表于 2013-4-5 10:36

使用随机重启爬山近似算法对最佳柱状图进行计算。下面的图显示了每个爬山迭代上可能的变动：

wangfans · 发表于 2013-4-5 10:36

wangfans · 发表于 2013-4-5 10:36

该算法已被证明是非常快速、准确的：相比一个精确的动态算法，我们已经实现了99%的准确率，这是高速增长的因素之一。

wangfans · 发表于 2013-4-6 09:28

商务建议

建议使用同现（co-ocurrences）计算。也就是说，如果有人A和B这两个商店都买了东西，那么A和B之间存在一个同现。只有一个同现考虑，即使客户在A和B购买了好几次。

wangfans · 发表于 2013-4-6 09:28

但同现这一简单想法被使用还需要一些改进。首先，最受欢迎的商店都使用一个简单的频率删减过滤掉，因为几乎每个人都会在他们那购买，所以没有价值再推荐它们。按位置、按商店类别或同时进行过滤推荐，也改善了建议。基于时间的同现会产生较热建议与“总是正确”的建议之间的较量。在可能出现并发行为的地方（用户在购买后看见推荐商品又买了第二件）限制时间。

wangfans · 发表于 2013-4-6 09:29

尽管一些挑战不容易克服，但Hadoop和Pangool仍然是计算同现和生成建议的完美工具。特别是如果一个买家在许多商店进行支付行为，这个信贷调用将显示同现的数量二次增长，使分析不是成线性比例。因为这种情况极少出现，所以我们只限制每张卡的同现的数量，只考虑那些买家在哪买的最多。

wangfans · 发表于 2013-4-6 09:29

成本和一些数字

在Voldemort统计的，在西班牙使用的BBVA信用卡一年的交易信息量270GB。整个处理流程将在一个24“m1.large”集群上运行11个小时。整个基础设施，包括EC2实例所需要的服务所产生的数据将每月花费3500美元。

wangfans · 发表于 2013-4-6 09:29

虽然仍有优化的空间，但考虑到解决方案是敏捷的、灵活的并且在云中，这个价格还是相当合理的。系统运行在一个内部基础设施的成本会便宜很多。

结论与未来

幸好有了像Hadoop、Amazon Web Services和NoSQL数据库这样的技术，才可以以合理的成本，迅速发展可扩展的、灵活的解决方案。

未来的工作将涉及通过Splout SQL替代Voldemort，将允许部署hadoop生成的数据集，扩展了低延迟的键/值到低延迟的SQL。这将减少分析时间并“实时”执行许多聚合的数据量。