请
登录
后使用快捷导航
没有帐号?
注册
登录
注册
快捷导航
首页
论坛
BBS
博客
技术栈
ITPUB学院
名人堂
版主团
搜索
高级搜索
热搜:
oracle
SAP
sap
二维码
dba
Oracle
c++
C++
CRM
银联信息中心
比特币
小额贷款
贷款
crm
ORACLE
项目管理系统
thread
android
python
java
本版
文章
帖子
用户
ITPUB论坛-专业的IT技术社区
»
论坛
›
≡ 企业信息化 ≡
›
IT服务管理
›
高负载低延迟:动态算法+Hadoop+AWS+NoSQL解析
1
2
3
/ 3 页
返回列表
楼主:
wangfans
收藏
|
高负载低延迟:动态算法+Hadoop+AWS+NoSQL解析
[复制链接]
wangfans
wangfans
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
66
21
#
楼主
|
发表于 2013-4-5 10:36
|
只看该作者
为了减少柱状图所使用的存储量,并改善其可视化,原来的计算柱状图中许多小的项目被转化成几个大的不同宽度的项目。下图显示了一个特定的柱状图转化的最佳方案:
使用道具
举报
回复
显身卡
wangfans
wangfans
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
66
22
#
楼主
|
发表于 2013-4-5 10:36
|
只看该作者
使用道具
举报
回复
显身卡
wangfans
wangfans
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
66
23
#
楼主
|
发表于 2013-4-5 10:36
|
只看该作者
使用随机重启爬山近似算法对最佳柱状图进行计算。下面的图显示了每个爬山迭代上可能的变动:
使用道具
举报
回复
显身卡
wangfans
wangfans
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
66
24
#
楼主
|
发表于 2013-4-5 10:36
|
只看该作者
使用道具
举报
回复
显身卡
wangfans
wangfans
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
66
25
#
楼主
|
发表于 2013-4-5 10:36
|
只看该作者
该算法已被证明是非常快速、准确的:相比一个精确的动态算法,我们已经实现了99%的准确率,这是高速增长的因素之一。
使用道具
举报
回复
显身卡
wangfans
wangfans
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
66
26
#
楼主
|
发表于 2013-4-6 09:28
|
只看该作者
商务建议
建议使用同现(co-ocurrences)计算。也就是说,如果有人A和B这两个商店都买了东西,那么A和B之间存在一个同现。只有一个同现考虑,即使客户在A和B购买了好几次。
使用道具
举报
回复
显身卡
wangfans
wangfans
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
66
27
#
楼主
|
发表于 2013-4-6 09:28
|
只看该作者
但同现这一简单想法被使用还需要一些改进。首先,最受欢迎的商店都使用一个简单的频率删减过滤掉,因为几乎每个人都会在他们那购买,所以没有价值再推荐它们。按位置、按商店类别或同时进行过滤推荐,也改善了建议。基于时间的同现会产生较热建议与“总是正确”的建议之间的较量。在可能出现并发行为的地方(用户在购买后看见推荐商品又买了第二件)限制时间。
使用道具
举报
回复
显身卡
wangfans
wangfans
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
66
28
#
楼主
|
发表于 2013-4-6 09:29
|
只看该作者
尽管一些挑战不容易克服,但Hadoop和Pangool仍然是计算同现和生成建议的完美工具。特别是如果一个买家在许多商店进行支付行为,这个信贷调用将显示同现的数量二次增长,使分析不是成线性比例。因为这种情况极少出现,所以我们只限制每张卡的同现的数量,只考虑那些买家在哪买的最多。
使用道具
举报
回复
显身卡
wangfans
wangfans
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
66
29
#
楼主
|
发表于 2013-4-6 09:29
|
只看该作者
成本和一些数字
在Voldemort统计的,在西班牙使用的BBVA信用卡一年的交易信息量270GB。整个处理流程将在一个24“m1.large”集群上运行11个小时。整个基础设施,包括EC2实例所需要的服务所产生的数据将每月花费3500美元。
使用道具
举报
回复
显身卡
wangfans
wangfans
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
66
30
#
楼主
|
发表于 2013-4-6 09:29
|
只看该作者
虽然仍有优化的空间,但考虑到解决方案是敏捷的、灵活的并且在云中,这个价格还是相当合理的。系统运行在一个内部基础设施的成本会便宜很多。
结论与未来
幸好有了像Hadoop、Amazon Web Services和NoSQL数据库这样的技术,才可以以合理的成本,迅速发展可扩展的、灵活的解决方案。
未来的工作将涉及通过Splout SQL替代Voldemort,将允许部署hadoop生成的数据集,扩展了低延迟的键/值到低延迟的SQL。这将减少分析时间并“实时”执行许多聚合的数据量。
使用道具
举报
回复
显身卡
1
2
3
/ 3 页
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
Oracle开发
TOP
技术积分榜
社区积分榜
徽章
团队
统计
知识索引树
积分竞拍
文本模式
帮助
ITPUB首页
|
ITPUB论坛
|
数据库技术
|
企业信息化
|
开发技术
|
微软技术
|
软件工程与项目管理
|
IBM技术园地
|
行业纵向讨论
|
IT招聘
|
IT文档
ChinaUnix
|
ChinaUnix博客
|
ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有
联系我们
未成年人举报专区
京ICP备16024965号-8
北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
快速回复
返回顶部
返回列表