查看: 42189|回复: 42

【IT名人堂】专访阿里资深专家强琦:独家揭秘阿里双11高并发负载背后的核心技术

[复制链接]
认证徽章
论坛徽章:
127
茶鸡蛋
日期:2012-01-16 14:24:41鲜花蛋
日期:2012-06-06 14:48:18双黄蛋
日期:2013-01-07 21:07:482013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2013-12-18 09:29:082014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上加薪
日期:2014-03-18 09:57:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11
发表于 2014-11-28 15:48 | 显示全部楼层 |阅读模式

大家好,我是主持人皮皮,欢迎做客IT名人堂栏目。今年的淘宝双11交易额达到了惊人的571亿,特别在零点以后,支撑每秒7万笔的瞬时订单,相比于去年花6个小时完成100亿的战绩,今年只用了38分钟,我相信这是一个世界纪录。这疯狂的数字背后,无疑马云乐开了花,更让我们对阿里的技术团队佩服得五体投地,双11的实时大屏用到了哪种新技术?阿里是如何做到海量数据的高并发负载?在大数据、云计算领域,到底哪些核心产品和技术为阿里双十一发挥了保驾护航的作用呢?第112期名人堂我们重邀阿里专家强琦(社区ID:lamport_qi)坐镇,为我们独家揭秘双11背后的技术故事。



皮皮(Q1):您好!非常感谢您参与我们IT名人堂的采访,请简单介绍下自己。


和仲(A1):我叫强琦。花名和仲。之前的研究方向是机器学习基础理论,毕业后一直从事搜索技术的研发,08年进入阿里后也一直在搜索和广告技术领域,之后来到阿里巴巴集团数据平台事业部致力于打造大数据的基础设施。对机器学习,分布式计算,搜索广告技术都有浓厚的兴趣。希望为阿里的大数据基础设施建设贡献自己的力量,见证阿里大数据改变世界的那一天,有机会让全球用户分享与共建阿里数据以及阿里数据基础设施。



皮皮(Q2):阿里刚上市不久,今年的淘宝双11交易额达到了惊人的571亿,可喜可贺。特别在零点以后,支撑每秒7万笔的瞬时订单,我相信这是一个世界纪录。那在这些光鲜数据的背后,其实也是对淘宝数据库的极大考验。请问从技术上,阿里是如何做到承受如此庞大的数据库并发负载?


和仲(A2):总体而言,对阿里而言,双十一面临着两方面压力,一个是对数据库的压力,这部分压力大家相对比较清楚。另一个就是对数据处理平台的挑战,这块大家不是很清楚。双11不仅会出现大量的瞬时压力,还会伴随着大量的数据倾斜,这对分布式系统来说挑战很大。对于实时计算来说挑战更大,一方面因为它对用户的计算承诺是秒级别,一旦出现问题和延时会马上表现出来,这样留给系统调控的空间就非常小。大家都知道,分布式计算任务的速度受限于最慢的结点,而大量的数据倾斜不仅会拖慢任务的时效性,严重的情况下甚至会导致结点超时,在带宽吃紧的情况下可以引发系统性雪崩。那我们采取了哪些应急方案呢?一方面我们通过任务改写来尽量平摊数据倾斜对计算结点的压力;其二,系统通过主动申请延时加长的方法,避免“误伤”超时;最后通过计算旁路的方法来减少流量的影响。其实,分布式计算除了常规的扩展性,failover等技术处理之外,突发热点,长尾和计算倾斜都是非常大的挑战。另外,我们大家之前讲到更多是功能层面,但其实业务数据质量方面也是生死攸关的问题,阿里有丰富经验的数据质量团队,包括在离线数据质量,实时数据质量等方面都有丰富的沉淀与产出。



皮皮(Q3):双十一阿里38分钟交易额破百亿,近半数为手机支付,阿里就已经开始了客户端容器移动化的改造,逐步完成从集中式研发到大规模并行开发、灵活集成模式的转换,能不能和我们分享下阿里的双十一移动端在大数据、云计算领域都用到了哪些核心的产品和技术?


和仲(A3):其实,无论是pc端还是移动端,对后台而言,在技术的要求上基本类似。如果要说移动端对数据处理有哪些特殊的影响的话,那么实时在线的特性肯定会使得数据量激增,从目前的情况来看,我们移动端产生的数据已经远超PC端了;由于移动端App同时存在多版本的情况,这也使得数据处理在兼容多版本方面需要做很多考虑;同时移动端的欺诈检测,反作弊也有自己的特点。移动端基本上会与PC端共享云计算和大数据的核心技术,但与此同时会有一些独特的技术和产品体系。



皮皮(Q4):据说天猫、淘宝、支付宝的大数据处理,都是基于阿里云计算的大数据处理平台ODPS完成,为天猫双十一的商品个性化推荐提供了技术支持。而谈到阿里云ODPS,有这么一组数字,ODPS可在6小时内处理100PB数据,相当于1亿部高清电影。能否从ODPS的架构角度,结合阿里双十一为我们谈谈它的具体应用?


和仲(A4):ODPS现在基本上已经统一了全阿里的数据处理以及应用场景。从传统的数据仓库、BI、数据应用、数据挖掘乃至机器学习等都在基于ODPS。另外,在实时计算方面也不断涌现出了新的计算体系,包括Galaxy和Ads等,其应用也在不断加强。集群规模现在也在不断扩大,其处理能力每秒也突破千亿级别。比如大家比较熟悉的双11大屏,这些指标是能够影响市场的,容不得半点数据问题和延时。我们会考虑到数据链路的所有环节,必须做到完全的容错和容灾。有些计算指标是多流join,这对性能和容错挑战是非常大的。大家看到大屏幕上数字不断跳跃,其背后是大量的资源和技术智力的积累。再比如ads,它的创新技术可以使得原来分析数百亿甚至数千亿数据的时间从小时,分钟直接到秒,毫秒。这块已经对外开放使用,欢迎大家试用。



皮皮(Q5):此次双十一备战,阿里可谓是卯足了劲。阿里推出的实时数据计算平台Galaxy据说目前每秒可运算数据超过500万条,那它究竟是如何做到的呢?在双十一中这款计算平台究竟发挥了哪些作用?


和仲(A5)Galaxy是一个增量计算平台,它建立了一个通用的增量计算框架(MapReduceMerge,后简称MRM),流计算只是一种增量的计算形式,在此之上构建了算子层和sql层,这就使得业务能够快速开发实时任务。值得一提的是,增量计算和批量计算根本的区别在于它是有状态的计算,那么问题来了!

有状态计算如果引入全局强一致存储,会带来极大的性能问题。Galaxy-MRM引入内存snapshot来解决性能问题,同时利用checkpoint来保证容错的问题。其实,实时计算最复杂的还是在处理多流join的问题,当在非常多key来做join并且出现数据倾斜的情况下,会对性能产生非常大的挑战。这就需要引入前面所述的一些技术来避免性能和雪崩。有趣的是在增量计算框架下实现的机器学习和MPP会具备实时的交互式的体验,这一点是spark也不具备的本质能力。除了双11所有媒体看到的实时大屏之外,内部运营,业务所涉及到的实时计算指标有400多个job。这些job每秒中都在不断更新最新的数据计算。


非常感谢和仲为我们带来的精彩分享,希望大家能够积极互动,就自己所关心的话题提问,与大师交流心得。截止12月18日,我们将评选获奖会员,赠送技术图书一本。


获奖名单:yjxbravo、NinGoo、wolfop


请以上中奖人员在1月18日之前,将自己的姓名、住址、联系方式以及所选书单发送给itpub运营团队 ,书单链接http://bbs.chinaunix.net/thread-4074217-1-1.html



论坛徽章:
0
发表于 2014-12-1 15:56 | 显示全部楼层
wolfop 发表于 2014-11-29 19:47
不吹牛会死啊,双11日交易量只有银联或者广东移动在线计费日交易量的1/20竟然给我吹处理那么大的数据。上次 ...

都是搞技术的。
这里计算的并不是最源头的业务数据。
是集群处理的数据量。包括中间数据。
很简单,如果中间有计算是做笛卡尔积的,数据会极大的膨胀。
有些数据的sql长达1000行。
这里统计的并不是数据源。

使用道具 举报

回复
论坛徽章:
76
山治
日期:2019-03-27 22:55:03秀才
日期:2016-01-25 15:02:04双子座
日期:2016-01-19 20:35:54秀才
日期:2016-01-13 12:14:26秀才
日期:2015-12-25 15:31:10秀才
日期:2015-12-18 09:28:57秀才
日期:2015-12-14 14:56:09秀才
日期:2015-12-14 14:51:16秀才
日期:2015-11-30 09:13:06处女座
日期:2015-11-27 12:27:01
发表于 2014-12-1 17:45 | 显示全部楼层
本帖最后由 wolfop 于 2014-12-1 18:02 编辑
lamport_qi 发表于 2014-12-1 15:56
都是搞技术的。
这里计算的并不是最源头的业务数据。
是集群处理的数据量。包括中间数据。

哦,不是吧图片访问了1000次就计算1000次流量,而是把join的临时数据也算上。
照这个算法,RDBMS处理的数据量=IO量乘以压缩比?
这果然和另外一个推论完全吻合,ODPS平台按照公开资料有5000台服务器,按照6小时能处理100PB计算,每台服务器每秒吞吐量
100*1024*1024/5000/6=0.97GB/s。这个速度差不多也到了是PC服务器内置盘在读写混合下IO极限了。果然就是
服务器的IO极限吞吐量×集群节点数量×时间
拿出手的案例不过每天9亿条,2TB新增数据,这真让别人用流计算+RDBMS每天1200亿条数据的案例感觉毫无压力。
SQL长达1000在分析类系统并不少见,阿里的所谓大数据平台开放给别人做挖掘和分析被第一吐槽的就是SQL性能不行。

使用道具 举报

回复
论坛徽章:
4
ITPUB新首页上线纪念徽章
日期:2007-10-20 08:38:442013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2013-12-18 09:29:08秀才
日期:2015-11-23 10:17:19
发表于 2014-12-11 02:19 | 显示全部楼层
看到和仲先生的谈话感觉技术气息浓厚而且条理清晰、张弛有度,进而看大家的不是一味赞扬而是具有挑战性的讨论,更是感觉气象一新。

我搞了多年的系统技术支持,对于大家所讨论的话题了解不多,但极感兴趣,所以有如下疑问:
1、ODPS是什么?为什么说:“从传统的数据仓库、BI、数据应用、数据挖掘乃至机器学习等都在基于ODPS”?
2、文中提到的机器学习和分布式计算(是不是就是MapReduce?)都起了哪些作用?
3、Galaxy-MRM、流式计算、Spark等开发技术是不是仅仅局限于有关大数据的开发?它们与传统的Java软件开发、C软件开发或Oracle开发有什么区别?

还请明白人指点一二!

使用道具 举报

回复
论坛徽章:
5
ITPUB十周年纪念徽章
日期:2011-11-01 16:26:59ITPUB 11周年纪念徽章
日期:2012-10-09 18:16:002013年新春福章
日期:2013-02-25 14:51:242014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08
发表于 2014-12-15 20:14 | 显示全部楼层
其实在中国,日交易量最大的公司是工商银行,不是什么淘宝

而每秒并发处理能力最高的是移动,并不是什么秒杀 支付宝

秒杀的并发量只有银联的几分之一,更别说和移动的处理量比

只是工商银行,移动从不说自己技术高,说了也没人信

使用道具 举报

回复
招聘 : 数据库管理员
论坛徽章:
122
马上加薪
日期:2014-02-19 11:55:14ITPUB官方微博粉丝徽章
日期:2011-06-28 19:45:36管理团队成员
日期:2011-05-07 01:45:082010广州亚运会纪念徽章:拳击
日期:2011-03-29 13:11:152010广州亚运会纪念徽章:篮球
日期:2011-02-20 22:50:172011新春纪念徽章
日期:2011-02-18 11:42:492011新春纪念徽章
日期:2011-01-25 15:42:562011新春纪念徽章
日期:2011-01-25 15:42:332011新春纪念徽章
日期:2011-01-25 15:42:152011新春纪念徽章
日期:2011-01-25 15:41:50
发表于 2014-12-19 19:09 | 显示全部楼层
本帖最后由 NinGoo 于 2014-12-19 19:26 编辑
wolfop 发表于 2014-11-29 19:47
不吹牛会死啊,双11日交易量只有银联或者广东移动在线计费日交易量的1/20竟然给我吹处理那么大的数据。上次 ...

双11日交易量只有银联或者广东移动在线计费日交易量的1/20

数据这么精确,看起来是银联或者广东移动的内部人士,那么请问下银联和广东移动计费具体的日交易量和日交易笔数大概是多少?是一套交易系统处理的,还是分布在不同的交易系统做本地处理再集中结算?

如果从技术的角度来说,需要比较的应该是交易笔数。看交易量,不同的业务场景的笔单价差别还是蛮大的,至少银联跨行转账和取款相对交易来说要大很多。

从网上搜索到的数据,银联“其中就单日交易情况看,长假前一天的9月30日以及10月1日国庆当天,交易笔数分别达到7458万笔和7218万笔,分列近年各节假日交易笔数第一和第二峰值”(出处:http://corporate.unionpay.com/in ... file_116362456.html

而支付宝“天猫双十一购物节11日零时正式开幕,支付宝方面透露,第一个小时支付宝完成的付款笔数已达6283万笔,完成了去年全天1.88亿笔约三分之一的量。”(出处:http://www.cs.com.cn/xwzx/jr/201410/t20141008_4528906.html,注意这里是付款笔数,系统中创建的交易笔数是要超过这个数的)

不知道1/20是怎么得出来的?

交易系统的挑战不仅仅在于全天的交易量,更多在凌晨瞬间的几秒钟,这个尖峰,到目前为止,我还没有看到确切的有比支付宝更高的交易系统的记录,如果谁有,希望能够当面请教下,学习下。

是不是吹牛,数据说话。要讨论技术就讨论技术,预设一个态度,在技术论坛上这种语气回帖,有什么意思?

至于说到ODPS处理的数据量怎么来的,欢迎真正NB的同学加入我们,实际的干上几年,是不是吹牛,相信会更有说服力的。

使用道具 举报

回复
认证徽章
论坛徽章:
17
生肖徽章2007版:猴
日期:2015-07-24 10:50:33紫水晶
日期:2015-09-14 19:29:07萤石
日期:2015-09-14 19:24:48萤石
日期:2015-09-13 14:30:02萤石
日期:2015-09-11 23:05:02红宝石
日期:2015-09-11 23:04:43萤石
日期:2015-09-11 23:04:27生肖徽章2007版:兔
日期:2015-07-31 16:43:10生肖徽章2007版:龙
日期:2015-07-24 10:51:00生肖徽章2007版:龙
日期:2015-07-24 10:50:51
发表于 2014-11-28 20:36 | 显示全部楼层
支持啊

使用道具 举报

回复
认证徽章
论坛徽章:
85
2015年中国系统架构师大会纪念徽章
日期:2015-09-17 11:10:00举人
日期:2015-09-21 16:42:17秀才
日期:2015-10-08 15:07:00秀才
日期:2015-10-08 17:57:58秀才
日期:2015-10-19 15:31:25秀才
日期:2015-10-19 15:36:25秀才
日期:2015-10-19 15:49:55秀才
日期:2015-10-19 15:50:39秀才
日期:2015-10-26 09:24:12举人
日期:2015-09-21 16:42:09
发表于 2014-11-28 22:01 | 显示全部楼层
本帖最后由 shenlanyouyu 于 2014-11-28 22:01 编辑

大数据处理平台ODPS基础设施是基于IOE的吗?

使用道具 举报

回复
论坛徽章:
76
山治
日期:2019-03-27 22:55:03秀才
日期:2016-01-25 15:02:04双子座
日期:2016-01-19 20:35:54秀才
日期:2016-01-13 12:14:26秀才
日期:2015-12-25 15:31:10秀才
日期:2015-12-18 09:28:57秀才
日期:2015-12-14 14:56:09秀才
日期:2015-12-14 14:51:16秀才
日期:2015-11-30 09:13:06处女座
日期:2015-11-27 12:27:01
发表于 2014-11-29 19:47 | 显示全部楼层
不吹牛会死啊,双11日交易量只有银联或者广东移动在线计费日交易量的1/20竟然给我吹处理那么大的数据。上次我问那数据量怎么来的,没人回答,后来在阿里另外一个人写的网络优化的文章找到答案。ODPS的处理数据量=阿里网络平均流量/s*时间,吻合的一塌糊涂。
如果一个图片有100K,被点击了100K次,就相当于ODPS处理了10G数据?真能吹的。

使用道具 举报

回复
论坛徽章:
3
2012新春纪念徽章
日期:2012-01-04 11:53:292013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2014-03-14 06:00:13
发表于 2014-11-30 07:13 | 显示全部楼层
阿里技术厉害,但马云吹牛的功夫更厉害,去年不是闹出一个笑话,卫生巾吸干几个西湖吗

使用道具 举报

回复
论坛徽章:
12
ITPUB元老
日期:2011-12-19 12:17:46秀才
日期:2015-11-30 09:59:23金牛座
日期:2016-03-03 18:30:16妮可·罗宾
日期:2017-01-10 08:24:43娜美
日期:2017-03-10 17:49:05乌索普
日期:2017-11-22 09:58:19托尼托尼·乔巴
日期:2019-02-01 10:41:05
发表于 2014-11-30 10:36 | 显示全部楼层
有一种技术叫缓存

阿里还是比较牛的,经过这么多年的积累。

使用道具 举报

回复
发表于 2014-12-1 08:59 | 显示全部楼层
支持啊

使用道具 举报

回复
认证徽章
论坛徽章:
1
2009日食纪念
日期:2009-07-22 09:30:00
发表于 2014-12-1 11:29 | 显示全部楼层
吹了半天就讲了MRM的技术东西,而且讲的一知半解,还来专家,。其他水分十足。dt...

使用道具 举报

回复
认证徽章
论坛徽章:
16
2013年新春福章
日期:2013-02-25 14:51:242015年新春福章
日期:2015-03-06 11:58:39暖羊羊
日期:2015-03-04 14:53:00马上有钱
日期:2015-01-16 09:50:57马上有车
日期:2015-01-12 19:58:20马上有对象
日期:2014-12-17 16:27:32马上有房
日期:2014-11-20 12:43:102014年世界杯参赛球队: 俄罗斯
日期:2014-07-17 17:21:422014年新春福章
日期:2014-03-19 10:47:22马上有对象
日期:2014-02-18 16:44:08
发表于 2014-12-1 13:44 | 显示全部楼层
wolfop 发表于 2014-11-29 19:47
不吹牛会死啊,双11日交易量只有银联或者广东移动在线计费日交易量的1/20竟然给我吹处理那么大的数据。上次 ...

有理                    

使用道具 举报

回复
认证徽章
论坛徽章:
16
2013年新春福章
日期:2013-02-25 14:51:242015年新春福章
日期:2015-03-06 11:58:39暖羊羊
日期:2015-03-04 14:53:00马上有钱
日期:2015-01-16 09:50:57马上有车
日期:2015-01-12 19:58:20马上有对象
日期:2014-12-17 16:27:32马上有房
日期:2014-11-20 12:43:102014年世界杯参赛球队: 俄罗斯
日期:2014-07-17 17:21:422014年新春福章
日期:2014-03-19 10:47:22马上有对象
日期:2014-02-18 16:44:08
发表于 2014-12-1 14:03 | 显示全部楼层
victorming 发表于 2014-11-30 07:13
阿里技术厉害,但马云吹牛的功夫更厉害,去年不是闹出一个笑话,卫生巾吸干几个西湖吗

吹牛逼的人太多了,这些吹牛逼的人是做技术的无法理解的

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 
京ICP备09055130号-4  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表