|
本帖最后由 wolfop 于 2014-12-1 18:02 编辑
lamport_qi 发表于 2014-12-1 15:56 ![]()
都是搞技术的。
这里计算的并不是最源头的业务数据。
是集群处理的数据量。包括中间数据。
哦,不是吧图片访问了1000次就计算1000次流量,而是把join的临时数据也算上。
照这个算法,RDBMS处理的数据量=IO量乘以压缩比?
这果然和另外一个推论完全吻合,ODPS平台按照公开资料有5000台服务器,按照6小时能处理100PB计算,每台服务器每秒吞吐量
100*1024*1024/5000/6=0.97GB/s。这个速度差不多也到了是PC服务器内置盘在读写混合下IO极限了。果然就是
服务器的IO极限吞吐量×集群节点数量×时间
拿出手的案例不过每天9亿条,2TB新增数据,这真让别人用流计算+RDBMS每天1200亿条数据的案例感觉毫无压力。
SQL长达1000在分析类系统并不少见,阿里的所谓大数据平台开放给别人做挖掘和分析被第一吐槽的就是SQL性能不行。
|
|