|
原帖由 beingman 于 2011-2-17 14:45 发表 ![]()
打开greenplum的主页,在站内搜索框内输入ebay,有很多地方都提到ebay使用了他们的数据库,不知道楼上为什么这么确定greenplum网站根本没有e-Bay的案例。
我提供的案例数据不是从楼上提供的所谓网络流言链接引用的,不过细细看看dbms2上的这篇文章确实很有意思,作者说采访了ebay的负责人,说是GP出局(thrown out )了,然后ebay的负责人跟帖澄清,说作者夸大了他的原意。
楼上说的单个RDBMS的大小是什么意思,是指单节点的大小吗,这个可能不适合GP,单节点对它来说不具有完整的业务意义,它的所有节点在主节点的协调下对外以一个数据库系统提供服务;
看了一下TPC网站上TPC-H的排在前10名的数据库软硬件系统组合,6个数据库大小级别(100GB,300GB,1,000 GB,3,000 GB,
10,000 GB,30,000 GB)上确实都没有GP。
“不相信greenplum那种架构能让单个DB过大”,可以详细谈谈依据吗?
单个数据库的意思是指可以跨多节点的的单一数据库映象。管理的数据量可能是多个数据库单一映象实现的,很容易误导。比如,ORACLE可以吹在CMCC ORACLE管理的数据量达到20PB。问题这实际上是多个数据库,物理也分布在多个地方,功能也是多个。对于EBAY的data market,从那上面也没法分清楚到底是一个单一数据库映象到那么大,还是多个数据库达到那么大的数据量。
GREENPLUM目前的设计有一个master 节点负责太多的工作,容易成为瓶颈。在greenplum的方向上似乎4.0要重点解决的这个问题,就是解决这个瓶颈,但能到什么水平不知道。
个人并不看好这种列式数据库,其优点只在于汇总/groupby这种操作,join之类的效率也不高。而汇总和groupby这类操作,最低成本高效的解决方式恐怕是院士mapreduce,最多加一个HIVE/PIG之类的玩意。当然,这类解决方案有这类解决方案的问题,开发困难(需要低级编码),或者成熟性更差,HIVE/PIG的bug之严重,某个测试用同样数据做数据挖掘测试,竟然挖掘出结果不一致。相比之下IBM有个让DB2和mapreduce结合的东西,biginsight,不过也没测过,不知道可靠性稳定性如何。不过方向还是比较好,可惜IBM在转型,变成咨询+服务,产品可能越来越不受重视。
对于现在,除互联网行业外大量的行业DSS已经不再是纯粹的DSS,往往混合ODS操作,甚至直接驱动前台的CRM的营销活动实现即时营销和冲动营销等。这时候column BASE的问题就更加严重,类OLTP查询会搞死column的方式。甚至存MPP的RDBMS也会遇到类似的问题,这几乎是teradata的噩梦,在某个行业中遇到了很严重失败教训。 |
|