【大话IT】DBA眼中的最优大数据处理工具，哪一款是你的菜？

xuexiaogang · 发表于 2016-3-4 15:05

1、您认为，在挑选大数据处理工具时，哪些因素最需要考虑？您使用或了解的优质大数据处理工具是什么？
答：首先看自己有没有大数据，这个词现在已经烂大街了。中国人，人云亦云的搞得有个几百万数据就是大数据。我之前处理过每天新增1亿的，都不好意思说大。因为和BAT比起来，这连冰山一角都不算。
其实看所在的业务场景适不适合。比如银行交易，如果说这个不算大数据，那能算的也不多，但是用hadoop来处理显然业务场景不合适。
再次看有没有投入，比如用4-5台机器安装hadoop、hbase、zookeeper、hue、hive、pig、还有等等这些，我觉得当实验环境练习和学习是可以的。但是生产环境就算了。分布式处理依靠的就是大量节点分散处理、分担IO。但是4-5台或者3台，根本起不到分担作用。一个小时能处理的job分成3个，还是每个20分钟。距离要求事务在0。1秒的要求来说，根本杯水车薪。
我也就知道hadoop系列的这些还有storm和spark等。这些要考虑学习成本和维护成本，是不是有能力来控制这些技术。

2、其优势在哪？劣势在哪？给大家分享一下您的使用经验和感受。
答：BAT或多或少都用到了大数据，优势真的是很明显，他们是互联网巨头，他们可以处理这些数据，而我们一般的公司没有这个能力。百度架构师曾经说过：“hadoop是给我们用的，不是给你们用的”。一句话导出真谛，说的太好了。头脑清醒的技术人员会选择合适自己的，可控的技术。而不是一味人云亦云。一个公司仅仅几个人如果说对hadoop的开源了解的透彻可以那这个过来随便改了。我觉得不现实。至少国内没有。
hadoop要用在合适的场景下，从oracle到oracle40亿数据移植用了1天，但是如果使用不当，我见过同样场景下从oracle到hbase用了40天。

3、在大数据处理方面，您目前最需要的功能点是什么？针对何种场景？所使用产品是否能够满足？
答：关系型数据库的分布式存储，想redis集群那样，而不是oracle和mysql的dataguard和主从。因为这些都是只有一个写，多个读。最好是所有节点同时提供读写，这样才能发挥出大数据的能力。而关系型数据库缺的就是这个，但是关系型数据库又是无法替代的。
我们场景是互联网金融，那么面对大量移动端用户并发的交易模式，需要大量的并发读写，并且保证高可用，节点故障自动漂移。目前还没有好的解决方案，期待oracle12C的sharding。

4、是否会考虑使用或已经在使用商业大数据云处理平台？甲骨文？IBM？谷歌还是Amazon等等。
答：这些都会考虑。甲骨文的Oracle12C还有接触过IBm的大数据解决方案，还有知道amazon的Hana等