|
1、您认为,在挑选大数据处理工具时,哪些因素最需要考虑?您使用或了解的优质大数据处理工具是什么?
答:首先看自己有没有大数据,这个词现在已经烂大街了。中国人,人云亦云的搞得有个几百万数据就是大数据。我之前处理过每天新增1亿的,都不好意思说大。因为和BAT比起来,这连冰山一角都不算。
其实看所在的业务场景适不适合。比如银行交易,如果说这个不算大数据,那能算的也不多,但是用hadoop来处理显然业务场景不合适。
再次看有没有投入,比如用4-5台机器安装hadoop、hbase、zookeeper、hue、hive、pig、还有等等这些,我觉得当实验环境练习和学习是可以的。但是生产环境就算了。分布式处理依靠的就是大量节点分散处理、分担IO。但是4-5台或者3台,根本起不到分担作用。一个小时能处理的job分成3个,还是每个20分钟。距离要求事务在0。1秒的要求来说,根本杯水车薪。
我也就知道hadoop系列的这些还有storm和spark等。这些要考虑学习成本和维护成本,是不是有能力来控制这些技术。
2、其优势在哪?劣势在哪?给大家分享一下您的使用经验和感受。
答:BAT或多或少都用到了大数据,优势真的是很明显,他们是互联网巨头,他们可以处理这些数据,而我们一般的公司没有这个能力。百度架构师曾经说过:“hadoop是给我们用的,不是给你们用的”。一句话导出真谛,说的太好了。头脑清醒的技术人员会选择合适自己的,可控的技术。而不是一味人云亦云。一个公司仅仅几个人如果说对hadoop的开源了解的透彻可以那这个过来随便改了。我觉得不现实。至少国内没有。
hadoop要用在合适的场景下,从oracle到oracle40亿数据移植用了1天,但是如果使用不当,我见过同样场景下从oracle到hbase用了40天。
3、在大数据处理方面,您目前最需要的功能点是什么?针对何种场景?所使用产品是否能够满足?
答:关系型数据库的分布式存储,想redis集群那样,而不是oracle和mysql的dataguard和主从。因为这些都是只有一个写,多个读。最好是所有节点同时提供读写,这样才能发挥出大数据的能力。而关系型数据库缺的就是这个,但是关系型数据库又是无法替代的。
我们场景是互联网金融,那么面对大量移动端用户并发的交易模式,需要大量的并发读写,并且保证高可用,节点故障自动漂移。目前还没有好的解决方案,期待oracle12C的sharding。
4、是否会考虑使用或已经在使用商业大数据云处理平台?甲骨文?IBM?谷歌还是Amazon等等。
答:这些都会考虑。甲骨文的Oracle12C还有接触过IBm的大数据解决方案,还有知道amazon的Hana等 |
|