|
本帖最后由 tian1982tian 于 2014-4-9 19:02 编辑
嗯嗯,这本书不错啊!
我觉得吧,hive更适合做数据仓库数据分析工具,因为他是类sql语言hql,转化后台的执行计划为mapreduce,适合异步分析任务,另一方面比pig好的原因是hql语句跟sql语句差不了多少,对于开发人员来说,学习成本低,开发构建项目周期短,且相对于impala、hbase、pig等都比较稳定;并且能对复杂业务场景进行分析。我们选择是hive,另一方面不足的地方时太慢,但是hadoop 2.0 将mr 计算框架换成了tez框架(主要技术细节是:减少了MR的个数,使得数据写磁盘的机会变少了,提高了整体的IO性能),速度提高10倍,且hive12 也新添加了一些数据仓库的很多时间窗口函数,也支持oracle的大部分数据类型,我相信性能会越来越好的。 |
|