|
3.
完成数据处理分析任务,map/reduce需要开发人员写很多程序完成,而传统的数据分析只需要开发人员写标准SQL就行了,毕竟RDBMS已经发展成熟了那么多年,所以为了简化开发人员的工作,或者说为了推广mr, 使很多传统数据分析师能提高效率,而不至于面对新事物map/reduce而望而却步,于是有了hive,hive可以写出类SQL语句,但本质上还是map/reduce运行。同理,hbase的开源项目phoenix也是为了简化hbase的开发,而可以使用类sql操作hbase。我觉得这是一个很好的进步,可以加速推广map/reduce。但map/reduce本身还有一个重大问题,就是速度慢,这是本身设计的原因,大量中间结果不停在磁盘IO存取。最近几年兴起的spark,cloudera的impala等,都是为了解决这一问题而不断在发展,因为更多的采用分布式内存计算,速度越来越快。
7.
一般的hadoop书籍对hadoop各种组件都有所涉猎,看了此书样章,相比于前者,此书更多详细讲解了hadoop的map/reduce,任务流Ooize,以及安全问题,还是很有特点,相信一套书看下来,对hadoop的离线分析处理这块就能得心应手了,虽然对目前很火热的实时处理这块涉及比较少,但这毕竟不是本书的重点,而且书籍相比于高速发展的开源世界还是有一定滞后性。
hadoop并没有过时,目前hadoop更多的朝分布式计算平台这一目标发展,上面可以有map/reduce这种离线处理框架,也可以有storm、spark等实时处理,对各种数据分析框架正在统筹式的发展,随着资源隔离、管理、集群管理、性能等越来越完善,hadoop有望成为大数据解决方案标准。 |
|