|
本帖最后由 Detaillee 于 2014-4-8 12:48 编辑
愚见:
》1、scale-up一般采用share-anything的技术架构,主要通过升级硬件来应对不断增长的系统压力,其主要优点是系统扩展起来较为方便、能快速响应压力需求等优点;但由于其扩展能力有限,当系统压力达到一定程度后,一方面扩展起来成本较高;另一方面其性能不会随着硬件的升级而线性增长,当扩展到极限的时候,性能就存在极限性。
》2、Streaming优势:任何支持标准输入输出的语言均可以无缝的接入hadoop平台;程序员可以使用最熟悉的语言进行MapReduce开发;利用像C++等写Map和Reduce执行效率也较高。
》3、两者都是Hadoop生态系统中的重要组成部分;两者都有自己的表达语言,其目的均是将MapReduce的实现简化;两者读写均是在Hdfs文件系统上;
hive有schema、table、分区等metadata概念,而pig没有;hive提供了Thrift server、jdbc接口等,而pig没有;
pig提供了ls cat等经典命令而hive没有;pig相比hive相对轻量;pig比hive具有更强的定制能力。
4》利用sqoop或kettle等ETL工具在hadoop和关系型数据库之间进行数据迁移;
hadoop主要用于日终批量数据处理,主要应用OLAP场景,关系型数据库可应用于OLAP和OLTP场景;
常日终利用hadoop处理完的结果数据会存入关系型数据库如mysql中,以偏做进一步的报表或BI分析。
|
|