话题讨论：菜鸟必看 Hadoop 入门到精通

kuaileshizhe200 · 发表于 2014-4-8 12:46

平时，用关系数据库的多，有空了也了解下

Detaillee · 发表于 2014-4-8 12:48

本帖最后由 Detaillee 于 2014-4-8 12:48 编辑

愚见：
》1、scale-up一般采用share-anything的技术架构，主要通过升级硬件来应对不断增长的系统压力，其主要优点是系统扩展起来较为方便、能快速响应压力需求等优点；但由于其扩展能力有限，当系统压力达到一定程度后，一方面扩展起来成本较高；另一方面其性能不会随着硬件的升级而线性增长，当扩展到极限的时候，性能就存在极限性。

》2、Streaming优势：任何支持标准输入输出的语言均可以无缝的接入hadoop平台；程序员可以使用最熟悉的语言进行MapReduce开发；利用像C++等写Map和Reduce执行效率也较高。

》3、两者都是Hadoop生态系统中的重要组成部分；两者都有自己的表达语言，其目的均是将MapReduce的实现简化；两者读写均是在Hdfs文件系统上；
hive有schema、table、分区等metadata概念，而pig没有；hive提供了Thrift server、jdbc接口等，而pig没有；
pig提供了ls cat等经典命令而hive没有；pig相比hive相对轻量；pig比hive具有更强的定制能力。

4》利用sqoop或kettle等ETL工具在hadoop和关系型数据库之间进行数据迁移；
hadoop主要用于日终批量数据处理，主要应用OLAP场景，关系型数据库可应用于OLAP和OLTP场景；
常日终利用hadoop处理完的结果数据会存入关系型数据库如mysql中，以偏做进一步的报表或BI分析。