话题讨论：菜鸟必看 Hadoop 入门到精通

听海★蓝心梦 · 发表于 2014-4-9 09:06

1.随着数据规模的增长，如何扩展系统呢？有两种主流的方法，向上扩展与向外扩展。向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力，而是将数据处理任务分发给越来越多的机器。请比较这两种方法的优缺点。
肯定支持向外扩展，这样能够降低不少成本。

2.有些开发者会批评Hadoop的一切设计都是以Java为中心，而Hadoop的团队一直在努力解决这个问题。难道一个用Java语言实现的项目不该以Java为中心么？当然我们使用非Java语言也可以操作Hadoop，任何可以读写标准输入和输出的程序都可以用于Streaming，比如像Ruby或Python这样的动态语言编写的程序等。请谈谈Streaming有哪些优势？

3.Hive是建立在Hadoop基础上的数据仓库,它使用MapReduce对存储在HDFS上数据进行分析.它专门定义了一种类SQL的查询语言.而基于Hadoop大规模数据分析平台的另一种工具Pig,也具有相似的功能.请问Hive与Pig之间有什么区别?哪种工具更好?
还是更喜欢pig，感觉简单一些。

4. 用户可以把存储在Hadoop中的数据近似看成关系数据库,但它终究没有完全实现SQL的标准.在性能与规模特征方面与传统关系数据库有很大区别.那么如何实现Hadoop集群与关系数据库的协同工作呢?
HADOOP和关系型数据库不是一回事。Hadoop是分布式，而且也不能算是一个数据库产品。

liucj2004 · 发表于 2014-4-9 10:31

支持一下

只看该作者 · 发表于 2014-4-9 10:34

纯支持

liucj2004 · 发表于 2014-4-9 10:35

本帖最后由 liucj2004 于 2014-4-9 10:36 编辑

支持一下，不小心发重复了- -

死脑筋 · 发表于 2014-4-9 11:26

前段时间想好好自学大象，可环境搭建完成搭建了几个外部支持“枝叶”，后看到开发和运维的大部分都是与java代码相关，而本人是个语言盲，尤其听到java更是避之远之，瞬间自学的兴趣降了下来，难道java盲真的不适合剖析大象吗，如何是好。。。。

yiluohuanghun00 · 发表于 2014-4-9 12:37

强烈支持

cheriston · 发表于 2014-4-9 12:58

我正在学习hadoop,希望能得到这本书的赠送，能够实战hadoop,谢谢版主了！

StanleyLog · 发表于 2014-4-9 13:42

我们的项目现在也正在考虑使用hadoop

就地重生 · 发表于 2014-4-9 13:48

最近正在学习Hadoop中，Hadoop的核心MapReduce执行流程总结如下：
执行步骤：
1. map任务处理
1.1 读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。
1.2 写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。
1.3 对输出的key、value进行分区。
1.4 对不同分区的数据，按照key进行排序、分组。相同key的value放到一个集合中。
1.5 (可选)分组后的数据进行归约。
2.reduce任务处理
2.1 对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。
2.2 对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑，对输入的key、value处理，转换成新的key、value输出。
2.3 把reduce的输出保存到文件中。

zcl32 · 发表于 2014-4-9 13:55

1. 向上扩展对于软件技术要求比较低,几乎不需要进行应用软件层次的修改,但是由于cpu/内存/IO等硬件的限制，扩展很容易达到极限;而向外扩展对分布式技术的实现和维护的要求更高,可以实现更大规模的扩展.
2. Java作为一个跨平台的语言，拥有众多的开发者和类库，相比于c/c++还是有很大的优势的。Streaming优势：muqian驻留的支持标准输入输出的语言都可以无缝的接入hadoop平台；程序员可以使用最熟悉的语言进行MapReduce开发；
3. Hive是SQL的一种实现，目前也在添加越来越多的SQL的特性，例如where里面的子查询，data/varchar等数据类型的支持，同时hive支持使用jdbc/odbc进行访问.hive更适合具有sql经验的人使用，而pig更适合进行ETL操作；
4。Hadoop集群与关系数据库的协同工作上，关系数据库进行关键的操作型业务数据的处理，同时为Hadoop集群提供一些核心的数据，例如主数据服务。由于目前前端展现工具的限制，例如API访问等，关系数据库还可以提供针对Hadoop集群聚集计算好的数据集市的联机分析处理（将来可能慢慢转移到Hadoop集群）；Hadoop集群可以进行复杂的ETL操作，历史数据的归档存储，非结构化的文档处理以及超大型数据表的处理等。Hadoop集群与关系数据库应当使一个互为补充的关系。