话题讨论：菜鸟必看 Hadoop 入门到精通

ydjh460 · 发表于 2014-4-8 15:35

1.向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力，而是将数据处理任务分发给越来越多的机器即Mapreduce的思想，mapreduce最大的缺点是不支持事务，失去了利用索引来访问数据的特性，而关系型数据库即向上扩展缺点则是成本大。
转载一篇关于MapReduce缺点的文章，仅供参考：http://www.csdn.net/article/2010-11-29/282705
2.Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，他的优势就是它可让从事各行各业的技术人员也可以使用Hadoop处理数据。
4.HIVE简单来讲是为传统数据库工程师服务的，可以把sql转换为MapReduce，Pig是一种编程语言，Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量，它简化了Hadoop常见的工作任务。Hive通过是类SQL语句操作的，一次就查询出最终结果。而Pig解决问题是一步一步推导的过程。
5.Hadoop收集和分析海量的非结构化数据并生成包括日志、事件数据、搜索引擎结果、社交网站内容等PB级非结构化数据，而继续采用关系型数据库分析交易数据、客户信息和通话记录等传统的结构化数据，综合利用他们得到的结果。通过将数据分类实现协同工作。

iongxiao · 发表于 2014-4-8 15:42

1.随着数据规模的增长，如何扩展系统呢？有两种主流的方法，向上扩展与向外扩展。向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力，而是将数据处理任务分发给越来越多的机器。请比较这两种方法的优缺点。
两种方式的主要不同点在于硬件成本的差异上
向上扩展可能在维护层面更方便
向外扩展可以提供更好的容错功能

2、Hive是建立在Hadoop基础上的数据仓库,它使用MapReduce对存储在HDFS上数据进行分析.它专门定义了一种类SQL的查询语言.而基于Hadoop大规模数据分析平台的另一种工具Pig,也具有相似的功能.请问Hive与Pig之间有什么区别?哪种工具更好?

pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。
Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS，并允许使用类似于SQL语法进行数据查询

枫哦哦哦哦哦 · 发表于 2014-4-8 17:15

支持hadoop

crazypeter2005 · 发表于 2014-4-8 17:17

支持下。
1.随着数据规模的增长，如何扩展系统呢？有两种主流的方法，向上扩展与向外扩展。向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力，而是将数据处理任务分发给越来越多的机器。请比较这两种方法的优缺点。
迁移到更大服务器不需要对现有的软件系统进行改动，节省了软件方面的成本。但是硬件的成本却呈几何级递增。迁移到更多的机器则需要对软件架构进行改动甚至重写，对复杂的复合系统不太现实。硬件成本上会很占有优势，但是不可见的软件成本会相对高出不少来。

2.有些开发者会批评Hadoop的一切设计都是以Java为中心，而Hadoop的团队一直在努力解决这个问题。难道一个用Java语言实现的项目不该以Java为中心么？当然我们使用非Java语言也可以操作Hadoop，任何可以读写标准输入和输出的程序都可以用于Streaming，比如像Ruby或Python这样的动态语言编写的程序等。请谈谈Streaming有哪些优势？
Java是业界的无冕之王，语言之争无益。但是Streaming的确很让人期待。我不了解。

3.Hive是建立在Hadoop基础上的数据仓库,它使用MapReduce对存储在HDFS上数据进行分析.它专门定义了一种类SQL的查询语言.而基于Hadoop大规模数据分析平台的另一种工具Pig,也具有相似的功能.请问Hive与Pig之间有什么区别?哪种工具更好?
期待了解。

4. 用户可以把存储在Hadoop中的数据近似看成关系数据库,但它终究没有完全实现SQL的标准.在性能与规模特征方面与传统关系数据库有很大区别.那么如何实现Hadoop集群与关系数据库的协同工作呢?
期待了解。