参与有奖，吐槽Hadoop技术

wolfop · 发表于 2014-8-5 18:47

本来Hadoop设计给做半结构化非结构化数据的预处理和简单计算的，现在变成要取代一切。
最应该吐槽的不是hadoop本身，而是那些炒作hadoop的人，把IT变成时尚产业。

qingduo04 · 发表于 2014-8-5 22:00

tanzuwen 发表于 2014-8-5 16:37
好东东，可惜只有前两章，能把整本都发出来么，谢谢

正本发出来，就不用卖书了

harkjim · 发表于 2014-8-5 22:28

强烈支持啊。

Detaillee · 发表于 2014-8-5 22:32

本帖最后由 Detaillee 于 2014-8-28 23:18 编辑

ps：本书人气很高，竞争很激烈呀！~
我来唠叨下，对书还是蛮期待的。
1、MapReduce的强项和弱点是什么，以及我们如何自定义它以便更好地满足自己的需求？
MR的强项在于批处理能力，能处理TB、PB级别的数据；非结构化半结构化数据处理有其独特优势；
弱点：实时计算能力较弱、网络IO较高等；
相信大部分公司都是基于Hive做MR运算，但也有一些业务较为复杂的Hive不好实现的需要自定义java代码或其它语言来进行MR开发。比如自定义InputFormat和OutFormat等~~

2、为什么我们需要在MapReduce之上有一个额外的协调层，以及Oozie是怎么满足这个需求的？
单个MR任务仅是完成单项任务，实际生产过程中往往需要多个MR任务才能协同完成工作，且MR之间也往往有依赖关系存在，因此MR之上构建额外的协调层有其必要性。
Oozie通过XML配置的方式实现MR任务之间的协调及工作流设计。ps：可以和kettle配合使用，完成复杂MR任务流计算。

3、我们如何使用特定领域语言(Domain-Specific Language，DSL)来简化MapReduce开发？
通过Hive 的类SQL简化MR开发；
通过hadoop提供的streaming thrit接口，利用Python等脚本语言快速实现MR开发。

4、每个人都在讲的实时Hadoop是什么，它可以做什么，以及它不能做什么？它的工作原理是什么？
毫无疑问，实时hadoop是hadoop发展的必然趋势，特别是以storm、Esper等复杂事件引擎为代表的流处理技术的兴起，是对hadoop生态系统的重要补充。
实时hadoop是什么：实时hadoop即利用storm等数据流处理引擎来实现事件的实时处理、实时预警等功能；
可以做什么：实时的数据流处理，可以用于信用卡欺诈、异常交易监控等对实时性要求比较高的领域；
不能做什么：显然对于大数据量的批处理计算MR还是取主导作用，流处理技术处理起来还是力不从心；
工作原理：源端agent实时捕获变化数据流，将捕获到的数据流传入复杂事件引擎，通过EPL语言等实现复杂事件流的过滤、聚合、触发等处理。

6、我们如何将自己的Hadoop应用程序迁移到云中，以及这样做有哪些重要的考虑因素？
从我所在的行业和公司来讲，短时间内不会考虑将Hadoop应用迁移至云中，数据安全性是首要考虑因素。

7、阅读样章后，本书的看法，您觉得hadoop过时了吗?
读了样章，前面两章相对还是比较偏基础，期待后面更多精彩章节，特别是Oozie章节！
关于hadoop过时问题：hadoop其实已经成为大数据处理的事实上的标准，而且随着时间的推移，其生态系统会越来越庞大并逐步弥补如在实时数据查询与数据流处理方面的缺陷，因此我想hadoop在10年内应该都不会过时。
当然今年兴起的以spark为代表的内存计算技术，也不能完全取代hadoop，个人认为其也是hadoop生态系统的一个重要补充和组成部分。

ohz_wl081 · 发表于 2014-8-5 22:33

tanzuwen 发表于 2014-8-5 16:37
好东东，可惜只有前两章，能把整本都发出来么，谢谢

不带这么欺负人的

wisdomone1 · 发表于 2014-8-6 12:55

不错的话题！

supengmmer · 发表于 2014-8-6 16:42

3.
完成数据处理分析任务，map/reduce需要开发人员写很多程序完成，而传统的数据分析只需要开发人员写标准SQL就行了，毕竟RDBMS已经发展成熟了那么多年，所以为了简化开发人员的工作，或者说为了推广mr, 使很多传统数据分析师能提高效率，而不至于面对新事物map/reduce而望而却步，于是有了hive，hive可以写出类SQL语句，但本质上还是map/reduce运行。同理，hbase的开源项目phoenix也是为了简化hbase的开发，而可以使用类sql操作hbase。我觉得这是一个很好的进步，可以加速推广map/reduce。但map/reduce本身还有一个重大问题，就是速度慢，这是本身设计的原因，大量中间结果不停在磁盘IO存取。最近几年兴起的spark，cloudera的impala等，都是为了解决这一问题而不断在发展，因为更多的采用分布式内存计算，速度越来越快。

7.
一般的hadoop书籍对hadoop各种组件都有所涉猎，看了此书样章，相比于前者，此书更多详细讲解了hadoop的map/reduce,任务流Ooize,以及安全问题，还是很有特点，相信一套书看下来，对hadoop的离线分析处理这块就能得心应手了，虽然对目前很火热的实时处理这块涉及比较少，但这毕竟不是本书的重点，而且书籍相比于高速发展的开源世界还是有一定滞后性。
hadoop并没有过时，目前hadoop更多的朝分布式计算平台这一目标发展，上面可以有map/reduce这种离线处理框架，也可以有storm、spark等实时处理，对各种数据分析框架正在统筹式的发展，随着资源隔离、管理、集群管理、性能等越来越完善，hadoop有望成为大数据解决方案标准。

yywangsx · 发表于 2014-8-6 19:15

支持，正在学习中……

chszs · 发表于 2014-8-6 20:20

1、MapReduce的强项和弱点是什么，以及我们如何自定义它以便更好地满足自己的需求？
MapReduce的强项是
1）能并行处理海量数据集
2）简化了程序员的开发工作，把处理过程的繁琐细节都给隐藏了
3）可伸缩性非常优秀（增加服务器就能增加相应的计算能力）
MapReduce的弱点是
1）不适合实时类的应用
2）在处理各种复杂类型的数据时有点力不从心
要自定义MapReduce，通常都是根据应用场景来确定的。
比如对输出结果有要求，那么就需要对MapReduce的输出进行自定义。因为MapReduce框架对数据处理结果的输出会根据key值进行默认的排序，所以我们可以自定义输出。
又比如，可以用MapReduce的InputFormat来切分输入文件，以此更好的适应我们的需求。

2、为什么我们需要在MapReduce之上有一个额外的协调层，以及Oozie是怎么满足这个需求的？
Oozie是Hadoop生态圈里的工作流调度引擎，可以使用Oozie进行应用协作，简化多种应用的合并，并以一种非常灵活的方式将多种工具的工作串联起来。
Oozie还可以组合MapReduce作业，处理源数据并将其转换为中间数据。

3、我们如何使用特定领域语言(Domain-Specific Language，DSL)来简化MapReduce开发？
学习MapReduce编程是很有学习曲线的，这个学习曲线有点陡峭。
而使用特定领域语言也可以写MapReduce程序。
比如Concurrent公司发布的Cascading特定领域语言，它支持在Apache Hadoop平台上构建数据应用。
Cascading特定领域语言支持Hadoop 2.x，支持YARN。
Cascading特定领域语言实现了基于管道的面向大规模数据工作流的函数式编程。
主页：http://www.cascading.org/

4、每个人都在讲的实时Hadoop是什么，它可以做什么，以及它不能做什么？它的工作原理是什么？
每个人都在讲的实时Hadoop是Apache Storm。
Storm可以在计算机集群中开发实时计算应用。
除了Storm，还有些实时Hadoop，比如Apache Drill、Cloudera Impala、Stinger Initiative、Tez等。
Storm的原理：Storm处理工作会委派给不同类型的组件，每个组件负责一项简单的、特定的处理任务。Storm集群的输入流由名为Spout的组件负责。Spout将数据传递给名为Bolt的组件，Bolt以某种方式处理这些数据。例如Bolt以某种存储方式持久化这些数据，或者将它们传递给另外的Bolt。你可以把一个Storm集群想象成一条由Bolt组件组成的链，每个Bolt对Spout暴露出来的数据做某种方式的处理。

5、我们如何确保Hadoop应用程序的安全，我们需要考虑什么，我们必须考虑什么安全隐患，以及处理这些问题有哪些方法？
要确保Hadoop的安全，我们需要注意：
1）非法添加从节点
2）非法添加客户端
3）非法的应用连接
4）用户身份造假
5）Web界面的任意访问
处理这些问题可以采取：
1）使用安全协议，如Simple协议、Kerberos协议等
2）设置用户组及权限
3）确定数据的隐私保护策略
4）划分敏感数据
5）对敏感数据采用隐藏和加密技术

6、我们如何将自己的Hadoop应用程序迁移到云中，以及这样做有哪些重要的考虑因素？
Hadoop应用迁移到云，要注意以下因素：
1）Hadoop最好是运行在物理服务器上
Hadoop的数据节点部署到各物理服务器上，采用各物理服务器自己的存储设备，不要使用共享存储设备。
2）Hadoop是机架感知的
Hadoop的数据节点安装到机架上，每个机架通常保护多种数据节点服务器，其上有机架交换机处理网络通信。
机架感知意味着Name节点知道每一个数据节点服务器位于哪个机架，在哪里，这能确保Hadoop写数据到3个不同机架的数据节点上，有助于预防数据丢失（比如机架故障导致的）。

7、阅读样章后，本书的看法，您觉得hadoop过时了吗?
没有。
像Spark、Storm等的兴起，让很多人感觉到Hadoop似乎过时了，但真是这样吗？我不同意。
首先还是要对Hadoop有一个正确的认识，Hadoop不是大数据解决方案的万能钥匙。
根据不同的应用场景，应选择最适合的技术。
比如离线处理选择MapReduce，在线处理选择Storm或Impala，迭代计算选择Spark，流处理选择S4。
不要低估Hadoop，Hadoop的生态圈如此的庞大，很多很多优秀的程序员都在改进Hadoop，或者是为Hadoop添砖加瓦，Hadoop还有无穷的生命力。
样章只提供了前两章的内容，太少了点，意犹未尽啊！

crakme · 发表于 2014-8-6 21:48

楼主你提的问题太高深了，我都答不上来。
只能回答第7个问题了。
我觉得Hadoop在未来5年内都不会过时，而且应该是往好的方向发展。
样章草草的看了几页，感觉概念性比较强，实际操作不多。不过书名都叫高级编程了，也无需纠结是否要有详细的代码和步骤。
另外我没目录中没有看到关于yarn的章节？