|
本帖最后由 sunny1889 于 2014-8-18 12:15 编辑
1. MapReduce在处理数据方面的优点有: 第一,这个模型非常方便使用,即使是对于完全没有分布式程序的程序员也是如此。它隐藏了并行计算的细节,错误容灾,本地优化以及负载均衡。MapReduce运行开发人员使用自己熟悉的语言进行开发,如Java,C#,Python,C++等等。
第二,对于大型的计算需求使用MapReduce可以非常轻松的完成。 比如说,Google使用MapReduce来提供网页搜索服务,排序,数据挖掘,机器学习,以及其他系统。
第三,通过MapReduce,应用程序可以在超过1000个节点的大型集群上运行,并且提供经过优化的错误容灾。
大数据对将来生活的影响不可估量,人们应该关注的不仅仅是大数据技术,还有大数据思想对生活的多方面渗透。大数据时代已然到来,任何人都无法避免。人处于社会之中,个人在现代国家下是以数据为存在方式,而数据采集之后的分析显得尤为重要,利用hadoop这个强大的框架能够分析大数据实现数据挖掘,大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。
7.随着Hadoop的不断发展,对于解决大数据提供了强大的工具,但是由于中文资料偏少,译者便做了本书的翻译。 本书不仅仅是对Hadoop的讲解,而且添加了很多新技术的说明,例如Oozie、DSL等。对于应用大数据的开发者来说,都是非常难得的资料。 本书作者BorisLublinsky、KevinT.Smith、AlexeyYakubovich以及技术编辑MichaelC.Daconta,都是活跃在大数据前言的前辈,对于hadoop都是有非常深刻的实践经验人。 在前言部分,作者也很详细的说明了写作本书的目的,并不是单纯的讲解hadoop,而是要从Hadoop的生态系统来分析如何共同工作的。而且作者很细心的对于每个章节适合的人群做了详细的说明。 作者通过13章节的讲解,将hadoop从基础到高级的应用展现在读者面前,作为本书的目录页清晰的展示了本书要讲解的详细内容。 在第一章中,作者用清晰详细的语言,阐述了hadoop的四个方面,即了解大数据、认识hadoop生态系统、熟悉hadoop、使用hadoop的企业级应用。 作者通过近几年的大数据量的翻倍数字来说明数据存储和应用对于目前发展的重要性,在对数据‘大数据’的描述中,也说出了大数据对于传统存储的挑战, 书中通过Yahoo的应用例子以及在过去10年的数据增长情况,来充分的说明了hadoop是为大数据提供了一个非常好的解决方案。 在书中的作者阐述了Hadoop之所以为一个生态系统,它包含大量的组件,从数据存储到数据集成、数据处理以及数据分析师的专用工具,而不同于一般意义上的工具软件的定义,hadoop更像是一个集合体。 书中也使用了一些配图,更清晰的阐述了本书的内容,使图书更有吸引力。对于Hadoop发行版的讲解更是配有表格进行了说明,清楚易理解。 在Hadoop开发企业级应用中的讲解中,更是通过阶层的模式进行了详细的说明,从用户访问到安全,再到数据源的实用,都详细的进行了介绍,让读者读后印象非常深刻,而且容易理解。 在第二章中的数据存储讲解中,首先是对HDFS的详细讲解和说明,对于晦涩难懂的地方,更是配有了彩图和实例代码进行了详细的说明,对于代码的讲解上也是更加的追求实战效果和模块方式。 文字的说明中,穿插的模型图片,更是让读者容易理解,书中丰富的代码量,也让开发者读起来很过瘾。
|
|