楼主: hwayw

参与有奖,吐槽Hadoop技术

[复制链接]
论坛徽章:
11
奥运纪念徽章
日期:2012-11-28 09:37:30马上加薪
日期:2014-03-20 16:14:11马上有对象
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11马上有房
日期:2014-03-20 16:14:11马上有车
日期:2014-03-20 16:13:24ITPUB社区12周年站庆徽章
日期:2013-10-17 13:56:39ITPUB社区12周年站庆徽章
日期:2013-10-08 17:44:422013年新春福章
日期:2013-02-25 14:51:24ITPUB官方微博粉丝徽章
日期:2012-12-11 17:06:47
31#
发表于 2014-8-6 21:48 | 只看该作者
楼主你提的问题太高深了,我都答不上来。
只能回答第7个问题了。
我觉得Hadoop在未来5年内都不会过时,而且应该是往好的方向发展。
样章草草的看了几页,感觉概念性比较强,实际操作不多。不过书名都叫高级编程了,也无需纠结是否要有详细的代码和步骤。
另外我没目录中没有看到关于yarn的章节?

使用道具 举报

回复
panda_rabbit 该用户已被删除
32#
发表于 2014-8-7 20:58 | 只看该作者
为什么google放弃了MapReduce?

使用道具 举报

回复
论坛徽章:
0
33#
发表于 2014-8-8 09:42 | 只看该作者
支持,正在学习中

使用道具 举报

回复
招聘 : 数据库管理员
论坛徽章:
275
生肖徽章2007版:鼠
日期:2009-11-25 17:01:33生肖徽章2007版:牛
日期:2009-02-07 09:37:19生肖徽章2007版:虎
日期:2008-09-28 13:40:38生肖徽章2007版:兔
日期:2009-09-10 11:22:26生肖徽章2007版:龙
日期:2012-08-10 14:09:58生肖徽章2007版:蛇
日期:2013-02-25 15:21:30生肖徽章2007版:马
日期:2009-03-10 21:15:36生肖徽章2007版:羊
日期:2009-09-10 11:27:42生肖徽章2007版:猴
日期:2009-02-10 09:47:38生肖徽章2007版:鸡
日期:2012-09-29 11:39:23
34#
发表于 2014-8-11 09:03 | 只看该作者
只想对hadoop说一声:想说爱你不容易啊!

1、无从下手:系统太庞大,不知道该从哪学起,只用过Apache做JBoss的cluster,其它的暂时没用过,不知道能不能学;
2、问了一下度娘,给我的感觉是Hadoop和IBM MQ从原理上有点相似,不知道对不对;
3、不知道哪里有可以系统学习Hadoop的培训;
4、学完了能干啥?

使用道具 举报

回复
论坛徽章:
1
2012新春纪念徽章
日期:2012-01-04 11:58:44
35#
发表于 2014-8-11 17:37 | 只看该作者
buptdream 发表于 2014-8-4 09:38
支持hadoop,呵呵

读的太仔细了

使用道具 举报

回复
论坛徽章:
10
ITPUB 11周年纪念徽章
日期:2012-10-09 18:09:19itpub13周年纪念徽章
日期:2014-10-08 15:17:53itpub13周年纪念徽章
日期:2014-10-08 15:17:53itpub13周年纪念徽章
日期:2014-10-08 15:17:53马上有钱
日期:2014-02-18 16:43:092014年新春福章
日期:2014-02-18 16:43:09优秀写手
日期:2014-02-18 06:00:11ITPUB社区12周年站庆徽章
日期:2013-10-08 15:00:342013年新春福章
日期:2013-02-25 14:51:24itpub13周年纪念徽章
日期:2014-10-08 15:17:53
36#
发表于 2014-8-13 00:54 | 只看该作者
哎,还怎么吐槽啊,都半夜1点了还在看hive源码,查相关问题,看MR运行机制。 最近遇到瓶颈问题,hive 与 hbase对接,将hbase作为hive的存储,在hive中进行查询分析,功能、性能等等一大堆问题。 希望早点能解决掉这个大的问题。希望能中奖得书啊,我可是很认真学习的同学哦!!!

使用道具 举报

回复
求职 : 数据分析/ETL
论坛徽章:
1
2014年世界杯参赛球队: 葡萄牙
日期:2014-07-24 11:03:54
37#
发表于 2014-8-13 13:27 | 只看该作者
本帖最后由 sunny1889 于 2014-8-18 12:15 编辑

1. MapReduce在处理数据方面的优点有: 第一,这个模型非常方便使用,即使是对于完全没有分布式程序的程序员也是如此。它隐藏了并行计算的细节,错误容灾,本地优化以及负载均衡。MapReduce运行开发人员使用自己熟悉的语言进行开发,如Java,C#,Python,C++等等。
第二,对于大型的计算需求使用MapReduce可以非常轻松的完成。 比如说,Google使用MapReduce来提供网页搜索服务,排序,数据挖掘,机器学习,以及其他系统。
第三,通过MapReduce,应用程序可以在超过1000个节点的大型集群上运行,并且提供经过优化的错误容灾。
大数据对将来生活的影响不可估量,人们应该关注的不仅仅是大数据技术,还有大数据思想对生活的多方面渗透。大数据时代已然到来,任何人都无法避免。人处于社会之中,个人在现代国家下是以数据为存在方式,而数据采集之后的分析显得尤为重要,利用hadoop这个强大的框架能够分析大数据实现数据挖掘,大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。


7.随着Hadoop的不断发展,对于解决大数据提供了强大的工具,但是由于中文资料偏少,译者便做了本书的翻译。 本书不仅仅是对Hadoop的讲解,而且添加了很多新技术的说明,例如Oozie、DSL等。对于应用大数据的开发者来说,都是非常难得的资料。 本书作者BorisLublinsky、KevinT.Smith、AlexeyYakubovich以及技术编辑MichaelC.Daconta,都是活跃在大数据前言的前辈,对于hadoop都是有非常深刻的实践经验人。 在前言部分,作者也很详细的说明了写作本书的目的,并不是单纯的讲解hadoop,而是要从Hadoop的生态系统来分析如何共同工作的。而且作者很细心的对于每个章节适合的人群做了详细的说明。 作者通过13章节的讲解,将hadoop从基础到高级的应用展现在读者面前,作为本书的目录页清晰的展示了本书要讲解的详细内容。 在第一章中,作者用清晰详细的语言,阐述了hadoop的四个方面,即了解大数据、认识hadoop生态系统、熟悉hadoop、使用hadoop的企业级应用。 作者通过近几年的大数据量的翻倍数字来说明数据存储和应用对于目前发展的重要性,在对数据‘大数据’的描述中,也说出了大数据对于传统存储的挑战, 书中通过Yahoo的应用例子以及在过去10年的数据增长情况,来充分的说明了hadoop是为大数据提供了一个非常好的解决方案。 在书中的作者阐述了Hadoop之所以为一个生态系统,它包含大量的组件,从数据存储到数据集成、数据处理以及数据分析师的专用工具,而不同于一般意义上的工具软件的定义,hadoop更像是一个集合体。 书中也使用了一些配图,更清晰的阐述了本书的内容,使图书更有吸引力。对于Hadoop发行版的讲解更是配有表格进行了说明,清楚易理解。 在Hadoop开发企业级应用中的讲解中,更是通过阶层的模式进行了详细的说明,从用户访问到安全,再到数据源的实用,都详细的进行了介绍,让读者读后印象非常深刻,而且容易理解。 在第二章中的数据存储讲解中,首先是对HDFS的详细讲解和说明,对于晦涩难懂的地方,更是配有了彩图和实例代码进行了详细的说明,对于代码的讲解上也是更加的追求实战效果和模块方式。 文字的说明中,穿插的模型图片,更是让读者容易理解,书中丰富的代码量,也让开发者读起来很过瘾。

使用道具 举报

回复
论坛徽章:
6
ITPUB十周年纪念徽章
日期:2011-11-01 16:26:29咸鸭蛋
日期:2011-11-09 14:50:32咸鸭蛋
日期:2012-06-13 05:10:53三菱
日期:2013-09-17 09:52:46优秀写手
日期:2013-12-18 09:29:13马上加薪
日期:2014-10-15 18:26:41
38#
发表于 2014-8-14 18:55 | 只看该作者
正在学习hadoop.........

使用道具 举报

回复
论坛徽章:
8
红宝石
日期:2014-08-28 15:18:18紫水晶
日期:2014-08-28 15:18:42祖母绿
日期:2014-09-11 13:38:41itpub13周年纪念徽章
日期:2014-10-08 15:13:38马上有车
日期:2014-10-09 16:50:00蓝锆石
日期:2014-11-05 17:13:52itpub13周年纪念徽章
日期:2014-11-17 17:01:01蓝色妖姬
日期:2015-01-05 17:16:44
39#
发表于 2014-8-15 13:32 | 只看该作者
1、        MapReduce的强项和弱点是什么,以及我们如何自定义它以便更好地满足自己的需求?
MapReduce的优点,主要有两个方面:
其一,通过MapReduce这个分布式处理框架,不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和灾备管理等,这样将极大地简化程序员的开发工作;
其二,MapReduce的伸缩性非常好,也就是说,每增加一台服务器,其就能将差不多的计算能力接入到集群中,而过去的大多数分布式处理框架,在伸缩性方面都与MapReduce相差甚远。
MapReduce的缺点主要是:不适应实时应用的需求,只适用于OLAP的场景。从Map—>Reduce的过程中,产生了大量的I/O、及排序,严重损耗了处理性能。然而MapReduce程序模型还是处于很低级别,即需要开发者来书写客户程序,这些程序往往难于维护与重用。

2、为什么我们需要在MapReduce之上有一个额外的协调层,以及Oozie是怎么满足这个需求的?
Oozie是Hadoop生态圈里的工作流调度引擎,可以使用Oozie进行应用协作,简化多种应用的合并,并以一种非常灵活的方式将多种工具的工作串联起来。
Oozie还可以组合MapReduce作业,处理源数据并将其转换为中间数据。

3、我们如何使用特定领域语言(Domain-Specific Language,DSL)来简化MapReduce开发?
使用DSL简化MapReduce应该达到以下目的:
(1)提供一个简洁的,声明性的方法来陈述信息结构和工作方式
(2)对于特定领域专家(即数据分析师)直观的语言,隐藏数据存储和查询的复杂性
(3)很容易指定数据的组织方式来提高查询速度
(4)相比手写Java的MapReduce,代码有更小的开销
(5)提供扩展钩子,能够插入不同的格式和功能

4、每个人都在讲的实时Hadoop是什么,它可以做什么,以及它不能做什么?它的工作原理是什么?
实时Hadoop即:Apache Storm
对比Hadoop的批处理,Storm是个实时的、分布式以及具备高容错的计算系统。同Hadoop一样Storm也可以处理大批量的数据,然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时;也就是说,所有的信息都会被处理。Storm同样还具备容错和分布计算这些特性,这就让Storm可以扩展到不同的机器上进行大批量的数据处理。
Storm的使用场景:
1、流数据处理:Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中。
2、分布式RPC:由于Storm的处理组件都是分布式的,而且处理延迟都极低,所以Storm可以做为一个通用的分布式RPC框架来使用。
Storm的原理:Storm处理工作会委派给不同类型的组件,每个组件负责一项简单的、特定的处理任务。Storm集群的输入流由名为Spout的组件负责。Spout将数据传递给名为Bolt的组件,Bolt以某种方式处理这些数据。例如Bolt以某种存储方式持久化这些数据,或者将它们传递给另外的Bolt。你可以把一个Storm集群想象成一条由Bolt组件组成的链,每个Bolt对Spout暴露出来的数据做某种方式的处理。

5、我们如何确保Hadoop应用程序的安全,我们需要考虑什么,我们必须考虑什么安全隐患,以及处理这些问题有哪些方法?
   面对Hadoop应用程序的安全性问题,我们需要考虑:
(1)如何强制所有类型的客户端(比如web控制台和进程)上的用户及应用进行验证?
(2)如何确保服务不是流氓服务冒充的(比如流氓TaskTracker和Task,未经授权的进程向 DataNode 出示ID 以访问数据块等?)
(3)如何根据已有的访问控制策略和用户凭据强制数据的访问控制?
(4)如何实现基于属性的访问控制(ABAC)或基于角色的访问控制(RBAC)?
(5)怎么才能将Hadoop跟已有的企业安全服务集成到一起?
(6)如何控制谁被授权可以访问、修改和停止MapReduce作业?
(7)怎么才能加密传输中的数据?
(8)如何加密静态数据?
(9)如何对事件进行跟踪和审计,如何跟踪数据的出处?
(10)对于架设在网络上的Hadoop集群,通过网络途径保护它的最好办法是什么?

如何处理:
用Kerberos RPC (SASL/GSSAPI) 在RPC连接上做相互认证
强制执行HDFS的文件许可
用于后续认证检查的代理令牌
用于数据块访问控制的块访问令牌
用作业令牌强制任务授权
网络加密
……………..等等

6、我们如何将自己的Hadoop应用程序迁移到云中,以及这样做有哪些重要的考虑因素?
Hadoop应用迁移到云,要注意以下因素:
1)Hadoop最好是运行在物理服务器上
Hadoop的数据节点部署到各物理服务器上,采用各物理服务器自己的存储设备,不要使用共享存储设备。
2)Hadoop是机架感知的
Hadoop的数据节点安装到机架上,每个机架通常保护多种数据节点服务器,其上有机架交换机处理网络通信。
机架感知意味着Name节点知道每一个数据节点服务器位于哪个机架,在哪里,这能确保Hadoop写数据到3个不同机架的数据节点上,有助于预防数据丢失(比如机架故障导致的)。

7、阅读样章后,本书的看法,您觉得hadoop过时了吗?
没有,目前Hadoop已经涵盖了大部分互联网应用场景,尤其是Hadoop YARN出现之后,很多系统可以跟Hadoop友好地结合起来,共同完成之前难以完成的任务。总起来说,目前Hadoop涵盖了从数据收集、到分布式存储,再到分布式计算的各个领域,在各领域都有自己独特优势:
数据收集:Hadoop提供了分布式收集工具,包括Flume、Sqoop等,可以从分布式离散的数据源(WEB服务、传统关系型数据库等)中收集数据,导入中央化的存储系统中。
分布式存储:包括无结构化存储HDFS、半结构化存储HBase等,满足大部分离线存储和在线存储需求,随着HDFS本身的完善(比如新特性HDFS Cache、支持异构存储介质等)和新型存储文件格式的出现(包括ORCFile、Parquet等),HDFS将越来越强大。
分布式计算:在Hadoop 1.0时代,Hadoop主要还是面向离线批处理计算的,随着Hadoop 2.0的出现及稳定,它已经逐步开始支持交互式计算和实时计算,尤其是Hadoop YARN出现后,可以允许多种类型的计算任务运行在一个集群中,用户也可以根据自己需要开发适合自己的计算框架。总之,Hadoop在高速发展和完善中,它在不断扩展自己的优势。
样章的内容主要介绍了Hadoop的生态系统,过于基础,期待后续。

使用道具 举报

回复
论坛徽章:
2
40#
发表于 2014-8-16 18:26 | 只看该作者
支持啊

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表