楼主: pipihappy8888

话题讨论:菜鸟必看 Hadoop 入门到精通

[复制链接]
论坛徽章:
13
生肖徽章:鼠
日期:2007-03-01 11:01:36生肖徽章:猪
日期:2007-03-01 11:05:41生肖徽章:狗
日期:2007-03-01 11:05:23生肖徽章:鸡
日期:2007-03-01 11:05:06生肖徽章:猴
日期:2007-03-01 11:04:52生肖徽章:羊
日期:2007-03-01 11:04:38生肖徽章:马
日期:2007-03-01 11:03:29生肖徽章:蛇
日期:2007-03-01 11:03:10生肖徽章:龙
日期:2007-03-01 11:02:55生肖徽章:兔
日期:2007-03-01 11:02:29
81#
发表于 2014-4-22 10:16 | 只看该作者
刚开始关注,学习中

使用道具 举报

回复
论坛徽章:
4
奥运会纪念徽章:艺术体操
日期:2008-10-24 13:26:02ITPUB9周年纪念徽章
日期:2010-10-08 09:31:21ITPUB十周年纪念徽章
日期:2011-11-01 16:21:152012新春纪念徽章
日期:2012-01-04 11:51:22
82#
发表于 2014-4-22 11:47 | 只看该作者
正在学习hadoop

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
83#
发表于 2014-4-26 12:20 | 只看该作者
支持hadoop

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
84#
发表于 2014-4-26 12:21 | 只看该作者
hadoop现在薪酬比较高

使用道具 举报

回复
论坛徽章:
0
85#
发表于 2014-4-28 10:05 | 只看该作者
学习学习了。

使用道具 举报

回复
论坛徽章:
127
茶鸡蛋
日期:2012-01-16 14:24:41鲜花蛋
日期:2012-06-06 14:48:18双黄蛋
日期:2013-01-07 21:07:482013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2013-12-18 09:29:082014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上加薪
日期:2014-03-18 09:57:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11
86#
 楼主| 发表于 2014-4-29 17:28 | 只看该作者
1.随着数据规模的增长,如何扩展系统呢?有两种主流的方法,向上扩展与向外扩展。向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力,而是将数据处理任务分发给越来越多的机器。请比较这两种方法的优缺点。

在某些情况下,工作负载的增量超出了单台整体向上扩展的服务器的能力?这时该怎么办呢?最好的办法是使用2台,或者更多服务器.而在极端情况下,向上扩展架构必然会加入向外扩展的策略,将二者结合起来.尽管这样同时吸收了两种办法的部分优点,但是也综合了两种方法的缺陷和成本.向上扩展架构的终极趋势和成本曲线导致其在大数据领域鲜有应用,而向外扩展架构成为了事实上的标准.

2.有些开发者会批评Hadoop的一切设计都是以Java为中心,而Hadoop的团队一直在努力解决这个问题。难道一个用Java语言实现的项目不该以Java为中心么?当然我们使用非Java语言也可以操作Hadoop,任何可以读写标准输入和输出的程序都可以用于Streaming,比如像Ruby或Python这样的动态语言编写的程序等。请谈谈Streaming有哪些优势?

Streaming的最大优势在于,使用它比使用Java更快的实现开发,用户只需编写脚本,并把参数传给Streaming jar文件,因此可以明显的加快开发进度。
3.Hive是建立在Hadoop基础上的数据仓库,它使用MapReduce对存储在HDFS上数据进行分析.它专门定义了一种类SQL的查询语言.而基于Hadoop大规模数据分析平台的另一种工具Pig,也具有相似的功能.请问Hive与Pig之间有什么区别?哪种工具更好?

二者最大的区别在于对作业执行的控制粒度。HiveQL就像SQL一样,它只定义要执行的操作,却不管这些操作如何实现。Hive在运行时的工作模式类似传统关系数据库的查询规划期。

到底是选用Hive还是Pig最终取决于用户需求。如果用户更希望使用熟悉的SQL接口操作数据,它可以使用Hadoop中的数据用于更广泛的受众,那么很明显应该选用Hive。但如果有专门人员以数据流水线的方式考虑问题,并需要对作业运行方式进行更细粒度的控制,那么Pig会是一个更好的选择。

使用道具 举报

回复
论坛徽章:
19
优秀写手
日期:2013-12-18 09:29:102015年新春福章
日期:2015-03-04 14:55:13itpub13周年纪念徽章
日期:2014-10-08 15:20:46itpub13周年纪念徽章
日期:2014-10-08 15:20:46itpub13周年纪念徽章
日期:2014-10-08 15:20:46itpub13周年纪念徽章
日期:2014-10-08 15:20:46itpub13周年纪念徽章
日期:2014-10-08 15:20:46itpub13周年纪念徽章
日期:2014-10-08 15:20:46itpub13周年纪念徽章
日期:2014-10-08 15:20:46蓝色妖姬
日期:2014-08-28 15:17:25
87#
发表于 2014-5-7 08:15 | 只看该作者
买回来看了一段时间了,还有很多部太了解的。但确实是一本入门好书,推荐

使用道具 举报

回复
论坛徽章:
0
88#
发表于 2014-6-30 15:25 | 只看该作者
了解一下

使用道具 举报

回复
论坛徽章:
5
2015年新春福章
日期:2015-03-04 14:55:132015年新春福章
日期:2015-03-06 11:59:47秀才
日期:2015-09-10 17:13:35秀才
日期:2015-09-10 17:18:24秀才
日期:2015-10-08 17:57:58
89#
发表于 2014-7-4 13:55 | 只看该作者
这多累啊

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表