楼主: pipihappy8888

话题讨论:菜鸟必看 Hadoop 入门到精通

[复制链接]
求职 : 数据库管理员
论坛徽章:
35
ITPUB社区12周年站庆徽章
日期:2013-11-07 10:34:33秀才
日期:2016-02-18 09:24:30秀才
日期:2016-01-21 13:37:04ITPUB14周年纪念章
日期:2015-10-26 17:23:44秀才
日期:2015-09-06 10:42:32天枰座
日期:2015-07-14 10:53:552015年新春福章
日期:2015-03-06 11:59:47喜羊羊
日期:2015-03-04 14:54:42itpub13周年纪念徽章
日期:2014-10-08 15:19:03目光如炬
日期:2014-06-16 06:00:12
21#
发表于 2014-4-8 15:35 | 只看该作者
1.向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力,而是将数据处理任务分发给越来越多的机器即Mapreduce的思想,mapreduce最大的缺点是不支持事务,失去了利用索引来访问数据的特性,而关系型数据库即向上扩展缺点则是成本大。
转载一篇关于MapReduce缺点的文章,仅供参考:http://www.csdn.net/article/2010-11-29/282705
2.Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,他的优势就是它可让从事各行各业的技术人员也可以使用Hadoop处理数据。
4.HIVE简单来讲是为传统数据库工程师服务的,可以把sql转换为MapReduce,Pig是一种编程语言,Pig相比Hive相对轻量,它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量,它简化了Hadoop常见的工作任务。Hive通过是类SQL语句操作的,一次就查询出最终结果。而Pig解决问题是一步一步推导的过程。
5.Hadoop收集和分析海量的非结构化数据并生成包括日志、事件数据、搜索引擎结果、社交网站内容等PB级非结构化数据,而继续采用关系型数据库分析交易数据、客户信息和通话记录等传统的结构化数据,综合利用他们得到的结果。通过将数据分类实现协同工作。

使用道具 举报

回复
论坛徽章:
7
阿斯顿马丁
日期:2013-11-27 16:58:03问答徽章
日期:2013-12-11 11:36:33日产
日期:2014-01-17 17:59:11技术图书徽章
日期:2014-01-24 10:24:362014年新春福章
日期:2014-02-18 16:42:02马上有房
日期:2014-02-18 16:42:02马上有车
日期:2014-04-16 17:19:00
22#
发表于 2014-4-8 15:42 | 只看该作者
1.随着数据规模的增长,如何扩展系统呢?有两种主流的方法,向上扩展与向外扩展。向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力,而是将数据处理任务分发给越来越多的机器。请比较这两种方法的优缺点。
两种方式的主要不同点在于硬件成本的差异上
向上扩展可能在维护层面更方便
向外扩展可以提供更好的容错功能


2、Hive是建立在Hadoop基础上的数据仓库,它使用MapReduce对存储在HDFS上数据进行分析.它专门定义了一种类SQL的查询语言.而基于Hadoop大规模数据分析平台的另一种工具Pig,也具有相似的功能.请问Hive与Pig之间有什么区别?哪种工具更好?

  pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。
  Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS,并允许使用类似于SQL语法进行数据查询

使用道具 举报

回复
论坛徽章:
1
兰博基尼
日期:2013-11-04 17:47:49
23#
发表于 2014-4-8 17:15 | 只看该作者
支持hadoop

使用道具 举报

回复
论坛徽章:
64
罗罗诺亚·索隆
日期:2017-09-07 16:40:52itpub13周年纪念徽章
日期:2014-10-08 15:19:03itpub13周年纪念徽章
日期:2014-10-08 15:19:03itpub13周年纪念徽章
日期:2014-10-08 15:19:03itpub13周年纪念徽章
日期:2014-10-08 15:19:03itpub13周年纪念徽章
日期:2014-10-08 15:19:03祖国65周年纪念徽章
日期:2014-09-28 15:11:01青年奥林匹克运动会-五人制曲棍球
日期:2014-09-12 15:36:032014系统架构师大会纪念章
日期:2014-08-04 09:33:532013系统架构师大会纪念章
日期:2014-08-04 09:33:53
24#
发表于 2014-4-8 17:17 | 只看该作者
支持下。
1.随着数据规模的增长,如何扩展系统呢?有两种主流的方法,向上扩展与向外扩展。向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力,而是将数据处理任务分发给越来越多的机器。请比较这两种方法的优缺点。
迁移到更大服务器不需要对现有的软件系统进行改动,节省了软件方面的成本。但是硬件的成本却呈几何级递增。迁移到更多的机器则需要对软件架构进行改动甚至重写,对复杂的复合系统不太现实。硬件成本上会很占有优势,但是不可见的软件成本会相对高出不少来。

2.有些开发者会批评Hadoop的一切设计都是以Java为中心,而Hadoop的团队一直在努力解决这个问题。难道一个用Java语言实现的项目不该以Java为中心么?当然我们使用非Java语言也可以操作Hadoop,任何可以读写标准输入和输出的程序都可以用于Streaming,比如像Ruby或Python这样的动态语言编写的程序等。请谈谈Streaming有哪些优势?
Java是业界的无冕之王,语言之争无益。但是Streaming的确很让人期待。我不了解。

3.Hive是建立在Hadoop基础上的数据仓库,它使用MapReduce对存储在HDFS上数据进行分析.它专门定义了一种类SQL的查询语言.而基于Hadoop大规模数据分析平台的另一种工具Pig,也具有相似的功能.请问Hive与Pig之间有什么区别?哪种工具更好?
期待了解。

4. 用户可以把存储在Hadoop中的数据近似看成关系数据库,但它终究没有完全实现SQL的标准.在性能与规模特征方面与传统关系数据库有很大区别.那么如何实现Hadoop集群与关系数据库的协同工作呢?
期待了解。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
25#
发表于 2014-4-8 21:11 | 只看该作者
1向上扩展的难处是成本,服务器好,价格也是很贵的。横向扩展的难处是需要计算充分并行化,如果分布不平衡,或者算法无法将压力均匀的分解下去,或者分解下去的压力超过单台的配置,那么这个hadoop也没办法支持的。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
26#
发表于 2014-4-8 21:11 | 只看该作者
书是好书,预祝能抽中

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
27#
发表于 2014-4-8 21:16 | 只看该作者
4hadoop主要应用在数据分析,配合mahout进行数据挖掘,不应使用它的hql部分,这部分应该放到mpp的share nothing的数据库上,发挥各自的优势。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
28#
发表于 2014-4-8 21:18 | 只看该作者
2用java蛮好,平台无关,rhadoop可以通过接口融合r和hadoop,可以在hadoop上跑r语言

使用道具 举报

回复
求职 : 数据库管理员
论坛徽章:
41
喜羊羊
日期:2015-05-08 16:18:362014年新春福章
日期:2014-02-18 16:48:49技术图书徽章
日期:2014-01-26 14:02:05福特
日期:2013-12-27 00:16:54劳斯莱斯
日期:2013-12-20 16:46:55劳斯莱斯
日期:2013-12-02 16:08:54问答徽章
日期:2013-11-12 20:51:23奔驰
日期:2013-10-25 20:19:39ITPUB社区12周年站庆徽章
日期:2013-10-08 15:00:34马上加薪
日期:2014-02-18 16:48:49
29#
发表于 2014-4-9 08:30 | 只看该作者
好书,感觉现在Hadoop都要成标配,没用上都不能叫大数据~~~

使用道具 举报

回复
论坛徽章:
82
2013系统架构师大会纪念章
日期:2015-07-31 17:48:20探花
日期:2015-08-17 14:58:32榜眼
日期:2015-08-17 14:59:28进士
日期:2015-08-17 15:00:55举人
日期:2015-08-17 15:00:55秀才
日期:2015-08-19 09:36:37秀才
日期:2015-08-20 08:50:41嫦娥
日期:2015-08-21 09:11:54秀才
日期:2015-08-24 09:48:07进士
日期:2015-08-17 14:58:18
30#
发表于 2014-4-9 08:50 | 只看该作者
好书啊,留名~学完再回答问题~~

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表