楼主: jieforest

[话题讨论]大数据Hadoop平台技术讨论 参与赠送《pig编程指南》图书一本

[复制链接]
论坛徽章:
63
2010广州亚运会纪念徽章:台球
日期:2010-10-18 12:43:48茶鸡蛋
日期:2013-01-09 10:59:002013年新春福章
日期:2013-02-25 14:51:24奥运会纪念徽章:帆船
日期:2013-04-02 17:07:052013年新春福章
日期:2013-04-08 17:42:48奥运纪念徽章
日期:2013-07-18 13:55:12优秀写手
日期:2013-12-18 09:29:10马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11
11#
发表于 2013-5-4 10:54 | 只看该作者
1. 您使用过Pig吗?谈谈您对Pig的认识。
Apache Pig是一个专为Hadoop平台设计的高级过程语言,适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似SQL的查询,Pig可以简化Hadoop的使用。
Apache Pig是针对处理超大型数据集的抽象层,在MapReduce中的框架中有map和reduce两个函数,如果自己编写MapReduce实现从编写代码、编译、部署,再放在Hadoop上执行这个MapReduce程序的过程是很耗时间的,而使用Apache Pig可以大大简化MapReduce的开发,还可以对不同的数据之间进行转换。

2. Pig和Hive有什么区别?

Pig程序是相对于输入的一步步操作,每一个步骤都是对数据的一个简单的变换。
用Pig编程更像在RDBMS中的Query Planner这一层对数据进行操作。
Pig对它所处理的数据要求则宽松得多;可以在运行时定义模式,可以在任何来源的元组上进行操作。
Pig支持复杂、嵌套的数据结构。
Pig不支持在线和低时延查询,不支持事务和索引。
Pig不支持随机读和随机写。
Pig和MapReduce一样,所有的写都是批量的,流式的写操作。
Pig相比Hive相对轻量,它主要的优势是相比于直接使用Hadoop Java API可大幅减少开发量。
Hive介于Pig和传统RDBMS之间,和Pig一样,Hive也被设计为HDFS作为存储,但是他们之间有着显著的区别。Hive的查询语言HiveQL,是基于SQL的。任何熟悉SQL的人都可以轻松使用HiveQL写查询。
Hive要求所有数据必须存储在表中,表必须有模式,而模式由Hive进行管理。但是Hive允许为预先存在于HDFS的数据关联一个模式。所以,数据的加载步骤是可选的。
和Pig一样,Hive也不支持低时延查询。

3. 谈谈Pig对Hadoop平台的影响。
Apache Pig出现之前,MapReduce编程很麻烦,很多开发者抱怨难以掌握MapReduce编程技术,而且编写代码的工作量很大。Apache Pig改变了这种状况,它在MapReduce的基础上创建了更简单的过程语言抽象,为Hadoop应用程序提供了一种更加接近结构化查询语言SQL的接口。因此,您不需要编写一个单独的MapReduce应用程序,您可以用Pig Latin语言写一个脚本,在集群中自动并行处理与分发该脚本。

4. 有比Pig更好的技术吗?请详细说明。

Pig的目的是改善Hadoop的易用性,因此目前没有比Pig更好的技术。目前国内外正在研究比Hadoop更好的大数据处理技术,甚至提出了一些口号,如:NoHadoop,Post-Hadoop等。Hadoop并非万能,在不少领域它的能力是有限的。比如实时处理领域,Percolator技术无疑更先进。

使用道具 举报

回复
论坛徽章:
548
生肖徽章2007版:猴
日期:2008-05-16 11:28:59生肖徽章2007版:马
日期:2008-10-08 17:01:01SQL大赛参与纪念
日期:2011-04-13 12:08:17授权会员
日期:2011-06-17 16:14:53ITPUB元老
日期:2011-06-21 11:47:01ITPUB官方微博粉丝徽章
日期:2011-07-01 09:45:27ITPUB十周年纪念徽章
日期:2011-09-27 16:30:472012新春纪念徽章
日期:2012-01-04 11:51:222012新春纪念徽章
日期:2020-11-30 22:13:24海蓝宝石
日期:2012-02-20 19:24:27
12#
发表于 2013-5-5 18:46 | 只看该作者
up

使用道具 举报

回复
求职 : 数据库管理员
论坛徽章:
41
喜羊羊
日期:2015-05-08 16:18:362014年新春福章
日期:2014-02-18 16:48:49技术图书徽章
日期:2014-01-26 14:02:05福特
日期:2013-12-27 00:16:54劳斯莱斯
日期:2013-12-20 16:46:55劳斯莱斯
日期:2013-12-02 16:08:54问答徽章
日期:2013-11-12 20:51:23奔驰
日期:2013-10-25 20:19:39ITPUB社区12周年站庆徽章
日期:2013-10-08 15:00:34马上加薪
日期:2014-02-18 16:48:49
13#
发表于 2013-5-6 11:02 | 只看该作者
支持

使用道具 举报

回复
论坛徽章:
16
ITPUB9周年纪念徽章
日期:2010-10-08 09:32:262013年新春福章
日期:2013-04-08 17:42:48紫蛋头
日期:2013-03-18 12:34:29双黄蛋
日期:2013-03-11 13:04:122013年新春福章
日期:2013-02-25 14:51:24奥运纪念徽章
日期:2012-11-15 10:00:34复活蛋
日期:2012-10-31 14:26:15ITPUB 11周年纪念徽章
日期:2012-10-09 18:14:48奥运会纪念徽章:蹦床
日期:2012-09-10 10:35:46奥运会纪念徽章:花样游泳
日期:2012-09-01 12:56:56
14#
发表于 2013-5-6 11:25 | 只看该作者
最近正好在研究这玩意。


1. 您使用过Pig吗?谈谈您对Pig的认识。

  使用过,因为项目需求,目前正在研究中。
  如果没有PIG,对于HADOOP中数据的处理,我们不得不编写MapReduce处理程序。
  但这些需要软件开发经验,而且编写起来也比较麻烦。PIG的出现使得处理HADOOP中的数据
  变得简单,无需编写复杂的MapReduce处理程序就能完成我们的需求。
  
2. Pig和Hive有什么区别?

  打个比方,PIG有点类似ORACLE的PLSQL,而HIVE类似ORACLE的SQL。
  PIG支持一些控制流,做一些处理,而HIVE基本不具备这样的功能。
  HIVE基本就是为了简化统计分析,做一些报表,分组,用的SQL和传统的关系数据库中的
  SQL类似,因此对于传统的SQL开发人员来说,比较容易上手。
  PIG也可以做类似HIVE中SQL的功能,只不过用的不是SQL语句。
  
3. 谈谈Pig对Hadoop平台的影响。

  PIG的出现使得我们开发HADOOP平台的程序变得简单,对于一些人都比较容易上手。
  即便不会JAVA语言,也能编写性能高效的HADOOP程序。这大大降低了开发难度及其
  开发周期,否则都要用MapReduce来写,将会大大增加工作量。
  

4. 有比Pig更好的技术吗?请详细说明。

  由于PIG底层也是封装了MapReduce的处理过程,因此在性能方面,直接用MapReduce写
  程序会高效,因此对于性能要求比较高的程序,还是自己写MapReduce程序比较好。
  


使用道具 举报

回复
论坛徽章:
4
三菱
日期:2013-10-10 17:54:56ITPUB社区12周年站庆徽章
日期:2013-10-15 09:38:49ITPUB社区12周年站庆徽章
日期:2013-10-28 17:22:35ITPUB社区12周年站庆徽章
日期:2013-11-04 09:30:01
15#
发表于 2013-5-6 14:08 | 只看该作者
占个位子

使用道具 举报

回复
论坛徽章:
764
生肖徽章:鸡
日期:2014-08-13 14:39:24奥运会纪念徽章:跳水
日期:2012-07-16 09:48:41奥运会纪念徽章:自行车
日期:2013-06-17 12:13:43奥运会纪念徽章:沙滩排球
日期:2013-06-17 12:11:20复活蛋
日期:2013-03-29 10:50:57比亚迪
日期:2013-09-29 13:21:57Jeep
日期:2013-09-29 13:54:002014年世界杯参赛球队: 加纳
日期:2014-05-20 17:24:592014年世界杯参赛球队:墨西哥
日期:2014-05-20 17:25:142014年世界杯参赛球队: 波黑
日期:2014-05-20 17:27:29
16#
发表于 2013-5-6 15:50 | 只看该作者
支持

使用道具 举报

回复
论坛徽章:
7
2012新春纪念徽章
日期:2012-01-04 11:58:44ITPUB 11周年纪念徽章
日期:2012-10-09 18:16:00双黄蛋
日期:2013-01-10 11:07:542013年新春福章
日期:2013-02-25 14:51:242015年新春福章
日期:2015-03-04 14:53:162015年新春福章
日期:2015-03-06 11:58:39喜羊羊
日期:2015-03-16 11:00:26
17#
发表于 2013-5-7 11:14 | 只看该作者
支持

使用道具 举报

回复
求职 : 数据库管理员
论坛徽章:
21
itpub2007年荐股参与纪念徽章
日期:2008-04-03 16:54:14itpub13周年纪念徽章
日期:2014-10-08 15:16:50itpub13周年纪念徽章
日期:2014-10-08 15:16:50itpub13周年纪念徽章
日期:2014-10-08 15:16:50复活蛋
日期:2014-12-01 15:10:24蓝锆石
日期:2015-02-03 13:52:432015年新春福章
日期:2015-03-04 14:51:122015年新春福章
日期:2015-03-06 11:57:31知识
日期:2015-05-27 16:53:28itpub13周年纪念徽章
日期:2014-09-28 10:55:55
18#
发表于 2013-5-7 16:06 | 只看该作者
Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。

Pig相比Hive相对轻量,它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。


如果没有PIG,对于HADOOP中数据的处理,我们不得不编写MapReduce处理程序。
MapReduce 是大规模数据(PB 级)计算的利器,Map 和Reduce 是它的主要思想。
Map 负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现map 和reduce 两个接口,即可完成TB 级数据的计算,常见的应用包括:日志分析和数据挖掘等数据分析应用。


目前好像还没有比Pig更好的技术
优点:
可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。
经济:框架可以运行在任何普通的PC上。
可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。
高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备

使用道具 举报

回复
论坛徽章:
1
奥运纪念徽章
日期:2013-07-18 13:55:12
19#
发表于 2013-5-8 17:52 | 只看该作者
有没有这本书的目录情况..

使用道具 举报

回复
论坛徽章:
5
2011新春纪念徽章
日期:2011-02-18 11:43:35奥运纪念徽章
日期:2013-07-18 13:55:122014年新春福章
日期:2014-02-18 16:41:11马上有车
日期:2014-02-18 16:41:11优秀写手
日期:2014-03-11 06:00:14
20#
发表于 2013-5-10 09:03 | 只看该作者
刚想学习hadoop,觉得好高深啊

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表