[话题讨论]大数据Hadoop平台技术讨论参与赠送《pig编程指南》图书一本

lucky7_2000 · 发表于 2013-5-12 00:46

1. 您使用过Pig吗？谈谈您对Pig的认识。

没有使用过啊...

2. Pig和Hive有什么区别？

目前还不知道有什么区别...

3. 谈谈Pig对Hadoop平台的影响。

不了解, 无从谈起..

4. 有比Pig更好的技术吗？请详细说明。

适用的就是好的吧...

wang1352083 · 发表于 2013-5-12 13:00

现在还没玩那么深入呢.先听听前驱者的经验

seouk · 发表于 2013-5-12 14:14

美国论文写作培训机构 http://www.assignmentfirst.com/

pastime_Wang · 发表于 2013-5-15 10:53

本帖最后由 pastime_Wang 于 2013-5-23 14:59 编辑

1. 您使用过Pig吗? 谈谈您对Pig的认识

Pig : 数据流描述型语言, 用于大数据数据流处理,
把数据流处理翻译成多个map和reduce函数, 我理解有点类似于简单的ETL操作,
可以进行简单的排序、分组和连接、过滤等操作;

SQL : 数据库查询和编程的 "结构化 " 语言;
C#, Java 等: 面向对象的编程语言;

/*****************************************************/
2. Pig和Hive有什么区别?

Hive 主要是建立在 Hadoop 上的DW基础构架, 使用HQL (类 SQL 查询语言),
使用HQL语言转换为 MapReduce 任务运行.可以用来进行数据提取转化加载(ETL),
还可以存储、查询和分析存储在 Hadoop 中的大规模数据

Pig 与Hive 功能类似, 但Pig 相对较"轻量"的脚本编程语言, 用来写一些"即时脚本",
相比于直接使用Hadoop Java API可大幅减少开发量，而且特别适用于复杂、嵌套数据结构的处理

/*****************************************************/
3. 谈谈Pig对Hadoop平台的影响。

Pig 是为了减少Hadoop 平台上的Java API 开发量和开发效率, 提高开发的灵活性
Pig脚本来对数据进行预处理, 可以像RDBMS 对数据的进行校验和约束(存储在Hadoop文件系统中的数据是没有相关的检查机制的)

/*****************************************************/
4. 有比Pig更好的技术吗？请详细说明。

我觉得HIVE就很好, HQL 更简洁的类 "SQL", 在DW上的广泛应用, 如特有统计功能, 学习成本低. 支持扩展

heaven_sky · 发表于 2013-5-15 11:20

pig是hadoop项目的一个拓展项目，用以简化hadoop编程，可以加载数据、表达转换数据以及存储最终结果。提供一种抽象的数据处理能力。pig 提供的操作在大量数据集分析中很有优势。以及于学起来很顺手，其实就像计算机方面的很多东西都似乎有某种共同点似的，当你学习一门技术很精通以后，接触另一样类似东西，会感觉很舒服。就像当初从PHP语言转到JAVA后，感觉思想没有变，变的只有语法。

avantar · 发表于 2013-5-20 15:02

因为有数据处理的需求的存在，有了pig的存在，而不是为了实现一个复杂的逻辑任务，一个一个MapReduce去Coding，pig能屏蔽MapReduce开发的繁琐细节，能更方便地处理海量数据。如果没有pig，我觉得在Hadoop平台，会更麻烦。如果没有pig，简直是不敢想象。

tian1982tian · 发表于 2013-10-10 23:16

本帖最后由 tian1982tian 于 2013-10-10 23:16 编辑

不好意思，刚看到中奖信息，不知道现在还可以邮寄书吗？

shangziwei · 发表于 2014-7-21 09:08

感觉很棒！

[话题讨论]大数据Hadoop平台技术讨论 参与赠送《pig编程指南》图书一本

浏览过的版块

[话题讨论]大数据Hadoop平台技术讨论参与赠送《pig编程指南》图书一本