[话题讨论]大数据Hadoop平台技术讨论参与赠送《pig编程指南》图书一本

chszs · 发表于 2013-5-4 10:54

1. 您使用过Pig吗？谈谈您对Pig的认识。
Apache Pig是一个专为Hadoop平台设计的高级过程语言，适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似SQL的查询，Pig可以简化Hadoop的使用。
Apache Pig是针对处理超大型数据集的抽象层，在MapReduce中的框架中有map和reduce两个函数，如果自己编写MapReduce实现从编写代码、编译、部署，再放在Hadoop上执行这个MapReduce程序的过程是很耗时间的，而使用Apache Pig可以大大简化MapReduce的开发，还可以对不同的数据之间进行转换。

2. Pig和Hive有什么区别？
Pig程序是相对于输入的一步步操作，每一个步骤都是对数据的一个简单的变换。
用Pig编程更像在RDBMS中的Query Planner这一层对数据进行操作。
Pig对它所处理的数据要求则宽松得多；可以在运行时定义模式，可以在任何来源的元组上进行操作。
Pig支持复杂、嵌套的数据结构。
Pig不支持在线和低时延查询，不支持事务和索引。
Pig不支持随机读和随机写。
Pig和MapReduce一样，所有的写都是批量的，流式的写操作。
Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java API可大幅减少开发量。
Hive介于Pig和传统RDBMS之间，和Pig一样，Hive也被设计为HDFS作为存储，但是他们之间有着显著的区别。Hive的查询语言HiveQL，是基于SQL的。任何熟悉SQL的人都可以轻松使用HiveQL写查询。
Hive要求所有数据必须存储在表中，表必须有模式，而模式由Hive进行管理。但是Hive允许为预先存在于HDFS的数据关联一个模式。所以，数据的加载步骤是可选的。
和Pig一样，Hive也不支持低时延查询。

3. 谈谈Pig对Hadoop平台的影响。
Apache Pig出现之前，MapReduce编程很麻烦，很多开发者抱怨难以掌握MapReduce编程技术，而且编写代码的工作量很大。Apache Pig改变了这种状况，它在MapReduce的基础上创建了更简单的过程语言抽象，为Hadoop应用程序提供了一种更加接近结构化查询语言SQL的接口。因此，您不需要编写一个单独的MapReduce应用程序，您可以用Pig Latin语言写一个脚本，在集群中自动并行处理与分发该脚本。

4. 有比Pig更好的技术吗？请详细说明。
Pig的目的是改善Hadoop的易用性，因此目前没有比Pig更好的技术。目前国内外正在研究比Hadoop更好的大数据处理技术，甚至提出了一些口号，如：NoHadoop，Post-Hadoop等。Hadoop并非万能，在不少领域它的能力是有限的。比如实时处理领域，Percolator技术无疑更先进。

solomon_007 · 发表于 2013-5-5 18:46

jxzkin · 发表于 2013-5-6 11:02

支持

htyansp · 发表于 2013-5-6 11:25

最近正好在研究这玩意。

1. 您使用过Pig吗？谈谈您对Pig的认识。

  使用过，因为项目需求，目前正在研究中。
  如果没有PIG，对于HADOOP中数据的处理，我们不得不编写MapReduce处理程序。
  但这些需要软件开发经验，而且编写起来也比较麻烦。PIG的出现使得处理HADOOP中的数据
  变得简单，无需编写复杂的MapReduce处理程序就能完成我们的需求。

2. Pig和Hive有什么区别？

  打个比方，PIG有点类似ORACLE的PLSQL，而HIVE类似ORACLE的SQL。
  PIG支持一些控制流，做一些处理，而HIVE基本不具备这样的功能。
  HIVE基本就是为了简化统计分析,做一些报表，分组，用的SQL和传统的关系数据库中的
  SQL类似，因此对于传统的SQL开发人员来说，比较容易上手。
  PIG也可以做类似HIVE中SQL的功能，只不过用的不是SQL语句。

3. 谈谈Pig对Hadoop平台的影响。

  PIG的出现使得我们开发HADOOP平台的程序变得简单，对于一些人都比较容易上手。
  即便不会JAVA语言，也能编写性能高效的HADOOP程序。这大大降低了开发难度及其
  开发周期，否则都要用MapReduce来写，将会大大增加工作量。


4. 有比Pig更好的技术吗？请详细说明。

  由于PIG底层也是封装了MapReduce的处理过程，因此在性能方面，直接用MapReduce写
  程序会高效，因此对于性能要求比较高的程序，还是自己写MapReduce程序比较好。

qinxupeng · 发表于 2013-5-6 14:08

占个位子

songmingliang · 发表于 2013-5-6 15:50

支持

fk1987614 · 发表于 2013-5-7 11:14

支持

ses19828 · 发表于 2013-5-7 16:06

Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。

Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。

如果没有PIG，对于HADOOP中数据的处理，我们不得不编写MapReduce处理程序。
MapReduce 是大规模数据（PB 级）计算的利器，Map 和Reduce 是它的主要思想。
Map 负责将数据打散，Reduce负责对数据进行聚集，用户只需要实现map 和reduce 两个接口，即可完成TB 级数据的计算，常见的应用包括：日志分析和数据挖掘等数据分析应用。

目前好像还没有比Pig更好的技术
优点：
可扩展：不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。
经济：框架可以运行在任何普通的PC上。
可靠：分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。
高效：分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式，为高效处理海量的信息作了基础准备

xiaolin27 · 发表于 2013-5-8 17:52

有没有这本书的目录情况..

comerliang · 发表于 2013-5-10 09:03

刚想学习hadoop，觉得好高深啊

[话题讨论]大数据Hadoop平台技术讨论 参与赠送《pig编程指南》图书一本

浏览过的版块

[话题讨论]大数据Hadoop平台技术讨论参与赠送《pig编程指南》图书一本