|
本帖最后由 pastime_Wang 于 2013-5-23 14:59 编辑
1. 您使用过Pig吗? 谈谈您对Pig的认识
Pig : 数据流描述型语言, 用于大数据数据流处理,
把数据流处理翻译成多个map和reduce函数, 我理解有点类似于简单的ETL操作,
可以进行简单的排序、分组和连接、过滤等操作;
SQL : 数据库查询和编程的 "结构化 " 语言;
C#, Java 等: 面向对象的编程语言;
/*****************************************************/
2. Pig和Hive有什么区别?
Hive 主要是建立在 Hadoop 上的DW基础构架, 使用HQL (类 SQL 查询语言),
使用HQL语言转换为 MapReduce 任务运行.可以用来进行数据提取转化加载(ETL),
还可以存储、查询和分析存储在 Hadoop 中的大规模数据
Pig 与Hive 功能类似, 但Pig 相对较"轻量"的脚本编程语言, 用来写一些"即时脚本",
相比于直接使用Hadoop Java API可大幅减少开发量,而且特别适用于复杂、嵌套数据结构的处理
/*****************************************************/
3. 谈谈Pig对Hadoop平台的影响。
Pig 是为了减少Hadoop 平台上的Java API 开发量和开发效率, 提高开发的灵活性
Pig脚本来对数据进行预处理, 可以像RDBMS 对数据的进行校验和约束(存储在Hadoop文件系统中的数据是没有相关的检查机制的)
/*****************************************************/
4. 有比Pig更好的技术吗?请详细说明。
我觉得HIVE就很好, HQL 更简洁的 类 "SQL", 在DW上的广泛应用, 如 特有统计功能, 学习成本低. 支持扩展 |
|