查看: 11454|回复: 27

[话题讨论]大数据Hadoop平台技术讨论 参与赠送《pig编程指南》图书一本

[复制链接]
论坛徽章:
277
马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11版主9段
日期:2012-11-25 02:21:03ITPUB年度最佳版主
日期:2014-02-19 10:05:27现任管理团队成员
日期:2011-05-07 01:45:08
跳转到指定楼层
1#
发表于 2013-5-3 08:53 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
[有奖讨论]大数据Hadoop平台技术讨论

Hadoop是一个分布式系统基础架构,由Apache基金会开发。Hadoop用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。
Hadoop是目前大数据领域最主要的解决方案。

本次讨论针对Hadoop平台中的Pig技术。

1. 您使用过Pig吗?谈谈您对Pig的认识。
2. Pig和Hive有什么区别?
3. 谈谈Pig对Hadoop平台的影响。
4. 有比Pig更好的技术吗?请详细说明。

讨论时间:2013.5.3~2013.5.22

讨论奖励:活动结束后将会抽取5位会员赠送《pig编程指南》图书一本。



原书名: Programming Pig
原出版社: O'Reilly Media; 1 edition
作者: (美)Alan Gates   
译者: 曹坤
出版社:人民邮电出版社
ISBN:9787115301116
上架时间:2013-2-25
出版日期:2013 年2月
开本:16开
页码:191

tian1982tian   liang545621   chszs   htyansp   ses19828


论坛徽章:
490
红宝石
日期:2014-04-05 19:53:18海蓝宝石
日期:2014-04-05 21:24:30数据库板块每日发贴之星
日期:2013-05-27 22:53:45生肖徽章:鸡
日期:2014-08-24 18:39:29青年奥林匹克运动会-羽毛球
日期:2014-09-24 08:37:59马上有房
日期:2015-01-03 10:23:28喜羊羊
日期:2015-03-04 14:54:422015年新春福章
日期:2015-03-06 11:59:47秀才
日期:2017-04-06 18:09:28版主6段
日期:2014-05-27 02:19:57
2#
发表于 2013-5-3 11:11 | 只看该作者
本帖最后由 guoyJoe 于 2013-5-3 17:38 编辑

支持!稍后再整理

使用道具 举报

回复
论坛徽章:
9
ITPUB 11周年纪念徽章
日期:2012-10-09 18:16:00灰彻蛋
日期:2013-06-19 17:33:42保时捷
日期:2013-10-06 00:09:052014年新春福章
日期:2014-05-07 16:35:452014年新春福章
日期:2014-05-14 12:32:03青年奥林匹克运动会-现代五项
日期:2014-09-20 14:03:47马上有房
日期:2014-10-13 16:43:18优秀写手
日期:2015-03-03 06:00:14ITPUB14周年纪念章
日期:2015-10-26 17:23:44
3#
发表于 2013-5-3 14:57 | 只看该作者
先谢郭嘉_______飘过!

使用道具 举报

回复
论坛徽章:
24
技术图书徽章
日期:2013-08-16 14:31:52问答徽章
日期:2013-11-04 08:53:14目光如炬
日期:2013-12-23 06:00:11目光如炬
日期:2013-12-30 06:00:11明星写手
日期:2014-02-22 06:00:12马上有钱
日期:2014-03-31 14:09:05沸羊羊
日期:2015-05-20 12:42:59秀才
日期:2015-06-24 13:05:36秀才
日期:2015-07-13 09:48:14
4#
发表于 2013-5-3 15:11 | 只看该作者
guoyJoe 发表于 2013-5-3 11:11
支持!

欢迎郭大师推广哦。

使用道具 举报

回复
论坛徽章:
277
马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11版主9段
日期:2012-11-25 02:21:03ITPUB年度最佳版主
日期:2014-02-19 10:05:27现任管理团队成员
日期:2011-05-07 01:45:08
5#
 楼主| 发表于 2013-5-3 16:08 | 只看该作者
楼上的,你们不能光飘来飘去啊,拿出你们的热情,讨论。

使用道具 举报

回复
论坛徽章:
10
ITPUB 11周年纪念徽章
日期:2012-10-09 18:09:19itpub13周年纪念徽章
日期:2014-10-08 15:17:53itpub13周年纪念徽章
日期:2014-10-08 15:17:53itpub13周年纪念徽章
日期:2014-10-08 15:17:53马上有钱
日期:2014-02-18 16:43:092014年新春福章
日期:2014-02-18 16:43:09优秀写手
日期:2014-02-18 06:00:11ITPUB社区12周年站庆徽章
日期:2013-10-08 15:00:342013年新春福章
日期:2013-02-25 14:51:24itpub13周年纪念徽章
日期:2014-10-08 15:17:53
6#
发表于 2013-5-3 20:26 | 只看该作者
本帖最后由 tian1982tian 于 2013-5-3 20:26 编辑

    至于PIG我没用过,HIVE的话用过,目前主要用的是用hive 0.10.0版本从分布式文件系统hdfs上捞取数据,它的元数据存储于derby和mysql中,在使用时候自己可以配置,derby是一个嵌入式的内存数据库,且不支持并发连接,同一个时间只能有一个用户session连接,其他用户再连接进来的话就会报错;mysql数据库存储hive建表或索引的元数据,且支持并发,对于元数据的存储也相对安全些,且可以做mysql的主从备份,保证数据的不丢失。个人感觉hive目前还没有 oracle成熟,最起码执行计划看的不是很明白,如果涉及到mr那就更难看懂,而且全表扫描不需要启动mr,如果指定列查询需要启动mr,延时比较高,hive不能完全支持sql 92标准,需要用户用java写自定义函数udf来实现一部分hql查询功能。
    最后希望hive 11能实现oracle的大部分功能,这样子对于我们使用就更方便了。

使用道具 举报

回复
招聘 : Linux运维
论坛徽章:
235
紫蜘蛛
日期:2007-09-26 17:05:46玉兔
日期:2007-09-26 17:05:05现任管理团队成员
日期:2011-05-07 01:45:08玉兔
日期:2006-08-29 20:38:48紫蜘蛛
日期:2007-09-26 17:05:34阿斯顿马丁
日期:2013-11-19 10:38:16奔驰
日期:2013-10-16 09:08:58红旗
日期:2014-01-09 11:57:39路虎
日期:2013-08-13 14:52:35林肯
日期:2015-05-19 13:01:16
7#
发表于 2013-5-3 21:21 | 只看该作者
pig没用过

使用道具 举报

回复
论坛徽章:
9
ITPUB 11周年纪念徽章
日期:2012-10-09 18:16:00灰彻蛋
日期:2013-06-19 17:33:42保时捷
日期:2013-10-06 00:09:052014年新春福章
日期:2014-05-07 16:35:452014年新春福章
日期:2014-05-14 12:32:03青年奥林匹克运动会-现代五项
日期:2014-09-20 14:03:47马上有房
日期:2014-10-13 16:43:18优秀写手
日期:2015-03-03 06:00:14ITPUB14周年纪念章
日期:2015-10-26 17:23:44
8#
发表于 2013-5-3 21:57 | 只看该作者
1. 您使用过Pig吗?谈谈您对Pig的认识。
       目前正在对hadoop正在进行学习,也没有很深的体会。 pig是hadoop项目的一个拓展项目, 用以简化hadoop编程,可以加载数据、表达转换数据以及存储最终结果。提供一种抽象的数据处理能力。pig 提供的操作在大量数据集分析中很有优势。以及于学起来很顺手,其实就像计算机方面的很多东西都似乎有某种共同点似的,当你学习一门技术很精通以后,接触另一样类似东西,会感觉很舒服。就像当初从PHP语言转到JAVA后,感觉思想没有变,变的只有语法。

2. Pig和Hive有什么区别?
     Hive 和Pig不支持低时延查询。区别肯定有的,但是也有很多相似之处,Hive的查询语言HiveQL,是基于SQL的,熟悉SQL的朋友都可以很容易的写出使用HiveQL写查询。我觉得最大的区别是:在Hive中可以执行插入/删除 等操作,但是Pig中没有可以插入数据的方法。
      
3. 谈谈Pig对Hadoop平台的影响。
     因为有数据处理的需求的存在,有了pig的存在,而不是为了实现一个复杂的逻辑任务,一个一个MapReduce去Coding,pig能屏蔽MapReduce开发的繁琐细节  ,能更方便地处理海量数据。如果没有pig,我觉得在Hadoop平台,会更麻烦。如果没有pig,简直是不敢想象。

4. 有比Pig更好的技术吗?请详细说明。
      由于不是很精通Pig,这个问题不敢回答了,反正我觉得Pig技术的话对Hadoop是不可或缺的,就像买了笔记本电脑,发现少了键盘一样,处理起来就不是很方便。

------ Hadoop初学,说错,或者说得不好,请批评指正。

使用道具 举报

回复
论坛徽章:
17
蜘蛛蛋
日期:2013-01-30 22:13:19秀才
日期:2016-01-05 09:35:58秀才
日期:2015-12-21 09:53:46秀才
日期:2015-12-21 09:48:11秀才
日期:2015-12-14 14:51:16巨蟹座
日期:2015-11-01 01:12:11优秀写手
日期:2014-10-17 06:00:13马上加薪
日期:2015-03-03 11:13:08阿斯顿马丁
日期:2013-08-29 13:48:19奥运纪念徽章
日期:2013-07-18 13:55:12
9#
发表于 2013-5-3 23:42 | 只看该作者
强大

使用道具 举报

回复
论坛徽章:
0
10#
发表于 2013-5-4 09:58 | 只看该作者
只用过hive

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表