楼主: pipihappy8888

话题讨论:菜鸟必看 Hadoop 入门到精通

[复制链接]
论坛徽章:
317
季节之章:春
日期:2012-06-20 17:38:14季节之章:夏
日期:2012-06-12 10:49:25季节之章:秋
日期:2012-06-12 10:49:25季节之章:冬
日期:2012-06-12 10:49:25马上有钱
日期:2014-06-16 15:59:19蓝色妖姬
日期:2012-05-19 11:02:10蓝色妖姬
日期:2012-06-12 11:21:48蓝色妖姬
日期:2012-06-12 11:21:48玉兔
日期:2012-07-27 11:00:12玉兔
日期:2012-08-05 10:00:09
31#
发表于 2014-4-9 09:06 | 只看该作者
1.随着数据规模的增长,如何扩展系统呢?有两种主流的方法,向上扩展与向外扩展。向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力,而是将数据处理任务分发给越来越多的机器。请比较这两种方法的优缺点。
肯定支持向外扩展,这样能够降低不少成本。

2.有些开发者会批评Hadoop的一切设计都是以Java为中心,而Hadoop的团队一直在努力解决这个问题。难道一个用Java语言实现的项目不该以Java为中心么?当然我们使用非Java语言也可以操作Hadoop,任何可以读写标准输入和输出的程序都可以用于Streaming,比如像Ruby或Python这样的动态语言编写的程序等。请谈谈Streaming有哪些优势?


3.Hive是建立在Hadoop基础上的数据仓库,它使用MapReduce对存储在HDFS上数据进行分析.它专门定义了一种类SQL的查询语言.而基于Hadoop大规模数据分析平台的另一种工具Pig,也具有相似的功能.请问Hive与Pig之间有什么区别?哪种工具更好?
还是更喜欢pig,感觉简单一些。

4. 用户可以把存储在Hadoop中的数据近似看成关系数据库,但它终究没有完全实现SQL的标准.在性能与规模特征方面与传统关系数据库有很大区别.那么如何实现Hadoop集群与关系数据库的协同工作呢?
HADOOP和关系型数据库不是一回事。Hadoop是分布式,而且也不能算是一个数据库产品。

使用道具 举报

回复
论坛徽章:
0
32#
发表于 2014-4-9 10:31 | 只看该作者
支持一下

使用道具 举报

回复
panda_rabbit 该用户已被删除
33#
发表于 2014-4-9 10:34 | 只看该作者
纯支持   

使用道具 举报

回复
论坛徽章:
0
34#
发表于 2014-4-9 10:35 | 只看该作者
本帖最后由 liucj2004 于 2014-4-9 10:36 编辑

支持一下,不小心发重复了- -

使用道具 举报

回复
论坛徽章:
3
优秀写手
日期:2013-12-18 09:29:14问答徽章
日期:2014-03-28 15:34:40青年奥林匹克运动会-艺术体操
日期:2014-09-04 14:29:32
35#
发表于 2014-4-9 11:26 | 只看该作者
前段时间想好好自学大象,可环境搭建完成搭建了几个外部支持“枝叶”,后看到开发和运维的大部分都是与java代码相关,而本人是个语言盲,尤其听到java更是避之远之,瞬间自学的兴趣降了下来,难道java盲真的不适合剖析大象吗,如何是好。。。。

使用道具 举报

回复
论坛徽章:
0
36#
发表于 2014-4-9 12:37 来自手机 | 只看该作者
强烈支持

使用道具 举报

回复
论坛徽章:
1
2013年新春福章
日期:2013-02-25 14:51:24
37#
发表于 2014-4-9 12:58 | 只看该作者
我正在学习hadoop,希望能得到这本书的赠送,能够实战hadoop,谢谢版主了!

使用道具 举报

回复
论坛徽章:
10
数据库板块每日发贴之星
日期:2013-07-23 09:28:152014年新春福章
日期:2014-02-18 16:49:31问答徽章
日期:2014-02-12 13:49:45红旗
日期:2013-08-03 19:50:502013年新春福章
日期:2013-07-23 09:28:152013年新春福章
日期:2013-07-23 09:28:15灰彻蛋
日期:2013-07-23 09:28:152012新春纪念徽章
日期:2013-07-23 09:28:15ITPUB十周年纪念徽章
日期:2013-07-23 09:28:15马上有钱
日期:2014-02-18 16:49:31
38#
发表于 2014-4-9 13:42 | 只看该作者
我们的项目现在也正在考虑使用hadoop

使用道具 举报

回复
论坛徽章:
0
39#
发表于 2014-4-9 13:48 | 只看该作者
最近正在学习Hadoop中,Hadoop的核心MapReduce执行流程总结如下:
执行步骤:
1. map任务处理
1.1 读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。
1.2 写自己的逻辑,对输入的key、value处理,转换成新的key、value输出。
1.3 对输出的key、value进行分区。
1.4 对不同分区的数据,按照key进行排序、分组。相同key的value放到一个集合中。
1.5 (可选)分组后的数据进行归约。
2.reduce任务处理
2.1 对多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点。
2.2 对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑,对输入的key、value处理,转换成新的key、value输出。
2.3 把reduce的输出保存到文件中。

使用道具 举报

回复
求职 : 技术/实施/服务顾问
论坛徽章:
6
SQL大赛参与纪念
日期:2011-04-13 12:08:17ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412012新春纪念徽章
日期:2012-01-04 11:49:54咸鸭蛋
日期:2012-04-05 14:04:082014年新春福章
日期:2014-02-18 16:41:11马上有车
日期:2014-02-18 16:41:11
40#
发表于 2014-4-9 13:55 | 只看该作者
1. 向上扩展对于软件技术要求比较低,几乎不需要进行应用软件层次的修改,但是由于cpu/内存/IO等硬件的限制,扩展很容易达到极限;而向外扩展对分布式技术的实现和维护的要求更高,可以实现更大规模的扩展.
2. Java作为一个跨平台的语言,拥有众多的开发者和类库,相比于c/c++还是有很大的优势的。Streaming优势:muqian驻留的支持标准输入输出的语言都可以无缝的接入hadoop平台;程序员可以使用最熟悉的语言进行MapReduce开发;
3. Hive是SQL的一种实现,目前也在添加越来越多的SQL的特性,例如where里面的子查询,data/varchar等数据类型的支持,同时hive支持使用jdbc/odbc进行访问.hive更适合具有sql经验的人使用,而pig更适合进行ETL操作;
4。Hadoop集群与关系数据库的协同工作上,关系数据库进行关键的操作型业务数据的处理,同时为Hadoop集群提供一些核心的数据,例如主数据服务。由于目前前端展现工具的限制,例如API访问等,关系数据库还可以提供针对Hadoop集群聚集计算好的数据集市的联机分析处理(将来可能慢慢转移到Hadoop集群);Hadoop集群可以进行复杂的ETL操作,历史数据的归档存储,非结构化的文档处理以及超大型数据表的处理等。Hadoop集群与关系数据库应当使一个互为补充的关系。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表