楼主: 王楠w_n

【大话IT】大数据时代,Hadoop是最好的框架?

[复制链接]
论坛徽章:
571
NBA季后赛纪念徽章
日期:2012-06-25 12:19:11洛杉矶快船
日期:2014-06-16 11:45:27NBA常规赛纪念章
日期:2013-04-22 11:49:35NBA季后赛纪念徽章
日期:2011-06-13 11:34:51NBA常规赛纪念章
日期:2011-04-15 13:34:11NBA季后赛纪念徽章
日期:2013-06-21 14:52:05NBA常规赛纪念章
日期:2012-04-27 16:07:05生肖徽章:羊
日期:2014-08-15 14:12:01ITPUB9周年纪念徽章
日期:2016-10-28 17:00:11ITPUB9周年纪念徽章
日期:2016-10-28 17:00:11
11#
发表于 2017-3-29 17:11 | 只看该作者
都沒聽過

使用道具 举报

回复
论坛徽章:
19
秀才
日期:2017-03-20 13:42:2019周年集字徽章-19
日期:2019-09-06 18:39:04ITPUB18周年纪念章
日期:2019-03-12 14:03:46ITPUB18周年纪念章
日期:2018-11-13 15:40:45ITPUB18周年纪念章
日期:2018-11-13 15:31:24ITPUB18周年纪念章
日期:2018-09-17 10:12:57ITPUB18周年纪念章
日期:2018-09-17 10:09:49秀才
日期:2018-04-08 14:48:31秀才
日期:2018-04-08 14:37:33娜美
日期:2018-03-28 14:24:56
12#
发表于 2017-3-29 19:37 | 只看该作者
1.什么是Hadoop?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。实现了HDFS,容错性非常高,并且能在廉价硬件上部署,极适合超大数据集的项目。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

2.为什么组织从传统的数据仓库工具转移到基于Hadoop生态系统的智能数据中心?
(1)高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。
(2)高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
(3)高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
(4)高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
(5)低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

3.更智能&更大的数据中心架构与传统的数据仓库架构有何不同?
(1)面向大数据:数据中心架构的设计概念不同于传统数据中心的集散控制系统。数据中心架构会提供优化快速的传输机制,海量数据的高度并行处理,让大数据分析应用具备不同的特点。
(2)对任务的变化和适应:应用程序的资源使用的优先级
(3)智能管理:数据中心架构涉及到大量的硬件资源和高密度计算,需要更高的智能化管理
(4)高扩展性:大数据的应用程序需要在DCS系统中以高吞吐量低延迟的环境下访问
(5)开放的、基于标准和灵活的服务层:传统的数据仓库架构的存储UI存在于不用的协议层上,会导致无法动态的分配资源

4.相较Spark等5种大数据框架,基于Hadoop的数据中心的好处是什么?
(1)Spark没有文件管理功能,因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案。
(2)Hadoop占用内存比Spark更小
(3)Spark无法进行分布式数据的存储

使用道具 举报

回复
论坛徽章:
111
ITPUB9周年纪念徽章
日期:2010-10-08 09:34:03马上有房
日期:2014-02-18 16:42:02马上有车
日期:2014-03-20 10:09:22马上有钱
日期:2014-03-20 15:53:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11马上有对象
日期:2014-03-20 16:14:11马上加薪
日期:2014-03-20 16:14:11技术图书徽章
日期:2014-03-27 09:30:56
13#
发表于 2017-3-29 21:13 | 只看该作者
路过支持!!!

使用道具 举报

回复
求职 : 系统架构师
论坛徽章:
184
现任管理团队成员
日期:2011-05-07 01:45:082015年新春福章
日期:2015-03-06 11:57:31懒羊羊
日期:2015-03-04 14:48:16马上有车
日期:2015-02-03 15:49:36马上加薪
日期:2014-11-14 21:57:36itpub13周年纪念徽章
日期:2014-09-27 21:15:55马上有钱
日期:2014-06-16 15:55:42马上有房
日期:2014-06-16 15:55:42问答徽章
日期:2014-04-19 09:26:09马上有房
日期:2014-04-01 21:27:12
14#
发表于 2017-4-7 12:08 | 只看该作者
hadoop有很大局限性的

使用道具 举报

回复
论坛徽章:
0
15#
发表于 2017-4-7 17:15 | 只看该作者

是或不是等过十年再论

使用道具 举报

回复
论坛徽章:
91
秀才
日期:2015-11-02 11:24:03秀才
日期:2017-12-12 10:00:50秀才
日期:2017-09-18 17:34:47秀才
日期:2017-09-18 17:02:592017金鸡报晓
日期:2017-02-08 14:09:132017金鸡报晓
日期:2017-01-10 15:39:05秀才
日期:2016-12-21 16:55:07ITPUB15周年纪念
日期:2016-10-06 10:54:102016猴年福章
日期:2016-02-23 09:58:342016猴年福章
日期:2016-02-18 09:31:30
16#
发表于 2017-4-12 23:09 | 只看该作者
1.什么是Hadoop?
hadoop就是把一群计算机整合成一台计算机,从而提高计算机的性能
2.为什么组织从传统的数据仓库工具转移到基于Hadoop生态系统的智能数据中心?
因为存储的数据更多,机器成本更廉价,大数据计算速度快捷;未来是数据时代,大家都开始挖掘现有数据的价值;
3.更智能&更大的数据中心架构与传统的数据仓库架构有何不同?
感觉比较类似,不过hadoop相对来说可能更稳定一些,数据备份相对更简单,备份充足;
4.相较Spark等5种大数据框架,基于Hadoop的数据中心的好处是什么?
理解还是hadoop框架的优势,成本低廉,易于自主开发功能,数据存储高效。

使用道具 举报

回复
论坛徽章:
4
ITPUB新首页上线纪念徽章
日期:2007-10-20 08:38:442013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2013-12-18 09:29:08秀才
日期:2015-11-23 10:17:19
17#
发表于 2017-4-15 00:27 | 只看该作者
本帖最后由 liklstar 于 2017-4-15 00:28 编辑

哦,大家都在关心这个?
Hadoop也好,Spark也罢,不过是一个具体的有形的产品或软件。把它们搞会、用熟,有多大意义呢?顶多是编编程序,做做项目,卖卖经验而以?还是局限于某一个或几个具体的软件、开源软件或产品的灵活巧妙的运用。
如果大家对分布式系统这个知识体系、计算机网络这个科学技术领域、大数据这个学术方向的基础理论知识体系有一些基本的认识和掌握,并积累一些科研或工程技术经验,那麽就可以独立承担科研或工程技术任务,岂不更好?!

使用道具 举报

回复
论坛徽章:
4
ITPUB十周年纪念徽章
日期:2011-11-01 16:21:152013年新春福章
日期:2013-02-25 14:51:242014年新春福章
日期:2014-02-18 16:41:11马上有车
日期:2014-02-18 16:41:11
18#
发表于 2017-4-15 12:31 | 只看该作者
Hadoop分布式文件系统(HDFS),对这个有兴趣!

使用道具 举报

回复
论坛徽章:
277
马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11版主9段
日期:2012-11-25 02:21:03ITPUB年度最佳版主
日期:2014-02-19 10:05:27现任管理团队成员
日期:2011-05-07 01:45:08
19#
发表于 2017-4-18 12:55 | 只看该作者
1.什么是Hadoop?
Hadoop起源于Google。Google公司于2003年和2004年发表了两篇描述Google技术的学术论文:谷歌文件系统(GFS)(http://research.google.com/archive/gfs.html)和MapReduce (http://research.google.com/archive/mapreduce.html)。它们提供了一个高效处理极大规模数据的平台。
与此同时,Doug Cutting正在研究开源的网页搜索引擎Nutch。他一直致力于系统原理的工作,当Google的GFS和MapReduce论文发表后,引起了他的强烈共鸣。Doug开始着手实现这些Google系统,不久之后,Hadoop诞生了。Hadoop早期以Lucene子项目的形式出现,不久之后成了Apache开源基金会的顶级项目。因此,从本质上来讲,Hadoop是一个实现了MapReduce和GFS技术的开源平台,它可以在由低成本硬件组成的集群上处理极大规模的数据集。作为一个顶级项目,Hadoop项目包含许多组件子项目。

2.为什么组织从传统的数据仓库工具转移到基于Hadoop生态系统的智能数据中心?
主要因素还是在于企业组织在生产运营中产生的数据越来越大,使用传统的数据仓库工具显得越来越力不从心。企业组织经过多方面了解、评估之后,开始考虑建立基于Hadoop生态系统的智能数据中心。

3.更智能&更大的数据中心架构与传统的数据仓库架构有何不同?
传统的数据仓库架构主要包含数据流入流出的过程,通常分为三层:源数据层、数据仓库层、数据应用层。
源数据层:日志、数据库、文件系统、媒体文件
数据仓库层:聚合数据、多维数据、业务模型、关系型数据
数据应用层:报表展示、实时查询、数据分析、数据挖掘
而智能化的数据中心架构大致分四层:数据采集层、数据存储&分析层、数据共享层、数据应用层。
数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些简单的清洗。
数据共享层指的是前面数据分析与计算后的结果存放的地方。

4.相较Spark等5种大数据框架,基于Hadoop的数据中心的好处是什么?
好处有:
1)基于Hadoop的数据中心在技术方面显得更成熟、稳定;
2)相关的IT从业人员也更多,更易于招聘;
3)基于Hadoop的商业解决方案也更多,哪怕是不懂这些的公司也更易于实施。

使用道具 举报

回复
论坛徽章:
0
20#
发表于 2017-4-18 16:10 | 只看该作者
spark 并没有定义底层的存储,spark 可以替代hadoop 的map reduce , spark 并没排斥hadoop hdfs

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表