123
返回列表 发新帖
楼主: 王楠w_n

【大话IT】大数据时代,Hadoop是最好的框架?

[复制链接]
论坛徽章:
10
灰彻蛋
日期:2013-02-17 17:19:50法拉利
日期:2013-11-07 15:54:30日产
日期:2013-11-06 15:20:08问答徽章
日期:2013-10-24 13:31:59林肯
日期:2013-09-12 23:25:54ITPUB社区12周年站庆徽章
日期:2013-08-20 11:30:11一汽
日期:2013-08-04 19:55:322013年新春福章
日期:2013-02-25 14:51:24咸鸭蛋
日期:2013-02-21 13:31:29弗兰奇
日期:2017-05-02 16:22:08
21#
发表于 2017-4-19 10:53 | 只看该作者
Big data is a very popular concept nowadays~

使用道具 举报

回复
论坛徽章:
11
ITPUB9周年纪念徽章
日期:2010-10-08 09:31:22秀才
日期:2016-01-21 13:42:39知识
日期:2015-06-02 15:04:49懒羊羊
日期:2015-03-18 09:28:52知识
日期:2015-03-10 11:54:022015年新春福章
日期:2015-03-06 11:57:31沸羊羊
日期:2015-03-04 14:43:43技术图书徽章
日期:2014-04-04 15:09:22ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:072010广州亚运会纪念徽章:高尔夫球
日期:2010-11-12 16:47:25
22#
发表于 2017-4-20 15:44 | 只看该作者
hadoop架构和传统SQL数据库的EDW是相互协同的关系,谁也替代不了谁,至少5年内是这样。我不讨论两种架构或两类产品的关系,我从用户角度看。都说To C的企业需要注重体验,To B的何尝不是!你让用户(不是客户,客户是付钱的人,用户是真正的使用者)在改变习惯,改变习惯啊!无论是戒烟、戒酒,还是提前一小时起床、把外八字变成内八字走路,哪个简单?!说是能提升我的就业能力,多一项技能,但还多了大量的潜在竞争对手呢!人都有惰性。

使用道具 举报

回复
论坛徽章:
19
秀才
日期:2015-12-21 09:48:11秀才
日期:2016-02-18 10:08:02秀才
日期:2016-02-18 10:07:49秀才
日期:2016-02-18 10:06:21秀才
日期:2016-02-18 09:39:10秀才
日期:2016-02-18 09:24:30秀才
日期:2016-02-18 09:24:18秀才
日期:2016-02-18 09:23:46秀才
日期:2016-02-18 09:21:30秀才
日期:2016-02-18 09:19:48
23#
发表于 2017-4-27 20:42 | 只看该作者

(1)什么是Hadoop?

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。

是由Apache基金会所开发的分布式系统基础架构。

Hadoop实现了一个分布式文件系统,简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上来提供高吞吐量访问应用程序的数据,适合那些有着超大数据集的应用程序。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

(2)为什么组织从传统的数据仓库工具转移到基于Hadoop生态系统的智能数据中心?

对于传统手段实现的数据仓库工具,利用的主要是结构化数据进行统计分析。这部分功能在大数据平台上完全可以实现,而且大数据平台采用的分布式架构设计,利用分布式计算完成相同的工作内容所需时间更短。

说一下基于Hadoop生态系统的智能数据中心的优点:

(a)结构化(例如RDBMS),非结构化(例如images,PDF,docs )和半结构化(例如logs,XMLs)的数据可以以可扩展和容错的方式存储在较便宜的商品机器中

(b)可以通过批处理作业和近实时(即,NRT,200毫秒至2秒)流(例如Flume和Kafka)来摄取数据。

(c)数据可以使用诸如Spark和Impala之类的工具以低延迟(即低于100毫秒)的能力查询。

(d)Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

(e)Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

(3)更智能&更大的数据中心架构与传统的数据仓库架构有何不同?

传统企业数据仓库架构:

基于Hadoop的数据架构:

(4)相较Spark等5种大数据框架,基于Hadoop的数据中心的好处是什么?

Hadoop社区活跃,对开发人员的能力要求相对不高,工程师的学习成本也并不高,Hadoop社区活跃,软件进化较快,从业人员供应相对较多,且有相对较多的真实应用案例,这使得应用风险相对较低;

成熟的生态圈代表的未来的发展方向,代表着美好的市场前景;

应用环境搭建维护的成本方面,其对硬件要求较低,不需要为其配置传统高端计算、存储,且因为可水平扩展的原因,规模成本可随着需求逐步增加,避免一次性投资风险;


使用道具 举报

回复
论坛徽章:
9
慢羊羊
日期:2015-03-04 14:55:272015年新春福章
日期:2015-03-06 11:59:47技术图书徽章
日期:2017-02-09 17:05:19秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:18:00现任管理团队成员
日期:2017-06-03 02:10:11版主1段
日期:2017-06-05 09:06:08秀才
日期:2017-08-18 11:04:35秀才
日期:2017-09-18 17:02:49
24#
发表于 2017-6-3 14:19 | 只看该作者
sjf0115 发表于 2017-4-27 20:42
(1)什么是Hadoop?Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的 ...

写得很好,赞一个

使用道具 举报

回复
论坛徽章:
19
秀才
日期:2015-12-21 09:48:11秀才
日期:2016-02-18 10:08:02秀才
日期:2016-02-18 10:07:49秀才
日期:2016-02-18 10:06:21秀才
日期:2016-02-18 09:39:10秀才
日期:2016-02-18 09:24:30秀才
日期:2016-02-18 09:24:18秀才
日期:2016-02-18 09:23:46秀才
日期:2016-02-18 09:21:30秀才
日期:2016-02-18 09:19:48
25#
发表于 2017-7-13 09:51 | 只看该作者
这个都没有收到奖品......

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表