ITPUB论坛-中国专业的IT技术社区

 找回密码
 注册
楼主: 丸喵喵

【大话IT】初探企业大数据选型:Hadoop是否已失宠?

[复制链接]
认证徽章
论坛徽章:
277
马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11版主9段
日期:2012-11-25 02:21:03ITPUB年度最佳版主
日期:2014-02-19 10:05:27现任管理团队成员
日期:2011-05-07 01:45:08
发表于 2018-6-4 16:15 | 显示全部楼层
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
Gartner的调查报告一向有比较高的可信度和权威性,但是Gartner报告未必就明确指出了Hadoop将在什么时间被淘汰。我虽然未读Gartner的报告,但我估计其报告应该是讲述了当前大数据平台的技术发展趋势。从趋势上看,Hadoop在未来可能会被更好的技术所取代,未来会面临淘汰的风险。
我看过今年福布斯的大数据市场预测,到2022年,Hadoop市场预计将达到99.31亿美元,复合年增长率为42.1%。从福布斯的数据来看,Hadoop还将兴旺好些年。
Hadoop解决方案这些年在国内不断经过了各个公司的检验,大家逐步认识到它是一个成熟的、靠谱的解决方案,确实能解决企业面临大数据带来的问题,但Hadoop也并非包治百病的良药,有些需求它能很容易搞定,而另外有些需求它就很难搞定或者需要另谋别的解决方案。
传统企业往往喜欢采用比较成熟的解决方案,因此Hadoop还将在国内有比较长的生命周期。就像Java语言,现在已经是第10版了,但很多传统企业仍然坚持使用Java SE 6.0。

2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
Hadoop和Apache Spark都是大数据框架,但它们的实现目标有所不同。
Hadoop本质上是一个分布式数据基础架构:它在大量商品服务器中的多个节点上分发海量数据集合,这意味着您不需要购买和维护昂贵的定制硬件。它还对这些数据进行索引和跟踪,使大数据处理和分析能够比以前更有效。
Spark没有自己的文件管理系统,Spark可以看成是一种数据处理工具,可以对这些分布式数据集进行操作,它自身不会做分布式存储。
Hadoop不仅包含一个称为Hadoop分布式文件系统的存储组件,还包含一个名为MapReduce的处理组件,因此不需要Spark即可完成大数据的处理。
反过来,Spark是为Hadoop设计的,Spark也可以处理存储在Hadoop平台上的大数据。
由于Spark处理数据的方式,Spark通常比MapReduce快很多。在MapReduce逐步运行的同时,Spark一举处理整个数据集。
取决于传统企业的实际需求,如果企业的数据操作和报告要求大部分是静态的,并且可以等待批处理模式处理,那么MapReduce的处理风格可以很好。但是,如果企业需要对流式数据(如工厂车间传感器)进行分析,或者需要多个操作的应用程序,则可能需要使用Spark。
由于数据在每次操作后都写入磁盘,因此Hadoop对系统故障或故障具有自然的恢复能力,但由于其数据对象存储在分布在数据集群中的弹性分布式数据集中,因此Spark具有类似的内置弹性。

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
Hadoop的组件中,HDFS、Cassandra、HBase、ZooKeeper、Mahout等组件都非常具有生命力,发展的很不错。
就目前而言,常见的现象是使用Spark取代了MapReduce组件。

4、您所在的公司属于什么行业?
智能制造

使用道具 举报

回复
认证徽章
论坛徽章:
335
秀才
日期:2015-08-27 09:55:502014系统架构师大会纪念章
日期:2015-07-31 17:48:202013系统架构师大会纪念章
日期:2015-07-31 17:48:202012系统架构师大会纪念章
日期:2015-07-31 17:48:202011系统架构师大会纪念章
日期:2015-07-31 17:48:202010系统架构师大会纪念
日期:2015-07-31 17:48:202009架构师大会纪念徽章
日期:2015-07-31 17:48:20秀才
日期:2015-07-29 15:08:59榜眼
日期:2015-07-15 16:04:23秀才
日期:2015-07-15 12:49:25
发表于 2018-6-4 16:15 | 显示全部楼层
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
应该还是可信的。在国内,Hadoop应用主要以互联网公司为主,由此可以推断Hadoop在互联网企业比在传统企业更受欢迎。例如百度的Hadoop主要用于数据挖掘与分析、日志分析平台、数据仓库系统、用户行为分析系统;阿里巴巴的Hadoop主要用于数据平台系统、搜索支撑、广告系统、淘数据、推荐引擎系统、搜索排行榜。

2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
优势:
  高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖;
  高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中;
  高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快;
  高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
劣势:
  不适合低延迟数据访问;
  无法高效存储大量小文件;
  不支持多用户写入及任意修改文件。
Spark目前在国内的大型互联网公司中也得到了积极的推广,前面提到的百度、阿里巴巴,以及奇虎360、腾讯、中国移动等都有使用。预计Spark未来会融合到Hadoop生态当中。

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
表现最好、生命力最旺盛的组件可能是HDFS、Yarn、Zookeeper、Hbase、Spark在这些吧,表现欠佳的组件我认为是Pig。这门基于hadoop的数据处理语言,有局限性,不像Python那么易学易用,应用面广。

4、您所在的公司属于什么行业?
信息服务

使用道具 举报

回复
认证徽章
论坛徽章:
214
状元
日期:2015-08-13 09:42:33榜眼
日期:2015-08-03 13:57:54探花
日期:2015-07-31 13:44:02举人
日期:2015-07-01 15:00:51进士
日期:2015-07-27 11:26:49秀才
日期:2015-07-27 09:45:522015年中国系统架构师大会纪念徽章
日期:2015-07-23 09:58:092014系统架构师大会纪念章
日期:2015-07-23 09:58:092013系统架构师大会纪念章
日期:2015-07-23 09:58:092012系统架构师大会纪念章
日期:2015-07-23 09:58:09
发表于 2018-6-5 17:17 | 显示全部楼层
两个月,五个奖,周期长啊。

使用道具 举报

回复
招聘 : c/c++研发
论坛徽章:
54
月度论坛发贴之星
日期:2008-06-01 02:15:492011新春纪念徽章
日期:2011-02-18 11:43:32马上有车
日期:2014-08-06 12:18:09ITPUB元老
日期:2010-11-12 21:49:50奥运会纪念徽章:皮划艇激流回旋
日期:2008-06-20 20:10:53奥运会纪念徽章:摔跤
日期:2008-06-19 20:50:06奥运会纪念徽章:射箭
日期:2008-06-15 10:10:10奥运会纪念徽章:马术
日期:2008-06-14 10:06:29奥运会纪念徽章:帆船
日期:2008-06-12 18:00:03奥运会纪念徽章:柔道
日期:2008-06-12 17:58:23
发表于 2018-6-8 15:38 | 显示全部楼层
好贴!支持,这里人气咋就突然少了这么多

使用道具 举报

回复
论坛徽章:
0
发表于 2018-6-11 10:17 | 显示全部楼层
randoming 发表于 2018-6-8 15:38
好贴!支持,这里人气咋就突然少了这么多

因为回答不了,所以只能看看

使用道具 举报

回复
认证徽章
论坛徽章:
34
授权会员
日期:2007-11-28 20:47:35ITPUB元老
日期:2008-05-20 15:05:572017金鸡报晓
日期:2017-01-10 15:39:052017金鸡报晓
日期:2017-02-08 14:09:13
发表于 2018-6-11 11:29 | 显示全部楼层
估计两个月都很难得到多少样本

使用道具 举报

回复
认证徽章
论坛徽章:
12
秀才
日期:2017-03-20 13:42:20秀才
日期:2018-04-08 14:37:33娜美
日期:2018-03-28 14:24:56秀才
日期:2017-12-12 10:08:28秀才
日期:2017-09-18 17:33:51秀才
日期:2017-09-18 17:00:37秀才
日期:2017-08-18 11:06:45秀才
日期:2017-07-11 13:54:02秀才
日期:2017-04-06 18:09:28秀才
日期:2017-03-28 15:59:38
发表于 2018-6-11 16:17 | 显示全部楼层
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
每年那么多唱衰Java的“研究报告”怎么看,这篇唱衰Hadoop的文章就怎么看呗。Hadoop在传统企业和互联网企业都很受欢迎。

2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
Hadoop最大的优势在于学习的人多,初学者容易找老手和学习资料。

Spark和Haddop并非“反腐亡A,不反腐亡B”中的A和B一样是对立关系,而是可以相互补充的关系

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
Hadoop生态中表现最好、生命力最旺盛的组件是ZooKeeper,现在已经有了“无ZooKeeper不Java”的说法了

4、您所在的公司属于什么行业?
我在一家公安、政务大数据公司做Android主管

使用道具 举报

回复
求职 : 数据库管理员
认证徽章
论坛徽章:
4
水瓶座
日期:2015-07-15 17:33:19秀才
日期:2017-03-27 17:42:03秀才
日期:2017-09-18 17:01:30秀才
日期:2017-09-18 17:35:53
发表于 2018-6-12 11:51 | 显示全部楼层
沙发

使用道具 举报

回复
求职 : 技术/实施/服务顾问
论坛徽章:
13
2010新春纪念徽章
日期:2010-01-04 08:33:08秀才
日期:2017-12-12 10:15:21秀才
日期:2017-07-11 13:54:02布鲁克
日期:2017-06-27 13:41:002014年世界杯参赛球队: 意大利
日期:2014-07-03 23:09:59ITPUB社区千里马徽章
日期:2013-06-09 10:15:34咸鸭蛋
日期:2013-05-10 14:58:29鲜花蛋
日期:2012-12-01 08:43:34布鲁克
日期:2017-07-31 15:02:46茶鸡蛋
日期:2011-09-07 08:51:11
发表于 2018-6-14 09:16 | 显示全部楼层

1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?

对于传统制造行业,Hadoop大数据方案感觉实用不强,不是受欢迎的,
原因为三,
一个是传统制造行业没有这么大的数据量,都是内部的一些运营数据及少量供应商,客户数据。
二是Hadoop技术更新快,成本太高,制造业利润普遍不高的前提下,Hadoop技术短期带不了直接回报。
三是传统制造行业更青睐成熟的技术方案。而不开源,
2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
Haddop是个大数据全生态,而Spark是只是某些领域需求中的计算方面有独到之处。
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
没有实际应用
4、您所在的公司属于什么行业?
传统制造行业
--------
制造行业 应用hadooop方案只有在大型造行业如美的,华为,BYD ,引入,像一般上个BI系统基本能解决。

使用道具 举报

回复
认证徽章
论坛徽章:
54
秀才
日期:2017-02-22 15:18:002015年新春福章
日期:2015-03-06 11:57:31懒羊羊
日期:2015-03-04 14:48:16马上有对象
日期:2014-10-24 17:37:55马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11ITPUB社区12周年站庆徽章
日期:2013-10-08 15:00:34ITPUB社区12周年站庆徽章
日期:2013-10-08 14:57:28ITPUB社区12周年站庆徽章
日期:2013-10-08 14:54:39林肯
日期:2013-09-12 15:57:33
发表于 2018-6-14 10:04 | 显示全部楼层
各自面对和专注的领域不同吧,开发设计定位也有不同的立场、角度,Hadoop是个更通用的框架、平台。就像即使MySQL如此流行,但Oracle/SQL Server还是有自己的市场,真正适合用户需求的产品才是好产品,这个产品会包括产品本身质量、发展势头、生态链等。传统企业的量级难以达到“大数据”的级别,除了极少数的之外。互联网企业是主角

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

TOP技术积分榜 社区积分榜 徽章 电子杂志 团队 统计 虎吧 老博客 知识索引树 读书频道 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档 | IT博客
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛 | SAP ERP系统
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 网站律师 隐私政策 知识产权声明
京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表