ITPUB论坛-专业的IT技术社区

标题: 【大话IT】初探企业大数据选型:Hadoop是否已失宠? [打印本页]

作者: 丸喵喵    时间: 2018-5-30 14:01
标题: 【大话IT】初探企业大数据选型:Hadoop是否已失宠?
获奖公布:
路由器:
renxiao2003
T-恤:
aloki
jieforest
help01
xiaomaoyu1

话题背景Gartner在《2017年数据管理技术成熟度曲线》报告中指出Hadoop到达生产成熟期前即被淘汰(如下图),70%的Hadoop部署无法实现节约成本和收入增长的目标。当然,这并不是Gartner第一次唱衰Hadoop,早在五年前,Gartner研究总监Svetlana Sicular在其博客发表了一篇题为“大数据光环的幻灭”的文章,暗指Hadoop即将过时,大数据泡沫即将随着用户失败案例的增多而破裂。
在国内,大多数企业的大数据架构都基于Hadoop生态,Hadoop生态在大数据领域的标准地位相当稳固,Gartner的这一报告又该如何解读呢?这一结论到底是危言耸听还是确有远见呢?

讨论问题:
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
4、您所在的公司属于什么行业?

活动时间:2018年5月30日——2018年7月30日


活动奖品:活动结束后我们会抽取1位优质回复赠送路由器一台,4位获奖者赠送itpub18周年纪念T-恤,参与奖:秀才徽章一枚。




作者: Ryan-liumin    时间: 2018-5-31 08:37
沙发  
作者: houbao408    时间: 2018-5-31 09:25
4位获奖者赠送itpub18周年纪念T-恤
作者: hai503    时间: 2018-5-31 09:39
图有点参考价值,不过Gartner 现在管得这么“宽”了吗?
作者: 13572207795    时间: 2018-6-1 09:29
1.大数据杀熟的新闻被曝光之后,对弱势群体不利 大数据的缺点一下子暴露出来
2.应该加强大数据用到制造业 农业等领域 弥补有些领域的投机取巧
本人公司从事金融行业

作者: wmxcn2000    时间: 2018-6-1 09:52
本话题,要讨论 2 个月?平时不都是 1 个月,或 2 周吗?
作者: aloki    时间: 2018-6-2 22:54
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
我觉Gartner的报告的有点危言耸听了。Hadoop即使在使用的过程存在问题,但并不是没办法解决的。就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同,几乎覆盖全行业。

2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
Hadoop优势是可扩展性,容错性,支持从GB到PB级别多种业务的需求,支持PB级别海量数据批处理的需求;劣势是使用门槛略高,技术迭代快导致学习成本和运维成本升高。
Spark大部分情况下与Hadoop配合出现,Spark作为通用计算引擎,而Hadoop提供存储和资源管理框架等服务。

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
Hadoop生态中表现最好、生命力最旺盛的组件有HDFS、ZooKeeper以及HBase。因为无论是Spark还是Flink,底层的文件系统都是HDFS,很少有第三方厂商基于开源再造一个文件系统,HDFS在某种程度上奠定了大数据的基础。此外不少系统集成了ZooKeeper,因为它是分布式应用程序协调服务很关键的工具。在海量数据存储方面,目前看起来比较靠谱的方案依旧是HBase。无论是时间序列数据库还是图数据库底层往往都是HBase,这也说明其性能的优异。
最容易被替换、表现欠佳的组件有MapReduce、Hive、Mahout和Yarn。因为随着硬件越来越成熟,Spark的优化工作越来越好,企业很可能倾向于在内存中计算,MapReduce、Hive这类组件可能被Spark等替换掉。此外,Hadoop在机器学习方面确实不太擅长,Mahout等组件表现不佳,成为不少企业选择Spark的原因之一。最后,资源管理器Yarn与Hadoop的绑定过于紧,而实际上,有很多资源调度管理方法可供选择,比如Kubernetes等,对各种应用的支持某种程度上比Yarn更完善,无论是外部类型应用,大数据应用还是机器学习应用均可处理。

4、您所在的公司属于什么行业?
我所在的公司属于服务业
作者: nv2118    时间: 2018-6-4 11:31
一到专业问题的时候就发现,我是混进来的。我只能回答一个问题:
4、您所在的公司属于什么行业?
答:仪器仪表
作者: 丸喵喵    时间: 2018-6-4 13:15
wmxcn2000 发表于 2018-6-1 09:52
本话题,要讨论 2 个月?平时不都是 1 个月,或 2 周吗?

嗯嗯,想采取更多的样本
作者: zxzc99    时间: 2018-6-4 14:40
参与奖:秀才徽章一枚
作者: jieforest    时间: 2018-6-4 16:15
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
Gartner的调查报告一向有比较高的可信度和权威性,但是Gartner报告未必就明确指出了Hadoop将在什么时间被淘汰。我虽然未读Gartner的报告,但我估计其报告应该是讲述了当前大数据平台的技术发展趋势。从趋势上看,Hadoop在未来可能会被更好的技术所取代,未来会面临淘汰的风险。
我看过今年福布斯的大数据市场预测,到2022年,Hadoop市场预计将达到99.31亿美元,复合年增长率为42.1%。从福布斯的数据来看,Hadoop还将兴旺好些年。
Hadoop解决方案这些年在国内不断经过了各个公司的检验,大家逐步认识到它是一个成熟的、靠谱的解决方案,确实能解决企业面临大数据带来的问题,但Hadoop也并非包治百病的良药,有些需求它能很容易搞定,而另外有些需求它就很难搞定或者需要另谋别的解决方案。
传统企业往往喜欢采用比较成熟的解决方案,因此Hadoop还将在国内有比较长的生命周期。就像Java语言,现在已经是第10版了,但很多传统企业仍然坚持使用Java SE 6.0。

2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
Hadoop和Apache Spark都是大数据框架,但它们的实现目标有所不同。
Hadoop本质上是一个分布式数据基础架构:它在大量商品服务器中的多个节点上分发海量数据集合,这意味着您不需要购买和维护昂贵的定制硬件。它还对这些数据进行索引和跟踪,使大数据处理和分析能够比以前更有效。
Spark没有自己的文件管理系统,Spark可以看成是一种数据处理工具,可以对这些分布式数据集进行操作,它自身不会做分布式存储。
Hadoop不仅包含一个称为Hadoop分布式文件系统的存储组件,还包含一个名为MapReduce的处理组件,因此不需要Spark即可完成大数据的处理。
反过来,Spark是为Hadoop设计的,Spark也可以处理存储在Hadoop平台上的大数据。
由于Spark处理数据的方式,Spark通常比MapReduce快很多。在MapReduce逐步运行的同时,Spark一举处理整个数据集。
取决于传统企业的实际需求,如果企业的数据操作和报告要求大部分是静态的,并且可以等待批处理模式处理,那么MapReduce的处理风格可以很好。但是,如果企业需要对流式数据(如工厂车间传感器)进行分析,或者需要多个操作的应用程序,则可能需要使用Spark。
由于数据在每次操作后都写入磁盘,因此Hadoop对系统故障或故障具有自然的恢复能力,但由于其数据对象存储在分布在数据集群中的弹性分布式数据集中,因此Spark具有类似的内置弹性。

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
Hadoop的组件中,HDFS、Cassandra、HBase、ZooKeeper、Mahout等组件都非常具有生命力,发展的很不错。
就目前而言,常见的现象是使用Spark取代了MapReduce组件。

4、您所在的公司属于什么行业?
智能制造
作者: help01    时间: 2018-6-4 16:15
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
应该还是可信的。在国内,Hadoop应用主要以互联网公司为主,由此可以推断Hadoop在互联网企业比在传统企业更受欢迎。例如百度的Hadoop主要用于数据挖掘与分析、日志分析平台、数据仓库系统、用户行为分析系统;阿里巴巴的Hadoop主要用于数据平台系统、搜索支撑、广告系统、淘数据、推荐引擎系统、搜索排行榜。

2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
优势:
  高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖;
  高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中;
  高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快;
  高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
劣势:
  不适合低延迟数据访问;
  无法高效存储大量小文件;
  不支持多用户写入及任意修改文件。
Spark目前在国内的大型互联网公司中也得到了积极的推广,前面提到的百度、阿里巴巴,以及奇虎360、腾讯、中国移动等都有使用。预计Spark未来会融合到Hadoop生态当中。

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
表现最好、生命力最旺盛的组件可能是HDFS、Yarn、Zookeeper、Hbase、Spark在这些吧,表现欠佳的组件我认为是Pig。这门基于hadoop的数据处理语言,有局限性,不像Python那么易学易用,应用面广。

4、您所在的公司属于什么行业?
信息服务
作者: renxiao2003    时间: 2018-6-5 17:17
本帖最后由 renxiao2003 于 2018-6-20 21:54 编辑

1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?对于Gartner的报告结论不可不信也不可全信。对于上世纪70年代发明的C语言,好多机构和“专家”都曾断言C语言会死。但直到今天C语言依旧是一个流行的和不可或缺的开发语言。所以我们不能盲目的去相信报告,要客观的分析和处理。Hadoop在传统企业的受欢迎程度会和互联网企业肯定是不同的。
2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
优势:
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
Hadoop 还是可伸缩的,能够处理 PB 级数据。
此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
劣势:
  不足之处:
a.全量场景,任务内串行
b.重吞吐量,响应时间完全没有保证
c.中间结果不可见,不可分享
d.单输入单输出,链式浪费严重
e.链式MR不能并行
f.粗粒度容错,可能会造成陷阱
g.图计算不友好
h.迭代计算不友好
Hadoop和Spark的关系:
解决问题的层面不一样
首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。
同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。
两者可合可分
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+…
a.HDFS:分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘
         主:namenode,secondarynamenode
         从:datanode
b.Yarn:分布式资源管理系统,用于同一管理集群中的资源(内存等)
         主:ResourceManager
         从:NodeManager
c.MapReduce:Hadoop的编程框架,用map和reduce方式实现分布式程序设计,类似于Spring。
d.Pig:基于hadoop的一门数据处理语言,类似于python等编程语言
e.Zookeeper:分布式协调服务,用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理等
         主:QuorumPeerMain
         从:QuorumPeerMain
f.Hbase:Hadoop下的分布式数据库,类似于NoSQL
         主:HRegionserver,HMaster,HPeerMain(在使用zookeeper作为协调时没有此进程)
g.Hive:分布式数据仓库,让开发人员可以像使用SQL一样使用MR。
h.Scoop:用于将传统数据库中数据导入到hbase中一个导入工具
i.Spark:基于内存的分布式处理框架
         主:Mater
         从:worker
4、您所在的公司属于什么行业?
传统医疗制造企业。



作者: randoming    时间: 2018-6-8 15:38
好贴!支持,这里人气咋就突然少了这么多
作者: 赵钰莹    时间: 2018-6-11 10:17
randoming 发表于 2018-6-8 15:38
好贴!支持,这里人气咋就突然少了这么多

因为回答不了,所以只能看看
作者: devil3380    时间: 2018-6-11 11:29
估计两个月都很难得到多少样本
作者: 东风玖哥    时间: 2018-6-11 16:17
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
每年那么多唱衰Java的“研究报告”怎么看,这篇唱衰Hadoop的文章就怎么看呗。Hadoop在传统企业和互联网企业都很受欢迎。

2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
Hadoop最大的优势在于学习的人多,初学者容易找老手和学习资料。

Spark和Haddop并非“反腐亡A,不反腐亡B”中的A和B一样是对立关系,而是可以相互补充的关系

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
Hadoop生态中表现最好、生命力最旺盛的组件是ZooKeeper,现在已经有了“无ZooKeeper不Java”的说法了

4、您所在的公司属于什么行业?
我在一家公安、政务大数据公司做Android主管
作者: 静以致远√团团    时间: 2018-6-12 11:51
沙发
作者: ceo_lxy    时间: 2018-6-14 09:16

1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?

对于传统制造行业,Hadoop大数据方案感觉实用不强,不是受欢迎的,
原因为三,
一个是传统制造行业没有这么大的数据量,都是内部的一些运营数据及少量供应商,客户数据。
二是Hadoop技术更新快,成本太高,制造业利润普遍不高的前提下,Hadoop技术短期带不了直接回报。
三是传统制造行业更青睐成熟的技术方案。而不开源,
2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
Haddop是个大数据全生态,而Spark是只是某些领域需求中的计算方面有独到之处。
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
没有实际应用
4、您所在的公司属于什么行业?
传统制造行业
--------
制造行业 应用hadooop方案只有在大型造行业如美的,华为,BYD ,引入,像一般上个BI系统基本能解决。

作者: luckyrandom    时间: 2018-6-14 10:04
各自面对和专注的领域不同吧,开发设计定位也有不同的立场、角度,Hadoop是个更通用的框架、平台。就像即使MySQL如此流行,但Oracle/SQL Server还是有自己的市场,真正适合用户需求的产品才是好产品,这个产品会包括产品本身质量、发展势头、生态链等。传统企业的量级难以达到“大数据”的级别,除了极少数的之外。互联网企业是主角

作者: johny666    时间: 2018-6-14 16:43
暗指Hadoop即将过时,大数据泡沫即将随着用户失败案例的增多而破裂。


这句话我挺支持的。什么大数据预测之类的,感觉从去年下半年到今年明显没那么热门了。大数据类的泡沫太大。
作者: johny666    时间: 2018-6-14 16:45
aloki 发表于 2018-6-2 22:54
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗? ...

你在技术服务企业当然这么认为。你到实体经济企业(包括互联网行业)看看,大数据真的给企业带来了收益吗。大数据一套下来成本太高,之前吹捧的大数据预测到现在七八年了,预测了什么有价值的东西 吗。我觉得很多企业和老板现在已经慢慢意识到了。
作者: johny666    时间: 2018-6-14 16:49
东风玖哥 发表于 2018-6-11 16:17
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗? ...

感觉在大型互联网企业会存在。中小企业用途真的很小。大数据hadoop之类并不是说会消失,而是热度降低,会回归到它真正用途上。消失应该是不会,只是中小型企业不会盲目去搞什么大数据,或者说大部分中小企业不会用hadoop大数据类的。
作者: Fl_wolf    时间: 2018-6-15 09:41
HA不会呀。
作者: 415829566    时间: 2018-6-20 15:13
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
答:我觉得报告有失偏颇了,不能因为有缺点就因噎废食。
Hadoop在国内应该是全行业使用的首要考虑生态吧。
2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
答:我觉得hadoop优势在于离线分析、分布式存储,劣势的话就是太慢了。。。。
spark和hadoop生态应该是相辅相成的关系,spark可以运用hadoop生态组件,站在hadoop肩膀上腾飞。
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
答:表现最好的应该是HDFS、ZooKeeper以及HBase。很符合市场对于hadoop生态的希望需求。毕竟快,大,可管控是大多公司所希望的。
而欠佳的MapReduce、Hive,性能与开发效率不高,导致人们对其有些失望。而且spark对于MR具有可替代性。
4、您所在的公司属于什么行业?
答:旅游行业
作者: renxiao2003    时间: 2018-6-20 21:37
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
针对Gartner的报告,我们可以参考,但不可全信。我们不可轻易的断言一个技术的生死。C语言从上个世纪70年代诞生到现在依旧很吃香。曾经有多少公司和“专家”预言C语言过时,会消失。但它还是依旧好好的活着吗?所以我们要客观的看待这些分析执行。Hadoop是大数据分析的先驱和前辈,受语言的影响(基于Java语言),可能并不是适用于所有的平台开发。所以在传统企业的受欢迎程序和互联网企业肯定是不会相同的。
2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
Hadoop的优势:
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
Hadoop 还是可伸缩的,能够处理 PB 级数据。
此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
不足之处:
       a.全量场景,任务内串行
       b.重吞吐量,响应时间完全没有保证
       c.中间结果不可见,不可分享
       d.单输入单输出,链式浪费严重
       e.链式MR不能并行
       f.粗粒度容错,可能会造成陷阱
       g.图计算不友好
       h.迭代计算不友好
两者的关系:
解决问题的层面不一样
首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。
同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。
两者可合可分
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+…
a.HDFS:分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘
         主:namenode,secondarynamenode
         从:datanode
b.Yarn:分布式资源管理系统,用于同一管理集群中的资源(内存等)
         主:ResourceManager
         从:NodeManager
c.MapReduce:Hadoop的编程框架,用map和reduce方式实现分布式程序设计,类似于Spring。
d.Pig:基于hadoop的一门数据处理语言,类似于python等编程语言
e.Zookeeper:分布式协调服务,用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理等
         主:QuorumPeerMain
         从:QuorumPeerMain
f.Hbase:Hadoop下的分布式数据库,类似于NoSQL
         主:HRegionserver,HMaster,HPeerMain(在使用zookeeper作为协调时没有此进程)
g.Hive:分布式数据仓库,让开发人员可以像使用SQL一样使用MR。
h.Scoop:用于将传统数据库中数据导入到hbase中一个导入工具
i.Spark:基于内存的分布式处理框架
         主:Mater
         从:worker
4、您所在的公司属于什么行业?
医疗设备制造企业。也在进行大数据的研究。
作者: renxiao2003    时间: 2018-6-20 21:38
我刚才的回复丢了吗?
作者: 丸喵喵    时间: 2018-6-21 09:20
renxiao2003 发表于 2018-6-20 21:38
我刚才的回复丢了吗?

楼上那个不是么
作者: renxiao2003    时间: 2018-6-21 20:51
丸喵喵 发表于 2018-6-21 09:20
楼上那个不是么

嗯。昨天刚回复完没看到。所以又在20多层那个位置重新发了下。有点重复了。不过都留着吧。也是一记录。
作者: liang3917841    时间: 2018-6-26 09:58
坐等大佬神回复
作者: 369690464    时间: 2018-6-26 17:23
前排 沙发
作者: xiaomaoyu1    时间: 2018-6-27 11:45
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
IT 行业是个快速发展的行业,新生事物的出现,总有各种质疑声音。

2、您认为Hadoop生态最大的优势和劣势分别是什么?
易于扩展的底层框架的思想是最有创新,可以解决目前大多数的业务系统的横向扩展带来的性能瓶颈。
目前的问题还是很多,还有许多需要解决,例如:组件繁多,管理单一节点,没有真正的去中心化等等。

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
hdfs 目前是大家使用最多的组件,足以说明他的先进性。
其他的组件还差很多,许多公司只使用的底层的hdfs。足以说明其他的组件还有待提高

4、您所在的公司属于什么行业?
我所在的公司属于IT 业

作者: letitia1208    时间: 2018-7-4 17:11
(⊙o⊙)…对Hadoop不怎么了解,只知道HDFS跟ZooKeeper,分布式存储跟ZooKeeper计算很厉害的样子
作者: ipsun    时间: 2018-7-9 09:11
本帖最后由 ipsun 于 2018-7-9 09:12 编辑

题主,Gartner的报告里只是说完整的Hadoop发行版过于复杂和臃肿,而使用者最常用的只是其并行计算和SQL功能,因此完整的Hadoop发行版将会被更加轻量和深度定制化的Hadoop技术栈(主要以数据分析云服务的形式)所取代,并不是唱衰Hadoop,Hadoop作为企业数据管理的事实标准Gartner其实是认可的。题主附图上的“Hadoop分布”其实是个翻译错误,原文是Hadoop Distribution(Hadoop发行版),不要牵强附会。
作者: 初识orcl    时间: 2018-7-18 09:36
如果是真的,那么现在技术更新好快啊。
作者: help01    时间: 2018-8-7 08:33
4、您所在的公司属于什么行业?
IT

作者: x1a0fe1    时间: 2018-9-11 17:13
Hadoop失宠与否,取决于大数据技术的更新换代。数据量的大小以及数据的及时处理消费,数据的应用场景都是考察点。
思想不死,技术不死。




欢迎光临 ITPUB论坛-专业的IT技术社区 (http://www.itpub.net/) Powered by Discuz! X3.2