【大话IT】初探企业大数据选型：Hadoop是否已失宠？

jieforest · 发表于 2018-6-4 16:15

1、您对Gartner的报告结论如何看待？就国内现状而言，Hadoop在传统企业的受欢迎程度会和互联网企业相同吗？
Gartner的调查报告一向有比较高的可信度和权威性，但是Gartner报告未必就明确指出了Hadoop将在什么时间被淘汰。我虽然未读Gartner的报告，但我估计其报告应该是讲述了当前大数据平台的技术发展趋势。从趋势上看，Hadoop在未来可能会被更好的技术所取代，未来会面临淘汰的风险。
我看过今年福布斯的大数据市场预测，到2022年，Hadoop市场预计将达到99.31亿美元，复合年增长率为42.1％。从福布斯的数据来看，Hadoop还将兴旺好些年。
Hadoop解决方案这些年在国内不断经过了各个公司的检验，大家逐步认识到它是一个成熟的、靠谱的解决方案，确实能解决企业面临大数据带来的问题，但Hadoop也并非包治百病的良药，有些需求它能很容易搞定，而另外有些需求它就很难搞定或者需要另谋别的解决方案。
传统企业往往喜欢采用比较成熟的解决方案，因此Hadoop还将在国内有比较长的生命周期。就像Java语言，现在已经是第10版了，但很多传统企业仍然坚持使用Java SE 6.0。

2、您认为Hadoop生态最大的优势和劣势分别是什么？Spark生态也在渐渐完善，其机器学习方面的能力更强，未来与Hadoop生态的关系会是什么样的？
Hadoop和Apache Spark都是大数据框架，但它们的实现目标有所不同。
Hadoop本质上是一个分布式数据基础架构：它在大量商品服务器中的多个节点上分发海量数据集合，这意味着您不需要购买和维护昂贵的定制硬件。它还对这些数据进行索引和跟踪，使大数据处理和分析能够比以前更有效。
Spark没有自己的文件管理系统，Spark可以看成是一种数据处理工具，可以对这些分布式数据集进行操作，它自身不会做分布式存储。
Hadoop不仅包含一个称为Hadoop分布式文件系统的存储组件，还包含一个名为MapReduce的处理组件，因此不需要Spark即可完成大数据的处理。
反过来，Spark是为Hadoop设计的，Spark也可以处理存储在Hadoop平台上的大数据。
由于Spark处理数据的方式，Spark通常比MapReduce快很多。在MapReduce逐步运行的同时，Spark一举处理整个数据集。
取决于传统企业的实际需求，如果企业的数据操作和报告要求大部分是静态的，并且可以等待批处理模式处理，那么MapReduce的处理风格可以很好。但是，如果企业需要对流式数据（如工厂车间传感器）进行分析，或者需要多个操作的应用程序，则可能需要使用Spark。
由于数据在每次操作后都写入磁盘，因此Hadoop对系统故障或故障具有自然的恢复能力，但由于其数据对象存储在分布在数据集群中的弹性分布式数据集中，因此Spark具有类似的内置弹性。

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些？为什么？最容易被替换、表现欠佳的组件又有哪些呢？为什么？
Hadoop的组件中，HDFS、Cassandra、HBase、ZooKeeper、Mahout等组件都非常具有生命力，发展的很不错。
就目前而言，常见的现象是使用Spark取代了MapReduce组件。

4、您所在的公司属于什么行业？
智能制造

help01 · 发表于 2018-6-4 16:15

1、您对Gartner的报告结论如何看待？就国内现状而言，Hadoop在传统企业的受欢迎程度会和互联网企业相同吗？
应该还是可信的。在国内，Hadoop应用主要以互联网公司为主，由此可以推断Hadoop在互联网企业比在传统企业更受欢迎。例如百度的Hadoop主要用于数据挖掘与分析、日志分析平台、数据仓库系统、用户行为分析系统；阿里巴巴的Hadoop主要用于数据平台系统、搜索支撑、广告系统、淘数据、推荐引擎系统、搜索排行榜。

2、您认为Hadoop生态最大的优势和劣势分别是什么？Spark生态也在渐渐完善，其机器学习方面的能力更强，未来与Hadoop生态的关系会是什么样的？
优势：
  高可靠性：Hadoop按位存储和处理数据的能力值得人们信赖;
  高扩展性：Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中；
  高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快；
  高容错性：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
劣势：
  不适合低延迟数据访问；
  无法高效存储大量小文件；
  不支持多用户写入及任意修改文件。
Spark目前在国内的大型互联网公司中也得到了积极的推广，前面提到的百度、阿里巴巴，以及奇虎360、腾讯、中国移动等都有使用。预计Spark未来会融合到Hadoop生态当中。

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些？为什么？最容易被替换、表现欠佳的组件又有哪些呢？为什么？
表现最好、生命力最旺盛的组件可能是HDFS、Yarn、Zookeeper、Hbase、Spark在这些吧，表现欠佳的组件我认为是Pig。这门基于hadoop的数据处理语言，有局限性，不像Python那么易学易用，应用面广。

4、您所在的公司属于什么行业？
信息服务

renxiao2003 · 发表于 2018-6-5 17:17

本帖最后由 renxiao2003 于 2018-6-20 21:54 编辑

1、您对Gartner的报告结论如何看待？就国内现状而言，Hadoop在传统企业的受欢迎程度会和互联网企业相同吗？对于Gartner的报告结论不可不信也不可全信。对于上世纪70年代发明的C语言，好多机构和“专家”都曾断言C语言会死。但直到今天C语言依旧是一个流行的和不可或缺的开发语言。所以我们不能盲目的去相信报告，要客观的分析和处理。Hadoop在传统企业的受欢迎程度会和互联网企业肯定是不同的。
2、您认为Hadoop生态最大的优势和劣势分别是什么？Spark生态也在渐渐完善，其机器学习方面的能力更强，未来与Hadoop生态的关系会是什么样的？
优势：
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。
Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。
Hadoop 还是可伸缩的，能够处理 PB 级数据。
此外，Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。
劣势：
  不足之处：
a.全量场景，任务内串行
b.重吞吐量，响应时间完全没有保证
c.中间结果不可见，不可分享
d.单输入单输出，链式浪费严重
e.链式MR不能并行
f.粗粒度容错，可能会造成陷阱
g.图计算不友好
h.迭代计算不友好
Hadoop和Spark的关系：
解决问题的层面不一样
首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。
同时，Hadoop还会索引和跟踪这些数据，让大数据处理和分析效率达到前所未有的高度。Spark，则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。
两者可合可分
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外，还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark，使用Hadoop自身的MapReduce来完成数据的处理。
相反，Spark也不是非要依附在Hadoop身上才能生存。但如上所述，毕竟它没有提供文件管理系统，所以，它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的，毕竟，大家都认为它们的结合是最好的。
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些？为什么？最容易被替换、表现欠佳的组件又有哪些呢？为什么？
Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+…
a.HDFS:分布式文件系统，隐藏集群细节，可以看做一块儿超大硬盘
      主：namenode,secondarynamenode
      从：datanode
b.Yarn:分布式资源管理系统，用于同一管理集群中的资源（内存等）
      主：ResourceManager
      从：NodeManager
c.MapReduce:Hadoop的编程框架，用map和reduce方式实现分布式程序设计，类似于Spring。
d.Pig:基于hadoop的一门数据处理语言，类似于python等编程语言
e.Zookeeper：分布式协调服务，用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理等
      主：QuorumPeerMain
      从：QuorumPeerMain
f.Hbase:Hadoop下的分布式数据库，类似于NoSQL
      主：HRegionserver,HMaster,HPeerMain(在使用zookeeper作为协调时没有此进程)
g.Hive:分布式数据仓库，让开发人员可以像使用SQL一样使用MR。
h.Scoop:用于将传统数据库中数据导入到hbase中一个导入工具
i.Spark:基于内存的分布式处理框架
      主：Mater
      从：worker
4、您所在的公司属于什么行业？
传统医疗制造企业。

randoming · 发表于 2018-6-8 15:38

好贴！支持，这里人气咋就突然少了这么多

赵钰莹 · 发表于 2018-6-11 10:17

randoming 发表于 2018-6-8 15:38
好贴！支持，这里人气咋就突然少了这么多

因为回答不了，所以只能看看

devil3380 · 发表于 2018-6-11 11:29

估计两个月都很难得到多少样本

东风玖哥 · 发表于 2018-6-11 16:17

1、您对Gartner的报告结论如何看待？就国内现状而言，Hadoop在传统企业的受欢迎程度会和互联网企业相同吗？
每年那么多唱衰Java的“研究报告”怎么看，这篇唱衰Hadoop的文章就怎么看呗。Hadoop在传统企业和互联网企业都很受欢迎。

2、您认为Hadoop生态最大的优势和劣势分别是什么？Spark生态也在渐渐完善，其机器学习方面的能力更强，未来与Hadoop生态的关系会是什么样的？
Hadoop最大的优势在于学习的人多，初学者容易找老手和学习资料。

Spark和Haddop并非“反腐亡A，不反腐亡B”中的A和B一样是对立关系，而是可以相互补充的关系

3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些？为什么？最容易被替换、表现欠佳的组件又有哪些呢？为什么？
Hadoop生态中表现最好、生命力最旺盛的组件是ZooKeeper，现在已经有了“无ZooKeeper不Java”的说法了

4、您所在的公司属于什么行业？
我在一家公安、政务大数据公司做Android主管

静以致远√团团 · 发表于 2018-6-12 11:51

沙发

ceo_lxy · 发表于 2018-6-14 09:16

1、您对Gartner的报告结论如何看待？就国内现状而言，Hadoop在传统企业的受欢迎程度会和互联网企业相同吗？

对于传统制造行业，Hadoop大数据方案感觉实用不强，不是受欢迎的，
原因为三，
一个是传统制造行业没有这么大的数据量，都是内部的一些运营数据及少量供应商，客户数据。
二是Hadoop技术更新快，成本太高，制造业利润普遍不高的前提下，Hadoop技术短期带不了直接回报。
三是传统制造行业更青睐成熟的技术方案。而不开源，
2、您认为Hadoop生态最大的优势和劣势分别是什么？Spark生态也在渐渐完善，其机器学习方面的能力更强，未来与Hadoop生态的关系会是什么样的？
Haddop是个大数据全生态，而Spark是只是某些领域需求中的计算方面有独到之处。
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些？为什么？最容易被替换、表现欠佳的组件又有哪些呢？为什么？
没有实际应用
4、您所在的公司属于什么行业？
传统制造行业
－－－－－－－－
制造行业应用hadooop方案只有在大型造行业如美的，华为，BYD ,引入，像一般上个BI系统基本能解决。

luckyrandom · 发表于 2018-6-14 10:04

各自面对和专注的领域不同吧，开发设计定位也有不同的立场、角度，Hadoop是个更通用的框架、平台。就像即使MySQL如此流行，但Oracle/SQL Server还是有自己的市场，真正适合用户需求的产品才是好产品，这个产品会包括产品本身质量、发展势头、生态链等。传统企业的量级难以达到“大数据”的级别，除了极少数的之外。互联网企业是主角