|
本帖最后由 renxiao2003 于 2018-6-20 21:54 编辑
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?对于Gartner的报告结论不可不信也不可全信。对于上世纪70年代发明的C语言,好多机构和“专家”都曾断言C语言会死。但直到今天C语言依旧是一个流行的和不可或缺的开发语言。所以我们不能盲目的去相信报告,要客观的分析和处理。Hadoop在传统企业的受欢迎程度会和互联网企业肯定是不同的。
2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
优势:
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
Hadoop 还是可伸缩的,能够处理 PB 级数据。
此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
劣势:
不足之处:
a.全量场景,任务内串行
b.重吞吐量,响应时间完全没有保证
c.中间结果不可见,不可分享
d.单输入单输出,链式浪费严重
e.链式MR不能并行
f.粗粒度容错,可能会造成陷阱
g.图计算不友好
h.迭代计算不友好
Hadoop和Spark的关系:
解决问题的层面不一样
首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。
同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。
两者可合可分
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+…
a.HDFS:分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘
主:namenode,secondarynamenode
从:datanode
b.Yarn:分布式资源管理系统,用于同一管理集群中的资源(内存等)
主:ResourceManager
从:NodeManager
c.MapReduce:Hadoop的编程框架,用map和reduce方式实现分布式程序设计,类似于Spring。
d.Pig:基于hadoop的一门数据处理语言,类似于python等编程语言
e.Zookeeper:分布式协调服务,用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理等
主:QuorumPeerMain
从:QuorumPeerMain
f.Hbase:Hadoop下的分布式数据库,类似于NoSQL
主:HRegionserver,HMaster,HPeerMain(在使用zookeeper作为协调时没有此进程)
g.Hive:分布式数据仓库,让开发人员可以像使用SQL一样使用MR。
h.Scoop:用于将传统数据库中数据导入到hbase中一个导入工具
i.Spark:基于内存的分布式处理框架
主:Mater
从:worker
4、您所在的公司属于什么行业?
传统医疗制造企业。
|
|