楼主: 丸喵喵

【大话IT】初探企业大数据选型:Hadoop是否已失宠?

[复制链接]
论坛徽章:
77
20周年集字徽章-周
日期:2020-10-28 14:51:04秀才
日期:2017-03-28 15:11:09秀才
日期:2017-03-20 13:42:20秀才
日期:2017-03-01 13:53:39秀才
日期:2017-02-22 15:18:00秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:14:12进士
日期:2017-02-20 09:43:02举人
日期:2017-02-20 09:42:18进士
日期:2017-02-20 09:42:18
21#
发表于 2018-6-14 16:43 | 只看该作者
暗指Hadoop即将过时,大数据泡沫即将随着用户失败案例的增多而破裂。


这句话我挺支持的。什么大数据预测之类的,感觉从去年下半年到今年明显没那么热门了。大数据类的泡沫太大。

使用道具 举报

回复
论坛徽章:
77
20周年集字徽章-周
日期:2020-10-28 14:51:04秀才
日期:2017-03-28 15:11:09秀才
日期:2017-03-20 13:42:20秀才
日期:2017-03-01 13:53:39秀才
日期:2017-02-22 15:18:00秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:14:12进士
日期:2017-02-20 09:43:02举人
日期:2017-02-20 09:42:18进士
日期:2017-02-20 09:42:18
22#
发表于 2018-6-14 16:45 | 只看该作者
aloki 发表于 2018-6-2 22:54
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗? ...

你在技术服务企业当然这么认为。你到实体经济企业(包括互联网行业)看看,大数据真的给企业带来了收益吗。大数据一套下来成本太高,之前吹捧的大数据预测到现在七八年了,预测了什么有价值的东西 吗。我觉得很多企业和老板现在已经慢慢意识到了。

使用道具 举报

回复
论坛徽章:
77
20周年集字徽章-周
日期:2020-10-28 14:51:04秀才
日期:2017-03-28 15:11:09秀才
日期:2017-03-20 13:42:20秀才
日期:2017-03-01 13:53:39秀才
日期:2017-02-22 15:18:00秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:14:12进士
日期:2017-02-20 09:43:02举人
日期:2017-02-20 09:42:18进士
日期:2017-02-20 09:42:18
23#
发表于 2018-6-14 16:49 | 只看该作者
东风玖哥 发表于 2018-6-11 16:17
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗? ...

感觉在大型互联网企业会存在。中小企业用途真的很小。大数据hadoop之类并不是说会消失,而是热度降低,会回归到它真正用途上。消失应该是不会,只是中小型企业不会盲目去搞什么大数据,或者说大部分中小企业不会用hadoop大数据类的。

使用道具 举报

回复
论坛徽章:
16
秀才
日期:2016-02-18 09:39:10ITPUB18周年纪念章
日期:2018-11-13 15:40:45ITPUB18周年纪念章
日期:2018-11-13 15:31:24ITPUB18周年纪念章
日期:2018-09-17 10:12:57ITPUB18周年纪念章
日期:2018-09-17 10:09:49ITPUB15周年纪念
日期:2018-07-27 16:11:00秀才
日期:2018-06-21 10:08:00秀才
日期:2018-04-08 14:48:31秀才
日期:2017-12-12 10:00:20秀才
日期:2017-09-18 17:02:05
24#
发表于 2018-6-15 09:41 | 只看该作者
HA不会呀。

使用道具 举报

回复
论坛徽章:
6
秀才
日期:2016-03-24 09:20:52秀才
日期:2016-04-21 14:11:592017金鸡报晓
日期:2017-01-10 15:29:03秀才
日期:2017-09-18 17:04:02秀才
日期:2017-12-12 10:13:13秀才
日期:2018-04-08 14:37:33
25#
发表于 2018-6-20 15:13 | 只看该作者
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
答:我觉得报告有失偏颇了,不能因为有缺点就因噎废食。
Hadoop在国内应该是全行业使用的首要考虑生态吧。
2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
答:我觉得hadoop优势在于离线分析、分布式存储,劣势的话就是太慢了。。。。
spark和hadoop生态应该是相辅相成的关系,spark可以运用hadoop生态组件,站在hadoop肩膀上腾飞。
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
答:表现最好的应该是HDFS、ZooKeeper以及HBase。很符合市场对于hadoop生态的希望需求。毕竟快,大,可管控是大多公司所希望的。
而欠佳的MapReduce、Hive,性能与开发效率不高,导致人们对其有些失望。而且spark对于MR具有可替代性。
4、您所在的公司属于什么行业?
答:旅游行业

使用道具 举报

回复
论坛徽章:
220
状元
日期:2015-08-13 09:42:33榜眼
日期:2015-08-03 13:57:54探花
日期:2015-07-31 13:44:02举人
日期:2015-07-01 15:00:51秀才
日期:2015-07-27 09:45:52进士
日期:2015-07-27 11:26:492015年中国系统架构师大会纪念徽章
日期:2015-07-23 09:58:092014系统架构师大会纪念章
日期:2015-07-23 09:58:092013系统架构师大会纪念章
日期:2015-07-23 09:58:092012系统架构师大会纪念章
日期:2015-07-23 09:58:09
26#
发表于 2018-6-20 21:37 | 只看该作者
1、您对Gartner的报告结论如何看待?就国内现状而言,Hadoop在传统企业的受欢迎程度会和互联网企业相同吗?
针对Gartner的报告,我们可以参考,但不可全信。我们不可轻易的断言一个技术的生死。C语言从上个世纪70年代诞生到现在依旧很吃香。曾经有多少公司和“专家”预言C语言过时,会消失。但它还是依旧好好的活着吗?所以我们要客观的看待这些分析执行。Hadoop是大数据分析的先驱和前辈,受语言的影响(基于Java语言),可能并不是适用于所有的平台开发。所以在传统企业的受欢迎程序和互联网企业肯定是不会相同的。
2、您认为Hadoop生态最大的优势和劣势分别是什么?Spark生态也在渐渐完善,其机器学习方面的能力更强,未来与Hadoop生态的关系会是什么样的?
Hadoop的优势:
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
Hadoop 还是可伸缩的,能够处理 PB 级数据。
此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
不足之处:
       a.全量场景,任务内串行
       b.重吞吐量,响应时间完全没有保证
       c.中间结果不可见,不可分享
       d.单输入单输出,链式浪费严重
       e.链式MR不能并行
       f.粗粒度容错,可能会造成陷阱
       g.图计算不友好
       h.迭代计算不友好
两者的关系:
解决问题的层面不一样
首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。
同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。
两者可合可分
Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。
3、您认为Hadoop生态中表现最好、生命力最旺盛的组件有哪些?为什么?最容易被替换、表现欠佳的组件又有哪些呢?为什么?
Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+…
a.HDFS:分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘
         主:namenode,secondarynamenode
         从:datanode
b.Yarn:分布式资源管理系统,用于同一管理集群中的资源(内存等)
         主:ResourceManager
         从:NodeManager
c.MapReduce:Hadoop的编程框架,用map和reduce方式实现分布式程序设计,类似于Spring。
d.Pig:基于hadoop的一门数据处理语言,类似于python等编程语言
e.Zookeeper:分布式协调服务,用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理等
         主:QuorumPeerMain
         从:QuorumPeerMain
f.Hbase:Hadoop下的分布式数据库,类似于NoSQL
         主:HRegionserver,HMaster,HPeerMain(在使用zookeeper作为协调时没有此进程)
g.Hive:分布式数据仓库,让开发人员可以像使用SQL一样使用MR。
h.Scoop:用于将传统数据库中数据导入到hbase中一个导入工具
i.Spark:基于内存的分布式处理框架
         主:Mater
         从:worker
4、您所在的公司属于什么行业?
医疗设备制造企业。也在进行大数据的研究。

使用道具 举报

回复
论坛徽章:
220
状元
日期:2015-08-13 09:42:33榜眼
日期:2015-08-03 13:57:54探花
日期:2015-07-31 13:44:02举人
日期:2015-07-01 15:00:51秀才
日期:2015-07-27 09:45:52进士
日期:2015-07-27 11:26:492015年中国系统架构师大会纪念徽章
日期:2015-07-23 09:58:092014系统架构师大会纪念章
日期:2015-07-23 09:58:092013系统架构师大会纪念章
日期:2015-07-23 09:58:092012系统架构师大会纪念章
日期:2015-07-23 09:58:09
27#
发表于 2018-6-20 21:38 | 只看该作者
我刚才的回复丢了吗?

使用道具 举报

回复
论坛徽章:
218
弗兰奇
日期:2016-05-31 16:31:17妮可·罗宾
日期:2016-07-04 11:53:09托尼托尼·乔巴
日期:2016-05-31 16:31:17山治
日期:2016-05-31 16:31:17乌索普
日期:2016-05-31 16:31:17娜美
日期:2016-05-31 16:31:17罗罗诺亚·索隆
日期:2016-05-31 16:31:17蒙奇·D·路飞
日期:2016-05-31 16:31:17乌索普
日期:2016-08-03 10:26:32娜美
日期:2016-08-08 14:57:54
28#
 楼主| 发表于 2018-6-21 09:20 | 只看该作者
renxiao2003 发表于 2018-6-20 21:38
我刚才的回复丢了吗?

楼上那个不是么

使用道具 举报

回复
论坛徽章:
220
状元
日期:2015-08-13 09:42:33榜眼
日期:2015-08-03 13:57:54探花
日期:2015-07-31 13:44:02举人
日期:2015-07-01 15:00:51秀才
日期:2015-07-27 09:45:52进士
日期:2015-07-27 11:26:492015年中国系统架构师大会纪念徽章
日期:2015-07-23 09:58:092014系统架构师大会纪念章
日期:2015-07-23 09:58:092013系统架构师大会纪念章
日期:2015-07-23 09:58:092012系统架构师大会纪念章
日期:2015-07-23 09:58:09
29#
发表于 2018-6-21 20:51 | 只看该作者

嗯。昨天刚回复完没看到。所以又在20多层那个位置重新发了下。有点重复了。不过都留着吧。也是一记录。

使用道具 举报

回复
论坛徽章:
28
沸羊羊
日期:2015-03-04 14:55:41秀才
日期:2017-03-20 13:42:20秀才
日期:2017-03-28 15:59:38秀才
日期:2017-04-06 18:09:28秀才
日期:2017-07-11 14:19:35秀才
日期:2017-08-18 11:02:47秀才
日期:2017-08-18 11:04:35秀才
日期:2017-08-18 11:06:45秀才
日期:2018-04-08 14:48:31秀才
日期:2018-06-21 10:08:00
30#
发表于 2018-6-26 09:58 | 只看该作者
坐等大佬神回复

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表