楼主: hwayw

话题讨论:Storm、Spark和Hadoop三个大数据处理工具谁将成为主流

[复制链接]
招聘 : 实施经理
论坛徽章:
2
2011新春纪念徽章
日期:2011-02-17 16:18:55ITPUB官方微博粉丝徽章
日期:2011-07-01 18:05:27
31#
发表于 2014-2-21 14:37 | 只看该作者
先收藏,回复了,再回来看!~

使用道具 举报

回复
招聘 : c/c++研发
论坛徽章:
45
技术图书徽章
日期:2014-03-10 14:09:192012新春纪念徽章
日期:2012-02-13 15:12:092012新春纪念徽章
日期:2012-02-13 15:12:092012新春纪念徽章
日期:2012-01-04 11:51:22ITPUB十周年纪念徽章
日期:2011-11-01 16:21:15现任管理团队成员
日期:2011-05-07 01:45:082011新春纪念徽章
日期:2011-01-25 15:42:562011新春纪念徽章
日期:2011-01-25 15:42:332011新春纪念徽章
日期:2011-01-25 15:42:152011新春纪念徽章
日期:2011-01-25 15:41:50
32#
发表于 2014-2-23 09:26 | 只看该作者
1、大数据核心是什么?
核心在于如何从海量数据中发掘出对企业有利的价值。技术只是大数据的一个载体,最关键的是如何把这一坨数据变为对企业有利的决策。
从技术上看,为了支撑这一体系,分布式计算和存储毫无疑问是方向。在我看起来,分布式计算和分布式存储现在已经渐渐分开了。
比如spark, mapreduce, storm都是典型的计算框架,而HDFS是最主流的存储结构。当然还有为数众多的NoSQL和其他分布式文件系统。
所以说技术上的核心我认为是分布式计算框架,和分布式存储引擎。

2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?
三者没有冲突吧。Spark已经可以运行在Hadoop Yarn里面了,Storm是一种流式处理引擎,各自都在干不同的东西。
Hadoop今后可能会渐渐从MapReduce的概念中走出来,作为一种分布式调度机制。内部的运算框架现在看起来Spark比MapReduce要优秀。
Storm是完全不同的东西,这三者不是互相取代,而是互相融合的工具。

3、你觉得今年大数据的发展趋势如何?
在传统行业领域,基础引擎层面应该会看到Spark渐渐发力,MapReduce依然会被很多企业使用,不过企业会渐渐开始认识到MR的性能不足,开始研究Spark。
流式处理也会被企业提到日程上,但是距离真正部署还有一段差距。

使用道具 举报

回复
论坛徽章:
3
2014年新春福章
日期:2014-02-18 16:43:09马上有钱
日期:2014-02-18 16:43:09优秀写手
日期:2014-04-09 06:00:22
33#
发表于 2014-2-24 09:26 | 只看该作者
Hadoop 听说过而已,其他两个工具 还么有什么概念,需要学习啊

使用道具 举报

回复
论坛徽章:
78
ITPUB15周年纪念
日期:2020-08-28 17:23:53双鱼座
日期:2016-03-19 19:38:31秀才
日期:2016-02-18 09:31:52秀才
日期:2016-01-25 15:02:04双子座
日期:2016-01-19 20:35:54秀才
日期:2016-01-13 12:14:26秀才
日期:2015-12-25 15:31:10秀才
日期:2015-12-18 09:28:57秀才
日期:2015-12-14 14:56:09秀才
日期:2015-12-14 14:51:16
34#
发表于 2014-2-24 10:51 | 只看该作者
MR这种东西,IO会成为瓶颈么?看不出基于内存计算的MR的意义。

使用道具 举报

回复
论坛徽章:
0
35#
发表于 2014-2-24 11:12 | 只看该作者
学习

使用道具 举报

回复
论坛徽章:
6
咸鸭蛋
日期:2013-01-11 10:30:55优秀写手
日期:2013-12-19 06:00:122014年新春福章
日期:2014-02-18 16:47:53马上加薪
日期:2014-02-18 16:47:53慢羊羊
日期:2015-03-04 14:53:332015年新春福章
日期:2015-03-06 11:58:39
36#
发表于 2014-2-24 16:33 | 只看该作者
核心就是业务模型,简单地说,就是要使用已经拥有的数据来做什么?分析什么?

使用道具 举报

回复
论坛徽章:
27
2014年新春福章
日期:2014-02-18 16:50:09秀才
日期:2015-06-25 15:39:28秀才
日期:2015-06-29 15:26:52秀才
日期:2015-07-03 17:00:53秀才
日期:2015-07-14 09:44:30金牛座
日期:2015-07-21 14:01:36秀才
日期:2015-09-14 10:08:30秀才
日期:2016-02-18 09:24:18秀才
日期:2016-02-18 10:08:02举人
日期:2016-02-24 17:33:17
37#
发表于 2014-2-24 18:05 | 只看该作者
oracle_cj 发表于 2014-2-19 12:37
1、大数据核心是什么?“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、 ...

这个说的太好了,支持一下

使用道具 举报

回复
论坛徽章:
27
2014年新春福章
日期:2014-02-18 16:50:09秀才
日期:2015-06-25 15:39:28秀才
日期:2015-06-29 15:26:52秀才
日期:2015-07-03 17:00:53秀才
日期:2015-07-14 09:44:30金牛座
日期:2015-07-21 14:01:36秀才
日期:2015-09-14 10:08:30秀才
日期:2016-02-18 09:24:18秀才
日期:2016-02-18 10:08:02举人
日期:2016-02-24 17:33:17
38#
发表于 2014-2-24 18:21 | 只看该作者
1、大数据核心是什么?
     存储,分析,分析结果支持决策
2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?
      Hadoop最早出现,发展更成熟,而且最新的版本还支持Spark运行,将来会和Spark整合,共同发展,storm和二者相比会稍逊一些
3、你觉得今年大数据的发展趋势如何?
大数据会成为一种新资源,就像互联网、网络流量流量一样,是将来生活必不可少的一项。

使用道具 举报

回复
论坛徽章:
26
ITPUB新首页上线纪念徽章
日期:2007-10-20 08:38:44奥运会纪念徽章:铁人三项
日期:2012-08-21 21:48:242013年新春福章
日期:2013-02-25 14:51:24劳斯莱斯
日期:2013-08-11 20:46:31本田
日期:2013-12-10 22:01:02劳斯莱斯
日期:2013-12-16 22:07:38本田
日期:2013-12-19 20:35:46技术图书徽章
日期:2014-03-10 14:09:19喜羊羊
日期:2015-02-22 13:44:282015年新春福章
日期:2015-03-04 14:51:12
39#
发表于 2014-2-24 18:33 | 只看该作者
本帖最后由 esestt 于 2014-2-24 18:48 编辑

刚好最近的项目要用到分布式数据处理,在研究了storm、spark、akka后,最后选定akka。我对这几个东西大致看法如下。

spark:
包含多种技术,我觉得真正有实用性的是RDD,把数据加载到内存中处理,提供了多种数据处理函数,包括基本汇总、map-reduce、windows...。
Machine Learning(MLlib)也只有几种初级的算法,还不能跟专业的数据挖掘工具(Weka、R...)相比。
RDD应用场景很有限,首先它代替不了以前做OLTP用的内存数据库;其次作为分析工具,应该是每天晚上将数据从Hadoop加载到RDD中(类似ETL的感觉),隔日给用户使用。
这种应用让我想起了若干年前就出现的qlickviw和最近被oracle收购的endeca,比起这些商业solution来说。spark还停留在很原始的状态,而且目前spark只支持hadoop和scala collection。

storm和akka:
类似的技术,storm是实时流处理,akka是actor系统。最后选定akka的原因是akka的通用性比storm好,而且message的传播是双向的。akka提供可以作为library在app上使用,集成起来比较方便。storm没做太多研究。



回到楼主的问题

1 大数据的核心是什么
   核心是“开源”,所谓大数据存储和应用,其实传统的商业方案更成熟。

2 Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?
   Storm还是有些看头的,hadoop至今都还没解决数据应用问题。

3 你觉得今年大数据的发展趋势如何?
   大数据至今只实现了大数据存储和批处理,还没到大数据应用(比如最基本的数据动态查询),所以导致应用场景非常受局限。如果要作为数据库跟rmdbs比,还有很长的路要走,现在nosql有向sql靠拢的趋势。
   再有,传统的rmdbs厂商也不是吃素的,oracle、ibm完全可以更好的实现分布式存储和处理。除了开源和免费,想不到hadoop有什么突出优势。

使用道具 举报

回复
论坛徽章:
16
生肖徽章2007版:狗
日期:2009-11-16 18:46:472014年新春福章
日期:2014-02-18 16:43:092013年新春福章
日期:2013-02-25 14:51:24鲜花蛋
日期:2012-12-25 19:19:54ITPUB 11周年纪念徽章
日期:2012-10-09 18:09:19ITPUB 11周年纪念徽章
日期:2012-09-28 17:34:422012新春纪念徽章
日期:2012-01-04 11:53:54灰彻蛋
日期:2011-12-05 11:53:57ITPUB十周年纪念徽章
日期:2011-11-01 16:24:04ITPUB十周年纪念徽章
日期:2011-09-27 16:32:49
40#
发表于 2014-2-24 21:00 | 只看该作者
金融IT领域还没有见到这些应用,数据库都是传统的RDBMS,数据处理/挖掘/分析等也都用比较成熟的工具/软件。国内在互联网/电商领域已经掀起应用的热潮,个人觉得如何支持分析决策才是未来发展的根本,随着业务模型的成熟,工具还是工具,不断的发展和与时俱进,老的死了新的就来了。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表