话题讨论：Storm、Spark和Hadoop三个大数据处理工具谁将成为主流

wangzhonnew · 发表于 2014-2-23 09:26

1、大数据核心是什么？
核心在于如何从海量数据中发掘出对企业有利的价值。技术只是大数据的一个载体，最关键的是如何把这一坨数据变为对企业有利的决策。
从技术上看，为了支撑这一体系，分布式计算和存储毫无疑问是方向。在我看起来，分布式计算和分布式存储现在已经渐渐分开了。
比如spark, mapreduce, storm都是典型的计算框架，而HDFS是最主流的存储结构。当然还有为数众多的NoSQL和其他分布式文件系统。
所以说技术上的核心我认为是分布式计算框架，和分布式存储引擎。

2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流？
三者没有冲突吧。Spark已经可以运行在Hadoop Yarn里面了，Storm是一种流式处理引擎，各自都在干不同的东西。
Hadoop今后可能会渐渐从MapReduce的概念中走出来，作为一种分布式调度机制。内部的运算框架现在看起来Spark比MapReduce要优秀。
Storm是完全不同的东西，这三者不是互相取代，而是互相融合的工具。

3、你觉得今年大数据的发展趋势如何？
在传统行业领域，基础引擎层面应该会看到Spark渐渐发力，MapReduce依然会被很多企业使用，不过企业会渐渐开始认识到MR的性能不足，开始研究Spark。
流式处理也会被企业提到日程上，但是距离真正部署还有一段差距。

cooljun_618 · 发表于 2014-2-24 09:26

Hadoop 听说过而已，其他两个工具还么有什么概念，需要学习啊

wolfop · 发表于 2014-2-24 10:51

MR这种东西，IO会成为瓶颈么？看不出基于内存计算的ＭＲ的意义。

rb258 · 发表于 2014-2-24 11:12

学习

hidatas · 发表于 2014-2-24 16:33

核心就是业务模型，简单地说，就是要使用已经拥有的数据来做什么？分析什么？

i2235932666 · 发表于 2014-2-24 18:05

oracle_cj 发表于 2014-2-19 12:37
1、大数据核心是什么？“大数据”作为时下最火热的IT行业的词汇，随之而来的数据仓库、数据安全、数据分析、 ...

这个说的太好了，支持一下

i2235932666 · 发表于 2014-2-24 18:21

1、大数据核心是什么？
存储，分析，分析结果支持决策
2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流？
Hadoop最早出现，发展更成熟，而且最新的版本还支持Spark运行，将来会和Spark整合，共同发展，storm和二者相比会稍逊一些
3、你觉得今年大数据的发展趋势如何？
大数据会成为一种新资源，就像互联网、网络流量流量一样，是将来生活必不可少的一项。

esestt · 发表于 2014-2-24 18:33

本帖最后由 esestt 于 2014-2-24 18:48 编辑

刚好最近的项目要用到分布式数据处理，在研究了storm、spark、akka后，最后选定akka。我对这几个东西大致看法如下。

spark：
包含多种技术，我觉得真正有实用性的是RDD，把数据加载到内存中处理，提供了多种数据处理函数，包括基本汇总、map-reduce、windows...。
Machine Learning(MLlib)也只有几种初级的算法，还不能跟专业的数据挖掘工具（Weka、R...）相比。
RDD应用场景很有限，首先它代替不了以前做OLTP用的内存数据库；其次作为分析工具，应该是每天晚上将数据从Hadoop加载到RDD中(类似ETL的感觉)，隔日给用户使用。
这种应用让我想起了若干年前就出现的qlickviw和最近被oracle收购的endeca，比起这些商业solution来说。spark还停留在很原始的状态，而且目前spark只支持hadoop和scala collection。

storm和akka：
类似的技术，storm是实时流处理，akka是actor系统。最后选定akka的原因是akka的通用性比storm好，而且message的传播是双向的。akka提供可以作为library在app上使用，集成起来比较方便。storm没做太多研究。

回到楼主的问题

1 大数据的核心是什么
核心是“开源”，所谓大数据存储和应用，其实传统的商业方案更成熟。

2 Storm, Spark, Hadoop三个大数据处理工具谁将成为主流？
Storm还是有些看头的，hadoop至今都还没解决数据应用问题。

3 你觉得今年大数据的发展趋势如何？
大数据至今只实现了大数据存储和批处理，还没到大数据应用(比如最基本的数据动态查询)，所以导致应用场景非常受局限。如果要作为数据库跟rmdbs比，还有很长的路要走，现在nosql有向sql靠拢的趋势。
再有，传统的rmdbs厂商也不是吃素的，oracle、ibm完全可以更好的实现分布式存储和处理。除了开源和免费，想不到hadoop有什么突出优势。

joeoliver · 发表于 2014-2-24 21:00

金融IT领域还没有见到这些应用，数据库都是传统的RDBMS，数据处理/挖掘/分析等也都用比较成熟的工具/软件。国内在互联网/电商领域已经掀起应用的热潮，个人觉得如何支持分析决策才是未来发展的根本，随着业务模型的成熟，工具还是工具，不断的发展和与时俱进，老的死了新的就来了。

dreamtime · 发表于 2014-2-24 22:06

进来学习下。看了几位大侠的介绍，spark是基于内存的，那么，如果以后ssd更便宜了，从性能和成本均衡考虑，会不会更多人选择hadoop，而不是spark？就像现在内存数据库很美好，但是始终没有流行起来。