|
1、大数据核心是什么?
核心在于如何从海量数据中发掘出对企业有利的价值。技术只是大数据的一个载体,最关键的是如何把这一坨数据变为对企业有利的决策。
从技术上看,为了支撑这一体系,分布式计算和存储毫无疑问是方向。在我看起来,分布式计算和分布式存储现在已经渐渐分开了。
比如spark, mapreduce, storm都是典型的计算框架,而HDFS是最主流的存储结构。当然还有为数众多的NoSQL和其他分布式文件系统。
所以说技术上的核心我认为是分布式计算框架,和分布式存储引擎。
2、Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?
三者没有冲突吧。Spark已经可以运行在Hadoop Yarn里面了,Storm是一种流式处理引擎,各自都在干不同的东西。
Hadoop今后可能会渐渐从MapReduce的概念中走出来,作为一种分布式调度机制。内部的运算框架现在看起来Spark比MapReduce要优秀。
Storm是完全不同的东西,这三者不是互相取代,而是互相融合的工具。
3、你觉得今年大数据的发展趋势如何?
在传统行业领域,基础引擎层面应该会看到Spark渐渐发力,MapReduce依然会被很多企业使用,不过企业会渐渐开始认识到MR的性能不足,开始研究Spark。
流式处理也会被企业提到日程上,但是距离真正部署还有一段差距。 |
|