话题讨论：Spark VS Hadoop有哪些异同点？

tian1982tian · 发表于 2014-5-7 22:30

支持，我们正准备上spark项目，现在已经上了hive、hbase、MR、storm等相关技术的项目，希望今年能上shark项目以改善hive高延迟性能问题，到时候在讨论啊！希望能抽中书。

大海里的骆驼 · 发表于 2014-5-10 15:29

本帖最后由大海里的骆驼于 2014-5-10 15:30 编辑

一般公司都在用hadoop
spark现在用的公司比较少
还有待时间的证明spark的可靠性

bitiwyh · 发表于 2014-5-10 16:57

mark----

tian1982tian · 发表于 2014-5-11 21:19

准确的说是mapreduce和spark的异同，我们现在正在搞spark的工作，准备将之前的mapreduce计算框架换掉，有可能年底吧，hive的和集群里面的好多任务都太慢了。

Detaillee · 发表于 2014-5-12 23:30

很明显spark是这两年大数据技术最为热门的技术之一，但从前面的评论看来大众对其的了解还是比较少的，本人将了解的情况陈述如下：
1、spark由于启用了内存分布数据集，充分利用了分布式内存技术使其运算效率在hadoop至少；使用Scala语言编写；另外随着hadoop 2.0的发布，Spark亦可直接运行在YARN上。
2、容错特性：Spark 引进弹性分布式数据集(RDD) 。RDD 是分布在一组节点中的只读对象集合。集合是弹性的，如果数据集一部分丢失，则可以对它们进行重建。重建部分数据集的过程依赖于容错机制，该机制可以维护 "血统"（即允许基于数据衍生过程重建部分数据集的信息）。
3、很明显采用内存计算的效率远高于具有大量磁盘IO操作的Hadoop
4、迷你书，能在最短的时间内掌握尽可能多的内容，看起来不至于太累。

期待中奖！

只看该作者 · 发表于 2014-5-15 17:38

本帖最后由 panda_rabbit 于 2014-5-15 17:38 编辑

我想知道未来是spark替代hadoop呢？还是两者并存呢？

likai503819723 · 发表于 2014-5-16 09:30

我只知道spark比Hadoop快。而且快的不只是一倍。对于1.X版本的Hadoop，spark应该可以取代了吧？对于2.x的Hadoop，spark可以利用yarn框架运行得更好。
不知道说得对不对。

〇〇 · 发表于 2014-5-16 09:31

我关心用来做数据库能否支持跨节点的高效连接和并发更新操作

苏上人 · 发表于 2014-5-16 14:19

我们公司现在数据的处理主要是在hadoop上但是也搭建了10台的spark的集群
hadoop 可以使用比较廉价的PC机器但是spark尽量还是使用内存配置比较高的我们这用的是64G内存的
网上资料说尽量使用96G内存以上的但是我们这没那么好的机器做测试
相比较于hadoop 我们使用的spark觉得有几下几个优点
第一 spark基于内存计算，速度很明显。  10台的SPARK的集群的速度可以和我们这hadoop集群的50台的差不多  但是 hadoop 的集群内存大小不一  有8G的  有16G的
第二  spark是基于Scala  相比较hadoop基于java spark更适合数据挖掘    因为scala就是技术机器挖掘的
第三  hadoop 编程模式处理数据很死  只有map 和reduce 而spark编程模式更灵活
第四  据说 spark的算法比hadoop算法更厉害这个我们这也不知道怎么看只知道处理数据速度确实快了很多

2009532140 · 发表于 2014-5-19 15:45

oracle_cj 发表于 2014-5-5 09:27
1、 Spark VSHadoop有哪些异同点？ Hadoop:分布式批处理计算，强调批处理，常用于数据挖掘、分析[/ ...

靠。你啥都要啊