|
我们公司现在数据的处理主要是在hadoop上 但是也搭建了10台的spark的集群
hadoop 可以使用比较廉价的PC机器 但是spark尽量还是使用内存配置比较高的 我们这用的是64G内存的
网上资料说尽量使用96G内存以上的 但是我们这没那么好的机器做测试
相比较于hadoop 我们使用的spark觉得有几下几个优点
第一 spark基于内存计算,速度很明显 。 10台的SPARK的集群的速度可以和我们这hadoop集群的50台的差不多 但是 hadoop 的集群内存大小不一 有8G的 有16G的
第二 spark是基于Scala 相比较hadoop基于java spark更适合数据挖掘 因为scala就是技术机器挖掘的
第三 hadoop 编程模式处理数据很死 只有map 和reduce 而spark编程模式更灵活
第四 据说 spark的算法比hadoop算法更厉害 这个我们这也不知道怎么看 只知道处理数据速度确实快了很多 |
|