123
返回列表 发新帖
楼主: hwayw

话题讨论:Spark VS Hadoop有哪些异同点?

[复制链接]
论坛徽章:
737
季节之章:春
日期:2015-07-31 17:16:29ITPUB季度 技术新星
日期:2014-07-17 14:37:00季节之章:秋
日期:2015-07-31 17:16:14季节之章:夏
日期:2015-07-31 17:16:29股神
日期:2014-10-15 09:23:31衰神
日期:2014-10-20 22:47:12季节之章:冬
日期:2015-07-31 17:16:14红钻
日期:2014-12-16 17:51:41洛杉矶湖人
日期:2016-09-23 08:18:15布鲁克林篮网
日期:2016-09-23 08:17:18
21#
发表于 2014-5-19 19:35 | 只看该作者
2009532140 发表于 2014-5-19 15:45
靠。你啥都要啊

我这是积极参加活动,支持pub

使用道具 举报

回复
求职 : 数据库管理员
招聘 : Java研发
论坛徽章:
6402
娜美
日期:2021-10-12 20:11:36技术图书徽章
日期:2021-09-30 12:11:1120周年集字徽章-年	
日期:2021-09-30 12:12:5820周年集字徽章-20	
日期:2021-09-30 12:43:0619周年集字徽章-周
日期:2021-09-30 13:18:3120周年集字徽章-20	
日期:2021-09-30 16:44:1219周年集字徽章-周
日期:2021-09-30 17:01:04技术图书徽章
日期:2021-09-30 17:59:14技术图书徽章
日期:2021-10-06 10:36:4019周年集字徽章-19
日期:2021-10-06 14:43:24
22#
发表于 2014-5-20 08:06 | 只看该作者
oracle_cj 发表于 2014-5-19 19:35
我这是积极参加活动,支持pub

使用道具 举报

回复
论坛徽章:
3
马上有对象
日期:2014-06-12 16:32:07蓝色妖姬
日期:2014-08-28 15:17:25秀才
日期:2015-10-08 17:57:58
23#
发表于 2014-5-21 00:16 | 只看该作者
      哈,初来乍到,当做学习的同时也积极参加活动,我关心新技术的动态,根据话题参考了一些材料,我的理解是:
      1、Spark VS Hadoop有哪些异同点?
    Spark是基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。   
    2、Spark在容错性方面是否比其他工具更有优越性?
    现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见;二是交互式数据挖掘工具。这两种情况下,将数据保存在内存中能够极大地提高性能。为了有效地实现容错,RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操作来创建。尽管如此,RDD仍然足以表示很多类型的计算,包括MapReduce和专用的迭代编程模型(如Pregel)等。Spark实现的RDD在迭代计算方面比Hadoop快二十多倍,同时还可以在5-7秒的延时内交互式地查询1TB的数据集。
    3、Spark对于数据处理能力和效率有哪些特色?
    与Hadoop进行对比,结果如下:
   (1)对于迭代式机器学习应用,Spark比Hadoop快20多倍。这种加速比是因为:数据存储在内存中,同时Java对象缓存避免了反序列化操作(deserialization)。
   (2)用户编写的应用程序执行结果很好。例如,Spark分析报表比Hadoop快40多倍。
   (3)如果节点发生失效,通过重建那些丢失的RDD分区,Spark能够实现快速恢复。
   (4)Spark能够在5-7s延时范围内,交互式地查询1TB大小的数据集。

    4、说说您阅读迷你书的感想?
     试读章节提供了前三章的内容,感觉不过瘾啊,期待能获得奖励书籍,好好拜读一下啊。

使用道具 举报

回复
论坛徽章:
72
红旗
日期:2013-11-12 18:59:02比亚迪
日期:2013-11-07 18:36:27问答徽章
日期:2013-11-03 13:52:25日产
日期:2013-10-26 16:37:40ITPUB社区12周年站庆徽章
日期:2013-10-08 15:00:34ITPUB社区12周年站庆徽章
日期:2013-10-08 14:56:08ITPUB社区12周年站庆徽章
日期:2013-10-08 14:53:15雪佛兰
日期:2013-09-16 18:47:29雪佛兰
日期:2013-08-28 22:47:53日产
日期:2013-08-20 20:09:19
24#
发表于 2014-6-3 23:22 | 只看该作者
1、Spark VS Hadoop有哪些异同点?
作为通用的并行处理框架,Spark具有类似Hadoop的一些优点,而且Spark采用了更好的内存管理,
在迭代计算上具有比Hadoop更高的效率,Spark还提供了更为广泛的数据集操作类型,大大方便了
用户的开发,checkpoint的应用使Spark具有很强容错能力,众多优越的性能和比Hadoop更广泛
的适用面让Spark的进一步发展值得期待。
   
2、Spark在容错性方面是否比其他工具更有优越性?
在分布式数据集计算时通过checkpoint来实现容错,而checkpoint
有两种方式,一个是checkpoint data,一个是logging the updates。
用户可以控制采用哪种方式来实现容错。

3、Spark对于数据处理能力和效率有哪些特色?
由于Spark处理数据利用内存,因此它的速度是非常快的,
Spark Streaming:大大提高Spark流处理的能力和稳定性,
使用户可以用同一套代码进行大数据流处理和批量处理。

4、说说您阅读迷你书的感想?
  仔细的看了一下迷你书,大概了解到这本书的框架是怎么样的,这本书中将介绍Spark
  的什么功能,实际上这本迷你书包括这本书的前三章,这三章基本上讲了Spark的最基本
  的知识,第一章就是安装,这个很符合学习者的学习习惯,第二章将的是Spark shell,
  这个Spark shell是用户经常会使用的Spark下面的工具,它集程序的开发与调试与一体,
  第三章介绍如何构建和运行Spark应用,这一章介绍的就是开发者在Spark下面经常要进行
  的工作。

使用道具 举报

回复
论坛徽章:
3
2014年世界杯参赛球队:克罗地亚
日期:2014-06-12 16:53:56海蓝宝石
日期:2014-08-06 14:09:32红宝石
日期:2014-08-28 15:18:18
25#
发表于 2014-6-4 09:55 | 只看该作者
为何还没公布中奖名单???

使用道具 举报

回复
论坛徽章:
0
26#
发表于 2014-6-11 09:04 | 只看该作者
听大家讨论的结果,貌似spark完爆hadoop啊,想听一些更客观的分析,难道hadoop是要被淘汰的节奏?

使用道具 举报

回复
论坛徽章:
91
秀才
日期:2015-11-02 11:24:03秀才
日期:2017-12-12 10:00:50秀才
日期:2017-09-18 17:34:47秀才
日期:2017-09-18 17:02:592017金鸡报晓
日期:2017-02-08 14:09:132017金鸡报晓
日期:2017-01-10 15:39:05秀才
日期:2016-12-21 16:55:07ITPUB15周年纪念
日期:2016-10-06 10:54:102016猴年福章
日期:2016-02-23 09:58:342016猴年福章
日期:2016-02-18 09:31:30
27#
发表于 2014-6-19 09:53 | 只看该作者
2009532140 发表于 2014-5-20 08:06

来个图书章吧

使用道具 举报

回复
论坛徽章:
0
28#
发表于 2014-7-3 15:00 | 只看该作者
我个人认为,hadoop本身是比较适合做离线批处理任务的。发展的时间比spark长,相关辅助的工具也多,例如:hive 就是适合做大数据(TB级别)关联运算的,在复杂一点的计算可以用pig,hbase做好key的话,TB级别的数据查询还是非常快的。
spark还没有仔细了解,他的结构上应该就是适合将数据load到内存中,做复杂的迭代计算,这个应该是他的强项,是否有辅助工具我没有了解(还没有深入学习,建议懂的人告知)。近期也在了解spark,目标是2者相互补充。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表