楼主: pipihappy8888

【大话IT】七问大数据:大数据生态圈离你还远吗?

[复制链接]
论坛徽章:
100
问答徽章
日期:2013-12-02 14:55:04喜羊羊
日期:2015-03-04 14:49:39懒羊羊
日期:2015-03-18 13:56:32射手座
日期:2015-08-25 12:25:52秀才
日期:2015-11-12 17:43:40ITPUB15周年纪念
日期:2016-10-13 13:15:34技术图书徽章
日期:2016-11-30 11:28:29喜羊羊
日期:2015-03-10 17:14:25暖羊羊
日期:2015-04-15 09:12:29慢羊羊
日期:2015-06-16 14:25:04
21#
发表于 2015-3-18 09:15 | 只看该作者

向大神学习

使用道具 举报

回复
论坛徽章:
97
茶鸡蛋
日期:2015-04-02 09:40:09三菱
日期:2015-04-02 09:50:072015年新春福章
日期:2015-03-18 14:23:14暖羊羊
日期:2015-04-01 12:01:04美羊羊
日期:2015-03-27 19:22:532015年新春福章
日期:2015-03-27 20:31:53喜羊羊
日期:2015-03-27 21:47:30暖羊羊
日期:2015-03-27 21:49:182015年新春福章
日期:2015-03-27 22:15:53懒羊羊
日期:2015-03-27 22:58:21
22#
发表于 2015-3-18 10:28 | 只看该作者
回下贴 我是活跃的会员
大数据讲改变人的生活,前一阵看了一篇文章,人们平均要花10分钟才找到停车位,相当于多跑了4.5公里,排放了1.3公斤的二氧化碳。靠大数据和导航软件相结合,帮助人们找停车位给司机做引导(具体文章介绍的方式不具体做介绍)。通过这个事例可以看到大数据的重要之处,变相的节约能源减少污染等等

使用道具 举报

回复
求职 : SAP实施
论坛徽章:
261
土豪章
日期:2018-07-10 16:19:05ITPUB18周年纪念章
日期:2018-09-17 10:09:49ITPUB18周年纪念章
日期:2018-09-17 10:12:57妮可·罗宾
日期:2018-10-28 13:07:10ITPUB18周年纪念章
日期:2018-11-13 15:31:24ITPUB18周年纪念章
日期:2018-11-13 15:40:4519周年集字徽章-庆
日期:2019-09-06 18:30:1219周年集字徽章-19
日期:2021-02-03 16:43:4820周年集字徽章-年	
日期:2023-07-21 18:25:26
23#
发表于 2015-3-18 11:15 | 只看该作者
大数据时代真的到来了....

使用道具 举报

回复
求职 : SAP实施
论坛徽章:
261
土豪章
日期:2018-07-10 16:19:05ITPUB18周年纪念章
日期:2018-09-17 10:09:49ITPUB18周年纪念章
日期:2018-09-17 10:12:57妮可·罗宾
日期:2018-10-28 13:07:10ITPUB18周年纪念章
日期:2018-11-13 15:31:24ITPUB18周年纪念章
日期:2018-11-13 15:40:4519周年集字徽章-庆
日期:2019-09-06 18:30:1219周年集字徽章-19
日期:2021-02-03 16:43:4820周年集字徽章-年	
日期:2023-07-21 18:25:26
24#
发表于 2015-3-18 11:15 | 只看该作者
有徽章啊,求发

使用道具 举报

回复
论坛徽章:
22
ITPUB 11周年纪念徽章
日期:2012-10-09 18:16:002013数据库大会纪念章
日期:2015-03-18 10:16:212014数据库大会纪念章
日期:2015-03-18 10:16:21秀才
日期:2015-07-13 09:55:11金牛座
日期:2015-09-14 18:15:03天蝎座
日期:2015-12-03 09:15:302016猴年福章
日期:2016-02-18 09:31:30猴赛雷
日期:2016-02-18 09:33:422016猴年福章
日期:2016-02-23 09:58:34秀才
日期:2016-03-24 09:20:52
25#
发表于 2015-3-18 11:40 | 只看该作者
大数据2.0了呀,都还没整过大数据呢。。。 都只是传统的数据库

使用道具 举报

回复
求职 : 数据库管理员
招聘 : Java研发
论坛徽章:
6402
娜美
日期:2021-10-12 20:11:36技术图书徽章
日期:2021-09-30 12:11:1120周年集字徽章-年	
日期:2021-09-30 12:12:5820周年集字徽章-20	
日期:2021-09-30 12:43:0619周年集字徽章-周
日期:2021-09-30 13:18:3120周年集字徽章-20	
日期:2021-09-30 16:44:1219周年集字徽章-周
日期:2021-09-30 17:01:04技术图书徽章
日期:2021-09-30 17:59:14技术图书徽章
日期:2021-10-06 10:36:4019周年集字徽章-19
日期:2021-10-06 14:43:24
26#
发表于 2015-3-19 15:58 | 只看该作者
1. 面对海量大数据,首先要考虑的当然是怎么来存大数据了。HDFS与传统的文件系统有什么不同呢?
简单说说这个,前几天看了HDFS 简介。
首先应该是支持超大文件,这与传统的文件系统有很大的区别。传统的文件受操作系统的限制而不能像HDFS那样scale 有那么大的跨度。
另一个应该是故障检测与恢复功能。因为设计目标是为了适应大型机群系统的。

使用道具 举报

回复
论坛徽章:
10
三菱
日期:2013-11-25 11:21:192014年世界杯参赛球队: 葡萄牙
日期:2014-08-05 11:33:52技术图书徽章
日期:2014-05-23 16:44:532014年新春福章
日期:2014-04-14 09:54:082014年新春福章
日期:2014-04-14 09:54:082014年新春福章
日期:2014-04-14 09:54:082014年新春福章
日期:2014-04-14 09:54:082014年新春福章
日期:2014-04-14 09:54:082014年新春福章
日期:2014-04-14 09:54:082015年新春福章
日期:2015-04-08 13:44:17
27#
发表于 2015-3-20 14:43 | 只看该作者
说一下个人的看法:
1. 传统的文件系统是单机的,不能横跨不同的机器。HDFS可以横跨成百上千的机器,将多台机器组合成一个整体来存储数据,这样它可以存储的数据量就是这些机器可以存储数据量的总和,
且每份数据可以存储多个复本,这样降低了数据丢失的风险。但作为用户看到的确是一个文件系统而不是多个文件系统
2. 作为第一代的mapreduce,它在执行一个大的任务时,将任务进行分片,分成多个map和reduce并发执行。spark也是应用了mapreduce的框架,
但是它实现的mapreduce更灵活,hadoop mapreduce 是每一个job有一个map阶段,一个reduce阶段,且job的输出是保存在文件中。
spark中map和reduce可以穿插使用,且结果被存储在内存中,操作可以很容易的链接起来,且spark提供了一些现成的常用计算,
比如joining,sorting,grouping,distinct等,我们需要实可以直接调用。
3.SQL相比java,个人认为SQL更简单,更容易上手
4.那么以牺牲稳定性来换取SQL任务的快速处理,是否值得呢?这个就看业务场景了,业务上更看重快速处理,对稳定性要求不是很高,那就值得
5.目前应该流计算是最快的吧,但是它的适用场景有限。
6.流计算的缺点是,因为它是数据一边流进来一边处理,所以你想要统计的东西必须预先知道。目前来看是没法替代数据仓库和批处理的。
7.目前还没真正用过YARN。

使用道具 举报

回复
求职 : Hadoop,大数据
论坛徽章:
14
蜘蛛蛋
日期:2011-12-31 14:06:37秀才
日期:2015-08-06 10:47:08itpub13周年纪念徽章
日期:2014-11-17 17:01:01马上有车
日期:2014-11-17 09:10:282014年世界杯参赛球队:巴西
日期:2014-06-12 16:34:36马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11茶鸡蛋
日期:2013-05-08 00:00:502013年新春福章
日期:2013-02-25 14:51:24咸鸭蛋
日期:2013-01-27 23:48:55
28#
发表于 2015-3-23 22:55 | 只看该作者
1. 面对海量大数据,首先要考虑的当然是怎么来存大数据了。HDFS与传统的文件系统有什么不同呢?

传统的文件系统(网络存储除外),基本上都是单节点,而HDFS众所周知是分布式存储,HDFS也有使用范围,如果都是小文件存储,原生态的HDFS也不一定能适应。

2. 如何处理数据呢?比如24小时热点微博更新,必须在24小时之内跑完这些处理,试想一条机器挂了如何重新启动相应的任务呢?MapReduce / Tez / Spark作为计算引擎,恰好能够解决机器之间互相通信交换数据等功能,那么从第一代的计算引擎MapReduce,到第二代计算引擎Tez和Spark,究竟有哪些演进呢?为什么说Spark会成为Hadoop生态中下一代处理引擎和分析引擎?

实时处理Storm、Spark,HBase设计好的话,也可以做实时查询,然后聚合。至于机器挂掉,这个不用我们担心,Hadoop有机制来处理(JobTracker、NameNode、SecondNameNode等)

3. 很多程序员可能会有同感,MapReduce的程序写起来很麻烦,那么有没有更高层更抽象的方式来描述MapReduce呢?Pig是接近脚本的方式来描述MapReduce,而Hive则用SQL,SQL对比Java有哪些优势呢?
MapReduce是由Map、Reduce来先后协调分布完成,Map(数据分类,聚合),然后通过JobTracker通知到Reduce再来处理,中间环节肯定也不少,还有数据临时存储等。Hive执行SQL也是将sql解析成MapReduce来跑,只是解析是由Hive来完成,相当于Hive帮你写了MapReduce。sql对DB来说上手快一点(也有部分不是标准sql),java对开发来说容易上手(可以理解成存储过程);Pig是全脚本的方式操作,类似大牛们用sqlplus命令行来分析sql。但是MapReduce都有一个缺点,那就是在执行MapReduce初始Job话费时间比较长。

4. 作为大数据仓库的核心逐渐,Hive成为了数据分析人员的青睐,但大家总期待数据分析能跑得更快点,特别是小编混迹多年的媒体圈,期待头条推荐更新24小时内能跑多快就多快。MapReduce引擎太慢,于是Impala,Presto,Drill诞生了,那么以牺牲稳定性来换取SQL任务的快速处理,是否值得呢?谈谈您的看法。
既然都部大数据平台了,分布式处理了,还在乎硬件?存储、万兆交换机、RAM

5. 看完了以上四道题,皮皮小结下,整个数据仓库架构的底层是HDFS,上面跑MapReduce/Tez?Spark,在MapReduce上运行Hive、Pig。当然也可以在HDFS上跑Impala,Presto,Drill,这样大概能解决中低速数据处理的要求,那么还能不能更快点呢?
HDFS只是一个存储系统,Hadoop的两大功能之一。快没有概念,现在快了,还想要更快,那就要从系统的整体架构、设计来入手了。分布式缓存Redis也可以协调起来。

6. 想想看,京东等电子商城24小时更新热销商品,更新延迟有没有可能做到一分钟之内呢?这也许要指望流计算了,而作为最流行的流计算平台,Storm的确很厉害,基本无延迟,尤其在做词频统计的时候,可它到底能否取代数据仓库和批处理系统呢?
理论上可以,具体实际当中还需要不断调整参数、优化处理。虽然类似多线程(Supervisor),但是多线程也有资源分配、锁的概念。

7. 当以上各种组件在同一集群上运作的时候,怎么做到有序工作呢?这得靠调度系统了,比如最流行的Yarn,前很多公司都把不同的计算框架跑在YARN上,这个中央管理系统,大家有木有用过?谈谈你的感受。

Yarn应该是基于Hadoop上面的资源调度系统,分布式情况下,也可以考虑通过Zookeepr来实现。

使用道具 举报

回复
论坛徽章:
0
29#
发表于 2015-3-24 13:36 | 只看该作者
很高端,小白不懂啊

使用道具 举报

回复
论坛徽章:
0
30#
发表于 2015-3-25 13:13 | 只看该作者
如何学习Hadoop?

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表