【大话IT】七问大数据：大数据生态圈离你还远吗？

niuchao · 发表于 2015-3-18 09:15

向大神学习

lastendday · 发表于 2015-3-18 10:28

回下贴我是活跃的会员

大数据讲改变人的生活，前一阵看了一篇文章，人们平均要花10分钟才找到停车位，相当于多跑了4.5公里，排放了1.3公斤的二氧化碳。靠大数据和导航软件相结合，帮助人们找停车位给司机做引导（具体文章介绍的方式不具体做介绍）。通过这个事例可以看到大数据的重要之处，变相的节约能源减少污染等等

houbao408 · 发表于 2015-3-18 11:15

大数据时代真的到来了....

houbao408 · 发表于 2015-3-18 11:15

有徽章啊，求发

carlos。zh · 发表于 2015-3-18 11:40

大数据2.0了呀，都还没整过大数据呢。。。都只是传统的数据库

2009532140 · 发表于 2015-3-19 15:58

1. 面对海量大数据，首先要考虑的当然是怎么来存大数据了。HDFS与传统的文件系统有什么不同呢？
简单说说这个，前几天看了HDFS 简介。
首先应该是支持超大文件，这与传统的文件系统有很大的区别。传统的文件受操作系统的限制而不能像HDFS那样scale 有那么大的跨度。
另一个应该是故障检测与恢复功能。因为设计目标是为了适应大型机群系统的。

释怀355 · 发表于 2015-3-20 14:43

说一下个人的看法：
1. 传统的文件系统是单机的，不能横跨不同的机器。HDFS可以横跨成百上千的机器，将多台机器组合成一个整体来存储数据，这样它可以存储的数据量就是这些机器可以存储数据量的总和，
且每份数据可以存储多个复本，这样降低了数据丢失的风险。但作为用户看到的确是一个文件系统而不是多个文件系统
2. 作为第一代的mapreduce，它在执行一个大的任务时，将任务进行分片，分成多个map和reduce并发执行。spark也是应用了mapreduce的框架，
但是它实现的mapreduce更灵活，hadoop mapreduce 是每一个job有一个map阶段，一个reduce阶段，且job的输出是保存在文件中。
spark中map和reduce可以穿插使用，且结果被存储在内存中，操作可以很容易的链接起来，且spark提供了一些现成的常用计算，
比如joining，sorting,grouping,distinct等，我们需要实可以直接调用。
3.SQL相比java，个人认为SQL更简单，更容易上手
4.那么以牺牲稳定性来换取SQL任务的快速处理，是否值得呢？这个就看业务场景了，业务上更看重快速处理，对稳定性要求不是很高，那就值得
5.目前应该流计算是最快的吧，但是它的适用场景有限。
6.流计算的缺点是，因为它是数据一边流进来一边处理,所以你想要统计的东西必须预先知道。目前来看是没法替代数据仓库和批处理的。
7.目前还没真正用过YARN。

duronshi · 发表于 2015-3-23 22:55

1. 面对海量大数据，首先要考虑的当然是怎么来存大数据了。HDFS与传统的文件系统有什么不同呢？

传统的文件系统（网络存储除外），基本上都是单节点，而HDFS众所周知是分布式存储，HDFS也有使用范围，如果都是小文件存储，原生态的HDFS也不一定能适应。

2. 如何处理数据呢？比如24小时热点微博更新，必须在24小时之内跑完这些处理，试想一条机器挂了如何重新启动相应的任务呢?MapReduce / Tez / Spark作为计算引擎，恰好能够解决机器之间互相通信交换数据等功能，那么从第一代的计算引擎MapReduce,到第二代计算引擎Tez和Spark，究竟有哪些演进呢？为什么说Spark会成为Hadoop生态中下一代处理引擎和分析引擎？

实时处理Storm、Spark，HBase设计好的话，也可以做实时查询，然后聚合。至于机器挂掉，这个不用我们担心，Hadoop有机制来处理（JobTracker、NameNode、SecondNameNode等）

3. 很多程序员可能会有同感，MapReduce的程序写起来很麻烦，那么有没有更高层更抽象的方式来描述MapReduce呢？Pig是接近脚本的方式来描述MapReduce，而Hive则用SQL，SQL对比Java有哪些优势呢？

MapReduce是由Map、Reduce来先后协调分布完成，Map（数据分类，聚合），然后通过JobTracker通知到Reduce再来处理，中间环节肯定也不少，还有数据临时存储等。Hive执行SQL也是将sql解析成MapReduce来跑，只是解析是由Hive来完成，相当于Hive帮你写了MapReduce。sql对DB来说上手快一点（也有部分不是标准sql），java对开发来说容易上手（可以理解成存储过程）；Pig是全脚本的方式操作，类似大牛们用sqlplus命令行来分析sql。但是MapReduce都有一个缺点，那就是在执行MapReduce初始Job话费时间比较长。

4. 作为大数据仓库的核心逐渐，Hive成为了数据分析人员的青睐，但大家总期待数据分析能跑得更快点，特别是小编混迹多年的媒体圈，期待头条推荐更新24小时内能跑多快就多快。MapReduce引擎太慢，于是Impala，Presto，Drill诞生了，那么以牺牲稳定性来换取SQL任务的快速处理，是否值得呢？谈谈您的看法。

既然都部大数据平台了，分布式处理了，还在乎硬件？存储、万兆交换机、RAM

5. 看完了以上四道题，皮皮小结下，整个数据仓库架构的底层是HDFS，上面跑MapReduce/Tez?Spark,在MapReduce上运行Hive、Pig。当然也可以在HDFS上跑Impala，Presto，Drill，这样大概能解决中低速数据处理的要求，那么还能不能更快点呢？

HDFS只是一个存储系统，Hadoop的两大功能之一。快没有概念，现在快了，还想要更快，那就要从系统的整体架构、设计来入手了。分布式缓存Redis也可以协调起来。

6. 想想看，京东等电子商城24小时更新热销商品，更新延迟有没有可能做到一分钟之内呢？这也许要指望流计算了，而作为最流行的流计算平台，Storm的确很厉害，基本无延迟，尤其在做词频统计的时候，可它到底能否取代数据仓库和批处理系统呢？

理论上可以，具体实际当中还需要不断调整参数、优化处理。虽然类似多线程（Supervisor），但是多线程也有资源分配、锁的概念。

7. 当以上各种组件在同一集群上运作的时候，怎么做到有序工作呢？这得靠调度系统了，比如最流行的Yarn，前很多公司都把不同的计算框架跑在YARN上，这个中央管理系统，大家有木有用过？谈谈你的感受。

Yarn应该是基于Hadoop上面的资源调度系统，分布式情况下，也可以考虑通过Zookeepr来实现。

我是一只咸鱼 · 发表于 2015-3-24 13:36

很高端，小白不懂啊

我是一只咸鱼 · 发表于 2015-3-25 13:13

如何学习Hadoop？