(1)什么是Hadoop? Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。 是由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统,简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上来提供高吞吐量访问应用程序的数据,适合那些有着超大数据集的应用程序。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 (2)为什么组织从传统的数据仓库工具转移到基于Hadoop生态系统的智能数据中心? 对于传统手段实现的数据仓库工具,利用的主要是结构化数据进行统计分析。这部分功能在大数据平台上完全可以实现,而且大数据平台采用的分布式架构设计,利用分布式计算完成相同的工作内容所需时间更短。 说一下基于Hadoop生态系统的智能数据中心的优点: (a)结构化(例如RDBMS),非结构化(例如images,PDF,docs )和半结构化(例如logs,XMLs)的数据可以以可扩展和容错的方式存储在较便宜的商品机器中 (b)可以通过批处理作业和近实时(即,NRT,200毫秒至2秒)流(例如Flume和Kafka)来摄取数据。 (c)数据可以使用诸如Spark和Impala之类的工具以低延迟(即低于100毫秒)的能力查询。 (d)Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 (e)Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。 (3)更智能&更大的数据中心架构与传统的数据仓库架构有何不同? 传统企业数据仓库架构:
基于Hadoop的数据架构:
(4)相较Spark等5种大数据框架,基于Hadoop的数据中心的好处是什么? Hadoop社区活跃,对开发人员的能力要求相对不高,工程师的学习成本也并不高,Hadoop社区活跃,软件进化较快,从业人员供应相对较多,且有相对较多的真实应用案例,这使得应用风险相对较低; 成熟的生态圈代表的未来的发展方向,代表着美好的市场前景; 应用环境搭建维护的成本方面,其对硬件要求较低,不需要为其配置传统高端计算、存储,且因为可水平扩展的原因,规模成本可随着需求逐步增加,避免一次性投资风险;
|