|
1.什么是Hadoop?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。实现了HDFS,容错性非常高,并且能在廉价硬件上部署,极适合超大数据集的项目。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
2.为什么组织从传统的数据仓库工具转移到基于Hadoop生态系统的智能数据中心?
(1)高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。
(2)高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
(3)高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
(4)高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
(5)低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
3.更智能&更大的数据中心架构与传统的数据仓库架构有何不同?
(1)面向大数据:数据中心架构的设计概念不同于传统数据中心的集散控制系统。数据中心架构会提供优化快速的传输机制,海量数据的高度并行处理,让大数据分析应用具备不同的特点。
(2)对任务的变化和适应:应用程序的资源使用的优先级
(3)智能管理:数据中心架构涉及到大量的硬件资源和高密度计算,需要更高的智能化管理
(4)高扩展性:大数据的应用程序需要在DCS系统中以高吞吐量低延迟的环境下访问
(5)开放的、基于标准和灵活的服务层:传统的数据仓库架构的存储UI存在于不用的协议层上,会导致无法动态的分配资源
4.相较Spark等5种大数据框架,基于Hadoop的数据中心的好处是什么?
(1)Spark没有文件管理功能,因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案。
(2)Hadoop占用内存比Spark更小
(3)Spark无法进行分布式数据的存储 |
|