|
Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。Hadoop 以并行的方式工作,通过并行处理加快处理速度;还是伸缩,能够处理PB级数据。本期讨论话题:
讨论话题
1、Hadoop是否是大数据处理的福音?
2、Hadoop与其他海量数据处理方案相比有什么优劣势?
3、Hadoop给您带来哪些更多的机会?
1、这个问题客观的来看,Hadoop提供的是一类思路。通过分布式实现高可用。
2、Hadoop的优势
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此其处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
劣势
HA(High Availability)高可用性:
这一点是Hadoop非常弱的一个缺点,不管是Hdfs还是Map-reduce,都是采用单master的方式,集群中的其他机器都是与一台中心机器进行通信,如果这个中心机器挂了,集群就只有不工作了(不一定数据会丢失,但是至少需要重启等等工作),让可用性变得更低。这个一般叫做单点失败(single point of failure,SPOF)。
3、Hadoop来给我们的是非结构数据的高并发支持。对于big data的存取是有指导性帮助的。
为架构的设计提供了不错的思路。
个人观点,欢迎交流~~~
|
|