ITPUB论坛-专业的IT技术社区

标题: 【话题讨论】Hadoop能否完全替代传统的数据存储和处理 [打印本页]

作者: 小豆呐呐    时间: 2012-10-31 13:55
标题: 【话题讨论】Hadoop能否完全替代传统的数据存储和处理
    Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。Hadoop 以并行的方式工作,通过并行处理加快处理速度;还是伸缩,能够处理PB级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

讨论话题:
    1、Hadoop能否完全替代传统的数据存储和处理?
    2、企业Hadoop能否真的降低企业数据处理的成本?
    3、大家都认为Hadoop是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署Hadoop呢?

活动时间:2012-10-31——2012-11-23

活动奖励:
    1、每位热心参与讨论的会员可获赠666pub币。
    2、讨论最激烈最有价值的、参与最积极的5位会员将可获一枚奥运纪念徽章,期待您的参与!

获奖名单如下:
leonarding
crazyboytan
jief
LuiseDalian
buptdream


作者: 赤霄剑    时间: 2012-11-1 15:35
支持下,都没人回复!
作者: 小豆呐呐    时间: 2012-11-1 15:47
赤霄剑 发表于 2012-11-1 15:35
支持下,都没人回复!


多谢支持
作者: 赤霄剑    时间: 2012-11-1 16:12
小豆呐呐 发表于 2012-11-1 15:47
多谢支持

第一个支持的有奖励吗??哈
作者: buptdream    时间: 2012-11-1 16:13
1:Hadoop能否完全替代传统的数据存储和处理
Hadoop确实很强大,但他也有自身的弱点。例如,在涉及到一些很严格的交易时,Hadoop就不再适用。这时,传统数据库仍是最佳选择。另外,Hadoop并不能实现高效的分析。而要实现高效的分析,还必须要依赖高端的数据库来进行。
这也是目前Hadoop的最大弱点之一。事实上,虽然已经如此火热,但直到今天,Hadoop仍不是一个实时的在线系统,它更多的还是针对离线的、大规模的、批量的数据处理。虽然如雅虎等企业基于Hadoop做了很多新的技术和优化,已经让这一等待时间变得很短,但即使是这样,用户还是要清楚的知道,Hadoop是一个离线的、批量的数据处理系统。
另外,从数据存储的角度来看,Hadoop也有天然的不足。因为,其最为关键的服务之一HDFS专门针对的是大文件的存储,因此等待时间较长,基本无法做到很高速的随即读写。
作者: buptdream    时间: 2012-11-1 16:21
HADOOP需要处理的数据量真不好说,非关系型数据的处理和运算是一个很好的选择,尤其是互联网行业采用的比较多。传统的数据库在这些处理能力上是比较有限的
作者: buptdream    时间: 2012-11-1 16:22
每种技术都有自己的适用地方,没有取代的概念,只有适合或者更适合,随着技术的发展,总有一些适合未来数据分析和处理的技术出现
作者: 小豆呐呐    时间: 2012-11-1 16:33
赤霄剑 发表于 2012-11-1 16:12
第一个支持的有奖励吗??哈

回复精彩的有奖励 哈哈哈
作者: jimn1982    时间: 2012-11-1 17:27
Big Data Appliance
作者: LuiseDalian    时间: 2012-11-1 20:41
本帖最后由 LuiseDalian 于 2012-11-1 20:41 编辑

1、Hadoop能否完全替代传统的数据存储和处理?
答:对于类似的问题回顾一下,有很多很多,比如Java风靡之时,就会想Java会不会完成替代C/C++语言呢?
      再比如Windows系统刚出现时,以其易操作的特点,备受人们的关注,就会想Windows会不会完成取代Unix呢?
      现在再看这些问题,答案是不言自明的。
      我认为任何一种语言,一种技术都有它的特点,即它强势的地方,但能否完全替代以前的相应技术或产品,应该取决于市场,即它的实际应用情况。
      与前2个例子相反的例子是,关于网络传输协议的规范,ISO出现的七层协议并没有替代已经在网络中广泛应用的TCP/IP协议,而只能出现在教课书中。

2、企业Hadoop能否真的降低企业数据处理的成本?
答:对于新出现的东西,必然有它不成熟的方面,例如搭建和维护人员少,所以相应的成本必须会高,虽然在其它方面的成本有所降低,但总体上或升或降不能一概而论。


3、大家都认为HADOOP是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署HADDOPN呢?
答:“多大数据量"需要使用hadoop只不过是一个量方面的比较容易理解的数值。其实现在的很多系统的数据库量也很大,用传统的数据库一样运行得很好。
      我个人认为会采用hadoop的企业不应该从数据量方面简单地做出决策,而应该从实际成本上来决定最终采用的数据库。
      再有目前会采用hadoop的项目,一定是不差钱的项目,否则不会轻易地采用它。
作者: xhhjj    时间: 2012-11-1 21:33
LuiseDalian 发表于 2012-11-1 20:41
1、Hadoop能否完全替代传统的数据存储和处理?
答:对于类似的问题回顾一下,有很多很多,比如Java风靡之时 ...


作者: likgui    时间: 2012-11-1 23:05
不同的产品,没可比性
作者: larkin_x    时间: 2012-11-2 10:02
过来学习下HADOOP,
作者: 合肥大猪猪    时间: 2012-11-2 11:53
我认为HADOOP统一利用低成本的机器及存储,较之前采用的高性能存储来存放海量数据。在成本上有很大优势。
现在越来越多时时性要求不高,但涉及数据量大的业务需求,如历史消费查询等,这些是可以考虑采用hadoop的。
因为是开源和新技术,如果企业使用还是需要考虑一些有专门厂商支持解决方案。
作者: sumuu    时间: 2012-11-2 12:49
完全代替末前乃至未来几年都不肯能,一项技术是需要时间去验证的,中国的公司大多都是追求稳定,都觉得够用就行
还就是在成本上,对于小公司的话,完全没有必要。
作者: jief    时间: 2012-11-2 15:36
我来谈谈这三个问题。

3、大家都认为Hadoop是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署Hadoop呢?
Hadoop是分布式大数据的基础技术架构,也是目前大数据领域事实上的标准。至于需要多大的数据量才应该使用Hadoop呢?这里没有精确的数值,但是业界普遍认为,PB级以上的数据量才是Hadoop技术大显身手的地方。所以,看看你们的企业有多少需要处理的数据,就可以决定是否需要Hadoop技术。

2、企业Hadoop能否真的降低企业数据处理的成本?
对于大型企业或公司来说,真的可以降低企业数据处理的成本。对于只有几十人的小公司,如果你要上Hadoop,那么你是被Hadoop的旋风给刮晕了。

1、Hadoop能否完全替代传统的数据存储和处理?
Hadoop不可能完全替代传统的数据存储和处理,但是它对于传统的关系数据库系统的冲击是毋庸置疑的。两者会并存。




作者: 风影子    时间: 2012-11-2 16:49
1、Hadoop能否完全替代传统的数据存储和处理?
      至少目前还不会,hadoop目前主要还是在互联网行业用得多,到底一般的企业管理数据的还是传统的DBA,没技术团队的话hadoop玩不转啊。
2、企业Hadoop能否真的降低企业数据处理的成本?
      这个要看你规模有多大了,比如你数据库就那么几百M,平时随便搞台PC服务器就能搞定的事,你现在要搞多台,这是增加成本。
3、大家都认为Hadoop是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署Hadoop呢?
      这个我还没什么概念,现在也主要在互联网行业应用,我觉得应当是PB级以上数据量吧。TB级一般搞两台小型机,搞个存储就搞定了。
作者: hello985    时间: 2012-11-2 16:58
1.企业选择,肯定会从稳定性,安全性考虑,hadoop 使用应该问题不大,但是其稳定性及安全性需要测试
2.hadoop现在是发展阶段,在相关的标准文档,培训等还需要加大
3.从商业角度考虑需要有专业的团队进行普及及推广
作者: limin4506    时间: 2012-11-2 18:23
不懂,过来嫌币
作者: 低调小马哥    时间: 2012-11-3 19:32

1、Hadoop能否完全替代传统的数据存储和处理?
      我觉得不会,hadoop的事务处理不行,在关键数据领域还是替代不了传统数据库的,再说,hadoop只适合那些大的电子商务网站或者产生重复数据的场景,对数据安全不高的领域有一定的市场,而且就目前来说技术还不成熟,做这个要专业的程序员根据相应的应用定制化的开发,可移植性差
2、企业Hadoop能否真的降低企业数据处理的成本?
     我觉得不是降低成本的问题,而是传统数据库应付不了这么大数据的地方,就可以考虑用hadoop了,而且能用hadoop的估计都是大公司,如果业务运行的好,不差这钱。
3、大家都认为Hadoop是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署Hadoop呢?
     我觉得每天产生的数据量是TB级或者达到PB级的,这些海量数据本身是没有价值的,只有抽取出有用的信息,比如统计信息等报表,对业务产生指导,能让决策者制定今后的市场方案,才是真正的实现场景。

作者: crazyboytan    时间: 2012-11-3 21:12
1、Hadoop能否完全替代传统的数据存储和处理?
Hadoop是开源的,天生的血统注定了其具有开放性,这也使得更多人有机会参与其中。另外,低成本也降低了企业进入大数据处理市场的门槛。“Hadoop的部署、开发、学习成本都比较低,从这些方面上而言,Hadoop确实有自己的优势。”韩轶平分析说。

除此之外,最重要的一点是,随着大数据处理需求的高速增长,Hadoop和数据库之间的联合应用将越来越多,而在两者之间如何进行数据的调用、查询,怎样保证数据调用和传输的安全,如何更好地对数据进行管理、分析等,都会产生大量的市场机会。

实际上,随着Hadoop受到越来越多厂商和用户的追捧,现在的Hadoop和其诞生之初已经截然不同:从一个单独的开源软件逐渐演变为一个初具规模的生态系统,在这一生态系统中,不同的IT公司扮演着不同的角色:有系统厂商,也有管理监控服务商、数据分析、处理服务商等等。

在这条生态链中,目前各个环节上虽然已经有一些参与者,但距离产业链的完善还有非常大的距离。随着Hadoop在企业应用中的逐渐普及,产业链上各个环节的缺口会越来越大。对于中小开发商而言,这无疑是一个很好的时机:可以根据自身的资源和能力,选择适合的角色和业务进行切入,进而在大数据时代到来时找到自己合适的位置。

2、企业Hadoop能否真的降低企业数据处理的成本?
可减少硬件资源的开销,但会增加维护成本。

3、大家都认为HADOOP是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署HADDOPN呢?
PB级数据量,类似于大量视频、音频、图片等运用多的企业。
作者: leonarding    时间: 2012-11-3 22:20
使用案例来回答相信更能说明问题吧 lz 大人

Hbase迎接电信TB级大数据洗礼之热点网站功能实践

在今年年初的时候联通王志军院长就Hadoop在电信行业的大数据应用谈了自己的经验,随着3G网络的发展中国联通目前运营着世界上最大的CDMA网络,流量运营是中国联通一个重要特点。中国联通3G套餐当中流量占比非常非常大,中国联通3G用户流量使用情况也是非常可观的。那么在3G网络功能中上网冲浪占了很大的比例,去研究用户感兴趣的热点网站成为了行为分析中很有特点的一项功能,联通就可以根据这些网站信息推出增值服务,古人云:大浪淘沙始到金啊!

Hbase作为分布式的数据库集群是如何迎接大数据的洗礼呢!,我们之前使用的是Oracle数据库作为存储数据的基石,但当数据量迅猛上涨后许多的瓶颈马上就会呈现出来,大量的数据统计、分组、排序、过滤的操作对Oracle数据库性能真是一个不小的挑战,由于数据不能分布处理,数据的查询速度可想而知。现在我们使用了Hbase数据库就可以很好的解决上述的一系列问题。下面对如何实践设计“热点网站”功能给出了我的一些设想。

表设计:手机上网表 tel-net table 简称 t-n 表

ROW Key                           COLUMN+CELL
18977777777                    column=msisdn:*#06#,     timestamp=1351560318018, value=100                                            
18977777777                    column=msisdn:cellphone,timestamp=1351563680951, value=iphone-5                              
18977777777                    column=sites:http,       timestamp=1351560423739, value=www.dataguru.cn    登陆网站
18977777777                    column=sites:name,       timestamp=1351560476264, value=lianshuchengjin                                
18977777777                    column=user:age,         timestamp=1351560350911, value=28                                             
18977777777                    column=user:name,        timestamp=1351560335833, value=leonarding   
18866662222                    column=msisdn:*#06#,     timestamp=1351560560622, value=101                                            
18866662222                    column=msisdn:cellphone, timestamp=1351560540173, value=iphone-4
18866662222                    column=sites:http,       timestamp=1351560630783, value=www.dataguru.cn    登陆网站
18866662222                    column=sites:name,       timestamp=1351560664387, value=lianshuchengjin
18866662222                    column=user:age,         timestamp=1351560606783, value=26
18866662222                    column=user:name,        timestamp=1351560585193, value=sunev_yu
15911112222                    column=msisdn:*#06#,     timestamp=1351560873212, value=102
15911112222                    column=msisdn:cellphone, timestamp=1351560851244, value=iphone-3
15911112222                    column=sites:http,       timestamp=1351562148765, value=www.itpub.net     登陆网站
15911112222                    column=sites:name,       timestamp=1351562171874, value=itpub
15911112222                    column=user:age,         timestamp=1351562118827, value=100
15911112222                    column=user:name,        timestamp=1351562102858, value=tigerfish

第一步:在一定时间范围内找到所有手机经常上网的网址。
第二步:在map-reduce程序中进行统计和排名(由于手机号就是随机型的因此可以均衡的打散到各个节点执行)。
第三步:汇总结果后,把排名前20的热点网站输出,运营商就可以找到这些热点网站进行合作推出更符合用户倾向的套餐,大把大把的敛money。
后续还可以开发:用户倾向性分析、TOPn大流量排名分析、用户行为分析等等诸如此类的功能。
欢迎大家一起积极讨论,共创Hbase美好未来


作者: jxzkin    时间: 2012-11-4 11:17
Hadoop能否完全替代传统的数据存储和处理,我觉得现阶段不太可能,Hadoop在处理海量,类型比较包容,对数据抽取,分析,有非常大的优势,对于OLTP觉得还有一段漫长的路...
作者: wang1352083    时间: 2012-11-5 10:29
1、Hadoop能否完全替代传统的数据存储和处理?
hadoop能完全取代传统的数据存储和处理?且不说业务的千差万别,就从数据库厂商来看,传统的数据库厂商貌似才刚到中年.离老年还早呢.
  从业务量来说,世界500强也只有500家,北京市的企业怎么也超过50万家吧.还不过全球呢,我们公司的业务来说,一台基本的服务器就够了.貌似不用hadoop这么大的系统.
    2、企业Hadoop能否真的降低企业数据处理的成本?
也许那个纽约时报还是那个报业,采用google还是亚马逊的hadoop很快就处理完了,但是他的这个业务貌似也不能替代it的需求比如,电力,银行我依然没理解这些企业用hadoop能降低成本还是提高成本
    3、大家都认为Hadoop是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署Hadoop呢?
   这个也是我疑惑的地方,像我们的数据库数据不过百g,貌似是用不着hadoop这个高端的了.开源的rdbms postgresql已经够我们用了.再加上mongodb和redis我们的性能还是不错的

作者: zkfcaffee    时间: 2012-11-5 11:34
各有各的优势,以后应该是多种数据库相互结合使用,才能满足企业的要求
作者: smarck    时间: 2012-11-6 08:50
不是太了解HADOOP,不过我想完全替代肯定是不可能的,每种数据库都有自己的应用场景,只能说是互补吧,完全替代谈不上。
作者: swt522    时间: 2012-11-6 13:40
  1、Hadoop能否完全替代传统的数据存储和处理?
  这个要看具体业务场景的,不可能完全取代,但在数据仓库领域可以取代部分
  2、企业Hadoop能否真的降低企业数据处理的成本?
  相比买oracle和db2的license我绝对hadoop能很大程度上降低费用,但在研发,维护上费用应该是增加的。hadoop+虚拟化我觉得还是很不错的!
  3、大家都认为Hadoop是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署Hadoop呢?
  PB级以上,我绝对很多企业多可以部署hadoop,只是大公司研发投入的比较多!我相信电信运营商也会上的!
作者: 小豆呐呐    时间: 2012-11-6 13:45

作者: yauchu    时间: 2012-11-6 16:53
1、Hadoop能否完全替代传统的数据存储和处理?
现价段来说,hadoop无法完全替代传统的实时在线数据处理。

2、企业Hadoop能否真的降低企业数据处理的成本?
看具体情况了,如果是海量的非结构化数据处理,hadoop确实可以降低企业成本,但如果是非海量的结构化数据处理,同样应用hadoop来进行处理,只能适得其反了。

3、大家都认为Hadoop是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署Hadoop呢?
至少是上TB级的数据来用hadoop来进行数据处理与分析;互谅网行业的企业与TB甚至PB级别的数据都可以考虑部署hadoop。
作者: dai_zhy    时间: 2012-11-8 16:22
我觉得,在数据爆炸的今天,Hadoop是一个发展方向,分布式处理大数据量很有优势,并且是开源的;但是如果说替代的话为时尚早;
随着新的硬盘技术相继推出,单机处理能力还是能得到极大提高,现在的Fussion-io,以后的按热来存储数据的硬盘等等,速度都非常快的!
作者: lqq250700    时间: 2012-11-12 13:53
1、Hadoop能否完全替代传统的数据存储和处理?
不可能。

    2、企业Hadoop能否真的降低企业数据处理的成本?
这个具体情况,具体分析。

    3、大家都认为Hadoop是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署Hadoop呢?


我觉得Hadoop适合用在OLAP的环境下吧,传统的关系数据库的地位在短期内不会动摇。

作者: helongzhu    时间: 2012-11-13 14:50
本帖最后由 helongzhu 于 2012-11-13 14:52 编辑

1、Hadoop能否完全替代传统的数据存储和处理?
    目前看不能完全替代。
    1)一种技术往往是在孕育这种技术的领域非常合适,如果想完全取代其之前的技术,除非它能完全包罗以前技术的所有优点,并且在弱势地方做出改进。Hadoop在一些大数据领域有其优势,但普通的应用使用传统的数据存储和处理技术能够满足现在的要求,且已经是大家所接受和熟悉的成熟技术;
    2)目前,大部分的传统应用数据存储和处理,还不能支持Hadoop的HDFS文件系统等各种技术,“适配”这个过程恐怕还有很长的路要走。
2、企业Hadoop能否真的降低企业数据处理的成本?
    目前看很难,以后基于Hadoop的应用做得大家都容易使用的时候,应该可以节省成本。
3、大家都认为Hadoop是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署Hadoop呢?
    实施Hadoop应用比实施传统的技术应用便宜,且能够带来更好的应用效果的时候,部署Hadoop就是值得的。
作者: gaolu1234    时间: 2012-11-15 10:21
讨论话题:
    1、Hadoop能否完全替代传统的数据存储和处理?
不会,hadoop 我个人看法是只会占据很小的份额,就是海量数据的份额。其他的中小型数据库的份额,跟hadoop没有关系。

    2、企业Hadoop能否真的降低企业数据处理的成本?
这个不好说。 因为企业的成本很复杂。 要把维护成本算进去。

    3、大家都认为Hadoop是处理大数据,需要多大的数据量?什么级别的企业和数据量需要部署Hadoop呢?
作者: FRLH    时间: 2012-11-16 10:55
支持下,有过了解,但不深入
作者: leonarding    时间: 2012-11-27 12:31
buptdream 发表于 2012-11-1 16:13
1:Hadoop能否完全替代传统的数据存储和处理
Hadoop确实很强大,但他也有自身的弱点。例如,在涉及到一些很 ...

buptdream
                   获奖名单上 我又看看见 熟悉的id 列 嘿嘿  
作者: buptdream    时间: 2012-11-27 12:46
leonarding 发表于 2012-11-27 12:31
buptdream
                   获奖名单上 我又看看见 熟悉的id 列 嘿嘿

呵呵,你这期lock的作业还没分享饿
作者: leonarding    时间: 2012-11-28 17:17
buptdream 发表于 2012-11-27 12:46
呵呵,你这期lock的作业还没分享饿

今天 就上传
作者: X-Power    时间: 2012-12-30 15:51
支持下,都没人回复!
作者: liltos    时间: 2013-1-10 13:19
just a test
作者: jackson198574    时间: 2013-1-21 11:37
LuiseDalian 发表于 2012-11-1 20:41
1、Hadoop能否完全替代传统的数据存储和处理?
答:对于类似的问题回顾一下,有很多很多,比如Java风靡之时 ...

有道理。
作者: daiqiang    时间: 2013-1-22 17:19
LuiseDalian 发表于 2012-11-1 20:41
1、Hadoop能否完全替代传统的数据存储和处理?
答:对于类似的问题回顾一下,有很多很多,比如Java风靡之时 ...


作者: daiqiang    时间: 2013-1-22 17:22
赤霄剑 发表于 2012-11-1 15:35
支持下,都没人回复!

肯定不会,他们的应用场景不会全部重合
作者: dacoolbaby    时间: 2013-3-14 17:30
大家都似乎关注了错误的地方。。
这里的Hadoop只是说是替代存储,并不是替代交易式数据库,事务型数据库。
Hadoop有2大特点。
第一个是MapReduce并行处理框架。
第二个是成本低。
搞个7台PC SERVER的成本和一个中等小型机差不多,甚至更低。

Hadoop目前针对的主要是各种需要计算的数据,
如果只是需要访问的数据,还有各种各样的分布式文件系统。
如FastDFS等等。
加上HBASE,Hadoop还是能够给予强大的存储和访问的功能,
对于历史数据的保存还是有相当大的作用的。

作者: yaots    时间: 2013-3-16 23:27
学习学习




欢迎光临 ITPUB论坛-专业的IT技术社区 (http://www.itpub.net/) Powered by Discuz! X3.2