|
大数据是IBM生造出来的奇葩词汇,字面意思就是“海量数据”。那为什么不直接叫做海量数据,而是另外发明新词?我大约总结了两点原因。
一是大数据这个词比较酷炫,一般人乍听会有点迷糊,适合忽悠;二来用这个词,也是要和传统数据库的“海量数据”概念做出区分。那么到底多大的数据算是“大数据”呢?这个目前没有统一标准,全凭各家自说自话,我就见过某所谓大数据公司,把超过100万行的数据表定义为大数据的。当然,IBM是给出了量级上的描述的——从TB到PB。这大概也是要和传统数据库厂商做出差异来,像ORACLE, TERADATA之类的数据库,在TB级应用上已经比较成熟了,所以大数据就要升华到PB级。但是目前又很少有PB级应用出现过,因此在实际使用这个词的时候,量级是被淡化的,而大数据的真正标志是另外一个特征——非传统数据库。你起码是列存储吧,要么搞MPP架构啊,搞Hadoop啊,云计算啊,等等。总之你不能用传统数据库。有了这个特征,你就可以给自己扣上大数据的帽子了。值得一提的是,大数据可以基于非结构化数据,但是目前的主流仍然是结构化数据,不要以为谷歌关键字预测流感趋势这样的案例已经到处都是了,这真的很个别。至于数据挖掘,这个跟大数据没有什么必然联系。你可以理解为,大数据就是大海,而数据挖掘是从水中钓鱼的过程。大海里当然可以钓鱼,而且鱼的种类和数量都不少。但是想吃鱼未必需要造海啊,小池塘里也未必钓不到鱼。
|
|