|
1、大数据时代未来是否会成为一个信息泡沫的时代?
以前大数据的特点值是 "3V特性",现在变成了"4V特性", 增加了"Veracity" ~~ 真实性!
大数据技术就是从具有"4V特性" 的 "结构化(半结构化)、非结构化" 海量数据中
, 快速获得有价值信息的能力, 通过"发掘和探索" 来获得新的洞察 (Insight ~~ 这个词现在很流行 ~~ )
特别适用于:日志处理、并行计算、ETL( 其实就是大家常说的MapReduce)、机器学习、社交媒体等
至于"信息泡沫",我觉得大数据是去从庞大而多样信息中发掘和探索,这样的数据从本身来讲,
"独立的、少量的"是毫无用处的,无法发现有用的信息。
同样的采用传统的数据处理、存储、查询的方法是很难处理这样的数据。
大数据技术正是为了去除"泡沫",发现有用的信息,特别像用最原始的方法 "淘金" 一样,
要不断的清洗、过滤掉海量的泥沙,才能发现米粒大的"真金" !
/******************************************************************************/
2、在海量的数据面前,我们有哪些工具可以使用,处理这些数据?
我推荐 IBM Infosphere 家族中的大数据平台: Infosphere Biginsight , Infosphere Streams
Infosphere Biginsight 静态海量数据存储与分析平台
基于开源 Apache Hadoop的框架实现, 在此框架上增加了IBM独
特的技术优势,如管理能力、工作流、安全管理,并融入了IBM研究实验
室的独特和领先的数据分析、机器学习技术以及文本数据分析挖掘
特点:
1、性能更好的GPFS-SNC 文件系统、IBM LZO compression 压缩技术、
2、开放性的接口和集成能力(特别是与IBM 本身产品的集成 如 CONGOS BI, SPSS)
3、企业级的高可用、高可靠性、可扩展性
Infosphere Streams 大数据的实时分析平台
实时分析极端大量的结构化和非结构化数据 , 高性能、并行流计算软件平
台,毫秒级数据响应级别实现"流计算"
与Infosphere Biginsight 进行集成,实现 "沉淀的数据和流动数据的无缝集成"
/******************************************************************************/
另外,大数据技术应用只是其中的一个方面,对于一个整体的解决方案,还需要其他的ETL工具(Infosphere Information Server)
BI 等工具集成在一起,实现真正的大数据中心 |
|