|
我认为大数据是一个商业智能范畴的概念,是传统BI的延伸,说白了就是以更大量的数据为输入(各种结构化、非结构化、半结构化),采用更智能的分析算法,基于更高效的IT基础架构,最终分析出一个决策报告的整个过程和相关技术的集合体。
对于讨论话题:
1.在《黑天鹅》这本书里头,有一句非常好的话“你不知道的事情比你知道的事情更重要。”是不是如果有了海量的大数据就能变得更好?大数据真的能为你所驾驭吗?请举例分享您认为大数据可以带来的价值。
海量大数据不是万能的,其核心是针对实际的业务场景设计出更有的分析算法,指望通过一种算法打遍天下的可能性极小。未来大数据如果发展下去的话极有可能分为三个层次,业务分析、算法设计、IT架构设计,必须将三者融合才能发挥出大数据的价值。将来跨业务和IT技术的架构师将会是成败的关键。至于例子,我没有从事过实际项目,所以就不随便瞎说了。
2.海量并行处理(Massively Parallel Processing,MPP)数据库系统已经出现几十年了。它到底是一个怎样的架构?为啥它的威力如此之大?
我了解的MPP架构就是任务的分布式处理,他的实现架构应该也有很多,但大体思路应该差距不大,都有多个事务处理节点,说他威力大应该都是相对的,其优势无非在于较自由的横向扩展,在性能上我认为没有绝对的胜出者,要看具体应用场景分析是否应该用MPP。如果再细分具体场景,我就无能为力了,也希望有大牛给我讲一下。
3.目前有很多台独立运行的部门级的 NAS 存储设备、SAN 存储设备,形成一个个“存储孤岛”,面对海量数据,该如何选择存储架构?基于HDFS的集群存储有哪些优势和劣势?
DFS的优势在于大量数据存取的速度,但前提是大量数据批量读、写的场景,对于IO较频繁的场景,其性能是受限的,需要在上位配合其他的产品,所以我认为它比较适合处理大量的存量数据的分析、挖掘、统计等场景,尤其针对非结构化数据效果明显。我认为未来数据存储的架构可能是DFS+x86分布式存储(不知道当前有没有专业名称)的形式,x86存储集群不做统一的文件系统,而是把各机器的磁盘存储统一管理分配给外部使用,重点支持结构化数据的存取应用场景(如OLTP),DFS存海量非结构化数据+历史结构化数据(不经常使用的数据)。
4.现如今各种大数据技术层出不穷,请举例谈谈您所知道的大数据工具。
hadoop系列、storm、spark,没有实践过,等大牛指点。
5.我们现在还处于传统和前沿交替的年代,未来像医疗数据、财务数据等是否会共享?大数据犹如一把双刃剑,如何在商业价值与用户隐私之间寻求一种平衡?
在目前看来,这是个不可调和的矛盾,我想未来可能会发展成提供数据服务的模式,前提是数据能够成为商品,国家或行业定义出用户隐私数据范畴,医疗、财务原始数据保有机构和单位使用自有或成熟的第三方运营的大数据分析平台按照数据市场的需求加工出数据商品(不涉密、不涉及隐私的前提),将数据商品已订购或零售方式出售给需要分析结构的单位或机构,数据需求方拿到数据后推进自身运作或商业决策。在现阶段,我认为还是大企业自己在内部玩一下吧,拿来出售的话市场不成体系,无法定价定量,也不具备法律监管,容易出事啊。
以上是个人一点粗浅想法,个人没有过项目实践,可能脱离实际,抛砖引玉吧。 |
|