|
本帖最后由 leonarding 于 2014-3-14 18:02 编辑
木有数据质量,神马数据都是浮云。数据给自己用,还是给别人用,就好比是在家做几道家常菜还是开餐厅,后者对于口味质量要求更高,毕竟食客们眼睛都在盯着呢。大数据技术在数据采集方面采用了哪些新的方法?
答:这个问题由来已久,当下企业主们采用的方式是大小通吃术,怎么讲用一个示例来说明,联通的信令监测系统,需要采集一个省份全网的3G上网数据,往往这些数据中核心价值数据并不多,大多数的数据是一些非核心的日志信息。本着宁可错杀1000也不放过1个构思理念,所有数据统统采集过来,这就需要庞大的硬件集群支持,以至于后来随着数据量的猛增,硬件的预算却没有增上去,数据采集的不全面,分析出来的指标值依据度不高,这个项目采用的方法为 各地市部署n台采集机,数据集中汇总到省会大机房通过采集软件进行数据的汇总->入库->BI呈现。这种方法缺点末端采集的数据量呈指数增长给系统带来的灾难后果。后来在项目技术交流会上,我们提出现在缺的不是数据而是如何采集到高纯度的数据,从源端就把有用数据过滤出来,如想成功就需要更巧妙的算法,更贴近业务核心,知道哪些是想要的哪些是可以放下的,鱼和熊掌不可兼得,在我们后来的系统设计中把做的“专”提高到比做的“广”更高的层面上。
尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。无论是优酷还是搜狐,我们或多或少总会看到一些还不错的相关视频推荐。马云曾经说过,“淘宝胜就胜在广告联盟”,电商的数据可以怎么“玩”?海量数据挖掘有哪些常用的技术?大数据的数据库相比于传统的数据库有何变化?
答:每家公司使用的大数据技术往往都不相同,这是由其不同行业的数据结构不同导致的,传统行业更喜欢一些成熟的,效果好,有保障的技术,例如 SAS精准分析 基于oracle数据仓库系统
而互联网行业更倾向于开源、轻量级、有针对性的技术,例如 R模型分析 基于Hadoop数据仓库系统,因为这些公司的数据结构简单、业务关联性不强、海量->实现的功能更专项
聊一个广告投放的case,总所周知苏宁易购一直把京东作为假想敌,超越京东是其奋斗的目标之一。但从两者在不同广告领域的投放效果来看,苏宁易购往往没有抓住潜在消费者的心,总在电视,户外广告上下功夫,如果可以利用其线下商城采集信息->做一做市场大数据分析,我想势必会对其有所帮助。
目前人们对大数据可以说是又爱又恨,爱的是它提供了诸多便利和新的发展机会,恨的是它有时候会带来网络欺诈、侵犯个人隐私等现象,比如近期“棱镜门”事件折射出来的是对大数据技术的担忧。近期301中国昆明发生的恐怖袭击、国人为之揪心的马航失联事件、堪比“9·11”的曼哈顿爆炸等一系列事件让我们不断反思,也许大数据能为我们做些什么?大数据到底是天使还是魔鬼,你怎么看?
答:关于大数据是否可以反恐,我不能在这里下一个定论,如果说中国有没有斯诺登说的那种机构,答案是肯定的,因为有朋友在相关机构工作。5年前我们没有微博、没有微信、没有来往、没有LINKED IN等。如果想知道一个人的生活轨迹还是需要费一番周折的。可是现在呢,大家的生活是否会因为这些的出现而变化呢,我想答案是毋容置疑的。想想你每天可以在微博上了解周围人的最新动态、位置、正在干什么,在朋友圈中了解自己朋友的生活轨迹,想一想这5年里信息量出现了爆发式的喷井。某某大学的一个云计算实验室已经开展了“使用大数据来勾勒出整个贩毒网络的架构体系”的项目(据说获得了国家5000w经费)。我想大数据现阶段只能作为一种参考or辅助的手段,而还不能真正防止恐怖事件发生。现在国家已经逐步完善监控体系,只不过它没有说出来,你们懂得!
|
|