|
正方观点:这场灾祸的罪魁祸首是大数据,大数据预测不准才导致猪死的。
反方观点:大数据等于全数据(即n=All),这场灾祸的罪魁祸首是猪本身,数据不全,不仅坑爹,还坑命啊!
首先,我不认为 大数据 = 全数据,大数据的分析 也不是针对于 全部数据的分析;而是针对于样本数据,因此,样本的质量决定了分析结论的准确程度。
在这个寓言中,猪之所以没有预测到自己的命运,
其主要原因是:它所得到的样本数据不够,它仅仅通过自身的数据来进行推测,本身也没有错(因为它通过分析得出,明天或许还有美食可吃,这个相对结论
在它被杀之前,都是正确的);但就在它被杀的前一天,它通过前面的数据分析得出,明天继续有美食;这天的分析结论错了,因为它没有从别的猪身上得到
样本数据,因此无法推导出一个与前面结论(有美食)相异的数据。
而在现实的数据分析过程中,我们也不可能分析一个企业全部的数据,或许是以往的数据没有太大的参考价值;也或许这些数据并不是分析的范围。
但一个完整的样本集中,应至少包含 常规数据 与 异常(所谓)数据 两大类 。如果仅含有常规数据,就可能跟寓言中的猪所犯的错误一样。
包含异常数据,最大的好处就是:得到一个干扰项,从而得到一个推导结论时,预测风险(明天猪将有可能会被杀)。
从大数据中,得到有价值的信息,必须是由两方面构成的:
1、从大数据中得到的样本集。
2、分析样本集,并验证分析结论
猪被杀而没有被预测到,或者都没有想到有这么一个风险,其最主要的是:它没有得到一个有效的样本集,它的分析推导并没有太大的问题。
-------------------------
以上仅个人观点
|
|