|
正如很多人说的,我觉得所谓的高票答案其实都是建立在“先入为主”的概念上的。有的人期望看到一个全新的概念,却发现不但不新还和学校里教的统计最基本的部分不一样。有的人期望看到具体的编程教程,却发现作者是在科普,于是觉得作者是夸夸其谈的空想派。
其实争议的来源是他们自己对大数据的理解失误。简单的更正很多人的想法:
1.大数据概念不新,大数据的创新在于技术而不是概念,不是神话。
2.全样本现在确实无法达到,但是超大样本已经足够商用。
3.有人说作者先说不要精确,其后又说样本大了精确是前后矛盾,还有人干脆质疑作者不要精确的正确性。作者意图是说,有了大量的数据则不需要精确而不是不要精确的数据。统计分析中的第一步不就是将outlier剔除,将无关factor删除然后用各种方法判断数据的代表性并进行修正吗?在大数据时代,outlier基本可以忽略。因为千分之1的影响不能忽略,而亿分之1的影响可以。这么直白的概念如果造成大家这么广泛的争议我觉得肯定是翻译的问题了。
4.大数据的特点用一句话来说就是简单粗暴,大多数答案的回答者还在用最经典的统计学论调,比如强调分析模型的中心位置,比如强调取样的代表性精确性,比如质疑作者提到的相关性而不是因果关系。简!单!粗!暴!懂不懂?以前不够精巧的模型在依靠如此大量数据的时候可以用了。以前需要筛选的样本现在可以直接分析了,以前需要先从某处发现假设再用更完整的数据证实(甚至是再取样),现在数据里一条龙了。最后这条便是大数据不提因果关系的原因,因为我们不是在想因为A-》B,所以我们施加A得到B,大数据的用途是 因为A-B,所以我需要B的时候就去别的地方找A.
5.有的人说这本书没有图所以差。。。我只能说抽象思维能力可能是作者认为很大众化的吧。。。
6.大数据已经颠覆了经典统计学,至少在二十年前就已经是这样了。统计学的角度讲,多维的数据分析方法,决策方法早已经理论完整,甚至大数据中利用的有些技巧在统计学界已经被认为是没有必要继续发展的科目。再从老的角度出发去否认新的科技就有点儿蛋疼了,更何况这些东西其实已经不新了。。。很多论文都出了几十年了只是现在电脑才跟上而已。。。
|
|