|
1.当预测不再是预测的时候,我们是用“掷骰子”来碰运气,还是应该相信大数据?
德国7:1 狂虐巴西,,之前有大数据分析,巴西的夺冠胜率为48.5%,德国只有11.4%.今天的结果是不是已经充分证明了这些大数据预测都是胡扯的。个人以为,这种大数据分析应用在生物、化学等纯科学领域应该是合适的 。如果有人参与的领域,大数据还是不适合的,因为人性,数据是无法预测的。所以我觉得还是应该相信大数据,但是一定要在合适的地方。
2.同为数据预测,为什么百度预测百发百中,而华尔街投行却错得离谱?到底预测模型中哪些因素最关键?
百度预测世界杯的主要数据来源包括:百度搜索数据,球队基础数据,球员基础数据,赔率市场数据。百度大数据通过分析过去5年987支球队的3.7万场比赛数据,共涉及29610名球员,112,285,543条相关数据,构建了足球赛事预测模型。
为了验证模型是否准确,百度用2010年南非世界杯的淘汰赛数据进行了准确性验证,具体方法是为预测模型输入2010年世界杯期间的比赛、球队、球员等相关数据,由预测模型计算出淘汰赛比赛结果,与当时的比赛结果进行对比,结果显示16场淘汰赛算准了12场,准确率为75%。
华尔街投行则是根据各个球队的FIFA排名、历史战绩、球员构成和赌球赔率等因素,建立了量化分析模型,并根据复杂计算得到一份夺冠概率表格。其中巴西名列第一,紧随其后的是德国、西班牙、法国。然后再根据某些假设,得出最终的冠军得主。这些假设就没有实际数据来的更加直接了。
预测模型中个人感觉(1)数据质量。数据通常来自内部数据如客户交易数据和生产数据。你手里的数据越多,相关度和质量越高,你找出原因和结果的可能性越大。以及(2)数据分析模型最重要。。
3.大数据预测怎么才能从靠谱变得非常靠谱?数据越大就越靠谱吗?大数据与传统的方法该如何互补?
提高数据质量,优化数据科学家审视数据,并围绕业务目标建立预测分析规则。选择优秀预测分析软件以及运营软件。如果你很幸运找到了合适的预测规则,下一步就是将规则植入你的应用。更重要的是将预测规则需要的数据事先准备好。
数据越大使得预测从一定程度上会使预测更加靠谱一点,更加准确一点。但是也是有一个临界点的。。不可能数据越大越靠谱,毕竟数据挖掘伴随着数据量的增大难度也越大。
面向大数据时代,传统数据库不完全适应,需要一些变革,需要在扩展性,需要在数据处理能力方面有一些新的变化。传统来说我们不是有数据分析,在大数据工具这块,技术层面我们讲一个新的工具,它是一个工具,不是大数据,不神秘,能够对文件、图片、文本,这类数据进行分布式的计算和处理,然后对结果进行合并,可以做到弹性扩展,分布式的计算架构,它和传统我们以数据库为核心的传统数据管理方法形成了互补的关系。
4.本届世界杯进入了白热化阶段,到底谁会夺冠?猜猜大结局。
德国。。 |
|