一口毒奶!大数据预测西班牙将夺得2018俄罗斯世界杯冠军

科学家们用来预测本届世界杯比赛结果的方法叫 “随机森林方法”(Random Forest approach)。就像树从主干到最末端的小树枝一遍一遍地一分二一样,如果说最终的比赛结果是树最顶端的一颗小树枝,那么树木的每次分叉就对应着一个关键节点(比赛谁输谁赢),而通过参考一组训练数据,机器学习能估计每个分支的潜在发生概率,以 “预测” 出本届世界杯最终获胜的球队。

大多数 “决策树” 在后期都会因为不可靠因素过多而影响决策模拟结果的准确性,这些决策由于不一致和分散的训练数据(training data)而失真,这种现象叫做 “过度拟合”(overfitting)。而 “随机森林方法” 则通过多次计算随机分支的结果来尽量让结果准确。“随机森林方法” 取多次随机决策树的平均值,以此绕过 “过度拟合”。在这个研究 “到底谁能获胜” 的模型里,有些考量的因素是我们能想到的,比如该球队在国际足联排名、球员平均年龄、球队里有多少名球员在冠军联赛踢球等因素。除了这些明显对预测结果有帮助的因素,这个模型还包含了一些看似无关紧要的因素,比如国家人口、国内生产总值、甚至包括执教教练的国籍。

该团队模拟了足足 10 万次足球比赛,并根据 2002 年到 2014 年之前所有比赛的成绩(数据可以说是很充分了),使用了三种不同的建模方法。

根据预测结果,西班牙夺冠的概率是 17.8%,而西班牙能冲进四强的概率则高出不少,足足有 73%。

“能不能闯出小组赛难说,但如果小组赛没被淘汰,德国队进四强的几率高达 58%。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注