C罗每次单骑突破时的奔跑平均速率是多少?梅西射门更喜欢用左脚还是右脚?皮尔洛每场比赛的跑动频率会在什么时候开始下滑?在大数据面前,这些都不是问题。
本届世界杯,大数据成为各支球队的制胜宝典。在比赛过程中,数据分析师们会紧盯摄像机,不断敲击热键,将场上球员的每个动作转换成一个数据。这些“飞奔”而来的数据,能够即时反映出球员的竞技状态,以供主教练“排兵布阵”之用。本届杯赛上,一家来自英国的体育数据提供商Opta为包括东道主巴西队在内的7支球队提供服务,成为众多主教练的幕后“军师”。
可穿戴设备也在世界杯上崭露头角。在训练时,德国队的球员在鞋内或护腿板上装上传感器。传感器会收集球员的跑动、传球等数据上传给后台服务器进行运算。在短短10分钟内,10名球员用3个球训练,可以产生超过700万个数据点。相比起来,德国队主教练勒夫的工作则要轻松许多。他只需站在场边,拿着平板电脑,照着分析结果去做就行。
球场外商家也从大数据里嗅到了商机。高德地图在央视的世界杯转播节目《豪门盛宴》中亮出了“球迷分布热力图”。这张图会告诉喜欢热闹的球迷哪里才是扎堆儿看球的好去处。360手机卫士晒出了全国球迷的心跳大数据,通过摇一摇手机这个简单的动作,将全国球迷的心情起落以跳跃曲线的方式展现出来。
大数据还让猜球变成了科学。谷歌、微软、百度这些技术雄厚的互联网大佬充当起了章鱼“保罗”的角色。他们将32支球队的数据带入到自己的数据模型中,算出了每场比赛的结果。在世界杯开赛前,英国物理学家史蒂芬·霍金教授收集了包括历史记录、温度、球场的海拔高度等数据,给出了“英格兰世界杯获胜公式”:英格兰队需要在世界杯上采用4-3-3阵型,穿红色球衣,才能最大限度提高夺冠概率。
在本届世界杯上,大数据的应用随处可见。事实上,这是世界杯与大数据的首次“邂逅”。此前,大数据已被应用于各行各业。商家用大数据来预测消费者的购买行为,刑侦人员用大数据来预防犯罪。一个最为人津津乐道的案例是,在甲型H1N1流感暴发前几周,谷歌公司通过观察5000万条美国人最频繁检索的词条数据,发现“治疗咳嗽和发热的药物”这一关键词的检索频率大增,进而准确预测了流感的发生及传播范围。
到底什么是大数据,目前尚无标准定义。不过,大数据首先得突出一个“大”字。在互联网专家维克托·迈尔-舍恩伯格的著作《大数据时代》里,曾将互联网时代的数据洪流与1439年前后古登堡发明印刷术后造成的信息爆炸相对比,一个重要的发现就是“当时信息存储量花了50年才增长了一倍,而如今大约每3年就能增长一倍”。
本届世界杯上这一特征尤为明显。据谷歌统计,截至目前,有关巴西世界杯的关键词搜索次数已经达到15亿次。社交媒体“推特”(Twitter)的统计数据显示,在世界杯举行的前15天里,有关巴西世界杯的微博发帖数量达到3亿条。在巴西队与墨西哥队进行的小组赛上,球场内共产生了12.8万次呼叫和58.1万条数据通信,这还不包括通过免费WiFi热点传送的数据。
但是,大数据并不是万能的。在《大数据时代》一书中,作者曾提出过另一个重要论点,相比于因果关系,相关关系也许能够帮助我们更好地了解这个世界,换言之,在大数据时代,知道“是什么”或许比知道“为什么”更重要。
以世界杯预测赛事为例,到底最后谁能夺冠取决于多种因素。各种预测方法论本质上并无区别,只不过它们对不同决定要素赋予的权重不尽相同。也就是说,决定夺冠的要素是什么,这是一个主观问题。大数据只能说明客观的状态,无法对夹杂重要主观判断的问题直接给出解答。另一方面,大数据分析都是基于既成事实的,它更擅长于告诉我们,世界是怎样,而不是世界应是怎样和将会怎样。在不确定性面前,大数据暂时还无能为力。事实情况也是如此。英格兰队并没有按照霍金给出的获胜公式一直走下去,而是小组赛过后便打道回府;百度大数据也没法准确告诉我们巴西队会以1∶7这样的悬殊比分被德国队淘汰。
而对于球迷们一直争论不休的老问题:“究竟是梅西厉害还是C罗厉害?”从大数据角度来看,只能说:“梅西在本届世界杯赛上的发挥确实比C罗要好。”