2012年11月,美国总统选举异常激烈,奥巴马在整个竞选过程中花了不到3亿美元,而罗姆尼却花了近4亿美元,但最终还是奥巴马赢得选举,打破了没有一名美国总统能够在全国失业率高于7.4%的情况下连任成功的惯例。在奥巴马获胜几小时后,《时代》杂志就刊发报道,认为奥巴马的成功,竞选团队的大数据战略功不可没。大规模与深入的数据挖掘,帮助奥巴马在获取有效选民、投放广告、募集资金方面起到重要作用。奥巴马竞选团队表示,大数据是能够击败罗姆尼的一个大优势!
什么是大数据?就是指那些超过传统数据库系统处理能力的数据,数据量通常在10TB(1TB=1024GB,为1万亿字节)以上。大数据的基本特征是:体量巨大(volume),类型多样(variety),处理速度快(velocity)。有时所说的“大数据”,也指一种技术,它包括海量数据分析技术、大数据处理技术、分布式计算(云计算)技术、数据可视化技术。奥巴马借助大数据连任成功,表明大数据在预测和决策方面具有卓越能力。因此,大数据在政府决策、商业和科技等领域的广泛应用,将在公共服务、民生医疗、国家安全等方面,产生巨大的社会价值和产业空间。
美国在大数据的研究和应用方面走在世界前列。2012年3月,奥巴马政府发布了“大数据研究与开发倡议”。该倡议的目标是改进现有从海量和复杂数据中获取知识的能力,从而加速美国在科学与工程领域创新的步伐,增强国家安全,并转变现有的教学方式。首批共有5个联邦部门,宣布投资两亿多美元,共同提高收集、储存、保留、管理、分析和共享海量数据所需的核心技术,并培养一批大数据技术开发和应用的人才。在这些计划中,美国国防部的项目最为突出。数据是未来影响战争胜负的关键因素之一。数据的积累量、分析和处理能力以及由数据主导决策等,将是获得战场优势的关键。当前美军运行的数据中心超过772个,服务器超过7万台,还有约700万个计算机终端。因此,美军正在加紧推进大数据研发计划,目标是实现由数据优势向决策优势的转化。
实际上,大数据是一个开放的复杂巨系统,它不仅有技术问题,同时也面临一系列复杂的技术与社会相互影响问题。首先,大数据要像互联网那样得到广泛应用,必须解决数据公开和公众参与问题。美国政府虽然开设了Data.gov网站,为公众提供数据,但提供的数据格式众多,难于使用,许多数据也因保密和保护隐私等原因而并未公开。美国宇航局(NASA)戈达德中心的气候模拟中心,保存并处理了大量与气候及天气密切相关的数据,为准确预报灾害和防治大气污染服务。NASA首席技术官萨西·皮蕾博士说:“要真正利用这些数据还需要时间,这是一项长远发展目标。希望我们最终能够做到物尽其用,从而使这些数据成为未来科学探索道路上的指导。”
其次,大数据和所有的高技术一样,都是一把双刃剑。大数据必将增大掌握大数据的组织和普通民众之间的数据鸿沟,弱势群体实在难于利用大数据;滥用数据也可能会侵犯个人隐私;大数据用于商业也可能只有利于大公司。在奥巴马这次竞选连任中,曾收集了大量选民的手机信息和在Facebook上的信息,是否侵犯个人隐私,也可探讨。
最后,大数据有它的局限性,对它的认识还有待实践来深化。著名大数据专家维克托·迈尔·舍恩伯格最近说:“大数据是一种资源和一种工具。它的目的是告知,而不是解释;它意在促进理解,但仍然会导致误解,关键在于人们对它的掌握程度。人们必须以一种不仅欣赏其力量,而且承认其局限的态度来接纳这种技术。”由此可见,大数据能否发挥更大作用,将取决于使用数据的人和事件本身的性质。可以设想,在美国2012年总统竞选中,如果不是奥巴马而是罗姆尼去采用大数据技术,他也未必一定能够取胜。
黄志澄