中青报客户端

 中青在线版权与免责声明

中国青年报手机版

中国青年报手机版二维码

中国青年报官方微信

中国青年报官方微信

2013年06月19日 星期三
中青在线

科学现场

得大数据者得天下

本报记者 林衍  来源:中国青年报  ( 2013年06月19日   11 版)

    在涂子沛的第四次国内巡讲之旅中,连早餐时间都已经被占满了。

    6月16日,这位《大数据》一书的作者在招商银行深圳总部大楼与马蔚华共进早餐。马刚刚卸任招商银行行长,不久前,他的照片曾出现在电影《中国合伙人》的片尾致敬花絮里,和他一同进入大银幕的企业家还包括柳传志、王石、马云等人。

    “未来的世界一定是数据化的世界,未来的城市也一定会是数据化的城市。”在一个多小时的早餐会面里,马蔚华几次向涂子沛强调这一观点。

    事实上,从去年7月《大数据》出版后开始,每当这位在美国供职的中国程序员回到国内,都会受到热烈的追捧。和马蔚华共进早餐的第二天,他在江苏常州就“教育与大数据”的话题进行了一场听众超过1000人的讲座,组织者是当地的教育局局长。其间,他还与国泰君安证券股份有限公司董事长万建华吃了一顿午饭,万告诉他,在自己的新书《金融e时代》里,有整整一章都在探讨大数据的问题。 

    “从认识的角度讲, 这一年绝对可以称为中国的大数据元年。”涂子沛说。在过去的一年里,包括他的《大数据》在内,有超过20本以大数据为主题的新书在中国面世, 在当当网上,几本卖得最好的书甚至被打上了“限量购”的标签。

    如果把2013年全世界预计将存储的数据总量全部记在书里,那么这些书可以覆盖整个美国52次

    涂子沛在国内的第一场公开演讲正是受马蔚华之邀。在去年10月的招商银行全国行长研讨班上,从美国赶来的涂子沛一下飞机就被拉到会场,当着100多位分行行长的面,讲了4个多小时的大数据。

    “什么是大数据?”来自全国各地的行长们最好奇的就是这个问题。

    按照涂子沛的解释,这首先是对信息爆炸时代的崭新描述。事实上,如果把2013年全世界预计将存储的数据总量全部记在书里,那么这些书可以覆盖整个美国52次。如果将这些数据存储在只读光盘上,这些光盘可以堆成五堆,每一堆都可以伸到月球。

    事实上,在互联网专家维克托·迈尔-舍恩伯格的著作《大数据时代》里,曾将互联网时代的数据洪流与1439年前后古登堡发明印刷机时造成的信息爆炸相对比,一个重要的发现就是“当时信息存储量花了50年才增长了一倍,而如今大约每3年就能增长一倍”。

    但在涂子沛看来,仅仅用数量之大解读大数据有失偏颇,能量之大才是大数据这枚硬币的另一面。

    一个经典的案例是,在甲型H1N1流感爆发前几周,谷歌公司通过观察5000万条美国人最频繁检索的词条数据,发现“哪些是治疗咳嗽和发热的药物”这一主题的检索频率大增,进而准确预测了流感的发生及传播范围。

    “面对海量数据,谁能更好地处理、分析数据,谁就能真正抢得大数据时代的先机。” 常年生活在美国的涂子沛对大数据的威力印象深刻,他记得有一次自己要搬家,便把各种各样的家具在网上拍卖,结果很快就有搬家公司找上门来。

    和涂子沛的看法类似,一位在美国攻读统计学硕士的中国学生也告诉记者,大数据在美国非常火。他清楚地记得课堂PPT上曾有过这样的案例——美国有一个叫做Orbitz的订票网站,他们通过数据分析,发现顾客订票的价格高低往往与他们的网页浏览器相关,其中safari最高,chrome和firefox差不多。他们据此做出调整,一旦有用户通过safari网页登录,往往会被优先显示价格高的搜索结果。

    事实上,在麦肯锡发布的一份报告中,已经将数据分析称为 “下一个创新、竞争和生产力的前沿”。

    你想用3000多个样本折射几亿用户的行为,这事荒不荒唐就不用说了

    在美国,数据分析形成了一条完整的产业链,不少大学还设立了相关的硕士学位,而在中国,这种传道也正如燎原之火。在去年,一名叫王煜全的天使投资人曾经和涂子沛同台演讲,和涂子沛一样,他也是数据的忠实信徒,“自己现在会投的创业者,必须有数据分析技术,否则免谈”。

    在王煜全看来,在传统的社会学研究中,“大样本、实时监测、连续监测”往往是不可兼得的条件,而大数据打破了这个迷思。

    “我们都知道央视索福瑞是做电视收视率调查的,大家知道多少个样本吗?3000多个。你想用3000多个样本折射几亿用户的行为,这事荒不荒唐就不用说了。”他在一次演讲中这样说道,“web2.0改变了这个现状,不管在Facebook、Twitter、新浪微博、微信上,我们能够随时获得全样本的实时的连续数据,这个时候我们对用户行为的理解就有可能达到空前的深度。比如在没有社交网络的时候,某位名人一直说自己是加州理工毕业的,大家相信了很久,等有社交网络你再看他的好友圈,一定有若干个西太平洋而没有加州理工的,你猜他是哪毕业的?”

    而在《大数据时代》一书中,维克托·迈尔-舍恩伯格曾提出过另一个重要论点,相比于因果关系,相关关系也许能够帮助我们更好地了解这个世界,换言之,在大数据时代,知道“是什么”或许比知道“为什么”更重要。一个经典案例是,沃尔玛的研究人员通过数据挖掘,发现四成左右的年轻爸爸在购买婴儿尿布时会顺手买点啤酒犒劳自己,便对这两种商品进行捆绑销售,结果销售量双双增加。

    “大数据最要命的是什么?就是任何数据我都能汇总起来,分析你,比你还了解你自己。”王煜全曾这样解读大数据的价值。

    涂子沛则记得,去年10月,时任中央政治局委员、广东省委书记汪洋曾给省财政厅的全体干部推荐过《大数据》。汪洋讲到马云曾经对他说,现在数据就是竞争力:“你想不到全中国比基尼卖得最好的是哪几个省,一般人认为肯定是广东、海南岛。”

    马云随即告诉汪洋,从淘宝数据上看,其实卖得最好的是新疆和内蒙古。他这样解释这种反常的相关性:估计每一个男人,都要给他的夫人、情人和对象一个美好的憧憬,“有一天我带你去下海”。

    “当然这是他的一种解释,但是能反映什么呢,就是这些数据和你想象的不是一个概念。如果商家掌握了这个东西,其实你比基尼广告的重点不要放在广东做,你放到新疆、内蒙去做啊,这效果可能就不大一样了。”汪洋给出了自己的解读。

    在中国,大数据会一步步改变我们的生活

    这一次回国,曾工作过多年的广东仍然是涂子沛的必到之处。这两天,除了与马蔚华见面,他还与中信银行的几名管理者做了深入的沟通,让他感到明显不同的是,金融“精英们”已不再把大数据当做新奇的概念,反而开始有了某种“深深的忧虑”。

    困扰金融巨头的假想敌正是掌握着大量数据的互联网企业。曾经两次去阿里巴巴交流的涂子沛告诉记者,阿里金融正在试图通过大数据技术解决“小微企业融资难”的问题。“所有贷款都是通过信用贷款,不像银行那样需要房产或其他抵押品,也不需要走访约谈。因为他们会对客户的所有行为数据进行挖掘分析,再决定是否放贷。”

    “依靠大数据技术,IT企业也可以变成银行,很难想象吧?”涂子沛笑着说,“在中国,大数据会一步步改变我们的生活。”

    事实上,越来越多基于大数据技术产生的创意正在实实在在地进入中国人的生活。有媒体曾经报道过支付宝的数据科学家们每天的工作:他们会把客户分成50个族群进行研究,其中有一个群体叫做都市轻熟男,还有一个群体叫千金美少女,而这些类型的划分依据就是用户在淘宝、天猫、支付宝和聚划算中的付费行为数据。在能识别用户之后,一个微妙的变化是,在写商品推荐文字的时候,不再是过去那样千篇一律地使用“亲”作为开头了。

    类似的变化涂子沛也曾亲身感受过。有一回在国内演讲,他住在白天鹅宾馆,宾馆的信息部主任告诉他,这家宾馆的信息部有收集用水量的习惯。有一年,原本平稳的用水量突然出现了大幅波动,工作人员经过分析排查发现,花坛下有个水管漏水很久,“是数据让他们发现了问题”。

    这一回,又一个与大数据有关的故事让他眼前一亮。在华东师范大学,一名女生因为减肥,5月份的饭卡消费较少,没想到竟然收到一条系统短信:“同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?如有困难,可电话、短信或邮件我。如无困难,也请回复一下,以便下月不再重复问询。”

    原来,这个消息来自学校的困难生预警系统,而这套系统正是基于学生饭卡消费的数据建成。涂子沛第一时间转发评论了这条微博:“华东师大用数据表达爱和关怀。”

    在一次演讲中,涂子沛曾这样说道:“今天,数据已经无处不在,我们的衣食住行、喜怒哀愁、吃喝玩乐都以数据的形式存在。通过数据、网络和软件,我们用数据来记录这个世界,再通过研究数据去发现这个世界。”

    “大数据无处不在?”记者在电话里问涂子沛。

    “我想是的,哦,你猜我一抬头看见了什么?”正在白云机场准备赶赴下一个演讲地点的涂子沛告诉记者,出现在他眼前的是一块IBM的大幅广告,上面写着这样一行字——

    大数据时代:用智慧的分析洞察,构建智慧的地球。

本报记者 林衍 来源:中国青年报

2013年06月19日 11 版

得大数据者得天下
假如时间不存在
热气球来了,互联网通了
知新