美国电视智力节目“危险边缘”(Jeopardy!)的历史上还没出现过这么有趣的情景:曾经连续答对74题的肯·詹宁斯失望地低下了头;曾经赢得最多奖金的选手布拉德·鲁特,急出一头大汗。
相比这两位“节目历史上最成功的选手”,竞争者看起来却怡然自得,即便连续几次抢答成功,这位名叫沃森的选手语调也没有丝毫波动,更别提什么异样的表情了。
当然,最有趣的画面还是他们同台竞技:站在大胡子鲁特和尖下巴詹宁斯的中间,与他们一起聆听问题并激烈抢答的竞争对手,是一面黑色的电脑屏幕。
没错,沃森是一台电脑。确切地说,它是一款由国际商业机器公司(IBM)开发,以公司创始人托马斯·沃森(Thomas Watson)命名的人工智能软件系统。在2月14日至16日播出的“危险边缘”节目中,它试着理解人类复杂的语言等表达方式,然后通过分析计算,寻找问题的答案。
有人盛赞这是计算机技术“里程碑式的进步”,有人惊呼“电脑即将取代人类”,可回到竞赛现场,“危险边缘”的主持人艾利克斯·特里博克可不愿意说得这么复杂。
“你们会看到一场历史性的比赛。”他对着台下满满的观众说,“这实在太有趣了。”
还有谁会怀疑呢?这真是个可怕的对手
在这个邻近纽约的蓝色的录制大厅里,尽管主持人先介绍了两位“危险边缘”节目的人类明星选手,但安静的沃森才是所有人关注的焦点。
“而这一位……就是沃森。”特里博克话音还没落,观众席立刻爆发出了一阵热烈的掌声。仿佛是作为回应,沃森屏幕上显示的图案变成几条快速旋转的圆弧——这是它正在处理信息的标志。其他时候,那块漆黑的屏幕上只有一个地球的图案,闪动着绿色的光芒。
与这张纤薄的“脸庞”相比,沃森的身躯庞大得几乎有些不相称。在邻近节目现场的IBM实验室,它所包含的10台IBM机箱占据着一整间房屋,看起来就像两排并列站立的黑色冰箱,并且稍稍走近就能听到巨大的轰鸣。这些声音有些来自沃森自己的运转,大部分则发自旁边给它降温的巨大风扇。
这样的“大块头”显然没办法被塞进狭窄的选手座位里。在节目现场,沃森只能通过一块屏幕和语音系统来参与这场特殊的智力竞赛。
从节目流程来看,“危险边缘”节目很像中国的“幸运52”。每个类别下都有5个题目,按照难度分为200美元~1000美元五个级别。在题目公布后,三位选手一起进行抢答,回答正确得分,答错则要扣除相应的分数。
“第一轮题目有五个类别,文学人物、披头士、奥运奇闻、寻找年代、边缘地带,以及多义词。”特里博克说。大约是为了体现自己的专业,他戴上了一副金丝眼镜,“准备好了吗?告诉我你的选择。”
“我选择“多义词”类别下200美元的题目。”鲁特说。
“一个四个字母的单词,既表示现象,又表示观点。”一则简短的题目显示在了大屏幕上。
三位选手一起看着大屏幕。鲁特和詹宁斯用的是自己的眼睛,而沃森用的是摄像头。它给大屏幕拍了照片,并且通过光学分析,得到了文本格式的问题。
这个由美国、中国、日本和以色列的研究人员共同完成的人工智能系统的首要任务是理解问题。精通语言学的研究人员通过程序算法让沃森能够从题目中找到其中的关键字,并且结合上下文和语法结构,选择符合情理的含义。
“这是非常复杂的过程。”潘越说。这位来自IBM中国研究院的信息与知识研究部资深经理,在过去的几年,为了沃森的诞生投入了大量的时间。他所在的研究院共有6人参与了沃森的研发。
他解释说,一方面,一些单词具有截然相反的含义,像英文里“Bark”不仅可以指代“树皮”,也可以用来形容狗吠;而另一方面,对于同一件事物,人们会有许多不同的表述,比如“山姆大叔”就意味着“美国”。
接下来,通过这些关键词,沃森会在自己储备的知识库里进行搜索,给出很多可能的答案,并对这些答案进行分析、打分。对于每个答案,沃森都会找到正面以及负面的证据,而对于这些证据,它同样会通过复杂的算法给出得分。
“这是一场链条式的组合爆炸,就像原子弹相互引爆的裂变反应一样。”潘越说。
在获得足够多的“证据”之后,沃森就开始分析它们的充分程度。同时,参考自己知识库里回答人类问题的“通用模型”,它把答案按照可信度进行排序,并且决定是否参加抢答。
这些复杂的过程,沃森运行起来只需要3秒钟。它包含10组Power 750服务器,15360GB的内存,2880个中央处理器(CPU),每秒可以进行80万亿次运算。当它认定答案可信时,这台身躯笨重的机器只需要10毫秒就可以按下抢答器。
这样令人悚然的速度和精度,还有谁会怀疑呢?沃森真是个可怕的对手。
它不生气、不高兴,也没有反思的能力
即使拥有这样强大的功能,沃森也并没有时刻展现出无往不胜的优势。
在对着题目运算了两秒钟后,沃森找到了三个答案,可即使对于排在第一位的答案,它也只有70%的信心。沃森“脸庞”上发光的地球图案变成了黄色,而鲁特没有给它犹豫的时间。
“答案是‘观’(View)。”这个留着络腮胡子的男人按下了抢答器,飞快地回答道。
“没错。”主持人特里博克说。鲁特获得了200美元的奖励。
不过,接下来,沃森找回了自己“超级电脑”的尊严,并且牢牢掌握着比赛局势。它泰然自若地展示着自己广博的知识储备:文学形象、奥运奇闻,还有刚刚让自己吃了闷亏的“多义词”。当它对答案的肯定程度超过98%时,显示器上的地球就会变成绿色,而它的抢答速度也变得尤其快。
为了让沃森能够“学”会人类的知识,IBM的研究人员可谓煞费苦心。他们在沃森的大脑中放入的信息,相当于一本超过2亿页的文档,其中包含《全球百科全书》这样的正式出版物,也包含由网民共同维护更新的“维基百科”。
IBM中国研究院的研究人员则进行了“两阶段学习”的尝试,不仅“授人以鱼”,让沃森学习知识,也“授人以渔”,让它学习回答人类问题的“模型”。“这在整个沃森系统性能停滞不前的时候推动了它的前进。”潘越说。
几题过后,沃森已经赢得了1400美元,而鲁特的奖金只有它的1/7,詹宁斯甚至还挂着一颗“鸭蛋”。
可即便是如此“学富五车”,沃森也免不了犯一些低级错误。面对“第一个现代填字游戏和奥利奥饼干出现年代”的问题,詹宁斯率先抢答“20世纪20年代”,却被主持人告之“回答错误”。随后,沃森抢答成功。
“答案是20世纪20年代。”它用电脑朗诵的声音说。
“不对。”特里博克对它摇了摇头——也不知道沃森能不能明白这个画面的含义,“詹宁斯已经回答过这个答案了”。
最后,还是鲁特给出了正确答案:“答案是20世纪10年代。”
潘越对此颇有些扼腕。“我们设计沃森的时候,觉得分析对手的错误是不需要的,”他说,“没想到,沃森也会犯和人一样的错误。”
另一个人们津津乐道的错误是,因为把题目类别中“美国机场”的关键词权重设定得太低,一道原本答案是“芝加哥”的题目,沃森竟然回答成了千里之外的多伦多。
不能怪人们总等着沃森出错,事实上,这个出生没多久的小家伙的反应总是特别有趣,即便是犯了离谱的错误,它也依旧能“旁若无人”地继续抢答,从来不会失去它的冷静。
这也是为什么当人们为“人工智能威胁人类发展”而议论纷纷时,IBM的研究人员们觉得这样的忧虑实在有点杞人忧天。“现在,人工智能虽然在很多领域达到了与人类相同的水平,但这大多局限在日常知识的处理方面。对于情感的识别,人工智能远远没有达到同样的程度。”潘越说,“就像在比赛中,沃森不生气、不高兴,也没有反思的能力,人工智能的技术距离完整的人还差得很远。”
它会成为我们需要的助手,足够强大却从不疲惫
相比普通人的忧虑,科学家们大多为沃森的成绩而欢欣鼓舞。13年前,同样是IBM研发的电脑“深蓝”战胜了国际象棋冠军,但国际象棋毕竟是“有限规则下的深度计算”,计算机比较容易处理。相比之下,沃森的胜利具有更重要的意义。有媒体评价说,沃森代表着计算机发展的重大突破,“它们可以理解人类语言,并且通过对数据库的搜索、筛选,寻找解决问题的答案”。
2月16日,进入第三场的“人机大战”几乎没有了悬念。当三位选手按照要求写下最后一题的答案时,詹宁斯已经预料到最后的结果,他在自己的答题板上写道:“我个人非常欢迎我们这位新‘擂主’。”
全场大笑,除了依旧“旁若无人”的沃森。
其实,在这场欢愉的智力节目播出的同时,科学家们也期待沃森能够在现实世界小试身手。根据IBM与美国哥伦比亚大学医学中心和马里兰州医学院的协议,它将参与一系列试验,并且尝试着在临床诊断中给予医生有效的帮助。
“相比于沃森,其他人工智能软件功能很有局限,反应也有点迟钝。” 马里兰大学医学院教授艾略特·西格尔说,“它们常常对医生特别擅长的科目才有足够的帮助。”
潘越也希望在未来的某一天,沃森能够帮助那些来不及阅读大量医学文献的医生。“一个从医学院毕业的学生,5年时间,知识库的信息就会有一半过时。而沃森能够帮他们补充这些信息。”
不过,要达到这样的要求,沃森还需要接受进一步改进。“医学并不是智力游戏,临床诊断的很多工作并没有正确答案。”西格尔说,“沃森的研究团队正在努力让它提出的答案包含多种可能的假设。”
同时,沃森也需要“吞食”更多的医学书籍,并且减少自己像在“危险边缘”中那样犯错的几率。西格尔对此充满信心:“十年的时间,沃森能够变成我们需要的助手:反应够快、够强大,任何时候从不疲惫。”
IBM估计,如果沃森能够像人们期待的那样,进入普通商业领域,帮助医生、基金经理以及其他人在海量非结构化数据中寻求答案,那这台“最会回答问题的机器”可能会为公司带来巨大的收益。
与这些宏大的前景相比,沃森所获得的巨额奖金好像也没那么引人瞩目了。在“危险边缘”节目中,沃森最终以77147的总分获得了100万美元的奖金,而鲁特则以24000的分数获得30万美元,詹宁斯获得20万美元。
两位人类选手表示,他们会把自己一半的奖金捐赠给慈善机构。至于沃森,奖金如何使用,它自己可说不上来。
“他会用这些奖金给自己换几个零部件吗?”有人问。
“当然不会!”IBM的一位工作人员笑着回答说,“沃森也会把自己全部的奖金都捐给慈善机构。”