不是每匹千里马都能遇上伯乐,但只要走进办公室,多半都会遭遇克星,比方说工作狂周瑜恨透了自己的同事诸葛亮,嫉恨莫扎特的宫廷乐师有空没空都会给他使绊子,还有爱长吁短叹的屈原,讨厌跟他一块侍奉大王的同行,成天抱怨“众人皆醉我独醒”,这话翻译成现代职场语言无非在说,这办公室里啊,就我一个明白人。
文人如此,程序员亦如此。这条古今中外从未例外的职场定律放在计算机领域依然适用,典型代表就是美国工程院院士弗莱德里克·贾里尼克。贾里尼克是语音识别和自然语言处理方面的先锋,电脑今天听得懂你说的话,多半都是他的功劳。当然,他也少不了克星,但不是让他绞尽脑汁处理的语言,而是坐在办公室里的语言学家。
按理说,贾里尼克应该跟语言学家成为好朋友才对。贾里尼克一生打交道的对象都是语言,他在上个世纪带领当时的IBM语音识别实验室,提出了基于统计的语音识别框架,让语音识别开始真正应用到生活中,后来又到美国约翰·霍普金斯大学建立世界著名的CLSP实验室,成为世界上语音和语言处理的中心之一。
事实上,当他刚认识语言学家的时候,也视其为自己的人生伯乐。那时候,贾里尼克在麻省理工学院主修电机工程,沉迷于信息论,成天想着如何运用概率论和数理统计的方法,解决信息和通信的问题,而难点就卡在如何处理自然语言。这正是以自然语言为研究对象的语言学的目标。
他先是被语言学大师罗曼·贾格布森的理论所打动,又跟老婆一起旁听了上世纪最有影响力的语言学家乔姆斯基的课程,毕业后在哈佛大学教书时,又跟康奈尔大学的语言学家相谈甚欢,于是,怀揣着用信息论解决语言问题的理想,贾里尼克从哈佛打包离开,满心期待地转到康奈尔大学,“我和我的同事都期待着,语言学家能让我们挖到金子”。
没想到,这才是办公室噩梦的开始。抵达康奈尔大学后,期待一番作为的贾里尼克发现,他的语言学家搭档不干了,理由是对语言学突然丧失兴趣了,要改行写歌剧。
惨遭抛弃的贾里尼克只好重新开始。1972年,贾里尼克在IBM领导了语音识别实验室,拉来了些靠谱一点儿的合作伙伴——第一个提出机器翻译统计模型的布朗,解决最大熵迭代算法的达拉皮垂孪生兄弟,还有他的搭档波尔、库克和拉维夫,后来跟他一起提出数字通信领域至关重要的BCJR算法……
最初,贾里尼克还是会招募一些语言学家,为语言研究做顾问。可一碰到语言学家,他的噩运又来了。贾里尼克遇上的语言学家们,似乎都不能让他满意,虽然语言学道理讲得清楚,可往往会低估问题的严重性,贾里尼克最终发觉跟他们的目标不一致,在设计过程中添乱大于添彩,只能怏怏地丢下一句判语:“我的办公室里每开除一个语言学家,我的语音识别系统错误率就能降低一个百分点!”
这个百分比是怎么算出来,估计只有贾里尼克自己知道,但是这句话日后却被语言处理的专业人士半开玩笑地奉为行业圣经,调侃着要拒绝语言学家的传统直到今天依然适用。
比如不久之前,谷歌翻译团队宣布自动化翻译的进展时,领导团队的计算机科学家就特意强调,“这里一个纯粹的语言学家都没有”,“最重要的事情是擅长数学和统计学,再懂得编程,这就够了”。
事实的确如此。开除掉语言学家后,贾里尼克带领一队工程师,靠他们最擅长的技术跟语言打交道。贾里尼克提出,语音识别可以看做通信问题,他将统计模型引入语音识别和语言处理中,改变了这一领域的研究方向。
不过说真的,办公室里恩怨再重,终归也没有永远的敌人。在贾里尼克晚年的一次演讲中,这个分不清楚“清华大学”和“青岛啤酒”的老爷子终于公开表示,“语言学家研究语言现象,我们要学会利用语言学家的真知灼见”。
至此,这个跟语言学家闹了一辈子不愉快的老人终于公开和他的办公室克星和好如初。他还特意给这次演讲的题目取了一个响当当的名字——《我的一些好朋友,就是语言学家》。