本文來(lái)自微信公眾號(hào):騰訊研究院 (ID:cyberlawrc),作者:蓋瑞·馬庫(kù)斯、歐內(nèi)斯特·戴維斯,編譯:龍志勇,題圖來(lái)自:《梅根》
薩曼莎:我能幫你做什么?
(資料圖片)
西奧多:嗯,就是覺(jué)得一堆東西亂七八糟的,沒(méi)別的。
薩曼莎:要不我?guī)湍憧纯从脖P?
西奧多:嗯……好吧。
薩曼莎:好的,咱們先從電子郵件開(kāi)始。你有幾千封《洛杉磯周報(bào)》的郵件,但是你好像很多年前就不在那里工作了。
西奧多:嗯,是呀。我想,之所以留著那些郵件沒(méi)刪,是因?yàn)槲矣X(jué)得以前可能寫過(guò)幾句特別幽默的話。但是……
薩曼莎:是的,的確有些挺幽默的。我看大概有86封應(yīng)該存下來(lái)的。我們可以把剩下這些郵件都刪除掉。
——編劇兼導(dǎo)演,斯派克·瓊斯,《她》,2013年
如果機(jī)器都能像科幻電影《她》中由斯嘉麗·約翰遜配音的“操作系統(tǒng)”薩曼莎理解西奧多那樣理解我們,那該有多好。如果機(jī)器能在眨眼間整理好我們所有的電子郵件,選我們需要的那些,將剩余的清除干凈,那該有多好。
如果我們能賦予計(jì)算機(jī)一個(gè)它們不具備的能力,那么首當(dāng)其沖的就該是理解語(yǔ)言的能力。因?yàn)檎Z(yǔ)言理解不僅能讓計(jì)算機(jī)幫助我們安排日常的生活和工作,而且還能幫助人類去直面那些最大的挑戰(zhàn),比如對(duì)大量的科學(xué)文獻(xiàn)進(jìn)行精煉和總結(jié)。無(wú)論是誰(shuí),僅憑自己的力量,都不可能緊跟科學(xué)界的發(fā)展速度。
舉例來(lái)說(shuō),在醫(yī)學(xué)領(lǐng)域,每天都有數(shù)千篇論文發(fā)表于世。沒(méi)有哪個(gè)醫(yī)生或研究人員能將這些論文都讀一個(gè)遍。讀不到這些論文,就無(wú)法將最新理論應(yīng)用于實(shí)踐,拖了進(jìn)步的后腿。藥物研發(fā)之所以進(jìn)展緩慢,一部分原因就在于許多信息都封鎖在那些沒(méi)人能抽出時(shí)間閱讀的文獻(xiàn)中。有時(shí),全新的治療手段無(wú)法得到應(yīng)用,是因?yàn)獒t(yī)生沒(méi)時(shí)間去閱讀相關(guān)內(nèi)容,根本不知道有新手段的存在。如果有一個(gè)能對(duì)大量醫(yī)學(xué)文獻(xiàn)進(jìn)行自動(dòng)合成的AI程序,就會(huì)掀起一場(chǎng)真正的革命。
能像博士生一樣從專業(yè)角度出發(fā)去閱讀的計(jì)算機(jī),再配備上谷歌強(qiáng)大的計(jì)算馬力,同樣會(huì)在科學(xué)界掀起一場(chǎng)革命。從數(shù)學(xué)到氣候科學(xué)再到材料科學(xué),我們會(huì)看到每個(gè)領(lǐng)域因此而發(fā)生的重大進(jìn)展。而且,不僅科學(xué)能獲得變革,歷史學(xué)家和傳記作者也能迅速找到關(guān)于某個(gè)非著名人物、地點(diǎn)和事件的所有文字記錄。作家還能利用自動(dòng)查詢功能,去檢索作品中情節(jié)的前后矛盾、邏輯缺陷和時(shí)代錯(cuò)誤。
就連比上述功能簡(jiǎn)單得多的能力也能發(fā)揮巨大的幫助作用?,F(xiàn)在iPhone有個(gè)功能,當(dāng)你收到一封提到約見(jiàn)時(shí)間地點(diǎn)的電子郵件,你只要點(diǎn)擊一下,iPhone就能將此事加進(jìn)日程安排之中。如果能在整個(gè)過(guò)程中不出錯(cuò),那還真是非常方便。但很多時(shí)候,iPhone做不到不出錯(cuò),很可能加入日程的不是你所想的日子,而是郵件中提到的另外一個(gè)日子。如果你不能在iPhone犯錯(cuò)的時(shí)候及時(shí)發(fā)現(xiàn),就只能自認(rèn)倒霉。
等到機(jī)器真正可以閱讀的那一天,我們的后人一定會(huì)猜想,當(dāng)年的這幫人是如何在沒(méi)有合成閱讀器的情況下工作生活的,就像我們有時(shí)會(huì)猜想古人如何在沒(méi)有電力的情況下工作生活一樣。
Talk to Books無(wú)法回答一切問(wèn)題
2018年初的TED大會(huì)上,現(xiàn)就職于谷歌的著名未來(lái)學(xué)家兼發(fā)明家雷·庫(kù)茲韋爾將他新近推出的項(xiàng)目——谷歌“Talk to Books”公之于世,并承諾利用自然語(yǔ)言理解來(lái)“提供讀書的全新方式”。1Quartz網(wǎng)站照例將這個(gè)新產(chǎn)品捧上天,鼓吹“谷歌推出震驚世界的全新搜索工具,將能通過(guò)閱讀成千上萬(wàn)的書籍來(lái)回答一切問(wèn)題”。
我們頭腦中閃現(xiàn)的第一個(gè)問(wèn)題,就是:“這個(gè)項(xiàng)目實(shí)際上是做什么的?”答案是,谷歌對(duì)10萬(wàn)本圖書中的句子添加了索引,這些圖書包羅萬(wàn)象,從《大學(xué)成長(zhǎng)手冊(cè)》(Thriving at College)到《編程入門傻瓜書》(Beginning Programming for Dummies)再到《托爾金的福音》(The Gospel According To Tolkien),什么都有。在此基礎(chǔ)之上,谷歌還開(kāi)發(fā)了一種對(duì)句子意義進(jìn)行編碼的高效手段,可以將其轉(zhuǎn)化為被稱作“向量”的數(shù)字集合。當(dāng)你提問(wèn)時(shí),程序會(huì)利用這些向量,在數(shù)據(jù)庫(kù)中找到擁有最相近向量的20個(gè)句子。而系統(tǒng)本身并不知道你問(wèn)的問(wèn)題是什么意思。
只需對(duì)系統(tǒng)的輸入有所了解,我們就能立刻明白,Quartz網(wǎng)站文章中所稱的Talk to Books“將能回答一切問(wèn)題”的說(shuō)法,不能按字面意思去理解。10萬(wàn)本書聽(tīng)起來(lái)很多,但只不過(guò)是迄今為止出版過(guò)的1億本圖書中的一個(gè)零頭而已。在本書之前的內(nèi)容中我們?cè)v過(guò),深度學(xué)習(xí)是靠相關(guān)性而非真實(shí)的理解來(lái)工作的。所以當(dāng)我們看到Talk to Books給出的許多答案都不太靠譜時(shí),也一點(diǎn)兒不覺(jué)得奇怪。如果你的問(wèn)題是關(guān)于某部小說(shuō)中的具體細(xì)節(jié),那么你應(yīng)該能得到一個(gè)比較可靠的答案。但是,當(dāng)我們提問(wèn)“哈利·波特和赫敏·格蘭杰是在哪里相遇的”,系統(tǒng)給出的20個(gè)答案中,沒(méi)有一個(gè)是出自《哈利·波特與魔法石》,也沒(méi)有一個(gè)答案是針對(duì)問(wèn)題而給出的。當(dāng)我們問(wèn)到“第一次世界大戰(zhàn)后協(xié)約國(guó)繼續(xù)對(duì)德國(guó)進(jìn)行封鎖的行為是否合理”,系統(tǒng)給出的結(jié)果中,竟然沒(méi)有一條提到封鎖。Talk to Books能回答“一切問(wèn)題”的說(shuō)法,也真是夸張得有點(diǎn)太過(guò)了。
而當(dāng)答案不能從索引文本的句子中直接引用時(shí),許多內(nèi)容就會(huì)被忽略掉。當(dāng)我們問(wèn)到“《哈利·波特》中提到的七魂器是什么”,我們根本得不到一個(gè)七魂器的列表,可能是因?yàn)樵谒羞@些討論哈利·波特的著作中,沒(méi)有一本將七魂器同時(shí)列舉出來(lái)。當(dāng)我們提問(wèn)“1980年時(shí),美國(guó)最高法院最年長(zhǎng)的法官是誰(shuí)”,系統(tǒng)就徹底傻眼了。然而我們只需上網(wǎng)找到最高法院的法官列表,幾分鐘時(shí)間就能查詢到答案是威廉·布倫南(William Brennan)。Talk to Books在這里之所以遇到了挫折,就是因?yàn)樗袝卸颊也坏揭痪淠芙o出完整答案的話來(lái)。這10萬(wàn)本書中,沒(méi)有一本書寫過(guò)“1980年最高法院最年長(zhǎng)的法官是威廉·布倫南”這樣一句話。就算有10萬(wàn)本書在手,系統(tǒng)也無(wú)法從海量的書面文字中進(jìn)行提煉和推斷。
而最能說(shuō)明Talk to Books存在問(wèn)題的是,只要對(duì)提問(wèn)方式稍加改變,就會(huì)得到完全不同的答案。當(dāng)我們問(wèn)Talk to Books“誰(shuí)為了30塊銀錢背叛了自己的老師”,雖然這是一段非常著名的故事中的一個(gè)眾所周知的情節(jié),但在系統(tǒng)給出的20個(gè)答案中,只有6個(gè)答案正確地提到了猶大。而如果我們沒(méi)有用上“銀錢”這個(gè)特定的說(shuō)法,答案就會(huì)變得更加五花八門。
當(dāng)我們以不那么確切的方式向Talk to Books提問(wèn):“誰(shuí)為了30個(gè)硬幣背叛了自己的老師?”猶大只出現(xiàn)在10%的答案中。排名最靠前的答案,既與問(wèn)題毫不關(guān)聯(lián),也不能提供任何信息:“不清楚靜婉的老師是誰(shuí)。”當(dāng)我們?cè)俅螌?duì)問(wèn)題進(jìn)行調(diào)整,將“背叛”改成“出賣”,形成“誰(shuí)為了30個(gè)硬幣出賣了自己的老師”,猶大的答案便從前20個(gè)結(jié)果中徹底消失了。
這個(gè)系統(tǒng)比較適合處理文本序列精確匹配的問(wèn)題,一旦問(wèn)題脫離了這個(gè)范疇,系統(tǒng)就會(huì)一籌莫展。
人是怎樣閱讀的
有朝一日,當(dāng)夢(mèng)想中的機(jī)器閱讀系統(tǒng)成為現(xiàn)實(shí),就將能夠回答關(guān)于其讀到內(nèi)容的所有合理問(wèn)題。機(jī)器將能夠把多份文件的信息整合為一體,而且其答案不會(huì)僅僅是從原文中原封不動(dòng)摘取的一段話,而是通過(guò)信息的合成來(lái)呈現(xiàn)。從未同時(shí)出現(xiàn)在一個(gè)段落之中的七魂器列表也好,律師從多個(gè)案件中收集判例的精煉概括也好,科學(xué)家通過(guò)多篇論文心得而總結(jié)出的理論也好,都不在話下。就連一年級(jí)小學(xué)生都能將系列繪本中的好人和壞人逐一列出。為了寫學(xué)期論文,大學(xué)生能從多個(gè)出處搜集思想,并將這些思想整合為一體,進(jìn)行交叉驗(yàn)證,并得出全新的結(jié)論。同樣,擁有閱讀能力的機(jī)器也應(yīng)該能做到這一點(diǎn)。
機(jī)器需要具備信息合成能力,而非單純的鸚鵡學(xué)舌。但在此之前,我們還需要達(dá)到一個(gè)更簡(jiǎn)單的目標(biāo):讓機(jī)器能可靠地理解最基礎(chǔ)的文本。
時(shí)至今日,就算社會(huì)上對(duì)AI的呼聲再高,我們都還沒(méi)有達(dá)到這個(gè)簡(jiǎn)單目標(biāo)。若想弄明白為什么魯棒的機(jī)器閱讀能力目前依然遙不可及,我們首先要具體搞清楚理解相對(duì)簡(jiǎn)單的文本所需經(jīng)過(guò)的步驟。
舉例來(lái)說(shuō),假設(shè)你讀到了下面這段文字。這段文字引自勞拉·英格斯·懷德(Laura Ingalls Wilder)創(chuàng)作的兒童讀物《農(nóng)莊男孩》(Farmer Boy)。阿曼佐是個(gè)9歲男孩。他在街上撿了個(gè)塞滿了錢的錢包,當(dāng)時(shí)還叫“錢袋子”。阿曼佐的父親猜想,這個(gè)“錢袋子”可能是湯普森先生的。阿曼佐在城中的一個(gè)商店里找到了湯普森先生。
阿曼佐轉(zhuǎn)向湯普森先生,問(wèn)道:“你的錢袋子有沒(méi)有丟?”
湯普森先生跳了起來(lái)。他用手拍了拍自己的口袋,大聲喊著:
“是的,我的錢袋子丟了!里面還有1500美元!我的錢袋子呢?你都知道些什么?”
“是這個(gè)嗎?”阿曼佐問(wèn)道。
“是的,是的,就是這個(gè)!”湯普森先生說(shuō)道,一把奪走錢袋子。他將錢袋子打開(kāi),匆匆忙忙地?cái)?shù)錢。把所有的鈔票全部清點(diǎn)了兩遍。
之后他長(zhǎng)長(zhǎng)地舒了一口氣,放松了下來(lái),說(shuō)道:“嗯,看來(lái)這個(gè)傻孩子一分錢也沒(méi)偷?!?/p>
一個(gè)優(yōu)秀的閱讀系統(tǒng),應(yīng)該有能力回答下列問(wèn)題:
1. 湯普森先生為什么用手拍自己的口袋?
2. 在阿曼佐說(shuō)話之前,湯普森先生是否知道自己丟了錢包?
3. 阿曼佐問(wèn)“是這個(gè)嗎”時(shí),指的是何物?
4. 誰(shuí)差點(diǎn)丟了1500美元?
5. 所有的錢是否還都在錢包里?
對(duì)于人類來(lái)說(shuō),所有這些問(wèn)題都很簡(jiǎn)單。但迄今為止開(kāi)發(fā)出來(lái)的所有AI系統(tǒng)中,無(wú)一能可靠地處理此種類型的問(wèn)題。(想象一下Talk to Books會(huì)給出怎樣的答案)。
從本質(zhì)來(lái)看,上述每一個(gè)問(wèn)題都需要讀者(無(wú)論是人類還是機(jī)器)去跟隨一條推論鏈,而這些推論都隱藏在故事之中。以第1題為例。在阿曼佐說(shuō)話之前,湯普森先生并不知道自己丟了錢包,以為錢包還在口袋里。當(dāng)阿曼佐問(wèn)他是不是丟了錢包,湯普森才意識(shí)到他真的可能丟了錢包。就是為了驗(yàn)證錢包丟了的可能性,湯普森才去拍自己的口袋。因?yàn)闆](méi)有在平時(shí)放錢包的地方找到錢包,所以湯普森才意識(shí)到自己丟了錢包。
目前的AI完全沒(méi)有能力對(duì)復(fù)雜推理鏈條進(jìn)行處理。這類推理鏈條通常要求讀者將大量關(guān)于人和物的背景信息整合在一起,需要對(duì)這個(gè)世界的基本運(yùn)轉(zhuǎn)規(guī)律有所把握,而目前的系統(tǒng)并不具備足夠廣泛的通用知識(shí)去做到這一點(diǎn)。?在你閱讀這個(gè)阿曼佐與錢包的故事時(shí),你很可能會(huì)無(wú)意識(shí)地用到許多相關(guān)知識(shí),比如:
人們可能在不知情的情況下丟東西。這屬于人的心智狀態(tài)與事件之間關(guān)系的知識(shí)。
人們常常將錢包放在口袋里。這是有關(guān)于人們?cè)谕ǔG闆r下如何使用某物的例子。
人們經(jīng)常在錢包里裝錢。錢對(duì)人們來(lái)說(shuō)很重要,因?yàn)槿藗兛梢杂缅X來(lái)買東西。這是有關(guān)于人、習(xí)俗和經(jīng)濟(jì)學(xué)知識(shí)的例子。
如果人們假設(shè)某些對(duì)他們很重要的事是事實(shí),而他們又發(fā)現(xiàn)此事可能并非事實(shí),就會(huì)很著急地去加以證實(shí)。這是關(guān)于對(duì)人在心理上極其重要的事情的知識(shí)。
你能通過(guò)從外部觸摸一下口袋,來(lái)感覺(jué)到某物是不是在口袋里。這是有關(guān)于不同類型的知識(shí)如何結(jié)合為一體的例子,在這里,也是有關(guān)于不同的物體(手、口袋、錢包)彼此互動(dòng)的知識(shí)與感官如何發(fā)揮作用的知識(shí)相結(jié)合的例子。
其他問(wèn)題所需的推理和知識(shí)也同樣豐富多樣。若想回答第3題:“阿曼佐問(wèn)‘這個(gè)是它嗎’時(shí),指的是何物?”讀者必須要明白有關(guān)語(yǔ)言、人物和物體的相關(guān)知識(shí),并從中領(lǐng)會(huì)出,“這個(gè)”和“它”的合理先行詞可能是錢包,但更加微妙的是,“這個(gè)”指的是阿曼佐手里拿著的錢包,而“它”指的是湯普森先生丟的錢包。所幸,這兩個(gè)錢包原來(lái)是同一個(gè)錢包。
哪怕是應(yīng)對(duì)如此簡(jiǎn)單的段落,我們關(guān)于人物、物體和語(yǔ)言的知識(shí)都需要達(dá)到深刻、廣泛和靈活的水平;如果環(huán)境稍有變化,我們就要去適應(yīng)。我們不能指望湯普森先生在聽(tīng)到阿曼佐說(shuō)找到了自家外婆的錢包時(shí)還能表現(xiàn)出同樣的激動(dòng)狀態(tài)。從文中我們領(lǐng)會(huì)到,湯普森先生是在不知情的情況下丟了錢包,而如果他是在持刀歹徒實(shí)施搶劫的情況下,還不知道自己的錢包被拿走了,那我們就會(huì)覺(jué)得非常奇怪。至今尚無(wú)人能想出辦法,讓機(jī)器能以如此靈活的方式進(jìn)行推理。我們并不認(rèn)為這一目標(biāo)不可能達(dá)成,隨后我們會(huì)設(shè)計(jì)出向前發(fā)展所需邁出的幾個(gè)步驟,但當(dāng)下的現(xiàn)實(shí)問(wèn)題就是,達(dá)到目標(biāo)所需的能力遠(yuǎn)遠(yuǎn)超出了AI界的專業(yè)水平。Talk to Books還差得太遠(yuǎn),本書開(kāi)篇提及的微軟和阿里巴巴的閱讀器也同樣如此。
從根本上說(shuō),現(xiàn)在的機(jī)器所擅長(zhǎng)的工作(將事物按不同的類別進(jìn)行分類),與獲取上述平凡但不可或缺的能力以及理解真實(shí)世界的能力之間,還對(duì)不上號(hào)。
懷德的這段文字并沒(méi)有什么特別之處。我們平日閱讀到的每一個(gè)段落,都存在類似的挑戰(zhàn)。以下是引自2017年4月25日《紐約時(shí)報(bào)》的簡(jiǎn)短例子。
今天本應(yīng)是埃拉·菲茨杰拉德(Ella Fitzgerald)的百歲壽辰。
洛倫·舍恩伯格(Loren Schoenberg)這位紐約客,在1990年時(shí)為“爵士樂(lè)第一夫人”做薩克斯伴奏。此時(shí)已接近她職業(yè)生涯的終點(diǎn)。他將她比喻成“一瓶陳年紅酒”……
無(wú)論是人還是機(jī)器,都可以回答從文字中能直接找到答案的問(wèn)題,比如:“洛倫·舍恩伯格演奏的是什么樂(lè)器?”但許多問(wèn)題都需要在文字的基礎(chǔ)上做一點(diǎn)點(diǎn)引申,而這點(diǎn)引申,就會(huì)讓目前的AI系統(tǒng)望而卻步。
1. 埃拉·菲茨杰拉德1990年時(shí)是否健在?
2. 1960年時(shí)她是否健在?
3. 1860年時(shí)她是否健在?
4. 洛倫·舍恩伯格和埃拉·菲茨杰拉德是否見(jiàn)過(guò)面?
5. 舍恩伯格是否認(rèn)為菲茨杰拉德是一瓶酒精飲料?
若想回答第1題、第2題、第3題,就需要推理出埃拉·菲茨杰拉德生于1917年4月25日這個(gè)事實(shí),因?yàn)?017年4月25日應(yīng)該是她的百歲壽辰。在此基礎(chǔ)之上,還要具備一些關(guān)于如下事實(shí)的知識(shí):
人在職業(yè)生涯過(guò)程中是活著的,因此她在1990年時(shí)還健在。
人在出生之后、死亡之前,是一直活著的,而在出生之前、死亡之后,并不活在這個(gè)世界上。因此菲茨杰拉德在1960年肯定活著,而在1860年時(shí)還沒(méi)出生。
回答第4題,需要能通過(guò)推理得知為某人的歌唱進(jìn)行伴奏需要與其見(jiàn)面,并需要在文中沒(méi)有直接表明的情況下,引申出埃拉·菲茨杰拉德是“爵士樂(lè)第一夫人”。
回答第5題,需要能通過(guò)推理得知人們?cè)谶M(jìn)行類比時(shí)頭腦中有著怎樣一幅畫面,并知道埃拉·菲茨杰拉德是一個(gè)人,人不能變成飲料。
隨手拿來(lái)一份報(bào)紙、一則故事、一篇小說(shuō),無(wú)論長(zhǎng)短,你都能從里面找到類似的內(nèi)容。技巧嫻熟的作家并不會(huì)將每一件事都清楚無(wú)疑地向讀者闡明,而是只將你需要知道的事情講給你聽(tīng),并依賴于人與人之間所共有的知識(shí)來(lái)填補(bǔ)其余的空缺。想象一下,如果懷德在故事中事無(wú)巨細(xì)地寫下來(lái)人們將錢包放在口袋里,人們有時(shí)會(huì)通過(guò)用手摸口袋的方式來(lái)察覺(jué)小物件的存在與否,這個(gè)故事將會(huì)變得多么枯燥。
想當(dāng)年,有一群AI研究人員曾嘗試解決這些問(wèn)題?,F(xiàn)任谷歌研究總監(jiān)的彼得·諾維格(Peter Norvig),當(dāng)時(shí)曾寫過(guò)一篇頗具爭(zhēng)議的博士論文,主題就是如何應(yīng)對(duì)讓機(jī)器理解故事的挑戰(zhàn)。更為知名的是羅杰·尚克(Roger Schank),當(dāng)時(shí)還在耶魯大學(xué)工作的他,提出了一系列頗具深度的案例,指出在客人走進(jìn)餐廳時(shí),機(jī)器可以利用“腳本”來(lái)理解當(dāng)時(shí)發(fā)生的事情。但是,對(duì)故事的理解需要更加復(fù)雜的知識(shí)結(jié)構(gòu),以及比腳本要多得多的知識(shí)形式,而形成并收集所有這些知識(shí)所需的工程量巨大到令人無(wú)法下手。隨著時(shí)間的推移,這條思路逐漸被擱置了下來(lái),研究人員也開(kāi)始轉(zhuǎn)向更容易上手的領(lǐng)域,比如網(wǎng)絡(luò)搜索和推薦引擎。誰(shuí)也沒(méi)能讓我們距離通用人工智能更近一步。
搜索引擎和語(yǔ)音虛擬助手的困惑
盡管如此,網(wǎng)絡(luò)搜索還是掀起了翻天覆地的變革。這是AI最為顯赫的成功案例之一。谷歌、必應(yīng)等,都是基于極為強(qiáng)大而且極富實(shí)效的工程力量,以AI為動(dòng)力,在數(shù)十億網(wǎng)絡(luò)文件中以接近實(shí)時(shí)的速度找到匹配的結(jié)果。
令人驚訝的是,雖然這些工具都以AI為動(dòng)力,但卻幾乎不涉及我們盼望的那種自動(dòng)化合成機(jī)器閱讀的能力。我們希望機(jī)器能理解它們讀到的內(nèi)容。而搜索引擎卻做不到理解。
以谷歌搜索為例。谷歌算法中有兩個(gè)基本思想,一個(gè)思想是自古有之,另一個(gè)思想是谷歌首先提出來(lái)的,但無(wú)論哪個(gè)思想都不需要系統(tǒng)擁有理解文件的能力。第一個(gè)古老思想,遠(yuǎn)在谷歌和互聯(lián)網(wǎng)誕生之前,自從20世紀(jì)60年代早期就被用在文件檢索程序之中。這一思想是將問(wèn)題中的詞與文件中的詞進(jìn)行匹配。
想要搜索包括小豆蔻的菜譜嗎?沒(méi)問(wèn)題,只要找到所有包含“菜譜”和“小豆蔻”這兩個(gè)詞的網(wǎng)站就可以了。根本無(wú)須理解小豆蔻是一種香料,無(wú)須搞明白這種香料聞起來(lái)是什么香味,吃起來(lái)是什么味道,也無(wú)須知道此種香料是如何從豆莢中提取而成,哪種風(fēng)味的菜肴更傾向于使用這種香料。想要找到飛機(jī)模型指南嗎?只要匹配上諸如“模型”“飛機(jī)”和“如何”幾個(gè)詞,就能找到許多有用的鏈接,就算機(jī)器根本不知道飛機(jī)為何物也無(wú)所謂,更無(wú)須搞明白什么是升力,什么是阻力,無(wú)須理解你為什么一定要乘坐商業(yè)航空公司的航班,而不愿駕著一比一的飛機(jī)模型遨游天空。
第二個(gè)更富創(chuàng)新意識(shí)的思想就是著名的“網(wǎng)頁(yè)排名”(PageRank)算法。該思想認(rèn)為,程序可以利用網(wǎng)絡(luò)的集體智慧,通過(guò)查看哪些網(wǎng)頁(yè)擁有更多外鏈(特別是來(lái)自其他高質(zhì)量網(wǎng)頁(yè)的鏈接)來(lái)判斷網(wǎng)頁(yè)質(zhì)量的高下。這一思想令谷歌迅速崛起,將其他搜索引擎遠(yuǎn)遠(yuǎn)拋在了后面。但是,詞匯匹配與文本理解之間并沒(méi)有太大關(guān)系,計(jì)算源于其他網(wǎng)頁(yè)的鏈接也與真正的理解有著天壤之別。
谷歌搜索之所以在沒(méi)有任何復(fù)雜閱讀能力的情況下也能取得非常好的效果,是因?yàn)樗阉鬟^(guò)程對(duì)精度的要求很低。搜索引擎無(wú)須進(jìn)行深度閱讀去分辨網(wǎng)絡(luò)上關(guān)于總統(tǒng)權(quán)力的論述是偏左派還是右派,這是用戶要去做的事情。谷歌搜索需要搞定的,就是判斷給定文檔是否與正確的通用主題有關(guān)。人們從文檔中的只言片語(yǔ)就能大概搞清楚此文的主題。如果有“總統(tǒng)”和“行政特權(quán)”等詞,用戶很可能會(huì)因?yàn)檎业搅诉@個(gè)鏈接而歡欣雀躍;而如果是關(guān)于卡戴珊家族的,那么很可能不在用戶的興趣范圍之內(nèi)。如果文檔中提到了“喬治” “瑪莎” “約克鎮(zhèn)戰(zhàn)役”,谷歌搜索就能猜出來(lái)此文與喬治·華盛頓有關(guān),雖然它對(duì)婚姻和革命戰(zhàn)爭(zhēng)一無(wú)所知。
其實(shí),谷歌并不膚淺。有時(shí),谷歌有能力對(duì)用戶查詢的問(wèn)題進(jìn)行理解,并給出整理好的答案,而不僅僅是一長(zhǎng)串鏈接。這就與閱讀能力更為接近,但只是接近了一點(diǎn)點(diǎn),因?yàn)楣雀柰ǔG闆r下只會(huì)閱讀用戶查詢的問(wèn)題,而不會(huì)閱讀文件本身。如果你問(wèn):“密西西比州的首府是哪里?”谷歌就會(huì)正確地對(duì)問(wèn)題進(jìn)行解析,并在預(yù)先設(shè)定的表格中找到答案:杰克遜城。如果你問(wèn):“1.36歐元等于多少盧比?”谷歌同樣會(huì)給出正確的解析,在參考另一份匯率表格后,正確地計(jì)算出“1.36歐元=110.14印度盧比”。
絕大多數(shù)情況下,當(dāng)谷歌反饋出這類答案時(shí),基本都是可靠的(估計(jì)谷歌的系統(tǒng)只在其指標(biāo)表明答案正確率很高時(shí)才會(huì)給出此類反饋),但距離完美還有很長(zhǎng)一段路要走,而我們也能從它犯下的錯(cuò)誤中,猜出它背后的工作原理。舉例來(lái)說(shuō),2018年4月,我們?cè)诠雀杷阉髦刑釂?wèn):“目前誰(shuí)是最高法院的法官?”得到了一個(gè)并不完整的答案:“約翰·羅伯茨(John Roberts)?!倍_伯茨只是九位法官中的一位。在答案后面,谷歌還在“人們也在搜索”部分給出了其他七位法官的名字:安東尼·肯尼迪(Anthony Kennedy)、塞繆爾·阿利托(Samuel Alito)、克拉倫斯·托馬斯(Clarence Thomas)、斯蒂芬·布雷耶(Stephen Breyer)、魯思·巴德·金斯伯格(Ruth Bader Ginsburg)和安東寧·斯卡利亞(Antonin Scalia)。上述所有人的確都曾就任于最高法院,但斯卡利亞已經(jīng)故去,而斯卡利亞的繼任者尼爾·戈薩奇(Neil Gorsuch)以及新近任命的埃琳娜·卡根(Elena Kagan)和索尼婭·索托馬約爾(Sonia Sotomayor)都沒(méi)有在這份名單中出現(xiàn)。看得出來(lái),似乎谷歌完全忽略掉了“目前”這個(gè)詞。
回到我們之前講到的“合成”這個(gè)話題上,終極機(jī)器閱讀系統(tǒng)將能夠通過(guò)閱讀谷歌新聞來(lái)編寫問(wèn)題的答案,并在發(fā)生變化時(shí)對(duì)清單進(jìn)行調(diào)整,或者至少應(yīng)該能通過(guò)參考用戶會(huì)頻繁更新的維基百科來(lái)提取出目前法官的名字。谷歌似乎不會(huì)這樣做。根據(jù)我們的推測(cè),谷歌只不過(guò)是查詢了統(tǒng)計(jì)規(guī)律——阿利托和斯卡利亞在許多關(guān)于司法制度的搜索中都有出現(xiàn),而沒(méi)有對(duì)其來(lái)源進(jìn)行真正的閱讀理解。
舉另外一個(gè)例子,我們問(wèn)谷歌:“第一座橋梁是何時(shí)建成的?”得到了如下置頂答案:
如今世界上絕大多數(shù)地方都利用鋼鐵建筑橋梁,主要河流上橫跨的橋梁都屬于此種類型。圖中所示是世界上第一座鐵橋。此橋由亞伯拉罕·達(dá)比三世(Abraham Darby III)于1779年建成,是歷史上第一座用鐵建成的大型建筑。
“第一座”和“橋梁”這兩個(gè)詞與我們的查詢相匹配,但有史以來(lái)建成的第一座橋并非鐵橋,因此“第一座鐵橋”并不等同于“第一座橋梁”。谷歌給出的答案與正確答案相差了數(shù)千年。在谷歌開(kāi)發(fā)出此功能十幾年之后的今天,能通過(guò)閱讀問(wèn)題并給出直接答案的搜索依然只占極少數(shù)。當(dāng)你用谷歌搜索得出的是鏈接而非答案時(shí),就說(shuō)明谷歌只是依賴于關(guān)鍵詞和鏈接計(jì)數(shù)之類的能力,而非真正的理解。
當(dāng)然,像谷歌和亞馬遜這樣的公司一定會(huì)不斷對(duì)產(chǎn)品進(jìn)行改進(jìn)。對(duì)于像最高法院法官這樣的問(wèn)題,也很容易通過(guò)人工編程的方式給出正確的名單。小規(guī)模的循序漸進(jìn)肯定會(huì)繼續(xù)下去,但當(dāng)我們展望未來(lái)時(shí),并沒(méi)有看到針對(duì)我們提出的許多類型挑戰(zhàn)的通用解決辦法。
幾年前,我們?cè)贔acebook上看到了一個(gè)特別搞笑的表情包。這是一張奧巴馬的照片,上面寫著:“去年你告訴我們你50歲了;現(xiàn)在你說(shuō)你51歲了。奧巴馬你到底幾歲了?”兩種不同的說(shuō)法,放在不同的時(shí)間,可能都是正確的。如果你是人類,就能理解這個(gè)笑話。但如果你是只會(huì)做關(guān)鍵字匹配的機(jī)器,到這里就徹底抓不住笑點(diǎn)了。
Siri、Cortana、谷歌助手和Alexa這類靠語(yǔ)音驅(qū)動(dòng)的“虛擬助手”,又有著怎樣的情況呢?先看優(yōu)點(diǎn)。這些虛擬助手會(huì)采取實(shí)際行動(dòng),而不是拋給你一個(gè)鏈接列表。與谷歌搜索不同,虛擬助手一開(kāi)始的設(shè)計(jì)方案就是將用戶的查詢從實(shí)際問(wèn)題的角度加以理解,而不是將其視為隨機(jī)的關(guān)鍵詞集合。但幾年之后,這些虛擬助手都成了“偏科生”,在某些方面很好用,而在其他方面則很薄弱。舉例來(lái)說(shuō),幾個(gè)虛擬助手都很擅長(zhǎng)“事實(shí)陳述”的問(wèn)題,比如“誰(shuí)贏得了1957年的世界大賽”,但它們每一個(gè)又有各自的獨(dú)門絕技。谷歌助手擅長(zhǎng)指路和買電影票。Siri擅長(zhǎng)指路和預(yù)訂餐廳座位。Alexa擅長(zhǎng)數(shù)學(xué),講事先寫好的笑話,而且尤其擅長(zhǎng)從亞馬遜網(wǎng)站上買東西——這一點(diǎn)兒也不稀奇。
但在它們擅長(zhǎng)的領(lǐng)域之外,你永遠(yuǎn)也不知道這些助手會(huì)在什么時(shí)候突然語(yǔ)出驚人。不久前,作家莫娜·布什內(nèi)爾(Mona Bushnell)做了個(gè)小實(shí)驗(yàn),向所有4個(gè)程序詢問(wèn)通往最近機(jī)場(chǎng)的路線。谷歌助手給了她一份旅行社的名單。Siri給她指了一條去往水上飛機(jī)基地的路。Cortana給了她一個(gè)Expedia等機(jī)票網(wǎng)站的列表。我們其中一人在最近一次駕車出行的途中和Alexa聊天,在某些問(wèn)題得到了完全正確的答案,比如:特朗普是人嗎?奧迪是車嗎?Edsel是車嗎?但在另一些問(wèn)題上則徹底迷失了,比如:奧迪能用汽油嗎?奧迪能從紐約開(kāi)到加州嗎?鯊魚(yú)是一種交通工具嗎?
再舉個(gè)例子,最近有人在Twitter上發(fā)給馬庫(kù)斯這么個(gè)段子:這是一個(gè)手機(jī)截屏,向Siri詢問(wèn)“最近一家不是麥當(dāng)勞的快餐店”,Siri老老實(shí)實(shí)地列出了附近三家餐廳的名單,而且還都是提供快餐的餐廳,但每一家都是雷·克羅克(Ray Kroc)蓋的房子。“不是”這個(gè)詞被Siri完全忽視掉了。
2009年問(wèn)世的Wolfram Alpha被大宣傳為“世界上第一個(gè)計(jì)算知識(shí)引擎”,實(shí)際上也好不到哪里去。WolframAlpha擁有囊括各類科學(xué)、技術(shù)、數(shù)學(xué)、人口普查和社會(huì)學(xué)信息的巨大的內(nèi)置數(shù)據(jù)庫(kù),還擁有利用這些信息回答問(wèn)題的一系列技術(shù),但依然不具備將所有這些信息整合為一體的能力。
WolframAlpha的強(qiáng)項(xiàng)是數(shù)學(xué)問(wèn)題,比如:“1立方英尺(30)黃金的重量是多少?” “密西西比州的比洛克西距離加爾各答有多遠(yuǎn)?” “一個(gè)邊長(zhǎng)為2.3米的二十面體的體積是多少?”(答案分別為“547千克” “14132千米” “26.5立方米”)
但它的理解能力的局限性很強(qiáng)。如果你問(wèn)“墨西哥邊境離圣地亞哥有多遠(yuǎn)”,你會(huì)得到“1841千米”的答案,而這個(gè)答案是完全錯(cuò)誤的。WolframAlpha忽略了“邊境”這個(gè)詞,而是計(jì)算從圣地亞哥到墨西哥地理中心點(diǎn)的距離。如果你對(duì)二十面體的問(wèn)題稍加調(diào)整,用“邊的長(zhǎng)度為2.3米”替換“邊長(zhǎng)2.3米”,它就不再認(rèn)為這是關(guān)于體積的問(wèn)題,而是告訴你二十面體有30條邊、20個(gè)頂點(diǎn)、12個(gè)面,根本不提體積的事。WolframAlpha能告訴你埃拉·菲茨杰拉德什么時(shí)候出生,什么時(shí)候去世;但如果你問(wèn)“埃拉·菲茨杰拉德1960年時(shí)是否健在”,系統(tǒng)就會(huì)錯(cuò)誤地理解為“埃拉·菲茨杰拉德是否健在”并給出“不”的答案。
可能讀者會(huì)說(shuō):但是,請(qǐng)稍等,沃森呢?就是那個(gè)打敗了Jeopardy!節(jié)目中兩位人類冠軍的沃森,它不是特別會(huì)回答問(wèn)題嗎?沒(méi)錯(cuò),但可惜的是,沃森并不像表面看上去那么無(wú)所不能。原來(lái),Jeopardy!節(jié)目中95%的問(wèn)題答案都是維基百科頁(yè)面的標(biāo)題。在Jeopardy!中獲勝,只要能找到合適的文章標(biāo)題即可。從這種水平的信息檢索要發(fā)展到能夠真正思考和推理的系統(tǒng),還有著十分漫長(zhǎng)的道路。到目前為止,IBM甚至還未能將沃森打造成為魯棒的虛擬助手。我們最近在IBM的網(wǎng)頁(yè)上試圖尋找這樣一款產(chǎn)品,但能找到的只是一個(gè)過(guò)時(shí)的沃森助手演示版,只會(huì)處理模擬汽車(simulated cars)相關(guān)的事情,根本無(wú)法與蘋果、谷歌、微軟或亞馬遜的那些多功能產(chǎn)品相提并論。
我們相信,Siri和Alexa等虛擬助手一定會(huì)變得越來(lái)越好用,但它們還有很長(zhǎng)的路要走。而且,關(guān)鍵問(wèn)題在于,就像谷歌搜索一樣,真正的合成是十分稀罕的。據(jù)我們所知,目前很少有公司嘗試以靈活的方式將多個(gè)來(lái)源的信息組合為一體。甚至源自包含多個(gè)句子的同一個(gè)來(lái)源時(shí),其內(nèi)容也被拆散得七零八落,就像我們之前讀到的關(guān)于阿曼佐和埃拉·菲茨杰拉德的段落一樣。
現(xiàn)實(shí)情況是,目前的AI系統(tǒng)無(wú)法對(duì)你在這些情況下所做的事情進(jìn)行復(fù)制,無(wú)法對(duì)一系列句子進(jìn)行整合,無(wú)法對(duì)段落中說(shuō)了什么和沒(méi)說(shuō)什么進(jìn)行事實(shí)重建。如果你能看懂我們的話,那你就是人,而不是機(jī)器。或許有一天,你可以讓Alexa將《華爾街日?qǐng)?bào)》與《華盛頓郵報(bào)》對(duì)總統(tǒng)的報(bào)道進(jìn)行比較,或者讓Alexa問(wèn)問(wèn)你的家庭醫(yī)生,最近的體檢報(bào)告中是否漏掉了什么信息。但就目前而言,這還只是幻想。還是繼續(xù)跟Alexa聊聊天氣吧。
我們所擁有的就是一個(gè)虛擬助手的大雜燴,通常很有用,但永遠(yuǎn)都做不到完全可靠——沒(méi)有一個(gè)能做我們?nèi)祟愖x書時(shí)所做的事情。無(wú)論我們?cè)?jīng)懷著多么遠(yuǎn)大的理想和目標(biāo),現(xiàn)實(shí)情況就是,AI出現(xiàn)已經(jīng)60多年了,從功能上講計(jì)算機(jī)依然與文盲無(wú)異。
計(jì)算機(jī)不會(huì)閱讀的三大原因
深度學(xué)習(xí)解決不了這個(gè)問(wèn)題,與其緊密相關(guān)的“端到端”學(xué)習(xí)也解決不了這個(gè)問(wèn)題。在“端到端”學(xué)習(xí)中,研究者訓(xùn)練AI將輸入直接轉(zhuǎn)換為輸出,無(wú)須通過(guò)任何中間子系統(tǒng)。舉例來(lái)說(shuō),傳統(tǒng)的駕駛方法將整體分解成感知、預(yù)測(cè)和決策等子系統(tǒng)(也許在某些子系統(tǒng)中利用深度學(xué)習(xí)作為其中的一個(gè)手段),而端到端的汽車駕駛系統(tǒng)則不經(jīng)過(guò)子系統(tǒng),是將攝像頭圖像作為輸入,并將加速或轉(zhuǎn)向等調(diào)整動(dòng)作返回作為輸出,沒(méi)有中間子系統(tǒng)來(lái)確定視野中有哪些物體位于什么地方,如何移動(dòng),其他司機(jī)可能會(huì)做什么、不可能做什么,等等。
端到端系統(tǒng)發(fā)揮的作用有可能極為有效,而且比更加結(jié)構(gòu)化的替代方案更容易實(shí)現(xiàn)。端到端系統(tǒng)需要的人力投入也相對(duì)較少。有時(shí),這就是最好的解決方案。正如《紐約時(shí)報(bào)》關(guān)于谷歌翻譯的文章所說(shuō),端到端深度學(xué)習(xí)系統(tǒng)已經(jīng)極大提高了機(jī)器翻譯的技術(shù)水平,取代了以前的方法?,F(xiàn)在,如果你想做一個(gè)英法互譯的程序,那么首先就要收集一個(gè)規(guī)模巨大的英法雙語(yǔ)對(duì)照的語(yǔ)料庫(kù),比如法律規(guī)定加拿大議會(huì)的議事錄必須同時(shí)以英法雙語(yǔ)出版,這就是很好的語(yǔ)料。從此類數(shù)據(jù)中,谷歌翻譯可以自動(dòng)學(xué)習(xí)英語(yǔ)單詞短語(yǔ)與法語(yǔ)對(duì)應(yīng)詞之間的相互關(guān)系,而無(wú)須事先掌握關(guān)于法語(yǔ)或英語(yǔ)的知識(shí),也不需要事先了解法語(yǔ)語(yǔ)法的復(fù)雜性。即便是我們這樣的懷疑論者也為此而贊嘆不已。
問(wèn)題是,一個(gè)藥方治不了所有的病。事實(shí)證明,端到端的方法非常適合機(jī)器翻譯,一部分原因在于可以隨時(shí)獲得大量相關(guān)數(shù)據(jù),還有一部分原因在于,幾乎所有英語(yǔ)單詞和法語(yǔ)單詞之間都存在或多或少的清晰對(duì)應(yīng)關(guān)系。絕大多數(shù)情況下,你可以在英法詞典中找到精確對(duì)應(yīng)的法語(yǔ)單詞,而且兩種語(yǔ)言中單詞順序之間的關(guān)系遵循相當(dāng)標(biāo)準(zhǔn)的模式。但關(guān)于語(yǔ)言理解的許多其他方面都不太適用端到端方法。
比如屬于開(kāi)放式場(chǎng)景的回答問(wèn)題就不太適用,一部分原因在于正確答案中所使用的單詞可能與文本中的單詞并沒(méi)有明顯的關(guān)系,而且,我們也找不到規(guī)??氨扔⒎p語(yǔ)議事錄文件的問(wèn)答數(shù)據(jù)庫(kù)。即使有這樣一個(gè)數(shù)據(jù)庫(kù),由于各種問(wèn)題和答案的潛在變化空間極為龐大,無(wú)論怎樣的數(shù)據(jù)庫(kù)都只能覆蓋全部可能性之中的一小部分。如前所述,這就給深度學(xué)習(xí)帶來(lái)了嚴(yán)重的問(wèn)題:深度學(xué)習(xí)在應(yīng)用場(chǎng)景中偏離其訓(xùn)練集越遠(yuǎn),遇到的麻煩就會(huì)越多。
而且說(shuō)實(shí)話,即使在機(jī)器翻譯中,端到端方法也有局限性。它們通常(雖然并不總是)能夠很好地傳達(dá)要點(diǎn),但單詞和短語(yǔ)的匹配有時(shí)還不夠。當(dāng)正確的翻譯取決于更深層次的理解時(shí),系統(tǒng)便無(wú)法招架。如果你讓谷歌翻譯一個(gè)法語(yǔ)句子“Je mange un avocat pour le dejeuner”,正確的意思是“我午餐吃了一個(gè)鱷梨”,但你得到的翻譯是“我午餐吃了一個(gè)律師”,法語(yǔ)單詞avocat有“鱷梨”和“律師”兩個(gè)意思。而且因?yàn)閷懧蓭煹奈恼卤葘戺{梨的文章要多(尤其是在加拿大議會(huì)的議事錄上),所以谷歌翻譯從統(tǒng)計(jì)角度出發(fā)自動(dòng)選擇了那個(gè)更為常見(jiàn)的意思,而付出了違背常識(shí)的代價(jià)。
侯世達(dá)(Douglas Hofstadter)在《大西洋月刊》上發(fā)表的一篇精彩文章中,生動(dòng)地描述了谷歌翻譯的局限性:
我們?nèi)祟悓?duì)夫妻、房子、個(gè)人財(cái)產(chǎn)、驕傲、競(jìng)爭(zhēng)、嫉妒、隱私等許多無(wú)形之物了如指掌,并由此產(chǎn)生一些看似古怪的行為,比如一對(duì)已婚夫婦在毛巾上繡著“他”和“她”。谷歌翻譯并不了解這種情形。谷歌翻譯對(duì)所有的情形都一無(wú)所知。它唯一熟悉的就是由字母組成的單詞以及由單詞串起來(lái)的句子。它唯一擅長(zhǎng)的就是關(guān)于文本片段的超高速處理,而不是思考、想象、記憶或理解。它甚至不知道單詞代表的是什么東西。
雖然科技的進(jìn)步有目共睹,但對(duì)于我們來(lái)說(shuō),世界上絕大部分文字知識(shí)依然無(wú)法獲取,就算是以數(shù)字化的在線形式存在也改變不了這樣的現(xiàn)實(shí),因?yàn)檫@些知識(shí)是以機(jī)器無(wú)法理解的形式存在的。電子醫(yī)療記錄中充滿了所謂的“非結(jié)構(gòu)化文本”,比如病歷、電子郵件、新聞文章和word文檔等,無(wú)法整齊排列在表格之中。而真正的機(jī)器閱讀系統(tǒng)將能夠深入到所有這些內(nèi)容之內(nèi),從病歷中搜尋線索,再?gòu)难簷z測(cè)和入院記錄中捕捉到重要信息。但這一問(wèn)題遠(yuǎn)遠(yuǎn)超出了目前AI的能力所及,很多病歷從未得到過(guò)細(xì)致閱讀。舉例來(lái)說(shuō),人們正在開(kāi)發(fā)用于放射醫(yī)療的AI工具。這些工具能夠讀取圖像,對(duì)腫瘤與健康組織進(jìn)行區(qū)分。但是,目前還沒(méi)有辦法對(duì)真正的放射科醫(yī)生所做的另一部分工作進(jìn)行自動(dòng)化,這部分工作,就是將圖像與病人的病史相聯(lián)系。
在大量擁有潛在商業(yè)價(jià)值的AI應(yīng)用中,理解非結(jié)構(gòu)化文本的能力是一個(gè)重要的瓶頸。我們現(xiàn)在還不具備自動(dòng)化閱讀法律合同、科學(xué)文章或財(cái)務(wù)報(bào)告的能力,因?yàn)樯鲜雒恳活愇募卸及薃I無(wú)法理解的文本。雖然目前的工具有能力從最晦澀的文本中提取基本信息,但通常也會(huì)遺漏掉許多內(nèi)容。市面上花樣迭出的文本匹配和鏈接計(jì)數(shù)工具的確提供了一點(diǎn)幫助,但這些工具根本無(wú)法讓我們距離擁有真正閱讀和理解能力的程序更近一步。
口語(yǔ)理解(也稱為對(duì)話理解)的情況也沒(méi)好到哪去。對(duì)于將口語(yǔ)轉(zhuǎn)換成醫(yī)學(xué)病歷的計(jì)算機(jī)醫(yī)生助手來(lái)說(shuō),面臨的挑戰(zhàn)更加艱巨―—有了這樣一個(gè)工具,醫(yī)生就可以將坐在電腦前的時(shí)間節(jié)約下來(lái),把更多的時(shí)間用來(lái)和病人相處。來(lái)看看維克·莫哈爾醫(yī)生(Dr. Vik Moharir)發(fā)給我們的這段簡(jiǎn)單對(duì)話:
醫(yī)生:你在體力勞動(dòng)時(shí)會(huì)感到胸痛嗎?
病人:上周我在修剪院子里的草坪時(shí),感覺(jué)就像一頭大象坐在了我身上。(指著胸口)
從“人”的角度來(lái)看,醫(yī)生問(wèn)題的答案顯然是“是”。修剪草坪屬于體力勞動(dòng)的范疇,而且我們能推斷出病人感覺(jué)到了痛苦,因?yàn)槲覀冎来笙蠛苤?,而被重物壓到是很痛苦的。我們還能自動(dòng)推斷出,鑒于一頭真正的大象可能造成的巨大傷害,“感覺(jué)”這個(gè)詞在這里是個(gè)比喻,不能從字面意義去理解。而從“機(jī)器”的角度來(lái)看,除非之前有過(guò)很多關(guān)于大象的具體討論,否則機(jī)器很可能認(rèn)為這只是關(guān)于大型哺乳動(dòng)物和庭院雜務(wù)的無(wú)意義閑扯。
我們是怎么陷入這一灘渾水之中的呢?
計(jì)算機(jī)不會(huì)閱讀的第一個(gè)原因是不會(huì)建立認(rèn)知模型。
深度學(xué)習(xí)在學(xué)習(xí)相關(guān)性時(shí)非常有效,比如圖像、聲音和標(biāo)簽之間的相關(guān)性。但是,當(dāng)涉及理解客體與其組成部分之間的關(guān)系時(shí),比如句子與單詞和短語(yǔ)的關(guān)系,深度學(xué)習(xí)就犯了難。為什么?因?yàn)樯疃葘W(xué)習(xí)缺少語(yǔ)言學(xué)家所說(shuō)的“組合性”,也就是從復(fù)雜句子各個(gè)成分的意義來(lái)構(gòu)建其整體意義的途徑。舉例來(lái)說(shuō),在這句“月亮離地球380000千米”中,“月亮”這個(gè)詞意味著一個(gè)特定的天體,而“地球”則意味著另一個(gè)天體,千米意味著距離的單位,“380000”表示一個(gè)數(shù)字,鑒于漢語(yǔ)中短語(yǔ)和句子的特定組合結(jié)構(gòu),“380000千米”意味著一個(gè)特定的長(zhǎng)度,而“月亮離地球380000千米”這句話,就是為了說(shuō)明兩個(gè)天體之間的距離是這個(gè)特定的長(zhǎng)度。
令人驚訝的是,深度學(xué)習(xí)并沒(méi)有處理組合性的直接方法,有的只是浩如煙海的孤立特征,而其間并不存在任何結(jié)構(gòu)。深度學(xué)習(xí)可以知道狗有尾巴和腿,但并不知道尾巴和腿與狗的生命周期有什么關(guān)系。深度學(xué)習(xí)并不知道狗是由一個(gè)頭、一條尾巴、四條腿組成的動(dòng)物,甚至不知道動(dòng)物是什么,不知道頭是什么,更不知道青蛙、狗和人的頭在概念上有所不同,不知道這些頭在細(xì)節(jié)上存在差異,但與其所在的軀體都保持著同樣的關(guān)系。深度學(xué)習(xí)也不能認(rèn)識(shí)到,像“月亮離地球380000千米”這樣的句子,其中包含了關(guān)于兩個(gè)天體和一個(gè)距離長(zhǎng)度的短語(yǔ)。
再舉個(gè)例子,我們讓谷歌翻譯將“The electrician whom we called to fix the telephone works on Sundays”(我們叫來(lái)修理電話的那個(gè)電工在星期天上班)這句話翻譯成法語(yǔ),得到的答案是“L’électricien que nous avondes appelé pour réparer le téléphone fonctionne le dimanche”。如果你懂法語(yǔ),就能看出來(lái)這個(gè)翻譯不太對(duì)。特別需要指出的是,work(上班)這個(gè)詞在法語(yǔ)中有兩種翻譯:travaille意為“工作”,fonctionne意為“正常運(yùn)轉(zhuǎn)”。谷歌使用了fonctionne這個(gè)詞,而不是travaille,和我們的理解有所不同?!靶瞧谔焐习唷痹谡Z(yǔ)境中指的是電工,如果你說(shuō)到一個(gè)正在工作的人,你應(yīng)該使用動(dòng)詞travaille(不定式:travailler)。從語(yǔ)法上講,此處動(dòng)詞“work”(上班)的主語(yǔ)是電工,而不是電話。句子的整體意義是各個(gè)成分組合在一起所表達(dá)出來(lái)的,而谷歌并沒(méi)有真正理解這一點(diǎn)。谷歌翻譯在許多情況下取得了成功,而這些成功讓我們高估了系統(tǒng)所知的范圍,但事實(shí)證明,谷歌翻譯的確缺乏深度。由此我們也能看出關(guān)于AI的錯(cuò)覺(jué)與現(xiàn)實(shí)之間的距離。
還有一個(gè)與此相關(guān)的重要問(wèn)題是,深度學(xué)習(xí)并不具備整合背景知識(shí)的好辦法,這一點(diǎn)我們?cè)谇懊娴牡?章中也有提到。如果要學(xué)習(xí)在圖片和標(biāo)簽之間建立聯(lián)系,怎么做到的并不重要,只要能給出正確的結(jié)果,就沒(méi)人會(huì)關(guān)心系統(tǒng)的內(nèi)部細(xì)節(jié),因?yàn)樽畛踉O(shè)定的目標(biāo)就是為給定的圖像匹配正確的標(biāo)簽,這一任務(wù)與我們所了解的絕大部分常識(shí)都搭不上關(guān)系。而語(yǔ)言遠(yuǎn)非如此。事實(shí)上,我們看到或聽(tīng)到的每一句話,都要求我們?cè)诖罅康谋尘爸R(shí)的基礎(chǔ)之上推斷出這些背景知識(shí)與所讀內(nèi)容之間的相關(guān)性。深度學(xué)習(xí)缺乏表達(dá)這類知識(shí)的直接方法,更不可能在理解句子的過(guò)程中以背景知識(shí)為基礎(chǔ)進(jìn)行推理。
最后,深度學(xué)習(xí)是靜態(tài)地將輸入匹配到標(biāo)簽,比如把貓的圖片匹配到貓的標(biāo)簽,但閱讀是一個(gè)動(dòng)態(tài)的過(guò)程。當(dāng)你利用統(tǒng)計(jì)方法對(duì)故事開(kāi)篇的文字進(jìn)行翻譯,將“Je mange une pomme”翻譯成“我吃一個(gè)蘋果”,你不需要知道這兩句話的意思,只要你能根據(jù)之前的雙語(yǔ)語(yǔ)料庫(kù)識(shí)別出“je”和“我”相匹配,“mange”和“吃”相匹配,“une”和“一個(gè)”相匹配,“pomme”和“蘋果”相匹配。
許多時(shí)候,機(jī)器翻譯程序可以給出一些有參考價(jià)值的東西,但一次只翻譯一個(gè)句子,并不能理解整篇文章的意思。
當(dāng)你在閱讀故事或文章時(shí),你做的是與機(jī)器完全不同的事情。你的目標(biāo)不是去構(gòu)造統(tǒng)計(jì)學(xué)上的合理匹配,而是去重建一個(gè)作家用文字與你分享的世界。當(dāng)你讀到阿曼佐的故事時(shí),首先會(huì)發(fā)現(xiàn)故事包含三個(gè)主要人物:阿曼佐、他的父親、湯普森先生。隨后你會(huì)對(duì)這些人物的細(xì)節(jié)進(jìn)行填充,比如阿曼佐是個(gè)男孩,他的父親是個(gè)成年人等。你還會(huì)對(duì)一些事件的發(fā)生進(jìn)行把握,比如阿曼佐發(fā)現(xiàn)了一個(gè)錢包,阿曼佐問(wèn)湯普森先生這個(gè)錢包是不是他的等。同樣,當(dāng)你每次走進(jìn)房間,每次去看電影或讀故事時(shí),都會(huì)無(wú)意識(shí)地做類似的事情。你會(huì)判斷此處有哪些實(shí)體,它們之間的關(guān)系是什么。
用認(rèn)知心理學(xué)的話來(lái)講,你在閱讀文本時(shí)所做的,就是建立一個(gè)關(guān)于文本表達(dá)意義的認(rèn)知模型。這可以很簡(jiǎn)單,比如對(duì)丹尼爾·卡尼曼(Daniel Kahneman)和已故的安妮·特里斯曼(Anne Treisman)所講的“對(duì)象文件”進(jìn)行編譯(對(duì)象文件是關(guān)于個(gè)體對(duì)象及其屬性的記錄);也可以很復(fù)雜,比如對(duì)復(fù)雜場(chǎng)景的透徹理解。
舉例來(lái)說(shuō),當(dāng)你讀《農(nóng)莊男孩》時(shí),會(huì)逐步在腦海中對(duì)故事中所有的人物、東西和事件及其之間的關(guān)系建立起形象:阿曼佐、錢包和湯普森先生,阿曼佐與湯普森先生對(duì)話的事件,湯普森先生大喊大叫、拍打口袋,湯普森先生從阿曼佐手中搶過(guò)錢包,等等。只有在你讀過(guò)文本并構(gòu)建起認(rèn)知模型之后,你才有能力完成與這段故事有關(guān)的任務(wù),包括回答相關(guān)問(wèn)題,將段落翻譯成俄語(yǔ),總結(jié),模仿,演繹,解釋,或者僅僅是在腦海中留下記憶。
谷歌翻譯是狹義AI的典型代表,回避了認(rèn)知模型的構(gòu)建與使用的全過(guò)程。谷歌翻譯從不需要對(duì)事件進(jìn)行推理或跟進(jìn)事件的進(jìn)展。在其擅長(zhǎng)的領(lǐng)域,谷歌翻譯做得還算不錯(cuò),但其擅長(zhǎng)的領(lǐng)域只涵蓋了閱讀的極小一部分。谷歌翻譯從來(lái)不會(huì)為故事建立認(rèn)知模型,因?yàn)樗霾坏?。你不能向深度學(xué)習(xí)提問(wèn)“如果湯普森先生摸了摸他的口袋,發(fā)現(xiàn)在放錢包的地方有一個(gè)鼓包,那么會(huì)發(fā)生什么”,因?yàn)檫@種問(wèn)題根本不屬于深度學(xué)習(xí)范式中應(yīng)有的部分。
統(tǒng)計(jì)數(shù)字不能代替對(duì)現(xiàn)實(shí)世界的理解。問(wèn)題不僅僅是偶爾出現(xiàn)隨機(jī)誤差而已,而是在目前翻譯工具所使用的統(tǒng)計(jì)分析與真正的閱讀理解所需的認(rèn)知模型構(gòu)建之間存在本質(zhì)上的不匹配。
計(jì)算機(jī)不會(huì)閱讀的第二個(gè)原因是不理解“不”的含義。
深度學(xué)習(xí)面臨的一個(gè)令人意想不到的難題,就是對(duì)“不”這個(gè)詞的理解,而經(jīng)典AI方法則不會(huì)遇到同樣的問(wèn)題。還記得Siri在遇到“找一家不是麥當(dāng)勞的快餐店”這個(gè)指令時(shí)給出的錯(cuò)誤回復(fù)嗎?提出這個(gè)問(wèn)題的人,大概想要得到一個(gè)類似“榆樹(shù)街321號(hào)的漢堡王,緬因街57號(hào)的溫蒂漢堡,以及春街523號(hào)的IHOP”這樣的答案。但是,溫蒂漢堡、漢堡王或IHOP并沒(méi)有與“不”這個(gè)詞聯(lián)系在一起的特征,而且人們也不會(huì)特別頻繁地將這些餐廳稱作“不是麥當(dāng)勞”。所以冰冷的統(tǒng)計(jì)數(shù)據(jù)并不能將這些餐廳與“不是麥當(dāng)勞”聯(lián)系起來(lái),盡管同樣的方法可以將“國(guó)王”與“王后”聯(lián)系起來(lái)。人們可以想出一些統(tǒng)計(jì)技巧來(lái)解決識(shí)別餐廳這一特定問(wèn)題,但是想要對(duì)所有涉及“不”字的場(chǎng)景進(jìn)行全面處理,則遠(yuǎn)遠(yuǎn)超出了深度學(xué)習(xí)的現(xiàn)有能力。
你真正需要的,是一套傳統(tǒng)的曾用于構(gòu)建數(shù)據(jù)庫(kù)和經(jīng)典AI的計(jì)算操作方法:構(gòu)建一個(gè)列表,比如某個(gè)位置附近的快餐店,然后排除屬于另一個(gè)列表的元素,比如各家麥當(dāng)勞特許經(jīng)營(yíng)店的列表。
但深度學(xué)習(xí)的構(gòu)建原理從最一開(kāi)始就避開(kāi)了這類計(jì)算。列表在計(jì)算機(jī)程序中是最基本、最普遍的存在,已有50多年的歷史(第一個(gè)主要的AI編程語(yǔ)言LISP就是圍繞這一基礎(chǔ)構(gòu)建起來(lái)的),卻完全被深度學(xué)習(xí)排除在外。于是,要讓深度學(xué)習(xí)理解一個(gè)包含“不”字的查詢,就如同要將方釘打入圓孔一樣困難。
計(jì)算機(jī)不會(huì)閱讀的第三個(gè)原因是無(wú)法應(yīng)對(duì)模糊性。
人類語(yǔ)言充滿了模棱兩可的描述。許多單詞都有多種含義:作為動(dòng)詞的work既有工作的意思,也有發(fā)揮作用的意思;作為名詞的bat既是一種會(huì)飛的哺乳動(dòng)物,也是棒球運(yùn)動(dòng)中使用的木棒。這些還算相對(duì)能說(shuō)清楚的。若想將in或者take等詞匯的全部不同意義都一一列舉出來(lái),能寫滿一部詞典。事實(shí)上,除了非常專業(yè)的詞匯外,大多數(shù)詞匯都有多重含義。而短語(yǔ)的語(yǔ)法結(jié)構(gòu)也不甚清晰?!癙eople can fish”這句話,是指人們可以去釣魚(yú),還是說(shuō)人們把沙丁魚(yú)和金槍魚(yú)之類的魚(yú)裝進(jìn)罐頭里,就像在約翰·斯坦貝克(John Steinbeck)的小說(shuō)《罐頭廠街》(Cannery Row)里寫的那樣?代詞之類的詞常常會(huì)引出更多的歧義。如果你說(shuō),薩姆抱不動(dòng)哈利是因?yàn)樗亓耍敲磸脑瓌t上講,“他”既可以是薩姆,也可以是哈利。
我們?nèi)祟愖x者的神奇之處就在于,99%的時(shí)候甚至都注意不到這些不清晰的地方。我們不會(huì)感到困惑,而是會(huì)在無(wú)意識(shí)的情況下,迅速地、毫不費(fèi)力地找到正確的解釋方法―—如果存在正確解釋的話。
假設(shè)你聽(tīng)到這樣一句話:Elsie tried to reach her aunt on the phone,but she didn’t answer。雖然這句話在邏輯上模棱兩可,但意思卻很清楚。在你的意識(shí)里,根本不會(huì)有所疑慮,去想tried在這里是不是指法庭訴訟,或reach是否意味著親身到達(dá)目的地,或on the phone是不是在說(shuō)阿姨站在電話上面搖晃著保持平衡,或者短語(yǔ)she didn’t answer中的單詞she是否指的是埃爾茜(Elsie)本人。相反,你立刻就會(huì)把注意力集中在正確的解釋上:埃爾茜想通過(guò)打電話聯(lián)系阿姨,但阿姨沒(méi)有接。
現(xiàn)在試一試用機(jī)器來(lái)實(shí)現(xiàn)上述所有這些能力。在某些情況下,簡(jiǎn)單的統(tǒng)計(jì)就能發(fā)揮作用。tried這個(gè)詞表達(dá)“嘗試”這個(gè)意思的次數(shù)要比表達(dá)“提起訴訟”的次數(shù)多得多。on the phone這個(gè)短語(yǔ)表達(dá)“用電話進(jìn)行交流”這個(gè)意思的頻率也要比表達(dá)“坐在電話上”的頻率高,即便會(huì)存在例外情況。當(dāng)動(dòng)詞reach后面跟著一個(gè)人,而句子附近能找到單詞phone時(shí),reach這個(gè)詞的意思很可能是“成功實(shí)現(xiàn)了溝通”。
但在很多情況下,統(tǒng)計(jì)方法并不能幫你得到正確的答案。如果不能真正理解發(fā)生了什么,是沒(méi)有辦法解決模糊性這個(gè)問(wèn)題的。在“Elsie tried to reach her aunt on the phone, but she didn’t answer”這句話中,最重要的是背景知識(shí)與推理的配合。背景知識(shí)能讓讀者一目了然地知道埃爾茜不可能接她自己打的電話。通過(guò)邏輯分析,你知道she肯定指的是她的阿姨。學(xué)校里沒(méi)人教我們?nèi)绾芜M(jìn)行這類推理,因?yàn)槲覀儽灸芫椭缿?yīng)該怎么做。從我們最初開(kāi)始對(duì)這個(gè)世界進(jìn)行理解時(shí),這種推理能力就自然而然地形成了。而在這類問(wèn)題面前,深度學(xué)習(xí)完全無(wú)從下手。
常識(shí)很重要
遺憾的是,到目前為止,也沒(méi)人找到真正有效的替代思路。經(jīng)典AI技術(shù),也就是在深度學(xué)習(xí)流行起來(lái)之前比較常見(jiàn)的方法,在組合性方面有更好的表現(xiàn),也是構(gòu)建認(rèn)知模型的有用工具,但經(jīng)典AI方法不善于從數(shù)據(jù)中學(xué)習(xí),目前在這方面根本不能與深度學(xué)習(xí)相比,而且經(jīng)典方法要對(duì)語(yǔ)言進(jìn)行人工編碼,實(shí)在太過(guò)復(fù)雜煩瑣。經(jīng)典AI系統(tǒng)通常使用模板,例如,模板[位置一離位置二有距離]可以與“月球離地球有380000千米”這句話進(jìn)行匹配,被用來(lái)識(shí)別指明兩個(gè)位置之間距離的句子。但是,每個(gè)模板都必須通過(guò)人工進(jìn)行編碼,每次遇到一個(gè)與以往不同的新句子時(shí),比如,“月球位于地球約380000千米開(kāi)外”,或者“月球在380000千米之外圍繞地球沿軌道運(yùn)轉(zhuǎn)”,系統(tǒng)就會(huì)無(wú)所適從。而且,僅靠模板本身也很難實(shí)現(xiàn)關(guān)于世界的知識(shí)與語(yǔ)言知識(shí)的結(jié)合,從而難以解決語(yǔ)言模糊性的問(wèn)題。
目前,自然語(yǔ)言理解領(lǐng)域落于兩種不同的思路之間:一種是深度學(xué)習(xí)。深度學(xué)習(xí)非常善于學(xué)習(xí),但在組合性和認(rèn)知模型構(gòu)建方面很弱。另一種是經(jīng)典AI。經(jīng)典AI將組合性和認(rèn)知模型的構(gòu)建囊括了進(jìn)來(lái),但在學(xué)習(xí)方面表現(xiàn)平平。
而兩者都忽略了我們?cè)诒菊轮惺冀K強(qiáng)調(diào)的主要內(nèi)容:常識(shí)。
除非你非常了解世界是怎么運(yùn)轉(zhuǎn)的,了解人物、地點(diǎn)、物體及其彼此之間的相互作用,否則根本無(wú)法為復(fù)雜文本建立可靠的認(rèn)知模型。如果沒(méi)有常識(shí),你讀到的絕大多數(shù)內(nèi)容都將毫無(wú)意義。計(jì)算機(jī)之所以做不到有效閱讀,真正原因就在于它們對(duì)世界的運(yùn)行方式缺乏基本理解。
可惜,掌握常識(shí)這件事遠(yuǎn)比人們想象的要難上許多。我們隨后還會(huì)了解到,讓機(jī)器獲得常識(shí)的這一需求,也遠(yuǎn)比人們想象的要更加普遍。如果說(shuō)常識(shí)對(duì)語(yǔ)言領(lǐng)域來(lái)說(shuō)是個(gè)不容忽視的問(wèn)題,那么,在機(jī)器人領(lǐng)域則更為緊迫。
作者簡(jiǎn)介:
蓋瑞·馬庫(kù)斯(Gary Marcus),新硅谷機(jī)器人創(chuàng)業(yè)公司AI首席執(zhí)行官兼創(chuàng)始人。機(jī)器學(xué)習(xí)公司“幾何智能”首席執(zhí)行官兼創(chuàng)始人,該公司于2016年被優(yōu)步收購(gòu),隨后馬庫(kù)斯在優(yōu)步創(chuàng)立了人工智能實(shí)驗(yàn)室。紐約大學(xué)心理學(xué)和神經(jīng)科學(xué)教授。研究方向跨越人類和動(dòng)物的行為,涉及神經(jīng)科學(xué)、心理學(xué)、人工智能等多個(gè)領(lǐng)域。1994年于麻省理工學(xué)院博士畢業(yè),師從心理學(xué)大師史蒂芬·平克。
歐內(nèi)斯特·戴維斯(Ernest Davis),紐約大學(xué)柯朗數(shù)學(xué)科學(xué)研究所計(jì)算機(jī)科學(xué)教授,人工智能領(lǐng)域科學(xué)家。
本文經(jīng)授權(quán)節(jié)選自《如何創(chuàng)造可信的AI》 作者:[美] 蓋瑞·馬庫(kù)斯 / [美] 歐內(nèi)斯特·戴維斯 出版社:浙江教育出版社 原作名:Rebooting AI: Building Artificial Intelligence We Can Trust 譯者:龍志勇 出版年:2020-5-31
本文來(lái)自微信公眾號(hào):騰訊研究院 (ID:cyberlawrc),作者:蓋瑞·馬庫(kù)斯、歐內(nèi)斯特·戴維斯,編譯:龍志勇
標(biāo)簽: