2014年6月7日發(fā)生了一件事情:聊天程序“尤金·古斯特曼”(Eugene Goostman)在英國皇家學會舉行的2014圖靈測試大會上冒充一個13歲烏克蘭男孩而騙過了33%的評委,從而“通過”了圖靈測試。
但是,通過了測試又怎么樣呢?說明了什么問題呢?
1950年,阿蘭·圖靈在那篇名垂青史的論文《計算機械與智力》的開篇說:“我建議大家考慮這個問題:‘機器能思考嗎?’”但是由于我們很難精確地定義思考,所以圖靈提出了他所謂的“模仿游戲”:
一場正常的模仿游戲有ABC三人參與,A是男性,B是女性,兩人坐在房間里;C是房間外的裁判,他的任務是要判斷出這兩人誰是男性誰是女性。但是男方是帶著任務來的:他要欺騙裁判,讓裁判做出錯誤的判斷。
那么,圖靈問:“如果一臺機器取代了這個游戲里的男方的地位,會發(fā)生什么?這臺機器騙過審問者的概率會比人類男女參加時更高嗎?這個問題取代了我們原本的問題:‘機器能否思考?’”而這,就是圖靈測試的本體。
……等等,那現在這幫人在搞的圖靈測試又是什么啊。
其實你可能已經注意到了圖靈的真正目的。不是說“思考”沒法定義嗎?沒關系,我們不去糾纏哲學,我們來制造一個可操作的標準。如果這臺機器“表現得”和一個思考的人類(人類是會思考的,對吧?)無法區(qū)分,那么我們就大可把它當做是在“思考”。
當然,有些方面機器很難表現得和人類一樣,比如有血有肉——但是既然我們關注的是思考,那么就可以選擇一個有代表性的領域,圖靈選擇的就是“模仿游戲”。在原論文中圖靈建議,要求也不必太高,假如能判對的裁判人數不到70%(我認為這個數字也只是他的隨口一說),那我們就可算是它成功了。
而到了1952年,在一場BBC廣播中,圖靈談到了一個新的具體想法:讓計算機來冒充人。如果不足70%的人判對(也就是超過30%的裁判誤以為在和自己說話的是人而非計算機),那就算作成功了。
可以看到,圖靈測試的核心其實不是“計算機能否和人對話”,而是“計算機能否在智力行為上表現得和人無法區(qū)分”。冒充異性和冒充人類都不過是特例而已。
不過這個1952年版的圖靈測試在后世被發(fā)揚光大,成了今天我們所知的圖靈測試的唯一方法。這就帶來了一些問題。
圖靈測試自誕生以來產生了巨大的影響力,不光有支持,也少不得批評。其中最重要的批評之一,可能是1980年約翰·塞爾在《心智、大腦和程序》一文中提到的中文屋子思想實驗了。
塞爾說,想象他鎖在一間屋子里,手動模擬一個巨大的AI程序,和外界進行中文的對話。這個程序據說是“懂中文”的——至少,能以中文通過圖靈測試。屋子里除了一堆紙(塞爾的原話是“bits of paper”)上寫著運算的規(guī)則之外,別無他物。(好吧,為了人道起見也許應當添加基本的維生設施……)
塞爾不懂中文,在屋子里擺弄符號顯然也無助于他習得中文,屋子里也沒有別的東西理解中文了。如果塞爾不“理解”中文,那么塞爾加上這堆紙也不能說是“理解”中文吧!雖然屋子的中文水平足以騙過中文使用者,但沒有任何實體真的“理解”發(fā)生了什么。
換言之,所謂的圖靈測試也是沒有用的,就算通過了它也不能表明計算機在思考。
但問題還不僅限于圖靈測試,按照這個實驗,一臺電腦和塞爾一樣,都是只能識別彎彎扭扭的“符號”,對這些漢字符號的意義一無所知。這也正是計算機程序的問題,不管它是硅基的還是塞爾基的。這等于是說有理解力的強AI根本不可能出現!
這個思想實驗看起來一目了然,完美符合直覺,而且很迎合了不少人的愿望——證明人類心智是獨一無二的天賜產物,人類造不出贗品來。不過話說在前頭,我(遵循丹尼爾·丹內特等人的觀點)認為它是錯的。
其實塞爾當初在伯克利講座上首次提出這個實驗的時候,就有聽眾反對說,鎖在屋子里的人可能不懂他在處理什么東西,但他只是整個系統(tǒng)的一部分啊,他還有規(guī)則書,有演算紙筆,有一堆漢字的數據庫,憑什么一定要他理解、而不能讓整個系統(tǒng)理解?
塞爾的回答是:
“這個想法認為雖然一個人不懂漢語,不知怎么的他和他的那一堆紙聯合起來就能懂漢語。如果一個人不是已經深陷意識形態(tài)之中,那他怎么會認為這想法可信,還真有點難以想象啊?!?/p>
也許吧,但是,真的只有“一堆紙”?
這種思想實驗——用丹內特的話說叫“直覺泵”——有個共同的問題。它的確給出了一個直覺的結論,但是這結論是來自一個完整的詳盡的思想實驗,而不像普通的邏輯推理那樣來自具體而明確的幾個前提。如果這個實驗的某個細節(jié),某個你覺得無足輕重的細節(jié),欺騙了你的直覺呢?
最有名的直覺泵大概是有軌電車問題(Trolley Problem),1967年由英國哲學家費麗帕·弗特提出。鐵軌上有五個小孩在玩,停用的岔軌上有一個小孩在玩,你要把車轉移到岔軌上壓死一個孩子救下五個嗎?這是一個非常典型的關于道德問題的直覺泵。但是千萬不要以為這實驗就能完整地代表你的道德立場——如果我換一個條件,那個岔軌沒有停用,也在正常運行,只是這趟車正好不往那走呢?如果我再換一個條件,根本就沒有岔軌,那個小孩就在你身邊玩,你把他推下去就能讓車停下救另外五個小孩呢?如果那一個小孩是你的親人呢?如果根本沒有小孩、只有你自己決定是否要自己跳下去呢?
對待直覺泵,這正是丹內特的建議:研究它的細節(jié),看看每個細節(jié)如果發(fā)生了改變會不會影響到最后產出的那個直覺。用他的話說,是“轉動直覺泵的旋鈕”。
回到中文屋子。塞爾說,他在手動模擬一個程序的運行——但是他沒有說他是在哪一個層級上模擬。如果外面的人輸入了一串中文,比如“你好啊”,屋子里的人在做什么?他是在做機器碼(將寄存器23945的內容加到寄存器93756上)?是在做源碼(定義常數p,令p=100)?是在做偽代碼(將句子拆分為名詞、動詞、代詞和修飾詞,判斷其是否為一個問題)?有沒有注釋可看?如果他在頂層,那么他會不會對自己在做什么有所理解?如果他只是底層的一個計算器,那他之上的繁復層級真的可以用“一堆紙”來輕描淡寫地概括嗎?
設想這樣一個問題:寫下一個英文大寫字母D,把它逆時針旋轉90度,然后把它放在一個英文大寫字母J的上面。請問這讓你想到了什么樣的天氣?
一個頂層的塞爾(或者干脆就是一個懂中文的塞爾)的腦海中會浮現出D躺在J上的這個形狀。一個底層的塞爾當然對此一無所知,但是他身為計算器所驅動的那個中文屋子要怎么回答這個問題?如果這個中文屋真的通過了圖靈測試,它當然不會被這道題難倒——但是解這道題的唯一辦法,就是照著它的指示,把D躺倒,放在J上,對比記憶庫,判斷出這個形狀最接近于雨傘,根據雨傘聯想到雨天。這是底層的塞爾所不知道但中文屋作為一個整體必須在它的“內存”中做的事情。而這件事情和一個懂中文的塞爾解題時的所思所想又有何區(qū)別呢?
但是,如果簡單地用“一堆紙”這個人畜無害的詞,輕描淡寫地描述中文屋,你的直覺就被誤導了。如果一個中文屋真的完美通過了圖靈測試,真的和人無法區(qū)分,它在和裁判對話時的“思維”狀態(tài)必須是和真人高度類似的。假如圖靈測試的裁判決定用蘇格拉底式方法教授對方量子物理學,那么一個底層的做算術的塞爾當然不會因此學會量子物理——但是中文屋卻會(別忘了,它通過了圖靈測試——它能在智力行為上表現得和人無法區(qū)分)。這就像是給中文屋安裝了一個新程序,能執(zhí)行簡單的量子物理計算和模擬。在這種情況下,你還憑什么說,因為底層的人沒有理解,所以這間屋子也不能理解呢?
不過上面的論證其實都有一個麻煩。這些說的都是理想的圖靈測試,是1950年圖靈給出的最原始形態(tài)。而2014年6月7日這個聊天程序通過的那個“圖靈測試”,和1950年圖靈心中的那個測試,并不完全是一回事。
如果你剛才幾部分的內容沒忘光,可能還會記得,我們反復強調了圖靈測試的準則是“計算機在智力行為上表現得和人無法區(qū)分”。
但是現實中真要測的話總得有規(guī)章,而英國皇家學會的測試規(guī)矩是,在一系列時長為5分鐘的鍵盤對話中,某臺計算機被誤認為是人類的比例超過30%,那么這臺計算機就被認為通過了圖靈測試。尤金在2014年的成績是在總計150場對話里騙過了30個評委里的10個,比兩年前提高了4個百分點(所以嚴格來說,并不是發(fā)生了什么大突破,只是在改良的過程中跨越了一個武斷的閾值)。
麻煩來了:尤金的設計思路并不是“一臺在智力行為上表現得和人無法區(qū)分”的機器,而是一臺“能夠在5分鐘長度對話內盡可能騙過人類”的機器。
經濟學有個所謂的古德哈特定律:一項指標一旦成為政策制定的依據,便立刻不再有效。政策制定者會犧牲其他方面來強化這個指標,使得這個指標不再具有指示整體情況的作用。類似的道理勉強也可以套用到別的領域里。某種意義上尤金·古斯特曼就是例證——它不但是專門設計的聊天機器人、缺乏任何其他領域的智力能力,而且為了騙過人類,還被特意設定成一個13歲的非英語母語的小孩,以便在很多問題無法回答或者出現錯誤的時候,讓裁判誤以為這是因為它年齡小,而非因為它欠缺人性。
其實在聊天機器人里尤金已經不錯了,至少它沒有話題限制。早年間一個著名的聊天程序ELIZA的一個腳本是冒充一位精神分析師,如果病人說“我頭疼”,它就會回以“你為什么說你頭疼?”在這個子領域里它頗為逼真——可是這實在不能認為是表現出了類似人的智力活動。推特上曾有一個賬號叫@AI_AGW,尋找那些氣候變化懷疑論者的言論然后給他們發(fā)科學論文鏈接辯論,有些懷疑論者根本沒意識到這是AI,雙方可以大戰(zhàn)幾十回合。網友們還開發(fā)出了“女神AI”、 “高冷AI”、“二逼AI”等等形態(tài)對其進行戲仿——但這些恐怕都不是圖靈當初設想的人工智能形態(tài)。當然更不是科幻愛好者恐懼(或者盼望)的天網覺醒。
無論是尤金的編寫者還是程序的組織者,對此倒也心知肚明。編寫者弗拉基米爾·維西羅夫說,“我們希望能借此激發(fā)人們對人工智能與聊天機器人的興趣。”而組織者凱文·沃里克說,計算機冒充人會帶來網絡安全的問題,“理解這類實時在線交流如何讓人們對某些事信以為真并對他們造成影響,是非常重要的事情。”沒有人真的提到圖靈測試本來的那個意義——判斷計算機是否在思考;因為這也的確不是本來的那個圖靈測試。
有一些人認為現在的整個人工智能領域都背離了初衷,比如侯世達。另一些人則認為圖靈測試根本是無聊和過時的,和AI沒有關系。有些人覺得現在的人工智能思路毫無問題,假以時日就能做出好用的AI。還有一些人認為強AI根本就是不可實現的。作為一個旁觀者,我肯定無力判斷哪幾種觀點是對的,但從個人來說,我是真的希望能出現一個程序,以原本的意義通過圖靈測試的最初版——不光是為了計算機和人工智能的進展,也是為了理解我們自身的大腦。說到底,要弄懂一臺機器的運作方式,還有什么辦法比拆開來再裝回去更好的呢?
作為丹尼爾·丹內特的粉絲,我針對這個話題推薦《意識的解釋》和《達爾文的危險思想》兩本書。前者直接討論了AI的問題,后者則從演化的角度討論了我們人腦這個“AI”的誕生為何是可以想象的。但如果只想走馬觀花看看他的觀點,《直覺泵及其他思考工具》很不錯。
來自物理學角度針對AI的討論則有彭羅斯的《皇帝新腦》,雖然我不太贊同他的觀點,但他講了很多有趣的東西。
如果你對侯世達的路線有興趣,《集異璧》當然是必推的作品,他的后續(xù)作品同樣值得一看。