一些神經(jīng)科學家喜歡用預測編碼理論,去解釋大腦的運作機制,該理論將感知看成是“受控的幻覺”。預測編碼強調(diào)的是大腦對現(xiàn)實的預期和預測,而不是大腦所接收的直接感官證據(jù)。
去年6月,人工智能公司DeepMind發(fā)布了新的軟件,它可以基于單張圖片(內(nèi)容是一個虛擬空間擺放著幾個物體),在沒有人類指導的情況下,從全新的視角推斷出三維場景會是什么樣子。在饋入少數(shù)幾張這樣的圖片之后,這個被稱為“生成查詢網(wǎng)絡(luò)”(GQN)的系統(tǒng),就可以成功建模出電子游戲式的簡單迷宮布局。
GQN顯然擁有很多技術(shù)上的用途,但它也引起了神經(jīng)科學家的注意,他們對GQN用來學習如何執(zhí)行任務(wù)的訓練算法特別感興趣。通過給定的圖像,GQN便能預測出場景——物體應該擺放在什么位置,它們的陰影應該如何投射在地面上,基于特定的視角,哪些區(qū)域應該可見或被隱藏起來——然后,利用預測與實際觀察結(jié)果之間的差異,來提升今后預測的準確性?!罢怯捎诂F(xiàn)實與預測之間的差異,才促成了模型的升級。”GQN項目的領(lǐng)導者之一阿里·伊斯拉米(Ali Eslami)說。
伊斯拉米的論文合著者、同在DeepMind工作的達尼洛·雷森德(Danilo Rezende)說,“算法會修改(預測)模型的參數(shù),這樣等下一次遇到相同的情況時,它就不會那么驚訝了。”
長久以來,神經(jīng)科學家一直猜測,驅(qū)動大腦運作的是一種與此類似的機制。根據(jù)這種“預測編碼”理論,在認知過程的各個層級上,大腦都會生成一種模型或是想法,來判斷它應該從下一個層級接收什么樣的信息。這些想法又會轉(zhuǎn)化成一種預測,來判斷在特定情況下應該獲得何種經(jīng)歷,同時為現(xiàn)實中發(fā)生的事情提供最佳解釋,從而使得對于這種經(jīng)歷的判斷具有說服力。
然后,這些預測會作為反饋,向下發(fā)送到大腦的低層感官區(qū)域。大腦會把預測拿來跟它實際接收的感官輸入信息進行比較,對其中的差異或預測誤差做出“解釋”,也就是使用內(nèi)部模型,來確定導致差異的潛在原因。(例如,我們可能擁有一個關(guān)于桌子的內(nèi)部模型,即四條腿撐起一個平面,但即便一張桌子有一半被其他東西遮蔽起來,我們?nèi)匀荒軌蛘J出它是桌子。)
對于一組色塊的二維圖像(左),GQN的人工智能可以推斷出它們在空間中的三維排列方式(右)。該系統(tǒng)所依賴的基礎(chǔ),同樣也支撐著預測編碼這一神經(jīng)科學理論。
至于那些無法被解釋的預測誤差,則會通過連接,被傳送到更高層級(作為“前饋”信號,而不是反饋),在那里,系統(tǒng)會給予關(guān)注,并做出相應處理?!艾F(xiàn)在大家關(guān)注的是調(diào)整內(nèi)部模型,調(diào)整大腦動態(tài),以此抑制預測誤差。”倫敦大學學院的卡爾·弗里斯頓(Karl Friston)說道,他是一位知名的神經(jīng)科學家,也是預測編碼假說的先驅(qū)之一。
過去十年中,許多認知科學家、哲學家和心理學家都接受了預測編碼理論,尤其是用它來描述感知的運行機制的時候,甚至還有些學者認為,可以用它解釋整個大腦是如何運轉(zhuǎn)的。
但直到近年,我們才掌握了必要的實驗工具,可以開始直接測試該假說的具體機制。此外,過去兩年間發(fā)表的一些論文也為預測編碼理論提供了有力的證據(jù)。盡管如此,這種理論仍然存在爭議,而最近的一場辯論或許提供了最好的證明。辯論的焦點在于,一些具有里程碑意義的實驗結(jié)果是否可以被復制。
咖啡、奶油和狗
“我喝咖啡喜歡加奶油和____?!痹谶@句話的空白處填上“糖”,似乎是理所當然的。
在加州大學圣迭戈分校的認知科學家馬塔·庫塔斯(Marta Kutas)和斯蒂芬·希利亞德(Steven Hillyard)1980年進行的一系列實驗中,他們正是期望受試者出現(xiàn)這種本能反應。他們在屏幕上逐個詞語地把上面這句話呈現(xiàn)給受試者,同時記錄下他們的腦部活動。只不過,最后出現(xiàn)的詞語不是“糖”,最后組成的句子是:“我喝咖啡喜歡加奶油和狗?!?/span>
當受試者看到意料之外的詞語“狗”時,研究人員觀察到他們的大腦出現(xiàn)了更強烈的反應。這是一種特定模式的生物電活動,它們在詞語出現(xiàn)大約400毫秒后達到了峰值,因而被稱為“N400效應”。大腦做出反應是因為這個詞放在句子中毫無意義嗎?或者,僅僅是因為這個詞出現(xiàn)得很意外,違反了大腦的預期?
2005年,庫塔斯和她的團隊進行了另一項研究,結(jié)果表明,后一種猜想是對的。
受試者同樣會閱讀逐詞出現(xiàn)在屏幕上的語句:“這一天微風陣陣,所以男孩跑到戶外去放____?!币驗檠a完這句話的最合適詞語是“風箏”(a kite),所以,受試者預期看到的下一個單詞是不定冠詞“a”。它沒有內(nèi)在意義,但的確預示了下一個單詞是什么。結(jié)果,當受試者看到后面出現(xiàn)的單詞是“an”時,他們出現(xiàn)了N400效應,這似乎是因為大腦必須處理預期與現(xiàn)實之間的不匹配。而這種效應顯然跟詞語的含義或者處理刺激時的難度無關(guān)。
2005年的研究發(fā)現(xiàn)似乎非常契合預測編碼的理論框架,但去年發(fā)表在學術(shù)期刊《eLife》上的一篇論文稱,有好幾個實驗室都無法重復這一實驗結(jié)果。如今,其他研究人員開始做出回應,一些人聲稱,重復實驗得到的結(jié)果仍然可以為預測編碼理論提供支持。
這種你來我往反映了預測編碼理論引發(fā)的很大一部分爭論。對于庫塔斯所做的這類實驗,研究人員可以做出多種解釋。實驗結(jié)果除了可以用預測編碼來解釋,也可以用模型來解釋,而且它們?nèi)狈ψ阋宰C明假說的確鑿證據(jù),因為它們沒有深入研究實際發(fā)揮作用的機制。雖然認為大腦會不斷做出推斷(并將推斷結(jié)果與現(xiàn)實進行比較)的觀點目前已經(jīng)相當完善,但預測編碼的支持者一直在設(shè)法證明,他們所主張的理論才是正確的,而且可以推及所有的認知機制。
貝葉斯腦與高效計算
大腦在不斷地做出預測并對自己的預測進行評估,這一基本觀點一開始并未得到大多數(shù)人的認可。20世紀的主流神經(jīng)科學理論將大腦功能描述為一個特征檢測器:它會記錄刺激,對刺激做出處理,然后發(fā)出信號,以產(chǎn)生一個行為反應。特定細胞中的活動反映了真實世界中的刺激是存在,還是不存在。例如,視覺皮層中的一些神經(jīng)元能夠?qū)σ曇爸形矬w的邊緣產(chǎn)生反應;另一些神經(jīng)元則會通過激發(fā)來指示物體的方位、顏色或陰影分布。
然而,事實證明,這個過程遠非看上去那么簡單。研究人員通過進一步的測試發(fā)現(xiàn),當大腦在感知一條越來越長的線時,即使線本身沒有從視野中消失,用于探測線的神經(jīng)元也會停止激發(fā)。事實上,很多信息似乎是通過神秘的自上而下式反饋連接進行傳遞的,這表明,還有其他機制在發(fā)揮作用。
這就是“貝葉斯腦”(Bayesian brain)發(fā)揮作用的地方了,這是一個可追溯至19世紀60年代的通用框架,它徹底顛覆了傳統(tǒng)模型。該理論提出,大腦會基于內(nèi)部模型,對現(xiàn)實世界進行概率推斷,主要是圍繞如何解讀它所感知的東西,計算出一個“最佳猜測”(這符合貝葉斯統(tǒng)計學定理,也就是基于從先驗經(jīng)驗中獲得的相關(guān)信息,去量化事件的概率)。
大腦并不是等待感官信息來推動認知,而是始終在積極構(gòu)建關(guān)于世界的各種假設(shè),然后利用它們來解釋現(xiàn)實經(jīng)歷,并填補缺失的數(shù)據(jù)。根據(jù)一些專家的說法,正因為此,我們或許可以把感知視為一種“受控的幻覺”。
順著這個思路,貝葉斯腦也解釋了為什么我們會產(chǎn)生視力錯覺:例如屏幕上兩個點在快速地交替閃爍,看上去就像一個點在來回移動,于是我們的大腦會在無意識中把它們看成一個點。理解物體如何移動是一種更高層級的知識,但這從根本上影響了我們的感知方式。大腦會填補信息的空白——在這個例子中,就是運動信息的空白——從而繪制出一幅并不完全準確的圖景。
在這個著名的視力錯覺實驗中,棋盤上A格的顏色看上去比B格深得多,但其實,它們的灰度是一樣的。我們的大腦會利用附近格子的顏色,以及圓柱體所投射陰影的位置,來推斷棋盤的顏色。在這個例子中,這些推斷讓我們感知到,A格和B格的灰度不一樣,盡管它們完全相同。(如右圖所示,如果把兩個格子連通起來,或是遮住圓柱體,我們便能更清楚地看出來。)
但是,盡管生成模型和各種預期在大腦功能中發(fā)揮著明確的作用,科學家依然未能確定它們是如何在神經(jīng)回路層級上得到實施的?!跋鄬碚f,貝葉斯腦也無法解釋底層機制究竟是什么。”蘇格蘭愛丁堡大學的心理哲學教授馬克·斯佩瓦克(Mark Sprevak)說。
這時,預測編碼理論登場了。它提供了一種特定公式,解釋了大腦的運作如何能夠符合貝葉斯定理。預測編碼這個名稱源于一種能更有效傳輸電信信號的技術(shù):由于視頻文件相鄰兩幀之間包含了大量信息冗余,因此壓縮這些數(shù)據(jù)時,如果對每一個像素進行編碼,將非常低效。而如果我們對相鄰兩幀之間的差異進行編碼,然后通過反向處理來解讀整個視頻,那將更加合理。
1982年,科學家發(fā)現(xiàn),這個想法可以應用到神經(jīng)科學中,因為它似乎可以解釋,視網(wǎng)膜上的神經(jīng)元是如何編碼有關(guān)視覺刺激的信息,并沿著視神經(jīng)進行傳遞的。此外,研究人員還認為,預測編碼也是大腦獎勵系統(tǒng)在運作時所遵循的原理:多巴胺神經(jīng)元會對預期獎勵與實際獎勵之間的不匹配程度進行編碼。研究人員表示,這些預測誤差可以幫助動物對未來預期進行修正,并推動它們的決策。
盡管有這些例子,科學家認為,預測編碼主要還是一種針對特定神經(jīng)網(wǎng)絡(luò)的過程。不過,功能性磁共振成像(fMRI)測試和其他類型的實驗已開始改變這一觀點。
通用框架
預測編碼假說之所以如此受重視,原因之一在于它具有令人難以置信的解釋能力?!霸谶@個理論框架下,許多事情都能得到解釋,這一點很有說服力?!睈鄱”ご髮W邏輯學教授、預測編碼理論專家安迪·克拉克(Andy Clark)說。
首先,它在單個計算過程中統(tǒng)一了感知和運動控制。這兩者基本上是同一枚硬幣的兩面:不管是感知還是運動控制,大腦都會將預測誤差最小化,但會以不同的方式進行。就感知而論,調(diào)整的是內(nèi)部模型;至于運動控制,調(diào)整的則是實際環(huán)境。(對于后者,你可以想象一下,自己想舉手。如果你的手沒有舉起,那么這個差異會產(chǎn)生較大的預測誤差——如果這時你把手舉起來,便能將誤差最小化。)
迄今為止,研究人員在感知和運動控制方面進行的實驗,為預測編碼理論提供了最有力的證據(jù)。例如,在《神經(jīng)科學雜志》去年6月發(fā)表的一篇論文中,研究人員先讓受試者看屏幕上的單詞“kick”,然后再讓他們聽經(jīng)過處理的錄音,其中的單詞“pick”聽起來像大聲的耳語。許多人把“pick”聽成了“kick”,而fMRI掃描顯示,大腦在聽到單詞開頭的“k”和“p”時反應最強烈——它們是跟預測誤差有關(guān)的聲音。如果大腦只是在表征其感知體驗,那么最強烈的信號應該與“ick”對應(因為它才是同時出現(xiàn)在屏幕和音頻中的刺激)。
不過,研究人員也在努力擴大預測編碼在感知和運動控制之外的適用范圍,他們將其視為大腦中一切活動的“通用貨幣”。克拉克說,“這就像擁有了一堆積木,可以按照不同的方式來搭。”不同的腦區(qū)會進行不同類型的預測。
包括弗里斯頓在內(nèi)的一些人聲稱,預測編碼適用于更高層級的認知過程,包括注意力和決策。研究人員最近在前額皮質(zhì)上完成的計算工作表明,在工作記憶和目標導向行為中,同樣存在著預測編碼機制。一些研究人員建構(gòu)了用預測編碼術(shù)語來表述情感和情緒的理論:情緒可以是大腦表征的狀態(tài),旨在將關(guān)于內(nèi)部信號(例如體溫、心率或血壓)的預測誤差最小化。例如,如果大腦發(fā)現(xiàn)自己情緒激動,它會知道,所有那些信號指標都在上升。也許自我的概念就是這樣出現(xiàn)的。
數(shù)十年來,倫敦大學學院的神經(jīng)科學家卡爾·弗里斯頓一直在完善預測編碼假說的關(guān)鍵原理。他指出,該理論不僅可以解釋感知,還可以解釋更高層級的認知過程。
以這種思路完成的大部分研究工作都有一個聚焦點:預測編碼如何能夠?qū)ι窠?jīng)精神病學和發(fā)育障礙做出解釋。弗里斯頓說,“這里的想法是,如果大腦是一部推理機器,是一個統(tǒng)計器官,那么當它犯錯時,也會犯跟統(tǒng)計學家一樣的錯誤?!币簿褪钦f,大腦可能因為太過重視或輕視預測或是預測誤差,而做出錯誤的推斷。
例如,自閉癥或許可以被描述為:無法在大腦處理層級結(jié)構(gòu)的最底層,忽略與感官信號相關(guān)的預測誤差。這可能造成患者對感覺的專注、對重復和可預測性的渴求、對特定幻覺的敏感,以及其他一些影響。在與幻覺有關(guān)的病癥中,比如精神分裂癥,情況可能正相反:大腦也許太過關(guān)注于自身對所發(fā)生事情的預測,卻忽視了與這些預測相矛盾的感官信息。(不過專家提醒說,自閉癥和精神分裂癥都非常復雜,無法簡化為單一的解釋或機制。)
耶魯大學醫(yī)學院的臨床神經(jīng)科學家菲利普·科利特(Philip Corlett)說,“其中最重要的部分是向我們展示了,我們的心理功能是何其脆弱?!笨评卣陂_展一項實驗,在健康受試者的腦中建立新的“想法”,引導他們對之前經(jīng)歷的刺激產(chǎn)生幻覺。(例如,研究人員讓受試者把某個聲音與某張視覺圖像聯(lián)系起來,這樣,當受試者看到圖像時,即便沒有播放聲音,他們也會覺得自己聽到了聲音。)研究人員想弄明白,這些“想法”是如何轉(zhuǎn)化為感知的。通過這些研究,“已經(jīng)有證據(jù)表明,感知與認知并不是那么涇渭分明?!笨评卣f,“我們可以向你灌輸新的想法,而那可以改變你的感知?!?/span>
預測編碼假說的堅實證據(jù)
“實驗研究經(jīng)常表明,一個特定的結(jié)果與預測處理理論是一致的,但并不是說,該理論就是實驗結(jié)果的最佳解釋?!彼古逋呖苏f。這種理論在認知科學領(lǐng)域已被廣泛接受,但“在系統(tǒng)神經(jīng)科學領(lǐng)域,它仍然處于弱勢。”瑞士弗里德里?!っ咨釥柹镝t(yī)學研究所的神經(jīng)科學家格奧爾格·凱勒(Georg Keller)說。他的實驗室正試圖用更堅實的證據(jù)改變這種狀況。
弗里德里?!っ咨釥柹镝t(yī)學研究所的神經(jīng)科學家格奧爾格·凱勒一直在為預測編碼假說尋找堅實證據(jù)。
在去年發(fā)表于《神經(jīng)元》雜志的一項研究中,凱勒及其同事觀察到,小鼠視覺系統(tǒng)中的神經(jīng)元隨著時間的推移變得具有預測能力。這個發(fā)現(xiàn)其實一開始是個偶然。最初,研究人員利用電子游戲來訓練小鼠,結(jié)果發(fā)現(xiàn),虛擬世界的方向亂了套。通常,只要小鼠向左轉(zhuǎn),它們就會看到自己的視野向右移動,反之亦然。然而,有人無意中翻轉(zhuǎn)了實驗中虛擬世界的方向,顛倒了左右,這樣,向左轉(zhuǎn)意味著小鼠的視野同樣向左移動。研究人員意識到,他們或許可以將錯就錯。他們監(jiān)測了表征這種視覺流動的小鼠大腦信號,結(jié)果發(fā)現(xiàn),隨著小鼠重新掌握了倒置環(huán)境中的規(guī)則,大腦信號也慢慢發(fā)生了變化。“那些信號看起來是在預測視覺會向左流動?!眲P勒說。
如果信號只是小鼠視覺體驗的感官表征,那么,它們應該馬上在虛擬世界中出現(xiàn)翻轉(zhuǎn)。如果它們屬于運動信號,那就根本不會翻轉(zhuǎn)。相反,“它在于識別預測?!眲P勒說,“是在做出某個動作時,對視覺流動的預測?!?/span>
“這項研究提供了一種此前并不存在的證據(jù)。”克拉克說,“這是一種非常局部、逐單元和逐層的證明,即預測編碼理論是解釋這一切的最佳模型。”
大約在同一時間,另一組研究人員在獼猴用于處理面孔的腦區(qū)中,也有了類似發(fā)現(xiàn)。之前的研究已經(jīng)表明,神經(jīng)網(wǎng)絡(luò)中較低層級的神經(jīng)元,是對面孔基于方位的要素進行編碼的,例如,神經(jīng)元看到側(cè)臉輪廓后開始激發(fā)。在更高的層級上,神經(jīng)元會以更抽象的方式來表征面孔,比如,關(guān)注面孔所代表的身份,而不是它的位置。
在獼猴研究中,研究人員用成對的面孔對猴子進行訓練,其中一張面孔會首先出現(xiàn),而它總會包含對第二張面孔的某種預測。之后,研究人員用特定的方式去干擾這些預期,比如,從不同角度展示同一張面孔,或是展示一張完全不同的面孔。結(jié)果,他們在面部處理神經(jīng)網(wǎng)絡(luò)的較低層級區(qū)域中,發(fā)現(xiàn)了預測誤差,但這些誤差與方位預測無關(guān),而與身份預測有關(guān)。也就是說,誤差源于系統(tǒng)較高層級中發(fā)生的事情——這表明,較低層級在對比外部感知與來自較高層級的預測的過程中,得出了錯誤的信號。
“在那個系統(tǒng)中發(fā)現(xiàn)預測誤差,發(fā)現(xiàn)預測的具體內(nèi)容,這非常令人興奮。”該研究論文首席作者、歐洲神經(jīng)科學研究所的神經(jīng)科學家卡斯帕·施維德里克(Caspar Schwiedrzik)說。
馬克斯·普朗克經(jīng)驗美學研究所的研究員露西亞·梅洛尼(Lucia Melloni)表示,她的團隊在人類受試者的神經(jīng)元數(shù)據(jù)中,看到了與預測誤差理論一致的結(jié)果。
尋找更多的預測機器
并不是每個人都認為,預測編碼理論的論據(jù)在逐漸增多。在有些科學家看來,該理論雖可以解釋認知的某些方面,但無法解釋一切。
不過,該領(lǐng)域的很多專家都認為,這項研究有可能在機器學習領(lǐng)域催生出令人興奮的應用。目前,絕大多數(shù)人工智能研究都沒有涉及預測編碼,而是聚焦于其他類型的算法。
但弗里斯頓認為,在深度學習環(huán)境中建立預測編碼架構(gòu),可以讓機器更接近智能。
DeepMind的GQN就是發(fā)掘這種潛力的絕佳例證。去年,薩塞克斯大學的研究人員甚至使用虛擬現(xiàn)實以及具備預測編碼功能的人工智能技術(shù),打造出所謂的“幻覺機器”,它可以模擬出通常由迷幻藥引起的幻覺狀態(tài)。
通過比較預測編碼模型和其他技術(shù)模型的表現(xiàn),我們可以利用機器學習領(lǐng)域的進步,獲得有關(guān)大腦的新見解。至少,把預測編碼引入人工智能系統(tǒng),或許能顯著提高這些機器的智能水平。
但在那之前,我們還有很多工作要做??茖W家要深入研究,找到一系列問題的答案,比如確定大腦的內(nèi)部表征處在什么位置。另外,類似的實驗能否證實更高層級認知過程中的預測編碼機制,這也有待觀察。
預測編碼“之于神經(jīng)科學的重要性,就猶如進化論之于生物學?!备窭垢绱髮W神經(jīng)生理學家拉爾斯·穆克里(Lars Muckli)說道,他為預測編碼理論做了大量工作。但就目前來說,斯佩瓦克指出,“一切尚無定論?!?/span>
來源 | Quanta Magazine