來(lái)源:清熙
現(xiàn)在的大模型是茶壺里煮餃子,從預(yù)訓(xùn)練中學(xué)習(xí)了很多,但簡(jiǎn)單粗暴的采樣推理的方式卻限制了它的能力輸出。其中最重要的改進(jìn)方向就是,通過(guò)引導(dǎo)大模型學(xué)習(xí)人類(lèi)特定的先驗(yàn),更好地理解“范疇的結(jié)構(gòu)和關(guān)系”,優(yōu)化范疇內(nèi)和跨范疇采樣算法,將幻覺(jué)降低到“不可見(jiàn)”范圍,盡管很難消除為零。近期大模型行業(yè)的動(dòng)向也印證了筆者這一判斷。時(shí)代周刊全球百大AI人物& Cohere創(chuàng)始人接受采訪時(shí)講“AI模型還沒(méi)有真正的問(wèn)題解決能力,是因?yàn)橛?xùn)練語(yǔ)料里面很少有記錄人類(lèi)推理的過(guò)程。所以像Cohere, OpenAI 和Anthropic 等大模型領(lǐng)先的公司都在想盡辦法搜集展示人類(lèi)推理的數(shù)據(jù)”。 筆者去年年初在 ChatGPT是第一個(gè)真正意義的人工通用智能中闡釋過(guò),目前研究已經(jīng)證明GPT對(duì)知識(shí)有強(qiáng)大的記憶能力。而增強(qiáng)GPT推理能力的方法:a) 提供提示語(yǔ)或提示樣本 b) 預(yù)訓(xùn)練中引入代碼樣本。ChatGPT強(qiáng)大的推理能力,被認(rèn)為大概率來(lái)自代碼參與GPT3.5的預(yù)訓(xùn)練。代碼使用計(jì)算機(jī)語(yǔ)言,是設(shè)計(jì)完善的特殊語(yǔ)種,結(jié)構(gòu)性強(qiáng),長(zhǎng)程關(guān)聯(lián),關(guān)系明確??梢杂梦⒄Z(yǔ)言結(jié)構(gòu)的概率分布為基底,張成語(yǔ)言空間,程序就是該語(yǔ)言結(jié)構(gòu)空間的點(diǎn)線面體。GPT 可以用自己構(gòu)建的高維語(yǔ)言空間簡(jiǎn)單方便的學(xué)習(xí)代碼。1.語(yǔ)言模型可以發(fā)展出自己對(duì)“現(xiàn)實(shí)的模擬”,并以此來(lái)提高其生成能力MIT計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)的學(xué)者近期分享了一個(gè)有趣的研究成果[文獻(xiàn)1],聲明語(yǔ)言模型可以發(fā)展出自己對(duì)“現(xiàn)實(shí)的模擬”,并以此來(lái)提高其生成能力。筆者覺(jué)得學(xué)者們非常嚴(yán)謹(jǐn)?shù)氖褂昧恕艾F(xiàn)實(shí)的模擬”的說(shuō)法,而不是“世界模型”, 可能是覺(jué)得前者比后者更貼切,因?yàn)槭澜缒P腿菀鬃屓苏`解其無(wú)所不包。其實(shí)“世界模型”不是全世界的模擬,而是對(duì)真實(shí)世界的模擬。 在對(duì)超過(guò)100萬(wàn)個(gè)隨機(jī)謎題進(jìn)行訓(xùn)練后,他們發(fā)現(xiàn)該模型自發(fā)地發(fā)展了自己的底層模擬概念,盡管在訓(xùn)練過(guò)程中從未接觸過(guò)這一現(xiàn)實(shí)。這為我們提供了一個(gè)起點(diǎn),讓我們探索LLM是否真的能理解文本,現(xiàn)在我們看到它們的能力遠(yuǎn)遠(yuǎn)超過(guò)盲目地將單詞拼接在一起。筆者發(fā)現(xiàn)很多“著名”的AI學(xué)者還在強(qiáng)調(diào)大模型是隨機(jī)鸚鵡,他們可能已經(jīng)很久不讀Paper了。作者利用了這樣一個(gè)事實(shí),即計(jì)算機(jī)代碼和自然語(yǔ)言一樣,既有語(yǔ)法又有語(yǔ)義,但與自然語(yǔ)言不同的是,代碼的語(yǔ)義可以直接被觀察和操縱,用于實(shí)驗(yàn)?zāi)康摹?/strong>實(shí)驗(yàn)設(shè)計(jì)是優(yōu)雅的,他們的研究結(jié)果也是樂(lè)觀的,表明了也許LLM能夠更深入地了解語(yǔ)言的'含義'。 2. 大語(yǔ)言模型可以成為時(shí)間序列的零樣本異常檢測(cè)器 大語(yǔ)言模型能夠執(zhí)行各種任務(wù),包括時(shí)間序列預(yù)測(cè)。這些模型的靈活性使它們可用于許多應(yīng)用,這也是“通用”的本來(lái)意義。 [文獻(xiàn)2]做了一項(xiàng)關(guān)于大型語(yǔ)言模型的新研究,用于具有挑戰(zhàn)性的時(shí)間序列異常檢測(cè)任務(wù)。模型需要將輸入序列的一部分(或多個(gè)部分)識(shí)別為異常;但是它需要處理時(shí)間序列數(shù)據(jù)而不是傳統(tǒng)的文本輸入。作者設(shè)計(jì)了一個(gè)使用大語(yǔ)言模型直接進(jìn)行時(shí)間序列異常檢測(cè)的框架:包括一個(gè)時(shí)間序列到文本的轉(zhuǎn)換模塊,以及提示語(yǔ)言模型執(zhí)行時(shí)間序列異常檢測(cè)的端到端提示流水線。 通過(guò)對(duì)多個(gè)數(shù)據(jù)集使用多種方式的檢測(cè),作者發(fā)現(xiàn)雖然最先進(jìn)的深度學(xué)習(xí)模型在性能上仍然更勝一籌,通過(guò)合理的運(yùn)用大模型預(yù)測(cè)下一個(gè)token的生成方式,大語(yǔ)言模型在未經(jīng)特殊訓(xùn)練或微調(diào)時(shí),就能夠直接發(fā)現(xiàn)時(shí)間序列中的異常。3.生成式人工智能還可以執(zhí)行基本的結(jié)構(gòu)生物學(xué)建模 基于自然語(yǔ)言的生成式人工智能 (AI) 在科學(xué)研究中也變得越來(lái)越普遍。有趣的是,GPT等大語(yǔ)言模型的能力實(shí)踐上被證明已經(jīng)超出自然語(yǔ)言任務(wù)范圍。 [文獻(xiàn)3]探討了如何能夠通過(guò)GPT4執(zhí)行基本的結(jié)構(gòu)生物學(xué)建模。作者用 GPT4 對(duì) 20 個(gè)標(biāo)準(zhǔn)氨基酸和一條α螺旋多肽鏈的 3D 結(jié)構(gòu)進(jìn)行了建模,后者還結(jié)合了 Wolfram 數(shù)學(xué)計(jì)算。另外還進(jìn)行了抗病毒 nirmatrelvir 與其靶點(diǎn) SARS-CoV-2 主要蛋白酶之間的結(jié)構(gòu)相互作用分析。 交互分析揭示了GPT-能夠識(shí)別參與配體結(jié)合的特定氨基酸殘基以及相應(yīng)的鍵距。盡管目前存在局限性,但文獻(xiàn)展示出大語(yǔ)言模型目前具備了能夠以原子級(jí)精度執(zhí)行基本結(jié)構(gòu)生物學(xué)建模和交互分析的能力。三.使用數(shù)據(jù)因果模型進(jìn)行探測(cè)隨著大語(yǔ)言模型 (LLM) 在一系列 NLP 任務(wù)上提供越來(lái)越高的性能,分類(lèi)探測(cè)器已成為更好地理解其內(nèi)部工作原理不可或缺的技術(shù)。 典型的設(shè)置包括 (1) 定義一個(gè)輔助任務(wù),該任務(wù)由帶有標(biāo)簽注釋的文本數(shù)據(jù)集組成,然后 (2) 監(jiān)督小型分類(lèi)器在處理數(shù)據(jù)集時(shí)從預(yù)訓(xùn)練 LLM 的表征中預(yù)測(cè)標(biāo)簽。高探測(cè)精度被解釋為證據(jù)表明 LLM 已學(xué)會(huì)執(zhí)行輔助任務(wù),作為其原始預(yù)訓(xùn)練目標(biāo)的無(wú)監(jiān)督副產(chǎn)品。[文獻(xiàn)1]的學(xué)者們采用結(jié)構(gòu)因果模型(SCM: Structure Causal Model)提出了一個(gè)正式的研究觀點(diǎn)[文獻(xiàn)4],稱(chēng)為:潛因果探測(cè)框架,從概念上講,框架對(duì)模型的訓(xùn)練數(shù)據(jù)進(jìn)行干預(yù),并測(cè)量對(duì)語(yǔ)言模型內(nèi)部表征的因果效應(yīng)。該框架為通過(guò)因果分析解釋實(shí)驗(yàn)結(jié)果提供了強(qiáng)大的工具,特別是嚴(yán)格控制探針在學(xué)習(xí)輔助任務(wù)中的貢獻(xiàn)。在實(shí)驗(yàn)上,學(xué)者們擴(kuò)展了先前關(guān)于Transformer是否可以推斷出一系列動(dòng)作背后的中間狀態(tài)的研究。 研究結(jié)果提供了強(qiáng)有力的經(jīng)驗(yàn)證據(jù),證明大語(yǔ)言模型可以從文本預(yù)訓(xùn)練中推導(dǎo)出潛在概念。 四.Nature:持續(xù)深度學(xué)習(xí)中的可塑性喪失 人的大腦就像是一塊海綿,它能不斷吸收新的信息,并作出改變?yōu)槠潋v出空間,這就是大家熟知的大腦的“可塑性”。LLM 同樣具有可塑性嗎?OpenAI GPT-4o 開(kāi)放了fine tune,而我們知道Fine tune 其實(shí)相當(dāng)于增量訓(xùn)練,它總是有效的嗎?有充足的計(jì)算資源的情況下,大語(yǔ)言模型的學(xué)習(xí)能力是無(wú)限的嗎? 最近 Nature 自然雜志上發(fā)表了一篇來(lái)自艾伯塔大學(xué)的發(fā)現(xiàn),基于深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)在對(duì)新數(shù)據(jù)進(jìn)行長(zhǎng)時(shí)間按順序訓(xùn)練時(shí)會(huì)失去學(xué)習(xí)能力,即可塑性喪失[文獻(xiàn)5],用筆者的話說(shuō)就是梯度下降的邊際效用遞減。學(xué)者們還為解決這個(gè)問(wèn)題找到了可行方案 ——通過(guò)重置網(wǎng)絡(luò)節(jié)點(diǎn)上已關(guān)聯(lián)的權(quán)重。
我們知道,在人工神經(jīng)網(wǎng)絡(luò)中,權(quán)重被節(jié)點(diǎn)用作其強(qiáng)度的衡量標(biāo)準(zhǔn)——權(quán)重可以通過(guò)節(jié)點(diǎn)之間發(fā)送的信號(hào)來(lái)獲得或失去強(qiáng)度,而這些信號(hào)又受到數(shù)學(xué)計(jì)算結(jié)果的影響。隨著權(quán)重的增加,它所傳達(dá)的信息的重要性也會(huì)增加。 研究人員建議,在訓(xùn)練會(huì)話之間重新初始化部分使用最少的單元的權(quán)重,并使用與初始化系統(tǒng)時(shí)相同的方法,能夠使系統(tǒng)保持可塑性,并在額外的訓(xùn)練數(shù)據(jù)集上繼續(xù)學(xué)習(xí)。學(xué)者稱(chēng)這個(gè)新算法為“連續(xù)反向傳播”。 筆者覺(jué)得這個(gè)發(fā)現(xiàn)新穎有趣,其實(shí)符合學(xué)習(xí)過(guò)程的直覺(jué)。我們常說(shuō)“溫故而知新”,想要達(dá)到最佳的效果,溫故前需要將“其中一小部分較少關(guān)注的前提不斷且隨機(jī)地重置”,可以更好的知新。這難道是因?yàn)橹卣髦形_帶來(lái)了新的對(duì)稱(chēng)性破缺 ?重要性不言而喻。與使用一組規(guī)則對(duì)每個(gè)相同輸入產(chǎn)生相同輸出的計(jì)算機(jī)程序不同,GenAI 模型會(huì)在海量數(shù)據(jù)中找到模式,并為同一個(gè)輸入產(chǎn)生多個(gè)可能的答案。 進(jìn)一步的研究有可能幫助該領(lǐng)域開(kāi)發(fā)更好的模型幻覺(jué)保護(hù)措施,并防范自主 AI 智能體的風(fēng)險(xiǎn),例如欺騙或操縱。OpenAI也做過(guò)類(lèi)似研究,但兩家的研究范圍都受到很大限制。Google DeepMind 試圖在其最近發(fā)布的 Gemma Scope 中解決這一限制,該工具可以查看他們的 Gemma 2模型版本的所有層,涵蓋三千萬(wàn)個(gè)特征。Gemma Scope 是數(shù)百個(gè)免費(fèi)開(kāi)放稀疏自動(dòng)編碼器 (SAE) 的集合,適用于Gemma 2 9B和Gemma 2 2B。 到目前為止,可解釋性社區(qū)在理解具有稀疏自動(dòng)編碼器的小型模型和開(kāi)發(fā)相關(guān)技術(shù)(如因果干預(yù)、自動(dòng)電路分析、特征解釋和評(píng)估、稀疏自動(dòng)編碼器)方面取得了巨大進(jìn)展。新的工具可以幫助分析更復(fù)雜的功能(如CoT思路鏈),并找到可解釋性的實(shí)際應(yīng)用,例如解決只有在較大模型中才會(huì)出現(xiàn)的幻覺(jué)和越獄等等問(wèn)題。 [文獻(xiàn)1] Emergent Representations of Program Semantics in Language Models Trained on Programs https://arxiv.org/pdf/2305.11169[文獻(xiàn)2] Large language models can be zero-shot anomaly detectors for time series? https://arxiv.org/abs/2405.14755[文獻(xiàn)3] Generative artificial intelligence performs rudimentary structural biology modeling https://www.nature.com/articles/s41598-024-69021-2[文獻(xiàn)4] Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data https://arxiv.org/abs/2407.13765 [文獻(xiàn)5]Loss of plasticity in deep continual learning
https://www.nature.com/articles/s41586-024-07711-7 [文獻(xiàn)6] Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2 https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 未來(lái)智能實(shí)驗(yàn)室的主要工作包括:建立AI智能系統(tǒng)智商評(píng)測(cè)體系,開(kāi)展世界人工智能智商評(píng)測(cè);開(kāi)展互聯(lián)網(wǎng)(城市)大腦研究計(jì)劃,構(gòu)建互聯(lián)網(wǎng)(城市)大腦技術(shù)和企業(yè)圖譜,為提升企業(yè),行業(yè)與城市的智能水平服務(wù)。每日推薦范圍未來(lái)科技發(fā)展趨勢(shì)的學(xué)習(xí)型文章。目前線上平臺(tái)已收藏上千篇精華前沿科技文章和報(bào)告。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。