制作多態(tài)大模型，需要克服那些技術(shù)難題？

2023.07.10 廣東

制作多態(tài)大模型是當(dāng)前人工智能領(lǐng)域的一個(gè)前沿課題，它旨在構(gòu)建具有廣泛適應(yīng)性和高度靈活性的模型，以應(yīng)對(duì)不同領(lǐng)域和任務(wù)的挑戰(zhàn)。然而，要實(shí)現(xiàn)這一目標(biāo)，我們需要克服許多技術(shù)難題。在解決這些難題的過(guò)程中，何曉東先生提出了一些獨(dú)到的見(jiàn)解和觀點(diǎn)，為制作多態(tài)大模型指明了方向。

在多模態(tài)大模型的研究中，我們面臨著幾個(gè)技術(shù)難點(diǎn)。首先，我們需要確定在哪個(gè)層次上進(jìn)行多模態(tài)融合的目的。僅僅為了賦予語(yǔ)言模型多模態(tài)功能是不夠的，因?yàn)檫@可以通過(guò)簡(jiǎn)單地調(diào)用另一個(gè)模型來(lái)實(shí)現(xiàn)。例如，如果我們讓一個(gè)語(yǔ)言模型調(diào)用Midjourney模型來(lái)繪制圖像，雖然從任務(wù)層面上看似乎能完成多種任務(wù)，但在模型層面上，這兩個(gè)模型是分離的，無(wú)法實(shí)現(xiàn)多模態(tài)智能的涌現(xiàn)。

之所以大模型受到關(guān)注并引發(fā)熱議，并非僅僅因?yàn)樗囊?guī)模龐大，而是因?yàn)槿藗冮_(kāi)始意識(shí)到了它的智能"涌現(xiàn)"。在過(guò)去的機(jī)器學(xué)習(xí)算法中，隨著模型規(guī)模增大，邊際效益逐漸減小，即效果的提升越來(lái)越小。但現(xiàn)在人們發(fā)現(xiàn)，當(dāng)模型大小超過(guò)數(shù)百億后，它的邊際效益開(kāi)始遞增，這導(dǎo)致了突然間效果的顯著提升，被稱為智能的"涌現(xiàn)"。因此，"涌現(xiàn)"是大模型最令人著迷的地方。

如果我們希望在多模態(tài)層次上看到智能的涌現(xiàn)，那么意味著我們需要在底層將語(yǔ)言和視覺(jué)結(jié)合起來(lái)。只有在最底層的結(jié)合才能出現(xiàn)智能的涌現(xiàn)。換句話說(shuō)，我們需要構(gòu)建一個(gè)稠密的多模態(tài)大模型，才能實(shí)現(xiàn)這種涌現(xiàn)。

第二個(gè)問(wèn)題是，當(dāng)模型變得更加智能時(shí)，從哪個(gè)層次開(kāi)始變得智能？我們常說(shuō)一圖勝千言，因此相對(duì)于"圖生文"，"文生圖"是一個(gè)更具挑戰(zhàn)性的多模態(tài)任務(wù)。給予機(jī)器簡(jiǎn)短的文字描述，讓它生成圖像，需要機(jī)器具備極高的想象力。

例如，用"文生圖"模型繪制一只鳥(niǎo)，面對(duì)粗略的描述，AI可以自動(dòng)補(bǔ)充細(xì)節(jié)，不僅要整體上對(duì)得上，還需要局部細(xì)節(jié)也匹配。難點(diǎn)在于，原始的視覺(jué)信號(hào)僅僅是像素點(diǎn)，而語(yǔ)言信號(hào)最初只是單詞或字符，二者很難對(duì)齊，層次結(jié)構(gòu)也不同，因此我們需要找到一個(gè)適當(dāng)?shù)膶哟?，使多模態(tài)信息能夠?qū)R。目前看來(lái)，如果多模態(tài)模型要變得智能，這種智能將出現(xiàn)在語(yǔ)義層面上。我們?cè)?/span>2017年底參加了微軟的"顛覆性技術(shù)展望"（Disruptive Technology Review）會(huì)議，并向納德拉及其管理團(tuán)隊(duì)進(jìn)行了關(guān)于以文字驅(qū)動(dòng)視覺(jué)內(nèi)容生成的工作的專題報(bào)告。

總而言之，制作多態(tài)大模型是一個(gè)復(fù)雜而充滿挑戰(zhàn)的任務(wù)，但也為我們帶來(lái)了巨大的機(jī)遇和潛力。通過(guò)克服技術(shù)難題，并秉持著何曉東先生所強(qiáng)調(diào)的理念，我們可以打造出更加靈活、適應(yīng)性更強(qiáng)的模型，為各個(gè)領(lǐng)域帶來(lái)創(chuàng)新和突破。相信不久的將來(lái)，多態(tài)大模型將成為人工智能發(fā)展的重要引擎，為我們創(chuàng)造更加智能和高效的世界。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類似文章

［首藏作品］（6930）同一模型完成多場(chǎng)景任務(wù) 人工智能大模型或加速技術(shù)落地

讓AI更通用的“通義”大模型，來(lái)了！

ChatGPT 加持，決策大模型距離 AGI 更進(jìn)一步

AI：多模態(tài)和大模型的一些經(jīng)驗(yàn)總結(jié)daiding

通用人工智能，通向何方？

具身智能？它為何能賦予機(jī)器人靈魂

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版