專利分析視角下的ChatGPT創(chuàng)新路徑及對中國大模型技術(shù)發(fā)展的啟示
摘要
Open AI公司推出的ChatGPT以最快速度(5天)突破百萬用戶,并不斷更新迭代,2023年3月推出最新版本Chat GPT4.0,產(chǎn)生現(xiàn)象級效應(yīng)。本文基于專利視角分析ChatGPT相關(guān)技術(shù)創(chuàng)新路徑,闡述主要技術(shù)創(chuàng)新點,詳細(xì)分析國、內(nèi)外主要申請人的專利布局情況,探討專利分析角度下的GPT技術(shù)局限性,從而期望對國內(nèi)大模型技術(shù)發(fā)展有所啟示。
OpenAI成立于2015年,是由美國著名創(chuàng)業(yè)孵化器Y Combinator的總裁Sam Altman和特斯拉的CEO馬斯克(Elon Musk)發(fā)起的讓全人類受益的非盈利組織。OpenAI承諾開源所有技術(shù),鼓勵研究人員公開發(fā)表工作成果,將專利(如果有的話)與全世界共享,避免使用危害人類或過度集中權(quán)力的AI或AGI(通用人工智能)。2018年,因公司經(jīng)營理念問題,馬斯克與OpenAI分道揚鑣。在研發(fā)AI模型的過程中,OpenAI面臨越來越大的經(jīng)濟(jì)壓力,最后不得不在2019年轉(zhuǎn)變?yōu)橛怨?,之后獲得了微軟10億美元的投資。2022年1月,路透社援引的Semafor報告稱,微軟正考慮投資100億美金給OpenAI(總估值290億美金)。 ChatGPT是OpenAI于2022年11月推出的人工智能聊天機器人程序,該程序是在GPT-3.5(一種自然語言預(yù)訓(xùn)練大模型)基礎(chǔ)內(nèi)核上使用監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)進(jìn)行訓(xùn)練所得到的模型。在監(jiān)督學(xué)習(xí)過程中,ChatGPT收集了全新的人類對話語料,并將其與GPT-3.5的監(jiān)督學(xué)習(xí)語料合并。在強化學(xué)習(xí)過程中,ChatGPT首先訓(xùn)練了一個得分模型來對模型輸出進(jìn)行排序,然后用該得分模型來對生成模型輸出進(jìn)行反饋,并優(yōu)化該生成模型。最終由強化學(xué)習(xí)得到的模型即為ChatGPT。ChatGPT以文字方式互動,可以實現(xiàn)與人類對話交互,還可以實現(xiàn)文本生成、自動問答、自動摘要等在內(nèi)的多種任務(wù)。 ChatGPT的成功來源于更早期發(fā)布的GPT-3模型以及對RLHF的優(yōu)化。GPT是Generative Pre-trained Transformer(生成型預(yù)訓(xùn)練變換模型)的縮寫。它是基于Transformer架構(gòu)(2017年由谷歌提出),GPT的主要優(yōu)勢在于它可以通過預(yù)訓(xùn)練大量語料數(shù)據(jù)來獲得對語言任務(wù)的預(yù)測能力,而不需要大量的人工標(biāo)注數(shù)據(jù)。它具有良好的語言生成能力,可以生成文本、回答問題、對話等多項語言任務(wù)。RLHF(Reinforcement Learning from Human Feedback人類反饋強化學(xué)習(xí))是一項涉及多個模型和不同訓(xùn)練階段的復(fù)雜概念,包括以下三個步驟:預(yù)訓(xùn)練一個語言模型(LM);聚合問答數(shù)據(jù)并訓(xùn)練一個獎勵模型(Reward Model,RM);用強化學(xué)習(xí)(RL)方式微調(diào)LM。 2023年3月15日,多模態(tài)預(yù)訓(xùn)練大模型GPT-4正式發(fā)布,能夠處理文本、圖像兩種模態(tài)以及25000個單詞的超長文本輸入,并通過文本輸出。GPT-4能夠很好的支持圖像輸入,能夠理解圖片中的幽默之處,并且具備理解長上下文的能力,在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測試上表現(xiàn)出人類水平,包括通過模擬律師考試,分?jǐn)?shù)約為全體考生的前10%。相對于以前的GPT-3.5模型,GPT-4明顯減少了“幻覺”,在團(tuán)隊內(nèi)部對抗性設(shè)計的事實性評估中,GPT-4的得分比GPT-3.5高19個百分點。但是,考慮到GPT-4這樣的大模型的競爭格局和安全影響,OpenAI并未公開有關(guān)架構(gòu)(包括模型大?。?、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法或類似內(nèi)容的更多詳細(xì)信息。目前,ChatGPTPlus版本已經(jīng)使用GPT-4模型。 智譜AI團(tuán)隊研究發(fā)布的《ChatGPT團(tuán)隊背景研究報告》稱,2023年2月,ChatGPT團(tuán)隊規(guī)模不足百人(共87人)。分析發(fā)現(xiàn),其顯著特征是“年紀(jì)很輕”、“背景豪華”、“聚焦技術(shù)”、“積累深厚”、“崇尚創(chuàng)業(yè)”和“華人搶眼”。該團(tuán)隊平均年齡為32歲,“90后”是主力軍。他們引領(lǐng)的這一波大型語言模型技術(shù)風(fēng)潮,充分說明了那些經(jīng)常被認(rèn)為研發(fā)經(jīng)驗不足的年輕人,完全有可能在前沿科技領(lǐng)域取得重大突破。團(tuán)隊成員絕大多數(shù)擁有名校學(xué)歷,且具有全球知名企業(yè)工作經(jīng)歷。華人學(xué)者歐陽龍參與了與ChatGPT相關(guān)的7大技術(shù)項目中的4大項目的研發(fā),他是InstructGPT論文的第一作者,是RLHF論文的第二作者,可見他是這兩個關(guān)鍵技術(shù)項目的核心人員。
02 專利視角下的ChatGPT相關(guān)技術(shù)創(chuàng)新路徑
在世界著名的DWPI摘要數(shù)據(jù)庫中,以申請人(OpenAI)、發(fā)明人(InstructGPT、GPT-3等技術(shù)對應(yīng)論文作者)、結(jié)合“NLP”、“語言”、“訓(xùn)練”等關(guān)鍵詞進(jìn)行檢索,發(fā)現(xiàn)OpenAI公司作為權(quán)利人的專利數(shù)量為零,同時采用多種商業(yè)數(shù)據(jù)庫進(jìn)行搜尋,均未發(fā)現(xiàn)OpenAI名下任何專利。 分析其原因,OpenAI在成立之初作為非盈利組織,期望開源所有技術(shù),專利制度作為公開換保護(hù)的一種方式,申請專利對于非盈利組織不是必須的,而OpenAI轉(zhuǎn)變?yōu)橛怨竞?,考慮到ChatGPT、GPT-3、GPT-4屬于黑盒模型,且模型的訓(xùn)練花費龐大,開發(fā)和部署都很復(fù)雜,對于其他公司或科研院所而言很難復(fù)現(xiàn),不通過專利也能實現(xiàn)技術(shù)保護(hù),通過商用API(Application Programming Interface,應(yīng)用程序編程接口)等方式即可獲利,另一方面,對于訓(xùn)練語料獲取、模型算法而言,可能會涉及專利不授權(quán)客體問題,不能進(jìn)行專利保護(hù),而即使不涉及客體問題的,由于訓(xùn)練等步驟的不可見性,在專利授權(quán)后也很難進(jìn)行維權(quán),因此OpenAI公司有可能通過商業(yè)秘密進(jìn)行技術(shù)保護(hù)。 根據(jù)OpenAI官網(wǎng)公開的ChatGPT技術(shù)原理圖分析得知,ChatGPT的訓(xùn)練過程分為以下三個階段: 第一階段:訓(xùn)練監(jiān)督策略模型。首先會在數(shù)據(jù)集中隨機抽取問題,由標(biāo)注人員給出高質(zhì)量答案,然后用人工標(biāo)注好的數(shù)據(jù)來微調(diào)GPT-3.5模型,獲得SFT(Supervised Fine-Tuning)模型。 第二階段:訓(xùn)練獎勵模型(Reward Model,RM)。在數(shù)據(jù)集中隨機抽取問題,使用第一階段生成的模型生成多個不同的回答。標(biāo)注人員對輸出進(jìn)行打分排序,使用排序結(jié)果數(shù)據(jù)來訓(xùn)練獎勵模型。 第三階段:采用強化學(xué)習(xí)中的PPO(Proximal Policy Optimization,近端策略優(yōu)化)來優(yōu)化策略。首先使用第一階段中的初始權(quán)重構(gòu)造一個初始的PPO模型。針對在數(shù)據(jù)集中采樣的新的問題,使用PPO模型生成回答,并用第二階段訓(xùn)練好的RM模型給出回報分?jǐn)?shù)。PPO策略可以會通過回報分?jǐn)?shù)計算出策略梯度,并更新PPO模型參數(shù)。 隨著2017年谷歌Transformer模型的提出,預(yù)訓(xùn)練語言模型開始顯著發(fā)展,因此本文關(guān)于預(yù)訓(xùn)練語言模型技術(shù)的檢索主要針對2017年之后申請的專利。在DWPI摘要數(shù)據(jù)庫中,針對關(guān)鍵詞“l(fā)anguage model”、“train”、“fine-tune”進(jìn)行簡單檢索,共有2600多篇專利文獻(xiàn)。檢索結(jié)果僅針對專利摘要進(jìn)行檢索,且為專利同族合并后的結(jié)果。 圖2 預(yù)訓(xùn)練語言模型技術(shù)申請人來源國家
在預(yù)訓(xùn)練語言模型領(lǐng)域,中國企業(yè)發(fā)展迅速。百度、阿里、騰訊、華為都是主要申請人,且均在海外展開布局,國外申請人主要集中在微軟、谷歌和三星。但是還應(yīng)注意到,國外一些公司針對神經(jīng)網(wǎng)絡(luò)、編解碼器結(jié)構(gòu)改進(jìn)的專利技術(shù)方案,在摘要中并沒有提到語言模型,但是神經(jīng)網(wǎng)絡(luò)等是可以應(yīng)用到語言模型中的,因此實際上關(guān)于預(yù)訓(xùn)練語言模型技術(shù)的申請量會更多。 為了更全面地了解國外申請人在中國的布局情況,針對全文數(shù)據(jù)再次檢索,并統(tǒng)計合并同族的結(jié)果。 谷歌多年來陸續(xù)提出Transformer、BERT、T5等模型,目前針對Transformer申請相關(guān)美國專利(US2018341860A1,專利名“基于注意的序列轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò)”),并在中美歐日韓等多個國家布局。BERT、T5雖未申請專利,但是我們經(jīng)檢索發(fā)現(xiàn),其專利布局涵蓋了基于上述模型衍生的下游任務(wù),在多語言翻譯、文本語音轉(zhuǎn)換、完型填空、稀疏表示、情感分類等領(lǐng)域有所技術(shù)改進(jìn)。2021年,谷歌提出了SwitchTransformer模型,采用了稀疏激活技術(shù),擁有1.6萬億參數(shù),相同資源情況下,訓(xùn)練速度比由谷歌開發(fā)的最大語言模型T5-XXL快了4倍,谷歌就該模型申請相關(guān)PCT國際專利申請WO2022150649A1(NEURALNETWORKSWITHSWITCHLAYERS),目前并未進(jìn)入任何國家階段。谷歌也在模型訓(xùn)練、微調(diào)等方面開展專利布局。 基于BERT模型,微軟于2020年提出了DeBerta模型,并提交申請相關(guān)美國專利“具有解開注意力和多步解碼的高效變壓器語言模型”(US2021334475A1),利用多步解碼來更好地重建掩蔽標(biāo)記并改善預(yù)訓(xùn)練收斂來促進(jìn)預(yù)訓(xùn)練的自然語言模型的自訓(xùn)練。2021年提出的LORA模型主要涉及神經(jīng)網(wǎng)絡(luò)模型的低秩自適應(yīng),凍結(jié)了預(yù)訓(xùn)練的模型權(quán)重(相關(guān)美國專利US2022383126A1)。此外,微軟也在下游任務(wù)進(jìn)行專利布局,例如其申請的PCT國際專利申請WO2022221045A1涉及多任務(wù)模型,包括例如共享編碼器、多個任務(wù)特定編碼器和用于多個任務(wù)的多個任務(wù)特定線性層等。 在Patentics的英文全文庫中以“DeepMind”(DeepMind為Google旗下前沿人工智能企業(yè))作為申請人,language model作為關(guān)鍵詞進(jìn)行檢索,檢索結(jié)果為27篇。DeepMind側(cè)重于對神經(jīng)網(wǎng)絡(luò)的改進(jìn)。中國專利“針對使用對抗訓(xùn)練的表示學(xué)習(xí)的推理的大規(guī)模生成神經(jīng)網(wǎng)絡(luò)模型”(CN113795851A),訓(xùn)練可以是基于損失函數(shù),該損失函數(shù)包括基于由鑒別器神經(jīng)網(wǎng)絡(luò)處理的輸入對的樣本部分和潛在部分的聯(lián)合鑒別器損失項和僅僅基于輸入對的樣本部分或潛在部分中的一個部分的至少一個單一鑒別器損失項,該專利在中美等國均有布局,根據(jù)英文庫中檢索得到的專利查找其中文同族,可以確定DeepMind在中國申請使用淵慧科技有限公司名稱。 由圖5可以看出,DeepMind在多模態(tài)方面也有所布局,涉及凍結(jié)語言模型的多模態(tài)少樣本學(xué)習(xí)以及使用多模態(tài)輸入選擇操作。多模態(tài)的語言模型是一種能夠同時處理不同類型的數(shù)據(jù),如文本、圖像、音頻和視頻的人工智能技術(shù)。多模態(tài)語言模型的目標(biāo)是實現(xiàn)跨模態(tài)的理解、生成和交互,從而提高人機對話和信息檢索的效果。谷歌近期申請了基于UI的多模態(tài)模型,例如美國專利US2023031702A1通用用戶界面轉(zhuǎn)換器(VUT),處理三種類型的數(shù)據(jù):圖像、結(jié)構(gòu)(視圖層次)和語言,并且執(zhí)行多個不同的任務(wù),諸如UI對象檢測、自然語言處理、屏幕摘要、UI可敲擊性預(yù)測。微軟的PCT國際專利申請WO2022187063A1則公開了一種視覺與語言的跨模態(tài)加工方法,基于視覺語義特征集和文本特征集來訓(xùn)練目標(biāo)模型,以確定輸入文本和輸入圖像之間的關(guān)聯(lián)信息。
03 國內(nèi)相關(guān)技術(shù)發(fā)展情況
在Patentics的中文數(shù)據(jù)庫中,以“預(yù)訓(xùn)練”、“大規(guī)?!薄ⅰ罢Z言模型”、“微調(diào)”、“零/少樣本”、“知識圖譜”等作為關(guān)鍵詞進(jìn)行簡單檢索,共檢索出12292篇專利,我們可以看出國內(nèi)預(yù)訓(xùn)練大模型技術(shù)自2018年后開始迅速發(fā)展,鑒于目前21年、22年申請的專利未全部公開,實際上該領(lǐng)域的專利申請數(shù)量可能更多。 圖7 人工智能大模型技術(shù)中國專利主要申請人
圖8 語言大模型技術(shù)中國申請人在美國的申請量
2019年3月,百度提出文心大模型ERNIE,隨后百度在知識圖譜、語言理解與生成技術(shù)、以及機器翻譯、對話系統(tǒng)、摘要生成、長文本語義、文本糾錯等領(lǐng)域都進(jìn)行布局。其中知識圖譜包括實體知識圖譜、行業(yè)知識圖譜、事件圖譜、關(guān)注點圖譜以及多模態(tài)圖譜。 華為與清華大學(xué)、哈爾濱工業(yè)大學(xué)、中國人民大學(xué)等高校均有合作,語言模型包括自回歸模型,并在模型訓(xùn)練方法、量子電路進(jìn)行模型復(fù)數(shù)運算、降低訓(xùn)練PLM所需資源、文本向量等方向進(jìn)行專利布局。 圖9給出了國內(nèi)語言模型相關(guān)專利發(fā)展情況。其中,中國專利CN110717339A通過構(gòu)建詞語片段、句子以及文章三個不同層級的無監(jiān)督或弱監(jiān)督預(yù)訓(xùn)練任務(wù),使得語義表示模型可以從海量數(shù)據(jù)中學(xué)習(xí)到詞語片段、句子以及文章不同層次的知識,增強了通用語義表示的能力,提升NLP任務(wù)的處理效果,百度公司的這項專利還獲得了第二十三屆2022中國專利獎優(yōu)秀獎。 圖9 國內(nèi)語言模型相關(guān)專利發(fā)展情況
針對多模態(tài)模型,百度的中國專利CN115374798A提出將跨語言預(yù)訓(xùn)練目標(biāo)和跨模態(tài)預(yù)訓(xùn)練目標(biāo)無縫地組合在統(tǒng)一的框架中,從可用的英文圖像字幕數(shù)據(jù)、單語語料庫和平行語料庫在聯(lián)合嵌入空間中學(xué)習(xí)圖像和文本。華為的中國專利CN115688937A將不同模態(tài)的數(shù)據(jù)的特征表示映射到同一個離散空間中,可以基于該離散空間對多模態(tài)的特征表示進(jìn)行建模,得到兼容多模態(tài)輸入數(shù)據(jù)的模型。 2)國內(nèi)人機交互應(yīng)用相關(guān)專利
而針對類似于ChatGPT的人機交互應(yīng)用,國內(nèi)申請人也有相應(yīng)的專利布局,但未進(jìn)行海外布局。 表1 國內(nèi)主要公司的技術(shù)布局情況
目前免費版ChatGPT使用GPT-3.5版本(以下稱為ChatGPT-3.5),具有出色的上下文對話能力,但是尚不能進(jìn)行多模態(tài)交互,缺乏解決數(shù)學(xué)問題的能力,并且對于一些專業(yè)領(lǐng)域缺少足夠的數(shù)據(jù)進(jìn)行訓(xùn)練,導(dǎo)致無法常常無法生成適當(dāng)回答。例如,筆者嘗試用ChatGPT-3.5闡述美國專利US2021334475A1的技術(shù)方案,它可以完整地描述出專利的發(fā)明名稱、技術(shù)方案等,但是這個專利文本實際上是微軟公司于2020年6月24日申請的名為“具有解開注意力和多步解碼的高效變壓器語言模型”,公開日為2021年10月28日,ChatGPT-3.5的回答完全文不對題。至少ChatGPT-3.5無法做到專利號和發(fā)明內(nèi)容的簡單對應(yīng),這可能是缺少相關(guān)專利語料造成的。 鑒于微軟將GPT-4整合進(jìn)NewBing中,筆者通過NewBing的聊天功能搜索美國專利US2021334475A1。雖然它能夠完整的給出所有信息,但是除了發(fā)明名稱是正確的,申請日、公開日、申請人、發(fā)明人信息都是錯誤的(見圖11)。就此次結(jié)果而言,New Bing更傾向于在搜索的基礎(chǔ)上對信息作出完整的補充,并不能保證真實性。 需要注意的是,New Bing在多次嘗試后,也會給出錯誤的答案(見圖12)。 ChatGPT-3.5以及NewBing都不能完整的提供專利文件信息,那么針對法律條款是否能獲得較好效果呢?筆者分別向ChatGPT-3.5和NewBing詢問“專利的技術(shù)方案是無法實現(xiàn)的,需要用到中國專利法的哪個法條”,ChatGPT給出的答案類似于使用大量法律文獻(xiàn)訓(xùn)練模型的結(jié)果,雖然看似準(zhǔn)確,但涉及的條款及其規(guī)定都不是中國專利法的內(nèi)容,而NewBing則是搜索加工的結(jié)果,找到了適合的條款,但是法條規(guī)定的內(nèi)容與該條款毫無關(guān)系。因此,ChatGPT-3.5和NewBing都不能保證生成內(nèi)容的準(zhǔn)確性。 圖13 ChatGPT-3.5與New Bing聊天功能對比
探究其原因,GPT-3.5只是基于本地的語料庫進(jìn)行搜索,沒有聯(lián)網(wǎng),所以對于很多無法獲取的信息會進(jìn)行杜撰,缺乏準(zhǔn)確性,但是GPT-4和New Bing是具有聯(lián)網(wǎng)形態(tài)的大語言模型,回答問題時會首先通過用戶的詢問在互聯(lián)網(wǎng)上搜索相關(guān)的語料進(jìn)行補充,所以可以杜絕部分杜撰的情況,但是對于非常見的問題,或者是信息缺失的情境下,還是會有編造的風(fēng)險。 此外,ChatGPT的訓(xùn)練和部署都需要大量算力來支持,因此可能需要更輕量化的模型。對于國內(nèi)企業(yè)而言,需要通過加深國內(nèi)產(chǎn)學(xué)研合作方式推動大模型發(fā)展。根據(jù)公開資料檢索發(fā)現(xiàn),鵬城實驗室與華為合作開發(fā)盤古大模型,與百度合作開發(fā)鵬城-百度·文心大模型;另一方面,華為把科研院所、產(chǎn)業(yè)廠商等結(jié)合起來,以期更好地讓大模型產(chǎn)業(yè)形成正向的閉環(huán)回路。
05 對國內(nèi)大模型技術(shù)發(fā)展的啟示
1)強調(diào)原始創(chuàng)新,發(fā)展大模型可持續(xù)演化
大模型的未來需要原始性創(chuàng)新,也需要自我生長,向可持續(xù)、可進(jìn)化的方向發(fā)展。人工智能技術(shù)近年來呈指數(shù)型發(fā)展趨勢,在當(dāng)今政治經(jīng)濟(jì)環(huán)境下,我們更應(yīng)強調(diào)原始創(chuàng)新的重要性,掌握根技術(shù),但也不能拘泥于閉門造車,要求事事從零起步,要重視國際國內(nèi)合作交流,實現(xiàn)大模型的可持續(xù)演化。 2) 建設(shè)大模型研發(fā)設(shè)施
如今的人工智能研究,已經(jīng)突破單兵作戰(zhàn),“小作坊”式的埋頭鉆研無法在當(dāng)下競爭日益激烈的環(huán)境中產(chǎn)出突破性科研成果。ChatGPT的橫空出世也是基于前期幾十億美金的投入,大成果的產(chǎn)出必須依托大平臺。國內(nèi)應(yīng)大力扶持高端科研平臺,從數(shù)據(jù)、算力、工程創(chuàng)新能力三方面,三位一體加快建設(shè)大科學(xué)設(shè)施集群。 科技創(chuàng)新的競爭本質(zhì)是科技人才的競爭。從前文分析可知,OpenAI的成功除了大量算力的投入,更重要的是聚集了大量頂尖的科學(xué)家和工程師。面向全球吸引具備攻克技術(shù)難關(guān)能力的杰出人才,選拔具備國際影響力的領(lǐng)軍人才,培育具備較高發(fā)展?jié)摿Φ那嗄耆瞬?,將會是國?nèi)人工智能發(fā)展的重要手段。 大模型技術(shù)的紅利期還很長,ChatGPT的火爆出圈并不代表國內(nèi)完全喪失先機,只能做跟跑者。文本語言類大模型,OpenAI走在前列,但在多模態(tài)大模型領(lǐng)域,世界各國科學(xué)家還在攻克技術(shù)難題。國內(nèi)要想在新一輪人工智能科技創(chuàng)新中成為領(lǐng)跑者,就必須要學(xué)會差異化競爭,做出中國特色。大模型技術(shù)的演化一定會越來越強調(diào)科技倫理治理、系統(tǒng)安全性,在安全倫理方面的建設(shè),突出中國價值觀,也是我們需要關(guān)注的重點。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報 。