免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
英文訓(xùn)練AI大模型比中文更便宜,可為什么會(huì)這樣?

如今國(guó)內(nèi)市場(chǎng)的“百模大戰(zhàn)”正如火如荼,無(wú)論是BAT這樣的傳統(tǒng)豪強(qiáng),還是美團(tuán)、字節(jié)跳動(dòng)這樣的新興巨頭,乃至科大訊飛等傳統(tǒng)AI廠商都已入局。但提到AI大模型,似乎大家還是認(rèn)為ChatGPT、Bing Chat、Bard等海外廠商的相關(guān)產(chǎn)品往往更加好用。

事實(shí)上,這并非錯(cuò)覺(jué)。近期牛津大學(xué)進(jìn)行的一項(xiàng)研究就顯示,用戶所使用的語(yǔ)言對(duì)于大型語(yǔ)言模型(LLM)的訓(xùn)練成本有著密切的聯(lián)系。

根據(jù)這一研究結(jié)果顯示,按照OpenAI采用的服務(wù)器成本衡量和計(jì)費(fèi)方式,讓一個(gè)LLM處理一句緬甸撣語(yǔ)的句子需要198個(gè)詞元(tokens),但同樣的句子用英語(yǔ)寫(xiě)則只需17個(gè)詞元。據(jù)統(tǒng)計(jì),簡(jiǎn)體中文的訓(xùn)練費(fèi)用大約是英語(yǔ)的兩倍,西班牙語(yǔ)是英語(yǔ)的1.5倍,而緬甸的撣語(yǔ)則是英語(yǔ)的15倍。詞元通常是指語(yǔ)料中文字存在的最小單位,但它的具體指代則是多變的,既可以是字、也可以是分詞結(jié)果的詞。

由于AI業(yè)界目前會(huì)使用詞元來(lái)代表通過(guò)OpenAI或其他廠商API訪問(wèn)大模型所需的計(jì)算成本,所以也就意味著牛津大學(xué)的這項(xiàng)研究表明,英語(yǔ)才是目前訓(xùn)練大模型最便宜的語(yǔ)言,其他語(yǔ)言的成本則要大得多。

那么為什么會(huì)造成這一現(xiàn)象呢?用中文本身相比于英文更加復(fù)雜來(lái)解釋顯然并不科學(xué),畢竟現(xiàn)代語(yǔ)言學(xué)是歐洲創(chuàng)建起來(lái)的,甚至現(xiàn)代漢語(yǔ)的語(yǔ)法分析原理也脫胎于西方的語(yǔ)法分析原理。

漢藏語(yǔ)系的語(yǔ)法結(jié)構(gòu)與印歐語(yǔ)系相去甚遠(yuǎn),參照印歐的屈折型語(yǔ)法來(lái)看以漢語(yǔ)為代表的孤立型語(yǔ)法,當(dāng)然會(huì)覺(jué)得復(fù)雜。然而,詞元(tokens)是以O(shè)penA視角里中的訓(xùn)練成本來(lái)定義的,不是以字符來(lái)劃分。而且,英文單詞間是存在空格的,對(duì)英文文本處理時(shí)可以通過(guò)空格來(lái)切分單詞。然而中文詞之間不存在天然地空格,并且中文詞是由多個(gè)字構(gòu)成的,所以對(duì)于中文文本處理之前首先要進(jìn)行分詞。

真正導(dǎo)致用英文訓(xùn)練AI大模型成本更低的原因,是OpenAI等廠商的分詞算法與英文以外其他語(yǔ)言的語(yǔ)義理解技術(shù)不到位有關(guān)。以O(shè)penAI為例,作為一家美國(guó)公司,其團(tuán)隊(duì)在訓(xùn)練大模型時(shí)必然會(huì)選擇以英語(yǔ)語(yǔ)料為起點(diǎn),標(biāo)注人工的投入顯然也是英語(yǔ)系最方便,畢竟這會(huì)直接影響到大模型訓(xùn)練的強(qiáng)度和產(chǎn)出,也是為什么他們選擇的人工標(biāo)注團(tuán)隊(duì)在肯尼亞,而后者作為英聯(lián)邦國(guó)家,以英語(yǔ)為官方語(yǔ)言、且教育水平較高。

AI理解不同語(yǔ)言不是通過(guò)翻譯,而是直接學(xué)習(xí)相關(guān)語(yǔ)言的文本。那么AI大模型使用不同語(yǔ)言的能力差別又從何而來(lái)呢?答案是不同語(yǔ)言語(yǔ)料的豐富程度。此前百度的“文心一言”在內(nèi)測(cè)過(guò)程中出現(xiàn)文生圖不符實(shí)際的情況,就曾有主流觀點(diǎn)認(rèn)為,這是由于中文自然語(yǔ)言處理領(lǐng)域缺乏高質(zhì)量中文語(yǔ)料所導(dǎo)致的結(jié)果。

而語(yǔ)料則是AI大模型的基礎(chǔ),生成式AI的原理大概可以總結(jié)為,通過(guò)大量的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,再?gòu)母鞣N類(lèi)型的反饋中進(jìn)行流暢的學(xué)習(xí),并根據(jù)需要對(duì)反饋進(jìn)行整理,以建立相應(yīng)的模型,從而使得AI能夠?qū)θ祟?lèi)的問(wèn)題做出相應(yīng)的回答和決策。AI大模型之所以比以往的AI產(chǎn)品表現(xiàn)得更“聰明”,單純是因?yàn)檎Z(yǔ)料規(guī)模更大,比如OpenAI的GPT-3就擁有1750億的參數(shù)量。

“力大磚飛”其實(shí)是當(dāng)下大模型的底層邏輯,在這種情況下,語(yǔ)料基本就決定了它們的上限。語(yǔ)料肯定是越多越好,但如今的事實(shí),卻是英文才是目前互聯(lián)網(wǎng)世界中使用人群規(guī)模最大、使用頻率最高的語(yǔ)言。在去年6月,W3Techs又一次發(fā)布的全球互聯(lián)網(wǎng)網(wǎng)頁(yè)統(tǒng)計(jì)報(bào)告中就顯示,英語(yǔ)仍一騎絕塵,占比高達(dá)六成(63.6%)以上,俄語(yǔ)為第二名(7%),中文則僅有1.3%、排名第八。

當(dāng)然,W3Techs的統(tǒng)計(jì)只包含了網(wǎng)站,這也是為什么占全球網(wǎng)民五分之一的中文互聯(lián)網(wǎng)中,能夠拿得出手的網(wǎng)站僅占全球網(wǎng)站的1.3%。畢竟由于國(guó)內(nèi)發(fā)達(dá)的移動(dòng)互聯(lián)網(wǎng)生態(tài),App才是主體,大量信息已經(jīng)聚集在了各式各樣的App中,并且這些信息也難很通過(guò)爬蟲(chóng)獲取,所以也導(dǎo)致其很難進(jìn)行準(zhǔn)確的統(tǒng)計(jì)。

這樣的狀態(tài)自然也導(dǎo)致了漢語(yǔ)語(yǔ)料庫(kù)的匱乏,因?yàn)锳I行業(yè)的慣例是使用互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù),而App里的數(shù)據(jù)則是屬于運(yùn)營(yíng)方的,違規(guī)抓取App內(nèi)數(shù)據(jù)是妥妥的違法行為。而國(guó)內(nèi)互聯(lián)網(wǎng)大廠將信息牢牢控制在自家App里,進(jìn)而也導(dǎo)致了公開(kāi)的中文語(yǔ)料不增反減。

不同于海外市場(chǎng)Reddit、Twitter這類(lèi)愿意賣(mài)數(shù)據(jù)的平臺(tái),將無(wú)邊界擴(kuò)張思維銘刻在腦海里的國(guó)內(nèi)互聯(lián)網(wǎng)巨頭,幾乎每一家都在貪大求全,而敝帚自珍更是成為了各家共同的選擇。既然互聯(lián)網(wǎng)上的公開(kāi)信息是以英文為主,即使國(guó)內(nèi)的AI大模型訓(xùn)練往往也是從英文為起點(diǎn),所以文心一言會(huì)出現(xiàn)“英翻中”的現(xiàn)象也就不足為奇了。

歸根結(jié)底,AI大模型使用不同語(yǔ)言的訓(xùn)練成本,其實(shí)和該語(yǔ)言構(gòu)筑的互聯(lián)網(wǎng)生態(tài)繁榮程度呈現(xiàn)正相關(guān)。例如丹麥語(yǔ)、荷蘭語(yǔ)等小語(yǔ)種使用者在互聯(lián)網(wǎng)上留下的內(nèi)容過(guò)于匱乏,就導(dǎo)致訓(xùn)練AI大模型使用它們來(lái)輸出內(nèi)容不光成本更高,而且效果也更差。但更加不妙的是,由于馬太效應(yīng)的影響,英文在AI領(lǐng)域的強(qiáng)勢(shì)地位還或?qū)?huì)持續(xù)增強(qiáng)。

因此國(guó)內(nèi)市場(chǎng)的AI大模型想要更好用,獲得足夠、且高質(zhì)量的語(yǔ)料庫(kù)是關(guān)鍵。互聯(lián)互通這個(gè)已經(jīng)被提出多時(shí)的概念真正被貫徹的那一刻,或許才是中文AI大模型比肩ChatGPT們的時(shí)候。

【本文圖片來(lái)自網(wǎng)絡(luò)】

推薦閱讀:

十年前亮相的紅米,對(duì)于手機(jī)行業(yè)有著怎樣的意義

在這十年時(shí)間里,紅米已然成為了一個(gè)標(biāo)桿。

OpenAI下架AI文本檢測(cè)器,用AI檢測(cè)AI宣告失敗

OpenAI的這次嘗試,其實(shí)并非完全沒(méi)有意義。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
專(zhuān)利分析視角下的ChatGPT創(chuàng)新路徑及對(duì)中國(guó)大模型技術(shù)發(fā)展的啟示
萬(wàn)字長(zhǎng)文講述大模型與知識(shí)圖譜的關(guān)系
360與ChatGPT:機(jī)遇與挑戰(zhàn)【0319電話會(huì)議紀(jì)要】(來(lái)自韭研公社APP) 本文來(lái)自于2023
認(rèn)知ChatGPT的過(guò)程,就是消除偏見(jiàn)的過(guò)程
你看到的文字,可能是機(jī)器人寫(xiě)的
性能全面超越LLaMA2,0門(mén)檻商用,這個(gè)國(guó)產(chǎn)大模型要改變開(kāi)源競(jìng)爭(zhēng)格局了
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服