免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
陳根:Meta先下手為強(qiáng)推出AI大模型MMS
文/陳根
你懂幾國(guó)語(yǔ)言?據(jù)相關(guān)資料顯示,世界上一共有7000多種語(yǔ)言。但是,我們懂的可能就只有幾種或者幾十種。而目前的計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)所能覆蓋的則有100多種。這對(duì)于很多人來(lái)說(shuō),已經(jīng)是天文級(jí)的數(shù)字了。但Meta新開(kāi)源的語(yǔ)言模型卻有著更大的突破。
自從和OpenAI、Google分道揚(yáng)鑣之后,Meta便在開(kāi)源大模型方向上越走越深。日前,Meta在GitHub上新開(kāi)源的AI語(yǔ)言模型——Massively Multilingual Speech ( MMS,大規(guī)模多語(yǔ)種語(yǔ)音)可以識(shí)別4000多種口頭語(yǔ)言,是目前已知技術(shù)的40倍之多;還擴(kuò)展了文本與語(yǔ)音之間的轉(zhuǎn)化技術(shù)的涵蓋范圍,從大約100種語(yǔ)言到1100多種。不僅如此,Meta開(kāi)源的MMS最突出的特點(diǎn)是不僅支持ASR,還支持TTS,也就是說(shuō)不僅可以語(yǔ)音轉(zhuǎn)文字,還可以文字轉(zhuǎn)語(yǔ)音。
Meta的官網(wǎng)blog上特別提到的Tatuyo語(yǔ),一種只有幾百人在使用的小語(yǔ)種。雖然對(duì)于日常來(lái)說(shuō)沒(méi)什么用,但是對(duì)于研究來(lái)說(shuō)卻是一個(gè)很好的助手。那么,對(duì)于這種只有幾百人使用的小語(yǔ)種,如何才能找到并有效的提煉數(shù)據(jù)集呢?
Meta介紹說(shuō),他們?cè)跀?shù)千種語(yǔ)言的音頻數(shù)據(jù)收集過(guò)程中,使用了一種非常規(guī)的方法——宗教文本錄音?!拔覀冝D(zhuǎn)向已被翻譯成許多不同語(yǔ)言的宗教文本(例如《圣經(jīng)》),并且其翻譯已被廣泛研究用于基于文本的語(yǔ)言翻譯研究。而且,這些譯本都有公開(kāi)錄音,記錄了人們采用不同語(yǔ)言進(jìn)行閱讀的情景?!?/span>
同時(shí),Meta 在 MMS 模型的訓(xùn)練中結(jié)合使用了公司的 “自監(jiān)督語(yǔ)音表示學(xué)習(xí)”模型 wav2vec 2.0,使機(jī)器能夠在不依賴標(biāo)記訓(xùn)練數(shù)據(jù)的情況下進(jìn)行學(xué)習(xí);有了它,就可以在更少的數(shù)據(jù)上訓(xùn)練語(yǔ)音識(shí)別模型。
而對(duì)于此種方式可能導(dǎo)致的模型偏向性,Meta聲稱,“雖然這些數(shù)據(jù)來(lái)自特定領(lǐng)域,并且通常由男性閱讀;但我們的分析表明,我們的模型在男性和女性聲音方面表現(xiàn)同樣出色。雖然錄音的內(nèi)容是宗教的,但我們的分析表明,這并不會(huì)使模型偏向于產(chǎn)生更多的宗教語(yǔ)言?!?/span>
在使用1B參數(shù)的wav2vec 2.0模型對(duì)1100多種語(yǔ)言進(jìn)行多語(yǔ)言語(yǔ)音識(shí)別模型的訓(xùn)練的時(shí)候,研發(fā)人員發(fā)現(xiàn),隨著語(yǔ)言數(shù)量的增加,性能會(huì)有所下降,但非常輕微:從61種語(yǔ)言到1107種語(yǔ)言,字符錯(cuò)誤率只增加約0.4%,但語(yǔ)言覆蓋率卻增加了17倍以上?!?/span>
就此問(wèn)題,Meta還與OpenAI的Whisper做了詳細(xì)的對(duì)比,在數(shù)據(jù)上訓(xùn)練的模型實(shí)現(xiàn)了一半的單詞錯(cuò)誤率,并且訓(xùn)練數(shù)據(jù)更少:Meta的訓(xùn)練數(shù)據(jù)只有45k小時(shí)的標(biāo)注數(shù)據(jù),要比Whisper少10倍,而語(yǔ)言支持卻多了10倍,這是一個(gè)大的提高。不過(guò),Meta亦表示它的新模型并不完美,“例如,語(yǔ)音轉(zhuǎn)文本模型可能會(huì)錯(cuò)誤轉(zhuǎn)錄選定的單詞或短語(yǔ),這存在一定風(fēng)險(xiǎn)。但是,我們?nèi)匀幌嘈?,整個(gè) AI 社區(qū)的協(xié)作對(duì)于負(fù)責(zé)任地開(kāi)發(fā) AI 技術(shù)至關(guān)重要。”而目前,Meta 已經(jīng)開(kāi)源了相關(guān)的模型和代碼,以便研究社區(qū)中的其他人可以在此工作基礎(chǔ)上進(jìn)行構(gòu)建。
對(duì)于語(yǔ)音大模型的未來(lái),Meta并沒(méi)有完全做好設(shè)想,但他們希望可以通過(guò)稱也做了設(shè)想,希望可以通過(guò)一個(gè)模型解決所有語(yǔ)言的多個(gè)語(yǔ)音任務(wù)?!拔覀?yōu)檎Z(yǔ)音識(shí)別、語(yǔ)音合成和語(yǔ)言識(shí)別訓(xùn)練了不同的模型,但我們有理由相信在未來(lái),一個(gè)模型將能夠完成所有這些任務(wù)以及更多任務(wù),從而帶來(lái)更好的整體性能”,Meta 說(shuō)道。
放眼未來(lái),Meta希望擴(kuò)大MMS的覆蓋范圍以支持更多語(yǔ)言,并改進(jìn)其對(duì)方言的處理。進(jìn)一步打破世界各地人群之間的語(yǔ)言障礙,讓來(lái)自全球每個(gè)角落的人們都可以通過(guò)聲音正常交流。這是一個(gè)美好的愿景,但我們相信這一天的遲早是要到來(lái)的。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Meta 開(kāi)源多語(yǔ)言大模型,可識(shí)別 4000 多種語(yǔ)言、錯(cuò)誤率僅為 OpenAI 產(chǎn)品的一半
Meta用《圣經(jīng)》訓(xùn)練超多語(yǔ)言模型:識(shí)別1107種、辨認(rèn)4017種語(yǔ)言
LeCun狂贊:600刀GPT-3.5平替! 斯坦福70億參數(shù)「羊駝」爆火,LLaMA殺瘋了
單卡就能跑的大模型等效GPT-3!Meta發(fā)布大語(yǔ)言模型LLaMA
VoiceBox:開(kāi)啟虛擬世界的真實(shí)聲音時(shí)代
Meta發(fā)布名為SeamlessM4T的人工智能模型
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服