免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
比 OpenAI 更好??!谷歌發(fā)布 20 億參數(shù)通用語音模型——USM


去年11月,谷歌曾宣布“1000 種語言計劃”,通過建立一個機器學(xué)習(xí)模型,從而支持世界上使用人數(shù)最多的 1000 種語言。

近日,谷歌正式發(fā)布 20 億參數(shù)通用語音模型——USM,可支持 100 多種語言自動識別內(nèi)容檢測。谷歌將其描述為“最先進的通用語音模型”,擁有 20 億個參數(shù),經(jīng)過了 1200 萬小時的語音、280 億個句子和 300 多個語種數(shù)據(jù)集的預(yù)訓(xùn)練。

目前該模型在 Youtube 的字幕生成中已展現(xiàn)出來,可自動翻譯和檢測,如英語、普通話,甚至是阿塞拜疆語、阿薩姆語等小眾語言。

谷歌表示:“與 OpenAI 的大型通用語音模型 Whisper 相比,USM 的數(shù)據(jù)訓(xùn)練時長更短,錯誤率更低?!?/span>

支持 100 多種語言,將面臨兩大挑戰(zhàn)

隨著微軟和谷歌就 AI 聊天機器人展開討論后,我們逐漸清楚,這并不是機器學(xué)習(xí)和大語言模型的唯一用途。

據(jù)傳言,谷歌計劃在今年的年度 I/O 大會上展示 20 多款由 AI 驅(qū)動的產(chǎn)品。為了實現(xiàn)“1000種語言計劃”,谷歌表示他們目前需要解決自動語音識別(ASR)中的兩大挑戰(zhàn)。

一是傳統(tǒng)的學(xué)習(xí)方法的缺乏可擴展性。將語音技術(shù)擴展到多語種的一個基本挑戰(zhàn)便是需要足夠的數(shù)據(jù)來訓(xùn)練高質(zhì)量的模型,使用傳統(tǒng)方法時,需要手動將音頻數(shù)據(jù)進行標記,既耗時、價格又高。而對于那些小眾冷門的語種,更難找到預(yù)先存在的來源收集。

二是在擴大語言覆蓋范圍和提高模型質(zhì)量的同時,模型必須以高效的計算方法來改進。這就要求學(xué)習(xí)算法更加靈活、高效、可推廣。這些算法需要使用來源廣泛的數(shù)據(jù),并在不用重復(fù)訓(xùn)練的情況下更新模型,再推廣到新的語言中。

 

三個步驟降低錯誤率

據(jù)論文介紹,USM 使用的是標準的編碼器-解碼器架構(gòu),其中解碼器是 CTC、RNN-T 或 LAS。編碼器則使用的是 Conformer 或卷積增強 transformer。Conformer的關(guān)鍵組件是 Conformer 塊,它由注意力模塊、前饋模塊和卷積模塊組成。通過將語音信號的 log-mel 聲譜圖作為輸入,進行卷積下采樣,然后使用一系列的 Conformer 塊和投影層得到最終的嵌入。

訓(xùn)練共分為三個步驟:

第一步,是使用 BEST-RQ 來對涵蓋數(shù)百種語種的語音音頻進行自我監(jiān)督學(xué)習(xí)。

第二步,需要使用多目標監(jiān)督預(yù)訓(xùn)練來整合來自于其他文本數(shù)據(jù)的信息。該模型引入了一個額外的編碼器模塊來輸入文本,并引入額外層來組合語音編碼器和文本編碼器的輸出,并在未標記語音、標記語音和文本數(shù)據(jù)上聯(lián)合訓(xùn)練模型。

最后一步,需要 USM 對下游任務(wù)進行微調(diào),包括 ASR(自動語音識別)和 AST(自動語音翻譯)。

 

多項結(jié)果驗證

YouTube Captions 上的多語言表現(xiàn)

谷歌通過預(yù)訓(xùn)練集成了 300 多種語言,并通過對 YouTube Captions 的多語言語音數(shù)據(jù)進行微調(diào),證明了預(yù)先訓(xùn)練的編碼器的有效性。

受監(jiān)督的 YouTube 數(shù)據(jù)包括 73 種語言,平均每種語言的數(shù)據(jù)不到 3000 小時。盡管監(jiān)督數(shù)據(jù)有限,但 USM 在 73 種語言中實現(xiàn)了小于 30% 的單詞容錯率(WER)。與當前內(nèi)部最先進的模型相比,還要低 6%。與最近發(fā)布的大型模型 Whisper (large-v2)相比,USM 在 18 種語言中的錯誤率只有32.7%,同樣低于 Whisper。

對下游 ASR 任務(wù)的可推廣性

在公開可用的數(shù)據(jù)集上,USM 在 CORAAL (非裔美國人方言英語)、SpeechStew (en-US)和 FLEURS(102種語言)的數(shù)據(jù)集上的 WER 要比 Whisper 更低。不管是否接受過域內(nèi)數(shù)據(jù)訓(xùn)練,USM 的 WER 都更低。

自動語音翻譯(AST)

對于語音翻譯,谷歌在 CoVoST 數(shù)據(jù)集上對 USM 進行微調(diào)。通過有限的監(jiān)督數(shù)據(jù)達到了最佳性能。為了評估模型性能的廣度,谷歌根據(jù)資源可用性將 CoVoST 數(shù)據(jù)集中的語言劃分為高、中、低三種,并計算每個部分的 BLEU 得分(越高越好)。

如下圖所示,USM 在所有細分領(lǐng)域的表現(xiàn)都優(yōu)于 Whisper。

團隊表示,谷歌的使命是整合全球信息并使人人皆可訪問。而 USM 的開發(fā)便是實現(xiàn)這一使命的關(guān)鍵步驟?;?USM 基礎(chǔ)模型框架和訓(xùn)練 pipeline,未來谷歌可以將語音建模擴展至 1000 種語言。

結(jié)語

目前,USM 支持 100 多種語言。團隊表示,谷歌的使命是整合全球信息并使人人皆可訪問。

USM 的開發(fā)便是實現(xiàn)這一使命的關(guān)鍵步驟。

相信不久,谷歌可以將語音建模擴展至 1000 種語言。

參考鏈接:

https://analyticsindiamag.com/google-usm-shatters-language-barriers-with-multilingual-speech-recognition-model/

https://arxiv.org/abs/2303.01037

https://www.theverge.com/2023/3/6/23627788/google-1000-language-ai-universal-speech-model

https://ai.googleblog.com/2023/03/universal-speech-model-usm-state-of-art.html

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
擊敗OpenAI!谷歌公布20億參數(shù)通用語音模型,支持100 語種檢測翻譯
再勝OpenAI!谷歌發(fā)布20億參數(shù)通用模型,100多種語言自動識別翻譯
Google離建立其1000種語言的人工智能模型又近了一步
Meta AI大模型能識別4000多種語言,稱錯誤率僅有OpenAI產(chǎn)品的一半
Meta 開源多語言大模型,可識別 4000 多種語言、錯誤率僅為 OpenAI 產(chǎn)品的一半
連上多個熱搜!火爆全網(wǎng)的ChatGPT到底是個啥?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服