免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開(kāi)通VIP
字節(jié)跳動(dòng)將音樂(lè)檢索速度提高8倍,多篇論文入選語(yǔ)音頂會(huì)
探索高效翻唱識(shí)別新方法,還有智能音樂(lè)、音頻合成、音頻理解、超腦研究進(jìn)展。
編輯 |  ZeR0
智東西6月1日?qǐng)?bào)道,近期,字節(jié)跳動(dòng)火山語(yǔ)音團(tuán)隊(duì)的最新音樂(lè)檢索系統(tǒng)ByteCover2入選了國(guó)際語(yǔ)音技術(shù)領(lǐng)域頂會(huì)ICASSP 2022。
該系統(tǒng)主要面向音樂(lè)信息檢索(MIR)領(lǐng)域的重要任務(wù)之一——翻唱識(shí)別(CSI,通過(guò)表征學(xué)習(xí)方法讓其具備提取音樂(lè)核心特征的能力,并且該特征能夠?qū)ΨN類繁多的音樂(lè)重演繹具有良好的魯棒性,檢索速度提高8
經(jīng)Da-Tacos數(shù)據(jù)集上的評(píng)估,其準(zhǔn)確率遠(yuǎn)超其他方案的SoTA性能。 
除了ByteCover2,字節(jié)跳動(dòng)火山語(yǔ)音團(tuán)隊(duì)還有多篇論文被ICASSP 2022收錄,內(nèi)容涵蓋智能音樂(lè)、音頻合成、音頻理解、超腦等多個(gè)方向。

01.
翻唱識(shí)別:設(shè)計(jì)隱式嵌入降維方法 
翻唱識(shí)別往往需要對(duì)音樂(lè)中的一些常見(jiàn)變化具有魯棒性,從而保證系統(tǒng)專注于對(duì)音樂(lè)旋律走向的建模。在設(shè)計(jì)翻唱識(shí)別系統(tǒng)時(shí),音樂(lè)調(diào)式偏移、音樂(lè)結(jié)構(gòu)變化、音樂(lè)節(jié)奏變化這三種音樂(lè)變化通常會(huì)被重點(diǎn)考慮。
此外,抖音平臺(tái)上每日新增千萬(wàn)量級(jí)的用戶投稿,如何快速應(yīng)對(duì)巨量查詢需求,提高識(shí)別系統(tǒng)的整體吞吐量并同時(shí)確保識(shí)別準(zhǔn)確性,也是亟待解決的問(wèn)題。
在內(nèi)部開(kāi)發(fā)返廠識(shí)別時(shí),字節(jié)跳動(dòng)還面臨另一挑戰(zhàn),即在設(shè)計(jì)特征時(shí),如何在保障其他性質(zhì)的前提下盡可能減小特征大小,從而減少存儲(chǔ)空間,降低系統(tǒng)復(fù)雜度和成本。
在ByteCover2系統(tǒng)中,字節(jié)跳動(dòng)火山語(yǔ)音團(tuán)隊(duì)通過(guò)多任務(wù)學(xué)習(xí)范式聯(lián)合ResNet-IBN模型,做到從音頻輸入中提取魯棒且具備區(qū)分性的向量表征。針對(duì)效率優(yōu)化問(wèn)題,團(tuán)隊(duì)還提出了PCA-FC模塊,實(shí)踐證明該模塊在保證ByteCover2模型性能不變甚至提高的前提下,可將向量尺寸壓縮至ByteCover1的1/8。

▲B(niǎo)ytecover模型結(jié)構(gòu)與訓(xùn)練流程

1、多任務(wù)學(xué)習(xí)提高音樂(lè)檢索能力
翻唱識(shí)別領(lǐng)域通常存在兩種訓(xùn)練范式,分別是多分類學(xué)習(xí)和度量學(xué)習(xí)。
前者將每個(gè)曲目視為一個(gè)獨(dú)立類別,在特征層后加上全連接層,并通過(guò)交叉熵等分類損失對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練完成后去掉全連接層,使用特征層的輸出作為歌曲的表征;后者直接在特征層之上,使用triplet loss等度量學(xué)習(xí)損失訓(xùn)練網(wǎng)絡(luò)。
總體來(lái)看,兩種訓(xùn)練范式各有優(yōu)劣,團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),分類損失往往能提高模型對(duì)同曲目不同風(fēng)格版本的檢索能力,細(xì)致設(shè)計(jì)的度量學(xué)習(xí)損失則能提高翻唱網(wǎng)絡(luò)對(duì)相似風(fēng)格不同曲目音樂(lè)的區(qū)分能力。
因此ByteCover系列模型對(duì)這兩種學(xué)習(xí)范式進(jìn)行了結(jié)合,并通過(guò)引入BNNeck模塊,提高了兩種損失的兼容性。
2ResNet網(wǎng)絡(luò)與IBN正則化方法(ResNet & Instance-Batch Normalization
為了簡(jiǎn)化音樂(lè)特征提取的流程,加快特征提取速度,團(tuán)隊(duì)使用CQT頻譜圖作為模型的輸入,而不使用在同期其他翻唱識(shí)別方法中常用的cremaPCP或其他更為復(fù)雜的特征,但此設(shè)計(jì)會(huì)天然地在輸入特征層面上損害模型對(duì)音頻頻移的魯棒性。
因此,團(tuán)隊(duì)選擇卷積神經(jīng)網(wǎng)絡(luò)做了音樂(lè)表征提取網(wǎng)絡(luò),希望能利用卷積網(wǎng)絡(luò)的平移不變性來(lái)實(shí)現(xiàn)模型對(duì)頻移的不變性。
實(shí)驗(yàn)證明,CQT譜 普通ResNet組合已在效率和性能上超過(guò)CremaPCP CNN的設(shè)計(jì)。
深入探究,團(tuán)隊(duì)引入了Instance-Batch Normalization來(lái)從網(wǎng)絡(luò)隱表示的層面進(jìn)一步學(xué)習(xí)和風(fēng)格無(wú)關(guān)的音樂(lè)特征,即特征圖上不同通道間的均值方差等統(tǒng)計(jì)量與輸入的風(fēng)格化特征相關(guān)。IN通過(guò)對(duì)特征圖的通道維度做的歸一化處理,一定程度上實(shí)現(xiàn)了在隱藏表征層面上去除風(fēng)格化信息,從而提高翻唱識(shí)別模型對(duì)音色變化的魯棒性。
3、特征降維模塊(PCA-FC
通過(guò)測(cè)算,團(tuán)隊(duì)發(fā)現(xiàn)工業(yè)級(jí)別的翻唱系統(tǒng)大部分耗時(shí)集中在特征檢索階段,而這一階段的時(shí)間消耗基本和曲庫(kù)的大小以及特征向量的尺寸線性相關(guān)。曲庫(kù)中歌曲的數(shù)目會(huì)隨著業(yè)務(wù)的增長(zhǎng)而不斷增加,因此降低特征向量尺寸成為優(yōu)化檢索系統(tǒng)整體耗時(shí)的必由之路,而同期其他翻唱向量特征降維的工作往往采用一個(gè)全連接層來(lái)將高維向量投影到維度更低的空間。
實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),單純使用全連接層進(jìn)行降維會(huì)明顯降低系統(tǒng)的檢索能力,團(tuán)隊(duì)認(rèn)為這種現(xiàn)象不僅是因?yàn)楦〉某叽缦拗屏讼蛄康谋碚髂芰?,性能的損失也來(lái)自于隨機(jī)初始化的全連接層對(duì)特征各向同性的破壞。
隨后對(duì)數(shù)據(jù)可視化之后可發(fā)現(xiàn),降維后特征分布在一個(gè)錐形空間,表現(xiàn)出明顯的各向異性,此種性質(zhì)不利于使用余弦距離為度量的向量檢索。
因此團(tuán)隊(duì)嘗試使用PCA對(duì)特征向量進(jìn)行降維操作并隨后用PCA的變換矩陣初始化一個(gè)全連接層,把該層和特征提取網(wǎng)絡(luò)連接進(jìn)來(lái)并聯(lián)合訓(xùn)練,并將模塊稱作PCA-FC。
實(shí)驗(yàn)結(jié)果顯示,PCA-FC能顯著提升降維模型的檢索性能,在保持檢索性能不變的前提下向量尺寸可以被壓縮8倍。

▲對(duì)比結(jié)果

從結(jié)果來(lái)看,一直以來(lái)Da-Tacos是作為評(píng)估翻唱識(shí)別的基準(zhǔn)測(cè)試數(shù)據(jù)集,在該數(shù)據(jù)集上,采用1536維的ByteCover2模型取得了遠(yuǎn)超其他方案的SoTA性能,全類平均正確率指標(biāo)(mAP)達(dá)到79.1%,而B(niǎo)yteCover系列以外的最好方法Re-MOVE的該項(xiàng)指標(biāo)只有52.5%。
值得一提的是,128的ByteCover2模型甚至超過(guò)了2048的ByteCover1和Re-MOVE方法。
此外,ByteCover1系統(tǒng)還參加了2020國(guó)際音頻檢索評(píng)測(cè)大賽MIREX,過(guò)程中大幅刷新了翻唱識(shí)別賽道歷年最好記錄,mAP指標(biāo)達(dá)到84%,是同年參加該競(jìng)賽的其他方案性能的14。


02.
智能音樂(lè):提高挑選音樂(lè)片段效率,
創(chuàng)新自監(jiān)督音樂(lè)預(yù)訓(xùn)練算法
在智能音樂(lè)方向,字節(jié)跳動(dòng)火山語(yǔ)音團(tuán)隊(duì)基于Transformer的聲音事件檢測(cè)模型HTS-AT、基于層級(jí)式Transformer的自監(jiān)督音樂(lè)預(yù)訓(xùn)練算法S3T兩篇論文均被ICASSP 2022收錄。
1、HTS-AT:用于聲音分類和檢測(cè)的分層標(biāo)記語(yǔ)義音頻
HTS-AT針對(duì)音頻任務(wù)的特性,該結(jié)構(gòu)能有效提高音頻頻譜信息在深度Transformer網(wǎng)絡(luò)中的流動(dòng)效率,提高了模型對(duì)聲音事件的判別能力,并且通過(guò)降低輸出特征圖的大小,顯著降低了模型地計(jì)算量與內(nèi)存消耗。HTS-AT還引入了Token Semantic模塊,使模型具備預(yù)測(cè)聲音時(shí)間起始與終止點(diǎn)的能力,并且無(wú)需使用額外有標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。

▲HTS-AT模型的結(jié)構(gòu)

綜合以上技術(shù),HTS-AT在標(biāo)準(zhǔn)數(shù)據(jù)集AudioSet上的mAP指標(biāo)達(dá)到0.471,是當(dāng)前的該數(shù)據(jù)集上的最佳水平,且參數(shù)與計(jì)算量都小于之前的最佳方法;另外,在聲音事件定位任務(wù)上,HTS-AT無(wú)需額外標(biāo)注數(shù)據(jù),即達(dá)到有監(jiān)督定位模型的性能水平。 
在音樂(lè)識(shí)別場(chǎng)景中,聲音事件檢測(cè)模型會(huì)挑選包含音樂(lè)的片段送入音樂(lè)檢索系統(tǒng),以此來(lái)提高整個(gè)系統(tǒng)的效率與準(zhǔn)確性。
2S3T:針對(duì)音樂(lè)分類基于Swin Transformer的自監(jiān)督預(yù)訓(xùn)練
這篇文章提出了一種創(chuàng)新的、基于層級(jí)式Transformer的自監(jiān)督音樂(lè)預(yù)訓(xùn)練算法S3T。
S3T使用了大規(guī)模音樂(lè)預(yù)訓(xùn)練配合少量標(biāo)簽數(shù)據(jù)微調(diào)的范式,充分利用大量無(wú)標(biāo)簽的音樂(lè)數(shù)據(jù),通過(guò)挖掘時(shí)域和頻域的信息,學(xué)習(xí)具有較強(qiáng)泛化性的通用音樂(lè)表征。S3T在多個(gè)下游任務(wù)上均取得很好效果,特別是僅使用10%的標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào)效果便能超過(guò)使用以往全量標(biāo)簽數(shù)據(jù)訓(xùn)練的模型,大幅降低了人工數(shù)據(jù)標(biāo)注的成本。

▲S3T模型結(jié)構(gòu)與訓(xùn)練流程

音樂(lè)自監(jiān)督學(xué)習(xí)無(wú)需大量人工標(biāo)簽便可利用大量音樂(lè)數(shù)據(jù)充分挖掘其自身的表征,且擁有較強(qiáng)的通用性。本文提出的音樂(lè)表征自監(jiān)督學(xué)習(xí),為音樂(lè)理解構(gòu)筑了基礎(chǔ)。
S3T目前已經(jīng)應(yīng)用在音樂(lè)標(biāo)簽、音樂(lè)指紋等場(chǎng)景,微調(diào)后的S3T可以為音樂(lè)打上風(fēng)格、語(yǔ)種、情緒等標(biāo)簽,可靠的音樂(lè)標(biāo)簽可以進(jìn)一步服務(wù)音樂(lè)推薦系統(tǒng),使其精準(zhǔn)地向來(lái)自不同地區(qū)的用戶推送合適的音樂(lè)。

03.
音頻合成:實(shí)現(xiàn)數(shù)字人個(gè)性化
穿搭和場(chǎng)景自由
在音頻合成方向,字節(jié)跳動(dòng)火山語(yǔ)音團(tuán)隊(duì)基于服裝風(fēng)格遷移實(shí)現(xiàn)場(chǎng)景感知下的人物視頻生成論文被ICASSP 2022收錄。
該方向致力于解決視頻中人物個(gè)性化穿搭和背景場(chǎng)景自由的選擇問(wèn)題,設(shè)計(jì)了多個(gè)解耦encoder學(xué)習(xí)人物不同的屬性(身份、衣服和姿態(tài)),通過(guò)共享decoder融合多層面信息。
不同于圖片任務(wù),視頻需要學(xué)習(xí)幀之間的變化,所以團(tuán)隊(duì)設(shè)計(jì)了幀間判別器(Inner-frame Discriminator)來(lái)大幅提升穩(wěn)定性。具體來(lái)說(shuō),在模型生成的結(jié)果上應(yīng)用掩碼,人物可切換到任意場(chǎng)景上。
工作在公開(kāi)數(shù)據(jù)集TEDXPeople,相對(duì)baseline系統(tǒng)(CVPR2021)視頻中衣服個(gè)性化的多項(xiàng)客觀指標(biāo)均有顯著改善,可以達(dá)到SOTA效果:SSIM 0.047,PSNR 4.6,F(xiàn)ID(越小越好) -0.4, FVD(越小越好)-0.543。

▲場(chǎng)景感知的服裝風(fēng)格遷移模型框架

在數(shù)字人多模態(tài)生成的場(chǎng)景和業(yè)務(wù)中,數(shù)字人主播衣服的個(gè)性化穿搭和場(chǎng)景自由的選擇,為用戶提供了自主可控的個(gè)性化能力,可大幅增加數(shù)字人生態(tài)的多樣性。

04.
音頻理解:提升語(yǔ)音識(shí)別
定制化性能,優(yōu)化數(shù)據(jù)標(biāo)注質(zhì)量
在音頻理解方向,字節(jié)跳動(dòng)火山語(yǔ)音團(tuán)隊(duì)基于細(xì)粒度語(yǔ)境知識(shí)選擇的端到端(語(yǔ)境)語(yǔ)音識(shí)別提升方法、非自回歸Transformer自動(dòng)語(yǔ)音識(shí)別的最小詞誤差訓(xùn)練、使用梯度掩碼改進(jìn)端到端語(yǔ)音識(shí)別的偽標(biāo)簽訓(xùn)練論文被ICASSP 2022收錄。
此外,面向會(huì)議場(chǎng)景,火山語(yǔ)音團(tuán)隊(duì)在ICASSP 2022多方會(huì)議轉(zhuǎn)錄挑戰(zhàn)賽(M2MeT)的兩個(gè)限定訓(xùn)練數(shù)據(jù)子賽道上分獲第二名和第四名。
1、基于細(xì)粒度語(yǔ)境知識(shí)選擇的端到端(語(yǔ)境)語(yǔ)音識(shí)別提升方法
該工作在一種被稱為協(xié)同解碼(Collaborative Decoding,ColDec)的語(yǔ)音識(shí)別定制化/個(gè)性化方法的基礎(chǔ)上,提出了細(xì)粒度語(yǔ)境知識(shí)選擇機(jī)制(Fine-grained Contextual Knowledge Selection),來(lái)進(jìn)一步增強(qiáng)該方法在大熱詞列表和較多干擾熱詞情境下的語(yǔ)音識(shí)別定制化性能。在先前工作中,一種被稱為協(xié)同解碼(Collaborative Decoding)的語(yǔ)音識(shí)別定制化技術(shù)有效地提升了定制化識(shí)別性能。
本文針對(duì)其在大熱詞列表和較多干擾熱詞情境下的性能衰減問(wèn)題,提出了細(xì)粒度語(yǔ)境知識(shí)選擇機(jī)制,進(jìn)一步增強(qiáng)了協(xié)同解碼技術(shù)在定制化場(chǎng)景下的能力。
在公開(kāi)數(shù)據(jù)集Librispeech上,本文方法在基礎(chǔ)CIF語(yǔ)音識(shí)別模型的test-clean 2.12%的WER基礎(chǔ)上,進(jìn)一步為WER帶來(lái)了約5%的相對(duì)下降;在內(nèi)部16w小時(shí)工業(yè)級(jí)ASR數(shù)據(jù)集訓(xùn)練的語(yǔ)音識(shí)別模型的基礎(chǔ)上,該方法在真實(shí)會(huì)議測(cè)試集上為CER帶來(lái)了最高約16%的相對(duì)下降。

▲a. 協(xié)同解碼    b.細(xì)粒度語(yǔ)境知識(shí)選擇

應(yīng)用場(chǎng)景方面,該方法可被用于語(yǔ)音識(shí)別定制化,例如在智能語(yǔ)音助手和在線視頻會(huì)議等應(yīng)用場(chǎng)景中,許多同背景相關(guān)的關(guān)鍵短語(yǔ)、個(gè)性化信息、熱詞等內(nèi)容都較難識(shí)別。
此外,它也可以用在移動(dòng)端智能語(yǔ)音助手的應(yīng)用場(chǎng)景下,聯(lián)系人列表中的聯(lián)系人姓名,頻繁出沒(méi)的地點(diǎn)位置等個(gè)性化信息;在線會(huì)議場(chǎng)景下,參會(huì)人員的姓名,會(huì)議主題相關(guān)的專業(yè)術(shù)語(yǔ)等,針對(duì)性地提升這些定制化和個(gè)性化文本內(nèi)容的語(yǔ)音識(shí)別性能,在實(shí)際應(yīng)用場(chǎng)景中有重要意義。
2、非自回歸Transformer自動(dòng)語(yǔ)音識(shí)別的最小詞誤差訓(xùn)練
這篇論文由字節(jié)跳動(dòng)和南洋理工大學(xué)(NTU)共同完成。近年來(lái)由于基于非自回歸Transformer(NAT)的自動(dòng)語(yǔ)音識(shí)別(ASR)框架的以下優(yōu)點(diǎn),分別是“當(dāng)前的輸出與歷史的輸出無(wú)關(guān)”以及“其推理速度非??臁?,其在業(yè)界日益受到重視。
對(duì)此,團(tuán)隊(duì)對(duì)于其在語(yǔ)碼轉(zhuǎn)換語(yǔ)音識(shí)別任務(wù)(CSSR)上的性能有所期待。另外據(jù)不完全了解,似乎并沒(méi)有出現(xiàn)將最小詞錯(cuò)率(MWER)準(zhǔn)則應(yīng)用于NAT模型的先例,所以該工作在一定程度上填補(bǔ)了此項(xiàng)空白,且在SEAME語(yǔ)碼轉(zhuǎn)換數(shù)據(jù)集上得到了驗(yàn)證。
本文的貢獻(xiàn)主要在兩個(gè)方面:(1)在語(yǔ)碼轉(zhuǎn)換的場(chǎng)景下,提出了多種CTC掩蔽的方式訓(xùn)練NAT模型;(2)在MWER訓(xùn)練準(zhǔn)則下,提出了多種N-best假設(shè)的生成方法。
其發(fā)現(xiàn)及結(jié)論是:(1)無(wú)論在單語(yǔ)言還是跨語(yǔ)言的場(chǎng)景下,上下文相關(guān)的場(chǎng)景信息非常重要,而NAT沒(méi)有歷史信息,NAT模型相比自回歸的Transformer(AT)得到了一致性更差的結(jié)果;(2)嚴(yán)重受限于N-best假設(shè)的生成方法,在NAT模型上進(jìn)行基于N-best的MWER訓(xùn)練只得到了細(xì)微的提升,所以如何生成更豐富的N-best有待進(jìn)一步研究。
3、使用梯度掩碼改進(jìn)端到端語(yǔ)音識(shí)別的偽標(biāo)簽訓(xùn)練
一直以來(lái),打偽標(biāo)簽在自監(jiān)督學(xué)習(xí)中都是最重要的方法,最近在語(yǔ)音識(shí)別領(lǐng)域也展現(xiàn)出極好的效果,但是自監(jiān)督學(xué)習(xí)對(duì)偽標(biāo)簽的質(zhì)量極其敏感,主要是因?yàn)閭螛?biāo)簽中的錯(cuò)誤或者噪聲常常會(huì)導(dǎo)致模型訓(xùn)練的不穩(wěn)定并最終收斂到非最佳的狀態(tài),特別是對(duì)于e2e的模型比如RNNT。
對(duì)此該論文提出了Gradient-mask的方法來(lái)應(yīng)對(duì)以上問(wèn)題。此方法在訓(xùn)練過(guò)程中抹去了encoder中可見(jiàn)input的對(duì)應(yīng)梯度,從而鼓勵(lì)模型從不可見(jiàn)的部分進(jìn)行推測(cè),并且能有效降低模型對(duì)corrupted label的overfit。
應(yīng)用場(chǎng)景方面,此方法可以有效應(yīng)對(duì)模型overfit到corrupted label并提升模型訓(xùn)練的效果,例如半監(jiān)督自學(xué)習(xí)中,因?yàn)閐omain不match等原因?qū)е聀seudo-label質(zhì)量過(guò)差,以及已知一部分?jǐn)?shù)據(jù)標(biāo)注質(zhì)量過(guò)差的問(wèn)題。
4、ICASSP 2022多方會(huì)議轉(zhuǎn)錄挑戰(zhàn)賽的火山語(yǔ)音系統(tǒng)
會(huì)議場(chǎng)景是語(yǔ)音識(shí)別和說(shuō)話人日志技術(shù)應(yīng)用中最有價(jià)值和挑戰(zhàn)的場(chǎng)景之一,會(huì)議場(chǎng)景包含了豐富的說(shuō)話風(fēng)格和復(fù)雜的聲學(xué)條件,需要考慮重疊語(yǔ)音、未知數(shù)量說(shuō)話人、遠(yuǎn)場(chǎng)信號(hào)、噪音、混響等挑戰(zhàn)。
ICASSP 2022多通道多方會(huì)議轉(zhuǎn)錄挑戰(zhàn)(M2MeT)提供了120小時(shí)真實(shí)記錄的中文會(huì)議數(shù)據(jù),包含8通道麥克風(fēng)遠(yuǎn)場(chǎng)數(shù)據(jù)和對(duì)應(yīng)耳機(jī)麥克風(fēng)采集的近場(chǎng)數(shù)據(jù)。M2MeT挑戰(zhàn)賽包括多說(shuō)話人語(yǔ)音識(shí)別和說(shuō)話人日志兩個(gè)賽道,團(tuán)隊(duì)在限定訓(xùn)練數(shù)據(jù)子賽道上分別獲得第二名和第四名。
針對(duì)多說(shuō)話人語(yǔ)音識(shí)別賽道,團(tuán)隊(duì)提出一種神經(jīng)網(wǎng)絡(luò)前端模塊和語(yǔ)音識(shí)別模塊端到端聯(lián)合訓(xùn)練的方法,輸入8通道音頻輸出多說(shuō)話人識(shí)別文本,除此之外加入了豐富的8通道數(shù)據(jù)仿真,在測(cè)試集上和官方基線相比CER相對(duì)下降32.6%。
在說(shuō)話人日志賽道中,結(jié)合前端信號(hào)處理技術(shù),團(tuán)隊(duì)提出一種融合聲源定位信息的說(shuō)話人日志方法,提高識(shí)別準(zhǔn)確率;同時(shí)針對(duì)競(jìng)賽數(shù)據(jù)中存在的說(shuō)話人重疊問(wèn)題,提出一種多通道融合算法,減少重疊部分的說(shuō)話人漏檢,最后采用修改的DOVER-Lap算法對(duì)多套系統(tǒng)進(jìn)行融合,最終在測(cè)試集上的DER(說(shuō)話人日志錯(cuò)誤率)相比官方基線相對(duì)下降53.7%
該技術(shù)可以被用在會(huì)議室多通道麥克風(fēng)場(chǎng)景下,生成包含說(shuō)話人信息的多說(shuō)話人語(yǔ)音轉(zhuǎn)錄結(jié)果。

05.
超腦方向:?jiǎn)我荒P椭С?/strong>
跨語(yǔ)言語(yǔ)音識(shí)別,減輕部署維護(hù)成本
在超腦方向,火山語(yǔ)音團(tuán)隊(duì)基于稀疏共享子網(wǎng)絡(luò)的跨語(yǔ)言語(yǔ)音表征學(xué)習(xí)論文被ICASSP 2022收錄。
該工作提出了一種基于稀疏共享結(jié)構(gòu)的多語(yǔ)言語(yǔ)音表征學(xué)習(xí)方法,即從模型中劃分出多個(gè)稀疏子網(wǎng)絡(luò)來(lái)分別對(duì)不同語(yǔ)言進(jìn)行建模,進(jìn)而實(shí)現(xiàn)語(yǔ)言自適應(yīng)訓(xùn)練,每個(gè)語(yǔ)言的子網(wǎng)絡(luò)都通過(guò)裁剪不重要的參數(shù)進(jìn)行提取。
基于此,文中探索了一種基于彩票假設(shè)(Lottery Ticket Hypothesis)的提取方法以及另一種基于一階泰勒展開(kāi)的快速提取方法。在下游多語(yǔ)言語(yǔ)音識(shí)別任務(wù)上,所提出的方法可以大幅降低基線XLSR模型的錯(cuò)誤率,并超過(guò)Gating Network、Adapter等其他自適應(yīng)訓(xùn)練方法。

▲基于稀疏共享結(jié)構(gòu)的多語(yǔ)言預(yù)訓(xùn)練流程

在國(guó)際化背景下,為了滿足不同語(yǔ)言的字幕、審核和翻譯等需求,需要針對(duì)各個(gè)語(yǔ)言去搭建語(yǔ)音識(shí)別系統(tǒng)。多語(yǔ)言語(yǔ)音識(shí)別的目標(biāo)是用單一模型去支持多個(gè)語(yǔ)言的語(yǔ)音識(shí)別,可以有效的減輕部署和維護(hù)的成本,并能在一些低資源場(chǎng)景下提升識(shí)別效果,具有非常重要的意義。

06.
結(jié)語(yǔ):AI語(yǔ)音正在業(yè)務(wù)場(chǎng)景釋放更大價(jià)值
字節(jié)跳動(dòng)火山語(yǔ)音團(tuán)隊(duì)是原字節(jié)跳動(dòng)AI Lab Speech & Audio智能語(yǔ)音與音頻團(tuán)隊(duì),致力于為公司各個(gè)業(yè)務(wù)提供音頻理解、音頻合成、對(duì)話交互、音樂(lè)檢索和智能教學(xué)等AI能力與方案。
自2017年成立以來(lái),字節(jié)跳動(dòng)火山語(yǔ)音團(tuán)隊(duì)研發(fā)的AI智能語(yǔ)音技術(shù),已經(jīng)為今日頭條、抖音、剪映、西瓜視頻、番茄小說(shuō)、飛書辦公套件等字節(jié)跳動(dòng)旗下重量級(jí)產(chǎn)品提供了各類AI解決方案。
截至目前,該團(tuán)隊(duì)已服務(wù)上百個(gè)業(yè)務(wù)合作伙伴。伴隨字節(jié)跳動(dòng)業(yè)務(wù)的快速發(fā)展,其語(yǔ)音識(shí)別和語(yǔ)音合成覆蓋了多種語(yǔ)言和方言,已有多篇論文入選各類AI頂級(jí)會(huì)議,未來(lái)希望繼續(xù)發(fā)展70 語(yǔ)言和20 方言,用于滿足內(nèi)容創(chuàng)作與交流平臺(tái)的需求。隨著字節(jié)跳動(dòng)火山語(yǔ)音團(tuán)隊(duì)不斷探索AI與業(yè)務(wù)場(chǎng)景的高效結(jié)合,我們期待看到其智能語(yǔ)音技術(shù)實(shí)現(xiàn)更大的用戶價(jià)值。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服