免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
如何評(píng)價(jià)智能助手的好壞?小布助手是怎樣煉成的?


編輯整理:吳祺堯 加州大學(xué)

出品平臺(tái):DataFunTalk


導(dǎo)讀:近幾年來(lái),評(píng)測(cè)開(kāi)始頻繁出現(xiàn)在人們的生活中,大家對(duì)“評(píng)測(cè)”這個(gè)詞的認(rèn)知也越來(lái)越深刻。比如買(mǎi)房、買(mǎi)車(chē)、選購(gòu)數(shù)碼產(chǎn)品等,人們都會(huì)去從某些維度對(duì)物品進(jìn)行對(duì)比,最終得出一個(gè)評(píng)估結(jié)論。互聯(lián)網(wǎng)產(chǎn)品與日常商品的評(píng)測(cè)同時(shí)具有相同點(diǎn)和不同點(diǎn)。本次分享的內(nèi)容是小布助手的評(píng)測(cè)體系。

具體將圍繞以下幾部分展開(kāi):

  • 評(píng)測(cè)概念及評(píng)測(cè)目的

  • 評(píng)測(cè)五要素詳細(xì)介紹

  • 評(píng)測(cè)通用流程

  • 小布助手評(píng)測(cè)體系

  • 總結(jié)與展望

01
評(píng)測(cè)概念及評(píng)測(cè)目的

首先和大家分析評(píng)測(cè)的概念和目的。

評(píng)測(cè)是以目的為導(dǎo)向的,涵蓋的范圍可大可小。我們可以將評(píng)測(cè)定義為評(píng)估+測(cè)量,它通過(guò)一定的規(guī)則對(duì)觀(guān)察到的現(xiàn)象做出量化描述。

日常生活中的商品評(píng)測(cè)和互聯(lián)網(wǎng)產(chǎn)品以及人工智能評(píng)測(cè)有相同點(diǎn)和不同點(diǎn)。相同點(diǎn)是方法論,它是可以互相復(fù)制的。方法論可復(fù)制指的是,不管是商品評(píng)測(cè)還是互聯(lián)網(wǎng)產(chǎn)品評(píng)測(cè),我們都要考慮評(píng)測(cè)的樣本、維度以及方法。評(píng)測(cè)的不同點(diǎn)有很多,主要有以下三點(diǎn):

  • 互聯(lián)網(wǎng)產(chǎn)品之間需求場(chǎng)景的差異較大?;ヂ?lián)網(wǎng)產(chǎn)品評(píng)測(cè)的場(chǎng)景很多,比如搜索任務(wù)分為百度、頭條這類(lèi)綜合性搜索,淘寶、京東這類(lèi)購(gòu)物型搜索,以及其他一些垂類(lèi)搜索(美團(tuán)、攜程等);人工智能產(chǎn)品如語(yǔ)音助手的評(píng)測(cè),它在手機(jī)上、在電視上以及在車(chē)載環(huán)境下的場(chǎng)景需求也各不相同。

  • 互聯(lián)網(wǎng)產(chǎn)品或者人工智能產(chǎn)品屬于海量數(shù)據(jù)的評(píng)測(cè),樣本選取至關(guān)重要,結(jié)論指標(biāo)更可量化。

  • 商品評(píng)測(cè)都有一定的商業(yè)目的,但是互聯(lián)網(wǎng)產(chǎn)品或者人工智能產(chǎn)品其實(shí)很多時(shí)候不會(huì)關(guān)注商業(yè)化,也不會(huì)去關(guān)注產(chǎn)品策略或者算法是怎么樣的,而是優(yōu)先關(guān)注用戶(hù)體驗(yàn)。評(píng)測(cè)一切以用戶(hù)價(jià)值為依歸,來(lái)全面提升用戶(hù)的體驗(yàn)。

總的來(lái)說(shuō),評(píng)測(cè)的目的有兩個(gè)。首先,從用戶(hù)角度通過(guò)大量的樣本發(fā)現(xiàn)用戶(hù)感知的共性問(wèn)題,為產(chǎn)品策略和算法優(yōu)化提供思路,并推動(dòng)落地。其次,評(píng)測(cè)迭代優(yōu)化效果,為上線(xiàn)提供依據(jù),并預(yù)估出上線(xiàn)存在的風(fēng)險(xiǎn)點(diǎn)。

02
評(píng)測(cè)要素

評(píng)測(cè)的五大要素:評(píng)測(cè)方式、數(shù)據(jù)選?。ǔ闃臃椒ǎ⒃u(píng)測(cè)的維度及對(duì)應(yīng)的打分規(guī)則、評(píng)測(cè)標(biāo)注打分(評(píng)測(cè)人員對(duì)query的需求和結(jié)果判斷)以及評(píng)測(cè)報(bào)告。下面,針對(duì)這五個(gè)要素進(jìn)行詳細(xì)介紹。

1. 評(píng)測(cè)方式

下面通過(guò)搜索行業(yè)和語(yǔ)音助手行業(yè)分別來(lái)介紹常用的評(píng)測(cè)方式。

① 搜索行業(yè)常用評(píng)測(cè)方式

常用的評(píng)測(cè)方法有:

  • 整體滿(mǎn)意度(Per-page),即整個(gè)頁(yè)面所有結(jié)果的整體用戶(hù)滿(mǎn)意度,輸出指標(biāo)是滿(mǎn)意度均分。

  • 對(duì)比評(píng)測(cè)(SBS),主要是評(píng)雙方的差異點(diǎn),輸出指標(biāo)是勝出率。注意,開(kāi)展此類(lèi)評(píng)測(cè),要保證評(píng)測(cè)對(duì)象具有可對(duì)比性。

  • 單條打分(PI),即針對(duì)query下url結(jié)果頁(yè)分別進(jìn)行打分,按照結(jié)果的位置權(quán)重進(jìn)行加權(quán),最后得出query的得分,輸出指標(biāo)是NDCG,這種評(píng)測(cè)方式一般用于相關(guān)性排序。

  • 最后一種方式是召回率和準(zhǔn)確率的評(píng)測(cè),主要目的是對(duì)比人工評(píng)判和實(shí)際算法的預(yù)測(cè)效果,輸出的指標(biāo)是召回率、準(zhǔn)確率以及F值。

② 語(yǔ)音助手行業(yè)常用評(píng)測(cè)方式

語(yǔ)音助手是一個(gè)語(yǔ)音交互系統(tǒng),它有四大核心瓶頸:?jiǎn)静恍?、?tīng)不清、聽(tīng)不懂和說(shuō)不清。針對(duì)這四個(gè)瓶頸,目前行業(yè)內(nèi)有一些比較通用的評(píng)測(cè)方法。

  • 喚不醒,開(kāi)展喚醒評(píng)測(cè),一般是在語(yǔ)音實(shí)驗(yàn)室內(nèi)開(kāi)展的,輸出指標(biāo)是不同場(chǎng)景下的喚醒率以及誤喚醒率。

  • 聽(tīng)不清,開(kāi)展ASR識(shí)別率評(píng)測(cè),輸出指標(biāo)為字錯(cuò)率和句錯(cuò)率。它可以在語(yǔ)音實(shí)驗(yàn)室開(kāi)展,優(yōu)點(diǎn)是可以按照不同場(chǎng)景進(jìn)行評(píng)測(cè),缺點(diǎn)是不能反映真實(shí)的線(xiàn)上用戶(hù)體驗(yàn),因?yàn)樵u(píng)測(cè)集是通過(guò)錄音室采集得到的,而不是真實(shí)線(xiàn)上用戶(hù)的數(shù)據(jù);它還可以通過(guò)線(xiàn)上接口進(jìn)行評(píng)測(cè),優(yōu)點(diǎn)是可以使用線(xiàn)上的真實(shí)用戶(hù)的音頻數(shù)據(jù)來(lái)檢驗(yàn)識(shí)別結(jié)果,而且評(píng)測(cè)數(shù)據(jù)量大。

  • 聽(tīng)不懂,開(kāi)展意圖準(zhǔn)召評(píng)測(cè),和搜索一樣,主要目的是對(duì)比人工評(píng)判和實(shí)際算法的預(yù)測(cè)效果,輸出的指標(biāo)是召回率、準(zhǔn)確率以及F值。聽(tīng)不懂,還開(kāi)展?jié)M意度評(píng)測(cè),評(píng)測(cè)結(jié)果對(duì)用戶(hù)的滿(mǎn)足程度,會(huì)考慮內(nèi)容是否正確、豐富,交互是否更人性化等等。

  • 說(shuō)不清,開(kāi)展TTS評(píng)測(cè),評(píng)測(cè)時(shí)會(huì)考慮語(yǔ)音合成的自然度、清晰度、擬人度等,輸出的指標(biāo)是MOS得分。

2. 數(shù)據(jù)選取

不管是搜索評(píng)測(cè)還是語(yǔ)音助手評(píng)測(cè),抽樣方法都可以分為四類(lèi)。

首先是隨機(jī)抽樣,包括用戶(hù)日志隨機(jī)和用戶(hù)隨機(jī)。用戶(hù)日志包括文本日志和音頻日志,比如語(yǔ)音助手主要的數(shù)據(jù)就為音頻日志。我們從這些日志中隨機(jī)選取合適的評(píng)測(cè)數(shù)量,這種方法的優(yōu)點(diǎn)是能完全反應(yīng)用戶(hù)需求的真實(shí)分布,缺點(diǎn)是無(wú)法較好地發(fā)現(xiàn)長(zhǎng)尾問(wèn)題和局部問(wèn)題。

第二種是去重抽樣,將PV全部轉(zhuǎn)換為1,再進(jìn)行隨機(jī)抽取日志的方法,這種抽樣方法一定要說(shuō)明情況,避免以偏概全。去重抽樣的優(yōu)點(diǎn)是能更好地覆蓋長(zhǎng)尾查詢(xún),缺點(diǎn)是數(shù)據(jù)分布與線(xiàn)上用戶(hù)的真實(shí)需求分布不一致。

第三種抽樣方法是分層抽樣,根據(jù)用戶(hù)日志分為高頻、中頻和長(zhǎng)尾日志,按照比例分別進(jìn)行抽樣。具體高頻、中頻、長(zhǎng)尾的定義與產(chǎn)品有很大關(guān)系,并不能說(shuō)PV超過(guò)一個(gè)值就是高頻日志。它的優(yōu)點(diǎn)是能夠?qū)Ω鱾€(gè)分段進(jìn)行有針對(duì)性的分析,比如產(chǎn)品經(jīng)理想要看線(xiàn)上整體效果就使用隨機(jī)抽樣,而他想要重點(diǎn)優(yōu)化高頻交互的效果,那么我們就要分層抽樣。但它的缺點(diǎn)是數(shù)據(jù)分布與線(xiàn)上用戶(hù)的真實(shí)需求分布不一致。

第四種抽樣方法是垂直抽樣。在用戶(hù)日志中,我們會(huì)針對(duì)一些特性進(jìn)行局部抽樣。我們可以按領(lǐng)域進(jìn)行抽樣,如想要對(duì)閑聊進(jìn)行評(píng)測(cè),我們抽取的query就是閑聊領(lǐng)域的query。垂直抽樣的優(yōu)點(diǎn)是能更好地覆蓋和發(fā)現(xiàn)局部類(lèi)型的問(wèn)題,缺點(diǎn)是無(wú)法從整體上說(shuō)明問(wèn)題。

3. 評(píng)測(cè)維度和規(guī)則選取

根據(jù)產(chǎn)品的定位以及評(píng)測(cè)的目的,我們可以選取不同的評(píng)測(cè)維度。

第一個(gè)維度:返回的結(jié)果不能有違反國(guó)家法律法規(guī)、影響用戶(hù)情緒的虛假錯(cuò)誤信息,比如黃賭毒等。

第二個(gè)維度:垃圾、作弊、低質(zhì)量信息也是我們重點(diǎn)關(guān)注的一個(gè)維度。垃圾包括死鏈等,作弊比如含虛假鏈接或者堆砌內(nèi)容等,低質(zhì)量指的是內(nèi)容質(zhì)量不高。這些情況在搜索引擎和語(yǔ)音助手中都較為常見(jiàn)。

第三個(gè)維度:意圖理解就是預(yù)判用戶(hù)query的真實(shí)需求。我們必須理解用戶(hù)的意圖才能給出相關(guān)的、高質(zhì)量的內(nèi)容。如果意圖理解出現(xiàn)了較大偏差,給出的結(jié)果就算內(nèi)容質(zhì)量再好,也會(huì)嚴(yán)重影響用戶(hù)體驗(yàn)。

第四個(gè)維度是相關(guān)性,它是一個(gè)好的結(jié)果最基本也最重要的要求。主要是指用戶(hù)需求和給出的結(jié)果是不是說(shuō)的是一回兒事。

第五個(gè)維度是時(shí)效性,要求返回的結(jié)果是一個(gè)及時(shí)的結(jié)果,特別對(duì)于有時(shí)效性需求的query,例如新聞、更新速度快的產(chǎn)品、周期性事件等很重要。第六個(gè)維度是排序,主要是在搜索評(píng)測(cè)中關(guān)注的維度。由于搜索結(jié)果是一個(gè)自上而下瀏覽的產(chǎn)品形態(tài),質(zhì)量越高的結(jié)果排序應(yīng)該更加靠前。

第六個(gè)維度是多樣性,在搜索和語(yǔ)音助手中都會(huì)關(guān)注,比如一條query最好返回滿(mǎn)足不同需求的結(jié)果。比如query“陳情令”,多樣性結(jié)果返回應(yīng)包含劇情介紹、貼吧討論等。在語(yǔ)音助手中,多樣性指的是語(yǔ)音助手會(huì)返回不同有趣的答復(fù)。

第七個(gè)維度是權(quán)威性,在搜索引擎中體現(xiàn)得更多,搜索結(jié)果來(lái)自于官方網(wǎng)站或者知名網(wǎng)站,特別是一些詢(xún)問(wèn)醫(yī)療健康、法律法規(guī)方面的問(wèn)題,那么query的結(jié)果最好能給出權(quán)威性高的網(wǎng)站,其結(jié)果肯定比個(gè)人撰寫(xiě)的結(jié)果要好。

第八個(gè)維度是便捷性,是指找到目標(biāo)信息需要花費(fèi)的時(shí)間和成本,是搜索和語(yǔ)音助手中都會(huì)關(guān)注的維度。

第九個(gè)維度是豐富程度,主要關(guān)注評(píng)測(cè)結(jié)果內(nèi)容的豐富情況。

前提包含三個(gè)方面:

首先,制定評(píng)測(cè)規(guī)則的前要了解、熟悉產(chǎn)品。比如小布助手,在制定小布助手相關(guān)的評(píng)測(cè)方案和規(guī)則時(shí),我首先要知道小布有多少技能,每個(gè)技能的呈現(xiàn)形式是什么樣的,和小布助手有同樣定位的競(jìng)品有哪些,它們有什么樣的技能,它們的呈現(xiàn)形式是什么樣的。這些都是在制定評(píng)測(cè)方案和規(guī)則前需要了解的。

其次我們還需要了解產(chǎn)品的用戶(hù)層,即用戶(hù)畫(huà)像。因?yàn)椴煌脩?hù)對(duì)于一個(gè)query的需求有可能也是不一樣的,或者在不同場(chǎng)景下,同一個(gè)query需求也會(huì)有很大的不同。

最后是了解評(píng)測(cè)目的,為什么要做評(píng)測(cè),希望達(dá)到什么樣的預(yù)期,做了什么樣的優(yōu)化或策略。

評(píng)測(cè)的思考方向有:

  • 評(píng)測(cè)維度,即確定評(píng)測(cè)需要關(guān)注的維度。

  • 檔位劃分,行業(yè)常用的檔位有兩檔、三擋、四擋、五檔等,

  • 檔位的定義,即給出不同檔位的情況的詳細(xì)說(shuō)明,使得評(píng)測(cè)標(biāo)注人員有參考依據(jù),保證即使不是同一個(gè)人做的評(píng)測(cè),其評(píng)測(cè)結(jié)果也不會(huì)有很大的變化,得出的結(jié)論能基本保持一致。

  • 模糊地帶處理原則,我們一定要明確基線(xiàn)和分界線(xiàn),對(duì)于模糊地帶也應(yīng)盡量降低其帶來(lái)對(duì)整體結(jié)論的影響。例如在搜索場(chǎng)景下,我們可以通過(guò)用戶(hù)的點(diǎn)擊數(shù)據(jù)來(lái)確定界限,而像語(yǔ)音助手,我們可以通過(guò)用戶(hù)的后續(xù)行為分析以及用戶(hù)調(diào)研來(lái)確定用戶(hù)query真實(shí)需求。

4. 評(píng)測(cè)標(biāo)注打分

評(píng)測(cè)標(biāo)注打分主要分為兩部分:用戶(hù)query需求判斷和結(jié)果需求滿(mǎn)足判斷。query需求判斷有四種方法。

第一種是直接理解法,適用于描述得比較清楚的query,我們直接可以按照query的字面意思理解,但是不能遺漏query的限定元素,比如“陳情令的分集劇情介紹”中“分集”的限定元素。

第二種是日常經(jīng)驗(yàn)法,這源于大部分用戶(hù)的需求,和日常生活比較貼近,我們可以根據(jù)常識(shí)來(lái)判斷query的需求。從這里也可以看出,選拔評(píng)測(cè)標(biāo)注人員時(shí),需要挑選知識(shí)面比較廣且評(píng)測(cè)經(jīng)驗(yàn)比較豐富的候選人,這樣可以提高評(píng)測(cè)效率和質(zhì)量。

第三種是深入思考法,有一些query由于輸入方法比較復(fù)雜或者query描述不清楚,我們無(wú)法從字面意思直接理解用戶(hù)的真實(shí)需求,就需要進(jìn)行深入的思考和分析。

最后一種方法是搜索一下法,即深入思考之后還是無(wú)法理解用戶(hù)需求,那么不管是做搜索評(píng)測(cè)還是語(yǔ)音助手評(píng)測(cè),可以使用頭部搜索引擎去觀(guān)察多家引擎給出的結(jié)果。通過(guò)對(duì)比之后,大概就可以對(duì)query有一個(gè)比較準(zhǔn)確的理解。

query需求判斷之后,我們需要判斷結(jié)果是否滿(mǎn)足需求。首先,我們?cè)u(píng)判結(jié)果是否可以提供用戶(hù)想要找的信息,即從相關(guān)性上來(lái)說(shuō)是否滿(mǎn)足了需求。第二點(diǎn),我們?cè)u(píng)判結(jié)果是否滿(mǎn)足所關(guān)注的維度,然后根據(jù)滿(mǎn)足程度對(duì)應(yīng)檔位劃分規(guī)則,進(jìn)行標(biāo)注打分。

5. 評(píng)測(cè)報(bào)告

評(píng)測(cè)報(bào)告需要包含三大要素。首先,我們需要考慮報(bào)告的閱讀對(duì)象。比如評(píng)測(cè)報(bào)告是給上級(jí)做匯報(bào)的還是針對(duì)產(chǎn)品經(jīng)理和算法部門(mén)的,根據(jù)不同的閱讀對(duì)象,報(bào)告的呈現(xiàn)內(nèi)容不同。比如根據(jù)閱讀對(duì)象,評(píng)測(cè)數(shù)據(jù)中詳細(xì)的統(tǒng)計(jì)信息和提煉的問(wèn)題,也是不一樣的。但不管閱讀對(duì)象是誰(shuí),我們必須服從One-page原則,報(bào)告的首頁(yè)一定要把最重要的內(nèi)容全部展示出來(lái)。最重要的內(nèi)容有:主要的指標(biāo)、重要統(tǒng)計(jì)結(jié)論、重點(diǎn)問(wèn)題、評(píng)測(cè)的背景信息等。評(píng)測(cè)的背景信息有評(píng)測(cè)的目的、評(píng)測(cè)的方法、評(píng)測(cè)的維度、評(píng)測(cè)的指標(biāo)、對(duì)應(yīng)的計(jì)算公式等。

03
評(píng)測(cè)通用流程

首先,需要了解評(píng)測(cè)的具體需求,溝通需求時(shí)應(yīng)該拉上相關(guān)的業(yè)務(wù)方負(fù)責(zé)人來(lái)溝通需求,之后評(píng)測(cè)方根據(jù)需求內(nèi)容輸出評(píng)測(cè)方案初稿。初稿包括前述評(píng)測(cè)背景中所應(yīng)該包含的所有內(nèi)容。初稿形成后,需要再一次拉上相關(guān)業(yè)務(wù)方進(jìn)行討論,形成終稿。之后,還需要做數(shù)據(jù)和環(huán)境的準(zhǔn)備,然后進(jìn)行評(píng)測(cè)試標(biāo)。試標(biāo)沒(méi)有問(wèn)題才能開(kāi)始正式評(píng)測(cè),否則需要根據(jù)問(wèn)題點(diǎn)回退到相應(yīng)環(huán)節(jié)重新討論,有規(guī)則不合理或者未覆蓋也需要予以修正。正式評(píng)測(cè)后需要進(jìn)行評(píng)測(cè)質(zhì)檢,質(zhì)檢達(dá)標(biāo)后進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和報(bào)告輸出。到這里是評(píng)測(cè)的結(jié)束點(diǎn),也是產(chǎn)品優(yōu)化的起點(diǎn),因?yàn)樵u(píng)測(cè)的主要目的是為了提升用戶(hù)體驗(yàn),評(píng)測(cè)中發(fā)現(xiàn)的問(wèn)題點(diǎn)和需求點(diǎn),需要進(jìn)行不斷的優(yōu)化迭代。

04
小布助手評(píng)測(cè)體系

接下來(lái),詳細(xì)介紹一下OPPO小布助手的評(píng)測(cè)體系。先介紹一下小布:

小布助手是OPPO智能手機(jī)和IoT設(shè)備上內(nèi)置的AI助手,是OPPO面向未來(lái)5G+萬(wàn)物互融時(shí)代的思考和具體戰(zhàn)略布局。它具備“無(wú)需安裝,喚醒即用”的覆蓋能力,實(shí)現(xiàn)“解放雙手,高效操作”的新形態(tài)人機(jī)互動(dòng);擁有豐富的喚醒方式,可輕松實(shí)現(xiàn)內(nèi)容的語(yǔ)音直達(dá)服務(wù)。目前,小布助手可以支持的技能有上百種,包括比如:生活服務(wù)、出行服務(wù)、信息查詢(xún)、系統(tǒng)操作和娛樂(lè)服務(wù)等。小布助手的能力仍在不斷發(fā)展,針對(duì)這些能力,我們需要制定完整的評(píng)測(cè)體系,用于評(píng)估對(duì)用戶(hù)體驗(yàn)的影響,并不斷優(yōu)化體驗(yàn)。

整體的評(píng)測(cè)框架是圍繞語(yǔ)音交互系統(tǒng)的四個(gè)核心瓶頸來(lái)建設(shè)的。目前評(píng)測(cè)涉及的產(chǎn)品包括手機(jī)、手表、電視等。隨著OPPO互融布局的展開(kāi),評(píng)測(cè)也會(huì)涉及到越來(lái)越多的產(chǎn)品。

針對(duì)“聽(tīng)清”的評(píng)測(cè)環(huán)節(jié),一是需要評(píng)估出線(xiàn)上音頻質(zhì)量分布情況,二是要評(píng)測(cè)ASR識(shí)別率。識(shí)別率評(píng)測(cè)分為兩種,一種是在語(yǔ)音實(shí)驗(yàn)室的端到端評(píng)測(cè),另一種是接口的評(píng)測(cè)。特別是接口評(píng)測(cè),根據(jù)不同的評(píng)測(cè)需求,會(huì)采用不同的方案。

小布助手現(xiàn)在還支持粵語(yǔ)模式,所以也會(huì)開(kāi)展針對(duì)性評(píng)測(cè),保證粵語(yǔ)交互效果。

針對(duì)“聽(tīng)得懂,答得好”的環(huán)節(jié),我們需要進(jìn)行自然語(yǔ)言處理相關(guān)的評(píng)測(cè)以及資源引入評(píng)測(cè)。

評(píng)測(cè)包括滿(mǎn)意度評(píng)測(cè)、對(duì)比評(píng)測(cè)、用戶(hù)session滿(mǎn)意度評(píng)測(cè)等。滿(mǎn)意度評(píng)測(cè),主要評(píng)估用戶(hù)首輪query對(duì)應(yīng)結(jié)果的質(zhì)量。對(duì)比評(píng)測(cè),主要是評(píng)估和小布助手有相同定位的友商產(chǎn)品與小布的差異點(diǎn)。用戶(hù)session滿(mǎn)意度評(píng)測(cè),評(píng)估用戶(hù)整個(gè)交互過(guò)程的滿(mǎn)足程度,會(huì)把交互全鏈路考慮進(jìn)去。還有兩類(lèi)評(píng)測(cè),意圖的召回率和準(zhǔn)確率評(píng)測(cè)以及上線(xiàn)前的GSB評(píng)測(cè)。召準(zhǔn)率,行業(yè)通用,就不多說(shuō)了,GSB評(píng)測(cè)是針對(duì)技能在算法、資源、產(chǎn)品形態(tài)等等上線(xiàn)前和線(xiàn)上版本的效果對(duì)比進(jìn)行的評(píng)測(cè)。上線(xiàn)前提是,評(píng)測(cè)結(jié)果正向收益大于負(fù)向收益,否則改進(jìn)后的技能專(zhuān)項(xiàng)模型是不能上線(xiàn)的。

資源引入評(píng)測(cè)主要是觀(guān)察引入資源的效果。根據(jù)不同的資源,評(píng)測(cè)所關(guān)注的維度也是不一樣的,這里我就不再一一贅述了。

評(píng)測(cè)體系的最后一部分是“說(shuō)得清,說(shuō)得美”,它用來(lái)評(píng)估小布助手在各個(gè)音色上存在的問(wèn)題點(diǎn)及與競(jìng)品存在的差異點(diǎn)。除了行業(yè)通用的MOS評(píng)測(cè),根據(jù)評(píng)測(cè)需求和效率,也會(huì)采用推薦式評(píng)測(cè)和只關(guān)注對(duì)錯(cuò)的客觀(guān)評(píng)測(cè)方式。

05
結(jié)與展望

任何一個(gè)評(píng)測(cè)體系都不是一成不變的,它會(huì)隨著用戶(hù)需求、產(chǎn)品迭代進(jìn)行方案的升級(jí),用于發(fā)現(xiàn)新問(wèn)題、指導(dǎo)優(yōu)化思路。

比如隨著語(yǔ)音助手從單設(shè)備到多終端、單指令到跨服務(wù)、單場(chǎng)景到跨場(chǎng)景的發(fā)展,小布助手評(píng)測(cè)體系一定也會(huì)持續(xù)升級(jí),進(jìn)一步覆蓋超級(jí)終端的設(shè)備接入和管理能力評(píng)測(cè),從語(yǔ)音識(shí)別到視覺(jué)識(shí)別、環(huán)境感知等效果能力評(píng)估、學(xué)習(xí)能力評(píng)估等。

06
精彩問(wèn)答

Q:ASR和TTS的評(píng)測(cè)指標(biāo)的定義和標(biāo)準(zhǔn)是什么?

A:ASR的評(píng)測(cè)指標(biāo)主要是字錯(cuò)率和句錯(cuò)率。語(yǔ)音轉(zhuǎn)成的文字和人工識(shí)別的文字進(jìn)行比較,來(lái)計(jì)算字錯(cuò)率和句錯(cuò)率。針對(duì)接口類(lèi)如多環(huán)境、多噪音、多性別、多年齡評(píng)測(cè),我們隨機(jī)抽取線(xiàn)上用戶(hù)數(shù)據(jù);而語(yǔ)音實(shí)驗(yàn)室評(píng)測(cè)的采集數(shù)據(jù)會(huì)針對(duì)性地采集一定噪音環(huán)境下的數(shù)據(jù),如車(chē)載環(huán)境、高速公路環(huán)境、辦公室環(huán)境等。實(shí)驗(yàn)室會(huì)綜合人聲的采集數(shù)據(jù)和噪聲數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別測(cè)評(píng)。TTS的評(píng)測(cè)指標(biāo)是MOS得分,需要考慮自然度、清晰度、準(zhǔn)確率等因素。目前檔位分為五檔,業(yè)內(nèi)針對(duì)MOS打分的規(guī)則是通用的,有興趣的同學(xué)可以去網(wǎng)上搜索詳細(xì)的檔位劃分規(guī)則。

Q:針對(duì)嚴(yán)重的長(zhǎng)尾問(wèn)題,采用哪種抽樣方法更能改善用戶(hù)體驗(yàn)?評(píng)測(cè)的邊界case怎么處理?例如誤喚醒,情緒識(shí)別有時(shí)很難區(qū)分。

A:長(zhǎng)尾問(wèn)題可以使用分層抽樣的方法解決,因?yàn)殡S機(jī)抽樣抽取的樣本一定偏向PV較高的,無(wú)法覆蓋長(zhǎng)尾樣本。抽樣時(shí)從某個(gè)頻次以下的樣本池中進(jìn)行抽樣,就可以得到長(zhǎng)尾類(lèi)數(shù)據(jù)。邊界case,如果有客觀(guān)數(shù)據(jù)支持最好,如果沒(méi)有盡量考慮結(jié)果的多樣性,使模糊的用戶(hù)query不要影響整體結(jié)論。情緒識(shí)別有時(shí)會(huì)遇到難以區(qū)別的情況,比如傷心和失望,但是我們會(huì)定義具體的規(guī)則,盡量區(qū)分兩種情緒。

Q:相關(guān)性和時(shí)效性評(píng)測(cè)都是由人工進(jìn)行測(cè)評(píng)的嗎?

A:是的。分享中所涉及的都是人工評(píng)測(cè),所以我們一定要在制定評(píng)測(cè)規(guī)則的時(shí)候就把它闡述清楚,減少人為主觀(guān)因素的影響。比如相關(guān)性,通過(guò)指定詳細(xì)的規(guī)則來(lái)定義強(qiáng)相關(guān)、弱相關(guān)和不相關(guān),同時(shí)會(huì)使用case進(jìn)行舉例說(shuō)明,幫助評(píng)測(cè)人員進(jìn)行理解。時(shí)效性的評(píng)測(cè)可以使用“搜索一下”的方法,在搜索引擎中觀(guān)察query對(duì)應(yīng)的最新結(jié)果是什么,當(dāng)然我們也會(huì)去看競(jìng)品的結(jié)果,進(jìn)行綜合判斷。

Q:搜索評(píng)測(cè)中,準(zhǔn)召指標(biāo)會(huì)做全鏈路的嗎?滿(mǎn)意度和PI是不是都是針對(duì)全鏈路的最終結(jié)果?PI評(píng)測(cè)時(shí)是對(duì)各維度設(shè)計(jì)評(píng)測(cè)規(guī)則還是使用其他方法進(jìn)行設(shè)計(jì)?

A:搜索評(píng)測(cè)中的準(zhǔn)召一般都是按照垂域來(lái)進(jìn)行的,全鏈路的做法比較少見(jiàn)。滿(mǎn)意度是根據(jù)定義來(lái)進(jìn)行測(cè)評(píng)的,比如只關(guān)心Top 3的指標(biāo),那么滿(mǎn)意度就和前三條結(jié)果有關(guān),最后得出對(duì)應(yīng)的打分結(jié)果;如果關(guān)心Top10的指標(biāo),那么就要把前十條結(jié)果都考慮在內(nèi)。PI也是遵循一樣的原則,目前業(yè)內(nèi)通常選取前三條或者前四條。PI會(huì)將前三條或者前四條結(jié)果分別進(jìn)行打分,然后按照計(jì)算公式使用權(quán)重計(jì)算它們的綜合得分。

Q:我們?nèi)绾螐倪@么多評(píng)測(cè)指標(biāo)中評(píng)價(jià)哪個(gè)模型是最優(yōu)的?所有維度都需要進(jìn)行評(píng)測(cè)嗎?如果不是,我們應(yīng)該如何選擇需要的評(píng)測(cè)維度?

A:我們的評(píng)測(cè)體系是覆蓋了所有核心瓶頸設(shè)計(jì)到的維度,但是當(dāng)你做評(píng)測(cè)的時(shí)候,就要通過(guò)待評(píng)測(cè)的模型和評(píng)測(cè)目的來(lái)選取不同的評(píng)測(cè)方法。比如現(xiàn)在要做鬧鐘意圖模型的優(yōu)化評(píng)測(cè),只需要評(píng)測(cè)鬧鐘模型輸出的意圖和用戶(hù)真實(shí)需求是否有差異,它的模型優(yōu)化效果是否比線(xiàn)上版本好。針對(duì)評(píng)測(cè)維度,有的維度是搜索行業(yè)單獨(dú)關(guān)注的,有的維度是語(yǔ)音助手行業(yè)單獨(dú)關(guān)注的,有的維度是所有行業(yè)都會(huì)關(guān)注的,如相關(guān)性。評(píng)測(cè)的時(shí)候需要根據(jù)評(píng)測(cè)目的選取不同的維度,比如現(xiàn)在要關(guān)注閑聊的多樣性,那么需要在結(jié)果的相關(guān)性得到保證的情況下,再來(lái)看結(jié)果的多樣性是不是滿(mǎn)足需求,這時(shí)候評(píng)測(cè)關(guān)注的維度是相關(guān)性和多樣性,并不需要時(shí)效性。如果現(xiàn)在評(píng)測(cè)的是信息查詢(xún),那么重點(diǎn)關(guān)注的維度應(yīng)該是相關(guān)性和時(shí)效性。根據(jù)不同的評(píng)測(cè)目的以及評(píng)測(cè)產(chǎn)品,我們所關(guān)注的維度有所不同。

Q:ASR方言評(píng)測(cè)是不是需要招聘專(zhuān)業(yè)的方言人員?TTS的MOS打分是長(zhǎng)期評(píng)測(cè)任務(wù)還是根據(jù)算法需求來(lái)制定的?同一條音頻評(píng)測(cè)時(shí)需要幾個(gè)人一起打分?

A:方言評(píng)測(cè)肯定是需要懂這個(gè)方言的評(píng)測(cè)人員才能完成的。TTS的MOS打分評(píng)測(cè)是根據(jù)摸底和算法需求綜合來(lái)進(jìn)行的。比如算法部門(mén)有優(yōu)化模型需要上線(xiàn),那么我們就需要開(kāi)展評(píng)測(cè)。如果他們沒(méi)有新模型上線(xiàn)需求,那么我們會(huì)定期(如兩個(gè)月或一個(gè)季度)進(jìn)行線(xiàn)上的摸底評(píng)測(cè)。打分的時(shí)候,需要至少五個(gè)人對(duì)同一條音頻進(jìn)行打分。

Q:小布助手評(píng)測(cè)體系中最重要的指標(biāo)是哪幾項(xiàng)?

A:我們沒(méi)有固定的核心指標(biāo)。比如ASR的核心指標(biāo)是字錯(cuò)率和句錯(cuò)率;TTS的核心指標(biāo)是MOS得分;NLP的核心指標(biāo)是用戶(hù)滿(mǎn)意度,因?yàn)樗还芮懊嬗脩?hù)意圖識(shí)別是不是準(zhǔn)確,當(dāng)資源引入質(zhì)量較差或者相關(guān)性不好,NLP模塊給出的結(jié)果仍然是不佳的。

Q:小布助手的豐富性維度如何測(cè)評(píng)?

A:首先,保證豐富性的同時(shí)我們應(yīng)該權(quán)衡用戶(hù)的需求,所以主觀(guān)性比較強(qiáng)。我們需要保證回答不能過(guò)于簡(jiǎn)短。與此同時(shí),我們還關(guān)注小布助手是否“言之有物”,回答不能闡述一個(gè)虛無(wú)的概念,而是一定要涉及某一具體事務(wù),這具有一定的主觀(guān)性,所以在制定規(guī)則的時(shí)候不僅要考慮到回答的長(zhǎng)度,還要考慮“言之有物”,進(jìn)而判斷回答的豐富程度。

Q:用戶(hù)口音問(wèn)題導(dǎo)致語(yǔ)音識(shí)別率降低應(yīng)該如何解決?目前支持自動(dòng)識(shí)別用戶(hù)在說(shuō)哪一種方言嗎?喚醒詞支持方言嗎?

A:語(yǔ)音評(píng)測(cè)的時(shí)候不能關(guān)注用戶(hù)所說(shuō)的是帶了口音的普通話(huà)還是標(biāo)準(zhǔn)普通話(huà)。從用戶(hù)的滿(mǎn)足程度來(lái)看,我們應(yīng)該正確識(shí)別出帶口音的用戶(hù)的真實(shí)需求。所以我們的評(píng)測(cè)標(biāo)準(zhǔn)是一樣的,不能因?yàn)橛脩?hù)帶口音而放寬標(biāo)準(zhǔn)。但是當(dāng)評(píng)測(cè)顯示出問(wèn)題之后,我們會(huì)打上不同的標(biāo)簽,來(lái)表示這是因?yàn)橛脩?hù)口音而導(dǎo)致的錯(cuò)誤。同理,當(dāng)存在環(huán)境噪音時(shí),出現(xiàn)的識(shí)別錯(cuò)誤我們也會(huì)打上相應(yīng)的標(biāo)簽。針對(duì)后一個(gè)問(wèn)題,我們目前不支持自動(dòng)識(shí)別方言,但是我們有一個(gè)開(kāi)關(guān)來(lái)控制小布助手的方言識(shí)別功能,喚醒詞支持方言的功能也同樣需要打開(kāi)開(kāi)關(guān)后才能支持。

今天的分享就到這里,謝謝大家。


本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
真我q3s怎么喚醒小布
如何評(píng)測(cè)語(yǔ)音技能的智能程度(2)——服務(wù)提供
音色可定制,思必馳讓AI語(yǔ)音更具“人情味”
手機(jī)評(píng)測(cè):語(yǔ)音助手哪個(gè)更智能?
談?wù)勎沂褂靡患?pro時(shí)的一些槽點(diǎn) 來(lái)自 派大鑫
虛擬人“覺(jué)醒”年,見(jiàn)證一場(chǎng)萬(wàn)物的進(jìn)化
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服