編輯整理：吳祺堯加州大學(xué)

出品平臺(tái)：DataFunTalk

導(dǎo)讀：近幾年來(lái)，評(píng)測(cè)開(kāi)始頻繁出現(xiàn)在人們的生活中，大家對(duì)“評(píng)測(cè)”這個(gè)詞的認(rèn)知也越來(lái)越深刻。比如買(mǎi)房、買(mǎi)車(chē)、選購(gòu)數(shù)碼產(chǎn)品等，人們都會(huì)去從某些維度對(duì)物品進(jìn)行對(duì)比，最終得出一個(gè)評(píng)估結(jié)論。互聯(lián)網(wǎng)產(chǎn)品與日常商品的評(píng)測(cè)同時(shí)具有相同點(diǎn)和不同點(diǎn)。本次分享的內(nèi)容是小布助手的評(píng)測(cè)體系。

具體將圍繞以下幾部分展開(kāi)：

評(píng)測(cè)概念及評(píng)測(cè)目的
評(píng)測(cè)五要素詳細(xì)介紹
評(píng)測(cè)通用流程
小布助手評(píng)測(cè)體系
總結(jié)與展望

評(píng)測(cè)概念及評(píng)測(cè)目的

首先和大家分析評(píng)測(cè)的概念和目的。

評(píng)測(cè)是以目的為導(dǎo)向的，涵蓋的范圍可大可小。我們可以將評(píng)測(cè)定義為評(píng)估+測(cè)量，它通過(guò)一定的規(guī)則對(duì)觀(guān)察到的現(xiàn)象做出量化描述。

日常生活中的商品評(píng)測(cè)和互聯(lián)網(wǎng)產(chǎn)品以及人工智能評(píng)測(cè)有相同點(diǎn)和不同點(diǎn)。相同點(diǎn)是方法論，它是可以互相復(fù)制的。方法論可復(fù)制指的是，不管是商品評(píng)測(cè)還是互聯(lián)網(wǎng)產(chǎn)品評(píng)測(cè)，我們都要考慮評(píng)測(cè)的樣本、維度以及方法。評(píng)測(cè)的不同點(diǎn)有很多，主要有以下三點(diǎn)：

互聯(lián)網(wǎng)產(chǎn)品之間需求場(chǎng)景的差異較大?；ヂ?lián)網(wǎng)產(chǎn)品評(píng)測(cè)的場(chǎng)景很多，比如搜索任務(wù)分為百度、頭條這類(lèi)綜合性搜索，淘寶、京東這類(lèi)購(gòu)物型搜索，以及其他一些垂類(lèi)搜索（美團(tuán)、攜程等）；人工智能產(chǎn)品如語(yǔ)音助手的評(píng)測(cè)，它在手機(jī)上、在電視上以及在車(chē)載環(huán)境下的場(chǎng)景需求也各不相同。
互聯(lián)網(wǎng)產(chǎn)品或者人工智能產(chǎn)品屬于海量數(shù)據(jù)的評(píng)測(cè)，樣本選取至關(guān)重要，結(jié)論指標(biāo)更可量化。
商品評(píng)測(cè)都有一定的商業(yè)目的，但是互聯(lián)網(wǎng)產(chǎn)品或者人工智能產(chǎn)品其實(shí)很多時(shí)候不會(huì)關(guān)注商業(yè)化，也不會(huì)去關(guān)注產(chǎn)品策略或者算法是怎么樣的，而是優(yōu)先關(guān)注用戶(hù)體驗(yàn)。評(píng)測(cè)一切以用戶(hù)價(jià)值為依歸，來(lái)全面提升用戶(hù)的體驗(yàn)。

總的來(lái)說(shuō)，評(píng)測(cè)的目的有兩個(gè)。首先，從用戶(hù)角度通過(guò)大量的樣本發(fā)現(xiàn)用戶(hù)感知的共性問(wèn)題，為產(chǎn)品策略和算法優(yōu)化提供思路，并推動(dòng)落地。其次，評(píng)測(cè)迭代優(yōu)化效果，為上線(xiàn)提供依據(jù)，并預(yù)估出上線(xiàn)存在的風(fēng)險(xiǎn)點(diǎn)。

評(píng)測(cè)要素

評(píng)測(cè)的五大要素：評(píng)測(cè)方式、數(shù)據(jù)選?。ǔ闃臃椒ǎ⒃u(píng)測(cè)的維度及對(duì)應(yīng)的打分規(guī)則、評(píng)測(cè)標(biāo)注打分（評(píng)測(cè)人員對(duì)query的需求和結(jié)果判斷）以及評(píng)測(cè)報(bào)告。下面，針對(duì)這五個(gè)要素進(jìn)行詳細(xì)介紹。

1. 評(píng)測(cè)方式

下面通過(guò)搜索行業(yè)和語(yǔ)音助手行業(yè)分別來(lái)介紹常用的評(píng)測(cè)方式。

① 搜索行業(yè)常用評(píng)測(cè)方式

常用的評(píng)測(cè)方法有：

整體滿(mǎn)意度（Per-page），即整個(gè)頁(yè)面所有結(jié)果的整體用戶(hù)滿(mǎn)意度，輸出指標(biāo)是滿(mǎn)意度均分。
對(duì)比評(píng)測(cè)（SBS），主要是評(píng)雙方的差異點(diǎn)，輸出指標(biāo)是勝出率。注意，開(kāi)展此類(lèi)評(píng)測(cè)，要保證評(píng)測(cè)對(duì)象具有可對(duì)比性。
單條打分（PI），即針對(duì)query下url結(jié)果頁(yè)分別進(jìn)行打分，按照結(jié)果的位置權(quán)重進(jìn)行加權(quán)，最后得出query的得分，輸出指標(biāo)是NDCG，這種評(píng)測(cè)方式一般用于相關(guān)性排序。
最后一種方式是召回率和準(zhǔn)確率的評(píng)測(cè)，主要目的是對(duì)比人工評(píng)判和實(shí)際算法的預(yù)測(cè)效果，輸出的指標(biāo)是召回率、準(zhǔn)確率以及F值。

② 語(yǔ)音助手行業(yè)常用評(píng)測(cè)方式

語(yǔ)音助手是一個(gè)語(yǔ)音交互系統(tǒng)，它有四大核心瓶頸：?jiǎn)静恍?、?tīng)不清、聽(tīng)不懂和說(shuō)不清。針對(duì)這四個(gè)瓶頸，目前行業(yè)內(nèi)有一些比較通用的評(píng)測(cè)方法。

喚不醒，開(kāi)展喚醒評(píng)測(cè)，一般是在語(yǔ)音實(shí)驗(yàn)室內(nèi)開(kāi)展的，輸出指標(biāo)是不同場(chǎng)景下的喚醒率以及誤喚醒率。
聽(tīng)不清，開(kāi)展ASR識(shí)別率評(píng)測(cè)，輸出指標(biāo)為字錯(cuò)率和句錯(cuò)率。它可以在語(yǔ)音實(shí)驗(yàn)室開(kāi)展，優(yōu)點(diǎn)是可以按照不同場(chǎng)景進(jìn)行評(píng)測(cè)，缺點(diǎn)是不能反映真實(shí)的線(xiàn)上用戶(hù)體驗(yàn)，因?yàn)樵u(píng)測(cè)集是通過(guò)錄音室采集得到的，而不是真實(shí)線(xiàn)上用戶(hù)的數(shù)據(jù)；它還可以通過(guò)線(xiàn)上接口進(jìn)行評(píng)測(cè)，優(yōu)點(diǎn)是可以使用線(xiàn)上的真實(shí)用戶(hù)的音頻數(shù)據(jù)來(lái)檢驗(yàn)識(shí)別結(jié)果，而且評(píng)測(cè)數(shù)據(jù)量大。
聽(tīng)不懂，開(kāi)展意圖準(zhǔn)召評(píng)測(cè)，和搜索一樣，主要目的是對(duì)比人工評(píng)判和實(shí)際算法的預(yù)測(cè)效果，輸出的指標(biāo)是召回率、準(zhǔn)確率以及F值。聽(tīng)不懂，還開(kāi)展?jié)M意度評(píng)測(cè)，評(píng)測(cè)結(jié)果對(duì)用戶(hù)的滿(mǎn)足程度，會(huì)考慮內(nèi)容是否正確、豐富，交互是否更人性化等等。
說(shuō)不清，開(kāi)展TTS評(píng)測(cè)，評(píng)測(cè)時(shí)會(huì)考慮語(yǔ)音合成的自然度、清晰度、擬人度等，輸出的指標(biāo)是MOS得分。

2. 數(shù)據(jù)選取

不管是搜索評(píng)測(cè)還是語(yǔ)音助手評(píng)測(cè)，抽樣方法都可以分為四類(lèi)。

首先是隨機(jī)抽樣，包括用戶(hù)日志隨機(jī)和用戶(hù)隨機(jī)。用戶(hù)日志包括文本日志和音頻日志，比如語(yǔ)音助手主要的數(shù)據(jù)就為音頻日志。我們從這些日志中隨機(jī)選取合適的評(píng)測(cè)數(shù)量，這種方法的優(yōu)點(diǎn)是能完全反應(yīng)用戶(hù)需求的真實(shí)分布，缺點(diǎn)是無(wú)法較好地發(fā)現(xiàn)長(zhǎng)尾問(wèn)題和局部問(wèn)題。

第二種是去重抽樣，將PV全部轉(zhuǎn)換為1，再進(jìn)行隨機(jī)抽取日志的方法，這種抽樣方法一定要說(shuō)明情況，避免以偏概全。去重抽樣的優(yōu)點(diǎn)是能更好地覆蓋長(zhǎng)尾查詢(xún)，缺點(diǎn)是數(shù)據(jù)分布與線(xiàn)上用戶(hù)的真實(shí)需求分布不一致。

第三種抽樣方法是分層抽樣，根據(jù)用戶(hù)日志分為高頻、中頻和長(zhǎng)尾日志，按照比例分別進(jìn)行抽樣。具體高頻、中頻、長(zhǎng)尾的定義與產(chǎn)品有很大關(guān)系，并不能說(shuō)PV超過(guò)一個(gè)值就是高頻日志。它的優(yōu)點(diǎn)是能夠?qū)Ω鱾€(gè)分段進(jìn)行有針對(duì)性的分析，比如產(chǎn)品經(jīng)理想要看線(xiàn)上整體效果就使用隨機(jī)抽樣，而他想要重點(diǎn)優(yōu)化高頻交互的效果，那么我們就要分層抽樣。但它的缺點(diǎn)是數(shù)據(jù)分布與線(xiàn)上用戶(hù)的真實(shí)需求分布不一致。

第四種抽樣方法是垂直抽樣。在用戶(hù)日志中，我們會(huì)針對(duì)一些特性進(jìn)行局部抽樣。我們可以按領(lǐng)域進(jìn)行抽樣，如想要對(duì)閑聊進(jìn)行評(píng)測(cè)，我們抽取的query就是閑聊領(lǐng)域的query。垂直抽樣的優(yōu)點(diǎn)是能更好地覆蓋和發(fā)現(xiàn)局部類(lèi)型的問(wèn)題，缺點(diǎn)是無(wú)法從整體上說(shuō)明問(wèn)題。

3. 評(píng)測(cè)維度和規(guī)則選取

根據(jù)產(chǎn)品的定位以及評(píng)測(cè)的目的，我們可以選取不同的評(píng)測(cè)維度。

第一個(gè)維度：返回的結(jié)果不能有違反國(guó)家法律法規(guī)、影響用戶(hù)情緒的虛假錯(cuò)誤信息，比如黃賭毒等。

第二個(gè)維度：垃圾、作弊、低質(zhì)量信息也是我們重點(diǎn)關(guān)注的一個(gè)維度。垃圾包括死鏈等，作弊比如含虛假鏈接或者堆砌內(nèi)容等，低質(zhì)量指的是內(nèi)容質(zhì)量不高。這些情況在搜索引擎和語(yǔ)音助手中都較為常見(jiàn)。

第三個(gè)維度：意圖理解就是預(yù)判用戶(hù)query的真實(shí)需求。我們必須理解用戶(hù)的意圖才能給出相關(guān)的、高質(zhì)量的內(nèi)容。如果意圖理解出現(xiàn)了較大偏差，給出的結(jié)果就算內(nèi)容質(zhì)量再好，也會(huì)嚴(yán)重影響用戶(hù)體驗(yàn)。

第四個(gè)維度是相關(guān)性，它是一個(gè)好的結(jié)果最基本也最重要的要求。主要是指用戶(hù)需求和給出的結(jié)果是不是說(shuō)的是一回兒事。

第五個(gè)維度是時(shí)效性，要求返回的結(jié)果是一個(gè)及時(shí)的結(jié)果，特別對(duì)于有時(shí)效性需求的query，例如新聞、更新速度快的產(chǎn)品、周期性事件等很重要。第六個(gè)維度是排序，主要是在搜索評(píng)測(cè)中關(guān)注的維度。由于搜索結(jié)果是一個(gè)自上而下瀏覽的產(chǎn)品形態(tài)，質(zhì)量越高的結(jié)果排序應(yīng)該更加靠前。

第六個(gè)維度是多樣性，在搜索和語(yǔ)音助手中都會(huì)關(guān)注，比如一條query最好返回滿(mǎn)足不同需求的結(jié)果。比如query“陳情令”，多樣性結(jié)果返回應(yīng)包含劇情介紹、貼吧討論等。在語(yǔ)音助手中，多樣性指的是語(yǔ)音助手會(huì)返回不同有趣的答復(fù)。

第七個(gè)維度是權(quán)威性，在搜索引擎中體現(xiàn)得更多，搜索結(jié)果來(lái)自于官方網(wǎng)站或者知名網(wǎng)站，特別是一些詢(xún)問(wèn)醫(yī)療健康、法律法規(guī)方面的問(wèn)題，那么query的結(jié)果最好能給出權(quán)威性高的網(wǎng)站，其結(jié)果肯定比個(gè)人撰寫(xiě)的結(jié)果要好。

第八個(gè)維度是便捷性，是指找到目標(biāo)信息需要花費(fèi)的時(shí)間和成本，是搜索和語(yǔ)音助手中都會(huì)關(guān)注的維度。

第九個(gè)維度是豐富程度，主要關(guān)注評(píng)測(cè)結(jié)果內(nèi)容的豐富情況。

前提包含三個(gè)方面：

首先，制定評(píng)測(cè)規(guī)則的前要了解、熟悉產(chǎn)品。比如小布助手，在制定小布助手相關(guān)的評(píng)測(cè)方案和規(guī)則時(shí)，我首先要知道小布有多少技能，每個(gè)技能的呈現(xiàn)形式是什么樣的，和小布助手有同樣定位的競(jìng)品有哪些，它們有什么樣的技能，它們的呈現(xiàn)形式是什么樣的。這些都是在制定評(píng)測(cè)方案和規(guī)則前需要了解的。

其次我們還需要了解產(chǎn)品的用戶(hù)層，即用戶(hù)畫(huà)像。因?yàn)椴煌脩?hù)對(duì)于一個(gè)query的需求有可能也是不一樣的，或者在不同場(chǎng)景下，同一個(gè)query需求也會(huì)有很大的不同。

最后是了解評(píng)測(cè)目的，為什么要做評(píng)測(cè)，希望達(dá)到什么樣的預(yù)期，做了什么樣的優(yōu)化或策略。

評(píng)測(cè)的思考方向有：

評(píng)測(cè)維度，即確定評(píng)測(cè)需要關(guān)注的維度。
檔位劃分，行業(yè)常用的檔位有兩檔、三擋、四擋、五檔等，
檔位的定義，即給出不同檔位的情況的詳細(xì)說(shuō)明，使得評(píng)測(cè)標(biāo)注人員有參考依據(jù)，保證即使不是同一個(gè)人做的評(píng)測(cè)，其評(píng)測(cè)結(jié)果也不會(huì)有很大的變化，得出的結(jié)論能基本保持一致。
模糊地帶處理原則，我們一定要明確基線(xiàn)和分界線(xiàn)，對(duì)于模糊地帶也應(yīng)盡量降低其帶來(lái)對(duì)整體結(jié)論的影響。例如在搜索場(chǎng)景下，我們可以通過(guò)用戶(hù)的點(diǎn)擊數(shù)據(jù)來(lái)確定界限，而像語(yǔ)音助手，我們可以通過(guò)用戶(hù)的后續(xù)行為分析以及用戶(hù)調(diào)研來(lái)確定用戶(hù)query真實(shí)需求。

4. 評(píng)測(cè)標(biāo)注打分

評(píng)測(cè)標(biāo)注打分主要分為兩部分：用戶(hù)query需求判斷和結(jié)果需求滿(mǎn)足判斷。query需求判斷有四種方法。

第一種是直接理解法，適用于描述得比較清楚的query，我們直接可以按照query的字面意思理解，但是不能遺漏query的限定元素，比如“陳情令的分集劇情介紹”中“分集”的限定元素。

第二種是日常經(jīng)驗(yàn)法，這源于大部分用戶(hù)的需求，和日常生活比較貼近，我們可以根據(jù)常識(shí)來(lái)判斷query的需求。從這里也可以看出，選拔評(píng)測(cè)標(biāo)注人員時(shí)，需要挑選知識(shí)面比較廣且評(píng)測(cè)經(jīng)驗(yàn)比較豐富的候選人，這樣可以提高評(píng)測(cè)效率和質(zhì)量。

第三種是深入思考法，有一些query由于輸入方法比較復(fù)雜或者query描述不清楚，我們無(wú)法從字面意思直接理解用戶(hù)的真實(shí)需求，就需要進(jìn)行深入的思考和分析。

最后一種方法是搜索一下法，即深入思考之后還是無(wú)法理解用戶(hù)需求，那么不管是做搜索評(píng)測(cè)還是語(yǔ)音助手評(píng)測(cè)，可以使用頭部搜索引擎去觀(guān)察多家引擎給出的結(jié)果。通過(guò)對(duì)比之后，大概就可以對(duì)query有一個(gè)比較準(zhǔn)確的理解。

query需求判斷之后，我們需要判斷結(jié)果是否滿(mǎn)足需求。首先，我們?cè)u(píng)判結(jié)果是否可以提供用戶(hù)想要找的信息，即從相關(guān)性上來(lái)說(shuō)是否滿(mǎn)足了需求。第二點(diǎn)，我們?cè)u(píng)判結(jié)果是否滿(mǎn)足所關(guān)注的維度，然后根據(jù)滿(mǎn)足程度對(duì)應(yīng)檔位劃分規(guī)則，進(jìn)行標(biāo)注打分。

5. 評(píng)測(cè)報(bào)告

評(píng)測(cè)報(bào)告需要包含三大要素。首先，我們需要考慮報(bào)告的閱讀對(duì)象。比如評(píng)測(cè)報(bào)告是給上級(jí)做匯報(bào)的還是針對(duì)產(chǎn)品經(jīng)理和算法部門(mén)的，根據(jù)不同的閱讀對(duì)象，報(bào)告的呈現(xiàn)內(nèi)容不同。比如根據(jù)閱讀對(duì)象，評(píng)測(cè)數(shù)據(jù)中詳細(xì)的統(tǒng)計(jì)信息和提煉的問(wèn)題，也是不一樣的。但不管閱讀對(duì)象是誰(shuí)，我們必須服從One-page原則，報(bào)告的首頁(yè)一定要把最重要的內(nèi)容全部展示出來(lái)。最重要的內(nèi)容有：主要的指標(biāo)、重要統(tǒng)計(jì)結(jié)論、重點(diǎn)問(wèn)題、評(píng)測(cè)的背景信息等。評(píng)測(cè)的背景信息有評(píng)測(cè)的目的、評(píng)測(cè)的方法、評(píng)測(cè)的維度、評(píng)測(cè)的指標(biāo)、對(duì)應(yīng)的計(jì)算公式等。

評(píng)測(cè)通用流程

首先，需要了解評(píng)測(cè)的具體需求，溝通需求時(shí)應(yīng)該拉上相關(guān)的業(yè)務(wù)方負(fù)責(zé)人來(lái)溝通需求，之后評(píng)測(cè)方根據(jù)需求內(nèi)容輸出評(píng)測(cè)方案初稿。初稿包括前述評(píng)測(cè)背景中所應(yīng)該包含的所有內(nèi)容。初稿形成后，需要再一次拉上相關(guān)業(yè)務(wù)方進(jìn)行討論，形成終稿。之后，還需要做數(shù)據(jù)和環(huán)境的準(zhǔn)備，然后進(jìn)行評(píng)測(cè)試標(biāo)。試標(biāo)沒(méi)有問(wèn)題才能開(kāi)始正式評(píng)測(cè)，否則需要根據(jù)問(wèn)題點(diǎn)回退到相應(yīng)環(huán)節(jié)重新討論，有規(guī)則不合理或者未覆蓋也需要予以修正。正式評(píng)測(cè)后需要進(jìn)行評(píng)測(cè)質(zhì)檢，質(zhì)檢達(dá)標(biāo)后進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和報(bào)告輸出。到這里是評(píng)測(cè)的結(jié)束點(diǎn)，也是產(chǎn)品優(yōu)化的起點(diǎn)，因?yàn)樵u(píng)測(cè)的主要目的是為了提升用戶(hù)體驗(yàn)，評(píng)測(cè)中發(fā)現(xiàn)的問(wèn)題點(diǎn)和需求點(diǎn)，需要進(jìn)行不斷的優(yōu)化迭代。

小布助手評(píng)測(cè)體系

接下來(lái)，詳細(xì)介紹一下OPPO小布助手的評(píng)測(cè)體系。先介紹一下小布：

小布助手是OPPO智能手機(jī)和IoT設(shè)備上內(nèi)置的AI助手，是OPPO面向未來(lái)5G+萬(wàn)物互融時(shí)代的思考和具體戰(zhàn)略布局。它具備“無(wú)需安裝，喚醒即用”的覆蓋能力，實(shí)現(xiàn)“解放雙手，高效操作”的新形態(tài)人機(jī)互動(dòng)；擁有豐富的喚醒方式，可輕松實(shí)現(xiàn)內(nèi)容的語(yǔ)音直達(dá)服務(wù)。目前，小布助手可以支持的技能有上百種，包括比如：生活服務(wù)、出行服務(wù)、信息查詢(xún)、系統(tǒng)操作和娛樂(lè)服務(wù)等。小布助手的能力仍在不斷發(fā)展，針對(duì)這些能力，我們需要制定完整的評(píng)測(cè)體系，用于評(píng)估對(duì)用戶(hù)體驗(yàn)的影響，并不斷優(yōu)化體驗(yàn)。

整體的評(píng)測(cè)框架是圍繞語(yǔ)音交互系統(tǒng)的四個(gè)核心瓶頸來(lái)建設(shè)的。目前評(píng)測(cè)涉及的產(chǎn)品包括手機(jī)、手表、電視等。隨著OPPO互融布局的展開(kāi)，評(píng)測(cè)也會(huì)涉及到越來(lái)越多的產(chǎn)品。

針對(duì)“聽(tīng)清”的評(píng)測(cè)環(huán)節(jié)，一是需要評(píng)估出線(xiàn)上音頻質(zhì)量分布情況，二是要評(píng)測(cè)ASR識(shí)別率。識(shí)別率評(píng)測(cè)分為兩種，一種是在語(yǔ)音實(shí)驗(yàn)室的端到端評(píng)測(cè)，另一種是接口的評(píng)測(cè)。特別是接口評(píng)測(cè)，根據(jù)不同的評(píng)測(cè)需求，會(huì)采用不同的方案。

小布助手現(xiàn)在還支持粵語(yǔ)模式，所以也會(huì)開(kāi)展針對(duì)性評(píng)測(cè)，保證粵語(yǔ)交互效果。

針對(duì)“聽(tīng)得懂，答得好”的環(huán)節(jié)，我們需要進(jìn)行自然語(yǔ)言處理相關(guān)的評(píng)測(cè)以及資源引入評(píng)測(cè)。

評(píng)測(cè)包括滿(mǎn)意度評(píng)測(cè)、對(duì)比評(píng)測(cè)、用戶(hù)session滿(mǎn)意度評(píng)測(cè)等。滿(mǎn)意度評(píng)測(cè)，主要評(píng)估用戶(hù)首輪query對(duì)應(yīng)結(jié)果的質(zhì)量。對(duì)比評(píng)測(cè)，主要是評(píng)估和小布助手有相同定位的友商產(chǎn)品與小布的差異點(diǎn)。用戶(hù)session滿(mǎn)意度評(píng)測(cè)，評(píng)估用戶(hù)整個(gè)交互過(guò)程的滿(mǎn)足程度，會(huì)把交互全鏈路考慮進(jìn)去。還有兩類(lèi)評(píng)測(cè)，意圖的召回率和準(zhǔn)確率評(píng)測(cè)以及上線(xiàn)前的GSB評(píng)測(cè)。召準(zhǔn)率，行業(yè)通用，就不多說(shuō)了，GSB評(píng)測(cè)是針對(duì)技能在算法、資源、產(chǎn)品形態(tài)等等上線(xiàn)前和線(xiàn)上版本的效果對(duì)比進(jìn)行的評(píng)測(cè)。上線(xiàn)前提是，評(píng)測(cè)結(jié)果正向收益大于負(fù)向收益，否則改進(jìn)后的技能專(zhuān)項(xiàng)模型是不能上線(xiàn)的。

資源引入評(píng)測(cè)主要是觀(guān)察引入資源的效果。根據(jù)不同的資源，評(píng)測(cè)所關(guān)注的維度也是不一樣的，這里我就不再一一贅述了。

評(píng)測(cè)體系的最后一部分是“說(shuō)得清，說(shuō)得美”，它用來(lái)評(píng)估小布助手在各個(gè)音色上存在的問(wèn)題點(diǎn)及與競(jìng)品存在的差異點(diǎn)。除了行業(yè)通用的MOS評(píng)測(cè)，根據(jù)評(píng)測(cè)需求和效率，也會(huì)采用推薦式評(píng)測(cè)和只關(guān)注對(duì)錯(cuò)的客觀(guān)評(píng)測(cè)方式。

總結(jié)與展望

任何一個(gè)評(píng)測(cè)體系都不是一成不變的，它會(huì)隨著用戶(hù)需求、產(chǎn)品迭代進(jìn)行方案的升級(jí)，用于發(fā)現(xiàn)新問(wèn)題、指導(dǎo)優(yōu)化思路。

比如隨著語(yǔ)音助手從單設(shè)備到多終端、單指令到跨服務(wù)、單場(chǎng)景到跨場(chǎng)景的發(fā)展，小布助手評(píng)測(cè)體系一定也會(huì)持續(xù)升級(jí)，進(jìn)一步覆蓋超級(jí)終端的設(shè)備接入和管理能力評(píng)測(cè)，從語(yǔ)音識(shí)別到視覺(jué)識(shí)別、環(huán)境感知等效果能力評(píng)估、學(xué)習(xí)能力評(píng)估等。

精彩問(wèn)答

Q：ASR和TTS的評(píng)測(cè)指標(biāo)的定義和標(biāo)準(zhǔn)是什么？

A：ASR的評(píng)測(cè)指標(biāo)主要是字錯(cuò)率和句錯(cuò)率。語(yǔ)音轉(zhuǎn)成的文字和人工識(shí)別的文字進(jìn)行比較，來(lái)計(jì)算字錯(cuò)率和句錯(cuò)率。針對(duì)接口類(lèi)如多環(huán)境、多噪音、多性別、多年齡評(píng)測(cè)，我們隨機(jī)抽取線(xiàn)上用戶(hù)數(shù)據(jù)；而語(yǔ)音實(shí)驗(yàn)室評(píng)測(cè)的采集數(shù)據(jù)會(huì)針對(duì)性地采集一定噪音環(huán)境下的數(shù)據(jù)，如車(chē)載環(huán)境、高速公路環(huán)境、辦公室環(huán)境等。實(shí)驗(yàn)室會(huì)綜合人聲的采集數(shù)據(jù)和噪聲數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別測(cè)評(píng)。TTS的評(píng)測(cè)指標(biāo)是MOS得分，需要考慮自然度、清晰度、準(zhǔn)確率等因素。目前檔位分為五檔，業(yè)內(nèi)針對(duì)MOS打分的規(guī)則是通用的，有興趣的同學(xué)可以去網(wǎng)上搜索詳細(xì)的檔位劃分規(guī)則。

Q：針對(duì)嚴(yán)重的長(zhǎng)尾問(wèn)題，采用哪種抽樣方法更能改善用戶(hù)體驗(yàn)？評(píng)測(cè)的邊界case怎么處理？例如誤喚醒，情緒識(shí)別有時(shí)很難區(qū)分。

A：長(zhǎng)尾問(wèn)題可以使用分層抽樣的方法解決，因?yàn)殡S機(jī)抽樣抽取的樣本一定偏向PV較高的，無(wú)法覆蓋長(zhǎng)尾樣本。抽樣時(shí)從某個(gè)頻次以下的樣本池中進(jìn)行抽樣，就可以得到長(zhǎng)尾類(lèi)數(shù)據(jù)。邊界case，如果有客觀(guān)數(shù)據(jù)支持最好，如果沒(méi)有盡量考慮結(jié)果的多樣性，使模糊的用戶(hù)query不要影響整體結(jié)論。情緒識(shí)別有時(shí)會(huì)遇到難以區(qū)別的情況，比如傷心和失望，但是我們會(huì)定義具體的規(guī)則，盡量區(qū)分兩種情緒。

Q：相關(guān)性和時(shí)效性評(píng)測(cè)都是由人工進(jìn)行測(cè)評(píng)的嗎？

A：是的。分享中所涉及的都是人工評(píng)測(cè)，所以我們一定要在制定評(píng)測(cè)規(guī)則的時(shí)候就把它闡述清楚，減少人為主觀(guān)因素的影響。比如相關(guān)性，通過(guò)指定詳細(xì)的規(guī)則來(lái)定義強(qiáng)相關(guān)、弱相關(guān)和不相關(guān)，同時(shí)會(huì)使用case進(jìn)行舉例說(shuō)明，幫助評(píng)測(cè)人員進(jìn)行理解。時(shí)效性的評(píng)測(cè)可以使用“搜索一下”的方法，在搜索引擎中觀(guān)察query對(duì)應(yīng)的最新結(jié)果是什么，當(dāng)然我們也會(huì)去看競(jìng)品的結(jié)果，進(jìn)行綜合判斷。

Q：搜索評(píng)測(cè)中，準(zhǔn)召指標(biāo)會(huì)做全鏈路的嗎？滿(mǎn)意度和PI是不是都是針對(duì)全鏈路的最終結(jié)果？PI評(píng)測(cè)時(shí)是對(duì)各維度設(shè)計(jì)評(píng)測(cè)規(guī)則還是使用其他方法進(jìn)行設(shè)計(jì)？

A：搜索評(píng)測(cè)中的準(zhǔn)召一般都是按照垂域來(lái)進(jìn)行的，全鏈路的做法比較少見(jiàn)。滿(mǎn)意度是根據(jù)定義來(lái)進(jìn)行測(cè)評(píng)的，比如只關(guān)心Top 3的指標(biāo)，那么滿(mǎn)意度就和前三條結(jié)果有關(guān)，最后得出對(duì)應(yīng)的打分結(jié)果；如果關(guān)心Top10的指標(biāo)，那么就要把前十條結(jié)果都考慮在內(nèi)。PI也是遵循一樣的原則，目前業(yè)內(nèi)通常選取前三條或者前四條。PI會(huì)將前三條或者前四條結(jié)果分別進(jìn)行打分，然后按照計(jì)算公式使用權(quán)重計(jì)算它們的綜合得分。

Q：我們?nèi)绾螐倪@么多評(píng)測(cè)指標(biāo)中評(píng)價(jià)哪個(gè)模型是最優(yōu)的？所有維度都需要進(jìn)行評(píng)測(cè)嗎？如果不是，我們應(yīng)該如何選擇需要的評(píng)測(cè)維度？

A：我們的評(píng)測(cè)體系是覆蓋了所有核心瓶頸設(shè)計(jì)到的維度，但是當(dāng)你做評(píng)測(cè)的時(shí)候，就要通過(guò)待評(píng)測(cè)的模型和評(píng)測(cè)目的來(lái)選取不同的評(píng)測(cè)方法。比如現(xiàn)在要做鬧鐘意圖模型的優(yōu)化評(píng)測(cè)，只需要評(píng)測(cè)鬧鐘模型輸出的意圖和用戶(hù)真實(shí)需求是否有差異，它的模型優(yōu)化效果是否比線(xiàn)上版本好。針對(duì)評(píng)測(cè)維度，有的維度是搜索行業(yè)單獨(dú)關(guān)注的，有的維度是語(yǔ)音助手行業(yè)單獨(dú)關(guān)注的，有的維度是所有行業(yè)都會(huì)關(guān)注的，如相關(guān)性。評(píng)測(cè)的時(shí)候需要根據(jù)評(píng)測(cè)目的選取不同的維度，比如現(xiàn)在要關(guān)注閑聊的多樣性，那么需要在結(jié)果的相關(guān)性得到保證的情況下，再來(lái)看結(jié)果的多樣性是不是滿(mǎn)足需求，這時(shí)候評(píng)測(cè)關(guān)注的維度是相關(guān)性和多樣性，并不需要時(shí)效性。如果現(xiàn)在評(píng)測(cè)的是信息查詢(xún)，那么重點(diǎn)關(guān)注的維度應(yīng)該是相關(guān)性和時(shí)效性。根據(jù)不同的評(píng)測(cè)目的以及評(píng)測(cè)產(chǎn)品，我們所關(guān)注的維度有所不同。

Q：ASR方言評(píng)測(cè)是不是需要招聘專(zhuān)業(yè)的方言人員？TTS的MOS打分是長(zhǎng)期評(píng)測(cè)任務(wù)還是根據(jù)算法需求來(lái)制定的？同一條音頻評(píng)測(cè)時(shí)需要幾個(gè)人一起打分？

A：方言評(píng)測(cè)肯定是需要懂這個(gè)方言的評(píng)測(cè)人員才能完成的。TTS的MOS打分評(píng)測(cè)是根據(jù)摸底和算法需求綜合來(lái)進(jìn)行的。比如算法部門(mén)有優(yōu)化模型需要上線(xiàn)，那么我們就需要開(kāi)展評(píng)測(cè)。如果他們沒(méi)有新模型上線(xiàn)需求，那么我們會(huì)定期（如兩個(gè)月或一個(gè)季度）進(jìn)行線(xiàn)上的摸底評(píng)測(cè)。打分的時(shí)候，需要至少五個(gè)人對(duì)同一條音頻進(jìn)行打分。

Q：小布助手評(píng)測(cè)體系中最重要的指標(biāo)是哪幾項(xiàng)？

A：我們沒(méi)有固定的核心指標(biāo)。比如ASR的核心指標(biāo)是字錯(cuò)率和句錯(cuò)率；TTS的核心指標(biāo)是MOS得分；NLP的核心指標(biāo)是用戶(hù)滿(mǎn)意度，因?yàn)樗还芮懊嬗脩?hù)意圖識(shí)別是不是準(zhǔn)確，當(dāng)資源引入質(zhì)量較差或者相關(guān)性不好，NLP模塊給出的結(jié)果仍然是不佳的。

Q：小布助手的豐富性維度如何測(cè)評(píng)？

A：首先，保證豐富性的同時(shí)我們應(yīng)該權(quán)衡用戶(hù)的需求，所以主觀(guān)性比較強(qiáng)。我們需要保證回答不能過(guò)于簡(jiǎn)短。與此同時(shí)，我們還關(guān)注小布助手是否“言之有物”，回答不能闡述一個(gè)虛無(wú)的概念，而是一定要涉及某一具體事務(wù)，這具有一定的主觀(guān)性，所以在制定規(guī)則的時(shí)候不僅要考慮到回答的長(zhǎng)度，還要考慮“言之有物”，進(jìn)而判斷回答的豐富程度。

Q：用戶(hù)口音問(wèn)題導(dǎo)致語(yǔ)音識(shí)別率降低應(yīng)該如何解決？目前支持自動(dòng)識(shí)別用戶(hù)在說(shuō)哪一種方言嗎？喚醒詞支持方言嗎？

A：語(yǔ)音評(píng)測(cè)的時(shí)候不能關(guān)注用戶(hù)所說(shuō)的是帶了口音的普通話(huà)還是標(biāo)準(zhǔn)普通話(huà)。從用戶(hù)的滿(mǎn)足程度來(lái)看，我們應(yīng)該正確識(shí)別出帶口音的用戶(hù)的真實(shí)需求。所以我們的評(píng)測(cè)標(biāo)準(zhǔn)是一樣的，不能因?yàn)橛脩?hù)帶口音而放寬標(biāo)準(zhǔn)。但是當(dāng)評(píng)測(cè)顯示出問(wèn)題之后，我們會(huì)打上不同的標(biāo)簽，來(lái)表示這是因?yàn)橛脩?hù)口音而導(dǎo)致的錯(cuò)誤。同理，當(dāng)存在環(huán)境噪音時(shí)，出現(xiàn)的識(shí)別錯(cuò)誤我們也會(huì)打上相應(yīng)的標(biāo)簽。針對(duì)后一個(gè)問(wèn)題，我們目前不支持自動(dòng)識(shí)別方言，但是我們有一個(gè)開(kāi)關(guān)來(lái)控制小布助手的方言識(shí)別功能，喚醒詞支持方言的功能也同樣需要打開(kāi)開(kāi)關(guān)后才能支持。

今天的分享就到這里，謝謝大家。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版