NLP VS NLU：彼此替代還是互相融合？

2019.08.03

全文共2433字，預(yù)計學(xué)習(xí)時長5分鐘

圖片來源：pexels.com/@pixabay

隨著人工智能的發(fā)展與技術(shù)的日益復(fù)雜化，人們希望現(xiàn)存的概念能做出調(diào)整或是適應(yīng)這些變化。同樣，在電腦輔助的自然語言處理領(lǐng)域，自然語言處理（NLP）這一概念是否要為自然語言理解（NLU）讓步？這兩個概念的關(guān)系是否更加微妙和復(fù)雜，而不僅僅只是一種技術(shù)的線性發(fā)展？

本文將分辨自然語言處理和自然語言理解這兩種概念，并闡述二者在人工智能相關(guān)技術(shù)領(lǐng)域的地位。

重要的是，盡管這兩個概念有時會交替使用，自然語言處理和自然語言理解雖有共通之處，卻不相同。首先，它們都涉及自然語言與人工語言的聯(lián)系問題，都試圖處理非結(jié)構(gòu)化數(shù)據(jù)（例如語言），而不是要處理結(jié)構(gòu)化數(shù)據(jù)（如統(tǒng)計數(shù)據(jù)、行為等）。然而，NLP和NLU均與其他數(shù)據(jù)挖掘技巧截然不同。

自然語言處理（NLP）

NLP是一個有數(shù)十年歷史的成熟研究領(lǐng)域，結(jié)合了計算機(jī)科學(xué)、人工智能等學(xué)科，與數(shù)據(jù)挖掘的聯(lián)系也日益緊密。NLP的最終目標(biāo)是閱讀、解碼和理解，讓機(jī)器領(lǐng)會人類語言的意義，以及把人類的某些任務(wù)交給機(jī)器代為處理。常見的NLP實例有：線上聊天機(jī)器人，文本概括器，自動生成的關(guān)鍵詞標(biāo)簽，以及分析現(xiàn)有文本情感的工具。

NLP的任務(wù)

NLP廣義上指語音識別、自然語言識別、以及自然語言生成等一系列工具。但以往NLP最為常見的任務(wù)為以下幾點：

· 標(biāo)記化

· 語法分析

· 信息提取

· 相似性分析

· 語音識別

· 自然語言和語音生成及其他

在現(xiàn)實生活中，NLP用于一切人們能想到的、與語言相關(guān)的工作，如文本概括、情感分析、話題提取、命名實體識別、詞性標(biāo)注、關(guān)系抽取、詞干提取、文本挖掘、機(jī)器翻譯、問題自動回復(fù)、本體擴(kuò)展、以及語言模型建構(gòu)等。

NLP的技巧

NLP的兩大支柱是句法分析和語義分析。

總而言之：NLP依靠機(jī)器學(xué)習(xí)，通過語義和句法分析獲取人類語言的語義。

自然語言理解（NLU）

NLP的發(fā)展可以追溯到1950年代，那時的電腦程序員開始嘗試輸入簡單語言；而NLU則興起于1960年代；人們創(chuàng)造NLU，意在讓電腦理解更為復(fù)雜的輸入語言。NLU是隸屬NLP的子話題，它對于自然語言的探索目的更具體，且主要關(guān)注機(jī)器的閱讀理解能力：訓(xùn)練機(jī)器的自然語言理解能力，意在讓機(jī)器理解一段文本的真正含義。

NLU的任務(wù)

與NLP相似，NLU使用算法，讓人類言語簡化為一個結(jié)構(gòu)化的本體。人工智能的算法繼而對語言進(jìn)行分析，識別出目的、時間、地點和情感。盡管如此，通過考察NLU的任務(wù)，我們會驚訝地發(fā)現(xiàn)，NLP在這一基本概念之上又延伸出了許多其他任務(wù)：

NLU是眾多步驟中的第一步，后者包括：文本分類、新信息收集、單個文本整理歸檔，以及在更大的規(guī)模上進(jìn)行內(nèi)容分析。NLU的實例包括：根據(jù)對文本的淺顯理解，發(fā)布短命令等小型任務(wù)，以及根據(jù)一套基本的句法和適量詞匯，重新規(guī)劃郵件路徑，將其發(fā)送給正確的收件人等大型指令。更為復(fù)雜精細(xì)的工作，就是讓機(jī)器完全理解新聞類文本，或詩歌和小說中的有意義的細(xì)微差別。

總而言之：最好把NLU看作實現(xiàn)NLP的第一步：在機(jī)器處理語言之前，它必須去理解這門語言。

NLP與NLU之間的關(guān)聯(lián)

從任務(wù)和工作來看，NLU是自然語言處理中不可或缺的一部分，它負(fù)責(zé)形成對特定文本意義的擬人化理解。而NLP與NLU之間最大的不同就是，NLU超越了對單個詞語的理解，因為它試圖通過處理讀音錯誤、字母或詞語順序調(diào)換等人為錯誤來理解意義。

諾姆·喬姆斯基于1957年在《句法結(jié)構(gòu)》一書中提出的理論，推動了NLP發(fā)展：“對某一語言L進(jìn)行語言學(xué)分析的根本目的是：劃分其中的語法序列，也就是構(gòu)成語言L的句子，與其中的非語法序列，即不屬于語言L的句子，從而研究該語法序列的結(jié)構(gòu)?！?/p>

的確，句法分析在多種工作中適用。憑借句法分析，NLP能夠?qū)θ舾稍~語應(yīng)用語法規(guī)律，并從中推導(dǎo)出意義，評定一門語言是否符合語法規(guī)則。具體技巧如下：

· 詞形還原：將一個詞的變化形式/屈折形式（inflected form）劃歸為一個簡單形式，以便分析。

· 詞干提?。簩⒁粋€詞的變化形式簡化為它的詞根的形式。

· 語素切分：將詞語劃分為不同語素。

· 詞語切分：將一個連續(xù)的文本劃分為不同語群。

· 語法分析：從語法上分析一個句子。

· 詞性標(biāo)注：確定每一個詞的詞性。

· 句子成分劃分：在一個連續(xù)的句子中標(biāo)注分界。

句法分析技巧

但是，語法正確不一定代表句子有效。想一想，“無色的綠色想法正迅猛地沉醉”這個句子沒有意義，卻符合語法。另外，在現(xiàn)實生活中，有意義的句子經(jīng)常包含一些小錯誤，它們因此可能屬于語法錯誤的句子。人際交往容許現(xiàn)成文本和言語出錯，因為人們可以憑借優(yōu)異的模式識別，從語境中提取更多信息，來彌補這些不足。這表明，以句法為主的分析方法不夠周全；也說明，人們對多層面的語義研究需要多加關(guān)注。

語義分析是NLU的核心。所謂語義分析，就是應(yīng)用計算機(jī)算法，理解詞語的意義和解釋。目前這種分析方法尚未成型。

以下是部分語義分析技巧：

· 命名實體識別：確定文本中能被劃分并納入預(yù)設(shè)的分組的部分。

· 詞義消歧：根據(jù)語境確定一個詞的含義。

· 自然語言生成：使用數(shù)據(jù)庫推導(dǎo)語義意圖，并將其轉(zhuǎn)化為人類語言。

盡管如此，機(jī)器為了理解自然語言，不僅需要考慮語義的字面意思，還要理解語義指示的意圖，或是去明白文本想實現(xiàn)的目的。這個層面的語義分析，叫做語用分析，它僅僅是入門NLU/NLP技巧的開端。目前，語用分析多少可以視為情感分析的一部分：例如文本中的消極/積極/中立態(tài)度評定。

未來……

商界和學(xué)界人士不斷為開發(fā)NLP和NLU技術(shù)投資，以實現(xiàn)創(chuàng)造能與人類互動、像人類一樣交流的聊天機(jī)器人這一目標(biāo)，這種聊天機(jī)器人最終還要通過圖靈測試。他們設(shè)想的最終產(chǎn)品，應(yīng)該不耗費精力、不受管控、有能力直接與人類進(jìn)行得體且成功的交流。

為實現(xiàn)此目標(biāo)，人們從三個層面展開研究：

· 句法——文本語法的理解

· 語義——文本字面意義的理解

· 語用——文本目的的理解

不幸的是，由于訓(xùn)練機(jī)器需要大量詞匯，自然語言的理解和處理沒有那么容易，需要融合多學(xué)科的技術(shù)：語言、語言學(xué)、認(rèn)知科學(xué)、數(shù)據(jù)科學(xué)、計算機(jī)科學(xué)等其他學(xué)科都在此之列。只有綜合各種可能視角，我們才能解開人類語言之謎。

留言點贊關(guān)注

我們一起分享AI學(xué)習(xí)與發(fā)展的干貨

歡迎關(guān)注全平臺AI垂類自媒體 “讀芯術(shù)”

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

自然語言處理NaturalLanguageProcessing(NLP)

詳解自然語言處理（NLP）5大語義分析技術(shù)及14類應(yīng)用（建議收藏）

阿里自然語言處理部總監(jiān)分享：NLP技術(shù)的應(yīng)用及思考

【NLP-ChatBot】能干活的聊天機(jī)器人-對話系統(tǒng)概述

不同于NLP，數(shù)據(jù)驅(qū)動方法與機(jī)器學(xué)習(xí)無法攻克NLU，原因有三點

“語料庫研究學(xué)術(shù)源流考”干貨分享

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版