全文共2433字,預(yù)計學(xué)習(xí)時長5分鐘
圖片來源:pexels.com/@pixabay
隨著人工智能的發(fā)展與技術(shù)的日益復(fù)雜化,人們希望現(xiàn)存的概念能做出調(diào)整或是適應(yīng)這些變化。同樣,在電腦輔助的自然語言處理領(lǐng)域,自然語言處理(NLP)這一概念是否要為自然語言理解(NLU)讓步?這兩個概念的關(guān)系是否更加微妙和復(fù)雜,而不僅僅只是一種技術(shù)的線性發(fā)展?
本文將分辨自然語言處理和自然語言理解這兩種概念,并闡述二者在人工智能相關(guān)技術(shù)領(lǐng)域的地位。
重要的是,盡管這兩個概念有時會交替使用,自然語言處理和自然語言理解雖有共通之處,卻不相同。首先,它們都涉及自然語言與人工語言的聯(lián)系問題,都試圖處理非結(jié)構(gòu)化數(shù)據(jù)(例如語言),而不是要處理結(jié)構(gòu)化數(shù)據(jù)(如統(tǒng)計數(shù)據(jù)、行為等)。然而,NLP和NLU均與其他數(shù)據(jù)挖掘技巧截然不同。
自然語言處理(NLP)
NLP是一個有數(shù)十年歷史的成熟研究領(lǐng)域,結(jié)合了計算機(jī)科學(xué)、人工智能等學(xué)科,與數(shù)據(jù)挖掘的聯(lián)系也日益緊密。NLP的最終目標(biāo)是閱讀、解碼和理解,讓機(jī)器領(lǐng)會人類語言的意義,以及把人類的某些任務(wù)交給機(jī)器代為處理。常見的NLP實例有:線上聊天機(jī)器人,文本概括器,自動生成的關(guān)鍵詞標(biāo)簽,以及分析現(xiàn)有文本情感的工具。
NLP的任務(wù)
NLP廣義上指語音識別、自然語言識別、以及自然語言生成等一系列工具。但以往NLP最為常見的任務(wù)為以下幾點:
· 標(biāo)記化
· 語法分析
· 信息提取
· 相似性分析
· 語音識別
· 自然語言和語音生成及其他
在現(xiàn)實生活中,NLP用于一切人們能想到的、與語言相關(guān)的工作,如文本概括、情感分析、話題提取、命名實體識別、詞性標(biāo)注、關(guān)系抽取、詞干提取、文本挖掘、機(jī)器翻譯、問題自動回復(fù)、本體擴(kuò)展、以及語言模型建構(gòu)等。
NLP的技巧
NLP的兩大支柱是句法分析和語義分析。
總而言之:NLP依靠機(jī)器學(xué)習(xí),通過語義和句法分析獲取人類語言的語義。
自然語言理解(NLU)
NLP的發(fā)展可以追溯到1950年代,那時的電腦程序員開始嘗試輸入簡單語言;而NLU則興起于1960年代;人們創(chuàng)造NLU,意在讓電腦理解更為復(fù)雜的輸入語言。NLU是隸屬NLP的子話題,它對于自然語言的探索目的更具體,且主要關(guān)注機(jī)器的閱讀理解能力:訓(xùn)練機(jī)器的自然語言理解能力,意在讓機(jī)器理解一段文本的真正含義。
NLU的任務(wù)
與NLP相似,NLU使用算法,讓人類言語簡化為一個結(jié)構(gòu)化的本體。人工智能的算法繼而對語言進(jìn)行分析,識別出目的、時間、地點和情感。盡管如此,通過考察NLU的任務(wù),我們會驚訝地發(fā)現(xiàn),NLP在這一基本概念之上又延伸出了許多其他任務(wù):
NLU是眾多步驟中的第一步,后者包括:文本分類、新信息收集、單個文本整理歸檔,以及在更大的規(guī)模上進(jìn)行內(nèi)容分析。NLU的實例包括:根據(jù)對文本的淺顯理解,發(fā)布短命令等小型任務(wù),以及根據(jù)一套基本的句法和適量詞匯,重新規(guī)劃郵件路徑,將其發(fā)送給正確的收件人等大型指令。更為復(fù)雜精細(xì)的工作,就是讓機(jī)器完全理解新聞類文本,或詩歌和小說中的有意義的細(xì)微差別。
總而言之:最好把NLU看作實現(xiàn)NLP的第一步:在機(jī)器處理語言之前,它必須去理解這門語言。
NLP與NLU之間的關(guān)聯(lián)
從任務(wù)和工作來看,NLU是自然語言處理中不可或缺的一部分,它負(fù)責(zé)形成對特定文本意義的擬人化理解。而NLP與NLU之間最大的不同就是,NLU超越了對單個詞語的理解,因為它試圖通過處理讀音錯誤、字母或詞語順序調(diào)換等人為錯誤來理解意義。
諾姆·喬姆斯基于1957年在《句法結(jié)構(gòu)》一書中提出的理論,推動了NLP發(fā)展:“對某一語言L進(jìn)行語言學(xué)分析的根本目的是:劃分其中的語法序列,也就是構(gòu)成語言L的句子,與其中的非語法序列,即不屬于語言L的句子,從而研究該語法序列的結(jié)構(gòu)?!?/p>
的確,句法分析在多種工作中適用。憑借句法分析,NLP能夠?qū)θ舾稍~語應(yīng)用語法規(guī)律,并從中推導(dǎo)出意義,評定一門語言是否符合語法規(guī)則。具體技巧如下:
· 詞形還原:將一個詞的變化形式/屈折形式(inflected form)劃歸為一個簡單形式,以便分析。
· 詞干提?。簩⒁粋€詞的變化形式簡化為它的詞根的形式。
· 語素切分:將詞語劃分為不同語素。
· 詞語切分:將一個連續(xù)的文本劃分為不同語群。
· 語法分析:從語法上分析一個句子。
· 詞性標(biāo)注:確定每一個詞的詞性。
· 句子成分劃分:在一個連續(xù)的句子中標(biāo)注分界。
句法分析技巧
但是,語法正確不一定代表句子有效。想一想,“無色的綠色想法正迅猛地沉醉”這個句子沒有意義,卻符合語法。另外,在現(xiàn)實生活中,有意義的句子經(jīng)常包含一些小錯誤,它們因此可能屬于語法錯誤的句子。人際交往容許現(xiàn)成文本和言語出錯,因為人們可以憑借優(yōu)異的模式識別,從語境中提取更多信息,來彌補這些不足。這表明,以句法為主的分析方法不夠周全;也說明,人們對多層面的語義研究需要多加關(guān)注。
語義分析是NLU的核心。所謂語義分析,就是應(yīng)用計算機(jī)算法,理解詞語的意義和解釋。目前這種分析方法尚未成型。
以下是部分語義分析技巧:
· 命名實體識別:確定文本中能被劃分并納入預(yù)設(shè)的分組的部分。
· 詞義消歧:根據(jù)語境確定一個詞的含義。
· 自然語言生成:使用數(shù)據(jù)庫推導(dǎo)語義意圖,并將其轉(zhuǎn)化為人類語言。
盡管如此,機(jī)器為了理解自然語言,不僅需要考慮語義的字面意思,還要理解語義指示的意圖,或是去明白文本想實現(xiàn)的目的。這個層面的語義分析,叫做語用分析,它僅僅是入門NLU/NLP技巧的開端。目前,語用分析多少可以視為情感分析的一部分:例如文本中的消極/積極/中立態(tài)度評定。
未來……
商界和學(xué)界人士不斷為開發(fā)NLP和NLU技術(shù)投資,以實現(xiàn)創(chuàng)造能與人類互動、像人類一樣交流的聊天機(jī)器人這一目標(biāo),這種聊天機(jī)器人最終還要通過圖靈測試。他們設(shè)想的最終產(chǎn)品,應(yīng)該不耗費精力、不受管控、有能力直接與人類進(jìn)行得體且成功的交流。
為實現(xiàn)此目標(biāo),人們從三個層面展開研究:
· 句法——文本語法的理解
· 語義——文本字面意義的理解
· 語用——文本目的的理解
不幸的是,由于訓(xùn)練機(jī)器需要大量詞匯,自然語言的理解和處理沒有那么容易,需要融合多學(xué)科的技術(shù):語言、語言學(xué)、認(rèn)知科學(xué)、數(shù)據(jù)科學(xué)、計算機(jī)科學(xué)等其他學(xué)科都在此之列。只有綜合各種可能視角,我們才能解開人類語言之謎。
留言 點贊 關(guān)注
我們一起分享AI學(xué)習(xí)與發(fā)展的干貨
歡迎關(guān)注全平臺AI垂類自媒體 “讀芯術(shù)”