作者:黃偉 梁君英
【語言論壇】
長(zhǎng)久以來,語言學(xué)一直被認(rèn)為是典型的人文社會(huì)學(xué)科。隨著現(xiàn)代語言學(xué)的發(fā)展,人們逐漸認(rèn)識(shí)到,人類語言現(xiàn)象應(yīng)該通過類似自然科學(xué)的一般方法進(jìn)行研究,使語言學(xué)向生命與認(rèn)知科學(xué)轉(zhuǎn)向,實(shí)現(xiàn)語言學(xué)的科學(xué)化。
語言學(xué)是研究語言結(jié)構(gòu)模式與演化規(guī)律的學(xué)科。對(duì)“模式”與“規(guī)律”的探求是語言學(xué)與其他科學(xué)的共同目標(biāo)。然而,光有科學(xué)的目標(biāo)還遠(yuǎn)遠(yuǎn)不夠。演繹與歸納、定性與定量、描寫與解釋、假設(shè)與檢驗(yàn)、仿真與建模等現(xiàn)代科學(xué)在方法論上的共同特征,正是傳統(tǒng)語言學(xué)所欠缺的。
與此同時(shí),中國(guó)語言學(xué)也面臨著國(guó)際化問題。我們?cè)趪?guó)際語言學(xué)學(xué)術(shù)共同體中的聲音還很微弱,對(duì)探求人類語言普遍規(guī)律方面的貢獻(xiàn)也有限。造成這種局面的原因,并不能完全歸結(jié)于研究對(duì)象(漢語及漢語方言為主)的不同,以及國(guó)際學(xué)術(shù)語言是英語的語言藩籬,也存在研究理念與研究方法的問題。
因此,使用科學(xué)的方法研究語言的結(jié)構(gòu)模式與演化規(guī)律是實(shí)現(xiàn)語言學(xué)科學(xué)化和中國(guó)語言學(xué)國(guó)際化的基本途徑。
雖然語言學(xué)具有悠久的計(jì)量研究傳統(tǒng),現(xiàn)代語言學(xué)的許多分支學(xué)科也離不開語言數(shù)據(jù)與計(jì)量方法的使用,但是,直接將結(jié)構(gòu)模式與演化規(guī)律的發(fā)現(xiàn)作為目標(biāo),并以現(xiàn)代科學(xué)手段進(jìn)行研究的,是計(jì)量語言學(xué)。
2011年,國(guó)家社會(huì)科學(xué)基金首次設(shè)立跨學(xué)科類重大項(xiàng)目,以劉海濤為首席專家的“現(xiàn)代漢語計(jì)量語言學(xué)研究”獲得資助。近幾年來,通過積極開展交叉學(xué)科語言研究,課題組在語言研究科學(xué)化與國(guó)際化方面取得了一些新進(jìn)展。
語言規(guī)律
從文本中來,到文本中去
文本是集中體現(xiàn)人類文明的重要資源。發(fā)現(xiàn)文本中蘊(yùn)含的規(guī)律,是計(jì)量語言學(xué)的根本任務(wù)。語言學(xué)中的齊普夫定律精確描述了文本中詞的出現(xiàn)頻次與其排序之間的冪律關(guān)系。雖然這個(gè)定律在不同語言中具有很強(qiáng)的普適性,但是人們一直無法清楚地解釋這種冪律關(guān)系的成因。
我們通過計(jì)算機(jī)仿真與大規(guī)模語料庫(kù)研究發(fā)現(xiàn),層級(jí)結(jié)構(gòu)能夠產(chǎn)生冪律分布,齊普夫定律闡述的詞頻序關(guān)系實(shí)質(zhì)上是詞的層級(jí)結(jié)構(gòu)特征在線性句子中的分布規(guī)律。
定律不僅能夠描述與解釋現(xiàn)象,還應(yīng)該能夠進(jìn)行預(yù)測(cè),即應(yīng)用定律解決實(shí)際問題。我們?cè)谘芯楷F(xiàn)代漢語新聞文本詞頻分布規(guī)律時(shí)發(fā)現(xiàn),齊普夫定律不僅在描述不同文本的詞頻分布方面具有普適性,而且該定律中的參數(shù)能夠細(xì)分新聞報(bào)道與評(píng)論,基于詞頻的計(jì)量指標(biāo)能夠區(qū)別口語與書面語文本。在對(duì)中國(guó)當(dāng)代文學(xué)中的新詩(shī)與散文進(jìn)行詞匯層面的計(jì)量研究中發(fā)現(xiàn):散文高頻詞的描述對(duì)象呈現(xiàn)多樣化特征,而新詩(shī)的高頻詞則表現(xiàn)出較強(qiáng)的時(shí)代性;散文的詞匯豐富程度明顯低于新詩(shī);兩類文本在名詞、代詞的使用頻次上表現(xiàn)出的相似性可能是新詩(shī)“散文性”的根源。
計(jì)量語言學(xué)中已經(jīng)發(fā)現(xiàn)了一些定律或建立了一些模型,但多數(shù)以描寫印歐語言為主。它們?cè)谌祟愓Z言中的普適性還需要通過更多的語言材料進(jìn)行檢驗(yàn)。我們?cè)趯?duì)現(xiàn)代漢語口語和書面語中的語言單位進(jìn)行詳盡考察后發(fā)現(xiàn),描述語言單位長(zhǎng)度分布規(guī)律的齊普夫-阿列克謝耶夫模型同樣適用于描述漢語的結(jié)構(gòu)長(zhǎng)度分布。這不僅說明人類語言在單位長(zhǎng)度分布方面具有普遍性,也揭示出不同語言通往普遍性的具體手段具有多樣性。
從真實(shí)語言現(xiàn)象中發(fā)現(xiàn)具有普適性的語言定律,將這些定律協(xié)同起來,可以構(gòu)建科學(xué)哲學(xué)意義上的語言學(xué)理論體系。我們借鑒印歐語言詞匯協(xié)同系統(tǒng),以語言結(jié)構(gòu)基本單位的4個(gè)核心屬性(詞長(zhǎng)、多義度、頻率和多文度)為元素,并首次引入配價(jià)概念,不僅成功地構(gòu)建了一個(gè)漢語詞匯協(xié)同子系統(tǒng)模型,也為構(gòu)擬基于配價(jià)與依存關(guān)系的句法協(xié)同子系統(tǒng)奠定了基礎(chǔ)。
采用計(jì)量語言學(xué)的一般方法開展?jié)h語相關(guān)研究,加強(qiáng)了漢語描寫與解釋的客觀性、精確性和科學(xué)性,有助于驗(yàn)證語言結(jié)構(gòu)模式與規(guī)律的跨語言普適性。
學(xué)科交叉
他山之石,可以攻玉
語言是一個(gè)由人驅(qū)動(dòng)的復(fù)雜適應(yīng)系統(tǒng),因而語言研究從本質(zhì)上就具有多學(xué)科交叉的特質(zhì)。我們借鑒系統(tǒng)科學(xué)、計(jì)算機(jī)科學(xué)、仿真學(xué)、心理學(xué)等學(xué)科的研究方法開展跨學(xué)科語言研究,得到了一些采用傳統(tǒng)語言研究方法或計(jì)量語言學(xué)一般方法難以發(fā)現(xiàn)的規(guī)律。
首先,現(xiàn)代語言學(xué)認(rèn)為,語言是一個(gè)復(fù)雜適應(yīng)系統(tǒng)。這意味著包括計(jì)量語言學(xué)一般方法在內(nèi)的研究方法難以處理語言“涌現(xiàn)”現(xiàn)象。我們采用復(fù)雜網(wǎng)絡(luò)分析方法對(duì)語言結(jié)構(gòu)與演化進(jìn)行了探索。比如,在對(duì)基于大規(guī)模真實(shí)語料構(gòu)建的漢語字同現(xiàn)網(wǎng)絡(luò)進(jìn)行研究時(shí),我們發(fā)現(xiàn)從網(wǎng)絡(luò)中提取出的所有高頻字同現(xiàn)對(duì)與漢語中的二字詞具有很強(qiáng)的同一性,進(jìn)而對(duì)漢語二字詞在局部語境中的突顯機(jī)制有了更深入的認(rèn)識(shí);還發(fā)現(xiàn)了上古、中古、近代和現(xiàn)代漢語的字同現(xiàn)網(wǎng)絡(luò)的整體特性,以及“在”和“人”這兩個(gè)詞在不同時(shí)期的網(wǎng)絡(luò)特征變化,實(shí)現(xiàn)了對(duì)語言系統(tǒng)整體和個(gè)別語言現(xiàn)象的共演分析。
其次,語言還是一個(gè)由人驅(qū)動(dòng)的符號(hào)系統(tǒng)。通過將人類認(rèn)知機(jī)制同語言研究相結(jié)合,可以從語言之窗洞察人類天性。
人類語言系統(tǒng)的運(yùn)作基礎(chǔ)是受認(rèn)知機(jī)制所限而出現(xiàn)的省力原則(說話人與聽話人之間的一種能量開銷均衡)。依存距離(詞間句法語義關(guān)系的一個(gè)測(cè)度)最小化就是在這個(gè)原則的作用下產(chǎn)生的,它是人類語言線性結(jié)構(gòu)的一個(gè)普遍特征。通過計(jì)算機(jī)仿真數(shù)據(jù)與真實(shí)語言材料,我們發(fā)現(xiàn)了導(dǎo)致依存距離最小化的三個(gè)因素是交叉依存、根節(jié)點(diǎn)位置和組塊(一種比詞大的動(dòng)態(tài)語言單位);同時(shí)還發(fā)現(xiàn),為了降低長(zhǎng)句的理解難度,人在認(rèn)知資源的制約下會(huì)采取某些動(dòng)態(tài)手段達(dá)成交際目的。
此外,我們還開展了長(zhǎng)依存距離語言現(xiàn)象的心理行為實(shí)驗(yàn)研究,發(fā)現(xiàn)介詞對(duì)依存距離不敏感,主謂關(guān)系中的依存距離受主語信息特征影響等規(guī)律。這也說明,語言系統(tǒng)的運(yùn)作機(jī)理是許多因素共同作用的結(jié)果。
以上研究從靜態(tài)角度揭示了語言結(jié)構(gòu)的共時(shí)復(fù)雜性。在語言動(dòng)態(tài)演化模式方面,我們也有新發(fā)現(xiàn)。比如,漢語句子的平均依存距離在持續(xù)增大,句法結(jié)構(gòu)有復(fù)雜化趨勢(shì);但是漢語的主要語序并沒有發(fā)生顯著變化。如果表達(dá)的精確性或內(nèi)容的復(fù)雜化使?jié)h語的句子結(jié)構(gòu)變復(fù)雜了,那么,由于依存距離與人類認(rèn)知密切相關(guān),是否意味著從古到今,講漢語的人的認(rèn)知壓力一直在增加呢?然而,為什么人們沒有感覺到這種壓力?難道是人的認(rèn)知機(jī)制也隨著語言的變化發(fā)生了適應(yīng)性改變嗎?我們正在對(duì)這個(gè)語言與認(rèn)知共演的國(guó)際前沿課題進(jìn)行研究。
目前,我們的部分研究成果已經(jīng)達(dá)到國(guó)際領(lǐng)先或先進(jìn)水平。這些成果拉近了語言學(xué)同其他科學(xué)領(lǐng)域的距離,縮小了漢語(計(jì)量)語言學(xué)同國(guó)際學(xué)術(shù)研究之間的差距,提高了中國(guó)語言學(xué)在國(guó)際上的聲望與話語權(quán)。
計(jì)量語言學(xué)是語言學(xué)領(lǐng)域具有典型的數(shù)字人文特征的分支學(xué)科。隨著海量數(shù)據(jù)在傳統(tǒng)藝術(shù)與人文領(lǐng)域的廣泛應(yīng)用,數(shù)字人文作為一種新的方法論正流行開來。這也使得這些傳統(tǒng)學(xué)科不得不開始思考,如何利用數(shù)據(jù)來解決過去難以解決或解決得不夠好的問題,從而更合理地解釋數(shù)據(jù)展現(xiàn)出來的有關(guān)人類認(rèn)知、行為的模式,探求人與社會(huì)、自然交互的規(guī)律。
(作者系國(guó)家社科基金重大項(xiàng)目“現(xiàn)代漢語計(jì)量語言學(xué)研究”課題組成員,黃偉系北京語言大學(xué)副研究員、梁君英系浙江大學(xué)教授)
[本文轉(zhuǎn)自《光明日?qǐng)?bào)》2017年 3 月 26日第 12 版。]
聯(lián)系客服