Web挖掘技術(shù)

一、數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是運用計算機及信息技術(shù),從大量的、不完全的數(shù)據(jù)集中獲取隱含在其中的有用知識的高級過程。Web 數(shù)據(jù)挖掘是從數(shù)據(jù)挖掘發(fā)展而來,是數(shù)據(jù)挖掘技術(shù)在Web 技術(shù)中的應用。Web 數(shù)據(jù)挖掘是一項綜合技術(shù),通過從Internet 上的資源中抽取信息來提高Web 技術(shù)的利用效率,也就是從Web 文檔結(jié)構(gòu)和試用的集合中發(fā)現(xiàn)隱含的模式。

數(shù)據(jù)挖掘涉及的學科領(lǐng)域和方法很多，有多種分類法。

（1）根據(jù)挖掘?qū)ο蠓郑宏P(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時序數(shù)據(jù)庫、DNA 數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及Web數(shù)據(jù)庫等；

（2）根據(jù)挖掘方法分：機器學習方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡方法和數(shù)據(jù)庫方法等；

a. 機器學習方法可細分為：歸納學習方法（決策樹、規(guī)則歸納等）、基于范例學習、遺傳算法等。

b.統(tǒng)計方法可細分為：回歸分析（多元回歸、自回歸等）、判別分析（貝葉斯判別、費歇爾判別、非參數(shù)判別等）、聚類分析（系統(tǒng)聚類、動態(tài)聚類等）、探索性分析（主元分析法、相關(guān)分析法等）等。

c. 神經(jīng)網(wǎng)絡方法可細分為：前向神經(jīng)網(wǎng)絡（BP 算法等）、自組織神經(jīng)網(wǎng)絡（自組織特征映射、競爭學習等）等。

（3）根據(jù)開采任務分：可分為關(guān)聯(lián)規(guī)則、分類、聚類、時間序列預測模型發(fā)現(xiàn)和時序模式發(fā)現(xiàn)等。

a.關(guān)聯(lián)規(guī)則：典型的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法是Apriori算法，該算法也稱廣度優(yōu)先算法，是A.Agrawal和R.Srikandt于1994年提出的，它是目前除AIS 算法、面向SQL的SETM 算法外幾乎所有頻繁項集發(fā)現(xiàn)算法的核心，其基本思想是：如果一個項集不是頻繁集，則其父集也不是頻繁集，由此大大地減少了需要驗證的項集的數(shù)目，在實際運行中它明顯優(yōu)于AIS 算法。

Apriori算法是關(guān)聯(lián)規(guī)則挖掘中最具有影響的一種算法.所謂關(guān)聯(lián)規(guī)則就是從事務數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫和其他數(shù)據(jù)存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性.關(guān)聯(lián)規(guī)則可以分為兩步:

1)找出所有頻繁項集.這部分主要由后面介紹的Apriori算法來解決.

2)由頻繁項集產(chǎn)生相關(guān)聯(lián)規(guī)則:這些規(guī)則必須滿足最小支持度和最小置信度.

b.分類規(guī)則：數(shù)據(jù)挖掘的一個重要任務是對海量數(shù)據(jù)進行分類。數(shù)據(jù)分類是基于一組數(shù)據(jù)的某些屬性的值進行的。數(shù)據(jù)分類的方法很多，包括決策樹方法、統(tǒng)計學方法、神經(jīng)網(wǎng)絡方法、最近鄰居方法等等。其中，基于決策樹的分類方法與其它的分類方法比較起來，具有速度較快、較容易轉(zhuǎn)換成簡單的并且易于被理解的分類規(guī)則、較易轉(zhuǎn)換成數(shù)據(jù)庫查詢語言、友善、可得到更高的準確度等優(yōu)點。

c.數(shù)據(jù)聚類：其基本思想是：對數(shù)據(jù)進行分析的過程中，在考慮數(shù)據(jù)間的“距離”的同時，更側(cè)重考慮某些數(shù)據(jù)間具有類的共同內(nèi)涵。數(shù)據(jù)聚類是對一組數(shù)據(jù)進行分組，這種分組基于如下的原理：最大的組內(nèi)相似性與最小的組間相似性。

d. 時序模式：可用如下的例子描述時序模式：一個顧客先租看影片“Star Wars”，然后租“Empire Strikes Back”，再租“Return of the Judi”，注意到這些租借事物的發(fā)生不一定是連著的。像這樣一次事件的發(fā)生會導致某些事物的相繼發(fā)生的事件模式，稱為時序模式。

e.相似模式：時態(tài)或空間—時態(tài)的大量數(shù)據(jù)存在于計算機中，這些數(shù)據(jù)庫例子包括：股票價格指數(shù)的金融數(shù)據(jù)庫、醫(yī)療數(shù)據(jù)庫、多媒體數(shù)據(jù)庫等等。在時態(tài)或空間—時態(tài)數(shù)據(jù)庫中搜索相似模式的目的是發(fā)現(xiàn)和預測風險、因果關(guān)系及關(guān)聯(lián)于特定模式的趨勢。






二、Web挖掘

Web 站點上的數(shù)據(jù)有其自身的特點，主要的可以歸納為以下幾點:

1 、數(shù)據(jù)量巨大，動態(tài)性極強；2、異構(gòu)數(shù)據(jù)庫環(huán)境；3 、半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。

Web 數(shù)據(jù)挖掘可以分為Web 內(nèi)容挖掘,Web結(jié)構(gòu)挖掘,Web 使用挖掘三類。Web 內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取有用信息的過程,Web 內(nèi)容挖掘有兩種策略:直接挖掘文檔的內(nèi)容和在其他工具搜索的基礎上進行改進。采用第一種策略的有針對Web 的查詢語言WebLOG,利用啟發(fā)式規(guī)則來尋找個人主頁信息的AHOY 等。采用第二種策略的方法主要是對搜索引擎的查詢結(jié)果進行進一步的處理, 得到更為精確和有用的信息。屬于該類的有WebSQL ,及對搜索引擎的返回結(jié)果進行聚類的技術(shù)等。根據(jù)挖掘處理的數(shù)據(jù)可以將Web 內(nèi)容挖掘分為文本挖掘和多媒體挖掘兩個部分。Web 結(jié)構(gòu)挖掘是從Web 組織結(jié)構(gòu)和鏈接關(guān)系中推導知識。挖掘頁面的結(jié)構(gòu)和Web 結(jié)構(gòu),可以用來指導對頁面進行分類和聚類,找到權(quán)威頁面、中心頁面,從而提高檢索的性能。同時還可以用來指導頁面采集工作,提高采集效率。Web 結(jié)構(gòu)挖掘可以分為Web 文檔內(nèi)部結(jié)構(gòu)挖掘和文檔間的超鏈接結(jié)構(gòu)挖掘。這方面的代表有Page Rank和CLEVER,此外,在多層次Web數(shù)據(jù)倉庫( MLDB ) 中也利用了頁面的鏈接結(jié)構(gòu)。Web 使用挖掘是從服務器端記錄的用戶訪問日志或從用戶的瀏覽信息中抽取感興趣的模式,通過分析這些數(shù)據(jù)可以幫助理解用戶隱藏在數(shù)據(jù)中的行為模式,做出預測性分析,從而改進站點的結(jié)構(gòu)或為用戶提供個性化的服務。


Web 挖掘相關(guān)技術(shù)：

數(shù)據(jù)挖掘方法通常可以分為兩類: 一類是建立在統(tǒng)計模型的基礎上, 采用的技術(shù)有決策樹、分類、聚類、關(guān)聯(lián)規(guī)則等; 另一類是建立一種以機器學習為主的人工智能模型,采用的方法有神經(jīng)網(wǎng)絡、自然法則計算方法等。

Web 內(nèi)容挖掘：

1、Web 文本挖掘

Web 文本挖掘可以對Web 上的大量文檔的集合的內(nèi)容進行總結(jié)、分類、聚類、關(guān)聯(lián)分析,以及利用Web 文檔進行趨勢預測。在Internet 上的文本數(shù)據(jù)一般是一組html 格式的文檔集,要將這些文檔轉(zhuǎn)化成一種類似關(guān)系數(shù)據(jù)庫中記錄的規(guī)整且能反映文檔內(nèi)容特征的表示,一般采用文檔特征向量,但目前所采用的文檔表示方法中,都存在一個弊端就是文檔特征向量具有非常大的維數(shù),使得特征子集的選取成為Internet 上文本數(shù)據(jù)挖掘過程中的必不可少的一個環(huán)節(jié)。在完成文檔特征向量維數(shù)的縮減后,便可利用數(shù)據(jù)挖掘的各種方法,如分類、聚類、關(guān)聯(lián)分析等來提取面向特定應用的知識模式,最后對挖掘結(jié)果進行評價,若評價結(jié)果滿足一定的要求則輸出,否則返回到以前的某個環(huán)節(jié),分析改進后進行新一輪的挖掘工作。。關(guān)聯(lián)規(guī)則模式數(shù)據(jù)描述型模式, 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學習的方法。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下3個步驟: ①連接數(shù)據(jù), 做數(shù)據(jù)準備; ②給定最小支持度和最小可信度, 利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則; ③可視化顯示、理解、評估關(guān)聯(lián)規(guī)則。

目前 Web 內(nèi)容挖掘研究主要集中在基于文本內(nèi)容的檢索、信息過濾的提煉、重復數(shù)據(jù)消除、數(shù)據(jù)模式抽取、中間形式表示、異構(gòu)集成、文本分類和聚類、文檔總結(jié)和結(jié)構(gòu)提取、數(shù)據(jù)倉庫及OLAP等幾個方面，尤其是基于XML的上述專題研究。

對分類挖掘而言，在預處理階段要做的事情就是把這個Web頁面集合文本信息轉(zhuǎn)化成一個二維的數(shù)據(jù)庫表，其中每一列是一個特征，每一行為一個Web頁面的特征集合。在文本學習中常用的方法是TF工DF向量表示法，它是一種文檔的詞集(bag-of-words)表示法，所有的詞從文檔中抽取出來，而不考慮詞間的次序和文本的結(jié)構(gòu)。構(gòu)造這種二維表的方法是:每一列為一個詞，列集(特征集)為辭典中的所有有區(qū)分價值的詞，所以整個列集可能有幾十萬列之多。每一行存儲一個頁面內(nèi)詞的信息，這時，該頁面中的所有詞對應到列集(特征集)上。列集中的每一個列(詞)，如果在該頁面中不出現(xiàn)，則其值為0;如果出現(xiàn)k次.那么其值就為k。這樣就可以表征出頁面中詞的頻度。這樣構(gòu)造的二維表表示的是Web頁面集合的詞的統(tǒng)計信息，最終就可以采用Naive Bayesian方法或k-Nearest Neighbor方法進行分類挖掘。

WebSQL 是一個用于Web 頁重構(gòu)的查詢語言,利用Web 文檔的圖樹表示形式,可從在線的文檔站點或?qū)в沃改现蝎@取信息。而Ahoy則利用像搜索引擎一類的互聯(lián)網(wǎng)服務來獲取與個人有關(guān)的服務,利用試探法識別文檔中顯示該文檔作為個人主頁的句法特征。

分詞

目前已有很多分詞算法，如：正向最大匹配法(MM)、逆向最大匹配法(RMM)、逐詞遍歷匹配法、設立切分標志法、正向最佳匹配法和逆向最佳匹配法等。近幾年又提出了很多新的方法旨在提高分詞的精度和分詞的速度，如：生成測試法通過詞法ATN和語義ATN之間的相互作用來進行歧分決策，以提高分詞的精確性；改進的MM分詞算法采用正向增字最大匹配法和跳躍匹配法，結(jié)合詞尾語義檢查和歸右原則以消除類型歧義；基于神經(jīng)網(wǎng)絡的分詞方法嘗試利用神經(jīng)網(wǎng)絡來處理歧分問題，但同時又引入一個問題：訓練樣本的選取，由于自然語言的復雜性，如何選取訓練樣本還需要作深入的研究；結(jié)合直接匹配算法、后綴分詞算法和詞表結(jié)構(gòu)支持首字Hash的方法，局部提高了速度，但不能進行標準的二分查找；支持首字Hash的近鄰匹配算法利用最大增字匹配算法，并支持首字Hash和標準二分查找以提高分詞速度。

分詞的基本算法有: (1)基于詞典與規(guī)則匹配法?；谠~典與規(guī)則的方法應用詞典匹配, 漢語詞法或其它漢語語言知識進行分詞, 這類方法簡單、分詞效率較高,但對詞典的完備性、規(guī)則的一致性等要求比較高。匹配策略有: 最大匹配法、最小匹配法、逆向匹配法、增字或減字匹配法、雙向掃描法。(2)標志法。如切分標志法、統(tǒng)計標引法。(3)詞頻統(tǒng)計法?；诮y(tǒng)計的分詞方法將漢語基于字和詞的統(tǒng)計信息, 完備性較差。(4)語義語用法。如后綴分詞法。目前使用最多的是基于詞庫的分詞方法。由于中文在分詞時可能產(chǎn)生二義性, 如“計算機器”可分成“計算”“/ 機器”和“計算機”“/ 器”, 這樣必須結(jié)合其它分分詞方法, 如基于語法規(guī)則的分詞法、基于樸素貝葉斯分詞法等。在具體的分詞過程中, 我們還可以將單詞變型歸并, 像同義詞、近義詞可進行歸并, 如“因特網(wǎng)”和“萬維網(wǎng)”可當成一個詞條處理。

語義Web 是下一代的Web 技術(shù)，它賦予Web 以計算機可理解的語義信息。

在語義Web技術(shù)中，本體起著重要的作用。本體是人們對領(lǐng)域知識達成的共識，是對領(lǐng)域的形式化與結(jié)構(gòu)化的描述。本項目針對語義Web 目前存在的問題，應用語義Web 技術(shù)，信息集成和信息管理的若干關(guān)鍵技術(shù)，從多個方面對語義Web 進行研究。

（1）語義信息集成。對本體的語義標注和本體集成方法進行研究，利用基于本體的語義標注和本體映射技術(shù)從異構(gòu)的資源中抽取出有用信息，并通過映射方法集成多種信息源的的信息。

（2）語義查詢。實現(xiàn)語義信息的多種查詢方式，包括：本體的可視化導航查詢，針對概念/實例/屬性的查詢，基于全文檢索技術(shù)的查詢，語義關(guān)系的查詢。

（3）語義信息挖掘。語義信息的挖掘一直處在一個很淺層的階段，目前的多數(shù)研究一直處在傳統(tǒng)的文本信息挖掘。本項目的研究主要從本體實例聚類、本體分類，本體關(guān)聯(lián)規(guī)則挖掘以及本體中關(guān)鍵詞的抽取。這些技術(shù)是語義Web 的應用的基礎，他們可以用來分析語義信息的趨勢，語義數(shù)據(jù)的自動處理等。

（4）語義Web Service。通過系統(tǒng)定義的軟件本體對Web Service 進行描述，從而實現(xiàn)WebService 的評估、組裝等功能。

（5）基于Peer to Peer 的語義信息管理。這個問題的核心思想是要通過集成已有的Peer to Peer框架實現(xiàn)語義挖掘平臺在P2P 環(huán)境下的應用。

（6）算法解釋。利用定義的基礎數(shù)據(jù)結(jié)構(gòu)對上述算法的執(zhí)行過程進行l(wèi)og，從而輕松的實現(xiàn)用戶-算法及開發(fā)-算法之間的交互。提供針對算法本身的更友好的接口。



2 、Web 多媒體挖掘

Web 多媒體挖掘與Web 文本挖掘的不同點就在于需要提取的特征不同。Web 多媒體挖掘需要提取的特征一般包括圖像或視頻的文件名URL 、類型、鍵值表、顏色向量等。然后可以對這些特征進行挖掘工作。如關(guān)聯(lián)分析發(fā)現(xiàn)類似“如果圖像是‘大’而且與關(guān)鍵詞‘草原’有關(guān),那么它是綠色的概率是0. 8”的關(guān)聯(lián)規(guī)則。當然也可以對多媒體進行分類、聚類等操作。多媒體數(shù)據(jù)挖掘的方法主要有：多媒體數(shù)據(jù)中的相似搜索，主要有兩種多媒體標引和檢索技術(shù)：基于描述的檢索系統(tǒng)和基于內(nèi)容的檢索系統(tǒng)；多媒體數(shù)據(jù)的多維分析，可以按傳統(tǒng)的從關(guān)系數(shù)據(jù)中構(gòu)造數(shù)據(jù)立方體的方法，設計和構(gòu)造多媒體數(shù)據(jù)立方體；分類和預測分析，主要應用于天文學、地震學和地理科學的研究，決策樹分類是最常用的方法；多媒體數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘，關(guān)聯(lián)規(guī)則的挖掘主要包括以下三類規(guī)則：圖像內(nèi)容和非圖像內(nèi)容之間的關(guān)聯(lián)、與空間關(guān)系無關(guān)的圖像內(nèi)容的關(guān)聯(lián)、與空間關(guān)系有關(guān)的圖像內(nèi)容的關(guān)聯(lián)。



3、特征提取

經(jīng)典的文本表示模型是向量空間模型（VSM—Vector Space Model），由Salton 等人于60 年代末提出，并成功地應用于著名的SMART 文本檢索系統(tǒng)。向量空間模型對文本進行簡化表示，認為特征之間是相互獨立的而忽略其依賴性，將文檔內(nèi)容用它所包含的特征詞來表示：D=（t1，t2，…，tN），其中tk 是文檔D 的第k 個特征詞，1 ≤ k ≤ N 。兩個文檔D1 和D2 之間內(nèi)容的相似程度Sim（D1，D2）通過計算向量之間的相似性來度量。最常用的相似性度量方式是余弦距離。

除了向量空間模型之外，Stephen Robertson 和Spark Jones 等人提出的概率模型得到了人們的廣泛認可。該模型綜合考慮了詞頻、文檔頻率和文檔長度等因素，把文檔和用戶興趣（查詢）按照一定的概率關(guān)系融合，形成了著名的OKAPI 公式。該模型在信息檢索領(lǐng)域取得了成功。

降維就是自動從原始特征空間中提取出部分特征的過程，一般通過兩種途徑：一是根據(jù)對樣本集的統(tǒng)計信息刪除不包含任何信息的特征；二是將若干低級的特征合成一個新特征。目前關(guān)于特征提取的方法很多，如文檔頻率法(DF)、信息增益(IG)、互關(guān)聯(lián)信息(MI)、 x2 統(tǒng)計法(CHI)、特征增強(TS)等。DF是指包含某一特征的文檔數(shù)，TS 法通過統(tǒng)計特征在一組相近文檔中出現(xiàn)的頻率來估計特征的重要性，然而，人們在實際應用中發(fā)現(xiàn)，某些DF值或TS值很低的特征反而是信息相關(guān)的，不能從特征空間中刪去，因此這兩種方法在某些情況下不可靠，MI的弱點是受特征的邊緣概率的影響很大，CHI和IG的使用效果較好。一般用的評估函數(shù)有幾率比(Odds ratio) 、信息增益( Information Gain) 、期望交叉熵( Expected CrossEntropy) 、互信息( Mutual Information) 、詞頻( WordFrequency) 等。

（1）IG(Information Gain):即信息贏取。IG值代表了特征在訓練集上的分布情況，它通過統(tǒng)計特征在各個類別中的出現(xiàn)次數(shù)來計算，公式如下:

其中 t 代表特征，ci代表第i個類別，m為類別個數(shù)，只Pr (cI)代表類別cI的概率，Pr (cI|i) 代表在包含特征t的條件下類別ci的概率，Pr (cI|-t) 代表在不包含特征t的條件下類別cI的概率，Pr(t) 代表特征t出現(xiàn) 的概率，Pr (-t) 代表特征t不出現(xiàn)的概率。IG值越高表示該特征在訓練集中的類別上分布越集中。IG方法提取IG值較高的特征，其基本思想為分布越集中的特征越重要。

(2) MI(Mutual Information):即互信息值，它通過計算特征t和類別c間的相關(guān)性來完成提取。計算公式為: 為方便計算，簡化為: 其中N為訓練集中包含的文本總數(shù)，A為t與c同時出現(xiàn)的次數(shù)，B為t出現(xiàn)而c不出現(xiàn)的次數(shù)，C為c出現(xiàn)而t不出現(xiàn)的次數(shù)。通過該公式就可以取得特征與各類別間的互信息值。為了能取得特征在數(shù)據(jù)集上的整體評價，有以下兩種計算方法:

 前者代表了特征和各類別的平均互信息值，后者則取特征與各類別互信息值中的最大值。MI方法提取互信息值較高的特征，其基本思想為與類別相關(guān)性越高的特征越重要。

(3)CHI　具有和MI方法基本相似的思想，同樣通過計算特征t和類別c間的依賴程度來完成提取。但二者的計算細節(jié)不同，CHI作了更多地考慮，有種看法認為CHI是一種“正規(guī)化”了的MI。CHI的計算公式如下: 其中N為訓練集中包含的文本總數(shù)，A為t與c同時出現(xiàn)的次數(shù)，B為t出現(xiàn)而c未出現(xiàn)的次數(shù)，C為c出現(xiàn)而t未出現(xiàn)的次數(shù)，D為二者都未出現(xiàn)的次數(shù)。與MI相同，CHI也有平均值和最大值兩種方法來取得特征的整體評價:

 CHI 方法的基本思想也是與類別關(guān)系越緊密的特征重要性越高。

(4)DF (Document frequency):即文檔頻率，指訓練集中包含該特征的文本總數(shù)。所謂文本包含特征是指這個特征在該文本中出現(xiàn)，忽略其在文本中的出現(xiàn)次數(shù)。DF方法提取DF值較高的特征，它的目的是去掉在訓練集上出現(xiàn)次數(shù)過少的特征，保留出現(xiàn)達到一定次數(shù)、具有一定影響力的特征。在各個特征提取方法中，DF方法的計算是最簡單的。

(5)WEE(Weight　Evidence):即文本證據(jù)權(quán)，其計算公式如下: 其中，t是一個特征，m是類別的數(shù)量，ci代表第i個類別，代表類別ci的概率，Pr (cI|t)代表在包含特征t的條件下類別ci的概率，Pr(t)代表特征t出現(xiàn)的概率。



4、分類

目前文本分類的方法很多，如多元回歸模型、K-鄰近方法、神經(jīng)網(wǎng)絡法、貝葉斯方法、決策樹法、支持向量機等，這些方法基本上可以分為兩類：統(tǒng)計分類方法和基于機器學習的分類方法。支持向量機(SVM)是統(tǒng)計學習理論領(lǐng)域近幾年才提出的新知識，目前仍處于發(fā)展階段，但就目前的應用而言，SVM在很多領(lǐng)域的運用效果都非常理想。

網(wǎng)頁自動分類是Web內(nèi)容挖掘的主要研究內(nèi)容之一，采用的主要技術(shù)是分本分類技術(shù)，這是因為文本是目前Web內(nèi)容的主體，并且對文本的處理較音頻、視頻的處理容易。文本分類首先要進行特征抽取。所謂特征是指一個詞或詞組。目前英文分類算法大多以單詞為特征，在分詞的時候利用空格和其它一些標點符號作為分隔符，從而抽取出文檔中出現(xiàn)的所有特征，所有抽取出來的特征稱為全特征集。特征抽取完畢后一般還要進行特征提取。特征提取是指從全特征集中提取一個子集的過程。提取出來的子集稱為特征子集。根據(jù)John Pierre的理論，用來表示文本的特征理論上應具有如下特點;(1)數(shù)量上盡量少;(2)出現(xiàn)頻率適中;(3)冗余少;(4)噪音少;(5)與其所屬類別語義相關(guān);(6)含義盡量明確;從全特征集中提取特征子集時通常根據(jù)特征的權(quán)值進行取舍，權(quán)值的計算方法有多種，比如信息贏取(Information Gain)，互信息(Mutual Information)等。特征提取后就可以用特征子集來表示文本，然后就可以構(gòu)造用不同分類方法用來分類。常見的分類模型有:(1)K一近鄰模型，(2)Rocchio模型，(3)貝葉斯模型，(4)神經(jīng)網(wǎng)絡模型，(5)決策樹模型。目前研究人員己經(jīng)提出了許多文本分類方法，如向量空間法(VSM)、回歸模型、K近鄰法、貝葉斯概率方法、決策樹、神經(jīng)網(wǎng)絡、在線學習、支持向量機等。

在完成特征提取之后，我們就可以使用這些特征來表示一個文本。具體的表示方法因分類方法而異。每種分類模型都會采用自己的方法來表示一個文本，并將這種表示方法納入到自己的體系中去。所有的分類模型大體上都可分為訓練和分類兩個步驟。一般來說，訓練例越多分類的準確度越有保證，但也并不是越多越好。

(1) 基于TFIDF的Rocchio算法

Rocchio 算法來源于向量空間模型理論，向量空間模型(Vector space model)的基本思想為采用向量來表示一個文本，之后的處理過程就可以轉(zhuǎn)化為空間中向量的運算。基于TFIDF的Rocchio是這種思想的一種實現(xiàn)方法，其中文本以一個N維向量來表示，向量維數(shù)N即特征數(shù)，向量分量是特征的某種權(quán)重表示，該權(quán)值的計算方法稱為TFIDF方法，步驟如下:


通過 TFIDF方法首先將訓練集中的文本表示為向量，然后生成類別特征向量(即可以用來代表一個類別的向量)。類別特征向量取值為該類中所有文本向量的平均值。Rocchio算法訓練的過程其實就是建立類別特征向量的過程。分類的時候，給定一個未知文本，先生成該文本的向量，然后計算該向量與各類別特征向量的相似度，最后將該文本分到與其最相似的類別中去。向量的相似度度量方法有兩種:(以x,y代表向量，xi,yi代表向量分量):


總體來看，Rocchio算法簡單易行，運行速度尤其是分類速度較快。

(2) 樸素貝葉斯模型

貝葉斯分類是一種統(tǒng)計學分類方法，它基于貝葉斯定理，可以用來預測類成員關(guān)系的可能性，給出文本屬于某特定類別的概率。分類時根據(jù)預測結(jié)果將該樣木分到概率最高的類別中去即可。假定有m個類c1,c2,c3…Cm，給定未知文本X,貝葉斯分類將給出條件X下具有最高后驗概率的類別，即最大化P(Ci|X)根據(jù)貝葉斯定理可得:

顯而易見，P(X)對于所有類是個常數(shù)，則只需最大化P(X|Ci )P(Ci)即可。P(ci)可以根據(jù)訓練集中的類別分布來計算，即 ,其中|Ci|為類別Ci包含的文本數(shù)，|D|為訓練集中的文本總數(shù)。在一個具有許多屬性的事例中，計算P(X|Ci)的開銷會非常大，為了降低這種開銷而引出了稱為類條件獨立的樸素假定:假定文檔的一個屬性對于分類的影響獨立于其他屬性，即文檔的屬性之間是不相關(guān)的。這就是樸素貝葉斯(Na?ve Bayes)的由來。這樣就可以簡單的以各個屬性在類別Ci上出現(xiàn)的概率來推算P(X|Ci)。通常使用拉普拉斯估計(Laplacean prior)來推算。又因?qū)崿F(xiàn)細節(jié)的不同有兩種樸素貝葉斯模型，多元模型(Multi-variate Bernoulli Model)只考慮了特征在文本中是否出現(xiàn)(出現(xiàn)記為1，否則記為。)，多項式模型(Multinomial Model)考慮了特征在文本中的出現(xiàn)次數(shù):


樸素貝葉斯分類模型訓練的過程其實就是統(tǒng)計每一個特征在各類中出現(xiàn)規(guī)律的過程。從理論上講，貝葉斯分類的出錯率最小，就試驗結(jié)果來看，樸素貝葉斯在大型的數(shù)據(jù)集上表現(xiàn)出來難得的速度和準確度。

(3) 決策樹

決策樹(Decision Tree)是一個類似于流程圖的樹結(jié)構(gòu)，其中每個節(jié)點代表一個屬性上的測試，每個分支代表一個測試輸出，最后的葉結(jié)點代表類別。決策樹方便改寫為形如if-then的分類規(guī)則，易于理解。決策樹的核心算法是一種貪心算法，它以自頂向下的方式在訓練集的基礎上構(gòu)造決策樹，之后取未知文本的屬性在決策樹上測試，路徑由根結(jié)點到葉結(jié)點，從而得到該文本的所屬類別。決策樹的算法有C4.5(發(fā)展于ID3),CART,CHAID等，他們的區(qū)別在于構(gòu)造決策樹與樹枝剪除的算法細節(jié)不同。決策樹可以很好的抵抗噪聲。最大的缺點在于不適應大規(guī)模的數(shù)據(jù)集，此種情況下決策樹的構(gòu)造會變得效率低下。

(4) 神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng) (Neural Network)的學習結(jié)果為目標函數(shù)，根據(jù)這個目標函數(shù)的輸出作為分類的依據(jù)。輸入即為文本在各個特征上的各分量值。神經(jīng)網(wǎng)絡實際上是一組連接的輸入/輸出單元，其中每一個連接都具有一定的權(quán)值。通過訓練集來訓練的過程就是調(diào)整這些權(quán)值的過程，使得神經(jīng)網(wǎng)絡可以正確的預測類別。神經(jīng)網(wǎng)絡的訓練是針對訓練例逐個進行的，所以神經(jīng)網(wǎng)絡的訓練集可以隨時添加，不需要重新進行訓練就可完成網(wǎng)絡的調(diào)整。同時有實驗結(jié)果表明，在訓練例過少的情況下，神經(jīng)網(wǎng)絡的分類準確率較低。因為可通過訓練來針對特征取一定的合適的權(quán)值，神經(jīng)網(wǎng)絡可以較好地抵御噪音的干擾。

(5) K近鄰

K近鄰分類(K-nearest neighbor)的思想也來源于向量空間模型，同樣采用將文本轉(zhuǎn)化為向量的思想。KNN是一種基于類比的分類方法。在訓練的過程中KNN會生成所有訓練例的特征向量，并將其保存下來。給定一個未知文本，首先生成它的特征向量，之后KNN會搜索所有的訓練例，通過向量相似度比較從中找出K個最接近的訓練例，然后將未知文本分到這K個近鄰中最普遍的類別中去。相似度可以通過歐幾里德距離或向量間夾角來度量。根據(jù)經(jīng)驗x一般取45。KNN是一種懶散的方法，即它沒有學習過程，只是存放所有的訓練例，直到接到未知文本的時候才建立分類。ON的訓練過程較快，而且可以隨時添加或更新訓練例來調(diào)整。但它分類的開銷會很大，因為需要很大的空間來保存訓練例，而且分類效率很差。有看法認為在小數(shù)據(jù)集上KNN的表現(xiàn)優(yōu)異。

(6) SVM方法

SVM方法是建立在統(tǒng)計學習理論的VC維理論和結(jié)構(gòu)風險最小原理基礎上的，根據(jù)有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折中，以期獲得較好的綜合能力。SVM專門針對有限樣本，其目標是得到現(xiàn)有信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無窮大時的最優(yōu)值(KNN和Naive Bayes方法基于樣本數(shù)趨于無窮大)，從理論上說，SVM得到的將是全局最優(yōu)點，從而解決了在神經(jīng)網(wǎng)絡方法中無法避免的局部極值問題。此外，SVM將實際問題通過非線性變換轉(zhuǎn)換到高維的特征空間，在高維空間中構(gòu)造線性判別函數(shù)來實現(xiàn)原空間中的非線性判別函數(shù)，特殊性質(zhì)能保證機器有較好的推廣能力，同時它巧妙地解決了維數(shù)問題，其算法復雜度與樣本維數(shù)無關(guān)。



5、網(wǎng)頁分類方法

一般來說，網(wǎng)頁中對于分類有作用的部分首先是核心文本，即網(wǎng)頁中關(guān)于網(wǎng)頁內(nèi)容的文本部分。其次是結(jié)構(gòu)信息和超鏈接信息，再其次是多媒體信息。多媒體信息的識別涉及圖像檢索、語音識別等技術(shù)，且目前沒有較好的結(jié)果，因此很少被考慮。我們進行網(wǎng)頁分類的基本思路是:

(1 ) 利用自行研制的網(wǎng)頁解析器分離出目標網(wǎng)頁的核心純文本。

(2 ) 利用自行研制的分類系統(tǒng)TCS對目標網(wǎng)頁的核心純文本部分進行分詞、特征提取等操作，并產(chǎn)生目標網(wǎng)頁的初始特征向量。

(3) 根據(jù)特征向量進行分類，確定目標網(wǎng)頁的類別。

通常采用以下五種標準在不同的方面來評價一個分類器: (1) 精度 (precision) (2)查全率(recall) (3) F標準綜合了精度和查全率，將兩者賦予同樣的重要性來考慮，即，其中r代表查全率，p代表精度。這三個標準都只用于分類器在單個類別上分類準確度的評價。(4)宏觀平均值(macro-averaged score) (5)微觀平均值(micro-averaged score)。



Web 結(jié)構(gòu)挖掘：

整個Web 空間中,有用知識不僅包含在Web頁面內(nèi)容中, 也包含在Web 頁間超鏈接結(jié)構(gòu)與Web 頁面結(jié)構(gòu)之中。挖掘Web 結(jié)構(gòu)的目的是發(fā)現(xiàn)頁面的結(jié)構(gòu)和Web 間的結(jié)構(gòu),在此基礎上對頁面進行分類和聚類,從而找到權(quán)威頁面,這種方法可以用來改進搜索引擎。

在搜索引擎中存貯了數(shù)以億計的頁面，很容易得到它們的鏈接結(jié)構(gòu)。需要做到的是尋找一種好的利用鏈接結(jié)構(gòu)來評價頁面重要性的方法。Page Rank 的基本思想是: 一個頁面被多次引用,則這個頁面很可能是重要的;一個頁面盡管沒有被多次引用,但被一個重要頁面引用,該頁面也可能是很重要的;一個頁面的重要性被均分并被傳遞到它所引用的頁面。在Page Rank方法中，Page Rank被定義為:　設u為一個Web頁。Fu為所有的u指向的頁面的集合，Bu為所有的指向u的頁面的集合。設Nu={Fu}為從u發(fā)出的鏈接的個數(shù)，C(C1)為一個歸一化的因子(因此所有頁面的總的Page Rank為一個常數(shù))，那么u頁面的Page Rank被定義為(簡化的版本): 即一個頁面的PageRank被分配到所有它所指向的頁面:每一個頁面求和所有指向它的鏈接所帶來的PageRank得到它的新的PageRank。該公式是一個遞歸公式，在計算時可以從任何一個頁面開始，反復計算直到其收斂。對于搜索引擎的鍵值搜索結(jié)果來說，PageRank是一個好的評價結(jié)果的方法，查詢的結(jié)果可以按照PageRank從大到小依次排列。

從 we b結(jié) 構(gòu)挖掘的現(xiàn)狀來看，純粹的網(wǎng)絡結(jié)構(gòu)挖掘研究很少，多數(shù)是和其它web挖掘形式結(jié)合起來。主要的研究集中在網(wǎng)絡虛擬視圖生成與網(wǎng)絡導航、信息分類與索引結(jié)構(gòu)重組、文本分類、文本重要性確定等幾個方面。

關(guān)鍵頁/ 權(quán)威頁(Hub/ Authority) 方法　

頁面的超鏈接關(guān)系十分復雜, 例如: 有的鏈接是為了導航, 因此不能簡單認為超鏈接即是引用關(guān)系; 此外由于商業(yè)的需要,很少有頁面會把其競爭對手的頁面作為鏈接。正是由于超鏈接結(jié)構(gòu)中存在著以上的缺陷, 出現(xiàn)了關(guān)鍵頁/ 權(quán)威頁方法。關(guān)鍵頁/ 權(quán)威頁方法的思想是: Web 上存在著一種重要的頁面。所謂關(guān)鍵頁指的是自身不一定為多個頁面所鏈接, 但是它的頁面上存在著就某個專業(yè)領(lǐng)域而言最重要的站點鏈接。對于這種關(guān)鍵頁, 它起到了隱含說明其他Web文檔頁面重要性的作用。一個權(quán)威頁應當是被多個關(guān)鍵頁所鏈接的, 而一個關(guān)鍵頁應當包含很多權(quán)威頁的鏈接。將關(guān)鍵頁與權(quán)威頁的這種聯(lián)系按照算法計算出來, 就是關(guān)鍵頁/ 權(quán)威頁方法的主要思想。

HITS和Page Rank、以及在鏈接結(jié)構(gòu)中增加了Web內(nèi)容信息的HITS改進算法等，主要用于模擬Web站點的拓撲結(jié)構(gòu)，計算Web頁面的等級和Web頁面之間的關(guān)聯(lián)度，典型的例子是Clever System和Google.



Web 使用挖掘：

Web 使用挖掘又叫Web 使用記錄挖掘,是指通過挖掘Web 日志記錄來發(fā)現(xiàn)用戶訪問Web 頁面的模式?？梢酝ㄟ^分析和研究Web 日志記錄中的規(guī)律,來識別電子商務的潛在客戶;可以用基于擴展有向樹模型來識別用戶瀏覽模式,從而進行Web 日志挖掘;可以根據(jù)用戶訪問Web 的記錄挖掘用戶的興趣關(guān)聯(lián)規(guī)則,存放在興趣關(guān)聯(lián)知識庫中,作為對用戶行為進行預測的依據(jù),從而為用戶預取一些Web 頁面,加快用戶獲取頁面的速度。Web 日志挖掘過程一般分為3 個階段: 預處理階段、挖掘算法實施階段、模式分析階段。Web 服務器日志記錄了用戶訪問本站點的信息,其中包括IP 地址、請求時間、方法、被請求文件的URL 、返回碼、傳輸字節(jié)數(shù)、引用頁的URL 和代理等信息。這些信息中有的對Web 挖掘并沒有作用,因此要進

行數(shù)據(jù)預處理。預處理包括數(shù)據(jù)凈化、用戶識別、事務識別等過程。通過對Web 日志預處理后,就可以根據(jù)具體的分析需求選擇訪問模式發(fā)現(xiàn)的技術(shù),如路徑分析、關(guān)聯(lián)分析、時序模式識別以及分類和聚類技術(shù)等。模式挖掘出來以后還要進行分析,使之得到很好的利用。

常用有兩種方法發(fā)現(xiàn)用戶使用記錄信息。一種方法是通過對日志文件進行分析, 包含兩種方式, 一是訪問前先進行預處理, 即將日志數(shù)據(jù)映射為關(guān)系表并采用相應的數(shù)據(jù)挖掘技術(shù), 如關(guān)聯(lián)規(guī)則或聚類技術(shù)來訪問日志數(shù)據(jù), 二是對日志數(shù)據(jù)進行直接訪問以獲取用戶的導航信息; 另一種是通過對用戶點擊事件的搜集和分析發(fā)現(xiàn)用戶導航行為。從研究目標的角度看, 已有的基于Web 服務器日志數(shù)據(jù)的研究大致可以分為3 類: ①以分析系統(tǒng)性能為目標; ②以改進系統(tǒng)設計為目標; ③以理解用戶意圖為目標。由于各目標針對的功能不同, 采取的主要技術(shù)也不同。用戶使用記錄的挖掘通常要經(jīng)過下面3 個步驟: ①數(shù)據(jù)預處理階段。這是使用記錄信息挖掘最關(guān)鍵的階段, 數(shù)據(jù)預處理包括: 關(guān)于用戶使用記錄的預處理、關(guān)于內(nèi)容預處理和結(jié)構(gòu)的預處理; ②模式識別階段。該階段采用的方法包括: 統(tǒng)計法、機器學習和模式識別等方法。實現(xiàn)算法可以是: 統(tǒng)計分析、聚類、分類、關(guān)聯(lián)規(guī)則、序列模式識別等; ③模式分析階段。該階段的任務是從上一階段收集的數(shù)據(jù)集中過濾掉不感興趣和無關(guān)聯(lián)的數(shù)據(jù)及模式。具體的實現(xiàn)方法要依具體采用Web 挖掘技術(shù)而定,通常采用的方法有兩種: 一種采用SQL 查詢語句進行分析; 另外一種將數(shù)據(jù)導人多維數(shù)據(jù)立方體中, 而后利用OLA P 工具進行分析并提供可視化的結(jié)構(gòu)輸出。對挖掘用戶使用記錄的研究早期多采用的是統(tǒng)計的方法, 當用戶通過瀏覽器對Web 站點進行訪問時, 建立統(tǒng)計模型對用戶訪問模式進行多種簡單的統(tǒng)計, 如頻繁訪問頁、單位事件訪問數(shù)、訪問數(shù)據(jù)量隨時間分布圖等。早期使用的方法為以廣度優(yōu)先算法為主的統(tǒng)計模型, 還有一種啟發(fā)式的HPG(hypertext probabilistic grammar) 模型用于用戶導航行為的發(fā)現(xiàn), 它也是一種基于統(tǒng)計的方法, 由于HPG 模型與k 階馬爾可夫模型相當, 所以近來也有人提出用馬爾可夫模型挖掘用戶使用記錄。

Web日志的挖掘的方法可以分為 (1)以JiaWei Han為代表的基于數(shù)據(jù)立方體（data cube）的方法：將Web 日志保存為數(shù)據(jù)立方體，然后在其上進行數(shù)據(jù)挖掘和OLAP操作；（2）以

Ming-Syan Chen為代表的基于Web 事物的方法：他們首先提出了最大向前引用序列（MFR）的概念，用MFR將用戶會話分割成一系列的的事務，然后采用與關(guān)聯(lián)規(guī)則相似的方法挖掘頻繁瀏覽路徑。

Web 行為挖掘在電子商務中得到了廣泛的應用, 在對事務進行了劃分后, 就可以根據(jù)具體的分析需求選擇訪問模式發(fā)現(xiàn)的技術(shù)(路徑分析、關(guān)聯(lián)、規(guī)則挖掘、時序模式以及聚類和分類技術(shù)等)

Web 使用挖掘中的模式分析,主要是為了在模式發(fā)現(xiàn)算法找到的模式集合中發(fā)現(xiàn)有趣模式。開發(fā)各種Web 分析技術(shù)和工具,可輔助分析人員加深理解并使各種挖掘方法得到的模式獲得充分利用。如Webwiz (pitkow) 系統(tǒng)可將www 的訪問模式可視化;Webminer則采用類SQL 語言的知識查詢機制;另外也可以利用存儲Web 使用數(shù)據(jù)的數(shù)據(jù)倉庫,采用OLAP 方法發(fā)現(xiàn)數(shù)據(jù)中的特定模式。



6、Web 數(shù)據(jù)挖掘的四個步驟:

1、查找資源: 任務是從目標W e b文檔中得到數(shù)據(jù)。 2、信息選擇和預處理: 任務是從取得的W e b 資源中剔除無用信息和將信息進行必要的整理。3 、模式發(fā)現(xiàn): 自動進行模式發(fā)現(xiàn)。可以在同一個站點內(nèi)部或在多個站點之間進行。4、模式分析: 驗證、解釋上一步驟產(chǎn)生的模式。



7、Web 挖掘在Internet 上有非常廣泛的應用,比較常見的有:

(1) 幫助尋找用戶感興趣的新聞或其他信息以在Web 站點中提供個性化服務,吸引更多用戶。

(2) 在搜索引擎上對文檔進行自動分類從而降低在搜索引擎上為組織整理Internet 文檔所需消耗的人力資源,也可以對Web 頁面進行排序,改進搜索引擎。

(3) Web 日志挖掘在電子商務領(lǐng)域有很廣闊的應用前景,如發(fā)現(xiàn)顧客的購買習慣和瀏覽興趣所在,有針對性調(diào)整銷售模式,提高業(yè)務量。



8、通常Web挖掘可以分為3個子任務：資源發(fā)現(xiàn)、信息提取、概括。

·資源發(fā)現(xiàn)：是指從Web上搜索可用的信息；

·信息提取：是從已經(jīng)發(fā)現(xiàn)的資源中提取出有用的信息。對于文本信息而言，不僅要考慮文本內(nèi)容，而且也要考慮文本的結(jié)構(gòu)；

·概括：是對Web信息自學習的過程，通過學習抽取一定的規(guī)則。

一般來說，Web挖掘的數(shù)據(jù)來源途徑有兩個：搜索引擎的結(jié)果集和Web上的在線信息。這兩種方式各有所長，需要視具體的應用而定。目前，已經(jīng)有幾種資源發(fā)現(xiàn)模型廣泛應用于Internet上：目錄/瀏覽模型(WAIS and Gopher)、檢索模型(Archie and AltaVista)、超立方體(Yahoo and Excite)。許多資源發(fā)現(xiàn)工具大都采用了基于Robot的檢索模型，這種方法掃描Web上的所有文檔，并建立索引，但它同時也將一些不相關(guān)的信息和過時的信息包含進來。



9、Web挖掘的發(fā)展方向:

目前，在國內(nèi)外Web 挖掘的研究處于剛起步階段，是前沿性的研究領(lǐng)域。將來幾個非常有用的研究方向是：

（1）Web 數(shù)據(jù)挖掘中內(nèi)在機理的研究；

（2）Web 知識庫（模式庫）的動態(tài)維護、更新，各種知識和模式的融合、提升，以及知識的評價綜合方法；

（3）半結(jié)構(gòu)、非結(jié)構(gòu)化的文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)的高效挖掘算法；

（4）Web數(shù)據(jù)挖掘算法在海量數(shù)據(jù)挖掘時的適應性和時效性；

（5）基于Web挖掘的智能搜索引擎的研究；

（6）智能站點服務個性化和性能最優(yōu)化的研究；

（7）關(guān)聯(lián)規(guī)則和序列模式在構(gòu)造自組織站點的研究；

（8）分類在電子商務市場智能提取中的研究。



10、研究意義和方向：

路徑模式挖掘

在Web中，文檔通過超鏈連接便于用戶瀏覽，用戶為尋找信息經(jīng)常通過超鏈從一個頁面跳到另一個頁面。捕捉用戶瀏覽路徑稱為Path analysis。理解用戶瀏覽路徑有助于改進系統(tǒng)設計，而且有助于作出更好的市場決策，例如在適當?shù)捻撁娉鲈黾訌V告.

Web中的智能查詢

數(shù)字時代的圖書館并不是一個有組織的信息倉庫，而更象一個又一個雜亂無章的信息倉庫，Web中的智能查詢包括以下三個方面:1)資源發(fā)現(xiàn):重點是自動生成可查找的索引。2)信息抽取:發(fā)現(xiàn)了資源后，下一個任務就是進行信息的自動抽取。3)信息歸納:利用分類技術(shù)可自動組織和管理數(shù)據(jù)，也可以發(fā)現(xiàn)用戶感興趣的模式。

Web智能工具

We b上的用戶需要借助與軟件系統(tǒng)來抽取、定位和管理Web文檔，才能跟上信息的改變速度。這種軟件系統(tǒng)叫做Web工具.現(xiàn)有的Web工具缺乏識別和使用深層語義的能力，查詢語言描述能力有限。新一代的智能Web工具，利用智能Agent幫助用戶發(fā)現(xiàn)新的信息。它可以自動地獲取用戶的興趣主題，發(fā)現(xiàn)用戶的瀏覽模式和信息資源的修改模式。能更有效地利用網(wǎng)絡資源，將多個用戶的查詢要求聚成組，減少查詢次數(shù)。將抽取的文檔及其全文索引保存在數(shù)據(jù)庫中，并發(fā)現(xiàn)各種有用的模式。

提高網(wǎng)絡響應速度

傳統(tǒng) 解決網(wǎng)絡響應速度慢的途徑，一般都基于客戶端:如優(yōu)化傳輸，減少阻塞;根據(jù)預測，預先傳輸某些頁面。在服務器端利用關(guān)聯(lián)規(guī)則挖掘，不僅可以提高網(wǎng)絡的響應速度而且可以有效地調(diào)度網(wǎng)絡代理的緩存。當用戶瀏覽某個頁面時，網(wǎng)絡代理可根據(jù)關(guān)聯(lián)規(guī)則預先下載與該頁面相關(guān)聯(lián)的頁面，即用戶很可能訪問到的頁面，從而提高網(wǎng)絡的響應速度，因為關(guān)聯(lián)規(guī)則是基于統(tǒng)計規(guī)律的，反映了大多數(shù)用戶的興趣。



11、基于Web挖掘的個性化技術(shù)的發(fā)展

(1) 與人工智能技術(shù)的結(jié)合

個性化系統(tǒng)領(lǐng)域的許多問題最終都可歸結(jié)到機器學習、知識發(fā)現(xiàn)等問題上。用戶建模過程用通常都應用到代理和多代理技術(shù)。因此人工智能技術(shù)與Web挖掘技術(shù)的結(jié)合將會促進Web個性化系統(tǒng)的飛速發(fā)展。

(2) 與交互式多媒體Web技術(shù)的結(jié)合

隨著下一代Internet技術(shù)的飛速發(fā)展與應用，未來的Web的將是多媒體的世界。Web個性化技術(shù)和Web多媒體系統(tǒng)結(jié)合出現(xiàn)了交互式個性化多媒體Web系統(tǒng)。支持海量多媒體數(shù)據(jù)流的內(nèi)容挖掘?qū)⒊蔀閃eb挖掘技術(shù)的基本功能之一。由于這種基于內(nèi)容的交互式個性化多媒體Web系統(tǒng)更能滿足用戶需要，因此也將成為Web個性化系統(tǒng)的發(fā)展方向之一。

(3) 與數(shù)據(jù)庫等技術(shù)的結(jié)合



12、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的發(fā)展方向：

1、挖掘算法的效率和可擴放性。目前數(shù)據(jù)庫數(shù)據(jù)量大，維數(shù)高，使得數(shù)據(jù)挖掘的搜索空間增大，發(fā)現(xiàn)知識的盲目性提高。如何充分利用領(lǐng)域的知識，剔除與發(fā)現(xiàn)任務無關(guān)的數(shù)據(jù)，有效地降低問題的維數(shù)，設計出高效率的知識發(fā)現(xiàn)算法是下一步發(fā)展的重點。

2、數(shù)據(jù)的時序性。在應用領(lǐng)域的數(shù)據(jù)庫中，數(shù)據(jù)在不斷地更新，隨著時間的推移，原先發(fā)現(xiàn)的知識將不再有用，我們需要隨時間逐步修正發(fā)現(xiàn)模式來指導新的發(fā)現(xiàn)過程。

3、和其它系統(tǒng)的集成。知識發(fā)現(xiàn)系統(tǒng)應該是數(shù)據(jù)庫、知識庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡等多相技術(shù)集成的系統(tǒng)。

4、交互性。可以利用貝葉斯確定數(shù)據(jù)的可能性及其分布來利用以前的知識，再就是利用演繹數(shù)據(jù)庫本身的演繹能力發(fā)現(xiàn)知識，并用于指導知識發(fā)現(xiàn)的過程。

5、發(fā)現(xiàn)模式的精煉。可以利用領(lǐng)域知識進一步提煉發(fā)現(xiàn)模式，從中提取有用的知識。

6、互聯(lián)網(wǎng)上知識的發(fā)現(xiàn)。WWW正日益普及，從中可以找到很多新的知識，已有一些資源發(fā)現(xiàn)工具來發(fā)現(xiàn)含有關(guān)鍵字的文本，但對在WWW上發(fā)現(xiàn)知識的研究不多。加拿大的HAN等人提出利用多層次結(jié)構(gòu)化的方法，通過對原始數(shù)據(jù)的一般化，構(gòu)造出多層次的數(shù)據(jù)庫。例如可將WWW上的圖象描述而不是圖像本身存儲在高層數(shù)據(jù)庫中?，F(xiàn)在的問題是如何從復雜的數(shù)據(jù)(例如多媒體數(shù)據(jù))中提取有用的信息，對多層數(shù)據(jù)庫的維護，如何處理數(shù)據(jù)的異類性和自主性等等。



13、文本挖掘面臨許多新的研究課題:

( 1) 文本挖掘算法的可擴展性問題Internet 的發(fā)展, 電子商務和數(shù)字圖書館的興起和廣泛應用, 永久存儲設備價格的不斷降低, 所有這些都使得各單位儲存的文本信息規(guī)?？涨褒嫶?。要對如此之大的文本集合進行處理, 必須有快速高效的文本挖掘算法。

( 2) 文本表示文本挖掘處理的是自然語言表示的文本, 是無結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù), 缺乏計算機可理解的含義, 在進行文本挖掘之前,需要對文本進行預處理及特征提取, 將其表示為計算機可讀的一種中間形式。目前, 雖然自然語言處理領(lǐng)域的研究已取得較大進展, 但還沒有一種能夠完全表示文本語義的中間形式。對于不同的挖掘目的, 需要使用不同復雜度的中間表示形式。對于細粒度的、領(lǐng)域特定的知識發(fā)現(xiàn)任務, 需要進行語義分析, 以得到足夠豐富的表示, 抓住文本中對象或概念之間的關(guān)系。但是語義分析計算量大, 如何更快速地進行語義分析并且對于大文本集合具有可擴展性是一個挑戰(zhàn)性的問題。

( 3) 跨語言問題由于自然語言的多樣性, 各種語言各有其特點,在一種語言中有效的文本挖掘功能卻很可能不適用于其它語言, 尤其是印歐語系語言與漢語之間。并且隨著經(jīng)濟的全球化, 待處理的文本集合中可能存在多種語言寫成的文本, 因此, 文本挖掘功能要考慮到多種語言之間的語義轉(zhuǎn)換。

( 4) 算法的選擇面對多種多樣的文本挖掘算法, 不同算法各有其特點, 如何從中選擇一個合適的算法是一個尚待研究的問題。因為作為一般用戶來說, 他們很難搞懂每個算法的原理和要求。

( 5) 算法運行中參數(shù)的設定很多算法運行時需要用戶設定參數(shù), 有些參數(shù)的含義較難理解, 因而也很難正確設定。如何讓算法自動地選擇相對較好的參數(shù)值, 并且在算法運行的過程中自行調(diào)節(jié)參數(shù)的取值, 是很多算法能否被廣大使用的一個關(guān)鍵問題。

( 6) 模式的理解和可視化顯示文本挖掘算法所發(fā)現(xiàn)的知識模式形式多樣。提高這些模式的可理解性也是研究者們不得不面對的問題。提高可理解性的解決方法通常包括以圖形方式顯示結(jié)果, 提供相對少量的規(guī)則, 或者生成自然語言以及利用可視化技術(shù)等。而目前的文本挖掘系統(tǒng), 其面對的用戶大多是有經(jīng)驗的專家, 一般用戶很難使用。

( 7) 領(lǐng)域的知識集成當前的文本挖掘系統(tǒng)大都未采用領(lǐng)域知識。領(lǐng)域知識很有用, 它可以提高文本分析效率, 有助于取得更緊湊的表示形式等, 因此, 可以考慮把領(lǐng)域知識集成到文本挖掘系統(tǒng)中。

( 8) 中文文本分詞技術(shù)在印歐語系語言中, 詞與詞之間有空格作為固定的分隔符, 因此很容易進行分詞。而在中文中, 詞與詞之間沒有分隔符, 一個句子是由一串連續(xù)的漢字組成, 加之漢語中的詞具有不同的長度, 相同的字可出現(xiàn)在許多不同的詞中, 還有許多詞由單個字組成, 這使得對中文文本進行正確分詞面臨較多挑戰(zhàn)。

盡管文本挖掘領(lǐng)域還存在許多亟待解決的問題, 但是在需求的強烈推動下, 許多計算機廠商紛紛推出文本挖掘軟件, 典型的應用領(lǐng)域包括將文本挖掘應用于網(wǎng)站管理, 信息分流和過濾; 應用于市場管理,質(zhì)量管理和顧客關(guān)系管理以及利用文本挖掘技術(shù)發(fā)現(xiàn)的知識引導投資的方向, 預測股票行情等。這些成功的案例都已經(jīng)給許多人帶來了可觀的經(jīng)濟利潤。



14、搜索結(jié)果處理

對搜索引擎返回的結(jié)果進行挖掘可提供給用戶更為準確的查詢結(jié)果。如WebSQL 系統(tǒng)訪問搜索引擎獲取文檔,并從文檔內(nèi)部采集URL 標題、內(nèi)容類型、內(nèi)容長度、修改日期及鏈接等信息。而類SQL聲明式語言則提出了從搜索結(jié)果中獲取相關(guān)文檔的能力。

基于加權(quán)統(tǒng)計的Web搜索結(jié)果挖掘?qū)崿F(xiàn)智能元搜索引擎的結(jié)果去雜和排序。




個性化服務系統(tǒng)根據(jù)其所采用的信息推薦技術(shù)可以分為兩種:基于規(guī)則的系統(tǒng)和信息過濾系統(tǒng)。信息過濾系統(tǒng)又可分為基于內(nèi)容過濾的系統(tǒng)和協(xié)作過濾系統(tǒng)?；谝?guī)則的系統(tǒng)允許系統(tǒng)管理員根據(jù)用戶的靜態(tài)特征和動態(tài)屬性來制定規(guī)則，一個規(guī)則本質(zhì)上是一個If-Then語句，規(guī)則決定了在不同的情況下如何提供不同的服務?；谝?guī)則的系統(tǒng)其優(yōu)點是簡單、直接，缺點是規(guī)則質(zhì)量很難保證，而且不能動態(tài)更新，此外，隨著規(guī)則的數(shù)量增多，系統(tǒng)將變得越來越難以管理?；趦?nèi)容過濾的系統(tǒng)利用資源與用戶興趣的相似性來過濾信息?；趦?nèi)容過濾的系統(tǒng)其優(yōu)點是簡單、有效，缺點是難以區(qū)分資源內(nèi)容的品質(zhì)和風格，而且不能為用戶發(fā)現(xiàn)新的感興趣的資源，只能發(fā)現(xiàn)和用戶己有興趣相似的資源。協(xié)作過濾系統(tǒng)利用用戶之間的相似性來過濾信息，基于協(xié)作過濾系統(tǒng)的優(yōu)點是能為用戶發(fā)現(xiàn)新的感興趣的信息，缺點是存在兩個很難解決的問題，一個是稀疏性，亦即在系統(tǒng)使用初期，由于系統(tǒng)資源還未獲得足夠多的評價，系統(tǒng)很難利用這些評價來發(fā)現(xiàn)相似的用戶。另一個是可擴展性，亦即隨著系統(tǒng)用戶和資源的增多，系統(tǒng)的性能會越來越低。還有一些個性化服務系統(tǒng)同時采用了基于內(nèi)容過濾和協(xié)作過濾這兩種技術(shù)結(jié)合這兩種過濾技術(shù)可以克服各自的一些缺點，為了克服協(xié)作過濾的稀疏性問題，可以利用用戶瀏覽過的資源內(nèi)容預期用戶對其他資源的評價，這樣可以增加資源評價的密度，利用這些評價再進行協(xié)作過濾，從而提高協(xié)作過濾的性能。

網(wǎng)頁推薦算法

假定網(wǎng)頁集為I={}，當前滑動窗口W={pl,p2,... pm, |W|=m。從Web日志中挖掘的關(guān)聯(lián)規(guī)則集為R={X=>Y|X,Y屬于I且|Y|=1}，假設客戶本次訪問的網(wǎng)頁序列為，其中pi是一個URL，任意兩個URL都互不相同。設挖掘出的關(guān)聯(lián)規(guī)則集為R={X->Y, s}，活動窗口的大小為s，活動窗口為:W=，其中(n-m)=s ，那么推薦算法的原理為:從R中查找這樣的規(guī)則:規(guī)則的前端與w匹配的最好，然后將規(guī)則的后端推薦給客戶。具體算法如下:






三、相關(guān)應用論文

Web 挖掘及其在競爭情報系統(tǒng)的應用

介紹了Web 挖掘的分類、特點和實現(xiàn)技術(shù), 并對Web 挖掘在競爭情報系統(tǒng)中的應用進行了闡述。

Web 挖掘技術(shù)在電子商務中的應用研究

基于國內(nèi)外最新研究成果對電子商務中應用的Web 挖掘技術(shù)進行了研究。對于個性化電子商務網(wǎng)站中難以發(fā)現(xiàn)用戶行為特征問題,給出了基于Web 日志的客戶群體聚類算法及Web 頁面聚類算法。利用這些Web 挖掘技術(shù)可有效挖掘用戶個性特征,從而指導電子商務網(wǎng)站資源的組織和分配。電子商務中利用Web 日志的聚類算法: 客戶群體的模糊聚類算法, K-Paths 聚類方法,客戶群體聚類的Hamming 距離算法，神經(jīng)網(wǎng)絡方法，基于模糊理論的Web 頁面聚類算法，Web 頁面聚類的Hamming 距離算法，

Web 挖掘技術(shù)在搜索引擎中的應用

對于搜索引擎而言, 通過借鑒Web 挖掘技術(shù), 可以提高查準率與查全率, 改善檢索結(jié)果的組織, 增強檢索用戶的模式研究, 從而使得檢索效率得到改善。

Web挖掘系統(tǒng)的設計與實現(xiàn)

介紹了Web挖掘理論，包括Web挖掘定義、Web挖掘任務、Web挖掘分類3個方面，并簡單介紹了實現(xiàn)Web文本挖掘系統(tǒng)WTMiner (Web Text Miner)的幾個關(guān)鍵技術(shù)：分詞，特征提取，分類器的設計。在分詞中采用了支持首字Hash和二分查找從而提高了分詞速度，分類器的設計中考慮到SVM的訓練算法速度慢的缺點，用近鄰法以減少訓練樣本集中樣本的數(shù)量，從而大大提高了算法速度。

Web 挖掘在網(wǎng)絡營銷中的應用研究

闡述了網(wǎng)絡營銷的特點和Web 挖掘的概念,并探討了如何將Web 挖掘技術(shù)應用于網(wǎng)絡營銷,介紹了一種客戶群體和Web 頁面的模糊聚類算法。

Web 文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)及其在網(wǎng)絡檢索中的應用

在分析Web 文本信息特征的基礎上,揭示了Web 文本數(shù)據(jù)挖掘的目標樣本的特征提取、分詞處理與Web 文本分類等關(guān)鍵技術(shù),以Google 為例討論了該技術(shù)在網(wǎng)絡信息檢索中的應用。

電子商務公共服務平臺下的Web挖掘系統(tǒng)研究

針對我國電子商務的發(fā)展現(xiàn)狀，將數(shù)據(jù)挖掘技術(shù)應用到提高電子商務公共服務平臺的服務質(zhì)量上來，設計了電子商務公共服務平臺下的Web挖掘系統(tǒng)，并提出了系統(tǒng)的評價指標體系，為電子商務公共服務平臺和我國電子商務的發(fā)展提供了一種新的思路和方法。研究了電子商務公共服務平臺下的Web挖掘系統(tǒng)中點擊流預處理及利用XML解決電子商務異構(gòu)數(shù)據(jù)源集成的問題。

多關(guān)系數(shù)據(jù)挖掘研究綜述

多關(guān)系數(shù)據(jù)挖掘是近年來快速發(fā)展的重要的數(shù)據(jù)挖掘領(lǐng)域之一。傳統(tǒng)的數(shù)據(jù)挖掘方法只能完成單一關(guān)系中的模式發(fā)現(xiàn)，多關(guān)系數(shù)據(jù)挖掘能夠從復雜結(jié)構(gòu)化數(shù)據(jù)中發(fā)現(xiàn)涉及多個關(guān)系的復雜模式。該文綜述了多關(guān)系數(shù)據(jù)挖掘的研究狀況。首先分析了多關(guān)系數(shù)據(jù)挖掘領(lǐng)域發(fā)生的原因和背景，其次總結(jié)了多關(guān)系數(shù)據(jù)挖掘研究的一般方法，然后介紹、分析了最具代表性的多關(guān)系數(shù)據(jù)挖掘算法。最后總結(jié)了多關(guān)系數(shù)據(jù)挖掘?qū)戆l(fā)展需重點解決的問題和面臨的挑戰(zhàn)。

分詞技術(shù)研究及其在Web文本挖掘中的應用

本文闡述了漢語自動分詞技術(shù)在中文Web文本挖掘中的應用，對有關(guān)理論進行了論述，討論了Web文本挖掘系統(tǒng)的結(jié)構(gòu)和技術(shù).本文的工作集中在以下幾點:

(1 )研究的重點在于中文關(guān)鍵信息提取，其中的難點就是中文自動分詞。本文重點討論的算法是基于自動建立詞庫的最佳匹配方法來進行中文分詞，同時采用基于改進型馬爾可夫N元語言模型的統(tǒng)計處理方法來處理分詞中出現(xiàn)的歧義問題，從而提高精度。

(2 )基于特定的分詞系統(tǒng)，設計了相應的分詞詞典，該分詞詞典支持詞條首字快速查找算法，并應用于Web挖掘系統(tǒng)中，分析結(jié)果表明，此分詞方法在處理速度上，還是歧義處理上都有較大提高。

(3 )在未登錄詞識別方面，引入決策樹方法，使得未登錄詞識別能力有一定提高。

(4 )在分詞的切分排歧方面，我們采取了一種基于N一最短路徑的策略。在分詞早期階段召回N個最佳結(jié)果作為候選集，目的是覆蓋盡可能多的歧義字段，最終的結(jié)果會在完成識別之后從N個最有潛力的候選結(jié)果中選優(yōu)得到。

(5 )針對其他算法對系統(tǒng)資源占用比較大的問題，采取了改進分詞算法中用到的數(shù)據(jù)結(jié)構(gòu)，精簡字典文件等方法。收效最明顯的做法是:將程序運行賽程所需要的各種數(shù)據(jù)文件建成一個索引文件，大大節(jié)省了程序運行時所需內(nèi)存空間，并且大大提高了分詞處理速度。

基于Web使用挖掘的個性化服務系統(tǒng)

個性化服務系統(tǒng)是一種由多種WEB挖掘技術(shù)構(gòu)成的基于用戶使用的站點個性化系統(tǒng)。該系統(tǒng)使用事務聚類、使用聚類和關(guān)聯(lián)規(guī)則技術(shù)等數(shù)據(jù)挖掘技術(shù)分析用戶訪問模式，并結(jié)合用戶當前訪問情況提供實時化個性服務。實驗結(jié)果說明，個性化服務系統(tǒng)具有較好的性能。

基于Web挖掘的智能門戶搜索引擎的研究

搜索引擎是人們在Internet上快速獲得信息的重要工具之一，但是由于中文自身的特點，使得檢索結(jié)果的準確性和相關(guān)性不是很高，將Web挖掘技術(shù)應用到搜索引擎領(lǐng)域，從而產(chǎn)生智能搜索引擎，將會給用戶提供一個高效、準確的Web檢索工具。文章首先介紹了搜索引擎的工作原理和相關(guān)概念，然后介紹了Web挖掘的定義、分類和應用。最后，詳細討論了Web挖掘技術(shù)在智能搜索引擎的重要應用。

基于Web挖掘技術(shù)的信息檢索系統(tǒng)設計與實現(xiàn)

詳細介紹了一個基于Web文本挖掘技術(shù)的信息檢索系統(tǒng)的設計與實現(xiàn)。基于Web文本挖掘技術(shù)的信息檢索技術(shù)融合了文本挖掘的思想，它將單一的資源發(fā)現(xiàn)或者單一的信息提取的傳統(tǒng)信息檢索方法結(jié)合起來，從而達到在WWW發(fā)現(xiàn)資源并將其中的信息提取出來進行處理的目的。

基于XML的Web數(shù)據(jù)挖掘技術(shù)

在經(jīng)濟全球化形勢下，充分利用Web資源，從中挖掘出有決策意義的信息，對企業(yè)的自主發(fā)展有著不可估量的意義。本文在分析了Web數(shù)據(jù)挖掘技術(shù)的難點后，根據(jù)互聯(lián)網(wǎng)技術(shù)的發(fā)展趨勢，介紹了基于XML的Web數(shù)據(jù)挖掘技術(shù)并提出了一個基于XML的評判信息數(shù)據(jù)挖掘系統(tǒng)的實現(xiàn)框架。

基于XML的個性化Web內(nèi)容挖掘研究

基于XML的Web內(nèi)客挖掘逐漸成為Web數(shù)據(jù)挖掘的重要研究課題。論文定義了用戶模型，通過三種途徑建立用戶模型。將XML和個性化技術(shù)應用到Web內(nèi)容挖掘，設計了一個基于XML的個性化Web內(nèi)容挖掘系統(tǒng)(PWCMS)．并討論了PWCMS的關(guān)鍵技術(shù)及實現(xiàn)。實踐證明，將XML和個性化技術(shù)應用到Web內(nèi)容挖掘是有效的。

基于數(shù)據(jù)挖掘的Web個性化信息推薦系統(tǒng)

基于數(shù)據(jù)挖掘的Web個性化信息推薦日益成為一個重要的研究課題。文章設計了一個基于數(shù)據(jù)挖掘的Web個性化信息推薦系統(tǒng)(WBIRS)在WBIRS中"提出了推薦策略"在推薦策略中考慮針對不同類型的用戶采用不同的推薦算法。根據(jù)用戶是否有新穎信息的需求WBIRS采用了兩種推薦算法。

基于搜索引擎的知識發(fā)現(xiàn)

數(shù)據(jù)挖掘一般用于高度結(jié)構(gòu)化的大型數(shù)據(jù)庫，以發(fā)現(xiàn)其中所蘊含的知識。隨著在線文本的增多，其中所蘊含的知識也越來越豐富，但是，它們卻難以被分析利用。因而。研究一套行之有效的方案發(fā)現(xiàn)文本中所蘊含的知識是非常重要的，也是當前重要的研究課題。該文利用搜索引擎GOOGLE獲取相關(guān)Web 頁面,進行過濾和清洗后得到相關(guān)文本,然后,進行文本聚類,利用Episode進行事件識別和信息抽取,數(shù)據(jù)集成及數(shù)據(jù)挖掘,從而實現(xiàn)知識發(fā)現(xiàn)。最后給出了原型系統(tǒng)，對知識發(fā)現(xiàn)進行實踐檢驗，收到了很好的效果。

數(shù)據(jù)抽取及語義分析在Web 數(shù)據(jù)挖掘中的應用

把復雜的網(wǎng)絡站點作為多個業(yè)務數(shù)據(jù)源，采用數(shù)據(jù)倉庫及數(shù)據(jù)挖掘技術(shù)，從中抽取并凈化數(shù)據(jù)到挖掘數(shù)據(jù)庫，從而將數(shù)據(jù)抽取及語義分析應用于Web 數(shù)據(jù)挖掘中。在此基礎上又提出了運用數(shù)據(jù)抽取進行數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換并把語義分析技術(shù)應用到數(shù)據(jù)抽取的過程中的思想，使數(shù)據(jù)提取更加準確。

文本挖掘中運用自組織特征映射算法分析中國人類工效學研究狀況

文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識, 并且利用這些知識更好地組織信息的過程。利用文本挖掘中的自組織特征映射( SOM)算法,對中國《人類工效學》期刊數(shù)據(jù)庫的大量文檔進行聚類分析,得到當前國內(nèi)人類工效學研究領(lǐng)域里的主要研究類別、趨勢,然后將聚類結(jié)果與國際人類工效學協(xié)會( IEA)公布的研究領(lǐng)域進行對比分析。

現(xiàn)代遠程教育個性化Web挖掘研究

從Web上異質(zhì)的、非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)有用的知識或者模式是目前數(shù)據(jù)挖掘研究中的一個重要內(nèi)容。Web挖掘就是從Web文檔和Web活動中抽取感興趣的、潛在的有用模式和隱藏的信息。介紹了Web挖掘基本情況,在此基礎上對基于Web的文本挖掘進行了分析研究,給出了一個基于Web的文本挖掘的結(jié)構(gòu)模型圖。重點介紹了網(wǎng)頁聚類算法,實現(xiàn)了遠程教學的按需學習和因材施教的要求。提出了一個基于Web挖掘的智能化、個性化的現(xiàn)代遠程教育系統(tǒng)結(jié)構(gòu)模型。

一種基于自然語言理解的Web 挖掘模型

如何從網(wǎng)上海量信息中發(fā)現(xiàn)有用的知識, 滿足使用者的需要是一個迫切需要研究的課題。但現(xiàn)有的方法很難從W eb 上把大量非結(jié)構(gòu)信息抽取到數(shù)據(jù)庫中, 而且一般的搜索引擎也只是簡單地把關(guān)鍵字匹配作為查詢依據(jù), 命中率較低。文章提出了將自然語言理解技術(shù)與Web 數(shù)據(jù)挖掘相結(jié)合, 根據(jù)用戶的需要定制個性化的Web 數(shù)據(jù)挖掘模型。初步試驗結(jié)果表明該方案是可行的, 能很好的滿足用戶需要, 且模型的通用性和適用性強。

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版