專利名稱:一種使用本體進(jìn)行文本文檔自動(dòng)分類的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種使用本體對(duì)文本文檔進(jìn)行自動(dòng)分類的方法,屬于計(jì)算機(jī)信息處 理、信息檢索等領(lǐng)域。適用于對(duì)海量的網(wǎng)絡(luò)文本文檔進(jìn)行快速準(zhǔn)確的自動(dòng)分類。
背景技術(shù):
為了提高文本文檔組織的效率,更好的支持用戶瀏覽和查找信息,文本文檔分類 一直以來(lái)是人們所關(guān)注的重點(diǎn)問(wèn)題。最開始,文本文檔分類是人手動(dòng)完成的,但隨著文本文 檔資源的越來(lái)越多,手動(dòng)分類已變得不可能了,所以自動(dòng)文本文檔分類技術(shù)成為了研究的重點(diǎn)。文本文檔分類一般分為三個(gè)階段首先,文本文檔和分類目錄的特征信息被提取 出來(lái);然后,分類器計(jì)算出文本文檔和分類目錄的相似值;最后,文本文檔根據(jù)相似值歸屬 到不同的目錄。傳統(tǒng)的機(jī)器學(xué)習(xí)方法已經(jīng)應(yīng)用于文本文檔自動(dòng)分類,包括神經(jīng)網(wǎng)絡(luò)、貝葉斯、支持 向量機(jī)和k鄰居方法。這些方法首先手動(dòng)的收集一些分類的文本文檔,然后使用這些已分 類的文本文檔集來(lái)訓(xùn)練分類器,最后使用訓(xùn)練好的分類器將文本文檔劃分到分類目錄中。 這些機(jī)器學(xué)習(xí)的分類方法有以下缺點(diǎn)1)傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練分類器需要手工收集大量的已分類文本文檔集,該 過(guò)程非常繁瑣,并且針對(duì)不同的分類目錄,需要手工的收集不同的文本文檔集來(lái)訓(xùn)練分類 器;2)傳統(tǒng)的機(jī)器學(xué)習(xí)的方法沒(méi)有考慮詞之間的語(yǔ)義關(guān)系,所以很難提高分類的準(zhǔn)確率。為了解決機(jī)器學(xué)習(xí)方法的缺點(diǎn),本發(fā)明提出了一種使用本體來(lái)對(duì)文本文檔進(jìn)行自 動(dòng)分類的方法。
發(fā)明內(nèi)容
要解決的技術(shù)問(wèn)題為了能夠解決目前基于機(jī)器學(xué)習(xí)的方法的缺點(diǎn),本發(fā)明提出使用本體對(duì)文本文檔 進(jìn)行自動(dòng)分類,能夠快速準(zhǔn)確的對(duì)文本文檔進(jìn)行自動(dòng)的分類和排序。技術(shù)方案本發(fā)明的思想是使用本體來(lái)表示分類目錄的特征信息,利用文本文檔和本體之 間的語(yǔ)義相似值來(lái)進(jìn)行實(shí)時(shí)的分類,這樣省去了訓(xùn)練學(xué)習(xí)的過(guò)程,并且隨著本體不斷的更 新和進(jìn)化,基于本體的分類方法的準(zhǔn)確率和召回率將會(huì)得到不斷的提高;另一方面,在計(jì)算 文本文檔和本體之間的相似值時(shí),基于本體的方法考慮詞之間的語(yǔ)義關(guān)系,從而提高分類 的準(zhǔn)確率。本發(fā)明的特征在于提出本體能有效的表示分類目錄的特征信息,并通過(guò)使用消 歧和擴(kuò)展處理后的本體來(lái)表示分類目錄的特征信息,利用待分類文本文檔和本體之間的語(yǔ)義相似值來(lái)進(jìn)行分類。本發(fā)明的基本過(guò)程為首先,使用帶權(quán)重的關(guān)鍵詞集合表示文本文檔的特征信息; 然后,使用經(jīng)過(guò)消歧和擴(kuò)展處理后的本體來(lái)表示分類目錄的特征信息,并通過(guò)分析本體結(jié) 構(gòu)特征,將本體被轉(zhuǎn)化為帶權(quán)重的詞義集合;最后,使用Earth Mover' s Distance方法計(jì) 算文本文檔的關(guān)鍵詞集合和本體權(quán)重詞義集合之間的語(yǔ)義相似值,其中,單個(gè)詞義和詞之 間的相似值采用基于WordNet釋義的方法來(lái)度量,并利用該語(yǔ)義相似值來(lái)計(jì)算文本文檔和 分類目錄之間的相似值,根據(jù)文本文檔和分類目錄之間的相似值來(lái)進(jìn)行文本文檔的分類和 排序。一種使用本體進(jìn)行文本文檔自動(dòng)分類的方法,其特征在于步驟如下(1)用KEA算法抽取待分類文本文檔集合中每篇文本文檔的關(guān)鍵詞集合,得到該 文本文檔的帶權(quán)重的關(guān)鍵詞集合;在Swoogle本體搜索引擎中以給定的目錄集合中的每個(gè) 分類目錄名為檢索詞進(jìn)行檢索,得到的檢索結(jié)果中排序第一的本體作為表示該分類目錄的 本體,對(duì)表示每個(gè)分類目錄的本體進(jìn)行本體消岐和本體擴(kuò)展,得到表示該分類目錄的新的 本體;所述的本體消岐過(guò)程為首先,選擇本體中距離每個(gè)概念詞L范圍內(nèi)的詞作為該概念詞的上下文;所述的L 的取值范圍為[3,5];然后,按語(yǔ)義相關(guān)度計(jì)算公式
NumOfOverlaps _ SiConjTelatenessisi, con )=-=-----— 計(jì)
(WordNumlnGlossOfsi + WordNumlnGlossOfconj )/2
算每個(gè)概念詞的第i個(gè)可能詞義Si與該概念詞的第j個(gè)上下文Con1的語(yǔ)義相關(guān)度
^ Telatenessisi, Conj)
、Re/⑷=
relatenessh,con」),并按^“ 7計(jì)算每個(gè)概念詞的第i個(gè)可能
J
詞義Si的平均語(yǔ)義相關(guān)度Rel (Si);其中,i = 1,2,…,I,I表示概念詞的可能詞義的個(gè)數(shù),j = 1,2,…,J,J表示 概念詞的上下文的個(gè)數(shù);WordNumlnGlossOfsi表示Si的WordNet釋義包含的單詞個(gè)數(shù), WordNumlnGlossOfconj 表示 con」的 WordNet 釋義包含的單詞個(gè)數(shù),NumOfOverlapS-SiConj 表示Si的WordNet釋義和con」的WordNet釋義所包含的單詞中相同單詞的個(gè)數(shù);所述的可 能詞義為定義在詞法數(shù)據(jù)庫(kù)WordNet中的詞義;最后,選擇具有最大平均語(yǔ)義相關(guān)度Rel值的可能詞義作為概念詞的概念詞義;所述的本體擴(kuò)展過(guò)程為利用語(yǔ)義相關(guān)度計(jì)算公式
NumOfOverlaps _ sps'pq {wordNumlnGlossOfi p + wordNumlnGlossOfs' pq )/2 relateness{sp,s\q) = -^九丁 τ ~—-;r P ~、。計(jì)算經(jīng)過(guò)
本體消岐處理后的本體的每個(gè)概念詞義在WordNet中的上位關(guān)系詞義集合和下位關(guān)系詞 義集合中的每個(gè)詞義與該概念詞義之間的語(yǔ)義相關(guān)度,并進(jìn)行判斷對(duì)于上位關(guān)系詞義集 合中的每個(gè)詞義,如果它與該概念詞義之間的語(yǔ)義相關(guān)度大于給定閾值一,則將該詞義加 入到該概念詞義的父類集合;對(duì)于下位關(guān)系詞義集合中的每個(gè)詞義,如果它與該概念詞義之間的語(yǔ)義相關(guān)度大于給定閾值二,則將該詞義加入到該概念詞義的子類集合;將每個(gè)概 念詞義在WordNet中的同義關(guān)系詞義集合中的所有詞義均加入到該概念詞義的同類集合;其中,&表示經(jīng)過(guò)本體消岐處理后的本體的第ρ個(gè)概念詞義,ρ = 1,2,…, P,P表示經(jīng)過(guò)本體消岐處理后的本體的概念詞義的個(gè)數(shù);S' M表示&的上位關(guān)系詞 義集合/下位關(guān)系詞義集合中的第q個(gè)詞義,Q= 1,2,…,Q,Q表示上位關(guān)系詞義集 合/下位關(guān)系詞義集合中的詞義的個(gè)數(shù);w0fdMUmInGlossOfSρ 磯WordNet釋義包 含的單詞個(gè)數(shù),wordNumlnGlossOfs ‘ M表示s' M的WordNet釋義包含的單詞個(gè)數(shù), NumOfOverlaps_J/pq轟示SWordNet釋義和s' M的WordNet釋義所包含的單詞中相 同單詞的個(gè)數(shù);所述的給定的閾值一和閾值二的取值范圍均為
;(2)計(jì)算表示每個(gè)分類目錄的新的本體的權(quán)重詞義集合,具體為首先,將本體轉(zhuǎn)化成由頂點(diǎn)集合和有向邊集合組成的有向圖有向圖的每一個(gè)頂 點(diǎn)為本體中的一個(gè)概念詞義,有向圖的每一條有向邊為兩個(gè)概念詞義間的包含關(guān)系,有向 邊的方向由子概念詞義指向父概念詞義;然后,按WdgM = (laylry^計(jì)算得到每個(gè)概念詞義的權(quán)重;其中,weight表示概念詞義的權(quán)重,layer表示該概念詞義對(duì)應(yīng)的頂點(diǎn)的層數(shù);所述的頂點(diǎn)的層數(shù)為頂點(diǎn)對(duì)應(yīng)的概念詞義距離本體根部的最短路徑距離;(3)按Sim (d,ο) = I-EMD (d, ο)計(jì)算文本文檔和分類目錄之間的相似值Sim (d, 0),如果文本文檔和分類目錄間的相似值Sim(d,o)大于給定閾值δ,則將文本文檔分類到 該分類目錄,否則不將文本文檔分類到該分類目錄;其中,d為文本文檔的帶權(quán)重的關(guān)鍵詞集合,ο為本體的權(quán)重詞義集合;EMD(d,ο) 為利用Earth Mover' s Distance方法計(jì)算得到的文本文檔和本體之間的語(yǔ)義相似值;所 述的給定閾值S的取值范圍為
;(4)對(duì)分類后的分類目錄下的所有文本文檔按照相似值Sim(d,ο)由大到小進(jìn)行 排序。有益效果本發(fā)明該方法使用本體來(lái)表示目錄的特征信息,通過(guò)計(jì)算文本文檔和本體之間的 語(yǔ)義相似值來(lái)進(jìn)行實(shí)時(shí)的分類,省去了訓(xùn)練學(xué)習(xí)的過(guò)程,并提高了分類的準(zhǔn)確率。此外,本 發(fā)明使用消歧技術(shù)將表示本體中的詞變?yōu)樵~義,解決了詞的多義性引起的相似值的計(jì)算結(jié) 果不準(zhǔn)確的問(wèn)題,提高語(yǔ)義相似值計(jì)算的精度,進(jìn)一步提高了分類的精度;在本體消歧的基 礎(chǔ)之上,本發(fā)明通過(guò)使用WordNet來(lái)對(duì)本體進(jìn)行自動(dòng)地?cái)U(kuò)展,豐富了本體的概念內(nèi)容,從而 提高了后續(xù)相似值計(jì)算的準(zhǔn)確率,并且解決手工創(chuàng)建本體費(fèi)事的問(wèn)題。
圖1 本發(fā)明方法的基本流程圖
具體實(shí)施例方式現(xiàn)結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步描述
根據(jù)本發(fā)明提出的使用本體進(jìn)行文本文檔分類的方法,我們使用Java和Perl語(yǔ) 言進(jìn)行了實(shí)現(xiàn),具體的實(shí)現(xiàn)過(guò)程如下使用本體進(jìn)行文本文檔分類方法分為以下四個(gè)步驟步驟一文本文檔關(guān)鍵詞集合的構(gòu)建。這里,采用KEA算法抽取待分類文本文檔 集合中每一篇文本文檔的帶權(quán)重的關(guān)鍵詞集合,具體為對(duì)于待分類的文本文檔集合D = IdljCl2,…,d|D|}(|D|表示文本文檔集合D中的文本文檔篇數(shù))中的每一篇文本文檔Cli,首 先,采用樸素貝葉斯估計(jì),通過(guò)考慮詞(現(xiàn)有的單詞)在文本文檔中出現(xiàn)的頻率tfXidf、詞 在文本文檔中出現(xiàn)的平均位置Occurrence和詞中字母的個(gè)數(shù)Length三個(gè)特征屬性,對(duì)(Ii 中的每一個(gè)詞,采用以下公式計(jì)算其為主題詞的概率Pr Pr = Pr [Τ | yes] X Pr
X Pr [L | yes] X Pr [yes] (1)其中,Pr [Τ I yes]、Pr
和Pr[L|yes]分別表示在三個(gè)特征屬性tf X idf、 Occurrence和Length取當(dāng)前值的條件下該詞為主題詞的概率;Pr [yes]表示文本文檔集合 中包含主題詞的文本文檔的數(shù)目與不包含主題詞的文本文檔的數(shù)目之比。然后,選擇具有最大Pr值的前η個(gè)詞(通常η取4 6)作為文本文檔(Ii的關(guān)鍵 詞,得到文本文檔Cli的帶權(quán)重的關(guān)鍵詞集合,并將文本文檔Cli用該帶權(quán)重的關(guān)鍵詞集合表 示,S卩Cli= IURLi, U^tw1),…,(^.,tw.j),…},其中,、為按上述方法抽取得到的關(guān)鍵 詞,tWiJ為關(guān)鍵詞的權(quán)重,即為按式⑴計(jì)算得到的其Pr值。步驟二 本體預(yù)處理。首先,以給定目錄集合中的每個(gè)分類目錄名為檢索詞在 Swoogle本體搜索引擎中進(jìn)行檢索,并用得到的檢索結(jié)果中排序第一的本體來(lái)表示該分類 目錄,這樣,目錄集合CA = Ica1, ca2,…,ca|cA|}就使用本體集合O = Io1, O2,…,0|()|}來(lái) 表示,其中,|o|表示本體集合ο中的本體個(gè)數(shù),|CA|表示目錄集合CA中的分類目錄個(gè)數(shù), 滿足Iol = I CA I。其中,一個(gè)分類目錄對(duì)應(yīng)一個(gè)本體,即一個(gè)本體Om表示一個(gè)分類目錄cam 的特征信息,即Cam:= om。接下來(lái),對(duì)每一個(gè)本體om進(jìn)行步驟2. 1的本體消歧和步驟2. 2的本體擴(kuò)展處理。 其中,本發(fā)明采用定義在詞法數(shù)據(jù)庫(kù)WordNet中的詞義作為本體的詞法表示,并設(shè)定同一 條知識(shí)內(nèi)任意兩個(gè)概念詞之間的路徑距離為1。步驟2. 1 本體消歧。由于一個(gè)詞可能對(duì)應(yīng)多個(gè)詞義,這個(gè)現(xiàn)象會(huì)降低語(yǔ)義相似值 計(jì)算的精度。為了消除本體中詞表示的歧義性,對(duì)本體進(jìn)行消歧處理,即利用本體中詞的上 下文,確定其正確的詞義。具體為首先,本體中的概念詞s的L距離范圍內(nèi)的詞被選為概念詞s的上下文,得到概念 詞s的上下文集合Con= Icon1, -,Conj,…},其中,con」表示概念詞s的第j個(gè)上下文; L的取值范圍為[3,5];然后,使用公式⑵計(jì)算概念詞s在WordNet中的每個(gè)詞義Si (i = 1,…,Ni, Ni 為概念詞s在WordNet中的詞義個(gè)數(shù))和其上下文集合Con中所有上下文之間的平均語(yǔ)義 相關(guān)度Rel (Si)
\Con\
^ relateness(si, Conj) _] Re/㈨- ⑵ 其中,IConI為概念詞s的上下文個(gè)數(shù),即上下文集合Con中詞的個(gè)數(shù);relateness(si, Conj)為第i個(gè)詞義Si和其第j個(gè)上下文的語(yǔ)義相關(guān)度,其計(jì)算公式
如下
權(quán)利要求
一種使用本體進(jìn)行文本文檔自動(dòng)分類的方法,其特征在于步驟如下(1)用KEA算法抽取待分類文本文檔集合中每篇文本文檔的關(guān)鍵詞集合,得到該文本文檔的帶權(quán)重的關(guān)鍵詞集合;在Swoogle本體搜索引擎中以給定的目錄集合中的每個(gè)分類目錄名為檢索詞進(jìn)行檢索,得到的檢索結(jié)果中排序第一的本體作為表示該分類目錄的本體,對(duì)表示每個(gè)分類目錄的本體進(jìn)行本體消岐和本體擴(kuò)展,得到表示該分類目錄的新的本體;所述的本體消岐過(guò)程為首先,選擇本體中距離每個(gè)概念詞L范圍內(nèi)的詞作為該概念詞的上下文;所述的L的取值范圍為[3,5];然后,按語(yǔ)義相關(guān)度計(jì)算公式計(jì)算每個(gè)概念詞的第i個(gè)可能詞義si與該概念詞的第j個(gè)上下文conj的語(yǔ)義相關(guān)度relateness(si,conj),并按計(jì)算每個(gè)概念詞的第i個(gè)可能詞義si的平均語(yǔ)義相關(guān)度Rel(si);其中,i=1,2,…,I,I表示概念詞的可能詞義的個(gè)數(shù),j=1,2,…,J,J表示概念詞的上下文的個(gè)數(shù);wordNumInGlossOfsi表示si的WordNet釋義包含的單詞個(gè)數(shù),wordNumInGlossOfconj表示conj的WordNet釋義包含的單詞個(gè)數(shù),NumOfOverlaps_siconj表示si的WordNet釋義和conj的WordNet釋義所包含的單詞中相同單詞的個(gè)數(shù);所述的可能詞義為定義在詞法數(shù)據(jù)庫(kù)WordNet中的詞義;最后,選擇具有最大平均語(yǔ)義相關(guān)度Rel值的可能詞義作為概念詞的概念詞義;所述的本體擴(kuò)展過(guò)程為利用語(yǔ)義相關(guān)度計(jì)算公式計(jì)算經(jīng)過(guò)本體消岐處理后的本體的每個(gè)概念詞義在WordNet中的上位關(guān)系詞義集合和下位關(guān)系詞義集合中的每個(gè)詞義與該概念詞義之間的語(yǔ)義相關(guān)度,并進(jìn)行判斷對(duì)于上位關(guān)系詞義集合中的每個(gè)詞義,如果它與該概念詞義之間的語(yǔ)義相關(guān)度大于給定閾值一,則將該詞義加入到該概念詞義的父類集合;對(duì)于下位關(guān)系詞義集合中的每個(gè)詞義,如果它與該概念詞義之間的語(yǔ)義相關(guān)度大于給定閾值二,則將該詞義加入到該概念詞義的子類集合;將每個(gè)概念詞義在WordNet中的同義關(guān)系詞義集合中的所有詞義均加入到該概念詞義的同類集合;其中,表示經(jīng)過(guò)本體消岐處理后的本體的第p個(gè)概念詞義,p=1,2,…,P,P表示經(jīng)過(guò)本體消岐處理后的本體的概念詞義的個(gè)數(shù);s′pq表示的上位關(guān)系詞義集合/下位關(guān)系詞義集合中的第q個(gè)詞義,q=1,2,…,Q,Q表示上位關(guān)系詞義集合/下位關(guān)系詞義集合中的詞義的個(gè)數(shù);表示的WordNet釋義包含的單詞個(gè)數(shù),表示s′pq的WordNet釋義包含的單詞個(gè)數(shù),表示的WordNet釋義和s′pq的WordNet釋義所包含的單詞中相同單詞的個(gè)數(shù);所述的給定的閾值一和閾值二的取值范圍均為
;(2)計(jì)算表示每個(gè)分類目錄的新的本體的權(quán)重詞義集合,具體為首先,將本體轉(zhuǎn)化成由頂點(diǎn)集合和有向邊集合組成的有向圖有向圖的每一個(gè)頂點(diǎn)為本體中的一個(gè)概念詞義,有向圖的每一條有向邊為兩個(gè)概念詞義間的包含關(guān)系,有向邊的方向由子概念詞義指向父概念詞義;然后,按計(jì)算得到每個(gè)概念詞義的權(quán)重;其中,weight表示概念詞義的權(quán)重,layer表示該概念詞義對(duì)應(yīng)的頂點(diǎn)的層數(shù);所述的頂點(diǎn)的層數(shù)為頂點(diǎn)對(duì)應(yīng)的概念詞義距離本體根部的最短路徑距離;(3)按Sim(d,o)=1 EMD(d,o)計(jì)算文本文檔和分類目錄之間的相似值Sim(d,o),如果文本文檔和分類目錄間的相似值Sim(d,o)大于給定閾值δ,則將文本文檔分類到該分類目錄,否則不將文本文檔分類到該分類目錄;其中,d為文本文檔的帶權(quán)重的關(guān)鍵詞集合,o為本體的權(quán)重詞義集合;EMD(d,o)為利用Earth Mover’s Distance方法計(jì)算得到的文本文檔和本體之間的語(yǔ)義相似值;所述的給定閾值δ的取值范圍為
;(4)對(duì)分類后的分類目錄下的所有文本文檔按照相似值Sim(d,o)由大到小進(jìn)行排序。FSA00000175171000011.tif,FSA00000175171000012.tif,FSA00000175171000021.tif,FSA00000175171000022.tif,FSA00000175171000023.tif,FSA00000175171000024.tif,FSA00000175171000025.tif,FSA00000175171000026.tif,FSA00000175171000027.tif,FSA00000175171000028.tif,FSA00000175171000031.tif
全文摘要
本發(fā)明涉及一種使用本體進(jìn)行文本文檔自動(dòng)分類的方法,該方法包括首先,使用帶權(quán)重的關(guān)鍵詞集合表示文本文檔的特征信息;然后,使用經(jīng)過(guò)本體消歧和本體擴(kuò)展處理后的本體來(lái)表示分類目錄的特征信息,并通過(guò)分析本體結(jié)構(gòu)特征將本體被轉(zhuǎn)化為帶權(quán)重的詞義集合;最后,使用Earth Mover’s Distance方法計(jì)算文本文檔的關(guān)鍵詞集合和本體權(quán)重詞義集合之間的語(yǔ)義相似值,并進(jìn)一步計(jì)算文本文檔和分類目錄之間的相似值,根據(jù)文本文檔和分類目錄之間的相似值來(lái)進(jìn)行文本文檔的分類和排序。使用本發(fā)明方法能夠進(jìn)行文本文檔的自動(dòng)分類,并提高文本文檔分類的準(zhǔn)確率。
文檔編號(hào)G06F17/30GK101944099SQ20101021010
公開日2011年1月12日 申請(qǐng)日期2010年6月24日 優(yōu)先權(quán)日2010年6月24日
發(fā)明者方俊, 郭雷 申請(qǐng)人:西北工業(yè)大學(xué)