專利名稱:一種使用本體進(jìn)行文本文檔自動分類的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種使用本體對文本文檔進(jìn)行自動分類的方法,屬于計(jì)算機(jī)信息處 理、信息檢索等領(lǐng)域。適用于對海量的網(wǎng)絡(luò)文本文檔進(jìn)行快速準(zhǔn)確的自動分類。
背景技術(shù):
為了提高文本文檔組織的效率,更好的支持用戶瀏覽和查找信息,文本文檔分類 一直以來是人們所關(guān)注的重點(diǎn)問題。最開始,文本文檔分類是人手動完成的,但隨著文本文 檔資源的越來越多,手動分類已變得不可能了,所以自動文本文檔分類技術(shù)成為了研究的重點(diǎn)。文本文檔分類一般分為三個(gè)階段首先,文本文檔和分類目錄的特征信息被提取 出來;然后,分類器計(jì)算出文本文檔和分類目錄的相似值;最后,文本文檔根據(jù)相似值歸屬 到不同的目錄。傳統(tǒng)的機(jī)器學(xué)習(xí)方法已經(jīng)應(yīng)用于文本文檔自動分類,包括神經(jīng)網(wǎng)絡(luò)、貝葉斯、支持 向量機(jī)和k鄰居方法。這些方法首先手動的收集一些分類的文本文檔,然后使用這些已分 類的文本文檔集來訓(xùn)練分類器,最后使用訓(xùn)練好的分類器將文本文檔劃分到分類目錄中。 這些機(jī)器學(xué)習(xí)的分類方法有以下缺點(diǎn)1)傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練分類器需要手工收集大量的已分類文本文檔集,該 過程非常繁瑣,并且針對不同的分類目錄,需要手工的收集不同的文本文檔集來訓(xùn)練分類 器;2)傳統(tǒng)的機(jī)器學(xué)習(xí)的方法沒有考慮詞之間的語義關(guān)系,所以很難提高分類的準(zhǔn)確率。為了解決機(jī)器學(xué)習(xí)方法的缺點(diǎn),本發(fā)明提出了一種使用本體來對文本文檔進(jìn)行自 動分類的方法。
發(fā)明內(nèi)容
要解決的技術(shù)問題為了能夠解決目前基于機(jī)器學(xué)習(xí)的方法的缺點(diǎn),本發(fā)明提出使用本體對文本文檔 進(jìn)行自動分類,能夠快速準(zhǔn)確的對文本文檔進(jìn)行自動的分類和排序。技術(shù)方案本發(fā)明的思想是使用本體來表示分類目錄的特征信息,利用文本文檔和本體之 間的語義相似值來進(jìn)行實(shí)時(shí)的分類,這樣省去了訓(xùn)練學(xué)習(xí)的過程,并且隨著本體不斷的更 新和進(jìn)化,基于本體的分類方法的準(zhǔn)確率和召回率將會得到不斷的提高;另一方面,在計(jì)算 文本文檔和本體之間的相似值時(shí),基于本體的方法考慮詞之間的語義關(guān)系,從而提高分類 的準(zhǔn)確率。本發(fā)明的特征在于提出本體能有效的表示分類目錄的特征信息,并通過使用消 歧和擴(kuò)展處理后的本體來表示分類目錄的特征信息,利用待分類文本文檔和本體之間的語義相似值來進(jìn)行分類。本發(fā)明的基本過程為首先,使用帶權(quán)重的關(guān)鍵詞集合表示文本文檔的特征信息; 然后,使用經(jīng)過消歧和擴(kuò)展處理后的本體來表示分類目錄的特征信息,并通過分析本體結(jié) 構(gòu)特征,將本體被轉(zhuǎn)化為帶權(quán)重的詞義集合;最后,使用Earth Mover' s Distance方法計(jì) 算文本文檔的關(guān)鍵詞集合和本體權(quán)重詞義集合之間的語義相似值,其中,單個(gè)詞義和詞之 間的相似值采用基于WordNet釋義的方法來度量,并利用該語義相似值來計(jì)算文本文檔和 分類目錄之間的相似值,根據(jù)文本文檔和分類目錄之間的相似值來進(jìn)行文本文檔的分類和 排序。一種使用本體進(jìn)行文本文檔自動分類的方法,其特征在于步驟如下(1)用KEA算法抽取待分類文本文檔集合中每篇文本文檔的關(guān)鍵詞集合,得到該 文本文檔的帶權(quán)重的關(guān)鍵詞集合;在Swoogle本體搜索引擎中以給定的目錄集合中的每個(gè) 分類目錄名為檢索詞進(jìn)行檢索,得到的檢索結(jié)果中排序第一的本體作為表示該分類目錄的 本體,對表示每個(gè)分類目錄的本體進(jìn)行本體消岐和本體擴(kuò)展,得到表示該分類目錄的新的 本體;所述的本體消岐過程為首先,選擇本體中距離每個(gè)概念詞L范圍內(nèi)的詞作為該概念詞的上下文;所述的L 的取值范圍為[3,5];然后,按語義相關(guān)度計(jì)算公式
NumOfOverlaps _ SiConjTelatenessisi, con )=-=-----— 計(jì)
(WordNumlnGlossOfsi + WordNumlnGlossOfconj )/2
算每個(gè)概念詞的第i個(gè)可能詞義Si與該概念詞的第j個(gè)上下文Con1的語義相關(guān)度
^ Telatenessisi, Conj)
、Re/⑷=
relatenessh,con」),并按^“ 7計(jì)算每個(gè)概念詞的第i個(gè)可能
J
詞義Si的平均語義相關(guān)度Rel (Si);其中,i = 1,2,…,I,I表示概念詞的可能詞義的個(gè)數(shù),j = 1,2,…,J,J表示 概念詞的上下文的個(gè)數(shù);WordNumlnGlossOfsi表示Si的WordNet釋義包含的單詞個(gè)數(shù), WordNumlnGlossOfconj 表示 con」的 WordNet 釋義包含的單詞個(gè)數(shù),NumOfOverlapS-SiConj 表示Si的WordNet釋義和con」的WordNet釋義所包含的單詞中相同單詞的個(gè)數(shù);所述的可 能詞義為定義在詞法數(shù)據(jù)庫WordNet中的詞義;最后,選擇具有最大平均語義相關(guān)度Rel值的可能詞義作為概念詞的概念詞義;所述的本體擴(kuò)展過程為利用語義相關(guān)度計(jì)算公式
NumOfOverlaps _ sps'pq {wordNumlnGlossOfi p + wordNumlnGlossOfs' pq )/2 relateness{sp,s\q) = -^九丁 τ ~—-;r P ~、。計(jì)算經(jīng)過
本體消岐處理后的本體的每個(gè)概念詞義在WordNet中的上位關(guān)系詞義集合和下位關(guān)系詞 義集合中的每個(gè)詞義與該概念詞義之間的語義相關(guān)度,并進(jìn)行判斷對于上位關(guān)系詞義集 合中的每個(gè)詞義,如果它與該概念詞義之間的語義相關(guān)度大于給定閾值一,則將該詞義加 入到該概念詞義的父類集合;對于下位關(guān)系詞義集合中的每個(gè)詞義,如果它與該概念詞義之間的語義相關(guān)度大于給定閾值二,則將該詞義加入到該概念詞義的子類集合;將每個(gè)概 念詞義在WordNet中的同義關(guān)系詞義集合中的所有詞義均加入到該概念詞義的同類集合;其中,&表示經(jīng)過本體消岐處理后的本體的第ρ個(gè)概念詞義,ρ = 1,2,…, P,P表示經(jīng)過本體消岐處理后的本體的概念詞義的個(gè)數(shù);S' M表示&的上位關(guān)系詞 義集合/下位關(guān)系詞義集合中的第q個(gè)詞義,Q= 1,2,…,Q,Q表示上位關(guān)系詞義集 合/下位關(guān)系詞義集合中的詞義的個(gè)數(shù);w0fdMUmInGlossOfSρ 磯WordNet釋義包 含的單詞個(gè)數(shù),wordNumlnGlossOfs ‘ M表示s' M的WordNet釋義包含的單詞個(gè)數(shù), NumOfOverlaps_J/pq轟示SWordNet釋義和s' M的WordNet釋義所包含的單詞中相 同單詞的個(gè)數(shù);所述的給定的閾值一和閾值二的取值范圍均為
;(2)計(jì)算表示每個(gè)分類目錄的新的本體的權(quán)重詞義集合,具體為首先,將本體轉(zhuǎn)化成由頂點(diǎn)集合和有向邊集合組成的有向圖有向圖的每一個(gè)頂 點(diǎn)為本體中的一個(gè)概念詞義,有向圖的每一條有向邊為兩個(gè)概念詞義間的包含關(guān)系,有向 邊的方向由子概念詞義指向父概念詞義;然后,按WdgM = (laylry^計(jì)算得到每個(gè)概念詞義的權(quán)重;其中,weight表示概念詞義的權(quán)重,layer表示該概念詞義對應(yīng)的頂點(diǎn)的層數(shù);所述的頂點(diǎn)的層數(shù)為頂點(diǎn)對應(yīng)的概念詞義距離本體根部的最短路徑距離;(3)按Sim (d,ο) = I-EMD (d, ο)計(jì)算文本文檔和分類目錄之間的相似值Sim (d, 0),如果文本文檔和分類目錄間的相似值Sim(d,o)大于給定閾值δ,則將文本文檔分類到 該分類目錄,否則不將文本文檔分類到該分類目錄;其中,d為文本文檔的帶權(quán)重的關(guān)鍵詞集合,ο為本體的權(quán)重詞義集合;EMD(d,ο) 為利用Earth Mover' s Distance方法計(jì)算得到的文本文檔和本體之間的語義相似值;所 述的給定閾值S的取值范圍為
;(4)對分類后的分類目錄下的所有文本文檔按照相似值Sim(d,ο)由大到小進(jìn)行 排序。有益效果本發(fā)明該方法使用本體來表示目錄的特征信息,通過計(jì)算文本文檔和本體之間的 語義相似值來進(jìn)行實(shí)時(shí)的分類,省去了訓(xùn)練學(xué)習(xí)的過程,并提高了分類的準(zhǔn)確率。此外,本 發(fā)明使用消歧技術(shù)將表示本體中的詞變?yōu)樵~義,解決了詞的多義性引起的相似值的計(jì)算結(jié) 果不準(zhǔn)確的問題,提高語義相似值計(jì)算的精度,進(jìn)一步提高了分類的精度;在本體消歧的基 礎(chǔ)之上,本發(fā)明通過使用WordNet來對本體進(jìn)行自動地?cái)U(kuò)展,豐富了本體的概念內(nèi)容,從而 提高了后續(xù)相似值計(jì)算的準(zhǔn)確率,并且解決手工創(chuàng)建本體費(fèi)事的問題。
圖1 本發(fā)明方法的基本流程圖
具體實(shí)施例方式現(xiàn)結(jié)合附圖對本發(fā)明作進(jìn)一步描述
根據(jù)本發(fā)明提出的使用本體進(jìn)行文本文檔分類的方法,我們使用Java和Perl語 言進(jìn)行了實(shí)現(xiàn),具體的實(shí)現(xiàn)過程如下使用本體進(jìn)行文本文檔分類方法分為以下四個(gè)步驟步驟一文本文檔關(guān)鍵詞集合的構(gòu)建。這里,采用KEA算法抽取待分類文本文檔 集合中每一篇文本文檔的帶權(quán)重的關(guān)鍵詞集合,具體為對于待分類的文本文檔集合D = IdljCl2,…,d|D|}(|D|表示文本文檔集合D中的文本文檔篇數(shù))中的每一篇文本文檔Cli,首 先,采用樸素貝葉斯估計(jì),通過考慮詞(現(xiàn)有的單詞)在文本文檔中出現(xiàn)的頻率tfXidf、詞 在文本文檔中出現(xiàn)的平均位置Occurrence和詞中字母的個(gè)數(shù)Length三個(gè)特征屬性,對(Ii 中的每一個(gè)詞,采用以下公式計(jì)算其為主題詞的概率Pr Pr = Pr [Τ | yes] X Pr
X Pr [L | yes] X Pr [yes] (1)其中,Pr [Τ I yes]、Pr
和Pr[L|yes]分別表示在三個(gè)特征屬性tf X idf、 Occurrence和Length取當(dāng)前值的條件下該詞為主題詞的概率;Pr [yes]表示文本文檔集合 中包含主題詞的文本文檔的數(shù)目與不包含主題詞的文本文檔的數(shù)目之比。然后,選擇具有最大Pr值的前η個(gè)詞(通常η取4 6)作為文本文檔(Ii的關(guān)鍵 詞,得到文本文檔Cli的帶權(quán)重的關(guān)鍵詞集合,并將文本文檔Cli用該帶權(quán)重的關(guān)鍵詞集合表 示,S卩Cli= IURLi, U^tw1),…,(^.,tw.j),…},其中,、為按上述方法抽取得到的關(guān)鍵 詞,tWiJ為關(guān)鍵詞的權(quán)重,即為按式⑴計(jì)算得到的其Pr值。步驟二 本體預(yù)處理。首先,以給定目錄集合中的每個(gè)分類目錄名為檢索詞在 Swoogle本體搜索引擎中進(jìn)行檢索,并用得到的檢索結(jié)果中排序第一的本體來表示該分類 目錄,這樣,目錄集合CA = Ica1, ca2,…,ca|cA|}就使用本體集合O = Io1, O2,…,0|()|}來 表示,其中,|o|表示本體集合ο中的本體個(gè)數(shù),|CA|表示目錄集合CA中的分類目錄個(gè)數(shù), 滿足Iol = I CA I。其中,一個(gè)分類目錄對應(yīng)一個(gè)本體,即一個(gè)本體Om表示一個(gè)分類目錄cam 的特征信息,即Cam:= om。接下來,對每一個(gè)本體om進(jìn)行步驟2. 1的本體消歧和步驟2. 2的本體擴(kuò)展處理。 其中,本發(fā)明采用定義在詞法數(shù)據(jù)庫WordNet中的詞義作為本體的詞法表示,并設(shè)定同一 條知識內(nèi)任意兩個(gè)概念詞之間的路徑距離為1。步驟2. 1 本體消歧。由于一個(gè)詞可能對應(yīng)多個(gè)詞義,這個(gè)現(xiàn)象會降低語義相似值 計(jì)算的精度。為了消除本體中詞表示的歧義性,對本體進(jìn)行消歧處理,即利用本體中詞的上 下文,確定其正確的詞義。具體為首先,本體中的概念詞s的L距離范圍內(nèi)的詞被選為概念詞s的上下文,得到概念 詞s的上下文集合Con= Icon1, -,Conj,…},其中,con」表示概念詞s的第j個(gè)上下文; L的取值范圍為[3,5];然后,使用公式⑵計(jì)算概念詞s在WordNet中的每個(gè)詞義Si (i = 1,…,Ni, Ni 為概念詞s在WordNet中的詞義個(gè)數(shù))和其上下文集合Con中所有上下文之間的平均語義 相關(guān)度Rel (Si)
\Con\
^ relateness(si, Conj) _] Re/㈨- ⑵ 其中,IConI為概念詞s的上下文個(gè)數(shù),即上下文集合Con中詞的個(gè)數(shù);relateness(si, Conj)為第i個(gè)詞義Si和其第j個(gè)上下文的語義相關(guān)度,其計(jì)算公式
如下
權(quán)利要求
一種使用本體進(jìn)行文本文檔自動分類的方法,其特征在于步驟如下(1)用KEA算法抽取待分類文本文檔集合中每篇文本文檔的關(guān)鍵詞集合,得到該文本文檔的帶權(quán)重的關(guān)鍵詞集合;在Swoogle本體搜索引擎中以給定的目錄集合中的每個(gè)分類目錄名為檢索詞進(jìn)行檢索,得到的檢索結(jié)果中排序第一的本體作為表示該分類目錄的本體,對表示每個(gè)分類目錄的本體進(jìn)行本體消岐和本體擴(kuò)展,得到表示該分類目錄的新的本體;所述的本體消岐過程為首先,選擇本體中距離每個(gè)概念詞L范圍內(nèi)的詞作為該概念詞的上下文;所述的L的取值范圍為[3,5];然后,按語義相關(guān)度計(jì)算公式計(jì)算每個(gè)概念詞的第i個(gè)可能詞義si與該概念詞的第j個(gè)上下文conj的語義相關(guān)度relateness(si,conj),并按計(jì)算每個(gè)概念詞的第i個(gè)可能詞義si的平均語義相關(guān)度Rel(si);其中,i=1,2,…,I,I表示概念詞的可能詞義的個(gè)數(shù),j=1,2,…,J,J表示概念詞的上下文的個(gè)數(shù);wordNumInGlossOfsi表示si的WordNet釋義包含的單詞個(gè)數(shù),wordNumInGlossOfconj表示conj的WordNet釋義包含的單詞個(gè)數(shù),NumOfOverlaps_siconj表示si的WordNet釋義和conj的WordNet釋義所包含的單詞中相同單詞的個(gè)數(shù);所述的可能詞義為定義在詞法數(shù)據(jù)庫WordNet中的詞義;最后,選擇具有最大平均語義相關(guān)度Rel值的可能詞義作為概念詞的概念詞義;所述的本體擴(kuò)展過程為利用語義相關(guān)度計(jì)算公式計(jì)算經(jīng)過本體消岐處理后的本體的每個(gè)概念詞義在WordNet中的上位關(guān)系詞義集合和下位關(guān)系詞義集合中的每個(gè)詞義與該概念詞義之間的語義相關(guān)度,并進(jìn)行判斷對于上位關(guān)系詞義集合中的每個(gè)詞義,如果它與該概念詞義之間的語義相關(guān)度大于給定閾值一,則將該詞義加入到該概念詞義的父類集合;對于下位關(guān)系詞義集合中的每個(gè)詞義,如果它與該概念詞義之間的語義相關(guān)度大于給定閾值二,則將該詞義加入到該概念詞義的子類集合;將每個(gè)概念詞義在WordNet中的同義關(guān)系詞義集合中的所有詞義均加入到該概念詞義的同類集合;其中,表示經(jīng)過本體消岐處理后的本體的第p個(gè)概念詞義,p=1,2,…,P,P表示經(jīng)過本體消岐處理后的本體的概念詞義的個(gè)數(shù);s′pq表示的上位關(guān)系詞義集合/下位關(guān)系詞義集合中的第q個(gè)詞義,q=1,2,…,Q,Q表示上位關(guān)系詞義集合/下位關(guān)系詞義集合中的詞義的個(gè)數(shù);表示的WordNet釋義包含的單詞個(gè)數(shù),表示s′pq的WordNet釋義包含的單詞個(gè)數(shù),表示的WordNet釋義和s′pq的WordNet釋義所包含的單詞中相同單詞的個(gè)數(shù);所述的給定的閾值一和閾值二的取值范圍均為
;(2)計(jì)算表示每個(gè)分類目錄的新的本體的權(quán)重詞義集合,具體為首先,將本體轉(zhuǎn)化成由頂點(diǎn)集合和有向邊集合組成的有向圖有向圖的每一個(gè)頂點(diǎn)為本體中的一個(gè)概念詞義,有向圖的每一條有向邊為兩個(gè)概念詞義間的包含關(guān)系,有向邊的方向由子概念詞義指向父概念詞義;然后,按計(jì)算得到每個(gè)概念詞義的權(quán)重;其中,weight表示概念詞義的權(quán)重,layer表示該概念詞義對應(yīng)的頂點(diǎn)的層數(shù);所述的頂點(diǎn)的層數(shù)為頂點(diǎn)對應(yīng)的概念詞義距離本體根部的最短路徑距離;(3)按Sim(d,o)=1 EMD(d,o)計(jì)算文本文檔和分類目錄之間的相似值Sim(d,o),如果文本文檔和分類目錄間的相似值Sim(d,o)大于給定閾值δ,則將文本文檔分類到該分類目錄,否則不將文本文檔分類到該分類目錄;其中,d為文本文檔的帶權(quán)重的關(guān)鍵詞集合,o為本體的權(quán)重詞義集合;EMD(d,o)為利用Earth Mover’s Distance方法計(jì)算得到的文本文檔和本體之間的語義相似值;所述的給定閾值δ的取值范圍為
;(4)對分類后的分類目錄下的所有文本文檔按照相似值Sim(d,o)由大到小進(jìn)行排序。FSA00000175171000011.tif,FSA00000175171000012.tif,FSA00000175171000021.tif,FSA00000175171000022.tif,FSA00000175171000023.tif,FSA00000175171000024.tif,FSA00000175171000025.tif,FSA00000175171000026.tif,FSA00000175171000027.tif,FSA00000175171000028.tif,FSA00000175171000031.tif
全文摘要
本發(fā)明涉及一種使用本體進(jìn)行文本文檔自動分類的方法,該方法包括首先,使用帶權(quán)重的關(guān)鍵詞集合表示文本文檔的特征信息;然后,使用經(jīng)過本體消歧和本體擴(kuò)展處理后的本體來表示分類目錄的特征信息,并通過分析本體結(jié)構(gòu)特征將本體被轉(zhuǎn)化為帶權(quán)重的詞義集合;最后,使用Earth Mover’s Distance方法計(jì)算文本文檔的關(guān)鍵詞集合和本體權(quán)重詞義集合之間的語義相似值,并進(jìn)一步計(jì)算文本文檔和分類目錄之間的相似值,根據(jù)文本文檔和分類目錄之間的相似值來進(jìn)行文本文檔的分類和排序。使用本發(fā)明方法能夠進(jìn)行文本文檔的自動分類,并提高文本文檔分類的準(zhǔn)確率。
文檔編號G06F17/30GK101944099SQ20101021010
公開日2011年1月12日 申請日期2010年6月24日 優(yōu)先權(quán)日2010年6月24日
發(fā)明者方俊, 郭雷 申請人:西北工業(yè)大學(xué)