一種使用本體進(jìn)行文本文檔自動分類的方法

文檔序號：6604722閱讀：176來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種使用本體進(jìn)行文本文檔自動分類的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種使用本體對文本文檔進(jìn)行自動分類的方法，屬于計(jì)算機(jī)信息處理、信息檢索等領(lǐng)域。適用于對海量的網(wǎng)絡(luò)文本文檔進(jìn)行快速準(zhǔn)確的自動分類。
背景技術(shù)：
為了提高文本文檔組織的效率，更好的支持用戶瀏覽和查找信息，文本文檔分類一直以來是人們所關(guān)注的重點(diǎn)問題。最開始，文本文檔分類是人手動完成的，但隨著文本文檔資源的越來越多，手動分類已變得不可能了，所以自動文本文檔分類技術(shù)成為了研究的重點(diǎn)。文本文檔分類一般分為三個(gè)階段首先，文本文檔和分類目錄的特征信息被提取出來；然后，分類器計(jì)算出文本文檔和分類目錄的相似值；最后，文本文檔根據(jù)相似值歸屬到不同的目錄。傳統(tǒng)的機(jī)器學(xué)習(xí)方法已經(jīng)應(yīng)用于文本文檔自動分類，包括神經(jīng)網(wǎng)絡(luò)、貝葉斯、支持向量機(jī)和k鄰居方法。這些方法首先手動的收集一些分類的文本文檔，然后使用這些已分類的文本文檔集來訓(xùn)練分類器，最后使用訓(xùn)練好的分類器將文本文檔劃分到分類目錄中。這些機(jī)器學(xué)習(xí)的分類方法有以下缺點(diǎn)1)傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練分類器需要手工收集大量的已分類文本文檔集，該過程非常繁瑣，并且針對不同的分類目錄，需要手工的收集不同的文本文檔集來訓(xùn)練分類器；2)傳統(tǒng)的機(jī)器學(xué)習(xí)的方法沒有考慮詞之間的語義關(guān)系，所以很難提高分類的準(zhǔn)確率。為了解決機(jī)器學(xué)習(xí)方法的缺點(diǎn)，本發(fā)明提出了一種使用本體來對文本文檔進(jìn)行自動分類的方法。

發(fā)明內(nèi)容
要解決的技術(shù)問題為了能夠解決目前基于機(jī)器學(xué)習(xí)的方法的缺點(diǎn)，本發(fā)明提出使用本體對文本文檔進(jìn)行自動分類，能夠快速準(zhǔn)確的對文本文檔進(jìn)行自動的分類和排序。技術(shù)方案本發(fā)明的思想是使用本體來表示分類目錄的特征信息，利用文本文檔和本體之間的語義相似值來進(jìn)行實(shí)時(shí)的分類，這樣省去了訓(xùn)練學(xué)習(xí)的過程，并且隨著本體不斷的更新和進(jìn)化，基于本體的分類方法的準(zhǔn)確率和召回率將會得到不斷的提高；另一方面，在計(jì)算文本文檔和本體之間的相似值時(shí)，基于本體的方法考慮詞之間的語義關(guān)系，從而提高分類的準(zhǔn)確率。本發(fā)明的特征在于提出本體能有效的表示分類目錄的特征信息，并通過使用消歧和擴(kuò)展處理后的本體來表示分類目錄的特征信息，利用待分類文本文檔和本體之間的語義相似值來進(jìn)行分類。本發(fā)明的基本過程為首先，使用帶權(quán)重的關(guān)鍵詞集合表示文本文檔的特征信息；然后，使用經(jīng)過消歧和擴(kuò)展處理后的本體來表示分類目錄的特征信息，并通過分析本體結(jié) 構(gòu)特征，將本體被轉(zhuǎn)化為帶權(quán)重的詞義集合；最后，使用Earth Mover' s Distance方法計(jì) 算文本文檔的關(guān)鍵詞集合和本體權(quán)重詞義集合之間的語義相似值，其中，單個(gè)詞義和詞之間的相似值采用基于WordNet釋義的方法來度量，并利用該語義相似值來計(jì)算文本文檔和分類目錄之間的相似值，根據(jù)文本文檔和分類目錄之間的相似值來進(jìn)行文本文檔的分類和排序。一種使用本體進(jìn)行文本文檔自動分類的方法，其特征在于步驟如下(1)用KEA算法抽取待分類文本文檔集合中每篇文本文檔的關(guān)鍵詞集合，得到該文本文檔的帶權(quán)重的關(guān)鍵詞集合；在Swoogle本體搜索引擎中以給定的目錄集合中的每個(gè) 分類目錄名為檢索詞進(jìn)行檢索，得到的檢索結(jié)果中排序第一的本體作為表示該分類目錄的本體，對表示每個(gè)分類目錄的本體進(jìn)行本體消岐和本體擴(kuò)展，得到表示該分類目錄的新的本體；所述的本體消岐過程為首先，選擇本體中距離每個(gè)概念詞L范圍內(nèi)的詞作為該概念詞的上下文；所述的L 的取值范圍為[3,5]；然后，按語義相關(guān)度計(jì)算公式
NumOfOverlaps _ SiConjTelatenessisi, con )=-=-----— 計(jì)
(WordNumlnGlossOfsi + WordNumlnGlossOfconj )/2
算每個(gè)概念詞的第i個(gè)可能詞義Si與該概念詞的第j個(gè)上下文Con1的語義相關(guān)度
^ Telatenessisi, Conj)
、Re/⑷=
relatenessh，con」)，并按^“ 7計(jì)算每個(gè)概念詞的第i個(gè)可能
J
詞義Si的平均語義相關(guān)度Rel (Si)；其中，i = 1，2，…，I，I表示概念詞的可能詞義的個(gè)數(shù)，j = 1,2,…，J，J表示概念詞的上下文的個(gè)數(shù)；WordNumlnGlossOfsi表示Si的WordNet釋義包含的單詞個(gè)數(shù)， WordNumlnGlossOfconj 表示 con」的 WordNet 釋義包含的單詞個(gè)數(shù)，NumOfOverlapS-SiConj 表示Si的WordNet釋義和con」的WordNet釋義所包含的單詞中相同單詞的個(gè)數(shù)；所述的可能詞義為定義在詞法數(shù)據(jù)庫WordNet中的詞義；最后，選擇具有最大平均語義相關(guān)度Rel值的可能詞義作為概念詞的概念詞義；所述的本體擴(kuò)展過程為利用語義相關(guān)度計(jì)算公式
NumOfOverlaps _ sps'pq {wordNumlnGlossOfi p + wordNumlnGlossOfs' pq )/2 relateness{sp,s\q) = -^九丁 τ ~—-；r P ~、。計(jì)算經(jīng)過
本體消岐處理后的本體的每個(gè)概念詞義在WordNet中的上位關(guān)系詞義集合和下位關(guān)系詞義集合中的每個(gè)詞義與該概念詞義之間的語義相關(guān)度，并進(jìn)行判斷對于上位關(guān)系詞義集合中的每個(gè)詞義，如果它與該概念詞義之間的語義相關(guān)度大于給定閾值一，則將該詞義加入到該概念詞義的父類集合；對于下位關(guān)系詞義集合中的每個(gè)詞義，如果它與該概念詞義之間的語義相關(guān)度大于給定閾值二，則將該詞義加入到該概念詞義的子類集合；將每個(gè)概念詞義在WordNet中的同義關(guān)系詞義集合中的所有詞義均加入到該概念詞義的同類集合；其中，&表示經(jīng)過本體消岐處理后的本體的第ρ個(gè)概念詞義，ρ = 1,2,…， P，P表示經(jīng)過本體消岐處理后的本體的概念詞義的個(gè)數(shù)；S' M表示&的上位關(guān)系詞義集合/下位關(guān)系詞義集合中的第q個(gè)詞義，Q= 1,2,…，Q，Q表示上位關(guān)系詞義集合/下位關(guān)系詞義集合中的詞義的個(gè)數(shù);w0fdMUmInGlossOfSρ 磯WordNet釋義包含的單詞個(gè)數(shù)，wordNumlnGlossOfs ‘ M表示s' M的WordNet釋義包含的單詞個(gè)數(shù)， NumOfOverlaps_J/pq轟示SWordNet釋義和s' M的WordNet釋義所包含的單詞中相同單詞的個(gè)數(shù)；所述的給定的閾值一和閾值二的取值范圍均為
；(2)計(jì)算表示每個(gè)分類目錄的新的本體的權(quán)重詞義集合，具體為首先，將本體轉(zhuǎn)化成由頂點(diǎn)集合和有向邊集合組成的有向圖有向圖的每一個(gè)頂點(diǎn)為本體中的一個(gè)概念詞義，有向圖的每一條有向邊為兩個(gè)概念詞義間的包含關(guān)系，有向邊的方向由子概念詞義指向父概念詞義；然后，按WdgM = (laylry^計(jì)算得到每個(gè)概念詞義的權(quán)重；其中，weight表示概念詞義的權(quán)重，layer表示該概念詞義對應(yīng)的頂點(diǎn)的層數(shù)；所述的頂點(diǎn)的層數(shù)為頂點(diǎn)對應(yīng)的概念詞義距離本體根部的最短路徑距離；(3)按Sim (d，ο) = I-EMD (d, ο)計(jì)算文本文檔和分類目錄之間的相似值Sim (d， 0)，如果文本文檔和分類目錄間的相似值Sim(d，o)大于給定閾值δ，則將文本文檔分類到該分類目錄，否則不將文本文檔分類到該分類目錄；其中，d為文本文檔的帶權(quán)重的關(guān)鍵詞集合，ο為本體的權(quán)重詞義集合；EMD(d，ο) 為利用Earth Mover' s Distance方法計(jì)算得到的文本文檔和本體之間的語義相似值；所述的給定閾值S的取值范圍為
；(4)對分類后的分類目錄下的所有文本文檔按照相似值Sim(d，ο)由大到小進(jìn)行排序。有益效果本發(fā)明該方法使用本體來表示目錄的特征信息，通過計(jì)算文本文檔和本體之間的語義相似值來進(jìn)行實(shí)時(shí)的分類，省去了訓(xùn)練學(xué)習(xí)的過程，并提高了分類的準(zhǔn)確率。此外，本發(fā)明使用消歧技術(shù)將表示本體中的詞變?yōu)樵~義，解決了詞的多義性引起的相似值的計(jì)算結(jié) 果不準(zhǔn)確的問題，提高語義相似值計(jì)算的精度，進(jìn)一步提高了分類的精度；在本體消歧的基礎(chǔ)之上，本發(fā)明通過使用WordNet來對本體進(jìn)行自動地?cái)U(kuò)展，豐富了本體的概念內(nèi)容，從而提高了后續(xù)相似值計(jì)算的準(zhǔn)確率，并且解決手工創(chuàng)建本體費(fèi)事的問題。

圖1 本發(fā)明方法的基本流程圖
具體實(shí)施例方式現(xiàn)結(jié)合附圖對本發(fā)明作進(jìn)一步描述
根據(jù)本發(fā)明提出的使用本體進(jìn)行文本文檔分類的方法，我們使用Java和Perl語言進(jìn)行了實(shí)現(xiàn)，具體的實(shí)現(xiàn)過程如下使用本體進(jìn)行文本文檔分類方法分為以下四個(gè)步驟步驟一文本文檔關(guān)鍵詞集合的構(gòu)建。這里，采用KEA算法抽取待分類文本文檔集合中每一篇文本文檔的帶權(quán)重的關(guān)鍵詞集合，具體為對于待分類的文本文檔集合D = IdljCl2,…，d|D|}(|D|表示文本文檔集合D中的文本文檔篇數(shù))中的每一篇文本文檔Cli，首先，采用樸素貝葉斯估計(jì)，通過考慮詞(現(xiàn)有的單詞)在文本文檔中出現(xiàn)的頻率tfXidf、詞在文本文檔中出現(xiàn)的平均位置Occurrence和詞中字母的個(gè)數(shù)Length三個(gè)特征屬性，對(Ii 中的每一個(gè)詞，采用以下公式計(jì)算其為主題詞的概率Pr Pr = Pr [Τ | yes] X Pr
X Pr [L | yes] X Pr [yes] (1)其中，Pr [Τ I yes]、Pr
和Pr[L|yes]分別表示在三個(gè)特征屬性tf X idf、 Occurrence和Length取當(dāng)前值的條件下該詞為主題詞的概率；Pr [yes]表示文本文檔集合中包含主題詞的文本文檔的數(shù)目與不包含主題詞的文本文檔的數(shù)目之比。然后，選擇具有最大Pr值的前η個(gè)詞(通常η取4 6)作為文本文檔(Ii的關(guān)鍵詞，得到文本文檔Cli的帶權(quán)重的關(guān)鍵詞集合，并將文本文檔Cli用該帶權(quán)重的關(guān)鍵詞集合表示，S卩Cli= IURLi, U^tw1),…，(^.,tw.j),…}，其中，、為按上述方法抽取得到的關(guān)鍵詞，tWiJ為關(guān)鍵詞的權(quán)重，即為按式⑴計(jì)算得到的其Pr值。步驟二本體預(yù)處理。首先，以給定目錄集合中的每個(gè)分類目錄名為檢索詞在 Swoogle本體搜索引擎中進(jìn)行檢索，并用得到的檢索結(jié)果中排序第一的本體來表示該分類目錄，這樣，目錄集合CA = Ica1, ca2,…，ca|cA|}就使用本體集合O = Io1, O2,…，0|()|}來表示，其中，|o|表示本體集合ο中的本體個(gè)數(shù)，|CA|表示目錄集合CA中的分類目錄個(gè)數(shù)，滿足Iol = I CA I。其中，一個(gè)分類目錄對應(yīng)一個(gè)本體，即一個(gè)本體Om表示一個(gè)分類目錄cam 的特征信息，即Cam:= om。接下來，對每一個(gè)本體om進(jìn)行步驟2. 1的本體消歧和步驟2. 2的本體擴(kuò)展處理。其中，本發(fā)明采用定義在詞法數(shù)據(jù)庫WordNet中的詞義作為本體的詞法表示，并設(shè)定同一條知識內(nèi)任意兩個(gè)概念詞之間的路徑距離為1。步驟2. 1 本體消歧。由于一個(gè)詞可能對應(yīng)多個(gè)詞義，這個(gè)現(xiàn)象會降低語義相似值計(jì)算的精度。為了消除本體中詞表示的歧義性，對本體進(jìn)行消歧處理，即利用本體中詞的上下文，確定其正確的詞義。具體為首先，本體中的概念詞s的L距離范圍內(nèi)的詞被選為概念詞s的上下文，得到概念詞s的上下文集合Con= Icon1, -,Conj,…}，其中，con」表示概念詞s的第j個(gè)上下文； L的取值范圍為[3,5]；然后，使用公式⑵計(jì)算概念詞s在WordNet中的每個(gè)詞義Si (i = 1，…，Ni, Ni 為概念詞s在WordNet中的詞義個(gè)數(shù))和其上下文集合Con中所有上下文之間的平均語義相關(guān)度Rel (Si)
\Con\
^ relateness(si, Conj) _] Re/㈨- ⑵ 其中，IConI為概念詞s的上下文個(gè)數(shù)，即上下文集合Con中詞的個(gè)數(shù)；relateness(si, Conj)為第i個(gè)詞義Si和其第j個(gè)上下文的語義相關(guān)度，其計(jì)算公式
如下
權(quán)利要求
一種使用本體進(jìn)行文本文檔自動分類的方法，其特征在于步驟如下(1)用KEA算法抽取待分類文本文檔集合中每篇文本文檔的關(guān)鍵詞集合，得到該文本文檔的帶權(quán)重的關(guān)鍵詞集合；在Swoogle本體搜索引擎中以給定的目錄集合中的每個(gè)分類目錄名為檢索詞進(jìn)行檢索，得到的檢索結(jié)果中排序第一的本體作為表示該分類目錄的本體，對表示每個(gè)分類目錄的本體進(jìn)行本體消岐和本體擴(kuò)展，得到表示該分類目錄的新的本體；所述的本體消岐過程為首先，選擇本體中距離每個(gè)概念詞L范圍內(nèi)的詞作為該概念詞的上下文；所述的L的取值范圍為[3，5]；然后，按語義相關(guān)度計(jì)算公式計(jì)算每個(gè)概念詞的第i個(gè)可能詞義si與該概念詞的第j個(gè)上下文conj的語義相關(guān)度relateness(si，conj)，并按計(jì)算每個(gè)概念詞的第i個(gè)可能詞義si的平均語義相關(guān)度Rel(si)；其中，i＝1，2，…，I，I表示概念詞的可能詞義的個(gè)數(shù)，j＝1，2，…，J，J表示概念詞的上下文的個(gè)數(shù)；wordNumInGlossOfsi表示si的WordNet釋義包含的單詞個(gè)數(shù)，wordNumInGlossOfconj表示conj的WordNet釋義包含的單詞個(gè)數(shù)，NumOfOverlaps_siconj表示si的WordNet釋義和conj的WordNet釋義所包含的單詞中相同單詞的個(gè)數(shù)；所述的可能詞義為定義在詞法數(shù)據(jù)庫WordNet中的詞義；最后，選擇具有最大平均語義相關(guān)度Rel值的可能詞義作為概念詞的概念詞義；所述的本體擴(kuò)展過程為利用語義相關(guān)度計(jì)算公式計(jì)算經(jīng)過本體消岐處理后的本體的每個(gè)概念詞義在WordNet中的上位關(guān)系詞義集合和下位關(guān)系詞義集合中的每個(gè)詞義與該概念詞義之間的語義相關(guān)度，并進(jìn)行判斷對于上位關(guān)系詞義集合中的每個(gè)詞義，如果它與該概念詞義之間的語義相關(guān)度大于給定閾值一，則將該詞義加入到該概念詞義的父類集合；對于下位關(guān)系詞義集合中的每個(gè)詞義，如果它與該概念詞義之間的語義相關(guān)度大于給定閾值二，則將該詞義加入到該概念詞義的子類集合；將每個(gè)概念詞義在WordNet中的同義關(guān)系詞義集合中的所有詞義均加入到該概念詞義的同類集合；其中，表示經(jīng)過本體消岐處理后的本體的第p個(gè)概念詞義，p＝1，2，…，P，P表示經(jīng)過本體消岐處理后的本體的概念詞義的個(gè)數(shù)；s′pq表示的上位關(guān)系詞義集合/下位關(guān)系詞義集合中的第q個(gè)詞義，q＝1，2，…，Q，Q表示上位關(guān)系詞義集合/下位關(guān)系詞義集合中的詞義的個(gè)數(shù)；表示的WordNet釋義包含的單詞個(gè)數(shù)，表示s′pq的WordNet釋義包含的單詞個(gè)數(shù)，表示的WordNet釋義和s′pq的WordNet釋義所包含的單詞中相同單詞的個(gè)數(shù)；所述的給定的閾值一和閾值二的取值范圍均為
；(2)計(jì)算表示每個(gè)分類目錄的新的本體的權(quán)重詞義集合，具體為首先，將本體轉(zhuǎn)化成由頂點(diǎn)集合和有向邊集合組成的有向圖有向圖的每一個(gè)頂點(diǎn)為本體中的一個(gè)概念詞義，有向圖的每一條有向邊為兩個(gè)概念詞義間的包含關(guān)系，有向邊的方向由子概念詞義指向父概念詞義；然后，按計(jì)算得到每個(gè)概念詞義的權(quán)重；其中，weight表示概念詞義的權(quán)重，layer表示該概念詞義對應(yīng)的頂點(diǎn)的層數(shù)；所述的頂點(diǎn)的層數(shù)為頂點(diǎn)對應(yīng)的概念詞義距離本體根部的最短路徑距離；(3)按Sim(d，o)＝1 EMD(d，o)計(jì)算文本文檔和分類目錄之間的相似值Sim(d，o)，如果文本文檔和分類目錄間的相似值Sim(d，o)大于給定閾值δ，則將文本文檔分類到該分類目錄，否則不將文本文檔分類到該分類目錄；其中，d為文本文檔的帶權(quán)重的關(guān)鍵詞集合，o為本體的權(quán)重詞義集合；EMD(d，o)為利用Earth Mover’s Distance方法計(jì)算得到的文本文檔和本體之間的語義相似值；所述的給定閾值δ的取值范圍為
；(4)對分類后的分類目錄下的所有文本文檔按照相似值Sim(d，o)由大到小進(jìn)行排序。FSA00000175171000011.tif,FSA00000175171000012.tif,FSA00000175171000021.tif,FSA00000175171000022.tif,FSA00000175171000023.tif,FSA00000175171000024.tif,FSA00000175171000025.tif,FSA00000175171000026.tif,FSA00000175171000027.tif,FSA00000175171000028.tif,FSA00000175171000031.tif
全文摘要
本發(fā)明涉及一種使用本體進(jìn)行文本文檔自動分類的方法，該方法包括首先，使用帶權(quán)重的關(guān)鍵詞集合表示文本文檔的特征信息；然后，使用經(jīng)過本體消歧和本體擴(kuò)展處理后的本體來表示分類目錄的特征信息，并通過分析本體結(jié)構(gòu)特征將本體被轉(zhuǎn)化為帶權(quán)重的詞義集合；最后，使用Earth Mover’s Distance方法計(jì)算文本文檔的關(guān)鍵詞集合和本體權(quán)重詞義集合之間的語義相似值，并進(jìn)一步計(jì)算文本文檔和分類目錄之間的相似值，根據(jù)文本文檔和分類目錄之間的相似值來進(jìn)行文本文檔的分類和排序。使用本發(fā)明方法能夠進(jìn)行文本文檔的自動分類，并提高文本文檔分類的準(zhǔn)確率。
文檔編號G06F17/30GK101944099SQ20101021010
公開日2011年1月12日申請日期2010年6月24日優(yōu)先權(quán)日2010年6月24日
發(fā)明者方俊, 郭雷申請人:西北工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭雷;方俊
技術(shù)所有人：西北工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種sar圖像自適應(yīng)去噪和特征增強(qiáng)方法
上一篇：一種文本文檔主題詞義的自動提取方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本文檔相關(guān)技術(shù)

文本文檔亂碼相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種使用本體進(jìn)行文本文檔自動分類的方法