專利名稱:基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法
技術領域:
本發(fā)明屬于文本相似度度量方法技術領域,特別是涉及一種基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法。
背景技術:
隨著網(wǎng)絡信息的迅速發(fā)展,如何在海量的文本信息資源中快捷且準確地獲取有用的信息已成為數(shù)據(jù)挖掘和信息檢索技術領域亟待解決的問題。文本相似度的度量可用于數(shù)據(jù)挖掘和信息檢索技術領域,如文本相似度計算是文本聚類、信息檢索、自動問答中的關鍵步驟。目前,較為典型的文本相似度方法主要有基于語義理解和基于數(shù)理統(tǒng)計兩種,但這兩種方法都存在的問題是:沒有考慮詞匯對文本相似度度量所具有作用與地位。因此,度量的準確性不高。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,其用于數(shù)據(jù)挖掘和信息檢索過程中,將文本轉化為語義關系網(wǎng)絡以提取文本特征,并最終轉化為二分圖以實現(xiàn)文本相似度的計算,極大地提高了計算結果的準確程度。為了實現(xiàn)上述目的,本發(fā)明公開了基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,其按如下步驟進行:一、輸入兩個文本并對這兩個文本進行預處理,預處理的結果為詞匯的集合;二、計算所述兩個文本預處理結果的詞匯語義相似度,并根據(jù)計算結果分別構建語義關系網(wǎng)絡;三、分別計算語義關系網(wǎng)絡中每個節(jié)點的流介數(shù)值,獲得兩個文本的特征集合;四、根據(jù)兩個文本的特征集合構建二分圖,并設置二分圖兩部分(即二分圖的兩個點集)之間的路徑權值;五、利用二分圖最優(yōu)匹配法計算兩個文本之間的相似度。優(yōu)選的,步驟一,預處理包括中文分詞和去除停用詞。優(yōu)選的,步驟二,構建語義關系網(wǎng)絡的節(jié)點由步驟一的結果組成,構建語義關系網(wǎng)絡的邊的權值由詞匯之間的語義相似度計算得到,表示為w(i,j),i和j為步驟一預處理結果中的不同詞匯,W(i,j)的計算式如下:w(i, j)=l-sim(i, j)1:預處理結果中的一個詞匯;j:預處理結果中的另一個詞匯;sim(i, j):兩個詞匯的語義相似度。優(yōu)選的,步驟二,兩個詞匯之間的語義相似度可以根據(jù)具體的語義詞典或語義庫來計算,但結果要進行歸一化處理。優(yōu)選的,步驟三,計算每個節(jié)點的流介數(shù)值,按照流介數(shù)值排序,取前m大的流介數(shù)值所對應的詞匯作為該文本特征;節(jié)點U的流介數(shù)值是指網(wǎng)絡中所有路徑中經(jīng)過該節(jié)點的路徑的數(shù)目占所有路徑總數(shù)的比例,用Bfu表示,計算式為:
權利要求
1.關于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,其特征是按如下步驟進行: 一、輸入兩個文本并對這兩個文本進行預處理,預處理的結果為詞匯的集合; 二、計算所述兩個文本預處理結果的詞匯語義相似度,并根據(jù)計算結果分別構建語義關系網(wǎng)絡; 三、分別計算語義關系網(wǎng)絡中每個節(jié)點的流介數(shù)值,獲得兩個文本的特征集合; 四、根據(jù)兩個文本的特征集合構建二分圖,并設置二分圖兩部分之間的路徑權值; 五、利用二分圖最優(yōu)匹配法得到兩個文本之間的相似度。
2.根據(jù)權利要求1所述基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,其特征在于,步驟一,預處理包括中文分詞和去除停用詞。
3.根據(jù)權利要求1所述基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,其特征在于,步驟二,構建語義關系網(wǎng)絡的節(jié)點由步驟一預處理的結果組成,構建語義關系網(wǎng)絡的邊的權值由步驟二的詞匯語義相似度計算得到,表示為w(i,j),i和j為步驟一預處理結果中的不同詞匯,w(i,j)的計算式如下:w(i, j)=l-sim(i, j)1:預處理結果中的一個詞匯;j:預處理結果中的另一個詞匯;sim(i, j):兩個詞匯的語義相似度。
4.根據(jù)權利要求書I或3所述基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,其特征在于,步驟二,根據(jù)具體的語義詞典或語義庫計算兩個詞匯之間的語義相似度。
5.根據(jù)權利要求書I所述基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,其特征在于,步驟三,計算每個節(jié)點的流介數(shù)值,按照流介數(shù)值排序,取前m大的流介數(shù)值所對應的詞匯作為該文本特征,其中,m為輸入值;節(jié)點u的流介數(shù)值是指網(wǎng)絡中所有路徑中經(jīng)過該節(jié)點的路徑的數(shù)目占所有路徑總數(shù)的比例,用Bfu表示,計算式為:
6.根據(jù)權利要求書5所述基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,其特征在于,步驟三,在獲得文本特征之后將每個文本特征的流介數(shù)值進行歸一化處理,公式如下:.BJi)
7.根據(jù)權利要求1所述基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,其特征在于,步驟四,構建二分圖的兩部分(x,Y)分別為步驟三的兩個文本的特征集合,兩部分之間的邊的權值為所述的路徑權值W (xi, yj),計算式為:
8.根據(jù)權利要求1所述基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,其特征在于,步驟五,設利用二分圖最優(yōu)匹配求得結果為: M=I(XillYjl), (Xi2lYj2),..., (Xiffl, YjmM 步驟一輸入的兩個文本的相似度計算式為:
全文摘要
本發(fā)明公開了基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法一、輸入兩個文本并對這兩個文本進行預處理,預處理的結果為詞匯的集合;二、計算所述兩個文本預處理結果的詞匯語義相似度,并根據(jù)計算結果分別構建語義關系網(wǎng)絡;三、分別計算語義關系網(wǎng)絡中每個節(jié)點的流介數(shù)值,獲得兩個文本的特征集合;四、根據(jù)兩個文本的特征集合構建二分圖,并設置二分圖兩部分之間的路徑權值;五、利用二分圖最優(yōu)匹配法計算兩個文本之間的相似度。本發(fā)明基于語義分析和語義關系網(wǎng)絡的文本相似度度量方法,可用于數(shù)據(jù)挖掘和信息檢索技術領域,例如文本聚類、信息檢索等,其與現(xiàn)有的其他文本相似度計算方法相比,極大地提高了文本相似度計算的準確程度。
文檔編號G06F17/27GK103092828SQ20131004697
公開日2013年5月8日 申請日期2013年2月6日 優(yōu)先權日2013年2月6日
發(fā)明者吳國華, 尤金朋, 張禎, 王玉娟, 邵根富 申請人:杭州電子科技大學