一種在網(wǎng)絡上提取近義詞的方法及系統(tǒng)的制作方法

文檔序號：6615767閱讀：303來源：國知局

專利名稱：一種在網(wǎng)絡上提取近義詞的方法及系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及近義詞提取領域，特別是涉及一種在網(wǎng)絡上提取近義詞的方法及系統(tǒng)。
技術背景在互聯(lián)網(wǎng)上利用網(wǎng)絡資源提取近義詞，可以為網(wǎng)頁搜索相關性、自然語言處理、文本挖掘等提供支持。但在網(wǎng)絡上，難以找到恰當?shù)姆绞饺ソ缍ńx詞，因此，目前現(xiàn)有技術仍釆用對比查找方式。參閱圖l，為現(xiàn)有在網(wǎng)絡上提取近義詞的方法，具體步驟如下所述。步驟S1Q1、預置近義詞詞庫。人工通過相關詞典和經(jīng)-驗整理近義詞，將整理好的近義詞組成近義詞庫。近義詞庫包括通常意義上詞義相近的詞語，如 "吃飯"、"就餐，，，"猶豫"、"躊躇，，等，還包括廣義上的近義詞，即表示同一事物的詞語，如"北京"、"北京大學，，等。步驟S102、提取網(wǎng)頁文本，對網(wǎng)頁文本進行分詞處理。在網(wǎng)絡上抓取所需網(wǎng)頁，再在網(wǎng)頁上提取正文文本，對正文文本進行分詞處理，將各詞語使用空格隔開，過濾掉虛詞、語氣詞、介詞等不具有實質(zhì)意義的詞語。步驟S103、將網(wǎng)頁文本與近義詞詞庫對比，才是取與近義詞詞庫相同的詞語。步驟S104、根據(jù)提取的近義詞對網(wǎng)頁進行分析。上述方法只是根據(jù)已有的近義詞庫在網(wǎng)絡上提取相同的近義詞，進行分析。但近義詞庫是根據(jù)人工整理的，一般數(shù)據(jù)量較小，覆蓋范圍也較小，基于該數(shù)據(jù)庫提取近義詞，提取的廣度受到很大的局限。網(wǎng)絡上的近義詞很多由網(wǎng)絡語言習慣形成的，預先設置近義詞庫很難嚢括這些網(wǎng)絡特有的近義詞，基于預置的近義詞庫無法查找到這些近義詞，提取近義詞的適用性較低。發(fā)明內(nèi)容本發(fā)明所要解決的技術問題是提供一種在網(wǎng)絡上提取近義詞的方法及系統(tǒng)，以解決現(xiàn)有技術中近義詞提取的廣度和適用性較低的問題。本發(fā)明提取的近義詞具有較高的廣度和精度。本發(fā)明公開一種在網(wǎng)絡上提取近義詞的方法，包括獲取網(wǎng)頁上各反向鏈接的錨文本；將所述錨文本兩兩對比，分別去除重疊的詞語；將剩余的詞語維成近義詞集合，基于所述近義詞集合提取近義詞。優(yōu)選的，獲取網(wǎng)頁各反向鏈接的錨文本之前，還包括獲取網(wǎng)頁上各反向鏈4妄父網(wǎng)頁的Rankj直，及該父網(wǎng)頁所屬主i或的Rank {直；如父網(wǎng)頁的Rank {直，和/或該網(wǎng)頁所在主域的Rank值低于預設數(shù)值，去除該父網(wǎng)頁對應的反向鏈接。優(yōu)選的，獲取網(wǎng)頁各反向鏈接的錨文本之后，還包括；計算錨文本權重，去除權重值低于預置數(shù)值的錨文本。優(yōu)選的，基于所述近義詞集合提取近義詞具體為獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次，所述各反向鏈接父網(wǎng)頁的Rank值，及該父網(wǎng)頁所屬主域的Rank值；根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對的近義概率；選取近義概率超過預設閾值的詞語對作為近義詞。優(yōu)選的，基于所述近義詞集合提取近義詞具體為獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次，所述各反向鏈接父網(wǎng)頁的Rank值，及該父網(wǎng)頁所在主域的Rank值；根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率，重復上述步驟，獲取各詞語對在各個網(wǎng)頁的近義概率；針對每個詞語對，將其獲得的乘積相加，作為該詞語對的總近義概率；提取總近義概率超過設定閾值的詞i吾對作為近義詞。優(yōu)選的，根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率具體為針對每個詞語對，將詞語對中一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng) 頁的Rank值，乘積取對數(shù)后再乘以設定系數(shù)；將詞語對中另一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng)頁所屬主域的Rank值，乘積取對數(shù)；獲得的數(shù)據(jù) 相加，為該詞語的近義概率。優(yōu)選的，根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率具體為針對每個詞語對，將詞語對中一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng) 頁的Rank值，另一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng)頁所屬主域的 Rank值；獲得的數(shù)據(jù)相加，為該詞語的近義概率。本發(fā)明還公開一種在網(wǎng)絡上提取近義詞的系統(tǒng)，包括錨文本獲取模塊、對比模塊、去除模塊、及組成模塊所述錨.文本獲取模塊，用于獲取網(wǎng)頁上各反向鏈接的錨文本；所述對比模塊，用于將所述錨文本兩兩對比；所述去除模塊，用于分別去除重疊的詞語；所述組成模塊，用于將剩余的詞語組成近義詞集合。優(yōu)選的，還包括數(shù)據(jù)獲取模塊、近義概率計算模塊、近義詞模塊所述數(shù) 據(jù)獲取模塊，用于獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次，所述各反向鏈接父網(wǎng)頁的Rank值，及該父網(wǎng)頁所屬主域的Rank值；所述近義概率計算模塊，用于根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對的近義概率；所述近義詞模塊，用于選取近義概率超過預設閾值的詞語對作為近義詞。優(yōu)選的，還包括總近義概率模塊，接收所述近義概率計算模塊發(fā)送的各個詞語對的近義概率，用于針對每個詞語對，將其在不同網(wǎng)頁的近義概率分別乘以該近義概率對應反向鏈接子頁面的Rank值，獲得的乘積相加，作為該詞語對的總近義概率，并發(fā)送至近義詞模塊；所述近義詞模塊提取總近義概率超過設定閾值的詞語對作為近義詞。與現(xiàn)有技術相比，本發(fā)明具有以下優(yōu)點本發(fā)明對網(wǎng)絡上的近義詞進行界定，利用錨文本在網(wǎng)絡上提取潛在近義詞，組成近義詞集合，基于近義詞集合提取近義詞。纟是取的近義詞數(shù)據(jù)量大，覆蓋范圍廣，并且能夠體現(xiàn)網(wǎng)絡應用的特性，提取的近義詞的廣度和精度較高。本發(fā)明通過詞語的出現(xiàn)頻次，反向鏈接父網(wǎng)頁的Rank值，該父網(wǎng)頁所屬域名的Rand值，計算詞語對的近義扭X率，該近義扭克率集中體現(xiàn)該詞語對的應用頻率，所在鏈接的可信度，可較好的判斷該詞語對內(nèi)在含義相同度，根據(jù)近義概率選取的近義詞具有很高的精度和實用性。

圖1為現(xiàn)有在網(wǎng)絡上提取近義詞的方法流程圖；圖2為本發(fā)明在網(wǎng)絡上提取近義詞的方法第一實施例流程圖；圖3為本發(fā)明在網(wǎng)絡上提取近義詞的方法第二實施例流程圖；圖4為本發(fā)明在網(wǎng)絡上提取近義詞的方法第三實施例流程圖；圖5為本發(fā)明在網(wǎng)絡上提取近義詞的方法第四實施例流程圖；圖6為本發(fā)明在網(wǎng)絡上才是取近義詞系統(tǒng)的第一實施例示意圖；圖7為本發(fā)明在網(wǎng)絡上提取近義詞系統(tǒng)的第二實施例示意圖；閨8為本發(fā)明在網(wǎng)絡上提取近義詞系統(tǒng)的第三實施例示意圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。一個網(wǎng)頁包含指向另一個網(wǎng)頁的超鏈接(URL )，認為這兩個網(wǎng)頁之間存在鏈接關系。超鏈接上的文字為錨文本。如果網(wǎng)頁A使用錨文本S鏈接網(wǎng)頁B，網(wǎng)頁A可稱為父網(wǎng)頁，網(wǎng)頁B可稱為子網(wǎng)頁，該鏈接對于網(wǎng)頁A為正向鏈接，對于網(wǎng)頁B為反向鏈接。每個網(wǎng)頁都可能存在多個正向鏈接和反向鏈接。本發(fā) 明根據(jù)詞語在網(wǎng)頁反向鏈接錨文本中出現(xiàn)的頻次，反向鏈接父網(wǎng)頁的可信度，及該父網(wǎng)頁所屬主域的可信度，計算詞語對的近義概率。依據(jù)近義概率判斷該詞語對是否為近義詞?；ヂ?lián)網(wǎng)上的海量數(shù)據(jù)可以從概率上保證該方法的可行性和結果的準確性。本發(fā)明利用錨文本提取近義詞，指向同一網(wǎng)頁的錨文本有其相同的內(nèi)在含義，錨文本中重疊的詞語一般為該網(wǎng)頁的慣常用語或固定用語，錨文本去除該重疊詞語后的詞語，存在近義的可能性非常大。參閱圖2，示出本發(fā)明在網(wǎng)絡上提取近義詞的方法第一實施例，具體步驟如下所述。步驟S201、獲取網(wǎng)頁上各反向鏈接的錨文本。網(wǎng)絡服務器在互聯(lián)網(wǎng)的各網(wǎng)頁內(nèi)提取全部正向鏈接的錨文本，再反轉(zhuǎn)獲得各網(wǎng)頁反向鏈接的錨文本。例如，網(wǎng)頁A使用錨文本S指向網(wǎng)頁B， S是網(wǎng)頁A的正向鏈接錨文本，為網(wǎng)頁A (S)—— >網(wǎng)頁B。反轉(zhuǎn)后，得到網(wǎng)頁B (S) < ——網(wǎng)頁A,對于網(wǎng)頁 B，則是錨文本S為反向鏈接的錨文本。再例如，網(wǎng)頁ID1、網(wǎng)頁ID2、網(wǎng)頁ID3、網(wǎng)頁ID4分別使用錨文本"招商銀行"、"招商銀行首頁"、"招行首頁"、"招行"正向鏈接招商銀行首頁IDO, 對于招商銀行首頁IDO，共有4各反向鏈接，對應錨文本依次為"招商銀行"、 "招商銀行首頁"、"招行首頁"、"招行"。步驟S202、將各錨文本兩兩對比，確定最大公共子串。首先對錨文本進行分詞處理，將分詞后的錨文本兩兩進行對比，將其重疊詞語作為最大公共子串。例如網(wǎng)頁ID1與網(wǎng)頁1D2:"招商銀行"、"招商銀行首頁"的最大公共子串是 "招商銀行"；網(wǎng)頁ID1與網(wǎng)頁ID3:"招商銀行"、"招行首頁",沒有公共子串；網(wǎng)頁ID1與網(wǎng)頁ID4:"招商銀行"、"招行"，沒有公共子串；網(wǎng)頁ID2與網(wǎng)頁ID3:"招商銀行首頁"、"招行首頁"的最大公共子串是 "首頁";網(wǎng)頁ID2與網(wǎng)頁ID4:招商銀行首頁"、"招行"，沒有公共子串；網(wǎng)頁ID3與網(wǎng)頁ID4:"招行首頁"、"招行"的最大公共子串是"招行"。步驟S203、分別去除重疊的詞語。在上述錨文本上分別去除最大公共子串。例如網(wǎng)頁ID1與網(wǎng)頁ID2 網(wǎng)頁ID1與網(wǎng)頁ID3 網(wǎng)頁ID1與網(wǎng)頁ID4 網(wǎng)頁ID2與網(wǎng)頁ID3 網(wǎng)頁ID2與網(wǎng)頁ID4 網(wǎng)頁ID3與網(wǎng)頁ID4工串、"首頁"； "招商銀行"、"招行首頁"； "招商銀行"、"招行"； "招商銀行"、"招行"； "招商銀行首頁"、"招行"； "招行"、空串。步驟S204、將剩余的詞語組成近義詞集合，基于近義詞集合提取近義詞。忽略空串，得到去除最大公共子串的詞語，將剩余的詞語組成近義詞集合。例如，"首頁"、"招商銀行"、"招行"、"招行首頁"、"招商銀行首頁"。本發(fā)明可采用人工整理，計算近義詞集合中各詞語對的近義概率等方式，基于近義詞集合提取近義詞。本發(fā)明對網(wǎng)絡上的近義詞進行界定，利用錨文本在網(wǎng)絡上提取潛在近義詞，組成近義詞集合，基于近義詞集合提取近義詞。提取的近義詞數(shù)據(jù)量大，覆蓋范圍廣，并且能夠體現(xiàn)網(wǎng)絡應用的特性，提取的近義詞的廣度和精度較高。本發(fā)明在根據(jù)錨文本提取近義詞之前，可先對反向鏈接和錨文本進行才全驗，去除不具有參考價值的反向鏈接和錨文本，進一步提高提取近義詞的精度。參閱圖3，示出本發(fā)明在網(wǎng)絡上提取近義詞的方法第二實施例，具體步驟如下所述。步驟S301、檢驗網(wǎng)頁上各反向鏈接，去除不具有參考價值的反向鏈接。依據(jù)反向鏈接父網(wǎng)頁的Rank值，及該父網(wǎng)頁所屬主域的Rank值4企驗網(wǎng)頁上各個反向鏈接，去除不具有參考價值的反向鏈接。網(wǎng)頁的Rank值集中反映該網(wǎng) 頁的可信度，也代表該網(wǎng)頁的可參考價值。獲取網(wǎng)頁各個反向鏈接父網(wǎng)頁的Rank值，及該父網(wǎng)頁所屬主域的Rank值，如父網(wǎng)頁，及該父網(wǎng)頁所屬主域的Rank值j氐于預設凄史值，i人為該反向鏈4妄不具有參考價值，去除該反向鏈接；如該父網(wǎng)頁，及該父網(wǎng)頁所屬主域的Rank 值高于預設數(shù)值，認為該反向鏈接具有參考價值，保留該反向鏈接。才艮據(jù)實際應用情況，本發(fā)明也可在父網(wǎng)頁的Rank值，或該父網(wǎng)頁所屬主域的Rank值低于預設數(shù)值時，去除該反向鏈接。預設數(shù)值根據(jù)父網(wǎng)頁所在領域和性質(zhì)不同進行取值，取值范圍為100-10000。步驟S302、獲取網(wǎng)頁各反向鏈接的錨文本。步驟S303、計算錨文本權重，去除權重值低于預置數(shù)值的錨文本。錨文本的權重是指網(wǎng)頁反向鏈接中該錨文本出現(xiàn)的總次數(shù)，如果某個錨文本權重很高，那么該網(wǎng)頁反向《連接可能來自多個不同的網(wǎng)站，該錨文本可參考價值相對較高。對于子頁面的反向鏈接錨文本，設該子網(wǎng)頁的父網(wǎng)頁為Nl個，上述父網(wǎng) 頁屬于N2個主域(有些父頁面可能屬于同一個主域，即N1^N2)。設和該子網(wǎng)頁屬于同主域的父網(wǎng)頁有Ml個，其它Nl-Ml個父網(wǎng)頁分別屬于N2-l個主域。設與子網(wǎng)頁同主域的權重系數(shù)為ul,與子網(wǎng)頁不同主域的權重系數(shù)為u2,該錨文本的權重為該4苗文本—Xf=Ml*ul+ (N卜Ml) *u2。ul的權值范圍是0. 05 - 0. 15，優(yōu)選為0. 1; u2的權值范圍是0. 15 - 0. 25, 優(yōu)選為0. 2。預置數(shù)值根據(jù)網(wǎng)頁領域和性質(zhì)不同進行取值，取值范圍為1 - 10。例如，共有網(wǎng)頁A、 Al、 A2、 A3、 B、 Bl、 B2、 B3、 C、 Cl、 C2、 C3，使用錨文本S正向鏈接網(wǎng)頁K，對于網(wǎng)頁K的反向鏈接錨文本S,父網(wǎng)頁為A、 Al、 A2、 A3、 B、 Bl、 B2、 B3、 C、 Cl、 C2、 C3共12個，其中，A、 Al、 A2、 A3為同一主域，且與K為相同主域，B、 Bl、 B2、 B3為同一主域，C、 Cl、 C2、 C3為同一主域。計算可知，Ml為4, N1-M1為8。如ul-O. 1， u2 = 0. 2,貝'J;錨文本S的權重=4 x 0. 1 + 8 x 0. 2 = 2步驟S304、將各錨文本兩兩對比，確定最大公共子串。步驟S3G5、將剩余的詞語組成近義詞集合，基于所述近義詞集合纟是取近義詞。本發(fā)明根據(jù)反向鏈接父網(wǎng)頁的Rank值，及該父網(wǎng)頁所屬主域的Rank值，判斷該反向鏈接是否具有參考價值。父網(wǎng)頁的Rank值，及父網(wǎng)頁所屬主域的 Rank值集中反映父網(wǎng)頁的可信度，可信度高的網(wǎng)頁出現(xiàn)作弊鏈接和垃圾鏈接的可能性很低，反之，則可能性較大。因此，該方法可有效地去除網(wǎng)頁反向鏈接中的作弊鏈接和垃圾鏈接，保證反向鏈接的可參考性。本發(fā)明還根據(jù)錨文本的權重去除不合法錨文本，使保留的錨文本具有更好的可參考性，基于該錨文本提取的近義詞精度更高。本發(fā)明還可根據(jù)剩余詞語在錨文本中的出現(xiàn)頻次，各個反向鏈接父網(wǎng)頁的 Rank值，及父網(wǎng)頁所在主域的Rank值，分別計算剩余詞語中各詞語對的近義概率，依據(jù)近義概率在近義詞集合中提取近義詞。參閱圖4，示出本發(fā)明在網(wǎng)絡上提取近義詞的方法第三實施例，具體步驟如下所述。步驟S401、檢驗網(wǎng)頁上各反向鏈接，去除不具有參考價值的反向鏈接。步驟S402、獲取網(wǎng)頁各個反向鏈接的錨文本。步驟S403、計算錨文本權重，去除權重值低于預置數(shù)值的錨文本。步驟S404、將各錨文本兩兩對比，確定最大公共子串。步驟S405、提取剩余的詞語，將剩余的詞語組成近義詞集合。步驟S406、獲取上述剩余詞語在錨文本中的出現(xiàn)頻次，各個反向鏈接父網(wǎng)頁的Rank值，及該父網(wǎng)頁所在主域的Rank值。步驟S407、根據(jù)上述數(shù)值分別計算上述剩余詞語各詞語對的近義概率。詞語對就是一對詞語，對于剩余詞語中兩兩組成的詞語對，定義詞語對的近義概率算式為f(vl， v2) = Fun(Freq(vl)， Freq(v2)),其中vl, v2代表 2個不同的詞語，如"招行"、"招商纟艮行"。Freq(v)是詞語v的出現(xiàn)頻次。例如，在圖2所示實施例中，"首頁"的出現(xiàn)頻次為l、"招商4艮行"的出現(xiàn)頻次為3、"招行"的出現(xiàn)頻次為4、"招行首頁"的出現(xiàn)頻次為1、"招商銀行首頁"的出現(xiàn)頻來為1。對于每個詞語對，近義概率的算式可為F(vl， v2) = u*Log(a*dl) + Log (b*d2) + t,其中u、 t是常量因子,a 詞語vl的出現(xiàn)頻次，b為詞語v2的出現(xiàn)頻次，dl是反向鏈接的父網(wǎng)頁的Rank 值，d2為該父網(wǎng)頁所屬域名的Rand值。近義概率的算式還可為F(vl， v2) = u*(a*dl + b*d2) + t,其中u、 t是常量因子，a詞語vl 的出現(xiàn)頻次，b為詞語v2的出現(xiàn)頻次，dl是反向鏈接的父網(wǎng)頁的Rank值，d2 為該父網(wǎng)頁所屬i或名的Rand <直。近義概率的算式還可為F(vl， v2) = x* (Log (a*dl) + Log(a*d2)) + y*(a*dl + b*d2) + z,其中x、 y、 z是常量因子，a詞語vl的出現(xiàn)頻次，b為詞語v2的出現(xiàn)頻次，dl 是反向鏈接的父網(wǎng)頁的Rank值，d2為該父網(wǎng)頁所屬域名的Rand值。當然，近義概率的算式還可根據(jù)上述算式進行其它組合，不一一贅述。步驟S408、選取近義概率超過預設閾值的詞語，作為近義詞。預設閾值的設置可根據(jù)詞語領域的不同加以區(qū)別，具體可通過對大量已知近義詞的近義概率的計算，選取一個合理的預設閾值。本發(fā)明通過詞語的出現(xiàn)頻次，反向鏈接父網(wǎng)頁的Rank值，該父網(wǎng)頁所屬域名的Rand值，計算詞語對的近義積克率，該近義相克率集中體現(xiàn)該詞語對的應用頻率，所在鏈接的可信度，可較好的判斷該詞語對內(nèi)在含義相同度，根據(jù)近義概率選取的近義詞具有很高的精度和實用性。本發(fā)明還可通過計算對詞語對在互聯(lián)網(wǎng)各網(wǎng)頁的總近義概率，綜合判斷該詞語對是否為近義詞，更進一步提高提取近義詞的精度。參閱圖5，示出本發(fā)明在網(wǎng)絡上提取近義詞的方法第四實施例，具體步驟如下所述。步驟S501、檢驗網(wǎng)頁上各反向鏈接，去除不具有參考價值的反向鏈接。步驟S502、獲取網(wǎng)頁各反向鏈接的錨文本。步驟S503、計算錨文本權重，去除權重值低于預置數(shù)值的錨文本。步驟S504、將各錨文本兩兩對比，確定最大公共子串。步驟S505、提取剩余的詞語，將剩余的詞語組成近義詞集合。步驟S506、獲取上述剩余詞語在錨文本中的出現(xiàn)頻次，各個反向鏈接父網(wǎng)頁的Rank <直，及該父網(wǎng)頁所在主域的Rank {直。步驟S507、根據(jù)上述數(shù)值分別計算上述剩余詞語各詞語對的近義概率。詞語對就是一對詞語，對于剩余詞語中兩兩組成的詞語對，定義詞語對的近義概率算式為f(vl， v2) = Fun(Freq(vl)， Freq(v2)),其中vl, v2代表 2個不同的詞語，如"招行"、"招商銀行"。Freq(v)是詞語v的出現(xiàn)頻次。例如，在圖2所示實施例中，"首頁"的出現(xiàn)頻次為l、"招商4艮行"的出現(xiàn)頻次為3、"招行"的出現(xiàn)頻次為4、"招行首頁"的出現(xiàn)頻次為1、"招商4艮行首頁" 的出現(xiàn)頻次為1。對于每個詞語對，近義概率的算式可為F(vl， v2) = u*Log(a*dl) + Log(b*d2) + t，其中u、 t是常量因子，a 詞語vl的出現(xiàn)頻次，b為詞語v2的出現(xiàn)頻次，dl是反向鏈接的父網(wǎng)頁的Rank 值，d2為該父網(wǎng)頁所屬域名的Rand值。近義概率的算式還可為F(vl， v2) = u*(a*dl + b*d2) + t,其中u、 t是常量因子，a詞語vl 的出現(xiàn)頻次，b為詞語v2的出現(xiàn)頻次，dl是反向鏈接的父網(wǎng)頁的Rank值，d2 為該父網(wǎng)頁所屬域名的Rand值。近義概率的算式還可為F(vl， v2) = x* (Log (a*dl) + Log(a*d2)) + y* (a*dl + b*d2) + z，其中x、 y、 z是常量因子，a詞語vl的出現(xiàn)頻次，b為詞語v2的出現(xiàn)頻次，dl 是反向鏈接的父網(wǎng)頁的Rank值，d2為該父網(wǎng)頁所屬域名的Rand值。當然，近義概率的算式還可根據(jù)上述算式進行其它組合，不一一贅述。步驟S508、重復上述步驟S501至步驟S507,獲取各詞語對在各個網(wǎng)頁的近義扭i率。步驟S509、針對每個詞語對，將其在不同網(wǎng)頁的近義概率分別乘以該近義概率對應反向鏈接子頁面的Rank值，獲得的乘積相加，作為該詞語對的總近義概率。詞語對的總近義概率計算算式為Similar (vl， v2) = Fl (vl, v2) *xl + F2 (vl， v2) *x2 + F3 (vl， v2)*x3...; 其中，xl、 x2、 x3是反向鏈接子頁面的Rank值，代表反向鏈接子頁面的可信度。對總近義概率進行歸一化處理，使總近義概率值在0 - 1的范圍之內(nèi)。步驟S510、提取總近義概率超過設定閾值的詞語，作為近義詞。設定閾值的取值范圍為0.3-0.8。設定閾值根據(jù)詞語對的領域不同，取值也不同，需要通過對大量的近義詞和近義概率計算，選取一個合理的設定閾值。本發(fā)明綜合詞語對在互聯(lián)網(wǎng)上各網(wǎng)頁的近義概率，判斷該詞語對是否為近義詞，該判斷方式綜合考慮該詞語在各網(wǎng)頁的所表達的詞義，使選取近義詞的精度更進一步提高。本發(fā)明還可才艮據(jù)詞語對在子網(wǎng)頁錨文本里出現(xiàn)的頻次、所在錨文本的父頁面Rank值、主域Rank值、子網(wǎng)頁本身的Rank值、所屬的主域Rank值，計算該詞語對的總近義概率值。例如，詞語對V1、 V2在網(wǎng)頁A的反向錨文本中的出現(xiàn)頻次為tl、 t2，在 B的反向錨文本中的出現(xiàn)頻次為t3、 t4，網(wǎng)頁A、網(wǎng)頁B的Rank值和所屬的主域Rank值分別為RA、 RB、 DA、 DB。詞語對V1、 V2在網(wǎng)頁A中的近義概率 Fa=ul*tl* (A1+A2+A3. ) + ul*t2 (A1+A2+....),其中ul是錨文本加權系數(shù)， Al、 A2、 A3….是網(wǎng)頁A的反向錨文本權重；同理，詞語對VI、 V2在網(wǎng)頁B 中的近義概率Fb巧lH3"Bl+B2+B3……)+ ul*t4 (B1+B2+.….)，其中ul是錨文本加權系數(shù)，Bl、 B2、 B3….是網(wǎng)頁B的反向錨文本權重。將Fa和Fb相加，得到詞語對VI、 V2總的近義概率Similar (vl， v2)=u2* (AR*Fa + BR*Fb) + u3* (DA*Fa + DB*Fb)。其中u2是A、 B網(wǎng)頁Rank 系數(shù)，u3是網(wǎng)頁A、 B所屬的主域Rank的系數(shù)，AR、 BR是A、 B的網(wǎng)頁Rank, DA、 DB是A、 B所在的主域的Rank。基于上述一種在網(wǎng)絡上提取近義詞的方法，本發(fā)明還提供一種在網(wǎng)絡上提取近義詞的系統(tǒng)，該系統(tǒng)提取的近義詞具有較高的廣度和精度。參閱圖6，示出本發(fā)明在網(wǎng)絡上提取近義詞系統(tǒng)的第一實施例，包括錨文本獲取模塊61、對比模塊62、去除模塊63、及組成模塊64。錨文本獲取模塊61獲取網(wǎng)頁上各反向鏈接的辨文本。錨文本獲取模塊61在互聯(lián)網(wǎng)的各網(wǎng)頁內(nèi)提取全部正向鏈接的錨文本，再反轉(zhuǎn)獲得各網(wǎng)頁反向鏈接的錨文本，將獲取的錨文本發(fā)送到對比模塊62。對比模塊62將錨文本兩兩對比，確定最大公共子串。對比模塊62首先對錨文本進行分詞處理，將分詞后的錨文本兩兩進行對比，將其重疊詞語作為最大公共子串，并將對比結果發(fā)送到去除模塊63。去除模塊63分別去除重疊的詞語，將剩余的詞語發(fā)送到組成模塊64。組成模塊64將剩余的詞語組成近義詞集合，基于近義詞集合提取近義詞。本發(fā)明近義詞提取系統(tǒng)還可通過計算詞語對的近義概率，基于近義詞集合提取近義詞。參閱圖7，示出本發(fā)明在網(wǎng)絡上提取近義詞系統(tǒng)的第二實施例，包括錨文本獲取模塊61、對比模塊62、去除模塊63、組成模塊64、數(shù)據(jù)獲取模塊65、近義概率計算模塊66、及近義詞提取模塊67。數(shù)據(jù)獲取模塊65獲取組成模塊64內(nèi)剩余詞語在錨文本中的出現(xiàn)頻次，所述各反向鏈接父網(wǎng)頁的Rank值，及該父網(wǎng)頁所屬主域的Rank值，發(fā)送到近義概率計算模塊66。近義概率計算模塊66根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對的近義概率，將計算的各詞語對的近義概率發(fā)送到近義詞模塊67。近義詞提取模塊67選取近義概率超過預設閾值的詞語對作為近義詞。參閱圖8，示出本發(fā)明在網(wǎng)絡上^是取近義詞系統(tǒng)的第三實施例，包括錨文本獲取模塊61、對比模塊62、去除模塊63、組成模塊64、數(shù)據(jù)獲取模塊65、近義概率計算模塊66、近義詞提取模塊67、及總近義概率模塊68?？偨x概率模塊68接收近義概率計算模塊66發(fā)送的各個詞語對的近義概率，用于針對每個詞語對，將其在不同網(wǎng)頁的近義概率分別乘以該近義概率對應反向鏈接子頁面的Rank值，獲得的乘積相加，作為該詞語對的總近義概率，并發(fā)送至近義詞提取模塊67。近義詞提取模塊67提取總近義概率超過設定閾值的詞語對作為近義詞。以上對本發(fā)明所提供的一種在網(wǎng)絡上提取近義詞的方法及系統(tǒng)，進行了詳實施例的說明jp、是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領域的一般技術人員，依據(jù)本發(fā)明的思想，在具體實施方式
及應用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應理解為對本發(fā)明的限制。
權利要求
1、一種在網(wǎng)絡上提取近義詞的方法，其特征在于，包括獲取網(wǎng)頁上各反向鏈接的錨文本；將所述錨文本兩兩對比，分別去除重疊的詞語；將剩余的詞語組成近義詞集合，基于所述近義詞集合提取近義詞。
2、如權利要求1所述的方法，其特征在于，獲取網(wǎng)頁各反向鏈接的錨文本之前，還包括獲取網(wǎng)頁上各反向鏈接父網(wǎng)頁的Rank值，及該父網(wǎng)頁所屬主域的Rank值；如父網(wǎng)頁的Rank值，和/或該網(wǎng)頁所在主域的Rank值低于預設數(shù)值，去除該父網(wǎng)頁對應的反向鏈4妄。
3、如權利要求1所述的方法，其特征在于，獲取網(wǎng)頁各反向鏈接的錨文本之后，還包括；計算錨文本權重，去除權重值低于預置數(shù)值的錨文本。
4、如權利要求1所述的方法，其特征在于，基于所述近義詞集合提取近義詞具體為獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次，所述各反向鏈接父網(wǎng)頁的 Rank值，及該父網(wǎng)頁所屬主域的Rank值；根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對的近義概率；選取近義概率超過預設閾值的詞語對作為近義詞。
5、如權利要求l所述的方法，其特征在于，基于所述近義詞集合提取近義詞具體為獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次，所述各反向鏈接父網(wǎng)頁的 Rank值，及該父網(wǎng)頁所在主域的Rank值；根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率，重復上述步驟，獲取各詞語對在各個網(wǎng)頁的近義概率；向鏈接子頁面的Rank值，獲得的乘積相加，作為該詞語對的總近義概率；提取總近義概率超過設定閾值的詞語對作為近義詞。
6、如權利要求4或5所述的方法，其特征在于，根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率具體為. 針對每個詞語對，將詞語對中一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng) 頁的Rank值，乘積取對數(shù)后再乘以設定系數(shù)；將詞語對中另一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng)頁所屬主域的 Rank值，乘積取對數(shù)；獲得的數(shù)據(jù)相加，為該詞語的近義概率。
7、如權利要求4或5所述的方法，其特征在于，根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率具體為針對每個詞語對，將詞語對中一詞語的出現(xiàn)頻次乘以其對應反向鏈^妄父網(wǎng) 頁的Rank值，另一詞語的出現(xiàn)頻次乘以其對應反向鏈4妄父網(wǎng)頁所屬主域的 Rank值；獲得的數(shù)據(jù)相加，為該詞語對的近義概率。
8、一種在網(wǎng)絡上提取近義詞的系統(tǒng)，其特征在于，包括錨文本獲取模塊、對比模塊、去除模塊、及組成模塊所述錨文本獲取模塊，用于獲取網(wǎng)頁上各反向鏈接的錨文本；所述對比才莫塊，用于將所述錨文本兩兩對比；所述去除模塊，用于分別去除重疊的詞語；所述組成^f莫塊，用于將剩余的詞語組成近義詞集合。
9、如權利要求8所述的系統(tǒng)，其特征在于，還包括數(shù)據(jù)獲取模塊、近義概率計算模塊、近義詞模塊所述數(shù)據(jù)獲取模塊，用于獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次，所述各反向鏈4妻父網(wǎng)頁的Rank值，及該父網(wǎng)頁所屬主域的Rank值；所述近義概率計算模塊，用于根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對的近義扭克率；所述近義詞模塊，用于選取近義概率超過預設閾值的詞語對作為近義詞。
10、如權利要求8或9所述的系統(tǒng)，其特征在于，還包括總近義概率模塊，接收所述近義概率計算模塊發(fā)送的各個詞語對的近義概率，用于針對每個詞語Rank值，獲得的乘積相加，作為該詞語對的總近義概率，并發(fā)送至近義詞模塊；所述近義詞模塊提取總近義概率超過設定閾值的詞語對作為近義詞。
全文摘要
本發(fā)明涉及一種在網(wǎng)絡上提取近義詞的方法，包括獲取網(wǎng)頁上各反向鏈接的錨文本，將所述錨文本兩兩對比，分別去除重疊的詞語，將剩余的詞語組成近義詞集合，基于所述近義詞集合提取近義詞。獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次，所述各反向鏈接父網(wǎng)頁的Rank值，及該父網(wǎng)頁所屬主域的Rank值，根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對的近義概率，選取近義概率超過預設閾值的詞語對作為近義詞。同時，本發(fā)明還提供一種在網(wǎng)絡上提取近義詞的系統(tǒng)。本發(fā)明解決現(xiàn)有技術中近義詞提取的廣度和精度都較低的問題，本發(fā)明提取的近義詞具有較高的廣度和精度。
文檔編號G06F17/30GK101226532SQ20071030456
公開日2008年7月23日申請日期2007年12月28日優(yōu)先權日2007年12月28日
發(fā)明者劉云峰, 禹榮凌申請人:騰訊科技(北京)有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：禹榮凌;劉云峰
技術所有人：騰訊科技(北京)有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種在網(wǎng)絡上提取近義詞的方法及系統(tǒng)的制作方法