專利名稱:一種在網(wǎng)絡上提取近義詞的方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及近義詞提取領域,特別是涉及一種在網(wǎng)絡上提取近義詞的方法 及系統(tǒng)。
技術背景在互聯(lián)網(wǎng)上利用網(wǎng)絡資源提取近義詞,可以為網(wǎng)頁搜索相關性、自然語言 處理、文本挖掘等提供支持。但在網(wǎng)絡上,難以找到恰當?shù)姆绞饺ソ缍ńx詞, 因此,目前現(xiàn)有技術仍釆用對比查找方式。參閱圖l,為現(xiàn)有在網(wǎng)絡上提取近義詞的方法,具體步驟如下所述。步驟S1Q1、預置近義詞詞庫。人工通過相關詞典和經(jīng)-驗整理近義詞,將 整理好的近義詞組成近義詞庫。近義詞庫包括通常意義上詞義相近的詞語,如 "吃飯"、"就餐,,,"猶豫"、"躊躇,,等,還包括廣義上的近義詞,即表示同一 事物的詞語,如"北京"、"北京大學,,等。步驟S102、提取網(wǎng)頁文本,對網(wǎng)頁文本進行分詞處理。在網(wǎng)絡上抓取所 需網(wǎng)頁,再在網(wǎng)頁上提取正文文本,對正文文本進行分詞處理,將各詞語使用 空格隔開,過濾掉虛詞、語氣詞、介詞等不具有實質(zhì)意義的詞語。步驟S103、將網(wǎng)頁文本與近義詞詞庫對比,才是取與近義詞詞庫相同的詞語。步驟S104、根據(jù)提取的近義詞對網(wǎng)頁進行分析。上述方法只是根據(jù)已有的近義詞庫在網(wǎng)絡上提取相同的近義詞,進行分 析。但近義詞庫是根據(jù)人工整理的, 一般數(shù)據(jù)量較小,覆蓋范圍也較小,基于 該數(shù)據(jù)庫提取近義詞,提取的廣度受到很大的局限。網(wǎng)絡上的近義詞很多由網(wǎng)絡語言習慣形成的,預先設置近義詞庫很難嚢括 這些網(wǎng)絡特有的近義詞,基于預置的近義詞庫無法查找到這些近義詞,提取近 義詞的適用性較低。 發(fā)明內(nèi)容本發(fā)明所要解決的技術問題是提供一種在網(wǎng)絡上提取近義詞的方法及系 統(tǒng),以解決現(xiàn)有技術中近義詞提取的廣度和適用性較低的問題。本發(fā)明提取的 近義詞具有較高的廣度和精度。本發(fā)明公開一種在網(wǎng)絡上提取近義詞的方法,包括獲取網(wǎng)頁上各反向鏈 接的錨文本;將所述錨文本兩兩對比,分別去除重疊的詞語;將剩余的詞語維 成近義詞集合,基于所述近義詞集合提取近義詞。優(yōu)選的,獲取網(wǎng)頁各反向鏈接的錨文本之前,還包括獲取網(wǎng)頁上各反向 鏈4妄父網(wǎng)頁的Rankj直,及該父網(wǎng)頁所屬主i或的Rank {直;如父網(wǎng)頁的Rank {直, 和/或該網(wǎng)頁所在主域的Rank值低于預設數(shù)值,去除該父網(wǎng)頁對應的反向鏈 接。優(yōu)選的,獲取網(wǎng)頁各反向鏈接的錨文本之后,還包括;計算錨文本權重, 去除權重值低于預置數(shù)值的錨文本。優(yōu)選的,基于所述近義詞集合提取近義詞具體為獲取上述剩余詞語在所 述錨文本中的出現(xiàn)頻次,所述各反向鏈接父網(wǎng)頁的Rank值,及該父網(wǎng)頁所屬 主域的Rank值;根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對的近義概 率;選取近義概率超過預設閾值的詞語對作為近義詞。優(yōu)選的,基于所述近義詞集合提取近義詞具體為獲取上述剩余詞語在所 述錨文本中的出現(xiàn)頻次,所述各反向鏈接父網(wǎng)頁的Rank值,及該父網(wǎng)頁所在 主域的Rank值;根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率, 重復上述步驟,獲取各詞語對在各個網(wǎng)頁的近義概率;針對每個詞語對,將其獲得的乘積相加,作為該詞語對的總近義概率;提取總近義概率超過設定閾值 的詞i吾對作為近義詞。優(yōu)選的,根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率具體 為針對每個詞語對,將詞語對中一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng) 頁的Rank值,乘積取對數(shù)后再乘以設定系數(shù);將詞語對中另一詞語的出現(xiàn)頻 次乘以其對應反向鏈接父網(wǎng)頁所屬主域的Rank值,乘積取對數(shù);獲得的數(shù)據(jù) 相加,為該詞語的近義概率。優(yōu)選的,根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率具體 為針對每個詞語對,將詞語對中一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng) 頁的Rank值,另一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng)頁所屬主域的 Rank值;獲得的數(shù)據(jù)相加,為該詞語的近義概率。本發(fā)明還公開一種在網(wǎng)絡上提取近義詞的系統(tǒng),包括錨文本獲取模塊、對比模塊、去除模塊、及組成模塊所述錨.文本獲取模塊,用于獲取網(wǎng)頁上各反 向鏈接的錨文本;所述對比模塊,用于將所述錨文本兩兩對比;所述去除模塊, 用于分別去除重疊的詞語;所述組成模塊,用于將剩余的詞語組成近義詞集合。優(yōu)選的,還包括數(shù)據(jù)獲取模塊、近義概率計算模塊、近義詞模塊所述數(shù) 據(jù)獲取模塊,用于獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次,所述各反向 鏈接父網(wǎng)頁的Rank值,及該父網(wǎng)頁所屬主域的Rank值;所述近義概率計算模 塊,用于根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對的近義概率;所述 近義詞模塊,用于選取近義概率超過預設閾值的詞語對作為近義詞。優(yōu)選的,還包括總近義概率模塊,接收所述近義概率計算模塊發(fā)送的各個 詞語對的近義概率,用于針對每個詞語對,將其在不同網(wǎng)頁的近義概率分別乘 以該近義概率對應反向鏈接子頁面的Rank值,獲得的乘積相加,作為該詞語 對的總近義概率,并發(fā)送至近義詞模塊;所述近義詞模塊提取總近義概率超過 設定閾值的詞語對作為近義詞。與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點本發(fā)明對網(wǎng)絡上的近義詞進行界定,利用錨文本在網(wǎng)絡上提取潛在近義 詞,組成近義詞集合,基于近義詞集合提取近義詞。纟是取的近義詞數(shù)據(jù)量大, 覆蓋范圍廣,并且能夠體現(xiàn)網(wǎng)絡應用的特性,提取的近義詞的廣度和精度較高。本發(fā)明通過詞語的出現(xiàn)頻次,反向鏈接父網(wǎng)頁的Rank值,該父網(wǎng)頁所屬 域名的Rand值,計算詞語對的近義扭X率,該近義扭克率集中體現(xiàn)該詞語對的應 用頻率,所在鏈接的可信度,可較好的判斷該詞語對內(nèi)在含義相同度,根據(jù)近 義概率選取的近義詞具有很高的精度和實用性。
圖1為現(xiàn)有在網(wǎng)絡上提取近義詞的方法流程圖; 圖2為本發(fā)明在網(wǎng)絡上提取近義詞的方法第一實施例流程圖; 圖3為本發(fā)明在網(wǎng)絡上提取近義詞的方法第二實施例流程圖; 圖4為本發(fā)明在網(wǎng)絡上提取近義詞的方法第三實施例流程圖; 圖5為本發(fā)明在網(wǎng)絡上提取近義詞的方法第四實施例流程圖; 圖6為本發(fā)明在網(wǎng)絡上才是取近義詞系統(tǒng)的第一實施例示意圖;圖7為本發(fā)明在網(wǎng)絡上提取近義詞系統(tǒng)的第二實施例示意圖; 閨8為本發(fā)明在網(wǎng)絡上提取近義詞系統(tǒng)的第三實施例示意圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。一個網(wǎng)頁包含指向另 一個網(wǎng)頁的超鏈接(URL ),認為這兩個網(wǎng)頁之間存在 鏈接關系。超鏈接上的文字為錨文本。如果網(wǎng)頁A使用錨文本S鏈接網(wǎng)頁B, 網(wǎng)頁A可稱為父網(wǎng)頁,網(wǎng)頁B可稱為子網(wǎng)頁,該鏈接對于網(wǎng)頁A為正向鏈接, 對于網(wǎng)頁B為反向鏈接。每個網(wǎng)頁都可能存在多個正向鏈接和反向鏈接。本發(fā) 明根據(jù)詞語在網(wǎng)頁反向鏈接錨文本中出現(xiàn)的頻次,反向鏈接父網(wǎng)頁的可信度, 及該父網(wǎng)頁所屬主域的可信度,計算詞語對的近義概率。依據(jù)近義概率判斷該 詞語對是否為近義詞?;ヂ?lián)網(wǎng)上的海量數(shù)據(jù)可以從概率上保證該方法的可行性 和結果的準確性。本發(fā)明利用錨文本提取近義詞,指向同 一網(wǎng)頁的錨文本有其相同的內(nèi)在含 義,錨文本中重疊的詞語一般為該網(wǎng)頁的慣常用語或固定用語,錨文本去除該 重疊詞語后的詞語,存在近義的可能性非常大。參閱圖2,示出本發(fā)明在網(wǎng)絡上提取近義詞的方法第一實施例,具體步驟 如下所述。步驟S201、獲取網(wǎng)頁上各反向鏈接的錨文本。網(wǎng)絡服務器在互聯(lián)網(wǎng)的各 網(wǎng)頁內(nèi)提取全部正向鏈接的錨文本,再反轉(zhuǎn)獲得各網(wǎng)頁反向鏈接的錨文本。例如,網(wǎng)頁A使用錨文本S指向網(wǎng)頁B, S是網(wǎng)頁A的正向鏈接錨文本, 為網(wǎng)頁A (S)—— >網(wǎng)頁B。反轉(zhuǎn)后,得到網(wǎng)頁B (S) < ——網(wǎng)頁A,對于網(wǎng)頁 B,則是錨文本S為反向鏈接的錨文本。再例如,網(wǎng)頁ID1、網(wǎng)頁ID2、網(wǎng)頁ID3、網(wǎng)頁ID4分別使用錨文本"招 商銀行"、"招商銀行首頁"、"招行首頁"、"招行"正向鏈接招商銀行首頁IDO, 對于招商銀行首頁IDO,共有4各反向鏈接,對應錨文本依次為"招商銀行"、 "招商銀行首頁"、"招行首頁"、"招行"。步驟S202、將各錨文本兩兩對比,確定最大公共子串。首先對錨文本進 行分詞處理,將分詞后的錨文本兩兩進行對比,將其重疊詞語作為最大公共子串。例如網(wǎng)頁ID1與網(wǎng)頁1D2:"招商銀行"、"招商銀行首頁"的最大公共子串是 "招商銀行";網(wǎng)頁ID1與網(wǎng)頁ID3:"招商銀行"、"招行首頁",沒有公共子串; 網(wǎng)頁ID1與網(wǎng)頁ID4:"招商銀行"、"招行",沒有公共子串; 網(wǎng)頁ID2與網(wǎng)頁ID3:"招商銀行首頁"、"招行首頁"的最大公共子串是 "首頁";網(wǎng)頁ID2與網(wǎng)頁ID4:招商銀行首頁"、"招行",沒有公共子串; 網(wǎng)頁ID3與網(wǎng)頁ID4:"招行首頁"、"招行"的最大公共子串是"招行"。 步驟S203、分別去除重疊的詞語。在上述錨文本上分別去除最大公共子 串。例如網(wǎng)頁ID1與網(wǎng)頁ID2 網(wǎng)頁ID1與網(wǎng)頁ID3 網(wǎng)頁ID1與網(wǎng)頁ID4 網(wǎng)頁ID2與網(wǎng)頁ID3 網(wǎng)頁ID2與網(wǎng)頁ID4 網(wǎng)頁ID3與網(wǎng)頁ID4工串、"首頁"; "招商銀行"、"招行首頁"; "招商銀行"、"招行"; "招商銀行"、"招行"; "招商銀行首頁"、"招行"; "招行"、空串。步驟S204、將剩余的詞語組成近義詞集合,基于近義詞集合提取近義詞。 忽略空串,得到去除最大公共子串的詞語,將剩余的詞語組成近義詞集合。例 如,"首頁"、"招商銀行"、"招行"、"招行首頁"、"招商銀行首頁"。本發(fā)明可采用人工整理,計算近義詞集合中各詞語對的近義概率等方式, 基于近義詞集合提取近義詞。本發(fā)明對網(wǎng)絡上的近義詞進行界定,利用錨文本在網(wǎng)絡上提取潛在近義 詞,組成近義詞集合,基于近義詞集合提取近義詞。提取的近義詞數(shù)據(jù)量大, 覆蓋范圍廣,并且能夠體現(xiàn)網(wǎng)絡應用的特性,提取的近義詞的廣度和精度較高。本發(fā)明在根據(jù)錨文本提取近義詞之前,可先對反向鏈接和錨文本進行才全 驗,去除不具有參考價值的反向鏈接和錨文本,進一步提高提取近義詞的精度。參閱圖3,示出本發(fā)明在網(wǎng)絡上提取近義詞的方法第二實施例,具體步驟 如下所述。步驟S301、檢驗網(wǎng)頁上各反向鏈接,去除不具有參考價值的反向鏈接。 依據(jù)反向鏈接父網(wǎng)頁的Rank值,及該父網(wǎng)頁所屬主域的Rank值4企驗網(wǎng)頁上各 個反向鏈接,去除不具有參考價值的反向鏈接。網(wǎng)頁的Rank值集中反映該網(wǎng) 頁的可信度,也代表該網(wǎng)頁的可參考價值。獲取網(wǎng)頁各個反向鏈接父網(wǎng)頁的Rank值,及該父網(wǎng)頁所屬主域的Rank值, 如父網(wǎng)頁,及該父網(wǎng)頁所屬主域的Rank值j氐于預設凄史值,i人為該反向鏈4妄不 具有參考價值,去除該反向鏈接;如該父網(wǎng)頁,及該父網(wǎng)頁所屬主域的Rank 值高于預設數(shù)值,認為該反向鏈接具有參考價值,保留該反向鏈接。才艮據(jù)實際應用情況,本發(fā)明也可在父網(wǎng)頁的Rank值,或該父網(wǎng)頁所屬主 域的Rank值低于預設數(shù)值時,去除該反向鏈接。預設數(shù)值根據(jù)父網(wǎng)頁所在領域和性質(zhì)不同進行取值,取值范圍為100-10000。步驟S302、獲取網(wǎng)頁各反向鏈接的錨文本。步驟S303、計算錨文本權重,去除權重值低于預置數(shù)值的錨文本。錨文 本的權重是指網(wǎng)頁反向鏈接中該錨文本出現(xiàn)的總次數(shù),如果某個錨文本權重很 高,那么該網(wǎng)頁反向《連接可能來自多個不同的網(wǎng)站,該錨文本可參考價值相對 較高。對于子頁面的反向鏈接錨文本,設該子網(wǎng)頁的父網(wǎng)頁為Nl個,上述父網(wǎng) 頁屬于N2個主域(有些父頁面可能屬于同一個主域,即N1^N2)。設和該子 網(wǎng)頁屬于同主域的父網(wǎng)頁有Ml個,其它Nl-Ml個父網(wǎng)頁分別屬于N2-l個主域。 設與子網(wǎng)頁同主域的權重系數(shù)為ul,與子網(wǎng)頁不同主域的權重系數(shù)為u2,該 錨文本的權重為該4苗文本—Xf=Ml*ul+ (N卜Ml) *u2。ul的權值范圍是0. 05 - 0. 15,優(yōu)選為0. 1; u2的權值范圍是0. 15 - 0. 25, 優(yōu)選為0. 2。預置數(shù)值根據(jù)網(wǎng)頁領域和性質(zhì)不同進行取值,取值范圍為1 - 10。例如,共有網(wǎng)頁A、 Al、 A2、 A3、 B、 Bl、 B2、 B3、 C、 Cl、 C2、 C3,使用 錨文本S正向鏈接網(wǎng)頁K,對于網(wǎng)頁K的反向鏈接錨文本S,父網(wǎng)頁為A、 Al、 A2、 A3、 B、 Bl、 B2、 B3、 C、 Cl、 C2、 C3共12個,其中,A、 Al、 A2、 A3為 同一主域,且與K為相同主域,B、 Bl、 B2、 B3為同一主域,C、 Cl、 C2、 C3為同一主域。計算可知,Ml為4, N1-M1為8。如ul-O. 1, u2 = 0. 2,貝'J;錨文本S的權重=4 x 0. 1 + 8 x 0. 2 = 2步驟S304、將各錨文本兩兩對比,確定最大公共子串。步驟S3G5、將剩余的詞語組成近義詞集合,基于所述近義詞集合纟是取近義詞。本發(fā)明根據(jù)反向鏈接父網(wǎng)頁的Rank值,及該父網(wǎng)頁所屬主域的Rank值, 判斷該反向鏈接是否具有參考價值。父網(wǎng)頁的Rank值,及父網(wǎng)頁所屬主域的 Rank值集中反映父網(wǎng)頁的可信度,可信度高的網(wǎng)頁出現(xiàn)作弊鏈接和垃圾鏈接 的可能性很低,反之,則可能性較大。因此,該方法可有效地去除網(wǎng)頁反向鏈 接中的作弊鏈接和垃圾鏈接,保證反向鏈接的可參考性。本發(fā)明還根據(jù)錨文本 的權重去除不合法錨文本,使保留的錨文本具有更好的可參考性,基于該錨文 本提取的近義詞精度更高。本發(fā)明還可根據(jù)剩余詞語在錨文本中的出現(xiàn)頻次,各個反向鏈接父網(wǎng)頁的 Rank值,及父網(wǎng)頁所在主域的Rank值,分別計算剩余詞語中各詞語對的近義 概率,依據(jù)近義概率在近義詞集合中提取近義詞。參閱圖4,示出本發(fā)明在網(wǎng)絡上提取近義詞的方法第三實施例,具體步驟 如下所述。步驟S401、檢驗網(wǎng)頁上各反向鏈接,去除不具有參考價值的反向鏈接。 步驟S402、獲取網(wǎng)頁各個反向鏈接的錨文本。 步驟S403、計算錨文本權重,去除權重值低于預置數(shù)值的錨文本。 步驟S404、將各錨文本兩兩對比,確定最大公共子串。 步驟S405、提取剩余的詞語,將剩余的詞語組成近義詞集合。 步驟S406、獲取上述剩余詞語在錨文本中的出現(xiàn)頻次,各個反向鏈接父 網(wǎng)頁的Rank值,及該父網(wǎng)頁所在主域的Rank值。步驟S407、根據(jù)上述數(shù)值分別計算上述剩余詞語各詞語對的近義概率。 詞語對就是一對詞語,對于剩余詞語中兩兩組成的詞語對,定義詞語對的 近義概率算式為f(vl, v2) = Fun(Freq(vl), Freq(v2)),其中vl, v2代表 2個不同的詞語,如"招行"、"招商纟艮行"。Freq(v)是詞語v的出現(xiàn)頻次。例 如,在圖2所示實施例中,"首頁"的出現(xiàn)頻次為l、"招商4艮行"的出現(xiàn)頻次為3、"招行"的出現(xiàn)頻次為4、"招行首頁"的出現(xiàn)頻次為1、"招商銀行首頁"的出現(xiàn)頻來為1。對于每個詞語對,近義概率的算式可為F(vl, v2) = u*Log(a*dl) + Log (b*d2) + t,其中u、 t是常量因子,a 詞語vl的出現(xiàn)頻次,b為詞語v2的出現(xiàn)頻次,dl是反向鏈接的父網(wǎng)頁的Rank 值,d2為該父網(wǎng)頁所屬域名的Rand值。近義概率的算式還可為F(vl, v2) = u*(a*dl + b*d2) + t,其中u、 t是常量因子,a詞語vl 的出現(xiàn)頻次,b為詞語v2的出現(xiàn)頻次,dl是反向鏈接的父網(wǎng)頁的Rank值,d2 為該父網(wǎng)頁所屬i或名的Rand <直。近義概率的算式還可為F(vl, v2) = x* (Log (a*dl) + Log(a*d2)) + y*(a*dl + b*d2) + z,其 中x、 y、 z是常量因子,a詞語vl的出現(xiàn)頻次,b為詞語v2的出現(xiàn)頻次,dl 是反向鏈接的父網(wǎng)頁的Rank值,d2為該父網(wǎng)頁所屬域名的Rand值。當然,近義概率的算式還可根據(jù)上述算式進行其它組合,不一一贅述。步驟S408、選取近義概率超過預設閾值的詞語,作為近義詞。預設閾值的設置可根據(jù)詞語領域的不同加以區(qū)別,具體可通過對大量已知 近義詞的近義概率的計算,選取一個合理的預設閾值。本發(fā)明通過詞語的出現(xiàn)頻次,反向鏈接父網(wǎng)頁的Rank值,該父網(wǎng)頁所屬 域名的Rand值,計算詞語對的近義積克率,該近義相克率集中體現(xiàn)該詞語對的應 用頻率,所在鏈接的可信度,可較好的判斷該詞語對內(nèi)在含義相同度,根據(jù)近 義概率選取的近義詞具有很高的精度和實用性。本發(fā)明還可通過計算對詞語對在互聯(lián)網(wǎng)各網(wǎng)頁的總近義概率,綜合判斷該 詞語對是否為近義詞,更進一步提高提取近義詞的精度。參閱圖5,示出本發(fā)明在網(wǎng)絡上提取近義詞的方法第四實施例,具體步驟 如下所述。步驟S501、檢驗網(wǎng)頁上各反向鏈接,去除不具有參考價值的反向鏈接。 步驟S502、獲取網(wǎng)頁各反向鏈接的錨文本。步驟S503、計算錨文本權重,去除權重值低于預置數(shù)值的錨文本。步驟S504、將各錨文本兩兩對比,確定最大公共子串。 步驟S505、提取剩余的詞語,將剩余的詞語組成近義詞集合。 步驟S506、獲取上述剩余詞語在錨文本中的出現(xiàn)頻次,各個反向鏈接父 網(wǎng)頁的Rank <直,及該父網(wǎng)頁所在主域的Rank {直。步驟S507、根據(jù)上述數(shù)值分別計算上述剩余詞語各詞語對的近義概率。 詞語對就是一對詞語,對于剩余詞語中兩兩組成的詞語對,定義詞語對的 近義概率算式為f(vl, v2) = Fun(Freq(vl), Freq(v2)),其中vl, v2代表 2個不同的詞語,如"招行"、"招商銀行"。Freq(v)是詞語v的出現(xiàn)頻次。例 如,在圖2所示實施例中,"首頁"的出現(xiàn)頻次為l、"招商4艮行"的出現(xiàn)頻次 為3、"招行"的出現(xiàn)頻次為4、"招行首頁"的出現(xiàn)頻次為1、"招商4艮行首頁" 的出現(xiàn)頻次為1。對于每個詞語對,近義概率的算式可為F(vl, v2) = u*Log(a*dl) + Log(b*d2) + t,其中u、 t是常量因子,a 詞語vl的出現(xiàn)頻次,b為詞語v2的出現(xiàn)頻次,dl是反向鏈接的父網(wǎng)頁的Rank 值,d2為該父網(wǎng)頁所屬域名的Rand值。近義概率的算式還可為F(vl, v2) = u*(a*dl + b*d2) + t,其中u、 t是常量因子,a詞語vl 的出現(xiàn)頻次,b為詞語v2的出現(xiàn)頻次,dl是反向鏈接的父網(wǎng)頁的Rank值,d2 為該父網(wǎng)頁所屬域名的Rand值。近義概率的算式還可為F(vl, v2) = x* (Log (a*dl) + Log(a*d2)) + y* (a*dl + b*d2) + z,其 中x、 y、 z是常量因子,a詞語vl的出現(xiàn)頻次,b為詞語v2的出現(xiàn)頻次,dl 是反向鏈接的父網(wǎng)頁的Rank值,d2為該父網(wǎng)頁所屬域名的Rand值。當然,近義概率的算式還可根據(jù)上述算式進行其它組合,不一一贅述。 步驟S508、重復上述步驟S501至步驟S507,獲取各詞語對在各個網(wǎng)頁的 近義扭i率。步驟S509、針對每個詞語對,將其在不同網(wǎng)頁的近義概率分別乘以該近 義概率對應反向鏈接子頁面的Rank值,獲得的乘積相加,作為該詞語對的總 近義概率。詞語對的總近義概率計算算式為Similar (vl, v2) = Fl (vl, v2) *xl + F2 (vl, v2) *x2 + F3 (vl, v2)*x3...; 其中,xl、 x2、 x3是反向鏈接子頁面的Rank值,代表反向鏈接子頁面的可信 度。對總近義概率進行歸一化處理,使總近義概率值在0 - 1的范圍之內(nèi)。 步驟S510、提取總近義概率超過設定閾值的詞語,作為近義詞。 設定閾值的取值范圍為0.3-0.8。設定閾值根據(jù)詞語對的領域不同,取值也不同,需要通過對大量的近義詞和近義概率計算,選取一個合理的設定閾值。本發(fā)明綜合詞語對在互聯(lián)網(wǎng)上各網(wǎng)頁的近義概率,判斷該詞語對是否為近 義詞,該判斷方式綜合考慮該詞語在各網(wǎng)頁的所表達的詞義,使選取近義詞的 精度更進一步提高。本發(fā)明還可才艮據(jù)詞語對在子網(wǎng)頁錨文本里出現(xiàn)的頻次、所在錨文本的父頁 面Rank值、主域Rank值、子網(wǎng)頁本身的Rank值、所屬的主域Rank值,計算 該詞語對的總近義概率值。例如,詞語對V1、 V2在網(wǎng)頁A的反向錨文本中的出現(xiàn)頻次為tl、 t2,在 B的反向錨文本中的出現(xiàn)頻次為t3、 t4,網(wǎng)頁A、網(wǎng)頁B的Rank值和所屬的 主域Rank值分別為RA、 RB、 DA、 DB。詞語對V1、 V2在網(wǎng)頁A中的近義概率 Fa=ul*tl* (A1+A2+A3. ) + ul*t2 (A1+A2+....),其中ul是錨文本加權系數(shù), Al、 A2、 A3….是網(wǎng)頁A的反向錨文本權重;同理,詞語對VI、 V2在網(wǎng)頁B 中的近義概率Fb巧lH3"Bl+B2+B3……)+ ul*t4 (B1+B2+.….),其中ul是錨 文本加權系數(shù),Bl、 B2、 B3….是網(wǎng)頁B的反向錨文本權重。將Fa和Fb相加,得到詞語對VI、 V2總的近義概率Similar (vl, v2)=u2* (AR*Fa + BR*Fb) + u3* (DA*Fa + DB*Fb)。其中u2是A、 B網(wǎng)頁Rank 系數(shù),u3是網(wǎng)頁A、 B所屬的主域Rank的系數(shù),AR、 BR是A、 B的網(wǎng)頁Rank, DA、 DB是A、 B所在的主域的Rank。基于上述一種在網(wǎng)絡上提取近義詞的方法,本發(fā)明還提供一種在網(wǎng)絡上提 取近義詞的系統(tǒng),該系統(tǒng)提取的近義詞具有較高的廣度和精度。參閱圖6,示出本發(fā)明在網(wǎng)絡上提取近義詞系統(tǒng)的第一實施例,包括錨文本獲取模塊61、對比模塊62、去除模塊63、及組成模塊64。錨文本獲取模塊61獲取網(wǎng)頁上各反向鏈接的辨文本。錨文本獲取模塊61在互聯(lián)網(wǎng)的各網(wǎng)頁內(nèi)提取全部正向鏈接的錨文本,再反轉(zhuǎn)獲得各網(wǎng)頁反向鏈接的錨文本,將獲取的錨文本發(fā)送到對比模塊62。對比模塊62將錨文本兩兩對比,確定最大公共子串。對比模塊62首先對錨文本進行分詞處理,將分詞后的錨文本兩兩進行對比,將其重疊詞語作為最大公共子串,并將對比結果發(fā)送到去除模塊63。去除模塊63分別去除重疊的詞語,將剩余的詞語發(fā)送到組成模塊64。 組成模塊64將剩余的詞語組成近義詞集合,基于近義詞集合提取近義詞。 本發(fā)明近義詞提取系統(tǒng)還可通過計算詞語對的近義概率,基于近義詞集合提取近義詞。參閱圖7,示出本發(fā)明在網(wǎng)絡上提取近義詞系統(tǒng)的第二實施例,包括錨文 本獲取模塊61、對比模塊62、去除模塊63、組成模塊64、數(shù)據(jù)獲取模塊65、 近義概率計算模塊66、及近義詞提取模塊67。數(shù)據(jù)獲取模塊65獲取組成模塊64內(nèi)剩余詞語在錨文本中的出現(xiàn)頻次,所 述各反向鏈接父網(wǎng)頁的Rank值,及該父網(wǎng)頁所屬主域的Rank值,發(fā)送到近義 概率計算模塊66。近義概率計算模塊66根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對 的近義概率,將計算的各詞語對的近義概率發(fā)送到近義詞模塊67。近義詞提取模塊67選取近義概率超過預設閾值的詞語對作為近義詞。 參閱圖8,示出本發(fā)明在網(wǎng)絡上^是取近義詞系統(tǒng)的第三實施例,包括錨文 本獲取模塊61、對比模塊62、去除模塊63、組成模塊64、數(shù)據(jù)獲取模塊65、 近義概率計算模塊66、近義詞提取模塊67、及總近義概率模塊68??偨x概率模塊68接收近義概率計算模塊66發(fā)送的各個詞語對的近義概 率,用于針對每個詞語對,將其在不同網(wǎng)頁的近義概率分別乘以該近義概率對 應反向鏈接子頁面的Rank值,獲得的乘積相加,作為該詞語對的總近義概率, 并發(fā)送至近義詞提取模塊67。近義詞提取模塊67提取總近義概率超過設定閾值的詞語對作為近義詞。 以上對本發(fā)明所提供的 一種在網(wǎng)絡上提取近義詞的方法及系統(tǒng),進行了詳實施例的說明jp、是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領 域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應用范圍上均會有 改變之處,綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。
權利要求
1、一種在網(wǎng)絡上提取近義詞的方法,其特征在于,包括獲取網(wǎng)頁上各反向鏈接的錨文本;將所述錨文本兩兩對比,分別去除重疊的詞語;將剩余的詞語組成近義詞集合,基于所述近義詞集合提取近義詞。
2、 如權利要求1所述的方法,其特征在于,獲取網(wǎng)頁各反向鏈接的錨文 本之前,還包括獲取網(wǎng)頁上各反向鏈接父網(wǎng)頁的Rank值,及該父網(wǎng)頁所屬主域的Rank值; 如父網(wǎng)頁的Rank值,和/或該網(wǎng)頁所在主域的Rank值低于預設數(shù)值,去 除該父網(wǎng)頁對應的反向鏈4妄。
3、 如權利要求1所述的方法,其特征在于,獲取網(wǎng)頁各反向鏈接的錨文 本之后,還包括;計算錨文本權重,去除權重值低于預置數(shù)值的錨文本。
4、 如權利要求1所述的方法,其特征在于,基于所述近義詞集合提取近 義詞具體為獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次,所述各反向鏈接父網(wǎng)頁的 Rank值,及該父網(wǎng)頁所屬主域的Rank值;根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對的近義概率; 選取近義概率超過預設閾值的詞語對作為近義詞。
5、 如權利要求l所述的方法,其特征在于,基于所述近義詞集合提取近 義詞具體為獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次,所述各反向鏈接父網(wǎng)頁的 Rank值,及該父網(wǎng)頁所在主域的Rank值;根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率,重復上述步 驟,獲取各詞語對在各個網(wǎng)頁的近義概率;向鏈接子頁面的Rank值,獲得的乘積相加,作為該詞語對的總近義概率; 提取總近義概率超過設定閾值的詞語對作為近義詞。
6、 如權利要求4或5所述的方法,其特征在于,根據(jù)上述數(shù)值分別計算上述剩余詞語中各詞語對的近義概率具體為. 針對每個詞語對,將詞語對中一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng) 頁的Rank值,乘積取對數(shù)后再乘以設定系數(shù);將詞語對中另 一詞語的出現(xiàn)頻次乘以其對應反向鏈接父網(wǎng)頁所屬主域的 Rank值,乘積取對數(shù);獲得的數(shù)據(jù)相加,為該詞語的近義概率。
7、 如權利要求4或5所述的方法,其特征在于,根據(jù)上述數(shù)值分別計算 上述剩余詞語中各詞語對的近義概率具體為針對每個詞語對,將詞語對中一詞語的出現(xiàn)頻次乘以其對應反向鏈^妄父網(wǎng) 頁的Rank值,另 一詞語的出現(xiàn)頻次乘以其對應反向鏈4妄父網(wǎng)頁所屬主域的 Rank值;獲得的數(shù)據(jù)相加,為該詞語對的近義概率。
8、 一種在網(wǎng)絡上提取近義詞的系統(tǒng),其特征在于,包括錨文本獲取模塊、 對比模塊、去除模塊、及組成模塊所述錨文本獲取模塊,用于獲取網(wǎng)頁上各反向鏈接的錨文本; 所述對比才莫塊,用于將所述錨文本兩兩對比; 所述去除模塊,用于分別去除重疊的詞語; 所述組成^f莫塊,用于將剩余的詞語組成近義詞集合。
9、 如權利要求8所述的系統(tǒng),其特征在于,還包括數(shù)據(jù)獲取模塊、近義 概率計算模塊、近義詞模塊所述數(shù)據(jù)獲取模塊,用于獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次, 所述各反向鏈4妻父網(wǎng)頁的Rank值,及該父網(wǎng)頁所屬主域的Rank值;所述近義概率計算模塊,用于根據(jù)上述數(shù)值分別計算上述剩余詞語中各個 詞語對的近義扭克率;所述近義詞模塊,用于選取近義概率超過預設閾值的詞語對作為近義詞。
10、 如權利要求8或9所述的系統(tǒng),其特征在于,還包括總近義概率模塊, 接收所述近義概率計算模塊發(fā)送的各個詞語對的近義概率,用于針對每個詞語Rank值,獲得的乘積相加,作為該詞語對的總近義概率,并發(fā)送至近義詞模 塊;所述近義詞模塊提取總近義概率超過設定閾值的詞語對作為近義詞。
全文摘要
本發(fā)明涉及一種在網(wǎng)絡上提取近義詞的方法,包括獲取網(wǎng)頁上各反向鏈接的錨文本,將所述錨文本兩兩對比,分別去除重疊的詞語,將剩余的詞語組成近義詞集合,基于所述近義詞集合提取近義詞。獲取上述剩余詞語在所述錨文本中的出現(xiàn)頻次,所述各反向鏈接父網(wǎng)頁的Rank值,及該父網(wǎng)頁所屬主域的Rank值,根據(jù)上述數(shù)值分別計算上述剩余詞語中各個詞語對的近義概率,選取近義概率超過預設閾值的詞語對作為近義詞。同時,本發(fā)明還提供一種在網(wǎng)絡上提取近義詞的系統(tǒng)。本發(fā)明解決現(xiàn)有技術中近義詞提取的廣度和精度都較低的問題,本發(fā)明提取的近義詞具有較高的廣度和精度。
文檔編號G06F17/30GK101226532SQ20071030456
公開日2008年7月23日 申請日期2007年12月28日 優(yōu)先權日2007年12月28日
發(fā)明者劉云峰, 禹榮凌 申請人:騰訊科技(北京)有限公司