專利名稱:利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,尤其涉及一種利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的方法及設(shè)備。
背景技術(shù):
電子辭典是一種將傳統(tǒng)的印刷詞典轉(zhuǎn)成數(shù)碼方式、進(jìn)行快速查詢的數(shù)字學(xué)習(xí)工 具,電腦辭典以輕便易攜、查詢快捷、功能豐富等特點,在人們學(xué)習(xí)和生活中的使用越來越 廣泛。但是,現(xiàn)有的雙語電子詞典中的詞典普遍依賴于人工輸入和編輯,工作量巨大,效率 低,且收錄的詞條有限,同時缺乏時效性。為了解決這個問題,近年來人們開始探索如何從網(wǎng)絡(luò)中自動提取雙語詞典?;ヂ?lián)網(wǎng)上存在的各種形式的雙語文檔可以歸結(jié)為三類段落對照型這種形式的文檔通常由一段源語文本和對應(yīng)的一段目標(biāo)語文本交錯 組成,這種類型的文檔大都是雙語平行的文檔;表格型這種文檔中通常由很多行組成,每一行包含兩個雙語對照的詞條,這種文 檔多出現(xiàn)在一些雙語術(shù)語表類的文件中;純文本型,這種文檔一般由互相夾雜的雙語文本組成,沒有什么規(guī)律。對于第一種段落對照型雙語文檔,現(xiàn)有技術(shù)中主要是利用源語詞與目標(biāo)詞之間的 共現(xiàn)頻率、出現(xiàn)位置和長度等信息決定雙語詞條間互為翻譯的概率。其中,從平行語料中抽 取雙語詞典的研究在國外和國內(nèi)都得到了廣泛研究,有不少可以借鑒的方法。從非平行語 料抽取雙語詞典與從平行語料中抽取雙語詞典不同,此時無法直接利用詞之間的上述統(tǒng)計 信息,因為非平行語料中不存在互相對照的單元,因此也就不存在完全可信的共現(xiàn)頻率等 關(guān)聯(lián)信息。從非平行語料中抽取雙語詞條大致存在“上下文異質(zhì)性”方法、詞語關(guān)系矩陣 法、部分平行文檔處理法、上下文特征距離法等幾種方法。這類技術(shù)需要從互聯(lián)網(wǎng)中搜集到平行的語料,而且利用統(tǒng)計、語言學(xué)的技術(shù)進(jìn)行 雙語詞條的抽取效率不高、容易引進(jìn)噪音。目前在網(wǎng)絡(luò)上存在著很多第二種表格型雙語文檔和第三種純文本型雙語文檔詞 對,這些詞對具有一些特征,例如行型雙語詞對,即在頁面上成篇地列出,左邊為英語或漢 語,右邊為其互譯的漢語或英語;括號型雙語詞對,即利用括號表明互譯關(guān)系括號內(nèi)的英 文為括號外緊鄰中文的翻譯。這些詞條數(shù)量多、出現(xiàn)頻率高、詞條質(zhì)量高、模式固定,因此易 于抽取和處理?,F(xiàn)有的技術(shù)大都通過編寫程序,根據(jù)這些詞對分布的特征,輔以本地詞典的校驗, 將這樣的詞條從互聯(lián)網(wǎng)中抽取出來。這些技術(shù)能夠自動地從網(wǎng)頁中抽取雙語詞條,但能夠 處理的格式比較簡單,因此抽取能力比較有限。
發(fā)明內(nèi)容
本發(fā)明提供了一種利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的方法和設(shè)備,以實現(xiàn)對網(wǎng)頁中雙 語詞條的高效抽取。5
本發(fā)明提供一種利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的方法,包括根據(jù)預(yù)設(shè)的種子詞條在搜索引擎中搜索相關(guān)網(wǎng)頁并保存;提取所述種子詞條在所述網(wǎng)頁中出現(xiàn)的格式,并在所述網(wǎng)頁中提取與所述種子詞 條具有相同格式的其他雙語詞條。所述根據(jù)預(yù)設(shè)的種子詞條在搜索引擎中搜索相關(guān)網(wǎng)頁并保存包括利用預(yù)設(shè)的雙語詞表作為初始的種子詞列表,將其中的種子詞條發(fā)送到搜索引 擎,獲取搜索引擎搜索的網(wǎng)頁并保存所述網(wǎng)頁相應(yīng)的鏈接;根據(jù)所述保存的鏈接下載文檔,保存為本地HTML文件。所述保存所述網(wǎng)頁相應(yīng)的鏈接包括對重復(fù)的鏈接進(jìn)行去重整理,保存去重整理 后的鏈接;所述保存為本地HTML文件之后,還包括
保存種子詞與對應(yīng)下載文檔之間的對應(yīng)關(guān)系。提取所述種子詞條在所述網(wǎng)頁中出現(xiàn)的格式,并在所述網(wǎng)頁中提取與所述種子詞 條具有相同格式的其他雙語詞條包括根據(jù)所述網(wǎng)頁建立相應(yīng)的標(biāo)簽樹;遍歷所述標(biāo)簽樹,構(gòu)造種子節(jié)點對數(shù)組,獲取所述種子節(jié)點對數(shù)組中的每一種子 節(jié)點對的最近公共父節(jié)點;所述種子節(jié)點對包括所述種子詞條中的第一種子詞條所在節(jié) 點與第二種子詞條所在節(jié)點,所述第一種子詞條與第二種子詞條分別為不同語言的種子詞 條;尋找與所述最近公共父節(jié)點平行的其他節(jié)點,獲取所述其他節(jié)點的孩子列表;遍歷所述孩子列表中的每一節(jié)點,提取其中的雙語詞條并存儲。所述根據(jù)所述網(wǎng)頁建立相應(yīng)的標(biāo)簽樹包括解析所述HTML文件,將所述HTML文件轉(zhuǎn)化為相應(yīng)的樹結(jié)構(gòu);所述樹結(jié)構(gòu)中以 <HTML>標(biāo)簽對應(yīng)樹的根節(jié)點,其他標(biāo)簽及文本作為樹的子節(jié)點按照在所述HTML文件中的 嵌套關(guān)系排列;所述樹結(jié)構(gòu)包括不同子樹的平行結(jié)構(gòu)和相同子樹的平行結(jié)構(gòu)。所述構(gòu)造種子節(jié)點對數(shù)組包括將所述標(biāo)簽樹中所述種子詞條中的第一種子詞條所在節(jié)點與距離本節(jié)點距離最 近的第二種子詞條所在節(jié)點作為種子詞節(jié)點對,存儲在所述種子節(jié)點對數(shù)組中。所述尋找與所述最近公共父節(jié)點平行的其他節(jié)點之前,還包括提取所述第一種子詞條與所述第二種子詞條在所屬節(jié)點中出現(xiàn)的位置并存儲,建 立所述第一種子詞條與所述第二種子詞條位置的對應(yīng)關(guān)系;判斷所述第一種子詞條與所述第二種子詞條位置的對應(yīng)關(guān)系是否滿足預(yù)設(shè)的條 件,滿足時,執(zhí)行尋找與所述最近公共父節(jié)點平行的其他節(jié)點的步驟。所述遍歷所述孩子列表中的每一節(jié)點,提取其中的雙語詞條并存儲包括當(dāng)所述節(jié)點為非文本節(jié)點時,處理下一個孩子節(jié)點;判斷所述文本節(jié)點的長度是否小于種子詞條總長度的預(yù)設(shè)倍數(shù);否則,處理下一 個孩子節(jié)點;判斷所述文本節(jié)點是否匹配雙語模式;如果匹配,則提取其中的第一語言部分與第二語言部分;判斷所述第一語言部分與第二語言部分是否包含需要的字符,如果包含,則將所 述第一語言部分與第二語言部分作為一對候選雙語詞條保存,同時保存其在網(wǎng)頁中出現(xiàn)的 位置信息,處理下一孩子節(jié)點;當(dāng)所有孩子節(jié)點處理完畢以后,若滿足作為候選雙語詞條的節(jié)點數(shù)目小于預(yù)設(shè)數(shù) 目,清空所述其他節(jié)點下搜集的所有候選雙語詞條,處理其他節(jié)點。本發(fā)明提供一種利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的設(shè)備,包括網(wǎng)頁搜索單元,用于根據(jù)預(yù)設(shè)的種子詞條在搜索引擎中搜索相關(guān)網(wǎng)頁并保存;詞條提取單元,用于提取所述種子詞條在所述網(wǎng)頁中出現(xiàn)的格式,并在所述網(wǎng)頁 中提取與所述種子詞條具有相同格式的其他雙語詞條。所述網(wǎng)頁搜索單元具體用于利用預(yù)設(shè)的雙語詞表作為初始的種子詞列表,將其中的種子詞條發(fā)送到搜索引 擎,獲取搜索引擎搜索的網(wǎng)頁并保存所述網(wǎng)頁相應(yīng)的鏈接;根據(jù)所述保存的鏈接下載文檔,保存為本地HTML文件。所述網(wǎng)頁搜索單元還用于對重復(fù)的鏈接進(jìn)行去重整理,保存去重整理后的鏈接;保存種子詞與對應(yīng)下載文檔之間的對應(yīng)關(guān)系。所述詞條提取單元具體用于根據(jù)所述網(wǎng)頁建立相應(yīng)的標(biāo)簽樹;遍歷所述標(biāo)簽樹,構(gòu)造種子節(jié)點對數(shù)組,獲取所述種子節(jié)點對數(shù)組中的每一種子 節(jié)點對的最近公共父節(jié)點;所述種子節(jié)點對包括所述種子詞條中的第一種子詞條所在節(jié) 點與第二種子詞條所在節(jié)點,所述第一種子詞條與第二種子詞條分別為不同語言的種子詞 條;尋找與所述最近公共父節(jié)點平行的其他節(jié)點,獲取所述其他節(jié)點的孩子列表;遍歷所述孩子列表中的每一節(jié)點,提取其中的雙語詞條并存儲。所述詞條提取單元具體用于解析所述HTML文件,將所述HTML文件轉(zhuǎn)化為相應(yīng)的樹結(jié)構(gòu);所述樹結(jié)構(gòu)中以 <HTML>標(biāo)簽對應(yīng)樹的根節(jié)點,其他標(biāo)簽及文本作為樹的子節(jié)點按照在所述HTML文件中的 嵌套關(guān)系排列;所述樹結(jié)構(gòu)包括不同子樹的平行結(jié)構(gòu)和相同子樹的平行結(jié)構(gòu)。所述詞條提取單元還用于將所述標(biāo)簽樹中所述種子詞條中的第一種子詞條所在節(jié)點與距離本節(jié)點距離最 近的第二種子詞條所在節(jié)點作為種子詞節(jié)點對,存儲在所述種子節(jié)點對數(shù)組中。所述詞條提取單元還用于提取所述第一種子詞條與所述第二種子詞條在所屬節(jié)點中出現(xiàn)的位置并存儲,建 立所述第一種子詞條與所述第二種子詞條位置的對應(yīng)關(guān)系;判斷所述第一種子詞條與所述第二種子詞條位置的對應(yīng)關(guān)系是否滿足預(yù)設(shè)的條 件。所述詞條提取單元還用于
當(dāng)所述節(jié)點為非文本節(jié)點時,處理下一個孩子節(jié)點;判斷所述文本節(jié)點的長度是否小于種子詞條總長度的預(yù)設(shè)倍數(shù);否則,處理下一 個孩子節(jié)點;判斷所述文本節(jié)點是否匹配雙語模式;如果匹配,則提取其中的第一語言部分與 第二語言部分;判斷所述第一語言部分與第二語言部分是否包含需要的字符,如果包含,則將所 述第一語言部分與第二語言部分作為一對候選雙語詞條保存,同時保存其在網(wǎng)頁中出現(xiàn)的 位置信息,處理下一孩子節(jié)點;當(dāng)所有孩子節(jié)點處理完畢以后,若滿足作為候選雙語詞條的節(jié)點數(shù)目小于預(yù)設(shè)數(shù) 目,清空所述其他節(jié)點下搜集的所有候選雙語詞條,處理其他節(jié)點。與現(xiàn)有技術(shù)相比,本發(fā)明至少具有以下優(yōu)點本發(fā)明中,通過利用預(yù)設(shè)的種子詞條在搜索引擎中搜索相關(guān)網(wǎng)頁并保存,然后提 取種子詞條在搜索到的網(wǎng)頁中出現(xiàn)的格式,并在搜索到的網(wǎng)頁中提取與種子詞條具有相同 格式的其他雙語詞條,從而提高網(wǎng)頁中雙語詞條的抽取效率。
圖1是本發(fā)明實施例提供的利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的方法的流程示意圖;圖2是本發(fā)明實施例中語料采集模塊進(jìn)行語料采集的流程示意圖;圖3是本發(fā)明實施例表3中的HTML文檔對應(yīng)的HTML標(biāo)簽樹;圖4是本發(fā)明實施例表4中的HTML文檔對應(yīng)的HTML標(biāo)簽樹;圖5是本發(fā)明實施例表5中的HTML文檔對應(yīng)的HTML標(biāo)簽樹;圖6是本發(fā)明實施例中雙語詞條抽取模塊對網(wǎng)頁進(jìn)行分析,從中提取出雙語對照 詞條的過程示意圖;圖7是圖6所示過程中利用雙語詞條及網(wǎng)頁結(jié)構(gòu)對網(wǎng)頁進(jìn)行分析,提取其中的雙 語對照詞條的過程示意圖;圖8是本發(fā)明實施例中相同子樹平行結(jié)構(gòu)雙語詞條的抽取過程示意圖;圖9是本發(fā)明實施例中不同子樹平行結(jié)構(gòu)雙語詞條的抽取過程示意圖;圖10是本發(fā)明實施例中利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的設(shè)備的結(jié)構(gòu)示意圖。
具體實施例方式本發(fā)明的實施例利用一個雙語詞表作為初始的種子詞列表,將其中的種子詞發(fā)送 到搜索引擎,抽取搜索引擎返回的網(wǎng)頁并保存。然后對搜索引擎中抽取的某一種子詞對的 候選網(wǎng)頁,提取種子詞對在網(wǎng)頁中出現(xiàn)的格式,并在網(wǎng)頁中提取與種子詞對具有相同格式 的其它雙語詞對。將從網(wǎng)頁中提取的其它雙語詞對,作為新的種子詞對添加到種子詞列表 中,進(jìn)一步從互聯(lián)網(wǎng)中提取新的雙語詞對,從而形成迭代提取。本發(fā)明實施例提供一種利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的方法,如圖1所示,包括步驟101,根據(jù)預(yù)設(shè)的種子詞條在搜索引擎中搜索相關(guān)網(wǎng)頁并保存;步驟102,提取所述種子詞條在所述網(wǎng)頁中出現(xiàn)的格式,并在所述網(wǎng)頁中提取與所 述種子詞條具有相同格式的其他雙語詞條。
本發(fā)明的實施例中,抽取網(wǎng)頁中的雙語詞條的系統(tǒng)主要由兩個功能模塊構(gòu)成語 料采集模塊和雙語詞條抽取模塊。其中,語料采集模塊承擔(dān)抽取雙語詞條所需語料的采集 工作,根據(jù)預(yù)設(shè)的種子詞條進(jìn)行語料采集;雙語詞條抽取模塊對語料采集模塊采集的語料 進(jìn)行分析,抽取語料中的雙語詞條;然后,語料采集模塊將抽取到的雙語詞條作為新的種子 詞條,并根據(jù)新的種子詞條進(jìn)一步進(jìn)行語料采集,從而可以迭代獲取雙語詞條。下面以英漢、漢英雙語詞條的抽取過程作為例子分別描述本發(fā)明實施例提供的方 法中系統(tǒng)的語料采集模塊和雙語詞條抽取模塊的功能,當(dāng)然,本發(fā)明的實施例提供的雙語 詞條抽取技術(shù)同樣適用于其他種類的雙語詞條抽取中。首先介紹語料采集模塊。要從互聯(lián)網(wǎng)上抽取雙語詞條,需要從互聯(lián)網(wǎng)上將有可能包含雙語詞條的網(wǎng)頁搜集 起來,語料采集模塊通過在搜索引擎中搜索種子詞搜集可能包含雙語詞條的網(wǎng)頁。具體如 圖2所示,包括以下步驟步驟201,獲取一些雙語對照詞語,作為語料采集的種子詞列表。本發(fā)明實施例中,根據(jù)實際需要預(yù)先建立一個種子詞列表,該種子詞列表中包括 若干組由用戶選取的種子詞對,如表1所示表 1'Atenativeim^stmentl 另類投資. Affiliated company I關(guān)聯(lián)公司;聯(lián)營公司 American Commodities Exchange | 美國商品交易所. Base rate |基準(zhǔn)利率..,其中,每行對應(yīng)一組對照的英漢詞條,例如“Base rate"對應(yīng)于“基準(zhǔn)利率”;每行 中包含一個英文術(shù)語(如Affiliated company、Base rate)、以及對應(yīng)的一個或多個中文 術(shù)語(如關(guān)聯(lián)公司;聯(lián)營公司)。其中,原語術(shù)語和目標(biāo)語術(shù)語間以字符“|”分隔,多個目 標(biāo)語術(shù)語間以字符“;”分隔。步驟202,語料采集模塊利用搜索引擎搜索種子詞列表中的種子詞條,獲取搜索到 的網(wǎng)頁的文檔鏈接。具體的,語料采集模塊根據(jù)種子詞列表中的種子詞條構(gòu)造搜索引擎查詢指令發(fā)送 到搜索引擎,并下載搜索結(jié)果頁,從搜索結(jié)果頁中抽取該網(wǎng)頁的文檔鏈接并存儲,得到文檔 鏈接集。步驟203,對文檔鏈接集進(jìn)行去重整理并存儲。由于搜索引擎對不同的種子詞有可能獲得相同的搜索結(jié)果,得到相同的搜索結(jié)果 頁,因此,語料采集模塊通過步驟202可以獲得重復(fù)的文檔鏈接,因此需要進(jìn)一步對重復(fù)的 文檔鏈接進(jìn)行去重整理。步驟204,根據(jù)抽取的文檔鏈接,下載文檔,保存為本地的HTML文件。步驟205,將種子詞與HTML文件之間的對應(yīng)關(guān)系保存到記錄文件中,作為雙語詞 條抽取模塊的輸入。對于表1中的幾個種子詞,經(jīng)過語料采集程序處理并下載相關(guān)網(wǎng)頁后,得到的記 錄文件中有表2所示的信息
表2Alternative investment | 另類投資 | 2.htm Alternative investment | 另類投資 | 3.htm Affiliated company丨關(guān)聯(lián)公司;聯(lián)營公司丨51.htm American Commodities Exchange I 美國商品交易所丨78.htm Base rate丨基準(zhǔn)利率丨696.htm在記錄文件中,每行對應(yīng)一組雙語種子詞及與其關(guān)聯(lián)的一個標(biāo)識根據(jù)該雙語種子 詞搜索的HTML文件在本地的路徑信息,表2中以HTML文件名為例表示該路徑信息,雙語種 子詞的格式與在初始種子詞文件里的格式一樣,種子詞對應(yīng)HTML文件名與種子詞之間以 字符“ I ”分隔。特別注意的是,一個種子詞有可能具有多個對應(yīng)的HTML文件,例如表2中 的種子詞“Alternative investment另類投資”就有2個對應(yīng)的HTML文件,這是由于搜 索引擎對一組種子詞可能返回多個搜索結(jié)果。本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)理解,表2中僅是 以HTML文件名為例描述雙語種子詞與對應(yīng)HTML在本地存儲的路徑之間的對應(yīng)關(guān)系,也可 以通過其他方式建立雙語種子詞與HTML文件的對應(yīng)關(guān)系。下面介紹雙語詞條抽取模塊。在語料采集模塊利用搜索引擎將與種子詞關(guān)聯(lián)的單個或者多個網(wǎng)頁從互聯(lián)網(wǎng)上 收集到本地以后,本發(fā)明實施例通過雙語詞條抽取模塊對這些網(wǎng)頁進(jìn)行分析,從中提取出 雙語對照詞條,構(gòu)造雙語詞典。如圖6所示,本發(fā)明實施例中,雙語詞條抽取模塊對網(wǎng)頁進(jìn)行分析,從中提取出雙 語對照詞條的過程包括步驟601,雙語詞條抽取模塊進(jìn)行初始化。具體的,初始化過程包括載入繁簡體轉(zhuǎn)換列表、全角-半角轉(zhuǎn)換表、希臘字母表、 HTML與顯示有關(guān)的標(biāo)簽表以及英文詞性表等。步驟602,逐行處理語料采集模塊生成的記錄文件,對記錄文件的每一行,提取出 其中的中文詞條(對于存在多個中文詞條的情況,只取第一個分號前面的詞條)、英文詞條 及雙語詞條出現(xiàn)的網(wǎng)頁文件在本地的相對路徑。步驟603,根據(jù)雙語詞條出現(xiàn)的網(wǎng)頁文件在本地的相對路徑獲取網(wǎng)頁文件,利用雙 語詞條及網(wǎng)頁結(jié)構(gòu)對網(wǎng)頁進(jìn)行分析,提取其中的雙語對照詞條。步驟604,輸出雙語詞條,及其在網(wǎng)頁中的位置信息。具體的,步驟603中利用雙語詞條及網(wǎng)頁結(jié)構(gòu)對網(wǎng)頁進(jìn)行分析,提取其中的雙語 對照詞條的過程,如圖7所示,具體包括步驟701,HTML文本及種子詞預(yù)處理。具體的,上述預(yù)處理為根據(jù)步驟601中載入的各種列表進(jìn)行HTML文本及種子詞的 處理,包括1)替換HTML轉(zhuǎn)義符為相應(yīng)字符例如HTML轉(zhuǎn)義符“&#lt ;,&#nbsp ; ”在HTML 中表示特殊的符號,而在提取雙語詞條時,需要將“&#lt ; ,&#nbsp ; ”替換為其對應(yīng)的字符 “<,,和“”;
權(quán)利要求
1.一種利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的方法,其特征在于,包括 根據(jù)預(yù)設(shè)的種子詞條在搜索引擎中搜索相關(guān)網(wǎng)頁并保存;提取所述種子詞條在所述網(wǎng)頁中出現(xiàn)的格式,并在所述網(wǎng)頁中提取與所述種子詞條具 有相同格式的其他雙語詞條。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)的種子詞條在搜索引擎中搜 索相關(guān)網(wǎng)頁并保存包括利用預(yù)設(shè)的雙語詞表作為初始的種子詞列表,將其中的種子詞條發(fā)送到搜索引擎,獲 取搜索引擎搜索的網(wǎng)頁并保存所述網(wǎng)頁相應(yīng)的鏈接;根據(jù)所述保存的鏈接下載文檔,保存為本地HTML文件。
3.如權(quán)利要求2所述的方法,其特征在于,所述保存所述網(wǎng)頁相應(yīng)的鏈接包括對重復(fù)的鏈接進(jìn)行去重整理,保存去重整理后的 鏈接;所述保存為本地HTML文件之后,還包括 保存種子詞與對應(yīng)下載文檔之間的對應(yīng)關(guān)系。
4.如權(quán)利要求1所述的方法,其特征在于,提取所述種子詞條在所述網(wǎng)頁中出現(xiàn)的格 式,并在所述網(wǎng)頁中提取與所述種子詞條具有相同格式的其他雙語詞條包括根據(jù)所述網(wǎng)頁建立相應(yīng)的標(biāo)簽樹;遍歷所述標(biāo)簽樹,構(gòu)造種子節(jié)點對數(shù)組,獲取所述種子節(jié)點對數(shù)組中的每一種子節(jié)點 對的最近公共父節(jié)點;所述種子節(jié)點對包括所述種子詞條中的第一種子詞條所在節(jié)點與第 二種子詞條所在節(jié)點,所述第一種子詞條與第二種子詞條分別為不同語言的種子詞條; 尋找與所述最近公共父節(jié)點平行的其他節(jié)點,獲取所述其他節(jié)點的孩子列表; 遍歷所述孩子列表中的每一節(jié)點,提取其中的雙語詞條并存儲。
5.如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述網(wǎng)頁建立相應(yīng)的標(biāo)簽樹包括 解析所述HTML文件,將所述HTML文件轉(zhuǎn)化為相應(yīng)的樹結(jié)構(gòu);所述樹結(jié)構(gòu)中以<HTML>標(biāo)簽對應(yīng)樹的根節(jié)點,其他標(biāo)簽及文本作為樹的子節(jié)點按照在所述HTML文件中的嵌套關(guān) 系排列;所述樹結(jié)構(gòu)包括不同子樹的平行結(jié)構(gòu)和相同子樹的平行結(jié)構(gòu)。
6.如權(quán)利要求4所述的方法,其特征在于,所述構(gòu)造種子節(jié)點對數(shù)組包括將所述標(biāo)簽樹中所述種子詞條中的第一種子詞條所在節(jié)點與距離本節(jié)點距離最近的 第二種子詞條所在節(jié)點作為種子詞節(jié)點對,存儲在所述種子節(jié)點對數(shù)組中。
7.如權(quán)利要求4所述的方法,其特征在于,所述尋找與所述最近公共父節(jié)點平行的其 他節(jié)點之前,還包括提取所述第一種子詞條與所述第二種子詞條在所屬節(jié)點中出現(xiàn)的位置并存儲,建立所 述第一種子詞條與所述第二種子詞條位置的對應(yīng)關(guān)系;判斷所述第一種子詞條與所述第二種子詞條位置的對應(yīng)關(guān)系是否滿足預(yù)設(shè)的條件,滿 足時,執(zhí)行尋找與所述最近公共父節(jié)點平行的其他節(jié)點的步驟。
8.如權(quán)利要求4所述的方法,其特征在于,所述遍歷所述孩子列表中的每一節(jié)點,提取 其中的雙語詞條并存儲包括當(dāng)所述節(jié)點為非文本節(jié)點時,處理下一個孩子節(jié)點;判斷所述文本節(jié)點的長度是否小于種子詞條總長度的預(yù)設(shè)倍數(shù);否則,處理下一個孩 子節(jié)點;判斷所述文本節(jié)點是否匹配雙語模式;如果匹配,則提取其中的第一語言部分與第二 語言部分;判斷所述第一語言部分與第二語言部分是否包含需要的字符,如果包含,則將所述第 一語言部分與第二語言部分作為一對候選雙語詞條保存,同時保存其在網(wǎng)頁中出現(xiàn)的位置 信息,處理下一孩子節(jié)點;當(dāng)所有孩子節(jié)點處理完畢以后,若滿足作為候選雙語詞條的節(jié)點數(shù)目小于預(yù)設(shè)數(shù)目, 清空所述其他節(jié)點下搜集的所有候選雙語詞條,處理其他節(jié)點。
9.一種利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的設(shè)備,其特征在于,包括網(wǎng)頁搜索單元,用于根據(jù)預(yù)設(shè)的種子詞條在搜索引擎中搜索相關(guān)網(wǎng)頁并保存; 詞條提取單元,用于提取所述種子詞條在所述網(wǎng)頁中出現(xiàn)的格式,并在所述網(wǎng)頁中提 取與所述種子詞條具有相同格式的其他雙語詞條。
10.如權(quán)利要求9所述的設(shè)備,其特征在于,所述網(wǎng)頁搜索單元具體用于利用預(yù)設(shè)的雙語詞表作為初始的種子詞列表,將其中的種子詞條發(fā)送到搜索引擎,獲 取搜索引擎搜索的網(wǎng)頁并保存所述網(wǎng)頁相應(yīng)的鏈接;根據(jù)所述保存的鏈接下載文檔,保存為本地HTML文件。
11.如權(quán)利要求10所述的設(shè)備,其特征在于,所述網(wǎng)頁搜索單元還用于 對重復(fù)的鏈接進(jìn)行去重整理,保存去重整理后的鏈接;保存種子詞與對應(yīng)下載文檔之間的對應(yīng)關(guān)系。
12.如權(quán)利要求9所述的設(shè)備,其特征在于,所述詞條提取單元具體用于 根據(jù)所述網(wǎng)頁建立相應(yīng)的標(biāo)簽樹;遍歷所述標(biāo)簽樹,構(gòu)造種子節(jié)點對數(shù)組,獲取所述種子節(jié)點對數(shù)組中的每一種子節(jié)點 對的最近公共父節(jié)點;所述種子節(jié)點對包括所述種子詞條中的第一種子詞條所在節(jié)點與第 二種子詞條所在節(jié)點,所述第一種子詞條與第二種子詞條分別為不同語言的種子詞條; 尋找與所述最近公共父節(jié)點平行的其他節(jié)點,獲取所述其他節(jié)點的孩子列表; 遍歷所述孩子列表中的每一節(jié)點,提取其中的雙語詞條并存儲。
13.如權(quán)利要求12所述的設(shè)備,其特征在于,所述詞條提取單元具體用于解析所述HTML文件,將所述HTML文件轉(zhuǎn)化為相應(yīng)的樹結(jié)構(gòu);所述樹結(jié)構(gòu)中以<HTML> 標(biāo)簽對應(yīng)樹的根節(jié)點,其他標(biāo)簽及文本作為樹的子節(jié)點按照在所述HTML文件中的嵌套關(guān) 系排列;所述樹結(jié)構(gòu)包括不同子樹的平行結(jié)構(gòu)和相同子樹的平行結(jié)構(gòu)。
14.如權(quán)利要求12所述的設(shè)備,其特征在于,所述詞條提取單元還用于將所述標(biāo)簽樹中所述種子詞條中的第一種子詞條所在節(jié)點與距離本節(jié)點距離最近的 第二種子詞條所在節(jié)點作為種子詞節(jié)點對,存儲在所述種子節(jié)點對數(shù)組中。
15.如權(quán)利要求12所述的設(shè)備,其特征在于,所述詞條提取單元還用于提取所述第一種子詞條與所述第二種子詞條在所屬節(jié)點中出現(xiàn)的位置并存儲,建立所 述第一種子詞條與所述第二種子詞條位置的對應(yīng)關(guān)系;判斷所述第一種子詞條與所述第二種子詞條位置的對應(yīng)關(guān)系是否滿足預(yù)設(shè)的條件。
16.如權(quán)利要求12所述的設(shè)備,其特征在于,所述詞條提取單元還用于 當(dāng)所述節(jié)點為非文本節(jié)點時,處理下一個孩子節(jié)點;判斷所述文本節(jié)點的長度是否小于種子詞條總長度的預(yù)設(shè)倍數(shù);否則,處理下一個孩 子節(jié)點;判斷所述文本節(jié)點是否匹配雙語模式;如果匹配,則提取其中的第一語言部分與第二 語言部分;判斷所述第一語言部分與第二語言部分是否包含需要的字符,如果包含,則將所述第 一語言部分與第二語言部分作為一對候選雙語詞條保存,同時保存其在網(wǎng)頁中出現(xiàn)的位置 信息,處理下一孩子節(jié)點;當(dāng)所有孩子節(jié)點處理完畢以后,若滿足作為候選雙語詞條的節(jié)點數(shù)目小于預(yù)設(shè)數(shù)目, 清空所述其他節(jié)點下搜集的所有候選雙語詞條,處理其他節(jié)點。
全文摘要
本發(fā)明公開了一種利用網(wǎng)頁結(jié)構(gòu)抽取雙語詞條的方法,包括根據(jù)預(yù)設(shè)的種子詞條在搜索引擎中搜索相關(guān)網(wǎng)頁并保存;提取所述種子詞條在所述網(wǎng)頁中出現(xiàn)的格式,并在所述網(wǎng)頁中提取與所述種子詞條具有相同格式的其他雙語詞條。本發(fā)明中,通過利用預(yù)設(shè)的種子詞條在搜索引擎中搜索相關(guān)網(wǎng)頁并保存,然后提取種子詞條在搜索到的網(wǎng)頁中出現(xiàn)的格式,并在搜索到的網(wǎng)頁中提取與種子詞條具有相同格式的其他雙語詞條,從而提高網(wǎng)頁中雙語詞條的抽取效率。
文檔編號G06F17/30GK102043808SQ20091020480
公開日2011年5月4日 申請日期2009年10月14日 優(yōu)先權(quán)日2009年10月14日
發(fā)明者劉秋閣, 方高林 申請人:騰訊科技(深圳)有限公司