專利名稱:由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)料獲取技術(shù)領(lǐng)域,具體涉及雙語(yǔ)平行語(yǔ)料的獲取技術(shù)領(lǐng)域。
背景技術(shù):
統(tǒng)計(jì)機(jī)器翻譯是機(jī)器翻譯的方法之一,基本思想是通過對(duì)大量的平行語(yǔ)料進(jìn)行統(tǒng)計(jì)分析,構(gòu)建統(tǒng)計(jì)翻譯模型,進(jìn)而使用此模型進(jìn)行翻譯。近十年來(lái),統(tǒng)計(jì)機(jī)器翻譯的研究取得了很大進(jìn)展,統(tǒng)計(jì)方法逐漸成為國(guó)際上機(jī)器翻譯研究的主流方法。目前常用的機(jī)器翻譯系統(tǒng)大多采用統(tǒng)計(jì)方法,比如Google翻譯、Bing翻譯和百度翻譯。在統(tǒng)計(jì)機(jī)器翻譯技術(shù)中,平行語(yǔ)料庫(kù)起到了至關(guān)重要的作用。有充足數(shù)量和良好質(zhì)量的平行語(yǔ)料,是建立高性能統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的必要條件。目前的平行語(yǔ)料都有特定來(lái)源,它們的規(guī)模有限。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種從網(wǎng)頁(yè)中提取雙語(yǔ)平行語(yǔ)料的方法與系統(tǒng),以克服現(xiàn)有的語(yǔ)料庫(kù)收集效率低和規(guī)模不足的問題。本發(fā)明提供了由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法和系統(tǒng)。本發(fā)明所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng)包括網(wǎng)頁(yè)數(shù)據(jù)庫(kù),用于存儲(chǔ)大規(guī)模隨機(jī)爬取的網(wǎng)頁(yè)及其屬性;還用于通過網(wǎng)頁(yè)的URL進(jìn)行基于字符的散列處理,并將處理之后的所有網(wǎng)頁(yè)按照其域名的相近程度分類存儲(chǔ);將所有網(wǎng)頁(yè)按照其域名的相近程度分類存儲(chǔ)是指將每個(gè)網(wǎng)頁(yè)的域名中的主域名和每個(gè)子域名計(jì)算獲得相應(yīng)的哈希值,將主域名的哈希值相同的所有網(wǎng)頁(yè)存在一個(gè)大類中,將該大類中下一級(jí)子域名的哈希值相同的所有網(wǎng)頁(yè)再劃分到一個(gè)子類中,以此類推,將所有網(wǎng)頁(yè)分類存儲(chǔ);正文信息提取模塊,用于提取每個(gè)網(wǎng)頁(yè)的標(biāo)簽字符串,還用于提取該網(wǎng)頁(yè)中的正文內(nèi)容,并且記錄所述標(biāo)簽字符串以及該網(wǎng)頁(yè)正文內(nèi)容的編碼類型和正文長(zhǎng)度,并存儲(chǔ)至網(wǎng)頁(yè)數(shù)據(jù)庫(kù);網(wǎng)頁(yè)類型判別模塊,用于對(duì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的所有網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行語(yǔ)言種類判斷,如果所述正文內(nèi)容中存在規(guī)模相當(dāng)?shù)碾p語(yǔ)文本,則判定該混合網(wǎng)頁(yè)為混合網(wǎng)頁(yè),否則判斷該網(wǎng)頁(yè)為單語(yǔ)種網(wǎng)頁(yè);混合網(wǎng)頁(yè)處理模塊,用于對(duì)混合網(wǎng)頁(yè)中的雙語(yǔ)文本進(jìn)行互譯判別,當(dāng)判定為互譯文本時(shí),將該網(wǎng)頁(yè)中的雙語(yǔ)文本整理成雙語(yǔ)平行文本格式并保存至雙語(yǔ)語(yǔ)料庫(kù)。單語(yǔ)種網(wǎng)頁(yè)處理模塊,用于遍歷網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的每一個(gè)未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)進(jìn)行處理,對(duì)每個(gè)單語(yǔ)種網(wǎng)頁(yè)的處理過程為將該單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容與網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中其它未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行互譯判別,選擇其它未標(biāo)識(shí)匹配單語(yǔ)種網(wǎng)頁(yè)的原則是優(yōu)先選擇位于同一個(gè)子類中的單語(yǔ)種網(wǎng)頁(yè),將判定是互譯文本的兩個(gè)單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容整理成雙語(yǔ)平行文本保存至雙語(yǔ)語(yǔ)料庫(kù),并將所述兩個(gè)單語(yǔ)種網(wǎng)頁(yè)均標(biāo)識(shí)為匹配。本發(fā)明所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法包括如下步驟存儲(chǔ)大規(guī)模隨機(jī)爬取的網(wǎng)頁(yè)及其屬性至網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的步驟;通過對(duì)已存儲(chǔ)的網(wǎng)頁(yè)的URL進(jìn)行基于字符的散列處理,并將處理之后的所有網(wǎng)頁(yè)按照其域名的相近程度分類存儲(chǔ)的步驟,該步驟具體包括計(jì)算每個(gè)網(wǎng)頁(yè)的域名中的主域名和每個(gè)子域的哈希值步驟,將主域名的哈希值相同的所有網(wǎng)頁(yè)存在一個(gè)大類中的步驟,將該大類中所有網(wǎng)頁(yè)中下一級(jí)子域名的哈希值相同的所有網(wǎng)頁(yè)再劃分到一個(gè)子類中的步驟,以此類推,將所有網(wǎng)頁(yè)分類存儲(chǔ)的步驟;提取每個(gè)網(wǎng)頁(yè)的標(biāo)簽字符串的步驟;提取該網(wǎng)頁(yè)中的正文內(nèi)容的步驟;記錄提取的標(biāo)簽字符串以及相應(yīng)網(wǎng)頁(yè)正文內(nèi)容的編碼類型和正文長(zhǎng)度,并存儲(chǔ)至網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的步驟;對(duì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的所有網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行語(yǔ)言種類判斷的步驟,該步驟進(jìn)一步包括當(dāng)判定所述正文內(nèi)容中存在規(guī)模相當(dāng)?shù)碾p語(yǔ)文本時(shí),判定該混合網(wǎng)頁(yè)為混合網(wǎng)頁(yè)的步驟,否則判斷該網(wǎng)頁(yè)為單語(yǔ)種網(wǎng)頁(yè)的步驟;對(duì)混合網(wǎng)頁(yè)中的雙語(yǔ)文本進(jìn)行互譯判別的步驟,該步驟進(jìn)一步包括當(dāng)判定為互譯文本時(shí),將該網(wǎng)頁(yè)中的雙語(yǔ)文本整理成雙語(yǔ)平行文本格式并保存至雙語(yǔ)語(yǔ)料庫(kù)的步驟;遍歷網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的每一個(gè)未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)進(jìn)行處理的步驟,對(duì)每個(gè)單語(yǔ)種網(wǎng)頁(yè)的處理過程包括將該單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容與網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中其它未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行互譯判別的步驟,該步驟中選擇其它未標(biāo)識(shí)匹配單語(yǔ)種網(wǎng)頁(yè)的原則是優(yōu)先選擇位于同一個(gè)子類中的單語(yǔ)種網(wǎng)頁(yè);將判定是互譯文本的兩個(gè)單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容整理成雙語(yǔ)平行文本保存至雙語(yǔ)語(yǔ)料庫(kù),并將所述兩個(gè)單語(yǔ)種網(wǎng)頁(yè)均標(biāo)識(shí)為匹配的步驟。上述正文內(nèi)容的長(zhǎng)度是根據(jù)正文內(nèi)容中的字符數(shù)量計(jì)算獲得正文長(zhǎng)度。本發(fā)明克服了現(xiàn)有技術(shù)領(lǐng)域的技術(shù)偏見,將互聯(lián)網(wǎng)作為語(yǔ)料獲取對(duì)象,由此帶來(lái)的技術(shù)效果有I、由于互聯(lián)網(wǎng)中存在大量的雙語(yǔ)平行文本,從互聯(lián)網(wǎng)提取出雙語(yǔ)平行文本加以訓(xùn)練成雙語(yǔ)語(yǔ)料,獲取信息量大,語(yǔ)種豐富。2、由于互聯(lián)網(wǎng)中的信息是不斷更新的,因此將互聯(lián)網(wǎng)作為語(yǔ)料獲取對(duì)象獲得的雙語(yǔ)語(yǔ)料也能夠達(dá)到持續(xù)的更新和增長(zhǎng)的效果。采用本發(fā)明獲得雙語(yǔ)語(yǔ)料,能夠大大加快語(yǔ)料的收集效率,也能解決特定來(lái)源的語(yǔ)料規(guī)模不足的問題。
圖I為本發(fā)明所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng)的工作原理示意圖。
具體實(shí)施例方式具體實(shí)施方式
一、本實(shí)施方式所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng)包括網(wǎng)頁(yè)數(shù)據(jù)庫(kù),用于存儲(chǔ)大規(guī)模隨機(jī)爬取的網(wǎng)頁(yè)及其屬性;還用于通過網(wǎng)頁(yè)的URL進(jìn)行基于字符的散列處理,并將處理之后的所有網(wǎng)頁(yè)按照其域名的相近程度分類存儲(chǔ);將所有網(wǎng)頁(yè)按照其域名的相近程度分類存儲(chǔ)是指將每個(gè)網(wǎng)頁(yè)的域名中的主域名和每個(gè)子域名計(jì)算獲得相應(yīng)的哈希值,將主域名的哈希值相同的所有網(wǎng)頁(yè)存在一個(gè)大類中,將該大類中下一級(jí)子域名的哈希值相同的所有網(wǎng)頁(yè)再劃分到一個(gè)子類中,以此類推,將所有網(wǎng)頁(yè)分類存儲(chǔ);正文信息提取模塊,用于提取每個(gè)網(wǎng)頁(yè)的標(biāo)簽字符串,還用于提取該網(wǎng)頁(yè)中的正文內(nèi)容,并且記錄所述標(biāo)簽字符串以及該網(wǎng)頁(yè)正文內(nèi)容的編碼類型和正文長(zhǎng)度,并存儲(chǔ)至網(wǎng)頁(yè)數(shù)據(jù)庫(kù);網(wǎng)頁(yè)類型判別模塊,用于對(duì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的所有網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行語(yǔ)言種類判斷,如果所述正文內(nèi)容中存在規(guī)模相當(dāng)?shù)碾p語(yǔ)文本,則判定該混合網(wǎng)頁(yè)為混合網(wǎng)頁(yè),否則判斷該網(wǎng)頁(yè)為單語(yǔ)種網(wǎng)頁(yè);混合網(wǎng)頁(yè)處理模塊,用于對(duì)混合網(wǎng)頁(yè)中的雙語(yǔ)文本進(jìn)行互譯判別,當(dāng)判定為互譯文本時(shí),將該網(wǎng)頁(yè)中的雙語(yǔ)文本整理成雙語(yǔ)平行文本格式并保存至雙語(yǔ)語(yǔ)料庫(kù)。單語(yǔ)種網(wǎng)頁(yè)處理模塊,用于遍歷網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的每一個(gè)未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)進(jìn)行處理,對(duì)每個(gè)單語(yǔ)種網(wǎng)頁(yè)的處理過程為將該單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容與網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中其它未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行互譯判別,選擇其它未標(biāo)識(shí)匹配單語(yǔ)種網(wǎng)頁(yè)的原則是優(yōu)先選擇位于同一個(gè)子類中的單語(yǔ)種網(wǎng)頁(yè),將判定是互譯文本的兩個(gè)單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容整理成雙語(yǔ)平行文本保存至雙語(yǔ)語(yǔ)料庫(kù),并將所述兩個(gè)單語(yǔ)種網(wǎng)頁(yè)均標(biāo)識(shí)為匹配。所述正文內(nèi)容的長(zhǎng)度是根據(jù)正文內(nèi)容中的字符數(shù)量計(jì)算獲得正文長(zhǎng)度。
具體實(shí)施方式
二、本實(shí)施方式是對(duì)具體實(shí)施方式
一所述的網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng)中網(wǎng)頁(yè)屬性的進(jìn)一步說(shuō)明,本實(shí)施方式中,所述網(wǎng)頁(yè)屬性包括網(wǎng)頁(yè)的URL地址和爬取的時(shí)間。
具體實(shí)施方式
三、本實(shí)施方式是對(duì)具體實(shí)施方式
一所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng)的正文信息提取模塊的進(jìn)一步限定,所述正文信息提取模塊還用于對(duì)提取的網(wǎng)頁(yè)的標(biāo)簽字符串進(jìn)行判斷,當(dāng)所述標(biāo)簽字符串為<html>、〈body〉、<td>、
、〈span〉或<div>時(shí),繼續(xù)提取該網(wǎng)頁(yè)中的正文信息。本實(shí)施方式中,在正文信息提取模塊中增加了判斷標(biāo)簽字符串的功能,即有選擇型的提取網(wǎng)頁(yè)的正文,由于在上述幾種標(biāo)簽下的文本屬于正文的可能較高,因此提取上述標(biāo)簽包含的內(nèi)容,進(jìn)而減少數(shù)據(jù)處理量、增加提取信息的可用性的幾率。
具體實(shí)施方式
四、本實(shí)施方式是對(duì)具體實(shí)施方式
一所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng)的正文信息提取模塊的進(jìn)一步限定,所述正文信息提取模塊還用于在提取正文內(nèi)容之后,判斷正文內(nèi)容的長(zhǎng)度,并在所述長(zhǎng)度大于3(Γ80個(gè)字符的情況下,繼續(xù)記錄相應(yīng)信息,否則記錄該網(wǎng)頁(yè)的URL,并將該網(wǎng)頁(yè)從網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中刪除。
具體實(shí)施方式
五、本實(shí)施方式是對(duì)具體實(shí)施方式
一所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng)中互譯判別的方法的進(jìn)一步說(shuō)明,所述互譯判別的方法為利用字典遍歷獲得互譯雙語(yǔ)文本中的詞語(yǔ),并將這些詞語(yǔ)作為錨點(diǎn),判斷它們?cè)陔p語(yǔ)文本中位置是否匹配,如果匹配率大于設(shè)定值,所述設(shè)定值的取值范圍是O. 3^0. 7,則判定所述雙語(yǔ)文本為互譯文本。
具體實(shí)施方式
六、本實(shí)施方式是對(duì)具體實(shí)施方式
一所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng)中規(guī)模相當(dāng)?shù)碾p語(yǔ)文本的進(jìn)一步限定,本實(shí)施方式中所述規(guī)模相當(dāng)?shù)碾p語(yǔ)文本是指兩種語(yǔ)言文本的長(zhǎng)度比例在設(shè)定范圍內(nèi)。
具體實(shí)施方式
七、本實(shí)施方式所的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法包括如下步驟存儲(chǔ)大規(guī)模隨機(jī)爬取的網(wǎng)頁(yè)及其屬性至網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的步驟;通過對(duì)已存儲(chǔ)的網(wǎng)頁(yè)的URL進(jìn)行基于字符的散列處理,并將處理之后的所有網(wǎng)頁(yè)按照其域名的相近程度分類存儲(chǔ)的步驟,該步驟具體包括計(jì)算每個(gè)網(wǎng)頁(yè)的域名中的主域名和每個(gè)子域的哈希值步驟,將主域名的哈希值相同的所有網(wǎng)頁(yè)存在一個(gè)大類中的步驟,將該大類中所有網(wǎng)頁(yè)中下一級(jí)子域名的哈希值相同的所有網(wǎng)頁(yè)再劃分到一個(gè)子類中的步驟,以此類推,將所有網(wǎng)頁(yè)分類存儲(chǔ)的步驟;提取每個(gè)網(wǎng)頁(yè)的標(biāo)簽字符串的步驟;提取該網(wǎng)頁(yè)中的正文內(nèi)容的步驟;記錄提取的標(biāo)簽字符串以及相應(yīng)網(wǎng)頁(yè)正文內(nèi)容的編碼類型和正文長(zhǎng)度,并存儲(chǔ)至網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的步驟;對(duì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的所有網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行語(yǔ)言種類判斷的步驟,該步驟進(jìn)一步包括當(dāng)判定所述正文內(nèi)容中存在規(guī)模相當(dāng)?shù)碾p語(yǔ)文本時(shí),判定該混合網(wǎng)頁(yè)為混合網(wǎng)頁(yè)的步驟,否則判斷該網(wǎng)頁(yè)為單語(yǔ)種網(wǎng)頁(yè)的步驟;對(duì)混合網(wǎng)頁(yè)中的雙語(yǔ)文本進(jìn)行互譯判別的步驟,該步驟進(jìn)一步包括當(dāng)判定為互譯文本時(shí),將該網(wǎng)頁(yè)中的雙語(yǔ)文本整理成雙語(yǔ)平行文本格式并保存至雙語(yǔ)語(yǔ)料庫(kù)的步驟;遍歷網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的每一個(gè)未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)進(jìn)行處理的步驟,對(duì)每個(gè)單語(yǔ)種網(wǎng)頁(yè)的處理過程包括將該單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容與網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中其它未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行互譯判別的步驟,該步驟中選擇其它未標(biāo)識(shí)匹配單語(yǔ)種網(wǎng)頁(yè)的原則是優(yōu)先選擇位于同一個(gè)子類中的單語(yǔ)種網(wǎng)頁(yè);將判定是互譯文本的兩個(gè)單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容整理成雙語(yǔ)平行文本保存至雙語(yǔ)語(yǔ)料庫(kù),并將所述兩個(gè)單語(yǔ)種網(wǎng)頁(yè)均標(biāo)識(shí)為匹配的步驟。所述正文內(nèi)容的長(zhǎng)度是根據(jù)正文內(nèi)容中的字符數(shù)量計(jì)算獲得正文長(zhǎng)度。
具體實(shí)施方式
八、本實(shí)施方式是對(duì)具體實(shí)施方式
七所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法中的網(wǎng)頁(yè)屬性的進(jìn)一步限定,本實(shí)施方式中,所述網(wǎng)頁(yè)屬性包括網(wǎng)頁(yè)的URL地址和爬取的時(shí)間。
具體實(shí)施方式
九、本實(shí)施方式是對(duì)具體實(shí)施方式
七所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法的進(jìn)一步限定,所述提取每個(gè)網(wǎng)頁(yè)的標(biāo)簽字符串的步驟還包括;對(duì)提取的網(wǎng)頁(yè)的標(biāo)簽字符串進(jìn)行判斷的步驟,當(dāng)所述標(biāo)簽字符串為〈html>、〈body>、〈td>、〈p>、〈span>或<div>時(shí),繼續(xù)提取該網(wǎng)頁(yè)中的正文內(nèi)容的步驟。本實(shí)施方式中,在提取每個(gè)網(wǎng)頁(yè)的標(biāo)簽字符串的步驟中增加了判斷標(biāo)簽字符串的步驟,即有選擇型的提取網(wǎng)頁(yè)的正文,由于在上述幾種標(biāo)簽下的文本屬于正文的可能較高,因此提取上述標(biāo)簽包含的內(nèi)容,進(jìn)而減少數(shù)據(jù)處理量、增加提取信息的可用性的幾率。
具體實(shí)施方式
十、本實(shí)施方式是對(duì)具體實(shí)施方式
七所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法中提取該網(wǎng)頁(yè)中的正文內(nèi)容的步驟的進(jìn)一步限定,所述提取該網(wǎng)頁(yè)中的正文內(nèi)容的步驟進(jìn)一步包括在提取正文內(nèi)容之后,判斷正文內(nèi)容的長(zhǎng)度的步驟,并在所述長(zhǎng)度大于3(Γ80個(gè)字符的情況下,繼續(xù)記錄相應(yīng)信息,否則記錄該網(wǎng)頁(yè)的URL,并將該網(wǎng)頁(yè)從網(wǎng)頁(yè)
7數(shù)據(jù)庫(kù)中刪除的步驟。本實(shí)施方式中在提取該網(wǎng)頁(yè)中的正文內(nèi)容的步驟中贈(zèng)加了判斷正文內(nèi)容長(zhǎng)度的功能,丟棄那些長(zhǎng)度小的網(wǎng)頁(yè)。
具體實(shí)施方式
十一、本實(shí)施方式是對(duì)具體實(shí)施方式
七所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法中的互譯判別的一步限定,本實(shí)施方式中所述互譯判別的方法包括如下步驟利用字典遍歷獲得互譯雙語(yǔ)文本中的詞語(yǔ),并將這些詞語(yǔ)作為錨點(diǎn)的步驟,判斷它們?cè)陔p語(yǔ)文本中位置是否匹配的步驟,如果匹配率大于設(shè)定值,所述設(shè)定值的取值范圍是O. 3^0. 7,則判定所述雙語(yǔ)文本為互譯文本的步驟。
具體實(shí)施方式
十二、本實(shí)施方式是對(duì)具體實(shí)施方式
七所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法中規(guī)模相當(dāng)?shù)碾p語(yǔ)文本的進(jìn)一步限定,本實(shí)施方式中所述規(guī)模相當(dāng)?shù)碾p語(yǔ)文本是指兩種語(yǔ)言文本的長(zhǎng)度比例在設(shè)定范圍內(nèi)。本發(fā)明上述各實(shí)施方式所述的具體技術(shù)方案是對(duì)本發(fā)明所述技術(shù)方案的詳細(xì)說(shuō)明,不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1.由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng),其特征在于,該系統(tǒng)包括 網(wǎng)頁(yè)數(shù)據(jù)庫(kù),用于存儲(chǔ)大規(guī)模隨機(jī)爬取的網(wǎng)頁(yè)及其屬性;還用于通過網(wǎng)頁(yè)的URL進(jìn)行基于字符的散列處理,并將處理之后的所有網(wǎng)頁(yè)按照其域名的相近程度分類存儲(chǔ);將所有網(wǎng)頁(yè)按照其域名的相近程度分類存儲(chǔ)是指將每個(gè)網(wǎng)頁(yè)的域名中的主域名和每個(gè)子域名計(jì)算獲得相應(yīng)的哈希值,將主域名的哈希值相同的所有網(wǎng)頁(yè)存在一個(gè)大類中,將該大類中下一級(jí)子域名的哈希值相同的所有網(wǎng)頁(yè)再劃分到一個(gè)子類中,以此類推,將所有網(wǎng)頁(yè)分類存儲(chǔ); 正文信息提取模塊,用于提取每個(gè)網(wǎng)頁(yè)的標(biāo)簽字符串,還用于提取該網(wǎng)頁(yè)中的正文內(nèi)容,并且記錄所述標(biāo)簽字符串以及該網(wǎng)頁(yè)正文內(nèi)容的編碼類型和正文長(zhǎng)度,并存儲(chǔ)至網(wǎng)頁(yè)數(shù)據(jù)庫(kù); 網(wǎng)頁(yè)類型判別模塊,用于對(duì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的所有網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行語(yǔ)言種類判斷,如果所述正文內(nèi)容中存在規(guī)模相當(dāng)?shù)碾p語(yǔ)文本,則判定該混合網(wǎng)頁(yè)為混合網(wǎng)頁(yè),否則判斷該網(wǎng)頁(yè)為單語(yǔ)種網(wǎng)頁(yè); 混合網(wǎng)頁(yè)處理模塊,用于對(duì)混合網(wǎng)頁(yè)中的雙語(yǔ)文本進(jìn)行互譯判別,當(dāng)判定為互譯文本時(shí),將該網(wǎng)頁(yè)中的雙語(yǔ)文本整理成雙語(yǔ)平行文本格式并保存至雙語(yǔ)語(yǔ)料庫(kù)。
單語(yǔ)種網(wǎng)頁(yè)處理模塊,用于遍歷網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的每一個(gè)未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)進(jìn)行處理,對(duì)每個(gè)單語(yǔ)種網(wǎng)頁(yè)的處理過程為將該單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容與網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中其它未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行互譯判別,選擇其它未標(biāo)識(shí)匹配單語(yǔ)種網(wǎng)頁(yè)的原則是優(yōu)先選擇位于同一個(gè)子類中的單語(yǔ)種網(wǎng)頁(yè),將判定是互譯文本的兩個(gè)單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容整理成雙語(yǔ)平行文本保存至雙語(yǔ)語(yǔ)料庫(kù),并將所述兩個(gè)單語(yǔ)種網(wǎng)頁(yè)均標(biāo)識(shí)為匹配。
2.根據(jù)權(quán)I所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng),其特征在于,正文信息提取模塊,還用于對(duì)提取的網(wǎng)頁(yè)的標(biāo)簽字符串進(jìn)行判斷,當(dāng)所述標(biāo)簽字符串為〈body〉、<td>、、〈span〉或<div>時(shí),繼續(xù)提取該網(wǎng)頁(yè)中的正文信息。
3.根據(jù)權(quán)I所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng),其特征在于,正文信息提取模塊,還用于在提取正文內(nèi)容之后,判斷正文內(nèi)容的長(zhǎng)度,并在所述長(zhǎng)度大于3(Γ80個(gè)字符的情況下,繼續(xù)記錄相應(yīng)信息,否則記錄該網(wǎng)頁(yè)的URL,并將該網(wǎng)頁(yè)從網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中刪除。
4.根據(jù)權(quán)I所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的系統(tǒng),其特征在于,所述互譯判別的方法為利用字典遍歷獲得互譯雙語(yǔ)文本中的詞語(yǔ),并將這些詞語(yǔ)作為錨點(diǎn),判斷它們?cè)陔p語(yǔ)文本中位置是否匹配,如果匹配率大于設(shè)定值,所述設(shè)定值的取值范圍是O. 3^0. 7,則判定所述雙語(yǔ)文本為互譯文本。
5.根據(jù)權(quán)I所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法,其特征在于,所述規(guī)模相當(dāng)?shù)碾p語(yǔ)文本是指兩種語(yǔ)言文本的長(zhǎng)度比例在設(shè)定范圍內(nèi)。
6.由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法,其特征在于,該方法包括如下步驟 存儲(chǔ)大規(guī)模隨機(jī)爬取的網(wǎng)頁(yè)及其屬性至網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的步驟; 通過對(duì)已存儲(chǔ)的網(wǎng)頁(yè)的URL進(jìn)行基于字符的散列處理,并將處理之后的所有網(wǎng)頁(yè)按照其域名的相近程度分類存儲(chǔ)的步驟,該步驟具體包括計(jì)算每個(gè)網(wǎng)頁(yè)的域名中的主域名和每個(gè)子域的哈希值步驟,將主域名的哈希值相同的所有網(wǎng)頁(yè)存在一個(gè)大類中的步驟,將該大類中所有網(wǎng)頁(yè)中下一級(jí)子域名的哈希值相同的所有網(wǎng)頁(yè)再劃分到一個(gè)子類中的步驟,以此類推,將所有網(wǎng)頁(yè)分類存儲(chǔ)的步驟; 提取每個(gè)網(wǎng)頁(yè)的標(biāo)簽字符串的步驟; 提取該網(wǎng)頁(yè)中的正文內(nèi)容的步驟;記錄提取的標(biāo)簽字符串以及相應(yīng)網(wǎng)頁(yè)正文內(nèi)容的編碼類型和正文長(zhǎng)度,并存儲(chǔ)至網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的步驟; 對(duì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的所有網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行語(yǔ)言種類判斷的步驟,該步驟進(jìn)一步包括當(dāng)判定所述正文內(nèi)容中存在規(guī)模相當(dāng)?shù)碾p語(yǔ)文本時(shí),判定該混合網(wǎng)頁(yè)為混合網(wǎng)頁(yè)的步驟,否則判斷該網(wǎng)頁(yè)為單語(yǔ)種網(wǎng)頁(yè)的步驟; 對(duì)混合網(wǎng)頁(yè)中的雙語(yǔ)文本進(jìn)行互譯判別的步驟,該步驟進(jìn)一步包括當(dāng)判定為互譯文本時(shí),將該網(wǎng)頁(yè)中的雙語(yǔ)文本整理成雙語(yǔ)平行文本格式并保存至雙語(yǔ)語(yǔ)料庫(kù)的步驟; 遍歷網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的每一個(gè)未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)進(jìn)行處理的步驟,對(duì)每個(gè)單語(yǔ)種網(wǎng)頁(yè)的處理過程包括將該單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容與網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中其它未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行互譯判別的步驟,該步驟中選擇其它未標(biāo)識(shí)匹配單語(yǔ)種網(wǎng)頁(yè)的原則是優(yōu)先選擇位于同一個(gè)子類中的單語(yǔ)種網(wǎng)頁(yè);將判定是互譯文本的兩個(gè)單語(yǔ)種網(wǎng)頁(yè)中的正文內(nèi)容整理成雙語(yǔ)平行文本保存至雙語(yǔ)語(yǔ)料庫(kù),并將所述兩個(gè)單語(yǔ)種網(wǎng)頁(yè)均標(biāo)識(shí)為匹配的步驟。
7.根據(jù)權(quán)6所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法,其特征在于,所述網(wǎng)頁(yè)屬性包括網(wǎng)頁(yè)的URL地址和爬取的時(shí)間。
8.根據(jù)權(quán)6所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法,其特征在于,所述提取每個(gè)網(wǎng)頁(yè)的標(biāo)簽字符串的步驟還包括;對(duì)提取的網(wǎng)頁(yè)的標(biāo)簽字符串進(jìn)行判斷的步驟,當(dāng)所述標(biāo)簽字符串為〈html>、〈body〉、<td>、<p、〈span〉或<div>時(shí),繼續(xù)提取該網(wǎng)頁(yè)中的正文內(nèi)容的步驟。
9.根據(jù)權(quán)6所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法,其特征在于,提取該網(wǎng)頁(yè)中的正文內(nèi)容的步驟進(jìn)一步包括在提取正文內(nèi)容之后,判斷正文內(nèi)容的長(zhǎng)度的步驟,并在所述長(zhǎng)度大于3(Γ80個(gè)字符的情況下,繼續(xù)記錄相應(yīng)信息,否則記錄該網(wǎng)頁(yè)的URL,并將該網(wǎng)頁(yè)從網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中刪除的步驟。
10.根據(jù)權(quán)6所述的由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法,其特征在于,所述互譯判別的方法包括如下步驟利用字典遍歷獲得互譯雙語(yǔ)文本中的詞語(yǔ),并將這些詞語(yǔ)作為錨點(diǎn)的步驟,判斷它們?cè)陔p語(yǔ)文本中位置是否匹配的步驟,如果匹配率大于設(shè)定值,所述設(shè)定值的取值范圍是O. 3^0. 7,則判定所述雙語(yǔ)文本為互譯文本的步驟。
全文摘要
由網(wǎng)頁(yè)中提取雙語(yǔ)平行正文的方法和系統(tǒng),涉及語(yǔ)料獲取技術(shù)領(lǐng)域。本發(fā)明克服了現(xiàn)有的語(yǔ)料庫(kù)收集效率低和規(guī)模不足的問題。本發(fā)明所述的系統(tǒng)包括用于存儲(chǔ)大規(guī)模隨機(jī)爬取的網(wǎng)頁(yè)及其屬性的網(wǎng)頁(yè)數(shù)據(jù)庫(kù);用于提取每個(gè)網(wǎng)頁(yè)的標(biāo)簽字符串、正文內(nèi)容及相關(guān)信息的正文信息提取模塊;用于根據(jù)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的所有網(wǎng)頁(yè)的正文內(nèi)容確定混合網(wǎng)頁(yè)或單語(yǔ)種網(wǎng)頁(yè)的網(wǎng)頁(yè)類型判別模塊;用于對(duì)混合網(wǎng)頁(yè)中的雙語(yǔ)文本進(jìn)行互譯判別、將判定為互譯文本的雙語(yǔ)文本保存至雙語(yǔ)語(yǔ)料庫(kù)的混合網(wǎng)頁(yè)處理模塊;用于針對(duì)每一個(gè)未標(biāo)識(shí)匹配的單語(yǔ)種網(wǎng)頁(yè)遍歷網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的其它單語(yǔ)種網(wǎng)頁(yè),獲得存有互譯文本的兩個(gè)單語(yǔ)種網(wǎng)頁(yè),并將兩個(gè)網(wǎng)頁(yè)中的正文內(nèi)容保存至雙語(yǔ)語(yǔ)料庫(kù)單語(yǔ)種網(wǎng)頁(yè)處理模塊。
文檔編號(hào)G06F17/30GK102930031SQ20121044248
公開日2013年2月13日 申請(qǐng)日期2012年11月8日 優(yōu)先權(quán)日2012年11月8日
發(fā)明者李文強(qiáng), 劉飛, 張宇, 劉挺 申請(qǐng)人:哈爾濱工業(yè)大學(xué)