一種語料庫的過濾方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機(jī)器翻譯技術(shù)領(lǐng)域,特別涉及一種語料庫的過濾方法及裝置。
【背景技術(shù)】
[0002] 語料庫指經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫。借助計(jì)算機(jī)分析工具,科研和 企業(yè)單位可開展相關(guān)的語言理論及應(yīng)用研宄。
[0003] 可以說,語料庫是自然語言處理多項(xiàng)領(lǐng)域技術(shù)的基礎(chǔ)。按照語料的語種,語料庫 也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)語料 庫。按照語料的采集單位,語料庫又可以分為篇章的、句子的、短語的。雙語和多語語料庫 按照語料的組織形式,還可以分為平行(對(duì)齊)語料庫(Parallel Corpora)和比較語料庫 (Comparable Corpora),前者的語料構(gòu)成譯文關(guān)系,多用于機(jī)器翻譯、雙語詞典編撰等應(yīng)用 領(lǐng)域,后者將表述同樣內(nèi)容的不同語言文本收集到一起,多用于語言對(duì)比研宄。雙語平行語 料庫是兩種語言對(duì)的篇章、段落和句子級(jí)別的對(duì)齊文本。
[0004] 再具體的講,不同的語料庫可以用于不同的應(yīng)用領(lǐng)域。如面向機(jī)器翻譯的語料庫 訓(xùn)練集、面向文本分類研宄的中英文新聞、法律分類語料、以IG卡方等特征詞選擇方法生 成的多維度ARFF格式中文VSM模型、萬篇隨機(jī)抽取論文中文DBLP資源、用于非監(jiān)督中文分 詞算法的中文分詞詞庫、UCI評(píng)價(jià)排序數(shù)據(jù)、帶有初始化說明的情感分析數(shù)據(jù)集等。
[0005] 大規(guī)模"語料庫"已經(jīng)成為大數(shù)據(jù)時(shí)代的"寵兒"。如今我們可以從這些大規(guī)模的真 實(shí)的文本中提取中各種有用的信息??傮w來講,語料庫是當(dāng)前各種自然語言處理(比如,機(jī) 器翻譯、拼音漢字轉(zhuǎn)換、語音識(shí)別、文本分類和聚類、人機(jī)問答系統(tǒng)等)的基礎(chǔ)性工作,很多 工作沒有它,當(dāng)前主流的統(tǒng)計(jì)方法,也就毫無根基可言了。經(jīng)過不同深度加工的(純文本、 分詞文本、標(biāo)注文本、語義文本、篇章對(duì)齊文本、句子對(duì)齊文本等)真實(shí)文本的語料庫,是研 宄自然語言統(tǒng)計(jì)性質(zhì)的基礎(chǔ)。沒有它們,統(tǒng)計(jì)方法只能是無源之水。鑒于語料庫的重要性, 過濾"大規(guī)模的"、"真實(shí)的"文本語料庫就顯得十分重要了。
[0006] 平行語料庫在自然語言處理多項(xiàng)領(lǐng)域技術(shù)中起到了舉足輕重的作用,然而當(dāng)前存 在的平行語料庫絕大部分為句對(duì)的羅列,還不存在一個(gè)公開已知的,高質(zhì)量的平行語料庫, 及把句子中存在的關(guān)鍵詞(單詞、術(shù)語、未登錄詞等)同時(shí)作為雙語句對(duì)的平行語料庫。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明要解決的技術(shù)問題是過濾高質(zhì)量的平行語料庫,既可以過濾高質(zhì)量的雙語 資源,也可以顯著的提高統(tǒng)計(jì)機(jī)器翻譯的質(zhì)量。
[0008] 為了解決上述問題,本發(fā)明提供了一種語料庫的過濾方法,包括:從網(wǎng)絡(luò)上獲取 由網(wǎng)絡(luò)文本構(gòu)成的第一平行語料庫,對(duì)獲取的網(wǎng)絡(luò)文本進(jìn)行過濾、對(duì)齊,得到第二平行語料 庫。
[0009] 本發(fā)明還提供了一種語料庫的過濾裝置,包括:獲取單元,用于從網(wǎng)絡(luò)上獲取由網(wǎng) 絡(luò)文本構(gòu)成的第一平行語料庫;過濾單元,用于對(duì)獲取的網(wǎng)絡(luò)文本進(jìn)行過濾、對(duì)齊,得到第 二平行語料庫。
[0010] 本發(fā)明的技術(shù)方案既可以過濾高質(zhì)量的雙語資源,也可以顯著的提高統(tǒng)計(jì)機(jī)器翻 譯的質(zhì)量
【附圖說明】
[0011] 圖1統(tǒng)計(jì)機(jī)器翻譯中的信源噪聲模型示意圖;
[0012] 圖2基于關(guān)鍵詞的雙語平行語料庫過濾步驟流程示意圖;
[0013] 圖3第一平行語料庫獲取步驟流程示意圖;
[0014] 圖4 2-gram中的對(duì)齊現(xiàn)象示意圖;
[0015] 圖5 1500萬英中傳統(tǒng)平行語料庫的領(lǐng)域分布示意圖;
[0016] 圖6-種語料庫的過濾裝置示意圖。
【具體實(shí)施方式】
[0017] 下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行更詳細(xì)的說明。
[0018] 需要說明的是,如果不沖突,本發(fā)明實(shí)施例以及實(shí)施例中的各個(gè)特征可以相互結(jié) 合,均在本發(fā)明的保護(hù)范圍之內(nèi)。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況 下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0019] 實(shí)施例一,一種語料庫的過濾方法,包括:
[0020] 從網(wǎng)絡(luò)上獲取由網(wǎng)絡(luò)文本構(gòu)成的第一平行語料庫,對(duì)獲取的網(wǎng)絡(luò)文本進(jìn)行過濾、 對(duì)齊,得到第二平行語料庫。
[0021] 具體的,語料庫是能反映出現(xiàn)實(shí)世界的大規(guī)模真實(shí)電子文本。雙語平行語料庫是 兩種語言對(duì)的篇章、段落和句子級(jí)別的對(duì)齊文本。
[0022] 進(jìn)一步地,所述獲取第一平行語料庫的步驟為:
[0023] 源網(wǎng)站搜集;
[0024] 爬蟲獲取網(wǎng)站HTML;
[0025] HTML 解析;
[0026] 對(duì)齊,包括篇章對(duì)齊、句子、短語對(duì)齊;
[0027] 噪音去除;
[0028] 得到第一平行語料庫。
[0029] 具體的,本發(fā)明基于NeroHTML函數(shù)和Xpath語言的網(wǎng)絡(luò)文本獲取。NekoHTML是 一個(gè)簡單地HTML掃描器(scanner)和標(biāo)簽補(bǔ)償器(tag balancer),使得程序能解析HTML 文檔并用標(biāo)準(zhǔn)的XML接口來訪問其中的信息。簡單的講它可以解析、修整和凈化html文 檔,可以自動(dòng)關(guān)閉標(biāo)記,修補(bǔ)一些常見的錯(cuò)誤,也可以用NekoHTML從HTML文檔里抽取文本。 XPath是一門在XML文檔中查找信息的語言。它可用來在XML文檔中對(duì)元素和屬性進(jìn)行遍 歷。使用這種方法,可以獲取比較規(guī)范的網(wǎng)絡(luò)文本,便于后邊的對(duì)齊。
[0030] 進(jìn)一步地,在第一平行語料庫中自動(dòng)對(duì)齊抽取關(guān)鍵詞對(duì),然后對(duì)抽取的所述關(guān)鍵 詞對(duì)進(jìn)行概率去除法或相似度去除法過濾;所述概率去除法,即把低概率的關(guān)鍵詞對(duì)齊對(duì) 去除;所述相似度去除法,為從已知的雙語詞典中,去和抽取出來的關(guān)鍵詞進(jìn)行相似度計(jì) 算,取相似度高的關(guān)鍵詞對(duì)齊對(duì)。
[0031] 具體的,基于關(guān)鍵詞的雙語平行語料庫,關(guān)鍵詞為語言學(xué)上的短語。例如,:給定一 個(gè)英文句子,我們很可能不知道整句話的確切翻譯,宄其原因就是對(duì)句中的部分詞或者短 語不知道確切的翻譯。但是如果被告知這些"關(guān)鍵詞"很快的就能理解整個(gè)句子的意思。
[0032] 對(duì)于部分"關(guān)鍵詞"的不可知性,導(dǎo)致難于理解或者理解不全一句話,這