專利名稱:雙語語句對齊方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)翻譯技術(shù),尤其涉及一種雙語語句對齊方法及裝置。
背景技術(shù):
隨著資訊的快速膨脹和經(jīng)濟(jì)貿(mào)易的全球一體化,國際間的溝通日趨頻繁, 快速對大量的外文資料根據(jù)需要進(jìn)行整理、轉(zhuǎn)化和使用,已是一種普遍而緊 迫的的需求。在這種需求帶動之下,用機(jī)器翻譯系統(tǒng)來協(xié)助人們快速翻譯、 建檔,也就成為無法避免的趨勢,計(jì)算機(jī)輔助翻譯應(yīng)運(yùn)而生。
然而,目前機(jī)器翻譯系統(tǒng)與人工翻譯仍存在巨大差距。機(jī)器翻譯系統(tǒng)表 現(xiàn)不佳的一個很重要的原因在于,在于資源的缺乏,無論采用何種機(jī)器翻譯 方法,都需要大量大規(guī)模的知識資源,這些知識資源被存儲在語料庫中。雖 然網(wǎng)絡(luò)的快速發(fā)展,提供了大量而豐富的雙語對照電子文獻(xiàn),為機(jī)器輔助翻 譯提供了堅(jiān)實(shí)的語料基礎(chǔ)。但是人工添加和豐富語料庫,仍然無疑是一項(xiàng)龐 大而復(fù)雜的工作, 一個好的機(jī)器翻譯系統(tǒng)所必備的資源往往需要經(jīng)年累月的 積累。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種雙語語句對齊方法,該方法可 大大提高對齊的效率、加快語料庫的建設(shè)速度。
本發(fā)明進(jìn)一步所要解決的技術(shù)問題是提供一種雙語語句對齊裝置,該 裝置可大大提高對齊的效率、加快語料庫的建設(shè)速度。
為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案
一種雙語語句對齊方法,包括以下步驟
分句步驟,根據(jù)分句符將第一語種和第二語種分別劃分為多個語句; 分詞步驟,將每個語句根據(jù)詞典劃分為多個詞段組合;
對齊步驟,找到每對相互匹配的第一語種語句匹配和第二語種語句,并 將所述互相匹配的第一語種語句和第二語種語句對齊; 所述對齊步驟具體包括有區(qū)域劃分步驟,分別將待對齊的第一語種、第二語種按照預(yù)設(shè)的區(qū)域劃 分規(guī)則劃分為多個包含所述第一語種語句、第二語種語句的比較區(qū)域;
匹配步驟,計(jì)算每對對應(yīng)的第一語種與第二語種比較區(qū)域內(nèi)的每對語句 的相互匹配率,并根據(jù)所述相互匹配率確定相互匹配的第一語種語句和第二 語種語句組合;
執(zhí)行步驟,將所述相互匹配率最大的第一語種語句和第二語種語句組合 執(zhí)行對齊操作。
本發(fā)明還公開了相應(yīng)的雙語語句對齊裝置,該裝置包括
分句單元,與所述分句單元相連,用于根據(jù)分句符將第一語種和第二語 種分別劃分為多個語句;
分詞單元,與所述分句單元相連,用于將每個語句根據(jù)詞典劃分為多個 詞段組合;
對齊單元,與所述分詞單元相連,找到每個第一語種語句匹配的第二語 種語句,并將所述互相匹配的第一語種語句和第二語種語句對齊; 所述對齊單元具體包括有
區(qū)域劃分單元,用于分別將待對齊的第一語種、第二語種按照預(yù)設(shè)的區(qū) 域劃分規(guī)則劃分為多個包含所述第一語種語句、第二語種語句的比較區(qū)域;
匹配單元,與所述區(qū)域劃分單元相連,用于計(jì)算每對對應(yīng)的第一語種與 第二語種比較區(qū)域內(nèi)的每對語句的相互匹配率,并根據(jù)所述相互匹配率確定 相互匹配的第一語種語句和第二語種語句組合;
執(zhí)行單元,與所述匹配單元相連,用于將所述相互匹配率最大的第一語 種語句和第二語種語句組合執(zhí)行對齊操作。
本發(fā)明的有益效果是
本發(fā)明的實(shí)施例通過采用基于劃分區(qū)域的對齊方法來代替人工建設(shè)語料 庫的對齊工作,從而大大提高對齊了的效率、加快了語料庫的建設(shè)速度。 下面結(jié)合附圖對本發(fā)明作進(jìn)一步的詳細(xì)描述。
圖1是本發(fā)明提供的雙語語句對齊方法一個實(shí)施例的方法流程圖。
圖2是本發(fā)明提供的雙語語句對齊方法一個實(shí)施例中待對齊的第一語種
6和第二語種示意圖。
圖3是本發(fā)明提供的雙語語句對齊方法一個實(shí)施例中分句后的第一語種 和第二語種示意圖。
圖4是本發(fā)明提供的雙語語句對齊方法一個實(shí)施例中對齊后的第一語種 和第二語種效果示意圖。
具體實(shí)施例方式
下面參考圖1詳細(xì)描述本發(fā)明提供的雙語語句對齊方法一個實(shí)施例的方
法流程。如圖所示,本實(shí)施例執(zhí)行一次雙語語句對齊方法的流程如下
首先執(zhí)行分句步驟,即根據(jù)分句符將第一語種和第二語種分別劃分為多 個語句,具體實(shí)現(xiàn)時(shí),所述第一語種和第二語種可以是任意兩種不同語言的組 合,如中文和英文或者英文和中文。本實(shí)施例以常見的中文和英文組合為例, 中文中的句號、問號、和感嘆號都作為分句符,若待分句的語句中存在引號, 則引號中間的內(nèi)容不分隔,從其上一個起點(diǎn)開始,如果引號前是句號,則該句 號為分句符;如果引號前沒有標(biāo)點(diǎn),而引號后的標(biāo)點(diǎn)是分句符則以該分句符分 句;如果引號前沒有標(biāo)點(diǎn),而引號后的標(biāo)點(diǎn)不是分句符,則直到下一個分句符 出現(xiàn)才分句;而英文的問號、分號、感嘆號都跟中文用法一樣,但是英文句號 由于多用性,必須特殊處理,例如人名、地名、縮寫、以及數(shù)字中的小數(shù)點(diǎn)等, 當(dāng)句號作為上述用途的時(shí)候,不作為分句符處理。另外,在中英文中表示時(shí)間 分隔冒號的和數(shù)字分隔的逗號,均不作為分句符處理。
其次執(zhí)行分詞步驟,即將分好的每個語句根據(jù)詞典劃分為多個詞段組 合,對于中文分詞,主要是通過査詞典來劃分,劃分好的詞語以空格間隔, 對于會影響對齊效果的介詞或助詞,如"之,乎,者,也"等,從語句中剔 除;對于英文語句,則在去除會影響對齊效果的介詞(如"to, for, of, from" 等)之前,還需要通過査詢詞典,將詞語變型還原成原型,如"was"要變?yōu)?"is"。
再次執(zhí)行對齊步驟,即找到每個第一語種(中文)語句匹配的第二語 種(英文)語句,并將所述互相匹配的第一語種語句和第二語種語句對齊在
對齊的過程中,維持以下幾個鏈表區(qū)域劃分鏈表、匹配鏈表、中文未匹配
鏈表、英文未匹配鏈表、第一語種(中文)匹配狀態(tài)表、第二語種(英)文匹配狀態(tài)表、以及匹配率表,上述鏈表分別在下述相應(yīng)的操作中維持。
具體實(shí)現(xiàn)時(shí),如果逐句進(jìn)行比較,那么要處理iooo個語句,程序大概會
執(zhí)行三個小時(shí),這明顯是不可取的,由于意思相同的中文語句和英文語句基
本上具有一定的區(qū)域?qū)?yīng)關(guān)系,所以在執(zhí)行對齊操作前,進(jìn)行以下處理
執(zhí)行區(qū)域劃分步驟,即分別將待對齊的第一語種、第二語種按照預(yù)設(shè) 的區(qū)域劃分規(guī)則劃分為多個包含所述第一語種語句、第二語種語句的比較區(qū) 域;
具體實(shí)現(xiàn)時(shí),劃分一個合適的比較區(qū)域,是十分必要的。如果范圍劃得 過大,必定影響程序運(yùn)行速度,增加了無用操作;如果范圍劃得過小,則會 使得原本應(yīng)該在一個區(qū)域內(nèi)進(jìn)行比較而對齊的對應(yīng)語句失去比較的機(jī)會,影 響正確的對齊結(jié)果。本實(shí)施例中,采取"二分區(qū)域法"劃分比較區(qū)域,所述 二分區(qū)域法包括以下步驟
預(yù)設(shè)步驟,設(shè)定一個最大比較區(qū)域;
等分步驟,將所述第一語種或第二語種的語句按語句數(shù)等分為兩個比較 區(qū)域,并將等分后剩下的語句劃入所述兩個比較區(qū)域中的任意一個,具體實(shí) 現(xiàn)時(shí),若語句數(shù)是偶數(shù),則剩下的語句為空值,即剛好等分為兩個比較區(qū)域, 若語句數(shù)是偶數(shù),則剩下一個語句,該語句可劃入所述兩比較區(qū)域中的前一 個;
保存步驟,將劃分結(jié)果存入?yún)^(qū)域劃分鏈表;
遞歸步驟,對所述區(qū)域鏈表中上一次劃分的每個比較區(qū)域重復(fù)執(zhí)行上述 等分步驟和保存步驟,直到所述區(qū)域劃分鏈表中上一次劃分的最小的比較區(qū) 域小于所述設(shè)定的最大比較區(qū)域。
下面以中文100句,英文201句,設(shè)定的最大比較區(qū)域?yàn)?0句為例,演 示上述劃分方法
第一步中文劃分為50句,50句;英文劃分為61, 60。
第二步中文劃分為25句,25句,25句,25句;英文劃分為31句, 30句,30句,30句。
第三步中文劃分為13, 12句,13句,12句,13句,12句,13句, 12句;英文劃分為16句,15句,15句,15句,15句,15句,15, 15句。
此時(shí),得到劃分后的比較區(qū)域中的最小的比較區(qū)域?yàn)?2句,小于設(shè)定的最大比較區(qū)域20句,則區(qū)域劃分結(jié)束。
采用上述二分區(qū)域法,可確保比較區(qū)域能夠劃分到具體需要的一個值以 下、同時(shí)保證了中英文劃分區(qū)域的塊數(shù)總是相同的,便于對應(yīng)比較。
接下來的對齊操作就在對應(yīng)的比較區(qū)域內(nèi)進(jìn)行,具體實(shí)現(xiàn)時(shí),所述對齊
步驟還包括
匹配步驟,計(jì)算每對對應(yīng)的第一語種與第二語種比較區(qū)域內(nèi)的每對語句 的相互匹配率,并根據(jù)所述相互匹配率確定相互匹配的第一語種語句和第二 語種語句組合;
執(zhí)行步驟,將所述相互匹配率最大的第一語種語句和第二語種語句組合 執(zhí)行對齊操作。
具體實(shí)現(xiàn)時(shí),所述匹配步驟進(jìn)一步包括
在每對對應(yīng)的第一語種比較區(qū)域和第二語種比較區(qū)域內(nèi)尋找具有相互最
大匹配率的第一語種語句和第二語種語句組合;
將找到相互最大匹配率的語句組合存入匹配鏈表中,并將其對應(yīng)的匹配狀 態(tài)表置為已匹配狀態(tài);
將未找到相互最大匹配率的語句分別存入第一語種未匹配鏈表、第二語 種未匹配鏈表,等待下次尋找。
具體地,可通過以下方法尋找相互匹配率最大的第一語種語句和第二語 種語句組合
正向?qū)ふ也襟E,尋找與第一語種語句i匹配率最大的第二語種語句j; 反向?qū)ふ也襟E,反向?qū)ふ遗c該第二語種語句j匹配率最大的第一語種語句
k;
比較步驟,比較所述第一語種語句i和反向?qū)ふ宜玫牡谝徽Z種語句k, 若它們是同一語句,則判定該第一語種語句i與該第二語種語句j的組合為相 互匹配率最大的語句組合,否則,該次尋找失敗,所述第一語種語句i和第二 語種語句j均沒有找到相互匹配率最大的語句。
在確定了英文的第i句與中文的第j句是彼此最大匹配后,還要考慮是否
存在一句匹配兩句的情況存在,因此,還需要執(zhí)行以下步驟
以上述語句i與語句j的匹配率為基礎(chǔ),分別計(jì)算該第一語種語句i與其 前、后鄰句的組合(i-l, i)、 (i, i+l)與所述第二語種語句j的相互最大匹配
9率;以及
以上述語句i與語句j的匹配率為基礎(chǔ),分別計(jì)算該第二語種語句j與其
前、后鄰句的組合(j-l, j)、 (j, j+l)與所述第一語種語句i的相互最大匹配 率;
取上述五種相互最大匹配率中的最大值,具有該最大值的第一語種語句 和第二語種語句即為最終確定的相互匹配率最大的語句組合。 具體地,可通過以下方法計(jì)算語句的匹配率
將第一語種語句通過查詢詞典翻譯成第二語種后,以其組成語句的詞語 與需要對齊的第二語種語句中的詞語進(jìn)行逐個比較;
若比較結(jié)果相同,則去除該詞語、并根據(jù)該詞語的特性給匹配詞語數(shù)加 一個值,否則,繼續(xù)執(zhí)行下一個詞語比較,直到對應(yīng)的兩個語句中的詞語兩 兩比較結(jié)束,具體實(shí)現(xiàn)時(shí),對于普通的詞語,匹配詞語數(shù)加值為l,對于數(shù)字 或者中/英文文章中的英/中文詞語,匹配詞語數(shù)加值為2;
將匹配詞語數(shù)乘以2后,除以正執(zhí)行對齊操作的兩個語句的詞語總個數(shù), 得出匹配率,并將該匹配率存入匹配率表。
另外,具體實(shí)現(xiàn)時(shí),在匹配的過程中,為了保證比較速度,并考慮到下 述情況,即英文中對應(yīng)的能匹配上的語句,交錯分布到了中文的其他非對 應(yīng)區(qū)域內(nèi),在這種情況下,無論程序如何執(zhí)行,它們都不能跳出本區(qū)域去尋 找到對方。為了解決這個問題,就需要在遞歸過程中,不斷增大比較區(qū)域, 這樣原本劃分到不同的比較區(qū)域而導(dǎo)致無法匹配的語句便能通過逐漸增大的 對齊區(qū)域進(jìn)入同一個區(qū)域進(jìn)行比較,并匹配上。綜上,在一次匹配結(jié)束后, 本實(shí)施例還將繼續(xù)以下步驟
區(qū)域重設(shè)步驟,將所述設(shè)定的最大比較區(qū)域修改為一個更大的值后,重 新對所述第一語種和第二語種分別進(jìn)行區(qū)域劃分,并對所述重新劃分后的比 較區(qū)域內(nèi)位于未匹配鏈表中的語句再次執(zhí)行所述匹配步驟;
循環(huán)步驟,重復(fù)執(zhí)行所述區(qū)域重設(shè)步驟,直到所述最大比較區(qū)域大于一 個預(yù)設(shè)的值、或者己經(jīng)大于文章的語句總數(shù)。
最后,對齊結(jié)束后,為了豐富語料庫,還可以將所述匹配鏈表中的語句 存入語料庫中。在語料庫中,對齊的語句存儲的方式是, 一條記錄分為三個 字段,第一個字段是第一/二語種的語句內(nèi)容,第二個字段是第二/一語種的語
10句內(nèi)容,第三個字段是這上述兩個語句的匹配率。
下面詳細(xì)描述本發(fā)明提供的雙語語句對齊裝置一個實(shí)施例。本實(shí)施例主 要由以下部分組成
分句單元,與所述分句單元相連,用于根據(jù)分句符將第一語種和第二語 種分別劃分為多個語句;
分詞單元,與所述分句單元相連,用于將每個語句根據(jù)詞典劃分為多個
詞段組合;
對齊單元,與所述分詞單元相連,找到每個第一語種語句匹配的第二語 種語句,并將所述互相匹配的第一語種語句和第二語種語句對齊; 所述對齊單元進(jìn)一步包括有
區(qū)域劃分單元,用于分別將待對齊的第一語種、第二語種按照預(yù)設(shè)的區(qū) 域劃分規(guī)則劃分為多個包含所述第一語種語句、第二語種語句的比較區(qū)域; 匹配單元,與所述區(qū)域劃分單元相連,用于計(jì)算每對對應(yīng)的第一語種與
第二語種比較區(qū)域內(nèi)的每對語句的相互匹配率,并根據(jù)所述相互匹配率確定 相互匹配的第一語種語句和第二語種語句組合;
執(zhí)行單元,與所述匹配單元相連,用于將所述相互匹配率最大的第一語 種語句和第二語種語句組合執(zhí)行對齊操作。
本發(fā)明大大提高了對齊的效率,加速了語料庫的建設(shè),可節(jié)省大量人力、 財(cái)力。如下以數(shù)字分析本發(fā)明帶來的有益效果,以語料庫需要2000萬對應(yīng)語 句計(jì)算。如果聘請10位高水平的外語專職翻譯人員,每人每天工作10小時(shí) 建設(shè)語料庫,以每人每分鐘5句計(jì)算,每天可以新增3萬句,那么2000萬句, 需要666天,大抵兩年時(shí)間,方能完成。如果采用本發(fā)明,則一臺機(jī)器一分 鐘可對齊200句,以10臺機(jī)器,每天10小時(shí)工作,每天可以新增120萬句, 那么只需要17天便能完成。
以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通 技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾, 這些改進(jìn)和潤飾也視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種雙語語句對齊方法,包括以下步驟分句步驟,根據(jù)分句符將第一語種和第二語種分別劃分為多個語句;分詞步驟,將每個語句根據(jù)詞典劃分為多個詞段組合;對齊步驟,找到每對相互匹配的第一語種語句匹配和第二語種語句,并將所述互相匹配的第一語種語句和第二語種語句對齊;其特征在于,所述對齊步驟具體包括有區(qū)域劃分步驟,分別將待對齊的第一語種、第二語種按照預(yù)設(shè)的區(qū)域劃分規(guī)則劃分為多個包含所述第一語種語句、第二語種語句的比較區(qū)域;匹配步驟,計(jì)算每對對應(yīng)的第一語種與第二語種比較區(qū)域內(nèi)的每對語句的相互匹配率,并根據(jù)所述相互匹配率確定相互匹配的第一語種語句和第二語種語句組合;執(zhí)行步驟,將所述相互匹配率最大的第一語種語句和第二語種語句組合執(zhí)行對齊操作。
2、 如權(quán)利要求1所述的雙語語句對齊方法,其特征在于,所述預(yù)設(shè)的區(qū) 域劃分規(guī)則為二分區(qū)域法,所述二分區(qū)域法包括以下步驟預(yù)設(shè)步驟,設(shè)定一個最大比較區(qū)域;等分步驟,將所述第一語種或第二語種的語句按語句數(shù)等分為兩個比較 區(qū)域,并將等分后剩下的語句劃入所述兩個比較區(qū)域中的前一個; 保存步驟,將劃分結(jié)果存入?yún)^(qū)域劃分鏈表;遞歸步驟,對所述區(qū)域鏈表中上一次劃分的每個比較區(qū)域重復(fù)執(zhí)行上述 等分步驟和保存步驟,直到所述區(qū)域劃分鏈表中上一次劃分的最小的比較區(qū) 域小于所述設(shè)定的最大比較區(qū)域。
3、 如權(quán)利要求1所述的雙語語句對齊方法,其特征在于,所述匹配步驟 具體包括在每對對應(yīng)的第一語種比較區(qū)域和第二語種比較區(qū)域內(nèi)尋找具有相互最 大匹配率的第一語種語句和第二語種語句組合;將找到相互最大匹配率的語句組合存入匹配鏈表中;將未找到相互最大匹配率的語句分別存入第一語種未匹配鏈表、第二語種未匹配鏈表,等待下次尋找。
4、 如權(quán)利要求3所述的雙語語句對齊方法,其特征在于,通過以下方法尋找相互匹配率最大的第一語種語句和第二語種語句組合-正向?qū)ふ也襟E,尋找與第一語種語句i匹配率最大的第二語種語句j;反向?qū)ふ也襟E,反向?qū)ふ遗c該第二語種語句j匹配率最大的第一語種語句k;比較步驟,比較所述第一語種語句i和反向?qū)ふ宜玫牡谝徽Z種語句k,若它們是同一語句,則判定該第一語種語句i與該第二語種語句j的組合為相互匹配率最大的語句組合,否則,該次尋找失敗,所述第一語種語句i和第二語種語句j均沒有找到相互匹配率最大的語句。
5、 如權(quán)利要求4所述的雙語語句對齊方法,其特征在于,所述比較步驟之后還包括有以上述相互最大匹配率為基礎(chǔ),分別計(jì)算該第一語種語句i與其前、后鄰句的組合與所述第二語種語句j的相互最大匹配率;以及以上述相互最大匹配率為基礎(chǔ),分別計(jì)算該第二語種語句j與其前、后鄰句的組合與所述第一語種語句i的相互最大匹配率;取上述五種相互最大匹配率中的最大值,具有該最大值的第一語種語句和第二語種語句即為最終確定的相互匹配率最大的語句組合。
6、 如權(quán)利要求5所述的雙語語句對齊方法,其特征在于,通過以下方法計(jì)算語句的匹配率將第一/二語種語句通過査詢詞典翻譯成第二/一語種后,以其組成語句的詞語與對應(yīng)的第二/一語種比較區(qū)域內(nèi)的語句中的詞語進(jìn)行逐個比較;若比較結(jié)果相同,則去除該詞語、并根據(jù)該詞語的特性給匹配詞語數(shù)加一個值,否則,繼續(xù)執(zhí)行下一個詞語比較,直到對應(yīng)的兩個語句中的詞語兩兩比較結(jié)束;將匹配詞語數(shù)乘以2后,除以正執(zhí)行對齊操作的兩個語句的詞語總個數(shù),得出匹配率,并將該匹配率存入匹配率表。
7、 如權(quán)利要求3-6中任一項(xiàng)所述的雙語語句對齊方法,其特征在于,所 述匹配步驟之后還包括有區(qū)域重設(shè)步驟,將所述設(shè)定的最大比較區(qū)域修改為一個更大的值后,重 新對所述第一語種和第二語種分別進(jìn)行區(qū)域劃分,并對所述重新劃分后的比較區(qū)域內(nèi)位于未匹配鏈表中的語句再次執(zhí)行所述匹配步驟;循環(huán)步驟,重復(fù)執(zhí)行所述區(qū)域重設(shè)步驟,直到所述最大比較區(qū)域大于一 個預(yù)設(shè)的值、或者已經(jīng)大于文章的語句總數(shù)。
8、 如權(quán)利要求1所述的雙語語句對齊方法,其特征在于,該方法還包括 將所述匹配鏈表中的語句存入語料庫中。
9、 如權(quán)利要求1所述的雙語語句對齊方法,其特征在于,所述第一語種 和第二語種分別為中文和英文或者英文和中文。
10、 一種雙語語句對齊裝置,該裝置包括有分句單元,與所述分句單元相連,用于根據(jù)分句符將第一語種和第二語種分別劃分為多個語句;分詞單元,與所述分句單元相連,用于將每個語句根據(jù)詞典劃分為多個詞段組合;對齊單元,與所述分詞單元相連,找到每個第一語種語句匹配的第二語 種語句,并將所述互相匹配的第一語種語句和第二語種語句對齊; 其特征在于,所述對齊單元具體包括有區(qū)域劃分單元,用于分別將待對齊的第一語種、第二語種按照預(yù)設(shè)的區(qū) 域劃分規(guī)則劃分為多個包含所述第一語種語句、第二語種語句的比較區(qū)域;匹配單元,與所述區(qū)域劃分單元相連,用于計(jì)算每對對應(yīng)的第一語種與 第二語種比較區(qū)域內(nèi)的每對語句的相互匹配率,并根據(jù)所述相互匹配率確定 相互匹配的第一語種語句和第二語種語句組合;執(zhí)行單元,與所述匹配單元相連,用于將所述相互匹配率最大的第一語 種語句和第二語種語句組合執(zhí)行對齊操作。
全文摘要
本發(fā)明公開一種雙語語句對齊方法,包括以下步驟分句步驟;分詞步驟;對齊步驟;其特征在于,所述對齊步驟具體包括有區(qū)域劃分步驟,分別將待對齊的第一語種、第二語種按照預(yù)設(shè)的區(qū)域劃分規(guī)則劃分為多個包含所述第一語種語句、第二語種語句的比較區(qū)域;匹配步驟,計(jì)算每對對應(yīng)的第一語種與第二語種比較區(qū)域內(nèi)的每對語句的相互匹配率,并根據(jù)所述相互匹配率確定相互匹配的第一語種語句和第二語種語句組合;執(zhí)行步驟,將所述相互匹配率最大的第一語種語句和第二語種語句組合執(zhí)行對齊操作。本發(fā)明還公開了相應(yīng)的雙語語句對齊裝置。本發(fā)明可大大提高對齊的效率、加快語料庫的建設(shè)速度。
文檔編號G06F17/28GK101488126SQ20081024211
公開日2009年7月22日 申請日期2008年12月31日 優(yōu)先權(quán)日2008年12月31日
發(fā)明者張玉志 申請人:深圳市點(diǎn)通數(shù)據(jù)有限公司