一種提高法律文件翻譯準(zhǔn)確性的方法
【專利摘要】一種提高法律文件翻譯準(zhǔn)確性的方法,包括:判斷待譯文檔是否歸屬于法律文本;當(dāng)判定所述待譯文檔歸屬法律文本時(shí),將所述待譯文檔中每個(gè)具有法律詞義的詞匯按照其法律詞義進(jìn)行翻譯。本發(fā)明通過判斷待譯文檔是否歸屬于法律文本,有效的提高了對(duì)法律文本的識(shí)別能力,保證了法律文本的翻譯準(zhǔn)確性。
【專利說明】一種提高法律文件翻譯準(zhǔn)確性的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及對(duì)法律文件翻譯【技術(shù)領(lǐng)域】,尤其是涉及一種提高法律文件翻譯準(zhǔn)確性 的方法。
【背景技術(shù)】
[0002] 在法律文本中,許多在一般文本經(jīng)常出現(xiàn)的普通詞匯往往具有特定、專業(yè)的含義, 為保證法律文本翻譯的準(zhǔn)確性和嚴(yán)謹(jǐn)性,對(duì)此類詞匯,不能采用通常的詞義進(jìn)行翻譯,必須 按照其在法律文體中所具有的特定、專業(yè)的詞義進(jìn)行翻譯。由于此類詞匯往往具有常用性 和多義性,對(duì)于此類詞匯的準(zhǔn)確翻譯,即便是與法律專業(yè)出身,具有扎實(shí)的語言和專業(yè)基礎(chǔ) 的翻譯人員也難免在翻譯過程中出現(xiàn)疏漏。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的之一是提供一種提高法律文件翻譯準(zhǔn)確性的方法,以解決現(xiàn)有技術(shù) 中對(duì)法律文本的翻譯準(zhǔn)確性低的問題。
[0004] 在一些說明性實(shí)施例中,所述獲取專業(yè)詞匯譯文的方法,包括:判斷待譯文檔是否 歸屬于法律文本;當(dāng)判定所述待譯文檔歸屬法律文本時(shí),將所述待譯文檔中每個(gè)具有法律 詞義的詞匯按照其法律詞義進(jìn)行翻譯。
[0005] 與現(xiàn)有技術(shù)相比,本發(fā)明的說明性實(shí)施例包括以下優(yōu)點(diǎn):
[0006] 通過判斷待譯文檔是否歸屬于法律文本,有效的提高了對(duì)法律文本的識(shí)別能力, 保證了法律文本的翻譯準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0007] 此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā) 明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0008] 圖1是按照本發(fā)明的說明性實(shí)施例的流程圖;
[0009] 圖2是按照本發(fā)明的說明性實(shí)施例的流程圖;
[0010] 圖3是按照本發(fā)明的說明性實(shí)施例的流程圖。
【具體實(shí)施方式】
[0011] 在以下詳細(xì)描述中,提出大量特定細(xì)節(jié),以便于提供對(duì)本發(fā)明的透徹理解。但是, 本領(lǐng)域的技術(shù)人員會(huì)理解,即使沒有這些特定細(xì)節(jié)也可實(shí)施本發(fā)明。在其它情況下,沒有詳 細(xì)描述眾所周知的方法、過程、組件和電路,以免影響對(duì)本發(fā)明的理解。
[0012] 為了更好的理解本發(fā)明中的說明性實(shí)施例,下面對(duì)本發(fā)明說明性實(shí)施例中的一些 術(shù)語進(jìn)行簡(jiǎn)單說明。
[0013] 本文中所使用的術(shù)語"詞匯"應(yīng)該理解為各個(gè)語種的具有獨(dú)立意義的字或單詞,以 及由字或單詞組成的詞語或詞組。語種例如英文、中文、日文、法文等,本領(lǐng)域技術(shù)人員應(yīng)該 可以了解本發(fā)明中的說明性實(shí)施例中的詞匯適用的語種不僅僅是英文、中文、日文和法文, 還可以是其他具有字詞結(jié)構(gòu)的語種,在此不再窮舉。
[0014] 機(jī)器翻譯引擎具有查找、索引、替換等功能,構(gòu)成的自動(dòng)翻譯技術(shù),是基于各種語 料數(shù)據(jù)庫作為基礎(chǔ)實(shí)現(xiàn)。
[0015] 現(xiàn)在參照?qǐng)D1,圖1示出了在一些說明性實(shí)施例中翻譯的流程圖。
[0016] 如圖1所示,在一些說明性實(shí)施例中,公開了一種提高法律文件的翻譯準(zhǔn)確性的 方法,包括:
[0017] S11、判斷待譯文檔是否歸屬于法律文本;
[0018] S12、當(dāng)判定所述待譯文檔歸屬法律文本時(shí),將所述待譯文檔中每個(gè)具有法律詞義 的詞匯按照其法律詞義進(jìn)行翻譯。
[0019] 通過判斷待譯文檔是否歸屬于法律文本,有效的提高了對(duì)法律文本的識(shí)別能力, 保證了法律文本的翻譯準(zhǔn)確性。
[0020] 在一些說明性實(shí)施例中,判斷待譯文檔是否歸屬于法律文本的過程,包括:
[0021] S21、將所述待譯文檔中的每個(gè)待譯詞匯在法律文件語料庫中進(jìn)行匹配,將匹配成 功的詞匯作為候選法律詞匯;
[0022] 其中,系統(tǒng)接收并掃描待譯文檔,確定待譯文檔中的每個(gè)待譯詞匯,獲取每個(gè)待譯 詞匯在待譯文檔中所在的語句;其中,語句可以是指以句號(hào)為結(jié)尾的整句,也可以是指由其 他標(biāo)點(diǎn)符號(hào)結(jié)尾的子句。
[0023] S22、根據(jù)關(guān)聯(lián)項(xiàng)映射表,確定每個(gè)所述候選法律詞匯在所述待譯文檔的所在語句 中具有的所有關(guān)聯(lián)項(xiàng),以及每個(gè)所述關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù);
[0024] 其中,所述關(guān)聯(lián)項(xiàng)映射表中的每個(gè)詞匯對(duì)應(yīng)至少一個(gè)具有關(guān)聯(lián)系數(shù)的關(guān)聯(lián)項(xiàng);
[0025] S23、對(duì)每個(gè)所述候選法律詞匯的所有關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù)進(jìn)行計(jì)算,結(jié)果滿足給定 條件時(shí),將該候選法律詞匯作為法律詞匯。
[0026] 通過對(duì)待譯詞匯進(jìn)行關(guān)聯(lián)分析,可以準(zhǔn)確的判斷出待譯詞匯是否應(yīng)該按照法律詞 義進(jìn)行翻譯,提高翻譯的準(zhǔn)確性,并且通過統(tǒng)一、標(biāo)準(zhǔn)的翻譯,無需通過審校員進(jìn)行審校,大 大提高了整個(gè)翻譯的效率。
[0027] 在一些說明性實(shí)施例中,判斷待譯文檔是否歸屬于法律文本也可以通過用戶指定 該待譯文檔是否為法律文本來確定。
[0028] 在法律文本中,許多在一般文本中經(jīng)常出現(xiàn)的普通詞匯往往具有特定、專業(yè)的含 義,為保證法律文本翻譯的準(zhǔn)確性和嚴(yán)謹(jǐn)性,對(duì)此類詞匯,不能采用通常的詞義進(jìn)行翻譯, 必須按照其在法律文體中所具有的特定、專業(yè)的詞義進(jìn)行翻譯。法律文件語料庫包含了具 有法律文本性質(zhì)的詞匯,例如表1所示,其中表1示出了部分此類詞匯。
[0029] 表 1
[0030]
【權(quán)利要求】
1. 一種提高法律文件翻譯準(zhǔn)確性的方法,其特征在于,包括: 判斷待譯文檔是否歸屬于法律文本; 當(dāng)判定所述待譯文檔歸屬法律文本時(shí),將所述待譯文檔中每個(gè)具有法律詞義的詞匯按 照其法律詞義進(jìn)行翻譯。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷待譯文檔是否歸屬于法律文本, 具體包括: 將所述待譯文檔中的每個(gè)詞匯在法律文件語料庫中進(jìn)行匹配,將匹配成功的詞匯作為 候選法律詞匯; 根據(jù)關(guān)聯(lián)項(xiàng)映射表,確定每個(gè)所述候選法律詞匯在所述待譯文檔的所在語句中具有的 所有關(guān)聯(lián)項(xiàng),以及每個(gè)所述關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù); 其中,所述關(guān)聯(lián)項(xiàng)映射表中的每個(gè)詞匯對(duì)應(yīng)至少一個(gè)具有關(guān)聯(lián)系數(shù)的關(guān)聯(lián)項(xiàng); 對(duì)每個(gè)所述候選法律詞匯的所有關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù)進(jìn)行計(jì)算,結(jié)果滿足給定條件時(shí), 將該候選法律詞匯作為法律詞匯。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,在確定所述關(guān)聯(lián)項(xiàng)及關(guān)聯(lián)系數(shù)之前,還包 括: 建立所述關(guān)聯(lián)項(xiàng)映射表,其過程包括: 提取基礎(chǔ)數(shù)據(jù)庫中包含有詞匯w的所有語句,構(gòu)建第一語句集; 去除所述第一語句集中詞匯w未按照法律詞義翻譯的所有語句,構(gòu)建第二語句集; 對(duì)所述第一語句集中的每個(gè)語句進(jìn)行分詞處理,去除其中的停用詞,將得到的詞匯作 為候選關(guān)聯(lián)詞匯,建立候選關(guān)聯(lián)詞匯集WCN= (Wcn1, wcn2,…,wcnj ; 計(jì)算所述第二語句集在所述第一語句集中的語句占比P (w); 計(jì)算所述第一語句集中包含候選關(guān)聯(lián)詞匯wcnjl < i < 1)的語句在第一語句集中的 占比 P (Wcni); 計(jì)算第二語句集中包含候選關(guān)聯(lián)詞匯Wcni的語句在第二語句集中的占比P (Wcni I w) 比; 根據(jù)P (w)、P (Wcni)、P (Wcni I w)計(jì)算出每個(gè)候選關(guān)聯(lián)詞匯的詞頻系數(shù); 所述詞頻系數(shù)大于閾值的所述候選關(guān)聯(lián)詞匯作為關(guān)聯(lián)詞匯; 根據(jù)獲得的所述關(guān)聯(lián)詞匯,確定關(guān)聯(lián)項(xiàng)以及其關(guān)聯(lián)系數(shù),建立所述關(guān)聯(lián)項(xiàng)映射表。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,計(jì)算出每個(gè)候選關(guān)聯(lián)詞匯的詞頻系數(shù)的 過程,包括: 按照如下公式計(jì)算出所述詞頻系數(shù);
5. 根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)獲得的所述關(guān)聯(lián)詞匯,確定關(guān)聯(lián)項(xiàng)以 及其關(guān)聯(lián)系數(shù)的過程,包括: 將每個(gè)關(guān)聯(lián)詞匯作為一個(gè)單項(xiàng)關(guān)聯(lián)項(xiàng),每個(gè)單項(xiàng)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù)為其詞頻系數(shù); 將所有關(guān)聯(lián)詞匯中的每個(gè)唯一組合作為一個(gè)多項(xiàng)關(guān)聯(lián)項(xiàng),每個(gè)所述多項(xiàng)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián) 系數(shù)通過公式: P (An IA1A2…Alri) = P (A1Af An)/P (Alri IA1A2…An_2) X …X P (A21A1) X P (A1)遞推計(jì)算得 至|J,其中,PMnIA1A2…Alri)為多項(xiàng)關(guān)聯(lián)項(xiàng)A 1AfAlri的關(guān)聯(lián)系數(shù)。
6. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述候選關(guān)聯(lián)詞匯集中的候選關(guān)聯(lián)詞匯 為名詞、動(dòng)詞、形容詞、副詞、習(xí)語或縮略語。
7. 根據(jù)權(quán)利要求2所述的方法,其特征在于,對(duì)每個(gè)所述候選法律詞匯的所有關(guān)聯(lián)項(xiàng) 的關(guān)聯(lián)系數(shù)進(jìn)行計(jì)算的過程,包括: 按照如下公式計(jì)算出所述候選法律詞匯的權(quán)重P (spec): P (spec) - Σ i e 仏 2, ...,n}Pi_ Σ i,j e (12, ...,n},i 矣 jPiPj+ Σ i,j,k e {1,2, ...,n},i 矣 j 矣 kPiPjPk-··· + (_1) "+1P1P2 …Pn ; 其中,和、Pk和PnS關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù);n為待譯詞匯關(guān)聯(lián)項(xiàng)的項(xiàng)數(shù),i、j、k為關(guān) 聯(lián)項(xiàng)的序號(hào),1彡i、j、k彡η。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述給定條件至少包含以下之一: 1) 、P (spec) = 1 ; 2) 、P (spec)不小于預(yù)先設(shè)定的權(quán)重閾值; 3) 、P (spec)分別大于所述候選法律詞匯的一定數(shù)量的關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù)。
【文檔編號(hào)】G06F17/28GK104391838SQ201410405248
【公開日】2015年3月4日 申請(qǐng)日期:2014年8月18日 優(yōu)先權(quán)日:2014年8月18日
【發(fā)明者】江潮, 張芃 申請(qǐng)人:武漢傳神信息技術(shù)有限公司