亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

多維度待譯文檔的預(yù)處理方法

文檔序號(hào):6527005閱讀:232來源:國知局
多維度待譯文檔的預(yù)處理方法
【專利摘要】本發(fā)明公開了一種多維度待譯文檔的預(yù)處理方法,包括:統(tǒng)計(jì)所述待譯文檔包括的行業(yè)類別屬性的數(shù)量和所述待譯文檔的類符形符比;分別判斷所述待譯文檔包括的行業(yè)類別屬性的數(shù)量相對(duì)于行業(yè)類別屬性設(shè)定閾值的大小、所述待譯文檔的類符形符比相對(duì)于類符形符比設(shè)定閾值的大小,根據(jù)所述待譯文檔的類符形符比相對(duì)于類符形符比設(shè)定閾值的大小匹配所述待譯文檔的翻譯難度系數(shù);根據(jù)這兩種判斷結(jié)果選擇將所述待譯文檔按所述行業(yè)類別屬性或者所述待譯文檔的翻譯難度系數(shù)拆分。本發(fā)明通過對(duì)待譯文檔進(jìn)行合理的預(yù)處理,將待譯文檔分配給譯員翻譯之前進(jìn)行判斷選擇最合適的拆分方式,使待譯文檔能夠匹配到最適合的譯員,加快翻譯待譯文檔的速度。
【專利說明】多維度待譯文檔的預(yù)處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及翻譯【技術(shù)領(lǐng)域】,具體地說,涉及一種多維度待譯文檔的預(yù)處理方法。
【背景技術(shù)】
[0002]在全球化、國際化的今天,世界政治、經(jīng)濟(jì)、文化的交流越來越頻繁,各國人員的往來也越來越密集,使得對(duì)翻譯的需求也越來越大;同時(shí)隨著互聯(lián)網(wǎng)的興起,各語種的信息量爆發(fā)性增長,各語種信息之間的轉(zhuǎn)換需求也呈快速增長的態(tài)勢(shì)。
[0003]面對(duì)海量的多語信息轉(zhuǎn)換和翻譯任務(wù),目前自翻譯和小規(guī)模工作間式的翻譯模式已完全無法適應(yīng)。翻譯作為一個(gè)產(chǎn)業(yè),其規(guī)模越來越大,其作用也越來越重要,現(xiàn)有翻譯方式僅將待譯文檔按照學(xué)科等粗略分類就分配個(gè)譯員翻譯,使的有些譯員并不適合翻譯該待譯文檔,從而使得翻譯速度較慢。

【發(fā)明內(nèi)容】

[0004]本發(fā)明所要解決的技術(shù)問題是現(xiàn)有的翻譯模式對(duì)待譯文檔的預(yù)處理不合理,使得后續(xù)的翻譯速度較慢。
[0005]本發(fā)明的技術(shù)方案如下:
[0006]一種多維度待譯文檔的預(yù)處理方法,包括:統(tǒng)計(jì)所述待譯文檔包括的行業(yè)類別屬性的數(shù)量和所述待譯文檔的類符形符比;分別判斷所述待譯文檔包括的行業(yè)類別屬性的數(shù)量相對(duì)于行業(yè)類別屬性設(shè)定閾值的大小、所述待譯文檔的類符形符比相對(duì)于類符形符比設(shè)定閾值的大小,根據(jù)所述待譯文檔的類符形符比相對(duì)于類符形符比設(shè)定閾值的大小匹配所述待譯文檔的翻譯難度系數(shù);根據(jù)這兩種判斷結(jié)果選擇將所述待譯文檔按所述行業(yè)類別屬性或者所述待譯文檔的翻譯難度系數(shù)拆分。
[0007]進(jìn)一步:如果所述待譯文檔的行業(yè)類別屬性不小于行業(yè)類別屬性設(shè)定閾值,則將所述待譯文檔按照所述行業(yè)類別拆分;如果所述待譯文檔的行業(yè)類別屬性小于行業(yè)類別屬性設(shè)定閾值,且所述待譯文檔的類符形符比不小于類符形符比設(shè)定閾值,則將所述待譯文檔按照所述待譯文檔的翻譯難度系數(shù)拆分;如果所述待譯文檔的行業(yè)類別屬性小于行業(yè)類別屬性設(shè)定閾值,且所述待譯文檔的類符形符比小于類符形符比設(shè)定閾值,則將所述待譯文檔按照所述行業(yè)類別拆分。
[0008]進(jìn)一步,統(tǒng)計(jì)所述待譯文檔包括的行業(yè)類別屬性的數(shù)量的過程包括:去除所述待譯文檔中的停用詞和沒有具體意義的詞語,得到所述待譯文檔的特征詞;將所述待譯文檔的各個(gè)所述特征詞逐個(gè)在術(shù)語語料庫中匹配,記錄每個(gè)所述特征詞或者由多個(gè)所述特征詞構(gòu)成的特征詞串匹配的術(shù)語的行業(yè)類別屬性;統(tǒng)計(jì)匹配到的行業(yè)類別屬性的數(shù)量。
[0009]進(jìn)一步,統(tǒng)計(jì)所述待譯文檔的類符形符比的過程包括:根據(jù)所述待譯文檔的所有詞匯,統(tǒng)計(jì)其中的類符數(shù)和形符數(shù),通過所述類符數(shù)與所述形符數(shù)之比得到所述待譯文檔的類符形符比;或者,將所述待譯文檔的所有詞匯按照文檔標(biāo)準(zhǔn)數(shù)量劃分為多個(gè)子文檔得到所述待譯文檔的類符形符比
【權(quán)利要求】
1.一種多維度待譯文檔的預(yù)處理方法,其特征在于,包括: 統(tǒng)計(jì)所述待譯文檔包括的行業(yè)類別屬性的數(shù)量和所述待譯文檔的類符形符比; 分別判斷所述待譯文檔包括的行業(yè)類別屬性的數(shù)量相對(duì)于行業(yè)類別屬性設(shè)定閾值的大小、所述待譯文檔的類符形符比相對(duì)于類符形符比設(shè)定閾值的大小,根據(jù)所述待譯文檔的類符形符比相對(duì)于類符形符比設(shè)定閾值的大小匹配所述待譯文檔的翻譯難度系數(shù);根據(jù)這兩種判斷結(jié)果選擇將所述待譯文檔按所述行業(yè)類別屬性或者所述待譯文檔的翻譯難度系數(shù)拆分。
2.如權(quán)利要求1所述的多維度待譯文檔的預(yù)處理方法,其特征在于: 如果所述待譯文檔的行業(yè)類別屬性不小于行業(yè)類別屬性設(shè)定閾值,則將所述待譯文檔按照所述行業(yè)類別拆分; 如果所述待譯文檔的行業(yè)類別屬性小于行業(yè)類別屬性設(shè)定閾值,且所述待譯文檔的類符形符比不小于類符形符比設(shè)定閾值,則將所述待譯文檔按照所述待譯文檔的翻譯難度系數(shù)拆分; 如果所述待譯文檔的行業(yè)類別屬性小于行業(yè)類別屬性設(shè)定閾值,且所述待譯文檔的類符形符比小于類符形符比設(shè)定閾值,則將所述待譯文檔按照所述行業(yè)類別拆分。
3.如權(quán)利要求1或2所述的待譯文檔的預(yù)處理的方法,其特征在于,統(tǒng)計(jì)所述待譯文檔包括的行業(yè)類別屬性的數(shù)量的過程包括: 去除所述待譯文檔中的停用詞和沒有具體意義的詞語,得到所述待譯文檔的特征詞;將所述待譯文檔的各個(gè)所述特征詞逐個(gè)在術(shù)語語料庫中匹配,記錄每個(gè)所述特征詞或者由多個(gè)所述特征詞構(gòu)成的特征詞串匹配的術(shù)語的行業(yè)類別屬性; 統(tǒng)計(jì)匹配到的行業(yè)類別屬性的數(shù)量。
4.如權(quán)利要求1或2所述的待譯文檔的預(yù)處理的方法,其特征在于:統(tǒng)計(jì)所述待譯文檔的類符形符比的過程包括: 根據(jù)所述待譯文檔的所有詞匯,統(tǒng)計(jì)其中的類符數(shù)和形符數(shù),通過所述類符數(shù)與所述形符數(shù)之比得到所述待譯文檔的類符形符比;或者, 將所述待譯文檔的所有詞匯按照文檔標(biāo)準(zhǔn)數(shù)量劃分為多個(gè)子文檔得到所述待譯文檔的類符形符比

5.如權(quán)利要求3所述的待譯文檔的預(yù)處理的方法,其特征在于:所述將所述待譯文檔按照所述行業(yè)類別屬性拆分的過程包括: 獲取所述待譯文檔的每個(gè)段落的所述特征詞,建立所述每個(gè)段落與其包含的各個(gè)所述特征詞的對(duì)應(yīng)關(guān)系;將所述待譯文檔的各個(gè)所述特征詞逐個(gè)在術(shù)語語料庫中匹配,將每個(gè)所述特征詞或者由多個(gè)所述特征詞構(gòu)成的所述特征詞串匹配的術(shù)語的行業(yè)類別屬性,作為所述特征詞或者由多個(gè)所述特征詞構(gòu)成的所述特征詞串所對(duì)應(yīng)的所述每個(gè)段落所歸屬的行業(yè)類別屬性;根據(jù)所述對(duì)應(yīng)關(guān)系,確定所述每個(gè)段落包含相同的最多的行業(yè)類別屬性; 按照所述最多的行業(yè)類別屬性對(duì)每個(gè)所述段落分類; 合并同類的所述段落,得到按照行業(yè)類別屬性拆分后的待譯文檔。
6.如權(quán)利要求4所述的待譯文檔的預(yù)處理的方法,其特征在于:所述將所述待譯文檔按照所述翻譯難度系數(shù)拆分的過程包括: 按照所述待譯文檔的每個(gè)段落的詞匯等級(jí)grade_WOrd、類符形符比STTRP和實(shí)義詞密度density_notional計(jì)算所述待譯文檔的每個(gè)段落的詞匯復(fù)雜度(Iiff^word=K11.grade_word+K12.STTR+K13.density_notional,其中,K11 > K12 和 K13 為詞匯復(fù)雜度調(diào)節(jié)系數(shù); 計(jì)算所述待譯文檔的每個(gè)段落的語句復(fù)雜度diff_sentence ; 根據(jù)所述詞匯復(fù)雜度和所述語句復(fù)雜度按照(Iiff^doc=K1.diff_word+K2.diff_sentence得到所述待譯文檔的每個(gè)段落的翻譯難度系數(shù)difT_doc,其中,K1和K2為翻譯難度調(diào)節(jié)系數(shù); 合并具有相同所述翻譯難度系數(shù)的段落,得到按照所述翻譯難度系數(shù)拆分后的待譯文檔。
7.如權(quán)利要求6所述的待譯文檔的預(yù)處理的方法,其特征在于,所述按照所述待譯文檔的每個(gè)段落的詞匯等級(jí)grade_word計(jì)算的過程包括: 統(tǒng)計(jì)所述待譯文檔的每個(gè)段落的總詞匯數(shù)word ; 將得到的每個(gè)詞匯在詞匯分級(jí)表中進(jìn)行匹配,得到每個(gè)所述詞匯的詞匯級(jí)別,所述詞匯級(jí)別為一級(jí)、二級(jí)、三級(jí)或四級(jí); 分別統(tǒng)計(jì)所述詞匯級(jí)別為二級(jí)或二級(jí)以上的級(jí)別的所述詞匯的數(shù)量;
8.如權(quán)利要求6所述的待譯文檔的預(yù)處理的方法,其特征在于,所述按照所述待譯文檔的每個(gè)段落的類符形符比STTRP計(jì)算的過程包括: 根據(jù)所述待譯文檔的每個(gè)段落的所有詞匯,統(tǒng)計(jì)每個(gè)段落的類符數(shù)和形符數(shù),通過所述每個(gè)段落的類符數(shù)與形符數(shù)之比得到所述待譯文檔的每個(gè)段落類符形符比;或者, 將所述待譯文檔的每個(gè)段落的所有詞匯按照段落標(biāo)準(zhǔn)數(shù)量劃分為多個(gè)子段落,得到所述待譯文檔的每個(gè)段落的類符形符比

9.如權(quán)利要求6所述的待譯文檔的預(yù)處理的方法,其特征在于,所述按照所述待譯文檔的每個(gè)段落的實(shí)義詞密度density_notional計(jì)算的過程包括: 對(duì)所有所述詞匯進(jìn)行詞性標(biāo)注,得到其中的實(shí)義詞,所述實(shí)義詞至少包括以下之一的詞性:名詞、代名詞、動(dòng)詞、形容詞、副詞和感嘆詞; 根據(jù)同義詞本體工具得到所述待譯文檔的每個(gè)段落的第t個(gè)實(shí)義詞的義項(xiàng)數(shù)meaningst ; 統(tǒng)計(jì)所述待譯文檔的每個(gè)段落的所述實(shí)義詞的義項(xiàng)總數(shù); 按照


10.如權(quán)利要求6所述的待譯文檔的預(yù)處理的方法,其特征在于,所述計(jì)算所述待譯文檔的每個(gè)段落的語句復(fù)雜度diff_sentence包括: 將每個(gè)段落的所述總詞匯數(shù)除以每個(gè)段落的整句數(shù),得到每個(gè)段落的所述整句的平均長度MLS ; 將每個(gè)段落的所述總詞匯數(shù)除以每個(gè)段落的第一類子句的數(shù)量,得到每個(gè)段落的所述第一類子句的平均長度MLC ; 統(tǒng)計(jì)每個(gè)段落的第e個(gè)所述長句的長度WorcLlonge,其中,I≤e≤count_long ; 按照
【文檔編號(hào)】G06F17/28GK103729350SQ201310752261
【公開日】2014年4月16日 申請(qǐng)日期:2013年12月30日 優(yōu)先權(quán)日:2013年12月30日
【發(fā)明者】江潮 申請(qǐng)人:武漢傳神信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1