亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

預處理文本的方法以及用于執(zhí)行該方法的預處理系統(tǒng)與流程

文檔序號:11236546閱讀:605來源:國知局
預處理文本的方法以及用于執(zhí)行該方法的預處理系統(tǒng)與流程

本發(fā)明涉及文本翻譯技術,并且更具體地,涉及一種能夠通過用標準語言替換包含在翻譯目標文本中的術語的預處理來提高機械翻譯的準確性的預處理文本的方法以及用于執(zhí)行該方法的預處理系統(tǒng)。



背景技術:

單詞“webtoon(網(wǎng)絡漫畫)”是web和cartoon的合成詞,并且通常指示網(wǎng)絡漫畫平臺。webtoon與移動設備技術組合以呈現(xiàn)全球流行的媒體內(nèi)容。由于網(wǎng)絡漫畫的普及,網(wǎng)絡漫畫已經(jīng)被翻譯成各種語言。

如今,網(wǎng)絡漫畫翻譯仍然處在人們直接閱讀并翻譯網(wǎng)絡漫畫的水平。網(wǎng)絡漫畫在沒有系統(tǒng)翻譯過程的情況下主要通過個人能力來翻譯,并且因此考慮到文化差異而在翻譯的準確性方面或者在表述方面存在問題。

另外,當常規(guī)機械翻譯工具(engine)翻譯除了標準語言以外的語言(諸如新詞、英文字母破壞語言、語言的口語化形式、擬聲詞、擬態(tài)詞和方言)時,其翻譯準確性極大地退化,并且對在每個工具的db內(nèi)構建的翻譯方法和術語具有很大影響。

韓國專利no.10-1099177涉及一種用于訓練機械翻譯機器的方法和系統(tǒng),并且在韓國專利no.10-1099177中,公開了使用由其它機械翻譯機器生成的文本輸入來執(zhí)行訓練的機械翻譯機器。提供了由用戶或者另一源翻譯成第一語言的文本輸入,然后由第一機械翻譯機器翻譯這樣的文本輸入,并且生成文本輸入的被翻譯成第二語言的版本。文本輸入和翻譯的版本被解析并且經(jīng)過訓練架構,并且因此開發(fā)了轉移映射和雙語詞典。此后,當由第二機械翻譯機器翻譯其它文本輸入時,使用這樣的組件。

韓國專利no.10-0961717涉及一種用于使用平行語料庫來檢測機械翻譯錯誤的方法和設備,所述方法和設備可以使用對象語言句子(即,當使用平行語料庫自動檢測并跟蹤基于規(guī)則的機械翻譯系統(tǒng)的錯誤時的平行語料庫的回答句)來調(diào)整在機械翻譯中發(fā)現(xiàn)的錯誤,對錯誤類型進行分類,并且向錯誤信息提供預定頻率或者更多的錯誤并因此獨創(chuàng)性地減少了用于檢測機械翻譯錯誤所消耗的時間和精力,并且使得系統(tǒng)工程師能夠通過檢測且跟蹤的錯誤信息容易地增強機械翻譯系統(tǒng)的性能,因此使機械翻譯系統(tǒng)的性能改進效率最大化。

[現(xiàn)有技術文獻]

[專利文獻]

韓國專利no.10-1099177(2011年12月20日)

韓國專利no.10-0961717(2010年5月28日)



技術實現(xiàn)要素:

已經(jīng)考慮到上述問題而完成本發(fā)明,并且本發(fā)明提供了一種執(zhí)行利用標準語言替換翻譯目標文本中包括的術語的預處理的文本預處理方法以及執(zhí)行該文本預處理方法的預處理系統(tǒng)。

本發(fā)明還提供了一種預處理文本的方法以及執(zhí)行該方法的預處理系統(tǒng),它們能夠通過在機械翻譯之前執(zhí)行翻譯目標文本的預處理來提高翻譯準確性。

本發(fā)明還提供了一種預處理文本的方法以及執(zhí)行該方法的預處理系統(tǒng),它們能夠提高包括除了標準語言以外的語言(諸如新詞、英文字母破壞語言、語言的口語化形式、擬聲詞、擬態(tài)詞和方言)在內(nèi)的網(wǎng)絡漫畫文本的翻譯準確性。

根據(jù)本發(fā)明的一方面,一種在將輸入文本翻譯成另一種語言的文本之前對所述輸入文本進行預處理的文本預處理系統(tǒng)包括:替換術語數(shù)據(jù)庫,所述替換術語數(shù)據(jù)庫存儲替換術語;以及處理器,所述處理器執(zhí)行預處理工具,所述預處理工具對所述輸入文本進行預處理并且輸出與所述輸入文本的語言相同的語言的文本,其中,所述預處理工具識別所述輸入文本中的替換目標術語,并且輸出所識別的替換目標術語被替換術語替換的文本。

所述預處理工具可以包括:語素分析單元,所述語素分析單元以語素為單位將所述輸入文本進行分隔,并且確定經(jīng)分隔的語素的語音部分;術語識別單元,所述術語識別單元識別經(jīng)分隔的語素是否與替換目標術語對應;以及替換術語搜索單元,如果經(jīng)分隔的語素與替換目標術語對應,則所述替換術語搜索單元基于術語是否對應在所述替換術語數(shù)據(jù)庫中搜索與所述替換目標術語對應的替換術語。

所述預處理工具還可以包括文本生成器,所述文本生成器生成所述替換目標術語被找到的替換術語替換的文本。

所述預處理工具還可以包括構造分析單元,當基于術語是否對應在所述替換術語數(shù)據(jù)庫中不存在對應的替換術語時,所述構造分析單元對所述輸入文本的構造進行分析并且估計不存在所述替換術語的術語的含義,并且所述替換術語搜索單元可以基于構造分析結果來搜索與估計的含義對應的替換術語。

所述構造分析單元可以根據(jù)語法對經(jīng)分隔的語素進行分析,生成構造樹結構,并且估計不存在所述替換術語的術語的含義。

所述預處理工具還可以包括替換術語寄存器,所述替換術語寄存器將所述術語和與所述術語的估計的含義對應的替換術語鏈接,并且將所述術語和所述替換術語存儲到所述替換術語數(shù)據(jù)庫中。

所述文本預處理系統(tǒng)還可以包括替換目標術語數(shù)據(jù)庫,所述替換目標術語數(shù)據(jù)庫存儲所述替換目標術語,其中,所述預處理工具可以基于所述術語是否與存儲在所述替換目標術語數(shù)據(jù)庫中的替換目標術語對應來識別所述輸入文本中的替換目標術語。

所述文本預處理系統(tǒng)還可以包括翻譯術語數(shù)據(jù)庫,所述翻譯術語數(shù)據(jù)庫存儲機械翻譯術語,其中,所述預處理工具可以基于在所述翻譯術語數(shù)據(jù)庫中是否包括所述術語來識別所述輸入文本中的替換目標術語。

所述處理器可以執(zhí)行機械翻譯工具,所述機械翻譯工具將輸入文本翻譯成另一種語言的文本,并且所述機械翻譯工具可以將從所述預處理工具輸出的文本機械地翻譯為預定語言。

根據(jù)本發(fā)明的另一方面,一種在將輸入文本翻譯成另一種語言的文本之前對所述輸入文本進行預處理的方法包括以下步驟:以語素為單位將所述輸入文本進行分隔,并且確定經(jīng)分隔的語素的語音部分;識別經(jīng)分隔的語素是否與替換目標術語對應;如果經(jīng)分隔的語素與替換目標術語對應,則基于術語是否對應在替換術語數(shù)據(jù)庫中搜索與所述替換目標術語對應的替換術語;以及生成所述替換目標術語被找到的替換術語替換的文本。

(優(yōu)點)

在根據(jù)本發(fā)明的示例性實施方式的預處理文本的方法以及執(zhí)行該方法的預處理系統(tǒng)中,能夠執(zhí)行利用標準語言替換翻譯目標文本中包括的術語的預處理。

在根據(jù)本發(fā)明的示例性實施方式的預處理文本的方法以及執(zhí)行該方法的預處理系統(tǒng)中,通過在機械翻譯之前對翻譯目標文本的預處理,能夠提高翻譯準確性。

在根據(jù)本發(fā)明的示例性實施方式的預處理文本的方法以及執(zhí)行該方法的預處理系統(tǒng)中,能夠提高包括除了標準語言以外的語言(諸如新詞、英文字母破壞語言、語言的口語化形式、擬聲詞、擬態(tài)詞和方言)在內(nèi)的網(wǎng)絡漫畫文本的翻譯準確性。

附圖說明

根據(jù)結合附圖進行的以下詳細描述,本發(fā)明的目的、特征和優(yōu)點將是更顯而易見的,其中:

圖1是例示了根據(jù)本發(fā)明的示例性實施方式的文本預處理系統(tǒng)的圖;

圖2是例示了圖1的文本預處理服務器的配置的框圖;

圖3是例示了圖2的預處理工具的配置的框圖;

圖4是例示了構造分析過程的框圖;以及

圖5是例示了將要在圖1的文本預處理系統(tǒng)中執(zhí)行的文本翻譯方法的流程圖。

具體實施方式

本發(fā)明的示例性實施方式僅是針對本發(fā)明的結構或功能的描述的示例性實施方式,并且因此不應該分析本發(fā)明的范圍受在詳細描述中描述的示例性實施方式的限制。也就是說,因為示例性實施方式可以進行各種改變并且具有多種形式,所以應該理解的是,本發(fā)明的范圍包括能夠實現(xiàn)其精神的等同物。另外,并不意味著特定示例性實施方式應該包括以下目的或者效果的全部,或者應該僅包括以下效果,并且因此,不應該理解為本發(fā)明的范圍限于此。

在本發(fā)明的示例性實施方式中描述的術語的含義應該理解如下。

諸如“第一”和“第二”這樣的術語被用于將一個構成元件與另一構成元件區(qū)分開,并且本發(fā)明的范圍不受這些術語限制。例如,第一構成元件可以被稱作第二構成元件,并且類似地,第二構成元件可以被稱作第一構成元件。

當描述一個構成元件“連接”或者“電連接”到另一構成元件時,所述一個構成元件可以“直接連接”或者“直接電連接”到所述另一構成元件,或者可以通過第三元件“連接”或者“電連接”到所述另一構成元件。然而,當描述一個構成元件“直接連接”或者“直接電連接”到另一構成元件時,在所述元件與所述另一元件之間可以不存在元件。描述構成元件之間的關系的其它表述(即,“在…之間”和“緊接著在…之間”或者“與…相鄰”和“與…直接相鄰”)應該被類似地分析。

除非措辭明確地表示相反的含義,否則這里使用的單數(shù)形式包括復數(shù)形式,并且在說明書中使用的“包括”或者“具有”的術語包含了特性、數(shù)目、步驟、操作、元件、組件或者其組合,并且不排除存在或者添加另一特征、另一數(shù)目、另一步驟、另一操作、另一元件、另一組件或者其組合。

在每個步驟中,使用標號(例如,a、b和c)是為了便于描述,并且所述標號不描述每個步驟的順序,除非每個步驟沒有在上下文清楚地描述特定順序,否則每個步驟可以與列舉的順序不同地發(fā)生。也就是說,每個步驟可以按照與列舉的順序相同的順序發(fā)生,可以基本上同時被執(zhí)行,并且可以按照相反的順序被執(zhí)行。

本發(fā)明可以使用計算機可讀記錄介質中的計算機可讀代碼來實現(xiàn),并且計算機可讀記錄介質包括能夠存儲由計算機系統(tǒng)讀取的數(shù)據(jù)的全部類型的記錄裝置。處理器可讀記錄介質可以包括例如只讀存儲器(rom)、隨機存取存儲器(ram)、cd-rom、磁帶、軟盤和光學數(shù)據(jù)存儲裝置,并且包括按照載波形式的實現(xiàn)(例如,經(jīng)由網(wǎng)絡的傳輸)。另外,在計算機可讀記錄介質中,在連接到網(wǎng)絡的計算機系統(tǒng)中分發(fā)的計算機可讀代碼可以被存儲,并且使用分布式方法來執(zhí)行。

除非另外限定,否則這里使用的全部術語具有與可以由本領域普通技術人員通常理解的含義相同的含義。應該分析的是,除非在本發(fā)明中明確限定,否則通常使用字典中定義的術語具有與相關技術的上下文的含義對應的含義,并且不作為理想或者過分的形式進行分析。

圖1是例示了根據(jù)本發(fā)明的示例性實施方式的文本預處理系統(tǒng)的圖。

參照圖1,文本預處理系統(tǒng)100包括用戶終端110、文本預處理服務器120、第一數(shù)據(jù)庫130和第二數(shù)據(jù)庫140,并且這些元件可以通過網(wǎng)絡連接。

用戶終端110可以與連接到文本預處理服務器120的計算機裝置對應,并且可以利用例如臺式機、筆記本計算機、平板計算機(pc)或者智能手機來實現(xiàn)。在示例性實施方式中,用戶終端110可以與臺式機對應,并且可以通過局域網(wǎng)(lan)連接到文本預處理服務器120。

在將輸入文本翻譯成另一種語言的文本之前,文本預處理服務器120可以對文本進行預處理并輸出。在示例性實施方式中,文本預處理服務器120包括對輸入文本進行預處理的預處理工具,并且可以與包括對經(jīng)預處理的文本進行機械翻譯的機械翻譯工具在內(nèi)的文本翻譯服務器(未示出)連接。在示例性實施方式中,預處理工具可以識別輸入文本中的替換目標術語,并且輸出所識別的替換目標術語被替換術語替換的文本。機械翻譯工具將從預處理工具輸出的文本翻譯成預置語言并且進行輸出。

在示例性實施方式中,文本預處理服務器120可以與包括眾包(crowdsourcing)翻譯工具在內(nèi)的眾包服務器(未示出)連接。眾包翻譯工具可以使用通過眾包構造的數(shù)據(jù)庫來調(diào)整機械翻譯的文本,以適應對應語言的表述。在示例性實施方式中,文本預處理服務器、翻譯服務器和眾包服務器可以被提供并且在一個系統(tǒng)內(nèi)實現(xiàn),并且可以被實現(xiàn)為要按照處理順序連接的每個不同的系統(tǒng)。

在示例性實施方式中,第一數(shù)據(jù)庫130可以與存儲替換目標術語的替換目標術語數(shù)據(jù)庫對應。預處理工具可以確定在文本中是否包括存儲在第一數(shù)據(jù)庫130中的替換目標術語,并且識別該文本中包括的替換目標術語。

在另一示例性實施方式中,第一數(shù)據(jù)庫130可以與存儲翻譯術語的翻譯術語數(shù)據(jù)庫對應。預處理工具可以確定文本中包括的術語是否不被包括在第一數(shù)據(jù)庫130中,并且識別替換目標術語。例如,如果文本中包括的術語沒有被包括在第一數(shù)據(jù)庫130中,則預處理工具可以識別替換目標術語。

第二數(shù)據(jù)庫140可以與存儲替換術語的替換術語數(shù)據(jù)庫對應。預處理工具可以在第二數(shù)據(jù)庫140中搜索與替換目標術語對應的替換術語。

圖2是例示了圖1的文本預處理服務器的配置的框圖。

參照圖2,文本預處理服務器120包括處理器210、存儲器220、存儲裝置230、網(wǎng)絡接口240、用戶接口輸入裝置250和用戶接口輸出裝置260。

處理器210執(zhí)行預處理工具212和存儲器管理器216。預處理工具212識別輸入文本中的替換目標術語,并且輸出所識別的替換目標術語被替換術語替換的文本。

存儲器管理器216對存儲器220的由預處理工具212讀取或者記錄的數(shù)據(jù)進行管理。存儲器220可以被實現(xiàn)為易失性存儲器或者非易失性存儲器。

存儲裝置230可以被實現(xiàn)為諸如固態(tài)硬盤(ssd)或硬盤驅動器(hdd)這樣的非易失性存儲器,并且被用于存儲文本預處理服務器120所必需的數(shù)據(jù)。

網(wǎng)絡接口240可以包括用于連接到網(wǎng)絡的裝置,并且可以包括例如用于局域網(wǎng)(lan)通信的適配器。

用戶接口輸入裝置250可以包括用于接收用戶輸入的裝置,并且可以包括例如諸如鼠標、軌跡球、觸摸墊、圖形輸入板、掃描儀、觸摸屏、鍵盤或指點裝置這樣的適配器。用戶接口輸出裝置260可以包括用于將特定信息(例如,翻譯的文本)輸出到用戶的裝置,并且可以包括例如諸如監(jiān)視器或者觸摸屏這樣的適配器。

在下文中,作為通過對應系統(tǒng)對網(wǎng)絡漫畫的文本進行預處理的情況的示例,將詳細地描述對應系統(tǒng)的操作。能夠通過對應系統(tǒng)極大地提高包括除了標準語言以外的語言(諸如新詞、英文字母破壞語言、語言的口語化形式、擬聲詞、擬態(tài)詞和方言)的網(wǎng)絡漫畫文本的翻譯準確性。

圖3是例示了圖2的預處理工具的配置的框圖。

參照圖3,預處理工具212包括語素分析單元310、術語識別單元320、替換術語搜索單元330、文本生成器340和構造分析單元350。

預處理工具212的語素分析單元310接收包括在網(wǎng)絡漫畫中的文本(在下文中,網(wǎng)絡漫畫文本)的輸入。例如,包括在網(wǎng)絡漫畫中的諸如話泡泡、說明、擬聲詞和擬態(tài)詞這樣的整個文本可以被輸入到預處理工具212。在示例性實施方式中,預處理工具212可以從識別包括在圖像中的文本的文本識別工具接收網(wǎng)絡漫畫文本的輸入,并且可以接收個人閱讀并整理的網(wǎng)絡漫畫文本的輸入。

語素分析單元310以語素為單位將輸入文本進行分隔,并且確定經(jīng)分隔的語素的語音部分。在示例性實施方式中,語素分析單元310可以將每個分隔的語素恢復為原始語素,并且基于所恢復的語素來確定語音部分。語素是具有恒定含義的最小詞的單位,并且是最小的意義單位,并且可以被稱作詞。例如,句子“theskyisclear”可以被分隔成4個語素“the”、“sky”、“is”、“clear”,并且當對應的語素被分隔成更多的語素時,語素的含義被改變或者語素不具有含義。

例如,當輸入“whichoneisyourschool?”的網(wǎng)絡漫畫文本時,語素分析單元310可以將語素分隔成“which”(np,代詞)、“one”(np,代詞)、“is”(nv,動詞)、“your”(np,代詞)和“school”(nng,一般名詞),并且確定其語音部分。

術語識別單元320確定在語素分析單元310中分隔的語素是否與替換目標術語對應。在示例性實施方式中,術語識別單元320可以基于存儲到網(wǎng)絡漫畫術語數(shù)據(jù)庫(替換目標術語數(shù)據(jù)庫)中的網(wǎng)絡漫畫術語(替換目標術語)是否與對應語素對應來識別文本中包括的網(wǎng)絡漫畫術語(替換目標術語)。在網(wǎng)絡漫畫術語數(shù)據(jù)庫(替換目標術語數(shù)據(jù)庫)中,可以存儲預先構建的網(wǎng)絡漫畫術語(替換目標術語)。

在另一示例性實施方式中,術語識別單元320可以基于在存儲到機械翻譯術語數(shù)據(jù)庫(翻譯術語數(shù)據(jù)庫)中的機械翻譯術語(翻譯術語)中是否包括對應語素來識別文本中包括的網(wǎng)絡漫畫術語(替換目標術語)。例如,如果在機械翻譯術語中不包括分隔的語素,則術語識別單元320可以利用網(wǎng)絡漫畫術語(替換目標術語)來識別對應語素。

當在語素分析單元310中分隔的語素與替換目標術語對應時,替換術語搜索單元330基于術語是否對應在替換術語數(shù)據(jù)庫140中搜索替換術語。例如,替換術語搜索單元330可以將替換目標術語與存儲在替換術語數(shù)據(jù)庫140中的替換術語進行比較,并且搜索一致率等于或者大于閾值的替換術語。在示例性實施方式中,替換術語可以與標準語言對應。

例如,當作為與作為替換術語的“you”對應的網(wǎng)絡漫畫術語的“ye”和“u”與“you”相關并且被存儲到替換術語數(shù)據(jù)庫140中時,在語素分析單元310中分隔并且與作為替換術語的“you”相關的“ye”是100%對應的,因此替換術語搜索單元330可以搜索“you”作為替換術語。

在示例性實施方式中,當存在多個一致率等于或者大于閾值的替換術語時,替換術語搜索單元330可以基于替換目標術語的語音部分或者與在被識別為替換目標術語的語素的外圍處的其它語素的關系,來確定多個替換術語中的一個。例如,當存在多個與“ye”對應的替換術語時,替換術語搜索單元330可以考慮到與在“ye”的外圍處的其它語素的結合關系(例如,指示多個其它個人的結合結構)而確定“you”具有替換術語。

當存在多個識別的替換目標術語時,替換術語搜索單元330可以搜索每個替換目標術語的替換術語。

文本生成器340用在替換術語搜索單元330中找到的替換術語來替換替換目標術語,并且生成網(wǎng)絡漫畫術語被標準語言替換的文本。在示例性實施方式中,預處理工具212可以將在預處理之前的網(wǎng)絡漫畫文本以及網(wǎng)絡漫畫術語在文本生成器340中被標準語言替換的文本一起輸出。

當基于術語是否對應在替換術語數(shù)據(jù)庫140中不存在對應替換術語時,構造分析單元350對輸入文本的構造進行分析,并且估計不存在替換術語的術語的含義。構造分析單元350根據(jù)語法對在語素分析單元310中分隔的語素進行分析,生成構造樹結構,并且估計術語的含義。

圖4是例示了構造分析過程的框圖。

構造分析單元350可以并行地對分隔的語素進行分析,根據(jù)語法對分隔的語素進行分析,并且生成構造樹結構。例如,當輸入圖4a的“don’tknowx-generationfantazy??!lol”的網(wǎng)絡漫畫文本時,構造分析單元350生成圖4b的構造樹結構。例如,圖4a的網(wǎng)絡漫畫文本可以根據(jù)英文字母語法(例如,句子的形式、主語位于句子的前部的規(guī)則、以及動詞位于句子的中部的規(guī)則)被分類成第一賓語“x-generation”、第二賓語“fantazy”、動詞“don’tknow?”、以及修飾語“l(fā)ol”。因為在英文字母語法中可以省略主語,所以構造分析單元350可以添加指示另一方的主語“you”以生成圖4b的構造樹結構。圖4b的構造樹是將動詞設置在上級節(jié)點處并且將主語、賓語和修飾語設置在同一從屬節(jié)點處的情況的示例。

構造分析單元350基于所生成的構造樹結構來估計術語的含義。例如,“don’tknow?”是位于句子的中部處的動詞并且位于疑問號(?)的前面,因此可以推導出動詞按照疑問句形式被表達。另外,因為“don’tknow?”最類似于“don’tknow”,所以構造分析單元350可以按照“don’tknow”的疑問表達來推導出“don’tknow?”。

替換術語搜索單元330基于構造分析單元350的構造分析結果,在替換術語數(shù)據(jù)庫140中搜索與估計的含義對應的替換術語。例如,替換術語搜索單元330可以搜索與“don’tknow”的疑問表達對應的“don’tknow?”、“don’tevenknow?”。

文本生成器340使用在替換術語搜索單元330中找到的替換術語來替換替換目標術語,并且生成網(wǎng)絡漫畫術語被標準語言替換的文本。例如,在圖4a的網(wǎng)絡漫畫文本中,替換術語搜索單元330可以搜索與“x”對應的替換術語“x”、與“fantazy”對應的替換術語“fantasy”以及與“l(fā)ol”對應的替換術語“hahaha”,并且當替換術語搜索單元330找到與所估計的“don’tknow?”的含義對應的替換術語“don’tknow”時,文本生成器340可以基于找到的替換術語來生成“youdon’tknowx-generationfantasy?!hahaha”的文本。

在示例性實施方式中,預處理工具212還可以包括替換術語寄存器(未示出),該替換術語寄存器將替換目標術語和與其估計含義對應的替換術語鏈接,以將替換目標術語和替換術語存儲到替換術語數(shù)據(jù)庫140中。

在示例性實施方式中,當基于術語是否對應在替換術語數(shù)據(jù)庫140中不存儲對應的替換術語時,或者當基于構造分析結果不存在與替換術語數(shù)據(jù)庫140對應的替換術語時,預處理工具212可以從操作者輸入接收與該術語對應的替換術語。

圖5是例示了將要在圖1的文本預處理系統(tǒng)中執(zhí)行的文本翻譯方法的流程圖。

參照圖5,在將輸入文本翻譯成另一種語言的文本之前,文本預處理服務器120對輸入文本進行預處理。文本預處理服務器120可以輸出使用與輸入文本的語言相同的語言預處理的文本。預處理工具212接收文本的輸入以進行翻譯(步驟s510)。在示例性實施方式中,預處理工具212可以從對包括在圖像中的文本進行識別的文本識別工具接收網(wǎng)絡漫畫文本的輸入,并且接收個人閱讀并整理的網(wǎng)絡漫畫文本的輸入。

預處理工具212以語素為單位對輸入文本進行分析,并且確定經(jīng)分析的語素的語音部分(步驟s520)。預處理工具212識別經(jīng)分析的語素是否與替換目標術語對應(s530)。

在示例性實施方式中,預處理工具212可以基于術語是否與存儲在替換目標術語數(shù)據(jù)庫中的替換目標術語對應來識別替換目標術語。在另一示例性實施方式中,預處理工具212可以基于術語是否被包括在翻譯術語數(shù)據(jù)庫中來識別替換目標術語。

預處理工具212確定所識別的替換目標術語是否與存儲在替換術語數(shù)據(jù)庫140中的替換術語對應(步驟s540),并且搜索與替換目標術語對應的替換術語。

預處理工具212將替換目標術語與存儲在替換術語數(shù)據(jù)庫140中的替換術語進行比較,并且如果一致率等于或者大于閾值,則預處理工具212生成替換目標術語被替換術語替換的文本(步驟s570)。

如果不存在一致率等于或者大于閾值的替換術語,則預處理工具212對輸入文本的構造進行分析,并且估計不存在替換術語的術語的含義(步驟s550)。在示例性實施方式中,預處理工具212可以對輸入文本的構造進行分析并且生成構造樹結構。

預處理工具212基于構造分析結果來搜索與估計的含義對應的替換術語(步驟s560),并且生成替換目標術語被替換術語替換的文本(步驟s570)。

雖然已經(jīng)在上文中詳細地描述了本發(fā)明的示例性實施方式,但是應該清楚理解的是,本文中描述的可以呈現(xiàn)給本領域技術人員的基本發(fā)明構思的許多變型和修改將仍然落入本公開的示例性實施方式的如所附的權利要求中限定的精神和范圍內(nèi)。

[記號的說明]

100:文本預處理系統(tǒng)

110:用戶終端

120:文本預處理服務器

130:第一數(shù)據(jù)庫

140:第二數(shù)據(jù)庫

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1