亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種利于翻譯工作的文件抽取和還原方法

文檔序號:9217182閱讀:881來源:國知局
一種利于翻譯工作的文件抽取和還原方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種利于翻譯工作的人工智能、文檔處理的方法。
【背景技術(shù)】
[0002]伴隨著中國躋身于世界第二大經(jīng)濟體,“一帶一路”等戰(zhàn)略的穩(wěn)步實施,中國各領(lǐng)域與世界的聯(lián)系更為緊密。國際化的進程中多國之間的溝通交流所需要的語言支持服務(wù)市場顯得愈加龐大,這給翻譯行業(yè)帶來了新的機遇和挑戰(zhàn)。
[0003]翻譯行業(yè)的從業(yè)人員每天要面對大量的各種格式的需要翻譯的稿件,由于稿件的種類繁多,相應(yīng)的翻譯人員就需要掌握各類文檔程序如Word,Excel, PPT, PDF的使用以及各類文檔輔助翻譯工具的使用。這對于專職的翻譯人員來說是很大的挑戰(zhàn)和門檻,很明顯這類問題已經(jīng)阻礙到了整個行業(yè)的發(fā)展乃至于中國全球化的進程。
[0004]因此,需要提出一種將等多種主流文檔格式轉(zhuǎn)換成為統(tǒng)一的標準樣式的文檔并且也可以反過來將轉(zhuǎn)化得到的標準文檔還原為原稿格式的方法。以簡化翻譯工作、提高翻譯效率。

【發(fā)明內(nèi)容】

[0005]本發(fā)明所要解決的技術(shù)問題是簡化翻譯工作、提高翻譯效率,提出一種利于翻譯工作的文件抽取和還原方法。
[0006]為解決上述技術(shù)問題,本發(fā)明提出的利于翻譯工作的文件抽取和還原方法,包括以下步驟:
[0007]I)利用Aspose動態(tài)鏈接庫對文檔處理的操作支持,將待翻譯的文檔對象拆解成以單句為最小單位的待翻譯數(shù)據(jù)集合;
[0008]2)建立一個譯員處理文檔,所述譯員處理文檔設(shè)有“原文”、“譯文”和id三個字段,所述“原文”字段對應(yīng)句子原文,“譯文”字段對應(yīng)句子譯文;
[0009]3)將所述以單句為最小單位的待翻譯數(shù)據(jù)集合中的每一個句子按順序逐一復(fù)制到所述譯員處理文檔的“原文”字段,然后將待翻譯數(shù)據(jù)集合中該句子的內(nèi)容用一個具有唯一性的占位符號Guid替代,且相鄰的占位符號Guid具有不同的字符格式;所述id字段的內(nèi)容與所述不同的Guid之間具有--映射的關(guān)系;
[0010]4)將所述譯員處理文檔下發(fā)到譯員,所述譯員在所述譯員處理文檔中逐個翻譯“原文”字段的原文,填寫到對應(yīng)的“譯文”字段,直到處理完成;
[0011]5)遍歷所述待翻譯數(shù)據(jù)集合和譯員處理文檔,根據(jù)不同Guid對應(yīng)的不同id,找到該id對應(yīng)的譯文,覆蓋寫到所述待翻譯數(shù)據(jù)集合中該對應(yīng)Guid的位置。
[0012]6)調(diào)用Aspose動態(tài)鏈接庫,將所述待翻譯數(shù)據(jù)集合還原為原稿格式的文檔。
[0013]所述將待翻譯的文檔對象拆解成以句為最小單位的待翻譯數(shù)據(jù)集合,包括以下步驟:
[0014]1-1 調(diào)用 Aspose 組件;
[0015]1-2遍歷所述文檔對象,得到全部段落對象,所述段落對象包含文檔對象全部的文字信息,而不包括無需翻譯的符號、圖像或其它非文字信息;
[0016]1-3遍歷每一個段落對象的子節(jié)點對象,從而得到若干個的字符集合對象Run。Aspose組件中提供段落對象、子節(jié)點對象,以及方便字符操作的Run對象,所述Run對象是文檔內(nèi)連續(xù)的字符格式一致的字符片段集合。
[0017]1-4遍歷每一個Run對象,將全部Run對象拆分成一個個僅包含有一個完整的句子的Run對象,或者為僅包含有一個句子片段的Run對象;
[0018]1-5遍歷每一個Run對象,將僅包含有句子片段的Run對象合并到其后續(xù)的僅包含有一個完整的句子的Run對象中。
[0019]完成后,得到以句子為最小單位的,一個個僅包含有一個完整的句子的Run對象的集合。
[0020]所述將僅包含有一個句子片段的Run對象合并到后續(xù)Run對象,包括以下步驟:
[0021]1-4-1將僅為一個句子片段的Run對象的字符內(nèi)容取出,存放在臨時存儲單元,然后在段落對象中刪除該Run對象;
[0022]1-4-2檢查下一個Run對象,如果該Run對象的字符內(nèi)容僅為一個句子片段,則取出該Run對象的字符內(nèi)容,添加到臨時存儲單元,然后在段落對象中刪除該Run對象,繼續(xù)檢查下下一個Run對象;否則,取出臨時存儲單元存放字符內(nèi)容,添加到該下一個Run對象的字符內(nèi)容之前,然后清空所述臨時存儲單元。
[0023]1-4-3如果該下一個Run對象的字符內(nèi)容是以句子結(jié)束符作為結(jié)尾的,則將所述臨時存儲單元存放的字符內(nèi)容取出,添加到該下一個Run對象的字符內(nèi)容之前,然后清空所述臨時存儲單元。
[0024]本發(fā)明還包括,建立一個字典對象,所述字典對象的key為原文,value為譯文,原文-譯文為一個鍵值對;在遍歷所述譯員處理文檔時,將一個記錄中對應(yīng)的原文-譯文,分別寫入所述字典對象。
[0025]在步驟5)中,如果一個id所在記錄的譯文欄為空,則在所述字典對象中,以該id所在記錄的原文為key去查找是否有匹配的譯文value,如果找到則以該譯文填充譯文欄。
[0026]如果在所述字典對象中,沒有找到匹配的譯文value,則該句為漏譯,直接使用原文進行填充,方便審校人員發(fā)現(xiàn)。
[0027]進一步的,在將所述譯員處理文檔下發(fā)到譯員之前,遍歷所述譯員處理文檔,將重復(fù)的句子標記出來,提醒譯員不需要重復(fù)翻譯。
[0028]進一步的,在將所述譯員處理文檔下發(fā)到譯員之前,遍歷所述譯員處理文檔,將原文中的句子與術(shù)語庫中的術(shù)語進行自動匹配,如果匹配,則對該術(shù)語句子進行批注,使得翻譯工作更加順暢。
[0029]更進一步的,在將所述譯員處理文檔下發(fā)到譯員之前,遍歷所述譯員處理文檔,將原文中的句子逐一與語料庫中的語料比對匹配,如果匹配,則將語料庫中的語料譯文填寫到該匹配句子對應(yīng)的“譯文”字段內(nèi)。
[0030]有益效果:本發(fā)明簡化翻譯人員的工作,使得翻譯人員無需掌握各類主流文檔程序如PPT、Word、EXCL、TOF的使用處理方法,從而能有更多的精力專注于文字翻譯的工作中去。另外,通過在處理過程中自動預(yù)分析所需翻譯的文稿,搜索出重復(fù)性的句子進行標記,所有重復(fù)性的句子均只需要翻譯一次,其他則自動填充生成;收集每次的翻譯成果,當接受到新的稿件時可以直接使用之前積累出來的語料和術(shù)語等信息,更進一步提升了翻譯效率。
【附圖說明】
[0031]下面結(jié)合附圖和【具體實施方式】對本發(fā)明的技術(shù)方案作進一步具體說明。
[0032]圖1為本發(fā)明【具體實施方式】的譯員翻譯處理界面截圖,圖中的主要展示了一個已填充原文的譯員處理文檔。
[0033]圖2為本發(fā)明【具體實施方式】的另一譯員翻譯處理界面截圖,圖中的主要展示了一個已經(jīng)過預(yù)處理的譯員處理文檔。
[0034]圖3為本發(fā)明整體流程圖。
【具體實施方式】
[0035]本發(fā)明提出的利于翻譯工作的文件抽取和還原方法,包括以下步驟:
[0036]I)利用Aspose動態(tài)鏈接庫對文檔處理的操作支持,將待翻譯的文檔對象拆解成以單句為最小單位的待翻譯數(shù)據(jù)集合;
[0037]2)建立一個譯員處理文檔,所述譯員處理文檔設(shè)有“原文”、“譯文”和id三個字段,所述“原文”字段對應(yīng)句子原文,“譯文”字段對應(yīng)句子譯文;
[0038]3)將所述以單句為最小單位的待翻譯數(shù)據(jù)集合中的每一個句子按順序逐一復(fù)制到所述譯員處理文檔的“原文”字段,然后將待翻譯數(shù)據(jù)集合中該句子的內(nèi)容用一個具有唯一性的占位符號Guid替代,且相鄰的占位符號Guid具有不同的字符格式;所述id字段的內(nèi)容與所述不同的Guid之間具有--映射的關(guān)系;
[0039]4)將所述譯員處理文檔下發(fā)到譯員,所述譯員在所述譯員處理文檔中逐個翻譯“原文”字段的原文,填寫到對應(yīng)的“譯文”字段,直到處理完成;
[0040]5)遍歷所述待翻譯數(shù)據(jù)集合和譯員處理文檔,根據(jù)不同Guid對應(yīng)的不同id,找到該id對應(yīng)的譯文,覆蓋寫到所述待翻譯數(shù)據(jù)集合中該對應(yīng)Guid的位置。
[0041]6)調(diào)用Aspose動態(tài)鏈接庫,將所述待翻譯數(shù)據(jù)集合還原生成文檔處理工具所識別的翻譯文稿。
[0042]為更加理解本發(fā)明,下面以Word文檔的處理、翻譯為例,詳細描述本發(fā)明的翻譯處理過程:
[0043]S1、調(diào)用 Aspose 組件;
[0044]S2、遍歷待翻譯的Word文檔對象,得到全部段落對象,該段落對象包含文檔對象全部的文字信息,而不包括無需翻譯的符號、圖像或其它非文字信息;
[0045]S3、遍歷每一個段落對象的子節(jié)點對象,從而得到若干個的字符集合對象Run ;
[0046]Aspose組件提供段落對象、子節(jié)點對象,以及方便字符操作的Run對象;Run對象是文檔內(nèi)連續(xù)的字符格式一致的字符集合。
[0047]得到的Run對象存在4種情況:①一個Run對象包含有多個完整的句子;②一個Run對象包含有多個完整的句子以及某一個句子片段;③一個Run對象僅包含一個句子片段;④一個Run對象包含一個完整的句子。因此,需要進一步的斷句處理,對現(xiàn)有的Run對象進行拆分以及合并,得到一個個僅包含有一個完整的句子的Run對象。
[0048]S4、拆分:遍歷每一個Run對象,將全部Run對象拆分成一個個僅包含有一個完整的句子的Run對象,或者為僅包含有一個句子片段的Run對象。所采用的方式例如:
[0049]從第一個所述Run對象開始,檢查該Run對象的字符內(nèi)容,
[0050]如果一個Run對象僅包含有一個完整的句子,或一個句子片段,則直接檢查下一Run對象;
[0051]如果一個Run對象包含有多個完整的句子,則將該Run對象以句子結(jié)束符為界,拆分成幾個僅包含一個完整句子的Run對象。
[0052]如果一個Run對象包含有多個完整的句子以及一個句子片段,則將該Run對象以句子結(jié)束符為界,拆分成幾個僅包含一個完整句子的Run對象,以及一個包含一個句子片段的Run對象。
[0053]例如,一段文字為“為了解決上述問題,特提出一種將Word,Excel, PPT, PDF等多種主流文檔格式轉(zhuǎn)換成為統(tǒng)一的標準樣式的Word文檔并且也可以反過來將轉(zhuǎn)化得到的標準Word文檔還原為原稿格式的方法。以簡化翻譯工作、提高翻譯效率?!?br>[0054]對上述一段文字,應(yīng)用Aspose組件,遍歷上述段落對象后,得到若干個的字符集合對象Run,分別順序為:Run-l 為了解決上述問題,特提出一種將”、Run-2:“Word,Excel, PPT, PDF”、Run-3 等多種主流文檔格式轉(zhuǎn)換成為統(tǒng)一的標準樣式的”、Run-4:“Word”、Run-5 文檔并且也可以反過來將轉(zhuǎn)化得到的標準”、Run_6:“Word”、Run-7 文檔還原為原稿格式的方法。以簡化翻譯工作、提高翻譯效率?!?br>[0055]顯然,上述Run-1至Run_6,都只是包含一個句子片段,Run-7包含兩個看似完整的句子。要生成以完整句子為單位的數(shù)據(jù)集合,Run-1至Run-6
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1