一種pdf文檔亂碼的檢測、校正的方法

文檔序號：8412885閱讀：1108來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種pdf文檔亂碼的檢測、校正的方法【
技術(shù)領(lǐng)域：
】[0001]本發(fā)明涉及PDF文檔的碎片化加工過程中亂碼字符檢測、校正的方法尤其涉及中文和英文PDF文檔亂碼字符的檢測、校正的方法?！?br>背景技術(shù)：
】[0002]PDF(PortableDocumentFormat，便攜文件格式)是一種電子文檔格式，具有與操作系統(tǒng)平臺無關(guān)性的特點(diǎn)，已成為電子文檔發(fā)行和數(shù)字化信息傳播中廣泛使用的理想文檔格式。[0003]在PDF文檔的碎片化加工過程(元數(shù)據(jù)標(biāo)引)中，要對文檔進(jìn)行取字操作。所謂取字是指將文檔字符復(fù)制并粘貼到指定位置。通常，文檔顯示內(nèi)容正確并且顯示內(nèi)容和取字結(jié)果一致。當(dāng)顯示內(nèi)容與取字結(jié)果不一致，即顯示正確、取字出錯時，稱這種現(xiàn)象為TOF文檔的亂碼現(xiàn)象。當(dāng)取字結(jié)果含大量亂碼時，標(biāo)引人員必須用鍵盤逐字逐句敲入標(biāo)引內(nèi)容；當(dāng)少量或個別亂碼摻雜其中難以發(fā)現(xiàn)時，為保證標(biāo)引質(zhì)量標(biāo)引人員要花費(fèi)大量時間檢查取字結(jié)果。因此，亂碼現(xiàn)象嚴(yán)重降低了元數(shù)據(jù)標(biāo)引的工作效率和質(zhì)量。[0004]亂碼現(xiàn)象也嚴(yán)重影響了電子文檔二次加工中數(shù)據(jù)內(nèi)容的精準(zhǔn)性。隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，數(shù)字化信息傳播成為主流傳播方式。在數(shù)字化信息傳播中，要滿足不同格式不同類型的電子文檔間互相轉(zhuǎn)換需求，例如PDF與WORD、EPUB之間互轉(zhuǎn)。PDF文檔轉(zhuǎn)換過程中可能出現(xiàn)下述現(xiàn)象:一個PDF文檔在頁面文字顯示正確的前提下轉(zhuǎn)換為其他格式電子文檔時，轉(zhuǎn)換后的文檔出現(xiàn)字符亂碼現(xiàn)象。雖然轉(zhuǎn)換后的文檔可以通過人工檢查發(fā)現(xiàn)并糾正亂碼，但是人工檢查不僅費(fèi)時費(fèi)力，而且當(dāng)少量亂碼摻雜在文檔中人眼不易察覺，影響了數(shù)據(jù)內(nèi)容準(zhǔn)確性，降低了加工質(zhì)量。[0005]在PDF文檔碎片化加工時，倘若先對文檔進(jìn)行亂碼檢測、校正，從源頭上找到亂碼糾正亂碼，就可避免亂碼對后續(xù)加工的不良影響。因此，對PDF文檔進(jìn)行亂碼檢測、校正是十分必要的。目前，鮮有公開的成熟的方法解決PDF文檔亂碼問題。近似的技術(shù)，如在PDF文字提取中結(jié)合OCR(OpticalCharacterRecognit1n)技術(shù)以提高文字提取的準(zhǔn)確性。OCR技術(shù)是一種利用字符識別技術(shù)將字符的圖像轉(zhuǎn)換為字符計(jì)算機(jī)內(nèi)碼的技術(shù)。OCR技術(shù)包括圖像數(shù)據(jù)預(yù)處理、版面分析、文字切分、單字符識別。在PDF文字提取中主要使用了OCR技術(shù)中的單字識別技術(shù)。在亂碼檢測中，倘若對文檔的每個字符不加區(qū)別地統(tǒng)一使用OCR技術(shù)中的單字識別技術(shù)，所花費(fèi)的成本很高。例如，對于大部分字符正常僅含少量亂碼的HF文檔，對每個字符使用OCR單字識別技術(shù)，不可避免地將大量時間消耗在識別正常字符上?！?br/>發(fā)明內(nèi)容】[0006]為解決上述技術(shù)問題，本發(fā)明的目的是提供一種PDF文檔亂碼檢測、校正的方法，該方法采用字體特征和字符的圖像統(tǒng)計(jì)特征結(jié)合的方式，實(shí)現(xiàn)了亂碼的自動檢測，排除亂碼對PDF文檔碎片化加工的干擾，提高加工質(zhì)量降低加工成本。[0007]本發(fā)明的目的通過以下的技術(shù)方案來實(shí)現(xiàn):[0008]一種PDF文檔亂碼檢測、校正的方法，包括:[0009]提取PDF文檔內(nèi)所有字體特征；[0010]根據(jù)字體特征將字體分為正常字體、亂碼字體和待定字體；[0011]提取待定字體中字符的點(diǎn)陣圖像，并基于圖像統(tǒng)計(jì)特征的亂碼檢測算法計(jì)算點(diǎn)陣圖像與對應(yīng)編碼的相似度，根據(jù)相似度判斷待定字體中的正常字符或亂碼字符；[0012]將所述待定字體中的亂碼字符和亂碼字體中的亂碼字符進(jìn)行縱向和橫向編改校正；[0013]通過校正結(jié)果修正PDF文檔，去除亂碼字符。[0014]與現(xiàn)有技術(shù)相比，本發(fā)明的一個或多個實(shí)施例可以具有如下優(yōu)點(diǎn):[0015]從PDF文檔字體特征和字符的圖像特征兩個角度出發(fā)，互相補(bǔ)充，進(jìn)一步提高亂碼檢測效率；[0016]亂碼檢測時以字體為單位，相同字體重復(fù)出現(xiàn)的字符只需檢測一次，摒棄了從文檔逐頁逐句逐字取字重復(fù)檢測的低效的方式；[0017]在亂碼檢測中，基于圖像統(tǒng)計(jì)特征的亂碼檢測算法與OCR單字識別技術(shù)相比，優(yōu)勢在于前者以字符編碼為導(dǎo)向結(jié)合圖像特征進(jìn)行亂碼判斷，即根據(jù)當(dāng)前字符的編碼查找特征庫中對應(yīng)的點(diǎn)陣圖像的統(tǒng)計(jì)特征，通過當(dāng)前字符的點(diǎn)陣圖像與統(tǒng)計(jì)特征的相似度來判斷當(dāng)前字符是否為亂碼。而后者直接根據(jù)點(diǎn)陣圖像進(jìn)行識別，再將識別結(jié)果與字符編碼對比判斷。OCR單字識別技術(shù)一般進(jìn)行兩級識別:粗識別和細(xì)識別。粗識別縮小范圍，細(xì)識別確定最終結(jié)果。而亂碼檢測中，字符編碼已經(jīng)確定了范圍并不需要粗識別縮小范圍。由此可見基于圖像統(tǒng)計(jì)特征的亂碼檢測算法相比OCR單字識別技術(shù)，更簡單、省時省力更適合于亂碼檢測。[0018]縱向和橫向編改相結(jié)合降低了人工編改用時，提高了亂碼校正效率?！靖綀D說明】[0019]圖1是PDF文檔亂碼檢測、校正的方法流程圖?！揪唧w實(shí)施方式】[0020]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述。[0021]如圖1所示，為PDF文檔亂碼檢測、校正的方法流程，所述方法包括:[0022]提取PDF文檔內(nèi)所有字體特征；[0023]根據(jù)字體特征將字體分為正常字體、亂碼字體和待定字體；[0024]提取待定字體中字符的點(diǎn)陣圖像，并基于圖像統(tǒng)計(jì)特征的亂碼檢測算法計(jì)算點(diǎn)陣圖像與對應(yīng)編碼的相似度，根據(jù)相似度判斷待定字體中的正常字符或亂碼字符；[0025]將所述待定字體中的亂碼字符和亂碼字體中的亂碼字符進(jìn)行縱向和橫向編改校正；[0026]通過校正結(jié)果修正PDF文檔，去除亂碼字符。[0027]上述字體特征包括:字體類型、字體編碼方式、是否存在當(dāng)前編碼與標(biāo)準(zhǔn)編碼之間的映射關(guān)系、是否為內(nèi)嵌字體等。所述字體類型主要分為兩種:復(fù)合字體(CompositeFont)和簡單字體(S當(dāng)前第1頁1 2

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄒季英;梁洵;袁仁慧;
技術(shù)所有人：同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司;同方知網(wǎng)（北京）技術(shù)有限公司;
我是此專利的發(fā)明人

上一篇：一種用于宮頸涂片圖像中重疊細(xì)胞的分割方法
上一篇：一種基于清晰度和亮度評估的車牌快速定位方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本文檔亂碼相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種pdf文檔亂碼的檢測、校正的方法

一種pdf文檔亂碼的檢測、校正的方法