亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種pdf文檔亂碼的檢測、校正的方法

文檔序號:8412885閱讀:1108來源:國知局
一種pdf文檔亂碼的檢測、校正的方法【
技術(shù)領(lǐng)域
】[0001]本發(fā)明涉及PDF文檔的碎片化加工過程中亂碼字符檢測、校正的方法尤其涉及中文和英文PDF文檔亂碼字符的檢測、校正的方法?!?br>背景技術(shù)
】[0002]PDF(PortableDocumentFormat,便攜文件格式)是一種電子文檔格式,具有與操作系統(tǒng)平臺無關(guān)性的特點(diǎn),已成為電子文檔發(fā)行和數(shù)字化信息傳播中廣泛使用的理想文檔格式。[0003]在PDF文檔的碎片化加工過程(元數(shù)據(jù)標(biāo)引)中,要對文檔進(jìn)行取字操作。所謂取字是指將文檔字符復(fù)制并粘貼到指定位置。通常,文檔顯示內(nèi)容正確并且顯示內(nèi)容和取字結(jié)果一致。當(dāng)顯示內(nèi)容與取字結(jié)果不一致,即顯示正確、取字出錯時,稱這種現(xiàn)象為TOF文檔的亂碼現(xiàn)象。當(dāng)取字結(jié)果含大量亂碼時,標(biāo)引人員必須用鍵盤逐字逐句敲入標(biāo)引內(nèi)容;當(dāng)少量或個別亂碼摻雜其中難以發(fā)現(xiàn)時,為保證標(biāo)引質(zhì)量標(biāo)引人員要花費(fèi)大量時間檢查取字結(jié)果。因此,亂碼現(xiàn)象嚴(yán)重降低了元數(shù)據(jù)標(biāo)引的工作效率和質(zhì)量。[0004]亂碼現(xiàn)象也嚴(yán)重影響了電子文檔二次加工中數(shù)據(jù)內(nèi)容的精準(zhǔn)性。隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,數(shù)字化信息傳播成為主流傳播方式。在數(shù)字化信息傳播中,要滿足不同格式不同類型的電子文檔間互相轉(zhuǎn)換需求,例如PDF與WORD、EPUB之間互轉(zhuǎn)。PDF文檔轉(zhuǎn)換過程中可能出現(xiàn)下述現(xiàn)象:一個PDF文檔在頁面文字顯示正確的前提下轉(zhuǎn)換為其他格式電子文檔時,轉(zhuǎn)換后的文檔出現(xiàn)字符亂碼現(xiàn)象。雖然轉(zhuǎn)換后的文檔可以通過人工檢查發(fā)現(xiàn)并糾正亂碼,但是人工檢查不僅費(fèi)時費(fèi)力,而且當(dāng)少量亂碼摻雜在文檔中人眼不易察覺,影響了數(shù)據(jù)內(nèi)容準(zhǔn)確性,降低了加工質(zhì)量。[0005]在PDF文檔碎片化加工時,倘若先對文檔進(jìn)行亂碼檢測、校正,從源頭上找到亂碼糾正亂碼,就可避免亂碼對后續(xù)加工的不良影響。因此,對PDF文檔進(jìn)行亂碼檢測、校正是十分必要的。目前,鮮有公開的成熟的方法解決PDF文檔亂碼問題。近似的技術(shù),如在PDF文字提取中結(jié)合OCR(OpticalCharacterRecognit1n)技術(shù)以提高文字提取的準(zhǔn)確性。OCR技術(shù)是一種利用字符識別技術(shù)將字符的圖像轉(zhuǎn)換為字符計(jì)算機(jī)內(nèi)碼的技術(shù)。OCR技術(shù)包括圖像數(shù)據(jù)預(yù)處理、版面分析、文字切分、單字符識別。在PDF文字提取中主要使用了OCR技術(shù)中的單字識別技術(shù)。在亂碼檢測中,倘若對文檔的每個字符不加區(qū)別地統(tǒng)一使用OCR技術(shù)中的單字識別技術(shù),所花費(fèi)的成本很高。例如,對于大部分字符正常僅含少量亂碼的HF文檔,對每個字符使用OCR單字識別技術(shù),不可避免地將大量時間消耗在識別正常字符上?!?br/>發(fā)明內(nèi)容】[0006]為解決上述技術(shù)問題,本發(fā)明的目的是提供一種PDF文檔亂碼檢測、校正的方法,該方法采用字體特征和字符的圖像統(tǒng)計(jì)特征結(jié)合的方式,實(shí)現(xiàn)了亂碼的自動檢測,排除亂碼對PDF文檔碎片化加工的干擾,提高加工質(zhì)量降低加工成本。[0007]本發(fā)明的目的通過以下的技術(shù)方案來實(shí)現(xiàn):[0008]一種PDF文檔亂碼檢測、校正的方法,包括:[0009]提取PDF文檔內(nèi)所有字體特征;[0010]根據(jù)字體特征將字體分為正常字體、亂碼字體和待定字體;[0011]提取待定字體中字符的點(diǎn)陣圖像,并基于圖像統(tǒng)計(jì)特征的亂碼檢測算法計(jì)算點(diǎn)陣圖像與對應(yīng)編碼的相似度,根據(jù)相似度判斷待定字體中的正常字符或亂碼字符;[0012]將所述待定字體中的亂碼字符和亂碼字體中的亂碼字符進(jìn)行縱向和橫向編改校正;[0013]通過校正結(jié)果修正PDF文檔,去除亂碼字符。[0014]與現(xiàn)有技術(shù)相比,本發(fā)明的一個或多個實(shí)施例可以具有如下優(yōu)點(diǎn):[0015]從PDF文檔字體特征和字符的圖像特征兩個角度出發(fā),互相補(bǔ)充,進(jìn)一步提高亂碼檢測效率;[0016]亂碼檢測時以字體為單位,相同字體重復(fù)出現(xiàn)的字符只需檢測一次,摒棄了從文檔逐頁逐句逐字取字重復(fù)檢測的低效的方式;[0017]在亂碼檢測中,基于圖像統(tǒng)計(jì)特征的亂碼檢測算法與OCR單字識別技術(shù)相比,優(yōu)勢在于前者以字符編碼為導(dǎo)向結(jié)合圖像特征進(jìn)行亂碼判斷,即根據(jù)當(dāng)前字符的編碼查找特征庫中對應(yīng)的點(diǎn)陣圖像的統(tǒng)計(jì)特征,通過當(dāng)前字符的點(diǎn)陣圖像與統(tǒng)計(jì)特征的相似度來判斷當(dāng)前字符是否為亂碼。而后者直接根據(jù)點(diǎn)陣圖像進(jìn)行識別,再將識別結(jié)果與字符編碼對比判斷。OCR單字識別技術(shù)一般進(jìn)行兩級識別:粗識別和細(xì)識別。粗識別縮小范圍,細(xì)識別確定最終結(jié)果。而亂碼檢測中,字符編碼已經(jīng)確定了范圍并不需要粗識別縮小范圍。由此可見基于圖像統(tǒng)計(jì)特征的亂碼檢測算法相比OCR單字識別技術(shù),更簡單、省時省力更適合于亂碼檢測。[0018]縱向和橫向編改相結(jié)合降低了人工編改用時,提高了亂碼校正效率?!靖綀D說明】[0019]圖1是PDF文檔亂碼檢測、校正的方法流程圖?!揪唧w實(shí)施方式】[0020]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述。[0021]如圖1所示,為PDF文檔亂碼檢測、校正的方法流程,所述方法包括:[0022]提取PDF文檔內(nèi)所有字體特征;[0023]根據(jù)字體特征將字體分為正常字體、亂碼字體和待定字體;[0024]提取待定字體中字符的點(diǎn)陣圖像,并基于圖像統(tǒng)計(jì)特征的亂碼檢測算法計(jì)算點(diǎn)陣圖像與對應(yīng)編碼的相似度,根據(jù)相似度判斷待定字體中的正常字符或亂碼字符;[0025]將所述待定字體中的亂碼字符和亂碼字體中的亂碼字符進(jìn)行縱向和橫向編改校正;[0026]通過校正結(jié)果修正PDF文檔,去除亂碼字符。[0027]上述字體特征包括:字體類型、字體編碼方式、是否存在當(dāng)前編碼與標(biāo)準(zhǔn)編碼之間的映射關(guān)系、是否為內(nèi)嵌字體等。所述字體類型主要分為兩種:復(fù)合字體(CompositeFont)和簡單字體(S當(dāng)前第1頁1 2 
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1