專利名稱:文字識(shí)別、編改的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文檔電子化過程中文字識(shí)別、編改的方法,尤其涉及中文印刷體識(shí)別、 編改的方法。
背景技術(shù):
在紙制文件電子化的過程中,OCR識(shí)別后的文字編改工作耗費(fèi)了極大的人力,它是 一項(xiàng)人力密集性工作,勞動(dòng)強(qiáng)度也很高。目前的應(yīng)用現(xiàn)狀是用普通OCR軟件進(jìn)行圖像識(shí) 別,再進(jìn)行一次編改校正,在保證每人8萬字/8小時(shí)正常編改的速度下,編改的錯(cuò)誤率通常 也會(huì)超過1/1000。
發(fā)明內(nèi)容
為解決現(xiàn)有的人工編改效率低,錯(cuò)誤率高的現(xiàn)狀,本發(fā)明提供了一種文字識(shí)別、編 改的方法。該方法可以極大地提高人工編改的效率,降低成本,其技術(shù)方案如下文字識(shí)別、編改的方法,包括選用不同的識(shí)別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別;比對(duì)所識(shí)別文字的結(jié)果;將識(shí)別不同的文字進(jìn)行編改校對(duì)并進(jìn)行質(zhì)檢;將質(zhì)檢合格后的文字合成文檔并輸出。本發(fā)明提供的技術(shù)方案的有益效果是通過本發(fā)明對(duì)正常的漢字為主體的文檔其編改的效率可以提高7倍以上,達(dá)到70 萬字/8小時(shí);同時(shí)編改錯(cuò)誤率降低60 %,達(dá)到4/10000以下。
圖1是本發(fā)明實(shí)施方法流程圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述本實(shí)施例提供了一種文字識(shí)別、編改的方法,具體包括以下流程(參見圖1)文檔掃描與處理為提高OCR識(shí)別軟件識(shí)別正確率,對(duì)文檔統(tǒng)一采用300DPI精度進(jìn)行掃描,隨后對(duì) 圖像進(jìn)行必要的傾斜矯正、圖像去污去噪等處理。按段落切圖為保證雙路OCR識(shí)別軟件具有相同的版面分析結(jié)果,必須對(duì)文檔圖像進(jìn)行段落切 圖,其切圖順序遵照文章段落的自然順序,并且自動(dòng)命名,以便結(jié)果輸出時(shí)使用。版面分析與檢查
對(duì)切好的圖像用“漢王” OCR識(shí)別軟件進(jìn)行自動(dòng)版面分析;人工檢查自動(dòng)版面分析 結(jié)果,糾正錯(cuò)誤結(jié)果。檢查時(shí),對(duì)圖像缺陷進(jìn)行必要的修補(bǔ),保證段落及行分析正確。如果 需要,進(jìn)行人工版面分析。我們以“漢王”O(jiān)CR識(shí)別軟件版面分析的結(jié)果作為最后重組段落 的依據(jù)。“漢王”和“文通”雙路OCR識(shí)別軟件外掛識(shí)別把段落切圖的圖像進(jìn)行“行切圖”一一切成若干行圖像,分別傳入“漢王”和“文通” 雙路識(shí)別軟件,進(jìn)行外掛識(shí)別。外掛識(shí)別就是不改變?cè)瓉淼腛CR識(shí)別軟件,編寫新程序模擬人工操作OCR識(shí)別軟 件的過程,以便完成圖像識(shí)別工作。外掛程序和OCR程序是各自獨(dú)立運(yùn)行的軟件。外掛程 序識(shí)別圖像不需要OCR程序的識(shí)別接口,外掛程序利用OCR程序進(jìn)行圖像識(shí)別。采用外掛識(shí)別可以有效地節(jié)約采購雙路OCR識(shí)別SDK軟件的費(fèi)用,降低系統(tǒng)構(gòu)建 成本,也可以避免SDK軟件相對(duì)于其正品軟件技術(shù)落后的問題。之所以經(jīng)過“行切圖”,再逐行送入雙路識(shí)別軟件進(jìn)行識(shí)別的原因是對(duì)即使很清 晰的段落圖像,由于兩個(gè)識(shí)別軟件的版面分析算法不同,版面分析的結(jié)果也可能不同。經(jīng)過 “行切圖”,我們就能保證雙路識(shí)別軟件行分析的正確性。雙路識(shí)別結(jié)果比對(duì)“漢王”和“文通”是國(guó)內(nèi)對(duì)中文和英文都具有較高識(shí)別率的OCR系統(tǒng),它們對(duì)清晰 印刷體漢字圖象識(shí)別率都在98%以上。更為可貴的是通過我們的對(duì)比測(cè)試,“漢王”和“文 通”識(shí)別軟件具有很強(qiáng)的互補(bǔ)性,利用他們的識(shí)別結(jié)果并進(jìn)行單行逐字比對(duì),過濾出具有相 同的識(shí)別結(jié)果的字,不交給人工進(jìn)行編改;把識(shí)別不同字交給人工進(jìn)行編改校對(duì)。實(shí)際應(yīng)用統(tǒng)計(jì)說明,對(duì)正常印刷體漢字為主體的文檔,我們不編改文字拋出率達(dá) 到95%,這部分文字的錯(cuò)誤率達(dá)到< 3/10000。在雙路比對(duì)前,針對(duì)其應(yīng)用需求,還對(duì)一些字符做了必要的全角字符轉(zhuǎn)半角字符 的歸一化處理。這些字符包括A-Z、a-z、0-9、“! ”、“ [”、“] ”等,共計(jì)80個(gè)字符。雙路行對(duì)比算法采用基于狀態(tài)空間搜索A*算法,采用橫向搜索尋找最優(yōu)匹配。設(shè) 兩行待對(duì)比的文字串為Sl和S2,它們的長(zhǎng)度分別為m和n,且m彡η ;S1包含字符(Csl, Cs2,· · ·,Csm),S2 包含字符(Cll,C12,· · ·,Cln)。比對(duì)算法如下(1)對(duì)短文字串Sl的每個(gè)文字Csi,且0 < i Sm,在長(zhǎng)文字串S2中尋找匹配的字 符,并把在S2中與Csi相匹配字符的索引放入可能匹配的集合SMi ;隨后在SMi中增加一 個(gè)-1的索引,代表不匹配。過程如下FOR i = 1 TO mbeginFOR j = 1 TO ηbeginif Csi = Clj then SMi — jendSMi — -1end由此,得到搜索空間(SMI, SM2,...,SMm)
4
(2)為減少搜索空間的大小,對(duì)于每一個(gè)可能的匹配,計(jì)算包括它本身隨后可能的 最大匹配數(shù)MaxMatchAfter (簡(jiǎn)稱MMA),用于下一步的啟發(fā)式搜索。對(duì)SMi中-1的可能匹 配,即Csi不與S2任何一個(gè)字符匹配,其MMA = m-i ;對(duì)SMi中其他可能的匹配,遞歸計(jì)算 其MMA,計(jì)算要利用順序約束和長(zhǎng)度約束排除明顯不合理的匹配。(3)進(jìn)行橫向啟發(fā)式遞歸搜索,快速找出匹配數(shù)量大的解。縱編對(duì)雙路識(shí)別有矛盾且重復(fù)出現(xiàn)兩次以上的字先交給人工進(jìn)行縱向編改校對(duì)。所有 需縱編的字都在段落中標(biāo)紅,編過的字標(biāo)藍(lán),且圖文對(duì)照。按70萬字一批形成任務(wù)批次,基 本保證該批次在一天內(nèi)完成。正常情況下,該過程的編改量只占全部應(yīng)編改工作量的5%??v編有效地提高了編 改效率,減輕編改勞動(dòng)強(qiáng)度。為了提高系統(tǒng)整體的正確率,我們還主動(dòng)加入了一些易混字和易錯(cuò)字,對(duì)他們?nèi)?部進(jìn)行縱編。如“人”、“入”、“一”、“二”、“卜”、“白”、“· ”、“兒”等二十個(gè)字。橫編經(jīng)過縱編后,系統(tǒng)進(jìn)行橫編過程,所有需橫編的文字都在段落中標(biāo)紅,已縱編的字 在段落中標(biāo)綠,編過的字標(biāo)藍(lán),且圖文對(duì)照。正常工作情況下,該過程的編改量小于全部應(yīng)編改工作量的1%。在編改過程中, 要求編改者同時(shí)檢查段落的正確。質(zhì)檢為督促編改人達(dá)到常規(guī)編改質(zhì)量,設(shè)計(jì)了編改抽檢崗位,對(duì)每一批人工編改數(shù)據(jù) 進(jìn)行抽檢。一般抽檢1/10,確保編改錯(cuò)誤低于1/1000。合并輸出根據(jù)段落切圖信息,合成正常文章編改文本。其系統(tǒng)錯(cuò)誤率3/10000*95% +1/1000*5%= 3. 35/10000。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍 為準(zhǔn)。
權(quán)利要求
文字識(shí)別、編改的方法,其特征在于,所述方法包括選用不同的識(shí)別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別;比對(duì)所識(shí)別文字的結(jié)果;將識(shí)別不同的文字進(jìn)行編改校對(duì)并進(jìn)行質(zhì)檢;將質(zhì)檢合格后的文字合成文檔并輸出。
2.根據(jù)權(quán)利要求1所述的文字識(shí)別、編改的方法,其特征在于,所述識(shí)別軟件至少包含 兩種,其識(shí)別軟件可采用“漢王” OCR識(shí)別軟件和“文通” OCR識(shí)別軟件進(jìn)行外掛識(shí)別。
3.根據(jù)權(quán)利要求1所述的文字識(shí)別、編改方法,其特征在于,所述文字的編改包括縱向 編改和橫向編改。
4.根據(jù)權(quán)利要求2所述的文字識(shí)別、編改的方法,其特征在于,所述“漢王”O(jiān)CR識(shí)別軟 件和“文通” OCR識(shí)別軟件為兩種識(shí)別結(jié)果互補(bǔ)的識(shí)別軟件。
5.根據(jù)權(quán)利要求1所述的文字識(shí)別、編改的方法,其特征在于,在執(zhí)行“選用不同的識(shí) 別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別”之前還包括以下步驟對(duì)文檔進(jìn)行掃描并進(jìn)行相應(yīng)的處理; 對(duì)文檔圖像進(jìn)行段落切圖;通過識(shí)別軟件對(duì)切好的段落圖像進(jìn)行自動(dòng)版面分析并檢查其分析的結(jié)果。
6.根據(jù)權(quán)利要求1 5任一項(xiàng)所述的文字識(shí)別、編改的方法,其特征在于,所述識(shí)別還 包括對(duì)英文及其他字符的識(shí)別。
全文摘要
本發(fā)明公開了一種文字識(shí)別、編改的方法,該方法包括選用不同的識(shí)別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別;比對(duì)所識(shí)別文字的結(jié)果;將識(shí)別不同的文字進(jìn)行縱向編改及橫向編改校對(duì)并進(jìn)行質(zhì)檢;將質(zhì)檢合格后的文字合成文檔并輸出。本發(fā)明對(duì)正常的漢字為主體的文檔其編改的效率可以提高7倍以上,達(dá)到70萬字/8小時(shí);同時(shí)編改錯(cuò)誤率降低60%,達(dá)到4/10000以下。
文檔編號(hào)G06F17/21GK101887519SQ20101025356
公開日2010年11月17日 申請(qǐng)日期2010年8月16日 優(yōu)先權(quán)日2010年8月16日
發(fā)明者張振海, 梁洵, 瞿洋, 袁仁慧 申請(qǐng)人:同方知網(wǎng)(北京)技術(shù)有限公司