文字識(shí)別、編改的方法

文檔序號(hào)：6607697閱讀：286來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：文字識(shí)別、編改的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及文檔電子化過程中文字識(shí)別、編改的方法，尤其涉及中文印刷體識(shí)別、編改的方法。
背景技術(shù)：
在紙制文件電子化的過程中，OCR識(shí)別后的文字編改工作耗費(fèi)了極大的人力，它是一項(xiàng)人力密集性工作，勞動(dòng)強(qiáng)度也很高。目前的應(yīng)用現(xiàn)狀是用普通OCR軟件進(jìn)行圖像識(shí) 別，再進(jìn)行一次編改校正，在保證每人8萬字/8小時(shí)正常編改的速度下，編改的錯(cuò)誤率通常也會(huì)超過1/1000。

發(fā)明內(nèi)容
為解決現(xiàn)有的人工編改效率低，錯(cuò)誤率高的現(xiàn)狀，本發(fā)明提供了一種文字識(shí)別、編改的方法。該方法可以極大地提高人工編改的效率，降低成本，其技術(shù)方案如下文字識(shí)別、編改的方法，包括選用不同的識(shí)別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別；比對(duì)所識(shí)別文字的結(jié)果；將識(shí)別不同的文字進(jìn)行編改校對(duì)并進(jìn)行質(zhì)檢；將質(zhì)檢合格后的文字合成文檔并輸出。本發(fā)明提供的技術(shù)方案的有益效果是通過本發(fā)明對(duì)正常的漢字為主體的文檔其編改的效率可以提高7倍以上，達(dá)到70 萬字/8小時(shí)；同時(shí)編改錯(cuò)誤率降低60 %，達(dá)到4/10000以下。

圖1是本發(fā)明實(shí)施方法流程圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述本實(shí)施例提供了一種文字識(shí)別、編改的方法，具體包括以下流程(參見圖1)文檔掃描與處理為提高OCR識(shí)別軟件識(shí)別正確率，對(duì)文檔統(tǒng)一采用300DPI精度進(jìn)行掃描，隨后對(duì) 圖像進(jìn)行必要的傾斜矯正、圖像去污去噪等處理。按段落切圖為保證雙路OCR識(shí)別軟件具有相同的版面分析結(jié)果，必須對(duì)文檔圖像進(jìn)行段落切圖，其切圖順序遵照文章段落的自然順序，并且自動(dòng)命名，以便結(jié)果輸出時(shí)使用。版面分析與檢查
對(duì)切好的圖像用“漢王” OCR識(shí)別軟件進(jìn)行自動(dòng)版面分析；人工檢查自動(dòng)版面分析結(jié)果，糾正錯(cuò)誤結(jié)果。檢查時(shí)，對(duì)圖像缺陷進(jìn)行必要的修補(bǔ)，保證段落及行分析正確。如果需要，進(jìn)行人工版面分析。我們以“漢王”O(jiān)CR識(shí)別軟件版面分析的結(jié)果作為最后重組段落的依據(jù)。“漢王”和“文通”雙路OCR識(shí)別軟件外掛識(shí)別把段落切圖的圖像進(jìn)行“行切圖”一一切成若干行圖像，分別傳入“漢王”和“文通” 雙路識(shí)別軟件，進(jìn)行外掛識(shí)別。外掛識(shí)別就是不改變?cè)瓉淼腛CR識(shí)別軟件，編寫新程序模擬人工操作OCR識(shí)別軟件的過程，以便完成圖像識(shí)別工作。外掛程序和OCR程序是各自獨(dú)立運(yùn)行的軟件。外掛程序識(shí)別圖像不需要OCR程序的識(shí)別接口，外掛程序利用OCR程序進(jìn)行圖像識(shí)別。采用外掛識(shí)別可以有效地節(jié)約采購雙路OCR識(shí)別SDK軟件的費(fèi)用，降低系統(tǒng)構(gòu)建成本，也可以避免SDK軟件相對(duì)于其正品軟件技術(shù)落后的問題。之所以經(jīng)過“行切圖”，再逐行送入雙路識(shí)別軟件進(jìn)行識(shí)別的原因是對(duì)即使很清晰的段落圖像，由于兩個(gè)識(shí)別軟件的版面分析算法不同，版面分析的結(jié)果也可能不同。經(jīng)過 “行切圖”，我們就能保證雙路識(shí)別軟件行分析的正確性。雙路識(shí)別結(jié)果比對(duì)“漢王”和“文通”是國(guó)內(nèi)對(duì)中文和英文都具有較高識(shí)別率的OCR系統(tǒng)，它們對(duì)清晰印刷體漢字圖象識(shí)別率都在98%以上。更為可貴的是通過我們的對(duì)比測(cè)試，“漢王”和“文通”識(shí)別軟件具有很強(qiáng)的互補(bǔ)性，利用他們的識(shí)別結(jié)果并進(jìn)行單行逐字比對(duì)，過濾出具有相同的識(shí)別結(jié)果的字，不交給人工進(jìn)行編改；把識(shí)別不同字交給人工進(jìn)行編改校對(duì)。實(shí)際應(yīng)用統(tǒng)計(jì)說明，對(duì)正常印刷體漢字為主體的文檔，我們不編改文字拋出率達(dá) 到95%，這部分文字的錯(cuò)誤率達(dá)到< 3/10000。在雙路比對(duì)前，針對(duì)其應(yīng)用需求，還對(duì)一些字符做了必要的全角字符轉(zhuǎn)半角字符的歸一化處理。這些字符包括A-Z、a-z、0-9、“! ”、“ [”、“] ”等，共計(jì)80個(gè)字符。雙路行對(duì)比算法采用基于狀態(tài)空間搜索A*算法，采用橫向搜索尋找最優(yōu)匹配。設(shè) 兩行待對(duì)比的文字串為Sl和S2，它們的長(zhǎng)度分別為m和n，且m彡η ;S1包含字符(Csl， Cs2，· · ·，Csm)，S2 包含字符(Cll，C12，· · ·，Cln)。比對(duì)算法如下(1)對(duì)短文字串Sl的每個(gè)文字Csi，且0 < i Sm，在長(zhǎng)文字串S2中尋找匹配的字符，并把在S2中與Csi相匹配字符的索引放入可能匹配的集合SMi ；隨后在SMi中增加一個(gè)-1的索引，代表不匹配。過程如下FOR i = 1 TO mbeginFOR j = 1 TO ηbeginif Csi = Clj then SMi — jendSMi — -1end由此，得到搜索空間(SMI, SM2，...，SMm)
4
(2)為減少搜索空間的大小，對(duì)于每一個(gè)可能的匹配，計(jì)算包括它本身隨后可能的最大匹配數(shù)MaxMatchAfter (簡(jiǎn)稱MMA)，用于下一步的啟發(fā)式搜索。對(duì)SMi中-1的可能匹配，即Csi不與S2任何一個(gè)字符匹配，其MMA = m-i ；對(duì)SMi中其他可能的匹配，遞歸計(jì)算其MMA，計(jì)算要利用順序約束和長(zhǎng)度約束排除明顯不合理的匹配。(3)進(jìn)行橫向啟發(fā)式遞歸搜索，快速找出匹配數(shù)量大的解。縱編對(duì)雙路識(shí)別有矛盾且重復(fù)出現(xiàn)兩次以上的字先交給人工進(jìn)行縱向編改校對(duì)。所有需縱編的字都在段落中標(biāo)紅，編過的字標(biāo)藍(lán)，且圖文對(duì)照。按70萬字一批形成任務(wù)批次，基本保證該批次在一天內(nèi)完成。正常情況下，該過程的編改量只占全部應(yīng)編改工作量的5%?？v編有效地提高了編改效率，減輕編改勞動(dòng)強(qiáng)度。為了提高系統(tǒng)整體的正確率，我們還主動(dòng)加入了一些易混字和易錯(cuò)字，對(duì)他們?nèi)?部進(jìn)行縱編。如“人”、“入”、“一”、“二”、“卜”、“白”、“· ”、“兒”等二十個(gè)字。橫編經(jīng)過縱編后，系統(tǒng)進(jìn)行橫編過程，所有需橫編的文字都在段落中標(biāo)紅，已縱編的字在段落中標(biāo)綠，編過的字標(biāo)藍(lán)，且圖文對(duì)照。正常工作情況下，該過程的編改量小于全部應(yīng)編改工作量的1%。在編改過程中，要求編改者同時(shí)檢查段落的正確。質(zhì)檢為督促編改人達(dá)到常規(guī)編改質(zhì)量，設(shè)計(jì)了編改抽檢崗位，對(duì)每一批人工編改數(shù)據(jù) 進(jìn)行抽檢。一般抽檢1/10，確保編改錯(cuò)誤低于1/1000。合并輸出根據(jù)段落切圖信息，合成正常文章編改文本。其系統(tǒng)錯(cuò)誤率3/10000*95% +1/1000*5%= 3. 35/10000。以上所述，僅為本發(fā)明較佳的具體實(shí)施方式
，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
文字識(shí)別、編改的方法，其特征在于，所述方法包括選用不同的識(shí)別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別；比對(duì)所識(shí)別文字的結(jié)果；將識(shí)別不同的文字進(jìn)行編改校對(duì)并進(jìn)行質(zhì)檢；將質(zhì)檢合格后的文字合成文檔并輸出。
2.根據(jù)權(quán)利要求1所述的文字識(shí)別、編改的方法，其特征在于，所述識(shí)別軟件至少包含兩種，其識(shí)別軟件可采用“漢王” OCR識(shí)別軟件和“文通” OCR識(shí)別軟件進(jìn)行外掛識(shí)別。
3.根據(jù)權(quán)利要求1所述的文字識(shí)別、編改方法，其特征在于，所述文字的編改包括縱向編改和橫向編改。
4.根據(jù)權(quán)利要求2所述的文字識(shí)別、編改的方法，其特征在于，所述“漢王”O(jiān)CR識(shí)別軟件和“文通” OCR識(shí)別軟件為兩種識(shí)別結(jié)果互補(bǔ)的識(shí)別軟件。
5.根據(jù)權(quán)利要求1所述的文字識(shí)別、編改的方法，其特征在于，在執(zhí)行“選用不同的識(shí) 別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別”之前還包括以下步驟對(duì)文檔進(jìn)行掃描并進(jìn)行相應(yīng)的處理；對(duì)文檔圖像進(jìn)行段落切圖；通過識(shí)別軟件對(duì)切好的段落圖像進(jìn)行自動(dòng)版面分析并檢查其分析的結(jié)果。
6.根據(jù)權(quán)利要求1 5任一項(xiàng)所述的文字識(shí)別、編改的方法，其特征在于，所述識(shí)別還包括對(duì)英文及其他字符的識(shí)別。
全文摘要
本發(fā)明公開了一種文字識(shí)別、編改的方法，該方法包括選用不同的識(shí)別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別；比對(duì)所識(shí)別文字的結(jié)果；將識(shí)別不同的文字進(jìn)行縱向編改及橫向編改校對(duì)并進(jìn)行質(zhì)檢；將質(zhì)檢合格后的文字合成文檔并輸出。本發(fā)明對(duì)正常的漢字為主體的文檔其編改的效率可以提高7倍以上，達(dá)到70萬字/8小時(shí)；同時(shí)編改錯(cuò)誤率降低60％，達(dá)到4/10000以下。
文檔編號(hào)G06F17/21GK101887519SQ20101025356
公開日2010年11月17日申請(qǐng)日期2010年8月16日優(yōu)先權(quán)日2010年8月16日
發(fā)明者張振海, 梁洵, 瞿洋, 袁仁慧申請(qǐng)人:同方知網(wǎng)(北京)技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：瞿洋;袁仁慧;梁洵;張振海
技術(shù)所有人：同方知網(wǎng)（北京）技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：核電用干式變壓器的抗震性能分析方法
上一篇：文字識(shí)別、編改的系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文字自動(dòng)識(shí)別軟件相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

文字識(shí)別、編改的方法