亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于影像檔案電子資料識別系統(tǒng)中分類器的識別方法

文檔序號:6549532閱讀:858來源:國知局
基于影像檔案電子資料識別系統(tǒng)中分類器的識別方法
【專利摘要】本發(fā)明提供一種基于影像檔案電子資料識別系統(tǒng)中分類器的識別方法,在識別系統(tǒng)中設(shè)置分類器,對圖像的識別信息進(jìn)行分類得到不同的信息項,為每個信息項構(gòu)建相應(yīng)的查找表,以查找表中的內(nèi)容對識別信息進(jìn)行比對。本發(fā)明能夠自動識別掃描圖像,從中提取有用信息,并按照一定的分類規(guī)則保存到數(shù)據(jù)庫中,供用戶檢索、查詢,最大程度減少用戶的工作量。本發(fā)明利用多分類器融合方法來提高字符的識別率;利用格式模板,并運用多區(qū)域多內(nèi)容冗余校驗的方法對不同信息項內(nèi)容進(jìn)行比對,保證識別結(jié)果的充分可信賴性,提高了識別效率。
【專利說明】基于影像檔案電子資料識別系統(tǒng)中分類器的識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)管理系統(tǒng)領(lǐng)域,特別涉及一種基于影像檔案電子資料識別系統(tǒng)中分類器的識別方法。
【背景技術(shù)】
[0002]現(xiàn)代社會中,紙質(zhì)文檔(例如銀行票據(jù)憑證、個人信息表等等)仍然被廣泛使用,對紙質(zhì)文檔的存儲、管理及文件上的信息歸類、查找都十分困難。計算機(jī)和智能手機(jī)的普及,使得通過電子方法對紙質(zhì)文檔進(jìn)行管理成為可能,但是將紙質(zhì)文檔上的信息通過人工輸入電子系統(tǒng)需要耗費大量的時間和人力;而通過智能系統(tǒng)自動識別票據(jù)內(nèi)容還存在很多局限。
[0003]諸如銀行業(yè)務(wù)中,票據(jù)上的大量信息都是打印上去的印刷體的數(shù)字及中英文字符,準(zhǔn)確提取并識別這些信息對票據(jù)自動處理有著重要作用。然而,由于票據(jù)版面的復(fù)雜性和識別要求的特殊性,在實際系統(tǒng)中可能會遇到各種困難:票據(jù)版面上存在印章、油墨、手寫信息、背景圖案等等干擾信息;另外票據(jù)上還會出現(xiàn)字符粘連、字體字號變化頻繁、識別信息不全等問題。針對于銀行系統(tǒng)中的兌付業(yè)務(wù)而言,其過程是將每個柜員辦理的業(yè)務(wù)票據(jù)與電腦中存儲的流水信息進(jìn)行比對,以檢查操作員是否進(jìn)行了誤操作;如果票據(jù)內(nèi)容識別錯誤會導(dǎo)致賬目不平的后果。
[0004]近些年來,相對于設(shè)計更復(fù)雜的分類器來提高識別率來說,人們更傾向于將一些單個的分類器融合起來以獲得更高的性能。多分類器融合算法包括兩個基本途徑:多個分類器的融合,也就是將每個分類器的輸出結(jié)果按照特定的融合規(guī)則進(jìn)行融合來得到最終的分類結(jié)果;動態(tài)分類器選擇,也就是對于特定類型的待識別模式動態(tài)選擇最有可能分類正確的分類器進(jìn)行分類。目前在自動識別系統(tǒng)中,多分類器融合方法得到了很好地應(yīng)用。

【發(fā)明內(nèi)容】

[0005]為了解決上述現(xiàn)有問題,本發(fā)明提供了一種基于影像檔案電子資料識別系統(tǒng)中分類器的識別方法,對識別結(jié)果進(jìn)行分類后按相應(yīng)的格式模板進(jìn)行識別,有效提高識別效率和準(zhǔn)確性。
[0006]為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是提供一種基于影像檔案電子資料識別系統(tǒng)中分類器的識別方法,在識別系統(tǒng)中設(shè)置分類器,對圖像的識別信息進(jìn)行分類得到不同的信息項,為每個信息項構(gòu)建相應(yīng)的查找表,以查找表中的內(nèi)容對識別信息進(jìn)行比對。
[0007]可選地,將信息項劃分為具有上下順位的不同類別,為不同類別的信息項對應(yīng)設(shè)置有對應(yīng)級別的查找表。
[0008]可選地,記錄信息項之間的關(guān)聯(lián)情況,對任意一個信息項的內(nèi)容通過與之關(guān)聯(lián)的信息項的內(nèi)容進(jìn)行驗證。
[0009]可選地,通過與信息項對應(yīng)的格式模板進(jìn)行信息識別;
所述格式模板中定義了信息項的固有位置、固有格式、固有內(nèi)容、固有表達(dá)方式中的一項或若干項的組合。
[0010]可選地,所述識別系統(tǒng)中設(shè)置有信息識別模塊,對圖像中的信息進(jìn)行初步識別; 再通過所述分類器,對初步識別后的信息進(jìn)行分類;
之后,將分類結(jié)果反饋至所述信息識別模塊進(jìn)行精確識別。
[0011]可選地,所述識別系統(tǒng)中設(shè)置有信息校正模塊,基于信息分類結(jié)果及其查找表、信息項關(guān)聯(lián)情況、格式模板,對識別信息進(jìn)行校正。
[0012]可選地,在查找表中預(yù)先設(shè)置與識別信息中格式及內(nèi)容固定的信息項對應(yīng)的內(nèi)容;還將經(jīng)過精確識別或校正后的信息項的內(nèi)容在查找表中進(jìn)行更新。
[0013]可選地,通過與所述信息校正模塊信號連接的信息補錄模塊,對遺漏或錯誤識別的信息進(jìn)行校正。
[0014]可選地,所述識別系統(tǒng)中設(shè)置有預(yù)處理模塊,對圖像進(jìn)行包含二值化的預(yù)處理;還設(shè)置有版面分析模塊,從預(yù)處理過的圖像中提取出識別區(qū)域,使信息識別模塊對識別區(qū)域信進(jìn)行信息識別。
[0015]可選地,所述識別系統(tǒng)中設(shè)置有多個分類器,以不同的特征各自進(jìn)行信息分類;對各分類器分別設(shè)置閾值來篩選其信息分類結(jié)果,將多個分類器的信息分類結(jié)果融合后輸出。
[0016]本發(fā)明提供的基于影像檔案電子資料識別系統(tǒng)中分類器的識別方法,其優(yōu)點在于:本發(fā)明能夠自動識別掃描圖像,從中提取有用信息,并按照一定的分類規(guī)則保存到數(shù)據(jù)庫中,供用戶檢索、查詢,最大程度減少用戶的工作量。本發(fā)明利用多分類器融合方法來提高字符的識別率;運用多區(qū)域多內(nèi)容冗余校驗的方法對不同信息項內(nèi)容進(jìn)行比對,保證識別結(jié)果的充分可信賴性,提高了識別效率。
【專利附圖】

【附圖說明】
[0017]圖1是本發(fā)明中影像檔案電子資料的識別系統(tǒng)的示意圖;
圖2是本發(fā)明識別系統(tǒng)中信息分類過程的示意圖。
【具體實施方式】
[0018]本發(fā)明通過使用如圖1所示的影像檔案電子資料的識別系統(tǒng),對掃描紙質(zhì)文檔得到的圖像進(jìn)行信息識別,形成與該信息相匹配的電子檔案存入數(shù)據(jù)庫,供用戶后續(xù)查詢使用。該識別系統(tǒng)主要包含:對掃描獲得的圖像進(jìn)行包含二值化等預(yù)處理的預(yù)處理模塊;從圖像中提取出識別區(qū)域,切分出文字行,并去除干擾信息(例如印章、手寫體、背景圖案、底紋、噪音等)的版面分析模塊;對圖像中識別區(qū)域的字符進(jìn)行識別的信息識別模塊;將識別出的信息按照不同類型進(jìn)行分類的分類器;對識別出的信息根據(jù)分類結(jié)果進(jìn)行校正的信息校正模塊。
[0019]本發(fā)明所述的版面分析模塊,以圖像版面內(nèi)的連通體分析為基礎(chǔ),采用區(qū)域生長算法對連通體行進(jìn)行聚類,從而確定所需的識別區(qū)域。具體地,所述連通體由版面中同顏色像素點(白像素或黑像素)連通構(gòu)成:從一個像素點出發(fā),若其相鄰的4個或8個方向上有相鄰的同顏色像素點,則將兩者連接起來,直到找不到相鄰的同顏色像素點,則將已經(jīng)找到的同顏色像素點作為一個連通體。這里可以通過BAG (block adjacency graph)來尋找圖像中的連通體。圖像中不同特征的連通體往往混雜在一起。其中,背景紋理產(chǎn)生的連通體通常表現(xiàn)為小的點或者窄長的線,手寫字產(chǎn)生的連通體往往形狀不規(guī)則;而本發(fā)明中需要識別的由連續(xù)的印刷字產(chǎn)生的連通體,一般是比較規(guī)則的方塊或者較寬的條帶。因而,對連通體的長度、寬度、傾斜角度等參數(shù)設(shè)置閾值,來去掉那些明顯不符合規(guī)則的連通體。之后,根據(jù)位置關(guān)系,將位置相鄰的連通體組成連通體行。再對這些連通體進(jìn)行聚類,確定需要識別的信息域。
[0020]本發(fā)明所述的分類器,利用某個領(lǐng)域內(nèi)使用的紙質(zhì)文檔具有相對固定的格式與內(nèi)容的特點,可以預(yù)先將一些常見信息項的內(nèi)容分別添加在不同的查找表中,然后把要識別的信息到查找表中比對,找到最符合的項目。如果沒有找到,可以在查找表中增加新的項目,以備以后查找之用。
[0021]例如,有的紙質(zhì)文檔中包含個人基本信息:姓名、出生年月、身份證號、畢業(yè)學(xué)校、專業(yè)、籍貫、住址等。則諸如其中畢業(yè)學(xué)校、專業(yè)、籍貫的內(nèi)容較為固定,一般可以在各自的查找表中全部列出,提供識別比對。分類器中的分類規(guī)則,主要基于上下文或其他自然語言理解方法實現(xiàn)。舉例來說,
(1)姓氏、地址中的省市名稱等一般都是某些固定的文字;
(2)郵編、電話號、身份證號等一般都是數(shù)字格式;
(3)由于表達(dá)上的習(xí)慣,地址、日期等信息的書寫有固定的格式及次序;
(4)由于表達(dá)上的習(xí)慣,姓氏一般在名字前面,等等。
[0022]另外,可以對不同查找表中的信息進(jìn)行關(guān)聯(lián),將不同信息項之間的對應(yīng)關(guān)系進(jìn)行記錄,供冗余校驗使用。例如,地址與郵編之間,金額的大小寫之間,年齡與出生年月之間等等,往往都存在對應(yīng)關(guān)系,因此可以通過一個信息項內(nèi)容來驗證另一個信息項內(nèi)容,來判斷識別出的內(nèi)容是否正確。
[0023]本發(fā)明的分類器,先將初步識別出的信息按照大類劃分后利用一級查找表進(jìn)行比對,例如將某個圖像上的信息劃分為文字類和數(shù)字類;或者按照不同的字符長度劃分,等等;在某個大類下可以再具體按照小類劃分后以二級查找表進(jìn)行識別,例如在數(shù)字類下設(shè)電話號、郵編類、身份證號類等等。根據(jù)實際情況,可以進(jìn)一步將信息細(xì)分至下一類別,并以相應(yīng)的查找表識別。初步識別并經(jīng)過分類的信息可以再反饋給信息識別模塊,進(jìn)行精準(zhǔn)識別。
[0024]在精確識別中,本發(fā)明中分好類型的不同信息項,按照對應(yīng)的格式模板進(jìn)行匹配,使識別更快速準(zhǔn)確。并且,根據(jù)信息分類的結(jié)果、查找表、格式模板、驗證結(jié)果等進(jìn)行信息識別后的校正也可有效提升效率;可以進(jìn)一步使用經(jīng)過精確識別及校正后的信息內(nèi)容來更新查找表中的內(nèi)容,供其他圖像的識別使用。例如,分類器中可以通過判斷識別區(qū)域在紙質(zhì)文檔上所處的固定位置,或根據(jù)信息項的固有格式、固有字符長度、固有表達(dá)方式等等規(guī)則或規(guī)則的組合,來對信息進(jìn)行分類。
[0025]比方說,若第一信息域被識別為提示語“郵編”時,系統(tǒng)可以根據(jù)固有位置的規(guī)則判斷緊跟著第一信息域的第二信息域為固有長度(6位字符)的數(shù)字,即郵編的具體內(nèi)容;因而,在對第二信息域的內(nèi)容進(jìn)行識別時,套用的格式模板將只按照數(shù)字格式進(jìn)行識別;并且,假設(shè)該第二信息域識別出的數(shù)字對應(yīng)數(shù)字類下設(shè)的某一級查找表,該查找表還與地址類查找表中的地址信息相互關(guān)聯(lián),可互相進(jìn)行驗證。對應(yīng)不同信息項的格式模板中,可以同時定義一種或幾種字符格式:例如某個格式模板中設(shè)定了其中若干位的字符為字母格式而另外的幾位字符為數(shù)字格式,等等。
[0026]本發(fā)明中的信息校正模塊,基于信息分類的結(jié)果,查找表信息,信息項關(guān)聯(lián)情況,格式模板等等,對識別出的信息進(jìn)行校正。對于可以確定唯一匹配內(nèi)容的信息項的,可以自動進(jìn)行校正(例如在提示語為“國家”的信息域之后的內(nèi)容被識別為“中囯”時,可以直接將其校正為“中國”;在對郵編內(nèi)容使用數(shù)字類的格式模板進(jìn)行校正時,若識別出字母“O”的則自動校正為數(shù)字0,等等)。對于不能確定唯一匹配內(nèi)容的信息項,則可以提交工作人員進(jìn)一步判斷或進(jìn)行手動校正。工作人員可以通過本發(fā)明提供的信息補錄模塊,對遺漏或錯誤識別的信息進(jìn)行手動輸入及編輯操作。本發(fā)明中提供圖像存儲器至信息校正模塊的傳輸接口,以便從圖像存儲器中調(diào)取保存的原始掃描圖像,供工作人員在信息校正時與識別出的信息進(jìn)行比對。
[0027]某個圖像上通過本發(fā)明識別系統(tǒng)中各模塊處理后的數(shù)據(jù),即識別、校正、補錄后得到的信息及其相關(guān)的分類信息項、查找表內(nèi)容等等,一起構(gòu)成了與該圖像對應(yīng)的電子檔案,被存入數(shù)據(jù)庫中,供接入的用戶終端或外部系統(tǒng)對其進(jìn)行查詢、分析等處理。按照信息分類結(jié)果、查找表級別劃分的情況等等,對所述電子檔案的檢索條件進(jìn)行設(shè)置,可以有效提升以后查找電子檔案的效率。
[0028]本發(fā)明中還可以進(jìn)一步生成索引信息,為掃描的圖像與其識別出的信息及電子檔案等進(jìn)行匹配。該索引信息可以是文字、圖形或語音等各種格式,例如,是復(fù)制于圖像上某一部分的圖形,或者是識別信息中的一部分文字,或者是分類后的某個信息項內(nèi)容,又或者是用以表示該圖像特征的一些語音,由掃描人員或補錄人員等人工添加,或由系統(tǒng)根據(jù)識別出的文字轉(zhuǎn)化成語音數(shù)據(jù)后自動添加成為索引。因而,當(dāng)圖像保存在圖像存儲器之后,可以根據(jù)各種格式的索引信息或其組合作為搜索條件進(jìn)行智能查詢,來調(diào)取原始圖像。該索弓I信息也可以存入到圖像對應(yīng)的電子檔案中,方便統(tǒng)一管理。
[0029]一個示例的識別系統(tǒng)中,用到了兩個分類器:一個是以方向元素為特征的最小歐式距離分類器,方向元素特征(DEF)是從字符的輪廓線上提取的特征,其提取過程主要包括字符輪廓提取,點定位以及向量構(gòu)造等步驟。另一個是以標(biāo)準(zhǔn)數(shù)字樣本為模板的模板匹配分類器,將待識別字符圖像與標(biāo)準(zhǔn)模板的圖像的重心重合,在此基礎(chǔ)上進(jìn)行匹配。本發(fā)明中對兩個分類器的輸出結(jié)果分別設(shè)置閾值,根據(jù)具體的應(yīng)用情況,可以選擇兩者中分類效果較好的一個輸出,或者可以選擇二者融合后最優(yōu)的分類效果輸出。
[0030]綜上所述,本發(fā)明提供的影像檔案電子資料的識別系統(tǒng),能夠自動識別掃描圖像,從中提取有用信息,并按照一定的分類規(guī)則保存到數(shù)據(jù)庫中,供用戶檢索、查詢,最大程度減少用戶的工作量。本發(fā)明利用多分類器融合方法來提高字符的識別率;運用多區(qū)域多內(nèi)容冗余校驗的方法對不同信息項內(nèi)容進(jìn)行比對,保證識別結(jié)果的充分可信賴性,提高了識別效率。
[0031]盡管本發(fā)明的內(nèi)容已經(jīng)通過上述優(yōu)選實施例作了詳細(xì)介紹,但應(yīng)當(dāng)認(rèn)識到上述的描述不應(yīng)被認(rèn)為是對本發(fā)明的限制。在本領(lǐng)域技術(shù)人員閱讀了上述內(nèi)容后,對于本發(fā)明的多種修改和替代都將是顯而易見的。因此,本發(fā)明的保護(hù)范圍應(yīng)由所附的權(quán)利要求來限定。
【權(quán)利要求】
1.一種基于影像檔案電子資料識別系統(tǒng)中分類器的識別方法,其特征在于, 在識別系統(tǒng)中設(shè)置分類器,對圖像的識別信息進(jìn)行分類得到不同的信息項,為每個信息項構(gòu)建相應(yīng)的查找表,以查找表中的內(nèi)容對識別信息進(jìn)行比對。
2.如權(quán)利要求1所述的識別方法,其特征在于, 將信息項劃分為具有上下順位的不同類別,為不同類別的信息項對應(yīng)設(shè)置有對應(yīng)級別的查找表。
3.如權(quán)利要求1所述的識別方法,其特征在于, 記錄信息項之間的關(guān)聯(lián)情況,對任意一個信息項的內(nèi)容通過與之關(guān)聯(lián)的信息項的內(nèi)容進(jìn)行驗證。
4.如權(quán)利要求1所述的識別方法,其特征在于, 通過與信息項對應(yīng)的格式模板進(jìn)行信息識別; 所述格式模板中定義了信息項的固有位置、固有格式、固有內(nèi)容、固有表達(dá)方式中的一項或若干項的組合。
5.如權(quán)利要求1所述的識別方法,其特征在于, 所述識別系統(tǒng)中設(shè)置有信息識別模塊,對圖像中的信息進(jìn)行初步識別; 再通過所述分類器,對初步識別后的信息進(jìn)行分類; 之后,將分類結(jié)果反饋至所述信息識別模塊進(jìn)行精確識別。
6.如權(quán)利要求廣5中任意一項所述的識別方法,其特征在于, 所述識別系統(tǒng)中設(shè)置有信息校正模塊,基于信息分類結(jié)果及其查找表、信息項關(guān)聯(lián)情況、格式模板,對識別信息進(jìn)行校正。
7.如權(quán)利要求6所述的識別方法,其特征在于, 在查找表中預(yù)先設(shè)置與識別信息中格式及內(nèi)容固定的信息項對應(yīng)的內(nèi)容;還將經(jīng)過精確識別或校正后的信息項的內(nèi)容在查找表中進(jìn)行更新。
8.如權(quán)利要求6所述的識別方法,其特征在于, 通過與所述信息校正模塊信號連接的信息補錄模塊,對遺漏或錯誤識別的信息進(jìn)行校正。
9.如權(quán)利要求1所述的識別方法,其特征在于, 所述識別系統(tǒng)中設(shè)置有預(yù)處理模塊,對圖像進(jìn)行包含二值化的預(yù)處理;還設(shè)置有版面分析模塊,從預(yù)處理過的圖像中提取出識別區(qū)域,使信息識別模塊對識別區(qū)域信進(jìn)行信息識別。
10.如權(quán)利要求1所述的識別方法,其特征在于, 所述識別系統(tǒng)中設(shè)置有多個分類器,以不同的特征各自進(jìn)行信息分類;對各分類器分別設(shè)置閾值來篩選其信息分類結(jié)果,將多個分類器的信息分類結(jié)果融合后輸出。
【文檔編號】G06K9/62GK103996055SQ201410262741
【公開日】2014年8月20日 申請日期:2014年6月13日 優(yōu)先權(quán)日:2014年6月13日
【發(fā)明者】林珉 申請人:上海珉智信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1