專利名稱:基于模板匹配的信息填涂卡識別方法
技術領域:
本發(fā)明屬于信息處理技術領域,具體涉及信息填涂卡中選項填涂情 況的計算機自動識別技術。
背景技術:
目前,光學標記識別(Optical Marker Recognition, OMR)在標準化 閱巻、問巻調査、選票統(tǒng)計、人口普査等領域有廣泛的應用。OMR技 術一般采用光電對管閱讀技術,就是采用了兩個光電器件,即半導體發(fā) 光管和光敏管。在識別時,由發(fā)光管發(fā)出光照射到選項涂點區(qū)域上,通 過光敏管接收來自選項涂點區(qū)域的反射光。因為選項填涂的情況直接決 定了反射光的強弱,所以根據(jù)此特性可以判定選項是否填涂。但這種方 式存在以下幾個缺陷(1)對紙張有較高的要求,成本高。(2)保存與 查閱不方便。(3)需要購買專門的涂點標記識別設備,需要較大的硬件 投入。(4)速度慢,對于大批量的閱巻而言效率較低。
由于傳統(tǒng)的OMR閱巻機存在種種弊端, 一種新的基于圖像灰度分 析的涂點識別技術應運而生。基本方法就是先利用高速掃描儀將所有紙 質文檔掃描為圖像格式進行保存,然后利用圖像識別技術對文檔圖像中 的選項區(qū)域進行涂點識別。這種方法的好處主要是不需要專門的光學標 記閱巻設備,填涂卡紙張也沒有特殊要求,從而成本低廉,無論對大型 還是小型的閱巻應用都比較合適。另外,由于采用了圖像格式來保存紙 質文檔,所以文檔的保存與査詢非常方便。該方法涉及的幾個關鍵技術 就是文檔圖像的傾斜校正、選項區(qū)域的分割與選項涂點的識別。
現(xiàn)有識別方法都是模擬光學標記閱讀機的原理來實現(xiàn)的,即對于選 項填涂區(qū)域進行二值化,然后統(tǒng)計選項區(qū)域內(nèi)點的數(shù)量,.若大于某一個 閾值即認為已填涂,否則就是未填涂。這種方式往往對填涂的要求比較 苛刻,如必須將選項區(qū)域完全涂滿、且筆的顏色灰度必須足夠深。這些嚴格的要求對于標準化考試而言可能是可行的,但對于調查問巻、選票 統(tǒng)計等應用領域就不是很合適。這主要是因為對于調査問巻、選票統(tǒng)計 等的結果與填涂人本身并沒有很直接的利益關系,所以填涂時可能不會 嚴格遵守一些比較苛刻的要求,由于無法對填涂人的填涂方法進行很好 的控制,現(xiàn)有的識別方法不能適用于填涂不標準的情況。
發(fā)明內(nèi)容
為解決現(xiàn)有技術有紋理背景干擾使識別精度低、選項涂點識別不能 適用于填涂不標準的技術問題,本發(fā)明的目的是提出了一種新的對圖像 灰度、位置偏移等有較強自適應能力、識別精度高的方法,本發(fā)明的另 一目的就是針對信息填涂卡上的選項填涂區(qū)域的識別問題,提供一個基 于模板匹配的信息填涂卡識別方法。
為了實現(xiàn)所述目的,本發(fā)明提供基于模板匹配的信息填涂卡識別方 法的技術方案包括步驟如下
步驟l:利用空白信息卡建立模板圖像信息,獲得模板信息卡;
步驟2:設置模板信息卡涂點選項的有效填涂閾值;
步驟3:提取待識別模板信息卡涂點模板選項的背景模式定義,分 別調用模板選項不同的背景模式進行涂點識別;
步驟4:若識別涂點結果大于等于設定的閾值,則認為該選項被有 效填涂,否則是無效填涂。
根據(jù)本發(fā)明的實施例,所述不同背景模式識別為無紋理背景模式的 涂點識別或有紋理背景模式的涂點識別。
根據(jù)本發(fā)明的實施例,選擇所述無紋理背景模式的涂點識別步驟包
括
步驟31a:對填涂卡的當前選項圖像與待識別模板信息卡的模板圖 像進行二值化,獲得二值圖像;
步驟31b:統(tǒng)計當前選項圖像和模板圖像的二值化圖像中的涂點數(shù);
步驟31C:根據(jù)二值化圖像的涂點數(shù)進行比較,獲得比較差異信息 給出分級的涂點識別結果。
根據(jù)本發(fā)明的實施例,選擇所述有紋理背景模式涂點識別步驟包括
步驟31A:對填涂卡的當前選項圖像和模板信息卡的模板圖像進行 二值化,并緩存當前選項的原始灰度圖像;
步驟31B:對當前選項圖像和模板圖像基于相似度計算進行配準,
微調當前選項圖像的坐標;
步驟31C:提取當前選項圖像與模板圖像的差分二值圖像;
步驟31D:基于該差分二值圖像中涂點在原始灰度圖像中的灰度強
度的統(tǒng)計給出分級的涂點識別結果。
根據(jù)本發(fā)明的實施例,所述模板信息包括選項坐標信息、填涂點方 式、原始圖像數(shù)據(jù)。
根據(jù)本發(fā)明的實施例,所述識別涂點結果根據(jù)信度分級輸出,由用 戶設置該類信息卡的有效閾值,實現(xiàn)人機結合識別。
根據(jù)本發(fā)明的實施例,對所述信息卡的掃描時的顏色類型為二值圖
像或灰度圖像或彩色圖像;通過對圖像顏色類型的判定,調用相應的涂 點識別模式。
本發(fā)明的積極效果或優(yōu)點本發(fā)明方法的一個顯著特點就是對圖像
的灰度類型有很好的自適應能力。紙質信息卡在掃描時可以有不同的灰 度選擇模式,即二值、灰度和彩色。本發(fā)明在識別方法上應考慮這三種 不同類型的灰度模式有不同的特點,由于本發(fā)明采用識別結果分級的方 法,在具體應用中靈活性高,可以根據(jù)實際情況選擇恰當?shù)淖R別閾值來 判斷是否填涂,進行信息卡的批量識別,從而實現(xiàn)了人機結合,增強系 統(tǒng)對各種模式的適應能力,從而提高整體識別率,更好地滿足了實際應 用的需要。本發(fā)明對所有選項區(qū)域進行定義,獲得準確的模板信息。利 用當前圖像與模板圖像之間的差異性進行識別,解決了紋理背景干擾的 問題。
圖1信息填涂卡圖像示例
圖2是本發(fā)明信息卡涂點識別流程圖 圖3是本發(fā)明圖像膨脹的結構元素
具體實施例方式
下面結合附圖詳細說明本發(fā)明技術方案中所涉及的各個細節(jié)問題。 應指出的是,所描述的實施例僅旨在便于對本發(fā)明的理解,而對其不起 任何限定作用。
為了滿足各種不同情況的需要,我們將填涂區(qū)域識別的結果按可信
度進行分級,即0 — 16,共17級。其中O表示沒有填涂,數(shù)字越大表示 填涂的信度就越高。由于采用了這種識別結果分級的方法,所以在具體 應用中有很高的靈活性,可以根據(jù)實際情況選擇恰當?shù)拈撝祦砼袛嗍欠?填涂。對于標準化考試而言,我們可以選擇比較高的閾值,如識別結果 大于8表示填涂,否則就是未填涂。對于調査問巻等填涂較隨意的情況, 我們可以選擇較小的閾值,如大于3就表示填涂,否則就是未填涂。鑒 于目前人工智能的發(fā)展水平,計算機很難對各種各樣復雜情況下的識別 都有很高的精度。而對于信息填涂卡的識別而言,我們希望應該有很高 的精度,特別是對于標準化考試等應用,期望的精度應為100%,否則 難以投入實用。信息填涂卡的類型、格式等有很多,填涂方式也是各種 各樣,特別是經(jīng)過掃描儀掃描后生成的圖像在灰度上會存在不一致的情 況。如將同一張信息卡掃描兩次,這兩次得到的圖像的灰度可能不會完 全一致;特別是在不同時間進行掃描,可能會由于掃描儀配置參數(shù)的變 化而導致同一張信息卡的多張掃描圖像的灰度出現(xiàn)很大的波動。正是基 于以上的一些原因,計算機給出的識別信度結果與人的感覺可能會存在 一定的偏差,但這種偏差是單向的,即對該信息卡模式,要么識別結果 都偏大,要么都偏小。這里我們將人的因素引進來,由人來決定有效的 閾值,從而實現(xiàn)了人機結合,更好地滿足了實際應用的需要。在進行自 動識別前,我們需要選擇該類信息卡填涂的有效信度閾值。在設置完這 些識別參數(shù)后,我們就可以進行信息卡的批量識別了 。
我們將模板信息卡的選項區(qū)域根據(jù)背景分為兩種模式,即無紋理背 景和有紋理背景兩類,如圖1所示。這兩種模式的識別流程如圖2所示。 對于選項區(qū)域有紋理背景的情況,很容易將紋理背景當作填涂的內(nèi)容。 如果僅僅基于當前圖像的選項信息是無法解決該問題的。我們首先將一個沒有填涂的空白信息卡定義為模板卡,對其中的所有選項區(qū)域進行手 工定義,從而得到了一個較為準確的模板信息,所述模板信息包括選項 坐標信息、填涂點方式、原始圖像數(shù)據(jù)。利用當前圖像與模板圖像之間 的差異性來進行識別,從而解決了紋理背景干擾的問題。
下面我們將詳細介紹基于模板匹配的信息卡涂點識別的方法。填涂 標準為完全涂滿整個選項區(qū)域。在進行涂點識別前,我們首先需要建立 空白信息卡圖像模板,然后基于當前信息卡圖像的定位塊或模板圖像得 到當前信息卡圖像上的需要進行識別的涂點選項區(qū)域。我們假定當前信 息卡的一個問題選項圖像為U,而對應的模板選項圖像為V。假定該問
題的備選項數(shù)目為N, U的各個備選項圖像為t/p..,,^, V的備選項為
t…,^。由于當前信息卡的選項區(qū)域是計算機自動分析出來的,所以與 真實的位置可能會存在一定的微小偏差。而模板信息卡的選項區(qū)域是人 工定義的,所以可以認為其選項區(qū)域是準確的。
為了便于比較兩幅圖像的相似度,我們利用以下方法來進行計算。
假定兩幅具有同樣尺寸大小的圖像分別為A和B。函數(shù)/7("表示圖 像X內(nèi)的黑點的數(shù)量。P為A中的任意一個象素點,Q為B中與P對應 的點。
P與Q的相似度定義為
<formula>formula see original document page 8</formula>其它 (1)
圖像A到B的相似度定義為
<formula>formula see original document page 8</formula>(2)
圖像B到A的相似度定義為
<formula>formula see original document page 8</formula>
(3)
圖像A與B之間的相似度定義為對無紋理背景模式選項的涂點識別過程
步驟31a:對填涂卡的當前選項圖像與待識別模板信息卡的模板圖
像進行二值化,獲得二值圖像;
步驟31b:統(tǒng)計當前選項圖像和模板圖像的二值化圖像中的涂點數(shù); 步驟31c:根據(jù)二值化圖像的涂點數(shù)進行比較,獲得比較差異信息
給出分級的涂點識別結果。
1、 若圖像為非二值的灰度或彩色圖像,則對U和V分別利用大津 二值化方法對圖像進行二值化,其灰度閾值分別為^和G,,分別得到圖 像UB和VB。若圖像本身就是二值圖像,則用UB和VB分別表示U 和V。
2、 UB中的備選項分別為^,...,^/^。 VB中的備選項分別為
3、 不失一般性,我們僅考慮 ^,的識別過程,這里i=l-N。為了表 述的方便,我們用X表示t/A,用Y表示ra,。
4、 令n(x)表示二值圖像x中黑點的數(shù)量,Uj的寬度和高度分別為w 和h。則選項Ui的識別結果為
,〃、"(7) ,、
若識別結果小于0,則令其為0。這樣識別結果的范圍為0 — 1。為 了使輸出結果以整數(shù)值來進行分級,我們將該結果放大16倍,這樣輸 出結果為0—16。
對有紋理背景模式選項的涂點識別過程
步驟31A:對填涂卡的當前選項圖像和模板信息卡的模板圖像進行
二值化,并緩存當前選項的原始灰度圖像;步驟31B:對當前選項圖像和模板圖像基于相似度計算進行配準, 微調當前選項圖像的坐標;
步驟31C:提取當前選項圖像與模板圖像的差分二值圖像;
步驟31D:基于該差分二值圖像中涂點在原始灰度圖像中的灰度強
度的統(tǒng)計給出分級的涂點識別結果。
1、 若圖像為非二值的灰度或彩色圖像,則對u和v分別利用大津
二值化方法對圖像進行二值化,其灰度閾值分別為^和^,分別得到圖
像UB和VB。若圖像本身就是二值圖像,則用UB和VB分別表示U 和V。UB中的備選項分別為^,..."^^8中的備選項分別為rap.,.,ra^。
2、 不失一般性,我們僅考慮L^的識別過程,這里i=l-N。為了表
述的方便,我們用x表示t^,.,用Y表示ra,。
3、 將X的區(qū)域向上下左右四個方向分別擴充5個象素點,得到新 圖像X'以便進行選項區(qū)域的微調。
4、 對X'進行膨脹得到圖像PX',膨脹的結構元素如圖3所示。
5、 將Y的圖像在PX'中進行滑動,對某一個滑動點而言,PX'中就 存在一個與Y對應的子圖像,我們用Z來表示。計算各個不同滑動位置 從Y到Z的相似度,以具有最大相似度的滑動位置為匹配點。
6、 根據(jù)Z的坐標在圖像X'中得到相應的圖像W。對W向四個方 向各擴充1個象素點,得到新圖像W'。
7、 將Y的圖像在W'中滑動,利用與5類似的方法,得到一個最佳 匹配點,并從W,中提取出相應的圖像,定義為R。這樣我們就得到了經(jīng) 過微調后的當前信息卡中問題選項的精確圖像。該圖像與模板進行了較 好的配準。下面將對R與Y進行比較,從而得到識別結果。
8、 將模板圖像Y進行膨脹得到新圖像PY,膨脹的結構元素如圖3 所示。將R與PY進行差分,得到差分圖像D。
9、 根據(jù)R的坐標,在原始灰度圖像U中得到原始的問題選項圖像RS。
10、 基于當前選項塊區(qū)域圖像RS和差分圖像D,給出識別結果, 具體方法如下
我們定義灰度函數(shù)g(x)表示點x的灰度值,A(x)表示點x的灰度強度值,值越大表示灰度越深。如果原始圖像u為非二值的灰度或
彩色圖像,則
0 洲>&
(6)
洲<《
其中(^為二值化的灰度閾值,C^為能保證可靠填涂的灰度值。^在 第1步圖像二值化時就己經(jīng)得到了,而G^的值為定位塊的平均灰度值。 定位塊的定義如圖l所示。如果缺乏定位塊的信息,我們給定一個經(jīng)驗 值為50。
如果原始圖像為二值圖像,則
[0洲=255 [1g(x) = 0
(7)
假定x為RS中的任意一個點,而x,為D中與x對應的點。則 用/(x)表示點x的加權灰度強度值,則
/0),)"0') (8) 圖像RS的灰度強度為
/, = ^/(乂,) (9)
其中n為圖像RS中所有點的數(shù): 該選項最終的識別結果為
- /卿
用最深灰度涂滿時的圖像灰度強度值
1=1
f/為非二值的灰度或彩色圖像
f/為二值圖像
(10)顯然該輸出結果的取值范圍為0—1。為了使輸出結果以整數(shù)值 來進行分級,我們將該結果放大16倍,這樣輸出結果為0—16。
以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護范圍并 不局限于此,任何熟悉該技術的人在本發(fā)明所揭露的技術范圍內(nèi),可理 解想到的變換或替換,都應涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā) 明的保護范圍應該以權利要求書的保護范圍為準。
權利要求
1、基于模板匹配的信息填涂卡識別方法,其特征在于,包括步驟如下步驟1利用空白信息卡建立模板圖像信息,獲得模板信息卡;步驟2設置模板信息卡涂點選項的有效填涂閾值;步驟3提取待識別模板信息卡涂點模板選項的背景模式定義,分別調用模板選項不同的背景模式進行涂點識別;步驟4若識別涂點結果大于等于設定的閾值,則認為該選項被有效填涂,否則是無效填涂。
2、 根據(jù)權利要求1所述的填涂卡識別方法,其特征在于,所述不同 背景模式識別為無紋理背景模式的涂點識別或有紋理背景模式的涂點 識別。
3、 根據(jù)權利要求2所述的填涂卡識別方法,其特征在于,選擇所 述無紋理背景模式的涂點識別步驟包括步驟31a:對填涂卡的當前選項圖像與待識別模板信息卡的模板圖像進行二值化,獲得二值圖像;步驟31b:統(tǒng)計當前選項圖像和模板圖像的二值化圖像中的涂點數(shù); 步驟31C:根據(jù)二值化圖像的涂點數(shù)進行比較,獲得比較差異信息給出分級的涂點識別結果。
4、 根據(jù)權利要求2所述的填涂卡識別方法,其特征在于,選擇所述有紋理背景模式涂點識別步驟包括步驟31A:對填涂卡的當前選項圖像和模板信息卡的模板圖像進行 二值化,并緩存當前選項的原始灰度圖像;步驟31B:對當前選項圖像和模板圖像基于相似度計算進行配準, 微調當前選項圖像的坐標;步驟31C:提取當前選項圖像與模板圖像的差分二值圖像;步驟31D:基于該差分二值圖像中涂點在原始灰度圖像中的灰度強 度的統(tǒng)計給出分級的涂點識別結果。
5、 根據(jù)權利要求1所述的填涂卡識別方法,其特征在于所述模板信息包括選項坐標信息、填涂點方式、原始圖像數(shù)據(jù)。
6、 根據(jù)權利要求1所述的填涂卡識別方法,其特征在于所述識別 涂點結果根據(jù)信度分級輸出,由用戶設置該類信息卡的有效閾值,實現(xiàn) 人機結合識別。
7、 根據(jù)權利要求1所述的填涂卡識別方法,其特征是對所述信 息卡掃描時的顏色類型為二值圖像或灰度圖像或彩色圖像;通過對圖像 顏色類型的判定,調用相應的涂點識別模式。
全文摘要
本發(fā)明涉及基于模板匹配的信息填涂卡識別方法,利用空白信息卡建立模板圖像信息,獲得模板信息卡;設置模板信息卡涂點選項的有效填涂閾值;提取待識別模板信息卡涂點模板選項的背景模式定義,分別調用模板選項不同的背景模式進行涂點識別;若識別涂點結果大于等于設定的閾值,則認為該選項被有效填涂,否則是無效填涂;本發(fā)明能適用于不同類型灰度模式的識別,識別結果分級,靈活性高,能提高整體識別率;可批量識別,實現(xiàn)人機結合,更好地滿足了實際應用的需要。本發(fā)明對所有選項區(qū)域進行定義,獲得準確的模板信息。利用當前圖像與模板圖像之間的差異性進行識別,解決了紋理背景干擾的問題。
文檔編號G06T5/00GK101414356SQ20071017597
公開日2009年4月22日 申請日期2007年10月17日 優(yōu)先權日2007年10月17日
發(fā)明者勇 夏, 戴汝為, 朱遠平, 王春恒, 肖柏華 申請人:中國科學院自動化研究所