亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于svm的票據(jù)圖像分類方法

文檔序號:10725764閱讀:860來源:國知局
基于svm的票據(jù)圖像分類方法
【專利摘要】本發(fā)明公開了基于SVM的票據(jù)圖像分類方法,包括:進行樣本訓(xùn)練,得到性能優(yōu)化的SVM分類器;制作公章模板;通過Hough變換檢測直線的方法提取二值化后的圖像中的所有的直線從而判斷待識別的原圖像是否為非識別票據(jù)圖像,對待識別的原圖像進行傾斜校正;選取待識別的原圖像中灰度值在最大灰度閾值和最小灰度閾值之間的所有像素,判斷選取的每個像素的顏色并過濾不屬于公章部分顏色范圍的像素點,剔除面積較小的輪廓從而得到待識別的原圖像中公章的輪廓;將公章輪廓與公章模板進行匹配,若匹配成功,則提取公章輪廓的HOG特征作為性能優(yōu)化的SVM分類器的輸入,得出待識別的原圖像的票據(jù)類型。本發(fā)明分類的速度快,準(zhǔn)確性高。
【專利說明】
基于SVM的票據(jù)圖像分類方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于圖像處理領(lǐng)域,尤其涉及一種基于SVM的票據(jù)圖像分類方法。
【背景技術(shù)】
[0002]在票據(jù)的管理上,傳統(tǒng)票務(wù)管理依靠人工,人力成本較高,效率低,而且在票據(jù)比較多,任務(wù)比較緊的時候,傳統(tǒng)的方法需人力熬夜加班,甚至都無法完成指標(biāo),因此票據(jù)自動分類系統(tǒng)應(yīng)運而生。
[0003]票據(jù)自動分類通過對票據(jù)掃描成的票據(jù)圖像的分析,采用圖像處理方法自動分類票據(jù)。目前的票據(jù)自動分類方法主要分為兩類,第一類是采用模板匹配方法,此方法通過將每一種類型的票據(jù)標(biāo)準(zhǔn)圖像制作成模板圖像,通過將待識別的圖像和每類模板進行模板匹配,將票據(jù)識別為匹配率最高的那一類;第二類是通過OCR的方法,識別票據(jù)中的特殊的數(shù)字和字母,對識別出的數(shù)字和字母進行類型識別,完成圖像的分類。但現(xiàn)有的票據(jù)分類方法存在一定的問題:首先第一類的方法和第二類的方法均從整幅圖像出發(fā),復(fù)雜性高,時間成本高;第一類的方法和第二類的方法沒有傾斜校正的機制,若圖像中的目標(biāo)物體位置傾斜,會影響圖像的匹配結(jié)果以及OCR字段識別,此時誤檢率較高;第一類采用模板匹配的方法需要將票據(jù)同每一類的模板進行匹配,耗時高,尤其是當(dāng)票據(jù)種類較多時,此類方法呈現(xiàn)明顯的弱勢;第二類通過OCR的方法,識別圖像的特殊字段來分類票據(jù),由于不同的票據(jù)有可能包含相同的標(biāo)題字段,從而造成較高概率的錯誤分類;第一類的方法和第二類的方法中,沒有錯誤分類機制,它們將待識別的每一幅圖像都分成我們要處理的票據(jù)類別,而實際財務(wù)處理中,會出現(xiàn)很多不是我們需要的票據(jù),將這些票據(jù)加入到財務(wù)系統(tǒng)不僅不會減輕財務(wù)人員的工作,反而無形中增加了勞動成本。

【發(fā)明內(nèi)容】

[0004]本發(fā)明所要解決的技術(shù)問題是針對上述現(xiàn)有技術(shù)的不足提供一種基于SVM的票據(jù)圖像分類方法,基于SVM的票據(jù)圖像分類方法能準(zhǔn)確的去除不屬于用戶需要的票據(jù)圖像,SP提供了去除非待識別票據(jù)圖像的機制,使票據(jù)圖像的管理更加系統(tǒng)化,完善化;對票據(jù)圖像的公章區(qū)域進行處理,克服了從票據(jù)圖像整體進行處理的缺陷,提高了檢測的速度;對票據(jù)圖像進行傾斜校正,克服了由于票據(jù)圖像的傾斜而造成識別錯誤的情況;采用SVM分類方法,分類結(jié)果更加準(zhǔn)確。
[0005]為實現(xiàn)上述技術(shù)目的,本發(fā)明采取的技術(shù)方案為:
基于SVM的票據(jù)圖像分類方法,包括以下步驟:
(1)選取多張標(biāo)準(zhǔn)票據(jù)圖像,作為樣本進行SVM分類器訓(xùn)練,得到性能優(yōu)化的SVM分類器;截取每一種類型的標(biāo)準(zhǔn)票據(jù)中的公章圖像并將所有的公章圖像組合成一幅公章模板;
(2)對待識別的原圖像進行二值化,通過Hough變換檢測直線的方法提取二值化后的圖像中的所有的直線,設(shè)定兩條直線之間的距離閾值,將圖像中直線之間的距離小于距離閾值的兩條直線合并成一條直線;設(shè)定直線數(shù)目的最大數(shù)目閾值和最小數(shù)目閾值,若圖像中所有直線的數(shù)目不在最大數(shù)目閾值和最小數(shù)目閾值之間,則將此待識別的原圖像分類為非識別票據(jù)圖像,否則執(zhí)行步驟(3);
(3)對待識別的原圖像進行傾斜校正;
(4)根據(jù)公章的亮度特征設(shè)定公章的最大灰度閾值和最小灰度閾值,選取待識別的原圖像中灰度值在最大灰度閾值和最小灰度閾值之間的所有像素,判斷選取的每個像素的顏色并過濾不屬于公章部分顏色范圍的像素點從而得到輪廓集合,從輪廓集合中剔除面積較小的輪廓從而得到待識別的原圖像中公章的輪廓;
(5)將步驟(4)得到的公章輪廓與步驟(I)得到的公章模板進行匹配,若匹配不成功,則將待識別的原圖像分類為非識別票據(jù)圖像,若匹配成功,則執(zhí)行步驟(6);
(6)提取公章輪廓的HOG特征,作為步驟(I)中性能優(yōu)化的SVM分類器的輸入,得出待識別的原圖像的票據(jù)類型。
[0006]作為本發(fā)明進一步解決的技術(shù)方案,所述對待識別的原圖像進行傾斜校正,包括: 以待識別的原圖像的左上角為原點,待識別的原圖像的水平向右方向為X軸的正方向,
待識別的原圖像的垂直向下方向為Y軸的正方向,建立坐標(biāo)系;
通過Hough變換檢測直線的方法提取待識別的原圖像中的所有直線,將待識別的原圖像中的直線與X軸的正方向的夾角作為直線角度;
查找待識別的原圖像中兩條直線之間的夾角為90度的所有直線對,將所有直線對中角度最小的直線角度作為待識別的原圖像的旋轉(zhuǎn)角度,將待識別的原圖像進行逆時針旋轉(zhuǎn),實現(xiàn)待識別的原圖像的傾斜較正;
若沒有查找到待識別的原圖像中的夾角為90度的直線對,通過Hough變換檢測直線的方法選取待識別的原圖像的所有直線中的最長直線,選取最長直線與X軸的正方向的夾角作為待識別的原圖像的旋轉(zhuǎn)角度,將待識別的原圖像進行逆時針旋轉(zhuǎn),實現(xiàn)待識別的原圖像的傾斜較正。
[0007]作為本發(fā)明進一步解決的技術(shù)方案,所述對待識別的原圖像進行二值化,包括: 設(shè)定灰度閾值,將待識別的原圖像中灰度值低于灰度閾值的像素點的灰度值設(shè)置為I,
將待識別的原圖像中灰度值高于灰度閾值的像素點的灰度值設(shè)置為0,從而實現(xiàn)待識別的原圖像的二值化。
[0008]作為本發(fā)明進一步解決的技術(shù)方案,所述判斷選取的每個像素的顏色并過濾不屬于公章部分顏色范圍的像素點從而得到輪廓集合,包括:
將待識別的原圖像的RGB顏色空間轉(zhuǎn)換到HSV顏色空間,根據(jù)HSV顏色空間中的三個顏色分量的值判斷選取的每個像素的顏色;
過濾不屬于公章部分的顏色范圍的像素點從而得到輪廓集合。
[0009]作為本發(fā)明進一步解決的技術(shù)方案,所述選取多張標(biāo)準(zhǔn)票據(jù)圖像,作為樣本進行SVM分類器訓(xùn)練,得到性能優(yōu)化的SVM分類器,包括:
設(shè)定SVM分類器的數(shù)目,準(zhǔn)備訓(xùn)練樣本集合,包括正樣本集和負(fù)樣本集,正樣本集為多張一種類別標(biāo)準(zhǔn)票據(jù)的圖像,負(fù)樣本集為多張其它類別標(biāo)準(zhǔn)票據(jù)的圖像;
手動截取所有正樣本集中的公章輪廓和負(fù)樣本集中的公章輪廓;
提取所有正樣本集中的公章輪廓的HOG特征和負(fù)樣本集中的公章輪廓的HOG特征,進行SVM分類器訓(xùn)練,得到性能優(yōu)化的SVM分類器。
[0010]本發(fā)明對票據(jù)圖像的公章區(qū)域進行處理,克服了從票據(jù)圖像整體進行處理的缺點,提高了分類速度;對票據(jù)圖像進行傾斜校正,克服了由于票據(jù)圖像的傾斜而導(dǎo)致分類錯誤的情況;每種票據(jù)圖像的公章區(qū)域是最明顯的分類特征,對票據(jù)圖像的公章區(qū)域采用SVM分類方法,相對于采用現(xiàn)有的OCR識別方法進行票據(jù)圖像分類,本發(fā)明的準(zhǔn)確性更高;本發(fā)明有效的去除匹配不成功的公章輪廓的票據(jù)圖像,去除所有直線的數(shù)目不在最大數(shù)目閾值和最小數(shù)目閾值之間的票據(jù)圖像,因此本發(fā)明提供了去除非待識別票據(jù)圖像的機制,使票據(jù)圖像的管理更加系統(tǒng)化和完善化;本發(fā)明對票據(jù)圖像的分類是基于票據(jù)類型的,因此本發(fā)明對票據(jù)圖像進行分類,可以為之后的票據(jù)自動處理提供基礎(chǔ)。
【附圖說明】
[0011]圖1為本發(fā)明的工作流程圖。
【具體實施方式】
[0012]下面根據(jù)圖1對本發(fā)明的【具體實施方式】作出進一步說明:
參見圖1,基于SVM的票據(jù)圖像分類方法,包括以下步驟:
(I)選取多張標(biāo)準(zhǔn)票據(jù)圖像,作為樣本進行SVM分類器訓(xùn)練,得到性能優(yōu)化的SVM分類器;標(biāo)準(zhǔn)票據(jù)都包含公章,而且公章的規(guī)格都是嚴(yán)格規(guī)定的,截取每一種類型的標(biāo)準(zhǔn)票據(jù)中的公章圖像并將所有的公章圖像組合成一幅公章模板;(2)對待識別的原圖像進行二值化,通過Hough變換檢測直線的方法提取二值化后的圖像中的所有的直線,根據(jù)票據(jù)圖像的線框特點設(shè)定兩條直線之間的距離閾值L,將圖像中直線之間的距離小于距離閾值L的兩條直線合并成一條直線,從而解決由于票據(jù)圖像質(zhì)量問題而造成的直線斷連的問題;根據(jù)票據(jù)圖像的線框的幾何特征設(shè)定直線數(shù)目的最大數(shù)目閾值NI和最小數(shù)目閾值N2,通過Hough變換檢測直線的方法提取已解決直線斷連的問題的圖像中的所有直線并統(tǒng)計所有直線的數(shù)目,若圖像中所有直線的數(shù)目不在最大數(shù)目閾值NI和最小數(shù)目閾值N2之間,則將此待識別的原圖像分類為非識別票據(jù)圖像,否則執(zhí)行步驟(3);(3)對待識別的原圖像進行傾斜校正;
(4)根據(jù)公章的亮度特征設(shè)定公章的最大灰度閾值Gl和最小灰度閾值G2,選取待識別的原圖像中灰度值在最大灰度閾值GI和最小灰度閾值G2之間的所有像素,去除待識別的原圖像中灰度值不在最大灰度閾值Gl和最小灰度閾值G2之間的所有像素;判斷選取的每個像素的顏色并過濾不屬于公章部分顏色范圍的像素點從而得到輪廓集合,從輪廓集合中剔除面積較小的輪廓的干擾從而得到待識別的原圖像中公章的輪廓;(5)將步驟(4)得到的公章輪廓與步驟(I)得到的公章模板進行匹配,設(shè)定匹配閾值M,當(dāng)公章輪廓與公章模板的匹配度超過匹配閾值M時則認(rèn)為匹配成功;當(dāng)公章輪廓與公章模板的匹配度低于匹配閾值M時則認(rèn)為匹配不成功;若匹配不成功,則將待識別的原圖像分類為非識別票據(jù)圖像,若匹配成功,則執(zhí)行步驟(6);(6)提取匹配成功的公章輪廓的HOG特征,作為步驟(I)中性能優(yōu)化的SVM分類器的輸入,得出待識別的原圖像的票據(jù)類型。
[0013]進一步地,所述對待識別的原圖像進行傾斜校正,包括:以待識別的原圖像的左上角為原點,待識別的原圖像的水平向右方向為X軸的正方向,待識別的原圖像的垂直向下方向為Y軸的正方向,建立坐標(biāo)系;通過Hough變換檢測直線的方法提取待識別的原圖像中的所有直線,將待識別的原圖像中的直線與X軸的正方向的夾角作為直線角度;查找待識別的原圖像中兩條直線之間的夾角為90度的所有直線對,如果查找到滿足條件的直線對,將所有直線對中角度最小的直線角度作為待識別的原圖像的旋轉(zhuǎn)角度,將待識別的原圖像進行逆時針旋轉(zhuǎn),實現(xiàn)待識別的原圖像的傾斜較正;如果沒有查找到待識別的原圖像中夾角為90度的直線對,通過Hough變換檢測直線的方法選取待識別的原圖像的所有直線中的最長直線,選取最長直線與X軸的正方向的夾角作為待識別的原圖像的旋轉(zhuǎn)角度,將待識別的原圖像進行逆時針旋轉(zhuǎn),實現(xiàn)待識別的原圖像的傾斜較正。
[0014]進一步地,所述對待識別的原圖像進行二值化,包括:設(shè)定圖像的灰度閾值G3,將待識別的原圖像中灰度值低于灰度閾值G3的像素點的灰度值設(shè)置為I,將待識別的原圖像中灰度值高于灰度閾值G3的像素點的灰度值設(shè)置為0,從而實現(xiàn)待識別的原圖像的二值化。
[0015]進一步地,所述判斷選取的每個像素的顏色并過濾不屬于公章部分顏色范圍的像素點從而得到輪廓集合,包括:將待識別的原圖像的RGB顏色空間轉(zhuǎn)換到HSV顏色空間,根據(jù)HSV顏色空間中的三個顏色分量的值判斷選取的每個像素的顏色;過濾不屬于公章部分的顏色范圍的像素點從而得到輪廓集合。
[0016]進一步地,所述選取多張標(biāo)準(zhǔn)票據(jù)圖像,作為樣本進行SVM分類器訓(xùn)練,得到性能優(yōu)化的SVM分類器,包括:設(shè)定SVM分類器的數(shù)目,由于SVM分類器是一個兩類的分類器,對于多種類別我們需要訓(xùn)練多個SVM分類器來實現(xiàn)分類,則如果需要識別分類的票據(jù)圖像的種類總數(shù)為A,則需要訓(xùn)練得到的SVM分類器的數(shù)目為A,此時每個SVM分類器的作用為判斷票據(jù)是否屬于A種類別發(fā)票中的其中一類;針對于每個分類器,選取A種類別發(fā)票中的其中一種類別的多張標(biāo)準(zhǔn)票據(jù)圖像作為正樣本集,選取A種類別發(fā)票中的其它類別的多張標(biāo)準(zhǔn)票據(jù)圖像作為負(fù)樣本集;手動裁剪所有正樣本集中的公章輪廓和負(fù)樣本集中的公章輪廓,將所有正樣本集的公章輪廓放在一個文件夾中,將所有負(fù)樣本集中的公章輪廓放在另一個文件夾中,將所有的正樣本集和所有負(fù)樣本集縮放到同樣的尺寸大小,提取所有的正樣本集的HOG特征,提取所有負(fù)樣本集的HOG特征,并對所有的正樣本集和所有負(fù)樣本集賦予樣本標(biāo)簽,例如若將國稅票據(jù)作為正樣本集,其他類型的票據(jù)作為負(fù)樣本集,則正樣本集標(biāo)記為國稅票據(jù),所有負(fù)樣本集標(biāo)記為非國稅票據(jù);將所有的正樣本集的HOG特征和所有負(fù)樣本集的HOG特征,所有的正樣本集的標(biāo)簽和所有負(fù)樣本集的標(biāo)簽,都輸入到SVM分類器中進行訓(xùn)練;則得到識別其中一類的性能較優(yōu)化的一個SVM分類器,重復(fù)上述操作,得到性能較優(yōu)化的A個SVM分類器。提取所述步驟(5)中匹配成功的公章輪廓的HOG特征作為性能優(yōu)化的A個SVM分類器的輸入,得出待識別的原圖像的票據(jù)類型。
[0017]本發(fā)明的保護范圍包括但不限于以上實施方式,本發(fā)明的保護范圍以權(quán)利要求書為準(zhǔn),任何對本技術(shù)做出的本領(lǐng)域的技術(shù)人員容易想到的替換、變形、改進均落入本發(fā)明的保護范圍。
【主權(quán)項】
1.基于SVM的票據(jù)圖像分類方法,其特征在于:包括以下步驟: (1)選取多張標(biāo)準(zhǔn)票據(jù)圖像,作為樣本進行SVM分類器訓(xùn)練,得到性能優(yōu)化的SVM分類器;截取每一種類型的標(biāo)準(zhǔn)票據(jù)中的公章圖像并將所有的公章圖像組合成一幅公章模板; (2)對待識別的原圖像進行二值化,通過Hough變換檢測直線的方法提取二值化后的圖像中的所有的直線,設(shè)定兩條直線之間的距離閾值,將圖像中直線之間的距離小于距離閾值的兩條直線合并成一條直線;設(shè)定直線數(shù)目的最大數(shù)目閾值和最小數(shù)目閾值,若圖像中所有直線的數(shù)目不在最大數(shù)目閾值和最小數(shù)目閾值之間,則將此待識別的原圖像分類為非識別票據(jù)圖像,否則執(zhí)行步驟(3); (3 )對待識別的原圖像進行傾斜校正; (4)根據(jù)公章的亮度特征設(shè)定公章的最大灰度閾值和最小灰度閾值,選取待識別的原圖像中灰度值在最大灰度閾值和最小灰度閾值之間的所有像素,判斷選取的每個像素的顏色并過濾不屬于公章部分顏色范圍的像素點從而得到輪廓集合,從輪廓集合中剔除面積較小的輪廓從而得到待識別的原圖像中公章的輪廓; (5)將步驟(4)得到的公章輪廓與步驟(I)得到的公章模板進行匹配,若匹配不成功,則將待識別的原圖像分類為非識別票據(jù)圖像,若匹配成功,則執(zhí)行步驟(6); (6)提取公章輪廓的HOG特征,作為步驟(I)中性能優(yōu)化的SVM分類器的輸入,得出待識別的原圖像的票據(jù)類型。2.根據(jù)權(quán)利要求1所述的基于SVM的票據(jù)圖像分類方法,其特征在于:所述對待識別的原圖像進行傾斜校正,包括: 以待識別的原圖像的左上角為原點,待識別的原圖像的水平向右方向為X軸的正方向,待識別的原圖像的垂直向下方向為Y軸的正方向,建立坐標(biāo)系; 通過Hough變換檢測直線的方法提取待識別的原圖像中的所有直線,將待識別的原圖像中的直線與X軸的正方向的夾角作為直線角度; 查找待識別的原圖像中兩條直線之間的夾角為90度的所有直線對,將所有直線對中角度最小的直線角度作為待識別的原圖像的旋轉(zhuǎn)角度,將待識別的原圖像進行逆時針旋轉(zhuǎn),實現(xiàn)待識別的原圖像的傾斜較正; 若沒有查找到待識別的原圖像中的夾角為90度的直線對,通過Hough變換檢測直線的方法選取待識別的原圖像的所有直線中的最長直線,選取最長直線與X軸的正方向的夾角作為待識別的原圖像的旋轉(zhuǎn)角度,將待識別的原圖像進行逆時針旋轉(zhuǎn),實現(xiàn)待識別的原圖像的傾斜較正。3.根據(jù)權(quán)利要求1所述的基于SVM的票據(jù)圖像分類方法,其特征在于:所述對待識別的原圖像進行二值化,包括: 設(shè)定灰度閾值,將待識別的原圖像中灰度值低于灰度閾值的像素點的灰度值設(shè)置為I,將待識別的原圖像中灰度值高于灰度閾值的像素點的灰度值設(shè)置為0,從而實現(xiàn)待識別的原圖像的二值化。4.根據(jù)權(quán)利要求1所述的基于SVM的票據(jù)圖像分類方法,其特征在于:所述判斷選取的每個像素的顏色并過濾不屬于公章部分顏色范圍的像素點從而得到輪廓集合,包括: 將待識別的原圖像的RGB顏色空間轉(zhuǎn)換到HSV顏色空間,根據(jù)HSV顏色空間中的三個顏色分量的值判斷選取的每個像素的顏色; 過濾不屬于公章部分的顏色范圍的像素點從而得到輪廓集合。5.根據(jù)權(quán)利要求1所述的基于SVM的票據(jù)圖像分類方法,其特征在于:所述選取多張標(biāo)準(zhǔn)票據(jù)圖像,作為樣本進行SVM分類器訓(xùn)練,得到性能優(yōu)化的SVM分類器,包括: 設(shè)定SVM分類器的數(shù)目,準(zhǔn)備訓(xùn)練樣本集合,包括正樣本集和負(fù)樣本集,正樣本集為多張一種類別標(biāo)準(zhǔn)票據(jù)的圖像,負(fù)樣本集為多張其它類別標(biāo)準(zhǔn)票據(jù)的圖像; 手動截取所有正樣本集中的公章輪廓和負(fù)樣本集中的公章輪廓; 提取所有正樣本集中的公章輪廓的HOG特征和負(fù)樣本集中的公章輪廓的HOG特征,進行SVM分類器訓(xùn)練,得到性能優(yōu)化的SVM分類器。
【文檔編號】G06K9/46GK106096667SQ201610593126
【公開日】2016年11月9日
【申請日】2016年7月26日 公開號201610593126.3, CN 106096667 A, CN 106096667A, CN 201610593126, CN-A-106096667, CN106096667 A, CN106096667A, CN201610593126, CN201610593126.3
【發(fā)明人】邵一婷, 車少帥, 于志文, 胡笳, 沈宇
【申請人】江蘇鴻信系統(tǒng)集成有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1