一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法
【專利摘要】本發(fā)明提出了一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,屬于字跡鑒別領(lǐng)域。該方法包括:1)將手寫(xiě)體文本掃描后輸入到計(jì)算機(jī),對(duì)得到的手寫(xiě)體圖像進(jìn)行預(yù)處理;2)根據(jù)手寫(xiě)體圖像建立圖片數(shù)據(jù)庫(kù);3)對(duì)圖片數(shù)據(jù)庫(kù)中的每張圖片進(jìn)行散射變換,得到其散射系數(shù);4)對(duì)散射系數(shù)進(jìn)行擬合,并建立統(tǒng)計(jì)模型;5)查找與待鑒別的手寫(xiě)體圖像相對(duì)應(yīng)的統(tǒng)計(jì)模型;6)計(jì)算待鑒別的手寫(xiě)體圖像與候選圖片之間的KL距離;7)計(jì)算識(shí)別準(zhǔn)確率;8)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析和統(tǒng)計(jì)。本發(fā)明所采用的方法與現(xiàn)有的技術(shù)相比,能夠在相同時(shí)間的花銷下取得較高的識(shí)別率;尤其針對(duì)褶皺情況下的筆跡識(shí)別,能夠較好地抵抗褶皺,仍然獲得較高的正確識(shí)別率。
【專利說(shuō)明】一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及字跡鑒別領(lǐng)域,特別涉及一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法。
【背景技術(shù)】
[0002]手寫(xiě)體筆跡識(shí)別是根據(jù)筆跡對(duì)書(shū)寫(xiě)者進(jìn)行身份認(rèn)證的一種基于生物行為識(shí)別技術(shù),已在安防、金融等領(lǐng)域得到了廣泛的應(yīng)用,并逐漸成為計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域中研究的熱點(diǎn)。通常根據(jù)筆跡是否與文本的內(nèi)容相關(guān),將其分為與文本相關(guān)的脫線筆跡識(shí)別和與文本無(wú)關(guān)的脫線筆跡識(shí)別兩類。與文本無(wú)關(guān)的脫線筆跡識(shí)別克服了前者與書(shū)寫(xiě)內(nèi)容相關(guān)的不足,在實(shí)際應(yīng)用中具有制約少,數(shù)據(jù)易獲取等特點(diǎn),已得到廣泛應(yīng)用。
[0003]與文本無(wú)關(guān)的脫線筆跡鑒別方法主要有局部特征方法和全局特征方法。局部方法主要通過(guò)建立筆跡字典等作為身份鑒別的依據(jù),局部方法對(duì)文本圖像質(zhì)量要求較高,通過(guò)提取圖像的局部特征筆畫(huà)建立特征庫(kù),進(jìn)行身份鑒別;全局方法將文本圖像的內(nèi)容筆跡視作紋理,提取其紋理特征作為識(shí)別依據(jù)。20世紀(jì)70年代Duve1nhKuckuck認(rèn)為書(shū)寫(xiě)者的筆跡特征變化主要表現(xiàn)在傅里葉譜的低頻部分,提出了利用傅里葉變換(FFT)的方法來(lái)進(jìn)行筆跡識(shí)別;1998年Said等提出了應(yīng)用2D-Gabor結(jié)合歐式權(quán)距離(WED)分類器來(lái)進(jìn)行筆跡身份識(shí)別;2005年以后,HeZhenyu等提出了輪廓波變換(CT)結(jié)合廣義高斯分布(GGD)模型的中文筆跡身份識(shí)別方法、基于小波分解(DWT)結(jié)合GGD模型方法做身份識(shí)別和傳統(tǒng)金字塔小波變換結(jié)合隱馬爾科夫樹(shù)模型(HMT)的方法對(duì)中文筆跡進(jìn)行身份識(shí)別;2008年Xu等提出了利用對(duì)偶樹(shù)復(fù)小波(DTCWT)變換和GGD相結(jié)合的方法;2011年朱貝貝等提出利用抗混疊輪廓波(NACT)結(jié)合GGD [10]和金字塔復(fù)方向?yàn)V波器組(TOTDFB)結(jié)合G⑶的方法。
[0004]以上方法處理的數(shù)據(jù)都是正常情況下獲取的文本圖像,但是在實(shí)際應(yīng)用中,獲取的筆跡文本圖像可能是對(duì)褶皺紙張掃描后獲取的文本圖像,因紙張褶皺所產(chǎn)生的筆跡會(huì)出現(xiàn)一定程度的平移和局部彈性形變,造成相同的文本圖像存在一定的視覺(jué)差異,筆跡產(chǎn)生了局部平移和局部形變等變化,局部特征方法進(jìn)行筆跡鑒別時(shí),需對(duì)文本圖像進(jìn)行二值化處理,褶皺的筆跡圖像由于形變對(duì)二值化圖像的影響結(jié)果較大,且這種影響是隨機(jī)的和不確定的,使得局部特征方法提取的筆畫(huà)特征表示的特征質(zhì)量降低,因此局部特征方法難以處理褶皺筆跡鑒別,所以對(duì)褶皺中文筆跡身份進(jìn)行鑒別,其描述特征應(yīng)具有局部平移不變性和局部形變穩(wěn)定性。上述方法所描述的特征不具有局部平移不變性和局部形變穩(wěn)定性,均難以處理褶皺情況下的筆跡鑒別,因此褶皺中文手寫(xiě)體鑒別方法的研究非常有意義。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明的目的在于克服上述不足,提供一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,該方法通過(guò)利用散射變換的平移不變性和彈性形變穩(wěn)定性,較好的解決了褶皺情況下的筆跡識(shí)別問(wèn)題。
[0006]本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
[0007]—種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,包括以下步驟:
[0008]I)將手寫(xiě)體文本掃描后輸入到計(jì)算機(jī),并對(duì)掃描后得到的手寫(xiě)體圖像進(jìn)行預(yù)處理;
[0009]2)根據(jù)手寫(xiě)體圖像建立圖片數(shù)據(jù)庫(kù);
[0010]3)對(duì)圖片數(shù)據(jù)庫(kù)中的每張圖片進(jìn)行散射變換,得到其散射系數(shù);
[0011]4)對(duì)散射系數(shù)進(jìn)行擬合,得到圖片對(duì)應(yīng)的擬合參數(shù)α、β,并建立統(tǒng)計(jì)模型;
[0012]5)查找與待鑒別的手寫(xiě)體圖像相對(duì)應(yīng)的統(tǒng)計(jì)模型;
[0013]6)計(jì)算待鑒別的手寫(xiě)體圖像與候選圖片之間的KL距離;
[0014]7)計(jì)算識(shí)別準(zhǔn)確率;
[0015]8)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析和統(tǒng)計(jì)。
[0016]進(jìn)一步的,步驟I)中所所述的對(duì)自己圖像進(jìn)行預(yù)處理包括以下步驟:
[0017]1-1)除去手寫(xiě)體圖像中的噪聲和無(wú)關(guān)字符;
[0018]1-2)用定位文本行和投影的方法對(duì)單獨(dú)的字符分割;
[0019]1-3)把每個(gè)字符歸一化為大小相同的尺寸,并將這些手寫(xiě)體字符組合成手寫(xiě)體圖像。
[0020]進(jìn)一步的,步驟2)中所述的根據(jù)手寫(xiě)體圖像建立圖片數(shù)據(jù)庫(kù):
[0021]選取η個(gè)書(shū)寫(xiě)者的2η幅手寫(xiě)體文本作為實(shí)驗(yàn)對(duì)象,且每?jī)煞謱?xiě)體文本來(lái)自同一書(shū)寫(xiě)者;在原手寫(xiě)體圖像的基礎(chǔ)上,以字符為單位隨機(jī)排列,使一幅手寫(xiě)體圖像分割形成了m幅圖片,最終形成具有2nm幅圖片的數(shù)據(jù)庫(kù)。
[0022]進(jìn)一步的,η不小于30 ;m不小于10。
[0023]進(jìn)一步的,步驟3)中所述散射變換的方法為:
[0024]在散射變換中第一階散射變換的構(gòu)造如下:
[0025]|f*vj Y |*φ:(χ) (I)
[0026]其中:f為圖片,*表示卷積操作,Ψ」,Y (X) = 2_2j Ψ (2_jRYx)為小波,j, Y分別為尺度和方向,Φ^Χ) = 2_2> (2-Jx)為低通濾波器;
[0027]因低通濾波器作用,將會(huì)導(dǎo)致高頻信息的損失,對(duì)小波模進(jìn)行新的小波再分解,恢復(fù)高頻信息,如式(2):
【權(quán)利要求】
1.一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,其特征在于,包括以下步驟: 1)將手寫(xiě)體文本掃描后輸入到計(jì)算機(jī),并對(duì)掃描后得到的手寫(xiě)體圖像進(jìn)行預(yù)處理; 2)根據(jù)手寫(xiě)體圖像建立圖片數(shù)據(jù)庫(kù); 3)對(duì)圖片數(shù)據(jù)庫(kù)中的每張圖片進(jìn)行散射變換,得到其散射系數(shù); 4)對(duì)散射系數(shù)進(jìn)行擬合,得到圖片對(duì)應(yīng)的擬合參數(shù)α、β,并建立統(tǒng)計(jì)模型; 5)查找與待鑒別的手寫(xiě)體圖像相對(duì)應(yīng)的統(tǒng)計(jì)模型; 6)計(jì)算待鑒別的手寫(xiě)體圖像與候選圖片之間的KL距離; 7)計(jì)算識(shí)別準(zhǔn)確率; 8)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析和統(tǒng)計(jì)。
2.根據(jù)權(quán)利要求1所述的一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,其特征在于:步驟I)中所所述的對(duì)自己圖像進(jìn)行預(yù)處理包括以下步驟: 1-1)除去手寫(xiě)體圖像中的噪聲和無(wú)關(guān)字符; 1-2)用定位文本行和投影的方法對(duì)單獨(dú)的字符分割; 1-3)把每個(gè)字符歸一化 為大小相同的尺寸,并將這些手寫(xiě)體字符組合成手寫(xiě)體圖像。
3.根據(jù)權(quán)利要求1所述的一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,其特征在于:步驟2)中所述的根據(jù)手寫(xiě)體圖像建立圖片數(shù)據(jù)庫(kù): 選取η個(gè)書(shū)寫(xiě)者的2η幅手寫(xiě)體文本作為實(shí)驗(yàn)對(duì)象,且每?jī)煞謱?xiě)體文本來(lái)自同一書(shū)寫(xiě)者;在原手寫(xiě)體圖像的基礎(chǔ)上,以字符為單位隨機(jī)排列,使一幅手寫(xiě)體圖像分割形成了 m幅圖片,最終形成具有2nm幅圖片的數(shù)據(jù)庫(kù)。
4.根據(jù)權(quán)利要求3所述的一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,其特征在于:n不小于30 ;m不小于10。
5.根據(jù)權(quán)利要求1所述的一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,其特征在于:步驟3)中所述散射變換的方法為: 在散射變換中第一階散射變換的構(gòu)造如下:
|?.*ψ」,y |*φ:(χ) (I) 其中:f為圖片,*表示卷積操作,(X) = 2_2J Ψ (2_JRYx)為小波,j, Y分別為尺度和方向,<K(x) = 2_2ΤΦ (2_τχ)為低通濾波器; 因低通濾波器作用,將會(huì)導(dǎo)致高頻信息的損失,對(duì)小波模進(jìn)行新的小波再分解,恢復(fù)高頻信息,如式(2): 公式(2)中丟失的高頻信息又可通過(guò)下一輪的小波再分解得以恢復(fù),則第q階散射變換為:
SqJ W = 1., *.Π I * …i I * ΦΛΧ\ <...<4 <./
(X1⑶ 其中:s“f(x)為在q階、J個(gè)尺度下的散射系數(shù);J為散射變換的尺度數(shù);r ?為I到q各個(gè)階層上的變換方向數(shù)集合; 散射表達(dá)包括所有尺度和方向的散射系數(shù),即:
若小波變換的方向數(shù)為C,則第q階散射變換沿頻率遞減的路徑數(shù)為,前q階的路徑總數(shù)為設(shè)圖片的像素大小為N,采樣值為ω2\= I或0.5),則每條散射路徑有Νω_22%個(gè)散射系數(shù); 則前q階散射系數(shù)的總數(shù),即散射算子的系數(shù)為:
6.根據(jù)權(quán)利要求1所述的一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,其特征在于:步驟4)中對(duì)散射系數(shù)進(jìn)行擬合的方法為Gamma擬合,且得到的擬合參數(shù)α為尺度參數(shù),用于模擬了概率密度函數(shù)峰值的寬度;擬合參數(shù)β為形狀參數(shù),用于模擬反比例于定點(diǎn)的下降速率。
7.根據(jù)權(quán)利要求1所述的一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,其特征在于:步驟6)所述的計(jì)算待鑒別的手寫(xiě)體圖像與候選圖片之間的KL距離的方法為:
其中:Ψ為雙伽瑪函數(shù),α P β i為待鑒別的手寫(xiě)體圖像i所對(duì)應(yīng)的擬合參數(shù);αJ、β j為圖片數(shù)據(jù)庫(kù)中的圖片j對(duì)應(yīng)的擬合參數(shù)。
8.根據(jù)權(quán)利要求1所述的一種文本內(nèi)容無(wú)關(guān)的褶皺中文手寫(xiě)體鑒別方法,其特征在于:步驟7)所述計(jì)算識(shí)別準(zhǔn)確率的方法為:
其中:κ表示屬于同一個(gè)書(shū)寫(xiě)者的圖片數(shù)目;Ri表示每次KL計(jì)算結(jié)果中,前K個(gè)距離最小且與被鑒別的手寫(xiě)體圖像屬于同一個(gè)書(shū)寫(xiě)者的圖片數(shù)目;M表示所有待鑒別的手寫(xiě)體圖像數(shù)目。
【文檔編號(hào)】G06F17/30GK104077604SQ201410341142
【公開(kāi)日】2014年10月1日 申請(qǐng)日期:2014年7月17日 優(yōu)先權(quán)日:2014年7月17日
【發(fā)明者】尚趙偉, 曹海, 張?zhí)? 陳波, 唐遠(yuǎn)炎 申請(qǐng)人:重慶大學(xué)