專利名稱::基于多分類器融合的筆跡鑒別方法
技術領域:
:本發(fā)明涉及一種基于多分類器融合的筆跡鑒別方法,屬于基于筆跡的計算機身份認證
技術領域:
。背景內容筆跡鑒別(HandwritingIdentification)是根據不同人的書寫筆跡來判斷書寫人身份的一種技術。一對多的筆跡鑒別是從對應不同書寫人的多份參考樣本筆跡中找出與待檢驗筆跡的書寫風格最接近的樣本。計算機筆跡鑒別方法根據所考察的對象可分為兩大類文本獨立(Textind印endent)方法和文本依存(Textd印endent)方法。己有的文本獨立方法主要是提取整幅筆跡的布局特征或字符大致形態(tài),一般需要幾頁寫滿字跡的筆跡樣本以提取穩(wěn)定的特征。文本依存方法則從檢驗筆跡和參考筆跡中選擇相同字(在筆跡鑒別領域稱為特征字)進行比較。文本依存方法相對文本獨立方法而言,可以提取更多的字符特征進行分析,只需要少量字符就可以有較高的準確度,因此在中文筆跡鑒別中屬常用方法。作一對一筆跡鑒別時,文本依存方法較為有效,但作一對多筆跡鑒別時,則會遇到很大的問題在實際的筆跡鑒別中收集到的筆跡大多書寫內容不相同,檢材筆跡與不同樣本筆跡的特征字內容都不相同,文本依存方法的分類器與字符有關,不同的字符產生的分類器有時無法相互比較。
發(fā)明內容本發(fā)明目的就是為了克服上述現有技術的不足而提供一種筆跡鑒別分類器,該分類器是基于多個文本依存的分類器融合而成,消除了文本依存分類器中的字符因子,具有近似的文本獨立性。本筆跡鑒別分類器解決了由于檢材筆跡與不同樣本筆跡的特征字不同、分類器不同而無法準確分類鑒別的問題。本發(fā)明提供一種基于多分類器融合的筆跡鑒別方法,包括以下步驟(1)以單個字符為圖像單元分別提取檢材筆跡和樣本筆跡的筆跡特征向量;(2)將檢材筆跡和樣本筆跡中的相同字符進行特征匹配,設檢材筆跡特征向量為f,樣本筆跡特征向量為f,則特征匹配距離為"i/(Z力(1.1)(3)建立文本依存分類器的兩因子分解模型檢材筆跡和樣本筆跡中有多個相同字符匹配,所以文本依存的筆跡鑒別過程產生多個分類器,有多個分類鑒別結果。在一對一的筆跡鑒別中,必須將多個分類結果綜合成一個結果,得出最終的鑒別結論。一對多的筆跡識別檢索中,也須將多個分類器綜合成一個分類器,以便于分類排序。影響特征匹配距離d-d(X,f)的因素有兩個筆跡書寫因子和字符因子。筆跡書寫因子包括書寫者、書寫風格、書寫速度、書寫工具和書寫環(huán)境等。字符因子包括字符結構(與字符的文本內容有關)和字體等。檢材筆跡與樣本筆跡書寫因子的差異大小,直接決定分類器d=的分類輸出值大小。由于書寫習慣,書寫水平的差異,不同人書寫的字符,在筆畫的緊湊程度,字符的傾斜方向,筆畫起、收筆的位置,方向和形態(tài)等書寫風格上存在差異。同時,書寫速度、書寫工具和書寫環(huán)境等因素也對字符的書寫造成影響。書寫因子的差異造成書寫的相同字符在形狀上的差異,這是筆跡鑒別的基礎。一般來說,筆跡間書寫因子的差異性越大,筆跡特征向量的距離匹配值^-"(W)就越大。書寫因子通過字符反映出來,但字符自身的結構對分類器J=C/(U)也有顯著的影響。實驗表明,字符結構形態(tài)的復雜度與匹配距離cZ-d(i,f)的大小成反比關系字符筆劃少、結構簡單,則數學期望£(力較大;字符筆劃多、結構復雜,則數學期望£(力較小。通過實驗研究,分類器d-d(x,:P)可按如下模型進行分解:lnc/"+a+y5+s(1.2)其中//為常數,a為書寫因子效應(簡稱書寫因子),/為字符因子效應(簡稱為字符因子),f為隨機誤差。(4)//、a、p的求解設筆跡鑒別中,檢材筆跡一份,樣本筆跡有N份,樣本筆跡編號為hl,2,…iV,設檢材筆跡與每份樣本筆跡具有M個相同的匹配字符,編號為j、l,2,…M,如果N=l,即為一對一的筆跡鑒別。用《表示第/份樣本筆跡中編號為j'的字符與檢材筆跡中編號為/的字符進行特征向量距離匹配的結果,模型(1.2)可具體表示為ln《=A+a,+A+~(/=1,2,...仏y-l,2,…M)(1.3)其中,;/為常數,a,是檢材書寫因子與第/號樣本書寫因子的差異效應,^為檢材筆跡與樣本筆跡中編號為/的字符因子的差異效應,為均值為0的隨機誤//、a,、^的估計表達為《=—"n《—^(,、1,2,…AO(1.3.2)'M臺yA;丄f]in^-//(/=1,2,...M)(1.3.3)式(1.3)——(1.3.3)的理論依據是無重復的兩因子方差分析法。采用方差分析法,模型(1.3)可用矩法、高階相關法、城市街區(qū)距離匹配法、方向指數法、簡化的Wigner法等文本依存筆跡鑒別法進行驗證。在筆跡鑒別實際應用中,要求檢材筆跡與所有樣本筆跡匹配的相同字符都一致是很難滿足的。如檢材筆跡與1號樣本的相同漢字可能是"你、我、他",而與2號樣本的相同漢字可能是"的、地、得",兩組字符不一致。在這種情況下,無法用公式(1.3.1)——(1.3.3)來估計書寫因子和字符因子。針對中文筆跡鑒別的實際應用,可以只考慮常用漢字的筆跡鑒別。對常用漢字字符進行統(tǒng)一編號。設檢材筆跡與第Z份樣本筆跡的有^f,個相同漢字,其相同漢字對應的統(tǒng)一編號集為"4^-l,2,…M,j,則模型(1.2)具體表示為ln《=//+"〖+;^+、(/:l,2,…AO(1.4)采用信息挖掘技術可解決字符因子/^與常數y"的求解問題。為便于信息挖掘,將式(1.4)中的常數項A與字符因子々^合并,則ln《=",+/么"=l,2,,.,AO(1.5)厶為Q個常用漢字中的任意一個,用如下信息挖掘方法求解所有的々1:第一步,收集常用手寫漢字P份,即P個人每人書寫Q個常用漢字1份;第二步,選出所有編號為j'(j'=1,2,3……Q)的漢字,共P個;第三步,計算檢材筆跡中編號為y的漢字與第二步所提到的p個漢字筆跡特征匹配距離,共有P個距離;第四步,對第三步得到的每個距離值取對數,并求這P個距離對數的平均值,用此平均值作為"二的估計值^二。在模型(1.5)中,用信息挖掘值^二代替P二,令《=ln《-(1.6)于是有(/",2,…AO(1.7)書寫因子"/的用下式估計《=;2X"、l,2,…iV)(1.8)氣't=i(5)基于多個文依存分類器融合的新分類器將式(1.8)的《作為一對多筆跡鑒別新分類器,對于此分類器,有如下結論此分類器是基于多個文本依存分類器融合而成,它消除了多個文本依存分類器中的字符因子,具有近似文本獨立性。此分類器能大幅提高筆跡分類鑒別準確率。式(1.8)中,當N充分大時,也能得到非常理想的筆跡鑒別準確率,這表明此分類器滿足實戰(zhàn)應用的需求。此分類器也可以作為一對一筆跡鑒別分類器。模型U.3)中,N=l時,便是一對一筆跡鑒別模型。該分類器對于一對一的筆跡鑒別可得到非常高的鑒別準確率。本發(fā)明方法提高了面向大樣本筆跡數據庫的一對多筆跡鑒別檢索的準確率,同時也提高一對一筆跡鑒別精度。利用計算機筆跡鑒別進行身份認證,在公共安全,金融,考古等需要確定書寫筆跡作者的領域有廣泛的應用前景。具體實施例方式下面結合具體實施例對本發(fā)明作進一步的說明。一種基于多分類器融合的筆跡鑒別方法包括以下步驟(1)以單個字符為圖像單元分別提取檢材筆跡和樣本筆跡的筆跡特征向量;(2)將檢材筆跡和樣本筆跡中的相同字符進行特征向量匹配,設檢材筆跡特征向量為X,樣本筆跡特征向量為f,則特征向量匹配距離為(1.1)(3)建立文依存分類器分解模型對常用漢字字符進行統(tǒng)一編號,設檢材筆跡與第z'份樣本筆跡的有M,個相同漢字,其相同漢字對應的統(tǒng)一編號集為(厶^-l,2,…Mj,分類器分解模型為ln《"+^+y厶+、(/",2,…AO(1.4)其中,//為常數,^為書寫因子,^4為字符因子,s.為均值為o的隨機誤差。(4)字符因子挖掘與書寫因子估計針對中文筆跡鑒別的實際應用,可以只考慮常用漢字的筆跡鑒別。對常用漢字字符進行統(tǒng)一編號記為_/=1,2,—3755,即統(tǒng)一編號集合為[/|_/=1,2,一3755}。設檢材與第/份樣本的有M,個相同漢字(可重復),其相同漢字對應的統(tǒng)一編號集為kl"l,2,…M,j,它是集合{市=1,2,—3755}的子集。將式(1.4)中的常數項;U與字符因子"A合并,則ln《("l,2,…AO(1.5)義是3755個漢字中的任意一個,為滿足厶的任意性,對所有的《(_/=1,2,3755)進行求解。用如下信息挖掘方法求解所有的:第一步,收集常用手寫漢字100份,即100個人,每人書寫3755個常用漢字1份。第二步,選出所有編號為/(y-l,2,…3755)的漢字,共100個,這是IOO相同的字符,由100個人所書寫。第三步,計算檢材筆跡中編號為y'的漢字與第二步所提到的ioo個漢字筆跡特征匹配距離,共有100個距離。第四步,對第三步得到的每個距離值取對數,并求這100個距離對數的平均值,用此平均值作為y^的估計值^。在式(1.4)中,用信息挖掘值》;代替々^,令《=ln《-A(1.6)于是有-《=+《)*(-l,2,...iV)(1.7)則"/的用下式估計《=ig《(/=l,2,..AO(1.8)(5)以《作為筆跡鑒別分類器進行筆跡鑒別。為了驗證漢字字符結構因素對文本依存特征匹配距離的影響,以矩特征為例進行實驗與統(tǒng)計。收集多份不同人書寫的筆跡,經過預處理后提取出3755個常見漢字的歸一化字符圖像進行特征匹配。若某漢字有n幅字符圖像,計算特征后兩兩進行特征匹配,可生成n(n+l)/2個距離值。由于數量n(n+l)/2(〉3000)足夠大,可以用這n(n+l)/2個距離值來精確的估計漢字特征匹配距離值的概率分布、數學期望、方差等值。通過大量觀查,可以得到字符結構形態(tài)的復雜度與匹配距離^-^(X,。的大小成反比關系字符筆劃少、結構簡單,則數學期望£(司較大;字符筆劃多、結構復雜,則數學期望五(力較小。其中,漢字復雜度可以用筆畫總長度來表示。表1給出了部分漢字捉距離均值表。表1.部分漢字矩特征匹配距離均值表<table>tableseeoriginaldocumentpage9</column></row><table>文本依存分類器輸出的兩因子分解模型驗證為了驗證特征字內容和書寫人風格兩因子對漢字矩特征匹配距離的影響,采用統(tǒng)計檢驗中的無交互作用雙因子無重復試驗的方差分析理論,對公式(1.2)中的兩因子模型進行雙因子影響的顯著性檢驗。IO個人,每人各書寫筆跡一份,取其中1個人的筆跡作為檢材筆跡,其他9人的筆跡作為樣本筆跡,提取相同字符進行矩特征匹配,得到距離值Jy和In《.。取方差分析的模型為<formula>formulaseeoriginaldocumentpage10</formula>)設因素A5分別為書寫因子和字符因子,si,r=^。通過計算,可得如下表2方差分析表表2.矩特征匹配距離的雙因子方差分析表<table>tableseeoriginaldocumentpage10</column></row><table>檢驗結果由于F。.。5(20,160)=1.52<13.564,尸。.。5(8,160)=1.94<5.207,所以在水平0.05下,認為字符結構因素和書寫風格因素對ln^;的影響都是顯著的。從而驗證了模型(1.2)lnc^+A+~(/=l,2,"-9,_/=l,2,".20)是成立的。模型(1.2)還可用高階相關法、城市街區(qū)距離匹配法、方向指數法、簡化的Wigner法等文本依存筆跡鑒別法進行驗證。新分類器輸出的文本獨立性驗證用上述完全相同的書寫筆跡,令與7.2相同,A用數據挖掘方法得到。取方差分析模型為《++A.+s〃.(/=1,2,L9,y=1'2,L20)設因素j,5分別為書寫風格因素和字符結構因素,s=9,r=20。通過計算,可得如下表3新的方差分析表表3.分離字符結構因素后矩特征匹配距離的雙因素方差分析表方差來源平方和自由度均方F比因素A8.542876(s-1)85=^/^A-l1.067865.2078因素B&1.561E-12(r-1)1917.804E-13fis£3.805E-13誤差&32儒43(r-l)(s-1)152E一(卜l)(")0.2050綜合41.35031rs-l179由于F0.w(20,160)=1.52>3.805E-13,F0.05(8,160)=1.94<5.207,所以在水平0.05下,認為書寫風格因素對《對的影響是顯著的,字符結構因素對《的影響不顯著,即《是與字符因素無關的量,是文本獨立的。式(1.8)中,《.由《信息融合而得,所以《是文本獨立的。一對多筆跡鑒別檢索準確率實驗驗證樣本筆跡庫隨意選擇樣本筆跡3000,建立樣本筆跡庫。每份樣本約有IOO個漢字字符,其文本內容不限定。檢材筆跡之一隨意選擇檢材筆跡100份,作筆跡鑒別檢索之用,每份樣本約有IOO個漢字字符,其文本內容不限定。對于每一份檢材筆11跡,樣本筆跡庫中有一份對應的筆跡,相對應的兩份筆跡是同一人書寫。采用筆跡鑒別分類器(1.8),檢材筆跡之一的鑒別準確率見表4。表4檢材之一筆跡鑒別準確率方法1候選準確率5候選準確率20候選準確率矩特征法92%95%99%為檢驗筆跡鑒別分類器(1.8)的實戰(zhàn)應用能力,對檢材筆跡作適當的改變。檢材筆跡之二隨意選擇檢材筆跡100份,作筆跡鑒別檢索之用,每份樣本約有ioo個漢字字符,其文本內容不限定。對于每一份檢材筆跡,樣本筆跡庫中有一份對應的筆跡,相對應的兩份筆跡是同一人書寫,但相對應的兩份筆跡在書寫速度、書寫工具、書寫環(huán)境等有適當的差異,部分檢材筆跡作適度的偽裝。采用筆跡鑒別新的分類器(1.8),檢材筆跡之二的鑒別準確率見表5。表5檢材之二筆跡鑒別準確率方法1候選準確率5候選準確率20候選準確率矩特征法70%88%95%若同時采用矩法、高階相關法、城市街區(qū)距離匹配法、方向指數法、簡化的Wigner法,采用筆跡檢材之一,筆跡鑒別新的分類器(1.8)得到一對多綜合分類鑒別結果見表6。表6檢材之一筆跡綜合鑒別準確率方法1候選準確率5候選準確率20候選準確率多種方法綜合98%99%100%若同時采用矩法、高階相關法、城市街區(qū)距離匹配法、方向指數法、簡化的Wigner法,采用筆跡檢材之二,筆跡鑒別新的分類器(1.8)得到一對多綜合分類鑒別結果見表7。表7檢材之二筆跡綜合鑒別準確率12方法1候選準確率5候選準確率20候選準確率多種方法綜合76%92%98%一對一筆跡鑒別準確率實驗驗證選取樣本筆跡與檢材筆跡對270對,其中IOO對屬同一人書寫的筆跡。170對屬不同人書寫的筆跡,每份筆跡約100個漢字,內容不限定,屬正常書寫筆跡(正常的書寫速度、正常的書寫環(huán)境、常用的書寫工具)。采用筆跡鑒別新的分類器(1.8),一對一筆跡鑒別準確率見表8。表8—對一筆跡鑒別準確率方法第一類錯誤率第二類錯誤率準確率矩特征法3%3%97%若同時采用矩法、高階相關法、城市街區(qū)距離匹配法、方向指數法、簡化的Wigner法,筆跡鑒別新的分類器(1.8)得到一對一筆跡綜合鑒別準確率見表9。表9一對一筆跡綜合鑒別準確率方法第一類錯誤率第二類錯誤率準確率綜合方法1%1%99%以上實驗結果證明筆跡鑒別新分類器(1.8)的筆跡鑒別效果良好。當測試筆跡與樣本筆跡的特征字越多,綜合多特征字鑒別的準確率越高。新分類器適用于多種文本依存筆跡鑒別方法,如距離變換方法,方向指數直方圖方法,高階相關方法等。1權利要求1.一種基于多分類器融合的筆跡鑒別方法,其特征在于包括以下步驟(1)以單個字符為圖像單元分別提取檢材筆跡和樣本筆跡的筆跡特征向量;(2)將檢材筆跡和樣本筆跡中的相同字符進行特征向量匹配,設檢材筆跡特征向量為樣本筆跡特征向量為則特征向量匹配距離為(3)建立文依存分類器分解模型分類器按如下模型進行分解lnd=μ+α+β+ε(1.2)設筆跡鑒別中,檢材筆跡一份,樣本筆跡有N份,樣本筆跡編號為i=1,2,…N,檢材筆跡與每份樣本筆跡具有M個相同的匹配字符,編號為j=1,2,…M,用dij表示第i份樣本筆跡中編號為j的字符與檢材筆跡中編號為j的字符進行特征向量距離匹配的結果,lndij=μ+αi+βj+εij(i=1,2,…N,j=1,2,…M)(1.3)其中,μ為常數,αi是檢材書寫因子與第i號樣本書寫因子的差異效應,βj為檢材筆跡與樣本筆跡中編號為j的字符因子的差異效應,εij為均值為0的隨機誤差;對常用漢字字符進行統(tǒng)一編號,設檢材筆跡與第i份樣本筆跡的有Mi個相同漢字,其相同漢字對應的統(tǒng)一編號集為{jk|k=1,2,…M},分類器分解模型為(4)字符因子挖掘與書寫因子估計將式(1.4)中的常數項μ與字符因子βjk合并,則jk為Q個常用漢字中的任意一個,用如下信息挖掘方法求解所有的第一步,收集常用手寫漢字P份,即P個人每人書寫Q個常用漢字1份;第二步,選出所有編號為j′(j′=1,2,3……Q)的漢字,共P個;第三步,計算檢材筆跡中編號為j的漢字與第二步所提到的P個漢字筆跡特征匹配距離,共有P個距離;第四步,對第三步得到的每個距離值取對數,并求這P個距離對數的平均值,用此平均值作為的估計值在模型(1.5)中,用信息挖掘值代替令于是有書寫因子αi的用下式估計(5)以作為筆跡鑒別分類器進行筆跡鑒別。全文摘要本發(fā)明公開了一種基于多分類器融合的筆跡鑒別方法。首先,將影響筆跡鑒別分類輸出的因子分為兩類書寫因子與字符因子。建立分類輸出的兩因子分解模型,采用數據挖掘方法,得到兩因子分解模型中的常用漢字的字符因子。然后,對兩因子分解模型中的書寫因子給出了估計方法。最后,把書寫因子作為最終的筆跡鑒別分類器進行筆跡鑒別。本發(fā)明方法解決了文本依存筆跡鑒別的理論方法無法滿足實際應用需求的問題。面向大型樣本筆跡庫時,本鑒別方法能得到十分理想的一對多筆跡鑒別分類結果。作一對一筆跡鑒別,其鑒別準確率高達98%。文檔編號G06K9/62GK101499133SQ200910061099公開日2009年8月5日申請日期2009年3月12日優(yōu)先權日2009年3月12日發(fā)明者鳳袁,偉鄧,鄢煜塵,陳慶虎申請人:武漢大學