專利名稱:一種基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法
技術(shù)領(lǐng)域:
本發(fā)明屬于利用計(jì)算機(jī)處理設(shè)備識(shí)別手寫文字圖像的技術(shù)領(lǐng)域,特別是涉及一種基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法。
背景技術(shù):
手寫漢字識(shí)別一般是指用戶通過手寫輸入設(shè)備(比如手寫板、觸摸屏、鼠標(biāo)等)書寫漢字,同時(shí)計(jì)算機(jī)將手寫輸入設(shè)備采集到的漢字書寫軌跡轉(zhuǎn)換為相應(yīng)的漢字機(jī)器內(nèi)碼的識(shí)別技術(shù)。傳統(tǒng)的手寫識(shí)別技術(shù)通常所采用的輸入方式為單字符識(shí)別,即書寫一個(gè)漢字識(shí)別一個(gè)漢字。使用的識(shí)別引擎與用戶無關(guān),即識(shí)別引擎事先通過大量的訓(xùn)練樣本訓(xùn)練出來, 對(duì)于不同用戶,識(shí)別引擎使用的模型及參數(shù)都是一樣的,事先由開發(fā)人員訓(xùn)練并設(shè)置好。由于采用了大數(shù)據(jù)量的訓(xùn)練樣本,所以識(shí)別引擎能滿足書寫規(guī)范的用戶的識(shí)別準(zhǔn)確率要求。 但是不同用戶的書寫風(fēng)格差異很大,每個(gè)用戶書寫風(fēng)格除了存在共性外,往往還包括自己個(gè)性化的地方,與用戶無關(guān)的識(shí)別引擎針對(duì)這類用戶時(shí)書寫漢字時(shí),識(shí)別準(zhǔn)確率往往不盡人意,有待改進(jìn)。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服傳統(tǒng)的識(shí)別引擎無法適應(yīng)特定用戶的書寫風(fēng)格的不足,提供一種讓識(shí)別引擎能動(dòng)態(tài)適應(yīng)特定用戶書寫風(fēng)格從而提高識(shí)別率的方法。本發(fā)明采用的技術(shù)方案為
一種基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法,其步驟如下
(1)、選取少量的特定用戶的增量樣本;
(2)、對(duì)增量樣本提取特征,并利用增量線性鑒別分析(ILDA)技術(shù)對(duì)原始的線性鑒別分析(LDA)模型進(jìn)行更新生成新的線性鑒別分析(LDA)模型;
(3)、利用更新后的線性鑒別分析(LDA)模型,計(jì)算增量樣本在新的線性鑒別分析 (LDA)特征空間中每個(gè)類的均值向量和協(xié)方差矩陣;
(4)、利用更新后的線性鑒別分析(LDA)模型,計(jì)算原始樣本在新的線性鑒別分析 (LDA)特征空間中每個(gè)類的均值向量和協(xié)方差矩陣;
(5)、計(jì)算合并后總樣本在新的線性鑒別分析(LDA)特征空間中每個(gè)類別的均值向量和協(xié)方差矩陣;
(6)、根據(jù)合并后總樣本在新的線性鑒別分析(LDA)特征空間中每個(gè)類的均值向量和協(xié)方差矩陣,更新改進(jìn)的二次鑒別函數(shù)(MQDF)分類器。所述步驟(1)為選擇特定用戶少量的樣本,用于更新模板及識(shí)別引擎。用戶樣本的選擇應(yīng)能充分體現(xiàn)用戶的書寫風(fēng)格。設(shè)原始樣本為ι 二 (i=i,…,對(duì),#為樣本數(shù), 并設(shè)其類別數(shù)是#;設(shè)增量樣本為/ 二 {yj 二人…,Z入Z為增量樣本數(shù),并設(shè)其類別數(shù)是 P。則合并后的總的樣本可表示為Z=IU 7二 {zj …,Z^V入樣本總數(shù)為Ζ+Λ/,類別總數(shù)為G且C夕K夕P。不失一般性,我們假設(shè)對(duì)于合并后的總樣本中的第Gii 二人...,C) 類,分別在原始樣本#和增量樣本Z中有/和人.個(gè)樣本。因此,對(duì)于合并后新的樣本,屬于 W^a=I,…,C)類的樣本數(shù)為$尸/ ζλ。所述步驟(2)對(duì)增量樣本提取特征,并利用增量線性鑒別分析(ILDA)技術(shù)對(duì)原始的線性鑒別分析(LDA)模型進(jìn)行更新生成新的線性鑒別分析(LDA)模型,其步驟包括
(Α)、增量樣本特征提取,對(duì)于每一個(gè)增量樣本,都采用八方向特征提取方法提取其方向特征;
(B)、令原始線性鑒別分析變換(LDA)矩陣為
,設(shè)經(jīng)過八方向特征提取后,增量樣本中類別i(i=l,…,C)的特征向量為、則
可根據(jù)增量線性鑒別分析(ILDA)技術(shù)并結(jié)合增量樣本的特征向量Ji將原始線性鑒別分析
變換矩陣更新為WLife。所述步驟(3)利用更新后的線性鑒別分析變換(LDA)模型,計(jì)算增量樣本在新的線性鑒別分析變換(LDA)特征空間中每個(gè)類的均值向量和協(xié)方差矩陣,其步驟包括
(Α)、設(shè)增量樣本中類別i G二人…,C)經(jīng)過八方向特征提取后的均值向量為力,樣本個(gè)數(shù)為則通過以下公式求得Λ
權(quán)利要求
1.一種基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法,其特征在于包括如下步驟(1)、選取用于更新模板及識(shí)別引擎的特定用戶的增量樣本;(2)、對(duì)增量樣本提取特征,并利用增量線性鑒別分析方法對(duì)原始的線性鑒別分析模型進(jìn)行更新生成新的線性鑒別分析模型;(3)、利用更新后的線性鑒別分析模型,計(jì)算增量樣本在新的線性鑒別分析特征空間中每個(gè)類的均值向量和協(xié)方差矩陣;(4)、利用更新后的線性鑒別分析模型,計(jì)算原始樣本在新的線性鑒別分析特征空間中每個(gè)類的均值向量和協(xié)方差矩陣;(5)、計(jì)算合并后總樣本在新的線性鑒別分析特征空間中每個(gè)類別的均值向量和協(xié)方差矩陣;(6)、根據(jù)合并后總樣本在新的線性鑒別分析特征空間中每個(gè)類的均值向量和協(xié)方差矩陣,更新改進(jìn)的二次鑒別函數(shù)分類器。
2.根據(jù)權(quán)利要求1所述的基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法, 其特征在于所述步驟(1)的具體操作如下設(shè)定原始樣本為I 二紅^ (i=l,…,對(duì),#為樣本數(shù),并設(shè)其類別數(shù)是設(shè)增量樣本為7 二 {yj 二人…,Z入Z為增量樣本數(shù),并設(shè)其類別數(shù)是Λ則合并后的總的樣本表示為 Z=XU V = {zj …,Z^V入樣本總數(shù)為Ζ+Λ/,類別總數(shù)為C,且對(duì)于合并后的總樣本中的第Gii 二人…’ C)類,分別在原始樣本#和增量樣本Z中有&和厶個(gè)樣本, 合并后新的樣本,屬于第Gii=A…,C)類的樣本數(shù)為力二&Wi。
3.根據(jù)權(quán)利要求2所述的基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法, 其特征在于所述步驟(2)具體更新步驟如下(21)、增量樣本特征提取,對(duì)于每一個(gè)增量樣本,都采用八方向特征提取方法提取其方向特征;(22)、設(shè)定原始線性鑒別分析變換矩陣為巧_,經(jīng)過八方向特征提取后,增量樣本中類別i「i二人…,以的特征向量為ι則根據(jù)增量線性鑒別分析技術(shù)并結(jié)合增量樣本的特征向量M將原始線性鑒別分析變換矩陣更新為巧碰。
4.根據(jù)權(quán)利要求3所述的基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法, 其特征在于所述步驟(3)具體更新步驟如下(31)、設(shè)定增量樣本中類別i「i二人...,C)經(jīng)過八方向特征提取后的均值向量為力,樣本個(gè)數(shù)力則通過以下公式求得力(32)、設(shè)定增量樣本中類別iG二人...,C)在新的線性鑒別分析特征空間中的均值向量為八―碰,樣本個(gè)數(shù)力根據(jù)步驟(31)的處 結(jié)果,ilil以下公式求得
5.根據(jù)權(quán)利要求4所述的基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法, 其特征在于所述步驟(4)具體更新步驟如下(41)、設(shè)定原始樣本中類別i「i二人…,C)經(jīng)過八方向特征提取后的均值向量為&,樣本個(gè)數(shù)為巧,則通過以下公式求得
6.根據(jù)權(quán)利要求5所述的基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法,其特征在于所述步驟(5)具體更新步驟如下(51)、設(shè)定合并后總樣本中類別i「i二人...,C)在新的線性鑒別分析特征空間中的均值向量為ζ;,通過以下公式求得^
7.根據(jù)權(quán)利要求6所述的基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法, 其特征在于所述步驟(6)具體更新步驟如下(61)、令Cj代表第i個(gè)類別(i=l,…,以,。和&分別表示根據(jù)步驟(5)得到的合并后總樣本在新的線性鑒別分析特征空間中每個(gè)類的均值向量和協(xié)方差矩陣,并設(shè)每個(gè)類別的先驗(yàn)概率相等,則原始的二次鑒別函數(shù)由以下公式求得
全文摘要
本發(fā)明提供一種基于鑒別子空間的增量二次鑒別函數(shù)的書寫者自適應(yīng)方法,利用具有特定用戶書寫風(fēng)格的增量樣本動(dòng)態(tài)更新MQDF識(shí)別模型,使更新后的MQDF識(shí)別模型能適應(yīng)特定用戶的書寫風(fēng)格,從而達(dá)到提高該特定用戶的識(shí)別率的效果。本發(fā)明創(chuàng)新性的將增量學(xué)習(xí)算法與漢字識(shí)別中的MQDF分類算法以及ILDA算法相結(jié)合提出了一種ILDAIMQDF算法,并把ILDAIMQDF應(yīng)用于基于手寫漢字識(shí)別的書寫者自適應(yīng)領(lǐng)域,解決了手寫漢字識(shí)別引擎對(duì)特定用戶識(shí)別率不高的問題。利用本發(fā)明提供的方法,手寫漢字識(shí)別引擎能自適應(yīng)特定用戶的手寫風(fēng)格,提高識(shí)別準(zhǔn)確度。
文檔編號(hào)G06K9/68GK102184425SQ20111010877
公開日2011年9月14日 申請(qǐng)日期2011年4月28日 優(yōu)先權(quán)日2011年4月28日
發(fā)明者丁凱, 劉崗, 金連文 申請(qǐng)人:華南理工大學(xué)