亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種文字識別方法

文檔序號:6612686閱讀:619來源:國知局
專利名稱:一種文字識別方法
技術(shù)領(lǐng)域
本發(fā)明屬于模式識別與人工智能技術(shù)領(lǐng)域中的文字識別方向,特別是涉及一種文字識別方法。
背景技術(shù)
文字識別是當(dāng)今備受關(guān)注的一個課題,它是模式識別的一個重要分支,也是人工智能和模式識別研究中的一個重要方向。漢字的種類繁多、筆畫復(fù)雜、相似字多,而且不同人的手寫漢字風(fēng)格迥異,因此手寫漢字識別,尤其是手寫漢字的相似字識別,一直是文字識別中的一個難點(diǎn)和關(guān)注點(diǎn)。在實(shí)際應(yīng)用中,一般的手寫漢字識別系統(tǒng)里為了提高識別率通常都要對手寫漢字 提取高維的特征向量,以獲得更多有助于識別的字體特征信息。但是由于特征向量的維數(shù)很高,而且識別中的涉及的字體數(shù)目較多,為了運(yùn)算降低存儲量、加快識別的運(yùn)算速度以及提高識別的正確率,一般都對高維空間的特征向量進(jìn)行降維映射。目前用于漢字識別比較流行的數(shù)據(jù)降維算法是線性判別分析法(Linear Discriminate Analysis, LDA)。但是,考慮到漢字類別數(shù)眾多(如GBl有3755個漢字),采用LDA降維后直接分類,并不能達(dá)到很好的識別效果。因此,流行的做法用層級分類的方案。傳統(tǒng)的兩級LDA選擇方案的實(shí)現(xiàn)首先是直接用LDA降維,然后進(jìn)行粗分類得出首選字及其候選字,接著對首選字和其他候選字組成的相似字集合進(jìn)行第二級LDA映射,最后用小類別的強(qiáng)分類器得出最終的識別結(jié)果。這里需要說明的是其他候選字的生成可以采用一種快速的靜態(tài)候選字生成技術(shù),這里不作敘述。雖然這種使用了兩級的LDA層級分類的漢字識別方案,相對于直接的一級分類識別的方法來說,識別率有了很大的提高,但是,如何進(jìn)一步從樣本中獲取判別信息,以提高識別率是漢字識別努力的一個方向。傳統(tǒng)的LDA并沒有很好的保存數(shù)據(jù)的判別信息。因此,如果能找到適合的降維算法更好地保留手寫漢字的判別信息,其識別率仍有改進(jìn)的空間。數(shù)據(jù)降維的其中一個最主要的問題就是找到一個合適的投影,使原始數(shù)據(jù)從高維空間變換到低維子空間。它的目的是將數(shù)據(jù)從高維數(shù)據(jù)轉(zhuǎn)換到一個可以揭示數(shù)據(jù)分布固有空間結(jié)構(gòu)的低維空間,使數(shù)據(jù)得到一個更加簡潔、有效的表達(dá)。傳統(tǒng)的全局線性降維的方法主要是基于線性的,其中主成分分析法(PCA)、線性判別分析法(LDA)被廣泛地應(yīng)用在模式分類問題上。主成分分析法(PCA)會最大化在原始高維空間中呈現(xiàn)高斯分布的樣本之間的相互距離。主成分分析法(PCA)在高斯分布數(shù)據(jù)的重建中得到最優(yōu)化。然而,由于它不使用類標(biāo)簽信息,主成分分析法(PCA)并不是一個用于分類的最佳選擇。費(fèi)舍爾的線性判別分析法(LDA)找到一個投影方向使得類別間散布矩陣的跡最大的同時(shí)使類別內(nèi)散布矩陣的跡最小。但是,LDA在實(shí)現(xiàn)中存在以下問題1)忽略數(shù)據(jù)可能存在的非線性特點(diǎn);2)假設(shè)所有的樣本對分類的貢獻(xiàn)相等;3)樣本少的情況下,性能下降嚴(yán)重??偟膩碚f,這兩種方法只是在大樣本情況下各類模式識別問題中表現(xiàn)得較好,而在小樣本情況下的表現(xiàn)并不理想。為了克服上述主成分分析法(PCA)和線性判別分析法(LDA)面臨的問題,新的線性算法,判別局部塊配準(zhǔn)(DLA)算法被提出來用于分類問題。該算法分以下三個階段執(zhí)行I)部分最優(yōu)化階段;2)整體配準(zhǔn)階段。首先,每個數(shù)據(jù)塊都是由一個樣品和它的鄰近樣本組成,在這個局部數(shù)據(jù)塊內(nèi),需要相同類別的樣本盡量靠近,不同類別的樣本盡量遠(yuǎn)離;在整體配準(zhǔn)階段,實(shí)現(xiàn)方法是將加權(quán)后的部分最優(yōu)校正到整體最優(yōu)中。由于對本發(fā)明的理解需要到許多判別局部塊配準(zhǔn)(DLA)算法的具體內(nèi)容,下面對判別局部塊配準(zhǔn)(DLA)算法的具體步驟進(jìn)行較為詳細(xì)的介紹(I)部分最優(yōu)設(shè)定C類別數(shù)的訓(xùn)練集為ΕΜβχΛΓ(其中汧表示DXN維的線性空間),對于一個給定的樣本Xi,根據(jù)類的標(biāo)簽信息,劃分其他的樣本為兩組和樣品Xi為同一類的樣本,和與Xi不同類的樣本。選擇與樣本Xi同類的Hl1個最近鄰的樣本,并把它們稱為同類近鄰樣本
權(quán)利要求
1.一種文字識別方法,采用文字識別引擎對采集的文字進(jìn)行識別,其特征在于所述文字識別引擎是基于核判別局部塊配準(zhǔn)算法的文字相似字識別算法,核判別局部塊配準(zhǔn)算法的文字相似字識別算法是在再生希爾伯特空間中采用判別局部塊配準(zhǔn)算法進(jìn)行降維。
2.根據(jù)權(quán)利要求I所述文字識別方法,其特征在于所述核判別局部塊配準(zhǔn)算法的文字相似字識別算法的具體實(shí)現(xiàn)方式 1)將一個線性的輸入空間通過非線性映射到一個再生希爾伯特空間; 2)在判別局部塊配準(zhǔn)算法中,局部數(shù)據(jù)塊為
全文摘要
本發(fā)明公開一種文字識別方法,采用文字識別引擎對采集的文字進(jìn)行識別,文字識別引擎是基于核判別局部塊配準(zhǔn)算法的文字相似字識別算法,核判別局部塊配準(zhǔn)算法的文字相似字識別算法是在再生希爾伯特空間中采用判別局部塊配準(zhǔn)算法進(jìn)行降維。本發(fā)明提出文字識別方法,通過證明其效果等效于先用核主成分分析法降維,再用判別局部塊配準(zhǔn)算法進(jìn)行降維,以提高實(shí)踐過程中算法的速度。利用本發(fā)明提出的核判別局部塊配準(zhǔn)算法進(jìn)行手寫漢字相似字的識別,其識別率高于其他有代表性的判別分析提取算法。
文檔編號G06K9/20GK102945369SQ20121039648
公開日2013年2月27日 申請日期2012年10月17日 優(yōu)先權(quán)日2012年10月17日
發(fā)明者金連文, 陶大鵬, 黎小鳳 申請人:華南理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1