一種基于拆分匹配的漢字筆畫自動提取方法
【專利摘要】本發(fā)明公開了一種基于拆分匹配的漢字筆畫自動提取方法,屬于模式識別與信息處理【技術領域】,其步驟如下:一、根據(jù)漢字結構,將漢字拆分為多個筆畫部件;二、提取出筆畫部件的骨骼圖,找到骨骼圖中的交叉點,再計算二值圖像中該交叉點的二維鄰域中點PBOD曲線,將交叉點區(qū)域提取出來;三、對筆畫部件提取特征,該特征與標準庫中的筆畫部件的特征進行進行匹配;四、根據(jù)匹配結果對筆畫段進行組合,獲得漢字的筆畫。本發(fā)明對于不同字體的漢字都能達到讓人滿意的提取效果,有效地改善漢字筆畫提取準確度不理想,提取速度慢的不足,而且在標準字庫愈來愈全面后,筆畫提取準確度也越來越高。
【專利說明】一種基于拆分匹配的漢字筆畫自動提取方法
【技術領域】
[0001]本發(fā)明涉及一種基于拆分匹配的漢字筆畫自動提取方法,用于漢字識別,屬于模式識別與信息處理【技術領域】。
【背景技術】
[0002]由于漢字在我國的特殊重要性,漢字識別有著廣闊的應用前景,如在文獻檢索,辦公自動化,郵政書信分揀,試卷的自動閱讀等方面有著重要的實際意義,對我國信息化發(fā)展有著不可替代的作用。同時,漢字識別也是科學理論研究的一個重要組成方面,它的研究也將促進各學科的研究與發(fā)展。隨著漢字識別的應用越來越普遍,應用系統(tǒng)中對漢字識別的速度和正確率的要求也越來越高,一旦漢字筆畫提取在正確率和速度上取得突破,漢字識別將隨之取得突破。然而,由于漢字結構復雜,字符集龐大,不同字體的筆畫在連接性,筆畫長短、粗細方面各有不同,筆畫與筆畫之間、部件與部件之間的位置會發(fā)生變化,筆畫的傾斜角會發(fā)生變化,這給筆畫提取工作帶來的大量的困難。
[0003]針對漢字筆畫提取的重要性和困難性,研究者們提出了許多優(yōu)秀的方案來解決。一種方法是通過細化提取漢字的骨架,再對骨架提取筆畫。這種方法是應用最廣泛的筆畫提取方法,按細化后圖形的連續(xù)性可以分為:四鄰連接算法,八鄰接算法和混合連接算法;按照處理方式來分有單方向、雙方向和四方向細化法。細化方法時間復雜度低,但漢字點陣細化后會對筆畫結構產(chǎn)生不良影響,可能會影響到交叉筆畫畸變,轉(zhuǎn)折處出現(xiàn)分叉筆畫,失去短筆畫及壁畫合并等問題。
[0004]另一種方法提取筆畫的對象主要針對灰度圖、二值圖和輪廓圖。其情況分別如下:
[0005]1、從灰度圖中提取筆畫的方法,它將輸入的灰度字符圖像轉(zhuǎn)換成一幅三維圖像,再提取特征區(qū)域,然后建立了一個基于規(guī)則的系統(tǒng);
[0006]2、從二值圖中提取筆畫的典型方法,充分利用了筆畫的特征,但不足之處在與要對每個字符像素進行運算,時間耗費較高;
[0007]3、輪廓圖分兩級進行筆畫提取,在第一級,通過輪廓字體的拓撲信息提取筆畫段,達到去去相交和部分多余連接的部分,再對筆畫段進行組合,通過構造字體進行粗分類,第二級,對不合格的筆畫按照筆畫段構造特征進行細提取,但該方法對筆畫段的兩兩組合進行判斷,耗時大。
[0008]高正確性和效率一直是漢字筆畫提取的兩個重要目標,然而現(xiàn)在的筆畫提取技術很難同時在這兩點上達到令人滿意的效果。
【發(fā)明內(nèi)容】
[0009]針對上述現(xiàn)有技術,本發(fā)明的目的在于如何提供一種基于拆分匹配的漢字筆畫自動提取算法,旨在解決漢字筆畫提取準確度不理想,提取速度慢的技術問題。
[0010]為了解決上述技術問題,本發(fā)明采用如下技術方案:
[0011]一種基于拆分匹配的漢字筆畫自動提取方法,包括如下步驟:
[0012]步驟一:首先根據(jù)漢字結構,將漢字拆分為多個筆畫部件;
[0013]步驟二:通過細化算法提取出步驟一得到的筆畫部件的骨骼圖,并通過計算每個字符像素的相交數(shù)找到骨骼圖中的交叉點,再計算二值圖像中該交叉點二維鄰域中點PBOD曲線,將交叉點區(qū)域提取出來,其它的則為筆畫段;
[0014]步驟三:對步驟一得到的筆畫部件提取特征,并與標準庫中的筆畫部件的特征進行匹配;
[0015]步驟四:根據(jù)步驟三的匹配結果對筆畫段進行組合,獲得漢字的筆畫;如果筆畫部件匹配成功,則對步驟二所獲得的交叉點和筆畫段進行優(yōu)化后,按照標準庫中相匹配的筆畫部件的筆畫段組合方式直接進行組合并輸出;如果匹配失敗則根據(jù)筆畫段組合規(guī)則對其進行筆畫提取,并通過交互,將正確提取筆畫的筆畫部件及其交叉點和組合方式添加到標準庫。
[0016]進一步地,對步驟一進行更詳細地描述:根據(jù)漢字的二值圖像中筆畫是否連接或交叉把漢字拆分為數(shù)個筆畫部件C = [Sl, S2,…,sk],其中C表示漢字,k表示該漢字拆分成的筆畫部件數(shù)目,Si表示第i個筆畫部件;將漢字圖像規(guī)范化,判斷每個值為I的像素點鄰域是否都為1,如果不是則認為該點是邊界點;相互連通的邊界點標注出一個筆畫部件。
[0017]進一步地,對步驟二進行更詳細地描述:提取步驟一所獲得的筆畫部件的骨架圖;對每個筆畫部件所對應的骨架圖計算每個像素的相交數(shù)NJp):
【權利要求】
1.一種基于拆分匹配的漢字筆畫自動提取方法,包括如下步驟: 步驟一:根據(jù)漢字結構,將漢字拆分為多個筆畫部件; 步驟二:通過細化算法提取出步驟一得到的筆畫部件的骨骼圖,并通過計算每個字符像素的相交數(shù)找到骨骼圖中的交叉點,再計算二值圖像中該交叉點二維鄰域中點PBOD曲線,將交叉點區(qū)域提取出來,其它的則為筆畫段; 步驟三:對步驟一得到的筆畫部件提取特征,提取到的特征與標準庫中的筆畫部件的特征進行匹配; 步驟四:根據(jù)步驟三的匹配結果對筆畫段進行組合,獲得漢字的筆畫;如果筆畫部件匹配成功,則對步驟二所獲得的交叉點和筆畫段進行優(yōu)化后,按照標準庫中相匹配的筆畫部件的筆畫段組合方式直接進行組合并輸出;如果匹配失敗則根據(jù)筆畫段組合規(guī)則對其進行筆畫提取,并通過交互,將正確提取筆畫的筆畫部件及其交叉點和組合方式添加到標準庫。
2.根據(jù)權利要求1所述的基于拆分匹配的漢字筆畫自動提取方法,其特征在于,對步驟一進行更詳細地描述為:根據(jù)漢字的二值圖像中筆畫是否連接或交叉把漢字拆分為數(shù)個筆畫部件C = [Sl, S2,…,sk],其中C表示漢字,k表示該漢字拆分成的筆畫部件數(shù)目,Si表示第i個筆畫部件;將漢字圖像規(guī)范化,判斷每個值為I的像素點鄰域是否都為1,如果不是則認為該點是邊界點;相互連通的邊界點標注出一個筆畫部件。
3.根據(jù)權利要求1所述的基于拆分匹配的漢字筆畫自動提取方法,其特征在于,對步驟二進行更詳細地描述為:提取步驟一所獲得的筆畫部件的骨架圖;對每個筆畫部件所對應的骨架圖計算每個像素的相交數(shù)N。(P): ΝΛp) = ^xI 其中XiQ = I,…,9)是像素點P的鄰接點,且X1 = X9 ;若Nc(p) > 2,則P為交叉點;對于沒有交叉點的筆畫部件直接輸出筆畫,對于有交叉點的筆畫部件在找到骨架圖中的交叉點后以該點為中心,計算二值圖中P的二維鄰域中的點PBOD曲線,將交叉點區(qū)域提取出來。
4.根據(jù)權利要求1所述的基于拆分匹配的漢字筆畫自動提取方法,其特征在于,對步驟二進行更詳細地描述為:對步驟三進行更詳細地描述:計算步驟一得到的筆畫部件的輪廓,把輪廓點作為筆畫部件的形狀特征,對輪廓點進行采樣,計算每個采用輪廓點與其他采樣輪廓點的距離和方向并投影到極坐標系,進而計算出極坐標系下的投影直方圖; 筆畫部件與標準字庫中的筆畫部件進行匹配,每個筆畫部件被表示為對應的投影直方圖,通過計算兩個投影直方圖間的距離,判斷兩個筆畫結構是否匹配;采用歐式距離來度量投影直方圖間的距離,當這個距離小于閥值時,兩個筆畫結構匹配成功。
5.根據(jù)權利要求1所述的基于拆分匹配的漢字筆畫自動提取方法,其特征在于,對步驟二進行更詳細地描述為:對步驟三進行更詳細地描述:根據(jù)步驟三的匹配結果對筆畫段進行組合,提取漢字的筆畫;如果筆畫部件Si與標準庫中的某個筆畫部件Sj匹配成功,則采用Kuhn - Munkras算法將筆畫部件的交叉點與匹配筆畫部件的交叉點進行匹配,筆畫部件Si有η交叉點表示為Pi = [A1,/7,2*-'/7,]筆畫部件Sj有m個交叉點表示為
? J€ =…,Ρ—Γ];當筆畫部件Si的交叉點多于標準庫中筆畫部件Sj時,也就是η > m,根據(jù)交叉點之間的距離,將筆畫部件S」的交叉點中距離筆畫部件的剔除,僅保留m個交叉點,再與筆畫部件8」的交叉點進行匹配;在交叉點匹配完成后,對每個交叉點的筆畫段采用和交叉點相同的方式進行匹配;筆畫部件Si的筆畫段和筆畫部件Sj的筆畫段對應起來,按照筆畫部件的筆畫段組合方式直接進行組合并輸出; 如果筆畫部件Si匹配失敗,標準庫中沒有和其匹配的筆畫部件,則將交叉區(qū)域和該交叉區(qū)域的任意兩個筆畫段進行組合,計算交叉點的PBOD曲線,看PBOD曲線中是否只包含兩個波峰,且兩個波峰相距是否接近180度,如果是采用這種組合方式提取筆畫,輸出結果。
【文檔編號】G06K9/34GK104182748SQ201410404614
【公開日】2014年12月3日 申請日期:2014年8月15日 優(yōu)先權日:2014年8月15日
【發(fā)明者】董樂, 梁燕, 封寧, 徐宗懿, 張寧 申請人:電子科技大學