亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種文字識別方法及其系統(tǒng)的制作方法

文檔序號:9506558閱讀:370來源:國知局
一種文字識別方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文字識別領(lǐng)域,尤其涉及一種文字識別方法及其系統(tǒng)。
【背景技術(shù)】
[0002]文字識別技術(shù)是一項(xiàng)用于將文字信息自動(dòng)輸入電腦、手機(jī)及其它信息處理系統(tǒng)的智能化技術(shù)。文字識別技術(shù)分為聯(lián)機(jī)識別和脫機(jī)識別兩大類,其中聯(lián)機(jī)識別為即時(shí)將手寫文字錄入到信息處理系統(tǒng)中,如通常見到的通過手寫筆將文字在線錄入到信息處理系統(tǒng)中;而脫機(jī)識別技術(shù)包括印刷體字識別和手寫體字識別,它是一種將已經(jīng)印刷或者書寫到紙或者其它載體上的文字進(jìn)行自動(dòng)識別和錄入的技術(shù)。
[0003]目前印刷體字的自動(dòng)識別技術(shù),其產(chǎn)品和方法有很多,如我國的漢王、清華紫光等。而在手寫體字的自動(dòng)識別方面,由于手寫文字的不規(guī)范導(dǎo)致其識別難度較大。目前對手寫體字的識別已經(jīng)出現(xiàn)了如申請?zhí)枮镃N02125949,申請名稱為《一種基于結(jié)構(gòu)模型的漢字識別方法》;申請?zhí)枮镃N201010223263,申請名稱為《自適應(yīng)脫機(jī)手寫識別方法和裝置》;申請?zhí)枮镃N90110009,申請名稱為《脫機(jī)手寫漢字識別系統(tǒng)及其識別方法》等技術(shù)。
[0004]上述手寫體字的識別技術(shù)存在著以下不足:
[0005]首先,手寫體字聯(lián)機(jī)識別技術(shù)的識別速度受限于人工手寫速度,速度較慢,不適用于大批量處理的場合;
[0006]其次印刷體字的識別技術(shù)因其識別方法所限,識別率有待提高;
[0007]更為突出的是,手寫體文字的識別仍然沿用印刷體字的識別方法,即先做行字圖像分割,然后提取單字特征進(jìn)行識別。但是由于手寫體文字缺乏規(guī)范,對行字圖像分割可能造成無可彌補(bǔ)的識別誤差;同時(shí),常用的統(tǒng)計(jì)法、投影法和網(wǎng)格法等文字識別方法也無法做到精準(zhǔn)識別,這些方法的識別準(zhǔn)確率難于進(jìn)一步提高。

【發(fā)明內(nèi)容】

[0008]本發(fā)明基于文字結(jié)構(gòu)的穩(wěn)定特征,提出一種文字識別的方法及其系統(tǒng),用于脫機(jī)或聯(lián)機(jī)地自動(dòng)識別印刷體字和手寫體字。
[0009]本發(fā)明一種文字識別方法,包括以下步驟:
[0010]S1:輸入待識別區(qū)域圖像并進(jìn)行二值化處理;
[0011]S2:提取待識別區(qū)域筆劃特征;
[0012]S3:提取各筆劃的近鄰筆劃及其相對位置關(guān)系特征;
[0013]S4:部件匹配;
[0014]S5:字匹配;
[0015]S6:輸出待識別區(qū)域字匹配結(jié)果。
[0016]進(jìn)一步地,步驟S2中所述提取筆劃特征的方法,是先找出待識別區(qū)域中各筆劃圖像點(diǎn)的最長方向,并以其為主方向,連接所述主方向上的各筆劃圖像點(diǎn)成為直線段連線,連接相鄰的主方向相同的直線段連線就形成了主線段區(qū)域,從而找出該筆劃特征。
[0017]進(jìn)一步地,步驟S3中所述提取各筆劃的近鄰筆劃,是先找出該筆劃的周邊附近的筆劃并判斷其相對位置關(guān)系,再從這些相對位置關(guān)系中找出與該筆劃各個(gè)方向上的最鄰近的筆劃。
[0018]進(jìn)一步地,步驟S4中所述的部件匹配,是以某待識別筆劃為中心筆劃,與部件特征庫中的部件逐一匹配;匹配時(shí)是將待識別的中心筆劃視做與部件特征庫部件的首筆劃相重疊,然后比較二者的近鄰筆劃走向特征和相對位置關(guān)系特征,找出它們的對應(yīng)匹配筆劃;然后再分別以這些匹配的筆劃為中心筆劃,繼續(xù)比較它們的近鄰筆劃的走向特征和相對位置關(guān)系特征,進(jìn)一步找出其它的對應(yīng)匹配筆劃;如此不斷比較下去,直到全部比較完部件特征庫部件的所有筆劃并找出各自的對應(yīng)匹配筆劃關(guān)系。
[0019]進(jìn)一步地,步驟S4進(jìn)一步包括:某部件匹配結(jié)果的全部筆劃均與其他部件匹配結(jié)果的筆劃相重疊的則該部件匹配結(jié)果不予輸出。
[0020]進(jìn)一步地,若部件匹配結(jié)果屬多個(gè)相同或相近的結(jié)構(gòu)特征的部件時(shí),則進(jìn)一步將對應(yīng)筆劃做長度、高度和走向中一種或其組合的精準(zhǔn)比較后再輸出。
[0021]進(jìn)一步地,步驟S5中所述的字匹配是先找出各個(gè)待識別部件的近鄰部件,然后逐一以待識別部件為中心部件,與字特征庫中的字部件及其近鄰部件相對位置關(guān)系特征進(jìn)行匹配。
[0022]進(jìn)一步地,步驟S5進(jìn)一步包括:若字匹配結(jié)果的全部部件均與其他字匹配結(jié)果的部件相重疊的則該字匹配結(jié)果不予輸出。
[0023]進(jìn)一步地,步驟S5進(jìn)一步包括:若字匹配結(jié)果屬左右可分成二個(gè)字的,則至少通過檢查其字形的高寬比例和間隔寬度決定是否分開成兩個(gè)字輸出。
[0024]本發(fā)明還提供一種文字識別系統(tǒng),包括:
[0025]圖像采集模塊,用于采集待識別區(qū)域圖像;
[0026]圖像處理和文字識別模塊,用于對所述待識別區(qū)域圖像進(jìn)行二值化處理、提取待識別區(qū)域筆劃特征、提取各筆劃的近鄰筆劃及其相對位置關(guān)系特征、部件匹配和字匹配;
[0027]文字輸出模塊,用于輸出待識別區(qū)域的字匹配結(jié)果。
[0028]本發(fā)明的有益效果在于,提供一種基于文字結(jié)構(gòu)穩(wěn)定特征進(jìn)行精準(zhǔn)識別的文字識別方法及其系統(tǒng),能對印刷體、較為工整的手寫體字精準(zhǔn)地識別,除了要求手寫體字不能太潦草以致不能看出其文字結(jié)構(gòu)特征外沒有其它限制,能夠高速、大批量地處理印刷體和手寫體文稿、表格和票據(jù)等。
【附圖說明】
[0029]圖1是本發(fā)明文字識別方法的流程圖;
[0030]圖2是圖1中的步驟S2的筆劃特征的圖像點(diǎn)主方向示意圖;
[0031]圖3是圖2中步驟S2的筆劃特征的圖像點(diǎn)主方向連接成直線段后的示意圖;
[0032]圖4是圖1中的步驟S3的筆劃相對位置關(guān)系示意圖;
[0033]圖5是一個(gè)實(shí)施例中待識別區(qū)域的“日”字的特征圖;
[0034]圖6是圖5中所述實(shí)施例中“日”字的部件特征庫中的特征圖;
[0035]圖7是本發(fā)明文字識別系統(tǒng)的結(jié)構(gòu)示意圖;
[0036]圖8是本發(fā)明文字識別系統(tǒng)的工作流程圖。
【具體實(shí)施方式】
[0037]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0038]請參見圖1,本發(fā)明一種文字識別方法,包括以下步驟:
[0039]S1:輸入待識別區(qū)域圖像并進(jìn)行二值化處理;
[0040]S2:提取待識別區(qū)域筆劃特征;
[0041]S3:提取各筆劃的近鄰筆劃及其相對位置關(guān)系特征;
[0042]S4:部件匹配;
[0043]S5:字匹配;
[0044]S6:輸出待識別區(qū)域字匹配結(jié)果。
[0045]在步驟S1中,所述待識別區(qū)域可以是整頁的文字區(qū)域、表格中的格區(qū)域或文稿中的指定的文字區(qū)域。待識別區(qū)域的圖像一般采用bmp文件格式。所述二值化處理,是黑白兩色標(biāo)識筆劃的圖像點(diǎn)和白紙(或其它背景)的圖像點(diǎn)。且如果需要對表格或其它圖文進(jìn)行識別的,應(yīng)先對表格和圖文進(jìn)行預(yù)處理,分析出待識別的文字區(qū)域。
[0046]步驟S2中的筆劃特征包括筆劃的長度、寬度、走向、二端端點(diǎn)坐標(biāo)、筆劃中點(diǎn)坐標(biāo)和筆劃交叉、端連等特征。筆劃走向特征是橫、豎、撇、捺四個(gè)方向的特征。提取筆劃特征的方法,是先找出待識別區(qū)域中各筆劃圖像點(diǎn)的最長方向,并以其為主方向,如圖2中的雙向箭頭所示;連接所述主方向上的各筆劃圖像點(diǎn)成為直線段連線,如圖3中的直線段所示;連接相鄰的主方向相同的直線段連線就形成了主線段區(qū)域;根據(jù)主線段區(qū)域的特征,就能找出該筆劃的長度、寬度、走向、二端端點(diǎn)坐標(biāo),中心點(diǎn)坐標(biāo)等特征,并可判斷出本筆劃的交叉、端連等特征。
[0047]步驟S3中所述提取某筆劃的近鄰筆劃,就是先找出該筆劃的周邊附近的筆劃并判斷其相對位置關(guān)系,再從這些相對位置關(guān)系中找出與該筆劃各個(gè)方向上的最鄰近的筆劃。如圖5所示,筆劃“ 2 ”的近鄰筆劃是“ 1 ”、“ 3 ”、“ 4 ”、“ 5 ”共4個(gè)筆劃。
[0048]步驟S3中所述筆劃相對位置關(guān)系特征,如圖4所示,筆劃的相對位置關(guān)系至少包括上、下、左、右、交叉和端連等六種,還可包括上左,上右、下左和下右。其中上左可認(rèn)為是上,也可認(rèn)為是左,其它類同。這樣做的目的是使得在對手寫體字進(jìn)行識別時(shí),避免出現(xiàn)因?yàn)闀鴮懖灰?guī)范造成誤判。
[0049]部件匹配方法是以某待識別筆劃為中心筆劃,與部件特征庫中的部件逐一匹配。匹配時(shí)是將待識別的中心筆劃視做與部件特征庫部件的首筆劃(事先指定的)相重疊,然后比較二者的近鄰筆劃走向特征和相對位置關(guān)系特征,找出它們的對應(yīng)匹配筆劃。然后再分別以這些匹配的筆劃為中心筆劃,繼續(xù)比較它們的近鄰筆劃的走向特征和相對位置關(guān)系特征,進(jìn)一步找出其它的對應(yīng)匹配筆劃。如此不斷比較下去,就可全部比較完部件特征庫部件的所有筆劃并找出各自的對應(yīng)匹配筆劃關(guān)系。
[0050]部件特征庫的建立,是從規(guī)范書寫的部件(如印刷體或工整書寫)中提取各部件筆劃的走向特征及各部件筆劃與近鄰筆劃的相對位置關(guān)系特征,并指定其中長度較長的筆劃為首筆劃。一個(gè)部件只需一個(gè)規(guī)范書寫的部件模版。
[0051]部件特征庫的建立,還可包括一個(gè)自主選擇的過程。某特定用戶根據(jù)其書寫習(xí)慣,可以建立適用于自己的個(gè)人部件特征庫。
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1