一種彎曲書面文字識(shí)別方法
【專利說明】
所屬技術(shù)領(lǐng)域
[0001]本發(fā)明屬于數(shù)字圖像處理技術(shù),涉及一種彎曲書面文字識(shí)別方法。
【背景技術(shù)】
[0002]隨著現(xiàn)代科技的不斷進(jìn)步和發(fā)展,電子產(chǎn)品的大量普及,越來越多的人們選擇在電子平臺(tái)進(jìn)行閱讀和學(xué)習(xí)。但是大量的文檔只有紙質(zhì)版,這就需要將大量的紙質(zhì)文檔進(jìn)行電子化并進(jìn)行文字識(shí)別。由于數(shù)碼相機(jī)的便攜性、方便性,越來越多的人采用數(shù)碼相機(jī)對(duì)文檔進(jìn)行圖像采集,在對(duì)書面進(jìn)行電子化的時(shí)候,一些文檔由于厚度較大,不能完全的展平,因此采集的圖像大多會(huì)出現(xiàn)類似于柱面中間凸、兩邊凹的現(xiàn)象。為了便于閱讀和識(shí)別,后期處理需要將彎曲書面圖像展平?,F(xiàn)如今存在的曲面展平技術(shù)大多需要曲面多個(gè)角度的圖像組合一起,求出圖像的3D信息,然后進(jìn)行展平,這種技術(shù)圖像采集比較麻煩,因此如何更方便、更準(zhǔn)確、更簡(jiǎn)單的進(jìn)行彎曲書面矯正,為文字識(shí)別創(chuàng)造好的基礎(chǔ)成為人們追求的目標(biāo)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是提供一種速度快效果好的彎曲書面文字識(shí)別方法。本發(fā)明的技術(shù)方案如下:
[0004]一種彎曲書面文字識(shí)別方法,包括下列步驟:
[0005]I)采集彎曲書面的曲面圖像;
[0006]2)對(duì)曲面圖像進(jìn)行預(yù)處理,獲取各個(gè)文本行連通區(qū)域;
[0007]3)求取各個(gè)文本行的基準(zhǔn)線及基準(zhǔn)線方程fn(x),X e (0,len),n e (1,N),N為基準(zhǔn)線數(shù)量,Ien曲面圖像的寬度,fn(x)表示基準(zhǔn)線的縱坐標(biāo)值,X表示基準(zhǔn)線的橫坐標(biāo)值,下標(biāo)η表示不同的基準(zhǔn)線;
[0008]4)采用Hough變換檢測(cè)彎曲書面所有基準(zhǔn)線中,最長(zhǎng)的直線部分,直線所在方向即為彎曲書面圖像展平的方向;
[0009]5)求出Hough變換所得最長(zhǎng)直線部分的角度,并將圖像順時(shí)針旋轉(zhuǎn)相應(yīng)的角度,使圖像展平的方向變?yōu)樗椒较?,并?)中得到的基準(zhǔn)線方程也要進(jìn)行相應(yīng)的變換,得到全新的基準(zhǔn)線方程Fn(X);
[0010]6)求出每條基準(zhǔn)線方程Fn(X)斜率為O時(shí),其橫坐標(biāo)的值Xtl,并求得其對(duì)應(yīng)縱坐標(biāo)的值Fn(Xtl),斜率為O時(shí)縱坐標(biāo)的值,決定著其所在基準(zhǔn)線展開后縱坐標(biāo)的值。
[0011]7)曲面中最頂部一條基準(zhǔn)線F1(X)上面的區(qū)域只有一邊存在基準(zhǔn)線,對(duì)此區(qū)域每列像素豎直向下移動(dòng)F1(X)-Fn(Xtl)像素距離,將此區(qū)域下邊的基準(zhǔn)線變?yōu)樗降模?br>[0012]8)曲面中最頂部一條基準(zhǔn)線F1(X)和最底部一條基準(zhǔn)線Fn(X)中間區(qū)域兩邊都存在基準(zhǔn)線,圖像展平后兩邊基準(zhǔn)線之間的距離Fn+1 (?)-Fn(Xtl)與圖像展平前兩邊基準(zhǔn)線之間的差值Fn+1 (x) -Fn (x)不一定相等,所以對(duì)此區(qū)域每列像素進(jìn)行豎直移動(dòng)加縮放處理,采用雙線性內(nèi)插值算法進(jìn)行縮放;
[0013]9)曲面中最底部一條基準(zhǔn)線Fn(X)下面的區(qū)域只有一邊存在基準(zhǔn)線,對(duì)此區(qū)域每列像素豎直向下移動(dòng)Fn(X)-Fn(Xci)像素距離,將此區(qū)域上邊的基準(zhǔn)線變?yōu)樗降模?br>[0014]10)對(duì)經(jīng)過上述操作展平的彎曲書面圖像進(jìn)行文字識(shí)別。
[0015]作為優(yōu)選實(shí)施方式,步驟2)采用如下的預(yù)處理方法:
[0016]a)根據(jù)圖像的像素大小和經(jīng)驗(yàn)值,刪除二值圖像中面積小于一個(gè)標(biāo)點(diǎn)符號(hào)面積的對(duì)象,去除噪聲的影響,得到經(jīng)過預(yù)處理后的二值圖像;
[0017]b)設(shè)定一個(gè)矩形,其長(zhǎng)度根據(jù)兩個(gè)字體中心之間的水平距離確定,寬度根據(jù)字體高度的1/2確定,利用此矩形對(duì)二值圖像進(jìn)行形態(tài)學(xué)的開閉運(yùn)算,將每行文本連成同一連通區(qū)域。
[0018]c)根據(jù)文本行的高度預(yù)設(shè)一個(gè)高度閾值,根據(jù)文本行的長(zhǎng)度預(yù)設(shè)一個(gè)長(zhǎng)度閾值;
[0019]d)計(jì)算出每個(gè)連通區(qū)域的高度值和寬度值,將高度值大于高度閾值的連通區(qū)域去除,消除書面中高度較高的插圖的影響;將長(zhǎng)度值短于長(zhǎng)度閾值的連通區(qū)域去除,消除書面中長(zhǎng)度較短的文本行的影響;然后刪除面積小于一個(gè)字體面積的對(duì)象,最終得到各個(gè)文本行連通區(qū)域;
[0020]步驟3)采用的方法為:根據(jù)得到的各個(gè)文本行連通區(qū)域的上邊界和下邊界,求出每組上邊界和下邊界對(duì)應(yīng)橫坐標(biāo)的中值,對(duì)中值采用三階函數(shù)進(jìn)行曲線擬合,得到彎曲書面的各個(gè)文本行的基準(zhǔn)線及其對(duì)應(yīng)的方程基準(zhǔn)線方程fn(x) = anx2+bnx2+cnx+dn,an,bn,cn,4為常數(shù)。
[0021]本發(fā)明采用矩形結(jié)構(gòu)對(duì)圖像進(jìn)行形態(tài)學(xué)的開閉運(yùn)算,求出的文本行連通區(qū)域上下邊界能夠跟文本行的上下邊界緊密貼合,使其連通區(qū)域不受字體內(nèi)部比重的影響,求出的中線具有更高的精度。本方法只采用幾種形態(tài)學(xué)的開閉運(yùn)算和三階曲線擬合運(yùn)算來定位基準(zhǔn)線,運(yùn)算簡(jiǎn)單,具有更高的速度,用此類基準(zhǔn)線進(jìn)行曲面書面展開后的圖像具有更平的效果,從而為之后的文字識(shí)別打下良好基礎(chǔ)。本發(fā)明的文字識(shí)別方法,在進(jìn)行彎曲書面展平過程中只需單幅圖像,不需要彎曲書面進(jìn)行多次圖像采集,展開過程簡(jiǎn)單、方便。
【附圖說明】
[0022]圖1初始圖像
[0023]圖2形態(tài)學(xué)開閉運(yùn)算后的模糊圖像
[0024]圖3只含有較長(zhǎng)文本行部分的模糊圖像
[0025]圖4中線定位結(jié)果的局部放大圖像(文本行中白色線條表示中線)
[0026]圖5基準(zhǔn)線定位結(jié)果(文本行中黑色線條表示基準(zhǔn)線)
[0027]圖6基準(zhǔn)線定位結(jié)果的局部放大圖像(文本行中黑色線條表示基準(zhǔn)線)
[0028]圖7基準(zhǔn)線圖(粗白線部分為檢測(cè)出的最長(zhǎng)直線)
[0029]圖8每條基準(zhǔn)線斜率為O時(shí)的位置(基準(zhǔn)線中O點(diǎn)的位置)
[0030]圖9頂部區(qū)域展平
[0031]圖10中部區(qū)域展平
[0032]圖11底部區(qū)域展平
[0033]圖12前后部分區(qū)域?qū)Ρ葓D,(a)、(c)、(e)為展平前的部分區(qū)域,(b)、(d)、(f)為對(duì)應(yīng)的展平后區(qū)域。
[0034]圖13本發(fā)明采用的基于基準(zhǔn)線的彎曲書面展平流程圖
【具體實(shí)施方式】
[0035]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行說明。本發(fā)明具體包括下列步驟:
[0036]I)采集彎曲書面的曲面圖像,如圖1所示。
[0037]2)對(duì)曲面圖像進(jìn)行灰度變換,并進(jìn)行二值化。然后根據(jù)圖像的像素大小和經(jīng)驗(yàn)值,刪除二值圖像中面積小于一個(gè)標(biāo)點(diǎn)符號(hào)面積的對(duì)象,去除噪聲的影響,得到經(jīng)過預(yù)處理后的二值圖像。
[0038]3)設(shè)定一個(gè)矩形,其長(zhǎng)度根據(jù)兩個(gè)字體中心之間的水平距離確定,寬度根據(jù)字體高度的1/2確定,利用此矩形對(duì)圖像進(jìn)行形態(tài)學(xué)的開閉運(yùn)算,將每行文本連成同一連通區(qū)域,如圖2所示。
[0039]4)根據(jù)文本行的高度預(yù)設(shè)一個(gè)高度閾值,大小約為文本行高度的三倍;根據(jù)文本行的長(zhǎng)度預(yù)設(shè)一個(gè)長(zhǎng)度閾值,大小約為文本行最大長(zhǎng)度的3/4 ;
[0040]5)計(jì)算出每個(gè)連通區(qū)域的高度值和寬度值,將高度值大于高度閾值的連通區(qū)域去除,消除書面中高度較高的插圖的影響;將長(zhǎng)度值短于長(zhǎng)度閾值的連通區(qū)域去除,消除書面中長(zhǎng)度較短的文本行的影響;然后刪除面積小于一個(gè)字體面積的對(duì)象,最