矩陣行間紋理特征分析更加簡單、準(zhǔn)確,進(jìn)而提升對(duì)圖像中文字識(shí)別的精度。
[0077]本發(fā)明進(jìn)一步提供一種圖像文字識(shí)別裝置。
[0078]參照?qǐng)D4,圖4為本發(fā)明圖像文字識(shí)別裝置第一實(shí)施例的功能模塊示意圖。
[0079]在第一實(shí)施例中,該圖像文字識(shí)別裝置包括:
[0080]二值化模塊01,用于將圖像進(jìn)行二值化處理,獲取圖像對(duì)應(yīng)的矩陣;
[0081]將待識(shí)別的圖像進(jìn)行二值化處理,獲取其對(duì)應(yīng)的一維的矩陣,以便后續(xù)對(duì)圖像進(jìn)行分析時(shí)直接對(duì)其矩陣進(jìn)行分析。
[0082]分析模塊02,用于分析圖像的矩陣行間紋理特征,獲取圖像的文字矩陣參數(shù);
[0083]利用待識(shí)別的圖像的矩陣行間紋理特征來進(jìn)行分析,估算出圖像中文字的特征參數(shù),如可體現(xiàn)圖像中文字特性的行寬、列寬、文字大小等文字矩陣參數(shù),這樣,即可根據(jù)不同圖像的矩陣獲取其中相應(yīng)的文字矩陣參數(shù),能根據(jù)不同圖像中文字的不同特性自適應(yīng)的獲取其對(duì)應(yīng)的文字矩陣參數(shù)。本實(shí)施例中,待識(shí)別的圖像可以是jpg、bmp、png等圖像格式,在此不作限定。
[0084]切分模塊03,用于基于所述文字矩陣參數(shù)對(duì)圖像進(jìn)行切分,獲取圖像的文字子塊;
[0085]獲取到圖像的文字矩陣參數(shù)后,根據(jù)該文字矩陣參數(shù)對(duì)圖像進(jìn)行切分,將圖像切分為若干文字子塊,由于是根據(jù)能體現(xiàn)圖像中文字特性的文字矩陣參數(shù)來對(duì)圖像進(jìn)行切分,使得切分后的文字子塊能最大程度的包含文字的有效信息,提高了切分圖像的準(zhǔn)確性及合理性,且有利于提升后續(xù)對(duì)文字子塊識(shí)別的精度。
[0086]識(shí)別模塊04,用于對(duì)所述文字子塊進(jìn)行圖像分割以獲取所述文字子塊中的文字信息,并對(duì)所述文字信息進(jìn)行識(shí)別。
[0087]由于二值化處理后的圖像中只包括文字與背景這兩種像素,基于預(yù)設(shè)的聚類算法對(duì)切分后的文字子塊進(jìn)行圖像分割處理,僅保留切分后的文字子塊中的文字信息也即文字像素,去除背景像素給識(shí)別帶來的干擾,根據(jù)所述文字信息在預(yù)置的系統(tǒng)文字庫中進(jìn)行比對(duì),其中,所述系統(tǒng)文字庫中預(yù)先存儲(chǔ)有常用文字信息,根據(jù)比對(duì)圖像分割后的文字子塊中的文字信息與所述系統(tǒng)文字庫中預(yù)先存儲(chǔ)的常用文字信息的相似度來對(duì)文字子塊中的文字進(jìn)行識(shí)別,也即對(duì)圖像中的文字進(jìn)行識(shí)別。
[0088]本實(shí)施例通過對(duì)待識(shí)別圖像的矩陣行間紋理特征進(jìn)行分析,估算出圖像中文字的相關(guān)矩陣參數(shù),再基于文字的相關(guān)矩陣參數(shù)對(duì)圖像切分獲取文字子塊,并對(duì)文字子塊進(jìn)行識(shí)別,由于是通過估算出的文字的相關(guān)矩陣參數(shù)來進(jìn)行切分、識(shí)別,能根據(jù)圖像中文字的特性進(jìn)行自適應(yīng)調(diào)節(jié),提高了切分獲取文字子塊的準(zhǔn)確性,且極大地提升了對(duì)圖像中文字識(shí)別的精度。
[0089]具體地,如圖5所示,上述分析模塊02可以包括:
[0090]數(shù)組獲取單元021,用于將圖像的矩陣坐標(biāo)中的字體用第一像素值表示,背景用第二像素值表示,統(tǒng)計(jì)圖像的矩陣坐標(biāo)中每行第二像素值的個(gè)數(shù),獲取一數(shù)組;
[0091]將待識(shí)別的圖像進(jìn)行二值化處理后,將圖像的矩陣坐標(biāo)中的字體用第一像素值表示,背景用第二像素值表示,如可設(shè)定第一像素值為0,第二像素值為255。統(tǒng)計(jì)圖像的矩陣坐標(biāo)中每行第二像素值即255的個(gè)數(shù),形成一數(shù)組Numwhite,記為:Numwhite = [nunvnum;;......numj,其中η為圖像矩陣的行數(shù),Iium1代表第i行第二像素值即255值的個(gè)數(shù)。需要說明的是,由于目前大多數(shù)圖像中都是以文字為黑色,背景為白色,因此,本實(shí)施例中,以第一像素值為黑色像素值、第二像素值為白色像素值為例進(jìn)行說明,當(dāng)然,也不限定第一像素值、第二像素值為其他不同顏色像素值的情況。又由于圖像中背景如字里行間的顏色相對(duì)單一,幾乎均為白色,而字體所在的連續(xù)行雖然黑色像素值集中,但同樣存在大量白色像素值,即字體的黑色像素并沒有將整個(gè)字體行填滿,因此,在本實(shí)施例中,優(yōu)選統(tǒng)計(jì)圖像的矩陣坐標(biāo)中每行白色像素值,即將每行的白色像素值作為基準(zhǔn)值,這樣,對(duì)區(qū)分圖像矩陣坐標(biāo)中的字體打和空白打更加準(zhǔn)確有效。
[0092]行寬參數(shù)獲取單元022,用于獲取所述數(shù)組中數(shù)值大于預(yù)設(shè)基準(zhǔn)值的行的行號(hào),將所述數(shù)組中數(shù)值大于預(yù)設(shè)基準(zhǔn)值的行中符合預(yù)設(shè)條件的行組合之間的行號(hào)距離作為一個(gè)行寬參數(shù),統(tǒng)計(jì)所述數(shù)組中的若干行寬參數(shù),對(duì)若干行寬參數(shù)取平均值,獲取所述數(shù)組的行寬參數(shù);
[0093]理論上,數(shù)組Numwhlte中Imm1的最大值應(yīng)該為圖像矩陣的列數(shù)m,即表明圖像矩陣中有若干列為空白。但在實(shí)際應(yīng)用中,由于前期對(duì)圖像的預(yù)處理工作可能存在誤差,使得不一定每個(gè)空白行中所有值都為白色像素值即255。因此,為了增加統(tǒng)計(jì)的魯棒性,設(shè)定預(yù)設(shè)基準(zhǔn)值P為列數(shù)m的85%,即設(shè)定預(yù)設(shè)基準(zhǔn)值P = m*85%,只要圖像矩陣中某一行白色像素值即255值的個(gè)數(shù)Iium1大于預(yù)設(shè)基準(zhǔn)值P,則判斷該行是空白行,這樣,能提升統(tǒng)計(jì)結(jié)果的準(zhǔn)確性,減小實(shí)際應(yīng)用中誤差帶來的干擾。
[0094]獲取所述數(shù)組中數(shù)值大于預(yù)設(shè)基準(zhǔn)值P的行Iium1的行號(hào)i,并將所述數(shù)組中數(shù)值大于預(yù)設(shè)基準(zhǔn)值P的行中符合預(yù)設(shè)條件的行組合之間的行號(hào)距離作為一個(gè)行寬參數(shù),如可將所述數(shù)組中數(shù)值連續(xù)大于預(yù)設(shè)基準(zhǔn)值P的行作為一連續(xù)行組合,將連續(xù)行組合之間的行號(hào)距離作為一個(gè)行寬參數(shù),在本實(shí)施例中,優(yōu)選為將所述數(shù)組中至少連續(xù)兩次大于預(yù)設(shè)基準(zhǔn)值的行組合與下一至少連續(xù)兩次大于預(yù)設(shè)基準(zhǔn)值的行組合之間的行號(hào)距離作為一個(gè)行寬參數(shù),這樣,能準(zhǔn)確的計(jì)算出空白行組合之間每一字體行的行寬,統(tǒng)計(jì)所述數(shù)組中的若干行寬參數(shù),由于各個(gè)行寬參數(shù)之間可能存在差異,因此需對(duì)若干行寬參數(shù)求平均值并取整,作為所述數(shù)組的最終的行寬參數(shù)。
[0095]字體大小參數(shù)獲取單元023,根據(jù)所述數(shù)組的行寬參數(shù)獲取所述數(shù)組的列寬參數(shù),并根據(jù)所述行寬參數(shù)和列寬參數(shù)獲取所述數(shù)組的字體大小參數(shù)。
[0096]由于圖像中文字一般占用的是正方形方格,因此,直接將獲取的所述數(shù)組的行寬參數(shù)作為所述數(shù)組的列寬參數(shù),再根據(jù)所述行寬參數(shù)和列寬參數(shù)即可獲取所述數(shù)組的字體大小參數(shù),這樣,最終獲取的字體大小參數(shù)能準(zhǔn)確的體現(xiàn)不同圖像中的文字大小特性;當(dāng)然,本發(fā)明并不排除行寬和列寬不等的情況,當(dāng)文字行寬和列寬不相等時(shí),可以采用與獲取數(shù)組的行寬參數(shù)相同的方法來獲取數(shù)組的列寬參數(shù)。需要說明的是,雖然圖像文字中出現(xiàn)的標(biāo)點(diǎn)符號(hào)在一定程度上會(huì)影響到獲取的字體大小參數(shù),但由于后續(xù)圖像分割算法對(duì)于因標(biāo)點(diǎn)影響的文字子塊分割不全問題有模糊識(shí)別能力,再加上一般情況下文字中每行的標(biāo)點(diǎn)一般不會(huì)超過10%,因此,本實(shí)施例中標(biāo)點(diǎn)符號(hào)對(duì)圖像文字識(shí)別的影響不大。
[0097]進(jìn)一步地,上述識(shí)別模塊04中預(yù)設(shè)的聚類算法可以是K均值聚類算法,上述識(shí)別模塊04基于K均值聚類算法對(duì)切分后的文字子塊進(jìn)行圖像分割處理的步驟可以包括:
[0098]首先,任意選取一個(gè)切分后的文字子塊進(jìn)行圖像分割,對(duì)該文字子塊所對(duì)應(yīng)原圖像中的矩陣進(jìn)行處理,變成一個(gè)一維向量VR,并在VR向量中隨意選取兩個(gè)點(diǎn)A和B,作為聚類的初始聚類中心;
[0099]計(jì)算VR向量中任意一個(gè)點(diǎn)與這兩個(gè)初始聚類中心A和B的距離;將VR中的點(diǎn)根據(jù)其距離兩個(gè)初始聚類中心的距離分為兩類,即距離A點(diǎn)較近的屬于A類,距離B點(diǎn)較近的屬于B類;
[0100]移動(dòng)聚類中心到各自的點(diǎn)群中心,即A類選取其中心點(diǎn)作為新的聚類中心,B類選取其中心點(diǎn)作為新的聚類中心;
[0101]重復(fù)將VR中的點(diǎn)根據(jù)其距離兩個(gè)初始聚類中心的距離分為兩類的步驟,更新聚類中心重新計(jì)算VR中的點(diǎn)與兩個(gè)聚類中心的距離,并再次將VR中的點(diǎn)劃分成新的兩組,然后,再計(jì)算新的分組的聚類中心;
[0102]依次循環(huán),直至聚類中心固定在某兩個(gè)點(diǎn),停止以上循環(huán)計(jì)算,最終將VR中的點(diǎn)劃分成兩類,即最終將切分后的文字子塊中文字與背景這兩種像素進(jìn)行分割,獲取切分后的文字子塊中的文字信息也即文字像素。
[0103]參照?qǐng)D6,圖6為本發(fā)明圖像文字識(shí)別裝置第二實(shí)施例的功能模塊示意圖。
[0104]在第二實(shí)施例中,該圖像文字識(shí)別裝置還包括:
[0105]配準(zhǔn)模塊05,用于利用矩陣實(shí)驗(yàn)室中的圖像配準(zhǔn)函數(shù)在圖像及預(yù)設(shè)的基準(zhǔn)圖像中選定若干對(duì)匹配點(diǎn),