一種基于筆劃特征的自然場景文本檢測算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及基于圖像內(nèi)容的檢索領(lǐng)域,特別是涉及一種基于筆劃特征的自然場景 文本檢測算法。
【背景技術(shù)】
[0002] 傳統(tǒng)的OCR技術(shù)經(jīng)過多年的研宄進(jìn)展,可以高質(zhì)量、準(zhǔn)確地識別印刷文檔,已達(dá)到 實(shí)用要求,很多公司推出了這方面的商業(yè)軟件。然而傳統(tǒng)的OCR技術(shù)只能識別分辨率高,背 景簡單,布局不太復(fù)雜的掃描圖像。而在現(xiàn)實(shí)環(huán)境中則是存在大量的文本圖像很難符合這 樣的要求,比如車牌,路標(biāo),廣告牌、視頻圖像等自然場景中的文本。這些場景中的文本信息 很豐富,例如新聞視頻文本中的字幕,包含了事件發(fā)生的時間、地點(diǎn)和人物等關(guān)鍵信息。準(zhǔn) 確地識別出這些文本,對于信息檢索,網(wǎng)頁檢索,身份識別和電子導(dǎo)游設(shè)備有重要的意義, 但是由于自然場景中字符大小,字體顏色變化大,背景復(fù)雜,畸形等特點(diǎn)使得文本識別遠(yuǎn)遠(yuǎn) 沒有達(dá)到人們的期望,如果通過計算機(jī)自動地獲取,是一件極具挑戰(zhàn)和實(shí)際意義的工作。
[0003] 自然場景文本檢測是是圖像內(nèi)容的信息提取技術(shù)的關(guān)鍵一環(huán),文本檢測和定位的 好壞對最終的識別結(jié)果有著極其重要的影響,國內(nèi)外廣大研宄人員做了大量的研宄工作, 提出了很多的文本檢測方法。但由于自然場景復(fù)雜性特點(diǎn),試圖設(shè)計一套通用的自然場景 文本檢測系統(tǒng)仍然是十分困難的。如何從復(fù)雜的自然場景中快速準(zhǔn)確地定位出文本區(qū)域 及如何盡可能降低遺漏率,這就是目前自然場景文本檢測在圖像領(lǐng)域的一個研宄熱點(diǎn)和難 點(diǎn)。
[0004] 目前的自然場景文本檢測技術(shù)主要分為兩類,基于區(qū)域的和基于紋理的?;趨^(qū) 域的方法主要自下而上的聚合和自上而下的剪枝兩部分組成,自下而上的聚合采用過程完 成初始候選文本字符的確定,文本行的生成等,自上而下的剪枝則是在字符水平和文本行 水平對非文本字符和非文本區(qū)域進(jìn)行過濾。而基于紋理的方法則是把文本區(qū)域視為一種特 殊的紋理,采用滑動窗的方法,通過采用Gabor濾波,直方圖統(tǒng)計等方法,觀察響應(yīng),從而確 定滑動窗所在的區(qū)域是否是文本區(qū)域,后期通過分裂和合并算法得到最終的文本區(qū)域。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于筆劃特征的自然場景文本 檢測算法,能夠從任意的自然場景圖像中檢測出文本區(qū)域的位置,克服了傳統(tǒng)文本檢測算 法對自然場景圖像中文字的字體、大小、顏色等特征敏感的不足,并且提高了算法的計算速 度,在保證準(zhǔn)確度的同時,相比于基于紋理的檢測方法,大大降低了計算量,為在便攜式智 能設(shè)備上應(yīng)用提供了條件。
[0006] 本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種基于筆劃特征的自然場景文本 檢測算法,它包括以下多個步驟:
[0007] S1:圖像預(yù)處理
[0008] 進(jìn)入輸入圖像處理,獲取自然場景圖像,通過圖像預(yù)處理模塊對自然場景圖像進(jìn) 行預(yù)處理,提取和突出圖像的邊緣特征。
[0009] S2 :筆劃寬度特征提取
[0010] 通過筆劃寬度特征提取模塊提出筆畫寬度特征,利用步驟S1中的邊緣檢測結(jié)果 和顏色一致化信息進(jìn)行筆劃特征提取,過濾掉背景區(qū)域,得到每個邊緣像素點(diǎn)的筆劃寬度 值。
[0011] S3 :候選文本字符的生成和過濾
[0012] 通過字符水平過濾模塊完成候選文本字符的生成和候選文本字符的過濾處理,采 用基于筆劃寬度和顏色的區(qū)域生長算法得到候選文本字符;字符水平過濾模塊中包括筆劃 濾波器,通過筆劃濾波器完成候選文本字符的過濾處理,采用筆劃濾波響應(yīng)和MSER區(qū)域限 制濾除由筆劃寬度像素聚合成的非文本候選文本字符。
[0013] S4 :文本行生成和文本行過濾
[0014] 通過文本行生成模塊完成文本行的生成,對所有的候選文本字符按照一定的聚對 規(guī)則進(jìn)行聚對處理,得到字符對,然后再將字符對按照一定的合并規(guī)則進(jìn)行合并處理,生成 文本行;通過文本行過濾模塊完成文本行過濾處理,在字符水平層次和文本行水平層次進(jìn) 行兩層分類,分別對字符水平和文本行水平進(jìn)行過濾,剔除非文本字符和非文本區(qū)域而得 到最終的文本區(qū)域。
[0015] 步驟S2所述筆劃寬度特征提取的具體過程為:
[0016]S201:在圖像邊緣上選擇一個起始像素點(diǎn)p,其梯度方向?yàn)閐P,從p點(diǎn)開始沿著梯 度方向作射線r直到尋找到另一個邊緣終止像素點(diǎn)q,q點(diǎn)的梯度方向?yàn)閐q,若士和dq方向 大致相反,即滿足公式:+f,則此次射線尋找有效。
[0017] 所述的射線r的計算公式為:r=p+n?dp(n>0),其中,n為射線r的步長。
[0018] S202 :否貝I」,此次射線尋找無效,重新規(guī)劃起始像素點(diǎn)p的尋找方向?yàn)?△///= + |,然后沿著射線r的方向重新開始查找,知道尋找到另一個邊緣終止像素點(diǎn) q',若此時dp'和dq'滿足公式:+ 則此次射線尋找結(jié)果有效。
[0019] S203 :否則,重新選擇新的邊緣起始像素點(diǎn),繼續(xù)S201~S202的尋找過程。
[0020]S204 :在射線查找有效的情況下,計算筆劃寬度值sw,其計算過程如下:計算起始 點(diǎn)P和終止點(diǎn)q之間的線段長度W= |fFi|,遍歷射線上p和q之間的所有點(diǎn),若該點(diǎn)沒有 被賦予筆劃寬度值,則賦予筆劃寬度值sw,若該點(diǎn)已經(jīng)被賦予過筆劃寬度值,則比較其筆劃 寬度值sw和線段長度w的大小,取其較小者作為該起始點(diǎn)p的筆劃寬度值Sw。
[0021] S205 :重復(fù)S201~S204過程,計算出所有候選文本像素的筆劃寬度值sw。
[0022] 所述的步驟S2還包括筆劃寬度修正子步驟:
[0023]S206:筆劃寬度值的修正
[0024] 在筆劃寬度值不能準(zhǔn)確地表征其筆劃屬性時,應(yīng)對其進(jìn)行修正,包括以下一種或 多種情況;
[0025]①拐角處筆劃像素修正:重新遍歷所有有效的射線,計算其像素筆劃寬度中值,重 新設(shè)置該射線上筆劃寬度超過中值的為筆劃寬度中值;
[0026] ②孤立筆劃點(diǎn)的消除:統(tǒng)計筆劃點(diǎn)周圍5X5范圍內(nèi)計算有效筆劃點(diǎn)的個數(shù),消除 孤立筆劃點(diǎn);
[0027] ③局部極大筆劃點(diǎn)抑制:對筆劃點(diǎn)周圍超出平均值3倍的極大筆劃點(diǎn)進(jìn)行抑制, 消除字符間的干擾筆劃線。
[0028] 步驟S3中所述的區(qū)域生長算法為:
[0029]用4維向量{sw,I,,Ig,IJ表征筆劃寬度特征圖上的像素點(diǎn),其中,sw表示該像素 點(diǎn)的歸一化的筆劃寬度值,L、Ig、Ib分別表征該像素點(diǎn)的歸一化的R、G、B通道的顏色值,利 用區(qū)域生長算法得到候選文本區(qū)域,其相似性計算公式為:
[0030]
【主權(quán)項(xiàng)】
1. 一種基于筆劃特征的自然場景文本檢測算法,其特征在于,它包括以下多個步驟: S1,圖像預(yù)處理:進(jìn)入輸入圖像處理,獲取自然場景圖像,通過圖像預(yù)處理模塊對自然 場景圖像進(jìn)行預(yù)處理,提取和突出圖像的邊緣特征; 52, 筆劃寬度特征提取