自然場景多方向文本檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及模式識別、圖像處理、人工智能相關(guān)技術(shù),屬于計算機視覺領(lǐng)域。
【背景技術(shù)】
[0002] 自然場景中文本檢測因受到語種、尺度、字體、光照、對比度、視角、方向、背景、殘 缺、模糊、斷裂等諸多因素的干擾,檢測精度無法達到較高水平。時至今日自然場景中的文 本檢測仍然沒有得到很好的解決,當前的研究主要針對水平方向英文文本的檢測,多方向 混合語種的檢測技術(shù)相對滯后,很多檢測方法將字符為水平方向作為先驗知識,因此在多 方向上的文本檢測效果不理想(如[1],[2],[5]),同樣一些檢測方法將語種限制在英文字 符上,訓練的參數(shù)化分類器僅記憶了英文字符的特征,因此在多語言庫上的檢測結(jié)果率較 低(如[3],[5],[6])。當前的檢測方法主要分為基于窗口和基于連通域兩大類。
[0003] 基于窗口的方法提取滑動窗口的紋理、變換域、邊界梯度等特征設計分類器進行 文字窗口和非文字窗口的識別(如[8]),也有學者直接將窗口圖像作為輸入設計深度神經(jīng) 網(wǎng)絡進行識別。這類方法能夠抓住文字圖像高層特征,但計算代價過大,特征的設計非常困 難。
[0004] 基于連通域的方法依據(jù)圖像邊界、灰度、顏色等信息獲得圖像中的區(qū)域,然后提取 區(qū)域的筆畫寬度、長寬比、占位比、灰度、顏色、邊界等特征設計分類器進行字符區(qū)域與非字 符區(qū)域的識別(如[1],[3]),同樣很多學者也將整個區(qū)域作為卷積神經(jīng)網(wǎng)絡的輸入進行訓 練與識別。該類方法雖然計算速度得到很大提升,但存在誤連接、干擾大、虛警高、不具魯棒 性等缺點。
[0005] 檢測后期需要完成字符區(qū)域的連接與文本行生成,字符的連接方法主要分為兩大 類,一類是基于啟發(fā)規(guī)則的生長方法(如[2]),另一類是基于學習的聚合方法(如[1])?;?于啟發(fā)規(guī)則的生長方法通過人為設定生長的控制參數(shù)逐漸融合最終生成文本行。而基于學 習的方法通過對訓練數(shù)據(jù)集的學習確定字符聚合的控制參數(shù)?;谝?guī)則的方法對組合型文 字或區(qū)域斷裂較為敏感,而基于學習的方法則對訓練集依賴性強,訓練集外表現(xiàn)較差。
[0006] 參考文獻
[0007] [1]X. C. Yin, X. W. Yin, K. Z. Huang and H. W. Hao.自然場景魯棒性文本檢測[J] · onIEEE Trans. ΡΑΜΙ, 2013. ρρ. 970 - 983.
[0008] [2]Weilin Huang,Zhe Lin,Jianchao Yang.基于筆幽寬度與文本協(xié)方差描 述的自然場景文本定位[J] · Computer Vision (ICCV),on 2013 IEEE International Conference pp.1241-1248.
[0009] [3] Lei Sun,Qiang Huo, Wei Jia,Kai Chen.基于彩色對比度提升與神經(jīng)網(wǎng)絡的自 然場景文本檢測[J]· Pattern Recognition(ICPR),2014 22nd International Conference on IEEE,2014, pp. 2715 - 2720.
[0010] [4]Le Kang,Yi Li, Doermann D.自然場景多方向文本行檢測[J] · Computer Vision and Pattern Recognition, 2014 IEEE Conference on pp.4034 - 4041.
[0011] [5]Epshtein B.,Ofek E. , WexlerY. Detecting text in natural scenes with stroke width transform[J]. Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on,pp.2963-2970.
[0012] [6] Cong Yao, Xiang Bai, Wenyu Liu, Yi Ma, Zhuowen Tu.自然場景任意方向文本 檢測[J] · inCVPR' 12, 2012, ρρ· 1083 - 1090.
[0013] [7]Le Kang, Yi Li, Doermann D.自然場景魯棒性多方向文本檢測111^868[]1· Computer Vision and Pattern Recognition, 2014 IEEE Conference on pp. 4034 - 4041.
[0014] [8] Xiaoqing Liu, Samarabandu, J.基于多尺度邊界的復雜圖像文本提取 [J]. 2006IEEE International Conference on pp.1721 - 1724
【發(fā)明內(nèi)容】
[0015] 本發(fā)明目的:本發(fā)明實現(xiàn)自然場景中多方向及混合語種的文本提取。為基于圖 像文字的應用如:圖像檢索、場景文字實時翻譯、車牌檢測、教學習題檢索、快速筆記、文檔 快速數(shù)字化、產(chǎn)品相關(guān)信息獲取、商店相關(guān)信息獲取、流水線產(chǎn)品合格性檢測等提供必要條 件;首先使用提出的邊界提升最大穩(wěn)定極值區(qū)域(MSER)算法,獲得相比原始MSER算法更 少的區(qū)域。然后依據(jù)設計的含有多個分類器的字符分揀樹對區(qū)域進行層層分揀,剔除絕大 部分非字符區(qū)域。接著使用提出的多層融合的聚合算法逐層對候選字符進行融合生成文本 行,最后使用隨機森林分類器對文本行進行驗證。
[0016] 本發(fā)明的技術(shù)方案是:自然場景多方向文本檢測方法,具體步驟如下:
[0017] 步驟一、邊界提升MSER區(qū)域提取;
[0018] 在原始MSER算法得到的穩(wěn)定極值區(qū)域成分樹上遞歸的對存在父親-獨子關(guān)系且 面積變化A S不超過的第一閾值的兩個區(qū)域,依據(jù)邊界吻合度公式,對其中邊界吻合度小 的區(qū)域進行剔除;所述邊界吻合度公式為:
[0019]
[0020] 其中:N為區(qū)域邊界點個數(shù),R(Xl,yi)為區(qū)域某邊界點,E(x,y)為在原始MSER算法 上采用Canny邊緣檢測算子之后得到的Canny邊界點集,M · I I表示向量的長度運算;
[0021] 步驟二、字符分檢樹區(qū)域分揀;
[0022] 經(jīng)步驟一中邊界提升MSER區(qū)域提取后的區(qū)域集合,首先經(jīng)過決策樹分類器將區(qū) 域分為字符區(qū)域和非字符區(qū)域,非字符區(qū)域被直接剔除,字符區(qū)域依據(jù)邊界面積比被分成 兩部分,其中邊界面積比大于第二閾值的區(qū)域集合被送入第一隨機森林分類器,邊界面積 比不大于第二閾值的區(qū)域集合被送入第二隨機森林分類器,兩個隨機森林分類器識別出的 非字符區(qū)域都將被剔除,而保留下來的區(qū)域經(jīng)過剪枝分類器進行分類,最終得到分揀出的 字符區(qū)域集合;
[0023] 步驟三、字符多層融合形成文本行;
[0024] 對步驟二最終得到分揀出的字符區(qū)域集合進行多層融合,依次為膨脹融合層、自 由生長層、雙射生長層、競爭層,最終生成文本行;
[0025] 步驟四、文本行驗證。
[0026] 進一步的,步驟三中所述的膨脹融合層、自由生長層、雙射生長層、競爭層,具體融 合過程如下:
[0027] 首先,膨脹融合層針對步驟二最終得到分揀出的字符區(qū)域中的殘缺、破損和組合