一種水下視頻圖像的文字識別方法

文檔序號：6636199閱讀：260來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種水下視頻圖像的文字識別方法
【專利摘要】本發(fā)明公開了一種水下視頻圖像的文字識別方法，包括：根據(jù)形態(tài)學(xué)圖像處理原理對視頻圖像進行預(yù)處理，增強對比度，濾除噪聲；根據(jù)預(yù)處理結(jié)果對視頻文字進行區(qū)域分割，采用基于邊緣檢測與連通元相結(jié)合的方法進行文本區(qū)域定位；根據(jù)視頻文字區(qū)域分割的結(jié)果，采用全局閾值法與局部閾值法相結(jié)合的二值化方法對文字進行字符分割，并將分割出的字符進行歸一化，使分割后的字符與模板庫中的字符大小一致；根據(jù)視頻文字的特點進行模板庫設(shè)計，將分割出的字符與模板庫中的字符進行匹配，實現(xiàn)字符識別并保存到文本中。
【專利說明】一種水下視頻圖像的文字識別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文字識別方法，特別涉及一種水下視頻圖像的文字識別方法，屬于圖像處理【技術(shù)領(lǐng)域】。

【背景技術(shù)】
[0002] 近年來，由于圖像處理、模式識別、人工智能等計算機技術(shù)取得了飛速的發(fā) 展，使得基于圖像處理的文字識別領(lǐng)域得到廣泛應(yīng)用，隨著OCR(OpticalCharacter Recognition，光學(xué)字符識別）技術(shù)研究的深入，文字識別領(lǐng)域引入一種基于復(fù)雜背景下的視頻圖像文字信息提取方法。其基本思想是通過對圖像的形態(tài)學(xué)預(yù)處理、文字區(qū)域的定位與提取實現(xiàn)字符的識別。大量的學(xué)者在文字識別的預(yù)處理、文字區(qū)域定位、字符分割、字符識別等領(lǐng)域展開深入的研究，研究結(jié)果表明文字識別結(jié)合邊緣檢測、連通元定位及全局閥值二值化等技術(shù)，在字符區(qū)域定位、特征提取、字符分割、字符識別等領(lǐng)域表現(xiàn)出明顯的優(yōu) 勢。
[0003] 以往常規(guī)的字符識別算法，適合于背景簡單，字符與背景之間的對比度和分辨率都很明顯，字體清晰的文本。實際情況中，水下拍攝的視頻有復(fù)雜的背景，復(fù)雜的背景文理以及模糊的對比度都對字符的識別帶來很大的干擾，對于有復(fù)雜背景下的文本往往識別的效率很低。
[0004] 要想對復(fù)雜背景下視頻圖像中的文本進行識別，首先需要定位出有文本的區(qū) 域，再對其中的字符進行識別?，F(xiàn)有的文字定位方法分有以下幾類：基于連通元的方法 (ConnectedComponent-basedMethods)、基于邊緣的方法（Edge-basedMethods)和基于紋理的方法（Texture-basedMethods)?；谶B通元的方法從像素級開始，通過將小的成分合并成較大的成分，直至圖像中所有的區(qū)域都被確認(rèn)。該方法能夠準(zhǔn)確定位文本區(qū)域的邊界，實現(xiàn)相對簡單?；谶B通元的方法很容易將一個字符分割成多個連通元，對文本和背景粘連的情況往往無能為力；基于邊緣的方法主要是利用圖像中文本與背景之間總是呈現(xiàn)出較強的對比度這一特性。該類方法的基本處理步驟是：利用某種邊緣檢測算子（如Canny、 SobeURobert算子）檢測出圖像中的邊緣信息，然后將文本邊界處的邊緣合并（常常會用一個平滑操作或一個形態(tài)學(xué)算子），最后用試探法來濾除非文本區(qū)域；基于紋理的方法將文本看作是一種特殊紋理，這種方法能比較有效地克服復(fù)雜背景的問題，一般使用快速傅里葉變換、離散余弦（DiscreteCosineTransform,DCT)變換、小波（Wavelet)分解和 Gabor濾波等方法來提取特征，也有方法直接根據(jù)像素之間的空間位置關(guān)系來對紋理特征做描述。
[0005] 二值化算法主要分為兩種類型，全局閾值法和局部閾值法。全局閾值法是最為簡單的處理方法，它采用單一的閾值對圖像中所有像素點進行判定。這些算法大多是基于直方圖進行分析的。最為著名的全局閾值法是Otsu(大律法）算法，它的核心是找到一個合適的門限，使兩類之間的距離最大。全局閾值法僅僅在圖像比較簡單，前景和背景灰度差距比較遠(yuǎn)的時候有比較好的效果；局部閾值法對每個像素點都動態(tài)得計算閾值。這樣的閾值都是根據(jù)像素點的鄰域信息計算得出，因此具有很高的準(zhǔn)確性，二值化的效果也更好。
[0006] 文字定位和圖像二值化是字符識別中最重要的兩部分，文字定位的作用是把圖像中文字與非文字部分區(qū)分開來。二值化的作用是對文字區(qū)域中的文字進行處理，讓它自身的特點增強并與背景分離開來。
[0007] 對此，廣大研究者在文本信息提取方面做了大量的工作，取得諸多重要研究成果，然而現(xiàn)有文本信息提取系統(tǒng)與實用化的要求尚有不小的距離，比如：
[0008] 1、視頻圖像存在陰影或紋理、對比度不強、背景復(fù)雜等情況，文本信息的提取效果還不理想；
[0009] 2、對字體風(fēng)格、字號大小、顏色、空間排列變化等情況的適應(yīng)性還不強；
[0010] 3、單一的采用全局二值法和局部二值法對背景復(fù)雜的視頻文字處理無法準(zhǔn)確的將文字本身與背景分離出來。

【發(fā)明內(nèi)容】

[0011] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足，提供一種水下視頻圖像的文字識別方法，解決現(xiàn)有技術(shù)中復(fù)雜背景下水下視頻圖像文字識別效果差，識別率低的技術(shù)問題。
[0012] 為解決上述技術(shù)問題，本發(fā)明所采用的技術(shù)方案是：一種水下視頻圖像的文字識別方法，包括如下步驟：
[0013] 步驟一：預(yù)處理：根據(jù)形態(tài)學(xué)圖像處理原理對視頻圖像進行預(yù)處理，增強對比度，濾除噪聲；
[0014] 步驟二：區(qū)域分割：根據(jù)預(yù)處理結(jié)果對視頻文字進行區(qū)域分割，采用基于邊緣檢測與連通元相結(jié)合的方法進行文本區(qū)域定位；
[0015] 步驟三：字符分割：根據(jù)視頻文字區(qū)域分割的結(jié)果，采用全局閾值法與局部閾值法相結(jié)合的二值化方法對文字進行字符分割，并將分割出的字符進行歸一化，使分割后的字符與模板庫中的字符大小一致；
[0016] 步驟四：字符識別：根據(jù)視頻文字的特點進行模板庫設(shè)計，將分割出的字符與模板庫中的字符進行匹配，實現(xiàn)字符識別并保存到文本中。
[0017] 步驟一所述預(yù)處理包括：灰度處理、邊緣檢測、圖像腐蝕和圖像平滑。
[0018] 所述灰度處理是采用公式Y(jié)(x，y) = (30R+59G+11B)/100將原始圖像轉(zhuǎn)換為灰度圖像。
[0019] 所述邊緣檢測是采用Robert算子識別強度圖像中的邊界。
[0020] 步驟二所述區(qū)域分割包括如下步驟：
[0021] 步驟201 :對待處理圖像進行水平方向的像素統(tǒng)計，根據(jù)水平方向的像素點確定文本區(qū)域的高度：如果文本區(qū)域的高度符合規(guī)則文本的區(qū)域高度，則去掉水平邊緣像素點；否則，進行水平區(qū)域合并，并進入下一步；
[0022] 步驟202 :統(tǒng)計垂直方向的像素點，根據(jù)垂直方向的像素點確定文本區(qū)域的寬度：如果文本區(qū)域的寬度符合規(guī)則文本的區(qū)域?qū)挾龋瑒t去掉垂直邊緣像素點；否則，提取出文本區(qū)域。
[0023] 步驟三所述字符分割包括如下步驟：
[0024] 步驟301 :將區(qū)域分割圖像轉(zhuǎn)換為灰度圖像；
[0025] 步驟302 :將灰度圖像采用全局閾值法與局部閾值法相結(jié)合的二值化方法轉(zhuǎn)換成二值圖像，并取反，將全部文字信息變?yōu)榘咨尘吧優(yōu)楹谏?br> [0026] 步驟303 :進行均值濾波，去除像素聚集小于閾值的像素點并保存；
[0027] 步驟304 :對二值圖像進行垂直方向上的投影，統(tǒng)計每一列上白色像素點的個數(shù)，白色像素點代表字符筆畫區(qū)域，投影穿過字符筆畫數(shù)較小的列被認(rèn)為是兩個字符的分割線.
[0028] 步驟305 :將分割后的字符進行歸一化處理。
[0029] 步驟四所述字符識別包括如下步驟：
[0030] 步驟401 :加載模板庫：對多幅水下視頻圖像文字進行提取分割字符，通過對比、去噪、修正生成模板庫；
[0031] 步驟402 :提取分割出的字符；
[0032] 步驟403 :將字符庫中分割出的字符與模板庫中的字符進行相似度比較；
[0033] 步驟404 :找到最大相似度的索引，輸出相應(yīng)字符并保存；
[0034] 步驟405 :循環(huán)步驟402?404,直至所有字符被全部比較輸出，將得到的結(jié)果保存至IjTXT文檔中。
[0035] 步驟四所述模板庫設(shè)計是：根據(jù)各區(qū)域形狀固有的特點，突出各個類似區(qū)域之間的差別，并考慮由處理過程引起的噪聲、位移因素，按照基于圖像不便特性所設(shè)計的特征量來構(gòu)建模板庫。
[0036] 步驟三中所述局部閾值法中閾值的選擇方法如下：
[0037] (2)取初始閾值gQ
[0038]

【權(quán)利要求】
1. 一種水下視頻圖像的文字識別方法，其特征在于，包括如下步驟：步驟一：預(yù)處理：根據(jù)形態(tài)學(xué)圖像處理原理對視頻圖像進行預(yù)處理，增強對比度，濾除噪聲；步驟二：區(qū)域分割：根據(jù)預(yù)處理結(jié)果對視頻文字進行區(qū)域分割，采用基于邊緣檢測與連通元相結(jié)合的方法進行文本區(qū)域定位；步驟三：字符分割：根據(jù)視頻文字區(qū)域分割的結(jié)果，采用全局閾值法與局部閾值法相結(jié)合的二值化方法對文字進行字符分割，并將分割出的字符進行歸一化，使分割后的字符與模板庫中的字符大小一致；步驟四：字符識別：根據(jù)視頻文字的特點進行模板庫設(shè)計，將分割出的字符與模板庫中的字符進行匹配，實現(xiàn)字符識別并保存到文本中。
2. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法，其特征在于，步驟一所述預(yù) 處理包括：灰度處理、邊緣檢測、圖像腐蝕和圖像平滑。
3. 根據(jù)權(quán)利要求2所述的水下視頻圖像的文字識別方法，其特征在于，所述灰度處理是采用公式Y(jié)(x，y) = (30R+59G+11B)/100將原始圖像轉(zhuǎn)換為灰度圖像。
4. 根據(jù)權(quán)利要求2所述的水下視頻圖像的文字識別方法，其特征在于，所述邊緣檢測是采用Robert算子識別強度圖像中的邊界。
5. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法，其特征在于，步驟二所述區(qū) 域分割包括如下步驟：步驟201 :對待處理圖像進行水平方向的像素統(tǒng)計，根據(jù)水平方向的像素點確定文本區(qū)域的高度：如果文本區(qū)域的高度符合規(guī)則文本的區(qū)域高度，則去掉水平邊緣像素點；否貝U，進行水平區(qū)域合并，并進入下一步；步驟202 :統(tǒng)計垂直方向的像素點，根據(jù)垂直方向的像素點確定文本區(qū)域的寬度：如果文本區(qū)域的寬度符合規(guī)則文本的區(qū)域?qū)挾?，則去掉垂直邊緣像素點；否則，提取出文本區(qū) 域。
6. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法，其特征在于，步驟三所述字符分割包括如下步驟：步驟301 :將區(qū)域分割圖像轉(zhuǎn)換為灰度圖像；步驟302 :將灰度圖像采用全局閾值法與局部閾值法相結(jié)合的二值化方法轉(zhuǎn)換成二值圖像，并取反，將全部文字信息變?yōu)榘咨尘吧優(yōu)楹谏? 步驟303 :進行均值濾波，去除像素聚集小于閾值的像素點并保存；步驟304 :對二值圖像進行垂直方向上的投影，統(tǒng)計每一列上白色像素點的個數(shù)，白色像素點代表字符筆畫區(qū)域，投影穿過字符筆畫數(shù)較小的列被認(rèn)為是兩個字符的分割線；步驟305 :將分割后的字符進行歸一化處理。
7. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法，其特征在于，步驟四所述字符識別包括如下步驟：步驟401 :加載模板庫：對多幅水下視頻圖像文字進行提取分割字符，通過對比、去噪、修正生成模板庫；步驟402 :提取分割出的字符；步驟403 :將字符庫中分割出的字符與模板庫中的字符進行相似度比較；步驟404 :找到最大相似度的索引，輸出相應(yīng)字符并保存；步驟405 :循環(huán)步驟402?404,直至所有字符被全部比較輸出，將得到的結(jié)果保存到 TXT文檔中。
8. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法，其特征在于，步驟四所述模板庫設(shè)計是：根據(jù)各區(qū)域形狀固有的特點，突出各個類似區(qū)域之間的差別，并考慮由處理過程引起的噪聲、位移因素，按照基于圖像不便特性所設(shè)計的特征量來構(gòu)建模板庫。
9. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法，其特征在于，步驟三中所述局部閾值法中閾值的選擇方法如下： (1) 取初始閾值g。
其中是文本圖像最大灰度值Smin是文本圖像最小灰度值； (2) 根據(jù)g(1值，將圖像像素分成大于g(1部分和小于g(1部分； (3) 分別求步驟（2)中兩部分的期望值，取它們期望的平均值gl ; ⑷反復(fù)迭代，當(dāng)I gn-glri I的值足夠小時，則取T = gn得到的T為閾值。
10. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法，其特征在于，步驟三所述字符分割前還需要對字符粘連情況進行先驗校正：采用垂直投影法尋找粘連文字塊，如果文字塊長度大于既定閾值就認(rèn)為是兩個字符組成，需要進行分割；否則，不需要分割。
【文檔編號】G06K9/36GK104361336SQ201410699528
【公開日】2015年2月18日申請日期:2014年11月26日優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】鹿浩, 馬林沖, 鮑星星, 汪飛, 胡居榮, 曹寧申請人:河海大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鹿浩;馬林沖;鮑星星;汪飛;胡居榮;曹寧;
技術(shù)所有人：河海大學(xué);
我是此專利的發(fā)明人

上一篇：多媒體互動文檔處理方法
上一篇：一種基于航空傾斜攝影測量的三維實景建模系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種水下視頻圖像的文字識別方法