亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種水下視頻圖像的文字識別方法

文檔序號:6636199閱讀:260來源:國知局
一種水下視頻圖像的文字識別方法
【專利摘要】本發(fā)明公開了一種水下視頻圖像的文字識別方法,包括:根據(jù)形態(tài)學(xué)圖像處理原理對視頻圖像進行預(yù)處理,增強對比度,濾除噪聲;根據(jù)預(yù)處理結(jié)果對視頻文字進行區(qū)域分割,采用基于邊緣檢測與連通元相結(jié)合的方法進行文本區(qū)域定位;根據(jù)視頻文字區(qū)域分割的結(jié)果,采用全局閾值法與局部閾值法相結(jié)合的二值化方法對文字進行字符分割,并將分割出的字符進行歸一化,使分割后的字符與模板庫中的字符大小一致;根據(jù)視頻文字的特點進行模板庫設(shè)計,將分割出的字符與模板庫中的字符進行匹配,實現(xiàn)字符識別并保存到文本中。
【專利說明】一種水下視頻圖像的文字識別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文字識別方法,特別涉及一種水下視頻圖像的文字識別方法,屬于圖 像處理【技術(shù)領(lǐng)域】。

【背景技術(shù)】
[0002] 近年來,由于圖像處理、模式識別、人工智能等計算機技術(shù)取得了飛速的發(fā) 展,使得基于圖像處理的文字識別領(lǐng)域得到廣泛應(yīng)用,隨著OCR(OpticalCharacter Recognition,光學(xué)字符識別)技術(shù)研究的深入,文字識別領(lǐng)域引入一種基于復(fù)雜背景下的 視頻圖像文字信息提取方法。其基本思想是通過對圖像的形態(tài)學(xué)預(yù)處理、文字區(qū)域的定位 與提取實現(xiàn)字符的識別。大量的學(xué)者在文字識別的預(yù)處理、文字區(qū)域定位、字符分割、字符 識別等領(lǐng)域展開深入的研究,研究結(jié)果表明文字識別結(jié)合邊緣檢測、連通元定位及全局閥 值二值化等技術(shù),在字符區(qū)域定位、特征提取、字符分割、字符識別等領(lǐng)域表現(xiàn)出明顯的優(yōu) 勢。
[0003] 以往常規(guī)的字符識別算法,適合于背景簡單,字符與背景之間的對比度和分辨率 都很明顯,字體清晰的文本。實際情況中,水下拍攝的視頻有復(fù)雜的背景,復(fù)雜的背景文理 以及模糊的對比度都對字符的識別帶來很大的干擾,對于有復(fù)雜背景下的文本往往識別的 效率很低。
[0004] 要想對復(fù)雜背景下視頻圖像中的文本進行識別,首先需要定位出有文本的區(qū) 域,再對其中的字符進行識別?,F(xiàn)有的文字定位方法分有以下幾類:基于連通元的方法 (ConnectedComponent-basedMethods)、基于邊緣的方法(Edge-basedMethods)和基于 紋理的方法(Texture-basedMethods)?;谶B通元的方法從像素級開始,通過將小的成分 合并成較大的成分,直至圖像中所有的區(qū)域都被確認(rèn)。該方法能夠準(zhǔn)確定位文本區(qū)域的邊 界,實現(xiàn)相對簡單?;谶B通元的方法很容易將一個字符分割成多個連通元,對文本和背景 粘連的情況往往無能為力;基于邊緣的方法主要是利用圖像中文本與背景之間總是呈現(xiàn)出 較強的對比度這一特性。該類方法的基本處理步驟是:利用某種邊緣檢測算子(如Canny、 SobeURobert算子)檢測出圖像中的邊緣信息,然后將文本邊界處的邊緣合并(常常會 用一個平滑操作或一個形態(tài)學(xué)算子),最后用試探法來濾除非文本區(qū)域;基于紋理的方法 將文本看作是一種特殊紋理,這種方法能比較有效地克服復(fù)雜背景的問題,一般使用快速 傅里葉變換、離散余弦(DiscreteCosineTransform,DCT)變換、小波(Wavelet)分解和 Gabor濾波等方法來提取特征,也有方法直接根據(jù)像素之間的空間位置關(guān)系來對紋理特征 做描述。
[0005] 二值化算法主要分為兩種類型,全局閾值法和局部閾值法。全局閾值法是最為簡 單的處理方法,它采用單一的閾值對圖像中所有像素點進行判定。這些算法大多是基于直 方圖進行分析的。最為著名的全局閾值法是Otsu(大律法)算法,它的核心是找到一個合 適的門限,使兩類之間的距離最大。全局閾值法僅僅在圖像比較簡單,前景和背景灰度差距 比較遠(yuǎn)的時候有比較好的效果;局部閾值法對每個像素點都動態(tài)得計算閾值。這樣的閾值 都是根據(jù)像素點的鄰域信息計算得出,因此具有很高的準(zhǔn)確性,二值化的效果也更好。
[0006] 文字定位和圖像二值化是字符識別中最重要的兩部分,文字定位的作用是把圖像 中文字與非文字部分區(qū)分開來。二值化的作用是對文字區(qū)域中的文字進行處理,讓它自身 的特點增強并與背景分離開來。
[0007] 對此,廣大研究者在文本信息提取方面做了大量的工作,取得諸多重要研究成果, 然而現(xiàn)有文本信息提取系統(tǒng)與實用化的要求尚有不小的距離,比如:
[0008] 1、視頻圖像存在陰影或紋理、對比度不強、背景復(fù)雜等情況,文本信息的提取效果 還不理想;
[0009] 2、對字體風(fēng)格、字號大小、顏色、空間排列變化等情況的適應(yīng)性還不強;
[0010] 3、單一的采用全局二值法和局部二值法對背景復(fù)雜的視頻文字處理無法準(zhǔn)確的 將文字本身與背景分離出來。


【發(fā)明內(nèi)容】

[0011] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提供一種水下視頻圖像的文字識別方 法,解決現(xiàn)有技術(shù)中復(fù)雜背景下水下視頻圖像文字識別效果差,識別率低的技術(shù)問題。
[0012] 為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是:一種水下視頻圖像的文字識 別方法,包括如下步驟:
[0013] 步驟一:預(yù)處理:根據(jù)形態(tài)學(xué)圖像處理原理對視頻圖像進行預(yù)處理,增強對比度, 濾除噪聲;
[0014] 步驟二:區(qū)域分割:根據(jù)預(yù)處理結(jié)果對視頻文字進行區(qū)域分割,采用基于邊緣檢 測與連通元相結(jié)合的方法進行文本區(qū)域定位;
[0015] 步驟三:字符分割:根據(jù)視頻文字區(qū)域分割的結(jié)果,采用全局閾值法與局部閾值 法相結(jié)合的二值化方法對文字進行字符分割,并將分割出的字符進行歸一化,使分割后的 字符與模板庫中的字符大小一致;
[0016] 步驟四:字符識別:根據(jù)視頻文字的特點進行模板庫設(shè)計,將分割出的字符與模 板庫中的字符進行匹配,實現(xiàn)字符識別并保存到文本中。
[0017] 步驟一所述預(yù)處理包括:灰度處理、邊緣檢測、圖像腐蝕和圖像平滑。
[0018] 所述灰度處理是采用公式Y(jié)(x,y) = (30R+59G+11B)/100將原始圖像轉(zhuǎn)換為灰度 圖像。
[0019] 所述邊緣檢測是采用Robert算子識別強度圖像中的邊界。
[0020] 步驟二所述區(qū)域分割包括如下步驟:
[0021] 步驟201 :對待處理圖像進行水平方向的像素統(tǒng)計,根據(jù)水平方向的像素點確定 文本區(qū)域的高度:如果文本區(qū)域的高度符合規(guī)則文本的區(qū)域高度,則去掉水平邊緣像素點; 否則,進行水平區(qū)域合并,并進入下一步;
[0022] 步驟202 :統(tǒng)計垂直方向的像素點,根據(jù)垂直方向的像素點確定文本區(qū)域的寬度: 如果文本區(qū)域的寬度符合規(guī)則文本的區(qū)域?qū)挾龋瑒t去掉垂直邊緣像素點;否則,提取出文本 區(qū)域。
[0023] 步驟三所述字符分割包括如下步驟:
[0024] 步驟301 :將區(qū)域分割圖像轉(zhuǎn)換為灰度圖像;
[0025] 步驟302 :將灰度圖像采用全局閾值法與局部閾值法相結(jié)合的二值化方法轉(zhuǎn)換成 二值圖像,并取反,將全部文字信息變?yōu)榘咨尘吧優(yōu)楹谏?br> [0026] 步驟303 :進行均值濾波,去除像素聚集小于閾值的像素點并保存;
[0027] 步驟304 :對二值圖像進行垂直方向上的投影,統(tǒng)計每一列上白色像素點的個數(shù), 白色像素點代表字符筆畫區(qū)域,投影穿過字符筆畫數(shù)較小的列被認(rèn)為是兩個字符的分割 線.
[0028] 步驟305 :將分割后的字符進行歸一化處理。
[0029] 步驟四所述字符識別包括如下步驟:
[0030] 步驟401 :加載模板庫:對多幅水下視頻圖像文字進行提取分割字符,通過對比、 去噪、修正生成模板庫;
[0031] 步驟402 :提取分割出的字符;
[0032] 步驟403 :將字符庫中分割出的字符與模板庫中的字符進行相似度比較;
[0033] 步驟404 :找到最大相似度的索引,輸出相應(yīng)字符并保存;
[0034] 步驟405 :循環(huán)步驟402?404,直至所有字符被全部比較輸出,將得到的結(jié)果保存 至IjTXT文檔中。
[0035] 步驟四所述模板庫設(shè)計是:根據(jù)各區(qū)域形狀固有的特點,突出各個類似區(qū)域之間 的差別,并考慮由處理過程引起的噪聲、位移因素,按照基于圖像不便特性所設(shè)計的特征量 來構(gòu)建模板庫。
[0036] 步驟三中所述局部閾值法中閾值的選擇方法如下:
[0037] (2)取初始閾值gQ
[0038]

【權(quán)利要求】
1. 一種水下視頻圖像的文字識別方法,其特征在于,包括如下步驟: 步驟一:預(yù)處理:根據(jù)形態(tài)學(xué)圖像處理原理對視頻圖像進行預(yù)處理,增強對比度,濾除 噪聲; 步驟二:區(qū)域分割:根據(jù)預(yù)處理結(jié)果對視頻文字進行區(qū)域分割,采用基于邊緣檢測與 連通元相結(jié)合的方法進行文本區(qū)域定位; 步驟三:字符分割:根據(jù)視頻文字區(qū)域分割的結(jié)果,采用全局閾值法與局部閾值法相 結(jié)合的二值化方法對文字進行字符分割,并將分割出的字符進行歸一化,使分割后的字符 與模板庫中的字符大小一致; 步驟四:字符識別:根據(jù)視頻文字的特點進行模板庫設(shè)計,將分割出的字符與模板庫 中的字符進行匹配,實現(xiàn)字符識別并保存到文本中。
2. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法,其特征在于,步驟一所述預(yù) 處理包括:灰度處理、邊緣檢測、圖像腐蝕和圖像平滑。
3. 根據(jù)權(quán)利要求2所述的水下視頻圖像的文字識別方法,其特征在于,所述灰度處理 是采用公式Y(jié)(x,y) = (30R+59G+11B)/100將原始圖像轉(zhuǎn)換為灰度圖像。
4. 根據(jù)權(quán)利要求2所述的水下視頻圖像的文字識別方法,其特征在于,所述邊緣檢測 是采用Robert算子識別強度圖像中的邊界。
5. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法,其特征在于,步驟二所述區(qū) 域分割包括如下步驟: 步驟201 :對待處理圖像進行水平方向的像素統(tǒng)計,根據(jù)水平方向的像素點確定文本 區(qū)域的高度:如果文本區(qū)域的高度符合規(guī)則文本的區(qū)域高度,則去掉水平邊緣像素點;否 貝U,進行水平區(qū)域合并,并進入下一步; 步驟202 :統(tǒng)計垂直方向的像素點,根據(jù)垂直方向的像素點確定文本區(qū)域的寬度:如果 文本區(qū)域的寬度符合規(guī)則文本的區(qū)域?qū)挾?,則去掉垂直邊緣像素點;否則,提取出文本區(qū) 域。
6. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法,其特征在于,步驟三所述字 符分割包括如下步驟: 步驟301 :將區(qū)域分割圖像轉(zhuǎn)換為灰度圖像; 步驟302 :將灰度圖像采用全局閾值法與局部閾值法相結(jié)合的二值化方法轉(zhuǎn)換成二值 圖像,并取反,將全部文字信息變?yōu)榘咨尘吧優(yōu)楹谏? 步驟303 :進行均值濾波,去除像素聚集小于閾值的像素點并保存; 步驟304 :對二值圖像進行垂直方向上的投影,統(tǒng)計每一列上白色像素點的個數(shù),白色 像素點代表字符筆畫區(qū)域,投影穿過字符筆畫數(shù)較小的列被認(rèn)為是兩個字符的分割線; 步驟305 :將分割后的字符進行歸一化處理。
7. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法,其特征在于,步驟四所述字 符識別包括如下步驟: 步驟401 :加載模板庫:對多幅水下視頻圖像文字進行提取分割字符,通過對比、去噪、 修正生成模板庫; 步驟402 :提取分割出的字符; 步驟403 :將字符庫中分割出的字符與模板庫中的字符進行相似度比較; 步驟404 :找到最大相似度的索引,輸出相應(yīng)字符并保存; 步驟405 :循環(huán)步驟402?404,直至所有字符被全部比較輸出,將得到的結(jié)果保存到 TXT文檔中。
8. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法,其特征在于,步驟四所述模 板庫設(shè)計是:根據(jù)各區(qū)域形狀固有的特點,突出各個類似區(qū)域之間的差別,并考慮由處理過 程引起的噪聲、位移因素,按照基于圖像不便特性所設(shè)計的特征量來構(gòu)建模板庫。
9. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法,其特征在于,步驟三中所述 局部閾值法中閾值的選擇方法如下: (1) 取初始閾值g。
其中是文本圖像最大灰度值Smin是文本圖像最小灰度值; (2) 根據(jù)g(1值,將圖像像素分成大于g(1部分和小于g(1部分; (3) 分別求步驟(2)中兩部分的期望值,取它們期望的平均值gl ; ⑷反復(fù)迭代,當(dāng)I gn-glri I的值足夠小時,則取T = gn得到的T為閾值。
10. 根據(jù)權(quán)利要求1所述的水下視頻圖像的文字識別方法,其特征在于,步驟三所述字 符分割前還需要對字符粘連情況進行先驗校正:采用垂直投影法尋找粘連文字塊,如果文 字塊長度大于既定閾值就認(rèn)為是兩個字符組成,需要進行分割;否則,不需要分割。
【文檔編號】G06K9/36GK104361336SQ201410699528
【公開日】2015年2月18日 申請日期:2014年11月26日 優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】鹿浩, 馬林沖, 鮑星星, 汪飛, 胡居榮, 曹寧 申請人:河海大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1