reglon)
[0036] 其中,α為權(quán)重因子,這里由于平等考慮顏色分布Bral"和區(qū)域相似性Braglcin的權(quán) 重,取α= 〇. 5。
[0037] 將區(qū)域項和邊界項組成能量函數(shù):
[0038]
[0039] 其中λ為權(quán)值因子。求得其最優(yōu)標(biāo)簽向量,其中標(biāo)簽向量中標(biāo)簽為1的區(qū)域為文 本區(qū)域,標(biāo)簽為〇的區(qū)域作為背景區(qū)域。 4、【附圖說明】
[0040] 附圖是本方法的實現(xiàn)原理和實現(xiàn)步驟說明。 5、【具體實施方式】
[0041] 首先根據(jù)文本與背景的亮度差異,提取場景圖像的MSER作為文本候選區(qū)域,然后 以候選區(qū)域為節(jié)點建立無向圖模型,根據(jù)區(qū)域的文本特征和區(qū)域之間的特征設(shè)計能量函 數(shù),并通過最小化能量函數(shù)得到最優(yōu)分割,最后利用文本聚合將相鄰的文字連接成文本行, 得到最終定位的結(jié)果。
[0042] 1)輸入圖像,增強對比度,檢測MSER作為文本候選區(qū)域,其中輸入圖像仍會分為 亮文本圖像和暗文本圖像;
[0043] 2)在進(jìn)行啟發(fā)式規(guī)則過濾后,以每個區(qū)域為頂點建立圖;
[0044] 3)提取候選區(qū)域的邊緣梯度特征、中心環(huán)繞直方圖特征和筆畫寬度變異系數(shù)的一 元文本特征,構(gòu)成能量函數(shù)的區(qū)域項;
[0045] 4)提取候選區(qū)域與領(lǐng)域間的顏色分布特征和區(qū)域相似特征的二元文本特征,構(gòu)成 能量函數(shù)的邊界項,其中α取0.5;
[0046] 5)通過最小化能量函數(shù)得到候選區(qū)域的最優(yōu)分割,分割為前景的作為文本區(qū)域, 其余的區(qū)域濾除,其中權(quán)值因子λ取0.5;
[0047] 6)最后,根據(jù)分類結(jié)果去除背景區(qū)域,通過文本聚合連接相鄰文本,將亮文本圖像 和暗文本圖像的定位結(jié)果相加得到最終定位的結(jié)果。
【主權(quán)項】
1. 一種基于圖割模型的場景圖像文本定位的方法,其特征是: 將文本區(qū)域和背景區(qū)域的多個不同特征,通過圖割模型融合起來,即采用代表文本區(qū) 域特征的邊緣方向梯度直方圖、中心環(huán)繞直方圖和筆畫寬度變換的一元特征構(gòu)成區(qū)域項, 采用描述文本區(qū)域與背景領(lǐng)域間的關(guān)系的顏色分布和區(qū)域相似性等二元特征構(gòu)成來邊界 項,并以一元特征和二元特征構(gòu)建能量函數(shù),通過求解能量函數(shù)最小達(dá)到對圖的最優(yōu)分割, 將圖像分割作為候選文本區(qū)域與背景區(qū)域的二分類過程,從而實現(xiàn)圖像中的文本定位。2. 如權(quán)利要求1所述的一種基于圖割模型的場景圖像文本定位的方法,其特征是所述 采用邊緣梯度特征、中心環(huán)繞直方圖和筆畫寬度變異系數(shù)作為一元文本特征,其方法是: 1)邊緣梯度特征 由于文本區(qū)域一般含有豐富的邊緣信息,文本的邊緣方向大致相反而且幅值大致相 同,各方向上的梯度相差不大,故邊緣梯度是描述文本特性的有效特征。通過邊緣檢測提取 候選區(qū)域的邊緣后,將梯度方向分為8個通道,每個通道為π /4,然后計算梯度的方向與幅 值,根據(jù)下式統(tǒng)計候選區(qū)域的邊緣梯度特征:其中,H1代表第i通道內(nèi)的梯度。 (2) 中心環(huán)繞直方圖 中心環(huán)繞直方圖是指中心區(qū)域與其周圍區(qū)域特征之間的卡方距離,是一個局部顯著性 特征:其中,I是指中心區(qū)域次是指最小外接矩形框內(nèi)中心區(qū)域以外的區(qū)域。為了引起人的 視覺注意,文本通常具有局部顯著性,相比于局部區(qū)域內(nèi)周圍的背景在強度上有較大的差 異,因此采用亮度特征的中心環(huán)繞直方圖,但是由于文本特有的結(jié)構(gòu),一般都會包含很多的 孔洞,其中心和周圍的差異不像其他顯著目標(biāo)那樣明顯,所以這里利用高斯函數(shù)對其進(jìn)行 了平滑:其中,g(x)是指高斯函數(shù)。 (3) 筆畫寬度變異系數(shù) 筆畫寬度特征是文本特有的特征,這里利用候選區(qū)域中筆畫寬度的變異系數(shù)來表示區(qū)域的文本特性。3. 如權(quán)利要求1所述的一種基于圖割模型的場景圖像文本定位的方法,其特征是所述 采用顏色分布和區(qū)域結(jié)構(gòu)相似性作為二元文本特征,其方法是: 本發(fā)明考慮到研究對象為彩色圖像,因此利用顏色分布和區(qū)域結(jié)構(gòu)相似性來表示二元 文本特征。設(shè)P,q表示兩個區(qū)域,若滿足下式,則認(rèn)為P,q是相鄰的: dis (p,q) < 2 X min [max (wp, hp), max (wq+hp)] 其中,w和h代表連通區(qū)域的寬和高,dis(p,q)是指p,q兩個候選區(qū)域質(zhì)心間的歐氏 距離。 (1) 顏色分布 通常情況下,同一行中的文字有著相同或者相似的顏色,因此顏色分布可以反應(yīng)相鄰 文本區(qū)域之間的關(guān)系。由于LAB顏色空間是基于生理特性的顏色系統(tǒng),更符合人類的視覺 感應(yīng),故在計算顏色分布時將圖像從RGB顏色空間轉(zhuǎn)換為LAB顏色空間。選取兩個區(qū)域的 平均顏色直方圖之間的距離作為描述區(qū)域之間的顏色分布特征:其中,PjP q i分別代表區(qū)域P和q的顏色直方圖。 (2) 區(qū)域結(jié)構(gòu)相似性 區(qū)域結(jié)構(gòu)相似性是描述相鄰區(qū)域的空間關(guān)系、幾何與紋理相似性,這里利用灰度強度 比、形狀差異、筆畫寬度均值比和區(qū)域間距4個特征描述。形狀差異是指兩個區(qū)域的高度比 與寬度比的均值,區(qū)域間距是指兩個區(qū)域質(zhì)心之間的距離,區(qū)域相似性B raglciJl 4個特征值 的均值。4.如權(quán)利要求1所述的一種基于圖割模型的場景圖像文本定位的方法,其特征是所述 使用一元特征和二元特征構(gòu)建能量函數(shù)并求其最優(yōu)解,其方法是: 由于能量函數(shù)的區(qū)域項反應(yīng)區(qū)域本身的特性,而邊緣梯度特征RH(K;、中心環(huán)繞直方圖 RrantCT和筆畫寬度變異系數(shù)Rsw三個一元特征能夠很好的描述文本區(qū)域的本身特性。對于區(qū) 域P利用這三個特征建立區(qū)域項:其中,η = 3, fji = 1,2,3)分別是指RHTO、R_tjP Rsw,〇是準(zhǔn)度因子,由交叉驗證取 為 0· 25。 由于能量函數(shù)的邊界項反應(yīng)區(qū)域和鄰域間的關(guān)系,而顏色分布Bralcff和區(qū)域相似性 Braglcin描述的是文本區(qū)域和鄰域之間的關(guān)系,當(dāng)區(qū)域p和其領(lǐng)域q顏色分布與區(qū)域相似性越 接近,邊界項B {p,q}將不同標(biāo)簽(0與1)分配給p和q的能量就越大,若差距越大,則能量就 越小,因此定義邊界項: B{p,q} =exp (- a B color_ (I - a ) Bregion) 其中,a為權(quán)重因子,這里由于平等考慮顏色分布Bot1ot和區(qū)域相似性Braglcin的權(quán)重,取 Q - 0· 5 〇 將區(qū)域項和邊界項組成能量函數(shù):其中λ為權(quán)值因子。求得其最優(yōu)標(biāo)簽向量,其中標(biāo)簽向量中標(biāo)簽為1的區(qū)域為文本區(qū) 域,標(biāo)簽為O的區(qū)域作為背景區(qū)域。
【專利摘要】一種基于圖割模型的場景圖像中文本的定位方法。首先提取圖像中的最大穩(wěn)定極值區(qū)域作為文本候選區(qū)域,并以此為圖割模型頂點,利用候選區(qū)域的一元文本特征和二元文本特征來建立圖割模型。一元文本特征表征區(qū)域本身的文本特性,采用邊緣梯度特征、中心環(huán)繞直方圖和筆畫寬度變異系數(shù)表示的一元文本特征;二元文本特征能夠反映文本區(qū)域與相鄰背景區(qū)域同為同一類型區(qū)域的概率,即二元文本特征越相似,兩者是同一類區(qū)域的概率就越大。本發(fā)明考慮到研究對象為彩色圖像,利用顏色分布和區(qū)域結(jié)構(gòu)相似性來表示二元文本特征。利用提取的一元文本特征和二元文本特征來構(gòu)建能量函數(shù)并利用能量函數(shù)最小化去除背景區(qū)域以求得最優(yōu)分割,最后通過文本聚合得到文本區(qū)域。
【IPC分類】G06K9/46, G06K9/20, G06K9/00, G06K9/32
【公開號】CN105426846
【申請?zhí)枴緾N201510807871
【發(fā)明人】于鳳芹
【申請人】江南大學(xué)
【公開日】2016年3月23日
【申請日】2015年11月20日