一種基于圖割模型的場(chǎng)景圖像中文本的定位方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,提出一種基于圖割模型的場(chǎng)景圖像中的文本區(qū)域 定位方法。首先提取圖像中的最大穩(wěn)定極值區(qū)域作為文本候選區(qū)域,然后以每個(gè)候選區(qū)域 為圖割模型頂點(diǎn),利用候選區(qū)域的一元文本特征和二元文本特征來(lái)建立圖割模型,并利用 能量函數(shù)最小化去除背景區(qū)域以求得最優(yōu)分割,最后通過(guò)文本聚合得到文本區(qū)域。圖像中 的文本區(qū)域定位是后續(xù)的圖像分割和圖像理解的基礎(chǔ)和前提。 2、
【背景技術(shù)】
[0002] 隨著數(shù)碼相機(jī)、手機(jī)等圖像獲取設(shè)備的廣泛應(yīng)用,圖像已成為重要的傳遞信息的 載體,而圖像中的文本通常能夠提供重要的語(yǔ)義信息,所以,圖像中的文本信息提取已成為 模式識(shí)別領(lǐng)域的研究?jī)?nèi)容之一,并有著良好的應(yīng)用前景與商業(yè)價(jià)值。文本定位是文本提取 的前提與基礎(chǔ),是文本信息提取系統(tǒng)的關(guān)鍵部分,因此可靠而有效、且適用性強(qiáng)的場(chǎng)景圖像 中的文本定位方法具有重要的意義。
[0003] 在自然場(chǎng)景圖像中的文本,由于文本大小、字體、排列方式不確定,并且場(chǎng)景背景 一般較為復(fù)雜,圖像中的文本精確定位的難度較大。目前,場(chǎng)景圖像文本定位主要分為基于 邊緣檢測(cè)、基于連通區(qū)域和基于紋理特征等三類(lèi)方法?;谶吘墮z測(cè)方法利用邊緣檢測(cè)得 到邊緣圖像,通過(guò)形態(tài)學(xué)處理和啟發(fā)式過(guò)濾規(guī)則得到文本區(qū)域。但是當(dāng)邊緣較多、區(qū)域有交 叉時(shí)容易形成虛假文本;基于連通區(qū)域方法是根據(jù)局部文本區(qū)域的顏色與亮度相近且與背 景的對(duì)比度較高,利用顏色聚類(lèi)、連通分量分析等方法對(duì)文本定位。但該方法適用單一背景 圖像且對(duì)光照和顏色較敏感;基于紋理特征方法將文本視為一種特殊紋理,提取文本區(qū)域 的紋理特征,然后利用分類(lèi)器對(duì)文本和背景進(jìn)行分類(lèi)。該方法準(zhǔn)確度較高,但需要先提取大 量的正負(fù)樣本來(lái)訓(xùn)練分類(lèi)器導(dǎo)致計(jì)算量較大,而且單一的紋理特征并不能夠有效的區(qū)分文 本與背景,特征的選取也是一個(gè)難點(diǎn)。 3、
【發(fā)明內(nèi)容】
[0004]為了適應(yīng)復(fù)雜場(chǎng)景圖像中的文本定位,本發(fā)明提出一種基于圖割模型的場(chǎng)景圖像 文本定位的方法。該方法將文本區(qū)域和背景區(qū)域的多個(gè)不同特征,通過(guò)圖割模型融合起來(lái), 即采用代表文本區(qū)域特征的邊緣方向梯度直方圖、中心環(huán)繞直方圖和筆畫(huà)寬度變換的一元 特征構(gòu)成區(qū)域項(xiàng),采用描述文本區(qū)域與背景領(lǐng)域間的關(guān)系的顏色分布和區(qū)域相似性等二元 特征構(gòu)成來(lái)邊界項(xiàng),以一元特征和二元特征構(gòu)建能量函數(shù),通過(guò)求解能量函數(shù)最小達(dá)到對(duì) 圖的最優(yōu)分割,將圖像分割作為候選文本區(qū)域與背景區(qū)域的二分類(lèi)過(guò)程,從而實(shí)現(xiàn)圖像中 的文本定位。
[0005]圖割模型是一種全局能量最小化的圖像分割方法,主要的思路是將圖像中的像素 作為圖的頂點(diǎn),把像素與領(lǐng)域間的關(guān)系作為圖的邊,這樣就把圖像映射成一個(gè)加權(quán)圖,然 后根據(jù)邊的權(quán)值設(shè)定能量函數(shù),通過(guò)求解能量函數(shù)的最小化來(lái)實(shí)現(xiàn)對(duì)圖的最優(yōu)分割,從而 實(shí)現(xiàn)對(duì)原圖像的分割。
[0006] 采用邊緣梯度特征、中心環(huán)繞直方圖和筆畫(huà)寬度變異系數(shù)作為一元文本特征
[0007] 由于一元文本特征表示區(qū)域本身的文本特性,可根據(jù)提取的一元文本特征來(lái)描述 區(qū)域是文本區(qū)域還是背景區(qū)域,本發(fā)明采用邊緣梯度特征、中心環(huán)繞直方圖和筆畫(huà)寬度變 異系數(shù)表示的一元文本特征構(gòu)建能量函數(shù)的區(qū)域項(xiàng)。
[0008] (1)邊緣梯度特征
[0009] 由于文本區(qū)域一般含有豐富的邊緣信息,文本的邊緣方向大致相反而且幅值大致 相同,各方向上的梯度相差不大,故邊緣梯度是描述文本特性的有效特征。通過(guò)邊緣檢測(cè)提 取候選區(qū)域的邊緣后,將梯度方向分為8個(gè)通道,每個(gè)通道為π/4,然后計(jì)算梯度的方向與 幅值,根據(jù)下式統(tǒng)計(jì)候選區(qū)域的邊緣梯度特征:
[0010]
1=1
[0011] 其中,嘸代表第i通道內(nèi)的梯度。
[0012] (2)中心環(huán)繞直方圖
[0013] 中心環(huán)繞直方圖是指中心區(qū)域與其周?chē)鷧^(qū)域特征之間的卡方距離,是一個(gè)局部顯 著性特征:
[0014]
[0015] 其中,I是指中心區(qū)域次是指最小外接矩形框內(nèi)中心區(qū)域以外的區(qū)域。為了引起 人的視覺(jué)注意,文本通常具有局部顯著性,相比于局部區(qū)域內(nèi)周?chē)谋尘霸趶?qiáng)度上有較大 的差異,因此采用亮度特征的中心環(huán)繞直方圖,但是由于文本特有的結(jié)構(gòu),一般都會(huì)包含很 多的孔洞,其中心和周?chē)牟町惒幌衿渌@著目標(biāo)那樣明顯,所以這里利用高斯函數(shù)對(duì)其 進(jìn)行了平滑:
[0016] Rcenter=g(X) *X2 (I,Ir)
[0017] 其中,g(x)是指高斯函數(shù)。
[0018] ⑶筆畫(huà)寬度變異系數(shù)
[0019] 筆畫(huà)寬度特征是文本特有的特征,這里利用候選區(qū)域中筆畫(huà)寬度的變異系數(shù)
表示區(qū)域的文本特性。
[0020] 采用顏色分布和區(qū)域結(jié)構(gòu)相似性作為二元文本特征
[0021] 二元文本特征表示文本區(qū)域與其鄰域背景區(qū)域之間的關(guān)系,能夠反映候選文本區(qū) 域與相鄰背景區(qū)域同為文本區(qū)域或背景區(qū)域還是不同類(lèi)別區(qū)域的概率。即二元文本特征越 相似,兩者是同一類(lèi)區(qū)域的概率就越大。本發(fā)明考慮到研究對(duì)象為彩色圖像,因此利用顏色 分布和區(qū)域結(jié)構(gòu)相似性來(lái)表示二元文本特征。設(shè)p,q表示兩個(gè)區(qū)域,若滿(mǎn)足下式,則認(rèn)為P, q是相鄰的:
[0022] dis(p,q) < 2Xmin[max(wp,hp),max(wq+hq)]
[0023] 其中,w和h代表連通區(qū)域的寬和高,dis(p,q)是指p,q兩個(gè)候選區(qū)域質(zhì)心間的 歐氏距離。
[0024] (1)顏色分布
[0025] 通常情況下,同一行中的文字有著相同或者相似的顏色,因此顏色分布可以反應(yīng) 相鄰文本區(qū)域之間的關(guān)系。由于LAB顏色空間是基于生理特性的顏色系統(tǒng),更符合人類(lèi)的 視覺(jué)感應(yīng),故在計(jì)算顏色分布時(shí)將圖像從RGB顏色空間轉(zhuǎn)換為L(zhǎng)AB顏色空間。選取兩個(gè)區(qū) 域的平均顏色直方圖之間的距離作為描述區(qū)域之間的顏色分布特征:
[0026]
[0027] 其中,pJPqj別代表區(qū)域p和q的顏色直方圖。
[0028] (2)區(qū)域結(jié)構(gòu)相似性
[0029] 區(qū)域結(jié)構(gòu)相似性是描述相鄰區(qū)域的空間關(guān)系、幾何與紋理相似性,這里利用灰度 強(qiáng)度比、形狀差異、筆畫(huà)寬度均值比和區(qū)域間距4個(gè)特征描述。形狀差異是指兩個(gè)區(qū)域的高 度比與寬度比的均值,區(qū)域間距是指兩個(gè)區(qū)域質(zhì)心之間的距離,區(qū)域相似性4個(gè)特 征值的均值。
[0030] 使用一元特征和二元特征構(gòu)建能量函數(shù)并求其最優(yōu)解
[0031] 能量函數(shù)的區(qū)域項(xiàng)反應(yīng)區(qū)域本身的特性,而邊緣梯度特征RHW;、中心環(huán)繞直方圖 RrantCT和筆畫(huà)寬度變異系數(shù)Rsw三個(gè)一元特征能夠很好的描述文本區(qū)域的本身特性。對(duì)于區(qū) 域P利用這三個(gè)特征建立區(qū)域項(xiàng):
[0032]
[0033] 其中,η= 3,仁(i= 1,2, 3)分別是指RHTO、R_tCT和Rsw,σ是準(zhǔn)度因子,由交叉驗(yàn) 證取為〇. 25。
[0034] 能量函數(shù)的邊界項(xiàng)反應(yīng)區(qū)域和鄰域間的關(guān)系,而顏色分布BOTlOT和區(qū)域相似性 Braglcm描述的是文本區(qū)域和鄰域之間的關(guān)系,當(dāng)區(qū)域p和其領(lǐng)域q顏色分布與區(qū)域相似性越 接近,邊界項(xiàng)B{p,q}將不同標(biāo)簽(0與1)分配給p和q的能量就越大,若差距越大,則能量就 越小,因此定義邊界項(xiàng):
[0035] B{p,q} =exp(_αBcolor_ (1-a)B