一種文本檢測(cè)的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及人機(jī)交互技術(shù),具體地涉及文本檢測(cè)或光學(xué)字符識(shí)別OCR技術(shù)。
【背景技術(shù)】
[0002]自然場(chǎng)景中不僅包含大量的圖形信息,而且存在豐富的文本信息,例如道路標(biāo)志、商店名稱等。這些文本信息對(duì)場(chǎng)景內(nèi)容的描述與理解有重要的價(jià)值,該信息是場(chǎng)景圖像檢索的關(guān)鍵線索。因而迫切需要一種自動(dòng)化的工具,通過(guò)自然場(chǎng)景中文本認(rèn)知獲取場(chǎng)景中的文本信息,為檢索、查詢、瀏覽場(chǎng)景圖像資料和理解場(chǎng)景內(nèi)容服務(wù),提高圖像資料的管理效率。移動(dòng)電話、PDA、臺(tái)式計(jì)算機(jī)、筆記本電腦、平板電腦和其他電子設(shè)備通常都能支持文本檢測(cè)或光學(xué)字符識(shí)別(OCR)。
[0003]筆畫(huà)寬度變換(SWT)是現(xiàn)有技術(shù)中一種常用的文本檢測(cè)方法?!癉etecting Textin Natural Scenes with Stroke Width Transform” (IEEE 計(jì)算機(jī)視覺(jué)和模式識(shí)別 CVPR,2010)提供了基于SWT的文本檢測(cè)方法。如其中所述,筆畫(huà)寬度變換(SWT)是一種用于自然場(chǎng)景中的文本檢測(cè)的成功方法。不管文本的縮放、方向、字體和語(yǔ)言,該方法都能檢測(cè)文本。為了提取筆畫(huà)信息,SWT首先使用Canny邊緣檢測(cè)器來(lái)計(jì)算圖像的邊緣。然后,考慮每個(gè)邊緣像素的梯度取向來(lái)找到其筆畫(huà)寬度。SWT是一種局部圖像算子,對(duì)每個(gè)像素點(diǎn)計(jì)算包含該像素點(diǎn)的最有可能的筆畫(huà)寬度。SWT的輸出是與輸入圖像具有相等大小的圖像,其中,每個(gè)點(diǎn)存儲(chǔ)的是與像素點(diǎn)相關(guān)聯(lián)的筆畫(huà)的寬度。
[0004]圖1示出了實(shí)現(xiàn)SWT方法的示意圖,圖2示出了實(shí)現(xiàn)SWT方法的流程圖?,F(xiàn)在結(jié)合圖1和圖2描述SWT方法。圖1 (a)是一個(gè)典型筆畫(huà)的示意圖,其中,筆畫(huà)的像素點(diǎn)比背景的像素點(diǎn)顏色更深。首先,在圖2的步驟SlOO中,通過(guò)邊緣檢測(cè)器(例如Canny邊緣檢測(cè)器)計(jì)算輸入圖像的邊緣。然后,在步驟SllO中,將筆畫(huà)邊緣及筆畫(huà)內(nèi)部所有像素點(diǎn)關(guān)聯(lián)存儲(chǔ)的值賦初值為+⑴。對(duì)于筆畫(huà)邊緣上的每個(gè)像素點(diǎn)(例如圖1(b)中所示的點(diǎn)P),計(jì)算在該像素點(diǎn)P處的切線方向,然后計(jì)算梯度(法線)方向(梯度方向與切線方向相互垂直)(步驟S120)。接下來(lái),在步驟S130中,獲得梯度取向上筆畫(huà)對(duì)面邊緣上的像素點(diǎn)q,并計(jì)算兩個(gè)像素點(diǎn)P、q之間的距離作為像素點(diǎn)P處的筆畫(huà)寬度w,如圖1(b)所示。在步驟S140中,對(duì)于p、q兩點(diǎn)之間的每一個(gè)像素點(diǎn)t (如圖1 (C)所示),獲得與t關(guān)聯(lián)存儲(chǔ)的值a。判斷像素點(diǎn)P處的筆畫(huà)寬度w是否小于與像素點(diǎn)t關(guān)聯(lián)存儲(chǔ)的值a(步驟S150)。如果筆畫(huà)寬度w小于與像素點(diǎn)t關(guān)聯(lián)存儲(chǔ)的值a,則用筆畫(huà)寬度w替代像素點(diǎn)t關(guān)聯(lián)存儲(chǔ)的值a,作為新的關(guān)聯(lián)存儲(chǔ)值a(步驟S160)。然后,對(duì)梯度方向上其他像素點(diǎn)重復(fù)以上操作(步驟S170)。最后,對(duì)筆畫(huà)邊緣上其他像素點(diǎn)重復(fù)以上操作(步驟S180)。
[0005]但通過(guò)分析以上SWT算法,可以很容易地知道該算法存在以下問(wèn)題:因?yàn)楣P畫(huà)邊緣呈不規(guī)則的形狀,所以步驟S120中計(jì)算在像素點(diǎn)P處的切線方向是一個(gè)非常復(fù)雜的過(guò)程,該過(guò)程計(jì)算復(fù)雜度高而且消耗大量處理器資源和計(jì)算時(shí)間;在步驟S150中對(duì)筆畫(huà)寬度w與像素點(diǎn)t關(guān)聯(lián)存儲(chǔ)的值a進(jìn)行比較,然而由于筆畫(huà)邊緣點(diǎn)多且筆畫(huà)邊緣形狀不規(guī)則,筆畫(huà)內(nèi)部的點(diǎn)可能會(huì)有多條法線經(jīng)過(guò),這樣會(huì)造成比較次數(shù)過(guò)多,處理非常繁瑣。
[0006]因此,利用SWT的文本檢測(cè)處理太復(fù)雜和耗時(shí),現(xiàn)有技術(shù)提到這種文本檢測(cè)的時(shí)間是0.94秒,而對(duì)于自然場(chǎng)景的OCR系統(tǒng)來(lái)說(shuō),文本檢測(cè)之后的OCR處理過(guò)程也要花費(fèi)時(shí)間,還有之后的進(jìn)一步應(yīng)用,例如翻譯或檢索等等,所以SWT的這種速度作為OCR系統(tǒng)中的預(yù)處理步驟來(lái)說(shuō)太慢,遠(yuǎn)無(wú)法達(dá)到實(shí)現(xiàn)自然場(chǎng)景OCR系統(tǒng)的實(shí)時(shí)性的要求。
【發(fā)明內(nèi)容】
[0007]為了解決以上技術(shù)問(wèn)題,本發(fā)明提出了一種新的簡(jiǎn)化估計(jì)筆畫(huà)寬度(ESW)文本檢測(cè)方法。ESW測(cè)量邊緣像素點(diǎn)沿多個(gè)預(yù)定取向的距離作為筆畫(huà)寬度,可以降低計(jì)算復(fù)雜度并節(jié)省處理器資源和計(jì)算時(shí)間。
[0008]具體地,與SWT中通過(guò)對(duì)于每個(gè)邊緣像素點(diǎn)計(jì)算切線方向和梯度(法線)方向來(lái)計(jì)算與梯度方向上筆畫(huà)對(duì)面邊緣上的像素點(diǎn)的距離作為筆畫(huà)寬度不同,在本發(fā)明中,ESW通過(guò)測(cè)量筆畫(huà)每個(gè)邊緣像素點(diǎn)沿多個(gè)預(yù)定方向到對(duì)面邊緣上的像素點(diǎn)的距離的最小值作為該邊緣像素點(diǎn)處的筆畫(huà)寬度。ESW不用計(jì)算在筆畫(huà)邊緣每個(gè)像素點(diǎn)處的切線方向而是采用預(yù)定的多個(gè)固定取向,并且由于采用固定取向,會(huì)使在筆畫(huà)內(nèi)各像素點(diǎn)處的比較次數(shù)相對(duì)固定,從而可以降低計(jì)算復(fù)雜度并節(jié)省處理器資源和計(jì)算時(shí)間。
[0009]具體地,根據(jù)本發(fā)明的一個(gè)方面,提供了一種計(jì)算估計(jì)筆畫(huà)寬度ESW的方法,包括以下步驟:根據(jù)二值化圖像,獲取筆畫(huà)邊緣信息;計(jì)算每個(gè)筆畫(huà)邊緣像素點(diǎn)在不少于四個(gè)取向上的筆畫(huà)寬度,所述每個(gè)筆畫(huà)邊緣像素點(diǎn)在不少于四個(gè)取向上的筆畫(huà)寬度是所述筆畫(huà)邊緣像素點(diǎn)到位于由所述筆畫(huà)邊緣像素點(diǎn)和所述取向決定的直線上的另一筆畫(huà)邊緣像素點(diǎn)的距離;將計(jì)算得到的每個(gè)筆畫(huà)邊緣像素點(diǎn)在不少于四個(gè)取向上的筆畫(huà)寬度分別與經(jīng)過(guò)該筆畫(huà)邊緣像素點(diǎn)并沿著該取向上的每個(gè)筆畫(huà)內(nèi)像素點(diǎn)相關(guān)聯(lián);以及針對(duì)每個(gè)筆畫(huà)內(nèi)像素點(diǎn),選擇與所述筆畫(huà)內(nèi)像素點(diǎn)相關(guān)聯(lián)的多個(gè)筆畫(huà)寬度的最小值作為所述筆畫(huà)內(nèi)像素點(diǎn)的估計(jì)筆畫(huà)寬度ESW。
[0010]在一個(gè)實(shí)施例中,所述計(jì)算步驟包括對(duì)于每個(gè)筆畫(huà)邊緣像素點(diǎn),計(jì)算在不少于四個(gè)取向上的筆畫(huà)寬度,所述關(guān)聯(lián)步驟包括將計(jì)算得到的所述不少于四個(gè)取向上的筆畫(huà)寬度分別與沿著該取向上的每個(gè)筆畫(huà)內(nèi)像素點(diǎn)進(jìn)行關(guān)聯(lián)存儲(chǔ),并且所述選擇步驟包括針對(duì)每個(gè)筆畫(huà)內(nèi)像素點(diǎn),選擇與所述筆畫(huà)內(nèi)像素點(diǎn)關(guān)聯(lián)存儲(chǔ)的多個(gè)筆畫(huà)寬度的最小值作為所述筆畫(huà)內(nèi)像素點(diǎn)的估計(jì)筆畫(huà)寬度ESW。
[0011 ] 在一個(gè)實(shí)施例中,所述計(jì)算步驟包括對(duì)于所述不少于四個(gè)取向中的每個(gè)取向,計(jì)算在每個(gè)筆畫(huà)邊緣像素點(diǎn)處的筆畫(huà)寬度,所述關(guān)聯(lián)步驟包括:對(duì)于沿著該取向上的未進(jìn)行關(guān)聯(lián)存儲(chǔ)的筆畫(huà)內(nèi)像素點(diǎn),將計(jì)算得到的筆畫(huà)寬度與該筆畫(huà)內(nèi)像素點(diǎn)進(jìn)行關(guān)聯(lián)存儲(chǔ);對(duì)于沿著該取向上的已經(jīng)進(jìn)行關(guān)聯(lián)存儲(chǔ)的筆畫(huà)內(nèi)像素點(diǎn),將計(jì)算得到的筆畫(huà)寬度與在該筆畫(huà)內(nèi)像素點(diǎn)已經(jīng)關(guān)聯(lián)存儲(chǔ)的值進(jìn)行比較,如果所述筆畫(huà)寬度小于與該筆畫(huà)內(nèi)像素點(diǎn)關(guān)聯(lián)存儲(chǔ)的值,則以所述筆畫(huà)寬度覆蓋與該筆畫(huà)內(nèi)像素點(diǎn)關(guān)聯(lián)存儲(chǔ)的值。
[0012]在一個(gè)實(shí)施例中,所述不少于四個(gè)取向的取向的數(shù)量為四。
[0013]在一個(gè)實(shí)施例中,所述不少于四個(gè)取向中包含一個(gè)水平取向和一個(gè)垂直取向。
[0014]在一個(gè)實(shí)施例中,四個(gè)取向中任一取向與相鄰取向之間的夾角均為45度。
[0015]在一個(gè)實(shí)施例中,四個(gè)取向分別為水平、垂直、向右上傾斜45度和向右下傾斜45度。
[0016]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種非文本去除方法,所述非文本去除方法利用關(guān)于文本特性的連通域特征和關(guān)于連通域及其周圍連通域關(guān)聯(lián)信息的連通域特征,其特征在于,所述關(guān)于文本特性的連通域特征包括針對(duì)每個(gè)像素點(diǎn)使用如上所述的計(jì)算ESW的方法計(jì)算得到的ESW,以及連通域內(nèi)ESW的方差;所述關(guān)于連通域及其周圍連通域關(guān)聯(lián)信息的連通域特征包括連通域的平均ESW,所述連通域的平均ESW是針對(duì)連通域中的每個(gè)像素點(diǎn)使用如上所述的計(jì)算ESW的方法計(jì)算得到的ESW的平均值。
[0017]在一個(gè)實(shí)施例中,所述關(guān)于文本特性的連通域特征還包括以下一項(xiàng)或更多項(xiàng):夕卜接矩形框的高寬比和前景像素面積在區(qū)域中的占有比例。
[0018]在一個(gè)實(shí)施例中,所述關(guān)于連通域及其周圍連通域關(guān)聯(lián)信息的連通域特征還包括以下一項(xiàng)或更多項(xiàng):相鄰域的外接矩形框之間的距離、區(qū)域的平均面積和區(qū)域的平均灰度。
[0019]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種OCR方法,包括預(yù)處理步驟,所述預(yù)處理步驟包括:利用如上所述的方法進(jìn)行非文本去除。
[0020]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種計(jì)算估計(jì)筆畫(huà)寬度ESW的裝置,包括:獲取單元,被配置為:根據(jù)二值化圖像,獲取筆畫(huà)邊緣信息;計(jì)算單元,被配置為:計(jì)算每個(gè)筆畫(huà)邊緣像素點(diǎn)在不少于四個(gè)取向上的筆畫(huà)寬度,所述每個(gè)筆畫(huà)邊緣像素點(diǎn)在不少于四個(gè)取向上的筆畫(huà)寬度是所述筆畫(huà)邊緣像素點(diǎn)到位于由所述筆畫(huà)邊緣像素點(diǎn)和所述取向決定的直線上的另一筆畫(huà)邊緣像素點(diǎn)的距離;關(guān)聯(lián)單元,被配置為:將計(jì)算得到的每個(gè)筆畫(huà)邊緣像素點(diǎn)在不少于四個(gè)取向上的筆畫(huà)寬度分別與經(jīng)過(guò)該筆畫(huà)邊緣像素點(diǎn)并沿著該取向上的每個(gè)筆畫(huà)內(nèi)像素點(diǎn)相關(guān)聯(lián);以及選擇單元,被配置為:針對(duì)每個(gè)筆畫(huà)內(nèi)像素點(diǎn),選擇與所述筆畫(huà)內(nèi)像素點(diǎn)相關(guān)聯(lián)的多個(gè)筆畫(huà)寬度的最小值作為所述筆畫(huà)內(nèi)像素點(diǎn)的估計(jì)筆畫(huà)寬度ESW。
[0021]在一個(gè)實(shí)施例中,所述計(jì)算單元包括對(duì)于每個(gè)筆畫(huà)邊緣像素點(diǎn),計(jì)算在不少于四個(gè)取向上的筆畫(huà)寬度,所述關(guān)聯(lián)單元包括將計(jì)算得到的所述不少于四個(gè)取向上的筆畫(huà)寬度分別與沿著該取向上的每個(gè)筆畫(huà)內(nèi)像素點(diǎn)進(jìn)行關(guān)聯(lián)存儲(chǔ),并且所