一種基于貝葉斯概率框架的場景文本識別方法
【專利摘要】一種基于貝葉斯概率框架的場景文本識別方法,涉及計算機視覺和模式識別。步驟S1:輸入場景圖像文本;步驟S2:字符檢測和識別;步驟S3:構(gòu)建檢測-識別候選網(wǎng)格,具體方法如下:將候選字符區(qū)域和對應(yīng)的字符類別和識別分?jǐn)?shù)保存在一個檢測與識別候選網(wǎng)格里,這樣候選網(wǎng)格里每一條檢測-識別路徑對應(yīng)一個文本檢測和識別結(jié)果;設(shè)計路徑評價函數(shù),對候選網(wǎng)格里的每一條候選檢測-識別路徑進(jìn)行評價;步驟S4:根據(jù)路徑評價函數(shù),從候選網(wǎng)格中用動態(tài)規(guī)劃算法搜索得到最優(yōu)檢測-識別路徑,即得到識別結(jié)果;步驟S5:輸出文本識別結(jié)果。解決了集成檢測與識別的場景文本識別的概率建模和參數(shù)學(xué)習(xí)問題。
【專利說明】一種基于貝葉斯概率框架的場景文本識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機視覺和模式識別,具體的,是一種基于貝葉斯概率框架的場景文本識別方法。
【背景技術(shù)】
[0002]自然場景圖像中的文本包含豐富的高層語義信息,對圖像的場景理解、分析與處理具有重要的作用。場景文本識別技術(shù)可廣泛應(yīng)用于圖像和視頻的理解、存儲和檢索、車輛牌照識別、銀行票據(jù)處理、路標(biāo)識別和移動導(dǎo)盲等領(lǐng)域,因此成為計算機視覺和模式識別領(lǐng)域的研究熱點。由于場景圖像背景復(fù)雜,場景文字的大小、字體、顏色各異,且易受光照變化和圖像退化的影響,這使場景文本的識別具有較大的挑戰(zhàn)性。
[0003]傳統(tǒng)的光學(xué)字符識別(OCR)技術(shù)能很好的識別背景比較簡單的掃描文本文檔,但是用來識別場景文本時,識別率非常低,還有很大的提升空間,要應(yīng)用到實際系統(tǒng)中還有很多工作需要做。當(dāng)前,對場景文本的識別主要采用計算機視覺中的目標(biāo)識別的思想,其基本思想是,把每一類字符當(dāng)作一個視覺目標(biāo),然后從場景文本圖像中同時檢測和識別字符區(qū)域,這實際上是一種集成的檢測與識別的場景文本識別方法。這種集成的檢測和識別的方法在國際頂級會議ICCV2011上提出來,表現(xiàn)出了優(yōu)于傳統(tǒng)OCR的識別性能。之后的幾年有很多研究也進(jìn)行了這方面的研究,提高了場景文本識別的性能。
[0004]雖然最近幾年在這方面有很多研究工作且取得得了較大進(jìn)展,但是至今未見有對集成的檢測與識別的場景文本識別方法進(jìn)行概率建模的有關(guān)報道,并在此基礎(chǔ)上進(jìn)行參數(shù)學(xué)習(xí)。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于針對當(dāng)前場景文本識別方法沒有一個統(tǒng)一的概率模型等問題,提供一種基于貝葉斯概率框架的場景文本識別方法。
[0006]本發(fā)明包括以下步驟:
[0007]步驟S1:輸入場景圖像文本;
[0008]步驟S2:字符檢測和識別;
[0009]在步驟S2中,所述字符檢測和識別的具體方法可為:
[0010]采用多尺度滑動窗口的方法,用字符分類器對圖像中的窗口區(qū)域進(jìn)行檢測和識另|J,對每一個字符類別,將分類器輸出較大的區(qū)域判定為候選字符區(qū)域,輸出較小的區(qū)域認(rèn)為是背景區(qū)域,找出圖像中包含的候選字符區(qū)域;再采用非極大值抑制方法,對重疊率較大的區(qū)域只保留分類器輸出值最大的區(qū)域和相應(yīng)的字符類別,除去大量重復(fù)冗余的候選字符區(qū)域,得到字符檢測結(jié)果。
[0011]步驟S3:構(gòu)建檢測-識別候選網(wǎng)格,具體方法如下:
[0012]將候選字符區(qū)域和對應(yīng)的字符類別和識別分?jǐn)?shù)保存在一個檢測與識別候選網(wǎng)格里,這樣候選網(wǎng)格里每一條檢測-識別路徑對應(yīng)一個文本檢測和識別結(jié)果;設(shè)計路徑評價函數(shù),對候選網(wǎng)格里的每一條候選檢測-識別路徑進(jìn)行評價;
[0013]步驟S4:根據(jù)路徑評價函數(shù),從候選網(wǎng)格中用動態(tài)規(guī)劃算法搜索得到最優(yōu)檢測-識別路徑,即得到識別結(jié)果;
[0014]步驟S5:輸出文本識別結(jié)果。
[0015]在步驟S3中,在構(gòu)建檢測-識別候選網(wǎng)格時,保存候選字符的字符類別和識別分?jǐn)?shù),并保存四種幾何上下文模型,包括一元類別有關(guān)和類別無關(guān)幾何模型、二元類別有關(guān)和類別無關(guān)幾何模型;在檢測-識別候選網(wǎng)格中,每一條檢測-識別路徑表示一種識別結(jié)果,將場景文本識別問題轉(zhuǎn)化為路徑搜索問題,用一個路徑評價函數(shù)來評價每一條候選檢測-識別路徑,基于該路徑評價函數(shù),用動態(tài)規(guī)劃算法搜索最優(yōu)路徑得到識別結(jié)果。
[0016]所述路徑評價函數(shù)為:
[0017]
【權(quán)利要求】
1.一種基于貝葉斯概率框架的場景文本識別方法,其特征在于包括以下步驟: 步驟S1:輸入場景圖像文本; 步驟S2:字符檢測和識別; 步驟S3:構(gòu)建檢測-識別候選網(wǎng)格,具體方法如下: 將候選字符區(qū)域和對應(yīng)的字符類別和識別分?jǐn)?shù)保存在一個檢測與識別候選網(wǎng)格里,這樣候選網(wǎng)格里每一條檢測-識別路徑對應(yīng)一個文本檢測和識別結(jié)果;設(shè)計路徑評價函數(shù),對候選網(wǎng)格里的每一條候選檢測-識別路徑進(jìn)行評價; 步驟S4:根據(jù)路徑評價函數(shù),從候選網(wǎng)格中用動態(tài)規(guī)劃算法搜索得到最優(yōu)檢測-識別路徑,即得到識別結(jié)果; 步驟S5:輸出文本識別結(jié)果。
2.如權(quán)利要求1所述一種基于貝葉斯概率框架的場景文本識別方法,其特征在于在步驟S2中,所述字符檢測和識別的具體方法為: 采用多尺度滑動窗口的方法,用字符分類器對圖像中的窗口區(qū)域進(jìn)行檢測和識別,對每一個字符類別,將分類器輸出較大的區(qū)域判定為候選字符區(qū)域,輸出較小的區(qū)域認(rèn)為是背景區(qū)域,找出圖像中包含的候選字符區(qū)域;再采用非極大值抑制方法,對重疊率較大的區(qū)域只保留分類器輸出值最大的區(qū)域和相應(yīng)的字符類別,除去大量重復(fù)冗余的候選字符區(qū)域,得到字符檢測結(jié)果。
3.如權(quán)利要求1所述一種基于貝葉斯概率框架的場景文本識別方法,其特征在于在步驟S3中,在構(gòu)建檢測-識別候選網(wǎng)格時,保存候選字符的字符類別和識別分?jǐn)?shù),并保存四種幾何上下文模型,包括一元類別有關(guān)和類別無關(guān)幾何模型、二元類別有關(guān)和類別無關(guān)幾何模型。
4.如權(quán)利要求1所述一種基于貝葉斯概率框架的場景文本識別方法,其特征在于在步驟S3中,在檢測-識別候選網(wǎng)格中,每一條檢測-識別路徑表示一種識別結(jié)果,將場景文本識別問題轉(zhuǎn)化為路徑搜索問題,用一個路徑評價函數(shù)來評價每一條候選檢測-識別路徑,基于該路徑評價函數(shù),用動態(tài)規(guī)劃算法搜索最優(yōu)路徑得到識別結(jié)果。
5.如權(quán)利要求1所述一種基于貝葉斯概率框架的場景文本識別方法,其特征在于在步驟S3中,所述路徑評價函數(shù)為:
6.如權(quán)利要求1所述一種基于貝葉斯概率框架的場景文本識別方法,其特征在于在步驟S3中,所述路徑評價函數(shù)是通過對集成檢測與切分的識別方法從貝葉斯決策角度進(jìn)行建模得到的,所述建模過程如下: 輸入場景文本圖像記為X,文本行類別記為C = cl(V..Cn,其中,文本行類別為一個詞或者字符串,C1到Cn表示字符類別,η表示文本行包含字符的個數(shù),即字符長度,則將場景文本圖像X識別為C的后驗概率為:
7.如權(quán)利要求1所述一種基于貝葉斯概率框架的場景文本識別方法,其特征在于在步驟S3中,所述文本檢測的后驗概率P (C| Xd)可以進(jìn)一步分解為:
8.如權(quán)利要求7所述一種基于貝葉斯概率框架的場景文本識別方法,其特征在于所述字符分類器采用典型的特征提取算法和分類器算法進(jìn)行建模,利用數(shù)據(jù)庫進(jìn)行訓(xùn)練得到,所述典型的特征提取算法為H0G,所述分類器算法為SVM ;語言模型從大型語料庫學(xué)習(xí)得到;四種幾何模型的建模方法分別設(shè)計和提取相應(yīng)的幾何特征,用常用分類器進(jìn)行建模,所述常用分類器為SVM。
9.如權(quán)利要求7所述一種基于貝葉斯概率框架的場景文本識別方法,其特征在于所述路徑評價函數(shù)中的參數(shù)X1至λ 6采用最小分類錯誤率訓(xùn)練算法學(xué)習(xí)得到,具體的,參數(shù)在一個訓(xùn)練集上學(xué)習(xí)得到,訓(xùn)練集記為D == 和,其中,R表示訓(xùn)練樣本的個數(shù),G表示真實文本類別d表示真實的檢測路徑,則G和c/表示了真是的檢測-識別路徑,記為(ζ'?),則錯誤分類度量表示為:
【文檔編號】G06K9/46GK103984943SQ201410238427
【公開日】2014年8月13日 申請日期:2014年5月30日 優(yōu)先權(quán)日:2014年5月30日
【發(fā)明者】王菡子, 王大寒 申請人:廈門大學(xué)