圖像中文本區(qū)域檢測方法、裝置及電子設(shè)備的制造方法
【專利摘要】本申請公開了一種圖像中文本區(qū)域檢測方法和裝置以及一種電子設(shè)備。其中所述圖像中文本區(qū)域檢測方法包括:從目標(biāo)圖像中提取候選文本行區(qū)域圖像;采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記;將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。采用本申請?zhí)峁┑姆椒?,能夠?qū)崿F(xiàn)適用于不同類型圖像、不同語言文字、不同風(fēng)格字體的文字區(qū)域檢測,使得該技術(shù)方案具備通用性;提高對文本行區(qū)域多樣性的適應(yīng)能力及抗噪聲干擾能力,保證檢測結(jié)果的準(zhǔn)確性;極大減少分類器判斷區(qū)域,提高檢測速度。
【專利說明】
圖像中文本區(qū)域檢測方法、裝置及電子設(shè)備
技術(shù)領(lǐng)域
[0001]本申請涉及圖像檢測領(lǐng)域,具體涉及一種圖像中文本區(qū)域檢測方法、裝置及電子設(shè)備。
【背景技術(shù)】
[0002]圖像中的文本信息是理解圖像內(nèi)容的重要信息,對圖像進(jìn)行文本識別是實(shí)現(xiàn)圖像內(nèi)容理解的基礎(chǔ)技術(shù)。但文本識別的前提是檢測到圖像中的文本區(qū)域,所以為了理解圖像內(nèi)容,首先需檢測圖像中的文本區(qū)域。
[0003]目前,常用的圖像中文本區(qū)域檢測方法有兩種,一是基于MSER和Adaboost分類器的文本區(qū)域檢測方法,該方法實(shí)現(xiàn)過程:首先,采用MSER提取候選文本區(qū)域;然后,人為設(shè)計(jì)與文本相關(guān)特征,如,字寬方差、候選文本區(qū)域長寬比等特征,采用Metric Learning方法合并候選文本區(qū)域?yàn)楹蜻x文本行區(qū)域;最后,采用Adaboost分類器過濾候選文本行區(qū)域,保留下來的文本行區(qū)域即為檢測到的文本區(qū)域。但該方法準(zhǔn)確性低。二是采用CNN (Convolut1nal Neural Network)模型的文本區(qū)域檢測方法,該方法實(shí)現(xiàn)過程:首先,將正樣本圖像(含文本圖像)和負(fù)樣本圖像(不含文本圖像)輸入CNN模型,訓(xùn)練文本/非文本分類器;然后,在檢測階段,使用滑動(dòng)窗口遍歷輸入圖像,將滑動(dòng)窗口截取到的窗口圖像輸入預(yù)先訓(xùn)練過的文本/非文本分類器,判斷該窗口圖像為正樣本還是負(fù)樣本,若該窗口圖像被分類器判斷為正樣本,則該窗口圖像即為檢測到的文本區(qū)域。但為了檢測圖像中不同大小的文字,滑動(dòng)窗口需對輸入圖像做多尺度遍歷,該過程將產(chǎn)生數(shù)以億計(jì)的窗口圖像輸入文本/非文本分類器進(jìn)行判斷,使得該方法非常耗費(fèi)時(shí)間,處理速度慢。
[0004]且現(xiàn)有技術(shù)中無論是采用Adaboost分類器或文本/非文本分類器來過濾候選文本行區(qū)域,均需采用人為設(shè)計(jì)文本特征輸入分類器來過濾候選文本行區(qū)域。但由于圖像中文字字體和樣式變化多樣,沒有固定形態(tài),因此無法通過一種或多種特征融合的方法檢測圖像中變化多樣的文字。且人為設(shè)計(jì)文本特征規(guī)則需通過設(shè)置經(jīng)驗(yàn)閾值實(shí)現(xiàn)候選文本行區(qū)域過濾,而不同類型圖像可能對應(yīng)不同經(jīng)驗(yàn)閾值,因此人為設(shè)計(jì)文本特征規(guī)則無法通用于不同圖像類型的文本區(qū)域檢測。
[0005]綜上所述,由于現(xiàn)有技術(shù)存在缺乏通用性、準(zhǔn)確性低及速度慢的問題,導(dǎo)致現(xiàn)有技術(shù)不能夠適用于不同類型圖像、不同語言文字、不同風(fēng)格字體的文本區(qū)域檢測,無法準(zhǔn)確的檢測到圖像中的文本區(qū)域,及檢測過程非常耗費(fèi)時(shí)間。
【發(fā)明內(nèi)容】
[0006]本申請?zhí)峁┮环N圖像中文本區(qū)域檢測方法、裝置及電子設(shè)備,以解決現(xiàn)有技術(shù)存在缺乏通用性、準(zhǔn)確性低及速度慢的問題。
[0007]本申請?zhí)峁┮环N圖像中文本區(qū)域檢測方法,包括:
[0008]從目標(biāo)圖像中提取候選文本行區(qū)域圖像;
[0009]采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記;
[0010]將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。
[0011]可選的,所述深度學(xué)習(xí)文本/非文本分類器所采用框架為Cuda-Convent框架。
[0012]可選的,所述Cuda-Convent框架上配置有五層隱層。
[0013]可選的,所述Cuda-Convent框架上的五層隱層從輸入到輸出依次為第一卷積層、第一 Pooling層、第二卷積層、第二 Pooling層和全連接層。
[0014]可選的,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記,具體包括:
[0015]利用滑動(dòng)窗口遍歷所述候選文本行區(qū)域圖像,并截取所述滑動(dòng)窗口所對應(yīng)的所述候選文本行區(qū)域圖像作為所述候選文本行區(qū)域圖像的窗口圖像;
[0016]通過所述深度學(xué)習(xí)文本/非文本分類器計(jì)算遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;
[0017]若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域。
[0018]可選的,所述若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域的步驟中,所述閾值采用如下方式獲得:
[0019]記錄遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;
[0020]根據(jù)各個(gè)所述窗口圖像為文本區(qū)域的概率,計(jì)算所述候選文本行區(qū)域圖像為文本區(qū)域的平均概率,以該平均概率為所述預(yù)定的閾值,或者以該平均概率為基礎(chǔ),將高于或者低于該平均概率一個(gè)預(yù)定數(shù)值的概率值作為所述預(yù)定的閾值。
[0021]可選的,在所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷的步驟之前,對所述深度學(xué)習(xí)文本/非文本分類器進(jìn)行訓(xùn)練,包括:向所述深度學(xué)習(xí)文本/非文本分類器提供m列*n行像素的文本圖像作為正樣本,以及m列*n行像素的非文本圖像作為負(fù)樣本,其中,m,η均為固定的整數(shù)值。
[0022]可選的,所述正樣本為24列*24行像素的文本圖像,所述負(fù)樣本為24列*24行像素的非文本圖像。
[0023]可選的,所述從目標(biāo)圖像中提取候選文本行區(qū)域圖像,具體包括:
[0024]對所述目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像;
[0025]對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。
[0026]可選的,所述對目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像,具體包括:
[0027]接收所述目標(biāo)圖像;
[0028]采用Canny算法計(jì)算所述目標(biāo)圖像的邊緣圖像;
[0029]采用顏色空間轉(zhuǎn)換算法計(jì)算所述目標(biāo)圖像的灰度圖像;
[0030]根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素;
[0031]將所述邊緣圖像中除所述邊緣像素及其8鄰域像素以外的其它像素,標(biāo)記為未知像素;
[0032]根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素;
[0033]以所述邊緣圖像中標(biāo)記為所述前景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第一二值圖像,以所述邊緣圖像中標(biāo)記為所述背景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第二二值圖像。
[0034]可選的,所述根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素,具體包括:
[0035]獲取所述邊緣圖像中被選定邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值;
[0036]計(jì)算所述被選定邊緣像素及其8鄰域像素的灰度值的灰度均值;
[0037]依次將所述被選定邊緣像素及其8鄰域像素的灰度值與所述灰度均值進(jìn)行比較,若被比較像素的灰度值小于所述灰度均值,則將該被比較像素標(biāo)記為所述前景圖像像素,反之,標(biāo)記為所述背景圖像像素。
[0038]可選的,所述根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素,具體包括:
[0039]統(tǒng)計(jì)所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目;
[0040]將所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目進(jìn)行比較;
[0041]若所述前景圖像像素的數(shù)目大于所述背景圖像像素的數(shù)目,則將所有所述未知像素標(biāo)記為所述前景圖像像素,反之,則標(biāo)記為所述背景圖像像素。
[0042]可選的,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體為:分別對所述第一二值圖像和所述第二二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的第一候選文本行區(qū)域圖像和第二候選文本行區(qū)域圖像。
[0043]可選的,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,具體為:采用深度學(xué)習(xí)文本/非文本分類器分別對所述第一候選文本行區(qū)域圖像和所述第二候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷。
[0044]可選的,所述將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域,具體包括:
[0045]合并所述第一候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第一文本區(qū)域,合并所述第二候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第二文本區(qū)域;
[0046]合并所述第一文本區(qū)域和所述第二文本區(qū)域,并去除所述第一文本區(qū)域與所述第二文本區(qū)域相重疊的區(qū)域,獲得所述目標(biāo)圖像的文本區(qū)域。
[0047]可選的,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體包括:
[0048]接收所述二值圖像;
[0049]對所述二值圖像進(jìn)行連通域分析,獲得所述二值圖像的連通域;
[0050]合并所述二值圖像中相重疊的所述連通域,獲得所述目標(biāo)圖像的候選文本區(qū)域圖像;
[0051]根據(jù)所述候選文本區(qū)域圖像之間的位置關(guān)系和特征關(guān)系,合并所述二值圖像中的所述候選文本區(qū)域圖像,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。
[0052]可選的,所述候選文本區(qū)域圖像的特征包括所述候選文本區(qū)域圖像的長寬比和所述候選文本區(qū)域圖像的顏色。
[0053]可選的,所述獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像后,輸出該候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo),具體方式為:
[0054]計(jì)算獲得所述候選文本行區(qū)域圖像的外接矩形;
[0055]獲得所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo),將其作為所述候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo)。
[0056]可選的,所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo)以下述任意一種方式表示:
[0057]所述外接矩形的四個(gè)頂點(diǎn)的坐標(biāo)位置;
[0058]所述外接矩形的一個(gè)頂點(diǎn)的坐標(biāo)位置以及該外接矩形的長度尺寸。
[0059]可選的,所述獲得所述目標(biāo)圖像的文本區(qū)域,具體為:
[0060]通過計(jì)算獲得所述文本區(qū)域在所述目標(biāo)圖像中的坐標(biāo)。
[0061]相應(yīng)的,本申請還提供一種圖像中文本區(qū)域檢測裝置,包括:
[0062]候選文本行區(qū)域圖像提取單元,用于從目標(biāo)圖像中提取候選文本行區(qū)域圖像;
[0063]候選文本行區(qū)域圖像判斷單元,用于讀取所述候選文本行區(qū)域圖像提取單元提供的所述候選文本行區(qū)域圖像,采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記;
[0064]文本區(qū)域獲得單元,用于讀取所述候選文本行區(qū)域圖像判斷單元提供的標(biāo)記為文本區(qū)域的所述分區(qū),將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。
[0065]可選的,所述深度學(xué)習(xí)文本/非文本分類器所采用框架為Cuda-Convent框架。
[0066]可選的,所述Cuda-Convent框架上配置有五層隱層。
[0067]可選的,所述Cuda-Convent框架上的五層隱層從輸入到輸出依次為第一卷積層、第一 Pooling層、第二卷積層、第二 Pooling層和全連接層。
[0068]可選的,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記,具體包括:
[0069]利用滑動(dòng)窗口遍歷所述候選文本行區(qū)域圖像,并截取所述滑動(dòng)窗口所對應(yīng)的所述候選文本行區(qū)域圖像作為所述候選文本行區(qū)域圖像的窗口圖像;
[0070]通過所述深度學(xué)習(xí)文本/非文本分類器計(jì)算遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;
[0071]若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域。
[0072]可選的,所述若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域的步驟中,所述閾值采用如下方式獲得:
[0073]記錄遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;
[0074]根據(jù)各個(gè)所述窗口圖像為文本區(qū)域的概率,計(jì)算所述候選文本行區(qū)域圖像為文本區(qū)域的平均概率,以該平均概率為所述預(yù)定的閾值,或者以該平均概率為基礎(chǔ),將高于或者低于該平均概率一個(gè)預(yù)定數(shù)值的概率值作為所述預(yù)定的閾值。
[0075]可選的,在所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷的步驟之前,對所述深度學(xué)習(xí)文本/非文本分類器進(jìn)行訓(xùn)練,包括:樣本提供單元,用于向所述深度學(xué)習(xí)文本/非文本分類器提供m列*n行像素的文本圖像作為正樣本,以及m列*n行像素的非文本圖像作為負(fù)樣本,其中,m,η均為固定的整數(shù)值。
[0076]可選的,所述正樣本為24列*24行像素的文本圖像,所述負(fù)樣本為24列*24行像素的非文本圖像。
[0077]可選的,所述從目標(biāo)圖像中提取候選文本行區(qū)域圖像,具體包括:
[0078]對所述目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像;
[0079]對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。
[0080]可選的,所述對目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像,具體包括:
[0081]接收所述目標(biāo)圖像;
[0082]采用Canny算法計(jì)算所述目標(biāo)圖像的邊緣圖像;
[0083]采用顏色空間轉(zhuǎn)換算法計(jì)算所述目標(biāo)圖像的灰度圖像;
[0084]根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素;
[0085]將所述邊緣圖像中除所述邊緣像素及其8鄰域像素以外的其它像素,標(biāo)記為未知像素;
[0086]根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素;
[0087]以所述邊緣圖像中標(biāo)記為所述前景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第一二值圖像,以所述邊緣圖像中標(biāo)記為所述背景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第二二值圖像。
[0088]可選的,所述根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素,具體包括:
[0089]獲取所述邊緣圖像中被選定邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值;
[0090]計(jì)算所述被選定邊緣像素及其8鄰域像素的灰度值的灰度均值;
[0091]依次將所述被選定邊緣像素及其8鄰域像素的灰度值與所述灰度均值進(jìn)行比較,若被比較像素的灰度值小于所述灰度均值,則將該被比較像素標(biāo)記為所述前景圖像像素,反之,標(biāo)記為所述背景圖像像素。
[0092]可選的,所述根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素,具體包括:
[0093]統(tǒng)計(jì)所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目;
[0094]將所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目進(jìn)行比較;
[0095]若所述前景圖像像素的數(shù)目大于所述背景圖像像素的數(shù)目,則將所有所述未知像素標(biāo)記為所述前景圖像像素,反之,則標(biāo)記為所述背景圖像像素。
[0096]可選的,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體為:分別對所述第一二值圖像和所述第二二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的第一候選文本行區(qū)域圖像和第二候選文本行區(qū)域圖像。
[0097]可選的,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,具體為:采用深度學(xué)習(xí)文本/非文本分類器分別對所述第一候選文本行區(qū)域圖像和所述第二候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷。
[0098]可選的,所述將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域,具體包括:
[0099]合并所述第一候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第一文本區(qū)域,合并所述第二候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第二文本區(qū)域;
[0100]合并所述第一文本區(qū)域和所述第二文本區(qū)域,并去除所述第一文本區(qū)域與所述第二文本區(qū)域相重疊的區(qū)域,獲得所述目標(biāo)圖像的文本區(qū)域。
[0101]可選的,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體包括:
[0102]接收所述二值圖像;
[0103]對所述二值圖像進(jìn)行連通域分析,獲得所述二值圖像的連通域;
[0104]合并所述二值圖像中相重疊的所述連通域,獲得所述目標(biāo)圖像的候選文本區(qū)域圖像;
[0105]根據(jù)所述候選文本區(qū)域圖像之間的位置關(guān)系和特征關(guān)系,合并所述二值圖像中的所述候選文本區(qū)域圖像,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。
[0106]可選的,所述候選文本區(qū)域圖像的特征包括所述候選文本區(qū)域圖像的長寬比和所述候選文本區(qū)域圖像的顏色。
[0107]可選的,所述獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像后,輸出該候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo),具體方式為:
[0108]計(jì)算獲得所述候選文本行區(qū)域圖像的外接矩形;
[0109]獲得所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo),將其作為所述候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo)。
[0110]可選的,所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo)以下述任意一種方式表示:
[0111]所述外接矩形的四個(gè)頂點(diǎn)的坐標(biāo)位置;
[0112]所述外接矩形的一個(gè)頂點(diǎn)的坐標(biāo)位置以及該外接矩形的長度尺寸。
[0113]可選的,所述獲得所述目標(biāo)圖像的文本區(qū)域,具體為:
[0114]通過計(jì)算獲得所述文本區(qū)域在所述目標(biāo)圖像中的坐標(biāo)。
[0115]此外,本申請還提供一種電子設(shè)備,所述電子設(shè)備包括:
[0116]顯示器;
[0117]處理器;
[0118]存儲器,用于存儲圖像中文本區(qū)域檢測文件,所述圖像中文本區(qū)域檢測文件被所述處理器執(zhí)行時(shí),從目標(biāo)圖像中提取候選文本行區(qū)域圖像;采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記;將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。
[0119]可選的,所述深度學(xué)習(xí)文本/非文本分類器所采用框架為Cuda-Convent框架。
[0120]可選的,所述Cuda-Convent框架上配置有五層隱層。
[0121]可選的,所述Cuda-Convent框架上的五層隱層從輸入到輸出依次為第一卷積層、第一 Pooling層、第二卷積層、第二 Pooling層和全連接層。
[0122]可選的,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記,具體包括:
[0123]利用滑動(dòng)窗口遍歷所述候選文本行區(qū)域圖像,并截取所述滑動(dòng)窗口所對應(yīng)的所述候選文本行區(qū)域圖像作為所述候選文本行區(qū)域圖像的窗口圖像;
[0124]通過所述深度學(xué)習(xí)文本/非文本分類器計(jì)算遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;
[0125]若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域。
[0126]可選的,所述若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域的步驟中,所述閾值采用如下方式獲得:
[0127]記錄遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;
[0128]根據(jù)各個(gè)所述窗口圖像為文本區(qū)域的概率,計(jì)算所述候選文本行區(qū)域圖像為文本區(qū)域的平均概率,以該平均概率為所述預(yù)定的閾值,或者以該平均概率為基礎(chǔ),將高于或者低于該平均概率一個(gè)預(yù)定數(shù)值的概率值作為所述預(yù)定的閾值。
[0129]可選的,在所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷的步驟之前,對所述深度學(xué)習(xí)文本/非文本分類器進(jìn)行訓(xùn)練,包括:向所述深度學(xué)習(xí)文本/非文本分類器提供m列*n行像素的文本圖像作為正樣本,以及m列*n行像素的非文本圖像作為負(fù)樣本,其中,m,η均為固定的整數(shù)值。
[0130]可選的,所述正樣本為24列*24行像素的文本圖像,所述負(fù)樣本為24列*24行像素的非文本圖像。
[0131]與現(xiàn)有技術(shù)相比,本申請具有以下優(yōu)點(diǎn):
[0132]本申請?zhí)峁┑膱D像中文本區(qū)域檢測方法、裝置及電子設(shè)備,通過從目標(biāo)圖像中提取候選文本行區(qū)域圖像;采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記;將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。該技術(shù)方案采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器,對候選文本行區(qū)域圖像進(jìn)行判斷,實(shí)現(xiàn)適用于不同類型圖像、不同語言文字、不同風(fēng)格字體的文字區(qū)域檢測,使得該技術(shù)方案具備通用性;通過對候選文本行區(qū)域圖像進(jìn)行分區(qū)域判斷,提高對文本行區(qū)域多樣性的適應(yīng)能力及抗噪聲干擾能力,保證檢測結(jié)果的準(zhǔn)確性;通過先提取出候選文本行區(qū)域再對該區(qū)域進(jìn)行是否為文本區(qū)域判斷,極大減少分類器判斷區(qū)域,提高檢測速度。
【附圖說明】
[0133]為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0134]圖1為本申請的圖像中文本區(qū)域檢測方法實(shí)施例的流程圖;
[0135]圖2為本申請的圖像中文本區(qū)域檢測裝置實(shí)施例的示意圖;
[0136]圖3為本申請的電子設(shè)備實(shí)施例的示意圖。
【具體實(shí)施方式】
[0137]在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本申請。但是本申請能夠以很多不同于在此描述的其它方式來實(shí)施,本領(lǐng)域技術(shù)人員可以在不違背本申請內(nèi)涵的情況下做類似推廣,因此本申請不受下面公開的具體實(shí)施的限制。
[0138]本申請分別提供一種圖像中文本區(qū)域檢測方法和裝置,以及一種電子設(shè)備,以下為具體實(shí)施例:
[0139]如圖1所示,其為本申請的圖像中文本區(qū)域檢測方法實(shí)施例的流程圖。所述方法包括如下步驟:
[0140]步驟SlOl:從目標(biāo)圖像中提取候選文本行區(qū)域圖像。
[0141]在進(jìn)行圖像中文本區(qū)域檢測前,需選定一張圖像作為被檢測的目標(biāo)圖像,并輸入圖像中文本區(qū)域檢測裝置,該裝置則接收輸入的目標(biāo)圖像。在本申請中,該目標(biāo)圖像可以為各種類型的圖像,如,自然場景圖像、廣告圖像、商品圖像、海報(bào)圖像、文檔掃描圖像等。該目標(biāo)圖像中的文本亦可以為不同種語言的文字,其文本風(fēng)格亦可以為不同風(fēng)格字體,如,常規(guī)打印字體或PS的花樣字體等。
[0142]由于圖像中文本區(qū)域檢測方法作為圖像文本識別方法的基礎(chǔ)技術(shù),其往往會在其它處理算法的預(yù)處理階段被執(zhí)行,因此要求圖像中文本區(qū)域檢測方法應(yīng)具備實(shí)時(shí)處理的執(zhí)行效率,這就需要提高文本區(qū)域檢測速度。在本申請中,為了提高文本區(qū)域檢測速度,在進(jìn)行圖像中文本區(qū)域檢測時(shí),首先需從目標(biāo)圖像中提取候選文本行區(qū)域圖像,這樣即可先從目標(biāo)圖像中去除明顯的非文本區(qū)域,極大減少后續(xù)分類器判斷區(qū)域,實(shí)現(xiàn)提高檢測速度。
[0143]需說明的是,在本實(shí)施例中,所述從目標(biāo)圖像中提取候選文本行區(qū)域圖像,具體可包括:1)對所述目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像;2)對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。當(dāng)然,在本實(shí)施例中,從目標(biāo)圖像中提取候選文本行區(qū)域圖像過程,可以采用上述所述方法實(shí)現(xiàn),在其它實(shí)施例中,其也可以采用其它方法實(shí)現(xiàn)。
[0144]I)對所述目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像,可以采用基于邊緣的二值化方法實(shí)現(xiàn),即在本實(shí)施例中,所述對目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像,具體可包括:接收所述目標(biāo)圖像;采用Canny算法計(jì)算所述目標(biāo)圖像的邊緣圖像;采用顏色空間轉(zhuǎn)換算法計(jì)算所述目標(biāo)圖像的灰度圖像;根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素;將所述邊緣圖像中除所述邊緣像素及其8鄰域像素以外的其它像素,標(biāo)記為未知像素;根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素;以所述邊緣圖像中標(biāo)記為所述前景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第一二值圖像,以所述邊緣圖像中標(biāo)記為所述背景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第二二值圖像。
[0145]在本實(shí)施例中,所述根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素,具體可包括:獲取所述邊緣圖像中被選定邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值;計(jì)算所述被選定邊緣像素及其8鄰域像素的灰度值的灰度均值;依次將所述被選定邊緣像素及其8鄰域像素的灰度值與所述灰度均值進(jìn)行比較,若被比較像素的灰度值小于所述灰度均值,則將該被比較像素標(biāo)記為所述前景圖像像素,反之,標(biāo)記為所述背景圖像像素。如,從邊緣圖像中選定一個(gè)邊緣像素記為P(i,j),找到包括P(i,j)及其8鄰域像素在內(nèi)的9個(gè)像素在灰度圖像中對應(yīng)位置的灰度值;計(jì)算該9個(gè)像素灰度值的灰度均值,記為Gy ;依次將該9個(gè)像素在灰度圖像中對應(yīng)的灰度值與該灰度均值Gy進(jìn)行比較,若像素點(diǎn)灰度值小于Gy,則將該像素點(diǎn)標(biāo)記為前景圖像像素,記為TEXT,反之,則標(biāo)記為背景圖像像素,記為BACK。
[0146]在本實(shí)施例中,所述根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素,具體可包括:統(tǒng)計(jì)所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目;將所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目進(jìn)行比較;若所述前景圖像像素的數(shù)目大于所述背景圖像像素的數(shù)目,則將所有所述未知像素標(biāo)記為所述前景圖像像素,反之,則標(biāo)記為所述背景圖像像素。如,若將未知像素記為UNKNOWN,那么上述對未知像素進(jìn)行分類標(biāo)記過程為,首先統(tǒng)計(jì)邊緣圖像中標(biāo)記為UNKNOWN區(qū)域邊緣中BACK像素和TEXT像素的數(shù)目;若UNKNOWN區(qū)域邊緣中BACK像素?cái)?shù)目大于TEXT像素的數(shù)目,則將UNKNOW區(qū)域所有像素標(biāo)記為BACK,反之,則將UNKNOWN區(qū)域所有像素標(biāo)記為TEXT。從而將一張由TEXT、BACK和UNKNOWN三種標(biāo)簽構(gòu)成的邊緣圖像,變?yōu)橐粡堄蒚EXT和BACK兩種標(biāo)簽構(gòu)成的邊緣圖像。
[0147]上述對目標(biāo)圖像進(jìn)行二值化處理過程,通過Canny算法(即邊緣檢測算法)計(jì)算目標(biāo)圖像的邊緣圖像,接著根據(jù)灰度值將邊緣圖像標(biāo)記為由TEXT、BACK和UNKNOWN三個(gè)標(biāo)簽構(gòu)成的三值圖,對UNKNOWN進(jìn)行分類標(biāo)記,最后分別以TEXT和BACK作為前景像素對邊緣圖像進(jìn)行二值化,最終得到目標(biāo)圖像的二值化圖像。該過程可以更好的保留目標(biāo)圖像中細(xì)小的文字,同時(shí)可以從目標(biāo)圖像中去除更多的非文本區(qū)域。當(dāng)然,在目標(biāo)圖像中不含細(xì)小文字或不必檢測目標(biāo)圖像中細(xì)小文字等情況下,上述對目標(biāo)圖像進(jìn)行二值化處理過程,也可以米用其它方法實(shí)現(xiàn),如,Niblack算法。
[0148]2)對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,可以通過連通域分析、基于文本區(qū)域間位置關(guān)系及特征關(guān)系合并文本區(qū)域方法實(shí)現(xiàn),即在本實(shí)施例中,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體包括:接收所述二值圖像;對所述二值圖像進(jìn)行連通域分析,獲得所述二值圖像的連通域;合并所述二值圖像中相重疊的所述連通域,獲得所述目標(biāo)圖像的候選文本區(qū)域圖像;根據(jù)所述候選文本區(qū)域圖像之間的位置關(guān)系和特征關(guān)系,合并所述二值圖像中的所述候選文本區(qū)域圖像,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。
[0149]在本實(shí)施例中,所述候選文本區(qū)域圖像的特征包括所述候選文本區(qū)域圖像的長寬比和所述候選文本區(qū)域圖像的顏色。
[0150]在本實(shí)施例中,所述獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像后,輸出該候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo),具體方式為:計(jì)算獲得所述候選文本行區(qū)域圖像的外接矩形;獲得所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo),將其作為所述候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo)。需說明的是,在本實(shí)施例中,所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo)以下述任意一種方式表示:所述外接矩形的四個(gè)頂點(diǎn)的坐標(biāo)位置;所述外接矩形的一個(gè)頂點(diǎn)的坐標(biāo)位置以及該外接矩形的長度尺寸。
[0151]上述利用文本區(qū)域空間位置關(guān)系和特征關(guān)系實(shí)現(xiàn)文本行聚類,獲得候選文本行區(qū)域圖像,該版面分析方法支持水平文本行、垂直文本行以及小角度傾斜的文本行,且簡單穩(wěn)定、速度快。當(dāng)然,在不要求處理速度或其它情況下,該版面分析方法也可以采用其它方法,如,Metric Learning等機(jī)器學(xué)習(xí)方法,其通過計(jì)算候選文本區(qū)域之間的相似性實(shí)現(xiàn)文本行聚類。
[0152]需說明的是,在通過對目標(biāo)圖像進(jìn)行二值化處理,獲得第一二值圖像和第二二值圖像兩張二值圖像的情況下,所述對二值圖像進(jìn)行版面分析具體為,即在本實(shí)施例中,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體為:分別對所述第一二值圖像和所述第二二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的第一候選文本行區(qū)域圖像和第二候選文本行區(qū)域圖像。
[0153]步驟S102:采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記。
[0154]通過上述步驟SlOl獲得了目標(biāo)圖像的候選文本行區(qū)域,要完成目標(biāo)圖像中文本區(qū)域檢測,在本步驟中還需對候選文本行區(qū)域進(jìn)行是否為文本區(qū)域的判斷,進(jìn)一步去除候選文本行區(qū)域中的非文本區(qū)域。
[0155]為了使得本申請所提供的方法具備通用性,即可以適用于不同類型圖像、不同語言文字、不同風(fēng)格字體的文字區(qū)域檢測,在本申請中,采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像進(jìn)行是否為文本區(qū)域的判斷。該深度學(xué)習(xí)文本/非文本分類器通過多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),從訓(xùn)練樣本中自動(dòng)學(xué)習(xí)和文本相關(guān)特征,通過豐富訓(xùn)練圖像正樣本中文本的多樣性即能訓(xùn)練得到一個(gè)能夠適應(yīng)不同形態(tài)字體的文本/非文本分類器。且由于該深度學(xué)習(xí)文本/非文本分類器不需要人為設(shè)計(jì)文本特征,使其分類精度遠(yuǎn)遠(yuǎn)超越其它分類器。
[0156]為了使得本申請所提供的方法具備準(zhǔn)確性,在本申請中,在對候選文本行區(qū)域圖像進(jìn)行判斷時(shí),采用分區(qū)方式對候選文本行區(qū)域圖像進(jìn)行是否為文本區(qū)域判斷,這樣提高了對文本行區(qū)域多樣性的適應(yīng)能力及抗噪聲干擾能力,保證了檢測結(jié)果的準(zhǔn)確性。
[0157]因此,在獲得了目標(biāo)圖像的候選文本行區(qū)域后,要實(shí)施本申請所提供的方法,在本步驟中,還需采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記。
[0158]關(guān)于本步驟中所采用的深度學(xué)習(xí)文本/非文本分類器,在本實(shí)施例中,所述深度學(xué)習(xí)文本/非文本分類器所采用框架可以為Cuda-Convent框架。在本實(shí)施例中,所述Cuda-Convent框架上配置有五層隱層。在本實(shí)施例中,所述Cuda-Convent框架上的五層隱層從輸入到輸出依次為第一卷積層、第一 Pooling層、第二卷積層、第二 Pooling層和全連接層。
[0159]關(guān)于本步驟中所采用的深度學(xué)習(xí)文本/非文本分類器,需說明的是,在本實(shí)施例中,在所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷的步驟之前,對所述深度學(xué)習(xí)文本/非文本分類器進(jìn)行訓(xùn)練,包括:向所述深度學(xué)習(xí)文本/非文本分類器提供m列*n行像素的文本圖像作為正樣本,以及m列*n行像素的非文本圖像作為負(fù)樣本,其中,m,η均為固定的整數(shù)值。在本實(shí)施例中,所述正樣本為24列*24行像素的文本圖像,所述負(fù)樣本為24列*24行像素的非文本圖像。
[0160]關(guān)于本步驟中所采用的分區(qū)方式,需說明的是,上述所述分區(qū)方式可以采用滑動(dòng)窗口實(shí)現(xiàn),在這種情況下,本步驟具體包括,即在本實(shí)施例中,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記,具體包括:利用滑動(dòng)窗口遍歷所述候選文本行區(qū)域圖像,并截取所述滑動(dòng)窗口所對應(yīng)的所述候選文本行區(qū)域圖像作為所述候選文本行區(qū)域圖像的窗口圖像;通過所述深度學(xué)習(xí)文本/非文本分類器計(jì)算遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域。
[0161]在本實(shí)施例中,所述若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域的步驟中,所述閾值可采用如下方式獲得:記錄遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;根據(jù)各個(gè)所述窗口圖像為文本區(qū)域的概率,計(jì)算所述候選文本行區(qū)域圖像為文本區(qū)域的平均概率,以該平均概率為所述預(yù)定的閾值,或者以該平均概率為基礎(chǔ),將高于或者低于該平均概率一個(gè)預(yù)定數(shù)值的概率值作為所述預(yù)定的閾值。
[0162]需說明的是,在分別對第一二值圖像和第二二值圖像進(jìn)行版面分析,獲得第一候選文本行區(qū)域圖像和第二候選文本行區(qū)域圖像兩張候選文本行區(qū)域圖像的情況下,本步驟具體為,即在本實(shí)施例中,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,具體為:采用深度學(xué)習(xí)文本/非文本分類器分別對所述第一候選文本行區(qū)域圖像和所述第二候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷。
[0163]步驟S103:將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。
[0164]執(zhí)行完上述步驟S102,即可獲得一個(gè)或多個(gè)標(biāo)記為文本區(qū)域的候選文本行區(qū)域圖像的分區(qū),要最終完成目標(biāo)圖像中文本區(qū)域檢測,在本步驟中還需將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。最終實(shí)現(xiàn)采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器,對候選文本行區(qū)域圖像進(jìn)行判斷,實(shí)現(xiàn)適用于不同類型圖像、不同語言文字、不同風(fēng)格字體的文字區(qū)域檢測,使得該技術(shù)方案具備通用性;通過對候選文本行區(qū)域圖像進(jìn)行分區(qū)域判斷,提高對文本行區(qū)域多樣性的適應(yīng)能力及抗噪聲干擾能力,保證檢測結(jié)果的準(zhǔn)確性;通過先提取出候選文本行區(qū)域再對該區(qū)域進(jìn)行是否為文本區(qū)域判斷,極大減少分類器判斷區(qū)域,提高檢測速度。
[0165]在本實(shí)施例中,所述獲得所述目標(biāo)圖像的文本區(qū)域,具體可以為:通過計(jì)算獲得所述文本區(qū)域在所述目標(biāo)圖像中的坐標(biāo)。即最終可以通過坐標(biāo)形式,表示出從目標(biāo)圖像中檢測到的文本區(qū)域,以便從目標(biāo)圖像中讀取出檢測到的文本區(qū)域。
[0166]需說明的是,在分別對第一二值圖像和第二二值圖像進(jìn)行版面分析,獲得第一候選文本行區(qū)域圖像和第二候選文本行區(qū)域圖像兩張候選文本行區(qū)域圖像的情況下,本步驟具體可以為,即在本實(shí)施例中,所述將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域,具體包括:合并所述第一候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第一文本區(qū)域,合并所述第二候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第二文本區(qū)域;合并所述第一文本區(qū)域和所述第二文本區(qū)域,并去除所述第一文本區(qū)域與所述第二文本區(qū)域相重疊的區(qū)域,獲得所述目標(biāo)圖像的文本區(qū)域。
[0167]在上述的實(shí)施例中,提供了一種圖像中文本區(qū)域檢測方法,與之相對應(yīng)的,本申請還提供一種圖像中文本區(qū)域檢測裝置。如圖2所示,其為本申請的圖像中文本區(qū)域檢測裝置實(shí)施例的示意圖。由于裝置實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的裝置實(shí)施例僅僅是示意性的。
[0168]本實(shí)施例的一種圖像中文本區(qū)域檢測裝置,包括:
[0169]候選文本行區(qū)域圖像提取單元201,用于從目標(biāo)圖像中提取候選文本行區(qū)域圖像;
[0170]候選文本行區(qū)域圖像判斷單元202,用于讀取所述候選文本行區(qū)域圖像提取單元提供的所述候選文本行區(qū)域圖像,采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記;
[0171]文本區(qū)域獲得單元203,用于讀取所述候選文本行區(qū)域圖像判斷單元提供的標(biāo)記為文本區(qū)域的所述分區(qū),將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。
[0172]可選的,所述深度學(xué)習(xí)文本/非文本分類器所采用框架為Cuda-Convent框架。
[0173]可選的,所述Cuda-Convent框架上配置有五層隱層。
[0174]可選的,所述Cuda-Convent框架上的五層隱層從輸入到輸出依次為第一卷積層、第一 Pooling層、第二卷積層、第二 Pooling層和全連接層。
[0175]可選的,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記,具體包括:
[0176]利用滑動(dòng)窗口遍歷所述候選文本行區(qū)域圖像,并截取所述滑動(dòng)窗口所對應(yīng)的所述候選文本行區(qū)域圖像作為所述候選文本行區(qū)域圖像的窗口圖像;
[0177]通過所述深度學(xué)習(xí)文本/非文本分類器計(jì)算遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;
[0178]若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域。
[0179]可選的,所述若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域的步驟中,所述閾值采用如下方式獲得:
[0180]記錄遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;
[0181]根據(jù)各個(gè)所述窗口圖像為文本區(qū)域的概率,計(jì)算所述候選文本行區(qū)域圖像為文本區(qū)域的平均概率,以該平均概率為所述預(yù)定的閾值,或者以該平均概率為基礎(chǔ),將高于或者低于該平均概率一個(gè)預(yù)定數(shù)值的概率值作為所述預(yù)定的閾值。
[0182]可選的,在所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷的步驟之前,對所述深度學(xué)習(xí)文本/非文本分類器進(jìn)行訓(xùn)練,包括:樣本提供單元,用于向所述深度學(xué)習(xí)文本/非文本分類器提供m列*n行像素的文本圖像作為正樣本,以及m列*n行像素的非文本圖像作為負(fù)樣本,其中,m,η均為固定的整數(shù)值。
[0183]可選的,所述正樣本為24列*24行像素的文本圖像,所述負(fù)樣本為24列*24行像素的非文本圖像。
[0184]可選的,所述從目標(biāo)圖像中提取候選文本行區(qū)域圖像,具體包括:
[0185]對所述目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像;
[0186]對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。
[0187]可選的,所述對目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像,具體包括:
[0188]接收所述目標(biāo)圖像;
[0189]采用Canny算法計(jì)算所述目標(biāo)圖像的邊緣圖像;
[0190]采用顏色空間轉(zhuǎn)換算法計(jì)算所述目標(biāo)圖像的灰度圖像;
[0191]根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素;
[0192]將所述邊緣圖像中除所述邊緣像素及其8鄰域像素以外的其它像素,標(biāo)記為未知像素;
[0193]根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素;
[0194]以所述邊緣圖像中標(biāo)記為所述前景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第一二值圖像,以所述邊緣圖像中標(biāo)記為所述背景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第二二值圖像。
[0195]可選的,所述根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素,具體包括:
[0196]獲取所述邊緣圖像中被選定邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值;
[0197]計(jì)算所述被選定邊緣像素及其8鄰域像素的灰度值的灰度均值;
[0198]依次將所述被選定邊緣像素及其8鄰域像素的灰度值與所述灰度均值進(jìn)行比較,若被比較像素的灰度值小于所述灰度均值,則將該被比較像素標(biāo)記為所述前景圖像像素,反之,標(biāo)記為所述背景圖像像素。
[0199]可選的,所述根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素,具體包括:
[0200]統(tǒng)計(jì)所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目;
[0201]將所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目進(jìn)行比較;
[0202]若所述前景圖像像素的數(shù)目大于所述背景圖像像素的數(shù)目,則將所有所述未知像素標(biāo)記為所述前景圖像像素,反之,則標(biāo)記為所述背景圖像像素。
[0203]可選的,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體為:分別對所述第一二值圖像和所述第二二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的第一候選文本行區(qū)域圖像和第二候選文本行區(qū)域圖像。
[0204]可選的,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,具體為:采用深度學(xué)習(xí)文本/非文本分類器分別對所述第一候選文本行區(qū)域圖像和所述第二候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷。
[0205]可選的,所述將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域,具體包括:
[0206]合并所述第一候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第一文本區(qū)域,合并所述第二候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第二文本區(qū)域;
[0207]合并所述第一文本區(qū)域和所述第二文本區(qū)域,并去除所述第一文本區(qū)域與所述第二文本區(qū)域相重疊的區(qū)域,獲得所述目標(biāo)圖像的文本區(qū)域。
[0208]可選的,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體包括:
[0209]接收所述二值圖像;
[0210]對所述二值圖像進(jìn)行連通域分析,獲得所述二值圖像的連通域;
[0211]合并所述二值圖像中相重疊的所述連通域,獲得所述目標(biāo)圖像的候選文本區(qū)域圖像;
[0212]根據(jù)所述候選文本區(qū)域圖像之間的位置關(guān)系和特征關(guān)系,合并所述二值圖像中的所述候選文本區(qū)域圖像,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。
[0213]可選的,所述候選文本區(qū)域圖像的特征包括所述候選文本區(qū)域圖像的長寬比和所述候選文本區(qū)域圖像的顏色。
[0214]可選的,所述獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像后,輸出該候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo),具體方式為:
[0215]計(jì)算獲得所述候選文本行區(qū)域圖像的外接矩形;
[0216]獲得所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo),將其作為所述候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo)。
[0217]可選的,所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo)以下述任意一種方式表示:
[0218]所述外接矩形的四個(gè)頂點(diǎn)的坐標(biāo)位置;
[0219]所述外接矩形的一個(gè)頂點(diǎn)的坐標(biāo)位置以及該外接矩形的長度尺寸。
[0220]可選的,所述獲得所述目標(biāo)圖像的文本區(qū)域,具體為:
[0221]通過計(jì)算獲得所述文本區(qū)域在所述目標(biāo)圖像中的坐標(biāo)。
[0222]本申請實(shí)施例還提供了一種電子設(shè)備,如圖3所示,其為本申請的電子設(shè)備實(shí)施例的不意圖。本實(shí)施例的一種電子設(shè)備,所述電子設(shè)備包括:
[0223]顯示器301;
[0224]處理器302 ;
[0225]存儲器303,用于存儲圖像中文本區(qū)域檢測文件,所述圖像中文本區(qū)域檢測文件被所述處理器執(zhí)行時(shí),從目標(biāo)圖像中提取候選文本行區(qū)域圖像;采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記;將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。
[0226]可選的,所述深度學(xué)習(xí)文本/非文本分類器所采用框架為Cuda-Convent框架。
[0227]可選的,所述Cuda-Convent框架上配置有五層隱層。
[0228]可選的,所述Cuda-Convent框架上的五層隱層從輸入到輸出依次為第一卷積層、第一 Pooling層、第二卷積層、第二 Pooling層和全連接層。
[0229]可選的,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記,具體包括:
[0230]利用滑動(dòng)窗口遍歷所述候選文本行區(qū)域圖像,并截取所述滑動(dòng)窗口所對應(yīng)的所述候選文本行區(qū)域圖像作為所述候選文本行區(qū)域圖像的窗口圖像;
[0231]通過所述深度學(xué)習(xí)文本/非文本分類器計(jì)算遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;
[0232]若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域。
[0233]可選的,所述若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域的步驟中,所述閾值采用如下方式獲得:
[0234]記錄遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率;
[0235]根據(jù)各個(gè)所述窗口圖像為文本區(qū)域的概率,計(jì)算所述候選文本行區(qū)域圖像為文本區(qū)域的平均概率,以該平均概率為所述預(yù)定的閾值,或者以該平均概率為基礎(chǔ),將高于或者低于該平均概率一個(gè)預(yù)定數(shù)值的概率值作為所述預(yù)定的閾值。
[0236]可選的,在所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷的步驟之前,對所述深度學(xué)習(xí)文本/非文本分類器進(jìn)行訓(xùn)練,包括:向所述深度學(xué)習(xí)文本/非文本分類器提供m列*n行像素的文本圖像作為正樣本,以及m列*n行像素的非文本圖像作為負(fù)樣本,其中,m,η均為固定的整數(shù)值。
[0237]可選的,所述正樣本為24列*24行像素的文本圖像,所述負(fù)樣本為24列*24行像素的非文本圖像。
[0238]以上對本申請?zhí)峁┑囊环N圖像中文字區(qū)域檢測方法、裝置及電子設(shè)備的實(shí)施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對本申請的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請的方法及其核心思想;同時(shí),對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。
[0239]在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
[0240]內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。
[0241]1、計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲器(DRAM)、其他類型的隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括非暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。
[0242]2、本領(lǐng)域技術(shù)人員應(yīng)明白,本申請的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
【主權(quán)項(xiàng)】
1.一種圖像中文本區(qū)域檢測方法,其特征在于,包括: 從目標(biāo)圖像中提取候選文本行區(qū)域圖像; 采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記; 將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。2.根據(jù)權(quán)利要求1所述的圖像中文本區(qū)域檢測方法,其特征在于,所述深度學(xué)習(xí)文本/非文本分類器所采用框架為Cuda-Convent框架。3.根據(jù)權(quán)利要求2所述的圖像中文本區(qū)域檢測方法,其特征在于,所述Cuda-Convent框架上配置有五層隱層。4.根據(jù)權(quán)利要求3所述的圖像中文本區(qū)域檢測方法,其特征在于,所述Cuda-Convent框架上的五層隱層從輸入到輸出依次為第一卷積層、第一 Pooling層、第二卷積層、第二Pooling層和全連接層。5.根據(jù)權(quán)利要求1所述的圖像中文本區(qū)域檢測方法,其特征在于,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記,具體包括: 利用滑動(dòng)窗口遍歷所述候選文本行區(qū)域圖像,并截取所述滑動(dòng)窗口所對應(yīng)的所述候選文本行區(qū)域圖像作為所述候選文本行區(qū)域圖像的窗口圖像; 通過所述深度學(xué)習(xí)文本/非文本分類器計(jì)算遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率; 若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域。6.根據(jù)權(quán)利要求5所述的圖像中文本區(qū)域檢測方法,其特征在于,所述若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域的步驟中,所述閾值采用如下方式獲得: 記錄遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率; 根據(jù)各個(gè)所述窗口圖像為文本區(qū)域的概率,計(jì)算所述候選文本行區(qū)域圖像為文本區(qū)域的平均概率,以該平均概率為所述預(yù)定的閾值,或者以該平均概率為基礎(chǔ),將高于或者低于該平均概率一個(gè)預(yù)定數(shù)值的概率值作為所述預(yù)定的閾值。7.根據(jù)權(quán)利要求1至6任意一項(xiàng)所述的圖像中文本區(qū)域檢測方法,其特征在于,在所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷的步驟之前,對所述深度學(xué)習(xí)文本/非文本分類器進(jìn)行訓(xùn)練,包括:向所述深度學(xué)習(xí)文本/非文本分類器提供m列*n行像素的文本圖像作為正樣本,以及m列*n行像素的非文本圖像作為負(fù)樣本,其中,m,η均為固定的整數(shù)值。8.根據(jù)權(quán)利要求7所述的圖像中文本區(qū)域檢測方法,其特征在于,所述正樣本為24列*24行像素的文本圖像,所述負(fù)樣本為24列*24行像素的非文本圖像。9.根據(jù)權(quán)利要求1所述的圖像中文本區(qū)域檢測方法,其特征在于,所述從目標(biāo)圖像中提取候選文本行區(qū)域圖像,具體包括: 對所述目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像; 對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。10.根據(jù)權(quán)利要求9所述的圖像中文本區(qū)域檢測方法,其特征在于,所述對目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像,具體包括: 接收所述目標(biāo)圖像; 采用Canny算法計(jì)算所述目標(biāo)圖像的邊緣圖像; 采用顏色空間轉(zhuǎn)換算法計(jì)算所述目標(biāo)圖像的灰度圖像; 根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素; 將所述邊緣圖像中除所述邊緣像素及其8鄰域像素以外的其它像素,標(biāo)記為未知像素; 根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素; 以所述邊緣圖像中標(biāo)記為所述前景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第一二值圖像,以所述邊緣圖像中標(biāo)記為所述背景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第二二值圖像。11.根據(jù)權(quán)利要求10所述的圖像中文本區(qū)域檢測方法,其特征在于,所述根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素,具體包括: 獲取所述邊緣圖像中被選定邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值; 計(jì)算所述被選定邊緣像素及其8鄰域像素的灰度值的灰度均值; 依次將所述被選定邊緣像素及其8鄰域像素的灰度值與所述灰度均值進(jìn)行比較,若被比較像素的灰度值小于所述灰度均值,則將該被比較像素標(biāo)記為所述前景圖像像素,反之,標(biāo)記為所述背景圖像像素。12.根據(jù)權(quán)利要求10所述的圖像中文本區(qū)域檢測方法,其特征在于,所述根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素,具體包括: 統(tǒng)計(jì)所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目; 將所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目進(jìn)行比較; 若所述前景圖像像素的數(shù)目大于所述背景圖像像素的數(shù)目,則將所有所述未知像素標(biāo)記為所述前景圖像像素,反之,則標(biāo)記為所述背景圖像像素。13.根據(jù)權(quán)利要求10所述的圖像中文本區(qū)域檢測方法,其特征在于,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體為:分別對所述第一二值圖像和所述第二二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的第一候選文本行區(qū)域圖像和第二候選文本行區(qū)域圖像。14.根據(jù)權(quán)利要求13所述的圖像中文本區(qū)域檢測方法,其特征在于,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,具體為:采用深度學(xué)習(xí)文本/非文本分類器分別對所述第一候選文本行區(qū)域圖像和所述第二候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷。15.根據(jù)權(quán)利要求14所述的圖像中文本區(qū)域檢測方法,其特征在于,所述將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域,具體包括: 合并所述第一候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第一文本區(qū)域,合并所述第二候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第二文本區(qū)域; 合并所述第一文本區(qū)域和所述第二文本區(qū)域,并去除所述第一文本區(qū)域與所述第二文本區(qū)域相重疊的區(qū)域,獲得所述目標(biāo)圖像的文本區(qū)域。16.根據(jù)權(quán)利要求9所述的圖像中文本區(qū)域檢測方法,其特征在于,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體包括: 接收所述二值圖像; 對所述二值圖像進(jìn)行連通域分析,獲得所述二值圖像的連通域; 合并所述二值圖像中相重疊的所述連通域,獲得所述目標(biāo)圖像的候選文本區(qū)域圖像; 根據(jù)所述候選文本區(qū)域圖像之間的位置關(guān)系和特征關(guān)系,合并所述二值圖像中的所述候選文本區(qū)域圖像,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。17.根據(jù)權(quán)利要求16所述的圖像中文本區(qū)域檢測方法,其特征在于,所述候選文本區(qū)域圖像的特征包括所述候選文本區(qū)域圖像的長寬比和所述候選文本區(qū)域圖像的顏色。18.根據(jù)權(quán)利要求16所述的圖像中文本區(qū)域檢測方法,其特征在于,所述獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像后,輸出該候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo),具體方式為: 計(jì)算獲得所述候選文本行區(qū)域圖像的外接矩形; 獲得所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo),將其作為所述候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo)。19.根據(jù)權(quán)利要求18所述的圖像中文本區(qū)域檢測方法,其特征在于,所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo)以下述任意一種方式表示: 所述外接矩形的四個(gè)頂點(diǎn)的坐標(biāo)位置; 所述外接矩形的一個(gè)頂點(diǎn)的坐標(biāo)位置以及該外接矩形的長度尺寸。20.根據(jù)權(quán)利要求1所述的圖像中文本區(qū)域檢測方法,其特征在于,所述獲得所述目標(biāo)圖像的文本區(qū)域,具體為: 通過計(jì)算獲得所述文本區(qū)域在所述目標(biāo)圖像中的坐標(biāo)。21.一種圖像中文本區(qū)域檢測裝置,其特征在于,包括: 候選文本行區(qū)域圖像提取單元,用于從目標(biāo)圖像中提取候選文本行區(qū)域圖像; 候選文本行區(qū)域圖像判斷單元,用于讀取所述候選文本行區(qū)域圖像提取單元提供的所述候選文本行區(qū)域圖像,采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記; 文本區(qū)域獲得單元,用于讀取所述候選文本行區(qū)域圖像判斷單元提供的標(biāo)記為文本區(qū)域的所述分區(qū),將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。22.根據(jù)權(quán)利要求21所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述深度學(xué)習(xí)文本/非文本分類器所采用框架為Cuda-Convent框架。23.根據(jù)權(quán)利要求22所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述Cuda-Convent框架上配置有五層隱層。24.根據(jù)權(quán)利要求23所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述Cuda-Convent框架上的五層隱層從輸入到輸出依次為第一卷積層、第一 Pooling層、第二卷積層、第二 Pooling層和全連接層。25.根據(jù)權(quán)利要求21所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記,具體包括: 利用滑動(dòng)窗口遍歷所述候選文本行區(qū)域圖像,并截取所述滑動(dòng)窗口所對應(yīng)的所述候選文本行區(qū)域圖像作為所述候選文本行區(qū)域圖像的窗口圖像; 通過所述深度學(xué)習(xí)文本/非文本分類器計(jì)算遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率; 若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域。26.根據(jù)權(quán)利要求25所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域的步驟中,所述閾值采用如下方式獲得: 記錄遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率; 根據(jù)各個(gè)所述窗口圖像為文本區(qū)域的概率,計(jì)算所述候選文本行區(qū)域圖像為文本區(qū)域的平均概率,以該平均概率為所述預(yù)定的閾值,或者以該平均概率為基礎(chǔ),將高于或者低于該平均概率一個(gè)預(yù)定數(shù)值的概率值作為所述預(yù)定的閾值。27.根據(jù)權(quán)利要求21至26任意一項(xiàng)所述的圖像中文本區(qū)域檢測裝置,其特征在于,在所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷的步驟之前,對所述深度學(xué)習(xí)文本/非文本分類器進(jìn)行訓(xùn)練,包括:樣本提供單元,用于向所述深度學(xué)習(xí)文本/非文本分類器提供m列*n行像素的文本圖像作為正樣本,以及m列*n行像素的非文本圖像作為負(fù)樣本,其中,m,n均為固定的整數(shù)值。28.根據(jù)權(quán)利要求27所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述正樣本為24列*24行像素的文本圖像,所述負(fù)樣本為24列*24行像素的非文本圖像。29.根據(jù)權(quán)利要求21所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述從目標(biāo)圖像中提取候選文本行區(qū)域圖像,具體包括: 對所述目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像; 對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。30.根據(jù)權(quán)利要求29所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述對目標(biāo)圖像進(jìn)行二值化處理,獲得所述目標(biāo)圖像的二值圖像,具體包括: 接收所述目標(biāo)圖像; 采用Canny算法計(jì)算所述目標(biāo)圖像的邊緣圖像; 采用顏色空間轉(zhuǎn)換算法計(jì)算所述目標(biāo)圖像的灰度圖像; 根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素; 將所述邊緣圖像中除所述邊緣像素及其8鄰域像素以外的其它像素,標(biāo)記為未知像素; 根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素; 以所述邊緣圖像中標(biāo)記為所述前景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第一二值圖像,以所述邊緣圖像中標(biāo)記為所述背景圖像像素的像素點(diǎn)為前景像素,對所述邊緣圖像進(jìn)行二值化,獲得所述目標(biāo)圖像的第二二值圖像。31.根據(jù)權(quán)利要求30所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述根據(jù)所述邊緣圖像中的邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值,將所述邊緣圖像中的邊緣像素及其8鄰域像素標(biāo)記為前景圖像像素或背景圖像像素,具體包括: 獲取所述邊緣圖像中被選定邊緣像素及其8鄰域像素在所述灰度圖像中的灰度值; 計(jì)算所述被選定邊緣像素及其8鄰域像素的灰度值的灰度均值; 依次將所述被選定邊緣像素及其8鄰域像素的灰度值與所述灰度均值進(jìn)行比較,若被比較像素的灰度值小于所述灰度均值,則將該被比較像素標(biāo)記為所述前景圖像像素,反之,標(biāo)記為所述背景圖像像素。32.根據(jù)權(quán)利要求30所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述根據(jù)所述未知像素區(qū)域邊緣中所述前景圖像像素和所述背景圖像像素的分布,將所述未知像素區(qū)域中的所有像素標(biāo)記為所述前景圖像像素或所述背景圖像像素,具體包括: 統(tǒng)計(jì)所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目; 將所述未知像素區(qū)域邊緣中所述前景圖像像素的數(shù)目和所述背景圖像像素的數(shù)目進(jìn)行比較; 若所述前景圖像像素的數(shù)目大于所述背景圖像像素的數(shù)目,則將所有所述未知像素標(biāo)記為所述前景圖像像素,反之,則標(biāo)記為所述背景圖像像素。33.根據(jù)權(quán)利要求30所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體為:分別對所述第一二值圖像和所述第二二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的第一候選文本行區(qū)域圖像和第二候選文本行區(qū)域圖像。34.根據(jù)權(quán)利要求33所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,具體為:采用深度學(xué)習(xí)文本/非文本分類器分別對所述第一候選文本行區(qū)域圖像和所述第二候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷。35.根據(jù)權(quán)利要求34所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域,具體包括: 合并所述第一候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第一文本區(qū)域,合并所述第二候選文本行區(qū)域圖像中標(biāo)記為文本區(qū)域的所述分區(qū)為第二文本區(qū)域; 合并所述第一文本區(qū)域和所述第二文本區(qū)域,并去除所述第一文本區(qū)域與所述第二文本區(qū)域相重疊的區(qū)域,獲得所述目標(biāo)圖像的文本區(qū)域。36.根據(jù)權(quán)利要求29所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述對所述二值圖像進(jìn)行版面分析,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像,具體包括: 接收所述二值圖像; 對所述二值圖像進(jìn)行連通域分析,獲得所述二值圖像的連通域; 合并所述二值圖像中相重疊的所述連通域,獲得所述目標(biāo)圖像的候選文本區(qū)域圖像;根據(jù)所述候選文本區(qū)域圖像之間的位置關(guān)系和特征關(guān)系,合并所述二值圖像中的所述候選文本區(qū)域圖像,獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像。37.根據(jù)權(quán)利要求36所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述候選文本區(qū)域圖像的特征包括所述候選文本區(qū)域圖像的長寬比和所述候選文本區(qū)域圖像的顏色。38.根據(jù)權(quán)利要求36所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述獲得所述目標(biāo)圖像的候選文本行區(qū)域圖像后,輸出該候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo),具體方式為: 計(jì)算獲得所述候選文本行區(qū)域圖像的外接矩形; 獲得所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo),將其作為所述候選文本行區(qū)域圖像在所述目標(biāo)圖像中的坐標(biāo)。39.根據(jù)權(quán)利要求38所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述外接矩形在所述目標(biāo)圖像中的位置坐標(biāo)以下述任意一種方式表示: 所述外接矩形的四個(gè)頂點(diǎn)的坐標(biāo)位置; 所述外接矩形的一個(gè)頂點(diǎn)的坐標(biāo)位置以及該外接矩形的長度尺寸。40.根據(jù)權(quán)利要求21所述的圖像中文本區(qū)域檢測裝置,其特征在于,所述獲得所述目標(biāo)圖像的文本區(qū)域,具體為: 通過計(jì)算獲得所述文本區(qū)域在所述目標(biāo)圖像中的坐標(biāo)。41.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括: 顯示器; 處理器; 存儲器,用于存儲圖像中文本區(qū)域檢測文件,所述圖像中文本區(qū)域檢測文件被所述處理器執(zhí)行時(shí),從目標(biāo)圖像中提取候選文本行區(qū)域圖像;采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記;將各個(gè)標(biāo)記為文本區(qū)域的所述分區(qū)合并,獲得所述目標(biāo)圖像的文本區(qū)域。42.根據(jù)權(quán)利要求41所述的電子設(shè)備,其特征在于,所述深度學(xué)習(xí)文本/非文本分類器所采用框架為Cuda-Convent框架。43.根據(jù)權(quán)利要求42所述的電子設(shè)備,其特征在于,所述Cuda-Convent框架上配置有五層隱層。44.根據(jù)權(quán)利要求43所述的電子設(shè)備,其特征在于,所述Cuda-Convent框架上的五層隱層從輸入到輸出依次為第一卷積層、第一 Pooling層、第二卷積層、第二 Pooling層和全連接層。45.根據(jù)權(quán)利要求41所述的電子設(shè)備,其特征在于,所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷,并對判斷為文本區(qū)域的分區(qū)進(jìn)行標(biāo)記,具體包括: 利用滑動(dòng)窗口遍歷所述候選文本行區(qū)域圖像,并截取所述滑動(dòng)窗口所對應(yīng)的所述候選文本行區(qū)域圖像作為所述候選文本行區(qū)域圖像的窗口圖像; 通過所述深度學(xué)習(xí)文本/非文本分類器計(jì)算遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率; 若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域。46.根據(jù)權(quán)利要求45所述的電子設(shè)備,其特征在于,所述若所述窗口圖像為文本區(qū)域的概率超過預(yù)定的閾值,則將該窗口圖像對應(yīng)的區(qū)域標(biāo)記為文本區(qū)域的步驟中,所述閾值采用如下方式獲得: 記錄遍歷經(jīng)過的各個(gè)所述窗口圖像為文本區(qū)域的概率; 根據(jù)各個(gè)所述窗口圖像為文本區(qū)域的概率,計(jì)算所述候選文本行區(qū)域圖像為文本區(qū)域的平均概率,以該平均概率為所述預(yù)定的閾值,或者以該平均概率為基礎(chǔ),將高于或者低于該平均概率一個(gè)預(yù)定數(shù)值的概率值作為所述預(yù)定的閾值。47.根據(jù)權(quán)利要求41至46任意一項(xiàng)所述的電子設(shè)備,其特征在于,在所述采用經(jīng)過訓(xùn)練的深度學(xué)習(xí)文本/非文本分類器對所述候選文本行區(qū)域圖像分區(qū)域進(jìn)行是否為文本區(qū)域的判斷的步驟之前,對所述深度學(xué)習(xí)文本/非文本分類器進(jìn)行訓(xùn)練,包括:向所述深度學(xué)習(xí)文本/非文本分類器提供m列*n行像素的文本圖像作為正樣本,以及m列*n行像素的非文本圖像作為負(fù)樣本,其中,m,η均為固定的整數(shù)值。48.根據(jù)權(quán)利要求47所述的電子設(shè)備,其特征在于,所述正樣本為24列*24行像素的文本圖像,所述負(fù)樣本為24列*24行像素的非文本圖像。
【文檔編號】G06K9/34GK105868758SQ201510030520
【公開日】2016年8月17日
【申請日】2015年1月21日
【發(fā)明人】陳益如, 何源, 何夢超, 童志軍, 張洪明
【申請人】阿里巴巴集團(tuán)控股有限公司