Ocr字符識別方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出了一種OCR字符識別方法,包括:對用戶選擇的目標(biāo)區(qū)域內(nèi)的圖像進(jìn)行OCR字符識別以得到識別的詞串;計(jì)算識別的詞串中子詞串的數(shù)量;如果詞串中子詞串的數(shù)量大于2,則判斷第1個子詞串W1中字符的個數(shù)和第K個子詞串WK中字符的個數(shù)是否小于預(yù)設(shè)值;如果W1中字符的個數(shù)和/或WK中字符的個數(shù)小于預(yù)設(shè)值,則判斷W1的噪聲概率得分和/或WK的噪聲概率得分是否大于預(yù)設(shè)噪音;如果是,則判定W1和/或WK為噪聲并從詞串中刪除W1和/或WK以得到新的詞串。根據(jù)本發(fā)明的實(shí)施例可提升對OCR識別的結(jié)果的OCR翻譯的準(zhǔn)確性。本發(fā)明還提出了一種OCR字符識別系統(tǒng)。
【專利說明】OCR字符識別方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及字符識別【技術(shù)領(lǐng)域】,特別涉及一種OCR字符識別方法及系統(tǒng)。
【背景技術(shù)】
[0002]目前很多翻譯APP產(chǎn)品都支持拍照翻譯功能,其操作步驟例如:用戶拿著移動終端(如智能手機(jī))對著要翻譯的外文拍照,拍的照片被蒙上一層灰度;用戶用手指在蒙上灰度的照片上滑動,把想要翻譯的單詞“擦”出來;對用戶擦出的區(qū)域進(jìn)行OCR識別,得到外文文本;調(diào)用機(jī)器翻譯模塊,對OCR結(jié)果進(jìn)行翻譯,最后展現(xiàn)給用戶。
[0003]整個操作過程如圖1所示。但上述過程中有一個問題,用戶在“擦”單詞的時候,由于手指擋住了屏幕,經(jīng)常會把左右或上下相鄰的單詞也一起“擦”到OCR范圍中。如上圖中所示,用戶本意想翻譯Obama這個單詞,但實(shí)際操作中左右各多劃出了幾個字母,導(dǎo)致OCR的結(jié)果是“it Obama I”,經(jīng)過機(jī)器翻譯,得到的最終翻譯結(jié)果是“奧巴馬,我”。這樣的翻譯結(jié)果會對用戶造成困擾,影響用戶體驗(yàn)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的旨在至少解決所述技術(shù)缺陷之一。
[0005]為此,本發(fā)明的一個目的在于提出一種OCR字符識別方法。該方法可提升對OCR識別的結(jié)果的OCR翻譯的準(zhǔn)確性。
[0006]本發(fā)明的另一個目的在于提出一種OCR字符識別系統(tǒng)。
[0007]為達(dá)到上述目的,本發(fā)明第一方面的實(shí)施例公開了一種OCR字符識別方法,包括以下步驟:對用戶選擇的目標(biāo)區(qū)域內(nèi)的圖像進(jìn)行OCR字符識別以得到識別的詞串,其中,所述詞串包括K個子詞串,每個子詞串至少包括I個字符,所述K為正整數(shù);計(jì)算所述識別的詞串中子詞串的數(shù)量;如果所述詞串中子詞串的數(shù)量大于2,則判斷所述第I個子詞串W1中字符的個數(shù)和所述第K個子詞串Wk中字符的個數(shù)是否小于預(yù)設(shè)值;如果所述W1中字符的個數(shù)和/或Wk中字符的個數(shù)小于所述預(yù)設(shè)值,則判斷所述W1的噪聲概率得分和/或Wk的噪聲概率得分是否大于預(yù)設(shè)噪音;如果是,則判定所述W1和/或所述Wk為噪聲并從所述詞串中刪除所述W1和/或所述Wk以得到新的詞串。
[0008]根據(jù)本發(fā)明實(shí)施例的OCR字符識別方法,針對OCR翻譯中OCR識別的結(jié)果進(jìn)行降噪處理,由此,可識別并刪除通常由于用戶誤操作帶來的OCR噪聲。這樣,在去噪之后,可提升和凈化翻譯結(jié)果,使翻譯結(jié)果更加準(zhǔn)確,提高用戶體驗(yàn)。
[0009]另外,根據(jù)本發(fā)明上述實(shí)施例的OCR字符識別方法還可以具有如下附加的技術(shù)特征:
[0010]在一些示例中,還包括:如果所述詞串中子詞串的數(shù)量等于2,則判斷所述W1中字符的個數(shù)是否小于所述Wk中字符的個數(shù);如果所述W1中字符的個數(shù)小于所述Wk中字符的個數(shù),則進(jìn)一步判斷所述W1中字符的個數(shù)是否小于預(yù)設(shè)值;如果所述巧中字符的個數(shù)小于所述預(yù)設(shè)值,則進(jìn)一步判斷所述W1的噪聲概率得分是否大于預(yù)設(shè)噪音;如果是,則判定所述W1為噪聲并從所述詞串中刪除所述W1以得到新的詞串。
[0011]在一些示例中,還包括:如果所述W1中字符的個數(shù)大于所述Wk中字符的個數(shù),則進(jìn)一步判斷所述Wk中字符的個數(shù)是否小于預(yù)設(shè)值;如果所述Wk中字符的個數(shù)小于所述預(yù)設(shè)值,則進(jìn)一步判斷所述^的噪聲概率得分是否大于預(yù)設(shè)噪音;如果是,則判定所述Wk為噪聲并從所述詞串中刪除所述Wk以得到新的詞串。
[0012]在一些示例中,所述噪聲通過如下公式得到:
[0013]Pleft = a 1gp (W1) + β 1gp (W21W1),
[0014]Pright = α 1gp (Wk) + β 1gp (Wk | Wk^1)。
[0015]在一些示例中,還包括:對所述新的詞串進(jìn)行OCR翻譯。
[0016]本發(fā)明第二方面的實(shí)施例提供了一種OCR字符識別系統(tǒng),包括:識別模塊,用于對用戶選擇的目標(biāo)區(qū)域內(nèi)的圖像進(jìn)行OCR字符識別以得到識別的詞串,其中,所述詞串包括K個子詞串,每個子詞串至少包括I個字符,所述K為正整數(shù);計(jì)算模塊,用于計(jì)算所述識別的詞串中子詞串的數(shù)量;去噪模塊,用于在所述詞串中子詞串的數(shù)量大于2,判斷所述第I個子詞串W1中字符的個數(shù)和所述第K個子詞串Wk中字符的個數(shù)是否小于預(yù)設(shè)值,如果小于所述預(yù)設(shè)值時,判斷所述W1的噪聲概率得分和/或所述Wk的噪聲概率得分是否大于預(yù)設(shè)噪音,如果大于所述預(yù)設(shè)噪音,則判定所述W1和/或所述Wk為噪聲并從所述詞串中刪除所述W1和/或所述Wk以得到新的詞串。
[0017]根據(jù)本發(fā)明實(shí)施例的OCR字符識別系統(tǒng),針對OCR翻譯中OCR識別的結(jié)果進(jìn)行降噪處理,由此,可識別并刪除通常由于用戶誤操作帶來的OCR噪聲。這樣,在去噪之后,可提升和凈化翻譯結(jié)果,使翻譯結(jié)果更加準(zhǔn)確,提高用戶體驗(yàn)。
[0018]另外,根據(jù)本發(fā)明上述實(shí)施例的OCR字符識別方法還可以具有如下附加的技術(shù)特征:
[0019]在一些示例中,所述去噪模塊還用于:如果所述詞串中子詞串的數(shù)量等于2,則判斷所述W1中字符的個數(shù)是否小于所述Wk中字符的個數(shù);如果所述W1中字符的個數(shù)小于所述1中字符的個數(shù),則進(jìn)一步判斷所述W1中字符的個數(shù)是否小于預(yù)設(shè)值;如果所述巧中字符的個數(shù)小于所述預(yù)設(shè)值,則進(jìn)一步判斷所述W1的噪聲概率得分是否大于預(yù)設(shè)噪音;如果是,則判定所述W1為噪聲并從所述詞串中刪除所述W1以得到新的詞串。
[0020]在一些示例中,所述去噪模塊還用于:如果所述W1中字符的個數(shù)大于所述Wk中字符的個數(shù),則進(jìn)一步判斷所述Wk中字符的個數(shù)是否小于預(yù)設(shè)值;如果所述Wk中字符的個數(shù)小于所述預(yù)設(shè)值,則進(jìn)一步判斷所述Wk的噪聲概率得分是否大于預(yù)設(shè)噪音;如果是,則判定所述Wk為噪聲并從所述詞串中刪除所述Wk以得到新的詞串。
[0021]在一些示例中,所述噪聲通過如下公式得到:
[0022]Pleft = a 1gp (W1) + β 1gp (W21W1),
[0023]Pright = α 1gp (Wk) + β 1gp (Wk | Wk^1)。
[0024]在一些示例中, 還包括:翻譯模塊,用于對所述新的詞串進(jìn)行OCR翻譯。
[0025]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【專利附圖】
【附圖說明】[0026]本發(fā)明所述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
[0027]圖1是一種OCR識別翻譯的界面示意圖;
[0028]圖2是根據(jù)本發(fā)明一個實(shí)施例的OCR字符識別方法的流程圖;
[0029]圖3是根據(jù)本發(fā)明另一個實(shí)施例的OCR字符識別方法的流程圖;以及
[0030]圖4是根據(jù)本發(fā)明一個實(shí)施例的OCR字符識別系統(tǒng)的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0031]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0032]在本發(fā)明的描述中,需要理解的是,術(shù)語“縱向”、“橫向”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底” “內(nèi)”、“外”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。
[0033]在本發(fā)明的描述中,需要說明的是,除非另有規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是機(jī)械連接或電連接,也可以是兩個元件內(nèi)部的連通,可以是直接相連,也可以通過中間媒介間接相連,對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解所述術(shù)語的具體含義。
[0034]以下結(jié)合附圖描述根據(jù)本發(fā)明實(shí)施例的OCR字符識別方法及系統(tǒng)。
[0035]圖2是根據(jù)本發(fā)明一個實(shí)施例的OCR字符識別方法的流程圖。
[0036]如圖2所示,根據(jù)本發(fā)明一個實(shí)施例的OCR字符識別方法,包括以下步驟:
[0037]步驟S201:對用戶選擇的目標(biāo)區(qū)域內(nèi)的圖像進(jìn)行OCR字符識別以得到識別的詞串,其中,詞串包括K個子詞串,每個子詞串至少包括I個字符,K為正整數(shù)。
[0038]步驟S202:計(jì)算識別的詞串中子詞串的數(shù)量。
[0039]步驟S203:如果詞串中子詞串的數(shù)量大于2,則判斷第I個子詞串W1中字符的個數(shù)和第K個子詞串Wk中字符的個數(shù)是否小于預(yù)設(shè)值。
[0040]步驟S204:如果W1中字符的個數(shù)和/或Wk中字符的個數(shù)小于預(yù)設(shè)值,則判斷W1的噪聲概率得分和/或Wk的噪聲概率得分是否大于預(yù)設(shè)噪音。
[0041]步驟S205:如果是,則判定W1和/或Wk為噪聲并從詞串中刪除W1和/或Wk以得到新的詞串。
[0042]在本發(fā)明的一個實(shí)施例中,該OCR字符識別方法,還包括以下步驟:
[0043]1、如果詞串中子詞串的數(shù)量等于2,則判斷W1中字符的個數(shù)是否小于Wk中字符的個數(shù)。
[0044]2、如果W1中字符的個數(shù)小于Wk中字符的個數(shù),則進(jìn)一步判斷W1中字符的個數(shù)是否小于預(yù)設(shè)值。
[0045]3、如果W1中字符的個數(shù)小于預(yù)設(shè)值,則進(jìn)一步判斷W1的噪聲概率得分是否大于預(yù)設(shè)噪音。[0046]4、如果是,則判定W1為噪聲并從詞串中刪除W1以得到新的詞串。
[0047]進(jìn)一步地,所述方法還包括:
[0048]1、如果W1中字符的個數(shù)大于Wk中字符的個數(shù),則進(jìn)一步判斷Wk中字符的個數(shù)是否小于預(yù)設(shè)值。
[0049]2、如果Wk中字符的個數(shù)小于預(yù)設(shè)值,則進(jìn)一步判斷Wk的噪聲概率得分是否大于預(yù)設(shè)噪音。
[0050]3、如果是,則判定^為噪聲并從詞串中刪除^以得到新的詞串。
[0051]在本發(fā)明的一個實(shí)施例中,噪聲通過如下公式得到:
[0052]Pleft = a 1gp (W1) + β 1gp (W21W1),
[0053]Pright = α 1gp (Wk) + β 1gp (Wk | Wk^1)。
[0054]本發(fā)明實(shí)施例的OCR字符識別方法在得到新的詞串之后,還包括:對新的詞串進(jìn)行OCR翻譯。
[0055]作為一個具體的示例,假設(shè)OCR翻譯中,OCR識別結(jié)果(即識別得到的詞串)是一個包含k個單詞的詞串Wk =W1 W2W3W4…WlrfWlriWp Wk中W1和Wk可能是用戶誤操作帶來的噪聲。通常情況下,噪聲的長度一般不會多于一個單詞。對OCR識別結(jié)果進(jìn)行降噪就是分別計(jì)算W1和Wk的噪聲概率得分, 如果噪聲概率得分大于某一閾值(即上述示例中的預(yù)設(shè)噪聲),則判定W1和/或Wk是噪聲。
[0056]結(jié)合圖3所示,具體的判斷是否為噪聲的步驟包括:
[0057]步驟S301:開始,輸入 Wk=V..Wk。
[0058]步驟S302:判斷K是否等于1,如果是則執(zhí)行步驟S303,否則執(zhí)行步驟S304。
[0059]步驟S303:返回 %。
[0060]步驟S304:判斷K是否等于2,如果是則執(zhí)行步驟S305,否則執(zhí)行步驟S308。
[0061]步驟S305:判斷W1包括的字符的個數(shù)是否小于W2 (即Wk,K等于2)包括的字符的個數(shù),即Ien (W1Xlen (W2),如果是,則執(zhí)行步驟S306,否則執(zhí)行步驟S307。
[0062]步驟S306 --另T={WJ,其中,T表示一個包括子詞串W1的集合。
[0063]步驟S307,另T= {Wk},其中,T表示一個包括子詞串Wk的集合。
[0064]步驟S308:另THW1,WJ,其中,T表示一個包括子詞串W1和子詞串Wk的集合。結(jié)合圖1所示,則T={it, 1}。
[0065]步驟S309:刪除集合T中字符長度(即字符的個數(shù))大于預(yù)設(shè)值的單詞,其中,由于針對需要進(jìn)行翻譯的英文單詞通常包括的字母個數(shù)大于3,因此,可將該預(yù)設(shè)值設(shè)為但不限于3。
[0066]步驟S310:對于集合T的單詞,計(jì)算噪聲概率得分NoisyScore O ,如果噪聲概率得分大于閾值Θ (即預(yù)設(shè)噪聲),則認(rèn)為集合T中包括的子詞串為噪聲。
[0067]步驟S311:結(jié)束。
[0068]在上述的示例中,噪聲概率得分NoiseScore O的計(jì)算方法可采用類似統(tǒng)計(jì)語言模型的方法,如果是最左邊的單詞(即W1),則計(jì)算Pleft,如果是最右邊的單詞(即Wk),則計(jì)算Pright,具體公式為:
[0069]Pleft= a 1gp (W1) + β 1gp (W21W1);
[0070]Pright = a 1gp (Wk) + β 1gp (Wk | Wk^1)。[0071]其中P(WiIWp1)表示二元短語Wp1Wi的概率,其統(tǒng)計(jì)方法為:
【權(quán)利要求】
1.一種OCR字符識別方法,其特征在于,包括以下步驟: 對用戶選擇的目標(biāo)區(qū)域內(nèi)的圖像進(jìn)行OCR字符識別以得到識別的詞串,其中,所述詞串包括K個子詞串,每個子詞串至少包括I個字符,所述K為正整數(shù); 計(jì)算所述識別的詞串中子詞串的數(shù)量; 如果所述詞串中子詞串的數(shù)量大于2,則判斷所述第I個子詞串W1中字符的個數(shù)和所述第K個子詞串Wk中字符的個數(shù)是否小于預(yù)設(shè)值; 如果所述W1中字符的個數(shù)和/或Wk中字符的個數(shù)小于所述預(yù)設(shè)值,則判斷所述W1的噪聲概率得分和/或Wk的噪聲概率得分是否大于預(yù)設(shè)噪音; 如果是,則判定所述W1和/或所述Wk為噪聲并從所述詞串中刪除所述W1和/或所述Wk以得到新的詞串。
2.根據(jù)權(quán)利要求1所述的OCR字符識別方法,其特征在于,還包括: 如果所述詞串中子詞串的數(shù)量等于2,則判斷所述W1中字符的個數(shù)是否小于所述Wk中字符的個數(shù); 如果所述W1中字符的個數(shù)小于所述Wk中字符的個數(shù),則進(jìn)一步判斷所述W1中字符的個數(shù)是否小于預(yù)設(shè)值; 如果所述W1中字符的個數(shù)小于所述預(yù)設(shè)值,則進(jìn)一步判斷所述W1的噪聲概率得分是否大于預(yù)設(shè)噪音; 如果是,則判定所述W1為噪聲并從所述詞串中刪除所述W1以得到新的詞串。
3.根據(jù)權(quán)利要求2所述的OCR字符識別`方法,其特征在于,還包括: 如果所述W1中字符的個數(shù)大于所述Wk中字符的個數(shù),則進(jìn)一步判斷所述Wk中字符的個數(shù)是否小于預(yù)設(shè)值; 如果所述Wk中字符的個數(shù)小于所述預(yù)設(shè)值,則進(jìn)一步判斷所述Wk的噪聲概率得分是否大于預(yù)設(shè)噪音; 如果是,則判定所述Wk為噪聲并從所述詞串中刪除所述Wk以得到新的詞串。
4.根據(jù)權(quán)利要求1所述的OCR字符識別方法,其特征在于,所述噪聲通過如下公式得到:Pleft = a 1gp (W1) + β 1gp (W21W1),Pright = a 1gp (Wk) + β 1gp (Wk | Wk^1)。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的OCR字符識別方法,其特征在于,還包括:對所述新的詞串進(jìn)行OCR翻譯。
6.一種OCR字符識別系統(tǒng),其特征在于,包括: 識別模塊,用于對用戶選擇的目標(biāo)區(qū)域內(nèi)的圖像進(jìn)行OCR字符識別以得到識別的詞串,其中,所述詞串包括K個子詞串,每個子詞串至少包括I個字符,所述K為正整數(shù); 計(jì)算模塊,用于計(jì)算所述識別的詞串中子詞串的數(shù)量; 去噪模塊,用于在所述詞串中子詞串的數(shù)量大于2,判斷所述第I個子詞串W1中字符的個數(shù)和所述第K個子詞串Wk中字符的個數(shù)是否小于預(yù)設(shè)值,如果小于所述預(yù)設(shè)值時,判斷所述W1的噪聲概率得分和/或所述Wk的噪聲概率得分是否大于預(yù)設(shè)噪音,如果大于所述預(yù)設(shè)噪音,則判定所述W1和/或所述Wk為噪聲并從所述詞串中刪除所述W1和/或所述Wk以得到新的詞串。
7.根據(jù)權(quán)利要求6所述的OCR字符識別系統(tǒng),其特征在于,所述去噪模塊還用于: 如果所述詞串中子詞串的數(shù)量等于2,則判斷所述W1中字符的個數(shù)是否小于所述Wk中字符的個數(shù); 如果所述W1中字符的個數(shù)小于所述Wk中字符的個數(shù),則進(jìn)一步判斷所述W1中字符的個數(shù)是否小于預(yù)設(shè)值; 如果所述W1中字符的個數(shù)小于所述預(yù)設(shè)值,則進(jìn)一步判斷所述W1的噪聲概率得分是否大于預(yù)設(shè)噪音; 如果是,則判定所述W1為噪聲并從所述詞串中刪除所述W1以得到新的詞串。
8.根據(jù)權(quán)利要求7所述的OCR字符識別系統(tǒng),其特征在于,所述去噪模塊還用于: 如果所述W1中字符的個數(shù)大于所述Wk中字符的個數(shù),則進(jìn)一步判斷所述Wk中字符的個數(shù)是否小于預(yù)設(shè)值; 如果所述Wk中字符的個數(shù)小于所述預(yù)設(shè)值,則進(jìn)一步判斷所述Wk的噪聲概率得分是否大于預(yù)設(shè)噪音; 如果是,則判定所述Wk為噪聲并從所述詞串中刪除所述Wk以得到新的詞串。
9.根據(jù)權(quán)利要求6所述的OCR字符識別系統(tǒng),其特征在于,所述噪聲通過如下公式得到:Pleft = a 1gp (W1) + β 1gp (W21W1),Pright = a 1gp (Wk) + β 1gp (Wk | Wk^1)。
10.根據(jù)權(quán)利要求6-9任一項(xiàng)所述的OCR字符識別系統(tǒng),其特征在于,還包括: 翻譯模塊,用于對所述新的詞串進(jìn)行OCR翻譯。
【文檔編號】G06K9/20GK103679165SQ201310752624
【公開日】2014年3月26日 申請日期:2013年12月31日 優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】王海峰, 和為 申請人:北京百度網(wǎng)訊科技有限公司