一種字符識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域,特別涉及一種字符識別方法和裝置。
【背景技術(shù)】
[0002]數(shù)字圖片包括多種多樣的信息,例如證件圖片中包含持件人的個人信息,數(shù)字圖像中包含風(fēng)景、人像等。很多場景下需要計算機直接能夠讀出其中的文字信息,這就需要進(jìn)行OCR(optical character recognit1n)光學(xué)字符識別,針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成黑白點陣的圖像文件,并通過識別軟件將圖像中的文字處理成文本格式,而如何準(zhǔn)確地通過識別軟件進(jìn)行文字處理,則是目前進(jìn)行OCR文字識別的重要技術(shù)課題。
[0003]隨著我國信息化建設(shè)的全面開展,OCR文字識別技術(shù)誕生20余年來,經(jīng)歷從實驗室技術(shù)到產(chǎn)品的轉(zhuǎn)變,目前已經(jīng)進(jìn)步行業(yè)應(yīng)用開發(fā)的成熟階段。相比發(fā)達(dá)國家的廣泛應(yīng)用情況,OCR文字識別技術(shù)在國內(nèi)各行各業(yè)的應(yīng)用還有著廣闊的空間。隨著國家信息化建設(shè)進(jìn)入內(nèi)容建設(shè)階段,為OCR文字識別技術(shù)開創(chuàng)了一個全新的行業(yè)應(yīng)用局面。
[0004]拍攝或掃描出的圖片中的字體,如一張包含證件的圖片,則可以獲得人物相關(guān)信息,為人物檢索、個人信息庫更新、人物相關(guān)度查詢等任務(wù)提供了良好的數(shù)據(jù)來源,而各類圖像中包含的文字大多具有不同的字體、大小及復(fù)雜的拍攝方位,而目前現(xiàn)有技術(shù)中采用的識別方法,對于拍攝場景發(fā)生或者拍攝角度發(fā)生變化的文字的應(yīng)變能力低,識別效率不理想。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種字符識別方法和裝置,以解決上述問題。
[0006]本發(fā)明實施例提供了一種字符識別方法,包括步驟:
[0007]步驟A,采集包含待識別字符的字符圖像,進(jìn)行字符圖像預(yù)處理;
[0008]步驟B,將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲,同時采用OCR識別模型進(jìn)行OCR識別,識別后將識別結(jié)果和字符特征存儲至字符特征池中對應(yīng)的字符下,增加同一字符的多方位特征;
[0009]步驟C,利用更新后的字符特征池重新訓(xùn)練OCR識別模型。
[0010]其中,所述步驟A采集包含待識別字符的字符圖像包括步驟:采集字符的不同方位角度、不同場景的圖像。
[0011]其中,所述步驟A中進(jìn)行字符圖像預(yù)處理包括步驟:對字符圖像進(jìn)行傾斜矯正、字符分割、噪聲去除和圖像二值化處理。
[0012]其中,所述步驟B中進(jìn)行OCR識別包括步驟:通過Tesseract-OCR和traindeddata對處理后的二值圖像進(jìn)行字符識別;
[0013]運用jTessBoxEditor校正識別結(jié)果并保存。
[0014]其中,所述步驟C之后包括步驟:
[0015]分布式計算同步處理識別校正不同方位的字符圖像。
[0016]本發(fā)明實施例還提供一種字符識別裝置,包括預(yù)處理模塊、存儲模塊、識別模塊和訓(xùn)練t吳塊;
[0017]所述預(yù)處理模塊,用于采集包含待識別字符的字符圖像,進(jìn)行字符圖像預(yù)處理;
[0018]所述存儲模塊,用于將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲;
[0019]所述識別模塊,用于采用OCR識別模型進(jìn)行OCR識別,識別后將識別結(jié)果和字符特征存儲至字符特征池中對應(yīng)的字符下,增加同一字符的多方位特征;
[0020]所述訓(xùn)練模塊,用于利用更新后的字符特征池重新訓(xùn)練OCR識別模型。
[0021]其中,所述預(yù)處理模塊,用于采集字符的不同方位角度、不同場景的圖像。
[0022]其中,所述預(yù)處理模塊,用于對字符圖像進(jìn)行傾斜矯正、字符分割、噪聲去除和圖像二值化處理。
[0023]其中,所述識別模塊,用于通過Tesseract-OCR和traindeddata對處理后的二值圖像進(jìn)行字符識別;
[0024]運用jTessBoxEditor校正識別結(jié)果并保存。
[0025]其中,還包括分布式控制模塊,用于分布式計算同步處理識別校正不同方位的字符圖像。
[0026]本發(fā)明實施例提供了一種字符識別方法和裝置,采集包含待識別字符的字符圖像進(jìn)行預(yù)處理;將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲,同時采用OCR識別模型進(jìn)行OCR識別,識別后將識別結(jié)果和字符特征存儲至字符特征池中對應(yīng)的字符下,這樣基于在線更新的方式,不斷增加字符特征池中的訓(xùn)練數(shù)據(jù),以更新識別模型,增加同一字符的多方位特征,能夠?qū)ν蛔址亩嘟嵌然蛘叨鄨鼍跋碌膱D片具備較好的適應(yīng)性,從而識別效率提尚。
【附圖說明】
[0027]圖1為本發(fā)明實施例提供的字符識別方法的流程示意圖;
[0028]圖2為本發(fā)明實施例提供的字符識別裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0029]本發(fā)明實施例提供了一種字符識別方法和裝置。
[0030]參見圖1所示,作為一種可實施方式,該方法包括步驟:
[0031]步驟S110,采集包含待識別字符的字符圖像,進(jìn)行字符圖像預(yù)處理。
[0032]優(yōu)選地,采用Android設(shè)備進(jìn)行圖像采集,在客戶端進(jìn)行字符圖像預(yù)處理,其中包括圖像二值化、噪聲去除、圖像傾斜校正等,處理后的圖像作為OCR字符識別的數(shù)據(jù)輸入。
[0033]步驟S111,將預(yù)處理后的圖像上傳至云端,進(jìn)行非結(jié)構(gòu)化存儲,同時采用OCR識別模型進(jìn)行OCR識別,識別后將識別結(jié)果和字符特征存儲至字符特征池中對應(yīng)的字符下,增加同一字符的多方位特征。
[0034]優(yōu)選地,采用基于web的分布式、高并發(fā)和海量數(shù)據(jù)處理的云計算架構(gòu),將預(yù)處理后的圖像上傳至云端;存儲到非結(jié)構(gòu)關(guān)系的數(shù)據(jù)庫,同時分發(fā)至OCR識別模塊,識別后將結(jié)果和字符特征存儲至數(shù)據(jù)庫;建立字符特征池,增加同一字符的多方位特征。
[0035]采用分布式處理方法,借助更新后的字符特征池重新訓(xùn)練字符訓(xùn)練,更新OCR語言庫。
[0036]步驟S112,利用更新后的字符特征池重新訓(xùn)練OCR識別模型。
[0037]即,OCR識別模塊采用了更新迭代的方法,同一個字符的特征池里逐漸增加了不同場景中表現(xiàn)出的特征。
[0038]例如,更新一次數(shù)據(jù)庫的過程如下:
[0039]I)采集字符的不同方位角度的圖像,作為識別語言庫更新迭代的樣本集;
[0040]2)對樣本集內(nèi)所有圖像進(jìn)行預(yù)處理、傾斜矯正、字符分割等,得到二值化圖像;
[0041]3)通過Tesseract-OCR引擎和Google開源的中英文traindeddata對處理后的二值圖像進(jìn)行字符識別;
[0042]4)校正識別結(jié)果,運用jTessBoxEditor校正識別結(jié)果并保存;
[0043]5)存儲圖像和文字校正結(jié)果至非關(guān)系型數(shù)據(jù)庫,作為字符多個方位的特征。
[0044]優(yōu)選地,隨著圖片信息和字符信息等數(shù)據(jù)量的不斷增加,云端的負(fù)擔(dān)將逐漸加重,在實際操作中采用分布式計算同步處理識別校正不同方位的字符圖像,即通過云計算中的分布式處理很好的解決了這一問題。
[0045]本發(fā)明涉及OCR識別算法、非結(jié)