一種基于ocr的論文封皮自動識別系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及OCR技術(shù)領(lǐng)域,尤其涉及一種基于OCR的論文封皮自動識別系統(tǒng)及方 法。
【背景技術(shù)】
[0002] 現(xiàn)有論文掃描之后要放到網(wǎng)上,封皮上包含的信息,比如說論文題目,作者姓名, 導師姓名等信息要錄入數(shù)據(jù)庫,方便用戶檢索?,F(xiàn)有的技術(shù)是通過人工把封皮的信息錄入 數(shù)據(jù)庫,缺點是耗費了很大的人力,而且隨著人的疲勞,準確率會有所下降。因此急需一種 封皮的自動識別方法把人們從這種繁瑣的工作中解放出來。
【發(fā)明內(nèi)容】
[0003] 為解決上述技術(shù)問題,本發(fā)明的目的是提供一種基于OCR的論文封皮自動識別系 統(tǒng)及方法,所述系統(tǒng)及方法解決了封皮信息自動識別問題。
[0004] 本發(fā)明的目的通過以下的技術(shù)方案來實現(xiàn):
[0005] -種基于OCR的論文封皮自動識別系統(tǒng),包括:模板設(shè)計模塊、圖像處理模塊、字 符數(shù)據(jù)采集模塊、數(shù)據(jù)定位模塊、重識別模塊和數(shù)據(jù)整理模塊;所述
[0006] 模板設(shè)計模塊,設(shè)計封皮模板并提供信息給模塊;
[0007] 圖像處理模塊,通過OCR對圖像進行彩色二值化、去黑邊、糾偏處理;
[0008] 字符數(shù)據(jù)采集模塊,利用OCR提取封皮字的信息,為定位區(qū)域找到對應的題錄信 息提供數(shù)據(jù)支持;
[0009] 數(shù)據(jù)定位模塊,將所述字符數(shù)據(jù)采集模塊采集到的字信息進行加工處理,使字信 息成為題錄項對應的題錄信息;
[0010] 重識別模塊,重新識別字符數(shù)據(jù)采集模塊過濾掉的題錄信息,該題錄信息包含標 點符號和空格;
[0011] 數(shù)據(jù)整理模塊,過濾并整合題錄信息一種基于OCR的論文封皮自動識別方法,包 括:
[0012] 制作設(shè)計模板;
[0013] 通過OCR對設(shè)計模板進行彩色二值化、去黑邊、糾偏處理;
[0014] 利用OCR提取封皮字的信息,為定位區(qū)域找到對應的題錄信息提供數(shù)據(jù)支持;
[0015] 將采集到的字信息進行加工處理,使字信息成為題錄項對應的題錄信息;
[0016] 重新識別字符數(shù)據(jù)采集模塊過濾掉的題錄信息,該題錄信息包含標點符號和空 格;
[0017] 過濾并整合題錄信息。
[0018]與現(xiàn)有技術(shù)相比,本發(fā)明的一個或多個實施例可以具有如下優(yōu)點:
[0019] 封皮圖像預處理模塊和封皮字符數(shù)據(jù)采集模塊可以最大程度提高OCR的準確性;
[0020] 封皮信息定位模塊可以讓算法自動找到所需信息對應的區(qū)域;
[0021] 封皮的重識別模塊和封皮整理模塊可以對入庫前信息做最后調(diào)整,過濾不需要的 入庫信息,如導師的職稱,也可以添加必要的信息,如原來屏蔽的標點符號。
[0022] 上述模塊結(jié)合封皮模板設(shè)計模塊給出的信息,才能正確處理。通過這六大模塊可 以達到自動在封皮上找到所需要的信息,達到了自動化處理要求,這樣解放了人力,提高了 工作效率。
【附圖說明】
[0023] 圖1是基于OCR的論文封皮自動識別系統(tǒng)結(jié)構(gòu)圖;
[0024] 圖2a和2b是封皮的結(jié)構(gòu)示意圖;
[0025] 圖3是封皮模板圖;
[0026] 圖4a和4b是二值化圖對比圖;
[0027] 圖5是彩色封皮直方圖;
[0028] 圖6a、6b、6c和6d為不同封皮的INFO區(qū)域;
[0029] 圖7是線性INFO區(qū)域圖;
[0030] 圖8a、8b、8c和8d是不同封皮的TITLE區(qū)域圖;
【具體實施方式】
[0031] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合實施例及附圖對本發(fā) 明作進一步詳細的描述。
[0032] 如圖1所示,為基于OCR的論文封皮自動識別系統(tǒng)結(jié)構(gòu),包括:模板設(shè)計模塊、圖像 處理模塊、字符數(shù)據(jù)采集模塊、數(shù)據(jù)定位模塊、重識別模塊和數(shù)據(jù)整理模塊;所述
[0033] 模板設(shè)計模塊,設(shè)計封皮模板并提供信息給模塊;
[0034] 圖像處理模塊,通過OCR對圖像進行彩色二值化、去黑邊、糾偏處理;
[0035] 字符數(shù)據(jù)采集模塊,利用OCR提取封皮字的信息,為定位區(qū)域找到對應的題錄信 息提供數(shù)據(jù)支持;
[0036] 數(shù)據(jù)定位模塊,將所述字符數(shù)據(jù)采集模塊采集到的字信息進行加工處理,使字信 息成為題錄項對應的題錄信息;
[0037] 重識別模塊,重新識別字符數(shù)據(jù)采集模塊過濾掉的題錄信息,該題錄信息包含標 點符號和空格;
[0038] 數(shù)據(jù)整理模塊,過濾并整合題錄信息。
[0039] 上述模板的設(shè)計制作,分為五層結(jié)構(gòu)XML格式,如圖3封皮模板:
[0040] 第一層〈Template〉
[0041] 上層節(jié)點:頂層節(jié)點
[0042] 上層包含本層節(jié)點個數(shù):1個
[0043] 本層節(jié)點意義:代表一所學校 [0044] 屬性:無
[0045] 屬性設(shè)置:無
[0046] 第二層〈School〉
[0047] 上層節(jié)點:〈Template〉
[0048] 上層包含本層節(jié)點個數(shù):多個
[0049] 本層節(jié)點意義:具體確定出題錄項數(shù)據(jù)庫和圖片的對應
[0050] 屬性:name,year,level
[0051] 屬性設(shè)置:name為學校名字如:濟南大學;year為學位年度如2015 !level為論文 級別如碩士。
[0052] 第三層〈Property〉
[0053] 上層節(jié)點:〈School〉
[0054] 上層包含本層節(jié)點個數(shù):1個
[0055] 本層節(jié)點意義:二值化算法選擇,OCR讀入圖像方式選擇,Info區(qū)域類型選擇
[0056] 屬性:imageProcess,colorParml,colorParm2, colorParm3, Line 屬性設(shè)置:
[0057] colorParml,colorParm2, colorParm3判斷用哪種方法二值化,具體可以在圖像處 理模塊查詢。
[0058] colorParml = colorParm2 = colorParm3 = 0 字黑,底亮(默認)優(yōu)先選擇
[0059] colorParml = colorParm2 = colorParm3 = 1 字深,底亮
[0060] colorParml,colorParm2,colorParm3字深,底深三個參數(shù)代表RGB固定閾值,可 以取不同的值,分割需要人工測試并手工添加。
[0061] imageProcess代表OCR讀入圖像方式,如果是0說明OCR讀入原圖。如果選1說 明OCR讀入方式為二值圖。優(yōu)先選0。
[0062] Line表示Info區(qū)域的類型,如果是0為INFO區(qū)域定位,如果是1為線性INFO區(qū) 域定位,可以參考(圖6a、6b、6c和6d為INFO區(qū)域,圖7為線性INFO區(qū)域)。
[0063] 第三層〈Page〉
[0064] 上層節(jié)點:〈School〉
[0065] 上層包含本層節(jié)點個數(shù):多個
[0066] 本層節(jié)點意義:代表著封皮的某一頁
[0067] 屬性:num
[0068] 屬性設(shè)置:num是為0為封一,1為封二,以此類推。
[0069] 第四層〈Title〉
[0070] 上層節(jié)點:〈Page〉
[0071] 上層包含本層節(jié)點個數(shù):1個
[0072] 本層節(jié)點意義=Title區(qū)域(參考定位模塊)
[0073] 屬性:無
[0074] 屬性設(shè)置:無。
[0075] 第五層〈COLUMN〉
[0076] 上層節(jié)點:〈Title〉
[0077] 上層包含本層節(jié)點個數(shù):多個
[0078] 本層節(jié)點意義:代表著一個題錄項
[0079] 屬性:MarkName代表數(shù)據(jù)庫中的題錄項,F(xiàn)ieldName代表題錄項在封皮上的位置 信息。
[0080] 屬性設(shè)置:
[0081] MarkName設(shè)置:和數(shù)據(jù)