一種基于ocr的論文封皮自動識別系統(tǒng)及方法

文檔序號：9327426閱讀：548來源：國知局

一種基于ocr的論文封皮自動識別系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及OCR技術(shù)領(lǐng)域，尤其涉及一種基于OCR的論文封皮自動識別系統(tǒng)及方法。
【背景技術(shù)】
[0002] 現(xiàn)有論文掃描之后要放到網(wǎng)上，封皮上包含的信息，比如說論文題目，作者姓名，導師姓名等信息要錄入數(shù)據(jù)庫，方便用戶檢索?，F(xiàn)有的技術(shù)是通過人工把封皮的信息錄入數(shù)據(jù)庫，缺點是耗費了很大的人力，而且隨著人的疲勞，準確率會有所下降。因此急需一種封皮的自動識別方法把人們從這種繁瑣的工作中解放出來。

【發(fā)明內(nèi)容】

[0003] 為解決上述技術(shù)問題，本發(fā)明的目的是提供一種基于OCR的論文封皮自動識別系統(tǒng)及方法，所述系統(tǒng)及方法解決了封皮信息自動識別問題。
[0004] 本發(fā)明的目的通過以下的技術(shù)方案來實現(xiàn)：
[0005] -種基于OCR的論文封皮自動識別系統(tǒng)，包括：模板設(shè)計模塊、圖像處理模塊、字符數(shù)據(jù)采集模塊、數(shù)據(jù)定位模塊、重識別模塊和數(shù)據(jù)整理模塊；所述
[0006] 模板設(shè)計模塊，設(shè)計封皮模板并提供信息給模塊；
[0007] 圖像處理模塊，通過OCR對圖像進行彩色二值化、去黑邊、糾偏處理；
[0008] 字符數(shù)據(jù)采集模塊，利用OCR提取封皮字的信息，為定位區(qū)域找到對應的題錄信息提供數(shù)據(jù)支持；
[0009] 數(shù)據(jù)定位模塊，將所述字符數(shù)據(jù)采集模塊采集到的字信息進行加工處理，使字信息成為題錄項對應的題錄信息；
[0010] 重識別模塊，重新識別字符數(shù)據(jù)采集模塊過濾掉的題錄信息，該題錄信息包含標點符號和空格；
[0011] 數(shù)據(jù)整理模塊，過濾并整合題錄信息一種基于OCR的論文封皮自動識別方法，包括：
[0012] 制作設(shè)計模板；
[0013] 通過OCR對設(shè)計模板進行彩色二值化、去黑邊、糾偏處理；
[0014] 利用OCR提取封皮字的信息，為定位區(qū)域找到對應的題錄信息提供數(shù)據(jù)支持；
[0015] 將采集到的字信息進行加工處理，使字信息成為題錄項對應的題錄信息；
[0016] 重新識別字符數(shù)據(jù)采集模塊過濾掉的題錄信息，該題錄信息包含標點符號和空格；
[0017] 過濾并整合題錄信息。
[0018]與現(xiàn)有技術(shù)相比，本發(fā)明的一個或多個實施例可以具有如下優(yōu)點：
[0019] 封皮圖像預處理模塊和封皮字符數(shù)據(jù)采集模塊可以最大程度提高OCR的準確性；
[0020] 封皮信息定位模塊可以讓算法自動找到所需信息對應的區(qū)域；
[0021] 封皮的重識別模塊和封皮整理模塊可以對入庫前信息做最后調(diào)整，過濾不需要的入庫信息，如導師的職稱，也可以添加必要的信息，如原來屏蔽的標點符號。
[0022] 上述模塊結(jié)合封皮模板設(shè)計模塊給出的信息，才能正確處理。通過這六大模塊可以達到自動在封皮上找到所需要的信息，達到了自動化處理要求，這樣解放了人力，提高了工作效率。
【附圖說明】
[0023] 圖1是基于OCR的論文封皮自動識別系統(tǒng)結(jié)構(gòu)圖；
[0024] 圖2a和2b是封皮的結(jié)構(gòu)示意圖；
[0025] 圖3是封皮模板圖；
[0026] 圖4a和4b是二值化圖對比圖；
[0027] 圖5是彩色封皮直方圖；
[0028] 圖6a、6b、6c和6d為不同封皮的INFO區(qū)域；
[0029] 圖7是線性INFO區(qū)域圖；
[0030] 圖8a、8b、8c和8d是不同封皮的TITLE區(qū)域圖；
【具體實施方式】
[0031] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合實施例及附圖對本發(fā) 明作進一步詳細的描述。
[0032] 如圖1所示，為基于OCR的論文封皮自動識別系統(tǒng)結(jié)構(gòu)，包括：模板設(shè)計模塊、圖像處理模塊、字符數(shù)據(jù)采集模塊、數(shù)據(jù)定位模塊、重識別模塊和數(shù)據(jù)整理模塊；所述
[0033] 模板設(shè)計模塊，設(shè)計封皮模板并提供信息給模塊；
[0034] 圖像處理模塊，通過OCR對圖像進行彩色二值化、去黑邊、糾偏處理；
[0035] 字符數(shù)據(jù)采集模塊，利用OCR提取封皮字的信息，為定位區(qū)域找到對應的題錄信息提供數(shù)據(jù)支持；
[0036] 數(shù)據(jù)定位模塊，將所述字符數(shù)據(jù)采集模塊采集到的字信息進行加工處理，使字信息成為題錄項對應的題錄信息；
[0037] 重識別模塊，重新識別字符數(shù)據(jù)采集模塊過濾掉的題錄信息，該題錄信息包含標點符號和空格；
[0038] 數(shù)據(jù)整理模塊，過濾并整合題錄信息。
[0039] 上述模板的設(shè)計制作，分為五層結(jié)構(gòu)XML格式，如圖3封皮模板：
[0040] 第一層〈Template〉
[0041] 上層節(jié)點：頂層節(jié)點
[0042] 上層包含本層節(jié)點個數(shù)：1個
[0043] 本層節(jié)點意義：代表一所學校 [0044] 屬性：無
[0045] 屬性設(shè)置：無
[0046] 第二層〈School〉
[0047] 上層節(jié)點：〈Template〉
[0048] 上層包含本層節(jié)點個數(shù)：多個
[0049] 本層節(jié)點意義：具體確定出題錄項數(shù)據(jù)庫和圖片的對應
[0050] 屬性：name，year，level
[0051] 屬性設(shè)置：name為學校名字如：濟南大學；year為學位年度如2015 !level為論文級別如碩士。
[0052] 第三層〈Property〉
[0053] 上層節(jié)點：〈School〉
[0054] 上層包含本層節(jié)點個數(shù)：1個
[0055] 本層節(jié)點意義：二值化算法選擇，OCR讀入圖像方式選擇，Info區(qū)域類型選擇
[0056] 屬性：imageProcess，colorParml，colorParm2, colorParm3, Line 屬性設(shè)置：
[0057] colorParml，colorParm2, colorParm3判斷用哪種方法二值化，具體可以在圖像處理模塊查詢。
[0058] colorParml = colorParm2 = colorParm3 = 0 字黑，底亮（默認）優(yōu)先選擇
[0059] colorParml = colorParm2 = colorParm3 = 1 字深，底亮
[0060] colorParml，colorParm2，colorParm3字深，底深三個參數(shù)代表RGB固定閾值，可以取不同的值，分割需要人工測試并手工添加。
[0061] imageProcess代表OCR讀入圖像方式，如果是0說明OCR讀入原圖。如果選1說明OCR讀入方式為二值圖。優(yōu)先選0。
[0062] Line表示Info區(qū)域的類型，如果是0為INFO區(qū)域定位，如果是1為線性INFO區(qū) 域定位，可以參考（圖6a、6b、6c和6d為INFO區(qū)域，圖7為線性INFO區(qū)域）。
[0063] 第三層〈Page〉
[0064] 上層節(jié)點：〈School〉
[0065] 上層包含本層節(jié)點個數(shù)：多個
[0066] 本層節(jié)點意義：代表著封皮的某一頁
[0067] 屬性：num
[0068] 屬性設(shè)置：num是為0為封一，1為封二，以此類推。
[0069] 第四層〈Title〉
[0070] 上層節(jié)點：〈Page〉
[0071] 上層包含本層節(jié)點個數(shù)：1個
[0072] 本層節(jié)點意義=Title區(qū)域（參考定位模塊）
[0073] 屬性：無
[0074] 屬性設(shè)置：無。
[0075] 第五層〈COLUMN〉
[0076] 上層節(jié)點：〈Title〉
[0077] 上層包含本層節(jié)點個數(shù)：多個
[0078] 本層節(jié)點意義：代表著一個題錄項
[0079] 屬性：MarkName代表數(shù)據(jù)庫中的題錄項，F(xiàn)ieldName代表題錄項在封皮上的位置信息。
[0080] 屬性設(shè)置：
[0081] MarkName設(shè)置：和數(shù)據(jù)

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張惠斌;王長征;趙正橋;蔡彩云;劉文曉;
技術(shù)所有人：山西同方知網(wǎng)數(shù)字出版技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

票據(jù)ocr掃描識別系統(tǒng)相關(guān)技術(shù)

ocr文字識別系統(tǒng)相關(guān)技術(shù)

手勢識別控制系統(tǒng)論文相關(guān)技術(shù)

智能語音識別系統(tǒng)論文相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于ocr的論文封皮自動識別系統(tǒng)及方法