專利名稱:一種具有掃描功能的長術(shù)語自動抽取裝置的制作方法
技術(shù)領(lǐng)域:
本實用新型涉及一種術(shù)語抽取裝置,尤其涉及一種基于混合策略的具有掃描功能 的長術(shù)語自動抽取裝置。
背景技術(shù):
術(shù)語自動抽取是信息處理中的一個重要課題。隨著新科技、新事物、新現(xiàn)象、新概 念的出現(xiàn)產(chǎn)生了術(shù)語,豐富了語言的詞匯,當今社會科學(xué)發(fā)展日新月異,信息技術(shù)發(fā)展迅 速,網(wǎng)絡(luò)語言,新興語言層出不窮,術(shù)語的變化越來越多樣化,隨著長術(shù)語的大量涌現(xiàn),對于 長術(shù)語的抽取越來越成為了術(shù)語自動抽取的難點和重點,長術(shù)語抽取對信息檢索、信息抽 取、數(shù)據(jù)挖掘、機器翻譯等自然語言處理課題的研究,了解和把握一個學(xué)科領(lǐng)域的發(fā)展現(xiàn) 狀、未來趨向等具有重要的理論和現(xiàn)實意義。近幾年,國內(nèi)外的一些學(xué)者對多字詞術(shù)語自動抽取進行了廣泛的研究。例如,以加 權(quán)兩個相鄰的字來抽取術(shù)語;或者,使用互信息來確定詞語之間的搭配關(guān)系;再或者,利用 術(shù)語的前綴信息,只接受前綴是名詞的串為術(shù)語;以及,利用反映術(shù)語的上下文信息的參數(shù) 來進行術(shù)語抽取,得到了較好的識別結(jié)果。分析上述多字詞術(shù)語自動抽取技術(shù)后發(fā)現(xiàn)在單獨運用上下文信息和互信息來分 析字符串與上下文的結(jié)合強度和字符串的內(nèi)部結(jié)合強度時,一般只對雙字詞的抽取精度比 較高,而多字詞的抽取精確度則相對較低。在基于開放語料的術(shù)語抽取實驗中,雙字詞的精 度已經(jīng)達到了 90. 36%,但是三字以上的詞的抽取精度只有66. 63%。長術(shù)語自身易于隱 藏,連接強度弱,如果運用單一特征來抽取,精度不是很高。由此可見,無論是基于統(tǒng)計學(xué), 還是基于語言學(xué),每種獨立的方法都有各自的局限性。特別是對于一些紙質(zhì)文件,需要先通過掃描儀器掃描并經(jīng)過識別設(shè)備識別后,才 能進行術(shù)語的抽取,這樣增加了術(shù)語抽取的步驟。
實用新型內(nèi)容本實用新型針對現(xiàn)有技術(shù)的弊端,提供了一種具有掃描功能的長術(shù)語自動抽取裝置。本實用新型所述的具有掃描功能的長術(shù)語自動抽取裝置,能夠?qū)崿F(xiàn)通過一件儀器 對紙件文件進行術(shù)語抽取的目的。本實用新型所述的具有掃描功能的長術(shù)語自動抽取裝置,還能夠?qū)崿F(xiàn)對術(shù)語抽取 模式進行疊加,最終采用混合策略抽取紙件文件中的長術(shù)語,并且能夠確保抽取高精度的 目的。本實用新型提供了一種具有掃描功能的長術(shù)語自動抽取裝置,所述裝置包括殼 體,所述殼體上具有輸入接口和輸出接口 ;控制板,其設(shè)置在所述殼體內(nèi),并且所述控制板 中包括主控制器和通過所述主控制器發(fā)出信號進行控制的圖像掃描控制電路;所述圖像 掃描控制電路包括可編程邏輯控制器、與所述可編程控制器連接的影像傳感器、和與所述影像傳感器連接的模/數(shù)轉(zhuǎn)換器;識別電路,其與所述圖像掃描控制電路連接,包括識別處 理芯片;抽取模式疊加器,其具有疊加處理芯片、一個與主控制器連接的輸出接口以及彼此 為并聯(lián)關(guān)系的多個輸入接口 ;多個模式存儲器,其中,各模式存儲器具有與所述抽取模式疊 加器的輸入接口相結(jié)合的輸出接口。優(yōu)選的是,所述的具有掃描功能的長術(shù)語自動抽取裝置中,所述裝置還包括設(shè)置 在所述殼體內(nèi)的步進電機和步進電機控制電路,所述主控制器發(fā)出脈沖信號通過步進電機 控制電路驅(qū)動步進電機工作,所述步進電機通過皮帶與所述影像傳感器連接。優(yōu)選的是,所述的具有掃描功能的長術(shù)語自動抽取裝置中,所述抽取模式疊加器 中的輸出接口和輸入接口均為USB接口。優(yōu)選的是,所述的具有掃描功能的長術(shù)語自動抽取裝置中,所述多個模式存儲器 為兩個模式存儲器,分別保存字符串與上下文結(jié)合強度信息和字符串內(nèi)部結(jié)合強度信息。優(yōu)選的是,所述的具有掃描功能的長術(shù)語自動抽取裝置中,所述殼體中還包括電 源,其連接至所述控制板。本實用新型所述的長術(shù)語自動抽取裝置采取上下文信息和互信息結(jié)合的混合策 略進行長術(shù)語的抽取。由于具有抽取模式疊加裝置,也可以采用其它策略組合進行長術(shù)語 抽取。其根據(jù)長術(shù)語的特征,考慮了術(shù)語與術(shù)語上下文之間的關(guān)系,普通術(shù)語搭配的前綴、 后綴信息庫和術(shù)語的詞性構(gòu)成規(guī)則進行術(shù)語選擇;然后再利用互信息計算候選術(shù)語的內(nèi)部 結(jié)合強度,以進行術(shù)語候選的抽取,得到了較好的抽取結(jié)果,避免了現(xiàn)有技術(shù)中對于長術(shù)語 的遺漏。并且能夠通過自帶的掃描裝置直接對紙件文件進行術(shù)語抽取。
圖1為本實用新型所述具有掃描功能的長術(shù)語自動抽取裝置的結(jié)構(gòu)示意圖;圖2為本實用新型所述具有掃描功能的長術(shù)語自動抽取裝置中的抽取模式疊加 器的結(jié)構(gòu)示意圖。
具體實施方式
以下結(jié)合附圖對本實用新型做進一步的詳細說明,以令本領(lǐng)域技術(shù)人員參照說明 書文字能夠據(jù)以實施。本實用新型所述的具有掃描功能的長術(shù)語自動抽取裝置,充分考慮字符串與上下 文信息的結(jié)合強度、以及字符串內(nèi)部的結(jié)合強度,并依據(jù)此兩種結(jié)合強度的信息來完成長 術(shù)語的自動抽取。如圖1所示,本實用新型所述的具有掃描功能的長術(shù)語自動抽取裝置,所述裝置 包括殼體,所述殼體上具有輸入接口和輸出接口 ;控制板,其設(shè)置在所述殼體內(nèi),并且所 述控制板中包括主控制器和通過所述主控制器發(fā)出信號進行控制的圖像掃描控制電路; 所述圖像掃描控制電路包括可編程邏輯控制器、與所述可編程控制器連接的影像傳感器、 和與所述影像傳感器連接的模/數(shù)轉(zhuǎn)換器;識別電路,其與所述圖像掃描控制電路連接,包 括識別處理芯片;抽取模式疊加器,其具有疊加處理芯片、一個與主控制器連接的輸出接口 以及彼此為并聯(lián)關(guān)系的多個輸入接口 ;多個模式存儲器,其中,各模式存儲器具有與所述抽 取模式疊加器的輸入接口相結(jié)合的輸出接口。[0020]在使用中,用戶將擬混合的抽取模式所在的各模式存儲器硬件插入抽取模式疊加 器中,從而可以選擇適當?shù)幕旌夏J?。抽取模式疊加器將這些抽取模式進行疊加,作為抽取 文件中長術(shù)語的策略。用戶通過長術(shù)語自動抽取裝置中的圖像掃描控制電路對待抽取術(shù)語 文件進行掃描,掃描后通過識別電路進行識別,再對識別出的文件根據(jù)上述疊加出的策略 進行長術(shù)語抽取。所述的具有掃描功能的長術(shù)語自動抽取裝置中,所述裝置還包括設(shè)置在所述殼體 內(nèi)的步進電機和步進電機控制電路,所述主控制器發(fā)出脈沖信號通過步進電機控制電路驅(qū) 動步進電機工作,所述步進電機通過皮帶與所述影像傳感器連接。這樣能夠帶動影像傳感 器執(zhí)行文件的掃描操作。所述的具有掃描功能的長術(shù)語自動抽取裝置中,所述抽取模式疊加器中的輸出接 口和輸入接口均為USB接口。所述的具有掃描功能的長術(shù)語自動抽取裝置中,所述多個模式存儲器為兩個模式 存儲器,分別保存字符串與上下文結(jié)合強度信息和字符串內(nèi)部結(jié)合強度信息。所述的具有掃描功能的長術(shù)語自動抽取裝置中,所述殼體中還包括電源,其連接 至所述控制板。包括長術(shù)語輸出模塊,還包括基于上下文信息抽取候選術(shù)語模塊及基于互 信息抽取術(shù)語模塊。盡管本實用新型的實施方案已公開如上,但其并不僅僅限于說明書和實施方式中 所列運用,它完全可以被適用于各種適合本實用新型的領(lǐng)域,對于熟悉本領(lǐng)域的人員而言, 可容易地實現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本實 用新型并不限于特定的細節(jié)和這里示出與描述的圖例。
權(quán)利要求1.一種具有掃描功能的長術(shù)語自動抽取裝置,其特征在于,所述裝置包括殼體,所述殼體上具有輸入接口和輸出接口 ;控制板,其設(shè)置在所述殼體內(nèi),并且所述控制板中包括主控制器和通過所述主控制器 發(fā)出信號進行控制的圖像掃描控制電路;所述圖像掃描控制電路包括可編程邏輯控制器、與所述可編程控制器連接的影像傳 感器、和與所述影像傳感器連接的模/數(shù)轉(zhuǎn)換器;識別電路,其與所述圖像掃描控制電路連 接,包括識別處理芯片;抽取模式疊加器,其具有疊加處理芯片、一個與主控制器連接的輸出接口以及彼此為 并聯(lián)關(guān)系的多個輸入接口;多個模式存儲器,其中,各模式存儲器具有與所述抽取模式疊加器的輸入接口相結(jié)合 的輸出接口。
2.如權(quán)利要求1所述的具有掃描功能的長術(shù)語自動抽取裝置,其特征在于,所述裝置 還包括設(shè)置在所述殼體內(nèi)的步進電機和步進電機控制電路,所述主控制器發(fā)出脈沖信號通 過步進電機控制電路驅(qū)動步進電機工作,所述步進電機通過皮帶與所述影像傳感器連接。
3.如權(quán)利要求1所述的具有掃描功能的長術(shù)語自動抽取裝置,其特征在于,所述抽取 模式疊加器中的輸出接口和輸入接口均為USB接口。
4.如權(quán)利要求1所述的具有掃描功能的長術(shù)語自動抽取裝置,其特征在于,所述多個 模式存儲器為兩個模式存儲器,分別保存字符串與上下文結(jié)合強度信息和字符串內(nèi)部結(jié)合 強度信息。
5.如權(quán)利要求1所述的具有掃描功能的長術(shù)語自動抽取裝置,其特征在于,所述殼體 中還包括電源,其連接至所述控制板。
專利摘要本實用新型公開了一種具有掃描功能的長術(shù)語自動抽取裝置,裝置包括殼體,殼體上具有輸入接口和輸出接口;控制板,其設(shè)置在殼體內(nèi),并且控制板中包括主控制器和通過主控制器發(fā)出信號進行控制的圖像掃描控制電路;圖像掃描控制電路包括可編程邏輯控制器、與可編程控制器連接的影像傳感器、和與影像傳感器連接的模/數(shù)轉(zhuǎn)換器;識別電路,其與圖像掃描控制電路連接,包括識別處理芯片;抽取模式疊加器,其具有疊加處理芯片、一個與主控制器連接的輸出接口以及彼此為并聯(lián)關(guān)系的多個輸入接口;多個模式存儲器。本實用新型的長術(shù)語自動抽取裝置能直接將紙件文件通過掃描和識別進行術(shù)語抽取,并且可以采用抽取模式疊加的混合策略進行術(shù)語的抽取。
文檔編號G06K9/20GK201917926SQ20102068938
公開日2011年8月3日 申請日期2010年12月30日 優(yōu)先權(quán)日2010年12月30日
發(fā)明者梁穎紅 申請人:江蘇省現(xiàn)代企業(yè)信息化應(yīng)用支撐軟件工程技術(shù)研發(fā)中心