一種基于信息粒度的信息檢索優(yōu)化方法
【專利摘要】一種基于信息粒度的信息檢索優(yōu)化方法,它涉及優(yōu)化信息檢索【技術(shù)領(lǐng)域】,根據(jù)知網(wǎng)系統(tǒng)判斷文檔的內(nèi)容與主題關(guān)鍵字?jǐn)U展集合是否一致;提取指定類別的訓(xùn)練文本集中所有句子與文本標(biāo)題、子標(biāo)題,生成特定類別的模式實(shí)例集合;廣度優(yōu)先遍歷圖,生成模式集合;根據(jù)模式集合中的模式元素對(duì)訓(xùn)練集中不同事件主題的激勵(lì)程度,將模式集分為若干個(gè)對(duì)應(yīng)不同事件主題的模式子集;它基于機(jī)器的模式自動(dòng)抽取所得特征可能再某些方面要優(yōu)于人類經(jīng)驗(yàn)所定的特征,在進(jìn)行海量文本的檢索過程中,通過內(nèi)容主題額初分可以有效的消除無關(guān)內(nèi)容的干擾,加快了查找速度。
【專利說明】 一種基于信息粒度的信息檢索優(yōu)化方法
【技術(shù)領(lǐng)域】
:
[0001]本發(fā)明涉及優(yōu)化信息檢索【技術(shù)領(lǐng)域】,具體涉及一種基于信息粒度的信息檢索優(yōu)化方法。
【背景技術(shù)】
:
[0002]信息檢索(Informat1n Retrieval)是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。狹義的信息檢索就是信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查尋(Informat1nSearch 或 Informat1n Seek)。
[0003]信息檢索有廣義和狹義的之分。廣義的信息檢索全稱為“信息存儲(chǔ)與檢索”,是指將信息按一定的方式組織和存儲(chǔ)起來,并根據(jù)用戶的需要找出有關(guān)信息的過程。狹義的信息檢索為“信息存儲(chǔ)與檢索”的后半部分,通常稱為“信息查找”或“信息搜索”,是指從信息集合中找出用戶所需要的有關(guān)信息的過程。狹義的信息檢索包括3個(gè)方面的含義:了解用戶的信息需求、信息檢索的技術(shù)或方法、滿足信息用戶的需求。
[0004]由信息檢索原理可知,信息的存儲(chǔ)是實(shí)現(xiàn)信息檢索的基礎(chǔ)。這里要存儲(chǔ)的信息不僅包括原始文檔數(shù)據(jù),還包括圖片、視頻和音頻等,首先要將這些原始信息進(jìn)行計(jì)算機(jī)語言的轉(zhuǎn)換,并將其存儲(chǔ)在數(shù)據(jù)庫中,否則無法進(jìn)行機(jī)器識(shí)別。待用戶根據(jù)意圖輸入查詢請(qǐng)求后,檢索系統(tǒng)根據(jù)用戶的查詢請(qǐng)求在數(shù)據(jù)庫中搜索與查詢相關(guān)的信息,通過一定的匹配機(jī)制計(jì)算出信息的相似度大小,并按從大到小的順序?qū)⑿畔⑥D(zhuǎn)換輸出。
[0005]“粒度”(granularity)指的是信息單元的相對(duì)大小或粗糙程度。
[0006]信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀(jì)下半葉首先開始發(fā)展,至20世紀(jì)40年代,索引和檢索成已為圖書館獨(dú)立的工具和用戶服務(wù)項(xiàng)目。
[0007]隨著1946年世界上第一臺(tái)電子計(jì)算機(jī)問世,計(jì)算機(jī)技術(shù)逐步走進(jìn)信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合起來;脫機(jī)批量情報(bào)檢索系統(tǒng)、聯(lián)機(jī)實(shí)時(shí)情報(bào)檢索系統(tǒng)相繼研制成功并商業(yè)化,20世紀(jì)60年代到80年代,在信息處理技術(shù)、通訊技術(shù)、計(jì)算機(jī)和數(shù)據(jù)庫技術(shù)的推動(dòng)下,信息檢索在教育、軍事和商業(yè)等各領(lǐng)域高速發(fā)展,得到了廣泛的應(yīng)用。Dialog國際聯(lián)機(jī)情報(bào)檢索系統(tǒng)是這一時(shí)期的信息檢索領(lǐng)域的代表,至今仍是世界上最著名的系統(tǒng)之一 O
[0008]主題檢索是信息檢索技術(shù)研究領(lǐng)域的一個(gè)缺點(diǎn),但是使用現(xiàn)有的算法,在大數(shù)據(jù)量檢索過程中,檢索結(jié)果往往不盡如人意,一方面是檢索結(jié)果與用戶期望值相差很大;二是檢索時(shí)間隨信息粒度的細(xì)化急劇增加。
【發(fā)明內(nèi)容】
:
[0009]本發(fā)明的目的是提供一種基于信息粒度的信息檢索優(yōu)化方法,它在進(jìn)行海量文本的檢索過程中,通過內(nèi)容主題額初分可以有效的消除無關(guān)內(nèi)容的干擾,加快了查找速度。
[0010]為了解決【背景技術(shù)】所存在的問題,本發(fā)明是采用以下技術(shù)方案:它利用內(nèi)容識(shí)別和主題識(shí)別在粗細(xì)不同粒度之下進(jìn)行計(jì)算的特性,設(shè)計(jì)了一種新的主題識(shí)別模型,步驟如下:1、主題關(guān)鍵字?jǐn)U展,形成一個(gè)N層的主題識(shí)別樹;2、根據(jù)知網(wǎng)系統(tǒng)判斷文檔的內(nèi)容與主題關(guān)鍵字?jǐn)U展集合是否一致;3、在步驟2中判斷文檔所涉及的事件主題是否一致;4、提取指定類別的訓(xùn)練文本集中所有句子與文本標(biāo)題、子標(biāo)題,生成特定類別的模式實(shí)例集合;5、使用“知網(wǎng)”系統(tǒng)實(shí)現(xiàn)模式實(shí)例集合中個(gè)實(shí)例的詞或詞組序列與概念的映射;6、廣度優(yōu)先遍歷圖,生成模式集合;7、根據(jù)模式集合中的模式元素對(duì)訓(xùn)練集中不同事件主題的激勵(lì)程度,將模式集分為若干個(gè)對(duì)應(yīng)不同事件主題的模式子集。
[0011]本發(fā)明工作原理:模式集合的質(zhì)量與內(nèi)容、主題識(shí)別算法的精度相通,借用自動(dòng)新型抽取技術(shù),以及其學(xué)習(xí)的方式實(shí)現(xiàn)基于模式集的自動(dòng)生成,很好的避免了在涉及開放文本集合時(shí)的模式擴(kuò)展問題,特定事件主題的文本對(duì)應(yīng)著最細(xì)的粒度世界,是事件主題粒度世界的細(xì)化,先進(jìn)行內(nèi)容主題識(shí)別,再進(jìn)行事件主題識(shí)別,不僅可以利用傳統(tǒng)主題識(shí)別的知識(shí)和經(jīng)驗(yàn)以提高主題識(shí)別效率,而且可以限定事件主題判別范圍,從而大大提高事件主題的精確度。
[0012]本發(fā)明具有以下有益效果:它基于機(jī)器的模式自動(dòng)抽取所得特征可能再某些方面要優(yōu)于人類經(jīng)驗(yàn)所定的特征,在進(jìn)行海量文本的檢索過程中,通過內(nèi)容主題額初分可以有效的消除無關(guān)內(nèi)容的干擾,加快了查找速度。
【具體實(shí)施方式】
:
[0013]本【具體實(shí)施方式】采用以下技術(shù)方案:它利用內(nèi)容識(shí)別和主題識(shí)別在粗細(xì)不同粒度之下進(jìn)行計(jì)算的特性,設(shè)計(jì)了一種新的主題識(shí)別模型,步驟如下:1、主題關(guān)鍵字?jǐn)U展,形成一個(gè)N層的主題識(shí)別樹;2、根據(jù)知網(wǎng)系統(tǒng)判斷文檔的內(nèi)容與主題關(guān)鍵字?jǐn)U展集合是否一致;3、在步驟2中判斷文檔所涉及的事件主題是否一致;4、提取指定類別的訓(xùn)練文本集中所有句子與文本標(biāo)題、子標(biāo)題,生成特定類別的模式實(shí)例集合;5、使用“知網(wǎng)”系統(tǒng)實(shí)現(xiàn)模式實(shí)例集合中個(gè)實(shí)例的詞或詞組序列與概念的映射;6、廣度優(yōu)先遍歷圖,生成模式集合;7、根據(jù)模式集合中的模式元素對(duì)訓(xùn)練集中不同事件主題的激勵(lì)程度,將模式集分為若干個(gè)對(duì)應(yīng)不同事件主題的模式子集。
[0014]本【具體實(shí)施方式】工作原理:模式集合的質(zhì)量與內(nèi)容、主題識(shí)別算法的精度相通,借用自動(dòng)新型抽取技術(shù),以及其學(xué)習(xí)的方式實(shí)現(xiàn)基于模式集的自動(dòng)生成,很好的避免了在涉及開放文本集合時(shí)的模式擴(kuò)展問題,特定事件主題的文本對(duì)應(yīng)著最細(xì)的粒度世界,是事件主題粒度世界的細(xì)化,先進(jìn)行內(nèi)容主題識(shí)別,再進(jìn)行事件主題識(shí)別,不僅可以利用傳統(tǒng)主題識(shí)別的知識(shí)和經(jīng)驗(yàn)以提高主題識(shí)別效率,而且可以限定事件主題判別范圍,從而大大提高事件主題的精確度。
[0015]本【具體實(shí)施方式】基于機(jī)器的模式自動(dòng)抽取所得特征可能再某些方面要優(yōu)于人類經(jīng)驗(yàn)所定的特征,在進(jìn)行海量文本的檢索過程中,通過內(nèi)容主題額初分可以有效的消除無關(guān)內(nèi)容的干擾,加快了查找速度。
【權(quán)利要求】
1.一種基于信息粒度的信息檢索優(yōu)化方法,其特征在于它利用內(nèi)容識(shí)別和主題識(shí)別在粗細(xì)不同粒度之下進(jìn)行計(jì)算的特性,設(shè)計(jì)了一種新的主題識(shí)別模型,步驟如下:(1)、主題關(guān)鍵字?jǐn)U展,形成一個(gè)N層的主題識(shí)別樹;(2)、根據(jù)知網(wǎng)系統(tǒng)判斷文檔的內(nèi)容與主題關(guān)鍵字?jǐn)U展集合是否一致;(3)、在步驟(2)中判斷文檔所涉及的事件主題是否一致;(4)、提取指定類別的訓(xùn)練文本集中所有句子與文本標(biāo)題、子標(biāo)題,生成特定類別的模式實(shí)例集合;(5)、使用“知網(wǎng)”系統(tǒng)實(shí)現(xiàn)模式實(shí)例集合中個(gè)實(shí)例的詞或詞組序列與概念的映射;(6)、廣度優(yōu)先遍歷圖,生成模式集合;(7)、根據(jù)模式集合中的模式元素對(duì)訓(xùn)練集中不同事件主題的激勵(lì)程度,將模式集分為若干個(gè)對(duì)應(yīng)不同事件主題的模式子集。
2.根據(jù)權(quán)利要求1所述的一種基于信息粒度的信息檢索優(yōu)化方法,其特征在于所述的模式集合的質(zhì)量與內(nèi)容、主題識(shí)別算法的精度相通,借用自動(dòng)新型抽取技術(shù),以及其學(xué)習(xí)的方式實(shí)現(xiàn)基于模式集的自動(dòng)生成,很好的避免了在涉及開放文本集合時(shí)的模式擴(kuò)展問題,特定事件主題的文本對(duì)應(yīng)著最細(xì)的粒度世界,是事件主題粒度世界的細(xì)化,先進(jìn)行內(nèi)容主題識(shí)別,再進(jìn)行事件主題識(shí)別,不僅可以利用傳統(tǒng)主題識(shí)別的知識(shí)和經(jīng)驗(yàn)以提高主題識(shí)別效率,而且可以限定事件主題判別范圍,從而大大提高事件主題的精確度。
3.根據(jù)權(quán)利要求1所述的一種基于信息粒度的信息檢索優(yōu)化方法,其特征在于它基于機(jī)器的模式自動(dòng)抽取所得特征可能再某些方面要優(yōu)于人類經(jīng)驗(yàn)所定的特征,在進(jìn)行海量文本的檢索過程中,通過內(nèi)容主題額初分可以有效的消除無關(guān)內(nèi)容的干擾,加快了查找速度。
【文檔編號(hào)】G06F17/30GK104376044SQ201410550066
【公開日】2015年2月25日 申請(qǐng)日期:2014年10月16日 優(yōu)先權(quán)日:2014年10月16日
【發(fā)明者】傅濤, 傅德勝, 經(jīng)正俊, 孫文靜 申請(qǐng)人:江蘇博智軟件科技有限公司