面向?qū)＠I域的文檔檢索方法

文檔序號：6458455閱讀：178來源：國知局

專利名稱：面向?qū)＠I域的文檔檢索方法
技術領域：
本發(fā)明涉及一種資料檢索方法，特別是一種面向?qū)＠I域的文檔檢索方法。
背景技術：
科學技術的迅速發(fā)展，記錄科技成果的文獻大量增長，專利作為知識產(chǎn)權保護最重要的手段之一越來越被重視。專利文本記載最新穎的發(fā)明創(chuàng)造所涉及的技術方案，然而記載科技成果的文獻，除了專利，還有其它非專利文本，例如科研論文、技術報告等。專利與非專利之間存在一定的關系，例如，對科研論文與專利關系的研究，可以預測技術發(fā)展趨向。對專利文獻和非專利的科研文獻的研究，可以了解各個領域最新的技術，從而
避免重復開發(fā)，避免侵權，甚至可以分析整個技術行業(yè)的發(fā)展；可以分析
竟爭者的技術研發(fā)狀況以及策略；可以實現(xiàn)對專利的無效性檢索。對專利文獻和非專利文獻的檢索是專利研究領域較新的課題。
專利文本中通常會有引用相關的專利或者是科研論文，單純利用專利與科研論文的引用關系研究非專利文獻與專利文本之間的關系，非常有限。而且，專利數(shù)據(jù)庫中的專利文檔有幾百萬之多，單純釆用人工方式的專利搡作是一項費時費力的工作。如何從龐大的專利數(shù)據(jù)庫中檢索到相關專利并獲取有用的專利信息是專利研究的一個難題。
目前的專利檢索和分類方法有兩種，一種是基于專利數(shù)據(jù)庫對已經(jīng)分類的專利檢索，另一種基于自然語言處理技術的檢索方法。
早期專利檢索方法大多數(shù)基于專利數(shù)據(jù)庫的方法，例如公開號為CN
1996290A專利，主要利用了專利結構化的文本信息，抽取專利引證關系，構建專利關聯(lián)圖。然后根據(jù)一定的專利查詢條件，例如申請?zhí)?、專利號、申請曰期、公告曰期、發(fā)明人、專利權人等，在專利關聯(lián)圖中檢索專利并將檢索到的專利。這種方法依賴于專利本身固定的結構化文本，不夠智能化，沒有對專利內(nèi)容進行分析。
基于自然語言處理的方法，是指釆用自然語言處理技術對專利文本內(nèi)容分析，從專利的標題、摘要、說明書、權利說明書等文本中，獲取表征專利的有用特征，對特征賦予權重信息，檢索相關專利文本，例如文章SomeIssues in the Automatic Classification of U.S. Patents (該文作者是Leah S.Larkey,文章是AAAI-98文本分類學習研討會上的特邀報告)，介紹了釆用自然語言處理技術進行專利分類的方法。文章POSTECH at NTCIR-5Patent Retrieval: Smoothing Experiments in a Language Modeling Approach toPatent Retrieval (i亥文1^乍者是In-Su Kang, Seung-Hoon Na, Jun-Ki Kim,Jong-Hyeok Lee, 文章發(fā)表在Proceedings of NTCIR-5 Workshop Meeting,December 6-9, 2005, Tokyo, Japan )，釆用自然語言處理技術實現(xiàn)備利檢索。
但是現(xiàn)有的方法僅局限于關鍵詞檢索，并且只針對專利文本之間的檢索，沒有考慮非專利文本與專利文本、非專利文本與專利類別之間的關系，不能實現(xiàn)非專利文本和專利文本的智能化全文檢索。
針對現(xiàn)有技術中面向?qū)＠I域的文檔檢索沒有考慮非專利文本與專利文本、非專利文本與專利類別之間的關系，不能實現(xiàn)非專利文本和專利文本的智能化全文檢索的不足之處，本發(fā)明要解決的技術問題是提供一種專利檢索的方法，能夠?qū)崿F(xiàn)專利文本的特征向量表示，計算非專利文本與相關的專利文本相似度，檢索到最相關的專利文本。
為解決上述技術問題，本發(fā)明釆用的技術方案基于自然語言處理技術的專利檢索方法，包括以下步驟
對查詢文本和專利文本進行預處理；
檢索與查詢文本相關的專利文本，釆用多種不同相似度計算的方法得到不同相似度的值，組合不同相似度的值，重新計算相似度，按新的相似度的值對專利文本排序；
釆用多種不同的決策方法，將專利文本的相似度排序映射成為專利類別相關性的不同排序；對多個不同專利類別相關性排序結果進行整合，重新排序得到新的專利類別相關性排序；
從新的專利類別相關性排序中，選擇與查詢文本最相關的專利類別。
所述對文本的處理方法包括對文本的預處理，得到特征詞的候選，統(tǒng)計特征詞數(shù)據(jù)信息，采用特征選取的方法選取特征，將文本轉(zhuǎn)化為向量表示形式，具體為去掉專利文本中不是專利文本的標簽，抽取專利文本信息，獲得專利號、專利IPC類別標記、專利名稱、說明書摘要、權利要求書、說明書；對英文文本保留全部大寫單詞；去掉含有數(shù)字的單詞；去掉禁用詞；對英文文本進行詞型還原處理，得到特征候選詞表；對特征候選詞表進行統(tǒng)計，得到詞頻、文檔頻度、詞的類別頻度信息；從特征候選詞中選取特征詞表，計算特征詞表中每個特征詞的特征權重，根據(jù)特征詞及其特征權重將專利文本和查詢文本轉(zhuǎn)化為可計算的向量。
所述多種不同相似度的計算方法得到查詢文本與專利文本的相似度值，基于Log-linear模型整合上述多種不同的相似度值，計算公式如下
其中，S(A，A)是查詢文本A和專利文本A釆用不同相似度計算方法得到的相似度值作為特征組成的向量，^是釆用不同相似度計算方法得到的相

發(fā)明內(nèi)容
exp(0-S(Z),,Z)2))
|>p("(A,4))似度值的權重向量，w是與查詢文本相關的專利文本總數(shù)，4表示第k個相
關的專利文本向量。
所述多種不同的決策方法，包括專利類別權重的相似度加和方法、專利文本相似度排序位置權重的相似度加和方法以及專利文本相似度加和方法，其中專利類別權重的相似度加和計算公式如下
其中，^是懲罰因子常數(shù)，A表示專利文本相似度排序結果中的候選的專利文本個數(shù)，c,是指候選專利文本i所屬的專利類別按照相似度排序得到的位置，、vc。,、是查詢文本與專利文本《的相似度值，F是指類別文本頻
度的倒數(shù)，其中C、是指類別^下的文本數(shù)，^總的文本數(shù)，w(x)為査詢文本與專利類別X的相關性的值，T^(x,/)判斷專利文本di是否屬于專利類別X。
所述專利文本相似度排序位置權重的相似度加和計算公式如下
所述對多個不同專利類別相關性排序結果進行整合，是釆用多種不同相似度值以及多種不同類別決策的方法組合后的專利類別相關性排序結果，做為專利類別位置的特征，基于Rank-SVM模型對多個專利類別相關性排序結，的祖A
所4對多個不同專利類別相關性排序結果進行整合，是釆用按照多個不同專利類別相關性結果中，類別出現(xiàn)的位置值加和，計算得到新的專利類別相關性的值。
本發(fā)明具有以下有益效果及優(yōu)點
1.本發(fā)明方法釆用了自然語言處理的技術，利用多種相似度計算的方法作為最終權衡查詢文本與專利文本的相關程度，充分利用特征多角度的信息。最后，考慮了多個系統(tǒng)組合，達到彼此的互補的目的，提高系統(tǒng)性能。

圖l為本發(fā)明方法流程圖；圖2為文本預處理流程圖3為查詢文本與專利文本相似度計算流程圖；圖4為查詢文本與專利類別相關性計算流程具體實施例方式
下面結合是實施例和附圖進一步闡明本發(fā)明所述的方法如圖1所示，一種面向?qū)＠I域的文檔檢索方法，包括以下步驟對査詢文本和專利文本進行預處理；檢索與查詢文本相關的專利文本，采用多種不同相似度計算的方法得到不同相似度的值，組合不同相似度的值，重新計算相似度，按新的相似度的值對專利文本排序；釆用多種不同的決策方法，將專利文本的相似度排序映射成為專利類別相關性的不同排序，對多個不同專利類別相關性排序結果進行整合，重新排序得到新的專利類別相關性排序；從新的專利類別相關性排序中，選擇與查詢文本最相關的專利類別。
如圖2所示，所述對查詢文本和專利文本進行預處理包括以下步驟
a) 去掉專利文本中不是專利文本的標簽，抽取專利文本信息，獲得專利
號、專利IPC類別標記、專利名稱、說明書摘要、權利要求書以及說明書；
去掉獲得的專利文本信息中單詞內(nèi)部非字母或者非漢字符號，例如，-，、，,'、'
('、')，等；對英文文本保留全部大寫單詞；去掉含有數(shù)字的單詞；去掉
禁用詞，例如英文專利中的，"claim"、 "said"等，中文專利中的，"步驟"、"特征"等以及介詞、副詞、冠詞等；對英文文本進行詞型還原處理，得到特征候選詞表；
b) 對特征候選詞表進行統(tǒng)計，得到詞頻、文檔頻度、詞的類別頻度信息；
c) 從特征候選詞中選取特征詞表，計算特征詞表中每個特征詞的特征權重，根據(jù)特征詞及其特征權重將專利文本和查詢文本轉(zhuǎn)化為可計算的向量。
d) 以專利的特征詞作為索引詞，為專利文檔以及專利文本向量構建倒排索引文檔存儲。
如圖3所示，多種不同相似度的計算方法包括以下步驟在專利文本庫中找到與查詢文本有共現(xiàn)特征詞的專利文本，構成相關的專利文本集合。
計算相關專利文本集合中的相關專利與查詢文本的相似度，本實施例中釆用了多種相似度計算的方法，其中有向量余弦方法、BM25方法、SMART方法，具體計算如下
1. 向量余弦的計算方法
用向量空間模型表示查詢文本A和專利文本A,兩個向量的余弦計算
公式
2. BM25計算方法BM25有很多變種，本實施例中BM25計算方法公式如下
'=1化,力x(1-"卜^)
其中"表示查詢文本A的特征詞個數(shù)；， A)是特征詞在專利文本A
中出現(xiàn)的次數(shù)；lAl表示專利文本A的文本長度；"vg^是與查詢文本相關
的專利文本集合中文本的平均長度；、和6是自由參數(shù)，本實施例中，^'取值為2.0, ^取值為0.75; /Di^,)是文檔頻度的倒數(shù)，是檢索詞/,的權重，計
算公式如下
二log^, C"("+ 0.5
-其中W是整個數(shù)據(jù)集上的文檔總數(shù)，《,)是指包含檢索詞/,的文檔數(shù)。3. SMART計算方法SMART算法計算公式如下
查詢文本:量A中每維特征的權重Wj釆用下式計算
7V + 1
=(l + log(〖/,))xlog~^~
專利文本向量A中每維特征的權重Wi采用下式計算
l + log( ) os i 0.2 "〖,
其中r表示查詢文本A與專利文本&的共同出現(xiàn)的特征詞集合；《是文本向量中第i個特征詞的詞頻；w為全部專利文本集合中文本個數(shù)，m是指出現(xiàn)第i個特征的專利文本個數(shù)；m#是特征詞在相關專利文本集合中文檔的平均詞頻；"http://是專利文本向量4中的特征詞個數(shù)；-w是全部專利文
本集合中每個文檔的平均特征詞數(shù)。
分別用三種方法計算得到不同的查詢文本和專利文本的相似度值。對經(jīng)過上述各計算方法得到的不同的相似度值進行歸一化處理，得到0
到1之間的相似度值。
對歸一化后不同的相似度值分別取對數(shù)。
將取對數(shù)之后的不同相似度值作為Log-linear模型的特征，計算公式如
下其中，S(A ， A)是查詢文本A和專利文本A采用不同相似度計算方法得
到的相似度值作為特征組成的向量，3是釆用不同相似度計算方法得到的相似度值的權重向量，"是與查詢文本相關的專利文本總數(shù)，4表示第k個相
關的專利文本向量。
如圖4所示，釆用多種不同的專利類別決策的方法對不同的專利文本相似度排序結果，計算查詢文本與專利類別之間的相關性排序。本實施例中，釆用的專利類別決策的方法有相似度加和的方法、專利文本相似度
位置權重加和方法以及專利類別權重加和方法，其計算方法如下1.相似度加和的方法，計算如公式如下
其中x表示IPC的類別，k表示專利文本相似度排序結果中的候選的專
利文本個數(shù)，"'。, 代表第i個候選專利文本的相似度值。r。fe(x,/)判斷專利文本di是否屬于專利類別X。
2.專利類別權重加和方法，計算公式如下
其中，A,是懲罰因子常數(shù)，A表示專利文本相似度排序結果中的候選的專利文本個數(shù)，c,是指候選專利文本i所屬的專利類別按照相似度排序得到的位置，腳,、是查詢文本與專利文本《的相似度值，化F是指類別文本頻
度的倒數(shù)，其中Q是指類別x下的文本數(shù)，w為總的文本數(shù)，似^(x)為査詢文本與專利類別x的相關性的值。 /e(x,0判斷專利文本di是否屬于專利類別x。
3.專利文本相似度位置權重加和方法，計算公式如下
其中，/t,是一個懲罰因子常數(shù)，/c表示專利文本相似度排序結果中的候選的專利文本個數(shù)，^w ,是查詢文本與專利文本",的相似度值。rofe(x，/)判斷專利文本di是否屬于專利類別X。
對多個不同的專利類別相關性排序結果1 ~ 3進行組合，對類別排序結
果重新排序。組合方式有多種，在本實施例中采用的組合方法有如下兩種
將多種不同相似度值以及多種不同類別決策的方法組合后的專利類別
相關性排序結果，做為專利類別位置的特征，基于Rank-SVM模型對多個專利類別相關性排序結果的組合。
采用按照多個不同專利類別相關性結果中，類別出現(xiàn)的位置值加和，計算得到新的專利類別相關性的值。
通過上述步驟得到查詢文本與專利文本的相似度值，根據(jù)該相似度值進行排序，選擇與查詢文本的最相關的專利類別。
本發(fā)明所述的方法并不局限于集體實施方法中所述的實施例，本領域技術人員根據(jù)本發(fā)明的就似乎方案得出其他的實施方式，同樣屬于本發(fā)明的技術創(chuàng)新范圍
權利要求
1.一種面向?qū)＠I域的文檔檢索方法，包括以下步驟對查詢文本和專利文本進行預處理；檢索與查詢文本相關的專利文本，采用多種不同相似度計算的方法得到不同相似度的值，組合不同相似度的值，重新計算相似度，按新的相似度的值對專利文本排序；采用多種不同的決策方法，將專利文本的相似度排序映射成為專利類別相關性的不同排序；對多個不同專利類別相關性排序結果進行整合，重新排序得到新的專利類別相關性排序；從新的專利類別相關性排序中，選擇與查詢文本最相關的專利類別。
2. 如權利要求1所述的一種面向?qū)＠I域的文檔檢索方法，其特征在于對文本的處理方法包括對文本的預處理，得到特征詞的候選，統(tǒng)計特征詞數(shù)據(jù)信息，釆用特征選取的方法選取特征，將文本轉(zhuǎn)化為向量表示形式，具體為去掉專利文本中不是專利文本的標簽，抽取專利文本信息，獲得專利號、專利IPC類別標記、專利名稱、說明書摘要、權利要求書、說明書；對英文文本保留全部大寫單詞；去掉含有數(shù)字的單詞；去掉禁用詞；對英文文本進行詞型還原處理，得到特征候選詞表；對特征候選詞表進行統(tǒng)計，得到詞頻、文檔頻度、詞的類別頻度信息；從特征候選詞中選取特征詞表，計算特征詞表中每個特征詞的特征權重，根據(jù)特征詞及其特征權重將專利文本和查詢文本轉(zhuǎn)化為可計算的向量。
3. 如權利要求l所述的一種面向?qū)＠I域的文檔檢索方法，其特征在于所述多種不同相似度的計算方法得到查詢文本與專利文本的相似度值，基于Log-linear模型整合上述多種不同的相似度值，計算公式如下其中，S(A,A)是査詢文本A和專利文本A采用不同相似度計算方法得到的相似度值作為特征組成的向量，^是釆用不同相似度計算方法得到的相似度值的權重向量，n是與查詢文本相關的專利文本總數(shù)，4表示第k個相關的專利文本向量。
4.如權利要求1所述一種面向?qū)＠I域的文檔檢索方法，其特征在于所述多種不同的決策方法，包括專利類別權重的相似度加和方法、專利文本相似度排序位置權重的相似度加和方法以及專利文本相似度加和方法，其中專利類別權重的相似度加和計算公式如下' =1 ',r'z7 ， , A' + 0.5 /CF = log(-)C; +0.5,,、fl，專利文本di屬于專利類別xlo，否則其中，々,.是懲罰因子常數(shù)，/t表示專利文本相似度排序結果中的候選的專利文本個數(shù)，c,是指候選專利文本i所屬的專利類別按照相似度排序得到的位置，腳 ,是查詢文本與專利文本《的相似度值，F是指類別文本頻度的倒數(shù)，其中q是指類別^下的文本數(shù)，w總的文本數(shù)，"^w為查詢文本與專利類別x的相關性的值，m/e(x,/)判斷專利文本di是否屬于專利類
5. 如權利要求4所述一種面向?qū)＠I域的文檔檢索方法，其特征在于所述專利文本相似度排序位置權重的相似度加和計算公式如下,scwe(x) = x scw4 x ra/e(x， /),.、fl，專利文本di屬于專利類別xlo，否則
6. 如權利要求1所述一種面向?qū)＠I域的文檔檢索方法，其特征在于所述對多個不同專利類別相關性排序結果進行整合，是釆用多種不同相似度值以及多種不同類別決策的方法組合后的專利類別相關性排序結果，做為專利類別位置的特征，基于Rank-SVM模型對多個專利類別相關性排序結果的組合。
7. 如權利要求1所述一種面向?qū)＠I域的文檔檢索方法，其特征在于所述對多個不同專利類別相關性排序結果進行整合，是釆用按照多個不同專利類別相關性結果中，類別出現(xiàn)的位置值加和，計算得到新的專利類別相關性的值。
全文摘要
本發(fā)明涉及一種面向?qū)＠I域的文檔檢索方法包括以下步驟對查詢文本和專利文本進行預處理；檢索與查詢文本相關的專利文本，采用多種不同相似度計算的方法得到不同相似度的值，組合不同相似度的值，重新計算相似度，按新的相似度的值對專利文本排序；采用多種不同的決策方法，將專利文本的相似度排序映射成為專利類別相關性的不同排序；對多個不同專利類別相關性排序結果進行整合，重新排序得到新的專利類別相關性排序；從新的專利類別相關性排序中，選擇與查詢文本最相關的專利類別。本發(fā)明利用多種相似度計算的方法作為最終權衡查詢文本與專利文本的相關程度，利用特征多角度的信息，考慮多個系統(tǒng)組合，達到彼此的互補的目的，提高系統(tǒng)性能。
文檔編號G06F17/30GK101625680SQ200810012248
公開日2010年1月13日申請日期2008年7月9日優(yōu)先權日2008年7月9日
發(fā)明者宋國龍, 曹菲菲, 朱靖波, 李天寧, 王會珍, 桐肖申請人:東北大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：朱靖波;王會珍;曹菲菲;肖桐;李天寧;宋國龍
技術所有人：東北大學
我是此專利的發(fā)明人

上一篇：手感設備的制作方法
上一篇：大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)的制作方法

該領域下的技術專家

如您需求助技術專家，請點此查看客服電話進行咨詢。

1、李老師：1.計算力學 2.無損檢測

2、畢老師：機構動力學與控制

3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)

4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術

5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用

如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

 大規(guī)模文本數(shù)據(jù)的外部聚類方法...
資源集成的企業(yè)知識機器人管理...
遠傳表計數(shù)字輪徑向透射光電直...
一種并行微處理器及其實現(xiàn)方法
一種面向查詢的多文檔自動摘要...
中文數(shù)字打字法的制作方法
一種供機器語言翻譯的通用數(shù)碼...
船舶運動控制算法測試仿真系統(tǒng)...
基于三維實體模型的四邊形有限...
一種高分辨率vga-tv視頻...

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

1

精彩留言，會給你點贊！

專利技術領域相關技術
基于實用動態(tài)安全域的多小水電群送出能力協(xié)調(diào)優(yōu)化方法
按技術分類的專利引證分析系統(tǒng)的制作方法
面向?qū)＠I域的文檔檢索方法
一類實用領域廣闊的新穎“電腦微控器”的制作方法
提高本發(fā)明的燃料領域的顏色品質(zhì)和穩(wěn)定性的方法
一種應用于包裝設備領域的新型裝袋框的制作方法
新型領被的制作方法
來自小麥的糖級分、分離方法以及發(fā)明的應用領域的制作方法

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

面向?qū)＠I域的文檔檢索方法