個性化信息檢索方法及裝置的制造方法

文檔序號：9326961閱讀：427來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

個性化信息檢索方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及一種個性化信息檢索方法和裝置，具體地，涉及一種根據(jù)個性化模型擴展檢索詞從而擴大檢索結(jié)果并對檢索結(jié)果進行個性化加權(quán)排序的信息檢索方法和裝置。
【背景技術(shù)】
[0002] 隨著Internet的迅速發(fā)展，網(wǎng)絡(luò)上的信息已經(jīng)變得非常龐大，面對海量級的數(shù) 據(jù)，如何進行高效、準(zhǔn)確的信息檢索是值得研究的課題。現(xiàn)有技術(shù)中，搜索引擎憑借其符合大眾信息檢索習(xí)慣的優(yōu)勢成為了目前獲取網(wǎng)絡(luò)信息的主要工具。但是，由于目前的搜索引擎采用的都是基于關(guān)鍵詞的字面匹配模式，即僅以孤立的關(guān)鍵詞對信息內(nèi)容進行標(biāo)引和檢索，并不能表達出詞語的語義內(nèi)涵，更不能勝任獲取文本中潛在的豐富的語義知識。因此，人們依然很難從海量信息中獲取到自己最需要的信息，在多樣化的網(wǎng)絡(luò)信息環(huán)境下，現(xiàn)有搜索技術(shù)存在著明顯的不足之處。
[0003] 為解決以上問題，提出了一些新穎的網(wǎng)絡(luò)信息組織和檢索理念。例如，概念檢索和語義檢索等?；跀⒃~表的檢索是比較成熟的語義檢索方式。目前很多行業(yè)領(lǐng)域都有自己較成熟的敘詞表。敘詞表是一個相對完善并且發(fā)展成熟的概念知識體系，自其從20世紀(jì)50 年代誕生以來，經(jīng)過不斷發(fā)展和完善，已成為主題法中重要的信息組織工具，并曾在傳統(tǒng)文獻標(biāo)引和檢索中發(fā)揮過重要作用。與普通的網(wǎng)絡(luò)信息擴展檢索方法相比，基于敘詞表詞間關(guān)系的信息檢索方法更注重利用敘詞表這一語義邏輯提高檢索結(jié)果的檢準(zhǔn)率和檢全率。
[0004] 但是基于敘詞表詞間關(guān)系的信息檢索方法也有其固有的局限性，雖然增加了檢索的覆蓋率和準(zhǔn)確率，但和傳統(tǒng)搜索引擎一樣，每個用戶的相同檢索請求，給出相同的檢索結(jié) 果，沒有考慮用戶的個性化需求對檢索的重組和過濾。例如用"紅杉"檢索，用戶的檢索目標(biāo)即可能是"紅杉樹"，也可能指"紅杉資本"。不對用戶的個性化需求進行分析很難在檢索時給出最合適的檢索結(jié)果。
[0005] 因此，如何將敘詞表的語義檢索和代表個性化需求的用戶模型結(jié)合起來，并根據(jù) 兩者之間的關(guān)系對檢索到的網(wǎng)頁進行排序返回給用戶，成為現(xiàn)有技術(shù)亟需解決的技術(shù)問題。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明提供一種個性化信息檢索方法和裝置，使得能夠利用敘詞表和用戶模型得到檢索擴展集從而擴展檢索結(jié)果并對檢索結(jié)果進行加權(quán)排序。
[0007] 根據(jù)本發(fā)明的一個方面，提供一種個性化信息檢索方法，包括如下步驟：分詞：根據(jù)分詞詞典對用戶提交的查詢進行分詞處理獲得檢索詞集合Q ;敘詞規(guī)范化：對于所述檢索詞集合Q中的每個詞，根據(jù)敘詞表進行敘詞規(guī)范化獲得規(guī)范化敘詞；用戶模型構(gòu)建：計算所述檢索詞集合Q與若干個用戶模型的語句相似度，根據(jù)預(yù)設(shè)的閾值選擇用戶模型作為個性化模型，使用所述用戶提交的查詢更新所述個性化模型，通過將所述個性化模型的結(jié)果文檔集加入到更新后的所述個性化模型中得到查詢模型；檢索詞擴展：如果所述查詢模型中的某個詞語出現(xiàn)的概率大于所設(shè)置的閾值M且在用戶提交的查詢中沒有出現(xiàn)，則將所述詞語加入到Q中，構(gòu)成新的檢索詞集合Ql ;網(wǎng)頁抓取：對采用檢索詞集合Ql檢索獲得的網(wǎng) 址進行分析，提取出網(wǎng)頁中的要素信息，所述要素信息包括網(wǎng)頁中的URL、標(biāo)題、正文、摘要、關(guān)鍵詞；以及網(wǎng)頁排序：將每個網(wǎng)頁按照所述相關(guān)度比值從小到大的順序排序，并返回給用戶。
[0008] 優(yōu)選地，用戶模型構(gòu)建步驟包括：話題模型語句相似度計算：計算所述檢索詞集合Q與若干個話題查詢模型的相似度；話題模型比較：設(shè)定閾值R 1，計算所述話題模型的最大相似度，如果所述最大相似度大于R1，那么選擇所述最大相似度對應(yīng)的話題模型作為個性化模型；如果所述最大相似度小于R 1,則執(zhí)行話題模型獲取步驟；話題模型更新：如果有對應(yīng)的所述個性化模型，則利用以下公式對所述個性化模型進行更新，其公式為：
[0010] 其中Q表示所述檢索詞集合，W表示Q中的任意檢索詞，i表示話題模型的編號， Φ1 i，Φ1分別同一話題中表示編號為i-l，i次的查詢集合，p(w| Φ i J代表編號i-l的話題模型，而P (W I (J)1)代表代表編號為i的話題模型，C (W，Q)為在所述檢索詞集合，詞語W出現(xiàn)的次數(shù)，IqI表示所述檢索詞集合包含的詞匯數(shù)，α為一常量；話題模型獲?。喝绻袑?應(yīng)的所述個性化模型，利用將所述個性化模型的結(jié)果文檔集加入到更新后的所述個性化模型得到所述查詢模型；如果沒有對應(yīng)的所述個性化模型，則利用用戶提交的查詢構(gòu)建新的語言模型作為所述查詢模型。
[0011] 優(yōu)選地，用戶模型構(gòu)建步驟包括：歷史模型相似度計算：計算檢索詞集合Q與若干個歷史單元的相似度；歷史模型比較：設(shè)定閾值R2,將超過閾值R2的歷史單元合并作為歷史模型，并將所述歷史模型作為個性化模型；如果沒有任何一個歷史單元的相似度大于 R2,則執(zhí)行歷史模型獲取步驟；歷史模型更新：如果有對應(yīng)的所述個性化模型，則利用以下公式對所述個性化模型進行更新，其公式為：
[0013] 其中，Q表示所述檢索詞集合，w表示Q中的任意檢索詞，ΘΗ、（^表示更新前和更新后的歷史查詢集合，P(w| ΘΗ)代表更新前的歷史模型，而p(w| φΗ)代表更新后的歷史模型，c(w，Q)為在所述檢索詞集合中，詞語w出現(xiàn)的次數(shù)，IqI表示所述檢索詞集合包含的詞匯數(shù)，α為一常量；歷史模型獲?。喝绻袑?yīng)的所述個性化模型，通過所述個性化模型的結(jié)果文檔集加入到更新后的所述個性化模型中得到所述查詢模型，如果沒有，則利用用戶提交的查詢構(gòu)建新的語言模型作為所述查詢模型。
[0014] 優(yōu)選地，所述用戶模型構(gòu)建包括：混合模型語句相似度計算：計算所述檢索詞集合Q與若干個話題模型的相似度以及與若干個歷史單元的相似度；混合模型比較：設(shè)定閾值Rl和R2,計算所述話題模型的最大相似度，如果所述最大相似度超過R 1，那么選擇所述最大相似度對應(yīng)的話題模型作為個性化模型；如果小于R1，將超過閾值私的歷史單元合并作為歷史模型，并將所述歷史模型作為個性化模型；否則，執(zhí)行混合模型獲取步驟；混合模型更新：如果選擇話題模型作為個性化模型，則按照話題模型更新公式更新所述個性化模型，如果選擇歷史模型為個性化模型，則按照歷史模型更新公式更新所述個性化模型；混合模型獲?。喝绻x擇話題模型為個性化模型，則通過將所述話題模型的結(jié)果文檔集加入到更新后的所述話題模型得到所述查詢模型；如果選擇歷史模型為所述個性化模型，通過所述歷史模型的結(jié)果文檔集加入到更新后的所述歷史模型中得到所述查詢模型，否則，利用用戶提交的查詢構(gòu)建新的語言模型作為所述查詢模型。
[0015] 優(yōu)選地，所述網(wǎng)頁排序包括：相關(guān)詞集合創(chuàng)建：根據(jù)敘詞表擴展所述規(guī)范化檢索詞獲得相關(guān)詞集合U( q);統(tǒng)計計算：分別統(tǒng)計所述相關(guān)詞集合U(q)的每一個相關(guān)詞在網(wǎng)頁的標(biāo)題中出現(xiàn)的次數(shù)以及在結(jié)果文檔集摘要中出現(xiàn)的次數(shù)；所述檢索詞集合Q的每個檢索詞在結(jié)果文檔集出現(xiàn)的次數(shù)、在所述檢索詞集合Q的次數(shù)以及結(jié)果文檔集分詞之后包含的詞匯數(shù)、所述檢索詞集合Q的詞匯數(shù)；相關(guān)度比值計算：根據(jù)相關(guān)詞相似度、文檔相似度和查詢相似度，計算每個網(wǎng)頁的所述文檔相似度和所述查詢相似度的相關(guān)度比值；以及結(jié)果文檔集排序：將結(jié)果文檔集根據(jù)所述相關(guān)度比值按照從小到大的排序，并返回給用戶。
[0016] 優(yōu)選地，所述相關(guān)度比值計算包括：根據(jù)以下公式求和計算結(jié)果文檔集的每個文檔的相關(guān)度比值，其公式如下：
[0022] 在公式（1)中，Q為根據(jù)用戶提交的查詢分詞后得到的檢索詞集合，q表示所述檢索詞集合Q的任意檢索詞，w表示U (q)中的任意相關(guān)詞，0D為檢索獲得的結(jié)果文檔集， sim(q, w)代表q和w的相似度，p(q| Θ Q)代表檢索詞q的查詢相似度，p(w| Θ D)為相關(guān)詞 w的文檔相似度；在公式（2)中，Q為根據(jù)用戶提交的查詢分詞后得到的檢索詞集合，q表示所述檢索詞集合Q的任意檢索詞，i表示所述個性化模型對應(yīng)的話題模型的編號，Φ^，小 1分別表示編號為i_l，i個話題模型的查詢集合，P(q| Φ i i)代表編號為i_l的話題模型，而P (q| O1)代表更新后的話題模型，c (w，Q)為詞語w在Q中出現(xiàn)的次數(shù)，IqI表示所述檢索詞集合包含的詞匯數(shù)，α為一常量，C為所述個性化模型的結(jié)果文檔集，c (w，C)為詞語w 在C中出現(xiàn)的次數(shù)，|C|表示C分詞之后包含的詞匯數(shù)，β為一常量；在公式（3)中，Q為根據(jù)用戶提交的查詢分詞后得到的檢索詞集合，H為所有超過閾值的歷史單元集合，i標(biāo)識歷史單元的編號，qi表示第i個歷史單元，λ ;為用戶本次提交的查詢與H集合中第i個歷史單元查詢的相似度，PQIq1)為q在第i個歷史單元的概率，這個概率是根據(jù)極大似然相似法則得到，c (q，Q)為詞語q在Q中出現(xiàn)的次數(shù)，IQl表示檢索詞集合包含的詞匯數(shù)，α為一常量，C為所有超過閾值的歷史單元的結(jié)果文檔集的并集，c (q，C)為詞語w在C中出現(xiàn) 的次數(shù)，|C|表示C分詞之后包含的詞匯數(shù)，β為一常量；在公式（4)中，c (q，Q)為詞語w 在Q中出現(xiàn)的次數(shù)，IQl表示檢索詞集合包含的詞匯數(shù)；在公式（5)中，Θ jp Θ p分別表示結(jié)果文檔集的標(biāo)題和摘要集合，P(w| 0t)為基于標(biāo)題的語言模型以及基于摘要的語言模型 P (w I θρ)，λ稱為標(biāo)題摘要比，用來調(diào)節(jié)標(biāo)題的影響作用。
[0023] 優(yōu)選地，所述相關(guān)詞集合創(chuàng)建包括：建立初始查詢擴展集合：根據(jù)敘詞表對規(guī)范化檢索詞K進行擴展，得到關(guān)于所述規(guī)范化檢索詞K的初始查詢擴展集合U = {D，F(xiàn)，W，Y}，其中，D表示K的等同詞，F(xiàn)表示K的所有上位/下位詞，即敘詞表概念樹T的所有節(jié)點，W 表示K的相關(guān)詞，Y表示F的等同詞和相關(guān)詞；建立敘詞表查詢概念樹：找到所述規(guī)范化檢索K的族首詞0,以0為根節(jié)點建立敘詞表概念樹T ;概念對組成：從所述初始查詢擴展集合中逐個抽取擴展詞，使得規(guī)范化檢索詞K與擴展詞組成概念對；相似度計算：根據(jù)所述概念對中規(guī)范化檢索詞K與擴展詞的關(guān)系類型，采用不同的公式計算規(guī)范化檢索詞K與擴展詞的相似度；閾值判斷：設(shè)置閾值，判斷所述初始查詢擴展集合每個詞與所述規(guī)范化檢索詞K 的相似度是否大于所述閾值：若大于，則將該詞加入到查詢擴展集合N中；若小于，則跳過，即不加入到查詢擴展集合N中。
[0024] 優(yōu)選地，所述建立敘詞表查詢概念樹包括：族首詞讀?。簭臄?shù)據(jù)庫中一次性讀出所有族首詞為〇 ;鍵值對構(gòu)建：從數(shù)據(jù)庫中讀取所有族首詞為〇所有相關(guān)敘詞結(jié)點，查詢數(shù) 據(jù)庫中所有族首詞為〇的條目，將其轉(zhuǎn)化為鍵值對的形式存儲，其中鍵為敘詞的上位詞，值為敘詞節(jié)點的集合，集合中的敘詞節(jié)點所對應(yīng)敘詞的上位詞為相應(yīng)的鍵值，每個敘詞的相關(guān)詞和等同詞均存儲在敘詞節(jié)點中；子節(jié)點重定向：根據(jù)根節(jié)點的名字在鍵值對找到該根節(jié)點的所有子節(jié)點，將子節(jié)點的雙親節(jié)點引用指向根節(jié)點；深度遍歷：從根節(jié)點開始，利用深度遍歷的方法，不斷執(zhí)行子節(jié)點重定向步驟，直到當(dāng)前節(jié)點的名字在鍵值對中無法找到為止。
[0025] 根據(jù)本發(fā)明的另一方面，提

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李冬梅;覃延;黃安坤;
技術(shù)所有人：北京林業(yè)大學(xué);
我是此專利的發(fā)明人

上一篇：獲取周邊信息的方法、裝置及系統(tǒng)的制作方法
上一篇：一種提高數(shù)據(jù)庫性能的方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

個性化信息檢索相關(guān)技術(shù)

個性化健康管理的方法相關(guān)技術(shù)

個性化winpe封裝方法相關(guān)技術(shù)

個性化推薦方法相關(guān)技術(shù)

個性化推薦方法有幾種相關(guān)技術(shù)

信息檢索方法相關(guān)技術(shù)

信息檢索的方法相關(guān)技術(shù)

網(wǎng)絡(luò)信息檢索的方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

個性化信息檢索方法及裝置的制造方法