亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

個性化信息檢索方法及裝置的制造方法

文檔序號:9326961閱讀:427來源:國知局
個性化信息檢索方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及一種個性化信息檢索方法和裝置,具體地,涉及一種根據(jù)個性化模型 擴展檢索詞從而擴大檢索結(jié)果并對檢索結(jié)果進行個性化加權(quán)排序的信息檢索方法和裝置。
【背景技術(shù)】
[0002] 隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)上的信息已經(jīng)變得非常龐大,面對海量級的數(shù) 據(jù),如何進行高效、準(zhǔn)確的信息檢索是值得研究的課題。現(xiàn)有技術(shù)中,搜索引擎憑借其符合 大眾信息檢索習(xí)慣的優(yōu)勢成為了目前獲取網(wǎng)絡(luò)信息的主要工具。但是,由于目前的搜索引 擎采用的都是基于關(guān)鍵詞的字面匹配模式,即僅以孤立的關(guān)鍵詞對信息內(nèi)容進行標(biāo)引和檢 索,并不能表達出詞語的語義內(nèi)涵,更不能勝任獲取文本中潛在的豐富的語義知識。因此, 人們依然很難從海量信息中獲取到自己最需要的信息,在多樣化的網(wǎng)絡(luò)信息環(huán)境下,現(xiàn)有 搜索技術(shù)存在著明顯的不足之處。
[0003] 為解決以上問題,提出了一些新穎的網(wǎng)絡(luò)信息組織和檢索理念。例如,概念檢索和 語義檢索等?;跀⒃~表的檢索是比較成熟的語義檢索方式。目前很多行業(yè)領(lǐng)域都有自己 較成熟的敘詞表。敘詞表是一個相對完善并且發(fā)展成熟的概念知識體系,自其從20世紀(jì)50 年代誕生以來,經(jīng)過不斷發(fā)展和完善,已成為主題法中重要的信息組織工具,并曾在傳統(tǒng)文 獻標(biāo)引和檢索中發(fā)揮過重要作用。與普通的網(wǎng)絡(luò)信息擴展檢索方法相比,基于敘詞表詞間 關(guān)系的信息檢索方法更注重利用敘詞表這一語義邏輯提高檢索結(jié)果的檢準(zhǔn)率和檢全率。
[0004] 但是基于敘詞表詞間關(guān)系的信息檢索方法也有其固有的局限性,雖然增加了檢索 的覆蓋率和準(zhǔn)確率,但和傳統(tǒng)搜索引擎一樣,每個用戶的相同檢索請求,給出相同的檢索結(jié) 果,沒有考慮用戶的個性化需求對檢索的重組和過濾。例如用"紅杉"檢索,用戶的檢索目 標(biāo)即可能是"紅杉樹",也可能指"紅杉資本"。不對用戶的個性化需求進行分析很難在檢索 時給出最合適的檢索結(jié)果。
[0005] 因此,如何將敘詞表的語義檢索和代表個性化需求的用戶模型結(jié)合起來,并根據(jù) 兩者之間的關(guān)系對檢索到的網(wǎng)頁進行排序返回給用戶,成為現(xiàn)有技術(shù)亟需解決的技術(shù)問 題。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明提供一種個性化信息檢索方法和裝置,使得能夠利用敘詞表和用戶模型得 到檢索擴展集從而擴展檢索結(jié)果并對檢索結(jié)果進行加權(quán)排序。
[0007] 根據(jù)本發(fā)明的一個方面,提供一種個性化信息檢索方法,包括如下步驟:分詞:根 據(jù)分詞詞典對用戶提交的查詢進行分詞處理獲得檢索詞集合Q ;敘詞規(guī)范化:對于所述檢 索詞集合Q中的每個詞,根據(jù)敘詞表進行敘詞規(guī)范化獲得規(guī)范化敘詞;用戶模型構(gòu)建:計算 所述檢索詞集合Q與若干個用戶模型的語句相似度,根據(jù)預(yù)設(shè)的閾值選擇用戶模型作為個 性化模型,使用所述用戶提交的查詢更新所述個性化模型,通過將所述個性化模型的結(jié)果 文檔集加入到更新后的所述個性化模型中得到查詢模型;檢索詞擴展:如果所述查詢模型 中的某個詞語出現(xiàn)的概率大于所設(shè)置的閾值M且在用戶提交的查詢中沒有出現(xiàn),則將所述 詞語加入到Q中,構(gòu)成新的檢索詞集合Ql ;網(wǎng)頁抓取:對采用檢索詞集合Ql檢索獲得的網(wǎng) 址進行分析,提取出網(wǎng)頁中的要素信息,所述要素信息包括網(wǎng)頁中的URL、標(biāo)題、正文、摘要、 關(guān)鍵詞;以及網(wǎng)頁排序:將每個網(wǎng)頁按照所述相關(guān)度比值從小到大的順序排序,并返回給 用戶。
[0008] 優(yōu)選地,用戶模型構(gòu)建步驟包括:話題模型語句相似度計算:計算所述檢索詞集 合Q與若干個話題查詢模型的相似度;話題模型比較:設(shè)定閾值R 1,計算所述話題模型的最 大相似度,如果所述最大相似度大于R1,那么選擇所述最大相似度對應(yīng)的話題模型作為個 性化模型;如果所述最大相似度小于R 1,則執(zhí)行話題模型獲取步驟;話題模型更新:如果有 對應(yīng)的所述個性化模型,則利用以下公式對所述個性化模型進行更新,其公式為:
[0010] 其中Q表示所述檢索詞集合,W表示Q中的任意檢索詞,i表示話題模型的編號, Φ1 i,Φ1分別同一話題中表示編號為i-l,i次的查詢集合,p(w| Φ i J代表編號i-l的話 題模型,而P (W I (J)1)代表代表編號為i的話題模型,C (W,Q)為在所述檢索詞集合,詞語W出 現(xiàn)的次數(shù),IqI表示所述檢索詞集合包含的詞匯數(shù),α為一常量;話題模型獲?。喝绻袑?應(yīng)的所述個性化模型,利用將所述個性化模型的結(jié)果文檔集加入到更新后的所述個性化模 型得到所述查詢模型;如果沒有對應(yīng)的所述個性化模型,則利用用戶提交的查詢構(gòu)建新的 語言模型作為所述查詢模型。
[0011] 優(yōu)選地,用戶模型構(gòu)建步驟包括:歷史模型相似度計算:計算檢索詞集合Q與若 干個歷史單元的相似度;歷史模型比較:設(shè)定閾值R2,將超過閾值R2的歷史單元合并作為 歷史模型,并將所述歷史模型作為個性化模型;如果沒有任何一個歷史單元的相似度大于 R2,則執(zhí)行歷史模型獲取步驟;歷史模型更新:如果有對應(yīng)的所述個性化模型,則利用以下 公式對所述個性化模型進行更新,其公式為:
[0013] 其中,Q表示所述檢索詞集合,w表示Q中的任意檢索詞,ΘΗ、(^表示更新前和更 新后的歷史查詢集合,P(w| ΘΗ)代表更新前的歷史模型,而p(w| φΗ)代表更新后的歷史模 型,c(w,Q)為在所述檢索詞集合中,詞語w出現(xiàn)的次數(shù),IqI表示所述檢索詞集合包含的詞 匯數(shù),α為一常量;歷史模型獲?。喝绻袑?yīng)的所述個性化模型,通過所述個性化模型的 結(jié)果文檔集加入到更新后的所述個性化模型中得到所述查詢模型,如果沒有,則利用用戶 提交的查詢構(gòu)建新的語言模型作為所述查詢模型。
[0014] 優(yōu)選地,所述用戶模型構(gòu)建包括:混合模型語句相似度計算:計算所述檢索詞集 合Q與若干個話題模型的相似度以及與若干個歷史單元的相似度;混合模型比較:設(shè)定閾 值Rl和R2,計算所述話題模型的最大相似度,如果所述最大相似度超過R 1,那么選擇所述 最大相似度對應(yīng)的話題模型作為個性化模型;如果小于R1,將超過閾值私的歷史單元合并 作為歷史模型,并將所述歷史模型作為個性化模型;否則,執(zhí)行混合模型獲取步驟;混合模 型更新:如果選擇話題模型作為個性化模型,則按照話題模型更新公式更新所述個性化模 型,如果選擇歷史模型為個性化模型,則按照歷史模型更新公式更新所述個性化模型;混合 模型獲?。喝绻x擇話題模型為個性化模型,則通過將所述話題模型的結(jié)果文檔集加入到 更新后的所述話題模型得到所述查詢模型;如果選擇歷史模型為所述個性化模型,通過所 述歷史模型的結(jié)果文檔集加入到更新后的所述歷史模型中得到所述查詢模型,否則,利用 用戶提交的查詢構(gòu)建新的語言模型作為所述查詢模型。
[0015] 優(yōu)選地,所述網(wǎng)頁排序包括:相關(guān)詞集合創(chuàng)建:根據(jù)敘詞表擴展所述規(guī)范化檢索 詞獲得相關(guān)詞集合U( q);統(tǒng)計計算:分別統(tǒng)計所述相關(guān)詞集合U(q)的每一個相關(guān)詞在網(wǎng)頁 的標(biāo)題中出現(xiàn)的次數(shù)以及在結(jié)果文檔集摘要中出現(xiàn)的次數(shù);所述檢索詞集合Q的每個檢索 詞在結(jié)果文檔集出現(xiàn)的次數(shù)、在所述檢索詞集合Q的次數(shù)以及結(jié)果文檔集分詞之后包含的 詞匯數(shù)、所述檢索詞集合Q的詞匯數(shù);相關(guān)度比值計算:根據(jù)相關(guān)詞相似度、文檔相似度和 查詢相似度,計算每個網(wǎng)頁的所述文檔相似度和所述查詢相似度的相關(guān)度比值;以及結(jié)果 文檔集排序:將結(jié)果文檔集根據(jù)所述相關(guān)度比值按照從小到大的排序,并返回給用戶。
[0016] 優(yōu)選地,所述相關(guān)度比值計算包括:根據(jù)以下公式求和計算結(jié)果文檔集的每個文 檔的相關(guān)度比值,其公式如下:
[0022] 在公式(1)中,Q為根據(jù)用戶提交的查詢分詞后得到的檢索詞集合,q表示所述 檢索詞集合Q的任意檢索詞,w表示U (q)中的任意相關(guān)詞,0D為檢索獲得的結(jié)果文檔集, sim(q, w)代表q和w的相似度,p(q| Θ Q)代表檢索詞q的查詢相似度,p(w| Θ D)為相關(guān)詞 w的文檔相似度;在公式(2)中,Q為根據(jù)用戶提交的查詢分詞后得到的檢索詞集合,q表 示所述檢索詞集合Q的任意檢索詞,i表示所述個性化模型對應(yīng)的話題模型的編號,Φ^, 小 1分別表示編號為i_l,i個話題模型的查詢集合,P(q| Φ i i)代表編號為i_l的話題模型, 而P (q| O1)代表更新后的話題模型,c (w,Q)為詞語w在Q中出現(xiàn)的次數(shù),IqI表示所述檢 索詞集合包含的詞匯數(shù),α為一常量,C為所述個性化模型的結(jié)果文檔集,c (w,C)為詞語w 在C中出現(xiàn)的次數(shù),|C|表示C分詞之后包含的詞匯數(shù),β為一常量;在公式(3)中,Q為 根據(jù)用戶提交的查詢分詞后得到的檢索詞集合,H為所有超過閾值的歷史單元集合,i標(biāo)識 歷史單元的編號,qi表示第i個歷史單元,λ ;為用戶本次提交的查詢與H集合中第i個歷 史單元查詢的相似度,PQIq1)為q在第i個歷史單元的概率,這個概率是根據(jù)極大似然相 似法則得到,c (q,Q)為詞語q在Q中出現(xiàn)的次數(shù),IQl表示檢索詞集合包含的詞匯數(shù),α為 一常量,C為所有超過閾值的歷史單元的結(jié)果文檔集的并集,c (q,C)為詞語w在C中出現(xiàn) 的次數(shù),|C|表示C分詞之后包含的詞匯數(shù),β為一常量;在公式(4)中,c (q,Q)為詞語w 在Q中出現(xiàn)的次數(shù),IQl表示檢索詞集合包含的詞匯數(shù);在公式(5)中,Θ jp Θ p分別表示 結(jié)果文檔集的標(biāo)題和摘要集合,P(w| 0t)為基于標(biāo)題的語言模型以及基于摘要的語言模型 P (w I θρ),λ稱為標(biāo)題摘要比,用來調(diào)節(jié)標(biāo)題的影響作用。
[0023] 優(yōu)選地,所述相關(guān)詞集合創(chuàng)建包括:建立初始查詢擴展集合:根據(jù)敘詞表對規(guī)范 化檢索詞K進行擴展,得到關(guān)于所述規(guī)范化檢索詞K的初始查詢擴展集合U = {D,F(xiàn),W,Y}, 其中,D表示K的等同詞,F(xiàn)表示K的所有上位/下位詞,即敘詞表概念樹T的所有節(jié)點,W 表示K的相關(guān)詞,Y表示F的等同詞和相關(guān)詞;建立敘詞表查詢概念樹:找到所述規(guī)范化檢 索K的族首詞0,以0為根節(jié)點建立敘詞表概念樹T ;概念對組成:從所述初始查詢擴展集合 中逐個抽取擴展詞,使得規(guī)范化檢索詞K與擴展詞組成概念對;相似度計算:根據(jù)所述概念 對中規(guī)范化檢索詞K與擴展詞的關(guān)系類型,采用不同的公式計算規(guī)范化檢索詞K與擴展詞 的相似度;閾值判斷:設(shè)置閾值,判斷所述初始查詢擴展集合每個詞與所述規(guī)范化檢索詞K 的相似度是否大于所述閾值:若大于,則將該詞加入到查詢擴展集合N中;若小于,則跳過, 即不加入到查詢擴展集合N中。
[0024] 優(yōu)選地,所述建立敘詞表查詢概念樹包括:族首詞讀?。簭臄?shù)據(jù)庫中一次性讀出 所有族首詞為〇 ;鍵值對構(gòu)建:從數(shù)據(jù)庫中讀取所有族首詞為〇所有相關(guān)敘詞結(jié)點,查詢數(shù) 據(jù)庫中所有族首詞為〇的條目,將其轉(zhuǎn)化為鍵值對的形式存儲,其中鍵為敘詞的上位詞,值 為敘詞節(jié)點的集合,集合中的敘詞節(jié)點所對應(yīng)敘詞的上位詞為相應(yīng)的鍵值,每個敘詞的相 關(guān)詞和等同詞均存儲在敘詞節(jié)點中;子節(jié)點重定向:根據(jù)根節(jié)點的名字在鍵值對找到該根 節(jié)點的所有子節(jié)點,將子節(jié)點的雙親節(jié)點引用指向根節(jié)點;深度遍歷:從根節(jié)點開始,利用 深度遍歷的方法,不斷執(zhí)行子節(jié)點重定向步驟,直到當(dāng)前節(jié)點的名字在鍵值對中無法找到 為止。
[0025] 根據(jù)本發(fā)明的另一方面,提
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1