專利名稱:查詢擴展方法及查詢擴展設備的制作方法
技術領域:
本發(fā)明涉及一種查詢擴展方法及查詢擴展設備,更具體地說,本發(fā)明涉及一種把 從查詢結果中提取的詞添加到查詢語句以提高搜索精度的查詢擴展方法及查詢擴展設備。
背景技術:
隨著信息技術的發(fā)展,信息量的增大,信息檢索在工作和生活中越來越重要。通過 檢索來快速找到需要的信息,從而便利于工作和生活。但由于人們往往對所需要的信息不 甚了解,因此在搜索工具中輸入的查詢詞不合適,以至于不能找到相關有用的信息。用戶的查詢語句經(jīng)常太短,以至于不能準確地描述用戶的信息需求。查詢語句中 缺少許多重要的詞,這導致了只能搜索到少量的一部分相關文檔。為了克服此問題,查詢語 句擴展技術應運而生。用新詞擴展查詢語句是一種解決此問題的有效方法。在所有的查詢 擴展方法中,偽相關查詢反饋是最有效的方法。此方法假定第一次查詢結果中高排名的文 檔是與用戶感興趣的主題相關的,于是從高排名的文檔中提取詞來擴展查詢語句。但是一 些高排名的文檔可能與用戶感興趣的主題無關,于是噪聲詞被提取出來,這使得搜索精度 未有效提高甚至被降低。例如,專利文獻1提出了一種查詢擴展系統(tǒng)和方法。此專利利用記錄查詢歷史的 查詢?nèi)罩?、和查詢?nèi)罩局胁樵冋Z句的查詢結果來擴展用戶查詢語句,即,從以前的相關查詢 語句及它們的查詢結果中提取新詞。此發(fā)明存在的問題是,日志中的查詢語句可能與查詢 無關,由此而得到的查詢結果可能更不相關,從這些不相關的查詢結果數(shù)據(jù)中提取的詞將 是噪聲詞。專利文獻2提出了另一種查詢擴展系統(tǒng)和方法。在此專利中,所提取的詞是通過 計算聯(lián)合概率并排序而得到的高排名詞,此概率是所有查詢?nèi)罩窘y(tǒng)計數(shù)據(jù)的函數(shù)。但是日 志中的查詢語句可能與查詢無關,由此而來的查詢結果可能更不相關,從這些不相關的數(shù) 據(jù)中提取的詞將是噪聲詞。在非專利文獻1中,擴展查詢語句的詞來自于根據(jù)查詢結果而生成的聚類層次關 系。此方案中存在的問題是,普通數(shù)據(jù)不像IPC(國際專利分類)那樣存在層次分類,因此 該方法不能被廣泛使用。在非專利文獻2中,詞分類過程用來預測擴展詞的有用性。被預測為好的詞被加 到查詢語句中。此方案中存在的問題是因為詞是從排名高的搜索結果文檔中提取出來的, 而這些排名高的搜索結果文檔可能與查詢語句并不相關,于是可能從這些不相關的文檔中 抽出大量的噪聲詞,這些噪聲詞將導致錯誤的分類并使得噪聲詞被加到查詢語句中。專利文獻1美國專利US 7287025B專利文獻2美國專利申請US 2004/0158560A1[非專利文獻1]A Patent Retrieval Method Using a Hierarchy of Clusters atTUT, Hironori Doi, Yohei Seki, Masaki Aono, proceedings of NTCIR-5 workshopmeeting, December 6—9, 2008, Tokyo, Japan.
非 專 禾lj 文 獻 2Selecting good expansion terms for pseudo-relevancefeedback, Guihong Cao, Jian—Yun Nie, Jianfeng Gao, Stephen Robertson, Proceedings of the 31st annual international ACM SIGIR conference on Researchand development in information retrieval 2008, Singapore, Singapore, Pages243-250.
發(fā)明內(nèi)容
現(xiàn)有查詢語句擴展技術增加的詞包含有大量的噪聲詞,以致搜索精度未有效提高 甚至降低。針對現(xiàn)有技術中存在的問題,本發(fā)明提出一種新的查詢語句擴展技術,通過對搜 索結果中排名在前N的文檔進行聚類以生成簇,并進而生成簇簡檔,以簇簡檔為單位進行 搜索,從搜索結果提取新詞,來擴展查詢語句。根據(jù)本發(fā)明的一個方面,提供一種查詢擴展方法,包括步驟(a)針對給定的查詢 語句進行搜索,得到查詢結果;(b)在所得到的查詢結果集合中,在排名在前一定數(shù)目的 查詢結果子集中進行聚類,生成簇;(c)針對所生成的每個簇來生成簇簡檔;(d)使用在步 驟(a)中所使用的查詢語句,以簇簡檔為單位在所有簇中進行搜索,來對簇簡檔進行排序; (e)從排名在前一定數(shù)目的簇簡檔中提取詞;(f)把所提取的詞添加到查詢語句,生成新的 查詢語句。根據(jù)本發(fā)明的另一個方面,提供一種查詢擴展設備,包括搜索器,針對給定的查 詢語句進行搜索,得到查詢結果;簇生成器,在所得到的查詢結果集合中,在排名在前一定 數(shù)目的查詢結果子集中進行聚類,生成簇;簇簡檔生成器,針對所生成的每個簇來生成簇簡 檔;簇簡檔排序器,使用所述搜索器所使用的查詢語句,以簇簡檔為單位在所有簇中進行搜 索,來對簇簡檔進行排序;詞提取器,從排名在前一定數(shù)目的簇簡檔中提取詞;新查詢語句 生成器,把所提取的詞添加到查詢語句,生成新的查詢語句。根據(jù)本發(fā)明,對排名高的搜索結果文檔進行聚類以生成簇,對簇簡檔進行二次搜 索并刪除排名低的簇,于是這些排名低的簇中的文檔就被刪除,這樣就可以除掉第一次搜 索結果中排名高但不相關的文檔。通過從排名高的簇簡檔中提取詞,去除簇或相應主題中 的噪聲,提高了搜索精度。進一步,通過對簇中文檔內(nèi)容的關鍵部分進行組合,來去除每個 文檔中的噪聲詞,則能夠產(chǎn)生更高的搜索精度。通過閱讀結合附圖考慮的以下本發(fā)明的優(yōu)選實施例的詳細描述,將更好地理解本 發(fā)明的以上和其他目標、特征、優(yōu)點和技術及工業(yè)重要性。
圖1為按照本發(fā)明實施例的查詢擴展設備的總體框圖;以及圖2為按照本發(fā)明實施例的查詢擴展方法的總體流程圖。
具體實施例方式圖1為按照本發(fā)明實施例的查詢擴展設備的總體框圖。如圖1所示,此查詢擴展 設備包括搜索器101 ;簇生成器102 ;簇簡檔生成器103,簇簡檔排序器104 ;詞提取器105 ; 和新查詢語句生成器106。
搜索器101針對給定的查詢語句,來檢索全文索引,得到排序的相關文檔的集合, 作為一次查詢的結果。搜索的范圍可以是數(shù)據(jù)庫、因特網(wǎng)、內(nèi)部網(wǎng)等等。搜索器101進行搜 索并排序的算法可以是概率統(tǒng)計算法,例如TF/IDF、BM25、DFR_BM25等,或者是基于鏈接分 析的算法,例如Page Rank(網(wǎng)頁等級)等,或向量空間算法,或者可以是上述這些排序算法 的任意組合。其中,搜索器101使用的BM25算法例如記載在Ed Greengras, InformationRetrieval :A Survey 30November 2000 中,用來計算給定查詢語句和文檔 庫中文檔的相關性得分,得到相應的搜索排名。給定查詢語句Q,文檔d的相關性得分 score (d, Q)由如下公式計算得到 其中,t是查詢Q中的單詞,tf是t在文檔d中出現(xiàn)的次數(shù),qtf是t在查詢Q中 出現(xiàn)的次數(shù),N是文檔庫中的文檔數(shù),Nt是文檔庫中包含單詞t的文檔數(shù),k2和k3是參數(shù), 例如k2 = 0. 5,k3 = 1000, K定義如下 其中1是文檔d的長度,含義為文檔中單詞的總數(shù),avg_l是文檔庫的平均文檔長 度,即所有文檔長度之和除以文檔個數(shù),和b是參數(shù),例如& = 1. 2,b = 0. 75。score (d,Q)的數(shù)值越高,表示該文檔d與查詢語句的相關度越高。簇生成器102將一次查詢的結果中排名靠前的一定數(shù)目N的文檔的子集進行聚 類,以形成不同的簇,每個簇中的文檔數(shù)據(jù)屬于同一個特征或主題。簇生成器102進行聚類 的算法可以是K-均值法聚類算法、模糊c-均值法聚類算法、圖論方法等、或上述算法的任 思組合。其中,K-均值法聚類算法例如記載在Lloyd,S. P. (1957). “ Last squarequantization in PCM " . Bell Telephone Laboratories Paper. Published in journalmuch later :Lloyd. , S. P. (1982)中,用來對排名最靠前的N個搜索結果文檔聚類 生成簇。該算法步驟包括(1)選擇聚類參數(shù)k,其中k可以定義為k = (N/2)172 ;(2)隨機選擇k個文檔作為k個初始類;(3)對每個類,將其出現(xiàn)次數(shù)最多的10個詞(tl,tlO)確定為其聚類中心;(4)分別計算每個文檔和每個類之間的距離
距離 其中sl,s2, ... , slO分別是類c的10個中心詞tl,. . .,tlO出現(xiàn)的次數(shù),11,
12,......,110分別是文檔d中10個中心詞tl,. . .,tlO出現(xiàn)的次數(shù),文檔d將屬于距離
最近的類;(5)循環(huán)(3)到⑷直到每個聚類不再發(fā)生變化為止。簇簡檔生成器103集成一個簇中的所有文檔來生成簇簡檔。集成方式可以是簡單地集成簇中所有文檔中所有的詞,或者也可以集成簇中所有文檔中的關鍵詞。關鍵詞可以 是文檔題目、黑體詞、包含查詢語句的語句等、或上述內(nèi)容的任意組合。通過集成關鍵詞,可 以刪除文檔中的噪聲詞,這將產(chǎn)生更多的相關度高的詞并提高查詢精度。簇簡檔排序器104以簇簡檔而非文檔為單位,針對查詢語句在所有簇中進行搜 索,對簇簡檔進行排序,作為二次查詢的結果。簇簡檔排序器104采用的算法可以是概率統(tǒng) 計算法,例如TF/IDF、BM25、DFR_BM25等,或者是基于鏈接分析的算法,例如Page Rank (網(wǎng) 頁等級)等,或向量空間算法,或者可以是上述這些排序算法的任意組合。其中,簇簡檔排序器104采用的BM25算法用來計算給定查詢語句和簇簡檔的相關 性得分,得到相應的簇簡檔的搜索排名。對于給定的查詢語句Q,簇簡檔ρ的相關性得分score (p,Q)由如下公式計算得 到 其中,t是查詢Q中的單詞,tf是t在簇簡檔ρ中出現(xiàn)的次數(shù),qtf是t在查詢Q 中出現(xiàn)的次數(shù),N是簇簡檔集中的簇簡檔數(shù),Nt是簇簡檔集中包含單詞t的簇簡檔數(shù),k2和 k3是參數(shù),例如k2 = 0. 5,k3 = 1000, K定義如下 其中1是簇簡檔ρ的長度,含義為簇簡檔ρ所含單詞總數(shù),avg 1是簇簡檔集的平 均簇簡檔長度,即所有簇簡檔長度之和除以簇簡檔個數(shù),ki和b是參數(shù),例如Ic1 = 1. 2,b = 0. 75。score (ρ, Q)的數(shù)值越高,表示該簇簡檔ρ與查詢語句的相關度越高。針對簇簡檔排序的結果,可以自動選擇排名靠前的一定數(shù)目的簇簡檔進行進一步 的處理,或者用戶可以交互地選擇相關的簇簡檔來進行進一步的處理。詞提取器105從排名靠前的一定數(shù)目的簇簡檔中提取詞,產(chǎn)生更多的相關度高的 詞并提高查詢精度。詞提取器105也可以從用戶交互地選擇的簇簡檔中提取詞。詞提取器 105采用的算法可以是Robertson's選擇值算法、或最大出現(xiàn)次數(shù)算法等、或者上述算法的 任意組合。詞提取器105從排名最靠前的R個簇簡檔中提取詞,具有較高得分的詞被選擇。只
選擇排名最靠前的R個簇簡檔中的詞可以去除簇的噪聲。所采用的Robertson's Selection
Value (RSV)方法例如記載在 S. Ε· Robertson,"Onterm selection for query expansion,,,
Journal of documentation,46,4,1990,pp. 359-364中,該算法計算詞的得分的公式如下
L0051」 其中,RSV(t)是詞t的值,rt是排名最靠前的R個簇簡檔中包含詞t的簇簡檔個數(shù),N是簇簡檔總數(shù),1^是所有簇簡檔中包含詞t的簇簡檔個數(shù),&和a是參數(shù),例如= 0. 5, a = 0. 5。RSV(t)的數(shù)值越高,表示該詞t與查詢語句的相關度越高。新查詢語句生成器106組合所提取出的詞和查詢語句,以生成新的查詢語句。提 取出的詞的權重可以與查詢語句中原有的詞的權重一樣,也可以不一樣。圖2是按照本發(fā)明實施例的查詢擴展方法的總體流程圖。在步驟S201,針對給定的查詢語句搜索相關文檔,得到排序的文檔集合,作為一次 檢索結果。在步驟S202,將前N個相關文檔聚類形成M個簇1,N>M> 1),其中一個 簇對應于一個主題。在步驟S203,對每個簇,集成它的所有文檔的所有內(nèi)容來生成一個簇簡 檔,或者,在步驟S203,對每個簇,集成簇中所有文檔中的關鍵詞,來生成一個簇簡檔。在步 驟S204,針對該給定的查詢語句在所有簇中進行二次搜索,對簇簡檔進行排序,作為二次查 詢的結果。在步驟S205,從排名高的k個簇簡檔中提取詞。在步驟S206,所提取的詞和查 詢語句進行組合。然后,可以用擴展后的查詢語句搜索相關文檔。在步驟S203中,如果用文檔的關鍵詞生成簇簡檔,則能夠消除噪聲詞,更多相關 度高的詞能夠被提取出來加入查詢語句,擴展后的查詢語句提高搜索精度。在步驟S205 中,僅從排名高的簇簡檔中提取詞,從而消除了不相關的簇中的噪聲文檔,提高了搜索精度。在說明書中說明的一系列操作能夠通過硬件、軟件、或者硬件與軟件的組合來執(zhí) 行。當由軟件執(zhí)行該一系列操作時,可以把其中的計算機程序安裝到內(nèi)置于專用硬件的計 算機中的存儲器中,使得計算機執(zhí)行該計算機程序。或者,可以把計算機程序安裝到能夠執(zhí) 行各種類型的處理的通用計算機中,使得計算機執(zhí)行該計算機程序。例如,可以把計算機程序預先存儲到作為記錄介質(zhì)的硬盤或者R0M(只讀存儲器) 中?;蛘?,可以臨時或者永久地存儲(記錄)計算機程序到可移動記錄介質(zhì)中,諸如軟盤、 ⑶-ROM(光盤只讀存儲器)、M0(磁光)盤、DVD(數(shù)字多功能盤)、磁盤、或半導體存儲器???以把這樣的可移動記錄介質(zhì)作為封裝軟件提供。本發(fā)明已經(jīng)參考具體實施例進行了詳細說明。然而,很明顯,在不背離本發(fā)明的精 神的情況下,本領域技術人員能夠對實施例執(zhí)行更改和替換。換句話說,本發(fā)明用說明的形 式公開,而不是被限制地解釋。要判斷本發(fā)明的要旨,應該考慮所附的權利要求。
權利要求
一種查詢擴展方法,包括步驟(a)針對給定的查詢語句進行搜索,得到查詢結果;(b)在所得到的查詢結果集合中,在排名在前一定數(shù)目的查詢結果子集中進行聚類,生成簇;(c)針對所生成的每個簇來生成簇簡檔;(d)使用在步驟(a)中所使用的查詢語句,以簇簡檔為單位在所有簇中進行搜索,來對簇簡檔進行排序;(e)從排名在前一定數(shù)目的簇簡檔中提取詞;(f)把所提取的詞添加到查詢語句,生成新的查詢語句。
2.如權利要求1所述的查詢擴展方法,其中,在步驟(b)中,進行聚類的方法為K-均值 法聚類算法、模糊c-均值法聚類算法、及圖論方法中的任意一個或多個的組合。
3.如權利要求1所述的查詢擴展方法,其中,所述簇簡檔為簇中所有文檔的全部內(nèi)容 的組合,或者為簇中所有文檔的關鍵內(nèi)容的組合。
4.如權利要求3所述的查詢擴展方法,其中,在所述簇簡檔為簇中所有文檔的關鍵內(nèi) 容的組合的情況下,所述關鍵內(nèi)容為文檔題目、黑體詞、及包含查詢語句的語句中的任意一 個或多個的組合。
5.如權利要求1所述的查詢擴展方法,其中,進行搜索的方法為概率統(tǒng)計方法、基于鏈 接分析的算法、及向量空間算法中的任意一個或多個的組合。
6.如權利要求5所述的查詢擴展方法,其中,所述概率統(tǒng)計方法為TF/IDF方法、BM25 方法、及DFR_BM25方法中的任意一個或多個的組合。
7.如權利要求1所述的查詢擴展方法,其中,在步驟(e)中,提取詞的方法為 Robertson' s選擇值算法、最大出現(xiàn)次數(shù)算法中的任意一個或多個的組合。
8.如權利要求1所述的查詢擴展方法,其中,在步驟(f),所提取的詞與查詢語句中原 有的詞有不同或相同的權重。
9.一種查詢擴展設備,包括搜索器,針對給定的查詢語句進行搜索,得到查詢結果;簇生成器,在所得到的查詢結果集合中,在排名在前一定數(shù)目的查詢結果子集中進行 聚類,生成簇;簇簡檔生成器,針對所生成的每個簇來生成簇簡檔;簇簡檔排序器,使用所述搜索器所使用的查詢語句,以簇簡檔為單位在所有簇中進行 搜索,來對簇簡檔進行排序;詞提取器,從排名在前一定數(shù)目的簇簡檔中提取詞;新查詢語句生成器,把所提取的詞添加到查詢語句,生成新的查詢語句。
10.如權利要求9所述的查詢擴展設備,其中,所述簇生成器進行聚類的方法為K-均值 法聚類算法、模糊c-均值法聚類算法、及圖論方法中的任意一個或多個的組合。
11.如權利要求9所述的查詢擴展設備,其中,所述簇簡檔為簇中所有文檔的全部內(nèi)容 的組合,或者為簇中所有文檔的關鍵內(nèi)容的組合。
12.如權利要求11所述的查詢擴展設備,其中,在所述簇簡檔為簇中所有文檔的關鍵 內(nèi)容的組合的情況下,所述關鍵內(nèi)容為文檔題目、黑體詞、及包含查詢語句的語句中的任意一個或多個的組合。
13.如權利要求9所述的查詢擴展設備,其中,進行搜索的方法為概率統(tǒng)計方法、基于 鏈接分析的算法、及向量空間算法中的任意一個或多個的組合。
14.如權利要求13所述的查詢擴展設備,其中,所述概率統(tǒng)計方法為TF/IDF方法、BM25 方法、及DFR_BM25方法中的任意一個或多個的組合。
15.如權利要求9所述的查詢擴展設備,其中,所述詞提取器提取詞的方法為 Robertson' s選擇值算法、最大出現(xiàn)次數(shù)算法中的任意一個或多個的組合。
16.如權利要求9所述的查詢擴展設備,其中,在所述新查詢語句生成器中,所提取的 詞與查詢語句中原有的詞有不同或相同的權重。
全文摘要
本發(fā)明提供一種查詢擴展設備,包括搜索器,針對給定的查詢語句進行搜索,得到查詢結果;簇生成器,在所得到的查詢結果集合中,在排名在前一定數(shù)目的查詢結果子集中進行聚類,生成簇;簇簡檔生成器,針對所生成的每個簇來生成簇簡檔;簇簡檔排序器,使用所述搜索器所使用的查詢語句,以簇簡檔為單位在所有簇中進行搜索,來對簇簡檔進行排序;詞提取器,從排名在前一定數(shù)目的簇簡檔中提取詞;新查詢語句生成器,把所提取的詞添加到查詢語句,生成新的查詢語句。
文檔編號G06F17/30GK101876979SQ20091013219
公開日2010年11月3日 申請日期2009年4月28日 優(yōu)先權日2009年4月28日
發(fā)明者姜珊珊, 游贛梅, 謝宣松, 趙利軍, 鄭繼川 申請人:株式會社理光