專利名稱:一種重新定義查詢詞的搜索方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎技術(shù),特別是涉及一種重新定義查詢詞的搜索方法及 裝置。
背景技術(shù):
搜索引擎技術(shù)的發(fā)展給廣大網(wǎng)絡(luò)用戶帶來非常多的便利,用戶在搜索引擎 上輸入一個(gè)查詢詞,搜索引擎根據(jù)用戶的查詢詞,就能返回與該查詢詞對應(yīng)的 相關(guān)網(wǎng)頁。現(xiàn)有的各種搜索引擎在進(jìn)行網(wǎng)頁檢索時(shí),都是通過查找關(guān)鍵詞是否 在網(wǎng)頁中出現(xiàn)來進(jìn)行檢索。雖然這種搜索方式提供了強(qiáng)大的網(wǎng)頁檢索功能,但是也存在下述問題由于自然語言中存在同義詞或近義詞現(xiàn)象,用戶輸入的查 詢詞可能與目標(biāo)網(wǎng)頁中的詞語義相似但是沒有直接出現(xiàn),這樣就檢索不到需要 的結(jié)果了?,F(xiàn)有的解決思路是建立查詢詞之間的關(guān)系表,然后在輸入一個(gè)查詢詞的情 況下,根據(jù)關(guān)系表找到該詞的同義詞或近義詞,將包含所述同義詞或近義詞的 網(wǎng)頁也作為搜索結(jié)果。目前,建立查詢詞之間的關(guān)系主要有兩種實(shí)現(xiàn)方式,第一種為人工方式。 這種方法的缺點(diǎn)是需要大量人力,而且由于網(wǎng)絡(luò)的更新速度較快,對網(wǎng)絡(luò)上出 現(xiàn)的大量查詢詞無法做到及時(shí)更新,通常只能做小范圍處理。第二種方法是通過兩個(gè)詞語在文本中的同現(xiàn)來建立它們的關(guān)聯(lián)關(guān)系,即基 于語料庫的統(tǒng)計(jì)信息來建立同義、近義關(guān)系。常用的同現(xiàn)計(jì)算方式有同現(xiàn)概率 和互信息。舉例說明,例如X,Y是兩個(gè)詞,同現(xiàn)概率計(jì)算公式是P(X,Y同現(xiàn)) =同時(shí)包含X,Y的文本數(shù)量/文本總數(shù),互信息計(jì)算公式是MI(X,Y)=P(X,Y同 現(xiàn))/P(X)/P(Y);其中計(jì)算結(jié)果較大的認(rèn)為X,Y有聯(lián)系。根據(jù)上述計(jì)算公式,這種基于同現(xiàn)方法的缺點(diǎn)是由于同義詞或近義詞常 常是以替代的形式出現(xiàn),很少會(huì)包含在同一個(gè)網(wǎng)頁文本中,例如,"搜狐"和 "sohu"是同義詞,許多網(wǎng)頁中可能根據(jù)習(xí)慣只包含其中一個(gè)詞;因此,根據(jù)同 現(xiàn)計(jì)算方式就不能精確找出具有同義或近義關(guān)系的詞語。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種重新定義查詢詞的搜索方法及裝 置,以解決現(xiàn)有的搜索方式只能將包含查詢詞的網(wǎng)頁作為搜索結(jié)果,而不能精 確搜索到包含該查詢詞的同義或近義詞的網(wǎng)頁,造成搜索效果不能滿足用戶需 求的問題。為解決上述技術(shù)問題,根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)方案一種重新定義查詢詞的搜索方法,包括 根據(jù)搜索引擎日志,獲得查詢詞的歷史記錄;比較查詢詞之間歷史記錄的相似度,并將相似度符合預(yù)置條件的判為相關(guān)詞;根據(jù)查詢詞搜索時(shí),將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。優(yōu)選的,所述方法還包括對所述查詢詞的歷史記錄進(jìn)行預(yù)處理,篩選出 有效的歷史記錄;其中,所述有效歷史記錄包括對應(yīng)查詢詞的有效URL及相 應(yīng)的點(diǎn)擊次數(shù),以及對應(yīng)URL的有效查詢詞及相應(yīng)的訪問次數(shù)。其中,所述篩選有效歷史記錄的步驟包括根據(jù)搜索引擎日志中對應(yīng)一個(gè) 查詢詞所點(diǎn)擊的網(wǎng)頁URL及每個(gè)網(wǎng)頁URL的點(diǎn)擊次數(shù),將點(diǎn)擊次數(shù)符合預(yù)置 條件的URL篩選為對應(yīng)該查詢詞的有效URL。其中,所述篩選有效歷史記錄的步驟包括根據(jù)搜索引擎日志中對應(yīng)一個(gè) 網(wǎng)頁URL所使用的查詢詞及每個(gè)查詢詞的訪問次數(shù),將訪問次數(shù)符合預(yù)置條 件的查詢詞篩選為對應(yīng)該URL的有效查詢詞。優(yōu)選的,所述篩選有效歷史記錄的步驟包括根據(jù)搜索引擎日志中對應(yīng)一 個(gè)查詢詞所點(diǎn)擊的網(wǎng)頁URL及每個(gè)網(wǎng)頁URL的點(diǎn)擊次數(shù),將點(diǎn)擊次數(shù)符合預(yù) 置條件的URL篩選為對應(yīng)該查詢詞的有效URL;針對所述有效URL,根據(jù)搜 索引擎日志中對應(yīng)一個(gè)網(wǎng)頁URL所4吏用的查詢詞及每個(gè)查詢詞的訪問次數(shù), 將訪問次數(shù)符合預(yù)置條件的查詢詞篩選為對應(yīng)所述有效URL的有效查詢詞; 生成針對查詢詞的有效歷史記錄,包括對應(yīng)查詢詞的有效URL及相應(yīng)的點(diǎn)擊 次數(shù)。優(yōu)選的,所述比較查詢詞的歷史記錄來判斷相關(guān)詞的步驟包括根據(jù)查詢詞的有效歷史記錄得到對應(yīng)查詢詞的向量,所述向量包括對應(yīng)查詢詞的有效URL和相應(yīng)的點(diǎn)擊次數(shù);計(jì)算兩個(gè)向量的相似度,并將計(jì)算結(jié)果符合預(yù)置條 件的兩個(gè)詞判為相關(guān)詞。優(yōu)選的,計(jì)算兩個(gè)向量的相似度之前,還包括對所述向量進(jìn)行歸一化計(jì)算。其中,所述比較查詢詞的歷史記錄來判斷相關(guān)詞的步驟包括比較兩個(gè)詞 的有效URL,將兩個(gè)詞的有效URL的相似度符合預(yù)置條件的判為相關(guān)詞。其中,所述相關(guān)詞的查詢結(jié)果為僅包含相關(guān)詞的查詢結(jié)果,和/或同時(shí)包 含相關(guān)詞和查詢詞的查詢結(jié)果。其中,如果將相關(guān)詞提供給用戶,還包括根據(jù)用戶選擇的相關(guān)詞,重新 進(jìn)4亍查詢。優(yōu)選的,所述方法還包括對所述查詢結(jié)果中出現(xiàn)的相關(guān)詞標(biāo)紅。 一種重新定義查詢詞的搜索裝置,包括曰志查詢單元,用于根據(jù)搜索引擎日志,獲得查詢詞的歷史記錄;相關(guān)詞判斷單元,用于比較查詢詞之間歷史記錄的相似度,并將相似度符 合預(yù)置條件的判為相關(guān)詞;查詢重定義單元,用于根據(jù)查詢詞搜索時(shí),將相應(yīng)的相關(guān)詞或相關(guān)詞的查 詢結(jié)果提供給用戶。優(yōu)選的,所述裝置還包括有效歷史記錄篩選單元,用于對所述查詢詞的 歷史記錄進(jìn)行預(yù)處理,篩選出有效的歷史記錄;其中,所述有效歷史記錄包括 對應(yīng)查詢詞的有效URL及相應(yīng)的點(diǎn)擊次數(shù),以及對應(yīng)URL的有效查詢詞及相 應(yīng)的i方問次數(shù)。其中,所述有效歷史記錄篩選單元包括第一篩選單元,用于根據(jù)搜索引擎 日志中對應(yīng)一個(gè)查詢詞所點(diǎn)擊的網(wǎng)頁URL及每個(gè)網(wǎng)頁URL的點(diǎn)擊次數(shù),將點(diǎn) 擊次數(shù)符合預(yù)置條件的URL篩選為對應(yīng)該查詢詞的有效URL。其中,所述有效歷史記錄篩選單元還包括第二篩選單元,用于根據(jù)搜索引 擎曰志中對應(yīng)一個(gè)網(wǎng)頁URL所使用的查詢詞及每個(gè)查詢詞的訪問次數(shù),將訪 問次數(shù)符合預(yù)置條件的查詢詞篩選為對應(yīng)該URL的有效查詢詞。優(yōu)選的,所述有效歷史記錄篩選單元利用第 一篩選單元獲得對應(yīng)查詢詞的有效URL,針對所述有效URL,再利用第二篩選單元獲得對應(yīng)所述有效URL 的有效查詢詞;然々,生成針對查詢詞的有效歷史記錄,包括對應(yīng)查詢詞的有 效URL及相應(yīng)的點(diǎn)擊次凄史。優(yōu)選的,所述相關(guān)詞判斷單元包括第一判斷單元,負(fù)責(zé)根據(jù)查詢詞的有效 歷史記錄得到對應(yīng)查詢詞的向量,所述向量包括對應(yīng)查詢詞的有效URL和相 應(yīng)點(diǎn)擊次數(shù);計(jì)算兩個(gè)向量的相似度,并將計(jì)算結(jié)果符合預(yù)置條件的兩個(gè)詞判 為相關(guān)詞。優(yōu)選的,所述第一判斷單元對所述向量進(jìn)行歸一化計(jì)算后,再計(jì)算兩個(gè)向 量的相似度。其中,所述相關(guān)詞判斷單元包括第二判斷單元,負(fù)責(zé)比較兩個(gè)詞的有效 URL,將兩個(gè)詞的有效URL的相似度符合預(yù)置條件的判為相關(guān)詞。其中,所述相關(guān)詞的查詢結(jié)果為僅包含相關(guān)詞的查詢結(jié)果,和/或同時(shí)包 含相關(guān)詞和查詢詞的查詢結(jié)果。其中,如果查詢重定義單元將相關(guān)詞提供給用戶,則根據(jù)用戶選擇的相關(guān) 詞,重新進(jìn)4亍查詢。優(yōu)選的,所述查詢重定義單元對所述查詢結(jié)果中出現(xiàn)的相關(guān)詞標(biāo)紅。根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)效果首先,本發(fā)明充分利用搜索引擎日志,獲得查詢詞的歷史記錄,然后比較 查詢詞之間歷史記錄的相似度,將相似度符合預(yù)置條件的判為相關(guān)詞,這些相 關(guān)詞是該查詢詞的同義或近義詞;在用戶輸入查詢詞進(jìn)行搜索時(shí),搜索引擎根 據(jù)查詢詞搜索時(shí),將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。這樣就能 將包含相關(guān)詞的網(wǎng)頁也一 同搜索出來,解決了同義或近義詞常常以替代形式出 現(xiàn)而無法被其他方法發(fā)現(xiàn)的問題,從而提高了搜索質(zhì)量。其次,由于搜索引擎日志可以覆蓋近期的大部分查詢,同時(shí)用戶輸入的查 詢詞、點(diǎn)擊的URL與他的查詢意圖之間存在比較直接的聯(lián)系,在覆蓋度和準(zhǔn) 確性上具有一定優(yōu)勢,因此建立的查詢詞相似度關(guān)系更緊密。再次,由于搜索引擎日志同步更新,所以所述整個(gè)流程也是在不斷更新, 進(jìn)一步提高了搜索質(zhì)量,還有利于抓住網(wǎng)上流行的熱點(diǎn)。最后,有些詞(比如新聞詞匯)在特定的時(shí)期具有一些特殊的含義,同義或近義詞常常是以替代的形式出現(xiàn),不會(huì)包含在同一個(gè)網(wǎng)頁文本中,基于同現(xiàn)的方法無法獲取這類詞;而搜索引擎日志具有更強(qiáng)的時(shí)效性,通過本發(fā)明所述 方法能夠獲取到這類詞,并添加到查詢中。
圖l是現(xiàn)有技術(shù)中建立查詢詞之間關(guān)系的方法示意圖;圖2是本發(fā)明實(shí)施例所述一種重新定義查詢詞的搜索方法流程圖;圖3是本發(fā)明實(shí)施例所述一種重新定義查詢詞的搜索裝置結(jié)構(gòu)圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一 步詳細(xì)的說明。本發(fā)明實(shí)施例提供了 一種重新定義查詢詞的搜索方法,利用搜索引擎日志 來獲得查詢詞的有效歷史記錄,然后計(jì)算查詢詞之間有效歷史記錄的相似度, 在查詢時(shí)選定相似詞加入原始查詢,生成新的查詢,這樣就能將包含同義或近 義詞的網(wǎng)頁也一 同搜索出來,解決了同義或近義詞常常以替代形式出現(xiàn)而無法 被其他方法發(fā)現(xiàn)的問題,從而提高了搜索質(zhì)量。舉例說明,查詢詞"搜狐"和"sohu"是同義詞,現(xiàn)有技術(shù)中當(dāng)用戶輸入"搜狐" 查詢時(shí),搜索引擎會(huì)將包含該查詢詞的網(wǎng)頁作為搜索結(jié)果展現(xiàn)給用戶,而本發(fā) 明會(huì)將包含"搜狐"的網(wǎng)頁以及包含"sohu"的網(wǎng)頁都返回給用戶。參照圖2,是本發(fā)明實(shí)施例所述一種重新定義查詢詞的搜索方法流程圖。步驟201,根據(jù)搜索引擎日志,獲得查詢詞的歷史記錄。搜索引擎的日志系統(tǒng)記錄了用戶在搜索引擎上的進(jìn)行的行為,包含兩個(gè)方 面其一,記錄用戶在搜索引擎上進(jìn)行的查詢;其二,記錄用戶在進(jìn)行一次查 詢時(shí)點(diǎn)擊的網(wǎng)頁,例如用戶在"sogou"網(wǎng)站上搜索查詢詞"sohu"時(shí),點(diǎn)擊的 網(wǎng)頁有http:〃www.sohu.com/、 http:〃news.sohu.com/等。本發(fā)明充分利用所述完備的搜索引擎查詢點(diǎn)擊日志,通過查詢該日志可以 得到第一,用戶在查詢某個(gè)查詢詞時(shí)點(diǎn)擊了哪些網(wǎng)頁,每個(gè)網(wǎng)頁被訪問了多 少次;第二,輸入一個(gè)網(wǎng)址,得到點(diǎn)擊這個(gè)網(wǎng)址的查詢詞,以及每個(gè)查詢詞被 訪問了多少次。然后,利用所述日志記錄來建立詞與詞之間的關(guān)聯(lián)關(guān)系。優(yōu)選步驟202,對所述查詢詞的歷史記錄進(jìn)行預(yù)處理,篩選出有效的歷史 記錄。由于日志系統(tǒng)中的數(shù)據(jù)量非常大,而且日志系統(tǒng)中存在很多使用率較低的 查詢詞,如果對每個(gè)詞都計(jì)算它與其他詞的關(guān)系,則計(jì)算量非常大。并且,曰 志記錄中存在一些噪聲,會(huì)影響后續(xù)步驟的處理。因此,本實(shí)施例需要先對這 些日志記錄進(jìn)行預(yù)處理,盡量去除日志噪聲,篩選出有效的歷史記錄。本實(shí)施例采用以下兩個(gè)步驟來篩選有效的歷史記錄,這種方法僅作為本發(fā) 明的實(shí)施例進(jìn)行說明,本發(fā)明不限定還有其他篩選方法。步驟a,根據(jù)對應(yīng)一個(gè)查詢詞所點(diǎn)擊的網(wǎng)頁URL( Uniform Resoure Locator, 統(tǒng)一資源定位符)及每個(gè)網(wǎng)頁的點(diǎn)擊次數(shù),篩選出對應(yīng)查詢詞的有效URL。 即對每個(gè)詞,從歷史記錄中篩選出用戶集中訪問的一些網(wǎng)頁和訪問次數(shù)作為有 效的歷史記錄。例如,對于查詢詞"搜狐",其歷史記錄如下訪問量 URL25778 http:〃www. sohu.com/ 2913 http:〃news.sohu.com/ 1784 http://business.sohu.com/其中,點(diǎn)擊網(wǎng)址http:〃www.sohu.com/的查詢比其它查詢高出數(shù)倍,可看 作該詞對應(yīng)的有效URL。步驟b,根據(jù)對應(yīng)一個(gè)網(wǎng)頁URL所使用的查詢詞及每個(gè)查詢詞的訪問次 數(shù),再對步驟a篩選出的有效URL進(jìn)一步篩選,得到對應(yīng)所述有效URL的有 效查詢詞。例如,對于上例中有效的URL: http:〃www.sohu.comA對應(yīng)的查詢詞記 錄如下訪問量查詢詞 35978 sohu 25778 搜狐 4259 www.sohu.com其中,查詢詞"sohu"和"搜狐"的訪問量比其它的查詢詞高出數(shù)倍,可 視作該URL的有效查詢詞。在篩選有效歷史記錄的過程中,將上述兩個(gè)步驟結(jié)合起來,可將日志記錄 中點(diǎn)擊較少的查詢詞和點(diǎn)擊較少的網(wǎng)頁都去除,并去除不相關(guān)的點(diǎn)擊,從而得 到包含有效查詢詞和有效URL的歷史記錄,即"查詢詞-URL"對。例如,對 于查詢詞"搜弧",相應(yīng)的點(diǎn)擊URL中www.sohu.com的排名很高,但是在 www.sohu.com下,"搜弧,,的查詢不高,所以"搜弧"這個(gè)查詢詞不是有效的 查詢詞,將^皮刪去。需要說明的是,上述步驟a和步驟b在執(zhí)行時(shí)沒有特定的先后順序,可以 先a后b,也可以先b后a;而且,所述兩個(gè)步驟也可以分別單獨(dú)使用,但通 常是配合起來共同進(jìn)行篩選效果更好。步驟203,通過比較查詢詞之間有效歷史記錄的相似度,建立查詢詞之間 的相關(guān)關(guān)系,并將有效歷史記錄相似的詞語作為相關(guān)詞。根據(jù)步驟202得到對應(yīng)查詢詞的有效歷史記錄后,將有效URL和相應(yīng)的 訪問量構(gòu)成一個(gè)向量,例如針對查詢詞"搜狐",其向量為[www.sohu.com, 25778]。通過比較兩個(gè)向量的相似度,可以得到兩個(gè)查詢詞的相似度,選中其 中相似度高的詞作為相關(guān)詞。所述相關(guān)詞通常是指在自然語言上具有同義或近義關(guān)系的詞,例如"搜弧"而是包含根據(jù)以下過程獲得的查詢詞,所述過程如下根據(jù)搜索引擎日志中記錄的網(wǎng)頁URL,可以得到點(diǎn)擊這個(gè)網(wǎng)址的查詢詞, 這些查詢詞之間都具有本發(fā)明所述的相關(guān)關(guān)系;或者,針對某一查詢詞a,根據(jù)搜索引擎日志獲得對應(yīng)該查詢詞的網(wǎng)頁URL,然后再針對每個(gè)網(wǎng)頁URL找 到點(diǎn)擊相應(yīng)URL的查詢詞b,查詢詞b與查詢詞a就具有相關(guān)關(guān)系。優(yōu)選的,還可以通過上述步驟a和步驟b得到有效相關(guān)詞。例如,才艮據(jù)步 驟b直接篩選出有效相關(guān)詞,或者根據(jù)步驟a和b共同篩選出有效相關(guān)詞。計(jì)算向量相似度的方法有多種,本實(shí)施例在此介紹其中的兩種,如下第一種,通過簡單計(jì)算兩個(gè)詞公共的有效URL比例,判斷向量的相似度。 所述方法是指比較兩個(gè)詞的向量中相同的URL,將比較結(jié)果符合預(yù)置條件的判為相似。其中一種方式是將向量中所有的有效URL都相同的詞判為相關(guān)詞,例^r:兩個(gè)詞"sohu,,和"搜狐","sohu,,對應(yīng)的有效URL只有www,sohu,com, "搜狐,,對應(yīng)的有效URL也只有www.sohu.com,即他們對應(yīng)的有效URL都 是www.sohu.com,則將"sohu"和"搜狐"判為相關(guān)詞;兩個(gè)詞"新聞,,和"news","新聞"對應(yīng)的有效URL有2個(gè),分別是 news.sina.com.cn和news.sohu.com; "news " 對應(yīng)的有效URL也只有2個(gè), 分別是news.sina.com.cn和news.sohu.com。這沖羊,"l斤聞"和"news"對應(yīng)的 有效URL都是news.sina.com.cn和news.sohu.com,貝'J將所述兩個(gè)詞判為相似。這種方法僅僅將有效URL完全相同的兩個(gè)詞判為相似,本實(shí)施例還提供 了另一種判斷方式,主要是針對兩個(gè)詞的有效URL部分相同的情況。例如, 有些詞語是同義或近義關(guān)系,其對應(yīng)的URL列表有部分重疊而不完全相同, 這時(shí)在比較兩個(gè)詞的有效URL時(shí),通過確定預(yù)置的閾值,保證選中的詞語對具有一定的相似性。由上可知,上述第一種方式是第二種方式的特例。第二種方式中當(dāng)閾值為 100%時(shí),即兩個(gè)查詢詞的有效URL列表完全重疊時(shí),即為第一種情況。第二種,對進(jìn)行比較的向量進(jìn)行量化計(jì)算。j叚設(shè)針對某個(gè)查詢詞a,其對應(yīng)的有效歷史記錄為(Ui, Nai), i=l,2,...n;其中,Ui表示對應(yīng)的第i個(gè)有效URL, Nai表示對應(yīng)該URL用戶使用該 詞a進(jìn)行查詢的次數(shù)。所述有效歷史記錄可以表示成一個(gè)n維向量,每一維對 應(yīng)一個(gè)有效的URL及相應(yīng)的訪問次數(shù)。在比較兩個(gè)詞的相似度時(shí),將上述方式表示的向量帶入相似度計(jì)算公式計(jì) 算,然后將計(jì)算值符合閾值的判為相似。其中,相似度計(jì)算可以采用的公式包 括K-L散度公式(庫爾貝克一萊布勒散度)、歐式距離、余弦公式等等公式, 本發(fā)明在此不作限定。經(jīng)過上述步驟,搜索引擎系統(tǒng)建立起一張相關(guān)詞列表。步驟204,用戶輸入查詢詞進(jìn)行檢索時(shí),搜索引擎根據(jù)相關(guān)詞列表查找到只十應(yīng)該查詢詞的相關(guān)詞,然后在返回該查詢詞結(jié)果時(shí),還可以將相應(yīng)的相關(guān)詞 或相關(guān)詞的查詢結(jié)果提供給用戶。即將相關(guān)詞作為用戶輸入的補(bǔ)充加入原始查 詢,生成新的查詢,將該查詢詞和相關(guān)詞都作為搜索關(guān)鍵詞,分別進(jìn)行搜索。搜索引擎最后返回的查詢結(jié)果包括以下三種情況第一種,僅包含該查詢 詞的網(wǎng)頁信息;第二種,同時(shí)包含該查詢詞和相關(guān)詞的網(wǎng)頁信息;第三種,僅 包含相關(guān)詞的網(wǎng)頁信息。根據(jù)查詢結(jié)果與查詢詞的相關(guān)程度,搜索引擎在排序 靠前的查詢結(jié)果中會(huì)將這三種網(wǎng)頁信息都提供給用戶,也可能僅提供其中的一 種或兩種結(jié)果。舉例說明,以查詢詞"搜狐"和"sohu"為例第一種用"搜狐"作為查詢詞,查詢結(jié)果里只含有"搜狐"不含有"sohu"; 第二種用"搜狐,,作為查詢詞,查詢結(jié)果里既含有"搜狐,,又含有"sohu"; 第三種用"搜狐"作為查詢詞,查詢結(jié)果里只含有"sohu"不含有"搜狐"。在現(xiàn)有技術(shù)中,利用目前的搜索引擎得到的查詢結(jié)果包括第一種和第二種 情況,即搜索引擎將包含查詢詞"搜狐"的網(wǎng)頁作為查詢結(jié)果。而利用本發(fā)明 實(shí)施例所述方法,搜索引擎獲得的查詢結(jié)果包括以上三種情況。針對第三種查 詢結(jié)果,用戶輸入查詢詞"搜狐",本發(fā)明搜索引擎首先找到該詞的相關(guān)詞 "sohu",然后將僅包含"sohu"的網(wǎng)頁檢索出來。針對第二種情況,查詢結(jié) 果中同時(shí)包含"搜狐"和"sohu",本發(fā)明搜索引擎根據(jù)查詢詞"搜狐"可以 檢索出,也可以根據(jù)相關(guān)詞"sohu,,檢索出。綜上所述,本發(fā)明與現(xiàn)有技術(shù)的區(qū)別在于現(xiàn)有技術(shù)僅僅能將包含查詢詞 "搜狐"的網(wǎng)頁檢索出,而不能把僅包含相關(guān)詞"sohu"的網(wǎng)頁檢索出;本發(fā) 明即可以將僅包含查詢詞"搜狐"的網(wǎng)頁檢索出,也可以把僅包含相關(guān)詞"sohu" 的網(wǎng)頁檢索出,還可以把同時(shí)包含"搜狐"和"sohu"的網(wǎng)頁檢索出來。由此 可見,利用本發(fā)明得到的搜索結(jié)果更準(zhǔn)確,能夠給用戶帶來更好的搜索體驗(yàn)。再舉例,現(xiàn)有技術(shù)中,用"搜狐"作為查詢詞時(shí),返回的網(wǎng)頁有A、 B、 C、 D,用"sohu"作為查詢詞時(shí)返回的網(wǎng)頁是A、 B、 E、 F。其中,網(wǎng)頁A、 B即包含"搜狐"又包含"sohu",網(wǎng)頁C、 D僅包含"搜狐",網(wǎng)頁E、 F僅包含"sohu"。應(yīng)用本發(fā)明后,當(dāng)用戶用"搜狐"作為查詢詞時(shí),搜索引擎會(huì)將"搜狐"和"sohu"都作為查詢詞,分別進(jìn)行查詢,最終為用戶提供A、 B、 C、 D、 E、 F的網(wǎng)頁內(nèi)容。此外,本實(shí)施例還可以將該查詢詞的相關(guān)詞作為查詢結(jié)果提供給用戶,即 在查詢結(jié)果頁面中列出相應(yīng)的相關(guān)詞。這時(shí),搜索引擎會(huì)根據(jù)用戶選擇的相關(guān) 詞,進(jìn)行重新查詢。即用戶點(diǎn)擊相關(guān)詞,搜索引擎將所述相關(guān)詞作為查詢詞, 再次進(jìn)行查詢。例如,用戶輸入查詢詞"搜狐",搜索引擎的結(jié)果頁面中不僅 列出對應(yīng)"搜狐"的查詢結(jié)果,還會(huì)將相關(guān)詞"sohu"列出作為提示信息,用 戶繼續(xù)點(diǎn)擊"sohu",搜索引擎就會(huì)將對應(yīng)"sohu,,的查詢結(jié)果提供給用戶。 或者,搜索引擎將對應(yīng)"搜狐"和"sohu"的查詢結(jié)果都列出來,同時(shí)將相關(guān) 詞"sohu"也列出來供用戶參考。本發(fā)明實(shí)施例優(yōu)選的,還會(huì)對查詢結(jié)果中出現(xiàn)的相關(guān)詞進(jìn)行標(biāo)紅。所述標(biāo) 紅是指在查詢結(jié)果中將查詢詞以彩色標(biāo)注出來,以方便用戶查看。由于有些查 詢結(jié)果的頁面中并沒有列出相應(yīng)的查詢詞或相關(guān)詞,所以僅對出現(xiàn)在查詢結(jié)果 的自動(dòng)摘要或網(wǎng)頁鏈接等位置的查詢詞和相關(guān)詞標(biāo)紅。在現(xiàn)有技術(shù)中,針對查 詢詞的查詢結(jié)果中就會(huì)將出現(xiàn)的查詢詞標(biāo)紅,而本發(fā)明會(huì)將查詢結(jié)果中出現(xiàn)的 查詢詞和相關(guān)詞都標(biāo)紅。將本發(fā)明與現(xiàn)有技術(shù)對比上例中,現(xiàn)有技術(shù)的查詢結(jié)果包括第一種和第 二種情況,標(biāo)紅的查詢詞為"搜狐";而本發(fā)明的查詢結(jié)果包括所述三種情況, 標(biāo)紅的查詢詞既有"搜狐",還有"搜狐"的相關(guān)詞"sohu"。區(qū)別尤其明顯的 是第二種查詢結(jié)果里既含有"搜狐"又含有"sohu"的情況,現(xiàn)有技術(shù)只將"搜 狐"標(biāo)紅,本發(fā)明會(huì)同時(shí)將"搜狐"和"sohu,,都標(biāo)紅。此外,針對日志噪聲的問題,還可以有多種去噪方法,例如www.sohu.com對應(yīng)的查詢詞"搜弧"是錯(cuò)別字造成的查詢詞,由于該站 點(diǎn)的知名度較高,"搜弧"的查詢量可能比某些小站點(diǎn)的查詢詞點(diǎn)擊量要高出 很多,但是小站點(diǎn)中查詢詞和URL的關(guān)系可能要更緊密一些。如果將小站點(diǎn) 的查詢詞與大站點(diǎn)的查詢詞進(jìn)行相似度比較,是沒有可比性的。因此,需要找 到一些特征,濾掉這些大站點(diǎn)下的噪聲,同時(shí)加強(qiáng)對小站點(diǎn)的處理能力。解決方法是采用歸一化方法,就是用每個(gè)部分去除整體,然后得到占整體的百分?jǐn)?shù),把數(shù)據(jù)映射到0~1范圍之內(nèi)處理。如果畫出了各個(gè)部分的圖象, 那么圖象的積分應(yīng)該是l,就像正態(tài)分布。例如,設(shè)一個(gè)向量為V,.則歸一化后為V/||V||。例如對向量(Ui,Nai),i=l,2,...n 進(jìn)行歸 一 化處理,得到 (Nal/N,Na2/N,...,Nan/N),其中N為該詞所有的URL的訪問數(shù)之和。綜上所述,本發(fā)明充分利用了搜索引擎的日志信息,通過挖掘相似詞匯并 加入查詢串中以彌補(bǔ)單個(gè)用戶輸入信息量的不足,提高了搜索質(zhì)量。而且,搜 索引擎的日志在同步更新,所以所述整個(gè)流程也是在不斷更新,進(jìn)一步提高了 搜索質(zhì)量,還有利于抓住網(wǎng)上流行的熱點(diǎn)。其次,由于搜索引擎日志可以覆蓋近期的大部分查詢,同時(shí)用戶輸入的查 詢詞、點(diǎn)擊的URL與他的查詢意圖之間存在比較直接的聯(lián)系,在覆蓋度和準(zhǔn) 確性上具有一定優(yōu)勢,因此建立的查詢詞相似度關(guān)系更緊密。而且,針對在特 定時(shí)期具有一些特殊含義的詞語,比如新聞詞匯,基于同現(xiàn)的方法無法獲取這 類詞;而搜索引擎日志具有更強(qiáng)的時(shí)效性,通過本發(fā)明所述方法能夠獲取到這 類詞,并添加到查詢中。針對上述方法,本發(fā)明還提供了一種重新定義查詢詞的搜索裝置實(shí)施例。 參照圖3,是所述裝置的結(jié)構(gòu)圖。所述裝置主要包括日志查詢單元301,相關(guān) 詞判斷單元302,查詢重定義單元303,以及優(yōu)選設(shè)置的有效歷史記錄篩選單 元304。所述日志查詢單元301負(fù)責(zé)從搜索引擎的日志系統(tǒng)中獲取歷史記錄,所述 歷史記錄包括對應(yīng)一個(gè)查詢詞所點(diǎn)擊的網(wǎng)頁URL及每個(gè)網(wǎng)頁URL的點(diǎn)擊次 數(shù),以及對應(yīng)一個(gè)網(wǎng)頁URL所4吏用的查詢詞及每個(gè)查詢詞的訪問次凄t。由于日志系統(tǒng)中的數(shù)據(jù)量非常大,而且曰志記錄中存在一些噪聲,會(huì)影響 后續(xù)的處理。因此,本實(shí)施例設(shè)置有效歷史記錄篩選單元304,需要先對這些 曰志記錄進(jìn)行預(yù)處理,盡量去除日志噪聲,篩選出有效的歷史記錄。所述有效歷史記錄篩選單元304主要負(fù)責(zé)從搜索引擎的日志系統(tǒng)中篩選 出有效的歷史記錄,根據(jù)篩選方法的不同,可以分為第一篩選單元和第二篩選 單元。所述第一篩選單元用于根據(jù)對應(yīng)一個(gè)查詢詞所點(diǎn)擊的網(wǎng)頁URL及每個(gè) 網(wǎng)頁的點(diǎn)擊次數(shù),篩選出對應(yīng)查詢詞的有效URL;所述第二篩選單元用于才艮據(jù)對應(yīng)一個(gè)網(wǎng)頁URL所4吏用的查詢詞及每個(gè)查詢詞的訪問次數(shù),篩選出對應(yīng)所述有效URL的有效查詢詞。所述兩個(gè)單元可以單獨(dú)使用,分別獲得有效的 URL和有效的查詢詞。一種優(yōu)選的方式是,有效歷史記錄篩選單元304同時(shí)使用所述兩個(gè)單元來 獲得針對查詢詞的有效歷史記錄。篩選方式是利用第一篩選單元獲得對應(yīng)查 詢詞的有效URL,針對所述有效URL,再利用第二篩選單元獲得對應(yīng)所述有 效URL的有效查詢詞;然后,生成針對查詢詞的有效歷史記錄,包括對應(yīng)查 詢詞的有效URL及相應(yīng)的點(diǎn)擊次數(shù)。相關(guān)詞判斷單元302負(fù)責(zé)通過計(jì)算查詢詞之間有效歷史記錄的相似度,建 立查詢詞之間的相關(guān)關(guān)系,并將有效歷史記錄相似的詞語作為相關(guān)詞,最后得 到一張相關(guān)詞列表。根據(jù)相似度的計(jì)算及判斷方式不同,相關(guān)詞判斷單元202 可分為第 一判斷單元和第二判斷單元。其中,第 一判斷單元采用的方式是對進(jìn)行比較的查詢詞向量進(jìn)行量化計(jì) 算,將查詢詞對應(yīng)的向量帶入相似度計(jì)算公式計(jì)算,然后將計(jì)算值符合闊值的 判為相似。其中,相似度計(jì)算可以采用的公式包括K-L散度公式、歐式距離、 余弦公式等等公式。第二判斷單元負(fù)責(zé)通過比較兩個(gè)詞的有效URL,將有效URL的相似度符 合預(yù)置條件的判為相關(guān)詞。 一種情況是,如果兩個(gè)詞的有效URL有部分重疊 而不完全相同,則第二判斷單元在比較兩個(gè)詞的有效URL時(shí),通過確定預(yù)置 的閾值,保證選中的詞語對具有一定的相似性。還有一種特殊情況是,當(dāng)設(shè)置 所述閾值為100°/。時(shí),即兩個(gè)查詢詞的有效URL列表完全重疊時(shí),才判為相關(guān) 詞。查詢重定義單元303負(fù)責(zé)在用戶輸入查詢詞進(jìn)行檢索時(shí),根據(jù)相關(guān)詞列表 查找到對應(yīng)該查詢詞的相關(guān)詞,然后將相關(guān)詞作為用戶輸入的補(bǔ)充加入原始查 詢,生成新的查詢。即將該查詢詞和相關(guān)詞都作為搜索關(guān)4走詞,分別進(jìn)行搜索。 搜索結(jié)果包括三種情況第一種,僅包含該查詢詞的網(wǎng)頁信息;第二種,同時(shí) 包含該查詢詞和相關(guān)詞的網(wǎng)頁信息;第三種,僅包含相關(guān)詞的網(wǎng)頁信息。此外,查詢重定義單元303還可以將該查詢詞的相關(guān)詞作為查詢結(jié)果纟是供 給用戶,即在查詢結(jié)果頁面中列出相應(yīng)的相關(guān)詞。這時(shí),查詢重定義單元303會(huì)根據(jù)用戶選擇的相關(guān)詞,進(jìn)行重新查詢。優(yōu)選的,查詢重定義單元303不僅將查詢結(jié)果中出現(xiàn)的查詢詞標(biāo)紅,還將 出現(xiàn)的相關(guān)詞也進(jìn)行標(biāo)紅。例如,查詢結(jié)果里既含有"搜狐"又含有"sohu" 的情況,現(xiàn)有技術(shù)只將"搜狐"標(biāo)紅,本發(fā)明會(huì)同時(shí)將"搜狐"和"sohu"都 標(biāo)紅。圖3所示裝置中未詳述的部分可以參見圖2所示方法的相關(guān)部分,為了篇 幅考慮,在此不再詳述。以上對本發(fā)明所提供的一種重新定義查詢詞的搜索方法及裝置,進(jìn)行了詳實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng) 域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有 改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1、一種重新定義查詢詞的搜索方法,其特征在于,包括根據(jù)搜索引擎日志,獲得查詢詞的歷史記錄;比較查詢詞之間歷史記錄的相似度,并將相似度符合預(yù)置條件的判為相關(guān)詞;根據(jù)查詢詞搜索時(shí),將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括 對所述查詢詞的歷史記錄進(jìn)行預(yù)處理,篩選出有效的歷史記錄;其中,所述有效歷史記錄包括對應(yīng)查詢詞的有效URL及相應(yīng)的點(diǎn)擊次數(shù), 以及對應(yīng)URL的有效查詢詞及相應(yīng)的訪問次數(shù)。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述篩選有效歷史記錄的 步驟包括根據(jù)搜索引擎日志中對應(yīng)一個(gè)查詢詞所點(diǎn)擊的網(wǎng)頁URL及每個(gè)網(wǎng)頁URL 的點(diǎn)擊次數(shù),將點(diǎn)擊次數(shù)符合預(yù)置條件的URL篩選為對應(yīng)該查詢詞的有效 URL。
4、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述篩選有效歷史記錄的 步驟包括才艮據(jù)搜索引擎日志中對應(yīng)一個(gè)網(wǎng)頁URL所使用的查詢詞及每個(gè)查詢詞的 訪問次數(shù),將訪問次數(shù)符合預(yù)置條件的查詢詞篩選為對應(yīng)該URL的有效查詢 詞。
5、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述篩選有效歷史記錄的 步驟包括根據(jù)搜索引擎日志中對應(yīng)一個(gè)查詢詞所點(diǎn)擊的網(wǎng)頁URL及每個(gè)網(wǎng)頁URL 的點(diǎn)擊次數(shù),將點(diǎn)擊次數(shù)符合預(yù)置條件的URL篩選為對應(yīng)該查詢詞的有效 URL;針對所述有效URL,根據(jù)搜索引擎日志中對應(yīng)一個(gè)網(wǎng)頁URL所使用的查 詢詞及每個(gè)查詢詞的訪問次數(shù),將訪問次數(shù)符合預(yù)置條件的查詢詞篩選為對應(yīng) 所述有效URL的有效查詢詞;生成針對查詢詞的有效歷史記錄,包括對應(yīng)查詢詞的有效URL及相應(yīng)的點(diǎn)擊次數(shù)。
6、 根據(jù)權(quán)利要求1所述的方法,其特征在亍,所述比較查詢詞的歷史記 錄來判斷相關(guān)詞的步驟包括根據(jù)查詢詞的有效歷史記錄得到對應(yīng)查詢詞的向量,所述向量包括對應(yīng)查 詢詞的有效URL和相應(yīng)的點(diǎn)擊次數(shù);計(jì)算兩個(gè)向量的相似度,并將計(jì)算結(jié)果符合預(yù)置條件的兩個(gè)詞判為相關(guān)詞。
7、 根據(jù)權(quán)利要求6所述的方法,其特征在于,計(jì)算兩個(gè)向量的相似度之 前,還包括對所述向量進(jìn)行歸一化計(jì)算。
8、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述比較查詢詞的歷史記 錄來判斷相關(guān)詞的步驟包括比較兩個(gè)詞的有效URL,將兩個(gè)詞的有效URL的相似度符合預(yù)置條件的 判為相關(guān)詞。
9、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述相關(guān)詞的查詢結(jié)果為 僅包含相關(guān)詞的查詢結(jié)果,和/或同時(shí)包含相關(guān)詞和查詢詞的查詢結(jié)果。
10、 根據(jù)權(quán)利要求1所述的方法,其特征在于,如果將相關(guān)詞提供給用戶, 還包括根據(jù)用戶選擇的相關(guān)詞,重新進(jìn)行查詢。
11、 根據(jù)權(quán)利要求1或9所述的方法,其特征在于,還包括對所述查詢 結(jié)果中出現(xiàn)的相關(guān)詞標(biāo)紅。
12、 一種重新定義查詢詞的搜索裝置,其特征在于,包括 曰志查詢單元,用于根據(jù)搜索引擎日志,獲得查詢詞的歷史記錄; 相關(guān)詞判斷單元,用于比較查詢詞之間歷史記錄的相似度,并將相似度符合預(yù)置條件的判為相關(guān)詞;查詢重定義單元,用于根據(jù)查詢詞搜索時(shí),將相應(yīng)的相關(guān)詞或相關(guān)詞的查 詢結(jié)果提供給用戶。
13、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括有效 歷史記錄篩選單元,用于對所述查詢詞的歷史記錄進(jìn)行預(yù)處理,篩選出有效的 歷史記錄;其中,所述有效歷史記錄包括對應(yīng)查詢詞的有效URL及相應(yīng)的點(diǎn) 擊次數(shù),以及對應(yīng)URL的有效查詢詞及相應(yīng)的訪問次數(shù)。
14、 根據(jù)權(quán)利要求13所述的裝置,其特征在于所述有效歷史記錄篩選 單元包括第 一 篩選單元,用于根據(jù)搜索引擎日志中對應(yīng)一個(gè)查詢詞所點(diǎn)擊的網(wǎng) 頁URL及每個(gè)網(wǎng)頁URL的點(diǎn)擊次數(shù),將點(diǎn)擊次數(shù)符合預(yù)置條件的URL篩選 為對應(yīng)該查詢詞的有j文URL。
15、 根據(jù)權(quán)利要求14所述的裝置,其特征在于所述有效歷史記錄篩選 單元還包括第二篩選單元,用于根據(jù)搜索引擎日志中對應(yīng)一個(gè)網(wǎng)頁URL所使 用的查詢詞及每個(gè)查詢詞的訪問次數(shù),將訪問次數(shù)符合預(yù)置條件的查詢詞篩選 為對應(yīng)該URL的有歲丈查詢詞。
16、 根據(jù)權(quán)利要求15所述的裝置,其特征在于所述有效歷史記錄篩選 單元利用第一篩選單元獲得對應(yīng)查詢詞的有效URL,針對所述有效URL,再 利用第二篩選單元獲得對應(yīng)所述有效URL的有效查詢詞;然后,生成針對查 詢詞的有效歷史記錄,包括對應(yīng)查詢詞的有效URL及相應(yīng)的點(diǎn)擊次數(shù)。
17、 根據(jù)權(quán)利要求12所述的裝置,其特征在于所述相關(guān)詞判斷單元包 括第一判斷單元,負(fù)責(zé)才艮據(jù)查詢詞的有效歷史記錄得到對應(yīng)查詢詞的向量,所 述向量包括對應(yīng)查詢詞的有效URL和相應(yīng)點(diǎn)擊次數(shù);計(jì)算兩個(gè)向量的相似度, 并將計(jì)算結(jié)果符合預(yù)置條件的兩個(gè)詞判為相關(guān)詞。
18、 根據(jù)權(quán)利要求17所述的裝置,其特征在于所述第一判斷單元對所 述向量進(jìn)行歸一化計(jì)算后,再計(jì)算兩個(gè)向量的相似度。
19、 根據(jù)權(quán)利要求12所述的裝置,其特征在于所述相關(guān)詞判斷單元包 括第二判斷單元,負(fù)責(zé)比較兩個(gè)詞的有效URL,將兩個(gè)詞的有效URL的相似 度符合預(yù)置條件的判為相關(guān)詞。
20、 根據(jù)權(quán)利要求12所述的裝置,其特征在于所述相關(guān)詞的查詢結(jié)果 為僅包含相關(guān)詞的查詢結(jié)果,和/或同時(shí)包含相關(guān)詞和查詢詞的查詢結(jié)果。
21、 根據(jù)權(quán)利要求12所述的裝置,其特征在于如果查詢重定義單元將 相關(guān)詞提供給用戶,貝'J根據(jù)用戶選擇的相關(guān)詞,重新進(jìn)行查詢。
22、 根據(jù)權(quán)利要求12或20所述的裝置,其特征在于所述查詢重定義單 元對所述查詢結(jié)果中出現(xiàn)的相關(guān)詞標(biāo)紅。
全文摘要
本發(fā)明公開了一種重新定義查詢詞的搜索方法及裝置,解決現(xiàn)有的搜索方式只能將包含查詢詞的網(wǎng)頁作為搜索結(jié)果,而不能精確搜索到包含該查詢詞的同義或近義詞的網(wǎng)頁,造成搜索效果不能滿足用戶需求的問題。所述方法包括根據(jù)搜索引擎日志,獲得查詢詞的歷史記錄;比較查詢詞之間歷史記錄的相似度,并將相似度符合預(yù)置條件的判為相關(guān)詞;根據(jù)查詢詞搜索時(shí),將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。本發(fā)明能將僅包含相關(guān)詞的網(wǎng)頁也一同搜索出來,解決了同義或近義詞常常以替代形式出現(xiàn)而無法被其他方法發(fā)現(xiàn)的問題,從而提高了搜索質(zhì)量。
文檔編號(hào)G06F17/30GK101241512SQ20081010164
公開日2008年8月13日 申請日期2008年3月10日 優(yōu)先權(quán)日2008年3月10日
發(fā)明者張智敏, 王靜帆 申請人:北京搜狗科技發(fā)展有限公司