專利名稱:搜索引擎及其實(shí)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎技術(shù),尤其涉及一種可擴(kuò)展同義搜索查詢的搜索引擎及其實(shí)現(xiàn)方法。
背景技術(shù):
互聯(lián)網(wǎng)的飛速發(fā)展為人們提供了一個(gè)全新的信息存儲(chǔ)、加工、傳遞和使用的載體,網(wǎng)絡(luò)信息也迅速成為了人們獲取知識(shí)和信息的主要渠道之一。而如此規(guī)模的信息資源在將人類占有的幾乎所有知識(shí)納入其中的同時(shí),也給資源的使用者帶來了如何充分開發(fā)和利用的問題。搜索引擎正是在這一需求下應(yīng)運(yùn)而生的,它協(xié)助網(wǎng)絡(luò)用戶在互聯(lián)網(wǎng)上查找信息。具體地,搜索引擎根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供搜索服務(wù),將用戶搜索相關(guān)的信息展示給用戶。搜索引擎提供的在線搜索服務(wù)通常是基于關(guān)鍵詞的搜索,即用戶通過搜索引擎的輸入框輸入查詢表達(dá)式,搜索引擎進(jìn)行查詢并返回包含這些關(guān)鍵詞的結(jié)果網(wǎng)頁。由于不同用戶的知識(shí)背景或使用習(xí)慣不同,對(duì)同一事物搜索所使用的關(guān)鍵詞可能也會(huì)不同,再加上自然語言中本身就存在很多同義詞或近義詞,所以僅基于用戶提供的關(guān)鍵詞來搜索是不夠的。目前,很多搜索引擎都具有擴(kuò)展查詢的功能,如同義擴(kuò)展查詢。當(dāng)搜索引擎接收到用戶輸入的原始查詢表達(dá)式后,會(huì)對(duì)其進(jìn)行分詞操作,并識(shí)別分詞后的詞條集合中是否有潛在的同義詞對(duì)。具體地,搜索引擎會(huì)將切分后的詞條和預(yù)定的同義詞詞庫進(jìn)行匹配,判斷這些詞條中是否存在同義詞的,如果是,則會(huì)在同義詞的基礎(chǔ)上擴(kuò)展搜索查詢,并將擴(kuò)展的查詢結(jié)果和原始的查詢結(jié)果合并后返回顯示給用戶。從而,為用戶提供了更多相關(guān)的搜索結(jié)果。然而,同一字詞在不同的語義環(huán)境中可能體現(xiàn)不同的含義,所以其同義詞也只是在某種語義環(huán)境中同義或近義,而換做不同的語義環(huán)境,該同義詞就無法適用了。所以,在這種情況下,用同義詞擴(kuò)展查詢得到的結(jié)果可能就不是用戶想要的結(jié)果,由此,反而會(huì)給用戶帶來較差的使用體驗(yàn)。例如,用戶輸入的原始查詢是“魚香肉絲怎么做”。隨后,搜索引擎通過對(duì)原始查詢的分詞,并與同義詞庫匹配后獲得了 “怎么做”的潛在同義詞對(duì){ “怎么做”,“菜譜” },并用“菜譜”替換了 “怎么做”來執(zhí)行擴(kuò)展同義查詢并得到相應(yīng)的查詢結(jié)果。但如果用戶提供的原始查詢是“怎么做床頭柜”,顯然,用戶此時(shí)的需求是想了解家具的制作,而搜索引擎仍然使用“菜譜”來替換“怎么做”進(jìn)行擴(kuò)展同義查詢的話,就得到了用戶并不想要的轉(zhuǎn)義結(jié)果,如此用戶會(huì)對(duì)搜索的準(zhǔn)確性提出質(zhì)疑。有鑒于此,有必要對(duì)現(xiàn)有的搜索引擎予以改進(jìn),以解決上述問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種搜索引擎,其通過辨別同義擴(kuò)展查詢結(jié)果的轉(zhuǎn)義概率來調(diào)整同義查詢結(jié)果在整個(gè)搜索結(jié)果中的排序,從而避免在搜索結(jié)果的前列出現(xiàn)轉(zhuǎn)義結(jié)果,進(jìn)而確保用戶具有良好的使用體驗(yàn)。本發(fā)明的目的還在于提供一種上述搜索引擎的實(shí)現(xiàn)方法。
為實(shí)現(xiàn)上述發(fā)明目的之一,本發(fā)明的一種搜索引擎的實(shí)現(xiàn)方法,其特征在于,該方法包括如下步驟接收用戶搜索的原始查詢;分析所述原始查詢,以獲取存在于原始查詢中的原詞以及該原詞的同義詞,并且將所述同義詞替代原始查詢中的原詞以獲得同義查詢;根據(jù)所述原始查詢和同義查詢搜索并獲得原始查詢結(jié)果網(wǎng)頁集合與同義查詢結(jié)果網(wǎng)頁集合;計(jì)算所述原始查詢結(jié)果和同義查詢結(jié)果中網(wǎng)頁的重合度;根據(jù)預(yù)定的與所述重合度對(duì)應(yīng)的合并策略合并原始查詢和同義查詢的結(jié)果網(wǎng)頁 集合,并生成搜索結(jié)果列表。作為本發(fā)明的進(jìn)一步改進(jìn),所述重合度的計(jì)算包括計(jì)算原始查詢結(jié)果和同義查詢結(jié)果中重合的網(wǎng)頁的數(shù)量Iui n U2|。作為本發(fā)明的進(jìn)一步改進(jìn),所述重合度的計(jì)算還包括確定原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量中較少的一個(gè)Min(|Ul|,|U2|);所述重合度I(U1,U2)=
Ul n U2I/Min(|Ul I,U2|)。作為本發(fā)明的進(jìn)一步改進(jìn),所述重合度的計(jì)算還包括計(jì)算原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量的總和Iui U U2 ;所述重合度I(U1,U2)=
Ui η u2|/|ui u U2|。作為本發(fā)明的進(jìn)一步改進(jìn),所述合并策略包括當(dāng)所述重合度的值在預(yù)定重合度區(qū)間中小于預(yù)定的閾值時(shí),所述預(yù)定的合并策略為在合并同義查詢結(jié)果時(shí)進(jìn)行打壓處理,所述打壓處理包括降低同義查詢結(jié)果中網(wǎng)頁的相關(guān)度權(quán)值;或者將同義查詢結(jié)果插入到搜索結(jié)果列表的特定頁之后;或者將同義查詢結(jié)果調(diào)整到原始查詢結(jié)果的后面。作為本發(fā)明的進(jìn)一步改進(jìn),所述合并策略包括當(dāng)重合度的值在預(yù)定的重合度區(qū)間中大于預(yù)定的閾值時(shí),根據(jù)原始查詢結(jié)果和同義查詢結(jié)果中各網(wǎng)頁的相關(guān)度權(quán)值合并原始和同義查詢的結(jié)果。為實(shí)現(xiàn)上述另一目的,本發(fā)明的一種搜索引擎,其包括搜索組件,搜索組件包括查詢分析模塊,用于接收用戶搜索的原始查詢;分析所述原始查詢,以獲取存在于原始查詢中的原詞以及該原詞的同義詞,并且將所述同義詞替代原始查詢中的原詞以獲得同義查詢;搜索模塊,用于根據(jù)所述原始查詢和同義查詢搜索并獲得原始查詢結(jié)果網(wǎng)頁集合與同義查詢結(jié)果網(wǎng)頁集合;重合度計(jì)算及結(jié)果合并模塊,用于計(jì)算所述原始查詢結(jié)果和同義查詢結(jié)果中網(wǎng)頁的重合度;以及根據(jù)預(yù)定的與所述重合度對(duì)應(yīng)的合并策略合并原始查詢和同義查詢的結(jié)果網(wǎng)頁集合,并生成搜索結(jié)果列表。作為本發(fā)明的進(jìn)一步改進(jìn),所述重合度的計(jì)算包括計(jì)算原始查詢結(jié)果和同義查詢結(jié)果中重合的網(wǎng)頁的數(shù)量Iui n U2|。作為本發(fā)明的進(jìn)一步改進(jìn),所述重合度的計(jì)算還包括確定原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量中較少的一個(gè)Min(|Ul|,|U2|);所述重合度I(U1,U2)=Ul n U2I/Min(|Ul I,U2|)。作為本發(fā)明的進(jìn)一步改進(jìn),所述重合度的計(jì)算還包括計(jì)算原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量的總和Iui U U2 ;所述重合度I(U1,U2)=
Ul n U2|/|U1 U U2|。作為本發(fā)明的進(jìn)一步改進(jìn),所述合并策略包括當(dāng)所述重合度的值在預(yù)定重合度區(qū)間中小于預(yù)定的閾值時(shí),所述預(yù)定的合并策略為在合并同義查詢結(jié)果時(shí)進(jìn)行打壓處理,所述打壓處理包括降低同義查詢結(jié)果中網(wǎng)頁的相關(guān)度權(quán)值;或者將同義查詢結(jié)果插入到搜索結(jié)果列表的特定頁之后;或者
將同義查詢結(jié)果調(diào)整到原始查詢結(jié)果的后面。作為本發(fā)明的進(jìn)一步改進(jìn),所述合并策略包括當(dāng)重合度的值在預(yù)定的重合度區(qū)間中大于預(yù)定的閾值時(shí),根據(jù)原始查詢結(jié)果和同義查詢結(jié)果中各網(wǎng)頁的相關(guān)度權(quán)值合并原始和同義查詢的結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是搜索引擎通過判斷原始查詢結(jié)果和同義查詢結(jié)果的重合度,來確定同義查詢結(jié)果出現(xiàn)轉(zhuǎn)義的概率,并在轉(zhuǎn)義概率較大時(shí),打壓同義查詢結(jié)果,以避免不符合用戶搜索需求的結(jié)果出現(xiàn)在搜索結(jié)果列表的前列,從而確保用戶具有良好的使用體驗(yàn)。
圖I是本發(fā)明的搜索引擎的第一實(shí)施方式的工作原理框圖;圖2是圖I所示的搜索引擎挖掘同義語境的工作流程圖;圖3是圖I所示的搜索引擎執(zhí)行同義擴(kuò)展查詢的工作流程圖;圖4是本發(fā)明的搜索引擎的第二實(shí)施方式的工作原理框圖;圖5是圖4所示的搜索引擎執(zhí)行同義擴(kuò)展查詢的工作流程圖;圖6是本發(fā)明的搜索引擎的第三實(shí)施方式的工作原理框圖;圖7是圖6所示的搜索引擎執(zhí)行同義擴(kuò)展查詢的工作流程圖;圖8是本發(fā)明的搜索引擎的第四實(shí)施方式的工作原理框圖;圖9是圖8所示的搜索引擎執(zhí)行同義擴(kuò)展查詢的工作流程圖;圖10是圖8所示的搜索引擎判斷同義詞相似度等級(jí),并對(duì)同義詞進(jìn)行相應(yīng)標(biāo)注的一具體實(shí)施方式
中的工作流程圖。
具體實(shí)施例方式以下將結(jié)合附圖所示的各實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)描述。但這些實(shí)施方式并不限制本發(fā)明,本領(lǐng)域的普通技術(shù)人員根據(jù)這些實(shí)施方式所做出的結(jié)構(gòu)、方法、或功能上的變換均包含在本發(fā)明的保護(hù)范圍內(nèi)。圖I所示的是本發(fā)明的搜索引擎100的第一實(shí)施方式的工作原理框圖。本實(shí)施方式中,搜索引擎100根據(jù)一定的策略從互聯(lián)網(wǎng)上搜集網(wǎng)頁,在對(duì)網(wǎng)頁進(jìn)行組織和處理后,可響應(yīng)客戶端20的瀏覽器21請(qǐng)求而提供搜索查詢的服務(wù)。其中,搜索引擎100可以包括一個(gè)或多個(gè)用來存儲(chǔ)和管理數(shù)據(jù)、并響應(yīng)搜索請(qǐng)求的網(wǎng)絡(luò)服務(wù)器實(shí)體。客戶端20可以包括一個(gè)或多個(gè)用戶終端設(shè)備,如個(gè)人計(jì)算機(jī)、筆記本電腦、無線電話、個(gè)人數(shù)字處理(PDA)、或其它計(jì)算機(jī)裝置和通信裝置。這些服務(wù)器和終端設(shè)備在架構(gòu)上都包含一些基本組件,如總線、處理裝置、存儲(chǔ)裝置、一個(gè)或多個(gè)輸入/輸出裝置、和通信接口等??偩€可以包括一個(gè)或多個(gè)導(dǎo)線,用來實(shí)現(xiàn)服務(wù)器或終端設(shè)備各組件之間的通信。處理裝置包括各類型的用來執(zhí)行指令、處理進(jìn)程或線程的處理器或微處理器。存儲(chǔ)裝置可以包括存儲(chǔ)動(dòng)態(tài)信息的隨機(jī)訪問存儲(chǔ)器(RAM)等動(dòng)態(tài)存儲(chǔ)器,和存儲(chǔ)靜態(tài)信息的只讀存儲(chǔ)器(ROM)等靜態(tài)存儲(chǔ)器,以及包括磁或光學(xué)記錄介質(zhì)與相應(yīng)驅(qū)動(dòng)的大容量存儲(chǔ)器。輸入裝置供用戶輸入信息到服務(wù)器或終端設(shè)備,如鍵盤、鼠標(biāo)、手寫筆、聲音識(shí)別裝置、或生物測定裝置等。輸出裝置包括用來輸出信息的顯示器、打印機(jī)、揚(yáng)聲器等。通信接口用來使服務(wù)器或終端設(shè)備與其它系統(tǒng)或裝置進(jìn)行通信。通信接口之間可通過有線連接、無線連接、或光連接連接到網(wǎng)絡(luò)中,使搜索引擎100、客戶端20間能夠通過網(wǎng)絡(luò)實(shí)現(xiàn)相互間的通信。網(wǎng)絡(luò)可以包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、電話網(wǎng)絡(luò)如公共交換電話網(wǎng)(PSTN)、企業(yè)內(nèi)部的互聯(lián)網(wǎng)、因特網(wǎng)、或上述這些網(wǎng)絡(luò)的結(jié)合等。服務(wù)器和終 端設(shè)備上均包含有用來管理系統(tǒng)資源、控制其它程序運(yùn)行的操作系統(tǒng)軟件,以及用來實(shí)現(xiàn)特定功能模塊功能的應(yīng)用軟件或程序指令。如圖I所示,搜索引擎100可執(zhí)行同義擴(kuò)展查詢,其整體上可分為離線部分和在線部分。在離線部分,搜索引擎100包括可存儲(chǔ)網(wǎng)頁數(shù)據(jù)和同義詞對(duì)信息的數(shù)據(jù)存儲(chǔ)庫12、索引器13、網(wǎng)頁抓取器14、記錄用戶查詢信息的用戶查詢?nèi)罩緮?shù)據(jù)庫16、以及對(duì)用戶查詢?nèi)罩具M(jìn)行分析的日志分析器17。網(wǎng)頁抓取器14是根據(jù)一定的策略通過網(wǎng)頁之間的超鏈接關(guān)系來一個(gè)個(gè)抓取網(wǎng)頁的程序。在具體的實(shí)施方式中,網(wǎng)頁抓取器14從初始的URL(Universal Resource Locator,統(tǒng)一資源定位符)庫中根據(jù)一定的調(diào)度策略選取所要抓取的URL,解析URL中標(biāo)明的網(wǎng)絡(luò)服務(wù)器地址,然后建立連接、發(fā)送請(qǐng)求、和接收數(shù)據(jù),將獲得的網(wǎng)頁數(shù)據(jù)儲(chǔ)存到數(shù)據(jù)存儲(chǔ)庫12的網(wǎng)頁庫122中并建立本地文檔集合,然后從其中提取鏈接以進(jìn)行下一步的抓取動(dòng)作,如此循環(huán)往復(fù)直到所有的URL抓取完為止。網(wǎng)頁抓取器14選取URL所依據(jù)的調(diào)度策略可以包括廣度優(yōu)先策略、深度優(yōu)先策略、反向鏈接數(shù)策略等;抓取方式可以是累積式抓取,也可以是增量式抓取。索引器13用于對(duì)本地文檔集合進(jìn)行分析并建立索引。例如通過分詞從文檔的全文中抽取詞條,然后過濾除去高頻詞或低頻詞,以獲得索引詞集合,最后將網(wǎng)頁到索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁的映射,形成包含索引詞表和倒排表的倒排文件并存儲(chǔ)在數(shù)據(jù)存儲(chǔ)庫12的索引庫121中。對(duì)網(wǎng)頁文檔進(jìn)行分詞的方法包括基于詞典的分詞方法、基于理解的分詞方法、和基于統(tǒng)計(jì)的分詞方法。其中比較常見的基于詞典的分詞方法又包括正向最大切分法、逆向最大切分法、和最少切分法。于本發(fā)明中,同義詞是指名稱不同但表達(dá)的意思相同或相近的詞條,即多個(gè)詞條表達(dá)相同或相近的意思,則這些詞條互為同義詞。本實(shí)施方式中,同義詞庫123包括同義詞對(duì)應(yīng)表1231和同義語境庫1232。其中同義詞對(duì)應(yīng)表1231中預(yù)先指定了不同字詞和其同義詞的對(duì)應(yīng)關(guān)系,如通過預(yù)先統(tǒng)計(jì)獲得的原詞和其同義詞的對(duì)應(yīng)關(guān)系表。該對(duì)應(yīng)表還可以通過分析用戶的歷史查詢點(diǎn)擊數(shù)據(jù)來進(jìn)行不斷的更新。例如,當(dāng)被點(diǎn)擊的查詢結(jié)果網(wǎng)頁的標(biāo)題中包含某原詞的同義詞但并未出現(xiàn)原詞,且這種情形出現(xiàn)的頻次較高,則將該原詞和同義詞確定為同義詞對(duì)并添加入同義詞對(duì)應(yīng)表1231中。圖2所示的是搜索引擎100挖掘同義詞對(duì)的同義語境的一具體實(shí)施方式
的工作流程。于本發(fā)明中,同義語境是指同義詞對(duì)中原詞出現(xiàn)的語義環(huán)境,其用來表明該同義詞對(duì)所適用的語義環(huán)境,即在該語義環(huán)境下,同義詞適合替換原詞來進(jìn)行同義擴(kuò)展查詢。在本實(shí)施方式中,同義語境是通過分析用戶查詢?nèi)罩緛慝@得的。用戶查詢?nèi)罩緮?shù)據(jù)庫17是在每次搜索結(jié)束后,用來記錄用戶的查詢點(diǎn)擊數(shù)據(jù),如查詢?cè)~表達(dá)式、搜索時(shí)間、返回的結(jié)果列表、以及被點(diǎn)擊的結(jié)果網(wǎng)頁等。參 照?qǐng)D2并配合參照?qǐng)DI所示,日志分析器17分析用戶查詢?nèi)罩緮?shù)據(jù)庫16中包含的歷史的用戶查詢式和點(diǎn)擊數(shù)據(jù)(步驟411),包括分析歷史的查詢式以及響應(yīng)于特定查詢式而返回的并被點(diǎn)擊訪問的查詢結(jié)果網(wǎng)頁。接下來,日志分析器17會(huì)識(shí)別這些數(shù)據(jù)中是否存在某個(gè)同義詞對(duì)的同義語境,如果是,則記錄并存儲(chǔ)到同義語境庫1232中。具體地,日志分析器17首先會(huì)基于同義詞對(duì)應(yīng)表1231判斷某一歷史查詢式中是否包含原詞,如果是,則獲取包含該原詞和相應(yīng)同義詞的同義詞對(duì)。例如,歷史查詢式為“魚香肉絲怎么做”,日志分析器17基于同義詞對(duì)應(yīng)表1231判斷該查詢式中存在“怎么做”的原詞(將“魚香肉絲怎么做”切分為“魚香肉絲”和“怎么做”兩個(gè)詞條,然后將這兩個(gè)詞條與同義詞對(duì)應(yīng)表中的原詞進(jìn)行匹配,從而找到“怎么做”的原詞),并獲得了相應(yīng)同義詞對(duì){ “怎么做”,“菜譜”}。隨后,日志分析器17判斷針對(duì)該查詢式,用戶點(diǎn)擊訪問的網(wǎng)頁標(biāo)題中是否包含了同義詞但不包含原詞,如果是,則記錄該同義詞對(duì)的同義語境。例如,針對(duì)查詢式“魚香肉絲怎么做”,用戶點(diǎn)擊過標(biāo)題為“魚香肉絲菜譜”的網(wǎng)頁,則日志分析器17就會(huì)執(zhí)行記錄同義語境的操作。同義語境至少包含該歷史查詢式,如“魚香肉絲怎么做”;也可以包含該歷史查詢式中原詞的緊鄰詞,如“魚香肉絲”;或者是兩者都記錄作為同義詞對(duì){ “怎么做”,“菜譜” }的同義語境。其中,緊鄰詞可以位于原詞前,也可以位于原詞后;緊鄰詞也可以是空詞條,即原始查詢中僅包含原詞,不存在緊鄰詞。上述實(shí)施方式中,同義語境是通過歷史的用戶行為獲得,但在其它實(shí)施方式中,同義語境也可以根據(jù)網(wǎng)頁的錨文本來確定。錨文本即網(wǎng)頁的超鏈接中包含的文本信息。例如,網(wǎng)頁畫.sina. com. cn被引用的地方超鏈文本有“新浪網(wǎng)首頁”、“新浪首頁”、“sina首頁”,那么這幾個(gè)文字段會(huì)被記錄下來作為同義詞對(duì){ “新浪網(wǎng)”,“新浪” }的同義語境。此夕卜,同義語境也可以根據(jù)網(wǎng)頁標(biāo)題中的并列段來確定。例如,price. mycarl68. com/search,asp factoryid = 135這個(gè)網(wǎng)址的標(biāo)題為“華晨寶馬報(bào)價(jià)、華晨寶馬價(jià)格 深圳汽車大世界網(wǎng)”。則通過分隔符,該標(biāo)題可以被切分為多個(gè)并列的詞條片段“華晨寶馬報(bào)價(jià)”“華晨寶馬價(jià)格” “深圳汽車大世界網(wǎng)”,而前兩個(gè)片段包含同義詞對(duì){ “價(jià)格”,“報(bào)價(jià)”}中的“價(jià)格”和“報(bào)價(jià)”,那么這兩個(gè)片段也可以作為該同義詞對(duì)的同義語境。參照?qǐng)D2所示,在同義語境挖掘的過程中,用戶的點(diǎn)擊行為并不一定都是完全合理的,也就是說,用戶在瀏覽搜索結(jié)果的過程中可能會(huì)無心點(diǎn)擊一些不相關(guān)的結(jié)果,在這種情況下記錄的同義語境就不會(huì)準(zhǔn)確。所以為消除這種情形造成的負(fù)面影響,日志分析器17還會(huì)統(tǒng)計(jì)同義語境被記錄的頻次,并且,只有當(dāng)頻次大于或等于一個(gè)預(yù)先確定的頻次閾值時(shí),這個(gè)同義語境才會(huì)保留確定為相應(yīng)同義詞對(duì)的同義語境,也就是說,過濾掉低頻的同義語境(步驟413)。如圖I所示,搜索引擎100的在線部分主要包括搜索組件11和用戶界面15。其中用戶界面15通過客戶端20的瀏覽器軟件21展現(xiàn),用于供用戶輸入查詢式,并按預(yù)定展現(xiàn)方式顯示搜索結(jié)果列表;此外,在搜索結(jié)束后,還用于記錄用戶的查詢信息,并將其存入用戶查詢?nèi)罩緮?shù)據(jù)庫16中。搜索組件11用于響應(yīng)客戶端30的搜索請(qǐng)求,將搜索結(jié)果返回給客戶端20。本實(shí)施方式中,搜索組件11包括搜索模塊111、查詢分析模塊112、和結(jié)果合成模塊113。對(duì)于普通的原始查詢(不包含擴(kuò)展查詢),查詢分析模塊112通常用于對(duì)當(dāng)前接收到的原始查詢進(jìn)行分詞操作,獲得查詢?cè)~集合,并生成查詢?cè)~表。搜索模塊111在接收到查詢?cè)~表后,與數(shù)據(jù)索引庫121中的索引詞表進(jìn)行匹配,找到相應(yīng)的索引詞以及每個(gè)索引詞對(duì)應(yīng)的倒排表,從而獲得與查詢?cè)~相關(guān)的網(wǎng)頁文檔集合。結(jié)果合成模塊113根據(jù)預(yù)先確定的每個(gè)文檔與查詢?cè)~之間的相關(guān)度權(quán)值將搜索到的網(wǎng)頁文檔順序排列,然后將結(jié)果列表通過用戶界面15返回給客戶端。以下結(jié)合圖3所示的工作流程來說明搜索引擎100根據(jù)同義語境在線執(zhí)行同義擴(kuò)展查詢的詳細(xì)步驟。查詢分析模塊112通過用戶界面15接收到當(dāng)前用戶搜索的原始查詢(步驟421),然后分析查詢式(步驟422),包括對(duì)原始查詢進(jìn)行分詞操作。需要說明的是,本實(shí)施方式中的分詞方法是基于詞典的正向最大切分法,而該詞典由同義語境包含的詞條片段構(gòu)造而成。前已述及,歷史查詢式會(huì)被作為同義語境記錄,而歷史查詢式的片段長度要 大于該查詢式被切分后的詞條的長度,所以,采用正向最大切分法可確保一旦當(dāng)前的原始查詢中包含歷史查詢式的片段,則該片段會(huì)被率先切分出來,從而提高了后續(xù)的計(jì)算的準(zhǔn)確率。例如,在同義語境挖掘階段,歷史查詢式是“今天諾基亞多少錢”,則在記錄同義詞對(duì){ “多少錢”,“價(jià)格” }的同義語境時(shí),歷史查詢式“今天諾基亞多少錢”和緊鄰詞“諾基亞”都會(huì)作為同義語境記錄下來。而當(dāng)前的原始查詢是“誰知道今天諾基亞多少錢”,按照正向最大切分法,同義語境詞典中最長的片段“今天諾基亞多少錢”長度是8,則查詢分析模塊112從左到右掃描當(dāng)前的原始查詢,判斷長度為8的短語是否出現(xiàn)在同義語境詞典中,當(dāng)發(fā)現(xiàn)“今天諾基亞多少錢”匹配時(shí),就會(huì)將其先切分出來,如此,“諾基亞”就不會(huì)作為單獨(dú)的關(guān)鍵詞切分出來。在步驟422中,查詢分析模塊112還會(huì)將原始查詢切分后得到的詞條集合與同義詞庫123匹配,獲得潛在同義詞對(duì)和該同義詞對(duì)的同義語境,該潛在同義詞對(duì)中包含了存在于原始查詢中包含的原詞,以及與該原詞對(duì)應(yīng)的同義詞。接下來,查詢分析模塊112判斷同義語境和原始查詢是否匹配(步驟423)。在本實(shí)施方式中,查詢分析模塊112會(huì)計(jì)算同義語境和原始查詢的匹配度,當(dāng)匹配度的值處于預(yù)先確定的匹配度區(qū)間內(nèi)時(shí),則確定同義語境和原始查詢匹配,即表明當(dāng)前原始查詢的語義環(huán)境適合采用同義詞替換原詞來執(zhí)行擴(kuò)展查詢。匹配度的計(jì)算可以根據(jù)原詞始查詢式除去原詞后的長度,及同義語境的長度來確定。以下是本實(shí)施方式中,當(dāng)原始查詢的長度大于原詞的長度(即q古orig)時(shí),匹配度M的計(jì)算公式
n
VTermCountip )、合丄.
M (ori2,syn) =-—-, q ^ oris:
TermCount(q) - TermCount(orig)其中TermCount (q)表示原始查詢的長度,TermCount (orig)表示原始查詢中原詞的長度,TermCount (pi)表示第i個(gè)同義語境的長度。因?yàn)檫@種情況下,原始查詢中會(huì)存在非同義語境的詞,因此M是處于
之間的值。預(yù)先設(shè)定一個(gè)匹配度閾值0,則當(dāng)M的值處于[9,1]時(shí),表明同義語境和原始查詢匹配,則將同義詞替換原始查詢中的原詞以獲得同義查詢,隨后搜索模塊111根據(jù)原始查詢和同義查詢搜索獲得原始查詢結(jié)果的網(wǎng)頁集合及同義查詢結(jié)果網(wǎng)頁的集合(步驟424),結(jié)果合成模塊113根據(jù)預(yù)定的合并策略合并原始查詢和同義查詢的結(jié)果(步驟425)。關(guān)于結(jié)果合并策略,將在后文中做詳細(xì)描述。當(dāng)M的值處于[O,0]時(shí),表明同義語境和原始查詢不匹配,即在這種語義環(huán)境下,不適合用同義詞替代原詞,接下來搜索模塊111只會(huì)根據(jù)原始查詢來執(zhí)行搜索并獲得原始查詢結(jié)果的網(wǎng)頁集合(步驟426),而后結(jié)果合成模塊113根據(jù)預(yù)先確定的每個(gè)網(wǎng)頁與原始查詢之間的相關(guān)度權(quán)值獲得搜索結(jié)果列表(步驟425)。當(dāng)原始查詢僅包含原詞(即q = orig)時(shí),匹配度M = I,則用同義詞之間替換原始查詢,而后執(zhí)行步驟424和步驟425。搜索引擎通過對(duì)當(dāng)前用戶查詢需求的語義環(huán)境分析,以確定是否適用同義詞變換來執(zhí)行同義擴(kuò)展查詢,從而確保同義擴(kuò)展查詢的準(zhǔn)確率,使擴(kuò)展查詢盡量符合用戶的需求,進(jìn)而確保用戶具有良好的使用體驗(yàn)。圖4和圖5揭示了本發(fā)明搜索引擎的第二實(shí)施方式。相比第一實(shí)施方式,本實(shí)施方式的搜索引擎200主要通過判斷同義查詢結(jié)果的轉(zhuǎn)義概率,來調(diào)整同義查詢結(jié)果在最后展現(xiàn)給用戶的搜索結(jié)果列表中的位置。如圖4所示,搜索引擎200包括搜索組件11、數(shù)據(jù) 存儲(chǔ)庫12、索引器13、抓取器14、和用戶界面15。數(shù)據(jù)存儲(chǔ)庫12、索引器13、抓取器14、和用戶界面15等功能模塊與上述實(shí)施方式基本相同,所以申請(qǐng)人在此不再予以贅述。本實(shí)施方式中,搜索組件11包括搜索模塊111、查詢分析模塊112、和重合度計(jì)算及結(jié)果合并模塊114。以下結(jié)合圖5對(duì)本實(shí)施方式的搜索引擎執(zhí)行同義擴(kuò)展查詢做詳細(xì)說明。首先,查詢分析模塊112接收用戶的原始查詢(步驟431)。接下來,分析查詢式(步驟432),包括對(duì)原始查詢進(jìn)行分詞操作以獲得查詢?cè)~集合,基于同義詞庫123識(shí)別原始查詢中的原詞并獲得包含原詞和其同義詞的同義詞對(duì),并直接將同義詞替換原詞以獲得同義查詢。搜索模塊111根據(jù)原始查詢和同義查詢搜索獲得原始查詢結(jié)果的網(wǎng)頁集合及同義查詢結(jié)果網(wǎng)頁的集合(步驟433)。接下來,重合度計(jì)算及結(jié)果合并模塊114計(jì)算原始查詢結(jié)果與同義查詢結(jié)果中網(wǎng)頁的重合度(步驟434)。該重合度主要是用來反應(yīng)原始查詢結(jié)果和同義查詢結(jié)果的中相同網(wǎng)頁的數(shù)量,如果相同網(wǎng)頁的數(shù)量足夠多,表明同義查詢結(jié)果和原始查詢結(jié)果比較接近,則同義查詢結(jié)果出現(xiàn)轉(zhuǎn)義的概率較??;反之,則表明同義查詢結(jié)果出現(xiàn)轉(zhuǎn)義的概率較大,需要對(duì)同義查詢結(jié)果進(jìn)行打壓以避免不符合用戶搜索需求的結(jié)果出現(xiàn)在結(jié)果列表的前列。重合度的計(jì)算可以采用多種方式,如僅計(jì)算原始查詢結(jié)果和同義查詢結(jié)果中重合的網(wǎng)頁的數(shù)量Iui n U2 I,即確定相同的URL數(shù)量;或計(jì)算兩個(gè)結(jié)果集合中各前100個(gè)結(jié)果的重合網(wǎng)頁數(shù)量,然后和預(yù)定的閾值進(jìn)行比較判斷。作為優(yōu)選的方式,重合度的計(jì)算還包括確定原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量中較少的一個(gè)Min(|Ul|,|U2|);然后重合度I(U1,U2) = Ul n U2|/Min(|Ul|, U2 |)?;蛘咴谄渌鼘?shí)施方式中,重合度的計(jì)算還包括計(jì)算原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量的總和|U1 U U2 ;然后重合度I(U1,U2) = Ul n U2|/|U1 U U2|。當(dāng)重合度的值計(jì)算出來后,會(huì)判斷該值是否處于預(yù)定的重合度區(qū)間內(nèi)以確定是否需要打壓同義查詢結(jié)果,而后確定同義查詢結(jié)果在搜索結(jié)果列表中的位置并輸出合并后的結(jié)果(步驟435)。以重合度計(jì)算方式I (U1,U2)=|U1 n U2|/Min(|Ul|,|U2|)為例,重合度的值I為處于
之間的浮點(diǎn)數(shù)。預(yù)先設(shè)定一個(gè)重合度閾值O,則當(dāng)I處于
時(shí),表明原始查詢結(jié)果和同義查詢結(jié)果的重合度較高,這種情況下,不需要打壓同義查詢結(jié)果,只需按照預(yù)先確定的每個(gè)網(wǎng)頁的相關(guān)度權(quán)值來合并原始和同義查詢的結(jié)果。當(dāng)I處于
時(shí),表明原始查詢結(jié)果和同義查詢結(jié)果的重合度較低,同義查詢結(jié)果的轉(zhuǎn)義概率較大,這時(shí)就需要打壓同義查詢結(jié)果。打壓的方式可以是對(duì)同義查詢結(jié)果中網(wǎng)頁的相關(guān)度權(quán)值做降權(quán)處理,從而使同義查詢結(jié)果在合并后的搜索結(jié)果列表中處于較后的位置;或者將同義查詢結(jié)果插入到搜索結(jié)果列表的特定頁之后,如將 同義查詢結(jié)果調(diào)整到搜索結(jié)果列表的第二頁;此外,也可以將同義查詢結(jié)果調(diào)整到原始查詢結(jié)果的后面,即同義查詢結(jié)果出現(xiàn)在搜索結(jié)果列表的最后面。搜索引擎通過判斷原始查詢結(jié)果和同義查詢結(jié)果的重合度,來確定同義查詢結(jié)果出現(xiàn)轉(zhuǎn)義的概率,并在轉(zhuǎn)義概率較大時(shí),打壓同義查詢結(jié)果,以避免不符合用戶搜索需求的結(jié)果出現(xiàn)在搜索結(jié)果列表的前列,從而確保用戶具有良好的使用體驗(yàn)。本實(shí)施方式中,在用同義詞替換原詞執(zhí)行同義擴(kuò)展查詢前,并不必須采用實(shí)施方式一所提到的通過同義語境判斷來確定是否進(jìn)行同義詞替換,然而,本領(lǐng)域的普通技術(shù)人員可以輕易想到的是,如果本實(shí)施方式結(jié)合第一實(shí)施方式,即在同義詞替換前先執(zhí)行同義語境的判斷,然后在同義查詢結(jié)果出來后根據(jù)原始和同義查詢結(jié)果的重合度合并搜索結(jié)果,顯然這樣可以獲得更加準(zhǔn)確的搜索結(jié)果,從而進(jìn)一步提升用戶體驗(yàn)。圖6和圖7揭示了本發(fā)明搜索引擎的第三實(shí)施方式。本實(shí)施方式是基于同義查詢結(jié)果,進(jìn)一步通過分析同義查詢結(jié)果網(wǎng)頁的語義主題分布來判斷同義查詢結(jié)果的轉(zhuǎn)義概率,進(jìn)而調(diào)整同義查詢結(jié)果在最后展現(xiàn)給用戶的搜索結(jié)果列表中的位置。如圖6所示,與第一實(shí)施方式類似,搜索引擎300包括搜索組件11、數(shù)據(jù)存儲(chǔ)庫12、索引器13、抓取器14、用戶界面15、用戶查詢?nèi)罩緮?shù)據(jù)庫16、日志分析器17。其中索引器13、抓取器14、用戶界面15、用戶查詢?nèi)罩緮?shù)據(jù)庫16、日志分析器17等功能模塊與第一實(shí)施方式中相同,申請(qǐng)人在此不再予以贅述。本實(shí)施方式中,搜索組件11包括搜索模塊111、查詢分析模塊112、結(jié)果合成模塊113、以及轉(zhuǎn)義判定模塊115。數(shù)據(jù)存儲(chǔ)庫12包含有索引庫121、網(wǎng)頁庫122、同義詞庫123、以及網(wǎng)頁語義主題庫124。其中索引庫121、網(wǎng)頁庫122、同義詞庫123與第一實(shí)施方式中相同,申請(qǐng)人在此不再予以贅述。搜索引擎300還包括一主題分析模塊18,本實(shí)施方式中,該主題分析模塊18包含一概率潛在語義分析(Probabilitistic LatentSemanticAnalysis,下稱 PLSA)模型。PLSA模型是一種自然語言處理的工具,其主要用于分析文檔的潛在語義。一個(gè)文檔可以被表示為一組詞的集合,但由于同義詞的存在,詞并不是文檔的最基本組成元素,所以,可以認(rèn)為在詞與文檔之間還有一個(gè)潛在的語義層面,即主題。例如,用戶輸入的查詢式為“瑞士軍刀綠顏色”,由于{ “綠顏色”,“綠色” }為同義詞對(duì),所以可以用“綠色”替換“綠顏色”來執(zhí)行同義擴(kuò)展查詢,但這時(shí)召回的結(jié)果可能會(huì)包含標(biāo)題為“系統(tǒng)瑞士軍刀-完美卸載V2007綠色版”的網(wǎng)頁。這是因?yàn)椤叭鹗寇姷毒G顏色”對(duì)應(yīng)的主題為“物品”,而“系統(tǒng)瑞士軍刀-完美卸載V2007綠色版”對(duì)應(yīng)的主題為“軟件”,顯然,搜索引擎還無法理解這些隱含的主題。PLSA模型是一種通過計(jì)算文檔中共現(xiàn)詞的分布來分析潛在語義主題的主題模型,其在文檔和詞之間引入一個(gè)潛在的語義層,該潛在語義層由n個(gè)潛在語義主題構(gòu)成。假設(shè)文檔與詞之間是相互獨(dú)立的,則文檔與詞共同出現(xiàn)的概率由它們與主題之間的概率關(guān)系來決定。因此,通過PLSA模型可計(jì)算出文檔或詞與潛在語義主題之間的關(guān)系?;诖耍緦?shí)施方式中可以通過PLSA模型獲得同義語境和同義查詢結(jié)果網(wǎng)頁的語義主題分布,并計(jì)算兩者的匹配度以確定同義查詢結(jié)果的轉(zhuǎn)義概率。接下來將作詳細(xì)描述。如圖6所示,主題分析模塊18從網(wǎng)頁庫122中獲取網(wǎng)頁,去掉網(wǎng)頁中的邊框廣告等干擾詞,然后提取能夠代表該網(wǎng)頁的關(guān)鍵詞集合。隨后,主題分析模塊18通過PLSA模型計(jì)算獲得表示該網(wǎng)頁的語義主題分布的網(wǎng)頁-潛在語義主題向量S2= {s21, s22, ...,s2n},其中s2n表示該網(wǎng)頁在第n個(gè)語義主題上的概率分值。本實(shí)施方式中,網(wǎng)頁語義主題分布的獲取是在離線狀態(tài)下獲得,即主題分析 模塊18分析所有被抓取的網(wǎng)頁,獲得其語義主題分布,然后存儲(chǔ)入網(wǎng)頁語義主題庫124中。當(dāng)然,該過程也可以是在在線搜索的狀態(tài)下獲得,即當(dāng)同義查詢結(jié)果獲得后,主題分析模塊18僅分析查詢結(jié)果中的網(wǎng)頁,然后將這些網(wǎng)頁的語義主題分布交給轉(zhuǎn)義判定模塊115來判斷。本實(shí)施方式中,同義語境語義主題分布的獲取是在線實(shí)現(xiàn)的。當(dāng)查詢分析模塊112切分原始查詢獲得關(guān)鍵詞集合后,主題分析模塊18獲取該關(guān)鍵詞集合,并且從同義語境庫1232中獲得相應(yīng)的同義語境包含的詞條集合。然后,將關(guān)鍵詞集合與同義語境的詞條集合合在一起,交給PLSA模型計(jì)算并獲得表示該同義語境的語義主題分布的同義語境-潛在語義主題向量SI = {sll, sl2, ...sln},其中sin是指同義語境在第n個(gè)語義主題上的概率值。當(dāng)?shù)玫较蛄縎I后,主題分析模塊18將其交給轉(zhuǎn)義判定模塊115來判斷SI和S2的相似度。關(guān)于判斷的步驟,將會(huì)在后文做詳細(xì)地描述。接下來將配合圖7詳細(xì)介紹本實(shí)施方式中搜索引擎300執(zhí)行同義擴(kuò)展查詢的詳細(xì)步驟。首先,查詢分析模塊112接收到用戶搜索的原始查詢(步驟441),然后對(duì)該原始查詢進(jìn)行分析(步驟442)。查詢分析模塊112會(huì)對(duì)原始查詢進(jìn)行分詞操作,如同第一實(shí)施方式,分詞操作是基于同義語境構(gòu)建的詞典做最大正向切分。經(jīng)分詞操作后獲得原始關(guān)鍵詞集合,一方面,查詢分析模塊112將原始關(guān)鍵詞集合交給搜索模塊111執(zhí)行原始查詢(步驟449),并獲得原始查詢結(jié)果(步驟450)。另一方面,查詢分析模塊112基于同義詞庫123識(shí)別原始查詢中包含的原詞,并獲得相應(yīng)的潛在同義詞對(duì)及該潛在同義詞對(duì)的同義語境。分析查詢模塊112在獲得上述數(shù)據(jù)后,可以直接用同義詞替換原詞以獲得同義查詢,并交給搜索模塊111執(zhí)行同義擴(kuò)展查詢(步驟443)。作為優(yōu)選的實(shí)施方式中,在執(zhí)行同義詞替換操作前,可以先判斷是否符合原詞的同義語境,如果符合的話,再執(zhí)行同義替換的操作,如此可進(jìn)一步提高同義查詢結(jié)果的準(zhǔn)確率。關(guān)于根據(jù)同義語境的匹配度判斷來執(zhí)行同義詞替換的操作,已在第一實(shí)施方式中做了詳細(xì)描述,申請(qǐng)人在此不再語義贅述。此外,查詢分析模塊112還將原始關(guān)鍵詞集合交給主題分析模塊18,由其通過PLSA模型計(jì)算并獲得同義語境的語義主題分布(步驟447),計(jì)算的結(jié)果交給轉(zhuǎn)義判定模塊115。搜索模塊111執(zhí)行同義查詢獲得同義查詢結(jié)果(步驟444)后,轉(zhuǎn)義判定模塊115根據(jù)同義查詢結(jié)果從網(wǎng)頁語義主題庫中獲得結(jié)果網(wǎng)頁的語義主題分布,即網(wǎng)頁-潛在語義主題的向量S2= {s21, s22, , s2n}(步驟445)。另一方面,轉(zhuǎn)義判定模塊115從主題分析模塊得到了同義語境的語義主題分布,即同義語境-潛在語義主題的向量SI = {sll,sl2, . . . sin},接下來,轉(zhuǎn)義判定模塊115判斷兩個(gè)語義主題分布的匹配度,即計(jì)算兩個(gè)向量S1、S2的相似度(步驟446);而后根據(jù)匹配度過濾同義查詢結(jié)果(步驟448),即確定同義查詢結(jié)果的打壓方式,并據(jù)此合并原始查詢和同義查詢的結(jié)果,生成搜索結(jié)果列表(步驟451)。關(guān)于兩個(gè)向量的相似度計(jì)算有多種,如內(nèi)積相似度、余弦相似度等。以下是利用余弦相似度計(jì)算向量SI和S2之間相似度的計(jì)算公式的示例。
權(quán)利要求
1.一種搜索引擎的實(shí)現(xiàn)方法,其特征在于,該方法包括如下步驟 接收用戶搜索的原始查詢; 分析所述原始查詢,以獲取存在于原始查詢中的原詞以及該原詞的同義詞,并且將所述同義詞替代原始查詢中的原詞以獲得同義查詢; 根據(jù)所述原始查詢和同義查詢搜索并獲得原始查詢結(jié)果網(wǎng)頁集合與同義查詢結(jié)果網(wǎng)頁集合; 計(jì)算所述原始查詢結(jié)果和同義查詢結(jié)果中網(wǎng)頁的重合度; 根據(jù)預(yù)定的與所述重合度對(duì)應(yīng)的合并策略合并原始查詢和同義查詢的結(jié)果網(wǎng)頁集合,并生成搜索結(jié)果列表。
2.根據(jù)權(quán)利要求I所述的搜索引擎的實(shí)現(xiàn)方法,其特征在于,所述重合度的計(jì)算包括計(jì)算原始查詢結(jié)果和同義查詢結(jié)果中重合的網(wǎng)頁的數(shù)量Iui n U2|。
3.根據(jù)權(quán)利要求2所述的搜索引擎的實(shí)現(xiàn)方法,其特征在于,所述重合度的計(jì)算還包括確定原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量中較少的一個(gè)Min(|Ul |,U2|);所述重合度 I(U1,U2) = Ul n U2|/Min(|Ul|,U2 |)。
4.根據(jù)權(quán)利要求2所述的搜索引擎的實(shí)現(xiàn)方法,其特征在于,所述重合度的計(jì)算還包括計(jì)算原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量的總和IUl U U2 ;所述重合度 I(U1, U2) = Ul n U2|/|U1 U U2|。
5.根據(jù)權(quán)利要求I所述的搜索引擎的實(shí)現(xiàn)方法,其特征在于,所述合并策略包括當(dāng)所述重合度的值在預(yù)定重合度區(qū)間中小于預(yù)定的閾值時(shí),所述預(yù)定的合并策略為在合并同義查詢結(jié)果時(shí)進(jìn)行打壓處理,所述打壓處理包括 降低同義查詢結(jié)果中網(wǎng)頁的相關(guān)度權(quán)值;或者 將同義查詢結(jié)果插入到搜索結(jié)果列表的特定頁之后;或者 將同義查詢結(jié)果調(diào)整到原始查詢結(jié)果的后面。
6.根據(jù)權(quán)利要求I所述的搜索引擎的實(shí)現(xiàn)方法,其特征在于,所述合并策略包括當(dāng)重合度的值在預(yù)定的重合度區(qū)間中大于預(yù)定的閾值時(shí),根據(jù)原始查詢結(jié)果和同義查詢結(jié)果中各網(wǎng)頁的相關(guān)度權(quán)值合并原始和同義查詢的結(jié)果。
7.一種搜索引擎,其特征在于,該搜索引擎包括搜索組件,搜索組件包括 查詢分析模塊,用于接收用戶搜索的原始查詢;分析所述原始查詢,以獲取存在于原始查詢中的原詞以及該原詞的同義詞,并且將所述同義詞替代原始查詢中的原詞以獲得同義查詢; 搜索模塊,用于根據(jù)所述原始查詢和同義查詢搜索并獲得原始查詢結(jié)果網(wǎng)頁集合與同義查詢結(jié)果網(wǎng)頁集合; 重合度計(jì)算及結(jié)果合并模塊,用于計(jì)算所述原始查詢結(jié)果和同義查詢結(jié)果中網(wǎng)頁的重合度;以及根據(jù)預(yù)定的與所述重合度對(duì)應(yīng)的合并策略合并原始查詢和同義查詢的結(jié)果網(wǎng)頁集合,并生成搜索結(jié)果列表。
8.根據(jù)權(quán)利要求7所述的搜索引擎,其特征在于,所述重合度的計(jì)算包括計(jì)算原始查詢結(jié)果和同義查詢結(jié)果中重合的網(wǎng)頁的數(shù)量Iui n U2|。
9.根據(jù)權(quán)利要求8所述的搜索引擎,其特征在于,所述重合度的計(jì)算還包括確定原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量中較少的一個(gè)Min(|Ul|,|U2|);所述重合度 I(U1,U2) = I Ul n U2 I/Min(| Ul I U2 |)。
10.根據(jù)權(quán)利要求8所述的搜索引擎,其特征在于,所述重合度的計(jì)算還包括計(jì)算原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量的總和IUl U U2 ;所述重合度I(U1,U2)=Ui η u2|/|ui u U2|。
11.根據(jù)權(quán)利要求7所述的搜索引擎,其特征在于,所述合并策略包括當(dāng)所述重合度的值在預(yù)定重合度區(qū)間中小于預(yù)定的閾值時(shí),所述預(yù)定的合并策略為在合并同義查詢結(jié)果時(shí)進(jìn)行打壓處理,所述打壓處理包括 降低同義查詢結(jié)果中網(wǎng)頁的相關(guān)度權(quán)值;或者 將同義查詢結(jié)果插入到搜索結(jié)果列表的特定頁之后;或者 將同義查詢結(jié)果調(diào)整到原始查詢結(jié)果的后面。
12.根據(jù)權(quán)利要求7所述的搜索引擎,其特征在于,所述合并策略包括當(dāng)重合度的值在預(yù)定的重合度區(qū)間中大于預(yù)定的閾值時(shí),根據(jù)原始查詢結(jié)果和同義查詢結(jié)果中各網(wǎng)頁的相關(guān)度權(quán)值合并原始和同義查詢的結(jié)果。
全文摘要
本發(fā)明提供一種搜索引擎,其用于接收用戶搜索的原始查詢;分析所述原始查詢,以獲取存在于原始查詢中的原詞以及該原詞的同義詞,并且將所述同義詞替代原始查詢中的原詞以獲得同義查詢;根據(jù)所述原始查詢和同義查詢搜索并獲得原始查詢結(jié)果網(wǎng)頁集合與同義查詢結(jié)果網(wǎng)頁集合;計(jì)算所述原始查詢結(jié)果和同義查詢結(jié)果中網(wǎng)頁的重合度;根據(jù)預(yù)定的與所述重合度對(duì)應(yīng)的合并策略合并原始查詢和同義查詢的結(jié)果網(wǎng)頁集合,并生成搜索結(jié)果列表。搜索引擎通過判斷原始查詢結(jié)果和同義查詢結(jié)果的重合度,來確定同義查詢結(jié)果出現(xiàn)轉(zhuǎn)義的概率,并在轉(zhuǎn)義概率較大時(shí),打壓同義查詢結(jié)果,以避免不符合用戶搜索需求的結(jié)果出現(xiàn)在搜索結(jié)果列表的前列,從而確保用戶具有良好的使用體驗(yàn)。
文檔編號(hào)G06F17/30GK102722499SQ201110079699
公開日2012年10月10日 申請(qǐng)日期2011年3月31日 優(yōu)先權(quán)日2011年3月31日
發(fā)明者呼大為, 李彥宏 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司