搜索引擎及其實(shí)現(xiàn)方法

文檔序號(hào)：6357164閱讀：209來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：搜索引擎及其實(shí)現(xiàn)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及搜索引擎技術(shù)，尤其涉及一種可擴(kuò)展同義搜索查詢的搜索引擎及其實(shí)現(xiàn)方法。
背景技術(shù)：
互聯(lián)網(wǎng)的飛速發(fā)展為人們提供了一個(gè)全新的信息存儲(chǔ)、加工、傳遞和使用的載體，網(wǎng)絡(luò)信息也迅速成為了人們獲取知識(shí)和信息的主要渠道之一。而如此規(guī)模的信息資源在將人類占有的幾乎所有知識(shí)納入其中的同時(shí)，也給資源的使用者帶來了如何充分開發(fā)和利用的問題。搜索引擎正是在這一需求下應(yīng)運(yùn)而生的，它協(xié)助網(wǎng)絡(luò)用戶在互聯(lián)網(wǎng)上查找信息。具體地，搜索引擎根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息，在對(duì)信息進(jìn)行組織和處理后，為用戶提供搜索服務(wù)，將用戶搜索相關(guān)的信息展示給用戶。搜索引擎提供的在線搜索服務(wù)通常是基于關(guān)鍵詞的搜索，即用戶通過搜索引擎的輸入框輸入查詢表達(dá)式，搜索引擎進(jìn)行查詢并返回包含這些關(guān)鍵詞的結(jié)果網(wǎng)頁。由于不同用戶的知識(shí)背景或使用習(xí)慣不同，對(duì)同一事物搜索所使用的關(guān)鍵詞可能也會(huì)不同，再加上自然語言中本身就存在很多同義詞或近義詞，所以僅基于用戶提供的關(guān)鍵詞來搜索是不夠的。目前，很多搜索引擎都具有擴(kuò)展查詢的功能，如同義擴(kuò)展查詢。當(dāng)搜索引擎接收到用戶輸入的原始查詢表達(dá)式后，會(huì)對(duì)其進(jìn)行分詞操作，并識(shí)別分詞后的詞條集合中是否有潛在的同義詞對(duì)。具體地，搜索引擎會(huì)將切分后的詞條和預(yù)定的同義詞詞庫進(jìn)行匹配，判斷這些詞條中是否存在同義詞的，如果是，則會(huì)在同義詞的基礎(chǔ)上擴(kuò)展搜索查詢，并將擴(kuò)展的查詢結(jié)果和原始的查詢結(jié)果合并后返回顯示給用戶。從而，為用戶提供了更多相關(guān)的搜索結(jié)果。然而，同一字詞在不同的語義環(huán)境中可能體現(xiàn)不同的含義，所以其同義詞也只是在某種語義環(huán)境中同義或近義，而換做不同的語義環(huán)境，該同義詞就無法適用了。所以，在這種情況下，用同義詞擴(kuò)展查詢得到的結(jié)果可能就不是用戶想要的結(jié)果，由此，反而會(huì)給用戶帶來較差的使用體驗(yàn)。例如，用戶輸入的原始查詢是“魚香肉絲怎么做”。隨后，搜索引擎通過對(duì)原始查詢的分詞，并與同義詞庫匹配后獲得了 “怎么做”的潛在同義詞對(duì){ “怎么做”，“菜譜” }，并用“菜譜”替換了 “怎么做”來執(zhí)行擴(kuò)展同義查詢并得到相應(yīng)的查詢結(jié)果。但如果用戶提供的原始查詢是“怎么做床頭柜”，顯然，用戶此時(shí)的需求是想了解家具的制作，而搜索引擎仍然使用“菜譜”來替換“怎么做”進(jìn)行擴(kuò)展同義查詢的話，就得到了用戶并不想要的轉(zhuǎn)義結(jié)果，如此用戶會(huì)對(duì)搜索的準(zhǔn)確性提出質(zhì)疑。有鑒于此，有必要對(duì)現(xiàn)有的搜索引擎予以改進(jìn)，以解決上述問題。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種搜索引擎，其通過辨別同義擴(kuò)展查詢結(jié)果的轉(zhuǎn)義概率來調(diào)整同義查詢結(jié)果在整個(gè)搜索結(jié)果中的排序，從而避免在搜索結(jié)果的前列出現(xiàn)轉(zhuǎn)義結(jié)果，進(jìn)而確保用戶具有良好的使用體驗(yàn)。本發(fā)明的目的還在于提供一種上述搜索引擎的實(shí)現(xiàn)方法。
為實(shí)現(xiàn)上述發(fā)明目的之一，本發(fā)明的一種搜索引擎的實(shí)現(xiàn)方法，其特征在于，該方法包括如下步驟接收用戶搜索的原始查詢；分析所述原始查詢，以獲取存在于原始查詢中的原詞以及該原詞的同義詞，并且將所述同義詞替代原始查詢中的原詞以獲得同義查詢；根據(jù)所述原始查詢和同義查詢搜索并獲得原始查詢結(jié)果網(wǎng)頁集合與同義查詢結(jié)果網(wǎng)頁集合；計(jì)算所述原始查詢結(jié)果和同義查詢結(jié)果中網(wǎng)頁的重合度；根據(jù)預(yù)定的與所述重合度對(duì)應(yīng)的合并策略合并原始查詢和同義查詢的結(jié)果網(wǎng)頁集合，并生成搜索結(jié)果列表。作為本發(fā)明的進(jìn)一步改進(jìn)，所述重合度的計(jì)算包括計(jì)算原始查詢結(jié)果和同義查詢結(jié)果中重合的網(wǎng)頁的數(shù)量Iui n U2|。作為本發(fā)明的進(jìn)一步改進(jìn)，所述重合度的計(jì)算還包括確定原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量中較少的一個(gè)Min(|Ul|，|U2|);所述重合度I(U1，U2)=
Ul n U2I/Min(|Ul I，U2|)。作為本發(fā)明的進(jìn)一步改進(jìn)，所述重合度的計(jì)算還包括計(jì)算原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量的總和Iui U U2 ;所述重合度I(U1，U2)=
Ui η u2|/|ui u U2|。作為本發(fā)明的進(jìn)一步改進(jìn)，所述合并策略包括當(dāng)所述重合度的值在預(yù)定重合度區(qū)間中小于預(yù)定的閾值時(shí)，所述預(yù)定的合并策略為在合并同義查詢結(jié)果時(shí)進(jìn)行打壓處理，所述打壓處理包括降低同義查詢結(jié)果中網(wǎng)頁的相關(guān)度權(quán)值；或者將同義查詢結(jié)果插入到搜索結(jié)果列表的特定頁之后；或者將同義查詢結(jié)果調(diào)整到原始查詢結(jié)果的后面。作為本發(fā)明的進(jìn)一步改進(jìn)，所述合并策略包括當(dāng)重合度的值在預(yù)定的重合度區(qū)間中大于預(yù)定的閾值時(shí)，根據(jù)原始查詢結(jié)果和同義查詢結(jié)果中各網(wǎng)頁的相關(guān)度權(quán)值合并原始和同義查詢的結(jié)果。為實(shí)現(xiàn)上述另一目的，本發(fā)明的一種搜索引擎，其包括搜索組件，搜索組件包括查詢分析模塊，用于接收用戶搜索的原始查詢；分析所述原始查詢，以獲取存在于原始查詢中的原詞以及該原詞的同義詞，并且將所述同義詞替代原始查詢中的原詞以獲得同義查詢；搜索模塊，用于根據(jù)所述原始查詢和同義查詢搜索并獲得原始查詢結(jié)果網(wǎng)頁集合與同義查詢結(jié)果網(wǎng)頁集合；重合度計(jì)算及結(jié)果合并模塊，用于計(jì)算所述原始查詢結(jié)果和同義查詢結(jié)果中網(wǎng)頁的重合度；以及根據(jù)預(yù)定的與所述重合度對(duì)應(yīng)的合并策略合并原始查詢和同義查詢的結(jié)果網(wǎng)頁集合，并生成搜索結(jié)果列表。作為本發(fā)明的進(jìn)一步改進(jìn)，所述重合度的計(jì)算包括計(jì)算原始查詢結(jié)果和同義查詢結(jié)果中重合的網(wǎng)頁的數(shù)量Iui n U2|。作為本發(fā)明的進(jìn)一步改進(jìn)，所述重合度的計(jì)算還包括確定原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量中較少的一個(gè)Min(|Ul|，|U2|);所述重合度I(U1，U2)=Ul n U2I/Min(|Ul I，U2|)。作為本發(fā)明的進(jìn)一步改進(jìn)，所述重合度的計(jì)算還包括計(jì)算原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量的總和Iui U U2 ;所述重合度I(U1，U2)=
Ul n U2|/|U1 U U2|。作為本發(fā)明的進(jìn)一步改進(jìn)，所述合并策略包括當(dāng)所述重合度的值在預(yù)定重合度區(qū)間中小于預(yù)定的閾值時(shí)，所述預(yù)定的合并策略為在合并同義查詢結(jié)果時(shí)進(jìn)行打壓處理，所述打壓處理包括降低同義查詢結(jié)果中網(wǎng)頁的相關(guān)度權(quán)值；或者將同義查詢結(jié)果插入到搜索結(jié)果列表的特定頁之后；或者
將同義查詢結(jié)果調(diào)整到原始查詢結(jié)果的后面。作為本發(fā)明的進(jìn)一步改進(jìn)，所述合并策略包括當(dāng)重合度的值在預(yù)定的重合度區(qū)間中大于預(yù)定的閾值時(shí)，根據(jù)原始查詢結(jié)果和同義查詢結(jié)果中各網(wǎng)頁的相關(guān)度權(quán)值合并原始和同義查詢的結(jié)果。與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是搜索引擎通過判斷原始查詢結(jié)果和同義查詢結(jié)果的重合度，來確定同義查詢結(jié)果出現(xiàn)轉(zhuǎn)義的概率，并在轉(zhuǎn)義概率較大時(shí)，打壓同義查詢結(jié)果，以避免不符合用戶搜索需求的結(jié)果出現(xiàn)在搜索結(jié)果列表的前列，從而確保用戶具有良好的使用體驗(yàn)。

圖I是本發(fā)明的搜索引擎的第一實(shí)施方式的工作原理框圖；圖2是圖I所示的搜索引擎挖掘同義語境的工作流程圖；圖3是圖I所示的搜索引擎執(zhí)行同義擴(kuò)展查詢的工作流程圖；圖4是本發(fā)明的搜索引擎的第二實(shí)施方式的工作原理框圖；圖5是圖4所示的搜索引擎執(zhí)行同義擴(kuò)展查詢的工作流程圖；圖6是本發(fā)明的搜索引擎的第三實(shí)施方式的工作原理框圖；圖7是圖6所示的搜索引擎執(zhí)行同義擴(kuò)展查詢的工作流程圖；圖8是本發(fā)明的搜索引擎的第四實(shí)施方式的工作原理框圖；圖9是圖8所示的搜索引擎執(zhí)行同義擴(kuò)展查詢的工作流程圖；圖10是圖8所示的搜索引擎判斷同義詞相似度等級(jí)，并對(duì)同義詞進(jìn)行相應(yīng)標(biāo)注的一具體實(shí)施方式
中的工作流程圖。
具體實(shí)施例方式以下將結(jié)合附圖所示的各實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)描述。但這些實(shí)施方式并不限制本發(fā)明，本領(lǐng)域的普通技術(shù)人員根據(jù)這些實(shí)施方式所做出的結(jié)構(gòu)、方法、或功能上的變換均包含在本發(fā)明的保護(hù)范圍內(nèi)。圖I所示的是本發(fā)明的搜索引擎100的第一實(shí)施方式的工作原理框圖。本實(shí)施方式中，搜索引擎100根據(jù)一定的策略從互聯(lián)網(wǎng)上搜集網(wǎng)頁，在對(duì)網(wǎng)頁進(jìn)行組織和處理后，可響應(yīng)客戶端20的瀏覽器21請(qǐng)求而提供搜索查詢的服務(wù)。其中，搜索引擎100可以包括一個(gè)或多個(gè)用來存儲(chǔ)和管理數(shù)據(jù)、并響應(yīng)搜索請(qǐng)求的網(wǎng)絡(luò)服務(wù)器實(shí)體。客戶端20可以包括一個(gè)或多個(gè)用戶終端設(shè)備，如個(gè)人計(jì)算機(jī)、筆記本電腦、無線電話、個(gè)人數(shù)字處理(PDA)、或其它計(jì)算機(jī)裝置和通信裝置。這些服務(wù)器和終端設(shè)備在架構(gòu)上都包含一些基本組件，如總線、處理裝置、存儲(chǔ)裝置、一個(gè)或多個(gè)輸入/輸出裝置、和通信接口等?？偩€可以包括一個(gè)或多個(gè)導(dǎo)線，用來實(shí)現(xiàn)服務(wù)器或終端設(shè)備各組件之間的通信。處理裝置包括各類型的用來執(zhí)行指令、處理進(jìn)程或線程的處理器或微處理器。存儲(chǔ)裝置可以包括存儲(chǔ)動(dòng)態(tài)信息的隨機(jī)訪問存儲(chǔ)器(RAM)等動(dòng)態(tài)存儲(chǔ)器，和存儲(chǔ)靜態(tài)信息的只讀存儲(chǔ)器(ROM)等靜態(tài)存儲(chǔ)器，以及包括磁或光學(xué)記錄介質(zhì)與相應(yīng)驅(qū)動(dòng)的大容量存儲(chǔ)器。輸入裝置供用戶輸入信息到服務(wù)器或終端設(shè)備，如鍵盤、鼠標(biāo)、手寫筆、聲音識(shí)別裝置、或生物測定裝置等。輸出裝置包括用來輸出信息的顯示器、打印機(jī)、揚(yáng)聲器等。通信接口用來使服務(wù)器或終端設(shè)備與其它系統(tǒng)或裝置進(jìn)行通信。通信接口之間可通過有線連接、無線連接、或光連接連接到網(wǎng)絡(luò)中，使搜索引擎100、客戶端20間能夠通過網(wǎng)絡(luò)實(shí)現(xiàn)相互間的通信。網(wǎng)絡(luò)可以包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、電話網(wǎng)絡(luò)如公共交換電話網(wǎng)(PSTN)、企業(yè)內(nèi)部的互聯(lián)網(wǎng)、因特網(wǎng)、或上述這些網(wǎng)絡(luò)的結(jié)合等。服務(wù)器和終端設(shè)備上均包含有用來管理系統(tǒng)資源、控制其它程序運(yùn)行的操作系統(tǒng)軟件，以及用來實(shí)現(xiàn)特定功能模塊功能的應(yīng)用軟件或程序指令。如圖I所示，搜索引擎100可執(zhí)行同義擴(kuò)展查詢，其整體上可分為離線部分和在線部分。在離線部分，搜索引擎100包括可存儲(chǔ)網(wǎng)頁數(shù)據(jù)和同義詞對(duì)信息的數(shù)據(jù)存儲(chǔ)庫12、索引器13、網(wǎng)頁抓取器14、記錄用戶查詢信息的用戶查詢?nèi)罩緮?shù)據(jù)庫16、以及對(duì)用戶查詢?nèi)罩具M(jìn)行分析的日志分析器17。網(wǎng)頁抓取器14是根據(jù)一定的策略通過網(wǎng)頁之間的超鏈接關(guān)系來一個(gè)個(gè)抓取網(wǎng)頁的程序。在具體的實(shí)施方式中，網(wǎng)頁抓取器14從初始的URL(Universal Resource Locator,統(tǒng)一資源定位符)庫中根據(jù)一定的調(diào)度策略選取所要抓取的URL，解析URL中標(biāo)明的網(wǎng)絡(luò)服務(wù)器地址，然后建立連接、發(fā)送請(qǐng)求、和接收數(shù)據(jù)，將獲得的網(wǎng)頁數(shù)據(jù)儲(chǔ)存到數(shù)據(jù)存儲(chǔ)庫12的網(wǎng)頁庫122中并建立本地文檔集合，然后從其中提取鏈接以進(jìn)行下一步的抓取動(dòng)作，如此循環(huán)往復(fù)直到所有的URL抓取完為止。網(wǎng)頁抓取器14選取URL所依據(jù)的調(diào)度策略可以包括廣度優(yōu)先策略、深度優(yōu)先策略、反向鏈接數(shù)策略等；抓取方式可以是累積式抓取，也可以是增量式抓取。索引器13用于對(duì)本地文檔集合進(jìn)行分析并建立索引。例如通過分詞從文檔的全文中抽取詞條，然后過濾除去高頻詞或低頻詞，以獲得索引詞集合，最后將網(wǎng)頁到索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁的映射，形成包含索引詞表和倒排表的倒排文件并存儲(chǔ)在數(shù)據(jù)存儲(chǔ)庫12的索引庫121中。對(duì)網(wǎng)頁文檔進(jìn)行分詞的方法包括基于詞典的分詞方法、基于理解的分詞方法、和基于統(tǒng)計(jì)的分詞方法。其中比較常見的基于詞典的分詞方法又包括正向最大切分法、逆向最大切分法、和最少切分法。于本發(fā)明中，同義詞是指名稱不同但表達(dá)的意思相同或相近的詞條，即多個(gè)詞條表達(dá)相同或相近的意思，則這些詞條互為同義詞。本實(shí)施方式中，同義詞庫123包括同義詞對(duì)應(yīng)表1231和同義語境庫1232。其中同義詞對(duì)應(yīng)表1231中預(yù)先指定了不同字詞和其同義詞的對(duì)應(yīng)關(guān)系，如通過預(yù)先統(tǒng)計(jì)獲得的原詞和其同義詞的對(duì)應(yīng)關(guān)系表。該對(duì)應(yīng)表還可以通過分析用戶的歷史查詢點(diǎn)擊數(shù)據(jù)來進(jìn)行不斷的更新。例如，當(dāng)被點(diǎn)擊的查詢結(jié)果網(wǎng)頁的標(biāo)題中包含某原詞的同義詞但并未出現(xiàn)原詞，且這種情形出現(xiàn)的頻次較高，則將該原詞和同義詞確定為同義詞對(duì)并添加入同義詞對(duì)應(yīng)表1231中。圖2所示的是搜索引擎100挖掘同義詞對(duì)的同義語境的一具體實(shí)施方式
的工作流程。于本發(fā)明中，同義語境是指同義詞對(duì)中原詞出現(xiàn)的語義環(huán)境，其用來表明該同義詞對(duì)所適用的語義環(huán)境，即在該語義環(huán)境下，同義詞適合替換原詞來進(jìn)行同義擴(kuò)展查詢。在本實(shí)施方式中，同義語境是通過分析用戶查詢?nèi)罩緛慝@得的。用戶查詢?nèi)罩緮?shù)據(jù)庫17是在每次搜索結(jié)束后，用來記錄用戶的查詢點(diǎn)擊數(shù)據(jù)，如查詢?cè)~表達(dá)式、搜索時(shí)間、返回的結(jié)果列表、以及被點(diǎn)擊的結(jié)果網(wǎng)頁等。參照?qǐng)D2并配合參照?qǐng)DI所示，日志分析器17分析用戶查詢?nèi)罩緮?shù)據(jù)庫16中包含的歷史的用戶查詢式和點(diǎn)擊數(shù)據(jù)(步驟411)，包括分析歷史的查詢式以及響應(yīng)于特定查詢式而返回的并被點(diǎn)擊訪問的查詢結(jié)果網(wǎng)頁。接下來，日志分析器17會(huì)識(shí)別這些數(shù)據(jù)中是否存在某個(gè)同義詞對(duì)的同義語境，如果是，則記錄并存儲(chǔ)到同義語境庫1232中。具體地，日志分析器17首先會(huì)基于同義詞對(duì)應(yīng)表1231判斷某一歷史查詢式中是否包含原詞，如果是，則獲取包含該原詞和相應(yīng)同義詞的同義詞對(duì)。例如，歷史查詢式為“魚香肉絲怎么做”，日志分析器17基于同義詞對(duì)應(yīng)表1231判斷該查詢式中存在“怎么做”的原詞(將“魚香肉絲怎么做”切分為“魚香肉絲”和“怎么做”兩個(gè)詞條，然后將這兩個(gè)詞條與同義詞對(duì)應(yīng)表中的原詞進(jìn)行匹配，從而找到“怎么做”的原詞)，并獲得了相應(yīng)同義詞對(duì){ “怎么做”，“菜譜”}。隨后，日志分析器17判斷針對(duì)該查詢式，用戶點(diǎn)擊訪問的網(wǎng)頁標(biāo)題中是否包含了同義詞但不包含原詞，如果是，則記錄該同義詞對(duì)的同義語境。例如，針對(duì)查詢式“魚香肉絲怎么做”，用戶點(diǎn)擊過標(biāo)題為“魚香肉絲菜譜”的網(wǎng)頁，則日志分析器17就會(huì)執(zhí)行記錄同義語境的操作。同義語境至少包含該歷史查詢式，如“魚香肉絲怎么做”;也可以包含該歷史查詢式中原詞的緊鄰詞，如“魚香肉絲”;或者是兩者都記錄作為同義詞對(duì){ “怎么做”，“菜譜” }的同義語境。其中，緊鄰詞可以位于原詞前，也可以位于原詞后；緊鄰詞也可以是空詞條，即原始查詢中僅包含原詞，不存在緊鄰詞。上述實(shí)施方式中，同義語境是通過歷史的用戶行為獲得，但在其它實(shí)施方式中，同義語境也可以根據(jù)網(wǎng)頁的錨文本來確定。錨文本即網(wǎng)頁的超鏈接中包含的文本信息。例如，網(wǎng)頁畫.sina. com. cn被引用的地方超鏈文本有“新浪網(wǎng)首頁”、“新浪首頁”、“sina首頁”，那么這幾個(gè)文字段會(huì)被記錄下來作為同義詞對(duì){ “新浪網(wǎng)”，“新浪” }的同義語境。此夕卜，同義語境也可以根據(jù)網(wǎng)頁標(biāo)題中的并列段來確定。例如,price. mycarl68. com/search,asp factoryid = 135這個(gè)網(wǎng)址的標(biāo)題為“華晨寶馬報(bào)價(jià)、華晨寶馬價(jià)格深圳汽車大世界網(wǎng)”。則通過分隔符，該標(biāo)題可以被切分為多個(gè)并列的詞條片段“華晨寶馬報(bào)價(jià)”“華晨寶馬價(jià)格” “深圳汽車大世界網(wǎng)”，而前兩個(gè)片段包含同義詞對(duì){ “價(jià)格”，“報(bào)價(jià)”}中的“價(jià)格”和“報(bào)價(jià)”，那么這兩個(gè)片段也可以作為該同義詞對(duì)的同義語境。參照?qǐng)D2所示，在同義語境挖掘的過程中，用戶的點(diǎn)擊行為并不一定都是完全合理的，也就是說，用戶在瀏覽搜索結(jié)果的過程中可能會(huì)無心點(diǎn)擊一些不相關(guān)的結(jié)果，在這種情況下記錄的同義語境就不會(huì)準(zhǔn)確。所以為消除這種情形造成的負(fù)面影響，日志分析器17還會(huì)統(tǒng)計(jì)同義語境被記錄的頻次，并且，只有當(dāng)頻次大于或等于一個(gè)預(yù)先確定的頻次閾值時(shí)，這個(gè)同義語境才會(huì)保留確定為相應(yīng)同義詞對(duì)的同義語境，也就是說，過濾掉低頻的同義語境(步驟413)。如圖I所示，搜索引擎100的在線部分主要包括搜索組件11和用戶界面15。其中用戶界面15通過客戶端20的瀏覽器軟件21展現(xiàn)，用于供用戶輸入查詢式，并按預(yù)定展現(xiàn)方式顯示搜索結(jié)果列表；此外，在搜索結(jié)束后，還用于記錄用戶的查詢信息，并將其存入用戶查詢?nèi)罩緮?shù)據(jù)庫16中。搜索組件11用于響應(yīng)客戶端30的搜索請(qǐng)求，將搜索結(jié)果返回給客戶端20。本實(shí)施方式中，搜索組件11包括搜索模塊111、查詢分析模塊112、和結(jié)果合成模塊113。對(duì)于普通的原始查詢(不包含擴(kuò)展查詢)，查詢分析模塊112通常用于對(duì)當(dāng)前接收到的原始查詢進(jìn)行分詞操作，獲得查詢?cè)~集合，并生成查詢?cè)~表。搜索模塊111在接收到查詢?cè)~表后，與數(shù)據(jù)索引庫121中的索引詞表進(jìn)行匹配，找到相應(yīng)的索引詞以及每個(gè)索引詞對(duì)應(yīng)的倒排表，從而獲得與查詢?cè)~相關(guān)的網(wǎng)頁文檔集合。結(jié)果合成模塊113根據(jù)預(yù)先確定的每個(gè)文檔與查詢?cè)~之間的相關(guān)度權(quán)值將搜索到的網(wǎng)頁文檔順序排列，然后將結(jié)果列表通過用戶界面15返回給客戶端。以下結(jié)合圖3所示的工作流程來說明搜索引擎100根據(jù)同義語境在線執(zhí)行同義擴(kuò)展查詢的詳細(xì)步驟。查詢分析模塊112通過用戶界面15接收到當(dāng)前用戶搜索的原始查詢(步驟421)，然后分析查詢式(步驟422)，包括對(duì)原始查詢進(jìn)行分詞操作。需要說明的是，本實(shí)施方式中的分詞方法是基于詞典的正向最大切分法，而該詞典由同義語境包含的詞條片段構(gòu)造而成。前已述及，歷史查詢式會(huì)被作為同義語境記錄，而歷史查詢式的片段長度要大于該查詢式被切分后的詞條的長度，所以，采用正向最大切分法可確保一旦當(dāng)前的原始查詢中包含歷史查詢式的片段，則該片段會(huì)被率先切分出來，從而提高了后續(xù)的計(jì)算的準(zhǔn)確率。例如，在同義語境挖掘階段，歷史查詢式是“今天諾基亞多少錢”，則在記錄同義詞對(duì){ “多少錢”，“價(jià)格” }的同義語境時(shí)，歷史查詢式“今天諾基亞多少錢”和緊鄰詞“諾基亞”都會(huì)作為同義語境記錄下來。而當(dāng)前的原始查詢是“誰知道今天諾基亞多少錢”，按照正向最大切分法，同義語境詞典中最長的片段“今天諾基亞多少錢”長度是8，則查詢分析模塊112從左到右掃描當(dāng)前的原始查詢，判斷長度為8的短語是否出現(xiàn)在同義語境詞典中，當(dāng)發(fā)現(xiàn)“今天諾基亞多少錢”匹配時(shí)，就會(huì)將其先切分出來，如此，“諾基亞”就不會(huì)作為單獨(dú)的關(guān)鍵詞切分出來。在步驟422中，查詢分析模塊112還會(huì)將原始查詢切分后得到的詞條集合與同義詞庫123匹配，獲得潛在同義詞對(duì)和該同義詞對(duì)的同義語境，該潛在同義詞對(duì)中包含了存在于原始查詢中包含的原詞，以及與該原詞對(duì)應(yīng)的同義詞。接下來，查詢分析模塊112判斷同義語境和原始查詢是否匹配(步驟423)。在本實(shí)施方式中，查詢分析模塊112會(huì)計(jì)算同義語境和原始查詢的匹配度，當(dāng)匹配度的值處于預(yù)先確定的匹配度區(qū)間內(nèi)時(shí)，則確定同義語境和原始查詢匹配，即表明當(dāng)前原始查詢的語義環(huán)境適合采用同義詞替換原詞來執(zhí)行擴(kuò)展查詢。匹配度的計(jì)算可以根據(jù)原詞始查詢式除去原詞后的長度，及同義語境的長度來確定。以下是本實(shí)施方式中，當(dāng)原始查詢的長度大于原詞的長度(即q古orig)時(shí)，匹配度M的計(jì)算公式
n
VTermCountip )、合丄.
M (ori2,syn) =-—-, q ^ oris:
TermCount(q) - TermCount(orig)其中TermCount (q)表示原始查詢的長度,TermCount (orig)表示原始查詢中原詞的長度，TermCount (pi)表示第i個(gè)同義語境的長度。因?yàn)檫@種情況下，原始查詢中會(huì)存在非同義語境的詞，因此M是處于
之間的值。預(yù)先設(shè)定一個(gè)匹配度閾值0，則當(dāng)M的值處于[9，1]時(shí)，表明同義語境和原始查詢匹配，則將同義詞替換原始查詢中的原詞以獲得同義查詢，隨后搜索模塊111根據(jù)原始查詢和同義查詢搜索獲得原始查詢結(jié)果的網(wǎng)頁集合及同義查詢結(jié)果網(wǎng)頁的集合(步驟424)，結(jié)果合成模塊113根據(jù)預(yù)定的合并策略合并原始查詢和同義查詢的結(jié)果(步驟425)。關(guān)于結(jié)果合并策略，將在后文中做詳細(xì)描述。當(dāng)M的值處于[O，0]時(shí)，表明同義語境和原始查詢不匹配，即在這種語義環(huán)境下，不適合用同義詞替代原詞，接下來搜索模塊111只會(huì)根據(jù)原始查詢來執(zhí)行搜索并獲得原始查詢結(jié)果的網(wǎng)頁集合(步驟426)，而后結(jié)果合成模塊113根據(jù)預(yù)先確定的每個(gè)網(wǎng)頁與原始查詢之間的相關(guān)度權(quán)值獲得搜索結(jié)果列表(步驟425)。當(dāng)原始查詢僅包含原詞(即q = orig)時(shí),匹配度M = I，則用同義詞之間替換原始查詢，而后執(zhí)行步驟424和步驟425。搜索引擎通過對(duì)當(dāng)前用戶查詢需求的語義環(huán)境分析，以確定是否適用同義詞變換來執(zhí)行同義擴(kuò)展查詢，從而確保同義擴(kuò)展查詢的準(zhǔn)確率，使擴(kuò)展查詢盡量符合用戶的需求，進(jìn)而確保用戶具有良好的使用體驗(yàn)。圖4和圖5揭示了本發(fā)明搜索引擎的第二實(shí)施方式。相比第一實(shí)施方式，本實(shí)施方式的搜索引擎200主要通過判斷同義查詢結(jié)果的轉(zhuǎn)義概率，來調(diào)整同義查詢結(jié)果在最后展現(xiàn)給用戶的搜索結(jié)果列表中的位置。如圖4所示，搜索引擎200包括搜索組件11、數(shù)據(jù) 存儲(chǔ)庫12、索引器13、抓取器14、和用戶界面15。數(shù)據(jù)存儲(chǔ)庫12、索引器13、抓取器14、和用戶界面15等功能模塊與上述實(shí)施方式基本相同，所以申請(qǐng)人在此不再予以贅述。本實(shí)施方式中，搜索組件11包括搜索模塊111、查詢分析模塊112、和重合度計(jì)算及結(jié)果合并模塊114。以下結(jié)合圖5對(duì)本實(shí)施方式的搜索引擎執(zhí)行同義擴(kuò)展查詢做詳細(xì)說明。首先，查詢分析模塊112接收用戶的原始查詢(步驟431)。接下來，分析查詢式(步驟432)，包括對(duì)原始查詢進(jìn)行分詞操作以獲得查詢?cè)~集合，基于同義詞庫123識(shí)別原始查詢中的原詞并獲得包含原詞和其同義詞的同義詞對(duì)，并直接將同義詞替換原詞以獲得同義查詢。搜索模塊111根據(jù)原始查詢和同義查詢搜索獲得原始查詢結(jié)果的網(wǎng)頁集合及同義查詢結(jié)果網(wǎng)頁的集合(步驟433)。接下來，重合度計(jì)算及結(jié)果合并模塊114計(jì)算原始查詢結(jié)果與同義查詢結(jié)果中網(wǎng)頁的重合度(步驟434)。該重合度主要是用來反應(yīng)原始查詢結(jié)果和同義查詢結(jié)果的中相同網(wǎng)頁的數(shù)量，如果相同網(wǎng)頁的數(shù)量足夠多，表明同義查詢結(jié)果和原始查詢結(jié)果比較接近，則同義查詢結(jié)果出現(xiàn)轉(zhuǎn)義的概率較??；反之，則表明同義查詢結(jié)果出現(xiàn)轉(zhuǎn)義的概率較大，需要對(duì)同義查詢結(jié)果進(jìn)行打壓以避免不符合用戶搜索需求的結(jié)果出現(xiàn)在結(jié)果列表的前列。重合度的計(jì)算可以采用多種方式，如僅計(jì)算原始查詢結(jié)果和同義查詢結(jié)果中重合的網(wǎng)頁的數(shù)量Iui n U2 I，即確定相同的URL數(shù)量；或計(jì)算兩個(gè)結(jié)果集合中各前100個(gè)結(jié)果的重合網(wǎng)頁數(shù)量，然后和預(yù)定的閾值進(jìn)行比較判斷。作為優(yōu)選的方式，重合度的計(jì)算還包括確定原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量中較少的一個(gè)Min(|Ul|，|U2|)；然后重合度I(U1，U2) = Ul n U2|/Min(|Ul|, U2 |)?；蛘咴谄渌鼘?shí)施方式中，重合度的計(jì)算還包括計(jì)算原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量的總和|U1 U U2 ；然后重合度I(U1，U2) = Ul n U2|/|U1 U U2|。當(dāng)重合度的值計(jì)算出來后，會(huì)判斷該值是否處于預(yù)定的重合度區(qū)間內(nèi)以確定是否需要打壓同義查詢結(jié)果，而后確定同義查詢結(jié)果在搜索結(jié)果列表中的位置并輸出合并后的結(jié)果(步驟435)。以重合度計(jì)算方式I (U1，U2)=|U1 n U2|/Min(|Ul|，|U2|)為例，重合度的值I為處于
之間的浮點(diǎn)數(shù)。預(yù)先設(shè)定一個(gè)重合度閾值O，則當(dāng)I處于
時(shí)，表明原始查詢結(jié)果和同義查詢結(jié)果的重合度較高，這種情況下，不需要打壓同義查詢結(jié)果，只需按照預(yù)先確定的每個(gè)網(wǎng)頁的相關(guān)度權(quán)值來合并原始和同義查詢的結(jié)果。當(dāng)I處于
時(shí)，表明原始查詢結(jié)果和同義查詢結(jié)果的重合度較低，同義查詢結(jié)果的轉(zhuǎn)義概率較大，這時(shí)就需要打壓同義查詢結(jié)果。打壓的方式可以是對(duì)同義查詢結(jié)果中網(wǎng)頁的相關(guān)度權(quán)值做降權(quán)處理，從而使同義查詢結(jié)果在合并后的搜索結(jié)果列表中處于較后的位置；或者將同義查詢結(jié)果插入到搜索結(jié)果列表的特定頁之后，如將同義查詢結(jié)果調(diào)整到搜索結(jié)果列表的第二頁；此外，也可以將同義查詢結(jié)果調(diào)整到原始查詢結(jié)果的后面，即同義查詢結(jié)果出現(xiàn)在搜索結(jié)果列表的最后面。搜索引擎通過判斷原始查詢結(jié)果和同義查詢結(jié)果的重合度，來確定同義查詢結(jié)果出現(xiàn)轉(zhuǎn)義的概率，并在轉(zhuǎn)義概率較大時(shí)，打壓同義查詢結(jié)果，以避免不符合用戶搜索需求的結(jié)果出現(xiàn)在搜索結(jié)果列表的前列，從而確保用戶具有良好的使用體驗(yàn)。本實(shí)施方式中，在用同義詞替換原詞執(zhí)行同義擴(kuò)展查詢前，并不必須采用實(shí)施方式一所提到的通過同義語境判斷來確定是否進(jìn)行同義詞替換，然而，本領(lǐng)域的普通技術(shù)人員可以輕易想到的是，如果本實(shí)施方式結(jié)合第一實(shí)施方式，即在同義詞替換前先執(zhí)行同義語境的判斷，然后在同義查詢結(jié)果出來后根據(jù)原始和同義查詢結(jié)果的重合度合并搜索結(jié)果，顯然這樣可以獲得更加準(zhǔn)確的搜索結(jié)果，從而進(jìn)一步提升用戶體驗(yàn)。圖6和圖7揭示了本發(fā)明搜索引擎的第三實(shí)施方式。本實(shí)施方式是基于同義查詢結(jié)果，進(jìn)一步通過分析同義查詢結(jié)果網(wǎng)頁的語義主題分布來判斷同義查詢結(jié)果的轉(zhuǎn)義概率，進(jìn)而調(diào)整同義查詢結(jié)果在最后展現(xiàn)給用戶的搜索結(jié)果列表中的位置。如圖6所示，與第一實(shí)施方式類似，搜索引擎300包括搜索組件11、數(shù)據(jù)存儲(chǔ)庫12、索引器13、抓取器14、用戶界面15、用戶查詢?nèi)罩緮?shù)據(jù)庫16、日志分析器17。其中索引器13、抓取器14、用戶界面15、用戶查詢?nèi)罩緮?shù)據(jù)庫16、日志分析器17等功能模塊與第一實(shí)施方式中相同，申請(qǐng)人在此不再予以贅述。本實(shí)施方式中，搜索組件11包括搜索模塊111、查詢分析模塊112、結(jié)果合成模塊113、以及轉(zhuǎn)義判定模塊115。數(shù)據(jù)存儲(chǔ)庫12包含有索引庫121、網(wǎng)頁庫122、同義詞庫123、以及網(wǎng)頁語義主題庫124。其中索引庫121、網(wǎng)頁庫122、同義詞庫123與第一實(shí)施方式中相同，申請(qǐng)人在此不再予以贅述。搜索引擎300還包括一主題分析模塊18，本實(shí)施方式中，該主題分析模塊18包含一概率潛在語義分析(Probabilitistic LatentSemanticAnalysis,下稱 PLSA)模型。PLSA模型是一種自然語言處理的工具，其主要用于分析文檔的潛在語義。一個(gè)文檔可以被表示為一組詞的集合，但由于同義詞的存在，詞并不是文檔的最基本組成元素，所以，可以認(rèn)為在詞與文檔之間還有一個(gè)潛在的語義層面，即主題。例如，用戶輸入的查詢式為“瑞士軍刀綠顏色”，由于{ “綠顏色”，“綠色” }為同義詞對(duì)，所以可以用“綠色”替換“綠顏色”來執(zhí)行同義擴(kuò)展查詢，但這時(shí)召回的結(jié)果可能會(huì)包含標(biāo)題為“系統(tǒng)瑞士軍刀-完美卸載V2007綠色版”的網(wǎng)頁。這是因?yàn)椤叭鹗寇姷毒G顏色”對(duì)應(yīng)的主題為“物品”，而“系統(tǒng)瑞士軍刀-完美卸載V2007綠色版”對(duì)應(yīng)的主題為“軟件”，顯然，搜索引擎還無法理解這些隱含的主題。PLSA模型是一種通過計(jì)算文檔中共現(xiàn)詞的分布來分析潛在語義主題的主題模型，其在文檔和詞之間引入一個(gè)潛在的語義層，該潛在語義層由n個(gè)潛在語義主題構(gòu)成。假設(shè)文檔與詞之間是相互獨(dú)立的，則文檔與詞共同出現(xiàn)的概率由它們與主題之間的概率關(guān)系來決定。因此，通過PLSA模型可計(jì)算出文檔或詞與潛在語義主題之間的關(guān)系?；诖耍緦?shí)施方式中可以通過PLSA模型獲得同義語境和同義查詢結(jié)果網(wǎng)頁的語義主題分布，并計(jì)算兩者的匹配度以確定同義查詢結(jié)果的轉(zhuǎn)義概率。接下來將作詳細(xì)描述。如圖6所示，主題分析模塊18從網(wǎng)頁庫122中獲取網(wǎng)頁，去掉網(wǎng)頁中的邊框廣告等干擾詞，然后提取能夠代表該網(wǎng)頁的關(guān)鍵詞集合。隨后，主題分析模塊18通過PLSA模型計(jì)算獲得表示該網(wǎng)頁的語義主題分布的網(wǎng)頁-潛在語義主題向量S2= {s21, s22, ...，s2n}，其中s2n表示該網(wǎng)頁在第n個(gè)語義主題上的概率分值。本實(shí)施方式中，網(wǎng)頁語義主題分布的獲取是在離線狀態(tài)下獲得，即主題分析模塊18分析所有被抓取的網(wǎng)頁，獲得其語義主題分布，然后存儲(chǔ)入網(wǎng)頁語義主題庫124中。當(dāng)然，該過程也可以是在在線搜索的狀態(tài)下獲得，即當(dāng)同義查詢結(jié)果獲得后，主題分析模塊18僅分析查詢結(jié)果中的網(wǎng)頁，然后將這些網(wǎng)頁的語義主題分布交給轉(zhuǎn)義判定模塊115來判斷。本實(shí)施方式中，同義語境語義主題分布的獲取是在線實(shí)現(xiàn)的。當(dāng)查詢分析模塊112切分原始查詢獲得關(guān)鍵詞集合后，主題分析模塊18獲取該關(guān)鍵詞集合，并且從同義語境庫1232中獲得相應(yīng)的同義語境包含的詞條集合。然后，將關(guān)鍵詞集合與同義語境的詞條集合合在一起，交給PLSA模型計(jì)算并獲得表示該同義語境的語義主題分布的同義語境-潛在語義主題向量SI = {sll, sl2, ...sln}，其中sin是指同義語境在第n個(gè)語義主題上的概率值。當(dāng)?shù)玫较蛄縎I后，主題分析模塊18將其交給轉(zhuǎn)義判定模塊115來判斷SI和S2的相似度。關(guān)于判斷的步驟，將會(huì)在后文做詳細(xì)地描述。接下來將配合圖7詳細(xì)介紹本實(shí)施方式中搜索引擎300執(zhí)行同義擴(kuò)展查詢的詳細(xì)步驟。首先，查詢分析模塊112接收到用戶搜索的原始查詢(步驟441)，然后對(duì)該原始查詢進(jìn)行分析(步驟442)。查詢分析模塊112會(huì)對(duì)原始查詢進(jìn)行分詞操作，如同第一實(shí)施方式，分詞操作是基于同義語境構(gòu)建的詞典做最大正向切分。經(jīng)分詞操作后獲得原始關(guān)鍵詞集合，一方面，查詢分析模塊112將原始關(guān)鍵詞集合交給搜索模塊111執(zhí)行原始查詢(步驟449)，并獲得原始查詢結(jié)果(步驟450)。另一方面，查詢分析模塊112基于同義詞庫123識(shí)別原始查詢中包含的原詞，并獲得相應(yīng)的潛在同義詞對(duì)及該潛在同義詞對(duì)的同義語境。分析查詢模塊112在獲得上述數(shù)據(jù)后，可以直接用同義詞替換原詞以獲得同義查詢，并交給搜索模塊111執(zhí)行同義擴(kuò)展查詢(步驟443)。作為優(yōu)選的實(shí)施方式中，在執(zhí)行同義詞替換操作前，可以先判斷是否符合原詞的同義語境，如果符合的話，再執(zhí)行同義替換的操作，如此可進(jìn)一步提高同義查詢結(jié)果的準(zhǔn)確率。關(guān)于根據(jù)同義語境的匹配度判斷來執(zhí)行同義詞替換的操作，已在第一實(shí)施方式中做了詳細(xì)描述，申請(qǐng)人在此不再語義贅述。此外，查詢分析模塊112還將原始關(guān)鍵詞集合交給主題分析模塊18，由其通過PLSA模型計(jì)算并獲得同義語境的語義主題分布(步驟447)，計(jì)算的結(jié)果交給轉(zhuǎn)義判定模塊115。搜索模塊111執(zhí)行同義查詢獲得同義查詢結(jié)果(步驟444)后，轉(zhuǎn)義判定模塊115根據(jù)同義查詢結(jié)果從網(wǎng)頁語義主題庫中獲得結(jié)果網(wǎng)頁的語義主題分布，即網(wǎng)頁-潛在語義主題的向量S2= {s21, s22, , s2n}(步驟445)。另一方面，轉(zhuǎn)義判定模塊115從主題分析模塊得到了同義語境的語義主題分布，即同義語境-潛在語義主題的向量SI = {sll,sl2, . . . sin}，接下來，轉(zhuǎn)義判定模塊115判斷兩個(gè)語義主題分布的匹配度，即計(jì)算兩個(gè)向量S1、S2的相似度(步驟446);而后根據(jù)匹配度過濾同義查詢結(jié)果(步驟448)，即確定同義查詢結(jié)果的打壓方式，并據(jù)此合并原始查詢和同義查詢的結(jié)果，生成搜索結(jié)果列表(步驟451)。關(guān)于兩個(gè)向量的相似度計(jì)算有多種，如內(nèi)積相似度、余弦相似度等。以下是利用余弦相似度計(jì)算向量SI和S2之間相似度的計(jì)算公式的示例。

權(quán)利要求
1.一種搜索引擎的實(shí)現(xiàn)方法，其特征在于，該方法包括如下步驟接收用戶搜索的原始查詢；分析所述原始查詢，以獲取存在于原始查詢中的原詞以及該原詞的同義詞，并且將所述同義詞替代原始查詢中的原詞以獲得同義查詢；根據(jù)所述原始查詢和同義查詢搜索并獲得原始查詢結(jié)果網(wǎng)頁集合與同義查詢結(jié)果網(wǎng)頁集合；計(jì)算所述原始查詢結(jié)果和同義查詢結(jié)果中網(wǎng)頁的重合度；根據(jù)預(yù)定的與所述重合度對(duì)應(yīng)的合并策略合并原始查詢和同義查詢的結(jié)果網(wǎng)頁集合，并生成搜索結(jié)果列表。
2.根據(jù)權(quán)利要求I所述的搜索引擎的實(shí)現(xiàn)方法，其特征在于，所述重合度的計(jì)算包括計(jì)算原始查詢結(jié)果和同義查詢結(jié)果中重合的網(wǎng)頁的數(shù)量Iui n U2|。
3.根據(jù)權(quán)利要求2所述的搜索引擎的實(shí)現(xiàn)方法，其特征在于，所述重合度的計(jì)算還包括確定原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量中較少的一個(gè)Min(|Ul |，U2|);所述重合度 I(U1，U2) = Ul n U2|/Min(|Ul|，U2 |)。
4.根據(jù)權(quán)利要求2所述的搜索引擎的實(shí)現(xiàn)方法，其特征在于，所述重合度的計(jì)算還包括計(jì)算原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量的總和IUl U U2 ;所述重合度 I(U1, U2) = Ul n U2|/|U1 U U2|。
5.根據(jù)權(quán)利要求I所述的搜索引擎的實(shí)現(xiàn)方法，其特征在于，所述合并策略包括當(dāng)所述重合度的值在預(yù)定重合度區(qū)間中小于預(yù)定的閾值時(shí)，所述預(yù)定的合并策略為在合并同義查詢結(jié)果時(shí)進(jìn)行打壓處理，所述打壓處理包括降低同義查詢結(jié)果中網(wǎng)頁的相關(guān)度權(quán)值；或者將同義查詢結(jié)果插入到搜索結(jié)果列表的特定頁之后；或者將同義查詢結(jié)果調(diào)整到原始查詢結(jié)果的后面。
6.根據(jù)權(quán)利要求I所述的搜索引擎的實(shí)現(xiàn)方法，其特征在于，所述合并策略包括當(dāng)重合度的值在預(yù)定的重合度區(qū)間中大于預(yù)定的閾值時(shí)，根據(jù)原始查詢結(jié)果和同義查詢結(jié)果中各網(wǎng)頁的相關(guān)度權(quán)值合并原始和同義查詢的結(jié)果。
7.一種搜索引擎，其特征在于，該搜索引擎包括搜索組件，搜索組件包括查詢分析模塊，用于接收用戶搜索的原始查詢；分析所述原始查詢，以獲取存在于原始查詢中的原詞以及該原詞的同義詞，并且將所述同義詞替代原始查詢中的原詞以獲得同義查詢；搜索模塊，用于根據(jù)所述原始查詢和同義查詢搜索并獲得原始查詢結(jié)果網(wǎng)頁集合與同義查詢結(jié)果網(wǎng)頁集合；重合度計(jì)算及結(jié)果合并模塊，用于計(jì)算所述原始查詢結(jié)果和同義查詢結(jié)果中網(wǎng)頁的重合度；以及根據(jù)預(yù)定的與所述重合度對(duì)應(yīng)的合并策略合并原始查詢和同義查詢的結(jié)果網(wǎng)頁集合，并生成搜索結(jié)果列表。
8.根據(jù)權(quán)利要求7所述的搜索引擎，其特征在于，所述重合度的計(jì)算包括計(jì)算原始查詢結(jié)果和同義查詢結(jié)果中重合的網(wǎng)頁的數(shù)量Iui n U2|。
9.根據(jù)權(quán)利要求8所述的搜索引擎，其特征在于，所述重合度的計(jì)算還包括確定原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量中較少的一個(gè)Min(|Ul|，|U2|);所述重合度 I(U1，U2) = I Ul n U2 I/Min(| Ul I U2 |)。
10.根據(jù)權(quán)利要求8所述的搜索引擎，其特征在于，所述重合度的計(jì)算還包括計(jì)算原始查詢結(jié)果的網(wǎng)頁數(shù)量和同義查詢結(jié)果的網(wǎng)頁數(shù)量的總和IUl U U2 ;所述重合度I(U1，U2)=Ui η u2|/|ui u U2|。
11.根據(jù)權(quán)利要求7所述的搜索引擎，其特征在于，所述合并策略包括當(dāng)所述重合度的值在預(yù)定重合度區(qū)間中小于預(yù)定的閾值時(shí)，所述預(yù)定的合并策略為在合并同義查詢結(jié)果時(shí)進(jìn)行打壓處理，所述打壓處理包括降低同義查詢結(jié)果中網(wǎng)頁的相關(guān)度權(quán)值；或者將同義查詢結(jié)果插入到搜索結(jié)果列表的特定頁之后；或者將同義查詢結(jié)果調(diào)整到原始查詢結(jié)果的后面。
12.根據(jù)權(quán)利要求7所述的搜索引擎，其特征在于，所述合并策略包括當(dāng)重合度的值在預(yù)定的重合度區(qū)間中大于預(yù)定的閾值時(shí)，根據(jù)原始查詢結(jié)果和同義查詢結(jié)果中各網(wǎng)頁的相關(guān)度權(quán)值合并原始和同義查詢的結(jié)果。
全文摘要
本發(fā)明提供一種搜索引擎，其用于接收用戶搜索的原始查詢；分析所述原始查詢，以獲取存在于原始查詢中的原詞以及該原詞的同義詞，并且將所述同義詞替代原始查詢中的原詞以獲得同義查詢；根據(jù)所述原始查詢和同義查詢搜索并獲得原始查詢結(jié)果網(wǎng)頁集合與同義查詢結(jié)果網(wǎng)頁集合；計(jì)算所述原始查詢結(jié)果和同義查詢結(jié)果中網(wǎng)頁的重合度；根據(jù)預(yù)定的與所述重合度對(duì)應(yīng)的合并策略合并原始查詢和同義查詢的結(jié)果網(wǎng)頁集合，并生成搜索結(jié)果列表。搜索引擎通過判斷原始查詢結(jié)果和同義查詢結(jié)果的重合度，來確定同義查詢結(jié)果出現(xiàn)轉(zhuǎn)義的概率，并在轉(zhuǎn)義概率較大時(shí)，打壓同義查詢結(jié)果，以避免不符合用戶搜索需求的結(jié)果出現(xiàn)在搜索結(jié)果列表的前列，從而確保用戶具有良好的使用體驗(yàn)。
文檔編號(hào)G06F17/30GK102722499SQ201110079699
公開日2012年10月10日申請(qǐng)日期2011年3月31日優(yōu)先權(quán)日2011年3月31日
發(fā)明者呼大為, 李彥宏申請(qǐng)人:北京百度網(wǎng)訊科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呼大為;李彥宏
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

上一篇：觸摸設(shè)備的手寫輸入方法及裝置和電子設(shè)備的制作方法
上一篇：搜索引擎及其實(shí)現(xiàn)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

java實(shí)現(xiàn)搜索引擎相關(guān)技術(shù)

搜索引擎實(shí)現(xiàn)相關(guān)技術(shù)

搜索引擎設(shè)計(jì)與實(shí)現(xiàn)相關(guān)技術(shù)

python實(shí)現(xiàn)搜索引擎相關(guān)技術(shù)

如何實(shí)現(xiàn)搜索引擎優(yōu)化相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

搜索引擎及其實(shí)現(xiàn)方法