專利名稱:一種互聯(lián)網信息搜索方法及一種搜索引擎的制作方法
技術領域:
本發(fā)明涉及網絡技術領域,特別是涉及一種互聯(lián)網信息搜索方法及一種搜索引擎。
背景技術:
隨著互聯(lián)網的發(fā)展,越來越多的人開始通過計算機網絡搜索引擎在互聯(lián)網中定位 自己需要的信息。常見的網絡搜索引擎,例如Google, com, Yahoo, com都是通過網絡爬蟲獲 得Internet上的網頁,然后由搜索引擎分析網頁中的內容,確定并保存搜索條件和這些網 頁之間的索引關系。網絡搜索用戶向搜索引擎服務器提交搜索條件后,網絡搜索引擎就根 據事先分析的結果向網絡搜索用戶發(fā)送搜索結果,這個搜索結果包含和這個搜索條件相關 的網頁的URL (Unifom Resource Locator,統(tǒng)一資源定位符)集合的信息,這些URL集合一 般是以鏈接的方式呈現給搜索用戶。隨著互聯(lián)網的極度膨脹,人們越來越依賴于各種搜索引擎查找信息。但是,它們的 可信賴度到底有多大呢?根據專家的評測,目前主要的搜索引擎返回的相關結果的比率不 足45%。例如,用戶想搜索一家公司的主頁以及有助于了解該公司的其他信息,但返回的搜 索結果中,很大一部分是關于該公司招聘信息的網頁URL,并沒有其他有助于了解該公司的 信息。甚至,返回的第一個搜索結果也不是該公司的主頁鏈接,而是介紹該公司產品的網頁 鏈接。因此,要想獲得一個比較全面、準確的搜索結果,就必須反復使用多個關鍵詞進行搜 索。
發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種互聯(lián)網信息搜索方法及一種搜索引擎,能 夠提高搜索準確率。為了解決上述問題,本發(fā)明公開了一種互聯(lián)網信息搜索方法,包括接收用戶輸入的查詢信息;對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果是,則從預置的公 司信息索引庫中查找與該查詢信息相匹配的結果;其中,所述公司信息索引庫至少包括公 司主頁信息;將搜索結果返回并展示。其中,如果所述查詢信息為查詢詞,則根據預置的公司名稱列表,判斷該查詢詞是 否為公司名稱,如果是,則表明用戶要查找公司信息。其中,如果所述查詢信息為英文網址,則對該英文網址進行分析,當該英文網址為 域名信息時,表明用戶要查找公司信息。本發(fā)明還提供了一種互聯(lián)網信息搜索方法,包括接收用戶輸入的查詢信息;對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果是,則按照索引庫中預置的索引分類,從公司信息索引分類中查找與該查詢信息相匹配的結果;其中,所述公 司信息索引分類中至少包括公司主頁信息;將搜索結果返回并展示。其中,所述公司信息索引分類通過以下方式預置對索引庫中所有的網頁地址進 行解析,將解析結果為域名的網頁判斷為公司主頁;然后將至少包括公司主頁的地址歸為 一類并建立索引,成為公司信息索引分類。本發(fā)明還提供了一種搜索引擎,包括公司信息索引庫,用于建立至少包括公司主頁信息的索引;接收單元,用于接收用戶輸入的查詢信息;搜索單元,用于對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果 是,則從所述公司信息索引庫中查找與該查詢信息相匹配的結果;結果返回單元,用于將搜索結果返回并展示。優(yōu)選的,所述公司信息索引庫還包括公司地址信息、公司評價信息、公司熱點新聞 fn息ο本發(fā)明還提供了一種搜索引擎,包括索引庫,用于分類建立信息索引,其中一類為至少包括公司主頁信息的公司信息 索引分類;接收單元,用于接收用戶輸入的查詢信息;索引單元,用于對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果 是,則從所述索引庫中的公司信息索引分類中查找與該查詢信息相匹配的結果;其中,所述 公司信息索引分類中至少包括公司主頁信息;結果返回單元,用于將搜索結果返回并展示。優(yōu)選的,所述公司信息索引庫還包括公司地址信息、公司評價信息、公司熱點新聞 fn息ο與現有技術相比,本發(fā)明具有以下優(yōu)點本發(fā)明根據用戶的實際需求,將搜索引擎索引庫中的公司主頁信息單獨建立一個 公司信息索引庫,或單獨設為一個公司信息索引分類,當用戶需要查詢公司主頁時,直接到 該公司信息索引庫或公司信息索引分類中查詢即可,因此極大地提高了搜索準確率。而且,公司信息索引庫或公司信息索引分類中還可以包括其他有助于了解公司的 信息,如公司的地址、對公司的評價、公司近期出現的熱點新聞等信息。這些信息可以幫助 用戶快速了解一家公司的情況。
圖1是本發(fā)明實施例一所述一種互聯(lián)網信息搜索方法的流程圖;圖2是本發(fā)明實施例二所述一種互聯(lián)網信息搜索方法的流程圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實 施方式對本發(fā)明作進一步詳細的說明。
隨著信息檢索技術的飛速發(fā)展,文本信息檢索技術進入了一個比較成熟的階段, 從最原始的關鍵字匹配到現在的基于上下文的分析、模式匹配、實例匹配以及應用統(tǒng)計策 略進行分析等等,已經形成了一套比較完整的思路和完善的算法,并被廣泛應用到了各類 搜索引擎上。搜索引擎系統(tǒng)為用戶提供搜索網頁的方法是首先網頁收集器通過網絡蜘蛛等網頁抓取程序從互聯(lián)網上抓取網頁,把網頁送入 原始網頁數據庫,網頁收集器從網頁中提取URL交給搜集控制器判斷,搜集控制器得到網 頁的URL,控制網絡蜘蛛抓取其它網頁,反復循環(huán)直到把所有的網頁抓取完成。然后,系統(tǒng)從原始網頁數據庫中得到文本信息,對單個網頁進行預處理,送入“文 本索引器”模塊建立索引,形成索引數據庫;同時進行鏈接信息提取,把鏈接信息送入鏈接 分析模塊建立網頁評級,形成鏈接評級庫,其中,鏈接信息包括錨文本、鏈接本身等信息。用戶通過提交查詢請求給查詢服務器,查詢服務器在索引數據庫中進行相關網頁 的查找,同時鏈接評級庫把查詢請求和鏈接信息結合起來對搜索結果進行相關度的評價, 通過查詢服務器按照相關度進行排序,并提取關鍵字的內容摘要,最后通過用戶接口格式 化查詢顯示內容并返回給用戶。本發(fā)明針對用戶需要查找公司主頁及了解公司相關信息的需求,對現有的搜索引 擎系統(tǒng)進行了改進,將搜索引擎索引庫中的公司主頁以及有助于了解公司相關信息的網頁 歸為一類,單獨建立一個公司信息索引庫,或者在搜索引擎索引庫中單獨建立一個公司信 息索引分類。當用戶需要查詢公司主頁時,直接到該公司信息索引庫或公司信息索引分類 中查詢即可,因此極大地提高了搜索準確率。其中,根據搜索引擎索引庫建立公司信息索引庫或公司信息索引分類的方法是 對搜索引擎索引庫中所有的網頁地址進行解析,將解析結果為域名的網頁判斷為公司主 頁;然后將公司主頁歸為一類并建立索引庫或索引分類。例如,搜索引擎索引庫中某些網頁 的地址為www. sohu. com/, www. lenovo. com. cn/,這些網址為域名,則相應的網頁即為公司 的主頁。還例如,某網址為www. lenovo. com. cn/about/channel/,按照網址間的“/”進行分 隔,雖然該網址包含域名www. lenovo. com. cn/,但是還包含其他信息about/channel/,這 表示該網頁不是主頁。按照上述方法,就可以將搜索引擎索引庫中的公司主頁與其他網頁 加以區(qū)別,然后單獨建立一個公司信息索引庫或公司信息索引分類。參照圖1,是本發(fā)明實施例一所述一種互聯(lián)網信息搜索方法的流程圖。S101,接收用戶輸入的查詢信息;其中,所述查詢信息可以是查詢詞,如公司名稱;也可以是英文網址,如某公司的 網址。S102,對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果是,則從預 置的公司信息索引庫中查找與該查詢信息相匹配的結果;其中,所述公司信息索引庫至少 包括公司主頁信息;如果所述查詢信息為查詢詞,則根據預置的公司名稱列表,判斷該查詢詞是否為 公司名稱,如果是,則表明用戶要查找公司信息。然后,直接到所述公司信息索引庫中進行 搜索。如果不是,則到原始的索引庫中查詢。其中,所述公司名稱列表中收集了公司信息索 引庫中的所有公司名稱。所述查詢詞可以為公司全稱,也可以是公司簡稱,總之查詢詞包含在某個公司名稱中即可判斷為用戶需要查詢公司信息。如果所述查詢信息為英文網址,則對該英文網址進行分析,當該英文網址為域名 信息時,表明用戶要查找公司信息。S103,將搜索結果返回并展示。優(yōu)選的,所述公司信息索引庫還可以包括其他有助于了解公司的信息,如公司的 地址、對公司的評價、公司近期出現的熱點新聞等信息。這些信息可以幫助用戶快速了解一 家公司的情況。上述搜索方法可以提高搜索公司信息的準確率,當用戶希望了解一個公司的情況 時,搜索引擎從所述公司信息索引庫中直接進行查詢即可,這樣就過濾掉了很多與該公司 無關的信息,如招聘信息等,這些不是用戶希望了解的信息。參照圖2,是本發(fā)明實施例二所述一種互聯(lián)網信息搜索方法的流程圖。S201,接收用戶輸入的查詢信息;其中,所述查詢信息可以是查詢詞,如公司名稱;也可以是英文網址,如某公司的 網址。S202,對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果是,則按照 索引庫中預置的索引分類,從公司信息索引分類中查找與該查詢信息相匹配的結果;其中, 所述公司信息索引分類中至少包括公司主頁信息;如果所述查詢信息為查詢詞,則根據預置的公司名稱列表,判斷該查詢詞是否為 公司名稱,如果是,則表明用戶要查找公司信息。然后,直接到所述公司信息索引庫中進行 搜索。如果不是,則到原始的索引庫中查詢。其中,所述公司名稱列表中收集了公司信息索 引分類中的所有公司名稱。所述查詢詞可以為公司全稱,也可以是公司簡稱,總之查詢詞包 含在某個公司名稱中即可判斷為用戶需要查詢公司信息。如果所述查詢信息為英文網址,則對該英文網址進行分析,當該英文網址為域名 信息時,表明用戶要查找公司信息。S203,將搜索結果返回并展示。優(yōu)選的,所述公司信息索引分類中還可以包括其他有助于了解公司的信息,如公 司的地址、對公司的評價、公司近期出現的熱點新聞等信息。這些信息可以幫助用戶快速了 解一家公司的情況?;谏鲜龇椒ǖ拿枋?,本發(fā)明實施例還提供了一種搜索引擎,其結構如下公司信息索引庫,用于建立至少包括公司主頁信息的索引;接收單元,用于接收用戶輸入的查詢信息;搜索單元,用于對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果 是,則從所述公司信息索引庫中查找與該查詢信息相匹配的結果;結果返回單元,用于將搜索結果返回并展示。優(yōu)選的,所述公司信息索引庫還包括公司地址信息、公司評價信息、公司熱點新聞 fn息ο本發(fā)明實施例還提供了另一種結構的搜索引擎,包括索引庫,用于分類建立信息索引,其中一類為至少包括公司主頁信息的公司信息 索引分類;
接收單元,用于接收用戶輸入的查詢信息;索引單元,用于對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果 是,則從所述索引庫中的公司信息索引分類中查找與該查詢信息相匹配的結果;其中,所述 公司信息索引分類中至少包括公司主頁信息;結果返回單元,用于將搜索結果返回并展示。優(yōu)選的,所述公司信息索引庫還包括公司地址信息、公司評價信息、公司熱點新聞 fn息ο本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與 其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于系統(tǒng)實施例 而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部 分說明即可。以上對本發(fā)明所提供的一種互聯(lián)網信息搜索方法及一種搜索引擎,進行了詳細介 紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只 是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發(fā) 明的思想,在具體實施方式
及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理 解為對本發(fā)明的限制。
權利要求
一種互聯(lián)網信息搜索方法,其特征在于,包括接收用戶輸入的查詢信息;對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果是,則從預置的公司信息索引庫中查找與該查詢信息相匹配的結果;其中,所述公司信息索引庫至少包括公司主頁信息;將搜索結果返回并展示。
2.根據權利要求1所述的方法,其特征在于如果所述查詢信息為查詢詞,則根據預置的公司名稱列表,判斷該查詢詞是否為公司 名稱,如果是,則表明用戶要查找公司信息。
3.根據權利要求1所述的方法,其特征在于如果所述查詢信息為英文網址,則對該英文網址進行分析,當該英文網址為域名信息 時,表明用戶要查找公司信息。
4.一種互聯(lián)網信息搜索方法,其特征在于,包括 接收用戶輸入的查詢信息;對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果是,則按照索引庫中預 置的索引分類,從公司信息索引分類中查找與該查詢信息相匹配的結果;其中,所述公司信 息索引分類中至少包括公司主頁信息; 將搜索結果返回并展示。
5.根據權利要求4所述的方法,其特征在于,所述公司信息索引分類通過以下方式預置對索引庫中所有的網頁地址進行解析,將解析結果為域名的網頁判斷為公司主頁;然 后將至少包括公司主頁的地址歸為一類并建立索引,成為公司信息索引分類。
6.一種搜索引擎,其特征在于,包括公司信息索引庫,用于建立至少包括公司主頁信息的索引; 接收單元,用于接收用戶輸入的查詢信息;搜索單元,用于對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果是,則 從所述公司信息索引庫中查找與該查詢信息相匹配的結果; 結果返回單元,用于將搜索結果返回并展示。
7.根據權利要求6所述的搜索引擎,其特征在于所述公司信息索引庫還包括公司地址信息、公司評價信息、公司熱點新聞信息。
8.一種搜索引擎,其特征在于,包括索引庫,用于分類建立信息索引,其中一類為至少包括公司主頁信息的公司信息索引 分類;接收單元,用于接收用戶輸入的查詢信息;索引單元,用于對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果是,則 從所述索引庫中的公司信息索引分類中查找與該查詢信息相匹配的結果;其中,所述公司 信息索引分類中至少包括公司主頁信息;結果返回單元,用于將搜索結果返回并展示。
9.根據權利要求8所述的搜索引擎,其特征在于所述公司信息索引庫還包括公司地址信息、公司評價信息、公司熱點新聞信息。
全文摘要
本發(fā)明提供了一種互聯(lián)網信息搜索方法及一種搜索引擎,能夠提高搜索準確率。所述方法包括接收用戶輸入的查詢信息;對所述查詢信息進行識別,判斷用戶是否要查找公司信息,如果是,則從預置的公司信息索引庫中查找與該查詢信息相匹配的結果;其中,所述公司信息索引庫至少包括公司主頁信息;將搜索結果返回并展示。當用戶需要查詢公司主頁時,直接到該公司信息索引庫中查詢即可,因此極大地提高了搜索準確率。
文檔編號G06F17/30GK101923548SQ200910087278
公開日2010年12月22日 申請日期2009年6月15日 優(yōu)先權日2009年6月15日
發(fā)明者李東亞, 郭勇 申請人:北京華智大為科技有限公司