專利名稱::建立導(dǎo)航查詢數(shù)據(jù)庫的方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及互聯(lián)網(wǎng)信息處理
技術(shù)領(lǐng)域:
,特別是涉及建立導(dǎo)航查詢數(shù)據(jù)庫的方法及裝置。
背景技術(shù):
:利用搜索引擎進行查詢時,根據(jù)用戶查詢目的的不同大致可以分為導(dǎo)航查詢和信息查詢兩類。其中,關(guān)于導(dǎo)航查詢,用戶的直接目的是訪問一個已知的網(wǎng)站,例如輸入寧夏人民政府,其目標(biāo)是www.nx.gov.cn/;輸入摩托羅拉首頁,其目標(biāo)是www.motorola,com.cn/;輸入遠夢書城,其目標(biāo)是www.my285.com/。關(guān)于信息查詢,用戶的直接目的是獲取以查詢詞為關(guān)鍵字的信息,而并不在意信息是由哪個網(wǎng)站或網(wǎng)頁4是供的。例如查詢詞為陳良宇之子獲刑、新疆暴力襲警案、碩士生當(dāng)農(nóng)民等。搜索引擎服務(wù)器會根據(jù)用戶輸入的查詢詞,將所有相關(guān)網(wǎng)頁按照相關(guān)度進行排序后返回給用戶,以供用戶選擇。但是對于導(dǎo)航查詢而言,有且只有一個網(wǎng)頁可以滿足用戶的需求,如果這個網(wǎng)頁不能排在比較靠前的位置,會比較嚴重地傷害用戶的感受。為此,有些搜索引擎維護了個導(dǎo)航數(shù)據(jù)庫,如表1所示,其中包括了導(dǎo)航查詢詞及其查詢目標(biāo),當(dāng)用戶輸入的查詢詞命中導(dǎo)航數(shù)據(jù)庫時,該查詢詞對應(yīng)的查詢目標(biāo)將會出現(xiàn)在搜索結(jié)果的第一位或比較靠前的位置。表1<table>tableseeoriginaldocumentpage7</column></row><table>上述方法能夠?qū)崿F(xiàn)將導(dǎo)航查詢的網(wǎng)頁顯示在比較靠前的位置,但是如何生成該導(dǎo)航數(shù)據(jù)庫則成為比較關(guān)鍵的問題。現(xiàn)有技術(shù)中,通?;谒阉饕嫒罩緛戆l(fā)現(xiàn)導(dǎo)航查詢,即分析搜索日志信息,獲取在某個信息查詢詞下,用戶點擊頻率符合預(yù)置條件的網(wǎng)址,依據(jù)信息查詢詞獲取針對所述網(wǎng)址的描述信息,所述描述信息包括關(guān)鍵詞,最后依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,發(fā)現(xiàn)導(dǎo)航查詢,并生成導(dǎo)航數(shù)據(jù)庫。但是搜索引擎日志中記錄的用戶點擊日志并不能夠覆蓋所有的導(dǎo)航查詢,尤其是一些不常用的小網(wǎng)站的導(dǎo)航查詢往往無法實現(xiàn)。例如,用戶的點擊日志中不包括"鳳城市凱馳內(nèi)燃機配件有限公司"這一查詢詞。另外,用戶在搜索引擎中輸入的查詢詞一般比較隨意,縮寫、簡稱或書寫錯誤較為常見,使得生成的導(dǎo)航查詢詞表不夠規(guī)范,噪音較多。例如,在查詢?nèi)罩局校胁樵冊~"系詞胡同"系"西祠胡同"的筆誤,查詢詞"雅詩蘭戴,,,系"雅詩蘭黛"的筆誤,這樣的錯誤輸入很有可能被當(dāng)成導(dǎo)4元查詢。綜上所述,需要本領(lǐng)域技術(shù)人員迫切解決的技術(shù)問題是如何創(chuàng)造性地提出一種生成導(dǎo)航數(shù)據(jù)庫的解決方法,使得獲得的導(dǎo)航數(shù)據(jù)庫能夠覆蓋更多的導(dǎo)航查詢,并且使導(dǎo)航查詢更加規(guī)范,減少噪音。
發(fā)明內(nèi)容有鑒于此,本發(fā)明的目的在于提供建立導(dǎo)航查詢數(shù)據(jù)庫的方法及系統(tǒng),以解決現(xiàn)有技術(shù)中導(dǎo)航數(shù)據(jù)庫覆蓋面小、有些導(dǎo)航查詢不夠規(guī)范的問題。為實現(xiàn)上述目的,本發(fā)明提供了如下方案一種建立導(dǎo)航查詢數(shù)據(jù)庫的方法,包括分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;如果存在,保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,建立導(dǎo)航查詢數(shù)據(jù)庫。優(yōu)選的,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址之前還包括選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并對所述符合URL格式的目標(biāo)網(wǎng)址進行所述判斷的步驟。優(yōu)選的,還包括對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進行驗證,如果驗證通過,則進入所述保存的步驟。優(yōu)選的將鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到多個搜索引擎進行搜索,比較各搜索引擎返回的第一位的結(jié)果與所述符合預(yù)置條件的目標(biāo)網(wǎng)址是否一致,如果是,則驗證通過。優(yōu)選的,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址的具體實現(xiàn)包括統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)A^),及呈現(xiàn)該文字a的各鏈接文本指向次it最多的目標(biāo)網(wǎng)址,,并獲取指向該目標(biāo)網(wǎng)址^的次數(shù)7V",J;判斷7V(a,U與iV(fl)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址^符合預(yù)置條件。一種建立導(dǎo)航查詢數(shù)據(jù)庫的裝置,包括鏈接文本分析單元,用于分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;判斷單元,用于對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;數(shù)據(jù)庫建立單元,用于當(dāng)存在符合預(yù)置條件的目標(biāo)網(wǎng)址時,保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,建立導(dǎo)航查詢數(shù)據(jù)庫。優(yōu)選的,還包括選擇單元,用于選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并將所述符合URL格式的目標(biāo)網(wǎng)址輸入到所述判斷單元。優(yōu)選的,還包括校驗單元,用于對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進行驗證,如果驗證通過,則觸發(fā)所述數(shù)據(jù)庫建立單元執(zhí)行所述保存的操作。優(yōu)選的,所述校驗單元包括發(fā)送子單元,用于將鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到至少一個搜索引擎進行搜索;比較子單元,用于比較各搜索?1擎返回的第一位的結(jié)果與所述符合預(yù)置條件的目標(biāo)網(wǎng)址是否一致,如果是,則驗證通過,并觸發(fā)所述數(shù)據(jù)庫建立單元執(zhí)行所述保存的操作。優(yōu)選的,所述判斷單元包括統(tǒng)計子單元,用于統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)A^),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址/,并獲耳又指向該目標(biāo)網(wǎng)址^的次凄tiV(a人);計算子單元,用于判斷W(a人)與A^)的比值是否大于預(yù)置閾值,,如果大于,則該目標(biāo)網(wǎng)址^符合預(yù)置條件。一種網(wǎng)址導(dǎo)航方法,包^":分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;如果存在,保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,建立導(dǎo)航查詢凝:據(jù)庫;接收用戶輸入的查詢詞,檢索所述導(dǎo)航查詢數(shù)據(jù)庫,向用戶返回與所述查^句"i司才目匹酉己的網(wǎng)il:。優(yōu)選的,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址之前還包括選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并對所述符合URL格式的目標(biāo)網(wǎng)址進行所述判斷的步驟。優(yōu)選的,還包括對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進行驗證,如果驗證通過,則進入所述保存的步驟。優(yōu)選的將鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到多個搜索弓1擎進行搜索,比較各搜索引擎返回的第一位的結(jié)果與所述符合預(yù)置條件的目標(biāo)網(wǎng)址是否一致,如果是,則驗證通過。優(yōu)選的,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址的具體實現(xiàn)包括統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)7V(a),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址^,并獲取指向該目標(biāo)網(wǎng)址^的次數(shù)iV"0;判斷A^人)與A^)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址^符合預(yù)置條件。一種網(wǎng)址導(dǎo)航系統(tǒng),包括鏈接文本分析單元,用于分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;判斷單元,用于對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;導(dǎo)航查詢數(shù)據(jù)庫,用于保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的只于應(yīng)關(guān)系;4妻口單元,用于4矣收用戶llr入的查詢詞,并展示相應(yīng)的目標(biāo)網(wǎng)址;檢索單元,用于纟全索所述導(dǎo)4元查詢數(shù)據(jù)庫,向用戶返回與所述查詢詞相匹配的目標(biāo)網(wǎng)址。優(yōu)選的,還包括選擇單元,用于選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并將所述符合URL4各式的目標(biāo)網(wǎng)址輸入到所述判斷單元。優(yōu)選的,還包括校驗單元,用于對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進^v驗i正。優(yōu)選的,所述4t驗單元包括發(fā)送子單元,用于將鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到多個搜索引擎進行搜索;比較子單元,用于比較各搜索引擎返回的第一位的結(jié)果與所述符合預(yù)置條件的目標(biāo)網(wǎng)址是否一致,如果是,則驗證通過。優(yōu)選的,所述判斷單元包括統(tǒng)計子單元,用于統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)A^),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址l,并獲取指向該目標(biāo)網(wǎng)址l的次數(shù)7V(a,l);計算子單元,用于判斷A^,"與A^)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址,符合預(yù)置條件。一種網(wǎng)址導(dǎo)航方法,包括接收用戶輸入的查詢詞;分析鏈接文本數(shù)據(jù)庫,獲取與所述查詢詞相匹配的鏈接文本上呈現(xiàn)的文字,并獲取呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;在所述各目標(biāo)網(wǎng)址中,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;如果存在,向用戶返回所述符合預(yù)置條件的目標(biāo)網(wǎng)址。優(yōu)選的,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址之前還包括選捧符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并對所述符合URL格式的目標(biāo)網(wǎng)址進行所述判斷的步驟。'優(yōu)選的,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址的具體實現(xiàn)包括統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)iV(a),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址,,并獲取指向該目標(biāo)網(wǎng)址^的次數(shù)W(",u;判斷iV(a,。與iV(a)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址^符合預(yù)置條件。一種網(wǎng)址導(dǎo)航系統(tǒng),包括才妄口單元,用于4妄收用戶輸入的查詢詞,并展示相應(yīng)的目標(biāo)網(wǎng)址;鏈接文本分析單元,用于分析鏈接文本數(shù)據(jù)庫,獲取與所述查詢詞相匹配的鏈接文本上呈現(xiàn)的文字,并獲取呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;判斷單元,用于在所述各目標(biāo)網(wǎng)址中,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;如果存在,將所述符合預(yù)置條件的目標(biāo)網(wǎng)址通過所述接口單元向用戶展示o優(yōu)選的,還包括選擇單元,用于選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并將所述符合URL格式的目標(biāo)網(wǎng)址輸入到所述判斷單元。優(yōu)選的,所述判斷單元包括統(tǒng)計子單元,用于統(tǒng)計鏈"^妄文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)iV(a),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址^,并獲取指向該目標(biāo)網(wǎng)址fm的次數(shù)、);計算子單元,用于判斷iV(",O與W(a)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址符合預(yù)置條件。根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下技術(shù)效果本發(fā)明采用基于鏈接文本分析的導(dǎo)航發(fā)現(xiàn)方法,由于鏈接文本的數(shù)量一般遠大于搜索引擎的點擊日志數(shù)量,而且不受網(wǎng)站大小、是否常用的約束,因此可以發(fā)現(xiàn)更大規(guī)模的導(dǎo)航查詢,增大了導(dǎo)航數(shù)據(jù)庫的覆蓋面。同時,由于鏈接文本通常是由網(wǎng)站作者生成的,因此用于導(dǎo)航查詢發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量更高,使獲得的導(dǎo)航查詢更加規(guī)范、噪音較少。其次,本發(fā)明在對鏈接文本分析的基礎(chǔ)上,還引入了搜索引擎日志等其他相關(guān)信息,以便進一步校正或修正分析結(jié)果,從而可以獲取更為準確的導(dǎo)航查詢。圖1是本發(fā)明提供的建立導(dǎo)航查詢數(shù)據(jù)庫的方法的流程圖2是鏈^l妄文本與目標(biāo)網(wǎng)址的對應(yīng)關(guān)系示意圖3是本發(fā)明提供的建立導(dǎo)航查詢數(shù)據(jù)庫的另一方法的流程圖4是本發(fā)明提供的建立導(dǎo)航查詢數(shù)據(jù)庫的裝置的示意圖5是本發(fā)明提供的建立導(dǎo)航查詢數(shù)據(jù)庫的另一裝置的示意圖6是本發(fā)明提供的網(wǎng)址導(dǎo)航方法的流程圖7是本發(fā)明提供的網(wǎng)址導(dǎo)航系統(tǒng)的示意圖8是本發(fā)明提供的另一網(wǎng)址導(dǎo)航系統(tǒng)的示意圖。具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。參見圖1,本發(fā)明實施例提供的建立導(dǎo)航查詢數(shù)據(jù)庫的方法包括以下步驟S101:分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;S102:對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在指向次數(shù)符合預(yù)置條件的目標(biāo)網(wǎng)址,如果存在,進入步驟S103;S103:保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,建立導(dǎo)^t查詢數(shù)據(jù)庫。本發(fā)明的目的是使建立的導(dǎo)航數(shù)據(jù)庫能夠覆蓋更多的導(dǎo)航查詢,同時使得獲取的導(dǎo)航查詢更加規(guī)范,減少噪音。因此,關(guān)鍵是要尋找一種合適的數(shù)據(jù)源,并從中挖掘出所需的導(dǎo)航查詢信息。在本發(fā)明實施例中,選取了鏈接文本數(shù)據(jù)庫作為數(shù)據(jù)源,為了更好地理解本發(fā)明,下面首先對鏈接文本進行簡要地介紹?;ヂ?lián)網(wǎng)上的網(wǎng)頁是通過超鏈接連接在一起的。超鏈接在本質(zhì)上屬于一個網(wǎng)頁的一部分,它是一種允許我們同其他網(wǎng)頁或站點之間進行連接的元素。各個網(wǎng)頁鏈接在一起后,才能真正構(gòu)成一個網(wǎng)站。所謂的超鏈接是指從一個網(wǎng)頁指向一個目標(biāo)的連接關(guān)系,這個目標(biāo)可以是另一個網(wǎng)頁,也可以是相同網(wǎng)頁上的不同位置,還可以是一個圖片,一個電子郵件地址,一個文件,甚至是一個應(yīng)用程序。而在一個網(wǎng)頁中用來鏈接的對象,可以是一段文本或者是一個圖片等。當(dāng)瀏覽者單擊已經(jīng)鏈4妄的文字或圖片后,鏈4婁目標(biāo)將顯示在瀏覽器上,并且才艮據(jù)目標(biāo)的類型來打開或運行。圖2所示就是一個超鏈接的例子。其中,箭頭以下的部分為源網(wǎng)頁,箭頭以上的部分為目標(biāo)網(wǎng)頁,超鏈4妄,人源網(wǎng)頁指向目標(biāo)網(wǎng)頁,顯示在源網(wǎng)頁上的文字就是鏈接文本。通常,鏈接文本數(shù)據(jù)庫中包括鏈接文本上呈現(xiàn)的文字、鏈接文本所在的源統(tǒng)一資源定位符(UniformResourceLocator,URL)、鏈4婁文本指向的目標(biāo)URL,因此鏈接文本可以對鏈接所指向頁面的做出評估,能夠精確的描述所指向頁面的內(nèi)容。另一方面,幾乎所有的網(wǎng)站都會有自己的鏈接文本,而且鏈接文本一般是由網(wǎng)站的建設(shè)者生成的,因此鏈接文本上呈現(xiàn)的文字通常比較規(guī)范、噪音較少,一般不會出現(xiàn)錯別字之類的錯誤。從以上對鏈接文本的介紹可以看出,鏈接文本數(shù)據(jù)庫主要具有以下特點具有鏈接文本上呈現(xiàn)的文字與呈現(xiàn)該文字的鏈接文本所指向的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,同時數(shù)據(jù)量大、數(shù)據(jù)覆蓋面廣,并且鏈接文本上呈現(xiàn)的文字用語規(guī)范、噪聲較少。因此,能夠滿足本發(fā)明的建立導(dǎo)航查詢數(shù)據(jù)庫所需數(shù)據(jù)源的要求。其中,可以通過多種方法來判斷是否存在指向次數(shù)符合預(yù)置條件的目標(biāo)網(wǎng)址。例如可以統(tǒng)計鏈接文本上呈現(xiàn)的文字的集中度。由于呈現(xiàn)同一文字的鏈接文本通常會指向多個目標(biāo)網(wǎng)址,這些目標(biāo)網(wǎng)址中有的相同,有的不相同,因此,所述鏈接文本上呈現(xiàn)的文字的集中度是指,對于一個鏈接文本上呈現(xiàn)的文字a及呈現(xiàn)該文字的鏈接文本所指向的某目標(biāo)網(wǎng)址u,該鏈接文本上呈現(xiàn)的文字a以多高的比例集中在u上。本發(fā)明實施例提供了一種計算所述集中度的方法,現(xiàn)詳細描述如下首先,對于一條鏈接文本上呈現(xiàn)的文字a,統(tǒng)計其在鏈接文本中出現(xiàn)的總次數(shù),設(shè)為7V(");并統(tǒng)計呈現(xiàn)該文字a的鏈接文本所指向的目標(biāo)網(wǎng)址,設(shè)為n個,對于每一個目標(biāo)網(wǎng)址t,統(tǒng)計呈現(xiàn)文字a的各鏈接文本指向該目標(biāo)網(wǎng)址的次數(shù)7V(a力。因此有<formula>formulaseeoriginaldocumentpage15</formula>(1)其中,公式(l)中的6,v.人為a指向的n個目標(biāo)網(wǎng)址。設(shè)其中^為呈現(xiàn)文字a的鏈接文本所指向次數(shù)最多的目標(biāo)網(wǎng)址,即iV(a,0>7VO,0l"n且km(2)則通過以下公式計算集中度集中度=iVO,,m)/W(a)(3)然后,判斷集中度是否大于某預(yù)置的閾值(如,可以為O.8),如果大于,則i^為呈現(xiàn)文字a的鏈"^妄文本集中地指向目標(biāo)網(wǎng)址^。因此可以將鏈接文本上呈現(xiàn)的文字a看作是導(dǎo)航詞,并且其目標(biāo)網(wǎng)址為^。將鏈接文本上呈現(xiàn)的文字-目標(biāo)網(wǎng)址對(a,^)進行保存,得到導(dǎo)航查詢數(shù)據(jù)庫。由于有些網(wǎng)頁上的鏈接文本可能并不標(biāo)準,使得點擊該鏈接時可能存在"該鏈接不存在"或"該鏈接為空"等現(xiàn)象。因此,在本發(fā)明的優(yōu)選實施例中,可以先將這些目標(biāo)網(wǎng)址過濾掉。優(yōu)選的,可以通過以下方式進行過濾判斷各目標(biāo)網(wǎng)址是否符合URL格式,將不符合URL格式的目標(biāo)網(wǎng)址過濾掉,然后只判斷符合URL格式的目標(biāo)網(wǎng)址中,是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址。需要說明的是,URL是用于完整地描述Internet上網(wǎng)頁和其他資源的地址的一種標(biāo)識方法,URL是統(tǒng)一的,因為它們采用相同的基本語法,無論是尋址哪種特定類型的資源(網(wǎng)頁、新聞組),還是描述通過哪種機制獲取該資源。對于Internet服務(wù)器或萬維網(wǎng)服務(wù)器上的目標(biāo)文件,可以使用URL地址(該地址以"http:〃"開始)。在實際應(yīng)用中,進行錯誤的推薦往往比不進行推薦還更加傷害用戶的體驗,因此,建立導(dǎo)航查詢數(shù)據(jù)庫時,準確性是比較重要的問題,為了保證獲取的導(dǎo)航詞及其對應(yīng)的目標(biāo)網(wǎng)址的準確性,本發(fā)明的優(yōu)選實施例中可以利用搜索引擎進行驗證,如果驗證通過,才進行保存。此時可以將上述過程得到的鏈接文本上呈現(xiàn)的文字-目標(biāo)網(wǎng)址對(a,^)看作是導(dǎo)航查詢候選集合。其中,驗證的過程可以如下進4亍將導(dǎo)航查詢候選集合中的鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到多家搜索引擎進行搜索,獲取各搜索引擎返回的排在第一位的搜索結(jié)果,例如,可以得到以下數(shù)組(a,,m,搜索引擎l的第一位結(jié)果,搜索引擎2的第一位結(jié)果,……)。比較、與各搜索引擎返回的排在第一位的搜索結(jié)果進行比較,如果一致,則驗證通過,即認為a是導(dǎo)航詞,且其目標(biāo)網(wǎng)址為c,并將該導(dǎo)航詞-目標(biāo)網(wǎng)址對保存到導(dǎo)航查詢數(shù)據(jù)庫中。當(dāng)然,上述驗證方法可能并不是絕對的,在少數(shù)情況下也可能并不適用。在實際應(yīng)用中,還可以結(jié)合使用其他的智能識別方法,或人工識別的方式來進行盡量準確的驗證。為了更加清楚地理解本發(fā)明實施例地方法,下面通過具體的例子進行詳細地描述。鏈接文本數(shù)據(jù)庫中包括鏈接文本上呈現(xiàn)的文字、鏈接文本所在的源統(tǒng)一資源定位符(UniformResourceLocator,URL)、鏈接文本指向的目標(biāo)URL,例^口,可以》口表2戶斤示表2<table>tableseeoriginaldocumentpage17</column></row><table>參見圖3,在該例子中包括以下步驟S301:對鏈接文本數(shù)據(jù)進行統(tǒng)計,計算呈現(xiàn)某文字的鏈接文本各指向各目標(biāo)網(wǎng)址的次數(shù),如表3所示表3<table>tableseeoriginaldocumentpage17</column></row><table>S302:對每一個鏈接文本上呈現(xiàn)的文字,累加呈現(xiàn)該文字的鏈接文本指向不同目標(biāo)的次數(shù),就得到了鏈接文本上呈現(xiàn)的文字出現(xiàn)的總次數(shù)。比較呈現(xiàn)同一個文字的鏈接文本被指向不同目標(biāo)網(wǎng)址的次數(shù),就得到了指向次數(shù)最多的目標(biāo)網(wǎng)址,如表4所示表4<table>tableseeoriginaldocumentpage17</column></row><table>S303:計算表4中的三個鏈接文本上呈現(xiàn)的文字中,呈現(xiàn)各文字的鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址的集中度;S304:判斷計算得到的集中度是否大于某預(yù)置的閾值(設(shè)為0.8)。S305:將集中度大于所述預(yù)置閾值的鏈接文本上呈現(xiàn)的文字-目標(biāo)網(wǎng)址對作為導(dǎo)航查詢候選。例如,計算得到(搜狐,www.sohu.com/)的集中度為90.1%,大于O.8,貝寸4史為j美選導(dǎo)4元查詢j夷選;(hualin,www.china1ions,com/)的集中度為82.4%,大于0.8,則收為候選導(dǎo)航查詢候選;(北京寬溝,www.kuangou.com/)的集中度為39.8%,小于0.8,則不收為候選導(dǎo)航查詢候選;S306:把候選導(dǎo)航查詢的鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到若干個搜索引擎,例如搜狗和百度,記錄第一位的結(jié)果,如表5所示<table>tableseeoriginaldocumentpage18</column></row><table>S307:比較鏈接文本上呈現(xiàn)的文字集中的目標(biāo)、搜狗第一位、百度第一位,如果三者一致,則查詢詞是導(dǎo)航詞,其目標(biāo)是鏈接文本上呈現(xiàn)的文字集中的目標(biāo)。經(jīng)比較,(搜狐,www.sohu.com/)是導(dǎo)航查詢,(hualin,www.chinalions.com/)不是導(dǎo)航查詢。綜上可見,本發(fā)明實施例采用基于鏈接文本分析的導(dǎo)航發(fā)現(xiàn)方法,由于鏈接文本的數(shù)量一般遠大于搜索引擎的點擊日志數(shù)量,而且不受網(wǎng)站大小、是否常用的約束,因此可以發(fā)現(xiàn)更大規(guī)模的導(dǎo)航查詢,增大了導(dǎo)航數(shù)據(jù)庫的覆蓋面。同時,由于鏈接文本上呈現(xiàn)的文字通常是由網(wǎng)站作者生成的,因此用于導(dǎo)航查詢發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量更高,使獲得的導(dǎo)航詞更加規(guī)范、噪音較少。同時,本發(fā)明實施例在對鏈接文本分析的基礎(chǔ)上,還引入了搜索引擎日志等其他相關(guān)信息,并通過搜索引擎進行驗證,以便進一步校正或修正分析結(jié)果,從而可以獲取更為準確的導(dǎo)力元查詢。與本發(fā)明實施例4是供的建立導(dǎo)航查詢數(shù)據(jù)庫的方法相對應(yīng),本發(fā)明實施例還提供了一種建立導(dǎo)航查詢數(shù)據(jù)庫的裝置,參見圖4,該裝置包括鏈接文本分析單元U4G1,用于分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本指向的目標(biāo)網(wǎng)址;判斷單元U402,用于對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在指向次數(shù)符合預(yù)置條件的目標(biāo)網(wǎng)址;數(shù)據(jù)庫建立單元U403,用于當(dāng)存在符合預(yù)置條件的目標(biāo)網(wǎng)址時,保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,建立導(dǎo)航查詢數(shù)據(jù)庫。本發(fā)明實施例將鏈接文本數(shù)據(jù)庫作為獲取導(dǎo)航查詢的數(shù)據(jù)源,因此首先由鏈接文本分析單元U401分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的各目標(biāo)網(wǎng)址;然后對于每個鏈接文本上呈現(xiàn)的文字,判斷單元U402判斷是否存在指向次數(shù)符合某預(yù)置條件的目標(biāo)網(wǎng)址;如果存在符合所述預(yù)置條件的目標(biāo)網(wǎng)址,數(shù)據(jù)庫建立單元U403則保存該鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,這樣就建立了導(dǎo)航查詢數(shù)據(jù)庫。該導(dǎo)航查詢數(shù)據(jù)庫可以用于向用戶提供導(dǎo)航查詢的目標(biāo)網(wǎng)址。由于鏈接文本數(shù)據(jù)庫的數(shù)據(jù)量大,鏈接文本上呈現(xiàn)的文字比較規(guī)范,因此,最終建立的導(dǎo)航查詢數(shù)據(jù)庫具有覆蓋范圍廣,導(dǎo)航查詢規(guī)范、不易出錯且噪音較小等特點。由于有些網(wǎng)頁上的鏈接文本可能并不標(biāo)準,使得點擊該鏈接時可能存在"該鏈接不存在"或"該鏈接為空"等現(xiàn)象,可以先將這些目標(biāo)網(wǎng)址過濾掉。因此,參見圖5,該裝置還可以包括選擇單元U504,用于選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并將所述符合URL格式的目標(biāo)網(wǎng)址輸入到所述判斷單元。由于如果向用戶提供錯誤的推薦會比不做推薦更加傷害用戶的體驗,因此保證導(dǎo)航查詢的準確性非常重要。在本發(fā)明的優(yōu)選實施例中,該裝置還可以包括校驗單元U505,用于在判斷出某鏈接文本上呈現(xiàn)的文字具有符合預(yù)置條件的目標(biāo)網(wǎng)址后,對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進行驗證,如果驗證通過,則觸發(fā)數(shù)據(jù)庫建立U503單元執(zhí)行所述保存的操作。在實際應(yīng)用中,可以利用現(xiàn)有的搜索引擎系統(tǒng)進行驗證,因此校驗單元U505可以包括以下子單元發(fā)送子單元U5051,用于將鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到至少一個搜索引擎進行搜索;比較子單元U5052,用于比較各搜索引擎返回的第一位的結(jié)果與所述符合預(yù)置條件的目標(biāo)網(wǎng)址是否一致,如果是,則驗證通過,并觸發(fā)所述數(shù)據(jù)庫建立單元執(zhí)行所述保存的搮:作。其中,可以通過統(tǒng)計鏈接文本上呈現(xiàn)的文字的集中度的方式來判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址。因此,判斷單元U502可以包括以下子單元統(tǒng)計子單元U5021,用于對于一條鏈接文本上呈現(xiàn)的文字a,統(tǒng)計其在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)A^),并統(tǒng)計呈現(xiàn)該文字a的各鏈接文本所指向的目標(biāo)網(wǎng)址,對于每一個目標(biāo)網(wǎng)址t,統(tǒng)計呈現(xiàn)文字a的各鏈接文本指向該目標(biāo)網(wǎng)址的次數(shù)iV"/),獲取鏈呈現(xiàn)文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址^,并統(tǒng)計指向該目標(biāo)網(wǎng)址,m的次數(shù),m);計算子單元U5022,用于計算iV(a,U與W(a)的比值,并將其作為該鏈接文本上呈現(xiàn)的文字a的集中度,判斷該集中度是否大于某預(yù)置閾值,如果大于,則該鏈接文本上呈現(xiàn)的文字存在符合所述預(yù)置條件的目標(biāo)網(wǎng)址,且該目標(biāo)網(wǎng)址為、。其中,圖5中的鏈接文本分析單元U501及導(dǎo)航查詢數(shù)據(jù)庫U503,與圖4中的鏈接文本分析單元U401及導(dǎo)航查詢數(shù)據(jù)庫U403相同。前述實施例中介紹的建立導(dǎo)航查詢數(shù)據(jù)庫的目的是幫助用戶完成網(wǎng)址導(dǎo)航,即當(dāng)用戶輸入某查詢詞時,利用該導(dǎo)航查詢數(shù)據(jù)庫來判斷是否為導(dǎo)航查詢,如果是,將導(dǎo)4元查詢對應(yīng)的目標(biāo)網(wǎng)址返回給用戶。下面就對利用該導(dǎo)力元查詢翁:據(jù)庫來進行網(wǎng)址導(dǎo)航的方法進行詳細地介紹。參見圖6,本發(fā)明實施例提供的網(wǎng)址導(dǎo)航的方法包括以下步驟S601:分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的各目標(biāo)網(wǎng)址;S602:對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在指向次數(shù)符合預(yù)置條件的目標(biāo)網(wǎng)址;S603:如果存在,保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,建立導(dǎo)航查詢數(shù)據(jù)庫;S604:接收用戶輸入的查詢詞,一企索所述導(dǎo)航查詢數(shù)據(jù)庫,向用戶返回與所述查詢詞相匹配的目標(biāo)網(wǎng)址。本實施例所描述的網(wǎng)址導(dǎo)航的方法,是在前述實施例中建立導(dǎo)航查詢數(shù)據(jù)庫的基礎(chǔ)上完成的,由于相應(yīng)的內(nèi)容已經(jīng)在前面詳細描述過,因此在此不再贅述。在步驟S604中,用戶一般都是通過關(guān)鍵詞進行查詢,在所述導(dǎo)航查詢數(shù)據(jù)庫中對用戶輸入的關(guān)鍵詞進行匹配,如果存在與該關(guān)^fc詞相匹配的導(dǎo)^:查詢,即可獲得該用戶所需的與該關(guān)鍵詞對應(yīng)的目標(biāo)網(wǎng)址,并返回給用戶,從而實現(xiàn)面向用戶的網(wǎng)址導(dǎo)航。對于具體的對用戶輸入查詢信息的分詞、解析以及具體的數(shù)椐庫查詢匹配等數(shù)據(jù)處理過程,現(xiàn)有技術(shù)已經(jīng)完全實現(xiàn),本發(fā)明在此不再贅述。可以通過多種方法來判斷是否存在指向次數(shù)符合預(yù)置條件的目標(biāo)網(wǎng)址。優(yōu)選的,可以采用統(tǒng)計鏈接文本的集中度的方法。所述鏈接文本的集中度是指,對于一個鏈^矣文本a及呈現(xiàn)該文字a的各鏈4妄文本所指向的某目標(biāo)網(wǎng)址u,該鏈接文本a以多高的比例集中在u上。具體的,對于一條鏈接文本上呈現(xiàn)的文字a,統(tǒng)計其出現(xiàn)的總次數(shù)iV(a),并統(tǒng)計呈現(xiàn)該文字a的鏈接文本被指向的目標(biāo)網(wǎng)址,對于每一個目標(biāo)網(wǎng)址t,統(tǒng)計呈現(xiàn)該文字a的各鏈接文本所指向該目標(biāo)網(wǎng)址的次數(shù)iV(a力,獲取呈現(xiàn)該文字a的各鏈接文本所指向次數(shù)最多的目標(biāo)網(wǎng)址^,并統(tǒng)計指向該目標(biāo)網(wǎng)址^的次數(shù)7V"U;然后計算W(fl,U與W(fl)的比值,并將其作為該鏈4妄文本上呈現(xiàn)的文字a的集中度,判斷該集中度是否大于某預(yù)置閣值,如果大于,則該鏈接文本上呈現(xiàn)的文字存在符合所述預(yù)置條件的目標(biāo)網(wǎng)址,且該目標(biāo)網(wǎng)址為~,。為了進一步提高網(wǎng)址導(dǎo)航的精度,本發(fā)明的優(yōu)選實施例中還可以包括驗證的步驟,即在判斷出某鏈接文本上呈現(xiàn)的文字具有符合預(yù)置條件的目標(biāo)網(wǎng)址后,對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進行驗證,只有驗證通過,才執(zhí)行所述保存的步驟。此時可以將上述過程得到的鏈接文本上呈現(xiàn)的文字-目標(biāo)網(wǎng)址對(a,、)看作是導(dǎo)航查詢候選集合。其中,驗證的過程可以如下進行將導(dǎo)航查詢候選集合中的鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到多家搜索引擎進行搜索,比較^與各搜索引擎返回的排在第一位的搜索結(jié)果進行比較,如果一致,則認為a是導(dǎo)航查詢,且其目標(biāo)網(wǎng)址為、。與上述本發(fā)明實施例提供的網(wǎng)址導(dǎo)航的方法相對應(yīng),本發(fā)明實施例還提供了一種網(wǎng)址導(dǎo)航的系統(tǒng),參見圖7,該系統(tǒng)包括鏈接文本分析單元U701,用于分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;判斷單元U702,用于對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在指向次數(shù)符合預(yù)置條件的目標(biāo)網(wǎng)址;導(dǎo)航查詢數(shù)據(jù)庫U703,用于保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系;接口單元U704,用于接收用戶輸入的查詢詞,并展示相應(yīng)的目標(biāo)網(wǎng)址;;險索單元U705,用于斥企索所述導(dǎo)航查詢數(shù)據(jù)庫,向用戶返回與所述查詢詞相匹酉己的目標(biāo)網(wǎng)址。鏈接文本分析單元U7G1分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的各目標(biāo)網(wǎng)址;然后對于每個鏈接文本上呈現(xiàn)的文字,判斷單元U702判斷是否存在指向次數(shù)符合某預(yù)置條件的目標(biāo)網(wǎng)址;如果存在符合所述預(yù)置條件的目標(biāo)網(wǎng)址,數(shù)據(jù)庫建立單元U703則保存該鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,這樣就建立了導(dǎo)航查詢數(shù)據(jù)庫。當(dāng)用戶需要查詢某網(wǎng)址時,接口單元U704接收用戶輸入的查詢詞,檢索單元U705檢索所述導(dǎo)航查詢數(shù)據(jù)庫,如果存在與用戶輸入的查詢詞相匹配的導(dǎo)航查詢,則返回該導(dǎo)航查詢對應(yīng)的目標(biāo)網(wǎng)址,并由接口單元U704展示給用戶。在本發(fā)明的優(yōu)選實施例中,參見圖8,該系統(tǒng)還可以包括選擇單元U806,用于選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并將所述符合URL格式的目標(biāo)網(wǎng)址輸入到判斷單元U802。即,只需判斷符合URL格式的目標(biāo)網(wǎng)址中是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址。校驗單元U807,用于在判斷出某鏈接文本上呈現(xiàn)的文字具有符合預(yù)置條件的目標(biāo)網(wǎng)址后,對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進行—驗證,如果一驗i正通過,該鏈接文本-目標(biāo)地址對才會保存在導(dǎo)關(guān)元查詢數(shù)據(jù)庫中。在實際應(yīng)用中,可以利用現(xiàn)有的搜索引擎系統(tǒng)進行驗證,因此校驗單元U807可以包括以下子單元發(fā)送子單元U8071,用于將鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到至少一個搜索引擎進行搜索;比較子單元U8072,用于比較各搜索51擎返回的第一位的結(jié)果與所述符合預(yù)置條件的目標(biāo)網(wǎng)址是否一致,如果是,則驗證通過,并觸發(fā)所述數(shù)據(jù)庫建立單元執(zhí)行所述保存的操作。其中,可以通過統(tǒng)計鏈接文本上呈現(xiàn)的文字的集中度的方式來判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址。因此,判斷單元U802可以包括以下子單元統(tǒng)計子單元U8021,用于對于一條鏈接文本上呈現(xiàn)的文字a,統(tǒng)計其出現(xiàn)的總次數(shù)7V0),并統(tǒng)計呈現(xiàn)該文字a的各鏈接文本所指向的目標(biāo)網(wǎng)址,對于每一個目標(biāo)網(wǎng)址t,統(tǒng)計呈現(xiàn)該文字a的各鏈接文本指向該目標(biāo)網(wǎng)址的次數(shù)iV(W),獲取呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址L,并統(tǒng)計指向該目標(biāo)網(wǎng)址^的次凄tA^人);計算子單元U8022,用于計算iV(a,U與W(")的比值,并將其作為該鏈接文本上呈現(xiàn)的文字a的集中度,判斷該集中度是否大于某預(yù)置閾值,如果大于,則該鏈接文本上呈現(xiàn)的文字存在符合所述預(yù)置條件的目標(biāo)網(wǎng)址,且該目標(biāo)網(wǎng)址為C。其中,圖8中的鏈接文本分析單元U801及導(dǎo)航查詢數(shù)據(jù)庫U803,與圖7中的鏈接文本分析單元U701及導(dǎo)航查詢數(shù)據(jù)庫U703相同。參見圖9,本發(fā)明實施例提供了另一種網(wǎng)址導(dǎo)航的方法,該方法包括以下步驟S901:接收用戶輸入的查詢詞;S902:分析鏈接文本數(shù)據(jù)庫,獲取與所述查詢詞相匹配的鏈接文本上呈現(xiàn)的文字,并獲取呈現(xiàn)該文字的各鏈接文本所指向的各目標(biāo)網(wǎng)址;S903:在所述各目標(biāo)網(wǎng)址中,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;S904:如果存在,向用戶返回所述符合預(yù)置條件的目標(biāo)網(wǎng)址。,該實施例才是供的網(wǎng)址導(dǎo)^^的方法與前述網(wǎng)址導(dǎo)^t方法的不同之處在于,該方法不需要建立導(dǎo)航查詢數(shù)據(jù)庫,當(dāng)接收到用戶輸入的查詢詞時,直接分析鏈接文本數(shù)據(jù)庫中是否存在與所述查詢詞相匹配的鏈接文本上呈現(xiàn)的文字,如果存在,則獲取呈現(xiàn)該文字的各鏈接文本所指向的各目標(biāo)網(wǎng)址,然后直接判斷是否存在符合某預(yù)置條件的目標(biāo)網(wǎng)址,如果存在,則認為用戶想要進行導(dǎo)航查詢,并將所述符合預(yù)置條件的目標(biāo)網(wǎng)址返回給用戶。同樣,由于有些鏈接文本可能并不標(biāo)準,使得點擊該鏈接時可能存在"該鏈接不存在"或"該鏈接為空"等現(xiàn)象。因此,在本發(fā)明的優(yōu)選實施例中,可以先將這些目標(biāo)網(wǎng)址過濾掉。優(yōu)選的,可以通過以下方式進行過濾判斷各目標(biāo)網(wǎng)址是否符合URL格式,將不符合URL格式的目標(biāo)網(wǎng)址過濾掉,然后只判斷符合URL格式的目標(biāo)網(wǎng)址中,是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址。其中,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址的方法也可以如前述實施例進行,即統(tǒng)計鏈接文本上呈現(xiàn)的文字a出現(xiàn)的總次數(shù)iV(a),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址L,并獲取指向該目標(biāo)網(wǎng)址^的次數(shù)判斷iV(fl人)與AA(fl)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址/符合預(yù)置條件。與圖9中描述的網(wǎng)址導(dǎo)航方法相對應(yīng),本發(fā)明實施例還提供了一種網(wǎng)址導(dǎo)航系統(tǒng),參見圖10,該系統(tǒng)包括接口單元U1001,用于接收用戶輸入的查詢詞,并展示相應(yīng)的目標(biāo)網(wǎng)址;鏈接文本分析單元U1002,用于分析鏈接文本數(shù)據(jù)庫,獲取與所述查詢詞相匹配的鏈接文本上呈現(xiàn)的文字,并獲取呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;判斷單元U1003,用于在所述各目標(biāo)網(wǎng)址中,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;如果存在,將所述符合預(yù)置條件的目標(biāo)網(wǎng)址通過所述接口單元向用戶展示。優(yōu)選的,參見圖11,該系統(tǒng)還可以包括選擇單元U1104,用于選擇符合統(tǒng)一資源定位符URL才各式的目標(biāo)網(wǎng)址,并將所述符合URL才各式的目標(biāo)網(wǎng)址輸入到所述判斷單元。其中,判斷單元U1103可以包括以下子單元統(tǒng)計子單元U11031,用于統(tǒng)計鏈接文本上呈現(xiàn)的文字a出現(xiàn)的總次數(shù)及呈現(xiàn)該文字a的各鏈接文本所指向次數(shù)最多的目標(biāo)網(wǎng)址^,并獲取被指向該目才示網(wǎng)址的次凄tl);計算子單元ui1032,用于判斷iV(。,u與W(。)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址^符合預(yù)置條件。以上對本發(fā)明所提供的一種建立導(dǎo)4元查詢數(shù)據(jù)庫的方法及裝置、一種網(wǎng)址導(dǎo)航的方法及系統(tǒng),進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。權(quán)利要求1.一種建立導(dǎo)航查詢數(shù)據(jù)庫的方法,其特征在于,包括分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;如果存在,保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,建立導(dǎo)航查詢數(shù)據(jù)庫。2、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址之前還包括選捧符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并對所述符合URL格式的目標(biāo)網(wǎng)址進行所述判斷的步驟。3、根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進行驗證,如果-險證通過,則進入所述保存的步驟。4、根據(jù)權(quán)利要求2所述的方法,其特征在于將鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到多個搜索引擎進行搜索,比較各搜索引擎返回的第一位的結(jié)果與所述符合預(yù)置條件的目標(biāo)網(wǎng)址是否一致,如果是,則-驗證通過。5、根據(jù)權(quán)利要求1至4任意一項所述的方法,其特征在于,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址的具體實現(xiàn)包括統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)iV(a),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址^,并獲取指向該目標(biāo)網(wǎng)址^的次itiV(fl人);判斷W(a,U與iV(a)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址^符合預(yù)置條件。6、一種建立導(dǎo)航查詢數(shù)據(jù)庫的裝置,其特征在于,包括鏈接文本分析單元,用于分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;判斷單元,用于對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;數(shù)據(jù)庫建立單元,用于當(dāng)存在符合預(yù)置條件的目標(biāo)網(wǎng)址時,保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,建立導(dǎo)航查詢數(shù)據(jù)庫。7、根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括選擇單元,用于選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并將所述符合URL才各式的目標(biāo)網(wǎng)址輸入到所述判斷單元。8、才艮據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括沖t驗單元,用于對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進行驗證,如果驗證通過,則觸發(fā)所述數(shù)據(jù)庫建立單元執(zhí)行所述保存的操作。9、根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述校驗單元包括發(fā)送子單元,用于將鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到至少一個搜索引擎進行搜索;比較子單元,用于比較各搜索引擎返回的第一位的結(jié)果與所述符合預(yù)置條件的目標(biāo)網(wǎng)址是否一致,如果是,則驗證通過,并觸發(fā)所述數(shù)據(jù)庫建立單元執(zhí)行所述保存的操作。10、根據(jù)權(quán)利要求6至9任意一項所述的裝置,其特征在于,所述判斷單元包括統(tǒng)計子單元,用于統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)iV(fl),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址^,并獲取指向該目標(biāo)網(wǎng)址l的次數(shù)iV(a,c);計算子單元,用于判斷iV"D與iV(a)的比值是否大于預(yù)置閾值,,如果大于,則該目標(biāo)網(wǎng)址^符合預(yù)置條件。11、一種網(wǎng)址導(dǎo)航方法,其特征在于,包括分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;如果存在,保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,建立導(dǎo)航查詢數(shù)據(jù)庫;接收用戶輸入的查詢詞,才企索所述導(dǎo)航查詢數(shù)據(jù)庫,向用戶返回與所述查詢詞相匹配的網(wǎng)址。12、根據(jù)權(quán)利要求11所述的方法,其特征在于,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址之前還包括選捧符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并對所述符合URL格式的目標(biāo)網(wǎng)址進行所述判斷的步驟。13、根據(jù)權(quán)利要求11所述的方法,其特征在于,還包括對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進行驗證,如果—險證通過,則進入所述保存的步驟。14、根據(jù)權(quán)利要求13所述的方法,其特征在于將鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到多個搜索引擎進行搜索,比較各搜索引擎返回的第一位的結(jié)果與所述符合預(yù)置條件的目標(biāo)網(wǎng)址是否一致,如果是,則驗證通過。15、根據(jù)權(quán)利要求11至14任意一項所述的方法,其特征在于,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址的具體實現(xiàn)包括統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)7V("),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址^,并獲取指向該目標(biāo)網(wǎng)址^的次數(shù)iV(a,U;判斷iV("人)與A^)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址^符合預(yù)置條件。16、一種網(wǎng)址導(dǎo)航系統(tǒng),其特征在于,包括鏈接文本分析單元,用于分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本上呈現(xiàn)的文字及呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;判斷單元,用于對于一鏈接文本上呈現(xiàn)的文字,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;導(dǎo)航查詢數(shù)據(jù)庫,用于保存鏈接文本上呈現(xiàn)的文字及所述符合預(yù)置條件的目才示網(wǎng)址的對應(yīng)關(guān)系;4妄口單元,用于4妻收用戶l命入的查詢詞,并展示相應(yīng)的目標(biāo)網(wǎng)址;才企索單元,用于才企索所述導(dǎo)航查詢數(shù)據(jù)庫,向用戶返回與所述查詢詞相匹配的目才示網(wǎng)址。17、根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,還包括選擇單元,用于選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并將所述符合URL格式的目標(biāo)網(wǎng)址輸入到所述判斷單元。18、根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,還包括校驗單元,用于對鏈接文本上呈現(xiàn)的文字及對應(yīng)的所述符合預(yù)置條件的目標(biāo)網(wǎng)址進^f亍一驗證。19、根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述校驗單元包括發(fā)送子單元,用于將鏈接文本上呈現(xiàn)的文字作為查詢詞發(fā)送到多個:l叟索引擎進行搜索;比較子單元,用于比較各搜索引擎返回的第一位的結(jié)果與所述符合預(yù)置條件的目標(biāo)網(wǎng)址是否一致,如果是,則驗證通過。20、根據(jù)權(quán)利要求16至19任意一項所述的裝置,其特征在于,所述判斷單元包括統(tǒng)計子單元,用于統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)iV("),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址/,并獲取指向該目標(biāo)網(wǎng)址^的次數(shù)^);計算子單元,用于判斷iV(a人)與A^)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址^符合預(yù)置條件。21、一種網(wǎng)址導(dǎo)4元方法,其特征在于,包括才妄收用戶輸入的查詢詞;分析鏈接文本數(shù)據(jù)庫,獲取與所述查詢詞相匹配的鏈接文本上呈現(xiàn)的文字,并獲取呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;在所述各目標(biāo)網(wǎng)址中,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;如果存在,向用戶返回所述符合預(yù)置條件的目標(biāo)網(wǎng)址。22、根據(jù)權(quán)利要求21所述的方法,其特征在于,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址之前還包括選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并對所述符合URL格式的目標(biāo)網(wǎng)址進行所述判斷的步驟。23、根據(jù)權(quán)利要求21或22所述的方法,其特征在于,所述判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址的具體實現(xiàn)包括統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)iV(fl),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址^,并獲取指向該目標(biāo)網(wǎng)址^的次數(shù)7V(a,0;判斷7V(a,U與W(")的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址^符合預(yù)置條件。24、一種網(wǎng)址導(dǎo)航系統(tǒng),其特征在于,包括接口單元,用于接收用戶輸入的查詢詞,并展示相應(yīng)的目標(biāo)網(wǎng)址;鏈接文本分析單元,用于分析鏈接文本數(shù)據(jù)庫,獲取與所述查詢詞相匹配的鏈接文本上呈現(xiàn)的文字,并獲取呈現(xiàn)該文字的各鏈接文本所指向的目標(biāo)網(wǎng)址;判斷單元,用于在所述各目標(biāo)網(wǎng)址中,判斷是否存在符合預(yù)置條件的目標(biāo)網(wǎng)址;如果存在,將所述符合預(yù)置條件的目標(biāo)網(wǎng)址通過所述接口單元向用戶展示。25、根據(jù)權(quán)利要求24所述的系統(tǒng),其特征在于,還包括選擇單元,用于選擇符合統(tǒng)一資源定位符URL格式的目標(biāo)網(wǎng)址,并將所述符合URL才各式的目標(biāo)網(wǎng)址輸入到所述判斷單元。26、根據(jù)權(quán)利要求24或25所述的系統(tǒng),其特征在于,所述判斷單元包括統(tǒng)計子單元,用于統(tǒng)計鏈接文本上呈現(xiàn)的文字a在鏈接文本數(shù)據(jù)庫中出現(xiàn)的總次數(shù)7V&),及呈現(xiàn)該文字a的各鏈接文本指向次數(shù)最多的目標(biāo)網(wǎng)址t,,并獲取指向該目標(biāo)網(wǎng)址f的次數(shù)iV(a,^);計算子單元,用于判斷A^人)與A^)的比值是否大于預(yù)置閾值,如果大于,則該目標(biāo)網(wǎng)址c符合預(yù)置條件。全文摘要本發(fā)明公開了一種建立導(dǎo)航查詢數(shù)據(jù)庫的方法,該方法包括分析鏈接文本數(shù)據(jù)庫,獲取鏈接文本及其指向的各目標(biāo)網(wǎng)址;對于一鏈接文本,判斷是否存在指向次數(shù)符合預(yù)置條件的目標(biāo)網(wǎng)址;如果存在,保存鏈接文本及所述符合預(yù)置條件的目標(biāo)網(wǎng)址的對應(yīng)關(guān)系,建立導(dǎo)航查詢數(shù)據(jù)庫。本發(fā)明還公開了一種建立導(dǎo)航查詢數(shù)據(jù)庫的裝置、一種網(wǎng)址導(dǎo)航方法及系統(tǒng)。通過本發(fā)明,可以發(fā)現(xiàn)更大規(guī)模的導(dǎo)航查詢,增大了導(dǎo)航數(shù)據(jù)庫的覆蓋面。同時,由于鏈接文本通常是由網(wǎng)站作者生成的,因此用于導(dǎo)航查詢發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量更高,使獲得的導(dǎo)航查詢更加規(guī)范、噪音較少。文檔編號G06F17/30GK101369286SQ20081022441公開日2009年2月18日申請日期2008年10月14日優(yōu)先權(quán)日2008年10月14日發(fā)明者佟子健,勇王申請人:北京搜狗科技發(fā)展有限公司