亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

為網(wǎng)頁分配關(guān)鍵詞的制作方法

文檔序號:6350040閱讀:238來源:國知局
專利名稱:為網(wǎng)頁分配關(guān)鍵詞的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及網(wǎng)頁分類的領(lǐng)域,更具體地,涉及根據(jù)相關(guān)關(guān)鍵詞進(jìn)行網(wǎng)頁分類。
背景技術(shù)
網(wǎng)頁關(guān)鍵詞分配是網(wǎng)頁分類和搜索的一個重要步驟。關(guān)鍵詞必須具有足夠的代表性,以捕捉包含在頁面中的信息,以及,必須足夠通用且為社會接受,以用于實際使用(例如,根據(jù)用戶提供的搜索關(guān)鍵詞為用戶識別一個相關(guān)網(wǎng)頁)。通常網(wǎng)頁中包含一些由設(shè)計者為其分配的關(guān)鍵詞。例如,關(guān)鍵詞可能在超文本標(biāo)記語言(HTML)標(biāo)簽“title”或元標(biāo)簽“keyword”或“description”下被找到。由于不同的網(wǎng)頁設(shè)計者分配該等關(guān)鍵詞的方式不同且用以服務(wù)的目的不同,該等關(guān)鍵詞在實際使用中并不一定能夠被接受。有多種不同技術(shù)可能用于為網(wǎng)頁分配關(guān)鍵詞。在基于人工智能的技術(shù)中,一種算法分析網(wǎng)頁以獲得該網(wǎng)頁的特點和相應(yīng)地為該網(wǎng)頁分配關(guān)鍵字。該種算法提高了所分析的網(wǎng)頁的數(shù)量。在基于數(shù)據(jù)挖掘的技術(shù)中,一種算法尋找頁面內(nèi)出現(xiàn)的數(shù)據(jù)的趨勢,然后為該頁面識別關(guān)鍵屬性。在基于關(guān)鍵詞密度的技術(shù)中,一種算法對出現(xiàn)在網(wǎng)頁中的詞進(jìn)行分類, 并且基于已獲得的密度函數(shù)為該網(wǎng)頁分配關(guān)鍵詞。該等技術(shù)都是計算密集型的,且由于需要分析網(wǎng)頁內(nèi)容,要求為每個頁面提供大容量存儲空間。此外,頁面內(nèi)容的任何修改將使得對整個頁面再次分析成為必須。進(jìn)一步,由于該等技術(shù)依靠頁面的內(nèi)容,其不適用于為基本無詞的網(wǎng)頁分配關(guān)鍵詞,例如由 JavaScript動態(tài)構(gòu)建的頁面,如谷歌地圖頁面。

發(fā)明內(nèi)容
現(xiàn)有技術(shù)的多種缺陷,被本發(fā)明的、使用關(guān)鍵詞數(shù)據(jù)為網(wǎng)頁分配關(guān)鍵詞的方法、系統(tǒng)及設(shè)備所解決,其中,所述關(guān)鍵詞數(shù)據(jù)從網(wǎng)頁自身、包含指向該網(wǎng)頁的鏈接的網(wǎng)頁,以及, 被在該網(wǎng)頁中的鏈接指向的網(wǎng)頁中獲得,其中,從多個網(wǎng)頁中獲得的該關(guān)鍵詞數(shù)據(jù)被處理, 從而為該網(wǎng)頁提供關(guān)鍵詞數(shù)據(jù)的相關(guān)集合。為網(wǎng)頁分配關(guān)鍵詞的方法的一個實施例包括識別與網(wǎng)頁相關(guān)的自有關(guān)鍵詞,該自有關(guān)鍵詞包括從該網(wǎng)頁中獲得的關(guān)鍵詞數(shù)據(jù);識別與該網(wǎng)頁相關(guān)的內(nèi)鏈關(guān)鍵詞,該內(nèi)鏈關(guān)鍵詞包括從包含鏈接至該網(wǎng)頁的鏈接的其他網(wǎng)頁中獲得的關(guān)鍵詞數(shù)據(jù);識別與該網(wǎng)頁相關(guān)的外鏈關(guān)鍵詞,該外鏈關(guān)鍵詞包括從包含該網(wǎng)頁鏈接至其他網(wǎng)頁的鏈接的所述其他網(wǎng)頁中獲得的關(guān)鍵詞數(shù)據(jù);以及,合并該自有、內(nèi)鏈和外鏈關(guān)鍵詞,以為該網(wǎng)頁形成關(guān)鍵詞集合。 此外,該自有、內(nèi)鏈和外鏈關(guān)鍵詞集合可能會進(jìn)一步被處理,以提供相應(yīng)的有序排序的自有、內(nèi)鏈和外鏈關(guān)鍵詞集合。此外,一個或多個啟發(fā)式函數(shù)可能會被用于確定,在自有、內(nèi)鏈和外鏈關(guān)鍵詞集合中的,每個關(guān)鍵字的相對重要度。


鑒于以下結(jié)合相應(yīng)附圖的詳細(xì)說明,本發(fā)明的教導(dǎo)可以被很容易地理解,其中圖1描繪了一個網(wǎng)絡(luò)化的計算機系統(tǒng)高級框圖,其有助于理解本發(fā)明的實施例;圖2圖示性地描述了被鏈接的網(wǎng)頁之間的關(guān)鍵詞關(guān)系;圖3描繪了根據(jù)一個實施例的用于為網(wǎng)頁分配關(guān)鍵詞的方法流程圖;圖4描繪了一個在網(wǎng)頁中識別合適關(guān)鍵詞的方法流程圖;圖5描繪了一個為與網(wǎng)頁相關(guān)的關(guān)鍵詞排序的方法流程圖;圖6描繪了一個適用于執(zhí)行在此描述的功能的通用目的計算機的高級框圖。為便于理解,在可能的情況下,使用相同的參數(shù)以指定附圖中共用的相同的元素。
具體實施例方式本發(fā)明將主要在用于為特定網(wǎng)頁分配關(guān)鍵詞的方法、系統(tǒng)及設(shè)備的場景中被描述,其中,使用從所述特定網(wǎng)頁、包括指向該特定網(wǎng)頁鏈接的其他網(wǎng)頁,以及,被在所述特定網(wǎng)頁中的鏈接指向的其他網(wǎng)頁的數(shù)據(jù),為特定網(wǎng)頁分配關(guān)鍵詞。多個網(wǎng)頁可能被迭代處理, 以加強相應(yīng)關(guān)鍵字的相關(guān)性。網(wǎng)頁關(guān)鍵詞數(shù)據(jù)庫可能會被生成,在該網(wǎng)頁關(guān)鍵詞數(shù)據(jù)庫中, 與多個網(wǎng)頁,可能所有可用網(wǎng)頁,相關(guān)的關(guān)鍵詞被提供,使得對該關(guān)鍵詞數(shù)據(jù)庫的高速搜索在搜索算法、分類算法及類似算法的場景中被提供。那些本領(lǐng)域的和通過教導(dǎo)而知曉的技術(shù)人員在此將意識到可適用于許多其他應(yīng)用的實施例,例如網(wǎng)頁分類(通過為多個網(wǎng)頁分配關(guān)鍵詞),用戶追蹤(通過檢測被用戶訪問的頁面的關(guān)鍵詞)等。通常,網(wǎng)頁中包含一些由設(shè)計者為其分配的一些關(guān)鍵詞。例如,網(wǎng)頁中的關(guān)鍵詞可能通過檢測HTML標(biāo)簽,如“title”或其他HTML標(biāo)簽,或通過檢測元數(shù)據(jù)標(biāo)簽,如“keyword” 標(biāo)簽或“description”,被找到。多種實施例在迭代的或非迭代方法論的場景中,利用該等關(guān)鍵詞為特定網(wǎng)頁分配關(guān)鍵詞。要注意的是,該等實施例執(zhí)行操作為網(wǎng)頁分配關(guān)鍵詞,即使該網(wǎng)頁或相關(guān)網(wǎng)頁不包括與標(biāo)簽相關(guān)的關(guān)鍵詞。通常來說,根據(jù)該多種實施例的方法、系統(tǒng)和設(shè)備,通過從那個該網(wǎng)頁(在此被表示為“自有”網(wǎng)頁)、那些包含指向該自有網(wǎng)頁(在此被表示為“內(nèi)鏈”網(wǎng)頁)鏈接的網(wǎng)頁、 以及那些被該自有網(wǎng)頁指向的網(wǎng)頁(在此被表示為“外鏈”網(wǎng)頁)中檢索關(guān)鍵詞,來為特定網(wǎng)頁分配關(guān)鍵詞。圖1描繪了一個網(wǎng)絡(luò)化的計算機系統(tǒng)高級框圖,其有助于理解當(dāng)前實施例。具體地,多個網(wǎng)絡(luò)元素或節(jié)點110以標(biāo)準(zhǔn)方式被相互連接從而形成網(wǎng)絡(luò)120,例如互聯(lián)網(wǎng)。該等多種網(wǎng)絡(luò)元素或節(jié)點包含附有多種支持對網(wǎng)頁、流媒體等進(jìn)行通用或統(tǒng)一尋址協(xié)議的硬件和軟件組件。在本發(fā)明的場景中,討論將限于使用超文本標(biāo)記語言(HTML)、可擴展標(biāo)記語言(XML)、統(tǒng)一資源定位符(URL)和其他為那些熟悉萬維網(wǎng)的技術(shù)人員所熟悉的標(biāo)準(zhǔn)化協(xié)議的網(wǎng)頁。為了這次說明的目的,將會假定每個網(wǎng)絡(luò)元素或節(jié)點110包括一個通用目的計算機,但是特殊目的計算機和/或其他設(shè)備(例如,路由器、網(wǎng)橋、交換機及相似設(shè)備)也可能在多種實施例的場景中被使用。該通用目的計算機操作細(xì)節(jié)的說明在此僅簡要描述。在網(wǎng)絡(luò)120中,每個通用目的計算機110與一個或多個其他通用目的計算機110通信。一個或多個通用目的計算機110執(zhí)行軟件指令,該等指令的執(zhí)行使在此就該等多種實施例被說明的方法論、系統(tǒng)和技術(shù)生效。
通用目的計算機110被描繪為包括處理器111、輸入輸出接口 117和存儲器112。 處理器111分別與存儲器112和輸入輸出接口 117相互連接。輸入輸出接口 117適用于輔助與其他節(jié)點或網(wǎng)絡(luò)元素在網(wǎng)絡(luò)120中的通信。通用目的計算機110的存儲器112被描述為包括與應(yīng)用113相關(guān)的數(shù)據(jù)及與網(wǎng)頁 114相關(guān)的數(shù)據(jù)。應(yīng)該指出的是,雖然只有一個網(wǎng)頁被描述,多個網(wǎng)頁的實例能夠在通用目的計算機110的存儲器114中被支持。此外,應(yīng)該指出的是,網(wǎng)頁在通用目的計算機110的存儲器中的存在不是實施該多種實施例的必要條件。應(yīng)用113包括軟件指令,當(dāng)其被處理器111執(zhí)行時,執(zhí)行在此就該等多種實施例被說明到的多種步驟。網(wǎng)頁114被描述成包括內(nèi)容C、元數(shù)據(jù)MD、描述D和鏈接L。內(nèi)容C可能包括任何文本、圖片或其他內(nèi)容數(shù)據(jù)。元數(shù)據(jù)MD和描述D可能包括任何標(biāo)準(zhǔn)或非標(biāo)準(zhǔn)的與該網(wǎng)頁有關(guān)的信息,例如,在此被討論到的多種實施例。鏈接L包括,例示地,指向其他網(wǎng)頁的URL或其他類型的鏈接。服務(wù)提供節(jié)點130被描述為包含處理器131,輸入-輸出接口 137和存儲器132。 處理器131分別與存儲器132和輸入-輸出接口 137相互連接。輸入-輸出接口 137適用于輔助與其他節(jié)點或網(wǎng)絡(luò)元素在網(wǎng)絡(luò)120中的通信,例如上述通用目的計算機110。該服務(wù)提供節(jié)點包括,例示地,支持通過網(wǎng)絡(luò)120與多個節(jié)點通信的服務(wù)器和/或管理功能的節(jié)點。通常來說,任何服務(wù)器、客戶端或其它設(shè)備都能執(zhí)行在此被描述到的該等多種實施例的多種功能。而且,多個服務(wù)器、客戶端和/或其他設(shè)備可能并行工作從而更快地執(zhí)行該等各種功能。例如,一個裝置可能適用于更新內(nèi)鏈列表,而另一個裝置適用于更新外鏈列表。當(dāng)待處理的網(wǎng)頁數(shù)量增加時,額外的服務(wù)器可能被調(diào)用來用于更新任一列表。服務(wù)提供節(jié)點130的存儲器132被描述為包括與應(yīng)用133相關(guān)的數(shù)據(jù)和與關(guān)鍵詞存儲數(shù)據(jù)庫139相關(guān)的數(shù)據(jù)。應(yīng)用133包括軟件指令,當(dāng)其被處理器111執(zhí)行時,該軟件指令執(zhí)行在此就該等多種實施例被說明的該等多種步驟。所述關(guān)鍵詞存儲數(shù)據(jù)庫139包括存儲了與一個或多個網(wǎng)頁相關(guān)的關(guān)鍵詞數(shù)據(jù)的數(shù)據(jù)庫。關(guān)鍵詞存儲數(shù)據(jù)庫139被描述為例示服務(wù)提供節(jié)點130的一個組成部分。然而,本領(lǐng)域技術(shù)人員應(yīng)能理解,關(guān)鍵詞存儲數(shù)據(jù)庫 139就處理線路(例如服務(wù)提供節(jié)點130)而言,可能是一個與該等多種實施例統(tǒng)一運行的遠(yuǎn)程數(shù)據(jù)庫。在一個實施例中,擴展數(shù)據(jù)庫140被提供以用于存儲與網(wǎng)頁相關(guān)的關(guān)鍵詞信肩、ο通常來說,在此就該等多種實施例被描述的方法,在服務(wù)提供節(jié)點132提取與網(wǎng)絡(luò)120中部分或(理想的)全部節(jié)點110中的網(wǎng)頁相關(guān)的關(guān)鍵詞數(shù)據(jù)中,被執(zhí)行。因此,在多種實施例中,關(guān)鍵詞存儲數(shù)據(jù)庫139和/或數(shù)據(jù)庫140被用于存儲與每個網(wǎng)頁114相關(guān)的關(guān)鍵詞數(shù)據(jù),網(wǎng)頁114被網(wǎng)絡(luò)120中的多個節(jié)點110支持或寄宿于其中。同樣地,在一個包括網(wǎng)絡(luò)管理系統(tǒng)(NMS)、網(wǎng)絡(luò)實施系統(tǒng)、服務(wù)提供節(jié)點或其他網(wǎng)絡(luò)或管理元素的實施例中執(zhí)行軟件,以計算以下就多種實施例中被說明的多種參數(shù)。在此就多方面的附圖,討論該等實施例的硬件/軟件元素支持。圖2圖示性地描述了被鏈接的網(wǎng)頁之間的關(guān)鍵詞關(guān)系。具體地,圖2圖示性地描述了自有網(wǎng)頁210、多個內(nèi)鏈網(wǎng)頁22(^220^22(^等直至220n(所有內(nèi)鏈網(wǎng)頁表示為220), 及多個外鏈網(wǎng)頁23(^23(^23(^等直至230n(所有外鏈網(wǎng)頁表示為230)。自有網(wǎng)頁210包括被處理以確定關(guān)鍵詞分配的網(wǎng)頁。內(nèi)鏈網(wǎng)頁220包括包含鏈接的網(wǎng)頁,該鏈接例如為超文本標(biāo)記語言(HTML)、可擴展標(biāo)記語言(XML)、超文本引用(href) 或其他鏈接或指向該自有頁面、尋址該自有頁面或?qū)⒂脩糁囟ㄏ蛑猎撟杂许撁娴膶ぶ窓C制。外鏈網(wǎng)頁230包括在該自有網(wǎng)頁中被指向的,或者,被HTML、XML、href或其他鏈接或?qū)ぶ窓C制尋址的那些網(wǎng)頁。自有網(wǎng)頁210可能有與之相關(guān)的一個或多個相應(yīng)關(guān)鍵詞,或沒有與之相關(guān)的相應(yīng)關(guān)鍵詞。在圖2的描述中,自有頁面210有與之相關(guān)的一個關(guān)鍵詞的相應(yīng)集合Dd]。頁面關(guān)鍵詞集合有與之相關(guān)的一個相應(yīng)權(quán)重,被描述為權(quán)重《0。每個內(nèi)鏈網(wǎng)頁220可能有與之相關(guān)的一個或多個相應(yīng)關(guān)鍵詞,或沒有與之相關(guān)的相應(yīng)關(guān)鍵詞。例如,內(nèi)鏈網(wǎng)頁22(^有與之相關(guān)的相應(yīng)關(guān)鍵詞集合&1,k2,...],內(nèi)鏈網(wǎng)頁 2202有與之相關(guān)的相應(yīng)關(guān)鍵詞集合&3,k4,...],內(nèi)鏈網(wǎng)頁2203有與之相關(guān)的相應(yīng)關(guān)鍵詞集合&2,k4,...],及內(nèi)鏈網(wǎng)頁220n有與之相關(guān)的相應(yīng)關(guān)鍵詞集合,該關(guān)鍵詞集合包括一個空集合(例如,無關(guān)鍵詞)。每個內(nèi)鏈網(wǎng)頁關(guān)鍵詞集合有與之相關(guān)的相應(yīng)權(quán)重w,被描述為從權(quán)重wl至wn。每個外鏈網(wǎng)頁230可能有與之相關(guān)的一個或多個相應(yīng)關(guān)鍵詞,或沒有與之相關(guān)的相應(yīng)關(guān)鍵詞。例如,外鏈網(wǎng)頁23(^有與之相關(guān)的相應(yīng)關(guān)鍵詞集合&1,k2,...],外鏈網(wǎng)頁 2302有與之相關(guān)的相應(yīng)空關(guān)鍵詞集合□,外鏈網(wǎng)頁2303有與之相關(guān)的相應(yīng)關(guān)鍵詞集合&2, k4,...],及外鏈網(wǎng)頁MOn有與之相關(guān)的相應(yīng)關(guān)鍵詞集合[kl, k3,···]。每個外鏈網(wǎng)頁關(guān)鍵詞集合有與之相關(guān)的相應(yīng)權(quán)重《,被描述為權(quán)重w5至w8。為生成被分配給自有網(wǎng)頁210的關(guān)鍵詞集合,源自有網(wǎng)頁關(guān)鍵詞、內(nèi)鏈網(wǎng)頁關(guān)鍵詞和外鏈網(wǎng)頁關(guān)鍵詞根據(jù)多種實施例被收集及處理,從而生成,例如,與該自有節(jié)點相關(guān)的關(guān)鍵詞的有序排序。對關(guān)鍵詞的該等收集及處理可能會針對多個自有節(jié)點中(例如內(nèi)鏈節(jié)點或外鏈節(jié)點)的每個節(jié)點來被迭代執(zhí)行,以使得該等額外的節(jié)點也相應(yīng)包含按照有序排序排列的、被收集的/被處理的關(guān)鍵詞。該方法論可能包括一個連續(xù)處理過程,其中,與任何特定自有節(jié)點相關(guān)的關(guān)鍵詞或有序排序關(guān)鍵詞,根據(jù)與該自有節(jié)點的相關(guān)度進(jìn)行不斷地改變和/或改進(jìn)。例如,幾乎可以肯定,與任何特定自有網(wǎng)頁相關(guān)的內(nèi)鏈網(wǎng)頁會因為更多 (或更少)網(wǎng)頁指向該特定自有網(wǎng)頁,而隨時間改變。所以,在多個實施例中,在此提出的該方法論提供了典型的為網(wǎng)頁分配關(guān)鍵詞集合方案,其中,該網(wǎng)頁被分配的關(guān)鍵詞集合可能會被不斷地改進(jìn)和擴展。通常來說,網(wǎng)頁一般包含內(nèi)容和非內(nèi)容部分。該內(nèi)容或非內(nèi)容部分兩者中的任意一個,在本發(fā)明實施例的場景中,可能包含適用于作為關(guān)鍵詞的文本。在被降低復(fù)雜性的實施例中(例如,利用更少計算資源的那些實施例),僅被包含在網(wǎng)頁的非內(nèi)容部分的文本是被包含在關(guān)鍵詞集合中的。在更復(fù)雜的實施例中(例如,更少涉及計算資源需求的那些實施例),被包含在網(wǎng)頁的內(nèi)容部分的文本可能也被包含在與該網(wǎng)頁相關(guān)的關(guān)鍵詞集合中。圖3描繪了根據(jù)一個實施例的用于為網(wǎng)頁分配關(guān)鍵詞的方法流程圖。具體地,圖3 中的方法300適用于生成與一個或多個自有網(wǎng)頁相關(guān)的關(guān)鍵詞集合。當(dāng)被需要時,圖3中的方法300可能會根據(jù)需要,為一個或多個網(wǎng)頁而被重復(fù)執(zhí)行。在步驟310中,自有網(wǎng)頁關(guān)鍵詞被識別。即,被處理以用于關(guān)鍵詞分配的網(wǎng)頁中的關(guān)鍵詞被識別。在步驟320中,內(nèi)鏈網(wǎng)頁關(guān)鍵詞被識別。即,包含指向被處理以用于關(guān)鍵詞分配的網(wǎng)頁的鏈接的網(wǎng)頁中的關(guān)鍵詞被識別。參照方框325,內(nèi)鏈頁面的列表被有選擇地更新。所述更新可包含觸發(fā)搜索引擎、網(wǎng)絡(luò)爬蟲或其他機制以識別那些包含指向被處理的網(wǎng)頁的鏈接的網(wǎng)頁。例如,假設(shè)一個被表示為www. example, com的自有網(wǎng)頁將被處理,通過爬取網(wǎng)絡(luò)或采用搜索詞“l(fā)ink:WWW. example, com”并利用諸如雅虎或谷歌等搜索引擎,所有指向該自有網(wǎng)頁的網(wǎng)頁列表將被生成。該網(wǎng)頁的結(jié)果列表(被表示為內(nèi)鏈列表)提供了與能夠由其中重新獲得關(guān)于自有網(wǎng)頁的內(nèi)鏈關(guān)鍵詞數(shù)據(jù)的網(wǎng)頁相關(guān)的地址/識別信息。在一個實施例中,在該內(nèi)鏈列表中的內(nèi)鏈網(wǎng)頁是根據(jù)強度、相關(guān)度或其他排序范式有序排列的。在進(jìn)一步的實施例中,僅來自預(yù)定義數(shù)量的已排序內(nèi)鏈網(wǎng)頁中的關(guān)鍵詞被用于提供關(guān)鍵詞。在步驟330中,外鏈頁面關(guān)鍵詞被識別。即,被包含在被處理以用于關(guān)鍵詞分配的網(wǎng)頁中的鏈接指向的網(wǎng)頁中的關(guān)鍵詞被識別。外鏈列表可能通過分析該自有頁面的源文件 (例如,www. example, com)和搜集該頁面內(nèi)的超文本引用(href)數(shù)據(jù)而被獲得,盡管與圖像頁面相關(guān)的超文本引用數(shù)據(jù)可能會由于該圖像頁面可能沒有任何有用文本內(nèi)容,而在該外鏈列表中被忽略。參照方框335,外鏈頁面的列表(被表示為外鏈列表)被選擇性地更新。 所述更新可能包含檢查該自有網(wǎng)頁,從而判定是否有任何對外鏈的更改/更新發(fā)生。該外鏈列表提供了與能夠由其中重新獲得關(guān)于自有網(wǎng)頁的外鏈關(guān)鍵詞數(shù)據(jù)的網(wǎng)頁相關(guān)的尋址/ 識別信息。在一個實施例中,內(nèi)鏈列表和外鏈列表中每個被鑒定的頁面被處理,以形成用于陳列的相應(yīng)關(guān)鍵詞集合,例如,前述說明的、在圖2中圖示性地描繪的互相鏈接的網(wǎng)頁之間的關(guān)鍵詞關(guān)系。識別關(guān)鍵詞的實施例,其適用于在步驟310、320和330中使用,以下參照圖4對該實施例進(jìn)行詳細(xì)說明。在步驟340中,為被識別的關(guān)鍵詞分配權(quán)重。多種權(quán)重技術(shù)可能會在本發(fā)明的場景中被使用。在一個實施例中,每個關(guān)鍵詞被分配相同的權(quán)重。在另一個實施例中,關(guān)鍵詞的權(quán)重響應(yīng)該關(guān)鍵詞來源網(wǎng)頁的重要度來被改變。其他權(quán)重方案將會在以下被詳細(xì)描述。 在另一個實施例中,關(guān)鍵詞權(quán)重基于鏈接至網(wǎng)頁(例如,自有、內(nèi)鏈、外鏈)的關(guān)鍵詞鏈接, 其中,不同鏈接可能與相同或不同的權(quán)重相關(guān)。在步驟350中,加權(quán)的關(guān)鍵詞集合為自有網(wǎng)頁而被形成。即,將與該自有網(wǎng)頁相關(guān)的加權(quán)的關(guān)鍵詞集合,利用來自所述自有頁面、內(nèi)鏈頁面和外鏈頁面的加權(quán)關(guān)鍵詞,被形成。在步驟360中,與自有網(wǎng)頁相關(guān)的已加權(quán)關(guān)鍵詞集合按照要求被存儲和/或被處理。參照方框365,步驟360可能包括更新數(shù)據(jù)庫、為應(yīng)用提供數(shù)據(jù)、形成有序排序的關(guān)鍵詞和/或其他處理/存儲操作。在以下參照圖5描述的一個實施例中,網(wǎng)頁的有序排序的關(guān)鍵詞,利用計數(shù)、唯一計數(shù)(Unique Count)和加權(quán)唯一計數(shù)啟發(fā)式函數(shù)(Weighted Unique Count heuristic functions)生成。該有序排序的關(guān)鍵詞的一個子集(例如,排序前M位的關(guān)鍵詞)接著被分配給該自有網(wǎng)頁。其他函數(shù)可能也能夠在多種實施例的場景中被采用。在步驟370中,需要作為自有頁面來被處理的下一頁面被選擇,且對于被選擇的新的自有網(wǎng)頁,方法300被重復(fù)執(zhí)行。圖4描繪了一個在網(wǎng)頁中識別合適關(guān)鍵詞的方法流程圖。具體地,圖4的方法400適用于在圖3所示方法300的步驟310、320和330中使用。應(yīng)當(dāng)注意的是,雖然在此被說明的實施例描繪了在特定順序中產(chǎn)生的多種啟發(fā)式函數(shù)的應(yīng)用,更多或更少的啟發(fā)式函數(shù)可能被調(diào)用,被調(diào)用的該啟發(fā)式函數(shù)的特定順序可能被改變,且對識別方法的其它更改能夠?qū)崿F(xiàn)。方法400起始于步驟410,其中,與網(wǎng)頁相關(guān)的預(yù)定義關(guān)鍵詞被識別。參照方框 415,該等預(yù)定義關(guān)鍵詞可能包含位于標(biāo)題(title)字段、方法關(guān)鍵詞(method keyword)字段、元描述(meta-description)字段和在該網(wǎng)頁中被處理的其他字段或標(biāo)簽中的信息。如前所述,在多種實施例的場景中,來自于網(wǎng)頁的內(nèi)容和非內(nèi)容部分中的一者或兩者的、基于文本的數(shù)據(jù)被選擇性地用于提供關(guān)鍵詞數(shù)據(jù)。在步驟420中,潛在關(guān)鍵詞短語被提取。一個關(guān)鍵詞短語包含了能夠作為關(guān)鍵詞操作的多個相鄰的詞。若潛在關(guān)鍵詞短語的成分關(guān)鍵詞(component keywords)是可定義的,或在某些程度上有意義,那么,關(guān)鍵字成分形成了一個有效的關(guān)鍵詞短語。如果潛在關(guān)鍵詞短語的成分關(guān)鍵詞是不可定義的,或在關(guān)鍵詞短語的場景中是無效的,那么,成分關(guān)鍵詞不會形成有效的關(guān)鍵詞短語。參照方框425,關(guān)鍵詞短語可能包括被描繪的短語,其中一個或多個詞被逗號、標(biāo)簽、分號、空白、空格或劃線分隔。在一個實施例中,其中,潛在關(guān)鍵詞短語的成分關(guān)鍵詞被第一分隔標(biāo)識 (delineator)(例如,空格或空白)分隔,潛在關(guān)鍵詞短語群組被建立,其中,每個群組包括 N個相鄰的關(guān)鍵詞,其中,N包括一個大于一的整數(shù)。在該步驟中,多于一個大小的N可能被使用。因此,第一潛在關(guān)鍵詞短語群組可能通過將相鄰成分關(guān)鍵詞中的每一對合并,生成相應(yīng)的潛在關(guān)鍵詞短語(例如,N = 2)。同樣地,第二潛在關(guān)鍵詞短語群組可能通過將每三個相鄰成分關(guān)鍵詞合并,生成相應(yīng)的潛在關(guān)鍵詞短語(例如,N = 3)。在一個實施例中,其中,潛在關(guān)鍵詞短語的成分關(guān)鍵詞通過第二分隔標(biāo)識(例如, 逗號)被分隔,在第二分隔標(biāo)識的任何兩個實體之間的潛在關(guān)鍵詞被同時定義為一個潛在關(guān)鍵詞短語。在該實施例的細(xì)化中,在兩個第二分隔標(biāo)識之間的成分關(guān)鍵詞被處理以形成一個或多個潛在關(guān)鍵詞短語群組,其中,每個群組包括如上所述的長度為N的關(guān)鍵詞短語。在步驟430中,在步驟420中被提取的該潛在關(guān)鍵詞短語被評估以形成包括只有有效的關(guān)鍵詞和關(guān)鍵詞短語的關(guān)鍵詞列表。參照方框435,該評估可能通過利用參照函數(shù)或網(wǎng)頁,例如由維基百科提供的網(wǎng)頁、字典或語法修正提供器、第三方評估器、關(guān)鍵詞或關(guān)鍵詞短語數(shù)據(jù)庫等,被執(zhí)行。即,拼寫引擎、語法引擎和搜索引擎中的任一個可能被用于確定潛在獨特關(guān)鍵詞(unique keyword)是否代表有效的短語。該引擎或軟件能夠?qū)崿F(xiàn)的功能可能來自第三方、獨立的應(yīng)用等。步驟430針對于確定特定關(guān)鍵詞短語是否適用于在多種實施例的場景中作為關(guān)鍵詞來使用。無意義地、錯誤的和/或不允許的或不被贊成的關(guān)鍵詞和關(guān)鍵詞短語通常在網(wǎng)頁描述的場景中是無用的。作為一個實施例,如果N = 3且在步驟420中被提取的三個成分關(guān)鍵詞次形成潛在關(guān)鍵詞短語“new york times”、在維基百科中對序列“new york times”的搜索將會指出關(guān)鍵詞短語“new york times”是有效的。在步驟440中,任何停用詞和多余詞從關(guān)鍵詞列表中被去除。停用詞為作為關(guān)鍵詞不怎么有用的詞和/或短語,例如通用連接詞、介詞等。停用詞列表可能包括以下“一個 (a)、關(guān)于、以上、橫穿、之后、然后、再次、反對、全部、幾乎、單獨、沿著、已經(jīng)、也、雖然、總是,是(am)、其中、之中、在之中、相當(dāng)于、安培、一個(an)、和、另一個、任何、無論如何、任何人、 任何事情、無論怎樣、任何地方、是(are)、周圍、如、在、后面的、是(be)、變得、因為、變得、 變得、變得、是、之前、事先、之后,是(being)、之下、旁邊、除了、之間、超越、入賬、兩者都、 底部、但是、通過、打電話、可以、不可以、不可以、合、電腦、以、可以、不可以、哭、反、描述、細(xì)節(jié)、做、已經(jīng)做、下、由于、期間、每個、例如、八、要么、十一、否則、在別處、空、足夠、等等、甚至、曾今、每一個、每個人,一切”等。多個停用詞可能在短語場景中具有相關(guān)性,例如,如果其形成相關(guān)短語的一部分,則該等停用詞不會被去除。在步驟450中,與網(wǎng)頁相關(guān)的被識別關(guān)鍵詞列表被提供,例如,觸發(fā)圖4中方法400 的操作的方法步驟(例如,圖3中的方法300的步驟310、320或330)。圖5描繪了一個為與網(wǎng)頁相關(guān)的關(guān)鍵詞排序的方法流程圖。具體地,圖5中的方法550適用于在圖3中的方法300的步驟360/365中使用。方法550預(yù)定利用一個或多個計數(shù)、唯一計數(shù)和/或加權(quán)唯一計數(shù)啟發(fā)式函數(shù),生成在與網(wǎng)頁相關(guān)的關(guān)鍵詞列表中的M個最顯著關(guān)鍵詞的關(guān)鍵詞列表。其他啟發(fā)式函數(shù)在多種實施例的場景中可能也被利用。當(dāng)在此所描述的、作為處理相同的關(guān)鍵詞數(shù)據(jù)集合的多種啟發(fā)式函數(shù)被提出時,應(yīng)該注意的是, 其他函數(shù)可能被使用以對被減少的或其他被處理的關(guān)鍵詞數(shù)據(jù)集合進(jìn)行操作。以下符號被使用n(i, j)為在與節(jié)點j相關(guān)的文檔中的關(guān)鍵詞ki出現(xiàn)的數(shù)量。u(i,j)被設(shè)置為1,如果關(guān)鍵詞ki出現(xiàn)在與節(jié)點j相關(guān)的文檔中;否則,其被設(shè)置為0。wj 是在自有頁面和節(jié)點j之間的鏈接的權(quán)重。當(dāng)關(guān)鍵詞列表被接收到時(即,在圖3方法300的步驟360中,列表被提供),方法 500進(jìn)入步驟510。在可選步驟520中,計數(shù)函數(shù)被應(yīng)用于每個關(guān)鍵詞。參照方框525,計數(shù)函數(shù)C被下述關(guān)系所定義C(i, j) = n(i, j)D在可選步驟530中,唯一計數(shù)函數(shù)被應(yīng)用于每個關(guān)鍵詞。參照方框535,唯一計數(shù)函數(shù)UC被下述關(guān)系所定義UC(i, j) = u(i, j)在可選步驟MO中,加權(quán)唯一計數(shù)函數(shù)被應(yīng)用于每個關(guān)鍵詞。參照方框M5,該加權(quán)唯一計數(shù)函數(shù)UC被下述關(guān)系所定義WUC (i,j) = wj*u (i,j)。在步驟550中,對每個關(guān)鍵詞ki,使用計數(shù)、唯一計數(shù)和/或加權(quán)唯一計數(shù)啟發(fā)式函數(shù),執(zhí)行計算以獲得分?jǐn)?shù)。在步驟560中,排序前M位的關(guān)鍵詞被選擇,以作為與一個被處理的網(wǎng)頁(例如, 一個自有網(wǎng)頁)相關(guān)的關(guān)鍵詞集合的成員。也就是說,接著,關(guān)鍵詞集合基于關(guān)鍵詞分?jǐn)?shù)被分類,同時,排序前M位的關(guān)鍵詞被選擇,以作為自有節(jié)點的代表性關(guān)鍵詞集合。在可選步驟570中,對關(guān)鍵詞的排序,在前M位關(guān)鍵詞ki中,利用(參照方框575) 總和(Sum)、最大(Max)、投票(Vote)函數(shù)和/或其他綜合計分函數(shù)中的一個或多個,來進(jìn)一步修正。通常來說,該等和/或其他綜合計分函數(shù)或啟發(fā)式函數(shù)可能被應(yīng)用于由一個或多個啟發(fā)式函數(shù)處理的初始關(guān)鍵詞集合或關(guān)鍵詞集合。該總和、最大和投票綜合計分函數(shù)為已排序關(guān)鍵詞集合,通過如下啟發(fā)式函數(shù)排序處理,提供了額外的排序調(diào)整Sum(i) = rank (score (i, C)) +rank (score (i, UC));Max(i) = max (rank (score (i, C)), rank (score (i, UC)));禾口Vote (i) = majority vote of score (i,C) and score (i,UC)。在一個實施例中,上述說明的綜合計分函數(shù)為函數(shù)“SCOre(i,h)”使用如下公式
score(i, h) = a · h(i, self) + β · ^ h(i, j) + χ · Y4KiJ)
d嚴(yán) Minksdj ^outHnks其中,在考量中,i代表關(guān)鍵詞,h是啟發(fā)式函數(shù),a是為自有節(jié)點分配的權(quán)重(其可能與如上說明的相同或不同),β是為內(nèi)鏈相關(guān)關(guān)鍵詞分配的權(quán)重,X是為外鏈相關(guān)關(guān)鍵詞分配的權(quán)重,且h(i,j)是與節(jié)點j相關(guān)的文檔中的關(guān)鍵詞i的啟發(fā)式函數(shù)結(jié)果。要注意的是,該公式預(yù)期為所有自有節(jié)點相關(guān)關(guān)鍵詞分配第一權(quán)重a,為所有內(nèi)鏈相關(guān)關(guān)鍵詞分配第二權(quán)重β,且為所有外鏈關(guān)鍵詞分配第三權(quán)重X。然而,該公式可能會被更改,以使在自有、內(nèi)鏈和/或外鏈關(guān)鍵詞集合中的不同關(guān)鍵詞可能被分配不同權(quán)重值。在一個實施例中,在相應(yīng)的關(guān)鍵詞集合的場景中,關(guān)鍵詞的相對重要度或相對值利用啟發(fā)式函數(shù)中的一個或多個來確定。因此,示出較大的計數(shù)C、唯一計數(shù)UC和/或加權(quán)唯一計數(shù)WUC的關(guān)鍵詞,可能被視為其價值是比其他關(guān)鍵詞相對更加重要的。在一個實施例中,為關(guān)鍵詞分配的權(quán)重包括與在自有、內(nèi)鏈和外鏈關(guān)鍵詞集合的每個集合中的該關(guān)鍵詞相關(guān)的啟發(fā)法總和。例如,如果詞“汽車”在自有頁面中出現(xiàn)5次, 在內(nèi)鏈頁面中出現(xiàn)10次且在外鏈頁面中出現(xiàn)1次,則“汽車”被分配的權(quán)重為16(即, 5+10+1)。圖6描繪了一個適用于執(zhí)行在此描述的功能的通用目的計算機的高級框圖。如圖6中所描繪的,系統(tǒng)600包含處理器元素602(例如,中央處理單元(CPU)),存儲器604, 例如隨機存取存儲器(RAM)和/或只讀存儲器(R0M),描述符號管理模塊(descriptor management module) 605,和多種輸入/輸出設(shè)備606 (例如,存儲設(shè)備,包括但不限制于,磁帶驅(qū)動器,軟盤驅(qū)動器,硬盤驅(qū)動器或光盤驅(qū)動器,接收器,發(fā)射器,揚聲器,顯示器,輸出端口,和用戶輸入設(shè)備(例如,鍵盤,小型鍵盤,鼠標(biāo)及類似設(shè)備))。要注意的是,本發(fā)明可能會在軟件和/或軟件與硬件的組合體中被實施,例如,使用專用集成電路(ASIC),通用目的計算機或任何其他類似硬件設(shè)備。在一個實施例中,現(xiàn)有描述符號管理程序605可以被加載到存儲器604中,并被處理器602執(zhí)行以實現(xiàn)上文所述功能。同樣地,本發(fā)明的描述符號管理程序605(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲到計算機可讀媒介或載體中,例如,RAM存儲器,磁或光驅(qū)動器或軟磁盤及類似設(shè)備。在此作為軟件方法被說明的一些步驟被預(yù)期能夠在硬件中實現(xiàn),例如,作為與處理器配合從而執(zhí)行各種方法步驟的電路。本發(fā)明的一部分可能被應(yīng)用以作為計算機程序產(chǎn)品,其中,計算機指令,當(dāng)其被計算機處理時,適應(yīng)該計算機的操作,從而使本發(fā)明的方法和 /或技術(shù)被調(diào)用或被提供。調(diào)用本發(fā)明的方法的指令,可能被存儲在固定的或可移動的媒介中,通過廣播或其他信號承載媒質(zhì)中的數(shù)據(jù)流被傳輸,和/或被存儲在根據(jù)該指令運行的計算設(shè)備的工作存儲器中。因此,一個實施例包括一個裝置,該裝置包括用于儲存軟件指令的存儲器和用于執(zhí)行軟件指令的處理器,其中,當(dāng)該軟件指令被該處理器執(zhí)行時,觸發(fā)該裝置運行基于在此說明的多個實施例的、為網(wǎng)頁分配關(guān)鍵詞的方法。如在此所述的,為網(wǎng)頁分配關(guān)鍵詞是一個非常重要的問題,在用戶配置文件生成、 網(wǎng)址分類和過濾(如WebSense),搜索引擎(如谷歌),關(guān)鍵詞搜索(如AcKense)等的場景中尋找適用性。上述實施例為關(guān)鍵詞分配提供了新的方法、系統(tǒng)和設(shè)備,所述關(guān)鍵詞分配利用與多個網(wǎng)頁相關(guān)的數(shù)據(jù)、元數(shù)據(jù)等,從而為網(wǎng)頁分配了一個典型的關(guān)鍵詞集合。有利地,當(dāng)僅僅頁面的元數(shù)據(jù)被分析而其內(nèi)容被忽略時,該等實施例提供了一個相對輕量級權(quán)重(計算高效及存儲高效)的方法。由于關(guān)鍵詞不僅是從自有頁面中獲得,而且也從其“鄰居”頁面中獲得,因此本技術(shù)是可靠的。計算有效地實施例例如,根據(jù)本發(fā)明的一個實施例,凱利藍(lán)皮書(Kelley Blue Book )汽車評估網(wǎng)站頁面(www. kbb. com)被評估,從而生成了在下述表格1中以表格形式提供的關(guān)鍵詞分配數(shù)據(jù)。具體地,根據(jù)參照圖3-5的實施例來被處理的前10位(如,M = 10)的關(guān)鍵詞,參照下述表格1被提供。被多個處理過程使用的原始數(shù)據(jù)也在下述表格中被提供。在示例中使用的參數(shù)如下所示URL :www. kbb. com。權(quán)重自有=10 ;外鏈=2 ;內(nèi)鏈=1。內(nèi)鏈源雅虎(其也可為谷歌、必應(yīng)(Bing)、服務(wù)提供商的爬蟲和/或其他搜索引擎或爬蟲)。排序結(jié)果的前10位關(guān)鍵詞(在本示例中超過239個),參照下表1被提供。
權(quán)利要求
1.一種為網(wǎng)頁分配關(guān)鍵詞的方法,包括識別與所述網(wǎng)頁相關(guān)的自有關(guān)鍵詞,所述自有關(guān)鍵詞包括從所述網(wǎng)頁中獲得的關(guān)鍵詞數(shù)據(jù);識別與所述網(wǎng)頁相關(guān)的內(nèi)鏈關(guān)鍵詞,所述內(nèi)鏈關(guān)鍵詞包括從包含鏈接至所述網(wǎng)頁的鏈接的其他網(wǎng)頁中獲得的關(guān)鍵詞數(shù)據(jù);識別與所述網(wǎng)頁相關(guān)的外鏈關(guān)鍵詞,所述外鏈關(guān)鍵詞包括從包含所述網(wǎng)頁鏈接至其他網(wǎng)頁的鏈接的所述其他網(wǎng)頁中獲得的關(guān)鍵詞數(shù)據(jù);以及合并所述自有、內(nèi)鏈和外鏈關(guān)鍵詞,以為所述網(wǎng)頁形成關(guān)鍵詞集合。
2.權(quán)利要求1的所述方法,還包括處理所述自有、內(nèi)鏈和外鏈關(guān)鍵詞集合,以提供所述自有、內(nèi)鏈和外鏈關(guān)鍵詞相應(yīng)的有序排序集合。
3.權(quán)利要求2的所述方法,還包括利用一個或多個啟發(fā)式函數(shù),確定所述自有、內(nèi)鏈和外鏈關(guān)鍵詞集合中每個關(guān)鍵詞的相對重要度。
4.權(quán)利要求2的所述方法,還包括為所述自有、內(nèi)鏈及外鏈關(guān)鍵詞分配權(quán)重;其中,所述合并步驟包括根據(jù)所述關(guān)鍵詞權(quán)重來合并所述自有、內(nèi)鏈及外鏈關(guān)鍵詞。
5.權(quán)利要求1的所述方法,其中,被識別的關(guān)鍵詞數(shù)據(jù)包括來自標(biāo)題字段、元關(guān)鍵詞字段和元描述字段之一個或多個的數(shù)據(jù)。
6.權(quán)利要求1的所述方法,還包括將任何在自有、內(nèi)鏈、及外鏈關(guān)鍵詞列表中出現(xiàn)的,由第一分隔標(biāo)識分隔的一個或多個詞,識別為潛在獨特關(guān)鍵詞;將代表有效短語的所述潛在獨特關(guān)鍵詞包含至為所述網(wǎng)頁設(shè)置的所述關(guān)鍵詞集合中, 其中,拼寫引擎、語法引擎和搜索引擎中的任一個被用于確定一個潛在獨特關(guān)鍵詞是否代表有效短語。
7.權(quán)利要求1的所述方法,還包括將任何在所述自有、內(nèi)鏈、及外鏈關(guān)鍵詞列表中出現(xiàn)的N個相鄰的被空格分隔的詞,識別為潛在獨特關(guān)鍵詞,其中,N是一個大于一的整數(shù);以及將代表有效短語的所述潛在獨特關(guān)鍵詞包含至為所述網(wǎng)頁設(shè)置的所述關(guān)鍵詞集合中。
8.權(quán)利要求3的所述方法,其中,所述內(nèi)鏈和外鏈關(guān)鍵詞中的每個根據(jù)相應(yīng)源網(wǎng)頁的排名來被分配權(quán)重,所述源網(wǎng)頁排名采用搜索引擎來被確定。
9.權(quán)利要求1的所述方法,其中,所述內(nèi)鏈關(guān)鍵詞網(wǎng)頁通過采用網(wǎng)頁爬蟲和搜索引擎中的一個或多個來被識別。
10.設(shè)備,包括用于存儲軟件指令的存儲器和用于執(zhí)行所述軟件指令的處理器,其中, 所述軟件指令,當(dāng)被所述處理器執(zhí)行時,觸發(fā)所述設(shè)備執(zhí)行為網(wǎng)頁分配關(guān)鍵詞的方法,所述方法包括識別與所述網(wǎng)頁相關(guān)的自有關(guān)鍵詞,所述自有關(guān)鍵詞包括從所述網(wǎng)頁中獲得的關(guān)鍵詞數(shù)據(jù);識別與所述網(wǎng)頁相關(guān)的內(nèi)鏈關(guān)鍵詞,所述內(nèi)鏈關(guān)鍵詞包括從包含鏈接至所述網(wǎng)頁的鏈接的其他網(wǎng)頁中獲得的關(guān)鍵詞數(shù)據(jù);識別與所述網(wǎng)頁相關(guān)的外鏈關(guān)鍵詞,所述外鏈關(guān)鍵詞包括從包含所述網(wǎng)頁鏈接至其他網(wǎng)頁的鏈接的所述其他網(wǎng)頁中獲得的關(guān)鍵詞數(shù)據(jù);合并所述自有、內(nèi)鏈和外鏈關(guān)鍵詞,為所述網(wǎng)頁形成關(guān)鍵詞集合。
全文摘要
一種使用關(guān)鍵詞數(shù)據(jù)為網(wǎng)頁分配關(guān)鍵詞的方法、系統(tǒng)與設(shè)備,其中,該關(guān)鍵詞數(shù)據(jù)從網(wǎng)頁自身、包括指向該網(wǎng)頁的鏈接的網(wǎng)頁,以及,被在該網(wǎng)頁中的鏈接指向的網(wǎng)頁中獲得,其中,從多個網(wǎng)頁中獲得的該關(guān)鍵詞數(shù)據(jù)被處理,從而為該網(wǎng)頁提供相關(guān)的關(guān)鍵詞數(shù)據(jù)集合。
文檔編號G06F17/30GK102473190SQ201080034039
公開日2012年5月23日 申請日期2010年7月20日 優(yōu)先權(quán)日2009年7月30日
發(fā)明者尹星煥, 沙立·慕克吉, 王利民, 穆拉里達(dá)蘭·薩姆帕思·柯迪阿蘭姆 申請人:阿爾卡特朗訊
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1