一種基于url和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),具體地涉及一種網(wǎng)頁相似性內(nèi)容提取方法。
【背景技術(shù)】
[0002]一般而言,網(wǎng)頁包含的信息豐富復(fù)雜,可以包括導(dǎo)航、標(biāo)題、正文、時間、甚至廣告等內(nèi)容。為了在網(wǎng)頁中抽取有效的內(nèi)容,就需要對網(wǎng)頁繼續(xù)精細(xì)的分析。
[0003]網(wǎng)絡(luò)爬蟲能夠高效地將海量的網(wǎng)頁數(shù)據(jù)下載到本地,在本地形成互聯(lián)網(wǎng)網(wǎng)頁的鏡像備份,在信息檢索與處理中有很大的作用,是收集網(wǎng)絡(luò)信息的重要工具,是搜索引擎的重要組成部分。
[0004]對于網(wǎng)絡(luò)爬蟲來說,抓取下來的網(wǎng)頁包括各種格式,其中最常見的是HTML。這些文件抓取下來后,需要把這些文件中的鏈接和文本等信息提取出來。準(zhǔn)確提取這些文檔的信息不但會影響后續(xù)信息檢索的準(zhǔn)確性,而且會對正確跟蹤其他鏈接產(chǎn)生一定的影響。傳統(tǒng)的網(wǎng)絡(luò)爬蟲在抽取HTML信息時,一般采用正則表達(dá)式、關(guān)鍵字識別等方式來識別和抽取網(wǎng)頁中的文本、鏈接等信息。但是許多網(wǎng)頁中都包含和內(nèi)容無關(guān)的文本、鏈接、圖片和Flash動畫等信息,所以需要花費時間和資源對每個網(wǎng)頁采取去噪措施。而且,在這種方式下,對網(wǎng)頁信息的抽取都是在離散情況下進(jìn)行,而同一站點下網(wǎng)頁一般存在很大的相似性,我們就無法利用這種相似性和歷史的分析成果來提高當(dāng)前頁面的分析抽取效率。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,本發(fā)明旨在提供一種能夠提升相似頁面信息抽取效率和精度的基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法。
[0006]按照本發(fā)明的一方面,提供一種基于URL和網(wǎng)頁文檔結(jié)構(gòu)的網(wǎng)頁相似性的判斷方法,包括下述步驟:
URL相似度計算步驟,計算兩個網(wǎng)頁的URL相似度;
DOM結(jié)構(gòu)相似度計算步驟,計算兩個網(wǎng)頁DOM結(jié)構(gòu)的相似度;
網(wǎng)頁相似度計算步驟,基于URL相似度和DOM結(jié)構(gòu)的相似度計算兩個網(wǎng)頁的相似度;網(wǎng)頁相似性判斷,將計算出的網(wǎng)頁的相似度與預(yù)定設(shè)定的閾值范圍進(jìn)行比較,如果在預(yù)先設(shè)定的閾值范圍內(nèi)則判斷兩個網(wǎng)頁為相似。
[0007]按照本發(fā)明的又一方面,提供一種基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法,包括下述步驟:
URL相似度計算步驟,計算兩個網(wǎng)頁的URL相似度;
DOM結(jié)構(gòu)相似度計算步驟,計算兩個網(wǎng)頁DOM結(jié)構(gòu)的相似度;
網(wǎng)頁相似度計算步驟,基于URL相似度和DOM結(jié)構(gòu)的相似度計算網(wǎng)頁的相似度;網(wǎng)頁相似性判斷步驟,將計算出的網(wǎng)頁的相似度與預(yù)定設(shè)定的閾值范圍進(jìn)行比較,如果在預(yù)先設(shè)定的閾值范圍內(nèi)則判斷兩個網(wǎng)頁為相似; DOM結(jié)構(gòu)提取步驟,提取兩個網(wǎng)頁的共有的DOM結(jié)構(gòu);
網(wǎng)頁信息提取步驟,在所述DOM結(jié)構(gòu)提取步驟中已提取的共有DOM結(jié)構(gòu)中提取相似網(wǎng)頁對應(yīng)信息。
[0008]按照本發(fā)明的還一方面,提供一種基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法,包括下述步驟:
第一維度相似度計算步驟,計算兩個網(wǎng)頁的第一維度的相似度;
第一維度相似度判斷步驟,判斷第一維度的相似度是否達(dá)到規(guī)定閾值,并且僅第一維度的相似度達(dá)到規(guī)定閾值的情況下才繼續(xù)后續(xù)步驟;
第二維度相似度計算步驟,計算兩個網(wǎng)頁的第二維度的相似度;
網(wǎng)頁相似度計算步驟,基于第一維度的相似度和第二維度的相似度計算網(wǎng)頁的相似度;
網(wǎng)頁相似性判斷步驟,將計算出的網(wǎng)頁的相似度與預(yù)定設(shè)定的閾值范圍進(jìn)行比較,如果在預(yù)先設(shè)定的閾值范圍內(nèi)則判斷兩個網(wǎng)頁為相似;
DOM結(jié)構(gòu)提取步驟,提取兩個網(wǎng)頁的共有的DOM結(jié)構(gòu);
網(wǎng)頁信息提取步驟,在所述DOM結(jié)構(gòu)提取步驟中已提取的共有DOM結(jié)構(gòu)中提取相似網(wǎng)頁對應(yīng)信息。
【附圖說明】
[0009]圖1是表示本發(fā)明第一實施方式的基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法的流程圖。
【具體實施方式】
[0010]下面介紹的是本發(fā)明的多個實施例中的一些,旨在提供對本發(fā)明的基本了解。并不旨在確認(rèn)本發(fā)明的關(guān)鍵或決定性的要素或限定所要保護(hù)的范圍。
[0011]第一實施方式
本發(fā)明的第一實施方式的基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法可以分為兩大步驟:相似網(wǎng)頁識別步驟和網(wǎng)頁信息抽取步驟。
[0012]其中,相似網(wǎng)頁識別是對存在一定相似程度的兩個頁面的識別。在本發(fā)明中我們根據(jù)兩個維度來判斷相似網(wǎng)頁,分別為URL的相似度和網(wǎng)頁Dom結(jié)構(gòu)的相似度。通過分析和綜合這兩個維度的相似度,進(jìn)而得出網(wǎng)頁的相似度。
[0013]然后,網(wǎng)頁信息抽取步驟是指基于得到的網(wǎng)頁的相似度再對相似的網(wǎng)頁提取網(wǎng)頁信息。
[0014]圖1是表示本發(fā)明第一實施方式的基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法的流程圖。
[0015]下面參照圖1對于本發(fā)明的基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法進(jìn)行具體說明。其中,步驟SlOl?步驟S103構(gòu)成上述的相似網(wǎng)頁識別步驟,步驟S104?步驟S105構(gòu)成上述的網(wǎng)頁信息抽取步驟。
[0016]接著,具體對各個步驟進(jìn)行說明 (I)URL相似度計算步驟SlOl 在URL相似度計算步驟SlOl中,計算兩個網(wǎng)頁的URL相似度。
[0017]URL即統(tǒng)一資源定位符(Uniform Resource Locator)是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。互聯(lián)網(wǎng)上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置?;綰RL包含模式(或稱協(xié)議)、服務(wù)器名稱(或IP地址)、路徑和文件名。
[0018]在下述的公式I中,url_sim表示URL的相似度。與一般的字串不同,URL具有一定的結(jié)構(gòu)和特征。首先,URL具有一定的路徑深度;其次,同一路徑下的網(wǎng)頁所描述的資源一般具有一定的相似性?;谶@種特征,我們使用路徑深度的一致和前綴的一致作為判斷URL相似度的兩個先決因素,用相同前綴包含的目錄深度占總路徑深度的比例來表示URL的相似度。假如 URL 為:http://weib0.com/p/1005052521277214/weibo,則路徑深度為從“http://”開始以間隔的元素數(shù)量及深度為4。假設(shè)另一個URL為:http://weib0.com/p/1005052521277215/weibo,則相同前綴為:http://weib0.com/p/,前綴包含目錄深度為2,總探度為4,比例為1:2。
[0019](2) DOM結(jié)構(gòu)相似度計算步驟S102
在DOM結(jié)構(gòu)相似度計算步驟S102中,計算兩個網(wǎng)頁DOM結(jié)構(gòu)的相似度。
[0020]DOM是Document Object Model (文檔對象模型)的縮寫。DOM是以層次結(jié)構(gòu)組織的節(jié)點或信息片斷的集合。這個層次結(jié)構(gòu)允許開發(fā)人員在樹中導(dǎo)航尋找特定信息。DOM把HTML文檔呈現(xiàn)為帶有元素、屬性和文本的樹結(jié)構(gòu)(節(jié)點樹)。
[0021]在下述的公式I中,dom_sim表示網(wǎng)頁DOM結(jié)構(gòu)的相似度。DOM結(jié)構(gòu)是用來描述一個頁面文檔結(jié)構(gòu)的模型,使用樹形結(jié)構(gòu)表示HTML的所有節(jié)點。比較DOM結(jié)構(gòu)的相似性時,從根節(jié)點出發(fā),深度遍歷每個子節(jié)點,通過比較對應(yīng)葉子節(jié)點來進(jìn)行相似性判斷。如果對應(yīng)葉子節(jié)點的類型一致,則相似度為1,否則為0,然后將所有葉子節(jié)點的相似度均值作為兩個網(wǎng)頁的相似度數(shù)值。
[0022](3)網(wǎng)頁相似度計算步驟S103
在網(wǎng)頁相似度計算步驟S103中,基于上述計算出的URL相似度和DOM結(jié)構(gòu)的相似度,根據(jù)下述的公式I計算網(wǎng)頁的相似度,
公式 I:page_sim = W1^urLsim + w2*dom_sim
其中,page_sim表示是兩個網(wǎng)頁的相似度,url_sim表示兩個網(wǎng)頁的URL的相似度,dom_sim表示兩個網(wǎng)頁的DOM結(jié)構(gòu)的相似度,W1, W2表示兩種相似度因素的權(quán)重,并且W1 +
W2=I ο
[0023]作為一種優(yōu)選的方式,在本發(fā)明中,設(shè)置為使得DOM結(jié)構(gòu)的相似度比重占得較大,例如可以設(shè)置為W2 Sw1,例如,可以設(shè)置為W2 = 0.8, W1=0.2。
[0024](4)網(wǎng)頁相似性判斷步驟S104
在網(wǎng)頁相似性判斷步驟S104中,將網(wǎng)頁相似度計算步驟S103將計算出的網(wǎng)頁的相似度與預(yù)定設(shè)定的閾值范圍進(jìn)行比較,如果在預(yù)先設(shè)定的閾值范圍內(nèi),則判斷兩個網(wǎng)頁為相似,如果超過該預(yù)先設(shè)定的閾值范圍,則判斷兩個網(wǎng)頁不相似。在后者的情況下,就不再繼續(xù)后續(xù)的網(wǎng)頁信息抽取步驟。
[0025](5)001結(jié)構(gòu)提取步驟3105
在DOM結(jié)構(gòu)提取步驟S105,提取兩個網(wǎng)頁的共有的DOM結(jié)構(gòu)。
[0026]網(wǎng)頁信息抽取是在相似網(wǎng)頁識別完成的情況下,根據(jù)網(wǎng)頁的相似信息抽取信息的過程。由相似網(wǎng)頁識別的兩個維度可知,相似的網(wǎng)頁在網(wǎng)頁DOM結(jié)構(gòu)上也存在一定的相似性,兩個相似頁面在某些位置上DOM結(jié)構(gòu)存在著一致性,這些共有的DOM節(jié)點上包含了相似的鏈接和內(nèi)容信息。在提取網(wǎng)頁信息時,首先,可以利用提取共有的根據(jù)DOM的結(jié)構(gòu)。
[0027](6)網(wǎng)頁信息提取步驟S106
在網(wǎng)頁信息提取步驟S106中,根據(jù)在所述DOM結(jié)構(gòu)提取步驟中已提取的共有DOM結(jié)構(gòu),提取相似網(wǎng)頁對應(yīng)信息。
[0028]這里,由于DOM為樹形結(jié)構(gòu),共DOM結(jié)構(gòu)提