一種基于url和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法

文檔序號：9765955閱讀：792來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于url和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)，具體地涉及一種網(wǎng)頁相似性內(nèi)容提取方法。
【背景技術(shù)】
[0002]一般而言，網(wǎng)頁包含的信息豐富復(fù)雜，可以包括導(dǎo)航、標(biāo)題、正文、時間、甚至廣告等內(nèi)容。為了在網(wǎng)頁中抽取有效的內(nèi)容，就需要對網(wǎng)頁繼續(xù)精細(xì)的分析。
[0003]網(wǎng)絡(luò)爬蟲能夠高效地將海量的網(wǎng)頁數(shù)據(jù)下載到本地，在本地形成互聯(lián)網(wǎng)網(wǎng)頁的鏡像備份，在信息檢索與處理中有很大的作用，是收集網(wǎng)絡(luò)信息的重要工具，是搜索引擎的重要組成部分。
[0004]對于網(wǎng)絡(luò)爬蟲來說，抓取下來的網(wǎng)頁包括各種格式，其中最常見的是HTML。這些文件抓取下來后，需要把這些文件中的鏈接和文本等信息提取出來。準(zhǔn)確提取這些文檔的信息不但會影響后續(xù)信息檢索的準(zhǔn)確性，而且會對正確跟蹤其他鏈接產(chǎn)生一定的影響。傳統(tǒng)的網(wǎng)絡(luò)爬蟲在抽取HTML信息時，一般采用正則表達(dá)式、關(guān)鍵字識別等方式來識別和抽取網(wǎng)頁中的文本、鏈接等信息。但是許多網(wǎng)頁中都包含和內(nèi)容無關(guān)的文本、鏈接、圖片和Flash動畫等信息，所以需要花費時間和資源對每個網(wǎng)頁采取去噪措施。而且，在這種方式下，對網(wǎng)頁信息的抽取都是在離散情況下進(jìn)行，而同一站點下網(wǎng)頁一般存在很大的相似性，我們就無法利用這種相似性和歷史的分析成果來提高當(dāng)前頁面的分析抽取效率。

【發(fā)明內(nèi)容】

[0005]鑒于上述問題，本發(fā)明旨在提供一種能夠提升相似頁面信息抽取效率和精度的基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法。
[0006]按照本發(fā)明的一方面，提供一種基于URL和網(wǎng)頁文檔結(jié)構(gòu)的網(wǎng)頁相似性的判斷方法，包括下述步驟:
URL相似度計算步驟，計算兩個網(wǎng)頁的URL相似度；
DOM結(jié)構(gòu)相似度計算步驟，計算兩個網(wǎng)頁DOM結(jié)構(gòu)的相似度；
網(wǎng)頁相似度計算步驟，基于URL相似度和DOM結(jié)構(gòu)的相似度計算兩個網(wǎng)頁的相似度；網(wǎng)頁相似性判斷，將計算出的網(wǎng)頁的相似度與預(yù)定設(shè)定的閾值范圍進(jìn)行比較，如果在預(yù)先設(shè)定的閾值范圍內(nèi)則判斷兩個網(wǎng)頁為相似。
[0007]按照本發(fā)明的又一方面，提供一種基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法，包括下述步驟:
URL相似度計算步驟，計算兩個網(wǎng)頁的URL相似度；
DOM結(jié)構(gòu)相似度計算步驟，計算兩個網(wǎng)頁DOM結(jié)構(gòu)的相似度；
網(wǎng)頁相似度計算步驟，基于URL相似度和DOM結(jié)構(gòu)的相似度計算網(wǎng)頁的相似度；網(wǎng)頁相似性判斷步驟，將計算出的網(wǎng)頁的相似度與預(yù)定設(shè)定的閾值范圍進(jìn)行比較，如果在預(yù)先設(shè)定的閾值范圍內(nèi)則判斷兩個網(wǎng)頁為相似； DOM結(jié)構(gòu)提取步驟，提取兩個網(wǎng)頁的共有的DOM結(jié)構(gòu)；
網(wǎng)頁信息提取步驟，在所述DOM結(jié)構(gòu)提取步驟中已提取的共有DOM結(jié)構(gòu)中提取相似網(wǎng)頁對應(yīng)信息。
[0008]按照本發(fā)明的還一方面，提供一種基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法，包括下述步驟:
第一維度相似度計算步驟，計算兩個網(wǎng)頁的第一維度的相似度；
第一維度相似度判斷步驟，判斷第一維度的相似度是否達(dá)到規(guī)定閾值，并且僅第一維度的相似度達(dá)到規(guī)定閾值的情況下才繼續(xù)后續(xù)步驟；
第二維度相似度計算步驟，計算兩個網(wǎng)頁的第二維度的相似度；
網(wǎng)頁相似度計算步驟，基于第一維度的相似度和第二維度的相似度計算網(wǎng)頁的相似度；
網(wǎng)頁相似性判斷步驟，將計算出的網(wǎng)頁的相似度與預(yù)定設(shè)定的閾值范圍進(jìn)行比較，如果在預(yù)先設(shè)定的閾值范圍內(nèi)則判斷兩個網(wǎng)頁為相似；
DOM結(jié)構(gòu)提取步驟，提取兩個網(wǎng)頁的共有的DOM結(jié)構(gòu)；
網(wǎng)頁信息提取步驟，在所述DOM結(jié)構(gòu)提取步驟中已提取的共有DOM結(jié)構(gòu)中提取相似網(wǎng)頁對應(yīng)信息。
【附圖說明】
[0009]圖1是表示本發(fā)明第一實施方式的基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法的流程圖。
【具體實施方式】
[0010]下面介紹的是本發(fā)明的多個實施例中的一些，旨在提供對本發(fā)明的基本了解。并不旨在確認(rèn)本發(fā)明的關(guān)鍵或決定性的要素或限定所要保護(hù)的范圍。
[0011]第一實施方式
本發(fā)明的第一實施方式的基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法可以分為兩大步驟:相似網(wǎng)頁識別步驟和網(wǎng)頁信息抽取步驟。
[0012]其中，相似網(wǎng)頁識別是對存在一定相似程度的兩個頁面的識別。在本發(fā)明中我們根據(jù)兩個維度來判斷相似網(wǎng)頁，分別為URL的相似度和網(wǎng)頁Dom結(jié)構(gòu)的相似度。通過分析和綜合這兩個維度的相似度，進(jìn)而得出網(wǎng)頁的相似度。
[0013]然后，網(wǎng)頁信息抽取步驟是指基于得到的網(wǎng)頁的相似度再對相似的網(wǎng)頁提取網(wǎng)頁信息。
[0014]圖1是表示本發(fā)明第一實施方式的基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法的流程圖。
[0015]下面參照圖1對于本發(fā)明的基于URL和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法進(jìn)行具體說明。其中，步驟SlOl?步驟S103構(gòu)成上述的相似網(wǎng)頁識別步驟，步驟S104?步驟S105構(gòu)成上述的網(wǎng)頁信息抽取步驟。
[0016]接著，具體對各個步驟進(jìn)行說明 (I)URL相似度計算步驟SlOl 在URL相似度計算步驟SlOl中，計算兩個網(wǎng)頁的URL相似度。
[0017]URL即統(tǒng)一資源定位符(Uniform Resource Locator)是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示，是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。互聯(lián)網(wǎng)上的每個文件都有一個唯一的URL，它包含的信息指出文件的位置?；綰RL包含模式(或稱協(xié)議)、服務(wù)器名稱(或IP地址)、路徑和文件名。
[0018]在下述的公式I中，url_sim表示URL的相似度。與一般的字串不同，URL具有一定的結(jié)構(gòu)和特征。首先，URL具有一定的路徑深度；其次，同一路徑下的網(wǎng)頁所描述的資源一般具有一定的相似性?；谶@種特征，我們使用路徑深度的一致和前綴的一致作為判斷URL相似度的兩個先決因素，用相同前綴包含的目錄深度占總路徑深度的比例來表示URL的相似度。假如 URL 為:http://weib0.com/p/1005052521277214/weibo，則路徑深度為從“http://”開始以間隔的元素數(shù)量及深度為4。假設(shè)另一個URL為:http://weib0.com/p/1005052521277215/weibo，則相同前綴為:http://weib0.com/p/，前綴包含目錄深度為2，總探度為4,比例為1:2。
[0019](2) DOM結(jié)構(gòu)相似度計算步驟S102
在DOM結(jié)構(gòu)相似度計算步驟S102中，計算兩個網(wǎng)頁DOM結(jié)構(gòu)的相似度。
[0020]DOM是Document Object Model (文檔對象模型)的縮寫。DOM是以層次結(jié)構(gòu)組織的節(jié)點或信息片斷的集合。這個層次結(jié)構(gòu)允許開發(fā)人員在樹中導(dǎo)航尋找特定信息。DOM把HTML文檔呈現(xiàn)為帶有元素、屬性和文本的樹結(jié)構(gòu)(節(jié)點樹)。
[0021]在下述的公式I中，dom_sim表示網(wǎng)頁DOM結(jié)構(gòu)的相似度。DOM結(jié)構(gòu)是用來描述一個頁面文檔結(jié)構(gòu)的模型，使用樹形結(jié)構(gòu)表示HTML的所有節(jié)點。比較DOM結(jié)構(gòu)的相似性時，從根節(jié)點出發(fā)，深度遍歷每個子節(jié)點，通過比較對應(yīng)葉子節(jié)點來進(jìn)行相似性判斷。如果對應(yīng)葉子節(jié)點的類型一致，則相似度為1，否則為0，然后將所有葉子節(jié)點的相似度均值作為兩個網(wǎng)頁的相似度數(shù)值。
[0022](3)網(wǎng)頁相似度計算步驟S103
在網(wǎng)頁相似度計算步驟S103中，基于上述計算出的URL相似度和DOM結(jié)構(gòu)的相似度，根據(jù)下述的公式I計算網(wǎng)頁的相似度，
公式 I:page_sim = W1^urLsim + w2*dom_sim
其中，page_sim表示是兩個網(wǎng)頁的相似度，url_sim表示兩個網(wǎng)頁的URL的相似度，dom_sim表示兩個網(wǎng)頁的DOM結(jié)構(gòu)的相似度，W1, W2表示兩種相似度因素的權(quán)重，并且W1 +
W2=I ο
[0023]作為一種優(yōu)選的方式，在本發(fā)明中，設(shè)置為使得DOM結(jié)構(gòu)的相似度比重占得較大，例如可以設(shè)置為W2 Sw1,例如,可以設(shè)置為W2 = 0.8, W1=0.2。
[0024](4)網(wǎng)頁相似性判斷步驟S104
在網(wǎng)頁相似性判斷步驟S104中，將網(wǎng)頁相似度計算步驟S103將計算出的網(wǎng)頁的相似度與預(yù)定設(shè)定的閾值范圍進(jìn)行比較，如果在預(yù)先設(shè)定的閾值范圍內(nèi)，則判斷兩個網(wǎng)頁為相似，如果超過該預(yù)先設(shè)定的閾值范圍，則判斷兩個網(wǎng)頁不相似。在后者的情況下，就不再繼續(xù)后續(xù)的網(wǎng)頁信息抽取步驟。
[0025](5)001結(jié)構(gòu)提取步驟3105
在DOM結(jié)構(gòu)提取步驟S105，提取兩個網(wǎng)頁的共有的DOM結(jié)構(gòu)。
[0026]網(wǎng)頁信息抽取是在相似網(wǎng)頁識別完成的情況下，根據(jù)網(wǎng)頁的相似信息抽取信息的過程。由相似網(wǎng)頁識別的兩個維度可知，相似的網(wǎng)頁在網(wǎng)頁DOM結(jié)構(gòu)上也存在一定的相似性，兩個相似頁面在某些位置上DOM結(jié)構(gòu)存在著一致性，這些共有的DOM節(jié)點上包含了相似的鏈接和內(nèi)容信息。在提取網(wǎng)頁信息時，首先，可以利用提取共有的根據(jù)DOM的結(jié)構(gòu)。
[0027](6)網(wǎng)頁信息提取步驟S106
在網(wǎng)頁信息提取步驟S106中，根據(jù)在所述DOM結(jié)構(gòu)提取步驟中已提取的共有DOM結(jié)構(gòu)，提取相似網(wǎng)頁對應(yīng)信息。
[0028]這里，由于DOM為樹形結(jié)構(gòu)，共DOM結(jié)構(gòu)提

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張琦;尹亞偉;張上譽(yù);
技術(shù)所有人：中國銀聯(lián)股份有限公司;
我是此專利的發(fā)明人

上一篇：車輛軌跡查詢系統(tǒng)及查詢方法
上一篇：結(jié)構(gòu)化標(biāo)簽生成方法、使用方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

結(jié)構(gòu)相似性相關(guān)技術(shù)

圖像結(jié)構(gòu)相似性相關(guān)技術(shù)

結(jié)構(gòu)相似性系數(shù)相關(guān)技術(shù)

文檔相似性檢測工具相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于url和網(wǎng)頁文檔結(jié)構(gòu)的相似性的網(wǎng)頁內(nèi)容提取方法