亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

Url合并處理方法和裝置的制造方法

文檔序號(hào):10725103閱讀:432來(lái)源:國(guó)知局
Url合并處理方法和裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例公開(kāi)了一種URL合并處理方法和裝置。所述方法包括:獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合;根據(jù)URL的構(gòu)成規(guī)范,對(duì)URL集合中的URL進(jìn)行結(jié)構(gòu)拆分,生成與URL對(duì)應(yīng)的特征集;根據(jù)與特征集中包括的結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí);根據(jù)泛化標(biāo)識(shí),對(duì)URL集合中的URL進(jìn)行合并處理,生成至少一個(gè)URL合并簇。本發(fā)明的技術(shù)方案可以實(shí)現(xiàn)將具有相似結(jié)構(gòu)的網(wǎng)頁(yè)所對(duì)應(yīng)的URL合并起來(lái)的技術(shù)效果,不僅大大降低了帶寬與存儲(chǔ)消耗,也使得網(wǎng)頁(yè)的分類合并技術(shù)有了更簡(jiǎn)便快捷的方式。
【專利說(shuō)明】
URL合并處理方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實(shí)施例涉及信息處理技術(shù),尤其涉及一種URL合并處理方法和裝置。
【背景技術(shù)】
[0002] 隨著Web2.0的到來(lái),互聯(lián)網(wǎng)的數(shù)據(jù)呈現(xiàn)著爆炸性的增長(zhǎng),一個(gè)突出的表現(xiàn)便是URL (Uniform Resource Locator,統(tǒng)一資源定位符)數(shù)量的增長(zhǎng)。為了進(jìn)一步增強(qiáng)用戶體驗(yàn)、或 記錄用戶點(diǎn)擊時(shí)的一些會(huì)話信息,網(wǎng)站會(huì)對(duì)應(yīng)產(chǎn)出很多重復(fù)URL,這些重復(fù)URL僅有少部分 字符串不一致,但對(duì)應(yīng)的是同樣、或者相似的網(wǎng)頁(yè)內(nèi)容。
[0003] 重復(fù)URL大量存在,給網(wǎng)頁(yè)抓取、解析的工作帶來(lái)極大挑戰(zhàn)。例如:搜索引擎在網(wǎng)頁(yè) 抓取過(guò)程中需要反復(fù)抓取類似內(nèi)容的文檔,極大地占用了帶寬和存儲(chǔ)資源;再例如:在使用 一些基于鏈接的網(wǎng)頁(yè)排序算法時(shí),這些相似性較大的網(wǎng)頁(yè)URL將影響各個(gè)鏈接的網(wǎng)頁(yè)排序 分?jǐn)?shù)計(jì)算;此外,在進(jìn)行網(wǎng)站安全性檢測(cè)時(shí),大量結(jié)構(gòu)類似的網(wǎng)頁(yè)被反復(fù)檢測(cè),也會(huì)帶來(lái)極 大的資源耗費(fèi)。

【發(fā)明內(nèi)容】

[0004] 有鑒于此,本發(fā)明實(shí)施例提供了一種URL合并處理方法和裝置,以減輕由網(wǎng)絡(luò)中存 在的大量重復(fù)URL所帶來(lái)的資源壓力。
[0005] 在第一方面,本發(fā)明實(shí)施例提供了一種URL合并處理方法,包括:
[0006] 獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合;
[0007]根據(jù)URL的構(gòu)成規(guī)范,對(duì)所述URL集合中的URL進(jìn)行結(jié)構(gòu)拆分,生成與URL對(duì)應(yīng)的特 征集,其中,所述特征集包括:至少一個(gè)結(jié)構(gòu)標(biāo)識(shí),以及與所述結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值;
[0008] 根據(jù)與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí);
[0009] 根據(jù)所述泛化標(biāo)識(shí),對(duì)所述URL集合中的URL進(jìn)行合并處理,生成至少一個(gè)URL合并 簇。
[001 0]在第二方面,本發(fā)明實(shí)施例提供了一種URL合并處理裝置,包括:
[0011] URL集合獲取模塊,用于獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合;
[0012] URL特征集生成模塊,用于根據(jù)URL的構(gòu)成規(guī)范,對(duì)所述URL集合中的URL進(jìn)行結(jié)構(gòu) 拆分,生成與URL對(duì)應(yīng)的特征集,其中,所述特征集包括:至少一個(gè)結(jié)構(gòu)標(biāo)識(shí),以及與所述結(jié) 構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值;
[0013] 泛化標(biāo)識(shí)獲取模塊,用于根據(jù)與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié) 構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí);
[0014] URL合并簇生成模塊,用于根據(jù)所述泛化標(biāo)識(shí),對(duì)所述URL集合中的URL進(jìn)行合并處 理,生成至少一個(gè)URL合并簇。
[0015] 本發(fā)明實(shí)施例獲取與同一網(wǎng)站對(duì)應(yīng)的全部URL,根據(jù)URL的構(gòu)成規(guī)范,對(duì)各URL進(jìn)行 結(jié)構(gòu)拆分,生成與各URL分別對(duì)應(yīng)的特征集,根據(jù)特征集中包括的結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的 數(shù)據(jù)特征,對(duì)各URL進(jìn)行泛化處理,并基于泛化處理結(jié)果對(duì)各URL進(jìn)行合并,可以實(shí)現(xiàn)將具有 相似結(jié)構(gòu)的網(wǎng)頁(yè)所對(duì)應(yīng)的URL合并起來(lái)的技術(shù)效果,不僅大大降低了帶寬與存儲(chǔ)消耗,也使 得網(wǎng)頁(yè)的分類合并技術(shù)有了更簡(jiǎn)便快捷的方式。
【附圖說(shuō)明】
[0016]圖la是本發(fā)明第一實(shí)施例的一種URL合并處理方法的流程圖;
[0017]圖lb是本發(fā)明第一實(shí)施例的一種對(duì)URL進(jìn)行結(jié)構(gòu)拆分并生成與URL對(duì)應(yīng)的特征集 的不意圖;
[0018]圖2是本發(fā)明第二實(shí)施例的一種URL合并處理方法的流程圖;
[0019]圖3a是本發(fā)明第三實(shí)施例的一種URL合并處理方法的流程圖;
[0020]圖3b是本發(fā)明第三實(shí)施例的一種計(jì)算與結(jié)構(gòu)值集合對(duì)應(yīng)的信息熵的流程示意圖; [0021]圖4是本發(fā)明第四實(shí)施例的一種URL合并處理裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0022]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明具體實(shí) 施例作進(jìn)一步的詳細(xì)描述??梢岳斫獾氖牵颂幩枋龅木唧w實(shí)施例僅僅用于解釋本發(fā)明, 而非對(duì)本發(fā)明的限定。
[0023]另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非 全部?jī)?nèi)容。在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述 成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理,但 是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新 安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。 所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0024] 第一實(shí)施例
[0025]圖la為本發(fā)明第一實(shí)施例提供的一種URL合并處理方法的流程圖,本實(shí)施例的方 法可以由URL合并處理裝置來(lái)執(zhí)行,該裝置可通過(guò)硬件和/或軟件的方式實(shí)現(xiàn),并一般可集 成于用于完成URL合并處理功能的服務(wù)器中。本實(shí)施例的方法具體包括:
[0026] 110、獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合。
[0027] 一般來(lái)說(shuō),網(wǎng)站就是多個(gè)網(wǎng)頁(yè)的集合,一個(gè)網(wǎng)頁(yè)對(duì)應(yīng)一個(gè)獨(dú)立的URL地址。為了獲 取與一個(gè)目標(biāo)網(wǎng)站(例如,WWW.baidu. com)對(duì)應(yīng)的全部URL地址。在現(xiàn)有技術(shù)中,主要可以通 過(guò)網(wǎng)絡(luò)爬蟲(chóng)的方式,在網(wǎng)絡(luò)中抓取與該目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合。其中,所述URL集合中包括 至少一個(gè)與目標(biāo)網(wǎng)站中的網(wǎng)頁(yè)對(duì)應(yīng)的URL地址。
[0028] 但是,在互聯(lián)網(wǎng)網(wǎng)站上,存在著數(shù)據(jù)孤島問(wèn)題,也就是存在著大量的URL無(wú)法通過(guò) 超鏈接來(lái)直接抵達(dá)。這些URL往往掩藏在網(wǎng)站的搜索結(jié)果頁(yè)面下、或者是通過(guò)某些特殊的操 作才能讓用戶訪問(wèn)到。因此,如果通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取的方式來(lái)獲取與一個(gè)目標(biāo)網(wǎng)站對(duì)應(yīng)的 URL來(lái)生成URL集合,則會(huì)出現(xiàn)網(wǎng)站中很多URL無(wú)法被獲取到的技術(shù)問(wèn)題。
[0029]在本發(fā)明實(shí)施例的一個(gè)優(yōu)選的實(shí)施方式中,發(fā)明人提出了一種不使用網(wǎng)絡(luò)爬蟲(chóng)抓 取,而是通過(guò)獲取用戶在目標(biāo)網(wǎng)站下的瀏覽日志信息的方式,來(lái)獲取與一個(gè)目標(biāo)網(wǎng)站對(duì)應(yīng) 的URL集合的方法,以避免上述技術(shù)問(wèn)題的出現(xiàn),從而可以更系統(tǒng)全面地分析整個(gè)網(wǎng)站下的 URL特征結(jié)構(gòu)。也即:根據(jù)用戶的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合。
[0030] -般來(lái)說(shuō),當(dāng)用戶對(duì)一個(gè)網(wǎng)站進(jìn)行網(wǎng)頁(yè)訪問(wèn)時(shí),用戶訪問(wèn)網(wǎng)頁(yè)所使用的瀏覽器,以 及網(wǎng)站的服務(wù)器均生成相應(yīng)的用戶瀏覽日志信息,該瀏覽日志信息中記錄有用戶所訪問(wèn)的 網(wǎng)頁(yè)的URL地址。
[0031] 通過(guò)獲取上述用戶瀏覽日志信息(典型的,通過(guò)設(shè)定的網(wǎng)絡(luò)統(tǒng)計(jì)工具),即可獲取 與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合。
[0032] 120、根據(jù)URL的構(gòu)成規(guī)范,對(duì)所述URL集合中的URL進(jìn)行結(jié)構(gòu)拆分,生成與URL對(duì)應(yīng) 的特征集。
[0033] 可以理解的是,URL是對(duì)可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問(wèn)方法的一種簡(jiǎn) 潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址?;ヂ?lián)網(wǎng)上的每個(gè)文件都有一個(gè)唯一的URL,它包含 的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它。相應(yīng)的,網(wǎng)絡(luò)中存在的各種URL是必須 滿足一定的構(gòu)成規(guī)范的。
[0034]其中,基本URL包含模式(或稱協(xié)議)、服務(wù)器名稱(或IP地址)、路徑和文件名,如 "協(xié)議://授權(quán)/路徑?查詢"。完整的、帶有授權(quán)部分的普通統(tǒng)一資源標(biāo)志符語(yǔ)法如下:協(xié) 議://用戶名:密碼@子域名.域名.頂級(jí)域名:端□號(hào)/目錄/文件名.文件后綴?參數(shù)=值財(cái)示 ν·、ι、〇
[0035] 相應(yīng)的,可以根據(jù)URL的構(gòu)成規(guī)范,對(duì)所述URL集合中的URL進(jìn)行結(jié)構(gòu)拆分,生成與 URL對(duì)應(yīng)的特征集。其中,所述特征集具體包括:至少一個(gè)結(jié)構(gòu)標(biāo)識(shí),以及與所述結(jié)構(gòu)標(biāo)識(shí)對(duì) 應(yīng)的結(jié)構(gòu)值。
[0036] 進(jìn)一步的,所述結(jié)構(gòu)標(biāo)識(shí)具體可以包括:協(xié)議標(biāo)識(shí)、至少一個(gè)域名標(biāo)識(shí)、至少一個(gè) 路徑標(biāo)識(shí)以及至少一個(gè)參數(shù)標(biāo)識(shí)。
[0037]其中,在圖lb中示出了本發(fā)明第一實(shí)施例的一種對(duì)URL進(jìn)行結(jié)構(gòu)拆分并生成與URL 對(duì)應(yīng)的特征集的示意圖。如圖lb所示,待拆分的URL地址具體為:
[0038] http: //m. ctrip. com/html5/trains/?sourceid = 497&allianceid = 4897 ;
[0039] 通過(guò)根據(jù)URL的標(biāo)準(zhǔn)語(yǔ)法,識(shí)別出該URL中包括的特殊符號(hào)(典型的:7"、 "?"以及"&"等),即可完成對(duì)該URL地址的結(jié)構(gòu)拆分。
[0040] 特殊的,如果在URL的域名以及路徑部分,識(shí)別出下劃線"_"時(shí),應(yīng)當(dāng)看作7"繼續(xù) 進(jìn)行分割,以實(shí)現(xiàn)將域名部分劃分為多個(gè)域名,將路徑部分劃分為多個(gè)路徑。
[0041 ] 如圖lb所示,與該URL地址對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)可以包括:協(xié)議標(biāo)識(shí)(schema)、子域名 標(biāo)識(shí)(sub domain)、頂級(jí)域名(top domain)、第一路徑標(biāo)識(shí)(path_0)、第二路徑標(biāo)識(shí)(path_ 1)、第一參數(shù)標(biāo)識(shí)(sourceid)以及第二參數(shù)標(biāo)識(shí)(allianceid)。
[0042]根據(jù)上述結(jié)構(gòu)標(biāo)識(shí)對(duì)該URL地址進(jìn)行結(jié)構(gòu)拆分,可以確定與協(xié)議標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu) 值為http、與子域名標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值m、與頂級(jí)域名對(duì)應(yīng)的結(jié)構(gòu)值為ctrip. com、與第一路 徑標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值為html5、與第二路徑標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值為trains、與第一參數(shù)標(biāo)識(shí)對(duì) 應(yīng)的結(jié)構(gòu)值為497、以及與第二參數(shù)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值為4897。
[0043] 相應(yīng)的,可以得到與該URL地址對(duì)應(yīng)的特征集為:{schema:http;sub domain:m; top domain:ctrip·com;path_0:html5;path_l:trains;sourceid:497;allianceid: 4897}〇
[0044] 130、根據(jù)與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo) 識(shí)。
[0045] 本發(fā)明實(shí)施例所依據(jù)的假設(shè)為:具有相同結(jié)構(gòu)的URL地址,頁(yè)面功能相同;即具有 相似結(jié)構(gòu)的URL地址所對(duì)應(yīng)的網(wǎng)頁(yè),也應(yīng)該具有相似的結(jié)構(gòu)。為了更加直觀的進(jìn)行說(shuō)明,首 先對(duì)一些重復(fù)URL示例如下:
[0046] http://stockpage.10jqka. com.cn/600429/company/?tj = 1;
[0047] http://stockpage.10jqka. com.cn/600428/company/?tj = 3;
[0048] 通過(guò)示例可以看出,第一個(gè)URL與第二個(gè)URL之間僅有少部分字符串不一致,但實(shí) 際上兩者對(duì)應(yīng)的是同樣、或者相似的網(wǎng)頁(yè)內(nèi)容。
[0049] 從直觀理解上看,這兩個(gè)URL應(yīng)該具有同一功能,描述的同一類型的內(nèi)容,因此可 以將這兩個(gè)URL進(jìn)行合并處理,合并方法就是將URL中的特定位置值進(jìn)行泛化處理,例如,將 這兩個(gè)URL地址泛化為:
[0050] http://stockpage.10jqka. com.cn/*/company/?tj = *;
[0051 ] http://stockpage· 10jqka.com.cn/*/company/?tj = *,其中 代表被泛化的內(nèi) 容。
[0052] 通過(guò)上述泛化處理后,即可將這兩個(gè)URL合并于同一URL集合中。因此,本實(shí)施例的 方法的核心在于如何確定URL中的哪些位置的數(shù)據(jù)可以被泛化。
[0053] 在本實(shí)施例中,主要根據(jù)與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,確定與哪種類型 的結(jié)構(gòu)值對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)可以被泛化。
[0054]可以理解的是,如果一個(gè)結(jié)構(gòu)值的不確定性很高,說(shuō)明該不確定性的內(nèi)容無(wú)法用 來(lái)表征同一類型的網(wǎng)頁(yè)內(nèi)容,則該不確定性高的結(jié)構(gòu)值可以被泛化處理。因此,可以通過(guò)結(jié) 構(gòu)值的不確定性,來(lái)確定URL中的哪些結(jié)構(gòu)標(biāo)識(shí)可以被泛化;
[0055]另一方面,數(shù)據(jù)長(zhǎng)度比較大的結(jié)構(gòu)值,或者包含數(shù)字或者字母內(nèi)容比較多的結(jié)構(gòu) 值,其一般可以用于表征同一類型的多個(gè)相似網(wǎng)頁(yè),因此可以通過(guò)結(jié)構(gòu)值的數(shù)據(jù)類型,和/ 或結(jié)構(gòu)值的數(shù)據(jù)長(zhǎng)度,來(lái)確定URL中的哪些結(jié)構(gòu)標(biāo)識(shí)可以被泛化。
[0056] 140、根據(jù)所述泛化標(biāo)識(shí),對(duì)所述URL集合中的URL進(jìn)行合并處理,生成至少一個(gè)URL 合并簇。
[0057]在本實(shí)施例中,在獲取泛化標(biāo)識(shí)后,可以通過(guò)比對(duì)URL集合中各URL所包含的泛化 標(biāo)識(shí)是否相同,實(shí)現(xiàn)對(duì)所述URL集合中的URL進(jìn)行合并處理;還可以根據(jù)所述泛化標(biāo)識(shí),生成 與各URL對(duì)應(yīng)的泛化結(jié)構(gòu)符,即:帶有等泛化符的URL地址,通過(guò)比對(duì)與各URL對(duì)應(yīng)的泛化 結(jié)構(gòu)符是否相同,實(shí)現(xiàn)對(duì)對(duì)所述URL集合中的各URL進(jìn)行合并處理等,本實(shí)施例對(duì)此并不進(jìn) 行限制。
[0058]本發(fā)明實(shí)施例獲取與同一網(wǎng)站對(duì)應(yīng)的全部URL,根據(jù)URL的構(gòu)成規(guī)范,對(duì)各URL進(jìn)行 結(jié)構(gòu)拆分,生成與各URL分別對(duì)應(yīng)的特征集,根據(jù)特征集中包括的結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的 數(shù)據(jù)特征,對(duì)各URL進(jìn)行泛化處理,并基于泛化處理結(jié)果對(duì)各URL進(jìn)行合并,可以實(shí)現(xiàn)將具有 相似結(jié)構(gòu)的網(wǎng)頁(yè)所對(duì)應(yīng)的URL合并起來(lái)的技術(shù)效果,不僅大大降低了帶寬與存儲(chǔ)消耗,也使 得網(wǎng)頁(yè)的分類合并技術(shù)有了更簡(jiǎn)便快捷的方式。
[0059]需要重點(diǎn)說(shuō)明的是,通過(guò)本實(shí)施例的URL合并處理方法只采用少量的抓取帶寬和 計(jì)算資源,即可將結(jié)構(gòu)相似度較高的網(wǎng)頁(yè)分組到一個(gè)合并簇中,對(duì)于同一合并簇中的網(wǎng)頁(yè) 僅需要抽樣分析即可得到該合并簇內(nèi)所有網(wǎng)頁(yè)的特征信息,可以有效緩解資源壓力,也為 更為高級(jí)的網(wǎng)頁(yè)分析奠定基礎(chǔ),對(duì)了解網(wǎng)站的整體結(jié)構(gòu)有較大幫助。
[0060] 本發(fā)明實(shí)施例的技術(shù)方案的產(chǎn)出是目標(biāo)網(wǎng)站下所有的URL合并簇,每個(gè)合并簇可 以用URL樹(shù)狀圖或者正則表達(dá)式來(lái)展示。該URL合并簇可以具體用于:
[0061] 1、主題爬蟲(chóng):屬于同一個(gè)合并簇的URL,可以認(rèn)為有相似的內(nèi)容、相同的主題,針對(duì) 性地爬取一個(gè)URL合并簇中的若干URL,可以大幅降低全面爬取的代價(jià);
[0062] 2、網(wǎng)站安全性監(jiān)測(cè):對(duì)于目標(biāo)網(wǎng)站下的每個(gè)URL合并簇,僅需要針對(duì)每個(gè)簇抽樣幾 個(gè)URL進(jìn)行檢測(cè),即可得到整個(gè)URL合并簇的安全性情況;
[0063] 3、網(wǎng)頁(yè)結(jié)構(gòu)性聚類與分析:可以根據(jù)泛化后的結(jié)果,將具有相同功能的URL簇聚集 起來(lái)作為一種功能類型集合,而每個(gè)URL合并簇僅需要寫(xiě)一份解析規(guī)則,即可進(jìn)行全面解 析;
[0064] 4、構(gòu)建站點(diǎn)拓?fù)鋱D:用泛化后的URL泛化結(jié)構(gòu)符來(lái)代替之前的具體URL超鏈接,可 以準(zhǔn)確得到目標(biāo)網(wǎng)站內(nèi)部的關(guān)鍵路徑和URL泛化結(jié)構(gòu)符之間的關(guān)系,找到真正有意義的站 點(diǎn)拓?fù)涔羌堋?br>[0065] 第二實(shí)施例
[0066]圖2a是本發(fā)明第二實(shí)施例的一種URL合并處理方法的流程圖。本實(shí)施例以上述實(shí) 施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,將獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合優(yōu)化為:根據(jù)用戶 的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合;同時(shí),還優(yōu)選包括:依次獲取一個(gè)所述 URL合并簇作為驗(yàn)證簇;從所述驗(yàn)證簇中,獲取至少兩個(gè)URL作為驗(yàn)證URL;下載與所述驗(yàn)證 URL對(duì)應(yīng)的至少兩個(gè)驗(yàn)證網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容;如果根據(jù)所述網(wǎng)頁(yè)內(nèi)容,識(shí)別所述驗(yàn)證網(wǎng)頁(yè)之間 的網(wǎng)頁(yè)結(jié)構(gòu)不相同,則將所述驗(yàn)證簇中的URL進(jìn)行解合并;
[0067]此外,將根據(jù)所述網(wǎng)頁(yè)內(nèi)容,識(shí)別所述驗(yàn)證網(wǎng)頁(yè)之間的網(wǎng)頁(yè)結(jié)構(gòu)不相同具體優(yōu)化 為:分別獲取各所述驗(yàn)證網(wǎng)頁(yè)中包括的至少一個(gè)按鈕;如果確定不同驗(yàn)證網(wǎng)頁(yè)中的按鈕的 路徑關(guān)聯(lián)信息不滿足相似網(wǎng)頁(yè)條件,則識(shí)別所述驗(yàn)證網(wǎng)頁(yè)之間的網(wǎng)頁(yè)結(jié)構(gòu)不相同。相應(yīng)的, 本實(shí)施例的方法具體包括:
[0068] 210、根據(jù)用戶的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合。
[0069] 2 20、根據(jù)URL的構(gòu)成規(guī)范,對(duì)所述URL集合中的URL進(jìn)行結(jié)構(gòu)拆分,生成與URL對(duì)應(yīng) 的特征集。
[0070] 其中,所述特征集包括:至少一個(gè)結(jié)構(gòu)標(biāo)識(shí),以及與所述結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值;
[0071] 230、根據(jù)與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo) 識(shí)。
[0072] 240、根據(jù)所述泛化標(biāo)識(shí),對(duì)所述URL集合中的URL進(jìn)行合并處理,生成至少一個(gè)URL 合并簇。
[0073]在本實(shí)施例中,進(jìn)一步包括對(duì)URL合并簇的合并效果進(jìn)行驗(yàn)證的操作,驗(yàn)證同一 URL合并簇中包括的至少兩個(gè)URL是否具有相同或者相近的網(wǎng)頁(yè)結(jié)構(gòu)以及頁(yè)面功能。如果驗(yàn) 證通過(guò),則該URL合并簇中的各URL可以合并在一起;否則,該URL合并簇中的各URL則不能合 并在一起。其中,可以通過(guò)人工抽樣驗(yàn)證的方式對(duì)URL合并簇進(jìn)行驗(yàn)證,在本實(shí)施例中,則給 出了一種自動(dòng)化驗(yàn)證的方式。
[0074] 250、依次獲取一個(gè)所述URL合并簇作為驗(yàn)證簇。
[0075] 260、從所述驗(yàn)證簇中,獲取至少兩個(gè)URL作為驗(yàn)證URL。
[0076] 270、下載與所述驗(yàn)證URL對(duì)應(yīng)的至少兩個(gè)驗(yàn)證網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容。
[0077] 280、分別獲取各所述驗(yàn)證網(wǎng)頁(yè)中包括的至少一個(gè)按鈕。
[0078] 290、判斷不同驗(yàn)證網(wǎng)頁(yè)中的按鈕的路徑關(guān)聯(lián)信息是否滿足相似網(wǎng)頁(yè)條件:若是, 執(zhí)行2100;否則,執(zhí)行2110。
[0079] 所述路徑關(guān)聯(lián)信息包括下述至少一項(xiàng):按鈕在頁(yè)面中的層次、按鈕的類名、按鈕的 名稱以及按鈕的標(biāo)識(shí)名。
[0080] 2100、識(shí)別所述驗(yàn)證網(wǎng)頁(yè)之間的網(wǎng)頁(yè)結(jié)構(gòu)相同,執(zhí)行2130。
[0081] 2110、識(shí)別所述驗(yàn)證網(wǎng)頁(yè)之間的網(wǎng)頁(yè)結(jié)構(gòu)不相同,執(zhí)行2120。
[0082] 2120、將所述驗(yàn)證簇中的URL進(jìn)行解合并,執(zhí)行2130。
[0083] 2130、判斷是否完成對(duì)全部URL合并簇的處理:若是,結(jié)束流程;否則,返回執(zhí)行 250〇
[0084]在本實(shí)施例中,通過(guò)自動(dòng)化檢查特定元素(典型的,與URL地址對(duì)應(yīng)的網(wǎng)頁(yè)中包括 的按鈕)的路徑關(guān)聯(lián)信息是否一致的方法,對(duì)URL合并簇中包括的URL地址進(jìn)行驗(yàn)證。
[0085] 即:對(duì)于抽樣出來(lái)的第一URL地址url_a以及第二URL地址url_b,下載其對(duì)應(yīng)的網(wǎng) 頁(yè),得到與這兩個(gè)網(wǎng)頁(yè)上所有的button(按鈕)對(duì)應(yīng)的路徑關(guān)聯(lián)信息(button在頁(yè)面的層次 關(guān)系、以及該button上的類名以及button的標(biāo)識(shí)信息),如果各個(gè)button的路徑關(guān)聯(lián)信息均 一致,則可以認(rèn)為抽樣的url_a以及url_b具有相同的網(wǎng)頁(yè)結(jié)構(gòu),可以歸集為同一個(gè)URL合并 簇,該URL合并簇可用,對(duì)于未通過(guò)該驗(yàn)證的URL合并簇,其內(nèi)部的URL則不能泛化在一起。 [0086]本實(shí)施例的技術(shù)方案在生成URL合并簇之后,繼續(xù)對(duì)URL合并簇的可用性進(jìn)行驗(yàn) 證,獲取驗(yàn)證簇中包括的至少兩個(gè)URL對(duì)應(yīng)的網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容后,分別獲取各網(wǎng)頁(yè)中包括的 至少一個(gè)按鈕,通過(guò)判斷不同驗(yàn)證網(wǎng)頁(yè)中的按鈕的路徑關(guān)聯(lián)信息是否滿足相似網(wǎng)頁(yè)條件, 來(lái)確定上述網(wǎng)頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu)是否相同,上述驗(yàn)證過(guò)程保證了與相同或者相似的網(wǎng)頁(yè)對(duì)應(yīng)的 URL被合并于一個(gè)URL合并簇中,保證了合并處理生成的URL合并簇的可用性。
[0087] 第三實(shí)施例
[0088]圖3是本發(fā)明第三實(shí)施例的一種URL合并處理方法的流程圖。本實(shí)施例以上述實(shí)施 例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,將根據(jù)與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述 結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí)具體優(yōu)化為:根據(jù)與所述URL集合中各URL分別對(duì)應(yīng)的特征集,生成 與各所述結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的結(jié)構(gòu)值集合;根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特征, 計(jì)算與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值;根據(jù)與各結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化 權(quán)重值,獲取所述結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí);
[0089]同時(shí),將根據(jù)所述泛化標(biāo)識(shí),對(duì)所述URL集合中的URL進(jìn)行合并處理,生成至少一個(gè) URL合并簇具體優(yōu)化為:根據(jù)所述泛化標(biāo)識(shí),生成與所述URL集合中各URL分別對(duì)應(yīng)的泛化結(jié) 構(gòu)符;將所述泛化結(jié)構(gòu)符相同的各URL歸集于同一URL合并簇中。相應(yīng)的,本實(shí)施例的方法具 體包括:
[0090] 310、根據(jù)用戶的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合。
[0091] 320、根據(jù)URL的構(gòu)成規(guī)范,對(duì)所述URL集合中的URL進(jìn)行結(jié)構(gòu)拆分,生成與URL對(duì)應(yīng) 的特征集。
[0092]其中,所述特征集包括:至少一個(gè)結(jié)構(gòu)標(biāo)識(shí),以及與所述結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值; [0093] 330、根據(jù)與所述URL集合中各URL分別對(duì)應(yīng)的特征集,生成與各所述結(jié)構(gòu)標(biāo)識(shí)分別 對(duì)應(yīng)的結(jié)構(gòu)值集合。
[0094] 在一個(gè)具體的例子中,與URL1對(duì)應(yīng)的特征集為:{schema:http;sub domain:m;top domain:ctrip. com;path_0:html5;path_l:trains;sourceid:497;al1ianceid:4897};
[0095] 與與URL2對(duì)應(yīng)的特征集為:{ schema : http ; sub domain : n ; top domain : ctrip·com;path_0:html5;path_l: trains;sourceid:3215;allianceid:123}〇
[0096]貝與結(jié)構(gòu)標(biāo)識(shí)schema對(duì)應(yīng)的結(jié)構(gòu)值集合為{http};與結(jié)構(gòu)標(biāo)識(shí)sub domain對(duì)應(yīng) 的結(jié)構(gòu)值集合為{m,n};與結(jié)構(gòu)標(biāo)識(shí)top domain對(duì)應(yīng)的結(jié)構(gòu)值集合為{ctrip.com};與結(jié)構(gòu) 標(biāo)識(shí)p a t h _ 0對(duì)應(yīng)的結(jié)構(gòu)值集合為{h t m 15 };與結(jié)構(gòu)標(biāo)識(shí)p a t h _ 1對(duì)應(yīng)的結(jié)構(gòu)值集合為 {trains };與結(jié)構(gòu)標(biāo)識(shí)sourceid對(duì)應(yīng)的結(jié)構(gòu)值集合為{497,3215 }以及與結(jié)構(gòu)標(biāo)識(shí) allianceid對(duì)應(yīng)的結(jié)構(gòu)值集合為{4897,123}。
[0097] 340、根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特征,計(jì)算與所述結(jié)構(gòu)值集合對(duì)應(yīng)的 結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值。
[0098] 在本實(shí)施例中,可以通過(guò)各種方式計(jì)算與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的泛化權(quán)重值,例如,人工 設(shè)定的方式,計(jì)算不同結(jié)構(gòu)值集合對(duì)應(yīng)的信息熵的方式以及根據(jù)結(jié)構(gòu)值集合的數(shù)據(jù)長(zhǎng)度, 和/或數(shù)據(jù)類型對(duì)各結(jié)構(gòu)值集合進(jìn)行評(píng)分的方式,計(jì)算與各結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的 泛化權(quán)重值,本實(shí)施例對(duì)此并不進(jìn)行限制。
[0099] 在本實(shí)施例的一個(gè)優(yōu)選的實(shí)施方式中,根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特 征,計(jì)算與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值具體可以包括:
[0100] 統(tǒng)計(jì)所述結(jié)構(gòu)值集合中,與不同取值的結(jié)構(gòu)值分別對(duì)應(yīng)的結(jié)構(gòu)值數(shù)量;根據(jù)所述 與不同取值的結(jié)構(gòu)值分別對(duì)應(yīng)的結(jié)構(gòu)值數(shù)量,計(jì)算與各所述結(jié)構(gòu)值集合分別對(duì)應(yīng)的信息 熵;將計(jì)算得到的所述信息熵作為與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值。
[0101] 如第一實(shí)施例所述,可以通過(guò)結(jié)構(gòu)值的不確定性,來(lái)確定URL中的哪些結(jié)構(gòu)標(biāo)識(shí)可 以被泛化,結(jié)構(gòu)值的不確定性越大,與結(jié)構(gòu)值對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)越有可能被泛化。具體的,可 以通過(guò)計(jì)算信息熵的方式,來(lái)計(jì)算一個(gè)結(jié)構(gòu)值的不確定性。信息熵值越大表明該結(jié)構(gòu)值部 分的不確定性越大。而極度不確定的部分是無(wú)法用于表征同一類型網(wǎng)頁(yè)的,故信息熵越大, 則越應(yīng)該被泛化。在圖3b是本發(fā)明第三實(shí)施例的一種計(jì)算與結(jié)構(gòu)值集合對(duì)應(yīng)的信息熵的流 程不意圖。
[0102] 其中,信息熵的計(jì)算公式為:pi;其中,η為一個(gè)結(jié)構(gòu)值集合中包 括的結(jié)構(gòu)值不同取值的數(shù)量;pi代表結(jié)構(gòu)值集合中第i個(gè)取值的結(jié)構(gòu)值的出現(xiàn)概率,pi =第 i個(gè)取值的結(jié)構(gòu)值數(shù)量/結(jié)構(gòu)值集合中包括的結(jié)構(gòu)值總數(shù)量。
[0103] 如圖3b所示,與結(jié)構(gòu)標(biāo)識(shí)sub domain對(duì)應(yīng)的結(jié)構(gòu)值集合中包括的結(jié)構(gòu)值不同取值 的數(shù)量n = 3,其中,這3個(gè)結(jié)構(gòu)值的取值分別為"m"、"3g"以及"www"。在該結(jié)構(gòu)值集合中:取 值為"m"的結(jié)構(gòu)值數(shù)量為80000;取值為"3g"的結(jié)構(gòu)值數(shù)量為40000,取值為"www"的結(jié)構(gòu)值 數(shù)量為75000;相應(yīng)的,該結(jié)構(gòu)值集合中包括的結(jié)構(gòu)值總數(shù)量為80000+40000+75000 = 195000。
[0104] 進(jìn)而可以計(jì)算與"m"對(duì)應(yīng)的pi = 80000/195000 = 0.4103,與"3g"對(duì)應(yīng)的p2 = 40000/195000 = 0 · 2051,與 "www" 對(duì)應(yīng)的p3 = 75000/195000 = 0 · 3846。
[0105] 將上述計(jì)算得到的pl、p2以及p3帶入公式:* pi,.即可得到對(duì)應(yīng)的 信息熵值0.459。
[0106] 在本實(shí)施例的另一個(gè)優(yōu)選的實(shí)施方式中,根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù) 特征,計(jì)算與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值具體還可以包括:
[0107] 根據(jù)所述結(jié)構(gòu)值集合中結(jié)構(gòu)值的數(shù)據(jù)類型,和/或結(jié)構(gòu)值的數(shù)據(jù)長(zhǎng)度,對(duì)各所述結(jié) 構(gòu)值集合進(jìn)行評(píng)分;將評(píng)分結(jié)果作為與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值。
[0108] 在一個(gè)具體的例子中,一個(gè)結(jié)構(gòu)值集合中包括的結(jié)構(gòu)值的數(shù)據(jù)長(zhǎng)度越長(zhǎng),數(shù)據(jù)類 型(典型的,字母以及數(shù)字等)種類越多,以及數(shù)字形式的數(shù)據(jù)越多,則該結(jié)構(gòu)值集合的評(píng)分 值越大,相應(yīng)的,該結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值的也越大。
[0109] 350、根據(jù)與各結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化權(quán)重值,獲取所述結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo) 識(shí)。
[0110] 在本實(shí)施例中,在計(jì)算得到與各結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化權(quán)重值之后,可以根據(jù) 各泛化權(quán)重值的取值,獲取所述結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí)。典型的,泛化權(quán)重值越大,其越有 可能被確定為泛化標(biāo)識(shí)。
[0111] 其中,可以通過(guò)直接設(shè)定泛化分界點(diǎn)來(lái)確定泛化標(biāo)識(shí),例如,如果泛化權(quán)重值的取 值為[0,1 ],則可以設(shè)定一個(gè)泛化分界點(diǎn)為〇 . 7,即:將泛化權(quán)重值大于0.7的結(jié)構(gòu)標(biāo)識(shí)確定 為泛化標(biāo)識(shí);
[0112] 在本實(shí)施例的一個(gè)優(yōu)選的實(shí)施方式中,還可以根據(jù)泛化標(biāo)識(shí)之間的相關(guān)性,也就 是說(shuō),可以被泛化的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值的取值總是類似的這一推斷,根據(jù)與各所述結(jié) 構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化權(quán)重值,對(duì)各所述結(jié)構(gòu)標(biāo)識(shí)進(jìn)行聚類,生成泛化標(biāo)識(shí)集以及非泛化 標(biāo)識(shí)集,將所述泛化標(biāo)識(shí)集中包括的結(jié)構(gòu)標(biāo)識(shí)作為所述泛化標(biāo)識(shí)。
[0113] 例如,與各結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的泛化權(quán)重值分別為0.7、0.74、0.81、0.21、0.25、0.23, 通過(guò)聚類處理后,生成兩個(gè)聚類簇{0.7,074,0.81}以及{0.21,0.25,0.23},進(jìn)而可以將聚 類簇{0.7,074,0.81}作為泛化標(biāo)識(shí)集,并將該泛化標(biāo)識(shí)集中包括的結(jié)構(gòu)標(biāo)識(shí)作為所述泛化 標(biāo)識(shí),即將與0.7、0.74以及0.81分別對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)作為泛化標(biāo)識(shí)。
[0114] 360、根據(jù)所述泛化標(biāo)識(shí),生成與所述URL集合中各URL分別對(duì)應(yīng)的泛化結(jié)構(gòu)符。
[0115] 如前例,URL集合中包括的兩個(gè)URL為:
[0116] http: //m. ctrip · com/html5/trains/?sourceid = 497&allianceid = 4897;以及
[0117] http: //n. ctrip. com/html5/trains/?sourceid = 3215&allianceid = 123 ;
[0118] 如果最終確定的泛化標(biāo)識(shí)為:sub domain、sourceid以及allianceid;貝lj可以生成 與上述兩個(gè)URL分別對(duì)應(yīng)的泛化結(jié)構(gòu)符(典型的,將與泛化標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值使用代 替):
[0119] http ://*. ctrip. com/html5/trains/?sourceid = *&allianceid = * ; VXM.
[0120] http: //氺· ctrip · com/html5/trains/?sourceid =氺&allianceid =氺。
[0121] 370、將所述泛化結(jié)構(gòu)符相同的各URL歸集于同一 URL合并簇中。
[0122] 相應(yīng)的,可以將 http://m.ctrip.com/html5/trains/?sourceid = 497& allianceid = 4897 ;以及http://n.ctrip. com/html 5/trains/?sourceid = 3215& alliance id = 123歸集于同一URL合并族中。
[0123] 本實(shí)施例的技術(shù)方案完全無(wú)需下載URL對(duì)應(yīng)的頁(yè)面,完全依據(jù)用戶對(duì)URL的訪問(wèn)情 況,通過(guò)針對(duì)URL的結(jié)構(gòu)化信息提取,完成URL集合化工作,采用其他的方案均無(wú)法達(dá)到此效 果。本實(shí)施例的優(yōu)勢(shì)在于:不需要通過(guò)網(wǎng)絡(luò)爬蟲(chóng),而是通過(guò)用戶瀏覽日志信息歸納,即可得 到URL泛化的結(jié)果,優(yōu)于需要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、分析URL超鏈接進(jìn)行URL合并處理的方式。本實(shí) 施例的方法有效降低資源消耗,也解決了網(wǎng)絡(luò)鏈接孤島問(wèn)題,從對(duì)網(wǎng)站的覆蓋層面優(yōu)于現(xiàn) 有技術(shù)。
[0124] 綜上,本發(fā)明不依賴于傳統(tǒng)的爬蟲(chóng)技術(shù),充分利用搜集到的用戶瀏覽日志信息,將 具有相似結(jié)構(gòu)的網(wǎng)頁(yè)所對(duì)應(yīng)的URL聚集起來(lái),對(duì)于屬于同一個(gè)URL合并簇的URL集合而言,僅 需要抽樣幾條即可得到該集合中所有URL對(duì)應(yīng)的網(wǎng)頁(yè)結(jié)構(gòu)特征(例如是否存在網(wǎng)絡(luò)漏洞、是 否存在待提交的表單等),甚至可以認(rèn)為屬于同一個(gè)URL合并簇的URL集合對(duì)應(yīng)著相同類型 的頁(yè)面.
[0125] 例如:http://detail · zol · com. cn/cell_phone/index*· shtml均為手機(jī)的介紹頁(yè) 面,http://bbs. zol .com.cn/sjbbs/*.html均為手機(jī)的論壇頁(yè)面等,不僅大大降低了帶寬 與存儲(chǔ)消耗,也使得網(wǎng)頁(yè)的分類有了更簡(jiǎn)便快捷的方式,更能夠提供網(wǎng)站的整體拓?fù)浣Y(jié)構(gòu)。
[0126] 第四實(shí)施例
[0127] 圖4是本發(fā)明第四實(shí)施例的一種URL合并處理裝置的結(jié)構(gòu)圖。如圖4所示,所述裝置 包括:URL集合獲取模塊41、URL特征集生成模塊42、泛化標(biāo)識(shí)獲取模塊43以及URL合并簇生 成模塊44。其中:
[0128] URL集合獲取模塊41,用于獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的統(tǒng)一資源定位符URL集合。
[0129] URL特征集生成模塊42,用于根據(jù)URL的構(gòu)成規(guī)范,對(duì)所述URL集合中的URL進(jìn)行結(jié) 構(gòu)拆分,生成與URL對(duì)應(yīng)的特征集,其中,所述特征集包括:至少一個(gè)結(jié)構(gòu)標(biāo)識(shí),以及與所述 結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值。
[0130] 泛化標(biāo)識(shí)獲取模塊43,用于根據(jù)與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述 結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí)。
[0131] URL合并簇生成模塊44,用于根據(jù)所述泛化標(biāo)識(shí),對(duì)所述URL集合中的URL進(jìn)行合并 處理,生成至少一個(gè)URL合并簇。
[0132] 本發(fā)明實(shí)施例獲取與同一網(wǎng)站對(duì)應(yīng)的全部URL,根據(jù)URL的構(gòu)成規(guī)范,對(duì)各URL進(jìn)行 結(jié)構(gòu)拆分,生成與各URL分別對(duì)應(yīng)的特征集,根據(jù)特征集中包括的結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的 數(shù)據(jù)特征,對(duì)各URL進(jìn)行泛化處理,并基于泛化處理結(jié)果對(duì)各URL進(jìn)行合并,可以實(shí)現(xiàn)將具有 相似結(jié)構(gòu)的網(wǎng)頁(yè)所對(duì)應(yīng)的URL合并起來(lái)的技術(shù)效果,不僅大大降低了帶寬與存儲(chǔ)消耗,也使 得網(wǎng)頁(yè)的分類合并技術(shù)有了更簡(jiǎn)便快捷的方式。
[0133] 在上述各實(shí)施例的基礎(chǔ)上,所述URL集合獲取模塊,具體可以用于:根據(jù)用戶的瀏 覽日志信息,獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合。
[0134] 在上述各實(shí)施例的基礎(chǔ)上,所述裝置還可以包括:URL合并簇驗(yàn)證模塊,其中,所述 URL合并簇驗(yàn)證模塊可以包括:
[0135] 驗(yàn)證簇獲取單元,用于依次獲取一個(gè)所述URL合并簇作為驗(yàn)證簇;
[0136] 驗(yàn)證URL獲取單元,用于從所述驗(yàn)證簇中,獲取至少兩個(gè)URL作為驗(yàn)證URL;
[0137] 網(wǎng)頁(yè)內(nèi)容下載單元,用于下載與所述驗(yàn)證URL對(duì)應(yīng)的至少兩個(gè)驗(yàn)證網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi) 容;
[0138] 解合并單元,用于如果根據(jù)所述網(wǎng)頁(yè)內(nèi)容,識(shí)別所述驗(yàn)證網(wǎng)頁(yè)之間的網(wǎng)頁(yè)結(jié)構(gòu)不 相同,則將所述驗(yàn)證簇中的URL進(jìn)行解合并。
[0139] 在上述各實(shí)施例的基礎(chǔ)上,所述結(jié)構(gòu)標(biāo)識(shí)可以包括:協(xié)議標(biāo)識(shí)、至少一個(gè)域名標(biāo) 識(shí)、至少一個(gè)路徑標(biāo)識(shí)以及至少一個(gè)參數(shù)標(biāo)識(shí)。
[0140]在上述各實(shí)施例的基礎(chǔ)上,所述泛化標(biāo)識(shí)獲取模塊可以包括:
[0141]結(jié)構(gòu)值集合生成單元,用于根據(jù)與所述URL集合中各URL分別對(duì)應(yīng)的特征集,生成 與各所述結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的結(jié)構(gòu)值集合;
[0142] 泛化權(quán)重值計(jì)算單元,用于根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特征,計(jì)算與 所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值;
[0143] 泛化標(biāo)識(shí)獲取單元,用于根據(jù)與各結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化權(quán)重值,獲取所述結(jié) 構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí)。
[0144] 在上述各實(shí)施例的基礎(chǔ)上,所述泛化權(quán)重值計(jì)算單元具體可以用于:
[0145] 統(tǒng)計(jì)所述結(jié)構(gòu)值集合中,與不同取值的結(jié)構(gòu)值分別對(duì)應(yīng)的結(jié)構(gòu)值數(shù)量;
[0146] 根據(jù)所述與不同取值的結(jié)構(gòu)值分別對(duì)應(yīng)的結(jié)構(gòu)值數(shù)量,計(jì)算與各所述結(jié)構(gòu)值集合 分別對(duì)應(yīng)的信息熵;
[0147] 將計(jì)算得到的所述信息熵作為與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值。
[0148] 在上述各實(shí)施例的基礎(chǔ)上,所述泛化權(quán)重值計(jì)算單元具體可以用于:
[0149] 根據(jù)所述結(jié)構(gòu)值集合中結(jié)構(gòu)值的數(shù)據(jù)類型,和/或結(jié)構(gòu)值的數(shù)據(jù)長(zhǎng)度,對(duì)各所述結(jié) 構(gòu)值集合進(jìn)行評(píng)分;
[0150]將評(píng)分結(jié)果作為與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值。
[0151] 在上述各實(shí)施例的基礎(chǔ)上,所述泛化標(biāo)識(shí)獲取單元具體可以用于:
[0152] 根據(jù)泛化標(biāo)識(shí)之間的相關(guān)性,以及與各所述結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化權(quán)重值,對(duì) 各所述結(jié)構(gòu)標(biāo)識(shí)進(jìn)行聚類,生成泛化標(biāo)識(shí)集以及非泛化標(biāo)識(shí)集;
[0153] 將所述泛化標(biāo)識(shí)集中包括的結(jié)構(gòu)標(biāo)識(shí)作為所述泛化標(biāo)識(shí)。
[0154] 在上述各實(shí)施例的基礎(chǔ)上,所述解合并單元具體可以用于:
[0155] 分別獲取各所述驗(yàn)證網(wǎng)頁(yè)中包括的至少一個(gè)按鈕;
[0156] 如果確定不同驗(yàn)證網(wǎng)頁(yè)中的按鈕的路徑關(guān)聯(lián)信息不滿足相似網(wǎng)頁(yè)條件,則識(shí)別所 述驗(yàn)證網(wǎng)頁(yè)之間的網(wǎng)頁(yè)結(jié)構(gòu)不相同。
[0157] 在上述各實(shí)施例的基礎(chǔ)上,所述路徑關(guān)聯(lián)信息可以包括下述至少一項(xiàng):
[0158] 按鈕在頁(yè)面中的層次、按鈕的類名、按鈕的名稱以及按鈕的標(biāo)識(shí)名。
[0159] 在上述各實(shí)施例的基礎(chǔ)上,所述泛化標(biāo)識(shí)獲取模塊,可以用于:
[0160]根據(jù)所述泛化標(biāo)識(shí),生成與所述URL集合中各URL分別對(duì)應(yīng)的泛化結(jié)構(gòu)符;
[0161]將所述泛化結(jié)構(gòu)符相同的各URL歸集于同一 URL合并簇中。
[0162] 本發(fā)明實(shí)施例所提供的URL合并處理裝置可用于執(zhí)行本發(fā)明任意實(shí)施例提供的 URL合并處理方法,具備相應(yīng)的功能模塊,實(shí)現(xiàn)相同的有益效果。
[0163] 顯然,本領(lǐng)域技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以通過(guò)如上 所述的服務(wù)器實(shí)施??蛇x地,本發(fā)明實(shí)施例可以用計(jì)算機(jī)裝置可執(zhí)行的程序來(lái)實(shí)現(xiàn),從而可 以將它們存儲(chǔ)在存儲(chǔ)裝置中由處理器來(lái)執(zhí)行,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ) 介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等;或者將它們分別制作成各 個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣, 本發(fā)明不限制于任何特定的硬件和軟件的結(jié)合。
[0164] 以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域技術(shù)人員 而言,本發(fā)明可以有各種改動(dòng)和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同 替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種URL合并處理方法,其特征在于,包括: 獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的統(tǒng)一資源定位符URL集合; 根據(jù)URL的構(gòu)成規(guī)范,對(duì)所述URL集合中的URL進(jìn)行結(jié)構(gòu)拆分,生成與URL對(duì)應(yīng)的特征集, 其中,所述特征集包括:至少一個(gè)結(jié)構(gòu)標(biāo)識(shí),以及與所述結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值; 根據(jù)與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí); 根據(jù)所述泛化標(biāo)識(shí),對(duì)所述URL集合中的URL進(jìn)行合并處理,生成至少一個(gè)URL合并簇。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合包括: 根據(jù)用戶的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合。3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,還包括: 依次獲取一個(gè)所述URL合并簇作為驗(yàn)證簇; 從所述驗(yàn)證簇中,獲取至少兩個(gè)URL作為驗(yàn)證URL; 下載與所述驗(yàn)證URL對(duì)應(yīng)的至少兩個(gè)驗(yàn)證網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容; 如果根據(jù)所述網(wǎng)頁(yè)內(nèi)容,識(shí)別所述驗(yàn)證網(wǎng)頁(yè)之間的網(wǎng)頁(yè)結(jié)構(gòu)不相同,則將所述驗(yàn)證簇 中的URL進(jìn)行解合并。4. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述結(jié)構(gòu)標(biāo)識(shí)包括:協(xié)議標(biāo)識(shí)、至少一 個(gè)域名標(biāo)識(shí)、至少一個(gè)路徑標(biāo)識(shí)以及至少一個(gè)參數(shù)標(biāo)識(shí)。5. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,根據(jù)與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù) 特征,獲取所述結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí)包括: 根據(jù)與所述URL集合中各URL分別對(duì)應(yīng)的特征集,生成與各所述結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的結(jié) 構(gòu)值集合; 根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特征,計(jì)算與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí) 的泛化權(quán)重值; 根據(jù)與各結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化權(quán)重值,獲取所述結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí)。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特 征,計(jì)算與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值具體包括: 統(tǒng)計(jì)所述結(jié)構(gòu)值集合中,與不同取值的結(jié)構(gòu)值分別對(duì)應(yīng)的結(jié)構(gòu)值數(shù)量; 根據(jù)所述與不同取值的結(jié)構(gòu)值分別對(duì)應(yīng)的結(jié)構(gòu)值數(shù)量,計(jì)算與各所述結(jié)構(gòu)值集合分別 對(duì)應(yīng)的信息熵; 將計(jì)算得到的所述信息熵作為與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值。7. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特 征,計(jì)算與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值具體包括: 根據(jù)所述結(jié)構(gòu)值集合中結(jié)構(gòu)值的數(shù)據(jù)類型,和/或結(jié)構(gòu)值的數(shù)據(jù)長(zhǎng)度,對(duì)各所述結(jié)構(gòu)值 集合進(jìn)行評(píng)分; 將評(píng)分結(jié)果作為與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值。8. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)與各結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化權(quán)重 值,獲取所述結(jié)構(gòu)標(biāo)識(shí)中的泛化標(biāo)識(shí)包括: 根據(jù)泛化標(biāo)識(shí)之間的相關(guān)性,以及與各所述結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化權(quán)重值,對(duì)各所 述結(jié)構(gòu)標(biāo)識(shí)進(jìn)行聚類,生成泛化標(biāo)識(shí)集以及非泛化標(biāo)識(shí)集; 將所述泛化標(biāo)識(shí)集中包括的結(jié)構(gòu)標(biāo)識(shí)作為所述泛化標(biāo)識(shí)。9. 根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述網(wǎng)頁(yè)內(nèi)容,識(shí)別所述驗(yàn)證網(wǎng)頁(yè)之 間的網(wǎng)頁(yè)結(jié)構(gòu)不相同包括: 分別獲取各所述驗(yàn)證網(wǎng)頁(yè)中包括的至少一個(gè)按鈕; 如果確定不同驗(yàn)證網(wǎng)頁(yè)中的按鈕的路徑關(guān)聯(lián)信息不滿足相似網(wǎng)頁(yè)條件,則識(shí)別所述驗(yàn) 證網(wǎng)頁(yè)之間的網(wǎng)頁(yè)結(jié)構(gòu)不相同。10. 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述路徑關(guān)聯(lián)信息包括下述至少一項(xiàng): 按鈕在頁(yè)面中的層次、按鈕的類名、按鈕的名稱以及按鈕的標(biāo)識(shí)名。11. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,根據(jù)所述泛化標(biāo)識(shí),對(duì)所述URL集合中 的URL進(jìn)行合并處理,生成至少一個(gè)URL合并簇包括: 根據(jù)所述泛化標(biāo)識(shí),生成與所述URL集合中各URL分別對(duì)應(yīng)的泛化結(jié)構(gòu)符; 將所述泛化結(jié)構(gòu)符相同的各URL歸集于同一 URL合并簇中。12. -種URL合并處理裝置,其特征在于,包括: URL集合獲取模塊,用于獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的統(tǒng)一資源定位符URL集合; URL特征集生成模塊,用于根據(jù)URL的構(gòu)成規(guī)范,對(duì)所述URL集合中的URL進(jìn)行結(jié)構(gòu)拆分, 生成與URL對(duì)應(yīng)的特征集,其中,所述特征集包括:至少一個(gè)結(jié)構(gòu)標(biāo)識(shí),以及與所述結(jié)構(gòu)標(biāo)識(shí) 對(duì)應(yīng)的結(jié)構(gòu)值; 泛化標(biāo)識(shí)獲取模塊,用于根據(jù)與結(jié)構(gòu)標(biāo)識(shí)對(duì)應(yīng)的結(jié)構(gòu)值的數(shù)據(jù)特征,獲取所述結(jié)構(gòu)標(biāo) 識(shí)中的泛化標(biāo)識(shí); URL合并簇生成模塊,用于根據(jù)所述泛化標(biāo)識(shí),對(duì)所述URL集合中的URL進(jìn)行合并處理, 生成至少一個(gè)URL合并簇。13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述URL集合獲取模塊,具體用于: 根據(jù)用戶的瀏覽日志信息,獲取與目標(biāo)網(wǎng)站對(duì)應(yīng)的URL集合。14. 根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,還包括:URL合并簇驗(yàn)證模塊,其中, 所述URL合并簇驗(yàn)證模塊包括: 驗(yàn)證簇獲取單元,用于依次獲取一個(gè)所述URL合并簇作為驗(yàn)證簇; 驗(yàn)證URL獲取單元,用于從所述驗(yàn)證簇中,獲取至少兩個(gè)URL作為驗(yàn)證URL; 網(wǎng)頁(yè)內(nèi)容下載單元,用于下載與所述驗(yàn)證URL對(duì)應(yīng)的至少兩個(gè)驗(yàn)證網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容; 解合并單元,用于如果根據(jù)所述網(wǎng)頁(yè)內(nèi)容,識(shí)別所述驗(yàn)證網(wǎng)頁(yè)之間的網(wǎng)頁(yè)結(jié)構(gòu)不相同, 則將所述驗(yàn)證簇中的URL進(jìn)行解合并。15. 根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,所述結(jié)構(gòu)標(biāo)識(shí)包括:協(xié)議標(biāo)識(shí)、至少 一個(gè)域名標(biāo)識(shí)、至少一個(gè)路徑標(biāo)識(shí)以及至少一個(gè)參數(shù)標(biāo)識(shí)。16. 根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,所述泛化標(biāo)識(shí)獲取模塊包括: 結(jié)構(gòu)值集合生成單元,用于根據(jù)與所述URL集合中各URL分別對(duì)應(yīng)的特征集,生成與各 所述結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的結(jié)構(gòu)值集合; 泛化權(quán)重值計(jì)算單元,用于根據(jù)所述結(jié)構(gòu)值集合中各結(jié)構(gòu)值的數(shù)據(jù)特征,計(jì)算與所述 結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值; 泛化標(biāo)識(shí)獲取單元,用于根據(jù)與各結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化權(quán)重值,獲取所述結(jié)構(gòu)標(biāo) 識(shí)中的泛化標(biāo)識(shí)。17. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述泛化權(quán)重值計(jì)算單元具體用于: 統(tǒng)計(jì)所述結(jié)構(gòu)值集合中,與不同取值的結(jié)構(gòu)值分別對(duì)應(yīng)的結(jié)構(gòu)值數(shù)量; 根據(jù)所述與不同取值的結(jié)構(gòu)值分別對(duì)應(yīng)的結(jié)構(gòu)值數(shù)量,計(jì)算與各所述結(jié)構(gòu)值集合分別 對(duì)應(yīng)的信息熵; 將計(jì)算得到的所述信息熵作為與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值。18. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述泛化權(quán)重值計(jì)算單元具體用于: 根據(jù)所述結(jié)構(gòu)值集合中結(jié)構(gòu)值的數(shù)據(jù)類型,和/或結(jié)構(gòu)值的數(shù)據(jù)長(zhǎng)度,對(duì)各所述結(jié)構(gòu)值 集合進(jìn)行評(píng)分; 將評(píng)分結(jié)果作為與所述結(jié)構(gòu)值集合對(duì)應(yīng)的結(jié)構(gòu)標(biāo)識(shí)的泛化權(quán)重值。19. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述泛化標(biāo)識(shí)獲取單元具體用于: 根據(jù)泛化標(biāo)識(shí)之間的相關(guān)性,以及與各所述結(jié)構(gòu)標(biāo)識(shí)分別對(duì)應(yīng)的泛化權(quán)重值,對(duì)各所 述結(jié)構(gòu)標(biāo)識(shí)進(jìn)行聚類,生成泛化標(biāo)識(shí)集以及非泛化標(biāo)識(shí)集; 將所述泛化標(biāo)識(shí)集中包括的結(jié)構(gòu)標(biāo)識(shí)作為所述泛化標(biāo)識(shí)。20. 根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,所述解合并單元具體用于: 分別獲取各所述驗(yàn)證網(wǎng)頁(yè)中包括的至少一個(gè)按鈕; 如果確定不同驗(yàn)證網(wǎng)頁(yè)中的按鈕的路徑關(guān)聯(lián)信息不滿足相似網(wǎng)頁(yè)條件,則識(shí)別所述驗(yàn) 證網(wǎng)頁(yè)之間的網(wǎng)頁(yè)結(jié)構(gòu)不相同。
【文檔編號(hào)】G06F17/30GK106095979SQ201610444527
【公開(kāi)日】2016年11月9日
【申請(qǐng)日】2016年6月20日
【發(fā)明人】馬宇峰, 王曉元, 葉峻, 鄧?guó)Q捷
【申請(qǐng)人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1