具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別方法和裝置,其中,方法包括:將多個(gè)網(wǎng)頁(yè)進(jìn)行聚類,得到一個(gè)或多個(gè)網(wǎng)頁(yè)集合;判斷網(wǎng)頁(yè)集合中各網(wǎng)頁(yè)內(nèi)容是否都包含預(yù)設(shè)的否定詞,將網(wǎng)頁(yè)集合中的各網(wǎng)頁(yè)內(nèi)容都包含否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合;提取待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的一個(gè)或多個(gè)屬性特征,根據(jù)屬性特征驗(yàn)證待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合得到報(bào)錯(cuò)網(wǎng)頁(yè)集合,并提取報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息;根據(jù)報(bào)錯(cuò)網(wǎng)頁(yè)集合識(shí)別報(bào)錯(cuò)網(wǎng)頁(yè)。根據(jù)該方案,無(wú)需結(jié)合每個(gè)頁(yè)面和其特定的報(bào)錯(cuò)句子,效率更高,并且,通過(guò)實(shí)時(shí)地自動(dòng)挖掘生成報(bào)錯(cuò)網(wǎng)頁(yè)集合,并且對(duì)網(wǎng)頁(yè)報(bào)錯(cuò)詞句的變化不敏感,降低了識(shí)別的滯后性。
【專利說(shuō)明】具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及一種具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別方法和裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)中充斥著各種低質(zhì)量的網(wǎng)頁(yè),這類頁(yè)面中不具備實(shí)際內(nèi)容。搜索引擎在抓取、分析、建庫(kù)、索引時(shí)需要識(shí)別并且剔除這些低質(zhì)量的網(wǎng)頁(yè)。這些低質(zhì)量網(wǎng)頁(yè)不僅占用了搜索引擎的資源、降低引擎效率,而且如果未被及時(shí)識(shí)別、剔除,還會(huì)出現(xiàn)在搜索結(jié)果頁(yè)面中,而用戶點(diǎn)擊訪問(wèn)后無(wú)法獲得有效信息,這嚴(yán)重影響了用戶體驗(yàn)。
[0003]低質(zhì)量網(wǎng)頁(yè)種類較多,其中一種是具有報(bào)錯(cuò)特征的網(wǎng)頁(yè),即具有明顯的報(bào)錯(cuò)詞句的網(wǎng)頁(yè)。比如打開網(wǎng)頁(yè)后提示:“網(wǎng)頁(yè)已刪除”、“404not found”、“頁(yè)面不存在”等等。
[0004]現(xiàn)有技術(shù)中對(duì)這類具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)的識(shí)別方法主要依靠人工識(shí)別網(wǎng)站下的報(bào)錯(cuò)句子,各站點(diǎn)的報(bào)錯(cuò)句子,可能互不相同,采取站點(diǎn)和報(bào)錯(cuò)句子結(jié)合的方法來(lái)挖掘報(bào)錯(cuò)網(wǎng)頁(yè),一旦站點(diǎn)匹配并且網(wǎng)頁(yè)中含有已經(jīng)識(shí)別的報(bào)錯(cuò)句子則認(rèn)為這個(gè)網(wǎng)頁(yè)為報(bào)錯(cuò)網(wǎng)頁(yè)。
[0005]人工識(shí)別報(bào)錯(cuò)句子的缺點(diǎn)是覆蓋面有限而且不及時(shí)。人工識(shí)別一般是發(fā)現(xiàn)一種報(bào)錯(cuò)類型的句子則添加生效一種,主站點(diǎn)下各個(gè)子站點(diǎn)頁(yè)面的報(bào)錯(cuò)特征可能不同而且可能隨時(shí)變化,每個(gè)子站點(diǎn)對(duì)應(yīng)的頁(yè)面都需要采用結(jié)合站點(diǎn)和報(bào)錯(cuò)句子進(jìn)行識(shí)別,因此,采用這種方式進(jìn)行大面積的識(shí)別報(bào)錯(cuò)句子時(shí),人工代價(jià)太大,效率很低。并且這種方法具有滯后性,一旦頁(yè)面改變了報(bào)錯(cuò)句子則無(wú)法識(shí)別,需要人工重新添加新的報(bào)錯(cuò)詞句。
【發(fā)明內(nèi)容】
[0006]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別方法和裝置。
[0007]根據(jù)本發(fā)明的一個(gè)方面,提供了一種具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別方法,包括:將多個(gè)網(wǎng)頁(yè)進(jìn)行聚類,得到一個(gè)或多個(gè)網(wǎng)頁(yè)集合;判斷網(wǎng)頁(yè)集合中各網(wǎng)頁(yè)內(nèi)容是否都包含預(yù)設(shè)的否定詞,將網(wǎng)頁(yè)集合中的各網(wǎng)頁(yè)內(nèi)容都包含否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合;提取待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的一個(gè)或多個(gè)屬性特征,根據(jù)屬性特征驗(yàn)證待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合得到報(bào)錯(cuò)網(wǎng)頁(yè)集合,并提取報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息;根據(jù)報(bào)錯(cuò)網(wǎng)頁(yè)集合識(shí)別報(bào)錯(cuò)網(wǎng)頁(yè)。
[0008]可選地,所述將所述網(wǎng)頁(yè)集合中的各網(wǎng)頁(yè)內(nèi)容都包含所述否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合具體為:將所述網(wǎng)頁(yè)集合中每個(gè)網(wǎng)頁(yè)均包含同一否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合;
[0009]所述方法還包括:將包含所述否定詞的句子作為該待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的報(bào)錯(cuò)句子。
[0010]可選地,所述對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行聚類具體為:針對(duì)一主站點(diǎn),根據(jù)路徑信息對(duì)該主站點(diǎn)中的各個(gè)鏈接網(wǎng)頁(yè)進(jìn)行聚類;
[0011]所述報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息包括以下信息中的一項(xiàng)或多項(xiàng):所述報(bào)錯(cuò)網(wǎng)頁(yè)集合在主站點(diǎn)中的路徑信息、主站點(diǎn)信息、報(bào)錯(cuò)句子以及其簽名信息。
[0012]可選地,所述根據(jù)路徑信息對(duì)該主站點(diǎn)中的各個(gè)鏈接網(wǎng)頁(yè)進(jìn)行聚類進(jìn)一步包括:
[0013]計(jì)算所述主站點(diǎn)中的各個(gè)鏈接網(wǎng)頁(yè)的路徑信息;
[0014]對(duì)計(jì)算得到的路徑信息進(jìn)行去重處理,計(jì)算所述去重處理后獲得的路徑信息的簽名;
[0015]根據(jù)所述路徑信息的簽名進(jìn)行聚類,將路徑信息的簽名相同的鏈接網(wǎng)頁(yè)加入同一網(wǎng)頁(yè)集合中。
[0016]可選地,所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的屬性特征包括以下特征的一項(xiàng)或多項(xiàng)的組合:
[0017]所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中包含的不同網(wǎng)頁(yè)數(shù)量;
[0018]所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中全部網(wǎng)頁(yè)和/或單個(gè)網(wǎng)頁(yè)所包含的句子的總數(shù);
[0019]所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中全部網(wǎng)頁(yè)中包含的不同句子的數(shù)量;
[0020]所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的報(bào)錯(cuò)句子的長(zhǎng)度;
[0021]同一主站點(diǎn)包含同一報(bào)錯(cuò)句子的不同網(wǎng)頁(yè)集合數(shù)量。
[0022]可選地,所述根據(jù)所述屬性特征驗(yàn)證所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合得到報(bào)錯(cuò)網(wǎng)頁(yè)集合具體為:選取屬性特征符合以下預(yù)設(shè)策略中一項(xiàng)或多項(xiàng)的待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合作為報(bào)錯(cuò)網(wǎng)頁(yè)集合:
[0023]報(bào)錯(cuò)句子在待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中所有的網(wǎng)頁(yè)中被包含;
[0024]待驗(yàn)證報(bào)錯(cuò)集合中包含的不同網(wǎng)頁(yè)數(shù)量大于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合;
[0025]待驗(yàn)證報(bào)錯(cuò)集合中全部網(wǎng)頁(yè)和/或單個(gè)網(wǎng)頁(yè)所包含的句子的總數(shù)小于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合;
[0026]待驗(yàn)證報(bào)錯(cuò)集合中全部網(wǎng)頁(yè)包含的不同句子的數(shù)量小于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合;
[0027]所述報(bào)錯(cuò)句子長(zhǎng)度小于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合;
[0028]同一主站點(diǎn)包含同一報(bào)錯(cuò)句子的不同網(wǎng)頁(yè)集合數(shù)量小于對(duì)應(yīng)預(yù)設(shè)閾值。
[0029]可選地,所述根據(jù)所述報(bào)錯(cuò)網(wǎng)頁(yè)集合識(shí)別報(bào)錯(cuò)網(wǎng)頁(yè)具體包括:
[0030]獲取待識(shí)別網(wǎng)頁(yè)對(duì)應(yīng)的主站點(diǎn)、所述待識(shí)別網(wǎng)頁(yè)在所述主站點(diǎn)中的路徑信息、以及所述待識(shí)別網(wǎng)頁(yè)中包含預(yù)設(shè)否定詞的句子和該句子的簽名;
[0031]查詢所述待識(shí)別網(wǎng)頁(yè)對(duì)應(yīng)的主站點(diǎn)、所述待識(shí)別網(wǎng)頁(yè)在所述主站點(diǎn)中的路徑信息、以及所述待識(shí)別網(wǎng)頁(yè)中包含預(yù)設(shè)否定詞的句子是否與所述主站點(diǎn)中的任一報(bào)錯(cuò)網(wǎng)頁(yè)集合的信息匹配,若匹配,則確定所述待識(shí)別網(wǎng)頁(yè)為報(bào)錯(cuò)網(wǎng)頁(yè)。
[0032]根據(jù)本發(fā)明的另一方面,提供了一種具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別裝置,包括:聚類模塊,用于將多個(gè)網(wǎng)頁(yè)進(jìn)行聚類,得到一個(gè)或多個(gè)網(wǎng)頁(yè)集合;判斷模塊,用于判斷聚類模塊得到的一個(gè)或多個(gè)網(wǎng)頁(yè)集合中是否都包含預(yù)設(shè)的否定詞,將集合中的各網(wǎng)頁(yè)內(nèi)容都包含所述否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合;報(bào)錯(cuò)集合生成模塊,用于提取待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的一個(gè)或多個(gè)屬性特征,根據(jù)屬性特征驗(yàn)證待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合得到報(bào)錯(cuò)網(wǎng)頁(yè)集合,并提取報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息;識(shí)別模塊,用于根據(jù)所述報(bào)錯(cuò)網(wǎng)頁(yè)集合識(shí)別報(bào)錯(cuò)網(wǎng)頁(yè)。
[0033]可選地,所述判斷模塊具體用于:判斷所述網(wǎng)頁(yè)集合中各網(wǎng)頁(yè)內(nèi)容是否都包含同一預(yù)設(shè)的否定詞,將所述網(wǎng)頁(yè)集合中每個(gè)網(wǎng)頁(yè)均包含同一否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合。
[0034]可選地,所述聚類模塊具體用于:針對(duì)一主站點(diǎn),根據(jù)路徑信息對(duì)該主站點(diǎn)中的各個(gè)鏈接網(wǎng)頁(yè)進(jìn)行聚類;
[0035]所述報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息包括以下信息中的一項(xiàng)或多項(xiàng):所述報(bào)錯(cuò)網(wǎng)頁(yè)集合在主站點(diǎn)中的路徑信息、主站點(diǎn)信息、報(bào)錯(cuò)句子以及其簽名信息。
[0036]可選地,所述聚類模塊具體包括:
[0037]路徑信息計(jì)算單元,用于計(jì)算所述主站點(diǎn)中的各個(gè)鏈接網(wǎng)頁(yè)的路徑信息;
[0038]簽名計(jì)算單元,用于對(duì)計(jì)算得到的路徑信息進(jìn)行去重處理,計(jì)算所述去重處理后獲得的路徑信息的簽名;
[0039]聚類單元,用于根據(jù)所述路徑信息的簽名進(jìn)行聚類,將路徑信息的簽名相同的鏈接網(wǎng)頁(yè)加入同一網(wǎng)頁(yè)集合中。
[0040]可選地,所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的屬性特征包括以下特征的一項(xiàng)或多項(xiàng)的組合:
[0041]所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中包含的不同網(wǎng)頁(yè)數(shù)量;
[0042]所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中全部網(wǎng)頁(yè)和/或單個(gè)網(wǎng)頁(yè)所包含的句子的總數(shù);
[0043]所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中全部網(wǎng)頁(yè)中包含的不同句子的數(shù)量;
[0044]所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的報(bào)錯(cuò)句子的長(zhǎng)度;
[0045]同一主站點(diǎn)包含同一報(bào)錯(cuò)句子的不同網(wǎng)頁(yè)集合數(shù)量。
[0046]可選地,所述報(bào)錯(cuò)集合生成模塊具體用于:選取屬性特征符合以下預(yù)設(shè)策略中一項(xiàng)或多項(xiàng)的待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合作為報(bào)錯(cuò)網(wǎng)頁(yè)集合:
[0047]報(bào)錯(cuò)句子在網(wǎng)頁(yè)集合中所有的網(wǎng)頁(yè)中被包含;
[0048]待驗(yàn)證報(bào)錯(cuò)集合中包含的不同網(wǎng)頁(yè)數(shù)量大于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合;
[0049]待驗(yàn)證報(bào)錯(cuò)集合中全部網(wǎng)頁(yè)和/或單個(gè)網(wǎng)頁(yè)所包含的句子的總數(shù)小于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合;
[0050]待驗(yàn)證報(bào)錯(cuò)集合中全部網(wǎng)頁(yè)包含的不同句子的數(shù)量小于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合;
[0051]所述報(bào)錯(cuò)句子長(zhǎng)度小于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合;
[0052]同一主站點(diǎn)包含同一報(bào)錯(cuò)句子的不同網(wǎng)頁(yè)集合數(shù)量小于對(duì)應(yīng)預(yù)設(shè)閾值。
[0053]可選地,所述識(shí)別模塊具體包括:
[0054]提取單元,用于提取所述報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息;
[0055]獲取單元,用于獲取待識(shí)別網(wǎng)頁(yè)對(duì)應(yīng)的主站點(diǎn)、所述待識(shí)別網(wǎng)頁(yè)在所述主站點(diǎn)中的路徑信息、以及所述待識(shí)別網(wǎng)頁(yè)中包含預(yù)設(shè)否定詞的句子;
[0056]查詢單元,用于查詢所述待識(shí)別網(wǎng)頁(yè)對(duì)應(yīng)的主站點(diǎn)、所述待識(shí)別網(wǎng)頁(yè)在所述主站點(diǎn)中的路徑信息、以及所述待識(shí)別網(wǎng)頁(yè)中包含預(yù)設(shè)否定詞的句子是否與所述提取單元提取的主站點(diǎn)中的任一條報(bào)錯(cuò)網(wǎng)頁(yè)集合的信息匹配,若匹配,則確定所述待識(shí)別網(wǎng)頁(yè)為報(bào)錯(cuò)網(wǎng)頁(yè)。
[0057]根據(jù)本發(fā)明的具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別方法和裝置,對(duì)大量網(wǎng)頁(yè)進(jìn)行聚類分析,形成多個(gè)網(wǎng)頁(yè)集合。通過(guò)聚類方法生成的每個(gè)網(wǎng)頁(yè)集合中的網(wǎng)頁(yè)具有相同的報(bào)錯(cuò)特征,包含相同的否定詞或報(bào)錯(cuò)句子,如果一個(gè)網(wǎng)頁(yè)集合中的每個(gè)網(wǎng)頁(yè)內(nèi)容都包含否定詞,將該集合作為一個(gè)待驗(yàn)證的報(bào)錯(cuò)網(wǎng)頁(yè)集合,通過(guò)分析該待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的屬性特征,確定真正的報(bào)錯(cuò)網(wǎng)頁(yè)集合,并提取出相關(guān)信息。然后,根據(jù)報(bào)錯(cuò)網(wǎng)頁(yè)集合及相關(guān)信息對(duì)任意給定的網(wǎng)頁(yè)進(jìn)行識(shí)別。根據(jù)該方案,以具有相同報(bào)錯(cuò)特征的網(wǎng)頁(yè)集合作為識(shí)別的參照,每個(gè)報(bào)錯(cuò)集合可用于識(shí)別多個(gè)報(bào)錯(cuò)網(wǎng)頁(yè),而無(wú)需結(jié)合每個(gè)頁(yè)面和其特定的報(bào)錯(cuò)句子,效率更高,并且,通過(guò)實(shí)時(shí)地自動(dòng)挖掘生成報(bào)錯(cuò)網(wǎng)頁(yè)集合,并且對(duì)網(wǎng)頁(yè)報(bào)錯(cuò)詞句的變化不敏感,降低了識(shí)別的滯后性。
[0058]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說(shuō)明】
[0059]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0060]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別方法的流程圖;
[0061]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的生成報(bào)錯(cuò)集合的方法的流程圖;
[0062]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的利用報(bào)錯(cuò)集合對(duì)具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)進(jìn)行識(shí)別的方法的流程圖;
[0063]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別裝置的結(jié)構(gòu)框圖。【具體實(shí)施方式】
[0064]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0065]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別方法的流程圖,如圖1所示,該方法包括如下步驟:
[0066]步驟S110,將多個(gè)網(wǎng)頁(yè)進(jìn)行聚類,得到一個(gè)或多個(gè)網(wǎng)頁(yè)集合。
[0067]該步驟在服務(wù)器進(jìn)行,服務(wù)器采用一定的網(wǎng)頁(yè)聚類方法對(duì)抓取、收錄的網(wǎng)頁(yè),或一定目標(biāo)范圍內(nèi)的網(wǎng)頁(yè)進(jìn)行聚類。該步驟中聚類的目的是將具有相同報(bào)錯(cuò)特征的網(wǎng)頁(yè)加入到同一個(gè)集合中,而不同集合內(nèi)之間的報(bào)錯(cuò)特征相異。
[0068]可通過(guò)多種聚類方法實(shí)現(xiàn)該目的,例如,基于域名和文本內(nèi)容的聚類,將同一主站點(diǎn)域名下文本內(nèi)容相似的網(wǎng)頁(yè)形成一個(gè)集合,認(rèn)為集合中的網(wǎng)頁(yè)具有相同的報(bào)錯(cuò)特征;或者根據(jù)頁(yè)面鏈接和頁(yè)面標(biāo)簽進(jìn)行聚類,頁(yè)面標(biāo)簽可反映頁(yè)面的標(biāo)題等描述信息,也能夠提供頁(yè)面的結(jié)構(gòu)信息,因此,可以認(rèn)為在頁(yè)面結(jié)構(gòu)中位于相似節(jié)點(diǎn)、位置的鏈接指向同類頁(yè)面,而同類頁(yè)面具有相同的報(bào)錯(cuò)特征。其他能實(shí)現(xiàn)此目的的聚類方法不再一一列舉。
[0069]步驟S120,判斷網(wǎng)頁(yè)集合中各網(wǎng)頁(yè)內(nèi)容是否都包含預(yù)設(shè)的否定詞,將網(wǎng)頁(yè)集合中的各網(wǎng)頁(yè)內(nèi)容都包含否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合。[0070]具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)一般通過(guò)包含否定詞的句子提示用戶,否定詞可以是“已刪除”、“頁(yè)面不存在”、“不可用”、“Not Found”等。
[0071]對(duì)集合中的每個(gè)網(wǎng)頁(yè)提取頁(yè)面內(nèi)容,將頁(yè)面內(nèi)容與上述預(yù)設(shè)的否定詞相匹配,如果存在一個(gè)網(wǎng)頁(yè)集合,該集合中的每個(gè)網(wǎng)頁(yè)都能與一個(gè)或多個(gè)否定詞匹配,將該網(wǎng)頁(yè)集合作為待驗(yàn)證的報(bào)錯(cuò)網(wǎng)頁(yè)集合。
[0072]步驟S130,提取待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的一個(gè)或多個(gè)屬性特征,根據(jù)屬性特征驗(yàn)證待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合得到報(bào)錯(cuò)網(wǎng)頁(yè)集合,并提取報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息。
[0073]網(wǎng)頁(yè)內(nèi)容豐富多樣,上述否定詞在網(wǎng)頁(yè)中可能作為正常的文字內(nèi)容而并不用于報(bào)錯(cuò)提示。該步驟結(jié)合網(wǎng)頁(yè)集合的多個(gè)屬性特征對(duì)待驗(yàn)證的報(bào)錯(cuò)網(wǎng)頁(yè)集合進(jìn)行判斷。作為示例,可以獲取集合內(nèi)的不同網(wǎng)頁(yè)數(shù)量作為屬性特征,為該屬性特征預(yù)設(shè)一個(gè)閾值,例如,閾值設(shè)為20。如果該集合中的網(wǎng)頁(yè)數(shù)量大于20,并且每個(gè)網(wǎng)頁(yè)中都包含預(yù)設(shè)的否定詞,則將該待驗(yàn)證報(bào)錯(cuò)集合確認(rèn)為報(bào)錯(cuò)集合。
[0074]步驟S140,提取報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息并根據(jù)報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息識(shí)別報(bào)錯(cuò)網(wǎng)頁(yè)。
[0075]利用得到的報(bào)錯(cuò)網(wǎng)頁(yè)集合進(jìn)行報(bào)錯(cuò)網(wǎng)頁(yè)的識(shí)別,該步驟的具體過(guò)程對(duì)應(yīng)于步驟S110,例如,步驟SllO中對(duì)一主站點(diǎn)根據(jù)頁(yè)面標(biāo)簽對(duì)其中的鏈接進(jìn)行了聚類,則上述相關(guān)信息可以包括該報(bào)錯(cuò)網(wǎng)頁(yè)集合對(duì)應(yīng)的否定詞,標(biāo)簽的節(jié)點(diǎn)、位置信息,主站點(diǎn)域名等。
[0076]則識(shí)別過(guò)程是:對(duì)一給定的待識(shí)別網(wǎng)頁(yè),獲取該網(wǎng)頁(yè)中的否定詞,標(biāo)簽節(jié)點(diǎn)信息和主站點(diǎn)域名,查看是否與任意報(bào)錯(cuò)集合的相關(guān)信息匹配,將匹配的待識(shí)別網(wǎng)頁(yè)識(shí)別為報(bào)錯(cuò)網(wǎng)頁(yè)。
[0077]根據(jù)本發(fā)明上述實(shí)施例提供的方法,對(duì)大量網(wǎng)頁(yè)進(jìn)行聚類分析,形成多個(gè)網(wǎng)頁(yè)集合。通過(guò)聚類方法生成的每個(gè)網(wǎng)頁(yè)集合中的網(wǎng)頁(yè)具有相同的報(bào)錯(cuò)特征,包含相同的否定詞或報(bào)錯(cuò)句子,如果一個(gè)網(wǎng)頁(yè)集合中的每個(gè)網(wǎng)頁(yè)內(nèi)容都包含否定詞,將該集合作為一個(gè)待驗(yàn)證的報(bào)錯(cuò)網(wǎng)頁(yè)集合,通過(guò)分析該待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的屬性特征,確定真正的報(bào)錯(cuò)網(wǎng)頁(yè)集合,并提取出相關(guān)信息。然后,根據(jù)報(bào)錯(cuò)網(wǎng)頁(yè)集合及相關(guān)信息對(duì)任意給定的網(wǎng)頁(yè)進(jìn)行識(shí)別。根據(jù)該方案,以具有相同報(bào)錯(cuò)特征的網(wǎng)頁(yè)集合作為識(shí)別的參照,每個(gè)報(bào)錯(cuò)集合可用于識(shí)別多個(gè)報(bào)錯(cuò)網(wǎng)頁(yè),而無(wú)需結(jié)合每個(gè)頁(yè)面和其特定的報(bào)錯(cuò)句子,效率更高,并且,報(bào)錯(cuò)網(wǎng)頁(yè)集合的生成過(guò)程實(shí)時(shí)地自動(dòng)進(jìn)行,因此對(duì)網(wǎng)頁(yè)報(bào)錯(cuò)詞句的變化不敏感,降低了識(shí)別的滯后性。
[0078]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的生成報(bào)錯(cuò)網(wǎng)頁(yè)集合的方法的流程圖,如圖2所示,該方法以一個(gè)主站點(diǎn)為例,示出了對(duì)該站點(diǎn)下的網(wǎng)頁(yè)進(jìn)行聚類、篩選得到報(bào)錯(cuò)網(wǎng)頁(yè)集合的方法,該方法包括如下步驟:
[0079]步驟S210,針對(duì)一主站點(diǎn),根據(jù)路徑信息對(duì)該主站點(diǎn)中的各個(gè)鏈接進(jìn)行聚類。
[0080]路徑信息指該主站點(diǎn)下各鏈接的在頁(yè)面中的位置信息。一般地,格式良好的頁(yè)面的樣式和布局是有規(guī)律的,具有相同或相似路徑信息的鏈接指向同類的頁(yè)面,或參數(shù)不同的同一頁(yè)面,這些頁(yè)面具有相同的報(bào)錯(cuò)特征。
[0081]具體地,該步驟中采用Xpath聚類方法對(duì)一主站點(diǎn)下的鏈接網(wǎng)頁(yè)進(jìn)行聚類,Xpath可用于遍歷頁(yè)面中的標(biāo)簽和屬性,表示標(biāo)簽和屬性在頁(yè)面中的路徑信息。Xpath方法將頁(yè)面表示為DOM樹結(jié)構(gòu),頁(yè)面中的每個(gè)標(biāo)簽作為DOM樹的一個(gè)葉節(jié)點(diǎn),采用深度優(yōu)先的遍歷策略,提取DOM樹中的每一個(gè)葉節(jié)點(diǎn),通過(guò)比較其Xpath,將其添加到具有最大相似度的Xpath聚類中,在本發(fā)明中,即是遍歷主站點(diǎn)源碼中包含的全部URL鏈接,獲取每個(gè)鏈接的路徑信息,添加到兩個(gè)Xpath節(jié)點(diǎn)相同的聚類中。
[0082]下面以一主站點(diǎn)的源碼為例,說(shuō)明Xpath聚類過(guò)程,假設(shè)頁(yè)面的主站點(diǎn)源碼為:
[0083]
【權(quán)利要求】
1.一種具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別方法,包括: 將多個(gè)網(wǎng)頁(yè)進(jìn)行聚類,得到一個(gè)或多個(gè)網(wǎng)頁(yè)集合; 判斷所述網(wǎng)頁(yè)集合中各網(wǎng)頁(yè)內(nèi)容是否都包含預(yù)設(shè)的否定詞,將所述網(wǎng)頁(yè)集合中的各網(wǎng)頁(yè)內(nèi)容都包含所述否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合; 提取所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的一個(gè)或多個(gè)屬性特征,根據(jù)所述屬性特征驗(yàn)證所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合得到報(bào)錯(cuò)網(wǎng)頁(yè)集合; 提取所述報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息并根據(jù)所述報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息識(shí)別報(bào)錯(cuò)網(wǎng)頁(yè)。
2.根據(jù)權(quán)利要求1所述的方法,所述將所述網(wǎng)頁(yè)集合中的各網(wǎng)頁(yè)內(nèi)容都包含所述否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合具體為:將所述網(wǎng)頁(yè)集合中每個(gè)網(wǎng)頁(yè)均包含同一否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合; 所述方法還包括:將包含所述否定詞的句子作為該待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的報(bào)錯(cuò)句子。
3.根據(jù)權(quán)利要求1-2任一項(xiàng)所述的方法,所述對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行聚類具體為:針對(duì)一主站點(diǎn),根據(jù)路徑信息對(duì)該主站點(diǎn)中的各個(gè)鏈接網(wǎng)頁(yè)進(jìn)行聚類; 所述報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息包括以下信息中的一項(xiàng)或多項(xiàng):所述報(bào)錯(cuò)網(wǎng)頁(yè)集合在主站點(diǎn)中的路徑信息、主站點(diǎn)信息、報(bào)錯(cuò)句子以及其簽名信息。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,所述根據(jù)路徑信息對(duì)該主站點(diǎn)中的各個(gè)鏈接網(wǎng)頁(yè)進(jìn)行聚類進(jìn)一步包括:` 計(jì)算所述主站點(diǎn)中的各個(gè)鏈接網(wǎng)頁(yè)的路徑信息; 對(duì)計(jì)算得到的路徑信息進(jìn)行去重處理,計(jì)算所述去重處理后獲得的路徑信息的簽名; 根據(jù)所述路徑信息的簽名進(jìn)行聚類,將路徑信息的簽名相同的鏈接網(wǎng)頁(yè)加入同一網(wǎng)頁(yè)^ 由:? 口卞 O
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的屬性特征包括以下特征的一項(xiàng)或多項(xiàng)的組合: 所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中包含的不同網(wǎng)頁(yè)數(shù)量; 所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中全部網(wǎng)頁(yè)和/或單個(gè)網(wǎng)頁(yè)所包含的句子的總數(shù); 所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中全部網(wǎng)頁(yè)中包含的不同句子的數(shù)量; 所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的報(bào)錯(cuò)句子的長(zhǎng)度; 同一主站點(diǎn)包含同一報(bào)錯(cuò)句子的不同網(wǎng)頁(yè)集合數(shù)量。
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,所述根據(jù)所述屬性特征驗(yàn)證所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合得到報(bào)錯(cuò)網(wǎng)頁(yè)集合具體為:選取屬性特征符合以下預(yù)設(shè)策略中一項(xiàng)或多項(xiàng)的待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合作為報(bào)錯(cuò)網(wǎng)頁(yè)集合: 報(bào)錯(cuò)句子在待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合中所有的網(wǎng)頁(yè)中被包含; 待驗(yàn)證報(bào)錯(cuò)集合中包含的不同網(wǎng)頁(yè)數(shù)量大于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合; 待驗(yàn)證報(bào)錯(cuò)集合中全部網(wǎng)頁(yè)和/或單個(gè)網(wǎng)頁(yè)所包含的句子的總數(shù)小于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合; 待驗(yàn)證報(bào)錯(cuò)集合中全部網(wǎng)頁(yè)包含的不同句子的數(shù)量小于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合; 所述報(bào)錯(cuò)句子長(zhǎng)度小于對(duì)應(yīng)預(yù)設(shè)閾值的網(wǎng)頁(yè)集合; 同一主站點(diǎn)包含同一報(bào)錯(cuò)句子的不同網(wǎng)頁(yè)集合數(shù)量小于對(duì)應(yīng)預(yù)設(shè)閾值。
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,所述根據(jù)所述報(bào)錯(cuò)網(wǎng)頁(yè)集合識(shí)別報(bào)錯(cuò)網(wǎng)頁(yè)具體包括: 獲取待識(shí)別網(wǎng)頁(yè)對(duì)應(yīng)的主站點(diǎn)、所述待識(shí)別網(wǎng)頁(yè)在所述主站點(diǎn)中的路徑信息、以及所述待識(shí)別網(wǎng)頁(yè)中包含預(yù)設(shè)否定詞的句子和該句子的簽名; 查詢所述待識(shí)別網(wǎng)頁(yè)對(duì)應(yīng)的主站點(diǎn)、所述待識(shí)別網(wǎng)頁(yè)在所述主站點(diǎn)中的路徑信息、以及所述待識(shí)別網(wǎng)頁(yè)中包含預(yù)設(shè)否定詞的句子是否與所述主站點(diǎn)中的任一報(bào)錯(cuò)網(wǎng)頁(yè)集合的信息匹配,若匹配,則確定所述待識(shí)別網(wǎng)頁(yè)為報(bào)錯(cuò)網(wǎng)頁(yè)。
8.一種具有報(bào)錯(cuò)特征的網(wǎng)頁(yè)識(shí)別裝置,包括: 聚類模塊,用于將多個(gè)網(wǎng)頁(yè)進(jìn)行聚類,得到一個(gè)或多個(gè)網(wǎng)頁(yè)集合; 判斷模塊,用于判斷所述聚類模塊得到的一個(gè)或多個(gè)網(wǎng)頁(yè)集合中是否都包含預(yù)設(shè)的否定詞,將集合中的各網(wǎng)頁(yè)內(nèi)容都包含所述否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合; 報(bào)錯(cuò)集合生成模塊,用于提取所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合的一個(gè)或多個(gè)屬性特征,根據(jù)所述屬性特征驗(yàn)證所述待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合得到報(bào)錯(cuò)網(wǎng)頁(yè)集合;識(shí)別模塊,用于提取所述報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息并根據(jù)所述報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息識(shí)別報(bào)錯(cuò)網(wǎng)頁(yè)。
9.根據(jù)權(quán)利要求8所述的裝置,所述判斷模塊具體用于:判斷所述網(wǎng)頁(yè)集合中各網(wǎng)頁(yè)內(nèi)容是否都包含同一預(yù)設(shè)的否定詞,將所述網(wǎng)頁(yè)集合中每個(gè)網(wǎng)頁(yè)均包含同一否定詞的網(wǎng)頁(yè)集合作為待驗(yàn)證報(bào)錯(cuò)網(wǎng)頁(yè)集合。
10.根據(jù)權(quán)利要求8-9任一項(xiàng)所述的裝置,所述聚類模塊具體用于:針對(duì)一主站點(diǎn),根據(jù)路徑信息對(duì)該主站點(diǎn)中的各個(gè)鏈接網(wǎng)頁(yè)進(jìn)行聚類; 所述報(bào)錯(cuò)網(wǎng)頁(yè)集合的相關(guān)信息包括以下信息中的一項(xiàng)或多項(xiàng):所述報(bào)錯(cuò)網(wǎng)頁(yè)集合在主站點(diǎn)中的路徑信息、主 站點(diǎn)信息、報(bào)錯(cuò)句子以及其簽名信息。
【文檔編號(hào)】G06F17/30GK103870590SQ201410122361
【公開日】2014年6月18日 申請(qǐng)日期:2014年3月28日 優(yōu)先權(quán)日:2014年3月28日
【發(fā)明者】王智廣 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司