網(wǎng)頁(yè)信息處理方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明的實(shí)施例提供一種網(wǎng)頁(yè)信息處理方法及裝置,涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,包括:對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值;根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè);當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片;在新頁(yè)面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片。采用本發(fā)明提供的方法進(jìn)行處理后得出的小說(shuō)頁(yè)面既簡(jiǎn)潔,同時(shí)不失關(guān)注點(diǎn)又便于閱讀。
【專(zhuān)利說(shuō)明】網(wǎng)頁(yè)信息處理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種網(wǎng)頁(yè)信息處理方法及裝置。
【背景技術(shù)】
[0002]目前,通過(guò)網(wǎng)頁(yè)展現(xiàn)小說(shuō)的形式主要有以下兩種:一種是文字形式,即小說(shuō)正文以文字形式直接展現(xiàn)在網(wǎng)頁(yè)中,用戶(hù)瀏覽文字形式的小說(shuō)網(wǎng)頁(yè)時(shí),查看到的是一行行的文字。另一種是圖片形式,小說(shuō)正文以圖片形式存在,并通過(guò)圖片展現(xiàn)在網(wǎng)頁(yè)中。用戶(hù)瀏覽圖片形式的小說(shuō)網(wǎng)頁(yè)時(shí),查看到的是一張張顯示有小說(shuō)正文的圖片。
[0003]通常,展現(xiàn)小說(shuō)的網(wǎng)頁(yè)(下文簡(jiǎn)稱(chēng)為小說(shuō)網(wǎng)頁(yè))除了顯示小說(shuō)的相關(guān)內(nèi)容(例如,小說(shuō)的標(biāo)題,上下章節(jié)的鏈接,小說(shuō)正文等等)之外,還經(jīng)常會(huì)顯示一些廣告、其他網(wǎng)站導(dǎo)航、版權(quán)、推薦者等等其他無(wú)關(guān)信息。
[0004]為了便于用戶(hù)閱讀小說(shuō),現(xiàn)有技術(shù)提供一種網(wǎng)頁(yè)信息處理方法,可以將文字形式的小說(shuō)頁(yè)面中小說(shuō)相關(guān)的信息提取并顯示給用戶(hù),而與小說(shuō)不相關(guān)的信息則不會(huì)顯示給用戶(hù)。
[0005]然而,現(xiàn)有技術(shù)無(wú)法對(duì)圖片形式的小說(shuō)頁(yè)面進(jìn)行處理。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的實(shí)施例提供一種網(wǎng)頁(yè)信息處理方法及裝置,采用本發(fā)明提供的方法進(jìn)行處理后得出的小說(shuō)頁(yè)面既簡(jiǎn)潔,同時(shí)不失關(guān)注點(diǎn)又便于閱讀。
[0007]為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
[0008]一方面,提供一種網(wǎng)頁(yè)信息處理方法,包括:
[0009]對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值,所述特征包括:用于表示原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)相似程度的第一特征、用于表示文本長(zhǎng)度的第二特征,所述文本長(zhǎng)度是指原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù)、用于表示原始網(wǎng)頁(yè)的URL中是否包括目標(biāo)關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容翻頁(yè)鏈接的第五特征和用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片的第六特征;
[0010]根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè);
[0011]當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片;
[0012]在新頁(yè)面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片。
[0013]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,所述對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值包括:
[0014]利用預(yù)設(shè)文本分類(lèi)器對(duì)原始網(wǎng)頁(yè)進(jìn)行計(jì)算,得出第一特征的取值,所述第一特征的取值范圍為[0,100];
[0015]計(jì)算原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù),得出文本長(zhǎng)度,所述文本長(zhǎng)度的取值即為第二特征的取值;
[0016]判斷原始網(wǎng)頁(yè)的URL中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁(yè)的URL中包含目標(biāo)關(guān)鍵字時(shí),得出第三特征的取值為真,否則,得出第三特征的取值為假;
[0017]判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時(shí),得出第四特征的取值為真,否則,得出第四特征的取值為假;
[0018]判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)各翻頁(yè)鏈接,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)各翻頁(yè)鏈接時(shí),得出第五特征的取值為真,否則,得出第五特征的取值為假;
[0019]判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容圖片時(shí),得出第六特征的取值為真,否則,得出第六特征的取值為假。
[0020]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,所述目標(biāo)關(guān)鍵字包括:“files/article/html/”、多個(gè)連續(xù)的數(shù)字串目錄名稱(chēng)或者“xs” ;
[0021]所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括?,第*卷”、“第*章”、“第*節(jié)”或者“第*篇”;
[0022]所述目標(biāo)內(nèi)容翻頁(yè)鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁(yè)”、“上一頁(yè)”、“下一頁(yè)”、“上一卷”、“下一卷”、“上一篇”或者“下一
O
[0023]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,所述根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè)包括:
[0024]判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0025]或者,判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0026]或者,判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0027]或者,判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè)。
[0028]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,所述當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片包括:
[0029]當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字;
[0030]從原始網(wǎng)頁(yè)的DOM樹(shù)中提取目標(biāo)內(nèi)容翻頁(yè)鏈接,所述提取出的目標(biāo)內(nèi)容翻頁(yè)鏈接包括目標(biāo)內(nèi)容翻頁(yè)鏈接采用的文字及其指向的URL ;
[0031]從原始網(wǎng)頁(yè)中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁(yè)鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
[0032]另一方面,提供一種網(wǎng)頁(yè)信息處理裝置,包括:
[0033]識(shí)別模塊,用于對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值,所述特征包括:用于表示原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)相似程度的第一特征、用于表示文本長(zhǎng)度的第二特征,所述文本長(zhǎng)度是指原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù)、用于表示原始網(wǎng)頁(yè)的URL中是否包括目標(biāo) 關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容翻頁(yè)鏈接的第五特征和用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片的第六特征;
[0034]判斷模塊,用于根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè);
[0035]提取模塊,用于當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片;
[0036]顯示模塊,用于在新頁(yè)面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片。
[0037]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,所述識(shí)別模塊包括:
[0038]計(jì)算單元,用于利用預(yù)設(shè)文本分類(lèi)器對(duì)原始網(wǎng)頁(yè)進(jìn)行計(jì)算,得出第一特征的取值,所述第一特征的取值范圍為[0,100];
[0039]所述計(jì)算單元,還用于計(jì)算原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù),得出文本長(zhǎng)度,所述文本長(zhǎng)度的取值即為第二特征的取值;
[0040]判斷單元,用于判斷原始網(wǎng)頁(yè)的URL中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁(yè)的URL中包含目標(biāo)關(guān)鍵字時(shí),得出第三特征的取值為真,否則,得出第三特征的取值為假;
[0041]所述判斷單元,還用于判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時(shí),得出第四特征的取值為真,否則,得出第四特征的取值為假;
[0042]所述判斷單元,還用于判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容翻頁(yè)鏈接,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容翻頁(yè)鏈接時(shí),得出第五特征的取值為真,否則,得出第五特征的取值為假;
[0043]所述判斷單元,還用于判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容圖片時(shí),得出第六特征的取值為真,否則,得出第六特征的取值為假。
[0044]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,所述目標(biāo)關(guān)鍵字包括:“files/article/html/”、多個(gè)連續(xù)的數(shù)字串目錄名稱(chēng)或者“xs” ;
[0045]所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括?,第*卷”、“第*章”、“第*節(jié)”或者“第*篇”;
[0046]所述目標(biāo)內(nèi)容翻頁(yè)鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁(yè)”、“上一頁(yè)”、“下一頁(yè)”、“上一卷”、“下一卷”、“上一篇”或者“下一
笛”
屆 ο
[0047]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,所述判斷模塊具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0048]或者,所述判斷模塊具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0049]或者,所述判斷模塊具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0050]或者,所述判斷模塊具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否貝U,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè)。
[0051]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,所述提取模塊具體用于當(dāng)判斷模塊判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字;從原始網(wǎng)頁(yè)的DOM樹(shù)中提取目標(biāo)內(nèi)容翻頁(yè)鏈接,所述提取出的目標(biāo)內(nèi)容翻頁(yè)鏈接包括目標(biāo)內(nèi)容翻頁(yè)鏈接采用的文字及其指向的URL ;從原始網(wǎng)頁(yè)中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁(yè)鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
[0052]上述技術(shù)方案中,通過(guò)對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值,根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè);當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片;并在新頁(yè)面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片,亦即,原始頁(yè)面中除了所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片之外的內(nèi)容,不會(huì)在新頁(yè)面中顯示,減小了無(wú)關(guān)內(nèi)容對(duì)用戶(hù)引起的閱讀干擾,該新頁(yè)面內(nèi)容簡(jiǎn)潔,不失關(guān)注點(diǎn)又便于閱讀。
[0053]特別的,當(dāng)上述技術(shù)方案應(yīng)用于小說(shuō)頁(yè)面的處理時(shí),可以實(shí)現(xiàn)在新頁(yè)面中顯示小說(shuō)標(biāo)題、小說(shuō)翻頁(yè)鏈接和包含有小說(shuō)正文的圖片,而除了小說(shuō)標(biāo)題、小說(shuō)翻頁(yè)鏈接和包含有小說(shuō)正文的圖片之外的內(nèi)容,例如廣告、其他網(wǎng)站導(dǎo)航、版權(quán)、推薦者等小說(shuō)無(wú)關(guān)內(nèi)容都不會(huì)進(jìn)行顯示,減小了無(wú)關(guān)內(nèi)容對(duì)用戶(hù)引起的閱讀干擾,該新頁(yè)面內(nèi)容簡(jiǎn)潔,不失關(guān)注點(diǎn)又便于閱讀。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0054]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0055]圖1為本發(fā)明實(shí)施例1提供一種網(wǎng)頁(yè)信息處理方法的流程圖;[0056]圖2為本發(fā)明實(shí)施例1提供一種網(wǎng)頁(yè)信息處理方法中步驟101的實(shí)現(xiàn)流程圖;
[0057]圖3為本發(fā)明實(shí)施例1提供一種網(wǎng)頁(yè)信息處理方法中步驟103的實(shí)現(xiàn)流程圖;
[0058]圖4為本發(fā)明實(shí)施例2提供一種網(wǎng)頁(yè)信息處理裝置的結(jié)構(gòu)圖;
[0059]圖5為本發(fā)明實(shí)施例2提供一種網(wǎng)頁(yè)信息處理裝置中識(shí)別模塊的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0060]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0061]實(shí)施例1:
[0062]本發(fā)明實(shí)施例的一種應(yīng)用場(chǎng)景為:對(duì)原始網(wǎng)頁(yè)進(jìn)行識(shí)別后,如果該原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),則從該目標(biāo)網(wǎng)頁(yè)中提取用戶(hù)所關(guān)注的目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片,并通過(guò)新網(wǎng)頁(yè)顯示出來(lái)。
[0063]其中,上述原始網(wǎng)頁(yè)為互聯(lián)網(wǎng)中任意類(lèi)型的網(wǎng)頁(yè),比如,可能是用于展現(xiàn)新聞的新聞網(wǎng)頁(yè),或者用于展現(xiàn)小說(shuō)的小說(shuō)網(wǎng)頁(yè),或者用于展現(xiàn)視頻的視頻網(wǎng)頁(yè)等等,上述目標(biāo)網(wǎng)頁(yè)為某一種特定類(lèi)型的網(wǎng)頁(yè),比如該目標(biāo)網(wǎng)頁(yè)為小說(shuō)網(wǎng)頁(yè)。
[0064]由于原始網(wǎng)頁(yè)中通常展現(xiàn)的信息較為廣泛,除了用戶(hù)關(guān)注的內(nèi)容之外,還可能存在其他與用戶(hù)所關(guān)注內(nèi)容不相關(guān)的信息。例如,原始網(wǎng)頁(yè)為小說(shuō)網(wǎng)頁(yè)時(shí),該原始網(wǎng)頁(yè)除了顯示小說(shuō)標(biāo)題、翻頁(yè)鏈接和小說(shuō)正文之外,通常還會(huì)顯示例如廣告、其他網(wǎng)站導(dǎo)航、版權(quán)、推薦者等小說(shuō)無(wú)關(guān)內(nèi)容,當(dāng)用戶(hù)閱讀小說(shuō)時(shí),主要關(guān)注點(diǎn)為小說(shuō)標(biāo)題、翻頁(yè)鏈接和小說(shuō)正文,而其他無(wú)關(guān)信息將會(huì)對(duì)用戶(hù)產(chǎn)生干擾,因而,本發(fā)明提供一種網(wǎng)頁(yè)處理的方法,采用該方法進(jìn)行處理后得出的小說(shuō)頁(yè)面既簡(jiǎn)潔,同時(shí)不失關(guān)注點(diǎn)又便于閱讀,減小了無(wú)關(guān)內(nèi)容對(duì)用戶(hù)引起的閱讀干擾。
[0065]下面詳細(xì)描述一種網(wǎng)頁(yè)信息處理方法,如圖1所示,該方法包括:
[0066]101、對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值。
[0067]其中,所述特征包括:用于表示原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)相似程度的第一特征、用于表示文本長(zhǎng)度的第二特征,所述文本長(zhǎng)度是指原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù)、用于表示原始網(wǎng)頁(yè)的URL中是否包括目標(biāo)關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容翻頁(yè)鏈接的第五特征和用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片的第六特征。
[0068]102、根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè)。
[0069]103、當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片。
[0070]104、在新頁(yè)面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片。
[0071]本實(shí)施例中,通過(guò)對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值,根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè);當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片;并在新頁(yè)面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片,亦即,原始頁(yè)面中除了所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片之外的內(nèi)容,不會(huì)在新頁(yè)面中顯示,減小了無(wú)關(guān)內(nèi)容對(duì)用戶(hù)引起的閱讀干擾,該新頁(yè)面內(nèi)容簡(jiǎn)潔,不失關(guān)注點(diǎn)又便于閱讀。
[0072]特別的,當(dāng)上述技術(shù)方案應(yīng)用于小說(shuō)頁(yè)面的處理時(shí),可以實(shí)現(xiàn)在新頁(yè)面中顯示小說(shuō)標(biāo)題、小說(shuō)翻頁(yè)鏈接和包含有小說(shuō)正文的圖片,而除了小說(shuō)標(biāo)題、小說(shuō)翻頁(yè)鏈接和包含有小說(shuō)正文的圖片之外的內(nèi)容,例如廣告、其他網(wǎng)站導(dǎo)航、版權(quán)、推薦者等小說(shuō)無(wú)關(guān)內(nèi)容都不會(huì)進(jìn)行顯示,減小了無(wú)關(guān)內(nèi)容對(duì)用戶(hù)引起的閱讀干擾,該新頁(yè)面內(nèi)容簡(jiǎn)潔,不失關(guān)注點(diǎn)又便于閱讀。
[0073]下文以目標(biāo)網(wǎng)頁(yè)為圖片形式的小說(shuō)網(wǎng)頁(yè)為例,對(duì)上述網(wǎng)頁(yè)信息處理的方法做進(jìn)一步說(shuō)明。如圖2所示,上述步驟101中所述對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值具體包括如下步驟:
[0074]1011、利用預(yù)設(shè)文本分類(lèi)器對(duì)原始網(wǎng)頁(yè)進(jìn)行計(jì)算,得出第一特征的取值,所述第一特征的取值范圍為[0,100]。
[0075]其中,上述預(yù)設(shè)文本分類(lèi)器采用邏輯回歸(logistic regression)這一線性分類(lèi)算法。該算法在實(shí)現(xiàn)時(shí)分為訓(xùn)練和測(cè)試兩個(gè)計(jì)算過(guò)程。
[0076]訓(xùn)練過(guò)程用于生成預(yù)設(shè)文本分類(lèi)器,具體為:首先人工標(biāo)注一批訓(xùn)練樣本(該訓(xùn)練樣本包括小說(shuō)網(wǎng)頁(yè)和非小說(shuō)網(wǎng)頁(yè)),然后利用分詞將每個(gè)訓(xùn)練樣本向量化,利用邏輯回歸對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí)以最小化目標(biāo)函數(shù),這樣就生成了預(yù)設(shè)文本分類(lèi)器。
[0077]測(cè)試過(guò)程主要是利用生成的預(yù)設(shè)文本分類(lèi)器對(duì)未知樣本進(jìn)行打分,亦即,本步驟中的利用預(yù)設(shè)文本分類(lèi)器對(duì)原始網(wǎng)頁(yè)進(jìn)行計(jì)算,得出一個(gè)分值(其取值范圍為[0,100]),該分值即為第一特征的取值,用于表示原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)(即圖片形式的小說(shuō)網(wǎng)頁(yè))相似程度。第一特征也可以稱(chēng)之為“小說(shuō)傾向程度”。
[0078]需要說(shuō)明的是,第一特征的取值越大,說(shuō)明原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)(即圖片形式的小說(shuō)網(wǎng)頁(yè))相似程度越高,反之,第一特征的取值越小,說(shuō)明原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)(即圖片形式的小說(shuō)網(wǎng)頁(yè))相似程度越低。
[0079]1012、計(jì)算原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù),得出文本長(zhǎng)度,所述文本長(zhǎng)度的取值即為第二特征的取值。
[0080]由于圖片形式的小說(shuō)網(wǎng)頁(yè)中,小說(shuō)正文內(nèi)容均以圖片的形式進(jìn)行顯示,與文字形式的小說(shuō)網(wǎng)頁(yè)相比時(shí),圖片形式的小說(shuō)網(wǎng)頁(yè)中直接以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù)是比較少的,因而,通過(guò)本步驟計(jì)算出的第二特征的取值在一定程度上也可以用于反映原始網(wǎng)頁(yè)與圖片形式的小說(shuō)網(wǎng)頁(yè)相似程度。
[0081]需要說(shuō)明的是,上述第二特征的取值越小,說(shuō)明原始網(wǎng)頁(yè)與圖片形式的小說(shuō)網(wǎng)頁(yè)相似程度越高,反之上述第二特征的取值越大,說(shuō)明原始網(wǎng)頁(yè)與圖片形式的小說(shuō)網(wǎng)頁(yè)相似程度越低。
[0082]1013、判斷原始網(wǎng)頁(yè)的 URL (Uniform/Universal Resource Locator,統(tǒng)一資源定位符)中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁(yè)的URL中包含目標(biāo)關(guān)鍵字時(shí),得出第三特征的取值為真,否則,得出第三特征的取值為假。
[0083]其中,所述目標(biāo)關(guān)鍵字包括:“/fileS/artiCle/html/”、多個(gè)連續(xù)的數(shù)字串目錄名稱(chēng)或者“ xs ”。[0084]上述多個(gè)連續(xù)的數(shù)字串目錄名稱(chēng),例如,可以是“/75/75623/13214574”,其中“75” “75623” “13214574”即為數(shù)字串目錄名稱(chēng)。
[0085]本步驟在具體實(shí)現(xiàn)時(shí),例如,可以判斷原始網(wǎng)頁(yè)的URL中是否包“/files/article/html/”和多個(gè)連續(xù)的數(shù)字串目錄名稱(chēng);
[0086]或者,又如,還可以判斷原始網(wǎng)頁(yè)的URL中是否“ xs ”和多個(gè)連續(xù)的數(shù)字串目錄名稱(chēng)。
[0087]可以理解的是,當(dāng)本步驟得出的第三特征的取值為真時(shí),說(shuō)明原始網(wǎng)頁(yè)的URL中包含目標(biāo)關(guān)鍵字,也就是說(shuō)原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)存在相似的可能性較大,反之,當(dāng)本步驟得出的第三特征的取值為假時(shí),說(shuō)明原始網(wǎng)頁(yè)的URL中沒(méi)有包含目標(biāo)關(guān)鍵字,也就是說(shuō)原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)存在相似的可能性較小。
[0088]1014、判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時(shí),得出第四特征的取值為真,否則,得出第四特征的取值為假。
[0089]其中,當(dāng)目標(biāo)網(wǎng)頁(yè)為圖片形式的小說(shuō)網(wǎng)頁(yè)時(shí),所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括:“第*卷”、“第*章”、“第*節(jié)”或者“第*篇”。其中可以為數(shù)字。
[0090]可以理解的是,當(dāng)本步驟得出的第四特征的取值為真時(shí),說(shuō)明原始網(wǎng)頁(yè)包含目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,也就是說(shuō)原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)存在相似的可能性較大,反之,當(dāng)本步驟得出的第四特征的取值為假時(shí),說(shuō)明原始網(wǎng)頁(yè)沒(méi)有包含目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,也就是說(shuō)原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)存在相似的可能性較小。
[0091 ] 1015、判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)各翻頁(yè)鏈接,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容翻頁(yè)鏈接時(shí),得出第五特征的取值為真,否則,得出第五特征的取值為假。
[0092]由于圖片形式的小說(shuō)網(wǎng)頁(yè)中,通過(guò)會(huì)存在“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁(yè)”、“上一頁(yè)”、“下一頁(yè)”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”
等等的翻譯鏈接。
[0093]因而,當(dāng)目標(biāo)網(wǎng)頁(yè)為圖片形式的小說(shuō)網(wǎng)頁(yè)時(shí),所述目標(biāo)內(nèi)容翻頁(yè)鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁(yè)”、“上一頁(yè)”、“下一頁(yè)”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”,這些文字均以鏈接的形式出現(xiàn)。
[0094]可以理解的是,當(dāng)本步驟得出的第五特征的取值為真時(shí),說(shuō)明原始網(wǎng)頁(yè)包含目標(biāo)內(nèi)容翻頁(yè)鏈接,也就是說(shuō)原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)存在相似的可能性較大,反之,當(dāng)本步驟得出的第五特征的取值為假時(shí),說(shuō)明原始網(wǎng)頁(yè)沒(méi)有包含目標(biāo)內(nèi)容翻頁(yè)鏈接,也就是說(shuō)原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)存在相似的可能性較小。
[0095]1016、判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容圖片時(shí),得出第六特征的取值為真,否則,得出第六特征的取值為假。
[0096]該目標(biāo)內(nèi)容圖片是指包含有目標(biāo)內(nèi)容的圖片,例如包含有小說(shuō)正文的圖片。
[0097]可以理解的是,當(dāng)本步驟得出的第六特征的取值為真時(shí),說(shuō)明原始網(wǎng)頁(yè)包含目標(biāo)內(nèi)容圖片,也就是說(shuō)原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)存在相似的可能性較大,反之,當(dāng)本步驟得出的第六特征的取值為假時(shí),說(shuō)明原始網(wǎng)頁(yè)沒(méi)有包含目標(biāo)內(nèi)容圖片,也就是說(shuō)原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)存在相似的可能性較小。
[0098]需要說(shuō)明的是,為了提高原始網(wǎng)頁(yè)識(shí)別的精度,步驟102中根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè)時(shí),需要將上述各個(gè)特征的取值進(jìn)行組合判斷,以便于準(zhǔn)確判斷出原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè)。如下所述,上述步驟102具體可以如下幾種方式實(shí)現(xiàn):
[0099]方式一、判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真。
[0100]其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時(shí),亦即,原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù)小于第一預(yù)設(shè)閾值(例如該閾值為500)且原始網(wǎng)頁(yè)的URL中包含目標(biāo)關(guān)鍵字且原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容圖片,則可以得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè);否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè)。
[0101]方式二、判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真。
[0102]其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),亦即原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù)小于第一預(yù)設(shè)閾值(例如該閾值為500)且原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容翻頁(yè)鏈接且原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容圖片時(shí),則可以得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè);否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0103]方式三、判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真。
[0104]其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),亦即原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)相似程度取值大于第二預(yù)設(shè)閾值(例如第二預(yù)設(shè)閾值可以為85)且原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容翻頁(yè)鏈接且原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容圖片時(shí),則可以得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0105]方式四、判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真。
[0106]其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時(shí),亦即原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)相似程度取值大于第二預(yù)設(shè)閾值且原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù)小于第一預(yù)設(shè)閾值且原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字且原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容圖片,則可以得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè)。
[0107]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,如圖3所示,上述103步驟可以采用如下步驟實(shí)現(xiàn):
[0108]1031、當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字。
[0109]由于小說(shuō)標(biāo)題通常是獨(dú)立成行的,因而,提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字,既可以將“第*卷”、“第*章”、“第*節(jié)”或者“第*篇”等目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字提取出來(lái),也可以將具體的章節(jié)名稱(chēng)提取出來(lái)。
[0110]例如,小說(shuō)標(biāo)題所在行的全文為“第3章軒轅劍之崆峒印”,則本步驟可以將目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字“第3章”和具體的章節(jié)名稱(chēng)“軒轅劍之崆峒印”都提取出來(lái)。
[0111]1032、從原始網(wǎng)頁(yè)的DOM (Document Object Model,文檔對(duì)象模型)樹(shù)中提取目標(biāo)內(nèi)容翻頁(yè)鏈接,所述提取出的目標(biāo)內(nèi)容翻頁(yè)鏈接包括目標(biāo)內(nèi)容翻頁(yè)鏈接采用的文字及其指向的URL。
[0112]例如,目標(biāo)內(nèi)容翻頁(yè)鏈接采用的文字為“上一章”(亦即在網(wǎng)頁(yè)中該“上一章”顯示為一種網(wǎng)頁(yè)鏈接形式)時(shí),其指向的URL應(yīng)該為上一章網(wǎng)頁(yè)的URL。
[0113]1033、從原始網(wǎng)頁(yè)中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁(yè)鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
[0114]由于圖片形式的小說(shuō)網(wǎng)頁(yè)中,目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行通常位于整個(gè)頁(yè)面的上方,目標(biāo)內(nèi)容翻頁(yè)鏈接所在行通常位于整個(gè)頁(yè)面的下方,而包含有小說(shuō)正文的圖片通常位于目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁(yè)鏈接所在行之間,因而,可以利用該位置關(guān)系快速地將小說(shuō)正文的圖片提取出來(lái)。
[0115]實(shí)施例2:
[0116]本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)信息處理裝置,如圖4所示,該裝置包括:
[0117]識(shí)別模塊11,用于對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值,
[0118]所述特征包括:用于表示原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)相似程度的第一特征、用于表示文本長(zhǎng)度的第二特征,所述文本長(zhǎng)度是指原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù)、用于表示原始網(wǎng)頁(yè)的URL中是否包括目標(biāo)關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容翻頁(yè)鏈接的第五特征和用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片的第六特征;
[0119]判斷模塊12,用于根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè);
[0120]提取模塊13,用于當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片;
[0121]顯示模塊14,用于在新頁(yè)面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片。
[0122]本實(shí)施例中,通過(guò)對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值,根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè);當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片;并在新頁(yè)面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片,亦即,原始頁(yè)面中除了所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片之外的內(nèi)容,不會(huì)在新頁(yè)面中顯示,減小了無(wú)關(guān)內(nèi)容對(duì)用戶(hù)引起的閱讀干擾,該新頁(yè)面內(nèi)容簡(jiǎn)潔,不失關(guān)注點(diǎn)又便于閱讀。
[0123]特別的,當(dāng)上述技術(shù)方案應(yīng)用于小說(shuō)頁(yè)面的處理時(shí),可以實(shí)現(xiàn)在新頁(yè)面中顯示小說(shuō)標(biāo)題、小說(shuō)翻頁(yè)鏈接和包含有小說(shuō)正文的圖片,而除了小說(shuō)標(biāo)題、小說(shuō)翻頁(yè)鏈接和包含有小說(shuō)正文的圖片之外的內(nèi)容,例如廣告、其他網(wǎng)站導(dǎo)航、版權(quán)、推薦者等小說(shuō)無(wú)關(guān)內(nèi)容都不會(huì)進(jìn)行顯示,減小了無(wú)關(guān)內(nèi)容對(duì)用戶(hù)引起的閱讀干擾,該新頁(yè)面內(nèi)容簡(jiǎn)潔,不失關(guān)注點(diǎn)又便于閱讀。
[0124]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,如圖5所示,所述識(shí)別模塊11包括:
[0125]計(jì)算單元111,用于利用預(yù)設(shè)文本分類(lèi)器對(duì)原始網(wǎng)頁(yè)進(jìn)行計(jì)算,得出第一特征的取值,所述第一特征的取值范圍為[0,100];
[0126]所述計(jì)算單元111,還用于計(jì)算原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù),得出文本長(zhǎng)度,所述文本長(zhǎng)度的取值即為第二特征的取值;[0127]判斷單元112,用于判斷原始網(wǎng)頁(yè)的URL中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁(yè)的URL中包含目標(biāo)關(guān)鍵字時(shí),得出第三特征的取值為真,否則,得出第三特征的取值為假;
[0128]所述判斷單元112,還用于判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時(shí),得出第四特征的取值為真,否則,得出第四特征的取值為假;
[0129]所述判斷單元112,還用于判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容翻頁(yè)鏈接,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容翻頁(yè)鏈接時(shí),得出第五特征的取值為真,否則,得出第五特征的取值為假;
[0130]所述判斷單元112,還用于判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容圖片時(shí),得出第六特征的取值為真,否則,得出第六特征的取值為假。
[0131]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,當(dāng)上述目標(biāo)網(wǎng)頁(yè)具體為圖片形式的小說(shuō)網(wǎng)頁(yè)時(shí),所述目標(biāo)關(guān)鍵字包括:“/files/article/html/”、多個(gè)連續(xù)的數(shù)字串目錄名稱(chēng)或者“xs”;所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括?,第*卷”、“第*章”、“第*節(jié)”或者“第*篇”;所述目標(biāo)內(nèi)容翻頁(yè)鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁(yè)”、“上一頁(yè)”、“下一頁(yè)”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
[0132]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,所述判斷模塊12具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0133]或者,所述判斷模塊12具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0134]或者,所述判斷模塊12具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè);
[0135]或者,所述判斷模塊12具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè)。
[0136]本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,所述提取模塊13具體用于當(dāng)判斷模塊判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字;從原始網(wǎng)頁(yè)的DOM樹(shù)中提取目標(biāo)內(nèi)容翻頁(yè)鏈接,所述提取出的目標(biāo)內(nèi)容翻頁(yè)鏈接包括目標(biāo)內(nèi)容翻頁(yè)鏈接采用的文字及其指向的URL ;從原始網(wǎng)頁(yè)中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁(yè)鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
[0137]通過(guò)以上的實(shí)施方式的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在可讀取的存儲(chǔ)介質(zhì)中,如計(jì)算機(jī)的軟盤(pán),硬盤(pán)或光盤(pán)等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
[0138]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)信息處理方法,其特征在于,包括: 對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值,所述特征包括:用于表示原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)相似程度的第一特征、用于表示文本長(zhǎng)度的第二特征,所述文本長(zhǎng)度是指原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù)、用于表示原始網(wǎng)頁(yè)的URL中是否包括目標(biāo)關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容翻頁(yè)鏈接的第五特征和用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片的第六特征; 根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè); 當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片; 在新頁(yè)面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值包括: 利用預(yù)設(shè)文本分類(lèi)器對(duì)原始網(wǎng)頁(yè)進(jìn)行計(jì)算,得出第一特征的取值,所述第一特征的取值范圍為[O, 100]; 計(jì)算原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù),得出文本長(zhǎng)度,所述文本長(zhǎng)度的取值即為第二特征的取值; 判斷原始網(wǎng)頁(yè)的URL中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁(yè)的URL中包含目標(biāo)關(guān)鍵字時(shí),得出第三特征的取值為真,否則,得出第三特征的取值為假; 判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)`容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時(shí),得出第四特征的取值為真,否則,得出第四特征的取值為假; 判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)各翻頁(yè)鏈接,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)各翻頁(yè)鏈接時(shí),得出第五特征的取值為真,否則,得出第五特征的取值為假; 判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容圖片時(shí),得出第六特征的取值為真,否則,得出第六特征的取值為假。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標(biāo)關(guān)鍵字包括Z/files/article/html/”、多個(gè)連續(xù)的數(shù)字串目錄名稱(chēng)或者“xs” ; 所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括:“第*卷”、“第*章”、“第*節(jié)”或者“第*篇”; 所述目標(biāo)內(nèi)容翻頁(yè)鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁(yè)”、“上一頁(yè)”、“下一頁(yè)”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè)包括: 判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè); 或者,判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè); 或者,判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè); 或者,判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè)。
5.根據(jù)權(quán)利要求1-3所述的方法,其特征在于,所述當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片包括: 當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字; 從原始網(wǎng)頁(yè)的DOM樹(shù)中提取目標(biāo)內(nèi)容翻頁(yè)鏈接,所述提取出的目標(biāo)內(nèi)容翻頁(yè)鏈接包括目標(biāo)內(nèi)容翻頁(yè)鏈接采用的文字及其指向的URL ; 從原始網(wǎng)頁(yè)中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁(yè)鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
6.一種網(wǎng)頁(yè)信息處理裝置,其特征在于,包括: 識(shí)別模塊,用于對(duì)原始網(wǎng)頁(yè)進(jìn)行特征識(shí)別,得出各特征的取值,所述特征包括:用于表示原始網(wǎng)頁(yè)與目標(biāo)網(wǎng)頁(yè)相似程度的第一特征、用于表示文本長(zhǎng)度的第二特征,所述文本長(zhǎng)度是指原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù)、用于表示原始網(wǎng)頁(yè)的URL中是否包括目標(biāo)關(guān)鍵字的第三特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字的第四特征、用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容翻頁(yè)鏈接的第五特征和用于表示原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片的第六特征; 判斷模塊,用于根據(jù)所述各特征的取值判斷所述原始網(wǎng)頁(yè)是否為目標(biāo)網(wǎng)頁(yè); 提取模塊,用于當(dāng)判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片; 顯示模塊,用于在新頁(yè)面中顯示所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字、目標(biāo)內(nèi)容翻頁(yè)鏈接和目標(biāo)內(nèi)容圖片。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述識(shí)別模塊包括: 計(jì)算單元,用于利用預(yù)設(shè)文本分類(lèi)器對(duì)原始網(wǎng)頁(yè)進(jìn)行計(jì)算,得出第一特征的取值,所述第一特征的取值范圍為[0,100]; 所述計(jì)算單元,還用于計(jì)算原始網(wǎng)頁(yè)中以文字形式顯示出來(lái)的文字及標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù),得出文本長(zhǎng)度,所述文本長(zhǎng)度的取值即為第二特征的取值; 判斷單元,用于判斷原始網(wǎng)頁(yè)的URL中是否包含目標(biāo)關(guān)鍵字,其中,判斷結(jié)果為原始網(wǎng)頁(yè)的URL中包含目標(biāo)關(guān)鍵字時(shí),得出第三特征的取值為真,否則,得出第三特征的取值為假; 所述判斷單元,還用于判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字時(shí),得出第四特征的取值為真,否則,得出第四特征的取值為假; 所述判斷單元,還用于判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容翻頁(yè)鏈接,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容翻頁(yè)鏈接時(shí),得出第五特征的取值為真,否則,得出第五特征的取值為假; 所述判斷單元,還用于判斷原始網(wǎng)頁(yè)是否存在目標(biāo)內(nèi)容圖片,判斷結(jié)果為原始網(wǎng)頁(yè)存在目標(biāo)內(nèi)容圖片時(shí),得出第六特征的取值為真,否則,得出第六特征的取值為假。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述目標(biāo)關(guān)鍵字包括Z/files/article/html/”、多個(gè)連續(xù)的數(shù)字串目錄名稱(chēng)或者“xs” ; 所述目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字包括?,第*卷”、“第*章”、“第*節(jié)”或者“第*篇”; 所述目標(biāo)內(nèi)容翻頁(yè)鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節(jié)”、“下一節(jié)”、“回首頁(yè)”、“上一頁(yè)”、“下一頁(yè)”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
9.根據(jù)權(quán)利要 求6-8任一項(xiàng)所述的裝置,其特征在于, 所述判斷模塊具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第三特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否貝U,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè); 或者,所述判斷模塊具體用于判斷第二特征的取值是否小于第一預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第二特征的取值小于第一預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè); 或者,所述判斷模塊具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第五特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè); 或者,所述判斷模塊具體用于判斷第一特征的取值是否大于第二預(yù)設(shè)閾值且第二特征的取值是否小于第一預(yù)設(shè)閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結(jié)果為第一特征的取值大于第二預(yù)設(shè)閾值且第二特征的取值小于第一預(yù)設(shè)閾值且第四特征的取值為真且第六特征的取值為真時(shí),得出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè),否則,得出所述原始網(wǎng)頁(yè)不是目標(biāo)網(wǎng)頁(yè)。
10.根據(jù)權(quán)利要求6-8所述的裝置,其特征在于,所述提取模塊具體用于當(dāng)判斷模塊判斷出所述原始網(wǎng)頁(yè)為目標(biāo)網(wǎng)頁(yè)時(shí),從原始網(wǎng)頁(yè)中提取目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行的所有文字;從原始網(wǎng)頁(yè)的DOM樹(shù)中提取目標(biāo)內(nèi)容翻頁(yè)鏈接,所述提取出的目標(biāo)內(nèi)容翻頁(yè)鏈接包括目標(biāo)內(nèi)容翻頁(yè)鏈接采用的文字及其指向的URL ;從原始網(wǎng)頁(yè)中目標(biāo)內(nèi)容標(biāo)題關(guān)鍵字所在行與目標(biāo)內(nèi)容翻頁(yè)鏈接所在行之間提取目標(biāo)內(nèi)容圖片。
【文檔編號(hào)】G06F17/30GK103729354SQ201210382157
【公開(kāi)日】2014年4月16日 申請(qǐng)日期:2012年10月10日 優(yōu)先權(quán)日:2012年10月10日
【發(fā)明者】蔡兵 申請(qǐng)人:騰訊科技(深圳)有限公司