網(wǎng)頁識別方法及網(wǎng)頁識別裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,特別是涉及一種網(wǎng)頁識別方法及網(wǎng)頁識別裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的爆炸式增長,各種小型網(wǎng)站層出不窮。這其中也包括大量具有“作弊網(wǎng)頁”的垃圾網(wǎng)站,這些“作弊網(wǎng)頁”沒有實際的內(nèi)容,僅僅通過吸引用戶眼球的標(biāo)題(如色情標(biāo)題等不良內(nèi)容標(biāo)題),騙取用戶的點擊流量,以達到商業(yè)目的。
[0003]目前已有的預(yù)定網(wǎng)頁(不良網(wǎng)頁)計算模型可有效的識別出具有不良內(nèi)容(如色情內(nèi)容或欺騙內(nèi)容等)的垃圾網(wǎng)站,其通過統(tǒng)計機器學(xué)習(xí)的文本分類算法,利用頁面主題內(nèi)容來估計網(wǎng)頁中的不良內(nèi)容。
[0004]然而,部分垃圾網(wǎng)站的“作弊網(wǎng)頁”僅僅通過具有不良內(nèi)容的標(biāo)題來騙取用戶點擊,網(wǎng)頁中并無實際的不良內(nèi)容,因為標(biāo)題的長度遠遠小于網(wǎng)頁內(nèi)容的實際長度,現(xiàn)有的預(yù)定網(wǎng)頁計算模型無法對該“作弊網(wǎng)頁”進行識別,從而無法對該垃圾網(wǎng)站的“作弊網(wǎng)頁”進行過濾。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實施例提供一種可對僅僅吸引用戶眼球而沒有實際內(nèi)容的“作弊”網(wǎng)頁進行識別的網(wǎng)頁識別方法;以解決現(xiàn)有的網(wǎng)頁識別方法不能對上述“作弊”網(wǎng)頁進行過濾的技術(shù)問題。
[0006]本發(fā)明實施例提供一種可對僅僅吸引用戶眼球而沒有實際內(nèi)容的“作弊”網(wǎng)頁進行識別的網(wǎng)頁識別裝置;以解決現(xiàn)有的網(wǎng)頁識別裝置不能對上述“作弊”網(wǎng)頁進行過濾的技術(shù)問題。
[0007]為解決上述問題,本發(fā)明提供的技術(shù)方案如下:
[0008]本發(fā)明實施例提供一種網(wǎng)頁識別方法,其包括:
[0009]根據(jù)預(yù)定詞匯數(shù)據(jù)庫,獲取網(wǎng)頁標(biāo)題中的預(yù)定詞匯,所述預(yù)定詞匯數(shù)據(jù)庫包括所述預(yù)定詞匯以及與所述預(yù)定詞匯對應(yīng)的加權(quán)值;
[0010]根據(jù)所述預(yù)定詞匯數(shù)據(jù)庫中的預(yù)定詞匯的加權(quán)值,生成所述網(wǎng)頁標(biāo)題的第一識別值;以及
[0011]根據(jù)預(yù)設(shè)的第一閾值和所述網(wǎng)頁標(biāo)題的第一識別值,對所述網(wǎng)頁標(biāo)題的所屬網(wǎng)頁進行預(yù)定網(wǎng)頁的識別。
[0012]本發(fā)明實施例還提供一種網(wǎng)頁識別裝置,其包括:
[0013]詞匯獲取模塊,用于根據(jù)預(yù)定詞匯數(shù)據(jù)庫,獲取網(wǎng)頁標(biāo)題中的預(yù)定詞匯,所述預(yù)定詞匯數(shù)據(jù)庫包括預(yù)定詞匯以及與所述預(yù)定詞匯對應(yīng)的加權(quán)值;
[0014]識別值生成模塊,用于根據(jù)所述預(yù)定詞匯數(shù)據(jù)庫中的預(yù)定詞匯的加權(quán)值,生成所述網(wǎng)頁標(biāo)題的第一識別值;以及
[0015]預(yù)定網(wǎng)頁確定模塊,用于根據(jù)預(yù)設(shè)的第一閾值和所述網(wǎng)頁標(biāo)題的第一識別值,對所述網(wǎng)頁標(biāo)題的所屬網(wǎng)頁進行預(yù)定網(wǎng)頁的識別。
[0016]相較于現(xiàn)有技術(shù)的網(wǎng)頁識別方法及網(wǎng)頁識別裝置,本發(fā)明的網(wǎng)頁識別方法和網(wǎng)頁識別裝置通過對網(wǎng)頁標(biāo)題中的預(yù)定詞匯進行識別,實現(xiàn)了對“作弊”網(wǎng)頁的識別,解決了現(xiàn)有的網(wǎng)頁識別方法及網(wǎng)頁識別裝置不能對上述“作弊”網(wǎng)頁進行過濾的技術(shù)問題。
【附圖說明】
[0017]圖1為本發(fā)明的網(wǎng)頁識別方法及網(wǎng)頁識別裝置所在的電子設(shè)備的工作環(huán)境結(jié)構(gòu)示意圖;
[0018]圖2為本發(fā)明的網(wǎng)頁識別裝置的第一優(yōu)選實施例的結(jié)構(gòu)示意圖;
[0019]圖3為本發(fā)明的網(wǎng)頁識別方法的第一優(yōu)選實施例的流程圖;
[0020]圖4為本發(fā)明的網(wǎng)頁識別裝置的第二優(yōu)選實施例的結(jié)構(gòu)示意圖;
[0021]圖5為本發(fā)明的網(wǎng)頁識別方法的第二優(yōu)選實施例的流程圖。
【具體實施方式】
[0022]請參照圖式,其中相同的組件符號代表相同的組件,本發(fā)明的原理是以實施在一適當(dāng)?shù)倪\算環(huán)境中來舉例說明。以下的說明是基于所例示的本發(fā)明具體實施例,其不應(yīng)被視為限制本發(fā)明未在此詳述的其它具體實施例。
[0023]在以下的說明中,本發(fā)明的具體實施例將參考由一部或多部計算機所執(zhí)行之作業(yè)的步驟及符號來說明,除非另有述明。因此,其將可了解到這些步驟及操作,其中有數(shù)次提到為由計算機執(zhí)行,包括了由代表了以一結(jié)構(gòu)化型式中的數(shù)據(jù)之電子信號的計算機處理單元所操縱。此操縱轉(zhuǎn)換該數(shù)據(jù)或?qū)⑵渚S持在該計算機之內(nèi)存系統(tǒng)中的位置處,其可重新配置或另外以本領(lǐng)域技術(shù)人員所熟知的方式來改變該計算機之運作。該數(shù)據(jù)所維持的數(shù)據(jù)結(jié)構(gòu)為該內(nèi)存之實體位置,其具有由該數(shù)據(jù)格式所定義的特定特性。但是,本發(fā)明原理以上述文字來說明,其并不代表為一種限制,本領(lǐng)域技術(shù)人員將可了解到以下所述的多種步驟及操作亦可實施在硬件當(dāng)中。
[0024]如本申請所使用的術(shù)語“組件”、“模塊”、“系統(tǒng)”、“接口 ”、“進程”等等一般地旨在指計算機相關(guān)實體:硬件、硬件和軟件的組合、軟件或執(zhí)行中的軟件。例如,組件可以是但不限于是運行在處理器上的進程、處理器、對象、可執(zhí)行應(yīng)用、執(zhí)行的線程、程序和/或計算機。通過圖示,運行在控制器上的應(yīng)用和該控制器二者都可以是組件。一個或多個組件可以有在于執(zhí)行的進程和/或線程內(nèi),并且組件可以位于一個計算機上和/或分布在兩個或更多計算機之間。
[0025]而且,要求保護的主題可以被實現(xiàn)為使用標(biāo)準(zhǔn)編程和/或工程技術(shù)產(chǎn)生軟件、固件、硬件或其任意組合以控制計算機實現(xiàn)所公開的主題的方法、裝置或制造品。本文所使用的術(shù)語“制造品”旨在包含可從任意計算機可讀設(shè)備、載體或介質(zhì)訪問的計算機程序。當(dāng)然,本領(lǐng)域技術(shù)人員將認(rèn)識到可以對該配置進行許多修改,而不脫離要求保護的主題的范圍或精神。
[0026]圖1和隨后的討論提供了對實現(xiàn)本發(fā)明所述的網(wǎng)頁識別裝置所在的電子設(shè)備的工作環(huán)境的簡短、概括的描述。圖1的工作環(huán)境僅僅是適當(dāng)?shù)墓ぷ鳝h(huán)境的一個實例并且不旨在建議關(guān)于工作環(huán)境的用途或功能的范圍的任何限制。實例電子設(shè)備112包括但不限于個人計算機、服務(wù)器計算機、手持式或膝上型設(shè)備、移動設(shè)備(比如移動電話、個人數(shù)字助理(PDA)、媒體播放器等等)、多處理器系統(tǒng)、消費型電子設(shè)備、小型計算機、大型計算機、包括上述任意系統(tǒng)或設(shè)備的分布式計算環(huán)境,等等。
[0027]盡管沒有要求,但是在“計算機可讀指令”被一個或多個電子設(shè)備執(zhí)行的通用背景下描述實施例。計算機可讀指令可以經(jīng)由計算機可讀介質(zhì)來分布(下文討論)。計算機可讀指令可以實現(xiàn)為程序模塊,比如執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的功能、對象、應(yīng)用編程接口(API)、數(shù)據(jù)結(jié)構(gòu)等等。典型地,該計算機可讀指令的功能可以在各種環(huán)境中隨意組合或分布。
[0028]圖1圖示了包括本發(fā)明的網(wǎng)頁識別裝置的一個或多個實施例的電子設(shè)備112的實例。在一種配置中,電子設(shè)備112包括至少一個處理單元116和存儲器118。根據(jù)電子設(shè)備的確切配置和類型,存儲器118可以是易失性的(比如RAM)、非易失性的(比如ROM、閃存等)或二者的某種組合。該配置在圖1中由虛線114圖示。
[0029]在其他實施例中,電子設(shè)備112可以包括附加特征和/或功能。例如,設(shè)備112還可以包括附加的存儲裝置(例如可移除和/或不可移除的),其包括但不限于磁存儲裝置、光存儲裝置等等。這種附加存儲裝置在圖1中由存儲裝置120圖示。在一個實施例中,用于實現(xiàn)本文所提供的一個或多個實施例的計算機可讀指令可以在存儲裝置120中。存儲裝置120還可以存儲用于實現(xiàn)操作系統(tǒng)、應(yīng)用程序等的其他計算機可讀指令。計算機可讀指令可以載入存儲器118中由例如處理單元116執(zhí)行。
[0030]本文所使用的術(shù)語“計算機可讀介質(zhì)”包括計算機存儲介質(zhì)。計算機存儲介質(zhì)包括以用于存儲諸如計算機可讀指令或其他數(shù)據(jù)之類的信息的任何方法或技術(shù)實現(xiàn)的易失性和非易失性、可移除和不可移除介質(zhì)。存儲器118和存儲裝置120是計算機存儲介質(zhì)的實例。計算機存儲介質(zhì)包括但不限于RAM、ROM、EEPR0M、閃存或其他存儲器技術(shù)、CD-ROM、數(shù)字通用盤(DVD)或其他光存儲裝置、盒式磁帶、磁帶、磁盤存儲裝置或其他磁存儲設(shè)備、或可以用于存儲期望信息并可以被電子設(shè)備112訪問的任何其他介質(zhì)。任意這樣的計算機存儲介質(zhì)可以是電子設(shè)備112的一部分。
[0031 ] 電子設(shè)備112還可以包括允許電子設(shè)備112與其他設(shè)備通信的通信連接126。通信連接126可以包括但不限于調(diào)制解調(diào)器、網(wǎng)絡(luò)接口卡(NIC)、集成網(wǎng)絡(luò)接口、射頻發(fā)射器/接收器、紅外端口、USB連接或用于將電子設(shè)備112連接到其他電子設(shè)備的其他接口。通信連接126可以包括有線連接或無線連接。通信連接126可以發(fā)射和/或接收通信媒體。
[0032]術(shù)語“計算機可讀介質(zhì)”可以包括通信介質(zhì)。通信介質(zhì)典型地包含計算機可讀指令或諸如載波或其他傳輸機構(gòu)之類的“己調(diào)制數(shù)據(jù)信號”中的其他數(shù)據(jù),并且包括任何信息遞送介質(zhì)。術(shù)語“己調(diào)制數(shù)據(jù)信號”可以包括這樣的信號:該信號特性中的一個或多個按