專利名稱:作弊網(wǎng)頁識別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機信息檢索領(lǐng)域,尤其涉及一種作弊網(wǎng)頁識別方法及裝置。
背景技術(shù):
在當(dāng)前互聯(lián)網(wǎng)信息爆炸式增長的背景下,搜索引擎已成為人們根據(jù)自身需要進入互聯(lián)網(wǎng)世界的重要入口之一。因此,網(wǎng)頁在搜索引擎中的排名位置在相當(dāng)程度上影響著該網(wǎng)頁的訪問量。為了獲得到更高的訪問量,進而獲取更多的經(jīng)濟效益,網(wǎng)站總是希望自己的頁面出現(xiàn)在搜索引擎返回結(jié)果中排名靠前的位置。通過提高頁面的質(zhì)量,使其內(nèi)容與用戶查詢更相關(guān)、更加契合用戶的需要,是常規(guī)的提高頁面排名的方法。然而,一些網(wǎng)頁根據(jù)搜索引擎的特點采取有針對性的欺騙手段,而不是提高自身的內(nèi)容質(zhì)量,使得其獲得非公平的查詢相關(guān)性和價值重要性,從而提高其在搜索引擎中的排名。這樣的網(wǎng)頁就是所謂的作弊網(wǎng)頁?;ヂ?lián)網(wǎng)中的作弊網(wǎng)頁對搜索引擎的性能產(chǎn)生了不可忽視的負(fù)面影響。一方面,作弊網(wǎng)頁導(dǎo)致搜索引擎將相關(guān)度弱或權(quán)威性低的網(wǎng)頁展現(xiàn)給用戶,直接影響了用戶所獲得的查詢結(jié)果;另一方面,作弊網(wǎng)頁還導(dǎo)致搜索引擎索引大量內(nèi)容質(zhì)量低或重要性差的信息,從而增加了無謂的索引空間開銷和檢索時間開銷。因此,識別作弊頁面成為高效搜索引擎所不可或缺的關(guān)鍵技術(shù)之一?,F(xiàn)有的作弊網(wǎng)頁主要包括以下四類:基于內(nèi)容的作弊、基于鏈接的作弊、基于掩蓋的作弊和基于跳轉(zhuǎn)的作弊等?;趦?nèi)容的作弊指通過在網(wǎng)頁的標(biāo)題、頁面以及不可見的文本區(qū)域中添加或者堆砌熱門的查詢詞匯,使該網(wǎng)頁能夠在搜索熱門詞匯時被檢索出來,同時獲得較高的相關(guān)度評分,從而提升網(wǎng)頁排車的作弊方式;基于鏈接的作弊指通過在網(wǎng)頁中添加若干鏈接,構(gòu)建出用于誤導(dǎo)PageRank算法的鏈接結(jié)構(gòu),從而提升網(wǎng)頁的權(quán)威性以獲得優(yōu)先排名的作弊手段;基于掩蓋的作弊是指頁面內(nèi)容在被搜索引擎抓取和實際點擊過程不一致,進而欺騙搜索引擎的作弊行為;基于跳轉(zhuǎn)的作弊指利用重定向技術(shù),從當(dāng)前網(wǎng)頁跳轉(zhuǎn)至另一個頁面,從而改變網(wǎng)頁可見內(nèi)容的作弊方式。面對上述的作弊手段和方式,大量的作弊網(wǎng)頁檢測方法和反作弊策略應(yīng)運而生。其中,基于機器學(xué)習(xí)的方法由于其在理論上有著堅實的基礎(chǔ),同時在實踐中也取得了優(yōu)于其他方法的反作弊效果,因此在業(yè)界被廣泛采用。例如,相關(guān)技術(shù)中提供了一種搜索引擎作弊檢測的優(yōu)化方法,以及一種基于小樣本集的搜索引擎作弊檢測方法,這些方法中提供了基于機器學(xué)習(xí)的作弊網(wǎng)頁檢測方法,其百先從頁面中提取特征,然后根據(jù)已知的網(wǎng)頁樣本利用機器學(xué)習(xí)方法訓(xùn)練模型,最后利用模型對作弊網(wǎng)頁進行識別。需要指出的是,搜索引擎的反作弊策略和作弊頁面制造者之間一直處于針鋒相對的狀態(tài)。當(dāng)某網(wǎng)站中的作弊頁面被反作弊策略控制,網(wǎng)站相關(guān)人員將會在原有作弊頁面的基礎(chǔ)上衍生出新的作弊頁面,力圖躲避原有的反作弊策略的識別和處理。這就意味著,反作弊策略如果僅僅能夠?qū)Ξ?dāng)前環(huán)境中的作弊網(wǎng)頁進行甄別,那么它還不能較好地滿足實際需要。只有能夠在當(dāng)前識別能力的基礎(chǔ)上不斷迭代改進,進而在面對不斷變化的作弊網(wǎng)頁時保持可控的召回水平,反作弊策略才能持續(xù)發(fā)揮作用。因此,相關(guān)技術(shù)中提出通過不斷地增加、刪除和修改網(wǎng)頁特征的方式,以期在不修改方法結(jié)構(gòu)的前提下滿足對新型作弊頁面的識別要求。然而,特征的調(diào)整主要源于新型作弊網(wǎng)頁。這意味著,調(diào)整后的特征在原有的網(wǎng)頁樣本中表現(xiàn)得并不典型。因此,如果僅僅調(diào)整網(wǎng)頁特征往往還不足以很好地應(yīng)對新型的作弊網(wǎng)頁。只有根據(jù)頁面特征的調(diào)整情況,適時地添加有針對性的網(wǎng)頁樣本(包括作弊和正常的網(wǎng)頁),才能使反作弊的有效性保持在相對穩(wěn)定的水平。對于作弊網(wǎng)頁而言,盡管其在整體網(wǎng)頁中的絕對占比不算低,但在短時間內(nèi)尋找到特征調(diào)整所需的作弊頁面卻需要花費不菲的代價。對于正常網(wǎng)頁而言,盡管獲取成本低,但是從中選擇出有較強代表性和典型性,同時又與原有模型配合最佳的實例,也并非輕而易舉。由上述分析可知,為了使基于機器學(xué)習(xí)作弊頁面識別方法的召回能力始終保持在較好水平,網(wǎng)頁的獲取和標(biāo)注過程十分關(guān)鍵。由于該過程需要付出較多的人力成本,因此提高這一環(huán)節(jié)的效率對于提高作弊頁面識別方法的整體性能影響重大。遺憾的是,相關(guān)技術(shù)未能有效解決這一間題。針對相關(guān)技術(shù)中基于機器學(xué)習(xí)的作弊頁面識別方法對于新型作弊網(wǎng)頁識別效果較差的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明的主要目的是提供一種作弊網(wǎng)頁識別方法及裝置,以至少解決相關(guān)技術(shù)中基于機器學(xué)習(xí)的作弊頁面識別方法對于新型作弊網(wǎng)頁識別效果較差的問題。根據(jù)本發(fā)明的一個方面,提供了一種作弊網(wǎng)頁識別方法,包括:獲取已知網(wǎng)頁樣本的集合,其中,所述已知網(wǎng)頁樣本為已知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;根據(jù)所述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機;獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁樣本的集合,其中,所述未知網(wǎng)頁樣本為未知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;根據(jù)所述未知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整;使用調(diào)整后的支持向量機判斷待檢測網(wǎng)頁是否為作弊網(wǎng)頁。優(yōu)選地,根據(jù)所述未知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整包括:使用所述初始支持向量機將所述未知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集;將所述正常頁面子集與所述作弊頁面子集中的所述未知網(wǎng)頁樣本進行逐一交換,并重新計算所述初始支持向量機的模型參數(shù),直至所述正常頁面子集與所述作弊頁面子集的間隔不再擴大;使用最終得到的所述正常頁面子集與所述作弊頁面子集對所述初始支持向量機的模型參數(shù)進行調(diào)整。優(yōu)選地,根據(jù)所述未知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整包括使用所述初始支持向量機將所述未知網(wǎng)頁樣本的集合劃分為正常頁面于集和作弊頁面子集;分別獲取所述正常頁面子集和所述作弊頁面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁樣本作為候選的標(biāo)注樣本,其中,所述預(yù)設(shè)第二數(shù)量小于所述正常頁面子集以及所述作弊頁面子集中的未知網(wǎng)頁樣本數(shù)量;在所述候選的標(biāo)注樣本的標(biāo)注結(jié)果與所述初始支持向量機對所述候選的標(biāo)注樣本的判斷結(jié)果不同時,將所述候選的標(biāo)注樣本按照所述標(biāo)注結(jié)果添加至所述已知網(wǎng)頁樣本的集合;使用最終得到的所述已知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整。優(yōu)選地,在根據(jù)所述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機之前,還包括:將所述已知網(wǎng)頁樣本的集合中網(wǎng)頁樣本的網(wǎng)頁特征轉(zhuǎn)化為特征向量,其中,所述網(wǎng)頁特征包括以下類型至少之一:網(wǎng)頁的內(nèi)容特征,網(wǎng)頁的結(jié)構(gòu)特征,網(wǎng)頁的鏈接特征。優(yōu)選地,根據(jù)所述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機包括:將所述已知網(wǎng)頁樣本的集合分為第一子集和第二子集;根據(jù)所述第一子集生成用于判斷作弊網(wǎng)頁的初始支持向量機;使用所述第二子集對所述初始支持向量機的判斷準(zhǔn)確性進行測試。根據(jù)本發(fā)明的另一方面,還提供了一種作弊網(wǎng)頁識別裝置,包括:第一獲取模塊,用于獲取已知網(wǎng)頁樣本的集合,其中,所述已知網(wǎng)頁樣本為已知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;生成模塊,用于根據(jù)所述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機;第二獲取模塊,用于獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁樣本的集合,其中,所述未知網(wǎng)頁樣本為未知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;調(diào)整模塊,用于根據(jù)所述未知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整;判斷模塊,用于使用調(diào)整后的支持向量機判斷待檢測網(wǎng)頁是否為作弊網(wǎng)頁。優(yōu)選地,所述調(diào)整模塊包括:第一劃分單元,用于使用所述初始支持向量機將所述未知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集:第一處理單元,用于將所述正常頁面子集與所述作弊頁面子集中的所述未知網(wǎng)頁樣本進行逐一交換,并重新計算所述初始支持向量機的模型參數(shù),直至所述正常頁面子集與所述作弊頁面子集的間隔不再擴大:第一調(diào)整單元,用于使用最終得到的所述正常頁面子集與所述作弊頁面子集對所述初始支持向量機的模型參數(shù)進行調(diào)整。優(yōu)選地,所述調(diào)整模塊包括:第二劃分單元,用于使用所述初始支持向量機將所述未知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集:獲取單元,用于分別獲取所述正常頁面子集和所述作弊頁面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁樣本作為候選的標(biāo)注樣本,其中,所述預(yù)設(shè)第二數(shù)量小于所述正常頁面子集以及所述作弊頁面子集中的未知網(wǎng)頁樣本數(shù)量;第二處理單元,用于在所述候選的標(biāo)注樣本的標(biāo)注結(jié)果與所述初始支持向量機對所述候選的標(biāo)注樣本的判斷結(jié)果不同時,將所述候選的標(biāo)注樣本按照所述標(biāo)注結(jié)果添加至所述已知網(wǎng)頁樣本的集合;第二調(diào)整單元,用于使用最終得到的所述已知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整。優(yōu)選地,所述裝置還包括:轉(zhuǎn)化模塊,用于將所述已知網(wǎng)頁樣本的集合中網(wǎng)頁樣本的網(wǎng)頁特征轉(zhuǎn)化為特征向量,其中,所述網(wǎng)頁特征包括以下類型至少之一:網(wǎng)頁的內(nèi)容特征,網(wǎng)頁的結(jié)構(gòu)特征,網(wǎng)頁的鏈接特征。優(yōu)選地,所述生成模塊包括:第三劃分單元,用于將所述已知網(wǎng)頁樣本的集合分為第一子集和第二子集;生成單元,用于根據(jù)所述第一子集生成用于判斷作弊網(wǎng)頁的初始支持向量機;測試單元,用于使用所述第二子集對所述初始支持向量機的判斷準(zhǔn)確性進行測試。根據(jù)本發(fā)明的技術(shù)方案,采用獲取已知網(wǎng)頁樣本的集合,其中,該已知網(wǎng)頁樣本為已知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;根據(jù)上述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機;獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁樣本的集合,其中,該未知網(wǎng)頁樣本為未知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;根據(jù)上述未知網(wǎng)頁樣本的集合對上述初始支持向量機的模型參數(shù)進行調(diào)整;使用調(diào)整后的支持向量機判斷待檢測網(wǎng)頁是否為作弊網(wǎng)頁的方式,解決了相關(guān)技術(shù)中基于機器學(xué)習(xí)的作弊頁面識別方法對于新型作弊網(wǎng)頁識別效果較差的問題,提升了對于新型作弊網(wǎng)頁的識別效果。
說明書附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:圖1是根據(jù)本發(fā)明實施例的作弊網(wǎng)頁識別方法的流程2是根據(jù)本發(fā)明實施例的作弊網(wǎng)頁識別裝置的結(jié)構(gòu)框圖;圖3是根據(jù)本發(fā)明實施例的調(diào)整模塊的優(yōu)選結(jié)構(gòu)框圖;圖4是根據(jù)本發(fā)明實施例的作弊網(wǎng)頁識別裝置的優(yōu)選結(jié)構(gòu)框圖;圖5是根據(jù)本發(fā)明實施例的生成模塊的優(yōu)選結(jié)構(gòu)框圖;圖6是根據(jù)本發(fā)明實施例一的基于半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)的作弊網(wǎng)頁識別方法的各步驟流程圖;圖7是根據(jù)本發(fā)明實施例一的基于半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)的作弊網(wǎng)頁識別裝置的結(jié)構(gòu)框圖;圖8是根據(jù)本發(fā)明實施例二的樣本預(yù)處理步驟的優(yōu)選流程圖;圖9是根據(jù)本發(fā)明實施例二的基于半監(jiān)督學(xué)習(xí)識別模型訓(xùn)練步驟的優(yōu)選流程10是根據(jù)本發(fā)明實施例二的基于主動學(xué)習(xí)的網(wǎng)頁樣本添加步驟的優(yōu)選流程圖。
具體實施例方式需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細(xì)說明本發(fā)明。雖然相關(guān)技術(shù)中提供了基于機器學(xué)習(xí)的作弊網(wǎng)頁檢測方法,并提出通過增加、刪除和修改網(wǎng)頁特征,保持系統(tǒng)對作弊識別的有效性。然而,對于如何通過添加針對性樣本的問題,相關(guān)技術(shù)中均未提及。因此,在本實施例中提供了一種作弊網(wǎng)頁識別方法,圖1是根據(jù)本發(fā)明實施例的作弊網(wǎng)頁識別方法的流程圖,如圖1所示,該方法包括如下步驟:步驟S102,獲取已知網(wǎng)頁樣本的集合,其中,該已知網(wǎng)頁樣本為已知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;步驟S104,根掘上述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機;步驟S106,獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁樣本的集合,其中,該未知網(wǎng)頁樣本為未知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;步驟S108,根據(jù)上述未知網(wǎng)頁樣本的集合對上述初始支持向量機的模型參數(shù)進行調(diào)整,這里可以重復(fù)執(zhí)行S106-S108的步驟,繼續(xù)獲取未知網(wǎng)頁樣本,以持續(xù)更新支持向量機的模型參數(shù):步驟S110,使用調(diào)整后的支持向量機判斷待檢測網(wǎng)頁是否為作弊網(wǎng)頁。本實施例通過上述步驟,在根據(jù)已知網(wǎng)頁樣本的集合生成初始的用于判斷是否為作弊網(wǎng)頁的支持向量機之后,再根據(jù)未知網(wǎng)頁樣本集合(該未知網(wǎng)頁樣本集合優(yōu)選地可以包含具有統(tǒng)計意義數(shù)量的未知網(wǎng)頁樣本)對初始的支持向量機的模型參數(shù)進行調(diào)整,并使用調(diào)整后的支持向量機對待檢測網(wǎng)頁進行作弊判斷,由于調(diào)整后的支持向量機的模型參數(shù)中考慮了未知網(wǎng)頁樣本集合,從而相比使用只考慮已知網(wǎng)頁樣本集合的初始支持向量機進行作弊判斷而言,調(diào)整后的支持向量機對于新型作弊網(wǎng)頁的判斷更加快速和準(zhǔn)確,解決了相關(guān)技術(shù)中基于機器學(xué)習(xí)的作弊頁面識別方法對于新型作弊網(wǎng)頁識別效果較差的問題,提升了對于新型作弊網(wǎng)頁的識別效果。優(yōu)選地,上述步驟S108中根據(jù)未知網(wǎng)頁樣本的集合對初始支持向量機的模型參數(shù)進行調(diào)整的方式可以包括兩種,一種方式是半監(jiān)督學(xué)習(xí)方式,一種是主動學(xué)習(xí)方式,下面對這兩種方式分別進行說明:方式一(半監(jiān)督學(xué)習(xí)方式),該方式可以首先使用初始支持向量機將未知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集,然后將正常頁面子集與作弊頁面子集中的元素(即未知網(wǎng)頁樣本)進行逐一交換,并重新計算初始支持向量機的模型參數(shù),擴大正常頁面子集與作弊頁面子集之間的間隔,直至正常頁面子集與作弊頁面子集的間隔不再擴大為止,使用最終得到的正常頁面子集與作弊頁面子集對初始支持向量機參數(shù)進行調(diào)整。此時根據(jù)最終調(diào)整得到的參數(shù)即可獲得最終調(diào)整后的支持向量機。方式二(主動學(xué)習(xí)方式),該方式也可以是首先使用初始支持向量機將末知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集,然后,分別獲取正常頁面子集和作弊頁面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁樣本作為候選的標(biāo)注樣本,其中該預(yù)設(shè)第二數(shù)量是小于正常頁面子集以及作弊頁面子集中的未知網(wǎng)頁樣本數(shù)量的。經(jīng)過人工對候選的標(biāo)注樣本進行標(biāo)注后,如果發(fā)現(xiàn)候選的標(biāo)注樣本的人工標(biāo)注結(jié)果與初始支持向量機對候選的標(biāo)注樣本的判斷結(jié)果不同,例如,正常頁面子集中的候選標(biāo)注樣本的人工標(biāo)注結(jié)果為作弊網(wǎng)頁,或者作弊頁面子集中的候選標(biāo)注樣本的人工標(biāo)注結(jié)果為正常網(wǎng)頁,則可以將候選的標(biāo)注樣本按照人工標(biāo)注的結(jié)果添加至已知網(wǎng)頁樣本的集合中。此時由于已知網(wǎng)頁樣本集合發(fā)生改變,則可以使用改變的已知網(wǎng)頁樣本集合對初始支持向量機參數(shù)進行調(diào)整,根據(jù)最終調(diào)整得到的參數(shù)即可獲得最終調(diào)整后的支持向量機。優(yōu)選地,在根據(jù)已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機之前,還可以對已知網(wǎng)頁樣本集合進行一些預(yù)處理,以方便支持向量機的生成,例加,可以將已知網(wǎng)頁樣本的集合中網(wǎng)頁樣本的網(wǎng)頁特征分別轉(zhuǎn)化為特征向量,其中,上述網(wǎng)頁特征可以包括但不限于以下類型至少之一:網(wǎng)頁的內(nèi)容特征,網(wǎng)頁的結(jié)構(gòu)特征,網(wǎng)頁的鏈接特征
坐寸ο優(yōu)選地,步驟S104中根據(jù)已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機的方式可以為:將已知網(wǎng)頁樣本的集合分為第一子集(例如,可以稱為訓(xùn)練子集)和第二子集(例如,可以稱為測試子集),然后根據(jù)第一子集生成用于判斷作弊網(wǎng)頁的初始支持向量機,最后使用第二子集對初始支持向量機的判斷準(zhǔn)確性進行測試。通過這種邊學(xué)習(xí)邊驗證的方式,保證了初始支持向量機對于已知網(wǎng)頁樣本集合的判斷準(zhǔn)確性。
對應(yīng)于上述方法,在本實施例中還提供了一種作弊網(wǎng)頁識別裝置,該裝置用于實現(xiàn)上述實施例及優(yōu)選實施方式,已經(jīng)進行過說明的不再贅述。加以下所使用的,術(shù)語"模塊"可以實現(xiàn)預(yù)定功能的軟件和/或硬件的組合。盡管以下實施例所描述的裝置較住地以軟件來實現(xiàn),但是硬件,或者軟件和硬件的組合的實現(xiàn)也是可能并被構(gòu)想的。圖2是根據(jù)本發(fā)明實施例的作弊網(wǎng)頁識別裝置的結(jié)構(gòu)框圖,如圖2所示,該裝置包括:第一獲取模塊22、生成模塊24、第二獲取模塊26、調(diào)整模塊28、以及判斷模塊30,下面對各個模塊進行詳細(xì)說明。第一獲取模塊22,用于獲取已知網(wǎng)頁樣本的集合,其中,已知網(wǎng)頁樣本為已知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;生成模塊24,與第一獲取模塊22相連,用于根據(jù)第一獲取模塊22獲取的已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機;第二獲取模塊26,用于獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁樣本的集合,其中,未知網(wǎng)頁樣本為未知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;調(diào)整模塊28,與生成模塊24和第二獲取模塊26相連,用于根據(jù)第二獲取模塊26獲取的未知網(wǎng)頁樣本的集合對生成模塊24生成的初始支持向量機的模型參數(shù)進行調(diào)整;判斷模塊30,與調(diào)整模塊28相連,用于使用調(diào)整后的支持向量機判斷待檢測網(wǎng)頁是否為作弊網(wǎng)頁。圖3是根據(jù)本發(fā)明實施例的調(diào)整模塊28的優(yōu)選結(jié)構(gòu)框圖,如圖3所示,調(diào)整模塊28可以包括:第一劃分單元282,用于使用初始支持向量機將未知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集;第一處理單元284,與第一劃分單元282相連,用于將正常頁面子集與作弊頁面子集中的未知網(wǎng)頁樣本進行逐一交換,并重新計算初始支持向量機的模型參數(shù),直至正常頁面子集與作弊頁面子集的間隔不再擴大;第一調(diào)整單元286,與第一處理單元284相連,用于使用第一處理單元284最終得到的正常頁面子集與作弊頁面子集對初始支持向量機的模型參數(shù)進行調(diào)整。優(yōu)選地,如圖3所示,調(diào)整模塊28也可以包括:第二劃分單元288,用于使用初始支持向量機將末知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集;獲取單元290,與第二劃分單元288相連,用于分別獲取正常頁面子集和作弊頁面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁樣本作為候選的標(biāo)注樣本,其中,該預(yù)設(shè)第二數(shù)量小于正常頁面子集以及作弊頁面子集中的末知網(wǎng)頁樣本數(shù)量;第二處理單元292,與獲取單元290相連,用于在候選的標(biāo)注樣本的標(biāo)注結(jié)果與初始支持向量機對候選的標(biāo)注樣本的判斷結(jié)果不同時,將候選的標(biāo)注樣本按照標(biāo)注結(jié)果添加至已知網(wǎng)頁樣本的集合;第二調(diào)整單元294,用于使用第二處理單元292最終得到的已知網(wǎng)頁樣本的集合對初始支持向量機的模型參數(shù)進行調(diào)整。圖4是根據(jù)本發(fā)明實施例的作弊網(wǎng)頁識別裝置的優(yōu)選結(jié)構(gòu)框圖,如圖4所示,該裝置還可以包括:轉(zhuǎn)化模塊42,與第一獲取模塊22相連,用于將已知網(wǎng)頁樣本的集合中網(wǎng)頁樣本的網(wǎng)頁特征轉(zhuǎn)化為特征向量,其中該網(wǎng)頁特征可以包括以下類型至少之一:網(wǎng)頁的內(nèi)容特征,網(wǎng)頁的結(jié)構(gòu)特征,網(wǎng)頁的鏈接特征。圖5是根據(jù)本發(fā)明實施例的生成模塊24的優(yōu)選結(jié)構(gòu)框圖,如圖5所示,生成模塊24可以包括:第三劃分單元242,用于將已知網(wǎng)頁樣本的集合分為第一子集和第二子集;生成單元244,與第三劃分單元242相連,用于根據(jù)第一子集生成用于判斷作弊網(wǎng)頁的初始支持向量機;測試單元246,與生成單元244相連,用于使用第二子集對初始支持向量機的判斷準(zhǔn)確性進行測試。
下面結(jié)合優(yōu)選實施例和附圖對上述實施例及優(yōu)選實施方式的實現(xiàn)過程進行詳細(xì)說明。在以下優(yōu)選實施例中,以計算機信息檢索和搜索引擎技術(shù)領(lǐng)域為例進行說明,提供了一種作弊網(wǎng)頁的識別方法及裝置,該方法和裝置首先能夠根據(jù)已知的網(wǎng)頁樣本生成用于識別作弊網(wǎng)頁的模型,并在此基礎(chǔ)上自動選擇出的供模型持續(xù)迭代改進的候選網(wǎng)頁樣本供人工標(biāo)注,從而解決了現(xiàn)有頁面作弊識別方法需要花費大量時間和人力成本獲取網(wǎng)頁樣本以應(yīng)對新型作弊網(wǎng)頁的問題。實施例一本優(yōu)選實施例提供了一種基于主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的作弊網(wǎng)頁識別方法,圖6是根據(jù)本發(fā)明實施例一的基于半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)的作弊網(wǎng)頁識別方法的各步驟流程圖,如圖6所示,該方法可以包括如下步驟:步驟S602:明確所利用的網(wǎng)頁特征集合F。該步驟主要用于確定從網(wǎng)頁中所需要抽取的特征,包括內(nèi)容特征、結(jié)構(gòu)特征、鏈接關(guān)系特征等方面。步驟S604:預(yù)處理已知網(wǎng)頁樣本集合S。該步驟的目標(biāo)在于根據(jù)步驟S602確定的特征集合F,將各已知的網(wǎng)頁樣本轉(zhuǎn)化為特征向量,同時將樣本集合S劃分為用于模型訓(xùn)練和測試的兩部分。需要指出的是,在本文中的〃已知網(wǎng)頁〃指的是該網(wǎng)頁是否為作弊網(wǎng)頁是已知的。步驟S606:獲取未知網(wǎng)頁樣本集合U。該步驟的目標(biāo)在于從大量的網(wǎng)頁中抽樣獲得若干樣本,網(wǎng)頁樣本是否為作弊網(wǎng)頁未知。需要指出的是,在本文中〃未知網(wǎng)頁〃指的是該網(wǎng)頁是否為作弊網(wǎng)頁尚未確定。步驟S608:根據(jù)集合S和U,采用半監(jiān)督學(xué)習(xí)的方法,生成用于識別作弊網(wǎng)頁的持向量機(Support Vector Machine)模型。步驟S610利用得到的支持向量機模型,判斷某個網(wǎng)頁是否作弊,并進行相應(yīng)處理。步驟S612向網(wǎng)頁特征集合F添加新的特征。該步驟的目的在于人工添加表征新作弊類型的網(wǎng)頁特征,從而增強原有模型的識別能力。步驟S614:向網(wǎng)頁樣本集合S添加新的樣本。該步驟主要采用主動學(xué)習(xí)的方法,根據(jù)已有的識別模型,從具有統(tǒng)計意義規(guī)模的未知網(wǎng)頁樣本中挑選出若干待標(biāo)注的網(wǎng)頁,在經(jīng)過人工標(biāo)注(即人工確認(rèn)該網(wǎng)頁是否作弊)后添加至網(wǎng)頁樣本集合5。對應(yīng)于上述方法,在本優(yōu)選實施例中還提供了 一種基于主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的作弊網(wǎng)頁識別裝置,圖7是根據(jù)本發(fā)明實施例一的基于半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)的作弊網(wǎng)頁識別裝置的結(jié)構(gòu)框圖,如圖7所示,該裝置包括:網(wǎng)頁樣本數(shù)據(jù)庫:用于保存已知的網(wǎng)頁樣本相關(guān)信息。樣本處理模塊:用于管理網(wǎng)頁樣本數(shù)據(jù)庫系統(tǒng),包括單獨樣本實例的維護,以及對網(wǎng)頁樣本集合全體的統(tǒng)計與劃分。特征分析模塊:用于對網(wǎng)頁進行分析,從而將其轉(zhuǎn)換為特征向量。進一步地,該模塊包括內(nèi)容分析子模塊、結(jié)構(gòu)分析子模塊、鏈接分析子模塊。上述三個子模塊分別從內(nèi)容、結(jié)構(gòu)以及鏈接角度對網(wǎng)頁進行定量描述。同時,特征分析模塊還負(fù)責(zé)維護分析網(wǎng)頁所涉及的各個特征。
模型訓(xùn)練模塊:用于根據(jù)已知的網(wǎng)頁樣本和末知的網(wǎng)頁樣本,獲得支持向量機模型。進一步地,該模塊可以包括性能評價和參數(shù)選擇兩個子模塊。其中,前者(性能評價子模塊)用于當(dāng)參數(shù)已知時,評價模型識別作弊網(wǎng)頁的性能,后者(參數(shù)選擇子模塊)在前者的基礎(chǔ)上,選擇出使支持向量機模型性能最優(yōu)的參數(shù)。網(wǎng)頁作弊判斷模塊:用于根據(jù)支持向量機模型判斷網(wǎng)頁是否作弊。進一步地,該模塊可以包括判斷子模塊和處理子模塊。其中,后者(處理子模塊)用于在判斷某一網(wǎng)頁為作弊網(wǎng)頁時,向搜索引擎其他的部分發(fā)出提示信號,從而對該網(wǎng)頁進行處理(更改索引數(shù)據(jù)等)。樣本擴充模塊:用于根據(jù)網(wǎng)頁特征集合和支持向量機模型,在給定的樣本集合中選擇出若干能夠最大程度提高模型性能的網(wǎng)頁樣本。該模塊進一步可以包括網(wǎng)頁分析子模塊和網(wǎng)頁選擇子模塊。其中,前者(網(wǎng)頁分析子模塊)利用已經(jīng)獲得的支持向量機模型對未知的樣本進行判斷,同時對判斷結(jié)果的置信度進行評估:后者(網(wǎng)頁選擇子模塊)則根據(jù)判斷結(jié)果頁的置信度選擇出符合要求的網(wǎng)頁。 網(wǎng)頁標(biāo)注模塊,用于對選擇出的未知網(wǎng)頁進行人工標(biāo)注。通過本優(yōu)選實施例中提供的用于識別作弊網(wǎng)頁的方法和裝置,對作弊網(wǎng)頁進行分析,將網(wǎng)頁轉(zhuǎn)換為抽象的特征向量,并以此訓(xùn)練支持向量機模型,進而判斷未知網(wǎng)頁是否作弊。同時,本優(yōu)選實施例還提供了便捷高效的方法,從而在不改變方法整體結(jié)構(gòu)的同時通過添加特征及選擇性地添加樣本的方法,以有效應(yīng)對以新出現(xiàn)的作弊網(wǎng)頁。本優(yōu)選實施例提供的用于識別作弊網(wǎng)頁的方法和裝置的主要優(yōu)勢體現(xiàn)在以下三個方面:—、由于本優(yōu)選實施例從內(nèi)容、結(jié)構(gòu)和鏈接等多個方面對網(wǎng)頁進行綜合分析,與僅局限于單一角度識別作弊網(wǎng)頁的方法和裝置相比,本優(yōu)選實施例的方法及裝置對作弊網(wǎng)頁的識別能力更強;二、本優(yōu)選實施例的方法及裝置在生成用于識別作弊網(wǎng)頁的模型過程中,在參考已知網(wǎng)頁樣本的同時,也參考了具有統(tǒng)計意義規(guī)模的未知網(wǎng)頁樣本。這樣的設(shè)計可以有效避免已知樣本可能存在的采樣偏差,從而提高識別的惟確率。三、本優(yōu)選實施例提出的方法和裝置,一方面通過修改網(wǎng)頁特征集合提高對作弊網(wǎng)頁的描述能力;另一方面,通過主動學(xué)習(xí)的方法自動挑選出能夠有效表現(xiàn)新特征的正?;蜃鞅拙W(wǎng)頁,最大限度地節(jié)約了人力成本,使新特征更好地發(fā)揮作用。因此,本優(yōu)選實施例的方法及裝置此能夠?qū)π滦妥鞅拙W(wǎng)頁快速作出反應(yīng),使識別的有效水平保持穩(wěn)定。實施例二本優(yōu)選實施例所提出的基于主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的作弊網(wǎng)頁識別方法,其各步驟總體流程如圖6所示。其中,步驟S602確定所利用的網(wǎng)頁特征集合F,步驟S604根據(jù)步驟S602所確定的特征集合對已知網(wǎng)頁樣本集合S中各網(wǎng)頁進行預(yù)處理,步驟S606獲取若干末標(biāo)注的網(wǎng)頁樣本(記為集合U),步驟S608根據(jù)集合S和U訓(xùn)練支持向量機模型,并利用該模型識別作弊網(wǎng)頁,步驟S610用于向網(wǎng)頁特征集合F添加新的特征,步驟S612和S614采用主動學(xué)習(xí)的方法,向網(wǎng)頁樣本集合S添加新樣本。接下來詳細(xì)敘述各主要步驟。步驟S602:確定所利用的網(wǎng)頁特征集合F。該步驟將根據(jù)已知的作弊網(wǎng)頁,從網(wǎng)頁標(biāo)題、正文內(nèi)容、網(wǎng)頁結(jié)構(gòu)和鏈接關(guān)系等方面入手明確表征網(wǎng)頁的特征集合。
步驟S604:預(yù)處理已知的網(wǎng)頁樣本集合S。該步驟的目標(biāo)在于根據(jù)步驟S602確定的特征集合F對S中的各個網(wǎng)頁進行處理。圖8是根據(jù)本發(fā)明實施例二的樣本預(yù)處理步驟的優(yōu)選流程圖,如圖8所示,對于某一具體網(wǎng)頁而言,該步驟首先對網(wǎng)頁的各個特征進行評定,將其轉(zhuǎn)化為某種形式的數(shù)值(步驟5604-2)。然后,對得到的數(shù)值進行分析,根據(jù)其類型采取相應(yīng)的歸一化方法(步驟5604-4),同時根據(jù)該網(wǎng)頁是否為作弊頁面,將該類別屬性同特征數(shù)值一起生成某一特征向量,從而代表對應(yīng)網(wǎng)頁。最后,將得到的全體特征向量劃分按照l:c(4 < c < 10)的比例分為訓(xùn)練數(shù)據(jù)集合和測試數(shù)據(jù)集合兩部分(步驟5604-6)。步驟S606:獲取未知網(wǎng)頁樣本集合U。該步驟的主要任務(wù)是隨機獲得若干網(wǎng)頁樣本。與步驟5604類似,該步驟同樣需要對獲得的各個頁面進行評定、歸一化從而轉(zhuǎn)化為其一特征向量。由于集合U中的樣本不知是否為作弊頁面,因此各個頁面的類別屬性將被標(biāo)注為不同子集合S中兩種類別的屬性值。步驟S608:根據(jù)集合S和U訓(xùn)練支持向量機模型,并利用該模型識別作弊網(wǎng)頁。圖9是根據(jù)本發(fā)明實施例二的基于半監(jiān)督學(xué)習(xí)識別模型訓(xùn)練步驟的優(yōu)選流程圖,如圖9所示,該步驟5608可以包括以下5608-2、5608-4兩個子步驟。步驟S608-2:根據(jù)步驟S2得到的訓(xùn)練數(shù)據(jù)集合和測試數(shù)據(jù)集合,生成支持向量機模型。具體地說,百先,根據(jù)訓(xùn)練數(shù)據(jù)集合尋找生成初始的模型;然后,尋找使得模型對測試集合的識別準(zhǔn)確率最高的參數(shù);最后,根據(jù)該參數(shù)生成模型M’。步驟S608-4:首先,利用M’對集合U中的各樣本進行識別,其實質(zhì)是將集合U分為正常頁面和作弊頁面兩個子集U+和U-;其次,在保證模型對集合S類別識別正確的基礎(chǔ)上,通過逐一交換U+和U-中元素的方式,擴大U+和U-的間隔;然后根據(jù)對U+和U-調(diào)整結(jié)果,調(diào)整M’中的參數(shù);該步驟一直執(zhí)行直到U+和U-的間隔不能在擴大,此時根據(jù)最終調(diào)整所得的參數(shù)生成M,M即為最終的識別模型。步驟S610:使用支持向量機模型判斷網(wǎng)頁是否作弊。對其一具體網(wǎng)頁,該步驟不僅給出正?;蛘咦鞅椎呐袛嘟Y(jié)果,而且還將獲得該網(wǎng)頁樣本距離分類超平面的距離。而當(dāng)判斷其一網(wǎng)頁為作弊網(wǎng)頁時,該步驟將向搜索引擎其他的部分發(fā)出提示信號,以對對應(yīng)的索引數(shù)據(jù)進行修改。步驟S612:在網(wǎng)頁特征集合F添加新的特征。對于新出現(xiàn)或新觀察到的作弊類型,首先需要對其進行人工分析的技術(shù),并提取出全部的特征。然后,將這些特征同原有的網(wǎng)頁特征集合F進行合并。該過程將有可能增力口、刪除或者調(diào)整F中的元素。由于集合F發(fā)生了變化,因此本步驟完成后,步驟S604和S606中涉及調(diào)整元素的分析、評定和歸一化方法都將有可能被改變。步驟S614:采用主動學(xué)習(xí)的方法向網(wǎng)頁樣本集合S添加新樣本。圖10是根據(jù)本發(fā)明實施例二的基于主動學(xué)習(xí)的網(wǎng)頁樣本添加步驟的優(yōu)選流程圖,如圖10所示,該步驟5614可以包括以下5614-2、5614-4、5614-6、5614-8四個子步驟。步驟5614-2:隨機獲得具有統(tǒng)計意義規(guī)模的本知網(wǎng)頁W(例如,規(guī)模超過100000,即|W| > 10,0000),利用步驟5608得到的支持向量機模型對網(wǎng)頁否為作弊網(wǎng)頁進行判斷。該步驟的結(jié)果將W分為W+和W-兩個子集,其分別由W中判斷為正常和作弊的網(wǎng)頁組成。
步驟5614-4:按照與支持向量機模型中分類超平面的距離從小到大的順序,對于步驟S614-2所得到的W+和W-的各個網(wǎng)頁進行排序。步驟S614-6:對于步驟S614_4得到的W+和W-,分別取其排序結(jié)果中前η (η<< IffD個網(wǎng)頁(共2n個)網(wǎng)頁作為候選標(biāo)注網(wǎng)頁,并人工對這2n個網(wǎng)頁進行標(biāo)注。如果人工標(biāo)注的結(jié)果和支持向量機模型判斷的結(jié)果不一致,則將這些網(wǎng)頁保存至集合L。L中各個網(wǎng)頁的類型以人工標(biāo)注的結(jié)果為準(zhǔn)。步驟S614-8:將L中的全部網(wǎng)頁添加至網(wǎng)頁樣本集合S。需要指出的是,步驟S602至步驟S610已經(jīng)組成了完整的、利用支持向量機模型識別作弊頁面方法。在此基礎(chǔ)上,步驟5612至步驟5614則將與步驟5602至步驟5610共同完成對向量機模型的持續(xù)迭代改進,從而不斷提高對于作弊頁面的識別能力。本優(yōu)選實施例還提供了一種識別作弊網(wǎng)頁的裝置,其中包括一個用于存儲的數(shù)據(jù)庫系統(tǒng)和六個用于事務(wù)處理的模塊。裝置各組成元素間的相互關(guān)系如圖7所示。以下將結(jié)合附圖對該裝置進行進一步說明。網(wǎng)頁樣本數(shù)據(jù)庫:該系統(tǒng)將保存用于模型訓(xùn)練的網(wǎng)頁樣本。其中,各個樣本的類型(正?;蛘咦鞅?已經(jīng)明確。所保存的網(wǎng)頁相關(guān)信息主要包括網(wǎng)頁的ID、標(biāo)題、url、html代碼、獲取時間、類型等。樣本處理模塊:用于維護網(wǎng)頁樣本數(shù)據(jù)庫系統(tǒng),包括添加、修改網(wǎng)頁樣本;負(fù)責(zé)對全體網(wǎng)頁樣本集合進行劃分,生成模型訓(xùn)練需要的訓(xùn)練和測試的兩部分;負(fù)責(zé)對網(wǎng)頁樣本進行統(tǒng)計,以配合完成模型訓(xùn)練。特征分析模塊:該模塊主要負(fù)責(zé)三方面的任務(wù):一、分析根據(jù)已知的網(wǎng)頁,分析將其對應(yīng)的html; 二、將網(wǎng)頁特征向量化:三、維護模型訓(xùn)練所涉及的特征集合。第一方面的任務(wù)由三個子模塊協(xié)同完成:內(nèi)容分析子模塊、結(jié)構(gòu)分析子模塊、鏈接分析子模塊。內(nèi)容分析子模塊主要考察網(wǎng)頁內(nèi)容方面的特征,包括標(biāo)題、中心內(nèi)容、高亮文本、鏈接等可見內(nèi)容中的文本特征、語法特征以及語義特征;結(jié)構(gòu)分析子模塊主要涉及網(wǎng)頁html代碼所對應(yīng)的DOM樹的結(jié)構(gòu)信息、頁面整體的布局情況、頁面局部中各個元素的關(guān)系以及網(wǎng)頁不可見部分的所隱含的信息;鏈接分析子模塊主要分析本網(wǎng)頁與站點主頁、同站點下其他網(wǎng)頁以及與其他外部網(wǎng)頁的間關(guān)系。需要說明的是,上述三個子模塊方面間相互聯(lián)系,相當(dāng)一部分的網(wǎng)頁特征由兩個或者全部三個子模塊中共同產(chǎn)生。第二方面的任務(wù)由特征向量化子模塊完成,該模塊根據(jù)網(wǎng)頁分析的結(jié)果進行評定,并綜合某一特征值在全體網(wǎng)頁樣本中的統(tǒng)計情況選擇合理的歸一化從而將某一特征映射為某一數(shù)值,并最終將網(wǎng)頁轉(zhuǎn)化為其一向量。第三方面的任務(wù)有特征維護子模塊完成,該模塊負(fù)責(zé)添加、刪除和修改網(wǎng)頁分析所涉及到的配置信息,包括特征數(shù)目、名稱、類型等等。模型訓(xùn)練模塊:該模塊負(fù)責(zé)生成用于最終判斷網(wǎng)頁作弊與否的支持向量機模型。該模塊進一步包括性能評價和參數(shù)選擇兩個子模塊。其中,性能評價子模塊,負(fù)責(zé)根據(jù)訓(xùn)練樣本以及指定的參數(shù)和配置生成支持向量機模型,并根據(jù)測試樣本集合及和末知樣本集合評價模型多方面的性能指標(biāo),包括識別的正確率、準(zhǔn)確率、召回率等等。參數(shù)選擇子模塊,負(fù)責(zé)在參數(shù)可選擇的范圍內(nèi)進行搜索,從而選擇出使支持向量機模型性能最優(yōu)的參數(shù)。需要指出的是,所謂的性能可以根據(jù)實際需要進行調(diào)整,它可以設(shè)置為性能評價子模塊中所涉及的任何指標(biāo)及其組合。網(wǎng)頁作弊判斷模塊:該模塊用于完成作弊頁面的判斷任務(wù)。進一步地,當(dāng)其一網(wǎng)頁被判斷為作弊網(wǎng)頁時,該模塊還負(fù)責(zé)向搜索引擎其他的部分發(fā)出提示信號,并傳遞該網(wǎng)頁的相關(guān)信息,從而為對該網(wǎng)頁進行處理提供參考信息。樣本擴充模塊:該模塊負(fù)責(zé)根據(jù)網(wǎng)頁特征集合和當(dāng)前生成的支持向量機模型,選擇最大程度提高作弊網(wǎng)頁識別能力的樣本。該模塊進一步包括網(wǎng)頁分析子模塊和網(wǎng)頁選擇子模塊。其中:前者利用已經(jīng)獲得的支持向量機模型對具有統(tǒng)計意義規(guī)模的未知樣本進行判斷。同時,該模塊還負(fù)責(zé)對判斷結(jié)果的置信度(即樣本距支持向量機中的分類超平面的距離)進行計算。后者將分別對識別得到的兩類網(wǎng)頁(正常或者作弊)的置信度按照從低到高的順序進行排序,并分別從中選擇出前若干個候選網(wǎng)頁樣本。網(wǎng)頁標(biāo)注模塊:該模塊用于對未知網(wǎng)頁進行人工標(biāo)注。由于標(biāo)注頁面是相當(dāng)主觀的任務(wù),因此該模塊提供了多人標(biāo)注及比較功能。當(dāng)多個標(biāo)注結(jié)果不一致時,該模塊將發(fā)出提示。當(dāng)明確標(biāo)注結(jié)果后,該網(wǎng)頁將被添加至網(wǎng)頁樣本數(shù)據(jù)庫中。實施例三在本優(yōu)選實施例中,提供了一種作弊網(wǎng)頁的識別方法,包括:步驟S2:明確所利用的網(wǎng)頁特征集合,包括網(wǎng)頁的內(nèi)容特征、結(jié)構(gòu)特征、鏈接關(guān)系特征等。步驟S4:預(yù)處理已知網(wǎng)頁樣本集合,包括根據(jù)步驟網(wǎng)頁特征將網(wǎng)頁向量化,同時對樣本集合進行劃分為訓(xùn)練和測試的兩部分。步驟S6:獲取末知網(wǎng)頁樣本集合,步驟S8:根據(jù)已知和未知的網(wǎng)頁樣本,采用半監(jiān)督學(xué)習(xí)的方法,生成識別模型:步驟S10:根據(jù)模型判斷某網(wǎng)頁是否作弊,并進行相應(yīng)處理;步驟S12:添加新的網(wǎng)頁特征;步驟S14:采用主動學(xué)習(xí)的方法,添加新的已知網(wǎng)頁樣本。優(yōu)選地,上述預(yù)處理已知網(wǎng)頁樣本集合的步驟可以包括:將網(wǎng)頁特征將轉(zhuǎn)化為其一數(shù)值,同時對其采取歸一化方法,從而將網(wǎng)頁轉(zhuǎn)化為其一特征向量;同時還包括將已知網(wǎng)頁樣本集合劃分為訓(xùn)練和測試的兩部分。優(yōu)選地,采用半監(jiān)督學(xué)習(xí)的方法生成識別模型的步驟可以包括:首先根據(jù)已知的訓(xùn)練和測試網(wǎng)頁樣本生成初始的支持向量機模型,然后根據(jù)未知樣本集合對支持向量機模型的參數(shù)進行調(diào)整。優(yōu)選地,上述模型參數(shù)調(diào)整方法可以包括:首先,利用初始的支持向量機模型對未知樣本集合進行識別,將其分為正常頁面和作弊頁面兩個子集;其次,在保證模型對已知網(wǎng)頁樣本識別正確的基礎(chǔ)上,逐一交換兩個子集中的元素以擴大子集間的間隔,并據(jù)此調(diào)整模型的參數(shù);該步驟一直執(zhí)行直到子集的間隔不能在擴大。優(yōu)選地,上述作弊網(wǎng)頁的識別方法可以采用主動學(xué)習(xí)的方法,添加新的已知網(wǎng)頁樣本的步驟,包括:利用已有的模型對具有統(tǒng)計意義規(guī)模的未知網(wǎng)頁進行識別,從而將未知網(wǎng)頁集合劃分為兩個子集;在兩個子集中分別選擇出待標(biāo)注的網(wǎng)頁樣本,在進行標(biāo)注后添加至已知網(wǎng)頁樣本集合。優(yōu)選地,上述待標(biāo)注網(wǎng)頁的選擇方法可以為:按照判斷結(jié)果的置信度從小到大的順序,分別對于兩個子集中的網(wǎng)頁進行排序,并分別取前若干網(wǎng)頁作為候選標(biāo)注樣本。其中的結(jié)果置信度,定義為與支持向量機模型中分類超平面的距離。當(dāng)這些網(wǎng)頁的人工標(biāo)注結(jié)果與判斷結(jié)果不一致時,將其添加至已知網(wǎng)頁樣本集合。對應(yīng)于上述方法,在本優(yōu)選實施例中還提供了 一種基于主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的作弊網(wǎng)頁識別裝置,包括:網(wǎng)頁樣本數(shù)據(jù)庫(也稱網(wǎng)頁樣本數(shù)據(jù)庫系統(tǒng)):用于保存已知的網(wǎng)頁樣本相關(guān)信息;樣本處理模塊:用于管理網(wǎng)頁樣本數(shù)據(jù)庫系統(tǒng);特征分析模塊:用于對網(wǎng)頁進行分析,從而將其轉(zhuǎn)換為特征向量;模型訓(xùn)練模塊:用于根據(jù)已知的網(wǎng)頁樣本和未知的網(wǎng)頁樣本,獲得支持向量機模型;網(wǎng)頁作弊判斷模塊:用于根據(jù)支持向量機模型判斷網(wǎng)頁是否作弊;樣本擴充模塊:用于根據(jù)網(wǎng)頁特征集合和支持向量機模型,選擇出若干能夠最大程度提高模型性能的網(wǎng)頁樣本。優(yōu)選地,上述特征分析模塊通過以下方式對網(wǎng)頁特征進行分忻A.從包括標(biāo)題、中心內(nèi)容、高亮文本、鏈接等可見內(nèi)容中的文本、語法以及語義角度考察內(nèi)容特征;從網(wǎng)頁html代碼所對應(yīng)的DOM樹的結(jié)構(gòu)信息、頁面布局情況、以及網(wǎng)頁不可見部分考察結(jié)構(gòu)特征;從該網(wǎng)頁與同站點主頁、同站點下其他網(wǎng)頁以及與其他外部網(wǎng)頁的間關(guān)系考察鏈接特征。B.根據(jù)網(wǎng)頁特征分析的結(jié)果進行評定,并綜合其一特征值在全體網(wǎng)頁樣本中的統(tǒng)計情況選擇合理的歸一化從而將某一特征映射為其一數(shù)值,將網(wǎng)頁轉(zhuǎn)化為其一向量。優(yōu)選地,上述特征分析模塊包括性能評價和參數(shù)選擇兩個子模塊:其中前者負(fù)責(zé)根據(jù)訓(xùn)練樣本以及指定的參數(shù)和配置生成支持向量機模型,并根據(jù)測試樣本集合及和未知樣本集合評價模型;后者,負(fù)責(zé)在參數(shù)可選擇的范圍內(nèi)進行搜索,從而選擇出使支持向量機模型性能最優(yōu)的參數(shù)。優(yōu)選地,上述特征分析模塊可以通過以下方式擴充樣本:首先利用已經(jīng)獲得的支持向量機模型對具有統(tǒng)計意義規(guī)模的未知樣本進行判斷,從而將其分類為正?;蜃鞅變深惥W(wǎng)頁,同時計算判斷結(jié)果的置信度(即樣本距支持向量機中的分類超平面的距離);然后,分別對識別得到的兩類網(wǎng)頁(正?;蛘咦鞅?的置信度按照從低到高的順序進行排序,并分別從中選擇出前若干個網(wǎng)頁樣本進行人工標(biāo)注,如果標(biāo)注結(jié)果與判斷結(jié)果不一致,那么網(wǎng)頁樣本擴充至網(wǎng)頁樣本集合。在另外一個實施例中,還提供了一種軟件,該軟件用于執(zhí)行上述實施例及優(yōu)選實施例中描述的技術(shù)方案。在另外一個實施例中,還提供了一種存儲介質(zhì),該存儲介質(zhì)中存儲有上述軟件,該存儲介質(zhì)包括但不限于光盤、軟盤、埂盤、可擦寫存儲器等。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種作弊網(wǎng)頁識別方法,其特征在于,包括 獲取已知網(wǎng)頁樣本的集合,其中,所述已知網(wǎng)頁樣本為已知是否為作弊網(wǎng)頁的網(wǎng)頁樣本; 根據(jù)所述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機; 獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁樣本的集合,其中,所述未知網(wǎng)頁樣本為未知是否為作弊網(wǎng)頁的網(wǎng)頁樣本: 根據(jù)所述未知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整; 使用調(diào)整后的支持向量機判斷待檢測網(wǎng)頁是否為作弊網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述未知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整包括: 使用所述初始支持向量機將所述未知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集; 將所述正常頁面子集與所述作弊頁面子集中的所述未知網(wǎng)頁樣本進行逐一交換,并重新計算所述初始支持向量機的模型參數(shù),直至所述正常頁面子集與所述作弊頁面子集的間隔不再擴大; 使用最終得到的所述正常頁面子集與所述作弊頁面子集對所述初始支持向量機的模型參數(shù)進行調(diào)整。
3.根據(jù)權(quán)利要求1所述的方法,`其特征在于,根據(jù)所述未知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整包括: 使用所述初始支持向量機將所述未知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集; 分別獲取所述正常頁面子集和所述作弊頁面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁樣本作為候選的標(biāo)注樣本,其中,所述預(yù)設(shè)第二數(shù)量小于所述正常頁面子集以及所述作弊頁面子集中的未知網(wǎng)頁樣本數(shù)量: 在所述候選的標(biāo)注樣本的標(biāo)注結(jié)果與所述初始支持向量機對所述候選的標(biāo)注樣本的判斷結(jié)果不同時,將所述候選的標(biāo)注樣本按照所述標(biāo)注結(jié)果添加至所述已知網(wǎng)頁樣本的集入■η , 使用最終得到的所述已知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)難iF.0
4.根據(jù)權(quán)利要求1至3中任一項所述的方法,其特征在于,在根據(jù)所述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機之前,還包括: 將所述已知網(wǎng)頁樣本的集合中網(wǎng)頁樣本的網(wǎng)頁特征轉(zhuǎn)化為特征向量,其中,所述網(wǎng)頁特征包括以下類型至少之一:網(wǎng)頁的內(nèi)容特征,網(wǎng)頁的結(jié)構(gòu)特征,網(wǎng)頁的鏈接特征。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機包括: 將所述已知網(wǎng)頁樣本的集合分為第一子集和第二子集; 根據(jù)所述第一子集生成用于判斷作弊網(wǎng)頁的初始支持向量機; 使用所述第二子集對所述初始支持向量機的判斷準(zhǔn)確性進行測試。
6.一種作弊網(wǎng)頁識別裝置,其特征在于,包括第一獲取模塊,用于獲取已知網(wǎng)頁樣本的集合,其中,所述已知網(wǎng)頁樣本為已知是否為作弊網(wǎng)頁的網(wǎng)頁樣本; 生成模塊,用于根據(jù)所述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機; 第二獲取模塊,用于獲取預(yù)設(shè)第一數(shù)量的末知網(wǎng)頁樣本的集合,其中,所述末知網(wǎng)頁樣本為未知是否為作弊網(wǎng)頁的網(wǎng)頁樣本; 調(diào)整模塊,用于根據(jù)所述未知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整; 判斷模塊,用于使用調(diào)整后的支持向量機判斷待檢測網(wǎng)頁是否為作弊網(wǎng)頁。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述調(diào)整模塊包括 第一劃分單元,用于使用所述初始支持向量機將所述未知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集 第一處理單元,用于將所述正常頁面子集與所述作弊頁面子集中的所述未知網(wǎng)頁樣本進行逐一交換,并重新計算所 述初始支持向量機的模型參數(shù),直至所述正常頁面子集與所述作弊頁面子集的間隔不再擴大; 第一調(diào)整單元,用于使用最終得到的所述正常頁面子集與所述作弊頁面子集對所述初始支持向量機的模型參數(shù)進行調(diào)整。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述調(diào)整模塊包括 第二劃分單元,用于使用所述初始支持向量機將所述未知網(wǎng)頁樣本的集合劃分為正常頁面子集和作弊頁面子集; 獲取單元,用于分別獲取所述正常頁面子集和所述作弊頁面子集中置信度最高的預(yù)設(shè)第二數(shù)量的未知網(wǎng)頁樣本作為候選的標(biāo)注樣本,其中,所述預(yù)設(shè)第二數(shù)量小于所述正常頁面子集以及所述作弊頁面子集中的未知網(wǎng)頁樣本數(shù)量; 第二處理單元,用于在所述候選的標(biāo)注樣本的標(biāo)注結(jié)果與所述初始支持向量機對所述候選的標(biāo)注樣本的判斷結(jié)果不同時,將所述候選的標(biāo)注樣本按照所述標(biāo)注結(jié)果添加至所述已知網(wǎng)頁樣本的集合; 第二調(diào)整單元,用于使用最終得到的所述已知網(wǎng)頁樣本的集合對所述初始支持向量機的模型參數(shù)進行調(diào)整。
9.根據(jù)權(quán)利要求6至8中任一項所述的裝置,其特征在于,所述裝置還包括: 轉(zhuǎn)化模塊,用于將所述已知網(wǎng)頁樣本的集合中網(wǎng)頁樣本的網(wǎng)頁特征轉(zhuǎn)化為特征向量,其中,所述網(wǎng)頁特征包括以下類型至少之一:網(wǎng)頁的內(nèi)容特征,網(wǎng)頁的結(jié)構(gòu)特征,網(wǎng)頁的鏈接特征。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述生成模塊包括: 第三劃分單元,用于將所述已知網(wǎng)頁樣本的集合分為第一子集和第二子集; 生成單元,用于根據(jù)所述第一子集生成用于判斷作弊網(wǎng)頁的初始支持向量機; 測試單元,用于使用所述第二子集對所述初始支持向量機的判斷準(zhǔn)確性進行測試。
全文摘要
本發(fā)明公開了一種作弊網(wǎng)頁識別方法及裝置,其中,該方法包括獲取已知網(wǎng)頁樣本的集合,其中,該已知網(wǎng)頁樣本為已知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;根據(jù)上述已知網(wǎng)頁樣本的集合生成用于判斷作弊網(wǎng)頁的初始支持向量機;獲取預(yù)設(shè)第一數(shù)量的未知網(wǎng)頁樣本的集合,其中,該未知網(wǎng)頁樣本為未知是否為作弊網(wǎng)頁的網(wǎng)頁樣本;根據(jù)上述未知網(wǎng)頁樣本的集合對上述初始支持向量機的模型參數(shù)進行調(diào)整;使用調(diào)整后的支持向量機判斷待檢測網(wǎng)頁是否為作弊網(wǎng)頁。通過本發(fā)明,解決了相關(guān)技術(shù)中基于機器學(xué)習(xí)的作弊頁面識別方法對于新型作弊網(wǎng)頁識別效果較差的問題,提升了對于新型作弊網(wǎng)頁的識別效果。
文檔編號G06F17/30GK103150369SQ20131007326
公開日2013年6月12日 申請日期2013年3月7日 優(yōu)先權(quán)日2013年3月7日
發(fā)明者楊甲東 申請人:人民搜索網(wǎng)絡(luò)股份公司