專(zhuān)利名稱(chēng):一種基于云語(yǔ)義庫(kù)的網(wǎng)頁(yè)審計(jì)方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)安全領(lǐng)域中的重要應(yīng)用一上網(wǎng)行為管理中的網(wǎng)頁(yè)審計(jì)方法
背景技術(shù):
隨著網(wǎng)絡(luò)的普及,學(xué)校,企業(yè)等各行各業(yè)對(duì)上網(wǎng)行為管理的需求越來(lái)越大,對(duì)網(wǎng)絡(luò) 審計(jì)提出了更高的要求,傳統(tǒng)網(wǎng)頁(yè)審計(jì)方法依靠url分類(lèi),但其存在明顯的局限性1.正確性,網(wǎng)頁(yè)數(shù)量巨大,不可能將所有的url都進(jìn)行分類(lèi),這就不能保證網(wǎng)頁(yè)審 計(jì)的正確性。2.即時(shí)性,網(wǎng)頁(yè)數(shù)量增長(zhǎng)過(guò)快,而url分類(lèi)庫(kù)不可能時(shí)時(shí)更新,因而保證不了網(wǎng)頁(yè) 審計(jì)的即時(shí)性。本發(fā)明基于云技術(shù)以及文本聚類(lèi)技術(shù),通過(guò)網(wǎng)頁(yè)內(nèi)容對(duì)網(wǎng)頁(yè)進(jìn)行分類(lèi)審計(jì), 有效的解決了上述問(wèn)題。
發(fā)明內(nèi)容
傳統(tǒng)的網(wǎng)頁(yè)審計(jì)基于url分類(lèi)庫(kù),將從網(wǎng)上獲取的url按照預(yù)定義的分類(lèi)標(biāo)準(zhǔn)進(jìn) 行分類(lèi)并添加到數(shù)據(jù)庫(kù)中,通過(guò)獲取用戶瀏覽的網(wǎng)址與url分類(lèi)庫(kù)進(jìn)行比較得出網(wǎng)頁(yè)分 類(lèi)。伴隨著著網(wǎng)絡(luò)的普及,信息的泛濫,每天產(chǎn)生數(shù)以萬(wàn)計(jì)的新網(wǎng)頁(yè),傳統(tǒng)的網(wǎng)頁(yè)審計(jì)方法 受到了極大的挑戰(zhàn),一方面,將所有的網(wǎng)頁(yè)都一網(wǎng)打盡是一項(xiàng)不可能完成的任務(wù),當(dāng)用戶瀏 覽url分類(lèi)庫(kù)中不存在的網(wǎng)頁(yè)時(shí),就得不到有效的審計(jì)結(jié)果,另一方面創(chuàng)建及完善url分類(lèi) 庫(kù)將耗費(fèi)大量的人力及硬件資源,同時(shí)檢索龐大的數(shù)據(jù)庫(kù)耗時(shí)也會(huì)增加,勢(shì)必會(huì)對(duì)審計(jì)設(shè) 備的效率造成影響。該發(fā)明有效的解決了這一問(wèn)題,提出了一種新的思路,構(gòu)建了語(yǔ)義庫(kù), 并借助了現(xiàn)有的新技術(shù)一云技術(shù),形成了云語(yǔ)義庫(kù),并將其運(yùn)用在網(wǎng)絡(luò)審計(jì)中,使網(wǎng)絡(luò)審 計(jì)只關(guān)注網(wǎng)頁(yè)的內(nèi)容,而不關(guān)心是否是新的url,同時(shí)提高了檢索的效率。具體內(nèi)容如下1.搭建云平臺(tái)。2.應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),不斷獲取網(wǎng)頁(yè)。3.在云平臺(tái)建立分類(lèi)語(yǔ)義庫(kù),每一類(lèi)別都分為核心詞庫(kù)、非核心詞庫(kù)、停用詞庫(kù)以 及出錯(cuò)詞庫(kù),出錯(cuò)詞庫(kù)用來(lái)存放審計(jì)結(jié)果與實(shí)際記過(guò)不相符的網(wǎng)頁(yè)數(shù)據(jù)。人工初始化核心 詞庫(kù)和停用詞庫(kù),將爬蟲(chóng)爬取的網(wǎng)頁(yè)進(jìn)行語(yǔ)義分析,只保留名詞和動(dòng)詞并去除停用詞,做詞 頻統(tǒng)計(jì),當(dāng)與某個(gè)類(lèi)別的核心詞庫(kù)的匹配詞頻(即計(jì)算分類(lèi)語(yǔ)義庫(kù)中的詞在收到的處理數(shù) 據(jù)中出現(xiàn)的頻率)之和最大時(shí),將核心詞之外的單詞按詞頻排序,取前某特定比例(如前 10% )的詞語(yǔ)添加到該類(lèi)別的非核心詞庫(kù),統(tǒng)計(jì)非核心詞的計(jì)數(shù),以網(wǎng)頁(yè)為單位,在一個(gè)網(wǎng) 頁(yè)出現(xiàn)過(guò),其計(jì)數(shù)累加1,以此類(lèi)推,當(dāng)某一類(lèi)非核心詞庫(kù)的某個(gè)詞出現(xiàn)次數(shù)達(dá)到某最大限 定限定次數(shù)時(shí),將其添加到核心詞庫(kù),并定期對(duì)出現(xiàn)次數(shù)小于最小限定次數(shù)的詞語(yǔ)進(jìn)行刪 除,同時(shí)對(duì)核心詞庫(kù)進(jìn)行人工維護(hù),可將出現(xiàn)的新詞語(yǔ)添加到所屬類(lèi)別核心詞庫(kù)并且把錯(cuò) 誤的核心詞移動(dòng)到停用詞庫(kù)。4.在網(wǎng)頁(yè)審計(jì)時(shí),審計(jì)系統(tǒng)將截獲用戶瀏覽的網(wǎng)頁(yè)內(nèi)容,并對(duì)其進(jìn)行語(yǔ)義分析,并 將這些處理數(shù)據(jù)發(fā)送到云平臺(tái),在云平臺(tái)下遍歷分類(lèi)語(yǔ)義庫(kù),并和收到的處理數(shù)據(jù)做匹配詞頻統(tǒng)計(jì),該網(wǎng)頁(yè)的分類(lèi)即為匹配詞頻統(tǒng)計(jì)之和最大的分類(lèi)語(yǔ)義庫(kù)所對(duì)應(yīng)的分類(lèi),并分類(lèi) 記錄審計(jì)過(guò)的網(wǎng)頁(yè)數(shù)。5.審計(jì)人員可對(duì)審計(jì)結(jié)果進(jìn)行校驗(yàn),當(dāng)審計(jì)結(jié)果與實(shí)際結(jié)果不相符時(shí),審計(jì)人員 可將審計(jì)出錯(cuò)的url及類(lèi)型發(fā)送到云端,云端重新獲取該網(wǎng)頁(yè)內(nèi)容并進(jìn)行語(yǔ)義分析及詞頻 統(tǒng)計(jì)。將詞頻在前取前某特定比例的詞及詞頻放入對(duì)應(yīng)的出錯(cuò)詞庫(kù)中,每一類(lèi)都建立出錯(cuò) 計(jì)數(shù),出錯(cuò)時(shí)該類(lèi)出錯(cuò)計(jì)數(shù)加1,并計(jì)算出錯(cuò)率(該類(lèi)出錯(cuò)計(jì)數(shù)與審計(jì)過(guò)該類(lèi)的網(wǎng)頁(yè)總數(shù)的 比值),當(dāng)出錯(cuò)率達(dá)到某限定值時(shí),系統(tǒng)可出現(xiàn)報(bào)警提示某類(lèi)語(yǔ)義庫(kù)異常,技術(shù)人員收到報(bào) 警后處理處理出錯(cuò)詞庫(kù),將出錯(cuò)詞庫(kù)中詞頻累加較高的詞加入到該類(lèi)的停用詞庫(kù)中并移除 核心詞庫(kù)中與之相同的詞。該方法具有以下優(yōu)勢(shì)1.正確性高,不受網(wǎng)頁(yè)數(shù)量限制2.即時(shí)性高,不管據(jù)是否是新網(wǎng)頁(yè),只根據(jù)內(nèi)容判斷分類(lèi)3.效率高4.有效節(jié)省了電腦硬件資源
圖1為該發(fā)明的流程2提煉語(yǔ)義庫(kù)的流程3審計(jì)流程圖具體實(shí)施本發(fā)明重點(diǎn)是一種的審計(jì)方法,并且基于云技術(shù),以上網(wǎng)行為管理系統(tǒng)為例1.搭建云平臺(tái),初始化爬蟲(chóng)任務(wù),并同一管理2.按照需求初始化分類(lèi)語(yǔ)義庫(kù),并按內(nèi)容3所述算法不斷更新語(yǔ)義庫(kù)3.給分布各地的上網(wǎng)行為管理系統(tǒng)用戶提供云接口,通過(guò)該系統(tǒng)截獲用戶上網(wǎng)瀏 覽網(wǎng)頁(yè)內(nèi)容并對(duì)內(nèi)容進(jìn)行語(yǔ)義分析,并進(jìn)行詞頻統(tǒng)計(jì),取出現(xiàn)頻率在前50%的詞語(yǔ),將這些 詞語(yǔ)以及對(duì)應(yīng)的詞頻發(fā)送到云平臺(tái),與云端的數(shù)據(jù)庫(kù)進(jìn)行匹配,并將匹配成功的詞的詞頻 累加,其累加之和最大的語(yǔ)義庫(kù)所對(duì)應(yīng)的分類(lèi)即為該網(wǎng)頁(yè)的分類(lèi)。4.審計(jì)人員反饋審計(jì)結(jié)果。
權(quán)利要求
本發(fā)明是一種基于云技術(shù)的網(wǎng)頁(yè)審計(jì)方法,主要用于網(wǎng)絡(luò)信息安全領(lǐng)域。發(fā)明運(yùn)用云技術(shù),通過(guò)審計(jì)設(shè)備獲取用戶瀏覽網(wǎng)頁(yè)并與云語(yǔ)義庫(kù)匹配得出網(wǎng)頁(yè)分類(lèi)信息。其特征如下在云平臺(tái)下計(jì)算并存儲(chǔ)提煉語(yǔ)義庫(kù)網(wǎng)頁(yè)內(nèi)容與語(yǔ)義庫(kù)相匹配得出網(wǎng)頁(yè)分類(lèi)審計(jì)人員反饋審計(jì)結(jié)果并根據(jù)審計(jì)結(jié)果更新云語(yǔ)義庫(kù)
2.根據(jù)權(quán)利要求以所述的一種基于云技術(shù)的網(wǎng)頁(yè)審計(jì)方法,其特征在于提煉分類(lèi)語(yǔ)義 庫(kù),步驟如下(1)按照需求分類(lèi),且每一類(lèi)建立核心詞庫(kù)、非核心詞庫(kù)、停用詞庫(kù)以及出錯(cuò)詞庫(kù),并人 工初始化核心詞庫(kù)和停用詞庫(kù)(2)將爬蟲(chóng)獲得的網(wǎng)頁(yè)進(jìn)行語(yǔ)義分析,保留動(dòng)詞和名詞并去除停用詞,與核心詞庫(kù)進(jìn)行 匹配詞頻統(tǒng)計(jì),取統(tǒng)計(jì)之和最大的分類(lèi),按詞頻將除核心詞庫(kù)和停用詞庫(kù)之外的詞排序,取 特定比例(如前10% )的詞放入對(duì)應(yīng)分類(lèi)中的非核心詞庫(kù)(3)統(tǒng)計(jì)非核心詞的計(jì)數(shù),以網(wǎng)頁(yè)為單位,在一個(gè)網(wǎng)頁(yè)出現(xiàn)過(guò),其級(jí)數(shù)累加1,以此類(lèi) 推,當(dāng)某個(gè)非核心詞庫(kù)的計(jì)數(shù)超過(guò)某限定值時(shí),加入到相應(yīng)類(lèi)別的核心詞庫(kù),并對(duì)計(jì)數(shù)低于 某限定值的詞定期刪除(4)對(duì)出現(xiàn)的新詞語(yǔ)可人工添加到相應(yīng)的核心詞庫(kù)中,并將錯(cuò)誤的核心詞添加到停用 詞庫(kù),不斷更新的核心詞庫(kù)即為語(yǔ)義庫(kù)
3.根據(jù)權(quán)力要求1所述的一種基于云技術(shù)的網(wǎng)頁(yè)審計(jì)方法,其特征在于在審計(jì)過(guò)程是在云平臺(tái)下進(jìn)行
4.根據(jù)權(quán)力要求1所述的一種基于云技術(shù)的網(wǎng)頁(yè)審計(jì)方法,起特征在于在審計(jì)過(guò)程中將網(wǎng)頁(yè)內(nèi)容與分類(lèi)語(yǔ)義庫(kù)進(jìn)行匹配得出網(wǎng)頁(yè)分類(lèi),步驟如下(1)獲取用戶瀏覽網(wǎng)頁(yè)內(nèi)容并進(jìn)行語(yǔ)義分析及詞頻統(tǒng)計(jì)(2)取出詞頻在前特定比例的詞語(yǔ)與語(yǔ)義庫(kù)進(jìn)行匹配,匹配成功則該詞對(duì)應(yīng)的詞頻累 加,累加之和最大的語(yǔ)義庫(kù)對(duì)應(yīng)的分類(lèi)即為該網(wǎng)頁(yè)分類(lèi)
5.根據(jù)權(quán)力要求1所述的一種據(jù)以云技術(shù)的網(wǎng)頁(yè)審計(jì)方法,其特征在于對(duì)審計(jì)結(jié)果進(jìn)行人工校驗(yàn),并根據(jù)審計(jì)結(jié)果更新云語(yǔ)義庫(kù),其步驟如下(1)審計(jì)人員校驗(yàn)審計(jì)結(jié)果,并將處理后的出錯(cuò)網(wǎng)頁(yè)的數(shù)據(jù)發(fā)送到出錯(cuò)詞庫(kù)中。(2)云端的反饋處理程序處理網(wǎng)頁(yè)內(nèi)容并統(tǒng)計(jì)出錯(cuò)率,當(dāng)出錯(cuò)率超過(guò)限定值時(shí),系統(tǒng)報(bào) 警提示某類(lèi)語(yǔ)義庫(kù)異常,技術(shù)人員處理該類(lèi)出錯(cuò)詞庫(kù),將出錯(cuò)詞庫(kù)中詞頻較高的詞放入該 類(lèi)的停用詞庫(kù)并去除核心詞庫(kù)中。
全文摘要
該發(fā)明是一種基于云語(yǔ)義庫(kù)的網(wǎng)頁(yè)審計(jì)方法,主要應(yīng)用于上網(wǎng)信息安全以及上網(wǎng)行為管理等領(lǐng)域。發(fā)明運(yùn)用云技術(shù)以及語(yǔ)義分析技術(shù)構(gòu)建云語(yǔ)義庫(kù),將上網(wǎng)行為管理系統(tǒng)截獲的用戶上網(wǎng)的網(wǎng)頁(yè)內(nèi)容進(jìn)行語(yǔ)義分析及詞頻統(tǒng)計(jì)并與云語(yǔ)義庫(kù)相匹配得出網(wǎng)頁(yè)分類(lèi),并可根據(jù)反饋的審計(jì)結(jié)果對(duì)云語(yǔ)義庫(kù)加以修正。
文檔編號(hào)G06F17/30GK101901245SQ20101000049
公開(kāi)日2010年12月1日 申請(qǐng)日期2010年1月15日 優(yōu)先權(quán)日2010年1月15日
發(fā)明者尹志超 申請(qǐng)人:萊克斯科技(北京)有限公司