亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法、裝置和系統(tǒng)的制作方法

文檔序號:8395957閱讀:453來源:國知局
一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法、裝置和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法、裝置和系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息也越來越為豐富繁多,這些信息在給我們帶來 便利的同時,也帶來一些負面的影響,比如,充斥在其中的一些關(guān)于色情或暴力的圖文消 息,就會給青少年的成長以及社會的穩(wěn)定帶來不利的影響。因此,如何在這龐大的信息中, 將一些負面信息過濾掉,是一個極為重要的問題。
[0003] 在現(xiàn)有技術(shù)中,一般會通過人工標識一些敏感詞,然后通過文本挖掘和分析來從 各種網(wǎng)絡(luò)數(shù)據(jù)中過濾掉相應(yīng)的詞匯,以達到識別某類信息的目的。而對于圖片類型的數(shù)據(jù), 則需要通過人工標注的方式來進行識別。
[0004] 在對現(xiàn)有技術(shù)的研宄和實踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),由于作弊者用詞千變 萬化,同一類敏感詞常常會出現(xiàn)非常多的變種,因此,單純依靠文本挖掘和分析難以長久保 證較高的準確率和效果,而僅靠人工標注來識別色情圖片等圖片數(shù)據(jù),計算量也很大,導(dǎo)致 處理效率較低,效果也不佳。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明實施例提供一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法、裝置和系統(tǒng),不僅可以提高識別的 準確率和過濾效果,而且可以提高處理效率。
[0006] 本發(fā)明實施例提供一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法,包括:
[0007] 獲取目標信息類型的種子庫,以及用戶行為數(shù)據(jù);
[0008] 根據(jù)所述用戶行為數(shù)據(jù)和預(yù)置過濾規(guī)則對所述種子庫進行初步過濾,得到候選 集;
[0009] 基于所述候選集構(gòu)造轉(zhuǎn)移矩陣,并初始化用戶打分向量和頁面打分向量;
[0010] 根據(jù)所述轉(zhuǎn)移矩陣、用戶打分向量和頁面打分向量對所述候選集中的信息進行過 濾,得到目標信息;
[0011] 將目標信息加入所述種子庫。
[0012] 相應(yīng)的,本發(fā)明實施例提供一種網(wǎng)絡(luò)數(shù)據(jù)的過濾裝置,包括:
[0013] 獲取單元,用于獲取目標信息類型的種子庫,以及用戶行為數(shù)據(jù);
[0014] 第一過濾單元,用于根據(jù)所述用戶行為數(shù)據(jù)和預(yù)置過濾規(guī)則對所述種子庫進行初 步過濾,得到候選集;
[0015] 構(gòu)造單元,用于基于所述候選集構(gòu)造轉(zhuǎn)移矩陣,并初始化用戶打分向量和頁面打 分向量;
[0016] 第二過濾單元,用于根據(jù)所述轉(zhuǎn)移矩陣、用戶打分向量和頁面打分向量對所述候 選集中的信息進行過濾,得到目標信息;
[0017] 添加單元,用于將目標信息加入所述種子庫。
[0018] -種通信系統(tǒng),包括本發(fā)明實施例提供的任一種網(wǎng)絡(luò)數(shù)據(jù)的過濾裝置。
[0019] 本發(fā)明實施例采用獲取目標信息類型的種子庫,以及用戶行為數(shù)據(jù),根據(jù)該用戶 行為數(shù)據(jù)和預(yù)置過濾規(guī)則對該種子庫進行初步過濾,得到候選集,然后基于該候選集構(gòu)造 轉(zhuǎn)移矩陣,并初始化用戶打分向量和頁面打分向量,并根據(jù)轉(zhuǎn)移矩陣、用戶打分向量和頁面 打分向量對該候選集中的信息進行過濾,得到目標信息,將目標信息加入該種子庫,從而實 現(xiàn)在識別出目標信息的同時,對該種子庫自行進行學(xué)習(xí)和實時更新的目的;相對于現(xiàn)有技 術(shù)中單純依靠文本挖掘分析的方案而言,可以避免由于敏感詞匯變種所導(dǎo)致的識別不出的 情況的發(fā)生,大大提高了識別的準確率和過濾效果,而且,由于該方案可以自動進行識別, 而無需進行人工標注,因此,也可以大大提高處理效率。
【附圖說明】
[0020] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附 圖。
[0021] 圖1是本發(fā)明實施例提供的網(wǎng)絡(luò)數(shù)據(jù)的過濾方法的流程圖;
[0022] 圖2是本發(fā)明實施例提供的網(wǎng)絡(luò)數(shù)據(jù)的過濾方法的另一流程圖;
[0023] 圖3是本發(fā)明實施例提供的網(wǎng)絡(luò)數(shù)據(jù)的過濾裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0024] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施 例,都屬于本發(fā)明保護的范圍。
[0025] 本發(fā)明實施例提供一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法、裝置和系統(tǒng)。以下分別進行詳細說 明。
[0026] 實施例一、
[0027] 本實施例將從網(wǎng)絡(luò)數(shù)據(jù)的過濾裝置的角度進行描述,該網(wǎng)絡(luò)數(shù)據(jù)的過濾裝置具體 可以集成在服務(wù)器等網(wǎng)絡(luò)設(shè)備中。
[0028] 一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法,包括:獲取目標信息類型的種子庫,以及用戶行為數(shù) 據(jù),根據(jù)該用戶行為數(shù)據(jù)和預(yù)置過濾規(guī)則對該種子庫進行初步過濾,得到候選集,基于該候 選集構(gòu)造轉(zhuǎn)移矩陣,并初始化用戶打分向量和頁面打分向量,根據(jù)該轉(zhuǎn)移矩陣、用戶打分向 量和頁面打分向量對該候選集中的信息進行過濾,得到目標信息;將目標信息加入所述種 子庫。
[0029] 如圖1所示,該網(wǎng)絡(luò)數(shù)據(jù)的過濾方法的具體流程可以如下:
[0030] 101、獲取目標信息類型的種子庫,以及用戶行為數(shù)據(jù)。
[0031]其中,目標信息類型可以根據(jù)實際應(yīng)用的需求進行設(shè)置,比如,如果需要對色情圖 文進行識別,則可以將該目標信息類型設(shè)置為色情圖文,而如果需要對一些政治敏感圖文 進行識別,則可以將該目標信息類型設(shè)置為政治敏感圖文,等等。
[0032] 初始時,該種子庫可以由人工預(yù)先進行構(gòu)造,例如,以目標信息類型為色情圖文為 例,則可以預(yù)先收集一些色情消息、網(wǎng)址、以及人工標注一些色情圖片,然后添加到種子庫 中,等等。
[0033] 102、根據(jù)該用戶行為數(shù)據(jù)和預(yù)置過濾規(guī)則對該種子庫進行初步過濾,得到候選 集。
[0034] 其中,過濾規(guī)則可以根據(jù)實際應(yīng)用的需求進行設(shè)置。例如,步驟"根據(jù)該用戶行為 數(shù)據(jù)和預(yù)置過濾規(guī)則對該種子庫進行初步過濾,得到候選集"(即步驟102)具體可以如下:
[0035] (1)根據(jù)該用戶行為數(shù)據(jù),拉取對該種子庫中的圖文消息有用戶行為的用戶,得到 第一用戶集合。
[0036] 例如,以該種子庫為色情圖文消息集合為例,如果用戶對該色情圖文消息集合中 的色情圖文消息有興趣,則表明該用戶有可能是色情用戶,因此,將其添加至第一用戶集 合。
[0037] (2)確定該第一用戶集合中各個用戶對該種子庫的關(guān)注度。
[0038] 其中,關(guān)注度可以通過多種方式來衡量,比如,可以通過用戶對該種子庫中圖文消 息的瀏覽時間長度、和/或瀏覽的圖文消息的數(shù)量等來進行統(tǒng)計,瀏覽時間越長、和/或數(shù) 量越多則表明關(guān)注度越高,否則,則關(guān)注度越低。
[0039] 例如,以該目標信息類型為色情圖文為例,若一個用戶瀏覽了很多色情圖文消息, 或者瀏覽的色情圖文消息的時間很長,則表明該用戶對色情圖文消息的關(guān)注度較高,等等。
[0040] (3)將關(guān)注度大于預(yù)置第一閾值的用戶添加至第二用戶集合中。
[0041] 例如,以色情圖文為例,若一個用戶對色情圖文消息的關(guān)注度很高(即超過第一 閾值),則表明該用戶為色情用戶,因此,將該用戶添加至第二用戶集合,比如潛在色情用戶 集合中。
[0042] 其中,該第一閾值可以根據(jù)實際應(yīng)用的需求進行設(shè)置。
[0043] (4)查詢該第二用戶集合中用戶的行為數(shù)據(jù),以拉取用戶有行為的圖文消息,得到 第一圖文消息集合。
[0044]例如,還是以該目標信息類型為色情圖文為例,若一個圖文消息被很多色情用戶 所關(guān)注,那么,該圖文消息就可能是色情圖文消息,因此,可以通過查詢該第二用戶集合,比 如潛在色情用戶集合中用戶的行為數(shù)據(jù),以拉取用戶有行為的圖文消息,作為潛在的色情 圖文消息集合。
[0045] (5)確定該第一圖文消息集合中各圖文消息的覆蓋度。
[0046] 其中,該覆蓋度指示圖文消息被該第二用戶集合中用戶所關(guān)注的程度。具體可以 通過瀏覽次數(shù)等來衡量,被越多的第二用戶集合中用戶所瀏覽,則覆蓋度越高,否則,則覆 蓋度越低。
[0047] (6)將覆蓋度大于第二
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1