專利名稱:一種互聯(lián)網(wǎng)內(nèi)容過濾系統(tǒng)及過濾方法
技術(shù)領(lǐng)域:
本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種互聯(lián)網(wǎng)內(nèi)容過濾系統(tǒng)以及進行過濾的方法,可用于阻止用戶訪問互聯(lián)網(wǎng)上各類媒體數(shù)據(jù),包括文本、圖像、視頻、音頻、圖形和動畫等。
背景技術(shù):
互聯(lián)網(wǎng)已經(jīng)成為日常生活中不可缺少的一個組成部分。人們在網(wǎng)上生活,享用著網(wǎng)絡(luò)提供的形形色色的服務(wù)網(wǎng)上購物、網(wǎng)上銀行、收發(fā)郵件、信息查詢等。然而,當(dāng)人們享受互聯(lián)網(wǎng)好處的同時,也存在著互聯(lián)網(wǎng)上日益遞增的負(fù)面影響,例如青少年沉溺于成人網(wǎng)站、不良信息的散播,或是通過互聯(lián)網(wǎng)犯罪等。
根據(jù)美國N2H2公司統(tǒng)計,全球大致有8%的網(wǎng)頁是色情網(wǎng)頁。每天向搜索引擎提交的請求中有四分之一是有關(guān)色情內(nèi)容的;另外色情垃圾郵件已經(jīng)成為人們最為頭痛的事情之一。一般主流的免費郵箱每天會收到3-10封這樣的郵件,而發(fā)信人卻不管信箱的主人是否成年。
與網(wǎng)絡(luò)色情相比,以反政府、反社會為內(nèi)容的網(wǎng)站網(wǎng)頁也同樣是多如牛毛?!胺ㄝ喒Α钡淖盅垭S處可見,所謂的“政府秘密”正四處擴散。公眾的視聽被混淆,人們的生活被擾亂。網(wǎng)絡(luò)負(fù)面效應(yīng)之大,不良信息內(nèi)容之廣,是人們始料未及的。
如何保障互聯(lián)網(wǎng)的運行安全和信息安全已經(jīng)引起全社會的普遍關(guān)注。為了興利除弊,促進我國互聯(lián)網(wǎng)的健康發(fā)展,全國人民代表大會常務(wù)委員會于2000年12月通過了一項關(guān)于維護互聯(lián)網(wǎng)安全的決定。該決定明文規(guī)定了“為了維護國家安全和社會穩(wěn)定,對有下列行為之一,構(gòu)成犯罪的,依照刑法有關(guān)規(guī)定追究刑事責(zé)任(一)利用互聯(lián)網(wǎng)造謠、誹謗或者發(fā)表、傳播其他有害信息,煽動顛覆國家政權(quán)、推翻社會主義制度,或者煽動分裂國家、破壞國家統(tǒng)一;(二)通過互聯(lián)網(wǎng)竊取、泄露國家秘密、情報或者軍事秘密;(三)利用互聯(lián)網(wǎng)煽動民族仇恨、民族歧視,破壞民族團結(jié);(四)利用互聯(lián)網(wǎng)組織邪教組織、聯(lián)絡(luò)邪教組織成員,破壞國家法律、行政法規(guī)實施。”目前,中共中央、國務(wù)院正強調(diào)進一步加強和改進未成年人思想道德建設(shè)。教育部也于2004年5月要求把文明上網(wǎng)、網(wǎng)絡(luò)安全知識列入學(xué)校德育的重要內(nèi)容,以此來提高未成年人抵御有害信息的能力。
為了防止違法與有害信息的入侵,在技術(shù)上主要采取三種手段,一是從服務(wù)器上刪除文檔,一旦主機服務(wù)者意識到在服務(wù)器上存在違法信息,必須將這類信息從服務(wù)器上刪除。二是堵塞信息傳遞,如果違法信息所在的服務(wù)器的擁有者或國家,不認(rèn)可這是違法信息或采取不合作的態(tài)度,其它國家只能采取堵塞的手段,禁止對這類信息的檢索。三是開發(fā)行之有效的過濾軟件,目前已經(jīng)開發(fā)出了三代過濾軟件。第一代被稱為“黑名單”軟件,第二代是“白名單”軟件,第三代是PICS系統(tǒng)。
“黑名單”軟件的工作原理是封鎖住不應(yīng)檢索的網(wǎng)址,“白名單”軟件是用來檢索只允許訪問的網(wǎng)址?!昂诿麊巍避浖诘谝淮^濾軟件中得到廣泛應(yīng)用,最有名的是Cyber Patro,九十年代早期投入使用,可以與因特網(wǎng)檢索商和聯(lián)機服務(wù)商的檢索軟件配合合作。軟件記錄了大約7000個網(wǎng)址,12個大類的非法和有害信息(暴力/瀆神、種族主義/對少數(shù)民族不恰當(dāng)?shù)脑u論、魔鬼崇拜、毒品、好戰(zhàn)言論/極端主義、賭博等)?!鞍酌麊巍笔桥c“黑名單”工作原理正好相反的軟件,它是先封鎖住所有因特網(wǎng)網(wǎng)址,然后選擇可供訪問的網(wǎng)址,由于這種軟件在邏輯上與因特網(wǎng)相反,因此適用范圍十分有限。
過濾違法與有害信息的另一種有效技術(shù)手段是采用“因特網(wǎng)內(nèi)容選擇平臺”(PICS-Platform for Internet Content Selection)、“中性標(biāo)簽”(neutral labeling)系統(tǒng)。該系統(tǒng)由麻省理工學(xué)院計算機科學(xué)實驗室的Jim Miller教授開發(fā),它類似于過濾掉電視節(jié)目中色情與暴力的V芯片電視節(jié)目選擇器。由萬維網(wǎng)協(xié)論壇(W3C-Wold Wide WebConsortium)在1996年5月正式頒布。目前已被廣泛應(yīng)用。PICS得到了39個國際計算機公司、計算機軟硬件制造商、檢索服務(wù)商、聯(lián)機服務(wù)商、出版商、內(nèi)容提供者的廣泛支持,它被安裝在因特網(wǎng)的瀏覽器中,供用戶選擇使用。PICS的主要工作是對每一個網(wǎng)頁的內(nèi)容進行分類,并根據(jù)內(nèi)容特性加上標(biāo)簽,同時由計算機軟件對網(wǎng)頁的標(biāo)簽進行監(jiān)測,以限制對特定內(nèi)容網(wǎng)頁的檢索。網(wǎng)頁上的標(biāo)簽即可以是數(shù)字字符,也可以是密碼。標(biāo)簽被嵌入RFC-822傳輸格式和HTML文本格式,通過HTTP協(xié)議,可以與文件一起傳輸。
今天,許多軟件公司意識到網(wǎng)絡(luò)內(nèi)容過濾帶來的商機,各種過濾軟件不斷問世?!熬W(wǎng)絡(luò)爸爸”、“美萍反黃專家”、“e反黃軟件”、“正義戰(zhàn)士”都是我國早期涌現(xiàn)的一批反黃軟件。在國內(nèi)為數(shù)不多的網(wǎng)頁過濾軟件中,不乏一些較有特色的軟件,如“MyIE2”、“別碰NoPorn!”、“過濾網(wǎng)”和“護花使者”等??v觀國內(nèi)的過濾軟件,大多采用簡單的URL匹配和關(guān)鍵詞判斷技術(shù)來過濾網(wǎng)頁,真正采用基于內(nèi)容的分析處理方法來過濾網(wǎng)絡(luò)媒體文件的產(chǎn)品基本上沒有。
相比之下,國外同類產(chǎn)品的開發(fā)比國內(nèi)更快,過濾技術(shù)也相對成熟。ZyXEL、WebSense、FilterLogix、SurfControl都是使用較為廣泛的網(wǎng)絡(luò)內(nèi)容過濾軟件,它們均擁有一個龐大的、分過類的URL數(shù)據(jù)庫。普遍采用的技術(shù)也是黑白名單和關(guān)鍵詞匹配查詢。
ISS公司的Proventia Web Filter擁有世界上最大最新的內(nèi)容過濾數(shù)據(jù)庫,它不僅依賴關(guān)鍵詞查詢和手工網(wǎng)站分類,并且使用了一個文本圖像分析系統(tǒng)一起處理媒體內(nèi)容。
FortiGuard的URL數(shù)據(jù)庫包括超過5百萬條URL并含有分類信息。每當(dāng)有請求時,系統(tǒng)會先去詢問FortiGuard數(shù)據(jù)庫該網(wǎng)頁的分類情況,并根據(jù)客戶預(yù)先制定的政策允許或拒絕網(wǎng)頁的請求。
韓國的WebWacher是一款相當(dāng)不錯的網(wǎng)絡(luò)圖像過濾軟件。該軟件針對家庭用戶,提供控制上網(wǎng)時間和過濾網(wǎng)絡(luò)不良內(nèi)容兩大功能,以此保護兒童合理使用互聯(lián)網(wǎng)。
另外,大多數(shù)美國開發(fā)過濾軟件的公司都從事反垃圾郵件和殺病毒軟件的開發(fā)。因此,一方面各大軟件公司依托本身的基礎(chǔ),可以很快建立起龐大的URL數(shù)據(jù)庫以供查詢;而另一方面過濾軟件的工作模式基本上與反垃圾郵件或殺病毒相似,同時銷售對象也往往只針對企業(yè)級用戶。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種新的互聯(lián)網(wǎng)內(nèi)容過濾系統(tǒng)以及進行過濾的方法,使得系統(tǒng)具有自學(xué)習(xí)能力,并可提高系統(tǒng)分類精度,降低人工成本;當(dāng)用戶訪問網(wǎng)絡(luò)時,以主動方式過濾互聯(lián)網(wǎng)中存在的各類媒體數(shù)據(jù),包括文本、圖像、視頻、音頻、圖形和動畫等。
下面先介紹URL的概念。
URL是Uniform Resource Locator(統(tǒng)一資源定位器)的縮寫,其數(shù)據(jù)結(jié)構(gòu)為協(xié)議//主機名端口號/目錄路徑/文件名。
URL與網(wǎng)站或服務(wù)器上一個具體的數(shù)據(jù)對象對應(yīng),例如一個URL對應(yīng)一個門戶站點或BBS服務(wù)器,也可對應(yīng)一個站點中一個目錄下的一幅特定圖片。因此,如果要阻止用戶訪問某個網(wǎng)站、服務(wù)器或特定數(shù)據(jù)對象,則只要阻止向網(wǎng)絡(luò)用戶發(fā)送該URL請求即可。
協(xié)議段說明Internet的資源類型,如http表示超文本傳輸協(xié)議或WWW。其他協(xié)議有ftp(表示文件傳輸協(xié)議)、telnet(表示遠程登錄)、news(表示新聞組)、mailto(表示電子郵件)、mms(表示流媒體)等。
主機名段說明Internet的服務(wù)器名,例如www.fudan.edu.cn。目錄路徑段指出文件或部分文件在internet服務(wù)器上位置。每一級目錄以一個正斜杠(/)符號隔開。
文件名段是將要訪問的文檔、圖像或腳本的實際名稱,例如index.html、logo.gif、script.cgi。端口號、目錄路徑、文件名這些都屬于URL的可選組成部分。
下面給出一些URL的實例http//www.w3.org/index.html該URL對應(yīng)一個網(wǎng)站http//10.64.130.4/images/advice.gif該URL對應(yīng)一幅圖片ftp//10.11.3.8該URL對應(yīng)一個FTP服務(wù)器mms//10.11.4.6/abc.avi該URL用于點播一個音像節(jié)目telnet//bbs.fudan.edu.cn該URL對應(yīng)一個BBS服務(wù)器本發(fā)明提出的網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng)包括如下幾個部分(參見圖1所示)互聯(lián)網(wǎng)支持下的內(nèi)容過濾代理、查詢服務(wù)器、內(nèi)容分析與管理服務(wù)器,它們位于用戶端設(shè)備和目標(biāo)站點之間。其中1、用戶端設(shè)備(UTUser Terminal),可以是計算機或其它能訪問互聯(lián)網(wǎng)的設(shè)備,用戶通過UT訪問網(wǎng)絡(luò)資源,例如瀏覽網(wǎng)頁、檢索文獻、下載文件等。
2、內(nèi)容過濾代理(CFAContent Filtering Agent),存儲黑名單(即禁止訪問的站點或文件)和白名單(允許訪問的站點或文件),它們實際上是一組URL列表。該模塊將以多種形式運行在不同類型的平臺上。
3、查詢服務(wù)器(QSQuery Server),有一個具有分類和分級信息的、海量的URL庫。當(dāng)QS接收到UT提交的URL時,在分類與分級庫中進行查詢,并將結(jié)果告訴UT。采用QS的基本原因是因為CFA的資源受限,不能存儲太多的分類分級信息,只能存儲少量的黑/白名單,而在QS上可以大量存儲分類分級信息,一個QS可以支持大量CFA的并發(fā)訪問。同時在Internet網(wǎng)上還可以部署多個QS,一個單位的Intranet上也可以部署QS,以對付大量并發(fā)的查詢請求。
4、內(nèi)容分析與管理服務(wù)器(CAMSContent Analysis and Management Server),其主要任務(wù)是對Internet中的資源進行分類與分級評估。例如記錄“存放黃色圖片或音像的網(wǎng)站或不良URL”的列表。獲得授權(quán)的QS可以從這里下載具有分類與分級信息的URL庫。通常情況下,不同企業(yè)或部門關(guān)注不同類型的CAMS,可以有多個不同類別的CAMS。CAMS還必須具有管理和發(fā)布功能,也可作為一個網(wǎng)絡(luò)門戶網(wǎng)站存在。
5、目標(biāo)站點(TWSTarget Website or Server),可以是任何一個存儲資源的網(wǎng)站或服務(wù)器,UT通過Internet可以訪問其公開資源。
該網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng)工作的具體步驟概括如下1、當(dāng)用戶發(fā)出對某個URL進行訪問的請求時,CFA根據(jù)黑名單或白名單,允許或禁止該訪問請求;
2、倘若該URL不在CFA的黑名單和白名單中,CFA則向QS發(fā)出查詢請求;3、QS將會在本地URL庫中查詢該URL的分級信息并將結(jié)果返回給CFA,CFA則據(jù)此做出反應(yīng);4、QS會定期從CAMS中下載更新的URL分級信息;5、CAMS自動搜索、下載和分析處理互聯(lián)網(wǎng)上多媒體數(shù)據(jù),采用人工交互標(biāo)注方法和機器自動分類方法,對網(wǎng)絡(luò)內(nèi)容進行分類和分級評估,形成分類和分級的URL信息庫。
本發(fā)明提出的互聯(lián)網(wǎng)內(nèi)容過濾系統(tǒng)可以應(yīng)用于各種應(yīng)用場合,例如1.用于阻止訪問政治反動的、或危害國家安全的站點。
2.用于阻止訪問黃色的、影響青少年身心健康的站點。
3.用于阻止訪問電子競技游戲的站點。
4.用于阻止訪問特定類型的站點或資源,有具體應(yīng)用需求確定。
過濾代理CFA能以多種方式運行在多種類型的軟硬件平臺上,例如1.CFA可以運行在代理服務(wù)器上。
2.CFA可以運行在防火墻上。
3.CFA可以作為瀏覽器插件運行在瀏覽器上。
4.CFA可以運行于ADSL調(diào)制解調(diào)器、Cable Modem、電話線調(diào)制解調(diào)器、ISDN PC適配器等網(wǎng)絡(luò)訪問設(shè)備中。
圖1為互聯(lián)網(wǎng)上內(nèi)容過濾系統(tǒng)總體框架結(jié)構(gòu)圖示。
圖2為內(nèi)容分析與管理服務(wù)器(CAMS)的基本組成與工作流程圖示。
圖中標(biāo)號1為用戶端UT,2為內(nèi)容過濾代理CFA,3為查詢服務(wù)器QS,4為內(nèi)容分析和管理服務(wù)器CAMS,5位目標(biāo)站點TWS。
具體實施例方式
下面通過舉例進一步介紹本發(fā)明的內(nèi)容。
關(guān)于內(nèi)容分析與管理服務(wù)器(CAMS)眾所周知,Internet上存在著各種各樣的、時刻變化的內(nèi)容,例如文本、圖像、視頻、音頻、圖形、動畫、動態(tài)網(wǎng)頁、Flash等;從全世界角度看,Internet網(wǎng)中數(shù)據(jù)是真正海量。
CAMS應(yīng)時刻關(guān)注互聯(lián)網(wǎng)絡(luò)中各種時刻變化著的、海量的多媒體數(shù)據(jù)內(nèi)容,并且能及時對網(wǎng)絡(luò)內(nèi)容作出客觀的分類和分級。這是一項難度較大的、富有挑戰(zhàn)性的工作,需要大規(guī)模計算和存儲設(shè)備,也需要大量的人工輔助。
下表給出了關(guān)于“暴力”、“裸體”等類別的分級實例。
對網(wǎng)站或服務(wù)器上各種數(shù)據(jù)進行自動或半自動的分類與分級是CAMS的一個非常重要的任務(wù)。這里必須指出的是,分類與分級的標(biāo)準(zhǔn)應(yīng)該由國家有關(guān)部門制定、發(fā)布和執(zhí)行。
有了網(wǎng)絡(luò)內(nèi)容的分類與分級標(biāo)準(zhǔn)之后,不同的公司、單位或門戶網(wǎng)站就有可能針對某一類數(shù)據(jù)進行分級評價。例如,某個CAMS只關(guān)注政治性的內(nèi)容,另一個CAMS可能只關(guān)注色情方面的內(nèi)容,由此可以產(chǎn)生很多商業(yè)機會。
顯然,某個特定類別的CAMS能否全面并準(zhǔn)確地實現(xiàn)對網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容的分級,將直接關(guān)系到網(wǎng)絡(luò)內(nèi)容過濾的準(zhǔn)確性。完全依靠計算機處理和分析來全自動評價網(wǎng)絡(luò)內(nèi)容是非常困難的,在本發(fā)明中采用人工指導(dǎo)和機器學(xué)習(xí)相結(jié)合的方法來指導(dǎo)計算機完成海量時變網(wǎng)絡(luò)數(shù)據(jù)的評價任務(wù)。
圖2給出了基于內(nèi)容的多媒體數(shù)據(jù)分析處理和評價方法(針對特定類,類別可以事先人工確定),它可以對圖像、視頻、音頻、文本等各種媒體內(nèi)容進行分級,其工作步驟是1、對各種媒體對象進行特征提取。例如,從圖片中提取顏色和顏色直方圖、分析圖象區(qū)域顏色和紋理結(jié)構(gòu)等;從視頻數(shù)據(jù)中提取相機或物體的運動信息、顏色信息、紋理信息等;從文本中提取關(guān)鍵詞等。
2、用人工方法對部分少量的對象進行標(biāo)注。這些人工標(biāo)注的對象將作為機器學(xué)習(xí)的樣本。
3、系統(tǒng)根據(jù)人工標(biāo)注結(jié)果進行學(xué)習(xí),獲得較高層次的語義信息,并形成用于分級的知識庫。
4、最后,系統(tǒng)對沒有人工標(biāo)注的絕大多數(shù)數(shù)據(jù)對象進行自動分級,從而大大減輕人工成本。
為保證機器有足夠的分類精度,還需要對機器分類的結(jié)果進行抽查和人工評價,即通過人工再次評價的方式進一步改進機器的分類性能,即相關(guān)反饋。
上述方法的主要特點有采用基于內(nèi)容的分析處理方法,對各種媒體對象的理解進入語義層面;引入人工交互和標(biāo)注,允許機器學(xué)習(xí),以增強系統(tǒng)的分類準(zhǔn)確性;采用反饋機制,系統(tǒng)有自學(xué)習(xí)能力。通過適當(dāng)人工指導(dǎo)和機器學(xué)習(xí)方法,可以較好地提高機器分類精度,極大降低人工成本。
另外,CAMS其它功能模塊有管理URL的分類與分級信息庫;發(fā)布URL分類與分級信息庫;還必須有一個重要模塊就是“網(wǎng)絡(luò)爬蟲”,用于自動探索互聯(lián)網(wǎng),訪問網(wǎng)站或服務(wù)器,抓取各種媒體文件?,F(xiàn)在已有很多類似功能的爬蟲軟件,這不是本發(fā)明的重點。
下面給出CAMS的詳細工作步驟(見圖2)(1)網(wǎng)絡(luò)爬蟲組從Internet網(wǎng)上自主搜索下載各種類型的數(shù)據(jù),例如網(wǎng)頁、圖片、視頻、音樂等[對應(yīng)流程①];根據(jù)可疑的URL信息庫要求,下載數(shù)據(jù)對象[對應(yīng)流程⑦]。注意,這里“可疑的URL信息庫”主要由查詢服務(wù)器(QS)發(fā)來的、QS尚不能處理的URL列表。
(2)特征提取對下載的各類多媒體數(shù)據(jù)對象進行分析處理,提取特征。例如,提取圖像的顏色、紋理和形狀等特征;提取視頻的特征,例如物體運動、相機運動等;組織存儲每個下載的數(shù)據(jù)對象的URL及其特征[對應(yīng)流程②]。
(3)人工標(biāo)注從人工下載的多媒體數(shù)據(jù)對象中,選擇部分?jǐn)?shù)據(jù)對象進行分類和分級標(biāo)注;人工對自動分類和分級的結(jié)果進行檢查,既可以減少錯誤,也可以通過這種相關(guān)反饋的方法提高分類性能[對應(yīng)流程③]。
(4)訓(xùn)練分類器對URL對應(yīng)的數(shù)據(jù)對象進行自動分類和分級,可以采用機器學(xué)習(xí)方法,用人工指導(dǎo)標(biāo)注和相關(guān)反饋信息,對分類器進行訓(xùn)練,得到高精度的分類和分級結(jié)果[對應(yīng)流程④]。
(5)自動分類和分級訓(xùn)練好的分類器可以自動地對每個下載的數(shù)據(jù)對象進行分類和分級處理,得到分類和分級之后的URL信息庫[對應(yīng)流程⑤];可以對該URL信息庫定期更新和發(fā)布,由于Internet網(wǎng)內(nèi)容時時刻刻在變化之中,因此要求更新和發(fā)布的周期盡量短[對應(yīng)流程⑥]。
關(guān)于查詢服務(wù)器(QS)在QS上存儲了海量的URL分類和分級信息庫,這些信息可能來自于一個或多個CAMS。在QS中URL分類和分級信息庫的一般性數(shù)據(jù)結(jié)構(gòu)如下(實例)
QS的主要工作是對內(nèi)容過濾代理(CFA)提交的URL做出判決,這是一個簡單的查表過程。如果該URL存在于分類與分級表中,則QS將查表結(jié)果(即級別)反饋給CFA;否則,QS要做兩件事情(1)給CFA反饋“不可判定”(NAN)信息;(2)將該URL提交給CAMS,由CAMS進行分析處理。由于Internet網(wǎng)上內(nèi)容時刻變化,出現(xiàn)不可判定的情況是無法避免的。如果CAMS能夠及時分析、處理、跟蹤網(wǎng)絡(luò)內(nèi)容變化情況,則出現(xiàn)“不可判定”的概率會很小。
在實現(xiàn)QS的時候,必須考慮支持并發(fā)訪問。本發(fā)明采用基于Trie樹的URL索引結(jié)構(gòu),同時利用主存緩存策略,將經(jīng)常訪問的URL項存放在服務(wù)器的主存中,不經(jīng)常使用的存放在磁盤上。這種利用索引結(jié)構(gòu)和緩存的策略極大提高了QS的驗證速度,支持大并發(fā)量的訪問。
QS可以在Internet或Intranet上大量部署,以服務(wù)于各類用戶,包括家庭用戶或企業(yè)用戶。QS將從各類獲得授權(quán)的CAMS下載分類和分級信息庫。CAMS應(yīng)及時處理QS不能判斷結(jié)果的URL所對應(yīng)的數(shù)據(jù),并周期性發(fā)布分類和分級信息,供QS下載。
關(guān)于內(nèi)容過濾代理(CFA)CFA是一個非常簡單的軟件模塊,它以多種形式運行在各類軟硬件系統(tǒng)平臺上。在CFA中存儲白名單(WNList)和黑名單(BNList)。本質(zhì)上,黑/白名單是一張URL列表。
CFA的黑/白名單的數(shù)據(jù)結(jié)構(gòu)如下
CFA的基本工作過程1、當(dāng)URL屬于WNList時,CFA允許URL通過,將URL轉(zhuǎn)發(fā)給TWS,TWS將根據(jù)URL請求返回結(jié)果給UT。
2、當(dāng)URL屬于BNList時,CFA禁止URL通過,CFA直接將“禁止訪問或警告”信息發(fā)送給UT,這實際上是切斷了UT的請求信息。
3、當(dāng)URL既不屬于WNList,也不屬于BNList時,CFA將該URL發(fā)送給QS,請求QS對URL進行驗證,并根據(jù)驗證結(jié)果進行相應(yīng)處理。
以上操作細節(jié)在后續(xù)工作流程中還有更加詳細的敘述。
每個CFA都將有個授權(quán)賬號,授權(quán)用戶可以通過用戶端的圖形化界面,設(shè)置各類CFA選項,形成各自的過濾策略,具體包括1、判定URL屬于黑/白名單的URL分類級別的設(shè)置例如,假設(shè)用戶設(shè)定“暴力”1級以上(包括1級),“裸體”2級以上(包括2級)的URL為黑名單。當(dāng)UT請求訪問一個不在CFA的黑/白名單中的URL時,CFA將該URL發(fā)送給QS。假設(shè)在QS的分類與分級庫中,該URL的分級信息為“暴力”0級、“裸體”3級,當(dāng)QS將這個分級信息返回給CFA時,CFA會根據(jù)用戶設(shè)置,判定該URL屬于黑名單,從而攔截該URL。
2、當(dāng)QS返回信息為“NAN”時,判定該URL的屬性設(shè)置假設(shè)用戶將此選項設(shè)為“白名單”,則當(dāng)QS返回“NAN”給CFA時,CFA自動判定該URL屬于白名單;否則,認(rèn)為是黑名單。
3、用戶可以手工管理CFA中的黑/白名單,包括瀏覽、增加和刪除。
4、用戶可以修改CFA中授權(quán)賬號的密碼。
當(dāng)CFA的存儲資源受限時,需要采取一定緩存策略,例如保留最近的和最頻繁使用的黑白名單。
CFA的計算能力和存儲資源通常是受限的。例如,CFA運行在ADSL的調(diào)制解調(diào)器(MODEM)中,此時計算能力明顯不足,能存儲的黑/白名單也相當(dāng)有限。針對這種應(yīng)用,CFA必須設(shè)計得簡單小巧快速。顯然,本發(fā)明提出的CFA不需要復(fù)雜的程序,只是一個查表和維護緩存的過程,而且緩存機制大大減少了對存儲空間的需求。
最后需要指出的是,CFA、QS與CAMS三者之間通信可以通過Socket編程實現(xiàn),也可以通過其它方法實現(xiàn)。CFA與QS之間,QS與CAMS之間的通信都要通過身份驗證。本發(fā)明中互聯(lián)網(wǎng)內(nèi)容過濾的具體步驟如下(見圖1所示)1、當(dāng)用戶希望訪問某個目標(biāo)站點或服務(wù)器(TWS),進行網(wǎng)頁瀏覽、視頻點播或文件下載時,將發(fā)出http(或ftp、mms、telnet等)請求,內(nèi)容過濾代理CFA會馬上截獲該請求的URL,并與CFA的黑白名單中的URL進行比較[對應(yīng)流程①]。
如果UT請求的URL在CFA黑名單中,則攔截該URL請求,返回錯誤或警告信息給UT[對應(yīng)流程②]。
2、如果UT請求的URL在CFA白名單中,則將該URL請求直接轉(zhuǎn)發(fā)給目標(biāo)站點TWS[對應(yīng)流程③];TWS將回復(fù)UT相應(yīng)的響應(yīng)[對應(yīng)流程⑥]。
3、如果請求的URL即不在CFA黑名單中,也不在CFA白名單中,CFA將該URL發(fā)送給查詢服務(wù)器QS[對應(yīng)流程④],QS對該URL進行查詢,獲取分級信息或NAN,并發(fā)送給CFA[對應(yīng)流程⑤]。
(1)如果該URL在QS的URL庫中,并且按照用戶設(shè)置,它的分類級別屬于黑名單時,CFA認(rèn)定該URL屬于黑名單,立即自動更新其黑名單,禁止UT訪問該URL,并返回錯誤或警告信息給UT[對應(yīng)流程②]。
(2)如果該URL在QS的URL庫中,并且按照用戶設(shè)置,它的分類級別屬于白名單時,CFA認(rèn)定該URL屬于白名單,立即自動更新其白名單,并將請求轉(zhuǎn)發(fā)給TWS[對應(yīng)流程③];TWS將回復(fù)UT相應(yīng)的響應(yīng)[對應(yīng)流程⑥]。
(3)如果該URL不在QS的URL庫中,QS將通知CFA該URL是無法判定的,CFA將根據(jù)事先用戶設(shè)置的策略作出反應(yīng)一種是自動作為白名單處理,另一種自動作為黑名單處理。不過,在此情形下,CFA不再更新其黑名單或白名單。另一方面,QS會將該URL交由CAMS處理[對應(yīng)流程⑦]。
內(nèi)容分析管理服務(wù)器CAMS會定期向QS發(fā)布更新的URL分級庫[對應(yīng)流程⑩],使之能夠及時反映互聯(lián)網(wǎng)中內(nèi)容的變化。CAMS的性能直接影響過濾精度,因此需要付出較大代價來維護和更新CAMS。
為了提高CFA的判別速度,減小CFA對存儲資源的要求,需要在CFA中引入緩存機制,即存儲用戶UT經(jīng)常訪問的黑白名單,減少UT向QS發(fā)送驗證請求的機會,因為一次驗證請求需要一定的等待時間。
授權(quán)用戶可以根據(jù)自己的需要,管理CFA中黑白名單列表,對其瀏覽、添加或刪除[對應(yīng)流程⑧和⑨]。
權(quán)利要求
1.一種網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng),其特征在于由內(nèi)容過濾代理(記為CFA)、查詢服務(wù)器(記為QS)和內(nèi)容分析與管理服務(wù)器(記為CAMS)組成,其中,內(nèi)容過濾代理存貯有黑名單和白名單;查詢服務(wù)器擁有一個具有分類和分級信息的URL庫;內(nèi)容分析與管理服務(wù)器是對Internet中的資源進行分類與分級評估。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng),其特征在于CFA中設(shè)有用戶個性化配置,包括(1)判定URL屬于黑名單或白名單的URL分類級別的設(shè)置;(2)當(dāng)QS返回信息為沒有該URL條目時,判定該URL屬性的設(shè)置;(3)手工管理CFA中的黑名單或白名單,包括瀏覽、增加和刪除功能。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng),其特征在于CFA以多種形式運行在下述各類軟硬件系統(tǒng)平臺上(1)代理服務(wù)器;(2)防火墻;(3)瀏覽器;(4)ADSL調(diào)制解調(diào)器、Cable Modem、電話線調(diào)制解調(diào)器、ISDN PC適配器等網(wǎng)絡(luò)訪問設(shè)備。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng),其特征在于QS擁有海量的URL分類及分級信息,對CFA提交的URL進行快速查詢并返回相應(yīng)的分級信息。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng),其特征在于QS可以在Internet或Intranet上大量部署,支持并發(fā)查詢,用于服務(wù)各類用戶;QS將從各類獲得授權(quán)的CAMS處下載分類和分級信息庫。
6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng),其特征在于CAMS采用基于內(nèi)容的多媒體分析處理方法,對互聯(lián)網(wǎng)中各類媒體內(nèi)容進行分析和評估,并按照不同的分類為它們標(biāo)注分級。
7.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng),其特征在于CAMS引入人工交互和標(biāo)注,利用機器學(xué)習(xí)增強系統(tǒng)的分級準(zhǔn)確性。
8.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng),其特征在于CFA與QS之間,QS與CAMS之間的通信都需要通過身份驗證。
9.一種網(wǎng)絡(luò)內(nèi)容過濾的方法,其特征在于利用權(quán)利要求1所述的網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng),具體步驟如下(1)當(dāng)用戶發(fā)出對某個URL進行訪問的請求時,CFA根據(jù)黑名單或白名單,禁止或允許該訪問請求;(2)倘若該URL不在CFA的黑名單和白名單中,CFA則向QS發(fā)出查詢請求;(3)QS將會在本地URL庫中查詢該URL的分級信息并將結(jié)果返回給CFA,CFA則據(jù)此做出反應(yīng);(4)QS會定期從CAMS中下載更新的URL分級信息;(5)CAMS自動搜索、下載和分析處理互聯(lián)網(wǎng)上多媒體數(shù)據(jù),采用人工交互標(biāo)注方法和機器自動分類方法,對網(wǎng)絡(luò)內(nèi)容進行分類和分級評估,形成分類和分級的URL信息庫。
10.根據(jù)權(quán)利要求9所述的網(wǎng)絡(luò)內(nèi)容過濾方法,其特征在于CAMS的工作步驟如下(1)網(wǎng)絡(luò)爬蟲組從Internet上自主搜索下載各種類型數(shù)據(jù),根據(jù)可疑的URL信息庫要求,下載數(shù)據(jù)對象;(2)特征提取對下載的各類多媒體數(shù)據(jù)對象進行分析處理,提取特征;(3)人工標(biāo)注從下載的多媒體數(shù)據(jù)對象中,選擇部分?jǐn)?shù)據(jù)對象進行分類和分級標(biāo)注;人工對自動分類和分級的結(jié)果進行檢查;(4)訓(xùn)練分類器對與URL相對應(yīng)的數(shù)據(jù)對象進行自動分類和分級,采用機器學(xué)習(xí)方法,用人工指導(dǎo)標(biāo)注和相關(guān)反饋信息,對分類器進行訓(xùn)練;(5)自動分類和分級訓(xùn)練好的分類器自動把對每個下載的數(shù)據(jù)對象進行分類分級處理,得到分類和分級之后的URL信息庫;對該URL信息庫定期更新和發(fā)布。
全文摘要
本發(fā)明為一種互聯(lián)網(wǎng)內(nèi)容過濾系統(tǒng)及過濾方法。系統(tǒng)框架包括內(nèi)容過濾代理(CFA)、查詢服務(wù)器(QS)、內(nèi)容分析與管理服務(wù)器(CAMS)三部分。網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng)的過濾流程為當(dāng)用戶發(fā)出對某個URL進行訪問的請求時,CFA根據(jù)用戶設(shè)置的黑白名單,允許或禁止該訪問請求。倘若該URL不在CFA的黑白名單中,CFA則向QS發(fā)出查詢請求。QS將會在自己的URL庫中查詢該URL的分級信息并將結(jié)果返回給CFA。CFA據(jù)此做出反應(yīng)。同時QS會定期從CAMS中下載更新的URL分級信息。本發(fā)明可以準(zhǔn)確地識別網(wǎng)絡(luò)中存在的不良信息,并主動地阻止互聯(lián)網(wǎng)用戶訪問這些不良網(wǎng)站。在過濾不良信息的同時,系統(tǒng)將最大限度的確保網(wǎng)絡(luò)速度的高效。
文檔編號H04L12/24GK1588879SQ20041005368
公開日2005年3月2日 申請日期2004年8月12日 優(yōu)先權(quán)日2004年8月12日
發(fā)明者薛向陽, 石靜, 郭小鵬, 許源, 趙澤宇 申請人:復(fù)旦大學(xué)