一種甄別音視頻網站的方法及系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及計算機互聯網領域,更具體地說,涉及一種甄別音視頻網站的方法及
目.ο
【背景技術】
[0002]隨著互聯網技術的快速發(fā)展,音視頻內容的傳播也隨之越來越廣泛。然而侵權、盜版、涉黃隨處可見,為了限制這些不合法信息的傳播,需要對大量視頻網站進行監(jiān)控。如何自動獲取視音頻網站,如何甄別出音視頻網站,是現今監(jiān)控音視頻網站需要解決的難點之一,目前多數情況下只能通過人工判斷來甄別出音視頻網站,但是該方法費時且費力。
[0003]根據《第34次中國互聯網絡發(fā)展狀況統(tǒng)計報告》,中國域名數增長到1915萬。而且,為了監(jiān)控音視頻網站(包括獲取和甄別),獲取及維護這些域名信息,需要一定的網絡硬件資源,若每個本地建設系統(tǒng)都部署相應的網絡硬件資源,則硬件成本及維護成本較高。
[0004]現階段沒有一種方便有效的方法去判斷一個網站是否為視頻網站,有鑒于此,為了監(jiān)控日益發(fā)展的音視頻網站,尋找一種快速、高效的視音頻發(fā)現方法刻不容緩。
【發(fā)明內容】
[0005]本發(fā)明要解決的技術問題在于,針對現有技術中自動獲取及甄別出視音頻網站的不足,提供一種發(fā)現音視頻網站的方法及裝置。
[0006]本發(fā)明解決上述問題的技術方案是提供了一種發(fā)現音視頻網站的方法,基于中心系統(tǒng)和多個與所述中心系統(tǒng)通信的地域系統(tǒng),其特征在于:該方法包括以下步驟:
[0007]S1、中心系統(tǒng)通過爬蟲采集域名信息;
[0008]S2、對所述域名信息通過AC自動機進行初步篩選,對疑似音視頻網站的域名進行標記形成經標記的域名信息;
[0009]S3、接收地域系統(tǒng)請求,同步項目所屬地域的域名信息給所述地域系統(tǒng);
[0010]S4、所述地域系統(tǒng)將接收到的疑似音視頻網站放到爬蟲采集,根據爬蟲采集情況,判斷域名是否為音視頻網站。
[0011]在本發(fā)明甄別音視頻網站的方法中,在所述步驟SI中,通過爬蟲采集所述域名信息,并將所述域名信息存入在域名庫中。
[0012]在本發(fā)明甄別音視頻網站的方法中,在所述步驟S2中,通過AC自動機對所述域名信息中的網站標題、關鍵字、描述信息進行比對命中,并進行統(tǒng)計,根據加權值算法,計算出命中的關鍵字的加權平均值,判斷該加權平均值是否達到配置的第一閾值,若是,則標記所述域名信息中對應的網站為疑似音視頻網站。
[0013]在本發(fā)明甄別音視頻網站的方法中,在所述步驟S3中,包括以下步驟:
[0014]所述地域系統(tǒng)通過REST接口方式發(fā)送注冊項目信息的請求和同步域名信息的請求,其中,所述注冊項目信息包括項目所屬地域;
[0015]根據所述同步域名信息的請求的參數和所述項目所屬地域,在域名庫中進行檢索,并向所述地域系統(tǒng)返回所述項目所屬地域的所述域名信息。
[0016]在本發(fā)明甄別音視頻網站的方法中,所述步驟S4包括以下步驟:
[0017]S401、根據所述域名信息,所述地域系統(tǒng)的爬蟲采集網頁中的音視頻特征資源;
[0018]S402、根據音視頻源碼中的關鍵字,所述地域系統(tǒng)的AC自動機對音視頻特征資源進行比對命中;
[0019]S403、將包含命中的音視頻特征的網頁存入數據庫中,并統(tǒng)計該網頁的數量,其中,該網頁為所述域名信息對應的網站的網頁;
[0020]S404、判斷包含命中的音視頻特征網頁的總量是否達到配置的第二閥值,若達到或超過第二閥值,則將該網頁對應的網站標記為音視頻網站。
[0021]本發(fā)明還提供了一種甄別音視頻網站的系統(tǒng),包括多個地域系統(tǒng),其特征在于,該系統(tǒng)還包括中心系統(tǒng),該中心系統(tǒng)包括域名庫、中心數據庫、中心處理模塊及中心服務模塊,所述中心系統(tǒng)用于采集中心域名信息,對所述域名信息進行初步篩選,標記出疑似音視頻網站,向地域系統(tǒng)提供中心域名信息服務。
[0022]在本發(fā)明甄別音視頻網站的系統(tǒng)中,所述中心處理模塊通過爬蟲采集所述域名信息,并存入所述域名庫中。
[0023]在本發(fā)明甄別音視頻網站的系統(tǒng)中,根據音視頻關鍵字,所述中心處理模塊通過AC自動機對所述域名信息中的網站標題、關鍵字、描述信息進行比對命中;所述中心數據庫保存命中的網站標題、關鍵字、描述信息,并進行統(tǒng)計,根據加權值算法,計算出命中的關鍵字的加權平均值,判斷該加權平均值是否達到配置的第一閾值,若是,則標記所述域名信息中對應的網站為疑似音視頻網站。
[0024]在本發(fā)明甄別音視頻網站的系統(tǒng)中,所述地域系統(tǒng)包括域名同步模塊,用于發(fā)送注冊項目信息的請求和同步域名信息的請求,其中,所述注冊項目信息包括項目所屬地域;所述中心處理模塊還用于根據所述同步域名信息的請求的參數和所述項目所屬地域,在所述域名庫中進行檢索,并向所述地域系統(tǒng)返回所述項目所屬地域的所述域名信息。
[0025]在本發(fā)明甄別音視頻網站的系統(tǒng)中,所述地域系統(tǒng)還包括地域處理模塊及數據庫,其中,所述地域處理模塊用于根據所述域名信息,通過爬蟲采集網頁中的音視頻特征資源,以及根據音視頻源碼中的關鍵字,通過AC自動機對音視頻特征資源進行比對命中;所述數據庫保存包含命中的音視頻特征的網頁,并統(tǒng)計該網頁的數量,進而判斷該網頁的總量是否達到配置的第二閥值,若達到或超過第二閥值,則將該網頁對應的網站標記為音視頻網站。
[0026]本發(fā)明的有益效果有:本發(fā)明結合爬蟲,AC自動機來發(fā)現和甄別音視頻網站,并通過中心服務的模式為各地域提供服務,大大提高了音視頻網站的甄別效率,以及資源的利用率。從而自動、快速甄別音視頻網站,及提供了高效、便捷的域名信息統(tǒng)一維護方法。
【附圖說明】
[0027]圖1是本發(fā)明實施例的發(fā)現音視頻網站的系統(tǒng)。
[0028]圖2是本發(fā)明實施例的發(fā)現音視頻網站的方法流程圖。
[0029]圖3是圖2中的步驟SI的流程圖。
[0030]圖4是圖2中的步驟S2的流程圖。
[0031]圖5是圖2中的步驟S3的域名信息推送的流程圖。
[0032]圖6是圖2中的步驟S4的流程圖。
【具體實施方式】
[0033]為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0034]如圖1所示,為本發(fā)明實施例的發(fā)現音視頻網站的系統(tǒng)。該系統(tǒng)包括中心系統(tǒng)I和多個地域系統(tǒng)2,其中,中心系統(tǒng)I包括域名庫11、中心數據庫12、中心處理模塊13及中心服務模塊14,域名庫11、中心數據庫12及中心服務模塊14均與中心處理模塊13進行連接;地域系統(tǒng)2包括域名同步模塊21、地域處理模塊22及數據庫23,域名同步模塊21及數據庫23均與地域處理模塊22連接。
[0035]如圖2所示,為本發(fā)明實施例的發(fā)現音視頻網站的方法流程圖。該方法包括以下步驟:
[0036]S1、中心系統(tǒng)I采集中心域名信息;
[0037]在此步驟中,可通過多種渠道獲取域名信息,如工信部、IDC(Internet DataCenter,互聯網數據中心)、通管局(全稱為通信管理局)、ALEXA排名(網站的世界排名)、站長之家等。所述域名信息包括域名、域名對應的網站標題、關鍵字、描述信息、IP地址、IP所屬地域、ISP (服務提供商)、AVSP (視頻許可證)、ICP(Internet Content Provider,網絡內容服務商)備案、ICP所屬地域等。
[0038]如圖3所示,是圖2中的步驟SI的流程圖。在本實施例中,步驟SI的具體實現過程包括以下步驟:
[0039]在步驟Sll中,中心處理模塊13使用爬蟲采集域名信息;在步驟S12中判斷該域名信息是否已獲取,若是,則在步驟S13中,在域名庫中更新所述域名信息,否則在步驟S14將域名信息存入域名庫中。
[0040]S2、中心系統(tǒng)I對所述域名信息進行初步篩選,對疑似音視頻網站的域名進行標記形成經標記的域名信息;
[0041]如圖4所示,是圖2中的步驟S2的流程圖,在本實施例中,步驟S2對疑似音視頻網站的域名進行標記,有利于各個地域系統(tǒng)對域名信息進行分析,步驟S2進一步包括:
[0042]S21、中心處理模塊13通過AC自動機獲取所述域名信息;
[0043]S22、AC自動機將從中心數據庫12中讀取音視頻關鍵字以二叉樹的形式加載到緩存,并根據音視頻關鍵字,AC自動機對所述域名信息中的網站標題、關鍵字、描述信息進行比對命中;
[0044]S23、記錄命中結果,存入中心數據庫12中,中心數據庫12統(tǒng)計命中結果,并根據命中的關鍵字權重和關鍵字命中次數,進行加權平均,計算出加權平均值;其中,命中