專利名稱:一種實現(xiàn)多媒體文件分級的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)監(jiān)測技術(shù)和版權(quán)監(jiān)管及保護(hù)技術(shù),尤其涉及一種實現(xiàn)多媒體文件 分級的方法和裝置。
背景技術(shù):
近年來,隨著互聯(lián)網(wǎng)的飛速發(fā)展,無處不在的網(wǎng)絡(luò)技術(shù)給社會帶來了極大的便利, 譬如多媒體文件共享和流媒體應(yīng)用給予了網(wǎng)絡(luò)前所未有的用戶體驗,而且網(wǎng)絡(luò)下載成為用 戶獲取多媒體文件的最重要渠道。然而,網(wǎng)絡(luò)中傳播的多媒體文件數(shù)量浩如煙海,如何監(jiān)管 這些多媒體文件日益成為一個十分棘手的問題。多媒體文件相對普通文件體積龐大,其傳 輸嚴(yán)重占用了網(wǎng)絡(luò)帶寬資源。更為重要的是,因為對網(wǎng)絡(luò)中多媒體文件內(nèi)容缺乏有效的監(jiān) 管,使得多媒體文件盜版現(xiàn)象日益猖獗,成為版權(quán)侵犯的重災(zāi)區(qū)。因此,網(wǎng)絡(luò)運營商與多媒 體文件版權(quán)擁有者都迫切需要對互聯(lián)網(wǎng)中傳播的多媒體文件從內(nèi)容上進(jìn)行分級,以實現(xiàn)對 多媒體文件的有效監(jiān)管。傳統(tǒng)的方法主要通過關(guān)鍵詞匹配和圖像信息識別來進(jìn)行內(nèi)容分級。譬如內(nèi)容分級 審查就是根據(jù)互聯(lián)網(wǎng)內(nèi)容分級聯(lián)盟(ICRA)提供的描述性關(guān)鍵詞匯,來允許或禁止訪問某 些不良的網(wǎng)站。關(guān)鍵詞匹配方法能在網(wǎng)頁、文本等文件中對暴力、色情、賭博、毒品等不良信 息進(jìn)行部分識別,能夠阻止網(wǎng)絡(luò)用戶對部分不良內(nèi)容的訪問。圖像信息識別技術(shù)的應(yīng)用主 要集中于對色情圖片的過濾,目前已有使用基于膚色偵測的圖像識別算法可以部分實現(xiàn)這 種功能。然而,這些方法只能阻止用戶對部分非法內(nèi)容的訪問,而對在網(wǎng)絡(luò)中非法傳播的數(shù) 據(jù)卻沒有任何監(jiān)管措施,無法獲悉多媒體文件在網(wǎng)絡(luò)中的傳播熱度及傳播行為方式;另外, 也不能對盜版等非法多媒體文件進(jìn)行任何處理。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種實現(xiàn)多媒體文件分級的方法和裝置, 實現(xiàn)對互聯(lián)網(wǎng)中多媒體文件傳播熱度的分級,為網(wǎng)絡(luò)中非法傳播的數(shù)據(jù)的監(jiān)管提供有利幫 助。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的本發(fā)明提供的一種實現(xiàn)多媒體文件分級的方法,該方法包括建立多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫;將捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包解析成具有有效載荷的格式;提取有效載荷中的文件DNA,與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在 匹配成功時,更新多媒體文件熱度數(shù)據(jù)庫中該文件的傳播熱度。上述方案中,所述建立多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫具體為 設(shè)置多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫,將捕獲到的數(shù)據(jù)包解析成“到達(dá)時 間+包頭信息+有效載荷”的格式,根據(jù)數(shù)據(jù)包的到達(dá)時間和包頭信息將數(shù)據(jù)包的有效載荷 組合為多媒體文件,提取多媒體文件的文件DNA,與多媒體文件DNA數(shù)據(jù)庫進(jìn)行匹配,將匹配失敗的文件DNA及文件名稱添加到多媒體文件DNA數(shù)據(jù)庫,并將文件名稱添加到多媒體 文件熱度數(shù)據(jù)庫,設(shè)置初始熱度。上述方案中,該方法進(jìn)一步包括建立盜版多媒體文件DNA數(shù)據(jù)庫,具體為預(yù)先設(shè) 置盜版多媒體文件DNA的數(shù)據(jù)庫,在提取多媒體文件的文件DNA之后,用戶判斷傳輸?shù)亩嗝?體文件為盜版文件時,將提取的文件DNA與盜版多媒體文件DNA數(shù)據(jù)庫中的文件的DNA進(jìn) 行匹配,在匹配失敗時,將該文件DNA及文件名稱添加到盜版多媒體文件DNA數(shù)據(jù)庫,并將 文件名稱添加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度;該方法進(jìn)一步包括建立盜版源地址數(shù)據(jù)庫和盜版下載地址數(shù)據(jù)庫,分別用于存儲 盜版多媒體文件中的數(shù)據(jù)包的源IP地址和目的IP地址。上述方案中,該方法進(jìn)一步包括建立多媒體網(wǎng)站熱度數(shù)據(jù)庫和/或P2P熱度數(shù)據(jù) 庫;在提取的數(shù)據(jù)包的文件DNA與多媒體文件DNA數(shù)據(jù)庫或盜版多媒體文件DNA數(shù)據(jù)庫中 的文件DNA匹配成功之后,讀取文件名稱,根據(jù)有效載荷中攜帶有URL地址和/或P2P特征 字段,相應(yīng)更新多媒體網(wǎng)站熱度數(shù)據(jù)庫和/或P2P熱度數(shù)據(jù)庫。上述方案中,該方法進(jìn)一步包括在建立了盜版多媒體文件DNA數(shù)據(jù)庫、且提取的 數(shù)據(jù)包的文件DNA與多媒體文件DNA數(shù)據(jù)庫中的文件DNA匹配失敗時,將文件DNA與盜版 多媒體文件DNA數(shù)據(jù)庫中的文件的DNA進(jìn)行匹配,在匹配成功時,更新多媒體文件熱度數(shù)據(jù) 庫中該文件的傳播熱度。本發(fā)明提供的一種實現(xiàn)多媒體文件分級的裝置,該裝置包括數(shù)據(jù)庫建立模塊、分 級模塊;其中,數(shù)據(jù)庫建立模塊,用于建立多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫;分級模塊,用于將捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包解析成具有有效載荷的格式,提取有效載 荷中的文件DNA,與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配成功時,更新多媒 體文件熱度數(shù)據(jù)庫中該文件的傳播熱度。上述方案中,所述數(shù)據(jù)庫建立模塊包括數(shù)據(jù)庫設(shè)置模塊、第一數(shù)據(jù)包捕獲模塊、 第一解析模塊、第一多媒體格式檢測模塊、多媒體文件復(fù)原模塊、第一文件DNA提取模塊、 第一匹配模塊;其中,數(shù)據(jù)庫設(shè)置模塊,用于設(shè)置用于存儲文件DNA的多媒體文件DNA數(shù)據(jù)庫和用于存 儲多媒體文件熱度的多媒體文件熱度數(shù)據(jù)庫;第一數(shù)據(jù)包捕獲模塊,用于在局域網(wǎng)或更大型網(wǎng)絡(luò)的出口網(wǎng)關(guān)對網(wǎng)絡(luò)進(jìn)行偵聽, 從網(wǎng)卡捕獲網(wǎng)絡(luò)中的原始數(shù)據(jù)包;第一解析模塊,用于按TCP/IP對捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行解析,將其解析成為 “到達(dá)時間+包頭信息+有效載荷”的格式;第一多媒體格式檢測模塊,用于從有效載荷中利用特征字段檢測為多媒體格式數(shù) 據(jù)包時,通知多媒體文件復(fù)原模塊;多媒體文件復(fù)原模塊,用于提取數(shù)據(jù)包包頭信息中的源IP地址和目的IP地址,存 儲經(jīng)過網(wǎng)關(guān)的與提取的源IP地址、目的IP地址相同的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的到達(dá)時間和包 頭信息將多媒體格式的數(shù)據(jù)包的有效載荷組合為多媒體文件;第一文件DNA提取模塊,用于提取多媒體文件的文件DNA ;第一匹配模塊,用于將第一文件DNA提取模塊提取的文件DNA與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配失敗時,將文件DNA及文件名稱添加到多媒體文件 DNA數(shù)據(jù)庫中,并將文件名稱添加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度;所述分級模塊包括第二數(shù)據(jù)包捕獲模塊、第二解析模塊、第二多媒體格式檢測模 塊、第二文件DNA提取模塊、第二匹配模塊、更新熱度模塊;其中,第二數(shù)據(jù)包捕獲模塊,用于從網(wǎng)卡捕獲網(wǎng)絡(luò)中的原始數(shù)據(jù)包;第二解析模塊,用于按TCP/IP對捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行解析,將其解析成為 “到達(dá)時間+包頭信息+有效載荷”的格式;第二多媒體格式檢測模塊,用于從有效載荷中利用特征字段檢測為多媒體格式數(shù) 據(jù)包時,通知第二文件DNA提取模塊;第二文件DNA提取模塊,用于提取數(shù)據(jù)包有效載荷中的文件DNA ;第二匹配模塊,用于將第二文件DNA提取模塊提取的文件DNA與多媒體文件DNA 數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配成功時,讀取匹配成功的文件DNA的文件名稱,通知 更新熱度模塊按照文件名稱更新多媒體文件熱度數(shù)據(jù)庫;更新熱度模塊,用于根據(jù)匹配模塊的按照文件名稱更新多媒體文件熱度數(shù)據(jù)庫的 通知,更新多媒體文件熱度數(shù)據(jù)庫中該文件的傳播熱度。上述方案中,所述數(shù)據(jù)庫設(shè)置模塊進(jìn)一步用于預(yù)先設(shè)置盜版多媒體文件DNA的數(shù) 據(jù)庫;所述第一匹配模塊進(jìn)一步用于在用戶判斷傳輸?shù)亩嗝襟w文件為盜版文件時,將第 一文件DNA提取模塊提取的文件DNA與盜版多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配, 在匹配失敗時,將該文件DNA及文件名稱添加到盜版多媒體文件DNA數(shù)據(jù)庫,并將文件名稱 添加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度;所述數(shù)據(jù)庫設(shè)置模塊進(jìn)一步還用于建立盜版源地址數(shù)據(jù)庫和盜版下載地址數(shù)據(jù) 庫,分別存儲盜版多媒體文件中的數(shù)據(jù)包的源IP地址和目的IP地址。上述方案中,所述第二匹配模塊進(jìn)一步用于在建立了盜版多媒體文件DNA數(shù)據(jù) 庫、且第二文件DNA提取模塊提取的文件DNA與多媒體文件DNA數(shù)據(jù)庫中的文件DNA匹配失 敗時,將文件DNA與盜版多媒體文件DNA數(shù)據(jù)庫中的文件的DNA進(jìn)行匹配,在匹配成功時, 讀取文件名稱,通知更新熱度模塊按照文件名稱更新多媒體文件熱度數(shù)據(jù)庫。上述方案中,所述數(shù)據(jù)庫設(shè)置模塊進(jìn)一步還用于建立多媒體網(wǎng)站熱度數(shù)據(jù)庫和/ 或P2P熱度數(shù)據(jù)庫;所述第二匹配模塊,進(jìn)一步還用于在第二文件DNA提取模塊提取的文件DNA與多 媒體文件DNA數(shù)據(jù)庫或盜版多媒體文件DNA數(shù)據(jù)庫中的文件DNA匹配成功之后,讀取文件 名稱,根據(jù)有效載荷中攜帶有URL地址和/或P2P特征字段,相應(yīng)通知更新熱度模塊更新多 媒體網(wǎng)站熱度數(shù)據(jù)庫和/或P2P熱度數(shù)據(jù)庫;相應(yīng)的,所述更新熱度模塊進(jìn)一步用于根據(jù)第二匹配模塊的通知,更新多媒體網(wǎng) 站熱度數(shù)據(jù)庫和/或P2P熱度數(shù)據(jù)庫。本發(fā)明提供的一種實現(xiàn)多媒體文件分級的方法和裝置,建立多媒體文件DNA數(shù)據(jù) 庫和多媒體文件熱度數(shù)據(jù)庫;將捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包解析成具有有效載荷的格式,提取有 效載荷中的文件DNA,與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配成功時,更 新多媒體文件熱度數(shù)據(jù)庫中該文件的傳播熱度,實現(xiàn)對互聯(lián)網(wǎng)中多媒體文件傳播熱度的分級;同時還可以進(jìn)一步建立盜版多媒體文件DNA數(shù)據(jù)庫、盜版源地址數(shù)據(jù)庫、盜版下載地址 數(shù)據(jù)庫、多媒體網(wǎng)站熱度數(shù)據(jù)庫和P2P熱度數(shù)據(jù)庫,記錄盜版多媒體文件信息、多媒體網(wǎng)站 熱度及多媒體文件的傳播方式,為網(wǎng)絡(luò)中非法傳播的數(shù)據(jù)的監(jiān)管提供有利幫助。
圖1為本發(fā)明實現(xiàn)多媒體文件分級的方法的流程示意圖;圖2為本發(fā)明建立多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫的方法的流程 示意圖;圖3為本發(fā)明更新多媒體文件熱度數(shù)據(jù)庫的方法的流程示意圖;圖4為本發(fā)明實現(xiàn)多媒體文件分級的裝置的流程示意圖。
具體實施例方式本發(fā)明的基本思想是建立多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫;將 捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包解析成具有有效載荷的格式,提取多媒體格式的數(shù)據(jù)包有效載荷中的 文件DNA,與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配成功時,更新多媒體文件 熱度數(shù)據(jù)庫中該文件的傳播熱度。下面通過附圖及具體實施例對本發(fā)明做進(jìn)一步的詳細(xì)說明。本發(fā)明實現(xiàn)多媒體文件分級的方法,如圖1所示,包括以下幾個步驟步驟101 建立多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫;具體的,設(shè)置用于存儲文件DNA的多媒體文件DNA數(shù)據(jù)庫和用于存儲多媒體文件 熱度的多媒體文件熱度數(shù)據(jù)庫,將捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包解析成“到達(dá)時間+包頭信息+有效 載荷”的格式,根據(jù)數(shù)據(jù)包的到達(dá)時間和包頭信息將多媒體格式的數(shù)據(jù)包的有效載荷組合 為多媒體文件,提取多媒體文件的文件DNA,與多媒體文件DNA數(shù)據(jù)庫進(jìn)行匹配,將匹配失 敗的文件DNA及文件名稱添加到多媒體文件DNA數(shù)據(jù)庫,并將文件名稱添加到多媒體文件 熱度數(shù)據(jù)庫,設(shè)置初始熱度。具體步驟如圖2所示,包括步驟201 在局域網(wǎng)或更大型網(wǎng)絡(luò)的出口網(wǎng)關(guān)對網(wǎng)絡(luò)進(jìn)行偵聽,從網(wǎng)卡捕獲網(wǎng)絡(luò) 中的原始數(shù)據(jù)包;步驟202 按TCP/IP對捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行解析,將其解析成為“到達(dá)時間+ 包頭信息+有效載荷”的格式,從有效載荷中利用特征字段檢測是否為多媒體格式數(shù)據(jù)包, 如果是多媒體數(shù)據(jù)包則執(zhí)行步驟203,否則結(jié)束本次流程;所述特征字段是定位數(shù)據(jù)包格式為多媒體格式的字符串。步驟203 提取該數(shù)據(jù)包包頭信息中的源IP地址和目的IP地址;所述包頭信息主要為數(shù)據(jù)包的五元組信息,即源IP地址、目的IP地址、源端口號、 目的端口號以及傳輸層協(xié)議類型。步驟204 捕獲經(jīng)過網(wǎng)關(guān)的源IP地址、目的IP地址分別和步驟203中提取的IP地 址相同的數(shù)據(jù)包;步驟205 將捕獲到的數(shù)據(jù)包寫入到預(yù)先開辟的存儲空間;步驟206 當(dāng)捕獲到的源IP地址、目的IP地址之間數(shù)據(jù)包的包頭信息攜帶TCP拆 除連接信息時,根據(jù)數(shù)據(jù)包的到達(dá)時間和包頭信息將所有數(shù)據(jù)包的有效載荷組合成多媒體文件;步驟207 按照多媒體文件DNA提取方法,提取多媒體文件的文件DNA ;所述多媒體文件DNA提取方法包括均勻提取、隨機(jī)提取等算法,具體參見申請?zhí)?為200910180572. 1的發(fā)明專利;文件DNA —般為幾十字節(jié),遠(yuǎn)小于一個網(wǎng)絡(luò)數(shù)據(jù)包的大小。步驟208 將該文件DNA與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,匹配失 敗則執(zhí)行步驟209 ;匹配成功則本次流程結(jié)束;步驟209 將文件DNA及文件名稱添加到多媒體文件DNA數(shù)據(jù)庫中,并將文件名稱 添加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度,實現(xiàn)多媒體文件DNA數(shù)據(jù)庫和多媒體文件 熱度數(shù)據(jù)庫的建立,本次流程結(jié)束。上述方法中,進(jìn)一步包括建立盜版多媒體文件DNA數(shù)據(jù)庫,即預(yù)先設(shè)置用于存儲 盜版多媒體文件DNA的盜版多媒體文件DNA數(shù)據(jù)庫,在提取多媒體文件的文件DNA之后,用 戶判斷傳輸?shù)亩嗝襟w文件為盜版文件時,將提取的文件DNA與盜版多媒體文件DNA數(shù)據(jù)庫 中的文件的DNA進(jìn)行匹配,在匹配失敗時,將該文件DNA及文件名稱添加到盜版多媒體文件 DNA數(shù)據(jù)庫,并將文件名稱添加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度;在匹配成功時, 本次流程結(jié)束;該方法進(jìn)一步包括建立盜版源地址數(shù)據(jù)庫和盜版下載地址數(shù)據(jù)庫,分別用于將文 件DNA及文件名稱添加到盜版多媒體文件DNA數(shù)據(jù)庫之后,存儲盜版多媒體文件中的數(shù)據(jù) 包的源IP地址和目的IP地址;上述方法中,進(jìn)一步包括建立多媒體網(wǎng)站熱度數(shù)據(jù)庫;上述方法中,進(jìn)一步包括建立P2P熱度數(shù)據(jù)庫。步驟102 將捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包解析成具有有效載荷的格式,提取多媒體格式 的數(shù)據(jù)包有效載荷中的文件DNA,與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配 成功時,更新多媒體文件熱度數(shù)據(jù)庫相應(yīng)文件的傳播熱度;具體步驟如圖3所示,包括步驟301 在局域網(wǎng)或更大型網(wǎng)絡(luò)的出口網(wǎng)關(guān)對網(wǎng)絡(luò)進(jìn)行偵聽,從網(wǎng)卡捕獲網(wǎng)絡(luò) 中的原始數(shù)據(jù)包;步驟302 按TCP/IP對捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行解析,將其解析成為“到達(dá)時間+ 包頭信息+有效載荷”的格式,從有效載荷中利用特征字段檢測是否為多媒體格式數(shù)據(jù)包, 如果是多媒體數(shù)據(jù)包則執(zhí)行步驟303,否則結(jié)束本次流程;步驟303 提取數(shù)據(jù)包有效載荷中的文件DNA,與多媒體文件DNA數(shù)據(jù)庫中的文件 DNA進(jìn)行匹配,在匹配成功時,更新多媒體文件熱度數(shù)據(jù)庫中相應(yīng)文件的傳播熱度;具體的,提取多媒體格式的數(shù)據(jù)包有效載荷中的文件DNA,與多媒體文件DNA數(shù)據(jù) 庫中的文件DNA進(jìn)行匹配,由于此時提取的文件DNA為一個數(shù)據(jù)包有效載荷中的文件DNA, 在與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配時,按照提取的文件DNA的字符串長度 與多媒體文件DNA數(shù)據(jù)庫中的文件DNA逐段進(jìn)行匹配,在匹配成功時,讀取匹配成功的文件 DNA的文件名稱,更新多媒體文件熱度數(shù)據(jù)庫中該文件的傳播熱度;在匹配失敗時,不更新 多媒體文件熱度數(shù)據(jù)庫;進(jìn)一步的,本步驟還包括在建立了盜版多媒體文件DNA數(shù)據(jù)庫、且提取的數(shù)據(jù)包 的文件DNA與多媒體文件DNA數(shù)據(jù)庫中的文件DNA匹配失敗時,將提取的數(shù)據(jù)包的文件DNA與盜版多媒體文件DNA數(shù)據(jù)庫中的文件的DNA進(jìn)行匹配,在匹配成功時,更新多媒體文件熱 度數(shù)據(jù)庫中該文件的傳播熱度;在匹配失敗時,不更新多媒體文件熱度數(shù)據(jù)庫;進(jìn)一步的,本步驟還包括在建立了多媒體網(wǎng)站熱度數(shù)據(jù)庫時,在提取的數(shù)據(jù)包的 文件DNA與多媒體文件DNA數(shù)據(jù)庫或盜版多媒體文件DNA數(shù)據(jù)庫中的文件DNA匹配成功之 后,讀取匹配成功的文件DNA的文件名稱,檢驗有效載荷中是否攜帶URL地址,如果攜帶,則 更新多媒體網(wǎng)站熱度數(shù)據(jù)庫中該文件名稱對應(yīng)的URL地址的熱度,否則不進(jìn)行更新。其中, 當(dāng)多媒體網(wǎng)站熱度數(shù)據(jù)庫中沒有該文件名稱時,將該文件名稱及URL地址添加到多媒體網(wǎng) 站熱度數(shù)據(jù)庫,并設(shè)置初始熱度;進(jìn)一步的,本步驟還包括在建立了 P2P熱度數(shù)據(jù)庫時,在提取的數(shù)據(jù)包的文件DNA 與多媒體文件DNA數(shù)據(jù)庫或盜版多媒體文件DNA數(shù)據(jù)庫中的文件DNA匹配成功之后,讀取 匹配成功的文件DNA的文件名稱,檢驗有效載荷中是否攜帶P2P特征字段,如果攜帶,則更 新P2P熱度數(shù)據(jù)庫中該文件名稱對應(yīng)的P2P的熱度,否則不進(jìn)行更新。其中,當(dāng)P2P熱度數(shù) 據(jù)庫中沒有該文件名稱時,將該文件名稱及P2P類型添加到P2P熱度數(shù)據(jù)庫,并設(shè)置初始熱 度。所述P2P熱度包括BitTorrent協(xié)議熱度、Edonkey協(xié)議熱度等,基于上述方法,本發(fā)明還提供了一種多媒體文件分級的裝置,如圖4所示,該裝置 包括數(shù)據(jù)庫建立模塊41、分級模塊42 ;其中,數(shù)據(jù)庫建立模塊41,用于建立多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫;分級模塊42,用于將捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包解析成具有有效載荷的格式,提取多媒 體格式的數(shù)據(jù)包有效載荷中的文件DNA,與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配, 在匹配成功時,更新多媒體文件熱度數(shù)據(jù)庫中該文件的傳播熱度;所述具有有效載荷的格 式具體可以為“到達(dá)時間+包頭信息+有效載荷”的格式;所述數(shù)據(jù)庫建立模塊41包括數(shù)據(jù)庫設(shè)置模塊411、第一數(shù)據(jù)包捕獲模塊412、第 一解析模塊413、第一多媒體格式檢測模塊414、多媒體文件復(fù)原模塊415、第一文件DNA提 取模塊416、第一匹配模塊417 ;其中,數(shù)據(jù)庫設(shè)置模塊411,用于設(shè)置用于存儲文件DNA的多媒體文件DNA數(shù)據(jù)庫和用于 存儲多媒體文件熱度的多媒體文件熱度數(shù)據(jù)庫;第一數(shù)據(jù)包捕獲模塊412,用于在局域網(wǎng)或更大型網(wǎng)絡(luò)的出口網(wǎng)關(guān)對網(wǎng)絡(luò)進(jìn)行偵 聽,從網(wǎng)卡捕獲網(wǎng)絡(luò)中的原始數(shù)據(jù)包;第一解析模塊413,用于按TCP/IP對捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行解析,將其解析成 為“到達(dá)時間+包頭信息+有效載荷”的格式;第一多媒體格式檢測模塊414,用于從有效載荷中利用特征字段檢測是否為多媒 體格式數(shù)據(jù)包,在為多媒體格式數(shù)據(jù)包時,通知多媒體文件復(fù)原模塊415;在不為多媒體格 式數(shù)據(jù)包時,結(jié)束本次流程;多媒體文件復(fù)原模塊415,用于提取數(shù)據(jù)包包頭信息中的源IP地址和目的IP地 址,存儲經(jīng)過網(wǎng)關(guān)的與提取的源IP地址、目的IP地址相同的數(shù)據(jù)包,當(dāng)捕獲到的源IP地 址、目的IP地址之間數(shù)據(jù)包的包頭信息攜帶TCP拆除連接信息時,根據(jù)數(shù)據(jù)包的到達(dá)時間 和包頭信息將多媒體格式的數(shù)據(jù)包的有效載荷組合為多媒體文件;第一文件DNA提取模塊416,用于提取多媒體文件的文件DNA ;第一匹配模塊417,用于將第一文件DNA提取模塊416提取的文件DNA與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配失敗時,將文件DNA及文件名稱添加到多媒體 文件DNA數(shù)據(jù)庫中,并將文件名稱添加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度;在匹配成 功時,結(jié)束本次流程;所述數(shù)據(jù)庫設(shè)置模塊411進(jìn)一步用于預(yù)先設(shè)置用于存儲盜版多媒體文件DNA的盜 版多媒體文件DNA的數(shù)據(jù)庫;所述第一匹配模塊417進(jìn)一步用于在用戶判斷傳輸?shù)亩嗝襟w文件為盜版文件時, 將第一文件DNA提取模塊416提取的文件DNA與盜版多媒體文件DNA數(shù)據(jù)庫中的文件DNA 進(jìn)行匹配,在匹配失敗時,將該文件DNA及文件名稱添加到盜版多媒體文件DNA數(shù)據(jù)庫,并 將文件名稱添加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度;在匹配成功時,結(jié)束本次流程;所述數(shù)據(jù)庫設(shè)置模塊411進(jìn)一步還用于建立盜版源地址數(shù)據(jù)庫和盜版下載地址 數(shù)據(jù)庫,分別在將文件DNA及文件名稱添加到盜版多媒體文件DNA數(shù)據(jù)庫之后,存儲盜版多 媒體文件中的數(shù)據(jù)包的源IP地址和目的IP地址;所述數(shù)據(jù)庫設(shè)置模塊411進(jìn)一步還用于建立多媒體網(wǎng)站熱度數(shù)據(jù)庫和/或P2P熱 度數(shù)據(jù)庫;所述分級模塊42包括第二數(shù)據(jù)包捕獲模塊421、第二解析模塊422、第二多媒體 格式檢測模塊423、第二文件DNA提取模塊424、第二匹配模塊425、更新熱度模塊426 ;其 中,第二數(shù)據(jù)包捕獲模塊421,用于在局域網(wǎng)或更大型網(wǎng)絡(luò)的出口網(wǎng)關(guān)對網(wǎng)絡(luò)進(jìn)行偵 聽,從網(wǎng)卡捕獲網(wǎng)絡(luò)中的原始數(shù)據(jù)包;第二解析模塊422,用于按TCP/IP對捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行解析,將其解析成 為“到達(dá)時間+包頭信息+有效載荷”的格式;第二多媒體格式檢測模塊423,用于從有效載荷中利用特征字段檢測是否為多媒 體格式數(shù)據(jù)包,在為多媒體格式數(shù)據(jù)包時,通知第二文件DNA提取模塊424 ;在不為多媒體 格式數(shù)據(jù)包時,結(jié)束本次流程;第二文件DNA提取模塊424,用于提取數(shù)據(jù)包有效載荷中的文件DNA ;第二匹配模塊425,用于將第二文件DNA提取模塊似4提取的文件DNA與多媒體 文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配成功時,讀取匹配成功的文件DNA的文件名 稱,通知更新熱度模塊4 按照文件名稱更新多媒體文件熱度數(shù)據(jù)庫;在匹配失敗時,不通 知更新熱度模塊;更新熱度模塊426,用于根據(jù)第二匹配模塊425的按照文件名稱更新多媒體文件 熱度數(shù)據(jù)庫的通知,更新多媒體文件熱度數(shù)據(jù)庫中該文件的傳播熱度;所述第二匹配模塊425進(jìn)一步用于在建立了盜版多媒體文件DNA數(shù)據(jù)庫、且第二 文件DNA提取模塊提取的文件DNA與多媒體文件DNA數(shù)據(jù)庫中的文件DNA匹配失敗時,將 文件DNA與盜版多媒體文件DNA數(shù)據(jù)庫中的文件的DNA進(jìn)行匹配,在匹配成功時,讀取匹配 成功的文件DNA的文件名稱,通知更新熱度模塊似6按照文件名稱更新多媒體文件熱度數(shù) 據(jù)庫;在匹配失敗時,不通知更新熱度模塊426 ;所述第二匹配模塊425進(jìn)一步還用于在建立了多媒體網(wǎng)站熱度數(shù)據(jù)庫時,在第二 文件DNA提取模塊似4提取的文件DNA與多媒體文件DNA數(shù)據(jù)庫或盜版多媒體文件DNA數(shù) 據(jù)庫中的文件DNA匹配成功之后,讀取文件名稱,檢驗有效載荷中是否攜帶URL地址,如果攜帶,則通知更新熱度模塊426更新多媒體網(wǎng)站熱度數(shù)據(jù)庫中該文件名稱對應(yīng)的URL地址 的熱度,不通知更新熱度模塊4 。相應(yīng)的,所述更新熱度模塊4 進(jìn)一步用于根據(jù)第二匹配模塊425的通知,更新多 媒體網(wǎng)站熱度數(shù)據(jù)庫中該文件名稱對應(yīng)的URL地址的熱度;其中,當(dāng)多媒體網(wǎng)站熱度數(shù)據(jù) 庫中沒有該文件名稱時,將該文件名稱及URL地址添加到多媒體網(wǎng)站熱度數(shù)據(jù)庫,并設(shè)置 初始熱度。所述第二匹配模塊425進(jìn)一步還用于在建立了 P2P熱度數(shù)據(jù)庫時,在第二文件DNA 提取模塊4M提取的文件DNA與多媒體文件DNA數(shù)據(jù)庫或盜版多媒體文件DNA數(shù)據(jù)庫中的 文件DNA匹配成功之后,讀取文件名稱,檢驗有效載荷中是否攜帶P2P特征字段,如果攜帶, 則通知更新熱度模塊4 更新P2P熱度數(shù)據(jù)庫中該文件名稱對應(yīng)的P2P的熱度,否則不通 知更新熱度模塊426。相應(yīng)的,所述更新熱度模塊4 進(jìn)一步用于根據(jù)第二匹配模塊425的通知,更新 P2P熱度數(shù)據(jù)庫中該文件名稱對應(yīng)的P2P的熱度;其中,當(dāng)P2P熱度數(shù)據(jù)庫中沒有該文件名 稱時,將該文件名稱及P2P類型添加到P2P熱度數(shù)據(jù)庫,并設(shè)置初始熱度。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍,凡在 本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù) 范圍之內(nèi)。
權(quán)利要求
1.一種實現(xiàn)多媒體文件分級的方法,其特征在于,該方法包括建立多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫;將捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包解析成具有有效載荷的格式;提取有效載荷中的文件DNA,與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配 成功時,更新多媒體文件熱度數(shù)據(jù)庫中該文件的傳播熱度。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述建立多媒體文件DNA數(shù)據(jù)庫和多媒 體文件熱度數(shù)據(jù)庫具體為設(shè)置多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫,將捕獲 到的數(shù)據(jù)包解析成“到達(dá)時間+包頭信息+有效載荷”的格式,根據(jù)數(shù)據(jù)包的到達(dá)時間和包 頭信息將數(shù)據(jù)包的有效載荷組合為多媒體文件,提取多媒體文件的文件DNA,與多媒體文件 DNA數(shù)據(jù)庫進(jìn)行匹配,將匹配失敗的文件DNA及文件名稱添加到多媒體文件DNA數(shù)據(jù)庫,并 將文件名稱添加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法進(jìn)一步包括建立盜版多媒體文件 DNA數(shù)據(jù)庫,具體為預(yù)先設(shè)置盜版多媒體文件DNA的數(shù)據(jù)庫,在提取多媒體文件的文件DNA 之后,用戶判斷傳輸?shù)亩嗝襟w文件為盜版文件時,將提取的文件DNA與盜版多媒體文件DNA 數(shù)據(jù)庫中的文件的DNA進(jìn)行匹配,在匹配失敗時,將該文件DNA及文件名稱添加到盜版多媒 體文件DNA數(shù)據(jù)庫,并將文件名稱添加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度;該方法進(jìn)一步包括建立盜版源地址數(shù)據(jù)庫和盜版下載地址數(shù)據(jù)庫,分別用于存儲盜版 多媒體文件中的數(shù)據(jù)包的源IP地址和目的IP地址。
4.根據(jù)權(quán)利要求1至3任一所述的方法,其特征在于,該方法進(jìn)一步包括建立多媒體 網(wǎng)站熱度數(shù)據(jù)庫和/或P2P熱度數(shù)據(jù)庫;在提取的數(shù)據(jù)包的文件DNA與多媒體文件DNA數(shù) 據(jù)庫或盜版多媒體文件DNA數(shù)據(jù)庫中的文件DNA匹配成功之后,讀取文件名稱,根據(jù)有效載 荷中攜帶有URL地址和/或P2P特征字段,相應(yīng)更新多媒體網(wǎng)站熱度數(shù)據(jù)庫和/或P2P熱 度數(shù)據(jù)庫。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,該方法進(jìn)一步包括在建立了盜版多媒體 文件DNA數(shù)據(jù)庫、且提取的數(shù)據(jù)包的文件DNA與多媒體文件DNA數(shù)據(jù)庫中的文件DNA匹配失 敗時,將文件DNA與盜版多媒體文件DNA數(shù)據(jù)庫中的文件的DNA進(jìn)行匹配,在匹配成功時, 更新多媒體文件熱度數(shù)據(jù)庫中該文件的傳播熱度。
6.一種實現(xiàn)多媒體文件分級的裝置,其特征在于,該裝置包括數(shù)據(jù)庫建立模塊、分級 模塊;其中,數(shù)據(jù)庫建立模塊,用于建立多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫;分級模塊,用于將捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包解析成具有有效載荷的格式,提取有效載荷中 的文件DNA,與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配成功時,更新多媒體文 件熱度數(shù)據(jù)庫中該文件的傳播熱度。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述數(shù)據(jù)庫建立模塊包括數(shù)據(jù)庫設(shè)置模 塊、第一數(shù)據(jù)包捕獲模塊、第一解析模塊、第一多媒體格式檢測模塊、多媒體文件復(fù)原模塊、 第一文件DNA提取模塊、第一匹配模塊;其中,數(shù)據(jù)庫設(shè)置模塊,用于設(shè)置用于存儲文件DNA的多媒體文件DNA數(shù)據(jù)庫和用于存儲多 媒體文件熱度的多媒體文件熱度數(shù)據(jù)庫;第一數(shù)據(jù)包捕獲模塊,用于在局域網(wǎng)或更大型網(wǎng)絡(luò)的出口網(wǎng)關(guān)對網(wǎng)絡(luò)進(jìn)行偵聽,從網(wǎng)卡捕獲網(wǎng)絡(luò)中的原始數(shù)據(jù)包;第一解析模塊,用于按TCP/IP對捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行解析,將其解析成為“到達(dá) 時間+包頭信息+有效載荷”的格式;第一多媒體格式檢測模塊,用于從有效載荷中利用特征字段檢測為多媒體格式數(shù)據(jù)包 時,通知多媒體文件復(fù)原模塊;多媒體文件復(fù)原模塊,用于提取數(shù)據(jù)包包頭信息中的源IP地址和目的IP地址,存儲經(jīng) 過網(wǎng)關(guān)的與提取的源IP地址、目的IP地址相同的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的到達(dá)時間和包頭信 息將多媒體格式的數(shù)據(jù)包的有效載荷組合為多媒體文件; 第一文件DNA提取模塊,用于提取多媒體文件的文件DNA ;第一匹配模塊,用于將第一文件DNA提取模塊提取的文件DNA與多媒體文件DNA數(shù)據(jù) 庫中的文件DNA進(jìn)行匹配,在匹配失敗時,將文件DNA及文件名稱添加到多媒體文件DNA數(shù) 據(jù)庫中,并將文件名稱添加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度;所述分級模塊包括第二數(shù)據(jù)包捕獲模塊、第二解析模塊、第二多媒體格式檢測模塊、 第二文件DNA提取模塊、第二匹配模塊、更新熱度模塊;其中, 第二數(shù)據(jù)包捕獲模塊,用于從網(wǎng)卡捕獲網(wǎng)絡(luò)中的原始數(shù)據(jù)包; 第二解析模塊,用于按TCP/IP對捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行解析,將其解析成為“到達(dá) 時間+包頭信息+有效載荷”的格式;第二多媒體格式檢測模塊,用于從有效載荷中利用特征字段檢測為多媒體格式數(shù)據(jù)包 時,通知第二文件DNA提取模塊;第二文件DNA提取模塊,用于提取數(shù)據(jù)包有效載荷中的文件DNA ; 第二匹配模塊,用于將第二文件DNA提取模塊提取的文件DNA與多媒體文件DNA數(shù)據(jù) 庫中的文件DNA進(jìn)行匹配,在匹配成功時,讀取匹配成功的文件DNA的文件名稱,通知更新 熱度模塊按照文件名稱更新多媒體文件熱度數(shù)據(jù)庫;更新熱度模塊,用于根據(jù)匹配模塊的按照文件名稱更新多媒體文件熱度數(shù)據(jù)庫的通 知,更新多媒體文件熱度數(shù)據(jù)庫中該文件的傳播熱度。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述數(shù)據(jù)庫設(shè)置模塊進(jìn)一步用于預(yù)先設(shè) 置盜版多媒體文件DNA的數(shù)據(jù)庫;所述第一匹配模塊進(jìn)一步用于在用戶判斷傳輸?shù)亩嗝襟w文件為盜版文件時,將第一文 件DNA提取模塊提取的文件DNA與盜版多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在 匹配失敗時,將該文件DNA及文件名稱添加到盜版多媒體文件DNA數(shù)據(jù)庫,并將文件名稱添 加到多媒體文件熱度數(shù)據(jù)庫,設(shè)置初始熱度;所述數(shù)據(jù)庫設(shè)置模塊進(jìn)一步還用于建立盜版源地址數(shù)據(jù)庫和盜版下載地址數(shù)據(jù)庫,分 別存儲盜版多媒體文件中的數(shù)據(jù)包的源IP地址和目的IP地址。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第二匹配模塊進(jìn)一步用于在建立了 盜版多媒體文件DNA數(shù)據(jù)庫、且第二文件DNA提取模塊提取的文件DNA與多媒體文件DNA 數(shù)據(jù)庫中的文件DNA匹配失敗時,將文件DNA與盜版多媒體文件DNA數(shù)據(jù)庫中的文件的DNA 進(jìn)行匹配,在匹配成功時,讀取文件名稱,通知更新熱度模塊按照文件名稱更新多媒體文件 熱度數(shù)據(jù)庫。
10.根據(jù)權(quán)利要求7至9任一所述的裝置,其特征在于,所述數(shù)據(jù)庫設(shè)置模塊進(jìn)一步還用于建立多媒體網(wǎng)站熱度數(shù)據(jù)庫和/或P2P熱度數(shù)據(jù)庫;所述第二匹配模塊,進(jìn)一步還用于在第二文件DNA提取模塊提取的文件DNA與多媒體 文件DNA數(shù)據(jù)庫或盜版多媒體文件DNA數(shù)據(jù)庫中的文件DNA匹配成功之后,讀取文件名稱, 根據(jù)有效載荷中攜帶有URL地址和/或P2P特征字段,相應(yīng)通知更新熱度模塊更新多媒體 網(wǎng)站熱度數(shù)據(jù)庫和/或P2P熱度數(shù)據(jù)庫;相應(yīng)的,所述更新熱度模塊進(jìn)一步用于根據(jù)第二匹配模塊的通知,更新多媒體網(wǎng)站熱 度數(shù)據(jù)庫和/或P2P熱度數(shù)據(jù)庫。
全文摘要
本發(fā)明公開了一種實現(xiàn)多媒體文件分級的方法,建立多媒體文件DNA數(shù)據(jù)庫和多媒體文件熱度數(shù)據(jù)庫;將捕獲到的網(wǎng)絡(luò)數(shù)據(jù)包解析成具有有效載荷的格式,提取有效載荷中的文件DNA,與多媒體文件DNA數(shù)據(jù)庫中的文件DNA進(jìn)行匹配,在匹配成功時,更新多媒體文件熱度數(shù)據(jù)庫中該文件的傳播熱度,實現(xiàn)對互聯(lián)網(wǎng)中多媒體文件傳播熱度的分級;本發(fā)明同時還公開了一種實現(xiàn)多媒體文件分級的裝置;在本發(fā)明的方案中,還可以建立盜版多媒體文件DNA數(shù)據(jù)庫、多媒體網(wǎng)站熱度數(shù)據(jù)庫和P2P熱度數(shù)據(jù)庫,記錄盜版多媒體文件信息、多媒體網(wǎng)站熱度及多媒體文件的傳播方式,為網(wǎng)絡(luò)中非法傳播的數(shù)據(jù)的監(jiān)管提供有利幫助。
文檔編號G06F17/30GK102143120SQ20101010352
公開日2011年8月3日 申請日期2010年2月1日 優(yōu)先權(quán)日2010年2月1日
發(fā)明者楊勇, 王橋, 蔣玖川, 許建國 申請人:中興通訊股份有限公司