亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種視頻中暴力內(nèi)容的檢測方法及裝置的制造方法

文檔序號:10492684閱讀:473來源:國知局
一種視頻中暴力內(nèi)容的檢測方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種視頻中暴力內(nèi)容的檢測方法及裝置,用以解決現(xiàn)有技術(shù)在對視頻中暴力內(nèi)容進(jìn)行檢測時誤判率高的問題,提高對視頻中暴力內(nèi)容檢測的準(zhǔn)確率。所述視頻中暴力內(nèi)容的檢測方法,包括:確定待檢測視頻中任一場景的鏡頭平均長度以及該場景中鏡頭的平均運(yùn)動強(qiáng)度;當(dāng)確定所述鏡頭平均長度小于第一預(yù)設(shè)閾值,和/或所述鏡頭的平均運(yùn)動強(qiáng)度大于第二預(yù)設(shè)閾值時,提取該場景中多個元素的特征數(shù)據(jù),當(dāng)確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預(yù)先從特定場景中提取到的該元素的特征數(shù)據(jù)范圍之內(nèi)時,確定所述待檢測的視頻中包含暴力內(nèi)容。
【專利說明】
-種視頻中暴力內(nèi)容的檢測方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實(shí)施例設(shè)及視頻技術(shù)領(lǐng)域,尤其設(shè)及一種視頻中暴力內(nèi)容的檢測方法及裝 置。
【背景技術(shù)】
[0002] 暴力內(nèi)容是一類特殊的激烈內(nèi)容,在大多數(shù)的影視作品中都會出現(xiàn)暴力場面,而 且暴力場面往往能夠吸引觀看者的注意,自動檢測出影片中的暴力內(nèi)容,可用于對影片內(nèi) 容的檢索;還可W用于對影片的審查和后期處理。例如:通過檢測出的暴力內(nèi)容的多少來評 定影片的級別,對于不適于兒童觀看的部分可W進(jìn)行過濾或覆蓋。
[0003] 目前,對視頻中暴力內(nèi)容的檢測方法大多只利用了某一種信息特征對視頻進(jìn)行分 析,難W取得滿意的效果。具體來說:
[0004] 方式一:通過找出視頻中重復(fù)出現(xiàn)的相似可視內(nèi)容少的鏡頭來確定視頻的平均運(yùn) 動和持續(xù)時間,利用視頻的平均運(yùn)動和持續(xù)時間來對視頻進(jìn)行分類,運(yùn)種方法很難區(qū)別暴 力場面和有大量運(yùn)動的體育節(jié)目;
[0005] 方式二:分析視頻中的音軌來定位視頻中的暴力內(nèi)容,由于視頻中的聲音常伴有 大量噪聲和許多相似的聲音而產(chǎn)生較多的誤判。
[0006] 綜上所述,現(xiàn)有技術(shù)在對視頻中暴力內(nèi)容進(jìn)行檢測時,基于視頻的平均運(yùn)動和持 續(xù)時間的檢測方法,或者分析音軌的檢測方法,均無法較為準(zhǔn)確的檢測出視頻中的暴力內(nèi) 容,檢測的誤判率高。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明實(shí)施例提供一種視頻中暴力內(nèi)容的檢測方法及裝置,用W解決現(xiàn)有技術(shù)在 對視頻中暴力內(nèi)容進(jìn)行檢測時誤判率高的問題,提高對視頻中暴力內(nèi)容檢測的準(zhǔn)確率。
[000引本發(fā)明實(shí)施例提供一種視頻中暴力內(nèi)容的檢測方法,該方法包括:確定待檢測視 頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運(yùn)動強(qiáng)度;當(dāng)確定所述鏡頭平均長 度小于第一預(yù)設(shè)闊值,和/或所述鏡頭的平均運(yùn)動強(qiáng)度大于第二預(yù)設(shè)闊值時,提取該場景中 多個元素的特征數(shù)據(jù),當(dāng)確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù), 處于預(yù)先從特定場景中提取到的該元素的特征數(shù)據(jù)范圍之內(nèi)時,確定所述待檢測的視頻中 包含暴力內(nèi)容。
[0009] 本發(fā)明實(shí)施例提供一種視頻中暴力內(nèi)容的檢測裝置,該裝置包括:第一處理單元, 用于確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運(yùn)動強(qiáng)度;第二 處理單元,用于當(dāng)確定所述鏡頭平均長度小于第一預(yù)設(shè)闊值,和/或所述鏡頭的平均運(yùn)動強(qiáng) 度大于第二預(yù)設(shè)闊值時,提取該場景中多個元素的特征數(shù)據(jù),當(dāng)確定提取到的多個元素的 特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預(yù)先從特定場景中提取到的該元素的特征數(shù)據(jù) 范圍之內(nèi)時,確定所述待檢測的視頻中包含暴力內(nèi)容。
[0010] 本發(fā)明實(shí)施例提供的一種視頻中暴力內(nèi)容的檢測方法及裝置,首先確定待檢測視 頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運(yùn)動強(qiáng)度,當(dāng)確定任一場景的鏡頭 平均長度小于第一預(yù)設(shè)闊值,和/或鏡頭的平均運(yùn)動強(qiáng)度大于第二預(yù)設(shè)闊值時,進(jìn)一步提取 該場景中多個元素的特征數(shù)據(jù),當(dāng)確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特 征數(shù)據(jù),處于預(yù)先從特定場景(例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之內(nèi)時, 確定待檢測的視頻中包含暴力內(nèi)容,與現(xiàn)有技術(shù)中基于視頻運(yùn)動和持續(xù)時間的檢測方法, 或者分析音軌的檢測方法相比,提取場景中多個元素的特征數(shù)據(jù),當(dāng)確定場景中多個元素 的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預(yù)先從特定場景(例如:暴力場景)中提取到 的該元素的特征數(shù)據(jù)范圍之內(nèi)時,確定待檢測的視頻中包含暴力內(nèi)容,結(jié)合場景中多個元 素的特征數(shù)據(jù)進(jìn)行檢測,提高了對視頻中暴力內(nèi)容檢測的準(zhǔn)確率。
【附圖說明】
[0011]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根 據(jù)運(yùn)些附圖獲得其他的附圖。
[001^ 圖巧本發(fā)明實(shí)施例提供的一種視頻中暴力內(nèi)容的檢現(xiàn)巧法的示意流程圖;
[0013] 圖2為本發(fā)明實(shí)施例提供的一種視頻中暴力內(nèi)容的檢測方法的具體流程的示意流 程圖;
[0014] 圖3為本發(fā)明實(shí)施例提供的一種視頻中暴力內(nèi)容的檢測裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0015] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0016] 本發(fā)明實(shí)施例提供一種視頻中暴力內(nèi)容的檢測方法,如圖1所示,該方法包括:
[0017] 步驟11,確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運(yùn) 動強(qiáng)度;
[0018] 步驟13,當(dāng)確定鏡頭平均長度小于第一預(yù)設(shè)闊值,和/或鏡頭的平均運(yùn)動強(qiáng)度大于 第二預(yù)設(shè)闊值時,提取該場景中多個元素的特征數(shù)據(jù),當(dāng)確定提取到的多個元素的特征數(shù) 據(jù)中至少一個元素的特征數(shù)據(jù),處于預(yù)先從特定場景中提取到的該元素的特征數(shù)據(jù)范圍之 內(nèi)時,確定待檢測的視頻中包含暴力內(nèi)容。
[0019] 本發(fā)明實(shí)施例提供的方法中,首先確定待檢測視頻中任一場景的鏡頭平均長度W 及該場景中鏡頭的平均運(yùn)動強(qiáng)度,當(dāng)確定任一場景的鏡頭平均長度小于第一預(yù)設(shè)闊值,和/ 或鏡頭的平均運(yùn)動強(qiáng)度大于第二預(yù)設(shè)闊值時,進(jìn)一步提取該場景中多個元素的特征數(shù)據(jù), 當(dāng)確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預(yù)先從特定場景 (例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之內(nèi)時,確定待檢測的視頻中包含暴 力內(nèi)容,與現(xiàn)有技術(shù)中基于視頻運(yùn)動和持續(xù)時間的檢測方法,或者分析音軌的檢測方法相 比,提取場景中多個元素的特征數(shù)據(jù),當(dāng)確定場景中多個元素的特征數(shù)據(jù)中至少一個元素 的特征數(shù)據(jù),處于預(yù)先從特定場景(例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之 內(nèi)時,確定待檢測的視頻中包含暴力內(nèi)容,結(jié)合場景中多個元素的特征數(shù)據(jù)進(jìn)行檢測,提高 了對視頻中暴力內(nèi)容檢測的準(zhǔn)確率。
[0020] 需要說明的是,由于大多數(shù)的暴力內(nèi)容中都有人或物體快速、明顯的運(yùn)動,運(yùn)樣的 運(yùn)動往往是通過短時間的連續(xù)的視頻鏡頭的切換來加 W表現(xiàn)的,因此,把場景中的鏡頭平 均長度作為衡量一個場景內(nèi)是否包含暴力內(nèi)容的一個標(biāo)準(zhǔn),而鏡頭中的空間變化和鏡頭的 持續(xù)時間決定了鏡頭中的運(yùn)動強(qiáng)度,所W把鏡頭的平均運(yùn)動強(qiáng)度作為衡量一個場景內(nèi)是否 包含暴力內(nèi)容的另一個標(biāo)準(zhǔn),基于運(yùn)兩個標(biāo)準(zhǔn)對視頻中的每個場景進(jìn)行預(yù)篩選,也即首先 確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運(yùn)動強(qiáng)度,當(dāng)確定任 一場景的鏡頭平均長度小于第一預(yù)設(shè)闊值,和/或鏡頭的平均運(yùn)動強(qiáng)度大于第二預(yù)設(shè)闊值 時,確定該場景中可能包含暴力內(nèi)容,將該場景加入候選場景,W進(jìn)一步進(jìn)行檢測。其中,第 一預(yù)設(shè)闊值和第二預(yù)設(shè)闊值可W根據(jù)經(jīng)驗(yàn)值進(jìn)行設(shè)定,例如:第一預(yù)設(shè)闊值的取值為3,第 二預(yù)設(shè)闊值的取值為視頻畫面面積的1/6,當(dāng)任一場景的鏡頭平均長度小于3秒,和/或場景 中鏡頭的平均運(yùn)動強(qiáng)度大于視頻畫面面積的1/6時,將該場景作為候選場景。
[0021] 具體實(shí)施時,鏡頭中的空間變化和鏡頭的持續(xù)時間決定了鏡頭中的運(yùn)動強(qiáng)度,為 了有效的度量視頻中的運(yùn)動特征,首先抽取鏡頭中的運(yùn)動序列。運(yùn)動序列的抽取過程是:先 將視頻數(shù)據(jù)通過二維的小波分解生成一系列空間簡化了的視頻帖的灰度圖像,再將運(yùn)些圖 像中各個像素點(diǎn)的灰度在時間上的變化經(jīng)過小波變換,過濾之后得到一組運(yùn)動序列圖像。 采用運(yùn)種小波分析的方法可W得到視頻中運(yùn)動對象的空間變化,最后生成的運(yùn)動序列圖像 在運(yùn)動對象的邊界上有非零值,同時運(yùn)種方法降低了計(jì)算的復(fù)雜程度。
[0022] 接下來我們用下面的公式計(jì)算各個鏡頭的運(yùn)動強(qiáng)度:
[0023]
[0024] 其中,巧2^ (巧I,巧)是當(dāng)前場景的運(yùn)動序列圖像在第k個鏡頭中的第i帖,m和n是 運(yùn)動序列圖像的水平和垂直分辨率,b和e分別是第k個鏡頭的起始和結(jié)束帖號,T是第k個鏡 頭的長度T = e-b。從上述公式中可W看出,持續(xù)時間越短、包含運(yùn)動越多的鏡頭運(yùn)動強(qiáng)度越 大,計(jì)算各個鏡頭的運(yùn)動強(qiáng)度之后,鏡頭的平均運(yùn)動強(qiáng)度等于場景中所有鏡頭的運(yùn)動強(qiáng)度 之和與場景中的鏡頭總數(shù)之比。
[0025] 具體實(shí)施時,場景中的鏡頭平均長度等于場景的總時間長度與該場景中的鏡頭數(shù) 量之比。例如:假設(shè)一個場景的總時間長度為300秒,而該場景中包含5個鏡頭呈現(xiàn)的畫面, 則鏡頭平均長度為60秒。
[0026] 具體實(shí)施時,根據(jù)場景中鏡頭平均長度和/或鏡頭的平均運(yùn)動強(qiáng)度確定候選場景 之后,為了提高檢測準(zhǔn)確率,進(jìn)一步對候選場景進(jìn)行檢測,提取候選場景中多個元素的特征 數(shù)據(jù),檢測候選場景中每個元素的特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的該元素的 特征數(shù)據(jù)范圍之內(nèi),當(dāng)確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處 于預(yù)先從特定場景中提取到的該元素的特征數(shù)據(jù)范圍之內(nèi)時,確定待檢測的視頻中包含暴 力內(nèi)容。其中,特定場景可W是一些已知的包含暴力內(nèi)容的場景,例如:開槍場景、爆炸場景 W及流血場景等。多個元素的特征數(shù)據(jù),包括:該場景中每帖畫面的圖像特征數(shù)據(jù)W及該場 景中的音頻特征數(shù)據(jù)。
[0027] 具體來說,預(yù)先從多個特定包含暴力內(nèi)容的場景中提取多個元素的特征數(shù)據(jù),組 成多個元素的特征數(shù)據(jù)范圍,當(dāng)從候選場景中提取到的多個元素的特征數(shù)據(jù)中任一元素或 多個元素的特征數(shù)據(jù),處于該元素對應(yīng)的特征數(shù)據(jù)范圍內(nèi)時,便可確定該候選場景中包含 暴力內(nèi)容,在通過鏡頭平均長度和鏡頭的平均運(yùn)動強(qiáng)度檢測的基礎(chǔ)上,結(jié)合場景中多個元 素的特征數(shù)據(jù),當(dāng)多個元素的特征數(shù)據(jù)包含每帖畫面的圖像特征數(shù)據(jù)W及該場景中的音頻 特征數(shù)據(jù)時,可W將可視特征與聲音特征進(jìn)行融合檢測,提高了檢測的準(zhǔn)確率。
[0028] 當(dāng)然,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,從候選場景中提取到的多個元素的特征數(shù) 據(jù)中,處于從特定場景中提取到的多個元素的特征數(shù)據(jù)范圍之內(nèi)的元素?cái)?shù)量越多,檢測的 準(zhǔn)確率越高,當(dāng)然,若從候選場景中提取到的多個元素的特征數(shù)據(jù)中,僅有一個元素的特征 數(shù)據(jù)處于從特定場景中提取到的對應(yīng)元素的特征數(shù)據(jù)范圍之內(nèi),同樣可W確定候選場景包 含暴力內(nèi)容。
[0029] 作為較為具體的實(shí)施例,開槍場景和爆炸場景是最明顯的包含暴力內(nèi)容的場景, 運(yùn)些場景在影片中表現(xiàn)出一些獨(dú)特的聲音和圖像特征,對于可視特征,也即圖像特征,我們 主要集中在對由開槍和爆炸引起的瞬時火焰的探測上。
[0030] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的方法中,每帖畫面的圖像特征數(shù) 據(jù)包括:每帖畫面的顏色直方圖;當(dāng)多個元素的特征數(shù)據(jù)包括該場景中每帖畫面的圖像特 征數(shù)據(jù)時,確定每帖畫面的圖像特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的畫面的圖像 特征數(shù)據(jù)范圍之內(nèi),包括:針對該場景中的每帖畫面,提取該帖畫面的顏色直方圖,當(dāng)確定 該帖畫面的顏色直方圖中預(yù)設(shè)數(shù)量個顏色的統(tǒng)計(jì)數(shù)量,處于預(yù)先從特定場景中提取到的畫 面的顏色直方圖中對應(yīng)顏色的統(tǒng)計(jì)數(shù)量范圍之內(nèi)時,確定該帖畫面的圖像特征數(shù)據(jù)處于預(yù) 先從特定場景中提取到的畫面的圖像特征數(shù)據(jù)范圍之內(nèi)。
[0031] 具體實(shí)施時,與開槍相比,爆炸引起的火焰持續(xù)的時間長,而且在屏幕上覆蓋的面 積大,但由開槍和爆炸引起的火焰的共同特點(diǎn)是:都有W黃、澄或紅色為主色調(diào)的顏色直方 圖,因此,我們預(yù)先定義了一個包含各種顏色范圍的顏色模板,用候選場景的顏色直方圖與 預(yù)先定義的顏色模板進(jìn)行比較,當(dāng)候選場景的顏色直方圖中黃色、澄色或紅色的統(tǒng)計(jì)數(shù)量 處在預(yù)先定義的顏色模板對應(yīng)顏色的統(tǒng)計(jì)數(shù)量范圍之內(nèi)時,探測到場景中有火焰出現(xiàn),候 選場景中包含暴力內(nèi)容。
[0032] 在包含暴力內(nèi)容的場景中,一些暴力行為(例如:開槍,刀刺,爆炸等)常常會導(dǎo)致 流血事件的發(fā)生,在具體實(shí)施時,可W用顏色直方圖判斷場景中是否出現(xiàn)血色。但是,由于 現(xiàn)實(shí)中有很多顏色與血色很接近,因此,不能僅通過場景的畫面中血色像素的數(shù)量來判斷 流血事件的出現(xiàn),需要結(jié)合相鄰多帖畫面中血色像素的數(shù)量做進(jìn)一步判斷,具體來說:
[0033] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的方法中,當(dāng)確定該帖畫面的顏色 直方圖中預(yù)設(shè)數(shù)量個顏色的統(tǒng)計(jì)數(shù)量,處于預(yù)先從特定場景中提取到的畫面的顏色直方圖 中對應(yīng)顏色的統(tǒng)計(jì)數(shù)量范圍之內(nèi)之后,該方法還包括:確定該帖畫面相鄰多帖畫面中預(yù)設(shè) 數(shù)量個顏色的統(tǒng)計(jì)數(shù)量;確定該帖畫面的圖像特征數(shù)據(jù)處于預(yù)先從特定場景中提取到的畫 面的圖像特征數(shù)據(jù)范圍之內(nèi),包括:當(dāng)確定該帖畫面W及相鄰多帖畫面中預(yù)設(shè)數(shù)量個顏色 中每個顏色的統(tǒng)計(jì)數(shù)量,隨著多帖畫面的時間順序逐漸增多時,確定該帖畫面的圖像特征 數(shù)據(jù)處于預(yù)先從特定場景中提取到的畫面的圖像特征數(shù)據(jù)范圍之內(nèi)。
[0034] 具體實(shí)施時,在判斷場景中是否有流血事件時,需要統(tǒng)計(jì)相鄰的多帖畫面中的血 色像素的數(shù)量,在短時間內(nèi)有明顯的血色像素增加的情況,才被認(rèn)為可能是發(fā)生了流血事 件,也即在連續(xù)多帖畫面中,血色像素的數(shù)量隨著多帖畫面的時間順序逐漸增多時,確定場 景中發(fā)生可能發(fā)生了流血事件。
[0035] 在對視頻中暴力內(nèi)容進(jìn)行檢測時,僅憑可視特征的分析是很難確定場景中是否包 含暴力內(nèi)容的,還必須結(jié)合其它的特征分析。聲音是視頻中十分重要的部分,聲音特征可W 幫助觀看者理解視頻內(nèi)容,特定的聲音可W直接、快速的引起觀看者的注意。本發(fā)明實(shí)施例 中通過對音頻數(shù)據(jù)的分析來輔助對暴力內(nèi)容的檢測。
[0036] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的方法中,音頻特征數(shù)據(jù)包括:音頻 數(shù)據(jù)的樣本向量和協(xié)方差矩陣;當(dāng)多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時, 確定該場景中的音頻特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之 內(nèi),包括:計(jì)算該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,當(dāng)確定該場景中音頻數(shù)據(jù)的樣 本向量和協(xié)方差矩陣,與預(yù)先從特定場景中提取到的音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣的 相似度大于第=預(yù)設(shè)闊值時,確定該場景中的音頻特征數(shù)據(jù)處于預(yù)先從特定場景中提取到 的音頻特征數(shù)據(jù)范圍之內(nèi)。
[0037] -般來說,包含暴力內(nèi)容的場景常常伴隨一些非語音的特殊聲音(例如:爆炸聲、 尖叫聲、槍聲、玻璃的破碎聲等)和特殊的背景音樂。通過高斯模型的方法,將視頻中的伴隨 音頻分為暴力聲音和非暴力聲音兩種,作為進(jìn)一步分析的依據(jù),高斯模型提供了簡單的計(jì) 算復(fù)雜度,它的參數(shù)完全可W由各類樣本向量的均值向量和協(xié)方差矩陣確定。
[0038] 具體實(shí)施時,從大量視頻中找出各種包含暴力內(nèi)容的場景,將其中的音軌作為聲 音樣本,樣本向量由樣本在時間上的采樣得到,協(xié)方差矩陣提供了運(yùn)種時間變化的緊湊表 示,在檢測候選場景是否包含暴力內(nèi)容時,計(jì)算候選場景中音頻數(shù)據(jù)的均值向量和協(xié)方差 矩陣,就可W根據(jù)候選場景與聲音樣本之間均值向量W及協(xié)方差矩陣的相似度,確定候選 場景中音頻數(shù)據(jù)與聲音樣本的相似度,當(dāng)候選場景與聲音樣本之間均值向量W及協(xié)方差矩 陣的相似度大于第=預(yù)設(shè)闊值時,確定候選場景中包含暴力內(nèi)容。其中,候選場景與聲音樣 本之間均值向量W及協(xié)方差矩陣的相似度的計(jì)算方式可W采用現(xiàn)有技術(shù),此處不再寶述, 第=預(yù)設(shè)闊值可W根據(jù)經(jīng)驗(yàn)值設(shè)定,例如:第=預(yù)設(shè)闊值的取值為90。
[0039] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的方法中,音頻特征數(shù)據(jù)包括:音頻 數(shù)據(jù)的能量賭;當(dāng)多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,確定該場景中的 音頻特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內(nèi),包括:將該場 景中的音頻數(shù)據(jù)分為多段,計(jì)算每段音頻數(shù)據(jù)的能量賭,當(dāng)多段音頻數(shù)據(jù)的能量賭中至少 一段音頻數(shù)據(jù)的能量賭小于第四預(yù)設(shè)闊值時,確定該場景中的音頻特征數(shù)據(jù)處于預(yù)先從特 定場景中提取到的音頻特征數(shù)據(jù)范圍之內(nèi)。
[0040] 在對音頻數(shù)據(jù)進(jìn)行分析時,還需要對場景中的一些特殊聲音進(jìn)行分析,許多包含 暴力內(nèi)容的場景,例如:擊打、槍擊、爆炸等,都伴有一些特殊的聲音,而且運(yùn)類場景往往在 極短的時間內(nèi)發(fā)生,突然爆發(fā)出一些聲音。因此,在檢測時將聲音信號能量的突然變化作為 檢測場景中是否包含暴力內(nèi)容的又一標(biāo)準(zhǔn)。為有效地度量運(yùn)一特征,我們采用了 "能量賭" 規(guī)則。
[0041] 具體來說,首先將候選場景的音頻數(shù)據(jù)分割成若干片段,對每一片段計(jì)算其聲音 信號的能量,并除W音頻數(shù)據(jù)的總能量進(jìn)行歸一化。每段音頻數(shù)據(jù)的能量賭通過如下公式 計(jì)算得到:
[0042]
[0043] 其中,I為每段音頻的能量賭J是將場景中的音頻數(shù)據(jù)分為多段的總段數(shù),O2是第 i段音頻數(shù)據(jù)的歸一化的能量值。
[0044] 根據(jù)能量賭的計(jì)算過程可W看出,音頻數(shù)據(jù)的能量賭的值可W反映聲音信號的能 量變化,能量基本恒定的音頻數(shù)據(jù)具有較大的能量賭,而出現(xiàn)聲音能量變化的音頻數(shù)據(jù)的 能量賭較小,且變化越大能量賭越小。如果場景的音頻數(shù)據(jù)中存在能量賭小于第四預(yù)設(shè)閥 值的音頻數(shù)據(jù),則確定場景中含有暴力內(nèi)容。其中,第四預(yù)設(shè)闊值可W根據(jù)經(jīng)驗(yàn)值進(jìn)行設(shè) 定,例如:第四預(yù)設(shè)闊值的取值為6。
[0045] 下面結(jié)合圖2對本發(fā)明實(shí)施例提供的一種視頻中暴力內(nèi)容的檢測方法的具體步驟 進(jìn)行詳細(xì)說明,如圖2所示,包括:
[0046] 步驟21,確定待檢測視頻中任一場景的鏡頭平均長度W及場景中鏡頭的平均運(yùn)動 強(qiáng)度;
[0047] 步驟22,判斷鏡頭平均長度是否小于第一預(yù)設(shè)闊值,若是,則執(zhí)行步驟23,否則,執(zhí) 行步驟29,其中,第一預(yù)設(shè)闊值根據(jù)經(jīng)驗(yàn)值設(shè)定,例如:第一預(yù)設(shè)闊值取值為3;
[0048] 步驟23,判斷鏡頭的平均運(yùn)動強(qiáng)度是否大于第二預(yù)設(shè)闊值,若是,執(zhí)行步驟24,和/ 或步驟25,和/或步驟26,和/或步驟27,否則,執(zhí)行步驟29,其中,第二預(yù)設(shè)闊值根據(jù)經(jīng)驗(yàn)值 設(shè)定,例如:第二預(yù)設(shè)闊值取值為畫面面積的1/6;
[0049] 步驟24,確定場景中是否有火焰出現(xiàn),具體來說:利用場景中每帖畫面的顏色直方 圖與預(yù)先定義的顏色模板進(jìn)行比較,判斷場景的顏色直方圖中黃色、澄色或紅色的統(tǒng)計(jì)數(shù) 量是否處在預(yù)先定義的顏色模板對應(yīng)顏色的統(tǒng)計(jì)數(shù)量范圍之內(nèi),若是,執(zhí)行步驟28,否則, 執(zhí)行步驟29;
[0050] 步驟25,確定場景中是否出現(xiàn)血色,且血色像素增多,具體來說:利用顏色直方圖 確定場景中是否出現(xiàn)血色,并統(tǒng)計(jì)連續(xù)多帖畫面中血色像素的數(shù)量,判斷血色像素的數(shù)量 是否隨多帖畫面的時間順序逐漸增多,若場景中出現(xiàn)血色,且逐漸增多,則執(zhí)行步驟28,否 貝IJ,執(zhí)行步驟29;
[0051] 步驟26,確定場景中音頻數(shù)據(jù)與聲音樣本的相似度是否大于第=預(yù)設(shè)闊值,具體 來說,利用場景中音頻數(shù)據(jù)與聲音樣本之間樣本向量和協(xié)方差矩陣的相似度,確定場景中 音頻數(shù)據(jù)與聲音樣本的相似度是否大于第=預(yù)設(shè)闊值,若是,執(zhí)行步驟28,否則,執(zhí)行步驟 29,其中,第=預(yù)設(shè)闊值根據(jù)經(jīng)驗(yàn)值設(shè)定,例如:第=預(yù)設(shè)闊值取值為90;
[0052] 步驟27,判斷場景的音頻數(shù)據(jù)中是否存在能量賭小于第四預(yù)設(shè)闊值的片段,若是, 執(zhí)行步驟28,否則,執(zhí)行步驟29,其中,第四預(yù)設(shè)闊值根據(jù)經(jīng)驗(yàn)值設(shè)定,例如:第四預(yù)設(shè)闊值 取值為6;
[0053] 步驟28,當(dāng)步驟24、步驟25、步驟26W及步驟27中至少一個的判定結(jié)果為是時,確 定當(dāng)前場景中包含暴力內(nèi)容,也即待檢測視頻中包含暴力內(nèi)容;
[0054] 步驟29,當(dāng)步驟22的判定結(jié)果為否,或者步驟23的判定結(jié)果為否,或者步驟24、步 驟25、步驟26W及步驟27的判定結(jié)果均為否時,確定當(dāng)前場景中不包含暴力內(nèi)容,也即待檢 測視頻中不包含暴力內(nèi)容。
[0055] 本發(fā)明實(shí)施例提供一種視頻中暴力內(nèi)容的檢測裝置,如圖3所示,該裝置包括:第 一處理單元31,用于確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均 運(yùn)動強(qiáng)度;第二處理單元33,用于當(dāng)確定鏡頭平均長度小于第一預(yù)設(shè)闊值,和/或鏡頭的平 均運(yùn)動強(qiáng)度大于第二預(yù)設(shè)闊值時,提取該場景中多個元素的特征數(shù)據(jù),當(dāng)確定提取到的多 個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預(yù)先從特定場景中提取到的該元素的 特征數(shù)據(jù)范圍之內(nèi)時,確定待檢測的視頻中包含暴力內(nèi)容。
[0056] 本發(fā)明實(shí)施例提供的裝置中,首先確定待檢測視頻中任一場景的鏡頭平均長度W 及該場景中鏡頭的平均運(yùn)動強(qiáng)度,當(dāng)確定任一場景的鏡頭平均長度小于第一預(yù)設(shè)闊值,和/ 或鏡頭的平均運(yùn)動強(qiáng)度大于第二預(yù)設(shè)闊值時,進(jìn)一步提取該場景中多個元素的特征數(shù)據(jù), 當(dāng)確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預(yù)先從特定場景 (例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之內(nèi)時,確定待檢測的視頻中包含暴 力內(nèi)容,與現(xiàn)有技術(shù)中基于視頻運(yùn)動和持續(xù)時間的檢測方法,或者分析音軌的檢測方法相 比,提取場景中多個元素的特征數(shù)據(jù),當(dāng)確定場景中多個元素的特征數(shù)據(jù)中至少一個元素 的特征數(shù)據(jù),處于預(yù)先從特定場景(例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之 內(nèi)時,確定待檢測的視頻中包含暴力內(nèi)容,結(jié)合場景中多個元素的特征數(shù)據(jù)進(jìn)行檢測,提高 了對視頻中暴力內(nèi)容檢測的準(zhǔn)確率。
[0057] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的裝置中,多個元素的特征數(shù)據(jù),包 括:該場景中每帖畫面的圖像特征數(shù)據(jù)W及該場景中的音頻特征數(shù)據(jù)。
[0058] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的裝置中,在一種可能的實(shí)施方式 中,本發(fā)明實(shí)施例提供的裝置中,每帖畫面的圖像特征數(shù)據(jù)包括:每帖畫面的顏色直方圖; 當(dāng)多個元素的特征數(shù)據(jù)包括該場景中每帖畫面的圖像特征數(shù)據(jù)時,第二處理單元33確定每 帖畫面的圖像特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的畫面的圖像特征數(shù)據(jù)范圍之 內(nèi),具體用于:針對該場景中的每帖畫面,提取該帖畫面的顏色直方圖,當(dāng)確定該帖畫面的 顏色直方圖中預(yù)設(shè)數(shù)量個顏色的統(tǒng)計(jì)數(shù)量,處于預(yù)先從特定場景中提取到的畫面的顏色直 方圖中對應(yīng)顏色的統(tǒng)計(jì)數(shù)量范圍之內(nèi)時,確定該帖畫面的圖像特征數(shù)據(jù)處于預(yù)先從特定場 景中提取到的畫面的圖像特征數(shù)據(jù)范圍之內(nèi)。
[0059] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的裝置中,當(dāng)?shù)诙幚韱卧?3確定 該帖畫面的顏色直方圖中預(yù)設(shè)數(shù)量個顏色的統(tǒng)計(jì)數(shù)量,處于預(yù)先從特定場景中提取到的畫 面的顏色直方圖中對應(yīng)顏色的統(tǒng)計(jì)數(shù)量范圍之內(nèi)之后,第二處理單元33還用于:確定該帖 畫面相鄰多帖畫面中預(yù)設(shè)數(shù)量個顏色的統(tǒng)計(jì)數(shù)量;第二處理單元33確定該帖畫面的圖像特 征數(shù)據(jù)處于預(yù)先從特定場景中提取到的畫面的圖像特征數(shù)據(jù)范圍之內(nèi),具體用于:當(dāng)確定 該帖畫面W及相鄰多帖畫面中預(yù)設(shè)數(shù)量個顏色中每個顏色的統(tǒng)計(jì)數(shù)量,隨著多帖畫面的時 間順序逐漸增多時,確定該帖畫面的圖像特征數(shù)據(jù)處于預(yù)先從特定場景中提取到的畫面的 圖像特征數(shù)據(jù)范圍之內(nèi)。
[0060] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的裝置中,音頻特征數(shù)據(jù)包括:音頻 數(shù)據(jù)的樣本向量和協(xié)方差矩陣;當(dāng)多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時, 第二處理單元33確定該場景中的音頻特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的音頻 特征數(shù)據(jù)范圍之內(nèi),具體用于:計(jì)算該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,當(dāng)確定該 場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,與預(yù)先從特定場景中提取到的音頻數(shù)據(jù)的樣本 向量和協(xié)方差矩陣的相似度大于第=預(yù)設(shè)闊值時,確定該場景中的音頻特征數(shù)據(jù)處于預(yù)先 從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內(nèi)。
[0061] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的裝置中,音頻特征數(shù)據(jù)包括:音頻 數(shù)據(jù)的能量賭;當(dāng)多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,第二處理單元33 確定該場景中的音頻特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之 內(nèi),具體用于:將該場景中的音頻數(shù)據(jù)分為多段,計(jì)算每段音頻數(shù)據(jù)的能量賭,當(dāng)多段音頻 數(shù)據(jù)的能量賭中至少一段音頻數(shù)據(jù)的能量賭小于第四預(yù)設(shè)闊值時,確定該場景中的音頻特 征數(shù)據(jù)處于預(yù)先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內(nèi)。
[0062] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的裝置中,第二處理單元33通過如 下公式計(jì)算每段音頻數(shù)據(jù)的能量賭:
[0063]
.其中,I為每段音頻的能量賭,J是將場景中的音頻數(shù)據(jù) 分為多段的總段數(shù),O2是第i段音頻數(shù)據(jù)的歸一化的能量值。
[0064] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的裝置中,所述鏡頭的平均運(yùn)動強(qiáng) 度等于場景中所有鏡頭的運(yùn)動強(qiáng)度之和與場景中的鏡頭數(shù)量之比,其中,第一處理單元31 通過如下公式計(jì)算場景中每個鏡頭的運(yùn)動強(qiáng)度:
[00 化]
[0066] 其中,SS是每個鏡頭的運(yùn)動強(qiáng)度,所(所,巧)是當(dāng)前場景的運(yùn)動序列圖像在第k 個鏡頭中的第i帖,m和n是所述運(yùn)動序列圖像的水平和垂直分辨率,b和e分別是第k個鏡頭 的起始和結(jié)束帖號,T是第k個鏡頭的長度T = e-b。
[0067] 在一種可能的實(shí)施方式中,本發(fā)明實(shí)施例提供的裝置中,鏡頭平均長度等于場景 的總時間長度與該場景中的鏡頭數(shù)量之比。
[0068] 本發(fā)明實(shí)施例提供的一種視頻中暴力內(nèi)容的檢測裝置,可W視頻軟件中,用于對 視頻中暴力內(nèi)容的檢測,其中,第一處理單元31和第二處理單元33均可W采用CPU處理器 等。
[0069] 本發(fā)明實(shí)施例提供的一種視頻中暴力內(nèi)容的檢測方法及裝置,首先確定待檢測視 頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運(yùn)動強(qiáng)度,當(dāng)確定任一場景的鏡頭 平均長度小于第一預(yù)設(shè)闊值,和/或鏡頭的平均運(yùn)動強(qiáng)度大于第二預(yù)設(shè)闊值時,進(jìn)一步提取 該場景中多個元素的特征數(shù)據(jù),當(dāng)確定提取到的多個元素的特征數(shù)據(jù)中至少一個元素的特 征數(shù)據(jù),處于預(yù)先從特定場景(例如:暴力場景)中提取到的該元素的特征數(shù)據(jù)范圍之內(nèi)時, 確定待檢測的視頻中包含暴力內(nèi)容,結(jié)合場景中多個元素的特征數(shù)據(jù)進(jìn)行檢測,提高了對 視頻中暴力內(nèi)容檢測的準(zhǔn)確率。
[0070] W上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可 W是或者也可W不是物理上分開的,作為單元顯示的部件可W是或者也可W不是物理單 元,即可W位于一個地方,或者也可W分布到多個網(wǎng)絡(luò)單元上??蒞根據(jù)實(shí)際的需要選擇其 中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性 的勞動的情況下,即可W理解并實(shí)施。
[0071] 通過W上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可W清楚地了解到各實(shí)施方式可 借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可W通過硬件?;谶\(yùn)樣的理解,上 述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可WW軟件產(chǎn)品的形式體現(xiàn)出來,該 計(jì)算機(jī)軟件產(chǎn)品可W存儲在計(jì)算機(jī)可讀存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指 令用W使得一臺計(jì)算機(jī)設(shè)備(可W是個人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個實(shí)施 例或者實(shí)施例的某些部分所述的方法。
[0072] 最后應(yīng)說明的是:W上實(shí)施例僅用W說明本發(fā)明的技術(shù)方案,而非對其限制;盡管 參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可 W對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換; 而運(yùn)些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和 范圍。
【主權(quán)項(xiàng)】
1. 一種視頻中暴力內(nèi)容的檢測方法,其特征在于,該方法包括: 確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的平均運(yùn)動強(qiáng)度; 當(dāng)確定所述鏡頭平均長度小于第一預(yù)設(shè)闊值,和/或所述鏡頭的平均運(yùn)動強(qiáng)度大于第 二預(yù)設(shè)闊值時,提取該場景中多個元素的特征數(shù)據(jù),當(dāng)確定提取到的多個元素的特征數(shù)據(jù) 中至少一個元素的特征數(shù)據(jù),處于預(yù)先從特定場景中提取到的該元素的特征數(shù)據(jù)范圍之內(nèi) 時,確定所述待檢測的視頻中包含暴力內(nèi)容。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多個元素的特征數(shù)據(jù),包括:該場景中 每帖畫面的圖像特征數(shù)據(jù)W及該場景中的音頻特征數(shù)據(jù)。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述每帖畫面的圖像特征數(shù)據(jù)包括:每帖 畫面的顏色直方圖; 當(dāng)所述多個元素的特征數(shù)據(jù)包括該場景中每帖畫面的圖像特征數(shù)據(jù)時,確定每帖畫面 的圖像特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的畫面的圖像特征數(shù)據(jù)范圍之內(nèi),包 括: 針對該場景中的每帖畫面,提取該帖畫面的顏色直方圖,當(dāng)確定該帖畫面的顏色直方 圖中預(yù)設(shè)數(shù)量個顏色的統(tǒng)計(jì)數(shù)量,處于預(yù)先從特定場景中提取到的畫面的顏色直方圖中對 應(yīng)顏色的統(tǒng)計(jì)數(shù)量范圍之內(nèi)時,確定該帖畫面的圖像特征數(shù)據(jù)處于預(yù)先從特定場景中提取 到的畫面的圖像特征數(shù)據(jù)范圍之內(nèi)。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,當(dāng)確定該帖畫面的顏色直方圖中預(yù)設(shè)數(shù)量 個顏色的統(tǒng)計(jì)數(shù)量,處于預(yù)先從特定場景中提取到的畫面的顏色直方圖中對應(yīng)顏色的統(tǒng)計(jì) 數(shù)量范圍之內(nèi)之后,該方法還包括: 確定該帖畫面相鄰多帖畫面中所述預(yù)設(shè)數(shù)量個顏色的統(tǒng)計(jì)數(shù)量; 確定該帖畫面的圖像特征數(shù)據(jù)處于預(yù)先從特定場景中提取到的畫面的圖像特征數(shù)據(jù) 范圍之內(nèi),包括: 當(dāng)確定該帖畫面W及相鄰多帖畫面中所述預(yù)設(shè)數(shù)量個顏色中每個顏色的統(tǒng)計(jì)數(shù)量,隨 著多帖畫面的時間順序逐漸增多時,確定該帖畫面的圖像特征數(shù)據(jù)處于預(yù)先從特定場景中 提取到的畫面的圖像特征數(shù)據(jù)范圍之內(nèi)。5. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述音頻特征數(shù)據(jù)包括:音頻數(shù)據(jù)的樣本 向量和協(xié)方差矩陣; 當(dāng)所述多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,確定該場景中的音頻特 征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內(nèi),包括: 計(jì)算該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,當(dāng)確定該場景中音頻數(shù)據(jù)的樣本向 量和協(xié)方差矩陣,與預(yù)先從特定場景中提取到的音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣的相似 度大于第Ξ預(yù)設(shè)闊值時,確定該場景中的音頻特征數(shù)據(jù)處于預(yù)先從特定場景中提取到的音 頻特征數(shù)據(jù)范圍之內(nèi)。6. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述音頻特征數(shù)據(jù)包括:音頻數(shù)據(jù)的能量 賭; 當(dāng)所述多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,確定該場景中的音頻特 征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內(nèi),包括: 將該場景中的音頻數(shù)據(jù)分為多段,計(jì)算每段音頻數(shù)據(jù)的能量賭,當(dāng)多段音頻數(shù)據(jù)的能 量賭中至少一段音頻數(shù)據(jù)的能量賭小于第四預(yù)設(shè)闊值時,確定該場景中的音頻特征數(shù)據(jù)處 于預(yù)先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內(nèi)。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述每段音頻數(shù)據(jù)的能量賭通過如下公式 計(jì)算得到:其中,功每段音頻的能量賭,J是將場景中的音頻數(shù)據(jù)分為多段的總段數(shù),是第i段音 頻數(shù)據(jù)的歸一化的能量值。8. 根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的方法,其特征在于,所述鏡頭的平均運(yùn)動強(qiáng)度等于 場景中所有鏡頭的運(yùn)動強(qiáng)度之和與場景中的鏡頭數(shù)量之比,其中,場景中每個鏡頭的運(yùn)動 強(qiáng)度通過如下公式計(jì)算得到:其中,SS是每個鏡頭的運(yùn)動強(qiáng)度,是當(dāng)前場景的運(yùn)動序列圖像在第k個鏡 頭中的第i帖,m和η是所述運(yùn)動序列圖像的水平和垂直分辨率,b和e分別是第k個鏡頭的起 始和結(jié)束帖號,T是第k個鏡頭的長度T = e-b。9. 根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的方法,其特征在于,所述鏡頭平均長度等于場景的 總時間長度與該場景中的鏡頭數(shù)量之比。10. -種視頻中暴力內(nèi)容的檢測裝置,其特征在于,該裝置包括: 第一處理單元,用于確定待檢測視頻中任一場景的鏡頭平均長度W及該場景中鏡頭的 平均運(yùn)動強(qiáng)度; 第二處理單元,用于當(dāng)確定所述鏡頭平均長度小于第一預(yù)設(shè)闊值,和/或所述鏡頭的平 均運(yùn)動強(qiáng)度大于第二預(yù)設(shè)闊值時,提取該場景中多個元素的特征數(shù)據(jù),當(dāng)確定提取到的多 個元素的特征數(shù)據(jù)中至少一個元素的特征數(shù)據(jù),處于預(yù)先從特定場景中提取到的該元素的 特征數(shù)據(jù)范圍之內(nèi)時,確定所述待檢測的視頻中包含暴力內(nèi)容。11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述多個元素的特征數(shù)據(jù),包括:該場景 中每帖畫面的圖像特征數(shù)據(jù)W及該場景中的音頻特征數(shù)據(jù)。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述每帖畫面的圖像特征數(shù)據(jù)包括:每 帖畫面的顏色直方圖; 當(dāng)所述多個元素的特征數(shù)據(jù)包括該場景中每帖畫面的圖像特征數(shù)據(jù)時,所述第二處理 單元確定每帖畫面的圖像特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的畫面的圖像特征 數(shù)據(jù)范圍之內(nèi),具體用于: 針對該場景中的每帖畫面,提取該帖畫面的顏色直方圖,當(dāng)確定該帖畫面的顏色直方 圖中預(yù)設(shè)數(shù)量個顏色的統(tǒng)計(jì)數(shù)量,處于預(yù)先從特定場景中提取到的畫面的顏色直方圖中對 應(yīng)顏色的統(tǒng)計(jì)數(shù)量范圍之內(nèi)時,確定該帖畫面的圖像特征數(shù)據(jù)處于預(yù)先從特定場景中提取 到的畫面的圖像特征數(shù)據(jù)范圍之內(nèi)。13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,當(dāng)所述第二處理單元確定該帖畫面的顏 色直方圖中預(yù)設(shè)數(shù)量個顏色的統(tǒng)計(jì)數(shù)量,處于預(yù)先從特定場景中提取到的畫面的顏色直方 圖中對應(yīng)顏色的統(tǒng)計(jì)數(shù)量范圍之內(nèi)之后,所述第二處理單元還用于: 確定該帖畫面相鄰多帖畫面中所述預(yù)設(shè)數(shù)量個顏色的統(tǒng)計(jì)數(shù)量; 所述第二處理單元確定該帖畫面的圖像特征數(shù)據(jù)處于預(yù)先從特定場景中提取到的畫 面的圖像特征數(shù)據(jù)范圍之內(nèi),具體用于: 當(dāng)確定該帖畫面W及相鄰多帖畫面中所述預(yù)設(shè)數(shù)量個顏色中每個顏色的統(tǒng)計(jì)數(shù)量,隨 著多帖畫面的時間順序逐漸增多時,確定該帖畫面的圖像特征數(shù)據(jù)處于預(yù)先從特定場景中 提取到的畫面的圖像特征數(shù)據(jù)范圍之內(nèi)。14. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述音頻特征數(shù)據(jù)包括:音頻數(shù)據(jù)的樣 本向量和協(xié)方差矩陣; 當(dāng)所述多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,所述第二處理單元確定 該場景中的音頻特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內(nèi),具 體用于: 計(jì)算該場景中音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣,當(dāng)確定該場景中音頻數(shù)據(jù)的樣本向 量和協(xié)方差矩陣,與預(yù)先從特定場景中提取到的音頻數(shù)據(jù)的樣本向量和協(xié)方差矩陣的相似 度大于第Ξ預(yù)設(shè)闊值時,確定該場景中的音頻特征數(shù)據(jù)處于預(yù)先從特定場景中提取到的音 頻特征數(shù)據(jù)范圍之內(nèi)。15. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述音頻特征數(shù)據(jù)包括:音頻數(shù)據(jù)的能 量賭; 當(dāng)所述多個元素的特征數(shù)據(jù)包括該場景中的音頻特征數(shù)據(jù)時,所述第二處理單元確定 該場景中的音頻特征數(shù)據(jù)是否處于預(yù)先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內(nèi),具 體用于: 將該場景中的音頻數(shù)據(jù)分為多段,計(jì)算每段音頻數(shù)據(jù)的能量賭,當(dāng)多段音頻數(shù)據(jù)的能 量賭中至少一段音頻數(shù)據(jù)的能量賭小于第四預(yù)設(shè)闊值時,確定該場景中的音頻特征數(shù)據(jù)處 于預(yù)先從特定場景中提取到的音頻特征數(shù)據(jù)范圍之內(nèi)。16. 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述第二處理單元通過如下公式計(jì)算每 段音頻數(shù)據(jù)的能量賭:其中,功每段音頻的能量賭,J是將場景中的音頻數(shù)據(jù)分為多段的總段數(shù),是第i段音 頻數(shù)據(jù)的歸一化的能量值。17. 根據(jù)權(quán)利要求10-16中任一項(xiàng)所述的裝置,其特征在于,所述鏡頭的平均運(yùn)動強(qiáng)度 等于場景中所有鏡頭的運(yùn)動強(qiáng)度之和與場景中的鏡頭數(shù)量之比,其中,所述第一處理單元 通過如下公式計(jì)算場景中每個鏡頭的運(yùn)動強(qiáng)度:其中,SS是每個鏡頭的運(yùn)動強(qiáng)度,巧sf (巧1,巧)是當(dāng)前場景的運(yùn)動序列圖像在第k個鏡 頭中的第i帖,m和η是所述運(yùn)動序列圖像的水平和垂直分辨率,b和e分別是第k個鏡頭的起 始和結(jié)束帖號,T是第k個鏡頭的長度T = e-b。18.根據(jù)權(quán)利要求10-16中任一項(xiàng)所述的裝置,其特征在于,所述鏡頭平均長度等于場 景的總時間長度與該場景中的鏡頭數(shù)量之比。
【文檔編號】H04N21/44GK105847860SQ201610189188
【公開日】2016年8月10日
【申請日】2016年3月29日
【發(fā)明人】蔡煒
【申請人】樂視控股(北京)有限公司, 樂視致新電子科技(天津)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1