專利名稱:一種基于鏡頭間上下文的視頻概念標注方法
技術領域:
本發(fā)明屬于視頻內容分析和理解技術領域,具體涉及一種基于鏡頭間上下文的視 頻概念標注方法
背景技術:
近年來,隨著互聯(lián)網技術與多媒體技術的迅速發(fā)展,網絡上出現(xiàn)了海量的視頻內 容,面對如此海量的視頻信息,如何利用計算機來對之進行有效的管理,使用戶能夠迅速 準確地檢索到想要的內容,成為了一個急待解決的關鍵問題。然而,人類理解的視頻和計 算機理解的視頻之間存在著差異人類是從語義的角度理解視頻的,而計算機只能提取 視頻內容中的底層特征,例如顏色、紋理、形狀及聲音等,并不能理解其中的語義,因此,人 類的理解和計算機的理解之間存在著一條鴻溝,稱為語義鴻溝,語義鴻溝成為了計算機對 視頻內容進行自動分析和管理的一大障礙。為了縮短語義鴻溝的距離,幫助計算機更好 地理解和管理視頻內容,研究者們提出了視頻概念標注技術,該方法首先定義語義概念詞 典,詞典中包含的語義概念盡量廣地覆蓋視頻中可能出現(xiàn)的內容,對于一段視頻,可以選 取相應的概念對視頻的主要內容進行描述;在定義了語義概念詞典之后,視頻概念標注技 術主要研究如何建立視頻與語義概念之間的映射關系,對于每一段視頻,把它映射到相應 的語義概念上去,并用這些語義概念來對視頻內容進行描述,可以有效縮短語義鴻溝的距 離。圖1給出了一個例子進行說明,這些概念取自文獻“Lscom lexicon definitions and annotations version 1.0, dto challengeworkshop on large scale concept ontology for multimedia”(該文獻是2006年Columbia大學的技術報告)中定義的語義概念詞典, 可以看到,視頻包含的語義概念能夠對視頻的主要內容進行描述。在對視頻進行檢索的時 候,可以利用相應的概念來對視頻進行索引,從而實現(xiàn)對海量視頻的有效管理。因此,視頻 概念標注技術具有十分重要的研究和應用價值。現(xiàn)有視頻概念標注技術可以分為兩類,第一類方法直接建立視頻底層特征與語義 概念的映射關系。例如,在2007年的Columbia大學技術報告中,A. Yanagawa和S. F. Chang 等在文 “Columbia university' s baseline detectors for 374 LSCOM semantic visual concepts"中提取了視頻的三種底層特征,對每一個概念,分別基于這三種特征訓 練得到三個檢測子,在對某一鏡頭進行標注時,這三個檢測子分別輸出一個預測概率,最后 取這三個概率值的平均值作為該鏡頭包含相應概念的概率。第二類在第一類方法的基礎 上,利用相鄰視頻鏡頭在語義上的關系來進一步優(yōu)化概念標注的結果。一般而言,具體關注 某一給定概念,稱之為目標概念時,我們把視頻中鏡頭之間的關系分為四類一致性,正相 關、負相關和無關。其中,一致性是指,如果一個鏡頭中包含目標概念,則可增大其相鄰鏡頭 包含目標概念的概率;正相關是指,如果一個鏡頭中包含的概念與目標概念正相關,則能增 大其相鄰鏡頭中包含目標概念的概率;負相關是指,如果一個鏡頭中包含的概念與目標概 念負相關,則會降低其相鄰鏡頭中包含目標概念的概率;無關是指,鏡頭中包含的概念與目 標概念無關,那么該鏡頭對于其相鄰鏡頭中是否包含目標概念不會產生影響。在2008年的ACM Multimedia Conference ±,M. F. Weng 禾口 Y. Y. Chuang 在文獻"Multi-cue fusion for semantic video indexing"中利用視頻相鄰鏡頭在語義上的一致性,對語義概念標注的結 果進行優(yōu)化。然而,該方法只考慮了連續(xù)鏡頭在語義上的一致性,而沒有考慮其他關系,例 如正相關和負相關等,因此具有進一步提高的改進空間
發(fā)明內容
針對現(xiàn)有技術的不足,本發(fā)明提出了一種基于鏡頭間上下文的視頻概念標注方 法,用于把視頻鏡頭標注為相關的語義概念,以達到對視頻內容進行描述的目的。該方法充 分考慮了視頻中鏡頭的各種關系,包括一致性、正相關、負相關和無關等,能夠進一步優(yōu)化 視頻概念標注的結果,從而有利于對視頻內容的理解和管理。
為達到以上目的,本發(fā)明的技術方案如下一種基于鏡頭間上下文的視頻概念標注方法,包括以下步驟1)給定具有人工標注結果的視頻訓練集,為標注的每一個語義概念訓練得到一個 概念檢測子,把訓練集和待標注測試集中的視頻鏡頭輸入到概念檢測子,輸出每個鏡頭中 包含相應概念的預測概率;2)將某一給定的語義概念作為目標概念,按照訓練集視頻鏡頭中包含的概念和目 標概念的關系,把鏡頭分類為不同類型,并提取鏡頭類型特征;3)基于步驟2)中的鏡頭分類和提取的類型特征,對訓練集視頻中鏡頭之間的相 互關系進行建模,構建的關系模型表示某一鏡頭的類型特征和類型標注之間的關系,同時 表示相鄰鏡頭的類型標注之間的關系,提取測試集視頻鏡頭的類型特征,輸入關系模型,得 到鏡頭標注為某一類型的概率,并由此作為目標概念優(yōu)化后的預測概率;4)重復步驟2)和步驟3),直到測試集中所有的概念都作為目標概念被優(yōu)化過為 止,這時,如果一個鏡頭包含某個概念的概率大于給定閾值,則用這個概念對該鏡頭進行標 注。所述步驟1)根據人工標注結果把訓練集分為正樣本和負樣本,然后利用機器學 習的方法訓練得到分類器,該分類器即作為相應概念的檢測子。所述步驟2)把鏡頭分為四種類型目標概念鏡頭,正相關概念鏡頭,負相關概念 鏡頭,以及無關概念鏡頭。四類鏡頭定義如下目標概念鏡頭中包含目標概念;正相關概念鏡頭不包含目標 概念,但包含和目標概念正相關的概念;負相關概念鏡頭不包含目標概念及其正相關的概 念,但包含和目標概念負相關的概念;無關概念鏡頭既不包含目標概念,也不包含和目標概 念正相關或負相關的概念。給定某一目標概念,一個概念和目標概念正相關,表示該概念和目標概念在語義 上是相互關聯(lián)的;一個概念和目標概念負相關,表示該概念和目標概念在語義上是相互排 斥的。所述步驟2)中,類型特征根據概念檢測子輸出的預測概率提取,表示把鏡頭分類 為不同類型的概率。所述步驟3)中,把訓練集中同屬于一個視頻的鏡頭按照時間先后關系進行排列, 得到鏡頭序列,基于鏡頭序列訓練得到鏡頭之間的關系模型。
所述步驟3)給定的閾值為0. 5。本發(fā)明的效果在于與現(xiàn)有方法相比,本發(fā)明能夠取得更為準確的視頻概念標注 結果,從而充分發(fā)揮概念標注在視頻內容分析和理解中的重要作用。本發(fā)明之所以具有上 述發(fā)明效果,其原因在于本發(fā)明充分考慮了視頻中鏡頭之間的不同關系,包括一致性、正 相關、負相關以及無關,能夠更為有效地優(yōu)化概念標注的結果。
圖1是視頻概念標注示意圖;圖2是本發(fā)明方法的流程示意圖。
具體實施例方式下面結合附圖和具體實施例對本發(fā)明作進一步詳細的描述。如圖2所示,本發(fā)明的一種基于鏡頭間上下文的視頻概念標注方法,具體包含以 下步驟(1)為訓練集中的每一個語義概念訓練得到一個概念檢測子需要根據人工標注結果把訓練集分為正樣本和負樣本,然后利用機器學習的方法 訓練得到分類器,該分類器即作為相應概念的檢測子。本實施例采用2007年Columbia大學 技術報告中文獻"Columbia university's baseline detectors for 374 LSCOM semantic visualconc印ts”(作者是A. Yanagawa和S. F. Chang)中提出的方法得到概念檢測子。該方 法首先對視頻鏡頭提取三種底層特征即顏色矩特征,Gabor紋理特征,以及邊緣直方圖特 征;然后分別基于這三種特征訓練得到三個檢測子,對于一個待處理的鏡頭,這三個檢測子 分別輸出一個預測概率,取這三個預測概率的平均值作為該鏡頭包含相應概念的概率。因 此,在該方法中,每個概念的檢測子由三個檢測子組成。符號定義為了下文能夠清楚說明本發(fā)明所使用的方法,先將一些將要用到的符 號進行說明。把屬于同一視頻內的鏡頭記作S = {Sl,s2,...,sn},其中,鏡頭的下標是按照鏡頭 在視頻中的時間先后順序賦值的鏡頭S"在鏡頭Si之前,鏡頭si+1在鏡頭Si之后,η為視 頻中包含鏡頭的個數(shù)。用L= {11; I2, ... , IJ表示S中鏡頭的人工標注,其中^ ={/丨,/,2,·..,/;"}表示訓
練集中鏡頭Si的人工標注,//的值為1表示鏡頭Si包含概念 ,//的值為0表示該鏡頭Si 不含概念…。m為語義詞典中概念的個數(shù)。用示訓練集的人工概念標記。用P = {P1, P2,...,Pm}表示概念檢測子對S中鏡頭的預測概率,其中, Pj =< P11,P^,...,PJ >是概念…的檢測子輸出的預測概率,if為概念…的檢測子對鏡頭Si 的預測概率。用pTrain和pTest分別表示概念檢測子對訓練集和測試集中鏡頭輸出的預測概 率。用Y = {y1,y2,· · ·,ym}表示 S 中鏡頭的類型,其中,/ =<>是以 Cj 為目標概念時,根據鏡頭中包含的概念與…的關系對鏡頭進行分類的結果,少/為鏡頭Si的 類型。表示訓練集的類型標記。
用X= (X1jX2,... ,xm}表示S中鏡頭的類型特征,其中,X7'=<<,與,...,XjJ >是以
概念…為目標概念時,對鏡頭提取的類型特征。χ/為鏡頭Si的類型特征。用Xftain 分別表示訓練集和測試集中鏡頭的類型特征用P = G1,P2,...,Pm)表示利用鏡頭間關系模型對S中鏡頭的預測概率進行優(yōu)化 后的結果,伊=< Ρ Η,…,H >是對概念…的預測概率進行優(yōu)化后的結果,貧是對概念 Cj在鏡頭Si上的預測概率進行優(yōu)化后的結果。用表示測試集中鏡頭經過優(yōu)化后的預測 概率。(2)對于某一給定的語義概念…,稱之為目標概念,根據鏡頭中所包含的概念和目 標概念之間的關系對訓練集中的鏡頭進行分類。我們把訓練集中的鏡頭分為四類目標概念鏡頭,記為正相關概念鏡頭, 記為;負相關概念鏡頭,記為Tig ;和無關概念鏡頭,記為7;ie/。四類鏡頭定義如下目 標概念鏡頭中包含概念Cj ;正相關概念鏡頭不包含概念Cj,但包含和Cj正相關的概念; 負相關概念鏡頭不包含概念Cj及其正相關的概念,但包含和Cj負相關的概念;無關概念 鏡頭既不包含概念Cj,也不包含與Cj正相關或負相關的概念。這里把這四種類型記為
rTj -1 rTJJ1J rTj J1J j
1 consist, pos y neg, irrel ^ 0(3)關注于目標概念…,提取訓練集和測試集中鏡頭的類型特征。在本實施例中, 我們是基于概念檢測子對視頻鏡頭的預測概率提取類型特征的,也可以采用別的方法,例 如基于視頻鏡頭的底層特征提取類型特征等。鏡頭Si的類型特征是一個四維的特征向量,記為Xf =< Xiconsist,Xipos,Xineg, Xiirrel >,各維值由下列公式定義公式一 <_如=斤公式二Π α-^))
ChEPOSj公式三乂呢=(1-")>< Π (l-")x(l- Π (l-"))
chePOSjcheNEGj公式四務沙ΠΠ α-^))
ChCPOSjcheNEGj其中,PiJ是概念…的檢測子對鏡頭Si的輸出值,即鏡頭Si包含概念…的預測概 率。POSj是和概念Cj正相關的概念集合,NEGj是和概念Cj負相關的概念集合。一個概念 和正相關,表示該概念常常和…在同一鏡頭中出現(xiàn);一個概念和…負相關,表示該概念 基本不和Cj在同一鏡頭中出現(xiàn)。公式五和公式六給出了 POSj和NEGj的定義,滿足公式五 的概念ch屬于集合POSj,滿足公式六的概念Ch屬于集合NEG」。公式五-.NormMIpJchiCj)> Thjpos公式六..NormMmg(CpCj)> Thjneg其中,NormMIp。s(ch,Cj)和NormMIneg(ch,Cj)的值由公式七、八、九、十、i^一給出NormMIpos (ch, Cj)的值越大,表示ch與Cj正相關的程度越強,NormMIneg(ch, Cj)的值越大,表 示Ch與…負相關的程度越強。77‘dn77<g分別是一個閾值,在本實施例中,我 們把77‘,取 為所有NormMIp。s (ch,Cj)中第六大的值(h乒j),這樣,滿足公式五的概念Ch有且僅有五個, 7\夂的取值也采取了同樣的方法。公式七NormMIp。s(ch,Cj) = MIpos (ch,Cj) /min {H (ch),H (Cj)}公式八NormMIneg(ch,Cj) = MIneg (ch,Cj) /min {H (ch),H (Cj)}
_6]公式九:
剛公式十..MI^cj) - U"、^^公式十一丑化)=—ΣP(^)IOgρ(/0
/^{-1,1}其中,P'的值為1表示概念…在鏡頭中出現(xiàn),Ij的值為O表示概念…在鏡頭中沒 有出現(xiàn)。Ρ( 是概念Cj是否在鏡頭中出現(xiàn)的先驗概率,可以通過統(tǒng)計訓練集中概念Cj出 現(xiàn)的次數(shù)得到。(4)目標概念標注結果優(yōu)化本發(fā)明采用條件隨機場(Conditional Random Field, CRF)為視頻中鏡頭之間 的相互關系進行建模。除此之外,也可以利用別的方法進行建模,例如馬爾可夫隨機場 等。場是在 2001 年的 International Conference on Machine Learning ±, 由 J. Lafferty 等人在文獻"Conditional random fields !Probabilistic models for segmenting and labelingsequence data”中提出的,該方法被用來解決序列標注問題。在 條件隨機場中,結點i的類型標注Ii不僅取決于該結點的類型特征,還依賴于其相鄰結點 的標注結果。在本發(fā)明中,把屬于同一視頻的鏡頭按照時間順序排列成一個鏡頭序列,每個 鏡頭將被標注為疒={71_,7^,TJeg, 7;^}這四種類型之一,這樣,鏡頭標注的問題就 可以看作是一個序列標注問題,可以用條件隨機場很好的解決,鏡頭被標注為類型
概率則被看作是鏡頭中包含概念…的概率,可以作為概念…優(yōu)化后的預測概率,由于考慮 了鏡頭之間的依賴關系,優(yōu)化后的概率值更為準確,下面給出條件隨機場的定義令X和Y分別為兩個隨機向量,G= (V,E)是一個無向圖,ν e V是圖中的一個結 點,ν用來對應隨機變量yv,這樣向量Y中的變量可以由G中的結點一一對應。當變量yv關 于X的條件概率分布滿足以圖G表示結點關系的馬爾可夫性質時,我們稱〈X,Y>為一個條 件隨機場,即P(yv|X,yw, w ^ ν) = P(yv|X, yw,w ν),其中,w ν表示結點w和ν在圖G 中是相鄰結點。在實際問題中,通常X表示結點的類型特征,而Y為結點的類型標注。如 文 獻"Conditional random fields !Probabilistic models for segmenting and labelingsequence data,,(作者是 J. Lafferty,A. McCallum 禾口 F. Pereira,發(fā)表在 2001 年 的 International Conference on Machine Learning 上)中所述,在給定 X 的前提下,Y 的條件概率由公式十二給出公式十二IX) =β,Χ,Λ) + Σ^v,7丨^x^))
.乙eeEveV 其中,D= {e, ν}是G的一個子圖,Y | D是Y中與子圖D相關的隨機變量;A是條 件隨機場的自相關勢函數(shù),用來對結點的類型特征和類型標記之間的關系建模;I是互相 關勢函數(shù),用來對不同結點類型標注之間的關系進行建模;Z用來對計算結果歸一化,使得 P(Ylx)的值在0到1之間取值。在具體問題中,一旦給定自相關勢函數(shù)和互相關勢函數(shù) 的定義,利用條件隨機場進行標注的過程可以分為兩個階段訓練和預測,訓練階段對參數(shù) θ = (λ, μ)進行學習;在得到θ之后,預測階段的目標就是要找到一個標注序列壙,使 得P (Y Ix)取到最大值,如公式十三所示公式十三廣=argmax P(Y | Χ, θ)
Y關于條件隨機場具體的學習和預測過程可參看文獻“Conditional random fields -Probabilistic models for segmenting and labeling sequence data,,(作者是 J. Lafferty, A. McCallum 禾口 F. Pereira,發(fā)表在 2001 年的 International Conference on Machine Learning _t)。在本發(fā)明中,我們如下定義條件隨機場中的兩個勢函數(shù),即自相關勢函數(shù) (AssociationPotential)禾口互相關勢函數(shù)(Interactive Potential)自相關勢函數(shù)用來表示鏡頭的類型特征和類型標記之間的關系,對于目標概念 Cj,定義自相關勢函數(shù)如下
< j j
,consist i 一 丄 consist X1yj - Tj公式十四雄W)=廣 一 η
^i,neg yi 一 neg ^i,irreli 一 ^irrel如上述定義,是以Cj為目標函數(shù)時鏡頭Si的類型標記,yjeTJ。 yJ=<y(, yJ2,…,乂>是視頻中η個鏡頭的類型標記。V=<x/,4’…,χ;;>是η個鏡頭的
類型特征,χ/是鏡頭Si的類型特征?;ハ嚓P勢函數(shù)用來表示不同類型鏡頭類型標記之間的相互關系,對于目標概念 Cj,定義自相關勢函數(shù)如下公式十五八乂,乂”V)= Σ= = 0
t\teTJ其中,δ (.)為指示函數(shù),當括弧中聲明的條件為真時,該函數(shù)的值為1,否則為O。 Tj = [TJonsisl, Tjpos, Tjeg, 7;ie/}是基于目標概念…定義的鏡頭類型。在得到自相關勢函數(shù)和互相關勢函數(shù)的定義之后,即可通過訓練集學習得到鏡頭 間的關系模型%,對于需要進行標注的視頻,按照步驟(3)中的方法提取鏡頭的類型特征, 輸入模型Mp可以得到把鏡頭標注為類型的邊緣概率,作為概念q優(yōu)化后的預測概 率,如果優(yōu)化后的概率大于閾值0. 5,則用概念…對鏡頭進行標注。
下面的實驗結果表明,與現(xiàn)有方法相比,本發(fā)明可以取得更為準確的概念標注結 果,從而充分發(fā)揮視頻概念標注在視頻內容分析與理解中的巨大作用本實施例采用了 TRECVID 2006的數(shù)據集進行評測,TRECVID是由美國國家標準 技術局組織的視頻檢索領域的權威評測活動。該數(shù)據集分為兩部分訓練集和測試集。訓 練集中包含了 85個小時的新聞視頻節(jié)目,涉及阿拉伯文新聞、中文新聞以及英文新聞。這 些新聞節(jié)目由137個視頻組成,被分割為43907個鏡頭。文獻“Columbia university' s baseline detectorsfor 374 lscom semantic visual concepts,,(作者為 A. Yanagawa 禾口 S. F. Chang等,是Columbia大學的一個技術報告)對這些訓練集中的鏡頭進行了人工標注, 每個鏡頭被標注為相應的概念,本實施例采用了這些數(shù)據作為訓練集的標注數(shù)據。測試集 包含了 259個視頻,這些視頻被分割為79484個鏡頭,我們用不同的概念標注方法在對這些 鏡頭進行處理之后,在TRECVID 2006官方采用的20個概念之上進行評測。我們測試了以 下3種方法作為實驗對比I.文獻"Columbia university's baseline detectors for 374 LSCOM semantic visualconcepts”(作者 A. Yanagawa 和 S. F. Chang,是 2007 年 Columbia 大學的技術報告) 中的方法,該方法采用支持向量機作為分類器,直接建立視頻底層特征與語義概念之間的 映射關系;II.文獻"Association and temporal rule mining for post-processing of semanticconcept detection in video”(作者 K. H. Liu 禾口 M. F. Weng,發(fā)表在 2008 年的 IEEETransactions on Multimedia上)中的方法,該方法在方法I的基礎上,采用基于規(guī)則 的方法對概念標注結果進行優(yōu)化;III.文獻“Multi-cue fusion for semantic video indexing,,(作者 Μ· F. Weng 和Y. Y. Chuang,發(fā)表在2008年的ACM Multimedia Conference上)中的方法,該方法在方法 I的基礎上,利用視頻中相鄰鏡頭之間在語義上的一致性來對概念的預測概率進行優(yōu)化;IV.本實施例的方法。實驗米用文獻"Estimating average precision with incomplete and imperfect judgments ”(作者是 Ε· Yilmaz 和 J. A. Aslam,發(fā)表在 2006 年的 ACM Conference onlnformation and Knowledge Management 之上)中提出的 InfAP 作為評測指標,InfAP 的值越大,說明概念標注的結果就越好。表1實驗結果對比
InfAP
方法 I 0. 0948 方法 II 0. 1108 方法 III 0. 1112 本發(fā)明IV 0. 1252從表1中可以看出,本發(fā)明IV取得了最好的概念標注結果,對比方法I和本發(fā)明IV,方法I中沒有用到鏡頭間的上下文來對概念標注結果進行優(yōu)化,而在本發(fā)明IV中,利用 鏡頭之間的相互關系可以提高概念標注的性能。對比方法II、III和本發(fā)明IV,方法II是 基于規(guī)則的方法,而總結出來的規(guī)則總是有限的,具有局限性,方法III中只考慮相鄰鏡頭 之間的一致性,而沒有考慮鏡頭之間的其他關系,因此具有進一 步改進的空間。本發(fā)明利用 條件隨機場對視頻鏡頭之間的相互關系進行建模,包括一致性,正相關和負相關等,大大改 進了概念標注的準確率。 顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍 之內,則本發(fā)明也意圖包含這些改動和變型在內。
權利要求
一種基于鏡頭間上下文的視頻概念標注方法,包括以下步驟1)給定具有人工標注結果的視頻訓練集,為標注的每一個語義概念訓練得到一個概念檢測子,把訓練集和待標注測試集中的視頻鏡頭輸入到概念檢測子,輸出每個鏡頭中包含相應概念的預測概率;2)將某一給定的語義概念作為目標概念,按照訓練集視頻鏡頭中包含的概念和目標概念的關系,把鏡頭分類為不同類型,并提取鏡頭類型特征;3)基于步驟2)中的鏡頭分類和提取的類型特征,對訓練集視頻中鏡頭之間的相互關系進行建模,構建的關系模型表示某一鏡頭的類型特征和類型標注之間的關系,同時表示相鄰鏡頭的類型標注之間的關系,提取測試集視頻鏡頭的類型特征,輸入關系模型,得到鏡頭標注為某一類型的概率,并由此作為目標概念優(yōu)化后的預測概率;4)重復步驟2)和步驟3),直到測試集中所有的概念都作為目標概念被優(yōu)化過為止,這時,如果一個鏡頭包含某個概念的概率大于給定閾值,則用這個概念對該鏡頭進行標注。
2.如權利要求1所述的視頻概念標注方法,其特征在于,所述步驟1)根據人工標注結 果把訓練集分為正樣本和負樣本,然后利用機器學習的方法訓練得到分類器,該分類器即 作為相應概念的檢測子。
3.如權利要求1所述的視頻概念標注方法,其特征在于,所述步驟2)把鏡頭分為四種 類型目標概念鏡頭,正相關概念鏡頭,負相關概念鏡頭,以及無關概念鏡頭。
4.如權利要求3所述的視頻概念標注方法,其特征在于,給定某一目標概念,四類鏡頭 定義如下目標概念鏡頭中包含目標概念;正相關概念鏡頭不包含目標概念,但包含和目 標概念正相關的概念;負相關概念鏡頭不包含目標概念及其正相關的概念,但包含和目標 概念負相關的概念;無關概念鏡頭既不包含目標概念,也不包含和目標概念正相關或負相 關的概念。
5.如權利要求4所述的視頻概念標注方法,其特征在于,給定某一目標概念,一個概念 和目標概念正相關,表示該概念和目標概念在語義上是相互關聯(lián)的;一個概念和目標概念 負相關,表示該概念和目標概念在語義上是相互排斥的。
6.如權利要求1所述的視頻概念標注方法,其特征在于,所述步驟2)中,類型特征根據 概念檢測子輸出的預測概率提取,表示把鏡頭分類為不同類型的概率。
7.如權利要求1所述的視頻概念標注方法,其特征在于,所述步驟3)中,把訓練集中同 屬于一個視頻的鏡頭按照時間先后關系進行排列,得到鏡頭序列,基于鏡頭序列訓練得到 鏡頭之間的關系模型。
8.如權利要求1所述的視頻概念標注方法,其特征在于,所述步驟3)給定的閾值為`0. 5。
全文摘要
本發(fā)明提供了一種基于鏡頭間上下文的視頻概念標注方法,包括為訓練集中標注的每一概念訓練得到一個檢測子,把訓練集和測試集中的鏡頭輸入概念檢測子,輸出鏡頭包含相應概念的預測概率;指定一目標概念,按照訓練集鏡頭中概念和目標概念的關系,把鏡頭分為不同類型,提取類型特征;按照訓練集視頻鏡頭中鏡頭類型特征和類型標注間關系,及相鄰鏡頭類型標注間的關系構建模型,提取測試集視頻鏡頭的類型特征,輸入模型,得到鏡頭標注為某一類型的概率,作為目標概念優(yōu)化后的預測概率;依次優(yōu)化所有概念,若優(yōu)化后的預測概率大于給定閾值,用相應概念標注鏡頭。本發(fā)明方法由于充分考慮了視頻中鏡頭之間的不同關系能夠更為有效地優(yōu)化概念標注的結果。
文檔編號G06F17/30GK101968797SQ20101027908
公開日2011年2月9日 申請日期2010年9月10日 優(yōu)先權日2010年9月10日
發(fā)明者彭宇新, 易劍, 肖建國 申請人:北京大學