視頻語義檢索與壓縮同步的攝像系統(tǒng)與方法
【專利摘要】本發(fā)明提供一種視頻語義檢索與壓縮同步的攝像方法,包括個性化設(shè)置與應(yīng)用兩個階段,其中,所述個性化設(shè)置包括:選擇特定目標(biāo)的集合;建立各特定目標(biāo)的視頻特征語義庫;在離線環(huán)境下對樣本視頻進(jìn)行樣本訓(xùn)練,用以獲取訓(xùn)練參數(shù)集;將訓(xùn)練參數(shù)配置于分類器中;所述應(yīng)用包括:獲取視頻,開始壓縮;在壓縮域中提取關(guān)鍵幀;在所述關(guān)鍵幀提取運動對象;在關(guān)鍵幀或運動對象中提取語義特征;讀取分類器中的訓(xùn)練參數(shù)集;將提取的語義特征與訓(xùn)練參數(shù)集進(jìn)行匹配,獲得視頻語義的索引。本發(fā)明具有壓縮與索引同步形成,從而充分發(fā)揮各攝像頭的分布式處理能力,大為減少計算量,為使城市視頻數(shù)據(jù)的大規(guī)模識別、高效內(nèi)容檢索提供基礎(chǔ)。
【專利說明】視頻語義檢索與壓縮同步的攝像系統(tǒng)與方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及視頻數(shù)據(jù)處理領(lǐng)域,尤其涉及一種視頻語義檢索與壓縮同步的攝像系統(tǒng)與方法。
【背景技術(shù)】
[0002]目前對于視頻內(nèi)容的搜索,一般采取圖像特征識別或者圖像語義抽取模式,兩者都需要在視頻采集后,通過模型算法或人工方法加以實施。面對城市管理中高速動態(tài)累積的海量視頻數(shù)據(jù),上述后期集中式處理難以獲得滿意效果。
[0003]原因在于:對于視頻圖像特征的語義識別(顏色、形狀、紋理、速度),需針對原始圖像進(jìn)行相關(guān)處理,一旦視頻被壓縮傳送到后臺,再提取上述信息,需對圖像進(jìn)行二次解壓縮,因而擴(kuò)大了數(shù)據(jù)處理量。
【發(fā)明內(nèi)容】
[0004]有鑒于此,有必要研發(fā)一種視頻語義檢索與壓縮同步的攝像方法,以解決上述問題。
[0005]本發(fā)明的視頻語義檢索與壓縮同步的攝像方法,包括個性化設(shè)置與應(yīng)用兩個階段,其中,個性化設(shè)置包括:(1.1)選擇特定目標(biāo)的集合;(1.2)建立各特定目標(biāo)的視頻特征語義庫;(1.3)在離線環(huán)境下對樣本視頻進(jìn)行樣本訓(xùn)練,用以獲取所述特定目標(biāo)的訓(xùn)練參數(shù)集;(1.4)將所述訓(xùn)練參數(shù)集配置于分類器中;所述應(yīng)用包括:(2.1)獲取實際視頻,開始壓縮,形成壓縮域視頻;(2.2)在壓縮域中提取關(guān)鍵幀;(2.3)在關(guān)鍵幀中提取運動對象;(2.4)在關(guān)鍵幀或運動對象中提取語義特征;(2.5)讀取分類器中的訓(xùn)練參數(shù)集;(2.6)將提取的語義特征與訓(xùn)練參數(shù)集進(jìn)行匹配,獲得視頻語義的索引。
[0006]優(yōu)選地,所述特定目標(biāo)包括人流、車流、固定建筑物、路口中的一個或多個的組合。
[0007]優(yōu)選地,所述語義庫的包括形狀特征、顏色特征、紋理特征及速度特征中的一種或多種的組合。
[0008]優(yōu)選地,所述提取關(guān)鍵幀的方法包括根據(jù)視頻壓縮流中的關(guān)鍵幀I幀/P幀標(biāo)記,或以固定時間間隔提取。
[0009]優(yōu)選地,所述提取運動對象的步驟包括:在所述關(guān)鍵幀獲取每個編碼單元運動矢量;對所述運動矢量進(jìn)行預(yù)處理;從所述運動矢量中提取運動矢量的幅度、角度;采用聚類等算法,根據(jù)所述幅度、角度以及其空間相關(guān)性、時間相關(guān)性特性提取區(qū)域運動對象;采用閾值分割方法分割運動特性分布圖,提取運動對象;分割對象后處理,通過區(qū)域生長和紋理信息,優(yōu)化所述運動對象的邊緣。
[0010]本發(fā)明通過在攝像機端應(yīng)用視頻語義檢索與壓縮同步的攝像方法,將上述規(guī)則庫的圖像語義抽取步驟在視頻采集壓縮過程中同步進(jìn)行,從而充分發(fā)揮各攝像頭的分布式處理能力,大為減少計算量,使城市視頻數(shù)據(jù)的大規(guī)模識別、高效內(nèi)容檢索成為可能?!緦@綀D】
【附圖說明】
[0011]圖1是本發(fā)明中視頻語義檢索與壓縮同步的攝像方法的設(shè)置步驟的示意圖。
[0012]圖2是本發(fā)明中視頻語義檢索與壓縮同步的攝像方法的設(shè)置步驟的示意圖。
[0013]圖3是本發(fā)明中在關(guān)鍵幀中提取運動對象的一實施方式示例圖。
[0014]圖4是本發(fā)明中在關(guān)鍵幀或運動對象中提取語義特征中的紋理對象為例的一實施方式示例圖。
[0015]圖5是本發(fā)明中所示為本發(fā)明實施方式中索引的結(jié)構(gòu)示例圖。
【具體實施方式】
[0016]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清晰,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0017]在本發(fā)明中,視頻語義檢索與壓縮同步的攝像方法包括二個部分:
[0018]第一部分是個性化設(shè)置,如圖1所示,在使用前選擇特定目標(biāo),并形成特定目標(biāo)的訓(xùn)練參數(shù)集;
[0019]第二部分是應(yīng)用,如圖2所示,將采集的視頻在壓縮的同時,將在關(guān)鍵幀中提取的語義特征與訓(xùn)練參數(shù)集進(jìn)行匹配,在完成壓縮的同時,形成語義索引。
[0020]實施例1個性化設(shè)置
[0021]請參閱圖1,所示為本發(fā)明中視頻語義檢索與壓縮同步的攝像方法的個性化設(shè)置步驟,具體包括:
[0022]在步驟SlOl中,初始化,并選擇特定目標(biāo)的集合。
[0023]以智能城市中的監(jiān)控探頭為例,其特定目標(biāo)包括:人流、車流、固定建筑物、路口
坐寸ο
[0024]在步驟S102中,建立各特定目標(biāo)的視頻特征語義庫。
[0025]語義庫的內(nèi)容通常包括形狀特征、顏色特征、紋理特征及速度特征中的一種或多種的組合。其中,分別將上述特征轉(zhuǎn)換成直方圖,并進(jìn)行歸一化,使每種特征的度量空間一致,最后將三種特征矢量進(jìn)行組合。
[0026]在步驟S103中,在離線環(huán)境下對樣本視頻進(jìn)行樣本訓(xùn)練,用以獲取訓(xùn)練參數(shù)集。
[0027]通常訓(xùn)練參數(shù)集會設(shè)定預(yù)設(shè)的次數(shù),并當(dāng)達(dá)到預(yù)設(shè)次數(shù)后結(jié)束訓(xùn)練。所述訓(xùn)練方法包括但不限于采用神經(jīng)網(wǎng)絡(luò)等學(xué)習(xí)方法。
[0028]在步驟S104中,將訓(xùn)練參數(shù)配置于分類器中。請簡單參閱圖5,所示為構(gòu)造的索引結(jié)構(gòu)圖,用于進(jìn)行后續(xù)應(yīng)用中的語義推理。
[0029]實施例2應(yīng)用
[0030]請參閱圖2,所示為本發(fā)明中視頻語義檢索與壓縮同步的攝像方法的應(yīng)用步驟,具體包括:
[0031]在步驟S201中,從攝相機端采集獲取監(jiān)控視頻,并開始壓縮。
[0032]在壓縮過程中輸出(或從壓縮視頻碼流中提取)視頻對象信息,包括運動矢量與分布、變換殘差系數(shù)分布等,進(jìn)行包括形狀、紋理、運動速度等對象信息的結(jié)構(gòu)化描述。包括壓縮域的關(guān)鍵巾貞的提取、運動對象的提取、及紋理對象的提取。[0033]在步驟S202中,在壓縮域中提取關(guān)鍵幀。
[0034]提取關(guān)鍵幀的方式通常包括根據(jù)視頻壓縮流中的關(guān)鍵幀I幀/P幀標(biāo)記,或以固定時間間隔提取。
[0035]在步驟S203中,在關(guān)鍵幀中提取運動對象。
[0036]視頻對象的分割時機器人視覺的重要研究部分,其分割的依據(jù)主要是視頻圖像的時間、空間信息。包括通過顏色空間來確定待分割對象;通過跟蹤對象的定位模型參數(shù)來提取物體的輪廓;基于顏色、運動和位置信息定位初始運動對象的方法等,其各有針對性。
[0037]在本實施例中,還提出了一種通過運動矢量進(jìn)行提取的方法,可參照圖3及后文的說明。
[0038]在步驟S204中,在壓縮域的關(guān)鍵幀或運動對象中提取語義特征。
[0039]在步驟S205中,讀取在設(shè)置階段存儲在分類器中的訓(xùn)練參數(shù)集。
[0040]在步驟S206中,將提取的語義特征與訓(xùn)練集參數(shù)進(jìn)行匹配,獲得視頻語義的索引。
[0041]以智慧城市的交通系統(tǒng)為例,訓(xùn)練集參數(shù)中給出了固定建筑物、路段、車輛、行人的分結(jié)構(gòu)化描述,如其輪廓(或形狀)、顏色、紋理、速度等。
[0042]針對視頻對象的結(jié)構(gòu)化描述,結(jié)合離線訓(xùn)練參數(shù)集和相似度匹配信息,輸入模式識別模塊,識別視頻對象的具體特性,并分類描述,例如大車小車分類,行人汽車分類,對象運動速度等,將識別的圖像信息與已提取語義對象庫進(jìn)行匹配,獲得視頻語義描述,存入視頻文件或單獨文本文件中。
[0043]識別過程中,為進(jìn)一步提高對象匹配和語義提取精度,可按照計算能力結(jié)合圖像域識別信息,包括HSV,RGB等顏色空間信息,直方圖信息,紋理與尺度變換信息等,進(jìn)一步細(xì)化語義描述,并存入視頻文件或單獨文本文件。
[0044]請參閱圖3,所示為圖2中步驟S203中在關(guān)鍵巾貞中提取運動對象的一實施方式示例圖。其主要步驟包括:
[0045]在步驟S301中,在已壓縮視頻或視頻壓縮的過程中,直接獲取壓縮視頻流中(或視頻壓縮過程中編碼器生成的)每個編碼單元(如宏塊或4x4塊)運動矢量。
[0046]在步驟S302中,對運動矢量進(jìn)行預(yù)處理,主要包括區(qū)域性平滑等。
[0047]在步驟S303中,從運動矢量中提取運動矢量的強度分量(即幅度),和角度分量(SP角度)。
[0048]在步驟S304中,采用已公知的聚類等算法,根據(jù)幅度、角度以及空間相關(guān)性、時間相關(guān)性特性提取區(qū)域運動對象。
[0049]例如,a)分別統(tǒng)計幅度和角度直方圖;
[0050]b)利用空間相關(guān)性,利用幅度和角度直方圖分別計算空間方向的區(qū)域性運動矢量的幅度和角度,形成空間角度和幅度分布圖;
[0051 ] c)利用時間相關(guān)性,利用幅度和角度直方圖分別計算時間方向的運動矢量的幅度和角度,形成時間方向角度和幅度分布圖;
[0052]d)將時間、空間上的幅度與角度分布圖進(jìn)行融合,運動特性分布圖;
[0053]在步驟S305中,采用閾值分割方法分割運動特性分布圖,提取運動對象。
[0054]在步驟S306中,分割對象后處理,通過區(qū)域生長和紋理信息,優(yōu)化對象邊緣。[0055]請參閱圖4,所示為圖2中步驟S204中在關(guān)鍵幀或運動對象中提取語義特征中的紋理對象為例的一實施方式示例圖。其主要步驟包括:
[0056]在步驟S401中,在以壓縮視頻流或者編碼過程中的編碼器,提取每個編碼單元塊的變換系數(shù)的直流系數(shù)和交流系數(shù),即DC和AC系數(shù),分別形成直流和交流系數(shù)的分布圖。
[0057]在步驟S402中,將直流和交流系數(shù)的分布圖進(jìn)行預(yù)處理。
[0058]在步驟S403中,統(tǒng)計直流和交流分布圖的直方圖,采用聚類算法劃分區(qū)域。
[0059]在步驟S404中,二值化將直流和交流系數(shù)較大的區(qū)域劃分為紋理對象區(qū)域或背景區(qū)域。
[0060]在步驟S405中,處理優(yōu)化對象輪廓。
[0061]請參閱圖5,所示為本發(fā)明實施方式中索引的結(jié)構(gòu)圖,以智慧城市中交通資源庫系統(tǒng)為例。
[0062]第一級索引包括:建筑、路段、車輛、行人;其中,
[0063]建筑的第二級包括:樓宇A(yù)、樓宇B等;
[0064]路段的第二級包括:一號路、二號路等;
[0065]車輛的第二級包括:機動車、非機動車、違章等,其中機動車的還可以包括大車、小
本坐
寸O
[0066]行人的第二級包括:正常和闖紅燈等。
[0067]在完成設(shè)置后,在應(yīng)用過程中,視頻資料在完成采集后,一邊壓縮,一邊形成與圖5相對應(yīng)的索引。
[0068]有益效果:
[0069]1.壓縮域內(nèi)需要處理的數(shù)據(jù)量也比像素域少很多,因此計算量大大減少,存儲數(shù)據(jù)的空間也大大減少;
[0070]2.從壓縮域分割視頻對象具有快速的特點,可解決傳統(tǒng)的像素域分割難于滿足實時分割的要求,更適合于有實時性要求的應(yīng)用場合。
[0071]3.視頻流中提供視頻語義信息,有利于數(shù)據(jù)終端快速檢索與識別,另外視頻攝像端的額外計算量小,且可大幅降低數(shù)據(jù)終端計算量。
[0072]4.通過在設(shè)置階段的學(xué)習(xí),可以快速建立個性化需求的索引機制,為后期查找建立了便捷的途徑。
[0073]在本實施方式中,攝像機包括但不限于手持式攝像機、智能手機、監(jiān)控攝像頭等具有攝像、存儲及處理功能的攝像設(shè)備。
[0074]在本實施方式中,集成有上述方法的模塊,主要安裝在攝相機或城市監(jiān)控探頭一端,將上述基于規(guī)則庫的圖像語義抽取步驟在視頻采集壓縮過程中同步進(jìn)行,從而充分發(fā)揮各攝像頭的分布式處理能力,大為減少計算量,使城市視頻數(shù)據(jù)的大規(guī)模識別、高效內(nèi)容檢索成為可能。
[0075]以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種視頻語義檢索與壓縮同步的攝像方法,其特征在于,包括個性化設(shè)置與應(yīng)用兩個階段,其中, 所述個性化設(shè)置包括: (1.1)選擇特定目標(biāo)的集合; (1.2)建立各特定目標(biāo)的視頻特征語義庫; (1.3)在離線環(huán)境下對樣本視頻進(jìn)行樣本訓(xùn)練,用以獲取所述特定目標(biāo)的訓(xùn)練參數(shù)集; (1.4)將所述訓(xùn)練參數(shù)集配置于分類器中; 所述應(yīng)用包括: (2.1)獲取實際視頻,開始壓縮,形成壓縮域視頻; (2.2)在壓縮域中提取關(guān)鍵幀; (2.3)在所述關(guān)鍵幀中提取運動對象; (2.4)在所述關(guān)鍵幀或所述運動對象中提取語義特征; (2.5)讀取分類器中的訓(xùn)練參數(shù)集; (2.6)將提取的語義特征與訓(xùn)練參數(shù)集進(jìn)行匹配,獲得視頻語義的索引。
2.如權(quán)利要求1所述的攝像方法,其特征在于,所述特定目標(biāo)包括人流、車流、固定建筑物、路口中的一個或多個的組合。
3.如權(quán)利要求1所述的攝像方法,其特征在于,所述語義庫的包括形狀特征、顏色特征、紋理特征及速度特征中的一種或多種的組合。
4.如權(quán)利要求1所述的攝像方法,其特征在于,所述提取關(guān)鍵幀的方法包括根據(jù)視頻壓縮流中的關(guān)鍵幀I幀/P幀標(biāo)記,或以固定時間間隔提取。
5.如權(quán)利要求1所述的攝像方法,其特征在于,所述提取運動對象的步驟包括: 在所述關(guān)鍵幀獲取每個編碼單元運動矢量; 對所述運動矢量進(jìn)行預(yù)處理; 從經(jīng)過預(yù)處理的運動矢量中提取運動矢量的幅度、角度; 采用聚類等算法,根據(jù)所述幅度、角度以及其空間相關(guān)性、時間相關(guān)性特性提取區(qū)域運動對象; 采用閾值分割方法分割運動特性分布圖,提取運動對象; 分割對象后處理,通過區(qū)域生長和紋理信息,優(yōu)化所述運動對象的邊緣。
【文檔編號】H04N19/139GK103905824SQ201410115063
【公開日】2014年7月2日 申請日期:2014年3月26日 優(yōu)先權(quán)日:2014年3月26日
【發(fā)明者】修文群 申請人:深圳先進(jìn)技術(shù)研究院