基于距離預(yù)測信息的圖像視頻場景識別方法
【專利摘要】本發(fā)明提供一種基于距離預(yù)測信息的圖像視頻場景識別方法,所述方法至少包括:步驟一、采用已有的圖像訓(xùn)練集訓(xùn)練獲得距離預(yù)測模型,將所述距離預(yù)測模型應(yīng)用于待預(yù)測的RGB圖像,獲取所述RGB圖像對應(yīng)的距離預(yù)測信息,再從所述距離預(yù)測信息中提取距離特征;步驟二、采用已有的圖像視頻集訓(xùn)練獲得特征分類器,利用所述特征分類器和所述距離特征進(jìn)行預(yù)測,得到圖像視頻的場景類別。本發(fā)明的圖像視頻場景識別的方法,利用基于RGB圖像內(nèi)容的距離預(yù)測信息,獲取表示距離預(yù)測信息及視覺顏色信息等圖像特征,再利用訓(xùn)練的各種分類器,對待預(yù)測RGB圖像進(jìn)行場景識別,提高了圖像視頻場景識別的能力。
【專利說明】
基于距離預(yù)測信息的圖像視頻場景識別方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于信息技術(shù)領(lǐng)域,涉及一種圖像視頻場景識別方法,特別是涉及一種基于距離預(yù)測信息的圖像視頻場景識別方法。
【背景技術(shù)】
[0002]場景理解是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要問題。圖像視頻場景識別作為場景理解的一個(gè)主要任務(wù),是指利用圖像視頻中的視覺信息,自動(dòng)對其進(jìn)行處理和分析,并判斷出其中所帶有的特定場景。隨著過去幾十年來互聯(lián)網(wǎng)技術(shù)和大容量存儲技術(shù)的快速發(fā)展,大規(guī)模圖像視頻數(shù)據(jù)集陸續(xù)出現(xiàn),各類場景識別方法被提出,其一般步驟包括:先對圖像視頻的視覺信息進(jìn)行描述,也被稱為視覺特征提取;再使用已經(jīng)獲取的針對不同場景的識別模型對上述視覺特征進(jìn)行特征匹配和分類,最終得到圖像視頻場景識別的結(jié)果。
[0003]視覺特征大致包括底層視覺特征、中層視覺特征和基于學(xué)習(xí)的特征。底層視覺特征主要是對圖像視頻顏色、紋理等視覺信息的直接描述。中層視覺特征通常需要設(shè)計(jì)大量的視覺概念檢測器,或挑選出較有區(qū)分性的圖像區(qū)域,再利用概念檢測器的結(jié)果或圖像區(qū)域的特征連接構(gòu)成中層特征表示?;趯W(xué)習(xí)的特征通過訓(xùn)練特征學(xué)習(xí)模型,例如深度神經(jīng)網(wǎng)絡(luò)模型,將模型的輸出或中間結(jié)果作為特征表示。上述幾類視覺特征都是基于圖像視頻的視覺內(nèi)容信息,而根據(jù)認(rèn)知科學(xué)的研究,視覺畫面的距離信息或深度信息對人類識別所處的場景能夠起到重要的作用。
[0004]近年來,隨著以Kinect為代表的攝像機(jī)的出現(xiàn),人們可以更加容易的獲取帶有距離信息的圖像視頻,這類圖像被稱為RGB-D圖像/視頻(RGB-D分別代表Red Green BlueDepth通道),而傳統(tǒng)攝像機(jī)獲取的不帶有距離信息的圖像也可稱為RGB圖像/視頻?;赗GB-D圖像的方法在姿態(tài)識別、圖像分割、物體檢測等任務(wù)上取得了性能的提升。在場景識別領(lǐng)域,使用基于RGB-D圖像訓(xùn)練的模型也進(jìn)一步提升了 RGB-D圖像的識別精度。但是,這類方法還有較大的局限性,包括:
[0005]1、方法的測試和使用是針對帶有距離信息的RGB-D圖像,而實(shí)際應(yīng)用過程中,大多數(shù)攝像頭都只能采集RGB信息而不能獲取距離信息,這就限制了模型的可用性;
[0006]2、用于訓(xùn)練模型的是RGB-D數(shù)據(jù)集,但RGB-D圖像視頻數(shù)據(jù)數(shù)量大大小于僅包含RGB信息的數(shù)據(jù),這將影響到模型最終的識別效果。
【發(fā)明內(nèi)容】
[0007]鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種基于距離預(yù)測信息的圖像視頻場景識別方法,用于解決現(xiàn)有技術(shù)中場景識別精度低、效果差的問題。
[0008]為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明提供一種基于距離預(yù)測信息的圖像視頻場景識別方法,所述識別方法至少包括:
[0009]步驟一、采用已有的圖像訓(xùn)練集訓(xùn)練獲得距離預(yù)測模型,將所述距離預(yù)測模型應(yīng)用于待預(yù)測的RGB圖像,獲取所述RGB圖像對應(yīng)的距離預(yù)測信息,再從所述距離預(yù)測信息中提取距離特征;
[0010]步驟二、采用已有的圖像視頻集訓(xùn)練獲得特征分類器,利用所述特征分類器和所述距離特征進(jìn)行預(yù)測,得到圖像視頻的場景類別。
[0011]優(yōu)選地,所述步驟一中,采用已有的RGB-D圖像訓(xùn)練集訓(xùn)練多尺度下的距離預(yù)測模型,并將所述多尺度下的距離預(yù)測模型合并得到最終的預(yù)測模型,利用最終的預(yù)測模型獲取所述RGB圖像對應(yīng)的距離預(yù)測信息后,從所述距離預(yù)測信息中直接提取距離特征。
[0012]優(yōu)選地,所述RGB-D圖像訓(xùn)練集還包含一部分帶有距離標(biāo)注信息的RGB圖像。
[0013]優(yōu)選地,對獲取的所述距離預(yù)測信息進(jìn)行數(shù)值變換,從變換后的距離預(yù)測信息中提取距離特征。
[0014]優(yōu)選地,進(jìn)行數(shù)值變化之前,將獲得所述距離預(yù)測信息結(jié)合待預(yù)測的RGB圖像生成新的RGB-D圖像,再將新的RGB-D圖像加入已有的RGB-D圖像訓(xùn)練集,從而擴(kuò)展已有的RGB-D
圖像訓(xùn)練集。
[0015]優(yōu)選地,所述步驟一中,采用全卷積神經(jīng)網(wǎng)絡(luò)或者條件隨機(jī)場算法訓(xùn)練獲得所述距離預(yù)測模型。
[0016]優(yōu)選地,所述步驟一中,從所述距離預(yù)測信息中提取距離特征的方法為:直接提取RGB圖像上的全局統(tǒng)計(jì)信息和局部紋理信息,進(jìn)而生成全局或局部的距離特征表示,或者使用基于全卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)的特征提取算法生成特征提取模型,進(jìn)而生成深度信息圖像的高層語義距離特征表示。
[0017]優(yōu)選地,所述步驟二中,所述特征分類器為SVM、神經(jīng)網(wǎng)絡(luò)或者決策樹。
[0018]優(yōu)選地,所述步驟二中,所述特征分類器包括距離特征分類器,利用所述距離特征分類器和所述距離特征進(jìn)行預(yù)測,得到圖像視頻的場景類別。
[0019]優(yōu)選地,所述步驟二中,所述特征分類器包括距離特征分類器和視覺特征分類器,先通過所述步驟一提取所述距離特征,同時(shí)從待預(yù)測的RGB圖像提取視覺特征,對所述距離特征,利用所述距離特征分類器進(jìn)行預(yù)測,獲得所述距離特征的場景識別置信度,對所述視覺特征,利用所述視覺特征分類器進(jìn)行預(yù)測,獲得所述視覺特征的場景識別置信度,最后融合距離特征的場景識別置信度和視覺特征景識別置信度,得到圖像視頻的場景類別。
[0020]優(yōu)選地,所述特征分類器包括融合特征分類器,通過所述步驟一提取所述距離特征,同時(shí)從待預(yù)測的RGB圖像提取視覺特征,將所述距離特征和視覺特征進(jìn)行融合,獲得融合后的圖像特征,再利用已有的圖像視頻集訓(xùn)練獲得所述融合特征分類器,對所述融合后的圖像特征,利用所述融合特征分類器進(jìn)行預(yù)測,得到圖像視頻的場景類別。
[0021]如上所述,本發(fā)明的基于距離預(yù)測信息的圖像視頻場景識別方法,所述方法至少包括:步驟一、采用已有的圖像訓(xùn)練集訓(xùn)練獲得距離預(yù)測模型,將所述距離預(yù)測模型應(yīng)用于待預(yù)測的RGB圖像,獲取所述RGB圖像對應(yīng)的距離預(yù)測信息,再從所述距離預(yù)測信息中提取距離特征;步驟二、采用已有的圖像視頻集訓(xùn)練獲得特征分類器,利用所述特征分類器和所述距離特征進(jìn)行預(yù)測,得到圖像視頻的場景類別。本發(fā)明的圖像視頻場景識別的方法,利用基于視覺內(nèi)容的距離預(yù)測信息,獲取表示距離預(yù)測信息及視覺顏色信息等視覺特征,再利用訓(xùn)練的各種分類器,對RGB圖像進(jìn)行場景識別,提高了圖像視頻場景識別的能力。
【附圖說明】
[0022]圖1是本發(fā)明實(shí)施例一中的距離預(yù)測信息的特征表示的流程示意圖。
[0023]圖2是本發(fā)明實(shí)施例二中的距離預(yù)測信息的特征表示的流程示意圖。
[0024]圖3是本發(fā)明實(shí)施例三中場景識別的方法其中一種流程示意圖。
[0025]圖4是本發(fā)明實(shí)施例四中場景識別的方法另一種流程示意圖。
[0026]圖5是本發(fā)明實(shí)施例五中場景識別的方法再一種流程示意圖。
【具體實(shí)施方式】
[0027]以下通過特定的具體實(shí)例說明本發(fā)明的實(shí)施方式,本領(lǐng)域技術(shù)人員可由本說明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點(diǎn)與功效。本發(fā)明還可以通過另外不同的【具體實(shí)施方式】加以實(shí)施或應(yīng)用,本說明書中的各項(xiàng)細(xì)節(jié)也可以基于不同觀點(diǎn)與應(yīng)用,在沒有背離本發(fā)明的精神下進(jìn)行各種修飾或改變。
[0028]請參閱附圖。需要說明的是,本實(shí)施例中所提供的圖示僅以示意方式說明本發(fā)明的基本構(gòu)想,遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實(shí)際實(shí)施時(shí)的組件數(shù)目、形狀及尺寸繪制,其實(shí)際實(shí)施時(shí)各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也可能更為復(fù)雜。
[0029]實(shí)施例一
[0030]請參閱附圖1,該附圖為從距離預(yù)測信息中提取距離特征的流程示意圖,即為本發(fā)明基于距離預(yù)測信息的圖像視頻場景識別方法的步驟一,本實(shí)施例從距離預(yù)測信息中提取距離特征的的流程包括:
[0031]I)采用已有的圖像訓(xùn)練集(或者訓(xùn)練圖像集)訓(xùn)練獲得距離預(yù)測模型。具體地,圖像訓(xùn)練集由使用RGB-D攝像頭獲取的RGB-D圖像組成,每張圖像均包含各位置的距離信息??蛇x地,訓(xùn)練圖像集還可以包含部分RGB圖像,這些圖像帶有少量距離標(biāo)注信息,用于提升距離預(yù)測模型的精度。訓(xùn)練距離預(yù)測模型以多個(gè)尺度下的圖像的RGB信息作為輸入,以RGB-D圖像的D通道上的深度信息和/或RGB圖像的距離標(biāo)注作為擬合目標(biāo)。例如,可以使用全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolut1nal Neural Networks)訓(xùn)練距離預(yù)測模型,也可以使用條件隨機(jī)場算法(Condit1nal Random Field)訓(xùn)練模型。
[0032]2)使用距離預(yù)測模型對RGB圖像預(yù)測每個(gè)像素點(diǎn)的距離信息。具體地,給定一張RGB圖像,將其輸入距離預(yù)測模型,通過計(jì)算模型(距離預(yù)測模型)將預(yù)測每個(gè)像素點(diǎn)的距離
?目息O
[0033]3)結(jié)合RGB圖像與距離預(yù)測信息生成表示距離的特征。具體地,將生成的距離預(yù)測信息作為一張二維灰度圖像信息,提取其中帶有的信息。具體的提取方法可以分為兩類:直接提取灰度圖像上的全局統(tǒng)計(jì)信息和局部紋理信息,進(jìn)而生成全局或局部的特征表示;使用基于機(jī)器學(xué)習(xí)的特征提取算法,如使用基于全卷積神經(jīng)網(wǎng)絡(luò)(Convolut1nal NeuralNetworks)生成的特征提取模型,生成深度信息圖像的高層語義表示。
[0034]實(shí)施例二
[0035]請參閱附圖2,該附圖為從距離預(yù)測信息中提取距離特征的另一流程示意圖,也為本發(fā)明基于距離預(yù)測信息的圖像視頻場景識別方法的步驟一,本實(shí)施例從距離預(yù)測信息中提取距離特征的的流程包括:
[0036]I)采用已有的圖像訓(xùn)練集(或者訓(xùn)練圖像集)訓(xùn)練獲得距離預(yù)測模型。該步驟與實(shí)施例一中的步驟I)相同。
[0037]2)使用距離預(yù)測模型對RGB圖像預(yù)測每個(gè)像素點(diǎn)的距離信息。該步驟與實(shí)施例一中的步驟2)相同。
[0038]3)使用預(yù)測的距離信息擴(kuò)展RGB-D圖像訓(xùn)練集。該步驟為可選步驟,其主要作用是利用步驟2)生成的距離預(yù)測信息結(jié)合原有圖像的RGB通道(可以是待預(yù)測的RGB圖像,也可以是待預(yù)測RGB圖像以外的、與待預(yù)測圖像帶有類似內(nèi)容的其他RGB圖像),生成新的RGB-D圖像,并用于擴(kuò)充步驟I)中的圖像訓(xùn)練集,從而提高距離預(yù)測的精度。
[0039]4)對圖像的距離預(yù)測信息進(jìn)行數(shù)值變換。該步驟的主要目的在于進(jìn)一步挖掘距離信息的表示能力。例如,將每個(gè)像素點(diǎn)的深度預(yù)測信息直接量化到灰度圖像的數(shù)值區(qū)間,從而將其距離預(yù)測信息轉(zhuǎn)化為灰度圖像;再將灰度圖像通過著色的方法轉(zhuǎn)換為RGB信息,生成RGB圖像。又例如,結(jié)合圖像上物體的幾何分布信息,將預(yù)測的距離信息轉(zhuǎn)化為帶有更強(qiáng)分辨能力的信息,如圖像中每個(gè)像素點(diǎn)的角度信息、像素點(diǎn)對應(yīng)物體離地高度信息、相對距離信息等,并將各類信息量化到圖像的數(shù)值區(qū)間,從而整合為一張新的RGB圖像。
[0040]5)結(jié)合RGB圖像與距離預(yù)測信息生成表示距離的特征(即從所述距離預(yù)測信息中提取距離特征)。利用步驟4生成的表征距離信息的RGB通道信息提取其中帶有的信息。具體的提取方法可以分為兩類:直接提取彩色圖像上的全局統(tǒng)計(jì)信息和局部紋理信息,進(jìn)而生成全局或局部的特征表示;使用基于機(jī)器學(xué)習(xí)的特征提取算法,如使用全卷積神經(jīng)網(wǎng)絡(luò)(Convolut1nal Neural Networks),生成深度信息圖像的高層語義表示。
[0041 ] 實(shí)施例三
[0042]請參閱附圖3,該附圖為本發(fā)明基于距離預(yù)測信息的圖像視頻場景識別方法的其中一種流程示意圖,識別方法的流程包括:
[0043]I)提取圖像距離特征(即距離預(yù)測信息中提取距離特征)。具體是,給定一張RGB圖像,然后使用實(shí)施例一或?qū)嵤├峁┑牧鞒烫崛〕鰧?yīng)的圖像距離特征。
[0044]2)利用預(yù)訓(xùn)練的距離特征分類器對該給定圖像進(jìn)行場景識別,獲取場景識別結(jié)果。給定一個(gè)場景,使用帶該場景標(biāo)注的RGB圖像數(shù)據(jù)集(即圖像視頻集),每張數(shù)據(jù)集圖像分別提取步驟I)的距離特征,再針對場景類別訓(xùn)練距離特征分類器,例如,可以利用線性核函數(shù)的支撐向量機(jī)(Support Vector Machines)或隨機(jī)森林(Random Forest)。如果有多個(gè)場景類別,則分別訓(xùn)練多個(gè)分類器(可以是SVM、神經(jīng)網(wǎng)絡(luò)或者決策樹)。對于輸入圖像,利用訓(xùn)練好的場景分類器進(jìn)行分類,輸出為分類器對應(yīng)場景類別的識別置信度,其中置信度最高的場景類別即為最終的圖像識別類別。
[0045]實(shí)施例四
[0046]請參閱附圖4,該附圖為本發(fā)明基于距離預(yù)測信息的圖像視頻場景識別方法的另一種流程示意圖,識別方法的流程包括:
[0047]I)提取圖像距離特征和圖像視覺特征。具體地,提取圖像距離特征與實(shí)施例三中步驟I)相同,另外,還需提取RGB圖像上的視覺特征,如顏色特征、紋理特征等。
[0048]2)對距離特征和視覺特征,分別利用預(yù)訓(xùn)練的分類器對該給定圖像進(jìn)行場景識另IJ,獲取各類特征對應(yīng)的場景識別置信度。該步驟的分類器訓(xùn)練與識別流程與實(shí)施例三中的步驟2)相同。具體地,對所述距離特征,利用所述距離特征分類器(可以是SVM、神經(jīng)網(wǎng)絡(luò)或者決策樹)進(jìn)行預(yù)測,獲得所述距離特征的場景識別置信度,對所述視覺特征,利用所述視覺特征分類器(SVM、神經(jīng)網(wǎng)絡(luò)或者決策樹)進(jìn)行預(yù)測,獲得所述視覺特征的場景識別置信度。
[0049]3)融合獲取的所有場景識別置信度,得到場景識別結(jié)果(即得到圖像視頻的場景類別)。對各類特征獲取的場景識別置信度,首先進(jìn)行歸一化,例如,采用Soft-max歸一化方法。對歸一化后的置信度進(jìn)行融合可以采用兩類方法:直接對置信度相加或相乘;或再訓(xùn)練一個(gè)用于融合的分類器,將分類結(jié)果作為場景識別的結(jié)果。
[0050]實(shí)施例五
[0051]請參閱附圖5,該附圖為本發(fā)明基于距離預(yù)測信息的圖像視頻場景識別方法的再一種流程示意圖,識別方法的流程包括:
[0052]I)提取圖像距離特征和圖像視覺特征。該步驟與實(shí)施例四種的步驟I)相同。
[0053]2)對距離特征和視覺特征進(jìn)行特征融合。首先對每個(gè)特征進(jìn)行特征內(nèi)歸一化,將所有特征串聯(lián)成一個(gè)更高維度的圖像特征??蛇x地,采用主成分分析(P r i n C i P a IComponent Analysis)等方法,對融合后的特征進(jìn)行特征變換,得到維度更低的特征。
[0054]3)對融合后的圖像特征,利用預(yù)訓(xùn)練的分類器(融合特征分類器)對該給定圖像進(jìn)行場景識別,獲取場景識別結(jié)果(即得到圖像視頻的場景類別)。該步驟的分類器訓(xùn)練與識別流程與實(shí)施例3中的步驟2)相同。
[0055]需要說明的是,所有實(shí)施例中,訓(xùn)練距離特征分類器、視覺特征分類器以及融合特征分類器的方法均相同,只是訓(xùn)練的參數(shù)不同而已。
[0056]上述實(shí)施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對上述實(shí)施例進(jìn)行修飾或改變。因此,舉凡所屬技術(shù)領(lǐng)域中具有通常知識者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完成的一切等效修飾或改變,仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。
【主權(quán)項(xiàng)】
1.一種基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于,所述識別方法至少包括: 步驟一、采用已有的圖像訓(xùn)練集訓(xùn)練獲得距離預(yù)測模型,將所述距離預(yù)測模型應(yīng)用于待預(yù)測的RGB圖像,獲取所述RGB圖像對應(yīng)的距離預(yù)測信息,再從所述距離預(yù)測信息中提取距離特征; 步驟二、采用已有的圖像視頻集訓(xùn)練獲得特征分類器,利用所述特征分類器和所述距離特征進(jìn)行預(yù)測,得到圖像視頻的場景類別。2.根據(jù)權(quán)利要求1所述的基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于:所述步驟一中,采用已有的RGB-D圖像訓(xùn)練集訓(xùn)練多尺度下的距離預(yù)測模型,并將所述多尺度下的距離預(yù)測模型合并得到最終的預(yù)測模型,利用最終的預(yù)測模型獲取所述RGB圖像對應(yīng)的距離預(yù)測信息后,從所述距離預(yù)測信息中直接提取距離特征。3.根據(jù)權(quán)利要求2所述的基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于:所述RGB-D圖像訓(xùn)練集還包含一部分帶有距離標(biāo)注信息的RGB圖像。4.根據(jù)權(quán)利要求2或3所述的基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于:對獲取的所述距離預(yù)測信息進(jìn)行數(shù)值變換,從變換后的距離預(yù)測信息中提取距離特征。5.根據(jù)權(quán)利要求4所述的基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于:進(jìn)行數(shù)值變化之前,將獲得所述距離預(yù)測信息結(jié)合待預(yù)測的RGB圖像生成新的RGB-D圖像,再將新的RGB-D圖像加入已有的RGB-D圖像訓(xùn)練集,從而擴(kuò)展已有的RGB-D圖像訓(xùn)練集。6.根據(jù)權(quán)利要求1所述的基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于:所述步驟一中,采用全卷積神經(jīng)網(wǎng)絡(luò)或者條件隨機(jī)場算法訓(xùn)練獲得所述距離預(yù)測模型。7.根據(jù)權(quán)利要求1所述的基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于:所述步驟一中,從所述距離預(yù)測信息中提取距離特征的方法為:直接提取RGB圖像上的全局統(tǒng)計(jì)信息和局部紋理信息,進(jìn)而生成全局或局部的距離特征表示,或者使用基于全卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)的特征提取算法生成特征提取模型,進(jìn)而生成深度信息圖像的高層語義距離特征表示。8.根據(jù)權(quán)利要求1所述的基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于:所述步驟二中,所述特征分類器為SVM、神經(jīng)網(wǎng)絡(luò)或者決策樹。9.根據(jù)權(quán)利要求1所述的基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于:所述步驟二中,所述特征分類器包括距離特征分類器,利用所述距離特征分類器和所述距離特征進(jìn)行預(yù)測,得到圖像視頻的場景類別。10.根據(jù)權(quán)利要求1所述的基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于:所述步驟二中,所述特征分類器包括距離特征分類器和視覺特征分類器,先通過所述步驟一提取所述距離特征,同時(shí)從待預(yù)測的RGB圖像提取視覺特征,對所述距離特征,利用所述距離特征分類器進(jìn)行預(yù)測,獲得所述距離特征的場景識別置信度,對所述視覺特征,利用所述視覺特征分類器進(jìn)行預(yù)測,獲得所述視覺特征的場景識別置信度,最后融合距離特征的場景識別置信度和視覺特征景識別置信度,得到圖像視頻的場景類別。11.根據(jù)權(quán)利要求1所述的基于距離預(yù)測信息的圖像視頻場景識別方法,其特征在于:所述特征分類器包括融合特征分類器,通過所述步驟一提取所述距離特征,同時(shí)從待預(yù)測的RGB圖像提取視覺特征,將所述距離特征和視覺特征進(jìn)行融合,獲得融合后的圖像特征,再利用已有的圖像視頻集訓(xùn)練獲得所述融合特征分類器,對所述融合后的圖像特征,利用所述融合特征分類器進(jìn)行預(yù)測,得到圖像視頻的場景類別。
【文檔編號】G06K9/62GK106096542SQ201610404156
【公開日】2016年11月9日
【申請日】2016年6月8日
【發(fā)明人】鄭瑩斌, 汪宏, 葉浩
【申請人】中國科學(xué)院上海高等研究院, 上海市信息技術(shù)研究中心