本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,尤其是一種目標(biāo)跟蹤方法及移動設(shè)備。
背景技術(shù):
利用手機(jī)等移動設(shè)備進(jìn)行視頻拍攝時,拍攝者往往希望拍攝目標(biāo)能夠一直保持清晰。為此,需要保證移動設(shè)備的攝像頭焦點(diǎn)在拍攝過程中始終對準(zhǔn)主體目標(biāo)?,F(xiàn)實(shí)中,由于目標(biāo)無規(guī)律運(yùn)動和不同物體之間的遮擋關(guān)系,對目標(biāo)位置的判斷非常困難,導(dǎo)致在很多情況下,拍攝的主體目標(biāo)因失焦而變得模糊。
在電影拍攝中,焦點(diǎn)的調(diào)節(jié)是由有經(jīng)驗(yàn)的攝影師手動完成的,這種手動調(diào)節(jié)方法顯然不適合移動設(shè)備上操作簡單的需求。一些現(xiàn)有移動設(shè)備采用人臉檢測的方法,能夠識別視頻中的人臉并將焦點(diǎn)定位到相應(yīng)位置。然而,該方法應(yīng)用領(lǐng)域非常有限,僅僅對于人臉等特定物體有效果,且時間域上連貫性不足,焦點(diǎn)的變化不夠平滑,會存在抖動現(xiàn)象;另一方面,當(dāng)視頻中存在多個相同種類物體時,難以確定哪一個才是用戶感興趣的目標(biāo)。
跟蹤算法為自動對焦提供了一種可行方案。但現(xiàn)有的跟蹤方法在準(zhǔn)確性和實(shí)時性上都還有待提高。例如,基于相關(guān)濾波器的跟蹤算法在目標(biāo)發(fā)生遮擋時容易跟丟目標(biāo),基于重檢測的算法在目標(biāo)發(fā)生形變時跟蹤性能欠佳,基于空間約束項(xiàng)或者深度學(xué)習(xí)的方法在效率和可移植性上難以滿足需求。
技術(shù)實(shí)現(xiàn)要素:
為此,本發(fā)明提供了目標(biāo)跟蹤方案,以力圖解決或者至少緩解上面存在的至少一個問題。
根據(jù)本發(fā)明的一個方面,提供了一種目標(biāo)跟蹤方法,該方法在具備拍照功能的移動設(shè)備中執(zhí)行,包括步驟:根據(jù)用戶輸入確定初始幀內(nèi)的目標(biāo)位置,其中目標(biāo)位置表示為一圍繞目標(biāo)中心的目標(biāo)框;基于初始幀內(nèi)的目標(biāo)位置訓(xùn)練生成跟蹤器和檢測器,其中跟蹤器適于對拍攝視頻中的目標(biāo)進(jìn)行跟蹤,檢測器適于對拍攝視頻中的目標(biāo)進(jìn)行檢測;對拍攝視頻中后續(xù)的每一圖像幀:利用跟蹤器跟蹤得到該圖像幀的目標(biāo)位置,并輸出跟蹤響應(yīng)值;判斷跟蹤響應(yīng)值是否大于或等于閾值,若是則繼續(xù)下一圖像幀的目標(biāo)跟蹤;若否則啟動檢測器,利用檢測器輸出對應(yīng)圖像幀的目標(biāo)位置;以及保持檢測器持續(xù)運(yùn)行預(yù)定幀數(shù)后,切換至跟蹤器繼續(xù)進(jìn)行目標(biāo)跟蹤。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,根據(jù)用戶輸入確定初始幀內(nèi)的目標(biāo)位置的步驟包括:基于用戶輸入的感興趣區(qū)域,利用rpn網(wǎng)絡(luò)模型輸出當(dāng)前圖像幀的多個候選目標(biāo)框;通過fastr-cnn網(wǎng)絡(luò)模型進(jìn)行識別和位置回歸,輸出每個候選目標(biāo)框的置信度;以及經(jīng)過非極大值抑制后,選取置信度最高的候選目標(biāo)框作為表征初始幀內(nèi)目標(biāo)位置的目標(biāo)框。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,基于初始圖像幀的目標(biāo)位置訓(xùn)練生成跟蹤器的步驟包括:使用初始圖像幀的目標(biāo)框周圍區(qū)域的循環(huán)矩陣采集樣本;以及采用最小二乘的優(yōu)化方法輸出跟蹤器的初始跟蹤模板。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,基于初始圖像幀的目標(biāo)位置訓(xùn)練生成檢測器的步驟包括:根據(jù)初始圖像幀的目標(biāo)框,按照預(yù)定規(guī)格的滑動窗口輸出多個采樣框,生成樣本隊(duì)列。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,預(yù)定規(guī)格的滑動窗口為:滑動窗口的初始尺度是原始圖像的10%,搜索步長尺度是相鄰尺度的第一預(yù)定倍數(shù)或第二預(yù)定倍數(shù)、且取值區(qū)間是[初始尺度的0.1倍,初始尺度的10倍]。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,利用跟蹤器跟蹤得到其目標(biāo)位置,并輸出跟蹤響應(yīng)值的步驟包括:通過上一圖像幀的目標(biāo)位置、利用跟蹤器生成跟蹤模板;根據(jù)上一圖像幀的目標(biāo)位置生成該圖像幀的搜索區(qū)域;將跟蹤模板與搜索區(qū)域內(nèi)每個像素的鄰域進(jìn)行卷積運(yùn)算,得到每個像素的響應(yīng)值;選取響應(yīng)值最大的像素作為該圖像幀的目標(biāo)中心,并輸出最大響應(yīng)值作為跟蹤響應(yīng)值;以及通過該目標(biāo)中心和上一圖像幀的目標(biāo)框的尺寸確定該圖像幀的目標(biāo)位置。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,根據(jù)上一圖像幀的目標(biāo)位置生成該圖像幀的搜索區(qū)域的步驟包括:以上一圖像幀的目標(biāo)框的中心為搜索中心,以其目標(biāo)框各尺寸的兩倍為搜索范圍,作為該圖像幀的搜索區(qū)域。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,根據(jù)上一圖像幀的目標(biāo)位置生成該圖像幀的搜索區(qū)域的步驟還包括:根據(jù)預(yù)定縮放因子對該圖像幀進(jìn)行縮放處理,得到多個縮放后的圖像幀;以及以上一圖像幀的目標(biāo)框的中心為搜索中心,以其目標(biāo)框各尺寸的兩倍為搜索范圍,作為多個縮放后圖像幀的搜索區(qū)域。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,將跟蹤模板與搜索區(qū)域內(nèi)每個像素的鄰域進(jìn)行卷積運(yùn)算的步驟包括:使用跟蹤模板與多個縮放后圖像幀的搜索區(qū)域內(nèi)每個像素的鄰域進(jìn)行卷積運(yùn)算,得到不同縮放因子下的響應(yīng)值。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,通過該目標(biāo)中心和上一圖像幀的目標(biāo)框的尺寸確定該圖像幀的目標(biāo)位置的步驟還包括:以響應(yīng)值最大的像素所屬圖像幀的縮放因子對上一圖像幀的目標(biāo)框進(jìn)行縮放處理,作為該圖像幀的目標(biāo)框尺寸;以及根據(jù)算出的目標(biāo)中心和該圖像幀的目標(biāo)框尺寸確定該圖像幀的目標(biāo)位置。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,利用檢測器輸出對應(yīng)圖像幀的目標(biāo)位置的步驟包括:根據(jù)樣本隊(duì)列中的多個采樣框生成該圖像幀內(nèi)目標(biāo)的多個候選樣本;通過三級級聯(lián)分類對多個候選樣本進(jìn)行過濾,輸出該圖像幀的目標(biāo)位置。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,還包括更新跟蹤器的步驟:在得到每一圖像幀的目標(biāo)框后,根據(jù)該幀內(nèi)容計(jì)算得到該圖像幀的跟蹤模板;以及對該圖像幀的跟蹤模板與上一圖像幀的跟蹤模板進(jìn)行加權(quán)運(yùn)算,得到更新后的跟蹤模板。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,該圖像幀和上一圖像幀的加權(quán)系數(shù)分別為0.015和0.985。
可選地,在根據(jù)本發(fā)明的目標(biāo)跟蹤方法中,還包括更新檢測器的步驟:計(jì)算由檢測器生成的多個候選樣本的iou指標(biāo);以及根據(jù)iou指標(biāo)對樣本隊(duì)列進(jìn)行篩選。
根據(jù)本發(fā)明的又一方面,提供了一種移動設(shè)備,包括:相機(jī)子系統(tǒng),適于拍攝視頻圖像;一個或多個處理器;存儲器;一個或多個程序,其中一個或多個程序存儲在存儲器中并被配置為由所述一個或多個處理器執(zhí)行,所述一個或多個程序包括用于執(zhí)行如上所述方法中的任一方法的指令。
根據(jù)本發(fā)明的又一方面,提供了一種存儲一個或多個程序的計(jì)算機(jī)可讀存儲介質(zhì),所述一個或多個程序包括指令,所述指令當(dāng)計(jì)算設(shè)備執(zhí)行時,使得計(jì)算設(shè)備執(zhí)行如上所述的方法中的任一方法。
根據(jù)本發(fā)明的目標(biāo)跟蹤方案,相比于現(xiàn)有的自動對焦方法,提供了用戶友好的交互方式,用戶只需在觸摸屏上簡單點(diǎn)觸或勾畫,即可自動判斷用戶感興趣區(qū)域,并生成相對準(zhǔn)確精細(xì)的目標(biāo)位置,從而保證后續(xù)跟蹤的準(zhǔn)確。
更進(jìn)一步地,考慮到目標(biāo)跟蹤的實(shí)時性和準(zhǔn)確性等因素,對后續(xù)拍攝視頻中的每一圖像幀,采用跟蹤器對目標(biāo)進(jìn)行跟蹤,而當(dāng)目標(biāo)跟蹤發(fā)生錯誤、或者是跟蹤的目標(biāo)消失時,啟動備用的檢測器對目標(biāo)進(jìn)行檢測,從而保證了長視頻跟蹤的魯棒性。
附圖說明
為了實(shí)現(xiàn)上述以及相關(guān)目的,本文結(jié)合下面的描述和附圖來描述某些說明性方面,這些方面指示了可以實(shí)踐本文所公開的原理的各種方式,并且所有方面及其等效方面旨在落入所要求保護(hù)的主題的范圍內(nèi)。通過結(jié)合附圖閱讀下面的詳細(xì)描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。遍及本公開,相同的附圖標(biāo)記通常指代相同的部件或元素。
圖1示出了根據(jù)本發(fā)明一個實(shí)施例的移動設(shè)備100的構(gòu)造示意圖;
圖2示出了根據(jù)本發(fā)明一個實(shí)施例的目標(biāo)跟蹤方法200的流程圖;以及
圖3示出了根據(jù)本發(fā)明一個實(shí)施例的利用跟蹤器跟蹤得到圖像幀目標(biāo)位置的流程圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
圖1示出了根據(jù)本發(fā)明一個實(shí)施例的移動設(shè)備100的構(gòu)造示意圖。參照圖1,移動設(shè)備100包括:存儲器接口102、一個或多個數(shù)據(jù)處理器、圖像處理器和/或中央處理單元104,以及外圍接口106。存儲器接口102、一個或多個處理器104和/或外圍接口106既可以是分立元件,也可以集成在一個或多個集成電路中。在移動設(shè)備100中,各種元件可以通過一條或多條通信總線或信號線來耦合。傳感器、設(shè)備和子系統(tǒng)可以耦合到外圍接口106,以便幫助實(shí)現(xiàn)多種功能。例如,運(yùn)動傳感器110、光傳感器112和距離傳感器114可以耦合到外圍接口106,以方便定向、照明和測距等功能。其他傳感器116同樣可以與外圍接口106相連,例如定位系統(tǒng)(例如gps接收機(jī))、角速度傳感器、溫度傳感器、生物測定傳感器或其他感測設(shè)備,由此可以幫助實(shí)施相關(guān)的功能。
相機(jī)子系統(tǒng)120和光學(xué)傳感器122可以用于方便諸如記錄照片和視頻剪輯的相機(jī)功能的實(shí)現(xiàn),其中相機(jī)子系統(tǒng)和光學(xué)傳感器例如可以是電荷耦合器件(ccd)或互補(bǔ)金屬氧化物半導(dǎo)體(cmos)光學(xué)傳感器。
可以通過一個或多個無線通信子系統(tǒng)124來幫助實(shí)現(xiàn)通信功能,其中無線通信子系統(tǒng)可以包括射頻接收機(jī)和發(fā)射機(jī)和/或光(例如紅外)接收機(jī)和發(fā)射機(jī)。無線通信子系統(tǒng)124的特定設(shè)計(jì)和實(shí)施方式可以取決于移動設(shè)備100所支持的一個或多個通信網(wǎng)絡(luò)。例如,移動設(shè)備100可以包括被設(shè)計(jì)成支持gsm網(wǎng)絡(luò)、gprs網(wǎng)絡(luò)、edge網(wǎng)絡(luò)、wi-fi或wimax網(wǎng)絡(luò)以及blueboothtm網(wǎng)絡(luò)的通信子系統(tǒng)124。音頻子系統(tǒng)126可以與揚(yáng)聲器128以及麥克風(fēng)130相耦合,以便幫助實(shí)施啟用語音的功能,例如語音識別、語音復(fù)制、數(shù)字記錄和電話功能。
i/o子系統(tǒng)140可以包括觸摸屏控制器142和/或一個或多個其他輸入控制器144。觸摸屏控制器142可以耦合到觸摸屏146。舉例來說,該觸摸屏146和觸摸屏控制器142可以使用多種觸摸感測技術(shù)中的任何一種來檢測與之進(jìn)行的接觸和移動或是暫停,其中感測技術(shù)包括但不局限于電容性、電阻性、紅外和表面聲波技術(shù)。一個或多個其他輸入控制器144可以耦合到其他輸入/控制設(shè)備148,例如一個或多個按鈕、搖桿開關(guān)、拇指旋輪、紅外端口、usb端口、和/或指示筆之類的指點(diǎn)設(shè)備。一個或多個按鈕(未顯示)可以包括用于控制揚(yáng)聲器128和/或麥克風(fēng)130音量的向上/向下按鈕。
存儲器接口102可以與存儲器150相耦合。該存儲器150可以包括高速隨機(jī)存取存儲器和/或非易失性存儲器,例如一個或多個磁盤存儲設(shè)備,一個或多個光學(xué)存儲設(shè)備,和/或閃存存儲器(例如nand,nor)。存儲器150可以存儲操作系統(tǒng)152,例如android、ios或是windowsphone之類的操作系統(tǒng)。該操作系統(tǒng)152可以包括用于處理基本系統(tǒng)服務(wù)以及執(zhí)行依賴于硬件的任務(wù)的指令。存儲器150還可以存儲應(yīng)用154。這些應(yīng)用在操作時,會從存儲器150加載到處理器104上,并在已經(jīng)由處理器104運(yùn)行的操作系統(tǒng)之上運(yùn)行,并利用操作系統(tǒng)以及底層硬件提供的接口實(shí)現(xiàn)各種用戶期望的功能,如即時通信、網(wǎng)頁瀏覽、圖片管理等。應(yīng)用可以是獨(dú)立于操作系統(tǒng)提供的,也可以是操作系統(tǒng)自帶的。在一些實(shí)現(xiàn)方式中,應(yīng)用154可以是一個或多個程序。
根據(jù)本發(fā)明的實(shí)現(xiàn)方式,通過在移動設(shè)備100的存儲器150中存儲相應(yīng)的一個或多個程序來實(shí)現(xiàn)在相機(jī)子系統(tǒng)120采集視頻圖像時的目標(biāo)跟蹤功能,即,下文所述的方法200。需要說明的是,本發(fā)明所指的移動設(shè)備100可以是具有上述構(gòu)造的手機(jī)、平板、相機(jī)等。
圖2示出了根據(jù)本發(fā)明一個實(shí)施例的目標(biāo)跟蹤方法200的流程圖。如圖2所示,該方法200始于步驟s210,當(dāng)開啟相機(jī)子系統(tǒng)120進(jìn)行視頻拍攝時,用戶可通過例如在觸摸屏上點(diǎn)擊/勾畫的方式輸入感興趣區(qū)域或者是感興趣的目標(biāo),通過對用戶的輸入進(jìn)行優(yōu)化,得到初始(圖像)幀內(nèi)的目標(biāo)位置,其中,目標(biāo)位置表示為一圍繞目標(biāo)中心的目標(biāo)框。
根據(jù)一個實(shí)施例,將用戶輸入的感興趣區(qū)域輸入到線下訓(xùn)練的深度學(xué)習(xí)模型,輸出目標(biāo)位置。具體地,先利用rpn網(wǎng)絡(luò)(regionproposalnetwork)模型輸出當(dāng)前圖像幀的多個候選目標(biāo)框;再通過fastr-cnn網(wǎng)絡(luò)模型進(jìn)行識別和位置回歸,輸出每個候選目標(biāo)框的置信度;最后,經(jīng)過非極大值抑制后,選取置信度最高的候選目標(biāo)框作為表征初始圖像幀目標(biāo)位置的目標(biāo)框。關(guān)于fastr-cnn網(wǎng)絡(luò)模型的介紹可參考如下論文描述:ren,shaoqing,etal."fasterr-cnn:towardsreal-timeobjectdetectionwithregionproposalnetworks."advancesinneuralinformationprocessingsystems.2015,此處不再贅述。
隨后在步驟s220中,基于初始圖像幀的目標(biāo)位置訓(xùn)練生成跟蹤器和檢測器。
其中,跟蹤器適于對拍攝視頻中的目標(biāo)進(jìn)行跟蹤??蛇x地,本實(shí)施例采用判別式的跟蹤方法來區(qū)分目標(biāo)和周圍環(huán)境。在跟蹤中,要訓(xùn)練好一個分類器需要大量樣本,這就意味著大量的時間消耗。根據(jù)本發(fā)明的一個實(shí)施例,對初始圖像幀的目標(biāo)框及周圍區(qū)域采用卷積矩陣(circulantmatrix)來生成訓(xùn)練樣本,即,基于循環(huán)平移的圖像樣本,這樣做的好處是對樣本集合的判定可以采用更高效的頻域方法完成;而后,采用最小二乘的優(yōu)化方法輸出跟蹤器的初始跟蹤模板。
檢測器適于對拍攝視頻中的目標(biāo)進(jìn)行檢測。根據(jù)本發(fā)明的實(shí)施例,檢測器的訓(xùn)練基于滑動窗口的采樣方法,根據(jù)初始圖像幀的目標(biāo)框,按照預(yù)定規(guī)格的滑動窗口輸出多個采樣框,生成樣本隊(duì)列??蛇x地,滑動窗口的初始尺度取原始圖像尺寸的10%,搜索步長尺度是相鄰尺度的第一預(yù)定倍數(shù)(如,1.2倍)或第二預(yù)定倍數(shù)(如,0.8倍)、且取值區(qū)間是[初始尺度的0.1倍,初始尺度的10倍],特別地,剔除面積小于20像素的窗口。根據(jù)采樣框與目標(biāo)框重疊區(qū)域的大小,將輸出的多個采樣框分為正負(fù)兩類,其中,重疊比例大于50%的采樣框存儲在正樣本隊(duì)列內(nèi),重疊比例小于20%的采樣框存儲在負(fù)樣本隊(duì)列內(nèi)。
從上述描述可以看出,檢測器的計(jì)算量大于跟蹤器。考慮到目標(biāo)跟蹤的實(shí)時性和準(zhǔn)確性等因素,對后續(xù)拍攝視頻中的每一圖像幀,采用跟蹤器對目標(biāo)進(jìn)行跟蹤,而當(dāng)目標(biāo)跟蹤發(fā)生錯誤、或者是跟蹤的目標(biāo)消失時,則啟動檢測器對目標(biāo)進(jìn)行檢測。
具體過程描述如下。
在步驟s230中,利用跟蹤器跟蹤得到該圖像幀(例如,第2幀圖像)的目標(biāo)位置,并輸出跟蹤響應(yīng)值。
如圖3,示出了根據(jù)本發(fā)明一個實(shí)施例的,利用跟蹤器跟蹤得到圖像幀目標(biāo)位置的流程圖。
在步驟s2302中,通過上一圖像幀的目標(biāo)位置、利用跟蹤器生成跟蹤模板。也就是說,在跟蹤得到每一圖像幀的目標(biāo)后,利用跟蹤器生成該圖像幀的跟蹤模板,以用于下一圖像幀的跟蹤。
隨后在步驟s2304中,根據(jù)上一圖像幀的目標(biāo)位置生成該圖像幀的搜索區(qū)域??蛇x地,以上一圖像幀的目標(biāo)框的中心為搜索中心,以其目標(biāo)框各尺寸(即,寬、高尺寸)的兩倍為搜索范圍,作為該圖像幀的搜索區(qū)域。例如,上一圖像幀的目標(biāo)位置表示為以像素(200,500)為目標(biāo)中心、尺寸為100×100的目標(biāo)框,那么根據(jù)該目標(biāo)位置生成的該圖像幀的搜索區(qū)域就是以像素(200,500)為中心、尺寸為200×200搜索框。
隨后在步驟s2306中,將跟蹤模板與搜索區(qū)域內(nèi)每個像素的鄰域進(jìn)行卷積運(yùn)算(等價(jià)于將跟蹤模板和搜索區(qū)域轉(zhuǎn)換到頻域上進(jìn)行點(diǎn)乘),得到每個像素的響應(yīng)值,響應(yīng)值表示了每個像素點(diǎn)為最終目標(biāo)中心點(diǎn)的概率。
隨后在步驟s2308中,選取響應(yīng)值最大的像素作為該圖像幀的目標(biāo)中心,并輸出最大響應(yīng)值作為跟蹤響應(yīng)值。
隨后在步驟s2310中,通過該目標(biāo)中心和上一圖像幀的目標(biāo)框的尺寸確定該圖像幀的目標(biāo)位置。也就是說,該圖像幀的目標(biāo)位置表示為:以跟蹤響應(yīng)值對應(yīng)像素點(diǎn)為目標(biāo)中心、以上一圖像幀的目標(biāo)框尺寸為尺寸的目標(biāo)框。
在具體實(shí)施過程中,由于拍攝焦距等的變化、或是目標(biāo)物體的運(yùn)動,可能會導(dǎo)致目標(biāo)物體發(fā)生尺度變化,因此,根據(jù)本發(fā)明的實(shí)施方式,采用若干不同尺度分別進(jìn)行上述步驟s2302至s2310。
也就是說,在執(zhí)行步驟s2304之前,根據(jù)預(yù)定縮放因子對本圖像幀進(jìn)行縮放處理,得到多個縮放后的圖像幀,然后再按照步驟s2304,以上一圖像幀的目標(biāo)框的中心為搜索中心,以其目標(biāo)框各尺寸的兩倍為搜索范圍,作為多個縮放后圖像幀的搜索區(qū)域。根據(jù)本發(fā)明的實(shí)施例,預(yù)定縮放因子包括以下數(shù)組中的一個或多個:{0.82,0.88,0.94,1.06,1.12,1.2}。
在步驟s2306中,使用跟蹤模板與多個縮放后圖像幀的搜索區(qū)域內(nèi)每個像素的鄰域進(jìn)行卷積運(yùn)算,得到不同縮放因子下的響應(yīng)值。
在后續(xù)步驟s2308和s2310中,以響應(yīng)值最大的像素所屬圖像幀的縮放因子對上一圖像幀的目標(biāo)框進(jìn)行縮放處理,作為該圖像幀的目標(biāo)框尺寸;根據(jù)算出的目標(biāo)中心和該圖像幀的目標(biāo)框尺寸確定該圖像幀的目標(biāo)位置。
隨后在步驟s240中,判斷跟蹤響應(yīng)值是否大于或等于閾值,可選地,閾值設(shè)為0.27。若跟蹤響應(yīng)值≥0.27,則返回步驟s230繼續(xù)下一圖像幀的目標(biāo)跟蹤。
若跟蹤響應(yīng)值小于閾值,則認(rèn)為跟蹤結(jié)果不準(zhǔn)確,執(zhí)行步驟s250,啟動檢測器,利用檢測器輸出對應(yīng)圖像幀的目標(biāo)位置。根據(jù)本發(fā)明的實(shí)施例,當(dāng)跟蹤的目標(biāo)位置過于接近圖像邊緣時,認(rèn)為目標(biāo)可能消失,此時也啟動檢測器,執(zhí)行步驟s250。
具體地,按照步驟s220訓(xùn)練生成的檢測器,根據(jù)樣本隊(duì)列中的多個采樣框生成該圖像幀內(nèi)目標(biāo)的多個候選樣本,由于候選樣本數(shù)量較大,直接采用最近鄰匹配效率較低,因此采用三級級聯(lián)分類的方法,對多個候選樣本進(jìn)行過濾,輸出該圖像幀的目標(biāo)位置。根據(jù)一種實(shí)施方式,第一級通過方差約束過濾候選樣本,第二級通過隨機(jī)蕨分類進(jìn)一步過濾候選樣本,最終第三級進(jìn)行最近鄰匹配,得分最高的候選樣本視為檢測器的輸出。
在很多情況下,目標(biāo)消失或被遮擋之后不會立即重新出現(xiàn),短暫運(yùn)行的檢測無法正確發(fā)現(xiàn)目標(biāo)。因此在步驟s260中,保持檢測器持續(xù)運(yùn)行預(yù)定幀數(shù)后,切換至跟蹤器,繼續(xù)利用跟蹤器進(jìn)行目標(biāo)跟蹤,即,返回步驟s230繼續(xù)執(zhí)行目標(biāo)跟蹤流程??蛇x地,預(yù)定幀數(shù)設(shè)為50幀。
根據(jù)本發(fā)明的實(shí)施方式,對每一圖像幀內(nèi)目標(biāo)位置做出判斷以后,系統(tǒng)根據(jù)該幀內(nèi)容對跟蹤器和檢測器進(jìn)行更新。
具體地,更新跟蹤器的方法為:在得到每一圖像幀的目標(biāo)框后,根據(jù)該幀內(nèi)容計(jì)算得到該圖像幀的跟蹤模板;再對該圖像幀的跟蹤模板與上一圖像幀的跟蹤模板進(jìn)行加權(quán)運(yùn)算(即,線性疊加),得到更新后的跟蹤模板??蛇x地,該圖像幀和上一圖像幀的加權(quán)系數(shù)分別為0.015和0.985。
同樣,更新檢測器的方法為:計(jì)算由檢測器生成的多個候選樣本的iou指標(biāo),根據(jù)iou指標(biāo)對樣本隊(duì)列進(jìn)行篩選。換句話說,根據(jù)iou指標(biāo)對新的一幀內(nèi)被檢測器判斷為目標(biāo)概率較大的樣本進(jìn)行分類,若iou指標(biāo)大于0.65,則認(rèn)為該樣本是與跟蹤結(jié)果重合度高的樣本,將其歸入正樣本隊(duì)列,若iou指標(biāo)小于0.2,則認(rèn)為該樣本是與跟蹤結(jié)果重合度低的樣本,將其加入負(fù)樣本隊(duì)列。為避免樣本隊(duì)列過長,隨機(jī)遺忘部分樣本,使總體樣本數(shù)量維持穩(wěn)定。
綜上,根據(jù)本發(fā)明的目標(biāo)跟蹤方案,相比于現(xiàn)有的自動對焦方法,首先是提供了用戶友好的交互方式,用戶只需在觸摸屏上簡單點(diǎn)觸或勾畫,即可自動判斷用戶感興趣區(qū)域,并生成相對準(zhǔn)確精細(xì)的目標(biāo)位置,從而保證后續(xù)跟蹤的準(zhǔn)確;其次,本方案的跟蹤器采用循環(huán)平移的圖像樣本,對目標(biāo)形變、運(yùn)動模糊、背景混淆等情況有更好地區(qū)分能力,且跟蹤算法具有實(shí)時速度,能夠快速準(zhǔn)確地判斷圖像幀內(nèi)目標(biāo)物體的位置和相應(yīng)尺度;最后,當(dāng)目標(biāo)出現(xiàn)暫時消失或者被遮擋的情況時,本方案提供備用的檢測器,著眼于對目標(biāo)外觀的長期記憶,突破空間上的約束,能夠在目標(biāo)重新出現(xiàn)后再次判斷其位置,從而保證了長視頻跟蹤的魯棒性。
這里描述的各種技術(shù)可結(jié)合硬件或軟件,或者它們的組合一起實(shí)現(xiàn)。從而,本發(fā)明的方法和設(shè)備,或者本發(fā)明的方法和設(shè)備的某些方面或部分可采取嵌入有形媒介,例如軟盤、cd-rom、硬盤驅(qū)動器或者其它任意機(jī)器可讀的存儲介質(zhì)中的程序代碼(即指令)的形式,其中當(dāng)程序被載入諸如計(jì)算機(jī)之類的機(jī)器,并被所述機(jī)器執(zhí)行時,所述機(jī)器變成實(shí)踐本發(fā)明的設(shè)備。
在程序代碼在可編程計(jì)算機(jī)上執(zhí)行的情況下,移動設(shè)備一般包括處理器、處理器可讀的存儲介質(zhì)(包括易失性和非易失性存儲器和/或存儲元件),至少一個輸入裝置,和至少一個輸出裝置(如圖1所示)。其中,存儲器被配置用于存儲程序代碼;處理器被配置用于根據(jù)該存儲器中存儲的所述程序代碼中的指令,執(zhí)行本發(fā)明的目標(biāo)跟蹤方法。
以示例而非限制的方式,計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲介質(zhì)和通信介質(zhì)。計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲介質(zhì)存儲諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息。通信介質(zhì)一般以諸如載波或其它傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號來體現(xiàn)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并且包括任何信息傳遞介質(zhì)。以上的任一種的組合也包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。
應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員應(yīng)當(dāng)理解在本文所公開的示例中的設(shè)備的模塊或單元或組件可以布置在如該實(shí)施例中所描述的設(shè)備中,或者可替換地可以定位在與該示例中的設(shè)備不同的一個或多個設(shè)備中。前述示例中的模塊可以組合為一個模塊或者此外可以分成多個子模塊。
本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個或多個設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
本發(fā)明一并公開了:
a9、如a8所述的方法,其中,所述將跟蹤模板與搜索區(qū)域內(nèi)每個像素的鄰域進(jìn)行卷積運(yùn)算的步驟包括:使用所述跟蹤模板與所述多個縮放后圖像幀的搜索區(qū)域內(nèi)每個像素的鄰域進(jìn)行卷積運(yùn)算,得到不同縮放因子下的響應(yīng)值。
a10、如a9所述的方法,其中,通過該目標(biāo)中心和上一圖像幀的目標(biāo)框的尺寸確定該圖像幀的目標(biāo)位置的步驟還包括:以響應(yīng)值最大的像素所屬圖像幀的縮放因子對上一圖像幀的目標(biāo)框進(jìn)行縮放處理,作為該圖像幀的目標(biāo)框尺寸;以及根據(jù)算出的目標(biāo)中心和該圖像幀的目標(biāo)框尺寸確定該圖像幀的目標(biāo)位置。
a11、如a4-10中任一項(xiàng)所述的方法,其中,利用檢測器輸出對應(yīng)圖像幀的目標(biāo)位置的步驟包括:根據(jù)樣本隊(duì)列中的多個采樣框生成該圖像幀內(nèi)目標(biāo)的多個候選樣本;通過三級級聯(lián)分類對所述多個候選樣本進(jìn)行過濾,輸出該圖像幀的目標(biāo)位置。
a12、如a1-11中任一項(xiàng)所述的方法,還包括更新跟蹤器的步驟:在得到每一圖像幀的目標(biāo)框后,根據(jù)該幀內(nèi)容計(jì)算得到該圖像幀的跟蹤模板;以及對該圖像幀的跟蹤模板與上一圖像幀的跟蹤模板進(jìn)行加權(quán)運(yùn)算,得到更新后的跟蹤模板。
a13、如a12所述的方法,其中,該圖像幀和上一圖像幀的加權(quán)系數(shù)分別為0.015和0.985。
a14、如a1-13中任一項(xiàng)所述的方法,還包括更新檢測器的步驟:計(jì)算由檢測器生成的多個候選樣本的iou指標(biāo);以及根據(jù)所述iou指標(biāo)對所述樣本隊(duì)列進(jìn)行篩選。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
此外,所述實(shí)施例中的一些在此被描述成可以由計(jì)算機(jī)系統(tǒng)的處理器或者由執(zhí)行所述功能的其它裝置實(shí)施的方法或方法元素的組合。因此,具有用于實(shí)施所述方法或方法元素的必要指令的處理器形成用于實(shí)施該方法或方法元素的裝置。此外,裝置實(shí)施例的在此所述的元素是如下裝置的例子:該裝置用于實(shí)施由為了實(shí)施該發(fā)明的目的的元素所執(zhí)行的功能。
如在此所使用的那樣,除非另行規(guī)定,使用序數(shù)詞“第一”、“第二”、“第三”等等來描述普通對象僅僅表示涉及類似對象的不同實(shí)例,并且并不意圖暗示這樣被描述的對象必須具有時間上、空間上、排序方面或者以任意其它方式的給定順序。
盡管根據(jù)有限數(shù)量的實(shí)施例描述了本發(fā)明,但是受益于上面的描述,本技術(shù)領(lǐng)域內(nèi)的技術(shù)人員明白,在由此描述的本發(fā)明的范圍內(nèi),可以設(shè)想其它實(shí)施例。此外,應(yīng)當(dāng)注意,本說明書中使用的語言主要是為了可讀性和教導(dǎo)的目的而選擇的,而不是為了解釋或者限定本發(fā)明的主題而選擇的。因此,在不偏離所附權(quán)利要求書的范圍和精神的情況下,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說許多修改和變更都是顯而易見的。對于本發(fā)明的范圍,對本發(fā)明所做的公開是說明性的,而非限制性的,本發(fā)明的范圍由所附權(quán)利要求書限定。