亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法及裝置的制造方法

文檔序號:10613708閱讀:760來源:國知局
基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法及裝置的制造方法
【專利摘要】本發(fā)明的實(shí)施例提供了基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法和裝置。神經(jīng)網(wǎng)絡(luò)模型包括特征提取神經(jīng)網(wǎng)絡(luò)、第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò),目標(biāo)跟蹤方法包括:S120,將待處理視頻輸入至特征提取神經(jīng)網(wǎng)絡(luò),以提取待處理視頻的特征數(shù)據(jù);S140,將待處理視頻的特征數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡(luò),以獲得待處理視頻中的至少一個(gè)目標(biāo)的邊界框;以及S160,將待處理視頻的特征數(shù)據(jù)和邊界框輸入至第二神經(jīng)網(wǎng)絡(luò),從而獲得邊界框的標(biāo)識符,以跟蹤待處理視頻中的至少一個(gè)目標(biāo),其中標(biāo)識符用于指示至少一個(gè)目標(biāo)。上述目標(biāo)跟蹤方法和裝置能夠針對視頻更好地完成目標(biāo)的檢測和跟蹤,提高了目標(biāo)跟蹤的速度和準(zhǔn)確性。
【專利說明】
基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及圖像處理領(lǐng)域,更具體地涉及一種基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法及裝置。
【背景技術(shù)】
[0002]隨著監(jiān)控?cái)z像頭越來越普及,通過攝像頭對重點(diǎn)場景的安防監(jiān)控的等需求也越來越普及。這類需求中最急切的是對目標(biāo)(例如行人、車輛等)的準(zhǔn)確檢測和跟蹤。檢測和跟蹤視頻場景中的每一個(gè)目標(biāo)是很多應(yīng)用最基本且最重要的環(huán)節(jié)。簡而言之,準(zhǔn)確、高效地定位和跟蹤視頻場景中的每一個(gè)目標(biāo)在諸如監(jiān)控等實(shí)際應(yīng)用中有著非常重要的意義。
[0003]現(xiàn)有的目標(biāo)跟蹤方法通常分為兩個(gè)獨(dú)立的步驟。首先,針對待處理視頻中的每一幀分別做行人檢測。然后,根據(jù)行人檢測的結(jié)果來單獨(dú)做跟蹤。這會(huì)造成重復(fù)計(jì)算從而導(dǎo)致計(jì)算時(shí)間增加,影響運(yùn)算速度,并且還會(huì)導(dǎo)致待處理視頻的目標(biāo)檢測跟蹤結(jié)果不能相互優(yōu)化從而影響檢測跟蹤的準(zhǔn)確性。

【發(fā)明內(nèi)容】

[0004]考慮到上述問題而提出了本發(fā)明。根據(jù)本發(fā)明一方面,提供了一種基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法,其中所述神經(jīng)網(wǎng)絡(luò)模型包括特征提取神經(jīng)網(wǎng)絡(luò)、第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò),所述目標(biāo)跟蹤方法包括:
[0005]S120,將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述待處理視頻的特征數(shù)據(jù);
[0006]S140,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的至少一個(gè)目標(biāo)的邊界框;以及
[0007]S160,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo),其中所述標(biāo)識符用于指示所述至少一個(gè)目標(biāo)。
[0008]示例性地,所述第一神經(jīng)網(wǎng)絡(luò)包括第一子神經(jīng)網(wǎng)絡(luò)和第二子神經(jīng)網(wǎng)絡(luò),所述步驟S140包括:
[0009]S142,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的粗略位置;以及
[0010]S144,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的準(zhǔn)確位置和指示所述邊界框內(nèi)包括所述至少一個(gè)目標(biāo)的概率值。
[0011]示例性地,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò),所述步驟S160包括:
[0012]將所述特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度;
[0013]根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計(jì)算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及
[0014]將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo)。
[0015]示例性地,所述第一神經(jīng)網(wǎng)絡(luò)和/或所述特征提取神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)。
[0016]示例性地,所述目標(biāo)跟蹤方法還包括以下步驟:
[0017]使用訓(xùn)練視頻訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型,其中,在所述訓(xùn)練視頻中,針對訓(xùn)練目標(biāo)標(biāo)注了邊界框和標(biāo)識符,所述標(biāo)識符用于指示所述訓(xùn)練目標(biāo);
[0018]其中,所述使用訓(xùn)練視頻訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型包括:
[0019]S112,將所述訓(xùn)練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述訓(xùn)練視頻的特征數(shù)據(jù);
[0020]S114,將所述訓(xùn)練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框,并且根據(jù)所標(biāo)注的邊界框和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框計(jì)算檢測損失函數(shù)值;
[0021]SI 16,將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,并根據(jù)所標(biāo)注的標(biāo)識符和所述第二神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符計(jì)算跟蹤損失函數(shù)值;以及
[0022]S118,在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預(yù)設(shè)條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)以及所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)并且轉(zhuǎn)所述步驟SI 12,否則,停止對所述神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練并獲得訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)模型以用于跟蹤目標(biāo)。
[0023]示例性地,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值,所述步驟S118包括:
[0024]根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0025]示例性地,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值,所述步驟S118包括:
[0026]根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0027]示例性地,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò),所述步驟SI 16包括:
[0028]將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練視頻的不同幀中的邊界框之間的外觀相似度;
[0029]根據(jù)所述外觀相似度和所述訓(xùn)練視頻中的不同幀中的邊界框之間的距離計(jì)算所述訓(xùn)練視頻的不同幀中的邊界框之間的距離相似度;
[0030]將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符;以及[0031 ]根據(jù)所標(biāo)注的標(biāo)識符和所獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,計(jì)算所述跟蹤損失函數(shù)值。
[0032]示例性地,所述目標(biāo)跟蹤方法還包括:
[0033]S180,根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符,分析所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。
[0034]示例性地,所述步驟S180包括:
[0035]將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符輸入至第一卷積神經(jīng)網(wǎng)絡(luò),經(jīng)由全連接層,輸出所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。
[0036]根據(jù)本發(fā)明另一方面,還提供了一種基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤裝置,其中所述神經(jīng)網(wǎng)絡(luò)模型包括特征提取神經(jīng)網(wǎng)絡(luò)、第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò),所述目標(biāo)跟蹤裝置包括:
[0037]第一特征提取模塊,用于將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述待處理視頻的特征數(shù)據(jù);
[0038]檢測模塊,用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的至少一個(gè)目標(biāo)的邊界框;以及
[0039]跟蹤模塊,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo),其中所述標(biāo)識符用于指示所述至少一個(gè)目標(biāo)。
[0040]示例性地,所述第一神經(jīng)網(wǎng)絡(luò)包括第一子神經(jīng)網(wǎng)絡(luò)和第二子神經(jīng)網(wǎng)絡(luò),所述檢測豐吳塊包括:
[0041]邊界框初定單元,用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的粗略位置;以及
[0042]邊界框確定單元,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的準(zhǔn)確位置和指示所述邊界框內(nèi)包括所述至少一個(gè)目標(biāo)的概率值。
[0043]示例性地,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò),所述跟蹤豐吳塊包括:
[0044]外觀相似度計(jì)算單元,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度;
[0045]距離相似度計(jì)算單元,用于根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計(jì)算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及
[0046]標(biāo)識符確定單元,用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo)。
[0047]示例性地,所述第一神經(jīng)網(wǎng)絡(luò)和/或所述特征提取神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)。
[0048]示例性地,所述目標(biāo)跟蹤裝置還包括:訓(xùn)練模塊,用于使用訓(xùn)練視頻訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型,其中,在所述訓(xùn)練視頻中,針對訓(xùn)練目標(biāo)標(biāo)注了邊界框和標(biāo)識符,所述標(biāo)識符用于指示所述訓(xùn)練目標(biāo),所述訓(xùn)練模塊包括:
[0049]訓(xùn)練特征提取模塊,用于將所述訓(xùn)練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述訓(xùn)練視頻的特征數(shù)據(jù);
[0050]檢測訓(xùn)練模塊,用于將所述訓(xùn)練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框,并且根據(jù)所標(biāo)注的邊界框和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框計(jì)算檢測損失函數(shù)值;
[0051 ]跟蹤訓(xùn)練模塊,用于將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,并根據(jù)所標(biāo)注的標(biāo)識符和所述第二神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符計(jì)算跟蹤損失函數(shù)值;以及
[0052]調(diào)整模塊,用于在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預(yù)設(shè)條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)以及所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù);否則,停止對所述神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練并獲得訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)模型以用于跟蹤目標(biāo)。
[0053]示例性地,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值,所述調(diào)整模塊用于根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0054]示例性地,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值,所述調(diào)整模塊用于根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0055]示例性地,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò),所述跟蹤訓(xùn)練t吳塊包括:
[0056]外觀相似度訓(xùn)練計(jì)算單元,用于將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練視頻的不同幀中的邊界框之間的外觀相似度;
[0057]距離相似度訓(xùn)練計(jì)算單元,用于根據(jù)所述外觀相似度和所述訓(xùn)練視頻中的不同幀中的邊界框之間的距離計(jì)算所述訓(xùn)練視頻的不同幀中的邊界框之間的距離相似度;
[0058]標(biāo)識符訓(xùn)練獲得單元,用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符;以及
[0059]跟蹤損失函數(shù)值計(jì)算單元,用于根據(jù)所標(biāo)注的標(biāo)識符和所獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,計(jì)算所述跟蹤損失函數(shù)值。
[0060]示例性地,所述目標(biāo)跟蹤裝置還包括:
[0061]分析模塊,用于根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符,分析所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。
[0062]示例性地,所述分析模塊用于將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符輸入至第一卷積神經(jīng)網(wǎng)絡(luò),經(jīng)由全連接層,輸出所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。
[0063]在上述基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法和裝置中,目標(biāo)檢測和目標(biāo)跟蹤共用視頻的相同特征數(shù)據(jù),并且這兩個(gè)過程互相影響、促進(jìn)和優(yōu)化,從而能夠顯著提高目標(biāo)跟蹤的速度和準(zhǔn)確性。
【附圖說明】
[0064]通過結(jié)合附圖對本發(fā)明實(shí)施例進(jìn)行更詳細(xì)的描述,本發(fā)明的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。附圖用來提供對本發(fā)明實(shí)施例的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明實(shí)施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中,相同的參考標(biāo)號通常代表相同或相似部件或步驟。
[0065]圖1示出了用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法和裝置的示例電子設(shè)備的示意性框圖;
[0066]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法的示意性流程圖;
[0067]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)檢測的示意性流程圖;
[0068]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的根據(jù)目標(biāo)檢測結(jié)果進(jìn)行目標(biāo)跟蹤的示意性流程圖;
[0069]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的根據(jù)目標(biāo)檢測結(jié)果進(jìn)行目標(biāo)跟蹤的網(wǎng)絡(luò)流的示意圖;
[0070]圖6示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法的示意性流程圖;
[0071]圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的使用訓(xùn)練視頻訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的示意性流程圖;
[0072]圖8示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的將訓(xùn)練視頻的特征數(shù)據(jù)和訓(xùn)練目標(biāo)的邊界框輸入至第二神經(jīng)網(wǎng)絡(luò)并根據(jù)訓(xùn)練目標(biāo)的所標(biāo)注的標(biāo)識符和獲得的訓(xùn)練目標(biāo)的邊界框的標(biāo)識符計(jì)算跟蹤損失函數(shù)值的示意性流程圖;
[0073]圖9示出了根據(jù)本發(fā)明另一實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法的示意性流程圖;
[0074]圖10示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤裝置的示意性框圖;
[0075]圖11示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的檢測模塊的示意性框圖;
[0076]圖12示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的跟蹤模塊的示意性框圖;
[0077]圖13示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤裝置的示意性框圖;
[0078]圖14示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的訓(xùn)練模塊的示意性框圖;
[0079]圖15示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的跟蹤訓(xùn)練模塊的示意性框圖;以及
[0080]圖16示出了根據(jù)本發(fā)明實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤系統(tǒng)的示意性框圖。
【具體實(shí)施方式】
[0081]為了使得本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更為明顯,下面將參照附圖詳細(xì)描述根據(jù)本發(fā)明的示例實(shí)施例。顯然,所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例,而不是本發(fā)明的全部實(shí)施例,應(yīng)理解,本發(fā)明不受這里描述的示例實(shí)施例的限制。基于本發(fā)明中描述的本發(fā)明實(shí)施例,本領(lǐng)域技術(shù)人員在沒有付出創(chuàng)造性勞動(dòng)的情況下所得到的所有其它實(shí)施例都應(yīng)落入本發(fā)明的保護(hù)范圍之內(nèi)。
[0082]首先,參照圖1來描述用于實(shí)現(xiàn)本發(fā)明實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法和裝置的示例電子設(shè)備的示意性框圖100。
[0083]如圖1所示,電子設(shè)備100包括一個(gè)或多個(gè)處理器102、一個(gè)或多個(gè)存儲(chǔ)裝置104、輸入裝置106和輸出裝置108,這些組件通過總線系統(tǒng)110和/或其它形式的連接機(jī)構(gòu)(未示出)互連。應(yīng)當(dāng)注意,圖1所示的電子設(shè)備100的組件和結(jié)構(gòu)只是示例性的,而非限制性的,根據(jù)需要,所述電子設(shè)備也可以具有其他組件和結(jié)構(gòu)。
[0084]所述處理器102可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其它形式的處理單元,并且可以控制所述電子設(shè)備100中的其它組件以執(zhí)行期望的功能。
[0085]所述存儲(chǔ)裝置104可以包括一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品可以包括各種形式的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如易失性存儲(chǔ)器和/或非易失性存儲(chǔ)器。所述易失性存儲(chǔ)器例如可以包括隨機(jī)存取存儲(chǔ)器(RAM)和/或高速緩沖存儲(chǔ)器(cache)等。所述非易失性存儲(chǔ)器例如可以包括只讀存儲(chǔ)器(R0M)、硬盤、閃存等。在所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上可以存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)程序指令,處理器102可以運(yùn)行所述程序指令,以實(shí)現(xiàn)下文所述的本發(fā)明實(shí)施例中(由處理器實(shí)現(xiàn))的計(jì)算機(jī)功能以及/或者其它期望的功能。在所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中還可以存儲(chǔ)各種應(yīng)用程序和各種數(shù)據(jù),例如所述應(yīng)用程序使用和/或產(chǎn)生的各種數(shù)據(jù)等。
[0086]所述輸入裝置106可以是用來接收用戶所輸入的指令以及采集數(shù)據(jù)的裝置,并且可以包括鍵盤、鼠標(biāo)、麥克風(fēng)、觸摸屏和攝像頭等中的一個(gè)或多個(gè)。
[0087]所述輸出裝置108可以向外部(例如用戶)輸出各種信息(例如圖像或聲音),并且可以包括顯示器、揚(yáng)聲器等中的一個(gè)或多個(gè)。
[0088]上述輸入裝置106和輸出裝置108主要用于與用戶交互,電子設(shè)備100也可以不包括二者。
[0089]下面,將參考圖2描述根據(jù)本發(fā)明一個(gè)實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法 200。
[0090]神經(jīng)網(wǎng)絡(luò)(Neural Network,簡寫為NN)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征、進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)依靠模型的復(fù)雜程度,通過調(diào)整神經(jīng)網(wǎng)絡(luò)內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。
[0091]在本發(fā)明的實(shí)施例中,將神經(jīng)網(wǎng)絡(luò)模型用于視頻中的目標(biāo)檢測和跟蹤。優(yōu)選地,該神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)能夠很好地利用大數(shù)據(jù)的信息,并且高效地在并行平臺上得到很好的效果。
[0092]對視頻的目標(biāo)跟蹤處理基本包括檢測和跟蹤兩個(gè)過程。檢測和跟蹤這兩個(gè)過程相輔相成。檢測的結(jié)果往往可以利用跟蹤的結(jié)果來優(yōu)化;反之,跟蹤的結(jié)果也可以利用到優(yōu)化的檢測的結(jié)果。因此,將檢測和跟蹤這兩個(gè)過程整合在一個(gè)框架中,共用一些視頻特征數(shù)據(jù),并利用結(jié)果之間的互相優(yōu)化,能夠有效提高目標(biāo)跟蹤精度并且加快視頻處理速度。根據(jù)本發(fā)明的一個(gè)實(shí)施例,神經(jīng)網(wǎng)絡(luò)模型包括特征提取神經(jīng)網(wǎng)絡(luò)、第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)。特征提取神經(jīng)網(wǎng)絡(luò)主要用于提取視頻的特征數(shù)據(jù),第一神經(jīng)網(wǎng)絡(luò)主要用于接收特征提取神經(jīng)網(wǎng)絡(luò)提取的視頻的特征數(shù)據(jù)以進(jìn)行視頻中的目標(biāo)檢測,第二神經(jīng)網(wǎng)絡(luò)主要用于接收特征提取神經(jīng)網(wǎng)絡(luò)提取的視頻的特征數(shù)據(jù)和第一神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測結(jié)果,以進(jìn)行視頻中的目標(biāo)跟蹤。
[0093]具體地,如圖2所示,目標(biāo)跟蹤方法200包括步驟S220、步驟S240和步驟S260。
[0094]在步驟S220中,將待處理視頻輸入至特征提取神經(jīng)網(wǎng)絡(luò),以提取所述待處理視頻的特征數(shù)據(jù)。
[0095]可以將待處理視頻的原始數(shù)據(jù)或經(jīng)壓縮的視頻數(shù)據(jù)輸入至特征提取神經(jīng)網(wǎng)絡(luò)。然后,利用特征提取神經(jīng)網(wǎng)絡(luò)獲得待處理視頻的特征數(shù)據(jù)。待處理視頻的該特征數(shù)據(jù)可以用于輸入到第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)適于處理復(fù)雜的、無法簡單地用函數(shù)處理的計(jì)算。而視頻數(shù)據(jù)本身不僅數(shù)據(jù)量大,而且數(shù)據(jù)沒有簡單的規(guī)律性,利用特征提取神經(jīng)網(wǎng)絡(luò)可以更好地提取待處理視頻的特征數(shù)據(jù),以用其有效地代表待處理視頻本身。并且,將特征提取神經(jīng)網(wǎng)絡(luò)所提取到的待處理視頻的該特征數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)共用,可以減少重復(fù)計(jì)算,節(jié)約計(jì)算資源,提高運(yùn)算速度。特征提取神經(jīng)網(wǎng)絡(luò)可以包括卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)適于準(zhǔn)確提取視頻的特征數(shù)據(jù),從而保證目標(biāo)跟蹤的準(zhǔn)確性。
[0096]在步驟S240中,將步驟S220所提取的待處理視頻的特征數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的至少一個(gè)目標(biāo)的邊界框(bounding box)。
[0097]目標(biāo)是視頻中的跟蹤對象。示例性地,在一些應(yīng)用場景中,跟蹤的目標(biāo)是視頻中出現(xiàn)的行人、車輛等。目標(biāo)的邊界框用于給出該目標(biāo)在視頻幀中的位置信息。例如將目標(biāo)框定在邊界框內(nèi)部??蛇x地,每個(gè)邊界框內(nèi)包括一個(gè)目標(biāo)。邊界框可以是矩形的,其位置可以用矩形的對頂角的位置坐標(biāo)來表示。因此,邊界框可用于目標(biāo)檢測。
[0098]神經(jīng)網(wǎng)絡(luò)模型的第一神經(jīng)網(wǎng)絡(luò)主要用于針對視頻進(jìn)行目標(biāo)檢測。在目標(biāo)檢測過程中,可將視頻的每一幀的特征數(shù)據(jù)逐一輸入至第一神經(jīng)網(wǎng)絡(luò)。第一神經(jīng)網(wǎng)絡(luò)可以包括卷積神經(jīng)網(wǎng)絡(luò)。優(yōu)選地,第一神經(jīng)網(wǎng)絡(luò)是用于大規(guī)模圖像識別的深度卷積神經(jīng)網(wǎng)絡(luò)。將待處理視頻的視頻幀的特征數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡(luò)后,第一神經(jīng)網(wǎng)絡(luò)可以檢測視頻幀中的目標(biāo)并輸出一系列與所檢測目標(biāo)對應(yīng)的邊界框??梢岳斫?,視頻幀中可以包括一個(gè)或多個(gè)目標(biāo)。
[0099]在步驟S260中,將步驟S220所提取的待處理視頻的特征數(shù)據(jù)和步驟S240所獲得的邊界框輸入至第二神經(jīng)網(wǎng)絡(luò),從而獲得邊界框的標(biāo)識符,以跟蹤待處理視頻中的至少一個(gè)目標(biāo)。
[0100]神經(jīng)網(wǎng)絡(luò)模型的第二神經(jīng)網(wǎng)絡(luò)主要用于針對視頻進(jìn)行目標(biāo)跟蹤。對于視頻,可將特征提取神經(jīng)網(wǎng)絡(luò)中獲得的連續(xù)數(shù)幀(例如連續(xù)10幀)的視頻的特征數(shù)據(jù)和第一神經(jīng)網(wǎng)絡(luò)中獲得的邊界框輸入至第二神經(jīng)網(wǎng)絡(luò),第二神經(jīng)網(wǎng)絡(luò)可以根據(jù)來自第一神經(jīng)網(wǎng)絡(luò)的邊界框的相似度(例如,距離相似度以及外觀相似度)計(jì)算并輸出視頻中各個(gè)邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo)。
[0101 ]標(biāo)識符用于指示或標(biāo)識目標(biāo)。換言之,目標(biāo)的標(biāo)識符用于標(biāo)識該目標(biāo)是哪個(gè)目標(biāo),即目標(biāo)的身份信息。獲得了邊界框的標(biāo)識符,即可獲得邊界框內(nèi)的目標(biāo)是哪一個(gè)目標(biāo)的信息。對于視頻的任意不同的視頻幀,如果其中的某些不同的邊界框相似度(例如,距離相似度以及外觀相似度)很大,則可以認(rèn)為這些邊界框中的目標(biāo)為同一目標(biāo),即標(biāo)識符相同。標(biāo)識了相同標(biāo)識符的目標(biāo)在不同視頻幀中的位置表明了視頻中該目標(biāo)的行動(dòng)軌跡。因此,通過第二神經(jīng)網(wǎng)絡(luò)得到的視頻中各個(gè)邊界框的標(biāo)識符,可以實(shí)現(xiàn)對視頻中的至少一個(gè)目標(biāo)的跟蹤。
[0102]在上述基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法和裝置中,特征提取神經(jīng)網(wǎng)絡(luò)所提取的視頻的特征數(shù)據(jù)不僅為第一網(wǎng)絡(luò)所用,還為第二神經(jīng)網(wǎng)絡(luò)所用,避免了計(jì)算開銷的浪費(fèi),提高了整個(gè)算法的計(jì)算效率,節(jié)省了計(jì)算時(shí)間。同時(shí),目標(biāo)檢測和目標(biāo)跟蹤這兩個(gè)過程互相促進(jìn)和影響,能夠顯著提高目標(biāo)跟蹤的速度和準(zhǔn)確性。
[0103]可選地,目標(biāo)跟蹤方法200中所述的用于目標(biāo)檢測的第一神經(jīng)網(wǎng)絡(luò)包括第一子神經(jīng)網(wǎng)絡(luò)和第二子神經(jīng)網(wǎng)絡(luò)。圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)檢測(如上步驟S240)的示意性流程圖。如圖3所示,目標(biāo)檢測步驟S240可以包括步驟S342和S344。
[0104]在步驟S342中,將從特征提取神經(jīng)網(wǎng)絡(luò)中得到的待處理視頻的特征數(shù)據(jù)輸入至第一子神經(jīng)網(wǎng)絡(luò),以獲得邊界框的粗略位置。第一子神經(jīng)網(wǎng)絡(luò)用于根據(jù)待處理視頻的特征數(shù)據(jù)進(jìn)行實(shí)時(shí)目標(biāo)粗檢測并獲得邊界框的粗略位置。邊界框的粗略位置標(biāo)識了目標(biāo)在視頻幀中的可能位置或大概位置。第一子神經(jīng)網(wǎng)絡(luò)可以是區(qū)域建議網(wǎng)絡(luò)(Reg1n ProposalNetwork,簡稱RPN)。區(qū)域建議網(wǎng)絡(luò)可以包括卷積神經(jīng)網(wǎng)絡(luò),用于向第二子神經(jīng)網(wǎng)絡(luò)提供邊界框的粗略位置。
[0105]在步驟S344中,將待處理視頻的特征數(shù)據(jù)和第一子神經(jīng)網(wǎng)絡(luò)獲得的邊界框的粗略位置輸入至第二子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的準(zhǔn)確位置和指示所述邊界框內(nèi)包括至少一個(gè)目標(biāo)的概率值。
[Ο?Ο?] 第二子神經(jīng)網(wǎng)絡(luò)可以包括三層全連接(fully connected)層,其可以根據(jù)待處理視頻的特征數(shù)據(jù)和邊界框的粗略位置確定所述邊界框的準(zhǔn)確位置并針對每個(gè)邊界框給出一個(gè)概率值。該概率值可以表示對應(yīng)的邊界框內(nèi)部確實(shí)包括目標(biāo)的概率。該概率值可以用于后續(xù)的目標(biāo)跟蹤過程,在一個(gè)示例中,目標(biāo)跟蹤過程可以僅利用概率值高于預(yù)定閾值的邊界框,由此,提供更準(zhǔn)確的跟蹤結(jié)果。
[0107]通過步驟S342和步驟S344來給出邊界框的準(zhǔn)確位置,第一子神經(jīng)網(wǎng)絡(luò)和第二子神經(jīng)網(wǎng)絡(luò)共用特征提取神經(jīng)網(wǎng)絡(luò)提取到的特征數(shù)據(jù),從而在一定計(jì)算速度下不僅能夠得到邊界框的準(zhǔn)確位置,還能夠得到該邊界框的可信度。
[0108]可選地,目標(biāo)跟蹤方法200中所述的用于目標(biāo)跟蹤的第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò)。圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤(如上步驟S260)的示意性流程圖。如圖4所示,目標(biāo)跟蹤步驟S260可以包括步驟S462、步驟S464和步驟S466。
[0109]在步驟S462中,將步驟220中由特征提取神經(jīng)網(wǎng)絡(luò)所提取的待處理視頻的特征數(shù)據(jù)和步驟240所獲得的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度。
[0110]邊界框是第一神經(jīng)網(wǎng)絡(luò)得到的目標(biāo)檢測的結(jié)果。第三子神經(jīng)網(wǎng)絡(luò)基于待處理視頻的特征數(shù)據(jù)和目標(biāo)檢測結(jié)果(以目標(biāo)的邊界框表示所述檢測結(jié)果),獲得不同視頻幀中的邊界框之間的外觀相似度。邊界框的外觀相似度主要表征了邊界框中的目標(biāo)的外觀差異性,例如大小差異、紋理差異、顏色差異等。其中,邊界框中目標(biāo)的大小可以根據(jù)邊界框在視頻幀中所占有的像素個(gè)數(shù)來確定。
[0111]在步驟S464中,根據(jù)上述外觀相似度和待處理視頻的不同幀中的邊界框之間的距離計(jì)算待處理視頻中的不同幀中的邊界框之間的距離相似度。
[0112]距離相似度可以根據(jù)邊界框之間的外觀相似度以及邊界框在視頻幀的空間中的距離等因素來計(jì)算。視頻幀的空間是一個(gè)二維空間,可以以視頻幀中的任意一點(diǎn)為坐標(biāo)原點(diǎn)將邊界框的中心作為該邊界框在該原點(diǎn)下的坐標(biāo)位置。在一個(gè)示例中,不同幀中的邊界框之間的距離可以用不同幀中的邊界框的坐標(biāo)位置之間的歐式距離來定義。一般而言,不同的邊界框在不同的視頻幀之間的距離越小、外觀相似度越大,則所述邊界框在不同幀之間的距離相似度越大那么其屬于同一目標(biāo)的概率越大,即,該不同的邊界框的標(biāo)識符相同的概率越大。
[0113]在步驟S466中,將外觀相似度和距離相似度輸入至第四子神經(jīng)網(wǎng)絡(luò),從而確定邊界框的標(biāo)識符,以跟蹤待處理視頻中的所述至少一個(gè)目標(biāo)。
[0114]在一個(gè)示例中,第四子神經(jīng)網(wǎng)絡(luò)是網(wǎng)絡(luò)流神經(jīng)網(wǎng)絡(luò),其基于網(wǎng)絡(luò)流的方法來實(shí)現(xiàn)其功能。下面詳細(xì)描述該方法。網(wǎng)絡(luò)流神經(jīng)網(wǎng)絡(luò)適于進(jìn)行非線性的目標(biāo)跟蹤。其不僅保證了跟蹤精度,還保證了跟蹤速度。本領(lǐng)域普通技術(shù)人員可以理解,在此,網(wǎng)絡(luò)流作為一種示例性方法進(jìn)行描述,其不構(gòu)成對本發(fā)明的限制。
[0115]在網(wǎng)絡(luò)流中,每個(gè)視頻幀中的邊界框即是網(wǎng)絡(luò)流的一個(gè)頂點(diǎn)。網(wǎng)絡(luò)流的邊只在不同視頻幀之間建立。邊并非一定要在相鄰的視頻幀之間建立,也可以在不相鄰的視頻幀之間建立。
[0116]如圖5中大的矩形框代表視頻幀,如圖5所示,從左至右示出了3個(gè)連續(xù)的視頻幀(應(yīng)該理解的是,這里還可以使用不連續(xù)的視頻幀;此外,3個(gè)視頻幀也只是示例性的)。每個(gè)視頻幀內(nèi)包括2或3個(gè)邊界框,如圖5中大的矩形框內(nèi)的小矩形框所示。換言之,每個(gè)視頻幀內(nèi)檢測出了 2或3個(gè)目標(biāo)。特別注意,在圖5中間的大矩形框表示的視頻幀中,虛線所示的小矩形框?yàn)閼?yīng)檢測出但實(shí)際未能檢測出的邊界框??梢岳斫?,該邊界框內(nèi)的目標(biāo)在該視頻幀中被其前方的目標(biāo)所遮擋,所以在實(shí)際計(jì)算中第一神經(jīng)網(wǎng)絡(luò)未能輸出該邊界框。視頻框下面是根據(jù)視頻幀建立的網(wǎng)絡(luò)流模型。每個(gè)頂點(diǎn)對應(yīng)一個(gè)矩形框,頂點(diǎn)之間的連線是網(wǎng)絡(luò)流的邊。即,不同視頻幀的邊界框會(huì)邊相連。如圖5中所示,基于上述情況,第二個(gè)視頻幀中只有兩個(gè)頂點(diǎn)。
[0117]可選地,如果兩個(gè)視頻幀的時(shí)間間隔過大,則不在二者之間建立邊。優(yōu)選地,從時(shí)間上來講,可以跨越5至9幀建立邊。以建立邊的、間隔最大的幀之間的幀數(shù)是6的情況為例來說明,第I幀可以和第2幀、第3幀、第4幀、第5幀、第6幀、第7幀和第8幀來建立邊。第I幀和第8幀是間隔最大的幀,二者之間的幀間隔數(shù)是6。對建立邊的視頻幀的時(shí)間距離進(jìn)行適當(dāng)限定,可以有效避免網(wǎng)絡(luò)流的圖模型過大,從而減少計(jì)算量。
[0118]在一個(gè)示例中,網(wǎng)絡(luò)流中邊的邊權(quán)可定義如下:
[0119]ff_i j = d(B_i,B_j)+αΑ(B_i,B_j)
[0120]其中表示不同幀中的兩個(gè)邊界框。d()表示邊界框的距離相似度,A()表示邊界框的外觀相似度。(I表示用于調(diào)節(jié)距離相似度和外觀相似度之間的關(guān)系的參數(shù)值。
[0121]可以理解,邊權(quán)表示了兩個(gè)不同幀中的邊界框之間的總的相似度。根據(jù)該邊權(quán)可以給每個(gè)邊界框一個(gè)特定的標(biāo)識符。邊權(quán)越大,則相似度越高,兩個(gè)邊界框標(biāo)識為同一個(gè)標(biāo)識符的概率越大。根據(jù)計(jì)算結(jié)果,將具有最大邊權(quán)的邊連接的邊界框標(biāo)識為同一個(gè)標(biāo)識符,即具有相同標(biāo)識符的邊界框指示的是同一個(gè)目標(biāo),從而實(shí)現(xiàn)了對目標(biāo)的跟蹤。
[0122]綜合外觀相似度和距離相似度兩個(gè)參數(shù)來確定邊界框的標(biāo)識符,進(jìn)而進(jìn)行目標(biāo)跟蹤,保證了目標(biāo)跟蹤的準(zhǔn)確性。
[0123]圖6示出了根據(jù)本發(fā)明另一實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法600。如圖6所示,與目標(biāo)跟蹤方法200相比,目標(biāo)跟蹤方法600增加了使用訓(xùn)練視頻訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的步驟S610。目標(biāo)跟蹤方法600中的步驟S620、步驟S640、和步驟S660分別與目標(biāo)跟蹤方法200中的步驟S220、步驟S240、和步驟S260相對應(yīng),為了簡潔,在此不再贅述。
[0124]神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練要基于訓(xùn)練視頻進(jìn)行神經(jīng)網(wǎng)絡(luò)的參數(shù)的調(diào)整。在訓(xùn)練視頻中,標(biāo)注了目標(biāo)的邊界框和標(biāo)識符??梢岳斫?,邊界框標(biāo)識了訓(xùn)練目標(biāo)的位置。該標(biāo)識符標(biāo)識了訓(xùn)練目標(biāo)是哪一個(gè)。該標(biāo)注過程可以是人工標(biāo)注過程,還可以是機(jī)器標(biāo)注過程??梢哉J(rèn)為所標(biāo)注的邊界框和標(biāo)識符都是客觀且準(zhǔn)確的。
[0125]通過該步驟S610,期望獲得一個(gè)神經(jīng)網(wǎng)絡(luò)模型,以利用該神經(jīng)網(wǎng)絡(luò)模型對視頻進(jìn)行準(zhǔn)確的目標(biāo)跟蹤。通過該神經(jīng)網(wǎng)絡(luò)模型獲得的邊界框?qū)?yīng)于視頻幀中的真實(shí)目標(biāo)。換言之,通過該神經(jīng)網(wǎng)絡(luò)模型獲得的邊界框的標(biāo)識符與實(shí)際目標(biāo)是一致的。由此,該神經(jīng)網(wǎng)絡(luò)模型可以保證在其使用過程中可以獲得理想的目標(biāo)跟蹤結(jié)果。
[0126]圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的使用訓(xùn)練視頻訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型(步驟S610)的示意性流程圖。
[0127]在步驟S712中,將訓(xùn)練視頻輸入至神經(jīng)網(wǎng)絡(luò)模型的特征提取神經(jīng)網(wǎng)絡(luò),以提取訓(xùn)練視頻的特征數(shù)據(jù)。
[0128]在步驟S714中,將訓(xùn)練視頻的特征數(shù)據(jù)輸入至神經(jīng)網(wǎng)絡(luò)模型的第一神經(jīng)網(wǎng)絡(luò)以獲得訓(xùn)練目標(biāo)的邊界框,并且根據(jù)所標(biāo)注的邊界框和第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框計(jì)算第一神經(jīng)網(wǎng)絡(luò)的檢測損失函數(shù)值。
[0129]可選地,第一神經(jīng)網(wǎng)絡(luò)所獲得的訓(xùn)練目標(biāo)的邊界框與所標(biāo)注的邊界框差異越大,那么檢測損失函數(shù)值越大,這表明越需要調(diào)整特征提取神經(jīng)網(wǎng)絡(luò)和第一神經(jīng)網(wǎng)絡(luò)的當(dāng)前參數(shù)。檢測損失函數(shù)值可以包括檢測交叉熵和檢測回歸損失函數(shù)值。
[0130]在步驟S716中,將訓(xùn)練視頻的特征數(shù)據(jù)和步驟S715中第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至神經(jīng)網(wǎng)絡(luò)模型的第二神經(jīng)網(wǎng)絡(luò)以獲得訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,并根據(jù)訓(xùn)練目標(biāo)的所標(biāo)注的標(biāo)識符和第二神經(jīng)網(wǎng)絡(luò)所獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符計(jì)算跟蹤損失函數(shù)值。在一個(gè)實(shí)施例中,跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值。
[0131 ]期望所獲得的標(biāo)識符對應(yīng)視頻幀中的實(shí)際的相應(yīng)目標(biāo),以對視頻進(jìn)行準(zhǔn)確的目標(biāo)跟蹤。如前所述,認(rèn)為訓(xùn)練視頻中所標(biāo)注的標(biāo)識符客觀準(zhǔn)確地標(biāo)識了視頻幀中訓(xùn)練目標(biāo)的位置??蛇x地,所獲得的標(biāo)識符與所標(biāo)注的標(biāo)識符差異越大,那么跟蹤損失函數(shù)值越大,這表明越需要調(diào)整特征提取神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)的當(dāng)前參數(shù),同時(shí),為了在目標(biāo)跟蹤中實(shí)現(xiàn)跟蹤結(jié)果對檢測結(jié)果的優(yōu)化,還可以利用跟蹤損失函數(shù)值同時(shí)調(diào)整特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和第二神經(jīng)網(wǎng)絡(luò)的當(dāng)前參數(shù)。
[0132]在步驟S718中,在檢測損失函數(shù)值和跟蹤損失函數(shù)值不滿足預(yù)設(shè)條件的情況和/或步驟S610的總迭代次數(shù)小于第一閾值的情況下,同時(shí)調(diào)整特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)以及第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和/或第二神經(jīng)網(wǎng)絡(luò)的參數(shù)并且轉(zhuǎn)步驟S712;否則,停止對神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練并獲得訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型。該訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型即可用于目標(biāo)跟蹤,即用于上述目標(biāo)跟蹤方法600。換言之,將檢測損失函數(shù)值和跟蹤損失函數(shù)值二者均滿足預(yù)設(shè)條件以及迭代次數(shù)大于或等于第一閾值這兩個(gè)條件中的一個(gè)或二者作為步驟S610執(zhí)行結(jié)束的條件。
[0133]如前所述,檢測損失函數(shù)值可以包括檢測交叉熵和檢測回歸損失函數(shù)值。示例性地,步驟S718可以包括:根據(jù)檢測交叉熵和檢測回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)和第一神經(jīng)網(wǎng)絡(luò)的參數(shù)。可以首先計(jì)算檢測交叉熵和檢測回歸損失函數(shù)值的加權(quán)和。然后判斷檢測交叉熵和檢測回歸損失函數(shù)值的加權(quán)和是否滿足預(yù)設(shè)條件和/或迭代次數(shù)是否滿足預(yù)設(shè)條件。例如,可以通過判斷檢測交叉熵和檢測回歸損失函數(shù)值的加權(quán)和是否小于第二閾值來確定其是否滿足預(yù)設(shè)條件。如果不滿足,那么同時(shí)調(diào)整特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)和第一神經(jīng)網(wǎng)絡(luò)的參數(shù),以使檢測交叉熵和檢測回歸損失函數(shù)值的加權(quán)和更小。
[0134]此外,跟蹤損失函數(shù)值可以包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值。示例性地,步驟S718可以包括:根據(jù)跟蹤交叉熵和跟蹤回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和第二神經(jīng)網(wǎng)絡(luò)的參數(shù)??梢允紫扔?jì)算跟蹤交叉熵和跟蹤回歸損失函數(shù)值的加權(quán)和。然后判斷跟蹤交叉熵和跟蹤回歸損失函數(shù)值的加權(quán)和是否分別滿足預(yù)設(shè)條件和/或迭代次數(shù)是否滿足預(yù)設(shè)條件。例如,可以通過判斷跟蹤交叉熵和跟蹤回歸損失函數(shù)值的加權(quán)和是否小于第三閾值來確定其是否滿足預(yù)設(shè)條件。如果不滿足,那么同時(shí)調(diào)整特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和第二神經(jīng)網(wǎng)絡(luò)的參數(shù),以使跟蹤交叉熵和跟蹤回歸損失函數(shù)值的加權(quán)和更小。在一個(gè)實(shí)施例中,使用跟蹤損失函數(shù)值來同時(shí)調(diào)整提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和第二神經(jīng)網(wǎng)絡(luò)的參數(shù),可以實(shí)現(xiàn)用跟蹤結(jié)果對檢測結(jié)果的優(yōu)化。例如,對于圖5所示的中間幀中的目標(biāo)被遮擋的情況,利用跟蹤結(jié)果,可以實(shí)現(xiàn)對目標(biāo)被遮擋的情況的檢測的優(yōu)化,即可以利用被遮擋目標(biāo)的跟蹤結(jié)果,獲得該目標(biāo)被遮擋前后的兩幀,根據(jù)該目標(biāo)在被遮擋前后兩幀中的位置LI和L2,可以對這兩個(gè)位置取距離平均值得到平均位置信息L,從而將該平均位置信息L作為該幀在被遮擋的幀中的檢測位置,以實(shí)現(xiàn)對檢測結(jié)果的優(yōu)化。
[0135]如上所述,迭代次數(shù)可以作為步驟S610執(zhí)行結(jié)束的一個(gè)依據(jù)。特別是經(jīng)過數(shù)次迭代,檢測損失函數(shù)值和跟蹤損失函數(shù)值仍無法滿足期望要求時(shí),迭代次數(shù)作為步驟S610結(jié)束的依據(jù)可以避免大量無謂計(jì)算,提高計(jì)算效率和速度。
[0136]對于預(yù)設(shè)條件沒有完全滿足的情況,同時(shí)調(diào)整特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和/或第二神經(jīng)網(wǎng)絡(luò)的參數(shù)。換言之,將神經(jīng)網(wǎng)絡(luò)模型作為一個(gè)整體,來調(diào)整其中的參數(shù)。然后,通過再次執(zhí)行步驟S712、步驟S714和步驟S716,基于具有更新參數(shù)的特征提取神經(jīng)網(wǎng)絡(luò)、第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò),重新計(jì)算新的檢測損失函數(shù)值和跟蹤損失函數(shù)值,然后再次判斷預(yù)設(shè)條件是否已經(jīng)滿足,在預(yù)設(shè)條件不滿足的情況下,繼續(xù)調(diào)整提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和/或第二神經(jīng)網(wǎng)絡(luò)的參數(shù);在預(yù)設(shè)條件獲得滿足的情況下,停止對所述神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練并獲得訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)模型以用于跟蹤目標(biāo)。
[0137]總之,在步驟S610中,重復(fù)執(zhí)行步驟S712、步驟S714、步驟S716和S718,直至預(yù)設(shè)條件均已經(jīng)滿足,則步驟S610執(zhí)行結(jié)束,此時(shí)所獲得的神經(jīng)網(wǎng)絡(luò)模型即可用于針對視頻的目標(biāo)跟蹤。
[0138]在上述步驟S610中,同時(shí)對特征提取神經(jīng)網(wǎng)絡(luò)以及用于目標(biāo)檢測的第一神經(jīng)網(wǎng)絡(luò)和/或用于目標(biāo)跟蹤的第二神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,它們互相促進(jìn)和影響。由此,能夠獲得更理想的神經(jīng)網(wǎng)絡(luò)模型,來針對視頻更好地完成目標(biāo)跟蹤,顯著提高了目標(biāo)跟蹤的速度和準(zhǔn)確性。
[0139]如上所述,第二神經(jīng)網(wǎng)絡(luò)可以包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò)。圖8示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的將訓(xùn)練視頻的特征數(shù)據(jù)和第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至第二神經(jīng)網(wǎng)絡(luò)并根據(jù)訓(xùn)練目標(biāo)的所標(biāo)注的標(biāo)識符和第二神經(jīng)網(wǎng)絡(luò)獲得的訓(xùn)練目標(biāo)的邊界框的標(biāo)識符計(jì)算跟蹤損失函數(shù)值(如上步驟S716)的示意性流程圖。如圖8所示,步驟S716可以包括步驟S716a、S716b、S716c和S716d。
[0140]在步驟S716a中,將訓(xùn)練視頻的特征數(shù)據(jù)和步驟S714中第一神經(jīng)網(wǎng)絡(luò)獲得的訓(xùn)練目標(biāo)的邊界框輸入至第三子神經(jīng)網(wǎng)絡(luò),以獲得訓(xùn)練視頻的不同幀中的邊界框之間的外觀相似度。
[0141]可以理解,第三子神經(jīng)網(wǎng)絡(luò)的參數(shù)可以是固定的,也可以是可調(diào)的。如果屬于后者,那么可以在神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的過程中,與特征提取神經(jīng)網(wǎng)絡(luò)和第一神經(jīng)網(wǎng)絡(luò)同時(shí)調(diào)整。
[0142]在步驟S716b中,根據(jù)所述外觀相似度和所述訓(xùn)練視頻中的不同幀中的邊界框之間的距離,計(jì)算訓(xùn)練視頻的不同幀中的邊界框之間的距離相似度。
[0143]在步驟S716c中,將步驟S716a所計(jì)算的外觀相似度和步驟S716b所計(jì)算的距離相似度輸入至第四子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符。
[0144]在步驟S716d中,根據(jù)所標(biāo)注的標(biāo)識符和步驟S716c所獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,計(jì)算第二神經(jīng)網(wǎng)絡(luò)的跟蹤損失函數(shù)值。在一個(gè)示例中,跟蹤損失函數(shù)值與所標(biāo)注的標(biāo)識符和所獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符之間的差異大小成正比。
[0145]上述利用所獲得的訓(xùn)練目標(biāo)的標(biāo)識符與所標(biāo)注的訓(xùn)練目標(biāo)的標(biāo)識符之間的差異的方法計(jì)算跟蹤損失函數(shù)值的方法,保證了跟蹤損失函數(shù)值得計(jì)算精度。根據(jù)該跟蹤損失函數(shù)值所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型能夠更準(zhǔn)確地進(jìn)行目標(biāo)跟蹤。
[0146]在一個(gè)示例中,由任意監(jiān)控?cái)z像頭采集視頻,并根據(jù)本發(fā)明的目標(biāo)跟蹤方法來分析處理該視頻,以對視頻中出現(xiàn)的目標(biāo)(例如,行人、車輛等)進(jìn)行檢測和跟蹤??蛇x地,監(jiān)控?cái)z像頭針對目標(biāo)區(qū)域以一定俯視角來采集視頻。示例性地,根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法可以在具有存儲(chǔ)器和處理器的設(shè)備、裝置或者系統(tǒng)中實(shí)現(xiàn),例如服務(wù)器。監(jiān)控?cái)z像頭可以與實(shí)現(xiàn)本發(fā)明的目標(biāo)跟蹤方法的設(shè)備、裝置或者系統(tǒng)直接連接或間接連接,例如經(jīng)由網(wǎng)絡(luò)連接。該網(wǎng)絡(luò)可以是有線網(wǎng)絡(luò)或無線網(wǎng)絡(luò)。可選地,該監(jiān)控?cái)z像頭還可以與實(shí)現(xiàn)本發(fā)明的目標(biāo)跟蹤方法的設(shè)備、裝置或者系統(tǒng)集成在一起。例如,本發(fā)明的目標(biāo)跟蹤方法由一個(gè)計(jì)算處理單元來實(shí)現(xiàn)。可以將該計(jì)算處理單元集成到監(jiān)控?cái)z像頭內(nèi),由此,監(jiān)控?cái)z像頭所采集的視頻可以直接傳輸?shù)接?jì)算處理單元進(jìn)行后續(xù)檢測和跟蹤分析。
[0147]上述目標(biāo)跟蹤方法,顯著提高了目標(biāo)檢測和跟蹤的準(zhǔn)確性。此外,該目標(biāo)跟蹤方法執(zhí)行速度快,進(jìn)而保證了目標(biāo)檢測和跟蹤的實(shí)時(shí)性。
[0148]圖9示出了根據(jù)本發(fā)明另一實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法900。與圖2所示的目標(biāo)跟蹤方法200相比,該目標(biāo)跟蹤方法900增加了步驟S980。
[0149]在步驟S980中,根據(jù)步驟S920所提取的待處理視頻的特征數(shù)據(jù)、步驟S940所獲得的邊界框和步驟S960所獲得的標(biāo)識符,分析所跟蹤的至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。示例性地,所述屬性可以包括諸如年齡、性別、身高、體重和穿著等屬性信息。所述動(dòng)作可以包括諸如摔倒、招手和走路等動(dòng)作信息。
[0150]示例性地,可以首先將步驟S920所提取的待處理視頻的每一幀的特征數(shù)據(jù)、步驟S940所獲得的邊界框和步驟S960所獲得的標(biāo)識符輸入至第一卷積神經(jīng)網(wǎng)絡(luò),然后經(jīng)由例如兩個(gè)全連接層,以獲取幀屬性分析結(jié)果??蛇x地,對于多個(gè)視頻幀,可以將所有幀的幀屬性分析結(jié)果進(jìn)行池化(pool),輸出最終屬性分析結(jié)果。
[0151]動(dòng)作分析可以采用與屬性分析類似的方式,先后利用卷積神經(jīng)網(wǎng)絡(luò),經(jīng)由全連接層,從而獲得動(dòng)作的開始幀和結(jié)束幀,進(jìn)而獲得動(dòng)作的類別。
[0152]在另外一個(gè)實(shí)施例中,還可以根據(jù)步驟S920所提取的待處理視頻的特征數(shù)據(jù)、步驟S940所獲得的邊界框和步驟S960所獲得的標(biāo)識符以及步驟S980獲得的屬性分析結(jié)果識別所跟蹤的目標(biāo)。例如,可以將所檢測的目標(biāo)與數(shù)據(jù)庫中存儲(chǔ)的對象進(jìn)行比較,從而識別目標(biāo)的具體身份。例如,數(shù)據(jù)庫中可以預(yù)存犯罪分子的相關(guān)圖像數(shù)據(jù)以及屬性信息,可以將所具有相同屬性信息的檢測到的行人與數(shù)據(jù)庫中的相關(guān)圖像數(shù)據(jù)和其它數(shù)據(jù)進(jìn)行比較,以確定行人是否為在逃的犯罪分子。
[0153]這里,基于檢測和跟蹤結(jié)果給出了一些相關(guān)的智能分析應(yīng)用,提高了用戶體驗(yàn)。在分析過程中,通過直接利用特征提取神經(jīng)網(wǎng)絡(luò)獲得的待處理視頻的特征數(shù)據(jù),從而減少了計(jì)算量,提高了計(jì)算速度。
[0154]圖10示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤裝置1000的示意性框圖。該神經(jīng)網(wǎng)絡(luò)模型包括特征提取神經(jīng)網(wǎng)絡(luò)、第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)。如圖10所示,目標(biāo)跟蹤裝置1000包括第一特征提取模塊1020、檢測模塊1040和跟蹤模塊1060。
[0155]第一特征提取模塊1020用于將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述待處理視頻的特征數(shù)據(jù)。特征提取神經(jīng)網(wǎng)絡(luò)可以包括卷積神經(jīng)網(wǎng)絡(luò)。第一特征提取模塊1020可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S220。
[0156]檢測模塊1040用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的至少一個(gè)目標(biāo)的邊界框。第一神經(jīng)網(wǎng)絡(luò)可以包括卷積神經(jīng)網(wǎng)絡(luò)。檢測模塊1040可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S240。
[0157]跟蹤模塊1060用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo),其中所述標(biāo)識符用于指示所述至少一個(gè)目標(biāo)。跟蹤模塊1060可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S260。
[0158]在上述基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤裝置1000中,目標(biāo)檢測和目標(biāo)跟蹤均利用視頻的相同特征數(shù)據(jù)并且這兩個(gè)過程互相促進(jìn)和優(yōu)化,能夠顯著提高目標(biāo)跟蹤的速度和準(zhǔn)確性。
[0159]圖11示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的檢測模塊1040的示意性框圖。如圖11所示,所述檢測模塊1040可以包括邊界框初定單元1042和邊界框確定單元1044。在此實(shí)施例中,第一神經(jīng)網(wǎng)絡(luò)包括第一子神經(jīng)網(wǎng)絡(luò)和第二子神經(jīng)網(wǎng)絡(luò)。
[0160]邊界框初定單元1042用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的粗略位置。所述邊界框初定單元1042可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法的步驟S342。
[0161]邊界框確定單元1044用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的準(zhǔn)確位置和指示所述邊界框內(nèi)包括所述至少一個(gè)目標(biāo)的概率值。所述邊界框確定單元1044可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法的步驟S344。
[0162]圖12示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的跟蹤模塊1060的示意性框圖。如圖12所示,所述跟蹤模塊1060可以包括外觀相似度計(jì)算單元1262、距離相似度計(jì)算單元1264和標(biāo)識符確定單元1266。在一個(gè)實(shí)施例中,第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò)。
[0163]外觀相似度計(jì)算單元1262用于將由特征提取神經(jīng)網(wǎng)絡(luò)提取的所述待處理視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度。邊界框的外觀相似度主要表征了邊界框中的目標(biāo)的外觀差異性,例如大小差異、紋理差異、顏色差異等。外觀相似度計(jì)算單元1262可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法的步驟S462。
[0164]距離相似度計(jì)算單元1264用于根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計(jì)算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度。所述距離相似度計(jì)算單元1264可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法的步驟S464。
[0165]標(biāo)識符確定單元1266用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo)。在一個(gè)示例中,第四子神經(jīng)網(wǎng)絡(luò)是網(wǎng)絡(luò)流神經(jīng)網(wǎng)絡(luò),其基于網(wǎng)絡(luò)流的方法來實(shí)現(xiàn)其功能。所述標(biāo)識符確定單元1266可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法的步驟S466。在一個(gè)示例中,網(wǎng)絡(luò)流中連接不同視頻幀中的不同邊界框的邊的邊權(quán)可定義如下:
[0166]W」j = d (B」,B_ j) +αΑ (B」,B_ j)
[0167]其中表示不同幀中的兩個(gè)邊界框。d()表示邊界框的距離相似度,A()表示邊界框的外觀相似度。(I表示用于調(diào)節(jié)距離相似度和外觀相似度之間的關(guān)系的參數(shù)值。
[0168]可以理解,邊權(quán)表示了不同幀中的兩個(gè)邊界框之間的總的相似度。根據(jù)該邊權(quán)可以給每個(gè)邊界框一個(gè)特定的標(biāo)識符。邊權(quán)越大,則相似度越高,兩個(gè)邊界框標(biāo)識為同一個(gè)標(biāo)識符的概率越大。根據(jù)計(jì)算結(jié)果,將具有最大邊權(quán)的邊連接的邊界框標(biāo)識為同一個(gè)標(biāo)識符,即具有相同標(biāo)識符的邊界框指示的是同一個(gè)目標(biāo),從而實(shí)現(xiàn)了對目標(biāo)的跟蹤。
[0169]圖13示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤裝置1300的示意性框圖。與目標(biāo)跟蹤裝置1000相比,增加了訓(xùn)練模塊1310。
[0170]訓(xùn)練模塊1310用于使用訓(xùn)練視頻訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型。在訓(xùn)練視頻中,針對訓(xùn)練目標(biāo)標(biāo)注了邊界框和標(biāo)識符,所述標(biāo)識符用于指示所述訓(xùn)練目標(biāo)。所述訓(xùn)練模塊1310可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法的步驟S610。
[0171]圖14示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的訓(xùn)練模塊1310的示意性框圖。如圖14所示,訓(xùn)練模塊1310包括訓(xùn)練特征提取模塊1412、檢測訓(xùn)練模塊1414、跟蹤訓(xùn)練模塊1416和調(diào)整模塊1418。
[0172]訓(xùn)練特征提取模塊1412用于將訓(xùn)練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述訓(xùn)練視頻的特征數(shù)據(jù)。訓(xùn)練特征提取模塊1412可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S712。
[0173]檢測訓(xùn)練模塊1414用于將所述訓(xùn)練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框,并且根據(jù)所標(biāo)注的邊界框和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框計(jì)算第一神經(jīng)網(wǎng)絡(luò)的檢測損失函數(shù)值。所述檢測損失函數(shù)值可以包括檢測交叉熵和檢測回歸損失函數(shù)值。檢測訓(xùn)練模塊1412可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S714。
[0174]跟蹤訓(xùn)練模塊1416用于將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,并根據(jù)所述訓(xùn)練目標(biāo)的所標(biāo)注的標(biāo)識符和所述第二神經(jīng)網(wǎng)絡(luò)獲得的訓(xùn)練目標(biāo)的邊界框的標(biāo)識符計(jì)算跟蹤損失函數(shù)值。在一個(gè)實(shí)施例中,跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值。跟蹤訓(xùn)練模塊1416可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S716。
[0175]調(diào)整模塊1418用于在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預(yù)設(shè)條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)以及所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù);否則,停止對神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練并獲得訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)模型以用于跟蹤目標(biāo)。調(diào)整模塊1418可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S718。
[0176]示例性地,調(diào)整模塊1418可以用于根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0177]示例性地,調(diào)整模塊1418還可以用于根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0178]圖15示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的跟蹤訓(xùn)練模塊1416的示意性框圖。如圖15所示,跟蹤訓(xùn)練模塊1416進(jìn)一步包括外觀相似度訓(xùn)練計(jì)算單元、距離相似度訓(xùn)練計(jì)算單元、標(biāo)識符訓(xùn)練獲得單元和跟蹤損失函數(shù)值計(jì)算單元。如前所述,第二神經(jīng)網(wǎng)絡(luò)可以包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò)。
[0179]外觀相似度訓(xùn)練計(jì)算單元用于將所述訓(xùn)練視頻的特征數(shù)據(jù)和第一神經(jīng)網(wǎng)絡(luò)獲得的訓(xùn)練目標(biāo)的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練視頻的不同幀中的邊界框之間的外觀相似度。外觀相似度訓(xùn)練計(jì)算單元可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S716a。
[0180]距離相似度訓(xùn)練計(jì)算單元用于根據(jù)所述外觀相似度和所述訓(xùn)練視頻中的不同幀中的邊界框之間的距離計(jì)算所述訓(xùn)練視頻的不同幀中的邊界框之間的距離相似度。距離相似度訓(xùn)練計(jì)算單元可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S716b。
[0181]標(biāo)識符訓(xùn)練獲得單元用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符。標(biāo)識符訓(xùn)練確定單元可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S716c。
[0182]跟蹤損失函數(shù)值計(jì)算單元用于根據(jù)所標(biāo)注的標(biāo)識符和標(biāo)識符訓(xùn)練獲得單元所獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,計(jì)算所述跟蹤損失函數(shù)值。跟蹤損失函數(shù)值計(jì)算單元可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個(gè)實(shí)施例的目標(biāo)跟蹤方法中的步驟S716d。
[0183]可選地,上述目標(biāo)跟蹤裝置1000還可以包括分析模塊(未示出),用于根據(jù)所述特征提取神經(jīng)網(wǎng)絡(luò)提取的待處理視頻的特征數(shù)據(jù)、所述第一神經(jīng)網(wǎng)絡(luò)獲得的邊界框和所述第二神經(jīng)網(wǎng)絡(luò)獲得的所述邊界框的標(biāo)識符,分析所跟蹤的目標(biāo)的屬性和/或動(dòng)作??蛇x地,所述分析模塊用于將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符輸入至第一卷積神經(jīng)網(wǎng)絡(luò),經(jīng)由全連接層,輸出所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。所述分析模塊可以由圖1所示的電子設(shè)備中的處理器102運(yùn)行存儲(chǔ)裝置104中存儲(chǔ)的程序指令來實(shí)現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法的步驟S980。
[0184]本領(lǐng)域普通技術(shù)人員通過閱讀上文關(guān)于基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法的詳細(xì)描述,能夠理解上述基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤裝置的結(jié)構(gòu)、實(shí)現(xiàn)以及優(yōu)點(diǎn),因此這里不再贅述。
[0185]本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
[0186]圖16示出了根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤系統(tǒng)1600的示意性框圖。該目標(biāo)跟蹤系統(tǒng)1600可以用于執(zhí)行基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法,所述神經(jīng)網(wǎng)絡(luò)模型包括特征提取神經(jīng)網(wǎng)絡(luò)、第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)。目標(biāo)跟蹤系統(tǒng)1600包括輸入裝置1610、存儲(chǔ)裝置1620、處理器1630以及輸出裝置1640。
[0187]所述輸入裝置1610用于接收用戶所輸入的操作指令以及采集數(shù)據(jù)。輸入裝置1610可以包括鍵盤、鼠標(biāo)、麥克風(fēng)、觸摸屏和攝像頭等中的一個(gè)或多個(gè)。
[0188]所述存儲(chǔ)裝置1620存儲(chǔ)用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法的相應(yīng)步驟的程序代碼。
[0189]所述處理器1630用于運(yùn)行所述存儲(chǔ)裝置1620中存儲(chǔ)的程序代碼,以執(zhí)行根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法的相應(yīng)步驟,并且用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤裝置中的第一特征提取模塊1020、檢測模塊1040和跟蹤模塊1060。
[0190]在一個(gè)實(shí)施例中,在所述程序代碼被所述處理器1630運(yùn)行時(shí)使所述目標(biāo)跟蹤系統(tǒng)1600執(zhí)行以下步驟:
[0191]S220,將待處理視頻輸入至特征提取神經(jīng)網(wǎng)絡(luò),以提取所述待處理視頻的特征數(shù)據(jù)。
[0192]S240,將步驟S220所提取的待處理視頻的特征數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的至少一個(gè)目標(biāo)的邊界框。
[0193]S260,將步驟S220所提取的待處理視頻的特征數(shù)據(jù)和步驟S240所獲得的邊界框輸入至第二神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤待處理視頻中的所述至少一個(gè)目標(biāo),其中所述標(biāo)識符用于指示所述至少一個(gè)目標(biāo)。
[0194]示例性地,所述第一神經(jīng)網(wǎng)絡(luò)包括第一子神經(jīng)網(wǎng)絡(luò)和第二子神經(jīng)網(wǎng)絡(luò)。在所述程序代碼被所述處理器1630運(yùn)行時(shí)使所述目標(biāo)跟蹤系統(tǒng)1600執(zhí)行步驟S240包括:
[0195]S342,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的粗略位置;以及
[0196]S344,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的準(zhǔn)確位置和指示所述邊界框內(nèi)包括所述至少一個(gè)目標(biāo)的概率值。
[0197]示例性地,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò)。在所述程序代碼被所述處理器1630運(yùn)行時(shí)使所述目標(biāo)跟蹤系統(tǒng)1600執(zhí)行的步驟S260包括:
[0198]S462,將所述特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度;
[0199]S464,根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計(jì)算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及
[0200]S466,將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo)。
[0201]示例性地,所述第一神經(jīng)網(wǎng)絡(luò)和/或所述特征提取神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)。
[0202]示例性地,在所述程序代碼被所述處理器1630運(yùn)行時(shí)還使所述目標(biāo)跟蹤系統(tǒng)1600執(zhí)行以下步驟:
[0203]S610,使用訓(xùn)練視頻訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型,其中,在所述訓(xùn)練視頻中,針對訓(xùn)練目標(biāo)標(biāo)注了邊界框和標(biāo)識符,所述標(biāo)識符用于指示所述訓(xùn)練目標(biāo);
[0204]其中,S610,使用訓(xùn)練視頻訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型包括:
[0205]S712,將所述訓(xùn)練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述訓(xùn)練視頻的特征數(shù)據(jù);
[0206]S714,將所述訓(xùn)練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框,并且根據(jù)所標(biāo)注的邊界框和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框計(jì)算檢測損失函數(shù)值;
[0207]S716,將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,并根據(jù)所述訓(xùn)練目標(biāo)的所標(biāo)注的標(biāo)識符和所述第二神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符計(jì)算跟蹤損失函數(shù)值;
[0208]S718,在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預(yù)設(shè)條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)以及所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)并且轉(zhuǎn)所述步驟S712,否則,停止對所述神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練并獲得訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)模型以用于跟蹤目標(biāo)。
[0209]示例性地,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò)。在所述程序代碼被所述處理器1630運(yùn)行時(shí)使所述目標(biāo)跟蹤系統(tǒng)1600執(zhí)行步驟S716包括:
[0210]將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練視頻的不同幀中的邊界框之間的外觀相似度;
[0211]根據(jù)所述外觀相似度和所述訓(xùn)練視頻中的不同幀中的邊界框之間的距離計(jì)算所述訓(xùn)練視頻的不同幀中的邊界框之間的距離相似度;
[0212]將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符;以及
[0213]根據(jù)所標(biāo)注的標(biāo)識符和所獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,計(jì)算所述跟蹤損失函數(shù)值。
[0214]示例性地,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值。在所述程序代碼被所述處理器1630運(yùn)行時(shí)使所述目標(biāo)跟蹤系統(tǒng)1600執(zhí)行步驟S718包括:
[0215]根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0216]示例性地,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值。在所述程序代碼被所述處理器1630運(yùn)行時(shí)使所述目標(biāo)跟蹤系統(tǒng)1600執(zhí)行步驟S718包括:
[0217]根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0218]示例性地,在所述程序代碼被所述處理器1630運(yùn)行時(shí)還使所述目標(biāo)跟蹤系統(tǒng)1600執(zhí)行以下步驟:
[0219]S980,根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符,分析所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。
[0220]示例性地,在所述程序代碼被所述處理器1630運(yùn)行時(shí)使所述目標(biāo)跟蹤系統(tǒng)1600執(zhí)行步驟S980包括:
[0221]將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符輸入至第一卷積神經(jīng)網(wǎng)絡(luò),經(jīng)由全連接層,輸出所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。
[0222]此外,根據(jù)本發(fā)明實(shí)施例,還提供了一種存儲(chǔ)介質(zhì),在所述存儲(chǔ)介質(zhì)上存儲(chǔ)了程序指令,在所述程序指令被計(jì)算機(jī)或處理器運(yùn)行時(shí)用于執(zhí)行本發(fā)明實(shí)施例的目標(biāo)跟蹤方法的相應(yīng)步驟,并且用于實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤裝置中的相應(yīng)模塊。所述存儲(chǔ)介質(zhì)例如可以包括智能電話的存儲(chǔ)卡、平板電腦的存儲(chǔ)部件、個(gè)人計(jì)算機(jī)的硬盤、只讀存儲(chǔ)器(ROM)、可擦除可編程只讀存儲(chǔ)器(EPROM)、便攜式緊致盤只讀存儲(chǔ)器(CD-ROM)、USB存儲(chǔ)器、或者上述存儲(chǔ)介質(zhì)的任意組合。所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的任意組合。
[0223]在一個(gè)實(shí)施例中,所述神經(jīng)網(wǎng)絡(luò)模型包括特征提取神經(jīng)網(wǎng)絡(luò)、第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)。所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)或處理器運(yùn)行時(shí)使所述計(jì)算機(jī)或處理器執(zhí)行以下步驟:
[0224]S220,將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述待處理視頻的特征數(shù)據(jù);
[0225]S240,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的至少一個(gè)目標(biāo)的邊界框;以及
[0226]S260,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo),其中所述標(biāo)識符用于指示所述至少一個(gè)目標(biāo)。
[0227]示例性地,第一神經(jīng)網(wǎng)絡(luò)包括第一子神經(jīng)網(wǎng)絡(luò)和第二子神經(jīng)網(wǎng)絡(luò)。在所述計(jì)算機(jī)程序指令在被所述計(jì)算機(jī)或處理器運(yùn)行時(shí)使計(jì)算機(jī)或處理器執(zhí)行的步驟S240包括:
[0228]S342,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的粗略位置;以及
[0229]S344,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的準(zhǔn)確位置和指示所述邊界框內(nèi)包括所述至少一個(gè)目標(biāo)的概率值。
[0230]示例性地,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò)。在所述計(jì)算機(jī)程序指令在被所述計(jì)算機(jī)或處理器運(yùn)行時(shí)使計(jì)算機(jī)或處理器執(zhí)行的步驟S260包括:
[0231]S462,將所述特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度;
[0232]S464,根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計(jì)算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及
[0233]S466,將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo)。
[0234]示例性地,所述第一神經(jīng)網(wǎng)絡(luò)和/或所述特征提取神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)。
[0235]示例性地,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)或處理器運(yùn)行時(shí)還使所述計(jì)算機(jī)或處理器執(zhí)行以下步驟:
[0236]S610,使用訓(xùn)練視頻訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型,其中,在所述訓(xùn)練視頻中,針對訓(xùn)練目標(biāo)標(biāo)注了邊界框和標(biāo)識符,所述標(biāo)識符用于指示所述訓(xùn)練目標(biāo);
[0237]其中,在所述計(jì)算機(jī)程序指令在被所述計(jì)算機(jī)或處理器運(yùn)行時(shí)使計(jì)算機(jī)或處理器執(zhí)行步驟S610包括:
[0238]S712,將所述訓(xùn)練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述訓(xùn)練視頻的特征數(shù)據(jù);
[0239]S714,將所述訓(xùn)練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框,并且根據(jù)所標(biāo)注的邊界框和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框計(jì)算檢測損失函數(shù)值;
[0240]S716,將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,并根據(jù)所述訓(xùn)練目標(biāo)的所標(biāo)注的標(biāo)識符和所述第二神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符計(jì)算跟蹤損失函數(shù)值;以及
[0241]S718,在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預(yù)設(shè)條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)以及所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)并且轉(zhuǎn)所述步驟S712,否則,停止對所述神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練并獲得訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)模型以用于跟蹤目標(biāo)。
[0242]示例性地,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò)。在所述計(jì)算機(jī)程序指令在被所述計(jì)算機(jī)或處理器運(yùn)行時(shí)使計(jì)算機(jī)或處理器執(zhí)行步驟S716包括:
[0243]將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練視頻的不同幀中的邊界框之間的外觀相似度;
[0244]根據(jù)所述外觀相似度和所述訓(xùn)練視頻中的不同幀中的邊界框之間的距離計(jì)算所述訓(xùn)練視頻的不同幀中的邊界框之間的距離相似度;
[0245]將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符;以及
[0246]根據(jù)所標(biāo)注的標(biāo)識符和所獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,計(jì)算所述跟蹤損失函數(shù)值。
[0247]示例性地,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值。在所述計(jì)算機(jī)程序指令在被所述計(jì)算機(jī)或處理器運(yùn)行時(shí)使計(jì)算機(jī)或處理器執(zhí)行步驟S718包括:
[0248]根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0249]示例性地,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值。在所述計(jì)算機(jī)程序指令在被所述計(jì)算機(jī)或處理器運(yùn)行時(shí)使計(jì)算機(jī)或處理器執(zhí)行步驟S718包括:
[0250]根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0251 ]示例性地,所述計(jì)算機(jī)程序指令在被計(jì)算機(jī)或處理器運(yùn)行時(shí)還執(zhí)行以下步驟:
[0252]S980,根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符,分析所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。
[0253]示例性地,在所述計(jì)算機(jī)程序指令在被所述計(jì)算機(jī)或處理器運(yùn)行時(shí)使計(jì)算機(jī)或處理器執(zhí)行步驟S980包括:
[0254]將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符輸入至第一卷積神經(jīng)網(wǎng)絡(luò),經(jīng)由全連接層,輸出所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。
[0255]根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤裝置中的各模塊可以通過根據(jù)本發(fā)明實(shí)施例的處理器運(yùn)行在存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序指令來實(shí)現(xiàn),或者可以在根據(jù)本發(fā)明實(shí)施例的計(jì)算機(jī)程序產(chǎn)品的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)的計(jì)算機(jī)指令被計(jì)算機(jī)運(yùn)行時(shí)實(shí)現(xiàn)。
[0256]根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤方法及裝置、電子設(shè)備以及存儲(chǔ)介質(zhì),能夠針對視頻更好地完成目標(biāo)的檢測和跟蹤。顯著提高了目標(biāo)跟蹤的速度和準(zhǔn)確性。
[0257]盡管這里已經(jīng)參考附圖描述了示例實(shí)施例,應(yīng)理解上述示例實(shí)施例僅僅是示例性的,并且不意圖將本發(fā)明的范圍限制于此。本領(lǐng)域普通技術(shù)人員可以在其中進(jìn)行各種改變和修改,而不偏離本發(fā)明的范圍和精神。所有這些改變和修改意在被包括在所附權(quán)利要求所要求的本發(fā)明的范圍之內(nèi)。
[0258]本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
[0259]在本申請所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的設(shè)備實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)設(shè)備,或一些特征可以忽略,或不執(zhí)行。
[0260]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
[0261]類似地,應(yīng)當(dāng)理解,為了精簡本發(fā)明并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該本發(fā)明的的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如相應(yīng)的權(quán)利要求書所反映的那樣,其發(fā)明點(diǎn)在于可以用少于某個(gè)公開的單個(gè)實(shí)施例的所有特征的特征來解決相應(yīng)的技術(shù)問題。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0262]本領(lǐng)域的技術(shù)人員可以理解,除了特征之間相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0263]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0264]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的目標(biāo)跟蹤裝置中的一些模塊的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0265]應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
[0266]以上所述,僅為本發(fā)明的【具體實(shí)施方式】或?qū)Α揪唧w實(shí)施方式】的說明,本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤方法,其中所述神經(jīng)網(wǎng)絡(luò)模型包括特征提取神經(jīng)網(wǎng)絡(luò)、第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò),所述目標(biāo)跟蹤方法包括: S120,將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述待處理視頻的特征數(shù)據(jù); S140,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的至少一個(gè)目標(biāo)的邊界框;以及 S160,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo),其中所述標(biāo)識符用于指示所述至少一個(gè)目標(biāo)。2.如權(quán)利要求1所述的目標(biāo)跟蹤方法,其中,所述第一神經(jīng)網(wǎng)絡(luò)包括第一子神經(jīng)網(wǎng)絡(luò)和第二子神經(jīng)網(wǎng)絡(luò),所述步驟S140包括: S142,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的粗略位置;以及 S144,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的準(zhǔn)確位置和指示所述邊界框內(nèi)包括所述至少一個(gè)目標(biāo)的概率值。3.如權(quán)利要求1所述的目標(biāo)跟蹤方法,其中,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò),所述步驟S160包括: 將所述特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度; 根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計(jì)算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及 將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo)。4.如權(quán)利要求1或2所述的目標(biāo)跟蹤方法,其中,所述第一神經(jīng)網(wǎng)絡(luò)和/或所述特征提取神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)。5.如權(quán)利要求1所述的目標(biāo)跟蹤方法,所述目標(biāo)跟蹤方法還包括以下步驟: 使用訓(xùn)練視頻訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型,其中,在所述訓(xùn)練視頻中,針對訓(xùn)練目標(biāo)標(biāo)注了邊界框和標(biāo)識符,所述標(biāo)識符用于指示所述訓(xùn)練目標(biāo); 其中,所述使用訓(xùn)練視頻訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型包括: S112,將所述訓(xùn)練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述訓(xùn)練視頻的特征數(shù)據(jù); S114,將所述訓(xùn)練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框,并且根據(jù)所標(biāo)注的邊界框和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框計(jì)算檢測損失函數(shù)值; SI 16,將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,并根據(jù)所標(biāo)注的標(biāo)識符和所述第二神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符計(jì)算跟蹤損失函數(shù)值;以及S118,在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預(yù)設(shè)條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)以及所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)并且轉(zhuǎn)所述步驟S112,否則,停止對所述神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練并獲得訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)模型以用于跟蹤目標(biāo)。6.如權(quán)利要求5所述的目標(biāo)跟蹤方法,其中,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值,所述步驟SI 18包括: 根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)。7.如權(quán)利要求5所述的目標(biāo)跟蹤方法,其中,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值,所述步驟S118包括: 根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)。8.如權(quán)利要求5所述的目標(biāo)跟蹤方法,其中,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò),所述步驟S116包括: 將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練視頻的不同幀中的邊界框之間的外觀相似度; 根據(jù)所述外觀相似度和所述訓(xùn)練視頻中的不同幀中的邊界框之間的距離計(jì)算所述訓(xùn)練視頻的不同幀中的邊界框之間的距離相似度; 將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符;以及 根據(jù)所標(biāo)注的標(biāo)識符和所獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,計(jì)算所述跟蹤損失函數(shù)值。9.如權(quán)利要求1至3任一權(quán)利要求所述的目標(biāo)跟蹤方法,所述目標(biāo)跟蹤方法還包括: S180,根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符,分析所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。10.如權(quán)利要求9所述的目標(biāo)跟蹤方法,其中,所述步驟S180進(jìn)一步包括: 將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符輸入至第一卷積神經(jīng)網(wǎng)絡(luò),經(jīng)由全連接層,輸出所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。11.一種基于神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)跟蹤裝置,其中所述神經(jīng)網(wǎng)絡(luò)模型包括特征提取神經(jīng)網(wǎng)絡(luò)、第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò),所述目標(biāo)跟蹤裝置包括: 第一特征提取模塊,用于將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述待處理視頻的特征數(shù)據(jù); 檢測模塊,用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的至少一個(gè)目標(biāo)的邊界框;以及 跟蹤模塊,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo),其中所述標(biāo)識符用于指示所述至少一個(gè)目標(biāo)。12.如權(quán)利要求11所述的目標(biāo)跟蹤裝置,其中,所述第一神經(jīng)網(wǎng)絡(luò)包括第一子神經(jīng)網(wǎng)絡(luò)和第二子神經(jīng)網(wǎng)絡(luò),所述檢測模塊包括: 邊界框初定單元,用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的粗略位置;以及 邊界框確定單元,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡(luò),以獲得所述邊界框的準(zhǔn)確位置和指示所述邊界框內(nèi)包括所述至少一個(gè)目標(biāo)的概率值。13.如權(quán)利要求11所述的目標(biāo)跟蹤裝置,其中,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò),所述跟蹤模塊包括: 外觀相似度計(jì)算單元,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度; 距離相似度計(jì)算單元,用于根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計(jì)算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及 標(biāo)識符確定單元,用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),從而獲得所述邊界框的標(biāo)識符,以跟蹤所述待處理視頻中的所述至少一個(gè)目標(biāo)。14.如權(quán)利要求11或12所述的目標(biāo)跟蹤裝置,其中,所述第一神經(jīng)網(wǎng)絡(luò)和/或所述特征提取神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)。15.如權(quán)利要求11所述的目標(biāo)跟蹤裝置,所述目標(biāo)跟蹤裝置還包括訓(xùn)練模塊,用于使用訓(xùn)練視頻訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)模型,其中,在所述訓(xùn)練視頻中,針對訓(xùn)練目標(biāo)標(biāo)注了邊界框和標(biāo)識符,所述標(biāo)識符用于指示所述訓(xùn)練目標(biāo),所述訓(xùn)練模塊包括: 訓(xùn)練特征提取模塊,用于將所述訓(xùn)練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡(luò),以提取所述訓(xùn)練視頻的特征數(shù)據(jù); 檢測訓(xùn)練模塊,用于將所述訓(xùn)練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框,并且根據(jù)所標(biāo)注的邊界框和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框計(jì)算檢測損失函數(shù)值; 跟蹤訓(xùn)練模塊,用于將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第二神經(jīng)網(wǎng)絡(luò)以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,并根據(jù)所標(biāo)注的標(biāo)識符和所述第二神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符計(jì)算跟蹤損失函數(shù)值;以及 調(diào)整模塊,用于在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預(yù)設(shè)條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)以及所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù);否則,停止對所述神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練并獲得訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)模型以用于跟蹤目標(biāo)。16.如權(quán)利要求15所述的目標(biāo)跟蹤裝置,其中,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值,所述調(diào)整模塊用于根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)。17.如權(quán)利要求15所述的目標(biāo)跟蹤裝置,其中,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值,所述調(diào)整模塊用于根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權(quán)和,同時(shí)調(diào)整所述特征提取神經(jīng)網(wǎng)絡(luò)的參數(shù)、所述第一神經(jīng)網(wǎng)絡(luò)的參數(shù)和所述第二神經(jīng)網(wǎng)絡(luò)的參數(shù)。18.如權(quán)利要求15所述的目標(biāo)跟蹤裝置,其中,所述第二神經(jīng)網(wǎng)絡(luò)包括第三子神經(jīng)網(wǎng)絡(luò)和第四子神經(jīng)網(wǎng)絡(luò),所述跟蹤訓(xùn)練模塊包括: 外觀相似度訓(xùn)練計(jì)算單元,用于將所述訓(xùn)練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡(luò)獲得的所述訓(xùn)練目標(biāo)的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練視頻的不同幀中的邊界框之間的外觀相似度; 距離相似度訓(xùn)練計(jì)算單元,用于根據(jù)所述外觀相似度和所述訓(xùn)練視頻中的不同幀中的邊界框之間的距離計(jì)算所述訓(xùn)練視頻的不同幀中的邊界框之間的距離相似度; 標(biāo)識符訓(xùn)練獲得單元,用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡(luò),以獲得所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符;以及 跟蹤損失函數(shù)值計(jì)算單元,用于根據(jù)所標(biāo)注的標(biāo)識符和所獲得的所述訓(xùn)練目標(biāo)的邊界框的標(biāo)識符,計(jì)算所述跟蹤損失函數(shù)值。19.如權(quán)利要求11至13任一權(quán)利要求所述的目標(biāo)跟蹤裝置,其中,所述目標(biāo)跟蹤裝置還包括: 分析模塊,用于根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符,分析所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。20.如權(quán)利要求19所述的目標(biāo)跟蹤裝置,其中,所述分析模塊用于將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標(biāo)識符輸入至第一卷積神經(jīng)網(wǎng)絡(luò),經(jīng)由全連接層,輸出所述至少一個(gè)目標(biāo)的屬性和/或動(dòng)作。
【文檔編號】G06N3/08GK105976400SQ201610306250
【公開日】2016年9月28日
【申請日】2016年5月10日
【發(fā)明人】俞剛, 李超, 何奇正, 陳牧歌, 彭雨翔, 印奇
【申請人】北京曠視科技有限公司, 北京小孔科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1