亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于深度學(xué)習(xí)的服務(wù)機(jī)器人目標(biāo)檢測(cè)與定位方法與流程

文檔序號(hào):11216949閱讀:848來(lái)源:國(guó)知局
一種基于深度學(xué)習(xí)的服務(wù)機(jī)器人目標(biāo)檢測(cè)與定位方法與流程

本發(fā)明涉及圖像及視頻目標(biāo)檢測(cè)領(lǐng)域,特別涉及一種基于深度學(xué)習(xí)的服務(wù)機(jī)器人目標(biāo)檢測(cè)與定位方法



背景技術(shù):

目標(biāo)檢測(cè)與定位對(duì)于人來(lái)說(shuō)是再簡(jiǎn)單不過(guò)的任務(wù),但是對(duì)于機(jī)器人來(lái)說(shuō),很難直接得到圖像中有哪些目標(biāo)這種高層語(yǔ)義概念,也不清楚目標(biāo)出現(xiàn)在圖像中哪個(gè)區(qū)域。圖像中的目標(biāo)可能出現(xiàn)在任何位置,目標(biāo)的形態(tài)可能存在各種各樣的變化,圖像的背景千差萬(wàn)別,這些因素導(dǎo)致服務(wù)機(jī)器人的目標(biāo)檢測(cè)與定位并不是一個(gè)容易解決的任務(wù)。

傳統(tǒng)的目標(biāo)檢測(cè)方法一般分為三個(gè)階段,首先在給定的圖像上選擇一些候選區(qū)域,然后對(duì)這些區(qū)域提取特征,最后使用分類器進(jìn)行分類。

傳統(tǒng)方法存在許多問(wèn)題,比如:提取區(qū)域時(shí)為了保證不同的長(zhǎng)寬比,不同的尺度采取的窮舉策略,時(shí)間復(fù)雜度太高;采用人工的特征提取方法,雖然該方法在特定的特征在特定的目標(biāo)檢測(cè)問(wèn)題中取得了較好的效果,但這種人工的特征提取方法極大地依賴經(jīng)驗(yàn),而且在復(fù)雜場(chǎng)景下,特征匹配的復(fù)雜度高、魯棒性差;采用分步進(jìn)行的方法,耗時(shí)多且不具有實(shí)時(shí)性。

本發(fā)明設(shè)計(jì)的方法解決了依賴人工提取特征、復(fù)雜場(chǎng)景下魯棒性差以及不具有實(shí)時(shí)性的問(wèn)題,建立了整個(gè)服務(wù)機(jī)器人目標(biāo)檢測(cè)與定位系統(tǒng),可以直接應(yīng)用于家庭、辦公室、機(jī)場(chǎng)、酒店等多種場(chǎng)合。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于設(shè)計(jì)一種基于深度學(xué)習(xí)的實(shí)時(shí)性好、準(zhǔn)確率高的服務(wù)機(jī)器人目標(biāo)檢測(cè)與定位方法,實(shí)現(xiàn)服務(wù)機(jī)器人在復(fù)雜室內(nèi)環(huán)境下的目標(biāo)實(shí)時(shí)檢測(cè)與定位功能。

具體步驟如下:

(1)搭建服務(wù)機(jī)器人目標(biāo)檢測(cè)與識(shí)別系統(tǒng);

(2)采集服務(wù)機(jī)器人待檢測(cè)物體的圖像并制作包含訓(xùn)練集和驗(yàn)證集的圖像數(shù)據(jù)集;

(3)設(shè)計(jì)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括特征提取網(wǎng)絡(luò)、區(qū)域提取網(wǎng)絡(luò)以及分類與位置回歸網(wǎng)絡(luò);

(4)在深度學(xué)習(xí)框架下進(jìn)行訓(xùn)練得到模型,將模型移植到開發(fā)板上,并編寫腳本程序調(diào)用模型以及攝像頭進(jìn)行測(cè)試,設(shè)計(jì)服務(wù)機(jī)器人目標(biāo)檢測(cè)與定位系統(tǒng);

(5)服務(wù)機(jī)器人能夠根據(jù)攝像頭捕捉到的圖像確定目標(biāo)的類別同時(shí)給出目標(biāo)在圖像中的位置。

在一些實(shí)施方式中步驟(1)包括如下步驟:

(1.1)系統(tǒng)由nvidiajetsontx1開發(fā)板(以下簡(jiǎn)稱tx1)和usb攝像頭組成。tx1以nvidiamaxwelltm架構(gòu)為基礎(chǔ)構(gòu)建,含有256個(gè)cuda核心,提供每秒超過(guò)一萬(wàn)億次的浮點(diǎn)運(yùn)算的性能;且體積小巧、高度集成,適合嵌入式深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、圖形和gpu計(jì)算。usb攝像頭體積小巧、可調(diào)節(jié)俯仰角度。

(1.2)通過(guò)jetpack2.3給tx1安裝ubuntu系統(tǒng),并實(shí)現(xiàn)外部存儲(chǔ)空間擴(kuò)展以及交換空間,為搭建深度學(xué)習(xí)框架以及深度卷積神經(jīng)網(wǎng)絡(luò)提供足夠的空間。

(1.3)將usb攝像頭與之連接,并測(cè)試其可用性。

在一些實(shí)施方式中,步驟(2)具體包括如下步驟:

(2.1)通過(guò)各種網(wǎng)站上相關(guān)圖片下載和相機(jī)拍攝,采集每類物體的圖像,包括彩色的和黑白的,不同角度和光照條件下的,背景復(fù)雜程度不同的,圖片中物體個(gè)數(shù)以及物體在圖片中所占比例不同的圖片。室內(nèi)物體數(shù)據(jù)集包含電腦、桌子、椅子、沙發(fā)、盆栽、瓶子,共1300張圖像;兒童玩具數(shù)據(jù)集包含螺絲釘模型、螺絲帽模型、釘子模型、錘子模型,共1100張圖像。

(2.2)對(duì)原始圖像做隨機(jī)旋轉(zhuǎn)、隨機(jī)翻轉(zhuǎn)、隨機(jī)改變亮度、隨機(jī)剪裁等操作,使數(shù)據(jù)集更豐富。然后對(duì)原始圖像進(jìn)行標(biāo)注,框出每個(gè)目標(biāo)的位置并標(biāo)注出其標(biāo)簽,制作成xml格式作為標(biāo)簽文件。

(2.3)將每個(gè)數(shù)據(jù)集中的圖片均按照1:4的比例分為驗(yàn)證集和訓(xùn)練集。

(2.4)每個(gè)數(shù)據(jù)集均包含三個(gè)文件夾,分別為存儲(chǔ)圖片、標(biāo)簽文件以及訓(xùn)練驗(yàn)證文件。

在一些實(shí)施方式中,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)具體為:

該網(wǎng)絡(luò)結(jié)構(gòu)由特征提取網(wǎng)絡(luò)、區(qū)域提取網(wǎng)絡(luò)以及分類與位置回歸網(wǎng)絡(luò)組成。特征提取網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取,將提取出的原始特征同時(shí)輸入給區(qū)域提取網(wǎng)絡(luò)和分類與位置回歸網(wǎng)絡(luò)。區(qū)域提取網(wǎng)絡(luò)將原始特征圖轉(zhuǎn)化為感興趣區(qū)域特征圖,并將其輸入給分類與位置回歸網(wǎng)絡(luò)。分類與位置回歸網(wǎng)絡(luò)將輸入的原始特征和感興趣區(qū)域特征進(jìn)行處理,得到目標(biāo)的類別以及位置信息。

在一些實(shí)施方式中步驟(3)中的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特征提取網(wǎng)絡(luò)、區(qū)域提取網(wǎng)絡(luò)以及分類與位置回歸網(wǎng)絡(luò)組成。具體包括如下步驟:

(3.1)特征提取網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取,將提取出的原始特征同時(shí)輸入給區(qū)域提取網(wǎng)絡(luò)和分類與位置回歸網(wǎng)絡(luò)。

(3.2)區(qū)域提取網(wǎng)絡(luò)將原始特征圖轉(zhuǎn)化為感興趣區(qū)域特征圖,并將其輸入給分類與位置回歸網(wǎng)絡(luò)。

(3.3)分類與位置回歸網(wǎng)絡(luò)將輸入的原始特征和感興趣區(qū)域特征進(jìn)行處理,得到目標(biāo)的類別以及位置信息。

其中特征提取網(wǎng)絡(luò)由輸入層和5個(gè)卷積層(conv)組成,其中第一個(gè)、第二個(gè)和第五個(gè)卷積層后會(huì)緊跟一個(gè)最大池化層(max-pooling)和非線性化層(relu),每個(gè)卷積層后跟一個(gè)歸一化層(norm)。將數(shù)據(jù)集輸入到特征提取網(wǎng)絡(luò)中,將第五個(gè)卷積層(conv5)得到的特征圖作為原始特征同時(shí)輸入給區(qū)域提取網(wǎng)絡(luò)和分類與位置回歸網(wǎng)絡(luò)。

區(qū)域提取網(wǎng)絡(luò)通過(guò)一個(gè)小的卷積核在原始特征圖上滑動(dòng),在每個(gè)特征點(diǎn)上產(chǎn)生一系列預(yù)測(cè)框,根據(jù)一定的選擇機(jī)制得到一個(gè)新的特征向量,將其同時(shí)輸入給分類層和位置預(yù)測(cè)層,得到感興趣區(qū)域(rois),同樣作為分類與位置回歸網(wǎng)絡(luò)的輸入。

分類與位置回歸網(wǎng)絡(luò)將特征提取網(wǎng)絡(luò)得到的原始特征圖和區(qū)域提取網(wǎng)絡(luò)得到的感興趣區(qū)域同時(shí)輸入給一層池化層和兩層全連接層,得到感興趣區(qū)域特征圖;將感興趣區(qū)域特征圖同時(shí)輸入給softmax邏輯回歸層和位置回歸層,實(shí)現(xiàn)目標(biāo)分類和定位。

該網(wǎng)絡(luò)模型實(shí)現(xiàn)端對(duì)端的操作,只需將數(shù)據(jù)集輸入給輸入層即可得到目標(biāo)的類別及位置信息。

在一些實(shí)施方式中,所述步驟(4)包括如下步驟:

(4.1)將所設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)搭建在caffe框架下。

(4.2)將所設(shè)計(jì)的數(shù)據(jù)集輸入給卷積神經(jīng)網(wǎng)絡(luò),在geforcegtx1080gpu下訓(xùn)練。

(4.3)經(jīng)過(guò)訓(xùn)練得到目標(biāo)檢測(cè)與定位模型。

(4.4)利用訓(xùn)練得到的模型,編寫測(cè)試腳本程序,調(diào)用攝像頭,實(shí)現(xiàn)實(shí)時(shí)的目標(biāo)檢測(cè)與定位。

附圖說(shuō)明

圖1是本發(fā)明設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)圖

圖2是本發(fā)明設(shè)計(jì)的特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖

圖3是本發(fā)明設(shè)計(jì)的區(qū)域提取網(wǎng)絡(luò)結(jié)構(gòu)圖

圖4是本發(fā)明設(shè)計(jì)的分類與位置回歸網(wǎng)絡(luò)結(jié)構(gòu)圖

圖5是本發(fā)明中基于深度學(xué)習(xí)的目標(biāo)檢測(cè)與定位方法流程圖

具體實(shí)施方式

本發(fā)明提出了一種基于深度學(xué)習(xí)的服務(wù)機(jī)器人目標(biāo)檢測(cè)與定位方法,旨在實(shí)現(xiàn)服務(wù)機(jī)器人在復(fù)雜環(huán)境下高效準(zhǔn)確地進(jìn)行目標(biāo)檢測(cè)與定位。首先搭建服務(wù)機(jī)器人目標(biāo)檢測(cè)與識(shí)別系統(tǒng);然后采集服務(wù)機(jī)器人待檢測(cè)物體的圖像并制作包含訓(xùn)練集和驗(yàn)證集的圖像數(shù)據(jù)集。然后設(shè)計(jì)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括特征提取網(wǎng)絡(luò)、區(qū)域提取網(wǎng)絡(luò)以及分類與位置回歸網(wǎng)絡(luò)。接下來(lái)在深度學(xué)習(xí)框架下進(jìn)行訓(xùn)練得到模型,將模型移植到開發(fā)板上,并編寫腳本程序調(diào)用模型以及攝像頭進(jìn)行測(cè)試,在視頻中顯示多種目標(biāo)的類別以及在攝像頭捕獲到的圖像中的位置和準(zhǔn)確率。在室內(nèi)復(fù)雜環(huán)境下,服務(wù)機(jī)器人能夠根據(jù)攝像頭捕捉到的圖像確定目標(biāo)的類別同時(shí)給出目標(biāo)在圖像中的位置,為服務(wù)機(jī)器人抓取等操作提供有用信息,且準(zhǔn)確率高、實(shí)時(shí)性好。

在一些實(shí)施方式中,目標(biāo)檢測(cè)與定位系統(tǒng)具體為:

(1)系統(tǒng)由nvidiajetsontx1開發(fā)板(以下簡(jiǎn)稱tx1)和usb攝像頭組成。tx1以nvidiamaxwelltm架構(gòu)為基礎(chǔ)構(gòu)建,含有256個(gè)cuda核心,提供每秒超過(guò)一萬(wàn)億次的浮點(diǎn)運(yùn)算的性能;且體積小巧、高度集成,適合嵌入式深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、圖形和gpu計(jì)算。usb攝像頭體積小巧、可調(diào)節(jié)俯仰角度。

(2)通過(guò)jetpack2.3給tx1安裝ubuntu系統(tǒng),并實(shí)現(xiàn)外部存儲(chǔ)空間擴(kuò)展以及交換空間,為搭建深度學(xué)習(xí)框架以及深度卷積神經(jīng)網(wǎng)絡(luò)提供足夠的空間。

(3)將usb攝像頭與之連接,并測(cè)試其可用性。

在一些實(shí)施方式中,數(shù)據(jù)集的建立具體為:

(1)通過(guò)各種網(wǎng)站上相關(guān)圖片下載和相機(jī)拍攝,采集每類物體的圖像,包括彩色的和黑白的,不同角度和光照條件下的,背景復(fù)雜程度不同的,圖片中物體個(gè)數(shù)以及物體在圖片中所占比例不同的圖片。室內(nèi)物體數(shù)據(jù)集包含電腦、桌子、椅子、沙發(fā)、盆栽、瓶子,共1300張圖像;兒童玩具數(shù)據(jù)集包含螺絲釘模型、螺絲帽模型、釘子模型、錘子模型,共1100張圖像。

(2)對(duì)原始圖像做隨機(jī)旋轉(zhuǎn)、隨機(jī)翻轉(zhuǎn)、隨機(jī)改變亮度、隨機(jī)剪裁等操作,使數(shù)據(jù)集更豐富。然后對(duì)原始圖像進(jìn)行標(biāo)注,框出每個(gè)目標(biāo)的位置并標(biāo)注出其標(biāo)簽,制作成xml格式作為標(biāo)簽文件。

(3)將每個(gè)數(shù)據(jù)集中的圖片均按照1:4的比例分為驗(yàn)證集和訓(xùn)練集。

(4)每個(gè)數(shù)據(jù)集均包含三個(gè)文件夾,分別為存儲(chǔ)圖片、標(biāo)簽文件以及訓(xùn)練驗(yàn)證文件。

在一些實(shí)施方式中,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)具體為:

(1)該網(wǎng)絡(luò)結(jié)構(gòu)由特征提取網(wǎng)絡(luò)、區(qū)域提取網(wǎng)絡(luò)以及分類與位置回歸網(wǎng)絡(luò)組成。特征提取網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取,將提取出的原始特征同時(shí)輸入給區(qū)域提取網(wǎng)絡(luò)和分類與位置回歸網(wǎng)絡(luò)。區(qū)域提取網(wǎng)絡(luò)將原始特征圖轉(zhuǎn)化為感興趣區(qū)域特征圖,并將其輸入給分類與位置回歸網(wǎng)絡(luò)。分類與位置回歸網(wǎng)絡(luò)將輸入的原始特征和感興趣區(qū)域特征進(jìn)行處理,得到目標(biāo)的類別以及位置信息。

(2)特征提取網(wǎng)絡(luò)由輸入層和5個(gè)卷積層(conv)組成,其中第一個(gè)、第二個(gè)和第五個(gè)卷積層后會(huì)緊跟一個(gè)最大池化層(max-pooling)和非線性化層(relu),每個(gè)卷積層后跟一個(gè)歸一化層(norm)。將數(shù)據(jù)集輸入到特征提取網(wǎng)絡(luò)中,將第五個(gè)卷積層(conv5)得到的特征圖作為原始特征同時(shí)輸入給區(qū)域提取網(wǎng)絡(luò)和分類與位置回歸網(wǎng)絡(luò)。

(3)區(qū)域提取網(wǎng)絡(luò)通過(guò)一個(gè)小的卷積核在原始特征圖上滑動(dòng),在每個(gè)特征點(diǎn)上產(chǎn)生一系列預(yù)測(cè)框,根據(jù)一定的選擇機(jī)制得到一個(gè)新的特征向量,將其同時(shí)輸入給分類層和位置預(yù)測(cè)層,得到感興趣區(qū)域(rois),同樣作為分類與位置回歸網(wǎng)絡(luò)的輸入。

(4)分類與位置回歸網(wǎng)絡(luò)將特征提取網(wǎng)絡(luò)得到的原始特征圖和區(qū)域提取網(wǎng)絡(luò)得到的感興趣區(qū)域同時(shí)輸入給一層池化層和兩層全連接層,得到感興趣區(qū)域特征圖;將感興趣區(qū)域特征圖同時(shí)輸入給softmax邏輯回歸層和位置回歸層,實(shí)現(xiàn)目標(biāo)分類和定位。

(5)該網(wǎng)絡(luò)模型實(shí)現(xiàn)端對(duì)端的操作,只需將數(shù)據(jù)集輸入給輸入層即可得到目標(biāo)的類別及位置信息。

在一些實(shí)施方式中,識(shí)別測(cè)試方法具體為:

(1)將所設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)搭建在caffe框架下。

(2)將所設(shè)計(jì)的數(shù)據(jù)集輸入給卷積神經(jīng)網(wǎng)絡(luò),在geforcegtx1080gpu下訓(xùn)練。

(3)經(jīng)過(guò)訓(xùn)練得到目標(biāo)檢測(cè)與定位模型。

(4)利用訓(xùn)練得到的模型,編寫測(cè)試腳本程序,調(diào)用攝像頭,實(shí)現(xiàn)實(shí)時(shí)的目標(biāo)檢測(cè)與定位。

下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。

(1)網(wǎng)絡(luò)整體結(jié)構(gòu)

參見圖1,該網(wǎng)絡(luò)結(jié)構(gòu)由特征提取網(wǎng)絡(luò)、區(qū)域提取網(wǎng)絡(luò)以及分類與位置回歸網(wǎng)絡(luò)組成。特征提取網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取,將提取出的原始特征同時(shí)輸入給區(qū)域提取網(wǎng)絡(luò)和分類與位置回歸網(wǎng)絡(luò)。區(qū)域提取網(wǎng)絡(luò)將原始特征圖轉(zhuǎn)化為感興趣區(qū)域特征圖,并將其輸入給分類與位置回歸網(wǎng)絡(luò)。分類與位置回歸網(wǎng)絡(luò)將輸入的原始特征和感興趣區(qū)域特征進(jìn)行處理,得到目標(biāo)的類別以及位置信息。

(2)特征提取網(wǎng)絡(luò)

參見圖2,特征提取網(wǎng)絡(luò)由輸入層和5個(gè)卷積層(conv)組成,其中第一個(gè)、第二個(gè)和第五個(gè)卷積層后會(huì)緊跟一個(gè)最大池化層(max-pooling)和非線性化層(relu),每個(gè)卷積層后跟一個(gè)歸一化層(norm)。將數(shù)據(jù)集輸入到特征提取網(wǎng)絡(luò)中,將第五個(gè)卷積層(conv5)得到的特征圖作為原始特征同時(shí)輸入給區(qū)域提取網(wǎng)絡(luò)和分類與位置回歸網(wǎng)絡(luò)。

(3)區(qū)域提取網(wǎng)絡(luò)結(jié)構(gòu)

參見圖3,區(qū)域提取網(wǎng)絡(luò)通過(guò)一個(gè)小的卷積核在原始特征圖上滑動(dòng),在每個(gè)特征點(diǎn)上產(chǎn)生一系列預(yù)測(cè)框,根據(jù)一定的選擇機(jī)制得到一個(gè)新的特征向量,將其同時(shí)輸入給分類層和位置預(yù)測(cè)層,得到感興趣區(qū)域(rois),同樣作為分類與位置回歸網(wǎng)絡(luò)的輸入。

(4)分類與位置回歸網(wǎng)絡(luò)結(jié)構(gòu)

參見圖4,分類與位置回歸網(wǎng)絡(luò)將特征提取網(wǎng)絡(luò)得到的原始特征圖和區(qū)域提取網(wǎng)絡(luò)得到的感興趣區(qū)域同時(shí)輸入給一層池化層和兩層全連接層,得到感興趣區(qū)域特征圖;將感興趣區(qū)域特征圖同時(shí)輸入給softmax邏輯回歸層和位置回歸層,實(shí)現(xiàn)目標(biāo)分類和定位。

(5)檢測(cè)與定位方法流程

參見圖5,首先采集待識(shí)別物體的圖像,制作成圖像數(shù)據(jù)集;然后將所設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)搭建在caffe框架下,將數(shù)據(jù)集輸入卷積神經(jīng)網(wǎng)絡(luò),在geforcegtx1080gpu下進(jìn)行訓(xùn)練,經(jīng)過(guò)訓(xùn)練得到目標(biāo)檢測(cè)與定位模型;編寫腳本程序調(diào)用該模型,實(shí)現(xiàn)對(duì)于服務(wù)機(jī)器人的攝像頭捕捉到的圖像信息,實(shí)時(shí)輸出圖像中目標(biāo)類別及位置的功能。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1