亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度學習模型的交通標志識別系統(tǒng)的制作方法

文檔序號:11200179閱讀:992來源:國知局
基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度學習模型的交通標志識別系統(tǒng)的制造方法與工藝

本發(fā)明涉及一種計算機視覺和機器學習技術(shù),屬于目標檢測和識別的方法,具體涉及一種基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度學習模型的交通標志識別方法和系統(tǒng),適用于圖像或視頻中的交通標志的檢測和識別。



背景技術(shù):

近年來,無人駕駛發(fā)展愈發(fā)成熟,而輔助駕駛已經(jīng)進入實用階段,交通標志的識別是目前智能輔助輔助駕駛系統(tǒng)最重要的模塊之一,并且是無人駕駛技術(shù)的重要組成部分。

交通標志識別模塊通常包含定位檢測和分類識別兩個方面。

在交通標志的定位方面,可以定位出可能存在交通標志的區(qū)域。已有成果均采用基于顏色的方法實現(xiàn)圖像分割,適合于交通標志圖像分割的顏色空間包括rgb空間、hsi空間等,而本發(fā)明運用的是rgb空間。

在交通標志的識別方便,絕大部分學者均采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)識別分類交通標志,但是有著模型大,計算代價高,不適合移植至移動平臺的缺陷。

因此,計算代價低、模型可移植、模型體積小、準確率高的交通標志識別模塊在無人駕駛和輔助駕駛中發(fā)揮著重要的作用。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的是為了克服現(xiàn)有基于傳統(tǒng)深度學習的交通標志識別系統(tǒng)復雜高、參數(shù)多、難以移植至移動平臺等缺陷。

本發(fā)明改進的技術(shù)問題是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的計算量大,導致在移動平臺上識別速度慢的問題,提出了一種基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度網(wǎng)絡(luò)模型的交通標志識別方法。

本發(fā)明技術(shù)方案包含圖像采集、圖片預處理、交通標志識別、語音提醒四個模塊,如圖1。

1.圖像采集部分

該系統(tǒng)移植至移動平臺(android平臺),通過手機攝像頭或者車載行車記錄儀獲取每幀圖像輸入圖片預處理模塊。

2.圖片預處理部分

圖片預處理分為三個模塊:顏色定位、形狀檢測、圖片縮放。

顏色定位:利用交通標志的顏色特征(紅、黃、藍三色)可初步將交通標志提取出來。

形狀檢測:在顏色定位的基礎(chǔ)上,利用交通標志的形狀特征(三角形、圓形、矩形),檢測出包含交通標志的區(qū)域并截取出來。

圖片縮放:為了規(guī)范截取的圖片,將其統(tǒng)一為32*32的尺寸,并輸入交通標志識別模塊,處理后如圖2所示。

3.交通標志識別部分

交通識別模塊的技術(shù)方案是基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度學習網(wǎng)絡(luò)并利用遷移學習使其適應交通標志識別。緊湊型神經(jīng)網(wǎng)絡(luò)的設(shè)計原理為利用1x1的卷積核代替3x3卷積核,減少9倍參數(shù)輸入,其核心構(gòu)件為緊湊層,即將一層卷積層用壓縮層和擴展層代替,壓縮層為1x1卷積層,擴展層為1x1與3x3組合得到的組合層。為了適應交通標志識別,將圖3改進為如圖4所示網(wǎng)絡(luò)架構(gòu)。

4.語音提醒部分

該網(wǎng)絡(luò)具有速度快,體積小,準確率符合基本應用標準的特點,適用于移動平臺,并嵌入app當中,將分類識別出的交通標志已語音提醒的方式提醒司機。

本發(fā)明的優(yōu)點和積極效果在于:

本發(fā)明提供一種基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度學習模型的公路交通標志自動識和提醒系統(tǒng),此系統(tǒng)運用緊湊型神經(jīng)網(wǎng)絡(luò)進行遷移學習,有很高的實時性和很低的運算量,可移植至移動手機平臺,只需利用手機便可實現(xiàn)基本的公路交通標志識別和語音提醒,避免司機行車過程中疏忽導致的事故。

本發(fā)明的前期圖像預處理可以降低深度學習的輸入維數(shù)和圖像體積,并突出交通標志的特征。

本發(fā)明的深度神經(jīng)網(wǎng)絡(luò)模型在使用訓練集為gtsrb(德國交通標志識別基準,germantrafficsignrecognitionbenchmark)中的訓練集,包含訓練圖片39,209張,測試圖片12630張)時,參數(shù)比傳統(tǒng)的模型參數(shù)少上百倍,訓練完成的權(quán)重參數(shù)文件只有4mb左右卻達到93.5%的測試精度。

本發(fā)明具有識別交通標志的種類多、精度高、實時性好等優(yōu)勢,降低了光照變化、顏色褪色、運動模糊、復雜的背景等因素對圖像識別的影響,提高了抗干擾能力,識別準確率高,誤識別率低。

附圖說明

下面結(jié)合附圖和實施例對本發(fā)明進一步說明。

圖1本發(fā)明交通標志識別系統(tǒng)的模塊示意圖。

圖2本發(fā)明的圖片預處理前后對比圖。

圖3本發(fā)明的緊湊層結(jié)構(gòu)示意圖。

圖4本發(fā)明的基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)圖。

具體實施方式

下面結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案進行詳細說明。

如圖所示,本發(fā)明的基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度學習模型的交通標志識別方法和系統(tǒng)包括圖像采集、圖片預處理、交通標志識別、語音提醒四個模塊。其中,圖像采集主要負責采集包含交通標志的圖像;圖像預處理模塊主要負責檢測獲取的圖像中的交通標志并把其區(qū)域提取出來,在進行統(tǒng)一尺寸的縮放;交通標志識別模塊為核心模塊,利用遷移學習后的緊湊型神經(jīng)網(wǎng)絡(luò)進行交通標志識別分類;語音提醒模塊負責將識別出的交通標志提醒司機。

模塊一:圖像采集模塊。

本發(fā)明實施例中采用自主研發(fā)的android手機app,該app使用手機自帶的攝像頭以每秒20-30幀的速度進行錄像操作并將視頻文件保存下來,并將保存的圖片實時傳輸至預處理模塊。

模塊二:圖片預處理模塊。

本發(fā)明預處理模塊分為三部分,分別為顏色定位、形狀檢測、圖片縮放三個子模塊,并已此步驟進行圖片預處理。

步驟一:首先將獲取到的每幀圖片進行高斯模糊處理,利用二維高斯函數(shù)計算圖片矩陣權(quán)重(x,y為周邊坐標對于中心像素的相對坐標,σ為模糊半徑):

計算圖片的高斯模糊值:將得到權(quán)重矩陣與原有的色值矩陣相乘,得到高斯模糊后的中心像素色值。

設(shè)置紅黃藍三色的閥值,根據(jù)閥值構(gòu)建掩膜,并與高斯模糊處理后的圖片進行像素相加的位運算,運用大律法進行二值化處理,得到藍(紅或黃)色的主體位置,即顏色定位。

步驟二:首先定義與交通標志形狀大小相符的結(jié)構(gòu)元素(矩形、三角形、圓形),得到形態(tài)學內(nèi)核,再結(jié)合此內(nèi)核利進行形態(tài)學閉運算(先膨脹后腐蝕),計算形態(tài)學梯度(膨脹圖與腐蝕圖之差)保留輪廓。

最后提取所得到的輪廓并利用多邊形(矩形,三角形,圓形)逼近算法得到最大矩形的輪廓,以其為標準截取出矩形圖像,排除誤差的情況下此圖像包含識別所需的交通標志。其次步驟三:利用雙線性插值法對圖像進行縮放,得到統(tǒng)一的尺寸(由相鄰的四像素計算)

(dst為輸出圖像,src為輸入圖像,對于一個目的像素,設(shè)置坐標通過反向變換得到的浮點坐標為(i+u,j+v),其中i、j均為浮點坐標的整數(shù)部分,u、v為浮點坐標的小數(shù)部分,則這個像素得值dst(i+u,j+v)可由輸入圖像中坐標為(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)所對應的周圍四個像素的值決定)

dst(i+u,j+v)=(1-u)*(1-v)*src(i,j)+(1-u)*v*src(i,j+1)+u*(1-v)*src(i+1,j)+u*v*src(i+1,j+1)

模塊三:交通標志識別模塊。

步驟一:基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)模型構(gòu)建。

本模型的核心層為緊湊層,由1x1卷積核得到的卷積層(壓縮層)分別接上1x1卷積核的卷積層與3x3卷積核得到的卷積層,并組合此兩卷積層得到擴展層,如圖。

由于圖片預處理模塊得到的圖像為32x32像素,輸入為32x32x3的像素矩陣。

第一層為卷積層,卷積核3x3,步長為1,有效填充,得到的卷積層為28x28x36,并用relu函數(shù)激活。

第二層為池化層,2x2最大池化得到14x14x36矩陣。

第三層為緊湊層,首先利用壓縮層,將14x14x36輸入1x1的卷積核,深度為16,步長為1,有效填充,得到14x14x16的壓縮層,其次分別用1x1卷積核和3x3卷積核進行深度為32的擴展,進行組合得到14x14,x64的fire層,并用relu函數(shù)激活。

第四層為緊湊層,將第三層輸入1x1的卷積核進行深度為64的壓縮,再分別通過1x1x72、3x3x72的卷積核進行擴展并組合得到14x14x144的fire層,relu函數(shù)激活。

第五層為池化層,通過2x2的最大池化得到7x7x144的池化層。

第六層為卷積層,通過1x1的卷積核,深度為43,步長為一,有效填充,得到7x7x43的壓縮卷積層。

第七層為平均池化層,通過7x7x43的平均池化操作得到1x1x43的平均池化層。

通過平鋪操作轉(zhuǎn)化為43的1維矩陣并與偏置相加得到43個類型的輸出。

模型框架圖3,步驟二:訓練模型。

訓練集為gtsrb(德國交通標志識別基準,germantrafficsignrecognitionbenchmark)中的訓練集,包含訓練圖片39,209張,測試圖片12630張。

訓練集并不需要圖片預處理。

初始化參數(shù),將各層的權(quán)重通過正態(tài)分布的隨機初始化,均值為0,標準差為0.1,并設(shè)定隨機梯度下降學習率為0.0009,循環(huán)次數(shù)為25。

訓練組為每次隨機選取的128個樣本。

訓練樣本(x,y)分別為輸入和結(jié)果的比對標準。

將訓練樣本輸入至上述構(gòu)建的基于緊湊型神經(jīng)網(wǎng)絡(luò)的深度網(wǎng)絡(luò)模型,得到最終的43個分類結(jié)果。

保存訓練完成的模型。

步驟三:測試模型。

將測試集用于測試保存的模型,檢測模型的準確率,并與個傳統(tǒng)模型比對。

模塊四:語音提醒模塊。

首先,連接圖像采集、圖片預處理、語音提醒模塊。其次,將得到的預處理后的圖像輸入訓練好的模型,得出結(jié)果,并通過app軟件的語音提醒功能提醒司機。

最后,司機可以在歷史記錄中反饋結(jié)果,用于修改優(yōu)化模型。

以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1