一種深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機視覺技術(shù)領(lǐng)域,尤其涉及一種深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法和裝 置。
【背景技術(shù)】
[0002] 深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,一般具有含多隱層的多層感知器的結(jié)構(gòu)可以 被定義為深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征然后抽取出抽象的高層特征以發(fā)現(xiàn)數(shù) 據(jù)的分布式特征表示。深度學(xué)習(xí)是機器領(lǐng)域中一系列試圖使用多重非線性變換對數(shù)據(jù)進行 多層抽樣的算法。深度學(xué)習(xí)是機器學(xué)習(xí)中表征學(xué)習(xí)方法的一類。一幅圖像可以使用多種方 式表示,而某些特定的表示方法可以讓機器學(xué)習(xí)算法更加容易進行學(xué)習(xí)。而表征學(xué)習(xí)的目 標(biāo)是尋求更好的表示方法并建立更好的模型來學(xué)習(xí)這些表示方法。2007年后由杰弗里?辛 頓(Geoffrey Hinton)和魯斯蘭·薩拉赫丁諾夫(Ruslan Salakhutdinov)提出了一種在前 饋神經(jīng)網(wǎng)絡(luò)中進行有效訓(xùn)練的算法,這一算法將網(wǎng)絡(luò)中的每一層視為無監(jiān)督的受限玻爾茲 曼機,再使用有監(jiān)督的反向傳播算法進行調(diào)優(yōu)。1992年,施密德胡伯曾在遞歸神經(jīng)網(wǎng)絡(luò)上提 出一種類似的訓(xùn)練方法,并在實驗中證明這一訓(xùn)練方法能夠有效提高有監(jiān)督學(xué)習(xí)的執(zhí)行速 度.自深度學(xué)習(xí)出現(xiàn)以來,它已成為很多領(lǐng)域,尤其是在計算機視中,成為各種領(lǐng)先系統(tǒng)的 一部分。在通用的用于檢驗的數(shù)據(jù)集,例如圖像識別中的ImageNe t,C i f ar 10上的實驗證明, 深度學(xué)習(xí)能夠提高識別的精度。另外,硬件的進步也是深度學(xué)習(xí)重新獲得關(guān)注的重要因素。 高性能圖形處理器的出現(xiàn)極大地提高了數(shù)值和矩陣運算的速度,使得機器學(xué)習(xí)算法的運行 時間得到了顯著的縮短。
[0003]當(dāng)前,在交通場景分割中使用最多的是超像素(superpixel)預(yù)處理。將圖像中許 多相似的的像素點結(jié)合到一起,然后在后期作為一個整體處理獲得一個整體圖像塊,稱之 為超像素。由于基于像素級的目標(biāo)識別/分割,不能給目標(biāo)的整體一個清晰的判斷。同時,由 于單個像素或小數(shù)像素的噪聲會誤判目標(biāo),也可能把鄰域內(nèi)的像素點判斷為目標(biāo),甚至?xí)?出現(xiàn)把感興趣區(qū)域(Region of Interest,R0I)誤判為背景信息。另一方面,像素級的分類 與判別是不能給出目標(biāo)區(qū)域的邊界信息,最多只能給出大概的位置。與人類視覺的著重點 一樣,像素并不是主要關(guān)注的對象,單一的某個像素點不能解析出一個某個目標(biāo)物體或者 區(qū)域,只能通過像素結(jié)合才能存在一個整體。
[0004] 目前除了基于超像素作預(yù)處理的深度學(xué)習(xí)訓(xùn)練外,在發(fā)明專利申請名稱為"一種 基于多分辨率卷積神經(jīng)網(wǎng)絡(luò)交通標(biāo)志識別方法"(申請?zhí)?01510002850. X,公開號 104537393A)的專利中,涉及到使用兩個不同的分辨率作為預(yù)處理來對卷積神經(jīng)網(wǎng)絡(luò)進行 訓(xùn)練,其高分辨率輸入映射出全局和輪廓的特征,而低分辨率的圖像來映射局部與細節(jié)特 征,同時由于分辨率降低,提高了模型訓(xùn)練的速度。
[0005] 上述兩種方法都在一定程度解決了深度學(xué)習(xí)訓(xùn)練的精度和速度問題,但是其結(jié)果 還是并不理想,同時還存在如下所述的問題。
[0006] 然而,在超像素預(yù)處理中,盡管超像素具體很好的圖像邊界信息,但是局部冗余信 息也非常多,會造成在同一區(qū)域內(nèi)不同分類的大量互相干擾的噪聲。而以超像素作為疾病 計算處理單元的話,因為將每一個像素聚合成不同的群組需要進行大量的預(yù)計算,如果分 辨率在比較高的情況下,效率比較低下。在超像素劃分的塊中,要組成不同的區(qū)域,實際上 有很多像素會被重復(fù)標(biāo)記,生成的訓(xùn)練樣本會大量增加,特別是在交通場景大部分區(qū)域過 渡都非常相似的情況下,除了消耗大量的計算能力外,還會導(dǎo)致精度下降。
[0007] 發(fā)明專利"一種基于多分辨率卷積神經(jīng)網(wǎng)絡(luò)交通標(biāo)志識別方法"(申請?zhí)?201510002850.X,公開號104537393A)中,雖然使用了兩種不同分辨率來進行訓(xùn)練,但由于 兩個分辨率的之間差距太大,導(dǎo)致大量的信息丟失,最終并不能很好地解決精度問題,而 且,低分辨率的速度處理雖然有提高,但是考慮到高分辨率處理的情況,實際性能提高有 限。
[0008] 故,有必要提出一種新的技術(shù)方案,以解決上述技術(shù)問題。
【發(fā)明內(nèi)容】
[0009] 鑒于此,本發(fā)明實施例提供一種深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法和裝置,以提高深度學(xué) 習(xí)訓(xùn)練中特征提取的精度。
[0010] 本發(fā)明實施例的第一方面,提供一種深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法,所述方法包括:
[0011] 將訓(xùn)練集中的圖像分割為多個不同的patch;
[0012] 將所述多個不同的patch轉(zhuǎn)換為包括多個不同尺度的圖像的圖像集;
[0013] 對所述圖像集進行尺度歸一化,并將歸一化后的圖像集輸入至深度神經(jīng)網(wǎng)絡(luò)系 統(tǒng),以訓(xùn)練所述深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)。
[0014] 本發(fā)明實施例的第二方面,提供一種深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練裝置,所述裝置包括:
[0015] 分割模塊、轉(zhuǎn)換模塊以及處理模塊;
[0016] 所述分割模塊,用于將訓(xùn)練集中的圖像分割為多個不同的patch;
[0017] 所述轉(zhuǎn)換模塊,用于將所述多個不同的patch轉(zhuǎn)換為包含多個不同尺度的圖像的 圖像集;
[0018] 所述處理模塊,用于對所述圖像集進行尺度歸一化,并將歸一化后的圖像集輸入 至深度神經(jīng)網(wǎng)絡(luò)系統(tǒng),以訓(xùn)練所述深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)。
[0019] 本發(fā)明實施例與現(xiàn)有技術(shù)相比存在的有益效果是:本發(fā)明實施例將訓(xùn)練集中的圖 像分割為多個不同的patch,將所述多個不同的patch轉(zhuǎn)換為包括多個不同尺度的圖像的圖 像集,對所述圖像集進行尺度歸一化,并將歸一化后的圖像集輸入至深度神經(jīng)網(wǎng)絡(luò)系統(tǒng),以 訓(xùn)練所述深度神經(jīng)網(wǎng)絡(luò)系統(tǒng),提高了深度學(xué)習(xí)訓(xùn)練中局部特征提取的精度。
【附圖說明】
[0020] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述 中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些 實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些 附圖獲得其他的附圖。
[0021] 圖1是本發(fā)明實施例一提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法的實現(xiàn)流程圖;
[0022] 圖2是本發(fā)明實施例一提供的將輸入圖像分割為大小相同、圖像信息不同的mXn 個patch的示例圖;
[0023] 圖3是本發(fā)明實施例一提供的采用高斯金字塔算法與拉普拉斯金字塔算法對 patch進行多尺度圖像轉(zhuǎn)換后的示例圖;
[0024] 圖4是本發(fā)明實施例二提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法的實現(xiàn)流程圖;
[0025]圖5是本發(fā)明實施例三提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法的實現(xiàn)流程圖;
[0026] 圖6a是在KITTI_ROAD、LabelMe與CamVid數(shù)據(jù)集中取復(fù)雜的交通場景(含有多條道 路)分別采用原圖、superpixel、patch、多尺度和patch+多尺度訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)后進行特 征提取的精度比較圖;圖6b是在KITTI-ROAD、LabelMe與CamVid數(shù)據(jù)集中取復(fù)雜的交通場景 (含有多條道路)分別采用原圖、superpixel、patch、多尺度和patch-多尺度訓(xùn)練反卷積神 經(jīng)網(wǎng)絡(luò)后進行特征提取的精度比較圖;
[0027] 圖7是本發(fā)明實施例四提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練裝置的組成示意圖;
[0028] 圖8是本發(fā)明實施例五提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練裝置的組成示意圖;
[0029] 圖9是本發(fā)明實施例六提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練裝置的組成示意圖。
【具體實施方式】
[0030] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0031] 實施例一:
[0032] 圖1示出了本發(fā)明實施例一提供的深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法的實現(xiàn)流程,所述實 現(xiàn)流程詳述如下:
[0033]在步驟S101中,將訓(xùn)練集中的圖像分割為多個不同的patch;
[0034] 在本發(fā)明實施例中,所述patch是在訓(xùn)練集中的圖像中摳出的任意大小的圖像區(qū) 域,所述patch的大小小于所述圖像,較佳的是,所述patch可以為正方形或長方形。所述訓(xùn) 練集包括輸入圖像和所述輸入圖像對應(yīng)的ground truth,所述ground truth是一張人工標(biāo) 定的像素標(biāo)記。如圖2是將訓(xùn)練集中的輸入圖像分割為大小相同、圖像信息不同的mXn個 pat