亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于YOLOv9和擴(kuò)散模型的輸電線路異物檢測(cè)方法

文檔序號(hào):39729541發(fā)布日期:2024-10-22 13:34閱讀:23來源:國(guó)知局
基于YOLOv9和擴(kuò)散模型的輸電線路異物檢測(cè)方法

本發(fā)明屬于圖像目標(biāo)檢測(cè),涉及一種基于yolov9和擴(kuò)散模型的輸電線路異物檢測(cè)方法。


背景技術(shù):

1、各種輸電線路遍布在居民區(qū)、鐵路網(wǎng)等地方,容易被氣球、風(fēng)箏、鳥巢等異物附著,從而影響到輸電線路的電力傳輸。為了防止發(fā)生這些事故,及時(shí)發(fā)現(xiàn)輸電線路上的異物是重中之重。如果僅用傳統(tǒng)人工的方式來查看輸電線路是否存在異物將會(huì)是巨大的工程,隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺中的目標(biāo)檢測(cè)領(lǐng)域的發(fā)展,其分為了兩階段目標(biāo)檢測(cè)方法和單階段目標(biāo)檢測(cè)方法,均可部署到邊緣設(shè)備,通過目標(biāo)檢測(cè)算法結(jié)合邊緣設(shè)備來識(shí)別復(fù)雜繁多的輸電線路上的異物會(huì)更加適合。

2、其中,兩階段目標(biāo)檢測(cè)方法雖然精度更高,但是耗費(fèi)算力更大,推理很慢,由于邊緣設(shè)備本身算力小,會(huì)導(dǎo)致推理速度以及精度都會(huì)急劇降低,若推理速度慢,就不能夠及時(shí)發(fā)現(xiàn)輸電線路的異物,若檢測(cè)精度低,會(huì)導(dǎo)致檢測(cè)的異物不準(zhǔn)確,甚至無法檢測(cè)出異物,都會(huì)使得輸電線路安全性降低。而單階段目標(biāo)檢測(cè)方法,如yolov9算法,由于其實(shí)時(shí)性以及端到端的特性,相對(duì)于兩階段目標(biāo)檢測(cè)方法,推理速度快,算力要求更低。但使用yolov9算法部署到邊緣設(shè)備仍會(huì)有算力不足的問題,導(dǎo)致推理效果不好;并且輸電線路異物數(shù)據(jù)集收集繁瑣且數(shù)據(jù)量少,需要補(bǔ)充大量數(shù)據(jù)集來訓(xùn)練模型。

3、由于輸電線路的異物本身出現(xiàn)的概率低、情況少,收集數(shù)據(jù)集時(shí)困難,會(huì)使得訓(xùn)練數(shù)據(jù)集也較少,而yolo系列(包括yolov9)的模型都比較復(fù)雜,如果訓(xùn)練數(shù)據(jù)集較少,會(huì)導(dǎo)致模型過擬合,所以需要數(shù)據(jù)增強(qiáng)來加強(qiáng)模型的訓(xùn)練。但傳統(tǒng)的剪切、粘貼、mosaic等數(shù)據(jù)增強(qiáng)方法都會(huì)丟失圖像本身的真實(shí)性,使模型無法學(xué)習(xí)到真實(shí)特征;也有使用生成對(duì)抗網(wǎng)絡(luò)(gan)生成圖像進(jìn)行數(shù)據(jù)增強(qiáng)的方式,但是生成對(duì)抗網(wǎng)絡(luò)(gan)由于其訓(xùn)練模型時(shí)不穩(wěn)定,生成的圖像容易良莠不齊,并且沒有多樣性。

4、而文生圖擴(kuò)散模型由于其穩(wěn)定、生成的圖像真實(shí)以及可根據(jù)文本標(biāo)簽生成同類別的其他物體的特性,可用于作為數(shù)據(jù)增強(qiáng)的方法來提升模型的泛化能力以及精度。因此,如何設(shè)計(jì)一個(gè)輕量化的實(shí)時(shí)目標(biāo)檢測(cè)網(wǎng)絡(luò)yolov9,并且利用文生圖擴(kuò)散模型生成效果真實(shí)的圖像來增強(qiáng)數(shù)據(jù),以實(shí)現(xiàn)在算力低的情況下還能夠達(dá)到輸電線路異物檢測(cè)的良好效果,這對(duì)輸電線路安全有重要意義。

5、由于實(shí)時(shí)檢測(cè)輸電線路異物的設(shè)備都為邊緣設(shè)備,由于邊緣設(shè)備本身算力低,而使用yolo系列(包括yolov9)算法需要兼顧推理速度、fps和精度的情況下仍需要足夠的算力,因此將部署到邊緣設(shè)備的模型進(jìn)行輕量化改進(jìn)是至關(guān)重要的。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種基于yolov9和擴(kuò)散模型的輸電線路異物檢測(cè)方法。

2、本發(fā)明通過下述技術(shù)方案來實(shí)現(xiàn)。

3、基于yolov9和擴(kuò)散模型的輸電線路異物檢測(cè)方法,包括以下步驟:

4、s1、獲取輸電線路異物圖像并進(jìn)行數(shù)據(jù)標(biāo)注,得到輸電線路異物圖像數(shù)據(jù)集;

5、s2、利用文生圖擴(kuò)散模型進(jìn)行多模態(tài)數(shù)據(jù)增強(qiáng),得到數(shù)據(jù)增強(qiáng)后的圖像數(shù)據(jù)集,并劃分為訓(xùn)練集及驗(yàn)證集;

6、s3、使用公共數(shù)據(jù)集(coco2017)對(duì)改進(jìn)yolov9模型進(jìn)行預(yù)訓(xùn)練,得到最佳的預(yù)訓(xùn)練權(quán)重;

7、s4、將步驟s2所得訓(xùn)練集輸入預(yù)訓(xùn)練后的改進(jìn)yolov9模型進(jìn)行訓(xùn)練,每輪對(duì)驗(yàn)證集進(jìn)行驗(yàn)證,獲取效果最好的權(quán)重和超參數(shù),得到輸電線路異物檢測(cè)模型;

8、s5、將輸電線路異物檢測(cè)模型配置到邊緣設(shè)備上實(shí)現(xiàn)輸電線路異物檢測(cè);

9、其中,所述改進(jìn)yolov9模型包括骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)和可編程梯度信息模塊;骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)依次連接構(gòu)成主分支,可編程梯度信息模塊連接骨干網(wǎng)絡(luò),可編程梯度信息模塊作為輔助分支,頸部網(wǎng)絡(luò)采用高層次篩選特征融合金字塔(hs-fpn);采用mobilenetv4-small網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),骨干網(wǎng)絡(luò)包括依次設(shè)置的mnv4-1模塊、mnv4-2模塊、mnv4-3模塊、mnv4-4模塊和mnv4-5模塊,其中mnv4-1模塊包含一個(gè)卷積歸一化模塊(convbn),mnv4-2模塊由連續(xù)兩個(gè)卷積歸一化模塊串聯(lián)而成,mnv4-3模塊由一個(gè)第一通用倒置瓶頸塊(uib1)、三個(gè)第二通用倒置瓶頸塊(uib2)及另一個(gè)第一通用倒置瓶頸塊(uib1)串聯(lián)而成,mnv4-4模塊由連續(xù)兩個(gè)第一通用倒置瓶頸塊(uib1)及四個(gè)通用倒置瓶頸塊(uib2)串聯(lián)而成,mnv4-5模塊由兩個(gè)卷積歸一化模塊(convbn)串聯(lián)而成。

10、進(jìn)一步優(yōu)選,文生圖擴(kuò)散模型包括語言模型、文本編碼器、圖像編碼器、圖文配對(duì)的多模態(tài)模型(clip)、變分自編碼器(vae)和u-net網(wǎng)絡(luò),變分自編碼器(vae)包括編碼器和解碼器,通過語言模型、文本編碼器和圖像編碼器對(duì)輸電線路異物圖像數(shù)據(jù)集進(jìn)行處理,得到對(duì)應(yīng)的文本特征向量和圖像特征向量,用于訓(xùn)練圖文配對(duì)的多模態(tài)模型,向訓(xùn)練后的圖文配對(duì)的多模態(tài)模型輸入異物的文本描述及背景的文本描述,生成文本編碼向量;將隨機(jī)矩陣輸入變分自編碼器(vae)的編碼器中生成潛在空間低維矩陣,將潛在空間低維矩陣、文本編碼向量、自定義的異物位置信息、背景初始信息、噪點(diǎn)強(qiáng)度輸入u-net網(wǎng)絡(luò)中進(jìn)行噪聲裁剪及合并操作,以及擴(kuò)散加噪操作和反向擴(kuò)散去噪操作,生成低維圖像矩陣,將低維圖像矩陣輸入變分自編碼器(vae)的解碼器之中進(jìn)行解碼,生成重構(gòu)圖像,重構(gòu)圖像和原有的輸電線路異物圖像組成數(shù)據(jù)增強(qiáng)后的圖像數(shù)據(jù)集。

11、進(jìn)一步優(yōu)選,訓(xùn)練圖文配對(duì)的多模態(tài)模型時(shí),將文本特征向量及圖像特征向量構(gòu)建為圖像-文本對(duì),計(jì)算圖像-文本對(duì)的相似度對(duì)比損失,用于訓(xùn)練圖文配對(duì)的多模態(tài)模型。

12、進(jìn)一步優(yōu)選,向訓(xùn)練后的圖文配對(duì)的多模態(tài)模型輸入異物的文本描述及背景的文本描述所構(gòu)成的文本信息t,通過圖文配對(duì)的多模態(tài)模型生成文本編碼向量zt={t1,?t2,…,tn,tbg?}?,其中,?t1,?t2,…,tn分別為第1,2,…,n條對(duì)異物的文本描述所對(duì)應(yīng)的文本編碼向量,tbg為背景的文本編碼向量。

13、進(jìn)一步優(yōu)選,生成低維圖像矩陣的過程為:

14、步驟1:給定自定義的異物位置信息以及固定的背景初始信息,其中分別為第1,2,…,m個(gè)異物的位置信息,m≤n,即一個(gè)異物至少有一條文本描述;將異物位置信息以及固定的背景初始信息輸入u-net網(wǎng)絡(luò)中生成異物位置噪聲信息zlm={zl1,?zl2,…,zlm}以及背景噪聲信息zbg,其中zl1,?zl2,…,zlm分別為第1,2,…,m個(gè)異物位置噪聲信息;?然后在背景噪聲信息上進(jìn)行異物位置噪聲信息的裁剪和合并操作,得到裁剪和合并之后的含有所有異物位置噪聲信息的噪聲?:

15、;

16、其中,為噪點(diǎn)強(qiáng)度;

17、步驟2:變分自編碼器(vae)的編碼器將輸入的隨機(jī)矩陣映射到潛在空間中得到潛在空間低維矩陣z,,其中為給定隨機(jī)矩陣時(shí)潛在空間低維矩陣??的條件概率分布,為編碼器生成的均值,為編碼器生成的標(biāo)準(zhǔn)差,為編碼器的參數(shù);

18、步驟3:將文本編碼向量zt、含有所有異物位置噪聲信息的噪聲和潛在空間低維矩陣輸入u-net網(wǎng)絡(luò),不斷執(zhí)行擴(kuò)散加噪過程和反向擴(kuò)散去噪過程,生成低維圖像矩陣。

19、進(jìn)一步優(yōu)選,頸部網(wǎng)絡(luò)使用的高層次篩選特征融合金字塔(hs-fpn)和三個(gè)repncspelan4特征融合模塊,?高層次篩選特征融合金字塔包括三個(gè)坐標(biāo)注意力機(jī)制模塊、兩個(gè)選擇性特征融合模塊,首先將mnv4-3模塊提取的8倍下采樣特征、mnv4-4模塊提取的16倍下采樣模塊及mnv4-5模塊提取的32倍下采樣模塊分別經(jīng)過三個(gè)坐標(biāo)注意力機(jī)制模塊消除冗余數(shù)據(jù),壓縮特征,然后分別經(jīng)過1×1卷積層改變通道數(shù),分別得到低級(jí)特征、中級(jí)特征和高級(jí)特征;

20、高級(jí)特征通過其中一個(gè)repncspelan4特征融合模塊進(jìn)行特征融合之后得到第一個(gè)輸出特征;

21、通過其中一個(gè)選擇性特征融合模塊將高級(jí)特征和中級(jí)特征融合,然后經(jīng)過一個(gè)repncspelan4特征融合模塊進(jìn)行特征融合之后得到第二個(gè)輸出特征;

22、通過另一個(gè)選擇性特征融合模塊將高級(jí)特征和低級(jí)特征融合,然后經(jīng)過一個(gè)repncspelan4特征融合模塊進(jìn)行特征融合之后得到第三個(gè)輸出特征。

23、進(jìn)一步優(yōu)選,對(duì)于mobilenetv4-small網(wǎng)絡(luò)的參數(shù)設(shè)計(jì)采用兩階段神經(jīng)搜索架構(gòu)(tu-nas),分別確定最佳卷積核尺寸和通用倒置瓶頸塊(uib)配置。

24、進(jìn)一步優(yōu)選,對(duì)卷積歸一化模塊進(jìn)一步改進(jìn),改進(jìn)后的卷積歸一化模塊包括普通卷積和深度可分離卷積,首先通過普通卷積提取到圖像的特征,然后使用深度可分離卷積進(jìn)行空間特征的再次提取,然后將提取到的特征通道進(jìn)行拆分成兩部分,一部分不變,另一部分進(jìn)行點(diǎn)卷積操作,點(diǎn)卷積將通道特征進(jìn)行融合,然后經(jīng)過星形運(yùn)算進(jìn)行逐元素相乘操作,將兩個(gè)分支的特征進(jìn)一步融合,然后進(jìn)行批歸一化,并使用h-swish激活函數(shù)。

25、進(jìn)一步優(yōu)選,將骨干網(wǎng)絡(luò)中提取出來的8倍、16倍以及32倍下采樣特征輸入可編程梯度信息模塊之中,可編程梯度信息模塊將得到的分類以及回歸的梯度信息補(bǔ)充到主分支之中。

26、進(jìn)一步優(yōu)選,頭部網(wǎng)絡(luò)使用聚焦損失函數(shù)(focaler-iou),并引入調(diào)節(jié)因子d和u:

27、;

28、其中,為重構(gòu)后的真實(shí)框和預(yù)測(cè)框的交并比,iou為交并比,d和u均為調(diào)節(jié)因子,調(diào)節(jié)因子取值范圍在(0,1)區(qū)間,聚焦損失函數(shù)(focaler-iou)的損失為。

29、本發(fā)明具有以下優(yōu)點(diǎn):

30、(1)本發(fā)明提出使用文生圖擴(kuò)散模型進(jìn)行多模態(tài)數(shù)據(jù)增強(qiáng),因?yàn)槲纳鷪D擴(kuò)散模型訓(xùn)練十分穩(wěn)定,生成的圖像普遍良好且真實(shí),不會(huì)出現(xiàn)時(shí)好時(shí)壞的情況,并且可以基于輸入的文本生成所想要生成的圖像,大大增加圖像的多樣性。本發(fā)明的多模態(tài)數(shù)據(jù)增強(qiáng)可以生成真實(shí)的、布局符合邏輯的圖像,不會(huì)丟失其真實(shí)信息,并且生成過程穩(wěn)定,圖像質(zhì)量普遍良好,且可以通過輸入文本以及異物真實(shí)框位置信息來得到所想要生成的圖像,使得圖像更具有多樣性,且得到符合真實(shí)框位置信息的數(shù)據(jù)增強(qiáng)的圖像,不需要額外進(jìn)行人工標(biāo)注,利于訓(xùn)練yolov9模型,并且提高其泛化能力。

31、(2)本發(fā)明采用mobilenetv4-small網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),并利用兩階段的神經(jīng)搜索架構(gòu)(tu?nas)進(jìn)行神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,得到符合算力較低的邊緣設(shè)備的帕累托最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),可以最大程度的利用好該邊緣設(shè)備的算力。改進(jìn)卷積歸一化模塊,使用h-swish激活函數(shù)更好地緩解梯度消失,提高一定的泛化能力。

32、(3)頸部網(wǎng)絡(luò)使用更輕量的高層次篩選特征融合金字塔(hs-fpn)來融合特征,并且保留不基于錨框的方式,將分類和回歸進(jìn)行解耦,可以有效減少錨框的冗余,可以提高模型的推理效率。邊界框回歸損失函數(shù)使用聚焦損失函數(shù)(focaler-iou)進(jìn)行改進(jìn),計(jì)算損失時(shí)更加簡(jiǎn)便,并且引入調(diào)節(jié)因子,降低檢測(cè)正確的樣本以后的損失貢獻(xiàn),增加對(duì)困難樣本損失貢獻(xiàn),提高輕量網(wǎng)絡(luò)的利用率。

33、(4)頭部網(wǎng)絡(luò)不使用非極大值抑制(nms),即使用nms-free模塊,在訓(xùn)練時(shí)采用一個(gè)真實(shí)框分配多個(gè)預(yù)測(cè)框分支(one-many一對(duì)多分支)與一個(gè)真實(shí)框分配一個(gè)預(yù)測(cè)框分支(one-one一對(duì)一分支)并行的方式豐富信息,采用統(tǒng)一的匹配度量,并且利用可編程梯度信息進(jìn)一步對(duì)nms-free模塊進(jìn)行優(yōu)化,而推理時(shí)拋棄一對(duì)多分支,采用一對(duì)一分支,能夠在不丟失過多信息的情況下,加快推理速度。提高了端到端部署能力以及推理速度和每秒處理幀數(shù)(fps)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1