本發(fā)明屬于語(yǔ)音增強(qiáng),具體涉及一種雙麥語(yǔ)音信號(hào)降噪方法、裝置、芯片及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著移動(dòng)電話的廣泛使用,移動(dòng)語(yǔ)音通信已成為越來越重要的應(yīng)用,如果遠(yuǎn)端講話者處于嘈雜的聲學(xué)環(huán)境中,則接收語(yǔ)音的質(zhì)量和可懂度會(huì)因?yàn)楸尘霸肼暥鴩?yán)重降低。為了減弱帶噪語(yǔ)音信號(hào)的背景噪聲,大多數(shù)移動(dòng)電話都已集成了語(yǔ)音增強(qiáng)算法。
2、現(xiàn)有的語(yǔ)音增強(qiáng)技術(shù)主要有基于譜相減的語(yǔ)音增強(qiáng)算法(簡(jiǎn)稱譜減法)、基于小波分析的語(yǔ)音增強(qiáng)算法、基于卡爾曼濾波的語(yǔ)音增強(qiáng)算法、基于信號(hào)子空間的增強(qiáng)方法、基于聽覺掩蔽效應(yīng)的語(yǔ)音增強(qiáng)方法、基于獨(dú)立分量分析的語(yǔ)音增強(qiáng)方法、基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法和基于雙麥克風(fēng)的語(yǔ)音增強(qiáng)方法等。所述基于雙麥克風(fēng)的語(yǔ)音增強(qiáng)方法主要是配置雙麥克風(fēng),并使其中一個(gè)麥克風(fēng)靠近人體嘴部(例如將該麥克風(fēng)設(shè)置在手機(jī)底部)來收集包含有人聲的現(xiàn)場(chǎng)音,而使其中另一個(gè)麥克風(fēng)遠(yuǎn)離人體嘴部(例如將該麥克風(fēng)設(shè)置在手機(jī)頂部)來收集環(huán)境音,然后根據(jù)環(huán)境音,通過算法將人聲從現(xiàn)場(chǎng)音中剝離出來,實(shí)現(xiàn)語(yǔ)音增強(qiáng)目的。
3、但是,現(xiàn)有基于雙麥克風(fēng)的語(yǔ)音增強(qiáng)技術(shù)也存在如下實(shí)際使用問題:在一些非理想使用場(chǎng)合中,用來收集人聲的麥克風(fēng)不一定會(huì)被放在講話者嘴邊。例如在錄音或者應(yīng)用一些app(應(yīng)用程序,application的縮寫)上的對(duì)講機(jī)功能時(shí),用戶習(xí)慣將手機(jī)放置在桌子上,或者拿在距離嘴部略遠(yuǎn)的地方,此時(shí)兩個(gè)麥克風(fēng)很難接收到不同的聲音,讓算法起不到作用,導(dǎo)致存在降噪效果不明顯和魯棒性差的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種雙麥語(yǔ)音信號(hào)降噪方法、裝置、芯片及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用以解決現(xiàn)有基于雙麥克風(fēng)的語(yǔ)音增強(qiáng)技術(shù)在非理想使用場(chǎng)合中存在降噪效果不明顯和魯棒性差的問題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、第一方面,提供了一種雙麥語(yǔ)音信號(hào)降噪方法,包括:
4、接收來自第一麥克風(fēng)的第一帶噪語(yǔ)音信號(hào)和來自第二麥克風(fēng)的第二帶噪語(yǔ)音信號(hào),其中,所述第一麥克風(fēng)與所述第二麥克風(fēng)的間距大于10厘米且小于20厘米;
5、對(duì)所述第一帶噪語(yǔ)音信號(hào)中的第一音頻幀和所述第二帶噪語(yǔ)音信號(hào)中的第二音頻幀分別進(jìn)行快速傅立葉變換處理,得到與所述第一音頻幀對(duì)應(yīng)的第一頻譜和與所述第二音頻幀對(duì)應(yīng)的第二頻譜,其中,所述第一音頻幀和所述第二音頻幀為同期采集的兩音頻幀;
6、將在所述第一頻譜中的且與個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值分別編碼為紅綠藍(lán)rgb三通道顏色值,得到包含有個(gè)rgb值的第一待識(shí)別數(shù)據(jù),以及將在所述第二頻譜中的且與所述個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值分別編碼為紅綠藍(lán)rgb三通道顏色值,得到包含有個(gè)rgb值的第二待識(shí)別數(shù)據(jù),其中,表示不小于64的自然數(shù),所述個(gè)頻點(diǎn)在人體聽覺頻域區(qū)間或人體發(fā)聲頻域區(qū)間內(nèi)等間距分布;
7、根據(jù)所述第一待識(shí)別數(shù)據(jù)的個(gè)rgb值,繪制得到像素矩陣為的第一待識(shí)別圖像,以及根據(jù)所述第二待識(shí)別數(shù)據(jù)的個(gè)rgb值,繪制得到像素矩陣為的第二待識(shí)別圖像,其中,為不小于的平方根的自然數(shù);
8、將所述第一待識(shí)別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預(yù)訓(xùn)練的噪聲幀分類模型,得到第一分類結(jié)果,以及將所述第二待識(shí)別圖像輸入所述噪聲幀分類模型,得到第二分類結(jié)果,其中,所述噪聲音頻幀用于為所述噪聲幀分類模型提供進(jìn)行噪聲幀分類訓(xùn)練的正樣本;
9、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果,若發(fā)現(xiàn)所述第一置信度大于等于所述預(yù)設(shè)置信度閾值且所述第二置信度小于所述預(yù)設(shè)置信度閾值,則將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀,并將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀,而若發(fā)現(xiàn)所述第一置信度小于所述預(yù)設(shè)置信度閾值且所述第二置信度大于等于所述預(yù)設(shè)置信度閾值,則將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀,并將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀,其中,所述第一置信度是指在所述第一分類結(jié)果中將所述第一音頻幀分類為噪聲幀的置信度,所述第二置信度是指在所述第二分類結(jié)果中將所述第二音頻幀分類為噪聲幀的置信度;
10、根據(jù)所述估計(jì)噪聲幀,使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理,得到降噪結(jié)果幀。
11、基于上述
技術(shù)實(shí)現(xiàn)要素:
,提供了一種在非理想使用場(chǎng)合也能基于雙麥克風(fēng)進(jìn)行有效降噪的新語(yǔ)音增強(qiáng)方案,即先根據(jù)由雙麥克風(fēng)同期采集的兩音頻幀,通過快速傅立葉變換、頻點(diǎn)幅值編碼和繪圖處理,得到包含有頻譜特征信息的兩待識(shí)別圖像,然后將兩待識(shí)別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預(yù)訓(xùn)練的噪聲幀分類模型,得到兩噪聲幀分類結(jié)果,再然后根據(jù)兩噪聲幀分類結(jié)果中的兩置信度與預(yù)設(shè)置信度閾值的比較結(jié)果,確定與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀和降噪目標(biāo)幀,最后根據(jù)所述估計(jì)噪聲幀,使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理,得到降噪結(jié)果幀,如此可在任何使用場(chǎng)合都能準(zhǔn)確鎖定降噪目標(biāo)及對(duì)應(yīng)的估計(jì)噪聲,進(jìn)而可通過在降噪目標(biāo)中準(zhǔn)確消去估計(jì)噪聲,實(shí)現(xiàn)全場(chǎng)景有效進(jìn)行雙麥語(yǔ)音信號(hào)降噪的目的,提升語(yǔ)音增強(qiáng)魯棒性,便于實(shí)際應(yīng)用和推廣。
12、在一個(gè)可能的設(shè)計(jì)中,將與個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值分別編碼為紅綠藍(lán)rgb三通道顏色值,包括:
13、通過變換數(shù)值單位的方式,將所述個(gè)幅值變換為在同一數(shù)值單位下且分別在區(qū)間[0,16777215]內(nèi)的待轉(zhuǎn)數(shù)值;
14、將所述待轉(zhuǎn)數(shù)值從十進(jìn)制數(shù)字轉(zhuǎn)換為二進(jìn)制數(shù)字;
15、從左至右對(duì)所述二進(jìn)制數(shù)字進(jìn)行補(bǔ)0,得到24位二進(jìn)制數(shù)字;
16、將所述24位二進(jìn)制數(shù)字中的前8位二進(jìn)制數(shù)字轉(zhuǎn)換為十進(jìn)制數(shù)字,得到所述紅綠藍(lán)rgb三通道顏色值中的紅色通道顏色值;
17、將所述24位二進(jìn)制數(shù)字中的中8位二進(jìn)制數(shù)字轉(zhuǎn)換為十進(jìn)制數(shù)字,得到所述紅綠藍(lán)rgb三通道顏色值中的綠色通道顏色值;
18、將所述24位二進(jìn)制數(shù)字中的后8位二進(jìn)制數(shù)字轉(zhuǎn)換為十進(jìn)制數(shù)字,得到所述紅綠藍(lán)rgb三通道顏色值中的藍(lán)色通道顏色值。
19、在一個(gè)可能的設(shè)計(jì)中,所述cnn采用resnet50網(wǎng)絡(luò)結(jié)構(gòu)、mobile-net網(wǎng)絡(luò)結(jié)構(gòu)或vgg16?網(wǎng)絡(luò)結(jié)構(gòu)。
20、在一個(gè)可能的設(shè)計(jì)中,在根據(jù)所述估計(jì)噪聲幀,使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理,得到降噪結(jié)果幀之前,所述方法還包括:
21、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果,若發(fā)現(xiàn)所述第一置信度和所述第二置信度均大于等于所述預(yù)設(shè)置信度閾值,則進(jìn)一步在所述第一置信度大于所述第二置信度時(shí),將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀,并將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀,而在所述第一置信度小于等于所述第二置信度時(shí),將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀,并將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀。
22、在一個(gè)可能的設(shè)計(jì)中,在根據(jù)所述估計(jì)噪聲幀,使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理,得到降噪結(jié)果幀之前,所述方法還包括:
23、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果,若發(fā)現(xiàn)所述第一置信度和所述第二置信度均小于所述預(yù)設(shè)置信度閾值,則將與在所述第一置信度和所述第二置信度中最小置信度對(duì)應(yīng)的音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀,并按照如下方式確定與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀:
24、判斷是否存在最近在前估計(jì)噪聲幀,其中,所述最近在前估計(jì)噪聲幀是指與最近在前采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀,所述最近在前采集時(shí)期是指與所述兩音頻幀的采集時(shí)期相鄰的前一個(gè)采集時(shí)期;
25、若是,則將所述最近在前估計(jì)噪聲幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀,否則從用于預(yù)訓(xùn)練所述噪聲幀分類模型的多個(gè)所述噪聲音頻幀中隨機(jī)選擇一個(gè)所述噪聲音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀。
26、在一個(gè)可能的設(shè)計(jì)中,在根據(jù)所述估計(jì)噪聲幀,使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理,得到降噪結(jié)果幀之前,所述方法還包括:
27、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果,若發(fā)現(xiàn)所述第一置信度和所述第二置信度均小于所述預(yù)設(shè)置信度閾值,則將與在所述第一置信度和所述第二置信度中最小置信度對(duì)應(yīng)的音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀,并按照如下方式確定與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀:
28、當(dāng)存在至少兩個(gè)在前估計(jì)噪聲幀時(shí),對(duì)所述至少兩個(gè)在前估計(jì)噪聲幀分別進(jìn)行所述快速傅立葉變換處理,得到與所述至少兩個(gè)在前估計(jì)噪聲幀一一對(duì)應(yīng)的至少兩個(gè)在前頻譜,其中,所述在前估計(jì)噪聲幀是指與在前采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀,所述在前采集時(shí)期是指位于所述兩音頻幀的采集時(shí)期之前的采集時(shí)期;
29、根據(jù)所述至少兩個(gè)在前頻譜,得到最近歷史數(shù)組、個(gè)非最近歷史數(shù)組和個(gè)相對(duì)未來數(shù)組,其中,表示小于的非零自然數(shù),表示所述至少兩個(gè)在前頻譜的總數(shù),所述最近歷史數(shù)組包含有在與第個(gè)采集時(shí)期對(duì)應(yīng)的所述在前頻譜中的且與個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值,表示所述兩音頻幀的采集時(shí)期在多個(gè)連續(xù)采集時(shí)期中的時(shí)間序號(hào),表示不小于32的自然數(shù),所述個(gè)頻點(diǎn)在人體聽覺頻域區(qū)間或人體發(fā)聲頻域區(qū)間內(nèi)等間距分布,在所述個(gè)非最近歷史數(shù)組中的第個(gè)非最近歷史數(shù)組包含有在與第個(gè)采集時(shí)期對(duì)應(yīng)的所述在前頻譜中的且與所述個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值,在所述個(gè)相對(duì)未來數(shù)組中的第個(gè)相對(duì)未來數(shù)組與所述第個(gè)非最近歷史數(shù)組一一對(duì)應(yīng)且包含有在與第個(gè)采集時(shí)期的對(duì)應(yīng)的所述在前頻譜中的且與所述個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值,為非零自然數(shù)且有;
30、將所述個(gè)非最近歷史數(shù)組中的各個(gè)非最近歷史數(shù)組作為輸入項(xiàng),以及將所述個(gè)相對(duì)未來數(shù)組中的且與所述各個(gè)非最近歷史數(shù)組一一對(duì)應(yīng)的各個(gè)相對(duì)未來數(shù)組作為輸出項(xiàng),對(duì)基于支持向量機(jī)、k最鄰近法、隨機(jī)梯度下降法、多變量線性回歸、多層感知機(jī)、決策樹、反向傳播神經(jīng)網(wǎng)絡(luò)或徑向基函數(shù)網(wǎng)絡(luò)的人工智能模型進(jìn)行率定驗(yàn)證建模,得到幅值預(yù)估模型;
31、將所述最近歷史數(shù)組輸入所述幅值預(yù)估模型中,輸出得到與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的個(gè)預(yù)估幅值;
32、對(duì)由所述個(gè)預(yù)估幅值組成的預(yù)估頻譜進(jìn)行快速傅里葉逆變換處理,得到與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀。
33、在一個(gè)可能的設(shè)計(jì)中,在得到所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果之后,所述方法還包括:
34、當(dāng)發(fā)現(xiàn)所述第一置信度和所述第二置信度均大于等于所述預(yù)設(shè)置信度閾值時(shí),判斷所述第一置信度是否大于所述第二置信度;
35、若是,則將所述第一待識(shí)別圖像作為用于進(jìn)行噪聲幀分類訓(xùn)練的正樣本輸入所述噪聲幀分類模型,對(duì)所述噪聲幀分類模型進(jìn)行再訓(xùn)練,得到新的噪聲幀分類模型,否則將所述第二待識(shí)別圖像作為用于進(jìn)行噪聲幀分類訓(xùn)練的正樣本輸入所述噪聲幀分類模型,對(duì)所述噪聲幀分類模型進(jìn)行再訓(xùn)練,得到新的噪聲幀分類模型。
36、第二方面,提供了一種雙麥語(yǔ)音信號(hào)降噪裝置,包括有語(yǔ)音信號(hào)接收模塊、傅立葉變換處理模塊、頻點(diǎn)幅值編碼模塊、待識(shí)別圖像繪制模塊、噪聲幀分類模塊、音頻幀確定模塊和譜減降噪處理模塊;
37、所述語(yǔ)音信號(hào)接收模塊,用于接收來自第一麥克風(fēng)的第一帶噪語(yǔ)音信號(hào)和來自第二麥克風(fēng)的第二帶噪語(yǔ)音信號(hào),其中,所述第一麥克風(fēng)與所述第二麥克風(fēng)的間距大于10厘米且小于20厘米;
38、所述傅立葉變換處理模塊,通信連接所述語(yǔ)音信號(hào)接收模塊,用于對(duì)所述第一帶噪語(yǔ)音信號(hào)中的第一音頻幀和所述第二帶噪語(yǔ)音信號(hào)中的第二音頻幀分別進(jìn)行快速傅立葉變換處理,得到與所述第一音頻幀對(duì)應(yīng)的第一頻譜和與所述第二音頻幀對(duì)應(yīng)的第二頻譜,其中,所述第一音頻幀和所述第二音頻幀為同期采集的兩音頻幀;
39、所述頻點(diǎn)幅值編碼模塊,通信連接所述傅立葉變換處理模塊,用于將在所述第一頻譜中的且與個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值分別編碼為紅綠藍(lán)rgb三通道顏色值,得到包含有個(gè)rgb值的第一待識(shí)別數(shù)據(jù),以及將在所述第二頻譜中的且與所述個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值分別編碼為紅綠藍(lán)rgb三通道顏色值,得到包含有個(gè)rgb值的第二待識(shí)別數(shù)據(jù),其中,表示不小于64的自然數(shù),所述個(gè)頻點(diǎn)在人體聽覺頻域區(qū)間或人體發(fā)聲頻域區(qū)間內(nèi)等間距分布;
40、所述待識(shí)別圖像繪制模塊,通信連接所述頻點(diǎn)幅值編碼模塊,用于根據(jù)所述第一待識(shí)別數(shù)據(jù)的個(gè)rgb值,繪制得到像素矩陣為的第一待識(shí)別圖像,以及根據(jù)所述第二待識(shí)別數(shù)據(jù)的個(gè)rgb值,繪制得到像素矩陣為的第二待識(shí)別圖像,其中,為不小于的平方根的自然數(shù);
41、所述噪聲幀分類模塊,通信連接所述待識(shí)別圖像繪制模塊,用于將所述第一待識(shí)別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預(yù)訓(xùn)練的噪聲幀分類模型,得到第一分類結(jié)果,以及將所述第二待識(shí)別圖像輸入所述噪聲幀分類模型,得到第二分類結(jié)果,其中,所述噪聲音頻幀用于為所述噪聲幀分類模型提供進(jìn)行噪聲幀分類訓(xùn)練的正樣本;
42、所述音頻幀確定模塊,分別通信連接所述語(yǔ)音信號(hào)接收模塊和所述噪聲幀分類模塊,用于根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果,若發(fā)現(xiàn)所述第一置信度大于等于所述預(yù)設(shè)置信度閾值且所述第二置信度小于所述預(yù)設(shè)置信度閾值,則將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀,并將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀,而若發(fā)現(xiàn)所述第一置信度小于所述預(yù)設(shè)置信度閾值且所述第二置信度大于等于所述預(yù)設(shè)置信度閾值,則將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀,并將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀,其中,所述第一置信度是指在所述第一分類結(jié)果中將所述第一音頻幀分類為噪聲幀的置信度,所述第二置信度是指在所述第二分類結(jié)果中將所述第二音頻幀分類為噪聲幀的置信度;
43、所述譜減降噪處理模塊,通信連接所述音頻幀確定模塊,用于根據(jù)所述估計(jì)噪聲幀,使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理,得到降噪結(jié)果幀。
44、第三方面,本發(fā)明提供了一種雙麥語(yǔ)音信號(hào)降噪芯片,包括有依次通信連接的存儲(chǔ)器、處理器和收發(fā)器,其中,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序,所述收發(fā)器用于收發(fā)語(yǔ)音信號(hào),所述處理器用于讀取所述計(jì)算機(jī)程序,執(zhí)行如第一方面或第一方面中任意可能設(shè)計(jì)所述的雙麥語(yǔ)音信號(hào)降噪方法。
45、第四方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有指令,當(dāng)所述指令在計(jì)算機(jī)上運(yùn)行時(shí),執(zhí)行如第一方面或第一方面中任意可能設(shè)計(jì)所述的雙麥語(yǔ)音信號(hào)降噪方法。
46、第五方面,本發(fā)明提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,當(dāng)所述指令在計(jì)算機(jī)上運(yùn)行時(shí),使所述計(jì)算機(jī)執(zhí)行如第一方面或第一方面中任意可能設(shè)計(jì)所述的雙麥語(yǔ)音信號(hào)降噪方法。
47、上述方案的有益效果:
48、(1)本發(fā)明創(chuàng)造性提供了一種在非理想使用場(chǎng)合也能基于雙麥克風(fēng)進(jìn)行有效降噪的新語(yǔ)音增強(qiáng)方案,即先根據(jù)由雙麥克風(fēng)同期采集的兩音頻幀,通過快速傅立葉變換、頻點(diǎn)幅值編碼和繪圖處理,得到包含有頻譜特征信息的兩待識(shí)別圖像,然后將兩待識(shí)別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預(yù)訓(xùn)練的噪聲幀分類模型,得到兩噪聲幀分類結(jié)果,再然后根據(jù)兩噪聲幀分類結(jié)果中的兩置信度與預(yù)設(shè)置信度閾值的比較結(jié)果,確定與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀和降噪目標(biāo)幀,最后根據(jù)所述估計(jì)噪聲幀,使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理,得到降噪結(jié)果幀,如此可在任何使用場(chǎng)合都能準(zhǔn)確鎖定降噪目標(biāo)及對(duì)應(yīng)的估計(jì)噪聲,進(jìn)而可通過在降噪目標(biāo)中準(zhǔn)確消去估計(jì)噪聲,實(shí)現(xiàn)全場(chǎng)景有效進(jìn)行雙麥語(yǔ)音信號(hào)降噪的目的,提升語(yǔ)音增強(qiáng)魯棒性;
49、(2)還可根據(jù)歷史估計(jì)噪聲幀,利用諸如支持向量機(jī)、k最鄰近法、隨機(jī)梯度下降法、多變量線性回歸、多層感知機(jī)、決策樹、反向傳播神經(jīng)網(wǎng)絡(luò)或徑向基函數(shù)網(wǎng)絡(luò)等的人工智能模型來探索近期估計(jì)噪聲頻譜的變化規(guī)律,然后利用這種變化規(guī)律預(yù)估得到與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀,實(shí)現(xiàn)在噪聲瞬間非穩(wěn)態(tài)條件下進(jìn)行有效降噪的目的,進(jìn)一步提升語(yǔ)音增強(qiáng)魯棒性,便于實(shí)際應(yīng)用和推廣。