一種雙麥語(yǔ)音信號(hào)降噪方法、裝置、芯片及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：39728671發(fā)布日期：2024-10-22 13:32閱讀：12來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種雙麥語(yǔ)音信號(hào)降噪方法、裝置、芯片及存儲(chǔ)介質(zhì)與流程

本發(fā)明屬于語(yǔ)音增強(qiáng)，具體涉及一種雙麥語(yǔ)音信號(hào)降噪方法、裝置、芯片及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、隨著移動(dòng)電話的廣泛使用，移動(dòng)語(yǔ)音通信已成為越來越重要的應(yīng)用，如果遠(yuǎn)端講話者處于嘈雜的聲學(xué)環(huán)境中，則接收語(yǔ)音的質(zhì)量和可懂度會(huì)因?yàn)楸尘霸肼暥鴩?yán)重降低。為了減弱帶噪語(yǔ)音信號(hào)的背景噪聲，大多數(shù)移動(dòng)電話都已集成了語(yǔ)音增強(qiáng)算法。

2、現(xiàn)有的語(yǔ)音增強(qiáng)技術(shù)主要有基于譜相減的語(yǔ)音增強(qiáng)算法（簡(jiǎn)稱譜減法）、基于小波分析的語(yǔ)音增強(qiáng)算法、基于卡爾曼濾波的語(yǔ)音增強(qiáng)算法、基于信號(hào)子空間的增強(qiáng)方法、基于聽覺掩蔽效應(yīng)的語(yǔ)音增強(qiáng)方法、基于獨(dú)立分量分析的語(yǔ)音增強(qiáng)方法、基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法和基于雙麥克風(fēng)的語(yǔ)音增強(qiáng)方法等。所述基于雙麥克風(fēng)的語(yǔ)音增強(qiáng)方法主要是配置雙麥克風(fēng)，并使其中一個(gè)麥克風(fēng)靠近人體嘴部（例如將該麥克風(fēng)設(shè)置在手機(jī)底部）來收集包含有人聲的現(xiàn)場(chǎng)音，而使其中另一個(gè)麥克風(fēng)遠(yuǎn)離人體嘴部（例如將該麥克風(fēng)設(shè)置在手機(jī)頂部）來收集環(huán)境音，然后根據(jù)環(huán)境音，通過算法將人聲從現(xiàn)場(chǎng)音中剝離出來，實(shí)現(xiàn)語(yǔ)音增強(qiáng)目的。

3、但是，現(xiàn)有基于雙麥克風(fēng)的語(yǔ)音增強(qiáng)技術(shù)也存在如下實(shí)際使用問題：在一些非理想使用場(chǎng)合中，用來收集人聲的麥克風(fēng)不一定會(huì)被放在講話者嘴邊。例如在錄音或者應(yīng)用一些app（應(yīng)用程序，application的縮寫）上的對(duì)講機(jī)功能時(shí)，用戶習(xí)慣將手機(jī)放置在桌子上，或者拿在距離嘴部略遠(yuǎn)的地方，此時(shí)兩個(gè)麥克風(fēng)很難接收到不同的聲音，讓算法起不到作用，導(dǎo)致存在降噪效果不明顯和魯棒性差的問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種雙麥語(yǔ)音信號(hào)降噪方法、裝置、芯片及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，用以解決現(xiàn)有基于雙麥克風(fēng)的語(yǔ)音增強(qiáng)技術(shù)在非理想使用場(chǎng)合中存在降噪效果不明顯和魯棒性差的問題。

2、為了實(shí)現(xiàn)上述目的，本發(fā)明采用以下技術(shù)方案：

3、第一方面，提供了一種雙麥語(yǔ)音信號(hào)降噪方法，包括：

4、接收來自第一麥克風(fēng)的第一帶噪語(yǔ)音信號(hào)和來自第二麥克風(fēng)的第二帶噪語(yǔ)音信號(hào)，其中，所述第一麥克風(fēng)與所述第二麥克風(fēng)的間距大于10厘米且小于20厘米；

5、對(duì)所述第一帶噪語(yǔ)音信號(hào)中的第一音頻幀和所述第二帶噪語(yǔ)音信號(hào)中的第二音頻幀分別進(jìn)行快速傅立葉變換處理，得到與所述第一音頻幀對(duì)應(yīng)的第一頻譜和與所述第二音頻幀對(duì)應(yīng)的第二頻譜，其中，所述第一音頻幀和所述第二音頻幀為同期采集的兩音頻幀；

6、將在所述第一頻譜中的且與個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值分別編碼為紅綠藍(lán)rgb三通道顏色值，得到包含有個(gè)rgb值的第一待識(shí)別數(shù)據(jù)，以及將在所述第二頻譜中的且與所述個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值分別編碼為紅綠藍(lán)rgb三通道顏色值，得到包含有個(gè)rgb值的第二待識(shí)別數(shù)據(jù)，其中，表示不小于64的自然數(shù)，所述個(gè)頻點(diǎn)在人體聽覺頻域區(qū)間或人體發(fā)聲頻域區(qū)間內(nèi)等間距分布；

7、根據(jù)所述第一待識(shí)別數(shù)據(jù)的個(gè)rgb值，繪制得到像素矩陣為的第一待識(shí)別圖像，以及根據(jù)所述第二待識(shí)別數(shù)據(jù)的個(gè)rgb值，繪制得到像素矩陣為的第二待識(shí)別圖像，其中，為不小于的平方根的自然數(shù)；

8、將所述第一待識(shí)別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預(yù)訓(xùn)練的噪聲幀分類模型，得到第一分類結(jié)果，以及將所述第二待識(shí)別圖像輸入所述噪聲幀分類模型，得到第二分類結(jié)果，其中，所述噪聲音頻幀用于為所述噪聲幀分類模型提供進(jìn)行噪聲幀分類訓(xùn)練的正樣本；

9、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果，若發(fā)現(xiàn)所述第一置信度大于等于所述預(yù)設(shè)置信度閾值且所述第二置信度小于所述預(yù)設(shè)置信度閾值，則將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀，并將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀，而若發(fā)現(xiàn)所述第一置信度小于所述預(yù)設(shè)置信度閾值且所述第二置信度大于等于所述預(yù)設(shè)置信度閾值，則將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀，并將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀，其中，所述第一置信度是指在所述第一分類結(jié)果中將所述第一音頻幀分類為噪聲幀的置信度，所述第二置信度是指在所述第二分類結(jié)果中將所述第二音頻幀分類為噪聲幀的置信度；

10、根據(jù)所述估計(jì)噪聲幀，使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理，得到降噪結(jié)果幀。

11、基于上述
技術(shù)實(shí)現(xiàn)要素：
，提供了一種在非理想使用場(chǎng)合也能基于雙麥克風(fēng)進(jìn)行有效降噪的新語(yǔ)音增強(qiáng)方案，即先根據(jù)由雙麥克風(fēng)同期采集的兩音頻幀，通過快速傅立葉變換、頻點(diǎn)幅值編碼和繪圖處理，得到包含有頻譜特征信息的兩待識(shí)別圖像，然后將兩待識(shí)別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預(yù)訓(xùn)練的噪聲幀分類模型，得到兩噪聲幀分類結(jié)果，再然后根據(jù)兩噪聲幀分類結(jié)果中的兩置信度與預(yù)設(shè)置信度閾值的比較結(jié)果，確定與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀和降噪目標(biāo)幀，最后根據(jù)所述估計(jì)噪聲幀，使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理，得到降噪結(jié)果幀，如此可在任何使用場(chǎng)合都能準(zhǔn)確鎖定降噪目標(biāo)及對(duì)應(yīng)的估計(jì)噪聲，進(jìn)而可通過在降噪目標(biāo)中準(zhǔn)確消去估計(jì)噪聲，實(shí)現(xiàn)全場(chǎng)景有效進(jìn)行雙麥語(yǔ)音信號(hào)降噪的目的，提升語(yǔ)音增強(qiáng)魯棒性，便于實(shí)際應(yīng)用和推廣。

12、在一個(gè)可能的設(shè)計(jì)中，將與個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值分別編碼為紅綠藍(lán)rgb三通道顏色值，包括：

13、通過變換數(shù)值單位的方式，將所述個(gè)幅值變換為在同一數(shù)值單位下且分別在區(qū)間[0,16777215]內(nèi)的待轉(zhuǎn)數(shù)值；

14、將所述待轉(zhuǎn)數(shù)值從十進(jìn)制數(shù)字轉(zhuǎn)換為二進(jìn)制數(shù)字；

15、從左至右對(duì)所述二進(jìn)制數(shù)字進(jìn)行補(bǔ)0，得到24位二進(jìn)制數(shù)字；

16、將所述24位二進(jìn)制數(shù)字中的前8位二進(jìn)制數(shù)字轉(zhuǎn)換為十進(jìn)制數(shù)字，得到所述紅綠藍(lán)rgb三通道顏色值中的紅色通道顏色值；

17、將所述24位二進(jìn)制數(shù)字中的中8位二進(jìn)制數(shù)字轉(zhuǎn)換為十進(jìn)制數(shù)字，得到所述紅綠藍(lán)rgb三通道顏色值中的綠色通道顏色值；

18、將所述24位二進(jìn)制數(shù)字中的后8位二進(jìn)制數(shù)字轉(zhuǎn)換為十進(jìn)制數(shù)字，得到所述紅綠藍(lán)rgb三通道顏色值中的藍(lán)色通道顏色值。

19、在一個(gè)可能的設(shè)計(jì)中，所述cnn采用resnet50網(wǎng)絡(luò)結(jié)構(gòu)、mobile-net網(wǎng)絡(luò)結(jié)構(gòu)或vgg16?網(wǎng)絡(luò)結(jié)構(gòu)。

20、在一個(gè)可能的設(shè)計(jì)中，在根據(jù)所述估計(jì)噪聲幀，使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理，得到降噪結(jié)果幀之前，所述方法還包括：

21、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果，若發(fā)現(xiàn)所述第一置信度和所述第二置信度均大于等于所述預(yù)設(shè)置信度閾值，則進(jìn)一步在所述第一置信度大于所述第二置信度時(shí)，將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀，并將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀，而在所述第一置信度小于等于所述第二置信度時(shí)，將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀，并將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀。

22、在一個(gè)可能的設(shè)計(jì)中，在根據(jù)所述估計(jì)噪聲幀，使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理，得到降噪結(jié)果幀之前，所述方法還包括：

23、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果，若發(fā)現(xiàn)所述第一置信度和所述第二置信度均小于所述預(yù)設(shè)置信度閾值，則將與在所述第一置信度和所述第二置信度中最小置信度對(duì)應(yīng)的音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀，并按照如下方式確定與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀：

24、判斷是否存在最近在前估計(jì)噪聲幀，其中，所述最近在前估計(jì)噪聲幀是指與最近在前采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀，所述最近在前采集時(shí)期是指與所述兩音頻幀的采集時(shí)期相鄰的前一個(gè)采集時(shí)期；

25、若是，則將所述最近在前估計(jì)噪聲幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀，否則從用于預(yù)訓(xùn)練所述噪聲幀分類模型的多個(gè)所述噪聲音頻幀中隨機(jī)選擇一個(gè)所述噪聲音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀。

26、在一個(gè)可能的設(shè)計(jì)中，在根據(jù)所述估計(jì)噪聲幀，使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理，得到降噪結(jié)果幀之前，所述方法還包括：

27、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果，若發(fā)現(xiàn)所述第一置信度和所述第二置信度均小于所述預(yù)設(shè)置信度閾值，則將與在所述第一置信度和所述第二置信度中最小置信度對(duì)應(yīng)的音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀，并按照如下方式確定與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀：

28、當(dāng)存在至少兩個(gè)在前估計(jì)噪聲幀時(shí)，對(duì)所述至少兩個(gè)在前估計(jì)噪聲幀分別進(jìn)行所述快速傅立葉變換處理，得到與所述至少兩個(gè)在前估計(jì)噪聲幀一一對(duì)應(yīng)的至少兩個(gè)在前頻譜，其中，所述在前估計(jì)噪聲幀是指與在前采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀，所述在前采集時(shí)期是指位于所述兩音頻幀的采集時(shí)期之前的采集時(shí)期；

29、根據(jù)所述至少兩個(gè)在前頻譜，得到最近歷史數(shù)組、個(gè)非最近歷史數(shù)組和個(gè)相對(duì)未來數(shù)組，其中，表示小于的非零自然數(shù)，表示所述至少兩個(gè)在前頻譜的總數(shù)，所述最近歷史數(shù)組包含有在與第個(gè)采集時(shí)期對(duì)應(yīng)的所述在前頻譜中的且與個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值，表示所述兩音頻幀的采集時(shí)期在多個(gè)連續(xù)采集時(shí)期中的時(shí)間序號(hào)，表示不小于32的自然數(shù)，所述個(gè)頻點(diǎn)在人體聽覺頻域區(qū)間或人體發(fā)聲頻域區(qū)間內(nèi)等間距分布，在所述個(gè)非最近歷史數(shù)組中的第個(gè)非最近歷史數(shù)組包含有在與第個(gè)采集時(shí)期對(duì)應(yīng)的所述在前頻譜中的且與所述個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值，在所述個(gè)相對(duì)未來數(shù)組中的第個(gè)相對(duì)未來數(shù)組與所述第個(gè)非最近歷史數(shù)組一一對(duì)應(yīng)且包含有在與第個(gè)采集時(shí)期的對(duì)應(yīng)的所述在前頻譜中的且與所述個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值，為非零自然數(shù)且有；

30、將所述個(gè)非最近歷史數(shù)組中的各個(gè)非最近歷史數(shù)組作為輸入項(xiàng)，以及將所述個(gè)相對(duì)未來數(shù)組中的且與所述各個(gè)非最近歷史數(shù)組一一對(duì)應(yīng)的各個(gè)相對(duì)未來數(shù)組作為輸出項(xiàng)，對(duì)基于支持向量機(jī)、k最鄰近法、隨機(jī)梯度下降法、多變量線性回歸、多層感知機(jī)、決策樹、反向傳播神經(jīng)網(wǎng)絡(luò)或徑向基函數(shù)網(wǎng)絡(luò)的人工智能模型進(jìn)行率定驗(yàn)證建模，得到幅值預(yù)估模型；

31、將所述最近歷史數(shù)組輸入所述幅值預(yù)估模型中，輸出得到與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的個(gè)預(yù)估幅值；

32、對(duì)由所述個(gè)預(yù)估幅值組成的預(yù)估頻譜進(jìn)行快速傅里葉逆變換處理，得到與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀。

33、在一個(gè)可能的設(shè)計(jì)中，在得到所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果之后，所述方法還包括：

34、當(dāng)發(fā)現(xiàn)所述第一置信度和所述第二置信度均大于等于所述預(yù)設(shè)置信度閾值時(shí)，判斷所述第一置信度是否大于所述第二置信度；

35、若是，則將所述第一待識(shí)別圖像作為用于進(jìn)行噪聲幀分類訓(xùn)練的正樣本輸入所述噪聲幀分類模型，對(duì)所述噪聲幀分類模型進(jìn)行再訓(xùn)練，得到新的噪聲幀分類模型，否則將所述第二待識(shí)別圖像作為用于進(jìn)行噪聲幀分類訓(xùn)練的正樣本輸入所述噪聲幀分類模型，對(duì)所述噪聲幀分類模型進(jìn)行再訓(xùn)練，得到新的噪聲幀分類模型。

36、第二方面，提供了一種雙麥語(yǔ)音信號(hào)降噪裝置，包括有語(yǔ)音信號(hào)接收模塊、傅立葉變換處理模塊、頻點(diǎn)幅值編碼模塊、待識(shí)別圖像繪制模塊、噪聲幀分類模塊、音頻幀確定模塊和譜減降噪處理模塊；

37、所述語(yǔ)音信號(hào)接收模塊，用于接收來自第一麥克風(fēng)的第一帶噪語(yǔ)音信號(hào)和來自第二麥克風(fēng)的第二帶噪語(yǔ)音信號(hào)，其中，所述第一麥克風(fēng)與所述第二麥克風(fēng)的間距大于10厘米且小于20厘米；

38、所述傅立葉變換處理模塊，通信連接所述語(yǔ)音信號(hào)接收模塊，用于對(duì)所述第一帶噪語(yǔ)音信號(hào)中的第一音頻幀和所述第二帶噪語(yǔ)音信號(hào)中的第二音頻幀分別進(jìn)行快速傅立葉變換處理，得到與所述第一音頻幀對(duì)應(yīng)的第一頻譜和與所述第二音頻幀對(duì)應(yīng)的第二頻譜，其中，所述第一音頻幀和所述第二音頻幀為同期采集的兩音頻幀；

39、所述頻點(diǎn)幅值編碼模塊，通信連接所述傅立葉變換處理模塊，用于將在所述第一頻譜中的且與個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值分別編碼為紅綠藍(lán)rgb三通道顏色值，得到包含有個(gè)rgb值的第一待識(shí)別數(shù)據(jù)，以及將在所述第二頻譜中的且與所述個(gè)頻點(diǎn)一一對(duì)應(yīng)的個(gè)幅值分別編碼為紅綠藍(lán)rgb三通道顏色值，得到包含有個(gè)rgb值的第二待識(shí)別數(shù)據(jù)，其中，表示不小于64的自然數(shù)，所述個(gè)頻點(diǎn)在人體聽覺頻域區(qū)間或人體發(fā)聲頻域區(qū)間內(nèi)等間距分布；

40、所述待識(shí)別圖像繪制模塊，通信連接所述頻點(diǎn)幅值編碼模塊，用于根據(jù)所述第一待識(shí)別數(shù)據(jù)的個(gè)rgb值，繪制得到像素矩陣為的第一待識(shí)別圖像，以及根據(jù)所述第二待識(shí)別數(shù)據(jù)的個(gè)rgb值，繪制得到像素矩陣為的第二待識(shí)別圖像，其中，為不小于的平方根的自然數(shù)；

41、所述噪聲幀分類模塊，通信連接所述待識(shí)別圖像繪制模塊，用于將所述第一待識(shí)別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預(yù)訓(xùn)練的噪聲幀分類模型，得到第一分類結(jié)果，以及將所述第二待識(shí)別圖像輸入所述噪聲幀分類模型，得到第二分類結(jié)果，其中，所述噪聲音頻幀用于為所述噪聲幀分類模型提供進(jìn)行噪聲幀分類訓(xùn)練的正樣本；

42、所述音頻幀確定模塊，分別通信連接所述語(yǔ)音信號(hào)接收模塊和所述噪聲幀分類模塊，用于根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預(yù)設(shè)置信度閾值的比較結(jié)果，若發(fā)現(xiàn)所述第一置信度大于等于所述預(yù)設(shè)置信度閾值且所述第二置信度小于所述預(yù)設(shè)置信度閾值，則將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀，并將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀，而若發(fā)現(xiàn)所述第一置信度小于所述預(yù)設(shè)置信度閾值且所述第二置信度大于等于所述預(yù)設(shè)置信度閾值，則將所述第二音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀，并將所述第一音頻幀作為與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的降噪目標(biāo)幀，其中，所述第一置信度是指在所述第一分類結(jié)果中將所述第一音頻幀分類為噪聲幀的置信度，所述第二置信度是指在所述第二分類結(jié)果中將所述第二音頻幀分類為噪聲幀的置信度；

43、所述譜減降噪處理模塊，通信連接所述音頻幀確定模塊，用于根據(jù)所述估計(jì)噪聲幀，使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理，得到降噪結(jié)果幀。

44、第三方面，本發(fā)明提供了一種雙麥語(yǔ)音信號(hào)降噪芯片，包括有依次通信連接的存儲(chǔ)器、處理器和收發(fā)器，其中，所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序，所述收發(fā)器用于收發(fā)語(yǔ)音信號(hào)，所述處理器用于讀取所述計(jì)算機(jī)程序，執(zhí)行如第一方面或第一方面中任意可能設(shè)計(jì)所述的雙麥語(yǔ)音信號(hào)降噪方法。

45、第四方面，本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有指令，當(dāng)所述指令在計(jì)算機(jī)上運(yùn)行時(shí)，執(zhí)行如第一方面或第一方面中任意可能設(shè)計(jì)所述的雙麥語(yǔ)音信號(hào)降噪方法。

46、第五方面，本發(fā)明提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品，當(dāng)所述指令在計(jì)算機(jī)上運(yùn)行時(shí)，使所述計(jì)算機(jī)執(zhí)行如第一方面或第一方面中任意可能設(shè)計(jì)所述的雙麥語(yǔ)音信號(hào)降噪方法。

47、上述方案的有益效果：

48、（1）本發(fā)明創(chuàng)造性提供了一種在非理想使用場(chǎng)合也能基于雙麥克風(fēng)進(jìn)行有效降噪的新語(yǔ)音增強(qiáng)方案，即先根據(jù)由雙麥克風(fēng)同期采集的兩音頻幀，通過快速傅立葉變換、頻點(diǎn)幅值編碼和繪圖處理，得到包含有頻譜特征信息的兩待識(shí)別圖像，然后將兩待識(shí)別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預(yù)訓(xùn)練的噪聲幀分類模型，得到兩噪聲幀分類結(jié)果，再然后根據(jù)兩噪聲幀分類結(jié)果中的兩置信度與預(yù)設(shè)置信度閾值的比較結(jié)果，確定與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀和降噪目標(biāo)幀，最后根據(jù)所述估計(jì)噪聲幀，使用譜減法對(duì)所述降噪目標(biāo)幀進(jìn)行降噪處理，得到降噪結(jié)果幀，如此可在任何使用場(chǎng)合都能準(zhǔn)確鎖定降噪目標(biāo)及對(duì)應(yīng)的估計(jì)噪聲，進(jìn)而可通過在降噪目標(biāo)中準(zhǔn)確消去估計(jì)噪聲，實(shí)現(xiàn)全場(chǎng)景有效進(jìn)行雙麥語(yǔ)音信號(hào)降噪的目的，提升語(yǔ)音增強(qiáng)魯棒性；

49、（2）還可根據(jù)歷史估計(jì)噪聲幀，利用諸如支持向量機(jī)、k最鄰近法、隨機(jī)梯度下降法、多變量線性回歸、多層感知機(jī)、決策樹、反向傳播神經(jīng)網(wǎng)絡(luò)或徑向基函數(shù)網(wǎng)絡(luò)等的人工智能模型來探索近期估計(jì)噪聲頻譜的變化規(guī)律，然后利用這種變化規(guī)律預(yù)估得到與所述兩音頻幀的采集時(shí)期對(duì)應(yīng)的估計(jì)噪聲幀，實(shí)現(xiàn)在噪聲瞬間非穩(wěn)態(tài)條件下進(jìn)行有效降噪的目的，進(jìn)一步提升語(yǔ)音增強(qiáng)魯棒性，便于實(shí)際應(yīng)用和推廣。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉屹
技術(shù)所有人：海智合芯科技（深圳）有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種雙麥語(yǔ)音信號(hào)降噪方法、裝置、芯片及存儲(chǔ)介質(zhì)與流程

一種雙麥語(yǔ)音信號(hào)降噪方法、裝置、芯片及存儲(chǔ)介質(zhì)與流程