一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法

文檔序號(hào)：39729508發(fā)布日期：2024-10-22 13:34閱讀：67來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語(yǔ)音情感識(shí)別技術(shù)，特別是涉及一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法。

背景技術(shù)：

1、語(yǔ)音情感識(shí)別（ser）技術(shù)是旨在分析語(yǔ)音信號(hào)特征，自動(dòng)識(shí)別出說(shuō)話(huà)者當(dāng)前情緒狀態(tài)的。這項(xiàng)技術(shù)在人機(jī)交互領(lǐng)域至關(guān)重要，可以在虛擬助手、網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)、健康檢測(cè)系統(tǒng)等各類(lèi)場(chǎng)景中提供情緒感知，使交互系統(tǒng)能夠更好地理解用戶(hù)的情緒狀態(tài)，提供更為精準(zhǔn)的個(gè)性化情感反饋，以此優(yōu)化用戶(hù)體驗(yàn)。

2、情感信息體現(xiàn)在多語(yǔ)音特征中，如音高、頻率、強(qiáng)度等。如何科學(xué)地從原始語(yǔ)音信號(hào)中提取這些信息來(lái)表征情感是一項(xiàng)重要挑戰(zhàn)。傳統(tǒng)方法大多依賴(lài)于繁瑣的手動(dòng)特征提取，并采用人為定義的分類(lèi)模型進(jìn)行特征選擇，然后將這些特征與機(jī)器學(xué)習(xí)算法結(jié)合，如支持向量機(jī)、馬爾可夫模型、貝葉斯網(wǎng)絡(luò)等，進(jìn)行情感狀態(tài)的學(xué)習(xí)和預(yù)測(cè)。近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，基于端到端的深度神經(jīng)網(wǎng)絡(luò)模型成為語(yǔ)音情感識(shí)別的主流方法。這些模型能夠自動(dòng)地從大量數(shù)據(jù)中學(xué)習(xí)到更加抽象和復(fù)雜的特征，從而提高了情感識(shí)別的準(zhǔn)確性和泛化能力。例如：li,?mengbo等人設(shè)計(jì)了一種具有多尺度核的卷積神經(jīng)網(wǎng)絡(luò)(cnn)，能夠有效捕捉并融合不同尺度下的語(yǔ)音情感特征，從而提升了識(shí)別性能。jitendra等人。提出使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-lstm)，通過(guò)提取時(shí)間上下文信息并保存關(guān)鍵特征，增強(qiáng)模型對(duì)情緒狀態(tài)的建模能力。maji等人運(yùn)用雙通道自注意力機(jī)制聚合卷積膠囊（conv-cap）和雙向門(mén)控循環(huán)單元（bi-gru）的特征，以獲得更豐富的情緒信息和提升信息多樣性；prabhakar等人提出基于多通道卷積神經(jīng)網(wǎng)絡(luò)（cnn）和長(zhǎng)短記憶網(wǎng)絡(luò)（blstm）的架構(gòu)，通過(guò)融合幅度和相位的頻譜特性來(lái)增強(qiáng)性能。但是這些方法存在以下缺點(diǎn)：首先，現(xiàn)有方法沒(méi)有根據(jù)人類(lèi)聲學(xué)特性進(jìn)行頻段劃分以抽取特征，從而忽略了不同情緒在頻段上的獨(dú)特表現(xiàn)。其次，鑒于各類(lèi)情感狀態(tài)在表征復(fù)雜度和不同數(shù)據(jù)集分布上存在差異，需要在基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)上設(shè)計(jì)自適應(yīng)的可變特征提方法。最后，語(yǔ)音情感狀態(tài)表達(dá)是動(dòng)態(tài)且連續(xù)變化的，所以需要模型同時(shí)關(guān)注較長(zhǎng)時(shí)間跨度的語(yǔ)義信息和局部特定的聲學(xué)特性。

3、需要說(shuō)明的是，在上述背景技術(shù)部分公開(kāi)的信息僅用于對(duì)本申請(qǐng)的背景的理解，因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的主要目的在于解決上述背景技術(shù)中存在的問(wèn)題，提供一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法。

2、為實(shí)現(xiàn)上述目的，本發(fā)明采用以下技術(shù)方案：

3、在本發(fā)明第一方面，一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法，包括以下步驟：

4、s1.?對(duì)輸入信號(hào)進(jìn)行預(yù)處理，對(duì)信號(hào)進(jìn)行分幀；

5、s2.?對(duì)每幀信號(hào)執(zhí)行快速傅里葉變換（fft），獲得頻譜特征；

6、s3.?應(yīng)用梅爾尺度的三角濾波器組對(duì)頻譜進(jìn)行處理，模擬人類(lèi)聽(tīng)覺(jué)系統(tǒng)的非線(xiàn)性頻率特性；

7、s4.?通過(guò)離散余弦變換對(duì)濾波后的頻譜進(jìn)行處理，提取每幀的多個(gè)梅爾頻譜系數(shù)，捕捉信號(hào)的關(guān)鍵頻率信息；

8、s5.?根據(jù)語(yǔ)音信號(hào)的共振峰（f1,?f2,?f3）將信號(hào)劃分為不同的頻段，為每個(gè)頻段定制特征提取策略；

9、s6.?對(duì)每個(gè)頻段應(yīng)用自適應(yīng)深度殘差塊adrb，進(jìn)行并行的多維特征提取和整合；

10、s7.?使用深度控制器nsdr動(dòng)態(tài)預(yù)測(cè)每個(gè)頻段的最佳網(wǎng)絡(luò)深度，根據(jù)輸入信號(hào)的復(fù)雜度自適應(yīng)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)；

11、s8.?在自適應(yīng)深度殘差塊adrb中，由深度控制器動(dòng)態(tài)控制卷積層數(shù)，通過(guò)多層蒸餾通道和殘差通道實(shí)現(xiàn)多級(jí)特征提取，利用殘差連接進(jìn)行特征融合；

12、s9.?應(yīng)用混合區(qū)域注意力機(jī)制hrfa，結(jié)合全局和局部注意力機(jī)制，強(qiáng)化不同頻段特征之間的長(zhǎng)距和短距依賴(lài)關(guān)系，其中全局注意力機(jī)制通過(guò)多頭注意力架構(gòu)捕獲全頻域上下文信息，局部注意力機(jī)制側(cè)重于每個(gè)頻率周?chē)南噜弲^(qū)域，進(jìn)行細(xì)粒度分析；

13、s10.?通過(guò)時(shí)間驅(qū)動(dòng)模塊強(qiáng)化時(shí)間序列上不同頻率特征的相關(guān)連續(xù)性，處理時(shí)間正序和逆序，捕捉長(zhǎng)時(shí)間依賴(lài)關(guān)系；

14、s11.?將經(jīng)過(guò)多頻段處理、混合區(qū)域注意力機(jī)制增強(qiáng)和時(shí)間驅(qū)動(dòng)模塊提取的特征進(jìn)行融合；

15、s12.?利用融合后的特征進(jìn)行情感狀態(tài)的分類(lèi)和識(shí)別。

16、在本發(fā)明第二方面，一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法。

17、在本發(fā)明第三方面，一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法。

18、本發(fā)明具有如下有益效果：

19、為了克服傳統(tǒng)的語(yǔ)音情感識(shí)別中的問(wèn)題，本發(fā)明提出一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法，構(gòu)建自適應(yīng)多頻段混合感知網(wǎng)絡(luò)（adaptive?multi-band?hybrid-awarenetwork），結(jié)合多頻段處理和混合感知機(jī)制，自適應(yīng)地提取豐富的情感特征，以實(shí)現(xiàn)更精確的情感狀態(tài)檢測(cè)，有效克服了現(xiàn)有語(yǔ)音情感識(shí)別方法的局限性。本發(fā)明中，根據(jù)人類(lèi)聲學(xué)特征，f1、f2、f3共振峰頻段，將語(yǔ)音信號(hào)劃分為多個(gè)頻段，并針對(duì)性地提取各頻段特征，捕捉不同情緒狀態(tài)在頻譜上的差異；使用可變的深度殘差網(wǎng)絡(luò)結(jié)構(gòu)，可以根據(jù)輸入音頻的特性動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)，以適應(yīng)不同情感狀態(tài)在建模復(fù)雜度上的差異；利用注意力機(jī)制將全局語(yǔ)義信息和局部聲學(xué)特征聚合，實(shí)現(xiàn)情感的全面表征。總的來(lái)說(shuō)，本發(fā)明基于amh-net的方法，提供了一個(gè)能夠根據(jù)人類(lèi)聲學(xué)特征動(dòng)態(tài)調(diào)整的開(kāi)創(chuàng)性框架和機(jī)制，能夠全面捕捉情感特征，從而顯著提高了情感狀態(tài)識(shí)別的精度和效率。

20、在六個(gè)不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本發(fā)明在短時(shí)語(yǔ)音上的表現(xiàn)尤為出色，優(yōu)于現(xiàn)有的先進(jìn)方法?？傮w而言，本發(fā)明為準(zhǔn)確高效的語(yǔ)音情感識(shí)別提供了一種動(dòng)態(tài)、全面的解決方案。

21、本發(fā)明實(shí)施例中的其他有益效果將在下文中進(jìn)一步述及。

技術(shù)特征：

1.一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法，其特征在于，包括以下步驟：

2.如權(quán)利要求1所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法，其特征在于，在步驟s1中，輸入信號(hào)預(yù)處理，將輸入的語(yǔ)音信號(hào)調(diào)整至統(tǒng)一的采樣率；對(duì)信號(hào)進(jìn)行分幀處理，并對(duì)每一幀應(yīng)用hamming窗函數(shù)，設(shè)置幀長(zhǎng)和幀間重疊，以保持信號(hào)連貫性并減少頻譜泄露。

3.如權(quán)利要求1所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法，其特征在于，在步驟s4中，提取每幀的前39個(gè)梅爾頻譜系數(shù)。

4.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法，其特征在于，在步驟s5中，基于語(yǔ)音信號(hào)的共振峰f1、f2和f3，將梅爾頻率倒譜系數(shù)特征mfcc劃分為至少三個(gè)頻段，每個(gè)頻段對(duì)應(yīng)不同的情感特性；

5.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法，其特征在于，在步驟s7中，所述深度控制器對(duì)每個(gè)頻段內(nèi)基于梅爾頻譜系數(shù)的頻率分量進(jìn)行深度信息映射和自適應(yīng)調(diào)節(jié)；

6.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法，其特征在于，在步驟s8中，所述自適應(yīng)深度殘差塊包含多層蒸餾通道和殘差通道，由所述深度控制器動(dòng)態(tài)控制卷積層數(shù)，以實(shí)現(xiàn)對(duì)梅爾頻譜特征的多級(jí)特征提取和信息融合；

7.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法，其特征在于，在步驟s9中，應(yīng)用混合區(qū)域注意力機(jī)制hrfa對(duì)多頻段處理結(jié)果進(jìn)行處理，該機(jī)制結(jié)合全局和局部注意力機(jī)制，以增強(qiáng)不同頻段特征之間的依賴(lài)關(guān)系，并提升模型對(duì)音頻數(shù)據(jù)的感知和處理能力；

8.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法，其特征在于，在步驟s10中，使用時(shí)間驅(qū)動(dòng)頻率信息提取模塊強(qiáng)化不同頻率特征在時(shí)間序列上的相關(guān)連續(xù)性，以增強(qiáng)模型對(duì)復(fù)雜語(yǔ)義信息的表征能力；

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法。

技術(shù)總結(jié)
一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法，輸入語(yǔ)音信號(hào)經(jīng)過(guò)預(yù)處理分幀，利用快速傅里葉變換獲取頻譜特征，信號(hào)通過(guò)梅爾尺度的三角濾波器組處理，模擬人類(lèi)聽(tīng)覺(jué)系統(tǒng)的非線(xiàn)性頻率特性，并通過(guò)離散余弦變換提取關(guān)鍵頻率信息的梅爾頻譜系數(shù)。根據(jù)語(yǔ)音共振峰F1、F2、F3進(jìn)行頻段劃分，定制化特征提取策略。自適應(yīng)深度殘差塊并行處理各頻段特征，深度控制器動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)深度以適應(yīng)信號(hào)復(fù)雜度。ADRB中，多層蒸餾和殘差通道實(shí)現(xiàn)多級(jí)特征提取，殘差連接優(yōu)化特征融合?；旌蠀^(qū)域注意力機(jī)制結(jié)合全局和局部注意力，強(qiáng)化頻段間依賴(lài)關(guān)系。時(shí)間驅(qū)動(dòng)模塊加強(qiáng)時(shí)序連續(xù)性，最終特征融合用于情感分類(lèi)和識(shí)別。該方法全面捕捉情感特征，顯著提升情感狀態(tài)識(shí)別的精度和效率。

技術(shù)研發(fā)人員：張永兵,李恒銳,劉紹輝,陳曉培,董春山
受保護(hù)的技術(shù)使用者：哈爾濱工業(yè)大學(xué)（深圳）（哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院）
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張永兵,李恒銳,劉紹輝,陳曉培,董春山
技術(shù)所有人：哈爾濱工業(yè)大學(xué)（深圳）（哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院）
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音混合相關(guān)技術(shù)

語(yǔ)音感知相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法