本發(fā)明涉及語音數(shù)據(jù)處理,應(yīng)用于金融場景中,尤其涉及一種用戶情緒識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、目前,金融客服服務(wù)已經(jīng)成為金融機(jī)構(gòu)中不可或缺的一部分。隨著科技的不斷發(fā)展,金融客服服務(wù)也越來越趨向于自動(dòng)化和智能化。一些金融公司已經(jīng)開始使用語音助理和聊天機(jī)器人與客戶進(jìn)行溝通。這些系統(tǒng)需要能夠理解并回答客戶的問題,提供幫助和建議,從而提供更加個(gè)性化的金融服務(wù)體驗(yàn)。雖然機(jī)器人在理解語音和對應(yīng)文本的語義內(nèi)容方面的能力較強(qiáng),但在識(shí)別客戶情緒方面則相對較弱。相比之下,人工客服能夠通過語氣、語調(diào)等特征識(shí)別客戶的情緒狀態(tài),并及時(shí)檢查自己的服務(wù)是否存在問題,進(jìn)而進(jìn)行自我糾正。因此,語音助理在客戶情緒識(shí)別能力仍有待提升。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例的目的在于提出一種用戶情緒識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),以解決現(xiàn)有技術(shù)中語音助理識(shí)別用戶情緒能力弱的問題。
2、為了解決上述技術(shù)問題,本發(fā)明實(shí)施例提供用戶情緒識(shí)別方法,采用了如下所述的技術(shù)方案:
3、一種用戶情緒識(shí)別方法,包括下述步驟:
4、收集用戶的語音數(shù)據(jù),對所述語音數(shù)據(jù)標(biāo)注情緒標(biāo)簽;
5、使用語音自監(jiān)督模型從所述語音數(shù)據(jù)中提取語音表示特征;
6、使用韻律模型從所述語音數(shù)據(jù)中提取語音韻律特征;
7、通過所述交互注意力模塊對所述語音表示特征和語音韻律特征進(jìn)行加權(quán)特征融合,獲得融合特征;
8、通過所述語音表示特征、語音韻律特征和融合特征對情緒識(shí)別分類器進(jìn)行訓(xùn)練,獲得情緒識(shí)別模型;
9、獲取目標(biāo)用戶的語音數(shù)據(jù),將目標(biāo)用戶的語音數(shù)據(jù)輸入情緒識(shí)別模型中進(jìn)行識(shí)別,輸出情緒識(shí)別結(jié)果。
10、在一個(gè)實(shí)施例中,所述使用語音自監(jiān)督模型從所述語音數(shù)據(jù)中提取語音表示特征,包括:
11、對所述語音數(shù)據(jù)進(jìn)行預(yù)處理,將處理后的語音數(shù)據(jù)輸入語音自監(jiān)督模型中;
12、通過語音自監(jiān)督模型提取語音數(shù)據(jù)的語音表示特征。
13、在一個(gè)實(shí)施例中,所述使用韻律模型從所述訓(xùn)練數(shù)據(jù)集中提取語音韻律特征,包括:
14、對所述語音數(shù)據(jù)進(jìn)行分割形成短幀音頻數(shù)據(jù);
15、對所述短幀音頻數(shù)據(jù)進(jìn)行傅里葉變換獲得頻譜圖,將所述頻譜圖進(jìn)行梅爾尺度轉(zhuǎn)換形成梅爾頻譜;
16、將所述梅爾頻譜輸入韻律模型中提取得到語音韻律特征。
17、在一個(gè)實(shí)施例中,所述通過所述交互注意力模塊對所述語音表示特征和語音韻律特征進(jìn)行加權(quán)特征融合,獲得融合特征,包括:
18、將所述語音表示特征和語音韻律特征輸入第一交互注意力模塊中,輸出特性特征;其中,所述語音表示特征作為查詢向量,所述語音韻律特征作為鍵向量和值向量;
19、將所述語音表示特征和語音韻律特征輸入第二交互注意力模塊中,輸出共性特征;其中,所述語音韻律特征作為查詢向量,所述語音表示特征作為鍵向量和值向量;
20、對所述特性特征和共性特征進(jìn)行加權(quán)求和,得到融合特征。
21、在一個(gè)實(shí)施例中,所述通過所述語音表示特征、語音韻律特征和融合特征對情緒識(shí)別分類器進(jìn)行訓(xùn)練,獲得情緒識(shí)別模型,包括:
22、將所述語音表示特征、語音韻律特征和融合特征輸入情緒識(shí)別分類器的三重監(jiān)督機(jī)制中,并輸出預(yù)測情緒標(biāo)簽;
23、通過損失函數(shù)計(jì)算預(yù)測情緒標(biāo)簽與真實(shí)情緒標(biāo)簽的損失值;
24、根據(jù)損失值計(jì)算情緒識(shí)別分類器的每個(gè)參數(shù)的梯度;
25、根據(jù)所述梯度和預(yù)設(shè)學(xué)習(xí)率更新模型參數(shù),得到情緒識(shí)別模型。
26、在一個(gè)實(shí)施例中,所述通過所述語音表示特征、語音韻律特征和融合特征對情緒識(shí)別分類器進(jìn)行訓(xùn)練,獲得情緒識(shí)別模型,還包括:
27、當(dāng)融合特征輸入情緒識(shí)別分類器的三重監(jiān)督機(jī)制時(shí),對所述融合進(jìn)行權(quán)重初始化;
28、通過所述損失值計(jì)算融合特征的梯度;
29、根據(jù)所述梯度和預(yù)設(shè)學(xué)習(xí)率更新融合特征的權(quán)重。
30、在一個(gè)實(shí)施例中,所述獲取目標(biāo)用戶的語音數(shù)據(jù),將目標(biāo)用戶的語音數(shù)據(jù)輸入情緒識(shí)別模型中進(jìn)行識(shí)別,輸出情緒識(shí)別結(jié)果,包括:
31、獲取目標(biāo)用戶的語音數(shù)據(jù),并將所述語音數(shù)據(jù)轉(zhuǎn)化為梅爾頻譜;
32、由語音自監(jiān)督模型對輸入的語音數(shù)據(jù)進(jìn)行處理,從所述語音數(shù)據(jù)中提取目標(biāo)表示特征;
33、由韻律模型對輸入的梅爾頻譜進(jìn)行處理,從所述梅爾頻譜中提取目標(biāo)韻律特征;
34、通過所述交互注意力模塊對所述目標(biāo)表示特征和目標(biāo)韻律特征進(jìn)行融合,獲得目標(biāo)融合特征;
35、將所述目標(biāo)融合特征輸入情緒識(shí)別模型中進(jìn)行分析,輸出用戶情緒標(biāo)簽。
36、為了解決上述技術(shù)問題,本發(fā)明實(shí)施例還提供用戶情緒識(shí)別裝置,采用了如下所述的技術(shù)方案:
37、一種用戶情緒識(shí)別裝置,包括:
38、數(shù)據(jù)收集模塊,用于收集用戶的語音數(shù)據(jù),對所述語音數(shù)據(jù)標(biāo)注情緒標(biāo)簽;
39、表示特征模塊,用于使用語音自監(jiān)督模型從所述語音數(shù)據(jù)中提取語音表示特征;
40、韻律特征模塊,用于使用韻律模型從所述語音數(shù)據(jù)中提取語音韻律特征;
41、融合特征模塊,用于通過所述交互注意力模塊對所述語音表示特征和語音韻律特征進(jìn)行加權(quán)特征融合,獲得融合特征;
42、模型訓(xùn)練模塊,用于通過所述語音表示特征、語音韻律特征和融合特征對情緒識(shí)別分類器進(jìn)行訓(xùn)練,獲得情緒識(shí)別模型;
43、情緒識(shí)別模塊,用于獲取目標(biāo)用戶的語音數(shù)據(jù),將目標(biāo)用戶的語音數(shù)據(jù)輸入情緒識(shí)別模型中進(jìn)行識(shí)別,輸出情緒識(shí)別結(jié)果。
44、為了解決上述技術(shù)問題,本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:
45、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)上述所述的用戶情緒識(shí)別方法的步驟。
46、為了解決上述技術(shù)問題,本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),采用了如下所述的技術(shù)方案:
47、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述所述的用戶情緒識(shí)別方法的步驟。
48、與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例主要有以下有益效果:
49、本發(fā)明實(shí)施例所述用戶情緒識(shí)別方法,通過收集用戶的語音數(shù)據(jù),對所述語音數(shù)據(jù)標(biāo)注情緒標(biāo)簽;使用語音自監(jiān)督模型從所述語音數(shù)據(jù)中提取語音表示特征;使用韻律模型從所述語音數(shù)據(jù)中提取語音韻律特征;通過所述交互注意力模塊對所述語音表示特征和語音韻律特征進(jìn)行加權(quán)特征融合,獲得融合特征;通過所述語音表示特征、語音韻律特征和融合特征對情緒識(shí)別分類器進(jìn)行訓(xùn)練,獲得情緒識(shí)別模型;獲取目標(biāo)用戶的語音數(shù)據(jù),將目標(biāo)用戶的語音數(shù)據(jù)輸入情緒識(shí)別模型中進(jìn)行識(shí)別,輸出情緒識(shí)別結(jié)果。本發(fā)明通過交互注意力模塊對用戶的表示特征和韻律特征進(jìn)行融合,使用融合特征訓(xùn)練情緒識(shí)別分類器,提高情緒識(shí)別模型對用戶情緒識(shí)別的準(zhǔn)確率。