本公開涉及數(shù)據(jù)處理,尤其涉及一種語音唇讀識別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備。
背景技術(shù):
1、語音唇讀是一種根據(jù)輸入的說話人臉視頻序列來重建說話語音的技術(shù),是一種視頻到語音的映射,其重建的語音應(yīng)該包含視頻的說話內(nèi)容信息和說話人語音相關(guān)信息。在語音唇讀任務(wù)中,研究者一開始選擇文字作為視頻到語音的中間表示;后來隨著研究的深入,大多數(shù)研究者選擇用聲學(xué)特征(如:聲譜圖、梅爾譜圖圖、lpc線性預(yù)測編碼等)作為視頻到語音的中間特征表示。
2、傳統(tǒng)的前饋網(wǎng)絡(luò)利用cnn,rnn等將訓(xùn)練集壓縮成隱向量進(jìn)行存儲;導(dǎo)致網(wǎng)絡(luò)在編碼的過程中損失了很多有用的信息,并不能更好的獲取與聲學(xué)特征相關(guān)的隱向量。現(xiàn)有的模型大多針對單個說話人進(jìn)行語音重建,即模型與說話人相關(guān)、模型依賴于說話人。如何實現(xiàn)多說話人條件下的語音唇讀效果成為亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本公開提供了一種語音唇讀識別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備。其主要目的在于實現(xiàn)多說話人條件下的語音唇讀識別,提升語音純度識別模型的泛化能力。
2、根據(jù)本公開的第一方面,提供了一種語音唇讀識別模型的訓(xùn)練方法,包括:
3、將訓(xùn)練用語音視頻分別輸入視頻編碼器及語音編碼器進(jìn)行特征提取,得到訓(xùn)練用語音特征及訓(xùn)練用視頻特征;
4、將所述訓(xùn)練用語音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽特征;
5、根據(jù)所述訓(xùn)練用多模態(tài)視聽特征及預(yù)設(shè)損失函數(shù),確定語音唇讀識別模型是否訓(xùn)練完成。
6、可選的,所述跨模態(tài)對抗記憶模塊包括鍵記憶與值記憶,所述方法還包括:
7、將所述訓(xùn)練用視頻特征作為所述鍵記憶的訓(xùn)練用先驗視頻特征進(jìn)行更新,其中,所述鍵記憶基于所述訓(xùn)練用先驗視頻特征在所述值記憶中進(jìn)行尋址;
8、將所述訓(xùn)練用語音特征作為所述值記憶的訓(xùn)練用先驗語音特征進(jìn)行更新,其中,所述訓(xùn)練用先驗視頻特征與所述訓(xùn)練用先驗語音特征一一對應(yīng)存儲。
9、可選的,所述將訓(xùn)練用語音視頻分別輸入視頻編碼器及語音編碼器進(jìn)行特征提取,得到訓(xùn)練用語音特征及訓(xùn)練用視頻特征,包括:
10、從所述訓(xùn)練用語音視頻中,提取視頻幀數(shù)據(jù);
11、對所述視頻幀數(shù)據(jù)進(jìn)行特征提取,得到所述訓(xùn)練用視頻特征;
12、從所述訓(xùn)練用語音視頻中提取語音數(shù)據(jù),并根據(jù)語音數(shù)據(jù)所述生成第一梅爾譜圖;
13、對所述第一梅爾譜圖進(jìn)行特征提取,得到所述訓(xùn)練用語音特征。
14、可選的,所述跨模態(tài)對抗記憶模塊還包括模態(tài)分類器;
15、所述將所述訓(xùn)練用語音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽特征,包括:
16、將所述訓(xùn)練用語音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類器進(jìn)行跨模態(tài)處理;
17、對跨模態(tài)處理后的所述訓(xùn)練用視頻特征與訓(xùn)練用先驗視頻特征進(jìn)行相似度計算,得到第一相似度權(quán)重;
18、對跨模態(tài)處理后的所述訓(xùn)練用語音特征與訓(xùn)練用先驗語音特征進(jìn)行相似度計算,得到第二相似度權(quán)重;
19、將所述第一相似度權(quán)重及所述訓(xùn)練用先驗語音特征進(jìn)行加權(quán)求和處理,得到所述訓(xùn)練用多模態(tài)視聽特征。
20、可選的,所述將所述訓(xùn)練用語音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類器進(jìn)行跨模態(tài)處理,包括:
21、將所述訓(xùn)練用語音特征映射至訓(xùn)練用映射網(wǎng)絡(luò),得到第一特征向量;
22、將所述訓(xùn)練用視頻特征映射至所述訓(xùn)練用映射網(wǎng)絡(luò),得到第二特征向量;
23、基于所述模態(tài)分類器,對所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理。
24、可選的,所述方法還包括:
25、計算所述第一特征向量及所述第二特征向量之間的第一特征距離;
26、在對所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理后,計算分類損失;
27、基于所述第一特征距離及所述分類損失,確定所述模態(tài)分類器是否訓(xùn)練完成。
28、可選的,所述根據(jù)所述訓(xùn)練用多模態(tài)視聽特征及預(yù)設(shè)損失函數(shù),確定語音唇讀識別模型是否訓(xùn)練完成,包括:
29、對所述訓(xùn)練用先驗語音特征及所述第二相似度權(quán)重進(jìn)行加權(quán)求和處理,得到偽語音特征;
30、計算所述偽語音特征與所述訓(xùn)練用語音特征之間的第二特征距離;
31、計算所述第一相似度權(quán)重及所述第二相似度權(quán)重之間的k-l散度;
32、根據(jù)所述訓(xùn)練用多模態(tài)視聽特征,生成第二梅爾譜圖;
33、基于所述第一梅爾譜圖及所述第二梅爾譜圖,計算第一損失函數(shù);
34、計算所述預(yù)設(shè)損失函數(shù),其中,所述預(yù)設(shè)損失函數(shù)為所述第一損失函數(shù)、所述第一特征距離、所述第二特征距離、所述k-l散度的和減去所述分類損失;
35、根據(jù)所述預(yù)設(shè)損失函數(shù)的計算結(jié)果,確定所述語音唇讀識別模型是否訓(xùn)練完成。
36、可選的,所述基于所述第一梅爾譜圖及所述第二梅爾譜圖,計算第一損失函數(shù),包括:
37、基于所述第一梅爾譜圖、第一預(yù)測梅爾譜圖、所述第二梅爾譜圖,計算第二損失函數(shù);
38、基于所述第一梅爾譜圖、第二預(yù)測梅爾譜圖、第三梅爾譜圖,計算第三損失函數(shù);
39、將所述第二損失函數(shù)及所述第三損失函數(shù)相加,得到所述第一損失函數(shù)。
40、可選的,所述方法還包括:
41、在將訓(xùn)練用語音視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述訓(xùn)練用語音視頻中的人像進(jìn)行裁剪對齊處理。
42、根據(jù)本公開的第二方面,提供了一種語音唇讀識別的方法,所述方法包括:
43、將待識別視頻輸入視頻編碼器進(jìn)行特征提取,得到視頻特征;
44、將所述視頻特征輸入跨模態(tài)對抗記憶模塊,生成多模態(tài)視聽特征;
45、利用語音解碼器對所述多模態(tài)視聽特征進(jìn)行特征重建,生成第四梅爾譜圖;
46、基于聲碼器,對所述第四梅爾譜圖進(jìn)行轉(zhuǎn)換處理得到語音唇讀識別的語音。
47、可選的,所述跨模態(tài)對抗記憶模塊還包括模態(tài)分類器、鍵記憶與值記憶;
48、所述將所述視頻特征輸入跨模態(tài)對抗記憶模塊,生成多模態(tài)視聽特征,包括:
49、計算所述視頻特征與所述鍵記憶中儲存的先驗視頻特征之間的尋址相似度;
50、基于所述尋址相似度,查找所述值記憶中對應(yīng)的先驗語音特征;
51、將所述視頻特征與所述先驗語音特征進(jìn)行加權(quán)求和處理,得到所述多模態(tài)視聽特征。
52、可選的,所述方法還包括:
53、在將所述待識別視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述待識別視頻中的人像進(jìn)行裁剪對齊處理。
54、根據(jù)本公開的第三方面,提供了一種語音唇讀識別模型的訓(xùn)練裝置,包括:
55、第一訓(xùn)練單元,用于將訓(xùn)練用語音視頻分別輸入視頻編碼器及語音編碼器進(jìn)行特征提取,得到訓(xùn)練用語音特征及訓(xùn)練用視頻特征;
56、第二訓(xùn)練單元,用于將所述訓(xùn)練用語音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽特征;
57、第一確定單元,用于根據(jù)所述訓(xùn)練用第一梅爾譜圖、所述訓(xùn)練用第二梅爾譜圖及預(yù)設(shè)損失函數(shù),確定語音唇讀識別模型是否訓(xùn)練完成。
58、可選的,所述裝置還包括:
59、第一更新單元,用于將所述訓(xùn)練用視頻特征作為所述鍵記憶的訓(xùn)練用先驗視頻特征進(jìn)行更新,其中,所述鍵記憶基于所述訓(xùn)練用先驗視頻特征在所述值記憶中進(jìn)行尋址;所述跨模態(tài)對抗記憶模塊包括鍵記憶與值記憶;
60、第二更新單元,用于將所述訓(xùn)練用語音特征作為所述值記憶的訓(xùn)練用先驗語音特征進(jìn)行更新,其中,所述訓(xùn)練用先驗視頻特征與所述訓(xùn)練用先驗語音特征一一對應(yīng)存儲。
61、可選的,所述第一訓(xùn)練單元包括:
62、第一提取模塊,用于從所述訓(xùn)練用語音視頻中,提取視頻幀數(shù)據(jù);
63、第二提取模塊,用于對所述視頻幀數(shù)據(jù)進(jìn)行特征提取,得到所述訓(xùn)練用視頻特征;
64、第三提取模塊,用于從所述訓(xùn)練用語音視頻中提取語音數(shù)據(jù),并根據(jù)語音數(shù)據(jù)所述生成第一梅爾譜圖;
65、第四提取模塊,用于對所述第一梅爾譜圖進(jìn)行特征提取,得到所述訓(xùn)練用語音特征。
66、可選的,所述第二訓(xùn)練單元包括:
67、跨模態(tài)處理模塊,用于將所述訓(xùn)練用語音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類器進(jìn)行跨模態(tài)處理;所述跨模態(tài)對抗記憶模塊還包括模態(tài)分類器;
68、第一計算模塊,用于對跨模態(tài)處理后的所述訓(xùn)練用視頻特征與訓(xùn)練用先驗視頻特征進(jìn)行相似度計算,得到第一相似度權(quán)重;
69、第二計算模塊,用于對跨模態(tài)處理后的所述訓(xùn)練用語音特征與訓(xùn)練用先驗語音特征進(jìn)行相似度計算,得到第二相似度權(quán)重;
70、第三計算模塊,用于將所述第一相似度權(quán)重及所述訓(xùn)練用先驗語音特征進(jìn)行加權(quán)求和處理,得到所述訓(xùn)練用多模態(tài)視聽特征。
71、可選的,所述跨模態(tài)處理模塊還用于:
72、將所述訓(xùn)練用語音特征映射至訓(xùn)練用映射網(wǎng)絡(luò),得到第一特征向量;
73、將所述訓(xùn)練用視頻特征映射至所述訓(xùn)練用映射網(wǎng)絡(luò),得到第二特征向量;
74、基于所述模態(tài)分類器,對所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理。
75、可選的,所述裝置還包括:
76、第一計算單元,用于計算所述第一特征向量及所述第二特征向量之間的第一特征距離;
77、第二計算單元,用于在對所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理后,計算分類損失;
78、第二確定單元,用于基于所述第一特征距離及所述分類損失,確定所述模態(tài)分類器是否訓(xùn)練完成。
79、可選的,所述第一確定單元包括:
80、第四計算模塊,用于對所述訓(xùn)練用先驗語音特征及所述第二相似度權(quán)重進(jìn)行加權(quán)求和處理,得到偽語音特征;
81、第五計算模塊,用于計算所述偽語音特征與所述訓(xùn)練用語音特征之間的第二特征距離;
82、第六計算模塊,用于計算所述第一相似度權(quán)重及所述第二相似度權(quán)重之間的k-l散度;
83、生成模塊,用于根據(jù)所述訓(xùn)練用多模態(tài)視聽特征,生成第二梅爾譜圖;
84、第七計算模塊,用于基于所述第一梅爾譜圖及所述第二梅爾譜圖,計算第一損失函數(shù);
85、第八計算模塊,用于計算所述預(yù)設(shè)損失函數(shù),其中,所述預(yù)設(shè)損失函數(shù)為所述第一損失函數(shù)、所述第一特征距離、所述第二特征距離、所述k-l散度的和減去所述分類損失;
86、確定模塊,用于根據(jù)所述預(yù)設(shè)損失函數(shù)的計算結(jié)果,確定所述語音唇讀識別模型是否訓(xùn)練完成。
87、可選的,所述第七計算模塊還用于:
88、基于所述第一梅爾譜圖、第一預(yù)測梅爾譜圖、所述第二梅爾譜圖,計算第二損失函數(shù);
89、基于所述第一梅爾譜圖、第二預(yù)測梅爾譜圖、第三梅爾譜圖,計算第三損失函數(shù);
90、將所述第二損失函數(shù)及所述第三損失函數(shù)相加,得到所述第一損失函數(shù)。
91、可選的,所述裝置還包括:
92、第一裁剪單元,用于在將訓(xùn)練用語音視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述訓(xùn)練用語音視頻中的人像進(jìn)行裁剪對齊處理。
93、根據(jù)本公開的第四方面,提供了一種語音唇讀識別的裝置,所述裝置包括:
94、提取單元,用于將待識別視頻輸入視頻編碼器進(jìn)行特征提取,得到視頻特征;
95、第一生成單元,用于將所述視頻特征輸入跨模態(tài)對抗記憶模塊,生成多模態(tài)視聽特征;
96、第二生成單元,用于利用語音解碼器對所述多模態(tài)視聽特征進(jìn)行特征重建,生成第四梅爾譜圖;
97、轉(zhuǎn)換單元,用于基于聲碼器,對所述第四梅爾譜圖進(jìn)行轉(zhuǎn)換處理得到語音唇讀識別的語音。
98、可選的,所述第一生成單元包括:
99、第九計算模塊,用于計算所述視頻特征與所述鍵記憶中儲存的先驗視頻特征之間的尋址相似度;所述跨模態(tài)對抗記憶模塊還包括模態(tài)分類器、鍵記憶與值記憶;
100、查找模塊,用于基于所述尋址相似度,查找所述值記憶中對應(yīng)的先驗語音特征;
101、第十計算模塊,用于將所述視頻特征與所述先驗語音特征進(jìn)行加權(quán)求和處理,得到所述多模態(tài)視聽特征。
102、可選的,所述裝置還包括:
103、第二裁剪單元,用于在將所述待識別視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述待識別視頻中的人像進(jìn)行裁剪對齊處理。
104、根據(jù)本公開的第五方面,提供了一種電子設(shè)備,包括:
105、至少一個處理器;以及
106、與所述至少一個處理器通信連接的存儲器;其中,
107、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行前述第一方面和/或第二方面所述的方法。
108、根據(jù)本公開的第六方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行前述第一方面和/或第二方面所述的方法。
109、根據(jù)本公開的第七方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如前述第一方面和/或第二方面所述的方法。
110、本公開提供了一種語音唇讀識別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備,將訓(xùn)練用語音視頻分別輸入視頻編碼器及語音編碼器進(jìn)行特征提取,得到訓(xùn)練用語音特征及訓(xùn)練用視頻特征;將所述訓(xùn)練用語音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽特征;根據(jù)所述訓(xùn)練用多模態(tài)視聽特征及預(yù)設(shè)損失函數(shù),確定語音唇讀識別模型是否訓(xùn)練完成。與相關(guān)技術(shù)相比,本公開通過將提取到的訓(xùn)練用語音特征及訓(xùn)練用視頻特征輸入跨模態(tài)對抗記憶模塊,進(jìn)行跨模態(tài)處理;能夠?qū)⒂?xùn)練用語音特征及訓(xùn)練用視頻特征更好的融合,獲取到更多的關(guān)于語音特征與視頻特征之間的關(guān)聯(lián)關(guān)系信息,進(jìn)而能夠提高模型的泛化識別能力。
111、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本技術(shù)的實施例的關(guān)鍵或重要特征,也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過以下的說明書而變得容易理解。