亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

確定語(yǔ)音質(zhì)量的方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

文檔序號(hào):39724240發(fā)布日期:2024-10-22 13:20閱讀:42來源:國(guó)知局
確定語(yǔ)音質(zhì)量的方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

本技術(shù)屬于人工智能,特別涉及一種確定語(yǔ)音質(zhì)量的方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品。


背景技術(shù):

1、在相關(guān)技術(shù)中,可以基于傳統(tǒng)的深度網(wǎng)絡(luò)(deep?neural?network,dnn)或者機(jī)器學(xué)習(xí)算法進(jìn)行語(yǔ)音質(zhì)量評(píng)估,但是相關(guān)技術(shù)中進(jìn)行語(yǔ)音指令評(píng)估的方案并不能全面地提取語(yǔ)音數(shù)據(jù)的特征,從而降低了語(yǔ)音數(shù)據(jù)的質(zhì)量評(píng)估的準(zhǔn)確性。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供一種確定語(yǔ)音質(zhì)量的方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品。

2、本技術(shù)實(shí)施例提供一種確定語(yǔ)音質(zhì)量的方法,所述方法包括:

3、獲取多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù),所述多個(gè)時(shí)間點(diǎn)中每個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)包括語(yǔ)音數(shù)據(jù)的傳輸質(zhì)量指標(biāo);

4、獲取所述多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征,將所述多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征輸入至包括注意力層的編碼器,得到編碼器的輸出特征;

5、根據(jù)所述編碼器的輸出特征,確定所述語(yǔ)音數(shù)據(jù)的質(zhì)量。

6、在一些實(shí)施例中,所述多個(gè)時(shí)間點(diǎn)中每個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征為對(duì)應(yīng)時(shí)間點(diǎn)的待處理數(shù)據(jù)的向量表征??梢钥闯?,本技術(shù)實(shí)施例中,可以通過對(duì)每個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的向量表征進(jìn)行處理,得出編碼器的輸出特征,由于語(yǔ)音數(shù)據(jù)的質(zhì)量是根據(jù)編碼器的輸出特征確定的,因此,本技術(shù)實(shí)施例可以根據(jù)每個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的向量表征,較為準(zhǔn)確地確定語(yǔ)音數(shù)據(jù)的質(zhì)量。

7、在一些實(shí)施例中,所述語(yǔ)音數(shù)據(jù)的傳輸質(zhì)量指標(biāo)包括用于實(shí)現(xiàn)所述語(yǔ)音數(shù)據(jù)傳輸?shù)木W(wǎng)絡(luò)協(xié)議的數(shù)據(jù)傳輸指標(biāo),所述網(wǎng)絡(luò)協(xié)議包括實(shí)時(shí)傳輸協(xié)議(real-time?transportprotocol,rtp)和/或?qū)崟r(shí)傳輸控制協(xié)議(real-time?transport?control?protocol,rtcp)??梢钥闯?,本技術(shù)實(shí)施例可以通過對(duì)網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)傳輸指標(biāo)的特征進(jìn)行處理,得到編碼器的輸出特征,從而確定語(yǔ)音數(shù)據(jù)的質(zhì)量;即,本技術(shù)實(shí)施例可以根據(jù)網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)傳輸指標(biāo),從數(shù)據(jù)傳輸?shù)慕嵌瘸霭l(fā)較為準(zhǔn)確地分析出語(yǔ)音數(shù)據(jù)的質(zhì)量。

8、在一些實(shí)施例中,所述語(yǔ)音數(shù)據(jù)的質(zhì)量為所述語(yǔ)音數(shù)據(jù)的平均意見得分(meanopnion?score,mos)??梢?,本技術(shù)實(shí)施例可以根據(jù)編碼器的輸出特征,較為準(zhǔn)確地確定語(yǔ)音數(shù)據(jù)的mos值,從而可以根據(jù)語(yǔ)音數(shù)據(jù)的mos值簡(jiǎn)單容易地確定語(yǔ)音數(shù)據(jù)的質(zhì)量。

9、在一些實(shí)施例中,所述獲取所述多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征、得到編碼器的輸出特征、以及確定所述語(yǔ)音數(shù)據(jù)的質(zhì)量的步驟是在預(yù)先訓(xùn)練的語(yǔ)音質(zhì)量評(píng)估模型中執(zhí)行的;所述語(yǔ)音質(zhì)量評(píng)估模型的訓(xùn)練過程包括以下步驟:獲取多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)、以及所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的真實(shí)值;所述多個(gè)時(shí)間點(diǎn)中每個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)包括語(yǔ)音樣本數(shù)據(jù)的傳輸質(zhì)量指標(biāo);利用所述語(yǔ)音質(zhì)量評(píng)估模型對(duì)所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)進(jìn)行處理,得到所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的評(píng)估值;根據(jù)所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的真實(shí)值、以及所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的評(píng)估值,調(diào)整所述語(yǔ)音質(zhì)量評(píng)估模型的參數(shù)。

10、可以看出,在語(yǔ)音質(zhì)量評(píng)估模型的訓(xùn)練過程中,本技術(shù)實(shí)施例可以根據(jù)多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的真實(shí)值、以及多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的評(píng)估值,對(duì)語(yǔ)音質(zhì)量評(píng)估模型的參數(shù)進(jìn)行調(diào)整,從而可以使得訓(xùn)練后的語(yǔ)音質(zhì)量評(píng)估模型能夠較為準(zhǔn)確地進(jìn)行語(yǔ)音質(zhì)量評(píng)估。

11、在一些實(shí)施例中,在利用所述語(yǔ)音質(zhì)量評(píng)估模型對(duì)所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)進(jìn)行處理,得到所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的評(píng)估值之前,所述方法還包括:將所述多個(gè)時(shí)間點(diǎn)中各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)進(jìn)行處理,得到所述各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征;生成所述語(yǔ)音質(zhì)量評(píng)估模型的編碼器的輸入信息,所述輸入信息至少包括對(duì)所述各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼(mask)操作的結(jié)果;利用所述編碼器對(duì)所述輸入信息進(jìn)行處理,得出所述編碼器的處理結(jié)果;根據(jù)所述編碼器的處理結(jié)果,通過恢復(fù)層重建所述各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的向量表征,得到重建結(jié)果;根據(jù)所述重建結(jié)果、以及所述各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的向量表征,調(diào)整所述恢復(fù)層和所述編碼器的參數(shù)。

12、可以看出,在調(diào)整語(yǔ)音質(zhì)量評(píng)估模型的參數(shù)之前,可以通過對(duì)各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼操作得到編碼器的輸入信息,然后,在利用編碼器對(duì)輸入信息進(jìn)行處理后,根據(jù)編碼器的處理結(jié)果可以對(duì)各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的向量表征進(jìn)行重建;在得到重建結(jié)果后,根據(jù)重建結(jié)果、以及各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的向量表征,可以合理地調(diào)整編碼器的參數(shù),從而使得編碼器能夠更加準(zhǔn)確地進(jìn)行數(shù)據(jù)處理。

13、在一些實(shí)施例中,所述生成所述語(yǔ)音質(zhì)量評(píng)估模型的編碼器的輸入信息,包括:根據(jù)預(yù)設(shè)比例,在每個(gè)特征維度上遍歷各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征,對(duì)每個(gè)特征維度對(duì)應(yīng)的部分時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼操作,得到每個(gè)特征維度對(duì)應(yīng)的掩碼操作結(jié)果;所述預(yù)設(shè)比例表示所述部分時(shí)間點(diǎn)在所述每個(gè)特征維度對(duì)應(yīng)的全部時(shí)間點(diǎn)中的數(shù)量占比;根據(jù)各個(gè)特征維度對(duì)應(yīng)的掩碼操作結(jié)果,生成所述輸入信息。

14、可以看出,本技術(shù)實(shí)施例不會(huì)將某一隨機(jī)時(shí)間點(diǎn)的全部向量表征都進(jìn)行掩碼操作,而是可以針對(duì)每個(gè)特征維度將部分時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼操作,從而有利于鼓勵(lì)語(yǔ)音質(zhì)量評(píng)估模型學(xué)習(xí)不同特征維度之間的數(shù)據(jù)的依賴關(guān)系,有利于提升語(yǔ)音質(zhì)量評(píng)估模型對(duì)不同特征維度的數(shù)據(jù)的處理精度。

15、在一些實(shí)施例中,所述生成所述語(yǔ)音質(zhì)量評(píng)估模型的編碼器的輸入信息,包括:根據(jù)預(yù)設(shè)平均長(zhǎng)度,在每個(gè)特征維度上遍歷各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征,對(duì)每個(gè)特征維度對(duì)應(yīng)的連續(xù)多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼操作,得到每個(gè)特征維度對(duì)應(yīng)的掩碼操作結(jié)果;所述預(yù)設(shè)平均長(zhǎng)度表示各個(gè)特征維度對(duì)應(yīng)的連續(xù)掩碼長(zhǎng)度的平均值,所述連續(xù)掩碼長(zhǎng)度表示連續(xù)多個(gè)時(shí)間點(diǎn)的時(shí)間點(diǎn)長(zhǎng)度;根據(jù)各個(gè)特征維度對(duì)應(yīng)的掩碼操作結(jié)果,生成所述輸入信息。

16、可以看出,本技術(shù)實(shí)施例并不會(huì)僅僅針對(duì)單個(gè)時(shí)間點(diǎn)的特征進(jìn)行數(shù)值替換,而是可以對(duì)每個(gè)特征維度對(duì)應(yīng)的連續(xù)多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼操作,這樣語(yǔ)音質(zhì)量評(píng)估模型不能通過插值運(yùn)算或計(jì)算相鄰時(shí)間點(diǎn)的的特征的均值,來恢復(fù)實(shí)施掩碼操作的數(shù)值,從而有利于語(yǔ)音質(zhì)量評(píng)估模型更有效地學(xué)習(xí)不同時(shí)間點(diǎn)的特征之間的依賴關(guān)系。

17、本技術(shù)實(shí)施例還提供了一種確定語(yǔ)音質(zhì)量的裝置,所述裝置包括:

18、獲取模塊,用于獲取多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù),所述多個(gè)時(shí)間點(diǎn)中每個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)包括語(yǔ)音數(shù)據(jù)的傳輸質(zhì)量指標(biāo);

19、處理模塊,用于獲取所述多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征,將所述多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征輸入至包括注意力層的編碼器,得到編碼器的輸出特征;根據(jù)所述編碼器的輸出特征,確定所述語(yǔ)音數(shù)據(jù)的質(zhì)量。

20、本技術(shù)實(shí)施例還提供了一種電子設(shè)備,所述電子設(shè)備包括處理器和用于存儲(chǔ)能夠在處理器上運(yùn)行的計(jì)算機(jī)程序的存儲(chǔ)器;其中,所述處理器用于運(yùn)行所述計(jì)算機(jī)程序以執(zhí)行上述任意一種確定語(yǔ)音質(zhì)量的方法。

21、本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任意一種確定語(yǔ)音質(zhì)量的方法。

22、本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任意一種確定語(yǔ)音質(zhì)量的方法。

23、可以看出,本技術(shù)實(shí)施例可以利用包括注意力層的編碼器,對(duì)多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征進(jìn)行處理,由于注意力層可以基于注意力機(jī)制學(xué)習(xí)各個(gè)時(shí)間點(diǎn)的數(shù)據(jù)之間的依賴關(guān)系以及不同特征之間的相關(guān)關(guān)系,因此,本技術(shù)實(shí)施例可以在考慮多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的依賴關(guān)系、以及多個(gè)時(shí)間點(diǎn)的特征之間的關(guān)系的基礎(chǔ)上,確定語(yǔ)音數(shù)據(jù)的質(zhì)量,有利于提高語(yǔ)音數(shù)據(jù)的質(zhì)量評(píng)估的準(zhǔn)確性。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1