本申請涉及語音處理,特別是涉及一種合成語音切換方法及相關(guān)裝置、設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,語音合成技術(shù)得到了發(fā)展,用于實(shí)現(xiàn)將文本自動(dòng)轉(zhuǎn)換為語音。
2、現(xiàn)有技術(shù)中,在進(jìn)行合成語音播放時(shí),為了支持用戶在播放過程中對(duì)合成語音執(zhí)行新的參數(shù)配置,會(huì)先暫停當(dāng)前播放,等待新的語音合成完成后,再切換播放新的合成語音。但是,等待新的語音合成會(huì)造成語音切換的不流暢,進(jìn)而導(dǎo)致合成語音切換的流暢度較低。有鑒于此,如何提升合成語音切換的流暢度,盡可能地實(shí)現(xiàn)合成語音切換的無縫銜接播放,成為亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請主要解決的技術(shù)問題是提供一種合成語音切換方法及相關(guān)裝置、設(shè)備和存儲(chǔ)介質(zhì),能夠提升合成語音切換的流暢度,盡可能地實(shí)現(xiàn)合成語音切換的無縫銜接播放。
2、為了解決上述技術(shù)問題,本申請第一方面提供了一種合成語音切換方法,包括:播放基于第一配置參數(shù)對(duì)待合成文本合成得到的第一合成語音;響應(yīng)于檢測到表征基于第二配置參數(shù)重新進(jìn)行語音合成的控制指令,基于第二配置參數(shù)對(duì)待合成文本進(jìn)行語音合成,得到第二合成語音;基于第一合成語音在第二合成語音合成完成時(shí)刻的第一播放進(jìn)度,確定第二合成語音中與第一播放進(jìn)度匹配的第二播放進(jìn)度;從第二合成語音的第二播放進(jìn)度開始,切換播放第二合成語音。
3、為了解決上述技術(shù)問題,本申請第二方面提供了一種合成語音切換裝置,包括:播放模塊、合成模塊、確定模塊和切換模塊,播放模塊用于播放基于第一配置參數(shù)對(duì)待合成文本合成得到的第一合成語音;合成模塊用于響應(yīng)于檢測到表征基于第二配置參數(shù)重新進(jìn)行語音合成的控制指令,基于第二配置參數(shù)對(duì)待合成文本進(jìn)行語音合成,得到第二合成語音;確定模塊用于基于第一合成語音在第二合成語音合成完成時(shí)刻的第一播放進(jìn)度,確定第二合成語音中與第一播放進(jìn)度匹配的第二播放進(jìn)度;切換模塊用于從第二合成語音的第二播放進(jìn)度開始,切換播放第二合成語音。
4、為了解決上述技術(shù)問題,本申請第三方面提供了一種電子設(shè)備,包括相互耦接的存儲(chǔ)器和處理器,存儲(chǔ)器中存儲(chǔ)有程序指令,處理器用于執(zhí)行程序指令以實(shí)現(xiàn)上述第一方面中的合成語音切換方法。
5、為了解決上述技術(shù)問題,本申請第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有能夠被處理器運(yùn)行的程序指令,程序指令用于實(shí)現(xiàn)上述第一方面所述的合成語音切換方法。
6、上述方案,播放基于第一配置參數(shù)對(duì)待合成文本合成得到的第一合成語音,在檢測到表征基于第二配置參數(shù)重新進(jìn)行語音合成的控制指令時(shí),繼續(xù)保持播放第一合成語音,并基于第二配置參數(shù)對(duì)待合成文本進(jìn)行語音合成,得到第二合成語音,再基于第一合成語音在第二合成語音合成完成時(shí)刻的第一播放進(jìn)度,確定第二合成語音中與第一播放進(jìn)度匹配的第二播放進(jìn)度,即可從第二合成語音的第二播放進(jìn)度開始,切換播放第二合成語音。因此,在第二合成語音合成的過程中,保持第一合語音的播放,并基于第二合成語音的合成完成時(shí)刻,切換至第二合成語音中與第一播放進(jìn)度匹配的第二播放進(jìn)度處,實(shí)現(xiàn)合成語音的平滑切換。故能提升合成語音切換的流暢度,盡可能地實(shí)現(xiàn)合成語音切換的無縫銜接播放。
1.一種合成語音切換方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第一合成語音在所述第二合成語音合成完成時(shí)刻的第一播放進(jìn)度,確定所述第二合成語音中與所述第一播放進(jìn)度匹配的第二播放進(jìn)度,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待合成文本包含若干子文本,所述第一合成語音包含所述若干子文本的第一子語音,所述基于所述第二配置參數(shù)對(duì)所述待合成文本進(jìn)行語音合成,得到第二合成語音,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述第二配置參數(shù)依次對(duì)各個(gè)所述子文本進(jìn)行語音合成,得到第二子語音,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述第二配置參數(shù)依次對(duì)各個(gè)所述子文本進(jìn)行語音合成,得到第二子語音,包括:
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述當(dāng)前子語音在所述期望子語音合成完成時(shí)刻的第一播放進(jìn)度,確定所述期望子語音中與所述第一播放進(jìn)度匹配的第二播放進(jìn)度,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
9.一種合成語音切換裝置,其特征在于,包括:
10.一種電子裝置,其特征在于,至少包括相互耦接的存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有程序指令,所述處理器用于執(zhí)行所述程序指令以實(shí)現(xiàn)權(quán)利要求1至8任一項(xiàng)所述的合成語音切換方法。
11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,存儲(chǔ)有能夠被處理器運(yùn)行的程序指令,所述程序指令用于實(shí)現(xiàn)權(quán)利要求1至8任一項(xiàng)所述的合成語音切換方法。