亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì)與流程

文檔序號:39725985發(fā)布日期:2024-10-22 13:25閱讀:45來源:國知局
口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì)與流程

本申請涉及口語學(xué)習(xí),更具體的說,是涉及一種口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì)。


背景技術(shù):

1、在當(dāng)今這樣一個全球化的時代中,掌握一門或者幾門外語是必然的要求。在外語學(xué)習(xí)中,尤其是口語學(xué)習(xí)已經(jīng)成為了一個全球性難題。

2、傳統(tǒng)的口語個性化學(xué)習(xí)方案一般是給出一些固定場景的口語題目,讓用戶進(jìn)行口語練習(xí)?;蛘呤窃诠潭▓鼍跋?,基于用戶的對話語音進(jìn)行文本識別,并基于識別文本來確定機器的回復(fù)文本,進(jìn)而通過語音合成,將回復(fù)文本合成為語音輸出,以實現(xiàn)人機對話的訓(xùn)練目的。首先,現(xiàn)有技術(shù)采用固定場景限制了用戶口語學(xué)習(xí)的場景范圍,其次,現(xiàn)有通過語音識別、文本生成、語音合成的方式來實現(xiàn)人機對話,容易存在錯誤的累積,示例如,當(dāng)對用戶的語音識別出現(xiàn)錯誤,則會導(dǎo)致基于錯誤的識別文本生成機器回復(fù)文本時出錯,進(jìn)而導(dǎo)致合成語音出錯。此外,按照現(xiàn)有方式也容易丟失用戶語音的韻律信息,僅基于識別文本進(jìn)行回復(fù)文本生成、語音合成,會導(dǎo)致機器回復(fù)內(nèi)容的情感無法匹配用戶當(dāng)前的情緒狀態(tài),導(dǎo)致用戶降低與機器進(jìn)行口語對話的意愿度,從而影響口語學(xué)習(xí)效率。


技術(shù)實現(xiàn)思路

1、鑒于上述問題,提出了本申請以便提供一種口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì),以提升口語學(xué)習(xí)過程中機器回復(fù)語音的準(zhǔn)確度,提升用戶口語學(xué)習(xí)效率。具體方案如下:

2、第一方面,提供了一種口語學(xué)習(xí)方法,包括:

3、獲取用戶定義的情景描述信息,所述情景描述信息用于定義本次口語對話情景;

4、基于所述情景描述信息、用戶當(dāng)前輪輸入的語音以及本次口語對話過程中當(dāng)前輪之前的用戶與機器的歷史對話語音,生成機器的當(dāng)前輪對話語音;

5、輸出所述機器的當(dāng)前輪對話語音。

6、第二方面,提供了一種口語學(xué)習(xí)裝置,包括:

7、情景描述信息獲取單元,用于獲取用戶定義的情景描述信息,所述情景描述信息用于定義本次口語對話情景;

8、對話語音生成單元,用于基于所述情景描述信息、用戶當(dāng)前輪輸入的語音以及本次口語對話過程中當(dāng)前輪之前的用戶與機器的歷史對話語音,生成機器的當(dāng)前輪對話語音;

9、對話語音輸出單元,用于輸出所述機器的當(dāng)前輪對話語音。

10、第三方面,提供了一種口語學(xué)習(xí)設(shè)備,包括:存儲器和處理器;

11、所述存儲器,用于存儲程序;

12、所述處理器,用于執(zhí)行所述程序,實現(xiàn)如前所述的口語學(xué)習(xí)方法的各個步驟。

13、第四方面,提供了一種存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)如前所述的口語學(xué)習(xí)方法的各個步驟。

14、借由上述技術(shù)方案,本申請支持用戶定義口語對話的場景,通過獲取用戶定義的情景描述信息,進(jìn)一步基于該情景描述信息、用戶當(dāng)前輪輸入的語音以及本次口語對話過程中當(dāng)前輪之前的用戶與機器的歷史對話語音,生成機器的當(dāng)前輪對話語音,并輸出當(dāng)前輪對話語音,實現(xiàn)口語學(xué)習(xí)過程中在用戶定義的場景下,用戶與機器進(jìn)行口語對話練習(xí)的目的。顯然,由于本申請支持用戶定義口語對話場景,擴大了用戶口語學(xué)習(xí)的場景范圍,有助于用戶的口語學(xué)習(xí)。此外,本申請摒棄了現(xiàn)有技術(shù)通過用戶語音識別、機器回復(fù)文本生成、語音合成的路線來生成機器回復(fù)語音的方式,直接基于情景描述信息和人機歷史對話語音,生成機器的當(dāng)前輪對話語音,也即實現(xiàn)了端到端的語音生成,保留了人機歷史對話語音中用戶語音的韻律信息,使得生成的機器的當(dāng)前輪對話語音更加符合用戶當(dāng)前的情緒狀態(tài),提升了用戶與機器進(jìn)行口語對話的意愿度,同時,在生成機器的當(dāng)前輪對話語音時還考慮了情景描述信息,使得生成的對話語音符合用戶定義的情景描述信息,規(guī)范了口語對話的場景,整體上提升了用戶口語學(xué)習(xí)的效率。



技術(shù)特征:

1.一種口語學(xué)習(xí)方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述情景描述信息包括:本次口語對話的主題情景及對話過程需要完成的表達(dá)任務(wù)。

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述情景描述信息為情景描述文本,或,為情景描述語音,或情景描述圖像。

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取用戶定義的情景描述信息,包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取用戶定義的情景描述信息,包括:

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在與用戶進(jìn)行口語對話之前,還包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:

8.根據(jù)權(quán)利要求7所述的方法,其特征在于,還包括:

9.根據(jù)權(quán)利要求1所述的方法,其特征在于,生成機器的當(dāng)前輪對話語音的過程,通過預(yù)訓(xùn)練的口語對話語音生成模型實現(xiàn);

10.根據(jù)權(quán)利要求8所述的方法,其特征在于,生成機器的當(dāng)前輪對話語音、對用戶輸入的每句語音進(jìn)行糾錯及潤色及生成用戶對話能力的評價語音的過程,均通過預(yù)訓(xùn)練的口語對話語音生成模型實現(xiàn),所述口語對話語音生成模型的訓(xùn)練過程,包括:

11.一種口語學(xué)習(xí)裝置,其特征在于,包括:

12.一種口語學(xué)習(xí)設(shè)備,其特征在于,包括:存儲器和處理器;

13.一種存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,實現(xiàn)如權(quán)利要求1~10中任一項所述的口語學(xué)習(xí)方法的各個步驟。


技術(shù)總結(jié)
本申請公開了一種口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì),本申請支持用戶定義口語對話的場景,獲取用戶定義的情景描述信息,基于該情景描述信息、用戶當(dāng)前輪輸入的語音以及本次口語對話過程中當(dāng)前輪之前的用戶與機器的歷史對話語音,生成并輸出機器的當(dāng)前輪對話語音,實現(xiàn)口語學(xué)習(xí)過程中在用戶定義的場景下,用戶與機器進(jìn)行口語對話練習(xí)的目的。本申請摒棄了傳統(tǒng)通過用戶語音識別、機器回復(fù)文本生成、語音合成的路線來生成機器回復(fù)語音的方式,實現(xiàn)了端到端的語音生成,保留了人機歷史對話語音中用戶語音的韻律信息,使得生成的機器回復(fù)更加符合用戶當(dāng)前的情緒狀態(tài),提升了用戶與機器進(jìn)行口語對話的意愿度,提升了用戶口語學(xué)習(xí)的效率。

技術(shù)研發(fā)人員:魏思,吳奎,張凱波,汪政輝,盛志超,王子銘,李平瀟,翟吉博,王士進(jìn),章繼東,胡國平,劉聰,劉權(quán)
受保護(hù)的技術(shù)使用者:科大訊飛股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1