口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì)與流程

文檔序號：39725985發(fā)布日期：2024-10-22 13:25閱讀：45來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請涉及口語學(xué)習(xí)，更具體的說，是涉及一種口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、在當(dāng)今這樣一個全球化的時代中，掌握一門或者幾門外語是必然的要求。在外語學(xué)習(xí)中，尤其是口語學(xué)習(xí)已經(jīng)成為了一個全球性難題。

2、傳統(tǒng)的口語個性化學(xué)習(xí)方案一般是給出一些固定場景的口語題目，讓用戶進(jìn)行口語練習(xí)?；蛘呤窃诠潭▓鼍跋?，基于用戶的對話語音進(jìn)行文本識別，并基于識別文本來確定機器的回復(fù)文本，進(jìn)而通過語音合成，將回復(fù)文本合成為語音輸出，以實現(xiàn)人機對話的訓(xùn)練目的。首先，現(xiàn)有技術(shù)采用固定場景限制了用戶口語學(xué)習(xí)的場景范圍，其次，現(xiàn)有通過語音識別、文本生成、語音合成的方式來實現(xiàn)人機對話，容易存在錯誤的累積，示例如，當(dāng)對用戶的語音識別出現(xiàn)錯誤，則會導(dǎo)致基于錯誤的識別文本生成機器回復(fù)文本時出錯，進(jìn)而導(dǎo)致合成語音出錯。此外，按照現(xiàn)有方式也容易丟失用戶語音的韻律信息，僅基于識別文本進(jìn)行回復(fù)文本生成、語音合成，會導(dǎo)致機器回復(fù)內(nèi)容的情感無法匹配用戶當(dāng)前的情緒狀態(tài)，導(dǎo)致用戶降低與機器進(jìn)行口語對話的意愿度，從而影響口語學(xué)習(xí)效率。

技術(shù)實現(xiàn)思路

1、鑒于上述問題，提出了本申請以便提供一種口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì)，以提升口語學(xué)習(xí)過程中機器回復(fù)語音的準(zhǔn)確度，提升用戶口語學(xué)習(xí)效率。具體方案如下：

2、第一方面，提供了一種口語學(xué)習(xí)方法，包括：

3、獲取用戶定義的情景描述信息，所述情景描述信息用于定義本次口語對話情景；

4、基于所述情景描述信息、用戶當(dāng)前輪輸入的語音以及本次口語對話過程中當(dāng)前輪之前的用戶與機器的歷史對話語音，生成機器的當(dāng)前輪對話語音；

5、輸出所述機器的當(dāng)前輪對話語音。

6、第二方面，提供了一種口語學(xué)習(xí)裝置，包括：

7、情景描述信息獲取單元，用于獲取用戶定義的情景描述信息，所述情景描述信息用于定義本次口語對話情景；

8、對話語音生成單元，用于基于所述情景描述信息、用戶當(dāng)前輪輸入的語音以及本次口語對話過程中當(dāng)前輪之前的用戶與機器的歷史對話語音，生成機器的當(dāng)前輪對話語音；

9、對話語音輸出單元，用于輸出所述機器的當(dāng)前輪對話語音。

10、第三方面，提供了一種口語學(xué)習(xí)設(shè)備，包括：存儲器和處理器；

11、所述存儲器，用于存儲程序；

12、所述處理器，用于執(zhí)行所述程序，實現(xiàn)如前所述的口語學(xué)習(xí)方法的各個步驟。

13、第四方面，提供了一種存儲介質(zhì)，其上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時，實現(xiàn)如前所述的口語學(xué)習(xí)方法的各個步驟。

14、借由上述技術(shù)方案，本申請支持用戶定義口語對話的場景，通過獲取用戶定義的情景描述信息，進(jìn)一步基于該情景描述信息、用戶當(dāng)前輪輸入的語音以及本次口語對話過程中當(dāng)前輪之前的用戶與機器的歷史對話語音，生成機器的當(dāng)前輪對話語音，并輸出當(dāng)前輪對話語音，實現(xiàn)口語學(xué)習(xí)過程中在用戶定義的場景下，用戶與機器進(jìn)行口語對話練習(xí)的目的。顯然，由于本申請支持用戶定義口語對話場景，擴大了用戶口語學(xué)習(xí)的場景范圍，有助于用戶的口語學(xué)習(xí)。此外，本申請摒棄了現(xiàn)有技術(shù)通過用戶語音識別、機器回復(fù)文本生成、語音合成的路線來生成機器回復(fù)語音的方式，直接基于情景描述信息和人機歷史對話語音，生成機器的當(dāng)前輪對話語音，也即實現(xiàn)了端到端的語音生成，保留了人機歷史對話語音中用戶語音的韻律信息，使得生成的機器的當(dāng)前輪對話語音更加符合用戶當(dāng)前的情緒狀態(tài)，提升了用戶與機器進(jìn)行口語對話的意愿度，同時，在生成機器的當(dāng)前輪對話語音時還考慮了情景描述信息，使得生成的對話語音符合用戶定義的情景描述信息，規(guī)范了口語對話的場景，整體上提升了用戶口語學(xué)習(xí)的效率。

技術(shù)特征：

1.一種口語學(xué)習(xí)方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述情景描述信息包括：本次口語對話的主題情景及對話過程需要完成的表達(dá)任務(wù)。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述情景描述信息為情景描述文本，或，為情景描述語音，或情景描述圖像。

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取用戶定義的情景描述信息，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取用戶定義的情景描述信息，包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，在與用戶進(jìn)行口語對話之前，還包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括：

8.根據(jù)權(quán)利要求7所述的方法，其特征在于，還包括：

9.根據(jù)權(quán)利要求1所述的方法，其特征在于，生成機器的當(dāng)前輪對話語音的過程，通過預(yù)訓(xùn)練的口語對話語音生成模型實現(xiàn)；

10.根據(jù)權(quán)利要求8所述的方法，其特征在于，生成機器的當(dāng)前輪對話語音、對用戶輸入的每句語音進(jìn)行糾錯及潤色及生成用戶對話能力的評價語音的過程，均通過預(yù)訓(xùn)練的口語對話語音生成模型實現(xiàn)，所述口語對話語音生成模型的訓(xùn)練過程，包括：

11.一種口語學(xué)習(xí)裝置，其特征在于，包括：

12.一種口語學(xué)習(xí)設(shè)備，其特征在于，包括：存儲器和處理器；

13.一種存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時，實現(xiàn)如權(quán)利要求1～10中任一項所述的口語學(xué)習(xí)方法的各個步驟。

技術(shù)總結(jié)
本申請公開了一種口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì)，本申請支持用戶定義口語對話的場景，獲取用戶定義的情景描述信息，基于該情景描述信息、用戶當(dāng)前輪輸入的語音以及本次口語對話過程中當(dāng)前輪之前的用戶與機器的歷史對話語音，生成并輸出機器的當(dāng)前輪對話語音，實現(xiàn)口語學(xué)習(xí)過程中在用戶定義的場景下，用戶與機器進(jìn)行口語對話練習(xí)的目的。本申請摒棄了傳統(tǒng)通過用戶語音識別、機器回復(fù)文本生成、語音合成的路線來生成機器回復(fù)語音的方式，實現(xiàn)了端到端的語音生成，保留了人機歷史對話語音中用戶語音的韻律信息，使得生成的機器回復(fù)更加符合用戶當(dāng)前的情緒狀態(tài)，提升了用戶與機器進(jìn)行口語對話的意愿度，提升了用戶口語學(xué)習(xí)的效率。

技術(shù)研發(fā)人員：魏思,吳奎,張凱波,汪政輝,盛志超,王子銘,李平瀟,翟吉博,王士進(jìn),章繼東,胡國平,劉聰,劉權(quán)
受保護(hù)的技術(shù)使用者：科大訊飛股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：魏思,吳奎,張凱波,汪政輝,盛志超,王子銘,李平瀟,翟吉博,王士進(jìn),章繼東,胡國平,劉聰,劉權(quán)
技術(shù)所有人：科大訊飛股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì)與流程

口語學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì)與流程