顯示設(shè)備、服務(wù)器及喚醒詞檢測(cè)方法與流程

文檔序號(hào)：39523717發(fā)布日期：2024-09-27 16:59閱讀：68來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請(qǐng)涉及顯示設(shè)備，尤其涉及一種顯示設(shè)備、服務(wù)器及喚醒詞檢測(cè)方法。

背景技術(shù)：

1、顯示設(shè)備是能夠呈現(xiàn)用戶(hù)界面，并支持用戶(hù)交互的智能設(shè)備。以智能電視為例，智能電視是基于internet應(yīng)用技術(shù)，具備開(kāi)放式操作系統(tǒng)與芯片，擁有開(kāi)放式應(yīng)用平臺(tái)，可實(shí)現(xiàn)雙向人機(jī)交互功能，集影音、娛樂(lè)、數(shù)據(jù)等多種功能于一體的電視產(chǎn)品，用于滿(mǎn)足用戶(hù)多樣化和個(gè)性化需求。顯示設(shè)備通過(guò)語(yǔ)音喚醒、遠(yuǎn)程遙控、觸摸控制等方式實(shí)現(xiàn)人機(jī)交互功能。

2、語(yǔ)音喚醒方式基于語(yǔ)音識(shí)別系統(tǒng)，即采用喚醒詞檢測(cè)技術(shù)識(shí)別固定喚醒詞，由于喚醒詞檢測(cè)技術(shù)基于深度學(xué)習(xí)和大模型技術(shù)，因此，通過(guò)復(fù)雜的模型結(jié)構(gòu)和高維度的隱藏層，可以提高識(shí)別準(zhǔn)確率。

3、然而，在復(fù)雜環(huán)境下，如存在人聲干擾、背景噪音時(shí)，喚醒詞檢測(cè)技術(shù)的識(shí)別準(zhǔn)確率低、喚醒率差，且由于喚醒詞檢測(cè)技術(shù)基于復(fù)雜的模型結(jié)構(gòu)和高維度的隱藏層，難以在算力低的平臺(tái)進(jìn)行部署。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)?zhí)峁┮环N顯示設(shè)備、服務(wù)器及喚醒詞檢測(cè)方法，以解決喚醒詞檢測(cè)技術(shù)的識(shí)別準(zhǔn)確率低、喚醒率差且難以在算力低的平臺(tái)上部署的問(wèn)題。

2、第一方面，本申請(qǐng)一些實(shí)施例提供一種顯示設(shè)備，包括：顯示器、存儲(chǔ)器、音頻輸入接口以及控制器。其中，所述顯示器被配置為顯示用戶(hù)界面；所述存儲(chǔ)器被配置為存儲(chǔ)聲學(xué)模型和第一分類(lèi)模型；所述音頻輸入接口被配置為獲取音頻數(shù)據(jù)；所述控制器被配置為：

3、響應(yīng)于用戶(hù)輸入的語(yǔ)音喚醒指令，通過(guò)所述音頻輸入接口獲取連續(xù)多幀音頻數(shù)據(jù)；

4、對(duì)多幀所述音頻數(shù)據(jù)執(zhí)行第一特征提取，以得到第一聲學(xué)特征；

5、將所述第一聲學(xué)特征輸入至所述聲學(xué)模型，以得到第一概率值；其中，所述第一概率值為通過(guò)所述聲學(xué)模型預(yù)測(cè)的所述音頻數(shù)據(jù)包含喚醒詞的分類(lèi)概率的中位數(shù)；

6、若所述第一概率值大于第一閾值，則對(duì)所述音頻數(shù)據(jù)執(zhí)行第二特征提取，以得到第二聲學(xué)特征；

7、將所述第二聲學(xué)特征輸入至所述第一分類(lèi)模型，以得到所述音頻數(shù)據(jù)包含喚醒詞的第一分類(lèi)概率和所述音頻數(shù)據(jù)包含常規(guī)詞的第二分類(lèi)概率；

8、若所述第一分類(lèi)概率大于所述第二分類(lèi)概率，則生成喚醒指令，以及響應(yīng)于所述喚醒指令，喚醒語(yǔ)音助手。

9、第二方面，本申請(qǐng)一些實(shí)施例還提供一種服務(wù)器，包括：存儲(chǔ)模塊、通信模塊和處理器。其中，所述存儲(chǔ)模塊被配置為存儲(chǔ)聲學(xué)模型和第一分類(lèi)模型；所述通信模塊被配置為與顯示設(shè)備建立通信連接；所述處理器被配置為：

10、接收顯示設(shè)備發(fā)送的連續(xù)多幀音頻數(shù)據(jù)，所述音頻數(shù)據(jù)為顯示設(shè)備響應(yīng)于用戶(hù)輸入的語(yǔ)音喚醒指令，并通過(guò)音頻輸入接口獲取的音頻數(shù)據(jù)；

11、對(duì)多幀所述音頻數(shù)據(jù)執(zhí)行第一特征提取，以得到第一聲學(xué)特征；

12、將所述第一聲學(xué)特征輸入至所述聲學(xué)模型，以得到第一概率值；其中，所述第一概率值為通過(guò)所述聲學(xué)模型預(yù)測(cè)的所述音頻數(shù)據(jù)包含喚醒詞的分類(lèi)概率的中位數(shù)；

13、若所述第一概率值大于第一閾值，則對(duì)所述音頻數(shù)據(jù)執(zhí)行第二特征提取，以得到第二聲學(xué)特征；

14、將所述第二聲學(xué)特征輸入至所述第一分類(lèi)模型，以得到所述音頻數(shù)據(jù)包含喚醒詞的第一分類(lèi)概率和所述音頻數(shù)據(jù)包含常規(guī)詞的第二分類(lèi)概率；

15、若所述第一分類(lèi)概率大于所述第二分類(lèi)概率，則生成喚醒指令；

16、將所述喚醒指令發(fā)送給所述顯示設(shè)備，以使所述顯示設(shè)備響應(yīng)于所述喚醒指令，喚醒語(yǔ)音助手。

17、第三方面，本申請(qǐng)一些實(shí)施例還提供一種喚醒詞檢測(cè)方法，應(yīng)用于第一方面提供的顯示設(shè)備，所述顯示設(shè)備包括：顯示器、存儲(chǔ)器、音頻輸入接口以及控制器，所述方法包括：

18、響應(yīng)于用戶(hù)輸入的語(yǔ)音喚醒指令，通過(guò)音頻輸入接口獲取連續(xù)多幀音頻數(shù)據(jù)；

19、對(duì)多幀所述音頻數(shù)據(jù)執(zhí)行第一特征提取，以得到第一聲學(xué)特征；

20、將所述第一聲學(xué)特征輸入至聲學(xué)模型，以得到第一概率值；其中，所述第一概率值為通過(guò)所述聲學(xué)模型預(yù)測(cè)的所述音頻數(shù)據(jù)包含喚醒詞的分類(lèi)概率的中位數(shù)；

21、若所述第一概率值大于第一閾值，則對(duì)所述音頻數(shù)據(jù)執(zhí)行第二特征提取，以得到第二聲學(xué)特征；

22、將所述第二聲學(xué)特征輸入至第一分類(lèi)模型，以得到所述音頻數(shù)據(jù)包含喚醒詞的第一分類(lèi)概率和所述音頻數(shù)據(jù)包含常規(guī)詞的第二分類(lèi)概率；

23、若所述第一分類(lèi)概率大于所述第二分類(lèi)概率，則生成喚醒指令，以及響應(yīng)于所述喚醒指令，喚醒語(yǔ)音助手。

24、第四方面，本申請(qǐng)一些實(shí)施例還提供一種喚醒詞檢測(cè)方法，應(yīng)用于第二方面提供的服務(wù)器，所述服務(wù)器包括：

25、接收顯示設(shè)備發(fā)送的連續(xù)多幀音頻數(shù)據(jù)，所述音頻數(shù)據(jù)為顯示設(shè)備響應(yīng)于用戶(hù)輸入的語(yǔ)音喚醒指令，并通過(guò)音頻輸入接口獲取的音頻數(shù)據(jù)；

26、對(duì)多幀所述音頻數(shù)據(jù)執(zhí)行第一特征提取，以得到第一聲學(xué)特征；

27、將所述第一聲學(xué)特征輸入至聲學(xué)模型，以得到第一概率值；其中，所述第一概率值為通過(guò)所述聲學(xué)模型預(yù)測(cè)的所述音頻數(shù)據(jù)包含喚醒詞的分類(lèi)概率的中位數(shù)；

28、若所述第一概率值大于第一閾值，則對(duì)所述音頻數(shù)據(jù)執(zhí)行第二特征提取，以得到第二聲學(xué)特征；

29、將所述第二聲學(xué)特征輸入至第一分類(lèi)模型，以得到所述音頻數(shù)據(jù)包含喚醒詞的第一分類(lèi)概率和所述音頻數(shù)據(jù)包含常規(guī)詞的第二分類(lèi)概率；

30、若所述第一分類(lèi)概率大于所述第二分類(lèi)概率，則生成喚醒指令；

31、將所述喚醒指令發(fā)送給所述顯示設(shè)備，以使所述顯示設(shè)備響應(yīng)于所述喚醒指令，喚醒語(yǔ)音助手。

32、由以上技術(shù)方案可知，本申請(qǐng)一些實(shí)施例提供一種顯示設(shè)備、服務(wù)器及喚醒詞檢測(cè)方法，所述方法可以響應(yīng)于語(yǔ)音喚醒指令，獲取連續(xù)多幀音頻數(shù)據(jù)。并對(duì)多幀音頻數(shù)據(jù)執(zhí)行第一特征提取，以及將第一聲學(xué)特征輸入至聲學(xué)模型，以得到第一概率值。若第一概率值大于第一閾值，則對(duì)音頻數(shù)據(jù)執(zhí)行第二特征提取，以及將第二聲學(xué)特征輸入至第一分類(lèi)模型，以得到音頻數(shù)據(jù)包含喚醒詞的第一分類(lèi)概率和音頻數(shù)據(jù)包含常規(guī)詞的第二分類(lèi)概率。若第一分類(lèi)概率大于第二分類(lèi)概率，則生成喚醒指令，以及響應(yīng)于喚醒指令，控制顯示設(shè)備喚醒語(yǔ)音助手。所述方法采用多個(gè)模型對(duì)音頻數(shù)據(jù)進(jìn)行多次喚醒詞檢測(cè)，可以解決喚醒詞檢測(cè)技術(shù)的識(shí)別準(zhǔn)確率低、喚醒率差且難以在算力低的平臺(tái)上部署的問(wèn)題。

技術(shù)特征：

1.一種顯示設(shè)備，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的顯示設(shè)備，其特征在于，所述存儲(chǔ)器還被配置為存儲(chǔ)第二分類(lèi)模型，所述控制器還被配置為：

3.根據(jù)權(quán)利要求1所述的顯示設(shè)備，其特征在于，所述控制器還被配置為：

4.根據(jù)權(quán)利要求2所述的顯示設(shè)備，其特征在于，所述控制器還被配置為：

5.根據(jù)權(quán)利要求2所述的顯示設(shè)備，其特征在于，所述控制器還被配置為：

6.根據(jù)權(quán)利要求2所述的顯示設(shè)備，其特征在于，所述控制器還被配置為：

7.根據(jù)權(quán)利要求2所述的顯示設(shè)備，其特征在于，所述控制器還被配置為：

8.根據(jù)權(quán)利要求1所述的顯示設(shè)備，其特征在于，所述控制器還被配置為：

9.一種服務(wù)器，其特征在于，包括：

10.一種喚醒詞檢測(cè)方法，其特征在于，應(yīng)用于權(quán)利要求1-8任一項(xiàng)所述的顯示設(shè)備；所述方法包括：

技術(shù)總結(jié)
本申請(qǐng)一些實(shí)施例提供一種顯示設(shè)備、服務(wù)器及喚醒詞檢測(cè)方法，所述方法可以響應(yīng)于語(yǔ)音喚醒指令，獲取連續(xù)多幀音頻數(shù)據(jù)。并對(duì)多幀音頻數(shù)據(jù)執(zhí)行第一特征提取，以及將第一聲學(xué)特征輸入至聲學(xué)模型，以得到第一概率值。若第一概率值大于第一閾值，則對(duì)音頻數(shù)據(jù)執(zhí)行第二特征提取，以及將第二聲學(xué)特征輸入至第一分類(lèi)模型，以得到音頻數(shù)據(jù)包含喚醒詞的第一分類(lèi)概率和音頻數(shù)據(jù)包含常規(guī)詞的第二分類(lèi)概率。若第一分類(lèi)概率大于第二分類(lèi)概率，則生成喚醒指令，以及響應(yīng)于喚醒指令，喚醒語(yǔ)音助手。所述方法采用多個(gè)模型對(duì)音頻數(shù)據(jù)進(jìn)行多次喚醒詞檢測(cè)，可以解決喚醒詞檢測(cè)技術(shù)的識(shí)別準(zhǔn)確率低、喚醒率差且難以在算力低的平臺(tái)上部署的問(wèn)題。

技術(shù)研發(fā)人員：葛緒澤,季云云,劉柏姣,張均耀
受保護(hù)的技術(shù)使用者：海信電子科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/9/26

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：葛緒澤,季云云,劉柏姣,張均耀
技術(shù)所有人：海信電子科技（深圳）有限公司
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

顯示設(shè)備、服務(wù)器及喚醒詞檢測(cè)方法與流程

顯示設(shè)備、服務(wù)器及喚醒詞檢測(cè)方法與流程