語音識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種語音識別方法和裝置。
【背景技術(shù)】
[0002]隨著科技的不斷進步,語音識別技術(shù)的應(yīng)用也越來越廣泛,例如工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等領(lǐng)域,都會應(yīng)用到語音識別技術(shù)。目前,語音識別系統(tǒng)主要通過接收用戶輸入的語音,對語音進行識別,從而獲得語音識別結(jié)果。其中,語音搜索類產(chǎn)品不僅可以對用戶輸入的語音進行識別,還可根據(jù)語音識別結(jié)果向搜索服務(wù)器發(fā)送搜索請求,進一步獲取搜索結(jié)果。
[0003]但是,有時候用戶輸入語音時,內(nèi)容可能很多,則需要在用戶輸入語音結(jié)束后,等待很長時間才能獲取到識別結(jié)果。如果是語音搜索類產(chǎn)品,則需要先等待獲得識別結(jié)果的過程,再等待獲取搜索結(jié)果的過程,等待時間長,導(dǎo)致用戶體驗降低。另外,在噪聲環(huán)境中,由于噪聲干擾,有可能出現(xiàn)檢測不到語音結(jié)束點或者識別結(jié)果不準確的情況。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此,本發(fā)明的一個目的在于提出一種語音識別方法,該方法能夠降低用戶等待時間,提升用戶使用體驗。
[0005]本發(fā)明的第二個目的在于提出一種語音識別裝置。
[0006]為了實現(xiàn)上述目的,本發(fā)明第一方面實施例提出了一種語音識別方法,包括以下步驟:S1、接收用戶輸入的語音信息,并實時對所述語音信息進行識別;S2、當(dāng)所述語音信息產(chǎn)生靜音時,判斷所述靜音的類型;S3、如果所述靜音為短靜音,則獲得第一識別結(jié)果,并顯示所述第一識別結(jié)果,同時繼續(xù)執(zhí)行步驟SI ;以及S4、如果所述靜音為長靜音,則獲得第二識別結(jié)果,并顯示所述第二識別結(jié)果。
[0007]本發(fā)明實施例的語音識別方法,通過接收用戶輸入的語音信息,并實時對語音信息進行識別,當(dāng)語音信息產(chǎn)生靜音時,判斷靜音的類型,如果靜音為短靜音,則獲得第一識別結(jié)果,并顯示第一識別結(jié)果,同時繼續(xù)接收用戶輸入的語音信息,如果靜音為長靜音,則獲得第二識別結(jié)果,并顯示第二識別結(jié)果,能夠有效地降低用戶等待時間,提升用戶使用體驗。
[0008]本發(fā)明第二方面實施例提出了一種語音識別裝置,包括:接收模塊,用于接收用戶輸入的語音信息,并實時對所述語音信息進行識別;判斷模塊,用于當(dāng)所述語音信息產(chǎn)生靜音時,判斷所述靜音的類型;第一識別模塊,用于當(dāng)所述靜音為短靜音時,獲得第一識別結(jié)果,并顯示所述第一識別結(jié)果,同時所述接收模塊繼續(xù)接收搜索用戶輸入的語音信息;第二識別模塊,用于當(dāng)所述靜音為長靜音時,獲得第二識別結(jié)果,并顯示所述第二識別結(jié)果。
[0009]本發(fā)明實施例的語音識別裝置,通過接收用戶輸入的語音信息,并實時對語音信息進行識別,當(dāng)語音信息產(chǎn)生靜音時,判斷靜音的類型,如果靜音為短靜音,則獲得第一識別結(jié)果,并顯示第一識別結(jié)果,同時繼續(xù)接收用戶輸入的語音信息,如果靜音為長靜音,則獲得第二識別結(jié)果,并顯示第二識別結(jié)果,能夠有效地降低用戶等待時間,提升用戶使用體驗。
【附圖說明】
[0010]圖1是根據(jù)本發(fā)明一個實施例的語音識別方法的流程圖。
[0011]圖2是根據(jù)本發(fā)明一個具體實施例的語音識別方法的流程圖。
[0012]圖3是根據(jù)本發(fā)明一個具體實施例的初始化界面效果示意圖。
[0013]圖4是根據(jù)本發(fā)明一個具體實施例的提示界面效果示意圖。
[0014]圖5是根據(jù)本發(fā)明一個具體實施例的接收用戶輸入的語音信息界面效果示意圖。
[0015]圖6是根據(jù)本發(fā)明一個具體實施例的顯示識別結(jié)果界面效果示意圖一。
[0016]圖7是根據(jù)本發(fā)明一個具體實施例的顯示識別結(jié)果界面效果示意圖二。
[0017]圖8是根據(jù)本發(fā)明一個具體實施例的顯示識別結(jié)果界面效果示意圖三。
[0018]圖9是根據(jù)本發(fā)明一個具體實施例的根據(jù)識別結(jié)果進行搜索的界面效果示意圖。
[0019]圖10是根據(jù)本發(fā)明一個具體實施例的顯示搜索結(jié)果的界面效果示意圖。
[0020]圖11是根據(jù)本發(fā)明一個具體實施例的根據(jù)識別結(jié)果進行搜索的界面效果示意圖
O
[0021]圖12是根據(jù)本發(fā)明一個具體實施例的根據(jù)識別結(jié)果進行搜索的界面效果示意圖
--O
[0022]圖13是根據(jù)本發(fā)明一個具體實施例的根據(jù)識別結(jié)果進行搜索的界面效果示意圖
_- O
[0023]圖14是根據(jù)本發(fā)明一個具體實施例的根據(jù)識別結(jié)果進行搜索的界面效果示意圖四。
【具體實施方式】
[0024]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0025]下面參考附圖描述本發(fā)明實施例的語音識別方法和裝置。
[0026]圖1是根據(jù)本發(fā)明一個實施例的語音識別方法的流程圖。
[0027]如圖1所示,語音識別方法可包括:
[0028]S1、接收用戶輸入的語音信息,并實時對語音信息進行識別。
[0029]其中,語音信息可以為詞組,也可以為短句。
[0030]S2、當(dāng)語音信息產(chǎn)生靜音時,判斷靜音的類型。
[0031]在本發(fā)明的實施例中,為解決在噪聲環(huán)境中,靜音檢測不準確的問題,可根據(jù)尾點檢測算法檢測出靜音,并判斷靜音的類型。其中,靜音的類型可包括長靜音和短靜音。短靜音為用戶輸入語音信息的短暫停頓,而長靜音則為用戶輸入語音信息的結(jié)束點(尾點)。
[0032]具體地,可先在不同環(huán)境下采集語音樣本,并訓(xùn)練尾點檢測模型。然后在對語音信息進行識別時,可通過尾點檢測模型判斷靜音的類型,在噪聲環(huán)境下能夠準確地判斷出靜音的類型,提高了抗噪性和準確率。相對于本地的尾點檢測算法,服務(wù)器端的尾點檢測算法具有更強大的計算能力,可不斷地對尾點檢測模型進行優(yōu)化。在本發(fā)明一個實施例中,在對語音信息識別的過程中,可先通過本地的尾點檢測算法進行檢測,如果無法檢測出語音信息的結(jié)束點,則再通過服務(wù)器端的尾點檢測算法進行檢測。
[0033]S3、如果靜音為短靜音,則獲得第一識別結(jié)果,并顯示第一識別結(jié)果,同時繼續(xù)執(zhí)行步驟SI。
[0034]具體地,在用戶輸入語音信息開始時,可實時地對語音信息進行識別,當(dāng)出現(xiàn)靜音時,如果當(dāng)前出現(xiàn)的靜音為短靜音,即用戶輸入語音信息的短暫停頓,則可獲得第一識別結(jié)果,然后將第一識別結(jié)果顯示在客戶端的屏幕上,反饋給用戶。其中,第一識別結(jié)果可以為輸入語音信息開始至短靜音之間的內(nèi)容,也可以是兩個短靜音之間的內(nèi)容。與此同時,用戶還在繼續(xù)輸入語音信息。也就是說,識別過程與接收語音信息過程同步進行,即兩個單獨且互不干擾的線程并行處理,減少了用戶等待的時間。用戶在輸入語音信息的同時,已經(jīng)在客戶端的屏幕上顯示出了一部分的識別結(jié)果,由于短靜音時間很短,因此在客戶端的屏幕上顯示的效果相當(dāng)于用戶一邊輸入語音信息,同時動態(tài)地連續(xù)不斷地顯示出識別結(jié)果,解決了傳統(tǒng)的語音識別中,等待用戶輸入語音信息結(jié)束后,再對語音信息進行整體識別所帶來的等待時間過長的問題,提升了用戶使用體驗。
[0035]此外,在獲得第一識別結(jié)果之后,還可將第一識別結(jié)果作為關(guān)鍵詞進行搜索,并獲取第一搜索結(jié)果。例如:識別系統(tǒng)為語音搜索系統(tǒng)時,可根據(jù)實時識別出的識別結(jié)果進行搜索。
[0036]S4、如果靜音為長靜音,則獲得第二識別結(jié)果,并顯示第二識別結(jié)果。
[0037]具體地,如果當(dāng)前出現(xiàn)的靜音為長靜音,即用戶輸入語音信息結(jié)束,則可獲得第二識別結(jié)果,然后將第二識別結(jié)果顯示在客戶端的屏幕上,反饋給用戶。其中,第二識別結(jié)果可以是最后一個短靜音與長靜音之間的內(nèi)容,如果用戶輸入的語音信息沒有短靜音,則第二識別結(jié)果可以為輸入語音信息開始與長靜音之間的內(nèi)容。舉例來說,實時地對用戶輸入的語音信息進行識別,當(dāng)客戶端的屏幕顯示第一識別結(jié)果時,同時還在接收用戶輸入的語音信息,并實時地對語音信息識別,從而達到減少用戶等待時間的目的。
[0038]另外,還可將