語音控制裝置和語音控制方法與流程

文檔序號：11679116閱讀：444來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本案是申請日為2012年11月27日、申請?zhí)枮?01210491178.1、發(fā)明名稱為“語音控制裝置和語音控制方法”的發(fā)明專利申請的分案申請。本發(fā)明涉及一種語音控制裝置和語音控制方法，特別是涉及使用預(yù)設(shè)的短語喚醒語音控制裝置的方法。
背景技術(shù)：
：：目前，越來越多的電子裝置開始使用語音控制。語音控制今后將成為大多數(shù)電子裝置常用的使用者界面。但是，對于使用電池的移動電子裝置來說，語音引擎的能耗是很高的。讓系統(tǒng)的語音引擎一直處于運(yùn)行狀態(tài)，將快速地消耗系統(tǒng)的電能。因此目前的移動電子裝置均使用按鍵或類似的機(jī)制來觸發(fā)語音引擎。既然是語音控制，還需要用手來按一下按鈕開始，對使用者來說很不方便。如果一直啟動語音引擎，又會導(dǎo)致不必要的能量消耗。技術(shù)實(shí)現(xiàn)要素：本發(fā)明提供一種語音控制裝置和語音控制方法，可方便地啟動語音功能，而且平時可保持低功耗，以解決語音引擎的啟動和能源消耗的矛盾。本發(fā)明提出一種語音控制裝置，包括聲音采集器、聲音轉(zhuǎn)換器、語音識別器、以及中央處理單元(cpu:centralprocessingunit)。聲音采集器采集第一聲音信號。聲音轉(zhuǎn)換器耦接聲音采集器，將第一聲音信號從模擬信號轉(zhuǎn)換為數(shù)字信號。語音識別器耦接聲音轉(zhuǎn)換器，自第一聲音信號識別第一語音信號，進(jìn)行第一語音信號和第二語音信號的第一次比對，并根據(jù)上述第一次比對產(chǎn)生喚醒信號。中央處理單元耦接聲音轉(zhuǎn)換器和語音識別器，當(dāng)接收喚醒信號時，自睡眠狀態(tài)進(jìn)入工作狀態(tài)，進(jìn)行第一語音信號和第二語音信號的第二次比對，并根據(jù)上述第二次比對接管來自聲音采集器和聲音轉(zhuǎn)換器的語音輸入。本發(fā)明另提出一種語音控制方法，用于語音控制裝置，上述的語音控制方法包括下列步驟：采集第一聲音信號；自第一聲音信號識別第一語音信號；進(jìn)行第一語音信號和第二語音信號的第一次比對，并根據(jù)上述第一次比對產(chǎn)生喚醒信號?；貞?yīng)上述喚醒信號，上述語音控制裝置的中央處理單元自睡眠狀態(tài)進(jìn)入工作狀態(tài)，進(jìn)行第一語音信號和第二語音信號的第二次比對，并根據(jù)上述第二次比對接管語音控制裝置的語音輸入。為使本發(fā)明的上述特征和優(yōu)點(diǎn)能更明顯易懂，下文特舉實(shí)施例，并結(jié)合附圖詳細(xì)說明如下。附圖說明圖1是依照本發(fā)明一實(shí)施例的一種語音控制裝置的示意圖。圖2a是依照本發(fā)明一實(shí)施例的一種語音控制方法的流程圖。圖2b繪示圖1的語音控制裝置對應(yīng)圖2a的方法流程的信號傳送流程。圖3a是依照本發(fā)明一實(shí)施例的一種語音控制方法的流程圖。圖3b繪示圖1的語音控制裝置對應(yīng)圖3a的方法流程的信號傳送流程。附圖符號說明100：語音控制裝置110：聲音采集器120：聲音轉(zhuǎn)換器130：語音識別器140：中央處理單元210～230、305～375：方法步驟具體實(shí)施方式圖1是依照本發(fā)明一實(shí)施例的一種語音控制裝置100的示意圖。語音控制裝置100可以是任何移動終端，比如移動電話、個人數(shù)字助理(pda:personaldigitalassistant)、平板計(jì)算機(jī)(tabletcomputer)、筆記型計(jì)算機(jī)(notebookcomputer)、也可為桌上型計(jì)算機(jī)之類的任何一種可用語音控制的電子裝置。語音控制裝置100包括聲音采集器110、聲音轉(zhuǎn)換器120、語音識別器130、以及中央處理單元140。其中聲音轉(zhuǎn)換器120耦接聲音采集器110，語音識別器130耦接聲音轉(zhuǎn)換器120，中央處理單元140耦接聲音轉(zhuǎn)換器120和語音識別器130。本實(shí)施例的語音控制裝置100可藉由預(yù)設(shè)的語音啟動其語音控制功能。簡單的說，聲音采集器110采集周遭環(huán)境的所有聲音，包括使用者發(fā)出的聲音，輸出采集所得的聲音信號。聲音采集器110可以是麥克風(fēng)(microphone)或類似的收音裝置。聲音轉(zhuǎn)換器120將上述聲音信號從模擬信號轉(zhuǎn)換為數(shù)字信號。語音識別器130和中央處理單元140比對上述的聲音信號和預(yù)設(shè)的另一個聲音信號，以決定是否啟動語音控制裝置100的語音控制功能。圖2a是依照本發(fā)明一實(shí)施例的一種語音控制方法的流程圖，此方法是關(guān)于如何設(shè)置用來啟動語音控制裝置100的預(yù)設(shè)語音，此方法可由語音控制裝置100執(zhí)行。圖2b繪示語音控制裝置100對應(yīng)圖2a的方法流程的信號傳送流程。上述的預(yù)設(shè)語音通常是一個短詞或短句，例如簡短的口令或密碼。或者也可以給語音控制裝置100起一個名字，用這個名字做為上述的預(yù)設(shè)語音。使用者說出這個預(yù)設(shè)語音之后，在步驟210，聲音采集器110采集聲音信號，聲音轉(zhuǎn)換器120將此聲音信號從模擬信號轉(zhuǎn)換為數(shù)字信號。聲音轉(zhuǎn)換器120也可放大此聲音信號。這個聲音信號包括來自使用者的語音和周遭環(huán)境的雜音。中央處理單元140在步驟220自此聲音信號識別來自使用者的預(yù)設(shè)語音信號(以下稱為vsd)。然后在步驟230中央處理單元140自預(yù)設(shè)語音信號vsd提取其預(yù)設(shè)語音特征(以下稱為vcd)。中央處理單元140可儲存預(yù)設(shè)語音信號vsd和預(yù)設(shè)預(yù)設(shè)語音特征vcd。中央處理單元140也可將預(yù)設(shè)語音信號vsd傳送至語音識別器130，以供語音識別器130儲存。預(yù)設(shè)語音信號vsd就是用來啟動語音控制裝置100的預(yù)設(shè)語音。圖3a是依照本發(fā)明一實(shí)施例的一種語音控制方法的流程圖，此方法是關(guān)于上述的預(yù)設(shè)語音的比對，此方法可由語音控制裝置100執(zhí)行。圖3b繪示語音控制裝置100對應(yīng)圖3a的方法流程的信號傳送流程。首先，在步驟305，語音控制裝置100處于初始狀態(tài)，也就是中央處理單元140處于睡眠狀態(tài)，不處理語音輸入，由處于工作狀態(tài)的語音識別器130處理語音輸入。中央處理單元140具有工作狀態(tài)和睡眠狀態(tài)，語音識別器130也具有工作狀態(tài)和睡眠狀態(tài)。工作狀態(tài)是指正常工作的狀態(tài)，有正常的能量消耗。睡眠狀態(tài)是指不工作而等待被喚醒的狀態(tài)，此時的能量消耗非常低。接下來，聲音采集器110在步驟310采集聲音信號。聲音轉(zhuǎn)換器120可將此聲音信號從模擬信號轉(zhuǎn)換為數(shù)字信號。聲音轉(zhuǎn)換器120也可以放大此聲音信號。這個聲音信號包括來自使用者的語音和周遭環(huán)境的雜音。語音識別器130在步驟315自此聲音信號識別來自使用者的輸入語音信號(以下稱為vsi)。接下來，語音識別器130在步驟320進(jìn)行輸入語音信號vsi和預(yù)設(shè)語音信號vsd的第一次比對，在步驟325判斷這兩個語音信號是否符合。如果輸入語音信號vsi不符合預(yù)設(shè)語音信號vsd，流程返回步驟305。如果輸入語音信號vsi符合預(yù)設(shè)語音信號vsd，則語音識別器130在步驟330產(chǎn)生一個喚醒信號以喚醒中央處理單元140。中央處理單元140在步驟335接收喚醒信號，在步驟340自睡眠狀態(tài)進(jìn)入工作狀態(tài)。中央處理單元140自語音識別器130接收輸入語音信號vsi，然后在步驟345至365進(jìn)行輸入語音信號vsi和預(yù)設(shè)語音信號vsd的第二次比對。中央處理單元140在步驟345比對輸入語音信號vsi和預(yù)設(shè)語音信號vsd，在步驟350判斷這兩個語音信號是否符合。如果輸入語音信號vsi不符合預(yù)設(shè)語音信號vsd，則中央處理單元140重新進(jìn)入睡眠狀態(tài)，流程返回步驟305。如果輸入語音信號vsi符合預(yù)設(shè)語音信號vsd，則中央處理單元140在步驟355自輸入語音信號vsi提取其輸入語音特征(以下稱為vci)，在步驟360比對輸入語音特征vci和預(yù)設(shè)語音特征vcd，然后在步驟365判斷這兩組語音特征是否符合。如果輸入語音特征vci不符合預(yù)設(shè)語音特征vcd，則中央處理單元140重新進(jìn)入睡眠狀態(tài)，流程返回步驟305。如果輸入語音特征vci符合預(yù)設(shè)語音特征vcd，則中央處理單元140在步驟370接管語音控制裝置100的語音輸入，也就是來自聲音采集器110和聲音轉(zhuǎn)換器120的語音輸入。語音識別器130在此時自工作狀態(tài)進(jìn)入睡眠狀態(tài)。中央處理單元140執(zhí)行語音控制裝置100的語音引擎，所以步驟370就是啟動語音控制裝置100的語音引擎和語音控制功能。接下來，中央處理單元140在步驟375檢查是否中央處理單元140在進(jìn)入工作狀態(tài)之后的一段預(yù)設(shè)時間內(nèi)未自上述的語音輸入識別出任何語音信號。如果中央處理器140有在預(yù)設(shè)時間內(nèi)識別出語音信號，則流程返回步驟370。如果中央處理器140沒有在預(yù)設(shè)時間內(nèi)識別出任何語音信號，表示使用者沒有在預(yù)設(shè)時間內(nèi)發(fā)出任何語音指令，則中央處理單元140重新進(jìn)入睡眠狀態(tài)，而語音識別器130則重新進(jìn)入工作狀態(tài)，流程返回步驟305。在本實(shí)施例中，語音識別器130和中央處理單元140各進(jìn)行一次輸入語音信號vsi和預(yù)設(shè)語音信號vsd的比對。因?yàn)檎Z音識別器130是超低功耗的低成本電路，上述比對的錯誤識別率高于中央處理單元140。而且聲音采集器110必須連續(xù)不斷地采集聲音信號，所以語音識別器130必須自連續(xù)不斷的聲音信號中識別來自使用者的語音，這會進(jìn)一步提高語音識別器130的錯誤識別率。所以本實(shí)施例在語音識別器130的初次比對之后，讓中央處理單元140再次確認(rèn)。中央處理單元140具有較高的運(yùn)算能力，可使用更準(zhǔn)確的演算法來比對輸入語音信號vsi和預(yù)設(shè)語音信號vsd，以降低錯誤識別率。在本實(shí)施例中，語音信號的比對是為了確認(rèn)使用者說出正確的預(yù)設(shè)語音，語音特征的比對則是為了確認(rèn)使用者的身份，因?yàn)槊總€人的語音特征各不相同。比對語音特征可限制只有特定的使用者能啟動語音控制裝置100的語音引擎。如果不需要限制使用者身份，則可省略圖2a的步驟230和圖3a的步驟355至365，在此情況下，如果步驟350的結(jié)果為符合，則流程直接進(jìn)入步驟370。語音識別器130就是一個簡化版的低功耗語音識別引擎，專門識別一個可預(yù)設(shè)的簡短語音，當(dāng)識別到這個預(yù)設(shè)語音時，啟動中央處理單元140所執(zhí)行的正規(guī)語音引擎。語音識別器130只需要做單獨(dú)一個簡短語音的發(fā)音匹配，不需要聲學(xué)詞典和語言模型，因此規(guī)模與功耗遠(yuǎn)小于正規(guī)的語音識別引擎。這樣，即可以達(dá)到很低的待機(jī)功耗，又讓使用者可以直接用語音來啟動語音控制，使語音控制裝置更好用，更方便。因此，以上實(shí)施例可解決語音引擎的啟動和能源消耗的矛盾。雖然本發(fā)明已以實(shí)施例揭示如上，然其并非用以限定本發(fā)明，本領(lǐng)域的技術(shù)人員，在不脫離本發(fā)明的精神和范圍的前提下，可作若干的更動與潤飾，故本發(fā)明的保護(hù)范圍是以本發(fā)明的權(quán)利要求為準(zhǔn)。當(dāng)前第1頁12當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2