專利名稱:具有語音控制功能的數(shù)字媒體適配器及其語音控制方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字多媒體設(shè)備領(lǐng)域,特別涉及數(shù)字媒體適配器領(lǐng)域,具體是指一種具有語音控制功能的數(shù)字媒體適配器及其語音控制方法。
背景技術(shù):
現(xiàn)代生活中,各種各樣的家用電器為了方便使用,都配備了遙控器,但是由于社會中一些特殊的弱勢群體的存在,以及一部分用戶對于使用遙控器感到很繁瑣,又時常會發(fā)生家中遙控器一多,便不知所蹤的情況,特別是對于數(shù)字多媒體設(shè)備領(lǐng)域,其功能非常強(qiáng)大,相應(yīng)的控制操作也較為復(fù)雜,而現(xiàn)有技術(shù)中還沒有一種可以使用語音進(jìn)行控制操作的數(shù)字多媒體裝置,這樣就給數(shù)字多媒體技術(shù)的普及推廣帶來了一定的不便。
發(fā)明內(nèi)容
本發(fā)明的目的是克服了上述現(xiàn)有技術(shù)中的缺點(diǎn),提供一種能夠?qū)Σ煌说恼Z音進(jìn)行準(zhǔn)確識別、可以進(jìn)行語音識別訓(xùn)練、支持多種語言、使用靈活快捷方便、操作界面友好、工作性能穩(wěn)定可靠、適用面較為廣泛的具有語音控制功能的數(shù)字媒體適配器及其語音控制方法。
為了實(shí)現(xiàn)上述的目的,本發(fā)明的具有語音控制功能的數(shù)字媒體適配器及其語音控制方法如下該具有語音控制功能的數(shù)字媒體適配器,包括數(shù)字媒體適配器內(nèi)部功能電路和紅外遙控信號輸入模塊,該數(shù)字媒體適配器與數(shù)字媒體設(shè)備相連接,其主要特點(diǎn)是,所述的數(shù)字媒體適配器中還包括語音輸入模塊、數(shù)模轉(zhuǎn)換模塊、語音識別模塊、語音提示與語音回放功能模塊、用戶信息存儲庫和系統(tǒng)控制模塊,所述的語音輸入模塊依次通過數(shù)模轉(zhuǎn)換模塊、語音識別模塊、語音提示與語音回放功能模塊和所述的系統(tǒng)控制模塊相連接,所述的紅外遙控信號輸入模塊和所述的系統(tǒng)控制模塊相連接,所述的用戶信息存儲庫和所述的語音識別模塊相連接。
該具有語音控制功能的數(shù)字媒體適配器的語音輸入模塊為具有前置放大器的駐極體麥克風(fēng)。
該具有語音控制功能的數(shù)字媒體適配器的駐極體麥克風(fēng)的背面安設(shè)有隔音裝置。
該使用上述的數(shù)字媒體適配器進(jìn)行語音控制操作的方法,其主要特點(diǎn)是,所述的方法包括以下步驟(1)系統(tǒng)進(jìn)行初始化操作;(2)系統(tǒng)判斷在預(yù)設(shè)的超時時間內(nèi)是否通過紅外遙控信號輸入模塊接收到紅外遙控信號;(3)如果收到,則系統(tǒng)進(jìn)入紅外遙控控制狀態(tài),并進(jìn)行后續(xù)處理;(4)如果未收到,則系統(tǒng)進(jìn)入語音控制狀態(tài);(5)系統(tǒng)判斷用戶信息存儲庫中是否為空;(6)如果是空,則系統(tǒng)進(jìn)行用戶個人信息庫的建立和語音訓(xùn)練的操作處理;(7)如果不是空,則系統(tǒng)等待通過語音輸入模塊接收用戶選擇個人信息庫的語音信息;(8)系統(tǒng)通過數(shù)模轉(zhuǎn)換模塊對所接收到的用戶的語音信息進(jìn)行數(shù)模轉(zhuǎn)換處理操作;(9)系統(tǒng)通過語音識別模塊判斷相應(yīng)的語音信息是否與所選擇的個人信息庫相符合;(10)如果否,則系統(tǒng)進(jìn)行用戶個人信息庫的建立和語音訓(xùn)練的操作處理;(11)如果是,則裝載相應(yīng)的用戶個人信息庫;(12)系統(tǒng)通過語音輸入模塊接收用戶的語音命令;(13)系統(tǒng)通過數(shù)模轉(zhuǎn)換模塊對所接收到的用戶的語音信息進(jìn)行數(shù)模轉(zhuǎn)換處理操作;(14)系統(tǒng)通過語音識別模塊、語音提示與語音回放功能模塊和系統(tǒng)控制模塊進(jìn)行相應(yīng)用戶語音命令的識別和處理操作。
該進(jìn)行數(shù)字媒體適配器的語音控制操作的方法的預(yù)設(shè)的超時時間為30秒。
該進(jìn)行數(shù)字媒體適配器的語音控制操作的方法的進(jìn)行用戶個人信息庫的建立和語音訓(xùn)練的操作處理包括以下步驟(1)系統(tǒng)在用戶信息存儲庫中創(chuàng)建相應(yīng)用戶個人信息庫;(2)在該信息庫中存入該用戶的相關(guān)信息;(3)系統(tǒng)判斷用戶是否要進(jìn)行語音訓(xùn)練;(4)如果否,則將默認(rèn)語音庫中的語音信息作為該用戶的個人信息庫中的語音信息;(5)如果是,則系統(tǒng)通過語音輸入模塊接收用戶的語音信息;(6)系統(tǒng)通過數(shù)模轉(zhuǎn)換模塊對所接收到的用戶的語音信息進(jìn)行數(shù)模轉(zhuǎn)換處理操作;(7)系統(tǒng)通過語音識別模塊對語音信息進(jìn)行噪音過濾和擴(kuò)音處理,并進(jìn)行優(yōu)化算法處理;(8)對語音信息進(jìn)行模式匹配算法處理;
(9)將經(jīng)過上述處理后的語音信息存入該用戶的個人信息庫中。
該進(jìn)行數(shù)字媒體適配器的語音控制操作的方法的用戶的相關(guān)信息包括用戶名稱、性別、語種。
該進(jìn)行數(shù)字媒體適配器的語音控制操作的方法的模式匹配算法為雙模板算法或者兩級端點(diǎn)檢測算法。
該進(jìn)行數(shù)字媒體適配器的語音控制操作的方法的數(shù)模轉(zhuǎn)換處理操作包括以下步驟(1)將用戶的語音信號轉(zhuǎn)化成數(shù)字采樣信號;(2)將上述數(shù)字采樣信號轉(zhuǎn)換為音頻模擬信號并輸出。
該進(jìn)行數(shù)字媒體適配器的語音控制操作的方法的判斷相應(yīng)的語音信息是否與所選擇的個人信息庫相符合包括以下步驟(1)對該語音信息進(jìn)行噪音過濾和擴(kuò)音處理,并進(jìn)行優(yōu)化算法處理;(2)結(jié)合相應(yīng)的個人信息庫中存儲的對應(yīng)語音信息,對上述語音信息進(jìn)行模式匹配算法處理;(3)如果模式匹配結(jié)果正常,則返回語音信息相符合的結(jié)果;否則,返回語音信息不相符合的結(jié)果。
該進(jìn)行數(shù)字媒體適配器的語音控制操作的方法的相應(yīng)用戶語音命令的識別和處理操作包括以下步驟(1)系統(tǒng)通過語音識別模塊對該語音信息進(jìn)行噪音過濾和擴(kuò)音處理,并進(jìn)行優(yōu)化算法處理;(2)系統(tǒng)通過語音識別模塊結(jié)合相應(yīng)的個人信息庫,對用戶的語音命令信號進(jìn)行分析并識別出所代表的相應(yīng)命令;(3)系統(tǒng)通過語音提示與語音回放功能模塊提示用戶進(jìn)行操作并對所識別語音進(jìn)行響應(yīng);(4)系統(tǒng)通過系統(tǒng)控制模塊將識別出的命令轉(zhuǎn)換成相應(yīng)的控制操作信號,通過操作對應(yīng)的數(shù)字媒體設(shè)備而完成該功能。
采用了該發(fā)明的具有語音控制功能的數(shù)字媒體適配器及其語音控制方法,由于在數(shù)字媒體適配器DMA的主機(jī)中加入有語音接受控制裝置,并且能夠?qū)⒂脩舻母鞣N語音命令進(jìn)行準(zhǔn)確識別并轉(zhuǎn)換為系統(tǒng)操作指令,從而實(shí)現(xiàn)了對數(shù)字媒體設(shè)備的相應(yīng)操作,不僅免除了復(fù)雜的遙控器操作,而且方便了許多肢體上有殘疾的殘障人士,使他們不需手動便可以實(shí)現(xiàn)DMA中的各項(xiàng)操作功能;同時還可以根據(jù)不同的用戶建立不同的記錄有語音信息的用戶個人信息庫,并可以在用戶首次使用系統(tǒng)的時候進(jìn)行語音識別訓(xùn)練,不僅系統(tǒng)擴(kuò)展性較強(qiáng),而且增加了語音識別的準(zhǔn)確性,同時支持多種語言,使用方式靈活快捷方便,操作界面友好,系統(tǒng)擴(kuò)展性較強(qiáng);不僅如此,本發(fā)明的數(shù)字媒體適配器及其方法的工作性能穩(wěn)定可靠,適用面較為廣泛,為數(shù)字多媒體技術(shù)的推廣應(yīng)用帶來了很大的便利。
圖1為本發(fā)明的具有語音控制功能的數(shù)字媒體適配器的硬件模塊圖。
圖2為本發(fā)明的進(jìn)行數(shù)字媒體適配器的語音控制操作的方法的工作流程圖。
圖3為本發(fā)明的進(jìn)行數(shù)字媒體適配器的語音控制操作的方法的語音識別處理過程示意圖。
具體實(shí)施例方式
為了能夠更清楚地理解本發(fā)明的技術(shù)內(nèi)容,特舉以下實(shí)施例詳細(xì)說明。
請參閱圖1所示,該具有語音控制功能的數(shù)字媒體適配器,包括數(shù)字媒體適配器內(nèi)部功能電路和紅外遙控信號輸入模塊10,該數(shù)字媒體適配器1與數(shù)字媒體設(shè)備2相連接,其種,所述的數(shù)字媒體適配器1中還包括語音輸入模塊11、數(shù)模轉(zhuǎn)換模塊12、語音識別模塊13、語音提示與語音回放功能模塊14、用戶信息存儲庫15和系統(tǒng)控制模塊16,所述的語音輸入模塊11為具有前置放大器的駐極體麥克風(fēng),且該駐極體麥克風(fēng)的背面還安設(shè)有隔音裝置;所述的語音輸入模塊11依次通過數(shù)模轉(zhuǎn)換模塊12、語音識別模塊13、語音提示與語音回放功能模塊14和所述的系統(tǒng)控制模塊16相連接,所述的紅外遙控信號輸入模塊10和所述的系統(tǒng)控制模塊16相連接,所述的用戶信息存儲庫15和所述的語音識別模塊13相連接。
在實(shí)際應(yīng)用當(dāng)中,本發(fā)明的數(shù)字媒體適配器上的語音處理功能硬件主要由四個部分組成。第一部分為模/數(shù)轉(zhuǎn)換部分,其輸入端接收輸入的語音信號,并將其轉(zhuǎn)化成數(shù)字芯片可處理的數(shù)字采樣信號;在輸出端將解碼后的語音數(shù)字信號轉(zhuǎn)換為音頻模擬信號。第二部分為語音識別部分,它的作用是對輸入的數(shù)字語音詞條信號進(jìn)行分析,識別出詞條信號所代表的命令,一般由DSP芯片完成。第三部分為語音提示和語音回放部分,它一般也是在DSP中完成的,其核心是對語音信號進(jìn)行數(shù)字壓縮編碼和解碼,目的是提示用戶操作并對識別語音的響應(yīng),完成人機(jī)的語音交互。第四部分是系統(tǒng)控制部分,它將語音識別結(jié)果轉(zhuǎn)換成相應(yīng)的控制信號,并將其輸出轉(zhuǎn)換成操作,完成具體功能。語音識別與系統(tǒng)控制的有機(jī)結(jié)合是完成聲控交互的關(guān)鍵。
同時,對于其中的語音信號處理模塊,可以采用具有語音處理能力的芯片作為主控芯片,例如SPCE061A等,其具體技術(shù)細(xì)節(jié)描述請參見網(wǎng)頁http://www.unsp.com.cn/app/html/20036293035.shtml不僅如此,對于語音輸入模塊11可以采用具有前置放大器的駐極體麥克風(fēng),由于其具有高增益,高噪聲抑制能力,低輸出阻抗等特點(diǎn)。對于模式匹配算法,可以使用雙模板和兩級端點(diǎn)檢測方法,能有效地提高識別率和穩(wěn)健性。
再請參閱圖2和圖3所示,該使用上述的數(shù)字媒體適配器進(jìn)行語音控制操作的方法,包括以下步驟(1)系統(tǒng)進(jìn)行初始化操作;(2)系統(tǒng)判斷在預(yù)設(shè)的超時時間內(nèi)是否通過紅外遙控信號輸入模塊接收到紅外遙控信號,該預(yù)設(shè)的超時時間為30秒;(3)如果收到,則系統(tǒng)進(jìn)入紅外遙控控制狀態(tài),并進(jìn)行后續(xù)處理;(4)如果未收到,則系統(tǒng)進(jìn)入語音控制狀態(tài);(5)系統(tǒng)判斷用戶信息存儲庫中是否為空;(6)如果是空,則系統(tǒng)進(jìn)行用戶個人信息庫的建立和語音訓(xùn)練的操作處理,該操作處理包括以下步驟(a)系統(tǒng)在用戶信息存儲庫中創(chuàng)建相應(yīng)用戶個人信息庫;(b)在該信息庫中存入該用戶的相關(guān)信息,包括用戶名稱、性別、語種;(c)系統(tǒng)判斷用戶是否要進(jìn)行語音訓(xùn)練;(d)如果否,則將默認(rèn)語音庫中的語音信息作為該用戶的個人信息庫中的語音信息;(e)如果是,則系統(tǒng)通過語音輸入模塊接收用戶的語音信息;(f)系統(tǒng)通過數(shù)模轉(zhuǎn)換模塊對所接收到的用戶的語音信息進(jìn)行數(shù)模轉(zhuǎn)換處理操作;(g)系統(tǒng)通過語音識別模塊對語音信息進(jìn)行噪音過濾和擴(kuò)音處理,并進(jìn)行優(yōu)化算法處理;(h)對語音信息進(jìn)行模式匹配算法處理,該模式匹配算法為雙模板算法或者兩級端點(diǎn)檢測算法;(i)將經(jīng)過上述處理后的語音信息存入該用戶的個人信息庫中;(7)如果不是空,則系統(tǒng)等待通過語音輸入模塊接收用戶選擇個人信息庫的語音信息;(8)系統(tǒng)通過數(shù)模轉(zhuǎn)換模塊對所接收到的用戶的語音信息進(jìn)行數(shù)模轉(zhuǎn)換處理操作,該處理操作包括以下步驟(a)將用戶的語音信號轉(zhuǎn)化成數(shù)字采樣信號;
(b)將上述數(shù)字采樣信號轉(zhuǎn)換為音頻模擬信號并輸出;(9)系統(tǒng)通過語音識別模塊判斷相應(yīng)的語音信息是否與所選擇的個人信息庫相符合,該判斷操作包括以下步驟(a)對該語音信息進(jìn)行噪音過濾和擴(kuò)音處理,并進(jìn)行優(yōu)化算法處理;(b)結(jié)合相應(yīng)的個人信息庫中存儲的對應(yīng)語音信息,對上述語音信息進(jìn)行模式匹配算法處理;(c)如果模式匹配結(jié)果正常,則返回語音信息相符合的結(jié)果;否則,返回語音信息不相符合的結(jié)果;(10)如果否,則系統(tǒng)進(jìn)行用戶個人信息庫的建立和語音訓(xùn)練的操作處理,其操作處理過程與上述相同;(11)如果是,則裝載相應(yīng)的用戶個人信息庫;(12)系統(tǒng)通過語音輸入模塊接收用戶的語音命令;(13)系統(tǒng)通過數(shù)模轉(zhuǎn)換模塊對所接收到的用戶的語音信息進(jìn)行數(shù)模轉(zhuǎn)換處理操作;(14)系統(tǒng)通過語音識別模塊、語音提示與語音回放功能模塊和系統(tǒng)控制模塊進(jìn)行相應(yīng)用戶語音命令的識別和處理操作,該識別和處理操作包括以下步驟(a)系統(tǒng)通過語音識別模塊對該語音信息進(jìn)行噪音過濾和擴(kuò)音處理,并進(jìn)行優(yōu)化算法處理;(b)系統(tǒng)通過語音識別模塊結(jié)合相應(yīng)的個人信息庫,對用戶的語音命令信號進(jìn)行分析并識別出所代表的相應(yīng)命令;(c)系統(tǒng)通過語音提示與語音回放功能模塊提示用戶進(jìn)行操作并對所識別語音進(jìn)行響應(yīng);(d)系統(tǒng)通過系統(tǒng)控制模塊將識別出的命令轉(zhuǎn)換成相應(yīng)的控制操作信號,通過操作對應(yīng)的數(shù)字媒體設(shè)備而完成該功能。
在實(shí)際應(yīng)用當(dāng)中,當(dāng)系統(tǒng)進(jìn)行上電工作時,首先進(jìn)入系統(tǒng)初期,會出現(xiàn)遙控選擇等待界面,如果用戶此時按下遙控器的任意鍵,即進(jìn)入遙控器控制狀態(tài),若等待時間內(nèi)不做任何遙控器操作,30秒后超時,則自動進(jìn)入聲音控制界面,并等待用戶選擇用戶信息庫,或者使用默認(rèn)信息庫。若系統(tǒng)內(nèi)無任何保留的用戶信息,則直接提示用戶建立新的用戶數(shù)據(jù)庫,若系統(tǒng)內(nèi)已有用戶信息,則語音提示用戶選擇相對應(yīng)的用戶數(shù)據(jù)庫對于初次使用的用戶,DMA將為其建立一個個人語音信息庫,其中儲存著該用戶的一些相關(guān)信息(性別,語音信息等)。用戶可以選擇進(jìn)行語音訓(xùn)練或者跳過,雖然系統(tǒng)也會有一套默認(rèn)的語音數(shù)據(jù)庫,但是系統(tǒng)仍將推薦初次使用的用戶使用語音訓(xùn)練系統(tǒng),這樣可以使DMA獲得更好的語音識別能力,使用戶更好地對DMA進(jìn)行語音控制。
對于語音訓(xùn)練系統(tǒng),用戶可以在任何開機(jī)的時候進(jìn)行。由于DMA主要為無線連接,故DMA可任意放置。聲控DMA內(nèi)有內(nèi)置麥克風(fēng),需要對DMA錄音。而克服環(huán)境干擾主要通過硬件與軟件共同實(shí)現(xiàn),硬件采用的是具有前置放大器的駐極體麥克風(fēng),由于其具有高增益,高噪聲抑制能力,低輸出阻抗等特點(diǎn);另外為了避免在錄音的時候,用戶的聲音與電視中發(fā)出的聲音產(chǎn)生相互的干擾,可以使DMA具備集中針對某個方向的聲音做出處理的功能,由于用戶發(fā)出的聲音是具有一定的方向性的,于是可以在內(nèi)置駐極體麥克風(fēng)的背面添置隔音裝置,這樣DMA就可以對來自電視機(jī),也就是DMA背面的聲音做出隔離,減少聲音訓(xùn)練誤差的發(fā)生。對于軟件部分也就是模式匹配算法,可以使用雙模板和兩級端點(diǎn)檢測方法,能有效地提高識別率和穩(wěn)健性。
選擇用戶信息庫的形式用戶信息庫以任意英文字符來命名。如Jack,Mike等。由于系統(tǒng)能夠接受的僅為單個的英文字符,因此用戶選擇信息庫的時候應(yīng)該將組成該英文名稱的單個英文字母逐一讀出,例如對于Jack,用戶讀出時應(yīng)為J、A、C、K;當(dāng)用戶發(fā)出語音指令如”語音輸入結(jié)束”,或當(dāng)用戶15秒內(nèi)無任何語音操作,則聲控系統(tǒng)自動進(jìn)入休眠狀態(tài)。當(dāng)用戶需要再次輸入語音指令時,只需再次說出特定命名,如”語音輸入開始”則系統(tǒng)將會自動恢復(fù)語音輸入狀態(tài),并且此時播放的節(jié)目將會被靜音,此時用戶可以再次輸入語音指令。
聲音控制DMA支持多語言版本的語音控制系統(tǒng)。目前主要的中英文命令有play(播放)、stop(停止)、pause(暫停)、main menu(主菜單)、video(視頻)、audio(音頻)、photo(圖片)、enter(進(jìn)入)、back(退出)、up(向上)、down(向下)、left(向左)、right(向右)、播放模式、(repeat one、repeat all、normal等)、亂序播放(shuffle)、上下翻頁(page up、pagedown)、快進(jìn)X倍速(fast-forward)、慢進(jìn)X倍速(slow-motion)、快退X倍速(rewind)、0~9數(shù)字(數(shù)字用來輸入IP地址、網(wǎng)關(guān)等,例如192.168.1.22,255.255.255.0等)、26個字母等,這里就不再詳細(xì)列舉出來了。根據(jù)具有不同功能的DMA,語音指令也會有所不同。
采用了上述的具有語音控制功能的數(shù)字媒體適配器及其語音控制方法,由于在數(shù)字媒體適配器DMA的主機(jī)中加入有語音接受控制裝置,并且能夠?qū)⒂脩舻母鞣N語音命令進(jìn)行準(zhǔn)確識別并轉(zhuǎn)換為系統(tǒng)操作指令,從而實(shí)現(xiàn)了對數(shù)字媒體設(shè)備的相應(yīng)操作,不僅免除了復(fù)雜的遙控器操作,而且方便了許多肢體上有殘疾的殘障人士,使他們不需手動便可以實(shí)現(xiàn)DMA中的各項(xiàng)操作功能;同時還可以根據(jù)不同的用戶建立不同的記錄有語音信息的用戶個人信息庫,并可以在用戶首次使用系統(tǒng)的時候進(jìn)行語音識別訓(xùn)練,不僅系統(tǒng)擴(kuò)展性較強(qiáng),而且增加了語音識別的準(zhǔn)確性,同時支持多種語言,使用方式靈活快捷方便,操作界面友好,系統(tǒng)擴(kuò)展性較強(qiáng);不僅如此,本發(fā)明的數(shù)字媒體適配器及其方法的工作性能穩(wěn)定可靠,適用面較為廣泛,為數(shù)字多媒體技術(shù)的推廣應(yīng)用帶來了很大的便利。
在此說明書中,本發(fā)明已參照其特定的實(shí)施例作了描述。但是,很顯然仍可以作出各種修改和變換而不背離本發(fā)明的精神和范圍。因此,說明書和附圖應(yīng)被認(rèn)為是說明性的而非限制性的。
權(quán)利要求
1.一種具有語音控制功能的數(shù)字媒體適配器,包括數(shù)字媒體適配器內(nèi)部功能電路和紅外遙控信號輸入模塊,該數(shù)字媒體適配器與數(shù)字媒體設(shè)備相連接,其特征在于,所述的數(shù)字媒體適配器中還包括語音輸入模塊、數(shù)模轉(zhuǎn)換模塊、語音識別模塊、語音提示與語音回放功能模塊、用戶信息存儲庫和系統(tǒng)控制模塊,所述的語音輸入模塊依次通過數(shù)模轉(zhuǎn)換模塊、語音識別模塊、語音提示與語音回放功能模塊和所述的系統(tǒng)控制模塊相連接,所述的紅外遙控信號輸入模塊和所述的系統(tǒng)控制模塊相連接,所述的用戶信息存儲庫和所述的語音識別模塊相連接。
2.根據(jù)權(quán)利要求1所述的具有語音控制功能的數(shù)字媒體適配器,其特征在于,所述的語音輸入模塊為具有前置放大器的駐極體麥克風(fēng)。
3.根據(jù)權(quán)利要求2所述的具有語音控制功能的數(shù)字媒體適配器,其特征在于,所述的駐極體麥克風(fēng)的背面安設(shè)有隔音裝置。
4.一種使用權(quán)利要求1所述的數(shù)字媒體適配器進(jìn)行語音控制操作的方法,其特征在于,所述的方法包括以下步驟(1)系統(tǒng)進(jìn)行初始化操作;(2)系統(tǒng)判斷在預(yù)設(shè)的超時時間內(nèi)是否通過紅外遙控信號輸入模塊接收到紅外遙控信號;(3)如果收到,則系統(tǒng)進(jìn)入紅外遙控控制狀態(tài),并進(jìn)行后續(xù)處理;(4)如果未收到,則系統(tǒng)進(jìn)入語音控制狀態(tài);(5)系統(tǒng)判斷用戶信息存儲庫中是否為空;(6)如果是空,則系統(tǒng)進(jìn)行用戶個人信息庫的建立和語音訓(xùn)練的操作處理;(7)如果不是空,則系統(tǒng)等待通過語音輸入模塊接收用戶選擇個人信息庫的語音信息;(8)系統(tǒng)通過數(shù)模轉(zhuǎn)換模塊對所接收到的用戶的語音信息進(jìn)行數(shù)模轉(zhuǎn)換處理操作;(9)系統(tǒng)通過語音識別模塊判斷相應(yīng)的語音信息是否與所選擇的個人信息庫相符合;(10)如果否,則系統(tǒng)進(jìn)行用戶個人信息庫的建立和語音訓(xùn)練的操作處理;(11)如果是,則裝載相應(yīng)的用戶個人信息庫;(12)系統(tǒng)通過語音輸入模塊接收用戶的語音命令;(13)系統(tǒng)通過數(shù)模轉(zhuǎn)換模塊對所接收到的用戶的語音信息進(jìn)行數(shù)模轉(zhuǎn)換處理操作;(14)系統(tǒng)通過語音識別模塊、語音提示與語音回放功能模塊和系統(tǒng)控制模塊進(jìn)行相應(yīng)用戶語音命令的識別和處理操作。
5.根據(jù)權(quán)利要求4所述的進(jìn)行數(shù)字媒體適配器的語音控制操作的方法,其特征在于,所述的預(yù)設(shè)的超時時間為30秒。
6.根據(jù)權(quán)利要求4所述的進(jìn)行數(shù)字媒體適配器的語音控制操作的方法,其特征在于,所述的進(jìn)行用戶個人信息庫的建立和語音訓(xùn)練的操作處理包括以下步驟(1)系統(tǒng)在用戶信息存儲庫中創(chuàng)建相應(yīng)用戶個人信息庫;(2)在該信息庫中存入該用戶的相關(guān)信息;(3)系統(tǒng)判斷用戶是否要進(jìn)行語音訓(xùn)練;(4)如果否,則將默認(rèn)語音庫中的語音信息作為該用戶的個人信息庫中的語音信息;(5)如果是,則系統(tǒng)通過語音輸入模塊接收用戶的語音信息;(6)系統(tǒng)通過數(shù)模轉(zhuǎn)換模塊對所接收到的用戶的語音信息進(jìn)行數(shù)模轉(zhuǎn)換處理操作;(7)系統(tǒng)通過語音識別模塊對語音信息進(jìn)行噪音過濾和擴(kuò)音處理,并進(jìn)行優(yōu)化算法處理;(8)對語音信息進(jìn)行模式匹配算法處理;(9)將經(jīng)過上述處理后的語音信息存入該用戶的個人信息庫中。
7.根據(jù)權(quán)利要求6所述的進(jìn)行數(shù)字媒體適配器的語音控制操作的方法,其特征在于,所述的用戶的相關(guān)信息包括用戶名稱、性別、語種。
8.根據(jù)權(quán)利要求6所述的進(jìn)行數(shù)字媒體適配器的語音控制操作的方法,其特征在于,所述的模式匹配算法為雙模板算法或者兩級端點(diǎn)檢測算法。
9.根據(jù)權(quán)利要求4至8中任一項(xiàng)所述的進(jìn)行數(shù)字媒體適配器的語音控制操作的方法,其特征在于,所述的數(shù)模轉(zhuǎn)換處理操作包括以下步驟(1)將用戶的語音信號轉(zhuǎn)化成數(shù)字采樣信號;(2)將上述數(shù)字采樣信號轉(zhuǎn)換為音頻模擬信號并輸出。
10.根據(jù)權(quán)利要求4至8中任一項(xiàng)所述的進(jìn)行數(shù)字媒體適配器的語音控制操作的方法,其特征在于,所述的判斷相應(yīng)的語音信息是否與所選擇的個人信息庫相符合包括以下步驟(1)對該語音信息進(jìn)行噪音過濾和擴(kuò)音處理,并進(jìn)行優(yōu)化算法處理;(2)結(jié)合相應(yīng)的個人信息庫中存儲的對應(yīng)語音信息,對上述語音信息進(jìn)行模式匹配算法處理;(3)如果模式匹配結(jié)果正常,則返回語音信息相符合的結(jié)果;否則,返回語音信息不相符合的結(jié)果。
11.根據(jù)權(quán)利要求4至8中任一項(xiàng)所述的進(jìn)行數(shù)字媒體適配器的語音控制操作的方法,其特征在于,所述的相應(yīng)用戶語音命令的識別和處理操作包括以下步驟(1)系統(tǒng)通過語音識別模塊對該語音信息進(jìn)行噪音過濾和擴(kuò)音處理,并進(jìn)行優(yōu)化算法處理;(2)系統(tǒng)通過語音識別模塊結(jié)合相應(yīng)的個人信息庫,對用戶的語音命令信號進(jìn)行分析并識別出所代表的相應(yīng)命令;(3)系統(tǒng)通過語音提示與語音回放功能模塊提示用戶進(jìn)行操作并對所識別語音進(jìn)行響應(yīng);(4)系統(tǒng)通過系統(tǒng)控制模塊將識別出的命令轉(zhuǎn)換成相應(yīng)的控制操作信號,通過操作對應(yīng)的數(shù)字媒體設(shè)備而完成該功能。
全文摘要
本發(fā)明涉及一種具有語音控制功能的數(shù)字媒體適配器及方法,其中適配器包括語音輸入模塊、數(shù)模轉(zhuǎn)換模塊、語音識別模塊、語音提示與語音回放功能模塊、用戶信息存儲庫、紅外遙控信號輸入模塊和系統(tǒng)控制模塊,該方法包括判斷在一定時間內(nèi)是否有紅外遙控信號、用戶信息庫建立和語音訓(xùn)練、接收選擇用戶信息庫的語音信息、對語音信息進(jìn)行數(shù)模轉(zhuǎn)換處理、判斷相應(yīng)的語音信息是否與所選擇的個人信息庫相符合、進(jìn)行相應(yīng)用戶語音命令的識別和處理操作。采用該種具有語音控制功能的數(shù)字媒體適配器及其語音控制方法,不需手動便可實(shí)現(xiàn)DMA的操作功能,支持多用戶、多語言和語音識別訓(xùn)練,擴(kuò)展性較強(qiáng),語音識別的準(zhǔn)確性高,工作性能穩(wěn)定可靠,適用面較為廣泛。
文檔編號G08C23/02GK101025860SQ20061002414
公開日2007年8月29日 申請日期2006年2月24日 優(yōu)先權(quán)日2006年2月24日
發(fā)明者吳燏瑛 申請人:環(huán)達(dá)電腦(上海)有限公司