專利名稱:自動(dòng)撥號(hào)的話音命令系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于自動(dòng)撥號(hào)的話音命令系統(tǒng),其特征為通過(guò)話音命令的自動(dòng)撥號(hào),以便實(shí)現(xiàn)在電話機(jī)上。
除了順序地按鍵盤來(lái)輸入要求的電話號(hào)碼,可以購(gòu)得的電話機(jī)還提供其它特征,諸如利用熱鍵來(lái)存儲(chǔ)電話號(hào)碼供以后撥號(hào)。這種方法通常要求用戶在輸入電話號(hào)碼之前先按“存儲(chǔ)”鍵,然后通過(guò)按對(duì)應(yīng)的熱鍵來(lái)存儲(chǔ)。在初始設(shè)定之后,用戶可通過(guò)按其對(duì)應(yīng)熱鍵而重叫項(xiàng)目以便撥想要的電話號(hào)碼。雖然這是撥號(hào)的簡(jiǎn)單方法,但它具有以下缺點(diǎn)。(1)難于記住熱鍵與電話薄項(xiàng)目之間的對(duì)應(yīng)性。(2)其它人不知道用戶設(shè)定的電話薄項(xiàng)目。以及(3)每當(dāng)修改電話薄項(xiàng)目時(shí)必須更新電話薄項(xiàng)目的書面對(duì)照表。
本發(fā)明的一個(gè)目的為提供用于自動(dòng)撥號(hào)的話音命令系統(tǒng),其特征為通過(guò)話音命令自動(dòng)撥號(hào)。
本發(fā)明的另一目的為提供如表1中所示的用于以鍵盤輸入中文項(xiàng)目的音調(diào)與音節(jié)的映射方案。利用表1中列出的編碼方案及本發(fā)明中描述的方法,人們能通過(guò)電話鍵盤容易地輸入中文項(xiàng)目。所有中文項(xiàng)目都將用它們的音標(biāo)序列輸入與顯示。此外,將姓名項(xiàng)目自動(dòng)轉(zhuǎn)換成話音命令模型,允許用戶在編輯各項(xiàng)之后無(wú)須額外訓(xùn)練便能用口頭命令撥號(hào)。
按照本發(fā)明的用于自動(dòng)撥號(hào)的話音命令系統(tǒng)包括若干基本部件。操作選擇模塊用于從三種模式命令、編輯或普通模式,中確定電話的操作模式。修改模塊的特征為用于在包含以它們的對(duì)應(yīng)音調(diào)與音標(biāo)的姓名項(xiàng)以及電話號(hào)碼項(xiàng)的電話薄數(shù)據(jù)庫(kù)中增加電話號(hào)碼項(xiàng)的功能。聲音數(shù)據(jù)庫(kù)包含基本聲音模型及通過(guò)串聯(lián)連接基本聲音模型構(gòu)成的話音命令模型。話音識(shí)別模塊利用包含在聲音數(shù)據(jù)庫(kù)中的聲音模型與話音命令模型來(lái)解碼用戶的輸入發(fā)音及提供N個(gè)最佳結(jié)果。顯示模塊顯示修改與語(yǔ)音識(shí)別模塊的結(jié)果,在核對(duì)以后將修改的結(jié)果發(fā)送給修改模塊,及將解碼結(jié)果發(fā)送給撥號(hào)模塊以撥所要求的電話號(hào)碼。
下面將參照附圖詳細(xì)說(shuō)明本發(fā)明;其中表1為按順序?qū)⒅形恼Z(yǔ)音符號(hào)映射到它們的鍵上,例如,以符號(hào)“ㄅ”按“#51”到鍵上;
圖1為展示按照本發(fā)明的實(shí)施例的自動(dòng)撥號(hào)的話音命令系統(tǒng)的方框圖;圖2為展示上述實(shí)施例的操作選擇模塊的流程圖;圖3A為上述實(shí)施例的編輯模式的流程圖;圖3B與3C為展示在上述實(shí)施例的編輯模式下的輸入功能的流程圖;圖3D為展示在上述實(shí)施例的編輯模式下的話音輸入功能的流程圖;圖3E為展示在上述實(shí)施例的編輯模式下的查詢功能的流程圖;圖3F與3G為展示在上述實(shí)施例的編輯模式下的修改功能的流程圖;以及圖4為展示上述實(shí)施例的命令模式的流程圖。
圖1為展示按照本發(fā)明的實(shí)施例的自動(dòng)撥號(hào)的話音命令系統(tǒng)的方框圖。如圖中所示,用框10表示的操作選擇模塊用于在命令模式27、編輯模式28或普通模式26中確定當(dāng)前的操作模式。命令模式27接受輸入發(fā)音,找到對(duì)應(yīng)的電話號(hào)碼及為用戶撥它。編輯模式28提供編輯電話薄數(shù)據(jù)庫(kù)12的功能。普通模式26類似于典型的電話功能。修改模塊11有三種編輯功能特征輸入、查詢與修改。輸入功能允許用戶增加新的姓名與號(hào)碼項(xiàng)到電話薄數(shù)據(jù)庫(kù)12中及串行地連接表示姓名項(xiàng)的基本聲音模型以構(gòu)成話音命令模型。查詢功能協(xié)助用戶定位特定的數(shù)據(jù)項(xiàng)及允許用戶直接撥它。修改功能的特征為以下功用增加/刪除電話號(hào)碼項(xiàng)及刪除數(shù)據(jù)記錄。電話薄數(shù)據(jù)庫(kù)12包含以它們的對(duì)應(yīng)音標(biāo)表示的姓名項(xiàng)以及電話號(hào)碼項(xiàng)。聲音數(shù)據(jù)庫(kù)采用隱藏的Markov模型并包含(a)408個(gè)音節(jié)的聲音模型及(b)由姓名項(xiàng)的對(duì)應(yīng)聲音模型構(gòu)成的話音命令模型。語(yǔ)音識(shí)別模塊14將輸入發(fā)音解碼成類似于聲音模型的特征矢量并利用Viterbi解碼過(guò)程來(lái)找出N個(gè)最佳聲音模型或N個(gè)最佳話音命令模型。顯示模塊15顯示修改與語(yǔ)音識(shí)別模塊的結(jié)果。字體16包含顯示模塊要使用的阿拉伯?dāng)?shù)字、音標(biāo)及特殊符號(hào)的顯示字體。
圖2至4為展示按照本發(fā)明的實(shí)施例的自動(dòng)撥號(hào)的話音命令系統(tǒng)的進(jìn)程的流程圖。參照?qǐng)D2至4詳細(xì)說(shuō)明操作過(guò)程。
圖2為展示圖1中所示的操作選擇模塊10的進(jìn)程的流程圖。操作選擇模塊10從命令模式27、編輯模式28或普通模式26中確定當(dāng)前的操作模式。如圖中所示,一旦將手機(jī)21從其托架上舉起,操作選擇模塊10首先檢測(cè)撥號(hào)音,如用框22所示。在沒(méi)有撥號(hào)音的情況中,將電話設(shè)定為普通模式26。否則,系統(tǒng)進(jìn)入供撥號(hào)的在線狀態(tài)。然后,操作選擇模塊10檢測(cè)用戶發(fā)音,如用框23所示。任何輸入發(fā)音的出現(xiàn)指示要用話音命令來(lái)自動(dòng)撥號(hào),而系統(tǒng)進(jìn)入命令模式27,其中圖4詳細(xì)示出命令模式的進(jìn)程。在沒(méi)有用戶發(fā)音的情況中,則操作選擇模塊10檢測(cè)是否按下了“#”鍵,如用框25所示。如果按下了“#”鍵,系統(tǒng)進(jìn)入編輯模式28,其中圖3A詳細(xì)示出編輯模式的進(jìn)程。用戶按下“#”鍵以外的任何鍵表示用戶的撥號(hào)動(dòng)作而系統(tǒng)進(jìn)入普通模式26。當(dāng)本發(fā)明的自動(dòng)撥號(hào)的話音命令系統(tǒng)進(jìn)入普通模式時(shí),電話機(jī)便與傳統(tǒng)電話相同的方式操作。
圖3A至3G為展示圖1中所示的修改模塊11的進(jìn)程的流程圖。修改模塊的特征為允許用戶在電話薄數(shù)據(jù)庫(kù)12中增加姓名及電話號(hào)碼項(xiàng)的編輯功能。修改模塊還按照發(fā)音表組合基本聲音模型來(lái)構(gòu)成話音命令模型。圖3A、3B、3C、3D、3E、3F與3G為分別展示編輯模式及其輸入、語(yǔ)音輸入、查詢、及修改功能的進(jìn)程的流程圖。
圖3A為編輯模式28的進(jìn)程的流程圖,該模式的特征為四種功能語(yǔ)音輸入37、輸入38、查詢39及修改40。一旦在編輯模式中,便提示“1.語(yǔ)音,2.輸入,3.查詢,4.修改”供用戶選擇。如果按下鍵“1”系統(tǒng)便進(jìn)入“語(yǔ)音輸入”功能37,如果按下鍵“2”進(jìn)入“輸入”功能38,如果按下鍵“3”則為“查詢”功能39,及如果按下鍵“4”則為“修改”功能40。
圖3B為展示在編輯模式28下的輸入功能38的進(jìn)程的流程圖。輸入功能38的特征為諸如編輯姓名項(xiàng),編輯電話號(hào)碼項(xiàng),按照發(fā)音表組合基本聲音模型357以構(gòu)成話音命令模型408,編輯姓名與電話號(hào)碼項(xiàng)到電話薄數(shù)據(jù)庫(kù)12中及增加話音命令模型到聲音數(shù)據(jù)庫(kù)13中,等功用。在圖3B中所示的輸入功能的流程圖中,首先設(shè)定變量Nflag為1,如用框310所示。Nflag=1表示系統(tǒng)進(jìn)入姓名項(xiàng)功用。然后系統(tǒng)設(shè)定變量Tcnt、cnt1、cnt2為0。變量Tcnt表示電話號(hào)碼項(xiàng)的長(zhǎng)度(最大15位),這時(shí)Tcnt=0表示無(wú)位項(xiàng)。一旦按下一個(gè)鍵,便將鍵入項(xiàng)存儲(chǔ)在變量key中,如框311所示。然后系統(tǒng)檢測(cè)變量Nflag是否為1,如框312所示。如果變量Nflag=1,系統(tǒng)進(jìn)入姓名項(xiàng)循環(huán)。然后系統(tǒng)檢測(cè)變量key是否等于“*”,如框330所示。如果變量key=“*”,顯示器上的光標(biāo)移動(dòng)到前一項(xiàng),如框343所示,系統(tǒng)則返回到框311。否則,將鍵入項(xiàng)放在姓名緩沖器中,如框331所示。然后系統(tǒng)檢測(cè)變量key是否等于“#”,如框332所示。如果變量key≠“#”,便將變量cnt1復(fù)位到0,如框344所示,其中變量cnt1計(jì)數(shù)“#”鍵的接連按壓,而系統(tǒng)返回到框311。否則在變量cnt1上加上值1,如框333所示。然后系統(tǒng)檢測(cè)是否變量cnt1=2,如框334所示。如果變量cnt1=2,系統(tǒng)返回到框311。否則用戶按了“#”鍵兩次,這表示姓名項(xiàng)對(duì)話結(jié)束,并將變量cnt1復(fù)位到0,如框335所示。然后系統(tǒng)確認(rèn)鍵入的對(duì)應(yīng)于姓名項(xiàng)的語(yǔ)音記錄是否滿足表1中所示的音標(biāo)的編輯定義,如框336所示。如果姓名項(xiàng)不滿足編碼定義便提示出錯(cuò)報(bào)文337及346而系統(tǒng)返回到框311。否則,按照表1的映射將姓名項(xiàng)轉(zhuǎn)換成音標(biāo),如框345所示。然后系統(tǒng)確認(rèn)姓名項(xiàng)是否滿足表1中所示的408個(gè)音節(jié)的定義,如框338所示。如果姓名項(xiàng)不滿足映射定義則提示出錯(cuò)報(bào)文339及348而系統(tǒng)返回到框311。否則,系統(tǒng)確認(rèn)姓名項(xiàng)是否重復(fù),如框340所示。如果姓名項(xiàng)重復(fù)便提示重復(fù)報(bào)文349而系統(tǒng)返回到框311。否則,系統(tǒng)提示報(bào)文詢問(wèn)用戶來(lái)核對(duì)鍵入的姓名項(xiàng),如框341所示。如果不能得到肯定的確認(rèn),系統(tǒng)返回到框311。否則,將變量Nflag復(fù)位到0,如框342所示,其中變量Nflag=1表示系統(tǒng)進(jìn)入電話號(hào)碼項(xiàng)功用,而系統(tǒng)返回到框311。下面給出姓名項(xiàng)功用的示例。
如果用戶想要輸入中文名字“李小華”,第一步為將字符串轉(zhuǎn)換成其拼音符號(hào)“ㄌ-Vㄒ-ㄠVㄏㄨㄚ
”。接著,用戶需要在表1中找到拼音符號(hào)的對(duì)應(yīng)鍵入序列。注意表1中的號(hào)碼必須冠以“#”鍵。“ㄌ-Vㄒ-ㄠVㄏㄨㄚ
”的得出的鍵入序列為“#58#72#3”#64#72#81#3#61#73#75#2##”,其中的雙“##”鍵表示姓名項(xiàng)對(duì)話的結(jié)束。然后將字符串放入姓名緩沖器中并用顯示模塊顯示為“ㄌ-Vㄒ-ㄠVㄏㄨㄚ
”。
在替代實(shí)施例中,系統(tǒng)可利用顯示模塊15來(lái)顯示對(duì)應(yīng)于單個(gè)音標(biāo)的數(shù)字,通過(guò)它們用戶可通過(guò)按其對(duì)應(yīng)的鍵選擇想要的拼音符號(hào)。例如,顯示模塊15的頁(yè)1可首先顯示音標(biāo)“ㄅㄆㄇ匚ㄉㄊㄋㄌ…”及它們的對(duì)應(yīng)數(shù)字“01234567…”。為了輸入中文串“李小華”,首先選擇表示音標(biāo)“ㄌ”的數(shù)字“7”。如果想要的音標(biāo)不能顯示在頁(yè)1上,可提示頁(yè)2以便以類似方式完全輸入姓名項(xiàng)。
圖3B中,變量Nflag為0表示姓名項(xiàng)對(duì)話的結(jié)束,如框342所示,而系統(tǒng)已準(zhǔn)備好電話號(hào)碼輸入。圖3B與圖3C示出號(hào)碼輸入功用的流程圖。一旦按下了一個(gè)鍵,便將鍵項(xiàng)存儲(chǔ)在變量key中,如框311所示。然后系統(tǒng)檢測(cè)是否變量Nflag=1,如框312所示。如果變量Nflag=1,系統(tǒng)進(jìn)入號(hào)碼項(xiàng)循環(huán)。然后系統(tǒng)檢測(cè)是否變量“key=“*”,如框313所示。如果變量key=“*”,光標(biāo)移動(dòng)到前一項(xiàng),如框319所示,而系統(tǒng)返回到框311。否則,系統(tǒng)檢測(cè)是否變量key=“#”,如框314所示。如果變量key=“#”,便將變量cnt1復(fù)位到0,如框315所示,其中變量cnt1計(jì)數(shù)“#”鍵的接連按壓。系統(tǒng)還檢測(cè)變量key是否在0至9的范圍內(nèi),及變量Tcnt是否小于15,如框316所示。否定的結(jié)果表示變量key是無(wú)效項(xiàng)而系統(tǒng)返回到框311不采取任何行動(dòng)。如果變量key為有效項(xiàng),將鍵入項(xiàng)臨時(shí)放置在號(hào)碼緩沖器中,如框317所示。然后在變量Tcnt上加上值1,如框318所示(在電話號(hào)碼上加上一位),而系統(tǒng)返回到框311。如果變量key=“#”,在變量cnt1上加上值1,如框320所示。然后系統(tǒng)檢測(cè)是否變量cnt1=2,如框321所示。如果變量cnt1=2,則可能已完全輸入了一個(gè)電話號(hào)碼項(xiàng)。然后系統(tǒng)檢測(cè)是否變量Tcnt>0,如框326所示。否定的結(jié)果表示無(wú)電話號(hào)碼項(xiàng)而系統(tǒng)返回到框311不采取任何行動(dòng)。否則,號(hào)碼項(xiàng)有效而在變量cnt2上加上值1,如框327所示,其中變量cnt2表示存儲(chǔ)的電話號(hào)碼項(xiàng)的數(shù)目(最大為4)。然后系統(tǒng)將變量Tcnt復(fù)位到0。然后系統(tǒng)檢測(cè)是否變量cnt2=4,如框328所示。否定的結(jié)果返回系統(tǒng)到框311。如果cnt=4,用戶完全設(shè)定了全部四個(gè)電話號(hào)碼項(xiàng)。將臨時(shí)放置在姓名與號(hào)碼緩沖器中的姓名與電話號(hào)碼項(xiàng)移到電話薄數(shù)據(jù)庫(kù)12中,如框324所示,而系統(tǒng)返回到圖3A中的編輯模式的入口點(diǎn)。當(dāng)cnt1=2時(shí),號(hào)碼項(xiàng)對(duì)話結(jié)束。然后系統(tǒng)將變量cnt1復(fù)位到0,如框322所示,并檢測(cè)是否變量cnt2>0,如框323所示。否定的結(jié)果表示號(hào)碼緩沖器中無(wú)電話號(hào)碼項(xiàng),而系統(tǒng)返回到框311不采取任何行動(dòng)。否則,一個(gè)電話號(hào)碼項(xiàng)當(dāng)前放在號(hào)碼緩沖器中而系統(tǒng)返回到框324,將聲音模型轉(zhuǎn)換成話音命令模型并將姓名與電話號(hào)碼項(xiàng)移到電話薄數(shù)據(jù)庫(kù)中,如上所述。下面給出號(hào)碼項(xiàng)操作的示例。
假定“李小華”有兩個(gè)電話號(hào)碼212-7827657及7556133。它們能用序列“2127827657#7556133##”輸入,其中單個(gè)“#”鍵用來(lái)分隔不同的電話號(hào)碼而雙“##”鍵表示號(hào)碼項(xiàng)的結(jié)束。
將鍵入的姓名與電話號(hào)碼項(xiàng)存儲(chǔ)在具有表1中所示的數(shù)據(jù)結(jié)構(gòu)的電話薄數(shù)據(jù)庫(kù)12中。表1的列1表示與話音命令模塊的序號(hào)一致的序號(hào)。列2以其對(duì)應(yīng)的音標(biāo)表示姓名項(xiàng)。列3至6用來(lái)存儲(chǔ)號(hào)碼項(xiàng)。如表1中所示,鍵入項(xiàng)包含表示“李小華”的串“58 783 64 72 81 3 61 73 75 2”,其號(hào)碼項(xiàng)為212-7827657及7556133。
話音命令模塊13包含基本聲音模型357及通過(guò)連接基本聲音模型357構(gòu)成的話音命令模型408?;韭曇裟P?57是不包含音調(diào)的音節(jié)模型。各音節(jié)模型為右上下文相關(guān)(RCO)的首字母(聲母)與終字母(韻母)的組合??偣膊捎昧?09個(gè)RCD首字母及38個(gè)終字母。這些RCD首字母與終字母是由采用多個(gè)發(fā)音人語(yǔ)音數(shù)據(jù)庫(kù)的分段k裝置(segmental k-means)方法訓(xùn)練的隱藏Markov模型。這些隱藏Markov模型的特征矢量包含12個(gè)Mel頻率倒頻譜系數(shù)及12個(gè)Delta Mel頻率倒頻譜系數(shù)。用“李小華”作為說(shuō)明如何用RCD首字母與終字母組成聲音模型的示例?!袄?ㄌ-v)”由RCD首字母“l(fā)-i”及終字母“i”構(gòu)成。從而用符號(hào)“l(fā)-ii”來(lái)表示“李(ㄌ-v)”的音節(jié)模型。類似地,分別用符號(hào)“shi-iiau”與“h-uua”來(lái)表示“小(ㄒ-ㄠV)”與“華”(ㄏㄨㄚ丿)”的音節(jié)模型。話音命令模型是以類似的方式連接音節(jié)模型構(gòu)成的。例如,姓名“李小華”的話音命令模型是通過(guò)連接音節(jié)模型“李(l-ii)”、“小(shi-iiau)”與“華(h-uua)”構(gòu)成的。從而用符號(hào)“(l-iishi-iiauh-uua”來(lái)表示“李小華”的話音模型。
圖3D為展示在編輯模式下的語(yǔ)音輸入功能的流程圖。如上所述,圖3B中所示的輸入功能提供用表1中所示的音標(biāo)的編輯方案編輯姓名項(xiàng)的方法來(lái)編輯姓名項(xiàng)。編輯模式下的語(yǔ)音輸入功能提供允許用戶用口頭輸入編輯姓名項(xiàng)的替代方法。在語(yǔ)音輸入進(jìn)程中,首先將變量Scnt設(shè)置成0,如框351所示,其中變量Scnt為0表示無(wú)輸入發(fā)聲。然后將一個(gè)音節(jié)發(fā)聲到手機(jī)中,如框352所示。然后將變量kcnt設(shè)置成0,如框353所示,其中kcnt為0表示該音節(jié)需要進(jìn)一步確認(rèn)。然后將輸入音節(jié)移至語(yǔ)音識(shí)別模塊14供進(jìn)一步處理。語(yǔ)音識(shí)別模塊14包括三個(gè)步驟綹檢測(cè),特征抽取及模式匹配,終點(diǎn)檢測(cè)模塊354將語(yǔ)音信號(hào)與背景噪聲分離。特征抽取模塊355執(zhí)行輸入語(yǔ)音的頻譜分析來(lái)抽取由12個(gè)Mel頻率倒頻譜系數(shù)及12個(gè)Delta Mel頻率倒頻譜系數(shù)組成的特征矢量。模式匹配模塊355利用Viterbi解碼過(guò)程找出最相似輸入語(yǔ)音的N個(gè)最佳音節(jié)模型357。按照表示輸入語(yǔ)音與408個(gè)音節(jié)模型357之間的相似性的匹配分?jǐn)?shù)排序這些結(jié)果。然后按照它們的匹配分?jǐn)?shù)的對(duì)應(yīng)音標(biāo)順序地顯示這些結(jié)果,如框358所示,其中首先顯示最高匹配分?jǐn)?shù)的結(jié)果。然后系統(tǒng)請(qǐng)求鍵入值,如框360所示,并檢測(cè)表示鍵入值的變量key是否在0至4的范圍內(nèi)。肯定的結(jié)果表示當(dāng)前正在顯示的音標(biāo)對(duì)應(yīng)于輸入音節(jié)且變量key的值表示輸入音節(jié)的音調(diào)。然后系統(tǒng)檢測(cè)是否變量kcnt=0,如框369所示??隙ǖ慕Y(jié)果表示該音節(jié)需要進(jìn)一步確認(rèn);從而將該音節(jié)及其音調(diào)臨時(shí)放置在姓名緩沖器中,如框370所示。然后在變量Scnt上加上值1,表示已將一個(gè)字符加到姓名項(xiàng)中。將變量kcnt設(shè)置成1,表示選擇了該輸入音節(jié),如框367所示。
否則,變量kcnt不為0表示已選擇了該輸入音節(jié)。用變量key的值來(lái)取代輸入音節(jié)的音調(diào),如框368所示。然后系統(tǒng)返回到框360用于下一個(gè)鍵入值。
如果變量key不在0至4的范圍內(nèi),系統(tǒng)便檢測(cè)是否變量key=8,如框362所示??隙ǖ慕Y(jié)果表示匹配結(jié)果的下一個(gè)候選者需要考察而系統(tǒng)返回到框358。否則,系統(tǒng)檢測(cè)是否變量key=7,如框363所示??隙ǖ慕Y(jié)果表示已準(zhǔn)備好將下一個(gè)音節(jié)發(fā)聲到手機(jī)中,而系統(tǒng)返回到框352。否則,系統(tǒng)檢測(cè)是否變量key=0,如框362所示。否定的結(jié)果將系統(tǒng)返回到框360并要求鍵入值。變量key為0表示姓名項(xiàng)對(duì)話的結(jié)束。然后系統(tǒng)檢測(cè)是否變量Scnt>0,如框365所示。否定的結(jié)果表示沒(méi)有姓名項(xiàng)放置在姓名緩沖器中;從而系統(tǒng)返回到框352請(qǐng)求用戶用話音輸入姓名項(xiàng)。否則,變量Scnt大于0表示姓名項(xiàng)對(duì)話的結(jié)束。然后系統(tǒng)將變量Nflag、Tcnt、cnt1及cnt2復(fù)位到0,如框356所示。在為以后的號(hào)碼輸入功能轉(zhuǎn)移到圖3B中的點(diǎn)@350之前必須設(shè)定變量。
作為輸入姓名“李小華”的一個(gè)示例,首先說(shuō)出音節(jié)“李(ㄌ-v)”到手機(jī)中。假如語(yǔ)音識(shí)別模塊14找出的N個(gè)最佳聲音模型為“1ㄌ-ㄥ,2ㄋ-,3ㄌ-,4-…”。顯示模塊15將首先顯示音標(biāo)“ㄌ-ㄥ”,這不是表示字“李”的音標(biāo);從而按下鍵“8”。然后顯示模塊顯示音標(biāo)“ㄋ-”,這也不是表示字“李”的音標(biāo),再一次按下鍵“8”。然后顯示模塊顯示音標(biāo)“ㄌ-”,這對(duì)應(yīng)于字“李”的音標(biāo),從而按下鍵“3”來(lái)表示其單調(diào)。如果需要修改,可在下一次語(yǔ)音輸入之前輸入值1至4之間的鍵。例如,鍵“4”將“ㄌ-v”改變成“ㄌ-丶”。然后通過(guò)按鍵“7”為下一次輸入“小(ㄒ-ㄠV)”以及隨后的話音輸入“華(ㄏㄨㄚ丿)”確認(rèn)姓名項(xiàng)。然后用戶按鍵“0”來(lái)表示姓名項(xiàng)對(duì)話的結(jié)束?,F(xiàn)在姓名緩沖器中包含表示“李小華”的字符串“#58#72#3#64#72#81#3#61#73#75#2##”。然后系統(tǒng)轉(zhuǎn)移到修改模塊的電話號(hào)碼輸入功能38。
圖3E為展示編輯模塊28的查詢功能39的流程圖。查詢功能39提供顯示前面379或后面380數(shù)據(jù)項(xiàng)的功能并允許用戶撥當(dāng)前正在顯示的數(shù)據(jù)項(xiàng),如框378所示。一旦用戶進(jìn)入查詢功能39,系統(tǒng)首先檢測(cè)電話薄數(shù)據(jù)庫(kù)12中是否存在任何數(shù)據(jù)項(xiàng),如框371所示。否定的結(jié)果斷開(kāi)查詢功能并返回系統(tǒng)到圖3A中編輯模式28的起始點(diǎn)。否則,系統(tǒng)顯示最近用過(guò)的數(shù)據(jù)項(xiàng),如框372所示。要求輸入一個(gè)鍵,并將鍵入值存儲(chǔ)在變量key中,如框373所示。然后系統(tǒng)檢測(cè)是否變量key=“*”,如框374所示??隙ǖ慕Y(jié)果顯示前一數(shù)據(jù)項(xiàng)379及返回系統(tǒng)到框373。否則,系統(tǒng)檢測(cè)是否變量key=“#”,如框375所示??隙ǖ慕Y(jié)果顯示下一數(shù)據(jù)項(xiàng)380并返回系統(tǒng)到框373。否則,系統(tǒng)檢測(cè)是否變量key=0,如框376所示??隙ǖ慕Y(jié)果表示查詢對(duì)話的結(jié)束而將系統(tǒng)返回到圖3A中修改模塊28的入口點(diǎn)。否則系統(tǒng)檢測(cè)變量key是否對(duì)應(yīng)于當(dāng)前正在顯示的任何電話號(hào)碼項(xiàng),如框377所示??隙ǖ慕Y(jié)果令系統(tǒng)撥選擇的電話號(hào)碼并返回系統(tǒng)到普通模塊26。否則,系統(tǒng)忽略鍵入值并返回到373用于下一鍵入值。
圖3F及3G為展示編輯模式28下的修改功能40的流程圖。修改功能的特征為以下功用增/刪號(hào)碼項(xiàng)及刪除數(shù)據(jù)庫(kù)中的記錄。一旦用戶進(jìn)入修改功能40,系統(tǒng)首先檢測(cè)電話薄數(shù)據(jù)庫(kù)12中是否存在任何數(shù)據(jù)項(xiàng),如框381所示。否定的結(jié)果斷開(kāi)修改功能并返回系統(tǒng)到圖3A中編輯模式28的入口點(diǎn)。否則,系統(tǒng)顯示最近用過(guò)的數(shù)據(jù)項(xiàng),如框382所示,并將變量Aflag、Dflag及Tcnt設(shè)置成0,其中變量Aflag=1表示選擇增加功用,變量Dflag=1表示選擇刪除功用,而變量Tcnt表示電話號(hào)碼項(xiàng)的長(zhǎng)度(最大15位)。用戶能通過(guò)按鍵輸入指令,而將鍵入值存儲(chǔ)在變量key中,如框384所示。然后系統(tǒng)檢測(cè)是否變量key=“*”,如框385所示??隙ǖ慕Y(jié)果表示選擇了刪除功用,將變量Dflag設(shè)置成1,并將變量Aflag設(shè)置成0,如框390所示。然后系統(tǒng)返回到框384。否則,系統(tǒng)檢測(cè)是否變量key=“#”,如框386所示??隙ǖ慕Y(jié)果表示選擇了增加功用而將變量Dflag設(shè)置成0,如框398所示。然后系統(tǒng)檢測(cè)是否變量Tcnt>0,如框399所示??隙ǖ慕Y(jié)果表示增加功用的結(jié)束并將臨時(shí)放置在號(hào)碼緩沖器中的號(hào)碼項(xiàng)移到電話薄數(shù)據(jù)庫(kù)12中,如框402所示。然后在變量Telcnt上加上值1,Telcnt表示以前存儲(chǔ)的電話號(hào)碼項(xiàng)的總數(shù)而加1表示已輸入了一個(gè)附加的號(hào)碼項(xiàng)(最大4)。然后將變量Aflag復(fù)位到0以結(jié)束增加功用并將變量Tcnt復(fù)位到0,如框402所示。然后系統(tǒng)返回到框384。否則,變量Tcnt為0表示不存在號(hào)碼項(xiàng)。一旦進(jìn)入增加功用,系統(tǒng)首先檢測(cè)輸入的電話號(hào)碼數(shù)是否超過(guò)4,如框400所示。換言之,系統(tǒng)檢測(cè)是否變量Telcnt=4??隙ǖ慕Y(jié)果表示不可能增加號(hào)碼項(xiàng)而系統(tǒng)忽略“#”鍵及返回到框384。否則,可以增加附加的電話號(hào)碼項(xiàng)而將變量Aflag設(shè)置成1,如框401所示,以進(jìn)入增加功用。然后系統(tǒng)返回到框384。如果變量key既非“*”又非“#”。系統(tǒng)便檢測(cè)是否變量Dflag=1,如框387所示??隙ǖ慕Y(jié)果表示刪除功用的入口點(diǎn)。一旦進(jìn)入刪除功用,系統(tǒng)首先檢測(cè)變量key是否對(duì)應(yīng)于顯示中的任何電話號(hào)碼項(xiàng),如框391所示。如果肯定,系統(tǒng)便從電話薄數(shù)據(jù)庫(kù)中刪除對(duì)應(yīng)的號(hào)碼項(xiàng),如框397所示。否則,系統(tǒng)檢測(cè)是否變量key=5,如框392所示??隙ǖ慕Y(jié)果表示需要?jiǎng)h除包含姓名項(xiàng)、電話號(hào)碼項(xiàng)及表示該姓名項(xiàng)的話音命令模型408的數(shù)據(jù)庫(kù)記錄,如框392所示。然后系統(tǒng)提示一則報(bào)文來(lái)詢問(wèn)是否應(yīng)刪除整個(gè)記錄。否定的回答返回系統(tǒng)到框384而不采取任何行動(dòng)。否則,從電話薄數(shù)據(jù)庫(kù)12中刪除整個(gè)數(shù)據(jù)記錄及從聲音數(shù)據(jù)庫(kù)13中刪除對(duì)應(yīng)于該姓名項(xiàng)的話音命令模型408。此后,系統(tǒng)檢測(cè)電話薄數(shù)據(jù)庫(kù)12中是否存在任何其它項(xiàng),如框395所示??隙ǖ慕Y(jié)果允許系統(tǒng)顯示下一數(shù)據(jù)項(xiàng),如框396所示并將系統(tǒng)返回到用于下一修改命令的修改功能40的入口點(diǎn)。否則,系統(tǒng)返回到用于下一編輯命令的圖3A中的編輯模式28的入口點(diǎn)。在刪除功用中,如果變量key并不對(duì)應(yīng)于顯示中的任何電話號(hào)碼項(xiàng)且不等于5,系統(tǒng)返回到框388。如果變量key既非“*”又非“#”,且變量Dflag=1,系統(tǒng)便檢測(cè)是否變量Aflag=1??隙ǖ慕Y(jié)果表示選擇了增加功用而系統(tǒng)進(jìn)入增加功用。然后系統(tǒng)變量key是否在0至9的范圍內(nèi)且變量Tcnt<15(電話號(hào)碼項(xiàng)的最大長(zhǎng)度),如框404所示??隙ǖ慕Y(jié)果允許將變量key臨時(shí)放置在號(hào)碼緩沖器405中并在變量Tcnt上加上值1,如框406所示,表示電話號(hào)碼的附加位。然后系統(tǒng)返回到框384。否則,變量key不在0至9的范圍內(nèi)或變量Tcnt不小于15表示鍵入值是無(wú)效的或號(hào)碼項(xiàng)超過(guò)了15位,從而系統(tǒng)返回到框384而不采取任何行動(dòng)。如果變量key既非“*”又非“#”且變量Dflag及Aflag≠1,系統(tǒng)檢測(cè)是否變量key=0,如框398所示。如果變量key≠0,系統(tǒng)忽略鍵入值并返回到框384。否則,變量key=0表示修改功能40的結(jié)束而將系統(tǒng)返回到用于下一編輯命令的圖3A中的編輯模式28的入口點(diǎn)。下面說(shuō)明修改功能的示例。
假定用戶利用查詢功能選擇了存儲(chǔ)在電話薄數(shù)據(jù)庫(kù)12中的第三個(gè)數(shù)據(jù)記錄。這一記錄具有“林效法”的4組電話號(hào)碼項(xiàng)。顯示模塊15將顯示數(shù)據(jù)項(xiàng)如下。
ㄌ-ㄣ ㄒ-ㄠ丶匚ㄚv
1:3823883
2:7759398
3:7221234
4:8556694假定需要將第四電話號(hào)碼項(xiàng)從8556694改成5862699,第一步為通過(guò)按鍵“*4”來(lái)刪除第四個(gè)號(hào)碼,其中“*”表示刪除功用而“4”表示第四號(hào)碼項(xiàng)。接著,用序列“#5862699#0”輸入新的號(hào)碼項(xiàng),其中第一個(gè)“#”起動(dòng)號(hào)碼項(xiàng)而第二個(gè)“#”結(jié)束號(hào)碼項(xiàng)。序列中最后的“0”表示修改對(duì)話的結(jié)束。完成了上述進(jìn)程之后,系統(tǒng)顯示修改后的數(shù)據(jù)記錄如下ㄌ-ㄣ ㄒ-ㄠ丶匚ㄚv
1:3823883
2:7759398
3:7221234
4:5862699圖4為展示圖1中的語(yǔ)音識(shí)別模塊14的命令模式27的流程圖。命令模式27允許用戶用話音命令拔存儲(chǔ)的電話號(hào)碼項(xiàng)。一旦進(jìn)入命令模式27,用戶首先將想要的人的姓名講入手機(jī)中,如框407所示,假定已在框408將該人的姓名轉(zhuǎn)換成話音命令模型并已利用上述編輯模塊28將其號(hào)碼存儲(chǔ)在電話薄數(shù)據(jù)庫(kù)12中。然后將語(yǔ)音段發(fā)送到語(yǔ)音識(shí)別模塊14供處理。語(yǔ)音識(shí)別模塊14由三個(gè)步驟組成終點(diǎn)檢測(cè),特征抽取及模式匹配。終點(diǎn)檢測(cè)模塊354分離語(yǔ)音段與背景噪聲。特征抽取模塊355執(zhí)行語(yǔ)音段的頻譜分析以抽取作為話音命令模型13的特征矢量,該模型包含12個(gè)Mel頻率倒頻譜系數(shù)及12個(gè)Delta Mel頻率倒頻譜系數(shù)。模式匹配模塊利用Viterbi解碼過(guò)程找出與輸入語(yǔ)音段最相似的N個(gè)最佳話音命令模型408。按照表示輸入語(yǔ)音段與話音命令模型408之間的相似性的匹配分?jǐn)?shù)來(lái)排序這些結(jié)果。然后按排序的序列以它們對(duì)應(yīng)的音標(biāo)顯示這些結(jié)果,如框358所示,其中首先顯示具有最高匹配分?jǐn)?shù)的結(jié)果。然后系統(tǒng)請(qǐng)求鍵入值,并將其存儲(chǔ)在變量key中,如框409所示。然后系統(tǒng)檢測(cè)是否變量key=8,如框410所示。肯定的結(jié)果表示當(dāng)前顯示的數(shù)據(jù)項(xiàng)不正確而系統(tǒng)返回到框358用于下一個(gè)可能的數(shù)據(jù)項(xiàng)。變量key不是8表示或者顯示的數(shù)據(jù)項(xiàng)是正確的或者用戶要再一次講入手機(jī)中。從而系統(tǒng)檢測(cè)是否變量key=7,如框411所示??隙ǖ慕Y(jié)果將系統(tǒng)返回到命令模式27的入口點(diǎn)并期待口聲輸入。否則,系統(tǒng)為7指示顯示的數(shù)據(jù)項(xiàng)是正確的,而系統(tǒng)檢測(cè)變量Key是否對(duì)應(yīng)于顯示的任何電話號(hào)碼,如框412所示。肯定的結(jié)果允許系統(tǒng)直接撥選擇的電話號(hào)碼,如框413所示,并返回系統(tǒng)到普通模式26。否則,系統(tǒng)返回到框409用于下一個(gè)鍵入值。下面給出如何利用話音命令撥一個(gè)存儲(chǔ)的電話號(hào)碼的示例。
假定用戶想與“李小華”說(shuō)話,用戶首先拿起手機(jī)及講“李小華”到手機(jī)中。如果語(yǔ)音識(shí)別模塊14識(shí)別出“王大明”為具有最高匹配分?jǐn)?shù)的候選人而“李小華”為第二最佳匹配,顯示模塊15首先顯示如下ㄨㄤ丿ㄉㄚ丶ㄇ一ㄥ丿
1:3821234
2:7759876
3:059252177由于“王大明”不是想要的項(xiàng),用戶按鍵“8”來(lái)顯示下一個(gè)候選人,顯示模塊15顯示如下ㄌ-vㄒ-ㄠvㄏㄨㄚ丿
1:7556133
2:2127827657由于“李小華”是所要的項(xiàng),而其第一個(gè)電話號(hào)碼項(xiàng)7556133為要求的電話號(hào)碼,用戶按鍵“1”而系統(tǒng)發(fā)送解碼的結(jié)果給撥號(hào)模塊來(lái)?yè)苓x擇的號(hào)碼項(xiàng)。然后系統(tǒng)進(jìn)入普通模式26。因?yàn)椤袄钚∪A”只包含兩個(gè)號(hào)碼項(xiàng),按鍵“3”或“4”將不導(dǎo)致行動(dòng)。
如上所述,本發(fā)明提出了用于自動(dòng)撥號(hào)的話音命令系統(tǒng),其特征為通過(guò)話音命令自動(dòng)撥號(hào)。此外,本發(fā)明中公開(kāi)的映射方案與編輯方法可用來(lái)以它們對(duì)應(yīng)的音標(biāo)表示與顯示中文姓名。此外,姓名項(xiàng)自動(dòng)轉(zhuǎn)換成話音命令模型允許用戶在編輯各項(xiàng)之后無(wú)須額外訓(xùn)練便能撥號(hào)。
注意本發(fā)明不受上述實(shí)施例的限制,并且只要修改是在本發(fā)明的范圍內(nèi)作出的,本發(fā)明可在實(shí)踐中修改。例如,只要圖3D中的話音項(xiàng)功能采用首字母(ㄅ、ㄆ、ㄇ…)及終字母(ㄚ、一、ㄨ、…)來(lái)替代音節(jié)(ㄅㄚ、ㄉㄚ、…)作為話音輸入,便能用109個(gè)RCD首字母與39個(gè)終字母來(lái)替代聲音數(shù)據(jù)庫(kù)13中所包含的聲音模型357。此外,特征矢量可包含其它特征,諸如除了12個(gè)Mel頻率倒頻譜系數(shù)及12個(gè)DeltaMel頻率倒頻譜系數(shù)之外的能量分量或LPC分量。此外,本發(fā)明的應(yīng)用不限于中文語(yǔ)言。通過(guò)加入特定語(yǔ)言的特征對(duì)聲音數(shù)據(jù)庫(kù)13、字體及修改模塊11進(jìn)行適當(dāng)?shù)男薷?,便能以任何語(yǔ)言實(shí)現(xiàn)本發(fā)明。本發(fā)明的范圍列出在所附權(quán)利要求書中。
表權(quán)利要求
1.一種用于自動(dòng)撥號(hào)的話音命令系統(tǒng),包括在命令模式、編輯模式或普通模式中確定所述系統(tǒng)的操作模式的操作選擇模塊;提供編輯功能及存儲(chǔ)數(shù)據(jù)到數(shù)據(jù)庫(kù)中的修改模塊;從基本聲音模型中生成話音命令模型的聲音數(shù)據(jù)庫(kù);解碼用戶的輸入發(fā)聲來(lái)提供與所述輸入發(fā)聲相似的N個(gè)最佳解碼結(jié)果的語(yǔ)音識(shí)別模塊;以及顯示所述修改模塊與/或所述語(yǔ)音識(shí)別模塊的所述結(jié)果,存儲(chǔ)所述修改的結(jié)果到所述數(shù)據(jù)庫(kù)中,與/或發(fā)送所述識(shí)別結(jié)果到撥號(hào)模塊去撥號(hào)的顯示模塊。
2.根據(jù)權(quán)利要求1的系統(tǒng),其中所述修改模塊包含輸入功能,該功能利用音調(diào)與音標(biāo)的映射方案用于通過(guò)按所述音調(diào)與音標(biāo)的對(duì)應(yīng)電話鍵盤輸入所述數(shù)據(jù)。
3.根據(jù)權(quán)利要求1的系統(tǒng),其中所述修改模塊包含輸入功能,該功能利用音調(diào)與音標(biāo)的映射方案用于用話音命令輸入所述數(shù)據(jù)。
4.根據(jù)權(quán)利要求1的系統(tǒng),其中所述修改模塊包含輸入功能,該功能利用所述顯示模塊顯示的音調(diào)與音標(biāo)映射方案用于通過(guò)按所述音調(diào)與音標(biāo)的對(duì)應(yīng)電話鍵盤輸入所述數(shù)據(jù)。
5.根據(jù)權(quán)利要求1的系統(tǒng),其中所述修改模塊包含輸入功能,該功能利用所述顯示模塊顯示的音調(diào)與音標(biāo)的映射方案用于用話音命令輸入所述數(shù)據(jù)。
6.根據(jù)權(quán)利要求1的系統(tǒng),其中所述修改模塊包含輸入功能,該功能利用給定的字母表的映射方案用于通過(guò)按所述字母表的對(duì)應(yīng)電話鍵盤輸入所述數(shù)據(jù)。
7.根據(jù)權(quán)利要求1的系統(tǒng),其中所述修改模塊包含輸入功能,該功能利用給定字母表的映射方案用于用話音命令輸入所述數(shù)據(jù)。
8.根據(jù)權(quán)利要求1的系統(tǒng),其中所述修改模塊包含輸入功能,該功能利用所述顯示模塊顯示的給定字母表的映射方案用于通過(guò)按所述字母表的對(duì)應(yīng)電話鍵盤輸入所述數(shù)據(jù)。
9.根據(jù)權(quán)利要求1的系統(tǒng),其中所述修改模塊包含輸入功能,該功能利用所述顯示模塊顯示的給定字母表的映射方案用于用話音命令輸入所述數(shù)據(jù)。
10.根據(jù)權(quán)利要求1的系統(tǒng),其中所述數(shù)據(jù)包含姓名與電話號(hào)碼數(shù)據(jù)。
全文摘要
本發(fā)明涉及用于自動(dòng)撥號(hào)的話音命令系統(tǒng)。該構(gòu)思是為在電話簿項(xiàng)中利用音標(biāo)而不用字符串。能遵照表1中所定義的專門設(shè)計(jì)的鍵入序列用鍵盤輸入音標(biāo)。作為替代,能通過(guò)以隔離方式講出音節(jié)到電話送話器中而用語(yǔ)音識(shí)別作出該項(xiàng),由于普通話中每一字符只有一個(gè)音節(jié)。音標(biāo)是自動(dòng)轉(zhuǎn)換成話音命令模型的,它允許用戶用口聲命令撥號(hào)碼。
文檔編號(hào)H04M1/27GK1232336SQ9910108
公開(kāi)日1999年10月20日 申請(qǐng)日期1999年1月14日 優(yōu)先權(quán)日1998年1月16日
發(fā)明者Y·C·楚, T·H·林 申請(qǐng)人:皇家菲利浦電子有限公司