專利名稱:口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型涉及車載語音導(dǎo)航領(lǐng)域,尤其涉及一種口型輔助語音識(shí)別術(shù)在車載影音導(dǎo)航中的應(yīng)用方法及系統(tǒng)。
背景技術(shù):
語音識(shí)別技術(shù)隨著計(jì)算機(jī)和相關(guān)軟硬件技術(shù)的發(fā)展,已越來越多的應(yīng)用在各個(gè)領(lǐng)域,其識(shí)別率也在不斷的提高。在環(huán)境安靜、發(fā)音標(biāo)準(zhǔn)等特定條件下,目前應(yīng)用在語音識(shí)別輸入文字系統(tǒng)的識(shí)別率已經(jīng)達(dá)到95%以上。但如果在車上或噪聲較大、發(fā)音不標(biāo)準(zhǔn)的情況下,其識(shí)別率將大打折扣,以至于無法達(dá)到真正實(shí)用目的。若能采用其它方法來輔助判斷以提高其語音識(shí)別的準(zhǔn)確率,那么語音識(shí)別的實(shí)用性將顯著提高。人類的語言認(rèn)知過程是一個(gè)多通道的感知過程。在人與人日常交流的過程中,通過聲音來感知他人講話的內(nèi)容,在喧鬧的環(huán)境或?qū)Ψ桨l(fā)音模糊不清時(shí),還需要眼睛觀察其口型,表情等的變化,才能準(zhǔn)確地理解對(duì)方所講的內(nèi)容。現(xiàn)行的語音識(shí)別系統(tǒng)忽略了語言感知的視覺特性這一面,僅僅利用了單一的聽覺特性,使得現(xiàn)有的語音識(shí)別系統(tǒng)在噪聲環(huán)境或多話者條件下,其識(shí)別率都顯著下降,降低了語音識(shí)別的實(shí)用性,應(yīng)用范圍也受限制。隨著車載導(dǎo)航系統(tǒng)的普及應(yīng)用,駕駛員在駕駛車輛時(shí)進(jìn)行車載導(dǎo)航系統(tǒng)各項(xiàng)應(yīng)用功能的操控,僅用按鍵和觸摸操控顯得不夠方便,而且操控時(shí)由于分心駕駛,很容易引起行車事故。用語音識(shí)別方式進(jìn)行操控來解決這個(gè)問題,但目前采用語音操控技術(shù)的導(dǎo)航系統(tǒng)使用在環(huán)境噪聲比較嚴(yán)重的車上,其正確識(shí)別率低,影響精確操控,效果不夠理想。
實(shí)用新型內(nèi)容本實(shí)用新型的目的在于解決車載導(dǎo)航系統(tǒng)在車輛正常行駛或怠速時(shí)的噪聲環(huán)境中的語音識(shí)別率低的問題。為解決上述問題,本實(shí)用新型提出的方案是—種口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng),其特征是包含車載導(dǎo)航影音系統(tǒng)及其上連接的圖像/語音識(shí)別處理模塊,連接于圖像/語音識(shí)別處理模塊輸入端的麥克風(fēng)、攝像頭;麥克風(fēng)和攝像頭分別對(duì)聲音信號(hào)和口型圖像信號(hào)進(jìn)行采集,并輸入到圖像/語音識(shí)別處理模塊進(jìn)行其它相應(yīng)處理、識(shí)別,并把識(shí)別后的結(jié)果轉(zhuǎn)換成相應(yīng)的控制指令,輸入到車載導(dǎo)航影音系統(tǒng)實(shí)現(xiàn)語音控制操作。作為本實(shí)用新型的進(jìn)一步說明,所述麥克風(fēng)為具有定向音頻傳輸功能的高保真/高靈敏度的駐極體電容式拾音器。進(jìn)一步地,所述攝像頭為帶夜視功能的、視頻分辨率為640X480、25幀、32bit真彩C⑶視頻圖像傳感器。所述麥克風(fēng)安裝位置是安裝在駕駛員位正前方儀表盤上部位,且拾音器口要正對(duì)駕駛員面部。所述攝像頭安裝位置是安裝在駕駛員位正前方擋風(fēng)玻璃的上邊沿端,鏡頭正對(duì)駕駛員面部。所述圖像/語音識(shí)別處理模塊所用處理器為高性能DSP處理器。上述方案基于人類語言多通道感知特性,利用傳感器模擬“聽覺”和“視覺”,采用口型識(shí)別技術(shù)輔助語音識(shí)別,提高車載導(dǎo)航系統(tǒng)在噪聲環(huán)境中的語音識(shí)別率。實(shí)施過程是通過傳感器對(duì)聲音和口型圖像變化系列獲取“聽覺”和“視覺”信息,經(jīng)過去噪、A/D轉(zhuǎn)換等一系列處理后,分別與預(yù)設(shè)在圖像/語音識(shí)別處理模塊中的模板庫數(shù)據(jù)比對(duì)進(jìn)行語音識(shí)別口型識(shí)別,用口型識(shí)別結(jié)果與語音識(shí)別結(jié)果進(jìn)行對(duì)比,若兩者結(jié)果相似性達(dá)到一定程度,即可以確認(rèn)語音識(shí)別結(jié)果,從而克服噪音的影響,顯著提高了語音識(shí)別率,再把結(jié)果轉(zhuǎn)化成相關(guān)指令輸出到車載導(dǎo)航系統(tǒng)進(jìn)行導(dǎo)航或獲取信息。本實(shí)用新型方案實(shí)現(xiàn)方法參見
圖1所示的流程系統(tǒng)首先分別對(duì)語音輸入和口形圖像輸入進(jìn)行預(yù)處理后,進(jìn)行特征提取,“訓(xùn)練” “模板塊”作識(shí)別匹配用。使用時(shí)再分別對(duì)語音輸入和口形圖像輸入進(jìn)行預(yù)處理后,進(jìn)行特征提取,獲取“測(cè)試”信號(hào),結(jié)合經(jīng)過訓(xùn)練的模板塊進(jìn)行“測(cè)量估計(jì)”,確認(rèn)語音識(shí)別的有效信息,再與預(yù)置“專家知識(shí)”系統(tǒng)進(jìn)行識(shí)別判斷后,輸出“結(jié)果”,完成語音識(shí)別過程。特別說明的是訓(xùn)練模板塊時(shí),通過錄音和攝像進(jìn)行模板訓(xùn)練,建立語音和口型識(shí)別的模板庫,在錄音的同時(shí)將口型視頻圖像做一一對(duì)應(yīng)判斷存儲(chǔ)。本實(shí)用新型的語音識(shí)別采用模板匹配的方法,該方法共四個(gè)步驟特征提取、模板訓(xùn)練、模板分類、判決。以聲音識(shí)別為例第一步是特征提取,將采集的各種語音的模擬信號(hào)進(jìn)行A/D轉(zhuǎn)換,轉(zhuǎn)換成數(shù)字信號(hào)后進(jìn)行加工并存儲(chǔ)。即將該信號(hào)數(shù)字進(jìn)行數(shù)字去噪處理加工,去除偽數(shù)據(jù),保留特征數(shù)據(jù)。采用的去噪處理方法是根據(jù)車內(nèi)環(huán)境噪聲的特點(diǎn),分析出車在正常行駛或怠速時(shí)的常態(tài)噪聲,如關(guān)閉或開啟車窗時(shí)的發(fā)動(dòng)機(jī)、空調(diào)及行車噪聲特征數(shù)據(jù),將采集的原始語音數(shù)據(jù)通過相關(guān)運(yùn)算,去除這些噪聲特征數(shù)據(jù)后形成接近真實(shí)的語音特征數(shù)據(jù)。第二步是模板訓(xùn)練,根據(jù)車載設(shè)備操控常用語音命令和相關(guān)信息建立語音模板庫,如“開始”、“導(dǎo)航”、“目的地”、“上海,,等語音,找不同年齡、性別、口音的人來讀,并做相應(yīng)的處理,建立起車用操控語音模板數(shù)據(jù)庫。第三步是模板分類,根據(jù)應(yīng)用特征分為控制命令類、地址信息類,信息范圍按大小類分類,以縮小匹配判定范圍,提高匹配效率和準(zhǔn)確率??刂泼铑惥唧w有如導(dǎo)航命令類、語音控制類;地址信息大小類具體有如省級(jí)地名、市級(jí)地名或更小地名等。第四步是判定,利用匹配算法進(jìn)行語音特征與語音模板庫模型匹配,將判定的結(jié)果與口型識(shí)別比對(duì),進(jìn)一步確認(rèn)語音識(shí)別結(jié)果的準(zhǔn)確性。本實(shí)用新型的口型識(shí)別采用唇形和唇色相結(jié)合的判斷方法,準(zhǔn)確定位口唇位置。具體為采用一種基于色度濾波的唇動(dòng)特征提取與識(shí)別方法,通過唇的色度濾波,得到增強(qiáng)的唇動(dòng)圖像,再利用可變模板描述口型輪廓并提取特征參數(shù),并用隱馬爾科夫(HMM)模型進(jìn)行唇運(yùn)動(dòng)序列圖像識(shí)別。該方法不受口型縮放、變形、旋轉(zhuǎn)的影響,對(duì)不同唇型有很好的魯棒性,對(duì)光照沒有特別的要求,且非針對(duì)特定人,適用于自然條件下的口型描述,能滿足可變模板對(duì)目標(biāo)邊緣有較高分辨率的要求。從而實(shí)現(xiàn)了口唇位置準(zhǔn)確定位,并采用適當(dāng)?shù)拇叫纹ヅ渌惴ㄟM(jìn)行識(shí)別。將識(shí)別結(jié)果與語音識(shí)別結(jié)果進(jìn)行比對(duì),形成統(tǒng)一的識(shí)別結(jié)果,最后將識(shí)別的準(zhǔn)確信息與車載設(shè)備操控指令對(duì)應(yīng)起來完成語音識(shí)別操控功能,對(duì)語音識(shí)別起輔助作用,提高語音識(shí)別率。綜上所述,本實(shí)用新型采用上述技術(shù)解決方案所能達(dá)到的有益效果是將語音識(shí)別與口型識(shí)別通過特征提取、模板訓(xùn)練、模板分類、判決過程有機(jī)的結(jié)合起來,運(yùn)用先語音識(shí)別判斷、后口型識(shí)別確認(rèn)的邏輯判斷序列、有效的降低因噪聲和外界聲音干擾產(chǎn)生識(shí)別錯(cuò)誤的幾率,實(shí)驗(yàn)證明車輛在行駛和怠速情況下(關(guān)閉車窗)的語音識(shí)別率由原來的80%左右提高到90%以上。識(shí)別率的提高意味著克服了單一語音導(dǎo)航的弱點(diǎn),讓用戶更方便使用語音導(dǎo)航設(shè)備,行車時(shí)使用導(dǎo)航設(shè)備更安全。
以下結(jié)合附圖和具體實(shí)施方式
,對(duì)本實(shí)用新型及其有益技術(shù)效果進(jìn)行進(jìn)一步詳細(xì)說明,其中圖1為本實(shí)用新型口型信息與語音信息主要處理過程示意圖。圖2為本實(shí)用新型口型輔助語音識(shí)別系統(tǒng)圖。附圖標(biāo)記說明21、駕駛員面部22、攝像頭23、麥克風(fēng)24、圖像/語音識(shí)別處理模塊25、車載導(dǎo)航影音系統(tǒng)
具體實(shí)施方式
本實(shí)用新型的口型輔助語音識(shí)別系統(tǒng)結(jié)構(gòu)如圖2所示,車載導(dǎo)航影音系統(tǒng)25及其上連接的圖像/語音識(shí)別處理模塊對(duì),連接于圖像/語音識(shí)別處理模塊M輸入端的麥克風(fēng)23、攝像頭22 ;駕駛員面部21對(duì)著麥克風(fēng)23和攝像頭22發(fā)音時(shí),麥克風(fēng)23和攝像頭22分別對(duì)聲音信號(hào)和口型圖像信號(hào)進(jìn)行采集并輸入到圖像/語音識(shí)別處理模塊M進(jìn)行相應(yīng)處理(如去噪、預(yù)處理、特征提取、判斷和識(shí)別等過程),并把識(shí)別后的結(jié)果轉(zhuǎn)換成相應(yīng)的控制指令,輸入到車載導(dǎo)航影音系統(tǒng)25,實(shí)現(xiàn)語音控制操作。優(yōu)選地,麥克風(fēng)23采用具有定向音頻傳輸功能的高保真/高靈敏度的駐極體電容式拾音器,并安裝在駕駛員位正前方儀表盤上部位,且拾音器口要正對(duì)駕駛員面部21,確保采集到最佳的語音信號(hào),盡可能的降低車內(nèi)外環(huán)境噪聲的影響。優(yōu)選地,攝像頭22采用帶夜視功能的、視頻分辨率為640 X 480、25幀、32bit真彩CCD視頻圖像傳感器,并安裝在駕駛員正前方擋風(fēng)玻璃的上邊沿端,鏡頭正對(duì)駕駛員面部21,確保在光線較暗時(shí)也能獲得清晰的口唇圖像信息,系統(tǒng)對(duì)更準(zhǔn)確對(duì)圖像分析處理;優(yōu)選地,圖像/語音識(shí)別處理模塊M所用處理器采用高性能DSP處理器,確保系統(tǒng)具有較好的實(shí)時(shí)性。在軟件處理上,控制命令采用如“開啟導(dǎo)航”,“定位目標(biāo)”,“規(guī)劃路線”,“打電話”,“接聽”等固定命令格式,從而大大降低了模板匹配的數(shù)據(jù)運(yùn)算量,同時(shí)也提高了識(shí)別效率。地圖地址和語音信息采用關(guān)鍵字詞模糊匹配識(shí)別方法,從而加大了識(shí)別范圍,同時(shí)也提高信息識(shí)別率。采用上述方法對(duì)語音命令操控的正確性提供了有力的保障。上述模板匹配過程是,通過錄音和攝像進(jìn)行模板訓(xùn)練,建立語音和口型識(shí)別的模板庫,在錄音的同時(shí)將口型視頻圖像做一一對(duì)應(yīng)判斷存儲(chǔ)。優(yōu)選地,模板庫的建立過程為選16-70周歲年齡段的男女各20人,分別進(jìn)行車載導(dǎo)航語音命令、地圖信息語音、語音播放語音命令和語音節(jié)目名稱語音、設(shè)備控制命令語音及其相應(yīng)口型圖像錄制,經(jīng)過語音/ 口型比對(duì)和特征化處理后建立起基本的模板庫,語音識(shí)別模板庫建立后,將其分類存儲(chǔ)在相應(yīng)的模板類庫中備用。在口型輔助語音識(shí)別過程中,通過麥克風(fēng)23和攝像頭22采集特征數(shù)據(jù),在語音處理中,在圖像/語音識(shí)別處理模塊M中先將采集的原始聲音進(jìn)行去噪處理,然后進(jìn)行特征數(shù)據(jù)提取,與此相對(duì)應(yīng)的口型特征數(shù)據(jù)提取后,與預(yù)置的模板庫數(shù)據(jù)進(jìn)行一系列匹配判斷識(shí)別,語音識(shí)別后的判斷特征結(jié)果再與相應(yīng)的口型識(shí)別特征結(jié)果進(jìn)行比對(duì),優(yōu)選地,兩者的識(shí)別結(jié)果相似性達(dá)到70%以上時(shí)即可確定語音內(nèi)容,再將該語音內(nèi)容轉(zhuǎn)換成控制指令送入車載導(dǎo)航影音系統(tǒng)進(jìn)行處理。把口型輔助語音識(shí)別技術(shù)應(yīng)用在車載導(dǎo)航影音系統(tǒng)中,因語音識(shí)別率提高,在車輛行駛時(shí),車載語音導(dǎo)航設(shè)備在噪音的環(huán)境下也能實(shí)時(shí)識(shí)別、響應(yīng)駕駛員語音操控并進(jìn)行導(dǎo)航,盡可能避免駕駛員操作導(dǎo)航設(shè)備時(shí)發(fā)生安全事故。根據(jù)上述說明書及具體實(shí)施例的揭示和教導(dǎo),本實(shí)用新型所屬領(lǐng)域的技術(shù)人員還可以對(duì)上述實(shí)施方式進(jìn)行變更和修改。因此,本實(shí)用新型并不局限于上面揭示和描述的具體實(shí)施方式
,對(duì)本實(shí)用新型的一些修改和變更也應(yīng)當(dāng)落入本實(shí)用新型的權(quán)利要求的保護(hù)范圍內(nèi)。此外,盡管本說明書中使用了一些特定的術(shù)語和概念,但這些術(shù)語和概念只是為了方便說明,并不對(duì)本實(shí)用新型構(gòu)成任何限制。
權(quán)利要求1.一種口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng),其特征是包含車載導(dǎo)航影音系統(tǒng)(25)及其上連接的圖像/語音識(shí)別處理模塊(24),連接于圖像/語音識(shí)別處理模塊(24)輸入端的麥克風(fēng)(23)、攝像頭(22);麥克風(fēng)(23)和攝像頭(22)分別對(duì)聲音信號(hào)和口型圖像信號(hào)進(jìn)行采集,并輸入到圖像/語音識(shí)別處理模塊(24)進(jìn)行其它相應(yīng)處理、識(shí)別,并把識(shí)別后的結(jié)果轉(zhuǎn)換成相應(yīng)的控制指令,輸入到車載導(dǎo)航影音系統(tǒng)(25)實(shí)現(xiàn)語音控制操作。
2.根據(jù)權(quán)利要求1所述的口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng),其特征是所述麥克風(fēng)(23)為具有定向音頻傳輸功能的高保真/高靈敏度的駐極體電容式拾音器。
3.根據(jù)權(quán)利要求1所述的口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng),其特征是所述攝像頭(22)為帶夜視功能的、視頻分辨率為640X480、25幀、32bit真彩C⑶視頻圖像傳感器。
4.根據(jù)權(quán)利要求1或2所述的口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng),其特征是所述麥克風(fēng)(23)安裝位置是安裝在駕駛員位正前方儀表盤上部位,且拾音器口要正對(duì)駕駛員面部(21)。
5.根據(jù)權(quán)利要求1或3所述的口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng),其特征是所述攝像頭(22)安裝位置是安裝在駕駛員位正前方擋風(fēng)玻璃的上邊沿端,鏡頭正對(duì)駕駛員面部(21)。
6.根據(jù)權(quán)利要求1所述的口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng),其特征是圖像/語音識(shí)別處理模塊(24)所用處理器為高性能DSP處理器。
專利摘要本實(shí)用新型涉及一種口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)。方案是把攝像頭和麥克風(fēng)設(shè)置在合適位置,對(duì)用戶口型圖像和聲音進(jìn)行采集,通過圖像/語音識(shí)別處理模塊進(jìn)行先語音識(shí)別判斷、后口型識(shí)別確認(rèn)的邏輯判斷序列,形成統(tǒng)一的判別結(jié)果,將識(shí)別的準(zhǔn)確信息和車載導(dǎo)航影音系統(tǒng)操控指令相對(duì)應(yīng),完成語音識(shí)別操控功能,有效地降低語音識(shí)別因噪聲干擾產(chǎn)生識(shí)別錯(cuò)誤的幾率,使車輛在行駛和怠速情況下(關(guān)閉車窗)的語音識(shí)別率由原來的80%左右提高到90%以上,提高了語音識(shí)別技術(shù)在車載導(dǎo)航領(lǐng)域應(yīng)用的識(shí)別率,使語音導(dǎo)航更具實(shí)用價(jià)值,駕駛員使用導(dǎo)航設(shè)備更方便,提高安全駕車系數(shù)。
文檔編號(hào)G01C21/36GK202329640SQ20112030381
公開日2012年7月11日 申請(qǐng)日期2011年8月19日 優(yōu)先權(quán)日2011年8月19日
發(fā)明者伍棟楊, 王冰 申請(qǐng)人:廣東好幫手電子科技股份有限公司