口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)的制作方法

文檔序號(hào)：5921976閱讀：340來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>測(cè)量裝置的制造及其應(yīng)用技術(shù)

專利名稱：口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本實(shí)用新型涉及車載語音導(dǎo)航領(lǐng)域，尤其涉及一種口型輔助語音識(shí)別術(shù)在車載影音導(dǎo)航中的應(yīng)用方法及系統(tǒng)。
背景技術(shù)：
語音識(shí)別技術(shù)隨著計(jì)算機(jī)和相關(guān)軟硬件技術(shù)的發(fā)展，已越來越多的應(yīng)用在各個(gè)領(lǐng)域，其識(shí)別率也在不斷的提高。在環(huán)境安靜、發(fā)音標(biāo)準(zhǔn)等特定條件下，目前應(yīng)用在語音識(shí)別輸入文字系統(tǒng)的識(shí)別率已經(jīng)達(dá)到95%以上。但如果在車上或噪聲較大、發(fā)音不標(biāo)準(zhǔn)的情況下，其識(shí)別率將大打折扣，以至于無法達(dá)到真正實(shí)用目的。若能采用其它方法來輔助判斷以提高其語音識(shí)別的準(zhǔn)確率，那么語音識(shí)別的實(shí)用性將顯著提高。人類的語言認(rèn)知過程是一個(gè)多通道的感知過程。在人與人日常交流的過程中，通過聲音來感知他人講話的內(nèi)容，在喧鬧的環(huán)境或?qū)Ψ桨l(fā)音模糊不清時(shí)，還需要眼睛觀察其口型，表情等的變化，才能準(zhǔn)確地理解對(duì)方所講的內(nèi)容。現(xiàn)行的語音識(shí)別系統(tǒng)忽略了語言感知的視覺特性這一面，僅僅利用了單一的聽覺特性，使得現(xiàn)有的語音識(shí)別系統(tǒng)在噪聲環(huán)境或多話者條件下，其識(shí)別率都顯著下降，降低了語音識(shí)別的實(shí)用性，應(yīng)用范圍也受限制。隨著車載導(dǎo)航系統(tǒng)的普及應(yīng)用，駕駛員在駕駛車輛時(shí)進(jìn)行車載導(dǎo)航系統(tǒng)各項(xiàng)應(yīng)用功能的操控，僅用按鍵和觸摸操控顯得不夠方便，而且操控時(shí)由于分心駕駛，很容易引起行車事故。用語音識(shí)別方式進(jìn)行操控來解決這個(gè)問題，但目前采用語音操控技術(shù)的導(dǎo)航系統(tǒng)使用在環(huán)境噪聲比較嚴(yán)重的車上，其正確識(shí)別率低，影響精確操控，效果不夠理想。

實(shí)用新型內(nèi)容本實(shí)用新型的目的在于解決車載導(dǎo)航系統(tǒng)在車輛正常行駛或怠速時(shí)的噪聲環(huán)境中的語音識(shí)別率低的問題。為解決上述問題，本實(shí)用新型提出的方案是—種口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)，其特征是包含車載導(dǎo)航影音系統(tǒng)及其上連接的圖像/語音識(shí)別處理模塊，連接于圖像/語音識(shí)別處理模塊輸入端的麥克風(fēng)、攝像頭；麥克風(fēng)和攝像頭分別對(duì)聲音信號(hào)和口型圖像信號(hào)進(jìn)行采集，并輸入到圖像/語音識(shí)別處理模塊進(jìn)行其它相應(yīng)處理、識(shí)別，并把識(shí)別后的結(jié)果轉(zhuǎn)換成相應(yīng)的控制指令，輸入到車載導(dǎo)航影音系統(tǒng)實(shí)現(xiàn)語音控制操作。作為本實(shí)用新型的進(jìn)一步說明，所述麥克風(fēng)為具有定向音頻傳輸功能的高保真/高靈敏度的駐極體電容式拾音器。進(jìn)一步地，所述攝像頭為帶夜視功能的、視頻分辨率為640X480、25幀、32bit真彩C⑶視頻圖像傳感器。所述麥克風(fēng)安裝位置是安裝在駕駛員位正前方儀表盤上部位，且拾音器口要正對(duì)駕駛員面部。所述攝像頭安裝位置是安裝在駕駛員位正前方擋風(fēng)玻璃的上邊沿端，鏡頭正對(duì)駕駛員面部。所述圖像/語音識(shí)別處理模塊所用處理器為高性能DSP處理器。上述方案基于人類語言多通道感知特性，利用傳感器模擬“聽覺”和“視覺”，采用口型識(shí)別技術(shù)輔助語音識(shí)別，提高車載導(dǎo)航系統(tǒng)在噪聲環(huán)境中的語音識(shí)別率。實(shí)施過程是通過傳感器對(duì)聲音和口型圖像變化系列獲取“聽覺”和“視覺”信息，經(jīng)過去噪、A/D轉(zhuǎn)換等一系列處理后，分別與預(yù)設(shè)在圖像/語音識(shí)別處理模塊中的模板庫數(shù)據(jù)比對(duì)進(jìn)行語音識(shí)別口型識(shí)別，用口型識(shí)別結(jié)果與語音識(shí)別結(jié)果進(jìn)行對(duì)比，若兩者結(jié)果相似性達(dá)到一定程度，即可以確認(rèn)語音識(shí)別結(jié)果，從而克服噪音的影響，顯著提高了語音識(shí)別率，再把結(jié)果轉(zhuǎn)化成相關(guān)指令輸出到車載導(dǎo)航系統(tǒng)進(jìn)行導(dǎo)航或獲取信息。本實(shí)用新型方案實(shí)現(xiàn)方法參見

圖1所示的流程系統(tǒng)首先分別對(duì)語音輸入和口形圖像輸入進(jìn)行預(yù)處理后，進(jìn)行特征提取，“訓(xùn)練” “模板塊”作識(shí)別匹配用。使用時(shí)再分別對(duì)語音輸入和口形圖像輸入進(jìn)行預(yù)處理后，進(jìn)行特征提取，獲取“測(cè)試”信號(hào)，結(jié)合經(jīng)過訓(xùn)練的模板塊進(jìn)行“測(cè)量估計(jì)”，確認(rèn)語音識(shí)別的有效信息，再與預(yù)置“專家知識(shí)”系統(tǒng)進(jìn)行識(shí)別判斷后，輸出“結(jié)果”，完成語音識(shí)別過程。特別說明的是訓(xùn)練模板塊時(shí)，通過錄音和攝像進(jìn)行模板訓(xùn)練，建立語音和口型識(shí)別的模板庫，在錄音的同時(shí)將口型視頻圖像做一一對(duì)應(yīng)判斷存儲(chǔ)。本實(shí)用新型的語音識(shí)別采用模板匹配的方法，該方法共四個(gè)步驟特征提取、模板訓(xùn)練、模板分類、判決。以聲音識(shí)別為例第一步是特征提取，將采集的各種語音的模擬信號(hào)進(jìn)行A/D轉(zhuǎn)換，轉(zhuǎn)換成數(shù)字信號(hào)后進(jìn)行加工并存儲(chǔ)。即將該信號(hào)數(shù)字進(jìn)行數(shù)字去噪處理加工，去除偽數(shù)據(jù)，保留特征數(shù)據(jù)。采用的去噪處理方法是根據(jù)車內(nèi)環(huán)境噪聲的特點(diǎn)，分析出車在正常行駛或怠速時(shí)的常態(tài)噪聲，如關(guān)閉或開啟車窗時(shí)的發(fā)動(dòng)機(jī)、空調(diào)及行車噪聲特征數(shù)據(jù)，將采集的原始語音數(shù)據(jù)通過相關(guān)運(yùn)算，去除這些噪聲特征數(shù)據(jù)后形成接近真實(shí)的語音特征數(shù)據(jù)。第二步是模板訓(xùn)練，根據(jù)車載設(shè)備操控常用語音命令和相關(guān)信息建立語音模板庫，如“開始”、“導(dǎo)航”、“目的地”、“上海，，等語音，找不同年齡、性別、口音的人來讀，并做相應(yīng)的處理，建立起車用操控語音模板數(shù)據(jù)庫。第三步是模板分類，根據(jù)應(yīng)用特征分為控制命令類、地址信息類，信息范圍按大小類分類，以縮小匹配判定范圍，提高匹配效率和準(zhǔn)確率?？刂泼铑惥唧w有如導(dǎo)航命令類、語音控制類；地址信息大小類具體有如省級(jí)地名、市級(jí)地名或更小地名等。第四步是判定，利用匹配算法進(jìn)行語音特征與語音模板庫模型匹配，將判定的結(jié)果與口型識(shí)別比對(duì)，進(jìn)一步確認(rèn)語音識(shí)別結(jié)果的準(zhǔn)確性。本實(shí)用新型的口型識(shí)別采用唇形和唇色相結(jié)合的判斷方法，準(zhǔn)確定位口唇位置。具體為采用一種基于色度濾波的唇動(dòng)特征提取與識(shí)別方法，通過唇的色度濾波，得到增強(qiáng)的唇動(dòng)圖像，再利用可變模板描述口型輪廓并提取特征參數(shù)，并用隱馬爾科夫(HMM)模型進(jìn)行唇運(yùn)動(dòng)序列圖像識(shí)別。該方法不受口型縮放、變形、旋轉(zhuǎn)的影響，對(duì)不同唇型有很好的魯棒性，對(duì)光照沒有特別的要求，且非針對(duì)特定人，適用于自然條件下的口型描述，能滿足可變模板對(duì)目標(biāo)邊緣有較高分辨率的要求。從而實(shí)現(xiàn)了口唇位置準(zhǔn)確定位，并采用適當(dāng)?shù)拇叫纹ヅ渌惴ㄟM(jìn)行識(shí)別。將識(shí)別結(jié)果與語音識(shí)別結(jié)果進(jìn)行比對(duì)，形成統(tǒng)一的識(shí)別結(jié)果，最后將識(shí)別的準(zhǔn)確信息與車載設(shè)備操控指令對(duì)應(yīng)起來完成語音識(shí)別操控功能，對(duì)語音識(shí)別起輔助作用，提高語音識(shí)別率。綜上所述，本實(shí)用新型采用上述技術(shù)解決方案所能達(dá)到的有益效果是將語音識(shí)別與口型識(shí)別通過特征提取、模板訓(xùn)練、模板分類、判決過程有機(jī)的結(jié)合起來，運(yùn)用先語音識(shí)別判斷、后口型識(shí)別確認(rèn)的邏輯判斷序列、有效的降低因噪聲和外界聲音干擾產(chǎn)生識(shí)別錯(cuò)誤的幾率，實(shí)驗(yàn)證明車輛在行駛和怠速情況下(關(guān)閉車窗)的語音識(shí)別率由原來的80%左右提高到90%以上。識(shí)別率的提高意味著克服了單一語音導(dǎo)航的弱點(diǎn)，讓用戶更方便使用語音導(dǎo)航設(shè)備，行車時(shí)使用導(dǎo)航設(shè)備更安全。
以下結(jié)合附圖和具體實(shí)施方式
，對(duì)本實(shí)用新型及其有益技術(shù)效果進(jìn)行進(jìn)一步詳細(xì)說明，其中圖1為本實(shí)用新型口型信息與語音信息主要處理過程示意圖。圖2為本實(shí)用新型口型輔助語音識(shí)別系統(tǒng)圖。附圖標(biāo)記說明21、駕駛員面部22、攝像頭23、麥克風(fēng)24、圖像/語音識(shí)別處理模塊25、車載導(dǎo)航影音系統(tǒng)
具體實(shí)施方式
本實(shí)用新型的口型輔助語音識(shí)別系統(tǒng)結(jié)構(gòu)如圖2所示，車載導(dǎo)航影音系統(tǒng)25及其上連接的圖像/語音識(shí)別處理模塊對(duì)，連接于圖像/語音識(shí)別處理模塊M輸入端的麥克風(fēng)23、攝像頭22 ；駕駛員面部21對(duì)著麥克風(fēng)23和攝像頭22發(fā)音時(shí)，麥克風(fēng)23和攝像頭22分別對(duì)聲音信號(hào)和口型圖像信號(hào)進(jìn)行采集并輸入到圖像/語音識(shí)別處理模塊M進(jìn)行相應(yīng)處理(如去噪、預(yù)處理、特征提取、判斷和識(shí)別等過程)，并把識(shí)別后的結(jié)果轉(zhuǎn)換成相應(yīng)的控制指令，輸入到車載導(dǎo)航影音系統(tǒng)25，實(shí)現(xiàn)語音控制操作。優(yōu)選地，麥克風(fēng)23采用具有定向音頻傳輸功能的高保真/高靈敏度的駐極體電容式拾音器，并安裝在駕駛員位正前方儀表盤上部位，且拾音器口要正對(duì)駕駛員面部21，確保采集到最佳的語音信號(hào)，盡可能的降低車內(nèi)外環(huán)境噪聲的影響。優(yōu)選地，攝像頭22采用帶夜視功能的、視頻分辨率為640 X 480、25幀、32bit真彩CCD視頻圖像傳感器，并安裝在駕駛員正前方擋風(fēng)玻璃的上邊沿端，鏡頭正對(duì)駕駛員面部21，確保在光線較暗時(shí)也能獲得清晰的口唇圖像信息，系統(tǒng)對(duì)更準(zhǔn)確對(duì)圖像分析處理；優(yōu)選地，圖像/語音識(shí)別處理模塊M所用處理器采用高性能DSP處理器，確保系統(tǒng)具有較好的實(shí)時(shí)性。在軟件處理上，控制命令采用如“開啟導(dǎo)航”，“定位目標(biāo)”，“規(guī)劃路線”，“打電話”，“接聽”等固定命令格式，從而大大降低了模板匹配的數(shù)據(jù)運(yùn)算量，同時(shí)也提高了識(shí)別效率。地圖地址和語音信息采用關(guān)鍵字詞模糊匹配識(shí)別方法，從而加大了識(shí)別范圍，同時(shí)也提高信息識(shí)別率。采用上述方法對(duì)語音命令操控的正確性提供了有力的保障。上述模板匹配過程是，通過錄音和攝像進(jìn)行模板訓(xùn)練，建立語音和口型識(shí)別的模板庫，在錄音的同時(shí)將口型視頻圖像做一一對(duì)應(yīng)判斷存儲(chǔ)。優(yōu)選地，模板庫的建立過程為選16-70周歲年齡段的男女各20人，分別進(jìn)行車載導(dǎo)航語音命令、地圖信息語音、語音播放語音命令和語音節(jié)目名稱語音、設(shè)備控制命令語音及其相應(yīng)口型圖像錄制，經(jīng)過語音/ 口型比對(duì)和特征化處理后建立起基本的模板庫，語音識(shí)別模板庫建立后，將其分類存儲(chǔ)在相應(yīng)的模板類庫中備用。在口型輔助語音識(shí)別過程中，通過麥克風(fēng)23和攝像頭22采集特征數(shù)據(jù)，在語音處理中，在圖像/語音識(shí)別處理模塊M中先將采集的原始聲音進(jìn)行去噪處理，然后進(jìn)行特征數(shù)據(jù)提取，與此相對(duì)應(yīng)的口型特征數(shù)據(jù)提取后，與預(yù)置的模板庫數(shù)據(jù)進(jìn)行一系列匹配判斷識(shí)別，語音識(shí)別后的判斷特征結(jié)果再與相應(yīng)的口型識(shí)別特征結(jié)果進(jìn)行比對(duì)，優(yōu)選地，兩者的識(shí)別結(jié)果相似性達(dá)到70%以上時(shí)即可確定語音內(nèi)容，再將該語音內(nèi)容轉(zhuǎn)換成控制指令送入車載導(dǎo)航影音系統(tǒng)進(jìn)行處理。把口型輔助語音識(shí)別技術(shù)應(yīng)用在車載導(dǎo)航影音系統(tǒng)中，因語音識(shí)別率提高，在車輛行駛時(shí)，車載語音導(dǎo)航設(shè)備在噪音的環(huán)境下也能實(shí)時(shí)識(shí)別、響應(yīng)駕駛員語音操控并進(jìn)行導(dǎo)航，盡可能避免駕駛員操作導(dǎo)航設(shè)備時(shí)發(fā)生安全事故。根據(jù)上述說明書及具體實(shí)施例的揭示和教導(dǎo)，本實(shí)用新型所屬領(lǐng)域的技術(shù)人員還可以對(duì)上述實(shí)施方式進(jìn)行變更和修改。因此，本實(shí)用新型并不局限于上面揭示和描述的具體實(shí)施方式
，對(duì)本實(shí)用新型的一些修改和變更也應(yīng)當(dāng)落入本實(shí)用新型的權(quán)利要求的保護(hù)范圍內(nèi)。此外，盡管本說明書中使用了一些特定的術(shù)語和概念，但這些術(shù)語和概念只是為了方便說明，并不對(duì)本實(shí)用新型構(gòu)成任何限制。
權(quán)利要求1.一種口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)，其特征是包含車載導(dǎo)航影音系統(tǒng)(25)及其上連接的圖像/語音識(shí)別處理模塊(24)，連接于圖像/語音識(shí)別處理模塊(24)輸入端的麥克風(fēng)(23)、攝像頭(22);麥克風(fēng)(23)和攝像頭(22)分別對(duì)聲音信號(hào)和口型圖像信號(hào)進(jìn)行采集，并輸入到圖像/語音識(shí)別處理模塊(24)進(jìn)行其它相應(yīng)處理、識(shí)別，并把識(shí)別后的結(jié)果轉(zhuǎn)換成相應(yīng)的控制指令，輸入到車載導(dǎo)航影音系統(tǒng)(25)實(shí)現(xiàn)語音控制操作。
2.根據(jù)權(quán)利要求1所述的口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)，其特征是所述麥克風(fēng)(23)為具有定向音頻傳輸功能的高保真/高靈敏度的駐極體電容式拾音器。
3.根據(jù)權(quán)利要求1所述的口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)，其特征是所述攝像頭(22)為帶夜視功能的、視頻分辨率為640X480、25幀、32bit真彩C⑶視頻圖像傳感器。
4.根據(jù)權(quán)利要求1或2所述的口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)，其特征是所述麥克風(fēng)(23)安裝位置是安裝在駕駛員位正前方儀表盤上部位，且拾音器口要正對(duì)駕駛員面部(21)。
5.根據(jù)權(quán)利要求1或3所述的口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)，其特征是所述攝像頭(22)安裝位置是安裝在駕駛員位正前方擋風(fēng)玻璃的上邊沿端，鏡頭正對(duì)駕駛員面部(21)。
6.根據(jù)權(quán)利要求1所述的口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)，其特征是圖像/語音識(shí)別處理模塊(24)所用處理器為高性能DSP處理器。
專利摘要本實(shí)用新型涉及一種口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)。方案是把攝像頭和麥克風(fēng)設(shè)置在合適位置，對(duì)用戶口型圖像和聲音進(jìn)行采集，通過圖像/語音識(shí)別處理模塊進(jìn)行先語音識(shí)別判斷、后口型識(shí)別確認(rèn)的邏輯判斷序列，形成統(tǒng)一的判別結(jié)果，將識(shí)別的準(zhǔn)確信息和車載導(dǎo)航影音系統(tǒng)操控指令相對(duì)應(yīng)，完成語音識(shí)別操控功能，有效地降低語音識(shí)別因噪聲干擾產(chǎn)生識(shí)別錯(cuò)誤的幾率，使車輛在行駛和怠速情況下(關(guān)閉車窗)的語音識(shí)別率由原來的80%左右提高到90%以上，提高了語音識(shí)別技術(shù)在車載導(dǎo)航領(lǐng)域應(yīng)用的識(shí)別率，使語音導(dǎo)航更具實(shí)用價(jià)值，駕駛員使用導(dǎo)航設(shè)備更方便，提高安全駕車系數(shù)。
文檔編號(hào)G01C21/36GK202329640SQ20112030381
公開日2012年7月11日申請(qǐng)日期2011年8月19日優(yōu)先權(quán)日2011年8月19日
發(fā)明者伍棟楊, 王冰申請(qǐng)人:廣東好幫手電子科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：伍棟楊;王冰
技術(shù)所有人：廣東好幫手電子科技股份有限公司
我是此專利的發(fā)明人

上一篇：變角度活塞式水質(zhì)采樣器的制作方法
上一篇：一種角接觸球軸承外圈鎖量的測(cè)量裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、邢老師：1.機(jī)械設(shè)計(jì)及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測(cè)技術(shù)。
2、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音識(shí)別技術(shù)相關(guān)技術(shù)

語音識(shí)別技術(shù)的應(yīng)用相關(guān)技術(shù)

語音識(shí)別技術(shù)現(xiàn)狀相關(guān)技術(shù)

語音識(shí)別技術(shù)發(fā)展相關(guān)技術(shù)

百度語音識(shí)別技術(shù)相關(guān)技術(shù)

語音識(shí)別技術(shù)的意義相關(guān)技術(shù)

語音識(shí)別技術(shù)的發(fā)展相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

口型輔助語音識(shí)別術(shù)在車載導(dǎo)航中應(yīng)用的系統(tǒng)的制作方法