專利名稱:語音識(shí)別方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機(jī)動(dòng)車輛語音識(shí)別的方法和系統(tǒng)。
背景技術(shù):
在構(gòu)造機(jī)動(dòng)車輛語音識(shí)別系統(tǒng)的已知示例中,基于性別、方言、或腔調(diào)將說話者或訓(xùn)練科目分組。說話者的講話經(jīng)過長(zhǎng)時(shí)間的收集,被收集成訓(xùn)練用數(shù)據(jù)集,并且使用收集到的訓(xùn)練用數(shù)據(jù)集訓(xùn)練機(jī)動(dòng)車輛的語音識(shí)別系統(tǒng)。此方法假定說話者用正常的速度和聲調(diào)講話。利用該模型的識(shí)別系統(tǒng)把由說話者發(fā)出的聲能組成的信號(hào)認(rèn)作講話,并確定信號(hào)與一個(gè)單詞或一個(gè)短語、或一組單詞或短語的匹配概率。說話者的講話是在幾乎沒有背景噪聲的環(huán)境中收集的,產(chǎn)生了開發(fā)或訓(xùn)練聲學(xué)模型的無噪數(shù)據(jù)集。
在機(jī)動(dòng)車輛的環(huán)境中,機(jī)動(dòng)車輛語音識(shí)別系統(tǒng)的用戶以不同的方式說話,這取決于車輛內(nèi)部的背景噪聲。許多用戶因車輛內(nèi)部背景噪聲強(qiáng)度增大而提高講話的響度和聲調(diào)。車輛內(nèi)部背景噪聲受以下因素影響,例如車輛行駛的道路類型,車輛行駛的速度,風(fēng)噪聲,車輛外的噪聲,HVAC設(shè)置,以及其他因素。用戶講話響度和聲調(diào)隨外部和內(nèi)部背景噪聲變化而變化,可以代表對(duì)使聲學(xué)模型與用戶相關(guān)聯(lián)和實(shí)現(xiàn)說話識(shí)別提出的挑戰(zhàn)。
發(fā)明內(nèi)容
有利地,本發(fā)明提供了一種語音識(shí)別的方法和系統(tǒng)。
有利地,根據(jù)示例,語音識(shí)別方法包括如下步驟存儲(chǔ)詞匯集的多個(gè)識(shí)別模型,每個(gè)模型響應(yīng)于Lombard特征而區(qū)別于其他的模型;檢測(cè)機(jī)動(dòng)車輛內(nèi)至少一個(gè)說話者的講話;響應(yīng)于至少一個(gè)說話者講話的Lombard特征選擇多個(gè)識(shí)別模型中的一個(gè)識(shí)別模型;利用所選的識(shí)別模型識(shí)別所述至少一個(gè)說話者的講話;以及,響應(yīng)于所述識(shí)別提供信號(hào)。
有利地,根據(jù)另一示例,語音識(shí)別系統(tǒng)包括存儲(chǔ)器,其包括詞匯集的多個(gè)識(shí)別模型,每個(gè)模型響應(yīng)于Lombard特征而區(qū)別于其他的模型;聲音檢測(cè)設(shè)備,其接收至少一個(gè)說話者的講話;處理設(shè)備,其包括被執(zhí)行的控制結(jié)構(gòu),以響應(yīng)于至少一個(gè)說話者講話的Lombard特征而選擇多個(gè)識(shí)別模型中的一個(gè)識(shí)別模型,利用所選的識(shí)別模型識(shí)別所述至少一個(gè)說話者的講話,并響應(yīng)于所述識(shí)別提供信號(hào)。
在又一示例中,語音識(shí)別系統(tǒng)包括詞匯錄制子系統(tǒng),用于從多個(gè)說話者錄制所需詞匯的講話,并將來自錄制的講話的數(shù)據(jù)存儲(chǔ)為語言資料庫(corpus),其中,背景噪聲對(duì)于每個(gè)說話者聽得到但未被包含在錄制的講話中;混合設(shè)備,用于將不同的背景音與錄制的講話組合在一起;以及數(shù)據(jù)結(jié)構(gòu),其包括所需詞匯的至少兩個(gè)模型,其中,所述模型響應(yīng)于混合設(shè)備,并且其中,每個(gè)模型響應(yīng)于至少一部分語言資料庫的Lombard特征而區(qū)別于其他的模型。
圖1說明了用于產(chǎn)生聲學(xué)模型的步驟示例;圖2提供了將非車輛專用的語音數(shù)據(jù)與車輛專用信息卷積和混合在一起的略圖示例;圖3是用于確定車輛駕駛室(cabin)脈沖響應(yīng)的系統(tǒng)的略圖示例;圖4說明了三個(gè)說話者數(shù)據(jù)簇(cluster)的示例的Lombard電平曲線;圖5說明了三個(gè)說話者數(shù)據(jù)簇的另一示例的Lombard電平曲線;圖6響應(yīng)于Lombard特征分離說話者的模型;圖7說明了使用Lombard特征進(jìn)行識(shí)別的步驟示例;以及圖8說明了與圖7所示步驟一起使用的系統(tǒng)示意圖。
具體實(shí)施例方式
參照?qǐng)D1,步驟100從102開始。應(yīng)該理解,講話通過位于開發(fā)、測(cè)試或錄制設(shè)施或車輛的一個(gè)或多個(gè)訓(xùn)練對(duì)象說出來。
在步驟104,說話者的講話被錄制,用作說話者的數(shù)據(jù)。在此示例中,說話者的數(shù)據(jù)是錄制的說話者的講話,用于使說話者與聲學(xué)模型相關(guān)聯(lián)。戴著具有懸掛式話筒的耳機(jī)的人坐在計(jì)算機(jī)顯示器的前面,響應(yīng)于通過計(jì)算機(jī)程序控制下的顯示器提示的一組引導(dǎo)講話。引導(dǎo)的講話是錄制系統(tǒng)要求說話者說出的為語音識(shí)別聲學(xué)模型所知的單詞或短語,例如數(shù)字“2”或短語“打電話”的發(fā)音。
說話者被提示說出正在在被引入說話者耳機(jī)的不同電平的噪聲下建模的詞匯。噪聲的電平模擬車輛在路上經(jīng)歷到的不同類型的駕駛室內(nèi)的噪聲。噪聲類型包括駕駛室的HVAC風(fēng)機(jī)、不同車輛速度時(shí)和不同類型道路上的路面噪音、例如在行駛中車輛窗戶打開時(shí)的風(fēng)噪聲、及其他在車輛駕駛室中可能發(fā)生的其他噪聲。因此在步驟104,每個(gè)說話者通過正在被培訓(xùn)的詞匯來提示,并被提示針對(duì)被引入說話者耳機(jī)的每個(gè)噪聲電平來重復(fù)詞匯表中的每個(gè)單詞或短語。
在步驟106,更新具有Lombard信息的語言資料庫或講話集。例如,Lombard語言資料庫可以包括一組由許多不同人錄制的48kHz的16位信號(hào);對(duì)于某些應(yīng)用,500名說話者可以構(gòu)成適宜的語言資料庫。
在步驟108,確定錄制的講話的響度級(jí)。確定響度級(jí)的一個(gè)示例是測(cè)量時(shí)域信號(hào)的RMS(均方根)電平并分配適宜的單位。確定響度級(jí)的另一示例是測(cè)量單位為宋(sone)的響度。以宋為單位來測(cè)量響度的優(yōu)點(diǎn)在于宋接近所感知的聲音的響度。例如,如果某人經(jīng)受五宋的聲級(jí),然后經(jīng)受十宋的聲級(jí),則此人通常將報(bào)告感覺出十宋的聲級(jí)比五宋的聲級(jí)響一倍。此方法在使說話者行為對(duì)于背景噪聲電平的相應(yīng)變化相關(guān)聯(lián)時(shí)是有利的。
在另一示例中,響度通過提供給定音頻信號(hào)或說話者對(duì)1/3倍頻程濾波器組說的話的功率密度頻譜來計(jì)算。通過1/3倍頻程濾波器組計(jì)算給定音頻信號(hào)的響度級(jí),在國(guó)際標(biāo)準(zhǔn)ISO 532 B中進(jìn)行了規(guī)定。對(duì)應(yīng)于響度級(jí)的宋單位響應(yīng)于所述計(jì)算進(jìn)行分配。
在步驟108計(jì)算的響度是在步驟104錄制的講話的響度。每個(gè)錄音具有標(biāo)識(shí)在步驟104的提示期間被引入說話者耳機(jī)的噪聲電平的關(guān)聯(lián)數(shù)據(jù),并且所引入的噪聲的響度是針對(duì)每個(gè)講話的Lombard電平。響度的Lombard電平單位也可以為宋。
在此示例中,Lombard電平按照離散的間隔設(shè)置,并且語言資料庫中每個(gè)講話的Lombard電平與最接近的離散設(shè)置的電平相關(guān)聯(lián)。例如,電平可以相對(duì)于具體機(jī)動(dòng)車輛的預(yù)期Lombard噪聲區(qū)被設(shè)置為低、中和高。如果需求的話,可以設(shè)置多于三個(gè)的電平。
Lombard電平曲線在步驟110產(chǎn)生。通過對(duì)笛卡爾縱坐標(biāo)或Y軸上單位為宋的不同響度級(jí)的講話針對(duì)橫坐標(biāo)或X軸上的Lombard電平進(jìn)行分類,然后在分類的講話之間內(nèi)插,產(chǎn)生Lombard曲線。
在步驟112,說話者的講話基于Lombard特征被分類成簇。在一個(gè)示例中,簇基于它們的Lombard曲線的特征。這也可以通過參照?qǐng)D4和5來更好地理解。在圖4中,不同說話者的講話集(用曲線或線圖406、408和410表示)如上所述進(jìn)行繪制,具有例如用參考標(biāo)記412表示的圖(plot)。繪制的曲線406、408和410都具有以下特征,即Lombard電平增大到L1~L2之上(L2>L1>L0),錄制的講話語音電平(例如,響度)增加。屬于此類似情形的講話類型然后被集合成一個(gè)簇。
在圖5,其他說話者的講話集(用曲線或線圖506、508和510表示)被繪制,例如用參考標(biāo)記512標(biāo)明,并且全都具有如下特征當(dāng)Lombard電平增大時(shí),錄制的講話的語音電平趨向于保持平坦。因此,這些說話者表現(xiàn)出不隨背景噪聲電平的增高而提高他們聲音的特征。
因此可以發(fā)現(xiàn),具有相似特征的說話者的Lombard曲線位于特定的數(shù)據(jù)結(jié)構(gòu)中,其特征為比照著宋的范圍劃定描述Lombard電平的參數(shù)的界限,例如Lombard電平0對(duì)應(yīng)于10~25宋的宋級(jí),Lombard電平1對(duì)應(yīng)于30~40宋的宋級(jí),Lombard電平3對(duì)應(yīng)于65~80宋的宋級(jí)。在這些簇之內(nèi),可以基于性別和方言進(jìn)一步定義語音信號(hào)處理技術(shù)中已知的其它子簇,包括在給定簇內(nèi)的地方方言。例如,在一組男性說話者與一組女性說話者之間一致的差值可以使Lombard電平曲線分離,但相似的簇處于一個(gè)聲學(xué)模型之內(nèi),或處于分離的聲學(xué)模型之內(nèi)。
盡管上述示例中Lombard簇基于Lombard曲線產(chǎn)生,但是還可以基于Lombard特征實(shí)現(xiàn)其他的替換物。例如,Lombard簇可以基于局部曲線;在圖4和5的示例中,L0~L1的圖可以表示一組局部曲線,而L1~L2的圖可以表示另一組局部曲線。
在又一示例中,Lombard簇可以基于本身的Lombard電平來產(chǎn)生。因此在L0、L1和L2中的每個(gè)電平,不同的講話響度的簇可以基于離散的響度級(jí)邊界來分組。
在設(shè)置Lombard簇中,系統(tǒng)設(shè)計(jì)員將為適合于特定應(yīng)用的分類確定Lombard數(shù)量和講話響度級(jí)。另外,響度級(jí)的邊界點(diǎn)將被設(shè)置為給定應(yīng)用預(yù)期響度范圍內(nèi)的離散級(jí)。
一旦設(shè)置了Lombard簇,則每個(gè)簇的數(shù)據(jù)被處理以便訓(xùn)練模型。通常,每個(gè)簇用于訓(xùn)練用于識(shí)別應(yīng)用的詞匯的模型。在步驟114作為此處理的一部分,每個(gè)簇中說話者的數(shù)據(jù)按照已知的方式被卷積。
通常,卷積必然伴有數(shù)學(xué)運(yùn)算符,該數(shù)學(xué)運(yùn)算符采用兩個(gè)函數(shù)f和g,并產(chǎn)生表示在f與g的翻轉(zhuǎn)與變換的變型之間重疊的第三個(gè)函數(shù)。卷積可以被直觀地概念化為針對(duì)一個(gè)或多個(gè)對(duì)象將信號(hào)變模糊或?qū)⒁粋€(gè)或多個(gè)聲音變模糊。例如,回聲是原聲或說話者講話表示反射原聲或說話者講話的對(duì)象的函數(shù)的卷積,其中f可以是講話,而g可以是表示反射的對(duì)象的函數(shù)。此處理的優(yōu)點(diǎn)在于卷積可以用于模擬特定車輛的駕駛室的聲學(xué)特征。在此示例中,說話者的數(shù)據(jù)在沒有外部噪聲輸入的情況下進(jìn)行卷積。例如,說話者的數(shù)據(jù)可以在車輛熄火靜止不動(dòng)時(shí)進(jìn)行卷積。
在圖2說明了示例的卷積步驟。在204將非特定錄音202和車輛駕駛室的脈沖響應(yīng)206卷積在一起。脈沖響應(yīng)是聲壓比時(shí)間的測(cè)量。而且,脈沖響應(yīng)是設(shè)備在聲能輸入已經(jīng)停止后的表現(xiàn)方式,而設(shè)備在此示例中為車輛駕駛室和話筒或話筒矩陣。脈沖中的能量被均勻地分布在寬頻帶上,使得它便于用作測(cè)量聲頻系統(tǒng)或設(shè)備的特征的測(cè)試信號(hào)。在一個(gè)示例中,車輛駕駛室的脈沖響應(yīng)206用于車輛的特殊類別或線路,例如中等大小的卡車的線路,具有類似設(shè)計(jì)的內(nèi)部,并且,車輛駕駛室的脈沖響應(yīng)206可以用本領(lǐng)域技術(shù)人員已知的方式針對(duì)每臺(tái)車輛進(jìn)行測(cè)量。
此刻還參照?qǐng)D3,用于卷積步驟204的車輛脈沖響應(yīng)的確定可以通過所示系統(tǒng)完成。頭部和軀干模擬器(HATS)304安置在車輛駕駛室302中。附著于HATS的是位于模擬人嘴位置的位置的揚(yáng)聲器306。播放通過揚(yáng)聲器306的源自白噪聲發(fā)生器320的白噪聲。
話筒308放在HATS 304說話者的聲學(xué)點(diǎn)。聲學(xué)點(diǎn)是用戶講話的錄制點(diǎn)。在一個(gè)示例中,錄制用戶講話的聲學(xué)點(diǎn)距離用戶的唇平面(lipplane)五十毫米。話筒308與聲卡310相連,并向聲卡310信道一322傳輸通過HATS 304的揚(yáng)聲器306產(chǎn)生的音頻信號(hào),用于處理。
車輛駕駛室包括連接到遠(yuǎn)程信息處理單元318的內(nèi)置話筒314。內(nèi)置話筒314在車輛工作期間使用。高阻抗分接頭316連接內(nèi)置話筒314的輸出和聲卡310。高阻抗分接頭316向聲卡310信道二324傳輸通過HATS 304的揚(yáng)聲器306產(chǎn)生的音頻信號(hào),用于處理。
聲卡310連接個(gè)人計(jì)算機(jī)(PC)312。PC 312利用聲卡310信道一322和信道二324上進(jìn)入的音頻數(shù)據(jù)來確定在信道一322和信道二324接收的音頻信號(hào)之間的相關(guān)性和/或協(xié)方差,因此產(chǎn)生車輛駕駛室302和話筒314的脈沖響應(yīng)。
再次參照?qǐng)D2,卷積步驟208的輸出是與車輛的具體類別或線路的脈沖響應(yīng)卷積在一起的每個(gè)具體的講話。
再次參照?qǐng)D1,把卷積的數(shù)據(jù)與各種車輛工作條件下的車輛特定噪聲混合。這在圖2加以說明,在圖2中,車輛特定噪聲210被引入并在212與卷積的輸出混合,而結(jié)果用參考標(biāo)記214表示。在此示例中,混合的步驟包括把車輛特定噪聲添加給卷積的信號(hào)208。車輛特定噪聲由車輛內(nèi)不同速度下的環(huán)境噪聲錄音組成,包括變化的內(nèi)外環(huán)境噪聲組合。錄制車輛噪聲的示例條件可以是(a)車輛以每小時(shí)四十五英里的速度行駛在分段的混凝土路上,同時(shí)空調(diào)系統(tǒng)定在三級(jí);(b)車輛以每小時(shí)六十英里的速度行駛在柏油路上,同時(shí)放下司機(jī)和乘客的車窗等。系統(tǒng)設(shè)計(jì)員可以輕易地設(shè)置各種條件以創(chuàng)建供此處理之用的車輛噪聲集。
輸出信號(hào)214此刻包括處理過的講話的集合,其中,處理過的講話已經(jīng)針對(duì)特定車輛環(huán)境的響應(yīng)特征進(jìn)行了卷積,并且已經(jīng)與各種車輛條件的背景噪聲組合在一起。這些數(shù)據(jù)集最初通過它們的Lombard特征進(jìn)行定義,可以被進(jìn)一步處理,以便細(xì)化Lombard的分類,例如通過對(duì)照著Lombard電平繪制信號(hào)214的響度。進(jìn)一步的分類可以產(chǎn)生用于識(shí)別但非必需的細(xì)化模型。
再次參照?qǐng)D1,在步驟118,基于Lombard簇(細(xì)化后的,并且如果需要的話,基于上述的卷積和混合被進(jìn)一步分類)分類的聲學(xué)模型用已知的方法進(jìn)行訓(xùn)練。建??梢允且呀?jīng)實(shí)現(xiàn)了的為本領(lǐng)域技術(shù)人員所知的任何可接受的建模,可以理解的是,新的建模技術(shù)變?yōu)榭捎没蛟趯肀患?xì)化。
在一個(gè)示例中,聲學(xué)模型使用表示為P(單詞|信號(hào))=P(單詞)P(信號(hào)|單詞)/P(信號(hào))的Bayes規(guī)則進(jìn)行訓(xùn)練。先給出一信號(hào),然后搜索單詞的序列,以便最大化給出該信號(hào)特定單詞的概率,或者P(單詞|信號(hào))。在已知的示例中,Markov(馬爾可夫)建模提供了數(shù)學(xué)上嚴(yán)格趨近,以開發(fā)健壯統(tǒng)計(jì)語音模型。
在基于HMM的語音識(shí)別中,極大似然估計(jì)(MLE)是訓(xùn)練模型參數(shù)最常用的方法。在MLE訓(xùn)練中,語音數(shù)據(jù)的似然函數(shù)在給定語音類別的模型上被最大化。使用Baum-Welch算法或分段的K平均數(shù)算法迭代執(zhí)行最大化。分類錯(cuò)誤(MCE)可用于最小化預(yù)期的語音分類或識(shí)別差錯(cuò)率。MCE是已知的,并且已經(jīng)成功地應(yīng)用于各種常用結(jié)構(gòu)的語音識(shí)別,包括HMM、動(dòng)態(tài)時(shí)間偏差、以及神經(jīng)網(wǎng)絡(luò)。
最終的訓(xùn)練出的聲學(xué)模型表示成簇的說話者數(shù)據(jù),而成簇的說話者數(shù)據(jù)與車輛駕駛室的聲學(xué)卷積,并且與車輛工作的噪聲條件混合在一起。根據(jù)說話者的Lombard電平和車輛駕駛室的聲學(xué)特征的訓(xùn)練有素的聲學(xué)模型,可以更好地匹配測(cè)試條件的情形,最小化由于嚴(yán)重不匹配而造成的識(shí)別的退化,并促進(jìn)性能。
此刻參照?qǐng)D6,示出了用于語音識(shí)別設(shè)備的詞匯模型602和604。圖6只示出了用于例示的兩個(gè)模型,還應(yīng)理解,如果系統(tǒng)的制訂人定義更多的分類,則使用更多的模型。兩個(gè)模型602和604每個(gè)表示用于識(shí)別應(yīng)用的整套詞匯,并且示意地說明了它們基于上面參照?qǐng)D1~5所述的Lombard簇或分類數(shù)據(jù)(606、610)和Lombard語言資料庫中不同說話者406、408、410和506、508、510的講話。因此總的來說,在語音識(shí)別設(shè)備的工作期間,選擇用來識(shí)別設(shè)備用戶說出的具體短語或講話的模型602、604將基于說話者與模型602、604的匹配來選擇。這可以通過參照?qǐng)D7來更好地理解。
此刻參照?qǐng)D7和8,所示步驟700從702開始。在此示例中,系統(tǒng)的用戶是使用自動(dòng)語音識(shí)別系統(tǒng)的移動(dòng)車輛802的乘坐者。
在步驟704,來自用戶的講話通過操作耦合于車載遠(yuǎn)程信息處理單元806的車載話筒816來檢測(cè)。
在步驟706,識(shí)別系統(tǒng)試圖匹配說話者的講話與基于分類的模型(例如,圖6中的602、604)。如果模型基于Lombard曲線,則可以在系統(tǒng)能夠匹配用戶與模型之前采用一個(gè)以上的講話??梢灶A(yù)料,模型本地存儲(chǔ)在車載單元806中,但是系統(tǒng)還可以是分布式的,在此情況下模型可以遠(yuǎn)程存儲(chǔ),或在此情況下,模型可以保留在車輛單元中,但可以從遠(yuǎn)程設(shè)施上進(jìn)行檢索,如果可以獲得比車輛本地存儲(chǔ)的一個(gè)模型更好的模型的話。
如果在步驟706未找到匹配的模型,則存儲(chǔ)錄制的講話,從而車載系統(tǒng)可以收集數(shù)據(jù)點(diǎn),并定義該用戶的Lombard曲線。如果使用此方法,則步驟710確定是否為用戶獲取了充足的點(diǎn),并且如果是這樣的話,執(zhí)行步驟712、714、716和718產(chǎn)生該用戶的Lombard曲線,將數(shù)據(jù)發(fā)送給遠(yuǎn)程站,在遠(yuǎn)程站基于最接近Lombard簇的模型被選中714,并被下載716到車輛的遠(yuǎn)程信息處理單元806。下載的模型然后在718被選擇,并被用來進(jìn)行語音識(shí)別722。
在某些網(wǎng)絡(luò)的數(shù)據(jù)傳輸速率下,選擇和下載未必能快得足以處理講話,所以選擇默認(rèn)模型用于識(shí)別待定的講話,并在步驟706未發(fā)現(xiàn)匹配的模型時(shí)選擇默認(rèn)模型。下載的模型可以用于未來的識(shí)別。
使用從步驟706、步驟718或步驟720選擇的模型,在講話上執(zhí)行語音識(shí)別,并按照已知的方式在步驟724輸出數(shù)據(jù)串。步驟726檢查是否要處理更多的講話,如果是這樣的話,移到步驟728。否則在步驟730結(jié)束識(shí)別處理,并按照已知的方式使用輸出的串作為遠(yuǎn)程信息處理單元806(或其他車載設(shè)備)的命令或輸出信號(hào)。
盡管利用車載環(huán)境中的模型分類描述了上面的示例,但是上述示例還可以用于遠(yuǎn)程的語音識(shí)別,其中,車載用戶正在對(duì)寄主在遠(yuǎn)程站的應(yīng)用說話。在此示例中,遠(yuǎn)程站執(zhí)行識(shí)別,包括存儲(chǔ)、選擇和利用在此所述的適宜模型。
如上所述,聲學(xué)模型分類不必在Lombard曲線上進(jìn)行設(shè)置,但是可以在局部曲線上或在Lombard電平上、或在Lombard分類內(nèi)的噪聲電平上進(jìn)行設(shè)置。盡管上述步驟說明使用Lombard分類,但是可以理解,這是對(duì)語音識(shí)別的其他已知分類的補(bǔ)充,并且可以聯(lián)合其他已知分類一起使用。
在圖8所示的示意系統(tǒng)中,系統(tǒng)800包括車輛802、車輛通信總線804、遠(yuǎn)程信息處理單元806、雙向射頻通信系統(tǒng)(包括但不限于一個(gè)或多個(gè)無線載波系統(tǒng)824、一個(gè)或多個(gè)通信網(wǎng)絡(luò)828、和/或一個(gè)或多個(gè)陸地網(wǎng)絡(luò)830)、以及一個(gè)或多個(gè)呼叫中心832。在一個(gè)示例中,車輛802是具有用于收發(fā)語音和數(shù)據(jù)通信的適宜硬件和軟件的機(jī)動(dòng)車輛。
在一示例中,車輛經(jīng)由車輛通信總線804,從遠(yuǎn)程信息處理單元806向車輛802內(nèi)的設(shè)備的各個(gè)單元和系統(tǒng)發(fā)送信號(hào),以便執(zhí)行各種功能,例如開車門和執(zhí)行個(gè)人舒適設(shè)置。通信總線804由接口組成,例如,控制器區(qū)域網(wǎng)(CAN)、用于高速應(yīng)用的ISO標(biāo)準(zhǔn)11989、用于低速應(yīng)用的ISO標(biāo)準(zhǔn)11519、和/或用于高速和低速應(yīng)用的機(jī)動(dòng)車輛工程師學(xué)會(huì)(SAE)標(biāo)準(zhǔn)J1850。
遠(yuǎn)程信息處理單元可以向無線載波系統(tǒng)824發(fā)送無線電傳輸和從無線載波系統(tǒng)824接收無線電傳輸。在一個(gè)示例中,無線載波系統(tǒng)824可以是用于在車輛802和通信網(wǎng)828/830之間傳輸信號(hào)的模擬或數(shù)字的蜂窩電話系統(tǒng)。而且,無線載波系統(tǒng)824可以包括蜂窩通信收發(fā)機(jī)、衛(wèi)星通信收發(fā)機(jī)、無線計(jì)算機(jī)網(wǎng)絡(luò)收發(fā)機(jī)(無線計(jì)算機(jī)網(wǎng)絡(luò)收發(fā)機(jī)的非限定性示例包括廣域網(wǎng)(WAN)收發(fā)機(jī),和/或其組合)。
遠(yuǎn)程信息處理單元806可以包括操作耦合于無線調(diào)制解調(diào)器810的處理器808、位置檢測(cè)系統(tǒng)812(例如,全球定位系統(tǒng)(GPS))、車載存儲(chǔ)器814、話筒816、一個(gè)或多個(gè)揚(yáng)聲器820、和嵌入的或車載兼容電話822。這些設(shè)備可以在遠(yuǎn)程信息處理單元806之內(nèi)或之外,并且與遠(yuǎn)程信息處理單元806操作耦合。例如,揚(yáng)聲器820可以是車輛聲頻系統(tǒng)的元件,遠(yuǎn)程信息處理單元806用已知的方式與車輛聲頻系統(tǒng)相互作用。
處理器808可以是微型控制器、控制器、微處理器、主處理器,和/或車輛通信處理器。在另一示例中,處理器808可以是專用集成電路(ASIC)??商鎿Q地,處理器808可以是和執(zhí)行通用處理器功能的中央處理器(CPU)一起工作的處理器。
在使用GPS接收機(jī)的示例中,GPS接收機(jī)響應(yīng)于從GPS衛(wèi)星星座(未示出)接收的GPS廣播信號(hào),提供車輛802的經(jīng)緯度坐標(biāo)。位置檢測(cè)系統(tǒng)812的其他示例包括全球定位系統(tǒng)接收機(jī)、無線電三角測(cè)量系統(tǒng)、船位推算定位系統(tǒng)、和/或它們的組合。車載移動(dòng)電話822可以是蜂窩型電話,例如模擬、數(shù)字、雙模、雙頻帶、多模和/或多頻帶的蜂窩電話。車載移動(dòng)電話822可以包括分離的處理器(未示出)。
處理器808可以執(zhí)行相互影響車輛802內(nèi)電子和機(jī)械系統(tǒng)的工作模式的各種計(jì)算機(jī)程序。應(yīng)該理解,處理器808控制遠(yuǎn)程信息處理單元806、無線載波系統(tǒng)824與呼叫中心832之間的通信(例如,呼叫信號(hào))。
而且,處理器808可以產(chǎn)生和接受在遠(yuǎn)程信息處理單元806與車輛通信網(wǎng)絡(luò)804之間傳輸?shù)臄?shù)字信號(hào),車輛通信網(wǎng)絡(luò)804連接車輛802中的各個(gè)電子模塊。在一個(gè)示例中,這些數(shù)字信號(hào)激活電子模塊內(nèi)的編程模式,以及為電子模塊之間數(shù)據(jù)傳輸提供的編程模式。
可以理解的是,處理器808或與處理器808相關(guān)聯(lián)的存儲(chǔ)器814中駐留的軟件,可以用于監(jiān)控、識(shí)別和/或錄制輸入的用戶講話。
通信網(wǎng)絡(luò)824可以包括來自一個(gè)或多個(gè)移動(dòng)電話交換局和/或無線網(wǎng)絡(luò)的業(yè)務(wù)。通信網(wǎng)絡(luò)828連接無線載波系統(tǒng)824與陸地網(wǎng)絡(luò)830。通信網(wǎng)絡(luò)824可以是用于連接無線載波系統(tǒng)824與車輛802和陸地網(wǎng)絡(luò)830的任何適宜的系統(tǒng)或系統(tǒng)組合。
陸地網(wǎng)絡(luò)830連接通信網(wǎng)絡(luò)828與呼叫中心832。在一個(gè)示例中,陸地網(wǎng)絡(luò)830是公共交換電話網(wǎng)(PSTN)。在另一示例中,陸地網(wǎng)絡(luò)830是互聯(lián)網(wǎng)協(xié)議(IP)網(wǎng)絡(luò)。在其他的示例中,陸地網(wǎng)絡(luò)830是有線網(wǎng)絡(luò)、光網(wǎng)絡(luò)、光纖網(wǎng)路、另一無線網(wǎng)絡(luò),和/或它們的組合。陸地網(wǎng)絡(luò)830可以連接一個(gè)或多個(gè)陸上通信線電話??梢岳斫獾氖?,通信網(wǎng)絡(luò)828和陸地網(wǎng)絡(luò)830連接無線載波系統(tǒng)與呼叫中心832。
呼叫中心832包括一個(gè)或多個(gè)語音和/或數(shù)據(jù)調(diào)制解調(diào)器834、一個(gè)或多個(gè)數(shù)據(jù)交換機(jī)838、一個(gè)或多個(gè)通信業(yè)務(wù)管理器842、包括用戶簡(jiǎn)檔記錄和/或用戶信息的一個(gè)或多個(gè)通信業(yè)務(wù)數(shù)據(jù)庫、一個(gè)或多個(gè)通信業(yè)務(wù)顧問864、以及一個(gè)或多個(gè)網(wǎng)絡(luò)系統(tǒng)840。
在一個(gè)示例中,通信業(yè)務(wù)數(shù)據(jù)庫包括要下載到車輛802遠(yuǎn)程信息處理單元120的一個(gè)或多個(gè)聲學(xué)模型(圖6的602,圖6的604),而聲學(xué)模型包括Lombard電平用戶簇(圖6的606,圖6的610)。
調(diào)制解調(diào)器834在一個(gè)示例中被直接連接至數(shù)據(jù)交換機(jī)838。在另一示例中,調(diào)制解調(diào)器834經(jīng)由網(wǎng)絡(luò)840與數(shù)據(jù)交換機(jī)838進(jìn)行通信,并連接陸地網(wǎng)絡(luò)830。調(diào)制解調(diào)器834通過無線載波系統(tǒng)824、通信網(wǎng)絡(luò)828和陸地網(wǎng)絡(luò)830,從呼叫中心832發(fā)送語音和/或數(shù)據(jù)傳輸,從車輛802中的遠(yuǎn)程信息處理單元806接收語音和/或數(shù)據(jù)傳輸。交換機(jī)838經(jīng)由一個(gè)或多個(gè)網(wǎng)絡(luò)系統(tǒng)840,從一個(gè)或多個(gè)通信業(yè)務(wù)管理器842接收數(shù)據(jù)傳輸,或向一個(gè)或多個(gè)通信業(yè)務(wù)管理器842發(fā)送數(shù)據(jù)傳輸。
呼叫中心832可以包括一個(gè)或多個(gè)業(yè)務(wù)顧問846。在一個(gè)示例中,業(yè)務(wù)顧問846可以是人。在另一示例中,業(yè)務(wù)顧問846可以是自動(dòng)機(jī)。
盡管已經(jīng)詳細(xì)描述了若干示例,但是上述說明將被認(rèn)為是示例性的而非限制性的。
權(quán)利要求
1.一種語音識(shí)別方法,包括如下步驟存儲(chǔ)詞匯集的多個(gè)識(shí)別模型,每個(gè)模型響應(yīng)于Lombard特征而區(qū)別于其他的模型;檢測(cè)機(jī)動(dòng)車輛內(nèi)的至少一個(gè)說話者的講話;響應(yīng)于至少一個(gè)說話者講話的Lombard特征,選擇多個(gè)識(shí)別模型中的一個(gè)識(shí)別模型;利用所選的識(shí)別模型來識(shí)別所述至少一個(gè)說話者的講話;以及響應(yīng)于所述識(shí)別來提供信號(hào)。
2.根據(jù)權(quán)利要求1的方法,其中,所存儲(chǔ)的多個(gè)識(shí)別模型通過如下步驟構(gòu)造,包括錄制多人的講話,其中,錄制至少一些具有每個(gè)人都聽得到的但在講話錄制中不包括的背景噪聲的講話,其中,背景噪聲隨不同的錄制而變化,以便創(chuàng)建語言資料庫;響應(yīng)于Lombard特征將錄制的講話進(jìn)行分類,以便創(chuàng)建多個(gè)分類。
3.根據(jù)權(quán)利要求2的方法,其中,所述構(gòu)造還包括將語言資料庫中的數(shù)據(jù)與車輛響應(yīng)特征進(jìn)行卷積;將噪聲添加給已卷積的數(shù)據(jù);以及基于添加的結(jié)果訓(xùn)練所述多個(gè)識(shí)別模型,其中每個(gè)識(shí)別模型對(duì)應(yīng)于多個(gè)分類中的一個(gè)分類。
4.權(quán)利要求3的方法,其中,被添加到卷積數(shù)據(jù)的噪聲表示在車輛不同工作條件下的車輛環(huán)境噪聲。
5.權(quán)利要求2的方法,其中,Lombard特征包括背景噪聲的Lombard電平。
6.權(quán)利要求1的方法,其中,Lombard特征包括表示與改變背景噪聲相關(guān)聯(lián)的說話者講話的曲線。
7.權(quán)利要求1的方法,其中,Lombard特征包括響應(yīng)于改變背景噪聲的說話者講話的局部曲線。
8.權(quán)利要求1的方法,其中,Lombard特征包括說話者在講話期間聽得到的背景噪聲電平。
9.權(quán)利要求6的方法,其中,所檢測(cè)的說話者的講話被存儲(chǔ)在存儲(chǔ)器中,還包括確定多個(gè)所檢測(cè)的說話者講話的Lombard曲線,其中,選擇步驟響應(yīng)于所確定的Lombard曲線。
10.權(quán)利要求1的方法,還包括如果無法獲得與至少一個(gè)說話者講話的Lombard特征匹配的模型,就選擇默認(rèn)的模型。
11.權(quán)利要求1的方法,還包括向遠(yuǎn)程站傳輸響應(yīng)至少一個(gè)說話者講話的數(shù)據(jù),其中,所述選擇在遠(yuǎn)程站執(zhí)行。
12.權(quán)利要求11的方法,其中,所選的識(shí)別模型被下載到車載設(shè)備。
13.權(quán)利要求11的方法,其中,所述識(shí)別在遠(yuǎn)程站執(zhí)行。
14.權(quán)利要求1的方法,其中,所述識(shí)別通過車載設(shè)備執(zhí)行。
15.一種語音識(shí)別系統(tǒng),包括存儲(chǔ)器,其包括詞匯集的多個(gè)識(shí)別模型,每個(gè)識(shí)別模型響應(yīng)于Lombard特征而區(qū)別于其他的模型;聲音檢測(cè)設(shè)備,其接收至少一個(gè)說話者的講話;處理設(shè)備,其包括被執(zhí)行的控制結(jié)構(gòu),以響應(yīng)于至少一個(gè)說話者講話的Lombard特征而選擇多個(gè)識(shí)別模型中的一個(gè)識(shí)別模型,利用所選的識(shí)別模型識(shí)別所述至少一個(gè)說話者的講話,并響應(yīng)于所述識(shí)別來提供信號(hào)。
16.權(quán)利要求15的系統(tǒng),其中,所述聲音檢測(cè)設(shè)備位于機(jī)動(dòng)車輛內(nèi)。
17.權(quán)利要求15的系統(tǒng),其中,所述處理設(shè)備被集成在機(jī)動(dòng)車輛中。
18.權(quán)利要求16的系統(tǒng),其中,所述處理設(shè)備位于遠(yuǎn)離機(jī)動(dòng)車輛的臺(tái)站。
19.一種語音識(shí)別系統(tǒng),包括詞匯錄制子系統(tǒng),用于從多個(gè)說話者錄制所需詞匯的講話,并將來自錄制的講話的數(shù)據(jù)存儲(chǔ)為語言資料庫,其中背景噪聲是每個(gè)說話者聽得到的但不被包含在錄制的講話中;混合設(shè)備,用于將不同的背景音與錄制的講話混合在一起;以及數(shù)據(jù)結(jié)構(gòu),其包括所需詞匯的至少兩個(gè)模型,其中,所述模型響應(yīng)于混合設(shè)備,并且其中,每個(gè)模型響應(yīng)于至少一部分語言資料庫的Lombard特征而區(qū)別于其他的模型。
20.權(quán)利要求19的語音識(shí)別系統(tǒng),其中,所述數(shù)據(jù)結(jié)構(gòu)的至少一個(gè)拷貝位于機(jī)動(dòng)車輛內(nèi)。
21.權(quán)利要求19的語音識(shí)別系統(tǒng),還包括卷積設(shè)備,其中,將錄制的講話與表示車輛聲波響應(yīng)的信號(hào)卷積在一起,并將其提供給混合設(shè)備。
全文摘要
一種語音識(shí)別方法,包括如下步驟存儲(chǔ)詞匯集的多個(gè)識(shí)別模型,每個(gè)模型響應(yīng)于Lombard特征而區(qū)別于其他的模型;檢測(cè)機(jī)動(dòng)車輛內(nèi)至少一個(gè)說話者的講話;響應(yīng)于至少一個(gè)說話者講話的Lombard特征選擇多個(gè)識(shí)別模型中的一個(gè)識(shí)別模型;利用所選的識(shí)別模型識(shí)別所述至少一個(gè)說話者的講話;以及,響應(yīng)于所述識(shí)別提供信號(hào)。
文檔編號(hào)G10L15/28GK1941079SQ200610139619
公開日2007年4月4日 申請(qǐng)日期2006年9月26日 優(yōu)先權(quán)日2005年9月27日
發(fā)明者R·陳加爾瓦拉延, S·M·彭諾克 申請(qǐng)人:通用汽車公司