專利名稱:聲音識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于識(shí)別聲音的系統(tǒng)、方法和計(jì)算機(jī)程序代碼,并涉及這種技術(shù)的應(yīng)用。
背景技術(shù):
已經(jīng)具有了基本聲音識(shí)別系統(tǒng),但還存在對改善技術(shù)的需要??稍谝韵挛墨I(xiàn)中找到背景現(xiàn)有技術(shù):US2006/227237 ;W099/56214 ;W02008/016360 ;US5, 276,629 ;Goldmann, R(2006), "Extracting High level semantics by means ofspeech audio and image primitives in surveillance,,;Gonzalez,L(2006) ,‘‘Enhancingvideo surveillance with audio events" Mitchell, C. J(2007), "Aligning MusicGenre Taxonomies'Mf
文,Anglia Ruskin 大學(xué)。為了進(jìn)一步僅僅用于理解本發(fā)明,參考以下公開-Ipsotek有限公司在2008年11月20公開的國際專利申請PCT/GB2008/001679,數(shù)據(jù)處理裝置;-Valentino Franco 等在 2006 年 7 月 20 日公開的 W02006/075352A,監(jiān)視方法以及使用所述方法的監(jiān)視設(shè)備;-IBM 的美國專利申請 US2006/22737A ;-IBM 的國際專利申請 W02008/016360A ;-摩托羅拉有限公司的美國專利申請US2003/088411A1;以及-Arakawi Kaoru 的美國專利申請 US2002/135485。發(fā)明簡介根據(jù)本發(fā)明的第一方面,因此提供一種數(shù)字聲音識(shí)別系統(tǒng),該系統(tǒng)包括用于存儲(chǔ)馬爾柯夫模型的非易失性存儲(chǔ)器;儲(chǔ)存處理器控制代碼的存儲(chǔ)程序存儲(chǔ)器;聲音數(shù)據(jù)輸入單元;與所述聲音數(shù)據(jù)輸入單元、所述工作存儲(chǔ)器以及所述存儲(chǔ)程序存儲(chǔ)器耦合用于執(zhí)行所述處理器控制代碼的處理器,并且其中所述處理器控制代碼包括代碼以由所述聲音數(shù)據(jù)輸入單元輸入用于第一個(gè)欲識(shí)別聲音的第一樣本聲音數(shù)據(jù),所述第一樣本聲音數(shù)據(jù)限定第一樣本頻域數(shù)據(jù),所述第一樣本頻域數(shù)據(jù)限定所述第一樣本在多個(gè)頻率范圍中的能量; 由所述第一樣本頻域數(shù)據(jù)產(chǎn)生用于所述第一樣本聲音的至少第一馬爾柯夫模型的第一組平均值以及方差值;在所述非易失性存儲(chǔ)器中存儲(chǔ)所述第一馬爾柯夫模型;輸入限定干擾頻域數(shù)據(jù)的干擾聲音數(shù)據(jù);使用所述干擾頻域數(shù)據(jù)調(diào)整所述第一馬爾柯夫模型的所述平均值及方差值;輸入限定第三聲音頻域數(shù)據(jù)的第三聲音數(shù)據(jù);確定所述第三聲音頻域數(shù)據(jù)適合至少所述第一馬爾柯夫模型的概率;以及根據(jù)所述概率輸出聲音識(shí)別數(shù)據(jù)。由頻域數(shù)據(jù)產(chǎn)生用于馬爾柯夫模型的平均值及方差數(shù)據(jù)。在一些實(shí)施方式中,系統(tǒng)例如由模數(shù)轉(zhuǎn)換器輸入時(shí)域中的聲音數(shù)據(jù),并且隨后將其轉(zhuǎn)換為頻域。然而,附加地或備選地,系統(tǒng)可對壓縮聲音數(shù)據(jù)進(jìn)行處理,例如已經(jīng)編碼為頻域信息的MP3數(shù)據(jù)。這可包括關(guān)于下面其他方面所述的子帶掃描。在執(zhí)行時(shí)間至頻率轉(zhuǎn)換的實(shí)施方式中,可應(yīng)用一系列的時(shí)間至頻率轉(zhuǎn)換,例如快速傅立葉變換、在連續(xù)的、優(yōu)選地為重疊的時(shí)間幀或時(shí)間窗上的操作,例如具有10毫秒重疊的20毫秒窗口的快速傅里葉變換。這些執(zhí)行變成多個(gè)頻率范圍或帶的變換,例如在某 ^SIl 內(nèi)白勺角軍(quarter octavesub-band decomposition), IjfiSiIlIl
取決于欲識(shí)別的聲音,例如在大約I-IOKHz的范圍內(nèi)??蛇x地,時(shí)間-頻率變換之后,可執(zhí)行歸一化步驟以減少輸入信號(hào)振幅中的有效的改變。在實(shí)施方式中,還可在對馬爾柯夫模型產(chǎn)生所述平均值和方差值之前應(yīng)用可選的統(tǒng)計(jì)分解,特別用于簡化所述模擬特征 (modelIedfeatures).該統(tǒng)計(jì)分解可包括例如主成分分析(PCA)或獨(dú)立成分分析(ICA)。 這在應(yīng)用質(zhì)量差的麥克風(fēng)并且/或正識(shí)別復(fù)雜聲音時(shí)尤其有幫助。在實(shí)施方式中,馬爾柯夫模型包括通過多個(gè)狀態(tài)及轉(zhuǎn)換描述的不間斷隱蔽型馬爾柯夫模型,具有用于狀態(tài)之間的轉(zhuǎn)換的相關(guān)概率。這種表示能抵抗音頻采樣速度中的變化、 壓縮的使用,以及相對較差質(zhì)量的聲音數(shù)據(jù)的輸入。在系統(tǒng)的實(shí)施方式中,限定第二樣本頻域數(shù)據(jù)的第二樣本聲音數(shù)據(jù),可用于產(chǎn)生用于第二馬爾柯夫模型的第二組平均值以及方差值,并且干擾聲音數(shù)據(jù)(其可與不同于用于所述第一馬爾柯夫模型的干擾聲音數(shù)據(jù))可用于更新該第二模型。以這種方式,可對應(yīng)于欲識(shí)別聲音限定多個(gè)不同馬爾柯夫模型的每一個(gè),并且隨后可使輸入(第三)聲音數(shù)據(jù)有效地適合于所存儲(chǔ)馬爾柯夫模型的每一個(gè)以識(shí)別最緊密匹配的模型。在實(shí)施方式中,可以以協(xié)方差矩陣的方式表達(dá)并處理平均值和方差值。干擾聲音數(shù)據(jù)可例如包括欲識(shí)別聲音的通常的背景聲音;這通常將取決于欲識(shí)別聲音。例如,在一個(gè)應(yīng)用中,為了例如在醫(yī)院急診室識(shí)別一個(gè)人何時(shí)變得具有攻擊性,這種設(shè)施的通常背景噪音可用作為干擾聲音數(shù)據(jù)。備選地,在一個(gè)應(yīng)用中為了探測汽車停車場中汽車窗戶何時(shí)被打碎(此時(shí)欲識(shí)別聲音可包括打碎窗戶的聲音及/或汽車警報(bào)聲),干擾聲音數(shù)據(jù)可例如包括汽車發(fā)動(dòng)機(jī)或交通噪音。通常干擾聲音數(shù)據(jù)可包括欲識(shí)別聲音的通常背景噪音,和一個(gè)或多個(gè)具體預(yù)期的干擾聲音中的一個(gè)或兩者,具體預(yù)期的干擾聲音例如為在戶外區(qū)域的緊急鳴笛。在明確的實(shí)施中,可簡單地從來自第一或每個(gè)樣本聲音的平均值及方差值中扣除由干擾聲音樣本,更特別地由用于干擾聲音樣本的頻域數(shù)據(jù)確定的平均及方差值。在系統(tǒng)的實(shí)施方式中,通過一組頻率范圍或頻域帶限定馬爾柯夫模型的狀態(tài),所述頻率范圍或頻域帶包括由頻域數(shù)據(jù)限定的頻域范圍或帶。每個(gè)狀態(tài)可通過一個(gè)或多個(gè) (高斯)分布表示,每個(gè)分布以一個(gè)平均值和一個(gè)方差值為特征。該系統(tǒng)可包括用戶界面, 以使得用戶例如在系統(tǒng)安裝時(shí)能限定多個(gè)模型狀態(tài)和每個(gè)狀態(tài)應(yīng)用的多個(gè)高斯分布中的一個(gè)或兩者。一般地說,通過分解為頻率帶而處理輸入樣本聲音,并且可選地例如使用PCA/ICA 去相關(guān)(de-correlated),并且隨后該數(shù)據(jù)與每個(gè)馬爾柯夫模型比較以對欲識(shí)別的輸入聲音產(chǎn)生對數(shù)似然比(LLR)數(shù)據(jù)。然后(硬)置信度閾值可用于確定聲音是否已被識(shí)別;如果對兩個(gè)或多個(gè)存儲(chǔ)的馬爾柯夫模型探測到一個(gè)“適合”,該系統(tǒng)則優(yōu)選地選擇最大的概率。 如技術(shù)人員應(yīng)當(dāng)理解的,通過將欲識(shí)別聲音與由馬爾柯夫模型預(yù)料的期望頻域數(shù)據(jù)進(jìn)行有效比較而使聲音“適合”一個(gè)模型。通過基于干擾(其包括背景)噪音校正/更新模型中的平均值及方差減少假陽性。因此根據(jù)一個(gè)相關(guān)方面,本發(fā)明提供一種識(shí)別聲音的方法,該方法包括使用聲音的一個(gè)樣本配置馬爾柯夫模型;輸入用于所述欲識(shí)別聲音的背景或干擾聲音的樣本;通過使用所述背景或干擾聲音的樣本調(diào)整以與所述馬爾柯夫模型狀態(tài)相關(guān)的概率分布為特征的平均值及方差參數(shù),調(diào)整所述馬爾柯夫模型以減少假陽性識(shí)別;并且使用所述調(diào)整的馬爾柯夫模型通過將欲識(shí)別聲音與所述調(diào)整模型比較而識(shí)別所述聲音,以通過將所述欲識(shí)別聲音與由所述馬爾柯夫模型預(yù)料的預(yù)期頻域數(shù)據(jù)比較而確定所述欲識(shí)別聲音適合所述模型的概率。本發(fā)明還提供一種產(chǎn)生欲識(shí)別聲音的馬爾柯夫模型的方法,其包括使用聲音的一個(gè)樣本配置馬爾柯夫模型;輸入用于所述欲識(shí)別聲音的背景或干擾聲音的樣本;以及通過使用所述背景或干擾聲音的樣本調(diào)整以與所述馬爾柯夫模型狀態(tài)相關(guān)的概率分布為特征的平均值及方差參數(shù),調(diào)整所述馬爾柯夫模型以減少假陽性識(shí)別。在一個(gè)補(bǔ)充方面本發(fā)明提供一種用于識(shí)別聲音的系統(tǒng),該系統(tǒng)包括用于使用聲音的一個(gè)樣本配置馬爾柯夫模型的裝置;用于輸入用于所述欲識(shí)別聲音的背景或干擾聲音的樣本的工具;用于通過使用所述背景或干擾聲音的樣本調(diào)整以與所述馬爾柯夫模型狀態(tài)相關(guān)的概率分布為特征的平均值及方差參數(shù),調(diào)整所述馬爾柯夫模型以減少假陽性識(shí)別的工具;以及一種工具,用于使用所述調(diào)整的馬爾柯夫模型通過將欲識(shí)別聲音與所述調(diào)整模型比較而識(shí)別所述聲音,以通過將所述欲識(shí)別聲音與由所述馬爾柯夫模型預(yù)料的預(yù)期頻域數(shù)據(jù)比較而確定所述欲識(shí)別聲音適合所述模型的概率。本發(fā)明進(jìn)一步提供一種聲音放大或變換系統(tǒng),該系統(tǒng)包括輸入聲音的聲音輸入單元;識(shí)別所述聲音是否適合一種模型的聲音識(shí)別系統(tǒng);以及響應(yīng)于所述識(shí)別選擇性放大 (amply)或變換所述聲音的放大器。優(yōu)選地所述模型包括如上所述產(chǎn)生的馬爾柯夫模型,盡管根據(jù)本申請可能不需要對干擾噪音進(jìn)行校正。一個(gè)優(yōu)選的應(yīng)用為在嬰兒監(jiān)護(hù)儀或警報(bào)器中,其中當(dāng)識(shí)別到特定聲音,尤其相對于嬰兒啼哭而言較安靜的聲音時(shí),調(diào)整嬰兒監(jiān)護(hù)儀的音量。這種聲音可例如包括呼吸停止及/或窒息(以及因此在實(shí)施方式中,欲識(shí)別的“聲音”為期望聲音的缺失)。在這種系統(tǒng)的執(zhí)行中,在聲音輸入和放大的及/或轉(zhuǎn)換的聲音之間包括一延遲,即使只有一個(gè)較短的延遲,以使得能調(diào)整欲識(shí)別聲音以及因而調(diào)整識(shí)別聲音的音量或振幅。在另一個(gè)應(yīng)用中,特別如上所述的馬爾柯夫模型,應(yīng)用在包括至少一個(gè)攝像機(jī)的安全系統(tǒng)中,以使得能響應(yīng)于對例如破碎的玻璃、汽車警報(bào)或槍聲的特定類型聲音的識(shí)別控制或移動(dòng)該攝像機(jī)。因此在又一方面,提供于一種安全攝像機(jī)系統(tǒng),其具有至少一個(gè)可控?cái)z像機(jī)、至少一個(gè)捕獲聲音的麥克風(fēng),并包括識(shí)別所述聲音是否適合馬爾柯夫模型的聲音識(shí)別系統(tǒng),該系統(tǒng)進(jìn)一步包括攝像機(jī)控制器以響應(yīng)于一聲音識(shí)別移動(dòng)所述攝像機(jī),所述聲音具有大于適合所述馬爾柯夫模型的閾值概率的概率。在一個(gè)實(shí)施方式中,這種安全攝像機(jī)系統(tǒng),或使用至少一個(gè)攝像機(jī)的在此描述的各方面的任何其他實(shí)施方式,特定聲音的探測可產(chǎn)生例如目前CCTV系統(tǒng)的系統(tǒng)中的一些實(shí)際觸發(fā)(practical triggers)。這些可包括以下的任何一個(gè)或多個(gè)_攝像機(jī)的自動(dòng)移動(dòng)或縮放以使得聲音源對例如為CCTV安全操作者的操作者更明顯,例如汽車警報(bào)發(fā)生于攝像機(jī)視野外并且移動(dòng)該攝像機(jī)使得操作者可監(jiān)控所述狀況;
-對安全人員觸發(fā)可聽得見或可視警報(bào),包括在監(jiān)視器上文本顯示該系統(tǒng)已探測的聲音或者聲音警報(bào);-自動(dòng)重放其中探測到聲音的記錄音頻及/或視頻,例如自動(dòng)播放預(yù)定持續(xù)時(shí)間, 如10秒鐘的音頻及/或視頻,其中間包括某人具有攻擊性的記錄;-預(yù)先記錄及事后記錄聲音周圍的音頻用于由安全人員作為證據(jù)使用;-結(jié)合視頻分析警報(bào)使用使得恐慌探測(許多人奔跑以及許多尖叫相當(dāng)于恐慌); 以及-在探測到聲音的區(qū)域附近重放音頻或視頻警告。在一些優(yōu)選實(shí)施方式中,所應(yīng)用的麥克風(fēng)結(jié)合在系統(tǒng)的一個(gè)或多個(gè)攝像機(jī)內(nèi)。這種麥克風(fēng)通常質(zhì)量較差,但在實(shí)施方式中,我們應(yīng)用改善的聲音識(shí)別技術(shù)使得差質(zhì)量的輸入數(shù)據(jù)能被使用,而即使如此也能準(zhǔn)確識(shí)別一個(gè)或多個(gè)聲音。作為響應(yīng)可例如使攝像機(jī)執(zhí)行朝音頻的泛運(yùn)動(dòng)或旋轉(zhuǎn)(在后者情況中,優(yōu)選應(yīng)用兩個(gè)或多個(gè)攝像機(jī)/麥克風(fēng)以將識(shí)別噪音的源做三角測量(triangulate))。在又一個(gè)相關(guān)方面,提供一種電話網(wǎng)絡(luò),其具有多個(gè)耦合至交換機(jī)或網(wǎng)絡(luò)控制器的電話,每個(gè)所述電話具有收聽本地聲音的麥克風(fēng),所述電話網(wǎng)絡(luò)包括識(shí)別所述聲音是否適合模型的聲音識(shí)別系統(tǒng),該系統(tǒng)進(jìn)一步包括控制器以使所述電話的所述麥克風(fēng)能夠或不能夠作為所述聲音識(shí)別系統(tǒng)的輸入單元用于監(jiān)控在所述電話位置的聲音。一般地說,在實(shí)施方式中,一組連接至PBX(private branch exchange用戶交換機(jī))的電話可用作為分布式接入/干擾者探測系統(tǒng),通過控制所述電話以使它們的各自麥克風(fēng)能在建筑物空置時(shí)探測聲音。然后,特別如上所述的聲音識(shí)別系統(tǒng)可用于識(shí)別以干擾者為特征的聲音,并且本地或遠(yuǎn)程地提供報(bào)警或警報(bào)。在又一方面,提供一種用于提供室內(nèi)協(xié)助的援助裝置,該援助裝置具有捕獲聲音的麥克風(fēng),以及識(shí)別所述聲音是否適合模型的聲音識(shí)別系統(tǒng),以及耦合至所述聲音識(shí)別系統(tǒng)的控制器,用于識(shí)別指定用于援助的請求的聲音,并且響應(yīng)于所述識(shí)別發(fā)起與幫助者的通訊。如上所述的援助裝置在應(yīng)用具有通常通過電話線的通訊鏈接的中央室內(nèi)控制器類型的系統(tǒng)中具有特定應(yīng)用,以使得用戶,通常為老年人,能攜帶具有報(bào)警按鈕的移動(dòng)設(shè)備,用于通過按壓所述按鈕向朋友、鄰居、親戚或醫(yī)療工作者尋求幫助。所述移動(dòng)設(shè)備通常提供在系索上,并且可經(jīng)常地取下。特別是如上所述類型的聲音識(shí)別系統(tǒng),可結(jié)合在基本單元中以探測一個(gè)或多個(gè)觸發(fā)詞或聲音,例如鼓掌或大聲求援,并且隨后警告幫助者。以這種方式,基本單元可在如果已被移除,或者偶然忘記移動(dòng)單元時(shí)提供后備支持。本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到在上述聲音識(shí)別系統(tǒng)的實(shí)施方式中,可在用于目標(biāo)應(yīng)用之前對背景噪音/干擾產(chǎn)生并校正一個(gè)或多個(gè)馬爾柯夫模型。因而目標(biāo)應(yīng)用系統(tǒng)不需要包括建立及構(gòu)造所述系統(tǒng)的代碼。因此在又一方面,本發(fā)明提供數(shù)字聲音識(shí)別系統(tǒng),該系統(tǒng)包括用于存儲(chǔ)馬爾柯夫模型的非易失性存儲(chǔ)器;存儲(chǔ)處理器控制代碼的存儲(chǔ)程序存儲(chǔ)器;聲音數(shù)據(jù)輸入單元;耦合至所述聲音數(shù)據(jù)輸入單元、所述工作存儲(chǔ)器及所述存儲(chǔ)程序的存儲(chǔ)器用于執(zhí)行所述處理器控制代碼的處理器,并且其中所述處理器控制代碼包括代碼以輸入限定聲音頻域數(shù)據(jù)的聲音數(shù)據(jù);確定所述聲音頻域數(shù)據(jù)適合至少所述第一馬爾柯夫模型模型的概率;以及根據(jù)所述概率輸出聲音識(shí)別數(shù)據(jù)。技術(shù)人員也將認(rèn)同在一些應(yīng)用中可不需要對干擾進(jìn)行馬爾柯夫模型校正。因而本發(fā)明還進(jìn)一步提供一種數(shù)字聲音識(shí)別系統(tǒng),本系統(tǒng)包括用于存儲(chǔ)馬爾柯夫模型的非易失性存儲(chǔ)器;儲(chǔ)存處理器控制代碼的存儲(chǔ)程序存儲(chǔ)器;聲音數(shù)據(jù)輸入單元; 與所述聲音數(shù)據(jù)輸入單元、所述工作存儲(chǔ)器以及所述存儲(chǔ)程序存儲(chǔ)器耦合用于執(zhí)行所述處理器控制代碼的處理器,并且其中所述處理器控制代碼包括代碼以由所述聲音數(shù)據(jù)輸入單元輸入用于第一個(gè)欲識(shí)別聲音的第一樣本聲音數(shù)據(jù),所述第一樣本聲音數(shù)據(jù)限定第一樣本頻域數(shù)據(jù),所述第一樣本頻域數(shù)據(jù)限定所述第一樣本在多個(gè)頻率范圍中的能量;由所述第一樣本頻域數(shù)據(jù)產(chǎn)生用于所述第一樣本聲音的至少第一馬爾柯夫模型的第一組平均值以及方差值;在所述非易失性存儲(chǔ)器中存儲(chǔ)所述第一馬爾柯夫模型;輸入限定第三聲音頻域數(shù)據(jù)的第三聲音數(shù)據(jù);確定所述第三聲音頻域數(shù)據(jù)適合至少所述第一馬爾柯夫模型的概率;以及根據(jù)所述概率輸出聲音識(shí)別數(shù)據(jù);其中所述聲音數(shù)據(jù)包括表示所述頻域中聲音的壓縮聲音數(shù)據(jù)。本發(fā)明還提供實(shí)施上述系統(tǒng)及方法的處理器控制代碼,尤其是例如磁盤、CD-或 DVD-ROM、諸如只讀存儲(chǔ)器(Firmware)的可編程存儲(chǔ)器的數(shù)據(jù)載體。實(shí)施本發(fā)明實(shí)施方式的代碼(及/或數(shù)據(jù))可包括例如C的常規(guī)程序設(shè)計(jì)語言的源、目標(biāo)或可執(zhí)行代碼,或匯編代碼、用于建立或控制ASIC(專用集成電路)或FPGA(可編程門陣列)的代碼,或例如 Verilog (商標(biāo))或VHDL (超高速集成電路硬件描述語言)的用于硬件描述語言的代碼。如技術(shù)人員將理解的這種代碼及/或數(shù)據(jù)可分步在多個(gè)耦合的彼此通訊的元件之間。本發(fā)明進(jìn)一步提供一種存儲(chǔ)一個(gè)或多個(gè)馬爾柯夫模型的數(shù)據(jù)載體,所述馬爾柯夫模型具有產(chǎn)生并更新以補(bǔ)償如上所述的背景/干擾的均值和方差。我們描述的系統(tǒng)、方法及代碼的各發(fā)面及實(shí)施方式可用于非可聽得見的聲音信號(hào),尤其是次聲和超聲,并且在本說明書中提及的聲音并不限于可聽得見聲音。根據(jù)本發(fā)明的又一方面,提供一種數(shù)字聲音識(shí)別系統(tǒng),其包括用于存儲(chǔ)聲音模型 (例如馬爾柯夫模型)的非易失性存儲(chǔ)器(在本說明書中關(guān)于各發(fā)面及實(shí)施方式備選地稱之為工作存儲(chǔ)器);儲(chǔ)存處理器控制代碼的存儲(chǔ)程序存儲(chǔ)器;聲音數(shù)據(jù)輸入單元;與所述聲音數(shù)據(jù)輸入單元、所述非易失性存儲(chǔ)器及所述存儲(chǔ)程序存儲(chǔ)器耦合用于執(zhí)行所述處理器控制代碼的處理器,并且其中所述處理器控制代碼包括代碼以輸入壓縮的音頻數(shù)據(jù)流,所述壓縮的音頻數(shù)據(jù)流包括一系列的壓縮音頻數(shù)據(jù)塊,所述塊包括一組用于音頻幀的系數(shù),所述系數(shù)限定所述音頻幀的多個(gè)頻帶中的音頻能量;處理所述系數(shù)以識(shí)別所述系數(shù)中的一個(gè)或多個(gè)模式從而識(shí)別聲音;以及響應(yīng)于所述模式識(shí)別處理輸出聲音識(shí)別數(shù)據(jù)。當(dāng)試圖以穩(wěn)健且可擴(kuò)展的方式(in a robust and scalable manner)從壓縮音頻格式中探測聲音時(shí),存在一些實(shí)際問題。在任何實(shí)施方式中,其中所述聲音流可被解壓縮為 PCM(脈碼調(diào)制)格式并且隨后傳遞至分類系統(tǒng),音頻分析系統(tǒng)的第一級(jí)可對引入的未壓縮 PCM音頻數(shù)據(jù)執(zhí)行頻率分析。然而,最近的音頻壓縮的格式可包括該音頻詳細(xì)的頻率描述, 例如該音頻在何處存儲(chǔ)為有損壓縮系統(tǒng)的一部分。通過直接使用壓縮格式的該頻率信息, 即在上述又一方面的實(shí)施方式中的子帶掃描,可通過不進(jìn)行解壓縮以及隨后對該音頻進(jìn)行頻率分析獲得可觀的計(jì)算節(jié)省。這可意味著可使用明顯降低的計(jì)算要求而探測聲音。進(jìn)一步有利地,其可使得聲音探測系統(tǒng)的應(yīng)用更好的可擴(kuò)展性并且使得其能操作其他技術(shù)不能操作的具有有限計(jì)算能力的設(shè)備??蛇M(jìn)一步提供數(shù)字聲音識(shí)別系統(tǒng),其中所述系數(shù)包括離散余弦變換(DCT)或改進(jìn)的DCT系數(shù)??蛇M(jìn)一步提供數(shù)字聲音識(shí)別系統(tǒng),其中所述壓縮音頻數(shù)據(jù)流為MPEG標(biāo)準(zhǔn)數(shù)據(jù)流, 尤其是MPEG4標(biāo)準(zhǔn)數(shù)據(jù)流??蛇M(jìn)一步提供數(shù)字聲音識(shí)別系統(tǒng),其中所述模式識(shí)別處理包括使用適合所述預(yù)處理聲音的馬爾柯夫模型的處理。在本發(fā)明該方面的實(shí)施方式中,壓縮音頻數(shù)據(jù)流的處理有利于快速聲音識(shí)別及 (平行)處理多個(gè)數(shù)據(jù)流的可擴(kuò)展性。在一些優(yōu)選實(shí)施方式中,所述壓縮音頻數(shù)據(jù)流為MPEG 標(biāo)準(zhǔn)數(shù)據(jù)流,例如MPEGl層3音頻流或MPEG2AAC (高級(jí)音頻編碼)層數(shù)據(jù)流。在優(yōu)選實(shí)施方式中,數(shù)據(jù)流為MPEG4封裝。因而,如技術(shù)人員將理解的,數(shù)據(jù)流可包括視頻及音頻數(shù)據(jù)的交錯(cuò)塊、如上所述處理所述音頻數(shù)據(jù)塊。在實(shí)施方式中,音頻數(shù)據(jù)塊提供用于音頻幀的數(shù)據(jù),例如20毫秒的幀,并且包括數(shù)據(jù)匯總(data summary)部分,其對一較寬組頻帶的每一個(gè)限定能量,緊跟著一組DCT (離散余弦變換)系數(shù),尤其是MDCT (改善的DCT)系數(shù)。在一些優(yōu)選實(shí)施方式中,對(M)DCT系數(shù)執(zhí)行模式識(shí)別處理。然而,技術(shù)人員將理解,備選格式的壓縮音頻數(shù)據(jù)可用于例如基于小波的壓縮(使用小波作為基函數(shù))。在該技術(shù)的優(yōu)選實(shí)施方式中,所應(yīng)用的壓縮為有損的而不是無損的。如前面所述,模式識(shí)別處理的優(yōu)選實(shí)施方式應(yīng)用適合預(yù)處理聲音的馬爾柯夫模型。
附圖簡介現(xiàn)在將僅通過范例的方式、參考附圖進(jìn)一步描述本發(fā)明的這些及其他方面,其中
圖1示出建立以產(chǎn)生馬爾柯夫模型的系統(tǒng)。圖2示出如何由壓縮數(shù)據(jù)的一個(gè)范例產(chǎn)生馬爾柯夫模型。圖3示出建立為使用產(chǎn)生的馬爾柯夫模型用于聲音識(shí)別的系統(tǒng)。圖4示出如何更新用作部分聲音識(shí)別系統(tǒng)的馬爾柯夫模型。圖5示出位于CCTV系統(tǒng)中的系統(tǒng)優(yōu)選實(shí)施方式的一個(gè)范例。圖6示出位于嬰兒監(jiān)護(hù)系統(tǒng)中的系統(tǒng)優(yōu)選實(shí)施方式的一個(gè)范例。圖7示出位于室內(nèi)協(xié)助系統(tǒng)中的系統(tǒng)優(yōu)選實(shí)施方式的一個(gè)范例。圖8示出位于辦公電話PBX系統(tǒng)中的系統(tǒng)優(yōu)選實(shí)施方式的一個(gè)范例。應(yīng)當(dāng)注意在附圖中每個(gè)“l(fā)/40ct頻帶”標(biāo)記可備選地為“子帶頻率集”。優(yōu)選實(shí)施方式的詳細(xì)描述圖1-8示出所述系統(tǒng)及該系統(tǒng)的各種優(yōu)選實(shí)施方式。參考圖1,其示出主要系統(tǒng)流程圖及用于產(chǎn)生馬爾柯夫模型的相關(guān)方程式。圖1分成描述系統(tǒng)的兩個(gè)主要部分的兩節(jié)。通過將許多相同類型聲音的實(shí)例傳入該系統(tǒng)而產(chǎn)生模型參數(shù)。現(xiàn)在限定了所述兩個(gè)部分,以及它們相關(guān)的數(shù)學(xué)函數(shù)。左邊部分可以和可從壓縮音頻格式的頻譜系數(shù)獲得的數(shù)據(jù)互換。其優(yōu)勢在于改善可執(zhí)行時(shí)間并改善系統(tǒng)可擴(kuò)展性?,F(xiàn)在參考圖2,其示出與聲音識(shí)別系統(tǒng)一起使用的典型音頻壓縮系統(tǒng)的系統(tǒng)圖。因此圖2示出與通用mpeg音頻壓縮流或文件一起使用的該系統(tǒng)的一個(gè)范例。使用幀分析器以獲得存儲(chǔ)在壓縮音頻的幀中的頻率系數(shù),在該范例中頻率分量由一組預(yù)過濾的PCM音頻數(shù)據(jù)存儲(chǔ)在改進(jìn)的離散余弦變換MDCT中。然后這些頻率系數(shù)可映射到限定于圖1左邊部分的分組頻帶,在該處所述主系統(tǒng)接管操作?,F(xiàn)在將描述用于未壓縮的頻譜分解的互補(bǔ),但是平行的系統(tǒng)。在圖1中為頻譜分解的各部分的定義,其中w為窗口,1為幀的數(shù)目,以及H為樣本中窗口的前進(jìn)(每跳大小
(2ηπΛ
(hop-size)),盡管具有許多窗口類型,海寧窗=在此用作為良好的
通用窗口。隨后將時(shí)間-頻率矩陣構(gòu)造為Xui,并且對該時(shí)間-頻率矩陣應(yīng)用歸一化。這采用L2標(biāo)準(zhǔn)(norm),其中rl為L2標(biāo)準(zhǔn)的增益值,為單位頻譜向量,K為頻譜系數(shù)的數(shù)目并且L為幀數(shù)。為了進(jìn)一步從實(shí)踐的角度說明,用于44. 1千赫信號(hào)的時(shí)間頻率矩陣可以是具有 512 重疊的 IOM 點(diǎn) FFT (1024 point FFT with a 512 overlap)。其大約為具有 10 毫秒重疊的20毫秒窗口。然后將由此產(chǎn)生的512頻率區(qū)分成子帶,例如范圍在62. 5至8000Hz之間的四分之一倍頻提供30個(gè)子帶,下面列出的是所述頻帶的下限0, 62. 5, 74. 32544469, 88. 38834765, 105. 1120519, 125, 148. 6508894, 176.7766953,210.2241038,250,297.3017788,353.5533906,420.4482076,500, 594. 6035575,707. 1067812,840. 8964153,1000,1189.207115,1414.213562,1681.792831, 2000,2378.41423,2828.427125,3363.585661,4000,4756.82846,5656.854249, 6727.171322,8000使用查詢表從壓縮或未壓縮的頻帶映射到新的子帶表示帶。對于給定的抽樣率及 STFT尺寸實(shí)例,對于每個(gè)支持的抽樣率/bin號(hào)對(bin number pair)所述陣列可由(Bin 尺寸+2)X6的陣列組成。行對應(yīng)于所述bin號(hào)(中心)-STFT尺寸或頻率系數(shù)的數(shù)目。第一個(gè)兩列確定下部及上部四分之一倍頻bin索引號(hào)。接著的四列確定應(yīng)當(dāng)置入相應(yīng)四分之一倍頻bin中的bin大小的比例,所述四分之一倍頻bin從在第一欄中限定的下部四分之一倍頻開始至在第二欄中限定的上部四分之一倍頻。例如,如果所述bin與兩個(gè)四分之一倍頻范圍重疊,3和4列將具有總和為1的比例值,并且5和6列將具有零。如果一個(gè)bin 與超過一個(gè)的子帶重疊,更多的列將具有成比例的大小值。該范例模擬了人類聽覺系統(tǒng)中的臨界頻帶。然后通過概述的歸一化方法處理這種簡化的時(shí)間/頻率表示。通過IOms的每跳大小遞增地移動(dòng)所述幀位置,而對所有幀重復(fù)這種處理。所述重疊窗口(每跳大小不等于窗口尺寸)改善了系統(tǒng)的時(shí)間分辨率。這作為信號(hào)頻率的適當(dāng)表示而得到采用,其用于概括聲音的感知特性。隨后歸一化階段將每個(gè)幀進(jìn)行子帶分解并且除以每個(gè)子帶中平均功率的平方根。所述平均值由所有頻帶中的總能量除以頻帶的個(gè)數(shù)而得到計(jì)算。該歸一化的時(shí)間頻率矩陣傳遞到系統(tǒng)的下一部分,在該處其含義是,可產(chǎn)生方差和轉(zhuǎn)換以全面特征化聲音頻率分布及時(shí)間趨勢。聲音特征化的下一個(gè)階段需要進(jìn)一步限定。使用不間斷隱蔽型馬爾柯夫模型獲取平均值,對該模型需要方差和轉(zhuǎn)換??赏ㄟ^λ = (Α, B, Π)而將馬爾柯夫模型完全地特征化,其中A為狀態(tài)轉(zhuǎn)換概率矩陣,B為觀察概率矩陣并且Π為狀態(tài)初始概率矩陣,在更多的正式詞匯中A =[ j其中 aiJ 三 P (qt+1 = Sj | qt = Si)
B = 附)j其中 bj (m)三 P (Ot = Vm | qt = Sj)Π= [Jii]其中 Jii 三 P(qi = Si)其中q為狀態(tài)值,0為觀察值。在圖1中系統(tǒng)需要產(chǎn)生狀態(tài)轉(zhuǎn)換概率矩陣,我們模型中的狀態(tài)實(shí)際為通過一組平均值及方差數(shù)據(jù)特征化的頻率分布,然而用于此的格式定義將在后面介紹。產(chǎn)生模型參數(shù)是使觀察序列的概率最大化的問題。Baum-Welch算法為期待的最大化過程,其已用于僅僅這樣做。它是迭代的算法,其中每個(gè)迭代由兩個(gè)部分組成, 期望£t(i,j)和最大化Yt(i)o在期望部分,£t(i,j)和Y t(i),計(jì)算給定的當(dāng)前模式值 λ,并且隨后在最大化中λ得到梯級(jí)再計(jì)算。這兩步交替直至發(fā)生收斂。已得到顯示的是在此交替過程中,Ρ(0| λ)從不下降。假設(shè)指標(biāo)變量<為
權(quán)利要求
1.一種數(shù)字聲音識(shí)別系統(tǒng),該系統(tǒng)包括 用于存儲(chǔ)馬爾柯夫模型的非易失性存儲(chǔ)器; 存儲(chǔ)處理器控制代碼的存儲(chǔ)程序存儲(chǔ)器; 聲音數(shù)據(jù)輸入單元;耦合至所述聲音數(shù)據(jù)輸入單元、所述工作存儲(chǔ)器及用于執(zhí)行所述處理器控制代碼的所述存儲(chǔ)程序的存儲(chǔ)器的處理器,并且其中所述處理器控制代碼包括代碼以 由所述聲音數(shù)據(jù)輸入單元輸入用于第一個(gè)欲識(shí)別聲音的第一樣本聲音數(shù)據(jù),所述第一樣本聲音數(shù)據(jù)限定第一樣本頻域數(shù)據(jù),所述第一樣本頻域數(shù)據(jù)限定所述第一樣本在多個(gè)頻率范圍中的能量; 由所述第一樣本頻域數(shù)據(jù)產(chǎn)生用于所述第一樣本聲音的至少第一馬爾柯夫模型的第一組平均值以及方差值; 在所述非易失性存儲(chǔ)器中存儲(chǔ)所述第一馬爾柯夫模型; 輸入限定干擾頻域數(shù)據(jù)的干擾聲音數(shù)據(jù);使用所述干擾頻域數(shù)據(jù)調(diào)整所述第一馬爾柯夫模型的所述平均值及方差值; 輸入限定第三聲音頻域數(shù)據(jù)的第三聲音數(shù)據(jù);確定所述第三聲音頻域數(shù)據(jù)適合至少所述第一馬爾柯夫模型的概率;以及根據(jù)所述概率輸出聲音識(shí)別數(shù)據(jù)。
2.如權(quán)利要求1所述的數(shù)字聲音識(shí)別系統(tǒng),其中所述處理器控制代碼包括代碼以 輸入用于多個(gè)不同欲識(shí)別聲音的多個(gè)不同樣本聲音數(shù)據(jù);產(chǎn)生相應(yīng)的多個(gè)所述馬爾柯夫模型;確定所述第三聲音頻域數(shù)據(jù)適合所述馬爾柯夫模型的每一個(gè)的概率。
3.如權(quán)利要求1或2所述的數(shù)字聲音識(shí)別系統(tǒng),其中所述處理器控制代碼包括代碼以將所述聲音數(shù)據(jù)從時(shí)域轉(zhuǎn)變?yōu)轭l域以產(chǎn)生所述頻域數(shù)據(jù)。
4.如權(quán)利要求1或2所述的數(shù)字聲音識(shí)別系統(tǒng),其中所述聲音數(shù)據(jù)包括表示位于所述頻域中的聲音的壓縮聲音數(shù)據(jù)。
5.如前述任意一條權(quán)利要求中的數(shù)字聲音識(shí)別系統(tǒng),其中所述處理器控制代碼包括代碼以由所述干擾頻域數(shù)據(jù)產(chǎn)生用于所述第一馬爾柯夫模型的第二組平均值以及方差值;以及使用所述第二組平均值以及方差值調(diào)整所述第一馬爾柯夫模型的所述平均值以及方差值。
6.如權(quán)利要求5所述的數(shù)字聲音識(shí)別系統(tǒng),其中用于調(diào)整所述第一馬爾柯夫模型的所述平局值以及方差值的所述代碼包括代碼,以從所述第一組平局值及平均值中扣除所述第二組平局值及方差值。
7.如前述任意一條權(quán)利要求中的數(shù)字聲音識(shí)別系統(tǒng),其中所述馬爾柯夫模型的狀態(tài)通過包括所述多個(gè)頻域范圍的一組頻率范圍限定,并且通過一個(gè)或多個(gè)分布表示,每個(gè)分布以一對平均值和方差值為特征。
8.如權(quán)利要求7所述的數(shù)字聲音識(shí)別系統(tǒng),其中所述分布包括高斯分布并且其中所述處理器控制代碼包括代碼以使得用戶能限定所述馬爾柯夫模型多個(gè)狀態(tài)以及每個(gè)狀態(tài)的多個(gè)高斯分布中的一個(gè)或兩者,其中所述平均值及方差值包括所述高斯分布的平均值及方差值。
9.一種用于識(shí)別聲音的方法,該方法包括 使用聲音的一個(gè)樣本配置馬爾柯夫模型;輸入用于所述欲識(shí)別聲音的背景或干擾聲音的樣本;通過使用所述背景或干擾聲音的樣本調(diào)整以與所述馬爾柯夫模型狀態(tài)相關(guān)的概率分布為特征的平均值及方差參數(shù),調(diào)整所述馬爾柯夫模型以減少假陽性識(shí)別;以及使用所述調(diào)整的馬爾柯夫模型通過將欲識(shí)別聲音與所述調(diào)整模型比較而識(shí)別所述聲音,以通過將所述欲識(shí)別聲音與由所述馬爾柯夫模型預(yù)料的預(yù)期頻域數(shù)據(jù)比較而確定所述欲識(shí)別聲音適合所述模型的概率。
10.一種用于識(shí)別聲音的系統(tǒng),該系統(tǒng)包括用于使用聲音的一個(gè)樣本配置馬爾柯夫模型的裝置; 用于輸入用于所述欲識(shí)別聲音的背景或干擾聲音的樣本的工具; 用于通過使用所述背景或干擾聲音的樣本調(diào)整以與所述馬爾柯夫模型狀態(tài)相關(guān)的概率分布為特征的平均值及方差參數(shù),調(diào)整所述馬爾柯夫模型以減少假陽性識(shí)別的工具;以及一種工具,用于使用所述調(diào)整的馬爾柯夫模型通過將欲識(shí)別聲音與所述調(diào)整模型比較而識(shí)別所述聲音,以通過各所述欲識(shí)別聲音與由所述馬爾柯夫模型預(yù)料的預(yù)期頻域數(shù)據(jù)比較而確定所述欲識(shí)別聲音適合所述模型的概率。
11.一種聲音放大或變換系統(tǒng),該系統(tǒng)包括 輸入聲音的聲音輸入單元;識(shí)別所述聲音是否適合一種模型的聲音識(shí)別系統(tǒng);以及響應(yīng)于所述識(shí)別而選擇性地放大或變換所述聲音的放大器。
12.如權(quán)利要求11所述的聲音放大或變換系統(tǒng),進(jìn)一步包括數(shù)字式延遲以匹配所述識(shí)別的處理時(shí)間。
13.如權(quán)利要求11或12所述的聲音放大或變換系統(tǒng),其中所述聲音識(shí)別系統(tǒng)為權(quán)利要求1-8及10中任一條所述的系統(tǒng)。
14.一種包括權(quán)利要求11、12或13的系統(tǒng)的嬰兒監(jiān)護(hù)儀或報(bào)警器,其中所述聲音包括由嬰兒發(fā)出的聲音。
15.一種安全攝像機(jī)系統(tǒng),具有至少一個(gè)可控?cái)z像機(jī)、至少一個(gè)捕獲聲音的麥克風(fēng),并包括識(shí)別所述聲音是否適合馬爾柯夫模型的聲音識(shí)別系統(tǒng),特別如權(quán)利要求1-8及10中任一項(xiàng)所述的系統(tǒng),該系統(tǒng)進(jìn)一步包括攝像機(jī)控制器以響應(yīng)于一聲音識(shí)別移動(dòng)所述攝像機(jī), 所述聲音具有大于適合所述馬爾柯夫模型的閾值概率的概率。
16.一種電話網(wǎng)絡(luò),其具有多個(gè)耦合至交換機(jī)或網(wǎng)絡(luò)控制器的電話,每個(gè)所述電話具有收聽本地聲音的麥克風(fēng),所述電話網(wǎng)絡(luò)包括識(shí)別所述聲音是否適合模型的聲音識(shí)別系統(tǒng), 特別是如同權(quán)利要求1-8及10中任一條所述的系統(tǒng),該系統(tǒng)進(jìn)一步包括控制器以使所述電話的所述麥克風(fēng)能夠或不能夠作為所述聲音識(shí)別系統(tǒng)的輸入單元用于監(jiān)控在所述電話位置的聲音。
17.—種包括如權(quán)利要求16所述的電話網(wǎng)絡(luò)的安全系統(tǒng),其中所述聲音包括識(shí)別干擾者的聲音。
18.一種用于提供室內(nèi)協(xié)助的援助裝置,該援助裝置具有捕獲聲音的麥克風(fēng),以及識(shí)別所述聲音是否適合一模型的聲音識(shí)別系統(tǒng),特別是如同權(quán)利要求1-8及10中任一條所述的系統(tǒng),以及耦合至所述聲音識(shí)別系統(tǒng)的控制器,用于識(shí)別指定用于援助的請求的聲音,并且響應(yīng)于所述識(shí)別而發(fā)起與幫助者的通訊。
19.一種數(shù)字聲音識(shí)別系統(tǒng),該系統(tǒng)包括 用于存儲(chǔ)馬爾柯夫模型的非易失性存儲(chǔ)器; 存儲(chǔ)處理器控制代碼的存儲(chǔ)程序存儲(chǔ)器; 聲音數(shù)據(jù)輸入單元;耦合至所述聲音數(shù)據(jù)輸入單元、所述工作存儲(chǔ)器及所述存儲(chǔ)程序的存儲(chǔ)器用于執(zhí)行所述處理器控制代碼的處理器,并且其中所述處理器控制代碼包括代碼以 輸入限定聲音頻域數(shù)據(jù)的聲音數(shù)據(jù);確定所述聲音頻域數(shù)據(jù)適合至少所述第一馬爾柯夫模型的概率;以及根據(jù)所述概率輸出聲音識(shí)別數(shù)據(jù)。
20.一種數(shù)字聲音識(shí)別系統(tǒng),該系統(tǒng)包括 用于存儲(chǔ)馬爾柯夫模型的非易失性存儲(chǔ)器; 存儲(chǔ)處理器控制代碼的存儲(chǔ)程序存儲(chǔ)器; 聲音數(shù)據(jù)輸入單元;耦合至所述聲音數(shù)據(jù)輸入單元、所述工作存儲(chǔ)器及所述存儲(chǔ)程序的存儲(chǔ)器用于執(zhí)行所述處理器控制代碼的處理器,并且其中所述處理器控制代碼包括代碼以由所述聲音數(shù)據(jù)輸入單元輸入用于第一個(gè)欲識(shí)別聲音的第一樣本聲音數(shù)據(jù),所述第一樣本聲音數(shù)據(jù)限定第一樣本頻域數(shù)據(jù),所述第一樣本頻域數(shù)據(jù)限定所述第一樣本在多個(gè)頻率范圍中的能量;由所述第一樣本頻域數(shù)據(jù)產(chǎn)生用于所述第一樣本聲音的至少第一馬爾柯夫模型的第一組平均值以及方差值;在所述非易失性存儲(chǔ)器中存儲(chǔ)所述第一馬爾柯夫模型; 輸入限定第三聲音頻域數(shù)據(jù)的第三聲音數(shù)據(jù);確定所述第三聲音頻域數(shù)據(jù)適合至少所述第一馬爾柯夫模型的概率;以及根據(jù)所述概率輸出聲音識(shí)別數(shù)據(jù);其中所述聲音數(shù)據(jù)包括表示位于所述頻域中的聲音的壓縮聲音數(shù)據(jù)。
21.一種數(shù)據(jù)載體,其攜帶著處理器控制代碼以執(zhí)行權(quán)利要求9的方法。
22.—種數(shù)據(jù)載體,其攜帶著使用權(quán)利要求9的方法構(gòu)造并調(diào)整了的馬爾柯夫模型。
23.—種產(chǎn)生欲識(shí)別聲音的馬爾柯夫模型的方法,包括 使用聲音的一個(gè)樣本配置馬爾柯夫模型;輸入用于所述欲識(shí)別聲音的背景或干擾聲音的樣本;通過使用所述背景或干擾聲音的樣本調(diào)整以與所述馬爾柯夫模型狀態(tài)相關(guān)的概率分布為特征的平均值及方差參數(shù),調(diào)整所述馬爾柯夫模型以減少假陽性識(shí)別。
24.一種數(shù)字聲音識(shí)別系統(tǒng),該系統(tǒng)包括 用于存儲(chǔ)馬爾柯夫模型的非易失性存儲(chǔ)器;存儲(chǔ)處理器控制代碼的存儲(chǔ)程序存儲(chǔ)器;聲音數(shù)據(jù)輸入單元;耦合至所述聲音數(shù)據(jù)輸入單元、所述工作存儲(chǔ)器及所述存儲(chǔ)程序的存儲(chǔ)器用于執(zhí)行所述處理器控制代碼的處理器,并且其中所述處理器控制代碼包括代碼以輸入壓縮的音頻數(shù)據(jù)流,所述壓縮的音頻數(shù)據(jù)流包括一系列的壓縮音頻數(shù)據(jù)塊,所述塊包括一組用于音頻幀的系數(shù),所述系數(shù)限定所述音頻幀的多個(gè)頻帶中的音頻能量;處理所述系數(shù)以識(shí)別所述系數(shù)中的一個(gè)或多個(gè)模式從而識(shí)別聲音;以及響應(yīng)于所述模式識(shí)別處理輸出聲音識(shí)別數(shù)據(jù)。
25.如權(quán)利要求24所述的數(shù)字聲音識(shí)別系統(tǒng),其中所述系數(shù)包括離散余弦變換(DCT) 或改進(jìn)的DCT系數(shù)。
26.如權(quán)利要求24或25所述的數(shù)字聲音識(shí)別系統(tǒng),其中所述壓縮音頻數(shù)據(jù)流為MPEG 標(biāo)準(zhǔn)數(shù)據(jù)流,尤其是MPEG4標(biāo)準(zhǔn)數(shù)據(jù)流。
27.如權(quán)利要求24、25或26所述的數(shù)字聲音識(shí)別系統(tǒng),其中所述模式識(shí)別處理包括使用適合所述預(yù)識(shí)別聲音的馬爾柯夫模型的處理。
全文摘要
我們描述了一種數(shù)字聲音識(shí)別系統(tǒng),該系統(tǒng)包括用于存儲(chǔ)馬爾柯夫模型的非易失性存儲(chǔ)器;儲(chǔ)存處理器控制代碼的存儲(chǔ)程序存儲(chǔ)器;聲音數(shù)據(jù)輸入單元;與所述聲音數(shù)據(jù)輸入單元、所述工作存儲(chǔ)器以及所述存儲(chǔ)程序存儲(chǔ)器耦合用于執(zhí)行所述處理器控制代碼的處理器,并且其中所述處理器控制代碼包括代碼以由所述聲音數(shù)據(jù)輸入單元輸入用于第一個(gè)欲識(shí)別聲音的第一樣本聲音數(shù)據(jù),所述第一樣本聲音數(shù)據(jù)限定第一樣本頻域數(shù)據(jù),所述第一樣本頻域數(shù)據(jù)限定所述第一樣本在多個(gè)頻率范圍中的能量;由所述第一樣本頻域數(shù)據(jù)產(chǎn)生用于所述第一樣本聲音的至少第一馬爾柯夫模型的第一組平均值以及方差值;在所述非易失性存儲(chǔ)器中存儲(chǔ)所述第一馬爾柯夫模型;輸入限定干擾頻域數(shù)據(jù)的干擾聲音數(shù)據(jù);使用所述干擾頻域數(shù)據(jù)調(diào)整所述第一馬爾柯夫模型的所述平均值及方差值;輸入限定第三聲音頻域數(shù)據(jù)的第三聲音數(shù)據(jù);確定所述第三聲音頻域數(shù)據(jù)適合至少所述第一馬爾柯夫模型的概率;以及根據(jù)所述概率輸出聲音識(shí)別數(shù)據(jù)。
文檔編號(hào)G10L17/00GK102246228SQ200980150365
公開日2011年11月16日 申請日期2009年11月26日 優(yōu)先權(quán)日2008年12月15日
發(fā)明者克里斯托夫·J·米切爾 申請人:音頻分析有限公司