相關(guān)申請(qǐng)的交叉引用
本申請(qǐng)要求2015年1月7日提交的第62/100758號(hào)美國(guó)臨時(shí)專(zhuān)利申請(qǐng)的權(quán)益。前面提及的申請(qǐng)的主題通過(guò)引用被結(jié)合于此,用于所有目的。
本申請(qǐng)總體涉及音頻處理,更具體地涉及用于利用數(shù)字麥克風(fēng)用于低功率關(guān)鍵詞檢測(cè)和噪聲抑制的系統(tǒng)和方法。
背景技術(shù):
關(guān)鍵詞檢測(cè)的典型方法是三階段處理。第一階段是發(fā)聲檢測(cè)。最初,極低功率“永遠(yuǎn)在線(xiàn)”實(shí)施方案連續(xù)監(jiān)測(cè)環(huán)境聲并(通常通過(guò)檢測(cè)人發(fā)聲)確定人是否開(kāi)始說(shuō)出可能關(guān)鍵詞。當(dāng)檢測(cè)到可能關(guān)鍵詞發(fā)聲時(shí),第二階段開(kāi)始。
第二階段執(zhí)行關(guān)鍵詞識(shí)別。因?yàn)樵摬僮髟谟?jì)算上比發(fā)聲檢測(cè)更密集,所以它消耗更多的功率。當(dāng)完成發(fā)出聲音的檢查(例如,關(guān)鍵詞識(shí)別)時(shí),結(jié)果可以是關(guān)鍵詞匹配(在該情況下,將進(jìn)入第三階段)或不匹配(在該情況下,第一最低功率階段的操作重新開(kāi)始)二者之一。
第三階段被用于繼使用自動(dòng)語(yǔ)音識(shí)別(asr)進(jìn)行關(guān)鍵詞識(shí)別之后分析任意語(yǔ)音。該第三階段是計(jì)算上非常密集的處理,因此可以從對(duì)包括語(yǔ)音的音頻的一部分的信噪比(snr)的改進(jìn)中大大受益。snr通常使用噪聲抑制(ns)信號(hào)處理來(lái)優(yōu)化,該處理可能要求從多個(gè)麥克風(fēng)獲得音頻輸入。
數(shù)字麥克風(fēng)(dmic)的使用是眾所周知的。dmic通常包括信號(hào)處理部。數(shù)字信號(hào)處理器(dsp)通常用于執(zhí)行用于檢測(cè)關(guān)鍵詞的計(jì)算。使某一形式的數(shù)字信號(hào)處理器(dsp)對(duì)與dmic本身的信號(hào)處理部相同的集成電路(芯片)執(zhí)行關(guān)鍵詞檢測(cè)計(jì)算可以具有系統(tǒng)功率益處。例如,在處于第一階段時(shí),dmic可以根據(jù)內(nèi)部振蕩器操作,由此節(jié)省向dmic供給外部時(shí)鐘的功率和向外部dsp裝置傳輸dmic數(shù)據(jù)輸出(通常為脈沖密度調(diào)制(pdm)信號(hào))的功率。
還已知在dmic上實(shí)施關(guān)鍵詞識(shí)別的隨后階段對(duì)于最低功率或系統(tǒng)成本可能不是最佳。關(guān)鍵詞識(shí)別的隨后階段在計(jì)算上是密集的,由此消耗大量的動(dòng)態(tài)功率和管芯面積。然而,dmic信號(hào)處理芯片通常使用與最佳可用數(shù)字處理相比具有每柵極或存儲(chǔ)位顯著更高的動(dòng)態(tài)功率和更大的面積的工藝幾何結(jié)構(gòu)來(lái)實(shí)現(xiàn)。
找到利用在dmic中實(shí)施關(guān)鍵詞識(shí)別的第一階段的潛在功率節(jié)省的最佳實(shí)施方案可能由于沖突的要求而具有挑戰(zhàn)性。為了優(yōu)化功率,dmic以“永遠(yuǎn)在線(xiàn)”的獨(dú)立方式操作,而當(dāng)尚未檢測(cè)到發(fā)聲時(shí)不向外部裝置傳輸音頻數(shù)據(jù)。當(dāng)檢測(cè)到發(fā)聲時(shí),dmic需要向外部裝置提供指示該情況的信號(hào)。與該情況的發(fā)生同時(shí)或繼其之后,dmic需要開(kāi)始向執(zhí)行隨后階段的外部裝置提供音頻數(shù)據(jù)。最佳地,需要音頻數(shù)據(jù)接口滿(mǎn)足以下要求:發(fā)送與顯著先于發(fā)聲檢測(cè)的時(shí)間對(duì)應(yīng)的音頻數(shù)據(jù),以外部提供的時(shí)鐘(采樣)速率發(fā)送實(shí)時(shí)音頻數(shù)據(jù),并且簡(jiǎn)化多麥克風(fēng)噪聲抑制處理。另外,與針對(duì)實(shí)施關(guān)鍵詞識(shí)別的第一階段的dmic的實(shí)時(shí)音頻數(shù)據(jù)關(guān)聯(lián)的時(shí)延需要與針對(duì)傳統(tǒng)dmic的延遲大致相同,接口需要與現(xiàn)有接口可兼容,接口需要在與內(nèi)部振蕩器一起操作的同時(shí)指示所使用的時(shí)鐘(采樣)速率,并且沒(méi)有音頻漏碼會(huì)發(fā)生。
具有實(shí)施關(guān)鍵詞識(shí)別的第一階段的dmic的接口很大程度上由于呈現(xiàn)顯著在發(fā)聲檢測(cè)之前緩沖的音頻數(shù)據(jù)的要求而導(dǎo)致實(shí)施可能具有挑戰(zhàn)性。該緩沖的音頻數(shù)據(jù)之前以由內(nèi)部振蕩器確定的采樣速率來(lái)獲取。因此,在將緩沖的音頻數(shù)據(jù)作為單個(gè)連續(xù)音頻流的一部分連同實(shí)時(shí)音頻數(shù)據(jù)一起提供時(shí),可能難以使得該實(shí)時(shí)音頻數(shù)據(jù)具有與傳統(tǒng)dmic中相同的時(shí)延,或者可能難以使用傳統(tǒng)多麥克風(fēng)噪聲抑制技術(shù)。
技術(shù)實(shí)現(xiàn)要素:
提供本發(fā)明內(nèi)容以按簡(jiǎn)化形式介紹下面在具體實(shí)施方式中進(jìn)一步描述的概念的選擇。該發(fā)明內(nèi)容不旨在識(shí)別所要求保護(hù)主題的關(guān)鍵特征或必要特征,也不旨在確定所要求保護(hù)主題時(shí)用作幫助。
提供了用于利用數(shù)字麥克風(fēng)用于低功率關(guān)鍵詞檢測(cè)和噪聲抑制的系統(tǒng)和方法。一種示例方法包括以下步驟:接收表示由數(shù)字麥克風(fēng)捕捉的至少一個(gè)聲音的第一聲信號(hào),第一聲信號(hào)包括以第一時(shí)鐘頻率在單個(gè)信道上傳輸?shù)木彌_數(shù)據(jù)。示例方法還包括以下步驟:接收表示由至少一個(gè)第二麥克風(fēng)捕捉的至少一個(gè)聲音的至少一個(gè)第二聲信號(hào)。至少一個(gè)第二聲信號(hào)可以包括實(shí)時(shí)數(shù)據(jù)。在一些實(shí)施方式中,至少一個(gè)第二麥克風(fēng)可以為模擬麥克風(fēng)。至少一個(gè)第二麥克風(fēng)還可以為不具有語(yǔ)音活動(dòng)檢測(cè)功能的數(shù)字麥克風(fēng)。
示例方法還包括以下步驟:向音頻處理系統(tǒng)提供第一聲信號(hào)和至少一個(gè)第二聲信號(hào)。音頻處理系統(tǒng)可以至少提供噪聲抑制。
在一些實(shí)施方式中,緩沖數(shù)據(jù)以高于第一時(shí)鐘頻率的第二時(shí)鐘頻率來(lái)發(fā)送,以消除第一聲信號(hào)與第二聲信號(hào)的延遲。
提供信號(hào)可以包括延遲第二聲信號(hào)。
本公開(kāi)的其它示例實(shí)施方式和多個(gè)方面將從連同附圖采取的以下描述變得清晰。
附圖說(shuō)明
在附圖的圖中以示例的方式且不限制地例示實(shí)施方式,在附圖中,同樣的附圖標(biāo)記指示相同的元件。
圖1是例示了根據(jù)各種示例實(shí)施方式的系統(tǒng)的框圖,該系統(tǒng)可以用于實(shí)施利用數(shù)字麥克風(fēng)用于低功率關(guān)鍵詞檢測(cè)和噪聲抑制的方法。
圖2是示例移動(dòng)裝置的框圖,在該示例移動(dòng)裝置中,可以實(shí)踐用于利用數(shù)字麥克風(fēng)用于低功率關(guān)鍵詞檢測(cè)和噪聲抑制的方法。
圖3是示出了根據(jù)各種示例實(shí)施方式的系統(tǒng)的框圖,該系統(tǒng)用于利用數(shù)字麥克風(fēng)用于低功率關(guān)鍵詞檢測(cè)和噪聲抑制。
圖4是示出了根據(jù)示例實(shí)施方式的用于利用數(shù)字麥克風(fēng)用于低功率關(guān)鍵詞檢測(cè)和噪聲抑制的方法的步驟的流程圖。
圖5是可以用于實(shí)施所公開(kāi)技術(shù)的實(shí)施方式的示例計(jì)算機(jī)系統(tǒng)。
具體實(shí)施方式
本公開(kāi)提供了用于利用數(shù)字麥克風(fēng)用于低功率關(guān)鍵詞檢測(cè)和噪聲抑制的示例系統(tǒng)和方法。本技術(shù)的各種實(shí)施方式可以用至少被構(gòu)造為捕捉音頻信號(hào)的移動(dòng)音頻裝置來(lái)實(shí)踐,并且可以允許改進(jìn)所捕捉音頻中的自動(dòng)語(yǔ)音識(shí)別。
在各種實(shí)施方式中,移動(dòng)裝置是手持裝置(諸如筆記本計(jì)算機(jī)、平板計(jì)算機(jī)、平板手機(jī)、智能電話(huà)、個(gè)人數(shù)字助理、媒體播放器、移動(dòng)電話(huà)、攝像機(jī)等)。移動(dòng)裝置可以用于平穩(wěn)和便攜式環(huán)境中。平穩(wěn)環(huán)境可以包括住宅和商業(yè)建筑物或結(jié)構(gòu)等。例如,平穩(wěn)環(huán)境還可以包括客廳、臥室、家庭影院、會(huì)議室、禮堂、經(jīng)營(yíng)場(chǎng)所等。便攜式環(huán)境可以包括移動(dòng)車(chē)輛、移動(dòng)人員、其它運(yùn)輸裝置等。
現(xiàn)在參照?qǐng)D1,示出了可以實(shí)踐本公開(kāi)的方法的示例系統(tǒng)100。系統(tǒng)100可以包括移動(dòng)裝置110。在各種實(shí)施方式中,移動(dòng)裝置110包括被構(gòu)造為從用戶(hù)150接收語(yǔ)音輸入/聲信號(hào)的麥克風(fēng)(例如,換能器)120。
語(yǔ)音輸入/聲學(xué)聲音可能被噪聲160污染。噪聲源可以包括街道噪聲、環(huán)境噪聲、來(lái)自除了預(yù)期說(shuō)話(huà)者之外的實(shí)體的語(yǔ)音等。例如,噪聲源可以包括工作空調(diào)、通風(fēng)扇、電視機(jī)、移動(dòng)電話(huà)、立體聲音頻系統(tǒng)等。特定種類(lèi)的噪聲可能由機(jī)器(例如,汽車(chē))和機(jī)器操作的環(huán)境(例如,道路、軌道、輪胎、車(chē)輪、風(fēng)扇、雨刷、發(fā)動(dòng)機(jī)、排氣管、娛樂(lè)系統(tǒng)、風(fēng)、雨、波浪以及類(lèi)似噪聲)這兩者產(chǎn)生。
在一些實(shí)施方式中,移動(dòng)裝置110可通信地連接到還被稱(chēng)為計(jì)算云130或云130的一個(gè)或更多個(gè)基于云的計(jì)算資源130?;谠频挠?jì)算資源130可以包括在遠(yuǎn)程位置處可用且通過(guò)網(wǎng)絡(luò)(例如,因特網(wǎng)或蜂窩電話(huà)網(wǎng)絡(luò))可訪(fǎng)問(wèn)的計(jì)算資源(硬件和軟件)。在各種實(shí)施方式中,基于云的計(jì)算資源130由多個(gè)用戶(hù)共享,并且可以基于需求被動(dòng)態(tài)地重新分配?;谠频挠?jì)算資源130可以包括一個(gè)或更多個(gè)服務(wù)器農(nóng)場(chǎng)/群集,該服務(wù)器農(nóng)場(chǎng)/群集包括可以與網(wǎng)絡(luò)交換機(jī)和/或路由器共定位的計(jì)算機(jī)服務(wù)器的集合。
圖2是示出了根據(jù)各種示例實(shí)施方式的移動(dòng)裝置110的組件的框圖。在所例示的實(shí)施方式中,移動(dòng)裝置110包括一個(gè)或更多個(gè)麥克風(fēng)120、處理器210、音頻處理系統(tǒng)220、存儲(chǔ)裝置230以及一個(gè)或更多個(gè)通信裝置240。在特定實(shí)施方式中,移動(dòng)裝置110還包括移動(dòng)裝置110的操作所必需的另外或其它組件。在其它實(shí)施方式中,移動(dòng)裝置110包括執(zhí)行與參照?qǐng)D2描述的功能類(lèi)似或等效的功能的更少組件。
在各種實(shí)施方式中,在麥克風(fēng)120包括多個(gè)緊密隔開(kāi)(例如,相距1-2cm)的多個(gè)全向麥克風(fēng)的情況下,波束形成技術(shù)可以用于模擬前向和后向定向麥克風(fēng)響應(yīng)。在一些實(shí)施方式中,可以使用所模擬的前向和后向定向麥克風(fēng)來(lái)獲得電平差。電平差可以用于區(qū)分例如時(shí)頻域中的語(yǔ)音和噪聲,這還可以用于噪聲和/或回聲降低。噪聲降低可以包括噪聲消除和/或噪聲抑制。在特定實(shí)施方式中,一些麥克風(fēng)120主要用于檢測(cè)語(yǔ)音,并且其它麥克風(fēng)主要用于檢測(cè)噪聲。在還有的其它實(shí)施方式中,一些麥克風(fēng)用于檢測(cè)噪聲和語(yǔ)音這兩者。
在一些實(shí)施方式中,聲信號(hào)一旦被接收(例如,由麥克風(fēng)120捕捉),則被轉(zhuǎn)換成電信號(hào),根據(jù)一些實(shí)施方式,該電信號(hào)依次由音頻處理系統(tǒng)220轉(zhuǎn)換成用于處理的數(shù)字信號(hào)。處理后的信號(hào)可以被發(fā)送給處理器210,以便進(jìn)一步處理。在一些實(shí)施方式中,一些麥克風(fēng)120是可操作為捕捉聲信號(hào)并輸出數(shù)字信號(hào)的數(shù)字麥克風(fēng)。一些數(shù)字麥克風(fēng)可以提供用于語(yǔ)音活動(dòng)檢測(cè)(這里還被稱(chēng)為發(fā)聲檢測(cè))和顯著在發(fā)聲檢測(cè)之前的音頻數(shù)據(jù)的緩沖。
音頻處理系統(tǒng)220可操作為處理音頻信號(hào)。在一些實(shí)施方式中,聲信號(hào)由麥克風(fēng)120來(lái)捕捉。在特定實(shí)施方式中,麥克風(fēng)120所檢測(cè)的聲信號(hào)由音頻處理系統(tǒng)220用于分離期望語(yǔ)音(例如,關(guān)鍵詞)與噪聲,這提供更魯棒的自動(dòng)語(yǔ)音識(shí)別(asr)。
2010年7月8日提交的標(biāo)題為“methodforjointlyoptimizingnoisereductionandvoicequalityinamonoormulti-microphonesystem,”的第12/832901號(hào)美國(guó)專(zhuān)利申請(qǐng)(現(xiàn)在為第8473287號(hào)美國(guó)專(zhuān)利)(該申請(qǐng)的公開(kāi)通過(guò)引用被結(jié)合于此以用于所有目的)中更詳細(xì)地論述了適于執(zhí)行語(yǔ)音抑制的示例音頻處理系統(tǒng)。用示例的方式且不限制,2008年6月30日提交的標(biāo)題為“systemandmethodforprovidingnoisesuppressionutilizingnullprocessingnoisesubtraction”的第12/215980號(hào)美國(guó)專(zhuān)利申請(qǐng)(現(xiàn)在為第9185487號(hào)美國(guó)專(zhuān)利)和2007年1月29日提交的標(biāo)題為“systemandmethodforutilizingomni-directionalmicrophonesforspeechenhancement,”的第11/699732號(hào)美國(guó)專(zhuān)利申請(qǐng)(現(xiàn)在為第8194880號(hào)美國(guó)專(zhuān)利)(上述申請(qǐng)通過(guò)引用全部結(jié)合于此)中描述了噪聲抑制方法。
2013年1月28日提交的標(biāo)題為“restorationofnoise-reducedspeech,”的共同轉(zhuǎn)讓的第13/751907號(hào)美國(guó)專(zhuān)利申請(qǐng)(現(xiàn)在為第8615394號(hào)美國(guó)專(zhuān)利)(該申請(qǐng)通過(guò)引用被完全結(jié)合于此)中還描述了用于恢復(fù)降噪后的語(yǔ)音的各種方法。
處理器210可以包括可操作為執(zhí)行在存儲(chǔ)裝置230中存儲(chǔ)的計(jì)算機(jī)程序的硬件和/或軟件。處理器210可以使用浮點(diǎn)運(yùn)算、復(fù)雜運(yùn)算以及用于實(shí)施本公開(kāi)的實(shí)施方式所需的其它運(yùn)算。在一些實(shí)施方式中,移動(dòng)裝置110的處理器210包括例如數(shù)字信號(hào)處理器(dsp)、圖像處理器、音頻處理器、通用處理器等中的至少一個(gè)。
示例移動(dòng)裝置110在各種實(shí)施方式中可操作為例如經(jīng)由通信裝置240跨一個(gè)或更多個(gè)有線(xiàn)或無(wú)線(xiàn)通信網(wǎng)絡(luò)通信。在一些實(shí)施方式中,移動(dòng)裝置110通過(guò)有線(xiàn)或無(wú)線(xiàn)通信網(wǎng)絡(luò)發(fā)送至少音頻信號(hào)(語(yǔ)音)。在特定實(shí)施方式中,移動(dòng)裝置110封裝和/或編碼用于通過(guò)無(wú)線(xiàn)網(wǎng)絡(luò)(例如,蜂窩網(wǎng)絡(luò))傳輸?shù)闹辽僖粋€(gè)數(shù)字信號(hào)。
數(shù)字信號(hào)可以通過(guò)互聯(lián)網(wǎng)協(xié)議組(tcp/ip)和/或用戶(hù)數(shù)據(jù)報(bào)協(xié)議(udp)來(lái)封裝。有線(xiàn)和/或無(wú)線(xiàn)通信網(wǎng)絡(luò)可以為電路交換的和/或分組交換的。在各種實(shí)施方式中,有線(xiàn)通信網(wǎng)絡(luò)提供計(jì)算機(jī)系統(tǒng)、軟件應(yīng)用程序以及用戶(hù)之間的通信和數(shù)據(jù)交換,并且包括任意數(shù)量的網(wǎng)絡(luò)適配器、中繼器、集線(xiàn)器、交換機(jī)、橋接器、路由器以及防火墻。無(wú)線(xiàn)通信網(wǎng)絡(luò)包括任意數(shù)量的無(wú)線(xiàn)接入點(diǎn)、基站、中繼器等。有線(xiàn)和/或無(wú)線(xiàn)通信網(wǎng)絡(luò)可以符合工業(yè)標(biāo)準(zhǔn),可以為私人擁有的或其組合??梢允褂酶鞣N其它合適的有線(xiàn)和/或無(wú)線(xiàn)通信網(wǎng)絡(luò)、其它協(xié)議或其組合。
圖3是示出了根據(jù)各種示例實(shí)施方式的適于利用數(shù)字麥克風(fēng)用于低功率關(guān)鍵詞檢測(cè)和噪聲抑制的系統(tǒng)300的框圖。系統(tǒng)300包括聯(lián)接到(外部或主機(jī))dsp350的麥克風(fēng)(這里還被不同地稱(chēng)為dmic)120。在一些實(shí)施方式中,數(shù)字麥克風(fēng)120包括換能器302、放大器304、模數(shù)轉(zhuǎn)換器306以及脈沖密度調(diào)制器(pdm)308。在特定實(shí)施方式中,數(shù)字麥克風(fēng)120包括緩沖器310和發(fā)聲檢測(cè)器320。在其它實(shí)施方式中,dmic120與傳統(tǒng)立體聲dmic接口對(duì)接。傳統(tǒng)立體聲dmic接口包括時(shí)鐘(clk)輸入端(或clk線(xiàn))312和數(shù)據(jù)(data)輸出端314。數(shù)據(jù)輸出端包括左信道和右信道。在一些實(shí)施方式中,dmic接口包括另一發(fā)聲檢測(cè)器(det)輸出端(或det線(xiàn))316。clk輸入312可以由dsp350來(lái)供給。dsp350可以接收data輸出314和det輸出316。在一些實(shí)施方式中,數(shù)字麥克風(fēng)120通常經(jīng)由pdm308產(chǎn)生實(shí)時(shí)數(shù)字音頻數(shù)據(jù)流。2015年7月13日提交的標(biāo)題為“microphoneapparatusandmethodwithcatch-upbuffer,”的第14797310號(hào)美國(guó)專(zhuān)利申請(qǐng)(該申請(qǐng)的公開(kāi)通過(guò)引用結(jié)合于此以用于所有目的)中更詳細(xì)地論述了提供發(fā)聲檢測(cè)的示例數(shù)字麥克風(fēng)。
示例1
在各種實(shí)施方式中,在第一階段情況下,dmic120根據(jù)內(nèi)部振蕩器進(jìn)行操作,該內(nèi)部振蕩器確定在該情況期間的內(nèi)部采樣速率。在第一階段情況下,在發(fā)聲檢測(cè)之前,clk線(xiàn)312為靜態(tài)的(通常為邏輯0)。dmic120在data輸出端314和det輸出端316這兩者上輸出靜態(tài)信號(hào)(通常為邏輯0)。內(nèi)部地,根據(jù)其內(nèi)部振蕩器操作的dmic120可操作為分析音頻數(shù)據(jù),以確定發(fā)聲是否已經(jīng)發(fā)生。內(nèi)部地,dmic120將音頻數(shù)據(jù)緩沖到再循環(huán)存儲(chǔ)器(例如,使用緩沖器310)。在特定實(shí)施方式中,再循環(huán)存儲(chǔ)器具有預(yù)定數(shù)量(通常為大約100k的pdm)的樣本。
在各種示例性實(shí)施方式中,當(dāng)dmic120檢測(cè)到發(fā)聲時(shí),dmic120開(kāi)始在det輸出端316上輸出從內(nèi)部振蕩器導(dǎo)出的pdm308采樣時(shí)鐘。dsp350可操作為檢測(cè)det線(xiàn)316上的活動(dòng)。dsp350可以使用該信號(hào)以足夠精度來(lái)確定dmic120的內(nèi)部采樣速率,以便進(jìn)一步操作。然后,dsp350可以在適于經(jīng)由傳統(tǒng)dmic120接口協(xié)議從dmic120接收實(shí)時(shí)pdm308音頻數(shù)據(jù)的clk線(xiàn)312上輸出時(shí)鐘。在一些實(shí)施方式中,時(shí)鐘處于與用于噪聲抑制的其它dmic的時(shí)鐘相同的速率。
在一些實(shí)施方式中,dmic120通過(guò)從內(nèi)部采樣速率立即切換為所設(shè)置的clk線(xiàn)312的采樣速率來(lái)對(duì)clk輸入端312的存在作出響應(yīng)。在特定實(shí)施方式中,dmic120可操作為立即開(kāi)始在data輸出端314的第一信道(例如,左信道)上供給實(shí)時(shí)pdm308數(shù)據(jù),并且在第二(例如,右)信道上供給延遲的(通常為大約100k的pdm樣本)緩沖pdm308數(shù)據(jù)。dmic110可以在接收clk時(shí)停止在det信號(hào)上提供內(nèi)部時(shí)鐘。
在一些實(shí)施方式中,在已經(jīng)傳輸整個(gè)(通常為大約100k樣本)緩沖器之后,dmic120為了節(jié)省功率而切換為在data輸出端314的第二(在示例中為右)信道上發(fā)送實(shí)時(shí)音頻數(shù)據(jù)或靜態(tài)信號(hào)(通常為邏輯0)。
在各種實(shí)施方式中,dsp350累積緩沖的數(shù)據(jù),然后在要求時(shí)使用之前測(cè)量的dmic120內(nèi)部采樣速率與主機(jī)clk采樣速率的比率以將緩沖數(shù)據(jù)匹配到實(shí)時(shí)音頻數(shù)據(jù)的方式來(lái)處理緩沖數(shù)據(jù)。例如,dsp350可以將緩沖數(shù)據(jù)轉(zhuǎn)換成與主機(jī)clk采樣速率相同的速率。本領(lǐng)域技術(shù)人員應(yīng)理解,實(shí)際采樣速率轉(zhuǎn)換可能不是最佳的。相反,另外的下游頻域處理信息可以基于所測(cè)量的比率在頻率上偏移。緩沖數(shù)據(jù)可以被預(yù)添加(prepend)到實(shí)時(shí)音頻數(shù)據(jù)以用于關(guān)鍵詞識(shí)別的目的。緩沖數(shù)據(jù)還可以根據(jù)期望被添加到用于asr的數(shù)據(jù)。
在各種實(shí)施方式中,因?yàn)椴谎舆t實(shí)時(shí)音頻數(shù)據(jù),所以實(shí)時(shí)數(shù)據(jù)具有低時(shí)延,并且可以與來(lái)自其它麥克風(fēng)的實(shí)時(shí)音頻數(shù)據(jù)組合,以便噪聲抑制或其它目的。
將clk信號(hào)返回到靜態(tài)可以用于將dmic120返回到第一階段處理狀態(tài)。
示例2
在第一階段情況下,dmic120根據(jù)內(nèi)部振蕩器操作,該內(nèi)部振蕩器確定pdm308采樣速率。在一些示例性實(shí)施方式中,在第一階段情況下,在發(fā)聲檢測(cè)之前,clk輸入端312為靜態(tài)的(通常為邏輯0)。dmic120可以在data輸出端314和det輸出端316這兩者上輸出靜態(tài)信號(hào)(通常為邏輯0)。內(nèi)部地,根據(jù)其內(nèi)部振蕩器操作的dmic120可操作為分析音頻數(shù)據(jù),以確定發(fā)聲是否發(fā)生,并且還可操作為將音頻數(shù)據(jù)內(nèi)部地緩沖到再循環(huán)存儲(chǔ)器中。再循環(huán)存儲(chǔ)器可以具有預(yù)定數(shù)量(通常為大約100k的pdm)的樣本。
在一些實(shí)施方式中,當(dāng)dmic120檢測(cè)到發(fā)聲時(shí),dmic120開(kāi)始在det輸出端316上輸出從其內(nèi)部振蕩器導(dǎo)出的pdm采樣速率時(shí)鐘。dsp350可以檢測(cè)det線(xiàn)312上的活動(dòng)。然后,dsp350可以使用det輸出以足夠精度來(lái)確定dmic120的內(nèi)部采樣速率,以便進(jìn)一步操作。然后,dsp350在clk線(xiàn)312上輸出時(shí)鐘。在特定實(shí)施方式中,時(shí)鐘處于比內(nèi)部振蕩器采樣速率更高的速率,并且適于經(jīng)由傳統(tǒng)dmic120接口協(xié)議從dmic120接收實(shí)時(shí)pdm308音頻數(shù)據(jù)。在一些實(shí)施方式中,被提供給clk線(xiàn)312的時(shí)鐘處于與用于噪聲抑制的其它dmic的時(shí)鐘相同的速率。
在一些實(shí)施方式中,dmic120通過(guò)立即開(kāi)始在data輸出端314的第一信道(例如,左信道)上供給緩沖的pdm308數(shù)據(jù)來(lái)對(duì)clk線(xiàn)312處的時(shí)鐘的存在作出響應(yīng)。因?yàn)閏lk頻率大于內(nèi)部采樣頻率,所以數(shù)據(jù)的延遲從緩沖器長(zhǎng)度逐漸降低至零。當(dāng)延遲達(dá)到零時(shí),dmic120通過(guò)將其采樣速率從內(nèi)部振蕩器的采樣速率立即切換為由clk線(xiàn)312提供的速率來(lái)作出響應(yīng)。dmic120還可以立即開(kāi)始在data輸出端314的一個(gè)信道上供給實(shí)時(shí)pdm308數(shù)據(jù)。dmic120還在此時(shí)停止在det輸出端316信號(hào)上提供內(nèi)部時(shí)鐘。
在一些實(shí)施方式中,dsp350可以累積緩沖數(shù)據(jù),并且基于感測(cè)det輸出端316信號(hào)何時(shí)停止來(lái)確定data從緩沖數(shù)據(jù)切換到實(shí)時(shí)音頻數(shù)據(jù)的點(diǎn)。dsp350然后可以使用之前測(cè)量的dmic120內(nèi)部采樣速率與clk采樣速率的比率在邏輯上轉(zhuǎn)換緩沖數(shù)據(jù)的采樣速率,以匹配實(shí)時(shí)音頻數(shù)據(jù)的采樣速率。
在該示例中,一旦完全接收緩沖器數(shù)據(jù)且到實(shí)時(shí)音頻的切換已經(jīng)發(fā)生,則實(shí)時(shí)音頻數(shù)據(jù)將具有低時(shí)延,并且可以為了噪聲抑制或其它目的而與來(lái)自其它麥克風(fēng)的實(shí)時(shí)音頻數(shù)據(jù)組合。
由示例2例示的各種實(shí)施方式與一些其它實(shí)施方式相比可能具有從發(fā)聲檢測(cè)到實(shí)時(shí)操作的更長(zhǎng)時(shí)間的缺點(diǎn),這要求比第一階段操作的速率更高的實(shí)時(shí)操作期間的速率,并且還可能要求在緩沖數(shù)據(jù)與實(shí)時(shí)音頻數(shù)據(jù)之間的過(guò)渡時(shí)間的精確檢測(cè)。
另一方面,根據(jù)示例2的各種實(shí)施方式具有僅要求使用立體聲傳統(tǒng)dmic120接口的一個(gè)信道(這使其它信道可用于由第二dmic120使用)的優(yōu)點(diǎn)。
示例3
在第一階段情況下,dmic120可以根據(jù)內(nèi)部振蕩器操作,該內(nèi)部振蕩器確定pdm308采樣速率。在第一階段情況下,在發(fā)聲檢測(cè)之前,clk輸入端312為靜態(tài)的(通常為邏輯0)。dmic120在data輸出端314和det輸出端316這兩者上輸出靜態(tài)信號(hào)(通常為邏輯0)。內(nèi)部地,根據(jù)內(nèi)部振蕩器操作的dmic120可操作為分析音頻數(shù)據(jù),而且通過(guò)將該數(shù)據(jù)內(nèi)部地緩沖到具有預(yù)訂數(shù)量(通常大約為100k的pdm)的樣本的再循環(huán)存儲(chǔ)器(例如,緩沖器310)中來(lái)確定發(fā)聲是否發(fā)生。
當(dāng)dmic120檢測(cè)到發(fā)聲時(shí),dmic120開(kāi)始在det輸出端316上輸出從其內(nèi)部振蕩器導(dǎo)出的pdm308采樣速率時(shí)鐘。dsp350可以檢測(cè)det輸出端316上的活動(dòng)。然后,dsp350可以使用det輸出端316信號(hào)以足夠精度來(lái)確定dmic120的內(nèi)部采樣速率,以便進(jìn)一步操作。然后,dsp350可以在適于經(jīng)由傳統(tǒng)dmic120接口協(xié)議從dmic120接收實(shí)時(shí)pdm308音頻數(shù)據(jù)的clk線(xiàn)312上輸出時(shí)鐘。該時(shí)鐘可以處于與用于噪聲抑制的其它dmic的時(shí)鐘相同的速率。
在一些實(shí)施方式中,dmic120通過(guò)立即開(kāi)始在data輸出端314的第一信道(例如,左信道)上供給緩沖的pdm308數(shù)據(jù)來(lái)對(duì)clk輸入端312的存在作出響應(yīng)。dmic120還在此時(shí)停止在det輸出端316上提供內(nèi)部時(shí)鐘。當(dāng)耗盡數(shù)據(jù)的緩沖器310時(shí),dmic120開(kāi)始在data輸出端314的一個(gè)信道上供給實(shí)時(shí)pdm308數(shù)據(jù)。
dsp350累積緩沖數(shù)據(jù),這基于對(duì)所接收的樣本數(shù)進(jìn)行計(jì)數(shù)來(lái)注釋data從緩沖數(shù)據(jù)切換到實(shí)時(shí)音頻數(shù)據(jù)的點(diǎn)。然后,dsp350使用之前測(cè)量的dmic120內(nèi)部采樣速率與clk采樣速率的比率在邏輯上轉(zhuǎn)換緩沖數(shù)據(jù)的采樣速率,以匹配實(shí)時(shí)音頻數(shù)據(jù)的采樣速率。
在一些實(shí)施方式中,即使在完全接收緩沖數(shù)據(jù)且到實(shí)時(shí)音頻的切換已經(jīng)發(fā)生之后,dmic120數(shù)據(jù)也保持處于高時(shí)延。在一些實(shí)施方式中,時(shí)延等于為clk線(xiàn)312的采樣速率采樣倍數(shù)的緩沖器尺寸。因?yàn)槠渌溈孙L(fēng)具有低時(shí)延,所以其它麥克風(fēng)無(wú)法與該數(shù)據(jù)一起用于傳統(tǒng)噪聲抑制。
在一些實(shí)施方式中,來(lái)自麥克風(fēng)的信號(hào)之間的失配通過(guò)將延遲添加到用于噪聲抑制的每個(gè)其它麥克風(fēng)來(lái)消除。在延遲之后,為了噪聲抑制或其它目的,可以組合來(lái)自dmic120和其它麥克風(fēng)的流。添加到其它麥克風(fēng)的延遲可以基于dmic120的已知延遲特性(例如,由于緩沖而引起的時(shí)延等)來(lái)確定,或可以例如基于將從dmic120和從其它麥克風(fēng)接收的音頻數(shù)據(jù)進(jìn)行比較(例如,比較時(shí)刻、采樣速率時(shí)鐘等)在算法上來(lái)測(cè)量。
示例3的各種實(shí)施方式與示例1的優(yōu)選實(shí)施方式相比具有從發(fā)聲檢測(cè)到實(shí)時(shí)操作的更長(zhǎng)時(shí)間和在實(shí)時(shí)操作時(shí)具有顯著的另外時(shí)延的缺點(diǎn)。示例3的實(shí)施方式具有僅需要使用立體聲傳統(tǒng)dmic接口的一個(gè)信道(這使其它信道可用于由第二dmic使用)的優(yōu)點(diǎn)。
圖4是例示了根據(jù)示例實(shí)施方式的用于利用數(shù)字麥克風(fēng)用于低功率關(guān)鍵詞檢測(cè)和噪聲抑制的方法400的流程圖。在框402中,示例方法400可以開(kāi)始于接收表示由數(shù)字麥克風(fēng)捕捉的至少一個(gè)聲音的聲信號(hào)。聲信號(hào)可以包括以第一(低)時(shí)鐘頻率在單個(gè)信道上傳輸?shù)木彌_數(shù)據(jù)。在框404中,示例方法400可以繼續(xù)接收表示由至少一個(gè)第二麥克風(fēng)捕捉的至少一個(gè)聲音的至少一個(gè)第二聲信號(hào)。在各種實(shí)施方式中,至少一個(gè)第二聲信號(hào)包括實(shí)時(shí)數(shù)據(jù)。
在框406中,可以分析緩沖數(shù)據(jù),以確定緩沖數(shù)據(jù)包括語(yǔ)音。在框408中,示例方法400可以繼續(xù)以第二時(shí)鐘頻率發(fā)送緩沖數(shù)據(jù)以消除聲信號(hào)與第二聲信號(hào)的延遲。第二時(shí)鐘頻率高于第一時(shí)鐘頻率。在框410中,示例方法400可以將第二聲信號(hào)延遲預(yù)定時(shí)間段???10可以代替用于消除延遲的框408來(lái)執(zhí)行。在框412中,示例方法400可以繼續(xù)向音頻處理系統(tǒng)提供第一聲信號(hào)和至少一個(gè)第二聲信號(hào)。音頻處理系統(tǒng)可以包括噪聲抑制和關(guān)鍵詞檢測(cè)。
圖5例示了可以用于實(shí)施本發(fā)明的一些實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)500。圖5的計(jì)算機(jī)系統(tǒng)500可以在計(jì)算系統(tǒng)、網(wǎng)絡(luò)、服務(wù)器或其組合的語(yǔ)境等中實(shí)施。圖5的計(jì)算機(jī)系統(tǒng)500包括一個(gè)或更多個(gè)處理器單元510和主存儲(chǔ)器520。主存儲(chǔ)器520部分地存儲(chǔ)用于由處理器單元510執(zhí)行的指令和數(shù)據(jù)。主存儲(chǔ)器520在該示例中存儲(chǔ)操作時(shí)的可執(zhí)行代碼。圖5的計(jì)算機(jī)系統(tǒng)500還包括大容量數(shù)據(jù)儲(chǔ)存器530、便攜式存儲(chǔ)裝置540、輸出裝置550、用戶(hù)輸入裝置560、圖形顯示系統(tǒng)570以及外圍裝置580。
圖5中所示的組件被描繪為經(jīng)由單個(gè)總線(xiàn)590連接。組件可以借助一個(gè)或更多個(gè)數(shù)據(jù)傳輸裝置來(lái)連接。處理器單元510和主存儲(chǔ)器520經(jīng)由局部微處理器總線(xiàn)連接,并且大容量數(shù)據(jù)儲(chǔ)存器530、外圍裝置580、便攜式存儲(chǔ)裝置540以及圖形顯示系統(tǒng)570經(jīng)由一個(gè)或更多個(gè)輸入/輸出(i/o)總線(xiàn)連接。
可以用磁盤(pán)驅(qū)動(dòng)器、固態(tài)驅(qū)動(dòng)器或光盤(pán)驅(qū)動(dòng)器實(shí)施的大容量數(shù)據(jù)儲(chǔ)存器530是用于存儲(chǔ)用于由處理器單元510使用的數(shù)據(jù)和指令的非易失性存儲(chǔ)裝置。大容量數(shù)據(jù)儲(chǔ)存器530存儲(chǔ)用于實(shí)施本公開(kāi)的實(shí)施方式以用于將系統(tǒng)軟件加載到主存儲(chǔ)器520中的目的系統(tǒng)軟件。
便攜式存儲(chǔ)裝置540連同便攜式非易失性存儲(chǔ)介質(zhì)(諸如閃存驅(qū)動(dòng)器、軟盤(pán)、光盤(pán)、數(shù)字視頻光盤(pán)或通用串行總線(xiàn)(usb)存儲(chǔ)裝置)一起操作為向和從圖5的計(jì)算機(jī)系統(tǒng)500輸入和輸出數(shù)據(jù)和代碼。用于實(shí)施本公開(kāi)的實(shí)施方式的系統(tǒng)軟件被存儲(chǔ)在這種便攜式介質(zhì)上,并且經(jīng)由便攜式存儲(chǔ)裝置540輸入到計(jì)算機(jī)系統(tǒng)500。
用戶(hù)輸入裝置560可以提供用戶(hù)接口的一部分。用戶(hù)輸入裝置560可以包括一個(gè)或更多個(gè)麥克風(fēng)、用于輸入字母數(shù)字和其它信息的字母數(shù)字小鍵盤(pán)(諸如鍵盤(pán))或定點(diǎn)裝置(諸如鼠標(biāo)、跟蹤球、觸針或光標(biāo)方向鍵)。用戶(hù)輸入裝置560還可以包括觸摸屏。另外,如圖5所示的計(jì)算機(jī)系統(tǒng)500包括輸出裝置550。合適輸出裝置550包括揚(yáng)聲器、打印機(jī)、網(wǎng)絡(luò)接口以及監(jiān)測(cè)器。
圖形顯示系統(tǒng)570包括液晶顯示器(lcd)或其它合適顯示裝置。圖形顯示系統(tǒng)570可被構(gòu)造為接收文本和圖形信息,并且處理該信息,以便輸出到顯示裝置。
外圍裝置580可以包括向計(jì)算機(jī)系統(tǒng)添加另外功能的任意類(lèi)型的計(jì)算機(jī)支持裝置。
在圖5的計(jì)算機(jī)系統(tǒng)500中設(shè)置的組件是通常在可以適于與本公開(kāi)的實(shí)施方式一起使用的計(jì)算機(jī)系統(tǒng)中找到的那些組件,并且旨在表示本領(lǐng)域中眾所周知的廣泛類(lèi)別的這種計(jì)算機(jī)組件。由此,圖5的計(jì)算機(jī)系統(tǒng)500可以為個(gè)人計(jì)算機(jī)(pc)、手持計(jì)算機(jī)系統(tǒng)、電話(huà)、移動(dòng)計(jì)算機(jī)系統(tǒng)、工作站、平板電腦、平板手機(jī)、移動(dòng)電話(huà)、服務(wù)器、小型計(jì)算機(jī)、大型計(jì)算機(jī)、可佩戴計(jì)算機(jī)或任意其它計(jì)算機(jī)系統(tǒng)。計(jì)算機(jī)還可以包括不同的總線(xiàn)構(gòu)造、網(wǎng)絡(luò)化平臺(tái)、多處理器平臺(tái)等??梢允褂冒╱nix、linux、windows、macos、palmos、qnxandroid、ios、chrome、tizen以及其它合適操作系統(tǒng)的各種操作系統(tǒng)。
用于各種實(shí)施方式的處理可以在基于云的軟件中實(shí)施。在一些實(shí)施方式中,計(jì)算機(jī)系統(tǒng)500被實(shí)施為基于云的計(jì)算環(huán)境(諸如在計(jì)算云內(nèi)操作的虛擬機(jī))。在其它實(shí)施方式中,計(jì)算機(jī)系統(tǒng)500可以本身包括計(jì)算機(jī)系統(tǒng)500的功能以分布式方式來(lái)執(zhí)行的基于云的計(jì)算環(huán)境。由此,計(jì)算機(jī)系統(tǒng)500在被構(gòu)造為計(jì)算云時(shí)可以如下面將更詳細(xì)描述的那樣包括各種形式的多個(gè)計(jì)算裝置。
通常,基于云的計(jì)算環(huán)境是通常組合一大組處理器的計(jì)算能力(諸如在網(wǎng)絡(luò)服務(wù)器內(nèi))和/或組合一大群計(jì)算機(jī)存儲(chǔ)器或存儲(chǔ)裝置的存儲(chǔ)容量的資源。提供基于云的資源的系統(tǒng)可以由它們的擁有者來(lái)唯一地使用,或者這種系統(tǒng)可以由將應(yīng)用部署在計(jì)算基礎(chǔ)設(shè)施內(nèi)以獲得大計(jì)算或存儲(chǔ)資源的益處的外部用戶(hù)可訪(fǎng)問(wèn)。
云例如可以由包括多個(gè)計(jì)算裝置(諸如計(jì)算機(jī)系統(tǒng)500)的網(wǎng)絡(luò)服務(wù)器的網(wǎng)絡(luò)來(lái)形成,每個(gè)服務(wù)器(或至少多個(gè)服務(wù)器)提供處理器和/或存儲(chǔ)資源。這些服務(wù)器可以管理由多個(gè)用戶(hù)(例如,云資源顧客或其它用戶(hù))提供的工作負(fù)荷。通常,每個(gè)用戶(hù)對(duì)實(shí)時(shí)(有時(shí)動(dòng)態(tài))變化的云提出工作負(fù)荷需求。這些變型例的性質(zhì)和范圍通常取決于與用戶(hù)關(guān)聯(lián)的業(yè)務(wù)類(lèi)型。
上面參照示例實(shí)施方式描述了本技術(shù)。因此,本公開(kāi)旨在覆蓋示例實(shí)施方式的其它變型例。