一種聲音信號檢測和識別的方法

文檔序號：2836020閱讀：1250來源：國知局

專利名稱：一種聲音信號檢測和識別的方法
技術領域：
本發(fā)明涉及一種聲音的檢測和識別方法，特別涉及一種能夠對弱聲音信號的檢測和識別也特別有效的基于聲音信號的特征化表達、背景抑制處理、信號檢出和數據融合的聲音信號檢測和識別方法。
背景技術：
聲音檢測和識別技術在國防，安全監(jiān)控，人機交互等領域均有著廣泛的應用，特別是由于聲音的檢測和識別的方法相對于圖像的檢測與識別方法，機動靈活且不易受到自然條件的影響，近年來吸引了越來越多研究者的注意。成為當前計算機聲音處理領域中的研
究熱點之
在計算機聲音處理領域，目前常用的數學分析工具有短時傅里葉變換、小波變換、小波包變換等。通過這些數學分析工具，我們可以對聲音信號進行詳細的時頻域分析，比如在對聲音信號進行時域分析時，可以獲得聲音信號的過零率、振幅、周期、能量等信息；進行頻域分析時可以獲得聲音信號的頻譜分布、基頻頻率、各次諧波頻率，Mel倒頻譜系數等信息。通過對這些聲音信號進行時頻譜分析，可以檢測出聲音信號中所包含的有用信息。其中，短時傅里葉變換通過選擇不同的窗函數可以反映出不同時變信號局部的時域和頻域的綜合信息，而小波變換則是法國從事石油信號處理的工程師J. Morlet在1974年首先提出的一種變換方法，它與傅里葉變換等變換相比，是一個時間和頻率的局網域變換，因而能有效的從信號中提取資訊，它可以通過伸縮和平移等運算功能對函數或信號進行多尺度細化分析，解決傅里葉變換不能解決的許多困難問題，因而小波變化被譽為“數學顯微鏡”，它是調和分析發(fā)展史上里程碑式的進展。它的正交性和多分辨分析性已經成功應用于很多領域，特別在聲音信號處理領域，小波變換的的多分辨分析性已經被廣泛地利用作由粗到精的逐步觀察聲音信號。諸多學者在這一領域進行了大量的研究，例如馬寧等人用短時傅里葉變換及小波變換理論分析了強噪聲背景下雷達弱信號檢測方法，利用小波變換的“變焦特性”能夠有效地從強噪聲背景中檢測到弱信號，從而將目標從噪聲中檢測出來。徐巖等人采用從強噪聲中提取話音信號的自適應噪聲抵消技術入手，對最小均方誤差的性能進行了分析，針對其收斂速度慢、提取信號頻帶窄的缺點，提出了改進的有動量因子的自適應最小均方誤差算法，對解決弱信號提取問題有一定效果。童寧寧等人分析了小波包變換的良好時頻分析特性，根據信號與噪聲具有不同的Lipschitz指數，通過引入子頻帶⑴-范數，對信號和噪聲進行頻譜分析，將最佳子空間的熵值及最佳子空間在完整二叉樹中的位置參數作為特征量，并應用浮動閾值去噪方法，解決了低信噪比情況下的弱信號檢測問題。通過計算機的數值計算，模擬了浮動閾值去噪法基于小波包變換和小波變換的強噪聲背景下的弱信號檢測，從仿真的波形圖中得出在低信噪比情況下的弱信號檢測方面小波包變換優(yōu)于小波變換。在當前聲音檢測和識別領域中，廣泛應用的理論和方法是基于統計學中假設檢驗的似然比檢驗。但是由于在實際應用中對人類有用的信息往往被淹沒在強的背景聲音干擾中，人類采集到數據信號一般是非平穩(wěn)的，并且只有很低的信干比(信噪比)。而當傳統的信號檢測與識別方法在碰到信干比(信噪比)很低或非白噪聲干擾或非平穩(wěn)干擾聲音(噪聲)的時候，系統的檢測性能會急劇下降，很難獲得較高的檢測率。

發(fā)明內容
為了解決上述聲音檢測和識別領域中的問題，從而在更低的信噪比條件下和更加復雜的信號環(huán)境下也能有效地進行聲音信號的檢測和識別，發(fā)明人利用目前熱門的信號處理理論進行信號檢測方面的研究，提出了一種基于聲音時頻域變換的聲音檢測算法，能夠克服當前統計學中假設檢驗似然比檢驗方法的固有缺陷，提供一套有效的系統的實時聲音信號檢測和識別算法。本發(fā)明采用的技術方案如下—種聲音信號檢測和識別的方法，包括以下步驟步驟一，預處理過程首先利用目標聲音的特征化表達方式將目標聲音制作成目標模板{QJ ；接著將實時獲取的原始聲音信號進行分幀，每一定長度的數據分成一幀，每幀之間重疊一定的長度；同時初始化計數器i為零，初始化最終檢測和識別量化結果IRi I i = 1,2,…LENGTH}的每個元素為零，初始化加權系數{a」i = 1,2,…Μ}的所有元素為零；步驟二，幀數據的特征化通過分幀后原始聲音的特征化表達方式計算第i幀數據的特征向量ISJ ；步驟三，基于背景抑制的處理方式將步驟一和步驟二得到的目標模板IAJ和第 i幀數據的特征向量ISJ通過基于背景抑制的方法進行處理，以抑制第i幀數據中的背景噪音和干擾部分，從而得到處理結果序列；步驟四，信號檢出的過程利用信號檢出的方法對步驟三得到的處理結果序列進行信號檢出，以進一步抑制背景噪聲或干擾并同時補償由于原始信號非平穩(wěn)而造成的影響，從而得到檢出結果序列丨《ι X = 1,2,…M}；步驟五，數據融合利用數據融合的方法對檢出結果序列·}《1進行加權處理，依據
每一幀的數據結果和檢測的即時性，從而得到一個用于判斷最終結果的統一的相似度量化序列R ；步驟六，遍歷每幀數據首先判斷當前相似度量化序列R中是否有元素大于閾值 Τ，如果是則輸出該元素的位置；然后更新計數器『=/ + 1并且重復上面步驟二到步驟六，直至遍歷所有幀數據。通過以上的六個步驟后的算法輸出結果就是從原始聲音中檢測和識別到的目標聲音發(fā)生的位置。本發(fā)明通過上述6個重要方面對聲音信號進行處理，從而得到一個最終的相似度統一量化序列，該相似度統一量化序列中的每一個元素的值與在該元素位置上發(fā)生了原始聲音包含目標聲音這個事件的概率成正比。我們最后通過閾值的方法對該相似度量化序列進行濾波處理，從而檢測和識別該原始聲音中是否有目標聲音發(fā)生，并且定位該目標聲音出現的位置(即發(fā)生時間)。

圖1是小波包變換示意圖；圖2是13層小波包變換以及時頻域矩陣示意圖；圖3是步驟六得到的檢測與和識別結果{ α j}圖4是一種數據融合的方法中系數{ α j}的變換示意圖。
具體實施例方式下面結合附圖對本發(fā)明做進一步詳細描述參見圖1-4，本發(fā)明欲解決的問題可以舉出如下一個例子說明，即就是從一段有著強的環(huán)境干擾聲音或噪聲的原始聲音中，檢測其中是否有目標聲音發(fā)生，并且定位該目標聲音出現的位置(即發(fā)生時間)。本發(fā)明的方法將通過如下文提到的技術部分予以實現。1目標聲音的特征化表達方式。其目的是將目標聲音通過該方法制作成特征模板以供后面的檢測和識別過程使用。2原始聲音的分幀處理。其目的是將待檢測和識別的原始聲音信號數據分割成為若干具有一定相互重疊的以幀為單位的數據。3幀信號的特征化表達方式。其目的是從幀數據中提取有用的特征序列。本方法與上文提到大目標聲音的特征化表達方式非常相似，都是利用相同的聲音的特征化表達方法來計算該幀數據的特征序列，并將得到的特征序列提供給后面的算法使用。4基于背景抑制的信號處理方式。其目的是利用前面計算得到的目標聲音特征模板和原始聲音特征序列，使用本處理方法抑制原始聲音中的背景干擾信號分量并增強其中的目標聲音分量。5 一種信號檢出方式。其目的是進一步增強背景抑制的效果，并兼顧考慮前后幀之間的影響。6—種數據融合方式。其目的是在信號檢出結果的基礎上，進一步增加算法的魯棒性并同時保證算法的即時檢測效率。(1)目標聲音的特征化表達方式對于目標聲音信號來說，其特征化表達方法亦稱為目標信號的模板化。由于聲音信號的頻譜中包含有大量的信息，所以根據不同的頻譜可以區(qū)分不同的聲音信號。特別是聲音信號的局部時頻能量&反映了原信號在該頻率范圍內某時段的振動能量大小，對于上文中提到的具有強烈能量特征的非平穩(wěn)聲音信號檢測和識別具有非常重要的意義?？紤]到為了增加模板的魯棒性和降低模板對于數據初始位置的敏感性，我們首先通過滑動窗口的方法將目標聲音信號分成若干組滑動窗結果。具體來說就是用一個大小為目標信號長度(LEN)減去一定長度(Ien)的矩形窗(長度為LEN-len+Ι)依次向后位移一個數據的方法，將原本1個長度為LEN的目標聲音信號濾波為Ien個長度為LEN-len+Ι的窗口目標信號。接著，通過利用N層小波包變換的方法依次將每一個窗口目標信號從時域轉換到時頻局域，從而得到Ien個窗口信號的時頻域矩陣。我們記第i個窗口信號的時頻域矩陣為{K’v I (μ = 1,2,…";ν = 2,···)}其中υ = 2Ν(下同)。注，本方法的N層小波包變換與目標聲音模板化方法中提到的N層小波包變換相同。然后按照如下公式一對該矩陣的每行求平方和，從而得到聲音信號的第i個窗口
號的特征向量耽|" = 1，2,···, /}
權利要求
1. 一種聲音信號檢測和識別的方法，其特征在于，包括以下步驟步驟一，預處理過程首先利用目標聲音的特征化表達方式將目標聲音制作成目標模板{aJu= l，2r··}；接著將實時獲取的原始聲音信號進行分幀，每一定長度的數據分成一幀，每幀之間重疊一定的長度；同時初始化計數器i為零，初始化最終檢測和識別量化結果 (Ri Ii = 1,2,…LENGTH}的每個元素為零，初始化加權系數{a」i = 1，2，…M}的所有元素為零；其中LENGTH表示該待檢測聲音的數據長度。M表示一幀數據的長度。步驟二，幀數據的特征化通過分幀后原始聲音的特征化表達方式計算第i幀數據的特征向量 ISuIu = 1,2, ···}；步驟三，基于背景抑制的處理方式將步驟一和步驟二得到的目標模板IAJ和第i幀數據的特征向量{SJ通過基于背景抑制的方法進行處理，以抑制第i幀數據中的背景噪音和干擾部分，從而得到處理結果序列；步驟四，信號檢出的過程利用信號檢出的方法對步驟三得到的處理結果序列進行信號檢出，以進一步抑制背景噪聲或干擾并同時補償由于原始信號非平穩(wěn)而造成的影響，從而得到檢出結果序列I χ = 1,2,…M}；步驟五，數據融合利用數據融合的方法對檢出結果序列{《Ι進行加權處理，依據每一幀的數據結果和檢測的即時性，從而得到一個用于判斷最終結果的統一的相似度量化序列 {RuIu = 1,2,…}；步驟六，遍歷每幀數據首先判斷當前相似度量化序列{RJ中是否有元素大于某一預先設定的閾值T，如果是則輸出該元素的位置；然后更新計數器？ = + + ι并且重復上面步驟二到步驟六，直至遍歷所有幀數據；通過以上的六個步驟后的算法輸出結果就是從原始聲音中檢測和識別到的目標聲音發(fā)生的位置。
全文摘要
本發(fā)明涉及一種聲音信號檢測和識別的方法，公開了一種主要基于聲音特征化表達、背景抑制算法、信號檢出和數據融合這四個過程的聲音檢測和識別方法。其中聲音信號特征化表達的方法是基于聲音頻譜能量和分布進行計算的；背景抑制算法，是根據聲音的相似度加權值對聲音的頻域進行濾波進行計算的；信號檢出是通過對能量歸一化的數據與抑制后數據求差來進行計算的；最后，數據融合是通過變參數加權的方式一方面避免因分幀造成的延時效應從而保證即時性，另一方面抵消非平穩(wěn)背景的干擾，從而提高魯棒性。該聲音信號檢測和識別方法識別精度高，能夠有效的避免背景干擾的影響，即便在極低的信噪比情況下亦可以達到滿意的檢測和識別結果。
文檔編號G10L11/00GK102419972SQ20111038310
公開日2012年4月18日申請日期2011年11月28日優(yōu)先權日2011年11月28日
發(fā)明者馮祖仁, 劉振, 程欣, 贠光梅, 郭文濤, 高紫晨申請人:西安交通大學

完整全部詳細技術資料下載