亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于聲傳遞函數(shù)的聲源定位方法與流程

文檔序號(hào):11197930閱讀:1148來(lái)源:國(guó)知局
一種基于聲傳遞函數(shù)的聲源定位方法與流程

本發(fā)明屬于信號(hào)處理技術(shù)領(lǐng)域,涉及麥克風(fēng)陣列和聲源定位,具體涉及一種基于聲傳遞函數(shù)的聲源定位方法。



背景技術(shù):

聲源定位在許多領(lǐng)域有重要的應(yīng)用,比如自動(dòng)語(yǔ)音識(shí)別、機(jī)器人以及計(jì)算聽(tīng)覺(jué)場(chǎng)景分析等。對(duì)人而言,即使在復(fù)雜環(huán)境中,聽(tīng)者依然能順利定位目標(biāo)聲源,其主要利用的定位線索有雙耳時(shí)間差(interauraltimedifference,itd)和雙耳強(qiáng)度差(interauralleveldifference,ild)。研究人員將上述定位線索應(yīng)用于麥克風(fēng)陣列的聲源的定位問(wèn)題中,提出了許多聲源定位方法。

一些定位方法僅利用時(shí)間定位線索。這類方法首先估計(jì)由聲源發(fā)出的信號(hào)到達(dá)各麥克風(fēng)的時(shí)間差,即到達(dá)時(shí)間差(timedifferenceofarrival,tdoa),之后將tdoa信息映射到空間位置。tdoa可通過(guò)gcc(generalizedcross-correlation)、gcc-phat(generalizedcross-correlationphasedtransform)、srp(steeredresponsepower)以及srp-phat-(steeredresponsepowerphasedtransform)等方法計(jì)算得到。tdoa與空間位置的映射關(guān)系則由麥克風(fēng)陣列的位置、形狀等因素決定。也有一些研究人員使用時(shí)間線索以及強(qiáng)度線索共同定位聲源,raspaud等人建立了通道間時(shí)間差和強(qiáng)度差與聲源位置之間的參數(shù)模型,根據(jù)估計(jì)得到的時(shí)間差和強(qiáng)度差確定目標(biāo)聲源的位置。

傳遞函數(shù)刻畫(huà)了包含了時(shí)間差、強(qiáng)度差等定位線索,因此一些研究人員試圖利用傳遞函數(shù)實(shí)現(xiàn)聲源定位。keyrouz等人提出了一種基于雙麥克風(fēng)的聲源定位方法,其基本思想為當(dāng)且僅當(dāng)使用與聲源方位對(duì)應(yīng)的傳遞函數(shù)對(duì)記錄信號(hào)做逆濾波時(shí)兩個(gè)通道的逆濾波結(jié)果相同,即匹配濾波。該方法首先使用狀態(tài)空間求逆法(state-spaceinversionmethod)計(jì)算所有可能聲源位置的傳遞函數(shù)的逆,逐個(gè)使用傳遞函數(shù)的逆對(duì)記錄信號(hào)做濾波操作,計(jì)算逆濾波結(jié)果的通道間相似性,最終將聲源定位至使相關(guān)系數(shù)最大的傳遞函數(shù)對(duì)應(yīng)的空間位置。由于傳遞函數(shù)的逆的計(jì)算量過(guò)大且可能存在誤差,macdonal將反卷積過(guò)程變換為卷積過(guò)程,提出新的基于傳遞函數(shù)的聲源定位算法。當(dāng)只有兩個(gè)麥克風(fēng)時(shí),對(duì)于每一個(gè)候選的聲源位置,該方法將每個(gè)麥克風(fēng)的記錄信號(hào)與另一個(gè)麥克風(fēng)的傳遞函數(shù)卷積,之后計(jì)算卷積結(jié)果間的相關(guān)性,使相關(guān)性達(dá)到最大的傳遞函數(shù)對(duì)應(yīng)的空間位置即為定位輸出結(jié)果。當(dāng)麥克風(fēng)個(gè)數(shù)較多時(shí),該方法還需要將麥克風(fēng)成對(duì)分組。

聲源定位任務(wù)的一個(gè)主要挑戰(zhàn)是如何在噪聲干擾下定位目標(biāo)聲源,即如何提高定位方法的魯棒性。麥克風(fēng)陣列接收到的聲音信號(hào)通??煽醋饔山?jīng)傳遞函數(shù)濾波的聲源信號(hào)與噪聲干擾共同組成,即麥克風(fēng)陣列接收信號(hào)的信噪比由聲源、噪聲以及傳遞函數(shù)共同決定,且傳遞函數(shù)僅與聲源位置有關(guān),因此可將傳遞函數(shù)作為信噪比的先驗(yàn)知識(shí)引入到聲源定位任務(wù)中,而現(xiàn)有的基于傳遞函數(shù)的聲源定位方法并未考慮到這一點(diǎn)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提出了一種基于聲傳遞函數(shù)的聲源定位方法,在已知所有可能聲源位置到麥克風(fēng)的傳遞函數(shù)時(shí),該方法可以根據(jù)聲傳遞函數(shù)獲取相應(yīng)麥克風(fēng)記錄信號(hào)信噪比的先驗(yàn)信息并將該先驗(yàn)信息用于聲源定位。

本發(fā)明所提的基于傳遞函數(shù)的聲源定位方法的基本思想是,使用聲傳遞函數(shù)對(duì)麥克風(fēng)記錄信號(hào)做逆濾波,根據(jù)逆濾波結(jié)果的通道間相似性即可定位目標(biāo)聲源。當(dāng)考慮噪聲干擾時(shí),記錄信號(hào)不同頻率處的信噪比由聲源和噪聲的頻譜分布以及傳遞函數(shù)共同決定。若聲源和噪聲固定,記錄信號(hào)的信噪比則正比于傳遞函數(shù)的幅度。由于,傳遞函數(shù)可能存在極小值點(diǎn),即在某些頻率處的幅度遠(yuǎn)小于其平均值,可以推測(cè)記錄信號(hào)在這些頻率點(diǎn)上的信噪比較差。因此,在已知所有可能聲源位置的傳遞函數(shù)的基礎(chǔ)上,可根據(jù)傳遞函數(shù)的頻譜模式估計(jì)記錄信號(hào)中信噪比很低的頻點(diǎn)并將該頻點(diǎn)在定位之前濾除,提高聲源定位方法的魯棒性。本發(fā)明的主要?jiǎng)?chuàng)新之處在于其能根據(jù)傳遞函數(shù)的頻譜模式估計(jì)記錄信號(hào)中信噪比較差的頻段并將其濾除,從而提高了定位的魯棒性。

本發(fā)明提出的基于傳遞函數(shù)的聲源定位方法的基本框架如圖1所示,其中主要包括以下幾個(gè)部分:

計(jì)算頻域二值掩模對(duì)于每個(gè)聲源方位,根據(jù)聲源到所有麥克風(fēng)的傳遞函數(shù)估計(jì)記錄信號(hào)中信噪比較低的頻點(diǎn),并使用0-1二值向量對(duì)每個(gè)頻點(diǎn)進(jìn)行表示,得到每個(gè)聲源的頻域二值掩模,其中,‘1’表示該頻點(diǎn)的信噪比較高;‘0’表示該頻點(diǎn)的信噪比較差;

逆濾波依次使用各個(gè)待選聲源位置的傳遞函數(shù)對(duì)記錄信號(hào)做逆濾波,逆濾波過(guò)程中需要根據(jù)與聲源位置對(duì)應(yīng)傳遞函數(shù)的頻域二值掩模濾除信噪比較差的頻點(diǎn),逆濾波在頻域進(jìn)行;

通道間相似性計(jì)算使用皮爾遜相關(guān)系數(shù)計(jì)算逆濾波結(jié)果的通道間相似性;

決策器根據(jù)通道間相似性的計(jì)算結(jié)果估計(jì)聲源位置,其基本思路是將聲源定位至使通道間相似性最大的傳遞函數(shù)所對(duì)應(yīng)的空間位置。

與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:

根據(jù)傳遞函數(shù)提取記錄信號(hào)信噪比的先驗(yàn)信息并將該先驗(yàn)信息用于聲源定位,提高了定位方法的魯棒性。

附圖說(shuō)明

圖1是基于傳遞函數(shù)的聲源定位方法的基本框圖;

圖2是實(shí)驗(yàn)所用球模型以及麥克風(fēng)分布示意圖;

圖3是聲源為白噪聲時(shí)本文所提方法與基線在不同聲源方位下的定位指向圖;其中,實(shí)線為本發(fā)明方法,虛線為srp-phat方法;

(a)聲源水平角為60°,(b)聲源水平角為180°,(c)聲源水平角為300°;

圖4是聲源為語(yǔ)音時(shí)本文所提方法與基線在不同聲源方位下的定位指向圖;其中,實(shí)線為本發(fā)明方法,虛線為srp-phat方法;

(a)聲源水平角為60°,(b)聲源水平角為180°,(c)聲源水平角為300°;

圖5是聲源為音樂(lè)時(shí)本文所提方法與基線在不同聲源方位下的定位指向圖;其中,實(shí)線為本發(fā)明方法,虛線為srp-phat方法;

(a)聲源水平角為60°,(b)聲源水平角為180°,(c)聲源水平角為300°;

圖6是本發(fā)明所提方法與基線在不同信噪比下的平均定位偏差;

(a)聲源為白噪聲,(b)聲源為語(yǔ)音,(c)聲源為音樂(lè)。

具體實(shí)施方式

下面參照本發(fā)明的附圖,更詳細(xì)地描述本發(fā)明的具體實(shí)施方法。

1.頻域二值掩模計(jì)算

假設(shè)聲源位于ps處,麥克風(fēng)陣列由m個(gè)麥克風(fēng)組成,麥克風(fēng)m(1≤m≤m)的空間位置為pm,ps到pm的傳遞函數(shù)已知并表示為麥克風(fēng)m記錄的信號(hào)rm可表示為:

其中,nm表示麥克風(fēng)m的記錄信號(hào)中包含的噪聲,k表示頻率。記錄信號(hào)rm的信噪比可表示為

由公式(2)可知,記錄信號(hào)的信噪比由聲源、噪聲以及傳遞函數(shù)共同決定。若不考慮聲源與噪聲信號(hào)的頻譜分布,記錄信號(hào)的信噪比則正比于傳遞函數(shù)的幅度。由于散射體的特性,傳遞函數(shù)可能在某些頻率處出現(xiàn)零點(diǎn)或較小值,導(dǎo)致記錄信號(hào)在對(duì)應(yīng)頻率處的信噪比較低。對(duì)于每個(gè)聲源位置,可根據(jù)傳遞函數(shù)的幅頻曲線估計(jì)記錄信號(hào)在各頻率處的信噪比情況,并使用0-1二值向量標(biāo)識(shí)出信噪比較低的頻點(diǎn),即頻域二值掩模(spectralbinarymasker,bsm)。

聲源位置ps對(duì)應(yīng)的頻域二值掩模的具體計(jì)算步驟如下:

a)對(duì)每個(gè)麥克風(fēng)的傳遞函數(shù)做最大值歸一化,得到歸一化傳遞函數(shù)

b)搜索m個(gè)歸一化傳遞函數(shù)在每個(gè)頻點(diǎn)處的幅度最小值并組成向量v

c)使用設(shè)定閾值t將向量v二值化,即可得到

2.逆濾波

逆濾波實(shí)現(xiàn)了系統(tǒng)輸出到輸入的映射,其關(guān)鍵是找出系統(tǒng)的沖激響應(yīng)h的逆h-1,使得

h*h-1=δ(n)(7)

其中,δ(n)為單位沖激響應(yīng)。h-1的求解可在時(shí)域或頻域進(jìn)行。在時(shí)域上,h-1可通過(guò)求解差分方程得到,而該方法會(huì)得到結(jié)果存在不穩(wěn)定等問(wèn)題。一些數(shù)值優(yōu)化的方法也可用于求解h-1,如最小均方差(lms)以及最小方差(ls)等。頻域上,h-1可由下式計(jì)算得到

其中,dft和idft分別表示離散傅里葉變換及其反變化。相比時(shí)域的計(jì)算方法,頻域計(jì)算的復(fù)雜度更低,因此本發(fā)明采用該方法計(jì)算傳遞函數(shù)的逆,因此逆濾波過(guò)程可表示為:

為了濾除sm中信噪比較差的頻率,將頻域二值掩模應(yīng)用于上述逆濾波過(guò)程,即麥克風(fēng)m記錄信號(hào)的逆濾波結(jié)果可表示為:

由于傳遞函數(shù)幅度較小甚至出現(xiàn)零點(diǎn)的頻率的bsm為0,在逆濾波過(guò)程引入bsm除可以濾除信噪比較差的頻率外,還解決了(9)中由于分母的幅度過(guò)低而使逆濾波結(jié)果不穩(wěn)定的問(wèn)題。

3.一致性檢測(cè)

使用傳遞函數(shù)對(duì)記錄信號(hào)做逆濾波之后,本發(fā)明使用皮爾遜相關(guān)系數(shù)計(jì)算逆濾波結(jié)果的通道間一致性,即相似程度。

由于相關(guān)系數(shù)僅適用于通道數(shù)為2的情況,對(duì)于多通道信號(hào),本發(fā)明使用所有通道組合的相關(guān)系數(shù)的和作為其相似性度量準(zhǔn)則,即:

4.決策器

使用不同方位對(duì)應(yīng)的傳遞函數(shù)對(duì)記錄信號(hào)作逆濾波并計(jì)算逆濾波結(jié)果的通道間一致性后,聲源即可被定位到使一致性最大的傳遞函數(shù)對(duì)應(yīng)的聲源方位,即

定位方法的定位性能評(píng)價(jià)

本發(fā)明使用傳遞函數(shù)生成仿真信號(hào),分別在安靜和噪聲條件下測(cè)試所提定位方法在仿真信號(hào)上的定位性能。定位性能的評(píng)價(jià)指標(biāo)包括指向性以及抗噪性能。實(shí)驗(yàn)使用phat-spr作為基線。聲源信號(hào)分別選用白噪聲、語(yǔ)音以及音樂(lè)。噪聲情況下的信噪比變化范圍為-40db至40db。

1.傳遞函數(shù)

實(shí)驗(yàn)使用剛性球作為散射體,其表面水平均勻分布有6個(gè)麥克風(fēng),如圖2所示。球半徑為8.75cm。聲源與麥克風(fēng)位于同一水平面內(nèi),與球中心的距離恒定為16m。麥克風(fēng)的水平角θ在5°到360°內(nèi)變化,變化步長(zhǎng)為5°。傳遞函數(shù)由duda等人給出的球模型計(jì)算得到。

2.信號(hào)仿真

實(shí)驗(yàn)使用聲源卷積傳遞函數(shù)生成仿真信號(hào),聲源信號(hào)共有三種:白噪聲、英語(yǔ)女聲以及帶伴奏音樂(lè)。語(yǔ)音中的靜音會(huì)干擾實(shí)驗(yàn),因此在實(shí)驗(yàn)前手動(dòng)切成其中的靜音段,其他兩個(gè)聲源保持不變。實(shí)驗(yàn)向仿真信號(hào)各通道中加入同等強(qiáng)度的白噪聲,各通道間白噪聲相互獨(dú)立,信噪比等于仿真信號(hào)強(qiáng)度最大的通道的信噪比。信號(hào)的采樣率為48khz,幀長(zhǎng)為0.43ms。每種條件(聲源位置、聲源類型)下,統(tǒng)計(jì)本發(fā)明所提方法與phat-spr在十幀信號(hào)上的定位結(jié)果。

3.實(shí)驗(yàn)結(jié)果

噪聲情況下,本發(fā)明所提方法與基線均能準(zhǔn)確定位聲源。圖3-圖5給出了聲源水平角度分別為60°,180°,300°時(shí)兩種定位方法的指向圖。如圖3所示,當(dāng)聲源為白噪聲時(shí),兩種方法的定位結(jié)果均具有較好的指向性;當(dāng)聲源變?yōu)檎瓗盘?hào),如語(yǔ)音(圖4)和音樂(lè)(圖5),phat-spr指向圖的主瓣寬度明顯增大,而本發(fā)明所提方法的指向性基本保持不變。

同時(shí),實(shí)驗(yàn)統(tǒng)計(jì)了不同信噪比下兩種方法的平均定位偏差。如圖6(a)所示,聲源為白噪聲時(shí),本發(fā)明所提方法稍好于基線。信噪比在-14db附近,兩種方法的定位偏差迅速降低至0°。聲源為語(yǔ)音或音樂(lè)時(shí),本發(fā)明所提方法的性能并未達(dá)到預(yù)期,其主要原因是語(yǔ)音和音樂(lè)的能量主要集中在低頻部分,逆濾波結(jié)果的高頻部分的信噪比較差。對(duì)于語(yǔ)音和音樂(lè)信號(hào),將聲源信號(hào)能量分布的先驗(yàn)知識(shí)應(yīng)用于頻域二值掩模,舍棄1khz以上的頻點(diǎn)。實(shí)驗(yàn)結(jié)果如圖6(b)、(c)所示,當(dāng)信噪比較低時(shí),本發(fā)明所提方法的定位偏差明顯小于基線,具有更好的魯棒性。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1