專利名稱:用于音源追蹤的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信號源定位,具體地說,本發(fā)明涉及在視頻會議中空間定位有源揚聲器的裝置和方法。
背景技術(shù):
信號定位被用在若干應用中。最廣泛的應用可能是TV節(jié)目制作。在例如辯論節(jié)目中,對于觀眾的經(jīng)驗和可懂度而言,重要的是活動攝像機對準(并且最好放大)當前的演講者。然而,傳統(tǒng)上這是由制片人手動處理。在攝像頭和麥克風捕捉許多人的圖象和聲音的其它應用中,也許不可能或不需要有專門控制性能的人。
這種應用的一個例子是視頻會議系統(tǒng)中對準的自動攝像機。視頻會議呼叫中終點處的典型地點是會議室,其中許多參與者坐在桌子周圍觀看終點的顯示設(shè)備,而靠近該顯示設(shè)備安放的攝像機正捕捉該會議室的圖象。如果在該房間中有許多參與者,對于在遠端側(cè)觀看會議室圖象的那些人而言,可能難以確定演講者或者聽到該演講者的辯論。因此,最好將有源揚聲器定位在房間中,并且自動使攝像機對準和/或移到該參與者上。被提供攝像機范圍內(nèi)某些位置的、攝像機的定向和變焦在本技術(shù)中是眾所周知的,并且不會再詳細討論。問題是提供有源揚聲器的充分精確的空間和時間定位,以便提供可接受的自動視頻會議制作。
已知的音源定位裝置使用多個空間上間隔的麥克風,并且常常是基于接收機輸出處的信號之間的延遲差。如果已知麥克風的位置以及源和不同麥克風之間傳播路徑之間的延遲差,則可確定源的位置。如果使用兩個麥克風,則可以確定關(guān)于它們之間基線的方向。如果使用三個麥克風,則可以確定2D平面中源的位置。如果使用多于三個、不是置于單平面中的麥克風,則可以確定三維中源的位置。
在美國專利號5778082中示出了音源定位的一個例子。該專利教授了使用一對空間上分離的麥克風來獲得音源的方向或位置的方法和系統(tǒng)。通過檢測表示相同音源聲音的、麥克風的各個信號的開始,可確定音頻信號之間的延時,并且可計算到該音源的距離和方向。
在音頻定位的這些和其它的已知解決方案中,用于方向和距離計算的麥克風被靠近攝像機放置。攝像機一般被置于屏幕的頂部,超過會議桌的末端。至少一些參與者將坐在遠離麥克風設(shè)置(r)處。該設(shè)置具有一些優(yōu)點,以下將討論這些優(yōu)點。
由于揚聲器和麥克風設(shè)置之間的長距離,因此方向角的期望擴展小,并且聲音到達時間差的擴展相應地小。這降低了定位算法的精度。然而,由于長距離r,因此算法應該是精確的。
一種增加時間到達差的方式是增加麥克風之間的距離(表示為d)。然而,現(xiàn)有技術(shù)已經(jīng)示出不能增加d太多,這是由于進入不同麥克風的信號趨向于與非常大的d無關(guān)聯(lián)。現(xiàn)有技術(shù)已經(jīng)示出20-25cm的距離d提供最佳結(jié)果。
具體地說,由于使用相對靠近間隔的麥克風對之間的小角度差來計算距離,因此在傳統(tǒng)系統(tǒng)中該距離的計算容易出錯。即,該方法假設(shè)揚聲器處于麥克風系統(tǒng)的近場中,這在許多情況下是可疑的假設(shè)。
直達聲(它是用于計算方向的聲音)的電平與距離r成反比。由于揚聲器和麥克風之間的長距離,因此來自揚聲器的信號將是弱的,并因此對背景噪聲以及麥克風和電子設(shè)備的自身噪聲敏感。
由于長距離,因此來自揚聲器的聲音的反射會以幾乎與直達聲同樣高的電平到達麥克風設(shè)置。因此,可能做出不正確和不準確的決定。
這些缺點將一直是障礙,但可通過在長時間幀上結(jié)合音頻的方式補償。然而,這同樣具有慢響應系統(tǒng)的缺點,這是現(xiàn)有音頻追蹤系統(tǒng)的典型弱點。
發(fā)明內(nèi)容
公開的獨立權(quán)利要求中定義的特征描述了上述裝置和方法。
具體地說,本發(fā)明公開了通過確定音源相對于麥克風元件的一個或多個麥克風或陣列的位置、從音源相對于一個或多個麥克風或陣列中的一個的位置幾何地推導攝像機與音源之間的第一距離和/或方向以及攝像機與一個或多個麥克風或陣列中的一個之間的第二距離和/或方向的方式定位音源相對于攝像機的位置的裝置和方法。
附圖簡要描述為了使本發(fā)明更容易理解,以下的討論將參考附圖,
圖1是示出根據(jù)本發(fā)明的視頻會議系統(tǒng)的框圖;圖2示出使用遠場假設(shè)從音源接收聲信號的一對麥克風的角度的示例的圖形;圖3示出確定垂直面中攝像機與音源之間的角度和距離的圖形。執(zhí)行本發(fā)明的最佳模式在下文中,將通過描述優(yōu)選實施例和參考附圖來討論本發(fā)明。然而,本領(lǐng)域的技術(shù)人員將認識到所附獨立權(quán)利要求中定義的本發(fā)明保護范圍內(nèi)的其它應用和修改。
根據(jù)本發(fā)明,麥克風系統(tǒng)被安放在桌子處(一般是在會議室中一群參與者的中間),而不是安放在攝像機處。那么與參與者的距離通常將更短,并且近場假設(shè)將更加正確。
本發(fā)明公開了定位音源的兩種分離的方式。定位一個或多個麥克風的、最好盡可能靠近使用的攝像機放置的定位設(shè)備最好盡可能靠近參與者安放,而麥克風(從現(xiàn)在起稱為桌面麥克風)反過來相對于其自身的位置定位音源。為桌面麥克風提供兩個或多個麥克風元件,或者備選地,可使用兩個或多個分離的桌面麥克風。由于桌面麥克風靠近音源安放,因此降低了麥克風元件之間的距離相對于桌面麥克風和音源之間的距離的比值。因此,桌面麥克風能夠以比靠近攝像機放置時更高的分辨率和速度確定音源的位置。
當已知桌面麥克風相對于攝像機和音源的各個位置時,查找音源相對于攝像機的位置將是非常簡單的。以這種方式,結(jié)果的精度對于音源相對于攝像機的放置的依賴比對于桌面麥克風有多靠近音源、以及桌面麥克風相對于攝像機定位的精度和速度更小。后者比攝像機與音源之間的直接關(guān)系可控制得多。
如已經(jīng)指出的,想法是結(jié)合兩個或多個坐標系統(tǒng),以定位有源揚聲器。一個或多個坐標系統(tǒng)將被安放在攝像機側(cè),并且一個或多個坐標系統(tǒng)將被安放在麥克風側(cè)。可通過手動測量(在固定的桌面麥克風位置的情況下)、一些種類的模式識別、使用桌面麥克風上諸如聲音、IF、RF等的信號源、或者通過使攝像機側(cè)具有一個或多個信號源(其可由桌面麥克風獲得)的方式計算桌面麥克風相對于攝像機的位置和方位。本發(fā)明利用了攝像機與桌面麥克風之間的相對位置有可能比音源相對于攝像機的位置的直接檢測更精確這一事實。該想法還將檢測裝備靠近所要追蹤的參與者放置,這提供了近場計算而非遠場計算,以便得到精確的測量,然后計算該裝備相對于攝像機的坐標系統(tǒng)的方向和距離。最后,結(jié)合這些計算,以找到從攝像機到參與者的直接方向和距離。
在圖2中示出了一種計算音源方向的方式。根據(jù)本技術(shù)的狀態(tài)、通過例如美國專利號5778082中描述的信號開始檢測、或者通過國際專利申請?zhí)朩O 00/28740中描述的使聲路徑的沖激響應分別與麥克風B和麥克風A交叉關(guān)聯(lián)的方式確定到達麥克風B和麥克風A的聲信號之間的延時。
一旦產(chǎn)生延時信號t,可根據(jù)下式確定源C相對于麥克風B和麥克風A的方位角θ=arcsin[v×tD]]]>其中v是聲速,t是延時,并且D是桌面麥克風之間的距離。估計聲源方向的該方法是基于遠場近似,其中假設(shè)聲信號以平緩波或平面波的形式到達麥克風A和麥克風C。如果平面波的假設(shè)不適用于特定應用,則其它技術(shù)可用于確定源C相對于麥克風A和麥克風B的方向或位置。這種技術(shù)可包括例如將附加麥克風結(jié)合在系統(tǒng)中,并且根據(jù)上述方法在附加麥克風對處產(chǎn)生對應于信號到達時間差的延遲。根據(jù)已知技術(shù),然后多個延時可用于確定源C的方向或位置。
上述方法僅估計遠場因素中來自一個平面中音源的方向。為了使用該方法獲得三維估計,必須增加不與其它兩個對齊的第三麥克風或麥克風元件麥克風C。該麥克風將和麥克風A和麥克風B一起構(gòu)成兩個附加麥克風對。
為了得到音源相對于桌面麥克風的位置,考慮近場因素,可能需要更復雜的方法。該方法的例子是最大似然(ML)定位方法,即Erik Leenderts于1997年所著“視頻會議環(huán)境中聲源的聲學定位”中描述的。ML方法利用了結(jié)合所有可能的麥克風對的靜態(tài)優(yōu)點。該方法的目的是通過使用桌面麥克風配置可提供(通過一些延時估計量方法,例如根據(jù)美國專利5778082的方法)的、結(jié)合多個位置的期望延時的所有延遲信息來找到最可能的源位置。
對于房間內(nèi)的每個點P=(Xp、Yp、Zp)而言,可計算每個麥克風對的相關(guān)聯(lián)的期望延時。對于由麥克風Mi和Mk組成的對而言,在已知麥克風位置時,可準確計算從P看到的相對延遲(稱為τik(P))。該計算在本技術(shù)中是眾所周知的,并且這里將不再詳細描述。該方法假設(shè)如果P是不同于源S0的位置,則τik(p)不同于τik。使用Nmics麥克風,可構(gòu)建多達Npairs=Nmics2]]>
個不同的的麥克風對,每對具有相關(guān)聯(lián)的估計延時P??山Y(jié)合這些估計,以便為該房間中的所有位置P創(chuàng)建誤差放置函數(shù)E(P)。
E(P)=Σi=1k=i+1Nmics(rik(P)-τik^)2]]>其中 是Mi和Mk的估計延時。可期望該函數(shù)在P=S0處產(chǎn)生最小值。
如果找到準確的源位置,則P=S0,并且誤差函數(shù)變?yōu)镋(S0)=Σi=1k=i+1Nmics(rik-τik^)2]]>其中在理想環(huán)境中將導致E(S0)=0。
描述的該方法使得可以結(jié)合所有的麥克風對,而不引入任何幾何誤差。
由于噪聲和混響,因此一些延遲估計將比其它的更可靠。一些估計甚至會被證明根本沒有用。如果已知每個延時估計(TDE)的可靠性,則加權(quán)函數(shù)可被包括在誤差函數(shù)中E(P)=Σi=1k=i+1Nβik(rik(P)-τik^)2]]>其中βik是延遲估計 的加權(quán)參數(shù)。
由于現(xiàn)在可完全丟棄一些延遲估計,因此必須檢驗剩下的延遲估計是否能夠幾何地定位源。如果如此,則估計將比考慮所有延遲估計時精確的多。如果事實并非如此,則無論如何定位都將是不精確的。
如何找到βik需要全面的調(diào)查,并且這里將不再考慮。
可通過計算一組P的E值并找到其中的最小值、或者通過使用梯度搜索方法來找到E(P)函數(shù)的最小值點、并因此是最可能的音源位置。
如果使用可能和大概的源位置(相對于桌面麥克風位置)的預定選擇,則在執(zhí)行定位以前可計算所有的rik(P)值。當估計延遲時,可將這些延遲與預先計算的點的延遲比較,以找到E函數(shù)上的最小值點。如果將潛在的點沿所有方向分隔10cm,則會期望系統(tǒng)錯過實際源少于52+52+52=8.7cm.]]>會議地點中的期望參與區(qū)域是有限的。如果期望參與者位于桌面麥克風前方1-5米、到每側(cè)最大3米內(nèi),這意味著當使用10cm柵格尺寸時產(chǎn)生(400/10+1)*(600/10+1)=2501個點。視頻會議應用中另一個合理的近似是期望音源位于地面上方100cm-180cm之間。
在這些條件下,仍然使用10cm柵格尺寸,計算點的總數(shù)現(xiàn)在變?yōu)?501*(80/10+1)=22509。
可進一步限制“合法”源位置的區(qū)域,但是仍然留下數(shù)千個E值有待計算。由于這個原因,會期望梯度搜索提供更高的時間效率。
存在許多其它可能的確定音源相對于桌面麥克風位置的方式,大部分方式在精度和分辨率上相對于麥克風元件之間的距離(d)增加桌面麥克風與音源之間的距離(r)。然而,應該注意的是,如果d太大,則從相同音源接收的各個聲音將顯著不同(由于反射等),這使延遲測量變得不可能。因此,d具有工作上限。現(xiàn)有技術(shù)示出最佳距離d是在20-25cm的范圍內(nèi)。
本發(fā)明將工作在近場中的優(yōu)點轉(zhuǎn)換為音源相對于攝像機的位置的總遠場計算。已經(jīng)提到的計算方法當然也可以用在遠場部分中,即在確定桌面麥克風相對于攝像機的位置期間,但在此情況下,涉及的位置是更可控制的,這使得即使是遠場計算,計算也更加快速和更加精確。此外,與麥克風/音源的情況相反,該定位過程并不局限于單向計算。也就是說,攝像機可檢測桌面麥克風的位置,并且桌面麥克風可檢測攝像機的位置。此外,由于大多數(shù)應用中的桌面麥克風和攝像機將是固定的,因此需要不那么復雜和要求速度的方法。在一些應用中,當桌面麥克風和攝像機都固定時,甚至可使用預定的距離和方向值。
在本發(fā)明的優(yōu)選實施例中,所有的定位功能都是由桌面麥克風提供,以便限制與視頻會議裝備相關(guān)聯(lián)的其它裝備的調(diào)節(jié)。在該實施例中,除了桌面麥克風之外的僅有的調(diào)節(jié)是安裝在攝像機上或靠近(或者與其已知或可檢測相關(guān))攝像機的輔助聲源。桌面麥克風適用于識別來自該輔助聲源的已知信號。輔助聲源可以以人的聲頻范圍以外的頻率和/或人耳不能檢測的幅度發(fā)聲,以免干擾進行中的會議。輔助聲源還可以是使用的視頻會議裝備的擴音器。在此情況下,必須已知、或者必須每次檢測該擴音器相對于攝像機的位置。
如上所示,當控制所要定位的音源時,定位會比非可控音源(諸如揚聲器)精確得多,并且消耗更少時間??蓮膶霓D(zhuǎn)移函數(shù)推導擴音器到麥克風系統(tǒng)的傳播延遲。普遍使用的、用于測量擴音器到麥克風的轉(zhuǎn)移函數(shù)的技術(shù)是最大長度序列(MLS)技術(shù)。MLS信號是一系列具有某些特性的信號類型。本文中最重要的特性是當這些信號被提供給系統(tǒng)輸入時,這些信號與系統(tǒng)輸出的交叉相關(guān)準確地提供了系統(tǒng)沖激響應。這是從以下一組等式推導的,其中h是系統(tǒng)的沖激響應,y是輸入為MLS信號x的系統(tǒng)的輸出信號,r是交叉相關(guān)函數(shù),并且δ是δ函數(shù)y=h*xy(n)=Σk=-∞∞h(k)×(n-k)]]>ryx(l)=Σm=-∞∞y(m)x(m-l)]]>ryx(l)=Σm=-∞∞x(m-l)Σ-∞∞h(k)x(m-k)]]>ryx(l)=Σm=-∞∞h(k)Σk=-∞∞x(m-l)x(m-k)]]>ryx(l)=Σk=-∞∞h(k)rxx(l-k)]]>ryx(l)=h*rxx(l)
在將MLS信號輸入本發(fā)明系統(tǒng)的輔助聲源(例如擴音器)、并測量麥克風的各個輸出時,可確定由輔助聲源-聲學環(huán)境-麥克風組成的系統(tǒng)的沖激響應。該沖激響應公開了信號的絕對延遲,同時隱含地公開了音源和麥克風之間的絕對距離。各個麥克風或麥克風元件中信號的接收時間之間的相對延遲、以及這些麥克風或麥克風元件之間的距離實現(xiàn)了桌面麥克風相對于音源的方向和方位的估計。
本發(fā)明的備選實施例使用攝像機的視覺能力。然后為桌面麥克風提供預先存儲的、可由攝像機訪問的、容易識別的形狀或模式。以這種方式,攝像機本身(或控制單元)將被實現(xiàn)為通過推導攝像機捕捉的圖象內(nèi)的可識別模式的大小和放置來計算桌面麥克風的位置。備選地,該形式可包括兩個或多個可控光源,以幫助攝像機識別和定位桌面麥克風??刂茊卧€可被調(diào)節(jié)為測量光從桌面計算機傳播到攝像機的時間,并且通過該時間來推導位置。
在本發(fā)明的另一個實施例中,攝像機與桌面麥克風使用RF(射頻)檢測來將彼此定位在本地定位系統(tǒng)中。當然,麥克風和攝像機之間的相對位置也可以是固定的。
當找到攝像機與桌面麥克風之間、以及桌面麥克風和音源之間的相對位置時,僅冗長的集合計算繼續(xù)查找攝像機與視頻源之間的相對位置。參考圖3,這是給定角度α1、α2以及距離a和b來計算角度α3和距離c的問題。幾何因素包含垂直面中攝像機與音源之間距離c和角度的以下表達式c=a2tan2α1+b2tan2α2]]>α3=arcsin(asinα1-bsinα2c)]]>可以以完全相同的方式計算平面圖的對應值。給定攝像機的位置,則可容易通過例如勾股定理來計算音源的三維位置。
使用關(guān)于到有源揚聲器的方向的信息,可以沿正確的方向安放機動攝像機。使用關(guān)于距離的信息,可調(diào)節(jié)正確的可變焦距比和焦距。
于是圖1的視頻會議系統(tǒng)的操作如下。當位置A處的一個參與者開始說話時,該參與者的語音產(chǎn)生的聲信號被桌面麥克風獲得、被發(fā)送到控制單元(在該處以已知形式處理這些信號)、并被經(jīng)由傳輸系統(tǒng)傳輸?shù)轿恢肂。在位置B處,在擴音器上再現(xiàn)接收的聲信號。
說話的參與者產(chǎn)生的聲信號還被麥克風陣列中的麥克風獲得。獲得的信號被發(fā)送到控制單元,在該處最好處理來自各個麥克風對的信號,并且根據(jù)上述方法確定說話的參與者的最可能的位置。通過類似地確定桌面麥克風和攝像機中輔助聲源之間的相對方向和距離,通過幾何計算確定攝像機與音源之間的相對方向和距離。然后該信息用于自動對準或調(diào)節(jié)攝像機的方向和/或變焦。
例如,確定的方向可直接或間接地用于調(diào)節(jié)攝像機的方位,以便指向音源的位置。可通過使距離與相對于初始圖象的變焦量(以百分比為單位)相關(guān)聯(lián)來執(zhí)行自動變焦。當檢測到新的音源或者移動有源揚聲器時,距離(或距離間隔)和百分比之間的關(guān)聯(lián)可被存儲在特別查詢可用的控制單元中的表格中。
本發(fā)明的備選實施例還可將音頻檢測與視覺簽名結(jié)合,用于調(diào)整攝像機方位和變焦。在音頻檢測之后,有源揚聲器最可能位于攝像機捕捉的圖象內(nèi)。然后攝像機或控制單元通過預先存儲的他/她的視覺簽名來標識該圖象內(nèi)的有源揚聲器。并且如果發(fā)現(xiàn)攝像機相對于有源揚聲器的變焦/方位不精確,則根據(jù)圖象內(nèi)標識的有源揚聲器的位置調(diào)節(jié)該變焦/方位。另一個改進將是使視覺簽名與對應的音頻簽名相關(guān)聯(lián)。如果音頻檢測之后在捕捉的圖象內(nèi)出現(xiàn)多于一個視覺簽名,則攝像機或控制單元將在通過調(diào)查有源揚聲器的音頻簽名來調(diào)整時知道選擇哪一個視覺簽名。由于音頻檢測防止中斷的不連續(xù)移動,因此通過視覺和/或音頻簽名的調(diào)整最好應該與攝像機移動平穩(wěn)地結(jié)合。
存在若干個使用根據(jù)本發(fā)明的方法和/或配置的優(yōu)點,以下討論其中一些優(yōu)點。
首先,當r降低時,d/r比將增加。這意味著任何角度差包含更大的時間到達差。此外,對于高達360度的水平面而言,角度的有效擴展增加。這包含更大的時間到達差。
其次,來自揚聲器的信號將更強,并且信號-混響將更強,這提供了改進的計算。
第三,由于r降低,因此時間差(以及角度)的任何計算誤差將在實際位置上具有成比例的(與r)、更低的誤差。
此外,降低的d/r包含可實現(xiàn)真正的近場假設(shè),并且距離的計算將更精確。
給出了這些優(yōu)點,可以以更高的精度和更快的速度來查找麥克風系統(tǒng)和揚聲器之間的相對位置。
然而,仍然必須以高的精度來確定麥克風系統(tǒng)相對于攝像機的位置。由于以下原因,因此使用該定位的音頻、以及置于攝像機處的擴音器,這是簡化的問題該系統(tǒng)趨向于是固定的(不是移動的)。因此,可在長時間上結(jié)合所有計算,這獲得非常精確的測量。
擴音器上發(fā)出的音頻是可控的,并且通過使用正確的統(tǒng)計來選擇信號,將易于精確地計算時間到達差以及方向/角度。
擴音器的可控性提供了查找從擴音器傳播到麥克風系統(tǒng)的音頻的絕對時間。由于聲速是已知的,因此可找到絕對距離。因此,不需要關(guān)于擴音器和麥克風系統(tǒng)之間近場的可疑假設(shè)。
例如MLS(最大長度序列)的正確算法技術(shù)相對于噪聲非常健壯,并且因此擴音器和麥克風系統(tǒng)之間的長距離(即低信號噪聲比)不會提出大的挑戰(zhàn)。MLS技術(shù)還能夠區(qū)別直達聲和反射聲,因此,信號-混響比不會提出大的挑戰(zhàn)。
權(quán)利要求書(按照條約第19條的修改)1.一種通過確定音源和麥克風元件的一個或多個麥克風或陣列之間的第一距離和方向來定位所述音源相對于攝像機的位置的方法,其特征在于確定所述攝像機與所述一個或多個麥克風或陣列中的一個之間的第二距離和方向,從所述音源和一個或多個麥克風或陣列之間的所述第一距離和方向、以及所述攝像機與所述一個或多個麥克風或陣列中的一個之間的所述第二距離和/或方向來幾何地推導所述音源相對于所述攝像機的所述位置。
2.如權(quán)利要求1所述的方法,其特征在于通過檢測從所述音源到一個或多個麥克風或麥克風元件對的所述麥克風或麥克風元件的接收聲信號的各個時間差來確定所述音源和一個或多個麥克風或陣列之間的所述第一距離和方向的所述步驟。
3.如權(quán)利要求1或2所述的方法,其特征在于所述攝像機與所述一個或多個麥克風或陣列中的一個之間的所述第二距離和方向是固定的。
4.如權(quán)利要求1或2所述的方法,其特征在于通過以下步驟確定所述攝像機與所述一個或多個麥克風或陣列中的一個之間的所述第二距離和方向從相對于所述攝像機的已知或可檢測的位置傳輸聲信號,分別在所述陣列的兩個或多個所述麥克風或元件中接收所述聲信號,處理所述接收聲信號,用于計算所述攝像機與所述一個或多個麥克風或麥克風陣列中的一個之間的所述第二距離和/或方向。
5.如權(quán)利要求1或2所述的方法,其特征在于通過以下步驟確定所述攝像機與所述一個或多個麥克風或陣列中的一個之間的所述第二距離和方向為所述一個或多個麥克風或陣列中的所述一個提供可識別模式,標識所述攝像機捕捉的圖象內(nèi)的所述可識別模式,通過所述圖象內(nèi)所述模式的大小和/或位置確定所述第二距離和/或方向。
6.如權(quán)利要求2-5中的任一項所述的方法,其特征在于確定所述音源和一個或多個麥克風或陣列之間的所述第一距離和方向的所述步驟包括以下步驟對于預定的一組點中的每個點,計算從所述音源到每個可能的麥克風或麥克風元件對的各個麥克風或麥克風元件的接收聲信號的第一時間差,測量從所述音源到每個可能的麥克風或麥克風元件對的所述各個麥克風或麥克風元件的接收聲信號的第二時間差,通過將所有可能的麥克風或麥克風元件對的對應的第一和第二時間差之間的平方差相加來計算所述預定的一組點中每個點的誤差函數(shù)值,將與所述誤差函數(shù)的最小值相關(guān)聯(lián)的所述點選擇作為所述音源的所述位置。
7.如以上權(quán)利要求中的任一項所述的方法,其特征在于以下步驟使用使相對于所述攝像機的各個位置分別與對應的攝像機變焦量和方位相關(guān)聯(lián)的表格中所述音源相對于所述攝像機的所述位置來執(zhí)行查找,根據(jù)所述查找的結(jié)果使所述攝像機變焦和/或定向。
8.一種定位音源相對于攝像機的位置的裝置,其適用于確定所述音源和麥克風元件的一個或多個麥克風或陣列之間的第一距離和方向,其特征在于控制單元,其適用于確定所述攝像機與所述一個或多個麥克風或陣列中的一個之間的第二距離和方向,并且從所述音源和一個或多個麥克風或陣列之間的所述第一距離和方向、以及所述攝像機與所述一個或多個麥克風或陣列中的一個之間的所述第二距離和/或方向來幾何地推導所述音源相對于所述攝像機的所述位置。
9.如權(quán)利要求8所述的裝置,其特征在于所述控制單元還適用于檢測從所述音源到一個或多個麥克風或麥克風元件對的所述麥克風或麥克風元件的接收聲信號的各個時間差。
10.如權(quán)利要求8或9所述的裝置,其特征在于所述攝像機與所述一個或多個麥克風或陣列中的一個之間的所述第二距離和方向是固定的。
11.如權(quán)利要求8或9所述的裝置,其特征在于第一部件,其適用于傳輸相對于所述攝像機位于已知或可檢測位置中的聲信號,第二部件,其適用于分別在所述陣列的兩個或多個所述麥克風或元件中接收所述聲信號,并將所述接收聲信號傳輸?shù)剿隹刂茊卧?,所述控制單元適用于處理所述接收聲信號,用于計算所述攝像機與所述一個或多個麥克風或麥克風陣列中的一個之間的所述第二距離和方向。
12.如權(quán)利要求8或9所述的裝置,其特征在于為所述一個或多個麥克風或陣列中的所述一個提供可識別模式,所述攝像機和/或所述控制單元適用于標識所述攝像機捕捉的圖象內(nèi)的所述可識別模式,并且所述控制單元適用于通過所述圖象內(nèi)所述模式的大小和/或位置確定所述第二距離和方向。
13.如權(quán)利要求9-12中的任一項所述的裝置,其特征在于所述控制單元適用于
對于預定的一組點中的每個點而言,計算從所述音源到每個可能的麥克風或麥克風元件對的所述各個麥克風或麥克風元件的接收聲信號的第一時間差,測量從所述音源到每個可能的麥克風或麥克風元件對的所述各個麥克風或麥克風元件的接收聲信號的第二時間差,通過將所有可能的麥克風或麥克風元件對的對應的第一和第二時間差之間的平方差相加來計算所述預定的一組點中每個點的誤差函數(shù)值,將與所述誤差函數(shù)的最小值相關(guān)聯(lián)的所述點選擇作為所述音源的所述位置。
14.如權(quán)利要求8-13中的任一項所述的裝置,其特征在于所述控制單元包括使相對于所述攝像機的各個位置分別與對應的攝像機變焦量和方位相關(guān)聯(lián)的查找表格,并且所述控制單元適用于根據(jù)與所述音源相對于所述攝像機的所述位置相關(guān)聯(lián)的變焦量和/或方位來使所述攝像機變焦和/或定向。
權(quán)利要求
1.一種通過確定音源相對于麥克風元件的一個或多個麥克風或陣列的位置來定位所述音源相對于攝像機的所述位置的方法,其特征在于從所述音源相對于所述一個或多個麥克風或陣列的所述位置幾何地推導所述攝像機與所述音源之間的第一距離和/或方向以及所述攝像機與所述一個或多個麥克風或陣列中的一個之間的第二距離和/或方向。
2.如權(quán)利要求1所述的方法,其特征在于通過檢測從所述音源到一個或多個麥克風或麥克風元件對的所述麥克風或麥克風元件的接收聲信號的各個時間差來確定所述音源相對于所述一個或多個麥克風或陣列的所述位置的所述步驟。
3.如權(quán)利要求1或2所述的方法,其特征在于所述攝像機與所述一個或多個麥克風或陣列中的一個之間的所述第二距離和/或方向是固定的。
4.如權(quán)利要求1或2所述的方法,其特征在于通過以下步驟確定所述攝像機與所述一個或多個麥克風或陣列中的一個之間的所述第二距離和/或方向從相對于所述攝像機的已知或可檢測的位置傳輸聲信號,分別在所述陣列的兩個或多個所述麥克風或元件中接收所述聲信號,處理所述接收聲信號,用于計算所述攝像機與所述一個或多個麥克風或麥克風陣列中的一個之間的所述第二距離和/或方向。
5.如權(quán)利要求1或2所述的方法,其特征在于通過以下步驟確定所述攝像機與所述一個或多個麥克風或陣列中的一個之間的所述第二距離和/或方向為所述一個或多個麥克風或陣列中的所述一個提供可識別模式,標識所述攝像機捕捉的圖象內(nèi)的所述可識別模式,通過所述圖象內(nèi)所述模式的大小和/或位置確定所述第二距離和/或方向。
6.如權(quán)利要求2-5中的任一項所述的方法,其特征在于確定所述音源相對于所述一個或多個麥克風或陣列的所述位置的所述步驟還包括以下步驟對于預定的一組點中的每個點,計算從所述音源到每個可能的麥克風或麥克風元件對的所述各個麥克風或麥克風元件的接收聲信號的第一時間差,測量從所述音源到每個可能的麥克風或麥克風元件對的所述各個麥克風或麥克風元件的接收聲信號的第二時間差,通過將所有可能的麥克風或麥克風元件對的對應的第一和第二時間差之間的平方差相加來計算所述預定的一組點中每個點的誤差函數(shù)值,將與所述誤差函數(shù)的最小值相關(guān)聯(lián)的所述點選擇作為所述音源的所述位置。
7.如以上權(quán)利要求中的任一項所述的方法,其特征在于以下步驟使用使各個距離和方向分別與對應的攝像機變焦量和方位相關(guān)聯(lián)的表格中的所述第一距離和/或方向執(zhí)行查找,根據(jù)所述查找的結(jié)果使所述攝像機變焦和/或定向。
8.一種定位音源相對于攝像機的位置的裝置,其適用于確定所述音源相對于麥克風元件的一個或多個麥克風或陣列的位置,其特征在于控制單元,其適用于從所述音源相對于所述一個或多個麥克風或陣列中的一個的所述位置幾何地推導所述攝像機與所述音源之間的第一距離和/或方向以及所述攝像機與所述一個或多個麥克風或麥克風陣列中的一個之間的第二距離和/或方向。
9.如權(quán)利要求8所述的裝置,其特征在于所述控制單元還適用于檢測從所述音源到一個或多個麥克風或麥克風元件對的所述麥克風或麥克風元件的接收聲信號的各個時間差。
10.如權(quán)利要求8或9所述的裝置,其特征在于所述攝像機與所述一個或多個麥克風或陣列中的一個之間的所述第二距離和/或方向是固定的。
11.如權(quán)利要求8或9所述的裝置,其特征在于第一部件,其適用于傳輸位于相對于所述攝像機的已知或可檢測位置中的聲信號,第二部件,其適用于分別在所述陣列的兩個或多個所述麥克風或元件中接收所述聲信號,并將所述接收聲信號傳輸?shù)剿隹刂茊卧?,所述控制單元適用于處理所述接收聲信號,用于計算所述攝像機與所述一個或多個麥克風或麥克風陣列中的一個之間的所述第二距離和/或方向。
12.如權(quán)利要求8或9所述的裝置,其特征在于為所述一個或多個麥克風或陣列中的所述一個提供可識別模式,所述攝像機和/或所述控制單元適用于標識所述攝像機捕捉的圖象內(nèi)的所述可識別模式,并且所述控制單元適用于通過所述圖象內(nèi)所述模式的大小和/或位置確定所述第二距離和/或方向。
13.如權(quán)利要求9-12中的任一項所述的裝置,其特征在于所述控制單元適用于對于預定的一組點中的每個點而言,計算從所述音源到每個可能的麥克風或麥克風元件對的各個麥克風或麥克風元件的接收聲信號的第一時間差,測量從所述音源到每個可能的麥克風或麥克風元件對的所述各個麥克風或麥克風元件的接收聲信號之間的第二時間差,通過將所有可能的麥克風或麥克風元件對的對應的第一和第二時間差之間的平方差相加來計算所述預定的一組點中每個點的誤差函數(shù)值,將與所述誤差函數(shù)的最小值相關(guān)聯(lián)的所述點選擇作為所述音源的所述位置。
14.如權(quán)利要求8-13中的任一項所述的裝置,其特征在于所述控制單元包括使各個距離和方向分別與對應的攝像機變焦量和方位相關(guān)聯(lián)的查找表格,并且所述控制單元適用于根據(jù)與所述第一距離和/或方向相關(guān)聯(lián)的變焦量和/或方位來使所述攝像機變焦和/或定向。
全文摘要
本發(fā)明公開了在視頻會議中定位有源揚聲器的裝置和方法。根據(jù)本發(fā)明的優(yōu)選實施例,定位設(shè)備相對于攝像機定位一個或多個麥克風,而這些麥克風反過來相對于其自身的位置定位音源。由于在視頻會議中麥克風一般靠近音源安放,因此降低了麥克風(或麥克風元件)之間的距離相對于桌面麥克風與音源之間距離的比值。因此,如果麥克風靠近攝像機放置,則這些麥克風能夠以比靠近攝像機放置時更高的分辨率來確定音源的位置。當已知麥克風相對于攝像機與音源的各個位置時,然后通過幾何計算確定音源相對于攝像機的位置。
文檔編號H04R5/027GK1784900SQ200480012353
公開日2006年6月7日 申請日期2004年3月19日 優(yōu)先權(quán)日2003年5月8日
發(fā)明者P·穆倫, T·F·馬頓, T·-I·約翰森 申請人:坦德伯格電信公司