種方式來估計。例如,在某些實施例中,音頻捕 獲設(shè)備101的拓撲可W是預(yù)定的并且因此是服務(wù)器102所知道的。在運種情況下,服務(wù)器 102可W使用組ID來確定音頻信號發(fā)送自哪個組,繼而獲取與所確定的組相關(guān)聯(lián)的預(yù)定拓 撲作為拓撲估計。
[0033] 備選地或附加地,音頻捕獲設(shè)備101的拓撲可W基于組內(nèi)的多個音頻捕獲設(shè)備 101的每個配對之間的距離來估計。存在多種可能方式能夠獲取音頻捕獲設(shè)備101的每個 配對之間的距離。例如,在那些音頻捕獲設(shè)備能夠回放音頻的實施例中,每個音頻捕獲設(shè)備 101都可W被配置為各自同時回放一段音頻,并且接收來自組內(nèi)其他設(shè)備的音頻信號。也 良P,每個音頻捕獲設(shè)備101向組內(nèi)的其他成員廣播一個唯一的音頻信號。作為示例,每個音 頻捕獲設(shè)備可W回放跨唯一頻率范圍的和/或具有任何其他特殊聲學(xué)特征的線性調(diào)頻信 號(linearChi巧signal)。通過記錄線性調(diào)頻信號被收到時的時刻,可W通過聲學(xué)測距處 理來計算每對音頻捕獲設(shè)備101之間的距離,運是本領(lǐng)域技術(shù)人員所知道的,并且不再在 此詳述。
[0034] 運種距離計算例如可W在服務(wù)器102執(zhí)行。備選地,如果音頻捕獲設(shè)備可W直接 地彼此通信,運種距離計算也可W在客戶端執(zhí)行。在服務(wù)器102處,如果組內(nèi)僅存在兩個音 頻捕獲設(shè)備101,則無需附加的處理。當存在多于兩個音頻捕獲設(shè)備101時,在某些實施例 中,可W在已獲取的距離上執(zhí)行多維定標(MultidimensionalScaling,MD巧分析或類似處 理W估計音頻捕獲設(shè)備的拓撲。特別地,利用指示音頻捕獲設(shè)備101的配對之間距離的輸 入矩陣,MDS可被應(yīng)用W生成音頻捕獲設(shè)備101在二維空間中的坐標。例如,假設(shè)在包括S 個設(shè)備的組內(nèi)的測量到的距離矩陣是:
[003引則指示音頻捕獲設(shè)備101的拓撲的二維畑)MDS的輸出是Ml(0, -0. 0441),M2(-0. 0750,0. 0220)和M3 (0. 0750,0. 0220)。
[0037] 應(yīng)當注意,本發(fā)明的范圍不限于W上說明的示例。能夠估計音頻捕獲設(shè)備配對之 間距離的任何適當方式均可與本發(fā)明的實施例結(jié)合使用,無論是目前已知的還是將來開發(fā) 的。例如,音頻捕獲設(shè)備101可W被配置為相互廣播電信號和/或光信號W支持距離估計, 而不是回放音頻信號。
[0038] 接下來,方法300繼續(xù)到步驟S303,在此對步驟S301處接收的音頻信號執(zhí)行時間 對齊,使得由不同捕獲設(shè)備101捕獲的音頻信號在時間上彼此對齊。根據(jù)本發(fā)明的實施例, 音頻信號的時間對齊可W通過多種可行方式來實現(xiàn)。在某些實施例中,服務(wù)器102可W實 現(xiàn)基于協(xié)議的時鐘同步處理。例如,網(wǎng)絡(luò)時間協(xié)議(NT巧跨因特網(wǎng)提供準確且同步的時間。 當連接至因特網(wǎng)時,每個音頻捕獲設(shè)備101可被配置為在執(zhí)行音頻捕獲的同時分別執(zhí)行與 NTP服務(wù)器的同步。本地時鐘無需調(diào)整,而是可W計算本地時鐘與NTP服務(wù)器之間的偏移并 將它存儲為元數(shù)據(jù)。一旦音頻捕獲終止,本地時間及其偏移就隨通音頻信號一起被發(fā)送至 服務(wù)器102。服務(wù)器102繼而基于此類時間信息來對齊所接收的音頻信號。
[0039] 備選地或附加地,步驟S303處的時間對齊可W由端對端(peer-to-peer)時鐘同 步處理來實現(xiàn)。在運些實施例中,音頻捕獲設(shè)備可W端對端地彼此通信,例如通過藍牙或紅 外線連接之類的協(xié)議。音頻捕獲設(shè)備之一可W被選擇為同步主,并且可W計算所有其他捕 獲設(shè)備的時鐘相對于該同步主的偏移。
[0040] 另一可能的實施是基于互相關(guān)(cross-correlation)的時間對齊。已知的是,一 對輸入信號x(i)和y(i)之間的一系列互相關(guān)系數(shù)可W通過如下公式計算:
[0042] 其中愛和聚表示x(i)和y(i)的平均值,N表示x(i)和y(i)的長度,并且d表示 兩個系列之間的時滯。兩個信號之間的時延可W如下計算:
[0044] 然后使用x(i)作為參考,信號y(i)可W通過如下公式與x(i)時間對齊:
[0045]y似=y(i-D)
[0046] 應(yīng)當理解,盡管時間對齊可W通過應(yīng)用互相關(guān)處理來實現(xiàn),但如果捜索范圍過大, 該操作可能是耗時的并且是易錯的。然而,實踐中捜索范圍不得不相當長,W便于適應(yīng)較大 的網(wǎng)絡(luò)時延變化。為了解決該問題,可W收集關(guān)于音頻捕獲設(shè)備101所發(fā)出的校準信號的 信息并且將其發(fā)送至服務(wù)器102,W用于縮小互相關(guān)處理的捜索范圍。如上所述,在本發(fā)明 的某些實施例中,在開始音頻捕獲時,音頻捕獲設(shè)備101可W向組內(nèi)的其他成員廣播音頻 信號,由此支持對每對音頻捕獲設(shè)備101之間距離的計算。在運些實施例中,廣播音頻信號 還可W被用作校準信號,用W減小信號相關(guān)所耗費的時間。特別地,考慮組內(nèi)的兩個音頻捕 獲設(shè)備A和B,假設(shè):
[0047]Sa是設(shè)備A發(fā)出播放校準信號的命令的時刻;
[0048]Sb是設(shè)備B發(fā)出播放校準信號的命令的時刻;
[0049]Rm是設(shè)備A接收到由設(shè)備A發(fā)送的信號的時刻;
[0050]Rm是設(shè)備A接收到由設(shè)備B發(fā)送的信號的時刻;
[005。Ree是設(shè)備B接收到由設(shè)備B發(fā)送的信號的時刻;
[005引Rab是設(shè)備B接收到由設(shè)備A發(fā)送的信號的時刻。
[0053] 運些時刻中的一個或多個可W被音頻捕獲設(shè)備101記錄并且被發(fā)送至服務(wù)器102 W用于互相關(guān)處理。
[0054] -般而言,從設(shè)備A到設(shè)備B的聲傳播時延小于網(wǎng)絡(luò)時延差異。即Se-SA〉RAB-SA。 因此,時刻Rm和Ree可被用于啟動基于互相關(guān)的時間對齊處理。換言之,僅在時刻ReA和Ree 之后的音頻信號樣本才將被包括到互相關(guān)計算中。W此方式,捜索范圍可得W減小并且因 此提高了時間對齊的效率。
[00巧]然而,網(wǎng)絡(luò)時延差異也可能小于聲音傳播時延差異。運可能在網(wǎng)絡(luò)具有極低抖動 或兩個設(shè)備被放置相隔較遠或二者都存在的情況下發(fā)生。在運種情況下,Se和SA可被用作 互相關(guān)處理的起始點。特別地,因為Se和SA之后的音頻信號可能包含校準信號,因此ReA可 被用作針對設(shè)備A的相關(guān)的起始點,而Se+(Rm-Sa)可被用作針對設(shè)備B相關(guān)的起始點。 [0056] 將會理解,用于時間對齊的上述機制可W通過任何適當?shù)姆绞浇Y(jié)合。例如,在本發(fā) 明的某些實施例中,時間對齊可W分為=步處理。首先,可W在音頻捕獲設(shè)備101和服務(wù)器 102之間執(zhí)行粗略時間同步。接下來,上文討論的校準信號可被用于精確同步。最后,互相 關(guān)分析被應(yīng)用,W完成音頻信號的時間對齊。
[0057] 應(yīng)當注意,步驟S303處的時間對齊是可選的。例如,如果通信和/或設(shè)備條件足 夠好的話,有理由認為所有的音頻捕獲設(shè)備101幾乎在相同的時間接收到捕獲命令,并且 因此同時開始進行音頻捕獲。此外,將會容易地理解,在某些對環(huán)繞立體聲聲場的品質(zhì)不是 很敏感的應(yīng)用中,可W容許或忽略一定程度的音頻捕獲起始時間的未對齊。在運些情形中, 可W省略步驟S303處的時間對齊。
[0058] 特別地,應(yīng)當注意,步驟S302并非一定要在步驟S303之前執(zhí)行。在某些備選地實 施例中,音頻信號的時間對齊可W先于或甚至并行于拓撲估計而被執(zhí)行。例如,諸如NTP同 步或端對端同步的時鐘同步處理可W在拓撲估計之前被執(zhí)行。取決于聲學(xué)測距方法,運種 時鐘同步處理可能有益于拓撲估計中的聲學(xué)測距。
[0059] 繼續(xù)參考圖3,在步驟S304,至少部分地基于步驟S302處的拓撲估計,從接收到的 音頻信號(可能已在時間上對齊)生成環(huán)繞立體聲聲場。為此目的,根據(jù)某些實施例,可W 基于音頻捕獲設(shè)備的數(shù)目來選擇用于處理音頻信號的模式。例如,如果組內(nèi)僅存在兩個音 頻捕獲設(shè)備101,則可W簡單地結(jié)合兩個音頻信號W生成立體聲輸出??蛇x地,還可W執(zhí)行 某些后處理,包括但不限于立體聲聲像加寬、多聲道混合,等等。另一方面,當組內(nèi)存在不止 兩個音頻捕獲設(shè)備101時,可W應(yīng)用Ambisonics處理或稱B-格式度-format)處理來生成 環(huán)繞立體聲聲場。應(yīng)當注意,對處理模式的自適應(yīng)選擇并非一定是必需的。例如,即使僅存 在兩個音頻捕獲設(shè)備,也可W通過由B-格式處理來處理捕獲的音頻信號從而生成環(huán)繞立 體聲聲場。
[0060] 接下來,將參考Ambisonics處理來描述本發(fā)明的如何生成環(huán)繞立體聲聲場的實 施例。然而應(yīng)該注意,本發(fā)明的范圍在此方面不受限制。能夠基于所估計的拓撲而從接收 到的音頻信號生成環(huán)繞立體聲聲場的任何適當技術(shù)都可W與本發(fā)明的實施例結(jié)合使用。例 如,也可W使用雙聲道或5. 1聲道環(huán)繞聲生成技術(shù)。
[0061] 對于Ambisonics,它被認為是用于提供聲場和聲源定位可恢復(fù)性的靈活的空間音 頻處理技術(shù)。在Ambisonics中,3D環(huán)繞立體聲聲場被記錄為四聲道信號,稱為具有W-X-Y-Z 聲道的B-格式。W聲道包含全向聲壓信息,而剩下的S個聲道X、Y和Z表示3D卡迪爾坐 標系中的=個相應(yīng)坐標軸上測量的聲速信息。特別地,給出定位在方位角^和仰角0的聲 源S,環(huán)繞立體聲聲場的理想B-格式表示為:
[0065]Z=sin白?S
[0066] 為簡化目的,在下文對用于B-格式信號的指向性圖(directivitypattern)的討 論中,僅考慮水平的W、X和Y聲道,而仰角軸Z將被忽略。運是一個合理的假設(shè),因為對于 根據(jù)本發(fā)明實施例的音頻捕獲設(shè)備101捕獲音頻信號的方式而言,通常不存在仰角信息。
[0067] 對于一個平面波,離散陣列的指向性可W表示如下:
[0069] 其中<