亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

三維聲音重現(xiàn)的方法、裝置及系統(tǒng)的制作方法

文檔序號:7920630閱讀:246來源:國知局
專利名稱:三維聲音重現(xiàn)的方法、裝置及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及通信領(lǐng)域,特別是涉及一種三維聲音重現(xiàn)的方法、裝 置及系統(tǒng)。
背景技術(shù)
人的聽覺不僅涉及聽覺器官本身,還涉及視覺,甚至觸覺等生理、 物理、心理等綜合因素。從聽覺角度來講,人耳除了聲音有響度、音 調(diào)、音色的主觀感覺外,還有對聲源的空間印象感覺,即對聲源的定
位能力。人耳對聲源的定位能力產(chǎn)生于如下原因人的雙耳之間有一 定的距離(約17cm),若某一點聲源偏離聽音人正前方主軸方向,到達 兩耳的聲音是有差別的,人的聽覺系統(tǒng)根據(jù)這些差別就可以判斷出聲 源的方位,這一理論被稱為"雙耳效應"理論。雙耳效應理論認為人 耳對聲源方位的判斷能力是根據(jù)由于雙耳距離差引起的以下四個物理 因素產(chǎn)生的,具體為
1. 聲音到達雙耳間的時間差;
2. 聲音到達雙耳間的強度差;
3. 聲音低頻分量由于時間差產(chǎn)生的相位差;
4. 由于人頭對高頻分量的遮蔽作用產(chǎn)生的音色差。
由于上面的原因,自然界發(fā)出的聲音被人耳感知后都能夠被確定 聲源的空間位置,即帶有立體聲效果。但如果把這些立體聲經(jīng)過記錄、
放大等處理后進行重放時,所有的聲音都從一個揚聲器放出來,這種 重放聲(與原聲源相比)就不是立體的了。這是由于各種聲音都從同 一個揚聲器發(fā)出,原來的空間感也消失了。如果從記錄到重放整個系 統(tǒng)能夠在一定程度上恢復原發(fā)聲的空間感,那么這種具有一定程度的 方位層次等空間分布特性的重放聲稱為音響技術(shù)中的立體聲。
如圖1所示,現(xiàn)有的揚聲器立體聲重現(xiàn)系統(tǒng)中,通過調(diào)整立體聲
重現(xiàn)系統(tǒng)中的兩個揚聲器101、 102的信號的時間差或者強度差,在傳 播過程中疊加后被聽音人P感知。由于人的雙耳效應的存在,聽音人P 會感覺聲源位于一個虛擬的位置,如圖中的VSS(虛擬聲源,Virtual Sound Source)所標記的聲源,而不是感覺有兩個聲源(每一個揚聲器 可以看作是一個聲源)。
圖2是運用上述現(xiàn)有技術(shù)的揚聲器立體聲重現(xiàn)系統(tǒng)的多方視訊會 議示意圖。如圖2所示,這里以三方視訊會議為例,圖中的會場A、會 場B和會場C是三個不同的會場。會場B和會場C中的與會者、指向 性麥克風、揚聲器及顯示屏均與會場A類似,所以圖中未示出。會場 之間通過網(wǎng)絡進行通信。會場A中,Pl-P4為四個與會者;M1 M3為 三個指向性麥克風,用于捕捉會場中的聲音信號;L11 L12為兩個揚 聲器,用于聲音重現(xiàn);Dl-D2為兩個顯示屏幕,用于分別顯示會場B 和會場C中的攝像機捕捉到的會場場景。三個麥克風M1 M3所采集到 的信號凈皮混疊為一個聲道或者兩個聲道,分別傳送到會場B和會場C 中;在會場B和會場C中,將接收到的聲音信號,通過兩個會場中的 揚聲器,利用立體聲重現(xiàn)方法,將聲音重現(xiàn)出來。另外,每個會場內(nèi) 的麥克風的個數(shù)也可以是由多個麥克風組成的一個麥克風陣列,該麥 克風陣列捕捉到的信號也混疊為一個或者兩個聲道,傳到其他的會場。
發(fā)明人在完成本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下問題 現(xiàn)有的立體聲重現(xiàn)系統(tǒng)中,通常存在一個"熱點"區(qū)域,即黃金位置, 只有在該位置的聽者才能得到好的立體聲效果,在其它位置的聽者則 不能得到好的立體聲效果。而在視訊通信系統(tǒng)中,通常在一個會場有 多個與會者,這樣必然使得一些與會者不能聽到較好的立體聲效果, 也就是音頻的空間感有限。這在會場中的顯示屏幕較大時更為突出, 因為從視覺的角度看,較大的顯示屏幕可以使更多的與會者獲得較好 的觀看效果,但是由于現(xiàn)有技術(shù)的立體聲重現(xiàn)系統(tǒng)存在的熱點區(qū)域問 題,使得只有部分位于黃金位置的與會者能得到好的立體聲效果,在 其它位置的與會者則不能得到好的立體聲效果,音頻的空間感較差。

發(fā)明內(nèi)容
本發(fā)明實施例所要解決的技術(shù)問題在于,提供一種三維聲音重現(xiàn) 方法、裝置及系統(tǒng),使得在再現(xiàn)聲場中的任何位置都具有較好的立體 聲效果,消除熱點區(qū)域。
本發(fā)明實施例提供一種三維聲音重現(xiàn)的發(fā)送端處理方法,包括 獲取來自各個聲源的多路音頻信號;
對所述獲取到的多路音頻信號進行聲源分離,得到與所述各個聲 源對應的音頻信號;
根據(jù)所述獲取的多路音頻信號及用來獲取來自各個聲源的多路音 頻信號的裝置之間的位置關(guān)系計算出與所述各個聲源對應的方位信 息;
將所述與各個聲源對應的音頻信號和方位信息分別進行編碼。
本發(fā)明實施例還提供一種三維聲音重現(xiàn)的接收端處理方法,包括 將接收的編碼后的與各個聲源對應的音頻信號和方位信息進行解
碼;
按照解碼后的與各個聲源對應的方位信息將解碼后的與各個聲源 對應的音頻信號重現(xiàn)為三維聲音。
本發(fā)明實施例還提供一種三維聲音重現(xiàn)的發(fā)送裝置,包括
多路音頻信號獲取單元,用于獲取來自各個聲源的多路音頻信號;
聲源分離模塊,用于將所述獲取的多路音頻信號進行聲源分離, 得到與所述各個聲源對應的音頻信號;
方位計算模塊,用于根據(jù)所述獲取的多路音頻信號及用來獲取來 自各個聲源的多路音頻信號的裝置之間的位置關(guān)系計算出與所述各個 聲源對應的方位信息;
編碼模塊,用于將所述與各個聲源對應的音頻信號和方位信息分 別進行編碼。
本發(fā)明實施例還提供一種三維聲音重現(xiàn)的接收裝置,包括
解碼模塊,用于將接收的編碼后的與各個聲源對應的音頻信號和 方位信息進行解碼;
聲音重現(xiàn)模塊,用于按照解碼后的與各個聲源對應的方位信息將 解碼后的與各個聲源對應的音頻信號重現(xiàn)為三維聲音。
本發(fā)明實施例還提供一種三維聲音重現(xiàn)系統(tǒng),包括 頁 A. 三維聲音重現(xiàn)的發(fā)送裝置,具體包括
多路音頻信號獲取單元,用于獲取來自各個聲源的多路音頻信號;
聲源分離模塊,用于將獲取的多路音頻信號進行聲源分離,得到 與所述各個聲源對應的音頻信號;
方位計算模塊,用于根據(jù)所述獲取的多路音頻信號及用來獲取來 自各個聲源的多路音頻信號的裝置之間的位置關(guān)系計算出與所述各個 聲源對應的方位信息;
編碼模塊,用于將所述與各個聲源對應的音頻信號和方位信息分 別進4于編;馬;和
B. 三維聲音重現(xiàn)的接收裝置,具體包括
解碼模塊,用于將接收的編碼后的與各個聲源對應的音頻信號和 方位信息進行解碼;
聲音重現(xiàn)模塊,用于按照解碼后的與各個聲源對應的方位信息將 解碼后的與各個聲源對應的音頻信號重現(xiàn)為三維聲音。
本發(fā)明實施例具有以下有益效果通過將不同聲源所對應的音頻 信號分離出來處理,為整個空間提供基本相同質(zhì)量的聲覆蓋,基本可 以重現(xiàn)出原始真實的聲場,提高視訊會議系統(tǒng)的音頻空間感。


圖l是現(xiàn)有技術(shù)的揚聲器立體聲重現(xiàn)示意圖2是現(xiàn)有技術(shù)的多方會議的揚聲器立體聲重現(xiàn)系統(tǒng)的示意圖3是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的發(fā)送端處理方法的實施
例一的流程圖4是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的發(fā)送端處理方法的實施 例二的流程圖5是圖4中所示的三維聲音重現(xiàn)的發(fā)送端處理方法的麥克風陣 列捕捉聲音信號的示意圖6是圖4中所示的三維聲音重現(xiàn)的發(fā)送端處理方法中的盲源分 離方法的基本原理框圖7是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的接收端處理方法的實施 例一的流程圖8是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的接收端處理方法的實施 例二的流程圖9是使用圖8中所示的三維聲音重現(xiàn)的接收端處理方法中的波 前合成方法前的原始聲場;
圖IO是使用圖8中所示的三維聲音重現(xiàn)的接收端處理方法中的波 前合成方法后的聲場;
圖ll是圖8中所示的三維聲音重現(xiàn)的接收端處理方法中的揚聲器 陣列播放音頻信號的示意圖12是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的發(fā)送裝置的實施例一的 示意圖13是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的發(fā)送裝置的實施例二的
示意圖14是圖13中所示三維聲音重現(xiàn)的發(fā)送裝置中的方位計算模塊 的示意圖15是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的接收裝置的實施例一的 示意圖16是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的接收裝置的實施例二的 示意圖17是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)系統(tǒng)的實施例 一 的示意框
圖; —
圖18是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)系統(tǒng)的實施例二的示意框
圖19是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)系統(tǒng)的一實施例的組網(wǎng)圖。
具體實施例方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方 案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明的一 部分實施例,而不是全部的實施例。
圖3是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的發(fā)送端處理方法的實施 例一的流程圖。該流程圖包括下列步驟
步驟S301:獲取來自各個聲源的多路音頻信號;
在實施步驟S301過程中,所述獲取來自各個聲源的多路音頻信號
是使用麥克風陣列完成的。
步驟S302:將獲取的多路音頻信號進行聲源分離,得到與所述各 個聲源對應的音頻信號;
在實施步驟S302中,所述將獲取的多路音頻信號進行聲源分離采 用盲源分離方法。
步驟S303:根據(jù)所述獲取的多路音頻信號及用來獲取來自各個聲 源的多路音頻信號的裝置之間的位置關(guān)系計算出與所述各個聲源對應 的方位信息;
在實施步驟S303的過程中,所述根據(jù)所述獲取的多路音頻信號及 用來獲取來自各個聲源的多路音頻信號的裝置之間的位置關(guān)系計算出 與所述各個聲源對應的方位信息具體包括估算所述多路音頻信號傳 播到所述用來獲取來自各個聲源的多路音頻信號的各個裝置之間的相 對時延;根據(jù)估算出的所述相對時延及用來獲取來自各個聲源的多路 音頻信號的裝置之間的位置關(guān)系計算出與所述各個聲源對應的方位信 息。
步驟S304:將所述與各個聲源對應的音頻信號和方位信息分別進 行編碼。
本實施例能夠?qū)⒒祀s在一起的不同聲源所對應的音頻信號分離出 來,并計算出不同聲源所對應的音頻信號的位置信息,使得聲音輸出 時可以很好地模擬再現(xiàn)原始真實聲場。
圖4是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的發(fā)送端處理方法的實施
例二的流程圖。該流程圖包括下列步驟
步驟S401:首先獲取來自各個聲源的多路音頻信號,本實施例采 用多個麥克風組成的麥克風陣列采集同時說話的多個人(即多個聲源) 的語音信號,從而捕獲多路聲音信號,將其轉(zhuǎn)換為多路音頻信號。
步驟S402:對麥克風陣列采集輸入的多路音頻信號進行聲源分離, 得到與所述各個聲源對應的音頻信號。在該實施例中,采用盲源分離 方法對不同聲源的音頻信號進行分離。
步驟S403:根據(jù)步驟S401中獲取的多路音頻信號及麥克風陣列中 的各個麥克風之間的位置關(guān)系分別計算出與各個聲源對應的方位信 息。在該實施例中,采用基于時延估算的聲源定位算法計算與各個聲 源對應的方位信息。
步驟S404:將與各個聲源對應的音頻信號和各個聲源的方位信息 進行編碼,然后通過網(wǎng)絡發(fā)送給三維聲音重現(xiàn)的接收端。
下面詳細說明基于時延估算的聲源定位算法
圖5是圖4中所示的三維聲音重現(xiàn)的發(fā)送端處理方法的麥克風陣 列捕捉聲音信號的示意圖。如圖5所示,由于聲源與各個麥克風之間 的距離不同,所以聲源發(fā)出的聲音信號傳播到麥克風陣列中的不同麥 克風的時間不同。例如存在兩個聲源,聲源1發(fā)出的聲音信號傳播到 麥克風陣列中的各個麥克風的時間是不同的,聲源2發(fā)出的聲音信號 傳播到麥克風陣列中的各個麥克風的時間也是不同的,這樣從不同的 麥克風輸出的對應同 一聲源的音頻信號的時間也不相同。因此首先估 算與各個聲源對應的音頻信號之間的相對時延,然后利用估算出來的
相對時延結(jié)合已知的麥克風之間的位置關(guān)系確定各個聲源的方位。時
延估算算法中應用最為廣泛的是廣義互相關(guān)函數(shù)法(GCC, Genera 1 ized Cross Correlation)。廣義互相關(guān)函數(shù)法通過求兩音頻信號之間的互 功率譜,并在頻域內(nèi)進行加權(quán),對噪聲和反射聲進行抑制,再反變換 到時域,得到兩音頻信號間的互相關(guān)函數(shù)?;ハ嚓P(guān)函數(shù)的峰值位置即 為兩音頻信號之間的相對時延。得到音頻信號之間的時延后,結(jié)合已 知的麥克風之間的位置關(guān)系,即可得到與聲源對應的方位信息。
下面詳細^兌明盲源分離方法
圖6是圖4中所示的三維聲音重現(xiàn)的發(fā)送端處理方法中的盲源分 離方法的基本原理框圖。所謂盲源分離,是指在不知道源信號和傳輸 信道的先驗信息的情況下,根據(jù)輸入信號的統(tǒng)計特征,僅由觀測到的 混合信號來回復或分離出源信號。也就是說,源信號是不能被觀測到 的,得到的是混合后的信號;另外,各個不同的源信號是如何混合的 也是未知的。典型的被觀測信號是一系列傳感器的輸出,而每一個傳 感器收到的是源信號的不同組合。盲源分離的主要任務就是從觀測數(shù) 據(jù)中恢復出源信號。對應于本發(fā)明的實施例中,麥克風陣列采集同時 說話的多個人的語音信號,從而獲得多路語音,利用盲源分離技術(shù)從 這多路語音中恢復出每個人對應的語音信號,也就是從多路語音中分 離出與多個聲源對應的音頻信號。盲源分離方法的基本原理就是使觀
測信號經(jīng)過一個分離系統(tǒng)后能恢復或分離出源信號。如圖6所示,N個 相互統(tǒng)計獨立的未知源信號<formula>formula see original document page 16</formula>經(jīng)未知混 合系統(tǒng)H的傳輸后,由M個傳感器檢測獲得M個觀測信號x = [x,(t), x2(t), xM(t)]T 。盲源分離的任務是將觀測信號通過信號分離器
(即,通過分離算法)后使得輸出<formula>formula see original document page 16</formula>是
源信號的一個拷貝或估計。
目前解決盲源分離最主要的方法有如下三種
① 獨立分量分析方法。通過尋求一個線性變換,使得信號經(jīng)過變 換后,其不同分量之間的相依性最小。該方法是由Comon于1994年提 出的。當信號之間的獨立性采用不同的準則測度時,即可得到不同的 算法。
② 熵最大化方法。利用非線性傳遞函數(shù)對輸出進行變換,使得輸 出分布包含在一個有限的超立方體中,然后熵的最大化將迫使輸出盡 可能在超立方體中均勻散布。該方法是由Bell和Sejnowski于1995 年提出的。
③ 非線性主分量分析方法。這類方法是由0ja與Karhumen等人 提出的,它是線性主分量分析方法的推廣,在正交約束下可以實現(xiàn)信 號的分離。
本實施例通過麥克風陣列捕捉多路音頻信號,并通過盲源分離方 法能夠很好地將混雜在一起的不同聲源所對應的音頻信號分離出來, 并根據(jù)音頻信號計算出不同聲源所對應的音頻信號的位置信息,通過 網(wǎng)絡發(fā)送給聲音輸出端,使得聲音輸出時可以很好地模擬再現(xiàn)原始真 實聲場。
圖7是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的接收端處理方法的實施 例 一 的流程圖。該流程圖包括下列步驟
步驟S701:將接收的所述編碼后的與各個聲源對應的音頻信號和
方位信息進行解碼;
步驟S702:三維聲音重現(xiàn),即按照解碼后的與各個聲源對應的方 位信息將解碼后的與各個聲源對應的音頻信號重現(xiàn)為三維聲音。
在實施步驟S702的過程中,所述按照解碼后的與各個聲源對應的
方位信息將解碼后的與各個聲源對應的音頻信號重現(xiàn)為三維聲音是使 用揚聲器陣列完成的。所述按照解碼后的與各個聲源對應的方位信息
將解碼后的與各個聲源對應的音頻信號重現(xiàn)為三維聲音采用波前合成 方法。
本發(fā)明實施例將編碼后的音頻信號和方位信息進行解碼,在聲音 輸出端處生成各路音頻信號對應的虛擬聲源,能夠?qū)⒍嗦曉吹亩嗦芬?頻信息較為逼真地重現(xiàn)出來。
圖8是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的接收端處理方法的實施 例二的流程圖。該流程圖包括下列步驟
步驟S801:三維聲音重現(xiàn)的接收端接收三維聲音重現(xiàn)的發(fā)送端通 過網(wǎng)絡發(fā)送來的編碼后的與各個聲源對應的音頻信號和方位信息后, 對其進行解碼,解碼后得到與各個聲源對應的音頻信號和方位信息;
步驟S802:利用波前合成方法,通過揚聲器陣列將三維聲音重現(xiàn) 出來。
下面詳細i兌明波前合成方法
圖9是使用圖8中所示的三維聲音重現(xiàn)的接收端處理方法中的波
前合成方法前的原始聲場;圖IO是使用圖8中所示的三維聲音重現(xiàn)的 接收端處理方法中的波前合成方法后的聲場。
根據(jù)揚聲器陣列理論,將若干個揚聲器排列成一個陣列,例如間 隔排列在一條直線上,每個揚聲器單元輻射一個平面的同相位波陣面, 多個單元的組合就可以提供單一的主擴展聲源。該揚聲器陣列的波陣 面通過在整個音頻范圍內(nèi)的耦合,使得聲音以波束的形式在 一 定的方 向上傳播。通過控制揚聲器陣列中各個揚聲器對應輸入信號的延遲時 間,可使聲波在指定地點或者方向發(fā)生疊加,而在其它位置發(fā)生破壞 性干涉,從而實現(xiàn)根據(jù)需要改變聲音傳播方向的目的,這也就是所謂 的"波前合成"。所謂波前合成(Wave Field Synthesis)是利用惠更 斯(Huyghens)原理來進行聲波合成的,其內(nèi)容為"波陣面(Wave Front) 上所有的點均可以看作 一個新的波源,這些波源和原始的波源有同樣 的速率和波長,在疊加之后這些波源在下一個瞬間形成新的波陣面"。 采用波前合成技術(shù)可以對聲場進行真實的重現(xiàn)。
本實施例中使用多個揚聲器作為新的波源,利用Huyghens原理, 采用波前合成方法將不同虛擬聲源對應的信號傳送到不同的揚聲器重 現(xiàn)出來。具體的說,設定虛擬聲源的個數(shù)為M,揚聲器的個數(shù)為N,在 使用波前合成方法時,某一個虛擬聲源對應的信號可以使用N個揚聲 器中的2-N個揚聲器重現(xiàn)出來;當有多個聲源時,則可能有多個聲源 對應的信號共用一個揚聲器的情況。圖ll是圖8中所示的三維聲音重 現(xiàn)的接收端處理方法中的揚聲器陣列播放音頻信號的示意圖。舉例說 明,如圖ll所示,根據(jù)會場接收到的聲源所生成的虛擬聲源共有Sl、 S2、 S3三個,用于聲音重放的揚聲器有Ll、 L2、 L3、 L4、 L5、 L6共六 個。其中SI對應的信號用Ll和L4重放出來、S2對應的信號用Ll、
L4、 L5、 L6重放出來,S3對應的信號用L2和L5重放出來;既Ll被 S1和S2共用,L4被S1和S2共用,L5被S2和S3共用。
本發(fā)明實施例提供的三維聲音重現(xiàn)的接收端處理方法采用波前合 成方法對聲音進行重現(xiàn),能夠為整個聆聽空間提供相同質(zhì)量的聲覆蓋, 提高了整個視聽空間中的立體聲效果,使得在整個視聽空間中都能感 受到原始真實的聲音。
圖12是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的發(fā)送裝置的實施例一的 示意圖。如圖所示,三維聲音重現(xiàn)的發(fā)送裝置12中包含多路音頻信 號獲取單元121,處理單元122和編碼模塊123,其中處理單元1"包 括聲源分離模塊1221和方位計算模塊1222。多路音頻信號獲取單元 121用于獲取來自各個聲源的多路音頻信號;聲源分離模塊1221用于 將獲取的多路音頻信號進行聲源分離得到與各個聲源對應的音頻信 號;方位計算模塊1222用于根據(jù)所述獲取的多路音頻信號及用來獲取 來自各個聲源的多路音頻信號的裝置之間的位置關(guān)系計算出與所述各 個聲源對應的方位信息;編碼模塊123用于將所述與各個聲源對應的 音頻信號和方位信息分別進行編碼。
本實施例能夠?qū)⒒祀s在一起的不同聲源所對應的音頻信號分離出 來,并計算出不同聲源所對應的音頻信號的位置信息,使得聲音輸出 時可以很好地模擬再現(xiàn)原始真實聲場
圖13是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的發(fā)送裝置的實施例二的 示意圖。如圖所示,三維聲音重現(xiàn)的發(fā)送裝置13中包含多路音頻信
號獲取單元131,處理單元132和編碼才莫塊133,其中處理單元132包 括盲源分離模塊1321和方位計算模塊1322。多路音頻信號獲取單元 131,本實施例中為麥克風陣列,用于獲取來自各個聲源的多路音頻信 號;盲源分離模塊1321用于將獲取的多路音頻信號進行盲源分離得到 與各個聲源對應的音頻信號;方位計算模塊1322用于根據(jù)所述獲取的 多路音頻信號及用來獲取來自各個聲源的多路音頻信號的裝置之間的 位置關(guān)系計算出與所述各個聲源對應的方位信息;方位計算模塊1322 具體包括時延估算模塊1322. 1和聲源定位模塊1322. 2,如圖14所示, 其中時延估算模塊1322. 1用于估算與各個聲源對應的音頻信號之間的 相對時延,聲源定位模塊1322. 2根據(jù)估算出的相對時延,并結(jié)合已知 的麥克風之間的位置關(guān)系,確定出聲源的方位信息。編碼模塊133用 于將所述與各個聲源對應的音頻信號和方位信息分別進行編碼。
本發(fā)明實施例提供的三維聲音重現(xiàn)的發(fā)送裝置使用盲源分離模塊 能夠更有效精確地將多路音頻信號獲取單元121所獲取的多路音頻信 號分離出來,使用包含時延估算模塊和聲源定位模塊的方位計算模塊 能夠更好地估算出與各個聲源對應的方位信息。
圖15是才艮據(jù)本發(fā)明提供的三維聲音重現(xiàn)的接收裝置的實施例一的 示意圖。如圖所示,本實施例提供的三維聲音重現(xiàn)的接收裝置15包括 解碼模塊151和聲音重現(xiàn)模塊152,解碼模塊151用于將接收到的編碼 后的與各個聲源對應的音頻信號和方位信息進行解碼;聲音重現(xiàn)模塊 152用于按照解碼后的與各個聲源對應的方位信息將解碼后的與各個 聲源對應的音頻信號重現(xiàn)為三維聲音。
本實施例的三維聲音重現(xiàn)的接收裝置能夠重現(xiàn)出具有良好空間感 的三維聲音。
圖16是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)的接收裝置的實施例二的 示意圖。如圖所示,本發(fā)明實施例提供的三維聲音重現(xiàn)的接收裝置16 包括解碼模塊161和聲音重現(xiàn)模塊162,解碼模塊151用于將接收到 的編碼后的與各個聲源對應的音頻信號和方位信息進行解碼;聲音重 現(xiàn)模塊162包括波前合成模塊1621和揚聲器陣列1622,解碼后的音頻 信號通過波前合成模塊1621利用波前合成方法通過揚聲器陣列1622 的共同作用重現(xiàn)為三維聲音。
本發(fā)明實施例提供的三維聲音重現(xiàn)的接收裝置使用波前合成技術(shù) 和揚聲器陣列對多路音頻信息進行重現(xiàn),能夠逼真地再現(xiàn)出原聲場, 給人以親臨現(xiàn)場的感覺。
圖17是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)系統(tǒng)的實施例一的示意框 圖。如圖所示,該三維聲音重現(xiàn)系統(tǒng)包括三維聲音重現(xiàn)的發(fā)送裝置171 和三維聲音重現(xiàn)的接收裝置172。三維聲音重現(xiàn)的發(fā)送裝置171中包含 多路音頻信號獲取單元1701、處理單元1700和編碼模塊1704,其中 處理單元1700包括聲源分離模塊1702和方位計算模塊1703。多路音 頻信號獲取單元1701用于獲取來自各個聲源的多路音頻信號;聲源分 離模塊1702用于將獲取的多路音頻信號進行聲源分離得到與各個聲源 對應的音頻信號;方位計算模塊1703用于根據(jù)所述獲取的多路音頻信 號及用來獲取來自各個聲源的多路音頻信號的裝置之間的位置關(guān)系計
算出與所述各個聲源對應的方位信息;編碼模塊1704用于將所述與各 個聲源對應的音頻信號和方位信息分別進行編碼。三維聲音重現(xiàn)的接 收裝置172中包括解碼模塊1705和聲音重現(xiàn)模塊1706。解碼模塊1705 用于將接收到的編碼后的與各個聲源對應的音頻信號和方位信息進行 解碼;聲音重現(xiàn)模塊1706用于按照解碼后的與各個聲源對應的方位信 息將解碼后的與各個聲源對應的音頻信號重現(xiàn)為三維聲音。
圖18是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)系統(tǒng)的實施例二的示意框 圖。如圖所示,該三維聲音重現(xiàn)系統(tǒng)包括三維聲音重現(xiàn)的發(fā)送裝置181 和三維聲音重現(xiàn)的接收裝置182。
三維聲音重現(xiàn)的發(fā)送裝置181中包含多路音頻信號獲取單元1801、 處理單元1800和編碼模塊1804,其中處理單元1800包括盲源分離模 塊1802和方位計算模塊1803。多路音頻信號獲取單元1801用于獲取 來自各個聲源的多路音頻信號;盲源分離模塊1802用于將獲取的多路 音頻信號進行盲源分離得到與各個聲源對應的音頻信號;方位計算模 塊1803用于根據(jù)所述獲取的多路音頻信號及用來獲取來自各個聲源的 多路音頻信號的裝置之間的位置關(guān)系計算出與所述各個聲源對應的方 位信息。其中方位計算模塊1803包括時延估算模塊1803. 1和聲源定 位模塊1803. 2,其中時延估算模塊1803. 1用于估算與各個聲源對應的 音頻信號之間的相對時延,聲源定位模塊1803. 2根據(jù)估算出的相對時 延,并結(jié)合已知的麥克風之間的位置關(guān)系,確定出聲源的方位信息。 編碼模塊1804用于將所述與各個聲源對應的音頻信號和方位信息分別 進行編碼。
三維聲音重現(xiàn)的接收裝置182中包括解碼模塊1805和聲音重現(xiàn)模 塊1806,解碼模塊1805用于將接收到的編碼后的與各個聲源對應的音 頻信號和方位信息進行解碼;聲音重現(xiàn)模塊1806包括波前合成模塊 1806.1和揚聲器陣列1806.2,解碼后的音頻信號通過波前合成模塊 1806. l利用波前合成方法通過揚聲器陣列1806. 2共同作用重現(xiàn)為三維 聲音。
在多方視訊會場中設置本實施例的聲源重現(xiàn)系統(tǒng),將大大改善視 訊會場的音頻空間感。
圖19是根據(jù)本發(fā)明提供的三維聲音重現(xiàn)系統(tǒng)的一實施例的組網(wǎng) 圖。在多點視訊通信系統(tǒng)中, 一種可能的利用本發(fā)明^提供的三維聲音 重現(xiàn)系統(tǒng)的組網(wǎng)圖如圖19所示,圖中示例性地顯示有三個會場,通過 網(wǎng)絡中的多點控制單元(MCU)實現(xiàn)了 一個三方遠程的聲源重現(xiàn)系統(tǒng)。在 進行視頻會議時,每一個終端設備"'G'e [1:3])都向MCU進行注冊,關(guān)于 MCU的更為全面的定義可以參考國際電信聯(lián)盟,即ITU,制定的標準, 這些標準包括但不局限于H. 324、 H. 323等標準。圖中的每個終端設備 都包含了本發(fā)明實施例中所述三維聲音重現(xiàn)的發(fā)送裝置和三維聲音重 現(xiàn)的接收裝置。
當視頻會議系統(tǒng)進行時,各個終端設備"G'e [1:3])的聲源分離模 塊,特別是盲源分離模塊,把對應會場Si中的麥克風陣列得到的多路 音頻信號進行分離,然后計算出各聲源對應的方位信息,將分離后的 多個聲源對應的音頻信號以及多個聲源對應的方位信息一起發(fā)送給會 議控制單元MCU。 MCU得到各個終端設備傳送過來的音視頻信號后,生
成類會場Si,即其它會場Sj (je [1: 3],且j^i)需要呈現(xiàn)的音頻 信號,并將類會場Si傳送給其它會場Sj中的終端設備Tj( 3], 且j * i ),終端設備Tj中的三維聲音重現(xiàn)的接收裝置對接收到類會場 Si信息進行解碼處理,得到音頻輸出設備中的各個揚聲器對應的音頻 信號,在會場S j中模擬出其它會場中傳送過來的聲源對應的虛擬聲源, 并呈現(xiàn)給會場Sj中的與會者。
根據(jù)本發(fā)明實施例提供的三維聲音重現(xiàn)系統(tǒng),能夠為整個聆聽空 間提供相同質(zhì)量的聲覆蓋,重現(xiàn)出原始真實的聲場。
當然,以上所述是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技 術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以 做出若干改進和潤飾,這些改進和潤飾也視為本發(fā)明的保護范圍。
權(quán)利要求
1、一種三維聲音重現(xiàn)的發(fā)送端處理方法,其特征在于,包括:獲取來自各個聲源的多路音頻信號;將獲取的多路音頻信號進行聲源分離,得到與所述各個聲源對應的音頻信號;根據(jù)所述獲取的多路音頻信號及用來獲取來自各個聲源的多路音頻信號的裝置之間的位置關(guān)系計算出與所述各個聲源對應的方位信息;將所述與各個聲源對應的音頻信號和方位信息分別進行編碼。
2、 根據(jù)權(quán)利要求1所述的三維聲音重現(xiàn)的發(fā)送端處理方法,其特 征在于,所述獲取來自各個聲源的多路音頻信號是使用麥克風陣列完 成的。
3、 根據(jù)權(quán)利要求1或2所述的三維聲音重現(xiàn)的發(fā)送端處理方法, 其特征在于,所述根據(jù)所述獲取的多路音頻信號及用來獲取來自各個 聲源的多路音頻信號的裝置之間的位置關(guān)系計算出與所述各個聲源對 應的方位信息具體包括估算所述多路音頻信號傳播到所述用來獲取來自各個聲源的多路 音頻信號的各個裝置之間的相對時延;根據(jù)估算出的所述相對時延及用來獲取來自各個聲源的多路音頻 信號的裝置之間的位置關(guān)系計算出與所述各個聲源對應的方位信息。
4、 根據(jù)權(quán)利要求1或2所述的三維聲音重現(xiàn)的發(fā)送端處理方法, 其特征在于,所述將獲取的多路音頻信號進行聲源分離采用盲源分離方法。
5、 一種三維聲音重現(xiàn)的接收端處理方法,其特征在于,包括 將接收的編碼后的與各個聲源對應的音頻信號和方位信息進行解碼;按照解碼后的與各個聲源對應的方位信息將解碼后的與各個聲源 對應的音頻信號重現(xiàn)為三維聲音。
6、 根據(jù)權(quán)利要求5所述的三維聲音重現(xiàn)的接收端處理方法,其特 征在于,所述按照解碼后的與各個聲源對應的方位信息將解碼后的與 各個聲源對應的音頻信號重現(xiàn)為三維聲音是^f吏用揚聲器陣列完成的。
7、 根據(jù)權(quán)利要求5或6所述的三維聲音重現(xiàn)的接收端處理方法, 其特征在于,所述按照解碼后的與各個聲源對應的方位信息將解碼后 的與各個聲源對應的音頻信號重現(xiàn)為三維聲音采用波前合成方法。
8、 一種三維聲音重現(xiàn)的發(fā)送裝置,其特征在于,包括多路音頻信號獲取單元,用于獲取來自各個聲源的多路音頻信號;聲源分離模塊,用于將所述獲取的多路音頻信號進行聲源分離, 得到與所述各個聲源對應的音頻信號;方位計算模塊,用于根據(jù)所述獲取的多路音頻信號及用來獲取來 自各個聲源的多路音頻信號的裝置之間的位置關(guān)系計算出與所述各個聲源對應的方位信息;編碼模塊,用于將所述與各個聲源對應的音頻信號和方位信息分 別進行編碼。
9、 根據(jù)權(quán)利要求8所述的三維聲音重現(xiàn)的發(fā)送裝置,其特征在于, 所述多路音頻信號獲取單元包括麥克風陣列。
10、 根據(jù)權(quán)利要求8或9所述的三維聲音重現(xiàn)的發(fā)送裝置,其特 征在于,所述方位計算模塊具體包括時延估算模塊,用于估算所述多路音頻信號傳播到所述用來獲取 來自各個聲源的多路音頻信號的各個裝置之間的相對時延;聲源定位模塊,用于根據(jù)估算出的所述相對時延及用來獲取來自 各個聲源的多路音頻信號的裝置之間的位置關(guān)系計算出與所述各個聲 源對應的方位信息。
11、 根據(jù)權(quán)利要求8或9所述的三維聲音重現(xiàn)的發(fā)送裝置,其特 征在于,所述聲源分離模塊具體為盲源分離模塊。
12、 一種三維聲音重現(xiàn)的接收裝置,其特征在于,包括解碼模塊,用于將接收的編碼后的與各個聲源對應的音頻信號和 方位信息進行解碼;聲音重現(xiàn)模塊,用于按照解碼后的與各個聲源對應的方位信息將 解碼后的與各個聲源對應的音頻信號重現(xiàn)為三維聲音。
13、 根據(jù)權(quán)利要求12所述的三維聲音重現(xiàn)的接收裝置,其特征在 于,所述聲音重現(xiàn)模塊包括揚聲器陣列。
14、 根據(jù)權(quán)利要求12或13所述的三維聲音重現(xiàn)的接收裝置,其 特征在于,所述聲音重現(xiàn)模塊包括波前合成模塊。
15、 一種三維聲音重現(xiàn)系統(tǒng),其特征在于,包括 A. 三維聲音重現(xiàn)的發(fā)送裝置,具體包括多路音頻信號獲取單元,用于獲取來自各個聲源的多路音頻信號;聲源分離模塊,用于將獲取的多路音頻信號進行聲源分離, 得到與所述各個聲源對應的音頻信號;方位計算模塊,用于根據(jù)所述獲取的多路音頻信號及用來獲 取來自各個聲源的多路音頻信號的裝置之間的位置關(guān)系計算出與 所述各個聲源對應的方位信息;編碼模塊,用于將所述與各個聲源對應的音頻信號和方位信 息分別進行編碼;和B. 三維聲音重現(xiàn)的接收裝置,具體包括解碼模塊,用于將接收的編碼后的與各個聲源對應的音頻信 號和方位信息進行解碼;聲音重現(xiàn)模塊,用于按照解碼后的與各個聲源對應的方位信 息將解碼后的與各個聲源對應的音頻信號重現(xiàn)為三維聲音。
16、 根據(jù)權(quán)利要求15所述的三維聲音重現(xiàn)系統(tǒng),其特征在于,所 述多路音頻信號獲取單元包括麥克風陣列。
17、 根據(jù)權(quán)利要求15或16所述的三維聲音重現(xiàn)系統(tǒng),其特征在 于,所述方位計算模塊具體包括時延估算模塊,用于估算所述多路音頻信號傳播到所述用來獲取來自各個聲源的多路音頻信號的各個裝置之間的相對時延;聲源定位模塊,用于根據(jù)估算出的所述相對時延及用來獲取來自 各個聲源的多路音頻信號的裝置之間的位置關(guān)系計算出與所述各個聲 源對應的方位信息。
18、 根據(jù)權(quán)利要求15或16所述的三維聲音重現(xiàn)系統(tǒng),其特征在 于,所述聲源分離模塊具體為盲源分離模塊。
19、 根據(jù)權(quán)利要求15或16所述的三維聲音重現(xiàn)系統(tǒng),其特征在 于,所述聲音重現(xiàn)模塊包括揚聲器陣列。
20、 根據(jù)權(quán)利要求15或16所述的三維聲音重現(xiàn)系統(tǒng),其特征在 于,所述聲音重現(xiàn)模塊包括波前合成模塊。
全文摘要
本發(fā)明實施例提供三維聲音重現(xiàn)的發(fā)送端處理方法,包括獲取來自各個聲源的多路音頻信號;將獲取的多路音頻信號進行聲源分離得到與各個聲源對應的音頻信號;計算出與各個聲源對應的方位信息;將與各個聲源對應的音頻信號和方位信息分別進行編碼。還提供三維聲音重現(xiàn)的接收端處理方法,包括將接收的編碼后的與各個聲源對應的音頻信號和方位信息進行解碼;按照解碼后的與各個聲源對應的方位信息將解碼后的與各個聲源對應的音頻信號重現(xiàn)為三維聲音。本發(fā)明還提供一種三維聲音重現(xiàn)的發(fā)送、接收裝置和系統(tǒng)。本發(fā)明克服了現(xiàn)有的立體聲系統(tǒng)中通常存在的“熱點”區(qū)域的問題,能夠重現(xiàn)出原始真實的聲場,為整個聆聽空間提供基本相同質(zhì)量的聲覆蓋。
文檔編號H04M3/56GK101384105SQ200810171240
公開日2009年3月11日 申請日期2008年10月27日 優(yōu)先權(quán)日2008年10月27日
發(fā)明者王東琦, 詹五洲 申請人:深圳華為通信技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1