專利名稱:語音捕獲和語音再現(xiàn)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及例如在免提音頻或視聽會議終端中使用的語音捕獲方法和設(shè)備。本發(fā)明也涉及例如在免提音頻或視聽會議終端中使用的語音再現(xiàn)方法和設(shè)備。此外,本發(fā)明涉及通信系統(tǒng)以及免提音頻或視聽會議終端。
背景技術(shù):
在如今(免提)一對一通信系統(tǒng)中,尤其由于帶寬限制,語音的傳輸借助于單聲道傳輸信道來實現(xiàn)。結(jié)果,在再生端上,所有的聲音來自同一方向(或多個方向,如果使用多個揚聲器的話),并因此不能使用基于雙耳聽力來分隔聲源的人的能力。因此,收聽受到噪聲和/或競爭說話者污染的語音是困難的,并導致降低的語音可懂度和聽者疲勞。為此,利用免提電話系統(tǒng),發(fā)送的預期語音信號是盡可能“干凈的”,即,它只包括預期的直接(直達)語音。固定噪聲抑制是免提通信中的必須品。帶有附加處理的麥克風陣列波束形成能夠用于進一步增強語音。然而,已知的系統(tǒng)在通信期間并不提供面對面感覺,尤其對于其中不僅語音(消息)是重要的而且在一起(being together)的感覺也是重要的非正式場合而言并不提供面對面感覺。
發(fā)明內(nèi)容
本發(fā)明的目的是提供具有在一起的感覺的逼真的通信。本發(fā)明利用獨立權(quán)利要求來定義。從屬權(quán)利要求定義有利的實施例。根據(jù)本發(fā)明的語音捕獲設(shè)備包括
捕獲電路,包括用于捕獲多個聲音信號的多個麥克風,
一個或多個提取電路,其中每一個提取電路用于從多個聲音信號中推導與各自說話者相對應(yīng)的各自語音信號,
剩余(residual)提取電路,用于從多個聲音信號中推導一個或多個環(huán)境信號,其中每一個聲音信號被減去利用一個或多個提取電路推導的一個或多個語音信號,以及發(fā)射電路,用于發(fā)射一個或多個語音信號和一個或多個環(huán)境信號。這樣,能夠從利用捕獲電路捕獲的聲音信號中提取一個或多個語音信號。該提取電路提供與說話者相對應(yīng)的語音信號。這個語音信號能夠被視為將利用在預期說話者前面的一個或多個近距離交談麥克風(close talk microphone)提供的信號。剩余提取電路推導包括環(huán)境信息的環(huán)境信號(即,在沒有預期說話者的情況下在聲音信號中包括的信息)。當單獨發(fā)送這些語音和環(huán)境信號時,再現(xiàn)端能夠以空間不同的方式來再生語音和環(huán)境信號。通過再生環(huán)境信號,創(chuàng)建“在一起”的感覺。此外,在一個實施例中,本發(fā)明能夠再生兩個或多個空間上彼此不同并且與環(huán)境信號不同的語音信號,以致盡管存在環(huán)境信號,也增加語音可懂度并降低聽者疲勞。在一個實施例中,語音捕獲設(shè)備進一步包括視聽定位器,用于確定說話者的一個或多個位置,其中每一個提取電路被指向各自一個說話者的位置。使用視聽定位器的優(yōu)點改善提取電路的魯棒性。提取電路隨后能夠保持被聚焦在同一個說話者,即使他正在移動并且沒有在說話。這樣,一旦說話者(再次)開始說話,則提取電路已被聚焦,并且第一句話也利用高質(zhì)量來捕獲。否則,提取電路必須在第一句話期間重新聚焦,這導致第一句話的較次質(zhì)量。在進一步的實施例中,發(fā)射電路還在發(fā)射包括說話者的位置的空間信息。這樣的有關(guān)一個或多個說話者的位置的空間信息描述在捕獲端上的聽覺場景。利用這樣的空間信息,有可能在再現(xiàn)端上重建與捕獲端上相同的聽覺場景。這種屬性對于其中音頻必須與視頻相對應(yīng)的視聽會議而言是尤其重要的。例如,當視覺場景包括位于左邊、中間和右邊位置上的三個說話者時,則在再現(xiàn)端上能夠使用位置信息來(近似地)再生在這三個位置上的說話者。在進一步的實施例中,每一個提取電路包括用于推導語音信號的廣義旁瓣消除器。廣義旁瓣消除器是特別適合于自適應(yīng)波束形成的波束形成實施方式。在這樣的消除器中,波束被聚焦在預期的說話者上。在進一步的實施例中,每一個提取電路還包括用于語音信號中的進一步降噪的后處理器電路。該后處理器進一步移除噪聲,以致在利用傳輸電路發(fā)送的語音信號中具有較少噪聲。這具有的優(yōu)點是能夠更佳地分隔預期的說話者,并且創(chuàng)建更多的自由度在再現(xiàn)端上在任何預期位置上定位預期說話者。在進一步的實施例中,剩余提取電路還包括多聲道自適應(yīng)濾波器,用于從多個聲音信號中推導一個或多個環(huán)境信號,其中每一個聲音信號被減少利用一個或多個提取電路推導的語音信號。多聲道自適應(yīng)濾波器估算在聲音信號中包含的語音信號。這些語音信號被從聲音信號中減去,因而提供環(huán)境信號。在進一步的實施例中,多聲道自適應(yīng)濾波器被耦合,以接收利用一個麥克風捕獲的聲音信號作為參考信號。這樣,以相對低的復雜度創(chuàng)建一個環(huán)境信號。根據(jù)本發(fā)明的另一方面,語音再現(xiàn)設(shè)備包括
接收電路,用于接收一個或多個語音信號和一個或多個環(huán)境信號,其中每一個語音信號對應(yīng)于不同的說話者,以及
再現(xiàn)電路,用于以語音信號被感知為來自與環(huán)境信號不同的方向的方式空間地再生一個或多個語音信號和一個或多個環(huán)境信號。通過在再現(xiàn)端上再生環(huán)境信號,創(chuàng)建“在一起” 的感覺。在一個實施例中,其中空間地再生彼此不同并且與環(huán)境信號不同的兩個或多個語音信號,盡管存在環(huán)境信號,也保持或甚至增加語音可懂度。在一個實施例中,再現(xiàn)電路正在以語音信號被感知為來自相互不同方向的方式空間地再生兩個或多個語音信號。通過再生空間不同的語音信號,對于在再現(xiàn)端上的聽者而言,更容易區(qū)分不同的說話者并專注于其中一個說話者,如果這些說話者同時說話的話。這導致較少的聽者疲勞度和改善的語音可懂度。在進一步的實施例中,接收電路還在接收關(guān)于說話者的位置的空間信息,并且再現(xiàn)電路以語音信號被感知為來自利用空間信息所代表的位置的方式在空間再生語音信號。 這樣,在再現(xiàn)端上能夠創(chuàng)建與捕獲端上相同的聽覺場景,這對于其中應(yīng)對準聲音與視頻的視聽通信系統(tǒng)而言是特別重要的。在進一步的實施例中,從中感知語音信號的方向在說話者的視覺化中與說話者的
5位置相對準。在這個實施例中,與同一個說話者相對應(yīng)的音頻和視頻對象被感知為一個視聽對象,這對于聽者感知是自然的并且消除疲勞,而如果語音來自與視頻對象的方向不同的另一方向,則將發(fā)生疲勞。在進一步的實施例中,一個或多個環(huán)境信號的幅度減小。這樣,聽者能夠控制在他自己環(huán)境中的再現(xiàn),并且使之適應(yīng)于在他自己環(huán)境中出現(xiàn)的其他環(huán)境信號。根據(jù)本發(fā)明的另一方面,提供用于傳送語音信號的通信系統(tǒng)以及免提音頻或視聽會議終端。本發(fā)明的這些與其他方面、特征和優(yōu)點從以下描述的一個或多個實施例中將是清楚的,并且本發(fā)明的這些與其他方面、特征和優(yōu)點將參考以下描述的一個或多個實施例來闡述。
圖1顯示根據(jù)本發(fā)明的語音捕獲設(shè)備的實施例; 圖2顯示包括視聽定位器的語音捕獲設(shè)備的實施例; 圖3顯示包括后處理器電路的提取電路的實施例;
圖4顯示語音捕獲設(shè)備的實施例,其中提取電路包括后處理器電路; 圖5顯示包括用于推導環(huán)境信號的多聲道自適應(yīng)濾波器的剩余提取電路的實施例; 圖6顯示根據(jù)本發(fā)明的語音再現(xiàn)設(shè)備的實施例;
圖7顯示用于傳送語音信號的通信系統(tǒng)的示例,該通信系統(tǒng)包括根據(jù)本發(fā)明的語音捕獲設(shè)備和語音再現(xiàn)設(shè)備。
具體實施例方式圖1顯示根據(jù)本發(fā)明的語音捕獲設(shè)備100的實施例。該語音捕獲設(shè)備100可以在免提音頻或視聽會議終端中使用。該免提音頻或視聽會議終端被用于實施一對一通信應(yīng)用,其中位于例如房間之類的兩個不同位置的說話者正在相互通信。在該位置上的說話者的數(shù)量能夠從一個改變?yōu)槎鄠€說話者。說話者在房間中的位置也能夠改變。該設(shè)備100包括用于捕獲多個聲音信號111、112_116的捕獲電路110。該捕獲電路Iio包括多個麥克風101、102-106。這些麥克風優(yōu)選地以麥克風陣列的形式進行安排。 雖然在這個示例中只描繪六個麥克風,但是麥克風的數(shù)量并不限于這個數(shù)量。語音捕獲設(shè)備100進一步包括一個或多個提取電路121、122-124。每一個提取電路對應(yīng)于一個說話者。在該示例中,提取電路121對應(yīng)于第一說話者,提取電路122對應(yīng)于第二說話者,等等。每一個提取電路對應(yīng)于不同的說話者。每一個提取電路推導與說話者相對應(yīng)的語音信號,其在該示例中是信號151、152或IM之一。在該示例中,信號151對應(yīng)于第一說話者,信號152對應(yīng)于第二說話者,等等。語音信號151-1M之中的每一個語音信號從利用捕獲電路110捕獲的多個聲音信號101、102-106中進行推導。該語音捕獲設(shè)備100進一步包括用于從多個聲音信號中推導一個或多個環(huán)境信號131的剩余提取電路 130。環(huán)境信號代表從聲音信號中推導出的語音信號的補充(complement),其被描繪為信號束160。換句話說,從被減去利用一個或多個提取電路推導出的語音信號151、152-154 (從聲音信號中減去語音信號)的聲音信號中推導環(huán)境信號。
語音捕獲設(shè)備100進一步包括用于發(fā)射一個或多個語音信號151、152_154以及一個或多個環(huán)境信號131的發(fā)射電路150。發(fā)射電路150將語音信號和環(huán)境信號合并為單個輸出信號181,該單個輸出信號被發(fā)送到語音再現(xiàn)設(shè)備500。對本領(lǐng)域技術(shù)人員來說,清楚的是該合并能夠利用例如已知的連接或復用的方法來實現(xiàn)。圖2顯示包括視聽定位器140的語音捕獲設(shè)備100的實施例。該視聽定位器140檢測一個或多個說話者的位置。關(guān)于說話者的位置的信息被饋送到提取電路,以便將提取電路指向特定說話者的位置。該視聽定位器能夠采用許多種方式來實現(xiàn)。視聽定位器的已知示例例如是US6850265B1 或N. Strobel.S. Spors 和 R. Rabenstein 于 2001 年 1 月發(fā)表在 IEEE Signal Processing Magazine、第 18 卷、第 1 號、第 22—31 頁上白勺 Joint audio-video object localization and tracking??臻g信息可能包括例如在US6850265B1中公開的角度或在 N. Strobel, S. Spors 和 R. Rabenstein 于 2001 年 1 月發(fā)表在 IEEE Signal Processing Magazine、第 18 卷、第 1 號、第 22-31 頁上白勺 Joint audio-video object localization and tracking 43 ! ^; :1!^圖2中描繪的語音捕獲設(shè)備100是利用視聽定位器140擴展的圖1的設(shè)備。在該示例中,關(guān)于第一說話者141的位置的信息被饋送到提取電路121,而關(guān)于第二說話者142 的位置的信息則被饋送到提取電路122。雖然在圖2中由于只有兩個說話者而僅描繪兩個提取電路,但是能夠使用更多的提取電路,其中提取電路的數(shù)量與說話者的數(shù)量相匹配。發(fā)射電路150被修改成也發(fā)射關(guān)于說話者的位置的信息。這允許語音再現(xiàn)設(shè)備500在再現(xiàn)語音信號151、152時使用關(guān)于說話者141、142的位置的信息。在一個實施例中,提取電路121或122包括波束形成器電路。波束形成器電路的示例之一是在W02005/050618或W02005/106841中描述的廣義旁瓣消除器。該廣義旁瓣消除器可能包括例如在US7146012中公開的過濾和波束形成器(Filtered Sum Beamformer), 其后面跟隨著例如在US7058185中公開的多聲道噪聲消除器。圖3顯示提取電路121的一個實施例,其中該提取電路包括例如描述在US6546099 中的后處理器電路220。聲音信號111-116被饋送到廣義旁瓣消除器210,該廣義旁瓣消除器210在其輸出端上提供語音信號151。提供這個語音信號151作為至剩余提取電路130 的輸入。該語音信號151也被提供給后處理器220,該后處理器在語音信號151中執(zhí)行進一步的降噪。由此,后處理器220在其輸出端上產(chǎn)生比語音信號151更干凈的進一步語音信號161。該后處理器電路220提供替代如在圖1和圖2中描繪的語音信號151的進一步語音信號161,以便利用傳輸電路150來發(fā)送。圖4顯示語音捕獲設(shè)備100的一個實施例,其中提取電路121、122-1M包括后處理器電路220。提取電路121-1M之中的每一個提取電路具有兩個輸出端,其中在第一輸出端上提供語音信號,例如用于電路121的語音信號151,并且在第二輸出端上提供進一步語音信號,例如用于電路121的進一步語音信號161?,F(xiàn)在給發(fā)射電路提供信號161、162-164 而非信號151、152-154。與圖1和圖2相比,剩余提取電路130具有唯一一個輸出信號131A。該剩余提取電路具有兩級。在用于每一個輸入聲音信號(信號111、112-116之一)的第一級,語音信號 151、152-巧4被減去。結(jié)果,獲得經(jīng)修改的聲音信號,該信號并不包括與利用提取電路提取的語音信號相關(guān)聯(lián)的任何語音分量。對于應(yīng)提供什么信號給剩余提取電路130的輸出端,具有各種選擇。例如,能夠?qū)⒔?jīng)修改的聲音信號照現(xiàn)在的樣子提供給電路130的輸出端。另一示例是能夠?qū)⑺薪?jīng)修改的聲音信號上的平均信號提供給電路130的輸出端。另一可選擇方案是選擇將被提供給電路130的輸出端的經(jīng)修改的聲音信號之一。在圖5中解釋又一可選擇方案。圖5顯示剩余提取電路130的實施例,該剩余提取電路130包括例如在US7058185 中描述的用于推導環(huán)境信號131A的多聲道自適應(yīng)濾波器。在這個特定實施例中,為了簡單起見,多聲道自適應(yīng)濾波器是雙聲道的。但是,它也可以是四聲道的,其中每一個聲道對應(yīng)于提取電路121-124之一。
在圖5的實施例中,挑選利用麥克風101捕獲的聲音信號111作為參考信號。語音信號151和152分別被饋送到兩個自適應(yīng)濾波器310和320。自適應(yīng)濾波器310和320分別地對輸入信號151和152進行濾波,其中自適應(yīng)濾波器310和320利用剩余信號131A來控制。該剩余信號131A利用減法電路400來提供,其中該減法電路計算聲音信號111與自適應(yīng)濾波器310和320的輸出信號之間的差。自適應(yīng)濾波器310和320以一種將剩余信號 131A的能量最小化的方式來調(diào)節(jié)其系數(shù)。對于濾波器的自適應(yīng),能夠使用如在S. Haykin, Adaptive Filter Theory、Englewood Cliffs (NJ, USA): Prentice-Hall, 1986, ISBN 0-13-004052-5 025 中描述的歸一化最小均方(Normalized Least Mean Square) (NLMS) 濾波器。可選擇方案是使用如在US7058185中描述的頻域自適應(yīng)濾波器。剩余信號131A 也是電路130的輸出信號。圖6顯示根據(jù)本發(fā)明的語音再現(xiàn)設(shè)備500的實施例。該語音再現(xiàn)設(shè)備500包括 接收電路510,用于接收一個或多個語音信號151-154和一個或多個環(huán)境信號(信號
束)131,其中每一個語音信號對應(yīng)于不同的說話者,以及
再現(xiàn)電路520,用于以一個或多個語音信號被感知為來自與一個或多個環(huán)境信號不同的方向的方式空間地再生一個或多個語音信號151-154和一個或多個環(huán)境信號(信號束) 131。接收電路510從輸入信號181中提取語音信號151-154以及環(huán)境信號131。該接收電路510在功能上執(zhí)行將在發(fā)射電路150中執(zhí)行的操作反轉(zhuǎn)的眾所周知的操作。接收電路510從輸入信號181中提取語音信號和環(huán)境信號。對于本領(lǐng)域技術(shù)人員來說,清楚的是 該提取能夠利用例如已知的分解或解復用的方法來完成。任選地,當有關(guān)說話者的位置的空間信息171也存在于輸入信號181中時,它利用接收電路510來提取并被提供給再現(xiàn)電路520。再現(xiàn)電路520將語音信號和環(huán)境信號映射到再生電路530。該再生電路可能包括揚聲器。在該示例中,再生電路530包括5. 1配置中的五個揚聲器531-535。揚聲器532再生中央聲道信號,揚聲器533再生右前聲道信號,揚聲器531再生左前聲道信號,揚聲器535 再生右后聲道信號,并且揚聲器534再生左后聲道信號。在只有兩個說話者存在的情況下, 第一說話者的語音信號151可能由揚聲器531來再生,而第二說話者的語音信號152可能由揚聲器532來再生。環(huán)境信號隨后能夠由揚聲器535和534來再生。在多個語音信號的情況下,這些信號可能利用前揚聲器531、532和533來再生,以給出這些語音信號被感知為來自不同方向的錯覺。這種感知效果有可能采用多種方式來實現(xiàn),諸如幅度平移(panning)、 時間延遲平移和波場合成技術(shù)。
作為選擇,能夠使用耳機來替代揚聲器。在這種情況下,HRTF (Chapter 13 “3D Audio and Virtual Acoustical Environment Synthesis,, by Jiashu Chen in the book Acoustical Signal Processing For Telecommunication by Steven L. Gay and Jakob Benesty (Editors) Kluwer Academic Publishers: 2000 ISBN 0-7923-7814-8)能夠用于
在虛擬空間中再生語音信號和環(huán)境信號。在進一步的實施例中,接收電路410還在接收關(guān)于說話者的位置的空間信息171, 并且再現(xiàn)電路520正在空間地再生語音信號,以致語音信號151-154被感知為來自利用空間信息171所表示的位置。這使用例如幅度平移來完成。利用幅度平移,有可能實際上定位語音信號,以致說話者被感知為位于兩個揚聲器位置之間。在進一步的實施例中,從中感知語音信號的方向在說話者的可視化中與說話者的位置相對準。在進一步的實施例中,一個或多個環(huán)境信號的幅度被減小。圖7顯示用于傳送語音信號的通信系統(tǒng)的示例,其包括根據(jù)本發(fā)明的語音捕獲設(shè)備100和語音再現(xiàn)設(shè)備500。該通信(系統(tǒng))包括兩個終端700和800。這些終端中的每一個終端包括語音捕獲設(shè)備100和語音再現(xiàn)設(shè)備500。這些終端具有一對一通信應(yīng)用,其中位于例如房間的兩個不同位置中的說話者正在相互通信。在終端800中包括的語音捕獲設(shè)備100產(chǎn)生被發(fā)送到終端700中包括的再現(xiàn)設(shè)備500的包括語音信號和環(huán)境信號的輸出信號181A。分別地,在終端700中包括的語音捕獲設(shè)備100產(chǎn)生被發(fā)送到終端800中包括的再現(xiàn)設(shè)備500的包括語音信號和環(huán)境信號的輸出信號181B。雖然已結(jié)合一些實施例描述了本發(fā)明,但是并不打算將本發(fā)明限于在這里闡述的特定形式。相反,本發(fā)明的范圍僅利用所附的權(quán)利要求書來限制。此外,雖然某個特征可能看來似乎結(jié)合特定的實施例來描述,但是本領(lǐng)域技術(shù)人員將認識到,所描述的實施例的各種特征可以根據(jù)本發(fā)明進行組合。在權(quán)利要求書中,術(shù)語包括并不排除其他元素或步驟的存在。此外,雖然單個地列舉,但是多個電路、元素或方法步驟可以利用例如單個單元 或處理器來實現(xiàn)。另外,雖然單個特征可以被包括在不同的權(quán)利要求中,但是這些特征也有可能有利地進行組合,并且在不同的權(quán)利要求中的包含并不意味著特征的組合不是可行的和 /或有利的。特征在一種類別的權(quán)利要求中的包含并不暗示對這種類別的限制,而是表明該特征同樣可以酌情應(yīng)用于其他的權(quán)利要求類別。此外,單數(shù)引用并不排除多個。因而,對于 “一”、“一個”、“第一”、“第二”等等的引用并不排除多個。權(quán)利要求中書的參考符號僅僅作為澄清示例來提供,并且無論如何不應(yīng)被解釋成限制這些權(quán)利要求的范圍。本發(fā)明可以利用包括若干不同元素的硬件的電路以及利用適當編程的計算機或其他可編程設(shè)備的電路來實施。
權(quán)利要求
1.一種語音捕獲設(shè)備(100),包括捕獲電路(110),包括用于捕獲多個聲音信號(111-116)的多個麥克風(101-106),一個或多個提取電路(121-1M),每一個提取電路用于從多個聲音信號中推導與各自說話者相對應(yīng)的各自語音信號(151-154),剩余提取電路(130),用于從多個聲音信號中推導一個或多個環(huán)境信號(131),其中每一個聲音信號被減去利用一個或多個提取電路推導的一個或多個語音信號,以及發(fā)射電路(150),用于發(fā)射一個或多個語音信號和一個或多個環(huán)境信號。
2.根據(jù)權(quán)利要求1的語音捕獲設(shè)備,其中語音捕獲設(shè)備進一步包括用于確定說話者的一個或多個位置的視聽定位器(140),其中每一個提取電路被指向相應(yīng)一個說話者的位置。
3.根據(jù)權(quán)利要求2的語音捕獲設(shè)備,其中發(fā)射電路進一步被安排用于發(fā)射包括說話者的一個或多個位置的空間信息(171)。
4.根據(jù)權(quán)利要求1或2的語音捕獲設(shè)備,其中每一個提取電路(121-1M)包括用于推導語音信號的廣義旁瓣消除器。
5.根據(jù)權(quán)利要求1或2的語音捕獲設(shè)備,其中每一個提取電路(121-124)進一步包括用于語音信號中的進一步降噪的后處理器電路(220)。
6.根據(jù)權(quán)利要求1的語音捕獲設(shè)備,其中剩余提取電路(130)進一步包括多聲道自適應(yīng)濾波器(310,320),用于從多個聲音信號中推導一個或多個環(huán)境信號,其中每一個聲音信號被減去利用一個或多個提取電路推導的一個或多個語音信號。
7.根據(jù)權(quán)利要求6的語音捕獲設(shè)備,其中多聲道自適應(yīng)濾波器被耦合,以接收利用麥克風之一捕獲的聲音信號(111)作為參考信號。
8.一種語音再現(xiàn)設(shè)備(500),包括接收電路(510),用于接收一個或多個語音信號(151-1M)和一個或多個環(huán)境信號 (131),其中每一個語音信號對應(yīng)于不同的說話者,以及再現(xiàn)電路(520),用于以一個或多個語音信號被感知為來自與一個或多個環(huán)境信號不同的方向的方式空間地再生一個或多個語音信號和一個或多個環(huán)境信號。
9.根據(jù)權(quán)利要求8的語音再現(xiàn)設(shè)備,其中再現(xiàn)電路(520)被安排用于以語音信號被感知為來自互不相同的方向的方式空間地再生兩個或多個語音信號。
10.根據(jù)權(quán)利要求9的語音再現(xiàn)設(shè)備,其中接收電路(510)進一步被安排用于接收有關(guān)說話者的位置的空間信息(171),并且再現(xiàn)電路(520)被安排用于以語音信號被感知為來自利用空間信息所代表的位置的方式空間地再生語音信號。
11.根據(jù)權(quán)利要求8的語音再現(xiàn)設(shè)備,其中語音再現(xiàn)設(shè)備被安排用于在說話者的可視化中將從中感知語音信號的方向與說話者的位置相對準。
12.根據(jù)權(quán)利要求8的語音再現(xiàn)設(shè)備,其中語音再現(xiàn)設(shè)備被安排用于減小一個或多個環(huán)境信號的幅度。
13.一種用于傳送語音信號的通信系統(tǒng),該通信系統(tǒng)包括根據(jù)權(quán)利要求1-7之中任一權(quán)利要求的語音捕獲設(shè)備(100),和根據(jù)權(quán)利要求8-12之中任一權(quán)利要求的語音再現(xiàn)設(shè)備(500)。
14.一種免提音頻或視聽會議終端,包括根據(jù)權(quán)利要求1-7之中任一權(quán)利要求的語音捕獲設(shè)備(100)和根據(jù)權(quán)利要求8-12之中任一權(quán)利要求的語音再現(xiàn)設(shè)備(500)。
15.一種語音捕獲方法(100),包括以下步驟 捕獲(110)多個聲音信號(111-116),從多個聲音信號中推導(121-1M)與一個或多個各自說話者相對應(yīng)的一個或多個語音信號(151-154),從多個聲音信號中推導(130) 一個或多個環(huán)境信號(131 ),其中每一個聲音信號被減去一個或多個語音信號,以及發(fā)射(150) —個或多個語音信號和一個或多個環(huán)境信號。
16.一種語音再現(xiàn)方法(500),包括以下步驟接收(510) —個或多個語音信號(151-154)和一個或多個環(huán)境信號(131 ),其中每一個語音信號對應(yīng)于不同的說話者,和以一個或多個語音信號被感知為來自與一個或多個環(huán)境信號不同的方向的方式,空間地再生(520) 一個或多個語音信號和一個或多個環(huán)境信號。
全文摘要
本發(fā)明提議從利用麥克風捕獲的聲音信號中提取一個或多個語音信號(151-154)以及一個或多個環(huán)境信號(131),其中每一個語音信號對應(yīng)于不同的說話者。與只發(fā)送語音信號相反,本發(fā)明提議將一個或多個語音信號(151-154)和一個或多個環(huán)境信號(131)二者發(fā)射到再現(xiàn)端。這能夠在再現(xiàn)端上以空間不同的方式再生語音和環(huán)境信號。通過再生環(huán)境信號,創(chuàng)建“在一起”的感覺。在實施例中,本發(fā)明能夠再生空間彼此不同并且與環(huán)境信號不同的兩個或多個語音信號,以致盡管存在環(huán)境噪聲,也增加語音可懂度。
文檔編號H04S7/00GK102265643SQ200980152252
公開日2011年11月30日 申請日期2009年12月17日 優(yōu)先權(quán)日2008年12月23日
發(fā)明者E. 薩勞克 B., P. 詹塞 C., J. W. 貝爾特 H., C. A. 范斯圖文伯格 L., 特里基 M. 申請人:皇家飛利浦電子股份有限公司