亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

全頻帶可擴(kuò)縮音頻編解碼器的制作方法

文檔序號(hào):2835874閱讀:401來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):全頻帶可擴(kuò)縮音頻編解碼器的制作方法
全頻帶可擴(kuò)縮音頻編解碼器
背景技術(shù)
很多類(lèi)型的系統(tǒng)使用音頻信號(hào)處理以產(chǎn)生音頻信號(hào)或從這些信號(hào)再現(xiàn)聲音。通常,信號(hào)處理將音頻信號(hào)變換為數(shù)字?jǐn)?shù)據(jù)并編碼該數(shù)據(jù)以通過(guò)網(wǎng)絡(luò)傳輸。然后,附加的信號(hào)處理解碼所傳輸?shù)臄?shù)據(jù)并把它轉(zhuǎn)換回模擬信號(hào),以再現(xiàn)聲波。存在各種用于編碼或解碼音頻信號(hào)的技術(shù)。(編碼和解碼信號(hào)的處理器或處理模塊通常被稱(chēng)為編解碼器。)音頻編解碼器被用于會(huì)議以減少為呈現(xiàn)音頻而必須從近端傳輸?shù)竭h(yuǎn)端的數(shù)據(jù)量。例如,用于音頻和視頻會(huì)議的音頻編解碼器壓縮高保真度音頻輸入以使得到的用于傳輸?shù)男盘?hào)保持最好的質(zhì)量但需要最小數(shù)量的比特。這樣的話(huà),具有音頻編解碼器的會(huì)議設(shè)備需要更少的存儲(chǔ)容量,并且由設(shè)備使用以傳輸音頻信號(hào)的通信信道需要更少的帶寬。音頻編解碼器可以使用各種技術(shù)來(lái)編碼和解碼在會(huì)議中從一個(gè)端點(diǎn)傳輸?shù)搅硪粋€(gè)端點(diǎn)的音頻。一些通常使用的音頻編解碼器使用變換編碼(transform coding)技術(shù)以編碼和解碼通過(guò)網(wǎng)絡(luò)傳輸?shù)囊纛l數(shù)據(jù)。一種音頻編解碼器是Polycom的Siren編解碼器。Polycom的Siren編解碼器的一個(gè)版本是ITU_T(國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門(mén))建議G. 722. 1 (Polycom Siren 7)。Siren 7是編碼高達(dá)7kHz的信號(hào)的寬帶編解碼器。另一個(gè)版本是 ITU-T G. 722. 1. C (Polycom Siren 14)。Siren 14 是編碼高達(dá) 14kHz 的信號(hào)的超寬帶編解碼器。Siren編解碼器是基于調(diào)制重疊變換(MLT)的音頻編解碼器。這樣,Siren編解碼器將音頻信號(hào)從時(shí)域變換到調(diào)制重疊變換(MLT)域。眾所周知的是,調(diào)制重疊變換(MLT) 是為各種類(lèi)型信號(hào)的變換編碼而使用的余弦調(diào)制濾波器組的一種形式。一般而言,重疊變換考慮長(zhǎng)度為L(zhǎng)的音頻塊并將該塊變換為M個(gè)系數(shù),滿(mǎn)足條件L > M。為這樣工作,在相繼的塊之間必須有L-M個(gè)采樣的交疊,以使合成的信號(hào)能夠使用相繼的變換系數(shù)塊而獲得。圖1A-1B簡(jiǎn)單表示出變換編碼編解碼器(諸如Siren編解碼器)的特征。具體音頻編解碼器的實(shí)際細(xì)節(jié)依賴(lài)于實(shí)現(xiàn)和使用的編解碼器的類(lèi)型。例如,Siren 14的已知細(xì)節(jié)可在ITU-T建議G. 722. 1附錄C中找到,Siren 7的已知細(xì)節(jié)可在ITU-T建議G. 722. 1中找到,其都通過(guò)引用結(jié)合于此。涉及音頻信號(hào)的變換編碼的附加細(xì)節(jié)還可在美國(guó)專(zhuān)利申請(qǐng)序號(hào)No. 11/550,629和11/550,682中找到,其通過(guò)引用結(jié)合于此。用于變換編碼編解碼器(例如,Siren編解碼器)的編碼器10在圖IA中示出。 編碼器10接收已經(jīng)從模擬音頻信號(hào)變換成的數(shù)字信號(hào)12。該模擬音頻信號(hào)的幅度已經(jīng)以某一頻率被采樣并且被變換為表示幅度的數(shù)字。典型的采樣頻率是大約8kHz (即,每秒采樣8,000次),16kHz到196kHz,或在中間的某些值。在一個(gè)例子中,數(shù)字信號(hào)12可在大約 20ms的塊或幀中以48kHz或其他速率被采樣。變換20,其可以是離散余弦變換(DCT),將數(shù)字信號(hào)12從時(shí)域變換到具有變換系數(shù)的頻域。例如,對(duì)于每個(gè)音頻塊或幀,變換20能夠產(chǎn)生具有960個(gè)變換系數(shù)的頻譜。編碼器10在歸一化處理22中找到系數(shù)的平均能量水平(基準(zhǔn))。然后,編碼器10使用快速 Lattice矢量量化(FLVQ)算法M或類(lèi)似算法量化所述系數(shù)來(lái)編碼輸出信號(hào)14以便打包(packetize)禾口傳輸。用于變換編碼編解碼器(例如,Siren編解碼器)的解碼器50在圖IB中表示。解碼器50得到從網(wǎng)絡(luò)接收的輸入信號(hào)52的進(jìn)入比特流并從其中重新創(chuàng)建原始信號(hào)的最佳估計(jì)。為這樣做,解碼器50對(duì)輸入信號(hào)52執(zhí)行Lattice解碼(反向FLVQ)60并且使用去量化處理62來(lái)去量化(de-quanfize)解碼后的變換系數(shù)。另外,變換系數(shù)的能量水平則在各種頻帶中被校正。最后,逆變換64以反向DCT運(yùn)行并將來(lái)自頻域的信號(hào)變換回時(shí)域以作為輸出信號(hào)討傳輸。盡管這樣的音頻編解碼器是有效的,在音頻會(huì)議應(yīng)用中增長(zhǎng)的需求和復(fù)雜度需要更通用和增強(qiáng)的音頻編碼技術(shù)。例如,音頻編解碼器必須在網(wǎng)絡(luò)上運(yùn)行,并且各種條件(帶寬、接收器的不同連接速度等)可能動(dòng)態(tài)變化。無(wú)線(xiàn)網(wǎng)絡(luò)是信道的比特率隨時(shí)間變化的例子。因此,無(wú)線(xiàn)網(wǎng)絡(luò)中的端點(diǎn)為適應(yīng)網(wǎng)絡(luò)條件必須以不同比特率發(fā)送比特流。MCU(多路控制單元)——諸如Polycom的RMX系列和MGC系列產(chǎn)品——的使用, 是其中更通用和增強(qiáng)的音頻編碼技術(shù)可能有用的另一個(gè)例子。例如,會(huì)議中的MCU首先接收來(lái)自第一端點(diǎn)A的比特流,然后需要發(fā)送不同長(zhǎng)度的比特流到多個(gè)其他端點(diǎn)B,C,D,E, F...。要發(fā)送的不同比特流將取決于端點(diǎn)中的每一個(gè)具有多少網(wǎng)絡(luò)帶寬。例如,對(duì)于音頻, 一個(gè)端點(diǎn)B可能以641cbpS (比特每秒)連接到網(wǎng)絡(luò),但另一個(gè)端點(diǎn)C可能僅以Slcbps連接。從而,MCU以641ibpS發(fā)送比特流到一個(gè)端點(diǎn)B,以Slcbps發(fā)送比特流到另一個(gè)端點(diǎn) C,類(lèi)似地對(duì)于端點(diǎn)中的每一個(gè)。當(dāng)前,MCU解碼來(lái)自第一端點(diǎn)A的比特流,即,把它變換回時(shí)域。然后,MCU對(duì)每個(gè)單一端點(diǎn)B,C,D,E,F(xiàn)...進(jìn)行編碼,從而比特流可被設(shè)定給它們。顯然,該方法需要大量計(jì)算資源,引入信號(hào)延遲,并因?yàn)樗鶊?zhí)行的編碼轉(zhuǎn)換而降低信號(hào)質(zhì)量。處理丟包是其中更通用和增強(qiáng)的音頻編碼技術(shù)可能有用的另一個(gè)領(lǐng)域。在視頻會(huì)議或VoIP呼叫中,例如,已編碼的音頻信息被放在每包通常具有20ms音頻的包內(nèi)發(fā)送。在傳輸過(guò)程中,包可能會(huì)丟失,并且丟失的音頻包導(dǎo)致接收的音頻中出現(xiàn)間隙。一種克服網(wǎng)絡(luò)中丟包的方法是傳輸包(即,比特流)多次,假定4次。丟失所有這4次包的機(jī)會(huì)將大大降低,因此具有間隙的機(jī)會(huì)也將減少。但是,多次傳輸包要求網(wǎng)絡(luò)帶寬增加為四倍。為減小成本,通常,同一個(gè)20ms時(shí)域信號(hào)以較高比特率(在正常模式下,例如481ApS)被編碼并且以較低比特率(例如Slcbps) 被編碼。較低(Slcbps)比特流是被多次傳輸?shù)哪莻€(gè)。這樣的話(huà),總的所需帶寬是48+8女 3 = 72kbps,以替換原始信號(hào)被多次發(fā)送的情況下的48 * 4 = 1921cbpS。由于掩蔽效應(yīng) (masking effect),當(dāng)網(wǎng)絡(luò)具有丟包時(shí),48+8女3方案在語(yǔ)音質(zhì)量上表現(xiàn)得幾乎與48 * 4 方案一樣。然而,這種以不同比特率獨(dú)立編碼同一 20ms時(shí)域數(shù)據(jù)的傳統(tǒng)方案需要計(jì)算資源。最后,一些端點(diǎn)可能沒(méi)有足夠的計(jì)算資源以完成全部解碼。例如,端點(diǎn)可能具有較慢的信號(hào)處理器,或信號(hào)處理器可正忙于其他任務(wù)。如果這樣的話(huà),僅解碼該端點(diǎn)接收的比特流的一部分可能不會(huì)產(chǎn)生有用的音頻。眾所周知的是,音頻質(zhì)量取決于解碼器接收和解碼了多少比特。因?yàn)檫@些原因,需要用在音頻和視頻會(huì)議中的可擴(kuò)縮的(scalable)音頻編解碼器。

發(fā)明內(nèi)容
如在背 景技術(shù)中所提到的,在音頻會(huì)議應(yīng)用中增長(zhǎng)的需求和復(fù)雜度需要更通用和增強(qiáng)的音頻編碼技術(shù)。具體地,需要用在音頻和視頻會(huì)議中的可擴(kuò)縮的音頻編解碼器。根據(jù)本公開(kāi),一種用于處理設(shè)備的可擴(kuò)縮音頻編解碼器為輸入音頻的每一幀確定第一和第二比特分配。第一比特被分配給第一頻帶,而第二比特被分配給第二頻帶。該分配基于這兩個(gè)頻帶間的能量比逐幀地進(jìn)行。對(duì)于每一幀,編解碼器把兩個(gè)頻帶變換為兩組變換系數(shù),這兩組變換系數(shù)基于所述比特分配被量化然后被打包。然后這些包使用處理設(shè)備被傳輸。另外,變換系數(shù)的頻率區(qū)域能夠以由功率水平和感知建模所確定的重要性的順序被安排。一旦發(fā)生比特去除(bit stripping),考慮到已經(jīng)在頻帶之間分配了比特并且變換系數(shù)的各區(qū)域已經(jīng)根據(jù)重要性被排序,在接收設(shè)備處的解碼器可以產(chǎn)生合適質(zhì)量的音頻??蓴U(kuò)縮音頻編解碼器為輸入音頻逐幀地執(zhí)行動(dòng)態(tài)比特分配。用于該幀的全部可用比特在低頻帶和高頻帶之間被分配。在一種配置中,低頻帶包括0到14kHz,而高頻帶包括 14kHz到22kHz。給定幀中的兩個(gè)頻帶之間的能量水平之比確定為每個(gè)頻帶分配多少可用比特。一般而言,低頻帶將傾向于被分配更多的可用比特。這種逐幀的動(dòng)態(tài)比特分配使音頻編解碼器能夠編碼和解碼所傳輸?shù)囊纛l以獲得一致的語(yǔ)音音調(diào)感知。換而言之,即使在處理過(guò)程中可能發(fā)生的極低比特率的情況下,音頻也可被感知為全頻帶語(yǔ)音。這是因?yàn)橹辽?4kHz的帶寬總是被獲取??蓴U(kuò)縮音頻編解碼器將頻率帶寬擴(kuò)展到全頻帶,S卩,到22kHz。總的來(lái)說(shuō),音頻編解碼器從大約IOkbps到64kbps可擴(kuò)縮。IOkbps的值可能不同,并且針對(duì)給定實(shí)現(xiàn)而被選擇以獲得可接受的編碼質(zhì)量。在任何情況下,所公開(kāi)的音頻編解碼器的編碼質(zhì)量可以與被稱(chēng)為Siren 14的固定速率的22kHz版本的音頻編解碼器大致相同。在28kbps及以上,所公開(kāi)的音頻編解碼比得上22kHz編解碼器。另外,在28kHz以下,所公開(kāi)的音頻編解碼器比得上14kHz編解碼器,因?yàn)樗谌魏嗡俾识加兄辽?4kHz帶寬。所公開(kāi)的音頻編解碼器能夠有區(qū)別地通過(guò)使用掃描音周、白噪聲、以及真實(shí)語(yǔ)音信號(hào)的測(cè)試。還有,所公開(kāi)的音頻編解碼器僅需要現(xiàn)有Siren 14音頻編解碼器當(dāng)前所需的大約1. 5倍的計(jì)算資源和存儲(chǔ)需求。除了比特分配,可擴(kuò)縮音頻編解碼器還基于每一個(gè)頻帶中的每個(gè)區(qū)域的重要性執(zhí)行比特重新排序。例如,一幀的低頻帶的變換系數(shù)被安排在多個(gè)區(qū)域中。音頻編解碼器確定這些區(qū)域中每一個(gè)的重要性,然后按重要性順序用分配給該頻帶的比特來(lái)打包這些區(qū)域。 一種確定區(qū)域的重要性的方式是基于區(qū)域的功率水平,按重要性順序從最高功率水平到最低功率水平來(lái)安排這些區(qū)域。這種確定可基于使用周?chē)鷧^(qū)域的加權(quán)來(lái)確定重要性的感知模型而被擴(kuò)展。用可擴(kuò)縮音頻編解碼器來(lái)解碼包利用了比特分配和基于重要性被重新排序的頻率區(qū)域。如果接收到的包的比特流的一部分因?yàn)槿魏卧虮蝗コ?,音頻編解碼器至少能夠首先解碼比特流中的較低頻帶,而較高頻帶有可能被比特去除至一定程度。還有,由于頻帶的區(qū)域按重要性排序,具有較高功率水平的更重要的比特被先解碼,并且它們被去除的可能性更小。如上所討論的,本公開(kāi)的可擴(kuò)縮音頻編解碼器允許從編碼器生成的比特流中去除比特,同時(shí)解碼器仍能產(chǎn)生時(shí)域中可理解的音頻。因?yàn)檫@個(gè)原因,可擴(kuò)縮音頻編解碼器在許多應(yīng)用中可以是有用的,其中的一些在下面被討論。在 一個(gè)例子中,可擴(kuò)縮音頻編解碼器在無(wú)線(xiàn)網(wǎng)絡(luò)中可以是有用的,其中端點(diǎn)必須以不同比特率發(fā)送比特流以適應(yīng)網(wǎng)絡(luò)條件。當(dāng)MCU被使用時(shí),可擴(kuò)縮音頻編解碼器能夠通過(guò)去除比特而以不同比特率創(chuàng)建比特流以便發(fā)送到各個(gè)端點(diǎn),而不是通過(guò)慣常的方式。因此,MCU能夠使用可擴(kuò)縮音頻編解碼器,通過(guò)從來(lái)自第一端點(diǎn)的64kbps比特流中去除比特來(lái)獲得用于第二端點(diǎn)的8kbps比特流,同時(shí)仍保持有用的音頻。當(dāng)處理丟包時(shí),可擴(kuò)縮音頻編解碼器的使用還能夠幫助節(jié)省計(jì)算資源。如前面提到的,應(yīng)對(duì)丟包的傳統(tǒng)方案是以高和低比特率(例如,48kbps和8kbps)獨(dú)立地編碼同一 20ms時(shí)域數(shù)據(jù),因此低質(zhì)量(8kbps)比特流可被多次發(fā)送。然而,當(dāng)使用可擴(kuò)縮音頻編解碼器時(shí),編解碼器僅需要編碼一次,因?yàn)榈诙?低質(zhì)量)比特流是通過(guò)從第一(高質(zhì)量)比特流去除比特而獲得的,同時(shí)仍能保持可用的音頻。最后,可擴(kuò)縮音頻編解碼器可在端點(diǎn)可能沒(méi)有足夠的計(jì)算資源來(lái)完成全部解碼的情況下有幫助。例如,端點(diǎn)可能具有較慢的信號(hào)處理器,或者該信號(hào)處理器可能正忙于其他任務(wù)。在此情況下,使用可擴(kuò)縮音頻編解碼器來(lái)解碼端點(diǎn)所接收的比特流的一部分仍然可以產(chǎn)生有用的音頻。前述的概述并非意圖總結(jié)本公開(kāi)的每個(gè)可能實(shí)施例或每個(gè)方面。


圖IA示出變換編碼編解碼器的編碼器。圖IB示出變換編碼編解碼器的解碼器。圖2A圖示出音頻處理設(shè)備,諸如會(huì)議終端,其使用根據(jù)本公開(kāi)的編碼和解碼技術(shù)。圖2B圖示出具有發(fā)送器和接收器的會(huì)議布置,其使用根據(jù)本公開(kāi)的編碼和解碼技術(shù)。圖3是根據(jù)本公開(kāi)的音頻編碼技術(shù)的流程圖。圖4A是更詳細(xì)地示出編碼技術(shù)的流程圖。圖4B示出被采樣為許多幀的模擬音頻信號(hào)。圖4C示出從時(shí)域中的采樣幀變換而來(lái)的一組頻域中的變換系數(shù)。圖4D示出將用于編碼變換系數(shù)的可用比特分配到兩個(gè)頻帶中的8種模式。圖5A-5C示出基于重要性對(duì)已編碼音頻中的區(qū)域進(jìn)行排序的例子。圖6A是示出用于確定已編碼音頻中的區(qū)域的重更性的功率譜技術(shù)的流程圖。圖6B是示出用于確定已編碼音頻中的區(qū)域的重要性的感知技術(shù)的流程圖。圖7是更詳細(xì)地示出解碼技術(shù)的流程圖。圖8示出使用所公開(kāi)的可擴(kuò)縮音頻編解碼器來(lái)處理音頻包丟失的技術(shù)。
具體實(shí)施例方式基于本公開(kāi)的音頻編解碼器是可擴(kuò)縮的并且在頻帶間分配可用比特。另外,音頻編解碼器基于重要性對(duì)這些頻帶中每一個(gè)頻帶的頻率區(qū)域進(jìn)行排序。如果發(fā)生比特去除, 那么那些具有更高重要性的頻率區(qū)域?qū)⒁呀?jīng)在比特流中首先被打包。以這種方式,即使發(fā)生比特去除,更有用的音頻將被保持。音頻編解碼器的這些和其他細(xì)節(jié)在這里被公開(kāi)。本 公開(kāi)的各種實(shí)施例可以在諸如音頻會(huì)議、視頻會(huì)議和流媒體(包括流式音樂(lè)或語(yǔ)音)等領(lǐng)域中找到有用的應(yīng)用。因此,本公開(kāi)的音頻處理設(shè)備可包括音頻會(huì)議端點(diǎn)、視頻會(huì)議端點(diǎn)、音頻回放設(shè)備、個(gè)人音樂(lè)播放器、計(jì)算機(jī)、服務(wù)器、電信設(shè)備、蜂窩電話(huà)、個(gè)人數(shù)字助理、VoIP電話(huà)設(shè)備、呼叫中心設(shè)備、錄音設(shè)備、語(yǔ)音消息設(shè)備等。例如,專(zhuān)用的音頻或視頻會(huì)議端點(diǎn)可受益于所公開(kāi)的技術(shù)。類(lèi)似地,計(jì)算機(jī)或其他設(shè)備可被用于桌面會(huì)議或用于數(shù)字音頻的發(fā)送和接收,并且這些設(shè)備也能受益于所公開(kāi)的技術(shù)。A.會(huì)議端點(diǎn)如上所述,本公開(kāi)的音頻處理設(shè)備可以包括會(huì)議端點(diǎn)或終端。圖2A示意性地示出了端點(diǎn)或終端100的例子。如所示的,會(huì)議終端100在網(wǎng)絡(luò)125上既可以是發(fā)送器又可以是接收器。還如所示的,會(huì)議終端100可以具有視頻會(huì)議能力以及音頻能力。一般而言,終端100具有麥克風(fēng)102和揚(yáng)聲器108,并且可以具有各種其他輸入/輸出設(shè)備,諸如攝像機(jī) 103、顯示器109、鍵盤(pán)、鼠標(biāo)等。另外,終端100具有處理器160、存儲(chǔ)器162、轉(zhuǎn)換器電子裝置164、和適合于特定網(wǎng)絡(luò)125的網(wǎng)絡(luò)接口 122/124。音頻編解碼器110根據(jù)用于聯(lián)網(wǎng)終端的合適協(xié)議提供基于標(biāo)準(zhǔn)的會(huì)議。這些標(biāo)準(zhǔn)可以完全以存儲(chǔ)器162中所存儲(chǔ)的軟件實(shí)現(xiàn), 以及在處理器160上、在專(zhuān)用硬件上、或使用以上的組合來(lái)執(zhí)行。在傳輸路徑中,麥克風(fēng)102拾取的模擬輸入信號(hào)被轉(zhuǎn)換器電子裝置164轉(zhuǎn)換為數(shù)字信號(hào),并且在終端的處理器160上運(yùn)行的音頻編解碼器110具有編碼器200,其編碼數(shù)字音頻信號(hào)以便在網(wǎng)絡(luò)125(諸如因特網(wǎng))上通過(guò)發(fā)送器接口 122傳輸。如果存在,具有視頻編碼器170的視頻編解碼器可以對(duì)視頻信號(hào)執(zhí)行類(lèi)似功能。在接收路徑中,終端100具有耦接到音頻編解碼器110的網(wǎng)絡(luò)接收器接口 124。解碼器250解碼已接收的音頻信號(hào),并且轉(zhuǎn)換器電子裝置164將數(shù)字信號(hào)轉(zhuǎn)換為模擬信號(hào)以輸出到揚(yáng)聲器108。如果存在,具有視頻解碼器172的視頻編解碼器可以對(duì)視頻信號(hào)執(zhí)行類(lèi)似功能。B.音頻處理布置圖2B示出一會(huì)議布置,其中第一音頻處理設(shè)備100A(作為發(fā)送器)發(fā)送壓縮的音頻信號(hào)到第二音頻處理設(shè)備100B (在該上下文中作為接收器)。發(fā)送器100A和接收器100B 都具有可擴(kuò)縮音頻編解碼器110,其執(zhí)行類(lèi)似于用在ITUG. 722. 1 (Polycom Siren 7)或ITU G. 722. l.C(Polycom Siren 14)中的變換編碼。對(duì)于當(dāng)前討論,發(fā)送器和接收器100A-B可以是音頻或視頻會(huì)議中的端點(diǎn)或終端,但是它們可以是其他類(lèi)型的設(shè)備。在操作過(guò)程中,發(fā)送器100A中的麥克風(fēng)102捕獲源音頻,并且電子裝置采樣該音頻的塊或幀。典型地,音頻塊或幀的跨度為20毫秒的輸入音頻。在這一點(diǎn)上,音頻編解碼器110的正向變換(forward transform)將每個(gè)音頻幀轉(zhuǎn)換為一組頻域變換系數(shù)。使用本領(lǐng)域公知技術(shù),這些變換系數(shù)然后使用量化器115被量化并且被編碼。一旦被編碼,發(fā)送器100A使用其網(wǎng)絡(luò)接口 120通過(guò)網(wǎng)絡(luò)125以包的形式將編碼后的變換系數(shù)發(fā)送到接收器100B。任何適當(dāng)?shù)木W(wǎng)絡(luò)可被使用,包括但不限于IP(因特網(wǎng)協(xié)議) 網(wǎng)絡(luò)、PSTN(公共交換電話(huà)網(wǎng)絡(luò))、ISDN(綜合服務(wù)數(shù)字網(wǎng)絡(luò)),等等。就它們而言,所發(fā)送的包可使用任何適當(dāng)?shù)膮f(xié)議或標(biāo)準(zhǔn)。例如,包中的音頻數(shù)據(jù)可遵循一個(gè)表格的內(nèi)容,并且構(gòu)成一個(gè)音頻幀的所有八比特組可作為一個(gè)單元被附加到凈荷中。音頻幀和包的附加細(xì)節(jié)在ITU-T建議G. 722. 1和G. 722. IC中有詳細(xì)說(shuō)明,這些建議都被結(jié)合于此。在接收器100B,網(wǎng)絡(luò)接口 120接收包。在隨后的反向處理中,接收器100B使用去量化器115和編解碼器110的逆變換來(lái)對(duì)編碼后的變換系數(shù)進(jìn)行去量化和解碼。該逆變換將變換系數(shù)轉(zhuǎn)換回時(shí)域,以便為接收器的揚(yáng)聲器108產(chǎn)生輸出音頻。對(duì)于音頻和視頻會(huì)議, 接收器100B和發(fā)送器100A在會(huì)議過(guò)程中可互換角色。

C.音頻編解碼器操作在理解上面提供的音頻編解碼器110和音頻處理設(shè)備100后,現(xiàn)在轉(zhuǎn)到討論根據(jù)本公開(kāi)音頻編解碼器110如何編碼和解碼音頻。如圖3所示,發(fā)送器100A中的音頻編解碼器110接收時(shí)域的音頻數(shù)據(jù)(塊310)并得到音頻數(shù)據(jù)的音頻塊或幀(塊312)。使用正向變換,音頻編解碼器110將音頻幀轉(zhuǎn)換為頻域中的變換系數(shù)(塊314)。 如上所述,音頻編解碼器110可使用Polycom Siren技術(shù)來(lái)執(zhí)行該變換。然而,音頻編解碼器可以是任何變換編解碼器,包括但不限于MP3、MPEG、AAC等。當(dāng)變換音頻幀時(shí),音頻編解碼器110還量化和編碼該幀的譜包絡(luò)(塊316)。該包絡(luò)描述了被編碼的音頻的幅度,但是它不提供任何相位細(xì)節(jié)。編碼包絡(luò)譜不需要大量比特, 因此它可以容易地完成。還有,如下面將看到的,如果比特在傳輸中被去除,譜包絡(luò)可以在后面的音頻解碼過(guò)程中被使用。當(dāng)通過(guò)網(wǎng)絡(luò)(諸如因特網(wǎng))通信時(shí),帶寬可能改變,包可能丟失,并且連接速率可能不同。為應(yīng)對(duì)這些挑戰(zhàn),本公開(kāi)的音頻編解碼器110是可擴(kuò)縮的。以這種方式,音頻編解碼器110在稍后更詳細(xì)描述的處理中在至少兩個(gè)頻帶之間分配可用比特(塊318)。編解碼器的編碼器200量化和編碼每個(gè)已分配頻帶中的變換系數(shù)(塊320),然后基于區(qū)域的重要性對(duì)每個(gè)頻率區(qū)域的比特重新排序(塊322)??傮w上,整個(gè)編碼處理可僅引入大約20ms 的延遲。如果比特因?yàn)樵S多原因被去除,確定比特重要性(其在下面更詳細(xì)地描述)將提高可在遠(yuǎn)端再現(xiàn)的音頻質(zhì)量。在將比特重新排序后,比特被打包以用于發(fā)送到遠(yuǎn)端。最后, 包被發(fā)送到遠(yuǎn)端,從而下一幀能被處理(塊324)。在遠(yuǎn)端,接收器100B接收包,根據(jù)已知技術(shù)處理它們。編解碼器的解碼器250然后解碼和去量化譜包絡(luò)(塊352),并確定在頻帶間分配的比特(塊354)。關(guān)于解碼器250 如何確定頻帶間比特分配的細(xì)節(jié)在稍后提供。知道比特分配后,解碼器250然后解碼和去量化變換系數(shù)(塊356),并對(duì)每個(gè)頻帶中的系數(shù)執(zhí)行逆變換(塊358)。最終,解碼器250 將音頻轉(zhuǎn)換回時(shí)域以便為接收器的揚(yáng)聲器108產(chǎn)生輸出音頻(塊360)。D.編碼技術(shù)如上所述,所公開(kāi)的音頻編解碼器110是可擴(kuò)縮的并且使用變換編碼將音頻編碼到為至少兩個(gè)頻帶分配的比特中。由可擴(kuò)縮音頻編解碼器100執(zhí)行的編碼技術(shù)的細(xì)節(jié)在圖 4的流程圖中示出。最開(kāi)始,音頻編解碼器110獲得輸入音頻幀(塊402),并使用本領(lǐng)域公知的調(diào)制重疊變換將該幀轉(zhuǎn)換為變換系數(shù)(塊404)。如所知道的那樣,這些變換系數(shù)中的每一個(gè)具有幅度并且可以是正的或者負(fù)的。音頻編解碼器110還如前面提到的那樣量化和編碼譜包絡(luò)[OHz到22kHz](塊406)。在這點(diǎn)上,音頻編解碼器110在兩個(gè)頻帶之間分配用于該幀的比特(塊408)。當(dāng)音頻編解碼器110編碼所接收的音頻數(shù)據(jù)時(shí),逐幀地動(dòng)態(tài)確定該比特分配。在這兩個(gè)頻帶間的劃分頻率被選擇為使得第一數(shù)量的可用比特被分配給低于該劃分頻率的低頻率區(qū)域, 而剩余比特被分配給高于該劃分頻率的較高頻率區(qū)域。在確定了頻帶的比特分配后,音頻編解碼器110在低頻帶和高頻帶中使用它們各自分配的比特來(lái)編碼歸一化系數(shù)(塊410)。然后,音頻編解碼器110確定這兩個(gè)頻帶中的每個(gè)頻率區(qū)域的重要性(塊412),并基于所確定的重要性對(duì)頻域區(qū)域進(jìn)行排序(塊414)。如前所述,音頻編解碼器110可類(lèi)似于Siren編解碼器并且可將音頻信號(hào)從時(shí)域變換到具有MLT系數(shù)的頻域。(為了簡(jiǎn)化,本公開(kāi)提及的是MLT變換的變換系數(shù),但是其他類(lèi)型的變換也可被使用,諸如FFT(快速傅立葉變換)和DCT(離散余弦變換)等。)在采樣率下,MLT變換產(chǎn)生大約960個(gè)MLT系數(shù)(S卩,每25Hz —個(gè)系數(shù))。這些系數(shù)基于升序以索引0,1,2,...被安排在頻率區(qū)域中。例如,第一區(qū)域0覆蓋頻率范圍W到 500Hz],下一區(qū)域1覆蓋[500到1000Hz],以此類(lèi)推。不同于通常那樣簡(jiǎn)單地以升序發(fā)送頻率區(qū)域,可擴(kuò)縮音頻編解碼器110在整個(gè)音頻的上下文中確定區(qū)域的重要性,然后基于從更高重要性到更低重要性的順序來(lái)重新排序這些區(qū)域。該基于重要性的重新排列在兩個(gè)頻帶中都執(zhí)行。確定每個(gè)頻率區(qū)域的重要性可以以許多方式實(shí)現(xiàn)。在一個(gè)實(shí)施例中,編碼器200 基于量化的信號(hào)功率譜來(lái)確定區(qū)域的重要性。在這種情況下,具有更高功率的區(qū)域具有更高重要性。在另一個(gè)實(shí)施例中,感知模型可被用于確定區(qū)域的重要性。該感知模型掩蔽 (mask)不被人們感知的無(wú)關(guān)音頻、噪聲等等。這些技術(shù)將分別在稍后更詳細(xì)地討論。在基于重要性進(jìn)行排序后,最重要的區(qū)域被首先打包,跟隨其后是稍微不那么重要的區(qū)域,再隨其后是不那么重要的區(qū)域,以此類(lèi)推(塊416)。最后,已排序和打包的區(qū)域可通過(guò)網(wǎng)絡(luò)被發(fā)送到遠(yuǎn)端(塊420)。在發(fā)送包時(shí),關(guān)于變換系數(shù)的區(qū)域排序的索引信息不需要被發(fā)送。而是,索引信息可基于從比特流解碼的譜包絡(luò)在解碼器中被計(jì)算。如果發(fā)生比特去除,那么接近尾端的被打包的那些比特可被去除。因?yàn)閰^(qū)域已被排序,在更重要的區(qū)域中的系數(shù)已經(jīng)被首先打包。因此,如果發(fā)生比特去除的話(huà),被最后打包的不那么重要的區(qū)域更有可能被去除。在遠(yuǎn)端,解碼器250解碼并變換所接收到的數(shù)據(jù),該數(shù)據(jù)已經(jīng)反映了最初由發(fā)送器100A賦予的有次序的重要性。以這種方式,當(dāng)接收器100B解碼包并在時(shí)域產(chǎn)生音頻時(shí), 接收器的音頻編解碼器110實(shí)際上將接收和處理輸入音頻中的系數(shù)的更重要區(qū)域的機(jī)會(huì)得到增加。如所預(yù)期的,帶寬、計(jì)算能力和其他資源的變化在會(huì)議過(guò)程中可能會(huì)改變,因此音頻被丟失、不被編碼,等等。如果音頻在頻帶之間進(jìn)行了比特分配并且按重要性進(jìn)行了排序,音頻編解碼器 110可以增加更有用的音頻將在遠(yuǎn)端被處理的機(jī)會(huì)??紤]所有這些,當(dāng)音頻質(zhì)量由于不管什么原因而降低時(shí),即使有比特從比特流中被去除(即,部分比特流),音頻編解碼器110仍能生成有用的音頻信號(hào)。1.比特分配 如前面提到的,本公開(kāi)的可擴(kuò)縮音頻編解碼器110在頻帶間分配可用比特。如圖 4B所示,音頻編解碼器(110)以特定采樣頻率(例如,48kHz)在每個(gè)約20ms的連續(xù)的幀 F1,F(xiàn)2,F(xiàn)3等中采樣并數(shù)字化音頻信號(hào)430。(實(shí)際上,這些幀可能會(huì)交疊。)因此,每個(gè)幀 Fl, F2,F(xiàn)3等具有大約960個(gè)采樣(48kHzX0. 02s = 960)。音頻編解碼器(110)然后將每個(gè)幀F(xiàn)1,F(xiàn)2,F(xiàn)3等從時(shí)域變換到頻域。對(duì)于給定幀,例如,變換得到如圖4C所示的一組MLT 系數(shù)。對(duì)于該幀,大約有960個(gè)MLT系數(shù)(S卩,每25Hz—個(gè)MLT系數(shù))。由于22kHz的編碼帶寬,代表高于大約22kHz的頻率的MLT變換系數(shù)可能被忽略。在頻域中從0到22kHz的該組變換系數(shù)必須被編碼,因此編碼后的信息能夠被打包和通過(guò)網(wǎng)絡(luò)傳輸。在一種布置中,音頻編解碼器(110)被配置為以最大速率編碼全頻帶音頻信號(hào),該最大速率可以是64kbps。還有,如這里所述,音頻編解碼器(110)在兩個(gè)頻帶間分配用于編碼幀的可用比特。為分配這些比特,音頻編解碼器110可將總共可用比特在第一頻帶W到12kHz] 和第二頻帶[12kHz到22kHz]之間劃分。在這兩個(gè)頻帶間的12kHz的劃分頻率可主要基于語(yǔ)音音調(diào)變化和主觀測(cè)試而被選擇。其他劃分頻率可被用于給定的實(shí)施例。分割總共可用比特是基于兩個(gè)頻帶間的能量比。在一個(gè)例子中,對(duì)于兩個(gè)頻帶間的分割,可有四種可能的模式。例如,64kbps的總共可用比特可被如下劃分 表 1四種模式的比特分配示例
模式為<12klfe的信號(hào)為>12kHz的信f 總共可用帶寬麵____(kbps)
0__48__16__64_
1_44__20__64_
2_40__24__64_
336_28__64_為了在發(fā)送到遠(yuǎn)端的信息中表示出這四種可能性,要求編碼器(200)在傳輸?shù)谋忍亓髦惺褂?比特。當(dāng)接收時(shí),遠(yuǎn)端解碼器(250)可使用來(lái)自這些發(fā)送的比特的信息來(lái)確定對(duì)于給定幀的比特分配。知道比特分配后,解碼器(250)然后可基于該確定的比特分配
解碼信號(hào)。在如圖4C所示的另一布置中,音頻編解碼器(110)被配置為通過(guò)在第一頻帶 (LoBand)440
和第二頻帶(HiBand)450[14kHz到22kHz]之間劃分總可用比特來(lái)分配比特。盡管取決于實(shí)施例可使用其他值,14kHz的劃分頻率可基于考慮語(yǔ)音/音樂(lè)、 嘈雜/干凈、男性聲音/女性聲音等的主觀聽(tīng)力質(zhì)量而被優(yōu)先選擇。在14kHz處將信號(hào)劃分為HiBand和LoBand也使可擴(kuò)縮音頻編解碼器110比得上現(xiàn)有的SirenH音頻編解碼器。在該布置中,幀可以使用8種可能的劃分模式而逐幀地彼劃分。這8種模式(bit_ split_mode)是基于兩個(gè)頻帶440/450間的能量比。這里,低頻帶(LoBand)的能量或功率值被標(biāo)記為L(zhǎng)oBandsPower,而高頻帶(HiBand)的能量或功率值被標(biāo)記為HiBandsPower。給定幀的特定模式(bit_split_mode)被如下確定if (HiBandsPower) (LoBandsPower -k 4. 0))bit_split_mode = 7 ;else if (HiBandsPower) (LoBandsPower -k 3.0))
bit_split_mode = 6 ;else if (HiBandsPower) (LoBandsPower -k 2.0))bit_split_mode = 5 ;else if (HiBandsPower) (LoBandsPower -k 1.0))bit_split_mode = 4 ;else if (HiBandsPower) (LoBandsPower -k 0.5))bit_split_mode = 3 ;else if (HiBandsPower) (LoBandsPower -k 0.01))bit_split_mode = 2 ;else if (HiBandsPower) (LoBandsPower -k 0. 001))bit_split_mode = 1 ;else bit_split_mode = O ;這里,低頻帶的能量值(LoBandsPower)被計(jì)算為,^gMonfeei/ ——其中區(qū)域索弓I i = 0,1,2,· · ·,25。(因?yàn)槊?br> i
個(gè)區(qū)域的帶寬是500Hz,相應(yīng)的頻率范圍是OHz到12500Hz)??捎糜诂F(xiàn)有Siren編解碼器的預(yù)定義表可被用于量化每個(gè)區(qū)域的功率以獲得quantiZed_regi0n_p0Wer[i]的值。就它而言,高頻帶的功率值(HiBandsPower)被類(lèi)似地計(jì)算,但使用的頻率范圍是從13kHz到 22kHz。因此,在該比特技術(shù)中的劃分頻率實(shí)際上是13kHz,盡管信號(hào)頻譜是在14kHz處被劃分。這樣做是為了通過(guò)掃描正弦波測(cè)試。兩個(gè)頻帶440/450的比特分配然后基于從如上所述的頻帶功率值的能量比所確定的bit_split_mode被計(jì)算。特別地,HiBand頻帶獲得總共可用的64kbps中的(16+4 * bit_split_mode)kbps,而LoBand頻帶獲得總共64kbps中的剩余比特。這分解為下列對(duì)于 8種模式的分配表 28種模式的比特分配示例
權(quán)利要求
1.一種用于處理設(shè)備的可擴(kuò)縮音頻處理方法,包括為輸入音頻的幀確定第一和第二比特分配,第一比特分配被分配給第一頻帶,第二比特分配被分配給第二頻帶;將所述幀的第一頻帶從時(shí)域變換編碼為頻域中的第一變換系數(shù); 將所述幀的第二頻帶從時(shí)域變換編碼為頻域中的第二變換系數(shù); 利用相應(yīng)的第一和第二比特分配,將第一和第二變換系數(shù)打包到包中;以及使用所述處理設(shè)備發(fā)送所述包。
2.如權(quán)利要求1所述的方法,其中確定第一和第二比特分配是針對(duì)所述輸入音頻逐幀地進(jìn)行的。
3.如權(quán)利要求1所述的方法,其中確定第一和第二比特分配包括 計(jì)算所述幀的第一和第二頻帶的能量比;以及基于所計(jì)算的能量比為所述幀進(jìn)行第一和第二比特分配。
4.如權(quán)利要求1所述的方法,其中第一和第二變換系數(shù)中的每一個(gè)被安排在多個(gè)頻率區(qū)域中,并且其中打包所述第一和第二變換系數(shù)中的每一個(gè)包括確定所述頻率區(qū)域的重要性;基于所確定的重要性對(duì)所述頻率區(qū)域進(jìn)行排序;以及按照排序來(lái)打包所述頻率區(qū)域。
5.如權(quán)利要求4所述的方法,其中確定所述頻率區(qū)域的重要性和對(duì)所述頻率區(qū)域進(jìn)行排序包括為所述頻率區(qū)域中的每一個(gè)確定功率水平;以及從最大功率水平到最小功率水平對(duì)所述頻率區(qū)域進(jìn)行排序。
6.如權(quán)利要求5所述的方法,其中確定能量水平進(jìn)一步包括使用基于頻率區(qū)域間的頻譜距離的固定函數(shù)來(lái)加權(quán)頻率區(qū)域的功率水平。
7.如權(quán)利要求1所述的方法,其中打包包括打包關(guān)于第一和第二比特分配的指示。
8.如權(quán)利要求1所述的方法,其中打包包括打包第一和第二頻帶二者的譜包絡(luò)。
9.如權(quán)利要求1所述的方法,其中打包包括對(duì)于每個(gè)幀,在打包第一和第二頻帶中較高的頻帶之前先打包較低的頻帶。
10.如權(quán)利要求1所述的方法,其中變換編碼和打包包括通過(guò)以第一比特率變換編碼所述幀,來(lái)產(chǎn)生所述幀的第一版本; 通過(guò)將所述第一版本精簡(jiǎn)到低于第一比特率的第二比特率,來(lái)產(chǎn)生所述幀的第二版本;以及將所述幀的第一版本與前一個(gè)幀的第二版本一起打包到所述包中。
11.如權(quán)利要求1所述的方法,其中所述第一頻帶是大約O到大約12kHz,并且其中所述第二頻帶是大約12kHz到大約22kHz。
12.如權(quán)利要求1所述的方法,其中所述第一頻帶是大約0到大約12500Hz,并且其中所述第二頻帶是大約13kHz到大約22kHz。
13.如權(quán)利要求1所述的方法,其中所述第一和第二比特分配總共有大約641ApS的可用比特。
14.如權(quán)利要求1所述的方法,其中所述變換系數(shù)包括調(diào)制重疊變換的系數(shù)。
15.一種其上存儲(chǔ)有程序指令的可編程存儲(chǔ)設(shè)備,所述程序指令用于使可編程控制設(shè)備執(zhí)行如權(quán)利要求1所述的可擴(kuò)縮音頻處理方法。
16.一種處理設(shè)備,包括 網(wǎng)絡(luò)接口 ;通信地耦接到該網(wǎng)絡(luò)接口并獲得輸入音頻的處理器,所述處理器被配置為 為輸入音頻的幀確定第一和第二比特分配,第一比特分配被分配給第一頻帶,第二比特分配被分配給第二頻帶;針對(duì)所述幀的每一個(gè),將時(shí)域中的第一頻帶變換編碼為頻域中的第一變換系數(shù); 針對(duì)所述幀的每一個(gè),將時(shí)域中的第二頻帶變換編碼為頻域中的第二變換系數(shù); 針對(duì)所述幀的每一個(gè),使用所述第一比特分配中相應(yīng)的第一比特分配,將第一變換系數(shù)打包到包中;針對(duì)所述幀的每一個(gè),使用所述第二比特中相應(yīng)的第二比特分配,將第二變換系數(shù)打包到所述包中;以及使用所述網(wǎng)絡(luò)接口發(fā)送所述包。
17.如權(quán)利要求16所述的設(shè)備,其中所述處理設(shè)備選自由音頻會(huì)議端點(diǎn)、視頻會(huì)議端點(diǎn)、音頻回放設(shè)備、個(gè)人音樂(lè)播放器、計(jì)算機(jī)、服務(wù)器、電信設(shè)備、蜂窩電話(huà)和個(gè)人數(shù)字助理所構(gòu)成的組。
18.一種用于處理設(shè)備的音頻處理方法,包括接收用于輸入音頻的幀的包,每個(gè)包具有一個(gè)幀的第一頻帶的在頻域中的第一變換系數(shù)和該幀的第二頻帶的在頻域中的第二變換系數(shù);為每個(gè)包中的幀確定第一和第二比特分配,第一比特分配中的每一個(gè)被分配給所述包中的所述幀的第一頻帶,第二比特分配中的每一個(gè)被分配給所述包中的所述幀的第二頻帶;針對(duì)所述包中的每個(gè)幀,將第一變換系數(shù)和第二變換系數(shù)逆變換編碼為輸出音頻; 針對(duì)所述包中的每個(gè)幀,確定第一和第二比特分配中是否有比特缺失;以及填充音頻到任何被確定為缺失的比特中。
19.如權(quán)利要求18所述的方法,其中接收所述包包括接收所述幀的第一和第二頻帶中的每一個(gè)的譜包絡(luò),并且其中填充音頻包括利用譜包絡(luò)縮放音頻信號(hào)。
20.一種用于處理設(shè)備的音頻處理方法,包括通過(guò)以第一比特率變換編碼輸入音頻的連續(xù)的幀中的每個(gè)幀,來(lái)產(chǎn)生所述連續(xù)的幀的第一版本;通過(guò)將每個(gè)第一版本精簡(jiǎn)到低于第一比特率的第二比特率,來(lái)產(chǎn)生所述連續(xù)的幀中的每個(gè)幀的第二版本;將所述連續(xù)的幀的每個(gè)第一版本與所述連續(xù)的幀中的前一個(gè)幀的第二版本一起打包到包中;使用處理設(shè)備發(fā)送所述包。
21.一種用于處理設(shè)備的音頻處理方法,包括接收用于輸入音頻的連續(xù)的幀的包,每個(gè)包具有所述連續(xù)的幀中的一個(gè)幀的第一版本和所述連續(xù)的幀中的前一個(gè)幀的第二版本,每個(gè)第一版本包括以第一比特率變換編碼的所述一個(gè)幀,每個(gè)第二版本包括前一個(gè)幀的被精簡(jiǎn)到低于第一比特率的第二比特率的第一版本;解碼每個(gè)包;對(duì)于接收的包中的一個(gè)包,檢測(cè)包錯(cuò)誤;再生所述一個(gè)包的缺失幀,這是通過(guò)使用來(lái)自接收到的包中的前一個(gè)包的、所述一個(gè)包的缺失幀的第二版本而實(shí)現(xiàn)的;以及使用幀的第一版本和再生的缺失幀產(chǎn)生輸出音頻。
全文摘要
本公開(kāi)涉及全頻帶可擴(kuò)縮音頻編解碼器。一種用于處理設(shè)備的可擴(kuò)縮音頻編解碼器為輸入音頻的每一幀確定第一和第二比特分配。第一比特被分配給第一頻帶,第二比特被分配給第二頻帶。該分配基于這兩個(gè)頻帶間的能量比逐幀地進(jìn)行。對(duì)于每一幀,編解碼器把兩個(gè)頻帶變換編碼為兩組變換系數(shù),然后這兩組變換系數(shù)基于所述比特分配被打包。然后這些包使用處理設(shè)備被傳輸。另外,變換系數(shù)的頻率區(qū)域能夠以由功率水平和感知建模所確定的重要性的順序被安排。一旦發(fā)生比特去除,考慮到已經(jīng)在頻帶之間分配了比特并且變換系數(shù)的各區(qū)域已經(jīng)根據(jù)重要性被排序,在接收設(shè)備處的解碼器可以產(chǎn)生合適質(zhì)量的音頻。
文檔編號(hào)G10L19/02GK102332267SQ20111025974
公開(kāi)日2012年1月25日 申請(qǐng)日期2011年7月1日 優(yōu)先權(quán)日2010年7月1日
發(fā)明者P·舒, 馮津偉 申請(qǐng)人:寶利通公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1