專利名稱:可縮放的立體聲音頻編碼/解碼方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻數(shù)據(jù)編碼和解碼,并且尤其涉及一種編碼音頻數(shù)據(jù)的方法和裝置,以便其編碼的立體聲音頻比特流具有可以縮放的比特率;以及一種解碼經(jīng)編碼的立體聲音頻比特流的方法和裝置。
背景技術(shù):
隨著數(shù)字信號處理技術(shù)最近的發(fā)展,音頻信號經(jīng)常以數(shù)字數(shù)據(jù)形式存儲和再現(xiàn)。數(shù)字音頻存儲/再現(xiàn)裝置,通過取樣和量化模擬音頻信號將模擬音頻信號轉(zhuǎn)換為被稱作脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù)的數(shù)字信號,將所述脈沖編碼調(diào)制音頻數(shù)據(jù)存儲在像CD或者DVD這樣的信息存儲介質(zhì)上,并允許使用者在任何時間再現(xiàn)所述數(shù)據(jù)。與正在使用例如長時間(LP)記錄或磁帶的模擬存儲/再現(xiàn)方法相比,這種數(shù)字存儲/再現(xiàn)的方法顯著地提高了音質(zhì)以及大大地降低了由于長期存儲的音質(zhì)退化。然而,在由大量數(shù)字數(shù)據(jù)引起的存儲和傳送不能有效地執(zhí)行方面,這種數(shù)字存儲/再現(xiàn)的方法存在缺陷。
為了克服上述問題,已使用多種壓縮數(shù)字音頻信號的方法。由國際標準化組織(ISO)標準化的運動圖片專家組(MPEG)/音頻和由杜比公司開發(fā)的AC-2/AC-3技術(shù),采用了利用人類心理聲學模型來降低數(shù)據(jù)量的方法,這樣可以不考慮信號的特性而有效地降低數(shù)據(jù)量。換句話說,MPEG/音頻標準和AC-2/AC-3方法在64-384Kbps比特率提供了幾乎與CD音質(zhì)同樣水平的音質(zhì),即,傳統(tǒng)數(shù)字編碼方法所用比特率的1/6-1/8。
然而,由于這些方法包括在為固定比特率選擇了最佳狀態(tài)之后執(zhí)行量化和進行編碼,當傳輸?shù)膸捰捎谳^差的網(wǎng)絡(luò)狀態(tài)而降低時,通過網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)可能被破壞;而且進一步地,可能在此之后不能向用戶提供服務(wù)。另外,當數(shù)據(jù)被轉(zhuǎn)換成較小的比特流以適應(yīng)存儲容量有限的移動裝置時,則需要重新編碼以降低數(shù)據(jù)量,這樣就增加了計算量。
為了克服這個問題,本發(fā)明的申請人于1997年11月19日提交了名稱為“使用比特-分片算法編碼(BSAC)的可縮放的音頻編碼/解碼方法和裝置”編號NO.97-61298的韓國專利申請,于2000年4月17日在韓國知識產(chǎn)權(quán)局注冊,注冊號NO.261253。根據(jù)BSAC,經(jīng)高比特率編碼的比特流能被轉(zhuǎn)換成比特率較低的比特流,并且只利用部分比特流就可再現(xiàn)數(shù)據(jù)。結(jié)果,甚至在網(wǎng)絡(luò)過載、解碼器處于較低性能狀態(tài)、或者用戶需要低的比特率時,僅使用部分的比特流便能給用戶提供一定水平音質(zhì)的服務(wù),盡管性能可能與降低的比特率成比例地降低。然而,由于BSAC技術(shù)利用修正離散余弦變換(MDCT)進行音頻信號的轉(zhuǎn)換,低層的音質(zhì)可能嚴重失真。
同時,在美國專利NO.6,351,730中公開了一種利用量化來調(diào)整比特率的技術(shù)。由于這種技術(shù)運用了心理聲學模型,音質(zhì)在低層是令人滿意的,但在高層由于額外開銷(overhead)而被降低了。其他的音頻編碼/解碼技術(shù)在美國專利NO.6,182,031、6,370,507和6,029,126中被公開,這些技術(shù)應(yīng)用低取樣(down sampling)并在低層中提供滿意的音質(zhì),但他們存在下述缺陷在可縮放比特率之間的間隔巨大或者需要大量的計算。結(jié)果,他們很難用于細粒度可縮放性技術(shù)(fine grain sca1ability,F(xiàn)GS)。
這種可縮放的音頻編碼設(shè)備將絕大多數(shù)的音頻數(shù)據(jù)編碼成具有44.1或48KHz的取樣率以提供CD音質(zhì)的立體聲信號,并采用當層增加時頻帶擴展的分層結(jié)構(gòu)。用這樣的分層結(jié)構(gòu),可以交替地為左聲道和右聲道編碼立體聲信號。在這種情況下,由于立體聲信號的音質(zhì)在低層被降低,那么在編碼立體聲信號時會比編碼單聲道信號時感知到更多的噪聲。
發(fā)明內(nèi)容
本發(fā)明提供一種立體聲音頻編碼和解碼的方法和裝置,其在提供細粒度可縮放性(FGS)的同時在較低層中提高了音質(zhì)。
根據(jù)本發(fā)明的一個方面,提供了一種可縮放的立體聲音頻編碼方法,該方法轉(zhuǎn)換第一和第二信道音頻取樣;量化轉(zhuǎn)換后的第一和第二信道音頻取樣;編碼經(jīng)量化的第一信道音頻取樣直到預(yù)定的過渡層,然后通過從接續(xù)過渡層的層增加層索引,交錯編碼所量化的第一和第二信道音頻取樣,直到完成預(yù)定的多個層的編碼。
根據(jù)本發(fā)明的另一個方面,提供了一種可縮放立體聲音頻編碼設(shè)備,包括心理聲學單元,提供關(guān)于心理聲學模型信息;變換單元,在心理聲學模型信息的基礎(chǔ)上轉(zhuǎn)換第一和第二信道音頻取樣;量化器,量化轉(zhuǎn)換后的第一和第二信道音頻取樣;比特打包單元,編碼所述經(jīng)量化的第一信道音頻取樣直到預(yù)定的過渡層,然后通過從接續(xù)該過渡層的層增加層索引,交錯編碼所量化的第一和第二信道音頻取樣,直到完成預(yù)定的多個層的編碼。
還是根據(jù)本發(fā)明的另一個方面,提供了一種可縮放的立體聲音頻解碼的方法,包括解碼第一信道音頻取樣直到預(yù)定的過渡層,然后通過從接續(xù)該過渡層的層增加層索引,交錯解碼第一和第二信道音頻取樣,直到完成預(yù)定的多個層的解碼,并獲得第一和第二信道的量化取樣;將已量化的第一信道和第二信道的取樣去量化;以及反向轉(zhuǎn)換第一和第二信道的所述去量化取樣,以獲得第一和第二信道音頻取樣。
還是根據(jù)本發(fā)明的另一個方面,提供了一種可縮放的立體聲音頻解碼設(shè)備,包括比特解包單元,解碼第一信道音頻取樣直到預(yù)定的過渡層,然后通過從接續(xù)該過渡層的層增加層索引,交錯解碼第一和第二信道音頻取樣,直到完成預(yù)定的多個層的解碼,并獲得第一和第二信道的量化取樣;去量化器,將所述第一和第二信道的量化取樣去量化;以及反向變換器,反向轉(zhuǎn)換所述第一和第二信道的去量化取樣,以獲得第一和第二信道音頻取樣。
通過結(jié)合下列附圖對優(yōu)選實施例的詳細描述,本發(fā)明上述和其他的特點和優(yōu)勢變得更加明顯。
圖1是根據(jù)本發(fā)明實施例的音頻編碼設(shè)備的框圖。
圖2是根據(jù)本發(fā)明實施例的音頻解碼設(shè)備的框圖。
圖3是說明用于本發(fā)明的經(jīng)編碼的比特流中幀的層結(jié)構(gòu)的圖。
圖4A和4B是說明根據(jù)本發(fā)明在如圖1所示音頻編碼設(shè)備中編碼立體聲信號的順序和編碼結(jié)果的圖。
圖5是根據(jù)本發(fā)明一個實施例的音頻編碼方法的流程圖。
圖6是根據(jù)本發(fā)明一個實施例的音頻解碼方法的流程圖。
圖7A和7B示出了根據(jù)本發(fā)明其它實施例的音頻解碼的方法。
具體實施例方式
下文將結(jié)合相關(guān)附圖詳細描述本發(fā)明的優(yōu)選實施例。
圖1是根據(jù)本發(fā)明一個實施例的音頻編碼設(shè)備的框圖。音頻編碼設(shè)備包括變換器11,心理聲學單元12,量化器13,分層編碼音頻數(shù)據(jù)以便比特率能夠被縮放的比特打包單元14。
如圖1所示,變換器11在時間域中接收脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù),也就是說,從兩個或更多信道獲得左右聲道的音頻取樣,并根據(jù)由心理聲學單元12提供的心理聲學模型信息將左聲道音頻取樣和右聲道音頻取樣轉(zhuǎn)換成頻率域中的信號。在時間域中人們感知的音頻信號的特征差別不是很大。對于通過在頻率域中的轉(zhuǎn)化獲得的音頻信號,可被人們感知的音頻信號特征大大區(qū)別于那些依據(jù)人類心理聲學模型在每個頻帶中不能被感知的音頻信號。從而,壓縮效率能通過改變分配給每個頻帶的比特數(shù)得到提高。
心理聲學單元12提供諸如沖擊檢測信息(attack detectioninformation)的心理聲學信息給變換器11。此外,心理聲學單元12將經(jīng)變換器11轉(zhuǎn)換后的音頻信號劃分為合適的子頻帶(sub-band)內(nèi)的信號,通過使用子頻帶信號間的相互干擾所產(chǎn)生的屏蔽現(xiàn)象計算每個子頻帶的屏蔽閾值,并提供經(jīng)計算后的屏蔽閾值給量化器13。在本項發(fā)明的一個實施例中,心理聲學單元12使用立體聲屏蔽電平下降(binaural masking leveldepression,BMLD)方式計算立體聲分量(stereo component)的屏蔽閾值。
量化器13根據(jù)相應(yīng)的比例因子信息分等級地量化每個子頻帶的音頻信號,以使得在每個子頻帶中的量化噪聲的量級都低于心理聲學模型單元12所提供的屏蔽閾值,這樣人們感知不到量化噪聲,并輸出量化的取樣。換句話說,量化器13使用噪聲屏蔽比(Noise-to-Ratio,NMR)進行量化,即,由心理聲學模型單元12計算出來的屏蔽閾值與每個子頻帶中出現(xiàn)的噪聲的比率,這樣整個頻帶上的NMR不超過0分貝(dB)。當NMR不超過0分貝時,人們是聽不到量化噪聲。
比特打包單元14以與所述層相應(yīng)的比特率,通過合并每層的附加信息和量化信息來編碼由量化器13提供的量化取樣。在這里,由于層的增加,立體聲信號的單聲道分量被編碼到預(yù)定的過渡層(也就是下文中所提及的ENHANCE_CHANNAL(增強信道)),然后立體聲信號的立體聲分量從ENHANCE_CHANNAL之后的層被分層編碼。經(jīng)編碼的比特流被分層打包。附加信息包括量化頻帶信息,編碼頻帶信息,比例因數(shù)信息,和關(guān)于每層的編碼模型信息。量化頻帶信息用于根據(jù)音頻信號的頻率特征適當?shù)亓炕纛l信號。當頻率范圍被劃分為多個頻帶,并且每個頻帶都被分配了適當?shù)谋壤驍?shù)時,量化頻帶信息表示每層相應(yīng)的量化頻帶。因此,至少一個量化頻帶屬于每層。每一個量化頻帶都被分配了一個比例因數(shù)。編碼頻帶信息也用于根據(jù)音頻信號的頻率特征適當?shù)亓炕纛l信號,當頻率范圍被劃分為多個頻帶,并且每個頻帶都被分配了適當?shù)木幋a模型時,編碼頻帶信息表示每層相應(yīng)的編碼頻帶。通過試驗適當?shù)叵薅炕l帶和編碼頻帶,并且通過實驗,他們的比例因數(shù)和編碼模型也被適當?shù)募右苑峙?。量化頻帶信息和編碼頻帶信息可能被作為首標信息打包然后發(fā)送給解碼設(shè)備。可選擇地,量化頻帶信息和編碼頻帶信息也可以被作為每層的附加信息加以編碼和打包,然后發(fā)送給解碼設(shè)備??蛇x擇地,由于解碼設(shè)備預(yù)先存儲了量化頻帶信息和編碼頻帶信息,所以量化頻帶信息和編碼頻帶信息可以不被發(fā)送給解碼設(shè)備。
更為明顯地,比特打包單元14編碼包括比例因數(shù)信息和編碼模型信息的附加信息,該附加信息對應(yīng)于基礎(chǔ)層,并在相應(yīng)于基礎(chǔ)層的編碼模型信息的基礎(chǔ)上,順序地從最高有效位到最低有效位、并從較低的頻率分量向較高頻率分量編碼音頻信號。在基礎(chǔ)層的編碼完成后,將在基礎(chǔ)層上的各層重復上述同樣的操作。在立體聲信號中,信道1中的單聲道分量被編碼為預(yù)定過渡點,而在過渡點(transition point)之后的立體聲分量被在信道1和信道2中交錯編碼。根據(jù)例如在比特分片算法編碼(BSAC)中使用的語法的預(yù)定語法,經(jīng)上述操作編碼的比特流被打包以具有層結(jié)構(gòu)。這里,過渡點信息可以被表示為層索引(index),比例因數(shù)頻帶,或者是編碼頻帶,并被包括在幀的首標信息里或者包含在每一層的附加信息中。
當比特打包單元使用BSAC時,可以利用表一所示的語法來編碼比特流。
表一
雖然沒有示出,但是在量化器13之前可以進一步包括瞬時噪聲整形(temporal noise shaping unit)單元和/或中間/側(cè)面(M/S)立體聲處理器。所述瞬間噪聲整形單元用于控制在每個窗(window)內(nèi)的量化噪聲的瞬時整形,并可以通過過濾頻率域中的數(shù)據(jù)實現(xiàn)瞬時噪聲整形。所述M/S立體聲處理器用于更有效地處理立體聲信號?;谛睦砺晫W模型信息,M/S立體聲處理器分別將中間信號(Mid signal)加上側(cè)面信號(Side signal)和中間信號減去側(cè)面信號分別轉(zhuǎn)換成信道1信號和信道2信號,并且可以確定是否在比例因數(shù)頻帶的各單元中使用這些信道1和信道2信號。
圖2是根據(jù)本發(fā)明實施例的音頻解碼設(shè)備的框圖。該音頻解碼設(shè)備包括比特解包單元21,去量化器(dequantizer)22,以及反向變換器23,以通過把比特流解包到目標層來縮放比特率,所述目標層是根據(jù)下述條件來確定的網(wǎng)絡(luò)狀態(tài)、音頻解碼設(shè)備的性能和用戶選擇。
比特解包單元21對比特流解包直到目標層,并實現(xiàn)每一層的解碼。換句話說,比特解包單元21對包括相應(yīng)于每一層的過渡點信息、比例因數(shù)信息和編碼模型信息的附加信息進行解碼,并根據(jù)所獲得的編碼模型信息對每一層的量化取樣進行解碼。在立體聲信號中,單聲道分量在信道1中被解碼成預(yù)定過渡點,而在過渡點之后的立體聲分量在信道1和信道2中被交錯解碼。同時,過渡點信息、量化頻帶信息和編碼頻帶信息可以從比特流的首標信息中獲得,或者通過解碼每一層的附加信息獲得。可選地,量化頻帶信息和編碼頻帶信息可以預(yù)先存儲在音頻解碼設(shè)備中。
去量化器22根據(jù)相應(yīng)于每一層的比例因數(shù)信息反向量化每一層的解碼量化取樣,以還原取樣。反向變換器23把還原的取樣從頻率域轉(zhuǎn)換到時間域,并在時間域輸出PCM音頻數(shù)據(jù)。
雖然沒有示出,可以在去量化器22之后進一步提供M/S立體聲反向處理器和/或瞬時噪聲整形單元。該M/S立體聲反向處理器實現(xiàn)關(guān)于比例因數(shù)頻帶的處理,該比例因數(shù)頻帶已由音頻編碼設(shè)備進行了M/S立體聲處理。所述瞬間噪聲整形單元用于控制在每個窗內(nèi)的量化噪聲的瞬時整形,并可以執(zhí)行相應(yīng)于由音頻編碼設(shè)備的瞬時噪聲整形單元執(zhí)行的處理。
圖3是說明根據(jù)本發(fā)明的比特流中的幀結(jié)構(gòu)的圖,其中所述比特流是分層編碼的,以便可以縮放比特率。根據(jù)圖3,比特流中的幀通過分層映射量化取樣和附加信息被編碼,以提供細粒度可縮放性(fine grain scalability(FGS))。換句話說,低層比特流被包括在高層比特流中。每層所需的附加信息在每層上被編碼。
存儲首標信息的首標區(qū)域被提供在比特流的前部。次于首標區(qū)域的,層0的信息被打包,然后層1至層N的信息按順序被打包。層1至層N被稱為增強層。從首標區(qū)域到層0信息的范圍被稱為基礎(chǔ)層。從首標區(qū)域到層1信息的范圍被稱為層1,而從首標區(qū)域到層2信息的范圍被稱為層2。同樣地,從首標區(qū)域到層N信息的范圍被稱為頂層(top layer)。就是說,頂層包括基礎(chǔ)層到增強層N。層信息包括附加信息和編碼音頻數(shù)據(jù)。例如,層2信息包括附加信息2和編碼量化取樣2。
在本發(fā)明中,用單個比特流來表示多個層的比特率信息,以便用于每一層比特率的比特流可以根據(jù)用戶需求或傳輸線路的狀態(tài)被簡單地重新構(gòu)造。比如,如果基礎(chǔ)層是16kbps,頂層是96kbps,并以8kbps的間隔來配置增強層,比特流由編碼設(shè)備構(gòu)造,使得每層(16,24,32,40,48,56,64,72,80,88和96kbps)的信息被存儲在頂層的比特流中,即96kbps。如果用戶請求頂層的數(shù)據(jù),那么比特流不需要被處理就可以被傳輸。如果其它用戶請求基礎(chǔ)層的數(shù)據(jù),那么只有比特流的前部被抽取出來并傳輸出去。
圖4A和4B說明根據(jù)本發(fā)明,在如圖1所示音頻編碼設(shè)備中編碼立體聲信號的順序和編碼結(jié)果。通常的,隨著層索引的增加,信道1和信道2可輪流地被編碼。然而,在本發(fā)明中,信道1被編碼到ENHANCE_CHANNEL,比如,第5層,并且此后,信道1和信道2就從信道1中的第六層開始被交錯地編碼。換句話說,當用傳統(tǒng)方法把信道1和2中的立體聲分量編碼到第3層時,在同一時期,在本發(fā)明中,信道1的單聲道分量被編碼直到第6層。
在上述結(jié)構(gòu)的基礎(chǔ)上,根據(jù)本發(fā)明實施例的立體聲音頻編碼和解碼方法將在下面進行描述。
圖5是根據(jù)本發(fā)明實施例音頻編碼方法的流程圖。所述音頻編碼方法包括在操作501和502中接收附加信息和量化取樣,在操作503中定義ENHANCE_CHANNEL,在操作504到508中編碼單聲道分量,以及在操作505到512中編碼立體聲分量。在如圖5所示的實施例中,層索引被設(shè)置為過渡點,而為了描述的清楚,所述過渡點被稱為ENHANCE_CHANNEL。
參照圖5,在操作501中,比特打包單元14接收來自量化器13的量化取樣和附加信息,并在操作502中獲得層信息。換句話說,比如每層的頻率帶寬、每一層中可以使用的比特數(shù)量、以及相應(yīng)每一層的量化頻帶和編碼頻帶的層信息,通過使用收到的音頻取樣的取樣率、目標比特率、頂層截止頻率、編碼頻帶長度、量化頻帶單元、以及期望的層數(shù)來獲得。
在操作503中,定義ENHANCE_CHANNEL信息。ENHANCE_CHANNEL信息表示層的索引,其中在信道1中從單聲道分量編碼到立體聲分量編碼進行過渡。比如,當提供16-64kbps比特率并將層間比特率間隔設(shè)置為1kbps時,可以產(chǎn)生層0到層47。在這種情況下,所述ENHANCE_CHANNEL信息可以用6或更少的比特來表示。根據(jù)音質(zhì)穩(wěn)定性和立體聲特征中的哪一個將被增強而確定所述ENHANCE_CHANNEL信息的值。換句話說,當ENHANCE_CHANNEL的索引具有大值時,音質(zhì)穩(wěn)定性就比低層的立體聲特征增強得更多。相反地,當ENHANCE_CHANNEL的索引具有小值時,立體聲特征就比較低層的音質(zhì)穩(wěn)定性增強得更多。
在操作504中層索引被設(shè)置為“0”。在操作505中,相應(yīng)于層0的附加信息關(guān)于立體聲信道的信道1被編碼。在操作506中,相應(yīng)于層0的量化取樣關(guān)于信道1被編碼。
在操作507中,當前層索引與ENHANCE_CHANNEL信息進行比較。在當前層索引小于由ENHANCE_CHANNEL信息指示的層索引加1所獲得的值時,在操作508,當前層索引增加1,而編碼操作返回操作505。同時,在當前層索引等于或大于由ENHANCE_CHANNEL信息指示的層索引加1所獲得的值時,編碼操作轉(zhuǎn)到操作509。
在操作509中,相應(yīng)于層0的附加信息關(guān)于立體聲信道中的信道2被編碼。在操作510中,相應(yīng)于層0的量化取樣關(guān)于信道2被編碼。
在操作511中,確定當前層索引是否是最后的層索引,即,目標層索引。在當前層索引不是最后的層索引時,在操作512中,當前層索引增加1,并且編碼操作返回操作505。同時,在當前層索引是最后層索引時,編碼操作結(jié)束。
圖6是根據(jù)本發(fā)明實施例音頻解碼方法的流程圖。音頻解碼方法包括在操作601和602接收比特流。在操作603中,獲取ENHANCE_CHANNEL信息。在操作604到608中解碼單聲道分量,并在操作605到612中解碼立體聲分量。
如圖6所示,比特解包單元21在操作601中接收比特流,并在操作602中獲得層信息。層信息可以被以與如圖5所示的操作502中所使用的相同方式獲得。
在操作603中,從比特流的首標區(qū)域提取首標信息。并且從所述首標信息中獲取ENHANCE_CHANNEL信息。
層索引在操作604中被設(shè)置成“0”。相應(yīng)于層0的附加信息從在立體聲信道間關(guān)于信道1的比特流中提取,而且在操作605中解碼。相應(yīng)于層0的量化取樣從關(guān)于信道1的比特流中提取,并在操作606中被解碼。
在操作607中比較當前層索引和ENHANCE_CHANNEL信息。在當前層索引小于由ENHANCE_CHANNEL信息指示的層索引加1所獲得的值時,在操作608中,當前層索引增加1,而且解碼操作返回操作605。同時,在當前層索引等于或大于由ENHANCE_CHANNEL信息指示的層索引加1所獲得的值時,解碼操作轉(zhuǎn)到操作609。
在操作609中,相應(yīng)于層0的附加信息從在立體聲信道間關(guān)于信道2的比特流中提取,并且被解碼。在操作610中,相應(yīng)于層0的量化取樣從關(guān)于信道2的比特流中提取,并被解碼。
在操作611中,確定當前層索引是否是最后的層索引,即,目標層索引。在當前層索引不是最后的層索引時,在操作612中,當前層索引增加1,并且解碼操作返回操作605。同時,在當前層索引是最后層索引時,解碼操作結(jié)束。
圖7A和7B說明根據(jù)本發(fā)明另一實施例的音頻解碼方法。
如圖7A所示,當在某一層,比如信道1中間的第4層,中斷解碼時,那么盡管立體聲信號正在被解碼,在信道2中也不會有解碼數(shù)據(jù)。在這種狀況下,通過把已經(jīng)在信道1的第1至第4層被解碼的量化取樣和附加信息復制到信道2的第1層至第4層來執(zhí)行解碼。
同時,如圖7B所示,在完成直到信道1的ENHANCE_CHANNEL的解碼之后,而當在信道2的較低層中解碼被中斷時,經(jīng)過解碼的左右聲道的頻譜寬度互不相同。為補償這一點,通過把已經(jīng)在信道1的第2至第4層被解碼的量化取樣和附加信息復制到信道2的第2層至第4層來進行解碼。
在上述實施例中,典型BSAC技術(shù)的單聲道音頻編碼可以被用于單聲道分量直到過渡層,而BSAC技術(shù)的立體聲音頻編碼可以從過渡層之后的層被用于立體聲分量。
本發(fā)明可以用代碼實現(xiàn),所述代碼記錄在計算機可讀記錄介質(zhì)中并可以由計算機讀取。所述計算機可讀記錄介質(zhì)可以是任意類型的介質(zhì),該介質(zhì)可記錄能被計算機系統(tǒng)讀取的數(shù)據(jù),比如,ROM,RAM,CD-ROM,磁帶,軟盤,或光學數(shù)據(jù)存儲設(shè)備。本發(fā)明還可以用固件或者載波(比如,經(jīng)由因特網(wǎng)傳輸)來實現(xiàn)??蛇x擇地,計算機可讀記錄介質(zhì)可以在通過網(wǎng)絡(luò)連接的計算機系統(tǒng)間分發(fā)(distribute),以便可以用存于記錄介質(zhì)并可由計算機讀取并執(zhí)行的代碼來實現(xiàn)本發(fā)明。本發(fā)明所屬領(lǐng)域的變成人員可以很容易地推導出用于實施本發(fā)明的功能程序、代碼和代碼段。
根據(jù)本發(fā)明,當立體聲音頻信號被編碼時,首先信道1的音頻信號被編碼,直到ENHANCE_CHANNEL,然后對信道1中的音頻信號和信道2中的音頻信號交錯編碼,由此在較低層提高音質(zhì),同時提供FGS。
在附圖和說明書中,本發(fā)明的優(yōu)選實施例已經(jīng)使用特定術(shù)語得到描述,但是可以理解這樣的術(shù)語僅被用于描述的意義,而且這樣的術(shù)語不能被解釋成作為本發(fā)明范圍的限定。因此,本領(lǐng)域普通技術(shù)人員可以理解,可以對實施例做多種改變而不脫離本發(fā)明的精神和范圍。因此,本發(fā)明的范圍將由后附的權(quán)利要求作限定。
權(quán)利要求
1.可縮放立體聲音頻編碼方法,包括轉(zhuǎn)換第一信道和第二信道音頻取樣;量化所述轉(zhuǎn)換的第一信道和第二信道音頻取樣;以及編碼所量化的第一信道音頻取樣直到預(yù)定的過渡層,然后通過從接續(xù)過渡層的層增加層索引,交錯編碼所量化的第一和第二信道音頻取樣,直到完成預(yù)定的多個層的編碼。
2.如權(quán)利要求1所述的可縮放立體聲音頻編碼方法,進一步包括在量化前,分別將所轉(zhuǎn)換的第一信道和第二信道音頻取樣的中間信號和側(cè)面信號轉(zhuǎn)換到第一信道和第二信道音頻取樣。
3.如權(quán)利要求1所述的可縮放立體聲音頻編碼方法,其中根據(jù)增強音質(zhì)和立體聲特征中的哪一個來確定過渡層。
4.如權(quán)利要求1所述的可縮放立體聲音頻編碼方法,其中過渡層信息被表示為從由層索引、比例因數(shù)頻帶、和編碼頻帶構(gòu)成的組中選擇的一個。
5.如權(quán)利要求3所述的可縮放立體聲音頻編碼方法,其中過渡層信息被包括在分層比特流的首標信息或附加信息中。
6.一種可縮放立體聲音頻編碼設(shè)備,包括心理聲學單元,提供關(guān)于心理聲學模型的信息;變換單元,基于心理聲學模型信息轉(zhuǎn)換第一信道和第二信道音頻取樣;量化器,量化所轉(zhuǎn)換的第一信道和第二信道音頻取樣;以及比特打包單元,編碼所述經(jīng)量化的第一信道音頻取樣直到預(yù)定的過渡層,然后通過從接續(xù)該過渡層的層增加層索引,交錯編碼所量化的第一和第二信道音頻取樣,直到完成預(yù)定的多個層的編碼。
7.如權(quán)利要求6所述的可縮放立體聲音頻編碼設(shè)備,進一步包括M/S立體聲處理器,分別將所轉(zhuǎn)換的第一信道和第二信道音頻取樣的中間信號和側(cè)面信號轉(zhuǎn)換到第一信道和第二信道音頻取樣,然后將結(jié)果提供給量化器。
8.如權(quán)利要求6所述的可縮放立體聲音頻編碼設(shè)備,其中根據(jù)增強音質(zhì)和立體聲特征中的哪一個來確定過渡層。
9.如權(quán)利要求6所述的可縮放立體聲音頻編碼設(shè)備,其中過渡層的信息被表示為從包括層索引、比例因數(shù)頻帶、和編碼頻帶的組中選擇的一個。
10.如權(quán)利要求6所述的可縮放立體聲音頻編碼設(shè)備,其中過渡點的信息被包括在分層比特流的首標信息或附加信息中。
11.一種可縮放立體聲音頻解碼方法,包括解碼第一信道音頻取樣直到預(yù)定的過渡層,然后通過從接續(xù)該過渡層的層增加層索引,交錯解碼第一和第二信道音頻取樣,直到完成預(yù)定的多個層的解碼,并獲得第一和第二信道的量化取樣;將已量化的第一信道和第二信道的取樣去量化;以及反向轉(zhuǎn)換第一和第二信道的所述去量化的取樣,以獲得第一和第二信道音頻取樣。
12.如權(quán)利要求11所述的可縮放立體聲音頻解碼方法,其中在交錯解碼第一和第二信道音頻取樣中,當從接續(xù)該預(yù)定過渡層的層中斷解碼時,將已在第一信道被解碼的量化取樣復制到第二信道的相應(yīng)層,從而恢復該量化取樣。
13.如權(quán)利要求11所述的可縮放立體聲音頻解碼方法,其中在交錯解碼第一和第二信道音頻取樣中,當在第二信道中的某一層中斷解碼時,將已在第一信道的某一層被解碼的量化取樣復制到第二信道的相應(yīng)層,從而恢復該量化取樣。
14.如權(quán)利要求11所述的可縮放立體聲音頻解碼方法,進一步包括M/S立體聲反向處理第一和第二信道的去量化取樣。
15.如權(quán)利要求11所述的可縮放立體聲音頻解碼方法,其中過渡層的信息被獲得作為從包括層索引、比例因數(shù)頻帶、和編碼頻帶的組中選擇的一個。
16.如權(quán)利要求11所述的可縮放立體聲音頻解碼方法,其中從具有分層結(jié)構(gòu)的比特流的首標信息或附加信息中提取過渡層的信息。
17.一種可縮放立體聲音頻解碼設(shè)備,包括比特解包單元,解碼第一信道音頻取樣直到預(yù)定的過渡層,然后通過從接續(xù)該過渡層的層增加層索引,交錯解碼第一和第二信道音頻取樣,直到完成預(yù)定的多個層的解碼,并獲得第一和第二信道的量化取樣;去量化器,將所述第一和第二信道的量化取樣去量化;以及反向變換器,反向轉(zhuǎn)換所述第一和第二信道的去量化取樣,以獲得第一和第二信道音頻取樣。
18.如權(quán)利要求17所述的可縮放立體聲音頻解碼設(shè)備,其中當從接續(xù)該預(yù)定過渡層的層中斷解碼時,比特解包單元將已在第一信道被解碼的量化取樣復制到第二信道的相應(yīng)層,從而恢復該量化取樣。
19.如權(quán)利要求17所述的可縮放立體聲音頻解碼設(shè)備,其中當在第二信道中的某一層中斷解碼時,比特解包單元將已在第一信道的某一層被解碼的量化取樣復制到第二信道的相應(yīng)層,從而恢復該量化取樣。
20.如權(quán)利要求17所述的可縮放立體聲音頻解碼設(shè)備,進一步包括M/S立體聲反向處理器,M/S立體聲反向處理第一和第二信道的去向量化取樣。
21.一種計算機可讀記錄介質(zhì),在其上記錄執(zhí)行如權(quán)利要求1所述的可縮放立體聲音頻編碼方法的程序。
22.一種計算機可讀記錄介質(zhì),在其上記錄執(zhí)行如權(quán)利要求11所述的可縮放立體聲音頻解碼方法的程序。
全文摘要
提供可縮放立體聲音頻編碼和解碼方法和裝置。所述可縮放立體聲音頻編碼方法包括轉(zhuǎn)換第一信道和第二信道音頻取樣;量化所述經(jīng)轉(zhuǎn)換的第一信道和第二信道音頻取樣;以及編碼所述量化的第一信道音頻取樣直到預(yù)定的過渡層,然后通過從接續(xù)該過渡層的層增加層索引,交錯編碼所量化的第一和第二信道音頻取樣,直到完成預(yù)定的多個層的編碼。
文檔編號G10L19/00GK1510662SQ200310114740
公開日2004年7月7日 申請日期2003年12月18日 優(yōu)先權(quán)日2002年12月18日
發(fā)明者金重會, 金尚煜 申請人:三星電子株式會社