專利名稱:音頻信號的編碼和解碼方法及其裝置的制作方法
技術領域:
本發(fā)明公開一種音頻信號或者語音信號的編碼和解碼方法以及執(zhí)行此方法的裝置。
背景技術:
公開了音頻信號或者語音信號的編碼和解碼方法,更為詳細地講,公開了圖像動態(tài)專家組(MPEG)音頻編碼/解碼方法。尤其,公開了可插入附加信息的MPEG中進行標準化的MPEG-D聯(lián)合語音音頻編碼(USAC :Unified Speech and Audio Coding)編碼/解碼方法及裝置。包含信息的波形是在幅度上連續(xù)并且在時間上也連續(xù)的模擬(Analog)信號。因此,為了將波形轉(zhuǎn)換成離散(discrete)信號,進行模數(shù)(A/D)轉(zhuǎn)換,并且為了 A/D轉(zhuǎn)換需要兩個過程。一個是,將時間上的連續(xù)信號轉(zhuǎn)換為離散信號的采樣(sampling)過程;另一個是,盡量用有限個數(shù)值限定幅度的幅值的幅度量化(quantization)過程。最近,隨著數(shù)字信號處理技術的發(fā)展,開發(fā)了如下的技術,S卩,將現(xiàn)有的模擬信號經(jīng)過采樣/量化過程而轉(zhuǎn)換成作為數(shù)字信號的脈沖編碼調(diào)制(PCM=Pulse Code Modulation)數(shù)據(jù),將信號存儲在諸如緊湊盤(⑶=Compact Disc)和數(shù)字音頻磁帶(DAT Digital Audio Tape)的記錄/存儲介質(zhì)上,然后,當用戶需要時通過再現(xiàn)存儲的信號來進行收聽。相比于諸如慢轉(zhuǎn)唱片(LP,Long-Play Record)和磁帶的模擬方式,這種通過數(shù)字方式的數(shù)字信號的存儲/恢復方式提高了音質(zhì)并克服了由于存儲時間而導致的劣化,但是數(shù)據(jù)量相對大。為此,使用為了壓縮數(shù)字聲音信號而開發(fā)的諸如差分脈沖編碼調(diào)制(DPCM: Differential Pulse Code Modulation)或自適應差分脈沖編碼調(diào)制(ADPCM :Adaptive Differential Pulse Code Modulation)等方法來進行用于減少數(shù)據(jù)量的努力,但是根據(jù)信號的類型,其效率有較大差異。最近,由國際標準化組織(ISO=International Standard Organization)制定標準的MPEG/audio技術或者Dolby開發(fā)的AC-2/AC-3技術中提出了利用人類的心理聲學模型(Psychoacoustic Model)來減少數(shù)據(jù)量的方法,該方法可以與信號的特性無關地有效減少數(shù)據(jù)量。在諸如MPEG-1/audio、MPEG-2/audio或AC-2/AC-3的現(xiàn)有的音頻信號壓縮技術中,通過將時域信號劃分為預定大小的塊來轉(zhuǎn)換為頻域信號。然后,利用心理聲學模型 (Psychoacoustic Model)來對該轉(zhuǎn)換的信號進行標量量化(scalar quantization)。雖然這種量化技術簡單,但是即使輸入樣品在統(tǒng)計上獨立,也無法進行最優(yōu)化處理。若輸入樣品在統(tǒng)計上有從屬關系,則更加無法進行最優(yōu)化處理。因此,包含如熵編碼的無損編碼或某種類型的適應性量化來進行編碼。相比于僅單純地存儲PCM數(shù)據(jù)的方式,這種方法需要相當復雜的信號處理過程,并且編碼的比特流不僅包含量化的PCM數(shù)據(jù),還包含用于壓縮信號的附加信息。MPEG/audio標準和AC-2/AC-3方式可以以減少至現(xiàn)有的數(shù)字編碼的1/6至1/8的64Kbps-384Kbps的比特率提供與緊湊盤(Compact Disc)的音質(zhì)幾乎相同程度的音質(zhì),未來,MPEG/audio標準將對諸如數(shù)字音頻廣播(DAB :Digital Audio Broadcasting)、網(wǎng)絡電話(internet phone)、音頻點播(AOD :Audio on Demand)和多媒體系統(tǒng)的音頻信號的存儲和傳輸起著重要的作用。
發(fā)明內(nèi)容
技術方案根據(jù)本發(fā)明的一實施例,提供一種在MPEG-D USAC方式中插入附加信息的MPEG-D USAC編碼/解碼方法及裝置。根據(jù)本發(fā)明的一實施例,提供一種判斷是否插入通過MPEG-D USAC編碼的音頻數(shù)據(jù)的附加信息的方法。有益效果根據(jù)本發(fā)明的一實施例,通過在MPEG-D USAC方式中插入附加信息,來改進關于音頻內(nèi)容的元數(shù)據(jù)或音質(zhì),從而可提供差別化服務。根據(jù)本發(fā)明的一實施例,提供MPEG-D USAC的擴展。
圖1是示出ID3vl的比特流結(jié)構(gòu)的一示例。圖2是示出根據(jù)本發(fā)明一實施例的音頻信號或者語音信號的編碼器的框圖。圖3是示出根據(jù)本發(fā)明一實施例的音頻信號或者語音信號的編碼器中所執(zhí)行的編碼方法的一示例的流程圖。圖4是示出根據(jù)本發(fā)明一實施例的音頻信號或者語音信號的編碼器的框圖。圖5是示出根據(jù)本發(fā)明一實施例的音頻信號或者語音信號的解碼器中所執(zhí)行的解碼方法的一例的流程圖。
具體實施例方式在MPEG-2/4 AAC(IS0/IEC 13818-7,IS0/IEC 14496-3)中,定義有諸如data_stream_element()、f ill_element ()的可以存儲附力Π信息的語法。在 MPEG-Ilayer-III (mp3)中定義有ancillary data,可在幀信息中存儲對于音頻信號的附加信息。ID3vl就是其典型的例子。圖1中示出ID3vl的比特流結(jié)構(gòu)的一示例。隨著多媒體時代的到來,需要支持可變比特率的各種類型的編碼器。即使是支持可變比特率的編碼器,在網(wǎng)絡信道的帶寬被固定的情況下,以固定比特率進行傳輸。此時, 若每個幀所使用的比特數(shù)不同,則無法以固定比特率進行傳輸,因此為了防止這種現(xiàn)象而傳輸附加比特信息。并且,通過將多個幀綁定以一個載荷(payload)傳輸時,可以以可變比特率產(chǎn)生多個幀。但是,在這種情況下,如果網(wǎng)絡信道的帶寬是固定的,則需要以固定比特率進行傳輸,此時需要以固定比特率傳輸一個載荷的功能。因此,為了上述功能而傳輸附加比牛寸f曰息ο當前,正進行標準化的MPEG-D USAC的語法中沒有定義可提供附加信息的語法。參照下面的[語法1],記載了對于USAC語法(Syntex)的上級載荷的定義。
權(quán)利要求
1.一種音頻信號或者語音信號的編碼方法,包含如下步驟在音頻信號或者語音信號的比特流中插入核心編碼信息;插入編碼工具信息;以及判斷是否存在附加信息,當存在所述附加信息時插入附加信息比特。
2.根據(jù)權(quán)利要求1所述的音頻信號或者語音信號的編碼方法,其中,所述加入附加信息比特的步驟包含對所述比特流執(zhí)行字節(jié)排列之后,執(zhí)行插入所述附加信息比特。
3.根據(jù)權(quán)利要求1所述的音頻信號或者語音信號的編碼方法,其中,還包含如下步驟 對插入有所述附加信息比特的所述比特流進行字節(jié)排列。
4.根據(jù)權(quán)利要求1所述的音頻信號或者語音信號的編碼方法,其中,所述編碼工具信息包含增強型SBR(eSBR)信息以及環(huán)繞MPEG信息。
5.根據(jù)權(quán)利要求1所述的音頻信號或者語音信號的編碼方法,其中,所述附加信息比特包含所述附加信息的類型以及所述附加信息的長度信息。
6.根據(jù)權(quán)利要求5所述的音頻信號或者語音信號的編碼方法,其中,當所述附加信息比特未超過14字節(jié)時,用4比特來表示字節(jié)大小。
7.根據(jù)權(quán)利要求5所述的音頻信號或者語音信號的編碼方法,其中,當所述附加信息比特在15字節(jié)以上時,用4比特表示15,利用附加8比特來表示從所述附加信息的全部字節(jié)大小中減去15的值。
8.根據(jù)權(quán)利要求1至7中的任一項所述的音頻信號或者語音信號的編碼方法,其中,所述附加信息比特包含在聯(lián)合語音音頻編碼的載荷中。
9.一種包含執(zhí)行根據(jù)權(quán)利要求1至7中的任一項所述方法的比特流復用器的音頻信號或語音信號編碼器。
10.一種音頻信號或者語音信號的解碼方法,包含如下步驟通過讀取包含于音頻信號或者語音信號的比特流中的核心編碼信息來執(zhí)行核心解碼;通過讀取包含于所述比特流中的編碼工具信息來執(zhí)行解碼;以及判斷是否存在附加信息,當存在所述附加信息時,通過讀取附加信息比特來生成解碼 fn息ο
11.根據(jù)權(quán)利要求10所述的音頻信號或者語音信號的解碼方法,其中,生成所述解碼信號的步驟包含對所述比特流執(zhí)行字節(jié)排列之后執(zhí)行通過讀取所述附加信息比特來生成所述解碼信號的步驟。
12.根據(jù)權(quán)利要求10所述的音頻信號或者語音信號的解碼方法,其中,還包含如下步驟讀取所述附加信息比特,對所述比特流執(zhí)行字節(jié)排列。
13.根據(jù)權(quán)利要求10所述的音頻信號或者語音信號的解碼方法,其中,所述編碼工具信息包含增強型SBR信息或者環(huán)繞MPEG信息。
14.根據(jù)權(quán)利要求10所述的音頻信號或者語音信號的解碼方法,其中,所述附加信息比特包含在USAC載荷中。
15.一種包含執(zhí)行根據(jù)權(quán)利要求10至14的任一項所述的方法的比特流解復用器的的音頻信號或語音信號的解碼器。
16.根據(jù)權(quán)利要求10所述的音頻信號或者語音信號的解碼方法,其中,通過判斷在所述字節(jié)排列之后是否存在附加存儲的比特,來判斷是否存在所述附加信息。
17.根據(jù)權(quán)利要求10所述的音頻信號或者語音信號的解碼方法,其中,通過判斷在所述字節(jié)排列時剩余比特是否是7比特以上,來判斷是否存在所述附加信息。
18.根據(jù)權(quán)利要求10所述的音頻信號或者語音信號的解碼方法,其中,所述附加信息比特包含所述附加信息的類型以及所述附加信息的長度信息。
19.一種音頻信號或者語音信號的解碼方法,包含如下步驟在比特流的頭中恢復用于解碼的附加信息,當存在剩余比特時,從所述比特流的所述頭中恢復包含所述附加信息的類型以及所述附加信息的數(shù)量的附加信息;通過讀取包含于所述比特流的核心編碼信息來執(zhí)行核心解碼;參照從所述頭恢復的所述附加信息并按幀恢復所述附加信息。
20.根據(jù)權(quán)利要求19所述的音頻信號或者語音信號的解碼方法,其中,還包含如下步驟對所述比特流執(zhí)行字節(jié)排列。
21.根據(jù)權(quán)利要求20所述的音頻信號或者語音信號的解碼方法,其中,在執(zhí)行所述核心解碼步驟之前,執(zhí)行所述字節(jié)排列。
22.根據(jù)權(quán)利要求19所述的音頻信號或者語音信號的解碼方法,其中,所述附加信息的類型包含關于是否按所述幀傳輸所述附加信息的信息。
23.根據(jù)權(quán)利要求19所述的音頻信號或者語音信號的解碼方法,其中,根據(jù)從所述頭中恢復的所述附加信息的類型恢復所述按幀恢復的附加信息。
24.根據(jù)權(quán)利要求19所述的音頻信號或者語音信號的解碼方法,其中,所述附加信息的比特包含于USAC有效載荷中。
25.一種包含執(zhí)行根據(jù)權(quán)利要求19至M的任一項所述的方法的解復用器的音頻信號或者語音信號的解碼器。
全文摘要
公開一種對音頻信號或者語音信號進行編碼以及解碼的方法和采用所述方法的裝置。
文檔編號H03M7/30GK102365680SQ201080014080
公開日2012年2月29日 申請日期2010年2月2日 優(yōu)先權(quán)日2009年2月3日
發(fā)明者吳殷美, 朱基峴, 金重會 申請人:三星電子株式會社