專利名稱:語音處理裝置、語音處理方法和程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音處理裝置、語音處理方法和程序,且更具體地涉及一種當(dāng)多聲道音頻信號被下混合(downmix)和編碼時在音頻信號解碼時防止延遲和計算量增加的語音處理裝置、語音處理方法和程序。
背景技術(shù):
對多聲道音頻信號編碼的編碼裝置可以通過利用聲道之間的關(guān)系執(zhí)行高度有效的編碼。這一編碼例如包括強(qiáng)度編碼、Μ/S立體聲編碼和空間編碼。執(zhí)行空間編碼的編碼裝置將η聲道音頻信號下混合成m (m〈n)聲道音頻信號并且對信號編碼,找出在下混合時表示聲道間關(guān)系的空間參數(shù)并將空間參數(shù)與編碼數(shù)據(jù)一起發(fā)送。接收空間參數(shù)和編碼數(shù)據(jù)的解碼裝置對編碼數(shù)據(jù)解碼并且使用空間參數(shù)從作為解碼的結(jié)果而獲得的m聲道音頻信號恢復(fù)原始的η聲道音頻信號。這一空間編碼被稱為“雙耳線索編碼”。對于空間參數(shù)(下文稱為“BC參數(shù)”),例如使用 ILD (Inter-channel Level Difference,聲道間電平差值)、IPD (Inter-channelPhase Difference,聲道間相位差值)和 ICC (Inter-channel Correlation,聲道間相關(guān)性)。ILD指代如下參數(shù),該參數(shù)指示聲道間信號的量的比值。IF1D指代如下參數(shù),該參數(shù)指示聲道間相位差值,而ICC指代如下參數(shù),該參數(shù)指示聲道間相關(guān)性。圖I是圖示了執(zhí)行空間編碼的編碼裝置的配置例子的框圖。此外,為了易于描述,n=2并且m=l。也就是說,編碼對象音頻信號是立體聲音頻信號(下文稱為“立體聲信號”),并且作為編碼的結(jié)果而獲得的編碼數(shù)據(jù)是單耳音頻信號(下文稱為“單耳信號”)的編碼數(shù)據(jù)。圖I中的編碼裝置10包括聲道下混合單元11、空間參數(shù)檢測單元12、音頻信號編碼單元13和復(fù)用單元14。編碼裝置10接收包括左音頻信號\和右音頻信號XR的立體聲信號的輸入作為編碼對象,并且輸出單耳信號的編碼數(shù)據(jù)。更具體而言,編碼裝置10的聲道下混合單元11將作為編碼對象而輸入的立體聲信號下混合成單耳信號XM。另外,聲道下混合單元11向空間參數(shù)檢測單元12和音頻信號編碼單元13提供單耳信號??臻g參數(shù)檢測單元12基于從聲道下混合單元11提供的單耳信號Xm和作為編碼對象而輸入的立體聲信號檢測BC參數(shù),并且將BC參數(shù)提供給復(fù)用單元14。音頻信號編碼單元13對從聲道下混合單元11提供的單耳信號編碼,并將結(jié)果得到的編碼數(shù)據(jù)提供給復(fù)用單元14。復(fù)用單元14復(fù)用和輸出從音頻信號編碼單元13提供的編碼數(shù)據(jù)和從空間參數(shù)檢測單元12提供的BC參數(shù)。圖2是圖示了圖I中的音頻信號編碼單元13的配置例子的框圖。此外,圖2中的音頻信號編碼單元13采用如下配置,其中音頻信號編碼單元13根據(jù)例如 MPEG-2AAC LCCMoving Picture Experts Group phase 2 Advanced Audio CodingLow Complexity,運動圖片專家組第2階段高級音頻編碼低復(fù)雜度)簡檔執(zhí)行編碼。同時,在圖2中簡化和圖示了該配置以便于描述。圖2中的音頻信號編碼單兀13包括MDCT (Modified Discrete CosineTransform,改進(jìn)型離散余弦變換)單元21、頻譜量化單元22、熵編碼單元23和復(fù)用單元24。MDCT單元21執(zhí)行從聲道下混合單元11提供的單耳信號的MDCT,并將單耳信號(該信號是時域信號)變換成MDCT系數(shù)(該系數(shù)是頻域系數(shù))。MDCT單元21向頻譜量化單元22提供作為變換的結(jié)果而獲得的MDCT系數(shù)作為頻率頻譜系數(shù)。頻譜量化單元22量化從MDCT單元21提供的頻率頻譜系數(shù),并 向熵編碼單元23提供該頻率頻譜系數(shù)。另外,頻譜量化單元22向復(fù)用單元24提供量化信息(該信息是與上述量化有關(guān)的信息)。量化信息例如包括比例因子和量化位信息。熵編碼單元23執(zhí)行從頻譜量化單元22提供的量化頻率頻譜系數(shù)的熵編碼(比如霍夫曼編碼或者算術(shù)編碼),并無損壓縮該頻率頻譜系數(shù)。熵編碼單元23向復(fù)用單元24提供作為熵編碼的結(jié)果而獲得的數(shù)據(jù)。復(fù)用單元24復(fù)用從熵編碼單元23提供的數(shù)據(jù)和從頻譜量化單元22提供的量化信息,并向復(fù)用單元14 (圖I)提供所得數(shù)據(jù)作為編碼數(shù)據(jù)。圖3是圖示了圖I中的音頻信號編碼單元13的另一配置例子的框圖。此外,圖3中的音頻信號編碼單元13采用如下配置,該配置例如根據(jù)MPEG-2AACSSR (Scalable Sample Rate,可伸縮采樣速率)簡檔或者M(jìn)P3 (MPEG音頻層3)執(zhí)行編碼。同時,在圖3中簡化和圖示了該配置以便于描述。圖3中的音頻信號編碼單元13包括分析濾波器組31、MDCT單元32_1至32-N (N是任意整數(shù))、頻譜量化單元33、熵編碼單元34和復(fù)用單元35。分析濾波器組31例如包括QMF (Quadrature Mirror Filterbank,正交鏡濾波器組)組或者PQF (Poly-phase Quadrature Filter,多相正交濾波器)組。分析濾波器組31根據(jù)頻率將從聲道下混合單元11提供的單耳信號劃分成N組。分析濾波器組31向MDCT單元32-1至32-N提供作為劃分的結(jié)果而獲得的N個子頻帶信號。MDCT單元32-1至32-N各自執(zhí)行從分析濾波器組31提供的子頻帶信號的MDCT,并且將子頻帶信號(該信號是時域信號)變換成MDCT系數(shù)(該系數(shù)是頻域系數(shù))。另外,MDCT單元32-1至32-N各自向頻譜量化單元33提供每個子頻帶信號的MDCT系數(shù)作為頻率頻譜系數(shù)。頻譜量化單元33量化從MDCT單元32_1至32_N提供的N個頻率頻譜系數(shù)中的每個頻率頻譜系數(shù),并且將該N個頻率頻譜系數(shù)提供給熵編碼單元34。另外,頻譜量化單元33向復(fù)用單元35提供關(guān)于該量化的量化信息。熵編碼單元34執(zhí)行從頻譜量化單元33提供的量化的N個頻率頻譜系數(shù)中的每個頻率頻譜系數(shù)的熵編碼(比如霍夫曼編碼或者算術(shù)編碼),并且無損壓縮N個頻率頻譜系數(shù)。熵編碼單元34向復(fù)用單元35提供作為熵編碼的結(jié)果而獲得的N個數(shù)據(jù)項。復(fù)用單元35復(fù)用從熵編碼單元34提供的N個數(shù)據(jù)項和從頻譜量化單元33提供的量化信息,并且向復(fù)用單元14 (圖I)提供所得數(shù)據(jù)作為編碼數(shù)據(jù)。圖4是圖示了解碼裝置的配置例子的框圖,該解碼裝置對由圖I中的編碼裝置10空間編碼的編碼數(shù)據(jù)進(jìn)行解碼。
圖4中的解碼裝置40包括逆復(fù)用單元41、音頻信號解碼單元42、生成參數(shù)計算單元43和立體聲信號生成單元44。解碼裝置40對從圖I中的編碼裝置提供的編碼數(shù)據(jù)進(jìn)行解碼并生成立體聲信號。更具體而言,解碼裝置40的逆復(fù)用單元41逆復(fù)用從圖I中的編碼裝置10提供的復(fù)用編碼數(shù)據(jù),并獲得編碼數(shù)據(jù)和BC參數(shù)。逆復(fù)用單元41將編碼數(shù)據(jù)提供給音頻信號解碼單元42,并將BC參數(shù)提供給生成參數(shù)計算單元43。音頻信號解碼單元42對從逆復(fù)用單元41提供的編 碼數(shù)據(jù)進(jìn)行解碼,并且將所得單耳信號Xm (該信號是時域信號)提供給立體聲信號生成單元44。生成參數(shù)計算單元43使用從逆復(fù)用單元41提供的BC參數(shù)來計算生成參數(shù)(該參數(shù)是用于根據(jù)單耳信號(該信號是復(fù)用編碼數(shù)據(jù)的解碼結(jié)果)生成立體聲信號的參數(shù))。生成參數(shù)計算單元43向立體聲信號生成單元44提供這些生成參數(shù)。立體聲信號生成單元44使用從生成參數(shù)計算單元43提供的生成參數(shù)根據(jù)從音頻信號解碼單元42提供的單耳信號Xm生成左音頻信號\和右音頻信號Χκ。立體聲信號生成單元44輸出左音頻信號\和右音頻信號Xr作為立體聲信號。圖5是圖示了圖4中的音頻信號解碼單元42的配置例子的框圖。此外,圖5中的音頻信號解碼單元42采用如下配置,其中向解碼裝置40輸入根據(jù)例如MPEG-2 AAC LC簡檔編碼的編碼數(shù)據(jù)。也就是說,圖5中的音頻信號解碼單元42對圖2中的音頻信號編碼單元13編碼的編碼數(shù)據(jù)進(jìn)行解碼。圖5中的音頻信號解碼單元42包括逆復(fù)用單元51、熵解碼單元52、頻譜逆量化單元53和IMDCT單元54。逆復(fù)用單元51逆復(fù)用從圖4中的逆復(fù)用單元41提供的編碼數(shù)據(jù),并且獲得量化和熵編碼的頻率頻譜系數(shù)和量化信息。逆復(fù)用單元51將量化和熵編碼的頻率頻譜系數(shù)提供給熵解碼單元52,并且將量化信息提供給頻譜逆量化單元53。熵解碼單元52執(zhí)行從逆復(fù)用單元51提供的頻率頻譜系數(shù)的熵解碼(比如霍夫曼解碼或者算術(shù)解碼),并且恢復(fù)量化頻率頻譜系數(shù)。熵解碼單元52將該頻率頻譜系數(shù)提供給頻譜逆量化單元53。頻譜逆量化單元53基于從逆復(fù)用單元51提供的量化信息逆量化從熵解碼單元52提供的量化的頻率頻譜系數(shù),并且恢復(fù)頻率頻譜系數(shù)。另外,頻譜逆量化單元53將頻率頻譜系數(shù)提供給 IMDCT (逆 MDCT) (Inverse Modified Discrete Cosine Transform,逆改進(jìn)型離散余弦變換)單元54。IMDCT單元54執(zhí)行從頻譜逆量化單元53提供的頻率頻譜系數(shù)的MDCT,并且將頻率頻譜系數(shù)變換成單耳信號Xm (該信號是時域信號)。IMDCT單元54將該單耳信號XM提供給立體聲信號生成單元44 (圖4)。圖6是圖示了圖4中的音頻信號解碼單元42的另一配置例子的框圖。此外,圖6中的音頻信號解碼單元42采用如下配置,其中向解碼裝置40輸入例如根據(jù)MPEG-2 AAC SSR簡檔或者比如MP3這樣的方法編碼的編碼數(shù)據(jù)。也就是說,圖6中的音頻信號解碼單元42對圖3中的音頻信號編碼單元13編碼的編碼數(shù)據(jù)進(jìn)行解碼。圖6中的音頻信號解碼單元42包括逆復(fù)用單元61、熵解碼單元62、頻譜逆量化單元63、IMDCT單元64-1至64-N和合成濾波器組65。
逆復(fù)用單元61逆復(fù)用從圖4中的逆復(fù)用單元41提供的編碼數(shù)據(jù),并且獲得N個子頻帶信號的量化和熵編碼的頻率頻譜系數(shù)以及量化信息。逆復(fù)用單元61將N個子頻帶信號的量化和熵編碼的頻率頻譜系數(shù)提供給熵解碼單元62,并將量化信息提供給頻譜逆量化單元63。熵解碼單元62執(zhí)行從逆復(fù)用單元61提供的N個子頻帶信號的頻率頻譜系數(shù)的熵解碼(比如霍夫曼解碼或者算術(shù)解碼),并將頻率頻譜系數(shù)提供給頻譜逆量化單元63。頻譜逆量化單元63基于從逆復(fù)用單元61提供的量化信息逆量化從熵解碼單元62提供的并且作為熵解碼的結(jié)果而獲得的N個子頻帶信號的頻率頻譜系數(shù)中的每個。通過這一方式,恢復(fù)了 N個子頻帶信號的頻率頻譜系數(shù)。頻譜逆量化單元63將N個子頻帶信號的恢復(fù)的頻率頻譜系數(shù)逐個地提供給頂DCT單元64-1至64-N。 IMDCT單元64-1至64_N各自執(zhí)行從頻譜逆量化單元63提供的頻率頻譜系數(shù)的IMDCT,并且將頻率頻譜系數(shù)變換成子頻帶信號(該信號是時域信號)。IMDCT單元64_1至64-N各自將作為變換的結(jié)果而獲得的子頻帶信號提供給合成濾波器組65。合成濾波器組65包括例如逆PQF和逆QMF。合成濾波器組65合成從MDCT單元64-1至64-N提供的N個子頻帶信號,并且向立體聲信號生成單元44 (圖4)提供所得信號作為單耳信號χΜ。圖7是圖示了圖4中的立體聲信號生成單元44的配置例子的框圖。圖7中的立體聲信號生成單元44包括混響信號生成單元71和立體聲合成單元72?;祉懶盘柹蓡卧?1使用從圖4中的音頻信號解碼單元42提供的單耳信號乂 來生成與單耳信號Xm不相關(guān)的信號XD。對于混響信號生成單元71,一般使用梳狀濾波器或全通濾波器。在這一情況下,混響信號生成單元71生成單耳信號Xm的混響信號作為信號XD。此外,對于混響信號生成單元71,在一些情況下使用反饋延遲網(wǎng)絡(luò)(feedbackdelay network, FDN)(例如見專利文獻(xiàn)I)?;祉懶盘柹蓡卧?1將生成的信號Xd提供給立體聲合成單元72。立體聲合成單元72使用從圖4中的生成參數(shù)計算單元43提供的生成參數(shù)來合成從圖4中的音頻信號解碼單元42提供的單耳信號Xm和從混響信號生成單元71提供的信號XD。另外,立體聲合成單元72輸出作為合成的結(jié)果而獲得的左音頻信號\和右音頻信號Xk作為立體聲信號。圖8是圖示了圖4中的立體聲信號生成單元44的另一配置例子的框圖。圖8中的立體聲信號生成單元44包括分析濾波器組81、子頻帶立體聲信號生成單元82-1至82-P (P是任意數(shù))和合成濾波器組83。此外,當(dāng)圖4中的立體聲信號生成單元44采用圖8中所示的配置時,圖I中的編碼裝置10的空間參數(shù)檢測單元12檢測每子頻帶信號的BC參數(shù)。更具體而言,例如,空間參數(shù)檢測單元12具有兩個分析濾波器組。另外,在空間參數(shù)檢測單元12中,一個分析濾波器組根據(jù)頻率劃分立體聲信號,而另一分析濾波器組根據(jù)頻率劃分來自聲道下混合單元11的單耳信號??臻g參數(shù)檢測單元12基于作為劃分的結(jié)果而獲得的立體聲信號的子頻帶信號和單耳信號的子頻帶信號檢測每子頻帶信號的BC參數(shù)。另外,圖4中的生成參數(shù)計算單元43從逆復(fù)用單元41接收每個子頻帶信號的BC參數(shù)的提供,并且生成每子頻帶信號的生成參數(shù)。分析濾波器組81例如包括QMF (Quadrature Mirror Filter,正交鏡像濾波器)組。分析濾波器組81根據(jù)頻率將從圖4中的音頻信號解碼單元42提供的單耳信號Xm劃分成P組。分析濾波器組81將作為劃分的結(jié)果而獲得的P個子頻帶信號提供給子頻帶立體聲信號生成單元82-1至82-P。子頻帶立體聲信號生成單元82-1至82-P各自包括混響信號生成單元和立體聲合成單元。子頻帶立體聲信號生成單元82-1至82-P中的每個的配置相同,因此將僅描述子頻帶立體聲信號生成單元82-B。子頻帶立體聲信號生成單元82-B包括混響信號生成單元91和立體聲合成單元92?;祉懶盘柹蓡卧?1使用從分析濾波器組81提供的單耳信號的子頻帶信號XmB來生成與這一子頻帶信號XmB不相關(guān)的信號Xdb并且將該信號Xdb提供給立體聲合成單元92。立體聲合成單元92使用從圖4中的生成參數(shù)計算單元43提供的子頻帶信號XmB的生成參數(shù)來合成從分析濾波器組81提供的子頻帶信號XmB和從混響信號生成單元91提供的信號ΧΛ另外,立體聲合成單元92將作為合成的結(jié)果而獲得的左音頻信號Xi^b和右音頻信號X/作為立體聲信號的子頻帶信號提供給合成濾波器組83。合成濾波器組83 —次合成從子頻帶立體聲信號生成單元82-1至82_Ρ提供的每個子頻帶信號的左和右立體聲信號。合成濾波器組83輸出所得左音頻信號\和右音頻信號Xr作為立體聲信號。此外,例如在專利文獻(xiàn)2中公開了圖8中的立體聲信號生成單元44的配置。另外,執(zhí)行強(qiáng)度編碼的編碼裝置混合在與輸入立體聲信號的預(yù)定頻率頻帶相等或者比預(yù)定頻率頻帶更大的頻率的每個聲道的頻率頻譜系數(shù),并且生成單耳信號的頻率頻譜系數(shù)。另外,編碼裝置輸出這一單耳信號的頻率頻譜系數(shù)與聲道間頻率頻譜系數(shù)的水平比值作為編碼結(jié)果。更具體而言,執(zhí)行強(qiáng)度編碼的編碼裝置關(guān)于立體聲信號執(zhí)行MDCT,并且在聲道的所得頻率頻譜系數(shù)之間混合和共享在與預(yù)定頻率頻帶相等或者比預(yù)定頻率頻帶更大的頻率的每個聲道的頻率頻譜系數(shù)。另外,執(zhí)行強(qiáng)度編碼的編碼裝置量化和熵編碼共享的頻率頻譜系數(shù),并且復(fù)用所得數(shù)據(jù)和量化信息作為編碼數(shù)據(jù)。另外,執(zhí)行強(qiáng)度編碼的編碼裝置求得聲道間頻率頻譜系數(shù)的水平比值,并且復(fù)用和輸出水平比值和編碼數(shù)據(jù)。另外,執(zhí)行強(qiáng)度解碼的解碼裝置逆復(fù)用聲道間頻率頻譜系數(shù)的水平比值在其上被復(fù)用的編碼數(shù)據(jù)、熵解碼所得編碼數(shù)據(jù)并且基于量化信息逆量化編碼數(shù)據(jù)。另外,執(zhí)行強(qiáng)度解碼的解碼裝置基于作為逆量化的結(jié)果而獲得的頻率頻譜系數(shù)的水平比值和在編碼數(shù)據(jù)上復(fù)用的聲道間頻率頻譜系數(shù)恢復(fù)每個聲道的頻率頻譜系數(shù)。另外,執(zhí)行強(qiáng)度解碼的解碼裝置執(zhí)行每個聲道的恢復(fù)的頻率頻譜系數(shù)的頂DCT,并且獲得在與預(yù)定頻率頻帶相等或者比預(yù)定頻率頻帶更大的頻率的立體聲信號。雖然通常使用這樣的強(qiáng)度編碼比值來提高編碼效率,但是立體聲信號的高頻帶頻率頻譜系數(shù)被單耳編碼并且僅由聲道間水平差值表示,因此略微損失了原有的立體聲效果O引用列表專利文獻(xiàn)、
專利文獻(xiàn)I :公開號為2006-325162的日本專利申請專利文獻(xiàn)2 :公開號為2006-524832的日本專利申請
發(fā)明內(nèi)容
本發(fā)明要解決的問題如上文描述的那樣,對常規(guī)空間編碼的數(shù)據(jù)進(jìn)行解碼的解碼裝置40使用單耳信號Xm (該信號是時域信號)生成與在生成立體聲信號時使用的單耳信號Xm不相關(guān)的信號Xd和信號Xd1至XDP。因此,生成信號Xd的混響信號生成單元71以及生成信號Xd1至XDP的子頻帶立體聲信號生成單元82-1至82-P的分析濾波器組81和混響信號生成單元91引起延遲,并且增加解碼裝置40的算法延遲。這例如在請求解碼裝置40提供即時響應(yīng)性能或者在實時通信中使用解碼裝置40時(也就是說,在低延遲性質(zhì)重要時)引起問題。另外,在混響信號生成單元71以及子頻帶立體聲信號生成單元82-1至82-P的分析濾波器組81和混響信號生成單元91中的濾波器計算增加了計算量并且也增加了所需緩沖容量。
鑒于這樣的情形,本發(fā)明可以在多聲道音頻信號被下混合和編碼的情況下在音頻信號解碼時防止延遲和計算量增加。問題的解決方案根據(jù)本發(fā)明一個方面的一種語音處理裝置包括獲取單元,獲取從作為多個聲道的語音時域信號的語音信號生成、數(shù)目比多個聲道少的聲道的語音信號的頻域系數(shù),和表示多個聲道之間的關(guān)系的參數(shù);第一變換單元,將所述獲取單元獲取的所述頻域系數(shù)變換成第一時域信號;第二變換單元,將所述獲取單元獲取的所述頻域系數(shù)變換成第二時域信號;以及合成單元,通過使用所述參數(shù)合成所述第一時域信號和所述第二時域信號來生成所述多個聲道的所述語音信號,其中所述第一變換單元執(zhí)行的變換的基底與所述第二變換單元執(zhí)行的變換的基底正交。根據(jù)本發(fā)明一個方面的一種語音處理方法和程序支持根據(jù)本發(fā)明一個方面的一種語音處理裝置。根據(jù)本發(fā)明的一個方面,獲取從作為多個聲道的語音時域信號的語音信號生成、數(shù)目比多個聲道少的聲道的語音信號的頻域系數(shù),和表示多個聲道之間的關(guān)系的參數(shù),將獲取的頻域系數(shù)變換成第一時域信號,將獲取的頻域系數(shù)變換成第二時域信號,并且通過使用參數(shù)合成第一時域信號和第二時域信號來生成多個聲道的語音信號。此外,向第一時域信號的變換的基底和向第二時域信號的變換的基底正交。根據(jù)本發(fā)明一個方面的語音處理裝置可以是獨立裝置或者可以是形成一個裝置的內(nèi)部塊。發(fā)明效果根據(jù)本發(fā)明的一個方面,有可能當(dāng)多聲道音頻信號被下混合和編碼時在音頻信號解碼時防止延遲和計算量增加。
圖I是圖示了執(zhí)行空間編碼的編碼裝置的配置例子的框圖。圖2是圖示了圖I中的音頻信號編碼單元的配置例子的框圖。圖3是圖示了圖I中的音頻信號編碼單元的另一配置例子的框圖。圖4是圖示了對空間編碼數(shù)據(jù)進(jìn)行解碼的解碼裝置的配置例子的框圖。圖5是圖示了圖4中的音頻信號解碼單元的配置例子的框圖。圖6是圖示了圖4中的音頻信號解碼單元的另一配置例子的框圖。圖7是圖示了圖4中的立體聲信號生成單元的配置例子的框圖。圖8是圖示了圖4中的立體聲信號生成單元的另一配置例子的框圖。
圖9是圖示了根據(jù)第一實施例應(yīng)用本發(fā)明的語音處理裝置的配置例子的框圖。圖10是圖示了圖9中的不相關(guān)頻率-時間變換單元的具體配置例子的框圖。圖11是圖示了圖9中的不相關(guān)頻率-時間變換單元的另一具體配置例子的框圖。圖12是圖示了圖9中的立體聲合成單元的具體配置例子的框圖。圖13是圖示了每個信號的矢量的視圖。圖14是用于描述圖9中的語音處理裝置的解碼處理的流程圖。圖15是圖示了根據(jù)第二實施例應(yīng)用本發(fā)明的語音處理裝置的配置例子的框圖。圖16是用于描述圖15中的語音處理裝置的解碼處理的流程圖。圖17是圖示了根據(jù)第三實施例應(yīng)用本發(fā)明的語音處理裝置的配置例子的框圖。圖18是用于描述圖17中的語音處理裝置的解碼處理的流程圖。圖19是圖示了根據(jù)第四實施例應(yīng)用本發(fā)明的語音處理裝置的配置例子的框圖。圖20是用于描述圖19中的語音處理裝置的解碼處理的流程圖。圖21是圖示了根據(jù)一個實施例的計算機(jī)的配置例子的視圖。
具體實施例方式〈第一實施例〉[根據(jù)第一實施例的語音處理裝置的配置例子]圖9是圖示了根據(jù)第一實施例應(yīng)用本發(fā)明的語音處理裝置的配置例子的框圖。對與圖4和圖5中所示配置相同的圖9中所示配置分配相同標(biāo)號。將適當(dāng)省略重復(fù)描述。圖9中的語音處理裝置100的配置與圖4中所示解碼裝置40 (該解碼裝置具有圖5中的音頻信號解碼單元42和圖7中的立體聲信號生成單元44)的配置不同主要在于設(shè)置了逆復(fù)用單元101而不是逆復(fù)用單元41和逆復(fù)用單元51,設(shè)置了不相關(guān)頻率-時間變換單元102而不是MDCT單元54和混響信號生成單元71,并且設(shè)置了立體聲合成單元103和生成參數(shù)計算單元104而不是立體聲合成單元72和生成參數(shù)計算單元43。語音處理裝置100例如對圖I中的編碼裝置10(該編碼裝置具有圖2中的音頻信號編碼單元13)空間編碼的編碼數(shù)據(jù)進(jìn)行解碼。在這一情況下,語音處理裝置100使用單耳信號Xm的頻率頻譜系數(shù)來生成與在生成立體聲信號時使用的單耳信號Xm不相關(guān)的信號V。更具體而言,語音處理裝置100的逆復(fù)用單元101 (獲取單元)對應(yīng)于圖4中的逆復(fù)用單元41和圖5中的逆復(fù)用單元51。也就是說,逆復(fù)用單元101逆復(fù)用從圖I中的編碼裝置10提供的復(fù)用編碼數(shù)據(jù),并且獲取編碼數(shù)據(jù)和BC參數(shù)。此外,雖然在編碼數(shù)據(jù)上復(fù)用的BC參數(shù)可以是所有幀的BC參數(shù)或者可以是預(yù)定幀的BC參數(shù),但是BC參數(shù)這里指代預(yù)定幀的BC參數(shù)。另外,逆復(fù)用單元101逆復(fù)用編碼數(shù)據(jù)并且獲得量化和熵編碼的頻率頻譜系數(shù)和量化信息。另外,逆復(fù)用單元101將量化和熵編碼的頻率頻譜系數(shù)提供給熵解碼單元52,并將量化信息提供給頻譜逆量化單元53。另外,逆復(fù)用單元101將BC參數(shù)提供給生成參數(shù)計算單元104。不相關(guān)頻率-時間變換單元102根據(jù)作為頻譜逆量化單元53的逆量化的結(jié)果而獲得的單耳信號Xm的頻率頻譜系數(shù)生成單耳信號Xm和信號XD’(這些信號是兩個不相關(guān)的時域信號)。另外,不相關(guān)頻率-時間變換單元102將單耳信號Xm和信號XD’提供給立體聲合成單元103。將參照下文將描述的圖10和圖11具體描述該不相關(guān)頻率-時間變換單元 102。立體聲合成單元103 (合成單元)使用從生成參數(shù)計算單元104提供的生成參數(shù)來合成從不相關(guān)頻率-時間變換單元102提供的單耳信號Xm和信號XD’。另外,立體聲合成單元103輸出作為合成的結(jié)果而獲得的左音頻信號\和右音頻信號Xk作為立體聲信號。將參照下文描述的圖12具體描述該立體聲合成單元103。生成參數(shù)計算單元104插值從逆復(fù)用單元101提供的預(yù)定幀的BC參數(shù)并且計算每中貞的BC參數(shù)。生成參數(shù)計算單元104使用當(dāng)前處理目標(biāo)巾貞的BC參數(shù)生成所述的生成參數(shù),并且將生成參數(shù)提供給立體聲合成單元103。[不相關(guān)頻率-時間變換單元的具體配置例子]圖10是圖示了圖9中的不相關(guān)頻率-時間變換單元102的具體配置例子的框圖。圖10中的不相關(guān)頻率-時間變換單元102包括MDCT單元54和MDST單元111。圖10中的MDCT單元54 (第一變換單元)與圖5中的MDCT單元54相同,并且執(zhí)行從頻譜逆量化單元53提供的單耳信號Xm的頻率頻譜系數(shù)的IMDCT。另外,IMDCT單元54將所得單耳信號Xm (該信號是時域信號(第一時域信號))提供給立體聲合成單元103 (圖9)。IMDST (Inverse Modified Discrete Sine Transform,逆改進(jìn)型離散正弦變換)單元111 (第二變換單元)執(zhí)行從矢量逆量化單元53提供的單耳信號Xm的頻率頻譜系數(shù)的MDST。另外,頂DST單元111將所得信號XD’(該信號是時域信號(第二時域信號))提供給立體聲合成單元103 (圖9)。如上文描述的那樣,頂DCT單元54執(zhí)行的變換是逆余弦變換,而頂DST單元111執(zhí)行的變換是逆正弦變換,并且頂DCT單元54執(zhí)行的變換的基底與MDST單元111執(zhí)行的變換的基底正交。因而有可能認(rèn)為單耳信號Xm和信號XD’基本上相互不相關(guān)。此外,根據(jù)下式(I)至(3)限定MDCT、MDCT和MDST。[式I]
權(quán)利要求
1.一種語音處理裝置,包括 獲取單元,獲取從作為多個聲道的語音時域信號的語音信號生成、數(shù)目比多個聲道少的聲道的語音信號的頻域系數(shù),和表示多個聲道之間的關(guān)系的參數(shù); 第一變換單元,將所述獲取單元獲取的所述頻域系數(shù)變換成第一時域信號; 第二變換單元,將所述獲取單元獲取的所述頻域系數(shù)變換成第二時域信號;以及合成單元,通過使用所述參數(shù)合成所述第一時域信號和所述第二時域信號來生成所述多個聲道的所述語音信號, 其中所述第一變換單元執(zhí)行的變換的基底與所述第二變換單元執(zhí)行的變換的基底正交。
2.根據(jù)權(quán)利要求I所述的語音處理裝置,還包括 劃分單元,根據(jù)頻率將所述獲取單元獲取的所述頻域系數(shù)劃分成多個組; 第三變換單元,將劃分成所述多個組中的第一組的所述頻域系數(shù)變換成第三時域信號;以及 加法單元,按照每個聲道將所述第三時域信號與所述合成單元生成的所述多個聲道的所述語音信號相加,并且生成整個頻率頻帶中的所述多個聲道的所述語音信號,所述第三時域信號是所述第一組的頻率頻帶中的相應(yīng)聲道的語音信號,其中 所述獲取單元獲取第二組的頻率頻帶中的所述參數(shù)和所述頻域系數(shù),所述第二組是除了所述第一組之外的組, 所述第一變換單元將劃分成所述第二組的所述頻域系數(shù)變換成所述第一時域信號, 所述第二變換單元將劃分成所述第二組的所述頻域系數(shù)變換成所述第二時域信號,并且 所述合成單元通過使用所述參數(shù)合成所述第一時域信號和所述第二時域信號來生成所述第二組的頻率頻帶中的所述多個聲道的所述語音信號。
3.根據(jù)權(quán)利要求I所述的語音處理裝置,還包括 第三變換單元,將所述獲取單元獲取的并且根據(jù)頻率劃分成多個組的所述頻域系數(shù)之中的第一組的頻域系數(shù)變換成第三時域信號;以及 加法單元,按照每個聲道將所述第三時域信號與所述合成單元生成的所述多個聲道的所述語音信號相加,并且生成整個頻率頻帶中的所述多個聲道的所述語音信號,所述第三時域信號是所述第一組的頻率頻帶中的相應(yīng)聲道的語音信號,其中 所述獲取單元獲取每組的所述頻域系數(shù)和第二組的頻率頻帶的參數(shù),所述第二組是所述多個組之中除了所述第一組之外的組, 所述第一變換單元將劃分成所述第二組的所述頻域系數(shù)變換成所述第一時域信號, 所述第二變換單元將劃分成所述第二組的所述頻域系數(shù)變換成所述第二時域信號,并且 所述合成單元通過使用所述參數(shù)合成所述第一時域信號和所述第二時域信號來生成所述第二組的頻率頻帶中的所述多個聲道的所述語音信號。
4.根據(jù)權(quán)利要求I所述的語音處理裝置,其中根據(jù)所述多個聲道的所述語音信號的頻域系數(shù)生成所述頻域系數(shù)。
5.根據(jù)權(quán)利要求4所述的語音處理裝置,還包括分離單元,分離所述獲取單元獲取的預(yù)定頻率頻帶中的所述頻域系數(shù),以及除了所述預(yù)定頻率頻帶之外的頻率頻帶中的多個聲道的所述語音信號的所述頻域系數(shù); 第三變換單元,將所述分離單元分離的所述多個聲道的所述語音信號的所述頻域系數(shù)變換成所述多個聲道的第三時域信號;以及 加法單元,按照每個聲道將所述多個聲道的所述第三時域信號與所述合成單元生成的所述多個聲道的所述語音信號相加,并且生成整個頻率頻帶中的所述多個聲道的所述語音信號,所述多個聲道的第三時域信號是除了所述預(yù)定頻率頻帶之外的所述頻率頻帶中的所述多個聲道的所述語音信號,其中 所述獲取單元獲取所述預(yù)定頻率頻帶中的所述頻域系數(shù)、除了所述預(yù)定頻率頻帶之外的所述頻率頻帶中的所述多個聲道的所述語音信號的所述頻域系數(shù)和所述預(yù)定頻率頻帶中的所述參數(shù), 所述第一變換單元將所述分離單元分離的所述預(yù)定頻率頻帶中的所述頻域系數(shù)變換成所述第一時域信號; 所述第二變換單元將所述分離單元分離的所述預(yù)定頻率頻帶中的所述頻域系數(shù)變換成所述第二時域信號,并且 所述合成單元通過使用所述參數(shù)合成所述第一時域信號和所述第二時域信號來生成所述預(yù)定頻率頻帶中的所述多個聲道的所述語音信號。
6.根據(jù)權(quán)利要求I至5中的任一權(quán)利要求所述的語音處理裝置,其中 所述頻域系數(shù)是改進(jìn)型離散余弦變換MDCT系數(shù), 所述第一變換單元執(zhí)行的變換是逆改進(jìn)型離散余弦變換頂DCT,并且 所述第二變換單元執(zhí)行的變換是逆改進(jìn)型離散正弦變換頂DST。
7.根據(jù)權(quán)利要求I至5中的任一權(quán)利要求所述的語音處理裝置,其中 所述第二變換單元包括 頻譜反轉(zhuǎn)單元,反轉(zhuǎn)所述頻域系數(shù)使得頻率按照逆序; IMDCT單元,通過執(zhí)行作為所述頻譜反轉(zhuǎn)單元的反轉(zhuǎn)的結(jié)果而獲得的所述頻域系數(shù)的逆改進(jìn)型離散余弦變換IMDCT來獲得時域信號;以及 符號反轉(zhuǎn)單元,每隔一個符號反轉(zhuǎn)所述IMDCT單元獲得的所述時域信號的每個采樣的符號,并且 所述頻域系數(shù)是改進(jìn)型離散余弦變換MDCT系數(shù),并且所述第一變換單元執(zhí)行的變換是逆改進(jìn)型離散余弦變換。
8.一種由語音處理裝置執(zhí)行的語音信號處理方法,所述方法包括 獲取步驟,獲取從作為多個聲道的語音時域信號的語音信號生成、數(shù)目比多個聲道少的聲道的語音信號的頻域系數(shù),和表示多個聲道之間的關(guān)系的參數(shù); 第一變換步驟,將通過所述獲取步驟中的處理而獲取的所述頻域系數(shù)變換成第一時域信號; 第二變換步驟,將通過所述獲取步驟中的處理而獲取的所述頻域系數(shù)變換成第二時域信號;以及 合成步驟,通過使用所述參數(shù)合成所述第一時域信號和所述第二時域信號來生成所述多個聲道的所述語音信號,其中所述第一變換步驟的處理中的變換的基底與所述第二變換步驟的處理中的變換的基底正交。
9.一種程序,用于使計算機(jī)執(zhí)行 獲取步驟,獲取從作為多個聲道的語音時域信號的語音信號生成、數(shù)目比多個聲道少的聲道的語音信號的頻域系數(shù),和表示多個聲道之間的關(guān)系的參數(shù); 第一變換步驟,將通過所述獲取步驟中的處理而獲取的所述頻域系數(shù)變換成第一時域信號; 第二變換步驟,將通過所述獲取步驟中的處理而獲取的所述頻域系數(shù)變換成第二時域信號;以及 合成步驟,通過使用所述參數(shù)合成所述第一時域信號和所述第二時域信號來生成所述多個聲道的所述語音信號, 其中所述第一變換步驟的處理中的變換的基底與所述第二變換步驟的處理中的變換的基底正交。
全文摘要
本發(fā)明涉及一種當(dāng)多聲道音頻信號被下混合和編碼時在音頻信號解碼時防止延遲和計算量增加的語音處理裝置、語音處理方法和程序。逆復(fù)用單元(101)獲取在其上復(fù)用BC參數(shù)的編碼數(shù)據(jù)。不相關(guān)頻率-時間變換單元(102)執(zhí)行根據(jù)這一編碼數(shù)據(jù)獲得的單耳信號(XM)的頻域系數(shù)的IMDCT變換和IMDST變換,以生成單耳信號(XM)(該信號是時域信號)和與這一單耳信號(XM)基本上不相關(guān)的信號(XD’)。立體聲合成單元(103)通過使用BC參數(shù)合成單耳信號(XM)和信號(XD’)來生成立體聲信號。本發(fā)明例如適用于一種對下混合和編碼的立體聲信號進(jìn)行解碼的語音處理裝置。
文檔編號G10L19/00GK102792369SQ20118001330
公開日2012年11月21日 申請日期2011年3月8日 優(yōu)先權(quán)日2010年3月17日
發(fā)明者前田祐兒, 戶栗康裕, 松本淳, 松村祐樹, 鈴木志朗 申請人:索尼公司