參數(shù)化音頻編譯碼方案的取證檢測的制作方法
【專利摘要】本申請涉及音頻取證,尤其是參數(shù)化音頻編碼/解碼的蹤跡的盲檢測。具體地講,本申請涉及從未壓縮波形(諸如PCM(脈沖代碼調(diào)制)編碼的波形)對參數(shù)化頻率擴(kuò)展音頻編譯碼(諸如頻帶復(fù)制(SBR)或頻譜擴(kuò)展(SPX))的檢測。描述了一種用于檢測時域音頻信號中的頻率擴(kuò)展編譯碼歷史的方法。該方法可以包括:將時域音頻信號變換到頻域中,從而產(chǎn)生包括低頻子帶和高頻子帶的相應(yīng)的多個子帶中的多個子帶信號;確定低頻子帶中的子帶信號與高頻子帶中的子帶信號之間的關(guān)系程度;其中,基于所述多個子帶信號確定關(guān)系程序;如果關(guān)系程度大于關(guān)系閾值,則確定頻率擴(kuò)展編譯碼歷史。
【專利說明】參數(shù)化音頻編譯碼方案的取證檢測
[0001]相關(guān)申請的交叉引用
[0002]本申請要求于2011年5月19日提交的美國專利臨時申請N0.61/488,122的優(yōu)先權(quán),該申請的全部內(nèi)容通過引用并入此。
【技術(shù)領(lǐng)域】
[0003]本申請涉及音頻取證(forensic),尤其是音頻信號中的參數(shù)化音頻編碼/解碼的蹤跡的盲檢測。具體地講,本申請涉及從未壓縮波形(諸如PCM (脈沖碼調(diào)制)編碼的波形)對參數(shù)化立體聲編譯碼(coding)的檢測和/或?qū)?shù)化頻率擴(kuò)展音頻編譯碼(諸如譜帶復(fù)制(SBR)或頻譜擴(kuò)展(SPX))的檢測。
【背景技術(shù)】
[0004]HE-AAC (高效率——高級音頻編譯碼)是低比特率和適中比特率(例如,對于立體聲內(nèi)容,24-96kb/s)的、高效率的音樂音頻編解碼器。在HE-AAC中,以因子2對音頻信號進(jìn)行下采樣,并且所得的低頻帶信號被進(jìn)行AAC波形編譯碼。以低的附加比特率(典型地,每一音頻通道3kb/s)使用SBR來對被去除的高頻進(jìn)行參數(shù)化編譯碼。結(jié)果,在音頻信號的整個頻帶上,與普通AAC波形編譯碼相比,總比特率可被顯著地降低。
[0005]所發(fā)送的SBR參數(shù)描述了從AAC解碼的低頻帶輸出產(chǎn)生更高頻帶的方式。高頻帶的這種產(chǎn)生處理包括從低頻帶信號到高頻帶的補(bǔ)丁(patch)的拷貝粘貼或向上拷貝(copy-up)處理。在HE-AAC中,補(bǔ)丁描述了被向上拷貝到更高頻以便重新創(chuàng)建沒有被AAC編碼的高頻內(nèi)容的一組相鄰子帶。典型地,根據(jù)編譯碼比特率狀況,應(yīng)用2-3個補(bǔ)丁。通常,對于一種編譯碼比特率狀況,補(bǔ)丁參數(shù)不隨時間改變。然而,MPEG標(biāo)準(zhǔn)允許隨時間改變補(bǔ)丁參數(shù)?;谠诰幋a的比特流內(nèi)發(fā)送的包絡(luò)參數(shù)對人工產(chǎn)生的更高頻帶的頻譜包絡(luò)進(jìn)行修改。作為向上拷貝處理和包絡(luò)調(diào)整的結(jié)果,可以在感知上保持原始音頻信號的特性。
[0006]SBR編譯碼可以使用其他SBR參數(shù),以便通過噪聲和/或音調(diào)添加/去除來進(jìn)一步調(diào)整擴(kuò)展的頻率范圍中的信號(即,調(diào)整高帶信號)。
[0007]本申請?zhí)峁┝斯烙嬍欠褚呀?jīng)通過使用參數(shù)化頻率擴(kuò)展音頻編譯碼(諸如MPEG SBR技術(shù))(例如,使用HE-AAC)對PCM音頻信號進(jìn)行了編譯碼(編碼和解碼)的手段。換句話講,本申請?zhí)峁┝擞糜诜治鲈谖磯嚎s的域中的給定的音頻信號并且確定該給定的音頻信號先前是否已經(jīng)受到參數(shù)化頻率擴(kuò)展音頻編譯碼的手段。換句話講,給定(解碼的)音頻信號(例如,PCM格式),可能希望的是知道先前是否已經(jīng)使用某一編碼/解碼方案對該音頻信號進(jìn)行了編碼。特別地,可能希望的是知道是否通過頻譜帶寬復(fù)制處理產(chǎn)生了音頻信號的高頻頻譜分量。另外,可能希望的是知道是否基于所發(fā)送的單聲信號創(chuàng)建了立體聲信號或者立體聲信號的某些時間/頻率區(qū)域是否來源于同一單聲信號的時間/頻率數(shù)據(jù)。
[0008]應(yīng)當(dāng)指出,即使本申請中所概述的方法是在音頻編譯碼的上下文下進(jìn)行描述的,但是它們可應(yīng)用于結(jié)合時間/頻率數(shù)據(jù)的副本(duplication)的任何形式的音頻處理。特別地,這些方法可應(yīng)用于盲SBR的上下文,盲SBR是音頻編譯碼中不發(fā)送SBR參數(shù)的特殊情況。
[0009]可能的使用情況可以是SBR相關(guān)知識產(chǎn)權(quán)的保護(hù),例如,MPEGSBR技術(shù)或基礎(chǔ)上基于SBR的任何其他新型的參數(shù)化頻率擴(kuò)展編譯碼工具(例如,MPEG-D通用語音和音頻編解碼器(USAC)中的增強(qiáng)SBR (eSBR))的未授權(quán)使用的監(jiān)視。此外,當(dāng)除了(解碼的)PCM音頻信號之外沒有其它的信息可用時,可改進(jìn)轉(zhuǎn)碼和/或重新編碼。舉例來說,如果知道已經(jīng)通過帶寬擴(kuò)展處理產(chǎn)生了解碼的PCM音頻信號的高頻頻譜分量,則當(dāng)重新對該音頻信號進(jìn)行編碼時,可以使用該信息。特別地,重新編碼器的參數(shù)(例如,交越頻率(cross-overfrequency)和補(bǔ)丁參數(shù))可以被設(shè)置為使得高頻頻譜分量被進(jìn)行SBR編碼,而低頻帶信號被進(jìn)行波形編碼。這將導(dǎo)致與普通波形編譯碼相比節(jié)省了比特率并實現(xiàn)更高質(zhì)量的帶寬擴(kuò)展。此外,關(guān)于(解碼的)音頻信號的編碼歷史的了解可被用于高比特率波形編碼的(例如,AAC或Dolby Digital)內(nèi)容的質(zhì)量保證。這可以通過確保SBR編譯碼或不是透明編譯碼方法的一些其他參數(shù)化編譯碼方案在過去沒有被應(yīng)用于(解碼的)音頻信號來實現(xiàn)。另外,關(guān)于編碼歷史的了解可以是例如通過考慮在(解碼的)音頻信號內(nèi)檢測到的SBR補(bǔ)丁的數(shù)量和大小來對(解碼的)音頻信號的聲音質(zhì)量進(jìn)行評估的基礎(chǔ)。
[0010]因而,本申請涉及PCM編碼的波形中的參數(shù)化音頻編譯碼方案的檢測。該檢測可以通過對頻率和/或音頻通道上的重復(fù)圖案進(jìn)行分析來進(jìn)行。被標(biāo)識的參數(shù)化編譯碼方案可以是HE-AACvl或v2中的MPEG頻帶復(fù)制(SBR)、HE_AAVv2中的參數(shù)化立體聲(PS)、DolbyDigital Plus 中的頻譜擴(kuò)展(SPX)、以及Dolby Digital 或Dolby Digital Plus 中的f禹合。因為分析可能基于信號相位信息,所以所提出的方法相對于參數(shù)化音頻編譯碼中典型地所應(yīng)用的幅度修改而言是魯棒的。在SBR編譯碼方案中,在音頻解碼器中通過將低頻子帶拷貝到更高頻區(qū)域中并且就感知而言調(diào)整能量包絡(luò)來產(chǎn)生高頻內(nèi)容。在參數(shù)化空間音頻編譯碼方案(例如,PS、耦合)中,可以從所發(fā)送的僅與單個音頻通道相關(guān)的數(shù)據(jù)產(chǎn)生多個音頻通道中的數(shù)據(jù)??梢酝ㄟ^對頻率子帶中的相位信息進(jìn)行分析來從PCM波形魯棒地追溯數(shù)據(jù)的副本。
【發(fā)明內(nèi)容】
[0011]根據(jù)一方面,描述了一種用于檢測音頻信號(例如,時域音頻信號)的編譯碼歷史中的頻率擴(kuò)展編譯碼的方法。換句話講,本申請中所描述的方法可以應(yīng)用于時域音頻信號(例如,脈沖碼調(diào)制的音頻信號)。該方法可以確定(時域)音頻信號在過去是否已經(jīng)經(jīng)受了頻率擴(kuò)展編碼/解碼方案。這樣的頻率擴(kuò)展編譯碼/解碼方案的例子在HE-AAC和DD+編解碼器中能夠?qū)崿F(xiàn)。
[0012]該方法可以包括將時域音頻信號變換到頻域,從而產(chǎn)生相應(yīng)的多個子帶中的多個子帶信號??商鎿Q地,可以提供多個子帶信號,也就是說,該方法可以在不必須應(yīng)用變換的情況下獲得多個子帶信號。所述多個子帶可以包括低頻子帶和高頻子帶。為了這個目的,該方法可以應(yīng)用聲音編碼器中典型地采用的時域到頻域的變換,諸如正交鏡像濾波器(QMF)組、修改的離散余弦變換和/或快速傅立葉變換。作為這樣的變換的結(jié)果,可以獲得多個子帶信號,其中,每個子帶信號可以對應(yīng)于音頻信號的頻譜的不同選段(excerpt ),即,不同子帶。特別地,子帶信號可以歸因于低頻子帶或者可替代地歸因于高頻子帶。低頻子帶中的多個子帶信號中的子帶信號可以包括或者可以對應(yīng)于等于或低于交越頻率的頻率,而高頻子帶中的多個子帶信號中的子帶信號可以包括或者可以對應(yīng)于高于交越頻率的頻率。換句話講,交越頻率可以是頻率擴(kuò)展編譯碼器內(nèi)所限定的頻率,而音頻信號的高于交越頻率的頻率分量是從音頻信號的等于或低于交越頻率的頻率分量產(chǎn)生的。
[0013]因此,可以使用包括多個濾波器的濾波器組來產(chǎn)生多個子帶信號。為了正確地識別頻率擴(kuò)展方案的補(bǔ)丁參數(shù),濾波器組可以具有與頻率擴(kuò)展編譯碼器的解碼器中所使用的濾波器組(例如,用于HE-AAC的64個奇堆疊濾波器(oddly stacked filter)和用于DD+的256個奇堆疊濾波器)相同的頻率特性(例如,相同的通道數(shù)量、相同的中心頻率和帶寬)。為了增強(qiáng)補(bǔ)丁分析的魯棒性,可能有益的是通過增大阻帶衰減來使到相鄰帶中的泄漏最小。這可以通過例如用與解碼器中所使用的原始濾波器組相比更高的濾波器階數(shù)(例如,濾波器階數(shù)的兩倍)來實現(xiàn)。換句話講,為了確保濾波器組的高程度的頻率選擇性,濾波器組的每個濾波器對于位于各自濾波器的阻帶內(nèi)的頻率可以具有超過預(yù)定滾降閾值的滾降(roll-off)。舉例來說,不是使用具有大約60dB的阻帶衰減的濾波器(如HE-AAC中所使用的濾波器的情況),而是可以將用于檢測音頻擴(kuò)展編譯碼的濾波器的阻帶衰減增大到70或80dB,從而提高檢測性能。這意味著滾降閾值可以對應(yīng)于70或SOdB衰減。因而,可以確保濾波器組的選擇性足以將不同的子帶信號內(nèi)的音頻信號的不同頻率分量隔離。高程度的選擇性可以通過使用包括最少數(shù)量的濾波器系數(shù)的濾波器來實現(xiàn)。舉例來說,所述多個濾波器中的濾波器可以包括M個濾波器系數(shù),其中,M可以大于640。
[0014]應(yīng)當(dāng)指出,音頻信號可以包括多個音頻通道,例如,音頻信號可以是立體聲音頻信號或多通道音頻信號,諸如5.1或7.1音頻信號。所述方法可以應(yīng)用于音頻通道中的一個或多個??商鎿Q地或者附加地,所述方法可以包括對所述多個音頻通道進(jìn)行下混以確定下混時域音頻信號的步驟。就這一點而論,所述方法可以應(yīng)用于下混時域音頻信號。具體地講,可以從下混時域音頻信號產(chǎn)生多個子帶信號。
[0015]所述方法可以包括確定音頻信號的最大頻率。換句話講,所述方法可以包括確定時域音頻信號的帶寬的步驟??梢酝ㄟ^在頻域中對音頻信號的功率譜進(jìn)行分析來確定音頻信號的最大頻率。最大頻率可以被確定為使得對于大于最大頻率的所有頻率,功率譜低于功率閾值。作為音頻信號的帶寬的確定結(jié)果,用于檢測編譯碼歷史的方法可以限于音頻信號的高達(dá)最大頻率的頻譜。就這一點而論,所述多個子帶信號可以僅包括等于或低于最大頻率的頻率。
[0016]所述方法可以包括確定低頻子帶中的子帶信號與高頻子帶中的子帶信號之間的關(guān)系程度(degree of relationship)。可以基于多個子帶信號來確定關(guān)系程度。舉例來說,關(guān)系程度可以指示低頻子帶中的一組子帶信號與高頻子帶中的一組子帶信號之間的相似性??梢酝ㄟ^音頻信號的分析和/或通過使用從具有頻率擴(kuò)展編譯碼歷史的音頻信號的訓(xùn)練集合推導(dǎo)得出的概率模型來確定這樣的關(guān)系程度。
[0017]應(yīng)當(dāng)指出,所述多個子帶信號可以是復(fù)數(shù)值,即,所述多個子帶信號可以對應(yīng)于多個復(fù)數(shù)子帶信號。就這一點而論,所述多個子帶信號可以分別包括相應(yīng)的多個相位信號和/或相應(yīng)的多個幅值信號。在這樣的情況下,可以基于多個相位信號來確定關(guān)系程度。另外,可以不基于多個幅值信號來確定關(guān)系程度。已經(jīng)發(fā)現(xiàn),對于參數(shù)化編譯碼方案,對相位信號進(jìn)行分析是有益的。此外,復(fù)數(shù)波形信號給出有用的信息。特別地,從復(fù)數(shù)和相位數(shù)據(jù)得到的信息可以組合地使用以提高檢測方案的魯棒性。參數(shù)化編譯碼方案涉及沿著頻率向上拷貝幅值數(shù)據(jù)的處理(諸如,在調(diào)制頻譜編解碼器中)的情況尤其是這樣。
[0018]此外,確定關(guān)系程度的步驟可以包括確定已經(jīng)從低頻子帶中的一組子帶信號產(chǎn)生的高頻子帶中的一組子帶信號。這樣的一組子帶信號可以包括來自連續(xù)子帶(即,直接相鄰的子帶)的子帶信號。
[0019]所述方法可以包括:如果關(guān)系程度大于關(guān)系閾值,則確定頻率擴(kuò)展編譯碼歷史??梢酝ㄟ^實驗確定關(guān)系閾值。特別地,可以從具有頻率擴(kuò)展編譯碼歷史的一組音頻信號和/或不具有頻率擴(kuò)展編譯碼歷史的另一組音頻信號確定關(guān)系閾值。
[0020]確定關(guān)系程度的步驟可以包括確定多個子帶信號之間的一組互相關(guān)值。第一子帶信號與第二子帶信號之間的相關(guān)值可以被確定為第一子帶信號和第二子帶信號的具有預(yù)定時滯的相應(yīng)采樣的乘積的時間上的平均值。預(yù)定時滯可以是零。換句話講,可以將第一子帶信號和第二子帶信號在給定時刻(以及具有預(yù)定時滯)的相應(yīng)采樣相乘,從而得到給定時刻的乘法結(jié)果??梢栽谀骋粫r間間隔上計算乘法結(jié)果的平均值,從而得到可以用于確定互相關(guān)值的平均乘法結(jié)果。
[0021]應(yīng)當(dāng)指出,在多通道信號(例如,立體聲或5.1/7.1信號)的情況下,可以對該多通道信號進(jìn)行下混,并且可以對于下混音頻信號確定互相關(guān)值集合。可替換地,可以對于多通道信號的一些或全部通道確定不同的互相關(guān)值集合。可以計算不同的互相關(guān)值集合的平均值以確定可以用于檢測向上拷貝補(bǔ)丁的互相關(guān)值的平均集合。特別地,所述多個子帶信號可以包括K個子帶信號,K>0 (例如,Κ>1,Κ小于或等于64)。參數(shù)K可以等于如頻率擴(kuò)展編解碼器的解碼器中用于產(chǎn)生丟失的高頻子帶的通道的數(shù)量。為了僅檢測頻譜擴(kuò)展,64個頻帶可以是足夠的(在64個通道的情況下,頻率補(bǔ)丁通常比帶寬寬)。為了進(jìn)行DD+中的SPX的補(bǔ)丁的正確識別,可以使用數(shù)量增加的K個子帶(例如,Κ=256)。就這一點而論,互相關(guān)值集合可以包括與來自所述多個子帶信號的不同子帶信號的所有組合相應(yīng)的(K-1) !個互相關(guān)值。確定音頻信號中的頻率擴(kuò)展編譯碼歷史的步驟可以包括確定來自互相關(guān)值集合的至少一個極大互相關(guān)值超過關(guān)系閾值。
[0022]應(yīng)當(dāng)指出,本申請中所概述的分析方法可被以時間相關(guān)的方式執(zhí)行。如以上所指示的,頻率擴(kuò)展編解碼器典型地使用時間無關(guān)的補(bǔ)丁參數(shù)。然而,頻率擴(kuò)展編解碼器可以被配置為隨時間改變補(bǔ)丁參數(shù)。這可以通過對音頻信號的窗口進(jìn)行分析來加以考慮。音頻信號的窗口可以具有預(yù)定長度(例如,10-20秒或更短)。在不隨時間改變的補(bǔ)丁參數(shù)的情況下,可以通過對針對音頻信號的不同窗口獲得的互相關(guān)值集合進(jìn)行平均來提高本申請中所描述的分析方法的魯棒性。為了降低分析方法的復(fù)雜度,對音頻信號的不同窗口(即,音頻信號的不同段)求平均可以在基于經(jīng)平均的音頻信號的窗口確定互相關(guān)值集合之前進(jìn)行。
[0023]互相關(guān)值集合可以按對稱的KXK相關(guān)矩陣布置。相關(guān)矩陣的主對角線可以具有任意值,例如,與零相應(yīng)的值或者與所述多個子帶信號的自相關(guān)(auto-correlation)值相應(yīng)的值。相關(guān)矩陣可以被認(rèn)為是可以從其確定特定結(jié)構(gòu)或圖案的圖像。這些圖案可以提供關(guān)于所述多個子帶信號之間的關(guān)系程度的指示。鑒于相關(guān)矩陣對稱的事實,可能僅需要對相關(guān)矩陣的一個“三角形”(主對角線下方或上方)進(jìn)行分析。就這一點而論,本申請中所描述的方法步驟可以僅應(yīng)用于相關(guān)矩陣的一個這樣的“三角形”。 [0024]如以上所指示的,相關(guān)矩陣可以被認(rèn)為是包括指示低頻子帶與高頻子帶之間的關(guān)系的圖案的圖像。將被檢測的圖案可以是平行于相關(guān)矩陣的主對角線的局部增大的相關(guān)性的對角線。為了強(qiáng)調(diào)相關(guān)矩陣中的局部極大互相關(guān)值的一個或多個這樣的對角線,可以將線增強(qiáng)方案(line enhancement scheme)應(yīng)用于相關(guān)矩陣(或相關(guān)矩陣的傾斜版本,其中,可以傾斜相關(guān)矩陣以使得對角線結(jié)構(gòu)變?yōu)榇怪被蛩浇Y(jié)構(gòu))。示例線增強(qiáng)方案可以包括將
相關(guān)矩陣與增強(qiáng)矩陣
【權(quán)利要求】
1.一種用于檢測音頻信號的編譯碼歷史中的頻率擴(kuò)展編譯碼的方法,所述方法包括: -提供包括低頻子帶和高頻子帶的相應(yīng)的多個子帶中的多個子帶信號;其中,所述多個子帶信號對應(yīng)于音頻信號的時域/頻域表示; -確定低頻子帶中的子帶信號與高頻子帶中的子帶信號之間的關(guān)系程度;其中,所述關(guān)系程度是基于所述多個子帶信號確定的;和 -如果所述關(guān)系程度大于關(guān)系閾值,則確定頻率擴(kuò)展編譯碼歷史。
2.根據(jù)權(quán)利要求1所述的方法,其中,使用以下之一來產(chǎn)生所述多個子帶信號: -復(fù)值的偽正交鏡像濾波器組; -修改的離散余弦變換; -修改的離散正弦變換; -離散傅立葉變換; -調(diào)制重疊變換; -復(fù)調(diào)制重疊變換;或 -快速傅立葉變換。
3.根據(jù)前面任一權(quán)利要求所述的方法,其中,使用包括多個濾波器的濾波器組產(chǎn)生所述多個子帶信號,每個濾波器對于位于各自濾波器的阻帶內(nèi)的頻率具有超過預(yù)定滾降閾值的滾降?!?br>
4.根據(jù)權(quán)利要求3所述的方法,其中,所述多個濾波器中的濾波器包括M個濾波器系數(shù),其中,M大于將被檢測的頻率擴(kuò)展編譯碼所使用的濾波器系數(shù)的數(shù)量。
5.根據(jù)前面任一權(quán)利要求所述的方法,其中, -音頻信號包括多個音頻通道; -所述方法包括對所述多個音頻通道進(jìn)行下混以確定下混時域音頻信號;和 -從下混時域音頻信號產(chǎn)生所述多個子帶信號。
6.根據(jù)前面任一權(quán)利要求所述的方法,還包括確定音頻信號的最大頻率;其中,所述多個子帶信號僅包括等于或低于最大頻率的頻率。
7.根據(jù)權(quán)利要求6所述的方法,其中,確定最大頻率包括: -在頻域中對音頻信號的功率譜進(jìn)行分析;和 -確定最大頻率以使得對于大于最大頻率的所有頻率,功率譜低于功率閾值。
8.根據(jù)前面任一權(quán)利要求所述的方法,其中, -所述多個子帶信號是分別包括多個相位信號和相應(yīng)的多個幅值信號的多個復(fù)數(shù)子帶信號;和 -基于所述多個相位信號,而不基于所述多個幅值信號來確定關(guān)系程度。
9.根據(jù)前面任一權(quán)利要求所述的方法,其中,確定關(guān)系程度包括確定已從低頻子帶中的一組子帶信號產(chǎn)生的高頻子帶中的一組子帶信號。
10.根據(jù)前面任一權(quán)利要求所述的方法,其中,確定關(guān)系程度包括確定所述多個子帶信號之間的互相關(guān)值集合。
11.根據(jù)權(quán)利要求10所述的方法,其中,確定第一子帶信號與第二子帶信號之間的相關(guān)值包括確定時滯為零的第一子帶信號和第二子帶信號的相應(yīng)采樣的乘積的時間上的平均值。
12.根據(jù)權(quán)利要求10至11中的任何一個所述的方法,其中, -所述多個子帶信號包括K個子帶信號;和 -所述互相關(guān)值集合包括與來自所述多個子帶信號的不同子帶信號的所有組合相應(yīng)的(Κ-D !個互相關(guān)值。
13.根據(jù)權(quán)利要求10至12中的任何一個所述的方法,其中,確定頻率擴(kuò)展編譯碼歷史包括確定來自所述互相關(guān)值集合的至少一個極大互相關(guān)值超過關(guān)系閾值。
14.根據(jù)權(quán)利要求12至13中的任何一個所述的方法,其中,所述互相關(guān)值集合被布置為對稱K X K相關(guān)矩陣(410 ),所述對稱K X K相關(guān)矩陣(410 )的主對角線具有任意值,例如,與零相應(yīng)的或與用于所述多個子帶信號的自相關(guān)值相應(yīng)的值。
15.根據(jù)權(quán)利要求14所述的方法,還包括: -對于相關(guān)矩陣(410)應(yīng)用線增強(qiáng)以便強(qiáng)調(diào)相關(guān)矩陣(410)中的局部極大互相關(guān)值的一個或多個對角線。
16.根據(jù)權(quán)利要求15所述的方法,其中,所述線增強(qiáng)包括將相關(guān)矩陣與增強(qiáng)矩陣
17.根據(jù)權(quán)利要求16所述的方法,其中,確定頻率擴(kuò)展編譯碼歷史包括確定來自增強(qiáng)的相關(guān)矩陣的不包括主對角線的至少一個極大互相關(guān)值超過關(guān)系閾值。
18.根據(jù)權(quán)利要求14至17中的任何一個所述的方法,還包括對相關(guān)矩陣進(jìn)行分析以檢測局部極大互相關(guān)值的一個或多個對角線,其中, -局部極大互相關(guān)值的對角線不位于相關(guān)矩陣的主對角線上; -局部極大互相關(guān)值的對角線包括多于一個的局部極大互相關(guān)值,其中,所述多于一個的局部極大互相關(guān)值中的每個均超過最小相關(guān)閾值; -所述多于一個的局部極大互相關(guān)值以平行于相關(guān)矩陣的主對角線的對角線的方式布置;和 -對于所述多于一個的局部極大互相關(guān)值中的在相關(guān)矩陣的給定行中的每一個,同一行且直接相鄰的左側(cè)列中的互相關(guān)值等于或低于最小相關(guān)閾值、和/或同一行且直接相鄰的右側(cè)列中的互相關(guān)值等于或低于最小相關(guān)閾值。
19.根據(jù)權(quán)利要求18所述的方法,其中,在主對角線上方或下方檢測到局部極大互相關(guān)值的多于兩個對角線;其中,相關(guān)矩陣的行指示源子帶,相關(guān)矩陣的列指示目標(biāo)子帶;并且其中,所述方法還包括: -對于相關(guān)矩陣的同一源子帶,檢測具有局部極大互相關(guān)值的至少兩個冗余對角線;和 -將所述至少兩個冗余對角線中的具有各自最低目標(biāo)子帶的對角線識別為從多個源子帶到多個目標(biāo)子帶的向上拷貝補(bǔ)丁。
20.根據(jù)權(quán)利要求18至19中的任何一個所述的方法,還包括: -檢測到被檢測的對角線的在該被檢測的對角線的起始點和/或結(jié)束點處的局部極大互相關(guān)值低于模糊閾值;-將變換步驟的參數(shù)與用于多種頻率擴(kuò)展編譯碼方案的變換步驟的參數(shù)進(jìn)行比較;和 -基于比較步驟,確定所述多種頻率擴(kuò)展編譯碼方案中的已經(jīng)應(yīng)用于音頻信號的頻率擴(kuò)展編譯碼方案。
21.根據(jù)權(quán)利要求10至20中的任何一個所述的方法,還包括: -確定來自互相關(guān)值集合的極大互相關(guān)值低于或高于解碼模式閾值,從而檢測應(yīng)用于音頻信號的頻率擴(kuò)展編譯碼方案的解碼模式。
22.根據(jù)前面任一權(quán)利要求所述的方法,其中,所述音頻信號是包括第一通道和第二通道的多通道信號,并且其中,所述方法還包括: -將第一通道和第二通道變換到頻域中,從而產(chǎn)生多個第一子帶信號和多個第二子帶信號;其中,第一子帶信號和第二子帶信號是復(fù)數(shù)值,并且分別包括第一相位信號和第二相位信號;和 -將多個相位差子帶信號確定為相應(yīng)的第一子帶信號和第二子帶信號的差值。
23.根據(jù)權(quán)利要求22所述的方法,還包括: -確定多個相位差值,其中,每個相位差值被確定為相應(yīng)的相位差子帶信號的采樣的時間上的平均值;和 -檢測所述多個相位差值內(nèi)的周期性結(jié)構(gòu),從而檢測音頻信號的編譯碼歷史中的參數(shù)化立體聲編碼。
24.根據(jù)權(quán)利要求23所述的方法,其中,所述周期性結(jié)構(gòu)包括相鄰子帶的相位差值在正相位差值與負(fù)相位差值之間 的振蕩;其中,振蕩的相位差值的幅值超過振蕩閾值。
25.根據(jù)權(quán)利要求22至24中的任何一個所述的方法,還包括: -對于每個相位差子帶信號,確定具有比相位差閾值小的相位差的采樣的份額; -檢測到對于高頻子帶中的子帶信號,所述份額超過份額閾值,從而檢測音頻信號的編譯碼歷史中的第一通道和第二通道的耦合。
26.根據(jù)權(quán)利要求1至9中的任何一個所述的方法,其中,確定關(guān)系程度包括: -提供從訓(xùn)練矢量集合確定的概率模型,所述訓(xùn)練矢量集合從具有頻率擴(kuò)展編譯碼歷史的訓(xùn)練音頻信號推導(dǎo)得到;其中,所述概率模型描述了多個高頻子帶和低頻子帶所跨越的矢量空間中的矢量之間的概率關(guān)系; -在低頻子帶中的子帶信號被給定的情況下提供高頻子帶中的多個子帶信號的估計值;其中,基于所述概率模型確定估計值;和 -基于從高頻子帶中的多個子帶信號的估計值和高頻子帶中的所述多個子帶信號推導(dǎo)得到的估計誤差來確定關(guān)系程度。
27.根據(jù)權(quán)利要求26所述的方法,其中, -所述概率模型描述了所述多個子帶和低頻子帶所跨越的矢量空間中的矢量之間的概率關(guān)系; -在低頻子帶中的子帶信號被給定的情況下,提供所述多個子帶信號的估計值;和 -基于從所述多個子帶信號的估計值和所述多個子帶信號推導(dǎo)得到的估計誤差來確定關(guān)系程度。
28.根據(jù)權(quán)利要求27所述的方法,其中,所述概率模型是高斯混合模型。
29.根據(jù)權(quán)利要求28所述的方法,其中,所述概率模型包括多個混合分量,每個混合分量具有在矢量空間中的均值矢量μ和在矢量空間中的協(xié)方差矩陣C。
30.根據(jù)權(quán)利要求29所述的方法,其中, -第i混合分量的均值矢量μ i表示矢量空間中的群集的形心;和 -第i混合分量的協(xié)方差矩陣Ci表示矢量空間中的不同維度之間的相關(guān)性。
31.根據(jù)權(quán)利要求30所述的方法,其中,所述估計值被確定為:
32.根據(jù)權(quán)利要求31所述的方法,其中,hi(X)是低頻子帶中的子帶信號X落在高斯混合模型的第i混合分量內(nèi)的概率:
33.一種用于檢測音頻信號的編譯碼歷史中的參數(shù)化音頻編譯碼工具的使用的方法,其中,所述音頻信號是包括第一通道和第二通道的多通道信號,所述方法包括: -提供多個第一子帶信號和多個第二子帶信號;其中,所述多個第一子帶信號對應(yīng)于多通道信號的第一通道的時域/頻域表示;其中,所述多個第二子帶信號對應(yīng)于多通道信號的第二通道的時域/頻域表示;其中,所述多個第一子帶信號和所述多個第二子帶信號是復(fù)數(shù)值,并且分別包括多個第一相位信號和多個第二相位信號; -將多個相位差子帶信號確定為來自所述多個第一相位信號和所述多個第二相位信號的相應(yīng)的第一相位信號和第二相位信號的差值;和 -從所述多個相位差子帶信號檢測音頻信號的編譯碼歷史中的參數(shù)化音頻編譯碼工具的使用。
34.根據(jù)權(quán)利要求33所述的方法,還包括: -確定多個相位差值,其中,每個相位差值被確定為相應(yīng)的相位差子帶信號的采樣的時間上的平均值;和 -檢測所述多個相位差值內(nèi)的周期性結(jié)構(gòu),從而檢測音頻信號的編譯碼歷史中的參數(shù)化立體聲編碼。
35.根據(jù)權(quán)利要求33至34中的任何一個所述的方法,還包括: -對于每個相位差子帶信號,確定具有比相位差閾值小的相位差的采樣的份額;和-檢測到對于頻率高于交越頻率的子帶信號,所述份額超過份額閾值,從而檢測音頻信號的編譯碼歷史中的第一通道和第二通道的耦合。
36.一種軟件程序,所述軟件程序適于在處理器上執(zhí)行并且適于當(dāng)在計算設(shè)備上運(yùn)行時執(zhí)行權(quán)利要求1至35中的任何一個所述的方法步驟。
37.一種存儲介質(zhì),所述存儲介質(zhì)包括適于在處理器上執(zhí)行并且適于當(dāng)在計算設(shè)備上運(yùn)行時執(zhí)行權(quán)利要求1至35中的任何一個所述的方法步驟的軟件程序。
38.一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括用于當(dāng)在計算機(jī)上運(yùn)行時執(zhí)行權(quán)利要求I至35中的任何一個的 方法的能夠執(zhí)行的指令。
【文檔編號】G10L21/038GK103548077SQ201280024357
【公開日】2014年1月29日 申請日期:2012年4月30日 優(yōu)先權(quán)日:2011年5月19日
【發(fā)明者】H·H·蒙特, A·比斯沃斯, R·拉達(dá)克里希南 申請人:杜比實驗室特許公司, 杜比國際公司