專(zhuān)利名稱(chēng):導(dǎo)出音頻輸入信號(hào)的一個(gè)特征集的方法
導(dǎo)出音頻輸入信號(hào)的 一個(gè)特征集的方法本發(fā)明涉及導(dǎo)出音頻輸入信號(hào)的 一個(gè)特征集的方法,和導(dǎo)出音頻輸 入信號(hào)的一個(gè)特征集的系統(tǒng)。本發(fā)明還涉及對(duì)音頻輸入信號(hào)進(jìn)行分類(lèi)的 方法和系統(tǒng),以及比較音頻輸入信號(hào)的方法和系統(tǒng)。數(shù)字內(nèi)容的存儲(chǔ)能力正在顯著地增加。在不久的未來(lái)期望可以獲得具有至少一千兆字節(jié)存儲(chǔ)容量的硬盤(pán)。作為對(duì)此的補(bǔ)充,諸如MPEG標(biāo) 準(zhǔn)的多媒體內(nèi)容的壓縮算法的演進(jìn),顯著地減小每個(gè)音頻或視頻文件所 需存儲(chǔ)容量的數(shù)量。結(jié)果是消費(fèi)者將會(huì)能夠在單個(gè)硬盤(pán)或其他存儲(chǔ)介質(zhì) 上存儲(chǔ)許多小時(shí)的視頻和音頻內(nèi)容。能夠從數(shù)量不斷增加的電臺(tái)和電視 臺(tái)記錄視頻和音頻。消費(fèi)者能夠通過(guò)簡(jiǎn)單地從萬(wàn)維網(wǎng)即一種正在變得曰 益流行的工具,下載視頻和音頻內(nèi)容容易地增加他的收集。而且,具有 大存儲(chǔ)容量的便攜式音樂(lè)播放器是買(mǎi)得起的和實(shí)際的,它允許用戶(hù)在任 何時(shí)間能夠訪(fǎng)問(wèn)從其進(jìn)行選擇的音樂(lè)的廣泛選擇。但是,從其進(jìn)行選擇的可用視頻和音頻數(shù)據(jù)的巨量選擇不是沒(méi)有問(wèn) 題。例如,從具有成千上萬(wàn)音樂(lè)樂(lè)曲(musictrack)的大型音樂(lè)數(shù)據(jù)庫(kù)組織 和選擇音樂(lè)是困難并且耗時(shí)的。通過(guò)包括元數(shù)據(jù)能夠部分地解決該問(wèn) 題,該元數(shù)據(jù)能夠被理解成以某種方式附加到實(shí)際音頻數(shù)據(jù)文件的附加 信息標(biāo)記。元數(shù)據(jù)有時(shí)被提供給音頻文件,但是并不總是這樣。當(dāng)面對(duì) 耗時(shí)和令人不愉快的檢索和分類(lèi)問(wèn)題時(shí),用戶(hù)非??赡軙?huì)放棄,或者完 全不操心。在解決音樂(lè)信號(hào)的分類(lèi)問(wèn)題中已經(jīng)作出了一些嘗試,例如,WO 01/20609 A2提出一種分類(lèi)系統(tǒng),在該系統(tǒng)中根據(jù)某些諸如節(jié)奏復(fù)雜度、 清晰度、感染力等等的特征或變量對(duì)音頻信號(hào),即多首音樂(lè)或音樂(lè)樂(lè)曲 進(jìn)行分類(lèi)。給每首音樂(lè)分配了針對(duì)大量選擇的變量的權(quán)重值,這取決于 每個(gè)變量適用于這首音樂(lè)的程度。然而,這種系統(tǒng)具有的缺點(diǎn)在于,對(duì) 音樂(lè)樂(lè)曲相似音樂(lè)片段的分類(lèi)或比較的精確度并非特別高。因此,本發(fā)明的一個(gè)目的是提供一種更加穩(wěn)定和精確的方式對(duì)音頻 信號(hào)進(jìn)行表征、分類(lèi)或比較。為此,本發(fā)明提供一種導(dǎo)出音頻輸入信號(hào)的一個(gè)特征集的方法,特 別用于對(duì)音頻輸入信號(hào)進(jìn)行分類(lèi)和/或?qū)⒃撘纛l輸入信號(hào)與另 一個(gè)音頻 信號(hào)進(jìn)行比較和/或?qū)υ撘纛l輸入信號(hào)進(jìn)行表征,該方法包括識(shí)別音頻輸 入信號(hào)的大量第一階特征,從至少部分該第一階特征產(chǎn)生大量相關(guān)值, 以及利用所述相關(guān)值編輯音頻輸入信號(hào)的特征集。識(shí)別的步驟可以包 括,例如,從音頻輸入信號(hào)提取大量第一階特征或從數(shù)據(jù)庫(kù)檢索大量第 一階特征。所述第 一 階特征是音頻輸入信號(hào)的某些選取的描述性特征,可以描述信號(hào)帶寬、過(guò)零率、信號(hào)響度、信號(hào)亮度、信號(hào)能量或功率譜值等等。 第一階特征描述的其他質(zhì)量可以是譜衰減頻率、譜矩心等等。從音頻輸入信號(hào)導(dǎo)出的第一階特征可以被選擇為正交的,即它們可以被選為在一 定程度上彼此獨(dú)立。第 一 階特征的 一個(gè)序列可以 一起放入通常被稱(chēng)為 "特征向量"的單元中,其中特征向量中的某個(gè)位置總是被相同類(lèi)型的 特征占據(jù)。從第一階特征的選擇產(chǎn)生的相關(guān)值,因而也被稱(chēng)為第二階特征,描 述了這些第一階特征之間的相互關(guān)聯(lián)性或協(xié)方差,并且是音頻輸入信號(hào) 的強(qiáng)有力的描述符。已經(jīng)表面,在第一階特征不夠時(shí),在第二階特征的 幫助下,常??梢詫?duì)音樂(lè)樂(lè)曲進(jìn)行精確的比較、分類(lèi)或表征。根據(jù)本發(fā)明的方法的明顯優(yōu)點(diǎn)在于,可以容易地為任何音頻輸入信 號(hào)導(dǎo)出強(qiáng)有力的描述性特征集,并且這個(gè)特征集可以用來(lái),例如,精確 地分類(lèi)音頻輸入信號(hào),或者快速和精確地識(shí)別另一個(gè)類(lèi)似的音頻信號(hào)。 例如,為音頻信號(hào)編輯的一個(gè)優(yōu)選特征集包括第一階和第二階特征的元 素,其不僅描述某些選擇的描述性特征,而且還描述這些選擇的描述性 特征之間的相互關(guān)系。用于導(dǎo)出音頻輸入信號(hào)的 一個(gè)特征集的適當(dāng)系統(tǒng)包括識(shí)別音頻輸 入信號(hào)的大量第 一 階特征的特征識(shí)別單元,用于從至少部分第 一 階特征 產(chǎn)生大量相關(guān)值的相關(guān)值產(chǎn)生單元,和使用所述相關(guān)值編輯音頻輸入信 號(hào)的一個(gè)特征集的特征集編輯單元。所述特征識(shí)別單元可以例如包括特 征提取單元和/或特征檢索單元。從屬權(quán)利要求和接下來(lái)的描述公開(kāi)了本發(fā)明的特別有利的實(shí)施例 和特征。音頻輸入信號(hào)能夠源自任何適當(dāng)?shù)膩?lái)源。最普遍地,音頻信號(hào)可能源自可以具有大量格式中的任何一種格式的音頻文件。音頻文件格式的實(shí)例是未壓縮的,例如(WAV),和經(jīng)過(guò)無(wú)損壓縮的,例如視窗媒體音 頻(WMA ),以及諸如MP3 ( MPEG-1音頻層3 )文件、AAC (高級(jí)音 頻編譯碼)等等的有損壓縮格式。同樣,通過(guò)使用對(duì)于本領(lǐng)域普通技術(shù) 人員熟知的任何適當(dāng)?shù)募夹g(shù)數(shù)字化音頻信號(hào)能夠獲得音頻輸入信號(hào)。在根據(jù)本發(fā)明的方法中,音頻輸入信號(hào)的第一階特征(有時(shí)也被稱(chēng) 為觀察)可能優(yōu)選從給定域中的一個(gè)或多個(gè)部分提取,相關(guān)值的產(chǎn)生優(yōu) 選地包括使用適當(dāng)域中的相應(yīng)部分的第 一 階特征對(duì)來(lái)執(zhí)行相關(guān)。部分能 夠是例如時(shí)域中的時(shí)間幀或分段,這里"時(shí)間幀"就是覆蓋大量音頻輸 入采樣的時(shí)間范圍。所述部分還能夠是頻域中的頻帶,或?yàn)V波器組域中 的時(shí)間/頻率"片"。這些時(shí)間/頻率片、時(shí)間幀和頻帶通常具有相同的 大小或持續(xù)時(shí)間。因此與音頻信號(hào)部分關(guān)聯(lián)的特征能夠被表示為時(shí)間的 函數(shù),頻率的函數(shù),或二者的組合,從而在一個(gè)或兩個(gè)域中能夠?qū)@些 特征執(zhí)行相關(guān)。在下文中,術(shù)語(yǔ)"部分"和"片"可以被可交換地使用。在本發(fā)明的進(jìn)一步優(yōu)選實(shí)施例中,從不同、優(yōu)選相鄰的時(shí)間幀提取 的第 一階特征的相關(guān)值產(chǎn)生包括使用這些時(shí)間幀的第 一階特征來(lái)執(zhí)行 相關(guān),從而該相關(guān)值描述這些相鄰特征之間的相互關(guān)系。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,在時(shí)域中對(duì)音頻輸入信號(hào)的每個(gè)時(shí) 間幀提取第一階特征,以及通過(guò)在大量相繼的特征向量上,優(yōu)選在特征 向量的整個(gè)范圍上在 一對(duì)特征之間執(zhí)行互相關(guān)產(chǎn)生相關(guān)值。在本發(fā)明的替換優(yōu)選實(shí)施例中,在頻域中對(duì)音頻輸入信號(hào)的每個(gè)時(shí) 間幀提取第 一 階特征,以及通過(guò)在頻域的頻帶上在兩個(gè)時(shí)間幀的特征向 量的某些特征之間執(zhí)行互相關(guān)計(jì)算相關(guān)值,這里兩個(gè)時(shí)間幀優(yōu)選,但不 必須是相鄰的時(shí)間幀。換言之,對(duì)于多個(gè)時(shí)間幀中的每個(gè)時(shí)間幀,對(duì)至 少兩個(gè)頻帶提取至少兩個(gè)第 一階特征,相關(guān)值的產(chǎn)生包括在時(shí)間幀和頻 帶上在兩個(gè)特征之間執(zhí)行互相關(guān)。由于特征向量的第 一 階特征被選擇成相互獨(dú)立或正交的,因此它們 將是描述音頻輸入信號(hào)的不同方面的特征,所以將會(huì)以不同的單元來(lái)表 示。為了比較變量匯集中的不同變量之間的協(xié)方差的等級(jí),以普通熟知 的用于計(jì)算兩個(gè)變量之間的乘積矩或互相關(guān)的技術(shù),每個(gè)變量的平均偏 差能夠被除以它的標(biāo)準(zhǔn)偏差。所以,在本發(fā)明的特別優(yōu)選的實(shí)施例中, 通過(guò)從中減去所有適當(dāng)特征的中間或平均值來(lái)調(diào)節(jié)在產(chǎn)生相關(guān)值中使用的第一階特征。例如,當(dāng)在特征向量的整個(gè)范圍上計(jì)算兩個(gè)時(shí)域第一 階特征的相關(guān)值時(shí),在計(jì)算諸如平均偏差和標(biāo)準(zhǔn)偏差的特征變化的度量 之前,首先計(jì)算每個(gè)第一階特征的平均值以及從第一階特征的值減去該 平均值。類(lèi)似地,當(dāng)根據(jù)兩個(gè)相鄰的特征向量計(jì)算兩個(gè)頻域特征的相關(guān) 值時(shí),在計(jì)算兩個(gè)被選擇的第一階特征的乘積矩相關(guān)或互相關(guān)之前,首 先在兩個(gè)特征向量的每個(gè)特征向量上計(jì)算第一階特征的平均值并從各 自特征向量的每個(gè)第 一 階特征值減去該平均值??梢杂?jì)算大量的這些相關(guān)值,例如針對(duì)第一&第二、第一&第三、 第二&第三第一階特征等等的每個(gè)相關(guān)值。這些相關(guān)值是描述音頻輸入 信號(hào)的特征對(duì)之間的協(xié)方差或相關(guān)性的值,它們可能被組合以提供音頻 輸入信號(hào)的集體的特征集。為了增加所述特征集的信息內(nèi)容,該特征集 優(yōu)選還包括直接有關(guān)第一階特征的一些信息,即諸如在特征向量范圍上 獲得的每個(gè)第 一 階特征的中間或平均值的第 一 階特征的適當(dāng)導(dǎo)出量。同 樣,可以有能力獲得僅針對(duì)第一階特征子集的這些第二階特征,諸如例 如在特征向量的被選擇范圍上獲得的第一、第三和第五特征的平均值。所述特征集,實(shí)際上使用根據(jù)本發(fā)明的方法獲得的包括第 一和第二 階特征的擴(kuò)展特征向量,能夠獨(dú)立于針對(duì)其導(dǎo)出擴(kuò)展特征向量的音頻信 號(hào)被存儲(chǔ),或者它能夠例如以元數(shù)據(jù)的形式與音頻輸入信號(hào) 一 起被存 儲(chǔ)。然后能夠通過(guò)根據(jù)上述方法針對(duì)音樂(lè)樂(lè)曲或歌曲導(dǎo)出的所述特征 集精確地描述該音樂(lè)樂(lè)曲或歌曲。這些特征集使得有可能高度精確地執(zhí)行多首音樂(lè)的分類(lèi)和比較。例如,如果導(dǎo)出具有類(lèi)似性質(zhì)(諸如屬于單個(gè)類(lèi),例如"巴洛克") 的大量音頻信號(hào)的特征集或擴(kuò)展特征向量,那么然后能夠使用這些特征 集為類(lèi)"巴洛克,,構(gòu)造模型。這種模型可以例如是高斯多變量模型,每 個(gè)類(lèi)在擴(kuò)展特征向量占據(jù)的特征空間中具有其自己的平均向量和自己 的協(xié)方差矩陣。能夠訓(xùn)練任何數(shù)量的組或類(lèi)。對(duì)于音樂(lè)音頻輸入信號(hào),這種類(lèi)可能被廣泛地定義,例如"瑞格(reggae),,、"鄉(xiāng)村,,、"經(jīng) 典"等等。同樣,模型可以更加狹義或加以細(xì)化,例如"80年代迪斯科"、"20年代爵士,,、"指彈吉他,,等等,利用音頻輸入信號(hào)的適當(dāng)代表性 匯集對(duì)這些模型進(jìn)行訓(xùn)練。為了保證最佳的分類(lèi)結(jié)果,通過(guò)選擇最小數(shù)量的第一階特征,同時(shí)選擇這些第 一 階特征以提供分類(lèi)之間的最佳可能區(qū)別,將模型空間的維 數(shù)保持盡可能地低。特征排序和維數(shù)減小的已知方法能夠被應(yīng)用于確定 要選擇的最佳第一階特征。 一旦使用已知屬于組或類(lèi)的大量音頻信號(hào)來(lái) 訓(xùn)練針對(duì)所述組或類(lèi)的模型時(shí),通過(guò)簡(jiǎn)單地檢查音頻輸入信號(hào)的特征集 是否在一定的相似程度上適合于所述模型,能夠測(cè)試"未知,,音頻信號(hào) 以確定是否它屬于該類(lèi)。所以,將音頻輸入信號(hào)分類(lèi)成組的方法優(yōu)選包括導(dǎo)出音頻輸入信號(hào)的 一個(gè)特征集,以及根據(jù)該特征集確定音頻輸入信號(hào)對(duì)應(yīng)于大量組或類(lèi) 中的任何組或類(lèi)的概率,這里每個(gè)組或類(lèi)對(duì)應(yīng)于特定的音頻類(lèi)。用于將音頻輸入信號(hào)分類(lèi)成一個(gè)或多個(gè)組的相應(yīng)分類(lèi)系統(tǒng)可以包 括導(dǎo)出音頻輸入信號(hào)的 一個(gè)特征集的系統(tǒng),以及根據(jù)音頻輸入信號(hào)的所 述特征集確定音頻輸入信號(hào)落入大量組的任何一個(gè)組內(nèi)的概率的概率 確定單元,這里每個(gè)組對(duì)應(yīng)于特定的音頻類(lèi)。根據(jù)本發(fā)明的方法的另一個(gè)應(yīng)用可以是根據(jù)它們各自的特征集比 較音頻信號(hào),例如兩首歌曲,以便確定它們之間的相似性程度,若有的 話(huà)。因此這種比較方法優(yōu)選包括如下步驟導(dǎo)出第一音頻輸入信號(hào)的第 一特征集和導(dǎo)出第二音頻輸入信號(hào)的第二特征集,根據(jù)定義的距離度量 計(jì)算在特征空間中第一和第二特征集之間的距離,然后最終根據(jù)計(jì)算的 距離確定第一和第二音頻信號(hào)之間的相似性程度。使用的距離度量可以 例如是特征空間中某些點(diǎn)之間的歐幾里德距離。比較音頻輸入信號(hào)以確定它們之間相似性程度的相應(yīng)比較系統(tǒng)可以包括導(dǎo)出第 一音頻輸入信號(hào)的第 一特征集的系統(tǒng)和導(dǎo)出第二音頻輸入信號(hào)的第二特征集的系統(tǒng),以及根據(jù)定義的距離度量計(jì)算在特征空間 中第 一和第二特征集之間的距離、根據(jù)所述計(jì)算的距離確定音頻輸入信號(hào)之間相似性程度的比較器單元。顯然,導(dǎo)出第一特征集的系統(tǒng)和導(dǎo)出 第二特征集的系統(tǒng)可以是同 一 個(gè)系統(tǒng)。本發(fā)明可以在各種各樣的音頻處理應(yīng)用中找到應(yīng)用。例如,在優(yōu)選 實(shí)施例中,如上所述用于分類(lèi)音頻輸入信號(hào)的分類(lèi)系統(tǒng)可以被包含在音 頻處理設(shè)備中。該音頻處理設(shè)備可以訪(fǎng)問(wèn)通過(guò)類(lèi)或組進(jìn)行組織的音樂(lè)數(shù) 據(jù)庫(kù)或集合,所述音頻輸入信號(hào)被分類(lèi)到該類(lèi)或組中。另一種類(lèi)型的音 頻處理設(shè)備可以包括從數(shù)據(jù)庫(kù)中的音樂(lè)的特定組或類(lèi)中選擇一個(gè)或多個(gè)音樂(lè)數(shù)據(jù)文件的音樂(lè)查詢(xún)系統(tǒng)。因此這種設(shè)備的用戶(hù)能夠以?shī)蕵?lè)為目 的容易地整理歌曲的匯集,例如主題音樂(lè)事件。利用音樂(lè)數(shù)據(jù)庫(kù)的用戶(hù)可以指定從該數(shù)據(jù)庫(kù)檢索屬于諸如"流行,20世紀(jì)80年代,,之類(lèi)的類(lèi)類(lèi)。、這種^"頻處理設(shè)備的另 一個(gè)有用應(yīng)用將是匯編具有某^個(gè)風(fēng)格或節(jié)奏 的適用于伴奏練習(xí)測(cè)驗(yàn)、假期幻燈片放映展示等等的歌曲匯集。本發(fā)明 的再 一 個(gè)有用應(yīng)用可能是搜索音樂(lè)數(shù)據(jù)庫(kù)以查找類(lèi)似于已知音樂(lè)樂(lè)曲 的一個(gè)或多個(gè)音樂(lè)樂(lè)曲。根據(jù)本發(fā)明的用于導(dǎo)出特征集、分類(lèi)音頻輸入信號(hào)、以及比較輸入 信號(hào)的系統(tǒng)能夠以簡(jiǎn)單直接的方式實(shí)現(xiàn)為計(jì)算機(jī)程序(一個(gè)或多個(gè))。 導(dǎo)出輸入信號(hào)的特征集的所有組件,諸如特征提取單元、相關(guān)值產(chǎn)生單 元、特征集編輯單元等等,均能夠以計(jì)算機(jī)程序模塊的形式實(shí)現(xiàn)。在硬 件設(shè)備的處理器上可以編碼任何需要的軟件或算法,以便現(xiàn)有的硬件設(shè) 備可以適合于受益于本發(fā)明的特征。可替換地,導(dǎo)出音頻輸入信號(hào)的特 征集的組件能夠等效地至少部分地使用硬件模塊來(lái)實(shí)現(xiàn),以便本發(fā)明能 適用于數(shù)字和/或模擬音頻輸入信號(hào)。根據(jù)以下結(jié)合附圖的詳細(xì)描述,本發(fā)明的其他目的和特征將會(huì)變得 明顯。但是,應(yīng)該明白所述附圖僅僅設(shè)計(jì)成用于示例的目的并且不作為 對(duì)本發(fā)明范圍的限定。
圖1是時(shí)間幀和從輸入音頻信號(hào)提取的特征之間關(guān)系的抽象表示;圖2a是根據(jù)本發(fā)明的第一實(shí)施例用于從音頻輸入信號(hào)導(dǎo)出一個(gè)特征集的系統(tǒng)的示意性方框圖;圖2b是根據(jù)本發(fā)明的第二實(shí)施例用于從音頻輸入信號(hào)導(dǎo)出一個(gè)特征集的系統(tǒng)的示意性方框圖;圖3是根據(jù)本發(fā)明的第三實(shí)施例用于從音頻輸入信號(hào)導(dǎo)出 一 個(gè)特征集的系統(tǒng)的示意性方框圖;圖4是用于分類(lèi)音頻信號(hào)的系統(tǒng)的示意性方框圖; 圖5是用于比較音頻信號(hào)的系統(tǒng)的示意性方框圖。 在整個(gè)附圖中,相同的附圖標(biāo)記表示相同的對(duì)象。為了簡(jiǎn)化對(duì)涉及本發(fā)明以及以下描述的方法的理解,圖l給出了輸 入信號(hào)M的時(shí)間幀t!, t2, t!或部分和最終針對(duì)輸入信號(hào)M導(dǎo)出的
特征集s之間的抽象表示。
將要針對(duì)其導(dǎo)出 一個(gè)特征集的輸入信號(hào)能夠源自任何適當(dāng)?shù)膩?lái)源,
以及可以是采樣的模擬信號(hào)、諸如MP3或AAC文件等等的音頻編碼的 信號(hào)。在該圖中,音頻輸入M首先在適當(dāng)?shù)臄?shù)字化單元10中被數(shù)字化, 該數(shù)字化單元從數(shù)字化采樣流輸出 一系列分析窗口 。分析窗口能夠具有 一定持續(xù)時(shí)間,例如743ms。加窗單元11還將分析窗口細(xì)分成總共I 個(gè)重疊時(shí)間幀t^ t2, ..., t〃以便每個(gè)時(shí)間幀t!, t2, ^覆蓋音頻輸 入信號(hào)M的一定數(shù)量的采樣。能夠選擇相繼的分析窗口以便它們重疊若 干片,這在圖中未示出??商鎿Q地,能夠使用從其提取特征的單個(gè)、足
夠?qū)挼姆治龃翱凇?br>
對(duì)于這些時(shí)間幀tl5 t2, h中的每個(gè)時(shí)間幀,在特征提取單元 12中提取大量的第一階特征f!, f2, ft'。正如以下將進(jìn)行的更詳細(xì)的 說(shuō)明,這些第一階特征f,f2, ff可以根據(jù)時(shí)域或頻域信號(hào)表示進(jìn)行 計(jì)算,并能夠作為時(shí)間和/或頻率的函數(shù)而變化。時(shí)間/頻率片或時(shí)間幀 的每組第一階特征f!, f2,ff被稱(chēng)為第一階特征向量,從而為片t"
t2, t!提取特征向量fvl, fv2, ..., fvl。
在相關(guān)值產(chǎn)生單元13中,為某些第一階特征fi, f2,…,ff對(duì)產(chǎn)生
相關(guān)值。所述特征對(duì)可以從單個(gè)特征向量fvl, fv2,…,fvl或從不同特征
向量fw, fv2,fw獲得。例如,可以為從不同特征向量獲得的所述特
征對(duì)(fv![l], fv2[l]),或從同一特征向量獲得的所述特征對(duì)(f^LJ], fvl[k])
計(jì)算相關(guān)。
在特征處理塊15中,能夠在第一階特征向量fvl, fv2,…,fvi上計(jì)
算第一階特征fv!, fv2,…,fv!的一個(gè)或多個(gè)導(dǎo)出量fm!, fm2,…,fmf, 例如中間值、平均值、或平均值集合。
在特征集編輯單元14中把在相關(guān)值產(chǎn)生單元13中產(chǎn)生的相關(guān)值與
在特征處理塊15中計(jì)算的第一階特征fn f2,…,ff的導(dǎo)出量(一個(gè)或
多個(gè))fml, fm2, ..., fmf相組合以給出音頻輸入信號(hào)M的一個(gè)特征集S。 可以針對(duì)每個(gè)分析窗口導(dǎo)出這種特征集S,將其用于計(jì)算整個(gè)音頻輸入 信號(hào)M的平均特征集,然后可以將其作為元數(shù)據(jù)與音頻信號(hào)一起存儲(chǔ)在 音頻文件中,或按照需要存儲(chǔ)在單獨(dú)的元數(shù)據(jù)數(shù)據(jù)庫(kù)中。在圖2a中,將更詳細(xì)地說(shuō)明在時(shí)域中針對(duì)音頻輸入信號(hào)x (n)導(dǎo) 出一個(gè)特征集S的步驟。首先在數(shù)字化塊10中數(shù)字化音頻輸入信號(hào)M 以給出采樣的信號(hào)
<formula>formula see original document page 12</formula> (1)
接下來(lái),在窗口塊20中對(duì)采樣的輸入信號(hào)x[n]加窗以使用窗口 w[n] 對(duì)于時(shí)域中的一個(gè)片產(chǎn)生大小為N以及跳距為H的一組加窗的采樣 <formula>formula see original document page 12</formula>然后將對(duì)應(yīng)于圖中時(shí)間幀ti的每組采樣x,[n]在這種情況下通過(guò)采用 快速傅立葉變換(FFT)變換到頻域<formula>formula see original document page 12</formula>)
接下來(lái),在對(duì)數(shù)功率計(jì)算單元21中,使用每個(gè)頻率子帶b的濾波 核Wb[k],為一個(gè)頻率子帶集計(jì)算對(duì)數(shù)域子帶功率的值P[b]:
器,<formula>formula see original document page 12</formula>(4)
最后,在系數(shù)計(jì)算單元22中,通過(guò)在B功率子帶上每個(gè)子帶功率 值P[b]的直接余弦變換(DCT)獲得每個(gè)時(shí)間幀的Mel頻率倒譜系數(shù) <formula>formula see original document page 12</formula>所述采用的加窗單元20、對(duì)數(shù)功率計(jì)算單元21和系數(shù)計(jì)算單元22 一起給出特征提取單元12。這種特征提取單元12用于計(jì)算輸入信號(hào)M 的大量分析窗中每個(gè)的特征f,, f2, ..., ff。特征提取單元12將通常包 括以軟件,也許被組合為軟件包而實(shí)現(xiàn)的大量算法。明顯地,單個(gè)特征 提取單元12能夠用于單獨(dú)地處理每個(gè)分析窗,或者可以實(shí)施大量的單 獨(dú)特征提取單元12,以便能夠同時(shí)處理若干分析窗。
一旦如上所述已經(jīng)處理了某個(gè)時(shí)間幀集合I,能夠(在I個(gè)子幀的 分析幀上)計(jì)算由某些基于幀的特征之間的(歸一化的)相關(guān)系數(shù)構(gòu)成 的第二階特征。這種計(jì)算在相關(guān)值產(chǎn)生單元13中發(fā)生。例如,第y和 第z個(gè)MFCC系數(shù)之間在時(shí)間上的相關(guān)通過(guò)方程(6)在下面給出
<formula>formula see original document page 13</formula>
其中IUy和jLiz分別是MFCd [y]和MFCC, [z](在I上)的平均值。通過(guò) 減去該平均值對(duì)每個(gè)系數(shù)的調(diào)節(jié)給出了 Pearson相關(guān)系數(shù)作為第二階特 征,它實(shí)際上是兩個(gè)變量之間、在這種情況下是兩個(gè)系數(shù)MFCd[y]和 MFCCi [z]之間線(xiàn)性關(guān)系的強(qiáng)度度量。
上述計(jì)算的相關(guān)值P (y, z)然后能夠被用作一個(gè)特征集S的組成。 該特征集S的其他元素能夠是在特征處理塊15中計(jì)算的、時(shí)間幀的第 一階特征向量fv!, fv2,fv!的導(dǎo)出量,例如在特征向量fv" fv2,…,
f^的整個(gè)范圍上所取的、每個(gè)特征向量fv" fv2, fv!的第一若干特征
f\, f2, ff的中間或平均值。
在特征組合單元14中將第一階特征向量fw, fv2,…,fv!的這些導(dǎo)
出量與相關(guān)值進(jìn)行組合以給出特征集s作為輸出。該特征集s能夠與音
頻輸入信號(hào)M—起或獨(dú)立于音頻輸入信號(hào)M存儲(chǔ)在文件中,或者可以 在存儲(chǔ)之前被進(jìn)一步的處理。此后,能夠使用該特征集S,例如分類(lèi)音 頻輸入信號(hào)M,比較音頻輸入信號(hào)M和另一個(gè)音頻信號(hào),或者表征音 頻輸入信號(hào)M。
圖2b所示為本發(fā)明第二實(shí)施例的方框圖,其中在頻域中針對(duì)總共 為B的離散頻率子帶提取特征。第一若干階段,直到并且包括對(duì)數(shù)子帶功率值的計(jì)算實(shí)際上和在圖2中以上已經(jīng)描述的相同。但是,在這種實(shí) 現(xiàn)中,每個(gè)頻率子帶的功率值直接被用作特征,從而在這種情況下特征 向量fw, fvl+1包括在頻率子帶的范圍上如在方程(4)中給出的每個(gè)頻率
子帶的功率值。所以,特征提取單元12,只需要加窗單元20和對(duì)數(shù)功率 計(jì)算單元21。
在這種情況下在相關(guān)值產(chǎn)生單元13,中對(duì)相繼時(shí)間幀對(duì)t" t1+1,即 在特征向量對(duì)f,, fw上執(zhí)行相關(guān)值或第二階特征的計(jì)算。再次,首先通 過(guò)從它減去平均值PP,, Ppw調(diào)節(jié)每個(gè)特征向量fi, fw中的每個(gè)特征。 在這種情況下,例如,通過(guò)對(duì)特征向量fi的所有元素求和以及將該求和 除以頻率子帶的總數(shù)B,計(jì)算niH。如下計(jì)算一對(duì)特征向量f;, fw的相 關(guān)值p (P,, P1+1 ):
<formula>formula see original document page 14</formula>如在以上圖2中所描述,在特征組合單元14,中可以將特征向量對(duì) 的相關(guān)值和在特征處理塊15,中計(jì)算的第一階特征的導(dǎo)出量相結(jié)合以給 出作為輸出的所述特征集S。再次,如以上已經(jīng)描述的,該特征集S能 夠與音頻輸入信號(hào)一起或獨(dú)立于音頻輸入信號(hào)存儲(chǔ)在文件中,或者可以 在存儲(chǔ)之前被進(jìn)一步處理。
圖3圖示了本發(fā)明的第三實(shí)施例,其中從輸入信號(hào)提取的特征包含 時(shí)域和頻域信息兩者。這里,音頻輸入信號(hào)x[n]是采樣的信號(hào)。每個(gè)采 樣被輸入到包括總共K個(gè)濾波器的濾波器組17中。所以,對(duì)于輸入采 樣x[n]濾波器組17輸出是值y[m, k]的序列,這里l《k《K。每個(gè)k索 引表示濾波器組17的不同頻帶,而每個(gè)m索引表示時(shí)間,即濾波器組 17的采樣速率。對(duì)于每個(gè)濾波器組輸出y[m, k],計(jì)算特征fa[m,k]、 fb[m,k]。在這種情況下特征類(lèi)型fa[m, k]可以是它的輸入y[m, k]的功 率語(yǔ)值,而特征類(lèi)型fb[m, k]是為前一采樣計(jì)算的功率譜值。能夠在頻 率子帶的范圍上即對(duì)于值1《k < K對(duì)這些特征對(duì)fa[m,k]、 fb[m,k]進(jìn)行相 關(guān),以給出相關(guān)值p (fa, fb):<formula>formula see original document page 15</formula>
(8)
在圖4中,所示為用于分類(lèi)音頻信號(hào)M的系統(tǒng)4的簡(jiǎn)化方框圖。這 里,從存儲(chǔ)介質(zhì)40,例如硬盤(pán)、CD、 DVD、音樂(lè)數(shù)據(jù)庫(kù)等等檢索音頻 信號(hào)M。在第一階段,使用用于特征集導(dǎo)出的系統(tǒng)1為音頻信號(hào)M導(dǎo) 出一個(gè)特征集S。轉(zhuǎn)發(fā)所產(chǎn)生的該特征集S到概率確定單元43。這個(gè)相無(wú) 率確定單元43還提供有來(lái)自數(shù)據(jù)源45的類(lèi)特征信息42,該信息描述在 特征空間中類(lèi)的特征位置,音頻信號(hào)有可能被分配到所述類(lèi)。
在概率確定單元43中,距離測(cè)量單元46例如測(cè)量在特征空間中所 述特征集S中的特征和類(lèi)特征信息42提供的特征之間的歐幾里德距離。 判定單元47根據(jù)所述測(cè)量判定,若有的話(huà),所述特征集S進(jìn)而所述音 頻信號(hào)M能夠被分配給哪個(gè)(哪些)分類(lèi)。
在成功分類(lèi)的情況下,可以在通過(guò)適當(dāng)?shù)逆溄?8與音頻信號(hào)M相 關(guān)聯(lián)的元數(shù)據(jù)文件41中存儲(chǔ)適當(dāng)?shù)男畔?4。信息44或元數(shù)據(jù)可以包括 音頻信號(hào)M的所述特征集S和音頻信號(hào)已經(jīng)被分配給的那個(gè)類(lèi),以及, 例如,對(duì)該音頻信號(hào)M在多大程度上屬于該類(lèi)所進(jìn)行的測(cè)量。
圖5所示為用于比較諸如能夠從數(shù)據(jù)庫(kù)50、 51檢索的音頻信號(hào)M、 M,的系統(tǒng)5的簡(jiǎn)化方框圖。借助于用于特征集導(dǎo)出的兩個(gè)系統(tǒng)1、 r, 分別為音樂(lè)信號(hào)M和音樂(lè)信號(hào)M,導(dǎo)出特征集S和特征集S,。僅僅為了 簡(jiǎn)化起見(jiàn),該圖示出了用于特征集導(dǎo)出的兩個(gè)單獨(dú)的系統(tǒng)1、 1,。自然 地,通過(guò)簡(jiǎn)單地執(zhí)行針對(duì)一個(gè)音頻信號(hào)M以及然后針對(duì)另一個(gè)音頻信號(hào) M,的導(dǎo)出能夠?qū)崿F(xiàn)單個(gè)這種系統(tǒng)。
特征集S、 S,被輸入到比較器單元52中。在該比較器單元52中, 在距離分析單元53中分析特征集S、 S,以確定在特征空間中特征集S、 S,的各個(gè)特征之間的距離。轉(zhuǎn)發(fā)所述結(jié)果到判定單元54,該單元使用距 離分析單元53的結(jié)果以判定兩個(gè)音頻信號(hào)M、 M,是否足夠的相類(lèi)似以 至于被認(rèn)為屬于同一組。由判定單元54得到的結(jié)果作為適當(dāng)?shù)男盘?hào)55 被輸出,它可以是簡(jiǎn)單的是/否類(lèi)型的結(jié)果,或者是有關(guān)兩個(gè)音頻信號(hào)M、 M,之間的相似性、或缺乏相似性的信息更加豐富的判斷。
盡管已經(jīng)以?xún)?yōu)選實(shí)施例及其變型的方式公開(kāi)了本發(fā)明,但是應(yīng)該理解在不背離本發(fā)明范圍的條件下能夠?qū)Ρ景l(fā)明作出大量的其他修改和 變型。例如,在表征音樂(lè)樂(lè)曲的音頻處理設(shè)備中能夠使用用于導(dǎo)出音樂(lè) 信號(hào)的特征集的方法,其可能適用于產(chǎn)生音樂(lè)樂(lè)曲的描述性元數(shù)據(jù)。而 且,本發(fā)明并不局限于所述的分析方法,而是可以應(yīng)用任何適當(dāng)?shù)姆治龇椒ā?br>
為了清楚起見(jiàn),還應(yīng)該明白在本申請(qǐng)中的"一"或"一個(gè)"的使用 并不排除多個(gè),以及"包括,,并不排除其他的步驟或單元。適當(dāng)?shù)兀?單 元,,或"模塊,,可以包括大量的塊或設(shè)備,除非被明確地描述為單個(gè)實(shí)體。
權(quán)利要求
1.一種導(dǎo)出音頻輸入信號(hào)(M)的一個(gè)特征集(S)的方法,該方法包括-識(shí)別音頻輸入信號(hào)(M)的大量第一階特征(f1,f2,...,ff);-從至少部分第一階特征(f1,f2,...,ff)產(chǎn)生大量的相關(guān)值(ρ1,ρ2,...,ρI);-使用相關(guān)值(ρ1,ρ2,...,ρI)編輯音頻輸入信號(hào)(M)的所述特征集(S)。
2. 根據(jù)權(quán)利要求1所述的方法,其中,從音頻輸入信號(hào)(M)的給 定域中的一個(gè)或多個(gè)部分(tn t2, ..., t!)提取第一階特征(fP f2,ff, fa, fb),相關(guān)值(p,, p2, Pi, P )的產(chǎn)生包括使用該域中的相應(yīng)部分的第一階特征(f\, f2, ff, fa, fb)對(duì)執(zhí)行相關(guān)。
3. 根據(jù)權(quán)利要求2所述的方法,其中,從音頻輸入信號(hào)(M)的不同時(shí)間幀(t!, t2, ..., 提取第一階特征(f!, f2, ff, fa, fb),相關(guān)值(p,, p2,Pi, p )的產(chǎn)生包括使用不同時(shí)間幀(t" t2,...,t!)的第一階特征(f" f2,…,ff, fa, fb)執(zhí)行相關(guān)。
4. 根據(jù)權(quán)利要求3所述的方法,其中,對(duì)于多個(gè)時(shí)間幀中的每個(gè)時(shí)間幀(t!, t2, ..., t!),提取作為時(shí)間的函數(shù)的第一階特征向量(fvl, fv2, fvI),相關(guān)值(P!,P2,…,Pt)的產(chǎn)生包括在大量的特征向量(fvl, fv2, ..., fvl)上執(zhí)行特征向量(fvl, fv2,…,fvl)的某些元 素之間的互相關(guān)。
5. 根據(jù)權(quán)利要求3所述的方法,其中,對(duì)于多個(gè)時(shí)間幀中的每個(gè)時(shí)間幀(tp t2, t!),提取作為頻率的函數(shù)的第一階特征向量(fvl,fv2, fvI),相關(guān)值(P,,P2, ...,P!)的產(chǎn)生包括在頻率上執(zhí)行兩個(gè)時(shí)間幀(th ti+1)的特征向量(fvl, fv2, fvl)的某些元素之間 的互相關(guān)。
6. 根據(jù)前述權(quán)利要求任何之一所述的方法,其中,在產(chǎn)生相關(guān)值(P"P2, P!)之前用相應(yīng)的第一階特征(fl, f2,…,ff)的平均值調(diào)節(jié)在產(chǎn)生相關(guān)值(PP2, P!)中使用的第一階特征f2, ff)。
7. 根據(jù)前述權(quán)利要求任何之一所述的方法,其中,所述特征集(S)包括大量的相關(guān)值(P!,P2, P!)和至少大量第一階特征(f!,f2, ..., ff)的導(dǎo)出量。
8. —種將音頻輸入信號(hào)(M)分類(lèi)成組,并基于音頻輸入信號(hào)(M) 的所述特征集(S)確定音頻輸入信號(hào)(M)落入大量組的任何一個(gè)組 內(nèi)的概率的方法,這里每個(gè)組表示特定的音頻類(lèi),其中已經(jīng)使用根據(jù)權(quán) 利要求1到7任何之一所述的方法導(dǎo)出了所述特征集(S)。
9. 一種比較音頻輸入信號(hào)(M, M,)以確定音頻輸入信號(hào)(M, M,) 之間的相似程度的方法,該方法包4舌-導(dǎo)出第一音頻輸入信號(hào)(M)的第一特征集(S); -導(dǎo)出第二音頻輸入信號(hào)(M,)的第二特征集(S,); -根據(jù)定義的距離度量計(jì)算在特征空間中第一和第二特征集(S, S,)之間的距離;-根據(jù)所述計(jì)算的距離確定第一和第二音頻信號(hào)(M, M,)之間 的相似性程度,其中已經(jīng)使用根據(jù)權(quán)利要求1到7任何之一所述的方法導(dǎo)出所述第 一和第二特征集(S)。
10. —種用于導(dǎo)出音頻輸入信號(hào)(M)的一個(gè)特征集(S)的系統(tǒng) (1 ),包括-用于識(shí)別音頻輸入信號(hào)(M)的大量笫一階特征(f!, f2,…, ff)的特征識(shí)別單元(12, 12,);-用于從至少部分第一階特征(fn f2,…,ff)產(chǎn)生大量相關(guān)值 (Pl, p2,…,Pi)的相關(guān)值產(chǎn)生單元(13, 13,);-用于使用相關(guān)值(P!, P2, Pi)編輯音頻輸入信號(hào)(M)的所述特征集(S)的特征集編輯單元(14, 14,)。
11. 一種用于將音頻輸入信號(hào)(M)分類(lèi)成組的分類(lèi)系統(tǒng)(4), 包括用于基于音頻輸入信號(hào)(M)的所述特征集(S)確定音頻輸入信 號(hào)(M)落入大量組的任何一個(gè)組內(nèi)的概率的概率確定單元(43),這 里每個(gè)組表示特定的音頻類(lèi),其中,已經(jīng)使用根據(jù)權(quán)利要求1到7任何 之一所述的方法導(dǎo)出所述特征集(S)。
12. —種用于比較音頻輸入信號(hào)(M, M,)以確定音頻輸入信號(hào)(M, M,)之間的相似性程度的比較系統(tǒng)(5),包括-比較器單元(52),它用于根據(jù)定義的距離度量計(jì)算在特征空 間中第一和第二特征集(S, S,)之間的距離,以及用于根據(jù)所述計(jì)算的距離確定第一和第二音頻輸入信號(hào)(M, M,)之間的相似性程度,其 中已經(jīng)使用根據(jù)權(quán)利要求1到7任何之一所述的方法導(dǎo)出所述第一和第 二特征集(S)。
13. —種音頻處理設(shè)備,包括根據(jù)權(quán)利要求11所述的分類(lèi)系統(tǒng)(4) 和/或根據(jù)權(quán)利要求12所述的比較系統(tǒng)(5)。
14. 一種可直接加載到可編程音頻處理設(shè)備的存儲(chǔ)器中的計(jì)算機(jī)程 序產(chǎn)品,包括軟件代碼部分,當(dāng)所述程序在該音頻處理設(shè)備上運(yùn)行時(shí), 所述代碼部分用于執(zhí)行根據(jù)權(quán)利要求1到7所述的導(dǎo)出一個(gè)特征集(S ) 的方法步驟或用于執(zhí)行根據(jù)權(quán)利要求8所述的分類(lèi)音頻輸入信號(hào)(M) 的方法步驟或用于執(zhí)行根據(jù)權(quán)利要求9所述的比較音頻輸入信號(hào)(M, M,)的方法步驟。
15. —種包括從音頻輸入信號(hào)(M)導(dǎo)出的一個(gè)特征集(S)的數(shù) 據(jù)庫(kù),其中已經(jīng)使用根據(jù)權(quán)利要求1到7任何之一所述的方法導(dǎo)出所述 特征集(S)。
全文摘要
本發(fā)明描述一種導(dǎo)出音頻輸入信號(hào)(M)的一個(gè)特征集(S)的方法,該方法包括識(shí)別音頻輸入信號(hào)(M)的大量第一階特征(f<sub>1</sub>,f<sub>2</sub>,...,f<sub>f</sub>),從至少部分第一階特征(f<sub>1</sub>,f<sub>2</sub>,...,f<sub>f</sub>)產(chǎn)生大量的相關(guān)值(ρ<sub>1</sub>,ρ<sub>2</sub>,...,ρ<sub>I</sub>),使用相關(guān)值(ρ<sub>1</sub>,ρ<sub>2</sub>,...,ρ<sub>I</sub>)編輯音頻輸入信號(hào)(M)的所述特征集(S)。本發(fā)明還描述將音頻輸入信號(hào)(M)分類(lèi)成組的方法,以及比較音頻輸入信號(hào)(M,M’)以確定音頻輸入信號(hào)(M,M’)之間的相似性程度的方法。本發(fā)明還描述用于導(dǎo)出音頻輸入信號(hào)(M)的一個(gè)特征集(S)的系統(tǒng)(1),用于將音頻輸入信號(hào)(M)分類(lèi)成組的分類(lèi)系統(tǒng)(4),以及比較音頻輸入信號(hào)(M,M’)以確定音頻輸入信號(hào)(M,M’)之間的相似性程度的比較系統(tǒng)(5)。
文檔編號(hào)G10H1/00GK101292280SQ200680038598
公開(kāi)日2008年10月22日 申請(qǐng)日期2006年10月16日 優(yōu)先權(quán)日2005年10月17日
發(fā)明者D·J·布里巴特, M·F·麥金尼 申請(qǐng)人:皇家飛利浦電子股份有限公司