中國民族民間音樂音頻修復(fù)的音頻特征提取及使用的方法

文檔序號：6374783閱讀：252來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：中國民族民間音樂音頻修復(fù)的音頻特征提取及使用的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種音頻特征提取及使用的方法，尤其涉及一種用于中國民族民間音樂音頻修復(fù)的歷史音頻修復(fù)的音頻特征提取及使用的方法。
背景技術(shù)：
音樂在人們的生活中可謂無處不在。從古到今，音樂穿插在人類社會的整個(gè)發(fā)展歷程中，記載了無數(shù)個(gè)生活中美好的瞬間，給人們以心靈上的震撼和感動。為了將豐富多彩的音樂記錄下來，人們發(fā)明了各種各樣的音樂存儲介質(zhì)，同時(shí)音樂的各種處理技術(shù)也應(yīng)運(yùn)而生。在模擬音頻處理技術(shù)為主的年代，音頻的處理主要是依靠各種專業(yè)設(shè)備進(jìn)行處理，音頻的混合、延遲、改變都是通過各種設(shè)備來完成，由于各種設(shè)備的放大、濾波、延遲等電路都有可能引入新噪聲和音頻的畸變，另外這些設(shè)備的造價(jià)是非常昂貴的，這就在某種程度上影響了模擬音頻技術(shù)的發(fā)展。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展，以計(jì)算機(jī)為核心的信息處理扮演著越來越重要的角色，數(shù)字音頻處理技術(shù)也得到了飛速的發(fā)展。數(shù)字音頻處理技術(shù)與模擬音頻處理技術(shù)不同，它通過把模擬信號進(jìn)行時(shí)間上的離散化和幅度上的量化處理以后，變成一連串?dāng)?shù)字信號加以存儲和傳輸。當(dāng)音頻信號變成數(shù)字形式后，所有的處理實(shí)際上都是一種數(shù)字的處理，基于數(shù)字信號處理的理論和各種算法就可以通過軟件在計(jì)算機(jī)上實(shí)現(xiàn)。以計(jì)算機(jī)軟件為主的實(shí)現(xiàn)方法具有成本低和處理方式靈活的優(yōu)點(diǎn)，一臺計(jì)算機(jī)配上聲卡和音頻處理軟件就可以做各種處理，而且可以反復(fù)修改、多次加工，隨著計(jì)算機(jī)處理能力的不斷提高，其非實(shí)時(shí)的缺點(diǎn)也逐步得到克服。雖然計(jì)算機(jī)的出現(xiàn)為音樂的處理帶來了極大的便利，但是仍然有很多早期的音樂仍然以模擬信號的方式存儲在老舊的載體介質(zhì)中。例如我國各大專業(yè)音樂院校的圖書館內(nèi)一般都收藏有大量的不同時(shí)期、不同載體介質(zhì)的音頻資料，其中不乏經(jīng)典的演奏、演唱音響資料，但是隨著時(shí)間的變遷推移和載體材料的技術(shù)局限性，一些早期的音頻資料已瀕臨失效的邊緣。對珍貴歷史音頻資料進(jìn)行清洗、數(shù)字化及修復(fù)是保護(hù)以及實(shí)現(xiàn)再利用的有效途徑。但是，由于作曲者、演繹者、作曲發(fā)生的地域及時(shí)間和演繹發(fā)生的地域及時(shí)間的不同，各音樂曲目會具有不同的表現(xiàn)風(fēng)格(包括旋律、節(jié)奏、音色、力度、和聲、肢體和曲式等的音樂要素的富有個(gè)性的結(jié)合方式)。另外，音樂曲目的載體介質(zhì)也會影響該音樂曲目的表現(xiàn)風(fēng)格。即音樂曲目的文化特征(諸如作曲者、演繹者、載體等)會影響到其表現(xiàn)風(fēng)格。如果在對歷史音頻資料修復(fù)過程中忽略了這部分的考慮，那么這樣的修復(fù)將是不成功的。因此，本領(lǐng)域的技術(shù)人員致力于開發(fā)一種歷史音頻修復(fù)的音頻特征提取及使用的方法，以便在對中國民族民間音樂(民樂)的歷史音頻修復(fù)過程中引入該音頻的文化特征進(jìn)行修復(fù)。

發(fā)明內(nèi)容
有鑒于現(xiàn)有技術(shù)的上述缺陷，本發(fā)明所要解決的技術(shù)問題是提供一種歷史音頻修復(fù)的音頻特征提取及使用的方法，通過建立關(guān)聯(lián)音頻的文化特征的集合和數(shù)字特征的集合的音頻特征數(shù)據(jù)庫，以實(shí)現(xiàn)在對音頻的修復(fù)過程中，從音頻特征數(shù)據(jù)庫中導(dǎo)出與該音頻的文化特征相關(guān)的數(shù)字特征進(jìn)行修復(fù)。為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種歷史音頻修復(fù)的音頻特征提取及使用的方法，其特征在于，包括步驟確定樣本音頻的音樂類型，確定所述樣本音頻關(guān)于所述音樂類型的各個(gè)文化特征的值作為所述樣本音頻的文化特征集合；將所述樣本音頻轉(zhuǎn)換成WAV格式的數(shù)字音頻信號，并對所述數(shù)字音頻信號進(jìn)行預(yù)處理；提取經(jīng)過所述預(yù)處理的所述數(shù)字音頻信號的數(shù)字特征，使用分類器對所述數(shù)字特征進(jìn)行特征選擇和分類，獲得所述樣本音頻的數(shù)字特征集合；
關(guān)聯(lián)所述樣本音頻的所述文化特征集合和所述數(shù)字特征集合以建立所述音樂類型的音頻特征數(shù)據(jù)庫；確定待修復(fù)音頻的音樂類型，確定所述待修復(fù)音頻關(guān)于所述音樂類型中的各個(gè)文化特征的值作為所述待修復(fù)音頻的文化特征集合，在所述音樂類型的音頻特征數(shù)據(jù)庫中檢索所述待修復(fù)音頻的文化特征集合，獲得與所述待修復(fù)音頻的文化特征集合匹配度最高的所述樣本音頻的所述文化特征集合，使用與所述樣本音頻的所述文化特征集合關(guān)聯(lián)的所述數(shù)字特征集合作為所述待修復(fù)音頻的數(shù)字特征集合；將所述待修復(fù)音頻的所述數(shù)字特征集合導(dǎo)出以用于對所述待修復(fù)音頻的修復(fù)。進(jìn)一步地，所述樣本音頻和所述待修復(fù)音頻皆為民樂的音頻，所述音樂類型包括古琴類、福建南音類和呼麥類。進(jìn)一步地，所述古琴類的文化特征包括琴派、風(fēng)格、載體和年代；所述福建南音類的文化特征包括曲牌、樂器、載體和年代；所述呼麥類的文化特征包括發(fā)聲部位、載體和年代。進(jìn)一步地，所述樣本音頻關(guān)于所述音樂類型的所述文化特征的值是描述項(xiàng)。進(jìn)一步地，所述預(yù)處理包括統(tǒng)一采樣率、聲道合并以及加窗分幀，經(jīng)過所述統(tǒng)一采樣率的所述數(shù)字音頻信號的采樣率為16kHz。進(jìn)一步地，在對所述數(shù)字音頻信號進(jìn)行所述加窗分幀時(shí)，使用漢明窗作為窗函數(shù)，中貞移為1/2,窗長為512個(gè)米樣點(diǎn)的長度。進(jìn)一步地，所述數(shù)字特征包括所述樣本音頻的所述數(shù)字音頻信號的音調(diào)特征、響度特征、音色特征和節(jié)奏特征；所述音調(diào)特征包括所述數(shù)字音頻信號的譜峰值；所述響度特征包括所述數(shù)字音頻信號的低能量幀的比率；所述音色特征包括所述數(shù)字音頻信號的短時(shí)過零率、頻譜質(zhì)心和MFCC ;所述節(jié)奏特征包括所述數(shù)字音頻信號的節(jié)拍強(qiáng)度和、最強(qiáng)節(jié)拍和最強(qiáng)節(jié)拍的強(qiáng)度。進(jìn)一步地，所述分類器為支持向量機(jī)分類器。進(jìn)一步地，在對所述數(shù)字音頻信號進(jìn)行所述特征選擇時(shí)采用的算法是啟發(fā)式向前搜索(HBS)和啟發(fā)式向后搜索(HFS)。進(jìn)一步地，所述匹配度是使用模糊匹配獲得的所述待修復(fù)音頻的文化特征集合與所述樣本音頻的所述文化特征集合重合的元素個(gè)數(shù)與所述待修復(fù)音頻的所述文化特征集合的元素個(gè)數(shù)之比。在本發(fā)明的較佳實(shí)施方式中，使用本發(fā)明的歷史音頻修復(fù)的音頻特征提取及使用的方法應(yīng)用于中國民族民間音樂的歷史音頻的修復(fù)，建立了包括古琴類、福建南音類和呼麥類的音頻特征數(shù)據(jù)庫，包括步驟首先使用多個(gè)樣本音頻，確定它們的音樂類型，音樂類型包括古琴類、福建南音類和呼麥類；每個(gè)音樂類型具有多個(gè)文化特征，例如古琴類的文化特征包括琴派、風(fēng)格、載體和年代；福建南音類的文化特征包括曲牌、樂器、載體和年代；呼麥類的文化特征包括發(fā)聲部位、載體和年代；然后分別確定每個(gè)樣本音頻關(guān)于其所屬的音樂類型的各個(gè)文化特征的值，并以這些值的集合作為該樣本音頻的文化特征集合，樣本音頻關(guān)于某個(gè)文化特征的值是一個(gè)描述項(xiàng)；另外，將該樣本音頻轉(zhuǎn)換成WAV格式的數(shù)字音頻信號后進(jìn)行包括對該數(shù)字音頻信號統(tǒng)一采樣率、聲道合并以及加窗分幀的預(yù)處理；然后提取經(jīng)過預(yù)處理的數(shù)字音頻信號的數(shù)字特征；數(shù)字特征包括音調(diào)特征、響度特征、音色特征和節(jié)奏特征，其中音調(diào)特征包括該數(shù)字音頻信號的譜峰值，響度特征包括該數(shù)字音頻信號的低能量幀的比率，音色特征包括該數(shù)字音頻信號的短時(shí)過零率、頻譜質(zhì)心、和MFCC，節(jié)奏特征包括該數(shù)字音頻信號的節(jié)拍強(qiáng)度和、最強(qiáng)節(jié)拍和最強(qiáng)節(jié)拍的強(qiáng)度；然后使用分類器對上述的數(shù)字特征進(jìn)行特征選擇和分類，獲得該樣本音頻的數(shù)字特征集合；最后關(guān)聯(lián)該樣本音頻的文化特征集合和數(shù)字特征集合，并把每個(gè)樣本音頻的關(guān)聯(lián)的文化特征集合和數(shù)字特征集合存入數(shù)據(jù)庫，由此建立各個(gè)音樂類型的音頻特征數(shù)據(jù)庫。在本發(fā)明的較佳實(shí)施方式中，還提供了使用本發(fā)明的歷史音頻修復(fù)的音頻特征提取及使用的方法獲取待修復(fù)音頻的數(shù)字特征集合以用于對該音頻的修復(fù)。包括步驟確定待修復(fù)音頻的音樂類型，確定該待修復(fù)音頻關(guān)于其所屬音樂類型中的各個(gè)文化特征的值，并將這些值的集合作為待修復(fù)音頻的文化特征集合；其中待修復(fù)音頻關(guān)于某個(gè)文化特征的值是一個(gè)描述項(xiàng)；然后在該待修復(fù)音頻所屬音樂類型的音頻特征數(shù)據(jù)庫中檢索，使用待修復(fù)音頻的文化特征集合中的元素作為關(guān)鍵詞，使用模糊匹配，獲得與待修復(fù)音頻的文化特征集合匹配度最高的樣本音頻的文化特征集合；然后提取與該樣本音頻的文化特征集合關(guān)聯(lián)的數(shù)字特征集合作為待修復(fù)音頻的數(shù)字特征集合；最后將該待修復(fù)音頻的數(shù)字特征集合導(dǎo)出以用于對該修復(fù)音頻的修復(fù)。由此可見，本發(fā)明采用包括了文化特征和數(shù)字特征的音頻特征，通過多個(gè)樣本音頻，建立了關(guān)聯(lián)多個(gè)音頻的文化特征集合和數(shù)字特征集合的多個(gè)音樂類型的音頻特征數(shù)據(jù)庫，并且，在對待修復(fù)音頻進(jìn)行修復(fù)的過程中，可以通過確定該待修復(fù)音頻的文化特征集合，從其所屬音樂類型的音頻特征數(shù)據(jù)庫中導(dǎo)出與其文化特征集合最相似的樣本音頻的數(shù)字特征集合，并將該數(shù)字特征集合用于對該待修復(fù)音頻的修復(fù)，從而能夠使修復(fù)后的音頻更符合其文化特征，保證修復(fù)的質(zhì)量。以下將結(jié)合附圖對本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說明，以充分地了解本發(fā)明的目的、特征和效果。

圖I是使用本發(fā)明的歷史音頻修復(fù)的音頻特征提取及使用的方法建立音頻特征數(shù)據(jù)庫的流程圖。圖2是使用本發(fā)明的歷史音頻修復(fù)的音頻特征提取及使用的方法獲得待修復(fù)音頻的數(shù)字特征集合以用于修復(fù)的流程圖。
圖3是使用本發(fā)明的歷史音頻修復(fù)的音頻特征提取及使用的方法進(jìn)行修復(fù)的修復(fù)后的音頻與未使用本發(fā)明進(jìn)行修復(fù)的修復(fù)后的音頻的比較實(shí)驗(yàn)的結(jié)果圖。
具體實(shí)施例方式如圖I所示，在本發(fā)明的一個(gè)實(shí)施例中，使用本發(fā)明的歷史音頻修復(fù)的音頻特征提取及使用的方法應(yīng)用于中國民族民間音樂的歷史音頻的修復(fù)。首先，使用本發(fā)明的歷史音頻修復(fù)的音頻特征提取及使用的方法建立音頻特征數(shù)據(jù)庫，步驟如下步驟101、獲取文化特征集合。由于音樂曲目的流派、演繹方式及表現(xiàn)形式上的差異，可以劃分為多個(gè)音樂類型，對于同屬于一個(gè)音樂類型的多個(gè)音樂曲目而言，可以認(rèn)為它們在其文化特征上具有較多的相似之處。因此本發(fā)明首先對音樂類型進(jìn)行劃分，確定各個(gè)音樂類型的文化特征，并建立各個(gè)音樂類型的音頻特征數(shù)據(jù)庫。在本實(shí)施例中，通過對各類音頻資料的收集、整理和分析工作，確定了包括古琴類、福建南音類和呼麥類的各種音樂類型；同時(shí)確定古琴類的文化特征包括琴派、風(fēng)格、載體和年代，福建南音類的文化特征包括曲牌、樂器、載體和年代，呼麥類的文化特征包括發(fā)聲部位、載體和年代。其中載體是指該音頻所在的介質(zhì)，例如蟲膠唱片、聚乙烯材質(zhì)唱片、磁性錄音帶及激光唱片等。年代指該音頻被存儲到該載體上的時(shí)間，如果是翻錄，則以母版制作的時(shí)間為準(zhǔn)。對于每個(gè)音樂類型，選擇多個(gè)音樂曲目作為樣本音頻。這些被選擇的樣本音頻必須具有較好的狀態(tài)，例如音色逼真、噪聲低等?？梢赃x擇一些經(jīng)過修復(fù)的質(zhì)量較好的老舊唱片所載的音樂曲目作為樣本音頻。分別確定每個(gè)樣本音頻關(guān)于其所屬的音樂類型的各個(gè)文化特征的值，并以這些值的集合作為該樣本音頻的文化特征集合。其中，樣本音頻關(guān)于某個(gè)文化特征的值是一個(gè)描述項(xiàng)。例如對于1930年錄制在蟲膠唱片上的古琴曲《瀟湘水云》，它關(guān)于古琴類的各個(gè)文化特征的值分別是琴派=浙派，風(fēng)格=優(yōu)美，載體=蟲膠唱片，年代=1930年。因此，可以獲取該樣本音頻的文化特征集合為{浙派、優(yōu)美、蟲膠唱片、1930年}。步驟102、音頻轉(zhuǎn)換。將步驟101中選擇的各個(gè)樣本音頻轉(zhuǎn)換成WAV格式的數(shù)字音頻信號。常見的音頻格式主要有MP3、WAV等，因此首先應(yīng)該將音頻的格式統(tǒng)一。由于MP3格式主要是一種音頻壓縮的編碼規(guī)則，不利于之后的數(shù)字特征的提取，本實(shí)施例中將所有樣本音頻統(tǒng)一轉(zhuǎn)換為有利于進(jìn)行分析的WAV格式。步驟103、信號預(yù)處理。對步驟102中得到的數(shù)字音頻信號進(jìn)行包括統(tǒng)一采樣率、聲道合并以及加窗分幀的預(yù)處理。由于參差不齊的采樣率會對一些特殊的數(shù)字特征的提取產(chǎn)生不良印象，并且過大的采樣率并不會增加音樂中所能夠提取的有用信息，相反還會帶來龐大的存儲開銷，本實(shí)施例中，將所用的樣本音頻的統(tǒng)一重采樣設(shè)定為16kHz。將樣本音頻中兩聲道的音頻都合并為單聲道，以為音樂特征的提取提供便利。對經(jīng)過統(tǒng)一采樣率和聲道合并的數(shù)字音頻信號進(jìn)行濾波處理后，進(jìn)行加窗分幀處理。一般每秒的幀數(shù)約為33 100幀，采用交疊分段的方法以使幀與幀之間平滑過渡，保持其連續(xù)性。前一巾貞和后一巾貞的交疊部分稱為巾貞移。巾貞移與巾貞長的比值一般取為O 1/2。分幀用可移動的有限長度窗口加權(quán)的方法來實(shí)現(xiàn)的，也即用一定的窗函數(shù)w(n)來乘信號s (η)，從而形成加窗的信號Sw (n) =s(n)*w(n)。本實(shí)施例中使用漢明窗作為窗函數(shù)，幀移為1/2,窗長為512個(gè)米樣點(diǎn)的長度。步驟104、提取數(shù)字特征。對經(jīng)過步驟103的預(yù)處理得到的數(shù)字音頻信號提取數(shù)字特征。在本實(shí)施例中，通過對各類音頻資料的收集、整理和分析工作，確定了包括音調(diào)特征、響度特征、音色特征和節(jié)奏特征的各類數(shù)字特征，其中，音調(diào)特征包括該數(shù)字音頻信號的譜峰值，響度特征包括該數(shù)字音頻信號的低能量幀的比率，音色特征包括該數(shù)字音頻信號的短時(shí)過零率、頻譜質(zhì)心和MFCC，節(jié)奏特征包括該數(shù)字音頻信號的節(jié)拍強(qiáng)度和、最強(qiáng)節(jié)拍和最強(qiáng)節(jié)拍的強(qiáng)度?！つ芰款l譜是把信號Sw(η)從時(shí)域變換到頻域而得到的各頻率能量的度量，具體地為信號Sw(η)經(jīng)過傅里葉變換之后求其實(shí)部和虛部的平方和。幅度頻譜為信號Sw(n)經(jīng)過傅里葉變換之后求其實(shí)部和虛部的平方和，然后再求平方根。節(jié)拍直方圖計(jì)算方法為首先求得信號Sw(η)每個(gè)窗中的短時(shí)能量均方值(RMS)，然后對RMS序列做快速傅里葉變換(FFT)，得到RMS的能量譜圖表示音樂信號能量的周期性，用音樂信號能量的周期性來代表節(jié)拍。譜峰值是一個(gè)維度為I維的數(shù)字特征，通過分析信號3￥(11)經(jīng)過FFT之后的頻譜幅值得到。通過在信號Sw(n)的頻域局部區(qū)域內(nèi)設(shè)定一個(gè)門限來檢測峰值，所有在該門限內(nèi)的最大值都可以視為峰值。低能量幀的比例是一個(gè)維度為I維的數(shù)字特征，其表示幀與幀之間在能量上的變化情況，通過計(jì)算k個(gè)相鄰的幀中在時(shí)域上的能量小于這k個(gè)幀的時(shí)域平均能量而得到的百分比。本實(shí)施例中，k = 100。短時(shí)過零率Z(i)是一個(gè)維度為I維的數(shù)字特征，其是信號Sw(η)在第i幀內(nèi)的采樣值由正到負(fù)和由負(fù)到正變化的次數(shù)。其計(jì)算方法為Z(7) = 士 1 |明電( ) — Sgn χ (" —1)]| ’其中sgn[M )] = j，N為第i幀中采樣點(diǎn)的個(gè)數(shù)，Xi (η)為某個(gè)采樣點(diǎn)在
[-IjXi(W) < O
時(shí)域上的幅值。頻譜質(zhì)心C(i)是一個(gè)維度為I維的數(shù)字特征，其是第i個(gè)幀譜形狀的度量，其值大
V V ^ η\Χ.(η )\
對應(yīng)比較明亮的聲學(xué)結(jié)構(gòu)，在高頻處有更多的能量。其計(jì)算方法為:邙)=·智1 ^ 1 >
Σ」剩
其中Xi為第i個(gè)幀的樣本，Xi(Hi)為對應(yīng)的傅立葉變換的系數(shù)。MFCC是一個(gè)維度為13維的數(shù)字特征，即Mel倒譜系數(shù)，它將人耳的聽覺特性運(yùn)用到信號的處理中，在語音和聲音識別與分類中，這是最有用的特征之一。其提取流程為計(jì)算信號Sw(η)的功率譜、計(jì)算離散余弦變換、計(jì)算Mel頻譜倒譜、得到MFCC。
節(jié)拍強(qiáng)度和是一個(gè)維度為I維的數(shù)字特征，其是在一段音樂信號中檢測到的所有節(jié)拍的強(qiáng)度之和。最強(qiáng)節(jié)拍是一個(gè)維度為I維的數(shù)字特征，其是節(jié)拍直方圖中強(qiáng)度最大的節(jié)拍，通過計(jì)算節(jié)拍直方圖中值最大的那一點(diǎn)對應(yīng)的節(jié)拍數(shù)而得，單位是節(jié)拍/每分鐘。最強(qiáng)節(jié)拍的強(qiáng)度是一個(gè)維度為I維的數(shù)字特征，其通過計(jì)算最強(qiáng)節(jié)拍的強(qiáng)度與節(jié)拍直方圖中所有節(jié)拍的強(qiáng)度和的比值得到，值域?yàn)?0，1)。將上述的樣本音頻的各個(gè)數(shù)字特征構(gòu)成一個(gè)20維的特征矩陣，并且分別計(jì)算各數(shù)字特征的標(biāo)準(zhǔn)差后，將各數(shù)字特征及其標(biāo)準(zhǔn)差順序組合成一個(gè)40維的向量，并將該40維的向量作為分類特征向量。
步驟105、獲取數(shù)字特征集合。對分類特征向量使用分類器驗(yàn)證分類效果，分類器可以是樸素貝葉斯分類器、BP神經(jīng)網(wǎng)絡(luò)分類器、K近鄰分類器(K分別取3和5)、決策樹分類器和支持向量機(jī)分類器。本實(shí)施例中使用支持向量機(jī)分類器(SVM)。由于每個(gè)數(shù)字特征以及它們的不同組合，對于分類性能的影響是各不相同的；有些特征能夠起到較大的作用，而有些特征的作用則微乎其微，甚至?xí)档头诸惼鞯男阅埽虼诵枰M(jìn)行特征選擇。本實(shí)施例中，設(shè)計(jì)了兩種啟發(fā)式的混合特征選擇方法啟發(fā)式向前搜索(HFS)和啟發(fā)式向后搜索(HBS)。HFS的算法執(zhí)行的步驟如下，實(shí)驗(yàn)中使用SVM作為分類器I)將所有的40維的向量作為初始特征子集FStjpt,并用分類器對數(shù)據(jù)集分類；2)將分類錯(cuò)誤的樣本數(shù)據(jù)從測試集Dte中分離出來，作為錯(cuò)誤數(shù)據(jù)集Dot ；3)計(jì)算各維特征的ReliefF權(quán)值，并將權(quán)值最低的特征從FStjpt中去掉，注意每個(gè)特征至多被剔除一次；4)用FStjpt中所含特征的對應(yīng)數(shù)據(jù)集進(jìn)行分類實(shí)驗(yàn)，如果準(zhǔn)確率提高，則返回步驟2)，否則跳入下一步；5)重新加入剛剛被剔除的特征，并且使加入新特征所需要的搜索次數(shù)增I。如果次數(shù)超過了預(yù)先設(shè)定的閾值，則算法終止；否則返回步驟2)。HBS的算法執(zhí)行的步驟如下，實(shí)驗(yàn)中使用SVM作為分類器I)置最優(yōu)特征子集FStjpt為空，在訓(xùn)練數(shù)據(jù)集Dta上計(jì)算所有特征的ReliefF權(quán)值，然后將權(quán)值最高的一個(gè)特征加入到FStjpt中；2)用FS_中包含的特征數(shù)據(jù)進(jìn)行分類實(shí)驗(yàn)；3)將分類正確的樣本從測試集Dte中分離出來，作為正確的數(shù)據(jù)集Dh ；4)計(jì)算Dh中各維特征的ReliefF權(quán)值，并把權(quán)值最高且不在FS_中的特征加入
到 FStjpt 中；5)對FStjpt中的特征數(shù)據(jù)進(jìn)行分類測試，如果分類準(zhǔn)確率提高，則返回步驟3)，否則進(jìn)入步驟6)；6)剔除剛剛加入的特征，并使加入新特征所需要的搜索次數(shù)增I。如果次數(shù)超過了預(yù)先設(shè)定的閾值，則算法終止；否則返回步驟3)。上面提到的各維特征的ReliefF權(quán)值為使用ReliefF算法時(shí)各維特征的權(quán)值。這樣，通過上述的特征選擇后，可以得到樣本音頻的多個(gè)數(shù)字特征，將它們組成集合作為該樣本音頻的數(shù)字特征集合。步驟106、建立音頻特征數(shù)據(jù)庫。對于屬于某個(gè)音樂類型的各個(gè)樣本音頻，將步驟101中獲得的該樣本音頻的文化特征集合和步驟105中獲得的該樣本音頻的數(shù)字特征集合相關(guān)聯(lián)，例如組成一對向量，并存儲到數(shù)據(jù)庫中，由此建立該音樂類型的音頻特征數(shù)據(jù)庫。本實(shí)施例中，分別建立了古琴類的音頻特征數(shù)據(jù)庫、福建南音類的音頻特征數(shù)據(jù)庫和呼麥類的音頻特征數(shù)據(jù)庫。在本發(fā)明的其它實(shí)施例中，可以用類似的步驟建立其它音樂類型的音頻特征數(shù)據(jù)庫，例如對于中國民樂還可以建立嗩吶、笛子、古箏等各種音樂類型的音頻特征數(shù)據(jù)庫，對于西方音樂可以建立鋼琴、小提琴、長笛、歌劇等各種音樂類型的音頻特征數(shù)據(jù)庫。圖2顯示了使用本發(fā)明的歷史音頻修復(fù)的音頻特征提取及使用的方法獲得待修復(fù)音頻的數(shù)字特征集合以用于修復(fù)的流程，包括如下步驟步驟201、獲取文化特征集合。在使用本發(fā)明的歷史音頻修復(fù)的音頻特征提取及使用的方法獲取某一待修復(fù)音頻的數(shù)字特征集合前，首先需要確定該待修復(fù)音頻的音樂類型，然后確定該待修復(fù)音頻關(guān)于該音樂類型的各個(gè)文化特征的值。具體方法與步驟101中描述的確定樣本音頻的音樂類型及確定該樣本音頻關(guān)于該音樂類型的各個(gè)文化特征的值的方法是一樣的。例如，對于待修復(fù)音頻為1930年錄制在蟲膠唱片上的古琴曲《漁歌》，首先確定該待修復(fù)音頻的音樂類型為古琴類，然后確定其關(guān)于古琴類的各個(gè)文化特征的值分別是琴派=浙派，風(fēng)格=優(yōu)美，載體=蟲膠唱片，年代=1930年。因此，可以獲取該待修復(fù)音頻的文化特征集合為{浙派、優(yōu)美、蟲膠唱片、1930年}。步驟202、檢索音頻特征數(shù)據(jù)庫。將步驟101中獲得的待修復(fù)音頻的文化特征集合中的元素作為關(guān)鍵詞，在該待修復(fù)音頻所屬音樂類型的音頻特征數(shù)據(jù)庫中檢索，使用模糊匹配，獲得與待修復(fù)音頻的文化特征集合匹配度最高的樣本音頻的文化特征集合。匹配度是指使用模糊匹配獲得的待修復(fù)音頻的文化特征集合與樣本音頻的文化特征集合重合的元素個(gè)數(shù)與待修復(fù)音頻的文化特征集合的元素個(gè)數(shù)之比。例如對于待修復(fù)音頻為1930年錄制在蟲膠唱片上的古琴曲《漁歌》，它的文化特征集合為{浙派、優(yōu)美、蟲膠唱片、1930年}。該文化特征集合的元素為浙派、優(yōu)美、蟲膠唱片和1930年，個(gè)數(shù)為4個(gè)。將這些元素作為關(guān)鍵詞，使用模糊匹配算法在古琴類的音頻特征數(shù)據(jù)庫中檢索，得到檢索結(jié)果如下I、{浙派、優(yōu)美、蟲膠唱片、1930年}；2、{虞山派、淡遠(yuǎn)、蟲膠唱片、1930年}；3、{浙派、優(yōu)美、聚乙烯材質(zhì)唱片、1950年}；4、{九嶷派、蒼勁、蟲膠唱片、1935年}。這樣可以分別計(jì)算出該待修復(fù)音頻的文化特征集合與上述4個(gè)檢索結(jié)果的音頻的文化特征集合之間的匹配度。對于檢索結(jié)果1，匹配度為100% ;對于檢索結(jié)果2，匹配度為50% ;對于檢索結(jié)果3，匹配度為50% ;對于檢索結(jié)果4，匹配度為25%。可以看出，與該待修復(fù)音頻的文化特征集合匹配度最高的是檢索結(jié)果I的音頻的文化特征集合。
步驟203、獲取數(shù)字特征集合。從待修復(fù)音頻所屬的音樂類型的音頻特征數(shù)據(jù)庫中獲取與步驟201中獲得的樣本音頻的文化特征集合相關(guān)聯(lián)的數(shù)字特征集合，并將該數(shù)字特征集合作為待修復(fù)音頻的數(shù)字特征集合。步驟204、導(dǎo)入音頻修復(fù)。把步驟203中獲得的待修復(fù)音頻的數(shù)字特征集合從該待修復(fù)音頻所屬的音樂類型的音頻特征數(shù)據(jù)庫中導(dǎo)出，發(fā)送到音頻修復(fù)軟件或程序，以參與在對該待修復(fù)音頻進(jìn)行修復(fù)時(shí)修復(fù)參數(shù)的設(shè)定。圖3給出了歷史音頻修復(fù)的音頻特征提取及使用的方法應(yīng)用于中國民族民間音樂的歷史音頻的修復(fù)的比較實(shí)驗(yàn)的結(jié)果，其中A組的音頻是使用了本發(fā)明進(jìn)行修復(fù)的修復(fù)后的音頻，B、C和D組的音頻是未使用本發(fā)明進(jìn)行修復(fù)的修復(fù)后的音頻。實(shí)驗(yàn)中，每組采用·了 10個(gè)音頻，由音樂專家組成員關(guān)于各音頻的信噪比、藝術(shù)價(jià)值、音色音質(zhì)和動態(tài)改變四個(gè)方面進(jìn)行雙盲品評并打分。從結(jié)果可以看出，使用了本發(fā)明進(jìn)行修復(fù)的修復(fù)后的音頻在藝術(shù)價(jià)值、音色音質(zhì)和動態(tài)改變方面的表現(xiàn)均更為出色。即使用了本發(fā)明進(jìn)行修復(fù)的修復(fù)后的音頻更符合其文化特征，從而保證了修復(fù)的質(zhì)量。以上詳細(xì)描述了本發(fā)明的較佳具體實(shí)施例。應(yīng)當(dāng)理解，本領(lǐng)域的普通技術(shù)人員無需創(chuàng)造性勞動就可以根據(jù)本發(fā)明的構(gòu)思做出諸多修改和變化。因此，凡本技術(shù)領(lǐng)域的技術(shù)人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實(shí)驗(yàn)可以得到的技術(shù)方案，皆應(yīng)在由權(quán)利要求書所確定的保護(hù)范圍內(nèi)。
權(quán)利要求
1.一種音頻特征提取及使用的方法，用于歷史音頻的修復(fù)，其特征在于，包括步驟確定樣本音頻的音樂類型，確定所述樣本音頻關(guān)于所述音樂類型的各個(gè)文化特征的值作為所述樣本音頻的文化特征集合；將所述樣本音頻轉(zhuǎn)換成WAV格式的數(shù)字音頻信號，并對所述數(shù)字音頻信號進(jìn)行預(yù)處理；提取經(jīng)過所述預(yù)處理的所述數(shù)字音頻信號的數(shù)字特征，使用分類器對所述數(shù)字特征進(jìn)行特征選擇和分類，獲得所述樣本音頻的數(shù)字特征集合；關(guān)聯(lián)所述樣本音頻的所述文化特征集合和所述數(shù)字特征集合以建立所述音樂類型的音頻特征數(shù)據(jù)庫；確定待修復(fù)音頻的音樂類型，確定所述待修復(fù)音頻關(guān)于所述音樂類型中的各個(gè)文化特征的值作為所述待修復(fù)音頻的文化特征集合，在所述音樂類型的音頻特征數(shù)據(jù)庫中檢索所述待修復(fù)音頻的文化特征集合，獲得與所述待修復(fù)音頻的文化特征集合匹配度最高的所述樣本音頻的所述文化特征集合，使用與所述樣本音頻的所述文化特征集合關(guān)聯(lián)的所述數(shù)字特征集合作為所述待修復(fù)音頻的數(shù)字特征集合；將所述待修復(fù)音頻的所述數(shù)字特征集合導(dǎo)出以用于對所述待修復(fù)音頻的修復(fù)。
2.如權(quán)利要求I所述的音頻特征提取及使用的方法，其中所述樣本音頻和所述待修復(fù)音頻皆為民樂的音頻，所述音樂類型包括古琴類、福建南音類和呼麥類。
3.如權(quán)利要求2所述的音頻特征提取及使用的方法，其中所述古琴類的文化特征包括琴派、風(fēng)格、載體和年代；所述福建南音類的文化特征包括曲牌、樂器、載體和年代；所述呼麥類的文化特征包括發(fā)聲部位、載體和年代。
4.如權(quán)利要求3所述的音頻特征提取及使用的方法，其中所述樣本音頻關(guān)于所述音樂類型的所述文化特征的值是描述項(xiàng)。
5.如權(quán)利要求4所述的音頻特征提取及使用的方法，其中所述預(yù)處理包括統(tǒng)一采樣率、聲道合并以及加窗分幀，經(jīng)過所述統(tǒng)一采樣率的所述數(shù)字音頻信號的采樣率為16kHz。
6.如權(quán)利要求5所述的音頻特征提取及使用的方法，其中在對所述數(shù)字音頻信號進(jìn)行所述加窗分巾貞時(shí)，使用漢明窗作為窗函數(shù)，巾貞移為1/2,窗長為512個(gè)米樣點(diǎn)的長度。
7.如權(quán)利要求I或3所述的音頻特征提取及使用的方法，其中所述數(shù)字特征包括所述樣本音頻的所述數(shù)字音頻信號的音調(diào)特征、響度特征、音色特征和節(jié)奏特征；所述音調(diào)特征包括所述數(shù)字音頻信號的譜峰值；所述響度特征包括所述數(shù)字音頻信號的低能量幀的比率；所述音色特征包括所述數(shù)字音頻信號的短時(shí)過零率、頻譜質(zhì)心和MFCC ;所述節(jié)奏特征包括所述數(shù)字音頻信號的節(jié)拍強(qiáng)度和、最強(qiáng)節(jié)拍和最強(qiáng)節(jié)拍的強(qiáng)度。
8.如權(quán)利要求I或3所述的音頻特征提取及使用的方法，其中所述分類器為支持向量機(jī)分類器。
9.如權(quán)利要求I或3所述的音頻特征提取及使用的方法，其中在對所述數(shù)字音頻信號的所述數(shù)字特征進(jìn)行所述特征選擇時(shí)采用的算法是啟發(fā)式向前搜索和啟發(fā)式向后搜索。
10.如權(quán)利要求I或3所述的音頻特征提取及使用的方法，其中所述匹配度是使用模糊匹配獲得的所述待修復(fù)音頻的所述文化特征集合與所述樣本音頻的所述文化特征集合重合的元素個(gè)數(shù)與所述待修復(fù)音頻的所述文化特征集合的元素個(gè)數(shù)之比。
全文摘要
本發(fā)明公開了一種音頻特征提取及使用的方法，尤其適用于中國民族民間音樂的修復(fù)，包括確定樣本音頻的音樂類型以及關(guān)于該音樂類型的各文化特征的值作為其文化特征集合；提取樣本音頻的數(shù)字音頻信號的數(shù)字特征并進(jìn)行特征選擇和分類，獲得樣本音頻的數(shù)字特征集合；關(guān)聯(lián)文化特征集合和數(shù)字特征集合以建立音頻特征數(shù)據(jù)庫；確定待修復(fù)音頻的音樂類型以及關(guān)于該音樂類型中的各文化特征的值作為其文化特征集合，在音頻特征數(shù)據(jù)庫中檢索獲得與其匹配度最高的文化特征集合，提取與該文化特征集合關(guān)聯(lián)的數(shù)字特征集合作為該待修復(fù)音頻的數(shù)字特征集合并將其導(dǎo)出以用于對待修復(fù)音頻的修復(fù)。本發(fā)明實(shí)現(xiàn)了在音頻修復(fù)中引入音頻的文化特征，保證了修復(fù)的質(zhì)量。
文檔編號G06F17/30GK102842310SQ20121028497
公開日2012年12月26日申請日期2012年8月10日優(yōu)先權(quán)日2012年8月10日
發(fā)明者王勁松, 李柏巖, 宋輝, 黃鋼, 袁征申請人:上海協(xié)言科學(xué)技術(shù)服務(wù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王勁松;李柏巖;宋輝;黃鋼;袁征
技術(shù)所有人：上海協(xié)言科學(xué)技術(shù)服務(wù)有限公司
我是此專利的發(fā)明人

上一篇：身份認(rèn)證裝置及其方法
上一篇：共享在線社交網(wǎng)絡(luò)中的信息的系統(tǒng)和方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

音頻特征提取相關(guān)技術(shù)

音頻特征相關(guān)技術(shù)

視頻提取音頻相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

中國民族民間音樂音頻修復(fù)的音頻特征提取及使用的方法