一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法

文檔序號(hào)：2828107閱讀：532來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法
【專利摘要】本發(fā)明涉及一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法：先利用深度信念網(wǎng)絡(luò)(DBN)抽取出有利于伴奏聲和歌聲的分離的高層抽象特征，緊接著利用Back-Propagation 神經(jīng)網(wǎng)絡(luò)分離出伴奏聲和歌聲的特征，最后利用重疊相加法得到時(shí)域的伴奏聲和歌聲信號(hào)。該方法將待分離的混合音樂(lè)分成很短的片段，從而彌補(bǔ)DBN在處理不同時(shí)間尺度音樂(lè)信號(hào)上的缺陷，同時(shí)利用了DBN的快速抽取高層抽象特征能力抽取出有利于分離出人聲和伴奏聲的高層抽象特征。最后考慮到由于單通道音樂(lè)信號(hào)是屬于高維數(shù)據(jù)，在處理高維輸入和高維輸出問(wèn)題上神經(jīng)網(wǎng)絡(luò)有著其特有的處理能力，所以選擇使用BP神經(jīng)網(wǎng)絡(luò)作為最后的人聲和伴奏聲的分離器。該方法簡(jiǎn)單靈活，具有較強(qiáng)的實(shí)用性。
【專利說(shuō)明】一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及單通道音樂(lè)的伴奏聲和人聲分離領(lǐng)域，特別是一種基于深度信念網(wǎng)絡(luò) 的單通道音樂(lè)的歌聲分離方法。

【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)信號(hào)處理技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，單通道音樂(lè)的歌聲分離越來(lái) 越受人們重視。單通道音樂(lè)人聲分離技術(shù)在很多系統(tǒng)都會(huì)用到，如KTV系統(tǒng)中音樂(lè)伴奏的獲得；音樂(lè)檢索系統(tǒng)中根據(jù)音樂(lè)內(nèi)容來(lái)檢索的系統(tǒng)特別是根據(jù)歌唱者的聲音特質(zhì)檢索音樂(lè)、音樂(lè)推薦系統(tǒng)中利用歌唱者聲音特質(zhì)來(lái)推薦音樂(lè)等等。不管是KTV系統(tǒng)中的伴奏獲得、還是基于歌唱者聲音的音樂(lè)檢索系統(tǒng)、抑或是基于歌唱者聲音的音樂(lè)推薦系統(tǒng)；為了保證這些系統(tǒng)有較好的性能，必須得到較為純凈的伴奏聲或者歌聲。而現(xiàn)實(shí)中人們能夠獲得的音樂(lè)信號(hào)大部分是單通道音樂(lè)信號(hào)，所以單通道音樂(lè)人聲分離技術(shù)在這些系統(tǒng)中能夠得到廣泛的應(yīng)用。然而，現(xiàn)在針對(duì)單通道音樂(lè)的歌聲分離技術(shù)還遠(yuǎn)遠(yuǎn)不能達(dá)到人耳系統(tǒng)的性能，因此對(duì)于該領(lǐng)域的研究還有很大的步伐要走。
[0003] 由于單通道音樂(lè)信號(hào)是極度欠定的，所以在對(duì)其進(jìn)行歌聲分離時(shí)可用的信息非常少，這使得針對(duì)單通道音樂(lè)的歌聲分離具有很大的挑戰(zhàn)性。盡管，針對(duì)單通道語(yǔ)音的分離已經(jīng)有很大的成功，但由于歌聲的特殊性，很多單通道語(yǔ)音分離技術(shù)并不能很好的應(yīng)用到單通道音樂(lè)歌聲分離中。直到2007年Y. Li才首次提出利用人聲的音高周期進(jìn)行單通道音樂(lè) 的歌聲分離。此后，基于譜分解的方法也相繼被提出，如基于非負(fù)矩陣分解、稀疏矩陣分解等等。這些方法都取得了一定的成功，但都不能取得如愿的效果。如基于音高周期的方法，其本身音高周期檢測(cè)就是一個(gè)學(xué)術(shù)難題；而基于譜分解的方法又有太多的假設(shè)前提。
[0004] 2006年由Hinton等人提出的針對(duì)深度信念網(wǎng)絡(luò)（DBN)的快速學(xué)習(xí)方法，使得深度神經(jīng)網(wǎng)絡(luò)重新引起科研工作者的關(guān)注。由于深度神經(jīng)網(wǎng)絡(luò)以其特有的強(qiáng)大特征抽取能力，使得其在并在圖像處理和語(yǔ)音處理這兩個(gè)領(lǐng)域率先得到應(yīng)用，并且取得了很好的效果。但由于DBN并不是專門用來(lái)解決時(shí)間序列問(wèn)題的，所以本專利同時(shí)提出了針對(duì)該問(wèn)題的DBN 輸入數(shù)據(jù)構(gòu)造方法。本專利基于對(duì)單通道音樂(lè)信號(hào)和深度學(xué)習(xí)的認(rèn)識(shí)，提出了一種新的單通道音樂(lè)歌聲分離方法，特別是一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法。

【發(fā)明內(nèi)容】

[0005] 有鑒于此，本發(fā)明的目的是在于提供一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法，以實(shí)現(xiàn)針對(duì)單通道音樂(lè)特性的歌聲分離問(wèn)題。
[0006] 本發(fā)明采用以下方案實(shí)現(xiàn)：一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法，利用深度信念網(wǎng)絡(luò)（DBN)抽取出有利于伴奏聲和歌聲的分離的高層抽象特征，緊接著利用Back-Propagation神經(jīng)網(wǎng)絡(luò)（BP神經(jīng)網(wǎng)絡(luò)）分離出伴奏聲和歌聲特征，最后利用重疊相加法得到伴奏聲和歌聲。具體包括以下步驟： Sl :利用傅里葉變換從待分離的單通道音樂(lè)片段獲得特征； 52 :將從步驟SI得到的特征作為已經(jīng)訓(xùn)練得到的DBN特征抽取模型的輸入，利用所述 DBN特征抽取模型抽取出有利于分離伴奏聲和歌聲的高層抽象特征；其中所述DBN為深度信念網(wǎng)絡(luò)； 53 :利用已訓(xùn)練得到的BP神經(jīng)網(wǎng)絡(luò)分離模型分離出伴奏聲和歌聲特征；由BP神經(jīng)網(wǎng)絡(luò)分離模型輸出的伴奏聲和歌聲的特征得到伴奏聲和歌聲；其中BP神經(jīng)網(wǎng)絡(luò)為 Back-Propagation 神經(jīng)網(wǎng)絡(luò)。
[0007] 進(jìn)一步地，所述步驟Sl中的特征為通過(guò)傅里葉變換得到的長(zhǎng)度為 I的單通道音樂(lè)片段歸一化后的幅度譜；其中設(shè)輸入為則:c是大小為/氣而的行向量，其中Fs是所述音樂(lè)片段的采樣頻率。
[0008] 進(jìn)一步地，所述的I可取16ms至512ms。
[0009] 進(jìn)一步地，所述DBN由若干個(gè)RBM堆疊而成，其中每個(gè)RBM的輸入為上一個(gè)RBM的輸出；所述的RBM為受限玻爾茲曼機(jī)。特別的，具體節(jié)點(diǎn)數(shù)設(shè)置為：所述的RBM由一層可見(jiàn) 層V和一層隱藏層A構(gòu)成；其中所述的可見(jiàn)層為每個(gè)RBM的輸入層，第一個(gè)RBM的可見(jiàn)層節(jié) 點(diǎn)數(shù)為，其余的RBM可見(jiàn)層節(jié)點(diǎn)數(shù)均為;所述的隱藏層為每個(gè)RBM的輸出，每個(gè)RBM的輸出作為下一個(gè)RBM的輸入，所有RBM的隱藏層節(jié)點(diǎn)數(shù)均為。
[0010] 具體的，所述步驟S2中已經(jīng)訓(xùn)練得到的DBN特征抽取模型的訓(xùn)練過(guò)程包括以下步驟：步驟S21 :構(gòu)建訓(xùn)練樣本(U),其中JT表示所有的訓(xùn)練樣本的輸入特征，Γ表示純凈的伴奏聲和純凈的歌聲歸一化后的振幅譜；步驟S22 :無(wú)監(jiān)督貪心逐層訓(xùn)練DBN ;設(shè)所述的DBN由《個(gè)受限玻爾茲曼機(jī)RBM堆疊而成，則整個(gè)DBN共有《 + 1層；其中對(duì)第#1)層訓(xùn)練過(guò)程為：由第1-1層和第?層構(gòu)成的 RBM通過(guò)Contractive Divergence算法訓(xùn)練；其中第1層為輸入層；步驟S23 :對(duì)DBN進(jìn)行有監(jiān)督微調(diào)；將步驟S22中通過(guò)無(wú)監(jiān)督貪心訓(xùn)練的DBN翻折，得至握數(shù)為2? + 1的自動(dòng)編碼機(jī)；利用BP算法對(duì)該編碼機(jī)進(jìn)行訓(xùn)練，用以微調(diào)DBN。
[0011] 具體地，所述的步驟S21具體包括以下步驟：步驟S211 :構(gòu)建;給定單通道音樂(lè)混合信號(hào)i = 1,2…其中《為所述給定單通道音樂(lè)混合信號(hào)的個(gè)數(shù)，其中每個(gè)信號(hào)的長(zhǎng)度可以不一樣；使用長(zhǎng)度為，偏移量為1/2的窗函數(shù)，對(duì)每個(gè)信號(hào)進(jìn)行分割，得到

【權(quán)利要求】
1. 一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法，其特征在于包括以下步驟： 51 :利用傅里葉變換從待分離的單通道音樂(lè)片段獲得特征； 52 :將從步驟Sl得到的特征作為已經(jīng)訓(xùn)練得到的DBN特征抽取模型的輸入，利用所述 DBN特征抽取模型抽取出有利于分離伴奏聲和歌聲的高層抽象特征；其中所述DBN為深度信念網(wǎng)絡(luò)； 53 :將步驟S2中得到的有利于分離伴奏聲和歌聲的高層抽象特征作為已訓(xùn)練得到的 BP神經(jīng)網(wǎng)絡(luò)分離模型的輸入，利用所述已訓(xùn)練得到的BP神經(jīng)網(wǎng)絡(luò)分離模型分離出伴奏聲和歌聲特征；由BP神經(jīng)網(wǎng)絡(luò)分離模型輸出的伴奏聲和歌聲的特征得到伴奏聲和歌聲；其中 BP神經(jīng)網(wǎng)絡(luò)為Back-Propagation神經(jīng)網(wǎng)絡(luò)。
2. 根據(jù)權(quán)利要求1所述的一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法，其特征在于：所述步驟S1中的特征為通過(guò)傅里葉變換得到的長(zhǎng)度為 I的單通道音樂(lè)片段歸一化后的幅度譜，其中1'取值范圍為32ms-512ms;其中設(shè)輸入為X，則X是大小為的行向量，其中Fs是所述音樂(lè)片段的采樣頻率。
3. 根據(jù)權(quán)利要求1所述的一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法，所述 DBN由若干個(gè)RBM堆疊而成，其中每個(gè)RBM的輸入為上一個(gè)RBM的輸出，所述的RBM為受限玻爾茲曼機(jī)；其特征在于：具體節(jié)點(diǎn)數(shù)設(shè)置為：所述的RBM由一層可見(jiàn)層V和一層隱藏層A 構(gòu)成；其中所述的可見(jiàn)層為每個(gè)RBM的輸入層，第一個(gè)RBM的可見(jiàn)層節(jié)點(diǎn)數(shù)為/Ms，其余的 RBM可見(jiàn)層節(jié)點(diǎn)數(shù)均為Pi%" ；所述的隱藏層為每個(gè)RBM的輸出，每個(gè)RBM的輸出作為下一個(gè)RBM的輸入，所有RBM的隱藏層節(jié)點(diǎn)數(shù)均為。
4. 根據(jù)權(quán)利要求1所述的一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法，其特在于：所述步驟S2中已經(jīng)訓(xùn)練得到的DBN特征抽取模型的訓(xùn)練過(guò)程包括以下步驟：步驟S21:構(gòu)建訓(xùn)練樣本(U),其中X表示所有的訓(xùn)練樣本的輸入特征，;^表示純凈的伴奏聲和純凈的歌聲歸一化后的振幅譜；步驟S22 :無(wú)監(jiān)督貪心逐層訓(xùn)練DBN;設(shè)所述的DBN由《個(gè)受限玻爾茲曼機(jī)RBM堆疊而成，則整個(gè)DBN共有《 + 1層；其中對(duì)第?(ι#1)層訓(xùn)練過(guò)程為：由第卜1層和第I層構(gòu)成的 RBM通過(guò)ContractiveDivergence算法訓(xùn)練；其中第1層為輸入層；步驟S23 :對(duì)DBN進(jìn)行有監(jiān)督微調(diào)；將步驟S22中通過(guò)無(wú)監(jiān)督貪心訓(xùn)練的DBN翻折，得至握數(shù)為2? + 1的自動(dòng)編碼機(jī)；利用BP算法對(duì)該編碼機(jī)進(jìn)行訓(xùn)練，用以微調(diào)DBN。
5. 根據(jù)權(quán)利要求4所述的一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法，其特征在于：所述的步驟S21具體包括以下步驟：步驟S211 :構(gòu)建;給定單通道音樂(lè)混合信號(hào)= 其中《為所述給定單通道音樂(lè)混合信號(hào)的個(gè)數(shù)；使用長(zhǎng)度為M扁移量為//2的窗函數(shù)，對(duì)每個(gè)信號(hào)進(jìn)行分割，得到^^+1個(gè)長(zhǎng)度為/*&的小片段1，其中％為所述給定單通道音樂(lè)混合信號(hào) Si的長(zhǎng)度，為所述給定單通道音樂(lè)混合信號(hào)Si的時(shí)長(zhǎng)；對(duì)所述小片段1進(jìn)行傅 2(Μ·+1) 里葉變換得到振幅譜，將振幅譜歸一化，構(gòu)建出大小為的Z，其中『=Σ(-\- + 1) ! * ,c=i*Fs；步驟S212 :構(gòu)建y;給定伴奏信號(hào)_2^_巧和歌聲信號(hào)swgisgj.i= 1,2…《,其中；^ 為信號(hào)的個(gè)數(shù)，所述給定伴奏信號(hào)和歌聲信號(hào)smgmgj4的長(zhǎng)度均與所述給定單通道音樂(lè)混合信號(hào)-樣；使用長(zhǎng)度為/,偏移量為i/2的窗函數(shù)將所述伴奏信號(hào) _sc_Si和歌聲信號(hào)smgmg^st額分別分割成f+1個(gè)長(zhǎng)度為|*Fs的小片段2 ;其中 Fi 為所述給定單通道音樂(lè)混合信號(hào)的長(zhǎng)度，^為所述給定單通道音樂(lè)混合信號(hào)^的時(shí)長(zhǎng)；對(duì)所述小片段2進(jìn)行傅里葉變換得到振幅譜，將振幅譜歸一化；將同一個(gè)窗口分割出來(lái)的伴奏信號(hào)和歌聲信號(hào)歸一化后的振幅譜連接成大小為Ix(SW3t^s)的 &，其中前/*i?s大小的巧·為所述伴奏信號(hào)的歸一化振幅譜，后大小的&為所述歌聲信號(hào)的歸一化振幅譜，進(jìn)而得到大小為rx(2*c)的:T，其中^Σ(^^ + 1)J=浐泠。 i *
6.根據(jù)權(quán)利要求4所述的一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法，其特征在于：所述步驟S3具體包括以下步驟：步驟S31 :獲得訓(xùn)練樣本(Z',Γ);將所述訓(xùn)練樣本(2'Γ)中的z通過(guò)已經(jīng)訓(xùn)練好的DBN進(jìn)行處理,得到大小為rx(2*c)的f,其中/" =Σ(-一-^ + 1) ,c= /*/? ;獲得訓(xùn)練樣 I * 本(Zj)，其中所述F與所述的訓(xùn)練樣本(Ζ,Γ)中的F相同；步驟S32 :有監(jiān)督訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)；將步驟S31中所述的允作為BP神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)，將步驟S31中所述的Γ作為監(jiān)督標(biāo)簽數(shù)據(jù)；步驟S23 :利用訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行人聲分離；將步驟S2中得到的高層抽象特征作為BP神經(jīng)網(wǎng)絡(luò)的輸入，由BP神經(jīng)網(wǎng)絡(luò)得到人聲和伴奏聲的特征，并將所述的人聲和伴奏聲的特征作為BP神經(jīng)網(wǎng)絡(luò)的輸出。
【文檔編號(hào)】G10L15/02GK104464727SQ201410755098
【公開(kāi)日】2015年3月25日申請(qǐng)日期:2014年12月11日優(yōu)先權(quán)日:2014年12月11日
【發(fā)明者】余春艷, 林明安, 滕保強(qiáng), 張棟, 劉靈輝, 葉東毅申請(qǐng)人:福州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余春艷;林明安;滕保強(qiáng);張棟;劉靈輝;葉東毅;
技術(shù)所有人：福州大學(xué);
我是此專利的發(fā)明人

上一篇：一種納米纖維泡沫基吸音材料的制備方法
上一篇：一種基于機(jī)器視覺(jué)的吉他琴弦音色檢測(cè)方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

單通道盲源分離相關(guān)技術(shù)

深度信念網(wǎng)絡(luò)相關(guān)技術(shù)

dbn深度信念網(wǎng)絡(luò)相關(guān)技術(shù)

卷積深度信念網(wǎng)絡(luò)相關(guān)技術(shù)

深度信念網(wǎng)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于深度信念網(wǎng)絡(luò)的單通道音樂(lè)的歌聲分離方法