亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于自適應高斯聚類的非平行文本條件下的語音轉換方法與流程

文檔序號:12307385閱讀:537來源:國知局
基于自適應高斯聚類的非平行文本條件下的語音轉換方法與流程

本發(fā)明涉及一種語音轉換技術,尤其是一種非平行文本條件下的語音轉換方法,屬于語音信號處理技術領域。



背景技術:

語音轉換是語音信號處理領域近年來新興的研究分支,是在語音分析、識別和合成的研究基礎上進行的,同時在此基礎上發(fā)展起來的。

語音轉換的目標是改變源說話人的語音個性特征,使之具有目標說話人的語音個性特征,也就是使一個人說的語音經過轉換后聽起來像是另一個人說的語音,同時保留語義。

大多數的語音轉換方法,尤其是基于gmm的語音轉換方法,要求用于訓練的語料庫是平行文本的,即源說話人和目標說話人需要發(fā)出語音內容、語音時長相同的句子,并且發(fā)音節(jié)奏和情緒等盡量一致。然而在語音轉換的實際應用中,獲取大量的平行語料殊為不易,甚至無法滿足,此外訓練時語音特征參數矢量對齊的精確度也成為語音轉換系統(tǒng)性能的一種制約。無論從語音轉換系統(tǒng)的通用性還是實用性來考慮,非平行文本條件下語音轉換方法的研究都具有極大的實際意義和應用價值。

目前非平行文本條件下的語音轉換方法主要有兩種,基于語音聚類的方法和基于參數自適應的方法。基于語音聚類的方法,是通過對語音幀之間距離的度量或者在音素信息的指導下選擇相對應的語音單元進行轉換,其本質是一定條件下將非平行文本轉化為平行文本進行處理。該方法原理簡單,但要對語音文本內容進行預提取,預提取的結果會直接影響語音的轉換質量?;趨底赃m應的方法,是采用語音識別中的說話人歸一化或自適應方法對轉換模型的參數進行處理,其本質是使得預先建立的模型向基于目標說話人的模型進行轉化。該方法能合理地利用預存儲的說話人信息,但通常自適應過程會引起頻譜的平滑,導致轉換語音中的說話人個性信息不強。



技術實現要素:

本發(fā)明所要解決的技術問題是:提供一種在非平行文本條件下,能夠根據目標說話人的不同,而自適應地確定gmm混合度的語音轉換方法,達到增強轉換語音中說話人個性特征的同時改善轉換語音的質量。

本發(fā)明為解決上述技術問題采用以下技術方案:

本發(fā)明提出一種基于自適應高斯聚類的非平行文本條件下的語音轉換方法,包括訓練階段和轉換階段,其中所述訓練階段包括如下步驟:

步驟1,輸入源說話人和目標說話人的非平行訓練語料;

步驟2,使用ahocoder語音分析模型分別提取源說話人的非平行訓練語料的mfcc特征參數x、目標說話人的非平行訓練語料的mfcc特征參數y,以及源語音基頻logf0x和目標語音基頻logf0y;

步驟3,對步驟2中的mfcc特征參數x、y,進行單元挑選和聲道長度歸一化相結合的語音特征參數對齊和動態(tài)時間規(guī)整,從而將非平行語料轉變成平行語料;

步驟4,使用期望最大化em算法進行自適應混合高斯模型agmm訓練,agmm訓練結束,得到后驗條件概率矩陣p(x|λ),并保存agmm參數λ;

步驟5,利用步驟3得到的源語音特征參數x和目標語音特征參數y,使用步驟4中的后驗條件概率矩陣p(x|λ)進行雙線性頻率彎折blfw+幅度調節(jié)as訓練,得到頻率彎折因子α(x,λ)和幅度調節(jié)因子s(x,λ),從而構建blfw+as轉換函數;使用對數基頻的均值和方差建立源語音基頻logf0x和目標語音基頻logf0y之間的基頻轉換函數;

所述轉換階段包括如下步驟:

步驟6,輸入待轉換的源說話人語音;

步驟7,使用ahocoder語音分析模型提取源說話人語音的mfcc特征參數x′和對數基頻logf0x′;

步驟8,使用步驟4中agmm訓練時得到的參數λ,求取后驗條件概率矩陣p′(x|λ);

步驟9,使用步驟5中得到的blfw+as轉換函數,求得轉換后的mfcc特征參數y′;

步驟10,使用步驟5得到的基頻轉換函數由對數基頻logf0x′得到轉換后的對數基頻logf0y′;

步驟11,使用ahodecoder語音合成模型將轉換后的mfcc特征參數y′和對數基頻logf0y′合成得到轉換后的語音。

進一步的,本發(fā)明所提出的語音轉換方法,步驟3具體過程如下:

3-1)采用雙線性頻率彎折方法對源語音mfcc特征參數進行聲道長度歸一化處理;

3-2)對于給定的n個源語音mfcc特征參數矢量{xk},通過公式(1)來動態(tài)地尋找n個目標語音特征參數矢量{yk},使得距離耗費函數值c({yk})最??;

c({yk})=c1({yk})+c2({yk})(1)

其中,c1({yk})和c2({yk})分別由下式表示:

其中,d(xk,yk)函數表示源語音和目標語音特征參數矢量之間的頻譜距離,參數γ表示在特征參數幀對齊的準確度和幀間連續(xù)性之間的平衡系數,且有0≤γ≤1;c1({yk})表示的是源語音特征參數矢量和目標語音特征參數矢量之間的頻譜距離耗費函數,c2({yk})表示的是經單元挑選的目標語音特征參數矢量之間頻譜距離耗費函數;

3-3)通過對公式(1)進行多元線性回歸分析,得到與源語音特征參數矢量對齊的目標語音特征參數序列集合即:

通過上述步驟,將非平行的mfcc特征參數x、y轉變?yōu)槠叫械恼Z料。

進一步的,本發(fā)明所提出的語音轉換方法,對于公式(4)的求解,使用維特比搜索方法來優(yōu)化算法的執(zhí)行效率。

進一步的,本發(fā)明所提出的語音轉換方法,步驟4的訓練過程如下:

4-1)設定agmm初始混合數m,高斯分量權重系數閾值t1,t2,特征參數矢量之間歐氏距離閾值d和協(xié)方差閾值σ;

4-2)使用k-均值迭代算法得到em訓練的初始值;

4-3)使用em算法進行迭代訓練;將高斯混合模型gmm表示如下:

其中,x為p維的語音特征參數矢量,p=39;p(wi)表示各高斯分量的權重系數,且有m為高斯分量的個數,n(x,μi,σi)表示高斯分量的p維聯合高斯概率分布,表示如下:

其中μi為均值矢量,∑i為協(xié)方差矩陣,λ={p(wi),μi,σi},λ是gmm模型的模型參數,對λ的估算通過最大似然估計法實現,對于語音特征參數矢量集合x={xn,n=1,2,...n}有:

此時:

λ=argλmax(p(x|λ))(8)

使用em算法求解公式(8),隨著em計算過程中迭代條件滿足p(x|λk)≥p(x|λk-1),

k是迭代的次數,直至模型參數λ,迭代過程中高斯分量權重系數p(wi)、均值向量μi、協(xié)方差矩陣σi的迭代公式如下:

4-4)若訓練得到的模型中某一高斯分量n(p(wi),μi,∑i)權重系數小于t1,并且與其最鄰近分量n(p(wj),μj,σi)之間的歐氏距離小于閾值d,則對其進行合并處理:

此時,高斯分量個數變?yōu)閙-1,返回步驟4-3)進行下一次訓練,若滿足合并條件的高斯分量有多個,則選擇最小距離的高斯分量進行合并;

4-5)若訓練得到的模型中某一高斯分量n(p(wi),μi,∑i)權重系數大于t2,并且協(xié)方差矩陣中有至少一維的方差大于σ,則認為該高斯分量包含過量信息,應將其分裂處理:

其中e為全1的列向量,n用于調節(jié)高斯分布,經過分裂后高斯分量個數變?yōu)閙+1,如果滿足分裂條件的高斯分量有多個,則選取權重系數最大的分量進行分裂,返回步驟4-3)進行下一次訓練;

4-6)agmm訓練結束,得到后驗條件概率矩陣p(x|λ),保存λ。

進一步的,本發(fā)明所提出的語音轉換方法,步驟5中構建的blfw+as轉換函數,表示如下:

f(x)=wα(x,λ)x+s(x,λ)(15)

其中,m為步驟4中混合高斯模型的高斯分量的個數,α(x,λ)表示頻率彎折因子,s(x,λ)表示幅度調節(jié)因子。

進一步的,本發(fā)明所提出的語音轉換方法,步驟5中建立源語音基音頻率和目標語音基音頻率之間的轉換關系:

其中μ,σ2分別表示對數基音頻率logf0的均值和方差。

本發(fā)明采用以上技術方案與現有技術相比,具有以下技術效果:

1、本發(fā)明實現了非平行文本條件下的語音轉換,解決了平行語料不易獲取的問題,提高了語音轉換系統(tǒng)的通用性和實用性。

2、本發(fā)明使用agmm和blfw+as相結合來實現語音轉換系統(tǒng),該系統(tǒng)能夠根據不同說話人的語音特征參數分布,自適應調節(jié)gmm的分類數,在增強語音個性相似度的同時改善了語音質量,實現了高質量的語音轉換。

附圖說明

圖1是本發(fā)明的非平行文本語音轉換的示意圖。

圖2是自適應高斯混合模型訓練流程圖。

圖3是轉換后語音的語譜對比圖。

具體實施方式

下面結合附圖對本發(fā)明的技術方案做進一步的詳細說明:

本技術領域技術人員可以理解的是,除非另外定義,這里使用的所有術語(包括技術術語和科學術語)具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語應該被理解為具有與現有技術的上下文中的意義一致的意義,并且除非像這里一樣定義,不會用理想化或過于正式的含義來解釋。

本發(fā)明所述高質量語音轉換方法分為兩個部分:訓練部分用于得到語音轉換所需的參數和轉換函數,而轉換部分用于實現源說話人語音轉換為目標說話人語音。

如圖1,訓練部分實施步驟:

步驟1,輸入源說話人和目標說話人的語音非平行語料,非平行語料取自cmu_us_arctic語料庫,該語料庫是由卡內基梅隆大學語言技術研究所建立的,語料庫中的語音由5男2女錄制,每個說話人錄制了1132段1~6s不等的語音。

步驟2,本發(fā)明使用ahocoder語音分析模型分別提取源說話人和目標說話人的梅爾倒譜系數(mfcc,mel-frequencycepstralcoefficient)x、y以及對數基音頻率參數logf0x和logf0y。其中ahocoder是西班牙畢爾巴鄂(bilbao)市aholabsignalprocessinglaboratory學者danielerro團隊構建的高性能的語音分析合成工具;

步驟3,對步驟2中的源和目標語音的mfcc參數x、y進行單元挑選(unitselection)和聲道長度歸一化(vtln,vocaltractlengthno6rmalization)相結合的語音特征參數對齊和動態(tài)時間規(guī)整(dtw,dynamictimewarping)。其中語音特征參數對齊具體過程如下:

3-1)采用雙線性頻率彎折方法對源語音特征參數進行聲道長度歸一化處理,使得源語音的共振峰向目標語音靠近,從而增加單元挑選目標語音特征參數的精確性。

3-2)對于給定的n個源語音特征參數矢量{xk},可通過公式(1)來動態(tài)地尋找n個目標語音特征參數矢量{yk},使得距離耗費函數值c({yk})最小。在單元挑選的過程中考慮到兩個因素:一方面是保證對齊的源語音特征參數矢量和目標語音的特征參數矢量之間的頻譜距離最小,以增強音素信息的匹配度;另一方面是保證挑選到的目標語音特征參數矢量具有幀連續(xù)性,以使得音素信息更完整。

c({yk})=c1({yk})+c2({yk})(1)

其中,c1({yk})和c2({yk})分別可由下式表示:

其中,d(xk,yk)函數表示源和目標特征參數矢量之間的頻譜距離,本發(fā)明采用歐氏距離作為距離衡量尺度。參數γ表示在特征參數幀對齊的準確度和幀間連續(xù)性之間的平衡系數,且有0≤γ≤1。c1({yk})表示的是源語音特征參數矢量和目標語音的特征參數矢量之間的頻譜距離耗費函數,c2({yk})表示的是經單元挑選的目標語音的特征參數矢量之間頻譜距離耗費函數。

3-3)通過對公式(1)進行多元線性回歸分析,可以得到與源語音特征參數矢量對齊的特征參數序列集合即:

對于公式(4)的求解,可使用維特比(viterbi)搜索方法來優(yōu)化算法的執(zhí)行效率。

通過上述步驟,將非平行的mfcc參數x、y轉變?yōu)槠叫械摹?/p>

步驟4,建立自適應混合高斯模型(adaptiongmm,agmm),采用期望最大化(em,expectation-maximization)算法進行訓練,并使用k-均值迭代方法得到em訓練的初始值。通過訓練得到agmm參數λ,p(x|λ)。

如圖2所示,使用自適應聚類算法訓練agmm參數,首先需要對各高斯分量的權重系數、均值向量、協(xié)方差矩陣和特征參數矢量之間的歐氏距離進行綜合分析,動態(tài)地調整高斯混合度。其訓練過程如下:

4-1)設定agmm初始混合數m,高斯分量權重系數閾值t1,t2,特征參數矢量之間歐氏距離閾值d和協(xié)方差閾值σ。

4-2)使用k-均值迭代算法得到em訓練的初始值。

4-3)使用em算法進行迭代訓練。

傳統(tǒng)的高斯混合模型表示如下:

其中,x為p維的語音特征參數矢量,本發(fā)明中采用p=39,p(wi)表示各高斯分量的權重系數,且有m為高斯分量的個數,n(x,μi,∑i)表示高斯分量的p維聯合高斯概率分布,表示如下:

其中μi為均值矢量,∑i為協(xié)方差矩陣,λ={p(wi),μi,σi},是gmm模型的模型參數,對λ的估算可以通過最大似然估計法(ml,maximumlikelihood)實現,最大似然估計的目的在于使得條件概率p(x|λ)取得最大,對于語音特征參數矢量集合x={xn,n=1,2,...n}有:

此時:

λ=argλmax(p(x|λ))(8)

求解公式(8)可使用em算法,隨著em計算過程中迭代條件滿足p(x|λk)≥p(x|λk-1),k是迭代的次數,直至模型參數λ。迭代過程中高斯分量權重系數p(wi)、均值向量μi、協(xié)方差矩陣σi的迭代公式如下:

4-4)若訓練得到的模型中某一高斯分量n(p(wi),μi,σi)權重系數小于t1,并且與其最鄰近分量n(p(wj),μj,σi)之間的歐氏距離小于閾值d,則認為這兩個分量包含信息較少且成分相似,可對其進行合并處理:

此時,高斯分量個數變?yōu)閙-1,返回步驟(3)進行下一次訓練,若滿足合并條件的高斯分量有多個,則選擇最小距離的高斯分量進行合并。

4-5)若訓練得到的模型中某一高斯分量n(p(wi),μi,∑i)權重系數大于t2,并且協(xié)方差矩陣中有至少一維的方差(協(xié)方差矩陣對角線上元素即為方差)大于σ,則認為該高斯分量包含過量信息,應將其分裂處理:

其中e為全1的列向量,n用于調節(jié)高斯分布,經過分裂后高斯分量個數變?yōu)閙+1,如果滿足分裂條件的高斯分量有多個,則選取權重系數最大的分量進行分裂,返回步驟(3)進行下一次訓練。

4-6)agmm訓練結束,得到后驗條件概率矩陣p(x|λ),保存λ。

步驟5,利用步驟3中得到的源語音特征參數x和目標語音特征參數y以及步驟4中得到的后驗條件概率矩陣p(x|λ)進行訓練,得到頻率彎折因子和幅度調節(jié)因子,從而構建雙線性頻率彎折(blfw,bilinearfrequencywarping)和幅度調節(jié)(as,amplitudescaling)語音轉換函數,表示如下:

f(x)=wα(x,λ)x+s(x,λ)(15)

建立源語音基音頻率和目標語音基音頻率之間的轉換關系:

其中μ,σ2用于表示對數基音頻率logf0的均值和方差。

如圖1,轉換部分具體實施步驟:

步驟6,輸入待轉換的源說話人語音;

步驟7,使用ahodecoder語音分析模型提取源說話人的語音39階mfcc特征參數x′以及源語音對數基音頻率參數logf0x′;

步驟8,利用步驟4中agmm訓練時得到的λ={p(wi),μi,σi}和步驟7中提取的特征參數x′,代入公式(5),得到后驗條件概率矩陣p′(x|λ);

步驟9,利用步驟5中blfw+as訓練得到的頻率彎折因子α(x,λ)和幅度調節(jié)因子s(x,λ)以及步驟8中得到的后驗條件概率矩陣p′(x|λ),分別代入公式(15)、(16)、(17)和(18)后,得到轉換后語音的mfcc特征參數y′;

步驟10,利用步驟7中得到的源語音對數基音頻率參數logf0x′,代入公式(19),得到轉換后語音的對數基音頻率參數logf0y′;

步驟11,使用ahodecoder語音合成模型將步驟9中的y′和步驟10中的logf0y′作為輸入得到轉換后的語音。

進一步地,如圖3所示,將本發(fā)明的方法與inca方法得到的轉換語音的語譜圖進行了對比,轉換方向為f1-m2(女聲1-男聲2),進一步驗證了本發(fā)明所采用的方法相對于inca方法的頻譜相似度更高的優(yōu)點。其中,inca方法是文獻(errod,morenoa,bonafontea.incaalgorithmfortrainingvoiceconversionsystemsfromnonparallelcorpora[j].ieeetransactionsonaudio,speech,andlanguageprocessing,2010,18(5):944-953.)中提出的。

以上所述僅是本發(fā)明的部分實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1