分析基頻信息的方法以及實現(xiàn)所述分析方法的話音轉換方法和系統(tǒng)的制作方法

文檔序號：2834576閱讀：420來源：國知局

專利名稱：分析基頻信息的方法以及實現(xiàn)所述分析方法的話音轉換方法和系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及一種用于對包含在話音采樣中的基頻信息進行分析的方法以及一種實現(xiàn)所述分析方法的話音轉換方法和系統(tǒng)。
背景技術：
根據(jù)要產(chǎn)生的聲音的性質，語音、尤其是話音的產(chǎn)生，需要聲帶的振動，這意味著聲帶的振動產(chǎn)生具有一個基本周期的周期性結構的語音信號，該基本周期的倒數(shù)被稱為基頻。
在諸如話音轉換之類的某些應用中，話音呈現(xiàn)(aural rendering)至關重要，并且，為了獲得可接受的音質，需要有效地控制與韻律有關的參數(shù)，包括基頻。
當前，存在許多種方法可用于對包含在話音采樣中的基頻信息進行分析。
這些分析能夠確定基頻特性和對其進行建模。例如，現(xiàn)有的某些方法能夠針對話音采樣的整個數(shù)據(jù)庫確定基頻的斜率或幅度范圍。
知道這些參數(shù)之后，例如，通過對源和目標說話者之間的基頻調(diào)整，就能夠修改語音信號，從而全面地考慮目標說話者的基頻的均值和變化。
但是，這些分析只能夠獲得一般的表示形式，而不是能夠定義參數(shù)的基頻表示形式，因此并不重要，尤其是對于那些發(fā)聲風格不同的說話者。

發(fā)明內(nèi)容
本發(fā)明的目的是通過定義一種用于對話音采樣的基頻信息進行分析的方法來克服該問題，從而能夠定義參數(shù)可被定義的基頻表示形式。
為此，本發(fā)明的主題是一種用于對包含在話音采樣中的基頻信息進行分析的方法，特征在于它至少包括-分析步驟，用于對分組成幀的話音采樣進行分析，從而得到每一采樣幀的頻譜相關信息和基頻相關信息；-模型確定步驟，用于確定代表所有采樣的頻譜和基頻的公共特性的模型；以及-基頻預測函數(shù)確定步驟，用于僅根據(jù)頻譜相關信息、基于所述模型和話音采樣來確定基頻預測函數(shù)。
根據(jù)這種分析方法的其它特性-所述分析步驟用于以倒譜系數(shù)形式提供所述頻譜相關信息；-所述分析步驟包括-建模子步驟，用于根據(jù)諧波信號與噪聲信號之和，對話音采樣進行建模；-頻率參數(shù)估計子步驟，用于估計話音采樣的頻率參數(shù)，至少是基頻；-同步分析子步驟，用于同步分析每一采樣幀的基頻；以及-頻譜參數(shù)估計子步驟，用于估計每一采樣幀的頻譜參數(shù)；-它還包括歸一化步驟，用于將每一采樣幀的基頻相對于已分析的采樣的基頻的均值進行歸一化；-所述模型確定步驟對應于通過混合高斯密度來確定模型；-所述模型確定步驟包括-用于確定與混合高斯密度相對應的模型的子步驟；以及-參數(shù)估計子步驟，用于基于所述采樣和所述模型的頻譜信息和基頻信息之間的最大相似度估計，來估計混合高斯密度的參數(shù)；-在已知所述采樣的頻譜信息的前提下，基于所述基頻實現(xiàn)的估計量來實現(xiàn)所述預測函數(shù)確定步驟；-所述基頻預測函數(shù)確定步驟包括條件期望確定子步驟，用于在已知所述頻譜信息的前提下，基于根據(jù)所述模型得到所述頻譜信息的后驗概率，來確定實現(xiàn)所述基頻實現(xiàn)的條件期望，所述條件期望形成所述估計量。
本發(fā)明還涉及一種話音信號轉換方法，用于將源說話者所發(fā)出的話音信號轉換為轉換話音信號，所述轉換話音信號的特性與目標說話者的話音信號的特性相似，該方法至少包括-變換函數(shù)確定步驟，用于確定將源說話者的頻譜特性變換成目標說話者的頻譜特性的函數(shù)，該步驟是基于源說話者和目標說話者的話音采樣而實現(xiàn)的；以及-變換步驟，用于借助所述變換函數(shù)對要轉換的源說話者話音信號的頻譜信息進行變換；特征在于，它還包括-基頻預測函數(shù)確定步驟，僅根據(jù)目標說話者的頻譜相關信息確定基頻預測函數(shù)，所述預測函數(shù)是借助于上面定義的分析方法而獲得的；以及-預測步驟，通過將所述基頻預測函數(shù)應用于源說話者的話音信號的所述已變換的頻譜信息，從而預測待轉換的話音信號的基頻。
根據(jù)這種轉換方法的其它特性-所述變換函數(shù)確定步驟是在已知源頻譜特性的前提下，基于目標頻譜特性實現(xiàn)的估計量而實現(xiàn)的；-所述變換函數(shù)確定步驟包括-建模子步驟，用于根據(jù)諧波信號與噪聲信號的和模型，對源和目標話音采樣進行建模；-校準子步驟，用于校準源和目標采樣；以及-變換函數(shù)確定子步驟，用于在已知源頻譜特性的前提下，基于對目標頻譜特性實現(xiàn)的條件期望進行計算，來確定所述變換函數(shù)，該條件期望構成了所述估計量；-所述變換函數(shù)是譜包絡變換函數(shù)；-它還包括分析步驟，用于分析待轉換的話音信號，以提供所述頻譜相關信息和基頻相關信息；-它還包括合成步驟，用于基于至少已變換的頻譜信息和預測的基頻信息來形成轉換話音信號。
本發(fā)明還涉及一種話音信號轉換系統(tǒng)，用于把源說話者所發(fā)出的話音信號轉換成轉換話音信號，所述轉換話音信號的特性相似于目標說話者的話音信號的特性，所述系統(tǒng)至少包括-變換函數(shù)確定模塊，用于確定將源說話者的頻譜特性變換成目標說話者的頻譜特性的函數(shù)，該模塊在其輸入端接收源說話者和目標說話者的話音采樣；以及-變換模塊，用于通過應用由所述變換函數(shù)確定模塊所提供的變換函數(shù)，將待轉換的源說話者的話音信號的頻譜信息進行變換，其特征在于，它還包括-基頻預測函數(shù)確定模塊，僅根據(jù)頻譜相關信息為目標說話者確定基頻預測函數(shù)，以基于目標說話者的話音采樣實現(xiàn)分析方法；以及-基頻預測模塊，通過將由所述基頻預測函數(shù)確定模塊所確定的所述預測函數(shù)應用于由所述變換模塊所提供的所述已變換的頻譜信息，來預測待轉換的所述話音信號的基頻。
根據(jù)本系統(tǒng)的其它特性-它還包括-分析模塊，用于分析待轉換的話音信號，以在其輸出端提供待轉換的話音信號的頻譜相關信息和基頻相關信息；以及-合成模塊，用于基于至少由該模塊所提供的已變換頻譜信息和由該模塊所提供的預測的基頻信息，來形成轉換話音信號。
-所述變換函數(shù)確定模塊用于提供譜包絡變換函數(shù)；-它用于實現(xiàn)上面定義的話音轉換方法。

通過閱讀下面僅作為示例的描述和附圖，本發(fā)明將更加易于理解，其中圖1是根據(jù)本發(fā)明的分析方法的流程圖；圖2是用于實現(xiàn)根據(jù)本發(fā)明的分析方法的話音轉換方法的流程圖；以及圖3是用于實現(xiàn)圖2所示的本發(fā)明方法的話音轉換系統(tǒng)的功能框圖。
具體實施例方式
圖1中所示的根據(jù)本發(fā)明的方法是基于包含自然語音序列的話音采樣的數(shù)據(jù)庫而實現(xiàn)的。
該方法從分析步驟2開始，步驟2用于對通過分組成幀的采樣點進行分析，從而得到每個采樣幀的頻譜相關信息，尤其是譜包絡相關信息和基頻相關信息。
在所述實施例中，該分析步驟2基于使用聲音信號模型，該模型的形式是根據(jù)通常被稱為“HNM”(諧波加噪聲模型)的模型的諧波信號和噪聲信號之和。
另外，所述實施例基于用離散倒譜表示的譜包絡。
事實上，倒譜表示形式能夠從語音信號中分離出與來自所得源分量的聲道(vocal tract)相關的分量，后者對應于聲帶振動并且特征在于基頻。
這樣，分析步驟2包括建模子步驟4，用于將每個話音信號幀建模為代表該信號的周期性分量的諧波部分以及代表摩擦噪聲和聲門激發(fā)(glottal excitation)變化的噪聲部分，該諧波部分由L個具有幅度Al、相位φl的諧波正弦信號之和組成。
因此，這可以表示為以下公式s(n)＝h(n)+b(n)其中h(n)=Σl=1LAl(n)cos(φl(n))]]>因此h(n)表示信號s(n)的諧波近似。
步驟2還包括子步驟5，用于估計每一幀的頻率參數(shù)，尤其是基頻，例如采用自相關方法。
在常規(guī)方式中，該HNM分析提供了最大話音頻率。作為一個變量，該頻率可以被任意定義，或通過其它已知手段來估計。
子步驟5之后是子步驟6，用于同步分析每一幀的基頻，從而估計諧波部分的參數(shù)和信號噪聲的參數(shù)。
在所述實施例中，該同步分析對應于確定諧波參數(shù)，通過將全部信號及其諧波分解(在所述實施例中，對應于估計的噪聲信號)之間的加權最小二乘方準則最小化。以E表示的該準則等于E=Σn=-TiTiw2(n)(s(n)-h(n))2]]>在該式中，w(n)是分析窗，Ti是當前幀的基本周期。
因此，分析窗以基本周期標記為中心，并且其持續(xù)時間為該周期的兩倍。
分析步驟2最后包括子步驟7，用于估計信號的譜包絡分量的參數(shù)，使用例如正則化的離散倒譜方法和臨界波段尺度(Bark-scale)變換，盡可能如實地再現(xiàn)人耳的屬性。
因此，分析步驟2為n階語音信號采樣的每幀提供包含基頻信息的表示為xn的標量和包含倒譜系數(shù)序列形式的頻譜信息的表示為yn的矢量。
更好地，分析步驟2之后是步驟10，用于將每幀的基頻值相對于基頻均值進行歸一化，從而在每個話音采樣幀中用歸一化的基頻值代替該基頻值，根據(jù)下面的公式Flog=log(FoFomoy)]]>在該公式中，F(xiàn)omoy對應于全部已分析的數(shù)據(jù)庫的基頻值的均值。
這種歸一化使得能夠修改基頻標量的變化范圍，以使其與倒譜系數(shù)的變化范圍一致。
歸一化步驟10之后是模型確定步驟20，用于確定代表所有已分析的采樣的公共倒譜和基頻特性的模型。
所述實施例包括根據(jù)混合高斯密度模型(通常被稱為“GMM”)的基頻和離散倒譜的概率模型，該模型的參數(shù)是基于歸一化的基頻和離散倒譜的聯(lián)合密度進行估計的。
在常規(guī)方式中，隨機變量的概率密度通常被表示成p(z)，根據(jù)混合高斯密度模型GMM，以下面的數(shù)學方式表示p(z)=Σi=1Qαi=N(z,μi,Σi)]]>其中Σi=1Qαi=1,]]>0≤αi≤1在該公式中，N(z；μi；∑i)是均值為μi協(xié)方差矩陣為∑i的正態(tài)分布概率密度，系數(shù)αi為混合系數(shù)。
因此，系數(shù)αi對應于通過第i個混合高斯分量產(chǎn)生隨機變量z的先驗概率。
在更具體的方式中，模型確定步驟20包括子步驟22，用于對表示為y的倒譜和表示為x的歸一化基頻的聯(lián)合密度進行建模，表示為p(z)＝p(y，x)，其中z=yx]]>在這些公式中，x＝[x1，x2，…xN]為包含N個話音采樣幀的歸一化基頻信息的標量序列，y＝[y1，y2，…yN]為相應的倒譜系數(shù)矢量的序列。
然后，步驟20包含參數(shù)估計子步驟24，用于估計概率密度p(z)的GMM參數(shù)(α，μ，∑)。該估計可以通過例如借助已知的常規(guī)算法“EM”(期望值最大化算法)來實現(xiàn)，對應于迭代法，通過迭代法可以得到語音采樣數(shù)據(jù)和高斯混合模型之間的最大似然估計量。
GMM模型初始參數(shù)的確定借助于常規(guī)的矢量量化技術來獲得。
因此模型確定步驟20提供了用倒譜系數(shù)表示的代表公共頻譜特性的混合高斯概率密度參數(shù)，以及已分析的話音采樣的基頻。
該方法還包括步驟基頻預測函數(shù)確定30，用于基于模型和話音采樣，僅根據(jù)通過信號倒譜提供的頻譜信息來確定基頻預測函數(shù)。
在給定話音采樣的倒譜的條件下，基于基頻實現(xiàn)的估計量確定該預測函數(shù)，所述估計量在所描述的實施例中是由條件期望形成的。
為此，基頻預測函數(shù)確定步驟30包括條件期望確定子步驟32，用于在已知倒譜提供的頻譜相關信息的前提下，確定基頻的條件期望。該條件期望表示為F(y)并且由下面的公式來確定F(y)=E[x|y]=Σi=1Qpi(y)[μix+Σixy(Σiyy)-1(y-μiy)]]]>其中Pi(y)=αiN(y,μiy,Σiyy)Σj=1QαjN(y,μjy,Σjyy)]]>其中Σi=ΣiyyΣiyxΣixyΣixx]]>μi=μixμiy]]>在這些方程中，Pi(y)對應于由高斯混合模型的第i個分量產(chǎn)生倒譜矢量y的后驗概率，所述高斯混合模型由步驟20中的協(xié)方差矩陣∑i和正態(tài)分布μi定義。
這樣，通過確定條件期望，可以根據(jù)倒譜信息獲得基頻預測函數(shù)。
作為變量，在步驟30中實現(xiàn)的估計量可以是最大后驗準則，其被稱為“MAP”，并且對應于僅用于最代表源矢量的模型實現(xiàn)的期望計算。
因此，很清楚的是，根據(jù)本發(fā)明的分析方法能夠基于模型和話音采樣，僅根據(jù)所述實施例中由倒譜提供的頻譜信息來獲得基頻預測函數(shù)。
這種類型的預測函數(shù)能夠僅根據(jù)語音信號的頻譜信息來確定該信號的基頻值，從而能夠進行基頻的相關預測，尤其是對于不在已分析的話音采樣中的聲音。
下面參考圖2在話音轉換的上下文中描述根據(jù)本發(fā)明的分析方法的使用。
話音轉換包括修改被稱為“源說話者”的參考說話者的話音信號，從而使所產(chǎn)生的信號聽起來是由被稱為“目標說話者”的不同說話者所發(fā)出的。
該方法是使用由源說話者和目標說話者所發(fā)出的的話音采樣數(shù)據(jù)庫來實現(xiàn)的。
在常規(guī)方式中，這種類型的方法包括變換函數(shù)確定步驟50，用于為源說話者的話音采樣的頻譜特性確定變換函數(shù)，以使它們相似于目標說話者的話音采樣的頻譜特性。
在所述實施例中，變換函數(shù)確定步驟50基于HNM分析，HNM分析能夠確定源和目標說話者的話音信號譜包絡特性之間的關系。
為此，需要與相同的話音序列的聲學實現(xiàn)相對應的源和目標話音記錄。
變換函數(shù)確定步驟50包括建模子步驟52，用于根據(jù)諧波和噪聲信號的HNM和模型對話音采樣進行建模。
子步驟52之后是子步驟54，該步驟能夠借助例如常規(guī)校準算法“DTW”(Dynamic Time Warping，動態(tài)時間校準)來校準源和目標信號。
變換函數(shù)確定步驟50還包括子步驟56，用于確定代表源和目標說話者話音采樣頻譜的公共特性的模型，如GMM模型。
在所述實施例中，使用了包括64個分量以及含有源和目標倒譜參數(shù)的信號矢量的GMM模型，從而可以定義頻譜變換函數(shù)，其對應于被表示為t的目標頻譜參數(shù)實現(xiàn)的估計量，在已知被表示為s的源頻譜參數(shù)的前提下。
在所述實施例中，被表示為F(s)的該變換函數(shù)由下面公式以條件期望的形式表示F(s)=E[t|s]=Σi=1QPi(s)[μit+Σits(Σiss)-1(s-μis)]]]>其中Pi(s)=αiN(s,μis,Σiss)Σj=1QαjN(t,μjs,Σjss)]]>
其中Σi=ΣissΣistΣitsΣitt]]>μi=μisμit]]>通過源和目標參數(shù)之間的最大相似度來精確地確定該函數(shù)，可以通過EM算法來獲得。
作為變量，可以根據(jù)最大后驗準則形成該估計量。
因此，所定義的函數(shù)能夠修改源說話者產(chǎn)生的語音信號的譜包絡，以使其與目標說話者的譜包絡相似。
在最大化之前，可以借助例如矢量量化算法來將代表源和目標的公共頻譜特性的GMM模型的參數(shù)進行初始化。
并行地，在基頻預測函數(shù)確定步驟60中實現(xiàn)根據(jù)本發(fā)明的分析方法，其中只分析目標說話者的話音采樣。
如圖1所述，采用根據(jù)本發(fā)明的基頻預測函數(shù)確定步驟60，能夠只基于頻譜信息獲得目標說話者的基頻預測函數(shù)。
轉換方法還包括分析步驟65，在該步驟中對源說話者發(fā)出的、待轉換的話音信號進行分析，所述待轉換的信號與步驟50和60中所使用的話音信號不同。
該分析步驟65借助例如根據(jù)HNM模型的分解來實現(xiàn)，從而提供以倒譜系數(shù)形式表示的頻譜信息、基頻信息以及最大頻率和相位話音信息。
步驟65之后是步驟70，在該步驟中，通過向步驟65中定義的倒譜系數(shù)應用步驟50中確定的變換函數(shù)，將待轉換的話音信號的頻譜特性進行變換。
具體而言，步驟70修改待轉換的話音信號的譜包絡。
在步驟70結束之后，將待轉換的源說話者信號的采樣的每個采樣幀與已變換的、特性相似于目標說話者的采樣的頻譜特性的頻譜信息關聯(lián)起來。
該轉換方法還包括用于預測源說話者的話音采樣的基頻的步驟80，通過將在步驟60中使用根據(jù)本發(fā)明的方法而確定的預測函數(shù)僅應用到與待轉換的源說話者話音信號相關聯(lián)的已變換的頻譜信息上。
事實上，由于源說話者的話音采樣和特性類似于目標說話者采樣頻譜特性的已轉換的頻譜信息相關聯(lián)，所以，步驟60中所定義的預測函數(shù)使得能夠獲得基頻的相關預測。
在常規(guī)方式中，該轉換方法包括輸出信號合成步驟90，在所述例子中用HNM合成來實現(xiàn)，該HNM合成基于步驟70中所提供的變換的譜包絡信息、步驟80中所產(chǎn)生的預測的基頻信息以及步驟65中所提供的最大頻率和相位話音信息直接提供轉換話音信號。
這樣，用于實現(xiàn)根據(jù)本發(fā)明的分析方法的轉換方法使得能夠得到話音轉換，其實現(xiàn)頻譜修改和基頻預測，從而獲得高質量的話音呈現(xiàn)。
具體而言，可以基于源說話者和目標說話者所發(fā)出的同樣的話音采樣來評估這種類型的方法的有效性。
借助所述方法對源說話者所發(fā)出的話音信號進行轉換，并且，對已轉換的信號和由目標說話者所發(fā)出的信號之間的相似度進行評估。
例如，以用于將已轉換的信號從目標信號分開的聲距與用于將目標信號從源信號分開的聲距之間的比值的形式來計算這種相似度。
在基于倒譜系數(shù)或借助于這些倒譜系數(shù)而獲得的信號幅度譜來計算聲距時，借助于根據(jù)本發(fā)明的方法所轉換的信號所獲得的比值在0.3至0.5之間。
圖3示出了用于實現(xiàn)圖2所述的方法的話音轉換系統(tǒng)的功能框圖。
該系統(tǒng)在其輸入端使用由源說話者所發(fā)出的話音采樣的數(shù)據(jù)庫100和由目標說話者所發(fā)出的至少包含相同話音采樣的數(shù)據(jù)庫102。
變換函數(shù)確定模塊104使用這兩個數(shù)據(jù)庫，該模塊104確定用于將源說話者頻譜特性變換為目標說話者頻譜特性的函數(shù)。
變換函數(shù)確定模塊104用于實現(xiàn)圖2所述方法的步驟50，從而確定譜包絡變換函數(shù)。
另外，該系統(tǒng)還包括基頻預測函數(shù)確定模塊106，用于僅根據(jù)頻譜相關信息確定基頻預測函數(shù)。為此，基頻預測函數(shù)確定模塊106在其輸入端只接收包含在數(shù)據(jù)庫102中的目標說話者的話音采樣。
模塊106用于實現(xiàn)圖2所述方法的步驟60，對應于圖1所述的根據(jù)本發(fā)明的分析方法。
模塊104所提供的變換函數(shù)和模塊106所提供的預測函數(shù)優(yōu)選存儲在一起，以便后續(xù)使用。
話音轉換系統(tǒng)在其輸入端接收話音信號110，話音信號110對應于源說話者所發(fā)出的并且要被轉換的語音信號。
信號110被引入信號分析模塊112，用于實現(xiàn)例如HNM分解并使信號110的頻譜信息解離為倒譜系數(shù)和基頻信息的形式。模塊112還提供了通過應用HNM模型而獲得的最大頻率和相位話音信息。
因此模塊112實現(xiàn)前面所述方法的步驟65。
這種分析可能提前執(zhí)行，并且將信息存儲用于后續(xù)使用。
然后，模塊112所提供的倒譜系數(shù)被引入變換模塊114中，該模塊114用于應用模塊104所確定的變換函數(shù)。
這樣，變換模塊114實現(xiàn)圖2所述的方法的步驟70，并提供特性相似于目標說話者的頻譜特性的已變換的倒譜系數(shù)。
這樣，模塊114實現(xiàn)了話音信號110的譜包絡的修改。
然后，模塊114所提供的已變換的倒譜系數(shù)被引入基頻預測模塊116中，該模塊116用于實現(xiàn)模塊106所確定的預測函數(shù)。
這樣，模塊116實現(xiàn)圖2所述的方法的步驟80，并且在輸出端提供僅基于已變換的頻譜信息而預測的基頻信息。
該系統(tǒng)還包括合成模塊118，合成模塊118在其輸入端接收從模塊114產(chǎn)生的并且對應于譜包絡的已變換的倒譜系數(shù)、從模塊116產(chǎn)生的預測的基頻信息以及由模塊112提供的最大頻率和相位話音信息。
這樣，模塊118實現(xiàn)圖2所述的方法的步驟90，并且提供信號120，除信號120的頻譜和基頻特性已被修改從而與目標說話者的頻譜和基頻特性相似之外，信號120對應于源說話者的話音信號110。
所述系統(tǒng)可以通過各種方式實現(xiàn)，尤其是借助與聲音獲取硬件模塊相連的適當計算機程序。
當然，還可設想除所述實施例以外的其他實施例。
具體而言，可以用本領域技術人員所知的其它技術和模型來代替HNM和GMM模型，例如LSF(線性譜頻率)和LPC(線性預測編碼)技術，或者共振峰相關的參數(shù)。
權利要求
1.一種用于對包含在話音采樣中的基頻信息進行分析的方法，其特征在于它至少包括—分析步驟(2)，用于對分組成幀的所述話音采樣進行分析，從而獲得每一采樣幀的頻譜相關信息和基頻相關信息；—模型確定步驟(20)，用于確定代表所有采樣的頻譜和基頻的公共特性的模型；以及—基頻預測函數(shù)確定步驟(30)，用于僅根據(jù)頻譜相關信息、基于所述模型和話音采樣來確定基頻預測函數(shù)。
2.根據(jù)權利要求1所述的方法，其特征在于所述分析步驟(2)用于提供倒譜系數(shù)形式的所述頻譜相關信息。
3.根據(jù)權利要求1或2的任一項所述的方法，其特征在于所述分析步驟(2)包括—建模子步驟(4)，用于根據(jù)諧波信號與噪聲信號之和來對話音采樣進行建模；—頻率參數(shù)估計子步驟(5)，用于估計所述話音采樣的頻率參數(shù)，至少是基頻；—同步分析子步驟(6)，用于對每一采樣幀的基頻進行同步分析；以及—頻譜參數(shù)估計子步驟(7)，用于估計每一采樣幀的頻譜參數(shù)。
4.根據(jù)權利要求1至3的任一項所述的方法，其特征在于還包括歸一化步驟(10)，用于將每一采樣幀的基頻相對于所述已分析的采樣的基頻的均值進行歸一化。
5.根據(jù)權利要求1至4的任一項所述的方法，其特征在于所述模型確定步驟(20)對應于通過混合高斯密度來確定模型。
6.根據(jù)權利要求5所述的方法，其特征在于所述模型確定步驟(20)包括—用于確定與混合高斯密度相對應的模型的子步驟(22)；以及—參數(shù)估計子步驟(24)，用于基于所述采樣和所述模型的頻譜信息和基頻信息之間的最大相似度估計，來估計混合高斯密度的參數(shù)。
7.根據(jù)權利要求1至6的任一項所述的方法，其特征在于在已知所述采樣的頻譜信息的前提下，基于所述基頻實現(xiàn)的估計量來實現(xiàn)所述預測函數(shù)確定步驟(30)。
8.根據(jù)權利要求7所述的方法，其特征在于所述基頻預測函數(shù)確定步驟(30)包括條件期望確定子步驟(32)，用于在已知所述頻譜信息的前提下，基于從所述模型獲得該頻譜信息的后驗概率來確定所述基頻實現(xiàn)的條件期望，該條件期望形成所述估計量。
9.一種用于將源說話者所發(fā)出的話音信號轉換為轉換話音信號的方法，所述轉換話音信號的特性相似于目標說話者的話音信號的特性，該方法至少包括—變換函數(shù)確定步驟(50)，用于確定將所述源說話者的頻譜特性變換為所述目標說話者的頻譜特性的函數(shù)，該步驟是基于所述源說話者和所述目標說話者的話音采樣而實現(xiàn)的；以及—變換步驟(70)，用于借助所述變換函數(shù)將所述源說話者的待轉換話音信號的頻譜信息進行變換，其特征在于它還包括—基頻預測函數(shù)確定步驟(60)，用于僅根據(jù)所述目標說話者的頻譜相關信息確定基頻預測函數(shù)，借助權利要求1至8中的任一項所述的分析方法來獲得所述預測函數(shù)；以及—預測步驟(80)，用于通過向所述源說話者的話音信號的已變換頻譜信息應用所述基頻預測函數(shù)，從而預測待轉換的所述話音信號的基頻。
10.根據(jù)權利要求9所述的方法，其特征在于在已知所述源頻譜特性的前提下，基于所述目標頻譜特性實現(xiàn)的估計量來實現(xiàn)所述變換函數(shù)確定步驟(50)。
11.根據(jù)權利要求10所述的方法，其特征在于所述變換函數(shù)確定步驟(50)包括—建模子步驟(52)，用于根據(jù)諧波信號與噪聲信號的和模型對所述源和目標話音采樣進行建模；—校準子步驟(54)，用于校準源和目標采樣；以及—確定子步驟(56)，用于在已知所述源頻譜特性的前提下，基于計算所述目標頻譜特性實現(xiàn)的條件期望來確定所述變換函數(shù)，該條件期望形成所述估計量。
12.根據(jù)權利要求9至11的任一項所述的方法，其特征在于所述變換函數(shù)是譜包絡變換函數(shù)。
13.根據(jù)權利要求9至12的任一項所述的方法，其特征在于它還包括分析步驟(65)，用于分析待轉換的所述話音信號，以提供所述頻譜相關信息和所述基頻相關信息。
14.根據(jù)權利要求9至13的任一項所述的方法，其特征在于它還包括合成步驟(90)，用于至少基于所述已變換的頻譜信息和所述預測的基頻信息來形成轉換話音信號。
15.一種用于將源說話者所發(fā)出的話音信號(110)轉換成轉換話音信號的方法，所述轉換話音信號的特性與目標說話者的話音信號的特性相似，所述系統(tǒng)至少包括—變換函數(shù)確定模塊(104)，用于確定將所述源說話者的頻譜特性變換為所述目標說話者的頻譜特性的函數(shù)，該模塊在其輸入端接收源說話者(100)和目標說話者(102)的話音信號；以及—變換模塊(114)，用于通過由模塊(104)所提供的所述變換函數(shù)對所述待轉換的源說話者的話音信號的頻譜信息進行變換，其特征在于它還包括—基頻預測函數(shù)確定模塊(106)，用于僅根據(jù)所述目標說話者的頻譜相關信息確定基頻預測函數(shù)，以基于所述目標說話者的話音采樣(102)來實現(xiàn)權利要求1至8的任一項所述的分析方法；以及—基頻預測模塊(116)，用于通過向由所述變換模塊(114)所提供的所述已變換頻譜信息應用由所述預測函數(shù)確定模塊(106)所確定的所述預測函數(shù)，來預測所述待轉換的話音信號(110)的基頻。
16.根據(jù)權利要求15所述的系統(tǒng)，其特征在于它還包括—分析模塊(112)，用于分析所述待轉換的話音信號(110)，以在其輸出端提供所述待轉換的話音信號的頻譜相關信息和基頻相關信息；以及—合成模塊(118)，用于至少基于由變換模塊(114)所提供的所述已變換的頻譜信息和由基頻預測模塊(116)所提供的所述預測的基頻信息來形成轉換話音信號。
17.根據(jù)權利要求15或16所述的系統(tǒng)，其特征在于所述變換函數(shù)確定模塊(104)用于提供譜包絡變換函數(shù)。
18.根據(jù)權利要求15至17的任一項所述的系統(tǒng)，其特征在于該系統(tǒng)用于實現(xiàn)根據(jù)權利要求9至12中的任一項所述的話音轉換方法。
全文摘要
一種用于對包含在話音采樣中的基頻信息進行分析的方法，其特征在于它包括至少一個分析步驟(2)，用于對分組成幀的話音采樣進行分析，從而獲得每一采樣幀的頻譜相關信息和基頻相關信息；模型確定步驟(20)，用于確定代表所有采樣的頻譜和基頻的公共特性的模型；以及基頻預測函數(shù)確定步驟(30)，用于僅根據(jù)頻譜相關信息、基于所述模型和話音采樣確定基頻預測函數(shù)。
文檔編號G10L25/24GK1795491SQ200480014488
公開日2006年6月28日申請日期2004年3月2日優(yōu)先權日2003年3月27日
發(fā)明者陶菲克·恩-納賈爾里, 奧利維爾·羅斯克申請人:法國電訊

完整全部詳細技術資料下載