亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

在語音合成中用于融合濁音音素單元的方法和裝置的制作方法

文檔序號:2824705閱讀:266來源:國知局
專利名稱:在語音合成中用于融合濁音音素單元的方法和裝置的制作方法
技術領域
本發(fā)明涉及信息處理技術,具體地涉及語音合成技術,更具體地涉及在單元拼接的語音合成系統(tǒng)中用于融合濁音音素單元的技術。
背景技術
當前絕大多數(shù)單元拼接的語音合成系統(tǒng)都是為每個目標片段選擇一個最佳候選單元,然后再把這些最佳候選單元拼接成合成語音。為了得到更穩(wěn)定、更自然的合成語音音質,東芝提出了“多單元選擇和融合”的方法(具體參見非專利文獻1),即,對每個目標片段選擇多個候選單元,再將這些多個候選單元融合成一個單元用于最后的拼接。其中,濁音音素的單元融合模塊一般包含兩個步驟基音周期映射,其將各單元按照基音標記切分成若干個基音周期,再將這些單元的基音周期對齊;基音周期融合;其將對應的基音周期分別融合,最后再將這些融合的基音周期拼接成融合單元。非專禾0 文獻 1 :M. Tamura, Τ. Mizutani and Τ. Kagoshima, "Scalableconcatenative speech synthesis based on the plural unit selection and fusionmethod", Proc. of ICASSP2005, Philadelphia, U. S. , March 18-23,2005, pp. 361-364,在此通過參考引入其整個內(nèi)容。關于基音周期映射,通常的方法是將每個被選單元的基音周期在時間軸上分別線性地映射到目標片段的基音周期上。因此,對于每個目標片段的基音周期都可以確定每個被選單元的一個基音周期與之對應。這些來自不同單元的對應基音周期是因為在單元中的相對位置而不是因為彼此之間的相似度對齊在一起。如果它們之間的差異太大,融合的結果通常會非常糟糕。尤其是遇到中文中的雙元音或三元音(例如/ian/,/ueng/),它們通常持續(xù)的時間比較長,而不同子音素之間的時間比例又因實例各不相同。因此傳統(tǒng)的線性映射容易造成在目標片段的某個基音周期上子音素的不匹配。關于各基音周期的融合,首先將語音信號切分成四個子帶。對每個子帶,平移各波形以獲得最大互相關來消除相位差異,然后再平均。最后,將各子帶疊加到一起生成融合的基音周期。這個算法計算量雖小,但是不夠精確。關于融合單元中各基音周期的能量軌跡,輸出的能量軌跡將是所有被選單元的平均值,因為每個基音周期融合后的能量是輸入的多個基音周期波形的平均值,所以融合單元的能量軌跡也是多個輸入單元的能量軌跡的平均值。因此,只要有一個單元的能量軌跡不好(因為噪音或嘶啞),就會導致最終的能量軌跡不好,從而使融合單元可能會聽起來不自然。

發(fā)明內(nèi)容
本發(fā)明正是鑒于上述現(xiàn)有技術中的問題而提出了在語音合成中用于融合濁音音素單元的方法和裝置以及合成語音的方法和裝置。根據(jù)本發(fā)明的第1方面,提供了一種在語音合成中用于融合濁音音素單元的方法,包括以下步驟輸入用于目標片段的濁音音素的多個單元;對上述多個單元的每個單元進行切分以獲得每個單元的基音周期;基于上述每個單元的基音周期信息和上述目標片段的基音周期個數(shù)從上述多個單元中選擇一個參考單元;基于上述選中的參考單元和上述目標片段的基音周期個數(shù)創(chuàng)建一個模板,其中上述模板的基音周期的個數(shù)與上述目標片段的基音周期的個數(shù)相同;利用動態(tài)規(guī)劃算法將上述多個單元的除了上述參考單元的每個單元的基音周期與上述模板的基音周期對齊;將上述對齊的基音周期融合;以及將上述融合的基音周期拼接為上述目標片段的融合單元。在本發(fā)明的上述用于融合濁音音素單元的方法中,引入了動態(tài)規(guī)劃算法用于基音周期映射,即基音周期對齊,由于基音周期信號之間的相似度可以用波形、幅度譜或其它類似物的相關性來度量,因此可以挑選擁有最大累積相關性得分的路徑作為對齊結果并記錄在映射表中。由于動態(tài)地進行基音周期的對齊,因此可以使得將要融合的基音周期具有更好的一致性。優(yōu)選,在上述用于融合濁音音素單元的方法中,上述將上述對齊的基音周期融合的步驟包括以下步驟針對上述模板的每個基音周期,從上述多個單元的除了上述參考單元的每個單元中,抽取與上述每個基音周期對齊的基音周期,其中將上述抽取出的基音周期與上述每個基音周期作為一個組;對上述組的基音周期進行傅立葉變換以獲得上述組的基音周期的相位譜和幅度譜;將上述組的基音周期的相位譜融合;將上述組的基音周期的幅度譜融合;以及對上述融合的相位譜和上述融合的幅度譜進行傅立葉逆變換以獲得上述融合的
基音周期。優(yōu)選,在上述用于融合濁音音素單元的方法中,在上述利用動態(tài)規(guī)劃算法進行對齊的步驟之后,并在上述將上述對齊的基音周期融合的步驟之前,還包括以下步驟基于上述對齊的基音周期從上述多個單元中選擇一個首要單元。優(yōu)選,在上述用于融合濁音音素單元的方法中,上述將上述組的基音周期的幅度譜融合的步驟包括以下步驟計算上述組的基音周期的幅度譜的對數(shù)平均,作為融合的幅度譜。優(yōu)選,在上述用于融合濁音音素單元的方法中,上述將上述組的基音周期的相位譜融合的步驟包括以下步驟使用上述首要單元的相位譜作為融合的相位譜。在本發(fā)明的上述用于融合濁音音素單元的方法中,基音周期的融合是在傅立葉變換的頻譜上實現(xiàn)的,其中對幅度譜進行共振峰對齊然后在對數(shù)域上計算平均,對相位譜則直接使用首要單元的相位譜?;贔FT頻譜的基音周期融合,將幅度譜和相位譜分開進行處理,更加符合聲音信號的物理本質。另外,通過首要單元為融合單元提供相位譜,因此,只要選擇到了一個較優(yōu)的首要單元,則其它單元的可能不好的相位就不會對最后的融合單元造成影響。優(yōu)選,在上述用于融合濁音音素單元的方法中,在上述對上述組的基音周期進行傅立葉變換的步驟之前,還包括以下步驟將上述組內(nèi)各基音周期的能量規(guī)整為在上述組中的上述首要單元的基音周期的
能量°優(yōu)選,在上述用于融合濁音音素單元的方法中,在上述對上述融合的幅度譜和上述融合的相位譜進行傅立葉逆變換的步驟之后,還包括以下步驟將上述融合的基音周期的能量調整為在上述組中的上述首要單元的基音周期的能量°優(yōu)選,在上述用于融合濁音音素單元的方法中,上述基于上述對齊的基音周期從上述多個單元中選擇一個首要單元的步驟包括以下步驟針對上述模板的每個基音周期,從上述多個單元的除了上述參考單元的每個單元中,抽取與上述每個基音周期對齊的基音周期,其中將上述抽取出的基音周期與上述每個基音周期作為一個組;計算各組中的每兩個基音周期之間的相似度;計算所有組中的與上述每兩個基音周期對應的相似度之和,作為上述多個單元的與上述每兩個基音周期對應的兩個單元之間的相似度;以及計算上述多個單元的每個單元與其他單元的相似度之和,其中將上述多個單元中的相似度之和最大的單元作為上述首要單元。在本發(fā)明的上述用于融合濁音音素單元的方法中,對于融合得到的單元,每個基音周期融合后的能量是來自首要單元的基音周期的能量,所以融合單元的能量軌跡也就是首要單元的能量軌跡,因此,只要首要單元的能量軌跡好,融合單元就會好。也就是說,只要選擇到了一個較優(yōu)的首要單元,則其它單元的可能不好的能量軌跡就不會對最后的融合單元造成影響。優(yōu)選,在上述用于融合濁音音素單元的方法中,上述基于上述每個單元的基音周期信息和上述目標片段的基音周期個數(shù)從上述多個單元中選擇一個參考單元的步驟包括以下步驟將上述多個單元中的一個單元作為候選單元,基于上述候選單元和上述目標片段的基音周期個數(shù)創(chuàng)建一個模板;利用動態(tài)規(guī)劃算法將上述多個單元的除了上述候選單元的每個單元的基音周期與上述模板的基音周期對齊;計算上述模板和上述每個單元的各對齊的基音周期對之間的相似度;計算上述模板和上述每個單元的所有對齊的基音周期對的相似度之和,作為上述候選單元與上述每個單元之間的相似度;計算上述候選單元與上述多個單元的除了上述候選單元的其他單元的相似度之和,作為上述候選單元與上述其他單元之間的整體相似度;以及依次將上述多個單元作為上述候選單元,計算與其他單元的整體相似度,其中將與其他單元的整體相似度最大的單元作為上述參考單元。根據(jù)本發(fā)明的第2方面,提供了一種合成語音的方法,包括以下步驟輸入文本句;對輸入的文本句進行文本分析,以提取語言學信息;利用上述語言學信息和預先訓練好的韻律模型,預測韻律信息;利用上述語言學信息和上述韻律信息,在預先訓練好的語音單元庫中為每個目標片段選擇多個單元;判斷每個目標片段是清音音素還是濁音音素;在上述目標片段是清音因素的情況下,從上述多個單元中選擇最優(yōu)的一個單元作為上述目標片段的語音單元;在上述目標片段是濁音音素的情況下,利用上述用于融合濁音音素單元的方法將上述多個單元融合為上述目標片段的語音單元;以及將所有的目標片段的語音單元拼接為上述文本句的合成語音。在本發(fā)明的上述合成語音的方法中,由于在上述目標片段是濁音音素的情況下, 利用上述用于融合濁音音素單元的方法將上述多個單元融合為上述目標片段的語音單元, 因此可以顯著提高語言合成的性能。根據(jù)本發(fā)明的第3方面,提供了一種在語音合成中用于融合濁音音素單元的裝置,包括單元輸入模塊,其輸入用于目標片段的濁音音素的多個單元;單元切分模塊,其對上述多個單元的每個單元進行切分以獲得每個單元的基音周期;參考單元選擇模塊,其基于上述每個單元的基音周期信息和上述目標片段的基音周期個數(shù)從上述多個單元中選擇一個參考單元;模板創(chuàng)建模塊,其基于上述參考單元選擇模塊選中的參考單元和上述目標片段的基音周期個數(shù)創(chuàng)建一個模板,其中上述模板的基音周期的個數(shù)與上述目標片段的基音周期的個數(shù)相同;基音周期對齊模塊,其利用動態(tài)規(guī)劃算法將上述多個單元的除了上述參考單元的每個單元的基音周期與上述模板的基音周期對齊;基音周期融合模塊,其將上述基音周期對齊模塊對齊的基音周期融合;以及基音周期拼接模塊,其將上述基音周期融合模塊融合的基音周期拼接為上述目標片段的融合單元。在本發(fā)明的上述用于融合濁音音素單元的裝置中,引入了動態(tài)規(guī)劃算法用于基音周期映射,即基音周期對齊,由于基音周期信號之間的相似度可以用波形、幅度譜或其它類似物的相關性來度量,因此可以挑選擁有最大累積相關性得分的路徑作為對齊結果并記錄在映射表中。由于動態(tài)地進行基音周期的對齊,因此可以使得將要融合的基音周期具有更好的一致性。優(yōu)選,在上述用于融合濁音音素單元的裝置中,上述基音周期融合模塊包括
基音周期分組模塊,其針對上述模板的每個基音周期,從上述多個單元的除了上述參考單元的每個單元中,抽取與上述每個基音周期對齊的基音周期,其中將上述基音周期分組模塊抽取出的基音周期與上述每個基音周期作為一個組;變換模塊,其對上述組的基音周期進行傅立葉變換以獲得上述組的基音周期的相位譜和幅度譜;相位譜融合模塊,其將上述組的基音周期的相位譜融合;幅度譜融合模塊,其將上述組的基音周期的幅度譜融合;以及逆變換模塊,其對上述相位譜融合模塊融合的相位譜和上述幅度譜融合模塊融合的幅度譜進行傅立葉逆變換以獲得上述融合的基音周期。優(yōu)選,上述用于融合濁音音素單元的裝置還包括首要單元選擇模塊,其基于上述基音周期對齊模塊對齊的基音周期從上述多個單元中選擇一個首要單元。優(yōu)選,在上述用于融合濁音音素單元的裝置中,上述幅度譜融合模塊包括計算模塊,其計算上述組的基音周期的幅度譜的對數(shù)平均,作為融合的幅度譜。優(yōu)選,在上述用于融合濁音音素單元的裝置中,上述相位譜融合模塊使用上述首要單元的相位譜作為融合的相位譜。在本發(fā)明的上述用于融合濁音音素單元的裝置中,基音周期的融合是在傅立葉變換的頻譜上實現(xiàn)的,其中對幅度譜進行共振峰對齊然后在對數(shù)域上計算平均,對相位譜則直接使用首要單元的相位譜。基于FFT頻譜的基音周期融合,將幅度譜和相位譜分開進行處理,更加符合聲音信號的物理本質。另外,通過首要單元為融合單元提供相位譜,因此,只要選擇到了一個較優(yōu)的首要單元,則其它單元的可能不好的相位就不會對最后的融合單元造成影響。優(yōu)選,在上述用于融合濁音音素單元的裝置中,上述基音周期融合模塊還包括能量規(guī)整模塊,其將上述組內(nèi)各基音周期的能量規(guī)整為在上述組中的上述首要單元的基音周期的能量。優(yōu)選,在上述用于融合濁音音素單元的裝置中,上述基音周期融合模塊還包括能量調整模塊,其將上述融合的基音周期的能量調整為在上述組中的上述首要單元的基音周期的能量。優(yōu)選,在上述用于融合濁音音素單元的裝置中,上述首要單元選擇模塊包括基音周期分組模塊,其針對上述模板的每個基音周期,從上述多個單元的除了上述參考單元的每個單元中,抽取與上述每個基音周期對齊的基音周期,其中將上述基音周期分組模塊抽取出的基音周期與上述每個基音周期作為一個組;以及計算模塊,其用于計算各組中的每兩個基音周期之間的相似度;計算所有組中的與上述每兩個基音周期對應的相似度之和,作為上述多個單元的與上述每兩個基音周期對應的兩個單元之間的相似度;以及計算上述多個單元的每個單元與其他單元的相似度之和,其中將上述多個單元中的相似度之和最大的單元作為上述首要單元。在本發(fā)明的上述用于融合濁音音素單元的裝置中,對于融合得到的單元,每個基音周期融合后的能量是來自首要單元的基音周期的能量,所以融合單元的能量軌跡也就是首要單元的能量軌跡,因此,只要首要單元的能量軌跡好,融合單元就會好。也就是說,只要選擇到了一個較優(yōu)的首要單元,則其它單元的可能不好的能量軌跡就不會對最后的融合單元造成影響。優(yōu)選,在上述用于融合濁音音素單元的裝置中,上述參考單元選擇模塊包括計算模塊,并且如下進行參考單元的選擇將上述多個單元中的一個單元作為候選單元,利用上述模板創(chuàng)建模塊基于上述候選單元和上述目標片段的基音周期個數(shù)創(chuàng)建一個模板;利用上述基音周期對齊模塊將上述多個單元的除了上述候選單元的每個單元的基音周期與上述模板的基音周期對齊;以及利用上述計算模塊進行以下計算計算上述模板和上述每個單元的各對齊的基音周期對之間的相似度;計算上述模板和上述每個單元的所有對齊的基音周期對的相似度之和,作為上述候選單元與上述每個單元之間的相似度;計算上述候選單元與上述多個單元的除了上述候選單元的其他單元的相似度之和,作為上述候選單元與上述其他單元之間的整體相似度;以及依次將上述多個單元作為上述候選單元,計算與其他單元的整體相似度,其中將與其他單元的整體相似度最大的單元作為上述參考單元。根據(jù)本發(fā)明的第4方面,提供了一種合成語音的裝置,包括文本句輸入模塊,其輸入文本句;文本分析模塊,其對輸入的文本句進行文本分析,以提取語言學信息;韻律預測模塊,其利用上述語言學信息和預先訓練好的韻律模型,預測韻律信息;單元選擇模塊,其利用上述語言學信息和上述韻律信息,在預先訓練好的語音單元庫中為每個目標片段選擇多個單元;清濁判斷模塊,其判斷每個目標片段是清音音素還是濁音音素;最優(yōu)單元選擇模塊,其在上述目標片段是清音因素的情況下,從上述多個單元中選擇最優(yōu)的一個單元作為上述目標片段的語音單元;上述用于融合濁音音素單元的裝置,其在上述目標片段是濁音音素的情況下,將上述多個單元融合為上述目標片段的語音單元;以及單元拼接模塊,其將所有的目標片段的語音單元拼接為上述文本句的合成語音。在本發(fā)明的上述合成語音的裝置中,由于具有上述用于融合濁音音素單元的裝置,其在上述目標片段是濁音音素的情況下,將上述多個單元融合為上述目標片段的語音單元,因此可以顯著提高語言合成的性能。


相信通過以下結合附圖對本發(fā)明具體實施方式
的說明,能夠使人們更好地了解本發(fā)明上述的特點、優(yōu)點和目的。圖1是根據(jù)本發(fā)明的一個實施例的合成語音的方法的流程圖。
圖2是根據(jù)本發(fā)明的一個實施例的用于融合濁音音素單元的方法的流程圖。圖3是根據(jù)本發(fā)明的一個實施例的對基音周期進行映射的方法的流程圖。圖4是根據(jù)本發(fā)明的一個實施例的利用動態(tài)規(guī)劃算法對基音周期進行對齊的一個實例。圖5是根據(jù)本發(fā)明的一個實施例的映射表的一個實例。圖6(a)和(b)是根據(jù)本發(fā)明的一個實施例的用于動態(tài)規(guī)劃算法的合法區(qū)域的兩個實例。圖7是根據(jù)本發(fā)明的一個實施例的對基音周期進行融合的方法的流程圖。圖8是根據(jù)本發(fā)明的另一個實施例的合成語音的裝置的框圖。圖9是根據(jù)本發(fā)明的另一個實施例的用于融合濁音音素單元的裝置的框圖。圖10是根據(jù)本發(fā)明的另一個實施例的映射模塊的框圖。圖11是根據(jù)本發(fā)明的另一個實施例的基音周期融合模塊的框圖。
具體實施例方式下面就結合附圖對本發(fā)明的各個優(yōu)選實施例進行詳細的說明。合成語咅的方法圖1是根據(jù)本發(fā)明的一個實施例的合成語音的方法的流程圖。下面就結合該圖, 對本實施例進行描述。如圖1所示,首先,在步驟101,輸入文本句。在本實施例中,輸入的文本句可以是本領域的技術人員公知的任何文本的句子,也可以是各種語言的文本句,例如漢語、英語、 日語等,本發(fā)明對此沒有任何限制。接著,在步驟105,對輸入的文本句進行文本分析以從輸入的文本句中提取語言學信息。在本實施例中,語言學信息包括上下文信息,具體地包括上述文本句的句長,句中各字(詞)的字形、拼音、音素類型、聲調、詞性、句中位置、與前后字(詞)之間的邊界類型以及與前后停頓之間的距離等等。此外,在本實施例中,用于從輸入的文本句中提取語言學信息的文本分析方法可以是本領域的技術人員公知的任何方法,本發(fā)明對此沒有任何限制。接著,在步驟110,利用上述語言學信息和預先訓練好的韻律模型10,預測韻律信息。在本實施例中,韻律模型10是利用大語音庫提前訓練而成的。韻律信息包括音高、音長、音強、時長、停頓等等。此外,在本實施例中,用于訓練韻律模型的方法和用于預測韻律信息的方法可以是本領域的技術人員公知的任何方法,本發(fā)明對此沒有任何限制。在步驟110之后,上述文本句被分割為多個目標片段。接著,在步驟115,利用上述語言學信息和上述韻律信息,在預先訓練好的語音單元庫20中為每一個目標片段選擇多個單元。在本實施例中,語音單元庫20是利用大語音庫提前訓練而成的。選出的每個單元為上述目標片段的一個候選語音。此外,在本實施例中,用于訓練語音單元庫的方法和用于選擇多個單元的方法可以是本領域的技術人員公知的任何方法,本發(fā)明對此沒有任何限制。接著,在步驟120,對每一個目標片段進行清/濁判斷,即判斷該目標片段的語音的音素是清音音素還是濁音音素。在本實施例中,可以使用本領域的技術人員公知的任何方法進行清/濁判斷,本發(fā)明對此沒有任何限制。
如果在步驟120中判斷為清音音素,則進入步驟125,直接從所選則的多個單元中選擇一個最優(yōu)的單元作為上述目標片段的語音單元。此外,可選地,也可以對選中的最優(yōu)單元的能量進行調整以調整其幅度。在本實施例中,用于選擇最優(yōu)單元的方法和用于調整能量的方法可以是本領域的技術人員公知的任何方法,本發(fā)明對此沒有任何限制。如果在步驟120中判斷為濁音音素,則進入步驟130,將所選擇的多個單元融合為上述目標片段的語音單元。將用于濁音音素的多個單元融合為一個的方法將在下文中參考圖2進行詳細說明,在此不再贅述。最后,在步驟135,將所有的目標片段的語音單元拼接為上述文本句的合成語音 30。在本實施例中,用于拼接語音單元的方法可以是本領域的技術人員公知的任何方法,本發(fā)明對此沒有任何限制。用于融合濁咅咅素單元的方法圖2是根據(jù)本發(fā)明的一個實施例的用于融合濁音音素單元的方法的流程圖。下面就結合該圖,對本實施例的用于融合濁音音素單元的方法進行描述。如圖2所示,在步驟201,輸入用于目標片段的濁音音素的多個單元。接著,在步驟205,對上述多個單元的每個單元按照基音周期進行切分以獲得每個單元的基音周期。在本實施例中,用于進行基音周期切分的方法可以是本領域的技術人員公知的任何方法,本發(fā)明對此沒有任何限制。例如,可以使用T-D PSOLA (Time-Domain Pitch-SynchronousOverlap-Add,時域基音同步疊加)算法(參見非專利文獻2 Hamon, C. , Moulines, E.and Charpentier, F. ,“A diphone synthesis system based ontime-domain prosodic modifications of speech,,,ICASSP' 89, May 22-25, Glasgow, Scotland, pp. 238-241,1989,在此通過參考引入其整個內(nèi)容)對每個單元按照基音周期進行切分。接著,在步驟210,對切分后的η個單元的基音周期和目標片段的基音周期進行映射以將基音周期對齊,得到映射表40。下面參考圖3-6對本實施例的進行映射的方法進行詳細說明。圖3是根據(jù)本發(fā)明的一個實施例的對基音周期進行映射的方法的流程圖。圖4是根據(jù)本發(fā)明的一個實施例的利用動態(tài)規(guī)劃算法對基音周期進行對齊的一個實例。圖5是根據(jù)本發(fā)明的一個實施例的映射表的一個實例。圖6是根據(jù)本發(fā)明的一個實施例的用于動態(tài)規(guī)劃算法的合法區(qū)域的兩個實例。如圖3所示,首先,在步驟301,基于上述多個單元的基音周期60和上述目標片段的基音周期個數(shù)70從上述多個單元中選擇一個參考單元。這里,假定輸入單元1包含Hi1個基音周期,輸入單元2包含m2個基音周期,下同。而目標片段包含t個基音周期。在本實施例中,可選地,可以將上述多個單元中包含基音周期個數(shù)與t最接近的輸入單元作為上述參考單元。接著,在步驟305,基于上述選中的參考單元和上述目標片段的基音周期個數(shù)創(chuàng)建一個模板,即由參考單元獲得擁有t個基音周期的模板。這個過程可以常規(guī)地通過線性地復制或者刪除一些基音周期來實現(xiàn)。最后,在步驟310,利用動態(tài)規(guī)劃算法將上述多個單元的除了上述參考單元的每個單元的基音周期與上述模板的基音周期對齊。下面參考圖4-6對動態(tài)規(guī)劃算法進行詳細說明。如圖4所示,先計算每個基音周期對(表現(xiàn)為交叉點)的相似性,再選擇具有最大累計相似度得分的路徑作為對齊結果。最佳路徑中的所有的基音周期對都被保存到映射表 40中。映射表的一個實例在圖5中示出。每個括號中有兩個數(shù)字代表一個基音周期對。前一個數(shù)字是模板的基音周期序號而后一個數(shù)字是輸入單元的基音周期序號。第一行記錄的是輸入單元1的對齊結果,下同。用于搜尋最佳路徑的相似度量度可以是波形、幅度譜或其它類似物的相關性。為簡單起見,可以強制將各輸入單元的一個且僅一個基音周期對齊到模板的一個基音周期上。進一步地,可以將合法的基音周期對限制在一個合理的區(qū)域以減少計算量。兩個合法區(qū)域的實例在圖6中示出。還可以使用邊界放松來消除單元標注不一致的影響。這里的邊界放松指對齊到模板的第一個/最后一個基音周期的基音周期并不總是輸入單元的第一個/最后一個。換句話說,最佳路徑可以以(1,幻,(1,;3)開始并且以(t, Hi1-I),(t, m「2)結束。在本實施例中,可以利用本領域的技術人員公知的任何動態(tài)規(guī)劃算法進行上述對齊,本發(fā)明對此沒有任何限制。另外,在本實施例中,在步驟301,為了選擇出更優(yōu)的參考單元,也可以通過以下方法進行選擇將上述多個單元中的一個單元作為候選單元,基于上述候選單元和上述目標片段的基音周期,利用上述步驟305的方法創(chuàng)建一個模板;利用上述步驟310的動態(tài)規(guī)劃算法將上述多個單元的除了上述候選單元的每個單元的基音周期與上述模板的基音周期對齊,得到映射表40 ;計算上述模板和與候選單元不同的每個單元的每個對齊的基音周期對之間的相似度;計算上述模板和上述每個單元的所有對齊的基音周期對的相似度之和,作為上述候選單元與上述每個單元之間的相似度;計算上述候選單元與上述多個單元的除了上述候選單元的其他單元的相似度之和,作為上述候選單元與上述其他單元之間的整體相似度;以及依次將上述多個單元作為上述候選單元,計算與其他單元的整體相似度,其中將與其他單元的整體相似度最大的單元作為上述參考單元。返回圖2,接著,在步驟215,基于上述對齊的基音周期即映射表40,從上述選中的多個單元中選擇一個首要單元。在本實施例中,可以將上述參考單元作為首要單元,也可以通過以下方法進行選擇針對上述步驟305構建的模板的每個基音周期,從上述多個單元的除了上述參考單元的每個單元中,抽取與上述每個基音周期對齊的基音周期,其中將上述抽取出的基音周期與上述每個基音周期作為一個組;計算各組中的每兩個基音周期之間的相似度;計算所有組中的與上述每兩個基音周期對應的相似度之和,作為上述多個單元的與上述每兩個基音周期對應的兩個單元之間的相似度;以及計算上述多個單元的每個單元與其他單元的相似度之和,其中將上述多個單元中的相似度之和最大的單元作為上述首要單元。
接著,在步驟220,將上述對齊的基音周期融合。在本實施例中,可以使用本領域的技術人員公知的任何方法對上述對齊的基音周期進行融合,此時,上述步驟215選擇首要單元的步驟是可選的,可以根據(jù)實際需要來確定是否進行上述步驟215。另外,優(yōu)選,利用本發(fā)明的下述對基音周期進行融合的方法進行步驟220,此時,需要上述步驟215選擇首要單兀。最后,在步驟225,將上述融合的基音周期拼接為上述目標片段的融合單元50,即為上述目標片段的語音單元。在本實施例中,用于拼接融合的基音周期的方法可以是本領域的技術人員公知的任何方法,本發(fā)明對此沒有任何限制。例如,可以使用上述非專利文獻 2中記載的T-D PSOLA算法對融合的基音周期進行拼接。在本發(fā)明的上述用于融合濁音音素單元的方法中,引入了動態(tài)規(guī)劃算法用于基音周期映射,即基音周期對齊,由于基音周期信號之間的相似度可以用波形、幅度譜或其它類似物的相關性來度量,因此可以挑選擁有最大累積相關性得分的路徑作為對齊結果并記錄在映射表中。由于動態(tài)地進行基音周期的對齊,因此可以使得將要融合的基音周期具有更好的一致性。對基咅周期講行融合的方法圖7是根據(jù)本發(fā)明的一個實施例的對基音周期進行融合的方法的流程圖。下面就結合該圖,對本實施例的對基音周期進行融合的方法進行描述。如圖7所示,首先,在步驟701,針對上述模板的每個基音周期,從上述多個單元的除了上述參考單元的每個單元中,抽取與上述每個基音周期對齊的基音周期,其中將上述抽取出的基音周期與上述每個基音周期作為一個組。也就是說,從切分的基音周期60中將對應的基音周期抽出并聚成一組。在本實施例中,用于對基音周期進行分組的方法可以是本領域的技術人員公知的任何方法,本發(fā)明對此沒有任何限制。接著,在步驟705,將每個組內(nèi)各基音周期信號的能量規(guī)整為相同值,即在該組中的首要單元的基音周期信號的能量。接著,在步驟710,對每個組的基音周期信號的波形進行傅立葉變換以獲得該組的基音周期信號的相位譜和幅度譜。在本實施例中,可選地,可以利用FFT (快速傅立葉變換) 進行上述傅立葉變換,或者采用本領域的技術人員公知的任何其他方法進行上述傅立葉變換,本發(fā)明對此沒有任何限制。接著,在步驟715,將每個組的基音周期信號的相位譜融合。在本實施例中,優(yōu)選, 推薦直接選擇首要單元的相位譜作為融合的相位譜。接著,在步驟720,將每個組的基音周期的幅度譜融合。在本實施例中,優(yōu)選,計算每個組的基音周期的幅度譜的對數(shù)平均值作為融合的幅度譜。更優(yōu)選,可以在計算每個組的基音周期的幅度譜的對數(shù)平均之前以首要單元為基準做共振峰對齊。接著,在步驟725,對上述融合的幅度譜和上述融合的相位譜進行傅立葉逆變換 (例如IFFT (快速傅立葉逆變換))以重建波形,獲得融合的基音周期信號。最后,在步驟730,將融合的基音周期信號的能量調整為與首要單元的基音周期的能量一致,從而得到融合的基音周期80。在本實施例中,上述對能量進行規(guī)整的步驟705和對能量進行調整的步驟730都是可選步驟,本發(fā)明也可以不進行步驟705或者步驟730。
在本發(fā)明的上述用于融合濁音音素單元的方法中,基音周期的融合是在傅立葉變換的頻譜上實現(xiàn)的,其中對幅度譜進行共振峰對齊然后在對數(shù)域上計算平均,對相位譜則直接使用首要單元的相位譜。基于FFT頻譜的基音周期融合,將幅度譜和相位譜分開進行處理,更加符合聲音信號的物理本質。另外,通過首要單元為融合單元提供相位譜,因此,只要選擇到了一個較優(yōu)的首要單元,則其它單元的可能不好的相位就不會對最后的融合單元造成影響。另外,在本發(fā)明的上述用于融合濁音音素單元的方法中,對于融合得到的單元,每個基音周期融合后的能量是來自首要單元的基音周期的能量,所以融合單元的能量軌跡也就是首要單元的能量軌跡,因此,只要首要單元的能量軌跡好,融合單元就會好。也就是說, 只要選擇到了一個較優(yōu)的首要單元,則其它單元的可能不好的能量軌跡就不會對最后的融合單元造成影響。進而,在本發(fā)明的上述合成語音的方法中,由于在上述目標片段是濁音音素的情況下,利用上述用于融合濁音音素單元的方法將上述多個單元融合為上述目標片段的語音單元,因此可以顯著提高語言合成的性能。合成語咅的裝置在同一發(fā)明構思下,圖8是根據(jù)本發(fā)明的另一個實施例的合成語音的裝置的框圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當省略其說明。如圖8所示,本實施例的合成語音的裝置800包括文本句輸入模塊801,其輸入文本句;文本分析模塊805,其對輸入的文本句進行文本分析,以提取語言學信息;韻律預測模塊810,其利用上述語言學信息和預先訓練好的韻律模型10,預測韻律信息;單元選擇模塊815,其利用上述語言學信息和上述韻律信息,在預先訓練好的語音單元庫20中為每個目標片段選擇多個單元;清濁判斷模塊820,其判斷每個目標片段是清音音素還是濁音音素;最優(yōu)單元選擇模塊825,其在上述目標片段是清音因素的情況下,從上述多個單元中選擇最優(yōu)的一個單元作為上述目標片段的語音單元;用于融合濁音音素單元的裝置900, 其在上述目標片段是濁音音素的情況下,將上述多個單元融合為上述目標片段的語音單元;以及單元拼接模塊835,其將所有的目標片段的語音單元拼接為上述文本句的合成語音30。在本實施例中,輸入模塊801輸入的文本句可以是本領域的技術人員公知的任何文本的句子,也可以是各種語言的文本句,例如漢語、英語、日語等,本發(fā)明對此沒有任何限制。文本分析模塊805對輸入的文本句進行文本分析以從輸入的文本句中提取語言學信息。在本實施例中,語言學信息包括上下文信息,具體地包括上述文本句的句長,句中各字(詞)的字形、拼音、音素類型、聲調、詞性、句中位置、與前后字(詞)之間的邊界類型以及與前后停頓之間的距離等等。此外,在本實施例中,文本分析模塊805可以是本領域的技術人員公知的用于從輸入的文本句中提取語言學信息的任何模塊,本發(fā)明對此沒有任何限制。韻律預測模塊810利用上述語言學信息和預先訓練好的韻律模型10,預測韻律信息。在本實施例中,韻律模型10是利用大語音庫提前訓練而成的。韻律信息包括音高、音
14長、音強、時長、停頓等等。此外,在本實施例中,用于訓練韻律模型的方法可以是本領域的技術人員公知的任何方法,并且韻律預測模塊810可以是本領域的技術人員公知的用于預測韻律信息的任何模塊,本發(fā)明對此沒有任何限制。在文本分析模塊805和韻律預測模塊810中,上述文本句被分割為多個目標片段。單元選擇模塊815利用上述語言學信息和上述韻律信息,在預先訓練好的語音單元庫20中為每一個目標片段選擇多個單元。在本實施例中,語音單元庫20是利用大語音庫提前訓練而成的。選出的每個單元為上述目標片段的一個候選語音。此外,在本實施例中, 用于訓練語音單元庫的方法可以是本領域的技術人員公知的任何方法,并且單元選擇模塊 815可以是本領域的技術人員公知的用于選擇單元的任何模塊,本發(fā)明對此沒有任何限制。清濁判斷模塊820對每一個目標片段進行清/濁判斷,即判斷該目標片段的語音的音素是清音音素還是濁音音素。在本實施例中,清濁判斷模塊820可以是本領域的技術人員公知的用于進行清/濁判斷的任何模塊,本發(fā)明對此沒有任何限制。在清濁判斷模塊820判斷為清音音素的情況下,最優(yōu)單元選擇模塊825直接從所選則的多個單元中選擇一個最優(yōu)的單元作為上述目標片段的語音單元。此外,可選地,也可以對選中的最優(yōu)單元的能量進行調整以調整其幅度。在本實施例中,最優(yōu)單元選擇模塊825 可以是本領域的技術人員公知的用于選擇最優(yōu)單元的任何模塊,并且用于調整能量的方法可以是本領域的技術人員公知的任何方法,本發(fā)明對此沒有任何限制。在清濁判斷模塊820判斷為濁音音素的情況下,用于融合濁音音素單元的裝置 900將所選擇的多個單元融合為上述目標片段的語音單元。將用于濁音音素的多個單元融合為一個的裝置900將在下文中參考圖9進行詳細說明,在此不再贅述。單元拼接模塊835將所有的目標片段的語音單元拼接為上述文本句的合成語音 30。在本實施例中,單元拼接模塊835可以是本領域的技術人員公知的用于拼接語音單元的任何模塊,本發(fā)明對此沒有任何限制。用于融合濁咅咅素單元的裝I1圖9是根據(jù)本發(fā)明的另一個實施例的用于融合濁音音素單元的裝置的框圖。下面就結合該圖,對本實施例的用于融合濁音音素單元的裝置900進行描述。如圖9所示,本實施例的用于融合濁音音素單元的裝置900包括單元輸入模塊 901、單元切分模塊905、映射模塊1000、首要單元選擇模塊915、基音周期融合模塊1100以及基音周期拼接模塊925。下面分別對這些模塊進行描述。單元輸入模塊901輸入用于目標片段的濁音音素的多個單元。單元切分模塊905對上述多個單元的每個單元針對基音周期進行切分以獲得每個單元的基音周期。在本實施例中,單元切分模塊905可以是本領域的技術人員公知的用于進行基音周期切分的任何模塊,本發(fā)明對此沒有任何限制。例如,單元切分模塊905可以使用上述非專利文獻2中記載的T-D PSOLA算法對每個單元按照基音周期進行切分。映射模塊1000對切分后的η個單元的基音周期和目標片段的基音周期進行映射以將基音周期對齊,得到映射表40。下面參考圖10對本實施例的映射模塊1000進行詳細說明。圖10是根據(jù)本發(fā)明的另一個實施例的映射模塊的框圖。如圖10所示,本實施例的映射模塊1000包括參考單元選擇模塊1001、模板創(chuàng)建模塊1005以及基音周期對齊模塊1010。下面分別對這些模塊進行描述。參考單元選擇模塊1001基于上述多個單元的基音周期60和上述目標片段的基音周期個數(shù)70從上述多個單元中選擇一個參考單元。這里,假定輸入單元1包含Hi1個基音周期,輸入單元2包含m2個基音周期,下同。而目標片段包含t個基音周期。在本實施例中, 可選地,可以將上述多個單元中包含基音周期個數(shù)與t最接近的輸入單元作為上述參考單兀。模板創(chuàng)建模塊1005基于上述參考單元選擇模塊1001選中的參考單元和上述目標片段的基音周期個數(shù)創(chuàng)建一個模板,即由參考單元獲得擁有t個基音周期的模板。這個過程可以常規(guī)地通過線性地復制或者刪除一些基音周期來實現(xiàn)?;糁芷趯R模塊1010利用動態(tài)規(guī)劃算法將上述多個單元的除了上述參考單元的每個單元的基音周期與上述模板的基音周期對齊。下面參考圖4-6對基音周期對齊模塊 1010所進行的動態(tài)規(guī)劃算法進行詳細說明。如圖4所示,先計算每個基音周期對(表現(xiàn)為交叉點)的相似性,再選擇具有最大累計相似度得分的路徑作為對齊結果。最佳路徑中的所有的基音周期對都被保存到映射表 40中。映射表的一個實例在圖5中示出。每個括號中有兩個數(shù)字代表一個基音周期對。前一個數(shù)字是模板的基音周期序號而后一個數(shù)字是輸入單元的基音周期序號。第一行記錄的是輸入單元1的對齊結果,下同。用于搜尋最佳路徑的相似度量度可以是波形、幅度譜或其它類似物的相關性。為簡單起見,可以強制將各輸入單元的一個且僅一個基音周期對齊到模板的一個基音周期上。進一步地,可以將合法的基音周期對限制在一個合理的區(qū)域以減少計算量。兩個合法區(qū)域的實例在圖6中示出。還可以使用邊界放松來消除單元標注不一致的影響。這里的邊界放松指對齊到模板的第一個/最后一個基音周期的基音周期并不總是輸入單元的第一個/最后一個。換句話說,最佳路徑可以以(1,幻,(1,;3)開始并且以(t, Hi1-I),(t, m「2)結束。在本實施例中,可以利用本領域的技術人員公知的任何動態(tài)規(guī)劃算法進行上述對齊,本發(fā)明對此沒有任何限制。另外,在本實施例中,為了選擇出更優(yōu)的參考單元,參考單元選擇模塊1001還包括計算模塊,并可以通過以下方法進行選擇將上述多個單元中的一個單元作為候選單元,基于上述候選單元和上述目標片段的基音周期,利用模板創(chuàng)建模塊1005創(chuàng)建一個模板;利用基音周期對齊模塊1010將上述多個單元的除了上述候選單元的每個單元的基音周期與上述模板的基音周期對齊,得到映射表40 ;以及利用計算模塊進行以下計算計算上述模板和與候選單元不同的每個單元的每個對齊的基音周期對之間的相似度;計算上述模板和上述每個單元的所有對齊的基音周期對的相似度之和,作為上述候選單元與上述每個單元之間的相似度;計算上述候選單元與上述多個單元的除了上述候選單元的其他單元的相似度之和,作為上述候選單元與上述其他單元之間的整體相似度;以及依次將上述多個單元作為上述候選單元,計算與其他單元的整體相似度,其中將
16與其他單元的整體相似度最大的單元作為上述參考單元。返回圖9,首要單元選擇模塊915基于上述對齊的基音周期即映射表40,從上述選中的多個單元中選擇一個首要單元。在本實施例中,可以將上述參考單元作為首要單元,也可以在首要單元選擇模塊915中設置基音周期分組模塊和計算模塊,并通過以下方法進行選擇利用基音周期分組模塊,針對模板構建模塊1005構建的模板的每個基音周期,從上述多個單元的除了上述參考單元的每個單元中,抽取與上述每個基音周期對齊的基音周期,其中將上述抽取出的基音周期與上述每個基音周期作為一個組;以及利用計算模塊進行以下計算計算各組中的每兩個基音周期之間的相似度;計算所有組中的與上述每兩個基音周期對應的相似度之和,作為上述多個單元的與上述每兩個基音周期對應的兩個單元之間的相似度;以及計算上述多個單元的每個單元與其他單元的相似度之和,其中將上述多個單元中的相似度之和最大的單元作為上述首要單元?;糁芷谌诤夏K1100將上述對齊的基音周期融合。在本實施例中,基音周期融合模塊1100可以是本領域的技術人員公知的對上述對齊的基音周期進行融合的任何模塊,此時,首要單元選擇模塊915是可選的,可以根據(jù)實際需要來確定是否設置首要單元選擇模塊915。另外,優(yōu)選,設置本發(fā)明的下述基音周期融合模塊1100,此時,需要設置首要單元選擇模塊915。基音周期拼接模塊925將上述融合的基音周期拼接為上述目標片段的融合單元 50,即為上述目標片段的語音單元。在本實施例中,基音周期拼接模塊925可以是本領域的技術人員公知的用于拼接融合的基音周期的任何模塊,本發(fā)明對此沒有任何限制。例如,基音周期拼接模塊925可以使用上述非專利文獻2中記載的T-D PSOLA算法對融合的基音周期進行拼接。在本發(fā)明的上述用于融合濁音音素單元的裝置900中,引入了動態(tài)規(guī)劃算法用于基音周期映射,即基音周期對齊,由于基音周期信號之間的相似度可以用波形、幅度譜或其它類似物的相關性來度量,因此可以挑選擁有最大累積相關性得分的路徑作為對齊結果并記錄在映射表中。由于動態(tài)地進行基音周期的對齊,因此可以使得將要融合的基音周期具有更好的一致性?;鶇鹬芷谌诤祥讐K圖11是根據(jù)本發(fā)明的另一個實施例的基音周期融合模塊的框圖。下面就結合該圖,對本實施例的基音周期融合模塊1100進行描述。如圖11所示,本實施例的基音周期融合模塊1100包括基音周期分組模塊1101、 能量規(guī)整模塊1105、變換模塊1110、相位譜融合模塊1115、幅度譜融合模塊1120、逆變換模塊1125和能量調整模塊1130。下面分別對這些模塊進行描述?;糁芷诜纸M模塊1101針對上述模板的每個基音周期,從上述多個單元的除了上述參考單元的每個單元中,抽取與上述每個基音周期對齊的基音周期,其中將上述抽取出的基音周期與上述每個基音周期作為一個組。也就是說,從切分的基音周期60中將對應的基音周期抽出并聚成一組。在本實施例中,基音周期分組模塊1101可以是本領域的技術人員公知的用于對基音周期進行分組的任何模塊,本發(fā)明對此沒有任何限制。能量規(guī)整模塊1105將每個組內(nèi)各基音周期信號的能量規(guī)整為相同值,即在該組中的首要單元的基音周期信號的能量。變換模塊1110對每個組的基音周期信號的波形進行傅立葉變換以獲得該組的基音周期信號的相位譜和幅度譜。在本實施例中,可選地,變換模塊1110可以是FFT變換模塊,或者采用本領域的技術人員公知的用于進行上述傅立葉變換的任何模塊,本發(fā)明對此沒有任何限制。相位譜融合模塊1115將每個組的基音周期信號的相位譜融合。在本實施例中,相位譜融合模塊1115優(yōu)選推薦直接選擇首要單元的相位譜作為融合的相位譜。幅度譜融合模塊1120將每個組的基音周期的幅度譜融合。在本實施例中,幅度譜融合模塊1120優(yōu)選具有計算模塊,其計算每個組的基音周期的幅度譜的對數(shù)平均值作為融合的幅度譜。幅度譜融合模塊1120更優(yōu)選具有共振峰對齊模塊,其在計算每個組的基音周期的幅度譜的對數(shù)平均之前以首要單元為基準做共振峰對齊。逆變換模塊1125對上述融合的幅度譜和上述融合的相位譜進行傅立葉逆變換以重建波形,獲得融合的基音周期信號。逆變換模塊1125例如是IFFT模塊。能量調整模塊1130將融合的基音周期信號的能量調整為與首要單元的基音周期的能量一致,從而得到融合的基音周期80。在本實施例中,上述對能量進行規(guī)整的能量規(guī)整模塊1105和對能量進行調整的能量調整模塊1130都是可選模塊。在本發(fā)明的上述用于融合濁音音素單元的裝置900中,基音周期的融合是在傅立葉變換的頻譜上實現(xiàn)的,其中對幅度譜進行共振峰對齊然后在對數(shù)域上計算平均,對相位譜則直接使用首要單元的相位譜?;贔FT頻譜的基音周期融合,將幅度譜和相位譜分開進行處理,更加符合聲音信號的物理本質。另外,通過首要單元為融合單元提供相位譜,因此,只要選擇到了一個較優(yōu)的首要單元,則其它單元的可能不好的相位就不會對最后的融合單元造成影響。另外,在本發(fā)明的上述用于融合濁音音素單元的裝置900中,對于融合得到的單元,每個基音周期融合后的能量是來自首要單元的基音周期的能量,所以融合單元的能量軌跡也就是首要單元的能量軌跡,因此,只要首要單元的能量軌跡好,融合單元就會好。也就是說,只要選擇到了一個較優(yōu)的首要單元,則其它單元的可能不好的能量軌跡就不會對最后的融合單元造成影響。進而,在本發(fā)明的上述合成語音的裝置800中,由于在上述目標片段是濁音音素的情況下,利用上述用于融合濁音音素單元的裝置900將上述多個單元融合為上述目標片段的語音單元,因此可以顯著提高語言合成的性能。以上雖然通過一些示例性的實施例對本發(fā)明的在語音合成中用于融合濁音音素單元的方法和裝置以及合成語音的方法和裝置進行了詳細的描述,但是以上這些實施例并不是窮舉的,本領域技術人員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實施例,本發(fā)明的范圍僅由所附權利要求為準。本發(fā)明的應用目的也不限于融合被選的多個單元,它也能應用于在拼接單元時平滑單元邊界。通常,可以將這個平滑作為兩個來自相鄰單元的邊界上的基音周期使用漸入
18漸出權重的融合來進行處理。
權利要求
1.一種在語音合成中用于融合濁音音素單元的裝置,包括 單元輸入模塊,其輸入用于目標片段的濁音音素的多個單元;單元切分模塊,其對上述多個單元的每個單元進行切分以獲得每個單元的基音周期; 參考單元選擇模塊,其基于上述每個單元的基音周期信息和上述目標片段的基音周期個數(shù)從上述多個單元中選擇一個參考單元;模板創(chuàng)建模塊,其基于上述參考單元選擇模塊選中的參考單元和上述目標片段的基音周期個數(shù)創(chuàng)建一個模板,其中上述模板的基音周期的個數(shù)與上述目標片段的基音周期的個數(shù)相同;基音周期對齊模塊,其利用動態(tài)規(guī)劃算法將上述多個單元的除了上述參考單元的每個單元的基音周期與上述模板的基音周期對齊;基音周期融合模塊,其將上述基音周期對齊模塊對齊的基音周期融合;以及基音周期拼接模塊,其將上述基音周期融合模塊融合的基音周期拼接為上述目標片段的融合單元。
2.根據(jù)權利要求1所述的用于融合濁音音素單元的裝置,其中,上述基音周期融合模塊包括基音周期分組模塊,其針對上述模板的每個基音周期,從上述多個單元的除了上述參考單元的每個單元中,抽取與上述每個基音周期對齊的基音周期,其中將上述基音周期分組模塊抽取出的基音周期與上述每個基音周期作為一個組;變換模塊,其對上述組的基音周期進行傅立葉變換以獲得上述組的基音周期的幅度譜和相位譜;相位譜融合模塊,其將上述組的基音周期的相位譜融合; 幅度譜融合模塊,其將上述組的基音周期的幅度譜融合;以及逆變換模塊,其對上述相位譜融合模塊融合的相位譜和上述幅度譜融合模塊融合的幅度譜進行傅立葉逆變換以獲得上述融合的基音周期。
3.根據(jù)權利要求2所述的用于融合濁音音素單元的裝置,還包括首要單元選擇模塊,其基于上述基音周期對齊模塊對齊的基音周期從上述多個單元中選擇一個首要單元。
4.根據(jù)權利要求3所述的用于融合濁音音素單元的裝置,其中,上述基音周期融合模塊還包括能量規(guī)整模塊,其將上述組內(nèi)各基音周期的能量規(guī)整為在上述組中的上述首要單元的基音周期的能量。
5.根據(jù)權利要求3所述的用于融合濁音音素單元的裝置,其中,上述幅度譜融合模塊包括計算模塊,其計算上述組的基音周期的幅度譜的對數(shù)平均,作為融合的幅度譜。
6.根據(jù)權利要求3所述的用于融合濁音音素單元的裝置,其中,上述相位譜融合模塊使用上述首要單元的相位譜作為融合的相位譜。
7.根據(jù)權利要求3所述的用于融合濁音音素單元的裝置,其中,上述基音周期融合模塊還包括能量調整模塊,其將上述融合的基音周期的能量調整為在上述組中的上述首要單元的基音周期的能量。
8.根據(jù)權利要求3所述的用于融合濁音音素單元的裝置,其中,上述首要單元選擇模塊包括基音周期分組模塊,其針對上述模板的每個基音周期,從上述多個單元的除了上述參考單元的每個單元中,抽取與上述每個基音周期對齊的基音周期,其中將上述基音周期分組模塊抽取出的基音周期與上述每個基音周期作為一個組;以及計算模塊,其用于計算各組中的每兩個基音周期之間的相似度;計算所有組中的與上述每兩個基音周期對應的相似度之和,作為上述多個單元的與上述每兩個基音周期對應的兩個單元之間的相似度;以及計算上述多個單元的每個單元與其他單元的相似度之和,其中將上述多個單元中的相似度之和最大的單元作為上述首要單元。
9.根據(jù)權利要求1所述的用于融合濁音音素單元的裝置,其中,上述參考單元選擇模塊包括計算模塊,并且如下進行參考單元的選擇 將上述多個單元中的一個單元作為候選單元,利用上述模板創(chuàng)建模塊基于上述候選單元和上述目標片段的基音周期個數(shù)創(chuàng)建一個模板;利用上述基音周期對齊模塊將上述多個單元的除了上述候選單元的每個單元的基音周期與上述模板的基音周期對齊;以及利用上述計算模塊進行以下計算計算上述模板和上述每個單元的各對齊的基音周期對之間的相似度; 計算上述模板和上述每個單元的所有對齊的基音周期對的相似度之和,作為上述候選單元與上述每個單元之間的相似度;計算上述候選單元與上述多個單元的除了上述候選單元的其他單元的相似度之和,作為上述候選單元與上述其他單元之間的整體相似度;以及依次將上述多個單元作為上述候選單元,計算與其他單元的整體相似度,其中將與其他單元的整體相似度最大的單元作為上述參考單元。
10.一種在語音合成中用于融合濁音音素單元的方法,包括以下步驟 輸入用于目標片段的濁音音素的多個單元;對上述多個單元的每個單元進行切分以獲得每個單元的基音周期; 基于上述每個單元的基音周期信息和上述目標片段的基音周期個數(shù)從上述多個單元中選擇一個參考單元;基于上述選中的參考單元和上述目標片段的基音周期個數(shù)創(chuàng)建一個模板,其中上述模板的基音周期的個數(shù)與上述目標片段的基音周期的個數(shù)相同;利用動態(tài)規(guī)劃算法將上述多個單元的除了上述參考單元的每個單元的基音周期與上述模板的基音周期對齊;將上述對齊的基音周期融合;以及將上述融合的基音周期拼接為上述目標片段的融合單元。
全文摘要
本發(fā)明提供了在語音合成中用于融合濁音音素單元的方法和裝置。本發(fā)明的一種用于融合濁音音素單元的裝置包括單元輸入模塊,其輸入用于目標片段的濁音音素的多個單元;單元切分模塊,其對多個單元的每個單元進行切分以獲得每個單元的基音周期;參考單元選擇模塊,其基于每個單元的基音周期信息和目標片段的基音周期個數(shù)從多個單元中選擇一個參考單元;模板創(chuàng)建模塊,其基于參考單元和目標片段的基音周期個數(shù)創(chuàng)建一個模板;基音周期對齊模塊,其利用動態(tài)規(guī)劃算法將多個單元的除了參考單元的每個單元的基音周期與模板的基音周期對齊;基音周期融合模塊,其將對齊的基音周期融合;以及基音周期拼接模塊,其將融合的基音周期拼接為目標片段的融合單元。
文檔編號G10L13/06GK102511061SQ201080001520
公開日2012年6月20日 申請日期2010年6月28日 優(yōu)先權日2010年6月28日
發(fā)明者李健, 欒劍 申請人:株式會社東芝
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1