引導式說話人自適應語音合成的系統(tǒng)與方法及程序產品的制作方法
【專利摘要】引導式說話人自適應語音合成的系統(tǒng)與方法及程序產品。根據一種引導式說話人自適應語音合成系統(tǒng)的一實施例,一說話人自適應訓練模塊,根據輸入的錄音文稿與對應的錄音語句,輸出自適應信息與說話人自適應模型。一文字轉語音合成引擎,接收該錄音文稿、該說話人自適應模型,輸出合成語句信息。一成果評估模塊,接收該自適應信息、該合成語句信息,估計出評估信息。一自適應建議模塊,根據該自適應信息以及該評估信息內容,從文稿來源中選取出后續(xù)要錄制的錄音文稿,作為下一次自適應的建議。
【專利說明】引導式說話人自適應語音合成的系統(tǒng)與方法及程序產品
【技術領域】
[0001]本公開涉及一種引導式說話人自適應(guided speaker adaptation)語音合成(speech synthesis)的系統(tǒng)與方法及計算機程序產品。
【背景技術】
[0002]建立說話人相關(speaker dependent)語音合成系統(tǒng),不論是采用語料庫(corpusbased)或是統(tǒng)計模型為主(statistical model based)等,通常需要在專業(yè)的錄音環(huán)境下,錄制大量、穩(wěn)定且說話特性一致的聲音樣本,例如收錄大于2.5個小時,且聲音樣本控制在穩(wěn)定一致的狀態(tài)的聲音樣本。基于隱藏式馬可夫模型(Hidden Markov Model,HMM)語音合成系統(tǒng)搭配說話人自適應技術可提供快速且穩(wěn)定的個人化語音合成系統(tǒng)的建立方案。此技術通過一預先建立好的初始語音模型(全文中的“模式”也可稱之為“模型”),新的說話人只要輸入少于約10分鐘的語料就可將一平均語音模型自適應成具有個人音色特質的語音模型。
[0003]基于HMM架構的語音合成系統(tǒng),如圖1所示,一開始輸入一串文字,經過文本分析(Text Analysis) 110可轉成文字轉語音(Text-To-Speech, TTS)系統(tǒng)可讀的全標簽(fulllabel)格式的字串 112,例如 sil-P14+P41/A:4~0/B:0+4/C:l=14/D:l@6。接著進行三種模型決策樹(decision tree)比對后,取得各個模型文檔所對應的模型編號。此三種模型決策樹為頻譜模型決策樹122、音長(duration)模型決策樹124、以及音高(pitch)模型決策樹126。每一模型決策樹決定出約有數百到數千個HMM模型,也就是說,頻譜模型決策樹決定出約有數百到數千個HMM頻譜模型、音高模型決策樹決定出約有數百到數千個HMM音高模型。例如,前述全標簽格式的字串sil-P14+P41/A:4~0/B:0+4/C:l=14/D:l@6轉成音素與模型信息如下:
[0004]音素:P14;
[0005]狀態(tài)I至5的頻譜模型編號:123、89、22、232、12 ;
[0006]狀態(tài)I至5的韻律模型編號:33、64、82、321、19。
[0007]之后,參考這些音素與模型信息來進行合成130。
[0008]語音合成技術不勝枚舉。一般的說話人自適應策略是語句越多越好,針對每個人說話特性不同并沒有設計最合適的自適應內容。在現有的技術或文獻中,有些說話人自適應的算法從少量的語料去自適應全部的語音模型,并設計模型之間彼此共享自適應數據的行為。理論上,每一語音模型代表了不同的聲音特性,所以過度共享不同特性的數據來進行說話人自適應,也會模糊化模型原本的特性而影響到合成的質量。
[0009]有的語音合成技術的說話人自適應策略是先區(qū)分說話人相關特征參數、以及說話人無關特征參數,再調整說話人相關特征后,整合之前的說話人特征無關參數后再進行合成。有的說話人自適應策略是利用類似語音轉換技術來自適應原始音高與共振峰。有的說話人自適應語音合成進行說話人自適應的算法后,并無再探討相關的自適應成果以及自適應語句推薦的部分。有的語音合成技術在設計語料庫時,并無涉以覆蓋率與聲音失真度為準則的語句挑選方式。
[0010]有的語音合成技術如圖2所示,在說話人自適應階段210中結合高層描述訊息,例如是上下文相關韻律訊息,共同來自適應目標說話人的頻譜、基頻與時長模型。此技術著重在加入高層描述訊息來進行說話人自適應,對于說話人自適應后的模型沒有進行任何評估或預測的動作。有的語音合成技術如圖3所示,比較說話人自適應模型所合成的語音參數與真實語音的聽感誤差,并且采用基于生成參數聽感誤差最小化的準則回頭調整原始說話人到目標說話人的模型轉移矩陣。此技術是著重在改變說話人自適應算法的估計法則,對于說話人自適應后的模型沒有進行任何評估或預測的動作。
[0011]上述或現有的語音合成技術中,有的僅由文字層面分析使用者應該輸入的數據,沒有考慮實際自適應之后的結果。有的默認(預設)的文稿無法在事前就知道每一使用者(客戶端)最需要自適應的地方在何處。文字層面的分析通?;谀繕苏Z言的音素類別而定,而非針對初始語音模型的架構而定。語音模型的分類常會使用到大量的語言學知識,僅基于音素的語音合成是無法窺探整個語音模型的全貌。所以該默認文稿無法讓語音模型間得到平均的語音數據來進行估計,容易出現前述模型特性模糊化的現象。
[0012]因此,如何設計一種對于說話人自適應后的模型進行評估或預測、考慮覆蓋率與聲音失真度為準則來挑選語句、以及可推薦自適應語句的語音合成技術,來提供好的聲音質量與相似度,是一個重要的議題。
【發(fā)明內容】
[0013]本公開實施例可提供一種引導式說話人自適應語音合成系統(tǒng)與方法及計算機程序廣品。
[0014]所公開的一實施例是關于一種引導式說話人自適應語音合成系統(tǒng)。此系統(tǒng)包含一說話人自適應訓練模塊(speaker adaptive training module)、一文字轉語音引擎(textto speech engine)、一成果評估模塊(performance assessment module)、以及一自適應建議模塊(adaptation recommandation module)。此說話人自適應訓練模塊根據輸入的錄音文稿(recording text)以及對應的錄音語句(recorded speech),輸出自適應信息以及說話人自適應模型。此文字轉語音合成引擎,接收此錄音文稿、此說話人自適應模型,輸出合成語句信息。此成果評估模塊,將參考自適應信息、此合成語句信息,估計出評估信息。此自適應建議模塊根據此錄音語句、此自適應結果、以及此評估信息,從文稿來源中選取出后續(xù)要錄制的錄音文稿,作為下一次自適應的建議。
[0015]所公開的另一實施例是關于一種引導式說話人自適應語音合成方法。此方法包含:輸入錄音文稿以及錄音語句,輸出一說話人自適應模型以及自適應信息;載入說話人自適應模型以及給定錄音文稿,輸出一合成語句信息;輸入此自適應信息、此合成語句信息,估計出評估信息;以及根據此錄音語句、此自適應信息、以及此評估信息,從文稿來源中選取出后續(xù)要錄制的錄音文稿,作為下一次自適應的建議。
[0016]所公開的又一實施例是關于一種引導式說話人自適應語音合成的計算機程序產品。此計算機程序產品包含備有多筆可讀程序代碼的一存儲介質,并且通過一硬件處理器讀取此多筆可讀程序代碼來執(zhí)行:輸入錄音文稿以及錄音語句,輸出一說話人自適應模型以及自適應信息;載入說話人自適應模型以及給定錄音文稿,輸出一合成語句信息;輸入此自適應信息、此合成語句信息,估計出評估信息;以及根據此錄音語句、此自適應信息、以及此評估信息,從文稿來源中選取出后續(xù)要錄制的錄音文稿,作為下一次自適應的建議。
[0017]現在配合下列圖示、實施例的詳細說明及申請專利范圍,將上述及本發(fā)明的其他優(yōu)點詳述于后。
【專利附圖】
【附圖說明】
[0018]圖1是基于HMM架構的語音合成技術的一范例示意圖。
[0019]圖2是一種結合高層描述信息和模型自適應的說話人轉換技術的一范例示意圖。
[0020]圖3是一種基于生成參數聽感誤差最小化的模型自適應技術的一范例示意圖。
[0021]圖4是根據本公開一實施例,說明一種引導式說話人自適應語音合成系統(tǒng)。
[0022]圖5是根據本公開一實施例,說明說話人自適應訓練模塊從一輸入文稿的范例,收集到每一筆全標簽信息所對應的音素與模型信息。
[0023]圖6是根據本公開一實施例,估計音素覆蓋率與模型覆蓋率的公式范例。
[0024]圖7是根據本公開一實施例,說明成果評估模塊估計頻譜失真度的運作。
[0025]圖8是根據本公開一實施例,說明自適應建議模塊的運作。
[0026]圖9是根據本公開的一實施例,說明一種引導式說話人自適應語音合成方法。
[0027]圖10是根據本公開的一實施例,說明基于音素覆蓋率最大化算法的流程。
[0028]圖11是根據本公開的實施例,說明基于模型覆蓋率最大化算法的流程。
[0029]圖12是根據本公開一實施例,說明一種權重重估計的調整方式。
[0030]圖13是一個句子的范例代表圖,其頻譜失真度計算的單位為音素。
[0031]【主要元件符號說明】
[0032]110文本分析112全標簽格式的字串
[0033]122頻譜模型決策樹124音長模型決策樹
[0034]126音高模型決策樹130合成
[0035]210說話人自適應階段411錄音文稿
[0036]400語音合成系統(tǒng)410說話人自適應訓練模
[0037]塊
[0038]420成果評估模塊430自適應建議模塊
[0039]440TTS引擎412錄音語句
[0040]414自適應信息416說話人自適應模型
[0041]442合成語句信息424音素與模型覆蓋率
[0042]422頻譜失真度450文稿來源
[0043]460自適應結果輸出模塊 TTS文字轉語音
[0044]516多筆全標簽信息
[0045]610覆蓋率計算公式
[0046]710特征提取720時間調整
[0047]730頻譜失真計算
[0048]810權重重估計
[0049]820基于音素與模型覆蓋率最大化的算法[0050]910輸入錄音文稿以及對應的錄音語句進行說話人自適應訓練,輸出說話人自適應模型以及自適應信息
[0051]920將說話人自適應模型以及錄音文稿提供給一 TTS引擎,輸出合成語音信息
[0052]930根據此自適應信息、以及此合成語音信息,估計出目前錄音語句的評估信息
[0053]940根據此自適應信息、以及此評估信息,從一文稿來源中選取出后續(xù)要錄制的錄音文稿,作為下一次自適應的建議
[0054]1005根據一當次的評估信息,進行權重重估計
[0055]1010初始化一文稿來源中每一候選語句的分數為O [0056]1012根據一分數函數的定義,計算文稿來源中每一句子的分數,并且將分數正規(guī)化
[0057]1014從中挑選分數最高者從該文稿來源移出到自適應建議的句子集合中
[0058]1016該挑選到的句子其所包含的音素的影響力將被降低
[0059]1018當被挑選出的句子的個數未超過一預定值時
[0060]1105根據一當次的錄音語料信息,進行權重重估計
[0061]1110初始化一文稿來源中每一候選語句的分數為O
[0062]1112根據一分數函數的定義,計算文稿來源中每一句子的分數,并且將分數正規(guī)化
[0063]1114從中挑選分數最高者從該文稿來源移出到自適應建議的句子集合中
[0064]1116該挑選到的句子其所包含的模型的影響力將被降低
[0065]1118被挑選出的句子的個數未超過一預定值時
[0066]1200權重重估計的調整方式的公式
[0067]Di某一語音單位(例如音素)的第i個失真度
[0068]Dfflean自適應語料的平均失真度
[0069]Dstd自適應語料的標準差失真度
[0070]N參與此次權重調整的單位個數
[0071]NewWeight 新權重 Weight 新權重
[0072]Factori各個因子F平均因子
【具體實施方式】
[0073]本公開實施例的引導式說話人自適應語音合成技術是通過輸入的錄音語句以及文稿內容等數據做出下一次自適應語句的推薦,由此引導使用者針對前一次自適應過程中的不足之處再次輸入語料進行補強。其中數據的評估可分為覆蓋率以及頻譜失真度的評估。在本公開實施例中,覆蓋率以及頻譜失真度的估計結果可搭配一算法,例如貪婪式算法等的設計,再從一文稿來源中挑選出最適合的自適應語句并且將該評估結果回饋給使用者或客戶端、或一處理文稿與語音輸入的模塊等。其中覆蓋率可根據輸入文稿轉換為可讀的全標簽(full label)格式的字串后,分析對應到音素以及說話人無關模型內容的覆蓋比例。頻譜失真度通過比對錄音語句與自適應后的合成語句兩者的頻譜參數,經過時間校正后所測量出的頻譜失真度而定。
[0074]說話人自適應基本上是利用自適應語料來調整所有的語音模型,這些語音模型例如是采用基于HMM架構于進行合成時所參考的多個HMM頻譜模型、多個HMM音長模型、以及多個HMM音高模型。在本公開實施例中,說話人自適應過程中被自適應的語音模型例如是,但不限定于,采用基于HMM架構于進行合成時所參考的HMM頻譜模型、HMM音長模型、HMM音高模型。舉前述基于HMM模型為例來說明說話人自適應及訓練。理論上,當進行自適應的錄音語料所轉成的可讀的全標簽格式的字串所對應到的模型編號足夠廣泛,也就是說能包含原本TTS系統(tǒng)中的大部分模型分布,那么獲得的自適應成果可以更好。基于此基本的理論點,本公開實施例設計一種可利用算法,例如貪婪算法(greedy algorithm),進行最大化的模型覆蓋率的挑選方法,來選取出后續(xù)要錄制的錄音文稿,以更有效率地進行說話人自適應。
[0075]既有的說話人自適應是根據輸入的錄音語句,進行說話人無關(SpeechIndependent, SI)語音合成模型的自適應訓練,產生說話人自適應的(Speech Adaptive,SA)語音合成模型,并且由一 TTS引擎直接根據此SA語音合成模型來進行語音合成。與既有的語音合成技術不同的是,本公開實施例的語音合成系統(tǒng)在進行既有的說話人自適應訓練后,還加入了一成果評估模塊與一自適應建議模塊,使得說話人自適應過程中可以根據目前自適應成果做不同后續(xù)文稿建議,以及提供目前自適應語句的評估信息供使用者(客戶端)參考。此成果評估模塊可以估計出自適應語句的音素覆蓋率、模型覆蓋率、以及頻譜失真度。此自適應建議模塊可以根據說話人自適應訓練后的自適應結果、以及成果評估模塊估計出的目前自適應語句的評估信息,從文稿來源中選取出后續(xù)要錄制的文稿,作為下一次自適應的推薦。依此,經由不斷地自適應與提供文稿建議的方式進行有效率的說話人自適應,使得此語音合成的系統(tǒng)可以提供好的聲音質量與相似度。
[0076]承接上述,圖4是根據本公開一實施例,說明一種引導式說話人自適應語音合成系統(tǒng)。參考圖4,語音合成系統(tǒng)400包含一說話人自適應訓練模塊410、一文字轉語音(TTS)引擎440、一成果評估模塊420、以及一自適應建議模塊430。說話人自適應訓練模塊410根據錄音文稿411以及錄音語句412自適應出一說話人自適應模型416。說話人自適應訓練模塊410根據錄音文稿411內容進行分析后,可收集到錄音文稿411所對應的音素與模型信息。說話人自適應訓練模塊410自適應后的一自適應信息414至少包括輸入的錄音語句412、分析錄音語句412所產生的切音信息、錄音文稿411所對應的音素與多種模型信息。此多種模型信息例如可采用頻譜模型信息與韻律模型信息。此韻律模型即前述的音高模型,因為頻譜決定了音色,而音高決定了韻律的大致趨勢。
[0077]一文字轉語音(TTS)引擎440根據錄音文稿411以及說話人自適應模型416,輸出合成語音信息442。此合成語音信息442至少包括合成語句以及合成語句的切音信息。
[0078]成果評估模塊420結合自適應信息414以及合成語句信息442,估計出目前自適應語句的評估信息,此評估信息包含如音素與模型覆蓋率424、以及一或多個語音差異評估參數(例如頻譜失真度422等)。音素與模型覆蓋率424包括如音素覆蓋率、頻譜模型覆蓋率、韻律型覆蓋率等。一旦有了音素和模型的統(tǒng)計信息之后,套用音素覆蓋率公式以及模型覆蓋率公式即可求得音素與模型覆蓋率。此一或多個語音差異評估參數(如頻譜失真度和/或韻律失真度等)的估計可利用說話人自適應訓練模塊410所輸入的錄音語句、錄音語句的切音信息、以及TTS引擎440提供的合成語句和合成語句的切音信息,并通過多個執(zhí)行程序來求得。如何估計出音素與模型覆蓋率與語音差異評估參數的細節(jié)與范例說明將再描述。
[0079]自適應建議模塊430根據說話人自適應訓練模塊410所輸出的自適應信息414、以及成果評估模塊420估計出的目前錄音語句的評估信息,例如頻譜失真度,從一文稿來源(例如文稿數據庫)450中選取出后續(xù)要錄制的錄音文稿,作為下一次自適應的建議。自適應建議模塊430選取錄音文稿的策略例如是,能夠讓音素/模型的覆蓋率最大化。語音合成系統(tǒng)400可輸出成果評估模塊420估計出的目前自適應語句的評估信息,如音素與模型覆蓋率、頻譜失真度等,以及自適應建議模塊430做出的下一次自適應語句的建議,如錄音文稿的建議,至一自適應結果輸出模塊460。自適應結果輸出模塊460可將這些信息,如評估信息、錄音文稿的建議等,回饋給使用者或客戶端、或一處理文字與語音輸入的模塊等。依此,經由不斷地自適應與提供文稿建議的方式進行有效率的說話人自適應,使得語音合成系統(tǒng)400也可經由自適應結果輸出模塊460輸出自適應后的語音合成聲音。
[0080]圖5是根據本公開一實施例,說明說話人自適應訓練模塊從一輸入文稿收集到每一筆全標簽信息所對應的音素與模型信息的范例。在圖5的例子中,說話人自適應訓練模塊將輸入文稿轉成多筆全標簽信息516,將此多筆全標簽信息516進行比對后,收集到每一筆全標簽信息所對應的音素信息、狀態(tài)(state) I至5的頻譜模型編號、以及狀態(tài)I至5的韻律模型編號。當模型的種類收集越多(表示覆蓋率越高)時,則代表平均語音模型可能獲得更好的自適應結果。
[0081]從圖5的例子中可窺知,當輸入一筆全標簽信息到一語音合成系統(tǒng)后,經過如決策樹比對之后可獲得它的頻譜模型編號與韻律模型編號。從全標簽信息本身也可看出它的音素信息,以sil-P14+P41/A:4~0/B:0+4/C: 1=14/D: 1@6為例,它的音素即P14(注音為丁),而左音素則為sil(代表靜音(silence)),右音素則為P41(注音為一)。因此收集自適應語料的音素與模型信息是相當直覺的,此信息收集過程是執(zhí)行于自適應訓練模塊之中。有了音素與模型的統(tǒng)計信息之后,就可以套用音素覆蓋率公式以及模型覆蓋率公式來估計出音素與模型覆蓋率。
[0082]圖6是根據本公開一實施例,估計音素覆蓋率與模型覆蓋率的公式范例。在圖6的覆蓋率計算公式610中,估計音素覆蓋率的公式中,分母的值(此例為50)代表TTS引擎有50種不同的音素;估計模型覆蓋率的公式中,假設頻譜或韻律模型皆有5個不同的狀態(tài)。當模型為頻譜模型時,模型覆蓋率的公式中,StateCoverRates中的分母(即變量ModelCounts)代表狀態(tài)s的頻譜模型種類數,分子(即變量Num_UniqueNodels)代表狀態(tài)目前收集到的頻譜模型種類數,依此模型覆蓋率的公式估計出頻譜模型覆蓋率。類似地,當模型為韻律模型時,從模型覆蓋率的公式中,可估計出韻律模型覆蓋率。
[0083]成果評估模塊420估計出的語音差異評估參數包含頻譜失真度時,相較于覆蓋率的估計是比較復雜的。如圖7所示,在本公開的實施例中,頻譜失真度的估計可利用自適應訓練模塊410所輸出錄音語句、錄音語句的切音信息、以及TTS引擎440所提供的合成語句、合成語句的切音信息,再執(zhí)行特征提取(feature extraction) 710、時間校正(timealignment) 720、以及頻譜失真計算(spectral distortion calculation) 730 來求得。
[0084]特征提取是先求取語音的特征參數,例如可采用梅爾倒頻譜(Mel-Cepstral)參數,或是線性預測編碼(Linear Prediction Coding, LPC)、或是線頻譜(Line SpecturmFrequency, LSF)、或是感知線性預測(Perceptual Linear Prediction, PLP)等方法作為參考語音特征,接著再進行錄音語句與合成語句的時間校正比對。錄音語句及合成語句的切音信息雖然是已知的,但是錄音語句與合成語句之間,每一字的發(fā)音長度并不一致,因此進行頻譜失真度計算之前,需先進行時間校正。時間校正的做法可采用動態(tài)時間扭曲(Dynamic Time Warping,DTW)。最后利用如梅爾倒頻譜失真(Mel-Cepstral Distortion,MCD)作為頻譜失真度指標計算的基礎。MCD的計算公式如下:
【權利要求】
1.一種引導式說話人自適應語音合成系統(tǒng),包含: 一說話人自適應訓練模塊,根據輸入的錄音文稿與對應的錄音語句,輸出自適應信息與說話人自適應模型; 一文字轉語音合成引擎,接收該錄音文稿與該說話人自適應模型,輸出合成語句信息; 一成果評估模塊,接收該自適應信息、該合成語句信息,估計出評估信息;以及一自適應建議模塊,根據該自適應信息與該評估信息內容,從文稿來源中選取出后續(xù)要錄制的錄音文稿,以作為下一次自適應的建議。
2.如權利要求1所述的系統(tǒng),其中該自適應訓練模塊所輸出的該自適應信息至少包括: 該錄音文稿、該錄音語句、該錄音文稿對應的音素與模型信息、以及該錄音語句對應的切音信息。
3.如權利要求2所述的系統(tǒng),其中該模型信息至少包括頻譜模型信息、與韻律模型信肩、O
4.如權利要求1所述的系統(tǒng),該文字轉語音合成引擎所輸出的該合成語句信息至少包括:該錄音文稿的合成語句,以及該合成語句的切音信息。
5.如權利要求1所述的系統(tǒng),其中該評估信息至少包括該錄音語句的音素與模型覆蓋率。
6.如權利要求5所述的系統(tǒng),其中該音素與模型覆蓋率包括音素覆蓋率、頻譜模型覆蓋率、以及韻律模型覆蓋率。
7.如權利要求1所述的系統(tǒng),其中該評估信息至少包括一或多個語音差異評估參數。
8.如權利要求7所述的系統(tǒng),其中該一或多個語音差異評估參數至少包括該錄音語句和該合成語句的頻譜失真度。
9.如權利要求1所述的系統(tǒng),其中該自適應建議模塊選取錄音文稿的策略是能夠讓該音素與模型的覆蓋率最大化。
10.如權利要求1所述的系統(tǒng),其中該系統(tǒng)是采用基于隱藏式馬可夫模型或者隱藏式半馬可夫模型架構的語音合成系統(tǒng)。
11.如權利要求1所述的系統(tǒng),其中該系統(tǒng)經由不斷地自適應與提供文稿建議的方式來進行說話人自適應。
12.如權利要求1所述的系統(tǒng),其中該系統(tǒng)輸出該合成語句、該成果評估模塊估計出的該目前錄音語句的評估信息、以及該自適應建議模塊做出的下一次自適應語句的建議。
13.一種引導式說話人自適應語音合成方法,包含: 輸入錄音文稿與對應的錄音語句,輸出說話人自適應模型與自適應信息; 載入該說話人自適應模型,輸入該錄音文稿,以合成出合成語音信息; 結合該自適應信息與該合成語音信息,估計出評估信息;以及根據該自適應信息與該評估信 息內容,從文稿來源中選取出后續(xù)要錄制的錄音文稿,作為下一次自適應的建議。
14.如權利要求13所述的方法,其中該評估信息包括該目前錄音語句的音素覆蓋率、頻譜模型覆蓋率、韻律模型覆蓋率、以及一或多個語音差異評估參數。
15.如權利要求13所述的方法,其中該一或多個語音差異評估參數至少包括頻譜失真度。
16.如權利要求13所述的方法,其中該方法先進行一權重重估計后,再利用一基于音素覆蓋率最大化的算法與一基于模型覆蓋率最大化的算法來選取出后續(xù)要錄制的該錄音文稿。
17.如權利要求16所述的方法,其中該權重重估計是根據頻譜失真度來決定新的音素權重、及模型權重,并且是利用一種音色相似度的方法來動態(tài)調整權重的高低。
18.如權利要求17所述的方法,其中該調整權重的原則為,當一語音單位的頻譜失真度高于一高閾值,調升該語音單位的權重;反之當一語音單位的頻譜失真度低于一低閾值時,調降該語音單位的權重。
19.如權利要求18所述的方法,其中該語音單位是字、音節(jié)、或音素的其中一種或多種組合。
20.如權利要求16所述的方法,其中該基于音素覆蓋率最大化算法定義一音素的分數函數,對于一文稿來源中每一個候選語句進行分數估計,音素種類越多元的候選語句獲得的分數則越高,最后從中挑選分數最高者從該文稿來源移出到自適應建議的句子集合中,并且該挑選到的句子其所包含的音素的影響力將被降低,以利提高其他音素下次被挑選的機會。接著重新計算該文稿來源中的所有候選語句的分數,重復上述過程,直到挑選出的句子的個數超過一預定值為止。
21.如權利要求20所 述的方法,其中根據該音素的分數函數定義,一音素的分數是依該音素的權重和影響力來決定。
22.如權利要求16所述的方法,其中該基于模型覆蓋率最大化算法定義一模型的分數函數,對于一文稿來源中每一個候選語句進行分數估計,模型種類越多元的候選語句獲得的分數則越高,最后從中挑選分數最高者從該文稿來源移出到自適應建議的句子集合中,并且該挑選到的句子其所包含的模型的影響力將被降低,以利提高其他模型下次被挑選的機會。接著從新計算該文稿來源中的所有候選語句的分數,重復上述過程,直到挑選出的句子的個數超過一預定值為止。
23.如權利要求22所述的方法,其中根據該模型的分數函數定義,一模型的分數是依該一頻譜模型分數與一韻律模型分數來決定,并且一頻譜或韻律模型的分數是依該頻譜或韻律模型的權重和影響力來決定。
24.一種引導式說話人自適應語音合成的計算機程序產品,包含備有多筆可讀程序代碼的一存儲介質,并且通過至少一硬件處理器讀取該多筆可讀程序代碼來執(zhí)行: 輸入錄音文稿與對應的錄音語句,輸出說話人自適應模型與自適應信息; 載入該說話人自適應模型,輸入該錄音文稿,以合成出合成語音信息; 結合該自適應信息、與合成語音信息,估計出評估信息;以及 根據該自適應信息與該評估信息內容,從文稿來源中選取出后續(xù)要錄制的錄音文稿,作為下一次自適應的建議。
25.如權利要求24所述的計算機程序產品,其中該評估信息包括該目前錄音語句的音素覆蓋率、頻譜模型覆蓋率、韻律模型覆蓋率、以及一或多個語音差異評估參數。
26.如權利要求24所述的計算機程序產品,其中該一或多個語音差異評估參數至少包括頻譜失真度。
27.如權利要求24所述的計算機程序產品,其中該方法先進行一權重重估計后,再利用一基于音素覆蓋率最大化的算法與一基于模型覆蓋率最大化的算法來選取出后續(xù)要錄制的該錄音文稿。
28.如權利要求27所述的計算機程序產品,其中該權重重估計是根據頻譜失真度來決定新的音素權重、及模型權重,并且是利用一種音色相似度的方法來動態(tài)調整權重的高低。
29.如權利要求28所述的計算機程序產品,其中該調整權重的原則為,當一語音單位的頻譜失真度高于一高閾值,調升該語音單位的權重;反之當一語音單位的頻譜失真度低于一低閾值時,調降該語音單位的權重。
30.如權利要求29所述的計算機程序產品,其中該語音單位是字、音節(jié)、或音素其中一種或多種組合。
31.如權利要求27所述的計算機程序產品,其中該基于音素覆蓋率最大化算法定義一音素的分數函數,對于一文稿來源中每一個候選語句進行分數估計,音素種類越多元的候選語句獲得的分數則越高,最后從中挑選分數最高者從該文稿來源移出到自適應建議的句子集合中,并且該挑選到的句子其所包含的音素的影響力將被降低,以利提高其他音素下次被挑選的機會。接著重新計算該文稿來源中的所有候選語句的分數,重復上述過程,直到挑選出的句子的個數超過一預定值為止。
32.如權利要求31所述的計算機程序產品,其中根據該音素的分數函數定義,一音素的分數是依該音素的權重和影響力來決定。
33.如權利要求27所述的計算機程序產品,其中該基于模型覆蓋率最大化算法定義一模型的分數函數,對于一文稿來源中每`一個候選語句進行分數估計,模型種類越多元的候選語句獲得的分數則越高,最后從中挑選分數最高者從該文稿來源移出到自適應建議的句子集合中,并且該挑選到的句子其所包含的模型的影響力將被降低,以利提高其他模型下次被挑選的機會。接著從新計算該文稿來源中的所有候選語句的分數,重復上述過程,直到挑選出的句子的個數超過一預定值為止。
34.如權利要求33所述的計算機程序產品,其中根據該模型的分數函數定義,一模型的分數是依該一頻譜模型分數與一韻律模型分數來決定,并且一頻譜或韻律模型的分數是依該頻譜或韻律模型的權重和影響力來決定。
【文檔編號】G10L13/02GK103778912SQ201310127602
【公開日】2014年5月7日 申請日期:2013年4月12日 優(yōu)先權日:2012年10月19日
【發(fā)明者】林政源, 林政賢, 郭志忠 申請人:財團法人工業(yè)技術研究院