韻律層級模型訓(xùn)練方法、語音合成方法及裝置的制造方法

文檔序號：9490321閱讀：593來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

韻律層級模型訓(xùn)練方法、語音合成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音技術(shù)領(lǐng)域，尤其涉及一種用于語音合成的韻律層級模型訓(xùn)練方法、使用該韻律層級模型進行語音合成的方法以及裝置。
【背景技術(shù)】
[0002] 語音合成，又稱文語轉(zhuǎn)換技術(shù)，是一種能夠?qū)⑽淖中畔⑥D(zhuǎn)化為語音并進行朗讀的技術(shù)。在語音合成系統(tǒng)中，由于韻律層級預(yù)測是整個系統(tǒng)的基礎(chǔ)，因此，如何提高語音合成的效果關(guān)鍵在于如何提高韻律層級預(yù)測的準確性。
[0003] 相關(guān)技術(shù)中，韻律層級預(yù)測的方法主要有以下兩種：
[0004] 第一種，韻律層級預(yù)測通常采用CRF(ConditionalRandomField，條件隨機場）模型進行預(yù)測，即基于CRF的韻律層級預(yù)測方法為了在模型中引入上下文信息，需要對訓(xùn)練的特征進行左右擴展，并且引入人工編寫的特征模板對韻律層級模型進行訓(xùn)練。此外，由于韻律層級結(jié)構(gòu)具有一定的包含關(guān)系，傳統(tǒng)基于CRF的韻律預(yù)測方法首先分別訓(xùn)練得到韻律詞模型、韻律短語模型以及語調(diào)短語模型，然后采用逐級預(yù)測的方式對文本的韻律結(jié)構(gòu)進行預(yù)測；
[0005] 第二種，韻律層級預(yù)測使用的模型是基于詞粒度的基礎(chǔ)上進行訓(xùn)練和預(yù)測的，通過分詞系統(tǒng)獲得訓(xùn)練或者預(yù)測文本的分詞結(jié)果，并獲得詞性、詞長等特征，通過人工編寫的特征模板生成對應(yīng)的文本特征來進行訓(xùn)練和預(yù)測。
[0006] 但是，上述兩種方法主要存在以下問題：
[0007] (1)采用特征左右擴展的方式雖然能夠在一定程度上引入上下文關(guān)系，但是為了減少模型的規(guī)模和訓(xùn)練的復(fù)雜度，擴展的大小往往有限，因而無法構(gòu)建單詞之間較遠距離的上下文關(guān)系；
[0008] (2)采用逐級訓(xùn)練的方式可能會導(dǎo)致錯誤的逐級傳遞，一旦在前一級韻律預(yù)測中出現(xiàn)錯誤，這種錯誤很容易向下傳遞，造成后續(xù)的預(yù)測錯誤；
[0009] (3)由于韻律預(yù)測模型的訓(xùn)練和預(yù)測是基于詞粒度的基礎(chǔ)上進行的，韻律預(yù)測模型的性能依賴于分詞系統(tǒng)的性能，離線語音合成中的分詞系統(tǒng)由于計算資源和存儲空間的限制，性能低于在線語音合成系統(tǒng)中的分詞系統(tǒng)，從而影響到最終的韻律預(yù)測性能；
[0010] (4)對于離線合成系統(tǒng)來說，由于計算資源及存儲空間有限，對于模型和資源文件大小要求嚴格，使用詞粒度的預(yù)測模型需要依賴的詞典文件詞條數(shù)達數(shù)十萬級別，對于存儲空間和計算資源占用較大。

【發(fā)明內(nèi)容】

[0011] 本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問題之一。
[0012] 為此，本發(fā)明的第一個目的在于提出一種用于語音合成的韻律層級模型訓(xùn)練方法。該方法基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比，有效地減小了條目規(guī)模，同時減小了模型及資源文件對于計算資源和存儲空間的要求，在提高韻律預(yù)測模型性能的同時，保證了在嵌入式智能設(shè)備中的可用性。
[0013] 本發(fā)明的第二個目的在于提出一種語音合成方法。
[0014] 本發(fā)明的第三個目的在于提出一種用于語音合成的韻律層級模型訓(xùn)練裝置。
[0015] 本發(fā)明的第四個目的在于提出一種語音合成裝置。
[0016] 為達上述目的，本發(fā)明第一方面實施例提出了一種用于語音合成的韻律層級模型訓(xùn)練方法，包括：對海量無標注語料數(shù)據(jù)進行訓(xùn)練獲得單字的字向量；根據(jù)所述字向量以及韻律標注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對應(yīng)的文本特征及標注，其中，所述訓(xùn)練數(shù)據(jù)用于訓(xùn)練所述韻律層級模型；以及基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò)，根據(jù)所述訓(xùn)練數(shù)據(jù)的文本特征、所述標注對所述韻律層級模型進行訓(xùn)練。
[0017] 本發(fā)明實施例的用于語音合成的韻律層級模型訓(xùn)練方法，可先對海量無標注語料數(shù)據(jù)進行訓(xùn)練獲得單字的字向量，之后，可根據(jù)字向量以及韻律標注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對應(yīng)的文本特征及標注，以及基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò)，根據(jù)訓(xùn)練數(shù)據(jù)的文本特征、標注對韻律層級模型進行訓(xùn)練，至少具有以下優(yōu)點：1)利用雙向LSTM的長短時記憶功能將文本之間的遠距離上下文特征引入韻律層級預(yù)測，有效解決了傳統(tǒng)采用人工指定特征模板的方式引入上下文的局限性，提升了韻律預(yù)測模型的性能；2)采用一遍標注的方式對韻律模型的各個層級同時進行預(yù)測，避免了預(yù)測錯誤在不同層級之間向下傳遞，同時不同層級的協(xié)同關(guān)系在訓(xùn)練過程中得到有效表示；3)使用基于字粒度的文本特征，降低了分詞系統(tǒng)對于韻律性能的影響因素；4)基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比，有效地減小了條目規(guī)模，同時減小了模型及資源文件對于計算資源和存儲空間的要求，在提高韻律預(yù)測模型性能的同時，保證了在嵌入式智能設(shè)備中的可用性。
[0018] 為達上述目的，本發(fā)明第二方面實施例提出了一種使用本發(fā)明第一方面實施例所述的韻律層級模型進行語音合成的方法，包括：獲取待預(yù)測文本，并提取所述待預(yù)測文本的文本特征；將所述文本特征輸入所述韻律層級模型，并根據(jù)所述韻律層級模型對所述待預(yù) 測文本進行韻律預(yù)測；進一步對所述待預(yù)測文本進行聲學(xué)預(yù)測，以生成聲學(xué)參數(shù)序列；以及根據(jù)所述聲學(xué)參數(shù)序列生成語音合成結(jié)果。
[0019] 本發(fā)明實施例的語音合成方法，可從待預(yù)測文本中提取文本特征，并將文本特征輸入韻律層級模型，根據(jù)韻律層級模型對待預(yù)測文本進行韻律預(yù)測，進一步對待預(yù)測文本進行聲學(xué)預(yù)測，以生成聲學(xué)參數(shù)序列，以及根據(jù)聲學(xué)參數(shù)序列生成語音合成結(jié)果，即通過使用基于字粒度的文本特征以及雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練而成的韻律層級模型，提升了韻律預(yù)測的準確性，從而使得韻律停頓更加流暢自然，提升了用戶體驗。
[0020] 為達上述目的，本發(fā)明第三方面實施例提出了一種用于語音合成的韻律層級模型訓(xùn)練裝置，包括：獲取模塊，用于對海量無標注語料數(shù)據(jù)進行訓(xùn)練獲得單字的字向量；生成模塊，用于根據(jù)所述字向量以及韻律標注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對應(yīng)的文本特征及標注，其中，所述訓(xùn)練數(shù)據(jù)用于訓(xùn)練所述韻律層級模型；以及訓(xùn)練模塊，用于基于深度神經(jīng)網(wǎng)絡(luò)和雙向 LSTM神經(jīng)網(wǎng)絡(luò)，根據(jù)所述訓(xùn)練數(shù)據(jù)的文本特征、標注對所述韻律層級模型進行訓(xùn)練。
[0021] 本發(fā)明實施例的用于語音合成的韻律層級模型訓(xùn)練裝置，可通過獲取模塊對海量無標注語料數(shù)據(jù)進行訓(xùn)練獲得單字的字向量，生成模塊根據(jù)字向量以及韻律標注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對應(yīng)的文本特征及標注，訓(xùn)練模炔基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò)，根據(jù)訓(xùn)練數(shù)據(jù)的文本特征、標注對韻律層級模型進行訓(xùn)練，至少具有以下優(yōu)點：1)利用雙向 LSTM的長短時記憶功能將文本之間的遠距離上下文特征引入韻律層級預(yù)測，有效解決了傳統(tǒng)采用人工指定特征模板的方式引入上下文的局限性，提升了韻律預(yù)測模型的性能；2)采用一遍標注的方式對韻律模型的各個層級同時進行預(yù)測，避免了預(yù)測錯誤在不同層級之間向下傳遞，同時不同層級的協(xié)同關(guān)系在訓(xùn)練過程中得到有效表示；3)使用基于字粒度的文本特征，降低了分詞系統(tǒng)對于韻律性能的影響因素；4)基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比，有效地減小了條目規(guī)模，同時減小了模型及資源文件對于計算資源和存儲空間的要求，在提高韻律預(yù)測模型性能的同時，保證了在嵌入式智能設(shè)備中的可用性。
[0022] 為達上述目的，本發(fā)明第四方面實施例提出了一種使用本發(fā)明第三方面實施例所述的韻律層級模型進行語音合成的裝置，包括：提取模塊，用于獲取待預(yù)測文本，并提取所述待預(yù)測文本的文本特征；第一預(yù)測模塊，用于將所述文本特征輸入所述韻律層級模型，并根據(jù)所述韻律層級模型對所述待預(yù)測文本進行韻律預(yù)測；第二預(yù)測模塊，用于進一步對所述待預(yù)測文本進行聲學(xué)預(yù)測，以生成聲學(xué)參數(shù)序列；以及生成模塊，用于根據(jù)所述聲學(xué)參數(shù) 序列生成語音合成結(jié)果。
[0023] 本發(fā)明實施例的語音合成裝置，可通過提取模塊從待預(yù)測文本中提取文本特征，第一預(yù)測模塊將文本特征輸

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4 5

該技術(shù)已申請專利。僅供學(xué)習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐揚凱;李秀林;付曉寅;陳志杰;
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司;
我是此專利的發(fā)明人

上一篇：哼唱旋律到midi旋律的轉(zhuǎn)換方法
上一篇：一種球面聲波轉(zhuǎn)成柱面聲波的聲學(xué)波導(dǎo)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

韻律層級模型訓(xùn)練方法、語音合成方法及裝置的制造方法