亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

韻律層級模型訓(xùn)練方法、語音合成方法及裝置的制造方法

文檔序號:9490321閱讀:593來源:國知局
韻律層級模型訓(xùn)練方法、語音合成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音技術(shù)領(lǐng)域,尤其涉及一種用于語音合成的韻律層級模型訓(xùn)練方 法、使用該韻律層級模型進行語音合成的方法以及裝置。
【背景技術(shù)】
[0002] 語音合成,又稱文語轉(zhuǎn)換技術(shù),是一種能夠?qū)⑽淖中畔⑥D(zhuǎn)化為語音并進行朗讀的 技術(shù)。在語音合成系統(tǒng)中,由于韻律層級預(yù)測是整個系統(tǒng)的基礎(chǔ),因此,如何提高語音合成 的效果關(guān)鍵在于如何提高韻律層級預(yù)測的準確性。
[0003] 相關(guān)技術(shù)中,韻律層級預(yù)測的方法主要有以下兩種:
[0004] 第一種,韻律層級預(yù)測通常采用CRF(ConditionalRandomField,條件隨機場)模 型進行預(yù)測,即基于CRF的韻律層級預(yù)測方法為了在模型中引入上下文信息,需要對訓(xùn)練 的特征進行左右擴展,并且引入人工編寫的特征模板對韻律層級模型進行訓(xùn)練。此外,由于 韻律層級結(jié)構(gòu)具有一定的包含關(guān)系,傳統(tǒng)基于CRF的韻律預(yù)測方法首先分別訓(xùn)練得到韻律 詞模型、韻律短語模型以及語調(diào)短語模型,然后采用逐級預(yù)測的方式對文本的韻律結(jié)構(gòu)進 行預(yù)測;
[0005] 第二種,韻律層級預(yù)測使用的模型是基于詞粒度的基礎(chǔ)上進行訓(xùn)練和預(yù)測的,通 過分詞系統(tǒng)獲得訓(xùn)練或者預(yù)測文本的分詞結(jié)果,并獲得詞性、詞長等特征,通過人工編寫的 特征模板生成對應(yīng)的文本特征來進行訓(xùn)練和預(yù)測。
[0006] 但是,上述兩種方法主要存在以下問題:
[0007] (1)采用特征左右擴展的方式雖然能夠在一定程度上引入上下文關(guān)系,但是為了 減少模型的規(guī)模和訓(xùn)練的復(fù)雜度,擴展的大小往往有限,因而無法構(gòu)建單詞之間較遠距離 的上下文關(guān)系;
[0008] (2)采用逐級訓(xùn)練的方式可能會導(dǎo)致錯誤的逐級傳遞,一旦在前一級韻律預(yù)測中 出現(xiàn)錯誤,這種錯誤很容易向下傳遞,造成后續(xù)的預(yù)測錯誤;
[0009] (3)由于韻律預(yù)測模型的訓(xùn)練和預(yù)測是基于詞粒度的基礎(chǔ)上進行的,韻律預(yù)測模 型的性能依賴于分詞系統(tǒng)的性能,離線語音合成中的分詞系統(tǒng)由于計算資源和存儲空間的 限制,性能低于在線語音合成系統(tǒng)中的分詞系統(tǒng),從而影響到最終的韻律預(yù)測性能;
[0010] (4)對于離線合成系統(tǒng)來說,由于計算資源及存儲空間有限,對于模型和資源文件 大小要求嚴格,使用詞粒度的預(yù)測模型需要依賴的詞典文件詞條數(shù)達數(shù)十萬級別,對于存 儲空間和計算資源占用較大。

【發(fā)明內(nèi)容】

[0011] 本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問題之一。
[0012] 為此,本發(fā)明的第一個目的在于提出一種用于語音合成的韻律層級模型訓(xùn)練方 法。該方法基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比,有效地減小了條目規(guī)模,同 時減小了模型及資源文件對于計算資源和存儲空間的要求,在提高韻律預(yù)測模型性能的同 時,保證了在嵌入式智能設(shè)備中的可用性。
[0013] 本發(fā)明的第二個目的在于提出一種語音合成方法。
[0014] 本發(fā)明的第三個目的在于提出一種用于語音合成的韻律層級模型訓(xùn)練裝置。
[0015] 本發(fā)明的第四個目的在于提出一種語音合成裝置。
[0016] 為達上述目的,本發(fā)明第一方面實施例提出了一種用于語音合成的韻律層級模型 訓(xùn)練方法,包括:對海量無標注語料數(shù)據(jù)進行訓(xùn)練獲得單字的字向量;根據(jù)所述字向量以 及韻律標注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對應(yīng)的文本特征及標注,其中,所述訓(xùn)練數(shù)據(jù)用于訓(xùn)練所述 韻律層級模型;以及基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò),根據(jù)所述訓(xùn)練數(shù)據(jù)的文本特 征、所述標注對所述韻律層級模型進行訓(xùn)練。
[0017] 本發(fā)明實施例的用于語音合成的韻律層級模型訓(xùn)練方法,可先對海量無標注語料 數(shù)據(jù)進行訓(xùn)練獲得單字的字向量,之后,可根據(jù)字向量以及韻律標注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對 應(yīng)的文本特征及標注,以及基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò),根據(jù)訓(xùn)練數(shù)據(jù)的文本 特征、標注對韻律層級模型進行訓(xùn)練,至少具有以下優(yōu)點:1)利用雙向LSTM的長短時記憶 功能將文本之間的遠距離上下文特征引入韻律層級預(yù)測,有效解決了傳統(tǒng)采用人工指定特 征模板的方式引入上下文的局限性,提升了韻律預(yù)測模型的性能;2)采用一遍標注的方式 對韻律模型的各個層級同時進行預(yù)測,避免了預(yù)測錯誤在不同層級之間向下傳遞,同時不 同層級的協(xié)同關(guān)系在訓(xùn)練過程中得到有效表示;3)使用基于字粒度的文本特征,降低了分 詞系統(tǒng)對于韻律性能的影響因素;4)基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比, 有效地減小了條目規(guī)模,同時減小了模型及資源文件對于計算資源和存儲空間的要求,在 提高韻律預(yù)測模型性能的同時,保證了在嵌入式智能設(shè)備中的可用性。
[0018] 為達上述目的,本發(fā)明第二方面實施例提出了一種使用本發(fā)明第一方面實施例所 述的韻律層級模型進行語音合成的方法,包括:獲取待預(yù)測文本,并提取所述待預(yù)測文本的 文本特征;將所述文本特征輸入所述韻律層級模型,并根據(jù)所述韻律層級模型對所述待預(yù) 測文本進行韻律預(yù)測;進一步對所述待預(yù)測文本進行聲學(xué)預(yù)測,以生成聲學(xué)參數(shù)序列;以 及根據(jù)所述聲學(xué)參數(shù)序列生成語音合成結(jié)果。
[0019] 本發(fā)明實施例的語音合成方法,可從待預(yù)測文本中提取文本特征,并將文本特征 輸入韻律層級模型,根據(jù)韻律層級模型對待預(yù)測文本進行韻律預(yù)測,進一步對待預(yù)測文本 進行聲學(xué)預(yù)測,以生成聲學(xué)參數(shù)序列,以及根據(jù)聲學(xué)參數(shù)序列生成語音合成結(jié)果,即通過使 用基于字粒度的文本特征以及雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練而成的韻律層級模型,提升了韻律 預(yù)測的準確性,從而使得韻律停頓更加流暢自然,提升了用戶體驗。
[0020] 為達上述目的,本發(fā)明第三方面實施例提出了一種用于語音合成的韻律層級模型 訓(xùn)練裝置,包括:獲取模塊,用于對海量無標注語料數(shù)據(jù)進行訓(xùn)練獲得單字的字向量;生成 模塊,用于根據(jù)所述字向量以及韻律標注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對應(yīng)的文本特征及標注,其中, 所述訓(xùn)練數(shù)據(jù)用于訓(xùn)練所述韻律層級模型;以及訓(xùn)練模塊,用于基于深度神經(jīng)網(wǎng)絡(luò)和雙向 LSTM神經(jīng)網(wǎng)絡(luò),根據(jù)所述訓(xùn)練數(shù)據(jù)的文本特征、標注對所述韻律層級模型進行訓(xùn)練。
[0021] 本發(fā)明實施例的用于語音合成的韻律層級模型訓(xùn)練裝置,可通過獲取模塊對海量 無標注語料數(shù)據(jù)進行訓(xùn)練獲得單字的字向量,生成模塊根據(jù)字向量以及韻律標注數(shù)據(jù)獲取 訓(xùn)練數(shù)據(jù)對應(yīng)的文本特征及標注,訓(xùn)練模炔基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò),根 據(jù)訓(xùn)練數(shù)據(jù)的文本特征、標注對韻律層級模型進行訓(xùn)練,至少具有以下優(yōu)點:1)利用雙向 LSTM的長短時記憶功能將文本之間的遠距離上下文特征引入韻律層級預(yù)測,有效解決了傳 統(tǒng)采用人工指定特征模板的方式引入上下文的局限性,提升了韻律預(yù)測模型的性能;2)采 用一遍標注的方式對韻律模型的各個層級同時進行預(yù)測,避免了預(yù)測錯誤在不同層級之間 向下傳遞,同時不同層級的協(xié)同關(guān)系在訓(xùn)練過程中得到有效表示;3)使用基于字粒度的文 本特征,降低了分詞系統(tǒng)對于韻律性能的影響因素;4)基于字粒度的字典較傳統(tǒng)使用的詞 粒度的詞典相比,有效地減小了條目規(guī)模,同時減小了模型及資源文件對于計算資源和存 儲空間的要求,在提高韻律預(yù)測模型性能的同時,保證了在嵌入式智能設(shè)備中的可用性。
[0022] 為達上述目的,本發(fā)明第四方面實施例提出了一種使用本發(fā)明第三方面實施例所 述的韻律層級模型進行語音合成的裝置,包括:提取模塊,用于獲取待預(yù)測文本,并提取所 述待預(yù)測文本的文本特征;第一預(yù)測模塊,用于將所述文本特征輸入所述韻律層級模型,并 根據(jù)所述韻律層級模型對所述待預(yù)測文本進行韻律預(yù)測;第二預(yù)測模塊,用于進一步對所 述待預(yù)測文本進行聲學(xué)預(yù)測,以生成聲學(xué)參數(shù)序列;以及生成模塊,用于根據(jù)所述聲學(xué)參數(shù) 序列生成語音合成結(jié)果。
[0023] 本發(fā)明實施例的語音合成裝置,可通過提取模塊從待預(yù)測文本中提取文本特征, 第一預(yù)測模塊將文本特征輸
當前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1