基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法和裝置。所述基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法包括:利用韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入的文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)處理,給出至少一個(gè)備選韻律邊界劃分方案;根據(jù)所述至少一個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息,確定韻律邊界劃分方案;根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成。本發(fā)明實(shí)施例提供的基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法和裝置提高了語(yǔ)音合成的自然度和靈活性。
【專(zhuān)利說(shuō)明】基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及文語(yǔ)轉(zhuǎn)換【技術(shù)領(lǐng)域】,尤其涉及一種基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法和裝置。
【背景技術(shù)】
[0002]語(yǔ)音是人機(jī)交流最習(xí)慣、最自然的方式。將文字輸入轉(zhuǎn)成語(yǔ)音輸出的技術(shù)稱為文語(yǔ)轉(zhuǎn)換(Text-to-Speech,TTS)或語(yǔ)音合成技術(shù)。它涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理多媒體技術(shù)等多個(gè)領(lǐng)域,是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。
[0003]圖1示出了現(xiàn)有技術(shù)提供的語(yǔ)音合成系統(tǒng)的信號(hào)流。參見(jiàn)圖1,在訓(xùn)練階段,可以依據(jù)對(duì)文本語(yǔ)料庫(kù)101和語(yǔ)音語(yǔ)料庫(kù)102中的標(biāo)注數(shù)據(jù)訓(xùn)練得到韻律結(jié)構(gòu)預(yù)測(cè)模型103、聲學(xué)模型104以及候選單元105。其中,所述韻律結(jié)構(gòu)預(yù)測(cè)模型103為語(yǔ)音合成階段中的韻律結(jié)構(gòu)預(yù)測(cè)107提供參考,所述聲學(xué)模型104為語(yǔ)音合成109提供依據(jù),而候選單元105是在波形拼接式的語(yǔ)音合成109中用于調(diào)取常用的候選波形的軟件單元。
[0004]在語(yǔ)音合成階段,首先對(duì)輸入的文本進(jìn)行文本分析106,然后根據(jù)韻律結(jié)構(gòu)預(yù)測(cè)模型103對(duì)輸入文本的進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)107,再根據(jù)不同的語(yǔ)音合成模式,也即參數(shù)合成式語(yǔ)音合成或者波形拼接式語(yǔ)音合成進(jìn)行參數(shù)預(yù)測(cè)/單元選擇108,最后進(jìn)行最終的語(yǔ)音合成 109。
[0005]采用現(xiàn)有的語(yǔ)音合成系統(tǒng)進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè),已經(jīng)能夠針對(duì)一定的輸入文本得到該輸入文本的確定的韻律層級(jí)結(jié)構(gòu)。但是,在人們實(shí)際的交流中,語(yǔ)音的韻律層級(jí)結(jié)構(gòu)往往受到多種因素的影響。圖2是真人語(yǔ)音中韻律結(jié)構(gòu)的影響因素的原理示意圖。參見(jiàn)圖2,真人語(yǔ)音的韻律結(jié)構(gòu)可能會(huì)受到說(shuō)話人特征、感情、基本頻率和句子的意思的影響。以說(shuō)話人特征為例,年齡在70歲的男人說(shuō)話的韻律結(jié)構(gòu)就與年齡在30歲的女人說(shuō)話的韻律結(jié)構(gòu)不同。
[0006]因此,按照統(tǒng)一的韻律結(jié)構(gòu)預(yù)測(cè)模型103預(yù)測(cè)得到的句子的韻律結(jié)構(gòu)的靈活性不好,造成語(yǔ)音合成系統(tǒng)最終合成的語(yǔ)音的自然度不高。
【發(fā)明內(nèi)容】
[0007]有鑒于此,本發(fā)明實(shí)施例提出一種基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法和裝置,以提高合成語(yǔ)音的自然度和靈活性。
[0008]第一方面,本發(fā)明實(shí)施例提供了一種基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法,所述方法包括:
[0009]利用韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入的文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)處理,給出至少兩個(gè)備選韻律邊界劃分方案;
[0010]根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息確定韻律邊界劃分方案;
[0011]根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成。[0012]第二方面,本發(fā)明實(shí)施例提供了一種基于大語(yǔ)料庫(kù)的語(yǔ)音合成裝置,所述裝置包括:
[0013]預(yù)測(cè)處理模塊,用于利用韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入的文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)處理,給出至少兩個(gè)備選韻律邊界劃分方案;
[0014]邊界劃分模塊,用于根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息確定韻律邊界劃分方案;
[0015]語(yǔ)音合成模塊,用于根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成。
[0016]本發(fā)明實(shí)施例提供的基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法和裝置,通過(guò)利用韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入的文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)處理,給出至少兩個(gè)備選韻律邊界劃分方案,再根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息確定韻律邊界劃分方案,最后根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成,提高了合成語(yǔ)音的自然度和靈活性。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0017]通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0018]圖1是現(xiàn)有技術(shù)提供的語(yǔ)音合成系統(tǒng)的信號(hào)流圖;
[0019]圖2是現(xiàn)有技術(shù)真人語(yǔ)音中韻律結(jié)構(gòu)的影響因素的原理示意圖;
[0020]圖3是本發(fā)明第一實(shí)施例提供的基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法的流程圖;
[0021]圖4是本發(fā)明實(shí)施例所適用的漢語(yǔ)句子的韻律結(jié)構(gòu)示意圖;
[0022]圖5是本發(fā)明第一實(shí)施例提供的文本語(yǔ)料庫(kù)中韻律標(biāo)注數(shù)據(jù)的示意圖;
[0023]圖6是實(shí)施本發(fā)明第一實(shí)施例提供的運(yùn)行基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法的語(yǔ)音合成系統(tǒng)的信號(hào)流圖;
[0024]圖7是本發(fā)明第二實(shí)施例提供的基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法中邊界劃分的流程圖;
[0025]圖8是本發(fā)明優(yōu)選實(shí)施例提供的基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法的流程圖;
[0026]圖9是本發(fā)明第三實(shí)施例提供的基于大語(yǔ)料庫(kù)的語(yǔ)音合成裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0027]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。可以理解的是,此處所描述的具體實(shí)施例僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。
[0028]圖3至圖6示出了本發(fā)明的第一實(shí)施例。
[0029]圖3是本發(fā)明第一實(shí)施例提供的基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法的流程圖。所述基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法運(yùn)行在專(zhuān)門(mén)用于語(yǔ)音合成的計(jì)算裝置上。所說(shuō)專(zhuān)門(mén)用于語(yǔ)音合成的計(jì)算裝置包括個(gè)人電腦、服務(wù)器等通用式計(jì)算機(jī),還包括各種用于語(yǔ)音合成的嵌入式計(jì)算機(jī)。所述基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法包括:
[0030]S310,利用韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入的文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)處理,給出至少兩個(gè)備選韻律邊界劃分方案。[0031]語(yǔ)音合成系統(tǒng)在組成功能上可分為文本分析、韻律處理和聲學(xué)處理三大模塊。文本分析模塊主要模擬人對(duì)自然語(yǔ)言的理解過(guò)程,使計(jì)算機(jī)對(duì)輸入的文本能完全理解并給出后兩部分所需的各種發(fā)音提示。韻律處理為合成語(yǔ)音規(guī)劃出音段特征,是合成語(yǔ)音能正確表達(dá)語(yǔ)義,聽(tīng)起來(lái)更加自然。聲學(xué)處理根據(jù)前兩部分處理結(jié)果的要求輸出語(yǔ)音,即合成語(yǔ)
曰?
[0032]對(duì)輸入文本的韻律處理離不開(kāi)對(duì)輸入文本的韻律結(jié)構(gòu)預(yù)測(cè)。一般認(rèn)為,漢語(yǔ)的韻律結(jié)構(gòu)包括韻律詞、韻律短語(yǔ)和語(yǔ)調(diào)短語(yǔ)三個(gè)層級(jí)。圖4是漢語(yǔ)句子的韻律結(jié)構(gòu)示意圖。漢語(yǔ)句子由很多語(yǔ)法詞401前后銜接構(gòu)成;一個(gè)或者多個(gè)語(yǔ)法詞401共同構(gòu)成了韻律詞402 ;一個(gè)或多個(gè)韻律詞402共同構(gòu)成了韻律短語(yǔ)403 ;然后一個(gè)或多個(gè)韻律短語(yǔ)403共同構(gòu)成了語(yǔ)調(diào)短語(yǔ)404。
[0033]韻律詞402的基本特點(diǎn)是:(I)由一個(gè)音步構(gòu)成;(2) —般為三個(gè)音節(jié)以下的語(yǔ)法詞或詞組;(3)跨度為1-3個(gè)音節(jié),大多數(shù)為2-3個(gè)音節(jié),例如連詞、介詞等;(4)具有類(lèi)似于語(yǔ)法詞的連調(diào)模式和詞重音模式,內(nèi)部不出現(xiàn)節(jié)奏邊界;(5)韻律詞402可以組成韻律短語(yǔ)403。
[0034]韻律短語(yǔ)403的主要特點(diǎn)是:(I)由一個(gè)或幾個(gè)韻律詞402組成;(2)跨度為7_9個(gè)音節(jié);(3)內(nèi)部各個(gè)韻律詞402之間可能出現(xiàn)韻律上的節(jié)奏分界,主要表現(xiàn)為韻律詞末尾音節(jié)的延長(zhǎng)和韻律詞之間的音高重新設(shè)置;(4)韻律短語(yǔ)403的調(diào)階走勢(shì)基本上呈降勢(shì);
(5)具有相對(duì)穩(wěn)定的短語(yǔ)重音配置模式,即與句法結(jié)構(gòu)相關(guān)的常規(guī)重音模式。
[0035]語(yǔ)調(diào)短語(yǔ)404的主要特點(diǎn)是:(I)可能多音步;(2)內(nèi)部可能包含不止一個(gè)韻律短語(yǔ)語(yǔ)調(diào)模式和韻律短語(yǔ)重 音模式,因而會(huì)出現(xiàn)相關(guān)的節(jié)奏分界,主要表現(xiàn)為韻律短語(yǔ)末尾音節(jié)的延長(zhǎng)和韻律短語(yǔ)之間的音高重新設(shè)置;(3)具有取決于不同語(yǔ)氣或句型的語(yǔ)調(diào)模式,即具有特定的調(diào)階走勢(shì),例如陳述句降,一般疑問(wèn)句升,感嘆句調(diào)階總體抬高。
[0036]對(duì)輸入文本的這三個(gè)層次的識(shí)別,也就是對(duì)輸入文本的韻律結(jié)構(gòu)預(yù)測(cè)決定了合成語(yǔ)音在句子中間的停頓特征。一般來(lái)說(shuō),系統(tǒng)的輸入文本中存在與韻律層次一一對(duì)應(yīng)的三個(gè)停頓級(jí)別,且韻律層次越高,其邊界出的停頓特征就越明顯;韻律層級(jí)越低,其邊界處的停頓特征就模糊。而合成語(yǔ)音的停頓特征對(duì)其自然度有很大的影響。所以,對(duì)輸入文本的韻律結(jié)構(gòu)預(yù)測(cè)很大程度上影響著最終的合成語(yǔ)音的自然度。
[0037]對(duì)輸入文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)的結(jié)果是韻律邊界劃分方案。依據(jù)不同的韻律邊界劃分方案進(jìn)行語(yǔ)音合成,則合成語(yǔ)音的停頓點(diǎn)和停頓時(shí)長(zhǎng)等參數(shù)不同。所述韻律邊界劃分方案包括預(yù)測(cè)得到的韻律詞邊界、韻律短語(yǔ)邊界以及語(yǔ)調(diào)短語(yǔ)邊界。也就是說(shuō),所述韻律邊界劃分方案中包括對(duì)韻律詞、韻律短語(yǔ)以及語(yǔ)調(diào)短語(yǔ)的邊界的劃分。
[0038]應(yīng)該理解的是,對(duì)相同的輸入文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè),可能輸出對(duì)所述輸入文本的不同的韻律邊界劃分方案。優(yōu)選的,可以通過(guò)輸出對(duì)輸入文本的較優(yōu)的多個(gè)韻律邊界劃分方案來(lái)獲得對(duì)所述輸入文本的不同的韻律邊界劃分方案。
[0039]在對(duì)輸入文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)的過(guò)程中,一般認(rèn)為語(yǔ)調(diào)短語(yǔ)是非常容易識(shí)別出來(lái)的,因?yàn)檎Z(yǔ)調(diào)短語(yǔ)基本都是由標(biāo)點(diǎn)符號(hào)分隔開(kāi)的,與此同時(shí)對(duì)于韻律詞的預(yù)測(cè)可以依靠總結(jié)規(guī)則的方法,而且已經(jīng)基本滿足使用的要求。相比較之下,對(duì)韻律短語(yǔ)的預(yù)測(cè)便成為了韻律結(jié)構(gòu)預(yù)測(cè)中的難點(diǎn)。因此,對(duì)輸入文本的韻律結(jié)構(gòu)預(yù)測(cè)主要是要解決對(duì)韻律短語(yǔ)邊界的預(yù)測(cè)。[0040]對(duì)輸入文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)的依據(jù)是韻律結(jié)構(gòu)預(yù)測(cè)模型。所述韻律結(jié)構(gòu)預(yù)測(cè)模型是通過(guò)對(duì)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)習(xí)而生成的。優(yōu)選的,可以利用決策樹(shù)算法、條件隨機(jī)場(chǎng)算法、最大熵模型算法或者隱馬爾科夫模型算法對(duì)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)習(xí),從而生成所述韻律結(jié)構(gòu)預(yù)測(cè)模型。
[0041]所述文本語(yǔ)料庫(kù)和所述語(yǔ)音語(yǔ)料庫(kù)是用于訓(xùn)練所述韻律結(jié)構(gòu)預(yù)測(cè)模型的兩個(gè)基礎(chǔ)語(yǔ)料庫(kù)。其中,所述文本語(yǔ)料庫(kù)的存儲(chǔ)對(duì)象是文本數(shù)據(jù),而語(yǔ)音語(yǔ)料庫(kù)的存儲(chǔ)對(duì)象是語(yǔ)音數(shù)據(jù)。所述文本語(yǔ)料庫(kù)和所述語(yǔ)音語(yǔ)料庫(kù)中不僅存儲(chǔ)有基礎(chǔ)的語(yǔ)料,還對(duì)應(yīng)的存儲(chǔ)有這些語(yǔ)料的標(biāo)注數(shù)據(jù)。所述語(yǔ)料的標(biāo)注數(shù)據(jù)至少包括對(duì)語(yǔ)料的韻律層級(jí)結(jié)構(gòu)的標(biāo)注數(shù)據(jù)。
[0042]以文本語(yǔ)料庫(kù)為例說(shuō)明對(duì)語(yǔ)料的標(biāo)注數(shù)據(jù)的結(jié)構(gòu)。圖5是本發(fā)明第一實(shí)施例提供的文本語(yǔ)料庫(kù)中韻律標(biāo)注數(shù)據(jù)的示意圖。參見(jiàn)圖5,所述文本語(yǔ)料庫(kù)中不僅存儲(chǔ)有語(yǔ)料501,還存儲(chǔ)有對(duì)該語(yǔ)料的韻律結(jié)構(gòu)的標(biāo)注數(shù)據(jù)502。所述語(yǔ)料501以句子為單位進(jìn)行存儲(chǔ),在這些句子的內(nèi)部劃分韻律詞、韻律短語(yǔ)以及語(yǔ)調(diào)短語(yǔ)。所述語(yǔ)料的標(biāo)注數(shù)據(jù)502是對(duì)語(yǔ)料中韻律詞的末尾是何種韻律邊界的標(biāo)注。在對(duì)語(yǔ)料的韻律結(jié)構(gòu)的標(biāo)注數(shù)據(jù)中,BO表示該韻律詞的末尾是韻律詞邊界表示該韻律詞的末尾是韻律短語(yǔ)邊界;B2表示該韻律詞的末尾是語(yǔ)調(diào)短語(yǔ)邊界。
[0043]在本實(shí)施例中,接收到所述輸入文本后,利用所述韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)所述輸入文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè),獲取對(duì)所述輸入文本的至少兩個(gè)韻律邊界劃分方案。
[0044]S320,根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息確定韻律邊界劃分方案。
[0045]在語(yǔ)音合成中,輸入文本可以看作是不同韻律單元的集合。也就是說(shuō),所述輸入文本包括不同的韻律單元。所述韻律單元就是音節(jié),對(duì)應(yīng)于輸入文本中的每個(gè)漢字。例如,“我愛(ài)北京天安門(mén)”的輸入文本包括了韻律單元“門(mén)”;“好好學(xué)習(xí),天天向上”的輸入文本包括了韻律單元“習(xí)”。
[0046]在針對(duì)輸入文本給出了不同的韻律邊界劃分方案之后,由于不同的韻律邊界劃分方案所給出的韻律邊界不同,在不同韻律邊界劃分方案中處在相同位置的韻律單元并不相同。
[0047]示例的,對(duì)于輸入文本“短短兩周時(shí)間上漲的價(jià)格超過(guò)了過(guò)去五年的總和”,如果僅給出韻律短語(yǔ)的劃分邊界,有下面兩種韻律邊界劃分方案:
[0048]短短兩周時(shí)間$上漲的價(jià)格$超過(guò)了過(guò)去五年的總和。
[0049]短短兩周時(shí)間$上漲的價(jià)格超過(guò)了 $過(guò)去五年的總和。
[0050]在上述兩種韻律邊界劃分方案中,符號(hào)“$”表示該韻律邊界劃分方案中韻律短語(yǔ)的邊界??梢钥闯觯诘谝环N韻律邊界劃分方案中,韻律單元“格”處在該韻律邊界劃分方案的第二個(gè)韻律短語(yǔ)的末尾,而在第二種韻律邊界劃分方案中,韻律單元“ 了 ”處在該韻律邊界劃分方案中第二個(gè)韻律短語(yǔ)的末尾。
[0051]在本實(shí)施例中,將不同韻律單元在所述語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息進(jìn)行比較,并根據(jù)比較的結(jié)果從至少兩個(gè)備選韻律邊界劃分方案中確定最終的韻律邊界劃分方案。其中,所述韻律單元的結(jié)構(gòu)概率信息包括所述韻律單元出現(xiàn)在韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的首部或者尾部的概率。
[0052]在上面的兩種韻律邊界劃分方案的例子中,韻律單元“格”以及韻律單元“了”分別處于第一種韻律邊界劃分方案和第二種韻律邊界劃分方案的末尾。如果在所述語(yǔ)音語(yǔ)料庫(kù)中韻律單元“格”處于韻律短語(yǔ)的末尾的概率大于韻律單元“了”處于韻律短語(yǔ)的末尾的概率,則選擇第一種韻律邊界劃分方案為最終的韻律邊界劃分方案;如果在所述語(yǔ)音語(yǔ)料庫(kù)中韻律單元“了”處于韻律短語(yǔ)的末尾的概率大于韻律單元“格”處于韻律短語(yǔ)的末尾的概率,則選擇第二中韻律邊界劃分方案為最終的韻律邊界劃分方案。
[0053]S330,根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成。
[0054]確定了輸入文本的韻律邊界劃分方案后,根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成。所述語(yǔ)音合成包括波形拼接式的語(yǔ)音合成,以及參數(shù)合成式的語(yǔ)音合成。
[0055]上述方案中,優(yōu)選可以首先采用上述方案確定韻律詞的劃分方案,如果需要,可以在韻律詞劃分的基礎(chǔ)上進(jìn)行韻律短語(yǔ)的劃分,得到多個(gè)韻律短語(yǔ)劃分的備選方案,采用類(lèi)似的方法獲得優(yōu)選的備選方案,作為最終的韻律邊界劃分方案。
[0056]圖6是實(shí)施本發(fā)明第一實(shí)施例提供的運(yùn)行基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法的語(yǔ)音合成系統(tǒng)的信號(hào)流圖。參見(jiàn)圖6,所述運(yùn)行基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法的語(yǔ)音合成系統(tǒng)對(duì)輸入文本的語(yǔ)音合成除了包括現(xiàn)有技術(shù)中的語(yǔ)音合成系統(tǒng)中包括的對(duì)輸入文本的文本分析608,依照韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入文本的韻律結(jié)構(gòu)預(yù)測(cè)609,對(duì)輸入文本的參數(shù)預(yù)測(cè)/單元選擇610,以及最終的語(yǔ)音合成611,還包括依據(jù)韻律單元的在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息對(duì)韻律結(jié)構(gòu)進(jìn)行的韻律修正607。按照修正后的韻律結(jié)構(gòu)進(jìn)行輸入文本的語(yǔ)音合成,所得到的合成語(yǔ)音的自然度更高。
[0057]本實(shí)施例通過(guò)對(duì)輸入文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè),給出至少兩個(gè)備選韻律邊界劃分方案,再根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元的結(jié)構(gòu)概率信息確定韻律邊界劃分方案,最后根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成,使得在對(duì)輸入文本進(jìn)行的韻律結(jié)構(gòu)預(yù)測(cè)參考了韻律單元的在語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息,提高了語(yǔ)音合成的自然度和靈活性。
[0058]圖7示出了本發(fā)明的第二實(shí)施例。
[0059]圖7是本發(fā)明第二實(shí)施例提供的基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法中邊界劃分的流程圖。所述基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法以本發(fā)明第一實(shí)施例為基礎(chǔ),進(jìn)一步的,根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息確定韻律邊界劃分方案包括:
[0060]S321,根據(jù)預(yù)先對(duì)語(yǔ)音語(yǔ)料庫(kù)中數(shù)據(jù)的統(tǒng)計(jì),獲取所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元的結(jié)構(gòu)概率信息。
[0061]在根據(jù)韻律單元的位置統(tǒng)計(jì)信息確定輸入文本的韻律邊界劃分方案時(shí),首先根據(jù)預(yù)先對(duì)語(yǔ)音語(yǔ)料庫(kù)中數(shù)據(jù)的統(tǒng)計(jì),獲取所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元的結(jié)構(gòu)概率信息。其中,所述韻律單元的結(jié)構(gòu)概率信息包括所述韻律單元出現(xiàn)在韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的首部或者尾部的概率。
[0062]所述韻律單元應(yīng)該選取處于所述備選韻律邊界劃分方案中韻律邊界處的韻律單元。如果所述韻律單元的結(jié)構(gòu)概率信息是指所述韻律單元出現(xiàn)在韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的首部的概率,則需要選取處于所述韻律邊界后面的韻律單元;如果所述韻律單元的結(jié)構(gòu)概率信息是指所述韻律單元出現(xiàn)在韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的尾部的概率,則需要選取處于所述韻律邊界前面的韻律單元。[0063]優(yōu)選的,所述韻律單元的結(jié)構(gòu)概率信息可以通過(guò)下式表達(dá):
[0064]Wi = β X log (m+ηθ) - Y。
[0065]其中,m表示所述韻律單元處于所述語(yǔ)音語(yǔ)料庫(kù)中目標(biāo)韻律層級(jí)的目標(biāo)位置的個(gè)數(shù),所述目標(biāo)韻律層級(jí)包括韻律詞、韻律短語(yǔ)以及語(yǔ)調(diào)短語(yǔ),所述目標(biāo)位置可以是韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的首部或者尾部;n0是個(gè)數(shù)調(diào)整參數(shù),它可以是大于零的任意整數(shù);β是概率縮放系數(shù);Y是概率偏移系數(shù)。上式中,參數(shù)η0、β以及Y是依據(jù)經(jīng)驗(yàn)取值的參數(shù),而通過(guò)上式計(jì)算得到的結(jié)果Wi就表示所述韻律單元在所述語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息。
[0066]S322,根據(jù)所述結(jié)構(gòu)概率信息,利用輸出概率計(jì)算函數(shù)計(jì)算所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率。
[0067]優(yōu)選的,按照預(yù)定的加權(quán)參數(shù)對(duì)所述至少兩個(gè)備選韻律邊界劃分方案的目標(biāo)韻律層級(jí)概率以及結(jié)構(gòu)概率進(jìn)行加權(quán)平均,確定所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率。
[0068]示例的,所述輸出概率計(jì)算函數(shù)如下式所示:
[0069]f(Wp1Wi) = α XWp+(1-a)Wi。
[0070]其中,α是加權(quán)系數(shù),它是一個(gè)依經(jīng)驗(yàn)取值的參數(shù),其取值在O至I之間;Wp是所述韻律單元的韻律層級(jí)概率;Wi是所述韻律單元的結(jié)構(gòu)概率。其中,所述韻律單元的韻律層級(jí)概率,也就是Wp是利用韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)時(shí),由所述韻律結(jié)構(gòu)預(yù)測(cè)模型輸出的對(duì)應(yīng)于所述韻律單元的概率值。它表示輸入文本在所述韻律單元處出現(xiàn)對(duì)應(yīng)層級(jí)的韻律邊界的概率。所述對(duì)應(yīng)層級(jí)可以是韻律詞層級(jí)、韻律短語(yǔ)層級(jí)或者語(yǔ)調(diào)短語(yǔ)層級(jí)。
[0071]所述韻律單元的結(jié)構(gòu)概率是指所述韻律單元出現(xiàn)在語(yǔ)音語(yǔ)料庫(kù)的語(yǔ)料中的特定位置的概率。所述結(jié)構(gòu)概率可以通過(guò)對(duì)語(yǔ)音語(yǔ)料庫(kù)中韻律單元的出現(xiàn)位置進(jìn)行統(tǒng)計(jì)而得到。
[0072]優(yōu)選的,所述韻律單元的結(jié)構(gòu)概率是指所述韻律單元出現(xiàn)在語(yǔ)音語(yǔ)料庫(kù)中韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的首部或者尾部的概率。
[0073]所述輸出概率計(jì)算函數(shù)的計(jì)算結(jié)果是所述備選韻律邊界劃分方案的輸出概率。
[0074]S323,確定輸出概率最大的備選韻律邊界劃分方案為韻律邊界劃分方案。
[0075]可以認(rèn)為輸出概率最大的備選韻律邊界劃分方案是依據(jù)韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息最為適合的韻律邊界劃分方案,因此,將輸出概率最大的備選韻律邊界劃分方案作為最終的韻律邊界劃分方案。
[0076]本實(shí)施例通過(guò)獲取所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元的結(jié)構(gòu)概率信息,再根據(jù)所述結(jié)構(gòu)概率信息,利用輸出概率計(jì)算函數(shù)計(jì)算所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率,最后確定輸出概率最大的備選韻律邊界劃分方案為最終的韻律邊界劃分方案,完成了根據(jù)韻律單元的位置統(tǒng)計(jì)信息對(duì)韻律邊界劃分方案的確定,提高了語(yǔ)音合成的自然度和靈活性。
[0077]圖8示出了本發(fā)明的優(yōu)選實(shí)施例。
[0078]圖8是本發(fā)明優(yōu)選實(shí)施例提供的基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法的流程圖。參見(jiàn)圖8,所述基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法包括:[0079]S810,利用文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)訓(xùn)練韻律結(jié)構(gòu)預(yù)測(cè)模型。
[0080]語(yǔ)音合成系統(tǒng)是將輸入的文本序列轉(zhuǎn)換成合成語(yǔ)音波形的系統(tǒng)。它把文本文件通過(guò)一定的軟硬件轉(zhuǎn)換,然后又計(jì)算機(jī)或其他語(yǔ)音系統(tǒng)將語(yǔ)音輸出,并盡可能的使合成的語(yǔ)音向人發(fā)出的聲音一樣有較高的可懂度和自然度。
[0081]對(duì)輸入文本的語(yǔ)音合成是依據(jù)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)兩個(gè)語(yǔ)料庫(kù)中的語(yǔ)料數(shù)據(jù)而進(jìn)行的。所述文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中都存儲(chǔ)著海量的語(yǔ)料數(shù)據(jù)。所述文本語(yǔ)料庫(kù)中語(yǔ)料數(shù)據(jù)的格式是文本格式,它是對(duì)輸入文本進(jìn)行文本分析的基礎(chǔ)參照。而語(yǔ)音語(yǔ)料庫(kù)中語(yǔ)料數(shù)據(jù)的格式是音頻格式,它是完成對(duì)輸入文本的分析后進(jìn)行語(yǔ)音合成的基礎(chǔ)數(shù)據(jù)。
[0082]在分析輸入文本和合成輸出語(yǔ)音兩個(gè)步驟之間,還必須對(duì)輸入文本的韻律結(jié)構(gòu)進(jìn)行預(yù)測(cè)。對(duì)輸入文本的韻律結(jié)構(gòu)預(yù)測(cè)決定了輸出語(yǔ)音的停頓點(diǎn)和停頓時(shí)長(zhǎng)等聲學(xué)參數(shù)。對(duì)輸入文本的韻律結(jié)構(gòu)預(yù)測(cè)必須依據(jù)訓(xùn)練好的韻律結(jié)構(gòu)預(yù)測(cè)模型。
[0083]對(duì)所述韻律結(jié)構(gòu)預(yù)測(cè)模型的訓(xùn)練是依據(jù)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)而進(jìn)行的。所述標(biāo)注數(shù)據(jù)對(duì)語(yǔ)料的韻律結(jié)構(gòu)進(jìn)行了標(biāo)注。在對(duì)韻律結(jié)構(gòu)預(yù)測(cè)模型的訓(xùn)練過(guò)程中,通過(guò)對(duì)所述文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中標(biāo)注數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí),所述韻律結(jié)構(gòu)預(yù)測(cè)模型完善了自身的結(jié)構(gòu),從而能夠針對(duì)輸入文本,對(duì)輸入文本的韻律結(jié)構(gòu)進(jìn)行預(yù)測(cè)。
[0084]在本實(shí)施例中,對(duì)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)包括:依據(jù)決策樹(shù)算法、條件隨機(jī)場(chǎng)算法、最大熵模型算法以及隱馬爾科夫模型算法進(jìn)行的統(tǒng)計(jì)學(xué)習(xí)。
[0085]S820,通過(guò)對(duì)韻律單元在語(yǔ)音語(yǔ)料庫(kù)中出現(xiàn)位置的統(tǒng)計(jì),獲取所述韻律單元的結(jié)構(gòu)概率信息。
[0086]所述語(yǔ)音語(yǔ)料庫(kù)中存儲(chǔ)著海量的語(yǔ)音語(yǔ)料片段。所述語(yǔ)音語(yǔ)料片段有不同的韻律單元組成。例如,所述語(yǔ)音語(yǔ)料庫(kù)中存儲(chǔ)有“到達(dá)目的地”的語(yǔ)音語(yǔ)料片段,則該語(yǔ)音語(yǔ)料片段包括“到”、“達(dá)”、“目”、“的”以及“地”五個(gè)韻律單元。
[0087]所述語(yǔ)音語(yǔ)料片段可以是韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)。在本實(shí)施例中,所述語(yǔ)首語(yǔ)料片段是韻律短語(yǔ)。
[0088]所述結(jié)構(gòu)概率信息是指韻律單元在所述語(yǔ)音語(yǔ)料庫(kù)中出現(xiàn)在語(yǔ)音語(yǔ)料片段中設(shè)定位置的概率信息。優(yōu)選的,所述結(jié)構(gòu)概率信息是指韻律單元在所述語(yǔ)音語(yǔ)料庫(kù)中出現(xiàn)在所述語(yǔ)音語(yǔ)料片段的首部或者尾部的概率信息。
[0089]可以通過(guò)對(duì)韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的出現(xiàn)位置進(jìn)行統(tǒng)計(jì)而獲取所述結(jié)構(gòu)概率信息。優(yōu)選的,可以通過(guò)對(duì)韻律單元在語(yǔ)音語(yǔ)料庫(kù)中出現(xiàn)在語(yǔ)音語(yǔ)料片段的首部或者尾部的概率而獲取所述結(jié)構(gòu)概率信息。
[0090]S830,利用韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入的文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)處理,給出至少兩個(gè)備選韻律邊界劃分方案。
[0091]接收到輸入文本后,利用已經(jīng)訓(xùn)練好的韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)處理。對(duì)輸入文本的韻律結(jié)構(gòu)預(yù)測(cè)處理的結(jié)果是針對(duì)輸入文本的至少兩個(gè)備選韻律邊界劃分方案。優(yōu)選的,可以通過(guò)輸出對(duì)輸入文本的較優(yōu)的至少兩個(gè)備選韻律邊界劃分方案來(lái)獲得對(duì)所述輸入文本的不同的韻律邊界劃分方案。
[0092]所述韻律邊界劃分方案用于定義輸入文本的韻律邊界。優(yōu)選的,按照輸入文本的不同韻律層級(jí),所述韻律邊界劃分方案所定義的輸入文本的韻律邊界包括韻律詞邊界、韻律短語(yǔ)邊界以及語(yǔ)調(diào)短語(yǔ)邊界。[0093]由于對(duì)韻律短語(yǔ)的預(yù)測(cè)便成為了韻律結(jié)構(gòu)預(yù)測(cè)中的難點(diǎn),在本實(shí)施例中僅以對(duì)韻律短語(yǔ)的邊界的劃分為例對(duì)韻律結(jié)構(gòu)邊界的劃分進(jìn)行說(shuō)明。本領(lǐng)域技術(shù)人員應(yīng)該理解,對(duì)韻律詞以及語(yǔ)調(diào)短語(yǔ)的邊界劃分的過(guò)程與對(duì)韻律短語(yǔ)的邊界劃分的過(guò)程類(lèi)似。
[0094]示例的,以對(duì)輸入文本“短短兩周時(shí)間上漲的價(jià)格超過(guò)了過(guò)去五年的總和”的韻律短語(yǔ)邊界劃分為例,對(duì)給出至少兩個(gè)備選韻律邊界劃分方案的過(guò)程進(jìn)行說(shuō)明。對(duì)于上述輸入文本有下面兩種韻律短語(yǔ)邊界劃分方案:
[0095]短短兩周時(shí)間$上漲的價(jià)格$超過(guò)了過(guò)去五年的總和。
[0096]短短兩周時(shí)間$上漲的價(jià)格超過(guò)了 $過(guò)去五年的總和。
[0097]其中,符號(hào)“$”表示所述韻律邊界劃分方案中韻律短語(yǔ)的邊界。
[0098]S840,根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息確定韻律邊界劃分方案。
[0099]無(wú)論是所述韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ),都是由韻律單元組成的。在語(yǔ)音語(yǔ)料庫(kù)中,韻律單元會(huì)根據(jù)一定的概率出現(xiàn)在韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的首部或者尾部。例如,韻律單元“了”出現(xiàn)在韻律短語(yǔ)的尾部的概率為0.78。這個(gè)概率就是韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息。
[0100]可以通過(guò)對(duì)韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的出現(xiàn)位置進(jìn)行統(tǒng)計(jì),得到所述韻律單元的結(jié)構(gòu)概率信息,也就是韻律單元出現(xiàn)在韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的首部或者尾部的概率。得到所述韻律單元的結(jié)構(gòu)概率信息后,可以依據(jù)韻律單元的結(jié)構(gòu)概率信息分別計(jì)算所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率,再依據(jù)所述輸出概率從所述至少兩個(gè)備選韻律邊界劃分方案中確定最終的韻律邊界劃分方案。
[0101]優(yōu)選的,可以根據(jù)下式計(jì)算所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率:
[0102]f (Wp1Wi) = a Xffp+(l-a )ffiD
[0103]其中,α是加權(quán)系數(shù),它是一個(gè)依經(jīng)驗(yàn)取值的參數(shù),其取值在O至I之間,并且一旦選定,對(duì)于不同的備選韻律邊界劃分方案不會(huì)改變;Wp是所述韻律單元的韻律層級(jí)概率;Wi是所述韻律單元的結(jié)構(gòu)概率。
[0104]以上文所述的對(duì)于輸入文本“短短兩周時(shí)間上漲的價(jià)格超過(guò)了過(guò)去五年的總和”的兩種韻律邊界劃分方案為例,假如韻律單元“了”出現(xiàn)在語(yǔ)音語(yǔ)料庫(kù)中韻律短語(yǔ)的末尾的概率大于韻律單元“格”出現(xiàn)在韻律短語(yǔ)的末尾的概率,則依據(jù)該結(jié)構(gòu)概率信息計(jì)算得到的第二種韻律邊界劃分方案的輸出概率大于第一種韻律邊界劃分方案的輸出概率,所以選擇第二種韻律邊界劃分方案為最終的韻律邊界劃分方案。
[0105]S850,根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成。
[0106]確定了輸入文本的韻律邊界劃分方案后,根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成。所述語(yǔ)音合成可以是波形拼接式的語(yǔ)音合成,也可以是參數(shù)合成式的語(yǔ)音合成。
[0107]需要說(shuō)明的是,上述方法步驟有可能并不由一臺(tái)計(jì)算機(jī)執(zhí)行。實(shí)際上,有可能在一臺(tái)計(jì)算機(jī)上完成對(duì)韻律結(jié)構(gòu)預(yù)測(cè)模型的訓(xùn)練,再將訓(xùn)練好的韻律結(jié)構(gòu)預(yù)測(cè)模型移植到另一臺(tái)計(jì)算機(jī)上,完成對(duì)輸入文本的語(yǔ)音合成。
[0108]本實(shí)施例通過(guò)訓(xùn)練韻律結(jié)構(gòu)預(yù)測(cè)模型,統(tǒng)計(jì)韻律單元的位置統(tǒng)計(jì)信息,對(duì)輸入文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)以給出至少兩個(gè)備選韻律邊界劃分方案,根據(jù)韻律單元的位置統(tǒng)計(jì)信息從所述至少兩個(gè)備選韻律邊界劃分方案中確定最終的韻律邊界劃分方案,最后根據(jù)確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成,使得參考韻律單元的位置統(tǒng)計(jì)信息對(duì)輸入文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè),提高了語(yǔ)音合成的自然度和靈活性。
[0109]圖9示出了本發(fā)明的第三實(shí)施例。
[0110]圖9是本發(fā)明第三實(shí)施例提供的基于大語(yǔ)料庫(kù)的語(yǔ)音合成裝置的結(jié)構(gòu)圖。參見(jiàn)圖9,所述基于大語(yǔ)料庫(kù)的語(yǔ)音合成裝置包括:預(yù)測(cè)處理模塊910、邊界劃分模塊920以及語(yǔ)音合成模塊930。
[0111]所述預(yù)測(cè)處理模塊910用于利用韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入的文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)處理,給出至少兩個(gè)備選韻律邊界劃分方案。
[0112]所述邊界劃分模塊920用于根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息確定韻律邊界劃分方案。
[0113]所述語(yǔ)音合成模塊930用于根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成。
[0114]優(yōu)選的,所述韻律結(jié)構(gòu)預(yù)測(cè)模型是通過(guò)預(yù)先對(duì)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)習(xí)而生成的。
[0115]優(yōu)選的,預(yù)先對(duì)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)包括:依據(jù)決策樹(shù)算法、條件隨機(jī)場(chǎng)算法、最大熵模型算法以及隱馬爾科夫模型算法進(jìn)行的統(tǒng)計(jì)學(xué)習(xí)。
[0116]優(yōu)選的,所述邊界劃分模塊包括:結(jié)構(gòu)概率信息獲取單元921、輸出概率計(jì)算單元922以及邊界劃分方案確定單元923。
[0117]所述結(jié)構(gòu)概率信息獲取單元921用于根據(jù)預(yù)先對(duì)語(yǔ)音語(yǔ)料庫(kù)中數(shù)據(jù)的統(tǒng)計(jì),獲取所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元的結(jié)構(gòu)概率信息。
[0118]所述輸出概率計(jì)算單元922用于根據(jù)所述結(jié)構(gòu)概率信息,利用輸出概率計(jì)算函數(shù)計(jì)算所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率。
[0119]所述邊界劃分方案確定單元923用于確定輸出概率最大的備選韻律邊界劃分方案為韻律邊界劃分方案。
[0120]優(yōu)選的,所述至少兩個(gè)備選韻律邊界劃分方案所劃定的韻律邊界包括:韻律詞邊界、韻律短語(yǔ)邊界或語(yǔ)調(diào)短語(yǔ)邊界。
[0121]優(yōu)選的,所述韻律單元的結(jié)構(gòu)概率信息包括:所述韻律單元出現(xiàn)在韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的首部或者尾部的概率。
[0122]優(yōu)選的,所述輸出概率計(jì)算單元922具體用于:按照預(yù)定的加權(quán)參數(shù)對(duì)所述至少兩個(gè)備選韻律邊界劃分方案的目標(biāo)韻律層級(jí)概率以及結(jié)構(gòu)概率進(jìn)行加權(quán)平均,確定所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率。
[0123]上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0124]本領(lǐng)域普通技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,他們可以用計(jì)算機(jī)裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件的結(jié)合。
[0125]本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間的相同或相似的部分互相參見(jiàn)即可。[0126]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域技術(shù)人員而言,本發(fā)明可以有各種改動(dòng)和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種基于大語(yǔ)料庫(kù)的語(yǔ)音合成方法,其特征在于,包括: 利用韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入的文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)處理,給出至少兩個(gè)備選韻律邊界劃分方案; 根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息確定韻律邊界劃分方案; 根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述韻律結(jié)構(gòu)預(yù)測(cè)模型是通過(guò)預(yù)先對(duì)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)習(xí)而生成的。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,預(yù)先對(duì)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)包括:依據(jù)決策樹(shù)算法、條件隨機(jī)場(chǎng)算法、最大熵模型算法以及隱馬爾科夫模型算法進(jìn)行的統(tǒng)計(jì)學(xué)習(xí)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息確定韻律邊界劃分方案包括: 根據(jù)預(yù)先對(duì)語(yǔ)音語(yǔ)料庫(kù)中數(shù)據(jù)的統(tǒng)計(jì),獲取所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元的結(jié)構(gòu)概率信息; 根據(jù)所述結(jié)構(gòu)概率信息,利用輸出概率計(jì)算函數(shù)計(jì)算所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率; 確定輸出概率最大的備選韻律邊界劃分方案為韻律邊界劃分方案。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述至少兩個(gè)備選韻律邊界劃分方案所劃定的韻律邊界包括:韻律詞邊界、韻律短語(yǔ)邊界或語(yǔ)調(diào)短語(yǔ)邊界。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述韻律單元的結(jié)構(gòu)概率信息包括:所述韻律單元出現(xiàn)在韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的首部或者尾部的概率。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述結(jié)構(gòu)概率信息,利用輸出概率計(jì)算函數(shù)計(jì)算所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率包括: 按照預(yù)定的加權(quán)參數(shù)對(duì)所述至少兩個(gè)備選韻律邊界劃分方案的目標(biāo)韻律層級(jí)概率以及結(jié)構(gòu)概率進(jìn)行加權(quán)平均,確定所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率。
8.一種基于大語(yǔ)料庫(kù)的語(yǔ)音合成裝置,其特征在于,包括: 預(yù)測(cè)處理模塊,用于利用韻律結(jié)構(gòu)預(yù)測(cè)模型對(duì)輸入的文本進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)處理,給出至少兩個(gè)備選韻律邊界劃分方案; 邊界劃分模塊,用于根據(jù)所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元在語(yǔ)音語(yǔ)料庫(kù)中的結(jié)構(gòu)概率信息確定韻律邊界劃分方案; 語(yǔ)音合成模塊,用于根據(jù)所確定的韻律邊界劃分方案進(jìn)行語(yǔ)音合成。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述韻律結(jié)構(gòu)預(yù)測(cè)模型是通過(guò)預(yù)先對(duì)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)習(xí)而生成的。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,預(yù)先對(duì)文本語(yǔ)料庫(kù)和語(yǔ)音語(yǔ)料庫(kù)中的標(biāo)注數(shù)據(jù)的統(tǒng)計(jì)學(xué)習(xí)包括:依據(jù)決策樹(shù)算法、條件隨機(jī)場(chǎng)算法、最大熵模型算法以及隱馬爾科夫模型算法進(jìn)行的統(tǒng)計(jì)學(xué)習(xí)。
11.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述邊界劃分模塊包括: 結(jié)構(gòu)概率信息獲取單元,用于根據(jù)預(yù)先對(duì)語(yǔ)音語(yǔ)料庫(kù)中數(shù)據(jù)的統(tǒng)計(jì),獲取所述至少兩個(gè)備選韻律邊界劃分方案中韻律單元的結(jié)構(gòu)概率信息; 輸出概率計(jì)算單元,用于根據(jù)所述結(jié)構(gòu)概率信息,利用輸出概率計(jì)算函數(shù)計(jì)算所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率; 邊界劃分方案確定單元,用于確定輸出概率最大的備選韻律邊界劃分方案為韻律邊界劃分方案。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述至少兩個(gè)備選韻律邊界劃分方案所劃定的韻律邊界包括:韻律詞邊界、韻律短語(yǔ)邊界或語(yǔ)調(diào)短語(yǔ)邊界。
13.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述韻律單元的結(jié)構(gòu)概率信息包括:所述韻律單元出現(xiàn)在韻律詞、韻律短語(yǔ)或者語(yǔ)調(diào)短語(yǔ)的首部或者尾部的概率。
14.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述輸出概率計(jì)算單元具體用于: 按照預(yù)定的加權(quán)參數(shù)對(duì)所述至少兩個(gè)備選韻律邊界劃分方案的目標(biāo)韻律層級(jí)概率以及結(jié)構(gòu)概率進(jìn)行加權(quán)平均,確定所述至少兩個(gè)備選韻律邊界劃分方案的輸出概率。
【文檔編號(hào)】G10L13/08GK104021784SQ201410276352
【公開(kāi)日】2014年9月3日 申請(qǐng)日期:2014年6月19日 優(yōu)先權(quán)日:2014年6月19日
【發(fā)明者】李秀林 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司