亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種語音撥號的語音合成方法和系統(tǒng)的制作方法

文檔序號:2821489閱讀:232來源:國知局
專利名稱:一種語音撥號的語音合成方法和系統(tǒng)的制作方法
技術領域
本發(fā)明涉及一種準確、多樣的語音合成方法,該方法不僅可以進行完全準確的合成,還可以進行多樣的合成,尤其本方法為用戶提供了一個自定義語音合成元素的方法。
背景技術
隨著對各種自動化、智能化系統(tǒng)需求的不斷增多和語音應用技術的不斷成熟,各種基于語音提示引導用戶完成系統(tǒng)特定功能的系統(tǒng)日漸增多,應用涉及郵件、電話號碼查詢、股票信息、銀行業(yè)務及其他各種信息服務領域,而語音合成則成為這些應用系統(tǒng)中必不可少的模塊。因此語音合成技術也迅速的發(fā)展起來。
目前,多數(shù)語音合成技術都致力于提高語音合成的自然度,在發(fā)音的準確性方面投入精力較少。至今為止,還沒有能夠完全合成正確的合成引擎問世。
另外,目前的合成系統(tǒng)語音合成音庫比較單一,使得某用戶使用語音系統(tǒng)時,自始至終都是同一個聲音,同一個節(jié)奏,沒有變化的信息。
加之,現(xiàn)有的語音合成技術產(chǎn)品發(fā)布之后,無法實現(xiàn)用戶自定義語音合成元素。
因此,希望能有一種方法和系統(tǒng),可以提供很高準確性語音合成,且具有變化的信息,同時,可以實現(xiàn)用戶自定義語音合成元素。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術的上述缺點,為此,本發(fā)明提供一種準確多樣的語音合成方法。該方法可以使得語音合成很高的正確率;同時該方法還能提供多樣的合成,甚至于一句話中的每個字都是由不同的播音員錄制。另外,本發(fā)明提供了一個用戶自定義語音合成方法,使得用戶可以定制新的語音合成元素。
為了達到上面的目的,本發(fā)明的技術方案是這樣實現(xiàn)的一種語音撥號的語音合成的系統(tǒng),包括提示語生成和存儲模塊;維護界面單元,用于用戶維護提示語的生成和存儲;以及用戶調(diào)用API模塊,用于與所述提示語生成和存儲模塊交互;其中,提示語生成和存儲模塊包括提示語模板生成單元,用于生成提示語模板;提示語生成單元,用于根據(jù)所述模板生成提示語對應的數(shù)據(jù);提示語錄放單元,用于錄制和/或播放所述提示語;提示語調(diào)用單元,用于調(diào)用所述提示語以及數(shù)據(jù)存儲單元。
可選地,所述的系統(tǒng),還包括語音板卡,用于將所述提示語轉(zhuǎn)換為語音信號。
優(yōu)選地,所述數(shù)據(jù)存儲單元包括語音庫,用于存儲發(fā)音的拼音串或單個拼音對應的發(fā)音文件。
本發(fā)明的一種語音撥號的語音合成方法,包括步驟用戶給出要合成的語音串的內(nèi)容;根據(jù)所述內(nèi)容,查找數(shù)據(jù)庫,以獲得對應的發(fā)音,其中,所述發(fā)音包括發(fā)音的聲調(diào);根據(jù)所述對應的發(fā)音,由播放模塊播放所述發(fā)音。
可選地,還包括步驟合成發(fā)音庫,用于合成用戶定制的發(fā)音庫。
優(yōu)選地,所述合成發(fā)音庫的步驟包括
用戶輸入需要合成單元的漢字;系統(tǒng)給出所述漢字對應的拼音串組合;選擇正確的發(fā)音拼音串組合;將此拼音串保存至數(shù)據(jù)庫。
可選地,所述獲得對應的發(fā)音的步驟包括查找語音庫,判斷是否存在該拼音串對應的發(fā)音文件。如果存在,將此拼音串保存至數(shù)據(jù)庫的內(nèi)容,然后播放;如果沒有找到該拼音串對應的發(fā)音文件,則分別查找每個拼音對應的發(fā)音文件,依次播放。
優(yōu)選地,所述查找數(shù)據(jù)庫的步驟還包括判斷是否找到該合成單元的發(fā)音,如果沒有,返回API(用戶應用接口);如果有繼續(xù)。
可選地,還包括步驟,生成提示語并播放,其中,所述提示語根據(jù)用戶的要求生成,以提示用戶在適當?shù)奈恢幂斎虢o出要合成的語音串的內(nèi)容。
優(yōu)選地,所述生成提示語并播放的步驟包括生成用戶判斷語句,以由用戶判斷是否是需要的語音串。
因此,本發(fā)明公開的一種準確、多樣的語音合成方法是由開發(fā)者在預開發(fā)系統(tǒng)生成的時候,把每一句提示語中的每個漢字的拼音輸入到系統(tǒng)中;經(jīng)常使用的固定合成語句還可以由開發(fā)用戶自定義錄制;在開發(fā)用戶調(diào)用API(應用程序接口)的時候,系統(tǒng)優(yōu)先調(diào)用自定義的合成單元,這樣合成自然;另外在系統(tǒng)需要著重強調(diào)的部分可以通過語速來控制。


圖1為本發(fā)明系統(tǒng)的結(jié)構(gòu)示意圖;
圖2為本發(fā)明系統(tǒng)的工作流程圖;圖3A為錄入語音合成單元的實現(xiàn)流程圖;圖3B為錄入語音合成單元的實現(xiàn)流程圖的一個具體例子;圖4為本發(fā)明的播放語音合成的實現(xiàn)流程圖。
具體實施例方式
為了使本技術領域的人員更好地理解本發(fā)明,下面結(jié)合附圖和實施方式對本發(fā)明作進一步的詳細說明。
圖1為本發(fā)明系統(tǒng)的結(jié)構(gòu)示意圖;從該圖中可以看出本系統(tǒng)主要包括三個部分提示語生成和存儲模塊、維護界面單元、以及用戶調(diào)用API。其中,提示語生成和存儲模塊包括提示語模板生成單元、提示語生成單元、提示語錄放單元、提示語調(diào)用單元以及數(shù)據(jù)存儲單元等。
參照圖1和圖2,在構(gòu)造語音撥號系統(tǒng)之前,首先確定本應用中有哪些場景,以及每個場景的提示語模板。例如,在語音撥號的人名確定場景,提示語模板是這樣的[],是他請按“#”號鍵,否則請重說一下您找誰。并且把本提示語模板中確定部分的漢字輸入拼音。
接下來,在提示語生成單元輸入模板中[]部分可能的替代內(nèi)容,在本例中,[]部分可能是某公司的所有員工的姓名,在加入員工人名的同時還要輸入每位員工姓名的拼音。這樣,語音撥號系統(tǒng)中使用的每句提示語的發(fā)音就都已經(jīng)確定下來。
在提示語錄放單元,把提示語中固定的部分錄制成自定義語音合成元素,例如,在本例中第一步生成的提示語模板,可以把“是他請按“#”號鍵,否則請重說一下您找誰”錄制成自定義語音合成元素,并且輸入自定義語音合成元素的名稱和對應的文字內(nèi)容,這種對應關系被存儲到數(shù)據(jù)存儲單元中。
當系統(tǒng)運轉(zhuǎn)的時候,語音撥號系統(tǒng)調(diào)用API中相應的播放函數(shù),并且傳遞給播放函數(shù)播放的內(nèi)容、播放采用的音庫、以及播放的速度,例如,語音撥號系統(tǒng)要播放提示語“[張三]是他請按“#”號鍵,否則請重說一下您找誰”則語音撥號系統(tǒng)調(diào)用兩次API中的播放函數(shù),第一次調(diào)用播放函數(shù)的參數(shù)是播放的內(nèi)容為“[張三]”、采用Mary錄制的音庫播放、并且以1.5倍的默認速度播放。第二次調(diào)用播放函數(shù)的參數(shù)是,播放的內(nèi)容是“是他請按“#”號鍵,否則請重說一下您找誰”、采用默認的音庫播放、并且以默認的速度播放。
提示語調(diào)用單元首先查找第一句語音合成內(nèi)容的拼音,然后在Mary錄制的音庫中分別查找并且播放“zhang1 san1”。接下來再播放第二句提示語,提示語調(diào)用單元查找第二句語合成內(nèi)容的拼音,并且通過查找自定義語音合成元素名稱和內(nèi)容對照表,發(fā)現(xiàn)該拼音是一個自定義合成元素,則直接播放該自定義合成元素的內(nèi)容。
語音合成系統(tǒng)就這樣繼續(xù)工作。
概言之,本發(fā)明的系統(tǒng)的主要工作步驟是錄入語音合成單元、播放語音合成兩個步驟。下面分別介紹。
圖3A為錄入語音合成單元的實現(xiàn)流程圖,圖3B為錄入語音合成單元的實現(xiàn)流程圖的一個具體例子。
首先,用戶輸入需要合成單元的漢字,如張行。
然后,系統(tǒng)給出對應的拼音串組合,在這個實施例中,系統(tǒng)給出對應的拼音串組合為“zhang1 hang2”″zhang1 xing2″。
再后,用戶選擇正確的發(fā)音拼音串組合;在這個實施例中,用戶選擇正確的發(fā)音拼音串組合為“zhang1 hang2”。
完成后,系統(tǒng)將此拼音串保存至數(shù)據(jù)庫;在這個實施例中,系統(tǒng)將“張行zhang1 hang2”保存至數(shù)據(jù)庫。
圖4為本發(fā)明的播放語音合成的實現(xiàn)流程圖。在這個實施例中,播放語音合成的步驟包括1.用戶給出要合成單元的內(nèi)容;即用戶通過API給出要合成單元的內(nèi)容2.系統(tǒng)查找數(shù)據(jù)庫,得到該合成單元的拼音串;例如用戶給出“張行”,系統(tǒng)從數(shù)據(jù)庫中查找得到拼音串zhang1 hang23.系統(tǒng)查找語音庫,判斷是否存在該拼音串對應的發(fā)音文件。如果存在,則系統(tǒng)將此拼音串保存至數(shù)據(jù)庫的內(nèi)容;然后,交給播放模塊依次播放。
4.如果沒有找到該拼音串對應的發(fā)音文件,則分別查找每個拼音對應的發(fā)音文件,交給播放模塊依次播放。
概言之,本發(fā)明的系統(tǒng)包括提示語模板生成單元,用于根據(jù)具體業(yè)務生成提示語模板。本單元一般只生成每個場景固定的提示信息部分,并且輸入固定部分漢字的拼音。例如在語音撥號應用中的轉(zhuǎn)接電話場景,生成這樣的提示語模板正在轉(zhuǎn)接至[]。其中的[]部分要在提示語生成單元中完成。
提示語生成單元,用于把在提示語模板生成單元中生成的提示語模板生成具體的提示語。例如在語音撥號應用中的轉(zhuǎn)接電話場景,其提示語模板如前所述,在提示語模板生成單元中已經(jīng)生成,則在此場景中輸入[]中可能的選擇,例如張三、李四,同時輸入每個可能選擇的拼音。
提示語錄放單元,用于錄制或者播放用戶自定義的提示語。
數(shù)據(jù)存儲單元,用于存儲語音合成音庫,由同一個播音員錄制的漢字所有發(fā)音形成一組語音合成子音庫;同時,每個播音員錄制的每一個漢字的發(fā)音就是一個語音合成元素。另外有一組自定義語音合成音庫,其中存放著開發(fā)用戶自定義的語音合成元素。除了自定義語音合成音庫之外,其它的音庫都是事先提供的。
提示語調(diào)用單元,該單元對語音板卡、或者聲卡直接控制,把生成好的語音播放出來。系統(tǒng)根據(jù)用戶調(diào)用API的參數(shù)來播放不同子音庫中的wav文件。另外,用戶通過調(diào)用API時傳遞不同的參數(shù)還可以設置播放某個或者某幾個合成元素的語速。
維護界面單元,該單元為開發(fā)用戶生成提示語模板、提示語、錄放合成元素等提供了一個界面。
API,是用戶編寫代碼、使該語音合成系統(tǒng)運轉(zhuǎn)起來并呈現(xiàn)給最終用戶的一種手段。
其中,數(shù)據(jù)存儲單元分別和提示語模板生成單元、提示語生成單元、提示語錄放單元、提示語調(diào)用單元、維護界面單元相連;維護界面單元除了和數(shù)據(jù)存儲單元相連之外,還分別和提示語模板生成單元、提示語生成單元、提示語錄放單元相連;提示語調(diào)用單元除了和數(shù)據(jù)存儲單元相連之外,還和API、語音板卡(或者聲卡)相連。
上述系統(tǒng)中,所述的數(shù)據(jù)存儲單元包含一個“自定義合成元素名稱和內(nèi)容對照表”,在開發(fā)用戶通過API調(diào)用該合成系統(tǒng),并且采用默認音庫時,系統(tǒng)首先查找該表,如果在該表中找到要合成的內(nèi)容,即要合成的內(nèi)容是一個自定義合成元素,則直接播放該自定義合成元素。
所述的維護界面單元包括提示語模板信息維護單元、提示語信息維護單元、提示語錄放單元、參數(shù)設定單元等,前三個單元分別對提示語生成和存儲模塊中的提示語模板生成單元、提示語生成單元、提示語錄放單元進行操作;其中的參數(shù)設定單元對系統(tǒng)默認采用的語音庫、默認播放語速、采用的播放硬件(語音板卡、聲卡等)等設定。
所述的維護界面單元在對提示語模板進行維護的時候,要輸入提示語模板中每一個漢字的發(fā)音。
所述的維護界面單元在對提示語進行維護的時候,要輸入提示語填充部分(即代替相應模板中的[]的內(nèi)容)中每一個漢字的發(fā)音。
本發(fā)明的語音合成方法包括以下步驟(參見附圖2)a.開發(fā)用戶根據(jù)具體業(yè)務需要,生成系統(tǒng)所需的所有提示語模板,以及模板中固定部分的漢字拼音;b.開發(fā)用戶根據(jù)預開發(fā)系統(tǒng)的具體場景以及數(shù)據(jù)庫中的內(nèi)容生成提示語;c.開發(fā)用戶根據(jù)需要錄制自定義的語音合成元素,例如提示語模板中固定的部分,并且給出給出自定義的語音合成元素名稱及內(nèi)容;d.開發(fā)用戶調(diào)用API,給出要合成提示語的內(nèi)容、采用的音庫、以及合成的語速;e.提示語調(diào)用單元根據(jù)API的內(nèi)容進行相應的操作,播放提示語。
該方法進一步包括開發(fā)用戶在調(diào)用API時如果沒有給出采用哪組音庫,則首先在自定義合成音庫中查找,如果沒找到,則采用默認組中的合成元素,其中的默認合成組是開發(fā)用戶設定的。
該方法進一步包括開發(fā)用戶在調(diào)用API時如果沒有給出合成的語速,則采用正常語速。語速還可以設置為正常語速的倍數(shù),例如1.5正常語速、0.5正常語速等。其中的正常語速是開發(fā)用戶設定的。
因此,本發(fā)明公開的一種準確、多樣的語音合成方法是由開發(fā)者在預開發(fā)系統(tǒng)生成的時候,把每一句提示語中的每個漢字的拼音輸入到系統(tǒng)中;經(jīng)常使用的固定合成語句還可以由開發(fā)用戶自定義錄制;在開發(fā)用戶調(diào)用API的時候,系統(tǒng)優(yōu)先調(diào)用自定義的合成單元,這樣合成自然;另外在系統(tǒng)需要著重強調(diào)的部分可以通過語速來控制。
雖然通過實施例描繪了本發(fā)明,本領域普通技術人員知道,本發(fā)明有許多變形和變化而不脫離本發(fā)明的精神,希望所附的權(quán)利要求包括這些變形和變化而不脫離本發(fā)明的精神。
權(quán)利要求
1.一種語音撥號的語音合成的系統(tǒng),包括提示語生成和存儲模塊;維護界面單元,用于用戶維護提示語的生成和存儲;以及用戶調(diào)用API模塊,用于與所述提示語生成和存儲模塊交互;其中,提示語生成和存儲模塊包括提示語模板生成單元,用于生成提示語模板;提示語生成單元,用于根據(jù)所述模板生成提示語對應的數(shù)據(jù);提示語錄放單元,用于錄制和/或播放所述提示語;提示語調(diào)用單元,用于調(diào)用所述提示語以及數(shù)據(jù)存儲單元。
2.如權(quán)利要求1所述的系統(tǒng),還包括語音板卡,用于將所述提示語轉(zhuǎn)換為語音信號。
3.如權(quán)利要求1所述的系統(tǒng),其中,所述數(shù)據(jù)存儲單元包括語音庫,用于存儲發(fā)音的拼音串或單個拼音對應的發(fā)音文件。
4.一種語音撥號的語音合成方法,包括步驟用戶給出要合成的語音串的內(nèi)容;根據(jù)所述內(nèi)容,查找數(shù)據(jù)庫,以獲得對應的發(fā)音,其中,所述發(fā)音包括發(fā)音的聲調(diào);根據(jù)所述對應的發(fā)音,由播放模塊播放所述發(fā)音。
5.如權(quán)利要求4所述的方法,還包括步驟合成發(fā)音庫,用于合成用戶定制的發(fā)音庫。
6.如權(quán)利要求5所述的方法,其中,所述合成發(fā)音庫的步驟包括用戶輸入需要合成單元的漢字;系統(tǒng)給出所述漢字對應的拼音串組合;選擇正確的發(fā)音拼音串組合;將此拼音串保存至數(shù)據(jù)庫。
7.如權(quán)利要求6所述的方法,其中,所述獲得對應的發(fā)音的步驟包括查找語音庫,判斷是否存在該拼音串對應的發(fā)音文件。如果存在,將此拼音串保存至數(shù)據(jù)庫的內(nèi)容,然后播放;如果沒有找到該拼音串對應的發(fā)音文件,則分別查找每個拼音對應的發(fā)音文件,依次播放。
8.如權(quán)利要求4所述的方法,所述查找數(shù)據(jù)庫的步驟還包括判斷是否找到該合成單元的發(fā)音,如果沒有,返回API(用戶應用接口);如果有繼續(xù)。
9.如權(quán)利要求4所述的方法,還包括步驟,生成提示語并播放,其中,所述提示語根據(jù)用戶的要求生成,以提示用戶在適當?shù)奈恢幂斎虢o出要合成的語音串的內(nèi)容。
10.如權(quán)利要求9所述的方法,其中,所述生成提示語并播放的步驟包括生成用戶判斷語句,以由用戶判斷是否是需要的語音串。
全文摘要
本發(fā)明提供了語音撥號的語音合成方法和裝置。該方法包括步驟用戶給出要合成的語音串的內(nèi)容;根據(jù)所述內(nèi)容,查找數(shù)據(jù)庫,以獲得對應的發(fā)音,其中,所述發(fā)音包括發(fā)音的聲調(diào);根據(jù)所述對應的發(fā)音,由播放模塊播放所述發(fā)音。該系統(tǒng)包括提示語生成和存儲模塊;維護界面單元;以及用戶調(diào)用API(應用編程接口)模塊;其中,提示語生成和存儲模塊包括提示語模板生成單元,提示語生成單元,提示語錄放單元,提示語調(diào)用單元。利用本發(fā)明,不僅可以進行完全準確的合成,還可以進行多樣的合成,為用戶提供了一個自定義語音合成元素的方法。
文檔編號G10L13/02GK1558647SQ200410001118
公開日2004年12月29日 申請日期2004年1月20日 優(yōu)先權(quán)日2004年1月20日
發(fā)明者任文捷, 張繼勇, 孫文彥, 諸光 申請人:聯(lián)想(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1