動態(tài)調(diào)整語音的方法

文檔序號：7859138閱讀：174來源：國知局

專利名稱：動態(tài)調(diào)整語音的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種動態(tài)調(diào)整語音的方法，特別是涉及一種依據(jù)網(wǎng)絡(luò)伺服器儲存使用者的語音特征參數(shù)并在使用者登錄伺服器后使用語音特征參數(shù)動態(tài)調(diào)整接收端語音的方法。
背景技術(shù)：
利用電話網(wǎng)路通話時，常常因為遠端(Far-end)的發(fā)話端在背景為惡劣的通話環(huán)境，造成近端的接收端無法清楚的辨識發(fā)話端的語音。另外對不同的人所發(fā)出的聲音，因其音域特征不同，即使對應(yīng)惡劣的通話環(huán)境相同，干擾語音的程度也會不同。一般解決的方式是調(diào)整近端收話端與遠端發(fā)話端之間的回音消除(echo-cancellaton)，但使用回音消除的方式并無法做即時與動態(tài)的通話品質(zhì)改善；另外如美國專利公開案US20080071861采用動態(tài)偵測環(huán)境噪音的惡劣度，進而調(diào)整揚聲器的增益值(gain)，但是對于每個人自己的音調(diào)，會有不同的頻率響應(yīng)分布。例如有人的低頻聲音比較響亮，若利用上述的專利技術(shù)，動態(tài)增益調(diào)整的結(jié)果會將低頻的聲音壓抑或是甚至刪除，則對接收端會難以聽清楚發(fā)話端的語音。因此本發(fā)明欲提出一種動態(tài)調(diào)整語音的方法，可以依據(jù)個人語音特征系統(tǒng)做即時且動態(tài)調(diào)整語音品質(zhì)，可以讓接收端能清楚的聽到發(fā)話端的語音。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種動態(tài)調(diào)整語音的方法，其可以動態(tài)的調(diào)整通話中的語音品質(zhì)，讓接收端能清楚的聽到發(fā)話端的語音。為達到上述目的，本發(fā)明一種動態(tài)調(diào)整語音的方法，適用于通訊系統(tǒng)，該通訊系統(tǒng)包括第一電話、第二電話以及伺服器，該方法包括儲存第一使用者資訊相關(guān)的第一參數(shù)組于該伺服器；該第一電話登錄該伺服器獲得第一使用者資訊；建立該第一電話與該第二電話的連接，該第一電話傳送即時語音特征至該伺服器；該伺服器依據(jù)該第一參數(shù)組以及該即時語音特征產(chǎn)生第一處理參數(shù)組，并傳送該第一處理參數(shù)組至該第二電話；以及該第二電話依據(jù)該第一處理參數(shù)組處理該連接的語音。較佳的，建立該連接后，該第一電話接收第一即時語音并擷取該即時語音特征。其中，該方法還包括該第二電話接收該第一即時語音，該第二電話以該第一處理參數(shù)組調(diào)整該第一即時語音后播放。此外，該即時語音特征更包括即時語音品質(zhì)，當該即時語音品質(zhì)高于第一預(yù)定值，該第二電話接收該第一即時語音后直接播放，當該即時語音品質(zhì)低于該第一預(yù)定值，該第二電話接收該第一即時語音并經(jīng)該第一處理參數(shù)組處理后播放。較佳的，該方法包括該即時語音特征更包括改善語音特征；該第一電話傳送該改善語音特征至該伺服器；以及該伺服器以該改善語音特征調(diào)整該第一參數(shù)組。其中，當該即時語音品質(zhì)低于第二預(yù)定值，該方法更包括傳送文字給該第二電話；以及該第二電話以該第一處理參數(shù)組對該文字合成第一合成語音后播放。另外，該文字由第一電話轉(zhuǎn)換該即時語音方式形成，或者是由該伺服器轉(zhuǎn)換該即時語音方式形成，或者是由第一電話直接輸入形成。較佳的，當透過該第一電話注冊該第一使用者資訊于該伺服器時，該伺服器要求該第一電話設(shè)定該第一參數(shù)組；該第一電話對訓練語音擷取該第一語音特征并傳送至該伺服器；以及該伺服器處理該第一語音特征產(chǎn)生第一參數(shù)組。其中，該第一語音特征包括語言種類、音調(diào)、聲音頻譜資料以及說話聲音快慢以及情緒的高低起伏等。為達到上述目的，本發(fā)明還提供了一種動態(tài)調(diào)整語音的方法的另一實施例。一種動態(tài)調(diào)整語音的方法，適用于通訊系統(tǒng)，該通訊系統(tǒng)包括第一電話、第二電話以及伺服器，該方法包括儲存第一使用者資訊相關(guān)的第一參數(shù)組于該伺服器；該第一電話登錄該伺服器獲得第一使用者資訊；建立該第一電話與該第二電話的連接，該第一電話傳送即時語音特征至該伺服器；該伺服器依據(jù)該第一參數(shù)組以及該即時語音特征產(chǎn)生第一處理參數(shù)組傳送至該第一電話；以及該第一電話依據(jù)該第一處理參數(shù)組調(diào)整后續(xù)的即時語音傳送給該第二電話。與現(xiàn)有技術(shù)相對比，本發(fā)明一種動態(tài)調(diào)整語音的方法，采用將包含第一使用者資訊的第一參數(shù)組儲存于伺服器中，并由第一電話(發(fā)聲端電話)傳送即時語音特征至伺服器；伺服器依據(jù)第一參數(shù)組以及即時語音特征產(chǎn)生第一處理參數(shù)組傳送至第二電話；以及第二電話依據(jù)第一處理參數(shù)組處理連接的語音；或者產(chǎn)生的第一處理參數(shù)組傳遞給第一電話，第一電話將語音信息處理后再傳遞給第二電話。本發(fā)明的好處在于，對于接收到的動態(tài)語音與環(huán)境變化可以依據(jù)使用者靜態(tài)的語音參數(shù)做調(diào)整，讓接收端可以接受到更貼近原生的語音，另外，透過網(wǎng)路連接資料庫，即使使用者不用同樣的電話只要登錄到伺服器即可享受到本發(fā)明的好處，更貼近云端服務(wù)的目的。

圖I為本發(fā)明動態(tài)調(diào)整語音的方法所涉及的系統(tǒng)示意圖。圖2a為圖I所述的電話的內(nèi)部結(jié)構(gòu)示意圖。圖2b為圖I所述的伺服器的內(nèi)部結(jié)構(gòu)示意圖。圖3為本發(fā)明動態(tài)調(diào)整語音的方法的流程圖。
具體實施例方式為使對本發(fā)明的目的、構(gòu)造、特征、及其功能有進一步的了解，茲配合實施例詳細說明如下。請參考圖I所示，為本發(fā)明動態(tài)調(diào)整語音的方法所涉及的通訊系統(tǒng)示意圖。通訊系統(tǒng)包括第一電話10、第二電話20以及伺服器30、網(wǎng)路40。第一電話10透過網(wǎng)路40對第二電話20建立連接進行通話，此連接主要作為通話用，第一電話10與第二電話20可以是行動電話、網(wǎng)路電話或是市內(nèi)電話等類型，其建立的語音連接在網(wǎng)路40的部份可為蜂巢式行動電話、市內(nèi)電話網(wǎng)路或是網(wǎng)際網(wǎng)路；第一電話10與第二電話20可分別透過網(wǎng)路40與伺服器30交換數(shù)據(jù)資料，因此，第一電話10、第二電話20與伺服器30之間在數(shù)據(jù)交換時使用到的網(wǎng)路40的部份需為數(shù)據(jù)網(wǎng)路，即在本發(fā)明實施時語音與數(shù)據(jù)連接時其分別可以經(jīng)由不同類型的網(wǎng)路來實施。圖2a為圖I所述的第一電話10的結(jié)構(gòu)圖。第一電話10包括語音截取模組102、語音處理模組104以及通訊模組106 ;語音截取模組102用以對接收的語音訊號擷取對應(yīng)的語音特征后經(jīng)由網(wǎng)路40傳送給伺服器30，其中語音特征可包括即時語音品質(zhì)、語言種類、音調(diào)、聲音頻譜資料以及說話聲音快慢以及情緒的高低起伏等或是任何隱藏式馬可夫模型所需要的參數(shù)等。圖2b為圖I所述的伺服器的內(nèi)部結(jié)構(gòu)示意圖。伺服器30包括登錄模組302、靜態(tài)參數(shù)資料庫304、動態(tài)最佳化模組306與通訊模組308，通訊模組308對應(yīng)通訊模組106進行數(shù)據(jù)通信。參考圖3，為本發(fā)明方法實施的步驟步驟S10，當?shù)谝皇褂谜咻斎胫噶钪恋谝浑娫?0開始本發(fā)明的方法流程；步驟S11，第一電話10以第一使用者資訊登錄于伺服器30，登錄模組302處理對應(yīng)的登錄或注冊事宜，例如登錄模組302會依據(jù)第一使用者資訊搜尋靜態(tài)參數(shù)資料庫304是否有對應(yīng)的第一參數(shù)，若沒有，執(zhí)行步驟S12發(fā)送一個訊息于第一電話10，提醒訊息于第一電話10上，提醒第一使用者輸入一個訓練語音作為注冊使用，若在靜態(tài)參數(shù)資料庫304有對應(yīng)的第一參數(shù)，則可取出第一參數(shù)等待執(zhí)行步驟S18 ;第一電話10會在步驟S13顯示一個提醒第一使用者發(fā)出訓練語音，若使用者依照指令發(fā)出訓練語音，第一電話10對應(yīng)接收(步驟S14)，此時語音截取模組102會對訓練語音進行特征值的擷取(步驟S15)，并將特征值傳送至伺服器30的靜態(tài)參數(shù)資料庫304 (步驟S16)，靜態(tài)參數(shù)資料庫304會對收到的特征值進行訓練、學習與統(tǒng)計，產(chǎn)生出對應(yīng)第一使用者的第一參數(shù)(步驟S17)，此第一參數(shù)為可合成第一使用者的語音或是可對應(yīng)加強第一使用者語音之用。步驟S12-S16可重復(fù)數(shù)次直到第一參數(shù)的數(shù)值收斂至系統(tǒng)的標準范圍內(nèi)。第二電話20具有與第一電話10相同的架構(gòu)，同樣具有語音截取模組、語音處理模組以及通訊模組，步驟S18與步驟S19系為通訊模組106與第二電話20的通訊模組之間進行連接的通訊規(guī)約成立連接；步驟S20則為使用者開始通話，第一電話10接收到第一即時語音；步驟S21，語音截取模組102會對第一即時語音擷取即時語音特征，即時語音特征包括即時語音品質(zhì)、語言種類、音調(diào)、聲音頻譜資料以及說話聲音快慢以及情緒的高低起伏等或是任何隱藏式馬可夫模型所需要的參數(shù)等；此些即時語音特征會傳送到伺服器30的動態(tài)最佳化模組306 (步驟S22);動態(tài)最佳化模組306會將此些即時語音特征與第一參數(shù)處理后產(chǎn)生第一處理參數(shù)組(步驟S23)，將此第一處理參數(shù)組傳送到第二電話20的語音處理模組(步驟S24)，步驟S25則在第二電話20收到第一即時語音后，第二電話20利用第一處理參數(shù)組對第一即時語音作均衡、增益調(diào)整、雜訊抑制或是語音合成等方式。步驟S21中即時語音特征更包括即時語音品質(zhì)，當即時語音品質(zhì)高于第一預(yù)定值，在步驟S25第二電話20接收該第一即時語音后直接播放，此時因為第一即時語音品質(zhì)良好，無須調(diào)整，使用調(diào)整機制反而是浪費第二電話20的電力，因此可以跳過此步驟；而當即時語音品質(zhì)低于第一預(yù)定值，步驟S25中，第二電話20接收第一即時語音以第一處理參數(shù)組處理后播放。另外本發(fā)明另揭露，伺服器30依據(jù)第一參數(shù)組以及即時語音特征產(chǎn)生第一處理參數(shù)組并傳送至該第一電話10(步驟S24’)，第一電話10則依據(jù)第一處理參數(shù)組調(diào)整后續(xù)的即時語音傳送給第二電話20 (步驟S18’)，因此，當即時語音有低頻的嚴重衰減，則第一電話10可以依據(jù)伺服器30反饋的第一處理參數(shù)，提前的提升傳輸即時語音的低頻衰減可以使的在近端接收時有正常的低頻訊號，減低即時語音的辨別度。另外，當即時語音品質(zhì)低于第二預(yù)定值，可能已經(jīng)無法判別語音的內(nèi)容，此時行動電話10在步驟S18傳送一組文字給第二電話，在步驟S25中，第二電話則以第一處理參數(shù)組對收到的文字合成第一合成語音后播放。本發(fā)明主要利用伺服器儲存使用者相關(guān)的參數(shù)，當?shù)谝皇褂谜呃玫谝浑娫挼卿浰欧髦?，伺服器會將對?yīng)第一使用者資訊的第一參數(shù)組先行取出，在本發(fā)明中第一參數(shù)為靜態(tài)的參數(shù)，相關(guān)于第一使用者個人的語音特質(zhì)，若提供文字，此靜態(tài)的參數(shù)可將文字合成第一使用者的語音，文字轉(zhuǎn)語音技術(shù)在人機界面里扮演著重要的角色，近期語音合成系統(tǒng)廣為使用的合成方式主要有兩種，分別是單元選取(Unit selection approach)及隱藏式馬可夫模型(HMM-based approach)的語音合成方法。基于隱藏式馬可夫模型語音合成器是一種統(tǒng)計式參數(shù)語音合方法，是目前最為廣泛采用的合成方法，它以文脈相關(guān)隱藏式馬可夫模型(Context-dependent HMMs,(DHMMs)來模擬不同語言參數(shù)或韻律架構(gòu)下的聲學
信號，從語料庫中的自然語音訓練得到頻譜模型(spectral parameter model)、基頻模型(F0 parameter model)及音長模型(duration model)。欲合成語音時，利用上述訓練好的三種模型，依據(jù)輸入文本的語言參數(shù)或預(yù)估之韻律標記找到適當CDHMM模型并串接之，再以特殊的演算法輸出合成出語音訊號。使用隱藏式馬可夫模型合成器，不需要大量目標的語料，只需要足夠的語料就能利用現(xiàn)有隱藏式馬可夫模型去合成出不同特性的語音信號。第一參數(shù)組的建立可以是第一使用者事先于第一電話或是透過個人電腦經(jīng)由語音訓練的方式建立，建立后對應(yīng)第一使用者的資訊儲存于伺服器中，本發(fā)明另外揭露當透過第一電話注冊第一使用者資訊于伺服器時，伺服器會要求第一電話先行設(shè)定第一參數(shù)組，亦即伺服器發(fā)送訊息給第一電話要求使用者輸入一個訓練語音，第一電話收到使用者的訓練語音后，擷取第一語音特征并傳送至伺服器，第一語音特征為初步擷取語音的資訊可用于訓練與學習成參數(shù)組，上述訓練與學習的方法可以用現(xiàn)有隱藏式馬可夫模型，即伺服器處理第一語音特征產(chǎn)生第一參數(shù)組。另外要解決發(fā)話端動態(tài)語音干擾的問題，第一電話與第二電話建立連接后，第一電話接收使用者的第一即時語音，第一電話擷取即時語音特征傳送給伺服器，此即時語音特征代表在發(fā)話端實際的狀態(tài)，代表著動態(tài)的語音狀況，有可能發(fā)話者在高噪音的區(qū)域或是使用者當天的聲音因感冒而沙啞造成部分音域改變或干擾，對于高噪音的音域可以做增益抑制或補償，而對使用者的聲音變化可以做語音均衡的補償，當?shù)诙娫捊邮盏谝患磿r語音，第二電話以第一處理參數(shù)組調(diào)整第一即時語音后播放，另外在調(diào)整上亦可以包括均衡、增益調(diào)整、雜訊抑制或是語音合成等方式。本發(fā)明另揭露，即時語音特征更包括即時語音品質(zhì)，當即時語音品質(zhì)高于第一預(yù)定值，第二電話接收該第一即時語音后直接播放，此時因為第一即時語音品質(zhì)良好，無須調(diào)整，使用調(diào)整機制反而是浪費第二電話的電力，因此可以跳過此步驟；而當即時語音品質(zhì)低于第一預(yù)定值，第二電話接收第一即時語音以第一處理參數(shù)組處理后播放。本發(fā)明另揭露，即時語音特征內(nèi)更包括改善語音特征，第一電話傳送該善語音特征至伺服器，伺服器以改善語音特征調(diào)整第一參數(shù)組，亦即本發(fā)明可以透過動態(tài)的語音搜集后進行訓練與學習第一參數(shù)組，可更強化靜態(tài)的第一參數(shù)組的準確性，由于校正的準確性要求較高，因此較佳的是執(zhí)行在語音品質(zhì)高于第一預(yù)定值才進行以改善語音特征調(diào)整第
一參數(shù)組。另外，當即時語音品質(zhì)低于第二預(yù)定值，可能已經(jīng)無法判別語音的內(nèi)容，此時傳送一組文字給第二電話，第二電話則以第一處理參數(shù)組對收到的文字合成第一合成語音后播放，即使無法達到聲調(diào)完全相同的語調(diào)，但至少有對應(yīng)第一使用者的語音靜態(tài)參數(shù)，播放出來的語音會貼近第一使用者的說話聲音。上述的文字組可以是第一電話即時的辨認第一即時語音為文字也可以是使用者以人機介面輸入文字，再傳送給第二電話，更可以是伺服器接收到第一即時語音作語音的辨識后傳送給第二電話。本發(fā)明已由上述相關(guān)實施例加以描述，然而上述實施例僅為實施本發(fā)明的范例。必需指出的是，已揭露的實施例并未限制本發(fā)明的范圍。相反地，在不脫離本發(fā)明的精神和范圍內(nèi)所作的更動與潤飾，均屬本發(fā)明的專利保護范圍。
權(quán)利要求
1.一種動態(tài)調(diào)整語音的方法，適用于通訊系統(tǒng)，該通訊系統(tǒng)包括第一電話、第二電話以及伺服器，其特征在于，該方法包括儲存第一使用者資訊相關(guān)的第一參數(shù)組于該伺服器；該第一電話登錄該伺服器以獲得該第一使用者資訊；建立該第一電話與該第二電話的連接，該第一電話傳送即時語音特征至該伺服器；該伺服器依據(jù)該第一參數(shù)組以及該即時語音特征產(chǎn)生第一處理參數(shù)組，并傳送該第一處理參數(shù)組至該第二電話；以及該第二電話依據(jù)該第一處理參數(shù)組處理該連接的語音。
2.如權(quán)利要求I所述的方法，其特征在于，建立該連接后，該第一電話接收第一即時語音并擷取該即時語音特征。
3.如權(quán)利要求2所述的方法，其特征在于，該方法更包括該第二電話接收該第一即時語音，該第二電話以該第一處理參數(shù)組調(diào)整該第一即時語音后播放。
4.如權(quán)利要求2所述的方法，其特征在于，該即時語音特征更包括即時語音品質(zhì)，當該即時語音品質(zhì)高于第一預(yù)定值，該第二電話接收該第一即時語音后直接播放，當該即時語音品質(zhì)低于該第一預(yù)定值，該第二電話接收該第一即時語音并經(jīng)該第一處理參數(shù)組處理后播放。
5.如權(quán)利要求2所述的方法，其特征在于，該方法包括該即時語音特征更包括改善語音特征；該第一電話傳送該改善語音特征至該伺服器；以及該伺服器以該改善語音特征調(diào)整該第一參數(shù)組。
6.如權(quán)利要求4所述的方法，其特征在干，當該即時語音品質(zhì)低于第二預(yù)定值，該方法更包括傳送文字給該第二電話；以及該第二電話以該第一處理參數(shù)組對該文字合成第一合成語音后播放。
7.如權(quán)利要求6所述的方法，其特征在于，該文字由第一電話轉(zhuǎn)換該即時語音方式形成，或者是由該伺服器轉(zhuǎn)換該即時語音方式形成，或者是由第一電話直接輸入形成。
8.如權(quán)利要求I所述的方法，其特征在于，該方法更包括當透過該第一電話注冊該第一使用者資訊于該伺服器時，該伺服器要求該第一電話設(shè)定該第一參數(shù)組；該第一電話對訓練語音擷取該第一語音特征并傳送至該伺服器；以及該伺服器處理該第一語音特征產(chǎn)生第一參數(shù)組。
9.如權(quán)利要求8所述的方法，其特征在于，該第一語音特征包括語言種類、音調(diào)、聲音頻譜資料以及說話聲音快慢以及情緒的高低起伏等。
10.一種動態(tài)調(diào)整語音的方法，適用于通訊系統(tǒng)，該通訊系統(tǒng)包括第一電話、第二電話以及伺服器，其特征在于，該方法包括儲存第一使用者資訊相關(guān)的第一參數(shù)組于該伺服器；該第一電話登錄該伺服器獲得第一使用者資訊；建立該第一電話與該第二電話的連接，該第一電話傳送即時語音特征至該伺服器；該伺服器依據(jù)該第一參數(shù)組以及該即時語音特征產(chǎn)生第一處理參數(shù)組傳送至該第一電話；以及該第一電話依據(jù)該第一處理參數(shù)組調(diào)整后續(xù)的即時語音傳送給該第二電話。
全文摘要
本發(fā)明一種動態(tài)調(diào)整語音的方法，適用于通訊系統(tǒng)，該通訊系統(tǒng)包括第一電話、第二電話以及伺服器，該方法包括儲存第一使用者資訊相關(guān)的第一參數(shù)組于該伺服器；該第一電話登錄該伺服器獲得該咨詢；建立該第一電話與該第二電話的連接，該第一電話傳送即時語音特征至該伺服器；該伺服器依據(jù)該第一參數(shù)組以及該即時語音特征產(chǎn)生第一處理參數(shù)組，并傳送該第一處理參數(shù)組至該第二電話；以及該第二電話依據(jù)該第一處理參數(shù)組處理該連接的語音。本發(fā)明對于接收到的動態(tài)語音與環(huán)境變化可以依據(jù)使用者靜態(tài)的語音參數(shù)做調(diào)整，另外，透過網(wǎng)路連接資料庫，即使使用者不用同樣的電話只要登錄到伺服器即可享受到本發(fā)明的好處，更貼近云端服務(wù)的目的。
文檔編號H04M9/08GK102857650SQ20121031151
公開日2013年1月2日申請日期2012年8月29日優(yōu)先權(quán)日2012年8月29日
發(fā)明者黃耀樟, 詹宏智, 林彥村, 王佳琪申請人:蘇州佳世達電通有限公司, 佳世達科技股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃耀樟;詹宏智;林彥村;王佳琪
技術(shù)所有人：蘇州佳世達電通有限公司;佳世達科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

動態(tài)調(diào)整語音的方法