亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

通過可聽信號來注釋即時消息的方法和系統(tǒng)的制作方法

文檔序號:7963667閱讀:226來源:國知局
專利名稱:通過可聽信號來注釋即時消息的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種使用用戶聲音數(shù)據(jù)的服務(wù)器側(cè)存儲以便即時消息傳遞客戶端利用所述數(shù)據(jù)使用文本到語音合成來讀出文本消息的方法。
背景技術(shù)
文本到語音合成。傳統(tǒng)的文本到語音(“TTS”)合成方法可分為兩個主要階段高級合成和低級合成。高級合成考慮詞以及這些詞的語法用法(例如,短語的開始或結(jié)尾,諸如句號或問號之類的標(biāo)點(diǎn)符號等)。通常,執(zhí)行文本分析以便可以將輸入文本轉(zhuǎn)錄為語音的表示或某些其他語言的表示,并且語音的信息產(chǎn)生了波形形式的語音生成。
在高級TTS處理期間,分析要說出的文本字符串以將其分為多個詞。然后將這些詞分成稱為“音素”的更小的發(fā)音單位。一般而言,音素是一種可以區(qū)分詞的基本的理論上的發(fā)音單位。然后將詞定義或配置為音素的集合。然后,在低級TTS處理期間,為每個音素生成(或恢復(fù))數(shù)據(jù)、裝配詞并完成短語。
實(shí)際上,低級合成生成可以使用適當(dāng)?shù)碾娐?如聲卡、D/A轉(zhuǎn)換器等)轉(zhuǎn)換為模擬形式的可聽語音的數(shù)據(jù)。存在三種用于低級TTS合成的常用方法(a)共振峰(formant)合成,(b)波形拼接(concatenative)合成,(c)發(fā)音(articulatory)合成。
共振峰合成(也稱為終端模擬)僅模仿聲源和共振峰頻率。它不使用任何人類語音樣本,但采用聲學(xué)模型來創(chuàng)建合成的語音輸出。發(fā)音、噪音水平和基頻是一些用于在一段時間內(nèi)創(chuàng)建人工語音波形的參數(shù)。
由于共振峰合成生成更像機(jī)器發(fā)音的語音,所以它沒有真人的語音自然。共振峰合成的語音的優(yōu)點(diǎn)之一是其智能性。即使在高速的情況下,它也可以避免通常阻礙波形拼接系統(tǒng)的聲學(xué)假信號(glitch)。此外,由于基于共振峰的系統(tǒng)在其輸出語音中具有總的控制,因此它可以生成多種模擬的情感和語調(diào)。
共振峰TTS合成程序的大小小于波形拼接系統(tǒng),因?yàn)樗恍枰Z音樣本的數(shù)據(jù)庫。因此,它可以在處理器能力和存儲器空間不足的情況下使用。
發(fā)音TTS合成方法直接模仿人類語音的生成,但是不使用任何實(shí)際錄制的聲音樣本。發(fā)音合成嘗試數(shù)學(xué)地模仿人類的聲道,并在此進(jìn)行發(fā)音處理。由于這些原因,發(fā)音合成通常被看作共振峰TTS合成的更為復(fù)雜的版本。
波形拼接合成包括結(jié)合或“串接”一系列較短的、預(yù)先錄制的人類聲音樣本以便以更具有人類特性的方式來重現(xiàn)詞、短語和句子。此方法產(chǎn)生最自然的發(fā)音合成的語音。但是,因?yàn)樗淖匀蛔冋{(diào),有時可聽假信號會影響它的波形(如吸氣音、爆破音等),這會消弱它的自然性。為了說出大量詞語或詞典,波形拼接TTS系統(tǒng)還必須具有可觀的數(shù)據(jù)存儲以便保存所有人類聲音樣本。波形拼接合成有三種子類型單元選擇、雙音素和特定域合成。所有子類型都使用預(yù)錄制的詞和短語以根據(jù)其方法來創(chuàng)建完整的話語。
概括地說,共振峰或發(fā)音TTS系統(tǒng)需要較少的軟件和存儲空間,但是不會產(chǎn)生具有任何特定真人特征的類似人類的聲音。共振峰TTS系統(tǒng)生成在某種程度上聽起來像從其獲得音素樣本的人的聲音,但是這些系統(tǒng)需要相當(dāng)多的用于樣本數(shù)據(jù)庫的存儲空間。
基于文本的即時消息傳遞。隨著如今技術(shù)應(yīng)用的進(jìn)步,更多的人使用諸如美國在線(“AOL”)的即時消息傳遞(“AIM”)[TM]或國際商業(yè)機(jī)器公司(“IBM”)的SameTime[TM]之類的實(shí)時消息傳遞系統(tǒng)作為一種以近似實(shí)時的方式通過他們的計(jì)算機(jī)與一方或多方通信的方法。
電子郵件和IM一般都是基于文本的。換句話說,因?yàn)槿Q于所使用的服務(wù)或網(wǎng)絡(luò),它們帶有圖形、電影、聲音等的操作會受到限制、效率低下或不可用,所以它們通常用于發(fā)送純文本消息。
實(shí)時消息傳遞系統(tǒng)與電子郵件(“e-mail”)系統(tǒng)的不同之處在于,消息被立即發(fā)送到接收方,并且如果接收方當(dāng)前不在線,則不存儲消息或排隊(duì)消息以便稍后進(jìn)行發(fā)送。對于即時消息傳遞,兩個(或所有)用戶(他們是同一服務(wù)的用戶)都必須同時在線以便進(jìn)行通信,并且接收方(多個)還必須愿意接受來自發(fā)送方的即時消息。嘗試將消息發(fā)送給不在線的個人或者不愿接受來自特定發(fā)送方的消息的個人會導(dǎo)致出現(xiàn)無法完成傳輸?shù)耐ㄖ?br> 因此,盡管IM通常像電子郵件那樣基于文本,但是它的通信機(jī)制更像雙向的無線電或電話(而不是電子郵件系統(tǒng))那樣工作。
IM中的內(nèi)容很少,難以幫助視覺受損的用戶。文本大小、顏色和背景可以被調(diào)整到某種程度。此外,某些運(yùn)行在特定平臺(如運(yùn)行Windows的IBM兼容個人計(jì)算機(jī))上的IM客戶端可以激活文本到語音功能,此功能使用類似計(jì)算機(jī)的合成聲音“說出”計(jì)算機(jī)屏幕上的文本。這種類似計(jì)算機(jī)的合成聲音可能難以理解。此外,由于合成聲音對于它讀出的所有文本都具有相同的語調(diào)和特征(無論消息撰寫者為何人),所以消息的接收方可能會發(fā)現(xiàn)很難確定誰正在向他們發(fā)送IM消息。
已經(jīng)引入某些新的產(chǎn)品以使得視覺受損的人能夠更有效地通過IM進(jìn)行通信。一種此類方法是完全基于客戶端的布置,其中軟件允許用戶從若干“庫存”中選擇預(yù)錄制的聲音。使用這些聲音之一將接收的文本消息可聽地“讀”給接收方。不管最初發(fā)送文本消息的是何人,用戶都以相同的聲音和語調(diào)收聽消息。例如,如果用戶選擇了男聲,則將使用男聲讀出所有消息而不管消息的撰寫者為何人,即使撰寫者是女性也是如此。此外,此類基于共振峰的TTS系統(tǒng)需要客戶端設(shè)備上的存儲空間來保存音素樣本,這使此系統(tǒng)不適合低成本的普及計(jì)算設(shè)備應(yīng)用,如個人數(shù)字助理(“PDA”)、智能電話等。
市場上當(dāng)前提供的另一種方法是將語音消息傳遞系統(tǒng)與即時消息傳遞系統(tǒng)結(jié)合。如果消息發(fā)送方發(fā)現(xiàn)目標(biāo)接收方當(dāng)前不在線,并因此不能接收IM消息,則發(fā)送方可以選擇在語音郵件系統(tǒng)中錄制消息。然后保存錄制的語音消息以供目標(biāo)接收方以后檢索。但是,此方法使發(fā)送方所需的工作加倍-首先發(fā)送方必須鍵入文本消息,然后發(fā)送方必須錄制語音消息。此外,此方法要求目標(biāo)接收方使用除IM客戶端之外的界面-接收方必須以某種方式登錄并檢索語音郵件消息。
另一種解決這些問題的嘗試是向IM消息接收方的客戶端設(shè)備提供這樣的能力從IM消息文本合成語音并且用戶可以根據(jù)消息撰寫者選擇在合成器中指定語音的特定“語調(diào)”。此“語調(diào)”不是撰寫者的語調(diào)或特有聲音,而是計(jì)算機(jī)合成的語調(diào),其可由接收方用于幫助區(qū)分他或她接收的消息的不同撰寫者。
因此,當(dāng)前的即時文本消息傳遞技術(shù)缺少為視覺受損用戶實(shí)現(xiàn)更有效通信的易于理解的功能。這些方法中沒有一種方法為視覺受損的用戶真正解決了即時文本消息傳遞問題。每種方法都表現(xiàn)出一個或多個以下的問題要求客戶端設(shè)備具有大量代碼、要求客戶端設(shè)備具有大量樣本存儲,或者無法創(chuàng)建在特征或特性上與消息發(fā)送方或撰寫者類似的語音。

發(fā)明內(nèi)容
本發(fā)明允許即時消息的撰寫者或發(fā)送方實(shí)現(xiàn)和控制到消息接收方的可聽語音的產(chǎn)生。根據(jù)本發(fā)明的一個方面,將所述消息撰寫者的聲音表征為與構(gòu)詞的或發(fā)音的文本到語音引擎兼容的參數(shù),以便在接收時,接收客戶端設(shè)備可以根據(jù)所述撰寫者的聲音特征從消息文本生成可聽語音信號。
根據(jù)本發(fā)明的另一個方面,所述撰寫者可以將他或她的實(shí)際聲音的語音和單詞樣本存儲在服務(wù)器中。在所述撰寫者將消息傳輸給接收方時,所述服務(wù)器只提取合成所述文本消息中的單詞所需的樣本,并將這些樣本發(fā)送到所述接收客戶端設(shè)備,以便客戶端側(cè)波形拼接文本到語音引擎使用這些樣本來生成與所述撰寫者的所述實(shí)際聲音非常相似的可聽語音信號。
根據(jù)本發(fā)明的再一個方面,不是傳送所述實(shí)際的構(gòu)詞或發(fā)音控制參數(shù),也不是與所述即時消息一起傳送實(shí)際的音素樣本,而是只與所述消息一起傳送超鏈接或其他指針。然后,在所述接收方客戶端設(shè)備“讀出”所述消息時,可以使用所述鏈接來檢索所述樣本和/或參數(shù)。


當(dāng)結(jié)合在此呈現(xiàn)的附圖時,以下詳細(xì)說明提供了本發(fā)明的完整公開圖1示出了其中將先前配置的使TTS非常類似IM消息撰寫者的聲音的LFO TTS合成參數(shù)與接收客戶端進(jìn)行交換的本發(fā)明的一個實(shí)施例;圖2a和2b示出了一般化的計(jì)算平臺體系結(jié)構(gòu)以及此類計(jì)算平臺體系結(jié)構(gòu)的軟件和固件的一般化的組織;圖3a示出了根據(jù)本發(fā)明的撰寫帶有聲音注釋的IM消息的邏輯過程,并且圖3b示出了根據(jù)本發(fā)明的接收和“播放”此類語音注釋的IM消息的邏輯過程;圖4示出了利用已錄制的用戶音素的子集的傳輸?shù)谋景l(fā)明的另一個實(shí)施例;圖5示出了利用指向已采樣的用戶音素的子集的一組超鏈接的交換的本發(fā)明的另一個實(shí)施例;圖6示出了配置LFO TTS語音參數(shù)的過程;圖7示出了配置用戶音素樣本的主集合的過程;圖8示出了根據(jù)本發(fā)明的允許用戶初始化一種或兩種初始化其撰寫賬戶的方法的邏輯過程。
具體實(shí)施例方式
在以下公開中,我們將所有使用軟件生成的語調(diào)作為語音生成(如構(gòu)詞、發(fā)音等)基礎(chǔ)的TTS合成方法和系統(tǒng)總稱為局部頻率振蕩器(“LFO”)TTS合成方法。這些類型的方法并不嘗試模仿或聽起來像任何特殊或特定人的聲音,并且通常聽起來更像“計(jì)算機(jī)聲音”。它們通常不需要聲音樣本存儲,因?yàn)樗鼈儙缀跬耆鶕?jù)語音和人類聲道的數(shù)學(xué)模型來生成其語音。
同樣,我們將所有依賴于采樣或錄制的人類聲音來生成語音信號(例如,波形拼接)的TTS合成方法和系統(tǒng)總稱為“基于樣本”的TTS方法和系統(tǒng)。
根據(jù)替代實(shí)施例使用LFO或基于樣本的TTS方法或兩者的組合以如下方式說明了本發(fā)明最小化接收客戶端設(shè)備處的資源要求,但是最大化消息撰寫者或發(fā)送方的控制以確定播放給接收方的聲音的獨(dú)特且可理解的特征。
更廣泛地說,本發(fā)明提供了發(fā)送方聲音的服務(wù)器側(cè)存儲和/或分析,以便將接收客戶端設(shè)備從復(fù)雜的LFO合成軟件的顯著資源消耗或基于樣本的TTS的大量聲音樣本存儲中解脫出來。將消息傳送到客戶端時,本發(fā)明向接收客戶端設(shè)備提供了若干機(jī)制中的一種機(jī)制,以便只獲取或使用為特定IM消息合成語音所需的資源量。
例如,在第一實(shí)施例中,如果接收客戶端設(shè)備使用基于LFO的TTS,則與IM消息一起發(fā)送一組合成參數(shù),所述合成參數(shù)導(dǎo)致或控制TTS引擎生成聽起來與消息發(fā)送方自己的聲音類似的聲音。這樣,接收用戶不必為每個潛在的撰寫者定義這些參數(shù),接收客戶端設(shè)備也不必消耗資源(如存儲器、磁盤空間等)來為消息的大量潛在撰寫者長期存儲大量參數(shù)。通過使用此方法,向接收用戶提供了與眾不同的并可識別為每條消息的特定撰寫者的聲音的TTS,并且不需要消息的發(fā)送方或撰寫者代替文本IM消息來錄制單獨(dú)的聲音消息。
在本發(fā)明的第二變型實(shí)施例中,如果接收客戶端設(shè)備使用基于樣本的TTS,則由聲音注釋的消息傳遞服務(wù)器而不是客戶端設(shè)備來存儲每個消息撰寫者的音素樣本的完整集合。這使客戶端設(shè)備不必將大量資源專用于為從其接收消息的大量潛在消息撰寫者存儲音素樣本。當(dāng)將IM消息從消息服務(wù)器傳輸?shù)浇邮湛蛻舳藭r,消息具備被認(rèn)為在合成文本消息中包含的單詞和短語時所需的音素樣本的子集。將不會傳輸特定消息不需要的音素,由此顯著地減少了客戶端的數(shù)據(jù)存儲要求。接收客戶端然后臨時地存儲此音素樣本的子集直到接收用戶聽到語音為止,之后可以可選地刪除所述樣本。此方法使發(fā)送方不必隨所述消息錄制單獨(dú)的聲音消息,最小化了傳輸期間聲音注釋的消息的大小,并且允許接收用戶根據(jù)消息文本聽到接近發(fā)送方聲音的特征和獨(dú)特特性的合成聲音。此外,像第一實(shí)施例一樣,接收用戶無需為每個可以從其接收消息的潛在撰寫者配置TTS參數(shù),并且與可用技術(shù)相比,減少了用于TTS的客戶端設(shè)備資源消耗。
在本發(fā)明的第三實(shí)施例中,操作類似于上述的第二實(shí)施例,但是與隨IM消息一起傳輸音素樣本的子集相反,只傳輸一組指向音素樣本子集的服務(wù)器側(cè)存儲位置的指針或超鏈接。這進(jìn)一步減小了聲音注釋的IM消息的大小,但是允許客戶端設(shè)備可能在合成語音的實(shí)時根據(jù)其需要來快速檢索音素樣本。
本發(fā)明的一般操作轉(zhuǎn)到圖3a,一般地說,聲音注釋的即時消息傳遞系統(tǒng)的用戶通常通過鍵入文本來撰寫(30)文本消息,然后撰寫者允許(31)目標(biāo)接收方接收聲音注釋的消息,并將特殊控制的消息提交或“發(fā)送”(32)到與聲音注釋消息服務(wù)器協(xié)作的即時消息服務(wù)器。
圖3b示出了本發(fā)明的接收聲音注釋的即時消息的一般操作,其中接收用戶從服務(wù)器(多個)接收(33)聲音注釋的消息;本發(fā)明接收(34)撰寫者/發(fā)送方控制的基于LFO的聲音合成參數(shù),或接收(35)撰寫者/發(fā)送方控制的音素樣本,或者同時接收兩者;然后根據(jù)由消息的撰寫者或發(fā)送方控制和配置的參數(shù)或樣本來合成消息的文本。
基于LFO TTS的實(shí)施例如前所述,本發(fā)明的第一實(shí)施例(11)與采用基于LFO的TTS功能的客戶端設(shè)備互操作。轉(zhuǎn)到圖1,聲音注釋的消息傳遞(“VAM”)服務(wù)器(48)存儲一組用于撰寫者或發(fā)送方的聲音合成參數(shù)(11),所述服務(wù)器(48)與諸如基于IBM Sametime[TM]的服務(wù)器之類的即時消息傳遞服務(wù)器(47)協(xié)作。當(dāng)撰寫者創(chuàng)建和發(fā)送包含文本部分的即時消息(46)時,VAM服務(wù)器還從非客戶端存儲(11)提取撰寫者的LFO合成參數(shù)(12),并將這些提取的參數(shù)(12)提供(401)給客戶端側(cè)LFO TTS引擎(45)。提供(401)這些參數(shù)的方法隨本發(fā)明的實(shí)現(xiàn)而不同,包括但不限于(a)將參數(shù)作為數(shù)據(jù)部分附加到消息(46);以及(b)將消息(46)中指向參數(shù)存儲位置的指針或超鏈接放置在客戶端可訪問的存儲介質(zhì)上。
增強(qiáng)的IM客戶端(41)然后可以結(jié)合顯示(43)消息(46)的文本部分,控制LFO TTS引擎從消息(46)的文本生成可聽聲音信號(44),并且可聽聲音信號(44)具有由消息的發(fā)送方或撰寫者確定的特征(12)。
基于樣本的TTS實(shí)施例如前所述,如圖4中更詳細(xì)地示出的,本發(fā)明的另一個實(shí)施例允許與采用基于樣本的TTS技術(shù)的客戶端設(shè)備互操作。在此實(shí)施例中,由VAM服務(wù)器(48)而不是客戶端來存儲(49)用于每個使用系統(tǒng)的消息的撰寫者或發(fā)送方的用戶音素樣本的完整集合。然后,當(dāng)此類用戶創(chuàng)建和發(fā)送IM文本消息(46)時,VAM服務(wù)器將分析消息(46)的文本內(nèi)容,確定需要哪些音素來合成消息的讀音,以及對于特定的文本消息(46),TTS引擎將不使用哪些音素。然后,VAM服務(wù)器(48)從存儲(49)提取所需或必需的音素樣本(400)的子集,并將其提供(401)給客戶端側(cè)基于樣本的TTS引擎(42)。與前面所述的基于LFO的實(shí)施例類似,用于向客戶端側(cè)TTS引擎提供(401)音素樣本的子集的方法可根據(jù)特定實(shí)現(xiàn)的網(wǎng)絡(luò)和技術(shù)的不同而不同,包括但不限于(a)將樣本(400)附加到消息(46)或?qū)颖?400)與消息(46)關(guān)聯(lián);以及(b)提供一個或多個指向存儲在客戶端可訪問介質(zhì)上的樣本子集的指針或超鏈接(52),以便TTS引擎可在需要時檢索(51)樣本(如圖5所示)。
發(fā)送方/撰寫者賬戶初始化轉(zhuǎn)到圖8,其中示出了根據(jù)本發(fā)明的為每個希望撰寫和發(fā)送聲音注釋的消息的用戶初始化系統(tǒng)的一般化的過程。撰寫者(81)優(yōu)選地登錄網(wǎng)頁,調(diào)用語音響應(yīng)單元(“VRU”),或執(zhí)行類似操作以啟動(81)初始化(或維護(hù))過程(80),然后選擇(82)初始化基于LFO的操作或基于樣本的操作,或者選擇兩者。
如果用戶選擇初始化(或更新)基于LFO的TTS操作,則通常提示用戶說出單詞或短語(83),然后分析(84)這些單詞和短語以生成LFO合成參數(shù),然后與用戶的賬戶或標(biāo)識相關(guān)聯(lián)地存儲(11)這些參數(shù)。
如果用戶選擇初始化(或更新)基于樣本的TTS操作,則通常提示用戶說出單詞和短語(85),然后分析(86)這些單詞和短語以提取音素樣本,然后與用戶的賬戶或標(biāo)識相關(guān)聯(lián)地存儲(49)這些樣本。
圖6更詳細(xì)地示出了初始化(或更新)基于LFO的實(shí)施例的邏輯過程。為了初始化本發(fā)明的此實(shí)施例,聲音注釋的IM消息的每個潛在發(fā)送方或撰寫者都可以使用其自己的客戶端設(shè)備(62)(如具有音頻記錄功能的Web瀏覽器設(shè)備或者電話)與語音分析系統(tǒng)(61)通信(如通過登錄網(wǎng)頁或調(diào)用語音響應(yīng)單元)。語音分析系統(tǒng)可以是通常提示用戶說出單詞、聲音或短語,然后對這些語音樣本執(zhí)行算法分析以確定語音的特定特征的若干可用類型中的一種類型。例如,所述分析可以產(chǎn)生諸如用戶聲音的和聲內(nèi)容(例如,在該處找到聲音樣本的大部分能量的主頻)和用戶聲音的能量包絡(luò)(例如,每次說出單詞或短語時的能量和聲壓)之類的參數(shù)。
如前面結(jié)合將聲音注釋的IM消息傳送到接收客戶端設(shè)備所述的,用戶聲音分析器(61)然后將這些參數(shù)存儲(11)在可由VAM服務(wù)器(48)訪問的數(shù)據(jù)存儲中以供以后使用。
圖7更詳細(xì)地示出了初始化(或更新)基于樣本的實(shí)施例的邏輯過程。與基于LFO的實(shí)施例的初始化過程類似,此過程允許用戶使用諸如啟用音頻的Web瀏覽器或電話之類的客戶端設(shè)備(62)與可以是用于此目的的若干可用單元之一的用戶音素分析器(71)通信(701)(如通過電話呼叫或到Web服務(wù)器的連接)。音素分析器(71)通常提示用戶說出若干短語、單詞和聲音(已知它們包含所有重新創(chuàng)建單詞的完整詞典所需的發(fā)音單元)。通常,無需用戶說出詞典的所有單詞,但是可能錄制某些特定的單詞(如用戶的名稱)。
然后,音素分析器從用戶提供的語音樣本提取音素,并且如先前描述的,將所述音素存儲在可由VAM服務(wù)器(48)訪問的用戶音素?cái)?shù)據(jù)庫(49)中以供在傳輸聲音注釋的IM消息期間使用。
適合的計(jì)算平臺本發(fā)明優(yōu)選地被實(shí)現(xiàn)為已在諸如個人計(jì)算機(jī)、Web服務(wù)器和Web瀏覽器之類的公知計(jì)算平臺上存在的軟件的功能或附加功能。這些通用的計(jì)算平臺可以包括個人計(jì)算機(jī)以及便攜式計(jì)算平臺,如個人數(shù)字助理(“PDA”)、啟用Web的無線電話和其他類型的個人信息管理(“PIM”)設(shè)備。
因此,重溫計(jì)算平臺的一般體系結(jié)構(gòu)是有用的,其可以將實(shí)現(xiàn)范圍從高端Web或企業(yè)服務(wù)器平臺擴(kuò)展到個人計(jì)算機(jī),到便攜PDA或啟用Web的無線電話。
轉(zhuǎn)到圖2a,其中示出了包括中央處理單元(21)(“CPU”)的一般體系結(jié)構(gòu),中央處理單元(21)通常包括與隨機(jī)存取存儲器(“RAM”)(24)和只讀存儲器(“ROM”)(25)關(guān)聯(lián)的微處理器(22)。通常,CPU(21)還具備高速緩沖存儲器(23)和可編程閃速ROM(26)。微處理器(22)與各種類型的CPU存儲器之間的接口(27)通常被稱為“局部總線”,但也可以是更通用的總線或工業(yè)標(biāo)準(zhǔn)總線。
許多計(jì)算平臺還具備一個或多個存儲設(shè)備(29),例如硬盤驅(qū)動器(“HDD”)、軟盤驅(qū)動器、光盤驅(qū)動器(CD、CD-R、CD-RW、DVD、DVD-R等),以及專用盤和磁帶驅(qū)動器(如Iomega Zip[TM]和Jaz[TM],AddonicsSuperDisk[TM]等)。此外,某些存儲驅(qū)動器可以通過計(jì)算機(jī)網(wǎng)絡(luò)來訪問。
根據(jù)計(jì)算平臺的期望功能,許多計(jì)算平臺具備一個或多個通信接口(210)。例如,個人計(jì)算機(jī)通常具備高速串口(RS-232、RS-422等)、增強(qiáng)的并口(“EPP”)以及一個或多個通用串行總線(“USB”)端口。計(jì)算平臺還可以具備諸如以太網(wǎng)卡之類的局域網(wǎng)(“LAN”)接口和諸如高性能串行總線IEEE-1394之類的其他高速接口。
諸如無線電話和無線聯(lián)網(wǎng)的PDA之類的計(jì)算平臺還可以具備帶有天線的射頻(“RF”)接口。在某些情況下,所述計(jì)算平臺還可以具備紅外線數(shù)據(jù)布置(“IrDA”)接口。
計(jì)算平臺通常具備一個或多個內(nèi)部擴(kuò)展槽(211)(例如工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(“ISA”)、增強(qiáng)型工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(“EISA”)、外圍組件互連(“PCI”)或?qū)S媒涌诓?以便添加其他硬件,如聲卡、存儲器板和圖形加速器。
此外,許多單元(如膝上型計(jì)算機(jī)和PDA)具備一個或多個外部擴(kuò)展槽(212),其允許用戶輕松地安裝和移除硬件擴(kuò)展設(shè)備(如PCMCIA卡、SmartMedia卡)和各種專用模塊(如可移動硬盤驅(qū)動器、CD驅(qū)動器和軟盤驅(qū)動器)。
通常,存儲驅(qū)動器(29)、通信接口(210)、內(nèi)部擴(kuò)展槽(211)和外部擴(kuò)展槽(212)通過諸如ISA、EISA或PCI之類的標(biāo)準(zhǔn)或工業(yè)開放總線體系結(jié)構(gòu)(28)與CPU(21)互連。在許多情況下,總線(28)可能具有專用設(shè)計(jì)。
計(jì)算平臺通常具備一個或多個用戶輸入設(shè)備,如鍵盤或小鍵盤(216)、鼠標(biāo)或指點(diǎn)設(shè)備(217)和/或觸摸屏顯示器(218)。在個人計(jì)算機(jī)的情況下,通常與鼠標(biāo)或指點(diǎn)設(shè)備(如軌跡球或TrackPoint[TM])一起提供了標(biāo)準(zhǔn)鍵盤。在啟用Web的無線電話的情況下,可以與一個或多個特定功能鍵一起提供簡單的小鍵盤。在PDA的情況下,通常隨手寫識別功能一起提供觸摸屏(218)。
此外,計(jì)算平臺具備諸如啟用Web的無線電話的麥克風(fēng)或個人計(jì)算機(jī)的麥克風(fēng)之類的麥克風(fēng)(219)。此麥克風(fēng)可用于簡單地報告音頻和語音信號,也可用于使用語音識別功能來輸入用戶選擇,例如網(wǎng)站語音導(dǎo)航或自動撥號。
許多計(jì)算平臺還配備有照相機(jī)設(shè)備(2100),例如靜態(tài)數(shù)碼相機(jī)或全動態(tài)數(shù)碼攝像機(jī)。
多數(shù)計(jì)算平臺還具備諸如顯示器(213)之類的一個或多個用戶輸出設(shè)備。顯示器(213)可以采取多種形式,包括陰極射線管(“CRT”)、薄膜晶體管(“TFT”)陣列、一組簡單的發(fā)光二極管(“LED”)或液晶顯示(“LCD”)指示器。
計(jì)算平臺通常還關(guān)聯(lián)有一個或多個揚(yáng)聲器(214)和/或信號器(215)。揚(yáng)聲器(214)(如無線電話的揚(yáng)聲器或個人計(jì)算機(jī)的揚(yáng)聲器)可用于重放聲頻或音樂。信號器(215)可以采取簡單的嗶聲發(fā)射器或峰鳴器的形式,它們通常可在諸如PDA和PIM之類的特定設(shè)備中找到。
這些用戶輸入和輸出設(shè)備可通過專用總線結(jié)構(gòu)和/或接口與CPU(21)直接互連(28’,28”),或者它們可以通過諸如ISA、EISA、PCI之類的一個或多個工業(yè)開放總線來互連。
計(jì)算平臺還具備一個或多個軟件和固件(2101)程序以實(shí)現(xiàn)所需的計(jì)算平臺功能。
現(xiàn)在轉(zhuǎn)到圖2b,其中詳細(xì)示出了此計(jì)算平臺范圍內(nèi)的軟件和固件(2101)的一般組織。計(jì)算平臺上可以提供一個或多個操作系統(tǒng)(“OS”)固有的應(yīng)用程序(223),例如字處理器、電子表格、聯(lián)系人管理實(shí)用工具、地址簿、日歷、電子郵件客戶端、演示文稿、財(cái)務(wù)和記帳程序。
此外,可以提供一個或多個“可移植”或設(shè)備無關(guān)的程序(224),這些程序必須由諸如Java[TM]腳本和程序之類的操作系統(tǒng)固有的平臺特定的解釋器(225)來解釋。
通常,計(jì)算平臺還具備某種形式的Web瀏覽器或微瀏覽器(226),它們還可以包括對瀏覽器的一個或多個擴(kuò)展,如瀏覽器插件(227)。
計(jì)算設(shè)備還具備操作系統(tǒng)(220)(例如Microsoft Windows[TM]、UNIX、IBM OS/2[TM]、IBM AIX[TM]、開放源代碼LINUX、蘋果的MAC OS[TM])或其他平臺特定的操作系統(tǒng)。諸如PDA和無線電話之類的小型設(shè)備可以配備有其他形式的操作系統(tǒng),例如實(shí)時操作系統(tǒng)(“RTOS”)或Palm Computing的PalmOS[TM]。
通常提供一組基本輸入和輸出功能(“BIOS”)以及硬件設(shè)備驅(qū)動程序(221)以允許操作系統(tǒng)(220)和程序連接到隨計(jì)算平臺提供的特定硬件的功能并控制這些功能。
此外,許多計(jì)算平臺通常具備一個或多個嵌入式固件程序(222),這些程序由作為外圍設(shè)備(如微控制器或硬盤驅(qū)動器、通信處理器、網(wǎng)絡(luò)接口卡、聲卡或圖形卡)的一部分的板上或“嵌入式”微處理器來執(zhí)行。
這樣,圖2a和2b總體描述了各種計(jì)算平臺的各種硬件組件、軟件和固件程序,這些計(jì)算平臺包括但不限于個人計(jì)算機(jī)、PDA、PIM、啟用Web的電話和其他諸如WebTV[TM]單元之類的設(shè)備。這樣,現(xiàn)在我們將注意力轉(zhuǎn)向關(guān)于被優(yōu)選地實(shí)現(xiàn)為此類計(jì)算平臺上的軟件和固件的過程和方法的本發(fā)明的公開。本領(lǐng)域的技術(shù)人員將容易地認(rèn)識到,在不偏離本發(fā)明的精神和范圍的情況下,可以可替代地將下列方法和過程部分或全部實(shí)現(xiàn)為硬件功能。
已經(jīng)描述了本發(fā)明,其中包括若干示例性的實(shí)例。本領(lǐng)域的技術(shù)人員將認(rèn)識到,這些實(shí)例并不代表本發(fā)明的全部范圍,可以做出特定的替代實(shí)施例選擇,包括但不限于使用替代編程語言或方法,使用替代計(jì)算平臺,以及采用替代通信協(xié)議和網(wǎng)絡(luò)。因此,本發(fā)明的范圍應(yīng)由下列權(quán)利要求來確定。
權(quán)利要求
1.一種通過可聽信號來注釋即時消息的方法,所述方法包括撰寫者在創(chuàng)建即時消息期間建立一個或多個用于聲音注釋選項(xiàng)的文本到語音控制參數(shù);將所述即時消息和所述控制參數(shù)發(fā)送到接收方設(shè)備;所述接收方設(shè)備接收所述撰寫者建立的控制參數(shù);以及結(jié)合查看所述即時消息,所述接收方設(shè)備根據(jù)所述撰寫者建立的控制參數(shù)來執(zhí)行文本到語音合成,以便根據(jù)所述撰寫者建立的控制參數(shù)來可聽地產(chǎn)生代表所述即時消息的文本部分的語音。
2.如權(quán)利要求1中所述的方法,其中所述建立一個或多個文本到語音控制參數(shù)的步驟包括建立一個或多個與構(gòu)詞的文本到語音引擎兼容的聲音特征參數(shù),所述控制參數(shù)由服務(wù)器來存儲。
3.如權(quán)利要求1中所述的方法,其中所述建立一個或多個文本到語音控制參數(shù)的步驟包括建立一個或多個與發(fā)音的文本到語音引擎兼容的聲音特征參數(shù)。
4.如權(quán)利要求1中所述的方法,其中所述建立一個或多個文本到語音控制參數(shù)的步驟包括建立所述撰寫者實(shí)際聲音的一個或多個音素樣本,所述樣本由服務(wù)器來存儲并與波形拼接的文本到語音引擎兼容。
5.如權(quán)利要求1中所述的方法,其中所述將所述即時消息和所述控制參數(shù)發(fā)送到接收方設(shè)備的步驟包括在傳輸前將所述控制參數(shù)與所述即時消息相關(guān)聯(lián)。
6.如權(quán)利要求1中所述的方法,其中所述將所述即時消息和所述控制參數(shù)發(fā)送到接收方設(shè)備的步驟包括在傳輸前將一組指向所述控制參數(shù)的超鏈接與所述即時消息相關(guān)聯(lián)。
7.一種通過可聽信號來注釋即時消息的系統(tǒng),所述系統(tǒng)包括一個或多個用于聲音注釋選項(xiàng)的文本到語音控制參數(shù),所述控制參數(shù)由撰寫者在創(chuàng)建即時消息期間建立;適合于將所述即時消息和所述控制參數(shù)發(fā)送到接收方設(shè)備的消息發(fā)送器;適合于所述接收方設(shè)備接收所述撰寫者建立的控制參數(shù)的消息接收器;以及適合于結(jié)合查看所述即時消息來根據(jù)所述撰寫者建立的控制參數(shù)執(zhí)行文本到語音合成,以便根據(jù)所述撰寫者建立的控制參數(shù)來可聽地產(chǎn)生代表所述即時消息的文本部分的語音的接收方設(shè)備文本到語音引擎。
8.如權(quán)利要求7中所述的系統(tǒng),其中所述一個或多個文本到語音控制參數(shù)包括一個或多個與構(gòu)詞的文本到語音引擎兼容的聲音特征參數(shù),所述控制參數(shù)由服務(wù)器來存儲。
9.如權(quán)利要求7中所述的系統(tǒng),其中所述一個或多個文本到語音控制參數(shù)包括與發(fā)音的文本到語音引擎兼容的聲音特征參數(shù)。
10.如權(quán)利要求7中所述的系統(tǒng),其中所述一個或多個文本到語音控制參數(shù)包括所述撰寫者實(shí)際聲音的音素樣本,所述樣本由服務(wù)器來存儲并與波形拼接的文本到語音引擎兼容。
11.如權(quán)利要求7中所述的系統(tǒng),其中所述消息發(fā)送器還適合于通過在傳輸前將所述控制參數(shù)與所述即時消息相關(guān)聯(lián)來將所述即時消息和所述控制參數(shù)發(fā)送給接收方設(shè)備。
12.如權(quán)利要求7中所述的系統(tǒng),其中所述消息發(fā)送器還適合于通過在傳輸前將一組指向所述控制參數(shù)的超鏈接與所述即時消息相關(guān)聯(lián)來發(fā)送所述即時消息和所述控制參數(shù)。
13.一種編碼有用于通過可聽信號來注釋即時消息的軟件的計(jì)算機(jī)可讀介質(zhì),所述軟件執(zhí)行根據(jù)權(quán)利要求1到6中的任一權(quán)利要求的方法中的步驟。
全文摘要
一種允許即時消息的撰寫者實(shí)現(xiàn)和控制到消息接收方的可聽語音的產(chǎn)生的系統(tǒng)和方法。將所述消息撰寫者的聲音表征為與構(gòu)詞的或發(fā)音的文本到語音引擎兼容的參數(shù),以便在接收時,接收客戶端設(shè)備可以根據(jù)所述撰寫者的聲音特征從消息文本生成可聽語音信號??商娲?,所述撰寫者可以將他或她的實(shí)際聲音的樣本存儲在服務(wù)器中,以便在所述撰寫者將消息傳輸給接收方時,所述服務(wù)器只提取合成所述文本消息中的單詞所需的樣本,并將這些樣本發(fā)送到所述接收客戶端設(shè)備,以便客戶端側(cè)波形拼接文本到語音引擎使用這些樣本來生成與所述撰寫者的實(shí)際聲音非常相似的可聽語音信號。
文檔編號H04M3/533GK1946065SQ20061009355
公開日2007年4月11日 申請日期2006年6月26日 優(yōu)先權(quán)日2005年10月3日
發(fā)明者T·W·尼邁耶, L·奧羅茲科 申請人:國際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1