亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于字符變換和無監(jiān)督網(wǎng)絡(luò)數(shù)據(jù)的文本消息規(guī)格化方法和系統(tǒng)的制作方法

文檔序號:6495992閱讀:141來源:國知局
基于字符變換和無監(jiān)督網(wǎng)絡(luò)數(shù)據(jù)的文本消息規(guī)格化方法和系統(tǒng)的制作方法
【專利摘要】已開發(fā)出一種用于生成對應(yīng)于語音合成系統(tǒng)中使用的標(biāo)準(zhǔn)標(biāo)記的非標(biāo)準(zhǔn)標(biāo)記的方法。所述方法包括從存儲在存儲器內(nèi)的多個(gè)標(biāo)準(zhǔn)標(biāo)記中選擇標(biāo)準(zhǔn)標(biāo)記,利用隨機(jī)場模型選擇要對所選擇的標(biāo)記中的每一字符上執(zhí)行的預(yù)定操作,對每一字符上執(zhí)行所選擇的操作以生成輸出標(biāo)記,并將輸出標(biāo)記與所選擇的標(biāo)記相關(guān)聯(lián)地存儲到存儲器內(nèi)。所述輸出標(biāo)記不同于所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的每一標(biāo)記。
【專利說明】基于字符變換和無監(jiān)督網(wǎng)絡(luò)數(shù)據(jù)的文本消息規(guī)格化方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本公開總體上涉及自然語言處理和文本規(guī)格化領(lǐng)域,更具體而言,涉及在語音合成或其他分析之前使文本規(guī)格化的系統(tǒng)和方法。
【背景技術(shù)】
[0002]移動通信領(lǐng)域近年來得到了迅猛發(fā)展。由于各種無線網(wǎng)絡(luò)的地理覆蓋和帶寬的增長,包括蜂窩電話、智能電話、平板電腦、便攜式媒體播放器和筆記本計(jì)算裝置在內(nèi)的各種各樣的便攜式電子裝置已經(jīng)使用戶能夠從各種各樣的地點(diǎn)通信以及接入數(shù)據(jù)網(wǎng)絡(luò)。這些便攜式電子裝置支持各種各樣的通信類型,包括音頻、視頻和基于文本的通信。用于基于文本的通信的便攜式電子裝置通常包括諸如LCD或OLED屏幕的顯示屏,其可以顯示文本以供閱讀。
[0003]近年來,已經(jīng)涌現(xiàn)了各種基于文本的通信。各種文本通信系統(tǒng)包括但不限于:短消息服務(wù)(SMS)、包括Facebook和Twitter在內(nèi)的各種社交網(wǎng)絡(luò)服務(wù)、即時(shí)消息傳送服務(wù)、以及常規(guī)電子郵件服務(wù)。很多采用文本通信服務(wù)發(fā)送的文本消息都具有相對較短的長度。諸如SMS的一些文本消息傳送系統(tǒng)存在技術(shù)限制,其要求消息短于某一長度,例如,160個(gè)字符。甚至對于不強(qiáng)制施加消息長度限制的消息傳送服務(wù)而言,很多便攜式電子裝置所提供的輸入設(shè)施,例如,實(shí)際和虛擬鍵盤,也傾向于使人感到輸入大量的文本是很繁冗的。此外,諸如青少年的移動消息器裝置的用戶經(jīng)常采用不能被識別為任何語言的規(guī)范詞語的縮寫或者俚語詞匯來壓縮消息。例如,諸如“BRB”的詞語代表諸如“be right back”的較長短語。用戶還可能采用標(biāo)準(zhǔn)詞語的非標(biāo)準(zhǔn)拼寫,例如,采用非標(biāo)準(zhǔn)的“kuz”替代詞語“cause”。替代的拼寫和詞語形式不同于簡單的錯(cuò)拼,現(xiàn)有的拼寫檢查系統(tǒng)不具備將替代詞語形式標(biāo)準(zhǔn)化為能在詞典中找到的標(biāo)準(zhǔn)詞語的功能。俚語詞匯和替代拼寫依賴于接收文本消息的另一人的知識,從而從所述文本解釋出適當(dāng)?shù)暮x。
[0004]盡管發(fā)送和接收文本消息的普及性已經(jīng)提高了,但是很多情況還是妨礙接收方以及時(shí)的方式閱讀文本消息。在一個(gè)例子中,機(jī)動車輛的駕駛員在操作車輛時(shí)如果嘗試閱讀文本消息就可能分散注意力。在其他情況下,便攜式電子裝置的用戶可能不具有立即就能拿到裝置并從裝置的屏幕上閱讀消息的條件。一些用戶可能視力減弱,因而從移動裝置的屏幕上讀取文本存在困難。為了緩解這些問題,一些便攜式電子裝置以及其他系統(tǒng)包括語音合成系統(tǒng)。將所述語音合成系統(tǒng)配置為生成文本信息的語音版本,從而使接收文本消息的人不用必須閱讀消息。合成的音頻消息使人能夠聽到一條或多條文本消息的內(nèi)容,同時(shí)避免人在執(zhí)行另一項(xiàng)活動時(shí)(例如,在操作車輛時(shí))分心。
[0005]盡管語音合成系統(tǒng)在復(fù)述已知語言的文本時(shí)有用,但是在處理包括俚語、縮寫以及文本消息中采用的其他非標(biāo)準(zhǔn)詞語時(shí)語音合成變得更有問題。語音合成系統(tǒng)依賴于將已知詞語映射至用于語言合成的音頻模型的模型。在合成未知詞語時(shí),很多語音合成系統(tǒng)退而尋求詞語的不完全的語音近似,或者逐字母拼出詞語。在這些條件下,語音合成系統(tǒng)的輸出將不遵循預(yù)期的正常語音流,并且語音合成系統(tǒng)可能變得令人分心。在文本消息包括非標(biāo)準(zhǔn)的拼寫和詞語形式時(shí),其他文本處理系統(tǒng),包括語言轉(zhuǎn)化系統(tǒng)和自然語言處理系統(tǒng)可能具有類似的問題。
[0006]盡管現(xiàn)有的詞典可以提供常用俚語詞匯和縮寫的轉(zhuǎn)化,但是文本消息中采用的對標(biāo)準(zhǔn)詞語的替代拼寫和構(gòu)造所具有的多樣性太過寬泛,以至于由標(biāo)準(zhǔn)來源編輯的詞典無法包容。此外,便攜式電子裝置用戶不斷地形成標(biāo)準(zhǔn)詞典中找不到的有關(guān)現(xiàn)有詞語的新的變型。此外,從標(biāo)準(zhǔn)詞語映射至其非標(biāo)準(zhǔn)變型是多對多的,也就是說,非標(biāo)準(zhǔn)變型可能對應(yīng)于不同的標(biāo)準(zhǔn)詞語形式,反之亦然。因此,用于預(yù)測標(biāo)準(zhǔn)詞語的變型從而能夠?qū)⑻娲~語形式標(biāo)準(zhǔn)化為標(biāo)準(zhǔn)的詞典詞語的系統(tǒng)和方法將是有利的。

【發(fā)明內(nèi)容】

[0007]在一個(gè)實(shí)施例中,開發(fā)出一種用于根據(jù)存儲在存儲器內(nèi)的標(biāo)準(zhǔn)標(biāo)記生成非標(biāo)準(zhǔn)標(biāo)記的方法。所述方法包括從存儲在存儲器內(nèi)的多個(gè)標(biāo)準(zhǔn)標(biāo)記中選擇標(biāo)準(zhǔn)標(biāo)記,所選擇的標(biāo)記具有多個(gè)輸入字符;針對所述多個(gè)輸入字符中的每一輸入字符,根據(jù)隨機(jī)場模型從多項(xiàng)預(yù)定操作中選擇操作;在每一輸入字符上執(zhí)行所選擇的操作,以生成不同于所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的每一標(biāo)記的輸出標(biāo)記;以及將輸出標(biāo)記與所選擇的標(biāo)記相關(guān)聯(lián)地存儲到存儲器內(nèi)。
[0008]在另一實(shí)施例中,開發(fā)出一種用于生成在隨機(jī)場模型中使用的操作參數(shù)的方法。所述方法包括將存儲在存儲器內(nèi)的第一多個(gè)標(biāo)記中的每一標(biāo)記與存儲在存儲器內(nèi)的多個(gè)標(biāo)準(zhǔn)標(biāo)記進(jìn)行比較,響應(yīng)于所述第一多個(gè)標(biāo)記中的第一標(biāo)記不同于所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的每一標(biāo)準(zhǔn)標(biāo)記而將所述第一標(biāo)記識別為非標(biāo)準(zhǔn)標(biāo)記,響應(yīng)于所述第一多個(gè)標(biāo)記中的第二標(biāo)記為所述第一標(biāo)記提供了上下文信息而將所述第二標(biāo)記識別為上下文標(biāo)記,生成包括所述第一標(biāo)記和所述第二標(biāo)記的數(shù)據(jù)庫查詢,以所生成的查詢對數(shù)據(jù)庫進(jìn)行查詢,從由所述數(shù)據(jù)庫獲得的結(jié)果中識別對應(yīng)于所述第一標(biāo)記的結(jié)果標(biāo)記,以及將與所述第一標(biāo)記相關(guān)聯(lián)的所述結(jié)果標(biāo)記存儲到存儲器內(nèi)。
[0009]在另一實(shí)施例中,開發(fā)出一種用于根據(jù)標(biāo)準(zhǔn)標(biāo)記生成非標(biāo)準(zhǔn)標(biāo)記的系統(tǒng)。所述系統(tǒng)包括存儲器,所述存儲器存儲多個(gè)標(biāo)準(zhǔn)標(biāo)記和隨機(jī)場模型的多個(gè)操作參數(shù),所述系統(tǒng)還包括操作地連接至所述存儲器的處理模塊。將所述處理模塊配置為:從所述存儲器為隨機(jī)場模型獲得操作參數(shù),根據(jù)所述操作參數(shù)生成隨機(jī)場模型,從所述存儲器內(nèi)的多個(gè)標(biāo)準(zhǔn)標(biāo)記中選擇標(biāo)準(zhǔn)標(biāo)記,所選擇的標(biāo)準(zhǔn)標(biāo)記具有多個(gè)輸入字符,針對所選擇的標(biāo)準(zhǔn)標(biāo)記的多個(gè)輸入字符中的每一輸入字符,根據(jù)所述隨機(jī)場模型從多項(xiàng)預(yù)定操作中選擇操作,在所選擇的標(biāo)準(zhǔn)標(biāo)記中的每一輸入字符上執(zhí)行所選擇的操作,以生成不同于所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的每一標(biāo)準(zhǔn)標(biāo)記的輸出標(biāo)記,以及將所述輸出標(biāo)記與所選擇的標(biāo)準(zhǔn)標(biāo)記相關(guān)聯(lián)地存儲到存儲器內(nèi)。
【專利附圖】

【附圖說明】
[0010]圖1是用于采用條件隨機(jī)場模型生成對應(yīng)于標(biāo)準(zhǔn)標(biāo)記的非標(biāo)準(zhǔn)標(biāo)記并根據(jù)包括所述標(biāo)準(zhǔn)標(biāo)記和所述非標(biāo)準(zhǔn)標(biāo)記的文本合成語音的系統(tǒng)的示意圖。
[0011]圖2是用于采用條件隨機(jī)場模型根據(jù)標(biāo)準(zhǔn)標(biāo)記生成非標(biāo)準(zhǔn)標(biāo)記的過程的方框圖。[0012]圖3示出了各種標(biāo)準(zhǔn)標(biāo)記和對應(yīng)的非標(biāo)準(zhǔn)標(biāo)記中的字符之間的操作的例子。
[0013]圖4是圖1的系統(tǒng)的示意圖,其被配置為生成數(shù)據(jù)庫查詢以及接收來自所述數(shù)據(jù)庫的結(jié)果,從而使非標(biāo)準(zhǔn)標(biāo)記與用于訓(xùn)練條件隨機(jī)場模型的已知標(biāo)準(zhǔn)標(biāo)記相關(guān)聯(lián)。
[0014]圖5是用于生成訓(xùn)練數(shù)據(jù)以及訓(xùn)練條件隨機(jī)場模型的過程的方框圖。
[0015]圖6A是包括非標(biāo)準(zhǔn)標(biāo)記的被格式化為搜索引擎的搜索項(xiàng)的數(shù)據(jù)庫查詢的例子。
[0016]圖6B示出了來自圖6A的數(shù)據(jù)庫查詢的項(xiàng),其沿最長共有字符序列與候選標(biāo)記對準(zhǔn)。
[0017]圖7是用于以標(biāo)準(zhǔn)標(biāo)記替代文本消息中的非標(biāo)準(zhǔn)標(biāo)記以及生成對應(yīng)于所述文本消息的合成語音的過程的方框圖。
[0018]圖8示出了被配置為在車內(nèi)使用的圖1所示的系統(tǒng)的替代配置。
[0019]圖9是現(xiàn)有技術(shù)的條件隨機(jī)場模型的圖解。
【具體實(shí)施方式】
[0020]為了促進(jìn)對文中公開的實(shí)施例的原理的理解,現(xiàn)在將參考附圖以及下面的書面說明中的描述。所述參考并非旨在對主題范圍構(gòu)成限制。本公開還包括對所示出的實(shí)施例的任何變更和修改,此外還包括對所公開的實(shí)施例的原理的其他應(yīng)用,這通常是本公開所屬領(lǐng)域技術(shù)人員所能夠認(rèn)識到的。
[0021]文中使用的“標(biāo)記”一詞是指可以經(jīng)由標(biāo)記化過程從文本中提取出來的文本的獨(dú)立元素。標(biāo)記的例子包括通過空格或標(biāo)點(diǎn)隔開的詞語,例如,所述標(biāo)點(diǎn)為句號、逗號、連字符、分號、感嘆號、問號等等。標(biāo)記還可以包括數(shù)字、符號、詞語和數(shù)字的組合、或者彼此相關(guān)聯(lián)的多個(gè)詞語?!皹?biāo)準(zhǔn)標(biāo)記”是作為已知語言的部分的標(biāo)記,包括英語和其他語言。裝置的存儲器內(nèi)存儲的詞典通常包括多個(gè)標(biāo)準(zhǔn)標(biāo)記,其可以對應(yīng)于一種或多種語言,包括可能未被普遍收錄當(dāng)作官方語言中的俚語標(biāo)記、方言標(biāo)記以及技術(shù)標(biāo)記。在文中描述的實(shí)施例中,標(biāo)準(zhǔn)標(biāo)記包括任何這樣的標(biāo)記:即在提供標(biāo)準(zhǔn)標(biāo)記作為輸入時(shí),語音合成單元被配置為可以按照可聽的方式發(fā)音。有時(shí)被稱為詞匯表外(OOV)標(biāo)記的非標(biāo)準(zhǔn)標(biāo)記是指不與標(biāo)準(zhǔn)標(biāo)記中的一個(gè)匹配的任意標(biāo)記。文中采用的兩個(gè)標(biāo)記之間的“匹配”是指一個(gè)標(biāo)記的值與另一標(biāo)記的值相等。一種類型的匹配發(fā)生在每者均具有等同的拼寫的兩個(gè)標(biāo)記之間。匹配還可能發(fā)生在兩個(gè)不具有等同的拼寫但是根據(jù)預(yù)定的規(guī)則共享共同的元素的標(biāo)記之間。例如,標(biāo)記“patents”和“patent”可以相互匹配,其中,“patents”是標(biāo)記“patent”的復(fù)數(shù)形式。
[0022]文中描述的實(shí)施例采用了條件隨機(jī)場模型,以生成對應(yīng)于標(biāo)準(zhǔn)標(biāo)記的非標(biāo)準(zhǔn)標(biāo)記,由此能夠?qū)崿F(xiàn)對包括非標(biāo)準(zhǔn)標(biāo)記的文本消息的語音合成以及其他操作?!皸l件隨機(jī)場(CRF)”一詞是指一種概率數(shù)學(xué)模型,其包括具有由邊連接的頂點(diǎn)的無向圖。更一般而言,文中采用的術(shù)語“隨機(jī)場模型”是指各種圖形模型,其包括曲線圖中由邊連接的一組頂點(diǎn)。曲線圖中的每一頂點(diǎn)表示隨機(jī)變量,邊表示隨機(jī)變量之間的相關(guān)性。本領(lǐng)域技術(shù)人員將認(rèn)識到其他隨機(jī)場,包括但不限于Markov隨機(jī)場模型和隱藏Markov隨機(jī)場模型,適合在替代實(shí)施例中使用。文中采用的被應(yīng)用于標(biāo)記的“特征” 一詞是指所述標(biāo)記的任何在語言上可識別的成分以及所識別出的成分的任何可測量的試探性屬性。例如,在英語詞語中,特征包括字符、音素、音節(jié)及其組合。
[0023]在示范性CRF模型中,曲線圖中的第一組頂點(diǎn)Y表示一系列隨機(jī)變量,其表示標(biāo)記中的諸如字符、音素或音節(jié)的特征的可能的值。將頂點(diǎn)Y稱為標(biāo)簽序列,其中,每一頂點(diǎn)是所述標(biāo)簽序列中的一個(gè)標(biāo)簽。曲線圖中的第二組頂點(diǎn)X表示從所觀察到的標(biāo)記中觀察到的特征值。例如,標(biāo)記中的所觀察到的特征可以是在標(biāo)準(zhǔn)標(biāo)記中識別出來的已知字符、音素和音節(jié)。標(biāo)簽序列Y的概率分布是采用條件概率P (Y IX)而以觀察到的值為條件的。在CRF的常見形式中,一系列邊按照可被稱為“鏈”的線性布置將頂點(diǎn)Y連接到一起。頂點(diǎn)Y之間的邊的每者代表被稱為轉(zhuǎn)換特征函數(shù)的一項(xiàng)或多項(xiàng)操作。除了連接頂點(diǎn)Y的邊之外,觀察到的特征X的序列中的每一頂點(diǎn)索引所述的一組隨機(jī)變量Y中的單個(gè)頂點(diǎn)。X中的對應(yīng)觀察特征頂點(diǎn)與Y中的隨機(jī)變量之間的第二組邊表示被稱為觀察特征函數(shù)的一項(xiàng)或多項(xiàng)操作。
[0024]圖9示出了現(xiàn)有技術(shù)的CRF的示范性結(jié)構(gòu)。在圖9中,節(jié)點(diǎn)904A-904E表示來自既定標(biāo)記的一系列觀察到的特征X。節(jié)點(diǎn)908A-908E表示一系列代表標(biāo)簽序列Y的隨機(jī)變量。邊912A-912D將節(jié)點(diǎn)908A-908E連接到了線性鏈中。邊912A-912D中的每者對應(yīng)于描述相鄰標(biāo)簽之間的轉(zhuǎn)換的多個(gè)轉(zhuǎn)換特征函數(shù)。轉(zhuǎn)換特征函數(shù)描述以標(biāo)簽序列中的其他標(biāo)簽和觀察到的序列X為基礎(chǔ)的標(biāo)簽序列Y中的隨機(jī)變量的分布。例如,轉(zhuǎn)換特征函數(shù)f;可以描述標(biāo)記中一個(gè)字符跟隨另一字符的概率,例如,字符“I”在詞語中先于字符“E”的概率。由于CRF曲線圖的無向性質(zhì),標(biāo)簽908A-908D中的隨機(jī)變量中的每者的概率分布取決于曲線圖中的所有其他標(biāo)簽。例如,標(biāo)簽908B和908C的概率分布彼此相互依賴,并且還依賴于標(biāo)簽908A和908D-908E以及觀察到的特征節(jié)點(diǎn)904A-904E。
[0025]標(biāo)簽序列Y的概率分布既以序列Y本身中的標(biāo)簽內(nèi)的特征之間的轉(zhuǎn)換為基礎(chǔ),又以基于觀察到的序列X的條件概率為基礎(chǔ)。例如,如果標(biāo)簽908B表示標(biāo)記中的單個(gè)字符的概率分布,那么轉(zhuǎn)換特征函數(shù)描述以所述標(biāo)簽序列中的其他字符為基礎(chǔ)的標(biāo)簽908B的概率分布,觀察特征函數(shù)描述以基于序列X中的觀察到的字符的相關(guān)性為基礎(chǔ)的標(biāo)簽908B的概率分布。通過下述比例關(guān)系提供了包括以觀察組X為條件的k個(gè)標(biāo)簽的標(biāo)簽序列Y的總概率分布P (Y IX):
[0026]
【權(quán)利要求】
1.一種用于根據(jù)存儲在存儲器內(nèi)的標(biāo)準(zhǔn)標(biāo)記生成非標(biāo)準(zhǔn)標(biāo)記的方法,包括: 從存儲在存儲器內(nèi)的多個(gè)標(biāo)準(zhǔn)標(biāo)記中選擇標(biāo)準(zhǔn)標(biāo)記,所選擇的標(biāo)記具有多個(gè)輸入字符; 針對所述多個(gè)輸入字符中的每一輸入字符,根據(jù)隨機(jī)場模型從多項(xiàng)預(yù)定操作中選擇操作; 在每一輸入字符上執(zhí)行所選擇的操作,以生成不同于所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的每一標(biāo)記的輸出標(biāo)記;以及 將所述輸出標(biāo)記與所選擇的標(biāo)記相關(guān)聯(lián)地存儲到存儲器內(nèi)。
2.根據(jù)權(quán)利要求1所述的方法,在每一輸入字符上執(zhí)行的操作是下述操作之一: 在所述輸出標(biāo)記中提供輸入字符; 在所述輸出標(biāo)記中以一個(gè)不同的字符替代輸入字符; 在所述輸出標(biāo)記中以多個(gè)不同字符替代輸入字符;以及 在所述輸出標(biāo)記中不提供輸入字符。
3.根據(jù)權(quán)利要求1所 述的方法,其中,所述隨機(jī)場模型是條件隨機(jī)場模型。
4.根據(jù)權(quán)利要求3所述的方法,還包括: 在生成所述輸出標(biāo)記之前,為所述條件隨機(jī)場模型生成多個(gè)操作參數(shù),為所述條件隨機(jī)場模型生成多個(gè)操作參數(shù)包括: 將存儲在存儲器內(nèi)的第二多個(gè)標(biāo)記中的每一標(biāo)記與所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的標(biāo)準(zhǔn)標(biāo)記進(jìn)行比較; 響應(yīng)于所述第二多個(gè)標(biāo)記中的第一標(biāo)記不同于所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的每一標(biāo)記而將所述第一標(biāo)記識別為非標(biāo)準(zhǔn)標(biāo)記; 響應(yīng)于所述第二多個(gè)標(biāo)記中的第二標(biāo)記為所述第一標(biāo)記提供了上下文信息而將所述第二標(biāo)記識別為上下文標(biāo)記; 生成至少一項(xiàng)數(shù)據(jù)庫查詢,所述至少一項(xiàng)數(shù)據(jù)庫查詢包括所述第一標(biāo)記和所述第二標(biāo)記; 以至少一項(xiàng)生成的數(shù)據(jù)庫查詢來對數(shù)據(jù)庫進(jìn)行查詢;以及 從根據(jù)所述數(shù)據(jù)庫獲得的結(jié)果中識別對應(yīng)于所述第一標(biāo)記的結(jié)果標(biāo)記。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述數(shù)據(jù)庫是搜索引擎,所述第一標(biāo)記和所述第二標(biāo)記是搜索引擎的搜索項(xiàng)。
6.根據(jù)權(quán)利要求4所述的方法,為所述條件隨機(jī)場模型生成多個(gè)操作參數(shù)還包括: 使所述結(jié)果標(biāo)記中的每一字符與非標(biāo)準(zhǔn)標(biāo)記中的至少一個(gè)字符對準(zhǔn); 在所述結(jié)果標(biāo)記中識別對應(yīng)于所述結(jié)果標(biāo)記中的每一字符的至少一個(gè)特征; 在所述多項(xiàng)預(yù)定操作中識別根據(jù)結(jié)果標(biāo)記中對應(yīng)的對準(zhǔn)字符而生成非標(biāo)準(zhǔn)標(biāo)記中的至少一個(gè)字符的操作;以及 參考所識別出的操作以及結(jié)果標(biāo)記中的對準(zhǔn)字符的至少一個(gè)特征,更新所述條件隨機(jī)場模型的操作參數(shù)。
7.根據(jù)權(quán)利要求4所述的方法,還包括: 為所選擇的標(biāo)準(zhǔn)標(biāo)記生成多個(gè)非標(biāo)準(zhǔn)標(biāo)記,所述多個(gè)非標(biāo)準(zhǔn)標(biāo)記中的至少一些不同于所述第二多個(gè)標(biāo)記中的每一標(biāo)記;以及將所述多個(gè)非標(biāo)準(zhǔn)標(biāo)記與所選擇的標(biāo)準(zhǔn)標(biāo)記相關(guān)聯(lián)地存儲到存儲器內(nèi)。
8.根據(jù)權(quán)利要求1所述的方法,還包括: 識別具有至少一個(gè)標(biāo)記的文本消息中的非標(biāo)準(zhǔn)標(biāo)記,所述非標(biāo)準(zhǔn)標(biāo)記對應(yīng)于存儲在存儲器內(nèi)的非標(biāo)準(zhǔn)標(biāo)記; 獲得與來自所述存儲器的非標(biāo)準(zhǔn)標(biāo)記相關(guān)聯(lián)的標(biāo)準(zhǔn)標(biāo)記; 以所述標(biāo)準(zhǔn)標(biāo)記替代所述文本消息中的非標(biāo)準(zhǔn)標(biāo)記;以及 合成對應(yīng)于所述文本消息中的至少一個(gè)標(biāo)準(zhǔn)標(biāo)記的語音。
9.根據(jù)權(quán)利要求8所述的方法,還包括: 識別存儲在存儲器內(nèi)與所述非標(biāo)準(zhǔn)標(biāo)記相關(guān)聯(lián)的多個(gè)標(biāo)準(zhǔn)標(biāo)記; 對與所述非標(biāo)準(zhǔn)標(biāo)記相關(guān)聯(lián)的每一標(biāo)準(zhǔn)標(biāo)記應(yīng)用次序,所述次序是指每一標(biāo)準(zhǔn)標(biāo)記出現(xiàn)在文本消息中的概率;以及 以所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中具有最高次序的標(biāo)準(zhǔn)標(biāo)記替代所述非標(biāo)準(zhǔn)標(biāo)記。
10.一種用于生成在隨機(jī)場模型中使用的操作參數(shù)的方法,包括: 將存儲在存儲器內(nèi)的第一多個(gè)標(biāo)記中的每一標(biāo)記與存儲在存儲器內(nèi)的多個(gè)標(biāo)準(zhǔn)標(biāo)記進(jìn)行比較; 響應(yīng)于所述第一多個(gè)標(biāo)記中的第一標(biāo)記不同于所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的每一標(biāo)準(zhǔn)標(biāo)記而將所述第一標(biāo)記識別為非標(biāo)準(zhǔn)標(biāo)記; 響應(yīng)于所述第一多個(gè)標(biāo)記中的第二標(biāo)記為所述第一標(biāo)記提供了上下文信息而將所述第二標(biāo)記識別為上下文標(biāo)記; 生成包括所述第一標(biāo)記和所述第二標(biāo)記的數(shù)據(jù)庫查詢; 以所生成的查詢對數(shù)據(jù)庫進(jìn)行查詢; 從自所述數(shù)據(jù)庫獲得的結(jié)果中識別對應(yīng)于所述第一標(biāo)記的結(jié)果標(biāo)記;以及 將與所述第一標(biāo)記相關(guān)聯(lián)的結(jié)果標(biāo)記存儲到存儲器內(nèi)。
11.根據(jù)權(quán)利要求10所述的方法,所述結(jié)果標(biāo)記不同于所述第二標(biāo)記。
12.根據(jù)權(quán)利要求10所述的方法,所述結(jié)果標(biāo)記的識別還包括: 在所述第一標(biāo)記和從所述數(shù)據(jù)庫獲得的結(jié)果中的候選標(biāo)記當(dāng)中識別第一最長共有字符序列; 在所述第二標(biāo)記和所述候選標(biāo)記當(dāng)中識別第二最長共有字符序列;以及響應(yīng)于所述第一最長共有字符序列具有比所述第二最長共有字符序列更大的字符數(shù)而將所述候選標(biāo)記識別為結(jié)果標(biāo)記。
13.根據(jù)權(quán)利要求10所述的方法,還包括: 識別對應(yīng)于從所述數(shù)據(jù)庫獲得的結(jié)果中的第一標(biāo)記的第一候選標(biāo)記,所述第一候選標(biāo)記是非標(biāo)準(zhǔn)標(biāo)記; 識別對應(yīng)于所述第一候選標(biāo)記的第二候選標(biāo)記,所述第二候選標(biāo)記與存儲在存儲器內(nèi)的第二多個(gè)標(biāo)準(zhǔn)標(biāo)記中的標(biāo)記匹配;以及 將與所述第一標(biāo)記相關(guān)聯(lián)的第二候選標(biāo)記存儲到存儲器內(nèi)。
14.一種用于根據(jù)標(biāo)準(zhǔn)標(biāo)記生成非標(biāo)準(zhǔn)標(biāo)記的系統(tǒng),包括: 存儲器,所述存儲器存儲多個(gè)標(biāo)準(zhǔn)標(biāo)記和隨機(jī)場模型的多個(gè)操作參數(shù);以及 操作地連接至所述存儲器的處理模塊,所述處理模塊被配置為:從所述存儲器為所述隨機(jī)場模型獲得操作參數(shù); 根據(jù)所述操作參數(shù)生成所述隨機(jī)場模型; 從所述存儲器內(nèi)的多個(gè)標(biāo)準(zhǔn)標(biāo)記中選擇標(biāo)準(zhǔn)標(biāo)記,所選擇的標(biāo)準(zhǔn)標(biāo)記具有多個(gè)輸入字符: 針對所選擇的標(biāo)準(zhǔn)標(biāo)記的多個(gè)輸入字符中的每一輸入字符,根據(jù)所述隨機(jī)場模型從多項(xiàng)預(yù)定操作中選擇操作; 在所選擇的標(biāo)準(zhǔn)標(biāo)記中的每一輸入字符上執(zhí)行所選擇的操作,以生成不同于所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的每一標(biāo)準(zhǔn)標(biāo)記的輸出標(biāo)記;以及 將所述輸出標(biāo)記與所選擇的標(biāo)準(zhǔn)標(biāo)記相關(guān)聯(lián)地存儲到存儲器內(nèi)。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),所選擇的操作是下述操作之一: 將輸入字符提供給所述輸出標(biāo)記; 在所述輸出標(biāo)記中以一個(gè)不同的字符替代輸入字符; 在所述輸出標(biāo)記中以多個(gè)不同字符替代輸入字符;以及 在所述輸出標(biāo)記中刪除輸入字符。
16.根據(jù)權(quán)利要求14所述的系統(tǒng),其中,所述隨機(jī)場模型是條件隨機(jī)場模型。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),還包括: 訓(xùn)練模塊,其被配置為為所述條件隨機(jī)場模型生成操作參數(shù),所述訓(xùn)練模塊操作地連接至所述存儲器并且被配置為: 將存儲在存儲器內(nèi)的第二多個(gè)標(biāo)記中的每一標(biāo)記與存儲在所述存儲器內(nèi)的所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的標(biāo)準(zhǔn)標(biāo)記進(jìn)行比較; 響應(yīng)于所述第二多個(gè)標(biāo)記中的第一標(biāo)記不同于所述多個(gè)標(biāo)準(zhǔn)標(biāo)記中的每一標(biāo)準(zhǔn)標(biāo)記而將所述第一標(biāo)記識別為非標(biāo)準(zhǔn)標(biāo)記; 響應(yīng)于所述第二多個(gè)標(biāo)記中的第二標(biāo)記為所述第一標(biāo)記提供了上下文信息而將所述第二標(biāo)記識別為上下文標(biāo)記; 生成包括所述第一標(biāo)記和所述第二標(biāo)記的數(shù)據(jù)庫查詢; 以所生成的數(shù)據(jù)庫查詢對數(shù)據(jù)庫進(jìn)行查詢; 從響應(yīng)于所述數(shù)據(jù)庫查詢自所述數(shù)據(jù)庫獲得的結(jié)果當(dāng)中識別對應(yīng)于所述第一標(biāo)記的結(jié)果標(biāo)記;以及 將所述第一標(biāo)記與所述結(jié)果標(biāo)記相關(guān)聯(lián)地存儲到存儲器內(nèi)。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),所述訓(xùn)練模塊還被配置為以所生成的數(shù)據(jù)庫查詢來對搜索引擎進(jìn)行查詢。
19.根據(jù)權(quán)利要求17所述的系統(tǒng),所述訓(xùn)練模塊還被配置為: 使所述結(jié)果標(biāo)記中的每一字符與所述第一標(biāo)記中的至少一個(gè)字符對準(zhǔn); 在所述結(jié)果標(biāo)記中識別對應(yīng)于所述結(jié)果標(biāo)記中的每一字符的至少一個(gè)特征; 在所述多項(xiàng)預(yù)定操作中識別根據(jù)結(jié)果標(biāo)記中對應(yīng)的對準(zhǔn)字符而生成所述第一標(biāo)記中的至少一個(gè)字符的操作;以及 參考所識別出的操作以及結(jié)果標(biāo)記中的對準(zhǔn)字符的至少一個(gè)特征,更新所述條件隨機(jī)場模型的操作參數(shù)。
20.根據(jù)權(quán)利要求14所述的系統(tǒng),還包括:語音合成模塊;以及 非標(biāo)準(zhǔn)標(biāo)記識別模塊,其操作地連接至所述存儲器和所述語音合成模塊,所述非標(biāo)準(zhǔn)標(biāo)記識別模塊被配置為識別存儲在存儲器內(nèi)的文本消息中的非標(biāo)準(zhǔn)標(biāo)記,所述文本消息中的非標(biāo)準(zhǔn)標(biāo)記對應(yīng)于存儲在存儲器內(nèi)的標(biāo)準(zhǔn)標(biāo)記;以所述標(biāo)準(zhǔn)標(biāo)記替代所述文本消息中的非標(biāo)準(zhǔn)標(biāo)記;并且將所 述文本消息提供給所述語音合成模塊以供語音合成。
【文檔編號】G06F17/27GK103703459SQ201280036746
【公開日】2014年4月2日 申請日期:2012年5月21日 優(yōu)先權(quán)日:2011年5月27日
【發(fā)明者】F·劉, F·翁 申請人:羅伯特·博世有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1