一種建立語言模型的方法、語音識(shí)別的方法及其裝置的制作方法

文檔序號(hào)：2832998閱讀：527來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種建立語言模型的方法、語音識(shí)別的方法及其裝置的制作方法
一種建立語言模型的方法、語音識(shí)別的方法及其裝置
技術(shù)領(lǐng)域：
本發(fā)明涉及自然語言處理技術(shù)，特別涉及一種建立語言模型的方法、語音識(shí)別的方法及其裝置。
背景技術(shù)：
隨著搜索引擎技術(shù)和移動(dòng)通訊技術(shù)的發(fā)展，如今采用語音搜索的方式獲取信息已經(jīng)變得非常普遍。語音搜索不需要人們通過文字輸入即可發(fā)出搜索請求，使得人們能夠在運(yùn)動(dòng)狀態(tài)時(shí)也輕易獲取相關(guān)信息，給人們的生活帶來了極大的便利。語音搜索中，首先需要對(duì)用戶的語音進(jìn)行識(shí)別，只有準(zhǔn)確地將用戶的語音表述識(shí)別成一致的語義文本，才能向用戶返回準(zhǔn)確的檢索結(jié)果。而語音識(shí)別的結(jié)果依賴于在語音識(shí)別中使用的語言模型，現(xiàn)有的語音搜索中的語音識(shí)別系統(tǒng)，使用的語言模型一旦被訓(xùn)練好，其中的參數(shù)通常不再改變，這樣的語言模型難以反映用戶檢索行為的變化，因此在面對(duì)用戶對(duì)一些熱點(diǎn)事件的語音搜索行為時(shí)，容易出現(xiàn)識(shí)別結(jié)果不準(zhǔn)確的現(xiàn)象。例如現(xiàn)實(shí)生活中突發(fā)的某種事件，常被用戶冠名為“某某門”，這種“某某門”的搜索詞由于過去從來沒出現(xiàn)過，在現(xiàn)有的語言模型中出現(xiàn)的概率很低，因此最終語音識(shí)別系統(tǒng)對(duì)這種搜索詞的識(shí)別率就會(huì)降低。

發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種建立語言模型的方法、語音識(shí)別的方法及其裝置，以解決現(xiàn)有的語音識(shí)別中語言模型不能隨著用戶的檢索行為發(fā)生改變從而導(dǎo)致識(shí)別率降低的問題。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種建立語言模型的方法，包括獲取時(shí)效性搜索語料；利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練，以得到時(shí)效性語言模型；將所述時(shí)效性語言模型與背景語言模型融合，以得到最終的識(shí)別語言模型，其中所述背景語言模型用于描述用戶的長期檢索行為。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述背景語言模型為已有的識(shí)別語言模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，獲取時(shí)效性搜索語料的步驟包括從搜索引擎服務(wù)器上獲取最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料；或者，將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，在將所述時(shí)效性語言模型與所述背景語言模型融合時(shí)，將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值，以得到所述識(shí)別語言模型中的參數(shù)，其中所述參數(shù)為各N元詞組N-Gram的概率值。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值時(shí)，對(duì)所述時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán)。本發(fā)明還提供了一種語音識(shí)別的方法，包括獲取用戶的語音搜索查詢；使用前文所述建立語言模型的方法建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別，得到識(shí)別結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述方法進(jìn)一步包括向用戶返回與所述識(shí)別結(jié)果相關(guān)的檢索結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別的步驟包括利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列；獲取與所述音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列；使用所述識(shí)別語言模型計(jì)算每個(gè)候選詞序列在所述識(shí)別語言模型中出現(xiàn)的概率，并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。
本發(fā)明還提供了一種建立語言模型的裝置，包括獲取單元，用于獲取時(shí)效性搜索語料；訓(xùn)練單元，用于利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練，以得到時(shí)效性語言模型；融合單元，用于將所述時(shí)效性語言模型與背景語言模型融合，以得到最終的識(shí)別語言模型，其中背景語言模型用于描述用戶的長期檢索行為。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述背景語言模型為已有的識(shí)別語言模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述獲取單元獲取時(shí)效性搜索語料時(shí)，從搜索引擎服務(wù)器上獲取在最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料；或者，將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述融合單元在將所述時(shí)效性語言模型與所述背景語言模型融合時(shí)，將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值，以得到所述識(shí)別語言模型中的參數(shù)，其中所述參數(shù)為各N元詞組N-Gram的概率值。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述融合單元在將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值時(shí)，對(duì)所述時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán)。本發(fā)明還提供了一種語音識(shí)別的裝置，包括接收單元，用于獲取用戶的語音搜索查詢；識(shí)別單元，用于使用前文所述建立語言模型的裝置建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別，得到識(shí)別結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述裝置進(jìn)一步包括檢索單元，用于向用戶返回與所述識(shí)別結(jié)果相關(guān)的檢索結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例，所述識(shí)別單元包括轉(zhuǎn)化單元，用于利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列；詞序列單元，用于獲取與所述音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列；計(jì)算單元，用于使用所述識(shí)別語言模型計(jì)算每個(gè)候選詞序列在所述識(shí)別語言模型中出現(xiàn)的概率，并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。由以上技術(shù)方案可以看出，通過獲取時(shí)效性語料訓(xùn)練能反映用戶檢索行為變化的時(shí)效性語言模型，并將時(shí)效性語言模型與反映用戶長期檢索行為的背景語言模型進(jìn)行融合得到的識(shí)別語言模型，能夠跟蹤用戶檢索行為的變化，當(dāng)用戶對(duì)突發(fā)事件發(fā)出語音檢索請求時(shí)，采用本發(fā)明的識(shí)別語言模型，能夠準(zhǔn)確地對(duì)用戶的請求進(jìn)行識(shí)別，進(jìn)而能夠?yàn)橛脩籼峁┛煽康臋z索結(jié)果。

圖I為本發(fā)明中建立語言模型的方法的實(shí)施例的流程示意圖2為本發(fā)明中獲取時(shí)效性搜索語料的一個(gè)實(shí)施例的示意圖；圖3為本發(fā)明中獲取時(shí)效性搜索語料的另一個(gè)實(shí)施例的示意圖；圖4為本發(fā)明中語音識(shí)別的方法的實(shí)施例的流程示意圖；圖5為本發(fā)明中詞圖的實(shí)施例的示意圖；圖6為本發(fā)明中建立語言模型的裝置及語音識(shí)別的裝置的實(shí)施例的結(jié)構(gòu)示意框圖；圖7為本發(fā)明中識(shí)別單元的一個(gè)實(shí)施例的結(jié)構(gòu)示意框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。請參考圖1，圖I為本發(fā)明中建立語言模型的方法的實(shí)施例的流程示意圖。如圖I所示，該方法包括步驟SlOl :獲取時(shí)效性搜索語料。步驟S102 :利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練，以得到時(shí)效性語言模型。步驟S103 :將時(shí)效性語言模型與背景語言模型融合，以得到最終的識(shí)別語言模型。下面對(duì)上述步驟進(jìn)行具體說明。步驟SlOl中，時(shí)效性搜索語料指的是能反映最近的一段時(shí)間長度內(nèi)用戶檢索行為的搜索語料。其中的一段時(shí)間長度可以預(yù)先設(shè)置，例如，假如設(shè)定的時(shí)間長度為一個(gè)小時(shí)或一天，則最近一個(gè)小時(shí)或最近的一天內(nèi)的搜索語料就可以作為時(shí)效性搜索語料。具體地，獲取時(shí)效性搜索語料時(shí)，可以從搜索引擎服務(wù)器上獲取最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料，或者，獲取時(shí)效性搜索語料時(shí)，可以將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。請參考圖2，圖2為本發(fā)明中獲取時(shí)效性搜索語料的一個(gè)實(shí)施例的示意圖。用戶的文本搜索查詢通過網(wǎng)絡(luò)傳輸?shù)竭_(dá)搜索引擎服務(wù)器，在搜索引擎服務(wù)器上被記錄，形成連續(xù)的日志文件。連續(xù)的日志文件就是從時(shí)間上連續(xù)記錄各個(gè)用戶的檢索行為的文件，此外，搜索引擎服務(wù)器還可以對(duì)連續(xù)日志文件按照設(shè)定時(shí)間長度進(jìn)行分割并將相同搜索字段進(jìn)行合并整理，形成小粒度的日志文件，例如，可以以小時(shí)為級(jí)別，將連續(xù)日志文件分割為多個(gè)以小時(shí)為單位的日志文件并將相同搜索字段進(jìn)行合并整理，形成小時(shí)級(jí)別的日志文件。有了上述小粒度的日志文件，在步驟SlOl中就可以將最近的設(shè)定時(shí)間長度(如一小時(shí))內(nèi)的檢索日志作為提供給步驟S102中訓(xùn)練語言模型的時(shí)效性搜索語料了。請參考圖3，圖3為本發(fā)明中獲取時(shí)效性搜索語料的另一個(gè)實(shí)施例的示意圖。如圖3所示，用戶可以通過移動(dòng)終端(如手機(jī))輸入語音搜索查詢，該查詢通過網(wǎng)絡(luò)傳輸?shù)剿阉?引擎服務(wù)器，搜索引擎服務(wù)器將對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別，識(shí)別結(jié)果可以記錄為與文本檢索日志類似的文本文件，從該文件上提取最近的設(shè)定時(shí)間長度內(nèi)的識(shí)別結(jié)果，就可以得到時(shí)效性搜索語料。例如將最近一個(gè)小時(shí)內(nèi)的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。
請繼續(xù)參考圖I。
語言模型指的是N-Gram語言模型，該模型基于這樣一種假設(shè)，即第N個(gè)詞的出現(xiàn)只與前面N-I個(gè)詞相關(guān)，而與其它任何詞都不相關(guān)，整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。訓(xùn)練語言模型的過程，就是從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)，以得到各個(gè)N-Gram概率值的過程。通常使用較多的為二元的Bi-Gram模型和三元的Tri-Gram模型，本發(fā)明對(duì)此不做限制。步驟S102中進(jìn)行語言模型訓(xùn)練的過程，就是根據(jù)時(shí)效性搜索語料，確定時(shí)效性語言模型中的各個(gè)N-Gram概率值的過程。步驟S103中，背景語言模型是用于描述用戶的長期檢索行為的語言模型。例如收集長期大量用戶的搜索查詢作為訓(xùn)練語料訓(xùn)練的語言模型就可以作為背景語言模型，與時(shí)效性語言模型相比，背景語言模型是比較穩(wěn)定的語言模型，其更新速度通常遠(yuǎn)慢于時(shí)效性語言模型的更新速度，例如時(shí)效性語言模型一個(gè)小時(shí)或一天更新一次，而背景語言模型一個(gè)月更新一次。在另一個(gè)實(shí)施例中，背景語言模型也可以是已有的識(shí)別語言模型，在這種方式下，每一次時(shí)效性語言模型與背景語言模型融合，實(shí)際上就是對(duì)已有的識(shí)別語言模型進(jìn)行更新的過程。步驟S103中，將時(shí)效性語言模型與背景語言模型融合時(shí)，可以對(duì)時(shí)效性語言模型中的參數(shù)與背景語言模型中的參數(shù)進(jìn)行插值處理，以得到最終的語言模型中的參數(shù)，其中語言模型中的參數(shù)就是語言模型中的各個(gè)N元詞組(N-Gram)概率值。例如在時(shí)效性語言模型中P (您好)是O. 5，其中P(X)表示X的概率值，背景語言模型中詞語P (您好)是O. 8，如果給時(shí)效性語言模型與背景語言模型中的參數(shù)賦予相同的權(quán)值，則在插值后最終的識(shí)別語言模型中，P(您好)就是50% *0. 5+50% *0. 8 = 0. 65。此外，在對(duì)時(shí)效性語言模型中的參數(shù)與背景語言模型中的參數(shù)進(jìn)行插值處理時(shí)，還可以為時(shí)效性語言模型中的參數(shù)加權(quán)。例如上面的例子中，如果時(shí)效性語言模型的權(quán)重設(shè)置為70%，背景語言模型的權(quán)重設(shè)置為30%，則P(您好)就是70% *0. 5+30% *0. 2 =O. 41。為時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán)，可以使得最終的識(shí)別語言模型更貼近用戶在最近時(shí)段的檢索行為。請參考圖4，圖4為本發(fā)明中語音識(shí)別的方法的實(shí)施例的流程示意圖。如圖4所示，該方法包括S201 :獲取用戶的語音搜索查詢。S202:采用前文所述建立語言模型的方法建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別，得到識(shí)別結(jié)果。由于前文所述的建立語言模型的方法得到的最終的識(shí)別語言模型能夠更好地反映搜索的時(shí)效性，因此采用該語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別，也能對(duì)用戶發(fā)出的與時(shí)效相關(guān)的語音搜索查詢識(shí)別得更加準(zhǔn)確。進(jìn)一步地，在得到對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果后，還可以向用戶返回與該識(shí)別結(jié)果相關(guān)的檢索結(jié)果，這個(gè)過程與現(xiàn)有的搜索引擎返回與用戶輸入的查詢內(nèi)容相關(guān)的檢索結(jié)果類似，在此不再進(jìn)行具體描述?？梢岳斫猓c識(shí)別結(jié)果相關(guān)的檢索結(jié)果，既可以是包含識(shí)別結(jié)果的檢索結(jié)果，也可以是基于識(shí)別結(jié)果而進(jìn)行擴(kuò)展的檢索結(jié)果，相應(yīng)的擴(kuò)展檢索結(jié)果采用的擴(kuò)展策略，可采用任意現(xiàn)有的擴(kuò)展策略，本發(fā)明對(duì)此不做限制。由于采用的最終語言模型使得對(duì)與時(shí)效相關(guān)的語音搜索查詢的識(shí)別更加準(zhǔn)確，相應(yīng)地，與該識(shí)別結(jié)果相關(guān)的檢索結(jié)果也能夠更符合用戶的需求。對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別，具體地，包括以下步驟S2021 :利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列。聲學(xué)模型用于描述語音到音節(jié)概率大小。語音信號(hào)通過聲學(xué)模型，可以轉(zhuǎn)化為一個(gè)可能性最高的音節(jié)序列。例如“哪里的烤鴨好吃”對(duì)應(yīng)的語音信號(hào)經(jīng)過聲學(xué)模型轉(zhuǎn)化為“na Ii de kao ya hao chi”這樣一個(gè)音節(jié)序列。S2022 :獲取與所述音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列。具體地，可以利用詞表獲取與音節(jié)對(duì)應(yīng)的詞語形成如圖5所示的詞圖，詞圖中任意一條從前向后連通的路徑均可作為候選詞序列，應(yīng)該理解，以上建立多個(gè)候選詞序列的方式只是示意性說明，本發(fā)明對(duì)建立多個(gè)候選詞序列的策略不做限定，可在本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)的方式中任意選擇。如音節(jié)序列“na Ii de kao ya hao chi”可以表示為多個(gè)候選詞序列“那里的烤牙好吃”、“那里的烤鴨好吃”或“哪里的烤鴨好吃”等等。S2023 :使用識(shí)別語言模型計(jì)算每個(gè)候選詞序列在識(shí)別語言模型中出現(xiàn)的概率，并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。例如針對(duì)上述例子中的每個(gè)候選詞序列，從識(shí)別語言模型中可以查找到其中每個(gè)詞出現(xiàn)的概率以及相鄰詞語之間的轉(zhuǎn)移概率，將每個(gè)詞出現(xiàn)的概率以及相鄰詞語之間的轉(zhuǎn)移概率相乘即可得到該候選詞序列在識(shí)別語言模型中出現(xiàn)的概率，這樣，出現(xiàn)概率最大的候選詞序列就可以作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。以最終的語言模型為Bi-Gram語言模型為例，一個(gè)候選詞序列在識(shí)別語言模型中出現(xiàn)的概率可以表示如下P (哪里的烤鴨好吃)=P (哪里的)*P (烤鴨I哪里的)*P (烤鴨)*P (好吃I烤鴨)*P (好吃)其中P (哪里的)、P (烤鴨)、P (好吃)為候選詞序列中每個(gè)詞出現(xiàn)的概率，P (烤鴨I哪里的)、p(好吃I烤鴨)為相鄰詞語之間的轉(zhuǎn)移概率。請參考圖6，圖6為本發(fā)明中建立語言模型的裝置及語音識(shí)別的裝置的實(shí)施例的結(jié)構(gòu)示意框圖。如圖6所示，建立語言模型的裝置包括獲取單元301、訓(xùn)練單元302及融合單元303。其中，獲取單元301，用于獲取時(shí)效性搜索語料。訓(xùn)練單元302，用于利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練，以得到時(shí)效性語言模型。融合單元303，用于將時(shí)效性語言模型與背景語言模型融合，以得到最終的識(shí)別語言模型。獲取單元301獲取時(shí)效性搜索語料的方式包括從搜索引擎服務(wù)器上獲取在最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料；或者，將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。本發(fā)明中的語言模型指的是N-Gram語言模型，該模型基于這樣一種假設(shè)，即第N個(gè)詞的出現(xiàn)只與前面N-I個(gè)詞相關(guān)，而與其它任何詞都不相關(guān)，整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。訓(xùn)練語言模型的過程，就是從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)，以得到各個(gè)N-Gram概率值的過程。通常使用較多的為二元的Bi-Gram模型和三元的Tri-Gram模型，本發(fā)明對(duì)此不做限制。訓(xùn)練單元302進(jìn)行語言模型訓(xùn)練的過程，就是根據(jù)時(shí)效性搜索語料，確定時(shí)效性語言模型中的各個(gè)N-Gram概率值的過程。本發(fā)明中的背景語言模型是用于描述用戶的長期檢索行為的語言模型，與時(shí)效性語言模型相比，背景語言模型是比較穩(wěn)定的語言模型。融合單元303將時(shí)效性語言模型與背景語言模型融合時(shí)，可以對(duì)時(shí)效性語言模型中的參數(shù)與背景語言模型中的參數(shù)進(jìn)行插值處理，以得到最終的語言模型中的參數(shù)，其中語言模型中的參數(shù)就是語言模型中的各個(gè)N-Gram概率值。例如在時(shí)效性語言模型中P (您好)是O. 5，其中P (X)表示X的概率值，背景語言模型中詞語P (您好)是O. 8，如果給時(shí)效性語言模型與背景語言模型中的參數(shù)賦予相同的權(quán)值，則融合單元303進(jìn)行插值后，在識(shí)別語言模型中，P (您好)就是50% *0. 5+50% *0. 8=O. 65此外，融合單元303在對(duì)時(shí)效性語言模型中的參數(shù)與背景語言模型中的參數(shù)進(jìn)行插值處理時(shí)，還可以為時(shí)效性語言模型中的參數(shù)加權(quán)。例如上面的例子中，如果時(shí)效性語言模型的權(quán)重設(shè)置為70%，背景語言模型的權(quán)重設(shè)置為30%，則P(您好)就是70%*0. 5+30% *0. 2 = O. 41。融合單元303為時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán)，可以使得識(shí)別語言模型更貼近用戶在最近時(shí)段的檢索行為。如圖6所示,語音識(shí)別的裝置包括接收單元401、識(shí)別單元402及檢索單元403。其中接收單元401用于獲取用戶的語音搜索查詢。識(shí)別單元402用于采用前文介紹的建立語言模型的裝置建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別，得到識(shí)別結(jié)果。檢索單元403用于向用戶返回與識(shí)別結(jié)果相關(guān)的檢索結(jié)果。具體地，請參考圖7，圖7為本發(fā)明中識(shí)別單元的一個(gè)實(shí)施例的結(jié)構(gòu)示意框圖。如圖7所示，識(shí)別單元402包括轉(zhuǎn)化單元4021、詞序列單元4022及計(jì)算單元4023。其中轉(zhuǎn)化單元4021用于利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列。詞序列單元4022用于獲取與音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列。計(jì)算單元4023用于使用識(shí)別語言模型計(jì)算每個(gè)候選詞序列在識(shí)別語言模型中出現(xiàn)的概率，并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。請繼續(xù)參考圖6。檢索單元403的實(shí)現(xiàn)方式與現(xiàn)有的搜索引擎的檢索單元類似，在此不再進(jìn)行具體描述，應(yīng)該理解，與識(shí)別結(jié)果相關(guān)的檢索結(jié)果，既可以是包含識(shí)別結(jié)果的檢索結(jié)果，也可以是基于識(shí)別結(jié)果而進(jìn)行擴(kuò)展的檢索結(jié)果，相應(yīng)的擴(kuò)展檢索結(jié)果采用的擴(kuò)展策略，可采用任意現(xiàn)有的擴(kuò)展策略，本發(fā)明對(duì)此不做限制。以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種建立語言模型的方法，其特征在于，所述方法包括獲取時(shí)效性搜索語料；利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練，以得到時(shí)效性語言模型；將所述時(shí)效性語言模型與背景語言模型融合，以得到最終的識(shí)別語言模型，其中所述背景語言模型用于描述用戶的長期檢索行為。
2.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述背景語言模型為已有的識(shí)別語言模型。
3.根據(jù)權(quán)利要求I所述的方法，其特征在于，獲取時(shí)效性搜索語料的步驟包括從搜索引擎服務(wù)器上獲取最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料；或者，將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。
4.根據(jù)權(quán)利要求I所述的方法，其特征在于，在將所述時(shí)效性語言模型與所述背景語言模型融合時(shí)，將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值，以得到所述識(shí)別語言模型中的參數(shù)，其中所述參數(shù)為各N元詞組N-Gram的概率值。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值時(shí)，對(duì)所述時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán)。
6.一種語音識(shí)別的方法，其特征在于，所述方法包括獲取用戶的語音搜索查詢；使用權(quán)利要求I至5中任一權(quán)項(xiàng)所述建立語言模型的方法建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別，得到識(shí)別結(jié)果。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述方法進(jìn)一步包括向用戶返回與所述識(shí)別結(jié)果相關(guān)的檢索結(jié)果。
8.根據(jù)權(quán)利要求6所述的方法，其特征在于，對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別的步驟包括利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列；獲取與所述音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列；使用所述識(shí)別語言模型計(jì)算每個(gè)候選詞序列在所述識(shí)別語言模型中出現(xiàn)的概率，并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。
9.一種建立語言模型的裝置，其特征在于，所述裝置包括獲取單元，用于獲取時(shí)效性搜索語料；訓(xùn)練單元，用于利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練，以得到時(shí)效性語言模型；融合單元，用于將所述時(shí)效性語言模型與背景語言模型融合，以得到最終的識(shí)別語言模型，其中背景語言模型用于描述用戶的長期檢索行為。
10.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述背景語言模型為已有的識(shí)別語言模型。
11.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述獲取單元獲取時(shí)效性搜索語料時(shí)，從搜索引擎服務(wù)器上獲取在最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料；或者，將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。
12.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述融合單元在將所述時(shí)效性語言模型與所述背景語言模型融合時(shí)，將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值，以得到所述識(shí)別語言模型中的參數(shù)，其中所述參數(shù)為各N元詞組N-Gram的概率值。
13.根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述融合單元在將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值時(shí)，對(duì)所述時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán)。
14.一種語音識(shí)別的裝置，其特征在于，所述裝置包括接收單元，用于獲取用戶的語音搜索查詢；識(shí)別單元，用于使用權(quán)利要求9至13中任一權(quán)項(xiàng)所述建立語言模型的裝置建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別，得到識(shí)別結(jié)果。
15.根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述裝置進(jìn)一步包括檢索單元，用于向用戶返回與所述識(shí)別結(jié)果相關(guān)的檢索結(jié)果。
16.根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述識(shí)別單元包括轉(zhuǎn)化單元，用于利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列；詞序列單元，用于獲取與所述音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列；計(jì)算單元，用于使用所述識(shí)別語言模型計(jì)算每個(gè)候選詞序列在所述識(shí)別語言模型中出現(xiàn)的概率，并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。
全文摘要
本發(fā)明提供了一種建立語言模型的方法、語音識(shí)別的方法及其裝置，其中建立語言模型的方法包括獲取時(shí)效性搜索語料；利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練，以得到時(shí)效性語言模型；將所述時(shí)效性語言模型與背景語言模型融合，以得到最終的識(shí)別語言模型，其中所述背景語言模型用于描述用戶的長期檢索行為。采用本發(fā)明的識(shí)別語言模型，當(dāng)用戶對(duì)突發(fā)事件發(fā)出語音檢索請求時(shí)，能夠準(zhǔn)確地對(duì)用戶的請求進(jìn)行識(shí)別，進(jìn)而能夠?yàn)橛脩籼峁┛煽康臋z索結(jié)果。
文檔編號(hào)G10L15/08GK102623010SQ20121005007
公開日2012年8月1日申請日期2012年2月29日優(yōu)先權(quán)日2012年2月29日
發(fā)明者萬廣魯申請人:北京百度網(wǎng)訊科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：萬廣魯
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

上一篇：基于運(yùn)動(dòng)的語音活動(dòng)檢測的制作方法
上一篇：一種指彈片的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音識(shí)別模型相關(guān)技術(shù)

語音識(shí)別模型訓(xùn)練相關(guān)技術(shù)

語音識(shí)別無監(jiān)督模型相關(guān)技術(shù)

高斯混合模型語音識(shí)別相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種建立語言模型的方法、語音識(shí)別的方法及其裝置的制作方法