專利名稱:一種建立語言模型的方法、語音識(shí)別的方法及其裝置的制作方法
一種建立語言模型的方法、 語音識(shí)別的方法及其裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理技術(shù),特別涉及一種建立語言模型的方法、語音識(shí)別的方法及其裝置。
背景技術(shù):
隨著搜索引擎技術(shù)和移動(dòng)通訊技術(shù)的發(fā)展,如今采用語音搜索的方式獲取信息已經(jīng)變得非常普遍。語音搜索不需要人們通過文字輸入即可發(fā)出搜索請求,使得人們能夠在運(yùn)動(dòng)狀態(tài)時(shí)也輕易獲取相關(guān)信息,給人們的生活帶來了極大的便利。語音搜索中,首先需要對(duì)用戶的語音進(jìn)行識(shí)別,只有準(zhǔn)確地將用戶的語音表述識(shí)別成一致的語義文本,才能向用戶返回準(zhǔn)確的檢索結(jié)果。而語音識(shí)別的結(jié)果依賴于在語音識(shí)別中使用的語言模型,現(xiàn)有的語音搜索中的語音識(shí)別系統(tǒng),使用的語言模型一旦被訓(xùn)練好,其中的參數(shù)通常不再改變,這樣的語言模型難以反映用戶檢索行為的變化,因此在面對(duì)用戶對(duì)一些熱點(diǎn)事件的語音搜索行為時(shí),容易出現(xiàn)識(shí)別結(jié)果不準(zhǔn)確的現(xiàn)象。例如現(xiàn)實(shí)生活中突發(fā)的某種事件,常被用戶冠名為“某某門”,這種“某某門”的搜索詞由于過去從來沒出現(xiàn)過,在現(xiàn)有的語言模型中出現(xiàn)的概率很低,因此最終語音識(shí)別系統(tǒng)對(duì)這種搜索詞的識(shí)別率就會(huì)降低。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種建立語言模型的方法、語音識(shí)別的方法及其裝置,以解決現(xiàn)有的語音識(shí)別中語言模型不能隨著用戶的檢索行為發(fā)生改變從而導(dǎo)致識(shí)別率降低的問題。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種建立語言模型的方法,包括獲取時(shí)效性搜索語料;利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練,以得到時(shí)效性語言模型;將所述時(shí)效性語言模型與背景語言模型融合,以得到最終的識(shí)別語言模型,其中所述背景語言模型用于描述用戶的長期檢索行為。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述背景語言模型為已有的識(shí)別語言模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,獲取時(shí)效性搜索語料的步驟包括從搜索引擎服務(wù)器上獲取最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料;或者,將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,在將所述時(shí)效性語言模型與所述背景語言模型融合時(shí),將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值,以得到所述識(shí)別語言模型中的參數(shù),其中所述參數(shù)為各N元詞組N-Gram的概率值。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值時(shí),對(duì)所述時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán)。本發(fā)明還提供了一種語音識(shí)別的方法,包括獲取用戶的語音搜索查詢;使用前文所述建立語言模型的方法建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別,得到識(shí)別結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法進(jìn)一步包括向用戶返回與所述識(shí)別結(jié)果相關(guān)的檢索結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別的步驟包括利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列;獲取與所述音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列;使用所述識(shí)別語言模型計(jì)算每個(gè)候選詞序列在所述識(shí)別語言模型中出現(xiàn)的概率,并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。
本發(fā)明還提供了一種建立語言模型的裝置,包括獲取單元,用于獲取時(shí)效性搜索語料;訓(xùn)練單元,用于利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練,以得到時(shí)效性語言模型;融合單元,用于將所述時(shí)效性語言模型與背景語言模型融合,以得到最終的識(shí)別語言模型,其中背景語言模型用于描述用戶的長期檢索行為。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述背景語言模型為已有的識(shí)別語言模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述獲取單元獲取時(shí)效性搜索語料時(shí),從搜索引擎服務(wù)器上獲取在最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料;或者,將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述融合單元在將所述時(shí)效性語言模型與所述背景語言模型融合時(shí),將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值,以得到所述識(shí)別語言模型中的參數(shù),其中所述參數(shù)為各N元詞組N-Gram的概率值。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述融合單元在將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值時(shí),對(duì)所述時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán)。本發(fā)明還提供了一種語音識(shí)別的裝置,包括接收單元,用于獲取用戶的語音搜索查詢;識(shí)別單元,用于使用前文所述建立語言模型的裝置建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別,得到識(shí)別結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括檢索單元,用于向用戶返回與所述識(shí)別結(jié)果相關(guān)的檢索結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述識(shí)別單元包括轉(zhuǎn)化單元,用于利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列;詞序列單元,用于獲取與所述音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列;計(jì)算單元,用于使用所述識(shí)別語言模型計(jì)算每個(gè)候選詞序列在所述識(shí)別語言模型中出現(xiàn)的概率,并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。由以上技術(shù)方案可以看出,通過獲取時(shí)效性語料訓(xùn)練能反映用戶檢索行為變化的時(shí)效性語言模型,并將時(shí)效性語言模型與反映用戶長期檢索行為的背景語言模型進(jìn)行融合得到的識(shí)別語言模型,能夠跟蹤用戶檢索行為的變化,當(dāng)用戶對(duì)突發(fā)事件發(fā)出語音檢索請求時(shí),采用本發(fā)明的識(shí)別語言模型,能夠準(zhǔn)確地對(duì)用戶的請求進(jìn)行識(shí)別,進(jìn)而能夠?yàn)橛脩籼峁┛煽康臋z索結(jié)果。
圖I為本發(fā)明中建立語言模型的方法的實(shí)施例的流程示意圖2為本發(fā)明中獲取時(shí)效性搜索語料的一個(gè)實(shí)施例的示意圖;圖3為本發(fā)明中獲取時(shí)效性搜索語料的另一個(gè)實(shí)施例的示意圖;圖4為本發(fā)明中語音識(shí)別的方法的實(shí)施例的流程示意圖;圖5為本發(fā)明中詞圖的實(shí)施例的示意圖;圖6為本發(fā)明中建立語言模型的裝置及語音識(shí)別的裝置的實(shí)施例的結(jié)構(gòu)示意框圖;圖7為本發(fā)明中識(shí)別單元的一個(gè)實(shí)施例的結(jié)構(gòu)示意框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。請參考圖1,圖I為本發(fā)明中建立語言模型的方法的實(shí)施例的流程示意圖。如圖I所示,該方法包括步驟SlOl :獲取時(shí)效性搜索語料。步驟S102 :利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練,以得到時(shí)效性語言模型。步驟S103 :將時(shí)效性語言模型與背景語言模型融合,以得到最終的識(shí)別語言模型。下面對(duì)上述步驟進(jìn)行具體說明。步驟SlOl中,時(shí)效性搜索語料指的是能反映最近的一段時(shí)間長度內(nèi)用戶檢索行為的搜索語料。其中的一段時(shí)間長度可以預(yù)先設(shè)置,例如,假如設(shè)定的時(shí)間長度為一個(gè)小時(shí)或一天,則最近一個(gè)小時(shí)或最近的一天內(nèi)的搜索語料就可以作為時(shí)效性搜索語料。具體地,獲取時(shí)效性搜索語料時(shí),可以從搜索引擎服務(wù)器上獲取最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料,或者,獲取時(shí)效性搜索語料時(shí),可以將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。請參考圖2,圖2為本發(fā)明中獲取時(shí)效性搜索語料的一個(gè)實(shí)施例的示意圖。用戶的文本搜索查詢通過網(wǎng)絡(luò)傳輸?shù)竭_(dá)搜索引擎服務(wù)器,在搜索引擎服務(wù)器上被記錄,形成連續(xù)的日志文件。連續(xù)的日志文件就是從時(shí)間上連續(xù)記錄各個(gè)用戶的檢索行為的文件,此外,搜索引擎服務(wù)器還可以對(duì)連續(xù)日志文件按照設(shè)定時(shí)間長度進(jìn)行分割并將相同搜索字段進(jìn)行合并整理,形成小粒度的日志文件,例如,可以以小時(shí)為級(jí)別,將連續(xù)日志文件分割為多個(gè)以小時(shí)為單位的日志文件并將相同搜索字段進(jìn)行合并整理,形成小時(shí)級(jí)別的日志文件。有了上述小粒度的日志文件,在步驟SlOl中就可以將最近的設(shè)定時(shí)間長度(如一小時(shí))內(nèi)的檢索日志作為提供給步驟S102中訓(xùn)練語言模型的時(shí)效性搜索語料了。請參考圖3,圖3為本發(fā)明中獲取時(shí)效性搜索語料的另一個(gè)實(shí)施例的示意圖。如圖3所示,用戶可以通過移動(dòng)終端(如手機(jī))輸入語音搜索查詢,該查詢通過網(wǎng)絡(luò)傳輸?shù)剿阉?引擎服務(wù)器,搜索引擎服務(wù)器將對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別,識(shí)別結(jié)果可以記錄為與文本檢索日志類似的文本文件,從該文件上提取最近的設(shè)定時(shí)間長度內(nèi)的識(shí)別結(jié)果,就可以得到時(shí)效性搜索語料。例如將最近一個(gè)小時(shí)內(nèi)的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。
請繼續(xù)參考圖I。
語言模型指的是N-Gram語言模型,該模型基于這樣一種假設(shè),即第N個(gè)詞的出現(xiàn)只與前面N-I個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。訓(xùn)練語言模型的過程,就是從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù),以得到各個(gè)N-Gram概率值的過程。通常使用較多的為二元的Bi-Gram模型和三元的Tri-Gram模型,本發(fā)明對(duì)此不做限制。步驟S102中進(jìn)行語言模型訓(xùn)練的過程,就是根據(jù)時(shí)效性搜索語料,確定時(shí)效性語言模型中的各個(gè)N-Gram概率值的過程。步驟S103中,背景語言模型是用于描述用戶的長期檢索行為的語言模型。例如收集長期大量用戶的搜索查詢作為訓(xùn)練語料訓(xùn)練的語言模型就可以作為背景語言模型,與時(shí)效性語言模型相比,背景語言模型是比較穩(wěn)定的語言模型,其更新速度通常遠(yuǎn)慢于時(shí)效性語言模型的更新速度,例如時(shí)效性語言模型一個(gè)小時(shí)或一天更新一次,而背景語言模型一個(gè)月更新一次。在另一個(gè)實(shí)施例中,背景語言模型也可以是已有的識(shí)別語言模型,在這種方式下,每一次時(shí)效性語言模型與背景語言模型融合,實(shí)際上就是對(duì)已有的識(shí)別語言模型進(jìn)行更新的過程。步驟S103中,將時(shí)效性語言模型與背景語言模型融合時(shí),可以對(duì)時(shí)效性語言模型中的參數(shù)與背景語言模型中的參數(shù)進(jìn)行插值處理,以得到最終的語言模型中的參數(shù),其中語言模型中的參數(shù)就是語言模型中的各個(gè)N元詞組(N-Gram)概率值。例如在時(shí)效性語言模型中P (您好)是O. 5,其中P(X)表示X的概率值,背景語言模型中詞語P (您好)是O. 8,如果給時(shí)效性語言模型與背景語言模型中的參數(shù)賦予相同的權(quán)值,則在插值后最終的識(shí)別語言模型中,P(您好)就是50% *0. 5+50% *0. 8 = 0. 65。此外,在對(duì)時(shí)效性語言模型中的參數(shù)與背景語言模型中的參數(shù)進(jìn)行插值處理時(shí),還可以為時(shí)效性語言模型中的參數(shù)加權(quán)。例如上面的例子中,如果時(shí)效性語言模型的權(quán)重設(shè)置為70%,背景語言模型的權(quán)重設(shè)置為30%,則P(您好)就是70% *0. 5+30% *0. 2 =O. 41。為時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán),可以使得最終的識(shí)別語言模型更貼近用戶在最近時(shí)段的檢索行為。請參考圖4,圖4為本發(fā)明中語音識(shí)別的方法的實(shí)施例的流程示意圖。如圖4所示,該方法包括S201 :獲取用戶的語音搜索查詢。S202:采用前文所述建立語言模型的方法建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別,得到識(shí)別結(jié)果。由于前文所述的建立語言模型的方法得到的最終的識(shí)別語言模型能夠更好地反映搜索的時(shí)效性,因此采用該語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別,也能對(duì)用戶發(fā)出的與時(shí)效相關(guān)的語音搜索查詢識(shí)別得更加準(zhǔn)確。進(jìn)一步地,在得到對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果后,還可以向用戶返回與該識(shí)別結(jié)果相關(guān)的檢索結(jié)果,這個(gè)過程與現(xiàn)有的搜索引擎返回與用戶輸入的查詢內(nèi)容相關(guān)的檢索結(jié)果類似,在此不再進(jìn)行具體描述??梢岳斫猓c識(shí)別結(jié)果相關(guān)的檢索結(jié)果,既可以是包含識(shí)別結(jié)果的檢索結(jié)果,也可以是基于識(shí)別結(jié)果而進(jìn)行擴(kuò)展的檢索結(jié)果,相應(yīng)的擴(kuò)展檢索結(jié)果采用的擴(kuò)展策略,可采用任意現(xiàn)有的擴(kuò)展策略,本發(fā)明對(duì)此不做限制。由于采用的最終語言模型使得對(duì)與時(shí)效相關(guān)的語音搜索查詢的識(shí)別更加準(zhǔn)確,相應(yīng)地,與該識(shí)別結(jié)果相關(guān)的檢索結(jié)果也能夠更符合用戶的需求。對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別,具體地,包括以下步驟S2021 :利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列。聲學(xué)模型用于描述語音到音節(jié)概率大小。語音信號(hào)通過聲學(xué)模型,可以轉(zhuǎn)化為一個(gè)可能性最高的音節(jié)序列。例如“哪里的烤鴨好吃”對(duì)應(yīng)的語音信號(hào)經(jīng)過聲學(xué)模型轉(zhuǎn)化為“na Ii de kao ya hao chi”這樣一個(gè)音節(jié)序列。S2022 :獲取與所述音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列。具體地,可以利用詞表獲取與音節(jié)對(duì)應(yīng)的詞語形成如圖5所示的詞圖,詞圖中任意一條從前向后連通的路徑均可作為候選詞序列,應(yīng)該理解,以上建立多個(gè)候選詞序列的方式只是示意性說明,本發(fā)明對(duì)建立多個(gè)候選詞序列的策略不做限定,可在本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)的方式中任意選擇。如音節(jié)序列“na Ii de kao ya hao chi”可以表示為多個(gè)候選詞序列“那里的烤牙好吃”、“那里的烤鴨好吃”或“哪里的烤鴨好吃”等等。S2023 :使用識(shí)別語言模型計(jì)算每個(gè)候選詞序列在識(shí)別語言模型中出現(xiàn)的概率,并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。例如針對(duì)上述例子中的每個(gè)候選詞序列,從識(shí)別語言模型中可以查找到其中每個(gè)詞出現(xiàn)的概率以及相鄰詞語之間的轉(zhuǎn)移概率,將每個(gè)詞出現(xiàn)的概率以及相鄰詞語之間的轉(zhuǎn)移概率相乘即可得到該候選詞序列在識(shí)別語言模型中出現(xiàn)的概率,這樣,出現(xiàn)概率最大的候選詞序列就可以作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。以最終的語言模型為Bi-Gram語言模型為例,一個(gè)候選詞序列在識(shí)別語言模型中出現(xiàn)的概率可以表示如下P (哪里的烤鴨好吃)=P (哪里的)*P (烤鴨I哪里的)*P (烤鴨)*P (好吃I烤鴨)*P (好吃)其中P (哪里的)、P (烤鴨)、P (好吃)為候選詞序列中每個(gè)詞出現(xiàn)的概率,P (烤鴨I哪里的)、p(好吃I烤鴨)為相鄰詞語之間的轉(zhuǎn)移概率。請參考圖6,圖6為本發(fā)明中建立語言模型的裝置及語音識(shí)別的裝置的實(shí)施例的結(jié)構(gòu)示意框圖。如圖6所示,建立語言模型的裝置包括獲取單元301、訓(xùn)練單元302及融合單元303。其中,獲取單元301,用于獲取時(shí)效性搜索語料。訓(xùn)練單元302,用于利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練,以得到時(shí)效性語言模型。融合單元303,用于將時(shí)效性語言模型與背景語言模型融合,以得到最終的識(shí)別語言模型。獲取單元301獲取時(shí)效性搜索語料的方式包括從搜索引擎服務(wù)器上獲取在最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料;或者,將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。本發(fā)明中的語言模型指的是N-Gram語言模型,該模型基于這樣一種假設(shè),即第N個(gè)詞的出現(xiàn)只與前面N-I個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。訓(xùn)練語言模型的過程,就是從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù),以得到各個(gè)N-Gram概率值的過程。通常使用較多的為二元的Bi-Gram模型和三元的Tri-Gram模型,本發(fā)明對(duì)此不做限制。訓(xùn)練單元302進(jìn)行語言模型訓(xùn)練的過程,就是根據(jù)時(shí)效性搜索語料,確定時(shí)效性語言模型中的各個(gè)N-Gram概率值的過程。本發(fā)明中的背景語言模型是用于描述用戶的長期檢索行為的語言模型,與時(shí)效性語言模型相比,背景語言模型是比較穩(wěn)定的語言模型。融合單元303將時(shí)效性語言模型與背景語言模型融合時(shí),可以對(duì)時(shí)效性語言模型中的參數(shù)與背景語言模型中的參數(shù)進(jìn)行插值處理,以得到最終的語言模型中的參數(shù),其中語言模型中的參數(shù)就是語言模型中的各個(gè)N-Gram概率值。例如在時(shí)效性語言模型中P (您好)是O. 5,其中P (X)表示X的概率值,背景語言模型中詞語P (您好)是O. 8,如果給時(shí)效性語言模型與背景語言模型中的參數(shù)賦予相同的權(quán)值,則融合單元303進(jìn)行插值后,在識(shí)別語言模型中,P (您好)就是50% *0. 5+50% *0. 8=O. 65此外,融合單元303在對(duì)時(shí)效性語言模型中的參數(shù)與背景語言模型中的參數(shù)進(jìn)行插值處理時(shí),還可以為時(shí)效性語言模型中的參數(shù)加權(quán)。例如上面的例子中,如果時(shí)效性語言模型的權(quán)重設(shè)置為70%,背景語言模型的權(quán)重設(shè)置為30%,則P(您好)就是70%*0. 5+30% *0. 2 = O. 41。融合單元303為時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán),可以使得識(shí)別語言模型更貼近用戶在最近時(shí)段的檢索行為。如圖6所示,語音識(shí)別的裝置包括接收單元401、識(shí)別單元402及檢索單元403。其中接收單元401用于獲取用戶的語音搜索查詢。識(shí)別單元402用于采用前文介紹的建立語言模型的裝置建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別,得到識(shí)別結(jié)果。檢索單元403用于向用戶返回與識(shí)別結(jié)果相關(guān)的檢索結(jié)果。具體地,請參考圖7,圖7為本發(fā)明中識(shí)別單元的一個(gè)實(shí)施例的結(jié)構(gòu)示意框圖。如圖7所示,識(shí)別單元402包括轉(zhuǎn)化單元4021、詞序列單元4022及計(jì)算單元4023。其中轉(zhuǎn)化單元4021用于利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列。詞序列單元4022用于獲取與音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列。計(jì)算單元4023用于使用識(shí)別語言模型計(jì)算每個(gè)候選詞序列在識(shí)別語言模型中出現(xiàn)的概率,并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。請繼續(xù)參考圖6。檢索單元403的實(shí)現(xiàn)方式與現(xiàn)有的搜索引擎的檢索單元類似,在此不再進(jìn)行具體描述,應(yīng)該理解,與識(shí)別結(jié)果相關(guān)的檢索結(jié)果,既可以是包含識(shí)別結(jié)果的檢索結(jié)果,也可以是基于識(shí)別結(jié)果而進(jìn)行擴(kuò)展的檢索結(jié)果,相應(yīng)的擴(kuò)展檢索結(jié)果采用的擴(kuò)展策略,可采用任意現(xiàn)有的擴(kuò)展策略,本發(fā)明對(duì)此不做限制。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種建立語言模型的方法,其特征在于,所述方法包括 獲取時(shí)效性搜索語料; 利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練,以得到時(shí)效性語言模型; 將所述時(shí)效性語言模型與背景語言模型融合,以得到最終的識(shí)別語言模型,其中所述背景語言模型用于描述用戶的長期檢索行為。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述背景語言模型為已有的識(shí)別語言模型。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,獲取時(shí)效性搜索語料的步驟包括 從搜索引擎服務(wù)器上獲取最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料;或者, 將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,在將所述時(shí)效性語言模型與所述背景語言模型融合時(shí),將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值,以得到所述識(shí)別語言模型中的參數(shù),其中所述參數(shù)為各N元詞組N-Gram的概率值。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值時(shí),對(duì)所述時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán)。
6.一種語音識(shí)別的方法,其特征在于,所述方法包括 獲取用戶的語音搜索查詢; 使用權(quán)利要求I至5中任一權(quán)項(xiàng)所述建立語言模型的方法建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別,得到識(shí)別結(jié)果。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法進(jìn)一步包括 向用戶返回與所述識(shí)別結(jié)果相關(guān)的檢索結(jié)果。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別的步驟包括 利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列; 獲取與所述音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列; 使用所述識(shí)別語言模型計(jì)算每個(gè)候選詞序列在所述識(shí)別語言模型中出現(xiàn)的概率,并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。
9.一種建立語言模型的裝置,其特征在于,所述裝置包括 獲取單元,用于獲取時(shí)效性搜索語料; 訓(xùn)練單元,用于利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練,以得到時(shí)效性語言模型; 融合單元,用于將所述時(shí)效性語言模型與背景語言模型融合,以得到最終的識(shí)別語言模型,其中背景語言模型用于描述用戶的長期檢索行為。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述背景語言模型為已有的識(shí)別語言模型。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述獲取單元獲取時(shí)效性搜索語料時(shí),從搜索引擎服務(wù)器上獲取在最近的設(shè)定時(shí)間長度內(nèi)的檢索日志并將獲取的檢索日志作為時(shí)效性搜索語料;或者,將在最近的設(shè)定時(shí)間長度內(nèi)對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果作為時(shí)效性搜索語料。
12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述融合單元在將所述時(shí)效性語言模型與所述背景語言模型融合時(shí),將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值,以得到所述識(shí)別語言模型中的參數(shù),其中所述參數(shù)為各N元詞組N-Gram的概率值。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述融合單元在將所述時(shí)效性語言模型中的參數(shù)與所述背景語言模型中的參數(shù)進(jìn)行插值時(shí),對(duì)所述時(shí)效性語言模型中的參數(shù)進(jìn)行加權(quán)。
14.一種語音識(shí)別的裝置,其特征在于,所述裝置包括接收單元,用于獲取用戶的語音搜索查詢;識(shí)別單元,用于使用權(quán)利要求9至13中任一權(quán)項(xiàng)所述建立語言模型的裝置建立的識(shí)別語言模型對(duì)用戶的語音搜索查詢進(jìn)行識(shí)別,得到識(shí)別結(jié)果。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述裝置進(jìn)一步包括檢索單元,用于向用戶返回與所述識(shí)別結(jié)果相關(guān)的檢索結(jié)果。
16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述識(shí)別單元包括轉(zhuǎn)化單元,用于利用聲學(xué)模型將用戶的語音搜索查詢轉(zhuǎn)化為相應(yīng)的音節(jié)序列;詞序列單元,用于獲取與所述音節(jié)序列對(duì)應(yīng)的一個(gè)以上的候選詞序列;計(jì)算單元,用于使用所述識(shí)別語言模型計(jì)算每個(gè)候選詞序列在所述識(shí)別語言模型中出現(xiàn)的概率,并選擇出現(xiàn)概率最大的候選詞序列作為對(duì)用戶的語音搜索查詢的識(shí)別結(jié)果。
全文摘要
本發(fā)明提供了一種建立語言模型的方法、語音識(shí)別的方法及其裝置,其中建立語言模型的方法包括獲取時(shí)效性搜索語料;利用獲取到的時(shí)效性搜索語料進(jìn)行語言模型訓(xùn)練,以得到時(shí)效性語言模型;將所述時(shí)效性語言模型與背景語言模型融合,以得到最終的識(shí)別語言模型,其中所述背景語言模型用于描述用戶的長期檢索行為。采用本發(fā)明的識(shí)別語言模型,當(dāng)用戶對(duì)突發(fā)事件發(fā)出語音檢索請求時(shí),能夠準(zhǔn)確地對(duì)用戶的請求進(jìn)行識(shí)別,進(jìn)而能夠?yàn)橛脩籼峁┛煽康臋z索結(jié)果。
文檔編號(hào)G10L15/08GK102623010SQ20121005007
公開日2012年8月1日 申請日期2012年2月29日 優(yōu)先權(quán)日2012年2月29日
發(fā)明者萬廣魯 申請人:北京百度網(wǎng)訊科技有限公司