亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

語音識別裝置、識別方法以及記錄介質的制作方法

文檔序號:2836858閱讀:432來源:國知局
專利名稱:語音識別裝置、識別方法以及記錄介質的制作方法
技術領域
本發(fā)明涉及一種語音識別裝置、語音識別方法和記錄介質,特別涉及一種能提高語音識別精度的語音識別裝置、語音識別方法和記錄介質。


圖1示出了一種傳統(tǒng)語音識別裝置的示例結構。
用戶發(fā)出的語音輸入傳聲器1,然后傳聲器1將輸入的語音轉換成音頻信號,該信號是電信號。將音頻信號饋送到模-數(AD)轉換部件2。該模數(AD)轉換部件2對音頻信號進行采樣、量化,并將其轉化成數字信號的音頻數據,其中音頻信號是來自傳聲器1的模擬信號。將音頻數據饋送到特征提取部件3。
該特征提取部件3在適當數量的幀單元中對來自AD轉換部件2的音頻數據實施聲學處理以提取特征量,例如一嘜耳頻率倒頻譜參數(MFCC),并將其饋送到匹配部件4。特征提取部件3能提取其它特征量,例如頻譜、線性預測參數、倒頻譜參數以及線譜對參數。
匹配部件4利用由特征提取部件3饋送的特征量,如果必要,還要參考聲模式(acoustic-model)數據庫5、字典數據庫6和語法數據庫7,并利用例如連續(xù)分布HMM法對輸入傳聲器1的語音實施語音識別。
更具體地說,聲模式數據庫5存儲表示實施語音識別的語音的語言方面的每個音素和每個音節(jié)的聲特征的聲模式。由于語音識別是根據連續(xù)分布的隱藏馬可夫模式(HMM)方法實施的,因此HMM是作為一個聲模式。字典數據庫6存儲了一個字典,其中描述了與每個要識別的詞(詞匯)的發(fā)音有關的信息(音素信息)。語法數據庫7存儲了語法規(guī)則(語言模型),該語法規(guī)則描述了每個輸入到字典數據庫6的字典中的詞是怎樣鏈接(連接)的。例如,語法規(guī)則可以是上下文無關文法(GFG)或基于統(tǒng)計字鏈概率(N-gram)的規(guī)則。
匹配部件4通過參考字典數據庫6的字典,結合存儲在聲模式數據庫5中的聲模式形成字的聲模式(字模式)。匹配部件4進一步通過參考語法數據庫6中存儲的語法規(guī)則結合若干個字模式,并依據特征量通過連續(xù)分布HMM法,利用所結合的字模式來識別輸入傳聲器1的語音。換句話說,匹配部件4在監(jiān)視由特征提取部件3輸出的時間順序的特征量過程中,檢測一系列具有最高分數(score)(可能性)的字模式,并輸出與該系列字模式相對應的字串作為語音識別的結果。
換句話說,匹配部件4為對應于所結合的字模式的字串積累每個特征量的出現概率,將積累值作為分數,并輸出具有最高分數的字串作為語音識別結果。
通常,通過由聲模式數據庫5中儲存的聲模式給出的聲分數(此后如果必要稱之為聲分數)和由語法數據庫7中存儲的語法規(guī)則給出的語法分數(此后如果必要稱之為語言分數)的總體評價而得到分數。
更具體地說,例如,通過HMM方法依據概率(出現概率)由構成字模式的聲模式為每個字計算聲分數,通過它監(jiān)視由特征提取部件3輸出的特征量序列。例如,根據目標(aimed-at)字和在目標字之前迅速處理的字之間的鏈接(連接)概率,通過雙字母組獲得語言分數。根據由每個字的聲分數和語言分數的總體評價值獲得的最終分數(此后如果必要稱之為最終分數)確定語音識別結果。
特別地,例如,通過下面的公式計算由N個字形成的字串的最終分數S,其中wk表示字串中第k個字,A(wk)表示字wk的聲分數,L(wk)顯示該字的語言分數。
S=∑(A(wk)+Ck×L(wk))(1)∑表示當k從1變到N時得到的總和。Ck表示用于字wk的語言分數L(wk)的權。
例如,匹配部件4執(zhí)行匹配處理得到N,它使由公式(1)表示的最終分數最高,并得到字串w1、w2、…和wN,并輸出字串w1、w2、…和wN作為語音識別結果。
通過上述過程,當用戶發(fā)出“New York ni ikitai desu,”時,圖1所示的語音識別裝置為每個字“New York”、“ni”、“ikitai”或“desu.”計算聲分數和語言分數。當由總體評價值得到的它們的最終分數最高時,字串“New York”、“ni”、“ikitai”和“desu.”被作為語音識別結果輸出。
在上述情況中,當5個字“New York”、“ni”、“ikitai”和“desu.”存儲在字典數據庫6的字典中時,就會有55種由這五個字構成的五字排列。因此,可以簡單地說成是匹配部件4針對用戶在其中的發(fā)音計算55個字串,并確定最適當的字串(具有最高的最終分數的字串)。如果在字典中存儲的字數增加了,則由這些字形成的字串的數目是該字數的該字數次方。因此,將計算大量字串。
另外,由于發(fā)音中包括的字數通常是未知的,因此不僅要計算五個字形成的字串,還要計算由一個字、兩個字…形成的字串。因此要計算的字串數變得更加龐大。按照要使用的計算量和存儲容量有效地確定大量字串中最可能的字串作為語音識別的結果,這是非常重要的。
為有效利用要使用的計算量和存儲容量而采取了一些措施,例如采用聲分支切割(branch-cutting)技術,以便在獲得聲分數的過程中獲得的聲分數等于或小于預定閾值時終止分數計算,或采用語言分支切割技術,以便根據語言分數減少進行分數計算的字數。
根據這些分支切割技術,由于按照預先確定的標準(例如上述計算過程中獲得的字的聲分數和語言分數)進行分數計算的字減少了,因此計算的量也減少了。然而,如果減少了很多字,即如果使用嚴格的確定標準,則甚至應正確獲得作為語音識別結果的字也被刪除了,并發(fā)生錯誤識別。因此,在分支切割技術中,需要將字簡化與在某種程度上設置的空白一起使用,以便不會丟掉應正確獲得而作為語音識別結果的字。因此,大量減少計算量是困難的。
當獨立地獲得所有被執(zhí)行分數計算的字的聲分數時,計算量巨大。因此,提出了共同利用(共用)多個字的部分聲分數的方法。在該共用方法中,將共同聲模式施加給字典中存儲的具有相同的第一音素的字(施加是從第一音素到相同的最后音素),并將聲模式獨立地施加給隨后的音素,在總體上形成一個樹形結構網絡,并獲得聲分數。更準確地說,考慮到了一些字,例如“akita”和“akebono”。當假設“akita”的聲信息是“akita”而“akebono”的聲信息是“akebono”時,共同為字“akita”和“akebono”的第一到第二音素“a”和“k”計算聲分數。單獨為字“akita”剩余的音素“i”、“t”和“a”和字“akebono”剩余的音素“e”、“b”、“o”、“n”和“o”計算聲分數。
因此,按照該方法就大大減少了計算聲分數的計算量。
然而,在該方法中,當計算了共同部分(共同計算聲分數)時,就不能確定被計算聲分數的字。換句話說,在上面的字為“akita”和“akebono”的例子中,當為第一和第二音素“a”和“k”計算了聲分數時,還不能確定是否為字“akita”和字“akebono”計算了聲分數。
在這種情況下,關于字“akita”,當開始為其第三個音素“i”計算聲分數時,就能確定正被實施計算的字是“akita”。同樣關于字“akebono”,當開始為其第三個音素“e”計算聲分數時,就能確定正被實施計算的字是“akebono”。
因此,當共用部分聲分數計算時,聲分數計算開始時不能鑒別正被實施計算的字。結果是,在聲分數計算開始前難于使用上述語言分支切割法。這就執(zhí)行了無用的計算。
另外,當共用了部分聲分數計算時,就為字典中存儲的所有字形成了上述樹形結構網絡。為容納該網絡需要一個很大的存儲容量。
為有效利用要被使用的計算量和存儲容量,采用了另一項技術,其中,不僅為字典中存儲的所有字計算聲分數,還為初級選擇的字計算聲分數。例如,可通過利用簡易聲模式或沒有太高精度的簡易語法規(guī)則進行初級選擇。
例如,在“A Fast Approximate Acoustic Match for LargeVocabulary Speech Recognition”IEEE Trans.Speech and Audio Proc.,Vol.1,pp.59-67,1993,written by L.R.Bahl,S.V.De Gennaro,P.S.Gopalakrishnan and R.L.Mercer中已經描述了一種初級選擇的方法。
通過利用一系列語音特征量來計算字的聲分數。當用于計算的一系列特征量的起始端或終止端不同時,獲得的聲分數也會變化。該變化影響了通過公式(1)得到的最終分數,其中聲分數和語言分數被全部計算。
例如,可通過動態(tài)程序法獲得對應于一個字的特征量序列的起始端和終止端,即字的邊界(字邊界)。將特征量序列中的一個端點設定為候選字邊界,并為字串中的每個字積累由總體評價聲分數和語言分數獲得的分數(此后如果必要稱之為字分數),該字串作為語音識別的候選結果。將給出最高積累值的候選字邊界連同積累值一起存儲起來。
當已經獲得字分數的積累值時,也得到了給出最高積累值(即最高分數)的字邊界。
以上述方式獲得字邊界的方法稱之為維特比(viterb)解碼或一次(one-pass)解碼法,例如已在“Voice Recognition Using ProbabilityModel”,The journal of the Institute of Electronics,Informationand Communication Engineers,pp.20-26,July,1,1988,written bySeliichi Nakagawa中描述了其詳細內容。
為有效執(zhí)行上述的初級選擇,確定字邊界,也就是確定一系列特征量(特征量序列)中的起始端是非常重要的。
特別地,例如,在由圖2(A)所示的語音“kyouwaiitenkidesune”得到的特征量序列中,在時間t1時處理了“kyou”和“wa”之間的一個正確字邊界,如果將正確時間t1之前的t1-1選作位于字“kyou”之后的字“wa”的初級選擇中的起始端,不僅字“wa”的特征量而且字“kyou”特征量的最后部分也都影響初級選擇。如果將在時間t1之后的t1+1選作字“wa”初級選擇中的起始端,則字“wa”特征量的起始部分不用于初級選擇。
不論發(fā)生那種狀況,如果錯誤地選擇了起始端,就會給初級選擇和此后進行的匹配處理帶來不良影響。
在圖2中(也在此后描述的圖5和圖7中),時間以從左向右的方向變化。語音區(qū)的起始時間設定為0,終止時間設定為時間T。
如上所述,在上述動態(tài)程序法中,由于直到將字分數已經被計算到特征量序列的末端(即圖2中語音區(qū)的終止時間T)為止,才能確定最終字邊界,因此在進行初級選擇時唯一地確定作為初級選擇中的起始端的字邊界是困難的。
為解決該問題,提出了一種技術,其中保存候選字邊界,直到已經在語音區(qū)通過使用特征量序列計算了字分數為止。
在該技術中,例如,當為字“kyou”計算字分數,并將語音區(qū)的起始時間0作為起始端、時間t1-1、t1和t1+1作為字“kyou”的候選發(fā)音終止端時,保存這三個時間t1-1、t1和t1+1,并將這些時間中的每一個用作起始端,為下一個字執(zhí)行初級選擇。
在初級選擇過程中,可以假設當時間t1-1作為起始端時,得到了兩個字“wa”和“ii”;當時間t1作為起始端時,得到了一個字“wa”;當t1+1作為起始端時,得到了兩個字“wa”和“ii”。也可以假設為這些字中的每個字計算字分數,并得到圖2(B)到圖2(G)中所示的結果。
具體地說,圖2(B)表示將時間t1-1作為起始端時為字“wa”計算字分數,并得到作為候選終止端的時間t2。圖2(C)表示將時間t1-1作為起始端時為字“ii”計算字分數,并得到作為候選終止端的時間t2+1。圖2(D)表示將時間t1作為起始端時為字“wa”計算字分數,并得到作為候選終止端的時間t2+1。圖2(E)表示將時間t1作為起始端時為字“wa”計算字分數,而將時間t2作為候選終止端。圖2(F)表示將時間t1+1作為起始端時為字“wa”計算字分數,并得到作為候選終止端的時間t2。圖2(G)表示將時間t1+1作為起始端為字“ii”計算字分數,并得到作為候選終止端的時間t2+2。在圖2中,t1-1<t1<t1+1<t2<t2+1<t2+2。
在圖2(B)到圖2(G)中,圖2(B)、圖2(E)和圖2(F)表示得到相同字串“kyou”和“wa”作為語音識別的候選結果,并且字串的最后字“wa”的終止端位于時間t2。因此,例如,根據直到時間t2時獲得的字分數積累值從中選擇最適當的情況并刪除其余情況是可行的。
然而,在當前的時間點上,從選自圖2(B)、圖2(E)和圖2(F)所示的這些情況、以及加上2(C)、圖2(D)和圖2(G)所示的情況中不能鑒別正確情況。因此,需要保存這四種情況。為這四種情況再執(zhí)行一次初級選擇。
因此,在該技術中,需要計算字分數,同時保存許多候選字邊界,直到利用語音區(qū)中特征量序列的字分數計算完成為止。在有效利用計算量和存儲容量的情況下這不是優(yōu)選的。
也是在這種情況下,當將真正正確的字邊界保存為候選字邊界時,最終在原則上得到了與利用上述動態(tài)程序技術情況下所得到的字邊界同樣正確的字邊界。如果未能將真正正確的字邊界保存為候選字邊界,就會錯誤地識別將字邊界作為其起始端或作為其終止端的字,另外,由于該錯誤識別,也會錯誤識別該字后面的一個字。
近年來,已經使用了依據(考慮)上下文關系的聲模式。依據上下文關系的聲模式意指即使對同一音節(jié)(音素),也根據音節(jié)前或后迅速處理的音節(jié)將聲模式模擬成不同的模式。由此,例如,通過在音節(jié)前或后迅速處理的音節(jié)分別是“ka”和“sa”的情況中的不同聲模式來模擬音節(jié)“a”。
將依據上下文關系的聲模式分成字內依據上下文關系的聲模式和依據上下文關系的延續(xù)字聲模式。
在利用字內的依據上下文關系的聲模式的情況下,當通過連接聲模式“kyo”和“u”產生字模式“kyou”時,就利用了依據隨后立即跟來的音節(jié)“u”的聲模式“kyo”(考慮到具有隨后立即跟來的音節(jié)“u”的聲模式“kyo”),或利用了依據前面立即有音節(jié)“kyo”的聲模式“u”。
在利用依據上下文關系的延續(xù)字聲模式情況下,當通過連接聲模式“kyo”和“u”產生字模式“kyou”時,如果后面立即跟來的字是“wa”,則聲模式“u”依賴于隨后立即跟來的字的第一音節(jié)“wa”。依據上下文關系的延續(xù)字聲模式稱之為縱橫組字模式(cross-word models)。
當將縱橫組字模式用于執(zhí)行初級選擇的語音識別時,就能顧及到與在初級選擇字之前立即處理的字的關系,但因為還未確定后面立即跟來的字,因此不能顧及到與在初級選擇字之后立即處理的字的關系。
為解決該問題,開發(fā)了一種方法,其中會提前得到初級選擇字之后最可能立即被處理的字,并產生顧及到與所得字關系的字模式。例如,更正確地說,當字“wa”、“ga”和“no”是字“kyou”后最可能被立即處理的字時,通過利用依賴于“wa”、“ga”和“no”的聲模式“u”而產生字模式,該字模式與字“kyou”的字模式的最后音節(jié)相對應。
然而,由于總是要顧及不必要的上下文關系,因此該方法在有效利用計算量和存儲容量方面是不可取的。
由于相同原因,計算初級選擇字的語言分數、并顧及此后立即處理的字是困難的。
作為一種語音識別方法,其中不僅要考慮目標字,還要考慮目標字后面的字,現提出了一種兩次(two-pass)解碼法,例如在“The N-BestAlgorithm:An Efficient and Exact Procedure for Finding The MostLikely Sentence Hypotheses,”Proc.ICASSP,pp.81-84,1990,written by R.Schwarts and Y.L.Chow中描述了該方法。
圖3是表示傳統(tǒng)語音識別裝置的框結構圖,該裝置能通過兩次解碼法執(zhí)行語音識別。
在圖3中,例如,匹配部件41執(zhí)行與圖1所示匹配部件4相同的匹配處理,并輸出作為處理結果的字串。匹配部件41不會從所得的作為匹配處理結果的多個字串中輸出一個字串作為最終語音識別結果,而是輸出多個可能字串作為語音識別的候選結果。
將匹配部件41的輸出饋送到匹配部件42。匹配部件42進行匹配處理,以便重新評價由匹配部件41輸出的多個字串中確定的每個字串的概率,作為語言識別結果。在從匹配部件41輸出作為語音識別結果的字串中,由于字不僅是前面立即處理的一個字,而且是后面立即處理的一個字,因此匹配部件42利用縱橫組字模式得到一個新的聲音分數和一個新的語言分數,這些分數不僅顧及到前面立即處理的字,而且顧及到后面立即處理的字。根據由匹配部件41輸出的大量字串中每個字串的新聲音分數和語言分數,匹配部件42確定并輸出一個可能字串作為語音識別結果。
在上述兩次解碼過程中,在匹配部件41中通常不使用高精度的簡易聲模式、字典和語法規(guī)則,該匹配部件41執(zhí)行第一匹配處理,在匹配部件42中使用高精度的聲模式、字典和語法規(guī)則,該匹配部件42執(zhí)行后來的匹配處理。通過該結構,在圖3所示的語言識別裝置中減少了匹配部件41和42中執(zhí)行的處理量,并得到了高精度的語音識別結果。
如上所述,圖3表示兩次解碼的語音識別裝置。在此也提出能執(zhí)行多次解碼的語音識別裝置,其中在圖3所示的匹配部件42后加入相同的匹配部件。
然而,在兩次解碼和多次解碼過程中,直到第一匹配處理完成才能進行下一級匹配處理。因此,從語音輸入時到最終語音識別結果輸出時測得的延遲時間變得很長。
為解決該問題,提出了一種方法,其中,當第一匹配處理已完成幾個字時,就開始利用縱橫組字模式進行這幾個字的后續(xù)匹配處理,并且對于其它字也重復該操作。例如,該方法在“Evaluation of a StackDecoder on a Japanese Newspaper Dictation Task”O(jiān)nkoron,1-R-12,pp.141-142,1997,written by M.Schuster中已經描述了。
一般通過利用沒有高精度的簡易聲模式和語法規(guī)則執(zhí)行初級選擇。由于初級選擇是用于存儲在字典中的所有字,因此當用高精度的聲模式和高精度語法規(guī)則執(zhí)行初級選擇時,就需要大量例如計算量和存儲容量的資源來保存實時特征。因此隨著簡易聲模式和簡易語法規(guī)則的使用,初級選擇能以高速執(zhí)行,并且甚至對于大量詞匯也使用相對較小的資源。
然而,在初級選擇過程中,在通過使用特征量序列對一個字執(zhí)行匹配處理并獲得可能的終止端后,將終止端設置為起始端,并通過利用與該起始端相對應的時刻開始的特征量序列再次執(zhí)行匹配處理。換句話說,當連續(xù)發(fā)出的語音所包含的字之間的邊界(字邊界)還沒有最終確定時,執(zhí)行初級選擇。
因此,如果初級選擇中所用特征量序列的起始端和終止端從相應字的起始端和終止端漂移,就通過利用包含音素特征量的特征量序列執(zhí)行初級選擇,其中該音素是包含在對應字之前迅速處理的字或對應字之后迅速處理的字中,或通過利用對應字起始或最后部分的特征量缺失的特征量序列執(zhí)行初級選擇,即通過利用聲學上不穩(wěn)定的特征量序列執(zhí)行初級選擇。
因此,在利用簡易聲模式的初級選擇過程中,就會發(fā)生含在發(fā)音中的一個字未被選擇的情況。如果在初級選擇中未選擇正確字,則由于未對該字執(zhí)行匹配處理,因此就會得到錯誤的語音識別結果。
為解決該問題,對于初級選擇,就提出了一種擴展用于選擇字的聲和語言確定標準以增加選擇字數目的方法,還提出了一種使用高精度聲模式和高精度語法規(guī)則的方法。
然而,當在初級選擇中擴展了用于選擇字的聲或語言確定標準時,就會對許多可能是語音識別結果的字進行匹配處理,并需要為匹配處理增加資源數量,例如計算量和存儲容量,這相對于每個字具有比初級選擇更重的負擔。
當在初級選擇中使用高精度聲模式和高精度語法規(guī)則時,需要為初級選擇增加資源量。
考慮到上述情況得到了本發(fā)明。本發(fā)明的一個目的是執(zhí)行高精度的語音識別,同時抑制處理過程所需資源的增加。
在本發(fā)明的一方面中,通過提供一種語音識別裝置可實現上述目的,其中該裝置用于計算表示對輸入語音實施語音識別結果的可能性的分數,并根據該分數識別語音,它包括選擇裝置,該選擇裝置能從實施語音識別的字組中選擇一個或多個具有后隨字的字(words followingwords),該具有后隨字的字是在作為語音識別候選結果的字串中得到的;形成裝置,用于為選擇裝置所選擇的字計算分數,并根據該分數形成作為語音識別候選結果的字串;存儲裝置,用于存儲作為語音識別候選結果的字串中的字之間的字連接關系;校正裝置,用于校正字連接關系;以及確定裝置,用于根據校正后的字連接關系確定作為語音識別結果的字串。
存儲裝置可通過使用由節(jié)點和弧線表示的圖形結構存儲連接關系。
存儲裝置可存儲可共享一個節(jié)點的節(jié)點。
存儲裝置可存儲每個字的聲分數和語言分數,并存儲與每個字對應的發(fā)音的起始時間和終止時間,以及這些字間的連接關系。
可這樣構成語音識別裝置形成裝置通過將正在計算分數的字連接到已經計算完分數的字上來形成作為語音識別候選結果的字串,以及形成裝置每連接一個字,校正裝置就順序地校正連接關系。
選擇裝置或形成裝置可參照該連接關系而執(zhí)行處理過程。
選擇裝置、形成裝置或校正裝置能計算字的聲或語言分數,并根據該聲或語言分數執(zhí)行處理。
選擇裝置、形成裝置或校正裝置能為每個字獨立地計算聲或語言分數。
選擇裝置、形成裝置或校正裝置能依據時間為每個字獨立地計算聲或語言分數。
通過參考顧及到與要計算分數的字之前或之后處理的字的連接關系,校正裝置能計算該字的聲或語言分數。
上述目的可在本發(fā)明的另一方面中通過提供一種語音識別方法實現,該方法用于計算表示對輸入語音實施語音識別的結果的可能性的分數,并根據該分數識別語音,它包括選擇步驟,該選擇步驟能從進行語音識別的字組中選擇一個或多個具有后隨字的字,該具有后隨字的字是在作為語音識別候選結果的字串中得到的;形成步驟,能為選擇步驟所選擇的字計算分數,并根據該分數形成作為語音識別候選結果的字串;校正步驟,能校正作為語音識別候選結果的字串中的字之間的字連接關系,該字連接關系存儲在存儲裝置中;以及確定步驟,能根據校正后的字連接關系確定作為語音識別結果的字串。
上述目的仍可在本發(fā)明的另一方面中通過提供一種記錄介質實現,其中該記錄介質能存儲使計算機執(zhí)行語音識別處理的程序,它用于計算表示對輸入的語音實施語音識別的結果的可能性的分數,并根據該分數識別語音,該程序包括選擇步驟,該選擇步驟能從進行語音識別的字組中選擇一個或多個具有后隨字的字,該具有后隨字的字是從作為語音識別候選結果的字串中得到的;形成步驟,能為選擇步驟所選擇的字計算分數,并根據該分數形成作為語音識別候選結果的字串;校正步驟,能校正作為語音識別候選結果的字串中的字之間的字連接關系,該字連接關系存儲在存儲裝置中;以及確定步驟,能根據校正后的字連接關系確定作為語音識別結果的字串。
圖1是傳統(tǒng)語音識別裝置的方框圖。
圖2是表示為何需要保存候選字間邊界的原因圖。
圖3是另一個傳統(tǒng)語音識別裝置的方框圖。
圖4是根據本發(fā)明一個實施例的語音識別裝置的方框圖。
圖5是表示字連接信息的圖。
圖6是由圖4所示的語音識別裝置執(zhí)行處理的流程圖。
圖7是表示再評價部件15執(zhí)行處理的圖。
圖8是根據本發(fā)明另一個實施例的計算機方框圖。
圖4表示根據本發(fā)明一個實施例的語音識別裝置的示例結構。在圖4中,與圖1所用的相同的附圖標記分派給與圖1所示相對應的部分,并省略有關這些部分的描述。
由用戶發(fā)出的語音的特征量序列從特征提取部件3輸出,并被饋送到幀單元中的控制部件11。控制部件11將由特征提取部件3饋送的特征量饋送到特征量存儲部件12。
通過參照字連接信息存儲部件16中存儲的字連接信息,控制部件11控制匹配部件14和再評價部件15。控制部件11也依據在匹配部件14中獲得的聲分數和語言分數產生字連接信息,這些分數是同圖1所示匹配部件4執(zhí)行的匹配處理相同的匹配處理結果,并通過該字連接信息修正字連接信息存儲部件16的存儲內容。控制部件11進一步根據再評價部件15的輸出來校正字連接信息存儲部件16的存儲內容。另外,控制部件11根據字連接信息存儲部件16中存儲的字連接信息確定并輸出語音識別的最終結果。
例如,特征量存儲部件12存儲由控制部件11饋送的特征量序列,直到獲得用戶語音識別的結果為止??刂撇考?1把獲得特征提取部件3輸出的特征量的時間(此后如果必要稱之為提取時間)(此時語音區(qū)的起始時間設置為基準值(例如零))連同特征量一起饋送到特征量存儲部件12。特征量存儲部件12將特征量連同提取時間存儲起來。如果必要的話,初級字選擇部件13、匹配部件14和再評價部件15可參考這些存儲在特征量存儲部件12中的特征量和提取時間。
應匹配部件14的要求,初級字選擇部件13利用存儲在特征量存儲部件12中的特征量,如果必要還要通過參照字連接信息存儲部件16、聲模式數據庫17A、字典數據庫18A以及語法數據庫19A,為選擇一個或多個字執(zhí)行初級字選擇處理,其中這些字是匹配部件14進行匹配處理的字。
在控制部件11的控制下,匹配部件14利用存儲在特征量存儲部件12中的特征量,如果必要還要通過參照字連接信息存儲部件6、聲模式數據庫17B、字典數據庫18B以及語法數據庫19B,為在初級字選擇部件13中通過初級字選擇處理得到的字實施匹配處理,并將匹配處理結果饋送到控制部件11。
在控制部件11的控制下,再評價部件15利用存儲在特征量存儲部件12中的特征量,如果必要還要通過參照聲模式數據庫17C、字典數據庫18C以及語法數據庫19C,再評價存儲在字連接信息存儲部件16中的字連接信息,并將再評價結果饋送到控制部件11。
字連接信息存儲部件16存儲由控制部件11饋送的字連接信息,直至得到用戶的語音識別結果。
字連接信息表示字間的連接(鏈接或連結)關系,這些字構成作為語音識別最終候選結果的字串,字連接信息包括每個字的聲分數和語音分數,并包括對應于每個字的發(fā)音的起始時間和終止時間。
圖5利用圖形結構表示存儲在字連接信息存儲部件16中的字連接信息。
在圖5所示的實施例中,表示字連接信息的圖形結構由表示字的弧線(在圖5中用線段連接標記0表示的部分)和表示字間邊界的節(jié)點(在圖5中用標記0表示的部分)構成。
節(jié)點具有時間信息,它表示對應于該節(jié)點的特征量的提取時間。如上所述,提取時間表示獲得由特征提取部件3輸出的特征量的時間,其中語音區(qū)的起始時間設置為零。因此在圖5中,語音區(qū)的起始時間,即與第一個字的起始端相對應的節(jié)點Node1的時間信息是零。節(jié)點可以是弧線的起始端和終止端。用作起始端的節(jié)點(起始端節(jié)點)具有的時間信息和用作終止端的節(jié)點(終止端節(jié)點)具有的時間信息分別是對應于該節(jié)點的字發(fā)音的起始時間和終止時間。
在圖5中,時間從左向右變化。因此,在弧線左邊和右邊設置的節(jié)點中,左手邊節(jié)點作為起始端節(jié)點,右手邊節(jié)點作為終止端節(jié)點。
弧線具有與該弧線相對應的字的聲分數和語音分數?;【€通過將終止節(jié)點設定成起始節(jié)點而順序地連接,以便形成作為語音識別候選結果的字串。
更具體地說,控制部件11首先將對應于可能作為語音識別結果的字的弧線連接到表示語音區(qū)開始的節(jié)點Node1上。在圖5所示的實施例中,將對應于“kyou”的弧線Arc1、對應于“ii”的弧線Arc6以及對應于“tenki”的弧線Arc11連接到節(jié)點Node1上。根據匹配部件14獲得的聲分數和語言分數確定這些字是否可能作為語音識別的結果。
然后,以相同方式將對應于可能字的弧線連接到作為對應于“kyo”的弧線Arc1的終止端的節(jié)點Node2、作為對應于“ii”的弧線Arc6的終止端的節(jié)點Node7、以及作為對應于“tenki”的弧線Arc11的終止端的節(jié)點Node12上。
按照上述方式連接弧線,從左向右形成由弧線和節(jié)點構成的并以語音區(qū)開始作為起始端的一個或多個通道。例如,當所有通道到達語音區(qū)的終端(圖5所示實施例中的時間T)時,控制部件11積累聲分數和語言分數,獲得最終分數,該聲分數和語言分數是從語音區(qū)開始到語音區(qū)末端構成每個通道的弧線都具有的。將對應于構成具有最高最終分數通道的弧線的字序列確定為語音識別的結果,并將其輸出。
具體地說,在圖5中,例如,當獲得通道的最高最終分數時,將字序列“kyou”、“wa”、“ii”、“tenki”和“desune”作為語音識別的結果輸出,其中通道是由節(jié)點Node1,對應于“kyou”的弧線Arc1,節(jié)點Node2,對應于“wa”的弧線Arc2,節(jié)點Node3,對應于“ii”的弧線Arc3,節(jié)點Node4,對應于“tenki”的弧線Arc4,節(jié)點Node5、以及對應于“desune”的弧線Arc5,節(jié)點Node6構成在上面的情況中,弧線總是與語音區(qū)內設置的節(jié)點相連,以形成從語音區(qū)開始向語音區(qū)末端延伸的通道。在形成這種通道的過程中可能是這樣的當由分數明確了已形成的通道為該通道不適合作為語音識別結果時,就停止形成通道(不再連接弧線)。
根據上面通道的形成規(guī)則,一個弧線終止端作為下面將連接的一個或多個弧線的起始端節(jié)點,通道基本上形成為分支并向外發(fā)散。存在一種例外的情況,其中一個弧線的終止端與另一個弧線的終止端匹配,即一個弧線的終止端節(jié)點和另一個弧線的終止端共同作為同一節(jié)點。
當將雙字母組作為語法規(guī)則時,如果從不同節(jié)點延伸的兩條弧線對應于相同的字,并使用了字發(fā)音的相同終止時間,則兩條弧線的終止端匹配。
在圖5中,從節(jié)點Node7延伸的并作為起始端的弧線Arc7和從節(jié)點Node13延伸的并作為起始端的弧線Arc13都對應于“tenki”,并使用了相同的發(fā)音終止時間,則其終止節(jié)點共同作為同一節(jié)點Node8。
節(jié)點不總是共用也是可能的。在有效利用存儲容量的著眼點中,兩個終止節(jié)點最好是可以匹配的。
在圖5中,將雙字母組用作語法規(guī)則。甚至當使用其它規(guī)則(例如三字母組)時,也可能使用共用節(jié)點。
如果需要,初級字選擇部件13、匹配部件14以及再評價部件15都能參照字連接信息存儲部件16中存儲的字連接信息。
再回到圖4,如前所述,聲模式數據庫17A、17B和17C基本上存儲例如圖1所示的聲模式數據庫5中存儲的那些聲模式。
聲模式數據庫17B存儲高精度的聲模式,將提供比聲模式數據庫17A存儲的聲模式更高精度的處理。聲模式數據庫17C存儲高精度的聲模式,將提供比聲模式數據庫17B的聲模式更高精度的處理。更準確地說,例如,當聲模式數據庫17A存儲不依賴于每個音素和音節(jié)內容的單模型的聲模式時,聲模式數據庫17B存儲依賴延續(xù)字內容的聲模式(即縱橫組字模式)以及不依賴于內容的聲模式。在該情況下,例如,聲模式數據庫17C存儲不依賴于每個音素和音節(jié)內容和縱橫組字的聲模式之外的依賴于字內內容的聲模式。
字典數據庫18A、18B和18C基本上存儲例如上述圖1所示字典數據庫6中所存儲的字典。
具體地說,在字典數據庫18A到18C的字典中存儲了同一套字。字典數據庫18B的字典中存儲了高精度的音素信息,提供比字典數據庫18A的字典中存儲的音素信息更精確的處理。字典數據庫18C的字典中存儲了高精度的音素信息,提供比字典數據庫18B的字典中存儲的音素信息更精確的處理。更準確地說,例如,當字典數據庫18A的字典中為每個字僅存儲一條音素信息(讀音)時,在字典數據庫18B的字典中為每個字存儲多條音素信息。例如,在該情況下,在字典數據庫18C的字典中為每個字存儲更多條音素信息。
具體地說,例如,對于字“ohayou”,在字典數據庫18A的字典中存儲一條音素信息“ohayou”,而在字典數據庫18B的字典中存儲多條音素信息“ohayoo”和“ohayo”以及“ohayou”,并在字典數據庫18C的字典中存儲除“ohayou”“ohayoo”和“ohayo”以外的音素信息“hayou”和“hayoo”。
語法數據庫19A、19B和19C基本上存儲例如上述圖1所示語法數據庫7中所存儲的語法數據。
語法數據庫19B存儲了高精度的語法規(guī)則,提供比語法數據庫19A中存儲的語法規(guī)則更精確的處理。語法數據庫19C存儲了高精度的語法規(guī)則,提供比語法數據庫19B中存儲的語法規(guī)則更精確的處理。更準確地說,例如,當語法數據庫19A存儲基于單字母組(字的出現概率)的語法規(guī)則時,例如,語法數據庫19B存儲雙字母組(字的出現概率,并考慮到與此前迅速處理的字的關系)。在該情況下,例如,語法數據庫19C存儲基于三字母組的語法規(guī)則(字的出現概率,并考慮到與此前迅速處理的字以及前方多于一個處理的字的關系)和上下文無關的語法。
如上所述,聲模式數據庫17A為每個音素和音節(jié)存儲單模型的聲模式,聲模式數據庫17B為每個音素和音節(jié)存儲多模型的聲模式,而聲模式數據庫17C為每個音素和音節(jié)存儲更多模型的聲模式。字典數據庫18A為每個字存儲一條音素信息,字典數據庫18B為每個字存儲多條音素信息,而字典數據庫18C為每個字存儲更多條音素信息。語法數據庫19A存儲簡單語法規(guī)則,語法數據庫19B存儲高精度的語法規(guī)則,而語法數據庫19C存儲更高精度的語法規(guī)則。
參考聲模式數據庫17A、字典數據庫18A和語法數據庫19A的初級字選擇部件13迅速為許多字獲得聲分數和語言分數,盡管其精度不高。參照聲模式數據庫17B、字典數據庫18B和語法數據庫19B的匹配部件14迅速為一定數量的字獲得聲分數和語言分數,并具有高精度。參照聲模式數據庫17C、字典數據庫18C和語法數據庫19C的再評價部件15迅速為幾個字獲得聲分數和語言分數,并具有較高精度。
在上面的描述中,聲模式數據庫17A到17C中存儲的聲模式的精度是不同的。聲模式數據庫17A到17C能存儲相同的聲模式。在該情況下,可將聲模式數據庫17A到17C合并為一個聲模式數據庫。同樣地,字典數據庫18A到18C的字典可存儲相同內容,而語法數據庫19A到19C可存儲相同語法規(guī)則。
參照圖6所示的流程圖,將對由圖4所示語音識別裝置執(zhí)行的語音識別處理進行下面的描述。
當用戶發(fā)聲時,所發(fā)出的語音通過傳聲器1和AD轉換器2轉換成數字語音,并被饋送到特征量提取部件3。特征量提取部件3從幀單元中饋送的語音數據中順序地提取語音特征量,并將它饋送到控制部件11。
控制部件11通過某些技術識別語音區(qū),將由特征提取部件3饋送的特征量序列與語音區(qū)中每個特征量的提取時間聯(lián)系起來,并將它們饋送到特征量存儲部件12,并將其存儲于此。
在語音區(qū)開始后,在步驟S1中控制部件11也產生表示語音區(qū)起始的節(jié)點(此后如果必要稱之為初始節(jié)點),然后將其饋送到字連接信息存儲部件16并將其存儲于此。換句話說,在步驟S1中,控制部件11在字連接信息存儲部件16中存儲圖5所示的節(jié)點Node1。
處理進行到步驟S2??刂撇考?1通過參考在字連接信息存儲部件16中存儲的字連接信息確定中間節(jié)點是否存在。
如上所述,在圖5所示的字連接信息中,這些弧被連接于終止端節(jié)點,形成從語音區(qū)起始端到末端延伸的通道。在步驟S2中,從終止端節(jié)點中搜索還未連接弧線并且也未到達語音區(qū)的末端的成為中間節(jié)點的節(jié)點,(例如圖5中的節(jié)點Node8、Node10和Node11),并確定這樣的中間節(jié)點是否存在。
如上所述,通過一些技術識別語音區(qū),并通過參照終止端節(jié)點具有的時間信息識別與終止端節(jié)點相對應的時間。因此,通過將語音區(qū)的終止時間與終止端節(jié)點具有的時間信息作比較,確定還未連接弧線的終止端節(jié)點是否未到達語音區(qū)的末端。
在當步驟S2中確定存在中間節(jié)點時,處理進行到步驟S3??刂撇考?1從字連接信息所含的中間節(jié)點中選擇一個節(jié)點作為節(jié)點(此后如果必要稱之為目標節(jié)點),以便確定用作與該節(jié)點連接的弧線的字。
具體地說,當字連接信息中僅包含一個中間節(jié)點時,控制部件11選擇該中間節(jié)點作為目標節(jié)點。當字連接信息中包含多個中間節(jié)點時,控制部件11就選擇多個中間節(jié)點中的一個作為目標節(jié)點。更準確地說,控制部件11參照多個中間節(jié)點中每一個所具有的時間信息,選擇具有代表最先時間(最接近于語音區(qū)的起始端)的時間信息的節(jié)點作為目標節(jié)點,或具有代表最新時間(最接近于語音區(qū)的末端)的時間信息的節(jié)點作為目標節(jié)點??梢赃x擇的是,例如,控制部件11積累聲分數和語言分數,該聲分數和語言分數是構成從初始節(jié)點延伸到多個中間節(jié)點中的每一個節(jié)點的通道的弧線所具有的,控制部件11選擇設置在通道終止端的中間節(jié)點,該通道終止端具有最大積累值(此后如果必要稱之為局部積累值)或最小積累值。
然后,控制部件11為執(zhí)行匹配處理而向匹配部件14和再評價部件15輸出指令(此后如果必要稱之為匹配處理指令),其中,執(zhí)行匹配處理時目標節(jié)點所具有的時間信息用作起始時間。
當再評價部件15接到來自控制部件11的匹配處理指令時,處理進行到步驟S4。通過參照字連接信息存儲部件16,再評價部件15識別構成從初始節(jié)點延伸到目標節(jié)點的通道(此后稱之為局部通道)的弧線所表示的字串(此后稱之為局部字串),以便再評價局部字串。如下面所述,局部字串是作為語音識別的候選結果字串的中間結果,該中間結果是通過匹配部件14對初級字選擇部件13所初級選擇的字進行匹配處理而獲得的。再評價部件15再次評價該中間結果。
具體地說,再評價部件15從特征量存儲部件12讀取對應于局部字串的特征量序列,以便為局部字串再計算聲分數和語言分數。更準確地說,例如,再評價部件15從特征量存儲部件12讀取有關一定時間的特征量的序列(特征量序列),該時間是從由初始節(jié)點、局部通道的起始節(jié)點具有的時間信息所表示的時間到由目標節(jié)點具有的時間信息所表示的時間。另外,再評價部件15參照聲模式數據庫17C、字典數據庫18C和語法數據庫19C,并利用從特征量存儲部件12讀取的特征量序列,為局部字串再計算語言分數和聲分數。執(zhí)行該再計算而不會固定構成局部字串的字的字邊界。因此,依據動態(tài)程序法,再評價部件15通過為局部字串再計算語言分數和聲分數而確定構成局部字串的字的字邊界。
當再評價部件15獲得局部字串的每個字的語言分數、聲分數和字邊界時,再評價部件15使用新的語言分數和聲分數來校正語言分數和聲分數,該語言分數和聲分數是字連接信息存儲部件16中存儲的、構成對應于局部字串的局部通道的弧線所具有的,再評價部件15還利用新字邊界來校正時間信息,該時間信息是字連接信息存儲部件16中存儲的、構成對應于局部字串的局部通道的節(jié)點所具有的。在該實施例中,再評價部件15通過控制部件11來校正字連接信息。
例如,當將圖7所示的節(jié)點Node5設定為目標節(jié)點,如果一個字串“ii”和“tenki”由節(jié)點Node3、對應于字“ii”的弧線Arc3、節(jié)點Node4、對應于字“tenki”的弧線Arc4和Node5構成,并且如果在從初始節(jié)點Node1到目標節(jié)點Node5延伸的局部通道內檢測到該字串“ii”和“tenki”,則再評價部件15就通過參照聲模式數據庫17C和字典數據庫18C,并利用從對應于節(jié)點Node3的時間到對應于節(jié)點Node5的時間的特征量序列,產生字“ii”和“tenki”的字模式,并計算聲分數。通過參照語法數據庫19C,再評價部件1 5也為字“ii”和“tenki”計算語言分數。更準確地說,例如,當語法數據庫19C存儲了基于三字母組的語法規(guī)則時,再評價部件15為字“ii”使用在該字之前迅速處理的字“wa”和該字前方隔一個處理的字“kyou”,以便以該順序計算字鏈“kyou”、“wa”和“ii”的概率,再評價部件15還根據所得到的概率計算語言分數。再評價部件15為字“tenki”使用在該字之前迅速處理的字“ii”和該字前方隔一個處理的字“wa”,以便以該順序計算字鏈“wa”、“ii”和“tenki”的概率,再評價部件15還根據所得到的概率計算語言分數。
再評價部件15積累上述獲得的聲分數和語言分數,并確定字“ii”和字“tenki”之間的字邊界,以便得到最大積累值。再評價部件15利用所獲得的聲分數和語言分數來校正與字“ii”對應的弧線Arc3和與字“tenki”對應的弧線Arc4所具有的聲分數和語言分數,再評價部件15還利用所確定的字邊界來校正與字“ii”和“tenki”之間的邊界相對應的節(jié)點Node4所具有的時間信息。
因此,再評價部件15通過動態(tài)程序法確定構成局部字串的字的字邊界,并順序地校正字連接信息存儲部件16中存儲的字連接信息。由于初級字選擇部件13和匹配部件14通過參照經校正的字連接信息執(zhí)行處理過程,因此處理的精度和可靠性得以提高。
另外,由于再評價部件15校正了字連接信息中所包含的字邊界,因此字連接信息中要存儲的候選字邊界數量可大大減少,以便有效利用存儲容量。
換句話說,按照慣例,如前面參照圖2所述,需要將三個時間t1-1、t1和t1-1保存為字“kyou”和“wa”之間的候選字邊界。如果作為正確字邊界的時間t1被錯誤地保存,此后的匹配處理就會受到不利影響。相反,當再評價部件15順序地校正了字邊界,例如,即使僅保存了作為錯誤字邊界的時間t1-1,再評價部件15也會將作為錯誤字邊界的時間t1-1變?yōu)檎_字邊界的時間t1。由此,此后的匹配處理就不會受到不利影響。
再評價部件15利用顧及到在目標字之前和之后處理的字的縱橫組字模式,為構成局部字串的字(除了第一個和最后一個字)計算聲分數。在計算語言分數時也要顧及到在目標字之前和之后處理的字。因此,使高精度處理成為可能。進一步說,由于再評價部件順序地執(zhí)行處理,因此就不會發(fā)生前述的在兩次解碼過程中產生大量延遲。
如上所述,當再評價部件15校正了字連接信息存儲部件16中存儲的字連接信息時,再評價部件15就通過控制部件11向匹配部件14報告校正完成。
如上所述,在匹配部件14收到來自控制部件11的匹配處理指令后,當再評價部件15通過控制部件11向匹配部件14報告已經校正了字連接信息時,匹配部件14就向初級字選擇部件13饋送目標節(jié)點和該目標節(jié)點所具有的時間信息,并要求實施初級字選擇處理,處理進行到步驟S5。
在步驟S5中,當初級字選擇部件13接收到來自匹配部件14的初級字選擇處理請求時,初級字選擇部件13為了選擇用作連接目標節(jié)點的弧線的候選字而對字典數據庫18A字典中存儲的字實施初級字選擇處理。
更準確地說,初級字選擇部件13從目標節(jié)點所具有的時間信息中識別用于計算語言分數和聲分數的特征量序列的起始時間,并從特征量存儲部件12讀取從該起始時間開始的所需特征量序列。初級字選擇部件13還通過結合聲模式數據庫17A中存儲的聲模式,為字典數據庫18A的字典中存儲的每個字產生一個字模式,它還依據字模式,通過利用從特征量存儲部件12讀取的特征量序列計算聲分數。
初級字選擇部件13依據語法數據庫19A中存儲的語法規(guī)則,計算對應于每個字模式的字的語言分數。具體地說,例如,初級字選擇部件13依據單字母組獲得每個字的語言分數。
這樣做是可能的,即初級字選擇部件13利用依據目標字之前迅速處理的字(該字對應于具有作為終端(末端)的目標節(jié)點的弧線))的縱橫組字模式,以便通過參照字連接信息計算每個字的聲分數。
這樣做也是可能的,即初級字選擇部件13依據表示目標字和此前處理的字的鏈接概率的雙字母組,通過參照字連接信息來計算每個字的語言分數。
如上所述,當初級字選擇部件13獲得每個字的聲分數和語言分數時,初級字選擇部件13就獲得了作為聲分數和語言分數的整體評價的分數(此后如果必要稱之為字分數),并將具有較高字分數的L字作為要實施匹配處理的字饋送到匹配部件14。
初級字選擇部件13依據成為每個字語言分數和聲分數的整體評價的字分數選擇一個字。例如,初級字選擇部件13只依據聲分數或只依據語言分數來選擇字也是可能的。
這樣做也是可能的,即初級字選擇部件13僅利用從特征量存儲部件12讀取的特征量序列的起始部分,并依據聲模式數據庫17中存儲的聲模式獲得相應字起始部分的幾個音素,并選擇字,其中,這些字的起始部分與所獲得的音素匹配。
這樣做更是可能的,即初級字選擇部件13通過參照字連接信息識別在目標字之前迅速處理的字(該字對應于具有目標節(jié)點作為終止端節(jié)點的弧線)的語音部分,并選擇可能緊跟所識別的語音部分之后的字作為語音的一部分。
初級字選擇部件13可利用任何字選擇方法。最終,字隨機地得以選擇。
當匹配部件14從初級字選擇部件13接收到用于匹配處理的L字(此后稱之為選定字)時,在步驟S6中匹配部件14對選定字實施匹配處理。
具體地說,匹配部件14從目標節(jié)點具有的時間信息中識別用于計算語言分數和聲分數的特征量序列的起始時間,并從特征量存儲部件12讀取由起始時間開始的所需特征量序列。匹配部件14通過參照字典數據庫18B識別由初級字選擇部件13饋送的選定字的音素信息,并從聲模式數據庫17B讀取與音素信息相應的聲模式,再結合這些聲模式形成字模式。
匹配部件14依據上述形成的字模式,通過利用從特征量存儲部件12讀取的特征量序列,計算由初級字選擇部件13饋送的選定字的聲分數。這樣做是可能的,即匹配部件14依據縱橫組字模式,通過參照字連接信息計算選定字的聲分數。
匹配部件14還可通過參照語法數據庫19B計算由初級字選擇部件13饋送的選定字的語言分數。具體地說,例如,匹配部件14參照字連接信息,以便識別由初級字選擇部件13饋送的選定字之前或此前隔一個字的迅速處理的字,并通過利用基于雙字母組或三字母組的概率獲得由初級字選擇部件13饋送的選定字的語言分數。
如上所述,匹配部件14獲得由初級字選擇部件13饋送的所有L選定字的聲分數和語言分數,處理進行到步驟S7。在步驟S7中,為每個選定字獲得字分數,該字分數是該字的聲分數和語言分數的整體評價,并依據所獲得的字分數修正字連接信息存儲部件16中存儲的字連接信息。
換句話說,例如,在步驟S7中,匹配部件14獲得選定字的字分數,并將該字分數與預定閾值比較,以便將選定字的范圍縮小到用作連接目標節(jié)點的弧線的字。然后,匹配部件14將通過縮小范圍得到的字連同其聲分數、其語言分數和其終止時間饋送到控制部件11。
匹配部件14從用于計算聲分數的特征量的提取時間中識別每個字的終止時間。當得到多個很可能作為字終止時間的提取時間時,將由字的每個終止時間、相應聲分數和相應語言分數組成的多套信息饋送到控制部件11。
如上所述,當控制部件11從匹配部件14接收到每個字的聲分數、語言分數和終止時間時,對于每個字,控制部件將字連接信息存儲部件16中存儲的字連接信息(圖5)中的目標節(jié)點作為起始端,延伸出弧線,并將該弧線連接到對應于終止時間的終止端節(jié)點上。控制部件11還為每條弧線分配相應字、相應聲分數和相應語言分數,并為每條弧線的終止端節(jié)點給出相應的終止時間作為時間信息。然后,處理過程返回到步驟S2,再重復進行相同的處理。
如上所述,依據匹配部件14中執(zhí)行的處理結果,順序地修正字連接信息,進一步說,由再評價部件15順序地修正。因此,這使初級字選擇部件13和匹配部件14總是為其處理使用字連接信息成為可能。
如上所述,當修正字連接信息時,如果可能,控制部件11就將兩個終止端節(jié)點合并成一個。
當步驟S2中確定沒有中間節(jié)點時,處理進行到步驟S8。控制部件11參照字連接信息,為字連接信息中形成的每條通道積累字分數,以便獲得最終分數,并輸出與構成該通道的弧線相相應的字串作為用戶發(fā)音的語音識別結果,其中該通道具有最高的最終分數,然后結束處理。
如上所述,初級字選擇部件13選擇一個或多個具有后隨字的字,該具有后隨字的字是從作為語音識別候選結果的字串中得到的;匹配部件14為選定字計算分數,并根據該分數形成作為語音識別的候選結果的字串;再評價部件15校正作為語音識別候選結果的字串中的字之間的字連接關系;控制部件11依據經校正的字連接關系確定作為語音識別結果的字串。由此就完成了高精度的語音識別,同時抑制了處理所需資源的增加。
由于再評價部件15校正了字連接信息中的字邊界,因此目標節(jié)點所具有的時間信息就高精度地代表了字邊界。初級字選擇部件13和匹配部件14通過利用從由高精度時間信息表示的時間開始的特征量序列執(zhí)行處理。因此,即使當嚴格制定了初級字選擇部件13中用于選擇字的確定標準和匹配部件14中為縮小選定字范圍而確定的標準時,將作為語音識別結果的準確字排除在外的可能性也是很低的。
當嚴格制定了初級字選擇部件13中用于選擇字的確定標準時,就減少了匹配部件14用于實施匹配處理的字數。結果,匹配部件14中處理所需的計算量和存儲容量也被減少。
當初級字選擇部件13未選擇到從某一時間開始的字(該字是構成作為語音識別正確結果的字串中的一個字)時,此時,如果在從某一時間漂移的錯誤時間內選擇到該字,則再評價部件15就會校正該錯誤時間,然后得到了作為語音識別正確結果的字串。換句話說,即使初級字選擇部件13未能選擇到構成作為語音識別正確結果的字串中的一個字,再評價部件15就校正該失敗的選擇,從而獲得作為語音識別正確結果的字串。
因此,再評價部件15除校正由匹配部件14執(zhí)行的終止時間的錯誤檢測外,還校正由初級字選擇部件13執(zhí)行的錯誤字選擇。
上述一系列處理能通過硬件或軟件得以實現。當通過軟件完成該系列的處理時,將構成軟件的程序安裝到通用計算機和類似裝置內。
圖8表示依據該實施例的計算機示例結構,其中計算機安裝了上述用于執(zhí)行系列處理的程序。
可提前將該程序記錄到計算機內設置的作為記錄介質的硬盤或只讀存儲器(ROM)103上。
可選擇的是,可將程序臨時或永久在記錄到可更換的記錄介質111上,例如軟盤、光盤只讀存儲器(CD-ROM)、磁光(MO)盤、數字通用盤(DVD)、磁盤或半導體存儲器。這些可更換的記錄介質111可制備成所謂的軟件包。
可將程序從上述可更換記錄介質111安裝到計算機上??蛇x擇地是,可通過用于數字衛(wèi)星廣播的人造衛(wèi)星用無線電將程序從下載站傳輸到計算機上,或通過例如為局域網(LAN)或Internet網絡用線路傳輸到計算機上;該程序由計算機的通信部分108接收,并被安裝到計算機內設置的硬盤105中。
計算機包括一個中央處理器(CPU)102。CPU102通過總線101與輸入和輸出接口110連接。當用戶操作由鍵盤、鼠標和傳聲器構成的輸入部件107并通過輸入和輸出接口110輸入命令時,CPU102依照該命令執(zhí)行ROM103中存儲的程序??蛇x擇的是,CPU102將硬盤105中存儲的程序存入隨機存取存儲器(RAM)104;程序通過衛(wèi)星或網絡傳輸,由通信部分108接收,并被安裝到硬盤105上;或程序可從設置到驅動器109的可更換記錄介質111讀取,并被安裝到硬盤105中;并執(zhí)行該程序。CPU執(zhí)行在上述流程圖中表示的處理過程,或由上面的方框圖所示的結構執(zhí)行該處理。然后,CPU102通過例如輸入和輸出接口110,從由液晶顯示器(LCD)和話筒構成的輸出部件106輸出所需的處理結果;從通信部分108饋送處理結果;或在硬盤105內記錄處理結果。
在該說明書中,以流程圖所述順序的時序編排方式描述使計算機執(zhí)行不同類型處理的程序的步驟不是必需執(zhí)行的,它還包括并行或獨立執(zhí)行的處理(例如并行處理或基于對象的處理)。
可通過一臺計算機執(zhí)行或通過多臺計算機分布式處理執(zhí)行程序。也可將程序傳輸到遠程計算機執(zhí)行。
如上所述,由于通過初級字選擇部件13預先選擇了匹配部件14將計算分數的字,因此匹配部件14能為每個字獨立地計算分數,而不會形成樹形結構網,在該樹形結構網中會共用部分聲分數。在該情況下,匹配部件14為每個字計算分數所用的存儲容量被抑制到很低的水平。另外,在該情況下,由于在開始字分數計算時為每個字作了評價,因此就防止了無用的計算,否則會因為沒有評價字而執(zhí)行無用的計算。換句話說,在為字計算聲分數之前,就計算語言分數,并依據該語言分數執(zhí)行分支切割,由此防止了無用的聲分數計算。
初級字選擇部件13、匹配部件14和再評價部件15能依據時間獨立地為每個字計算分數。在該情況下,能夠共用計算分數所需的同一存儲器,以便將所需的存儲容量抑制到很低水平。
圖4所示的語音識別裝置能用于語音接口系統(tǒng),該系統(tǒng)可用于通過語音搜索數據庫的情況、通過語音操作多種類型元件的情況、以及通過語音向每個元件輸入數據的情況。更準確地說,例如,語音識別裝置可用于通過語音響應地名查詢而顯示地圖信息的數據庫搜尋裝置、通過語音響應指令來分選材料的工業(yè)機器人、代表鍵盤輸入而響應語音輸入產生原文本的口授(命令)系統(tǒng)、以及機器人中與用戶對話的接口系統(tǒng)。
根據本發(fā)明的語音識別裝置和語音識別方法以及記錄介質,可從要進行語音識別的一組字中選擇一個或多個字,將其作為具有后隨字的字,該具有后隨字的字是在作為語音識別候選結果的字串中得到的;為每個選定字計算分數;以及形成作為語音識別候選結果的字串。校正作為語音識別候選結果的字串中的字之間的連接關系,并依據經校正的連接關系確定作為語音識別結果的字串。由此,就完成了高精度的語音識別,同時抑制了進行處理所需資源的增加。
權利要求
1.一種語音識別裝置,它用于計算表示對輸入語音實施語音識別的結果的可能性的分數,并用于依據該分數識別語音,它包括選擇裝置,用于從要實施語音識別的一組字中選擇一個或多個具有后隨字的字,該具有后隨字的字是在作為語音識別候選結果的字串中得到的;形成裝置,用于為選擇裝置所選擇的字計算分數,并依據該分數形成作為語音識別候選結果的字串;存儲裝置,用于存儲作為語音識別候選結果的字串中的字之間的字連接關系;校正裝置,用于校正字連接關系;以及確定裝置,用于根據經校正的字連接關系確定作為語音識別結果的字串。
2.根據權利要求1所述的語音識別裝置,其中存儲裝置通過利用由節(jié)點和弧線表示的圖形結構來儲存連接關系。
3.根據權利要求1所述的語音識別裝置,其中存儲裝置存儲共用為一個節(jié)點的節(jié)點。
4.根據權利要求1所述的語音識別裝置,其中存儲裝置存儲每個字的聲分數和語言分數、對應于每個字發(fā)音的起始時間和終止時間、以及字之間的連接關系。
5.根據權利要求1所述的語音識別裝置,其中,形成裝置通過將正計算分數的字連接到已經計算了分數的字上,形成作為語音識別候選結果的字串,以及每當形成裝置連接一個字,校正裝置就順序地校正連接關系。
6.根據權利要求1所述的語音識別裝置,其中選擇裝置和形成裝置中的一個參照連接關系執(zhí)行處理。
7.根據權利要求1所述的語音識別裝置,其中選擇裝置、形成裝置和校正裝置中的一個為一字計算聲或語言分數,并依據該聲或語言分數執(zhí)行處理。
8.根據權利要求7所述的語音識別裝置,其中選擇裝置、形成裝置和校正裝置中的一個獨立地為每個字計算聲或語言分數。
9.根據權利要求7所述的語音識別裝置,其中選擇裝置、形成裝置和校正裝置中的一個依照時間獨立地為每個字計算聲或語言分數。
10.根據權利要求7所述的語音識別裝置,其中校正裝置通過參照顧及到在正計算分數的字之前或之后處理的字的連接關系,為該字計算聲或語言分數。
11.一種語音識別方法,它用于計算表示對輸入語音實施語音識別的結果的可能性的分數,并用于依據該分數識別語音,它包括選擇步驟,從要進行語音識別的一組字中選擇一個或多個具有后隨字的字,該具有后隨字的字是在作為語音識別候選結果的字串中得到的;形成步驟,為選擇步驟中選擇的字計算分數,并依據該分數形成作為語音識別候選結果的字串;校正步驟,校正作為語音識別候選結果的字串中字之間的字連接關系,字連接關系存儲在存儲裝置中;以及確定步驟,依據經校正的字連接關系確定作為語音識別結果的字串。
12.一種存儲程序的存儲介質,該程序使計算機執(zhí)行語音識別處理,它用于計算表示對輸入的語音實施語音識別的結果的可能性的分數,并能依據該分數識別語音,該程序包括選擇步驟,從要實施語音識別的一組字中選擇一個或多個具有后隨字的字,該具有后隨字的字是在作為語音識別候選結果的字串中得到的;形成步驟,為選擇步驟中選擇的字計算分數,并依據該分數形成作為語音識別候選結果的字串;校正步驟,校正作為語音識別候選結果的字串中字之間的字連接關系,字連接關系存儲在存儲裝置中;以及確定步驟,依據經校正的字連接關系確定作為語音識別結果的字串。
全文摘要
初級字選擇部件選擇一個或多個具有后隨字的字,該具有后隨字的字是在作為語音識別候選結果的字串中得到的;匹配部件為選定的字計算聲或語音分數,并依據該分數形成作為語音識別候選結果的字串??刂撇考a生作為語音識別候選結果的字串中的字之間的字連接關系,并將它們饋送到字連接信息存儲部件,將它們存儲在此。再評價部件校正字連接信息存儲部件16中存儲的字連接信息,以及控制部件依據經校正的字連接關系確定作為語音識別結果的字串。
文檔編號G10L15/00GK1312543SQ0111688
公開日2001年9月12日 申請日期2001年2月28日 優(yōu)先權日2000年2月28日
發(fā)明者南野活樹, 淺野康治, 小川浩明, 赫爾穆特·勒克 申請人:索尼公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1