本發(fā)明是有關(guān)于一種語音識別技術(shù),且特別是有關(guān)于一種語音識別方法、電子裝置及語音識別系統(tǒng)。
背景技術(shù):
隨著通信技術(shù)的進(jìn)步,和語音識別相關(guān)的許多應(yīng)用技術(shù)也逐漸成為在設(shè)計(jì)電子產(chǎn)品時(shí)不可或缺的項(xiàng)目之一,讓使用者能夠直接利用語音輸入取代文字輸入來與電子裝置進(jìn)行溝通。語音識別(speechrecognition)目標(biāo)是以電腦自動(dòng)將人類的語音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字。語音識別技術(shù)的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。
對于本地端裝置使用的電子裝置而言,由于本地端裝置中并未建置語音識別用的數(shù)據(jù)庫,因此,目前傳統(tǒng)作法是通過網(wǎng)絡(luò)服務(wù),而由遠(yuǎn)端的服務(wù)器來進(jìn)行語音識別。故,在網(wǎng)絡(luò)覆蓋率不佳的區(qū)域便無法離線來使用語音識別的功能。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種語音識別方法、電子裝置及語音識別系統(tǒng)。
本發(fā)明的語音識別方法,包括:自輸入裝置接收到音頻數(shù)據(jù)之后,判斷本地端裝置是否連線至網(wǎng)際網(wǎng)絡(luò),其中本地端裝置包括音頻數(shù)據(jù)庫以及結(jié)果數(shù)據(jù)庫,音頻數(shù)據(jù)庫存儲(chǔ)多個(gè)歷史音頻數(shù)據(jù),結(jié)果數(shù)據(jù)庫存儲(chǔ)與上述音頻數(shù)據(jù)相關(guān)聯(lián)的多個(gè)歷史文本數(shù)據(jù);當(dāng)判定本地端裝置連線至網(wǎng)際網(wǎng)絡(luò)時(shí),傳送音頻數(shù)據(jù)至遠(yuǎn)端服務(wù)器,以執(zhí)行線上分析而獲得文本分析結(jié)果;以及當(dāng)判定本地端裝置未連線至網(wǎng)際網(wǎng)絡(luò)時(shí),執(zhí)行離線分析。上述執(zhí)行離線分析的步驟包括:將所接收的音頻數(shù)據(jù)與存儲(chǔ)在音頻數(shù)據(jù)庫中的各歷史音頻數(shù)據(jù)進(jìn)行聲紋比對,以獲得對應(yīng)的其中一個(gè)歷史音頻數(shù)據(jù);以及依據(jù)所獲得的其中一個(gè) 歷史音頻數(shù)據(jù),自本地端裝置的結(jié)果數(shù)據(jù)庫取出相關(guān)聯(lián)的其中一個(gè)歷史文本數(shù)據(jù)。在此,所述歷史文本數(shù)據(jù)是預(yù)先經(jīng)由線上分析而自遠(yuǎn)端服務(wù)器獲得。
本發(fā)明的電子裝置,包括:輸入裝置,接收音頻數(shù)據(jù);音頻數(shù)據(jù)庫,存儲(chǔ)多個(gè)歷史音頻數(shù)據(jù);結(jié)果數(shù)據(jù)庫,存儲(chǔ)與上述音頻數(shù)據(jù)相關(guān)聯(lián)的多個(gè)歷史文本數(shù)據(jù);通信單元,連線至網(wǎng)際網(wǎng)絡(luò);處理器,耦接至輸入裝置、音頻數(shù)據(jù)庫、結(jié)果數(shù)據(jù)庫以及通信單元。在自輸入裝置接收到音頻數(shù)據(jù)之后,處理器判斷通信單元是否連線至網(wǎng)際網(wǎng)絡(luò)。當(dāng)判定通信單元連線至網(wǎng)際網(wǎng)絡(luò)時(shí),處理器通過通信單元傳送音頻數(shù)據(jù)至遠(yuǎn)端服務(wù)器,以執(zhí)行線上分析而獲得文本分析結(jié)果。當(dāng)判定通信單元未連線至網(wǎng)際網(wǎng)絡(luò)時(shí),處理器執(zhí)行離線分析,包括:將所接收的音頻數(shù)據(jù)與存儲(chǔ)在音頻數(shù)據(jù)庫中的各歷史音頻數(shù)據(jù)進(jìn)行聲紋比對,以獲得對應(yīng)的其中一個(gè)歷史音頻數(shù)據(jù);并且依據(jù)所獲得的其中一個(gè)歷史音頻數(shù)據(jù),自結(jié)果數(shù)據(jù)庫取出相關(guān)聯(lián)的其中一個(gè)歷史文本數(shù)據(jù)。在此,所述歷史文本數(shù)據(jù)是預(yù)先經(jīng)由線上分析而自遠(yuǎn)端服務(wù)器獲得。
本發(fā)明還包括一語音識別系統(tǒng),包括:本地端裝置以及遠(yuǎn)端服務(wù)器。本地端裝置包括:輸入裝置,接收音頻數(shù)據(jù);音頻數(shù)據(jù)庫,存儲(chǔ)多個(gè)歷史音頻數(shù)據(jù);結(jié)果數(shù)據(jù)庫,存儲(chǔ)與上述歷史音頻數(shù)據(jù)相關(guān)聯(lián)的多個(gè)歷史文本數(shù)據(jù);第一通信單元,連線至網(wǎng)際網(wǎng)絡(luò);第一處理器,耦接至輸入裝置、音頻數(shù)據(jù)庫、結(jié)果數(shù)據(jù)庫以及第一通信單元,其中,在自輸入裝置接收到音頻數(shù)據(jù)之后,第一處理器判斷第一通信單元是否連線至網(wǎng)際網(wǎng)絡(luò)。遠(yuǎn)端服務(wù)器包括:第二通信單元,連線至網(wǎng)際網(wǎng)絡(luò);以及第二處理器,耦接至第二通信單元,對音頻數(shù)據(jù)進(jìn)行語音轉(zhuǎn)文本識別。當(dāng)?shù)谝惶幚砥髋卸ǖ谝煌ㄐ艈卧B線至網(wǎng)際網(wǎng)絡(luò)時(shí),第一處理器通過第一通信單元傳送音頻數(shù)據(jù)至遠(yuǎn)端服務(wù)器,以執(zhí)行線上分析而獲得文本分析結(jié)果。當(dāng)?shù)谝惶幚砥髋卸ǖ谝煌ㄐ艈卧催B線至網(wǎng)際網(wǎng)絡(luò)時(shí),第一處理器執(zhí)行離線分析,包括:將所接收的音頻數(shù)據(jù)與存儲(chǔ)在音頻數(shù)據(jù)庫中的各歷史音頻數(shù)據(jù)進(jìn)行聲紋比對,以獲得對應(yīng)的其中一個(gè)歷史音頻數(shù)據(jù);并且依據(jù)所獲得的其中一個(gè)歷史音頻數(shù)據(jù),自結(jié)果數(shù)據(jù)庫取出相關(guān)聯(lián)的其中一個(gè)歷史文本數(shù)據(jù)。在此,所述歷史文本數(shù)據(jù)是預(yù)先經(jīng)由線上分析而自遠(yuǎn)端服務(wù)器獲得。
基于上述,在連線至網(wǎng)際網(wǎng)絡(luò)的情況下,由遠(yuǎn)端服務(wù)器執(zhí)行線上分析,并且持續(xù)搜集歷史音頻數(shù)據(jù)與歷史文本數(shù)據(jù)。據(jù)此,在未連線至網(wǎng)際網(wǎng)絡(luò)的情況下,本地端裝置基于所搜集的歷史數(shù)據(jù)來執(zhí)行離線分析。
為讓本發(fā)明的上述特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉實(shí)施例,并配合附圖作詳細(xì)說明如下。
附圖說明
圖1是依照本發(fā)明一實(shí)施例的語音識別系統(tǒng)的方塊圖;
圖2是依照本發(fā)明一實(shí)施例的語音識別方法的流程圖;
圖3是依照本發(fā)明一實(shí)施例的建立離線用數(shù)據(jù)庫的方法流程圖。
具體實(shí)施方式
一般傳統(tǒng)的語音識別系統(tǒng)架構(gòu)僅提供線上分析,即,通過輸入裝置搜集音頻數(shù)據(jù),經(jīng)由網(wǎng)絡(luò)服務(wù)進(jìn)行運(yùn)算后回傳分析結(jié)果,因此在離線狀態(tài)下便無法來執(zhí)行語音識別。為此,本發(fā)明提出一種并存于連網(wǎng)與非連網(wǎng)狀態(tài)下的語音識別方法、電子裝置及語音識別系統(tǒng)。為了使本申請的內(nèi)容更為明瞭,以下特舉實(shí)施例作為本申請確實(shí)能夠據(jù)以實(shí)施的范例。
圖1是依照本發(fā)明一實(shí)施例的語音識別系統(tǒng)的方塊圖。請參照圖1,語音識別系統(tǒng)100包括本地端裝置a、遠(yuǎn)端服務(wù)器b以及網(wǎng)際網(wǎng)絡(luò)c。本地端裝置a通過網(wǎng)際網(wǎng)絡(luò)c與遠(yuǎn)端服務(wù)器b連接。
本地端裝置a可以是個(gè)人電腦、筆記本電腦、平板電腦、智能手機(jī)、導(dǎo)航裝置、車用電子裝置等具有運(yùn)算能力的電子裝置。本地端裝置a包括第一處理器110、輸入裝置120、音頻數(shù)據(jù)庫130、結(jié)果數(shù)據(jù)庫140以及第一通信單元150。第一處理器110耦接至上述輸入裝置120、音頻數(shù)據(jù)庫130、結(jié)果數(shù)據(jù)庫140以及第一通信單元150。上述音頻數(shù)據(jù)庫130與結(jié)果數(shù)據(jù)庫140可以建置在同一個(gè)存儲(chǔ)單元內(nèi),也可以分別存儲(chǔ)于兩個(gè)獨(dú)立的存儲(chǔ)單元內(nèi)。存儲(chǔ)單元例如為非易失性存儲(chǔ)器(non-volatilememory)、隨機(jī)存取存儲(chǔ)器(randomaccessmemory,ram)或硬盤等。
遠(yuǎn)端服務(wù)器b為具有運(yùn)算功能的云端服務(wù)器,提供一線上分析的功能。遠(yuǎn)端服務(wù)器b包括第二處理器160以及第二通信單元170。第二處理器160用以執(zhí)行語音轉(zhuǎn)文本識別(speechtotext,簡稱:stt)。
第一處理器110與第二處理器160例如為中央處理單元(centralprocessingunit,簡稱:cpu)、可程式化的微處理器(microprocessor)、嵌入式控制晶片、數(shù)碼信號處理器(digitalsignalprocessor,簡稱:dsp)、特殊應(yīng)用集成電路(applicationspecificintegratedcircuits,簡稱:asic)或其他類似裝置。第一通信單元150及第二通信單元170例如為支援有線或無線通信協(xié)定的晶片。輸入裝置120例如為麥克風(fēng)等收音器材。
圖2是依照本發(fā)明一實(shí)施例的語音識別方法的流程圖。請參照圖1及圖2,在步驟s205中,第一處理器110自輸入裝置120接收音頻數(shù)據(jù)。即,使用者通過輸入裝置120收音,并由輸入裝置120將音頻數(shù)據(jù)傳送至第一處理器110。
接著,在步驟s210中,第一處理器110判斷本地端裝置a是否連線至網(wǎng)際網(wǎng)絡(luò)c,即,判斷第一通信單元150目前是否連線至網(wǎng)際網(wǎng)絡(luò)c。
當(dāng)判定本地端裝置a連線至網(wǎng)際網(wǎng)絡(luò)c時(shí),如步驟s215所示,本地端裝置a傳送音頻數(shù)據(jù)至遠(yuǎn)端服務(wù)器b,以執(zhí)行線上分析。具體而言,第一處理器110通過第一通信單元150傳送音頻數(shù)據(jù)至遠(yuǎn)端服務(wù)器b,以由遠(yuǎn)端服務(wù)器b執(zhí)行線上分析,而后第一處理器110自遠(yuǎn)端服務(wù)器b獲得文本分析結(jié)果,并存儲(chǔ)文本分析結(jié)果至結(jié)果數(shù)據(jù)庫140。在此,本地端裝置a的結(jié)果數(shù)據(jù)庫140中所存儲(chǔ)的歷史文本數(shù)據(jù)是預(yù)先經(jīng)由線上分析而自遠(yuǎn)端服務(wù)器b獲得。
例如,遠(yuǎn)端服務(wù)器b提供一語音識別模塊。語音識別模塊包括信號處理及特征提取模塊、聲學(xué)模型、發(fā)音詞典、語言模型及解碼器。信號處理及特征提取模塊用以從輸入信號(音頻數(shù)據(jù))中提取特征,供聲學(xué)模型使用。聲學(xué)模型例如采用隱藏式馬可夫(hiddenmarkovmodel,簡稱:hmm)模型進(jìn)行建模。語言模型對所針對的語言進(jìn)行建模。發(fā)音詞典包含多個(gè)詞匯集及其發(fā)音,用以提供聲學(xué)模型與語言模型間的映射。解碼器根據(jù)聲學(xué)模型、語言模型及發(fā)音詞典,尋找出音頻數(shù)據(jù)對應(yīng)的詞串。據(jù)此,第二處理器160利用語音識別模塊來執(zhí)行語音轉(zhuǎn)文本識別,以將音頻數(shù)據(jù)轉(zhuǎn)換為文字?jǐn)?shù)據(jù)。
而當(dāng)判定本地端裝置a未連線至網(wǎng)際網(wǎng)絡(luò)c時(shí),在步驟s220中,由本地端裝置a執(zhí)行離線分析。離線分析包括步驟s221及s223。
在步驟s221中,第一處理器110對音頻數(shù)據(jù)進(jìn)行聲紋比對,以取出對應(yīng)的歷史音頻數(shù)據(jù)。即,第一處理器110將所接收的音頻數(shù)據(jù)與存儲(chǔ)在音頻數(shù)據(jù)庫130中的多個(gè)歷史音頻數(shù)據(jù)進(jìn)行聲紋比對,以獲得對應(yīng)的其中一個(gè)歷史音頻數(shù)據(jù)。例如,第一處理器110逐一比對音頻數(shù)據(jù)與各個(gè)歷史音頻數(shù)據(jù)的波形,以找出最相似的歷史音頻數(shù)據(jù)。
之后,在步驟s223中,第一處理器110依據(jù)所獲得的歷史音頻數(shù)據(jù),自結(jié)果數(shù)據(jù)庫140取出相關(guān)聯(lián)的歷史文本數(shù)據(jù)。由于音頻數(shù)據(jù)庫130中的每一筆歷史音頻數(shù)據(jù)都與結(jié)果數(shù)據(jù)庫140中的其中一筆歷史文本數(shù)據(jù)相關(guān)聯(lián),因此,在獲得其中一歷史音頻數(shù)據(jù)之后,便可根據(jù)其關(guān)聯(lián)性來獲得對應(yīng)的歷史文本數(shù)據(jù)。
在一實(shí)施例中,本地端裝置a會(huì)預(yù)先在連線至網(wǎng)際網(wǎng)絡(luò)的情況下持續(xù)搜集歷史音頻數(shù)據(jù)與歷史文本數(shù)據(jù),以建立離線用數(shù)據(jù)庫,底下再舉一例來說明。
圖3是依照本發(fā)明一實(shí)施例的建立離線用數(shù)據(jù)庫的方法流程圖。請同時(shí)參照圖1及圖3,在第一處理器110自輸入裝置120接收到音頻數(shù)據(jù)之后,當(dāng)判定本地端裝置a連線至網(wǎng)際網(wǎng)絡(luò)c時(shí)(圖2的步驟s210的“是”),在步驟s305中,第一處理器110傳送音頻數(shù)據(jù)至遠(yuǎn)端服務(wù)器b,以執(zhí)行線上分析。例如,遠(yuǎn)端服務(wù)器b包括語音識別模塊,第二處理器160利用語音識別模塊來執(zhí)行語音轉(zhuǎn)文本識別。在獲得文本分析結(jié)果之后,第二處理器160通過第二通信單元170將文本分析結(jié)果傳送至本地端裝置a。
在第一處理器110自輸入裝置120接收到音頻數(shù)據(jù)之后,在步驟s310中,第一處理器110還可進(jìn)一步將自輸入裝置120所接收到的音頻數(shù)據(jù)存儲(chǔ)至音頻數(shù)據(jù)庫130。在此,在不影響現(xiàn)有機(jī)制下,開通一管道同步將輸入裝置120所獲得的音頻數(shù)據(jù)另行存儲(chǔ)至音頻數(shù)據(jù)庫130。另外,本實(shí)施例并不限制步驟s305及步驟s310兩者的先后順序。
而在第一處理器110傳送音頻數(shù)據(jù)至遠(yuǎn)端服務(wù)器b之后,在步驟s315中,第一處理器110自遠(yuǎn)端服務(wù)器b接收到文本分析結(jié)果。接著,在步驟s320中,第一處理器110存儲(chǔ)文本分析結(jié)果至結(jié)果數(shù)據(jù)庫140。在此,在不影響 現(xiàn)有機(jī)制下,開通一管道同步將自遠(yuǎn)端服務(wù)器b所獲得的文本分析結(jié)果另行存儲(chǔ)至結(jié)果數(shù)據(jù)庫140。存儲(chǔ)至結(jié)果數(shù)據(jù)庫140的文本分析結(jié)果就是歷史文本數(shù)據(jù)。
在步驟s325中,第一處理器110對存儲(chǔ)至音頻數(shù)據(jù)庫130中的音頻數(shù)據(jù)與存儲(chǔ)至結(jié)果數(shù)據(jù)庫140的文本分析結(jié)果建立一關(guān)聯(lián)。據(jù)此,在執(zhí)行離線分析時(shí),第一處理器110便能夠根據(jù)音頻數(shù)據(jù)庫130以及結(jié)果數(shù)據(jù)庫140來獲得對應(yīng)的歷史文本數(shù)據(jù)。即,自音頻數(shù)據(jù)庫130中獲得相似的歷史音頻數(shù)據(jù)之后,根據(jù)所建立的關(guān)聯(lián),自結(jié)果數(shù)據(jù)庫140中來獲得對應(yīng)的歷史文本數(shù)據(jù)。
另外,倘若第一處理器110在執(zhí)行聲紋比對之后無法獲得相似的歷史音頻數(shù)據(jù),則第一處理器110會(huì)產(chǎn)生一提示信息。例如,通過提示信息來通知使用者連線至網(wǎng)際網(wǎng)絡(luò)c來進(jìn)行線上分析等。
而在執(zhí)行離線分析的情況下,第一處理器110傳送自結(jié)果數(shù)據(jù)庫140所取出的歷史文本數(shù)據(jù)至輸出裝置(例如屏幕等顯示器)。在執(zhí)行線上分析的情況下,第一處理器110傳送自遠(yuǎn)端服務(wù)器b所獲得的文本分析結(jié)果至輸出裝置。
綜上所述,在連線至網(wǎng)際網(wǎng)絡(luò)c的情況下,由遠(yuǎn)端服務(wù)b器執(zhí)行線上分析,并且持續(xù)搜集歷史音頻數(shù)據(jù)與歷史文本數(shù)據(jù)來建立離線用數(shù)據(jù)庫。據(jù)此,在未連線至網(wǎng)際網(wǎng)絡(luò)c的情況下,本地端裝置a基于音頻數(shù)據(jù)庫130及結(jié)果數(shù)據(jù)庫140來執(zhí)行離線分析。
最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。