專利名稱:移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)及其語(yǔ)音識(shí)別系統(tǒng)、方法
技術(shù)領(lǐng)域:
本發(fā)明涉及農(nóng)業(yè)信息技術(shù)領(lǐng)域的智能信息處理技術(shù),尤其是指一種移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)及其語(yǔ)音識(shí)別系統(tǒng)、方法。
背景技術(shù):
農(nóng)業(yè)數(shù)據(jù)采集是農(nóng)業(yè)信息化的源頭和基礎(chǔ),在現(xiàn)代農(nóng)業(yè)快速、準(zhǔn)確、有效的要求下,農(nóng)業(yè)現(xiàn)場(chǎng)數(shù)據(jù)采集問(wèn)題日益凸顯,雖然“3S”技術(shù)、無(wú)線傳感器技術(shù)的應(yīng)用研究取得一定成果,但面向農(nóng)業(yè)生產(chǎn)者應(yīng)用的數(shù)據(jù)采集方法研究仍然較為匱乏,在一些需要人工操作的場(chǎng)合尤為突出,如農(nóng)業(yè)野外現(xiàn)場(chǎng)作業(yè)數(shù)據(jù)采集、農(nóng)業(yè)生產(chǎn)過(guò)程中的數(shù)據(jù)采集和農(nóng)產(chǎn)品價(jià)格數(shù)據(jù)采集等。傳統(tǒng)依賴鍵盤輸入的數(shù)據(jù)采集方法和手段直接影響數(shù)據(jù)采集的效率和質(zhì)量。 移動(dòng)采集設(shè)備以其體積小、可靠性高、價(jià)格低、便攜性好和支持移動(dòng)作業(yè)等特點(diǎn),廣泛應(yīng)用于農(nóng)業(yè)生產(chǎn)、流通等各個(gè)環(huán)節(jié),使得農(nóng)業(yè)數(shù)據(jù)采集在精準(zhǔn)性和時(shí)效性上有了很大的提升,但存在著可操作性差、采集效率不高和對(duì)信息采集人員的信息化水平要求較高的問(wèn)題。目前我國(guó)農(nóng)產(chǎn)品信息的采集工作主要依賴人工完成,一般由農(nóng)業(yè)部門或市場(chǎng)管理機(jī)構(gòu)派出信息采集員到市場(chǎng)現(xiàn)場(chǎng)查詢并記錄各種農(nóng)產(chǎn)品的價(jià)格與需求,然后報(bào)信息管理員處,經(jīng)過(guò)整理輸入到計(jì)算機(jī)中,再經(jīng)過(guò)計(jì)算機(jī)分析處理后通過(guò)一定的方式發(fā)布出去,及時(shí)性不高,受人力、時(shí)間、空間限制等一系列問(wèn)題,這些都制約了對(duì)消費(fèi)者服務(wù)的提高和有關(guān)部門對(duì)市場(chǎng)的有效管理。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提出一種移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)及其語(yǔ)音識(shí)別系統(tǒng)、方法,通過(guò)基于移動(dòng)設(shè)備的語(yǔ)音輸入識(shí)別方法采集現(xiàn)場(chǎng)數(shù)據(jù),擺脫了移動(dòng)設(shè)備小鍵盤和小屏幕的限制,同時(shí)提高了數(shù)據(jù)采集的效率。本發(fā)明的技術(shù)解決方案如下一種面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備的語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)采用基于HMM/SVM 混合架構(gòu)的語(yǔ)音識(shí)別引擎,該語(yǔ)音識(shí)別引擎包括特征提取模塊、HMM語(yǔ)音識(shí)別系統(tǒng)、SVM特征向量提取模塊及SVM訓(xùn)練模塊和混合解碼模塊,語(yǔ)音信號(hào)的訓(xùn)練樣本經(jīng)過(guò)特征提取之后獲得特征矢量序列;通過(guò)SVM特征向量提取模塊獲得用于SVM分類器訓(xùn)練的定長(zhǎng)的特征矢量;在識(shí)別過(guò)程中,將HMM語(yǔ)音識(shí)別系統(tǒng)識(shí)別出來(lái)的音節(jié)段落信息構(gòu)建成能夠用于SVM分類器分類的特征矢量信息,然后把經(jīng)過(guò)SVM分類器得到的距離信息通過(guò)sigmoid函數(shù)擬合成后驗(yàn)概率,輸入混合解碼器獲取最后的識(shí)別結(jié)果?!N移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng),該農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)包括設(shè)于該移動(dòng)設(shè)備中的數(shù)據(jù)采集模塊,該數(shù)據(jù)采集模塊包括如上所述的面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備的語(yǔ)音識(shí)別系統(tǒng)。一種面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別方法,該方法是以HMM的語(yǔ)音識(shí)別系統(tǒng)為基礎(chǔ),語(yǔ)音信號(hào)的訓(xùn)練樣本經(jīng)過(guò)特征提取之后獲得特征矢量序列;通過(guò)SVM特征向量提取模塊獲得用于SVM分類器訓(xùn)練的定長(zhǎng)的特征矢量;在識(shí)別過(guò)程中,將HMM語(yǔ)音識(shí)別系統(tǒng)識(shí)別出來(lái)的音節(jié)段落信息構(gòu)建成能夠用于SVM分類器分類的特征矢量信息,然后把經(jīng)過(guò) SVM分類器得到的距離信息通過(guò)sigmoid函數(shù)擬合成后驗(yàn)概率,輸入混合解碼器獲取最后的識(shí)別結(jié)果。本發(fā)明以農(nóng)產(chǎn)品市場(chǎng)信息化的需求為目標(biāo),以節(jié)省人力、提高工作效率及時(shí)反映定點(diǎn)農(nóng)產(chǎn)品市場(chǎng)主要農(nóng)產(chǎn)品的價(jià)格行情、產(chǎn)品供求信息為主要依據(jù),采用語(yǔ)音識(shí)別作為人機(jī)交互方式設(shè)計(jì)切實(shí)可行的農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng),能夠有效地克服移動(dòng)設(shè)備操作性差的問(wèn)題,降低采集過(guò)程中對(duì)人員信息化水平的要求,提高農(nóng)業(yè)現(xiàn)場(chǎng)信息采集的環(huán)境適應(yīng)性,為加快農(nóng)產(chǎn)品市場(chǎng)信息體系建設(shè)、推動(dòng)農(nóng)產(chǎn)品市場(chǎng)經(jīng)營(yíng)模式轉(zhuǎn)變提供技術(shù)支撐。
圖1為本發(fā)明的面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別系統(tǒng)的基本框架圖。圖2為本發(fā)明的面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別系統(tǒng)及方法所采用的語(yǔ)音識(shí)別模型的示意圖。圖3為本發(fā)明的面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別系統(tǒng)及方法所采用的多分類器算法流程圖。圖4為本發(fā)明的面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別系統(tǒng)及方法所采用的 SVM/sigmoid混合訓(xùn)練模型示意圖。圖5為本發(fā)明的移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)功能的模塊圖。
具體實(shí)施例方式移動(dòng)設(shè)備的便攜性在很大程度上是以損失人機(jī)交互的方便性為代價(jià)的,相對(duì)PC 而言,手持設(shè)備的屏幕小、陽(yáng)光直射下無(wú)法看清以及小鍵盤操作的不方便性,觸摸屏全鍵盤和手寫識(shí)別也存在效率低、穩(wěn)定性差的問(wèn)題,在很大程度上降低了設(shè)備的可操作性。本發(fā)明通過(guò)基于移動(dòng)設(shè)備的語(yǔ)音輸入識(shí)別方法采集現(xiàn)場(chǎng)數(shù)據(jù),擺脫了移動(dòng)設(shè)備小鍵盤和小屏幕的限制,同時(shí)提高了數(shù)據(jù)采集的效率。本發(fā)明提出一種面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備的語(yǔ)音識(shí)別系統(tǒng)及方法,該系統(tǒng)采用基于HMM/SVM混合架構(gòu)的語(yǔ)音識(shí)別引擎,該語(yǔ)音識(shí)別引擎包括特征提取模塊、HMM語(yǔ)音識(shí)別系統(tǒng)、SVM特征向量提取模塊及SVM訓(xùn)練模塊(即圖2中的SVM分類器)和混合解碼模塊,語(yǔ)音信號(hào)的訓(xùn)練樣本經(jīng)過(guò)特征提取之后獲得特征矢量序列;通過(guò)SVM特征向量提取模塊獲得用于SVM分類器訓(xùn)練的定長(zhǎng)的特征矢量;在識(shí)別過(guò)程中,將HMM語(yǔ)音識(shí)別系統(tǒng)識(shí)別出來(lái)段落信息所對(duì)應(yīng)的特征矢量信息同樣構(gòu)建成能夠用于SVM分類器分類的特征矢量信息, 然后把經(jīng)過(guò)SVM分類器得到的距離信息通過(guò)sigmoid函數(shù)擬合成后驗(yàn)概率,輸入混合解碼器獲取最后的識(shí)別結(jié)果。本發(fā)明提出一種面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別方法,該方法結(jié)合農(nóng)業(yè)語(yǔ)音數(shù)據(jù)采集命令詞和數(shù)字語(yǔ)音識(shí)別優(yōu)先識(shí)別的需要,利用中小詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)中統(tǒng)計(jì)語(yǔ)言模型技術(shù),采用改進(jìn)的HMM/SVM混合架構(gòu)的語(yǔ)音識(shí)別模型,通過(guò)引入sigmoid函數(shù)對(duì)分類結(jié)果采用概率的方式輸出。該方法利用SVM能夠有效解決小樣本、非線性和高維數(shù)分類問(wèn)題的原理,結(jié)合具體應(yīng)用的實(shí)際情況,采用高斯徑向基函數(shù)作為核函數(shù),分析不同信噪比和不同詞匯量下高斯核參數(shù)和誤差懲罰參數(shù)的組合對(duì)SVM推廣性能的影響,選擇其最優(yōu)組合應(yīng)用與非特定人、中小規(guī)模詞匯量的抗噪語(yǔ)音識(shí)別系統(tǒng)中,以得到較好的識(shí)別效果和抗噪聲能力。本發(fā)明同時(shí)保護(hù)具有前述語(yǔ)音識(shí)別系統(tǒng)的移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng),該農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)包括數(shù)據(jù)采集模塊,該數(shù)據(jù)采集模塊包括前述基于HMM/SVM混合架構(gòu)的語(yǔ)音識(shí)別引擎。具有該語(yǔ)音識(shí)別系統(tǒng)的移動(dòng)設(shè)備是針對(duì)農(nóng)產(chǎn)品市場(chǎng)的日常數(shù)據(jù)采集管理而設(shè)計(jì)的,整個(gè)設(shè)備的主要功能分為五大部分?jǐn)?shù)據(jù)采集模塊、數(shù)據(jù)維護(hù)查詢模塊、數(shù)據(jù)傳送模塊、 數(shù)據(jù)同步模塊和系統(tǒng)維護(hù)模塊。工作人員能夠在作業(yè)現(xiàn)場(chǎng)利用語(yǔ)音識(shí)別引擎對(duì)農(nóng)產(chǎn)品價(jià)格數(shù)據(jù)進(jìn)行采集、查詢、修改和刪除,采集的數(shù)據(jù)可以通過(guò)無(wú)線分組業(yè)務(wù)和無(wú)線局域網(wǎng)兩種方式上傳到服務(wù)器;系統(tǒng)能夠?qū)σ苿?dòng)設(shè)備與數(shù)據(jù)庫(kù)服務(wù)器進(jìn)行數(shù)據(jù)同步,以保持?jǐn)?shù)據(jù)的完整性和一致性、保證數(shù)據(jù)傳輸時(shí)的可靠性和安全性。系統(tǒng)功能模塊結(jié)構(gòu)請(qǐng)參照?qǐng)D5。本發(fā)明的基于語(yǔ)音識(shí)別引擎的移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)為面向便攜式農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)的具體應(yīng)用,具備非特定人、中小詞匯量連續(xù)語(yǔ)音識(shí)別功能,系統(tǒng)運(yùn)行穩(wěn)定、可靠,占用資源少,并具有可伸縮性和擴(kuò)展性;人機(jī)交互友好,操作簡(jiǎn)單,符合用戶認(rèn)知習(xí)慣。具體地,語(yǔ)音識(shí)別系統(tǒng)采用結(jié)構(gòu)化設(shè)計(jì),將音頻輸入前端和語(yǔ)音識(shí)別部分獨(dú)立起來(lái),語(yǔ)音識(shí)別作為一個(gè)單獨(dú)的引擎,同時(shí)提供該引擎和上層應(yīng)用程序之間的通訊接口,為應(yīng)用軟件嵌入語(yǔ)音識(shí)別功能提供了方便,使上層應(yīng)用程序的開(kāi)發(fā)人員可以忽略語(yǔ)音識(shí)別技術(shù)的實(shí)現(xiàn)細(xì)節(jié)而實(shí)現(xiàn)語(yǔ)音識(shí)別功能。該語(yǔ)音識(shí)別系統(tǒng)包括前端和后端兩個(gè)部分,前端是應(yīng)用程序,后端則是識(shí)別引擎。應(yīng)用程序面向最終用戶,通過(guò)語(yǔ)音對(duì)象來(lái)獲得用戶的輸入(一般是語(yǔ)音數(shù)據(jù)以及環(huán)境和信道噪聲),再通過(guò)調(diào)用SAPKSpeech Application Programming Interface)語(yǔ)音識(shí)別應(yīng)用程序開(kāi)發(fā)接口實(shí)現(xiàn)與引擎的通信。,負(fù)責(zé)建立應(yīng)用程序和識(shí)別引擎之間的連接,將應(yīng)用程序的命令和數(shù)據(jù)傳送給識(shí)別引擎,并將引擎的結(jié)果返回給應(yīng)用程序。識(shí)別引擎則是后臺(tái)服務(wù)程序,是整個(gè)語(yǔ)音識(shí)別系統(tǒng)的核心部分,與應(yīng)用程序處在不同的進(jìn)程空間,負(fù)責(zé)接收SAPI的信息并進(jìn)行相應(yīng)的處理來(lái)自SAPI的信息主要有兩類,一是系統(tǒng)控制信息,負(fù)責(zé)請(qǐng)求建立連接,請(qǐng)求加載模型等;二是識(shí)別信息,將各類語(yǔ)音數(shù)據(jù)傳給引擎,由引擎進(jìn)行識(shí)別處理,返回文字結(jié)果或是既定的命令標(biāo)識(shí)。系統(tǒng)基本結(jié)構(gòu)框架圖請(qǐng)參照?qǐng)D1所示。根據(jù)識(shí)別系統(tǒng)的需要,識(shí)別引擎除了應(yīng)該能夠進(jìn)行語(yǔ)音識(shí)別之外,還能夠?qū)崿F(xiàn)進(jìn)程間通信以及對(duì)用戶數(shù)據(jù)進(jìn)行管理。引擎內(nèi)部結(jié)構(gòu)主要由會(huì)話、通信、數(shù)據(jù)管理和語(yǔ)音識(shí)別四部分組成,具體如下會(huì)話管理是引擎設(shè)計(jì)的關(guān)鍵部分,既負(fù)責(zé)實(shí)現(xiàn)線程調(diào)度,又實(shí)現(xiàn)語(yǔ)音識(shí)別的功能。為此,將會(huì)話分成兩類,一類系統(tǒng)會(huì)話,一類是識(shí)別會(huì)話。系統(tǒng)會(huì)話只有一路,而識(shí)別會(huì)話則根據(jù)需要可以一路,或者是多路。系統(tǒng)會(huì)話負(fù)責(zé)管理識(shí)別會(huì)話和處理系統(tǒng)相關(guān)的任務(wù), 識(shí)別會(huì)話的主要進(jìn)行識(shí)別以及和識(shí)別相關(guān)任務(wù)的處理。對(duì)每一個(gè)會(huì)話,引擎都會(huì)啟動(dòng)一個(gè)工作線程與之對(duì)應(yīng)。對(duì)于要求實(shí)時(shí)完成的任務(wù),或是某些算法復(fù)雜度低、占用CPU時(shí)間少的任務(wù)采用同步調(diào)用方式;對(duì)于算法復(fù)雜度高,占用CPU時(shí)間多的任務(wù)則采用異步調(diào)用方式。 在異步調(diào)用的情況下,為了保證數(shù)據(jù)不被丟失,我們對(duì)每個(gè)會(huì)話,創(chuàng)建了任務(wù)和結(jié)果兩個(gè)循環(huán)隊(duì)列。異步調(diào)用的過(guò)程可以表述為1)應(yīng)用程序調(diào)用異步函數(shù),往任務(wù)隊(duì)列填寫任務(wù),函數(shù)返回;2)引擎從任務(wù)隊(duì)列順序取出任務(wù),執(zhí)行完任務(wù)后將結(jié)果填寫到結(jié)果隊(duì)列;3)應(yīng)用程序從結(jié)果隊(duì)列中取出執(zhí)行結(jié)果。通信機(jī)制由于應(yīng)用程序和引擎不在同一個(gè)進(jìn)程空間內(nèi),支持進(jìn)程間通信(Inter process Communication, IPC)的主要作用是創(chuàng)建用于進(jìn)程間數(shù)據(jù)傳遞和交換的管道,利用管道接受應(yīng)用程序發(fā)出的任務(wù),并執(zhí)行結(jié)果通過(guò)管道返回給應(yīng)用程序。考慮到結(jié)構(gòu)化和可擴(kuò)展性,本設(shè)計(jì)引擎把通信機(jī)制作為一個(gè)單獨(dú)的模塊來(lái)實(shí)現(xiàn),這樣的優(yōu)點(diǎn)在于如果需要改變引擎和應(yīng)用程序的通信方式,我們只需要對(duì)這個(gè)模塊進(jìn)行改寫,而盡可能少地涉及其它部分。單機(jī)的情況應(yīng)用程序和引擎運(yùn)行在一臺(tái)設(shè)備上,采用內(nèi)存映射文件的方法來(lái)實(shí)現(xiàn)進(jìn)程間的通信。其優(yōu)點(diǎn)是結(jié)構(gòu)清楚,易于實(shí)現(xiàn);而且由于訪問(wèn)的是同一塊內(nèi)存區(qū),可以保證進(jìn)程間通信的速度和正確率。數(shù)據(jù)管理在識(shí)別引擎中主要管理模型數(shù)據(jù)和用戶數(shù)據(jù),模型數(shù)據(jù)是指語(yǔ)音識(shí)別算法中所采用的聲學(xué)層、語(yǔ)言層、詞典、拼音文法等模型文件;用戶數(shù)據(jù)既包括一些基本信息,如用戶名、密碼、用戶描述等,也包括每個(gè)用戶和所采用模型的對(duì)應(yīng)關(guān)系。在連接識(shí)別會(huì)話之前,用戶必須提供基本信息和模型信息,否則識(shí)別器將無(wú)法正確加載模型進(jìn)行識(shí)別。本引擎將用戶數(shù)據(jù)按照既定的數(shù)據(jù)結(jié)構(gòu),保存在二進(jìn)制文件里。由于文件讀寫是獨(dú)占的過(guò)程, 采用了臨界區(qū)技術(shù)。語(yǔ)音識(shí)別引擎中采用了基于HMM的語(yǔ)音識(shí)別原理,可分為三部分語(yǔ)音信號(hào)預(yù)處理與特征提取;聲學(xué)模型與模式匹配以及語(yǔ)音識(shí)別后處理。在建立和應(yīng)用這一系統(tǒng)時(shí),語(yǔ)音識(shí)別核心部分分別表現(xiàn)為模型的建立、訓(xùn)練和識(shí)別三個(gè)過(guò)程,識(shí)別后處理部分是一個(gè)音字轉(zhuǎn)換過(guò)程,根據(jù)識(shí)別結(jié)果,利用基于有調(diào)拼音的二元拼音文法進(jìn)行拼音剪枝,得到精簡(jiǎn)多長(zhǎng)度音節(jié)格送入后處理模塊,構(gòu)造拼音圖,由詞典信息生成詞圖,搜索得到最后的漢字識(shí)別結(jié)^ ο結(jié)合圖2所示,本發(fā)明是以HMM的語(yǔ)音識(shí)別系統(tǒng)為基礎(chǔ),增設(shè)SVM特征向量提取模塊、SVM訓(xùn)練和混合解碼模塊三大模塊,語(yǔ)音信號(hào)的訓(xùn)練樣本經(jīng)過(guò)特征提取之后獲得特征矢量序列;通過(guò)SVM特征向量提取模塊獲得用于SVM分類器訓(xùn)練的定長(zhǎng)的特征矢量;在識(shí)別過(guò)程中,對(duì)HMM識(shí)別出來(lái)音節(jié)模型對(duì)應(yīng)的特征矢量信息,將其同樣構(gòu)建成能夠用于SVM分類器分類的特征矢量信息,然后把經(jīng)過(guò)SVM分類器得到的距離信息通過(guò)sigmoid函數(shù)擬合成后驗(yàn)概率,輸入混合解碼器獲取最后的識(shí)別結(jié)果。下面對(duì)本發(fā)明所涉及的技術(shù)方案進(jìn)行詳細(xì)說(shuō)明對(duì)于語(yǔ)音識(shí)別引擎,本發(fā)明采用改進(jìn)HMM/SVM混合架構(gòu)的語(yǔ)音識(shí)別模型。其是針對(duì)基于移動(dòng)設(shè)備的農(nóng)業(yè)語(yǔ)音信息識(shí)別問(wèn)題,結(jié)合農(nóng)業(yè)語(yǔ)音數(shù)據(jù)采集命令詞和數(shù)字語(yǔ)音識(shí)別優(yōu)先識(shí)別的需要,利用中小詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)中統(tǒng)計(jì)語(yǔ)言模型關(guān)鍵技術(shù),將HMM善于處理語(yǔ)音的動(dòng)態(tài)特性的優(yōu)點(diǎn)與SVM對(duì)靜態(tài)數(shù)據(jù)的強(qiáng)分類能力的優(yōu)點(diǎn)結(jié)合起來(lái),這種改進(jìn) HMM/SVM混合架構(gòu)的語(yǔ)音識(shí)別模型能達(dá)到有效提高系統(tǒng)識(shí)別準(zhǔn)確率的目的。常用的HMM/ SVM混合模型是將SVM的輸出轉(zhuǎn)化為概率,作為HMM中各個(gè)隱狀態(tài)的輸出概率,但訓(xùn)練速度慢,且正樣本和負(fù)樣本數(shù)據(jù)之間存在混疊現(xiàn)象,對(duì)于大樣本特征數(shù)據(jù)不能準(zhǔn)確區(qū)分。本發(fā)明通過(guò)引入sigmoid函數(shù)對(duì)分類結(jié)果采用概率的方式輸出,有效地解決了樣本混疊帶來(lái)的不確定性,有效提高了識(shí)別準(zhǔn)確性。設(shè)計(jì)原理利用SVM能夠有效解決小樣本、非線性和高維數(shù)分類問(wèn)題的原理,結(jié)合具體應(yīng)用的實(shí)際情況,采用高斯徑向基函數(shù)作為核函數(shù),分析不同信噪比和不同詞匯量下高斯核參數(shù)和誤差懲罰參數(shù)的組合對(duì)SVM推廣性能的影響,選擇其最優(yōu)組合應(yīng)用與非特定人、中小規(guī)模詞匯量的抗噪語(yǔ)音識(shí)別系統(tǒng)中,以得到較好的識(shí)別效果和抗噪聲能力。設(shè)計(jì)方法以常規(guī)HMM的語(yǔ)音識(shí)別系統(tǒng)為基礎(chǔ),增加了 SVM特征向量提取模塊,SVM 訓(xùn)練和混合解碼模塊三大模塊,在圖1中由密虛線表示SVM的訓(xùn)練過(guò)程,語(yǔ)音信號(hào)的訓(xùn)練樣本經(jīng)過(guò)特征提取之后獲得特征矢量序列0,即觀察序列。通過(guò)SVM特征向量提取模塊獲得用于SVM分類器訓(xùn)練的定長(zhǎng)的特征矢量。由實(shí)線表示識(shí)別過(guò)程,將HMM識(shí)別出來(lái)音節(jié)段落信息構(gòu)建成可用于SVM分類器分類的特征矢量信息,然后把經(jīng)過(guò)SVM分類器得到的距離信息通過(guò)sigmoid函數(shù)擬合成后驗(yàn)概率,輸入混合解碼器獲取最后的識(shí)別結(jié)果。語(yǔ)音識(shí)別模型的主要框架如圖2所示。如圖所示,本發(fā)明采用基于HMM/SVM混合模型的SVM多分類器,基于HMM的語(yǔ)音識(shí)別系統(tǒng)通常由聲學(xué)模型、發(fā)音詞典、搜索空間、搜索算法模塊組成,其中搜索算法是決定系統(tǒng)性能的關(guān)鍵,搜索空間的構(gòu)造不僅本身影響著內(nèi)存的占用,而且也影響著搜索的效率,移動(dòng)設(shè)備語(yǔ)音識(shí)別大多面向特定的任務(wù)和環(huán)境。由于先驗(yàn)知識(shí)豐富,具有簡(jiǎn)單、準(zhǔn)確高效描述事物某部分特征的特點(diǎn),本發(fā)明采用在決策樹(shù)中加入基于先驗(yàn)知識(shí)的分類器可以有效緩解 SVM決策樹(shù)方案錯(cuò)誤累積的問(wèn)題。結(jié)合圖3所示,該多分類器的設(shè)計(jì)方法是根據(jù)漢語(yǔ)語(yǔ)音的特點(diǎn),采用音節(jié)作為聲學(xué)載體進(jìn)行建模,為有效進(jìn)行音節(jié)區(qū)分出多分類的結(jié)果,本發(fā)明的SVM決策樹(shù)多分類器構(gòu)造方法為首先計(jì)算特征空間中各類之間的距離,如此每一類都存在k-Ι個(gè)與其他類之間的距離值,然后將其按由大到小的順序進(jìn)行排序,再用二值SVM訓(xùn)練算法構(gòu)造各類的最優(yōu)超平面,構(gòu)造完一個(gè)節(jié)點(diǎn)后刪除其正樣本,以下一個(gè)樣本作為正樣本,其他樣本為負(fù)樣本構(gòu)造下一個(gè)節(jié)點(diǎn)的二值分類器,直到所有節(jié)點(diǎn)分類完成,對(duì)應(yīng)的算法流程如圖3所示。需要說(shuō)明的是,對(duì)于語(yǔ)音信號(hào)的分類問(wèn)題,SVM分類性能很好,但是不適合處理連續(xù)輸入樣本,需要將其輸出值轉(zhuǎn)換為可用的后驗(yàn)概率輸出才能和HMM構(gòu)建混合模型。本發(fā)明采用了一種SVM距離到后驗(yàn)概率的計(jì)算方法,對(duì)語(yǔ)音信號(hào)在識(shí)別過(guò)程中進(jìn)行綜合計(jì)算, 將SVM的輸出轉(zhuǎn)化為后驗(yàn)概率。本發(fā)明所采用的SVM距離到后驗(yàn)概率的計(jì)算方法如下SVM 的輸出格式是 y = sign (f(x))(1)在核化的情況下,對(duì)于訓(xùn)練樣本集{. }^,分類函數(shù)可以寫為
N
f(x) = ^ a.iy:jK(xt,x) + b(2 )
i=l式中,χ是輸入向量,Xi e Rn是支持向量,CIi e R是拉格朗日系數(shù),yi e {+1,1} 是對(duì)應(yīng)的CIi的標(biāo)簽,κ(·)是核函數(shù),b e R是最優(yōu)超平面的偏移量。當(dāng)f(x) >0時(shí)y屬于正樣本,當(dāng)f(x) <0時(shí)y屬于負(fù)樣本,y在f(x)取值下屬于正樣本的概率如式(3)所示, f (χ)是SVM距離。CN 102543074 Aρ/,,, _ 1 I f\ _ _P{f\y^l)I\__(Q)
r、y 一丄I·/」—P(ZIjz=I)P1+P(ZIiy=-I)P^1v Jy每個(gè)類的條件概率假設(shè)由高斯函數(shù)模-描述為正樣本P[f\lJ= 1) = -τ^βχρ(4)
\j ^TkCJι1則式(3)可表示為:P、:y= 1IJ) =(/1-,)2))= ^Kexpi-^ui-U-L,)+'!^- ι)/))= 1+explAf+B)(6)A和B是估計(jì)參數(shù),在模型訓(xùn)練參數(shù)設(shè)定時(shí)可由LibSVM模型工具包獲得。下面對(duì)SVM/sigmoid混合訓(xùn)練模型進(jìn)行說(shuō)明由于SVM輸出值的符號(hào)表示其分類結(jié)果,其絕對(duì)值表示樣本到分類面的距離,因此為了得到校準(zhǔn)的后驗(yàn)概率,將SVM的輸出通過(guò)sigmoid函數(shù)轉(zhuǎn)換成概率模型以提高模型的性能式(6)中的參數(shù)A和B通過(guò)最大似然問(wèn)題加以確定minA, BF (A,B) =Σ i = 1 Ui (log (Pi) + (Hi) log (l_Pi))(7)其中Pi = P(A),
{(N+ + 1)/(A'+ + 2) tji = 1
'Co^
+ 2) 2/, = -1N+為正樣本數(shù),N_為負(fù)樣本數(shù)。訓(xùn)練方法為將采集的語(yǔ)音通過(guò)Baum-Welch算法來(lái)訓(xùn)練HMM模型,所采用的HMM拓?fù)浣Y(jié)構(gòu)為自左向右二轉(zhuǎn)移多維混合高斯密度函數(shù)連續(xù)的HMM模型,在訓(xùn)練過(guò)程中,將HMM作為訓(xùn)練模型的一部分和SVM共同組成訓(xùn)練模型,以HMM為訓(xùn)練模型的前級(jí),以此對(duì)用于SVM 模型訓(xùn)練的訓(xùn)練數(shù)據(jù)進(jìn)行有區(qū)分性的特征變化,并以HMM的多維概率輸出作為后級(jí)SVM模型的輸入矢量,最后SVM的輸出通過(guò)Sigmoid函數(shù)按(6)式轉(zhuǎn)換為后驗(yàn)概率,具體訓(xùn)練過(guò)程如圖4所示。最后,本發(fā)明的基于語(yǔ)音識(shí)別引擎的移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)的結(jié)構(gòu)如下(1)數(shù)據(jù)采集模塊語(yǔ)音識(shí)別引擎為語(yǔ)音識(shí)別輸入提供支持;農(nóng)產(chǎn)品價(jià)格數(shù)據(jù)采集模塊實(shí)現(xiàn)在工作現(xiàn)場(chǎng)對(duì)各種農(nóng)產(chǎn)品價(jià)格的采集、保存、修改等功能。(2)數(shù)據(jù)維護(hù)查詢模塊數(shù)據(jù)維護(hù)模塊可實(shí)現(xiàn)對(duì)各種采集到的信息進(jìn)行瀏覽、刪除、修改等操作;數(shù)據(jù)查詢模塊提供對(duì)價(jià)格數(shù)據(jù)的查詢。(3)數(shù)據(jù)傳送模塊遠(yuǎn)距離情況下,可以把采集的數(shù)據(jù)通過(guò)無(wú)線分組方式傳送至服務(wù)器上;近距離通過(guò)采用無(wú)線局域網(wǎng)方式,實(shí)現(xiàn)服務(wù)器與移動(dòng)設(shè)備終端之間的數(shù)據(jù)傳輸。(4)數(shù)據(jù)同步模塊該模塊主要采用合并復(fù)制技術(shù),通過(guò)無(wú)線局域網(wǎng)使移動(dòng)設(shè)備與服務(wù)器之間進(jìn)行數(shù)據(jù)交換,以保持兩者的一致性。(5)系統(tǒng)維護(hù)模塊用戶管理實(shí)現(xiàn)對(duì)登錄用戶和密碼的驗(yàn)證,限制非法訪問(wèn),保證系統(tǒng)的安全性;農(nóng)產(chǎn)品種類維護(hù)實(shí)現(xiàn)對(duì)農(nóng)產(chǎn)品種類信息的添加、刪除、修改等功能;語(yǔ)音庫(kù)維護(hù)實(shí)現(xiàn)識(shí)別語(yǔ)音庫(kù)的裝入與卸載。至于各模塊的具體組成部分的實(shí)現(xiàn),本領(lǐng)域的技術(shù)人員可以根據(jù)現(xiàn)有技術(shù)采用多種方案,本文中不再詳細(xì)敘述。雖然本發(fā)明已以具體實(shí)施例揭示,但其并非用以限定本發(fā)明,任何本領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明的構(gòu)思和范圍的前提下所作出的等同組件的置換,或依本發(fā)明專利保護(hù)范圍所作的等同變化與修飾,皆應(yīng)仍屬本專利涵蓋的范疇。
權(quán)利要求
1.一種面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備的語(yǔ)音識(shí)別系統(tǒng),其特征在于,該系統(tǒng)采用基于HMM/SVM混合架構(gòu)的語(yǔ)音識(shí)別引擎,該語(yǔ)音識(shí)別引擎包括特征提取模塊、HMM語(yǔ)音識(shí)別系統(tǒng)、SVM特征向量提取模塊及SVM訓(xùn)練模塊和混合解碼模塊,語(yǔ)音信號(hào)的訓(xùn)練樣本經(jīng)過(guò)特征提取之后獲得特征矢量序列;通過(guò)SVM特征向量提取模塊獲得用于SVM分類器訓(xùn)練的定長(zhǎng)的特征矢量;在識(shí)別過(guò)程中,將HMM語(yǔ)音識(shí)別系統(tǒng)識(shí)別出來(lái)的音節(jié)段落信息構(gòu)建成能夠用于SVM分類器分類的特征矢量信息,然后把經(jīng)過(guò)SVM分類器得到的距離信息通過(guò)sigmoid 函數(shù)擬合成后驗(yàn)概率,輸入混合解碼器獲取最后的識(shí)別結(jié)果。
2.一種移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng),其特征在于,該農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)包括設(shè)于該移動(dòng)設(shè)備中的數(shù)據(jù)采集模塊,該數(shù)據(jù)采集模塊包括如權(quán)利要求1所述的面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備的語(yǔ)音識(shí)別系統(tǒng)。
3.如權(quán)利要求2所述的移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng),其特征在于,所述數(shù)據(jù)采集系統(tǒng)還包括數(shù)據(jù)傳送模塊和數(shù)據(jù)同步模塊,數(shù)據(jù)采集模塊采集到的數(shù)據(jù)通過(guò)無(wú)線分組業(yè)務(wù)或無(wú)線局域網(wǎng)上傳到數(shù)據(jù)庫(kù)服務(wù)器,系統(tǒng)能夠?qū)σ苿?dòng)設(shè)備和數(shù)據(jù)庫(kù)服務(wù)器進(jìn)行數(shù)據(jù)同步,保持?jǐn)?shù)據(jù)的完整性和一致性。
4.如權(quán)利要求3所述的移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng),其特征在于,所述數(shù)據(jù)采集系統(tǒng)還包括數(shù)據(jù)維護(hù)查詢模塊和系統(tǒng)維護(hù)模塊,其中,數(shù)據(jù)維護(hù)模塊包括農(nóng)產(chǎn)品數(shù)據(jù)查詢模塊和農(nóng)產(chǎn)品數(shù)據(jù)維護(hù)模塊,能夠在作業(yè)現(xiàn)場(chǎng)對(duì)農(nóng)產(chǎn)品價(jià)格數(shù)據(jù)進(jìn)行查詢、瀏覽、修改和刪除;系統(tǒng)維護(hù)模塊包括用戶管理模塊、語(yǔ)音庫(kù)維護(hù)模塊和農(nóng)產(chǎn)品種類維護(hù)模塊,用戶管理模塊實(shí)現(xiàn)對(duì)登錄用戶和密碼的驗(yàn)證,限制非法訪問(wèn),保證系統(tǒng)的安全性;農(nóng)產(chǎn)品種類維護(hù)模塊實(shí)現(xiàn)對(duì)農(nóng)產(chǎn)品種類信息的添加、刪除、修改;語(yǔ)音庫(kù)維護(hù)模塊實(shí)現(xiàn)識(shí)別語(yǔ)音庫(kù)的裝入與卸載。
5.一種面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別方法,其特征在于,該方法是以HMM 的語(yǔ)音識(shí)別系統(tǒng)為基礎(chǔ),語(yǔ)音信號(hào)的訓(xùn)練樣本經(jīng)過(guò)特征提取之后獲得特征矢量序列;通過(guò) SVM特征向量提取模塊獲得用于SVM分類器訓(xùn)練的定長(zhǎng)的特征矢量;在識(shí)別過(guò)程中,將HMM 語(yǔ)音識(shí)別系統(tǒng)識(shí)別出來(lái)的音節(jié)段落信息構(gòu)建成能夠用于SVM分類器分類的特征矢量信息, 然后把經(jīng)過(guò)SVM分類器得到的距離信息通過(guò)sigmoid函數(shù)擬合成后驗(yàn)概率,輸入混合解碼器獲取最后的識(shí)別結(jié)果。
6.如權(quán)利要求5所述的面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別方法,其特征在于, 該方法是采用SVM決策樹(shù)多分類器構(gòu)造方法,該方法是根據(jù)漢語(yǔ)語(yǔ)音的特點(diǎn),采用音節(jié)作為聲學(xué)載體進(jìn)行建模,所述SVM決策樹(shù)多分類器構(gòu)造方法包括首先計(jì)算特征空間中各類之間的距離;然后將分離性測(cè)度按降序進(jìn)行排序;再按二分類問(wèn)題構(gòu)造子分類器的訓(xùn)練集;重新調(diào)整訓(xùn)練集,構(gòu)造完一個(gè)節(jié)點(diǎn)后刪除其正樣本,并以下一個(gè)樣本作為正樣本、其他樣本為負(fù)樣本構(gòu)造下一個(gè)節(jié)點(diǎn)的二值分類器,直到所有節(jié)點(diǎn)分類完成。
7.如權(quán)利要求5所述的面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別方法,其特征在于, 該方法對(duì)語(yǔ)音信號(hào)在識(shí)別過(guò)程中進(jìn)行綜合計(jì)算,將SVM的輸出轉(zhuǎn)化為后驗(yàn)概率,其所采用的SVM距離到后驗(yàn)概率的計(jì)算方法包括SVM的輸出格式是y = sign (f(x))(1)N其中/(;r) = Y^ a^yχ) +b(2)7-1X是輸入向量,當(dāng)f (X) >0時(shí)y屬于正樣本,當(dāng)f(x) <0時(shí)y屬于負(fù)樣本,y在f(x) 取值下屬于正樣本的概率如式⑶所示,f(x)是SVM距離; Pf,, -11/·)-P(f\y=i)Pi(O)每個(gè)類的條件概率假設(shè)由高斯函數(shù)模型描述為正樣本 Π υ = D =(4)= 一” = ^7=^^^ ;°2(5)貝丨試(3)可表不為-.p^j - 1I,) - l+^lex^-^ii/—u.i)2-(/- _i)2))=_1_1+A"exp(—T-Sj (( ^rfi'1-1 )+2(- ι^ι —u \ )/))—_1_ (6)A和B是估計(jì)參數(shù),在模型訓(xùn)練參數(shù)設(shè)定時(shí)由LibSVM模型工具包獲得。
8.如權(quán)利要求7所述的面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別方法,其特征在于, 所述方法采用了 SVM/sigmoid混合訓(xùn)練模型由于SVM輸出值的符號(hào)表示其分類結(jié)果,其絕對(duì)值表示樣本到分類面的距離,因此為了得到校準(zhǔn)的后驗(yàn)概率,將SVM的輸出通過(guò)sigmoid函數(shù)轉(zhuǎn)換成概率模型以提高模型的性能式(6)中的參數(shù)A和B通過(guò)最大似然問(wèn)題加以確定minA,BF(A,B) = - Σ i = ! Ui (log(Pi) + (I^i) log(1-Pi)) (7)其中 Pi = P(A),{(j 1) Z (.ι \ ι 2) y% ~~~ 1, ο、(ο;l/(iV—+ 2) yi = —1Ν+為正樣本數(shù),Ν_為負(fù)樣本數(shù)。
9.如權(quán)利要求8所述的面向農(nóng)產(chǎn)品數(shù)據(jù)采集的移動(dòng)設(shè)備語(yǔ)音識(shí)別方法,其特征在于, 所述SVM/sigmoid混合訓(xùn)練模型的訓(xùn)練方法包括將采集的語(yǔ)音通過(guò)Baum-Welch算法來(lái)訓(xùn)練HMM模型,所采用的HMM拓?fù)浣Y(jié)構(gòu)為自左向右二轉(zhuǎn)移多維混合高斯密度函數(shù)連續(xù)的HMM 模型,在訓(xùn)練過(guò)程中,將HMM作為訓(xùn)練模型的一部分和SVM共同組成訓(xùn)練模型,以HMM為訓(xùn)練模型的前級(jí),以此對(duì)用于SVM模型訓(xùn)練的訓(xùn)練數(shù)據(jù)進(jìn)行有區(qū)分性的特征變化,并以HMM的多維概率輸出作為后級(jí)SVM模型的輸入矢量,最后SVM的輸出通過(guò)Sigmoid函數(shù)按(6)式轉(zhuǎn)換為后驗(yàn)概率。
全文摘要
一種移動(dòng)設(shè)備農(nóng)產(chǎn)品數(shù)據(jù)采集系統(tǒng)及其語(yǔ)音識(shí)別系統(tǒng)、方法,所采用的語(yǔ)音識(shí)別引擎包括特征提取模塊、HMM語(yǔ)音識(shí)別系統(tǒng)、SVM特征向量提取模塊及SVM訓(xùn)練模塊和混合解碼模塊,語(yǔ)音信號(hào)的訓(xùn)練樣本經(jīng)過(guò)特征提取之后獲得特征矢量序列;通過(guò)SVM特征向量提取模塊獲得用于SVM分類器訓(xùn)練的定長(zhǎng)的特征矢量;在識(shí)別過(guò)程中,將HMM語(yǔ)音識(shí)別系統(tǒng)識(shí)別出來(lái)的音節(jié)段落信息構(gòu)建成能夠用于SVM分類器分類的特征矢量信息,然后把經(jīng)過(guò)SVM分類器得到的距離信息通過(guò)sigmoid函數(shù)擬合成后驗(yàn)概率,輸入混合解碼器獲取最后的識(shí)別結(jié)果。本發(fā)明能夠有效地克服移動(dòng)設(shè)備操作性差的問(wèn)題,降低采集過(guò)程中對(duì)人員信息化水平的要求,提高農(nóng)業(yè)現(xiàn)場(chǎng)信息采集的環(huán)境適應(yīng)性。
文檔編號(hào)G08C17/02GK102543074SQ20111045687
公開(kāi)日2012年7月4日 申請(qǐng)日期2011年12月30日 優(yōu)先權(quán)日2011年12月30日
發(fā)明者劉升平, 海占廣, 諸葉平, 趙俊峰 申請(qǐng)人:中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所