語音識別的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種語音識別的方法,終端獲取輸入語音;所述終端提取所述輸入語音的樣本特征;所述終端根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,所述本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。本發(fā)明還公開了一種語音識別的系統(tǒng)。本發(fā)明提高了語音交互過程中語音識別的準(zhǔn)確度。
【專利說明】
語音識別的方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及語音交互領(lǐng)域,尤其涉及語音識別的方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,智能硬件的應(yīng)用越來越廣泛,例如智能電視、智能手環(huán)、智能機(jī)器人等。在智能硬件中,為了便捷的獲取信息,大部分智能硬件廠商都提供語音交互這樣一種人機(jī)交互方式。在進(jìn)行語音交互時(shí),智能硬件獲取用戶輸入的語音信息,然后通過語音識別輸出相應(yīng)的信息或者執(zhí)行相應(yīng)的指令。當(dāng)語音識別不準(zhǔn)確時(shí),智能硬件無法輸出正確的信息或者執(zhí)行正確的指令,降低用戶體驗(yàn),因此提升語音交互過程中語音識別的準(zhǔn)確度是一個(gè)亟待解決的問題。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的主要目的在于提供一種語音識別的方法及系統(tǒng),旨在實(shí)現(xiàn)提高語音交互過程中語音識別的準(zhǔn)確度的目的。
[0004]為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種語音識別的方法包括以下步驟:
[0005]終端獲取輸入語音;
[0006]所述終端提取所述輸入語音的樣本特征;
[0007]所述終端根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,所述本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值
口 O
[0008]優(yōu)選地,所述語音識別輸出值集合包含語音的樣本特征與語音識別輸出值的對應(yīng)關(guān)系;
[0009]所述終端根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音包括:
[0010]所述終端在所述語音識別輸出值集合中搜索是否有與所述樣本特征對應(yīng)的語音識別輸出值;
[0011]當(dāng)搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),所述終端獲取所述語音識別輸出值;
[0012]當(dāng)未搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),所述終端根據(jù)檢測到的所述終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別。
[0013]優(yōu)選地,所述終端在所述語音識別輸出值集合中搜索是否有與所述樣本特征對應(yīng)的語音識別輸出值包括:
[0014]所述終端判斷所述網(wǎng)絡(luò)信號強(qiáng)度是否大于第一預(yù)設(shè)值;
[0015]若是,所述終端發(fā)送所述樣本特征至所述終端的自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語音識別;
[0016]若否,所述終端將所述樣本特征輸入至所述語音識別模型,輸出預(yù)測的識別結(jié)果。
[0017]優(yōu)選地,所述方法還包括:
[0018]在所述自有云服務(wù)器接收到所述樣本特征后,在所述自有云服務(wù)器中進(jìn)行搜索;
[0019]當(dāng)在所述自有云服務(wù)器中搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),所述自有云服務(wù)器獲取所述識別結(jié)果;
[0020]當(dāng)在所述自有云服務(wù)器中未搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),若所述云服務(wù)器檢測到所述網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值,所述云服務(wù)器發(fā)送所述樣本特征至第三方語音服務(wù)器,通過所述第三方語音識別服務(wù)器識別所述輸入語音。
[0021]優(yōu)選地,所述終端根據(jù)所述樣本特征在所述語音識別輸出值中搜索是否有與所述樣本特征對應(yīng)的語音識別輸出值之前包括:
[0022]所述終端將所述樣本特征與預(yù)置的樣本庫進(jìn)行對比分析;
[0023]當(dāng)所述樣本特征與所述樣本庫中預(yù)置樣本特征的相似度高于預(yù)設(shè)值時(shí),所述終端執(zhí)行所述根據(jù)所述樣本特征在所述本地?cái)?shù)據(jù)庫中進(jìn)行搜索的步驟;
[0024]當(dāng)所述樣本特征與所述樣本庫中任一預(yù)置樣本特征的相似度低于預(yù)設(shè)值時(shí),所述終端執(zhí)行所述發(fā)送所述樣本特征至所述終端的自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語音識別的步驟。
[0025]此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種語音識別的系統(tǒng),所述系統(tǒng)包括:終端;
[0026]所述終端包括:
[0027]獲取模塊,用于獲取輸入語音;
[0028]特征提取模塊,用于提取所述輸入語音的樣本特征;
[0029]語音識別模塊,用于根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,所述本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。
[0030]優(yōu)選地,所述語音識別輸出值集合包含語音的樣本特征與語音識別輸出值的對應(yīng)關(guān)系;
[0031 ]所述語音識別模塊包括:
[0032]搜索子模塊,用于在所述語音識別輸出值集合中搜索是否有與所述樣本特征對應(yīng)的語音識別輸出值;
[0033]第一識別子模塊,用于當(dāng)搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),獲取所述語音識別輸出值;
[0034]第二識別子模塊,用于當(dāng)未搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),根據(jù)檢測到的所述終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別。
[0035]優(yōu)選地,所述系統(tǒng)還包括所述終端對應(yīng)的自有云服務(wù)器;
[0036]所述第二識別子模塊包括:
[0037]判斷單元,用于判斷所述網(wǎng)絡(luò)信號強(qiáng)度是否大于第一預(yù)設(shè)值;
[0038]第一識別單元,用于當(dāng)所述網(wǎng)絡(luò)信號強(qiáng)度大于第一預(yù)設(shè)值時(shí),發(fā)送所述樣本特征至所述自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語音識別;
[0039]第二識別單元,用于當(dāng)所述網(wǎng)絡(luò)信號強(qiáng)度小于第一預(yù)設(shè)值時(shí),將所述樣本特征輸入至所述語音識別模型,輸出預(yù)測的識別結(jié)果。
[0040]優(yōu)選地,所述自有云服務(wù)器包括:
[0041 ]搜索模塊,用于在所述自有云服務(wù)器接收到所述樣本特征后,在所述自有云服務(wù)器中進(jìn)行搜索;
[0042]識別模塊,用于當(dāng)在所述自有云服務(wù)器中搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),獲取所述識別結(jié)果;
[0043]發(fā)送模塊,用于當(dāng)在所述自有云服務(wù)器中未搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),若檢測到所述網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值,發(fā)送所述樣本特征至第三方語音服務(wù)器,通過所述第三方語音識別服務(wù)器識別所述輸入語音。
[0044]優(yōu)選地,所述終端還包括:
[0045]對比分析模塊,用于將所述樣本特征與預(yù)置的樣本庫進(jìn)行對比分析;
[0046]第一觸發(fā)模塊,用于當(dāng)所述樣本特征與所述樣本庫中預(yù)置樣本特征的相似度高于預(yù)設(shè)值時(shí),觸發(fā)所述搜索子模塊根據(jù)所述樣本特征在所述本地?cái)?shù)據(jù)庫中進(jìn)行搜索;
[0047]所述第一識別單元,還用于當(dāng)所述樣本特征與所述樣本庫中預(yù)置樣本特征的相似度低于預(yù)設(shè)值時(shí),發(fā)送所述樣本特征至所述自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語首識別;
[0048]本發(fā)明實(shí)施例通過終端獲取輸入語音;所述終端提取所述輸入語音的樣本特征;所述終端根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,所述本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。由于本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)語音識別模型得到的語音識別的輸出值,因此,在利用該本地?cái)?shù)據(jù)庫識別輸入語音時(shí),語音識別的結(jié)果更精確,從而實(shí)現(xiàn)了在語音交互的過程中提高語音識別的準(zhǔn)確度的目的。
【附圖說明】
[0049]圖1為本發(fā)明語音識別的方法第一實(shí)施例的步驟流程示意圖;
[0050]圖2為圖1所示實(shí)施例中通過基本的聲音結(jié)構(gòu)得到某段聲音的示意圖;
[0051]圖3為圖1所示實(shí)施例中通過稀疏編碼表示目標(biāo)聲音的示意圖;
[0052]圖4為本發(fā)明圖1所示實(shí)施例中步驟S30的細(xì)化步驟流程示意圖;
[0053]圖5為本發(fā)明為圖4所示實(shí)施例中步驟S330中根據(jù)檢測到的所述終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別的細(xì)化步驟流程示意圖;
[0054]圖6為本發(fā)明自有云服務(wù)器中進(jìn)行語音識別的細(xì)化步驟流程示意圖;
[0055]圖7為本發(fā)明圖6所示實(shí)施例中自有云服務(wù)器的架構(gòu)示意圖;
[0056]圖8為本發(fā)明語音識別的系統(tǒng)第一實(shí)施例的功能模塊示意圖;
[0057]圖9為圖8所示實(shí)施例中語音識別模塊30的細(xì)化功能模塊示意圖;
[0058]圖10為圖9所示實(shí)施例中第二識別子模塊330的細(xì)化功能模塊示意圖;
[0059]圖11為本發(fā)明自有云服務(wù)器12包括的功能模塊示意圖。
[0060]本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明。
【具體實(shí)施方式】
[0061]應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0062]本發(fā)明提供一種語音識別的方法。參照圖1,在第一實(shí)施例中,該方法包括:
[0063]步驟SlO,終端獲取輸入語音;
[0064]步驟S20,所述終端提取所述輸入語音的樣本特征;
[0065]步驟S30,所述終端根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,所述本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。
[0066]本發(fā)明提供的語音識別的方法,用于在語音交互的情況下,對輸入的語音進(jìn)行識另O。在語音交互時(shí),一般需要在終端通過終端的聲音輸入設(shè)備接收用戶輸入的語音,然后對接收到的聲音進(jìn)行處理,再將輸入的聲音轉(zhuǎn)化為文字輸出,或者是將輸入的聲音識別后,通過控制指令控制終端的運(yùn)行。終端可以理解為接收聲音輸入的載體,終端可以為手機(jī)、平板、智能電視、智能空調(diào)、智能機(jī)器人等各種具備語音交互功能的設(shè)備。
[0067]本實(shí)施例中上述輸入語音是語音交互過程中,用戶輸入的語音。當(dāng)終端獲取到輸入的語音后,對語音進(jìn)行處理,具體的,獲取到的輸入語音會以聲音數(shù)據(jù)的形式存在,然后將聲音數(shù)據(jù)進(jìn)行頻譜分析,再提取樣本特征存入終端。頻譜分析是指,對信號進(jìn)行傅里葉變換,得到其振幅譜與相位譜,具體的頻譜分析的方法有很多,可以根據(jù)需要進(jìn)行選擇。對輸入語音進(jìn)行特征提取是為了進(jìn)一步將語音進(jìn)行分析,具體進(jìn)行特征提取的方法屬于現(xiàn)有技術(shù),這里不再贅述,可以根據(jù)需要進(jìn)行選擇提取語音的方法。
[0068]當(dāng)提取輸入語音的樣本特征后,根據(jù)樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別輸入語音。預(yù)置的本地?cái)?shù)據(jù)庫是存在于終端上的本地?cái)?shù)據(jù)庫,無需終端聯(lián)網(wǎng),就可以直接訪問該數(shù)據(jù)庫,獲取數(shù)據(jù)庫中的信息,可以將在本地?cái)?shù)據(jù)庫保存的數(shù)據(jù)理解為保存聲音數(shù)據(jù)的二級緩存。
[0069]在本地?cái)?shù)據(jù)庫中,包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。深度學(xué)習(xí)主要是利用類似人工神經(jīng)網(wǎng)絡(luò)的特征,人工神經(jīng)網(wǎng)絡(luò)時(shí)具有層次結(jié)構(gòu)的系統(tǒng),且層次是遞進(jìn)的,高層表達(dá)由低層表達(dá)的組合而成。由淺入深完成層次構(gòu)建。具體的深度學(xué)習(xí)的實(shí)質(zhì)是通過構(gòu)建各種學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)重要的特征,從而達(dá)到提升判斷的準(zhǔn)確性。在進(jìn)行深度學(xué)習(xí)時(shí),會采集各種聲音,對采集到的聲音提取其特征,這些采集到的聲音作為訓(xùn)練集,再將訓(xùn)練集通過持續(xù)學(xué)習(xí)提高模型預(yù)測準(zhǔn)確度,訓(xùn)練的過程就是優(yōu)化模型的權(quán)重的過程。在對樣本進(jìn)行了訓(xùn)練優(yōu)化了模型后,將輸入的聲音輸入給該模型,會得到輸出值,該輸出值就是對輸入的聲音進(jìn)行識別的預(yù)測值。
[0070]在建立語音識別模型時(shí),可以采用稀疏編碼算法來進(jìn)行。稀疏編碼(SparseCoding)就是將一個(gè)信號表示為一組基的線性組合,而且要求只需要較少的幾個(gè)基就可以將信號表示出來。根據(jù)現(xiàn)有技術(shù)的研究表明,各種無序的聲音中可以找出20種基本的聲音結(jié)構(gòu),其他的聲音都可以通過這20種進(jìn)行合成得出。如圖2所示,左邊表示20種基本的聲音結(jié)構(gòu),右邊表不根據(jù)這20種基本的聲音結(jié)構(gòu)合成的某一段聲音,目標(biāo)合成聲音根據(jù)20種基本聲音在合成時(shí)的權(quán)重值決定。在采用稀疏編碼表示聲音的特征,可以為Target =SUM(a[k]*S[k]),其中,a[k]是在疊加元素S[k]時(shí)的權(quán)重系數(shù),S[k]是基本聲音結(jié)構(gòu)中的一種,如圖3所示,為通過稀疏編碼表示目標(biāo)聲音的Target = SUM(a[k]*S[k])的示意圖,x為某一個(gè)時(shí)間點(diǎn)的聲音,0.9為權(quán)重系數(shù),S卩a[k],(i) 36為基本聲音結(jié)構(gòu)中的一種,S卩S[k]。通過稀疏編碼的方式可以構(gòu)建音高、音色、音量特征各異的樣本集,然后將樣本集通過預(yù)置的訓(xùn)練算法進(jìn)行訓(xùn)練,優(yōu)化語音識別模型的網(wǎng)絡(luò)權(quán)重。常用的基于深度學(xué)習(xí)的訓(xùn)練算法有很多,可以根據(jù)需要進(jìn)行選擇。
[0071]根據(jù)所述語音識別模型得到的語音識別輸出值集合是指,將若干預(yù)先輸入的語音通過特征提取經(jīng)過語音識別模型得到的輸出值的集合,這些輸出值代表的是輸入的語音的識別結(jié)果,可以在識別時(shí)根據(jù)搜索獲取得到。
[0072]本發(fā)明實(shí)施例通過終端獲取輸入語音;所述終端提取所述輸入語音的樣本特征;所述終端根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,所述本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。由于本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)語音識別模型得到的語音識別的輸出值,因此,在利用該本地?cái)?shù)據(jù)庫識別輸入語音時(shí),語音識別的結(jié)果更精確,從而實(shí)現(xiàn)了在語音交互的過程中提高語音識別的準(zhǔn)確度的目的。
[0073]參照圖4,為步驟S30的細(xì)化步驟流程示意圖,上述步驟S30包括:
[0074]步驟S310,所述終端在所述語音識別輸出值集合中搜索是否有與所述樣本特征對應(yīng)的語音識別輸出值;若是,執(zhí)行步驟S320;若否,執(zhí)行步驟S330;
[0075]步驟S320,所述終端獲取所述語音識別輸出值;
[0076]步驟S330,所述終端根據(jù)檢測到的所述終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別。
[0077]本實(shí)施例中,由于將一組語音的樣本特征通過語音識別模型得到對應(yīng)的輸出值,因此在語音識別輸出值集合中包含語音的樣本特征與語音識別輸出值的對應(yīng)關(guān)系,在進(jìn)行語音識別的時(shí)候,將所述樣本特征在語音識別輸出值集合中進(jìn)行搜索,具體的在搜索時(shí)采用預(yù)置的搜索引擎,搜索是否存在樣本特征對應(yīng)的語音識別輸出值。
[0078]當(dāng)搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),獲取該語音識別輸出值,該語音識別輸出值即為該段輸入語音的識別結(jié)果,然后可以在終端輸出識別結(jié)果,也可以根據(jù)輸出結(jié)果執(zhí)行對應(yīng)的操作,如該語音交互過程是控制智能機(jī)器人智能某些指令,則此時(shí)控制智能機(jī)器人執(zhí)行對應(yīng)的操作,又或者是該語音交互過程是在瀏覽器中進(jìn)行某些內(nèi)容的檢索,則根據(jù)識別出的結(jié)果執(zhí)行對應(yīng)的檢索過程將檢索結(jié)果顯示在用戶終端。
[0079]當(dāng)未搜索到樣本特征對應(yīng)的語音識別輸出值時(shí),根據(jù)檢測到的終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別。上述終端的網(wǎng)絡(luò)信號的強(qiáng)度的檢測方法在現(xiàn)有技術(shù)中有很多,可以根據(jù)需要選擇,不再贅述,對終端的網(wǎng)絡(luò)信號的強(qiáng)度進(jìn)行判斷的目的是判斷此時(shí)的網(wǎng)絡(luò)環(huán)境。根據(jù)網(wǎng)絡(luò)環(huán)境的狀況是否良好進(jìn)行下一步的操作。
[0080]本實(shí)施例通過終端在語音識別輸出值集合中搜索是否有與樣本特征對應(yīng)的語音識別輸出值,當(dāng)檢索到樣本特征對應(yīng)的語音識別輸出值時(shí),獲取該語音識別輸出值,提高了識別的準(zhǔn)確度。同時(shí),當(dāng)未檢索到樣本特征對應(yīng)的語音識別輸出值時(shí),根據(jù)終端的網(wǎng)絡(luò)信號的強(qiáng)度進(jìn)行語音識別,避免網(wǎng)絡(luò)信號不強(qiáng)的時(shí)候嘗試發(fā)送樣本特征至其他服務(wù)器或等待其他服務(wù)器返回連接請求,提高了語音識別的速度。
[0081]參照圖5,為步驟S330中根據(jù)檢測到的所述終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別的細(xì)化步驟流程示意圖,所述步驟S330中根據(jù)檢測到的所述終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別還包括:
[0082]步驟S331,所述終端判斷所述網(wǎng)絡(luò)信號強(qiáng)度是否大于第一預(yù)設(shè)值;若是,則執(zhí)行步驟S332 ;若否,則執(zhí)行步驟S333 ;
[0083]步驟S332,所述終端發(fā)送所述樣本特征至所述終端的自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語音識別;
[0084]步驟S333,所述終端將所述樣本特征輸入至所述語音識別模型,輸出預(yù)測的識別結(jié)果。
[0085]本實(shí)施例是終端根據(jù)網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別的細(xì)化步驟。具體的判斷網(wǎng)絡(luò)信號強(qiáng)度是否大于預(yù)設(shè)值,預(yù)設(shè)值的大小可以根據(jù)需要進(jìn)行設(shè)定,可以為固定的值,也可以為變化的值。
[0086]當(dāng)網(wǎng)絡(luò)信號強(qiáng)度大于第一預(yù)設(shè)值時(shí),表明此時(shí)終端的網(wǎng)絡(luò)環(huán)境好,此時(shí)發(fā)送樣本特征至終端的自有云服務(wù)器,通過自有云服務(wù)器進(jìn)行語音識別。上述自有云服務(wù)器是指該終端的網(wǎng)絡(luò)端云服務(wù)器,自有云服務(wù)器中存在的數(shù)據(jù)可以理解為一級緩存。
[0087]當(dāng)此時(shí)網(wǎng)絡(luò)信號強(qiáng)度不大于第一預(yù)設(shè)值時(shí),表明此時(shí)網(wǎng)絡(luò)環(huán)境可能較差,發(fā)送樣本特征至自有云服務(wù)器可能無法發(fā)送成功,因此,直接根據(jù)本地?cái)?shù)據(jù)庫中的語音識別模型得到預(yù)測的識別結(jié)果??梢岳斫獾氖?,在語音識別模型中若輸出的預(yù)測結(jié)果包括預(yù)測值和置信度,則可以在輸出時(shí)確認(rèn)通過語音識別模型輸出的置信度最高的結(jié)果為語音識別的結(jié)果O
[0088]本實(shí)施例通過終端判斷網(wǎng)路信號強(qiáng)度是否大于第一預(yù)設(shè)值,若是則發(fā)送樣本特征至終端的自有云服務(wù)器,在自有云服務(wù)器中進(jìn)行檢索,當(dāng)網(wǎng)絡(luò)信號不好的時(shí)候,根據(jù)語音識別模型輸出預(yù)測的識別結(jié)果,避免相應(yīng)延時(shí),同時(shí)提高網(wǎng)絡(luò)識別的準(zhǔn)確度。結(jié)合先在本地?cái)?shù)據(jù)庫搜索再在自有云服務(wù)器進(jìn)行檢索的方式,也提高了語音識別的速度。
[0089]參照圖6,為自有云服務(wù)器中進(jìn)行語音識別的細(xì)化步驟流程示意圖,本實(shí)施例中,本發(fā)明提出的語音識別的方法還包括:
[0090]步驟SlOl,在所述自有云服務(wù)器接收到所述樣本特征后,在所述自有云服務(wù)器中進(jìn)行搜索;
[0091]步驟S102,當(dāng)在所述自有云服務(wù)器中搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),所述自有云服務(wù)器獲取所述識別結(jié)果;
[0092]步驟S103,當(dāng)在所述自有云服務(wù)器中未搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),若所述云服務(wù)器檢測到所述網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值,所述云服務(wù)器發(fā)送所述樣本特征至第三方語音服務(wù)器,通過所述第三方語音識別服務(wù)器識別所述輸入語音。
[0093]本實(shí)施例中主要說明了在自有云服務(wù)器中進(jìn)行語音識別的過程。
[0094]當(dāng)終端發(fā)送樣本特征到自有云服務(wù)器后,在自有云服務(wù)器中進(jìn)行搜索,當(dāng)搜索到樣本特征對應(yīng)的識別結(jié)果時(shí),獲取該識別結(jié)果。
[0095]在自有云服務(wù)器中也可以存放比本地?cái)?shù)據(jù)庫中更復(fù)雜的基于深度學(xué)習(xí)的語音識別模型,和根據(jù)該語音識別模型得到的輸出值,因?yàn)樽杂性品?wù)器部署在云端,通常有多個(gè)分布式緩存服務(wù)器,計(jì)算能力更強(qiáng)。同時(shí),在本地?cái)?shù)據(jù)庫中存放的語音識別的輸出結(jié)果,可以根據(jù)使用情況存放使用頻率最高的,在自有云服務(wù)器中存放使用頻率略低的??梢岳斫獾氖?,本地?cái)?shù)據(jù)庫中存放的數(shù)據(jù)和自有云服務(wù)器中存放的數(shù)據(jù)隨著使用進(jìn)行不斷更新,從而使得語音識別的過程更加精確和快速。同時(shí),在獲取語音識別的結(jié)果時(shí),就可以將識別結(jié)果保存至自有云服務(wù)器和/或本地?cái)?shù)據(jù)庫,并且根據(jù)識別結(jié)果進(jìn)行深度學(xué)習(xí),使得隨著使用次數(shù)增多,語音識別模型的預(yù)測度更加精確。
[0096]當(dāng)在自由云服務(wù)器中未檢索到樣本特征對應(yīng)的識別結(jié)果時(shí),若檢測到網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值,即終端的網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值時(shí),云服務(wù)器發(fā)送樣本特征至第三方語音服務(wù)器。這里第二預(yù)設(shè)值可以根據(jù)需要進(jìn)行設(shè)定,第二預(yù)設(shè)值的大小可以和第一預(yù)設(shè)值一樣,也可以和第二預(yù)設(shè)值不一樣,因?yàn)樵L問自有云服務(wù)器和訪問第三方云服務(wù)器需要的網(wǎng)速可能是不一樣的。上述第三方語音服務(wù)器為語音識別能力更強(qiáng)的服務(wù)器,通常第三方語音服務(wù)器可以為專門提供語音識別服務(wù)的廠商所提供的服務(wù)器,如科大訊飛網(wǎng)絡(luò)提供的語音識別云服務(wù)器。
[0097]可以理解的是,也可以根據(jù)使用者的年齡、身份等特征進(jìn)行分類分析,建立數(shù)據(jù)庫,使得識別結(jié)果更準(zhǔn)確。
[0098]在實(shí)現(xiàn)時(shí),自有云服務(wù)器的架構(gòu)如圖7所示,部署CDN服務(wù)器提高不同地域訪問速度差異的問題,同時(shí)CDN服務(wù)器也負(fù)責(zé)將搜索到的緩存中的數(shù)據(jù)進(jìn)行返回,用戶的訪問通過CDN服務(wù)器到達(dá)反向代理服務(wù)器,再通過均衡負(fù)載服務(wù)器,發(fā)送至應(yīng)用服務(wù)器,均衡負(fù)載服務(wù)器可以適應(yīng)大量用戶的并發(fā)訪問,實(shí)現(xiàn)數(shù)據(jù)分流,提高穩(wěn)定性。在應(yīng)用服務(wù)器上還可以增加設(shè)置本地緩存,根據(jù)歷史識別情況快速響應(yīng)識別結(jié)果。在語音交互過程中通過搜索引擎與非關(guān)系型數(shù)據(jù)庫配合完成,還可以設(shè)置數(shù)據(jù)庫服務(wù)器來存儲大量用戶的賬號和設(shè)置。同時(shí),向上與第三方語音識別服務(wù)器對接,結(jié)合第三語音識別服務(wù)器的識別能力提高識別的準(zhǔn)確度,提高用戶體驗(yàn)。
[0099]本實(shí)施例通過在自有云服務(wù)器接收到樣本特征后,在自有云服務(wù)器中進(jìn)行搜索,當(dāng)在自由云服務(wù)器中搜索到樣本特征對應(yīng)的識別結(jié)果時(shí),獲取識別結(jié)果,當(dāng)未檢測到識別結(jié)果時(shí)且終端的網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值時(shí),云服務(wù)器發(fā)送樣本特征至第三方語音服務(wù)器,通過在第三方語音服務(wù)器進(jìn)行識別提高語音識別的準(zhǔn)確度。并且,只在網(wǎng)絡(luò)環(huán)境較好的情況下才發(fā)送樣本特征至第三方語音服務(wù)器提高避免了語音識別過程中的響應(yīng)延時(shí)。
[0100]本實(shí)施例中,上述步驟S310之前包括:
[0101 ]所述終端將所述樣本特征與預(yù)置的樣本庫進(jìn)行對比分析;
[0102]當(dāng)所述樣本特征與所述樣本庫中預(yù)置樣本特征的相似度高于預(yù)設(shè)值時(shí),執(zhí)行步驟S310;
[0103]當(dāng)所述樣本特征與所述樣本庫中任一預(yù)置樣本特征的相似度低于預(yù)設(shè)值時(shí),執(zhí)行步驟S332。
[0104]本實(shí)施例中在獲取到輸入語音,提取輸入語音的樣本特征后,對樣本特征與預(yù)置的樣本庫進(jìn)行對比分析,目的是判斷是在本地?cái)?shù)據(jù)庫中直接進(jìn)行搜索,還是直接發(fā)送樣本特征至自有云服務(wù)器中進(jìn)行搜索。預(yù)置的樣本庫可以根據(jù)需要預(yù)先設(shè)定。具體的是將樣本特征與樣本庫中的樣本特征進(jìn)行匹配,上述預(yù)置樣本是指樣本庫中的預(yù)置的樣本。
[0105]當(dāng)樣本特征與樣本庫中預(yù)置樣本特征的相似度高于預(yù)設(shè)值時(shí),執(zhí)行步驟S310,SP終端根據(jù)樣本特征和終端中預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,這里預(yù)置樣本是指樣本庫中與樣本特征匹配到相似度大于預(yù)設(shè)值的樣本。當(dāng)樣本特征與樣本庫中任一預(yù)置樣本特征的相似度低于預(yù)設(shè)值時(shí),執(zhí)行步驟S332,即終端發(fā)送所述樣本特征至所述終端的自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語音識別,這里任一樣本特征匹配都小于預(yù)設(shè)值是指樣本特征與樣本庫中任何一個(gè)匹配度都小于預(yù)設(shè)值。
[0106]具體的預(yù)設(shè)值可以根據(jù)需要進(jìn)行設(shè)定,例如可以設(shè)置為80%,則當(dāng)樣本特征與樣本庫中預(yù)置樣本特征的相似度高于80%時(shí),執(zhí)行步驟S310,當(dāng)樣本特征與樣本庫中預(yù)置樣本特征的相似度低于80 %時(shí),執(zhí)行步驟S332。
[0107]本實(shí)施例通過將樣本特征與預(yù)置的樣本庫進(jìn)行對比分析,當(dāng)樣本特征與樣本庫中預(yù)置樣本特征的相似度高于預(yù)設(shè)值時(shí),根據(jù)樣本特征在本地?cái)?shù)據(jù)庫中進(jìn)行搜索,當(dāng)樣本特征與樣本庫中任一樣本特征的相似度低于預(yù)設(shè)值時(shí),直接發(fā)送樣本特征至自由云服務(wù)器進(jìn)行匹配,在保證語音識別的準(zhǔn)確度的同時(shí)提高了語音識別的速度。
[0108]本發(fā)明還提供一種語音識別的系統(tǒng),參照圖8,提供了本發(fā)明語音識別的系統(tǒng)第一實(shí)施例,該實(shí)施例中,語音識別的系統(tǒng)包括終端11:所述終端包括:
[0109]獲取模塊10,用于獲取輸入語音;
[0110]特征提取模塊20,用于提取所述輸入語音的樣本特征;
[0111]語音識別模塊30,用于根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,所述本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。
[0112]本發(fā)明提供的語音識別的系統(tǒng),用于在語音交互的情況下,對輸入的語音進(jìn)行識另O。在語音交互時(shí),一般需要在終端通過終端的聲音輸入設(shè)備接收用戶輸入的語音,然后對接收到的聲音進(jìn)行處理,再將輸入的聲音轉(zhuǎn)化為文字輸出,或者是將輸入的聲音識別后,通過控制指令控制終端的運(yùn)行。這里語音識別的系統(tǒng)包括終端,終端可以理解為接收聲音輸入的載體,終端可以為手機(jī)、平板、智能電視、智能空調(diào)、智能機(jī)器人等各種具備語音交互功能的設(shè)備。
[0113]本實(shí)施例中上述輸入語音是語音交互過程中,用戶輸入的語音。當(dāng)獲取模塊10獲取到輸入的語音后,特征提取模塊20對語音進(jìn)行處理,具體的,獲取到的輸入語音會以聲音數(shù)據(jù)的形式存在,然后將聲音數(shù)據(jù)進(jìn)行頻譜分析,再提取樣本特征存入終端。頻譜分析是指,對信號進(jìn)行傅里葉變換,得到其振幅譜與相位譜,具體的頻譜分析的方法有很多,可以根據(jù)需要進(jìn)行選擇。對輸入語音進(jìn)行特征提取是為了進(jìn)一步將語音進(jìn)行分析,具體進(jìn)行特征提取的方法屬于現(xiàn)有技術(shù),這里不再贅述,可以根據(jù)需要進(jìn)行選擇提取語音的方法。
[0114]當(dāng)提取輸入語音的樣本特征后,語音識別模塊30根據(jù)樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別輸入語音。預(yù)置的本地?cái)?shù)據(jù)庫是存在于終端上的本地?cái)?shù)據(jù)庫,無需終端聯(lián)網(wǎng),就可以直接訪問該數(shù)據(jù)庫,獲取數(shù)據(jù)庫中的信息,可以將在本地?cái)?shù)據(jù)庫保存的數(shù)據(jù)理解為保存聲音數(shù)據(jù)的二級緩存。
[0115]在本地?cái)?shù)據(jù)庫中,包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。深度學(xué)習(xí)主要是利用類似人工神經(jīng)網(wǎng)絡(luò)的特征,人工神經(jīng)網(wǎng)絡(luò)時(shí)具有層次結(jié)構(gòu)的系統(tǒng),且層次是遞進(jìn)的,高層表達(dá)由低層表達(dá)的組合而成。由淺入深完成層次構(gòu)建。具體的深度學(xué)習(xí)的實(shí)質(zhì)是通過構(gòu)建各種學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)重要的特征,從而達(dá)到提升判斷的準(zhǔn)確性。在進(jìn)行深度學(xué)習(xí)時(shí),會采集各種聲音,對采集到的聲音提取其特征,這些采集到的聲音作為訓(xùn)練集,再將訓(xùn)練集通過持續(xù)學(xué)習(xí)提高模型預(yù)測準(zhǔn)確度,訓(xùn)練的過程就是優(yōu)化模型的權(quán)重的過程。在對樣本進(jìn)行了訓(xùn)練優(yōu)化了模型后,將輸入的聲音輸入給該模型,會得到輸出值,該輸出值就是對輸入的聲音進(jìn)行識別的預(yù)測值。
[0116]在建立語音識別模型時(shí),可以采用稀疏編碼算法來進(jìn)行。稀疏編碼(SparseCoding)就是將一個(gè)信號表示為一組基的線性組合,而且要求只需要較少的幾個(gè)基就可以將信號表示出來。根據(jù)現(xiàn)有技術(shù)的研究表明,各種無序的聲音中可以找出20種基本的聲音結(jié)構(gòu),其他的聲音都可以通過這20種進(jìn)行合成得出。如圖2所示,左邊表示20種基本的聲音結(jié)構(gòu),右邊表不根據(jù)這20種基本的聲音結(jié)構(gòu)合成的某一段聲音,目標(biāo)合成聲音根據(jù)20種基本聲音在合成時(shí)的權(quán)重值決定。在采用稀疏編碼表示聲音的特征,可以為Target =SUM(a[k]*S[k]),其中,a[k]是在疊加元素S[k]時(shí)的權(quán)重系數(shù),S[k]是基本聲音結(jié)構(gòu)中的一種,如圖3所示,為通過稀疏編碼表示目標(biāo)聲音的Target = SUM(a[k]*S[k])的示意圖,x為某一個(gè)時(shí)間點(diǎn)的聲音,0.9為權(quán)重系數(shù),S卩a[k],(i) 36為基本聲音結(jié)構(gòu)中的一種,S卩S[k]。通過稀疏編碼的方式可以構(gòu)建音高、音色、音量特征各異的樣本集,然后將樣本集通過預(yù)置的訓(xùn)練算法進(jìn)行訓(xùn)練,優(yōu)化語音識別模型的網(wǎng)絡(luò)權(quán)重。常用的基于深度學(xué)習(xí)的訓(xùn)練算法有很多,可以根據(jù)需要進(jìn)行選擇。
[0117]根據(jù)所述語音識別模型得到的語音識別輸出值集合是指,將若干預(yù)先輸入的語音通過特征提取經(jīng)過語音識別模型得到的輸出值的集合,這些輸出值代表的是輸入的語音的識別結(jié)果,可以在識別時(shí)根據(jù)搜索獲取得到。
[0118]本發(fā)明實(shí)施例通過終端獲取輸入語音;所述終端提取所述輸入語音的樣本特征;所述終端根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,所述本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。由于本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)語音識別模型得到的語音識別的輸出值,因此,在利用該本地?cái)?shù)據(jù)庫識別輸入語音時(shí),語音識別的結(jié)果更精確,從而實(shí)現(xiàn)了在語音交互的過程中提高語音識別的準(zhǔn)確度的目的。
[0119]參照圖9,為圖8所示實(shí)施例中語音識別模塊30的細(xì)化功能模塊示意圖,上述語音識別t旲塊30包括:
[0120]搜索子模塊310,用于在所述語音識別輸出值集合中搜索是否有與所述樣本特征對應(yīng)的語音識別輸出值;
[0121]第一識別子模塊320,用于當(dāng)搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),獲取所述語音識別輸出值;
[0122]第二識別子模塊330,用于當(dāng)未搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),根據(jù)檢測到的所述終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別。
[0123]本實(shí)施例中,由于將一組語音的樣本特征通過語音識別模型得到對應(yīng)的輸出值,因此在語音識別輸出值集合中包含語音的樣本特征與語音識別輸出值的對應(yīng)關(guān)系,在進(jìn)行語音識別的時(shí)候,將所述樣本特征在語音識別輸出值集合中進(jìn)行搜索,具體的在搜索時(shí)采用預(yù)置的搜索引擎,搜索是否存在樣本特征對應(yīng)的語音識別輸出值。
[0124]當(dāng)搜索子模塊310搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),第一識別子模塊320獲取該語音識別輸出值,該語音識別輸出值即為該段輸入語音的識別結(jié)果,然后可以在終端輸出識別結(jié)果,也可以根據(jù)輸出結(jié)果執(zhí)行對應(yīng)的操作,如該語音交互過程是控制智能機(jī)器人智能某些指令,則此時(shí)控制智能機(jī)器人執(zhí)行對應(yīng)的操作,又或者是該語音交互過程是在瀏覽器中進(jìn)行某些內(nèi)容的檢索,則根據(jù)識別出的結(jié)果執(zhí)行對應(yīng)的檢索過程將檢索結(jié)果顯示在用戶終端。
[0125]當(dāng)未搜索到樣本特征對應(yīng)的語音識別輸出值時(shí),第二識別子模塊330根據(jù)檢測到的終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別。上述終端的網(wǎng)絡(luò)信號的強(qiáng)度的檢測方法在現(xiàn)有技術(shù)中有很多,可以根據(jù)需要選擇,不再贅述,對終端的網(wǎng)絡(luò)信號的強(qiáng)度進(jìn)行判斷的目的是判斷此時(shí)的網(wǎng)絡(luò)環(huán)境。根據(jù)網(wǎng)絡(luò)環(huán)境的狀況是否良好進(jìn)行下一步的操作。
[0126]本實(shí)施例通過終端在語音識別輸出值集合中搜索是否有與樣本特征對應(yīng)的語音識別輸出值,當(dāng)檢索到樣本特征對應(yīng)的語音識別輸出值時(shí),獲取該語音識別輸出值,提高了識別的準(zhǔn)確度。同時(shí),當(dāng)未檢索到樣本特征對應(yīng)的語音識別輸出值時(shí),根據(jù)終端的網(wǎng)絡(luò)信號的強(qiáng)度進(jìn)行語音識別,避免網(wǎng)絡(luò)信號不強(qiáng)的時(shí)候嘗試發(fā)送樣本特征至其他服務(wù)器或等待其他服務(wù)器返回連接請求,提高了語音識別的速度。
[0127]參照圖10,為圖9所示實(shí)施例中第二識別子模塊330的細(xì)化功能模塊示意圖,所述系統(tǒng)還包括所述終端對應(yīng)的自有云服務(wù)器12;
[0128]所述第二識別子模塊330包括:
[0129]判斷單元331,用于判斷所述網(wǎng)絡(luò)信號強(qiáng)度是否大于第一預(yù)設(shè)值;
[0130]第一識別單元332,用于當(dāng)所述網(wǎng)絡(luò)信號強(qiáng)度大于第一預(yù)設(shè)值時(shí),發(fā)送所述樣本特征至所述自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語音識別;
[0131]第二識別單元333,用于當(dāng)所述網(wǎng)絡(luò)信號強(qiáng)度小于第一預(yù)設(shè)值時(shí),將所述樣本特征輸入至所述語音識別模型,輸出預(yù)測的識別結(jié)果。
[0132]本實(shí)施例提供的功能模塊用于根據(jù)網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別。具體的,判斷單元331判斷網(wǎng)絡(luò)信號強(qiáng)度是否大于預(yù)設(shè)值,預(yù)設(shè)值的大小可以根據(jù)需要進(jìn)行設(shè)定,可以為固定的值,也可以為變化的值。
[0133]當(dāng)網(wǎng)絡(luò)信號強(qiáng)度大于第一預(yù)設(shè)值時(shí),表明此時(shí)終端的網(wǎng)絡(luò)環(huán)境好,第一識別單元332發(fā)送樣本特征至終端的自有云服務(wù)器,通過自有云服務(wù)器進(jìn)行語音識別。上述自有云服務(wù)器是指該終端的網(wǎng)絡(luò)端云服務(wù)器,自有云服務(wù)器中存在的數(shù)據(jù)可以理解為一級緩存。
[0134]當(dāng)此時(shí)網(wǎng)絡(luò)信號強(qiáng)度不大于第一預(yù)設(shè)值時(shí),表明此時(shí)網(wǎng)絡(luò)環(huán)境可能較差,發(fā)送樣本特征至自有云服務(wù)器可能無法發(fā)送成功,因此,第二識別單元333根據(jù)本地?cái)?shù)據(jù)庫中的語音識別模型得到預(yù)測的識別結(jié)果。可以理解的是,在語音識別模型中若輸出的預(yù)測結(jié)果包括預(yù)測值和置信度,則可以在輸出時(shí)確認(rèn)通過語音識別模型輸出的置信度最高的結(jié)果為語音識別的結(jié)果。
[0135]本實(shí)施例通過終端判斷網(wǎng)路信號強(qiáng)度是否大于第一預(yù)設(shè)值,若是則發(fā)送樣本特征至終端的自有云服務(wù)器,在自有云服務(wù)器中進(jìn)行檢索,當(dāng)網(wǎng)絡(luò)信號不好的時(shí)候,根據(jù)語音識別模型輸出預(yù)測的識別結(jié)果,避免相應(yīng)延時(shí),同時(shí)提高網(wǎng)絡(luò)識別的準(zhǔn)確度。結(jié)合先在本地?cái)?shù)據(jù)庫搜索再在自有云服務(wù)器進(jìn)行檢索的方式,也提高了語音識別的速度。
[0136]參照圖11,為自有云服務(wù)器12包括的功能模塊示意圖,本實(shí)施例中,所述自有云服務(wù)器12包括:
[0137]搜索模塊201,用于在所述自有云服務(wù)器接收到所述樣本特征后,在所述自有云服務(wù)器中進(jìn)行搜索;
[0138]識別模塊202,用于當(dāng)在所述自有云服務(wù)器中搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),獲取所述識別結(jié)果;
[0139]發(fā)送模塊203,用于當(dāng)在所述自有云服務(wù)器中未搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),若檢測到所述網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值,發(fā)送所述樣本特征至第三方語音服務(wù)器,通過所述第三方語音識別服務(wù)器識別所述輸入語音。
[0140]本實(shí)施例中,當(dāng)終端發(fā)送樣本特征到自有云服務(wù)器后,在自有云服務(wù)器中進(jìn)行搜索,當(dāng)搜索到樣本特征對應(yīng)的識別結(jié)果時(shí),第一識別子單元獲取該識別結(jié)果。
[0141]在自有云服務(wù)器中也可以存放比本地?cái)?shù)據(jù)庫中更復(fù)雜的基于深度學(xué)習(xí)的語音識別模型,和根據(jù)該語音識別模型得到的輸出值,因?yàn)樽杂性品?wù)器部署在云端,通常有多個(gè)分布式緩存服務(wù)器,計(jì)算能力更強(qiáng)。同時(shí),在本地?cái)?shù)據(jù)庫中存放的語音識別的輸出結(jié)果,可以根據(jù)使用情況存放使用頻率最高的,在自有云服務(wù)器中存放使用頻率略低的??梢岳斫獾氖?,本地?cái)?shù)據(jù)庫中存放的數(shù)據(jù)和自有云服務(wù)器中存放的數(shù)據(jù)隨著使用進(jìn)行不斷更新,從而使得語音識別的過程更加精確和快速。同時(shí),在獲取語音識別的結(jié)果時(shí),就可以將識別結(jié)果保存至自有云服務(wù)器和/或本地?cái)?shù)據(jù)庫,并且根據(jù)識別結(jié)果進(jìn)行深度學(xué)習(xí),使得隨著使用次數(shù)增多,語音識別模型的預(yù)測度更加精確。
[0142]當(dāng)在自由云服務(wù)器中未檢索到樣本特征對應(yīng)的識別結(jié)果時(shí),若檢測到網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值,即終端的網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值時(shí),云服務(wù)器發(fā)送樣本特征至第三方語音服務(wù)器。這里第二預(yù)設(shè)值可以根據(jù)需要進(jìn)行設(shè)定,第二預(yù)設(shè)值的大小可以和第一預(yù)設(shè)值一樣,也可以和第二預(yù)設(shè)值不一樣,因?yàn)樵L問自有云服務(wù)器和訪問第三方云服務(wù)器需要的網(wǎng)速可能是不一樣的。上述第三方語音服務(wù)器為語音識別能力更強(qiáng)的服務(wù)器,通常第三方語音服務(wù)器可以為專門提供語音識別服務(wù)的廠商所提供的服務(wù)器,如科大訊飛網(wǎng)絡(luò)提供的語音識別云服務(wù)器。
[0143]可以理解的是,也可以根據(jù)使用者的年齡、身份等特征進(jìn)行分類分析,建立數(shù)據(jù)庫,使得識別結(jié)果更準(zhǔn)確。
[0144]在實(shí)現(xiàn)時(shí),自有云服務(wù)器的架構(gòu)如圖7所示,部署CDN服務(wù)器提高不同地域訪問速度差異的問題,同時(shí)CDN服務(wù)器也負(fù)責(zé)將搜索到的緩存中的數(shù)據(jù)進(jìn)行返回,用戶的訪問通過CDN服務(wù)器到達(dá)反向代理服務(wù)器,再通過均衡負(fù)載服務(wù)器,發(fā)送至應(yīng)用服務(wù)器,均衡負(fù)載服務(wù)器可以適應(yīng)大量用戶的并發(fā)訪問,實(shí)現(xiàn)數(shù)據(jù)分流,提高穩(wěn)定性。在應(yīng)用服務(wù)器上還可以增加設(shè)置本地緩存,根據(jù)歷史識別情況快速響應(yīng)識別結(jié)果。在語音交互過程中通過搜索引擎與非關(guān)系型數(shù)據(jù)庫配合完成,還可以設(shè)置數(shù)據(jù)庫服務(wù)器來存儲大量用戶的賬號和設(shè)置。同時(shí),向上與第三方語音識別服務(wù)器對接,結(jié)合第三語音識別服務(wù)器的識別能力提高識別的準(zhǔn)確度,提高用戶體驗(yàn)。
[0145]本實(shí)施例通過在自有云服務(wù)器接收到樣本特征后,在自有云服務(wù)器中進(jìn)行搜索,當(dāng)在自由云服務(wù)器中搜索到樣本特征對應(yīng)的識別結(jié)果時(shí),獲取識別結(jié)果,當(dāng)未檢測到識別結(jié)果時(shí)且終端的網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值時(shí),云服務(wù)器發(fā)送樣本特征至第三方語音服務(wù)器,通過在第三方語音服務(wù)器進(jìn)行識別提高語音識別的準(zhǔn)確度。并且,只在網(wǎng)絡(luò)環(huán)境較好的情況下才發(fā)送樣本特征至第三方語音服務(wù)器提高避免了語音識別過程中的響應(yīng)延時(shí)。
[0146]本實(shí)施例中,本發(fā)明提出的語音識別的系統(tǒng)中終端11還包括:
[0147]對比分析模塊,用于將所述樣本特征與預(yù)置的樣本庫進(jìn)行對比分析;
[0148]第一觸發(fā)模塊,用于當(dāng)所述樣本特征與所述樣本庫中預(yù)置樣本特征的相似度高于預(yù)設(shè)值時(shí),觸發(fā)所述搜索子模塊根據(jù)所述樣本特征在所述本地?cái)?shù)據(jù)庫中進(jìn)行搜索;
[0149]所述第一識別單元,還用于當(dāng)所述樣本特征與所述樣本庫中預(yù)置樣本特征的相似度低于預(yù)設(shè)值時(shí),發(fā)送所述樣本特征至所述自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語首識別;
[0150]本實(shí)施例中在獲取到輸入語音,提取輸入語音的樣本特征后,對比分析模塊對樣本特征與預(yù)置的樣本庫進(jìn)行對比分析,目的是判斷是在本地?cái)?shù)據(jù)庫中直接進(jìn)行搜索,還是直接發(fā)送樣本特征至自有云服務(wù)器中進(jìn)行搜索。預(yù)置的樣本庫可以根據(jù)需要預(yù)先設(shè)定。具體的是將樣本特征與樣本庫中的樣本特征進(jìn)行匹配,上述預(yù)置樣本是指樣本庫中的預(yù)置的樣本。
[0151]當(dāng)樣本特征與樣本庫中預(yù)置樣本特征的相似度高于預(yù)設(shè)值時(shí),第一觸發(fā)模塊觸發(fā)搜索子模塊310根據(jù)樣本特征和終端中預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,這里預(yù)置樣本是指樣本庫中與樣本特征匹配到相似度大于預(yù)設(shè)值的樣本。當(dāng)樣本特征與樣本庫中任一預(yù)置樣本特征的相似度低于預(yù)設(shè)值時(shí),終端發(fā)送樣本特征至終端的自有云服務(wù)器,通過自有云服務(wù)器進(jìn)行語音識別,這里是任一樣本特征匹配都小于預(yù)設(shè)值是指樣本特征與樣本庫中任何一個(gè)匹配度都小于預(yù)設(shè)值。
[0152]具體的預(yù)設(shè)值可以根據(jù)需要進(jìn)行設(shè)定,例如可以設(shè)置為80%,則當(dāng)樣本特征與樣本庫中預(yù)置樣本特征的相似度高于80%時(shí),觸發(fā)搜索子模塊310根據(jù)樣本特征和終端中預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,當(dāng)樣本特征與樣本庫中預(yù)置樣本特征的相似度低于80 %時(shí),終端發(fā)送樣本特征至終端的自有云服務(wù)器,通過自有云服務(wù)器進(jìn)行語音識別。
[0153]本實(shí)施例通過將樣本特征與預(yù)置的樣本庫進(jìn)行對比分析,當(dāng)樣本特征與樣本庫中預(yù)置樣本特征的相似度高于預(yù)設(shè)值時(shí),根據(jù)樣本特征在本地?cái)?shù)據(jù)庫中進(jìn)行搜索,當(dāng)樣本特征與樣本庫中任一樣本特征的相似度低于預(yù)設(shè)值時(shí),直接發(fā)送樣本特征至自由云服務(wù)器進(jìn)行匹配,在保證語音識別的準(zhǔn)確度的同時(shí)提高了語音識別的速度。
[0154]以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種語音識別的方法,其特征在于,所述方法包括以下步驟: 終端獲取輸入語音; 所述終端提取所述輸入語音的樣本特征; 所述終端根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,所述本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。2.如權(quán)利要求1所述的方法,其特征在于,所述語音識別輸出值集合包含語音的樣本特征與語音識別輸出值的對應(yīng)關(guān)系; 所述終端根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音包括: 所述終端在所述語音識別輸出值集合中搜索是否有與所述樣本特征對應(yīng)的語音識別輸出值; 當(dāng)搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),所述終端獲取所述語音識別輸出值; 當(dāng)未搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),所述終端根據(jù)檢測到的所述終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別。3.如權(quán)利要求2所述的方法,其特征在于,所述終端在所述語音識別輸出值集合中搜索是否有與所述樣本特征對應(yīng)的語音識別輸出值包括: 所述終端判斷所述網(wǎng)絡(luò)信號強(qiáng)度是否大于第一預(yù)設(shè)值; 若是,所述終端發(fā)送所述樣本特征至所述終端的自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語音識別; 若否,所述終端將所述樣本特征輸入至所述語音識別模型,輸出預(yù)測的識別結(jié)果。4.如權(quán)利要求3所述的方法,其特征在于,所述方法還包括: 在所述自有云服務(wù)器接收到所述樣本特征后,在所述自有云服務(wù)器中進(jìn)行搜索; 當(dāng)在所述自有云服務(wù)器中搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),所述自有云服務(wù)器獲取所述識別結(jié)果; 當(dāng)在所述自有云服務(wù)器中未搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),若所述云服務(wù)器檢測到所述網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值,所述云服務(wù)器發(fā)送所述樣本特征至第三方語音服務(wù)器,通過所述第三方語音識別服務(wù)器識別所述輸入語音。5.如權(quán)利要求2至4任一項(xiàng)所述的方法,其特征在于,所述終端根據(jù)所述樣本特征在所述語音識別輸出值中搜索是否有與所述樣本特征對應(yīng)的語音識別輸出值之前包括: 所述終端將所述樣本特征與預(yù)置的樣本庫進(jìn)行對比分析; 當(dāng)所述樣本特征與所述樣本庫中預(yù)置樣本特征的相似度高于預(yù)設(shè)值時(shí),所述終端執(zhí)行所述根據(jù)所述樣本特征在所述本地?cái)?shù)據(jù)庫中進(jìn)行搜索的步驟; 當(dāng)所述樣本特征與所述樣本庫中任一預(yù)置樣本特征的相似度低于預(yù)設(shè)值時(shí),所述終端執(zhí)行所述發(fā)送所述樣本特征至所述終端的自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語音識別的步驟。6.一種語音識別的系統(tǒng),其特征在于,所述系統(tǒng)包括:終端; 所述終端包括: 獲取模塊,用于獲取輸入語音; 特征提取模塊,用于提取所述輸入語音的樣本特征; 語音識別模塊,用于根據(jù)所述樣本特征和預(yù)置的本地?cái)?shù)據(jù)庫識別所述輸入語音,所述本地?cái)?shù)據(jù)庫包含基于深度學(xué)習(xí)的語音識別模型和根據(jù)所述語音識別模型得到的語音識別輸出值集合。7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述語音識別輸出值集合包含語音的樣本特征與語音識別輸出值的對應(yīng)關(guān)系; 所述語音識別模塊包括: 搜索子模塊,用于在所述語音識別輸出值集合中搜索是否有與所述樣本特征對應(yīng)的語音識別輸出值; 第一識別子模塊,用于當(dāng)搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),獲取所述語音識別輸出值; 第二識別子模塊,用于當(dāng)未搜索到所述樣本特征對應(yīng)的語音識別輸出值時(shí),根據(jù)檢測到的所述終端的網(wǎng)絡(luò)信號強(qiáng)度進(jìn)行語音識別。8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括所述終端對應(yīng)的自有云服務(wù)器; 所述第二識別子模塊包括: 判斷單元,用于判斷所述網(wǎng)絡(luò)信號強(qiáng)度是否大于第一預(yù)設(shè)值; 第一識別單元,用于當(dāng)所述網(wǎng)絡(luò)信號強(qiáng)度大于第一預(yù)設(shè)值時(shí),發(fā)送所述樣本特征至所述自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語音識別; 第二識別單元,用于當(dāng)所述網(wǎng)絡(luò)信號強(qiáng)度小于第一預(yù)設(shè)值時(shí),將所述樣本特征輸入至所述語音識別模型,輸出預(yù)測的識別結(jié)果。9.如權(quán)利要求8所述的系統(tǒng),其特征在于,所述自有云服務(wù)器包括: 搜索模塊,用于在所述自有云服務(wù)器接收到所述樣本特征后,在所述自有云服務(wù)器中進(jìn)行搜索; 識別模塊,用于當(dāng)在所述自有云服務(wù)器中搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),獲取所述識別結(jié)果; 發(fā)送模塊,用于當(dāng)在所述自有云服務(wù)器中未搜索到所述樣本特征對應(yīng)的識別結(jié)果時(shí),若檢測到所述網(wǎng)絡(luò)強(qiáng)度大于第二預(yù)設(shè)值,發(fā)送所述樣本特征至第三方語音服務(wù)器,通過所述第三方語音識別服務(wù)器識別所述輸入語音。10.如權(quán)利要求7至9任一項(xiàng)所述的系統(tǒng),其特征在于,所述終端還包括: 對比分析模塊,用于將所述樣本特征與預(yù)置的樣本庫進(jìn)行對比分析; 第一觸發(fā)模塊,用于當(dāng)所述樣本特征與所述樣本庫中預(yù)置樣本特征的相似度高于預(yù)設(shè)值時(shí),觸發(fā)所述搜索子模塊根據(jù)所述樣本特征在所述本地?cái)?shù)據(jù)庫中進(jìn)行搜索; 所述第一識別單元,還用于當(dāng)所述樣本特征與所述樣本庫中預(yù)置樣本特征的相似度低于預(yù)設(shè)值時(shí),發(fā)送所述樣本特征至所述自有云服務(wù)器,通過所述自有云服務(wù)器進(jìn)行語音識別。
【文檔編號】G10L15/30GK105931633SQ201610370685
【公開日】2016年9月7日
【申請日】2016年5月30日
【發(fā)明人】許永昌, 盛閣
【申請人】深圳市鼎盛智能科技有限公司