一種語音信息識(shí)別方法和解碼器的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識(shí)別領(lǐng)域,特別涉及一種語音信息識(shí)別方法和解碼器。
【背景技術(shù)】
[0002]在語音識(shí)別過程中,語音識(shí)別的準(zhǔn)確率和速度是識(shí)別效率的兩大重要指標(biāo),隨著語音識(shí)別技術(shù)的普及,對(duì)語音識(shí)別的識(shí)別效率要求越來越高,使得需要一種語音信息識(shí)別方法,提高語音識(shí)別的效率。
[0003]現(xiàn)有技術(shù)提供了一種語音信息識(shí)別方法,通過語音信息輸入包括多個(gè)模型單元的多層神經(jīng)網(wǎng)絡(luò),對(duì)所有模型單元的輸出數(shù)據(jù)進(jìn)行處理,生成識(shí)別結(jié)果,從而實(shí)現(xiàn)語音信息的識(shí)別,提高了語音識(shí)別的準(zhǔn)確率。
[0004]但是在使用現(xiàn)有技術(shù)提供的方法時(shí),由于是對(duì)多層神經(jīng)網(wǎng)絡(luò)中所有模型單元的輸出數(shù)據(jù)進(jìn)行處理,從而降低了語音信息識(shí)別的速度,降低了語音識(shí)別的效率。
【發(fā)明內(nèi)容】
[0005]為了提高語音信息識(shí)別的速度,提高語音識(shí)別的效率,本發(fā)明實(shí)施例提供了一種語音信息識(shí)別方法和解碼器。所述技術(shù)方案如下:
[0006]第一方面,提供了一種語音信息識(shí)別方法,所述方法包括:
[0007]獲取根據(jù)語音信息生成的輸入數(shù)據(jù);
[0008]判斷根據(jù)所述輸入數(shù)據(jù)識(shí)別生成的輸出數(shù)據(jù)是否有效;
[0009]若所述輸出數(shù)據(jù)無效,則設(shè)置所述輸出數(shù)據(jù)為零,若所述輸出數(shù)據(jù)有效,則將所述輸出數(shù)據(jù)輸出至當(dāng)前層模型單元的下一層模型單元。
[0010]第二方面,提供了一種語音信息解碼器,所述語音信息解碼器包括:
[0011]至少一層模型單元和控制模塊,其中,所述控制模塊包括:
[0012]獲取子模塊,用于獲取根據(jù)語音信息生成的輸入數(shù)據(jù);
[0013]判決子模塊,用于判斷根據(jù)所述輸入數(shù)據(jù)識(shí)別生成的輸出數(shù)據(jù)是否有效;
[0014]設(shè)置子模塊,用于在判定所述輸出數(shù)據(jù)無效時(shí),設(shè)置所述輸出數(shù)據(jù)為零;
[0015]輸出子模塊,用于在判定所述輸出數(shù)據(jù)有效時(shí),將所述輸出數(shù)據(jù)輸出至當(dāng)前層模型單元的下一層模型單元。
[0016]第三方面,提供了一種電子設(shè)備,所述電子設(shè)備包括麥克風(fēng)、存儲(chǔ)器以及與所述麥克風(fēng)、所述存儲(chǔ)器連接的處理器,其中,所述存儲(chǔ)器用于存儲(chǔ)一組程序代碼,所述處理器調(diào)用所述存儲(chǔ)器所述存儲(chǔ)的程序代碼用于執(zhí)行以下操作:
[0017]獲取根據(jù)語音信息生成的輸入數(shù)據(jù);
[0018]判斷根據(jù)所述輸入數(shù)據(jù)識(shí)別生成的輸出數(shù)據(jù)是否有效;
[0019]若所述輸出數(shù)據(jù)無效,則設(shè)置所述輸出數(shù)據(jù)為零,若所述輸出數(shù)據(jù)有效,則將所述輸出數(shù)據(jù)輸出至當(dāng)前層模型單元的下一層模型單元。
[0020]本發(fā)明實(shí)施例提供了一種語音信息識(shí)別方法和解碼器,包括:獲取根據(jù)語音信息生成的輸入數(shù)據(jù);判斷根據(jù)輸入數(shù)據(jù)識(shí)別生成的輸出數(shù)據(jù)是否有效;若輸出數(shù)據(jù)無效,則設(shè)置輸出數(shù)據(jù)為零;若輸出數(shù)據(jù)有效,將輸出數(shù)據(jù)輸出至當(dāng)前層模型單元的下一層模型單元。由于傳統(tǒng)的語音信息識(shí)別方法無法識(shí)別無效輸出,而本發(fā)明提供的方法通過判斷根據(jù)輸入數(shù)據(jù)識(shí)別生成的輸出數(shù)據(jù)是否有效,實(shí)現(xiàn)了對(duì)語音信息識(shí)別過程中對(duì)無效輸出的識(shí)另IJ,相比于傳統(tǒng)的語音信息識(shí)別,提高了語音信息識(shí)別的速度,從而提高了語音識(shí)別的效率;同時(shí),通過設(shè)置無效的輸出數(shù)據(jù)為零,使得該在對(duì)語音信息識(shí)別過程中對(duì)無效輸出不進(jìn)行處理,從而進(jìn)一步提高了語音信息識(shí)別的速度,從而提高了語音識(shí)別的效率。
【附圖說明】
[0021]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0022]圖1是本發(fā)明實(shí)施例提供的一種語音信息識(shí)別方法流程圖;
[0023]圖2是本發(fā)明實(shí)施例提供的一種解碼器結(jié)構(gòu)示意圖;
[0024]圖3是本發(fā)明實(shí)施例提供的一種語音信息識(shí)別方法流程圖;
[0025]圖4是本發(fā)明實(shí)施例提供的一種解碼器結(jié)構(gòu)示意圖;
[0026]圖5是本發(fā)明實(shí)施例提供的一種電子設(shè)備結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0027]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0028]實(shí)施例一為本發(fā)明實(shí)施例提供的一種語音信息識(shí)別方法,參照?qǐng)D1所示,該方法包括:
[0029]101、獲取根據(jù)語音信息生成的輸入數(shù)據(jù)。
[0030]可選的,還可以包括:當(dāng)前層模型單元包括至少一個(gè)節(jié)點(diǎn),方法還包括:
[0031]設(shè)置至少一個(gè)節(jié)點(diǎn)的閾值。
[0032]102、判斷根據(jù)輸入數(shù)據(jù)識(shí)別生成的輸出數(shù)據(jù)是否有效,若輸出數(shù)據(jù)無效,則執(zhí)行步驟103,若輸出數(shù)據(jù)有效,則執(zhí)行步驟104。
[0033]具體的,根據(jù)輸入數(shù)據(jù),生成與至少一個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)的至少一個(gè)輸出數(shù)據(jù);
[0034]判斷與節(jié)點(diǎn)對(duì)應(yīng)的輸出數(shù)據(jù)是否大于或者等于與節(jié)點(diǎn)對(duì)應(yīng)的閾值,若是,則判定節(jié)點(diǎn)對(duì)應(yīng)的輸出數(shù)據(jù)有效,否則,則判定節(jié)點(diǎn)對(duì)應(yīng)的輸出數(shù)據(jù)無效。
[0035]103、設(shè)置輸出數(shù)據(jù)為零。
[0036]104、將輸出數(shù)據(jù)輸出至當(dāng)前層模型單元的下一層模型單元。
[0037]具體的,將至少一個(gè)輸出數(shù)據(jù)中所有有效的輸出數(shù)據(jù)輸出至下一層模型單元。
[0038]可選的,在將輸出數(shù)據(jù)輸出至當(dāng)前層模型單元的下一層模型單元之前,還包括:
[0039]判斷下一層模型單元是否為最后一層模型單元,若是,則輸出輸出數(shù)據(jù);否則,繼續(xù)執(zhí)行將輸出數(shù)據(jù)輸出至當(dāng)前層模型單元的下一層模型單元的步驟。
[0040]本發(fā)明實(shí)施例提供了一種語音信息識(shí)別方法,由于傳統(tǒng)的語音信息識(shí)別方法無法識(shí)別無效輸出,而本發(fā)明提供的方法通過判斷根據(jù)輸入數(shù)據(jù)識(shí)別生成的輸出數(shù)據(jù)是否有效,實(shí)現(xiàn)了對(duì)語音信息識(shí)別過程中對(duì)無效輸出的識(shí)別,相比于傳統(tǒng)的語音信息識(shí)別,提高了語音信息識(shí)別的速度,從而提高了語音識(shí)別的效率;同時(shí),通過設(shè)置無效的輸出數(shù)據(jù)為零,使得該在對(duì)語音信息識(shí)別過程中對(duì)無效輸出不進(jìn)行處理,從而進(jìn)一步提高了語音信息識(shí)別的速度,從而提高了語音識(shí)別的效率。
[0041]實(shí)施例二為本發(fā)明實(shí)施例提供的一種語音信息識(shí)別方法,該方法應(yīng)用于一種編碼器,該編碼器至少包括N層模型單元,該N層模型單元之間設(shè)置有連接權(quán)重,參照?qǐng)D2所示,在圖2中,假設(shè)當(dāng)前層模型單元為第X層模型單元,當(dāng)前模型單元的下一層模型單元為第X+1層模型單元,該第X層模型單元包括兩個(gè)節(jié)點(diǎn),分別為第一節(jié)點(diǎn)和第二節(jié)點(diǎn),該第一節(jié)點(diǎn)的閾值為第一閾值,該第二節(jié)點(diǎn)的閾值為第二閾值。在本發(fā)明實(shí)施例中,語音信息為根據(jù)用戶的語音片段進(jìn)行編碼后生成的信息,該語音信息至少包括聲紋特征參數(shù),該聲紋特征參數(shù)可以為L(zhǎng)PCC (Linear Predict1n Cepstrum Coeff icient,線性預(yù)測(cè)倒譜系數(shù))、MFCC(Mel Frequnce Cepstrum Coefficient,美爾頻率倒譜系數(shù))和 PLPC(PerceptualLinear Predictive Coefficient,感知線性預(yù)測(cè)系數(shù))中的任意一個(gè),在實(shí)際應(yīng)用中,該聲紋特征參數(shù)可以為MFCC。參照?qǐng)D3所示,該方法包括:
[0042]301、獲取根據(jù)語音信息生成的輸入數(shù)據(jù)。
[0043]具體的,若該第X層模型單元為N層模型單元中的第一層模型單元,則該輸入數(shù)據(jù)為語音數(shù)據(jù),獲取根據(jù)語音信息生成的輸入數(shù)據(jù)的過程可以為:
[0044]接收該語音信息。
[0045]若該第X層模型單元為N層模型單元中的第一層模型單元之后的任意一層模型單元,則該輸入數(shù)據(jù)為第X-1層模型單元的輸出數(shù)據(jù),,該輸入數(shù)據(jù)包括聲紋特