一種語種識別方法及裝置的制造方法

文檔序號：9580332閱讀：450來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語種識別方法及裝置的制造方法
【專利說明】一種語種識別方法及裝置【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識別技術(shù)領(lǐng)域，尤其涉及一種語種識別方法及裝置。【【背景技術(shù)】】
[0002] 隨著互聯(lián)網(wǎng)應(yīng)用與信息技術(shù)的不斷發(fā)展，出現(xiàn)了語音識別技術(shù)，目前語音識別技術(shù)已經(jīng)廣泛應(yīng)用于家電、工業(yè)、醫(yī)療等許多領(lǐng)域，給用戶的生活帶來極大便利。
[0003] 現(xiàn)有技術(shù)中，在進(jìn)行語音識別之前需要先進(jìn)行語種識別，用以識別出輸入的語音信號是采用的哪個(gè)語種，進(jìn)而能夠使用該語種對應(yīng)的解碼器對語音信號進(jìn)行進(jìn)一步的語音識別。
[0004] 然而，現(xiàn)有技術(shù)中，客戶端將用戶輸入的語音信號分成若干語音片段后，依次將語音片段發(fā)送到服務(wù)器進(jìn)行語種識別的。服務(wù)器在接收到屬于同一語音信號的所有語音片段之后，才開始進(jìn)行語種識別，導(dǎo)致現(xiàn)有技術(shù)中語種識別的效率比較低，使語種識別無法應(yīng)用于需要快速獲得識別結(jié)果的應(yīng)用場景中。【
【發(fā)明內(nèi)容】
】
[0005] 有鑒于此，本發(fā)明實(shí)施例提供了一種語種識別方法及裝置，解決了現(xiàn)有技術(shù)中語種識別的效率比較低，使語種識別無法應(yīng)用于需要快速獲得識別結(jié)果的應(yīng)用場景中的問題。
[0006] 本發(fā)明實(shí)施例的一方面，提供一種語種識別方法，包括：
[0007] 接收到語音信號包含的第N個(gè)語音片段之后，根據(jù)已經(jīng)接收到的前N個(gè)語音片段，進(jìn)行語種識別，以獲得至少一個(gè)語種中每個(gè)語種的得分，N的取值為2、3、4、……；
[0008] 若存在得分達(dá)到指定閾值的語種，將得分達(dá)到指定閾值的語種作為與所述語音信號相匹配的語種。
[0009] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述方法還包括：
[0010] 若不存在得分達(dá)到指定閾值的語種，在接收到第N+1個(gè)語音信號之后，繼續(xù)根據(jù) 已經(jīng)接收到第N+1個(gè)語音信號，進(jìn)行語種識別，直到獲得與所述語音信號相匹配的語種為止。
[0011] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述根據(jù)已經(jīng)接收到的前N個(gè)語音片段，進(jìn)行語種識別，以獲得至少一個(gè)語種中每個(gè)語種的得分，包括：
[0012] 從所述第N個(gè)語音片段提取語音特征；
[0013] 根據(jù)所述語音特征，獲得所述第N個(gè)語音片段的統(tǒng)計(jì)量；
[0014] 根據(jù)所述第N個(gè)語音片段的統(tǒng)計(jì)量和前N-1個(gè)語音片段的第一累計(jì)統(tǒng)計(jì)量，獲得第二累計(jì)統(tǒng)計(jì)量；
[0015] 利用語種識別模型對所述第二累計(jì)統(tǒng)計(jì)量進(jìn)行語種識別，以獲得至少一個(gè)語種中每個(gè)語種的得分。
[0016] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，從所述第N 個(gè)語音片段提取語音特征之前，所述方法還包括：對所述第N個(gè)語音片段進(jìn)行靜音檢測，以去除所述第N個(gè)語音片段中的靜音信號。
[0017] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述第二累計(jì)統(tǒng)計(jì)量包括：前N個(gè)語音片段的語音特征的權(quán)重、前N個(gè)語音片段的語音特征的均值和前 N個(gè)語音片段的語音特征的方差。
[0018] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述語種識別模型包括判決模型和背景模型；所述利用語種識別模型對所述第二累計(jì)統(tǒng)計(jì)量進(jìn)行語種識別，以獲得至少一個(gè)語種中每個(gè)語種的得分，包括：
[0019] 利用背景模型將所述第二累計(jì)統(tǒng)計(jì)量轉(zhuǎn)換成對應(yīng)的高斯超向量；
[0020] 計(jì)算判決模型中的向量與所述高斯超向量之間的空間距離，以作為所述判決模型對應(yīng)的語種的得分。
[0021] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述方法還包括：
[0022] 若所述語音信號包含的所有語音片段都接收到之后，不存在得分達(dá)到指定閾值的語種，將得分最高的語種作為與所述語音信號相匹配的語種。
[0023] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述方法還包括：將與所述語音信號相匹配的語種作為語種識別結(jié)果，并輸出所述語種識別結(jié)果。
[0024] 本發(fā)明實(shí)施例的一方面，提供一種語種識別裝置，包括：
[0025] 識別模塊，用于接收到語音信號包含的第N個(gè)語音片段之后，根據(jù)已經(jīng)接收到的前N個(gè)語音片段，進(jìn)行語種識別，以獲得至少一個(gè)語種中每個(gè)語種的得分，N的取值為2、3、 4、……；
[0026] 判斷模塊，用于若存在得分達(dá)到指定閾值的語種，將得分達(dá)到指定閾值的語種作為與所述語音信號相匹配的語種。
[0027] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述識別模塊，還用于：
[0028] 若不存在得分達(dá)到指定閾值的語種，在接收到第N+1個(gè)語音信號之后，繼續(xù)根據(jù) 已經(jīng)接收到第N+1個(gè)語音信號，進(jìn)行語種識別，直到獲得與所述語音信號相匹配的語種為止。
[0029] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述識別模塊，具體用于：
[0030] 從所述第N個(gè)語音片段提取語音特征；
[0031] 根據(jù)所述語音特征，獲得所述第N個(gè)語音片段的統(tǒng)計(jì)量；
[0032] 根據(jù)所述第N個(gè)語音片段的統(tǒng)計(jì)量和前N-1個(gè)語音片段的第一累計(jì)統(tǒng)計(jì)量，獲得第二累計(jì)統(tǒng)計(jì)量；
[0033] 利用語種識別模型對所述第二累計(jì)統(tǒng)計(jì)量進(jìn)行語種識別，以獲得至少一個(gè)語種中每個(gè)語種的得分。
[0034] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述識別模塊，還用于：
[0035] 對所述第N個(gè)語音片段進(jìn)行靜音檢測，以去除所述第N個(gè)語音片段中的靜音信號。
[0036] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述第二累計(jì)統(tǒng)計(jì)量包括：前N個(gè)語音片段的語音特征的權(quán)重、前N個(gè)語音片段的語音特征的均值和前 N個(gè)語音片段的語音特征的方差。
[0037] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述語種識別模型包括判決模型和背景模型；所述識別模塊用于利用語種識別模型對所述第二累計(jì)統(tǒng) 計(jì)量進(jìn)行語種識別，以獲得至少一個(gè)語種中每個(gè)語種的得分時(shí)，具體用于：
[0038] 利用背景模型將所述第二累計(jì)統(tǒng)計(jì)量轉(zhuǎn)換成對應(yīng)的高斯超向量；
[0039] 計(jì)算判決模型中的向量與所述高斯超向量之間的空間距離，以作為所述判決模型對應(yīng)的語種的得分。
[0040] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述判斷模塊，還用于：
[0041] 若所述語音信號包含的所有語音片段都接收到之后，不存在得分達(dá)到指定閾值的語種，將得分最高的語種作為與所述語音信號相匹配的語種。
[0042] 如上所述的方面和任一可能的實(shí)現(xiàn)方式，進(jìn)一步提供一種實(shí)現(xiàn)方式，所述裝置還包括：
[0043] 輸出模塊，用于將與所述語音信號相匹配的語種作為語種識別結(jié)果，并輸出所述語種識別結(jié)果。
[0044] 由以上技術(shù)方案可以看出，本發(fā)明實(shí)施例具有以下有益效果：
[0045] 根據(jù)本發(fā)明實(shí)施例提供的技術(shù)方案，能夠在每次接收到一個(gè)語音片段之后，就進(jìn) 行語種識別，從而可以在接收完所有語音片段之前就可以完成語種識別，與現(xiàn)有技術(shù)中，必須在接收到所有語音片段之后才開始進(jìn)行語種識別的方法相比，本發(fā)明實(shí)施例解決了現(xiàn)有技術(shù)中語種識別的效率比較低，使語種識別無法應(yīng)用于需要快速獲得識別結(jié)果的應(yīng)用場景中的問題，大大提高了語種識別的效率，使得語種識別能夠應(yīng)用于需要快速獲得識別結(jié)果的應(yīng)用場景中。【【附圖說明】】
[0046] 為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案，下面將對實(shí)施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動性的前提下，還可以根據(jù)這些附圖獲得其它的附圖。
[0047] 圖1是本發(fā)明實(shí)施例所提供的技術(shù)方案使用的系統(tǒng)示例圖；
[0048] 圖2是本發(fā)明實(shí)施例所提供的語種識別方法的流程示意圖；
[0049] 圖3是本發(fā)明實(shí)施例所提供的語種識別方法的優(yōu)選實(shí)施例的流程示意圖；
[0050] 圖4是本發(fā)明實(shí)施例所提供的語種識別裝置的功能方塊圖。【【具體實(shí)施方式】】
[0051] 為了更好的理解本發(fā)明的技術(shù)方案，下面結(jié)合附圖對本發(fā)明實(shí)施例進(jìn)行詳細(xì)描述

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4