一種語種識別方法及裝置的制造方法
【專利說明】一種語種識別方法及裝置 【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種語種識別方法及裝置。 【【背景技術(shù)】】
[0002] 隨著互聯(lián)網(wǎng)應(yīng)用與信息技術(shù)的不斷發(fā)展,出現(xiàn)了語音識別技術(shù),目前語音識別技 術(shù)已經(jīng)廣泛應(yīng)用于家電、工業(yè)、醫(yī)療等許多領(lǐng)域,給用戶的生活帶來極大便利。
[0003] 現(xiàn)有技術(shù)中,在進(jìn)行語音識別之前需要先進(jìn)行語種識別,用以識別出輸入的語音 信號是采用的哪個(gè)語種,進(jìn)而能夠使用該語種對應(yīng)的解碼器對語音信號進(jìn)行進(jìn)一步的語音 識別。
[0004] 然而,現(xiàn)有技術(shù)中,客戶端將用戶輸入的語音信號分成若干語音片段后,依次將語 音片段發(fā)送到服務(wù)器進(jìn)行語種識別的。服務(wù)器在接收到屬于同一語音信號的所有語音片段 之后,才開始進(jìn)行語種識別,導(dǎo)致現(xiàn)有技術(shù)中語種識別的效率比較低,使語種識別無法應(yīng)用 于需要快速獲得識別結(jié)果的應(yīng)用場景中。 【
【發(fā)明內(nèi)容】
】
[0005] 有鑒于此,本發(fā)明實(shí)施例提供了一種語種識別方法及裝置,解決了現(xiàn)有技術(shù)中語 種識別的效率比較低,使語種識別無法應(yīng)用于需要快速獲得識別結(jié)果的應(yīng)用場景中的問 題。
[0006] 本發(fā)明實(shí)施例的一方面,提供一種語種識別方法,包括:
[0007] 接收到語音信號包含的第N個(gè)語音片段之后,根據(jù)已經(jīng)接收到的前N個(gè)語音片段, 進(jìn)行語種識別,以獲得至少一個(gè)語種中每個(gè)語種的得分,N的取值為2、3、4、……;
[0008] 若存在得分達(dá)到指定閾值的語種,將得分達(dá)到指定閾值的語種作為與所述語音信 號相匹配的語種。
[0009] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述方法還 包括:
[0010] 若不存在得分達(dá)到指定閾值的語種,在接收到第N+1個(gè)語音信號之后,繼續(xù)根據(jù) 已經(jīng)接收到第N+1個(gè)語音信號,進(jìn)行語種識別,直到獲得與所述語音信號相匹配的語種為 止。
[0011] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)已 經(jīng)接收到的前N個(gè)語音片段,進(jìn)行語種識別,以獲得至少一個(gè)語種中每個(gè)語種的得分,包 括:
[0012] 從所述第N個(gè)語音片段提取語音特征;
[0013] 根據(jù)所述語音特征,獲得所述第N個(gè)語音片段的統(tǒng)計(jì)量;
[0014] 根據(jù)所述第N個(gè)語音片段的統(tǒng)計(jì)量和前N-1個(gè)語音片段的第一累計(jì)統(tǒng)計(jì)量,獲得 第二累計(jì)統(tǒng)計(jì)量;
[0015] 利用語種識別模型對所述第二累計(jì)統(tǒng)計(jì)量進(jìn)行語種識別,以獲得至少一個(gè)語種中 每個(gè)語種的得分。
[0016] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,從所述第N 個(gè)語音片段提取語音特征之前,所述方法還包括:對所述第N個(gè)語音片段進(jìn)行靜音檢測,以 去除所述第N個(gè)語音片段中的靜音信號。
[0017] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述第二累 計(jì)統(tǒng)計(jì)量包括:前N個(gè)語音片段的語音特征的權(quán)重、前N個(gè)語音片段的語音特征的均值和前 N個(gè)語音片段的語音特征的方差。
[0018] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述語種識 別模型包括判決模型和背景模型;所述利用語種識別模型對所述第二累計(jì)統(tǒng)計(jì)量進(jìn)行語種 識別,以獲得至少一個(gè)語種中每個(gè)語種的得分,包括:
[0019] 利用背景模型將所述第二累計(jì)統(tǒng)計(jì)量轉(zhuǎn)換成對應(yīng)的高斯超向量;
[0020] 計(jì)算判決模型中的向量與所述高斯超向量之間的空間距離,以作為所述判決模型 對應(yīng)的語種的得分。
[0021] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述方法還 包括:
[0022] 若所述語音信號包含的所有語音片段都接收到之后,不存在得分達(dá)到指定閾值的 語種,將得分最高的語種作為與所述語音信號相匹配的語種。
[0023] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述方法還 包括:將與所述語音信號相匹配的語種作為語種識別結(jié)果,并輸出所述語種識別結(jié)果。
[0024] 本發(fā)明實(shí)施例的一方面,提供一種語種識別裝置,包括:
[0025] 識別模塊,用于接收到語音信號包含的第N個(gè)語音片段之后,根據(jù)已經(jīng)接收到的 前N個(gè)語音片段,進(jìn)行語種識別,以獲得至少一個(gè)語種中每個(gè)語種的得分,N的取值為2、3、 4、……;
[0026] 判斷模塊,用于若存在得分達(dá)到指定閾值的語種,將得分達(dá)到指定閾值的語種作 為與所述語音信號相匹配的語種。
[0027] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述識別模 塊,還用于:
[0028] 若不存在得分達(dá)到指定閾值的語種,在接收到第N+1個(gè)語音信號之后,繼續(xù)根據(jù) 已經(jīng)接收到第N+1個(gè)語音信號,進(jìn)行語種識別,直到獲得與所述語音信號相匹配的語種為 止。
[0029] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述識別模 塊,具體用于:
[0030] 從所述第N個(gè)語音片段提取語音特征;
[0031] 根據(jù)所述語音特征,獲得所述第N個(gè)語音片段的統(tǒng)計(jì)量;
[0032] 根據(jù)所述第N個(gè)語音片段的統(tǒng)計(jì)量和前N-1個(gè)語音片段的第一累計(jì)統(tǒng)計(jì)量,獲得 第二累計(jì)統(tǒng)計(jì)量;
[0033] 利用語種識別模型對所述第二累計(jì)統(tǒng)計(jì)量進(jìn)行語種識別,以獲得至少一個(gè)語種中 每個(gè)語種的得分。
[0034] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述識別模 塊,還用于:
[0035] 對所述第N個(gè)語音片段進(jìn)行靜音檢測,以去除所述第N個(gè)語音片段中的靜音信號。
[0036] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述第二累 計(jì)統(tǒng)計(jì)量包括:前N個(gè)語音片段的語音特征的權(quán)重、前N個(gè)語音片段的語音特征的均值和前 N個(gè)語音片段的語音特征的方差。
[0037] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述語種識 別模型包括判決模型和背景模型;所述識別模塊用于利用語種識別模型對所述第二累計(jì)統(tǒng) 計(jì)量進(jìn)行語種識別,以獲得至少一個(gè)語種中每個(gè)語種的得分時(shí),具體用于:
[0038] 利用背景模型將所述第二累計(jì)統(tǒng)計(jì)量轉(zhuǎn)換成對應(yīng)的高斯超向量;
[0039] 計(jì)算判決模型中的向量與所述高斯超向量之間的空間距離,以作為所述判決模型 對應(yīng)的語種的得分。
[0040] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述判斷模 塊,還用于:
[0041] 若所述語音信號包含的所有語音片段都接收到之后,不存在得分達(dá)到指定閾值的 語種,將得分最高的語種作為與所述語音信號相匹配的語種。
[0042] 如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述裝置還 包括:
[0043] 輸出模塊,用于將與所述語音信號相匹配的語種作為語種識別結(jié)果,并輸出所述 語種識別結(jié)果。
[0044] 由以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下有益效果:
[0045] 根據(jù)本發(fā)明實(shí)施例提供的技術(shù)方案,能夠在每次接收到一個(gè)語音片段之后,就進(jìn) 行語種識別,從而可以在接收完所有語音片段之前就可以完成語種識別,與現(xiàn)有技術(shù)中,必 須在接收到所有語音片段之后才開始進(jìn)行語種識別的方法相比,本發(fā)明實(shí)施例解決了現(xiàn)有 技術(shù)中語種識別的效率比較低,使語種識別無法應(yīng)用于需要快速獲得識別結(jié)果的應(yīng)用場景 中的問題,大大提高了語種識別的效率,使得語種識別能夠應(yīng)用于需要快速獲得識別結(jié)果 的應(yīng)用場景中。 【【附圖說明】】
[0046] 為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例中所需要使用的附 圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域 普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其它的附 圖。
[0047] 圖1是本發(fā)明實(shí)施例所提供的技術(shù)方案使用的系統(tǒng)示例圖;
[0048] 圖2是本發(fā)明實(shí)施例所提供的語種識別方法的流程示意圖;
[0049] 圖3是本發(fā)明實(shí)施例所提供的語種識別方法的優(yōu)選實(shí)施例的流程示意圖;
[0050] 圖4是本發(fā)明實(shí)施例所提供的語種識別裝置的功能方塊圖。 【【具體實(shí)施方式】】
[0051] 為了更好的理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖對本發(fā)明實(shí)施例進(jìn)行詳細(xì)描 述