一種基于壓縮感知的說(shuō)話人自適應(yīng)方法

文檔序號(hào)：8473807閱讀：331來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于壓縮感知的說(shuō)話人自適應(yīng)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于壓縮感知的說(shuō)話人自適應(yīng)方法，屬于連續(xù)語(yǔ)音識(shí)別的聲學(xué)模型自適應(yīng)技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)、云計(jì)算等技術(shù)的迅速發(fā)展，計(jì)算機(jī)的運(yùn)算能力不斷提高，存儲(chǔ)容量達(dá) 到海量級(jí)，語(yǔ)音識(shí)別技術(shù)取得了長(zhǎng)足的進(jìn)步，出現(xiàn)了一些實(shí)用化的系統(tǒng)，但人類離其最終的夢(mèng)想一一讓計(jì)算機(jī)像人一樣在各種復(fù)雜環(huán)境下聽(tīng)懂人類語(yǔ)言一一還有很長(zhǎng)的路要走。語(yǔ)音識(shí)別問(wèn)題之所以如此困難，其中一個(gè)重要原因是由于在自然界中語(yǔ)音信號(hào)的不確定性非常大，難以得到一個(gè)精確的聲學(xué)模型對(duì)其進(jìn)行描述。歸納起來(lái)，語(yǔ)音信號(hào)的不確定性主要來(lái)源于以下幾個(gè)方面因素的影響：協(xié)同發(fā)音的影響、說(shuō)話人的影響、說(shuō)話環(huán)境的影響、傳輸信道的影響。
[0003] 在連續(xù)語(yǔ)音識(shí)別系統(tǒng)中，針對(duì)說(shuō)話人、環(huán)境和信道的影響，可以從特征層和模型層兩個(gè)方面入手提高系統(tǒng)的穩(wěn)健性：在特征層次，提取穩(wěn)健性的特征參數(shù)，使之受說(shuō)話人、環(huán) 境噪聲等的影響盡量?。辉诼晫W(xué)模型層次，由于訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)不匹配，造成實(shí)際應(yīng)用中系統(tǒng)性能的急劇下降，可通過(guò)聲學(xué)模型自適應(yīng)技術(shù)，根據(jù)少量的測(cè)試數(shù)據(jù)對(duì)聲學(xué)模型進(jìn) 行調(diào)整，增加其與測(cè)試數(shù)據(jù)的匹配程度，使之與當(dāng)前的說(shuō)話人、說(shuō)話環(huán)境和信道相匹配，從而提尚系統(tǒng)的識(shí)別性能。
[0004] 聲學(xué)模型的訓(xùn)練語(yǔ)料通常包含多個(gè)說(shuō)話人的語(yǔ)音，由此得到的聲學(xué)模型稱為說(shuō) 話人無(wú)關(guān)（SpeakerIndependent,SI)聲學(xué)模型。然而當(dāng)訓(xùn)練語(yǔ)料充分時(shí)，使用特定人語(yǔ)料訓(xùn)練得到的說(shuō)話人相關(guān)（SpeakerDependent,SD)聲學(xué)模型比SI模型具有更高的識(shí)別率。因此，在給定少量自適應(yīng)語(yǔ)料的條件下將SI模型進(jìn)行某種調(diào)整得到SD模型，這種模型參數(shù) 的調(diào)整過(guò)程稱為說(shuō)話人自適應(yīng)。
[0005] 在當(dāng)前主流的說(shuō)話人自適應(yīng)技術(shù)中，基于說(shuō)話人子空間的自適應(yīng)是其中一種重要的方法，它特別適用于少量數(shù)據(jù)條件下的快速說(shuō)話人自適應(yīng)?；谡f(shuō)話人子空間的自適應(yīng)，由于有效利用了說(shuō)話人之間的相關(guān)性信息，自適應(yīng)過(guò)程中僅需要估計(jì)一個(gè)低維矢量，特別適合于少量數(shù)據(jù)條件下的快速自適應(yīng)。目前，已有多種基于說(shuō)話人子空間的自適應(yīng)方法，其各自的基矢量構(gòu)造及說(shuō)話人坐標(biāo)的估計(jì)方法不同。其中，兩個(gè)具有代表性的方法是本征音 (Eigenvoice,EV)自適應(yīng)及參考說(shuō)話人加權(quán)（ReferenceSpeakerWeighting,RSW)自適應(yīng)。兩種方法的子空間基矢量及說(shuō)話人坐標(biāo)的估計(jì)方法各不相同，其共同的缺點(diǎn)是：均無(wú)法確定與新說(shuō)話人及自適應(yīng)數(shù)據(jù)完全匹配的最佳說(shuō)話人子空間維數(shù)及基矢量，所得到的都是近似最優(yōu)解，自適應(yīng)效果不好。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是提供一種基于壓縮感知的說(shuō)話人自適應(yīng)方法，以解決基于說(shuō)話人子空間的自適應(yīng)方法無(wú)法確定與新說(shuō)話人及自適應(yīng)數(shù)據(jù)完全匹配的最佳說(shuō)話人子空間維數(shù)及基矢量所導(dǎo)致自適應(yīng)效果不好的問(wèn)題。
[0007] 本發(fā)明為解決上述技術(shù)問(wèn)題而提供一種基于壓縮感知的說(shuō)話人自適應(yīng)方法，該自適應(yīng)方法包括以下步驟：
[0008] 1)利用本征音超矢量及訓(xùn)練說(shuō)話人超矢量構(gòu)造冗余超矢量字典；
[0009] 2)根據(jù)冗余超矢量字典的統(tǒng)計(jì)量，建立最大化說(shuō)話人自適應(yīng)問(wèn)題的目標(biāo)函數(shù)； [0010] 3)采用匹配追蹤算法求解目標(biāo)函數(shù)，通過(guò)迭代優(yōu)化過(guò)程確定最佳子空間維數(shù)及其基矢量構(gòu)造說(shuō)話人子空間，得到未知說(shuō)話人超矢量的近似最佳稀疏分解即為目標(biāo)函數(shù)的求解結(jié)果。
[0011] 所述自適應(yīng)方法還包括以步驟3)得到的近似最佳稀疏分解作為初值，對(duì)目標(biāo)函數(shù)施加稀疏約束，采用正則化原理和投影梯度算法求解目標(biāo)函數(shù)，以得到說(shuō)話人自適應(yīng)問(wèn) 題的全局最優(yōu)解。
[0012] 所述步驟1)中冗余超矢量字典的構(gòu)造過(guò)程如下：
[0013] A.利用訓(xùn)練集中S個(gè)說(shuō)話人的訓(xùn)練數(shù)據(jù)構(gòu)建說(shuō)話人無(wú)關(guān)（SI)模型；
[0014] B.根據(jù)訓(xùn)練集中每個(gè)說(shuō)話人的訓(xùn)練數(shù)據(jù)，采用自適應(yīng)算法得到S個(gè)訓(xùn)練說(shuō)話人的 SD模型；
[0015] C.根據(jù)訓(xùn)練說(shuō)話人的SD模型構(gòu)建S個(gè)訓(xùn)練說(shuō)話人超矢量；
[0016]D.對(duì)得到的說(shuō)話人超矢量進(jìn)行主分量分析得到S個(gè)說(shuō)話人子空間基矢量，即本征音超矢量；
[0017] E.將訓(xùn)練說(shuō)話人超矢量和本征音超矢量聯(lián)合起來(lái)構(gòu)造包含K= 2S個(gè)矢量的說(shuō)話人超矢量字典。
[0018] 所述步驟2)中構(gòu)建的目標(biāo)函數(shù)為：
【主權(quán)項(xiàng)】
1. 一種基于壓縮感知的說(shuō)話人自適應(yīng)方法，其特征在于，該自適應(yīng)方法包括w下步驟： 1) 利用本征音超矢量及訓(xùn)練說(shuō)話人超矢量構(gòu)造冗余超矢量字典； 2) 根據(jù)冗余超矢量字典的統(tǒng)計(jì)量，建立最大化說(shuō)話人自適應(yīng)問(wèn)題的目標(biāo)函數(shù)； 3) 采用匹配追蹤算法求解目標(biāo)函數(shù)，通過(guò)迭代優(yōu)化過(guò)程確定最佳子空間維數(shù)及其基矢量構(gòu)造說(shuō)話人子空間，得到未知說(shuō)話人超矢量的近似最佳稀疏分解即為目標(biāo)函數(shù)的求解結(jié) 果。
2. 根據(jù)權(quán)利要求1所述的基于壓縮感知的說(shuō)話人自適應(yīng)方法，其特征在于，所述自適應(yīng)方法還包括W步驟3)得到的近似最佳稀疏分解作為初值，對(duì)目標(biāo)函數(shù)施加稀疏約束，采用正則化原理和投影梯度算法求解目標(biāo)函數(shù)，W得到說(shuō)話人自適應(yīng)問(wèn)題的全局最優(yōu)解。
3. 根據(jù)權(quán)利要求2所述的基于壓縮感知的說(shuō)話人自適應(yīng)方法，其特征在于，所述步驟 1) 中冗余超矢量字典的構(gòu)造過(guò)程如下： A. 利用訓(xùn)練集中S個(gè)說(shuō)話人的訓(xùn)練數(shù)據(jù)構(gòu)建說(shuō)話人無(wú)關(guān)（SI)模型； B. 根據(jù)訓(xùn)練集中每個(gè)說(shuō)話人的訓(xùn)練數(shù)據(jù)，采用自適應(yīng)算法得到S個(gè)訓(xùn)練說(shuō)話人的SD模型； C. 根據(jù)訓(xùn)練說(shuō)話人的SD模型構(gòu)建S個(gè)訓(xùn)練說(shuō)話人超矢量； D. 對(duì)得到的說(shuō)話人超矢量進(jìn)行主分量分析得到S個(gè)說(shuō)話人子空間基矢量，即本征音超矢量； E. 將訓(xùn)練說(shuō)話人超矢量和本征音超矢量聯(lián)合起來(lái)構(gòu)造包含K= 2S個(gè)矢量的說(shuō)話人超矢量字典。
4. 根據(jù)權(quán)利要求2所述的基于壓縮感知的說(shuō)話人自適應(yīng)方法，其特征在于，所述步驟 2) 中構(gòu)建的目標(biāo)函數(shù)為：
其中，K為說(shuō)話人超矢量字典中的超矢量個(gè)數(shù)，Xk為待求解的K維說(shuō)話人坐標(biāo)矢量，Ak為一個(gè)KXK維的矩陣，bK為K維矢量，它們可化圍過(guò)自適應(yīng)數(shù)據(jù)和說(shuō)話人無(wú)關(guān)模型計(jì)算得到，const為與未知參數(shù)Xk無(wú)關(guān)的常數(shù)項(xiàng)。
5. 根據(jù)權(quán)利要求2所述的基于壓縮感知的說(shuō)話人自適應(yīng)方法，其特征在于，所述步驟 3) 中采用匹配追蹤求解目標(biāo)函數(shù)的過(guò)程為： a. 計(jì)算最大的說(shuō)話人子空間N; N = min { n丫，S} 其中，丫是自適應(yīng)語(yǔ)料總的帖數(shù)，n是一個(gè)可設(shè)置的參數(shù)，表示增加一帖自適應(yīng)語(yǔ)料最多需要增加的基矢量個(gè)數(shù)，S表示訓(xùn)練集中說(shuō)話人的個(gè)數(shù)； b. 從基矢量字典中選擇一個(gè)最佳基矢量作為說(shuō)話人子空間基矢量，并估計(jì)相應(yīng)的說(shuō)話人坐標(biāo)； C.從基矢量字典剩下的基矢量中檢測(cè)與說(shuō)話人子空間基矢量相冗余的基矢量，并將其從字典中予W去除； d.從字典中剩下的基矢量中選取一個(gè)最佳的基矢量加入說(shuō)話人子空間基矢量集合中； e. 采用遞推算法更新說(shuō)話人坐標(biāo)矢量； f. 重復(fù)步驟c-e，直至迭代次數(shù)大于N或目標(biāo)函數(shù)變化小于設(shè)定的口限值，此時(shí)根據(jù)所得到說(shuō)話人子空間基矢量及說(shuō)話人坐標(biāo)矢量構(gòu)造說(shuō)話人超矢量，該說(shuō)話人超矢量即為未知說(shuō)話人超矢量的近似最佳值。
6.根據(jù)權(quán)利要求2所述的基于壓縮感知的說(shuō)話人自適應(yīng)方法，其特征在于，所述采用正則化原理和投影梯度算法求解目標(biāo)函數(shù)的過(guò)程如下： A) .W匹配追蹤算法得到的說(shuō)話人因子為投影梯度算法的初始值：
其中;為投影梯度算法的初始值，為匹配追蹤算法得到的說(shuō)話人因子，L為匹配追蹤算法運(yùn)行的迭代步數(shù)； B) .引入1丑則化后，將目標(biāo)函數(shù)轉(zhuǎn)換為：
其中
表示Xk的1 1范數(shù)，A〉〇為1 1正則化因子； C) .利用輔助變量將目標(biāo)函數(shù)進(jìn)一步化簡(jiǎn)為帶有負(fù)非約束的二次規(guī)劃函數(shù)
其中，
U= [Ui,U2,…，％]T，V= [Vi，V2，...，VK]T，Uk= (Xk)+，Vk= (-Xk)+，（x)+=max{0，x}，lK為長(zhǎng)度為K、元素全為l的列矢量，Xk=U-V，|%| = 1是11+1是￥; D) .利用梯度投影算法求解步驟C)中函數(shù)S的最優(yōu)解，W得到的最優(yōu)解重構(gòu)說(shuō)話人因子兩r，該說(shuō)話人因子即為說(shuō)話人自適應(yīng)問(wèn)題的全局最優(yōu)解。
【專利摘要】本發(fā)明涉及一種基于壓縮感知的說(shuō)話人自適應(yīng)方法，屬于連續(xù)語(yǔ)音識(shí)別的聲學(xué)模型自適應(yīng)技術(shù)領(lǐng)域。本發(fā)明將說(shuō)話人自適應(yīng)視為一種高維信號(hào)的稀疏分解問(wèn)題，在訓(xùn)練階段聯(lián)合本征音超矢量和訓(xùn)練說(shuō)話人超矢量構(gòu)造超矢量字典；在自適應(yīng)階段，在稀疏約束條件下，應(yīng)用匹配追蹤算法和l1正則化原理選擇若干個(gè)超矢量進(jìn)行線性組合，對(duì)未知說(shuō)話人超矢量進(jìn)行逼近從而達(dá)到說(shuō)話人自適應(yīng)的目的。本發(fā)明借助于壓縮感知理論在子空間基的構(gòu)造上采用更一般化的超矢量字典；二是在基的選擇上，采用匹配追蹤原理和投影梯度算法求接得到說(shuō)話人超矢量的稀疏表達(dá)。相比傳統(tǒng)的子空間方法，在少量自適應(yīng)數(shù)據(jù)量條件下，本發(fā)明的自適應(yīng)效果優(yōu)于現(xiàn)有的基于說(shuō)話人子空間的自適應(yīng)方法。
【IPC分類】G10L15-07
【公開(kāi)號(hào)】CN104795062
【申請(qǐng)?zhí)枴緾N201510124247
【發(fā)明人】屈丹, 張文林, 李真, 閆紅剛, 張剛
【申請(qǐng)人】中國(guó)人民解放軍信息工程大學(xué)
【公開(kāi)日】2015年7月22日
【申請(qǐng)日】2015年3月20日

完整全部詳細(xì)技術(shù)資料下載