專利名稱:一種基于多因素頻率位移不變特征的魯棒說(shuō)話人辨別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于提高說(shuō)話人身份辨別性能的特征提取方法,屬于語(yǔ)音信號(hào)處 理技術(shù)領(lǐng)域。
背景技術(shù):
隨著計(jì)算機(jī)和人工智能技術(shù)的不斷發(fā)展,各種各樣的智能機(jī)器參與到人類的生產(chǎn) 活動(dòng)和社會(huì)活動(dòng)當(dāng)中,因此如何改善人們與這些機(jī)器之間的關(guān)系,使人對(duì)機(jī)器的操縱更加 便利就顯得越來(lái)越重要,而語(yǔ)言是人與機(jī)器進(jìn)行交流的最好方式。語(yǔ)音信號(hào)處理是語(yǔ)言學(xué)和數(shù)字信號(hào)處理技術(shù)相結(jié)合的交叉學(xué)科,是計(jì)算機(jī)智能接 口與人機(jī)交互的重要手段之一,而說(shuō)話人辨別是一種高效的的人機(jī)交互手段,其特點(diǎn)是信 號(hào)采集方便,系統(tǒng)設(shè)備成本低,可以廣泛應(yīng)用于身份辨別、公安司法鑒定、語(yǔ)音信號(hào)檢索、軍 事、電子商務(wù)等領(lǐng)域。說(shuō)話人辨別一般包括特征提取、參考模型生成和判別分類三部分組成。常用的說(shuō)話人辨別特征提取方法主要包括語(yǔ)音信號(hào)倒譜系數(shù)、特征補(bǔ)償和正則化 技術(shù)等。大量的實(shí)踐表明,語(yǔ)音幀能量、基頻、短時(shí)譜、線性預(yù)測(cè)系數(shù)、倒譜稀疏特征等能夠 表征說(shuō)話人個(gè)性特征。線性預(yù)測(cè)倒譜系數(shù)(LPCC)利用線性預(yù)測(cè)對(duì)聲道轉(zhuǎn)移函數(shù)進(jìn)行建模, 獲取聲道和激勵(lì)源的時(shí)間變化特性,具有計(jì)算復(fù)雜度小,便于實(shí)現(xiàn)等特點(diǎn),但是魯棒性較 差。美爾頻率倒譜系數(shù)(MFCC)考慮人耳的聽覺(jué)特性,對(duì)頻譜進(jìn)行濾波,變換到具有非線性 特性的美爾頻譜域,利用倒譜分析語(yǔ)音特征,具有較好的魯棒性。感知加權(quán)線性預(yù)測(cè)系數(shù) (PLP)是重要的說(shuō)話人信號(hào)特征參數(shù),它利用自回歸全極點(diǎn)模型近似聽覺(jué)譜,在純凈和噪聲 環(huán)境下取得了較好的識(shí)別結(jié)果。很多情況下,各種環(huán)境噪聲和信道失真造成識(shí)別性能下降,如果在特征提取過(guò)程 中去掉這些穩(wěn)定和變換緩慢的噪聲,可以提高識(shí)別的魯棒性和性能。譜均值減(CMS)是一種 簡(jiǎn)單而有效的特征補(bǔ)償方法,用于去除卷積噪聲。RASTA濾波技術(shù)是CMS方法的一種推廣, 主要用于解決緩慢時(shí)變的線性信道帶來(lái)的失真問(wèn)題,消除了較低和較高的調(diào)制頻率成分。說(shuō)話人辨別中參考模型的建立通常采用隱馬爾科夫模型(HMM)、高斯混合模型 (GMM)和GMM-UBM等完成,一般HMM模型是針對(duì)文本相關(guān)的說(shuō)話人辨別任務(wù),而GMM模型是 針對(duì)文本無(wú)關(guān)的說(shuō)話人辨別,這些模型都屬于概率統(tǒng)計(jì)模型。此外還有一些其他的參考模 型建立方法,比如人工神經(jīng)網(wǎng)絡(luò)(ANN),支持向量機(jī)(SVM)等,這些都是屬于模式識(shí)別的分 類模型。如
圖1所示,傳統(tǒng)的基于PLP和GMM的說(shuō)話人辨別方法通常采用以下步驟1)對(duì)輸入語(yǔ)音信號(hào)信號(hào)進(jìn)行短時(shí)傅立葉變換,獲得信號(hào)的短時(shí)能量譜;2)進(jìn)行臨界頻帶分析,利用Bark尺度的頻率Q進(jìn)行Bark_Hertz頻帶變換,將卷 曲之后的能量譜與臨界頻帶遮掩曲線v (Q)進(jìn)行卷積,得到臨界頻帶能量譜0 (Q);3)經(jīng)過(guò)下采樣之后,對(duì)e (Q)進(jìn)行等響度曲線預(yù)加重來(lái)模擬等響度曲線,得到處理結(jié)果 (Q),然后進(jìn)行響度壓縮;4)經(jīng)過(guò)對(duì)頻譜進(jìn)行修正之后,利用全極點(diǎn)譜建模的自相關(guān)方法對(duì) (Q)進(jìn)行近 似,獲得對(duì)應(yīng)階數(shù)的自相關(guān)系數(shù);5)通過(guò)離散余弦變換(DCT)對(duì)自相關(guān)系數(shù)計(jì)算倒譜,計(jì)算一階和二階差分系數(shù);6)利用高斯混合模型(GMM)對(duì)已有說(shuō)話人數(shù)據(jù)進(jìn)行訓(xùn)練,獲得不同說(shuō)話人的模 型;7)根據(jù)訓(xùn)練得到的說(shuō)話人模型,對(duì)測(cè)試數(shù)據(jù)進(jìn)行識(shí)別,得到說(shuō)話人辨別的準(zhǔn)確率。目前文本無(wú)關(guān)說(shuō)話人辨別系統(tǒng)中信號(hào)的特征系數(shù),在相對(duì)安靜的環(huán)境下,可以得 到較好的識(shí)別準(zhǔn)確率,但是當(dāng)周圍環(huán)境復(fù)雜,干擾和噪聲比較多的情況下,會(huì)造成說(shuō)話人辨 別性能的下降,其主要原因是單一因素特征(如頻譜)的魯棒性較差,說(shuō)話人模型的訓(xùn)練模 型與測(cè)試數(shù)據(jù)不匹配。因此如何提高特征的魯棒性,考慮多種因素的特征組合,使得訓(xùn)練模 型與測(cè)試數(shù)據(jù)的特征盡量匹配,是提高說(shuō)話人辨別系統(tǒng)性能的關(guān)鍵。
發(fā)明內(nèi)容
在噪聲環(huán)境下,傳統(tǒng)文本無(wú)關(guān)說(shuō)話人辨別系統(tǒng)的魯棒性較差,一般只提取時(shí)頻特 征,未考慮頻率的位移不變特性,特征的可分性不高。本發(fā)明提出一種考慮語(yǔ)音中多因素 的頻率位移不變特征提取方法,利用卷積型非負(fù)張量分解方法提取頻率的位移不變稀疏特 征,降低噪聲成分的干擾,用于復(fù)雜環(huán)境下文本無(wú)關(guān)的說(shuō)話人辨別,提高了識(shí)別的準(zhǔn)確率。本發(fā)明的考慮語(yǔ)音中多因素的頻率位移不變特征提取方法,是利用人腦聽覺(jué)系統(tǒng)中語(yǔ)音信號(hào)的處理機(jī)制,考慮頻率、時(shí)間、尺度和相位多因素特 征,通過(guò)二維復(fù)數(shù)小波變換進(jìn)行多因素的表征,考慮頻率的位移不變特性,利用卷積非負(fù)張 量分解的方法進(jìn)行特征提取,求解頻率位移不變特征投影矩陣,計(jì)算多因素的魯棒特征,通 過(guò)離散余弦變換計(jì)算倒譜系數(shù),最后獲得具有較好魯棒性的一階和二階差分特征參數(shù)用于 說(shuō)話人辨別。具體包括以下步驟( 1)通過(guò)采集設(shè)備得到語(yǔ)音信號(hào)x (t),并進(jìn)行加窗和預(yù)加重,利用短時(shí)傅里葉變換 計(jì)算x (t)的能量譜S (f, t);(2)利用不同尺度和相位的二維復(fù)數(shù)小波變換對(duì)能量譜S(f,t)進(jìn)行濾波,得到語(yǔ) 音信號(hào)的張量多因素表征^ ;利用美爾尺度變換對(duì)!的頻率階濾波得到一個(gè)4階張量多因素 表征S ;(3)采用張量分解的方法對(duì)得到的張量多因素表征S進(jìn)行處理,估計(jì)移位投影矩 陣H(1)和不同階上的投影矩陣A(i),i = 2,3,4,采用以下卷積非負(fù)張量分解的模型
權(quán)利要求
1.一種考慮語(yǔ)音中多因素的頻率位移不變特征提取方法,其特征是 考慮語(yǔ)音信號(hào)中包括時(shí)間、頻率、尺度和相位信息的多重因素,利用卷積型非負(fù)張量分解方法計(jì)算頻率階上的特征投影,提取頻率的位移不變稀疏特征,降低噪聲成分的干擾,經(jīng)過(guò)離散余弦變換對(duì)特征去相關(guān),計(jì)算特征的一階和二階差分系數(shù),用于復(fù)雜環(huán)境下文本無(wú)關(guān)的說(shuō)話人辨別,具體包括以下步驟 (1)通過(guò)采集設(shè)備得到語(yǔ)音信號(hào)X(t),并進(jìn)行加窗和預(yù)加重,利用短時(shí)傅里葉變換計(jì)算x(t)的能量譜S(f,t); (2)利用不同尺度和相位的二維復(fù)數(shù)小波變換對(duì)能量譜S(f,t)進(jìn)行濾波,得到語(yǔ)音信號(hào)的張量多因素表征!;利用美爾尺度變換對(duì)^的頻率階濾波得到一個(gè)4階張量多因素表征S; (3 )采用張量分解的方法對(duì)得到的張量多因素表征S進(jìn)行處理,估計(jì)移位投影矩陣H(1)和不同階上的投影矩陣A(i),i = 2,3,4,采用以下卷積非負(fù)張量分解的模型
2.根據(jù)權(quán)利要求I所述的考慮語(yǔ)音中多因素的頻率位移不變特征提取方法,其特征是所述步驟(3)中卷積型非負(fù)張量分解方法計(jì)算移位投影矩陣H(1)和投影矩陣A(i),i =2,…,I的具體過(guò)程如下,其中1=4: ①引入中間矩陣A(1),使得分解
全文摘要
本發(fā)明公開了一種考慮語(yǔ)音中多因素的頻率位移不變特征提取方法,用于復(fù)雜環(huán)境下的文本無(wú)關(guān)說(shuō)話人辨別,該方法考慮了語(yǔ)音的時(shí)間、頻率、尺度和相位信息,通過(guò)不同尺度和相位的二維復(fù)數(shù)小波變換對(duì)語(yǔ)音信號(hào)能量譜進(jìn)行多因素表征,考慮頻率的位移不變特性,利用卷積型非負(fù)張量分解方法,計(jì)算頻率階上的位移不變特征投影矩陣,得到多因素的稀疏特征,通過(guò)離散余弦變換對(duì)特征去相關(guān),計(jì)算特征的一階和二階差分系數(shù),最終獲得具有較好魯棒性的說(shuō)話人特征。本發(fā)明考慮語(yǔ)音信號(hào)多因素頻率位移不變特征提取方法,利用卷積型非負(fù)張量分解方法計(jì)算具有魯棒性的多因素頻率位移不變特征,用于噪聲環(huán)境下的文本無(wú)關(guān)說(shuō)話人辨別,具有較好的識(shí)別準(zhǔn)確率。
文檔編號(hào)G10L17/00GK102664010SQ20121013735
公開日2012年9月12日 申請(qǐng)日期2012年5月4日 優(yōu)先權(quán)日2012年5月4日
發(fā)明者劉琚, 吳強(qiáng), 孫建德 申請(qǐng)人:山東大學(xué)