一種基于多因素頻率位移不變特征的魯棒說(shuō)話人辨別方法

文檔序號(hào)：2833114閱讀：267來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種基于多因素頻率位移不變特征的魯棒說(shuō)話人辨別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于提高說(shuō)話人身份辨別性能的特征提取方法，屬于語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域。
背景技術(shù)：
隨著計(jì)算機(jī)和人工智能技術(shù)的不斷發(fā)展，各種各樣的智能機(jī)器參與到人類的生產(chǎn) 活動(dòng)和社會(huì)活動(dòng)當(dāng)中，因此如何改善人們與這些機(jī)器之間的關(guān)系，使人對(duì)機(jī)器的操縱更加便利就顯得越來(lái)越重要，而語(yǔ)言是人與機(jī)器進(jìn)行交流的最好方式。語(yǔ)音信號(hào)處理是語(yǔ)言學(xué)和數(shù)字信號(hào)處理技術(shù)相結(jié)合的交叉學(xué)科，是計(jì)算機(jī)智能接口與人機(jī)交互的重要手段之一，而說(shuō)話人辨別是一種高效的的人機(jī)交互手段，其特點(diǎn)是信號(hào)采集方便，系統(tǒng)設(shè)備成本低，可以廣泛應(yīng)用于身份辨別、公安司法鑒定、語(yǔ)音信號(hào)檢索、軍事、電子商務(wù)等領(lǐng)域。說(shuō)話人辨別一般包括特征提取、參考模型生成和判別分類三部分組成。常用的說(shuō)話人辨別特征提取方法主要包括語(yǔ)音信號(hào)倒譜系數(shù)、特征補(bǔ)償和正則化技術(shù)等。大量的實(shí)踐表明，語(yǔ)音幀能量、基頻、短時(shí)譜、線性預(yù)測(cè)系數(shù)、倒譜稀疏特征等能夠表征說(shuō)話人個(gè)性特征。線性預(yù)測(cè)倒譜系數(shù)(LPCC)利用線性預(yù)測(cè)對(duì)聲道轉(zhuǎn)移函數(shù)進(jìn)行建模，獲取聲道和激勵(lì)源的時(shí)間變化特性，具有計(jì)算復(fù)雜度小，便于實(shí)現(xiàn)等特點(diǎn)，但是魯棒性較差。美爾頻率倒譜系數(shù)(MFCC)考慮人耳的聽覺(jué)特性，對(duì)頻譜進(jìn)行濾波，變換到具有非線性特性的美爾頻譜域，利用倒譜分析語(yǔ)音特征，具有較好的魯棒性。感知加權(quán)線性預(yù)測(cè)系數(shù) (PLP)是重要的說(shuō)話人信號(hào)特征參數(shù)，它利用自回歸全極點(diǎn)模型近似聽覺(jué)譜，在純凈和噪聲環(huán)境下取得了較好的識(shí)別結(jié)果。很多情況下，各種環(huán)境噪聲和信道失真造成識(shí)別性能下降，如果在特征提取過(guò)程中去掉這些穩(wěn)定和變換緩慢的噪聲，可以提高識(shí)別的魯棒性和性能。譜均值減(CMS)是一種簡(jiǎn)單而有效的特征補(bǔ)償方法，用于去除卷積噪聲。RASTA濾波技術(shù)是CMS方法的一種推廣，主要用于解決緩慢時(shí)變的線性信道帶來(lái)的失真問(wèn)題，消除了較低和較高的調(diào)制頻率成分。說(shuō)話人辨別中參考模型的建立通常采用隱馬爾科夫模型(HMM)、高斯混合模型 (GMM)和GMM-UBM等完成，一般HMM模型是針對(duì)文本相關(guān)的說(shuō)話人辨別任務(wù)，而GMM模型是針對(duì)文本無(wú)關(guān)的說(shuō)話人辨別，這些模型都屬于概率統(tǒng)計(jì)模型。此外還有一些其他的參考模型建立方法，比如人工神經(jīng)網(wǎng)絡(luò)(ANN)，支持向量機(jī)(SVM)等，這些都是屬于模式識(shí)別的分類模型。如

圖1所示，傳統(tǒng)的基于PLP和GMM的說(shuō)話人辨別方法通常采用以下步驟1)對(duì)輸入語(yǔ)音信號(hào)信號(hào)進(jìn)行短時(shí)傅立葉變換，獲得信號(hào)的短時(shí)能量譜；2)進(jìn)行臨界頻帶分析，利用Bark尺度的頻率Q進(jìn)行Bark_Hertz頻帶變換，將卷曲之后的能量譜與臨界頻帶遮掩曲線v (Q)進(jìn)行卷積，得到臨界頻帶能量譜0 (Q)；3)經(jīng)過(guò)下采樣之后，對(duì)e (Q)進(jìn)行等響度曲線預(yù)加重來(lái)模擬等響度曲線，得到處理結(jié)果 (Q)，然后進(jìn)行響度壓縮；4)經(jīng)過(guò)對(duì)頻譜進(jìn)行修正之后，利用全極點(diǎn)譜建模的自相關(guān)方法對(duì) (Q)進(jìn)行近似，獲得對(duì)應(yīng)階數(shù)的自相關(guān)系數(shù)；5)通過(guò)離散余弦變換(DCT)對(duì)自相關(guān)系數(shù)計(jì)算倒譜，計(jì)算一階和二階差分系數(shù)；6)利用高斯混合模型(GMM)對(duì)已有說(shuō)話人數(shù)據(jù)進(jìn)行訓(xùn)練，獲得不同說(shuō)話人的模型；7)根據(jù)訓(xùn)練得到的說(shuō)話人模型，對(duì)測(cè)試數(shù)據(jù)進(jìn)行識(shí)別，得到說(shuō)話人辨別的準(zhǔn)確率。目前文本無(wú)關(guān)說(shuō)話人辨別系統(tǒng)中信號(hào)的特征系數(shù)，在相對(duì)安靜的環(huán)境下，可以得到較好的識(shí)別準(zhǔn)確率，但是當(dāng)周圍環(huán)境復(fù)雜，干擾和噪聲比較多的情況下，會(huì)造成說(shuō)話人辨別性能的下降，其主要原因是單一因素特征(如頻譜)的魯棒性較差，說(shuō)話人模型的訓(xùn)練模型與測(cè)試數(shù)據(jù)不匹配。因此如何提高特征的魯棒性，考慮多種因素的特征組合，使得訓(xùn)練模型與測(cè)試數(shù)據(jù)的特征盡量匹配，是提高說(shuō)話人辨別系統(tǒng)性能的關(guān)鍵。

發(fā)明內(nèi)容
在噪聲環(huán)境下，傳統(tǒng)文本無(wú)關(guān)說(shuō)話人辨別系統(tǒng)的魯棒性較差，一般只提取時(shí)頻特征，未考慮頻率的位移不變特性，特征的可分性不高。本發(fā)明提出一種考慮語(yǔ)音中多因素的頻率位移不變特征提取方法，利用卷積型非負(fù)張量分解方法提取頻率的位移不變稀疏特征，降低噪聲成分的干擾，用于復(fù)雜環(huán)境下文本無(wú)關(guān)的說(shuō)話人辨別，提高了識(shí)別的準(zhǔn)確率。本發(fā)明的考慮語(yǔ)音中多因素的頻率位移不變特征提取方法，是利用人腦聽覺(jué)系統(tǒng)中語(yǔ)音信號(hào)的處理機(jī)制，考慮頻率、時(shí)間、尺度和相位多因素特征，通過(guò)二維復(fù)數(shù)小波變換進(jìn)行多因素的表征，考慮頻率的位移不變特性，利用卷積非負(fù)張量分解的方法進(jìn)行特征提取，求解頻率位移不變特征投影矩陣，計(jì)算多因素的魯棒特征，通過(guò)離散余弦變換計(jì)算倒譜系數(shù)，最后獲得具有較好魯棒性的一階和二階差分特征參數(shù)用于說(shuō)話人辨別。具體包括以下步驟( 1)通過(guò)采集設(shè)備得到語(yǔ)音信號(hào)x (t)，并進(jìn)行加窗和預(yù)加重，利用短時(shí)傅里葉變換計(jì)算x (t)的能量譜S (f, t)；(2)利用不同尺度和相位的二維復(fù)數(shù)小波變換對(duì)能量譜S(f，t)進(jìn)行濾波，得到語(yǔ) 音信號(hào)的張量多因素表征^ ;利用美爾尺度變換對(duì)！的頻率階濾波得到一個(gè)4階張量多因素表征S ；(3)采用張量分解的方法對(duì)得到的張量多因素表征S進(jìn)行處理，估計(jì)移位投影矩陣H(1)和不同階上的投影矩陣A(i)，i = 2，3，4，采用以下卷積非負(fù)張量分解的模型
權(quán)利要求
1.一種考慮語(yǔ)音中多因素的頻率位移不變特征提取方法，其特征是考慮語(yǔ)音信號(hào)中包括時(shí)間、頻率、尺度和相位信息的多重因素，利用卷積型非負(fù)張量分解方法計(jì)算頻率階上的特征投影，提取頻率的位移不變稀疏特征，降低噪聲成分的干擾，經(jīng)過(guò)離散余弦變換對(duì)特征去相關(guān)，計(jì)算特征的一階和二階差分系數(shù)，用于復(fù)雜環(huán)境下文本無(wú)關(guān)的說(shuō)話人辨別，具體包括以下步驟 (1)通過(guò)采集設(shè)備得到語(yǔ)音信號(hào)X(t)，并進(jìn)行加窗和預(yù)加重，利用短時(shí)傅里葉變換計(jì)算x(t)的能量譜S(f，t)； (2)利用不同尺度和相位的二維復(fù)數(shù)小波變換對(duì)能量譜S(f，t)進(jìn)行濾波，得到語(yǔ)音信號(hào)的張量多因素表征！;利用美爾尺度變換對(duì)^的頻率階濾波得到一個(gè)4階張量多因素表征S； (3 )采用張量分解的方法對(duì)得到的張量多因素表征S進(jìn)行處理，估計(jì)移位投影矩陣H(1)和不同階上的投影矩陣A(i)，i = 2，3，4，采用以下卷積非負(fù)張量分解的模型
2.根據(jù)權(quán)利要求I所述的考慮語(yǔ)音中多因素的頻率位移不變特征提取方法，其特征是所述步驟(3)中卷積型非負(fù)張量分解方法計(jì)算移位投影矩陣H(1)和投影矩陣A(i)，i =2，…，I的具體過(guò)程如下，其中1=4: ①引入中間矩陣A(1)，使得分解
全文摘要
本發(fā)明公開了一種考慮語(yǔ)音中多因素的頻率位移不變特征提取方法，用于復(fù)雜環(huán)境下的文本無(wú)關(guān)說(shuō)話人辨別，該方法考慮了語(yǔ)音的時(shí)間、頻率、尺度和相位信息，通過(guò)不同尺度和相位的二維復(fù)數(shù)小波變換對(duì)語(yǔ)音信號(hào)能量譜進(jìn)行多因素表征，考慮頻率的位移不變特性，利用卷積型非負(fù)張量分解方法，計(jì)算頻率階上的位移不變特征投影矩陣，得到多因素的稀疏特征，通過(guò)離散余弦變換對(duì)特征去相關(guān)，計(jì)算特征的一階和二階差分系數(shù)，最終獲得具有較好魯棒性的說(shuō)話人特征。本發(fā)明考慮語(yǔ)音信號(hào)多因素頻率位移不變特征提取方法，利用卷積型非負(fù)張量分解方法計(jì)算具有魯棒性的多因素頻率位移不變特征，用于噪聲環(huán)境下的文本無(wú)關(guān)說(shuō)話人辨別，具有較好的識(shí)別準(zhǔn)確率。
文檔編號(hào)G10L17/00GK102664010SQ20121013735
公開日2012年9月12日申請(qǐng)日期2012年5月4日優(yōu)先權(quán)日2012年5月4日
發(fā)明者劉琚, 吳強(qiáng), 孫建德申請(qǐng)人:山東大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳強(qiáng);劉琚;孫建德
技術(shù)所有人：山東大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于多因素頻率位移不變特征的魯棒說(shuō)話人辨別方法