專利名稱:語音情感識別設(shè)備和進行語音情感識別的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù)。更具體地說,本發(fā)明涉及語音情感識別設(shè)備和方法。
背景技術(shù):
近年來,情感在人類的感知、決策等過程扮演著重要角色。長期以來,情感智能研 究只存在于心理學(xué)和認(rèn)知科學(xué)領(lǐng)域。近年來隨著人工智能的發(fā)展,情感智能跟計算機技術(shù) 結(jié)合產(chǎn)生了情感計算這一研究課題。這將大大地促進計算機技術(shù)的發(fā)展。情感自動識別是 通向情感計算的第一步。語音作為人類最重要的交流媒介,攜帶著豐富的情感信息。如何 從語音中自動識別說話者的情感狀態(tài)近年來受到各領(lǐng)域研究者的廣泛關(guān)注。語音情感識別首先要解決的問題是情感狀態(tài)的劃分。已知有兩種情感狀態(tài)劃分方 法,即呈連續(xù)分布的情感狀態(tài)和呈離散分布的情感狀態(tài)。將人類情感劃分為多個離散狀態(tài) 的方法由于其簡化了情感模型,計算也較為簡單,目前為止大多數(shù)研究采用的是這種方法。關(guān)于情感的劃分目前大多數(shù)研究者比較認(rèn)可的基本情感為害怕,憤怒,悲傷,高 興,驚訝和厭惡。這種劃分方法也在MPEG4標(biāo)準(zhǔn)中得到了應(yīng)用。在語音情感識別中,評價一段語音的情感首先要選取能夠表現(xiàn)語音情感的特征。 其次是根據(jù)所提取的特征為每一類情感進行建模。已有技術(shù)中使用較多的特征主要是語音的韻律信息和頻譜信息。韻律信息主要包 括音高,語速和能量以及停頓;頻譜信息目前用的最廣泛的是Mel頻率倒譜系數(shù)(MFCC)。線 性預(yù)測系數(shù)(LPC)、共振峰及其相關(guān)特征也有部分應(yīng)用。在 Schuller B, Rigoll G, Lang M.的"Hidden Markov model-basedspeech emotion recognition[C]Proceedings of the 2003 IEEEInternational Conference on Acoustics, Speech, & Signal Processing, HongKong, 2003 :401_404 中,公開了一禾中 基于隱馬爾科夫模型(HMM)的情感識別方法,其中首先對輸入語音進行分幀和特征提取。 Schuller B等人認(rèn)為韻律特征和頻譜信息均能反映語音的情感,但頻譜信息受音素影響 較大,更容易被語句內(nèi)容所影響,不利于建立語種無關(guān)的情感識別系統(tǒng),因此采用了韻律特 征。在全局韻律特征和時序短時韻律特征選取方面,由于全局韻律特征容易受到語義的影 響,比如疑問句和陳述句相比,前者的基頻偏差(pitch derivation)要遠大于后者。考慮 到上述因素,最終采用了時序的韻律特征。在確定特征的基礎(chǔ)上,采用HMM方法為每種情感建立模型,然后對輸入語音進行 識別。在發(fā)明人為趙力等、名稱為“一種基于支持向量機的語音情感識別方法”的中國 專利申請CN200610097301. 6中,以基音頻率軌跡、振幅、共振峰頻率軌跡為特征,并采用了 性別規(guī)整對說話人性別的差異進行處理,最后為每一種情感訓(xùn)練一個支持向量機(SVM)模 型,通過SVM模型對輸入語音計算其情感。^ ^ 0J A ^J Valery A. Petrushin、名禾爾力"System, method andarticle of manufacture for an emotion detection system”的美國專利US09/387,037 中,首先對語音的基頻,能量,語速,共振峰及其帶寬等特征進行性能測試,通過一種特征選擇算法篩選 出對情感識別影響較大的特征集,共選出了 12種與基頻,語速,能量,共振峰,共振峰帶寬 相關(guān)的特征。然后對輸入語音提取以上特征,與數(shù)據(jù)庫中預(yù)存的每種情感的特征相比較,距 離最近的情感模板可認(rèn)為是輸入語音的情感狀態(tài)。然而,除了根據(jù)訓(xùn)練出的模型進行情感識別之外,還需要利用其它信息來提高識 別準(zhǔn)確度。
發(fā)明內(nèi)容
本發(fā)明的至少一個目的在于提供一種語音情感識別設(shè)備和方法,其能夠至少克服 上述現(xiàn)有技術(shù)的部分缺點和不足,以提高語音情感識別的準(zhǔn)確度。本發(fā)明的一個實施例是一種語音情感識別設(shè)備,包括分析裝置,其將輸入語音的 情感特征與多個情感模型進行匹配,以確定多個可能情感狀態(tài);概率計算裝置,其根據(jù)說話 人說話過程中情感狀態(tài)之間的轉(zhuǎn)換的條件概率知識,計算在說話人先前情感狀態(tài)的條件下 所述可能情感狀態(tài)的最終概率;和情感判斷裝置,其從所述可能情感狀態(tài)中選擇最終概率 最大的可能情感狀態(tài)作為所述輸入語音的情感狀態(tài)。在語音情感識別設(shè)備中,條件概率知識可以包括說話人在連續(xù)說話過程中相鄰兩 句和/或三句話的情感狀態(tài)之間轉(zhuǎn)換的條件概率知識。在語音情感識別設(shè)備中,語音情感識別設(shè)備還可以包括情感緩存裝置,用于以先 入先出方式存儲預(yù)定數(shù)目的來自情感判斷裝置的情感判斷結(jié)果。在語音情感識別設(shè)備中,分析裝置可以進一步被配置為輸出所述可能情感狀態(tài)的 出現(xiàn)概率,并且概率計算裝置可以被進一步配置為結(jié)合出現(xiàn)概率來計算最終概率。進一步 地,最終概率基于所述出現(xiàn)概率和條件概率的加權(quán)和。在語音情感識別設(shè)備中,在說話人先前情感狀態(tài)不存在的情況下可以忽略相應(yīng)條 件概率。在語音情感識別設(shè)備中,情感模型可以基于從包括SVM、HMM、高斯混合模型 (GMM)、神經(jīng)網(wǎng)絡(luò)、距離分類器以及其組合的組中選擇的方法。本發(fā)明的另一個實施例是一種進行語音情感識別的方法,包括將輸入語音的情 感特征與多個情感模型進行匹配,以確定多個可能情感狀態(tài);根據(jù)說話人說話過程中情感 狀態(tài)之間的轉(zhuǎn)換的條件概率知識,計算在說話人先前情感狀態(tài)的條件下所述可能情感狀態(tài) 的最終概率;和從所述可能情感狀態(tài)中選擇最終概率最大的可能情感狀態(tài)作為所述輸入語 音的情感狀態(tài)。在該方法中,條件概率知識可以包括說話人在連續(xù)說話過程中相鄰兩句和/或三 句話的情感狀態(tài)之間轉(zhuǎn)換的條件概率知識。該方法還可以包括以先入先出方式存儲預(yù)定數(shù)目的情感判斷結(jié)果。在該方法中,多個可能情感狀態(tài)的確定可以包括輸出可能情感狀態(tài)的出現(xiàn)概率, 并且最終概率的計算可以包括結(jié)合出現(xiàn)概率來計算最終概率。進一步地,最終概率可以基 于出現(xiàn)概率和條件概率的加權(quán)和。在該方法中,在說話人先前情感狀態(tài)不存在的情況下可以忽略相應(yīng)條件概率。在該方法中,情感模型可以基于從包括SVM、HMM, GMM、神經(jīng)網(wǎng)絡(luò)、距離分類器以及
4其組合的組中選擇的方法。根據(jù)本發(fā)明的實施例,能夠基于同一說話人前后情感變化的統(tǒng)計知識,來提高語 音情感識別的準(zhǔn)確度。
參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其 它目的、特點和優(yōu)點。在附圖中,相同的或?qū)?yīng)的技術(shù)特征或部件將采用相同或?qū)?yīng)的附圖 標(biāo)記來表示。圖1是示出根據(jù)本發(fā)明一個實施例的語音情感識別設(shè)備的結(jié)構(gòu)的框圖。圖2是示出根據(jù)本發(fā)明實施例的進行語音情感識別的方法的流程圖。圖3是示出根據(jù)本發(fā)明實施例的分析裝置的結(jié)構(gòu)的框圖。圖4是示出根據(jù)本發(fā)明實施例的分析步驟的流程圖。圖5的框圖示出了根據(jù)本發(fā)明一個實施例的、用于生成情感狀態(tài)間轉(zhuǎn)換的條件概 率知識的設(shè)備的結(jié)構(gòu)。圖6是示出實現(xiàn)本發(fā)明實施例的計算機的示例性結(jié)構(gòu)的框圖。
具體實施例方式下面參照附圖來說明本發(fā)明的實施例。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說明中 省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。發(fā)明人通過觀察認(rèn)識到,在一段對話過程中,同一說話人的情感(即,情感狀態(tài)) 在一定時間內(nèi)基本上是穩(wěn)定的,情感大起大落的情況很少發(fā)生。比如上一句話的情感如果 是高興,那么本句話的情感是憤怒的概率就低于是高興或中性情感的概率。同樣,一個人在 所說的連續(xù)三句話中,情感變化較大的組合,比如憤怒_高興-憤怒的可能性也很小,因為 大部分人的情感轉(zhuǎn)化都需要一個漸變的過程。因此,不同情感之間互相轉(zhuǎn)換的可能性也有 了差別。發(fā)明人相應(yīng)認(rèn)識到,可以通過大量的對話語料來統(tǒng)計不同情感之間互相轉(zhuǎn)換的概 率。這種情感轉(zhuǎn)換概率信息對于判斷當(dāng)前語句的情感狀態(tài)很有幫助。下面將結(jié)合附圖詳細(xì)說明本發(fā)明的具體實施方式
。圖1是示出根據(jù)本發(fā)明一個實施例的語音情感識別設(shè)備100的結(jié)構(gòu)的框圖。如圖1所示,語音情感識別設(shè)備100包括分析裝置101、概率計算裝置102和情感 判斷裝置103。分析裝置101將輸入語音的情感特征與多個情感模型進行匹配,以確定多個可能 情感狀態(tài)。輸入語音可以是說話人所說的一段語音中的一句語音。在對話環(huán)境中,可以通過 語音特征來篩選出同一說話人的語音作為輸入。例如,用戶將一段客戶與接線員的一段對 話語音的其中一句客戶語音作為輸入。可通過已知技術(shù)來獲得輸入語音的情感特征、訓(xùn)練情感模型和進行情感特征與情 感模型的匹配。下面將根據(jù)圖3就特征提取、情感模型生成和情感特征與情感模型的匹配 進行舉例說明。然而應(yīng)當(dāng)明白,可采用的方法并不限于所示的例子。圖3是示出根據(jù)本發(fā)明實施例的分析裝置101的結(jié)構(gòu)的框圖。
如圖3所示,分析裝置101包括預(yù)處理裝置301、特征提取裝置302和分類裝置 304。預(yù)處理裝置301對輸入語音進行預(yù)處理,其中首先對輸入的語音段進行端點檢 測,以確定有效音段的開始和結(jié)束位置,從而把只包含背景噪聲以及奇異噪聲的部分去除。 目前實現(xiàn)端點檢測這一技術(shù)有很多方法,并且在本領(lǐng)域內(nèi)都是眾所周知的技術(shù),比如利用 過零率檢測,能量檢測等進行端點分析。特征提取裝置302對經(jīng)過預(yù)處理的輸入語音進行特征提取。語音情感特征的提 取目前主要采用韻律和頻譜信息,而兩種特征的提取一般來說都要在更小的時間單位上進 行。因而對語音段進行加窗分幀處理。為了使幀與幀之間平滑過渡,保持其連續(xù)性,一般采 用交疊分段的方法。用可移動的有限長度窗口進行加權(quán),就是用一定的窗函數(shù)w(n)來乘語 音信號s (η),從而形成加窗語音信號Sw (n) =s(n)*w(n)。在語音信號數(shù)字處理中一般采 用漢明窗(Hamming window)作為窗函數(shù),這方面很多文獻都有詳細(xì)論述。在對語音進行加 窗分幀處理后,原語音被分割成在時域上連續(xù)的有重疊的語音幀序列。隨后在每一幀上進 行特征提取。語音中能夠反應(yīng)情感信息的重要特征有很多,其中基頻、語速、能量、頻譜信息在 相關(guān)領(lǐng)域中得到了普遍采用,人們對它們在不同情感下的作用基本上有了相同的認(rèn)識。在 一個例子中,分類器可基于使用SVM。SVM分類器對特征維數(shù)有著固定的要求,因此在特征 提取方面采用全局的韻律信息,也稱為超音段信息。在該例子中,總共提取18種特征(1)基頻(pitch)方面基頻平均值、標(biāo)準(zhǔn)差、變化范圍、極值、取得極值的時間點、 基頻差分的極值、中值、最后一音節(jié)的基頻衰減速度;(2)語速方面元音時長的平均值及標(biāo)準(zhǔn)差;(3)能量方面能量的標(biāo)準(zhǔn)差,能量差分的平均值、標(biāo)準(zhǔn)差、最大值及取得最大值 的時間點?;l的提取是韻律特征的基礎(chǔ)。在該例子中,采用了 P. Boersm的“Accurate short-term analysis of the fundamental frequency and theharmonics-to-noise ratio of a sampled sound,,,Proceedings of thelnstitute of Phonetics Sciences, 17,pp. 97-110,1993中描述的基頻提取算法為每一語音幀估算基頻。由于采用此方法提取 基頻后仍有奇異基頻點存在,即小數(shù)量的連續(xù)幀的基頻值遠高于或遠低于相鄰幀,因此對 PaulBoersma的算法做了平滑后處理。一般來說,正常發(fā)音時一個音節(jié)的基頻持續(xù)時間應(yīng)大 于6幀(幀長10-20ms),因此,持續(xù)時間低于6幀的連續(xù)非零基頻點可認(rèn)為是噪聲,直接做 賦0處理。這樣可以去除掉基頻點中的奇異點,使基頻曲線更加光滑。在提取出每一幀的基頻之后,基頻均值、標(biāo)準(zhǔn)差、變化范圍、極值、取得極值的時 間點能夠容易計算?;l差分為當(dāng)前幀與上一幀的基頻差值。已知聲學(xué)參數(shù)隨時間的變 化曲線也承載了一定的情感信息,例如,在Paeschke A,Sendlmeier W F.的“Prosodic characteristics of emotional speech !measurements of fundamental frequency movements[A]Proc ofISCA Workshop on speech and emotion[C]. Northern Ireland Textf low, 2000. 75-80中提到,憤怒與高興相比,基頻曲線在句末的下傾更為劇烈。因此,把 最后一音節(jié)的基頻衰減速度也納入了特征集當(dāng)中。其計算方式為最后一音節(jié)的最高基頻 點與該音節(jié)最末非零基頻點的差值除以兩個基頻點所對應(yīng)的時間點差值。
在能量的提取方面,一般來說,采用信號采樣值平方表征的短時能量對高電平信 號非常敏感。因此,相關(guān)領(lǐng)域中多數(shù)采用短時平均幅度函數(shù)來表征一幀信號的能量大小 Mn=∑|xn(m)|其中,Mn表示第η幀信號的能量,Xn(m)表示第η幀語音信號,N表示幀長。在上述例子中,在所有特征提取完畢之后,每一輸入語音段可被表示為一個18維 的特征向量。圖3中還示出了情感模型庫304,其包含多個情感模型??梢愿鶕?jù)收集的語料來訓(xùn) 練出各個情感模型。例如,語料可以由大量的客戶與接線員之間的實際對話組成??梢詫?語料進行切分和情感標(biāo)注,將對話過程中情感狀態(tài)為高興、憤怒、著急、驚奇、中性的語句切 分并加以標(biāo)記,并去除情感狀態(tài)或語句受損的句子。最終形成一個具備相當(dāng)數(shù)量的富有各 種情感并且表現(xiàn)良好的情感語音訓(xùn)練庫。繼續(xù)前面的SVM分類器的例子,可根據(jù)已經(jīng)標(biāo)注好的情感語音訓(xùn)練庫,首先將屬 于同一類情感的語句歸到一起,再經(jīng)過與上述預(yù)處理和特征提取相同的處理,提取出能夠 代表該類情感的特征向量作為訓(xùn)練數(shù)據(jù),為每一類情感訓(xùn)練一個模型。具體的SVM訓(xùn)練過 程由于是已知的,這里就不再具體說明。這里采用了 5種情感類別的劃分方法,分別是高興,憤怒,著急,驚奇,中性。當(dāng)然 情感的劃分還有更多的方法,比如有人劃分為正面,負(fù)面,中性三種情感或更加詳細(xì)的劃 分。本模塊為每一類情感訓(xùn)練一個SVM模型(即,情感模型),該模型能夠?qū)斎氲恼Z音特 征向量是否屬于本情感做出一個概率估計。分類器(即,情感模型)所基于的方法不限于SVM。實際上,情感模型可基于從包 括5¥11、_、6匪、神經(jīng)網(wǎng)絡(luò)、距離分類器以及其組合的組中選擇的方法。經(jīng)過特征提取之后,輸入語音段可被表示為一個18維的特征向量X。分類裝置
303將該特征向量與訓(xùn)練出的5種SVM情感模型^wi(I),i = 1,2,3,4,5進行匹配計算。每
一個SVM情感模型都會計算出該特征向量屬于本情感模型的概率值/^i 二 0 = (I)。由
于SVM模型的使用是本領(lǐng)域非常普遍,其計算方法在很多文獻都有詳細(xì)描述(例如可參考 Chih-chungChang禾口 Chih-Jen Lin 的"LIBSVM :a Library for Support VectorMachines,,, 2001 (http://www. csie.ntu. edu. tw/ cjlin/libsvm/),這里不再詳細(xì)描述。對于一個輸入語音段,其與每個情感模型的匹配可得到一個關(guān)于該輸入語音段屬 于相應(yīng)情感狀態(tài)的概率(出現(xiàn)概率)??梢詫⑺械玫椒橇愀怕实南鄳?yīng)情感狀態(tài)作為可能 情感狀態(tài)?;蛘?,也可以設(shè)定一個大于零的閾值,并且將所有概率超過(或等于)閾值的相 應(yīng)情感狀態(tài)作為可能情感狀態(tài)?;氐綀D1,概率計算裝置102根據(jù)說話人說話過程中情感狀態(tài)之間的轉(zhuǎn)換的條件 概率知識,計算在說話人先前情感狀態(tài)的條件下可能情感狀態(tài)的最終概率。在一段對話過程中,同一個人的情感在短時間內(nèi)一般來說是穩(wěn)定的。比如上一句 話的情感如果是高興,那么本句話的情感是憤怒的概率就低于是高興或中性情感的概率。 同樣,一個人在所說的連續(xù)三句話中,情感變化較大的組合,比如憤怒_高興-憤怒的可能 性也很小,因為大部分人的情感轉(zhuǎn)化都需要一個漸變的過程。因此,不同情感之間互相轉(zhuǎn)換的可能性也有了差別??梢酝ㄟ^大量的對話來統(tǒng)計不同情感之間互相轉(zhuǎn)換的概率,以得到 說話人說話過程中情感狀態(tài)之間的轉(zhuǎn)換的條件概率知識。圖5的框圖示出了根據(jù)本發(fā)明一個實施例的、用于生成情感狀態(tài)間轉(zhuǎn)換的條件概 率知識的設(shè)備500的結(jié)構(gòu)。如圖5所示,設(shè)備500包括語音情感標(biāo)注裝置501和情感轉(zhuǎn)換概率統(tǒng)計裝置502。情感語音數(shù)據(jù)庫503包含說話人所說的語料。情感語音標(biāo)注模塊501對情感語音 數(shù)據(jù)庫中所有語音段逐句進行人工切分,并對切分出的語句進行情感標(biāo)注。所進行的標(biāo)注 還可以包括有關(guān)說話人的標(biāo)注,以便確定不同語句是否屬于同一說話人,以及有關(guān)段落的 標(biāo)注,以區(qū)分不同語句是否屬于同一說話過程。情感轉(zhuǎn)換概率統(tǒng)計裝置502對經(jīng)過語音情感標(biāo)注裝置501標(biāo)注的語料(即,語音 情感數(shù)據(jù)庫503)進行統(tǒng)計,以獲得條件概率知識504。一般而言,可以將條件概率知識視為在存在前面N-I個語句的情感狀態(tài)的情況 下,相繼的第N個語句的情感狀態(tài)的概率。具體計算方法如下。假設(shè)有M種情感狀態(tài)i e Ie1, e2,. . . ei,. . . eM},則定義(1)前一語句情感狀態(tài)為i,當(dāng)前語句情感狀態(tài)為j的概率(二元(Bi-gram)訓(xùn)練 模型)為Pbi iet = j I 二 0 =
Ciet^=I),其中C(et_i = i)表示情感語音訓(xùn)練庫中情感狀態(tài)為i的語句出現(xiàn)的次數(shù),C(et_1 =i,et = j)表示情感語音訓(xùn)練庫中同一段說話過程中同一說話人連續(xù)兩句話的情感狀態(tài) 分別為i和j的情況的出現(xiàn)次數(shù)。(2)前兩句話的情感狀態(tài)分別為i,j,當(dāng)前語句情感狀態(tài)為k的概率(三元 (Tri-gram)訓(xùn)練模型)為^tri C^ - I et-2 ~z’ eM -J)--—(--Γ~
C(et_2 =i,etA=j),其中C(et_2 = i,et_i = j)表示情感語音訓(xùn)練庫中同一段說話過程中同一說話人 連續(xù)兩句話的情感狀態(tài)分別為i和j的情況的出現(xiàn)次數(shù),C(et_2 = i,et_i = j,et = k)表示 情感語音訓(xùn)練庫中同一段說話過程中同一說話人連續(xù)三句話的情感狀態(tài)分別為i,j和k的 情況的出現(xiàn)次數(shù)。類似地,可以得到前兩句話的情感狀態(tài)分別為i2,..., V1,當(dāng)前語句情感狀態(tài) 為iN的概率(N元(N-gram)訓(xùn)練模型)為
ρ (a - Ii, _,· p- j f, _ / \ _ ^ieI-N+! ~ ^V eI-N+2 = Z_2,···, gf-l = h-Vet = ‘)
jrNKtiI —— 1N I et-N+l ~ lVKt-N+2 ~ ι2^···'κΙ-1 — ιΝ-\)— 廣廣_ ·— ·_ . χ
t^ \et-N+l = 1I ‘ et-N+2 =Z2,...,eM 二 1N-I)其中C(et_N+1 = I1, et_N+2 = i2,· · ·, =i』表示情感語音訓(xùn)練庫中同一段說 話過程中同一說話人連續(xù)N-I句話的情感狀態(tài)分別為i2,..., V1的情況的出現(xiàn)次數(shù), C(et_N+1 = I1, et_N+2 = i2,. . .,et_! = I^1, et = iN)表示情感語音訓(xùn)練庫中同一段說話過程 中同一說話人連續(xù)N句話的情感狀態(tài)分別為i2,..., V1和iN的情況的出現(xiàn)次數(shù)。值得注意的是,分析裝置101計算出Wpi可看作一元(Uni-gram)訓(xùn)練模型,即
8PmMt=I) = Pi^svmXx) = 1,2,3,4,5。情感轉(zhuǎn)換概率統(tǒng)計裝置502可以根據(jù)上述方法來統(tǒng)計出條件概率知識504。條件概率知識504可以只包含基于一種訓(xùn)練模型的條件概率,也可以包含基于不 同種訓(xùn)練模型的條件概率。在一段說話過程中,當(dāng)前語句情感狀態(tài)受前面兩句話的情感影 響最大,而受更前面的語句的情感狀態(tài)影響較小。因此,條件概率知識504優(yōu)選包含基于三 元訓(xùn)練模型的條件概率、基于二元訓(xùn)練模型的條件概率或其組合。也就是說,條件概率知識 優(yōu)選包括說話人在連續(xù)說話過程中相鄰兩句和/或三句話的情感狀態(tài)之間轉(zhuǎn)換的條件概 率知識?;氐綀D1,對于當(dāng)前語句,概率計算裝置102得到之前同一說話過程、同一說話人 的若干語句(數(shù)目取決于所采用的訓(xùn)練模型)的已確定的情感狀態(tài),并且結(jié)合分析裝置101 確定的每個可能情感狀態(tài),從條件概率知識104中尋找已確定的情感狀態(tài)和可能情感狀態(tài) 間的條件概率。概率計算裝置102可以直接將所得到的條件概率作為相應(yīng)可能情感狀態(tài)的最終 概率,也可以在分析裝置101確定的可能情感狀態(tài)的出現(xiàn)概率之間的差在預(yù)定范圍內(nèi)的情 況下,將所得到的條件概率作為相應(yīng)可能情感狀態(tài)的最終概率。優(yōu)選地,分析裝置101可以向概率計算裝置102提供可能情感狀態(tài)的出現(xiàn)概率,并 且情感判斷裝置被進一步配置為結(jié)合所述出現(xiàn)概率來計算所述最終概率。例如,概率計算裝置102可以簡單地將出現(xiàn)概率和條件概率相加以得到最終概率。優(yōu)選地,最終概率可以基于出現(xiàn)概率和條件概率的加權(quán)和。例如,在采用二元和三元訓(xùn)練模型的情況下,當(dāng)前語句的每個可能情感狀態(tài)的最 終概率可計算為P(et = i) = α -Pimi (et = ) + β · Pbi (et = ile^ + y · Ptri (et = i Iet^1, et_2) (1)其中,α+β + γ = 1。權(quán)重α,β和γ的值可通過對樣本庫的訓(xùn)練獲得,也可 根據(jù)經(jīng)驗指定。一般來說從聲學(xué)特征上對情感的判斷占的比重應(yīng)大于情感轉(zhuǎn)換概率模型 的比重,因此α的值應(yīng)大于β,γ的值,譬如α = 0.6,β = 0.2,γ =0.2,該計算公 式中 · Puni (et = i)體現(xiàn)了從聲學(xué)特征上對當(dāng)前情感的判斷,而β · Pbi (et = D和 Y · Ptri (et = i|et_i,et_2)則體現(xiàn)了從情感轉(zhuǎn)換概率模型上對情感的估計。在語音情感識別設(shè)備初始工作時,可能存在說話人先前情感狀態(tài)不存在的情況 下,例如在采用二元訓(xùn)練模型的情況下,當(dāng)前識別第一個語句的情感狀態(tài)。在這樣的情況 下,可以忽略相應(yīng)條件概率(例如設(shè)為0)。例如,如果當(dāng)前輸入語句為整個對話過程中的第一句或第二句,則計算公式(1) 可分別簡化為P(et = i) = α · Puni (et = i)(2)P (et = i) = α · Puni (et = ) + β · Pbi (et = i | ej (3)情感判斷裝置103從分析裝置101所確定的可能情感狀態(tài)中選擇最終概率 最大的可能情感狀態(tài)作為輸入語音的情感狀態(tài)。例如,可判定使P(et = i)最大,即M 在語音情感識別設(shè)備100中可以設(shè)置情感緩存裝置,用來存儲已經(jīng)識別的每個輸 入語音的情感狀態(tài),以便由概率計算裝置102訪問。優(yōu)選地,情感緩存裝置以先入先出方式 存儲預(yù)定數(shù)目(取決于所采用的訓(xùn)練模型的最大元數(shù))的來自情感判斷裝置103的情感判 斷結(jié)果。圖2是示出根據(jù)本發(fā)明實施例的進行語音情感識別的方法的流程圖。如圖2所示,方法從步驟201開始。在步驟203,將輸入語音的情感特征與多個情 感模型進行匹配,以確定多個可能情感狀態(tài)。輸入語音可以是說話人所說的一段語音中的一句語音。在對話環(huán)境中,可以通過 語音特征來篩選出同一說話人的語音作為輸入??赏ㄟ^已知技術(shù)來獲得輸入語音的情感特征、訓(xùn)練情感模型和進行情感特征與情 感模型的匹配。圖4是示出根據(jù)本發(fā)明實施例的分析步驟的流程圖。如圖4所示,分析步驟從步驟401開始。在步驟403,對輸入語音進行預(yù)處理,其中 首先對輸入的語音段進行端點檢測,以確定有效音段的開始和結(jié)束位置,從而把只包含背 景噪聲以及奇異噪聲的部分去除。在步驟405,對經(jīng)過預(yù)處理的輸入語音進行特征提取。在步驟407,根據(jù)提取的特征進行分類器(情感模型)訓(xùn)練,以得到情感模型庫。情感模型庫包含多個情感模型??梢愿鶕?jù)收集的語料來訓(xùn)練出各個情感模型。例 如,語料可以由大量的客戶與接線員之間的實際對話組成??梢詫φZ料進行切分和情感標(biāo) 注,將對話過程中情感狀態(tài)為高興、憤怒、著急、驚奇、中性的語句切分并加以標(biāo)記,并去除 情感狀態(tài)或語句受損的句子。最終形成一個具備相當(dāng)數(shù)量的富有各種情感并且表現(xiàn)良好的 情感語音訓(xùn)練庫??筛鶕?jù)已經(jīng)標(biāo)注好的情感語音訓(xùn)練庫,首先將屬于同一類情感的語句歸到一起, 再經(jīng)過與上述預(yù)處理和特征提取相同的處理,提取出能夠代表該類情感的特征向量作為訓(xùn) 練數(shù)據(jù),為每一類情感訓(xùn)練一個模型。分析步驟在步驟409結(jié)束?;氐綀D2,對于一個輸入語音段,其與每個情感模型的匹配可得到一個關(guān)于該輸入 語音段屬于相應(yīng)情感狀態(tài)的概率(出現(xiàn)概率)??梢詫⑺械玫椒橇愀怕实南鄳?yīng)情感狀態(tài) 作為可能情感狀態(tài)?;蛘?,也可以設(shè)定一個大于零的閾值,并且將所有概率超過(或等于) 閾值的相應(yīng)情感狀態(tài)作為可能情感狀態(tài)。在步驟205,根據(jù)說話人說話過程中情感狀態(tài)之間的轉(zhuǎn)換的條件概率知識,計算在 說話人先前情感狀態(tài)的條件下可能情感狀態(tài)的最終概率。前面結(jié)合圖5描述了條件概率知識,這里不再重復(fù)說明。對于當(dāng)前語句,得到之前同一說話過程、同一說話人的若干語句(數(shù)目取決于所 采用的訓(xùn)練模型)的已確定的情感狀態(tài),并且結(jié)合步驟203確定的每個可能情感狀態(tài),從條 件概率知識中尋找已確定的情感狀態(tài)和可能情感狀態(tài)間的條件概率??梢灾苯訉⑺玫降臈l件概率作為相應(yīng)可能情感狀態(tài)的最終概率,也可以在步驟
10203確定的可能情感狀態(tài)的出現(xiàn)概率之間的差在預(yù)定范圍內(nèi)的情況下,將所得到的條件概 率作為相應(yīng)可能情感狀態(tài)的最終概率。優(yōu)選地,步驟203可以輸出可能情感狀態(tài)的出現(xiàn)概率,并且步驟205可以結(jié)合出現(xiàn) 概率來計算最終概率。例如,可以簡單地將出現(xiàn)概率和條件概率相加以得到最終概率。優(yōu)選地,最終概率可以基于出現(xiàn)概率和條件概率的加權(quán)和,如前面結(jié)合公式(1) 所述。在語音情感識別設(shè)備初始工作時,可能存在說話人先前情感狀態(tài)不存在的情況 下,例如在采用二元訓(xùn)練模型的情況下,當(dāng)前識別第一個語句的情感狀態(tài)。在這樣的情況 下,可以忽略相應(yīng)條件概率(例如設(shè)為0)。在步驟207,從步驟203所確定的可能情感狀態(tài)中選擇最終概率最大的可能情感
M
狀態(tài)作為輸入語音的情感狀態(tài)。例如,可判定使P(et = i)最大,即e, =argmaxP(e, 的i
/=1
值作為輸入語音的情感狀態(tài)。方法在步驟209結(jié)束。在圖2所示的方法中,可以存儲已經(jīng)識別的每個輸入語音的情感狀態(tài),以便在以 后執(zhí)行步驟205時訪問。優(yōu)選地,可以以先入先出方式存儲預(yù)定數(shù)目(取決于所采用的訓(xùn) 練模型的最大元數(shù))的步驟207的情感判斷結(jié)果。雖然前面以SVM為例來說明本發(fā)明的實施例,然而HMM也適用于本發(fā)明。在采用 HMM的情況下,情感模型基于HMM分類器,所提取的特征為時序頻譜特征Mel倒譜頻率系數(shù) (MFCC)。MFCC參數(shù)的提取針對語音段的每幀進行,每幀語音信號可提取出39維的特征向 量,包括12維基本MFCC參數(shù)和對數(shù)幀能量以及它們的一階和二階差分。這樣輸入語音段 可被表示為個數(shù)為幀數(shù)的39維特征向量。根據(jù)已經(jīng)標(biāo)注好的情感語音訓(xùn)練庫,首先將屬于同一類情感的語句歸到一起,再 經(jīng)過與所述預(yù)處理模塊和特征提取模塊相同的處理,提取出能夠代表該類情感的特征向量 作為訓(xùn)練數(shù)據(jù),為每一類情感訓(xùn)練一個模型。具體的HMM訓(xùn)練過程由于眾多文獻都有詳細(xì) 論述,這里就不再展開說明。本實施方式中采用了 5種情感類別的劃分方法,分別是高興, 憤怒,著急,驚奇,中性。當(dāng)然情感的劃分還有更多的方法,比如有人劃分為正面,負(fù)面,中性 三種情感或更加詳細(xì)的劃分。為每一類情感訓(xùn)練一個HMM模型,該模型能夠?qū)斎氲恼Z音 特征向量與本情感模型的匹配程度做出一個概率估計。經(jīng)過特征提取之后,輸入語音段可被表示為一個個數(shù)為幀數(shù)的39維特征向量X = Ix1,X2,.. · %},N為該語音段的幀數(shù)。將該特征向量與所訓(xùn)練的5種HMM情感模型KMMi(I) } i = 1,2,3,4,5進行解碼計算,每一個HMM情感模型都會計算出該特征向量屬于本情感模 型的概率值Pk =O=HMMiG)由于HMM模型的使用在本領(lǐng)域非常普遍,其計算方法在
ο
很多文獻都有詳細(xì)描述(例如可參考L Rabiner.的“A tutorial onHMM and selected applications in speech recognition", Proc. IEEE, 1989, 77 (2) :257_286),這里不再詳 細(xì)描述。同樣,通過與情感模型匹配而獲得的出現(xiàn)概率Pi可看作一元(Uni-gram)訓(xùn)練模 型,即
Puni (et = O = Pi = HMMi ( ), = 1,2,3,4,5在本發(fā)明的語音情感識別設(shè)備和方法中,基于同一說話人前后情感變化的統(tǒng)計知 識,以及表征語音情感的韻律和頻譜特征對一段對話過程中的語音進行情感識別。另外,還應(yīng)該指出的是,上述系列處理和裝置即可以通過硬件實現(xiàn),也可以通過軟 件和固件實現(xiàn)。在通過軟件或固件實現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu) 的計算機,例如圖6所示的通用計算機600安裝構(gòu)成該軟件的程序,該計算機在安裝有各種 程序時,能夠執(zhí)行各種功能等等。在圖6中,中央處理單元(CPU)601根據(jù)只讀存儲器(ROM)602中存儲的程序或從 存儲部分608加載到隨機存取存儲器(RAM) 603的程序執(zhí)行各種處理。在RAM 603中,也根 據(jù)需要存儲當(dāng)CPU 601執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 601、ROM 602和RAM 603經(jīng)由總線604彼此連接。輸入/輸出接口 605也連 接到總線604。下述部件連接到輸入/輸出接口 605 輸入部分606,包括鍵盤、鼠標(biāo)等等;輸出部 分607,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(IXD)等等,和揚聲器等等;存儲部 分608,包括硬盤等等;和通信部分609,包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等等。通 信部分609經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器610也連接到輸入/輸出接口 605??刹鹦督橘|(zhì)611比如磁盤、 光盤、磁光盤、半導(dǎo)體存儲器等等根據(jù)需要被安裝在驅(qū)動器610上,使得從中讀出的計算機 程序根據(jù)需要被安裝到存儲部分608中。在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆 卸介質(zhì)611安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲介質(zhì)不局限于圖7所示的其中存儲有程 序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)611。可拆卸介質(zhì)611的例子 包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器。或者,存儲介質(zhì)可以是 ROM 602、存儲部分608中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被 分發(fā)給用戶。還需要指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順 序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨立地執(zhí)行。雖然已經(jīng)詳細(xì)說明了本發(fā)明及其優(yōu)點,但是應(yīng)當(dāng)理解在不脫離由所附的權(quán)利要求 所限定的本發(fā)明的精神和范圍的情況下可以進行各種改變、替代和變換。
1權(quán)利要求
一種語音情感識別設(shè)備,包括分析裝置,其將輸入語音的情感特征與多個情感模型進行匹配,以確定多個可能情感狀態(tài);概率計算裝置,其根據(jù)說話人說話過程中情感狀態(tài)之間的轉(zhuǎn)換的條件概率知識,計算在說話人先前情感狀態(tài)的條件下所述可能情感狀態(tài)的最終概率;和情感判斷裝置,其從所述可能情感狀態(tài)中選擇最終概率最大的可能情感狀態(tài)作為所述輸入語音的情感狀態(tài)。
2.根據(jù)權(quán)利要求1所述的語音情感識別設(shè)備,其中所述條件概率知識包括說話人在連 續(xù)說話過程中相鄰兩句和/或三句話的情感狀態(tài)之間轉(zhuǎn)換的條件概率知識。
3.根據(jù)權(quán)利要求1所述的語音情感識別設(shè)備,還包括情感緩存裝置,用于以先入先出 方式存儲預(yù)定數(shù)目的來自情感判斷裝置的情感判斷結(jié)果。
4.根據(jù)權(quán)利要求1所述的語音情感識別設(shè)備,其中所述分析裝置進一步被配置為輸出 所述可能情感狀態(tài)的出現(xiàn)概率,并且所述概率計算裝置被進一步配置為結(jié)合所述出現(xiàn)概率 來計算所述最終概率。
5.根據(jù)權(quán)利要求4所述的語音情感識別設(shè)備,其中所述最終概率基于所述出現(xiàn)概率和 條件概率的加權(quán)和。
6.根據(jù)權(quán)利要求1所述的語音情感識別設(shè)備,其中在說話人先前情感狀態(tài)不存在的情 況下忽略相應(yīng)條件概率。
7.根據(jù)權(quán)利要求1所述的語音情感識別設(shè)備,其中所述情感模型基于從包括SVM、HMM、 GMM、神經(jīng)網(wǎng)絡(luò)、距離分類器以及其組合的組中選擇的方法。
8. 一種進行語音情感識別的方法,包括將輸入語音的情感特征與多個情感模型進行匹配,以確定多個可能情感狀態(tài);根據(jù)說話人說話過程中情感狀態(tài)之間的轉(zhuǎn)換的條件概率知識,計算在說話人先前情感 狀態(tài)的條件下所述可能情感狀態(tài)的最終概率;和從所述可能情感狀態(tài)中選擇最終概率最大的可能情感狀態(tài)作為所述輸入語音的情感 狀態(tài)。
9.根據(jù)權(quán)利要求8所述的方法,其中所述條件概率知識包括說話人在連續(xù)說話過程中 相鄰兩句和/或三句話的情感狀態(tài)之間轉(zhuǎn)換的條件概率知識。
10.根據(jù)權(quán)利要求8所述的方法,還包括以先入先出方式存儲預(yù)定數(shù)目的情感判斷結(jié)^ ο
11.根據(jù)權(quán)利要求8所述的方法,其中所述多個可能情感狀態(tài)的確定包括輸出所述可 能情感狀態(tài)的出現(xiàn)概率,并且所述最終概率的計算包括結(jié)合所述出現(xiàn)概率來計算所述最終 概率。
12.根據(jù)權(quán)利要求11所述的方法,其中所述最終概率基于所述出現(xiàn)概率和條件概率的 加權(quán)和。
13.根據(jù)權(quán)利要求8所述的方法,其中在說話人先前情感狀態(tài)不存在的情況下忽略相 應(yīng)條件概率。
14.根據(jù)權(quán)利要求8所述的方法,其中所述情感模型基于從包括SVM、HMM,GMM、神經(jīng)網(wǎng) 絡(luò)、距離分類器以及其組合的組中選擇的方法。
全文摘要
語音情感識別設(shè)備和進行語音情感識別的方法。語音情感識別設(shè)備包含分析裝置,其將輸入語音的情感特征與多個情感模型進行匹配,以確定多個可能情感狀態(tài);概率計算裝置,其根據(jù)說話人說話過程中情感狀態(tài)之間的轉(zhuǎn)換的條件概率知識,計算在說話人先前情感狀態(tài)的條件下所述可能情感狀態(tài)的最終概率;和情感判斷裝置,其從所述可能情感狀態(tài)中選擇最終概率最大的可能情感狀態(tài)作為所述輸入語音的情感狀態(tài)。
文檔編號G10L19/06GK101930735SQ200910150458
公開日2010年12月29日 申請日期2009年6月23日 優(yōu)先權(quán)日2009年6月23日
發(fā)明者李鵬, 王彬, 郭慶, 陸應(yīng)亮 申請人:富士通株式會社