一種基于事件檢測(cè)的說話人分割方法
【專利摘要】本發(fā)明涉及一種基于事件檢測(cè)的說話人分割方法,屬于音頻信號(hào)處理技術(shù)領(lǐng)域;該方法包括說話人分割、事件檢測(cè)、說話人分割結(jié)果修正三個(gè)步驟:說話人分割步驟對(duì)輸入音頻通過采用現(xiàn)有距離度量法確定說話人跳變點(diǎn),并依據(jù)跳變點(diǎn)分割音頻得到不同長度的音頻段,即初始說話人分割結(jié)果;事件檢測(cè)步驟基于事件的時(shí)域特征檢測(cè)出輸入音頻的事件點(diǎn);說話人分割結(jié)果修正步驟基于事件點(diǎn)對(duì)初始說話人分割結(jié)果進(jìn)行基于概率統(tǒng)計(jì)的修正,從而得到最終的說話人分割結(jié)果。對(duì)比現(xiàn)有技術(shù),針對(duì)對(duì)講語音本發(fā)明方法能夠充分利用音頻中的信息進(jìn)行說話人分割,在信道變化、噪聲大且說話人較多的情況下,比現(xiàn)有說話人分割方法有較大的性能提升。
【專利說明】
一種基于事件檢測(cè)的說話人分割方法
技術(shù)領(lǐng)域
[0001]本專利涉及一種說話人分割方法,特別涉及一種基于事件檢測(cè)的說話人分割方法,屬于音頻信號(hào)處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]隨著音頻獲取途徑和數(shù)量的快速增加,音頻管理變得越來越復(fù)雜,近幾年說話人分割聚類在國際上逐漸成為熱點(diǎn)研究問題,國外許多大學(xué)和研究機(jī)構(gòu)都開展了相關(guān)研究工作,美國國家標(biāo)準(zhǔn)技術(shù)局(Nat1nal Institute of Standards and Technology,NIST)在1999年組織的說話人識(shí)別評(píng)測(cè)任務(wù)中就增加了兩人電話語音的分割聚類項(xiàng)目,2002年NIST提出的富信息轉(zhuǎn)寫(Rich Transcript1n,RT)評(píng)測(cè)正式開展對(duì)說話人分割聚類的研究。
[0003]目前主流的說話人分割算法有距離度量法和模型法,距離度量法需根據(jù)相鄰語音段之間距離,確定兩個(gè)音段之間是否存在說話人變換點(diǎn)。一個(gè)典型的方法是變窗長變換點(diǎn)檢測(cè)方法,即利用貝葉斯信息判決(Bayesian Informat1n Criter1n,BIC)距離是否超過固定閾值,判斷窗內(nèi)前后兩個(gè)語音段之間是否存在變換點(diǎn),如果不存在則增加窗長,直到檢測(cè)出說話人變換點(diǎn)。模型法常見使用GMM和SVM,計(jì)算相鄰模型之間的相似度距離,根據(jù)經(jīng)驗(yàn)閾值判別說話人變換點(diǎn)是否存在。從以上分析中能夠看出,說話人分割方法沒有充分利用音頻的其他輔助信息,對(duì)于噪聲強(qiáng)度比較大且信道一直變化的音頻性能比較差。
[0004]本專利在原有分割算法的基礎(chǔ)上,提出一種事件檢測(cè)的方法,充分利用音頻的其他信息,輔助進(jìn)行說話人分割,實(shí)驗(yàn)證明該方法能夠顯著的提升說話人分割的性能。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是充分利用音頻信息來提升說話人分割的性能,提出了一種基于事件檢測(cè)的方法輔助進(jìn)行說話人分割,可用于說話人分割的音頻分析。
[0006]本發(fā)明的思想是在現(xiàn)有說話人分割算法進(jìn)行說話人分割的基礎(chǔ)上,通過對(duì)音頻中的事件檢測(cè),使用此額外信息修正分割結(jié)果以得到更好的說話人分割性能。
[0007]為了達(dá)到上述目的,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0008]—種基于事件檢測(cè)的說話人分割方法,包括說話人分割、事件檢測(cè)、說話人分割結(jié)果修正三個(gè)步驟:說話人分割步驟對(duì)輸入音頻通過采用現(xiàn)有分割方法確定分割音頻得到初始說話人分割結(jié)果;事件檢測(cè)步驟基于事件的時(shí)域特征檢測(cè)出輸入音頻的事件點(diǎn);說話人分割結(jié)果修正步驟基于事件點(diǎn)對(duì)初始說話人分割結(jié)果進(jìn)行基于概率統(tǒng)計(jì)的修正,從而得到最終的說話人分割結(jié)果。
[0009]作為優(yōu)選,所述現(xiàn)有分割方法為基于BIC距離度量準(zhǔn)則,使用大小窗的距離度量法。
[00?0] 作為優(yōu)選,所述大小窗的設(shè)置為:大窗為600、窗移為120,小窗為300、窗移為60。
[0011]作為優(yōu)選,所述事件為按鍵音。
[0012]作為優(yōu)選,所述事件的時(shí)域特征為按鍵音的短時(shí)能量、過零率和短時(shí)能量比特征,其波形為先上升接著保持然后下降或者上升后馬上下降。
[0013]作為優(yōu)選,所述檢測(cè)出輸入音頻的事件點(diǎn)采用基于事件的特征構(gòu)造的濾波器實(shí)現(xiàn)。
[0014]作為優(yōu)選,所述檢測(cè)出輸入音頻的事件點(diǎn)結(jié)果為2組,分別為根據(jù)窄幅度范圍Tl和寬幅度范圍T2檢測(cè)出的事件點(diǎn)結(jié)果Rl和R2。
[0015]作為優(yōu)選,所述Tl為1/4的事件特征幅度平均值到1/2的事件特征幅度平均值;所述T2為1/8的事件特征幅度平均值到8倍的事件特征幅度平均值。
[0016]作為優(yōu)選,所述修正通過以下過程完成:根據(jù)Rl以及初始說話人分割結(jié)果,檢查說話人分割結(jié)果中音頻段中間是否存在事件點(diǎn),如果存在,則將音頻在事件點(diǎn)處分為兩個(gè)說話人;根據(jù)R2以及說話人分割結(jié)果,若音頻段中未出現(xiàn)按鍵音,且兩段音頻的中間間隔不超過預(yù)設(shè)閾值M,則將該相鄰的音頻段合并。
[0017]作為優(yōu)選,所述M = 0.5。
[0018]有益效果
[0019]對(duì)比現(xiàn)有技術(shù),針對(duì)對(duì)講語音本發(fā)明方法能夠充分利用音頻中的信息進(jìn)行說話人分割,在信道變化、噪聲大且說話人較多的情況下,比現(xiàn)有說話人分割方法有較大的性能提升。
【附圖說明】
[0020]圖1為本發(fā)明實(shí)施例一種基于事件檢測(cè)的說話人分割方法流程示意圖;
[0021]圖2為本發(fā)明實(shí)施例中音頻(Speech)、短時(shí)能量(Energy)、過零率(ZCR)、短時(shí)能量比(Energy-Rat1)和從音頻中檢測(cè)出的按鍵音(Key)的波形示意圖;
[0022]圖3為本發(fā)明實(shí)施例中將圖2放大后的按鍵音位置(Speech)、短時(shí)能量(Energy)、過零率(ZCR)和短時(shí)能量比(Energy-Rat1)的波形示意圖。
[0023]圖4為本發(fā)明實(shí)施例中,得到初步說話人分割結(jié)果和按鍵音位置后,進(jìn)行說話人分割修正的流程示意圖。
【具體實(shí)施方式】
[0024]下面結(jié)合附圖對(duì)本發(fā)明方法的實(shí)施方式作詳細(xì)說明。
[0025]下面以直升機(jī)實(shí)際作業(yè)時(shí)錄制的話音數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)對(duì)本發(fā)明方法的實(shí)施過程進(jìn)行說明。該話音數(shù)據(jù)的采樣率為16KHZ,精度為16bit,共包括15個(gè)小時(shí)語音,包含飛機(jī)啟動(dòng)到關(guān)機(jī)的所有過程,隨著飛行狀態(tài)的變化,話音信道、背景噪聲變化較大。記錄中出現(xiàn)的人數(shù)在120左右,跳變點(diǎn)個(gè)數(shù)為18000個(gè),按鍵音9000個(gè)。
[0026]下面對(duì)于音頻提取特征和按鍵音檢測(cè)的所有過程,均采用每幀去20ms,幀移為1ms進(jìn)行處理。
[0027]對(duì)以上輸入音頻數(shù)據(jù),如圖1所示,采用本發(fā)明方法進(jìn)行說話人分割的步驟如下:
[0028]步驟1:說話人分割;
[0029]本步驟可以采用任何現(xiàn)有說話人分割方法確定說話人跳變點(diǎn),本實(shí)施例以距離度量法為例進(jìn)行本步驟的說話人分割,具體是采用基于BIC距離度量準(zhǔn)則,使用大小窗的方法,即:首先使用較大窗和窗移檢測(cè)出可能存在的跳變點(diǎn),計(jì)算每段相似度的值,對(duì)于可能存在的跳變點(diǎn)區(qū)間,再使用小窗進(jìn)一步精確檢測(cè),不存在則將大窗往右移動(dòng),直到將所有音頻分割完成;分割完成后進(jìn)行驗(yàn)證,最終通過計(jì)算相鄰音頻的距離大小來決定是否保留分割點(diǎn)。
[0030]為了能夠快速實(shí)現(xiàn)上述說話人分割,亦可直接采用現(xiàn)有工具實(shí)現(xiàn),如通過以下過程采用現(xiàn)有工具完成:
[0031]1.1對(duì)輸入音頻使用spro工具提取39維MFCC參數(shù),高通濾波器設(shè)置為0.98得到音頻特征,并將特征歸一化;
[0032]I.2使用aud1seg工具(https: //gforge.1nria.fr/frs/?group_id = 533)進(jìn)行VAD(voice activity detect1n)處理,輸出存在語音的部分;將存在語音的部分進(jìn)行說話人分割,經(jīng)過實(shí)驗(yàn)測(cè)試,大窗設(shè)置為600、窗移設(shè)為120,小窗設(shè)置為300、窗移設(shè)置為60,說話人分割性能達(dá)到最佳,此時(shí)得到初步的說話人分割結(jié)果。
[0033]步驟2:事件檢測(cè);
[0034]事件檢測(cè)根據(jù)事件的時(shí)域特征進(jìn)行檢測(cè),即通過對(duì)本實(shí)施例使用的直升機(jī)作業(yè)話音中挖掘輔助說話人分割的相關(guān)信息。
[0035]通過對(duì)地面控制中心和駕駛員說話的語音分析發(fā)現(xiàn),當(dāng)?shù)孛媾c直升機(jī)對(duì)話時(shí),任何一方話音結(jié)束時(shí)都會(huì)關(guān)閉頻道,從而在語音中就會(huì)出現(xiàn)一個(gè)按鍵音,因此,本實(shí)施例將按鍵音作為事件,通過分析音頻中按鍵音的波形,可以得到按鍵音的短時(shí)能量、過零率和短時(shí)能量比特征,因此,本實(shí)施例中就將這三個(gè)特征作為該按鍵音事件的時(shí)域特征。其詳細(xì)波形如圖2所示,圖2中波形從上到下分別為音頻(橫軸是時(shí)間、縱軸是歸一化之后的幅度)、短時(shí)能量(橫軸是幀數(shù)、縱軸是歸一化后一幀的能量)、過零率(橫軸是幀數(shù),縱軸是歸一化后一幀內(nèi)的過零個(gè)數(shù))、短時(shí)能量比(橫軸是幀數(shù),縱軸是歸一化后該幀與前一幀的短時(shí)能量比),圖3從上到下依次是按鍵音位置放大后音頻、短時(shí)能量、過零率和短時(shí)能量比的波形。從圖中能夠看出,按鍵音所在位置的短時(shí)能量、過零率和短時(shí)能量比是先上升接著保持然后下降或者上升后馬上下降的過程,而其他非按鍵音位置不會(huì)同時(shí)有這樣的特性;因此可以按照這種特征構(gòu)造出濾波器,即滿足先上升接著保持然后下降或者上升后馬上下降可能是按鍵音的位置,接著統(tǒng)計(jì)短時(shí)能量、過零率和短時(shí)能量比的幅度,根據(jù)設(shè)定幅度范圍能夠更準(zhǔn)確的確定該位置是否為按鍵音位置。此處幅度范圍的具體設(shè)定可以通過試驗(yàn)根據(jù)準(zhǔn)確率和召回率獲得。在本實(shí)施例中,將三個(gè)特征幅度范圍設(shè)定為1/4的平均值到1/2的平均值,得到一組按鍵音檢出結(jié)果,記為Rl,對(duì)應(yīng)高準(zhǔn)確率;將三個(gè)特征的幅度范圍設(shè)定為1/8平均值到8倍平均值,此時(shí)得到另外一組按鍵音檢出結(jié)果,記為R2,對(duì)應(yīng)高召回率。
[0036]步驟3:說話人分割結(jié)果修正;
[0037]通過對(duì)步驟I得到的初始說話人分割結(jié)果進(jìn)行分析發(fā)現(xiàn),主要有兩種分割錯(cuò)誤:
(I)地面控制中心和駕駛員說話中間由于間隔小且存在噪聲干擾,分割算法未將兩個(gè)說話人分開;(2)地面控制中心或駕駛員說話中間有停頓或者換氣,分割算法將相同的人分割成兩個(gè)。
[0038]由于對(duì)講雙方具有任一一方說完話都會(huì)關(guān)閉通信,因而在音頻中會(huì)出現(xiàn)一個(gè)按鍵音的特點(diǎn),由此上面兩種錯(cuò)誤能夠利用按鍵音的位置進(jìn)行修正。具體修正方式如下:對(duì)于錯(cuò)誤(I),檢查說話人分割結(jié)果的音頻段中間是否存在按鍵音,在按鍵音的準(zhǔn)確率非常高的基礎(chǔ)上,如果存在按鍵音,則將音頻分為兩個(gè)說話人。對(duì)于錯(cuò)誤(2),分割算法的分割結(jié)果,在按鍵音的召回率非常高的基礎(chǔ)上,若音頻段中未出現(xiàn)按鍵音,且兩段音頻的中間間隔不超過一定范圍M,則將該相鄰的音頻段進(jìn)行合并。
[0039]基于以上分析,如圖5所示,本步驟通過以下過程完成修正:根據(jù)Rl和步驟I說話人分割結(jié)果,檢查說話人分割結(jié)果中音頻段中間是否存在按鍵音,如果存在按鍵音,則將音頻分為兩個(gè)說話人;根據(jù)R2以及說話人分割結(jié)果,若音頻段中未出現(xiàn)按鍵音,且兩段音頻的中間間隔不超過預(yù)設(shè)閾值M,則將該相鄰的音頻段合并,得到最終的說話人分割結(jié)果。作為優(yōu)選,本實(shí)施例設(shè)置M=0.5。
[0040]由以上具體實(shí)施例的實(shí)施過程可知,基于不同的音頻來源需要分析其中存在的相關(guān)輔助信息,并根據(jù)輔助信息的特征對(duì)已有的分割結(jié)果進(jìn)行修正,從而可以獲得更好的說話人分割結(jié)果。對(duì)于不同類型的音頻來源其輔助信息必然不同,根據(jù)上述過程,本領(lǐng)域技術(shù)人員不難根據(jù)本發(fā)明方法的思想挖掘其輔助信息,因此,此處無需給出更多的實(shí)施例進(jìn)行說明。
[0041]試驗(yàn)結(jié)果
[0042]在實(shí)驗(yàn)中,對(duì)以上語音數(shù)據(jù)分割結(jié)果顯示,步驟I產(chǎn)生的結(jié)果綜合性能F值是6 5.4 7 %,在按鍵音識(shí)別的輔助下,步驟3的綜合性能F值提升到7 7.18 %,性能提升了
11.71%。因此對(duì)于直升機(jī)話音,按鍵音檢測(cè)能在很大程度上修正說話人分割的結(jié)果,帶來較大的性能提升。
[0043]為了說明本專利的內(nèi)容及實(shí)施方法,本說明書給出了具體實(shí)施過程。在實(shí)施例中引入細(xì)節(jié)的目的不是限制權(quán)利要求書的范圍,而是幫助理解本專利所述方法。本領(lǐng)域的技術(shù)人員應(yīng)理解:在不脫離本專利及其所附權(quán)利要求的精神和范圍內(nèi),對(duì)最佳實(shí)施例步驟的各種修改、變化或替換都是可能的。因此,本發(fā)明不應(yīng)局限于最佳實(shí)施例及附圖所公開的內(nèi)容。
【主權(quán)項(xiàng)】
1.一種基于事件檢測(cè)的說話人分割方法,其特征在于:,包括說話人分割、事件檢測(cè)、說話人分割結(jié)果修正三個(gè)步驟:說話人分割步驟對(duì)輸入音頻通過采用現(xiàn)有分割方法確定分割音頻得到初始說話人分割結(jié)果;事件檢測(cè)步驟基于事件的時(shí)域特征檢測(cè)出輸入音頻的事件點(diǎn);說話人分割結(jié)果修正步驟基于事件點(diǎn)對(duì)初始說話人分割結(jié)果進(jìn)行修正得到最終的說話人分割結(jié)果。2.根據(jù)權(quán)利要求1所述的一種基于事件檢測(cè)的說話人分割方法,其特征在于:所述現(xiàn)有分割方法為基于BIC距離度量準(zhǔn)則,使用大小窗的距離度量法。3.根據(jù)權(quán)利要求2所述的一種基于事件檢測(cè)的說話人分割方法,其特征在于:所述大小窗的設(shè)置為:大窗為600、窗移為120,小窗為300、窗移為60。4.根據(jù)權(quán)利要求1所述的一種基于事件檢測(cè)的說話人分割方法,其特征在于:所述事件為按鍵音。5.根據(jù)權(quán)利要求4所述的一種基于事件檢測(cè)的說話人分割方法,其特征在于:所述事件的時(shí)域特征為按鍵音的短時(shí)能量、過零率和短時(shí)能量比特征,其波形為先上升接著保持然后下降或者上升后馬上下降。6.根據(jù)權(quán)利要求1任一所述的基于事件檢測(cè)的說話人分割方法,其特征在于:所述檢測(cè)出輸入音頻的事件點(diǎn)采用基于事件的特征構(gòu)造的濾波器實(shí)現(xiàn)。7.根據(jù)權(quán)利要求1-6任一所述的一種基于事件檢測(cè)的說話人分割方法,其特征在于:所述檢測(cè)出輸入音頻的事件點(diǎn)結(jié)果為2組,分別為根據(jù)窄幅度范圍Tl和寬幅度范圍T2檢測(cè)出的事件點(diǎn)結(jié)果Rl和R2。8.根據(jù)權(quán)利要求7所述的一種基于事件檢測(cè)的說話人分割方法,其特征在于:所述Tl為1/4的事件特征幅度平均值到1/2的事件特征幅度平均值;所述T2為1/8的事件特征幅度平均值到8倍的事件特征幅度平均值。9.根據(jù)權(quán)利要求7所述的一種基于事件檢測(cè)的說話人分割方法,其特征在于:所述修正通過以下過程完成:根據(jù)Rl以及初始說話人分割結(jié)果,檢查說話人分割結(jié)果中音頻段中間是否存在事件點(diǎn),如果存在,則將音頻在事件點(diǎn)處分為兩個(gè)說話人;根據(jù)R2以及說話人分割結(jié)果,若音頻段中未出現(xiàn)按鍵音,且兩段音頻的中間間隔不超過預(yù)設(shè)閾值M,則將該相鄰的音頻段合并。10.根據(jù)權(quán)利要求9所述的一種基于事件檢測(cè)的說話人分割方法,其特征在于:所述M=.0.5.
【文檔編號(hào)】G10L21/0272GK105913849SQ201610269816
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月28日
【發(fā)明人】肖陽, 趙友東, 孟憲權(quán), 徐冠峰, 葉永林, 徐松華, 武志強(qiáng), 肖澤蘋, 謝湘
【申請(qǐng)人】中國人民解放軍總參謀部陸航研究所