一種聲紋特征融合方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種聲紋特征融合方法及裝置,該方法包括:在用戶的多種聲紋特征向量中,分別計算用戶任意兩種聲紋特征向量之間的平均KL距離;其中,兩種聲紋特征向量的平均KL距離為:第一聲紋特征向量、第二聲紋特征向量的概率分布的KL距離,與所述第二聲紋特征向量、所述第一聲紋特征向量的概率分布的KL距離相加后除以2;選擇平均KL距離最大的兩種聲紋特征進行融合。本發(fā)明利用聲紋特征向量之間的平均KL距離表示兩種特征融合的有效信息量,更加精準地選擇可分性信息大的兩種特征實現融合,能更好地實現個人身份認證的功能,提高認證的精度。
【專利說明】一種聲紋特征融合方法及裝置
【技術領域】
[0001]本發(fā)明涉及通信領域,具體涉及一種聲紋特征融合方法及裝置。
【背景技術】
[0002]隨著云計算技術的不斷演進,大量云平臺不斷涌現,如Amazon的AWS (Amazon WebServices),國內的阿里云,沃云等平臺。這些云平臺的強大的計算能力已經被廣泛地用于國民生產領域,如12306火車票訂票網站、阿里巴巴的淘寶平臺等。這些云平臺將海量的用戶數據存儲于云平臺的數據庫區(qū)。云平臺的數據量極大,這無形中加重了云平臺數據庫管理員(Database Administrator,簡稱DBA)的管理、維護負擔。而且,存放著云平臺的數據庫IDC數據中心的地理位置往往與管理人員的辦公區(qū)具有一定的物理距離。為了更為方便地維護、管理云平臺數據庫,云平臺DBA往往采取將數據庫管理系統映射到公網上的做法,通過公網IP登入該地址,進行云平臺數據庫的管理、運維工作。但上述方案,存在以下缺陷:
[0003]由于云平臺數據庫承載著大量的數據,需要DBA時刻關注數據庫態(tài)勢,當DBA人員不在辦公區(qū)域內,無法通過辦公區(qū)域內的電腦終端實時登錄訪問數據庫管理系統,對數據庫進行實時維護控制。
[0004]針對以上兩點缺陷,可以設計一種為云平臺數據庫DBA深度定制的移動客戶端系統。為了保障遠程客戶端DBA人員安全登錄,防止賬號被盜用,業(yè)內設計了一種基于生物識別的高強度認證登錄方案。生物認證技術就是利用具有唯一性的人體生物特征,如指紋、面部、聲音等,實現對真實用戶的身份認證,比傳統的輸入用戶名、密碼方式更為安全。而對于移動客戶端采用聲紋識別則是一種比較理想的選擇。任何手機均具備聲紋采集器mic,因此,用戶不需更換設備,從而節(jié)省資金。針對生物特征被盜取問題,如果攻擊者盜錄了某次用戶的話語錄音,系統在登錄驗證時,可規(guī)定測試話語內容,從而避免攻擊者利用盜錄錄音仿冒身份錄音。
[0005]然而,傳統的單模態(tài)聲紋認證算法還是存在一些缺陷,主要因為:單一的聲紋特征提取方式會造成系統性能下降。利用單一特征提取方法采集的特征向量,不能完全代表原始生物樣本的特點,即不能完全反映出其可分性信息(Discriminatory informat1n),從而導致系統識別精度下降。
[0006]為了克服以上問題,信息融合思想被引入聲紋特征識別領域中,即聲紋識別融合技術。利用一定的融合方式,如基于聲紋特征的特征級融合方案將這些特征進行整合,通過融合后的可分性信息作為識別個人身份的關鍵特征,使得系統更好地實現個人身份認證的功能。但隨之而來的問題是,由于業(yè)界用于聲紋識別的聲紋特征眾多,如MFCC、Residualphase、LPCC, MVDR、MLSF等。為了盡可能地將DBA移動客戶端的認證功能(精度)發(fā)揮至最大,防止真實DBA用戶利用移動客戶端登錄時出現誤判現象出現,在兩種或多種聲紋特征融合時,如何選取兩種合適的聲紋特征進行融合,以獲取最大可分性信息,使得最終系統算法的認證精度達到最大化成為難題。
【發(fā)明內容】
[0007]本發(fā)明需要解決的技術問題是提供一種聲紋特征融合方法及裝置,更加精準地選擇可分性信息大的兩種特征實現融合,能更好地實現個人身份認證的功能,提高認證的精度。
[0008]為了解決上述技術問題,本發(fā)明提供了一種聲紋特征融合方法,包括:
[0009]在用戶的多種聲紋特征向量中,分別計算用戶任意兩種聲紋特征向量之間的平均KL距離;其中,兩種聲紋特征向量的平均KL距離為:第一聲紋特征向量、第二聲紋特征向量的概率分布的KL距尚,與所述第二聲紋特征向量、所述第一聲紋特征向量的概率分布的KL距離相加后除以2 ;
[0010]選擇平均KL距離最大的兩種聲紋特征進行融合。
[0011]進一步地,在計算用戶任意兩種聲紋特征向量之間的平均KL距離的步驟之前,所述方法還包括:
[0012]為所述用戶提取兩種以上的聲紋特征向量。
[0013]進一步地,所述為所述用戶提取兩種以上的聲紋特征向量,包括:
[0014]通過傳感器采集所述用戶的語音信號,對采集到的語音信號利用兩種或兩種以上不同的聲紋特征算法提取不同的聲紋特征向量。
[0015]進一步地,所述計算用戶任意兩種聲紋特征向量之間的平均KL距離,包括:
[0016]獲取所述任意兩種聲紋特征向量,計算兩種聲紋特征向量分布的均值與協方差;
[0017]根據所述兩種聲紋特征向量分布的均值與協方差,構建兩種聲紋特征向量空間的概率分布;
[0018]根據兩種聲紋特征向量空間的概率分布,計算兩種聲紋特征之間的平均KL距離。
[0019]進一步地,所述兩種聲紋特征向量的概率分布為高斯分布。
[0020]為了解決上述技術問題,本發(fā)明還提供了一種聲紋特征融合裝置,包括:
[0021]融合信息量計算模塊,用于在用戶的多種聲紋特征向量中,分別計算用戶任意兩種聲紋特征向量之間的平均KL距離;其中,兩種聲紋特征向量的平均KL距離為:第一聲紋特征向量、第二聲紋特征向量的概率分布的KL距尚,與所述第二聲紋特征向量、所述第一聲紋特征向量的概率分布的KL距離相加后除以2 ;
[0022]聲紋特征融合模塊,用于選擇平均KL距離最大的兩種聲紋特征向量進行融合。
[0023]進一步地,所述裝置還包括:聲紋特征提取模塊,用于為所述用戶提取兩種以上的聲紋特征向量。
[0024]進一步地,所述聲紋特征提取模塊,用于為所述用戶提取兩種以上的聲紋特征向量,包括:
[0025]通過同一傳感器或者不同的傳感器采集所述用戶的語音信號,對采集到的語音信號利用兩種或兩種以上不同的聲紋特征算法提取不同的聲紋特征向量。
[0026]進一步地,所述融合信息量計算模塊,用于計算用戶任意兩種聲紋特征向量之間的平均KL距離,包括:
[0027]獲取所述任意兩種聲紋特征向量,計算兩種聲紋特征向量分布的均值與協方差;
[0028]根據所述兩種聲紋特征向量分布的均值與協方差,構建兩種聲紋特征向量空間的概率分布;
[0029]根據兩種聲紋特征向量空間的概率分布,計算兩種聲紋特征之間的平均KL距離。
[0030]進一步地,所述兩種聲紋特征向量的概率分布為高斯分布。
[0031]與現有技術相比,本發(fā)明實施例提供的聲紋特征融合方法及裝置,利用聲紋特征向量之間的平均KL距離表示兩種特征融合的有效信息量,以選擇相關性盡可能小(即可獲取盡可能大的可分性信息)的兩種聲紋特征實現特征級融合,更加準確地衡量特征級融合算法的信息量,更加精準地選擇可分性信息大的兩種特征實現融合,通過融合后的可分性信息作為識別個人身份的關鍵特征,使得系統更好地實現個人身份認證的功能,提高認證算法的精度。
【專利附圖】
【附圖說明】
[0032]圖1是實施例中聲紋特征融合的方法流程圖;
[0033]圖2是實施例中聲紋特征融合的裝置結構圖。
【具體實施方式】
[0034]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,下文中將結合附圖對本發(fā)明的實施例進行詳細說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
[0035]實施例:
[0036]首先,本文提出平均Kullback-Leibler距離:
[0037]傳統Kullback-Leibler距離,簡稱KL距離,廣泛用于檢測兩隨機分布P (x)、Q(x)之間“距離”(相似度)的大小。具體性質如下:
[0038]a.非負性:
[0039]/^i(QIIP)SO, yP(XlQiX)(I)
[0040]b.非對稱性:
[0041]Dkl (P I |Q)關 Dkl (Q| I P) (2)
[0042]c.自等性:
[0043]Dkl(P| IQ) = 0^Dkl(Q| |P) = O
[0044]當且僅當隨機概率分布P(x) =Q(X) (3)
[0045]其中,DKl(Q| P)表示Q(x)、P(X)兩概率分布的KL距離,Dkl(P Q)表示P(X)、Q(X)兩概率分布的KL距離,若兩概率分布P(x)、Q(X)的KL距離值較大,那么說明P(x)、Q(x)兩分布的相關性相對較??;反之,說明兩分布的相關性較大。對于常用的聲紋融合算法,如果兩種聲紋特征空間分布之間的相關性較小,那么融合時可以獲取更多的信息量,由此可選取這兩種特征進行實現用戶聲紋融合認證方案。因此,可以利用聲紋特征向量之間的KL距離表示兩種特征融合的有效信息量。但由于KL距離具有非對稱性的性質,SPDkl(P IQ) ^dkl(q| |p)。因此,該距離不能直接用于融合信息量的衡量,即不能直接用于聲紋特征選擇。
[0046]為了更加準確地衡量特征級融合算法的信息量,更加精準地選擇可分性信息大的兩種特征實現融合,本方案提出Average Kullback-Leibler距離的概念,簡稱平均KL距離。這種距離具有對稱性,克服了傳統KL距離不具有對稱性而導致計算信息量出現偏差的缺點。兩隨機分布P(x)、Q(X)之間的平均KL距離Dwia (P| |Q)為:
_剛=化卿,剛。(4)
[0048]該距離具有的性質包括:
[0049]a.非負性:
[0050]D Wcr KL (廣 I 丨 Q) 2 O,VP(x), Q (X)(S)
[0051]b.對稱性:
[0052]DAver KL (P I |Q) DAver KL (Ql I P) (6)
[0053]c.自等性:
[0054]DAver KL (P ||Q) = O 或者 DAver KL (Q | | P) = O
[0055]當且僅當隨機概率分布P(x) =Q(x) (J)
[0056]如圖1所示,本實施例提供了一種基于聲紋特征之間的平均KL距離來實現聲紋特征融合的方法,計算聲紋特征級融合中的兩特征向量的平均KL距離,具體包括以下步驟:
[0057]SlOl:在用戶的多種聲紋特征向量中,分別計算用戶任意兩種聲紋特征向量之間的平均KL距離;
[0058]S102:選擇平均KL距離最大的兩種聲紋特征向量進行融合。
[0059]在步驟SlOl之前,還包括:為所述用戶提取兩種以上的聲紋特征向量。
[0060]具體包括:
[0061]通過同一傳感器或者兩個不同的傳感器采集所述用戶的語音信號,對采集到的語音信號利用兩種或兩種以上不同的聲紋特征算法提取不同的聲紋特征向量。
[0062]其中,利用不同的特征提取算法可獲取不同的聲紋向量,比如MFCC梅爾倒譜系數,residual phase相位角殘差,LPCC線性預測譜函數、MLSF梅爾線性譜函數等等??傊崛〕雎暭y特征的特征提取算法非常之多。
[0063]此外,可以通過同一傳感器也可以通過不同的傳感器采集用戶的語音信號,例如,第一種用普通手機mic采集,第二種用專業(yè)mic (例如,專業(yè)聲音信號提取,micphone)采集用戶語音信號,然后用業(yè)內常用的MFCC (梅爾倒譜系數)特征提取算法和LPCC線性預測譜函數特征提取算法來分別提取(得到)兩種不同設備采集的聲紋特征,得到兩種聲紋特征向量。
[0064]其中,步驟SlOl具體包括:
[0065]SlOla:獲取所述任意兩種聲紋特征向量,計算兩種聲紋特征向量分布的均值與協方差;
[0066]在一個應用示例中,對于某一說話人P,任意選擇兩種聲紋特征A,B,設這兩種聲紋特征A, B分別具有nA, nB個聲紋特征向量XA{xAi, i = I…nA}, XB{xBi, i = 1...ηΒ},向量維度分別為fAX 1,fBX I,則兩特征向量分布的均值分別為
I "Λ
[0067]//.=K[X] = —,
-1”A ?
I nB
[0068]Mii = I^X ] = 一 Σ xB1。(9)
B nB^y)
[0069]兩特征向量分布的協方差為
[0070]= Ε[{Χ - μΑ y (X - μ A)\ = X (-V, - μΑ I {χΑι-μΑ) ^(10)
I nB
[0071]Eij = Ε[(Χ- μβ)'{Χ -μ?{)] = ~—-^(?-μ?{){χΗΙ-μ )Π η
—丨 /-1
[0072]其中Σ Α,Σ Β的維度分別為fAX fA, fBX fB。
[0073]SlOlb:根據所述兩種聲紋特征向量分布的均值與協方差,構建兩種聲紋特征向量空間的概率分布;
[0074]作為一種優(yōu)選的方式,所述兩種聲紋特征向量空間的概率分布設為高斯分布模型,原因是:(I)高斯分布可以很好地反映自然世界的真實分布;(2)利用該模型可以求解出熵極值的標準差,并可以對平均KL距離限定上限。
[0075]根據高斯模型,兩種聲紋特征向量空間A,B分別對應的概率分布為:
[0076]/^'(-v) = ^p=^exP[-^(-vi, -^),Σ -Ma)] ^(12)
II
[0077]ΡΒ(Χ、= ]2πΣ I exp[—I(X/>V丨—"?)]。(13)
[0078]SlOlc:根據兩種聲紋特征向量空間的概率分布,計算兩種聲紋特征之間的平均KL距離。
[0079]還是以高斯分布為例,根據以上兩種聲紋特征向量空間的概率分布,計算兩特征的平均KL距離:
人)上V kl(Pa Il = /^(-v)(log /; ,(Λ-)- log ρ,;(χ))?χ+
j Pu(-^Xlog Pu(-v) - log Pa (X))t/.vj
=—'{^logV^fln I 2?Σ , 1-1n I 27&H | +1 - L[{x - μκ )Σ ; (x - μΗ)])-
2LV^bI
10V^ (in I 2λΣ , 1-1n 12πΣΒ | +1 — Ε[(χ-μΒ)ΣJ(χ-μ--)])I
[0080] 11 (14)
1-- I1、
=—1 1gsfe In Α +(racc((Z ,+(μ -μΒ)*(μΑ-μΒ))Σ^-1) +
2[ LI2忍 B IJ
? ? 2^τ£ I^ I
1g^ In B + trace((LB + {μΒ-μ,)'(μη:-//,))! ,' -/)卜
V I 27&α IJ J
[0081]根據上式,可以計算出針對用戶P的兩種聲紋特征之間的Dwja(pA| |ρΒ)距離,即特征級融合信息量,從而進行特征選擇,盡可能選擇兩種相關性較小(即平均KL距離較大的)的聲紋特征進行融合,從而得到更優(yōu)的系統認證精度,實現DBA移動客戶端的安全登錄。
[0082]如圖2所示,本實施例提供了一種聲紋特征融合裝置,包括:
[0083]融合信息量計算模塊,用于在用戶的多種聲紋特征向量中,分別計算用戶任意兩種聲紋特征向量之間的平均KL距離;
[0084]聲紋特征融合模塊,用于選擇平均KL距離最大的兩種聲紋特征向量進行融合。
[0085]該裝置還包括:
[0086]聲紋特征提取模塊,用于為所述用戶提取兩種以上的聲紋特征向量。
[0087]其中,所述聲紋特征提取模塊,用于為所述用戶提取兩種以上的聲紋特征向量,包括:
[0088]通過同一傳感器或者不同的傳感器采集所述用戶的語音信號,對采集到的語音信號利用兩種或兩種以上不同的聲紋特征算法提取不同的聲紋特征向量。
[0089]其中,所述融合信息量計算模塊,用于計算用戶任意兩種聲紋特征向量之間的平均KL距離,包括:
[0090]獲取所述任意兩種聲紋特征向量,計算兩種聲紋特征向量分布的均值與協方差;
[0091]根據所述兩種聲紋特征向量分布的均值與協方差,構建兩種聲紋特征向量空間的概率分布;
[0092]根據兩種聲紋特征向量空間的概率分布,計算兩種聲紋特征之間的平均KL距離。
[0093]其中,所述兩種聲紋特征向量空間的概率分布為高斯分布。具體計算方式如圖1中方法的具體計算方式,此處不再贅述。
[0094]此外,需要說明的是,本實施例提供的方法及裝置不僅可以用于DBA移動客戶端,對于其他需要安全認證的終端或系統同樣適用,比如網上銀行登錄頁面、PC機認證系統均可使用本實施例中提供的聲紋特征融合方法及裝置。
[0095]從上述實施例可以看出,相對于現有技術,上述實施例中提供的聲紋特征融合方法及裝置,利用聲紋特征向量之間的平均KL距離表示兩種特征融合的有效信息量,以選擇相關性盡可能小(即可獲取盡可能大的可分性信息)的兩種聲紋特征實現特征級融合,更加準確地衡量特征級融合算法的信息量,更加精準地選擇可分性信息大的兩種特征實現融合,通過融合后的可分性信息作為識別個人身份的關鍵特征,使得系統更好地實現個人身份認證的功能,提高認證算法的精度。
[0096]本領域普通技術人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關硬件完成,所述程序可以存儲于計算機可讀存儲介質中,如只讀存儲器、磁盤或光盤等??蛇x地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現。相應地,上述實施例中的各模塊/單元可以采用硬件的形式實現,也可以采用軟件功能模塊的形式實現。本發(fā)明不限制于任何特定形式的硬件和軟件的結合。
[0097]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并非用于限定本發(fā)明的保護范圍。根據本發(fā)明的
【發(fā)明內容】
,還可有其他多種實施例,在不背離本發(fā)明精神及其實質的情況下,熟悉本領域的技術人員當可根據本發(fā)明作出各種相應的改變和變形,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【權利要求】
1.一種聲紋特征融合方法,包括: 在用戶的多種聲紋特征向量中,分別計算用戶任意兩種聲紋特征向量之間的平均KL距離;其中,兩種聲紋特征向量的平均KL距離為:第一聲紋特征向量、第二聲紋特征向量的概率分布的KL距尚,與所述第二聲紋特征向量、所述第一聲紋特征向量的概率分布的KL距離相加后除以2 ; 選擇平均KL距離最大的兩種聲紋特征進行融合。
2.如權利要求1所述的方法,其特征在于: 在計算用戶任意兩種聲紋特征向量之間的平均KL距離的步驟之前,所述方法還包括: 為所述用戶提取兩種以上的聲紋特征向量。
3.如權利要求2所述的方法,其特征在于: 所述為所述用戶提取兩種以上的聲紋特征向量,包括: 通過傳感器采集所述用戶的語音信號,對采集到的語音信號利用兩種或兩種以上不同的聲紋特征算法提取不同的聲紋特征向量。
4.如權利要求2所述的方法,其特征在于: 所述計算用戶任意兩種聲紋特征向量之間的平均KL距離,包括: 獲取所述任意兩種聲紋特征向量,計算兩種聲紋特征向量分布的均值與協方差;根據所述兩種聲紋特征向量分布的均值與協方差,構建兩種聲紋特征向量空間的概率分布; 根據兩種聲紋特征向量空間的概率分布,計算兩種聲紋特征之間的平均KL距離。
5.如權利要求4所述的方法,其特征在于: 所述兩種聲紋特征向量的概率分布為高斯分布。
6.一種聲紋特征融合裝置,包括: 融合信息量計算模塊,用于在用戶的多種聲紋特征向量中,分別計算用戶任意兩種聲紋特征向量之間的平均KL距離;其中,兩種聲紋特征向量的平均KL距離為:第一聲紋特征向量、第二聲紋特征向量的概率分布的KL距離,與所述第二聲紋特征向量、所述第一聲紋特征向量的概率分布的KL距離相加后除以2 ; 聲紋特征融合模塊,用于選擇平均KL距離最大的兩種聲紋特征向量進行融合。
7.如權利要求6所述的裝置,其特征在于: 所述裝置還包括:聲紋特征提取模塊,用于為所述用戶提取兩種以上的聲紋特征向量。
8.如權利要求7所述的裝置,其特征在于: 所述聲紋特征提取模塊,用于為所述用戶提取兩種以上的聲紋特征向量,包括: 通過同一傳感器或者不同的傳感器采集所述用戶的語音信號,對采集到的語音信號利用兩種或兩種以上不同的聲紋特征算法提取不同的聲紋特征向量。
9.如權利要求7所述的裝置,其特征在于: 所述融合信息量計算模塊,用于計算用戶任意兩種聲紋特征向量之間的平均KL距離,包括: 獲取所述任意兩種聲紋特征向量,計算兩種聲紋特征向量分布的均值與協方差;根據所述兩種聲紋特征向量分布的均值與協方差,構建兩種聲紋特征向量空間的概率分布;根據兩種聲紋特征向量空間的概率分布,計算兩種聲紋特征之間的平均KL距離。
10.如權利要求9所述的裝置,其特征在于:所述兩種聲紋特征向量的概率分布為高斯分布。
【文檔編號】G10L17/08GK104183240SQ201410408952
【公開日】2014年12月3日 申請日期:2014年8月19日 優(yōu)先權日:2014年8月19日
【發(fā)明者】劉鏑, 張云勇, 張尼 申請人:中國聯合網絡通信集團有限公司