亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種自動錄音設備源識別的方法和系統(tǒng)的制作方法

文檔序號:2835963閱讀:309來源:國知局
專利名稱:一種自動錄音設備源識別的方法和系統(tǒng)的制作方法
技術領域
本發(fā)明涉及智能語音信號處理、模式識別與人工智能技術領域,特別是涉及一種自動錄音設備源識別的方法和系統(tǒng)。
背景技術
隨著計算機技術的不斷發(fā)展,功能強大的數(shù)字多媒體編輯軟件使得修改編輯數(shù)字音頻、圖像和視頻數(shù)據(jù)變得越來越容易。盡管一般人對數(shù)字多媒體的修改和編輯只是為了增強其表現(xiàn)效果,但也不乏某些人出于各種目的,故意甚至惡意地傳播一些經過精心篡改偽造的多媒體數(shù)據(jù)。篡改的多媒體數(shù)據(jù)一旦被大量地用于正式媒體、科學發(fā)現(xiàn)、保險和法庭證物等,無疑將會對社會、政治和軍事等各個方面產生嚴重影響。因此,需要一種客觀、公正、能夠澄清事實真相的多媒體驗證技術,而數(shù)字多媒體取證技術正是為這一目的而提出的。設備源識別是數(shù)字多媒體取證技術中非常重要的組成部分。設備源識別可對多媒體的來源、真實性和可靠性進行驗證。現(xiàn)有的設備源識別技術主要集中在數(shù)字圖像的設備源識別領域,例如相機、打印機和掃描儀等的源識別已經取得很多重要的成果。對錄音設備源的識別研究卻非常少,然而錄音設備源識別卻是數(shù)字多媒體取證技術中非常重要的部分。錄音設備源識別的目標是直接由已獲取的語音信號找到其中所隱含的錄音設備信息, 從而進行錄音設備源的識別,這種技術屬于音頻盲取證技術。大多數(shù)情況下,不可能在產生數(shù)字音頻的同時就在數(shù)字音頻中嵌入水印等隱秘信息,因此盲錄音設備源取證更符合實際情況,并具有更好的實用價值。錄音設備源識別有多個方面的應用,例如司法取證方面, 錄音設備源識別可以驗證數(shù)字音頻證據(jù)來源的可靠性和真實性;知識產權保護方面,錄音設備源識別可以協(xié)助打擊盜版保護知識產權;錄音設備源識別也可以驗證數(shù)字音頻的真實性,如果一段音頻中包含多個錄音設備的信息或者所包含的錄音設備信息出現(xiàn)不連續(xù)性, 那么說明這段音頻是經過后期加工和編輯,并不是真實的音頻信號;說話人識別和語音識別技術中一個非常重要的問題就是訓練和識別時的信道不匹配問題,錄音設備源識別可以用來檢測訓練和識別時的信道設備信息,建立不同錄音設備之間的映射函數(shù),進而可以進行設備參數(shù)的自適應以提高最后的識別率。錄音設備源識別包含幾個不同的層面錄音設備類型的識別、錄音設備品牌的識別、錄音設備型號以及錄音設備個體的識別,其中錄音設備類型可以是手機、錄音筆、PDA、mp3和mp4等,錄音設備個體指某一臺特定錄音設備。在數(shù)字錄音設備源識別這個領域,C. Kraetzer在其論文《Digital Audio Forensics :A First Practical Evaluation on Microphone and Environment Classification》中提出了一種從語音中識別四種麥克風設備的方法,他把短時特征和美爾倒譜拼接到一起形成了特征矢量,并使用了樸素貝葉斯分類器。對于四種麥克風設備, 該方法的識別率在60% -75%之間。這樣的方法是有效的,但在某些方面也存在著不足。 C. Kraetzer的方法中使用的特征是直接從輸入語音中提取,而直接輸入的語音中往往包含了擴音器信息、文本信息、錄音設備信息以及背景噪聲。在這樣的情況下,用所提取的特征代表錄音設備信息顯得比較模糊。而且,樸素貝葉斯分類器不能用于數(shù)量較多的錄音設備的識別。

發(fā)明內容
本發(fā)明的目的在與克服現(xiàn)有技術的缺點和不足,利用語音信號中錄音設備的“機器指紋”進行錄音設備源識別,提供了一種專門針對錄音設備的源識別的方法。本發(fā)明的另一目的還在于提供實現(xiàn)上述方法的系統(tǒng)。本發(fā)明的通過如下技術方案實現(xiàn)一種自動錄音設備源識別方法,其步驟如下(1)提取語音信號中錄音設備的特征;(2)利用GMM-UBM建立錄音設備的統(tǒng)計模型;(3)利用歸一化的似然度作為最終得分進行分類判決。所述步驟(1)的錄音設備特征的提取步驟如下(11)提取語音信號中的靜音段;(12)去除所提取靜音段的背景噪聲;(13)將步驟(12)處理后的信號進行預處理;(14)將步驟(13)處理后的信號提取Mel倒譜系數(shù)錄音設備的特征。所述步驟O)的錄音設備統(tǒng)計模型的建立步驟如下(21)用多種錄音設備的數(shù)據(jù)訓練設備通用背景模型DEV-UBM,作為錄音設備的反對模型;DEV代表錄音設備(device),UBM代表通用背景模型(universal background model);(22)利用特定錄音設備的語音數(shù)據(jù)將步驟中提取的DEV-UBM采用 MAP (Maximum a posteriori,最大后驗概率)算法進行自適應,從而獲得特定錄音設備的統(tǒng)計模型DEV-GMM (GMM代表混合高斯模型Gaussian mixture model);所述步驟(3)中歸一化似然度得分的計算方法如下
Λ IrIr A(X) =-^logPixi Iλ )-~γ\ο%p(xt /λ- ) 1 /=1 1 /=1 I Tι T=-Xlog Pixi/^J--Xlog Pixi / 又dev_ubm )
/=1 t=l其中,T為語音樣本的幀數(shù),λ d表示特定錄音設備的統(tǒng)計模型,&表示λ d的反對模型(本發(fā)明采用錄音設備通用背景模型λ dev_ubffl來描述反對模型& ),P (Χ/ λ d)表示X是來自于錄音設備D的特征矢量空間的條件概率,表示X來自于其它候選錄音設備 (除D以外)的條件概率。所述步驟(11)中若提取的靜音數(shù)據(jù)不足3秒,則將該靜音數(shù)據(jù)與相鄰的拼接起來構成時長大于3秒的靜音樣本;提取靜音時幀長取20ms,幀移取10ms。所述步驟(12)采用信號級的濾波方法譜減法去除信號中的背景噪聲,保留其中的錄音設備信息。所述步驟(1 中的預處理包括預加重、分幀、加窗。
所述步驟中的通用背景模型DEV-UBM是用兩組分布平衡的音頻數(shù)據(jù)子集分別訓練兩個子通用背景模型SUB-UBM,然后將這兩個子通用背景模型合并而成,使所獲得的通用背景模型不偏向于某一類設備,同時也可降低計算復雜度,減少訓練DEV-UBM時所用時間。實現(xiàn)上述方法的系統(tǒng),包括——靜音提取模塊(100),用于提取訓練和識別過程中語音數(shù)據(jù)中的靜音段;——預處理模塊000),用于去除靜音中的背景噪聲,保留其中的設備信道信息, 并且對去噪處理后的語音信號進行預加重、分幀、加窗處理;——錄音設備特征提取模塊(300),用于提取訓練和識別過程中語音數(shù)據(jù)的錄音設備特征;——設備通用背景模型DEV-UBM模塊(400),用于構建錄音設備的通用背景模型, 作為反對設備模型;—MAP自適應模塊(500),用于自適應調節(jié)設備通用背景模型DEV-UBM中的參數(shù),以獲得特定錄音設備的統(tǒng)計模型;—錄音設備模型DEV-GMM模塊(600),用于構建特定錄音設備的統(tǒng)計模型;——識別判決模塊(700),通過歸一化的似然度得分判斷待識別語音是來自于哪
一個錄音設備。本發(fā)明的基本原理是進行錄音設備源識別的前提假設是,數(shù)字音頻在產生的同時,錄音設備也會在數(shù)字音頻中留下設備的“機器指紋”。對于這個前提假設,一個非常重要的支持是在說話人識別領域,由于錄音設備產生的這些設備信道信息對最后的識別結果產生非常大的影響,因此現(xiàn)在大部分的說話人識別技術都想方設法來去除這方面的影響。這些“機器指紋”可以采用現(xiàn)代的統(tǒng)計學方法和模式識別技術進行提取和識別。另外一方面, 語音中包含了豐富的信息,例如說話人信息、文本信息、設備信息、背景噪聲等,這些文本信息、說話人信息和背景噪聲等同時也會為設備信息的提取和識別造成影響,因此避免這些因素對錄音設備源識別的影響是一個難題。對于一段語音,不同的傳感器和信號采集電路都會引入自身不同的設備信道信息 (麥克風、抖動電路、前置放大器、輸入濾波器、A\D、取樣保持電路等都會引入相應的設備電路噪聲)。由于不同錄音設備中所采用傳感器和信號采集電路的差異,不同的錄音設備中包含有不同的設備噪聲,將這些設備噪聲作為錄音設備在語音信號中留下的“機器指紋”,那么提取了這種“機器指紋”就可以進行錄音設備源識別。然而,在語音中如果不做特殊處理, 設備信息很容易被說話人信息和文本信息所掩蓋,要單獨從語音中提取出設備信道信息是非常困難的,目前還沒有成熟的技術能夠做到這一點。靜音中包含了完整的設備信息,并且不受說話人信息和文本信息的影響,所以本發(fā)明利用靜音段來提取錄音設備特征,然后建立錄音設備的統(tǒng)計模型來進行設備的分類識別。本發(fā)明具有以下的優(yōu)點和有益效果(1)本發(fā)明能有效檢測多個錄音設備的類型。(2)本發(fā)明的核心方法復雜度低,效率高,易于在可移動設備上實現(xiàn),也可在PC機上建立相應的系統(tǒng)平臺。(3)本發(fā)明為司法取證、新聞報道的真實性等的驗證提供了有力的科學方法。
5
(4)本發(fā)明填補了國內在錄音設備源識別方面的空缺,具有獨創(chuàng)性。(5)本發(fā)明可用于知識產權的保護,有力地打擊盜版。(6)本發(fā)明亦可用來驗證數(shù)字音頻的真實性,如果一段音頻中包含多個錄音設備的信息或者所包含的錄音設備信息出現(xiàn)不連續(xù)性,那么說明這段音頻是經過后期加工和編輯,并不是真實的音頻信號。(7)說話人識別和語音識別技術中一個非常重要的問題就是訓練和識別時的信道不匹配問題,錄音設備源識別可以用來檢測訓練和識別時的信道設備信息,建立不同錄音設備之間的映射函數(shù),進而可以進行設備參數(shù)的自適應以提高最后的識別率。


圖1是本發(fā)明的系統(tǒng)結構圖。圖2是錄音設備通用背景模型DEV-UBM的訓練過程。圖3是不同高斯情況下九種錄音設備的識別結果。圖4是不同訓練樣本時長對9種錄音設備源識別平均識別率。
具體實施例方式下面結合實施例及附圖對本發(fā)明作進一步的詳細描述,但本發(fā)明的實施方式不限于此。實施本發(fā)明的識別設備可以是嵌入式系統(tǒng)設備平臺,也可采用C語言編制各類語音信號處理程序。如圖1所示,為本發(fā)明一種自動錄音設備源識別系統(tǒng)的流程圖,本發(fā)明的自動錄音設備源識別方法和系統(tǒng)可在數(shù)字繼承芯片中按以下步驟實現(xiàn)步驟(1),提取訓練和識別過程中語音數(shù)字的靜音段靜音中包含了完整的錄音設備信息,并且不受說話人信息和文本信息的影響,因此本發(fā)明利用靜音來提取錄音設備特征。靜音的提取方法采用雙門限法,若提取的靜音數(shù)據(jù)不足3秒,則將該靜音數(shù)據(jù)與相鄰的拼接起來構成時長大于3秒的靜音樣本。提取靜音時幀長取20ms,幀移取10ms。檢測靜音時幀數(shù)連續(xù)少于6幀的音頻段,認為是語音段,不將其歸為靜音段。步驟O),對上述步驟(1)中提取的靜音信號進行去噪濾波處理。靜音中除了包含設備信道信息,還帶有環(huán)境噪聲,由于靜音幅度小,其中的設備信息很容易被環(huán)境噪聲干擾,因此需要對提取的靜音進行去噪處理。這里需要去除靜音中的背景噪聲,而保留其中的設備信道信息,因此本發(fā)明采用信號級的濾波方法譜減法去噪。步驟(3),通過上述步驟( 中處理過的靜音信號來提取錄音設備特征。可分為以下步驟步驟S31,對輸入語音信號進行預處理預處理包括對語音信號進行預加重,分幀,加窗等處理。預加重是對語音信號進行高通濾波,濾波器的傳輸函數(shù)為H(Z) = 1-az-1, 其中a = 0.975。對語音信號的分幀,其中幀長為512個點,幀移為256個點。對語音信號所加的窗為漢明窗,其中漢明窗的函數(shù)為
權利要求
1.一種自動錄音設備源識別方法,其特征在于,該方法步驟如下(1)提取語音信號中錄音設備的特征;(2)利用GMM-UBM建立錄音設備的統(tǒng)計模型;(3)利用歸一化的似然度作為最終得分進行分類判決。
2.根據(jù)權利要求1所述的一種自動錄音設備源識別方法,其特征在于,所述步驟(1)中的錄音設備特征的提取步驟如下(11)提取語音信號中的靜音段;(12)去除所提取靜音段的背景噪聲;(13)將步驟(12)處理后的信號進行預處理;(14)將步驟(13)處理后的信號提取Mel倒譜系數(shù)錄音設備的特征。
3.根據(jù)權利要求1所述的一種自動錄音設備源識別方法,其特征在于,所述步驟(2)的錄音設備統(tǒng)計模型的建立步驟如下(21)用多種錄音設備的數(shù)據(jù)訓練設備通用背景模型DEV-UBM,作為錄音設備的反對模型;(22)利用特定錄音設備的語音數(shù)據(jù)將步驟(21)中提取的DEV-UBM采用MAP算法進行自適應,獲得特定錄音設備的統(tǒng)計模型DEV-GMM。
4.根據(jù)權利要求2所述的一種自動錄音設備源識別方法,其特征在于,所述步驟(11) 中的靜音數(shù)據(jù)若小于3秒,則將該靜音數(shù)據(jù)與相鄰的拼接起來構成時長大于3秒的靜音樣本;提取靜音時幀長取20ms,幀移取10ms。
5.根據(jù)權利要求2所述的一種自動錄音設備源識別方法,其特征在于,所述步驟(12) 采用信號級的濾波方法譜減法去除信號中的背景噪聲,保留其中的錄音設備信息。
6.根據(jù)權利要求2所述的一種自動錄音設備源識別方法,其特征在于,所述步驟(13) 中的預處理包括預加重、分幀、加窗。
7.根據(jù)權利要求3所述的一種自動錄音設備源識別方法,其特征在于,所述步驟(21) 中的通用背景模型DEV-UBM是用兩組分布平衡的音頻數(shù)據(jù)子集分別訓練兩個子通用背景模型SUB-UBM,然后將這兩個子通用背景模型合并而成。
8.一種自動錄音設備源識別系統(tǒng),其特征在于包括——靜音提取模塊(100),用于提取訓練和識別過程中語音數(shù)據(jù)中的靜音段; ——預處理模塊(200),用于去除靜音中的背景噪聲,保留其中的設備信道信息,并且對去噪處理后的語音信號進行預加重、分幀、加窗處理;——錄音設備特征提取模塊(300),用于提取訓練和識別過程中語音數(shù)據(jù)的錄音設備特征;——設備通用背景模型DEV-UBM模塊(400),用于構建錄音設備的通用背景模型,作為反對設備模型;——MAP自適應模塊(500),用于自適應調節(jié)設備通用背景模型DEV-UBM中的參數(shù),以獲得特定錄音設備的統(tǒng)計模型;——錄音設備模型DEV-GMM模塊(600),用于構建特定錄音設備的統(tǒng)計模型; ——識別判決模塊(700),通過歸一化的似然度得分判斷待識別語音是來自于哪一個錄音設備。
全文摘要
本發(fā)明涉及智能語音信號處理、模式識別與人工智能技術領域,特別是涉及一種自動錄音設備源識別的方法和系統(tǒng)。該方法步驟如下a.提取語音信號中錄音設備的特征;b.利用GMM-UBM建立錄音設備的統(tǒng)計模型;c.利用歸一化的似然度作為最終得分進行分類判決。不同的錄音設備中包含有不同的設備噪聲,本發(fā)明利用靜音段來提取錄音設備特征,然后建立錄音設備的統(tǒng)計模型來進行設備的分類識別。本發(fā)明實施例中的技術方案充分表明本發(fā)明所提取的特征維數(shù)低,計算復雜度低,錯誤識別率低。
文檔編號G10L15/02GK102394062SQ20111033052
公開日2012年3月28日 申請日期2011年10月26日 優(yōu)先權日2011年10月26日
發(fā)明者沈秉乾, 王志鋒, 羅海宇, 賀前華 申請人:華南理工大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1