一種聲紋特征提取方法和電子設(shè)備的制造方法

文檔序號：9598808閱讀：882來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種聲紋特征提取方法和電子設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及聲紋識別領(lǐng)域，特別涉及一種聲紋特征提取方法和電子設(shè)備。
【背景技術(shù)】
[0002] 聲紋識別技術(shù)是生物身份識別技術(shù)的一種，利用聲音來驗證話者的真實身份。而聲紋特征提取是實現(xiàn)聲紋識別的核心技術(shù)之一，隨著聲紋識別技術(shù)的普及，使得需要一種聲紋特征提取方法，實現(xiàn)聲紋特征的提取，保證聲紋識別技術(shù)的實現(xiàn)。
[0003] 現(xiàn)有技術(shù)提供了一種聲紋特征提取方法，通過按照固定幀長和幀移，對語音信號進行分幀，在每幀語音信號內(nèi)提取短時聲紋特征。現(xiàn)有即時還提供了一種聲紋特征提取方法，通過計算固定語音幀的Pitch (基頻）；根據(jù)Pitch的數(shù)值來確定當(dāng)前幀的幀長；按照該幀長與幀移對語音信號進行分幀，在每幀語音信號內(nèi)提取短時聲紋特征。
[0004] 但是，由于不同的人，不同的發(fā)音，其信號的周期性是不固定的，，會導(dǎo)致某些語音信號在幀內(nèi)不具有周期性，是得在采用現(xiàn)有技術(shù)一所提供的方法時，會降低聲紋特征的穩(wěn) 態(tài)性。同時，由于在復(fù)雜的電話信道或者噪音環(huán)境下，Pitch的提取變得非常困難，很多語音幀無法得到正確的數(shù)值，使得在采取現(xiàn)有技術(shù)二所提供的方法時，會降低聲紋識別率。

【發(fā)明內(nèi)容】

[0005] 為了提高聲紋特征提取的穩(wěn)態(tài)性，提高聲紋識別率，本發(fā)明實施例提供了一種聲紋特征提取方法和電子設(shè)備。所述技術(shù)方案如下：
[0006] 第一方面，提供了一種聲紋特征提取方法，所述方法包括：
[0007] 獲取與當(dāng)前幀語音數(shù)據(jù)相鄰的至少一幀語音數(shù)據(jù)的頻率值；
[0008] 根據(jù)所有所述至少一幀語音數(shù)據(jù)的頻率值，獲取所述當(dāng)前語音幀的頻率值；
[0009] 根據(jù)所述當(dāng)前語音幀的頻率值，計算所述當(dāng)前語音幀的聲紋特征參數(shù)。
[0010] 第二方面，提供了一種電子設(shè)備，所述電子設(shè)備包括：
[0011] 獲取模塊，用于獲取與當(dāng)前幀語音數(shù)據(jù)相鄰的至少一幀語音數(shù)據(jù)的頻率值；
[0012] 第一處理模塊，用于根據(jù)所有所述至少一幀語音數(shù)據(jù)的頻率值，獲取所述當(dāng)前語音幀的頻率值；
[0013] 第二處理模塊，用于根據(jù)所述當(dāng)前語音幀的頻率值，計算所述當(dāng)前語音幀的聲紋特征參數(shù)。
[0014] 第三方面，提供了一種電子設(shè)備，所述電子設(shè)備包括錄音裝置、存儲器以及與所述錄音裝置、所述存儲器連接的處理器，其中，所述存儲器用于存儲一組程序代碼，所述處理器調(diào)用所述存儲器所存儲的程序代碼用于執(zhí)行以下操作：
[0015] 獲取與當(dāng)前幀語音數(shù)據(jù)相鄰的至少一幀語音數(shù)據(jù)的頻率值；
[0016] 根據(jù)所有所述至少一幀語音數(shù)據(jù)的頻率值，獲取所述當(dāng)前語音幀的頻率值；
[0017] 根據(jù)所述當(dāng)前語音幀的頻率值，計算所述當(dāng)前語音幀的聲紋特征參數(shù)；
[0018] 其中，所述語音數(shù)據(jù)是所述處理器調(diào)用所述存儲器所存儲的程序代碼通過執(zhí)行以下操作中的任意一個獲取的：
[0019] 控制從所述錄音裝置獲取所述語音數(shù)據(jù)；或者，
[0020] 從語音文件中獲取所述語音數(shù)據(jù)。
[0021] 本發(fā)明公開了一種聲紋特征提取方法和電子設(shè)備，包括：獲取與當(dāng)前幀語音數(shù)據(jù) 相鄰的至少一幀語音數(shù)據(jù)的頻率值；根據(jù)所有至少一幀語音數(shù)據(jù)的頻率值，獲取當(dāng)前語音幀的頻率值；根據(jù)當(dāng)前語音幀的頻率值，計算當(dāng)前語音幀的聲紋特征參數(shù)。通過根據(jù)與當(dāng) 前幀語音數(shù)據(jù)相鄰的至少一幀語音數(shù)據(jù)的頻率值作為當(dāng)前語音幀的頻率值，來獲取當(dāng)前語音值對應(yīng)的聲紋特征，避免了由于幀內(nèi)語音信號略微時移偏差而導(dǎo)致的頻域信號的差異性，使得該方法相比于傳統(tǒng)的直接根據(jù)當(dāng)前的語音幀的頻率值，提高了聲紋特征提取的穩(wěn) 態(tài)性，從而提高了聲紋識別率；同時，由于是當(dāng)語音數(shù)據(jù)幀的幀是固定的，所以可以避免復(fù) 雜的電話信道或者噪音環(huán)境對聲紋識別率的影響，從而進一步提高了聲紋特征提取的穩(wěn)態(tài) 性，提高了聲紋識別率。
【附圖說明】
[0022] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0023] 圖1是本發(fā)明實施例提供的一種聲紋特征提取方法流程圖；
[0024] 圖2是本發(fā)明實施例提供的一種聲紋特征提取方法流程圖；
[0025] 圖3是本發(fā)明實施例提供的一種電子設(shè)備結(jié)構(gòu)示意圖；
[0026] 圖4是本發(fā)明實施例提供的一種電子設(shè)備結(jié)構(gòu)示意圖。
【具體實施方式】
[0027] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
[0028] 本發(fā)明實施例提供了一種聲紋特征提取方法，該方法用于從語音數(shù)據(jù)流中提取用于描述聲紋特征的聲紋特征參數(shù)，在本發(fā)明實施例中，該聲紋特征參數(shù)包括至少一個 MFCC(Mel Frequnce Cepstrum Coefficient，美爾頻率倒譜系數(shù)）。
[0029] 實施例一為發(fā)明實施例提供的一種聲紋特征提取方法，參照圖1所示，該方法包括：
[0030] 101、獲取與當(dāng)前幀語音數(shù)據(jù)相鄰的至少一幀語音數(shù)據(jù)的頻率值。
[0031] 具體的，設(shè)置與至少一幀語音數(shù)據(jù)中的每一幀語音數(shù)據(jù)分別對應(yīng)的采樣條件；
[0032] 根據(jù)采樣條件，獲取與當(dāng)前幀語音數(shù)據(jù)相鄰的至少一幀語音數(shù)據(jù)的頻率值。
[0033] 步驟設(shè)置與至少一幀語音數(shù)據(jù)中的每一幀語音數(shù)據(jù)分別對應(yīng)的采樣條件的過程可以包括：
[0034] 設(shè)置時長偏移與相鄰幀數(shù)；
[0035] 根據(jù)時長偏移與相鄰幀數(shù)，設(shè)置與至少一幀語音數(shù)據(jù)中的每一幀語音數(shù)據(jù)分別對應(yīng)的采樣條件。
[0036] 102、根據(jù)所有至少一幀語音數(shù)據(jù)的頻率值，獲取當(dāng)前語音幀的頻率值。
[0037] 對至少一幀語音數(shù)據(jù)的頻率值中的每一個頻率值進行處理，獲取處理后的至少一個頻率值。
[0038] 根據(jù)處理后的至少一個頻率值，獲取當(dāng)前語音幀的頻率值。
[0039] 步驟根據(jù)處理后的至少一個頻率值，獲取當(dāng)前語音幀的頻率值的過程可以包括：
[0040] 獲取處理后的至少一個頻率值的平均值；
[0041] 設(shè)置平均值為當(dāng)前語音幀的頻率值。
[0042] 103、根據(jù)當(dāng)前語音幀的頻率值，計算當(dāng)前語音幀的聲紋特征參數(shù)。
[0043] 本發(fā)明實施例提供了一種聲紋特征提取方法，通過根據(jù)與當(dāng)前幀語音數(shù)據(jù)相鄰的至少一幀語音數(shù)據(jù)的頻率值作為當(dāng)前語音幀的頻率值，來獲取當(dāng)前語音值對應(yīng)的聲紋特征，避免了由于幀內(nèi)語音信號略微時移偏差而導(dǎo)致的頻域信號的差異性，使得該方法相比于傳統(tǒng)的直接根據(jù)當(dāng)前的語音幀的頻率值，提高了聲紋特征提取的穩(wěn)態(tài)性，從而提高了聲紋識別率；同時，由于是當(dāng)語音數(shù)據(jù)幀的幀是固定的，所以可以避免復(fù)雜的電話信道或者噪音環(huán)境對聲紋識別率的影響，從而進一步提高了聲紋特征提取的穩(wěn)態(tài)性，提高了聲紋識別率。
[0044] 實施例二為本發(fā)明實施例提供的一種聲紋特

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3 4