基于聲紋識(shí)別和人臉識(shí)別的雙因素身份認(rèn)證方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于模式識(shí)別技術(shù)領(lǐng)域,涉及遠(yuǎn)程身份認(rèn)證技術(shù),具體涉及一種基于聲紋識(shí)別和人臉識(shí)別的雙因素身份認(rèn)證方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展以及手持終端設(shè)備如智能手機(jī)、平板電腦的普及,互聯(lián)網(wǎng)安全問(wèn)題日益突出。目前,無(wú)論是銀行的硬件數(shù)字證書還是動(dòng)態(tài)口令牌,都只做到了對(duì)可信終端的管理,無(wú)法對(duì)用戶身份進(jìn)行驗(yàn)證。
[0003]生物特征識(shí)別技術(shù)是利用人的生理特征或行為特征,來(lái)進(jìn)行個(gè)人身份的鑒定。已被用于生物識(shí)別的生物特征有聲音、指紋、人臉、虹膜、視網(wǎng)膜等,而麥克風(fēng)和攝像頭普遍存在于現(xiàn)有的移動(dòng)終端,因此通過(guò)聲音和人臉來(lái)進(jìn)行身份認(rèn)證是最方便、最經(jīng)濟(jì)的解決方案。
[0004]人臉識(shí)別是基于人的臉部特征信息進(jìn)行身份識(shí)別的一種生物特征識(shí)別技術(shù),主要包括人臉注冊(cè)和人臉認(rèn)證兩大模塊。人臉識(shí)別利用攝像頭采集含有人臉的圖像或視頻流,并自動(dòng)在圖像中檢測(cè)和跟蹤人臉,進(jìn)而對(duì)檢測(cè)到的人臉進(jìn)行臉部的一系列相關(guān)技術(shù)處理。
[0005]人的聲音涵蓋了多個(gè)維度的信息,如說(shuō)話內(nèi)容、說(shuō)話語(yǔ)氣、聲音特質(zhì)等。聲紋識(shí)別是一種通過(guò)人的聲音特質(zhì)來(lái)辨別不同說(shuō)話人的技術(shù),不同的聲道結(jié)構(gòu)決定了聲紋的唯一性。聲紋識(shí)別主要包括兩大模塊:聲紋注冊(cè)模塊和聲紋認(rèn)證模塊。聲紋注冊(cè)是指采用預(yù)先選定的模型對(duì)用戶的語(yǔ)音樣本進(jìn)行建模,生成該用戶的聲紋模型;在用戶請(qǐng)求身份驗(yàn)證時(shí),利用對(duì)應(yīng)的聲紋模型對(duì)請(qǐng)求語(yǔ)音進(jìn)行認(rèn)證。只有經(jīng)過(guò)聲紋注冊(cè)的用戶才能使用聲紋認(rèn)證功能。聲紋識(shí)別結(jié)合說(shuō)話內(nèi)容,能夠有效避免重放攻擊。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提供一種基于聲紋識(shí)別和人臉識(shí)別的雙因素身份認(rèn)證方法及系統(tǒng)。
[0007]本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
[0008]基于聲紋識(shí)別和人臉識(shí)別的雙因素身份認(rèn)證方法,至少包括如下步驟:
[0009]SOl:所述人臉檢測(cè)單元檢測(cè)請(qǐng)求認(rèn)證用戶的人臉區(qū)域圖像;
[0010]S02:通過(guò)面部關(guān)鍵點(diǎn)標(biāo)定單元在檢測(cè)到人臉區(qū)域內(nèi)標(biāo)定面部關(guān)鍵點(diǎn);
[0011]S03:所述人臉識(shí)別單元計(jì)算該用戶的人臉與客戶端存儲(chǔ)的注冊(cè)的人臉模型的相似度,所述人臉判斷單元用于判斷人臉相似度是否大于設(shè)定的閾值,若人臉相似度大于閾值則通過(guò)進(jìn)入S04,若人臉相似度小于閾值則認(rèn)證失?。?br>[0012]S04:所述第一口令生成單元通過(guò)隨機(jī)算法以當(dāng)前時(shí)間和用戶ID作為種子生成動(dòng)態(tài)口令文本,同時(shí)觸發(fā)第二口令生成單元生成相同的動(dòng)態(tài)口令文本;
[0013]所述第一口令生成單元和第二口令生成單元利用精確到分鐘的當(dāng)前時(shí)間和用戶ID生成動(dòng)態(tài)口令。
[0014]S05:通過(guò)語(yǔ)音采集單元采集用戶讀取動(dòng)態(tài)口令的語(yǔ)音數(shù)據(jù);以及通過(guò)語(yǔ)音端點(diǎn)檢測(cè)單元檢測(cè)用戶語(yǔ)音的起始端點(diǎn)和結(jié)束端點(diǎn),并將檢測(cè)的語(yǔ)音數(shù)據(jù)及用戶ID發(fā)送至服務(wù)器端;
[0015]S06:所述服務(wù)器端接收語(yǔ)音數(shù)據(jù)及用戶ID,所述語(yǔ)音識(shí)別單元對(duì)接收到的語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理,并將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為口令文本;
[0016]S07:所述文本內(nèi)容校驗(yàn)單元對(duì)轉(zhuǎn)換的口令文本與第二口令生成單元生成的動(dòng)態(tài)口令文本進(jìn)行比對(duì),若口令文本相同則通過(guò)進(jìn)入S08,若口令文本不同則認(rèn)證失?。?br>[0017]S08:所述聲紋特征向量提取單元從用戶的語(yǔ)音數(shù)據(jù)中提取聲紋特征向量,所述聲紋識(shí)別單元通過(guò)內(nèi)積計(jì)算得到用戶聲紋特征向量與服務(wù)器端存儲(chǔ)的注冊(cè)的聲紋模型之間的相似度,所述聲紋判斷單元用于判斷聲紋相似度是否大于設(shè)定的閾值,若聲紋相似度大于閾值則身份認(rèn)證成功,若聲紋相似度小于閾值則認(rèn)證失敗。
[0018]所述的技術(shù)方案優(yōu)選為,所述S08中,所述聲紋特征向量提取單元提取聲紋特征向量時(shí),將用戶語(yǔ)音轉(zhuǎn)化為短時(shí)頻譜特征序列,計(jì)算每一幀頻譜特征在全局背景模型各高斯分量上的后驗(yàn)概率,利用最大后驗(yàn)概率準(zhǔn)則自適應(yīng)訓(xùn)練得出用戶的高斯混合模型,將高斯混合模型中高斯分量的均值拼接形成高維向量,所述高維向量為聲紋特征向量。
[0019]所述的技術(shù)方案優(yōu)選為,所述短時(shí)頻譜特征采用梅爾頻率倒譜系數(shù)或感知線性預(yù)測(cè)系數(shù)。
[0020]所述的技術(shù)方案優(yōu)選為,所述SOl中,所述人臉檢測(cè)單元檢測(cè)注冊(cè)用戶的人臉區(qū)域圖像,且從中截取多張人臉區(qū)域圖像作為人臉樣本,并存儲(chǔ)于人臉建模單元內(nèi)。
[0021]所述的技術(shù)方案優(yōu)選為,所述人臉樣本的采集要求:相鄰的兩張人臉區(qū)域圖像的時(shí)間間隔至少為500毫秒、且相鄰兩張人臉區(qū)域圖像在灰度值上的差異大于預(yù)先設(shè)定的閾值。
[0022]所述的技術(shù)方案優(yōu)選為,所述S06中,所述服務(wù)器端接收注冊(cè)用戶的語(yǔ)音數(shù)據(jù)及用戶ID,通過(guò)聲紋特征向量提取單元將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成固定長(zhǎng)度的聲紋特征向量,并以用戶ID為索引存儲(chǔ)于聲紋建模單元內(nèi)。
[0023]所述的技術(shù)方案優(yōu)選為,所述注冊(cè)用戶在注冊(cè)時(shí)錄入一次或多次語(yǔ)音數(shù)據(jù)。
[0024]本發(fā)明提供一種基于聲紋識(shí)別和人臉識(shí)別的雙因素身份認(rèn)證系統(tǒng),采用所述雙因素身份認(rèn)證方法,所述雙因素身份認(rèn)證系統(tǒng)包括設(shè)置于客戶端且依次連接的人臉檢測(cè)單元、面部關(guān)鍵點(diǎn)標(biāo)定單元、人臉認(rèn)證單元、第一口令生成單元、語(yǔ)音端點(diǎn)檢測(cè)單元,所述面部關(guān)鍵點(diǎn)標(biāo)定單元與第一口令生成單元之間設(shè)有人臉建模單元;還包括設(shè)置于服務(wù)器端且依次連接的語(yǔ)音識(shí)別單元、文本內(nèi)容校驗(yàn)單元、聲紋特征向量提取單元、聲紋認(rèn)證單元,所述文本內(nèi)容校驗(yàn)單元與第二口令生成單元連接,以及與聲紋特征向量提取單元連接的聲紋建模單元。
[0025]所述的技術(shù)方案優(yōu)選為,所述人臉檢測(cè)單元設(shè)有視頻采集裝置;所述視頻采集裝置用于采集用戶人臉區(qū)域圖像。
[0026]所述人臉檢測(cè)單元用于用戶在發(fā)出身份認(rèn)證請(qǐng)求時(shí),通過(guò)視頻采集裝置采集人臉區(qū)域圖像;所述面部關(guān)鍵點(diǎn)標(biāo)定單元用于確定所述人臉區(qū)域內(nèi)的五官位置及輪廓;所述第一口令生成單元用于生成動(dòng)態(tài)口令文本,通過(guò)隨機(jī)算法以當(dāng)前時(shí)間和用戶ID作為種子,同時(shí)觸發(fā)設(shè)置于服務(wù)器端的第二口令生成單元生成相同的動(dòng)態(tài)口令文本;所述語(yǔ)音端點(diǎn)檢測(cè)單元用于檢測(cè)用戶語(yǔ)音的起始端點(diǎn)和結(jié)束端點(diǎn),將檢測(cè)的語(yǔ)音數(shù)據(jù)發(fā)送至服務(wù)器端。
[0027]所述語(yǔ)音識(shí)別單元用于將客戶端發(fā)來(lái)的語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成文本內(nèi)容;所述文本內(nèi)容校驗(yàn)單元用于將第二口令生成單元生成的動(dòng)態(tài)口令文本與語(yǔ)音識(shí)別單元發(fā)來(lái)的文本內(nèi)容進(jìn)行比對(duì),若比對(duì)結(jié)果一致則通過(guò),若不一致則認(rèn)證失敗。所述聲紋特征向量提取單元用于從語(yǔ)音數(shù)據(jù)中提取能夠代表用戶聲紋的聲紋特征向量。所述人臉建模單元用于從注冊(cè)用戶錄入的視頻數(shù)據(jù)中選取多張人臉圖像樣本,進(jìn)而建立人臉模型,所述聲紋建模單元用于從注冊(cè)用戶錄入的語(yǔ)音數(shù)據(jù)中提取聲紋特征向量,進(jìn)而建立聲紋模型。
[0028]所述的技術(shù)方案優(yōu)選為,所述人臉認(rèn)證單元包括依次連接的人臉識(shí)別單元和人臉判斷單元。所述人臉識(shí)別單元用于計(jì)算用戶的人臉和客戶端存儲(chǔ)的注冊(cè)人臉模型的相似度,所述人臉判斷單元用于判斷人臉相似度是否大于設(shè)定的閾值。
[0029]所述的技術(shù)方案優(yōu)選為,所述語(yǔ)音端檢測(cè)單元設(shè)有語(yǔ)音采集單元;所述語(yǔ)音采集單元用于采集用戶讀取動(dòng)態(tài)口令的語(yǔ)音數(shù)據(jù)。
[0030]所述的技術(shù)方案優(yōu)選為,所述聲紋認(rèn)證單元包括依次連接的聲紋識(shí)別單元和聲紋判斷單元。所述聲紋識(shí)別單元用于計(jì)算用戶的聲紋特征向量和服務(wù)器端存儲(chǔ)的注冊(cè)聲紋模型之間的