基于深度學(xué)習(xí)的聲紋認(rèn)證方法和裝置的制造方法

文檔序號(hào)：10513514閱讀：275來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于深度學(xué)習(xí)的聲紋認(rèn)證方法和裝置的制造方法
【專利摘要】本發(fā)明提出一種基于深度學(xué)習(xí)的聲紋認(rèn)證方法和裝置，該基于深度學(xué)習(xí)的聲紋認(rèn)證方法包括：接收說(shuō)話人的語(yǔ)音；提取所述語(yǔ)音的d?vector特征；獲取所述說(shuō)話人在注冊(cè)階段確定的d?vector特征；計(jì)算上述兩個(gè)d?vector特征之間的匹配值；如果所述匹配值大于或等于閾值，則確定所述說(shuō)話人通過(guò)認(rèn)證。該方法能夠提高聲紋認(rèn)證的效果。
【專利說(shuō)明】
基于深度學(xué)習(xí)的聲紋認(rèn)證方法和裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域，尤其涉及一種基于深度學(xué)習(xí)的聲紋認(rèn)證方法和裝置。
【背景技術(shù)】
[0002]深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類別或特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域，其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù)，例如圖像，聲音和文本。聲紋認(rèn)證是指根據(jù)說(shuō)話人發(fā)出的語(yǔ)音中的聲紋特征，對(duì)說(shuō)話人進(jìn)行身份認(rèn)證。
[0003]相關(guān)技術(shù)中，通?；诿窢栴l率倒譜系數(shù)(Mel Frequency CepstrumCoeff icient，MFCC)或感知加權(quán)線性預(yù)測(cè)(Perceptual Linear Predictive，PLP)特征，以及高斯混合模型(Gaussian Mixture Model，GMM)進(jìn)行聲紋認(rèn)證。相關(guān)技術(shù)中的聲紋認(rèn)證效果有待提尚。

【發(fā)明內(nèi)容】

[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005]為此，本發(fā)明的一個(gè)目的在于提出一種基于深度學(xué)習(xí)的聲紋認(rèn)證方法，該方法可以提高聲紋認(rèn)證的效果。
[0006]本發(fā)明的另一個(gè)目的在于提出一種基于深度學(xué)習(xí)的聲紋認(rèn)證裝置。
[0007]為達(dá)到上述目的，本發(fā)明第一方面實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證方法，包括:接收說(shuō)話人的語(yǔ)音;提取所述語(yǔ)音的d-vector特征;獲取所述說(shuō)話人在注冊(cè)階段確定的d-vector特征;計(jì)算上述兩個(gè)d-vector特征之間的匹配值;如果所述匹配值大于或等于閾值，則確定所述說(shuō)話人通過(guò)認(rèn)證。
[0008]本發(fā)明第一方面實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證方法，基于d-vector特征進(jìn)行聲紋認(rèn)證，由于d-vector特征是通過(guò)DNN網(wǎng)絡(luò)得到的，相對(duì)于GMM模型可以得到更有效的聲紋特征，因此，可以提高聲紋認(rèn)證的效果。
[0009]為達(dá)到上述目的，本發(fā)明第二方面實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證裝置，包括:接收模塊，用于接收說(shuō)話人的語(yǔ)音;第一提取模塊，用于提取所述語(yǔ)音的d-vector特征;第一獲取模塊，用于獲取所述說(shuō)話人在注冊(cè)階段確定的d-vector特征;第一計(jì)算模塊，用于計(jì)算上述兩個(gè)d-vector特征之間的匹配值;認(rèn)證模塊，用于如果所述匹配值大于或等于閾值，則確定所述說(shuō)話人通過(guò)認(rèn)證。
[0010]本發(fā)明第二方面實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證裝置，基于d-vector特征進(jìn)行聲紋認(rèn)證，由于d-vector特征是通過(guò)DNN網(wǎng)絡(luò)得到的，相對(duì)于GMM模型可以得到更有效的聲紋特征，因此，可以提高聲紋認(rèn)證的效果。
[0011]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中:
[0013]圖1是本發(fā)明一個(gè)實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證方法的流程示意圖；
[0014]圖2是本發(fā)明實(shí)施例中采用的DNN的示意圖；
[0015]圖3是本發(fā)明實(shí)施例中注冊(cè)階段的流程示意圖；
[0016]圖4是本發(fā)明一個(gè)實(shí)施例提出的基于深度學(xué)習(xí)聲紋認(rèn)證裝置的結(jié)構(gòu)示意圖；
[0017]圖5是本發(fā)明一個(gè)實(shí)施例提出的基于深度學(xué)習(xí)聲紋認(rèn)證裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0018]下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過(guò)參考附圖描述的實(shí)施例是示例性的，僅用于解釋本發(fā)明，而不能理解為對(duì)本發(fā)明的限制。相反，本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0019]圖1是本發(fā)明一個(gè)實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證方法的流程示意圖。
[0020]參見圖1，本實(shí)施例的方法包括:
[0021]Sll:接收說(shuō)話人的語(yǔ)音。
[0022]其中，認(rèn)證可以分為文本有關(guān)或文本無(wú)關(guān)，文本有關(guān)時(shí)，說(shuō)話人可以根據(jù)提示或固定內(nèi)容發(fā)出相應(yīng)的語(yǔ)音，文本無(wú)關(guān)時(shí)可以不限制的發(fā)出語(yǔ)音。
[0023]S12:提取所述語(yǔ)音的d-vector特征。
[0024]其中，d-vector特征是通過(guò)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network，DNN)提取的一種特征，具體是DNN中最后一層隱層的輸出。
[0025]DNN的示意圖可以參見圖2。如圖2所示，DNN可以分為輸入層21、隱層22和輸出層23ο
[0026]其中，輸入層用于接收從語(yǔ)音中提取的輸入特征，如大小為41*40的FBANK特征，輸出層的節(jié)點(diǎn)個(gè)數(shù)與說(shuō)話人個(gè)數(shù)相同，每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)說(shuō)話人。隱層的層數(shù)可以設(shè)置。DNN可以具體采用全連接方式。
[°027 ] 其中，F(xiàn)BANK特征是對(duì)數(shù)域的Me I濾波器的輸出為聲學(xué)特征，即Fi I ter_bank特征。
[0028]如圖2所示，在需要提取語(yǔ)音的d-vector特征時(shí)，可以先提取該語(yǔ)音的FBANK特征，再將FBANK特征輸入到DNN輸入層，經(jīng)過(guò)參數(shù)已確定(通過(guò)模型訓(xùn)練確定)的DNN，可以得到最后一個(gè)隱層的輸出24，將該輸出確定為d-vector特征。從該流程可以看出，在確定語(yǔ)音的d_ve c tor特征時(shí)，不需要使用DNN的輸出層。而在訓(xùn)練模型時(shí)會(huì)用到輸出層，當(dāng)然還會(huì)用到輸入層和隱層等。
[0029]S13:獲取所述說(shuō)話人在注冊(cè)階段確定的d-vector特征。
[0030]其中，在認(rèn)證階段，還可以獲取說(shuō)話人的身份標(biāo)識(shí)，而在注冊(cè)階段，可以對(duì)應(yīng)保存身份標(biāo)識(shí)和d-vector特征，從而可以根據(jù)身份標(biāo)識(shí)獲取到注冊(cè)階段確定的d-vector特征。[0031 ]其中，在認(rèn)證階段之前可以先進(jìn)行注冊(cè)。
[0032]參見圖3，說(shuō)話人的注冊(cè)流程可以包括:
[0033]S31:獲取所述說(shuō)話人在注冊(cè)階段發(fā)出的多條語(yǔ)音。
[0034]例如，在注冊(cè)階段，每個(gè)說(shuō)話人可以發(fā)出多條語(yǔ)音，客戶端接收到語(yǔ)音后可以發(fā)送給服務(wù)端進(jìn)行處理。
[0035]S32:對(duì)應(yīng)每條語(yǔ)音提取d-vector特征，得到多個(gè)d-vector特征。
[0036]其中，服務(wù)端在接收到每條語(yǔ)音后，可以提取該語(yǔ)音的d-vector特征，從而當(dāng)語(yǔ)音為多條時(shí)，d-vector特征也為多個(gè)。
[0037]服務(wù)端在提取語(yǔ)音的d-vector特征時(shí)，可以采用圖2所示的DNN(具體不使用最后的輸出層)進(jìn)行提取，具體內(nèi)容可以參見上述相關(guān)描述，在此不再詳細(xì)說(shuō)明。
[0038]S33:將多個(gè)d-vector特征求平均，確定為所述說(shuō)話人在注冊(cè)階段確定的d-vector特征。
[0039]進(jìn)一步的，注冊(cè)流程還可以包括:
[0040]S34:獲取所述說(shuō)話人的身份標(biāo)識(shí)。
[0041]例如，說(shuō)話人在注冊(cè)時(shí)可以輸入賬號(hào)等身份標(biāo)識(shí)。
[0042]S35:存儲(chǔ)所述身份標(biāo)識(shí)和所述注冊(cè)階段確定的d-vector特征，并建立身份標(biāo)識(shí)和d-vector之間的對(duì)應(yīng)關(guān)系。
[0043 ] 例如，說(shuō)話人的身份標(biāo)識(shí)是IDI，經(jīng)過(guò)上述計(jì)算得到的d - V e c t ο r的均值是d -vector-avg，貝Ij可以存儲(chǔ)IDl和d-vector-avg，且建立IDl與d-vector-avg的對(duì)應(yīng)關(guān)系。
[0044]S14:計(jì)算上述兩個(gè)d-vector特征之間的匹配值。
[0045]例如，在認(rèn)證階段提取出的d-vector特征用d-vector I表示，注冊(cè)階段確定的d-vector特征，如上述的均值用d_vector2表示，貝Ij可以計(jì)算(1_￥6(:1:01'1與(1-￥6(31:(^2之間的匹配值。
[0046]由于d-vectorI和d_vector2都是向量，因此可以采用向量間匹配度的計(jì)算方式，例如，采用余弦距離、線性鑒別分析(Linear Discriminant Analysis，LDA)等。
[0047]S15:如果所述匹配值大于或等于閾值，則確定所述說(shuō)話人通過(guò)認(rèn)證。
[0048]另一方面，如果所述匹配值小于閾值，則確定所述說(shuō)話人未通過(guò)認(rèn)證。
[0049]本實(shí)施例中，基于d-vector特征進(jìn)行聲紋認(rèn)證，由于d-vector特征是通過(guò)DNN網(wǎng)絡(luò)得到的，相對(duì)于GMM模型可以得到更有效的聲紋特征，因此，可以提高聲紋認(rèn)證的效果。
[0050]圖4是本發(fā)明一個(gè)實(shí)施例提出的基于深度學(xué)習(xí)的聲紋認(rèn)證裝置的結(jié)構(gòu)示意圖。
[0051 ]參見圖4，本實(shí)施例的裝置40包括:接收模塊401、第一提取模塊402、第一獲取模塊403、第一計(jì)算模塊404和認(rèn)證模塊405。
[0052]接收模塊401，用于接收說(shuō)話人的語(yǔ)音；
[0053]第一提取模塊402，用于提取所述語(yǔ)音的d-vector特征；
[0054]第一獲取模塊403，用于獲取所述說(shuō)話人在注冊(cè)階段確定的d-vector特征；
[0055]第一計(jì)算模塊404，用于計(jì)算上述兩個(gè)d-vector特征之間的匹配值；
[0056]認(rèn)證模塊405，用于如果所述匹配值大于或等于閾值，則確定所述說(shuō)話人通過(guò)認(rèn)證。
[0057]一些實(shí)施例中，參見圖5，該裝置40還包括:
[0058]第二獲取模塊406，用于獲取所述說(shuō)話人在注冊(cè)階段發(fā)出的多條語(yǔ)音；
[0059]第二提取模塊407，用于對(duì)應(yīng)每條語(yǔ)音提取d-vector特征，得到多個(gè)d-vector特征；
[0060]第二計(jì)算模塊408，用于將多個(gè)d-vector特征求平均，確定為所述說(shuō)話人在注冊(cè)階段確定的d-vector特征。
[0061 ] 一些實(shí)施例中，參見圖5，該裝置40還包括:
[0062]第三獲取模塊409，用于在注冊(cè)階段，獲取所述說(shuō)話人的身份標(biāo)識(shí)；
[0063]存儲(chǔ)模塊410，用于存儲(chǔ)所述身份標(biāo)識(shí)和所述注冊(cè)階段確定的d-vector特征，并建立身份標(biāo)識(shí)和d-vector之間的對(duì)應(yīng)關(guān)系。
[0064]一些實(shí)施例中，所述第一獲取模塊403具體用于:
[0065]接收說(shuō)話人的語(yǔ)音后，獲取所述說(shuō)話人的身份標(biāo)識(shí)；
[0066]根據(jù)所述對(duì)應(yīng)關(guān)系，獲取與所述身份標(biāo)識(shí)對(duì)應(yīng)的d-vector特征。
[0067]一些實(shí)施例中，所述第一提取模塊402具體用于:
[0068]提取語(yǔ)音的輸入特征；
[0069]采用預(yù)先確定的DNN和所述輸入特征，得到DNN的最后一層隱層的輸出，將所述輸出確定為所述d-vector特征。
[0070]一些實(shí)施例中，所述輸入特征包括:
[0071]FBANK 特征。
[0072]可以理解的是，本實(shí)施例的裝置與上述方法實(shí)施例對(duì)應(yīng)，具體內(nèi)容可以參見相關(guān)描述，在此不再詳細(xì)說(shuō)明。
[0073]本實(shí)施例中，基于d-vector特征進(jìn)行聲紋認(rèn)證，由于d-vector特征是通過(guò)DNN網(wǎng)絡(luò)得到的，相對(duì)于GMM模型可以得到更有效的聲紋特征，因此，可以提高聲紋認(rèn)證的效果。
[0074]需要說(shuō)明的是，在本發(fā)明的描述中，術(shù)語(yǔ)“第一”、“第二”等僅用于描述目的，而不能理解為指示或暗示相對(duì)重要性。此外，在本發(fā)明的描述中，除非另有說(shuō)明，“多個(gè)”的含義是指至少兩個(gè)。
[0075]流程圖中或在此以其他方式描述的任何過(guò)程或方法描述可以被理解為，表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過(guò)程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分，并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn)，其中可以不按所示出或討論的順序，包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序，來(lái)執(zhí)行功能，這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0076]應(yīng)當(dāng)理解，本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來(lái)實(shí)現(xiàn)。在上述實(shí)施方式中，多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來(lái)實(shí)現(xiàn)。例如，如果用硬件來(lái)實(shí)現(xiàn)，和在另一實(shí)施方式中一樣，可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來(lái)實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路，具有合適的組合邏輯門電路的專用集成電路，可編程門陣列(PGA)，現(xiàn)場(chǎng)可編程門陣列(FPGA)等。
[0077]本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件完成，所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，包括方法實(shí)施例的步驟之一或其組合。
[0078]此外，在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中，也可以是各個(gè)單元單獨(dú)物理存在，也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn)，也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí)，也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。
[0079]上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器，磁盤或光盤等。
[0080]在本說(shuō)明書的描述中，參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書中，對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且，描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
[0081]盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例，可以理解的是，上述實(shí)施例是示例性的，不能理解為對(duì)本發(fā)明的限制，本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。
【主權(quán)項(xiàng)】
1.一種基于深度學(xué)習(xí)的聲紋認(rèn)證方法，其特征在于，包括: 接收說(shuō)話人的語(yǔ)音；提取所述語(yǔ)音的d-vector特征；獲取所述說(shuō)話人在注冊(cè)階段確定的d-vector特征；計(jì)算上述兩個(gè)d-vector特征之間的匹配值；如果所述匹配值大于或等于閾值，則確定所述說(shuō)話人通過(guò)認(rèn)證。2.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括: 獲取所述說(shuō)話人在注冊(cè)階段發(fā)出的多條語(yǔ)音；對(duì)應(yīng)每條語(yǔ)音提取d-vector特征，得到多個(gè)d-vector特征；將多個(gè)d-vector特征求平均，確定為所述說(shuō)話人在注冊(cè)階段確定的d-vector特征。3.根據(jù)權(quán)利要求2所述的方法，其特征在于，還包括: 在注冊(cè)階段，獲取所述說(shuō)話人的身份標(biāo)識(shí)；存儲(chǔ)所述身份標(biāo)識(shí)和所述注冊(cè)階段確定的d-vector特征，并建立身份標(biāo)識(shí)和d-vector之間的對(duì)應(yīng)關(guān)系。4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述獲取所述說(shuō)話人在注冊(cè)階段確定的d-vector特征，包括: 接收說(shuō)話人的語(yǔ)音后，獲取所述說(shuō)話人的身份標(biāo)識(shí)；根據(jù)所述對(duì)應(yīng)關(guān)系，獲取與所述身份標(biāo)識(shí)對(duì)應(yīng)的d-vector特征。5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法，其特征在于，提取語(yǔ)音的d-vector特征包括: 提取語(yǔ)音的輸入特征；采用預(yù)先確定的DNN和所述輸入特征，得到DNN的最后一層隱層的輸出，將所述輸出確定為所述d-vector特征。6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述輸入特征包括: FBANK特征。7.一種基于深度學(xué)習(xí)的聲紋認(rèn)證裝置，其特征在于，包括: 接收模塊，用于接收說(shuō)話人的語(yǔ)音；第一提取模塊，用于提取所述語(yǔ)音的d-vector特征；第一獲取模塊，用于獲取所述說(shuō)話人在注冊(cè)階段確定的d-vector特征；第一計(jì)算模塊，用于計(jì)算上述兩個(gè)d-vector特征之間的匹配值；認(rèn)證模塊，用于如果所述匹配值大于或等于閾值，則確定所述說(shuō)話人通過(guò)認(rèn)證。8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，還包括: 第二獲取模塊，用于獲取所述說(shuō)話人在注冊(cè)階段發(fā)出的多條語(yǔ)音；第二提取模塊，用于對(duì)應(yīng)每條語(yǔ)音提取d-vector特征，得到多個(gè)d-vector特征；第二計(jì)算模塊，用于將多個(gè)d-vector特征求平均，確定為所述說(shuō)話人在注冊(cè)階段確定的d-vector特征。9.根據(jù)權(quán)利要求8所述的裝置，其特征在于，還包括: 第三獲取模塊，用于在注冊(cè)階段，獲取所述說(shuō)話人的身份標(biāo)識(shí)；存儲(chǔ)模塊，用于存儲(chǔ)所述身份標(biāo)識(shí)和所述注冊(cè)階段確定的d-vector特征，并建立身份標(biāo)識(shí)和d-vector之間的對(duì)應(yīng)關(guān)系。10.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述第一獲取模塊具體用于: 接收說(shuō)話人的語(yǔ)音后，獲取所述說(shuō)話人的身份標(biāo)識(shí)；根據(jù)所述對(duì)應(yīng)關(guān)系，獲取與所述身份標(biāo)識(shí)對(duì)應(yīng)的d-vector特征。11.根據(jù)權(quán)利要求7-10任一項(xiàng)所述的裝置，其特征在于，所述第一提取模塊具體用于: 提取語(yǔ)音的輸入特征；采用預(yù)先確定的DNN和所述輸入特征，得到DNN的最后一層隱層的輸出，將所述輸出確定為所述d-vector特征。12.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述輸入特征包括: FBANK特征。
【文檔編號(hào)】G10L17/04GK105869644SQ201610353878
【公開日】2016年8月17日
【申請(qǐng)日】2016年5月25日
【發(fā)明人】吳本谷, 李超, 關(guān)勇
【申請(qǐng)人】百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳本谷;李超;關(guān)勇;
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司;
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于深度學(xué)習(xí)的聲紋認(rèn)證方法和裝置的制造方法