一種語(yǔ)音識(shí)別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種語(yǔ)音識(shí)別方法及裝置。
【背景技術(shù)】
[0002]目前,隨著電子科技的發(fā)展,語(yǔ)音輸入越來越被人們推崇,語(yǔ)音輸入是通過語(yǔ)音識(shí)別將人說話的內(nèi)容轉(zhuǎn)換為文本的一種輸入方式。很多應(yīng)用中的語(yǔ)音輸入還局限在語(yǔ)音輸入語(yǔ)音輸出,還不能很好的將語(yǔ)音輸入轉(zhuǎn)化為文字。由于在實(shí)際應(yīng)用中,語(yǔ)音識(shí)別面對(duì)的環(huán)境十分復(fù)雜,需要處理各種不同領(lǐng)域的說話內(nèi)容,識(shí)別性能很難達(dá)到百分之百,尤其是對(duì)于一些特殊領(lǐng)域,例如醫(yī)療領(lǐng)域、金融領(lǐng)域、通信領(lǐng)域等,存在很多專業(yè)術(shù)語(yǔ)在語(yǔ)音輸入中出現(xiàn)的幾率較低,電子設(shè)備將說話的內(nèi)容轉(zhuǎn)換為文本時(shí)也很難準(zhǔn)確地將語(yǔ)音轉(zhuǎn)換為專業(yè)術(shù)語(yǔ)。
[0003]針對(duì)上述問題,相關(guān)技術(shù)人員逐漸將不同領(lǐng)域的專業(yè)術(shù)語(yǔ)或文章添加到通用語(yǔ)言數(shù)據(jù)庫(kù)中,以使通用語(yǔ)言數(shù)據(jù)庫(kù)能夠識(shí)別各個(gè)領(lǐng)域的用戶的語(yǔ)音輸入內(nèi)容。但是,這種方法將會(huì)使得通用語(yǔ)言數(shù)據(jù)庫(kù)越來越龐大,承載的數(shù)據(jù)越來越多,很難有針對(duì)性地在各個(gè)領(lǐng)域中實(shí)施,且由于不同用戶往往有不同的發(fā)聲習(xí)慣,因此,僅采用一個(gè)通用語(yǔ)言數(shù)據(jù)庫(kù)來識(shí)別不同用戶的語(yǔ)音輸入的準(zhǔn)確率并不高,存在很大的提升空間。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例提供一種語(yǔ)音識(shí)別方法及裝置,用于實(shí)現(xiàn)在確保語(yǔ)音識(shí)別的準(zhǔn)確率的同時(shí),能夠減輕服務(wù)器的負(fù)載壓力。
[0005]—種語(yǔ)音識(shí)別方法,包括以下步驟:
[0006]接收當(dāng)前登錄的用戶輸入的語(yǔ)音信息;
[0007]根據(jù)所述用戶的當(dāng)前登錄帳號(hào),獲取與所述用戶相對(duì)應(yīng)的參數(shù)配置文件,所述參數(shù)配置文件包括個(gè)性化聲學(xué)特征參數(shù)和個(gè)性化語(yǔ)言特征參數(shù);
[0008]根據(jù)所述參數(shù)配置文件和預(yù)設(shè)通用語(yǔ)音模型,生成所述用戶的個(gè)性化語(yǔ)音模型;
[0009]根據(jù)所述個(gè)性化語(yǔ)音模型,識(shí)別所述語(yǔ)音信息。
[0010]本發(fā)明實(shí)施例的一些有益效果可以包括:
[0011]上述技術(shù)方案,通過在用戶登錄后獲取用戶對(duì)應(yīng)的參數(shù)配置文件,并根據(jù)參數(shù)配置文件和預(yù)設(shè)通用語(yǔ)音模型生成用戶的個(gè)性化語(yǔ)音模型,進(jìn)而識(shí)別用戶輸入的語(yǔ)音信息,不僅使得終端能夠結(jié)合用戶的個(gè)性化聲學(xué)特征和語(yǔ)言特征來識(shí)別語(yǔ)音信息,從而提高語(yǔ)音識(shí)別的準(zhǔn)確率,且使得服務(wù)器端無需存儲(chǔ)每個(gè)用戶的個(gè)性化語(yǔ)音模型,而只需存儲(chǔ)每個(gè)用戶的參數(shù)配置文件和一個(gè)通用語(yǔ)音模型即可,從而減輕了服務(wù)器的負(fù)載壓力。
[0012]在一個(gè)實(shí)施例中,所述方法還包括:
[0013]采集所述用戶的樣本語(yǔ)音數(shù)據(jù);
[0014]從所述樣本語(yǔ)音數(shù)據(jù)中獲取所述用戶的個(gè)性化聲學(xué)特征參數(shù)。
[0015]該實(shí)施例中,通過采集用戶的樣本語(yǔ)音數(shù)據(jù)來獲取用戶的個(gè)性化聲學(xué)特征參數(shù),使得用戶的個(gè)性化聲學(xué)特征參數(shù)更加準(zhǔn)確,從而提高語(yǔ)音識(shí)別的準(zhǔn)確率。
[0016]在一個(gè)實(shí)施例中,所述個(gè)性化聲學(xué)特征參數(shù)包括深度神經(jīng)網(wǎng)絡(luò)、頻譜、倒頻譜、共振峰、基音和頻率倒譜系數(shù)中的至少一種參數(shù)。
[0017]該實(shí)施例中,通過獲取能夠表征用戶聲學(xué)特征的參數(shù),使得用戶的個(gè)性化聲學(xué)特征參數(shù)更加準(zhǔn)確,從而提高語(yǔ)音識(shí)別的準(zhǔn)確率。
[0018]在一個(gè)實(shí)施例中,所述方法還包括:
[0019]采集預(yù)設(shè)領(lǐng)域的特征數(shù)據(jù),所述特征數(shù)據(jù)包括所述預(yù)設(shè)領(lǐng)域的特定術(shù)語(yǔ)、所述預(yù)設(shè)領(lǐng)域的文章、語(yǔ)義關(guān)聯(lián)關(guān)系中的至少一種;
[0020]根據(jù)所述特征數(shù)據(jù)生成所述個(gè)性化語(yǔ)言特征參數(shù)。
[0021]該實(shí)施例中,通過采集預(yù)設(shè)領(lǐng)域的特征數(shù)據(jù)來生成用戶的個(gè)性化語(yǔ)言特征參數(shù),使得終端識(shí)別用戶輸入的語(yǔ)音信息時(shí),能夠準(zhǔn)確識(shí)別出屬于預(yù)設(shè)領(lǐng)域的內(nèi)容,從而提高了語(yǔ)音識(shí)別的準(zhǔn)確率。
[0022]在一個(gè)實(shí)施例中,所述預(yù)設(shè)通用語(yǔ)音模型包括通用聲學(xué)模型和通用語(yǔ)言模型;所述根據(jù)所述參數(shù)配置文件和預(yù)設(shè)通用語(yǔ)音模型,生成所述用戶的個(gè)性化語(yǔ)音模型,包括:
[0023]結(jié)合所述個(gè)性化聲學(xué)特征參數(shù)和所述通用聲學(xué)模型,獲得所述用戶的個(gè)性化聲學(xué)豐旲型;
[0024]結(jié)合所述個(gè)性化語(yǔ)言特征參數(shù)和所述通用語(yǔ)言模型,獲得所述用戶的個(gè)性化語(yǔ)言模型。
[0025]該實(shí)施例中,通過將個(gè)性化聲學(xué)特征參數(shù)和通用聲學(xué)模型進(jìn)行結(jié)合,并將個(gè)性化語(yǔ)言特征參數(shù)和通用語(yǔ)言模型進(jìn)行結(jié)合,使得終端識(shí)別語(yǔ)音信息時(shí),不僅能根據(jù)通用語(yǔ)音模型進(jìn)行識(shí)別,還能識(shí)別出用戶個(gè)性化的聲學(xué)特征及預(yù)設(shè)領(lǐng)域的語(yǔ)音內(nèi)容,提高了語(yǔ)音識(shí)別的準(zhǔn)確率。
[0026]在一個(gè)實(shí)施例中,所述根據(jù)所述個(gè)性化語(yǔ)音模型,識(shí)別所述語(yǔ)音信息,包括:
[0027]根據(jù)所述個(gè)性化聲學(xué)模型,識(shí)別所述語(yǔ)音信息中的聲音信息;
[0028]從所述個(gè)性化語(yǔ)言模型中匹配所述聲音信息對(duì)應(yīng)的文字;
[0029]將所述聲音信息轉(zhuǎn)化為所述文字。
[0030]該實(shí)施例中,通過個(gè)性化聲學(xué)模型識(shí)別語(yǔ)音信息中的聲音信息,并通過個(gè)性化語(yǔ)言模型將聲音信息轉(zhuǎn)化為文字,使得終端識(shí)別語(yǔ)音信息時(shí),不僅能根據(jù)通用語(yǔ)音模型進(jìn)行識(shí)別,還能識(shí)別出用戶個(gè)性化的聲學(xué)特征及預(yù)設(shè)領(lǐng)域的語(yǔ)音內(nèi)容,提高了語(yǔ)音識(shí)別的準(zhǔn)確率。
[0031]在一個(gè)實(shí)施例中,所述從所述個(gè)性化語(yǔ)言模型中匹配所述聲音信息對(duì)應(yīng)的文字,包括:
[0032]按照所述個(gè)性化語(yǔ)言模型中的優(yōu)先級(jí)順序,匹配所述聲音信息對(duì)應(yīng)的文字,其中,所述特征數(shù)據(jù)在所述個(gè)性化語(yǔ)言模型中的優(yōu)先級(jí)最高。
[0033]該實(shí)施例中,能夠按照個(gè)性化語(yǔ)言模型中的優(yōu)先級(jí)順序匹配聲音信息對(duì)應(yīng)的文字,使得用戶輸入的語(yǔ)音信息中包括預(yù)設(shè)領(lǐng)域的內(nèi)容時(shí),能夠優(yōu)先進(jìn)行匹配,從而使得通用語(yǔ)音模型無法識(shí)別的語(yǔ)音內(nèi)容也能被準(zhǔn)確地識(shí)別,提高了語(yǔ)音識(shí)別的準(zhǔn)確率。
[0034]在一個(gè)實(shí)施例中,所述方法還包括:
[0035]當(dāng)檢測(cè)到所述用戶對(duì)所述當(dāng)前登錄帳號(hào)的注銷操作時(shí),釋放所述用戶的個(gè)性化語(yǔ)音模型。
[0036]該實(shí)施例中,能夠在用戶注銷帳號(hào)時(shí)釋放用戶的個(gè)性化語(yǔ)音模型,使得當(dāng)前識(shí)別語(yǔ)音信息的終端無需存儲(chǔ)用戶的個(gè)性化語(yǔ)音模型,而只需在用戶每次登錄時(shí)從服務(wù)器端獲取用戶的參數(shù)配置文件即可,從而不僅能夠準(zhǔn)確地識(shí)別出語(yǔ)音信息,還能避免終端的存儲(chǔ)大數(shù)據(jù)的壓力。
[0037]—種語(yǔ)音識(shí)別裝置,其特征在于,包括:
[0038]接收模塊,用于接收當(dāng)前登錄的用戶輸入的語(yǔ)音信息;
[0039]第一獲取模塊,用于根據(jù)所述用戶的當(dāng)前登錄帳號(hào),獲取與所述用戶相對(duì)應(yīng)的參數(shù)配置文件,所述參數(shù)配置文件包括個(gè)性化聲學(xué)特征參數(shù)和個(gè)性化語(yǔ)言特征參數(shù);
[0040]第一生成模塊,用于根據(jù)所述參數(shù)配置文件和預(yù)設(shè)通用語(yǔ)音模型,生成所述用戶的個(gè)性化語(yǔ)音模型;
[0041 ]識(shí)別模塊,用于根據(jù)所述個(gè)性化語(yǔ)音模型,識(shí)別所述語(yǔ)音信息。
[0042] 所述裝置還包括:
[0043 ]第一采集模塊,用于采集所述用戶的樣本語(yǔ)音數(shù)據(jù);
[0044]第二獲取模塊,用于從所述樣本語(yǔ)音數(shù)據(jù)中獲取所述用戶的個(gè)性化聲學(xué)特征參數(shù)。
[0045]所述第一生成模塊生成的個(gè)性化聲學(xué)特征參數(shù)包括深度神經(jīng)網(wǎng)絡(luò)、頻譜、倒頻譜、共振峰、基音和頻率倒譜系數(shù)中的至少一種參數(shù)。
[0046]所述裝置還包括:
[0047]第二采集模塊,用于采集預(yù)設(shè)領(lǐng)域的特征數(shù)據(jù),所述特征數(shù)據(jù)包括所述預(yù)設(shè)領(lǐng)域的特定術(shù)語(yǔ)、所述預(yù)設(shè)領(lǐng)域的文章、語(yǔ)義關(guān)聯(lián)關(guān)系中的至少一種;
[0048]第二生成模塊,用于根據(jù)所述特征數(shù)據(jù)生成所述個(gè)性化語(yǔ)言特征參數(shù)。
[0049]所述預(yù)設(shè)通用語(yǔ)音模型包括通用聲學(xué)模型和通用語(yǔ)言模型;所述第一生成模塊包括:
[0050]第一結(jié)合子模塊,用于結(jié)合所述個(gè)性化聲學(xué)特征參數(shù)和所述通用聲學(xué)模型,獲得所述用戶的個(gè)性化聲學(xué)模型;
[0051]第二結(jié)合子模塊,用于結(jié)合所述個(gè)性化語(yǔ)言特征參數(shù)和所述通用語(yǔ)言模型,獲得所述用戶的個(gè)性化語(yǔ)言模型。
[0052]所述識(shí)別模塊包括:
[0053]識(shí)別子模塊,用于根據(jù)所述個(gè)性化聲學(xué)模型,識(shí)別所述語(yǔ)音信息中的聲音信息;
[0054]匹配子模塊,用于從所述個(gè)性化語(yǔ)言模型中匹配所述聲音信息對(duì)應(yīng)的文字;
[0055]轉(zhuǎn)化子模塊,用于將所述聲音信息轉(zhuǎn)化為所述文字。
[0056]所述匹配子模塊包括:
[0057]匹配單元,用于按照所述個(gè)性化語(yǔ)言模型中的優(yōu)先級(jí)順序,匹配所述聲音信息對(duì)應(yīng)的文字,其中,所述特征數(shù)據(jù)在所述個(gè)性化語(yǔ)言模型中的優(yōu)先級(jí)最高。
[0058]所述裝置還包括:
[0059]釋放模塊,用于當(dāng)檢測(cè)到所述用戶對(duì)所述當(dāng)前登錄帳號(hào)的注銷操作時(shí),釋放所述用戶的個(gè)性化語(yǔ)音模型。
[0060]本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
[0061]下面通過附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)