語音識(shí)別方法以及裝置的制造方法

文檔序號(hào)：9371985閱讀：411來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識(shí)別方法以及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域，尤其涉及一種語音識(shí)別方法以及裝置。
【背景技術(shù)】
[0002]近年來，語音識(shí)別技術(shù)發(fā)展較為迅速，特別是深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用到語音識(shí)別之后，語音識(shí)別性能得到了大幅度提高。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展，語音輸入方式越來越普遍，語音使用人群也越來越廣泛。因此，如何提高語音識(shí)別的準(zhǔn)確度已成為亟待解決的問題。
[0003]相關(guān)技術(shù)中，語音識(shí)別過程主要通過大量語音訓(xùn)練，以得到聲學(xué)模型以及語言模型，然后通過該聲學(xué)模型以及語言模型對(duì)說話人輸入的語音數(shù)據(jù)進(jìn)行語音識(shí)別?？梢钥闯觯?xùn)練樣本越大，精確度越高，訓(xùn)練得到的聲學(xué)模型效果越好，從而提高語音識(shí)別的準(zhǔn)確度。
[0004]但是存在的問題是，上述語音識(shí)別的過程中，采用了大量的語音樣本，訓(xùn)練構(gòu)建出聲學(xué)模型，該模型應(yīng)用于所有說話人的語音識(shí)別過程，對(duì)于方言口音比較重或者講話不清楚的說話人來說，通過上述語音識(shí)別方式可能并不能很好地識(shí)別出該說話人輸入的內(nèi)容，降低了該聲學(xué)模型的識(shí)別準(zhǔn)確度，用戶體驗(yàn)變差。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問題之一。
[0006]為此，本發(fā)明的第一個(gè)目的在于提出一種語音識(shí)別方法。該方法可以基于說話人自適應(yīng)的語音識(shí)別過程能夠針對(duì)每個(gè)說話人的特點(diǎn)，定制他們的聲學(xué)模型，從而提高每個(gè)說話人的準(zhǔn)確度，提升了用戶體驗(yàn)。
[0007]本發(fā)明的第二個(gè)目的在于提出一種語音識(shí)別裝置。
[0008]為了實(shí)現(xiàn)上述目的，本發(fā)明第一方面實(shí)施例的語音識(shí)別方法，包括:獲取說話人輸入的語音信息，并獲取所述說話人的說話人信息；根據(jù)所述說話人信息判斷是否存在與所述說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型；如果存在，則獲取所述個(gè)人聲學(xué)模型，并根據(jù)所述說話人的個(gè)人聲學(xué)模型對(duì)所述語音信息進(jìn)行語音識(shí)別；如果不存在，則根據(jù)基礎(chǔ)聲學(xué)模型對(duì)所述語音信息進(jìn)行語音識(shí)別，并根據(jù)所述語音信息生成所述說話人的語料信息并存儲(chǔ)；以及根據(jù)所述基礎(chǔ)聲學(xué)模型和存儲(chǔ)的語料信息生成所述說話人的個(gè)人聲學(xué)模型。
[0009]本發(fā)明實(shí)施例的語音識(shí)別方法，可先獲取說話人輸入的語音信息，并獲取說話人的說話人信息，之后，可根據(jù)說話人信息判斷是否存在與說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型，若存在，則獲取個(gè)人聲學(xué)模型，并根據(jù)說話人的個(gè)人聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別，若不存在，則根據(jù)基礎(chǔ)聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別，并根據(jù)語音信息生成說話人的語料信息并存儲(chǔ)，以及根據(jù)基礎(chǔ)聲學(xué)模型和存儲(chǔ)的語料信息生成說話人的個(gè)人聲學(xué)模型，即在說話人無關(guān)的聲學(xué)模型(即上述的基礎(chǔ)聲學(xué)模型)基礎(chǔ)上利用給定說話人的歷史語音數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練，得到該說話人自身特點(diǎn)的個(gè)人聲學(xué)模型，在語音識(shí)別過程使用該說話人的個(gè)人聲學(xué)模型進(jìn)行識(shí)別，從而可以提高每個(gè)人的語音識(shí)別準(zhǔn)確度，這樣相當(dāng)于對(duì)所有語音識(shí)別的用戶提供了私人訂制的語音識(shí)別服務(wù)，從而提升了用戶體驗(yàn)。
[0010]為了實(shí)現(xiàn)上述目的，本發(fā)明第二方面實(shí)施例的語音識(shí)別裝置，包括:第一獲取模塊，用于獲取說話人輸入的語音信息，并獲取所述說話人的說話人信息；判斷模塊，用于根據(jù)所述說話人信息判斷是否存在與所述說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型；語音識(shí)別模塊，用于在所述判斷模塊判斷存在所述個(gè)人聲學(xué)模型時(shí)，獲取所述個(gè)人聲學(xué)模型，并根據(jù)所述說話人的個(gè)人聲學(xué)模型對(duì)所述語音信息進(jìn)行語音識(shí)別，以及在所述判斷模塊判斷不存在所述個(gè)人聲學(xué)模型時(shí)，根據(jù)基礎(chǔ)聲學(xué)模型對(duì)所述語音信息進(jìn)行語音識(shí)別；第一生成模塊，用于根據(jù)所述語音信息生成所述說話人的語料信息并存儲(chǔ)；以及第二生成模塊，用于根據(jù)所述基礎(chǔ)聲學(xué)模型和存儲(chǔ)的語料信息生成所述說話人的個(gè)人聲學(xué)模型。
[0011]本發(fā)明實(shí)施例的語音識(shí)別裝置，可通過第一獲取模塊獲取說話人輸入的語音信息，并獲取說話人的說話人信息，判斷模塊根據(jù)說話人信息判斷是否存在與說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型，若存在，語音識(shí)別模塊則獲取個(gè)人聲學(xué)模型，并根據(jù)說話人的個(gè)人聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別，若不存在，語音識(shí)別模塊則根據(jù)基礎(chǔ)聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別，第一生成模塊根據(jù)語音信息生成說話人的語料信息并存儲(chǔ)，第二生成模塊根據(jù)基礎(chǔ)聲學(xué)模型和存儲(chǔ)的語料信息生成說話人的個(gè)人聲學(xué)模型，即在說話人無關(guān)的聲學(xué)模型(即上述的基礎(chǔ)聲學(xué)模型)基礎(chǔ)上利用給定說話人的歷史語音數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練，得到該說話人自身特點(diǎn)的個(gè)人聲學(xué)模型，在語音識(shí)別過程使用該說話人的個(gè)人聲學(xué)模型進(jìn)行識(shí)另IJ，從而可以提高每個(gè)人的語音識(shí)別準(zhǔn)確度，這樣相當(dāng)于對(duì)所有語音識(shí)別的用戶提供了私人訂制的語音識(shí)別服務(wù)，從而提升了用戶體驗(yàn)。
[0012]本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0013]本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中:
[0014]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音識(shí)別方法的流程圖；
[0015]圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的生成個(gè)人聲學(xué)模型的流程圖；
[0016]圖3是根據(jù)本發(fā)明另一個(gè)實(shí)施例的語音識(shí)別方法的流程圖；
[0017]圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖；
[0018]圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的第二生成模塊的結(jié)構(gòu)框圖；以及
[0019]圖6是根據(jù)本發(fā)明另一個(gè)實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0020]下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，旨在用于解釋本發(fā)明，而不能理解為對(duì)本發(fā)明的限制。
[0021]以下結(jié)合附圖描述根據(jù)本發(fā)明實(shí)施例的語音識(shí)別方法以及裝置。
[0022]需要說明的是，語音識(shí)別是指通過機(jī)器將人的語音自動(dòng)轉(zhuǎn)換為相應(yīng)的文本。近年來，語音識(shí)別技術(shù)發(fā)展較為迅速，特別是深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用到語音識(shí)別之后，語音識(shí)別系統(tǒng)性能得到了大幅度提高。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展，語音輸入方式越來越為普遍，語音使用人群也越來越廣泛。由于每個(gè)用戶的發(fā)音都有著其各自的聲學(xué)特點(diǎn)，如果能夠在識(shí)別過程利用這一特點(diǎn)，必然能夠進(jìn)一步帶來識(shí)別系統(tǒng)的提升。
[0023]為此，本發(fā)明提出了一種語音識(shí)別方法，包括:獲取說話人輸入的語音信息，并獲取說話人的說話人信息；根據(jù)說話人信息判斷是否存在與說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型；如果存在，則獲取個(gè)人聲學(xué)模型，并根據(jù)說話人的個(gè)人聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別；如果不存在，則根據(jù)基礎(chǔ)聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別，并根據(jù)語音信息生成說話人的語料信息并存儲(chǔ)；以及根據(jù)基礎(chǔ)聲學(xué)模型和存儲(chǔ)的語料信息生成說話人的個(gè)人聲學(xué)模型。
[0024]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音識(shí)別方法的流程圖。如圖1所示，該語音識(shí)別方法可以包括:
[0025]S101，獲取說話人輸入的語音信息，并獲取說話人的說話人信息。
[0026]需要說明的是，在本發(fā)明的實(shí)施例中，說話人信息可為說話人對(duì)應(yīng)的ID (IDentity,身份標(biāo)識(shí)號(hào)碼)。該說話人ID可為服務(wù)器為說話人分配的標(biāo)識(shí)符，且該說話人ID與說話人的聲紋特征具有一一對(duì)應(yīng)關(guān)系。
[0027]具體地，可通過終端中的麥克風(fēng)收集說話人輸入的語音信息，并可對(duì)該語音信息提取聲紋特征，之后可根據(jù)聲紋特征與說話人信息的對(duì)應(yīng)關(guān)系獲取該聲紋特征對(duì)應(yīng)的說話人信息(說話人ID等)。
[0028]可以理解，在本發(fā)明的另一個(gè)實(shí)施例中，說話人信息還可以是說話人所使用的終端的ID或者M(jìn)AC地址等。也就是說，在本步驟中，在獲取說話人輸入的語音信息之后，還可獲取該說話人所使用的終端的ID或者M(jìn)AC地址等。
[0029]S102，根據(jù)說話人信息判斷是否存在與說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型。
[0030]其中，在本發(fā)明的實(shí)施例中，個(gè)人聲學(xué)模型可理解為說話人自己的聲學(xué)模型，該個(gè)人聲學(xué)模型可包含說話人的語音特點(diǎn)。
[0031]S103，如果存在，則獲取個(gè)人聲學(xué)模型，并根據(jù)說話人的個(gè)人聲學(xué)模型對(duì)語音信息進(jìn)行語音

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4