語音識(shí)別方法以及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種語音識(shí)別方法以及裝置。
【背景技術(shù)】
[0002]近年來,語音識(shí)別技術(shù)發(fā)展較為迅速,特別是深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用到語音識(shí)別之后,語音識(shí)別性能得到了大幅度提高。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,語音輸入方式越來越普遍,語音使用人群也越來越廣泛。因此,如何提高語音識(shí)別的準(zhǔn)確度已成為亟待解決的問題。
[0003]相關(guān)技術(shù)中,語音識(shí)別過程主要通過大量語音訓(xùn)練,以得到聲學(xué)模型以及語言模型,然后通過該聲學(xué)模型以及語言模型對(duì)說話人輸入的語音數(shù)據(jù)進(jìn)行語音識(shí)別??梢钥闯觯?xùn)練樣本越大,精確度越高,訓(xùn)練得到的聲學(xué)模型效果越好,從而提高語音識(shí)別的準(zhǔn)確度。
[0004]但是存在的問題是,上述語音識(shí)別的過程中,采用了大量的語音樣本,訓(xùn)練構(gòu)建出聲學(xué)模型,該模型應(yīng)用于所有說話人的語音識(shí)別過程,對(duì)于方言口音比較重或者講話不清楚的說話人來說,通過上述語音識(shí)別方式可能并不能很好地識(shí)別出該說話人輸入的內(nèi)容,降低了該聲學(xué)模型的識(shí)別準(zhǔn)確度,用戶體驗(yàn)變差。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問題之一。
[0006]為此,本發(fā)明的第一個(gè)目的在于提出一種語音識(shí)別方法。該方法可以基于說話人自適應(yīng)的語音識(shí)別過程能夠針對(duì)每個(gè)說話人的特點(diǎn),定制他們的聲學(xué)模型,從而提高每個(gè)說話人的準(zhǔn)確度,提升了用戶體驗(yàn)。
[0007]本發(fā)明的第二個(gè)目的在于提出一種語音識(shí)別裝置。
[0008]為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例的語音識(shí)別方法,包括:獲取說話人輸入的語音信息,并獲取所述說話人的說話人信息;根據(jù)所述說話人信息判斷是否存在與所述說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型;如果存在,則獲取所述個(gè)人聲學(xué)模型,并根據(jù)所述說話人的個(gè)人聲學(xué)模型對(duì)所述語音信息進(jìn)行語音識(shí)別;如果不存在,則根據(jù)基礎(chǔ)聲學(xué)模型對(duì)所述語音信息進(jìn)行語音識(shí)別,并根據(jù)所述語音信息生成所述說話人的語料信息并存儲(chǔ);以及根據(jù)所述基礎(chǔ)聲學(xué)模型和存儲(chǔ)的語料信息生成所述說話人的個(gè)人聲學(xué)模型。
[0009]本發(fā)明實(shí)施例的語音識(shí)別方法,可先獲取說話人輸入的語音信息,并獲取說話人的說話人信息,之后,可根據(jù)說話人信息判斷是否存在與說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型,若存在,則獲取個(gè)人聲學(xué)模型,并根據(jù)說話人的個(gè)人聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別,若不存在,則根據(jù)基礎(chǔ)聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別,并根據(jù)語音信息生成說話人的語料信息并存儲(chǔ),以及根據(jù)基礎(chǔ)聲學(xué)模型和存儲(chǔ)的語料信息生成說話人的個(gè)人聲學(xué)模型,即在說話人無關(guān)的聲學(xué)模型(即上述的基礎(chǔ)聲學(xué)模型)基礎(chǔ)上利用給定說話人的歷史語音數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練,得到該說話人自身特點(diǎn)的個(gè)人聲學(xué)模型,在語音識(shí)別過程使用該說話人的個(gè)人聲學(xué)模型進(jìn)行識(shí)別,從而可以提高每個(gè)人的語音識(shí)別準(zhǔn)確度,這樣相當(dāng)于對(duì)所有語音識(shí)別的用戶提供了私人訂制的語音識(shí)別服務(wù),從而提升了用戶體驗(yàn)。
[0010]為了實(shí)現(xiàn)上述目的,本發(fā)明第二方面實(shí)施例的語音識(shí)別裝置,包括:第一獲取模塊,用于獲取說話人輸入的語音信息,并獲取所述說話人的說話人信息;判斷模塊,用于根據(jù)所述說話人信息判斷是否存在與所述說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型;語音識(shí)別模塊,用于在所述判斷模塊判斷存在所述個(gè)人聲學(xué)模型時(shí),獲取所述個(gè)人聲學(xué)模型,并根據(jù)所述說話人的個(gè)人聲學(xué)模型對(duì)所述語音信息進(jìn)行語音識(shí)別,以及在所述判斷模塊判斷不存在所述個(gè)人聲學(xué)模型時(shí),根據(jù)基礎(chǔ)聲學(xué)模型對(duì)所述語音信息進(jìn)行語音識(shí)別;第一生成模塊,用于根據(jù)所述語音信息生成所述說話人的語料信息并存儲(chǔ);以及第二生成模塊,用于根據(jù)所述基礎(chǔ)聲學(xué)模型和存儲(chǔ)的語料信息生成所述說話人的個(gè)人聲學(xué)模型。
[0011]本發(fā)明實(shí)施例的語音識(shí)別裝置,可通過第一獲取模塊獲取說話人輸入的語音信息,并獲取說話人的說話人信息,判斷模塊根據(jù)說話人信息判斷是否存在與說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型,若存在,語音識(shí)別模塊則獲取個(gè)人聲學(xué)模型,并根據(jù)說話人的個(gè)人聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別,若不存在,語音識(shí)別模塊則根據(jù)基礎(chǔ)聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別,第一生成模塊根據(jù)語音信息生成說話人的語料信息并存儲(chǔ),第二生成模塊根據(jù)基礎(chǔ)聲學(xué)模型和存儲(chǔ)的語料信息生成說話人的個(gè)人聲學(xué)模型,即在說話人無關(guān)的聲學(xué)模型(即上述的基礎(chǔ)聲學(xué)模型)基礎(chǔ)上利用給定說話人的歷史語音數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練,得到該說話人自身特點(diǎn)的個(gè)人聲學(xué)模型,在語音識(shí)別過程使用該說話人的個(gè)人聲學(xué)模型進(jìn)行識(shí)另IJ,從而可以提高每個(gè)人的語音識(shí)別準(zhǔn)確度,這樣相當(dāng)于對(duì)所有語音識(shí)別的用戶提供了私人訂制的語音識(shí)別服務(wù),從而提升了用戶體驗(yàn)。
[0012]本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0013]本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0014]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音識(shí)別方法的流程圖;
[0015]圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的生成個(gè)人聲學(xué)模型的流程圖;
[0016]圖3是根據(jù)本發(fā)明另一個(gè)實(shí)施例的語音識(shí)別方法的流程圖;
[0017]圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖;
[0018]圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的第二生成模塊的結(jié)構(gòu)框圖;以及
[0019]圖6是根據(jù)本發(fā)明另一個(gè)實(shí)施例的語音識(shí)別裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0020]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0021]以下結(jié)合附圖描述根據(jù)本發(fā)明實(shí)施例的語音識(shí)別方法以及裝置。
[0022]需要說明的是,語音識(shí)別是指通過機(jī)器將人的語音自動(dòng)轉(zhuǎn)換為相應(yīng)的文本。近年來,語音識(shí)別技術(shù)發(fā)展較為迅速,特別是深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用到語音識(shí)別之后,語音識(shí)別系統(tǒng)性能得到了大幅度提高。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,語音輸入方式越來越為普遍,語音使用人群也越來越廣泛。由于每個(gè)用戶的發(fā)音都有著其各自的聲學(xué)特點(diǎn),如果能夠在識(shí)別過程利用這一特點(diǎn),必然能夠進(jìn)一步帶來識(shí)別系統(tǒng)的提升。
[0023]為此,本發(fā)明提出了一種語音識(shí)別方法,包括:獲取說話人輸入的語音信息,并獲取說話人的說話人信息;根據(jù)說話人信息判斷是否存在與說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型;如果存在,則獲取個(gè)人聲學(xué)模型,并根據(jù)說話人的個(gè)人聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別;如果不存在,則根據(jù)基礎(chǔ)聲學(xué)模型對(duì)語音信息進(jìn)行語音識(shí)別,并根據(jù)語音信息生成說話人的語料信息并存儲(chǔ);以及根據(jù)基礎(chǔ)聲學(xué)模型和存儲(chǔ)的語料信息生成說話人的個(gè)人聲學(xué)模型。
[0024]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音識(shí)別方法的流程圖。如圖1所示,該語音識(shí)別方法可以包括:
[0025]S101,獲取說話人輸入的語音信息,并獲取說話人的說話人信息。
[0026]需要說明的是,在本發(fā)明的實(shí)施例中,說話人信息可為說話人對(duì)應(yīng)的ID (IDentity,身份標(biāo)識(shí)號(hào)碼)。該說話人ID可為服務(wù)器為說話人分配的標(biāo)識(shí)符,且該說話人ID與說話人的聲紋特征具有一一對(duì)應(yīng)關(guān)系。
[0027]具體地,可通過終端中的麥克風(fēng)收集說話人輸入的語音信息,并可對(duì)該語音信息提取聲紋特征,之后可根據(jù)聲紋特征與說話人信息的對(duì)應(yīng)關(guān)系獲取該聲紋特征對(duì)應(yīng)的說話人信息(說話人ID等)。
[0028]可以理解,在本發(fā)明的另一個(gè)實(shí)施例中,說話人信息還可以是說話人所使用的終端的ID或者M(jìn)AC地址等。也就是說,在本步驟中,在獲取說話人輸入的語音信息之后,還可獲取該說話人所使用的終端的ID或者M(jìn)AC地址等。
[0029]S102,根據(jù)說話人信息判斷是否存在與說話人對(duì)應(yīng)的個(gè)人聲學(xué)模型。
[0030]其中,在本發(fā)明的實(shí)施例中,個(gè)人聲學(xué)模型可理解為說話人自己的聲學(xué)模型,該個(gè)人聲學(xué)模型可包含說話人的語音特點(diǎn)。
[0031]S103,如果存在,則獲取個(gè)人聲學(xué)模型,并根據(jù)說話人的個(gè)人聲學(xué)模型對(duì)語音信息進(jìn)行語音