語(yǔ)音信號(hào)的處理方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種語(yǔ)音信號(hào)的處理方法以及一種語(yǔ)音信號(hào)的處理裝置。
【背景技術(shù)】
[0002]語(yǔ)音識(shí)別是指通過(guò)機(jī)器將人的語(yǔ)音自動(dòng)轉(zhuǎn)換為相應(yīng)的文本。近年來(lái),語(yǔ)音識(shí)別技術(shù)發(fā)展較為迅速,特別是深度神經(jīng)網(wǎng)絡(luò)被應(yīng)用到語(yǔ)音識(shí)別之后,識(shí)別系統(tǒng)的性能得到了大幅度提尚。
[0003]相關(guān)技術(shù)中,語(yǔ)音識(shí)別過(guò)程通過(guò)對(duì)大量純凈語(yǔ)音樣本進(jìn)行訓(xùn)練,得到聲學(xué)模型和語(yǔ)言模型。訓(xùn)練樣本越大,精確度越高,得到的聲學(xué)模型效果越好,語(yǔ)音識(shí)別的準(zhǔn)確率也就越尚。
[0004]但隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,語(yǔ)音輸入方式越來(lái)越普遍,語(yǔ)音使用人群也越來(lái)越廣泛,而且每個(gè)用戶使用的環(huán)境有很大差異,特別是在噪聲環(huán)境下,比如汽車行駛過(guò)程中的車載噪聲,在餐廳或者其他人群密集的地方產(chǎn)生的人群噪聲等。而現(xiàn)有語(yǔ)音識(shí)別的訓(xùn)練缺乏噪聲語(yǔ)音樣本,同時(shí)噪聲語(yǔ)音樣本與純凈語(yǔ)音樣本的聲學(xué)特征差異很大,因此相關(guān)技術(shù)中的聲學(xué)模型在安靜環(huán)境下的語(yǔ)音識(shí)別的準(zhǔn)確率很高,而在噪聲環(huán)境下的語(yǔ)音識(shí)別的準(zhǔn)確率將大大降低。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
[0006]為此,本發(fā)明的第一個(gè)目的在于提出一種語(yǔ)音信號(hào)的處理方法,該方法大大提高了在噪聲環(huán)境下的語(yǔ)音識(shí)別的準(zhǔn)確性,提升語(yǔ)音識(shí)別服務(wù)的魯棒性和語(yǔ)音識(shí)別服務(wù)的體驗(yàn)。
[0007]本發(fā)明的第二個(gè)目的在于提出一種語(yǔ)音信號(hào)的處理裝置。
[0008]為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種語(yǔ)音信號(hào)的處理方法,包括以下步驟:采集噪聲樣本信號(hào);根據(jù)所述噪聲樣本信號(hào)對(duì)預(yù)存的純凈語(yǔ)音樣本信號(hào)進(jìn)行處理,得到具有噪聲的噪聲語(yǔ)音樣本信號(hào);根據(jù)所述噪聲語(yǔ)音樣本信號(hào)和所述純凈語(yǔ)音樣本信號(hào)訓(xùn)練語(yǔ)首t旲型。
[0009]本發(fā)明實(shí)施例的語(yǔ)音信號(hào)的處理方法,根據(jù)不同場(chǎng)景的噪聲樣本和純凈語(yǔ)音樣本生成噪聲語(yǔ)音樣本,并根據(jù)噪聲語(yǔ)音樣本和純凈語(yǔ)音樣本訓(xùn)練語(yǔ)音模型,從而能夠通過(guò)該語(yǔ)音模型將各種噪聲環(huán)境下的語(yǔ)音信號(hào)轉(zhuǎn)換成安靜環(huán)境下的語(yǔ)音信號(hào),從而大大提高了在噪聲環(huán)境下的語(yǔ)音識(shí)別的準(zhǔn)確性,提升語(yǔ)音識(shí)別服務(wù)的魯棒性和語(yǔ)音識(shí)別服務(wù)的體驗(yàn)。
[0010]為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種語(yǔ)音信號(hào)的處理裝置,包括:第一采集模塊,用于采集噪聲樣本信號(hào);第一處理模塊,用于根據(jù)所述噪聲樣本信號(hào)對(duì)預(yù)存的純凈語(yǔ)音樣本信號(hào)進(jìn)行處理,得到具有噪聲的噪聲語(yǔ)音樣本信號(hào);第一訓(xùn)練模塊,用于根據(jù)所述噪聲語(yǔ)音樣本信號(hào)和所述純凈語(yǔ)音樣本信號(hào)訓(xùn)練語(yǔ)音模型。
[0011]本發(fā)明實(shí)施例的語(yǔ)音信號(hào)的處理裝置,根據(jù)不同場(chǎng)景的噪聲樣本和純凈語(yǔ)音樣本生成噪聲語(yǔ)音樣本,并根據(jù)噪聲語(yǔ)音樣本和純凈語(yǔ)音樣本訓(xùn)練語(yǔ)音模型,從而能夠通過(guò)該語(yǔ)音模型將各種噪聲環(huán)境下的語(yǔ)音信號(hào)轉(zhuǎn)換成安靜環(huán)境下的語(yǔ)音信號(hào),從而大大提高了在噪聲環(huán)境下的語(yǔ)音識(shí)別的準(zhǔn)確性,提升語(yǔ)音識(shí)別服務(wù)的魯棒性和語(yǔ)音識(shí)別服務(wù)的體驗(yàn)。
[0012]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0013]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0014]圖1是本發(fā)明一個(gè)實(shí)施例的語(yǔ)音信號(hào)的處理方法的流程圖;
[0015]圖2是本發(fā)明一個(gè)具體實(shí)施例的語(yǔ)音信號(hào)的處理方法的流程圖;
[0016]圖3是本發(fā)明另一個(gè)具體實(shí)施例的語(yǔ)音信號(hào)的處理方法的流程圖;
[0017]圖4是本發(fā)明一個(gè)實(shí)施例的語(yǔ)音信號(hào)的處理裝置的結(jié)構(gòu)示意圖;
[0018]圖5是本發(fā)明一個(gè)具體實(shí)施例的語(yǔ)音信號(hào)的處理裝置的結(jié)構(gòu)示意圖;
[0019]圖6是本發(fā)明另一個(gè)實(shí)施例的語(yǔ)音信號(hào)的處理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0021 ]此外,術(shù)語(yǔ)“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括一個(gè)或者更多個(gè)該特征。在本發(fā)明的描述中,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上,除非另有明確具體的限定。
[0022]流程圖中或在此以其他方式描述的任何過(guò)程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過(guò)程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來(lái)執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0023]下面參考附圖描述根據(jù)本發(fā)明實(shí)施例的語(yǔ)音信號(hào)的處理方法和裝置。
[0024]一種語(yǔ)音信號(hào)的處理方法,包括以下步驟:a、采集噪聲樣本信號(hào);b、根據(jù)噪聲樣本信號(hào)對(duì)預(yù)存的純凈語(yǔ)音樣本信號(hào)進(jìn)行處理,得到具有噪聲的噪聲語(yǔ)音樣本信號(hào);C、根據(jù)噪聲語(yǔ)音樣本信號(hào)和純凈語(yǔ)音樣本信號(hào)訓(xùn)練語(yǔ)音模型。
[0025]圖1是本發(fā)明一個(gè)實(shí)施例的語(yǔ)音信號(hào)的處理方法的流程圖。
[0026]如圖1所示,語(yǔ)音信號(hào)的處理方法包括以下步驟:
[0027]SlOl,采集噪聲樣本信號(hào)。
[0028]具體地,采集在語(yǔ)音識(shí)別過(guò)程中可能出現(xiàn)的場(chǎng)景噪聲以作為噪聲樣本信號(hào),其中,場(chǎng)景噪聲可以是在多個(gè)不同場(chǎng)景下采集得到,例如,采集汽車行駛過(guò)程中的車載噪聲、采集在餐廳產(chǎn)生的人群噪聲、或者采集其他人群密集的地方產(chǎn)生的人群噪聲等作為噪聲樣本信號(hào)。進(jìn)而,采集的噪聲樣本信號(hào)越多,在不同環(huán)境下對(duì)采集的語(yǔ)音信號(hào)進(jìn)行處理的精確度就越高,語(yǔ)音識(shí)別的準(zhǔn)確率就越高。
[0029]S102,根據(jù)噪聲樣本信號(hào)對(duì)預(yù)存的純凈語(yǔ)音樣本信號(hào)進(jìn)行處理,得到具有噪聲的噪聲語(yǔ)音樣本信號(hào)。
[0030]其中,純凈語(yǔ)音樣本信號(hào)為安靜環(huán)境下的語(yǔ)音樣本信號(hào),即不包含噪聲信號(hào)的語(yǔ)音信號(hào)。也就是說(shuō),通過(guò)采集的噪聲樣本信號(hào)對(duì)安靜環(huán)境下的語(yǔ)音樣本信號(hào)進(jìn)行加噪處理,以得到噪聲環(huán)境下的語(yǔ)音樣本信號(hào),即噪聲語(yǔ)音樣本信號(hào)。
[0031]應(yīng)當(dāng)理解的是,對(duì)純凈語(yǔ)音樣本信號(hào)進(jìn)行加噪處理可以采用現(xiàn)有的處理方法,為了避免冗余,此處不再?gòu)?fù)贅。
[0032]S103,根據(jù)噪聲語(yǔ)音樣本信號(hào)和純凈語(yǔ)音樣本信號(hào)訓(xùn)練語(yǔ)音模型。
[0033]在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)噪聲語(yǔ)音樣本信號(hào)和純凈語(yǔ)音信號(hào)訓(xùn)練語(yǔ)音模型還包括:提取噪聲語(yǔ)音樣本信號(hào)和純凈語(yǔ)音樣本信號(hào)的聲學(xué)特征,并建立噪聲語(yǔ)音樣本信號(hào)的聲學(xué)特征與純凈語(yǔ)音樣本信號(hào)的聲學(xué)特征的映射關(guān)系。
[0034]具體地,可以通過(guò)提取噪聲語(yǔ)音樣本信號(hào)和純凈語(yǔ)音樣本信號(hào)的聲學(xué)特征,并通過(guò)回歸神經(jīng)網(wǎng)絡(luò)建立噪聲語(yǔ)音樣本信號(hào)的聲學(xué)特征到純凈語(yǔ)音樣本信號(hào)的聲學(xué)特征的映射,以得到語(yǔ)音模型。
[0035]在語(yǔ)音識(shí)別過(guò)程中,由于語(yǔ)音模型是基于噪聲語(yǔ)音樣本信號(hào)獲得,因此能夠?qū)⒃肼暛h(huán)境下的語(yǔ)音信號(hào)映射成安靜環(huán)境下的語(yǔ)音信號(hào),從而準(zhǔn)確識(shí)別出噪聲環(huán)境下的語(yǔ)音信號(hào),提高了語(yǔ)音識(shí)別