一種語音識別方法及裝置的制造方法_2

文檔序號：9728467閱讀：來源：國知局

描述。
【附圖說明】
[0062]附圖用來提供對本發(fā)明的進一步理解，并且構成說明書的一部分，與本發(fā)明的實施例一起用于解釋本發(fā)明，并不構成對本發(fā)明的限制。在附圖中:
[0063]圖1為本發(fā)明實施例中一種語音識別方法的流程圖；
[0064]圖2為本發(fā)明實施例中一種語音識別方法中獲取個性化聲學特征參數(shù)的流程圖；
[0065]圖3為本發(fā)明實施例中一種語音識別方法中獲取個性化語言特征參數(shù)的流程圖；
[0066]圖4為本發(fā)明實施例中一種語音識別方法中步驟S14的流程圖；
[0067]圖5為本發(fā)明實施例中一種語音識別裝置的框圖；
[0068]圖6為本發(fā)明實施例中一種語音識別裝置的框圖；
[0069]圖7為本發(fā)明實施例中一種語音識別裝置的框圖；
[0070]圖8為本發(fā)明實施例中一種語音識別裝置中第一生成模塊的框圖；
[0071]圖9為本發(fā)明實施例中一種語音識別裝置中識別模塊的框圖。
【具體實施方式】
[0072]以下結合附圖對本發(fā)明的優(yōu)選實施例進行說明，應當理解，此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明，并不用于限定本發(fā)明。
[0073]圖1為本發(fā)明實施例提供的一種語音識別方法的流程圖。該語音識別方法用于終端中，其中，終端可以是移動電話，計算機，數(shù)字廣播終端，消息收發(fā)設備，游戲控制臺，平板設備，醫(yī)療設備，健身設備，個人數(shù)字助理等。如圖1所示，該方法包括以下步驟S11-S14:
[0074]步驟Sll，接收當前登錄的用戶輸入的語音信息。
[0075]步驟S12，根據(jù)用戶的當前登錄帳號，獲取與用戶相對應的參數(shù)配置文件，參數(shù)配置文件包括個性化聲學特征參數(shù)和個性化語言特征參數(shù)。
[0076]其中，個性化聲學特征參數(shù)包括深度神經(jīng)網(wǎng)絡、頻譜、倒頻譜、共振峰、基音和頻率倒譜系數(shù)中的至少一種參數(shù)。位于網(wǎng)絡側(cè)的服務器端存儲有每個用戶相對應的參數(shù)配置文件和通用語音模型，包括通用聲學模型和通用語言模型。
[0077]步驟S13，根據(jù)參數(shù)配置文件和預設通用語音模型，生成用戶的個性化語音模型。
[0078]在一個實施例中，預設通用語音模型包括通用聲學模型和通用語言模型。因此，該步驟可實施為:結合個性化聲學特征參數(shù)和通用聲學模型，獲得用戶的個性化聲學模型;結合個性化語言特征參數(shù)和通用語言模型，獲得用戶的個性化語言模型。
[0079]步驟S14，根據(jù)個性化語音模型，識別語音信息。
[0080]采用本發(fā)明實施例提供的技術方案，通過在用戶登錄后獲取用戶對應的參數(shù)配置文件，并根據(jù)參數(shù)配置文件和預設通用語音模型生成用戶的個性化語音模型，進而識別用戶輸入的語音信息，不僅使得終端能夠結合用戶的個性化聲學特征和語言特征來識別語音信息，從而提高語音識別的準確率，且使得服務器端無需存儲每個用戶的個性化語音模型，而只需存儲每個用戶的參數(shù)配置文件和一個通用語音模型即可，從而減輕了服務器的負載壓力。
[0081]在一個實施例中，與用戶相對應的參數(shù)配置文件是預先通過樣本語句獲取的。
[0082]如圖2所示，參數(shù)配置文件中個性化聲學特征參數(shù)的獲取方法包括以下步驟S21-S22:
[0083]步驟S21，采集用戶的樣本語音數(shù)據(jù)。
[0084]步驟S22，從樣本語音數(shù)據(jù)中獲取用戶的個性化聲學特征參數(shù)。
[0085]其中，個性化聲學特征參數(shù)包括深度神經(jīng)網(wǎng)絡、頻譜、倒頻譜、共振峰、基音和頻率倒譜系數(shù)(Mel Frequency Cepstrum Coeff icient，MFCC)中的至少一種參數(shù)。這些個性化聲學特征參數(shù)都是識別性能較好且能充分模擬人耳聽覺感知特性的參數(shù)。因此，從樣本語音數(shù)據(jù)中獲取用戶的這些個性化聲學特征參數(shù)，使得終端識別語音信息時，能夠有針對性地對每一個用戶進行個性化地識別，從而提高語音識別的準確率。
[0086]如圖3所示，參數(shù)配置文件中個性化語言特征參數(shù)的獲取方法包括以下步驟S31-S32:
[0087]步驟S31，采集預設領域的特征數(shù)據(jù)，該特征數(shù)據(jù)包括預設領域的特定術語、預設領域的文章、語義關聯(lián)關系中的至少一種。
[0088]步驟S32，根據(jù)特征數(shù)據(jù)生成個性化語言特征參數(shù)。
[0089]本實施例中，預設領域可根據(jù)用戶常用的語音命令文本確定，例如，用戶經(jīng)常使用醫(yī)學方面的語音命令文本，那么該預設領域為醫(yī)學領域，醫(yī)學領域的特征數(shù)據(jù)即為醫(yī)學方面的特定術語、文字、特定術語和文字之間的語義關聯(lián)關系等。根據(jù)特征數(shù)據(jù)生成的個性化語言特征參數(shù)中包括預設領域的特征數(shù)據(jù)，對于一些專業(yè)領域中的專業(yè)術語，例如醫(yī)學領域中的藥品名稱、醫(yī)學儀器名稱、病例中的術語等，采用通用的語言模型是無法識別出來的，因此，根據(jù)預設領域的特征數(shù)據(jù)生成個性化語言特征參數(shù)，并結合個性化語言特征參數(shù)和通用語言模型來識別語音信號，可以準確地識別出用戶輸入的語音信息。
[0090]在一個實施例中，如圖4所示，步驟S14可實施為以下步驟S41-S43:
[0091 ]步驟S41，根據(jù)個性化聲學模型，識別語音信息中的聲音信息。
[0092]步驟S42，從個性化語言模型中匹配聲音信息對應的文字。
[0093]在一個實施例中，該步驟可實施為:按照個性化語言模型中的優(yōu)先級順序，匹配聲音信息對應的文字，其中，特征數(shù)據(jù)在個性化語言模型中的優(yōu)先級最高。特征數(shù)據(jù)包括預設領域的特定術語、預設領域的文章、語義關聯(lián)關系中的至少一種。
[0094]步驟S43，將聲音信息轉(zhuǎn)化為文字。
[0095]例如，當前用戶常用的語音文本內(nèi)容屬于醫(yī)學領域，那么與該用戶對應的個性化語言模型中包括醫(yī)學領域的特征數(shù)據(jù)，用戶輸入語音信息，若根據(jù)個性化聲學模型識別出語音信息中的聲音信息包含“阿司匹林”，“阿司匹林”屬于醫(yī)學領域的專業(yè)術語，由于專業(yè)術語在個性化語言模型中的優(yōu)先級最高，因此，采用個性化語言模型，即可準確快速地匹配出聲音信息“阿司匹林”對應的文字，從而將聲音信息轉(zhuǎn)化為對應的文字內(nèi)容。
[0096]本實施例中，通過個性化聲學模型識別語音信息中的聲音信息，并通過個性化語言模型將聲音信息轉(zhuǎn)化為文字，使得終端識別語音信息時，不僅能根據(jù)通用語音模型進行識別，還能識別出用戶個性化的聲學特征及預設領域的語音內(nèi)容，提高了語音識別的準確率。
[0097]在一個實施例中，上述方法還包括以下步驟:
[0098]當檢測到用戶對當前登錄帳號的注銷操作時，釋放用戶的個性化語音模型。
[0099]本實施例中，能夠在用戶注銷帳號時釋放用戶的個性化語音模型，使得當前識別語音信息的終端無需存儲用戶的個性化語音模型，而只需在用戶每次登錄時從服務器端獲取用戶的參數(shù)配置文件即可，從而不僅能夠準確地識別出語音信息，還能避免終端存儲大數(shù)據(jù)的壓力。
[0100]此外，上述任一實施例提供的語音識別方法中，都可支持多人并發(fā)的個性化語音識別數(shù)據(jù)的使用，即，同一終端上可識別多個不同帳號的用戶輸入的語音信息，在進行識別時，終端根據(jù)輸入語音信息的用戶的帳號從服務端獲取與該用戶對應的參數(shù)配置文件和預設通用語音模型，從而生成與該用戶對應的個性化語音模型，對語音信息進行識別。當其中某一用戶的帳號被注銷時，終端就會釋放與該用戶對應的個性化語音模型，以避免終端存儲大數(shù)據(jù)的壓力。
[0101]對應于上述實施例中的語音識別方法，本發(fā)明還提供一種語音識別裝置，用以執(zhí)行上述方法。
[0102]圖5為本發(fā)明實施例中一種語音識別裝置的框圖。如圖5所示，該裝置包括:
[0103]接收模塊51，用于接收當前登錄的用戶輸入的語音信息。
[0104]第一獲取模塊52，用于根據(jù)用戶的當前登錄帳號，獲取與用戶相對應的參數(shù)配置文件，參數(shù)配置文件包括個性化聲學特征參數(shù)和個性化語言特征參數(shù)。
[0105]第一生成模塊53，用于根據(jù)參數(shù)配置文件和預設通用語音模型，生成用戶的個性化語音模型。
[0106]識別模塊54，用于根據(jù)個性化語音模型，識別語音信息。
[0107]在一個實施例中，如圖6所示，上述裝置還包括:
[0108]第一采集模塊55，用于采集用戶的樣本語音數(shù)據(jù)。
[0109]第二獲取模塊56，用于從樣本語音數(shù)據(jù)中獲取用戶的個性化聲學特征參數(shù)。
[0110]在一個實施例中，第一生成模塊53生成的個性化聲學特征參數(shù)包括深度神經(jīng)網(wǎng)絡、頻譜、倒頻譜、共振峰、基音和頻率倒譜系數(shù)中的至少一種參數(shù)。
[0111]在一個實施例中，如圖7所示，上述裝置還包括:
[0112]第二采集模塊57，用于采集預設領域的特征數(shù)據(jù)，特征數(shù)據(jù)包括預設領域的特定術語、預設領域的文章、語義關聯(lián)關系中的至少一種。
[0113]第二生成模塊58，用于根據(jù)特征數(shù)據(jù)生成個性化語言特征參數(shù)。
[0114]在一個實施例中，如圖8所示，預設通用語音模型包括通用聲學

完整全部詳細技術資料下載

當前第2頁1 2 3

相關技術