語音識別評價裝置和語音識別評價方法

文檔序號：2831330閱讀：270來源：國知局

專利名稱：語音識別評價裝置和語音識別評價方法
技術領域：
本發(fā)明涉及對識別聲音用的語音識別裝置的性能實施評價的語音識別評價裝置、語音識別評價方法和語音識別評價程序。
背景技術：
在語音識別裝置的開發(fā)過程中，對語音識別裝置是否能夠發(fā)揮所期待的性能進行評價是必不可少的。對語音識別裝置的性能評價，可以按照將在各種各樣條件下錄音獲得的語音數(shù)據(jù)輸入至語音識別裝置，對語音識別裝置的識別結果進行分析處理的方式進行。如果舉例來說，對語音識別裝置的識別率進行分析處理，可以獲知語音識別裝置能夠發(fā)揮良好性能的條件，并且可以獲知在這些條件下的具體性能、即作為識別率的數(shù)值(例如，參見非專利文獻1)。而且，對于語音識別裝置不能發(fā)揮出如所期待的性能的場合，也可以通過對錯誤識別結果的變化走向進行分析處理，對語音識別裝置不能發(fā)揮出如所期待的性能的原因進行詳細探索，進而還可以將這些原因在進行性能改善時加以利用。
對語音識別裝置進行評價時的評價項目中包含的內(nèi)容是多種多樣的，典型的為下述三種。即，(1)與語音識別裝置可以接收的語匯集相關的變化量(variation)，(2)由說話者導致的變化量(說話者的性別、說話者的說話速度、說話者的聲音高度、其他原因(說話者的語調(diào)風格、訛音等等))，(3)由環(huán)境導致的變化量(周圍的噪音、麥克風的特性、其他原因(傳送系統(tǒng)的特性等等))。對語音識別裝置的評價，是針對上述例舉的各種各樣的評價項目，將條件不同的多個語音數(shù)據(jù)輸入至語音識別裝置，對語音識別裝置相對各個項目的變化量是否表現(xiàn)出良好性能實施確認。理想的語音識別裝置能夠在任意的條件下均表現(xiàn)出良好性能，相對條件改變時的性能差異小。
在對語音識別裝置實施評價時，可以按照不同的視角對上述評價項目實施劃分。對語音識別裝置實施評價的視角有許多，具有代表性的為以下兩種。(1)針對不同評價項目對語音識別裝置的全部性能進行研究(比如說參見非專利文獻2)。對于對語音識別裝置的基本性能進行評價的場合，需要針對所有評價項目對語音識別裝置實施評價。(2)對某些特定條件下的語音識別裝置的性能進行研究。對于對特定用途的語音識別裝置的性能進行評價的場合，不考慮該用途涉及的變化量，即在排除可以被固定的評價項目的條件下，相對其他評價項目的變化量對語音識別裝置進行性能調(diào)研。如果舉例來說，在對“語音識別裝置可以接受的語匯集進行固定”且“男性說話者專用”的語音識別裝置進行評價時，是在語匯集和說話者性別保持固定的條件下，相對其他評價項目的變化量對語音識別裝置進行性能調(diào)研的。一般說來，語音識別裝置的用途不同，需要評價的項目也不同。
從如上說明的視角對語音識別裝置實施評價的方法如下所述。(1)對于針對各種各樣的評價項目對語音識別裝置的全部性能進行研究的場合，需要針對全部評價項目，準備出能夠充分覆蓋這些變化量的大規(guī)模評價用語音數(shù)據(jù)集。在針對評價用語音數(shù)據(jù)集的每個評價項目的變化量實施調(diào)研的基礎上，依據(jù)語音識別裝置的識別結果，利用諸如統(tǒng)計方法等等對與這些變化量對應的識別性能實施求解，從而可對每個評價項目的性能實施調(diào)研。(2)對于在某些特定條件下對語音識別裝置的性能進行調(diào)研的場合，需要準備出能夠覆蓋在這些特定條件下應考慮的評價項目變化量的評價用語音數(shù)據(jù)集，或是需要進行重新收錄。特別是對于對語音識別裝置可以接收的語匯集的設計實施變更的場合，需要對包含在語匯集中的語匯進行發(fā)聲所獲得的語音數(shù)據(jù)重新進行收錄。在對評價數(shù)據(jù)集的每一評價項目的變化量實施調(diào)研的基礎上，利用諸如統(tǒng)計方法等等對與這些變化量對應的識別性能實施求解，能夠對某些特定條件下的每個評價項目的性能實施調(diào)研。
非專利文獻1寺鳥立太及其他人，“依據(jù)HMM語音合成的語音識別性能預測方法”，日本音響學會演講論文集2003年3月，pp159-pp160非專利文獻松井、內(nèi)藤及其他人，“考慮到地域和年齡的廣泛分布的大規(guī)模日本語語音數(shù)據(jù)庫”，日本音響學會演講論文集1999年秋季，pp169-pp170如前所述，為了能夠對語音識別裝置實施評價，必須要準備出與評價視角相對應的評價用語音數(shù)據(jù)集。然而，準備這種評價用語音數(shù)據(jù)集用的語音數(shù)據(jù)庫的收錄，是需要花費相當多的時間和費用的。
首先，(1)對于針對各種各樣的評價項目對語音識別裝置的全部性能進行調(diào)研的場合，構筑能夠覆蓋全部評價項目變化量的大規(guī)模評價用語音數(shù)據(jù)集的費用是相當大的。即使已經(jīng)構筑，對于需要對構筑時沒有想到的評價項目進行評價的場合，以及希望對某評價項目增加變化量的場合，均需要對評價用語音數(shù)據(jù)實施重新收錄或補充收錄，這還需要花費時間和成本。
其次，(2)即使是對于在某些特定條件下對語音識別裝置的性能進行調(diào)研的場合，對于不存在能夠覆蓋在評價的特定條件下需要考慮的評價項目變化量的評價用語音數(shù)據(jù)集的場合，也需要對語音數(shù)據(jù)實施重新收錄，這也需要花費非常大的時間和費用。采用這種方式，存在有在對語音識別裝置進行評價時，準備評價用語音數(shù)據(jù)需要花費非常多的時間和費用的問題。
可以考慮通過對已經(jīng)存在的評價用語音數(shù)據(jù)集實施人工變更，人工制作出覆蓋各種各樣評價項目變化量的評價用語音數(shù)據(jù)集的方法。對于與環(huán)境有關的評價項目(噪音、麥克風特性等等)，通過實施噪音重疊、將麥克風特性疊置在評價用語音數(shù)據(jù)上等等的處理，能夠比較容易地增加這些變化量。然而，對已經(jīng)存在的評價用語音數(shù)據(jù)中的說話速度和聲音高度實施人工變更是非常困難的，對于說話者的性別和語音內(nèi)容實施人工變更是不可能的，所以不能對這些變化量實施人工增加。因此，采用對已經(jīng)存在的評價用語音數(shù)據(jù)集實施人工變更的方法，并不能解決前述問題。

發(fā)明內(nèi)容
本發(fā)明就是針對上述現(xiàn)有技術的發(fā)明，目的就是提供一種不需要預先準備出評價用語音數(shù)據(jù)，可以容易地針對每一評價項目對語音識別裝置的性能進行評價，且能夠用比較少的時間和比較少的費用進行評價的語音識別評價裝置、語音識別評價方法和語音識別評價程序。
本發(fā)明提供的一種語音識別評價裝置，其特征在于具有獲取對語音識別裝置進行評價用的評價項目，依據(jù)該評價項目確定輸出至語音識別裝置的合成聲音的特征，并生成出評價用語音信息的語音信息生成單元；生成用來生成與所述評價用語音信息相對應的合成聲音的參數(shù)的參數(shù)生成單元；依據(jù)所述參數(shù)生成合成聲音的合成聲音生成單元；將所述合成聲音輸出至所述語音識別裝置的輸出單元；從所述語音識別裝置獲取所述語音識別裝置對所述合成聲音進行識別的識別結果的獲取單元；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價的評價單元。
而且，本發(fā)明提供的另一種語音識別評價裝置，其特征在于具有獲取對語音識別裝置進行評價的評價項目，依據(jù)該評價項目生成用來確定輸出至語音識別裝置的合成聲音的特征的評價用語音信息的語音信息生成單元；生成用來生成與所述評價用語音信息相對應的特征矢量時間序列的參數(shù)的參數(shù)生成單元；依據(jù)所述參數(shù)生成特征矢量時間序列用的時間序列生成單元；將所述特征矢量時間序列輸出至所述語音識別裝置的輸出單元；從所述語音識別裝置獲取所述語音識別裝置輸入所述特征矢量時間序列并實施識別的識別結果的獲取單元；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價的評價單元。
本發(fā)明提供的一種語音識別評價方法，其特征在于其中的步驟包括獲取對語音識別裝置進行評價用的評價項目，依據(jù)該評價項目生成用來確定輸出至語音識別裝置的合成聲音的特征的評價用語音信息；生成用來生成與所述評價用語音信息相對應的合成聲音的參數(shù)；依據(jù)所述參數(shù)生成合成聲音；將所述合成聲音輸出至所述語音識別裝置；從所述語音識別裝置獲取所述語音識別裝置輸入所述合成聲音并實施識別的識別結果；參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價。
而且，本發(fā)明提供的另一種語音識別評價方法，其特征在于其中的步驟包括獲取對語音識別裝置進行評價的評價項目，依據(jù)該評價項目生成用來確定輸出至語音識別裝置的合成聲音的特征的評價用語音信息；生成用來生成與所述評價用語音信息相對應的特征矢量時間序列的參數(shù)；依據(jù)所述參數(shù)生成特征矢量時間序列；將所述特征矢量時間序列輸出至所述語音識別裝置；從所述語音識別裝置獲取所述語音識別裝置輸入所述特征矢量時間序列并實施識別的識別結果；參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價。
根據(jù)本發(fā)明的語音識別評價裝置和語音識別評價方法，不需要準備評價用語音數(shù)據(jù)，而且可以使用比較少的時間和比較少的費用針對每一評價項目容易地對語音識別裝置的性能進行評價。

圖1為表示作為本發(fā)明實施例1的語音識別評價裝置用的方框圖。
圖2為表示作為本發(fā)明實施例1的語音識別評價方法用的流程圖。
圖3為表示圖1中的評價項目設定部和識別結果解析部用的方框圖。
圖4為表示儲存在圖3所示的音質(zhì)評價項目變化量處的信息的圖。
圖5為表示相對圖4所示的每一變化量由如圖1所示的聲音合成參數(shù)生成部生成出的聲音合成參數(shù)用的示意圖。
圖6為表示依據(jù)如圖5所示的參數(shù)由識別結果解析部實施了分析處理的分析結果的圖。
圖7為表示作為本發(fā)明實施例2的語音識別評價裝置的方框圖。
圖8為表示作為本發(fā)明實施例3的語音識別評價裝置的方框圖。
圖9為表示圖8中的評價項目設定部和識別結果解析部的方框圖。
圖10為表示對如圖8所示的解析結果提示部向使用者提示的分析結果的圖。
圖11為表示作為本發(fā)明實施例4的語音識別評價裝置的方框圖。
圖12為表示圖11中的評價項目設定部和識別結果解析部的方框圖。
圖13為表示如圖11所示的解析結果提示部向使用者提示的分析結果的圖。
圖14為表示作為本發(fā)明實施例5的語音識別評價裝置用的方框圖。
圖15為表示圖14中的評價項目設定部和識別結果解析部的方框圖。
圖16為表示對如圖14所示的解析結果提示部向使用者提示的分析結果的圖。
具體實施例方式
下面參考附圖，對作為本發(fā)明實施例的語音識別評價裝置、語音識別評價方法和語音識別評價程序進行說明。本發(fā)明的實施例提供的是利用從聲音合成部輸出的合成聲音對語音識別裝置進行評價的裝置。聲音合成部滿足下述條件。通過對參數(shù)進行調(diào)整，可以輸出能夠覆蓋任意語匯集的變化量的合成聲音、對覆蓋由說話者導致的評價項目變化量的合成聲音。通過將這種聲音合成部輸出的合成聲音作為評價用語音數(shù)據(jù)集使用，可以針對任意評價項目，對語音識別裝置的性能進行評價。下面，對本發(fā)明的實施例進行更詳細的說明。
(實施例1)
下面參考附圖1，對作為本實施例的語音識別評價裝置的各裝置部分進行說明。圖1為表示作為本發(fā)明實施例1的語音識別評價裝置的方框圖。
評價項目設定部11接收使用者給出的對語音識別裝置的評價項目實施的指定。評價項目是對由語音識別裝置獲取到的各種各樣形式的聲音，是否能夠作為不同的聲音實施識別進行評價的項目。如果舉例來說，評價項目有音質(zhì)信息、語匯信息、是否有語音停滯和不需要語言插入的信息、發(fā)出聲音時的感情信息。音質(zhì)信息包括諸如說話者的性別、說話者的說話速度(語速)、說話者的聲音高度、說話者語調(diào)等等。在本實施例中，作為評價項目使用評價用語音信息的說話者的性別、說話速度、聲音高度這三點進行說明。針對語匯信息的內(nèi)容利用實施例3進行說明，針對是否存在有語音停滯和不需要語言插入的信息的內(nèi)容利用實施例4進行說明，針對發(fā)出聲音時的感情信息的內(nèi)容利用實施例5進行說明。但是，作為本發(fā)明實施例的語音識別評價裝置并不僅限于這些評價項目，還可以使用其他評價項目。
聲音合成參數(shù)生成部12針對由評價項目設定部11指定的每一評價項目變化量，生成出與該變化量相對應的聲音合成參數(shù)。該聲音合成參數(shù)是用來生成與各變化量相對應的合成聲音的參數(shù)。對于與某評價項目相對應的聲音合成參數(shù)，通過生成出與評價項目變化量相對應的聲音合成參數(shù)的設定值的方式，實施聲音合成參數(shù)的生成。聲音合成參數(shù)的生成還將在后面參考附圖5、以具體實例方式舉例進行詳細說明。
聲音合成部13依據(jù)從聲音合成參數(shù)生成部12輸出的聲音合成參數(shù)，進行聲音合成處理。聲音合成處理是按照所輸入的聲音合成參數(shù)設定值的每種組合形式，對包含在評價項目設定部11預先儲存的標準語匯集(如后所述的圖3中參考標號113表示的部分)中的全部語匯實施讀音，而實現(xiàn)聲音合成的。隨后，聲音合成部13將合成聲音輸出至合成聲音輸出部14處。
合成聲音輸出部14將聲音合成部13生成出的合成聲音，輸出至作為評價對象的語音識別裝置。語音識別裝置對所輸入的合成聲音實施識別處理。識別結果獲取部15獲取與從合成聲音輸出部14輸出的合成聲音相對應的語音識別裝置的識別結果，并輸出至識別結果解析部16。
識別結果解析部16輸入由識別結果獲取部15給出的語音識別裝置的識別結果和由評價項目設定部11輸出的評價項目，并且對與評價項目設定部11指定的評價項目相對應的語音識別裝置的性能實施分析處理。識別結果解析部16判斷所輸入的識別結果是正確解還是非正確解，并且對該判斷結果依次保存。在這時，對與所輸入的識別結果相對應的評價項目和與該變化量相關的信息與識別結果一并實施保存。聲音合成部13在與聲音合成參數(shù)生成部12輸出的聲音合成參數(shù)集相對應的全部合成聲音的輸出結束時，獲得與其相對應的、由語音識別裝置給出的全部識別結果，隨后識別結果解析部16利用統(tǒng)計方式，對由評價項目設定部11指定的評價項目對語音識別裝置的性能進行分析處理。識別結果解析部16還將該分析處理結果輸出至解析結果提示部17處。
解析結果提示部17向使用者提示出由識別結果解析部16輸出的分析處理結果。解析結果提示部17通過調(diào)整為使用者容易觀察的形式，對所輸入的分析處理結果實施提示。
下面參考圖2，對如圖1所示的語音識別評價裝置的運行方式進行說明。圖2為表示作為本發(fā)明實施例1的語音識別評價方法的流程圖。
首先，評價項目設定部11從使用者接收語音識別裝置的評價項目的指定。評價項目設定部11將評價用聲音信息輸出至聲音合成參數(shù)生成部12。聲音合成參數(shù)生成部12根據(jù)評價用聲音信息生成出聲音合成參數(shù)，并且將聲音合成參數(shù)輸出至聲音合成部13。聲音合成部13根據(jù)聲音合成參數(shù)生成出合成聲音，并且將合成聲音輸出至合成聲音輸出部14。合成聲音輸出部14將合成聲音輸出至語音識別裝置，由語音識別裝置對合成聲音實施識別。語音識別裝置對合成聲音實施識別的識別結果由識別結果獲取部15獲取，并且將識別結果輸出至識別結果解析部16。識別結果解析部16對該識別結果實施分析處理。換句話說就是，參照步驟S1的評價項目和識別結果，針對評價項目對語音識別裝置的性能進行評價。隨后，解析結果提示部17將識別結果解析部16給出的分析處理結果提示給使用者。對分析處理結果實施提示后，由使用者判斷是否再對語音識別裝置進行評價，在進行評價的場合，返回步驟S1，改變評價項目并再次對語音識別裝置實施評價，對于不進行評價的場合，結束對語音識別裝置的評價作業(yè)。
下面參考附圖3，對如圖1所示的評價項目設定部11和識別結果解析部16進行詳細說明。圖3為表示圖1中的評價項目設定部11和識別結果解析部16的方框圖。
評價項目設定部11具有音質(zhì)評價項目輸入部111、評價用語音信息生成部112、標準評價語匯集113和音質(zhì)評價項目變化量114。
音質(zhì)評價項目輸入部111對由使用者給出的、對與音質(zhì)相關的評價項目的指定信息實施輸入，并且將與音質(zhì)相關的評價項目輸出至評價用語音信息生成部112。
評價用語音信息生成部112對于從音質(zhì)評價項目輸入部111輸入的評價項目，參照作為每一評價項目變化量信息的音質(zhì)評價項目變化量114，生成出具有相對每一評價項目的變化量的評價用語音信息。而且，評價用語音信息生成部112參考標準評價語匯集113并利用儲存在其中的語匯，生成出評價用聲音的語匯(說話內(nèi)容)。評價用語音信息生成部112還將某些音質(zhì)的語音信息和評價用聲音的語匯作為評價用語音信息，輸出至聲音合成參數(shù)生成部12。
標準評價語匯集113儲存有多個用于評價語音識別裝置的語匯。理想的是這些語匯是語音識別裝置經(jīng)常輸入且所需要的標準語匯。音質(zhì)評價項目變化量114儲存有與每一評價項目相對應的多個變化量。音質(zhì)評價項目變化量114中的內(nèi)容將在后面參考圖4進行說明。
識別結果解析部16具有識別結果正確解判斷部161和評價項目分類識別率計算部162。
識別結果正確解判斷部161輸入從評價項目設定部11中的標準評價語匯集113輸入至語音識別裝置的評價用聲音語匯，將這一語匯與通過識別結果獲取部15得到的識別結果進行比較，判斷該識別結果是正確解還是非正確解，將表示為正確解還是非正確解的信息附加在識別結果上，進而將附加有該正確解信息的識別結果輸出至評價項目分類識別率計算部162。
評價項目分類識別率計算部162參照音質(zhì)評價項目輸入部111輸出的與音質(zhì)相關的評價項目信息，針對附加有正確解或非正確解信息的識別結果按照評價項目類別，求出該每一變化量的識別率和其平均值、分散值。在本實施例中分別對于“說話者的性別”、“說話速度”、“聲音高度”這些項目，由評價項目分類識別率計算部162求出每個評價項目變化量的識別率和其平均值、分散值，下面還將參考圖6對其進行詳細說明。隨后，評價項目分類識別率計算部162將這些識別率和平均值、分散值輸出至解析結果提示部17。
下面參考附圖4，對如圖3所示的音質(zhì)評價項目變化量114的內(nèi)容進行詳細說明。圖4表示儲存在圖3所示的音質(zhì)評價項目變化量114處的信息。評價項目設定部11中的音質(zhì)評價項目變化量114，儲存有預先準備的與每一評價項目相關的變化量信息。
在如圖4所示的實例中，“說話者的性別”1141(參見圖4中的“說話者(性別)”)共有六種變化量，“說話速度”1142、“聲音高度”1143分別有五種變化量。對于這三種之外的評價項目，可以分別從各評價項目變化量中選擇出一個標準實施利用。在如圖4所示的實例中，評價項目“語調(diào)”1144存在有三種類型的變化量，然而在此僅由其中選擇出作為“標準”的一個加以利用。而且，對于語音識別裝置可以接收的語匯集(被稱為“語法”(grammar)，下面也簡單表述為“語法”)，可以利用預先儲存在標準評價語匯集113處的標準語法。因此，對于使用者指定了作為評價項目的“說話者(性別)”、“說話速度”、“聲音高度”的場合，可以對具有6*5*5＝150種變化量的評價用語音數(shù)據(jù)加以利用。評價項目設定部11將使用者指定的評價項目信息，輸出至聲音合成參數(shù)生成部12處。
下面參考圖5，對依據(jù)上述如圖4所示的變化量，將評價用語音信息生成部112生成出的評價用語音信息輸入至聲音合成參數(shù)生成部12所生成出的聲音合成參數(shù)進行說明。圖5表示了對如圖4所示的每一變化量，由聲音合成參數(shù)生成部12生成出的聲音合成參數(shù)。
在如圖5所示的實例中，評價項目“說話者(性別)”與聲音合成參數(shù)中的“模型”相對應，并且與作為評價項目“說話者(性別)”的變化量的“男性A”～“女性F”相對應地生成作為聲音合成參數(shù)“模型”的設定值的“模型A”～“模型F”。
評價項目中的“說話速度”與聲音合成參數(shù)中的“持續(xù)時間(在此指的是一個音素的平均持續(xù)時間)”相對應，并且在“0.50”～“2.00”的范圍內(nèi)，生成出與評價項目“說話速度”的變化量相對應的聲音合成參數(shù)“持續(xù)時間”的設定值。在此，聲音合成參數(shù)“持續(xù)時間”的設定值表示相對平均持續(xù)時間的比率，并且滿足設定值越小則一個音素的平均持續(xù)時間越短，即說話速度越快的關系。
評價項目中的“聲音高度”與聲音合成參數(shù)中的“音調(diào)”相對應，并且在“2.00”～“0.50”的范圍內(nèi)，生成出與評價項目“聲音高度”的變化量相對應的聲音合成參數(shù)“音調(diào)”的設定值。在此，聲音合成參數(shù)“音調(diào)”的設定值表示相對平均音調(diào)的比率，并且滿足設定值越大則音調(diào)越大，即聲音越高的關系。
對于前述三種聲音合成參數(shù)之外的參數(shù)，僅僅生成出一個與評價項目的變化量中的標準變化量相對應的設定值，并利用該設定值。在如圖5所示的實例中，僅僅對作為評價項目“語調(diào)”的變化量中的一個標準變化量，生成聲音合成參數(shù)“韻律式樣”的設定值“標準韻律式樣”。對于存在有其他評價項目、聲音合成參數(shù)的場合也一樣。在此存在有聲音合成部13的合成精度不良，在評價項目變化量的大小比較小時，無法實施再現(xiàn)的情況。為了防止這種評價項目的變化量大小受到聲音合成部13的性能限制，可以按照使聲音合成參數(shù)的設定值具有比較大的變化的方式，對其進行控制。
這樣，生成出為了生成由使用者指定的評價項目“說話者(性別)”、“說話速度”、“聲音高度”的變化量組合而成的150個評價用語音數(shù)據(jù)所必需的、由聲音合成參數(shù)“模型”、“持續(xù)時間”、“音調(diào)”的不同設定值及其他聲音合成參數(shù)的標準設定值組合形成的150個聲音合成參數(shù)集。聲音合成參數(shù)生成部12將生成出的聲音合成參數(shù)集輸出至聲音合成部13。
下面參考圖6，對于將依據(jù)如圖5所示的聲音合成參數(shù)生成部12生成出的參數(shù)生成出的合成聲音輸出至語音識別裝置，并由識別結果解析部16對所獲得的識別結果實施分析處理，并由解析結果提示部17提示出的分析處理結果進行說明。圖6為表示依據(jù)如圖5所示的參數(shù)實施分析處理的分析處理結果的示意圖。
在如圖6所示的實例中，對于由評價項目設定部11指定的各評價項目“說話者(性別)”、“說話速度”、“聲音高度”，向使用者提示出與這些變化量對應的識別率和其平均值以及與這些變化量對應的分散值。通過如圖6所示的形式對分析處理結果實施提示，可以使使用者容易地理解下述各點。換句話說就是，對于“說話者(性別)”由于男性C的識別率比其他的要低，所以可知有語音識別裝置對特定的說話者不能充分發(fā)揮其性能的情況。對于“說話速度”由于各變化量的識別率的分散值比其他評價項目大，然而說話速度越慢則識別率上升，所以語音識別裝置的性能容易受到說話速度變化的影響，當說話速度越慢(即慢慢的說話)則傾向于展示出良好的性能。對于“聲音高度”由于各變化量的識別率的分散值比其他評價項目要小的多，所以語音識別裝置的性能幾乎不會受到聲音高度的影響。通過參照識別率的平均值可知語音識別裝置的平均性能。
通過對本實施形式的說明可知，如果采用作為本實施形式的語音識別評價裝置，可以減少使用者準備評價用語音數(shù)據(jù)集所需要的時間和成本。而且，可以容易地獲知語音識別裝置相對評價項目的性能。
(實施例2)作為實施例2的語音識別評價裝置，僅聲音特征矢量合成部23和特征矢量輸出部24與實施例1的語音識別評價裝置不同。其他的構成形式與由實施例1表示出的語音識別評價裝置相同。圖7為表示作為本發(fā)明實施例2的語音識別評價裝置的方框圖。
作為實施例2的語音識別評價裝置，在聲音特征矢量合成部23中，作為輸出合成聲音的一種替代，輸出向作為評價對象的語音識別裝置輸入的特征矢量時間序列。如果舉例來說，特征矢量時間序列可以是LPC對數(shù)倒頻譜(特征量)。LPC對數(shù)倒頻譜在諸如“古井(著)的“語音信息處理”，日本森北株式會社”中有記載。聲音特征矢量合成部23將特征矢量時間序列輸出至特征矢量輸出部24。特征矢量輸出部24將所輸入的特征矢量時間序列輸出至作為評價對象的語音識別裝置處，語音識別裝置參照輸入的特征矢量時間序列進行語音識別處理。
作為實施例2的語音識別評價裝置，其特征在于聲音特征矢量合成部23和特征矢量輸出部24不輸出合成聲音，而是輸出取代合成聲音的、可輸入至作為評價對象的語音識別裝置的特征矢量時間序列。一般說來，可輸入至語音識別裝置的特征矢量時間序列有比合成聲音的數(shù)據(jù)尺寸小的傾向。因此，作為本實施形式的語音識別評價裝置，不采用合成聲音，而是采用特征矢量時間序列，由此具有能夠縮短在語音識別評價裝置和作為評價對象的語音識別裝置之間輸入輸出數(shù)據(jù)所需要的時間的技術優(yōu)點。
(實施例3)作為實施例3的語音識別評價裝置，由使用者指定的評價項目與其他實施形式不同。在本實施例中，使用者為了進行評價而指定語法。由于所指定的評價項目與實施例1中的不同，所以僅評價項目設定部31和識別結果解析部36與作為實施例1的語音識別評價裝置中的不同。其他的構成形式與由實施例1表示出的語音識別評價裝置相同。圖8為作為本發(fā)明實施例3的語音識別評價裝置的方框圖。
評價項目設定部31對語音識別裝置的評價項目中的“語音識別裝置可以接受的語法”實施接收。同時，使用者對進行語音識別裝置評價用的語法實施輸入。在此，以輸入了由“電源導通”、“電源斷開”這兩個語匯構成的語法的場合為例進行說明。評價項目設定部31對評價項目“語法”之外的評價項目變化量實施全部選擇，并將這些信息輸出至聲音合成參數(shù)生成部12。
識別結果解析部36判斷所輸入的識別結果是正確解還是非正確解，并且對該判斷結果依次保存。識別結果解析部36對于包含在由評價項目設定部11指定的語法內(nèi)的語匯，對某一語匯是否被錯誤識別為諸如其他語匯進行分析處理。識別結果解析部36將該分析處理結果輸出至解析結果提示部17。
下面參考附圖9，對評價項目設定部31和識別結果解析部36進行詳細說明。圖9為表示圖8中的評價項目設定部31和識別結果解析部36用的示意性方框圖。
評價項目設定部31具備評價語匯輸入部311、評價用語音信息生成部312和音質(zhì)評價項目變化量313。
評價語匯輸入部311從使用者輸入與語法相關的評價項目的指定，并且將與語法相關的評價項目輸出至評價用語音信息生成部312。
評價用語音信息生成部312對于從評價語匯輸入部311輸入的評價項目，以作為每一音質(zhì)評價項目的變化量信息的音質(zhì)評價項目變化量313作為參考，生成出具有每一評價項目變化量的評價用語音信息。
音質(zhì)評價項目變化量313儲存有與每一評價項目相對應的多個變化量。音質(zhì)評價項目變化量313中的內(nèi)容在上面已經(jīng)參考圖4進行過說明。
識別結果解析部36具有識別結果正確解判斷部361、評價語匯分類錯誤率計算部362。
識別結果正確解判斷部361對輸入至評價項目設定部31的評價語匯輸入部311處的評價語匯實施輸入，將該語匯與通過識別結果獲取部15獲得的識別結果進行比較，判斷該識別結果是正確解還是非正確解，將表示為正確解還是非正確解的信息附加在識別結果上，進而將附加有該正確解信息的識別結果輸出至評價語匯分類錯誤率計算部362處。
評價語匯分類錯誤率計算部362以從評價語匯輸入部311輸出的評價語匯信息作為參考，對于附加有正確解或非正確解的信息的識別結果，按照評價項目類別求出每個變化量的錯誤頻度，這一點將在后面參考圖10進行詳細說明。隨后，評價語匯分類錯誤率計算部362將錯誤頻度輸出至解析結果提示部17。
下面，以作為語音識別裝置的評價項目的、語音識別裝置可接受的語法是由“電源導通”、“電源斷開”這兩個語匯構成的語法的場合為例，對本實施形式進行詳細說明。
首先，使用者從由評價項目設定部31提示出的語音識別裝置的評價項目中，選擇“語音識別裝置可以接受的語法”。同時，使用者將語音識別裝置評價用的語法輸入至評價語匯輸入部311。
評價用語音信息生成部312對于由評價語匯輸入部311指定的語法，參照作為每一音質(zhì)評價項目的變化量信息的音質(zhì)評價項目變化量313，生成出具有儲存在音質(zhì)評價項目變化量313處的全部音質(zhì)評價項目變化量的評價用語音信息。換句話說就是，對于包含在語法中的每個單詞，生成出包含儲存在音質(zhì)評價項目變化量313處的“說話者(性別)”、“說話速度”、“聲音高度”和“語調(diào)”的全部變化量的評價用語音信息。
評價項目設定部31將評價用語音信息輸出至聲音合成參數(shù)生成部12。聲音合成參數(shù)生成部12生成出與每個評價項目的變化量相對應的聲音合成參數(shù)。
聲音合成參數(shù)生成部12對于除輸入的評價項目中的“語法”之外的每一評價項目的變化量，生成出與變化量相對應的聲音合成參數(shù)。聲音合成參數(shù)的生成方式與實施例1中的方式相同。聲音合成參數(shù)生成部12將所生成出的聲音合成參數(shù)集和由使用者輸入的語法，輸出至聲音合成部13處。
聲音合成部13依據(jù)所輸入的聲音合成參數(shù)實施聲音合成處理。在這時，對包含在使用者通過評價項目設定部11輸入的語法中的全部語匯實施讀音，而實施聲音合成。在前述的實例中，針對全部聲音合成參數(shù)的設定值的每個組合，對“電源導通”、“電源斷開”這兩個發(fā)聲聲音實施合成處理。聲音合成部13將合成聲音輸出至合成聲音輸出部14處。
合成聲音輸出部14將合成聲音輸出至作為評價對象的語音識別裝置處。語音識別裝置對所輸入的合成聲音實施識別處理。識別結果獲取部15取得由作為評價對象的語音識別裝置輸出的識別結果，并輸出至識別結果解析部36。
識別結果解析部36判斷所輸入的識別結果是正確解還是非正確解，并且對該判斷結果依次保存。識別結果解析部36對于包含在由評價項目設定部11指定的語法中的語匯，分析某一語匯是否被錯誤識別為諸如某一語匯。識別結果解析部36將該分析處理結果輸出至解析結果提示部17。
在該實例中，對于表示在圖10中上部分處的、包含在語法中的“電源導通”、“電源斷開”這些單詞，求出將“電源導通”錯誤識別為“電源斷開”的頻度以及將“電源斷開”錯誤識別為“電源導通”的頻度。圖10是表示由評價語匯分類錯誤率計算部362計算出的分析處理結果，即解析結果提示部17提示給使用者的分析處理結果的圖。
解析結果提示部17按照容易被使用者觀察的方式對所輸入的分析處理結果實施整形，并向使用者實施提示。這一實例顯示在圖10中的上部分處。在如圖10的上部分所示的實例中，對于包含在評價項目設定部31指定的語法中的語匯，向使用者提示被錯誤識別時的語匯和頻度。該頻度為相對語匯的總發(fā)聲數(shù)的錯誤識別發(fā)聲數(shù)。通過采用如圖10所示的形式向使用者提示分析處理結果，使用者可以容易地獲知哪個語匯具有容易被錯誤識別為哪個語匯的傾向、這樣的錯誤識別的發(fā)生頻度。如果舉例來說就是，正如圖10上部分所示的那樣，可以容易地了解到語匯“電源導通”具有比較強的被錯誤地識別為“電源斷開”的傾向(出現(xiàn)的可能性)，而相反方向則不存在這種問題。
使用者可以根據(jù)解析結果提示部17提示出的分析處理結果變更語法，而不改變除語法之外的其他條件，再次進行直到前述步驟的處理。作為進行這種處理的一個實例，在圖10中的下部分處，表示了將語法變更為由“電源接入”、“電源關斷”這兩個語匯構成的語法，并再次進行直到前述步驟的處理時，由解析結果提示部17給出的輸出結果。由如圖10中下部分的分析處理結果可知，如圖10中上部分表示的特定錯誤識別傾向不再存在，對全部語匯具有相同頻度的錯誤識別率。通過對圖10中的上側部分和下側部分(即進行語法修正之前和修正之后)的分析處理結果進行比較，使用者可以容易地獲知與采用如圖10中上部分處所示的語法相比，采用如圖10中下部分處所示的語法將不會出現(xiàn)特定錯誤識別傾向的情況。
如圖10所示，通過分別采用兩個不同的語法得到語音識別裝置的性能分析處理結果，并且對該結果獲得的兩個分析處理結果進行比較，可以容易地理解在兩個語法間的錯誤傾向間的差異。在如圖10所示的實例中，使用者可以容易地獲知與采用由“電源導通”、“電源斷開”這兩個單詞構成的語法的場合相比，在采用由“電源接入”、“電源關斷”這兩個單詞構成的語法場合下，可以減小錯誤率出現(xiàn)的可能性。
如果采用作為本實施例的語音識別評價裝置，使用者可以容易地獲知對于語音識別裝置可以接受的語法，是否存在有特定的錯誤識別傾向。而且，還可以容易地對與多個語法對應的語音識別裝置的識別結果進行比較。
(實施例4)作為實施例4的語音識別評價裝置，由使用者指定的評價項目與其他實施例不同。在本實施例中，使用者可以選擇是否將可能出現(xiàn)在人類真實發(fā)聲中的語音停滯和不需要的插入語，包含在評價用數(shù)據(jù)集中。由于所指定的評價項目與實施例1中的不同，所以僅評價項目設定部41和識別結果解析部46與作為實施例1的語音識別評價裝置中的不同。其他的構成形式與由實施例1表示出的語音識別評價裝置相同。圖11為表示作為本發(fā)明實施例4的語音識別評價裝置的方框圖。
評價項目設定部41接受作為語音識別裝置的評價項目的、在人類真實發(fā)聲中存在的語音停滯和不需要的插入語。而且，可以針對語法，指定語音停滯和不需要的插入語的開始位置及其內(nèi)容。如果舉例來說，可以按照在單詞“接入”之前插入語音停滯、在單詞“電源”和單詞“關斷”之間插入不需要用語“啊～哎”的方式實施指定。對于未指定語音停滯和不需要插入語的開始位置和相應內(nèi)容(比如說“啊～哎”等等)的場合，評價項目設定部41從預先儲存的語音停滯和不需要語言的式樣一覽表中進行適當?shù)倪x擇，并將其插入到語法中所需要的任何位置處?？梢噪S機地決定插入位置及其內(nèi)容，也可以預先存儲在語法中容易產(chǎn)生語音停滯和不需要的插入語的位置和與其內(nèi)容相關的統(tǒng)計信息，并且由這些信息決定其插入位置和內(nèi)容。
識別結果解析部46判斷所輸入的識別結果是正確解還是非正確解，并且對該判斷結果依次保存。識別結果解析部46對于包含在由評價項目設定部41指定的語法中的語匯，對某一語匯是否被錯誤識別為諸如某一語匯進行分析處理。識別結果解析部46將該分析處理結果輸出至解析結果提示部17。
下面參考附圖12，對評價項目設定部41和識別結果解析部46進行詳細說明。圖12為表示圖11中的評價項目設定部41和識別結果解析部46用的方框圖。
評價項目設定部41具有評價語匯輸入部411、不需要語插入部412、評價用語音信息生成部413和音質(zhì)評價項目變化量414。
評價語匯輸入部411從使用者接受對語音識別裝置可以接受的語法實施指定的信息。不需要語插入部412生成插入有不需要語的語法和未插入的語法，并且將這些語法作為評價語匯輸出至評價用語音信息生成部413處。不需要語插入部412對未包含在語法中但在人類真實發(fā)聲中出現(xiàn)可能性高的、諸如“啊～哎”等發(fā)音和諸如語音停滯等不需要語的發(fā)聲內(nèi)容、語法中不需要語的插入位置實施指定。
評價用語音信息生成部413對于從不需要語插入部412輸入的評價項目，參照作為每一音質(zhì)評價項目的變化量信息的音質(zhì)評價項目變化量414，生成出具有每一評價項目的變化量的評價用語音信息。
音質(zhì)評價項目變化量414儲存有與每一評價項目相對應的多個變化量。音質(zhì)評價項目變化量414的內(nèi)容與通過實施例3說明的音質(zhì)評價項目變化量313相同。
而且，識別結果解析部46具有識別結果正確解判斷部461和不需要語有無分類錯誤率計算部462。
識別結果正確解判斷部461將輸入至評價項目設定部41的評價語匯輸入部411處的評價語匯作為輸入，將該語匯與由識別結果獲取部15獲得的識別結果進行比較，判斷該識別結果是正確解還是非正確解，將表示正確解還是非正確解的信息附加在識別結果上，進而將附加有該正確解信息的識別結果輸出至不需要語有無分類錯誤率計算部462處。
不需要語有無分類錯誤率計算部462參照從評價語匯輸入部411和不需要語插入部412分別輸出的評價語匯和不需要語的內(nèi)容、不需要語的插入位置的信息，對附加有正確解或非正確解的信息的識別結果，按照評價項目分類地求出其每一變化量的錯誤頻度，這一點將在后面參考圖13進行詳細說明。隨后，不需要語有無分類錯誤率計算部462將錯誤率輸出至解析結果提示部17。
下面，對本實施形式的整體動作流程進行說明。
評價項目設定部41將使用者指定的評價項目和語法、與語音停滯和不需要語的插入位置及其內(nèi)容相關的信息，一并輸出至聲音合成參數(shù)生成部12處。聲音合成參數(shù)生成部12對于所輸入的評價項目的變化量，生成出與變化量相對應的聲音合成參數(shù)。聲音合成參數(shù)生成部12將所生成出的聲音合成參數(shù)集、語法、語音停滯和不需要語的插入位置及其內(nèi)容，輸出至聲音合成部13處。
聲音合成部13依據(jù)所輸入的聲音合成參數(shù)實施聲音合成處理。在這時，在對使用者所輸入的語法，將語音停滯和不需要語插入至應該插入的位置處的基礎上，對包含在語法中的全部語匯實施讀音，而實施聲音合成。這樣，使用者可以容易地獲得插入有語音停滯和不需要語的評價用語音數(shù)據(jù)集。聲音合成部13將合成聲音輸出至合成聲音輸出部14處。
合成聲音輸出部14、識別結果獲取部15、解析結果提示部17進行與實施例1和實施例3同樣的動作。對于使用者在評價項目設定部41中指定的評價項目，可以按照與實施例1相同的方式動作，對于語法可以按照與實施例3相同的方式動作。
而且在本實施例中，識別結果解析部46針對是否插入有語音停滯和不需要語對語音識別裝置的性能實施分析處理，解析結果提示部17按照容易被使用者觀察的方式對該分析處理結果實施整形，并向使用者實施提示。這一實例顯示在圖13中。圖13為表示由不需要語有無分類錯誤率計算部462計算求解出的以有無不需要語分類的錯誤識別率的示意圖。通過采用如圖13所示的形式向使用者提示分析處理結果，使用者可以容易地獲知相對是否插入有語音停滯和不需要語的語音識別裝置的性能變動狀況。例如在如圖13表示的實例中，對于插入有語音停滯和不需要語的場合，作為評價對象的語音識別裝置的性能將大幅度降低。
一般說來，人類發(fā)音者難以有意識地進行語音停滯和不需要語的插入，然而采用作為本實施例的語音識別評價裝置，可以用少的時間和成本，容易地獲得插入有語音停滯和不需要語的評價用語音數(shù)據(jù)集。此外，通過使用本實施例的語音識別評價裝置，使用者可以容易地獲知在人類真實發(fā)聲中可能出現(xiàn)的語音停滯和不需要語言的插入條件下，語音識別裝置可以發(fā)揮出怎樣的良好的識別性能。
(實施例5)作為實施例5的語音識別評價裝置，由使用者指定的評價項目與其他實施例不同。在本實施例中，可以選擇是否將發(fā)出聲音時的感情信息包含在評價用數(shù)據(jù)集中。人們通常希望發(fā)出的聲音隨著感情的變化也產(chǎn)生變化。采用本實施例，可以提供出一種能夠對與相應于感情變化的發(fā)聲相關的語音識別裝置性能進行評價的語音識別評價裝置。由于所指定的評價項目與實施例1中的不同，所以僅評價項目設定部51和識別結果解析部56與作為實施例1的語音識別評價裝置中的不同。其他的構成形式與由實施例1表示出的語音識別評價裝置相同。圖14為表示涉及本發(fā)明實施例5的語音識別評價裝置用的方框圖。
評價項目設定部51接受作為語音識別評價裝置的評價項目的、表示人類發(fā)出聲音時的感情信息。使用者指定評價用語音數(shù)據(jù)發(fā)聲時的感情信息。如果舉例來說，感情評價項目可以為“生氣”、“高興”、“悲哀”。評價項目設定部51將使用者指定的評價項目和語法，與發(fā)出聲音時的感情信息一并輸出至聲音合成參數(shù)生成部12。
識別結果解析部56判斷所輸入的識別結果是正確解還是非正確解，并且對該判斷結果依次保存。識別結果解析部56對于通過感情信息輸入部511指定的感情信息，對隨著感情相應變化的發(fā)聲能否被識別實施分析處理。識別結果解析部56將該分析處理結果輸出至解析結果提示部17。
下面參考附圖15，對評價項目設定部51和識別結果解析部56進行詳細說明。圖15為表示圖14中的評價項目設定部51和識別結果解析部56用的方框圖。
評價項目設定部51具有感情信息輸入部511、評價用語音信息生成部512、標準評價語匯集513和音質(zhì)評價項目變化量514。
感情信息輸入部511從使用者接受作為評價項目的發(fā)出聲音時的感情信息的種類的指定信息，并且將發(fā)出聲音時的感情信息種類輸出至評價用語音信息生成部512。評價用語音信息生成部512參照標準評價語匯集513和音質(zhì)評價項目變化量514，生成出評價用語音信息，并且將該評價用語音信輸出至聲音合成參數(shù)生成部12。評價用語音信息生成部512對于儲存在標準評價語匯集中的語法，參照音質(zhì)評價項目變化量，生成出具有儲存在音質(zhì)評價項目變化量處的全部音質(zhì)評價項目變化量的評價用語音信息。換句話說就是，對于包含在語法中的每個單詞，生成出具有儲存在音質(zhì)評價項目變化量中的“說話者(性別)”、“說話速度”、“聲音高度”、“語調(diào)”的全部變化量的評價用語音信息。而且，評價用語音信息生成部512參照由感情信息輸入部511輸出的發(fā)出聲音時的感情信息種類，生成出相對每種感情信息種類的上述評價用語音信息。
識別結果解析部56具有識別結果正確解判斷部561和感情信息分類識別率計算部562。
識別結果正確解判斷部561對由評價項目設定部51的標準評價語匯集513輸入至語音識別裝置的評價用聲音語匯實施輸入，將該語匯與通過識別結果獲取部15獲得的識別結果進行比較，判斷該識別結果是正確解還是非正確解，將表示正確解還是非正確解的信息附加在識別結果上，進而將附加有該正確解信息的識別結果輸出至感情信息分類識別率計算部562處。
感情信息分類識別率計算部562參照由感情信息輸入部511輸出的發(fā)出聲音時的感情信息種類，對附加有正確解或非正確解的信息的識別結果，按照感情信息種類求出相應于感情變化的發(fā)聲識別率。例如如圖16所示，分別對于“生氣”、“高興”、“悲哀”這三種感情信息，對相應于各種感情變化的發(fā)聲識別率實施求解。而且，感情信息分類識別率計算部562將相應于發(fā)出聲音時的感情種類求解出的識別率，作為相對于與發(fā)出聲音時的感情種類相對應變化的發(fā)聲的語音識別裝置的性能的分析處理結果，輸出至解析結果提示部17。
下面，對本實施例的整體動作流程進行說明。
評價項目設定部51將使用者指定的評價項目和語法，與發(fā)出聲音時的感情信息一并輸出至聲音合成參數(shù)生成部12處。聲音合成參數(shù)生成部12參照與音質(zhì)相關的信息和發(fā)出聲音時的感情信息，生成出與各項目的變化量相對應的聲音合成參數(shù)。聲音合成參數(shù)生成部12對于所輸入的評價項目的變化量，生成出與變化量相對應的聲音合成參數(shù)。在這時，利用感情聲音合成技術，與由評價項目設定部51指定的感情信息相對應地對聲音合成參數(shù)實施調(diào)整，附加上對嵌入至合成聲音中的感情實施指定的參數(shù)(感情信息參數(shù))。聲音合成參數(shù)生成部12還將所生成出的聲音合成參數(shù)集、根據(jù)需要附加的感情信息參數(shù)，輸出至可以對感情聲音實施合成的聲音合成部13處。
聲音合成部13依據(jù)所輸入的聲音合成參數(shù)和所附加的感情信息參數(shù)，對嵌入有感情的聲音實施合成處理。聲音合成部13將嵌入有感情的合成聲音輸出至合成聲音輸出部14處。
合成聲音輸出部14、識別結果獲取部15、解析結果提示部17進行與實施例1和實施例3相同的動作。對于使用者在評價項目設定部11中指定的評價項目，按照與實施例1相同的方式實施動作，對于語法按照與實施例3相同的方式實施動作。而且在本實施形式中，識別結果解析部56依據(jù)相對由使用者指定的感情種類產(chǎn)生相應變化的發(fā)聲信息，對語音識別裝置的性能進行分析處理，解析結果提示部17按照容易被使用者觀察的方式對該分析處理結果實施整形，并向使用者實施提示。這一實例顯示在圖16中。圖16為表示通過感情信息分類識別率計算部562計算求解出的識別率用的圖。通過采用如圖16所示的形式向使用者提示分析處理結果，使用者可以容易地獲知相對發(fā)出聲音時的感情信息種類產(chǎn)生相應變化的發(fā)聲信息，語音識別裝置的性能變動狀況。例如在如圖16表示的實例中，和發(fā)出聲音時的感情信息種類為“生氣”、“高興”的場合相比，當感情信息種類為“悲哀”時，作為評價對象的語音識別裝置的性能將會大幅度降低。
一般說來，人類發(fā)音者難以有意識的發(fā)出嵌入有感情的聲音，然而采用作為本實施例的語音識別評價裝置，可以容易地獲得嵌入有感情的評價用語音數(shù)據(jù)集。而且如果使用作為本實施例的語音識別評價裝置，使用者可以容易地獲知相對嵌入有感情的聲音，語音識別裝置可以發(fā)揮出怎樣的良好的識別性能。
正如上面所說明的那樣，通過本發(fā)明實施例給出的語音識別評價裝置、語音識別評價方法和語音識別評價程序，可以解決現(xiàn)有技術中對語音識別裝置進行評價時所存在的問題，即需要花費相當多的時間和相當大的成本來準備評價用語音數(shù)據(jù)集的問題。而且，可以容易地獲知語音識別裝置相對各評價項目的性能。作為本實施例給出的語音識別評價裝置，是一種對于評價語音識別裝置的使用者來說非常有用的裝置。
而且，在本發(fā)明的實施例中，依據(jù)評價者所指定的語音識別裝置的任意評價項目，自動生成出對能夠充分覆蓋評價項目變化量的合成聲音實施輸出所需要的合成聲音參數(shù)的設定值。聲音合成部使用該合成聲音參數(shù)的設定值輸出合成聲音。通過將這種合成聲音作為評價用語音數(shù)據(jù)集使用，評價者可以在幾乎不花費什么時間和成本的條件下，獲得評價用語音數(shù)據(jù)集。
而且，在本發(fā)明的實施例中，利用統(tǒng)計方式，對評價者指定的每一評價項目，對語音識別裝置輸出的識別結果進行自動分析處理，并且向評價者提示出有關這些評價基目的性能。因此，評價者僅需要對評價項目實施指定，便可以容易地獲知有關每一評價項目的語音識別裝置的性能。
而且，出現(xiàn)在上述實施例中的處理步驟所示的指令以及流程圖中各步驟所示的指令，均可以依據(jù)作為軟件的程序實施執(zhí)行。通過由通用的計算機系統(tǒng)對這種程序實施預先儲存并讀取這種程序，也可以獲得與使用作為上述實施例的語音識別評價裝置相同的技術效果。在上述實施例中所示的指令，可以作為由計算機執(zhí)行的程序，記錄在諸如磁盤(軟盤、硬盤等等)、光盤(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW等等)、半導體儲存器和類似的記錄媒體上。計算機可以從這些記錄媒體中讀取程序，并依據(jù)這些程序由CPU執(zhí)行記載在程序中的指令，從而也可以獲得與使用作為上述實施例的語音識別評價裝置相同的技術效果。
而且，本發(fā)明并不僅限于上述實施例，在實施階段還可以在不脫離本發(fā)明要點的范圍內(nèi)具體地改變其構成要素。而且，還可以通過對上述實施例公開的若干構成要素實施適當組合的方式，形成各種發(fā)明構成形式。如果舉例來說，可以從實施例所示的各構成要素中減少幾個構成要素。而且，還可以對不同實施例中的構成要素實施適當組合。
權利要求
1.一種語音識別評價裝置，其特征在于具有獲取對語音識別裝置進行評價用的評價項目，依據(jù)該評價項目確定輸出至語音識別裝置的合成聲音的特征，并生成出評價用語音信息的語音信息生成單元；生成用來生成與所述評價用語音信息相對應的合成聲音的參數(shù)的參數(shù)生成單元；依據(jù)所述參數(shù)生成合成聲音的合成聲音生成單元；將所述合成聲音輸出至所述語音識別裝置的輸出單元；從所述語音識別裝置獲取得所述語音識別裝置對所述合成聲音實施識別的識別結果的獲取單元；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價的評價單元。
2.如權利要求1所述的語音識別評價裝置，其特征在于所述語音信息生成單元具有獲取所述評價項目的獲取單元；存儲多個音質(zhì)信息的音質(zhì)儲存單元；對使所述合成聲音與語匯發(fā)聲相對應的語匯信息實施儲存的語匯儲存單元；相應于所述評價項目，從所述音質(zhì)儲存單元處選擇出音質(zhì)信息的選擇單元；以及生成包含該音質(zhì)信息和所述語匯信息的生成所述參數(shù)用的評價用語音信息的生成單元。
3.如權利要求2所述的語音識別評價裝置，其特征在于所述評價單元具有對與所述合成聲音相對應的語匯信息和所述識別結果進行比較，判斷所述識別結果是否為正確解的判斷單元；以及參照所述判斷單元的判斷結果和所述評價項目，針對評價項目的各語音信息計算識別率的計算單元。
4.如權利要求1所述的語音識別評價裝置，其特征在于所述語音信息生成單元具有作為所述評價項目，取得使所述合成聲音與語匯發(fā)聲相對應的語匯信息的獲取單元；存儲多個音質(zhì)信息的音質(zhì)儲存單元；與所述評價項目相對應地從所述音質(zhì)儲存單元中選擇音質(zhì)信息的選擇單元；以及生成包含該音質(zhì)信息和所述語匯信息的評價用語音信息的生成單元。
5.如權利要求4所述的語音識別評價裝置，其特征在于所述評價單元具有對與所述合成聲音相對應的語匯信息和所述識別結果進行比較，判斷所述識別結果是否為正確解的判斷單元；以及以所述判斷單元的判斷結果和所述評價項目作為參考，對與評價項目的各語匯信息相對應的識別率實施計算用的計算單元。
6.如權利要求1所述的語音識別評價裝置，其特征在于所述語音信息生成單元具有作為所述評價項目，取得使所述合成聲音與語匯發(fā)聲相對應的語匯信息、與包含在該語匯信息中的無意義語言和其插入位置相關的無意義語言信息的獲取單元；存儲多個音質(zhì)信息的音質(zhì)儲存單元；與所述評價項目相對應地從所述音質(zhì)儲存單元中選擇音質(zhì)信息的選擇單元；以及生成包含該音質(zhì)信息、所述語匯信息和所述無意義語言信息的評價用語音信息的生成單元。
7.如權利要求6所述的語音識別評價裝置，其特征在于所述評價單元具有對與所述合成聲音相對應的語匯信息和所述識別結果進行比較，判斷所述識別結果是否為正確解的判斷單元；以及參照所述判斷單元的判斷結果和所述評價項目，針對語匯發(fā)聲中是否插入有無意義語言計算識別率的計算單元。
8.如權利要求1所述的語音識別評價裝置，其特征在于所述語音信息生成單元具有作為所述評價項目，取得指定發(fā)聲時的感情種類用的感情信息的獲取單元；存儲多個音質(zhì)信息的音質(zhì)儲存單元；存儲使所述合成聲音與語匯發(fā)聲相對應的語匯信息的語匯儲存單元；與所述評價項目相對應地從所述音質(zhì)儲存單元中選擇音質(zhì)信息的選擇單元；以及生成包含該音質(zhì)信息和所述語匯信息的評價用語音信息的生成單元。
9.如權利要求8所述的語音識別評價裝置，其特征在于所述評價單元具有對與所述合成聲音相對應的語匯信息和所述識別結果進行比較，判斷所述識別結果是否為正確解的判斷單元；以及參照所述判斷單元的判斷結果和所述評價項目，對發(fā)聲時的每種感情種類計算識別率的計算單元。
10.一種語音識別評價裝置，其特征在于具有獲取對語音識別裝置進行評價用的評價項目，依據(jù)該評價項目生成用來確定輸出至語音識別裝置的合成聲音的特征的評價用語音信息的語音信息生成單元；生成用來生成與所述評價用語音信息相對應的特征矢量時間序列的參數(shù)的參數(shù)生成單元；依據(jù)所述參數(shù)生成特征矢量時間序列的時間序列生成單元；將所述特征矢量時間序列輸出至所述語音識別裝置的輸出單元；從所述語音識別裝置獲取出所述語音識別裝置輸入所述特征矢量時間序列并實施識別的識別結果的獲取單元；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價的評價單元。
11.如權利要求1到10任一項所述的語音識別評價裝置，其特征在于所述語音信息生成單元生成包含有因性別產(chǎn)生的音質(zhì)、說話速度、聲音高度、語調(diào)中的至少一個的評價項目，各評價項目由多個變化量構成。
12.如權利要求1到10任一項所述的語音識別評價裝置，其特征在于還進一步具有對所述評價單元的評價結果實施提示的提示單元。
13.一種語音識別評價方法，其特征在于包括下述步驟獲取對語音識別裝置進行評價用的評價項目，依據(jù)該評價項目確定輸出至語音識別裝置的合成聲音的特征，并生成出評價用語音信息；對用來生成與所述評價用語音信息相對應的合成聲音的參數(shù)實施生成；依據(jù)所述參數(shù)生成合成聲音；將所述合成聲音輸出至所述語音識別裝置；從所述語音識別裝置獲取出所述語音識別裝置輸入所述合成聲音并實施識別的識別結果；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價。
14.如權利要求13所述的語音識別評價方法，其特征在于生成所述語音信息的步驟包括獲取所述評價項目；存儲多個音質(zhì)信息；存儲使所述合成聲音與語匯發(fā)聲相對應的語匯信息；相應于所述評價項目，從所述音質(zhì)儲存單元處選擇出音質(zhì)信息；以及生成包含該音質(zhì)信息和所述語匯信息的用來生成所述參數(shù)的評價用語音信息。
15.如權利要求14所述的語音識別評價方法，其特征在于針對所述評價項目對所述語音識別裝置的性能進行評價的步驟包括對與所述合成聲音相對應的語匯信息和所述識別結果進行比較，判斷所述識別結果是否為正確解；以及參照是否為正確解的判斷結果和所述評價項目，與評價項目的各語音信息相對應地計算識別率。
16.如權利要求13所述的語音識別評價方法，其特征在于生成所述評價用語音信息的步驟包括作為所述評價項目，取得使所述合成聲音與語匯發(fā)聲相對應的語匯信息；存儲多個音質(zhì)信息；與所述評價項目相對應地選擇音質(zhì)信息；以及生成包含該音質(zhì)信息和所述語匯信息的評價用語音信息。
17.如權利要求16所述的語音識別評價方法，其特征在于針對所述評價項目對所述語音識別裝置的性能進行評價的步驟包括對與所述合成聲音相對應的語匯信息和所述識別結果進行比較，判斷所述識別結果是否為正確解；以及參照是否為正確解的判斷結果和所述評價項目，針對評價項目的各語匯信息計算識別率。
18.如權利要求13所述的語音識別評價方法，其特征在于生成所述評價用語音信息的步驟包括作為所述評價項目，取得使所述合成聲音與語匯發(fā)聲相對應的語匯信息、與包含在該語匯信息中的無意義語言和其插入位置相關的無意義語言信息；存儲多個音質(zhì)信息；與所述評價項目相對應地從所述音質(zhì)儲存單元中選擇音質(zhì)信息；以及生成包含該音質(zhì)信息、所述語匯信息和所述無意義語言信息的評價用語音信息。
19.如權利要求18所述的語音識別評價方法，其特征在于針對所述評價項目對所述語音識別裝置的性能進行評價的步驟包括對與所述合成聲音相對應的語匯信息和所述識別結果進行比較，判斷所述識別結果是否為正確解；以及參照是否為正確解的判斷結果和所述評價項目，針對語匯發(fā)聲中是否插入有無意義語言計算識別率。
20.如權利要求13所述的語音識別評價方法，其特征在于生成所述評價用語音信息的步驟包括作為評價項目，取得用來指定發(fā)聲時的感情種類的感情信息；存儲多個音質(zhì)信息；存儲使所述合成聲音與語匯發(fā)聲相對應的語匯信息；與所述評價項目相對應地從所述音質(zhì)儲存單元中選擇音質(zhì)信息；以及生成包含該音質(zhì)信息和所述語匯信息的評價用語音信息。
21.如權利要求20所述的語音識別評價方法，其特征在于針對所述評價項目對所述語音識別裝置的性能進行評價的步驟包括對與所述合成聲音相對應的語匯信息和所述識別結果進行比較，判斷所述識別結果是否為正確解；以及參照是否為正確解的判斷結果和所述評價項目，對發(fā)聲時的每種感情種類計算識別率。
22.一種語音識別評價方法，其特征在于包括下述步驟獲取對語音識別裝置進行評價用的評價項目，依據(jù)該評價項目生成用來確定輸出至語音識別裝置的合成聲音的特征的評價用語音信息；生成用來生成與所述評價用語音信息相對應的特征矢量時間序列的參數(shù)；依據(jù)所述參數(shù)生成特征矢量時間序列；將所述特征矢量時間序列輸出至所述語音識別裝置；從所述語音識別裝置獲取出所述語音識別裝置輸入所述特征矢量時間序列并實施識別的識別結果；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價。
23.如權利要求13至22中任意一項權利要求所述的語音識別評價方法，其特征在于生成所述評價用語音信息的步驟生成包含有因性別產(chǎn)生的音質(zhì)、說話速度、聲音高度、語調(diào)中的至少一個的評價項目，各評價項目由多個變化量構成。
24.如權利要求13至22中任意一項權利要求所述的語音識別評價方法，其特征在于還進一步包括對針對所述評價項目評價所述語音識別裝置的評價結果實施提示的步驟。
全文摘要
本發(fā)明提供一種不再需要預先準備評價用語音數(shù)據(jù)，可以容易地對語音識別裝置相對每一評價項目的性能進行評價，并且可以用少的時間和少的成本實施評價的技術。評價項目設定部(11)取得評價語音識別裝置用的評價項目，并依據(jù)該評價項目生成出確定輸出至語音識別裝置的合成聲音特征的評價用語音信息。聲音合成參數(shù)生成部(12)生成用來生成與評價用語音信息相對應的合成聲音的參數(shù)。聲音合成部(13)依據(jù)所述參數(shù)生成合成聲音。合成聲音輸出部(14)將合成聲音輸出至語音識別裝置。識別結果獲取部(15)從語音識別裝置取得語音識別裝置輸入合成聲音并實施識別的識別結果。識別結果解析部(16)參照評價項目和識別結果，對語音識別裝置相對該評價項目的性能進行評價。
文檔編號G10L13/00GK1619643SQ200410103890
公開日2005年5月25日申請日期2004年9月3日優(yōu)先權日2003年9月4日
發(fā)明者酒井優(yōu), 金澤博史申請人:株式會社東芝

完整全部詳細技術資料下載