亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于標注所識別文本的部分的語音識別設備的制作方法

文檔序號:2819660閱讀:272來源:國知局
專利名稱:用于標注所識別文本的部分的語音識別設備的制作方法
技術領域
本發(fā)明涉及一種用于將口語文本轉錄成所識別文本以及用于對所識別文本的被非正確識別的部分進行編輯的轉錄設備,其中口語文本每個部分的鏈接信息標記(flag)相聯系的所識別文本。
本發(fā)明還涉及一種用于將口語文本轉錄成所識別文本以及用于編輯所述所識別文本的被非正確識別的部分的轉錄方法,其中口語文本每個部分的鏈接信息標記相聯系的所識別文本。
背景技術
這種類型的轉錄設備和轉錄這種類型的方法從專利US 5,031,113中已知,其中公開了一種聽寫設備。已知的聽寫設備由計算機形成,所述計算機運行語音識別軟件及文本處理軟件。已知聽寫設備的使用者可以對著被連接到計算機的話筒說出口語文本。形成轉錄設備的語音識別軟件執(zhí)行轉錄方法并且通過這樣做將所識別的字分配給口語文本的每個口語字,其結果是獲得口語文本的所識別文本。同樣,作為轉錄方法的一部分,鏈接信息被加以確定,即其標記針對口語文本的每個口語字而被識別的所識別文本的字。
已知的聽寫設備還包含用于自動確定和存儲標注信息的標注裝置。所識別文本的一個或更多個字可例如在這種情況下被識別為命令,所述命令例如在格式化所述所識別文本時將被執(zhí)行。因此在所識別文本中的字序列“…next word bold”可以被翻譯成用于格式化緊接在所識別文本后面的字的命令。這些已知的標注裝置被加以設置用于命令標注信息的自動確定和存儲,所述命令標注信息標注所識別文本中具有這樣公共特征的那些字序列,即它們可以被用作用于格式化所識別文本的字的命令。
已知的聽寫設備還運行文本處理軟件且因此形成校正設備,借此校正設備被非正確識別的字可以被編輯。出于這個目的,校正設備的使用者可以啟動校正設備的同步再現模式,其中口語文本從聲學上被再現,并且與此同步由鏈接信息所標記的所識別文本的字從視覺上被加亮(即被標識)。同步再現模式在實踐中已經被證實對于校正由語音識別設備所識別的文本尤其有利。
在實踐中已經發(fā)現許多使用者難以記住一命令的正確字序列。因此例如他們說“…next word should be bold”(下個字應該為粗體),但是標注裝置并沒有將這個字序列識別為命令且因此對此并不標注。當校正這個所識別文本時使用者因此必須從所識別文本中刪除整個字序列并且手動格式化緊接所述序列的字,其相當費時。還存在與同步再現模式相聯系所出現的一個缺點,即在通過這種方法已經對所識別文本加以校正之后,已經被從所識別文本中刪除的這個字序列的口語文本的鏈接信息或者指向所識別文本中非正確的字,或者根本并不指向其中的任何字,其引起任何后來的同步再現錯誤且讓使用者迷惑。

發(fā)明內容
本發(fā)明的一個目的是提供在上面首段落中所定義類型的轉錄設備以及在上面第二段落中所定義類型的轉錄方法,其中上面所說明的缺點得以避免。
為了取得上面所指示的目的,在這種類型的轉錄設備中提供根據本發(fā)明的特點,以便于所述轉錄設備可以以下面所詳細說明的方式被表征。
一種轉錄設備,其用于將口語文本轉錄成所識別文本以及用于對所識別文本的被非正確識別的部分進行編輯,其中口語文本每部分的鏈接信息標記相聯系的所識別文本,具有用于將所接收的口語文本轉錄成所識別文本且用于產生鏈接信息的語音識別裝置,以及具有用于存儲口語文本、所識別文本和鏈接信息的存儲器裝置,以及具有用于自動地確定標注信息且用于在所述存儲器裝置中存儲所確定的所述標注信息的標注裝置,所述標注信息標記具有為所有被標注的文本部分所共有的特定特征的所識別文本部分及/或口語文本部分,其中所述標注裝置具有用于手動錄入標注信息的輸入裝置,以允許也具有這個公共特征的所識別或口語文本的另外部分被標注有這個標注信息;并且具有用于統一處理被標注的文本部分的處理裝置。
為了取得上述所指示的目的,在上述類型的轉錄方法中提供根據本發(fā)明的特點,以便于所述轉錄方法可以以下面所詳細說明的方式被表征。
一種轉錄方法,其用于將口語文本轉錄成所識別文本以及用于對所識別文本的被非正確識別的部分進行編輯,其中口語文本每部分的鏈接信息標記相聯系的所識別文本,以及其中下述步驟被加以執(zhí)行將所接收的口語文本轉錄成所識別文本且產生鏈接信息;存儲口語文本、所識別文本和鏈接信息;自動確定標注信息且存儲所確定的所述標注信息,所述標注信息標記具有為所有被標注的文本部分所共有的特定特征的所識別文本部分及/或口語文本部分;手動錄入標注信息,以允許也具有這個公共特征的所識別或口語文本的另外部分被標注有這個標注信息;以及統一處理被標注的文本部分。
根據本發(fā)明的特點取得使用者能夠手動地將部分所識別文本及/或口語文本標注有下述標注信息,所述標注信息與某些另外部分的所識別文本從前可能已經被自動標注的標注信息相同。在后來的處理操作中,那些被自動或手動加以標注的具有公共特征的文本部分可以通過處理裝置以統一的方法被處理。被標注的文本部分的公共特征可例如在這種情況下是在所識別文本中被標注的字序列被分配給一命令或被標記為頭部;被標注的所識別文本部分被鏈接信息分配到包含猶豫聲音、暫停、不清楚的口語文本部分或文本的冗余部分如被重復字的口語文本部分。
結果是取得下述優(yōu)點,即已經被自動標注的文本部分可以利用手動標注被補充,這樣具有特定特征的所有被標注的口語文本部分及/或所識別文本部分可以通過統一方法在后來的處理操作中被加以處理。因此,例如,由語音識別裝置難以識別(即可能在識別中有大量錯誤)的所有文本部分以及由校正人員在同步再現模式中被手動識別為困難的所有文本部分可以通過統一方法被標注,以為了用于核查的目的使口語文本的作者參考這些被標注的文本部分。通過相同的方法,不同的序列字可被標注有這樣的標注信息,所述標注信息與標注裝置已經用以自動標注被分配有一命令的序列字的標注信息相同,結果是所述命令也被分配給這些被手動標注的文本部分。
權利要求2的實施提供了這樣的優(yōu)點,即已經被自動及手動標注的文本部分可以針對參數適配進行評估,借此參數適配所識別文本的質量可以得到改善。同樣,通過手動標注命令標注信息,所識別文本中的字序列可以被分配給命令,然后在適配期間所述序列字被添加到標注裝置中的命令集合中,并且下次將被自動標注。
權利要求3和權利要求10的實施提供了這樣的優(yōu)點,即例如,被自動以及還被手動標注為猶豫聲音的所有文本部分在同步再現模式中從聲學上并不被再現并且在所識別文本的光學再現期間是隱藏的。結果是所識別文本可以更高效地被顯著校正,因為在聲學再現時時間被節(jié)省且使用者可以專心于所識別文本的重要部分。
權利要求4和11的實施提供了這樣的優(yōu)點,即當同步再現模式被啟動時,已經從聲學上被再現且從視覺上被標注至少一次的那些所識別文本部分及/或口語文本部分通過標注裝置被自動地標注有再現標注信息。為了使校正更容易,在同步再現已經被標注有再現標注信息的文本部分期間,轉錄設備因此有利地具有從聲學上再現例如所有的猶豫聲音和被重復字的能力。結果是根據本發(fā)明的校正設備的使用者可以更高效地顯著校正所識別文本。
權利要求5的實施提供了這樣的優(yōu)點,即替代文本被顯示在所識別文本內其中已經得到抑制的被標注文本部分所處在的位置。如果這個替代信息標記已經得到抑制的被標注文本部分的特征,則其尤為有利。
權利要求6的實施提供了這樣的優(yōu)點,即使用者可以以簡單的方法選擇當時更為有利的所識別文本的顯示方式。
權利要求7的實施提供了這樣的優(yōu)點,即有可以切換到顯示文本模塊的進一步有利的方式。
權利要求8和權利要求12的實施提供了這樣的優(yōu)點,即具有多個特征的文本部分可以被標注有適當的不同項的標注信息。一部分文本可例如被標注為頭部并且包括猶豫聲音。在這種情況下猶豫聲音將既被標注有頭部標注信息又被標注有猶豫聲音標注信息,并且因此將在后來的對口語和所識別文本中的頭部進行編輯期間以及在對這些文本中的猶豫聲音進行編輯期間被加以編輯。
現在參考附圖將對本發(fā)明更詳細地加以說明,所述附圖示出單個實施例,但本發(fā)明并不被局限于此。


圖1示出一種用于將口語文本轉錄成所識別文本的轉錄設備,其中校正設備被提供以用于校正所述所識別文本。
圖2以符號形式示出口語文本、由轉錄設備所識別的對應文本、以及標記針對口語文本每個音頻段的所識別文本的相聯系段的鏈接信息。
圖3示出被存儲在所述轉錄設備的命令存儲器級(stage)中的命令表。
圖4示出被存儲在所述轉錄設備的存儲器裝置中的標注表。
圖5以符號形式示出由所述轉錄設備的使用者所說出的五個文本實例。
圖6以符號形式示出針對口語文本的五個實例由所述轉錄設備的語音識別裝置所識別的文本,其中部分所識別文本已經被語音識別裝置的第一標注級自動地標注且使用者利用第二標注級已經手動標注了文本的另外部分。
圖7以符號形式示出針對五個實例由所述轉錄設備的校正設備所顯示的文本,其中所識別文本的被自動和手動標注的文本作為替代文本被顯示。
圖8以符號形式示出當被標注的文本部分的所有替代文本被加以抑制時由校正設備所顯示的文本。
圖9以符號形式示出在口語及所識別文本的第一和后來第二同步再現期間哪些部分文本被加以再現。
具體實施例方式
圖1示出一種轉錄設備1,其用于將口語文本GT轉錄成所識別文本ET并且用于對未被正確地識別的所識別文本ET部分進行編輯。轉錄設備1由運行語音識別軟件且形成語音識別設備2的第一計算機以及第二和第三計算機形成,所述第二和第三計算機的每個運行文本處理軟件且形成用來校正還一直未被正確識別的文本部分的第一校正設備3和第二校正設備4。可提及的是根據本發(fā)明的轉錄設備還可以由形成語音識別設備及校正設備兩者的僅一個計算機形成,然后所述計算機將不得不運行語音識別軟件和文本處理軟件兩者。
被連接到形成語音識別設備2的第一計算機上的是話筒5,從所述話筒5可以發(fā)射表示口語文本GT的音頻信號A。語音識別設備2包含A/D轉換器6、語音識別裝置7、存儲器裝置8、參數存儲器裝置9、命令存儲器裝置10和適配級11。由話筒5所發(fā)射的音頻信號A可以被饋送到A/D轉換器6,所述A/D轉換器將音頻信號A轉換成數字音頻數據AD。
表示口語文本GT的音頻數據AD可以被饋送到語音識別裝置7且由此可以被存儲在存儲器裝置8中。當語音識別過程正在由語音識別裝置7所執(zhí)行時,語音識別裝置7被加以設置以確定所識別文本ET,在這樣做時被存儲在參數存儲器裝置9中的參數信息PI被加以考慮。參數信息PI在這種情況下包含詞匯信息、語言模型信息及聲學信息。
詞匯信息包含可以由語音識別裝置7以及相聯系的音素序列所識別的所有字。語言模型信息包含在口語文本GT語言中常見的與字序列有關的統計信息。聲學信息包含有關轉錄設備1使用者發(fā)音的特殊特點及有關話筒5和A/D轉換器6的聲學特征的信息。
US專利5,031,113的公開被認為是被結合進本發(fā)明的公開內容以作為參考,并且從這種類型的參數信息PI的觀點來看由于語音識別過程的性能被公開在所述US專利中,所以在此將不對其進行詳細說明。語音識別過程的結果是包含所識別文本ET的文本數據可以被語音識別裝置7存儲在存儲器裝置8中。
在語音識別過程的執(zhí)行期間,鏈接信息LI也可以由語音識別裝置7加以確定,其中所述鏈接信息LI標記針對口語文本GT的每部分由語音識別裝置7所識別的相聯系文本ET。鏈接信息LI的產生同樣被公開在US專利5,031,113中,為此在此未詳細對其加以討論。
在圖2中,以符號形式示出沿著時間軸t由作者,即語音識別設備2的使用者對話筒5所說出的文本GT。由語音識別裝置7針對這個口語文本GT所識別的文本ET也被示出。當語音識別過程正在被執(zhí)行時,口語文本GT被分成包含相聯系的聲學信息的音頻段AS。這種類型的相聯系的聲學信息可例如是字、兩個字之間的稍長的語音暫停,即被稱為猶豫聲音如“aah”或“mm”,或噪音。
鏈接信息LI標記口語文本GT的每個音頻段AS及所識別文本ET的相聯系段TS的開始和結束。例如第一音頻段AS1包含針對口語文本GT第一字“The”的持續(xù)1.5秒的聲學信息,以及由鏈接信息LI所分配的第一文本段TS1包含由語音識別裝置7所識別的字“The”的文本。
命令存儲器級10存儲被語音識別設備2識別為命令的字序列。被存儲在命令存儲器級10中的一部分命令表BT被示于圖3中。通過參考所述命令表BT,語音識別裝置7將例如字序列“next word bold”識別為所識別文本ET中的下個字即將被顯示成黑體的命令。命令號BL12被分配給命令表BT中的這個命令。字序列“insert text of module 1”(插入模塊1的文本)同樣被識別為命令,在這種情況下來自被存儲在命令存儲器級10內位置“2341”上的存儲器位置處的文本模塊的標準文本即將被插入進所識別文本ET。
語音識別裝置7進一步包括第一標注級12,其被設置成用于自動確定標注信息MI的不同項且用于在存儲器裝置8中存儲被如此標注的標注信息MI的項,所述標注信息MI的項標記具有為所有被如此標注的文本部分所共有的某些特征的所識別文本ET部分和口語文本GT部分。字“自動的”在這個環(huán)境中被理解為意味著“轉錄設備1的使用者沒有任何動作”。第一標注級12被設置成用于自動標注帶有暫停標注信息PMI的稍長語音暫停、帶有猶豫聲音標注信息HMI的猶豫聲音、帶有命令標注信息CMI的命令標注信息、帶有重復標注信息RMI的被重復字、帶有日期標注信息DMI的日期、以及帶有噪音標注信息GMI的噪音。
圖4示出被存儲在存儲器裝置8中的標注表MT,其中由第一標注級12所自動確定的標注信息MI的表項被第一標注級12錄入。為了所識別文本ET中命令的自動標注,第一標注級12將被包含在命令表BT中的字序列與被包含在所識別文本ET中的字序列進行比較。當發(fā)現被包含在命令表BT中的字序列處在所識別文本ET中時,則第一標注級12將標識這個字序列的所識別文本ET中的那些文本段TS、外加相聯系的命令號BI作為命令標注信息CMI錄入在標注表MT中。這在下面參考應用實例被更詳細地加以說明。
可提及的是還有可能在每種情況下使口語文本GT的適當音頻段AS被錄入,而不是在標注表MT中標識所識別文本ET的某些文本段TS。在每種情況下相聯系的音頻段AS和文本段TS可以借助于鏈接信息LI被加以確定。
語音識別裝置7被設置成識別兩個字之間的語音暫停(沉默)并且第一標注級12被設置成自動標注與帶有標注表MT中暫停標注信息PMI的口語文本GT相對應的音頻段AS。
第一標注級12被設置成將被存儲在第一標注級12的猶豫聲音(例如“aah”或“mhh”)與被包含在所識別文本ET中的字進行比較,且設置成將包含這種猶豫聲音的所識別文本ET的文本段TS自動標注有猶豫聲音標注信息ZMI。
第一標注級12還被設置成將口語文本GT的音頻段AS自動標注有噪音標注信息GMI,如果這些音頻段AS包含噪音和/或聲音。出于這個目的,標注級12包含能夠將噪音和/或聲音區(qū)分于包含字的音頻段的噪音探測器。
為了將所識別文本ET的被重復字標注有重復標注信息RMI,第一標注級12被設置成比較所識別文本ET中彼此跟隨的字或字序列。標注表MT還包含日期標注信息DMI,其在下面參考應用實例被更詳細地加以說明。
轉錄設備1的第一校正設備3包括再現裝置13,所述再現裝置13連同存儲器裝置8和命令存儲器級10由運行文本處理軟件的第二計算機所形成。還被連接到第二計算機上的是監(jiān)視器14、鍵盤15和揚聲器16,其同樣與第一校正設備3相聯系。當同步再現模式在第一校正設備3中被啟動時,再現裝置13被設置成用于口語文本GT的聲學再現且用于由鏈接信息LI所標記的相聯系的所識別文本的同步視覺或光學標注。
在啟動的同步再現模式中校正所識別文本ET再次被公開在US專利5,031,113中,并且已經被證實在實踐中非常有利。在這種情況下,校正者,即正在校正所識別文本ET的第一校正設備3的使用者,可以同時聆聽由作者對著話筒5所說的文本GT,并且檢查或編輯由語音識別裝置7為其所識別的文本ET。被識別的文本ET從光學上被顯示在監(jiān)視器14上且由語音識別裝置7針對剛剛從聲學上被再現的口語字而被識別的字,從光學上被再現裝置13標注且相應地被顯示在監(jiān)視器14上。校正者可以啟動、中斷且停用同步再現模式并且利用鍵盤15編輯所識別的文本ET。
第二校正設備4的結構基本上與圖1中詳細示出的第一校正設備3的結構相同,為此第二校正設備4在圖1中僅被示為一方框。然而,第二校正設備4從物理上與語音識別設備2分開,為此第二校正設備4此外具有存儲器裝置和命令存儲器裝置,其中在利用第一校正設備3所校正的識別文本ET被編輯之前,被存儲在存儲器裝置8和命令存儲器級10中的信息被存儲。
第二校正設備4例如可被檢查者,即第二校正設備4的使用者使用,在被存儲在存儲器裝置8中的所識別文本ET已經由校正者加以校正之后,所述檢查者檢查由校正者所完成工作的質量。出于這個目的檢查者檢查是否校正者已經錯過所識別文本ET中的任何錯誤。這樣的檢查者主要由轉錄公司采用,其通過隨機檢查被校正的所識別文本來確保被轉錄文本的質量。參考轉錄設備1的應用實例,這被加以詳細說明。
轉錄設備1的再現裝置13進一步包括第二標注級17,所述第二標注級17連同鍵盤15和第一標注級12形成用于自動和手動標注部分口語文本GT或所識別文本ET的標注裝置。對于第二標注級17,當校正者校正所識別文本ET時,其有機會來手動地標注未被自動加以標注的文本的另外部分。
部分文本的這個手動標注可一方面被用來手動地標注具有與已經被自動標注的文本部分相同特征的部分所識別文本,以允許參數信息PI或被存儲在命令表BT中的信息借助于適配級11被加以適配。這個適配取得下次第一標注級12將能夠自動標注已經被手動標注的文本部分。此外,伴隨著每個適配,語音識別設備2的識別率得到改善。結果是獲得這樣的優(yōu)點,即轉錄設備可以減少隨著每個進一步的使用校正者不得不做的越來越多的工作。
部分文本的這個手動標注另一方面被用來將部分文本標注成被刪除,其隨后將不再出現在被傳送到作者的所識別文本中但盡管如此并沒有被完全刪除。將一部分文本標注為被刪除具有這樣的優(yōu)點,即在較后階段若需要,則這樣的文本部分可以被重新包括在所識別文本中,并且檢查者可以檢查這些部分文本被刪除是否是正確的。然而,特別有利地是,由口語文本GT和所識別文本ET之間的鏈接信息L I所提供的校正完全保持不變,因為實際上沒有所識別文本部分被刪除。因此,當同步再現模式被啟動時,雖然被標注為被刪除的部分口語文本GT從聲學上被再現,但是替代文本而不是被刪除的文本部分可以從光學上被標注,這在下面被詳細加以說明。
利用手動標注具有相同特征的文本部分對自動標注部分文本的這個補充提供了進一步的優(yōu)點,即經編輯的所識別文本ET可以進一步以特別高效的方法被編輯。因此,例如,被標注有日期的所有所識別文本部分可以特別高效地被均勻地修正,下面對此加以詳細說明。
標注裝置的第二標注級17也被設置成用于在存儲器裝置8中存儲再現標注信息WMI,所述再現標注信息WMI標記在啟動的同步再現模式下被再現裝置13已經至少再現一次的那些所識別文本ET部分和/或口語文本GT部分。
結果是,獲得這樣的優(yōu)點,即通過評估被包含在標注表MT中的再現標注信息WMI,再現裝置13既能夠從視覺上標注借助于同步再現模式已經被校正一次的所識別文本部分又能夠從聲學上標注相聯系的口語文本GT部分。結果是根據本發(fā)明的校正設備的使用者能夠顯著更高效地校正所識別文本,其參考應用實例在下面被加以詳細說明。
再現裝置13進一步被設置成當同步再現模式被啟動時用來抑制所不希望的口語文本GT部分的聲學再現,所述所不希望的部分由被存儲在存儲器裝置8中的抑制信息進行標記。這是這樣的情況,即校正者可以使用鍵盤15來設定被包含在標注表MT中的標注信息MI的哪些項即將被用作抑制信息。使用者可,例如選擇暫停標注信息PMI和猶豫聲音標注信息HMI作為抑制信息,這樣當口語文本GT第一次被回放時如此被標注的文本部分得到抑制。參考應用實例這被詳細加以說明。
現在將在下面參考圖3至9所示的應用實例詳細解釋轉錄設備1的優(yōu)點。圖5示出由作者對著話筒5所說的五部分文本GT。圖6示出由語音識別裝置7針對所述五部分口述文本GT所識別的文本ET,其中部分所識別文本ET已經被第一標注級12自動加以標注。同樣在圖6中所示的還有借助于第二標注級17由校正者手動標注的文本部分。圖7示出以如此形式的所識別文本ET,其中被自動和手動標注的文本部分被示出由替代文本來代替。圖8示出以其中所有被標注的文本部分已經得到抑制的形式的所識別文本ET,所識別文本以所述形式被傳送到作者。
在第一實例中,作者想要對著話筒說文本“…company PHILIPS”且同時將字“PHILIPS”標注為黑體。然而,在字“company”之后,作者簡單地沉思到針對黑體格式化命令確切地用什么措詞并且當他如此做時他發(fā)出猶豫聲音“aah”,正如許多作者一樣。然后作者說出“boldnext”,但當他如此做時他想到這個命令的正確字序列是“next wordbold”,為此他說“no”。然后他說出正確的命令“next word bold”,并且繼續(xù)帶有字“PHILIPS”的文本。
正如從圖6中可以看出,語音識別裝置7識別音頻段AS3的文本段TS3=“aah”并且在標注表MT的第四行中第一標注級12自動將這個猶豫聲音標注有猶豫聲音標注信息HMI。替代文本“<hes>”而不是猶豫聲音被示于圖6中,其允許校正者看到猶豫聲音在此刻已經得到標注。如果當編輯所識別文本ET時,校正者將再現裝置13的文本光標放置在這個替代文本上面,然后由語音識別裝置7所識別的猶豫聲音被顯示。結果是,取得這樣的優(yōu)點,即當校正時,校正者可以專心于所識別文本ET的實質部分,但是如果他想要了解在此作者發(fā)出什么猶豫聲音以便于他可以校正相鄰于所述猶豫聲音的字時,他能夠在任何時候看到這個聲音。
同樣,語音識別裝置7現在已經為音頻段AS7-AS9識別出由文本段TS7-TS9所形成的字序列“next word bold”,在命令表BT中具有命令號BI12的命令已經被分配給所述文本段TS7-TS9。第一標注級12有利地自動錄入這些文本段以及在標注表MT第四行中作為命令標注信息CMI的這個命令號。在圖6中,替代文本“<com>”而不是這些文本段被示出,其結果是獲得上述提到的優(yōu)點。同樣,命令BI12得到執(zhí)行,且形成針對音頻段AS10被識別的文本段TS10的字“PHILIPS”被顯示為黑體。
通過使用鍵盤15和第二標注級17,校正者現在將文本段TS4和TS5標注為具有命令號BI12的命令,這樣下次字序列“bold next”將被第一標注級12自動識別為命令。在圖7中這部分文本同樣由命令的替代文本“<com>”來表示。
通過使用命令號BI12,第二標注級17將這個字序列TS4+TS5作為命令標注信息CMI錄入在標注表MT的第五行中。當適應模式在語音識別設備2中被啟動時,適配級11從存儲器裝置8中讀取新的命令標注信息CMI,并且將具有命令號BI12的命令進一步錄入在命令表BT中。
這給出這樣的優(yōu)點,即校正者可以以特別的便利和效率將進一步的字序列定義為命令,在適配模式下所述字序列由語音識別設備2接收。當語音識別過程接下來被執(zhí)行時,字序列“bold next”將因此被自動地識別為命令。
借助于鍵盤15和第二標注級17,現在校正者繼續(xù)將文本段TS6“no”標注為被刪除文本,因為他已經看出作者無心地說出這個字并且它將不被包括在傳送給作者的最終文本中。這個被刪除文本的替代文本“<skip>”被示于圖7中。
可提及的是校正者還可以將文本段TS4-TS6標注為被刪除文本,因為具有命令號BI12的命令不應該出現兩次。
將文本段TS6手動標注為被刪除文本給出這樣的優(yōu)點,即甚至在例如利用第二校正設備4所執(zhí)行的后來的同步再現模式期間,由鏈接信息LI所提供的相關性將被完全地保留,并且因此同步再現將沒有任何錯誤地發(fā)生。
圖8示出在第一實例中最終被傳送到作者的所識別文本“…company PHILIPS...”,盡管存在猶豫聲音、一個無心的口語字及錯誤的命令,但是所述文本仍是作者所真正意味的。
在第二實例中,作者想要對著話筒說的文本是“…I fixed theleft leg…”,但是在這種情況下在音頻段AS20之后他沉思,并且保持安靜三秒鐘,這被第一標注級12自動識別為暫停且將其作為暫停標注信息PMI錄入到標注表MT中。這個沉思暫停的替代文本“<sil>”被示于圖6中。
緊接此暫停之后,作者重復字“T”,其被第一標注級12自動識別為被重復字且作為重復標注信息RMI被錄入在標注表MT中。文本段TS22的替代文本“<rep>”被示于圖6中。
緊接此被重復字之后,作者說出“fixed the left”,然后做出另一沉思暫停,并且最終說出“the left leg”。沉思暫停再次被第一標注級12自動標注,但是重復字“the left”不可能被自動加以識別和標注。校正者現在手動地將文本段TS26-TS28標注為被重復字,因此導致對應的重復標注信息RMI被錄入在標注表MT中。
圖8示出在第二實例中最終被傳送到作者的所識別文本“…theleft’leg”,并且盡管存在被重復字和沉思暫停,但是那由此仍是作者所真正意味的。除了自動標注以外所執(zhí)行的手動標注的結果是所有被重復的字被標注在所識別文本中,并且隨著進一步的處理它們可能例如全部在顯示器上被抑制或被用于適配模式。
在第三實例中,作者對著話筒5想要說的文本是“…and companyPHILIPS will...”,但是在字“and”之后他不得不打噴嚏。因此音頻段AS51包含當作者打噴嚏時所發(fā)郵的噪音。語音識別裝置7無法識別這個音頻段AS51的字,并且因為這第一標注級12自動地將這個音頻段AS51標注為具有噪音標注信息GMI的噪音并將它如此錄入到標注表MT中。替代文本“<non sp>”被示于圖6中。
緊接他的打噴嚏之后,作者花費五秒才找到他的手帕且然后擤鼻子。音頻段AS52反過來被自動地被標注為暫停且將被如此錄入到標注表MT中。當作者擤鼻子時發(fā)出的噪音類似于噪音“tata”,并且為此語音識別裝置7不正確地將字“that”識別為文本段TS53。
有利地,當同步再現模式被啟動時立即識別出這個錯誤的校正者能夠手動地將文本段TS53標注為帶有噪音標注信息GMI的噪音。由此獲得這樣的優(yōu)點,即在第三實例中在所識別文本ET中的全部噪音事實上被如此標注且在處理的進一步階段期間可以用相同的方法被全部加以處理。第一標注級12的噪音探測器12可例如被適配于這些被標注的文本部分,以便于這樣的噪音可以在將來被自動地加以識別。
在第四實例中,當作者實際上正在口述的同時,其希望向所識別文本ET中插入在命令存儲器級10中以“module 1”的名義作為文本模塊被存儲的標準文本。出于這個目的作者口述“...is the best.Inserttest module one.All...”。被識別的文本段TS73-TS76被識別為帶有命令號BI13的命令且替代文本“<module 1>”被示于圖6中。
這給出這樣的優(yōu)點,即文本模塊已經以特別簡單的方法被自動插入在所識別文本ET中。在這種情況下校正者或檢查者可以有利地在三種顯示類型之中加以選擇。他可看到被實際識別的文本-文本段TS73-TS76,或替代文本,或在圖8中所看到的從命令存儲器級10被添加的標準文本。
在第五實例中,作者對著話筒5所說的文本是“...tenth of Octobertwo thousand and one...”。本應該已經被第一標注級12自動識別且標注為日期的字序列本應該是“October tenth two thousand and one”。然而,所說的字序列沒有被識別為日期,并且為此校正者將文本段TS80-TS86標注為帶有日期標注信息量DMI的日期。
這給出這樣的優(yōu)點,即在所識別文本中已經被自動或手動標注為日期的所有文本部分可以在隨后的處理操作中以特別簡便和統一的方法被改變。為此,校正者可例如選擇被標注有日期標注信息DMI的全部日期即將以格式“MM.DD.YYYY”被顯示。
現在將參考圖9解釋第一校正設備3的應用實例。在這個實例中假設校正者啟動同步再現模式,基于此口語文本GT和所識別文本ET分別從音頻段AS1和文本段TS1開始被第一次同步地再現。從符號上這由箭頭P1來表示。校正者以如此方法配置再現裝置13,以便于在第一再現期間被標注有暫停標注信息PMI、猶豫聲音標注信息HMI和噪音標注信息GMI的那些文本部分的音頻段從聲學上沒有被再現。這允許校正者特別快速地再現口語文本GT并且與此同時更多地校正所識別文本ET。
在再現期間,標注表MT中的再現標注信息WMI被連續(xù)地更新。音頻段AS53(作者擤鼻子)剛一從聲學上被再現且文本段TS53剛一從視頻上被標注時,校正者就看出字“that”還一直沒有被正確地加以識別。在此時文本光標的位置在圖9中從符號上被指示為P2。然而,由于校正者并不肯定什么本應該真正地被識別,所以他再次啟動從音頻段AS50開始的同步再現模式。在圖9中這從符號上由箭頭P3指示。
現在再現裝置13從被錄入在標注表MT第四行中的再現標注信息WMI中識別出音頻段AS1至AS53已經在同步再現模式中被再次再現且因此從聲學上再現所有的音頻段AS50至AS53。在圖9中這從符號上被指示為箭頭P4。它僅從音頻段S54的再現開始-見箭頭P5-即被標注的文本(PMI,GMI,HMI)將在聲學再現期間再次被抑制。
這給出這樣的優(yōu)點,即在其中校正者需要全部標注信息可用以使他能夠正確地校正所識別文本ET的口述中的那些通路中,口述的全部音頻段AS被再現。在校正者可以通過聆聽它們僅一次而進行校正的其它通路中,不必要的音頻段AS被加以抑制。
類似地,當所識別文本ET被第一次再現時,被標注的文本部分的替代文本可有利地被加以顯示,并且僅當再現被重復時使得自動切換到實際上被加以識別的文本ET。
在同步再現模式中已經被再次再現的文本部分的自動標注產生進一步的顯著優(yōu)點。檢查者的工作正是要通過隨機取樣來確定校正者對所識別文本ET加以校正做得如何。在這方面再現標注信息WMI對檢查者非常有幫助。這是因為檢查者可以立即識別到借助于同步再現模式哪些文本部分已經被檢查并且哪些文本部分已經被跳過且因此有可能根本未被檢查。檢查者因此可以對沒有被標注有再現標注信息WMI的文本部分進行特殊檢查,來看是否在所識別文本ET中存在任何錯誤。
如果校正者在工作時被中斷在隨后時刻想要繼續(xù)進行時,再現標注信息WMI還是有利的。由再現標注信息WMI所標記的文本的聲學標注(例如作為口語文本背景的連續(xù)音調)或視頻標注(例如以相反字符(reverse characters)所示的所識別文本)的結果是校正者可以立即進行其工作。
第一校正設備3還具有定位裝置18,其被加以提供以便于若同步再現模式被中斷以校正被非正確識別的字時,其允許標注文本輸入位置的文本光標被定位,所述定位裝置18被設置成將文本光標定位在當同步再現模式被中斷時刻所識別文本ET中被加以標注的字的上游的N個字處,如果所識別文本的這個部分已經被標注有再現標注信息WMI,以及定位裝置18被設置成將文本光標定位于當同步再現模式被中斷時刻在所識別文本ET中被加以標注的字的上游的M個字處,如果所識別文本ET的這個部分還一直未被標注有再現標注信息WMI。
所定義的數量可例如是M=3及N=1,其結果是當在所識別文本中第一次發(fā)現被非正確識別的字時則允許校正者有較長的沉思時間。這些安排是尤其有利的,因為一旦同步再現模式已經被中斷則文本光標通常已經被定位在被非正確地識別的字上,并且手動定位文本光標所花的時間可以被節(jié)省。對本領域那些普通技術人員很顯然地是這將做出M和N有利值的許多其它組合。
如果定位裝置18被設置成自教式則將尤為有利。在這種情況下在同步再現模式已經被中斷之后定位裝置18將從校正者所做出的定位錄入中確定N和M和最佳值(即文本光標向前兩個字或向后五個字)并且將連續(xù)地將它們適配于使用者的沉思時間。
適配級11還可被用來適配被存儲在參數存儲器裝置9內的參數信息PI。這給出這樣的優(yōu)點,即語音識別裝置7的識別率被穩(wěn)定地加以改善且較少錯誤被包含在所識別文本ET中。
正如從上述應用實例中可以看到,單獨的音頻段或文本段可以由標注信息MI的一個或甚至多個項進行標注。這允許所識別文本以有利的方式在所謂的等級下被加以處理。這是這樣的情況,即例如被包含在命令中的猶豫聲音可以與所識別文本ET中被標注為猶豫聲音的所有其它部分相同的方法被編輯(即被抑制、被刪除、替代文本被顯示、所識別文本被顯示)。這也并不干涉包含猶豫聲音的命令的編輯。如果部分文本被標注有多項標注信息MI,則因此有可能使這些等級被從光學上加以顯示。
可提及的是根據本發(fā)明的自動和手動的文本標注可利用標注信息MI的多個不同項被完成。這種類型的標注信息MI項可例如是AutoPunctuation(自動標點),Silence(沉默),Nonspeech(沒有語音),Noise(噪音),Music(音樂),Spelling(拼寫),Hesitation(暫停),Insertion(插入),NumberFormating(號格式化),DateFormating(日期格式化),HeaderFormating(頭部格式化),EnumerationFormating(枚舉格式化),QuantityFormating(數量格式化),SelfCorrection(自校正),PhraseRepetition(短語重復),Stutter(結巴),Discursiveness(離題的),SpellingSequence(拼寫序列),RedundantPhrase(冗余短語),NotUnderstood(不理解),Remark(注釋),Deletion(刪除),Command(命令)。
可提及的是標注部分文本并不是如上面所解釋必須借助于表格來完成,而是可作為選擇地以樹結構的形式發(fā)生。在這種情況下反過來包含進一步被標注的文本段的被標注文本段可以類似于樹的形式被顯示在分支上。
可提及的是自動標注可甚至在語音識別過程正在被執(zhí)行的同時發(fā)生而不是在其之后發(fā)生。
可提及的是例如,僅由語音識別裝置7識別起來困難(即,可能在識別中有大量錯誤)的所有文本部分可以被第一標注級12自動地標注,并且在同步再現模式中被校正者識別為有難度的所有文本部分可以被手動地標注,以為了用于檢查目的警告檢查者或口語文本的作者注意這些被標注的文本部分。這是傳遞與所識別文本有關信息的尤為有利的方法。
權利要求
1.一種轉錄設備(1),其用于將口語文本(GT)轉錄成所識別文本(ET)并且用于編輯所識別文本(ET)中被非正確識別的部分,其中用于口語文本(GT)每部分的鏈接信息(LI)對相聯系的所識別文本(ET)進行標記,具有語音識別裝置(2),其用于將所接收的口語文本(GT)轉錄成所識別文本(ET)并且用于產生鏈接信息(LI),以及具有存儲器裝置(8),其用于存儲口語文本(GT)、所識別文本(ET)及鏈接信息(LI),以及具有標注裝置(12,15,17),其用于自動地確定標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)并且用于在存儲器裝置(8)中存儲所確定的標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI),所述標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)標記具有為所有被標注的文本部分所共有的特定特征的部分所識別文本(ET)或部分口語文本(GT),其中所述標注裝置(12,15,17)具有用于手動錄入標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)的輸入裝置(15,17),以允許也具有這個公共特征的所識別的或口語文本的另外部分被以這個標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)標注,以及具有處理裝置(13),其用于統一處理被標注的文本部分。
2.根據權利要求1的轉錄設備(1),其中,為了允許語音識別裝置(2)的參數(PI)得到適配,適配級(11)被加以提供,其被設置成用于評估被自動和手動加以標注的文本部分,所述被標注的文本部分具有公共的特征。
3.根據權利要求1的轉錄設備(1),其中再現裝置(13)被設置成當同步再現模式在轉錄設備(1)中被啟動時用于口語文本(GT)的聲學再現以及相聯系的所識別文本(ET)的同步視覺標注,所述文本(ET)由鏈接信息(LI)進行標記且從光學上被再現,以及其中被自動或手動加以標注的文本部分的聲學或光學再現可以得到抑制。
4.根據權利要求3的轉錄設備(1),其中所述標注裝置(12,15,17)被設置成用于自動確定且在存儲器裝置(8)中存儲再現標注信息(WMI),所述再現標注信息(WMI)標記當同步再現模式被啟動時被再現裝置(13)至少再現一次的那些所識別文本(ET)部分和/或口語文本(GT)部分。
5.根據權利要求3的轉錄設備(1),其中所述再現裝置(13)被設置成用于光學再現得到抑制的被標注的所識別文本(ET)部分的替代文本。
6.根據權利要求5的轉錄設備(1),其中所述再現裝置(13)可以在替代文本的光學顯示和被標注的文本部分的光學顯示之間被切換。
7.根據權利要求6的轉錄設備(1),其中對于形成文本模塊的被標注的文本部分,可以進行到為下一個模塊而定義的文本的光學顯示的附加切換。
8.根據權利要求1的轉錄設備(1),其中所述標注裝置(12,15,17)被設置成當一部分口語或所識別文本具有由標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)項所標記的至少兩個公共特征時,用于將這個被標注的文本部分標注有至少兩個不同的標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)項。
9.一種將口語文本(GT)轉錄成所識別文本(ET)以及編輯所識別文本(ET)中被非正確識別的部分的方法,其中口語文本(GT)每部分的鏈接信息(LI)標記相聯系的所識別文本(ET)并且其中下述步驟被加以執(zhí)行將所接收的口語文本(GT)轉錄成所識別文本(ET)以及產生鏈接信息(LI);存儲口語文本(GT)、所識別文本(ET)和鏈接信息(LI);自動確定標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)以及存儲所確定的標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI),所述標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)標記具有為所有被標注的文本部分所共有的特定特征的所識別文本(ET)部分和/或口語文本部分;手動錄入標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)以允許也具有這個公共特征的所識別的或口語文本的另外部分被標注有這個標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI);以及統一處理被標注的文本部分。
10.根據權利要求9的轉錄方法,其中下述進一步的步驟被加以執(zhí)行當同步再現模式被啟動時,聲學再現口語文本(GT)以及同步視覺標注由鏈接信息(LI)所標記且光學被再現的相聯系的所識別文本(ET),同時自動或手動被標注的文本部分的聲學或光學再現可以得到抑制。
11.根據權利要求9的轉錄方法,其中下述進一步的步驟被加以執(zhí)行自動確定且存儲再現標注信息(WMI),所述再現標注信息(WMI)標記在被啟動的同步再現模式之前所識別文本(ET)和/或口語文本中被再現至少一次的那些部分。
12.根據權利要求9的轉錄方法,其中下述進一步的步驟被加以執(zhí)行當一部分口語或所識別文本具有由標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)項所標記的至少兩個公共特性時,將這個被標注的文本部分以至少兩個不同的標注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)項來標注。
全文摘要
在一種用于將口語文本(GT)轉錄成所識別文本(ET)以及用于編輯所識別文本(ET)中被非正確識別的部分的轉錄設備(1)中,標注裝置(12,15,17)被提供,以便于被設置成用于對具有公共特征的口語文本(GT)部分和/或所識別文本(ET)部分進行部分自動標注和部分手動標注。結果是,具有公共特征的被標注的文本部分的后來的統一處理變?yōu)榭赡堋?br> 文檔編號G10L15/00GK1568500SQ02820209
公開日2005年1月19日 申請日期2002年10月7日 優(yōu)先權日2001年10月12日
發(fā)明者H·F·巴托斯克, K·拉吉 申請人:皇家飛利浦電子股份有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1