專利名稱:標(biāo)注所識(shí)別文本的部分的校正裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種校正設(shè)備,用于從口語(yǔ)的文本來(lái)校正由語(yǔ)音識(shí)別設(shè)備識(shí)別的文本,其中所識(shí)別文本包含針對(duì)口語(yǔ)文本的口語(yǔ)詞而正確識(shí)別的詞和針對(duì)其而不正確識(shí)別的詞。
本發(fā)明進(jìn)一步涉及一種校正方法,用于從口語(yǔ)的文本來(lái)校正由語(yǔ)音識(shí)別設(shè)備識(shí)別的文本,其中所識(shí)別文本包含針對(duì)口語(yǔ)文本的口語(yǔ)詞而正確識(shí)別的詞和針對(duì)其而不正確識(shí)別的詞。
背景技術(shù):
這種校正設(shè)備和這種校正方法從US專利5,031,113中是已知的,在其中公開(kāi)了口述設(shè)備。已知的口述設(shè)備由運(yùn)行語(yǔ)音識(shí)別軟件和文本處理軟件的計(jì)算機(jī)形成。已知口述設(shè)備的用戶可將口語(yǔ)文本說(shuō)到被連接于計(jì)算機(jī)的話筒中。形成語(yǔ)音識(shí)別設(shè)備的語(yǔ)音識(shí)別軟件執(zhí)行語(yǔ)音識(shí)別過(guò)程并在這樣做的過(guò)程中將所識(shí)別的詞分配給口語(yǔ)文本的每個(gè)口語(yǔ)詞,作為其結(jié)果,針對(duì)口語(yǔ)的文本獲得了所識(shí)別的文本。還有,在語(yǔ)音識(shí)別過(guò)程的過(guò)程中確定了鏈接信息,其標(biāo)記針對(duì)口語(yǔ)文本的每個(gè)口語(yǔ)詞而識(shí)別的所識(shí)別文本的詞。
已知口述設(shè)備亦形成校正設(shè)備,借助其,不正確識(shí)別的詞可被替換成校正詞。為此,校正設(shè)備的用戶可激活校正設(shè)備的同步再現(xiàn)模式,在其中口語(yǔ)文本在聲學(xué)上被再現(xiàn),并且與此同時(shí),由鏈接信息標(biāo)記的所識(shí)別文本的詞被可視地加亮(即標(biāo)注)。在實(shí)踐中已證明,同步再現(xiàn)模式對(duì)于由語(yǔ)音識(shí)別設(shè)備識(shí)別的文本的校正是特別有利的。進(jìn)一步發(fā)現(xiàn),許多用戶并不借助于同步再現(xiàn)模式來(lái)檢查整個(gè)所識(shí)別文本而是檢查其某些部分。這某些部分可以是例如特別關(guān)鍵并且必須絕對(duì)沒(méi)有錯(cuò)誤的文本部分,或者它們可以是對(duì)于語(yǔ)音識(shí)別軟件來(lái)說(shuō)特別難以識(shí)別并因此有可能包含大量不正確識(shí)別的詞的文本部分。
已發(fā)現(xiàn)已知校正設(shè)備中的缺點(diǎn)在于,在用校正設(shè)備校正了所識(shí)別文本之后,用戶沒(méi)有辦法確定所識(shí)別文本的哪些部分已借助于同步再現(xiàn)模式而校正以及哪些部分仍必須用它來(lái)校正。
發(fā)明內(nèi)容
本發(fā)明的目的是提供在以上的第一段中限定的種類的校正設(shè)備和在以上的第二段中限定的種類的校正方法,在其中避免了上述缺點(diǎn)。
為實(shí)現(xiàn)以上所示的目的,為這種校正設(shè)備而提出了依照本發(fā)明的特點(diǎn),從而使校正設(shè)備可通過(guò)以下詳述的方式來(lái)表征。
一種校正設(shè)備,用于從口語(yǔ)文本來(lái)校正由語(yǔ)音識(shí)別設(shè)備識(shí)別的文本,其中用于口語(yǔ)文本的每個(gè)部分的鏈接信息項(xiàng)標(biāo)記關(guān)聯(lián)的所識(shí)別文本,該校正設(shè)備具有存儲(chǔ)器裝置,用于存儲(chǔ)至少口語(yǔ)文本和所識(shí)別文本,并具有再現(xiàn)裝置,當(dāng)同步再現(xiàn)模式被激活于校正設(shè)備中時(shí),用于在聲學(xué)上再現(xiàn)口語(yǔ)文本并同時(shí)可視地標(biāo)注由鏈接信息標(biāo)記的關(guān)聯(lián)的所識(shí)別文本,并具有標(biāo)注裝置,用于在存儲(chǔ)器裝置中存儲(chǔ)標(biāo)注信息,當(dāng)同步再現(xiàn)模式被激活時(shí),該標(biāo)注信息標(biāo)記由再現(xiàn)裝置再現(xiàn)至少一次的口語(yǔ)文本和/或所識(shí)別文本的那些部分。
為實(shí)現(xiàn)以上所示的目的,為這種校正方法而提出了依照本發(fā)明的特點(diǎn),從而使校正方法可通過(guò)以下詳述的方式來(lái)表征。
一種校正方法,用于從口語(yǔ)文本來(lái)校正由語(yǔ)音識(shí)別設(shè)備識(shí)別的文本,其中用于口語(yǔ)文本的每個(gè)部分的鏈接信息項(xiàng)標(biāo)記關(guān)聯(lián)的所識(shí)別文本,并且其中以下步驟被執(zhí)行存儲(chǔ)至少口語(yǔ)文本和所識(shí)別文本;當(dāng)同步再現(xiàn)模式被激活時(shí),在聲學(xué)上再現(xiàn)口語(yǔ)文本并同時(shí)可視地標(biāo)注由鏈接信息標(biāo)記的關(guān)聯(lián)的所識(shí)別文本;存儲(chǔ)標(biāo)注信息,當(dāng)同步再現(xiàn)模式被激活時(shí),該標(biāo)注信息標(biāo)記之前被再現(xiàn)了至少一次的口語(yǔ)文本和/或所識(shí)別文本的那些部分。
依照本發(fā)明的特點(diǎn)實(shí)現(xiàn)了當(dāng)同步再現(xiàn)模式被激活時(shí),在聲學(xué)上被再現(xiàn)并被可視地標(biāo)注了至少一次的口語(yǔ)文本的那些部分和/或所識(shí)別文本的那些部分是由標(biāo)注信息來(lái)標(biāo)記的。以這種方式,有利的是,校正設(shè)備能可視地標(biāo)注已借助于同步再現(xiàn)模式而校正了一次的所識(shí)別文本的部分,或者在聲學(xué)上標(biāo)注口語(yǔ)文本的關(guān)聯(lián)部分。這使依照本發(fā)明的校正設(shè)備的用戶能顯然較為有效地校正所識(shí)別文本。
提供權(quán)利要求2和權(quán)利要求8提供了以下優(yōu)點(diǎn)由語(yǔ)音識(shí)別設(shè)備或由校正設(shè)備標(biāo)記為抑制信息的口語(yǔ)文本的不想要的部分在同步再現(xiàn)模式期間不在聲學(xué)上被再現(xiàn)。在同步再現(xiàn)模式期間,用戶由此能較為滿意地集中在口語(yǔ)文本的基本部分和所識(shí)別文本的關(guān)聯(lián)部分上。還有,聲學(xué)再現(xiàn)可被加速,因此有利的是,所識(shí)別文本可被較快地校正。
應(yīng)用權(quán)利要求3和權(quán)利要求9提供了以下優(yōu)點(diǎn)口語(yǔ)文本的某些部分,盡管不想要,仍被再現(xiàn),也就是當(dāng)用戶第二次或更多次聽(tīng)取口語(yǔ)文本的這些部分時(shí)。這是特別有利的,因?yàn)楫?dāng)語(yǔ)音識(shí)別過(guò)程被執(zhí)行時(shí),這種口語(yǔ)文本的不想要的部分常常使不正確識(shí)別的詞被識(shí)別,并且通過(guò)聽(tīng)取文本的這些不想要的部分,用戶較為容易能得出有關(guān)真正應(yīng)當(dāng)已被識(shí)別的詞的結(jié)論。
提供權(quán)利要求4提供了特別有利地已由抑制信息標(biāo)注為不想要的口語(yǔ)文本的那些部分的清單。文本的這種不想要的部分因此是用戶在口述時(shí)進(jìn)行暫停(=無(wú)聲)或者他在他思考下一句時(shí)重復(fù)一個(gè)詞或發(fā)出所謂的猶豫聲音(例如aah、mm...)之處的口語(yǔ)文本的部分。
提供權(quán)利要求5提供了以下優(yōu)點(diǎn)校正設(shè)備可視地標(biāo)注已被再現(xiàn)了至少一次并因此在同步再現(xiàn)模式中為必須檢查校正設(shè)備的用戶的工作的人或用戶的利益而被校正的所識(shí)別文本的部分。作為結(jié)果,專業(yè)的轉(zhuǎn)錄服務(wù)可提供有效的質(zhì)量控制。
提供權(quán)利要求6提供了以下優(yōu)點(diǎn)依賴于所識(shí)別文本和關(guān)聯(lián)口語(yǔ)文本是否已在同步再現(xiàn)模式中被再現(xiàn)了一次,屬于校正設(shè)備的定位裝置將文本光標(biāo)定位于在同步再現(xiàn)模式被中斷的時(shí)刻標(biāo)注的詞的上游的N個(gè)詞或M個(gè)詞。所限定的數(shù)量可以是例如M=3和N=1,作為其結(jié)果,當(dāng)?shù)谝淮卧谒R(shí)別文本中發(fā)現(xiàn)不正確識(shí)別的詞時(shí)將允許校正者的較長(zhǎng)響應(yīng)時(shí)間。這些提供是特別有利的,這是因?yàn)橐坏┩皆佻F(xiàn)模式已被中斷,則文本光標(biāo)通常已被定位于待校正的不正確識(shí)別的詞上,并且手動(dòng)定位文本光標(biāo)所花費(fèi)的時(shí)間可由此被節(jié)省。
現(xiàn)在將參照附圖較為詳細(xì)地描述本發(fā)明,所述附圖將單個(gè)實(shí)施例示出為實(shí)例,但本發(fā)明并不局限于此。
圖1示出用于將口語(yǔ)文本轉(zhuǎn)錄成所識(shí)別文本的轉(zhuǎn)錄設(shè)備,其中校正設(shè)備被提供用于校正所識(shí)別文本。
圖2以符號(hào)形式示出口語(yǔ)文本、轉(zhuǎn)錄設(shè)備識(shí)別的對(duì)應(yīng)文本以及為口語(yǔ)文本的每個(gè)音頻段而標(biāo)記所識(shí)別文本的關(guān)聯(lián)段的鏈接信息。
圖3示出在轉(zhuǎn)錄設(shè)備的命令存儲(chǔ)器級(jí)中存儲(chǔ)的命令表。
圖4示出在轉(zhuǎn)錄設(shè)備的存儲(chǔ)器裝置中存儲(chǔ)的標(biāo)注表。
圖5以符號(hào)形式示出由轉(zhuǎn)錄設(shè)備的用戶口語(yǔ)的文本的五個(gè)實(shí)例。
圖6以符號(hào)形式示出針對(duì)口語(yǔ)文本的所述五個(gè)實(shí)例由轉(zhuǎn)錄設(shè)備的語(yǔ)音識(shí)別裝置識(shí)別的文本,其中所識(shí)別文本的部分已由語(yǔ)音識(shí)別裝置的第一標(biāo)注級(jí)自動(dòng)標(biāo)注,并且用戶已用第二標(biāo)注級(jí)手動(dòng)標(biāo)注了文本的另外部分。
圖7以符號(hào)形式示出針對(duì)所述五個(gè)實(shí)例由轉(zhuǎn)錄設(shè)備的校正設(shè)備顯示的文本,其中所識(shí)別文本的自動(dòng)和手動(dòng)標(biāo)注的文本兩者均被顯示為替換文本。
圖8以符號(hào)形式示出當(dāng)用于文本的經(jīng)標(biāo)注部分的所有替換文本被抑制時(shí)由校正設(shè)備顯示的文本。
圖9以符號(hào)形式示出文本的哪些部分在口語(yǔ)和所識(shí)別文本的第一和隨后的第二同步再現(xiàn)期間被再現(xiàn)。
具體實(shí)施例方式
圖1示出了轉(zhuǎn)錄設(shè)備1,其用于將口語(yǔ)文本GT轉(zhuǎn)錄成所識(shí)別文本ET并用于編輯不正確識(shí)別的所識(shí)別文本ET的部分。轉(zhuǎn)錄設(shè)備1由運(yùn)行語(yǔ)音識(shí)別軟件并形成語(yǔ)音識(shí)別設(shè)備2的第一計(jì)算機(jī)以及第二和第三計(jì)算機(jī)形成,所述第二和第三計(jì)算機(jī)每個(gè)都運(yùn)行文本處理軟件并形成第一校正設(shè)備3和第二校正設(shè)備4以校正尚未被正確識(shí)別的文本部分??梢蕴峒暗氖?,依照本發(fā)明的轉(zhuǎn)錄設(shè)備亦可由形成語(yǔ)音識(shí)別設(shè)備和校正設(shè)備兩者的僅一個(gè)計(jì)算機(jī)來(lái)形成,該計(jì)算機(jī)然后將必須運(yùn)行語(yǔ)音識(shí)別軟件和文本處理軟件兩者。
被連接于形成語(yǔ)音識(shí)別設(shè)備2的第一計(jì)算機(jī)的是話筒5,表示口語(yǔ)文本GT的音頻信號(hào)A可從中被發(fā)出。語(yǔ)音識(shí)別設(shè)備2包含A/D轉(zhuǎn)換器6、語(yǔ)音識(shí)別裝置7、存儲(chǔ)器裝置8、參數(shù)存儲(chǔ)器裝置9、命令存儲(chǔ)器裝置10和適配級(jí)11。由話筒5發(fā)出的音頻信號(hào)A可被饋送給A/D轉(zhuǎn)換器6,其將音頻信號(hào)A轉(zhuǎn)換成數(shù)字音頻數(shù)據(jù)AD。
表示口語(yǔ)文本GT的音頻數(shù)據(jù)AD可被饋送給語(yǔ)音識(shí)別裝置7并可由此被存儲(chǔ)在存儲(chǔ)器裝置8中。當(dāng)語(yǔ)音識(shí)別過(guò)程正在由語(yǔ)音識(shí)別裝置7執(zhí)行時(shí),語(yǔ)音識(shí)別裝置7被安排成確定所識(shí)別文本ET,在參數(shù)存儲(chǔ)器裝置9中存儲(chǔ)的參數(shù)信息PI被考慮這樣做。在此情況下,參數(shù)信息PI包含詞匯信息、語(yǔ)言模型信息和聲學(xué)信息。
詞匯信息包含可由語(yǔ)音識(shí)別裝置7識(shí)別的所有詞加上關(guān)聯(lián)的音素序列。語(yǔ)言模型信息包含統(tǒng)計(jì)信息,其涉及在口語(yǔ)文本GT的語(yǔ)言中的普通詞序列。聲學(xué)信息包含有關(guān)轉(zhuǎn)錄設(shè)備1的用戶的發(fā)音的特定特點(diǎn)和有關(guān)話筒5和A/D轉(zhuǎn)換器6的聲學(xué)特征的信息。
US專利5,031,113的公開(kāi)內(nèi)容被認(rèn)為是引入到本專利的公開(kāi)內(nèi)容中作為參考,并且由于根據(jù)這種參數(shù)信息PI來(lái)執(zhí)行語(yǔ)音識(shí)別過(guò)程被公開(kāi)于所述US專利中,其詳述將不在此被給出。所述語(yǔ)音識(shí)別過(guò)程的結(jié)果是,包含所識(shí)別文本ET的文本數(shù)據(jù)可由語(yǔ)音識(shí)別裝置7存儲(chǔ)在存儲(chǔ)器裝置8中。
在執(zhí)行語(yǔ)音識(shí)別過(guò)程的過(guò)程中,為口語(yǔ)文本GT的每個(gè)部分標(biāo)記由語(yǔ)音識(shí)別裝置7識(shí)別的關(guān)聯(lián)文本ET的鏈接信息LI亦可由語(yǔ)音識(shí)別裝置7來(lái)確定。鏈接信息LI的產(chǎn)生被類似地公開(kāi)于US專利5,031,113中,為此其不在此被詳細(xì)討論。
在圖2中,由作者——也就是通過(guò)語(yǔ)音識(shí)別設(shè)備2的用戶——說(shuō)到話筒5中的文本GT沿時(shí)間軸t以符號(hào)形式被示出。由語(yǔ)音識(shí)別裝置7針對(duì)該口語(yǔ)文本而識(shí)別的文本ET亦被示出。在語(yǔ)音識(shí)別過(guò)程正被執(zhí)行時(shí),口語(yǔ)文本GT被分成包含關(guān)聯(lián)聲學(xué)信息的音頻段AS。這種關(guān)聯(lián)聲學(xué)信息可以是例如詞、兩個(gè)詞之間稍長(zhǎng)的語(yǔ)音暫停、所謂的猶豫聲音如“aah”或“mm”、或者噪聲。
鏈接信息LI標(biāo)記口語(yǔ)文本GT的每個(gè)音頻段AS和所識(shí)別文本ET的關(guān)聯(lián)段TS的開(kāi)頭和結(jié)尾。例如,第一音頻段AS1包含用于口語(yǔ)文本GT的第一詞“The”的持續(xù)1.5秒的聲學(xué)信息,而由鏈接信息LI分配的第一文本段TS1包含由語(yǔ)音識(shí)別裝置7識(shí)別的詞“The”的文本。
命令存儲(chǔ)器級(jí)10將由語(yǔ)音識(shí)別設(shè)備2識(shí)別的詞的序列存為命令。在命令存儲(chǔ)器級(jí)10中存儲(chǔ)的命令表BT的部分被示出于圖3中。通過(guò)參考命令表BT,語(yǔ)音識(shí)別裝置7將例如詞序列“next word bold”識(shí)別為用于待以粗體示出的所識(shí)別文本ET中的接下來(lái)的詞的命令。命令編號(hào)BI12在命令表BT中被指定給該命令。詞序列“insert text of module 1”被類似地識(shí)別為命令,其在此情況下用于待插入到所識(shí)別文本ET中的來(lái)自在命令存儲(chǔ)器級(jí)10中的位置“2341”中的存儲(chǔ)器單元處存儲(chǔ)的文本模塊的標(biāo)準(zhǔn)文本。
語(yǔ)音識(shí)別裝置7進(jìn)一步包括第一標(biāo)注級(jí)12,其被安排用于自動(dòng)確定標(biāo)注信息的不同項(xiàng)并用于將由此確定的標(biāo)注信息MI的項(xiàng)存儲(chǔ)在存儲(chǔ)器裝置8中,標(biāo)注信息MI的所述項(xiàng)標(biāo)記具有與由此標(biāo)注的文本的所有部分共同的某個(gè)特征的所識(shí)別文本ET和口語(yǔ)文本GT的部分。詞“自動(dòng)”在此情況下應(yīng)被理解成指的是“沒(méi)有轉(zhuǎn)錄設(shè)備1的用戶的任何動(dòng)作”。第一標(biāo)注級(jí)12被安排用于用暫停標(biāo)注信息PMI自動(dòng)標(biāo)注稍長(zhǎng)的語(yǔ)音暫停,用猶豫聲音標(biāo)注信息HMI自動(dòng)標(biāo)注猶豫聲音,用命令標(biāo)注信息CMI自動(dòng)標(biāo)注命令,用重復(fù)標(biāo)注信息RMI自動(dòng)標(biāo)注被重復(fù)的詞,用日期標(biāo)注信息DMI自動(dòng)標(biāo)注日期,并用噪聲標(biāo)注信息GMI自動(dòng)標(biāo)注噪聲。
圖4示出在存儲(chǔ)器裝置8中存儲(chǔ)的標(biāo)注表MT,在該表中,由第一標(biāo)注級(jí)12自動(dòng)確定的標(biāo)注信息MI的項(xiàng)由第一標(biāo)注級(jí)12輸入。為了自動(dòng)標(biāo)注所識(shí)別文本ET中的命令,第一標(biāo)注級(jí)12比較命令表BT中包含的詞序列與所識(shí)別文本ET中包含的詞序列。當(dāng)命令表BT中包含的詞序列被發(fā)現(xiàn)于所識(shí)別文本ET中時(shí),則第一標(biāo)注級(jí)12在標(biāo)注表MT中輸入標(biāo)識(shí)該詞序列的所識(shí)別文本ET的那些文本段TS加上關(guān)聯(lián)的命令編號(hào)BI,以作為命令標(biāo)注信息CMI。這在以下參照應(yīng)用實(shí)例而被更詳細(xì)地描述。
可以提及的是,不在標(biāo)注表MT中標(biāo)識(shí)所識(shí)別文本ET的某些文本段TS,而在每種情況下,對(duì)于口語(yǔ)文本GT的適當(dāng)音頻段AS來(lái)說(shuō),亦將有可能被輸入。在每種情況下,音頻段AS和關(guān)聯(lián)的文本段TS可借助于鏈接信息LI來(lái)確定。
語(yǔ)音識(shí)別裝置7被安排成識(shí)別兩個(gè)詞之間的語(yǔ)音上的暫停(無(wú)聲),而第一標(biāo)注級(jí)12被安排成用標(biāo)注表MT中的暫停標(biāo)注信息PMI來(lái)自動(dòng)標(biāo)注口語(yǔ)文本GT的對(duì)應(yīng)音頻段AS。
第一標(biāo)注級(jí)12被安排成比較在第一標(biāo)注級(jí)12中存儲(chǔ)的猶豫聲音(例如“aah”或“mhh”)與在所識(shí)別文本ET中包含的詞,并用猶豫聲音標(biāo)注信息ZMI來(lái)自動(dòng)標(biāo)注包含這種猶豫聲音的所識(shí)別文本ET的文本段TS。
第一標(biāo)注級(jí)12亦被安排成用噪聲標(biāo)注信息GMI來(lái)自動(dòng)標(biāo)注口語(yǔ)文本GT的音頻段AS,如果這些音頻段AS包含噪聲和/或聲音的話。為此,標(biāo)注級(jí)12包含噪聲檢測(cè)器,其能鑒別噪聲和/或聲音與包含詞的音頻段。
為了用重復(fù)標(biāo)注信息RMI來(lái)標(biāo)注所識(shí)別文本ET中的重復(fù)詞,第一標(biāo)注級(jí)12被安排成比較所識(shí)別文本ET中的相互跟隨的詞序列或詞。標(biāo)注表MT亦包含日期標(biāo)注信息DMI,其在以下參照應(yīng)用實(shí)例而被更詳細(xì)地描述。
轉(zhuǎn)錄設(shè)備1的第一校正設(shè)備3包括再現(xiàn)裝置12,其與存儲(chǔ)器裝置8和命令存儲(chǔ)器級(jí)10一起由運(yùn)行文本處理軟件的第二計(jì)算機(jī)形成。亦被連接于第二計(jì)算機(jī)的是監(jiān)視器14、鍵盤15和揚(yáng)聲器16,它們被類似地關(guān)聯(lián)于第一校正設(shè)備3。當(dāng)同步再現(xiàn)模式被激活于第一校正設(shè)備3中時(shí),再現(xiàn)裝置13被安排用于聲學(xué)再現(xiàn)口語(yǔ)文本GT并用于同時(shí)可視地或在光學(xué)上標(biāo)注由鏈接信息LI標(biāo)記的關(guān)聯(lián)的所識(shí)別文本ET。
在被激活的同步再現(xiàn)模式下對(duì)所識(shí)別文本ET的校正再次被公開(kāi)于US專利5,031,113中,并已被證明在實(shí)踐中是很有利的。在此情況下,校正者——也就是說(shuō)正在校正所識(shí)別文本ET的第一校正設(shè)備3的用戶——可在相同時(shí)間聽(tīng)取由作者說(shuō)到話筒5中的文本GT并檢查或編輯由語(yǔ)音識(shí)別裝置7針對(duì)其而識(shí)別的文本ET。所識(shí)別文本ET在光學(xué)上被顯示于監(jiān)視器14上,而針對(duì)剛才在聲學(xué)上再現(xiàn)的口語(yǔ)詞而由語(yǔ)音識(shí)別裝置7識(shí)別的詞在光學(xué)上被再現(xiàn)裝置13標(biāo)注并被相應(yīng)地顯示于監(jiān)視器14上。校正者可用鍵盤15來(lái)激活、中斷和停用同步再現(xiàn)模式并編輯所識(shí)別文本ET。
第二校正設(shè)備4的構(gòu)造基本上與在圖1中詳細(xì)示出的第一校正設(shè)備3相同,為此在圖1中第二校正設(shè)備4僅被示出為方塊。然而,第二校正設(shè)備4另外具有存儲(chǔ)器裝置和命令存儲(chǔ)器裝置,在其中,被存儲(chǔ)于存儲(chǔ)器裝置8和命令存儲(chǔ)器級(jí)10中的信息在用第一校正設(shè)備3校正的所識(shí)別文本ET被編輯之前被存儲(chǔ)。
第二校正設(shè)備4可由例如檢查者——即第二校正設(shè)備4的用戶——來(lái)使用,其在被存儲(chǔ)于存儲(chǔ)器裝置8中的所識(shí)別文本ET已由校正者校正之后檢查校正者所做工作的質(zhì)量。為此,檢查者進(jìn)行檢查以了解校正者是否錯(cuò)過(guò)了所識(shí)別文本ET中的任何錯(cuò)誤。這樣的檢查者主要由轉(zhuǎn)錄公司來(lái)使用,其通過(guò)隨機(jī)檢查經(jīng)校正的所識(shí)別文本來(lái)確保所轉(zhuǎn)錄文本的質(zhì)量。這被參照轉(zhuǎn)錄設(shè)備1的應(yīng)用實(shí)例而詳述。
轉(zhuǎn)錄設(shè)備1的再現(xiàn)裝置13進(jìn)一步包括第二標(biāo)注級(jí)17,其與鍵盤15和第一標(biāo)注級(jí)12一起形成標(biāo)注裝置,用于自動(dòng)和手動(dòng)標(biāo)注口語(yǔ)文本GT或所識(shí)別文本ET的部分。有了第二標(biāo)注級(jí)17,校正者在校正所識(shí)別文本ET時(shí)具有手動(dòng)標(biāo)注未被自動(dòng)標(biāo)注的文本的另外部分的機(jī)會(huì)。
另一方面,對(duì)文本部分的這種手動(dòng)標(biāo)注可被用于手動(dòng)標(biāo)注具有與已被自動(dòng)標(biāo)注的文本部分相同的特征的所識(shí)別文本的部分,從而允許借助于適配級(jí)11來(lái)適配在命令表BT中存儲(chǔ)的信息或參數(shù)信息PI。這種適配實(shí)現(xiàn)了下一次第一標(biāo)注級(jí)12將能自動(dòng)標(biāo)注已被手動(dòng)標(biāo)注的文本部分。另外,語(yǔ)音識(shí)別設(shè)備2的識(shí)別速率借助每個(gè)適配而被提高。作為結(jié)果,獲得了以下優(yōu)點(diǎn)轉(zhuǎn)錄設(shè)備可減少校正者在每個(gè)進(jìn)一步的使用時(shí)必須做的越來(lái)越多的工作。
另一方面,對(duì)文本部分的這種手動(dòng)標(biāo)注可被用于將文本部分標(biāo)注為被刪除,其然后將不出現(xiàn)在被傳輸給作者的所識(shí)別文本中,但不是被完全刪除。將文本的一部分標(biāo)注為被刪除具有以下優(yōu)點(diǎn)如果有必要的話,這樣的文本部分可在稍后的階段被再次包括在所識(shí)別文本中,并且檢查者可檢查對(duì)于待刪除的這些文本部分,其是否正確。然而,特別有利的是,由口語(yǔ)文本GT和所識(shí)別文本ET之間的鏈接信息提供的連接仍保持完全原封不動(dòng),這是因?yàn)闆](méi)有所識(shí)別文本ET的部分被實(shí)際上刪除。因此,當(dāng)同步再現(xiàn)模式被激活時(shí),在被標(biāo)注為被刪除的口語(yǔ)文本GT的部分正在聲學(xué)上被再現(xiàn)的同時(shí),替換文本可在光學(xué)上被標(biāo)注,而不是文本的被刪除部分,這在以下被詳述。
借助手動(dòng)標(biāo)注具有相同特征的文本部分對(duì)自動(dòng)標(biāo)注文本部分的這種補(bǔ)充提供了以下進(jìn)一步的優(yōu)點(diǎn)經(jīng)編輯的所識(shí)別文本ET可以以特別有效的方式被進(jìn)一步編輯。這樣,例如,對(duì)被標(biāo)注為日期的所識(shí)別文本的所有部分的格式化可特別有效地被一致地修改(uniformly amend),如在以下所詳述的。
標(biāo)注裝置的第二標(biāo)注級(jí)17亦被安排用于將再現(xiàn)標(biāo)注信息WMI存儲(chǔ)在存儲(chǔ)器裝置8中,該再現(xiàn)標(biāo)注信息WMI標(biāo)記在激活的同步再現(xiàn)模式下已由再現(xiàn)裝置13再現(xiàn)了至少一次的口語(yǔ)文本GT和/或所識(shí)別文本ET的那些部分。
作為結(jié)果,獲得了以下優(yōu)點(diǎn)通過(guò)評(píng)價(jià)在標(biāo)注表MT中包含的再現(xiàn)標(biāo)注信息WMI,再現(xiàn)裝置13能可視地標(biāo)注已借助于同步再現(xiàn)模式校正了至少一次的所識(shí)別文本ET的部分,或者在聲學(xué)上標(biāo)注口語(yǔ)文本GT的關(guān)聯(lián)部分。作為結(jié)果,依照本發(fā)明的校正設(shè)備的用戶能顯然較為有效地校正所識(shí)別文本,這在以下參照應(yīng)用實(shí)例而被詳述。
當(dāng)同步再現(xiàn)模式被激活時(shí),再現(xiàn)裝置13被進(jìn)一步安排成抑制口語(yǔ)文本GT的不想要的部分的聲學(xué)再現(xiàn),所述不想要的部分由在存儲(chǔ)器裝置8中存儲(chǔ)的抑制信息來(lái)標(biāo)記。這正是該情況,校正者可使用鍵盤15來(lái)設(shè)置包含在標(biāo)注表MT中的標(biāo)注信息MI的哪些項(xiàng)應(yīng)被用作抑制信息。例如,用戶可選擇暫停標(biāo)注信息PMI和猶豫聲音標(biāo)注信息HMI作為抑制信息,從而使當(dāng)口語(yǔ)文本GT被第一次回放時(shí),由此被標(biāo)注的文本部分被抑制。這被參照應(yīng)用實(shí)例而詳述。
現(xiàn)在將參照?qǐng)D3到9中所示的應(yīng)用實(shí)例在以下詳細(xì)說(shuō)明轉(zhuǎn)錄設(shè)備1的優(yōu)點(diǎn)。圖5示出由作者說(shuō)到話筒5中的文本GT的五個(gè)部分。圖6示出針對(duì)口語(yǔ)文本GT的五個(gè)部分由語(yǔ)音識(shí)別裝置7識(shí)別的文本ET,其中所識(shí)別文本ET的部分已由第一標(biāo)注級(jí)12自動(dòng)標(biāo)注。亦在圖6中示出了由校正者借助于第二標(biāo)注級(jí)17而手動(dòng)標(biāo)注的文本部分。圖7以自動(dòng)和手動(dòng)標(biāo)注的文本部分被示出為用替換文本替換的形式示出了所識(shí)別文本ET。圖8以文本的所有被標(biāo)注的部分已被抑制的形式示出了所識(shí)別文本ET,以這種形式,所識(shí)別文本ET被傳輸給作者。
在第一實(shí)例中,作者想要將文本“...company PHILIPS...”說(shuō)出到話筒中并在相同時(shí)間將詞“PHILIPS”標(biāo)注為粗體。然而,在詞“company”之后,作者對(duì)什么樣的措詞正好用于粗體格式化的命令而簡(jiǎn)短地反映,并且在他這樣做時(shí),他象許多作者一樣發(fā)出猶豫聲音“aah”。作者然后說(shuō)出“bold next”,但在他這樣做時(shí),他想起用于該命令的正確詞序列是“next word bold”,為此他說(shuō)出“no”。他然后說(shuō)出正確命令“next wordbold”并以詞“PHILIPS”來(lái)繼續(xù)文本。
如可從圖6看到的,語(yǔ)音識(shí)別裝置7針對(duì)音頻段AS3而識(shí)別文本段TS3=“aah”,并且在標(biāo)注表MT的第四行中,第一標(biāo)注級(jí)12用猶豫聲音標(biāo)注信息HMI自動(dòng)標(biāo)注這個(gè)猶豫聲音。不是猶豫聲音而是替換文本“<hes>”被示出于圖6中,其允許校正者看到猶豫聲音已被標(biāo)注于該點(diǎn)。當(dāng)標(biāo)記所識(shí)別文本ET時(shí),如果校正者將再現(xiàn)裝置13的文本光標(biāo)定位于該替換文本上,則由語(yǔ)音識(shí)別裝置7識(shí)別的猶豫聲音被顯示。作為結(jié)果,獲得了以下優(yōu)點(diǎn)當(dāng)校正時(shí),校正者可集中在所識(shí)別文本ET的基本部分上,但如果他想要知道作者在這里發(fā)出了什么猶豫聲音以使他可校正相鄰于該猶豫聲音的詞,則他能在任何時(shí)間看到該聲音。
還有,語(yǔ)音識(shí)別裝置7現(xiàn)在已針對(duì)音頻段AS7-AS9識(shí)別了由文本段TS7-TS9形成的詞序列“next word bold”,在命令表BT中具有命令編號(hào)BI12的命令被指定給它。第一標(biāo)注級(jí)12有利地自動(dòng)輸入這些文本段和標(biāo)注表MT的第四行中的這個(gè)命令編號(hào)而作為命令標(biāo)注信息CMI。在圖6中,替換文本“<com>”而不是這些文本段被示出,作為其結(jié)果,獲得了以上提及的優(yōu)點(diǎn)。還有,命令BI12被執(zhí)行,并且形成針對(duì)音頻段AS10而識(shí)別的文本段TS10的詞“PHILIPS”被以粗體顯示。
通過(guò)使用鍵盤15和第二標(biāo)注級(jí)17,校正者現(xiàn)在將文本段TS4和TS5標(biāo)注為具有命令編號(hào)BI12的命令,因此下一次詞序列“bold next”將由第一標(biāo)注級(jí)12自動(dòng)識(shí)別為命令。在圖7中,文本的該部分類似地由用于命令的替換文本“<com>”來(lái)表示。
通過(guò)使用命令編號(hào)BI12,第二標(biāo)注級(jí)17在標(biāo)注表MT的第五行中輸入該詞序列TS4+TS5作為命令標(biāo)注信息CMI。當(dāng)適配模式被激活于語(yǔ)音識(shí)別設(shè)備2中時(shí),適配級(jí)11從存儲(chǔ)器裝置8中讀取新的命令標(biāo)注信息CMI并為具有命令編號(hào)BI12的命令在命令表BT中進(jìn)行進(jìn)一步的輸入。
這給出了以下優(yōu)點(diǎn)校正者可以特別容易且有效地將另外的詞序列定義為命令,這些詞序列在適配模式下由語(yǔ)音識(shí)別設(shè)備2來(lái)接管(takeover)。當(dāng)下一次執(zhí)行語(yǔ)音識(shí)別過(guò)程時(shí),詞序列“bold next”將由此被自動(dòng)識(shí)別為命令。
借助鍵盤15和第二標(biāo)注級(jí)17,校正者現(xiàn)在繼續(xù)將文本段TS6“no”標(biāo)注為被刪除的文本,這是因?yàn)樗芽吹阶髡邿o(wú)意中說(shuō)出該詞并且它不應(yīng)被包括在傳輸給作者的最終文本中。用于該被刪除文本的替換文本“<skip>”被示出于圖7中。
可以提及的是,校正者亦可將文本段TS4-TS6標(biāo)注為被刪除的文本,這是因?yàn)榫哂忻罹幪?hào)BI12的命令不應(yīng)出現(xiàn)兩次。
將文本段TS6手動(dòng)標(biāo)注為被刪除的文本給出了以下優(yōu)點(diǎn)即使在借助例如第二校正設(shè)備4執(zhí)行的隨后的同步再現(xiàn)模式期間,由鏈接信息LI提供的相關(guān)性亦將被完全保留,并且同步再現(xiàn)將由此沒(méi)有錯(cuò)誤地進(jìn)行。
圖8示出在第一實(shí)例中最終被傳輸給作者的所識(shí)別文本“...companyPHILIPS...”,該文本是作者真正所指的,而不管猶豫聲音、一個(gè)無(wú)意中說(shuō)的詞和錯(cuò)誤的命令。
在第二實(shí)例中,作者想要說(shuō)到話筒5中的文本是“...I fixed the leftleg...”,但在此情況下他在音頻段AS20之后反映并沉默三秒,這由第一標(biāo)注級(jí)12自動(dòng)識(shí)別為暫停并在標(biāo)注表MT中輸入為暫停標(biāo)注信息PMI。用于反映的該暫停的替換文本“<sil>”被示出于圖6中。
在所述暫停之后,作者重復(fù)詞“I”,其由第一標(biāo)注級(jí)12自動(dòng)識(shí)別為重復(fù)詞并在標(biāo)注表MT中輸入為重復(fù)標(biāo)注信息RMI。用于文本段TS22的替換文本“<rep>”被示出于圖6中。
在重復(fù)詞之后,作者說(shuō)出“fixed the left”,然后進(jìn)行另一個(gè)暫停以便于反映,并且最終說(shuō)出“the left leg”。用于反映的該暫停再次由第一標(biāo)注級(jí)12自動(dòng)標(biāo)注,但詞“the left”的重復(fù)不能被自動(dòng)識(shí)別和標(biāo)注。校正者現(xiàn)在將文本段TS26-TS28手動(dòng)標(biāo)注為重復(fù)詞,由此使對(duì)應(yīng)的重復(fù)標(biāo)注信息RMI被輸入于標(biāo)注表MT中。
圖8示出在第二實(shí)例中最終被傳輸給作者的所識(shí)別文本“...the leftleg...”,因此這是作者真正所指的,而不管重復(fù)詞和用于反映的暫停。作為除了自動(dòng)標(biāo)注以外還執(zhí)行的手動(dòng)標(biāo)注的結(jié)果,所有重復(fù)詞被標(biāo)注于所識(shí)別文本中,并且借助進(jìn)一步的處理,它們可例如全部被抑制于顯示上或被用于適配模式。
在第三實(shí)例中,作者想要說(shuō)出到話筒5中的文本是“...and companyPHILIPS will...”,但他在詞“and”之后不得不打噴嚏。音頻段AS51因此包含了作者在打噴嚏時(shí)發(fā)出的噪聲。語(yǔ)音識(shí)別裝置7不能識(shí)別用于該音頻段AS51的詞,并且因此第一標(biāo)注級(jí)12用噪聲標(biāo)注信息GMI將該音頻段AS51自動(dòng)標(biāo)注為噪聲并同樣在標(biāo)注表MT中輸入它。替換文本“<non sp>”被示出于圖6中。
在其噴嚏之后,作者花費(fèi)五秒來(lái)尋找其手絹然后擤其鼻子。音頻段AS52又被自動(dòng)標(biāo)注為暫停并同樣被輸入于標(biāo)注表MT中。當(dāng)擤其鼻子時(shí)作者發(fā)出的噪聲類似于噪聲“tata”,并因此語(yǔ)音識(shí)別裝置7不正確地將詞“that”識(shí)別為文本段TS53。
有利地,當(dāng)同步再現(xiàn)模式被激活時(shí)立即識(shí)別出所述錯(cuò)誤的校正者能用噪聲標(biāo)注信息GMI將文本段TS53標(biāo)注為噪聲。由此獲得了以下優(yōu)點(diǎn)所識(shí)別文本ET中的所有噪聲事實(shí)上同樣被標(biāo)注于第三實(shí)例中,并可在進(jìn)一步的處理階段中以相同方式被全部處理。第一標(biāo)注級(jí)12的噪聲檢測(cè)器可例如用文本的這些被標(biāo)注的部分來(lái)適配以使這樣的噪聲可在將來(lái)被自動(dòng)識(shí)別。
在第四實(shí)例中,在他實(shí)際上正在口述時(shí),作者想要將被存為名為“模塊1”的命令存儲(chǔ)器級(jí)10中的文本模塊的標(biāo)準(zhǔn)文本插入到所識(shí)別文本ET中。為此,作者口述“...is the best.Insert text module one.All...”。被識(shí)別的文本段TS73-TS76被識(shí)別為具有命令編號(hào)BI13的命令,并且替換文本“<module 1>”被示出于圖6中。
這給出了以下優(yōu)點(diǎn)文本模塊已經(jīng)以特別簡(jiǎn)單的方式被自動(dòng)插入于所識(shí)別文本ET中。在此情況下,校正者或檢查者可有利地在三種類型的顯示之間選擇。他可看到實(shí)際上被識(shí)別的文本——文本段TS73-TS76——或替換文本,或者在圖8中看到的從命令存儲(chǔ)器級(jí)10被添加的標(biāo)準(zhǔn)文本。
在第五實(shí)例中,作者說(shuō)到話筒5中的文本是“...tenth of October twothousand and one...”。第一標(biāo)注級(jí)12將已自動(dòng)識(shí)別并標(biāo)注為日期的該詞序列將已經(jīng)是“October tenth two thousand and one”。然而,口語(yǔ)的詞序列不被識(shí)別為日期,并因此校正者用日期標(biāo)注信息DMI將文本段TS80-TS86標(biāo)注為日期。
這給出了以下優(yōu)點(diǎn)在所識(shí)別文本中已被自動(dòng)或手動(dòng)標(biāo)注為日期的文本的所有部分的格式可在隨后的處理工作中以特別容易且統(tǒng)一的方式而變更。為此,校正者可例如選擇用日期標(biāo)注信息DMI標(biāo)注的所有日期應(yīng)當(dāng)以格式“MM.DD.YYYY”來(lái)示出。
現(xiàn)在將參照?qǐng)D9來(lái)說(shuō)明第一校正設(shè)備3的應(yīng)用實(shí)例。在該實(shí)例中假定校正者激活同步再現(xiàn)模式,基于此,分別從音頻段AS1和文本段TS1開(kāi)始,口語(yǔ)文本GT和所識(shí)別文本ET被第一次同步再現(xiàn)。這在符號(hào)上由箭頭P1來(lái)表示。校正者已經(jīng)以以下方式配置了再現(xiàn)裝置13在第一再現(xiàn)期間,用于用暫停標(biāo)注信息PMI、猶豫聲音標(biāo)注信息HMI和噪聲標(biāo)注信息GMI來(lái)標(biāo)注的那些文本部分的音頻段不在聲學(xué)上被再現(xiàn)。這允許校正者特別快地再現(xiàn)口語(yǔ)文本GT并在相同時(shí)間內(nèi)校正較多的所識(shí)別文本ET。
在再現(xiàn)期間,標(biāo)注表MT中的再現(xiàn)標(biāo)注信息WMI被連續(xù)更新。在音頻段AS53(作者擤其鼻子)剛好正在聲學(xué)上被再現(xiàn)并且文本段TS53正被可視地標(biāo)注的時(shí)刻,校正者看到詞“that”尚未被正確識(shí)別。此時(shí)文本光標(biāo)的位置在圖9中由P2在符號(hào)上指示。然而,由于校正者不能肯定什么是真正應(yīng)當(dāng)已被識(shí)別的,他從音頻段AS50再次激活同步再現(xiàn)模式。這在圖9中由箭頭P3在符號(hào)上指示。
再現(xiàn)裝置13現(xiàn)在從在標(biāo)注表MT的第四行中輸入的再現(xiàn)標(biāo)注信息WMI識(shí)別出音頻段AS1到AS53已在同步再現(xiàn)模式下被再現(xiàn)了一次,并因此在聲學(xué)上再現(xiàn)所有音頻段AS50到AS53。這在圖9中由箭頭P4在符號(hào)上指示。僅從音頻段S54的再現(xiàn)開(kāi)始——見(jiàn)箭頭P5——被標(biāo)記的文本(PMI、GMI、HMI)將在聲學(xué)再現(xiàn)期間被再次抑制。
這給出了以下優(yōu)點(diǎn)口述的所有音頻段AS被再現(xiàn)于口述中的這樣的通道(passage)中在這里校正者需要可用于使其能正確校正所識(shí)別文本ET的所有標(biāo)注信息。在校正者可通過(guò)僅聽(tīng)取它們一次而校正的其它通道中,不必要的音頻段AS被抑制。
類似地,當(dāng)口語(yǔ)文本ET被第一次再現(xiàn)時(shí),用于文本的所標(biāo)注部分的替換文本可有利地被顯示,并且僅當(dāng)再現(xiàn)被重復(fù)時(shí),可對(duì)實(shí)際上被識(shí)別的文本ET自動(dòng)進(jìn)行切換。
對(duì)在同步再現(xiàn)模式下已被再現(xiàn)了一次的文本部分的自動(dòng)標(biāo)注得到了進(jìn)一步的顯著優(yōu)點(diǎn)。通過(guò)隨機(jī)取樣來(lái)確定校正者多好地校正了所識(shí)別文本ET是檢查者的事情。在這一點(diǎn)上,再現(xiàn)標(biāo)注信息WMI對(duì)檢查者是很有用的。這是因?yàn)?,檢查者可立即識(shí)別校正者已借助于同步再現(xiàn)模式檢查了文本的哪些部分以及他已跳過(guò)并因此有可能根本沒(méi)有檢查文本的哪些部分。檢查者可由此對(duì)未用再現(xiàn)標(biāo)注信息WMI標(biāo)注的文本部分進(jìn)行專門檢查以了解在所識(shí)別文本ET中是否有任何錯(cuò)誤。
如果校正者在其工作中被中斷并想要在稍后的時(shí)間點(diǎn)繼續(xù)進(jìn)行,則再現(xiàn)標(biāo)注信息WMI亦是有利的。作為對(duì)由再現(xiàn)標(biāo)注信息WMI標(biāo)記的文本的聲學(xué)標(biāo)注(例如作為口語(yǔ)文本的背景的連續(xù)音調(diào))或可視標(biāo)注(例如以相反字符示出的所識(shí)別文本)的結(jié)果,校正者可立即繼續(xù)進(jìn)行其工作。
第一校正設(shè)備3亦具有定位裝置18,其被提供以允許在同步再現(xiàn)模式被中斷以校正不正確識(shí)別的詞時(shí),標(biāo)注文本輸入位置的文本光標(biāo)被定位,定位裝置18被安排成在同步再現(xiàn)模式被中斷時(shí)將文本光標(biāo)定位于在所識(shí)別文本ET中被標(biāo)注的詞的上游的N個(gè)詞,如果所識(shí)別文本的該部分已用再現(xiàn)標(biāo)注信息WMI標(biāo)注的話;并且定位裝置18被安排成在同步再現(xiàn)模式被中斷時(shí)將文本光標(biāo)定位于在所識(shí)別文本ET中被標(biāo)注的詞的上游的M個(gè)詞,如果所識(shí)別文本ET的該部分尚未用再現(xiàn)標(biāo)注信息WMI標(biāo)注的話。
所限定的數(shù)量可以是例如M=3和N=1,作為其結(jié)果,當(dāng)?shù)谝淮卧谒R(shí)別文本ET中發(fā)現(xiàn)不正確識(shí)別的詞時(shí)將允許校正者的較長(zhǎng)響應(yīng)時(shí)間。這些提供是特別有利的,這是因?yàn)橐坏┩皆佻F(xiàn)模式已被中斷,則文本光標(biāo)通常已被定位于不正確識(shí)別的詞上,并且手動(dòng)定位文本光標(biāo)所花費(fèi)的時(shí)間可由此被節(jié)省。這將使M和N的有利值的許多其它組合對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)是顯而易見(jiàn)的。
如果定位裝置18被安排成自我教導(dǎo)(self-teaching),則是特別有利的。在此情況下,在同步再現(xiàn)模式已被中斷之后,定位裝置18將從校正者做出的定位條目(entry)來(lái)確定用于N和M的最佳值,并且將連續(xù)將其適配于用戶的響應(yīng)時(shí)間。
適配級(jí)11亦可被用于適配在參數(shù)存儲(chǔ)器裝置9中存儲(chǔ)的參數(shù)信息PI。這給出了以下優(yōu)點(diǎn)語(yǔ)音識(shí)別裝置7的識(shí)別速率被穩(wěn)定地提高并且較少的錯(cuò)誤被包含于所識(shí)別文本ET中。
如可從以上應(yīng)用實(shí)例看到的,各個(gè)音頻段或文本段可由一項(xiàng)甚至多項(xiàng)標(biāo)注信息MI來(lái)標(biāo)注。這允許所識(shí)別文本在所謂的水平下以有利的方式被處理。在此情況下,例如在命令中包含的猶豫聲音可以以與被標(biāo)注為猶豫聲音的所識(shí)別文本ET的所有其它部分相同的方式(例如抑制、刪除、替換文本顯示、所識(shí)別文本顯示)來(lái)編輯。這也不干擾對(duì)包含猶豫聲音的命令的編輯。如果文本部分是用多項(xiàng)標(biāo)注信息MI來(lái)標(biāo)注的,則因此對(duì)于這些水平來(lái)說(shuō)亦變得有可能在光學(xué)上被顯示。
可以提及的是,依照本發(fā)明對(duì)文本的自動(dòng)和手動(dòng)標(biāo)注可借助標(biāo)注信息MI的多個(gè)不同項(xiàng)來(lái)實(shí)施。這種標(biāo)注信息MI的項(xiàng)可以是例如AutoPunctuation(自動(dòng)標(biāo)點(diǎn)),Silence(沉默),Nonspeech(沒(méi)有語(yǔ)音),Noise(噪音),Music(音樂(lè)),Spelling(拼寫(xiě)),Hesitation(猶豫),Insertion(插入),NumberFormating(號(hào)格式化),DateFormating(日期格式化),HeaderFormating(頭部格式化),EnumerationFormating(枚舉格式化),QuantityFormating(數(shù)量格式化),SelfCorrection(自校正),PhraseRepetition(短語(yǔ)重復(fù)),Stutter(結(jié)巴),Discursiveness(離題的),SpellingSequence(拼寫(xiě)序列),RedundantPhrase(冗余短語(yǔ)),NotUnderstood(不理解),Remark(注釋),Deletion(刪除),Command(命令)。
可以提及的是,對(duì)文本部分的標(biāo)注不必如以上借助表來(lái)說(shuō)明的而進(jìn)行,而可替換的是,可以以樹(shù)結(jié)構(gòu)的形式來(lái)進(jìn)行。在此情況下,又包含進(jìn)一步的被標(biāo)注文本段的被標(biāo)注文本段將以類似于樹(shù)的形式被示出于分枝上。
可以提及的是,甚至可在執(zhí)行語(yǔ)音識(shí)別過(guò)程的同時(shí)而不是之后進(jìn)行自動(dòng)標(biāo)注。
可以提及的是,例如,僅語(yǔ)音識(shí)別裝置7難以識(shí)別的文本的所有部分——即在識(shí)別中可能有大量錯(cuò)誤——可由第一標(biāo)注級(jí)12自動(dòng)標(biāo)注,而在同步再現(xiàn)模式下校正者難以識(shí)別的文本的所有部分可被手動(dòng)標(biāo)注,從而向口語(yǔ)文本的作者或檢查者提示文本的這些被標(biāo)注部分以用于檢查的目的。這是傳遞涉及所識(shí)別文本的信息的特別有利的方式。
權(quán)利要求
1.一種校正設(shè)備(3、4),用于從口語(yǔ)文本(GT)來(lái)校正由語(yǔ)音識(shí)別設(shè)備(2)識(shí)別的文本(ET),其中用于口語(yǔ)文本(GT)的每個(gè)部分的鏈接信息(LI)項(xiàng)標(biāo)記關(guān)聯(lián)的所識(shí)別文本(ET),該校正設(shè)備具有存儲(chǔ)器裝置(8),用于存儲(chǔ)至少口語(yǔ)文本(GT)和所識(shí)別文本(ET),并具有再現(xiàn)裝置(13),當(dāng)同步再現(xiàn)模式被激活于校正設(shè)備(3、4)中時(shí),用于在聲學(xué)上再現(xiàn)口語(yǔ)文本(GT)并同時(shí)可視地標(biāo)注由鏈接信息(LI)標(biāo)記的關(guān)聯(lián)的所識(shí)別文本(ET),并具有標(biāo)注裝置(12、15、17),用于在存儲(chǔ)器裝置(8)中存儲(chǔ)標(biāo)注信息(WMI),當(dāng)同步再現(xiàn)模式被激活時(shí),該標(biāo)注信息(WMI)標(biāo)記由再現(xiàn)裝置(13)再現(xiàn)至少一次的口語(yǔ)文本(GI)和/或所識(shí)別文本(ET)的那些部分。
2.權(quán)利要求1的校正設(shè)備(3、4),其中當(dāng)同步再現(xiàn)模式被激活時(shí),再現(xiàn)裝置(13)被安排成抑制口語(yǔ)文本(GT)的不想要的部分的聲學(xué)再現(xiàn),所述不想要的部分由在存儲(chǔ)器裝置(8)中存儲(chǔ)的抑制信息(PMI、HMI、GMI、DMI、RMI)來(lái)標(biāo)記。
3.權(quán)利要求2的校正設(shè)備(3、4),其中當(dāng)同步再現(xiàn)模式被激活時(shí),再現(xiàn)裝置(13)被安排成在聲學(xué)上再現(xiàn)由抑制信息(PMI、HMI、GMI、DMI、RMI)標(biāo)記的口語(yǔ)文本(GT)的不想要的部分,如果這些不想要的部分亦由標(biāo)注信息(WMI)標(biāo)記的話。
4.權(quán)利要求2的校正設(shè)備(3、4),其中由抑制信息(PMI、HMI、RMI)標(biāo)記的口語(yǔ)文本(GT)的不想要的部分由口語(yǔ)文本(GT)中的暫停、重復(fù)詞或猶豫聲音形成。
5.權(quán)利要求1的校正設(shè)備(3、4),其中再現(xiàn)裝置(13)被安排用于可視地標(biāo)注由標(biāo)注信息(WMI)標(biāo)記的所識(shí)別文本(ET)的那些部分。
6.權(quán)利要求1的校正設(shè)備(3、4),其中定位裝置(18)被提供用于在同步再現(xiàn)模式被中斷以校正不正確識(shí)別的詞時(shí),定位識(shí)別文本輸入位置的文本光標(biāo)(P2),并且其中定位裝置(18)被安排成將文本光標(biāo)定位于在同步再現(xiàn)模式被中斷時(shí)被標(biāo)注的所識(shí)別文本(ET)的詞的上游的N個(gè)詞,如果所識(shí)別文本(ET)的該部分已用再現(xiàn)標(biāo)注信息(WMI)標(biāo)記的話;并且其中定位裝置(18)被安排成將文本光標(biāo)定位于在同步再現(xiàn)模式被中斷時(shí)被標(biāo)注的所識(shí)別文本ET的詞的上游的M個(gè)詞,如果所識(shí)別文本(ET)的該部分尚未用再現(xiàn)標(biāo)注信息(WMI)標(biāo)記的話。
7.一種從口語(yǔ)文本(GT)來(lái)校正由語(yǔ)音識(shí)別設(shè)備(2)識(shí)別的文本(ET)的方法,其中用于口語(yǔ)文本(GT)的每個(gè)部分的鏈接信息(LI)項(xiàng)標(biāo)記關(guān)聯(lián)的所識(shí)別文本(ET),并且其中以下步驟被執(zhí)行存儲(chǔ)至少口語(yǔ)文本(GT)和所識(shí)別文本(ET);當(dāng)同步再現(xiàn)模式被激活時(shí),在聲學(xué)上再現(xiàn)口語(yǔ)文本(GT)并同時(shí)可視地標(biāo)注由鏈接信息(LI)標(biāo)記的關(guān)聯(lián)的所識(shí)別文本(ET);存儲(chǔ)標(biāo)注信息(WMI),當(dāng)同步再現(xiàn)模式被激活時(shí),該標(biāo)注信息(WMI)標(biāo)記之前被再現(xiàn)了至少一次的口語(yǔ)文本(GT)和/或所識(shí)別文本(ET)的那些部分。
8.權(quán)利要求7的校正方法,其中以下進(jìn)一步的步驟被執(zhí)行當(dāng)同步再現(xiàn)模式被激活時(shí),抑制口語(yǔ)文本(GT)的不想要的部分的聲學(xué)再現(xiàn),所述不想要的部分由所存的抑制信息(PMI、HMI、GMI、DMI、RMI)來(lái)標(biāo)記。
9.權(quán)利要求8的校正方法,其中以下進(jìn)一步的步驟被執(zhí)行當(dāng)同步再現(xiàn)模式被激活時(shí),在聲學(xué)上再現(xiàn)由抑制信息(PMI、HMI、GMI、DMI、RMI)標(biāo)記的口語(yǔ)文本(GT)的不想要的部分,如果這些不想要的部分另外地由標(biāo)注信息(WMI)標(biāo)記的話。
全文摘要
在用于從口語(yǔ)文本(GT)來(lái)校正由語(yǔ)音識(shí)別設(shè)備(2)識(shí)別的文本(ET)的校正設(shè)備(3、4)中,標(biāo)注裝置(12、15、17)被提供用于將標(biāo)注信息(WMI)存儲(chǔ)在存儲(chǔ)器裝置(8)中,所述標(biāo)注信息(WMI)標(biāo)記在同步再現(xiàn)模式下由再現(xiàn)裝置(13)再現(xiàn)了至少一次的口語(yǔ)文本(GT)和/或所識(shí)別文本(ET)的那些部分。以這種方式,已被再現(xiàn)一次的口語(yǔ)文本(GT)和/或所識(shí)別文本(ET)的部分可被在聲學(xué)上或可視地標(biāo)注,并且根據(jù)再現(xiàn)是第一次進(jìn)行或是被重復(fù),不同的部分可被再現(xiàn)。
文檔編號(hào)G10L15/22GK1568501SQ02820241
公開(kāi)日2005年1月19日 申請(qǐng)日期2002年10月10日 優(yōu)先權(quán)日2001年10月12日
發(fā)明者W·格施文德特納, K·拉吉 申請(qǐng)人:皇家飛利浦電子股份有限公司