專利名稱:將語(yǔ)音和備選項(xiàng)輸入形式組合到移動(dòng)設(shè)備中的制作方法
將語(yǔ)音和備選項(xiàng)輸入形式組合到移動(dòng)設(shè)備中祖旦 疼足由于對(duì)用于相對(duì)較小的移動(dòng)設(shè)備(諸如蜂窩電話和個(gè)人數(shù)字助理)的應(yīng)用 程序的使用的增加,在這種設(shè)備上的文本輸入變得越來(lái)越流行。 一些這樣的應(yīng)用程序包括電子郵件(e-mail)和短消息服務(wù)(SMS)。然而,移動(dòng)電話、個(gè)人數(shù)字助理和其他這樣的移動(dòng)設(shè)備一般不具有和臺(tái)式 計(jì)算機(jī)上一樣方便的鍵盤。例如,移動(dòng)電話往往僅具有數(shù)字鍵區(qū),其上多個(gè)字 母被映射到相同的鍵。某些PDA僅具有從指示筆或類似的項(xiàng)目接收輸入的觸 敏屏幕。由此,這種設(shè)備當(dāng)前提供了允許用戶使用多種不同方法中的一種通過(guò)數(shù)字 鍵區(qū)或觸摸屏幕或其他輸入設(shè)備來(lái)輸入文本的界面。 一個(gè)這樣的方法是稱為多 次輕叩(multi-tap)界面的確定性界面。在多次輕叩界面中,根據(jù)用戶期望的 相應(yīng)字母,用戶按下一數(shù)字鍵給定的次數(shù)。例如,當(dāng)鍵區(qū)具有對(duì)應(yīng)于字母"abc" 的數(shù)字"2"鍵時(shí),擊鍵"2"對(duì)應(yīng)于"a",擊鍵"22"對(duì)應(yīng)于"b",擊鍵"222" 對(duì)應(yīng)于"c",而擊鍵"2222"對(duì)應(yīng)于數(shù)字"2"。在另一示例中,擊鍵輸入844 444 7777會(huì)對(duì)應(yīng)于單詞"this"。另一種已知類型的界面是預(yù)測(cè)性系統(tǒng),并且被稱為Tegic通信的T9界面。 T9界面允許用戶輕叩對(duì)應(yīng)于一期望字母的鍵一次,并且使用先前的擊鍵順序 來(lái)預(yù)測(cè)期望的單詞。雖然這減少了按鍵的次數(shù),但是這種類型的預(yù)測(cè)性界面會(huì) 遭受由共享相同的鍵序列的單詞導(dǎo)致的模糊性。例如,鍵序列"4663"可以對(duì) 應(yīng)于單詞"home" 、 "good" 、 "gone" 、 "hood"或"hone"。在這些情況 下,該界面顯示從該鍵序列生成的預(yù)測(cè)單詞的列表,并且用戶按下"next (下 一個(gè))"鍵來(lái)滾動(dòng)通過(guò)各備選項(xiàng)。此外,由于不能預(yù)測(cè)字典外或該界面的詞匯 表外的單詞,因此T9類型的界面通常與其他回退(fallback)策略,諸如多次 輕叩結(jié)合,以便處理詞匯表外的單詞。一些當(dāng)前的界面也提供對(duì)單詞補(bǔ)全和單詞預(yù)測(cè)的支持。例如,基于初始的鍵序列"466"(對(duì)應(yīng)于字母"goo"),可以預(yù)測(cè)單詞"good"。類似地,從初始的鍵序列"6676"(對(duì)應(yīng)于字母"mom"),可以預(yù)測(cè)單詞"morning"。類似地,基于n元語(yǔ)法語(yǔ)言模型預(yù)測(cè),可以預(yù)測(cè)單詞"a"作為跟在單詞序列"this is"之后的下一單詞。這些界面中沒(méi)有一個(gè)真正容許任何類型的快速文本輸入。實(shí)際上,這些方法的新用戶通常僅能達(dá)到每分鐘5-10個(gè)單詞的文本輸入速率。為了增加在這種通信設(shè)備上的信息輸入帶寬,某些設(shè)備實(shí)現(xiàn)了語(yǔ)音識(shí)別。 語(yǔ)音具有相對(duì)高的通信帶寬,估計(jì)為大約每分鐘250個(gè)單詞。然而,由于用戶 檢査和糾正語(yǔ)音識(shí)別差錯(cuò)所花費(fèi)的時(shí)間,使用常規(guī)的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的文本 輸入的帶寬在實(shí)踐中要低得多,而這些語(yǔ)音識(shí)別差錯(cuò)對(duì)于當(dāng)前的語(yǔ)音識(shí)別系統(tǒng) 是不可避免的。具體地,某些當(dāng)前的基于語(yǔ)音的文本輸入方法允許用戶通過(guò)在每個(gè)單詞之 間有輕微停頓地說(shuō)話來(lái)將文本輸入到蜂窩電話中。該語(yǔ)音識(shí)別系統(tǒng)接著顯示一 識(shí)別結(jié)果。由于直接檢測(cè)通常導(dǎo)致差錯(cuò),尤其在存在噪音時(shí),因此用戶必須選 擇識(shí)別結(jié)果中的錯(cuò)誤,并接著使用備選項(xiàng)列表或回退輸入方法來(lái)糾正它們。孤立的單詞識(shí)別要求用戶每次僅說(shuō)出一個(gè)單詞。該一個(gè)單詞被處理并輸 出。用戶接著糾正該單詞。雖然孤立的單詞識(shí)別的確改進(jìn)了識(shí)別準(zhǔn)確度,但是 孤立的單詞識(shí)別界面是不自然的,并且相對(duì)于其中用戶一次可說(shuō)出整個(gè)詞組或 句子的使用連續(xù)語(yǔ)音識(shí)別實(shí)現(xiàn)的系統(tǒng)而言降低了數(shù)據(jù)輸入速率。然而,連續(xù)語(yǔ)音識(shí)別中的糾錯(cuò)存在問(wèn)題。傳統(tǒng)上,連續(xù)語(yǔ)音識(shí)別的語(yǔ)音識(shí) 別結(jié)果是通過(guò)顯示整個(gè)詞組或句子的最佳假設(shè)來(lái)呈現(xiàn)的。為了糾錯(cuò),用戶接著 選擇誤識(shí)別的單詞,并從一下拉列表選擇一備選項(xiàng)。由于差錯(cuò)通常成群地并且 跨詞界地出現(xiàn),因此許多系統(tǒng)允許糾正整個(gè)誤識(shí)別的詞組。例如,話語(yǔ)"canyou recognize speech"(你能識(shí)別語(yǔ)音嗎)會(huì)被不正確地識(shí)別為"can you wreck a nice beach"(你能破壞一個(gè)美麗的沙灘嗎)。在這種情況下,由于不正確的單詞 分割,不可能簡(jiǎn)單地一次一個(gè)單詞地糾正識(shí)別。由此,要求用戶選擇短語(yǔ)"wreck a nice beach"并為整個(gè)短語(yǔ)選擇一備選項(xiàng)。雖然當(dāng)識(shí)別準(zhǔn)確度較高且諸如鼠標(biāo)等指點(diǎn)設(shè)備可用時(shí)這種方法能很好地 工作,但是假定通常嘈雜的環(huán)境以及有限的處理器能力,在沒(méi)有指針且其中不能呈現(xiàn)識(shí)別準(zhǔn)確度的移動(dòng)設(shè)備上,它就變得麻煩。在只有硬件按鈕、鍵區(qū)或觸 摸屏等的設(shè)備上,難以設(shè)計(jì)出允許用戶選擇一定范圍的單詞以供糾正,而同時(shí)將擊鍵保持在合理次數(shù)的界面。以上討論僅提供了一般的背景信息,并不旨在用于協(xié)助確定所要求保護(hù)的 主題的范圍。概述本發(fā)明使用語(yǔ)音和備選形式輸入(諸如鍵區(qū)輸入)的組合來(lái)將信息傳遞給 移動(dòng)設(shè)備。用戶說(shuō)出包括多個(gè)單詞(諸如詞組或句子)的話語(yǔ)。語(yǔ)音識(shí)別結(jié)果 接著被一次一個(gè)單詞地呈現(xiàn)給用戶,以便確定或糾正。在屏幕上從第一個(gè)單詞 開始一次一個(gè)單詞地向用戶呈現(xiàn)最佳假設(shè)和一選擇列表。如果在屏幕上呈現(xiàn)的 最佳假設(shè)單詞是正確的,那么用戶可以容易地指示它。否則,如果期望單詞在 備選項(xiàng)列表中,那么在用戶方面只要很少的努力(例如很少的按下按鈕、擊鍵 等),用戶可以快速地導(dǎo)航到該備選項(xiàng)列表,并使用各種備選輸入形式之一來(lái) 輸入單詞。在一個(gè)實(shí)施例中,如果沒(méi)有在備選項(xiàng)列表中找到單詞,則用戶可以使用鍵 區(qū)開始輸入單詞。類似地,在一個(gè)實(shí)施例中,該系統(tǒng)可以使用通過(guò)將來(lái)自鍵區(qū)輸入的單詞前綴的信息、語(yǔ)音識(shí)別結(jié)果點(diǎn)陣(lattice)、已經(jīng)被糾正的當(dāng)前單 詞之前的單詞、語(yǔ)言模型等組合而獲取的后驗(yàn)概率來(lái)重新計(jì)算最佳假設(shè)單詞和 備選項(xiàng)列表。該過(guò)程可以對(duì)輸入句子中的后續(xù)單詞重復(fù)??梢允褂弥T如軟鍵盤、觸摸屏輸入、手寫輸入等其他輸入形式作為鍵區(qū)輸 入的代替或附加。提供本概述以便用簡(jiǎn)化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的一 些代表性概念。本概述并不旨在確定所要求保護(hù)的主題的關(guān)鍵特征或必要特 征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。附圖簡(jiǎn)述圖i是其中可使用本發(fā)明的一個(gè)說(shuō)明性計(jì)算環(huán)境的框圖。圖2—4示出了其上可采用本發(fā)明的設(shè)備的不同示例性、簡(jiǎn)化的圖示實(shí)施例。圖5示出了語(yǔ)音識(shí)別系統(tǒng)的一個(gè)說(shuō)明性實(shí)施例。圖6是依照一個(gè)實(shí)施例被配置成實(shí)現(xiàn)用戶界面系統(tǒng)的設(shè)備的框圖。圖6A是示出圖l一6所示的系統(tǒng)的總體操作的一個(gè)實(shí)施例的流程圖。 圖6B是示出生成語(yǔ)音識(shí)別假設(shè)點(diǎn)陣過(guò)程中的系統(tǒng)操作的一個(gè)實(shí)施例的流 程圖。圖6C示出了 一個(gè)示例性的初步假設(shè)點(diǎn)陣。 圖6D示出了用于選擇單詞的示例性用戶界面顯示。 圖6E示出了在給定用戶對(duì)假設(shè)中的單詞的糾正的時(shí)經(jīng)修改的假設(shè)點(diǎn)陣。 圖6F示出了用于選擇語(yǔ)音識(shí)別假設(shè)中的單詞的一個(gè)示例性用戶界面顯示。圖7示出了說(shuō)明對(duì)假設(shè)的重新計(jì)算的一個(gè)示例性流程圖。 圖8示出了顯示預(yù)測(cè)性單詞補(bǔ)全的一個(gè)示例性用戶界面顯示。詳細(xì)描述本發(fā)明涉及將語(yǔ)音和備選輸入形式組合,以便改進(jìn)移動(dòng)設(shè)備上的文本輸入 效率和穩(wěn)健性。然而,在更詳細(xì)地描述本發(fā)明之前,將描述其中可使用本發(fā)明 的一個(gè)說(shuō)明性環(huán)境。以下在
圖1中所示的計(jì)算設(shè)備IO通常包括至少某種形式的計(jì)算機(jī)可讀介 質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是可由設(shè)備IO訪問(wèn)的任何可用介質(zhì)。作為示例而非 局限,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì) 包括以用于儲(chǔ)存諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息 的任一方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性,可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī) 存儲(chǔ)介質(zhì)包括但不限于,RAM、 ROM、 EEPROM、閃存或其它存儲(chǔ)器技術(shù)、 CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲(chǔ)、磁盒、磁帶、磁盤存儲(chǔ)或 其它磁存儲(chǔ)設(shè)備、或可以用來(lái)儲(chǔ)存所期望的信息并是設(shè)備10的一部分或可由 設(shè)備IO訪問(wèn)的任一其它介質(zhì)。通信介質(zhì)通常以諸如載波或其它傳輸機(jī)制等已 調(diào)制數(shù)據(jù)信號(hào)來(lái)體現(xiàn)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包 括任一信息傳送介質(zhì)。術(shù)語(yǔ)"已調(diào)制數(shù)據(jù)信號(hào)"指以對(duì)信號(hào)中的信息進(jìn)行編碼的方式設(shè)置或改變其一個(gè)或多個(gè)特征的信號(hào)。作為示例而非局限,通信介質(zhì)包括有線介質(zhì),如有線網(wǎng)絡(luò)或直接連線連接,以及無(wú)線介質(zhì),如聲學(xué)、RF、紅外 和其它無(wú)線介質(zhì)。上述任一的組合也應(yīng)當(dāng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。圖l是移動(dòng)設(shè)備IO的一個(gè)實(shí)施例的框圖。如圖所示,移動(dòng)設(shè)備10包括處 理器20、存儲(chǔ)器22、輸入/輸出(I/O)組件24、臺(tái)式計(jì)算機(jī)通信接口26、收 發(fā)機(jī)27和天線11。在一個(gè)實(shí)施例中,移動(dòng)設(shè)備10的這些組件被耦合,用于通 過(guò)合適的總線28與另一移動(dòng)設(shè)備通信。雖然沒(méi)有在圖2中示出,但是移動(dòng)設(shè) 備10還在I/O組件24內(nèi)包括如以下有關(guān)圖5所示和所討論的話筒。存儲(chǔ)器222被實(shí)現(xiàn)為非易失性電子存儲(chǔ)器,諸如帶有電池后備模塊(未示 出)的隨機(jī)存取存儲(chǔ)器(RAM),使得當(dāng)移動(dòng)設(shè)備10的總電源被關(guān)閉時(shí),存 儲(chǔ)在存儲(chǔ)器22中的信息不會(huì)丟失。存儲(chǔ)器22的一部分被分配為用于程序執(zhí)行 的可尋址存儲(chǔ)器,而存儲(chǔ)器22的另一部分可用于存儲(chǔ),諸如模擬磁盤驅(qū)動(dòng)器 上的存儲(chǔ)。存儲(chǔ)器22包含操作系統(tǒng)30,應(yīng)用程序16 (諸如用戶界面應(yīng)用程序、個(gè)人 信息管理器(PIM)、日程安排程序、文字處理程序、電子表格程序、因特網(wǎng) 瀏覽器程序以及以下討論的語(yǔ)音識(shí)別程序)、用戶界面組件17以及對(duì)象存儲(chǔ) 18。在操作過(guò)程中,操作系統(tǒng)30被載入到存儲(chǔ)器22中,并且由處理器20從 存儲(chǔ)器22中執(zhí)行。在一個(gè)實(shí)施例中,操作系統(tǒng)30是市場(chǎng)上可購(gòu)買到的來(lái)自微 軟公司的Windows CE操作系統(tǒng)。操作系統(tǒng)30可以是為移動(dòng)設(shè)備設(shè)計(jì)的,并 實(shí)現(xiàn)可由PIM、內(nèi)容査看器、語(yǔ)音識(shí)別功能等使用的特征。這可以用任何期望 的方式來(lái)完成,諸如通過(guò)所展示的應(yīng)用程序編程接口或通過(guò)專用接口等。對(duì)象 存儲(chǔ)18中的對(duì)象可以由PIM、內(nèi)容查看器和操作系統(tǒng)30至少部分地響應(yīng)于對(duì) 其的調(diào)用來(lái)維護(hù)。用戶界面組件17說(shuō)明性地與其他組件交互,以便將輸出顯示提供給用戶 并用于接收來(lái)自用戶的輸入。用戶界面組件17在接收作為語(yǔ)音和鍵區(qū)輸入的 組合的用戶輸入時(shí)的的操作的一個(gè)實(shí)施例在以下關(guān)于圖6A-8來(lái)描述。在一個(gè)實(shí)施例中,提供1/0組件24以便于來(lái)自移動(dòng)設(shè)備10的用戶的輸入 和輸出操作。這種組件可以包括顯示器、觸敏屏幕、鍵區(qū)、話筒、揚(yáng)聲器、音 頻發(fā)生器、振動(dòng)設(shè)備、LED、按鈕、滾輪或用于將信息輸入到設(shè)備10或從設(shè)9備10輸出信息的其他機(jī)制等等。這些僅是作為示例。它們不必都存在,并且 也可以提供其他或不同的機(jī)制。并且,還可以支持其他通信接口和機(jī)制,諸如 有線和無(wú)線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器等??扇芜x地提供臺(tái)式計(jì)算機(jī)通信接口 26作為任何合適的、在市場(chǎng)上可以購(gòu) 買到的通信接口 。當(dāng)無(wú)線收發(fā)機(jī)27不是用于與臺(tái)式機(jī)或其他計(jì)算機(jī)12通信時(shí), 接口26被用于該目的。接口26可以包括例如紅外線收發(fā)機(jī)或串行或并行連接。收發(fā)機(jī)27是適用于通過(guò)期望的傳輸來(lái)發(fā)送信號(hào)或信息的無(wú)線或其他類型 的收發(fā)機(jī)。在其中收發(fā)機(jī)27是無(wú)線收發(fā)機(jī)的實(shí)施例中,可以使用天線ll來(lái)發(fā) 送信號(hào)或信息。收發(fā)機(jī)27也可以通過(guò)傳輸來(lái)發(fā)送其他數(shù)據(jù)。在一些實(shí)施例中, 收發(fā)機(jī)27從臺(tái)式計(jì)算機(jī)、信息源提供者或其他移動(dòng)或非移動(dòng)設(shè)備或電話接收 信息。收發(fā)機(jī)27被耦合到總線28,用于與處理器20通信以便存儲(chǔ)接收到的信 息并且發(fā)送要傳送的信息。電源35包括用于為移動(dòng)設(shè)備10供電的電池37??扇芜x地,移動(dòng)設(shè)備IO 可以從取代內(nèi)置電池37或?yàn)槠涑潆姷耐獠侩娫?1接收電力。例如,外部電源 41可以包括合適的AC或DC適配器,或用于移動(dòng)設(shè)備10的電源底座。應(yīng)該注意,圖1示出了圖1中所示的其中可實(shí)現(xiàn)本發(fā)明的合適的操作環(huán)境 的一個(gè)示例。圖1中所示的操作環(huán)境僅是合適的操作環(huán)境的一個(gè)示例,并不旨 在對(duì)本發(fā)明的使用范圍或功能提出任何限制。其他可適用于本發(fā)明的公知的計(jì) 算系統(tǒng)、環(huán)境和/或配置包括但不局限于蜂窩電話、個(gè)人數(shù)字助理、尋呼機(jī)、手 持式或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程消費(fèi)電子設(shè) 備、包括任何上述系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等。也應(yīng)該注意,本發(fā)明可以在諸如可由一個(gè)或多個(gè)計(jì)算機(jī)或其他設(shè)備執(zhí)行的 程序模塊等計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述。 一般地,程序模塊包括例 程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等,它們執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽 象數(shù)據(jù)類型。通常程序模塊的功能可以按需在各個(gè)實(shí)施例中組合或分布。圖2是可以依照本發(fā)明使用的移動(dòng)設(shè)備10的一個(gè)實(shí)施例的簡(jiǎn)化的圖示說(shuō) 明。在該實(shí)施例中,除了天線11和話筒75之外,移動(dòng)設(shè)備10還包括小型鍵 盤32、顯示器34、指示筆36以及揚(yáng)聲器86。在圖3所示的實(shí)施例中,顯示器 34是液晶顯示器(LCD),它們使用觸敏顯示屏幕以及指示筆36。指示筆36用于在指定的坐標(biāo)處按下或接觸顯示器34以實(shí)現(xiàn)某些用戶輸入功能。小型鍵 盤32可被實(shí)現(xiàn)為小型字母數(shù)字鍵盤,其具有同樣為了完成某些用戶輸入功能 而提供的任何合適的和期望的功能鍵。話筒75被示為位于天線11的遠(yuǎn)端,但 是它可以方便地被設(shè)置在設(shè)備10上的任何地方。
圖3是依照本發(fā)明的另一實(shí)施例的移動(dòng)設(shè)備10的另一簡(jiǎn)化的圖示說(shuō)明。 如圖3中所示,移動(dòng)設(shè)備10包括類似于關(guān)于圖2所描述的那些項(xiàng)目的一些項(xiàng) 目,并且這些項(xiàng)目被類似地編號(hào)。例如,如圖3中所示,移動(dòng)設(shè)備10也包括 置于天線11上的話筒75和置于該設(shè)備的外殼上的揚(yáng)聲器86。當(dāng)然,話筒75 和揚(yáng)聲器86也可以位于其他位置。同樣,移動(dòng)設(shè)備10包括觸敏顯示器34,它 可以結(jié)合指示筆36使用以便實(shí)現(xiàn)某些用戶輸入功能。應(yīng)該注意,圖2和3中 所示的移動(dòng)設(shè)備的顯示器34可以是相同尺寸或不同尺寸的,但是通常會(huì)比用 于臺(tái)式計(jì)算機(jī)的常規(guī)顯示器要小得多。例如,圖2和3中所示的顯示器34可 以由僅有240x329個(gè)坐標(biāo)或160x160個(gè)坐標(biāo)或任何其他合適的大小的矩陣來(lái)定 義。
圖3中所示的移動(dòng)設(shè)備10也包括多個(gè)用戶輸入鍵或按鈕(諸如滾動(dòng)按鈕 38和/或鍵盤32),它們?cè)试S用戶輸入數(shù)據(jù)或滾動(dòng)通過(guò)菜單選項(xiàng)或在顯示器34 上顯示的其他顯示選項(xiàng),而無(wú)需接觸顯示屏34。此外,圖3中所示的移動(dòng)設(shè)備 10也包括電源按鈕40,它可用于開啟和關(guān)閉移動(dòng)設(shè)備IO的總電源。
也應(yīng)該注意,在圖3所示的實(shí)施例中,移動(dòng)設(shè)備10可以包括手寫區(qū)域42。 手寫區(qū)域42可以結(jié)合指示筆36使用,使得用戶能夠書寫存儲(chǔ)在存儲(chǔ)器22中 的消息,以供稍后由移動(dòng)設(shè)備10使用。在一個(gè)實(shí)施例中,手寫消息僅以手寫 形式存儲(chǔ)并且可以由用戶檢索并顯示在顯示器34上,使得用戶可以審閱輸入 到移動(dòng)設(shè)備IO中的手寫消息。在另一實(shí)施例中,移動(dòng)設(shè)備IO配備有字符識(shí)別 模塊,使得用戶可以通過(guò)使用指示筆36在區(qū)域42上書寫字母數(shù)字信息來(lái)將該 字母數(shù)字消息輸入到移動(dòng)設(shè)備10中。在該情況中,移動(dòng)設(shè)備10中的字符識(shí)別 模塊識(shí)別該字母數(shù)字字符并將該字母轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別的、可由移動(dòng)設(shè)備10 中的應(yīng)用程序16使用的字母數(shù)字字符。
圖4示出了依照本發(fā)明的一個(gè)實(shí)施例的移動(dòng)設(shè)備10的另一實(shí)施例的圖示 說(shuō)明。移動(dòng)設(shè)備10具有顯示區(qū)域34、電源按鈕504、多個(gè)控制按鈕506、 一串附加的控制按鈕508、話筒509和鍵區(qū)510。鍵區(qū)510說(shuō)明性地包括多個(gè)不同 的字母數(shù)字按鈕(其中的一些由標(biāo)號(hào)512示出),并且也可以包括鍵盤按鈕514。 用戶可以通過(guò)使用指示筆或手指或其他機(jī)制按下按鈕512來(lái)將字母數(shù)字信息輸 入到圖4所示的設(shè)備10中。可以使用各種字母輸入技術(shù)中的任一種,諸如確 定性多次輕叩方法、預(yù)測(cè)性技術(shù)等,來(lái)通過(guò)按鈕512輸入字母數(shù)字信息。類似 地,在一個(gè)實(shí)施例中,如果用戶期望切換到其它的鍵入方法,用戶只需操縱鍵 盤按鈕514。在該情況下,設(shè)備IO顯示常規(guī)鍵盤的精簡(jiǎn)描繪而非字母數(shù)字按鈕 512。接著用戶可以通過(guò)使用指示筆輕叩所顯示的鍵盤上的那些字符等, 一次 一個(gè)字母地輸入文本信息。此外,也可以在各個(gè)實(shí)施例中使用其他備選的輸入 形式,諸如手寫輸入和其他觸摸屏或其他輸入。
在一個(gè)實(shí)施例中,設(shè)備IO還包括語(yǔ)音識(shí)別系統(tǒng)(這將在下文中關(guān)于圖5 更詳細(xì)地描述),使得用戶可以通過(guò)話筒509來(lái)將語(yǔ)音信息輸入到設(shè)備10中。 類似地,設(shè)備IO說(shuō)明性地包括由界面組件17 (圖1中)運(yùn)行的界面,它允許 用戶組合語(yǔ)音和鍵區(qū)輸入以便將信息輸入到設(shè)備10中。尤其是在不具有傳統(tǒng) 的鍵盤的移動(dòng)設(shè)備上,這改進(jìn)了文本輸入效率和穩(wěn)健性。這在下文中關(guān)于圖 6A-8更詳細(xì)地描述。
圖5是依照一個(gè)實(shí)施例可以在上文的圖2-4中所示的移動(dòng)設(shè)備中的任一種 上使用的語(yǔ)音識(shí)別系統(tǒng)200的一個(gè)說(shuō)明性實(shí)施例的框圖。
在圖5中,說(shuō)話者201 (訓(xùn)練者或用戶)向話筒17說(shuō)話。由話筒17檢測(cè) 到的音頻信號(hào)被轉(zhuǎn)換成電信號(hào),該電信號(hào)被提供給模數(shù)(A-D)轉(zhuǎn)換器206。
A-D轉(zhuǎn)換器206將來(lái)自話筒17的模擬信號(hào)轉(zhuǎn)換成一系列數(shù)字值。在若干 個(gè)實(shí)施例中,A-D轉(zhuǎn)換器206以16kHz和每個(gè)樣本16位來(lái)對(duì)該模擬信號(hào)采樣, 由此創(chuàng)建每秒32千字節(jié)的語(yǔ)音數(shù)據(jù)。該數(shù)字值被提供給幀構(gòu)造器207,在一個(gè) 實(shí)施例中,幀構(gòu)造器207將這些值分組成其開頭有10毫秒相隔的25毫秒的幀。
由幀構(gòu)造器207創(chuàng)建的數(shù)據(jù)幀被提供給特征提取器208,特征提取器208 從每個(gè)幀中提取特征。特征提取模塊的示例包括用于執(zhí)行線性預(yù)測(cè)編碼 (LPC) 、 LPC導(dǎo)出倒譜、感知線性預(yù)測(cè)(PLP)、聽(tīng)覺(jué)模型特征提取以及梅 爾頻率(Mel-Frequency)倒譜系數(shù)(MFCC)特征提取的模塊。注意,本發(fā)明 不限于這些特征提取模塊,可以在本發(fā)明的上下文中使用其他模塊。特征提取模塊產(chǎn)生一特征向量流,每個(gè)特征向量與一語(yǔ)音信號(hào)幀相關(guān)聯(lián)。
也可以使用降噪,使得來(lái)自提取器208的輸出是一系列"干凈的"特征向 量。如果輸入信號(hào)是訓(xùn)練信號(hào),則該系列"干凈的"特征向量被提供給訓(xùn)練器 224,該訓(xùn)練器如下文中更詳細(xì)描述的那樣使用"干凈的"特征向量和訓(xùn)練文 本226來(lái)訓(xùn)練聲學(xué)模型218或其他模型。
如果輸入信號(hào)是測(cè)試信號(hào),則該"干凈的"特征向量被提供給解碼器212, 該解碼器基于特征向量流、詞典204、語(yǔ)言模型216和聲學(xué)模型218來(lái)標(biāo)識(shí)最 可能的單詞序列。解碼所使用的具體方法對(duì)本發(fā)明而言不重要,并且可以使用 用于解碼的若干個(gè)已知方法中的任一種。
最可能的假設(shè)單詞序列作為語(yǔ)音識(shí)別點(diǎn)陣被提供給置信度測(cè)量模塊220。 置信度測(cè)量模塊220部分地基于一輔助聲學(xué)模型(未示出)來(lái)標(biāo)識(shí)哪些單詞最 可能被語(yǔ)音識(shí)別器不正確地標(biāo)識(shí)。置信度測(cè)量模塊220接著將點(diǎn)陣中假設(shè)單詞 序列連同指示哪些單詞可能被不正確地標(biāo)識(shí)的標(biāo)識(shí)符一起提供給輸出模塊 222。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,置信度測(cè)量模塊222對(duì)于本發(fā)明的實(shí)現(xiàn)不 是必需的。
圖6是用戶界面系統(tǒng)550的框圖,其中設(shè)備10被配置成實(shí)現(xiàn)依照本發(fā)明 的一個(gè)實(shí)施例的界面。圖6A是示出依照一個(gè)實(shí)施例的移動(dòng)設(shè)備10及其界面的 操作,并且將彼此結(jié)合地描述圖6和6A。雖然該界面可被部署在上文中關(guān)于 圖2-4討論的任一種移動(dòng)設(shè)備上,但是僅是為了示例起見(jiàn),以下討論將關(guān)于圖 4中所示的設(shè)備IO來(lái)進(jìn)行。
依照本發(fā)明的一個(gè)實(shí)施例,該界面允許用戶將語(yǔ)音輸入552和備選形式輸 入554組合以便將信息輸入到設(shè)備10中。備選形式輸入可以是使用上述形式
(軟鍵盤、觸摸屏輸入、手寫識(shí)別等)中的任一種的輸入。然而,僅是為了示 例起見(jiàn),此處將按照鍵區(qū)輸入554來(lái)描述備選形式輸入。由此,依照一個(gè)實(shí)施 例,用戶556首先諸如通過(guò)按住一功能按鈕或操縱該用戶界面上任何其他期望 的按鈕提供激活輸入558,來(lái)激活設(shè)備10上的語(yǔ)音識(shí)別系統(tǒng)200。這由圖6A 中的框600指示。接著,用戶向設(shè)備10上的話筒75說(shuō)出多單詞語(yǔ)音輸入552
(諸如詞組或句子),并且設(shè)備10中的語(yǔ)音識(shí)別系統(tǒng)200接收該多單詞語(yǔ)音 輸入522。這由圖5A中的框602指示。語(yǔ)音識(shí)別系統(tǒng)200生成假設(shè)點(diǎn)陣560形式的語(yǔ)音識(shí)別結(jié)果并將點(diǎn)陣560提供給用戶界面組件17。接著,用戶界面組 件17順序地一次一個(gè)單詞地顯示(在用戶界面顯示器34上)語(yǔ)音識(shí)別結(jié)果, 以供用戶使用鍵區(qū)510來(lái)確認(rèn)或糾正。這由圖5A中的框604來(lái)指示。用戶在 順序地顯示每個(gè)單詞時(shí)說(shuō)明性地使用鍵區(qū)510上的鍵來(lái)糾正它或者確認(rèn)該單詞 是正確的。隨著順序提交的繼續(xù),顯示經(jīng)糾正或確認(rèn)的單詞,并且將下一順序 單詞添加到顯示器以供糾正或確認(rèn)。這繼續(xù)直至顯示全部的語(yǔ)音識(shí)別結(jié)果。
初看起來(lái),連續(xù)語(yǔ)音識(shí)別與逐個(gè)單詞糾正機(jī)制(此處有時(shí)稱為順序提交機(jī) 制)的組合可能好像是不是最由的,并且無(wú)疑是反直覺(jué)的。然而,對(duì)于移動(dòng)設(shè) 備上當(dāng)前的自動(dòng)語(yǔ)音識(shí)別系統(tǒng),相信這有助于更好的總體用戶體驗(yàn)。
例如,自動(dòng)語(yǔ)音識(shí)別差錯(cuò)通常涉及分段差錯(cuò)。如在背景一節(jié)中所討論的, 假設(shè)短語(yǔ)"recognized speech"可能被自動(dòng)語(yǔ)音識(shí)別系統(tǒng)誤識(shí)別為"wreck a nice beach"。在這種情況下,顯示完整的自動(dòng)語(yǔ)音識(shí)別結(jié)果導(dǎo)致糾正界面的難以 選擇。這導(dǎo)致的一些問(wèn)題是用戶應(yīng)該選擇哪些單詞來(lái)糾正?當(dāng)用戶試圖糾正 單詞"wreck"時(shí),它是否應(yīng)該造成該語(yǔ)音識(shí)別結(jié)果中的詞組的剩余部分改變? 如果作為用戶對(duì)于不同單詞的糾正的副作用其他單詞開始改變,它會(huì)如何影響 用戶的置信度水平?
在設(shè)計(jì)界面時(shí)所有這些問(wèn)題都必須被解決,并且很難獲得對(duì)所有這些問(wèn)題 的最優(yōu)解決方案。類似地,在解決這些問(wèn)題中的每一個(gè)并且向用戶提供解決它 們的用戶界面選項(xiàng)時(shí),通常導(dǎo)致需要相對(duì)大量的擊鍵以供用戶糾正被誤識(shí)別的 句子或詞組。
與此形成對(duì)比,通過(guò)順序地從左到右呈現(xiàn)一個(gè)單詞接一個(gè)單詞的結(jié)果以供 用戶確認(rèn)或糾正,基本上避免了所有這些問(wèn)題。在"wreck a nice beach"的假 設(shè)的誤識(shí)別中,本發(fā)明將首先在設(shè)備10的顯示部分34上僅呈現(xiàn)單詞"wreck" 以供用戶確認(rèn)或糾正。連同單詞"wreck" —起,本系統(tǒng)也將說(shuō)明性地顯示備 選項(xiàng)。由此,識(shí)別結(jié)果將可能包括"recognize"作為單詞"wreck"的第二備 選項(xiàng)。 一旦用戶將"wreck"糾正為"recognize",那么本系統(tǒng)將說(shuō)明性地重 新計(jì)算與各個(gè)語(yǔ)音識(shí)別假設(shè)相關(guān)聯(lián)的概率,并且接著輸出下一個(gè)單詞"speech" 作為第一個(gè)假設(shè),而非"a"(給定用戶作出先前糾正("wreck"到"recognize") 的上下文)。在一個(gè)說(shuō)明性實(shí)施例中,如圖4中所示,顯示部分34顯示語(yǔ)音識(shí)別結(jié)果 以及顯示用于當(dāng)前正被確認(rèn)或糾正的單詞的各個(gè)備選項(xiàng)的下拉菜單503。如果 在語(yǔ)音識(shí)別結(jié)果中顯示的單詞是正確的,用戶可以只需操縱"OK"按鈕,或 者用戶可以滾動(dòng)通過(guò)下拉菜單503中顯示的各個(gè)備選項(xiàng),并且為所顯示的單詞 選擇正確的備選項(xiàng)。在所示的實(shí)施例中,"OK"按鈕可以位于功能按鈕串508 中,或者它可以位于鍵區(qū)510上,或者它可以是按鈕506中的一個(gè)等。當(dāng)然, 也可以使用其他實(shí)施例。
更具體地,在圖4中對(duì)設(shè)備IO所示的示例中,用戶輸入了語(yǔ)音輸入552 "this is speech recognition"(這是語(yǔ)音識(shí)別)。系統(tǒng)接著向用戶顯示第一個(gè)單 詞"this",并且它已由用戶確認(rèn)。圖4中的系統(tǒng)被示為己向用戶顯示了識(shí)別 假設(shè)中的第二個(gè)單詞,并且用戶已從下拉菜單503中的備選項(xiàng)列表中選擇了 "is"。系統(tǒng)接著重新計(jì)算與各個(gè)識(shí)別假設(shè)相關(guān)聯(lián)的概率,以找出最可能的單 詞以便作為假設(shè)中的第三個(gè)單詞來(lái)顯示,這還未在圖4中示出。
在一個(gè)說(shuō)明性實(shí)施例中,備選項(xiàng)下拉菜單503是出現(xiàn)在假設(shè)的語(yǔ)音識(shí)別結(jié) 果中的當(dāng)前插入點(diǎn)之下的浮動(dòng)列表框,并且顯示符合識(shí)別結(jié)果的當(dāng)前所選的預(yù) 測(cè)。顯示被格式化以突出顯示指定的前綴。此外,在一個(gè)說(shuō)明性實(shí)施例中,框 503中的列表的高度可以被設(shè)置成任意期望的數(shù)字,并且認(rèn)為大約四個(gè)可見(jiàn)項(xiàng) 目的列表限制了預(yù)測(cè)列表引入的注意力分散的量。類似地,可以將下拉菜單503 的寬度調(diào)整為列表中最長(zhǎng)的單詞。此外,如果識(shí)別結(jié)果中的插入點(diǎn)太靠近文檔 窗口的邊界,使得下拉菜單503中的列表框延伸到邊界之外,則識(shí)別結(jié)果中的 插入點(diǎn)和下拉菜單503中的預(yù)測(cè)列表可以換到下一行。
通過(guò)鍵區(qū)510接收用戶確認(rèn)或糾正作為鍵區(qū)輸入554由圖6A中的框606 示出。當(dāng)然,應(yīng)該注意用戶可以用各種不同的方式來(lái)提供鍵區(qū)輸入554,而非 僅是從備選項(xiàng)下拉菜單503中選擇一備選項(xiàng)。
對(duì)于理想的語(yǔ)音識(shí)別,用戶只需對(duì)每個(gè)正確識(shí)別的單詞按下"OK",從 而得出非常高效的文本輸入。然而,對(duì)于不理想的語(yǔ)音識(shí)別,用戶對(duì)每個(gè)正確 識(shí)別的單詞按下"OK",并且對(duì)于誤識(shí)別的單詞,可以或者向下滾動(dòng)到期望 的備選項(xiàng)并從備選項(xiàng)菜單503中選擇它,或者開始一次一個(gè)字母地拼寫正確的 單詞直至在下拉菜單503的預(yù)測(cè)列表中出現(xiàn)了期望的單詞。
15剛才所描述的基于各個(gè)用戶輸入首先向用戶顯示的建議的單詞和備選項(xiàng)
是說(shuō)明性地從假設(shè)點(diǎn)陣560取得的,該假設(shè)點(diǎn)陣560由語(yǔ)音識(shí)別系統(tǒng)200響應(yīng) 于語(yǔ)音輸入552而生成。然而,可能發(fā)生語(yǔ)音識(shí)別系統(tǒng)200誤識(shí)別語(yǔ)音輸入以 至于要顯示的正確單詞實(shí)際上沒(méi)有出現(xiàn)在假設(shè)點(diǎn)陣560中。為了處理未出現(xiàn)在 點(diǎn)陣560中的單詞,可以將來(lái)自假設(shè)點(diǎn)陣560的預(yù)測(cè)與來(lái)自語(yǔ)言模型(諸如n 元語(yǔ)法語(yǔ)言模型)的預(yù)測(cè)合并,并且按照概率來(lái)排序。這樣,通??梢暂斎胝Z(yǔ) 音識(shí)別系統(tǒng)200的詞匯表中的單詞而無(wú)需拼寫出整個(gè)單詞,在某些情況下無(wú)需 鍵入一個(gè)字母,即使它們不出現(xiàn)在識(shí)別結(jié)果的假設(shè)點(diǎn)陣560中。這很大程序上 減少了輸入在最初的識(shí)別點(diǎn)陣560中沒(méi)有找到的單詞所需的擊鍵。
也可能發(fā)生用戶輸入的單詞不僅沒(méi)有出現(xiàn)在識(shí)別點(diǎn)陣560中,也沒(méi)有出現(xiàn) 在語(yǔ)音識(shí)別系統(tǒng)200的詞典或詞匯表中。在這種情況下,在一個(gè)實(shí)施例中,用 戶界面組件17被配置成切換到允許用戶通過(guò)鍵區(qū)510拼寫詞匯表之外的單詞 的確定性的、逐個(gè)字母的輸入配置。這種逐個(gè)字母的配置可以包括例如多次輕 叩輸入配置或鍵盤輸入配置。
對(duì)于鍵盤配置,圖4中所示的設(shè)備10包括軟鍵盤鍵514。當(dāng)用戶操縱該 鍵時(shí),示出鍵盤的顯示并且用戶可以使用指示筆方便地使用"看一鍵打一字" 來(lái)逐個(gè)字母地輸入不在語(yǔ)音識(shí)別系統(tǒng)200的原始詞匯表中的單詞。接著可以按 需將這些單詞添加到詞匯表中。
類似地,可以在下拉菜單503的備選項(xiàng)顯示的結(jié)尾處(或者在下拉菜單 503中的任何其他位置)提供鍵盤選項(xiàng),而非具有不變地顯示的鍵盤按鈕514。 當(dāng)用戶從備選項(xiàng)列表中操縱該選項(xiàng)時(shí),再次顯示鍵盤并且用戶可以一次一個(gè)地 輸入字母。 一旦提交了詞匯表之外的單詞,鍵盤說(shuō)明性地消失,并且設(shè)備10 中的用戶界面組件17如上所述地轉(zhuǎn)變回其先前的操作模式(可能是一次一個(gè) 單詞地顯示以供用戶確認(rèn)或糾正)。
語(yǔ)音識(shí)別等待時(shí)間也會(huì)成為移動(dòng)設(shè)備上的問(wèn)題。然而,由于本系統(tǒng)是順序 遞交系統(tǒng)(因?yàn)樗鼜木渥拥淖髠?cè)開始一次一個(gè)單詞地向用戶提供語(yǔ)音識(shí)別結(jié)果 以供確認(rèn)或糾正,并向右側(cè)前進(jìn)),因此本系統(tǒng)可以利用從不完全的假設(shè)點(diǎn)陣 生成的中間自動(dòng)語(yǔ)音識(shí)別假設(shè)。換而言之,在自動(dòng)語(yǔ)音識(shí)別系統(tǒng)200完全完成 了用于語(yǔ)音識(shí)別結(jié)果的整個(gè)假設(shè)點(diǎn)陣560的處理之前,本系統(tǒng)可以開始一次一個(gè)地向用戶呈現(xiàn)單詞假設(shè)。由此,在初始超時(shí)期限(諸如500毫秒或任何其他 期望的超時(shí)期限)后,而在語(yǔ)音識(shí)別系統(tǒng)200生成對(duì)于用戶輸入的完整文本片 斷或句子的假設(shè)之前,本系統(tǒng)可以向用戶顯示語(yǔ)音識(shí)別結(jié)果中的第一個(gè)假設(shè)的 單詞。這使用戶能以很短的等待時(shí)間開始糾正或確認(rèn)語(yǔ)音識(shí)別結(jié)果,即使當(dāng)前 的移動(dòng)設(shè)備具有相對(duì)有限的計(jì)算資源。
圖6B是更好地說(shuō)明該系統(tǒng)如何減小語(yǔ)音識(shí)別等待時(shí)間的流程圖。首先, 用戶向移動(dòng)設(shè)備10說(shuō)出完整的多單詞語(yǔ)音輸入552。這由圖6B中的框650示 出。接著解碼器開始計(jì)算假設(shè)點(diǎn)陣560。這由框652示出。
解碼器接著判定點(diǎn)陣計(jì)算是否完成。這由框654示出。如果否,那么判定 是否己經(jīng)過(guò)了預(yù)定超時(shí)期限。這由框656示出。換而言之,即使還沒(méi)有計(jì)算出 完整的假設(shè)點(diǎn)陣,本系統(tǒng)也將在預(yù)先指定的超時(shí)期限后輸出中間點(diǎn)陣560。由 此,如果在框656處已經(jīng)過(guò)了超時(shí)期限,那么系統(tǒng)輸出初步的假設(shè)點(diǎn)陣560, 并且界面組件17向用戶顯示在語(yǔ)音識(shí)別結(jié)果中的第一個(gè)假設(shè)的單詞(來(lái)自初 步假設(shè)點(diǎn)陣560)。這由圖6B中的框658指示。
在該時(shí)間期間,解碼器在框652處繼續(xù)計(jì)算完整的假設(shè)點(diǎn)陣。然而,界面 組件17說(shuō)明性地使用初步的假設(shè)點(diǎn)陣保持向用戶呈現(xiàn)單詞以供確認(rèn)或糾正, 直至完成了完整的假設(shè)點(diǎn)陣。 一旦完成了完整的假設(shè)點(diǎn)陣560,就輸出完整的 點(diǎn)陣以供界面組件17用于順序地向用戶呈現(xiàn)單詞(一次一個(gè)單詞)以供確認(rèn) 或糾正。這由圖6B中的框660指示。
在一個(gè)替換實(shí)施例中,當(dāng)解碼器計(jì)算假設(shè)點(diǎn)陣,并且之后計(jì)算出初步的點(diǎn) 陣之后,用戶對(duì)語(yǔ)音識(shí)別結(jié)果的任何確認(rèn)或糾正被反饋給解碼器,使得它能夠 考慮該用戶確認(rèn)或糾正信息來(lái)完成假設(shè)點(diǎn)陣的處理。這由框655指示。通過(guò)向 識(shí)別器200提供所提交的單詞序列,這提供了可由識(shí)別器用于縮小搜索空間的 信息。實(shí)際上,有了該信息,識(shí)別器200可以剪除與所提交的單詞序列不一致 的所有搜索路徑,以便顯著加速搜索過(guò)程。當(dāng)然,搜索路徑剪除不僅加速了搜 索,還通過(guò)允許引擎搜索與已經(jīng)提交的單詞序列一致的更多路徑(否則的話可 能被剪除)來(lái)提高準(zhǔn)確度
此時(shí)一個(gè)示例可以增強(qiáng)理解。假設(shè)用戶556激活了設(shè)備IO上的語(yǔ)音識(shí)別 系統(tǒng)200。還假設(shè)用戶通過(guò)其話筒75將多單詞語(yǔ)音輸入552 "this is speechrecognition"輸入到設(shè)備10中。設(shè)備10中的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)200開始處理 該語(yǔ)音輸入,以便創(chuàng)建指示假設(shè)的語(yǔ)音識(shí)別結(jié)果和備選項(xiàng)的假設(shè)點(diǎn)陣560。然 而,在自動(dòng)語(yǔ)音識(shí)別系統(tǒng)200計(jì)算出整個(gè)假設(shè)點(diǎn)陣之前,可以說(shuō)明性地計(jì)算初 步點(diǎn)陣560。圖6D示出了從示例性語(yǔ)音輸入生成的一個(gè)示例性的部分(或初 步)假設(shè)點(diǎn)陣。該假設(shè)點(diǎn)陣一般地由圖6D中的標(biāo)號(hào)662示出。依照一個(gè)實(shí)施 例,向用戶界面組件17提供點(diǎn)陣662,使得用戶界面組件17可以開始向用戶 556 —次一個(gè)單詞地呈現(xiàn)來(lái)自假設(shè)的語(yǔ)音識(shí)別結(jié)果的單詞,以供確認(rèn)或糾正。
假設(shè)在點(diǎn)陣662中,單詞"this"是該點(diǎn)陣中表示最佳假設(shè)單詞的第一個(gè) 單詞。由此會(huì)將單詞"this"呈現(xiàn)給用戶以供確認(rèn)或糾正。圖6E示出了設(shè)備 10的顯示器34的一部分,示出將單詞"this"連同下拉菜單503中以概率得分 順序呈現(xiàn)的來(lái)自假設(shè)點(diǎn)陣662的備選項(xiàng)一起呈現(xiàn)給用戶。在菜單503中列出的 備選項(xiàng)是"Miss"和"Mrs."??梢詮狞c(diǎn)陣662看出點(diǎn)陣中有對(duì)于"this"的其 他可能的備選項(xiàng)。用戶然后可以或者通過(guò)方便地操縱"OK"按鈕來(lái)接受所顯 示的結(jié)果"this",或者用戶可以選擇如上所述的備選項(xiàng)之一。
在用戶作出確認(rèn)或糾正所顯示的語(yǔ)音識(shí)別結(jié)果的選擇期間,解碼器繼續(xù)處 理語(yǔ)音輸入,以便完成語(yǔ)音識(shí)別點(diǎn)陣的計(jì)算。這可能只需花費(fèi)幾秒種。由此, 可能甚至在用戶已糾正或確認(rèn)了一個(gè)或兩個(gè)單詞的假設(shè)單詞之前,解碼器就已 經(jīng)完整地計(jì)算出整個(gè)假設(shè)點(diǎn)陣。
圖6E示出了解碼器對(duì)示例性語(yǔ)音輸入"this is speech recognition"計(jì)算出 的完整的假設(shè)點(diǎn)陣664。由于用戶選擇了 "this"作為語(yǔ)音識(shí)別結(jié)果中的第一個(gè) 單詞,因此在點(diǎn)陣664上劃去其他兩個(gè)備選項(xiàng)"Mrs."和"Miss"以顯示在假 設(shè)語(yǔ)音識(shí)別結(jié)果中的其他單詞時(shí)不再考慮它們。實(shí)際上,由于用戶已確認(rèn)了單 詞"this",解碼器肯定地知道"this"是識(shí)別結(jié)果中正確的第一個(gè)單詞。接著, 解碼器可以為點(diǎn)陣664中的所有其他的單詞重新計(jì)算概率,并且用戶界面組件 17可以基于該重新計(jì)算將最高得分的單詞呈現(xiàn)給用戶,作為識(shí)別結(jié)果中的下一 個(gè)假設(shè)單詞。
圖6F示出了現(xiàn)在向用戶顯示單詞"is"作為語(yǔ)音識(shí)別結(jié)果中"this"之后 的最高得分的假設(shè)單詞的界面。圖6F示出了下拉菜單502也顯示了對(duì)單詞"is" 的多個(gè)備選項(xiàng),以及如果用戶通過(guò)選擇備選單詞之一而選擇糾正語(yǔ)音識(shí)別結(jié)果時(shí)可用于在各個(gè)備選項(xiàng)之間滾動(dòng)的滾動(dòng)條。
也應(yīng)該注意,在圖6F所示的實(shí)施例中,下拉菜單503包括"鍵盤"選項(xiàng), 用戶可以操縱該選項(xiàng)來(lái)顯示鍵盤,使得用戶能夠使用指示筆或其他合適的輸入 機(jī)制一次一個(gè)字母地輸入單詞。
圖7是依照本發(fā)明的一個(gè)實(shí)施例更好地示出在使用初步的和完整的點(diǎn)陣 662和664時(shí),圖6中所示的系統(tǒng)的操作的流程圖。如以上關(guān)于圖6B所討論 的,用戶界面組件17首先接收初步假設(shè)點(diǎn)陣(諸如圖6D中所示的點(diǎn)陣662)。 這由圖6中的框680示出。
用戶界面組件17接著輸出語(yǔ)音識(shí)別結(jié)果中當(dāng)前單詞的最佳單詞假設(shè)。例 如,如果這是向用戶顯示以供糾正或確認(rèn)的第一個(gè)單詞,那么用戶界面組件17 為語(yǔ)音識(shí)別結(jié)果中的第一個(gè)單詞位置從初步假設(shè)點(diǎn)陣選擇最佳得分單詞,并將 其顯示給用戶。這由圖6中的框682示出,并且其示例在圖6E中示出。
用戶界面組件17接著接收關(guān)于當(dāng)前所顯示的單詞的用戶糾正或確認(rèn)輸入 554。這由圖6中的框684示出。再一次,這可以通過(guò)用戶從備選項(xiàng)列表中選 擇一備選項(xiàng)、通過(guò)用戶開始鍵入不在假設(shè)點(diǎn)陣中但是仍可以在自動(dòng)語(yǔ)音識(shí)別系 統(tǒng)200使用的字典或詞匯表中找到的單詞、或通過(guò)用戶輸入先前沒(méi)有出現(xiàn)在自 動(dòng)語(yǔ)音識(shí)別系統(tǒng)200的詞匯表或詞典中的新單詞來(lái)完成。
應(yīng)該注意,在第二種情況下(其中用戶開始鍵入不在假設(shè)點(diǎn)陣中但是仍可 以在自動(dòng)語(yǔ)音識(shí)別系統(tǒng)200使用的詞典中找到的單詞)可以使用前綴反饋。這 在圖8中更好地示出。例如,假設(shè)所考慮的語(yǔ)音識(shí)別結(jié)果的正確的單詞是 "demonstrates"。還假設(shè)基于語(yǔ)音輸入552,單詞"demonstrates"未出現(xiàn)在 自動(dòng)語(yǔ)音識(shí)別系統(tǒng)200生成的假設(shè)點(diǎn)陣中。然而,假設(shè)單詞"demonstrates"在 自動(dòng)語(yǔ)音識(shí)別系統(tǒng)200使用的詞典中。在這種情況下,用戶將開始一次一個(gè)字 母地鍵入單詞(諸如通過(guò)選擇鍵盤選項(xiàng)或多次輕叩輸入選項(xiàng))。隨著用戶輸入 每個(gè)字母,自動(dòng)語(yǔ)音識(shí)別系統(tǒng)200基于已經(jīng)輸入的前綴字母使用預(yù)測(cè)性單詞補(bǔ) 全。在一個(gè)說(shuō)明性實(shí)施例中,系統(tǒng)還突出顯示用戶已經(jīng)輸入的字母,使得用戶 可以方便地確定已經(jīng)輸入了哪些字母。從圖8中可以看出用戶已經(jīng)輸入了字母 "demon"并且已經(jīng)預(yù)測(cè)到單詞"demonstrates"。
也應(yīng)該注意,即時(shí)當(dāng)單詞已經(jīng)出現(xiàn)在假設(shè)點(diǎn)陣中時(shí)也可以使用該選項(xiàng)(一次一個(gè)字母地輸入單詞)。換而言之,用戶可以方便地輸入允許用戶一次一個(gè)
字母地輸入單詞的輸入配置,而非用戶滾動(dòng)通過(guò)下拉菜單503中的備選項(xiàng)列表 以便找到正確的備選項(xiàng)?;谟脩糨斎氲拿總€(gè)字母,系統(tǒng)200重新計(jì)算各個(gè)單 詞的概率并且基于給定前綴的情況下最高概率的單詞來(lái)重新排列所顯示的替換項(xiàng)。
在一個(gè)實(shí)施例中,為了重新排列單詞,在給定用戶識(shí)別出先前單詞的上下 文以及給定用戶輸入的前綴字母的情況下,不僅基于由用戶已經(jīng)輸入的前綴字 母,而且還基于出現(xiàn)在語(yǔ)音識(shí)別假設(shè)中的該單詞位置中的單詞以及也基于用戶 已經(jīng)確認(rèn)或糾正的先前的單詞,并且進(jìn)一步基于其他排序組件,諸如上下文相 關(guān)組件(例如n元語(yǔ)法語(yǔ)言模型)來(lái)執(zhí)行重新排列。
無(wú)論如何,接收用戶糾正或確認(rèn)輸入554由圖7中的框684示出。用戶界 面組件17基于用戶輸入糾正或確認(rèn)單詞,如圖6中框686所示。
如果剛確認(rèn)或糾正的單詞是語(yǔ)音識(shí)別結(jié)果中前幾個(gè)單詞中的一個(gè),則可能 用戶界面組件17正基于初步點(diǎn)陣向用戶提供假設(shè)單詞,如以上有關(guān)圖6B所描 述的。因此,判定是否己經(jīng)接收到完整的點(diǎn)陣。這由圖6中的框688示出。如 果是,那么如框690所示為所有今后的處理使用完整的點(diǎn)陣。如果還沒(méi)有接收 到完整的點(diǎn)陣,那么再次使用初步點(diǎn)陣來(lái)處理語(yǔ)音識(shí)別結(jié)果中的下一個(gè)單詞。
一旦用戶確認(rèn)或糾正了正在處理的當(dāng)前單詞,用戶界面組件17判定在假 設(shè)的語(yǔ)音識(shí)別結(jié)果中是否有更多的單詞。這由圖7中的框692示出。
如果是,那么自動(dòng)語(yǔ)音識(shí)別解碼器為可能作為語(yǔ)音識(shí)別結(jié)果中的下一個(gè)單 詞提議的每個(gè)可能的單詞重新計(jì)算得分。再一次,這一對(duì)下一單詞的得分的重 新計(jì)算可以基于由用戶已經(jīng)確認(rèn)或糾正的單詞、基于在假設(shè)點(diǎn)陣中找到的單
詞、基于語(yǔ)言模型得分或基于其他期望的建模得分。
為了從點(diǎn)陣生成候選單詞,首先確定通過(guò)對(duì)應(yīng)于該結(jié)果的已確認(rèn)單詞序列 可以從初始點(diǎn)陣節(jié)點(diǎn)獲得哪個(gè)候選單詞集。來(lái)自這些候選節(jié)點(diǎn)的與點(diǎn)陣中的外 出弧相關(guān)聯(lián)的該單詞列表形成了由點(diǎn)陣預(yù)測(cè)的候選單詞。例如,在圖6F所示 的點(diǎn)陣664中,假設(shè)用戶己確認(rèn)或糾正了單詞"this is",則在給定已經(jīng)確認(rèn) 的單詞情況下,接著在語(yǔ)音識(shí)別結(jié)果中可能的備選項(xiàng)是"speech" 、 "beach" 和"bee"。為了確定每個(gè)候選單詞的概率,通過(guò)使用動(dòng)態(tài)編程組合匹配路徑的概率來(lái) 計(jì)算每個(gè)候選節(jié)點(diǎn)的前向概率。對(duì)于每個(gè)候選單詞過(guò)渡,從后驗(yàn)前向概率、局
部過(guò)渡概率和底向得分來(lái)計(jì)算總體過(guò)渡概率。通過(guò)組合來(lái)自相應(yīng)的候選單詞過(guò) 渡的概率來(lái)確定每個(gè)候選單詞的最終概率。在一個(gè)實(shí)施例中,可以通過(guò)添加概
率來(lái)準(zhǔn)確地計(jì)算概率組合,或通過(guò)取最大值以Viterbi方式來(lái)估算概率組合。 為了減少計(jì)算,隨著用戶提交每個(gè)單詞遞增地計(jì)算候選節(jié)點(diǎn)和對(duì)應(yīng)的概率。當(dāng) 然應(yīng)該注意,這僅是計(jì)算與語(yǔ)音識(shí)別結(jié)果中的下一個(gè)單詞相關(guān)聯(lián)的得分的一種 方式?;谠撔畔⒅匦掠?jì)算得分在圖7中由框696示出。
在框692處,如果沒(méi)有更多的單詞要處理,那么語(yǔ)音識(shí)別結(jié)果完成,并且 處理結(jié)束。
可以看出,通過(guò)組合用于移動(dòng)設(shè)備上的文本輸入的鍵區(qū)和語(yǔ)音輸入,當(dāng)單 詞被誤識(shí)別時(shí),順序提交范例優(yōu)于傳統(tǒng)的隨機(jī)訪問(wèn)糾正。它采用較少的擊鍵, 并且話語(yǔ)允許系統(tǒng)顯示具有不同分割的單詞備選項(xiàng),而同時(shí)以非常直接的方式 呈現(xiàn)結(jié)果。因此,當(dāng)識(shí)別點(diǎn)陣表示正確的識(shí)別時(shí),用戶無(wú)需因?yàn)椴徽_的單詞 分割而糾正多單詞短語(yǔ),由此導(dǎo)致更少的擊鍵。當(dāng)選擇多個(gè)單詞以供糾正時(shí), 這也避免了備選項(xiàng)的組合激增的問(wèn)題。
此外,知道先前提交的單詞使得系統(tǒng)能夠基于語(yǔ)言模型和與已提交單詞的 聲學(xué)對(duì)齊依照它們的后驗(yàn)概率來(lái)重新排列假設(shè)。由此,感知到的準(zhǔn)確度比傳統(tǒng) 系統(tǒng)高,在傳統(tǒng)系統(tǒng)中在糾正之后不能改變對(duì)話語(yǔ)的剩余部分的假設(shè)。通過(guò)僅 顯示要糾正和提交的下一個(gè)單詞,順序提交系統(tǒng)改進(jìn)了感知的準(zhǔn)確度并且導(dǎo)致 擊鍵的減少。
類似地,順序提交是基于現(xiàn)有文本輸入方法的用戶熟悉的一次一個(gè)單詞的 輸入界面。在語(yǔ)音輸入不合適的情況下,用戶可以方便地跳過(guò)說(shuō)出期望話語(yǔ)的 第一步驟,而開始僅使用鍵區(qū)來(lái)輸入文本。由此,該系統(tǒng)是非常靈活的。
盡管以對(duì)結(jié)構(gòu)特征和/或方法動(dòng)作專用的語(yǔ)言描述了本主題,但是可以理 解,所附權(quán)利要求書中定義的本主題不必限于先前所描述的具體特征或動(dòng)作。 相反,這些具體特征和動(dòng)作是作為實(shí)現(xiàn)權(quán)利要求書的示例來(lái)公開的。
權(quán)利要求
1. 一種用于將信息輸入到移動(dòng)設(shè)備(10)中的方法,包括 從用戶(556)處接收(602)多單詞語(yǔ)音輸入(552); 對(duì)所述語(yǔ)音輸入(552)執(zhí)行語(yǔ)音識(shí)別(200)以獲得語(yǔ)音識(shí)別結(jié)果;以及 一次一個(gè)單詞地順序地顯示(604)所述語(yǔ)音識(shí)別結(jié)果(560)以供用戶確認(rèn)或糾正(606)。
2. 如權(quán)利要求l所述的方法,其特征在于,還包括-接收(606)指示對(duì)給定的、所顯示的單詞的用戶糾正或確認(rèn)的用戶輸入 (554)。
3. 如權(quán)利要求1所述的方法,其特征在于,執(zhí)行語(yǔ)音識(shí)別包括計(jì)算(652) 對(duì)應(yīng)于所述語(yǔ)音輸入(552)的可能單詞序列,并且所述方法還包括在將下一單詞添加到所述語(yǔ)音識(shí)別結(jié)果的顯示之前,在給定的所顯示的單詞之后,基于指示所述給定的所顯示單詞的用戶糾正或確認(rèn)(684)的用戶輸 入(554),重新計(jì)算(696)所述可能單詞序列。
4. 如權(quán)利要求3所述的方法,其特征在于,顯示包括 基于所述可能單詞序列的重新計(jì)算(696),將下一單詞添加(682)到所述顯示。
5. 如權(quán)利要求2所述的方法,其特征在于,接收(684)用戶輸入包括 接收指示對(duì)所述移動(dòng)設(shè)備(10)上的輸入機(jī)制(554)的用戶操縱的備選形式輸入(554)。
6. 如權(quán)利要求1所述的方法,其特征在于,執(zhí)行語(yǔ)音識(shí)別包括 基于所述語(yǔ)音輸入(552)計(jì)算(652)指示多個(gè)語(yǔ)音識(shí)別假設(shè)的假設(shè)點(diǎn)陣(560)。
7. 如權(quán)利要求6所述的方法,其特征在于,計(jì)算(652)假設(shè)點(diǎn)陣(560) 包括在完成計(jì)算(652)所述假設(shè)點(diǎn)陣之前,輸出(658)—初步假設(shè)點(diǎn)陣(560);以及接著繼續(xù)計(jì)算(652)所述假設(shè)點(diǎn)陣(560);其中順序地顯示(604)所述語(yǔ)音識(shí)別結(jié)果以供用戶糾正或確認(rèn)包括首先 使用所述初步假設(shè)點(diǎn)陣(560)來(lái)顯示所述語(yǔ)音識(shí)別結(jié)果,直至完全計(jì)算(654) 出所述假設(shè)點(diǎn)陣(560),接著使用所述完全計(jì)算出的假設(shè)點(diǎn)陣(560)來(lái)顯示 (660)所述語(yǔ)音識(shí)別結(jié)果。
8. 如權(quán)利要求5所述的方法,其特征在于, 一次一個(gè)單詞地順序顯示(604) 所述語(yǔ)音識(shí)別結(jié)果包括顯示(682)最佳假設(shè)單詞;以及 顯示接近所述最佳假設(shè)的備選單詞的列表(503)。
9. 如權(quán)利要求8所述的方法,其特征在于,接收備選形式輸入包括 接收(684)對(duì)所述備選單詞之一的用戶選擇。
10. 如權(quán)利要求8所述的方法,其特征在于,接收備選形式輸入包括 接收(606)指示用戶一次一個(gè)字母地輸入期望單詞的用戶鍵入輸入。
11. 一種移動(dòng)設(shè)備(10),包括 語(yǔ)音識(shí)別器(200);以及用戶界面組件(17),它被配置成從所述語(yǔ)音識(shí)別器(200)接收指示一 多單詞語(yǔ)音輸入(552)的識(shí)別的語(yǔ)音識(shí)別結(jié)果(560),并通過(guò)僅在所述語(yǔ)音 識(shí)別結(jié)果(560)中先前輸出的單詞被用戶(556)確認(rèn)或糾正(606)以后才 輸出所述語(yǔ)音識(shí)別結(jié)果(560)中的下一單詞來(lái)順序地輸出(604)所述語(yǔ)音識(shí) 別結(jié)果(560)。
12. 如權(quán)利要求ll所述的移動(dòng)設(shè)備(10),其特征在于,還包括 顯示器(34),所述用戶界面組件(17)被配置成通過(guò)在所述顯示器(34)上順序地顯示所述語(yǔ)音識(shí)別結(jié)果來(lái)輸出所述語(yǔ)音識(shí)別結(jié)果。
13. 如權(quán)利要求12所述的移動(dòng)設(shè)備(10),其特征在于,所述用戶界面 組件(17)被配置成與所述語(yǔ)音識(shí)別結(jié)果(560) —起顯示多個(gè)備選單詞(503) 作為對(duì)給定的所顯示的單詞的備選項(xiàng)。
14. 如權(quán)利要求12所述的移動(dòng)設(shè)備(10),其特征在于,所述語(yǔ)音識(shí)別 器(200)被配置成通過(guò)計(jì)算(652)可能單詞序列來(lái)將所述語(yǔ)音識(shí)別結(jié)果(560) 提供給所述用戶界面組件(17),并且其中,所述語(yǔ)音識(shí)別器(200)被配置 成基于用戶對(duì)所顯示的單詞的確認(rèn)或糾正來(lái)重新計(jì)算(696)所述可能單詞序列,其中所述用戶界面組件(17)被配置成基于所述可能單詞序列的重新計(jì)算(696)來(lái)顯示下一個(gè)單詞。
15. 如權(quán)利要求12所述的移動(dòng)設(shè)備(10),其特征在于,所述語(yǔ)音識(shí)別 器(200)通過(guò)輸出(658)初步的可能單詞序列來(lái)提供所述語(yǔ)音識(shí)別結(jié)果(560), 并且其中所述用戶界面組件(17)被配置成最初基于所述初步的可能單詞序列 來(lái)向用戶顯示所述語(yǔ)音識(shí)別結(jié)果(560)。
16. —種移動(dòng)設(shè)備(10)上的用戶界面,包括 用戶可操縱的輸入形式組件(24);顯示器(34);以及用戶界面組件(17),它被配置成顯示指示一多單詞語(yǔ)音輸入(552)的 單詞列表,所述列表中的每一單詞在顯示所述列表中的下一個(gè)單詞之前被順序 地顯示(604)以供用戶確認(rèn)或糾正(606)。
17. 如權(quán)利要求16所述的用戶界面,其特征在于,所述用戶界面組件(17) 被配置成向語(yǔ)音識(shí)別系統(tǒng)(200)提供指示用戶對(duì)所顯示的單詞的糾正或確認(rèn) 的糾正或確認(rèn)信息(554),用于重新計(jì)算(696)指示所述多單詞語(yǔ)音輸入(552) 的可能單詞的剩余部分。
18. 如權(quán)利要求16所述的用戶界面,其特征在于,所述用戶確認(rèn)或糾正 是通過(guò)所述用戶可操縱輸入形式組件(24)來(lái)提供的。
19. 如權(quán)利要求18所述的用戶界面,其特征在于,所述用戶可操縱輸入 形式組件(24)包括鍵區(qū)(32、 510)、軟鍵盤(514)、手寫輸入組件(42) 以及觸摸屏(34)之一。
20. 如權(quán)利要求16所述的用戶界面,其特征在于,所述用戶界面組件(17) 被配置成與所述列表中的每個(gè)單詞一起顯示一組備選單詞(503)以供用戶選 擇。
全文摘要
當(dāng)將說(shuō)出的信息輸入到移動(dòng)設(shè)備中時(shí)同時(shí)使用語(yǔ)音和備選形式的輸入。該備選形式輸入可用于執(zhí)行對(duì)語(yǔ)音識(shí)別結(jié)果中的單詞的順序提交。
文檔編號(hào)G06F3/16GK101313276SQ200680040198
公開日2008年11月26日 申請(qǐng)日期2006年10月16日 優(yōu)先權(quán)日2005年10月28日
發(fā)明者A·艾斯洛, B-J·蘇, M·V·瑪哈簡(jiǎn) 申請(qǐng)人:微軟公司