專利名稱:支持自然語言人機(jī)交互的移動(dòng)系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明提供具有語音接口和/或語音接口和非語音接口的組合以 使得能夠?qū)崿F(xiàn)自然語言人機(jī)交互的移動(dòng)裝置。更具體地講,本發(fā)明使 得移動(dòng)用戶能夠提交寬范圍領(lǐng)域內(nèi)的自然語言語音和/或非語音問題 或命令。所述移動(dòng)裝置被構(gòu)造為以自然的方式呈現(xiàn)答復(fù)。
背景技術(shù):
遠(yuǎn)程信息處理系統(tǒng)為將人-計(jì)算機(jī)接口引進(jìn)移動(dòng)環(huán)境的系統(tǒng)。傳 統(tǒng)的計(jì)算機(jī)接口使用鍵盤、鍵區(qū)、點(diǎn)擊技術(shù)和觸摸屏顯示器的一些組 合。至少部分由于交互速度和固有的危險(xiǎn)和干擾而導(dǎo)致這些傳統(tǒng)的接 口技術(shù)通常不適合于移動(dòng)環(huán)境。因此,在許多遠(yuǎn)程信息處理應(yīng)用中采 用語音接口。然而,已證明創(chuàng)建適合于在移動(dòng)環(huán)境中使用的自然語言語音接口 是很困難的。通用遠(yuǎn)程信息處理系統(tǒng)應(yīng)該適應(yīng)來自寬范圍領(lǐng)域的和來自許多用戶的具有各種偏好和需要的命令和請(qǐng)求。此外,多個(gè)移動(dòng)用 戶可能經(jīng)常同時(shí)想使用這樣的系統(tǒng)。最后,大多數(shù)移動(dòng)環(huán)境相對(duì)有噪 聲,這使得語音識(shí)別從本質(zhì)上講就很難。以自然的方式對(duì)本地信息和網(wǎng)絡(luò)在線信息進(jìn)行檢索和對(duì)命令進(jìn) 行處理在任何環(huán)境中仍然是一個(gè)困難的問題,尤其是在移動(dòng)環(huán)境中。 對(duì)人類交互的認(rèn)知研究表明,口頭交流,例如問問題或給出命令的人, 典型地極其依賴于上下文和目標(biāo)人的領(lǐng)域知識(shí)。相反,基于機(jī)器的請(qǐng) 求(請(qǐng)求可以是問題、命令和/或其它類型的交流)可能被高度結(jié)構(gòu)化, 并且從本質(zhì)上講可能對(duì)人類用戶不自然。因而,口頭交流和從口頭交 流提取的請(qǐng)求的機(jī)器處理可能根本上是不相容的。然而,允許人類發(fā)出基于自然語言語音的請(qǐng)求的能力仍然是期望的目標(biāo)。已對(duì)自然語言處理和語音識(shí)別的多個(gè)領(lǐng)域進(jìn)行了研究。語音識(shí)別 已在準(zhǔn)確度方面得到了穩(wěn)定的改進(jìn),目前,語音識(shí)別已成功地用在寬 廣范圍的應(yīng)用中。以前自然語言處理應(yīng)用于語音查詢的解析。然而, 已研發(fā)了非常有限數(shù)量的這樣的系統(tǒng),這些系統(tǒng)為用戶提供完整的環(huán) 境,以在移動(dòng)環(huán)境中發(fā)出自然語言語音請(qǐng)求和/或命令,并接收自然發(fā) 聲的答復(fù)。對(duì)于創(chuàng)建完整的自然語言口頭的和/或基于文本的查詢和答 復(fù)環(huán)境,仍存在許多重要的障礙。
大多數(shù)自然語言請(qǐng)求和命令的定義不完整的事實(shí)對(duì)自然語言查 詢-答復(fù)交互是重要的障礙。此外,僅可關(guān)于以前的問題的上下文、 領(lǐng)域知識(shí)或用戶的興趣和偏好的歷史對(duì)一些問題進(jìn)行解釋。因而,可 能不容易將一些自然語言問題和命令變換為機(jī)器可處理的形式。使這 個(gè)問題更復(fù)雜的是,許多自然語言問題可能是有歧義的或者主觀的。 在這些情況下,機(jī)器可處理的查詢的形成和自然語言答復(fù)的返回最 難。
甚至, 一旦問題被問出、解析和解釋,機(jī)器可處理的請(qǐng)求和命令 就必須被明確表達(dá)。根據(jù)問題的性質(zhì),可能不存在返回讓人滿意的答 復(fù)的簡單的請(qǐng)求集合??赡苄枰l(fā)起幾個(gè)請(qǐng)求,甚至這些請(qǐng)求可能需 要被鏈接或級(jí)聯(lián)以實(shí)現(xiàn)完整的結(jié)果。此外,沒有單個(gè)可用的源可包括 所需要的整個(gè)結(jié)果集合。因而,可能需要將可能具有幾個(gè)部分的多個(gè) 請(qǐng)求放入位于本地或遠(yuǎn)程的多個(gè)數(shù)據(jù)源。不是所有的這些源和請(qǐng)求可 返回有用的結(jié)果,或者根本就不返回任何結(jié)果。
在移動(dòng)環(huán)境中,無線通信的使用可進(jìn)一步減少請(qǐng)求將是完整的或 者將返回成功的結(jié)果的機(jī)會(huì)。返回的有用結(jié)果通常被嵌入在其它信息 中,并且可能需要從這些信息提取這些有用的結(jié)果。例如,通常需要 從文本串、表格、列表、頁面或者其它信息中的大量其它信息"積攢" 幾個(gè)關(guān)鍵詞或數(shù)字。同時(shí),可能需要去除其它非必要的信息諸如圖形 或圖片以處理語音答復(fù)。在任何情況下,應(yīng)該對(duì)多個(gè)結(jié)果進(jìn)行評(píng)估并 組合這些結(jié)果以形成最佳的可能的答案,即使在一些請(qǐng)求沒有返回有 用的結(jié)果或完全失敗的情況下也要如此。在問題有歧義或者結(jié)果在本質(zhì)上主觀的情況下,確定要呈現(xiàn)的最佳結(jié)果是個(gè)復(fù)雜的過程。最后, 為了維持自然交互,應(yīng)該將答復(fù)快速地返回給用戶。在保持實(shí)時(shí)性能 的同時(shí)對(duì)復(fù)雜的不確定的請(qǐng)求進(jìn)行管理和評(píng)估是個(gè)重要的挑戰(zhàn)。 這些缺點(diǎn)和其它缺點(diǎn)存在于現(xiàn)有系統(tǒng)中。發(fā)明內(nèi)容本發(fā)明克服現(xiàn)有的遠(yuǎn)程信息處理系統(tǒng)的這些缺點(diǎn)和其它缺點(diǎn)。 根據(jù)本發(fā)明的一方面,提供基于語音和基于非語音的系統(tǒng),這些 系統(tǒng)應(yīng)命令行動(dòng)并檢索信息。本發(fā)明使用上下文、先驗(yàn)信息、領(lǐng)域知 識(shí)和用戶特定的簡檔數(shù)據(jù)來為提交多個(gè)領(lǐng)域中的請(qǐng)求和/或命令的用 戶實(shí)現(xiàn)自然環(huán)境。在所述過程中的每一步,可包容完全失敗或部分失 敗和適度的恢復(fù)。在所述過程的幾個(gè)階段,可通過使用概率和模糊推 理來實(shí)現(xiàn)對(duì)部分失敗的魯棒性。該對(duì)部分失敗的魯棒性增進(jìn)了對(duì)問題 和命令的自然答復(fù)的感覺。根據(jù)本發(fā)明的另一方面,可將交互式自然語言系統(tǒng)(這里,"系 統(tǒng),,)并入移動(dòng)裝置,或者可經(jīng)由有線或無線連接使該系統(tǒng)連接至移 動(dòng)裝置。移動(dòng)裝置可通過有線或無線鏈接與計(jì)算機(jī)或其它電子控制系 統(tǒng)建立接口。移動(dòng)裝置還可獨(dú)立于移動(dòng)結(jié)構(gòu)操作,并可通過無線局域 連接、廣域無線連接或者通過其它通信鏈接將所述移動(dòng)裝置用于遠(yuǎn)程 控制裝置。根據(jù)本發(fā)明的一方面,可將這樣的軟件安裝到移動(dòng)裝置上,所述軟件包括輸入模塊,捕捉用戶輸入;解析程序,對(duì)輸入進(jìn)行解析; 文本至語音引擎模塊,將文本轉(zhuǎn)換為語音;網(wǎng)絡(luò)接口,使得所述裝置 能夠與一個(gè)或多個(gè)網(wǎng)絡(luò)建立接口;非語音接口模塊;事件管理程序, 管理事件;和/或其它模塊。在一些實(shí)施例中,事件管理程序可與上下 文描述語法、用戶簡檔模塊、個(gè)性模塊、代理模塊、更新管理程序和 一個(gè)或多個(gè)數(shù)據(jù)庫通信,用戶簡檔模塊使得用戶簡檔能夠被創(chuàng)建、修 改和/或訪問,個(gè)性模塊使得各種個(gè)性能夠被創(chuàng)建和/或使用。將理解, 可在移動(dòng)裝置、附到移動(dòng)結(jié)構(gòu)的計(jì)算機(jī)、桌面計(jì)算機(jī)或服務(wù)器之間以任何方式分布這個(gè)軟件,而不改變本發(fā)明的功能、特征、范圍或意圖。 根據(jù)本發(fā)明的 一方面,所述系統(tǒng)可包括語音單元接口裝置和計(jì)算 機(jī)裝置或系統(tǒng),語音單元接口裝置從用戶接收口述的自然語言請(qǐng)求、 命令和/或其它話語,計(jì)算機(jī)裝置或系統(tǒng)從語音單元接收輸入,對(duì)該輸 入進(jìn)行處理,并用自然語言語音答復(fù)來答復(fù)用戶。
根據(jù)本發(fā)明的另一方面,可通過有線或無線連接使所述系統(tǒng)與一 個(gè)或多個(gè)其它系統(tǒng)建立接口。所述其它系統(tǒng)可自己將其分布在附到移 動(dòng)結(jié)構(gòu)或者位于移動(dòng)結(jié)構(gòu)外部的電子控制器或計(jì)算機(jī)之間。所述其它 系統(tǒng)可包括電子控制系統(tǒng)、娛樂裝置、導(dǎo)航儀器、測量儀器或傳感器 或者其它系統(tǒng)。還可為外部系統(tǒng)提供這樣的特征,包括支付系統(tǒng)、急 救輔助網(wǎng)絡(luò)、遠(yuǎn)程定貨系統(tǒng)、自動(dòng)或參與型顧客服務(wù)功能或其它特征。 根據(jù)本發(fā)明的另一方面,可在裝置網(wǎng)絡(luò)中部署所述系統(tǒng),所述裝 置共享代理、數(shù)據(jù)、信息、用戶簡檔、歷史或其它組件的共用庫。每 個(gè)用戶可在所述網(wǎng)絡(luò)上配備有移動(dòng)裝置的任何位置與相同的服務(wù)和 應(yīng)用交互,并接收這些服務(wù)和應(yīng)用。例如,可在遍及家里、營業(yè)地點(diǎn)、 車輛或其它位置的不同位置放置多個(gè)移動(dòng)裝置。在這樣的情況下,所 述系統(tǒng)可將用戶對(duì)其說話的特定裝置的位置用作所問的問題的上下 文的一部分。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,可在移動(dòng)裝置執(zhí)行處理。可現(xiàn)場處理 命令以使得移動(dòng)裝置能夠控制它們自己和/或控制其它移動(dòng)裝置、固定 計(jì)算機(jī)、移動(dòng)電話和其它裝置。另外,移動(dòng)裝置可跟蹤上下文。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,可提供在多模式交互期間維護(hù)上下文 信息的基礎(chǔ)架構(gòu),所述多模式交互諸如語音和/或非語音交互。根據(jù)本 發(fā)明的一個(gè)示例性實(shí)施例,可通過在移動(dòng)裝置或多模式裝置和所述系 統(tǒng)之間提供通信信道來在多模式環(huán)境中維護(hù)上下文信息。所述通信信 道允許所述系統(tǒng)接收多模式輸入,諸如基于文本的命令和問題和/或基 于聲音的命令和問題。根據(jù)本發(fā)明的另一實(shí)施例,所述多模式輸入可 包括作為命令或問題而接收的文本串,諸如關(guān)鍵詞。根據(jù)本發(fā)明的又 一實(shí)施例,所述系統(tǒng)可使移動(dòng)裝置和基于語音的單元之間的上下文同步。為了將答復(fù)發(fā)送到對(duì)應(yīng)的移動(dòng)裝置,所述系統(tǒng)可跟蹤源,并將答 復(fù)發(fā)送到對(duì)應(yīng)的語音接口或非語音接口 。根據(jù)本發(fā)明的可替換實(shí)施例,可使用上下文管理程序來維護(hù)上下 文信息,可對(duì)上下文管理程序進(jìn)行集中定位以從多個(gè)移動(dòng)裝置接收輸 入并將輸出提供給多個(gè)移動(dòng)裝置。根據(jù)一個(gè)實(shí)施例,與上下文管理程 序通信的移動(dòng)裝置可通過注冊模塊注冊,并可預(yù)訂一個(gè)或多個(gè)事件。根據(jù)本發(fā)明的另一實(shí)施例,上下文管理程序可接收例如上下文XML 表單的輸入??赏ㄟ^上下文跟蹤模塊向其它注冊的移動(dòng)裝置通知上下 文改變,以使得在注冊的模塊之間的上下文能夠同步。根據(jù)本發(fā)明的 一個(gè)實(shí)施例,可添加注冊的模塊或者從所述系統(tǒng)去除注冊的模塊。注 冊的模塊可包括多模式裝置所特有的動(dòng)態(tài)鏈接庫(DLL)或其它信息 源。根據(jù)本發(fā)明的又一可替換實(shí)施例,可從以文本格式呈現(xiàn)的命令或 請(qǐng)求和/或作為話語呈現(xiàn)的命令或請(qǐng)求確定上下文信息,并使用多通道 自動(dòng)語音識(shí)別模塊對(duì)上下文信息進(jìn)行處理,多通自動(dòng)語音識(shí)別模塊將 話語轉(zhuǎn)錄為文本??蓪⑺雒罨蛘?qǐng)求與上下文描述語法進(jìn)行比較以 識(shí)別匹配??蓪?duì)照所述命令或請(qǐng)求對(duì)上下文描述語法中的任何活動(dòng)語 法進(jìn)行評(píng)分,并可將最佳的匹配發(fā)送給答復(fù)產(chǎn)生器模塊。可將代理與 對(duì)應(yīng)的答復(fù)產(chǎn)生器模塊相關(guān)聯(lián),代理可檢索用于產(chǎn)生答復(fù)的請(qǐng)求的信 息。代理可更新上下文堆棧以使得能夠?qū)崿F(xiàn)后續(xù)請(qǐng)求。根據(jù)本發(fā)明的另一實(shí)施例,移動(dòng)裝置可被構(gòu)造為允許將對(duì)象的口 語注解存儲(chǔ)在其上。移動(dòng)裝置可將口語注解轉(zhuǎn)錄給文本,并將文本注 解與對(duì)象一起存儲(chǔ)。可替換地,移動(dòng)裝置可被構(gòu)造為使得用戶能夠手 動(dòng)輸入與對(duì)象一起存儲(chǔ)的文本描述。根據(jù)本發(fā)明的一個(gè)實(shí)施例,可對(duì) 文本注解和/或文本描述進(jìn)行分類和搜索。在可替換的實(shí)施例中,移動(dòng) 裝置可對(duì)口語注解而不是文本注解進(jìn)行分類和搜索。然而,對(duì)口語注 解進(jìn)行分類和搜索可能比對(duì)文本注解和/或文本描述進(jìn)行分類和搜索 困難得多。根據(jù)本發(fā)明的一個(gè)實(shí)施例,可使用移動(dòng)電話或其它裝置上的短消息服務(wù)傳送文本注解和文本描述。短消息服務(wù)為能夠?qū)崿F(xiàn)短文本消息 的發(fā)送和接收的文本消息服務(wù)。可在數(shù)據(jù)中心存儲(chǔ)文本消息以轉(zhuǎn)發(fā)給 想要的接收者。可使用其它構(gòu)造。根據(jù)本發(fā)明的另一方面,可將領(lǐng)域特定的行為和信息組織到數(shù)據(jù) 管理程序中。數(shù)據(jù)管理程序是接收、處理和答復(fù)用戶問題、查詢和命 令的自主可執(zhí)行程序。數(shù)據(jù)管理程序提供完整的、方便的、可重新分 布的包或者典型地針對(duì)特定應(yīng)用領(lǐng)域的功能性模塊。數(shù)據(jù)管理程序可 以是完整的可執(zhí)行代碼、腳本、與信息的鏈接的包以及其它形式的通 信數(shù)據(jù),所述其它形式的通信數(shù)據(jù)提供特定功能性包,通常是特定領(lǐng) 域中的特定功能性包。換句話說,數(shù)據(jù)管理程序可包括用于將功能性 擴(kuò)展到新的領(lǐng)域的組件。此外,當(dāng)新的行為被添加或者新的信息變得 可利用時(shí),可通過網(wǎng)絡(luò)遠(yuǎn)程對(duì)數(shù)據(jù)管理程序及其相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行更 新。數(shù)據(jù)管理程序可使用系統(tǒng)資源和其它的服務(wù),典型地更具體地講, 數(shù)據(jù)管理程序的服務(wù)??梢砸栽S多方式分布和重新分布數(shù)據(jù)管理程 序,包括在可拆除存儲(chǔ)介質(zhì)上、通過網(wǎng)絡(luò)轉(zhuǎn)移或附到郵件和其它消息 上。更新管理程序可用于將新的數(shù)據(jù)管理程序添加到所述系統(tǒng)或者更 新現(xiàn)有的數(shù)據(jù)管理程序。為了提高自然查詢和答復(fù)環(huán)境,所述系統(tǒng)可對(duì)結(jié)果進(jìn)行格式化以 提高對(duì)用戶的理解力。結(jié)果的格式化和呈現(xiàn)可基于問題的上下文、呈 現(xiàn)的答復(fù)的內(nèi)容、與用戶的交互歷史、用戶的偏好和興趣以及領(lǐng)域的 性質(zhì)。相反,許多用戶可能認(rèn)為嚴(yán)格的高度格式化或結(jié)構(gòu)化的結(jié)果呈 現(xiàn)是不自然的。根據(jù)本發(fā)明的另 一實(shí)施例,所述系統(tǒng)可仿真人類"個(gè)性"的一些方 面,在一些情況下,可使答復(fù)的呈現(xiàn)和用于提供答復(fù)的術(shù)語隨意一些 以避免嚴(yán)格格式化或機(jī)械化的答復(fù)的出現(xiàn)。其它仿真的個(gè)性特點(diǎn)的使 用也是期望的。例如,可以以表示同情的方式呈現(xiàn)可能令用戶苦惱的 答復(fù)。此外,請(qǐng)求的結(jié)果可以是長文本串、列表、表格或其它非常長 的數(shù)據(jù)集合。由于簡單地讀取長答復(fù)通常不是優(yōu)選的,所以這種類型 的信息的自然呈現(xiàn)提出了特別的挑戰(zhàn)。相反,所述系統(tǒng)可對(duì)答復(fù)的重要部分進(jìn)行解析,并且最初可僅提供報(bào)告。確定呈現(xiàn)長答復(fù)的哪些部 分可基于問題的上下文、呈現(xiàn)的答復(fù)的內(nèi)容、與用戶的交互歷史、用 戶的偏好和興趣以及領(lǐng)域的性質(zhì)。同時(shí),所述系統(tǒng)可給予關(guān)于要呈現(xiàn) 什么信息和要呈現(xiàn)多少信息的用戶交互控制,以同時(shí)一起停止所有答 復(fù),或者采取其它行動(dòng)。可將本發(fā)明作為用戶接口應(yīng)用于廣泛的各種環(huán)境中的遠(yuǎn)程信息處理系統(tǒng)。這些環(huán)境可包括但是不限于以下方面l)個(gè)人汽車、租 用汽車或車隊(duì)汽車;2)摩托車、踏板車和其它兩輪或野外車輛;3) 商用長途和短途卡車;4)遞送服務(wù)車輛;5)車隊(duì)服務(wù)車輛;6)工 業(yè)車輛;7)農(nóng)業(yè)和建筑機(jī)械;8)水運(yùn)車輛;9)飛機(jī);和10)專用 軍事、執(zhí)法和急救車輛。根據(jù)本發(fā)明的另一方面,所述系統(tǒng)可對(duì)問題、請(qǐng)求和/或命令進(jìn) 行處理和答復(fù)??墒褂藐P(guān)鍵詞或上下文來確定接收的話語和/或文本消 息是否包括請(qǐng)求或命令。例如,話語可包括問題、請(qǐng)求和/或命令的方 面。例如,用戶可說"調(diào)到我喜歡的無線電臺(tái)"。對(duì)請(qǐng)求進(jìn)行處理以確 定用戶喜歡的無線電臺(tái)的名稱、頻道和時(shí)間。如果該臺(tái)的節(jié)目編制是 用戶通常不收聽的類型,則所述系統(tǒng)可建議使用替代的選擇,諸如更 可能讓用戶高興地聽CD。必須執(zhí)行用于設(shè)置無線電臺(tái)的調(diào)頻的命令。本發(fā)明可用于移動(dòng)環(huán)境中的一般化的本地或網(wǎng)絡(luò)信息查詢、檢索 和呈現(xiàn)。對(duì)于包括問題或查詢或者問題或查詢集合的每段用戶話語, 所述系統(tǒng)可執(zhí)行多個(gè)步驟,這些步驟可包括l)通過在各種真實(shí)世 界的環(huán)境中操作的語音識(shí)別來捕捉用戶的問題或查詢;2)對(duì)問題或 查詢進(jìn)行解析和解釋;3)確定所需要的專門知識(shí)的領(lǐng)域和上下文以 調(diào)用適當(dāng)?shù)馁Y源,包括代理;4)對(duì)對(duì)一個(gè)或多個(gè)本地和/或網(wǎng)絡(luò)數(shù)據(jù)源的一個(gè)或多個(gè)查詢進(jìn)行公式化表達(dá),或者將合適的命令發(fā)送到本地或遠(yuǎn)程裝置或系統(tǒng)本身;5)執(zhí)行所需要的格式化、變量替換和變換 以將查詢修改為最可能從可利用的源產(chǎn)生期望的結(jié)果的形式;6)以異步方式執(zhí)行多個(gè)查詢或命令,并恰當(dāng)?shù)靥幚硎。?)從一個(gè)或多 個(gè)結(jié)果提取或積攢期望的信息,可以以許多不同格式中的任何一種格式返回這些結(jié)果;8)對(duì)結(jié)果進(jìn)行評(píng)估和解釋,包括錯(cuò)誤的處理,收 集這些結(jié)果并將這些結(jié)果組合成被判斷為"最佳"的單個(gè)最佳結(jié)果,即 使這些結(jié)果有歧義、不完整或有沖突;9)執(zhí)行所需要的格式化、變 量替換和變換以將這些結(jié)果修改為用戶最容易理解的形式;10)以有 用的和/或預(yù)期的方式通過文本至語音引擎或多模式接口將混合的結(jié) 果呈現(xiàn)給用戶;ll)可選地,將指示命令的成功或失敗的答復(fù)提供給 用戶,所述答復(fù)可包括狀態(tài)信息;或者其它步驟??衫脤I(yè)領(lǐng)域的知識(shí)、問題或命令的上下文、領(lǐng)域特定信息、 用戶的交互歷史、用戶偏好、可利用的信息源或命令以及從源獲得的 答復(fù)來執(zhí)行以上步驟。概率或模糊集決策和匹配方法可應(yīng)用于處理不一致的、有歧義 的、有沖突的、不完整的信息或答復(fù)。另外,異步查詢可用于提供請(qǐng) 求或命令的快速、恰當(dāng)?shù)氖?,這允許所述系統(tǒng)魯棒地快速地并以對(duì) 用戶看似自然的方式返回結(jié)果。就像事實(shí)情況那樣,許多曰常問題在本質(zhì)上都是主觀的,并導(dǎo)致 說法不一或一致的答案。此外,這樣的問題通常特別地具有它們的性 質(zhì)。根據(jù)本發(fā)明的另一方面的系統(tǒng)可使用自適應(yīng)的概率和模糊集決策 和匹配方法來識(shí)別問題的主觀性質(zhì),并對(duì)可能的答案的范圍進(jìn)行評(píng) 估,其中,可選擇最準(zhǔn)確地表示用戶所期望的結(jié)果的類型的一個(gè)或多個(gè)答案。來自特定問題的上下文和預(yù)期結(jié)果可能高度依賴于問問題的個(gè) 體。因此,所述系統(tǒng)可創(chuàng)建、存儲(chǔ)和使用關(guān)于每個(gè)用戶的個(gè)人筒檔信 息。當(dāng)用戶使用所述系統(tǒng)時(shí),可自動(dòng)對(duì)簡檔中的信息進(jìn)行添加和更新, 或者可由用戶或其他人對(duì)簡檔中的信息進(jìn)行手動(dòng)添加或更新。領(lǐng)域特 定代理可收集、存儲(chǔ)和使用如最佳操作可能需要的特定的簡檔信息。 用戶可創(chuàng)建這樣的命令,即,用于常規(guī)使用的報(bào)告、自動(dòng)產(chǎn)生的警報(bào) 和其它請(qǐng)求的命令、以及用于結(jié)果的格式化和呈現(xiàn)的命令。所述系統(tǒng) 可在對(duì)問題進(jìn)行解釋、對(duì)請(qǐng)求進(jìn)行公式化表達(dá)、對(duì)請(qǐng)求結(jié)果進(jìn)行解釋 和將答案呈現(xiàn)給用戶時(shí)使用簡檔數(shù)據(jù)。用戶筒檔中的信息的示例包括所問的問題的歷史、會(huì)話歷史、格式化和呈現(xiàn)偏好、特殊字拼寫、感 興趣的術(shù)語、感興趣的特別數(shù)據(jù)源、年齡、性別、教育、位置或地址、 營業(yè)地點(diǎn)、營業(yè)的類型、投資、嗜好、體育興趣、新聞興趣以及其它 簡檔數(shù)據(jù)。
根據(jù)本發(fā)明的一方面,為了提供自然問題和答復(fù)環(huán)境,所迷系統(tǒng) 可試圖提供快速的答復(fù)。可在沒有獲得附加信息的情況下提供快速的 答復(fù)。所述系統(tǒng)可通過使用實(shí)時(shí)評(píng)分系統(tǒng)或其它技術(shù)來確定用于用戶 的問題或命令的代理組件、上下文和/或領(lǐng)域?;谶@個(gè)確定,所述系 統(tǒng)可觸發(fā)一個(gè)或多個(gè)代理對(duì)用戶的問題或命令進(jìn)行答復(fù)。所述代理可 發(fā)出一個(gè)或多個(gè)請(qǐng)求,并快速地返回格式化的答復(fù)。因而,用戶可接 收對(duì)問題集合的直接答復(fù),所迷問題集合中的每個(gè)問題具有不同的答 復(fù)或上下文。在一些情況下,可利用的信息,包括請(qǐng)求的結(jié)果,可能 不足以地回答所呈現(xiàn)的問題。在這樣的情形下,可問用戶一個(gè)或多個(gè) 后續(xù)問題以解決歧義性。然后可在提供讓人滿意的答復(fù)之前發(fā)出另外 的請(qǐng)求。在這些情況下,所述系統(tǒng)可使用上下文信息、用戶簡檔信息 和/或領(lǐng)域特定信息以最小化遞送答復(fù)所需的與用戶的交互。
如果領(lǐng)域的置信水平或上下文得分不是高得足以確??煽康拇?復(fù),則所述系統(tǒng)可請(qǐng)求用戶驗(yàn)證問題或命令被正確地理解。通常,可 用短語描述問題以指示該問題的上下文,包括所有標(biāo)準(zhǔn)或參數(shù)。如果 用戶確認(rèn)問題是正確的,則所述系統(tǒng)可繼續(xù)生成答復(fù)。否則,要么用 戶可重新用短語描述原始問題,可能添加附加信息以去除歧義性,要 么所述系統(tǒng)可問 一個(gè)或多個(gè)問題以試圖解決歧義性,要么可采取其它 行動(dòng)。
根據(jù)本發(fā)明的一方面,所述系統(tǒng)可接受任何自然語言問題或命 令,結(jié)果,所述系統(tǒng)可經(jīng)受有歧義的問題。為了輔助用戶對(duì)簡明的問 題和命令進(jìn)行公式化表達(dá),所述系統(tǒng)可支持聲音查詢語言。該語言可 幫助用戶清楚地指定問題或命令的連同參數(shù)或標(biāo)準(zhǔn)一起的關(guān)鍵詞或 上下文。所述系統(tǒng)可提供幫助用戶學(xué)習(xí)將他們的問題和命令公式化表 達(dá)的最佳方法的內(nèi)置訓(xùn)練能力。為了使對(duì)用戶的問題和命令的答復(fù)看似更自然,所述系統(tǒng)可采用 一個(gè)或多個(gè)動(dòng)態(tài)的能夠調(diào)用的個(gè)性和/或情感模型。個(gè)性和情感模型具 有仿真實(shí)際的人的行為特點(diǎn)的特定特點(diǎn)。這些特點(diǎn)的示例包括同情、 憤怒、有用性和相關(guān)聯(lián)的情感。個(gè)性還使答復(fù)的方面隨意一些,就像 實(shí)際的人會(huì)做的那樣。這個(gè)行為包括所使用的術(shù)語和信息呈現(xiàn)的次序 的隨意化。使用概率或模糊集決策和匹配方法并使用標(biāo)準(zhǔn)來調(diào)用個(gè)性 和/或情感的特點(diǎn),所述標(biāo)準(zhǔn)包括問題的上下文、用戶的交互歷史、用 戶偏好、可利用的信息源、從源獲得的答復(fù)。
根據(jù)本發(fā)明的另一方面,可采用呈現(xiàn)長文本串、表格、列表或其 它長答復(fù)集合的形式的信息的專門過程。以有序的方式簡單地呈現(xiàn)長 信息集合可能不被認(rèn)為是自然的或者大多數(shù)用戶記得住的。所述系統(tǒng) 可使用概率或模糊集匹配方法來提取相關(guān)信息,并首先呈現(xiàn)這些子 集。此外,所述系統(tǒng)可提供允許用戶跳過列表、找到列表中的關(guān)鍵詞 或關(guān)鍵信息、或者同時(shí)一起停止處理列表的命令。
根據(jù)本發(fā)明的 一個(gè)實(shí)施例,所述系統(tǒng)可支持在不同時(shí)間訪問該系 統(tǒng)的多個(gè)用戶。根據(jù)本發(fā)明的另一實(shí)施例,所述系統(tǒng)可支持以交錯(cuò)或 重疊方式在相同會(huì)話期間訪問該系統(tǒng)的多個(gè)用戶。所述系統(tǒng)可通過姓 名、聲音或其它特點(diǎn)識(shí)別多個(gè)用戶,并可為每個(gè)用戶調(diào)用正確的簡檔。 如果多個(gè)用戶在重疊或交錯(cuò)的會(huì)話中對(duì)所述系統(tǒng)說話,則所述系統(tǒng)可 識(shí)別所述多個(gè)用戶,并可調(diào)用一個(gè)或多個(gè)對(duì)應(yīng)的簡檔,對(duì)于要求安全 防護(hù)措施的應(yīng)用,可使用聲紋匹配、口令或口令短語匹配或其它安全 防護(hù)措施對(duì)多個(gè)用戶進(jìn)行驗(yàn)證。
當(dāng)多個(gè)用戶參與交織會(huì)話時(shí),所述系統(tǒng)可通過將概率或模糊集決 策方法用于每個(gè)用戶來恰當(dāng)?shù)亟鉀Q沖突。這個(gè)過程可仿真人將說出來 自各種源的多個(gè)問題的方式。例如> 所述系統(tǒng)可在及時(shí)回答較長的問 題的同時(shí)首先及時(shí)地回答短問題??商鎿Q地,在其它構(gòu)造中,所述系 統(tǒng)可按接收問題的順序回答這些問題。
由于本發(fā)明可運(yùn)行于許多環(huán)境中,所以語音輸入的濾波可能是有 利的,所述環(huán)境包括具有背景噪聲、點(diǎn)噪聲源和保持會(huì)話的人的移動(dòng)環(huán)境。本發(fā)明可使用,例如, 一維或二維陣列麥克風(fēng)(或其它裝置) 來接收人的語音。所述陣列麥克風(fēng)可以是固定的,或者采用動(dòng)態(tài)波束 形成技術(shù)??蓪?duì)陣列模式進(jìn)行調(diào)整以最大化用戶方向上的增益并使點(diǎn) 噪聲源不存在??商鎿Q地,可在移動(dòng)環(huán)境內(nèi)的特定位置放置麥克風(fēng), 在所述特定位置附近,所有者可能使用所述系統(tǒng)。這些麥克風(fēng)可以是 單個(gè)麥克風(fēng)、定向麥克風(fēng)或麥克風(fēng)陣列。然后,可用模擬或數(shù)字濾波 器對(duì)在麥克風(fēng)接收的語音進(jìn)行處理以優(yōu)化帶寬、取消回波、切除窄帶 噪聲源或者執(zhí)行其它功能。在濾波之后,所述系統(tǒng)可使用可變速率采 樣來最大化編碼的語音的逼真度,同時(shí)最小化所需要的帶寬。在通過 無線網(wǎng)或鏈接傳輸編碼的語音的情況下,這個(gè)過程可以是特別有用 的。
本發(fā)明可應(yīng)用于寬范圍的遠(yuǎn)程信息處理應(yīng)用。 一般的應(yīng)用范圍可 包括,但是不限于,遠(yuǎn)程或本地車輛控制、信息查詢、從本地或網(wǎng)絡(luò) 源的檢索和呈現(xiàn)、保險(xiǎn)應(yīng)用和安全性應(yīng)用。
所述系統(tǒng)可為包括位于移動(dòng)結(jié)構(gòu)上或者不在移動(dòng)結(jié)構(gòu)上的裝置 的系統(tǒng)提供本地或遠(yuǎn)程控制功能。用戶可在本地或者遠(yuǎn)程發(fā)起命令。 典型地,可通過IP連接、電話連接或其它連接來進(jìn)行遠(yuǎn)程操作。用 戶可對(duì)移動(dòng)裝置或桌面單元說出口述命令,該移動(dòng)裝置或桌面單元可 通過無線鏈接將這些命令發(fā)送到車輛上的控制器??墒褂闷渌h(yuǎn)程命 令技術(shù)。所述系統(tǒng)可以以與請(qǐng)求近似相同的方式對(duì)命令進(jìn)行處理。一 個(gè)不同在于命令的結(jié)果通常是動(dòng)作而不是答復(fù)。在許多情況下,所述 系統(tǒng)可給用戶指示已成功地執(zhí)行命令或者命令失敗的提示或答復(fù)。在 失敗的情況下,可啟動(dòng)交互式會(huì)話來允許用戶解決難題或者對(duì)更可能 成功地對(duì)命令進(jìn)行公式化表達(dá)。
本發(fā)明為包括移動(dòng)結(jié)構(gòu)操作者的用戶提供這樣的能力,即,使用 交互式語音和非語音命令和/或請(qǐng)求來控制大多數(shù)任意的移動(dòng)系統(tǒng)。通 常,危急性質(zhì)的控制或者具有安全暗示的控制可采用自動(dòng)防故障檢 查,即,在執(zhí)行之前,驗(yàn)證命令將不造成危險(xiǎn)的條件。還可提供手動(dòng) 超控器作為額外的預(yù)防措施。本發(fā)明可提供關(guān)于受控裝置的內(nèi)置幫助和用戶向?qū)А_@個(gè)向?qū)Э砂▽?duì)于正學(xué)習(xí)使用移動(dòng)結(jié)構(gòu)的特征的操作 者的逐步訓(xùn)練。當(dāng)不能執(zhí)行命令或者當(dāng)命令失敗時(shí),所述系統(tǒng)可提供 擴(kuò)展的交互式向?qū)?。這個(gè)裝置可包括重新對(duì)隨后的命令進(jìn)行公式化表 達(dá)的建議、失敗時(shí)的工作建議、關(guān)于可實(shí)現(xiàn)類似的功能的可替換命令 的建議或者其它建議??赏ㄟ^本發(fā)明從本地或遠(yuǎn)程位置執(zhí)行的控制功
能的示例包括
1、 移動(dòng)結(jié)構(gòu)多媒體娛樂電器的控制,所述娛樂電器例如是收音 機(jī)、CD播放器或視頻播放器。這個(gè)控制可基于用戶指定的播放列表, 并可能對(duì)用戶簡檔信息敏感,所述用戶簡檔信息包括偏好歷史或其它 信息。本發(fā)明可包括控制多個(gè)或獨(dú)個(gè)多媒體娛樂站的能力。
2、 通信裝置的控制,所述通信裝置諸如蜂窩電話、語音郵件系 統(tǒng)、傳真系統(tǒng)、文本或即時(shí)通訊系統(tǒng)、呼叫和消息轉(zhuǎn)發(fā)系統(tǒng)、電子郵 件系統(tǒng)和其它通信裝置。這個(gè)控制包括控制以下特征,諸如,其它特 征中的通訊簿、電話簿、呼叫轉(zhuǎn)發(fā)、會(huì)議呼叫和語音郵件。
3、 移動(dòng)結(jié)構(gòu)系統(tǒng)的本地或遠(yuǎn)程控制。移動(dòng)結(jié)構(gòu)上的大多數(shù)任意 的裝置可被控制,所迷裝置包括門鎖、窗戶控制器、內(nèi)部溫度控制器、 變速箱的換檔、轉(zhuǎn)向信號(hào)燈、安全儀器、發(fā)動(dòng)機(jī)點(diǎn)火器、巡航控制器、 燃料箱開關(guān)、座位調(diào)節(jié)器、諸如絞盤機(jī)的專用儀器、提升系統(tǒng)或加載 系統(tǒng)以及其它移動(dòng)結(jié)構(gòu)系統(tǒng)。
4、 典型地,可通過無線鏈接對(duì)位于移動(dòng)結(jié)構(gòu)外部的系統(tǒng)進(jìn)行控 制,所述系統(tǒng)包括車庫門開門器、門控制器、移動(dòng)接口入口安全通道、 自動(dòng)玩具收集系統(tǒng)和移動(dòng)結(jié)構(gòu)稱重系統(tǒng)以及其它外部系統(tǒng)。
5、 移動(dòng)結(jié)構(gòu)電源管理和系統(tǒng)控制。本發(fā)明可為移動(dòng)結(jié)構(gòu)操作者 提供關(guān)于極限和關(guān)于用于更好的電源管理或燃料利用或其它系統(tǒng)控 制的終端接口處理器的信息。
6、 診斷信息管理。本發(fā)明可為移動(dòng)結(jié)構(gòu)操作者提供診斷信息聲 明和警告。這些聲明和警告可以交互式地允許操作者請(qǐng)求附加信息或 者建議各種行動(dòng)進(jìn)程。本發(fā)明可對(duì)問題的解決方案進(jìn)行調(diào)解,直到可 實(shí)現(xiàn)永久的解決方案為止,所述調(diào)解包括提供對(duì)調(diào)度服務(wù)的訪問、呼喚幫助或者提供用于補(bǔ)救措施的指令。所述系統(tǒng)可要求操作者對(duì)所需 要的部分的定貨進(jìn)行授權(quán),并可提供成本估計(jì)。所述系統(tǒng)可從寬范圍 的源接收用于這些聲明和警告的數(shù)據(jù),所述源包括傳感器和車輛控制 計(jì)算機(jī)。傳感器可包括燃料水平傳感器、冷卻劑溫度傳感器、油溫傳 感器、軸溫傳感器、輪胎氣壓傳感器和其它傳感器。
7、 系統(tǒng)狀態(tài)詢問。移動(dòng)結(jié)構(gòu)操作者可使用本發(fā)明的交互式自然 語言接口來查詢位于移動(dòng)結(jié)構(gòu)上的系統(tǒng)的狀態(tài),并接收關(guān)于該狀態(tài)的 報(bào)告,所述狀態(tài)包括燃料水平、內(nèi)部溫度、外部溫度、引擎或其它移 動(dòng)結(jié)構(gòu)系統(tǒng)狀態(tài)。如果檢測到問題,則操作者可進(jìn)一步查詢系統(tǒng)以接 收更多的信息或者確定行動(dòng)進(jìn)程。
8、 車輛服務(wù)歷史。本發(fā)明可為車輛駕駛者或其它人員提供對(duì)車 輛服務(wù)歷史的交互式訪問。當(dāng)服務(wù)時(shí)間臨近時(shí),本發(fā)明可提供聲明或 警告。用戶可與所述系統(tǒng)交互以調(diào)度所需要的服務(wù)、訂購所需要的部 分、接收成本估計(jì)、或者更新服務(wù)歷史。用戶可定制這個(gè)交互的性質(zhì) 以滿足他們的期望或策略。
9、 診斷和服務(wù)歷史。本發(fā)明可提供診斷和服務(wù)歷史信息以為人 服務(wù)。這個(gè)信息可包括車輛故障代碼和關(guān)于受系統(tǒng)控制或者被系統(tǒng)測 量的裝置的其它信息??商鎿Q地,本發(fā)明可從其它控制計(jì)算機(jī)接收關(guān) 于車輛操作的狀態(tài)和歷史的信息。本發(fā)明可提供交互式服務(wù)信息和歷
史。可通過語音接口或非語音接口來查詢服務(wù)歷史和呈現(xiàn)服務(wù)歷史。 如果認(rèn)為記錄不完整,則所述系統(tǒng)可提示服務(wù)人員給予更多的信息。 在其它情況下,如果在系統(tǒng)狀態(tài)中檢測到改變,諸如一部分的替代, 則本發(fā)明可提示服務(wù)人員給予他們的動(dòng)作的信息。
本發(fā)明可通過交互式語音接口和/或非語音接口為移動(dòng)結(jié)構(gòu)的用 戶或操作者提供專用的安全功能。本發(fā)明可使用可動(dòng)態(tài)引出的個(gè)性, 該個(gè)性能夠創(chuàng)建適合于情形的嚴(yán)重性的聲明。聲明和個(gè)性可受制于用 戶控制和構(gòu)造。這些安全應(yīng)用的一些例子可包括
1、本發(fā)明可通過無線通信鏈接提供事故情形的自動(dòng)檢測和報(bào)告。 可從氣囊控制系統(tǒng)或其它傳感器收集關(guān)于事故情形的信息。 一旦已檢測到事故情形,本發(fā)明就可使用交互式語音接口和/或非語音接口來確 定事故的性質(zhì)和/或受害者的狀況。這個(gè)信息,與位置信息和其它相關(guān) 信息一起,可通過無線鏈接來報(bào)告。可替換地,本發(fā)明可在車輛的所 有者和急救人員之間建立聲音信道通信或其它通信。
2、 本發(fā)明可用于存儲(chǔ)和檢索關(guān)于車輛所有者的醫(yī)藥信息。在事 故之后,急救人員可在所述系統(tǒng)中查詢這個(gè)信息??商鎿Q地,如果某 人具有專門的醫(yī)藥狀況,則所述系統(tǒng)可對(duì)急救人員發(fā)出警告。所述系 統(tǒng)通過許多技術(shù)來維護(hù)醫(yī)藥信息的保密性,所述技術(shù)包括,除非檢測 到事故,否則不通告醫(yī)藥信息,或者除非這個(gè)人或另一授權(quán)的人給出 許可,否則不通告醫(yī)藥信息。
3、 如果犯罪發(fā)生,則車輛的所有者使用語音接口和/或非語音接 口來呼喚幫助。典型的犯罪可包括盜竊和劫持。本發(fā)明允許車輛所有 者設(shè)置對(duì)系統(tǒng)指示犯罪正在發(fā)生的恐慌或急救單詞或短語。
4、 如果檢測到不安全或可能不安全的情形,則本發(fā)明可為車輛 駕駛者提供安全聲明。駕駛者可使用交互式語音接口和/或非語音接口 來獲得關(guān)于情形的更多的信息或者不理會(huì)警報(bào)。駕駛者可通告命令或 者以其它方式提供命令來補(bǔ)救或緩和這個(gè)對(duì)話期間的情形??蒦Jt告 的狀況包括,尾隨另一車輛太近、對(duì)于道路或狀況而言速度太快、路 面上的障礙、車輛的一些部分著火、高的貨物壓力或溫度、泄漏和其 它信息。
5、 本發(fā)明的交互式語音接口和/或非語音接口可為操作者提供實(shí) 時(shí)幫助。這個(gè)幫助可包括,停牟或倒車的幫助、對(duì)于復(fù)雜機(jī)動(dòng)的幫助、 對(duì)于車輛的最佳駕駛和其它操作的幫助。駕駛者可要求所述系統(tǒng)給予 對(duì)于有計(jì)劃的機(jī)動(dòng)或駕駛的忠告或幫助??商鎿Q地,如果檢測到某些 情形,則本發(fā)明可積極地提供幫助,
6、 可使用交互式語音接口和非語音接口來改進(jìn)車輛安全性???使用聲紋或聲音認(rèn)證來獲取對(duì)車輛的使用或者開動(dòng)車輛??商鎿Q地或 者另外,可使用口令或口令短語。在另一可替換方案中,語音安全性 可用作對(duì)其它車輛安全性技術(shù)的補(bǔ)充。7、本發(fā)明可提供駕駛者疲勞的測量,并且如果檢測到不可接受 的疲勞級(jí)別,則警告駕駛者或遠(yuǎn)處的人??墒褂媒换ナ秸Z音接口和/ 或非語音接口來查詢駕駛者以檢測疲勞??商鎿Q地,或者另外,可使 用駕駛者疲勞的其它測量。如果檢測到疲勞情形,則本發(fā)明可發(fā)起與 駕駛者的對(duì)話來確定問題的程度,并且如果需要的話,則要求駕駛者 停止駕駛。
本發(fā)明可為車輛駕駛者和所有者提供當(dāng)在車輛中時(shí)和/或當(dāng)在到 達(dá)目的地時(shí)有用的各種服務(wù)。此外,用戶可采用交互式自然語言接口 來定制這些服務(wù)以滿足每個(gè)個(gè)體。本發(fā)明的自然語言交互式語音接口
可支持的服務(wù)的一些例子包括
1、 為車輛駕駛者提供到目的地或路點(diǎn)的交互式方向,其中,用 戶可指定期望的目的地和任何優(yōu)選的路點(diǎn)??梢砸匀魏畏绞街付康?地,包括提供地名、地址、人的姓名、企業(yè)的名稱或其它類型的信息。 隨著行程前進(jìn),如果犯了錯(cuò)誤,則所述系統(tǒng)可為駕駛者提供繼續(xù)的方
向和警告。駕駛者可向所述系統(tǒng)查詢附加信息或者請(qǐng)求更少的信息。 通常,所迷系統(tǒng)與一個(gè)或多個(gè)導(dǎo)航傳感器和本地或遠(yuǎn)程地圖數(shù)據(jù)庫建 立接口。本發(fā)明可為駕駛者或乘客提供即將到來的點(diǎn)或興趣、退出或 停止、危險(xiǎn)或其它狀況的警^L。用戶可向所述系統(tǒng)查詢更多的特定信 息。可替換地,本發(fā)明可為車輛的駕駛者或所有者提供交互式向?qū)?游。用戶可采用所述系統(tǒng)的信息查詢、檢索和呈現(xiàn)能力來在旅游期間 接收附加信息或者感興趣的點(diǎn)或項(xiàng)目,所述系統(tǒng)的信息查詢、檢索和 呈現(xiàn)能力可考慮存儲(chǔ)的關(guān)于用戶的個(gè)人簡檔信息。
2、 本發(fā)明可為車輛的駕駛者提供交互式動(dòng)態(tài)路線安排信息。可 基于交通條件、天氣條件、設(shè)施可利用性和由駕駛者提供的信息來更 新路線安排。通常,所述系統(tǒng)與一個(gè)或多個(gè)導(dǎo)航傳感器、本地或遠(yuǎn)程 地圖數(shù)據(jù)庫以及交通、天氣和設(shè)施使用數(shù)據(jù)的源建立接口。
3、 在幫助一個(gè)或多個(gè)駕駛者在預(yù)定目的地或任何其它方便的中 點(diǎn)集合的交互式系統(tǒng)中,可將本發(fā)明的方向、路線安排和通信能力組 合起來。駕駛者可使用交互式自然語言接口與所述系統(tǒng)交流來布置集合點(diǎn),并且當(dāng)他們旅行到集合點(diǎn)和/或與其他駕駛者交流時(shí)接收方向。
4、 本發(fā)明的導(dǎo)航能力可用于設(shè)置允許車輛前進(jìn)行駛到哪和/或需 要多長時(shí)間的極限。所述系統(tǒng)可采用交互式自然語言語音接口和/或非 語音接口,以當(dāng)車輛正逼近極限或者已超過極限時(shí),通知駕駛者。駕 駛者可查詢所述系統(tǒng)以確定最佳的行動(dòng)進(jìn)程,以返回到極限或者防止 超過極限??商鎿Q地,所述系統(tǒng)可查詢駕駛者以確定他們?yōu)槭裁闯^ 極限,或者如果境況要求擴(kuò)大極限,則調(diào)解協(xié)商以擴(kuò)大極限。在幾種 情形下,這種能力是有用的,所述情形包括,使遞送或載客車輛保持 在常規(guī)路線上、設(shè)置十幾歲的青少年的使用極限并強(qiáng)制執(zhí)行該使用極 限、防止駕駛者以未經(jīng)授權(quán)的方式使用車輛或者其它情形。
5、 本發(fā)明的交互式自然語言接口可用于對(duì)車輛駕駛者和乘客提 供顧客關(guān)系管理(CRM)服務(wù)。用戶可與經(jīng)由數(shù)據(jù)網(wǎng)、視頻信號(hào)或音 頻提供的服務(wù)交互??赏ㄟ^自動(dòng)服務(wù)或者與現(xiàn)場顧客服務(wù)代表執(zhí)行交 互。與顧客服務(wù)代表的交互可經(jīng)由可能的技術(shù)的任何組合,所述技術(shù) 諸如現(xiàn)場音頻、現(xiàn)場視頻、電子通訊或電子郵件、即時(shí)通訊和其它技 術(shù)。可通過許多實(shí)體提供這些服務(wù),所述實(shí)體包括車輛制造商、車輛 經(jīng)銷商、車輛服務(wù)機(jī)構(gòu)、汽車或旅行俱樂部、無線載波、旅行服務(wù)機(jī) 構(gòu)或其它機(jī)構(gòu)??墒褂酶鞣N信息來對(duì)所提供的服務(wù)賦予車輛的所有者 的個(gè)性,所述信息包括用戶簡檔信息、歷史、位置、旅行路徑、 一天 中的時(shí)間、 一星期中的某天或其它信息。另外,所述系統(tǒng)可基于關(guān)于 車輛的信息來提供定制服務(wù),所述信息包括旅行路徑、距離、服務(wù)歷 史、車輛上的儀器的類型。在其它情形中,在某人是車輛的所有者時(shí), 在某人不是所有者但是正使用配備無線網(wǎng)或有線網(wǎng)的移動(dòng)裝置時(shí),或 者在使用有線網(wǎng)或無線網(wǎng)桌面系統(tǒng)時(shí),可接入這些服務(wù)。這些服務(wù)的 例子包括
a、基于位置的推銷規(guī)劃,其中,車輛的所有者沿著旅行路線從 商家接收促銷報(bào)價(jià)。所有者可沿著旅行路線向所述系統(tǒng)查詢商品、服 務(wù)的寺艮價(jià)和促銷或其它信息。所述系統(tǒng)可應(yīng)用其它可利用的信息來形 成答復(fù),所述信息包括用戶簡檔、歷史、位置或其它信息。所述系統(tǒng)可對(duì)車輛駕駛者提供優(yōu)化的交互式路線安排幫助??商鎿Q地,所述系 統(tǒng)可沿著路線或者在特定行程之前提供關(guān)于商品和服務(wù)的交互式報(bào) 價(jià)和促銷。可對(duì)商品的促銷進(jìn)行報(bào)價(jià),服務(wù)可包括但不限于旅行服務(wù)、 食品雜貨、預(yù)加工食品、車輛服務(wù)、燃料、娛樂或其它商品和服務(wù)。
b、 商品和服務(wù)的遠(yuǎn)程定貨和支付。所述系統(tǒng)可使用本發(fā)明的列 表和表格呈現(xiàn)能力來交互式地呈現(xiàn)菜單或產(chǎn)品目錄。所述系統(tǒng)可通過 使用位置信息、顧客偏好、顧客定單歷史等來使遠(yuǎn)程定貨變得便利。 所述系統(tǒng)可為用戶管理安全的支付錢包??蓪⒙暭y、口述口令和非語 音安全性方法(即,PIN pad等)組合起來以創(chuàng)建適當(dāng)?shù)燃?jí)的安全性。
c、 對(duì)于車輛的所有者的旅行服務(wù)。這些服務(wù)可包括旅行和娛樂 服務(wù)的名錄或者娛樂餐廳、旅館和其它住所的預(yù)定。所述系統(tǒng)可使用 它的交互式列表和表格呈現(xiàn)能力來呈現(xiàn)名錄、列表和菜單。可結(jié)合遠(yuǎn) 程定貨和支付能力以及動(dòng)態(tài)交互式路線安排能力來使用旅行服務(wù)能 力。
d、 回答以下領(lǐng)域中的專門的旅行相關(guān)問題,所述領(lǐng)域諸如車輛 注冊、稅款、安全法、所需要的檢驗(yàn)、重量限制、保險(xiǎn)責(zé)任范圍要求、 保險(xiǎn)單條款或其它領(lǐng)域。
6、 本發(fā)明可使用自然語言接口為車輛的駕駛者或其他所有者提 供交互式位置敏感的購物列表或者位置和時(shí)間敏感的任務(wù)提醒列表, 用戶可在車輛中、在步行使用移動(dòng)裝置時(shí)或者在固定位置使用手持或 桌面裝置時(shí)創(chuàng)建列表。用戶可給予其它用戶將任務(wù)或購物項(xiàng)目添加到 他們的列表的許可。 一旦在車輛中,所述系統(tǒng)就可為所有者提供路線 安排幫助以對(duì)旅行時(shí)間進(jìn)行優(yōu)化,并且隨著車輛靠近特定位置、特定 類型的商家或其它服務(wù)提供商的附近,或者在其它標(biāo)準(zhǔn)中,當(dāng)已到達(dá) 設(shè)置時(shí)間時(shí),所述系統(tǒng)可提供將購買的項(xiàng)目和將完成的任務(wù)的提醒。
7、 對(duì)于車隊(duì)車輛的自動(dòng)交互式調(diào)遣和報(bào)告,所述車隊(duì)車輛具有 使用語音接口和/或非語音接口與這些服務(wù)交互的車輛駕駛者或其它 車輛所有者。這些服務(wù)可包括動(dòng)態(tài)優(yōu)化路線安排、部件和其它材料的 清單、所需要的部件和材料的定貨、派工單、開收據(jù)、支付或其它服務(wù)。
8、銷售人員自動(dòng)化、銷售報(bào)告、聯(lián)系數(shù)據(jù)庫管理、日歷管理和 呼叫路由。所述系統(tǒng)可采用其交互式列表和表格呈現(xiàn)能力來供應(yīng)目錄 和定價(jià)信息或其它信息。這些服務(wù)可使用本地或網(wǎng)絡(luò)數(shù)據(jù)。另外的服 務(wù)可包括備忘錄、提醒器、活動(dòng)列表或其它信息。
車輛駕駛者和其他所有者可使用本發(fā)明的交互式自然語言交互 式接口來執(zhí)行許多類型的信息查詢、檢索和呈現(xiàn)操作。通過使用自然 語言交互式接口,用戶可修改查詢的參數(shù)或者指定結(jié)果的呈現(xiàn)格式。 用于創(chuàng)建答復(fù)的數(shù)據(jù)可來自本地和遠(yuǎn)程數(shù)據(jù)源的任何組合。可使用戶 特定數(shù)據(jù)在固定到一個(gè)或多個(gè)車輛上的系統(tǒng)、移動(dòng)結(jié)構(gòu)和桌面系統(tǒng)之 間同步。用于本發(fā)明的信息查詢、檢索和呈現(xiàn)應(yīng)用的一些例子包括但 不限于以下例子
1、 用于找到關(guān)于企業(yè)和個(gè)體的電子郵件地址、電話號(hào)碼、街道 地址和其它信息的白頁和黃頁查找表??山Y(jié)合其它服務(wù)使用這些服 務(wù),所述其它服務(wù)包括遠(yuǎn)程定貨和支付、報(bào)價(jià)和促銷、繪圖和駕駛方
向;
2、 對(duì)用戶的個(gè)人地址簿、日歷和提醒的管理和訪問;
3、 自動(dòng)電話撥號(hào)、通過聲音、文本或視頻讀取和發(fā)送電子郵件、
頁面、即時(shí)通訊以及其它通信控制功能;
4、 關(guān)于電視機(jī)、衛(wèi)星廣播、無線電或其它娛樂時(shí)間表的選擇、 時(shí)間表、播放列表管理??衫玫男畔⒖砂P(guān)于節(jié)目編制的回顧和 其它信息。所述系統(tǒng)可為用戶提供裝置控制;
5、 關(guān)于當(dāng)?shù)貐^(qū)域或其它位置的天氣信息;
6、 股票和其它投資信息,包括價(jià)格、公司報(bào)告、簡檔、公司信 息、企業(yè)新聞事跡、公司報(bào)告、分析、價(jià)格警報(bào)、新聞警報(bào)、證券報(bào) 告、證券計(jì)劃或其它信息;
7、 當(dāng)?shù)亍液蛧H新聞信息,包括依據(jù)主題或位置的感興趣 的大字標(biāo)題、事跡摘要、整個(gè)事跡、音頻和視頻檢索和事跡的播放;
8、 運(yùn)動(dòng)得分、新聞事跡、時(shí)間表、警報(bào)、統(tǒng)計(jì)、背景和歷史信息或其它信息;
9、 通過將用戶特定偏好應(yīng)用于提取和呈現(xiàn)信息來交互式預(yù)訂多 媒體信息頻道的能力,所述多媒體信息頻道包括體育、新聞、企業(yè)、 不同類型的音樂和娛樂;
10、 對(duì)所使用的或公布的信息或內(nèi)容的權(quán)限管理;
11、 占星術(shù)、每日笑話和喜劇、縱橫拼字謎檢索和顯示以及相關(guān) 娛樂或消遣;
12、 使用當(dāng)?shù)睾途W(wǎng)絡(luò)材料的交互式教育規(guī)劃,具有基于用戶的簡 檔、車輛的位置、車輛的計(jì)劃路線、行程期間的計(jì)劃活動(dòng)而設(shè)置的課 程材料水平,其包括交互式多媒體課程、宗教指導(dǎo)、計(jì)算器、字典和 拼寫、地理信息、關(guān)于行程期間計(jì)劃的專門任務(wù)的指導(dǎo)、語言訓(xùn)練、 外語翻譯、技術(shù)手冊說明和百科全書以及其它參考材料。
將意識(shí)到,并不是要將前述的本發(fā)明的特征的陳述作為窮舉或限 制,而是通過參考這個(gè)完整的公開內(nèi)容及其相當(dāng)明顯的變形和擴(kuò)展來 領(lǐng)會(huì)本發(fā)明的正確范圍。
將通過參考本發(fā)明的優(yōu)選的可替換實(shí)施例并結(jié)合附圖來描述本
發(fā)明,在附圖中
圖l是根據(jù)本發(fā)明的第一實(shí)施例的系統(tǒng)的總框圖2是根據(jù)本發(fā)明的第二實(shí)施例的系統(tǒng)的總框圖3是根據(jù)本發(fā)明的實(shí)施例的移動(dòng)裝置的總框圖4是根據(jù)本發(fā)明的實(shí)施例的固定計(jì)算機(jī)的總框圖5是根據(jù)本發(fā)明的實(shí)施例的交互式自然語言處理系統(tǒng)的總圖
解視圖6是顯示根據(jù)本發(fā)明的實(shí)施例的代理架構(gòu)的示意性框圖; 圖7示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于集中維護(hù)上下文的示 圖;和
圖8示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的增強(qiáng)型會(huì)話聲音用戶接口的系統(tǒng)圖。
具體實(shí)施例方式
下面的詳細(xì)描述參考附圖描述本發(fā)明的示例性實(shí)施例。在不脫離 本發(fā)明的精神、功能性和范圍的情況下,考慮其它實(shí)施例,并且可對(duì) 示例性實(shí)施例進(jìn)行修改。因此,下面的詳細(xì)描述不意味著限制本發(fā)明。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供遠(yuǎn)程信息處理自然語言語音接口 和非語音接口用在移動(dòng)環(huán)境和遠(yuǎn)程信息處理應(yīng)用中。所述系統(tǒng)或者其 部分可被用在車輛中、步行時(shí)或者諸如辦公室或家里的固定位置處或 者其它位置。圖1中示出本發(fā)明的一個(gè)實(shí)施例的總框圖。
可將語音單元128和/或鍵區(qū)14整體與移動(dòng)結(jié)構(gòu)IO耦合,或者 語音單元128和/或鍵區(qū)14可以是移動(dòng)裝置36、固定的家庭或辦公室 計(jì)算機(jī)系統(tǒng)44或其它裝置的一部分。移動(dòng)裝置36可包括移動(dòng)電話、 個(gè)人數(shù)字助理、數(shù)字收音機(jī)、光盤播放器、導(dǎo)航系統(tǒng)或其它移動(dòng)裝置。 移動(dòng)裝置36可被構(gòu)造為與機(jī)頂盒、鬧鐘、收音機(jī)或其它電子組件集 成。語音單元128和/或鍵區(qū)14可通過一個(gè)或多個(gè)數(shù)據(jù)接口 26與遠(yuǎn)程 信息處理控制單元(TCU) 28建立接口。根據(jù)一些實(shí)施例,主語音處 理單元98可被嵌入在一個(gè)或多個(gè)TCU28中。在一些實(shí)施例中,還可 在一個(gè)或多個(gè)TCU之間分布語音單元128的組件。
語音處理單元可被構(gòu)建到移動(dòng)裝置36中,并可通過無線或有線 的手持接口 20與數(shù)據(jù)接口 26耦合。其它用戶接口外設(shè)可通過數(shù)據(jù)接 口連接至TCU,并可包括顯示器18,諸如用于顯示文本、圖形和視 頻的觸摸屏顯示器;用于接收文本數(shù)據(jù)輸入的鍵區(qū)14;用于接收多媒 體通信或會(huì)議的視頻相機(jī)16;指取裝置或觸針,或者其它用戶接口外 設(shè)。其它裝置可通過以下數(shù)據(jù)接口連接至TCU,所述數(shù)據(jù)接口包括廣 域RF收發(fā)器24、導(dǎo)航系統(tǒng)組件22或其它裝置。導(dǎo)航系統(tǒng)可包括幾 種組件,諸如,全球定位系統(tǒng)(GPS)接收器或其它無線電定位系統(tǒng) 接收器、陀螺儀或其它慣性測量儀器、諸如里程表的距離測量傳感器 或者其它組件。無線電定位儀器可從一個(gè)或多個(gè)衛(wèi)星或地面源40接收編碼的信號(hào)。 一個(gè)或多個(gè)位置服務(wù)服務(wù)器48可輔助導(dǎo)航系統(tǒng)???通過數(shù)據(jù)接口連接至TCU的其它系統(tǒng)可包括汽車控制計(jì)算機(jī)、用于 諸如媒體播放器或其它電子系統(tǒng)的裝置的數(shù)字控制接口、測量傳感器 或其它專用電子儀器。
控制器和裝置接口 30可使TCU 28連接至移動(dòng)結(jié)構(gòu)10內(nèi)的各種 裝置32??刂破骱脱b置接口 30可用于執(zhí)行來自自然語言接口的用戶 的本地或遠(yuǎn)程命令。在一些情況下,控制器和裝置接口 30可包括用 于與不同類型的裝置交互的專用硬件。連同可控制接口 32的用于測 量的模擬或數(shù)字接口儀器一起,硬件接口可包括用于裝置控制的模擬 或數(shù)組信號(hào)接口。這些接口還可包括封裝或抽取裝置32的特定行為 的專用軟件。接口軟件可包括硬件接口和一個(gè)或多個(gè)代理所特有的一 個(gè)或多個(gè)驅(qū)動(dòng)程序。領(lǐng)域代理可包括控制特定裝置或一類裝置所需的 專用軟件行為和數(shù)據(jù)??赏ㄟ^對(duì)與特定裝置或一類裝置相關(guān)聯(lián)的數(shù)據(jù) 管理程序進(jìn)行更新來將新行為或更新的行為添加到所述系統(tǒng)。裝置32 可包括手動(dòng)控制器或手動(dòng)超控器34。由于安全原因,控制器和裝置接 口 30可合并這樣的自動(dòng)防故障系統(tǒng),該自動(dòng)防故障系統(tǒng)例如,可在 改變設(shè)置之前驗(yàn)證操作極限,以確保命令與來自手動(dòng)控制器的設(shè)置不 沖突,并且在與其它命令或裝置設(shè)置的一些組合中將不會(huì)引起不安全 的情形??蓪⒋_保安全操作的軟件行為和數(shù)據(jù)包括在所述裝置或一類 裝置所特有的領(lǐng)域代理內(nèi)??赏ㄟ^控制器和裝置接口 30控制的裝置 和系統(tǒng)的示例包括電源管理系統(tǒng)、測量傳感器、門鎖、窗口控制器、 內(nèi)部溫度控制器、變速箱的換檔、轉(zhuǎn)向信號(hào)燈、光、安全儀器、發(fā)動(dòng) 機(jī)點(diǎn)火器、巡航控制器、油箱開關(guān)、座位調(diào)節(jié)器、諸如絞盤機(jī)的專用 儀器、提升系統(tǒng)或加載系統(tǒng)和其它系統(tǒng)。
廣域RF收發(fā)器24可與連接至數(shù)據(jù)網(wǎng)42的一個(gè)或多個(gè)廣域無線 網(wǎng)38通信,數(shù)據(jù)網(wǎng)42包括因特網(wǎng)、公用交換電話網(wǎng)(PSTN) 42或 其它數(shù)據(jù)網(wǎng)。廣域無線網(wǎng)可以是任何合適的基于地面或衛(wèi)星的類型。 移動(dòng)裝置36可與一個(gè)或多個(gè)局域或廣域無線網(wǎng)通信。配備有有線網(wǎng) 或無線網(wǎng)接口的家庭或辦公室系統(tǒng)44可通過數(shù)據(jù)網(wǎng)或PSTN通信。根據(jù)本發(fā)明的一個(gè)實(shí)施例,可將數(shù)據(jù)和代理存儲(chǔ)在具有一個(gè)或多
個(gè)主語音處理單元98的移動(dòng)結(jié)構(gòu)10、移動(dòng)裝置36和/或固定系統(tǒng)44 中,并使數(shù)據(jù)和代理在移動(dòng)結(jié)構(gòu)10、移動(dòng)裝置36和/或固定系統(tǒng)44 中同步。通過手持接口 20或其它本地?cái)?shù)據(jù)連接,這些不同的系統(tǒng)之 間的同步可發(fā)生在廣域無線網(wǎng)38、數(shù)據(jù)網(wǎng)42上。當(dāng)任何兩個(gè)或更多 個(gè)計(jì)算機(jī)連接至這些網(wǎng)絡(luò)時(shí),可自動(dòng)執(zhí)行同步??商鎿Q地,可在用戶 控制下應(yīng)要求執(zhí)行同步。同步過程試圖確定哪個(gè)版本的數(shù)據(jù)元素或代 理是最新的或者最近的,并傳播該元素。因而,同步是增量式改變過 程。在一些情況下,可執(zhí)行數(shù)據(jù)庫、數(shù)據(jù)庫的一部分或者一個(gè)或多個(gè) 代理的完全代替,而不是執(zhí)行一系列增量式更新。
廣域無線網(wǎng)38、數(shù)據(jù)網(wǎng)42或PSTN可使移動(dòng)結(jié)構(gòu)10、移動(dòng)裝置 36和固定計(jì)算機(jī)44連接至提供多種服務(wù)中的一種服務(wù)的一個(gè)或多個(gè) 服務(wù)器。根據(jù)本發(fā)明的一個(gè)實(shí)施例,可提供交互式自然語言用戶接口 , 該接口支持?jǐn)?shù)據(jù)的轉(zhuǎn)移或者語音、文本、視頻和其它格式的傳輸。對(duì) 于以數(shù)據(jù)為中心的應(yīng)用,可使用標(biāo)準(zhǔn)化的數(shù)據(jù)傳輸格式,包括,例如, 基于超文本傳輸協(xié)議(HTTP)之上的超文本置標(biāo)語言、可擴(kuò)展置標(biāo) 語言(XML)和基于HTTP或其它傳輸協(xié)議之上的其它數(shù)據(jù)格式或 方案、基于各種傳輸協(xié)議之上的電子數(shù)據(jù)交換格式等。將理解,可分 情況逐個(gè)地考慮提供的服務(wù)的精確組合、提供服務(wù)的服務(wù)提供商、服 務(wù)提供商之間的契約關(guān)系和其它因素來確定服務(wù)器的精確構(gòu)造。本發(fā) 明支持任何合適的構(gòu)造。在每種情況下,這些服務(wù)器可自己將其分布 在一個(gè)或多個(gè)公共網(wǎng)或私人網(wǎng)上。以下給出可用于傳遞這些服務(wù)的服 務(wù)器的一些示例
1、為用戶供應(yīng)支付能力的一個(gè)或多個(gè)支付服務(wù)提供商56。這些
支付服務(wù)可包括一個(gè)或多個(gè)支付帳戶的電子錢包能力,并可包括支付 安全信息、支付帳戶信息、交易歷史、帳戶余額信息和其它信息。示 例性支付類型包括儲(chǔ)值帳戶、促銷帳戶、賒欠帳戶、電信計(jì)費(fèi)帳戶、 借方帳戶或者使用在線或離線方法存取的其它支付類型??梢砸匀魏?方式計(jì)算支付款,包括特定商品或服務(wù)的支付款、預(yù)訂支付款、計(jì)量支付款或其它支付款??梢砸栽S多方式分布支付服務(wù)。用于存儲(chǔ)和處 理支付交易信息的計(jì)算機(jī)和服務(wù)器的示例包括智能卡、主語音處理單
元128、移動(dòng)裝置36、 TCU 28、固定個(gè)人計(jì)算機(jī)44、支付網(wǎng)關(guān)、支 付服務(wù)器56或其它系統(tǒng)。
2、 如上所討論的, 一個(gè)或多個(gè)顧客關(guān)系管理(CRM)系統(tǒng)52 可供應(yīng)任意數(shù)量的消費(fèi)者和企業(yè)顧客服務(wù)。CRM系統(tǒng)可供應(yīng)自動(dòng)月艮 務(wù)或者部分或完全人工的服務(wù)。對(duì)于人工服務(wù), 一個(gè)或多個(gè)顧客服務(wù) 代表可使用一個(gè)或多個(gè)服務(wù)代表工作站54。 CRM系統(tǒng)和服務(wù)代表工 作站可連接至一個(gè)或多個(gè)數(shù)據(jù)網(wǎng)42或PSTN。任何其它服務(wù)器也可具 有與一個(gè)或多個(gè)服務(wù)代表工作站的連接,這些工作站可以是共有的或 者彼此獨(dú)立。
3、 一個(gè)或多個(gè)專用服務(wù)服務(wù)器50可支持專用消費(fèi)者和企業(yè)服務(wù)。
4、 一個(gè)或多個(gè)位置服務(wù)服務(wù)器48可供應(yīng)位置信息和基于位置的 服務(wù)。位置數(shù)據(jù)被用作輸入到位置服務(wù)器的數(shù)據(jù),然后可以以任何合 適的方式分布該數(shù)據(jù),所述方式包括在主語音處理單元128、移動(dòng)裝 置36、 TCU28、固定個(gè)人計(jì)算機(jī)44、其它服務(wù)器(即,46、 50、 52、 56)或者一個(gè)或多個(gè)位置服務(wù)服務(wù)器48上。
5、 一個(gè)或多個(gè)急救服務(wù)服務(wù)器46可為用戶供應(yīng)公共和私有急救 服務(wù)兩種。
可以以許多方式在移動(dòng)裝置36中分布主語音處理單元98、語音 單元128和鍵盤14。例如,這些單元可作為獨(dú)立組件或者作為單個(gè)集 成組件附到移動(dòng)裝置36上。在本發(fā)明的另一實(shí)施例中,可將主語音 處理單元98和語音單元128中的一些或所有嵌入在TCU 28、移動(dòng)裝 置36、固定計(jì)算機(jī)系統(tǒng)44或其它裝置中的一個(gè)或多個(gè)中。
圖2示出本發(fā)明的第二實(shí)施例的可替換框圖。在這個(gè)實(shí)施例中, 主語音處理單元98和語音單元128位于TCU 28外部??蓪⑦@些組件 儲(chǔ)藏在一個(gè)或多個(gè)包中,或者可將這些組件包括在單個(gè)集成包中。
在所有其它方面中,第二實(shí)施例與圖1中示出的第一實(shí)施例類似。將理解,可根據(jù)部署情形的細(xì)節(jié)來確定主語音處理單元98和語 音單元的精確的分布和包裝,并且主語音處理單元98和語音單 元128的精確的分布和包裝不應(yīng)該以任何方式改變本發(fā)明的功能性、 能力或精神。
圖3示出包括主語音處理單元98和語音單元128的移動(dòng)裝置36 的一個(gè)實(shí)施例的框圖,主語音處理單元98和語音單元128被嵌入在 移動(dòng)裝置36、移動(dòng)電話或其它移動(dòng)裝置中。主語音處理單元可與位于 移動(dòng)裝置36中的一個(gè)或多個(gè)處理單元70建立接口。處理單元70可 包括一個(gè)或多個(gè)中央處理單元、 一個(gè)或多個(gè)數(shù)據(jù)和地址總線、數(shù)據(jù)接 口、易失性存儲(chǔ)器或其它組件。處理單元70可將多種類型的非易失 性存儲(chǔ)器80中的一種類型用于軟件和數(shù)據(jù)存儲(chǔ)。合適類型的非易失 性存儲(chǔ)器80可包括閃存和硬盤驅(qū)動(dòng)器。在一些實(shí)施例中,主語音處 理單元98可與一個(gè)或多個(gè)處理單元70集成。
根據(jù)一個(gè)實(shí)施例,用戶可通過語音單元128、鍵區(qū)74或鍵盤、 顯示器72或其它外設(shè)與移動(dòng)裝置36交互,顯示器72顯示文本、圖 形、視頻。在一些實(shí)施例中,顯示器可以是觸摸屏類型??商鎿Q地, 在其它裝置中,可使用定點(diǎn)裝置(未顯示)。
移動(dòng)裝置36可通過一個(gè)或多個(gè)接口連接至一個(gè)或多個(gè)有線或無 線廣域網(wǎng)或局域網(wǎng)。廣域網(wǎng)收發(fā)器78可使用無線或有線連接連接至 廣域無線網(wǎng)38或數(shù)據(jù)網(wǎng)42,所述無線或有線連接包括IP連接、撥號(hào) PSTN網(wǎng)連接或其它連接。局域網(wǎng)收發(fā)器76可連接至有線或無線局域 網(wǎng)。這些網(wǎng)絡(luò)可包括手持接口 20或與固定計(jì)算機(jī)系統(tǒng)44的連接。在
移動(dòng)裝置環(huán)境和固定計(jì)算機(jī)環(huán)境中,由于自然語言命令的定義可能不 完整,所以人和機(jī)器之間的交流可能至少?zèng)]有提供精確的結(jié)果??赏?過對(duì)以前的話語的上下文、領(lǐng)域的知識(shí)和/或用戶的興趣和偏好的歷史 或者其它因素進(jìn)行杠桿調(diào)節(jié)來減少不精確的結(jié)果的發(fā)生。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,可在移動(dòng)裝置36執(zhí)行處理??商鎿Q 地,可在服務(wù)器端執(zhí)行處理。在又一實(shí)施例中,處理可在移動(dòng)裝置36 和服務(wù)器端都發(fā)生。移動(dòng)裝置36可現(xiàn)場對(duì)命令進(jìn)行處理以使得移動(dòng)裝置36能夠控制它們自己和/或控制其它移動(dòng)裝置36、固定計(jì)算機(jī)44、 移動(dòng)電話或其它裝置。另外,移動(dòng)裝置36可跟蹤上下文。才艮據(jù)圖7 中示出的本發(fā)明的另一實(shí)施例,可對(duì)上下文管理程序702進(jìn)行集中維 護(hù)以允許輸入到多個(gè)移動(dòng)裝置36和從多個(gè)移動(dòng)裝置36輸出。每個(gè)移 動(dòng)裝置可與上下文管理程序702通信以經(jīng)由注冊模塊712注冊,其中, 注冊可指示移動(dòng)裝置36可預(yù)訂的事件。上下文管理程序702可接收 例如上下文XML表單的輸入??赏ㄟ^上下文跟蹤模塊714向其它注 冊的移動(dòng)裝置36通知上下文改變,從而使注冊的移動(dòng)裝置36之間的 上下文同步。根據(jù)本發(fā)明的一個(gè)實(shí)施例,可添加或去除注冊的移動(dòng)裝 置36。注冊的移動(dòng)裝置36可以是動(dòng)態(tài)鏈接庫(DLL)、對(duì)象代碼或 者可能是移動(dòng)裝置36所特有的其它數(shù)據(jù)。
根據(jù)本發(fā)明的又一可替換實(shí)施例,可從作為文本消息而呈現(xiàn)的命 令或請(qǐng)求和/或作為口頭話語而呈現(xiàn)的命令或請(qǐng)求來確定上下文信息, 并使用多通路自動(dòng)語音識(shí)別模塊對(duì)上下文信息進(jìn)行處理,多通路自動(dòng) 語音識(shí)別模塊將口頭話語轉(zhuǎn)錄為文本消息。多通路自動(dòng)語音識(shí)別模塊 可使用其它資源中的口述語法或大的詞匯表語法來將口頭話語轉(zhuǎn)錄 為文本消息。在口述語法不可利用的平臺(tái)上,多通路自動(dòng)語音識(shí)別可 使用虛擬口述語法,虛擬口述語法將假字用于詞匯表之外的字。假字 可包括實(shí)用字、無意義的字、分離音節(jié)、分離獨(dú)特的發(fā)聲和其它假字。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,可在文本消息中搜索特定字符、字符 組、單詞、詞組和其它文本組合??蓪⑽谋窘M合與上下文描述語法中 與每個(gè)代理106相關(guān)聯(lián)的條碼進(jìn)行比較。如果在上下文描迷語法中的 活動(dòng)語法和命令和/或請(qǐng)求之間識(shí)別到匹配,則可對(duì)該匹配進(jìn)行評(píng)分。 可基于確定的得分對(duì)代理106進(jìn)行分級(jí)。在從從代理106接收的一個(gè) 或多個(gè)答復(fù)產(chǎn)生總答復(fù)中,可基于代理106的等級(jí)確定來自各個(gè)代理 的答復(fù)的排序??赏ㄟ^答復(fù)產(chǎn)生器模塊產(chǎn)生總答復(fù)。代理106可更新 上下文堆棧以使得能夠?qū)崿F(xiàn)后續(xù)請(qǐng)求,上下文堆棧包括命令上下文的
排序列表。
根據(jù)本發(fā)明的另 一實(shí)施例,如果在文本消息和活動(dòng)語法之間沒有找到匹配,或者僅找到部分匹配,則知識(shí)增強(qiáng)型語音識(shí)別系統(tǒng)可用于 從語義上使搜索變寬。知識(shí)增強(qiáng)型語音識(shí)別系統(tǒng)可用于確定請(qǐng)求的意 圖和/或校正錯(cuò)誤的識(shí)別。知識(shí)增強(qiáng)型語音識(shí)別可訪問存儲(chǔ)在上下文堆 棧中的預(yù)期的上下文的集合,以確定最可能的上下文。知識(shí)增強(qiáng)型語 音識(shí)別可使用能夠識(shí)別上下文的上下文特定匹配程序,所述上下文諸 如時(shí)間、位置、數(shù)量、日期、類別(比如,音樂、電影、電視、演講 等)和其它上下文??赏ㄟ^將字符、字符組、單詞、詞組和其它文本 組合進(jìn)行比較來執(zhí)行匹配??商鎿Q地,或者除了基于文本的匹配之外, 可使用其它技術(shù)中的音標(biāo)匹配來執(zhí)行匹配。任何匹配的結(jié)果可用于產(chǎn)
生被傳送到代理106以用于另外的處理的命令和/或請(qǐng)求。根據(jù)本發(fā)明 的一個(gè)實(shí)施例,非語音接口 114可以以比通過語音接口可能的方式更 簡明的方式顯示系統(tǒng)、狀態(tài)和歷史信息。非語音接口 114可被訪問以 創(chuàng)建或擴(kuò)展代理106的能力。這些操作可包括其它操作中的代理的腳 本撰寫、將數(shù)據(jù)添加到代理或代理所使用的數(shù)據(jù)庫102、將鏈接添加 到信息源。
根據(jù)本發(fā)明的另一實(shí)施例,移動(dòng)裝置36可碎皮構(gòu)造置為允許將對(duì) 象的語音注解存儲(chǔ)在其上。所述對(duì)象可包括照片、日歷條目、電子郵 件消息、即時(shí)消息、電話簿條目、語音郵件條目、數(shù)字電影或其它對(duì) 象。移動(dòng)裝置36可將語音注解轉(zhuǎn)錄為文本注解,并將文本注解與對(duì) 象一起存儲(chǔ)??商鎿Q地,移動(dòng)裝置36可被構(gòu)造為使得用戶能夠輸入 與對(duì)象一起存儲(chǔ)的非語音注解,諸如文本描述。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,可在服務(wù)器端、客戶機(jī)端、服務(wù)器端 和客戶機(jī)端的組合上或者根據(jù)其它構(gòu)造存儲(chǔ)注解的對(duì)象。本發(fā)明還考 慮在分布的工作組之間協(xié)作交換和共享注解的對(duì)象,所述工作組可包 括具有用于提供共同的對(duì)象存儲(chǔ)和檢索設(shè)施的共享工作區(qū)的集中式 服務(wù)器??稍诩惺椒?wù)器上實(shí)現(xiàn)共享工作區(qū),并可使用移動(dòng)裝置36 從不同的平臺(tái)訪問共享工作區(qū)。所述系統(tǒng)可包括用于訪問注解的對(duì)象 的對(duì)等系統(tǒng)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,可對(duì)非語音注解進(jìn)行分類和搜索。在可替換的實(shí)施例中,可對(duì)語音注解進(jìn)行分類和搜索。然而,對(duì)語音注 解進(jìn)行分類和搜索可能比對(duì)非語音注解進(jìn)行分類和搜索困難得多。
根據(jù)本發(fā)明的另一實(shí)施例,可將與對(duì)象相關(guān)聯(lián)的文本注解和/或 文本描述存儲(chǔ)為元數(shù)據(jù),從而使得能夠使用元數(shù)據(jù)來搜索對(duì)象。元數(shù)
據(jù)可包括GPS信息、環(huán)境信息、地理信息或其它信息。例如,可使 用GPS信息、環(huán)境信息、地理信息或其它信息來確定對(duì)著名的路標(biāo) 的接近,并可將這個(gè)信息集成到與對(duì)象相關(guān)聯(lián)的元數(shù)據(jù)中。根據(jù)本發(fā) 明的一個(gè)實(shí)施例,可將GPS坐標(biāo)存儲(chǔ)在與對(duì)象相關(guān)聯(lián)的元數(shù)據(jù)中, 用戶可基于GPS坐標(biāo)搜索所選擇的對(duì)象。用戶可提供語音命令,諸 如"為我顯示Greece的所有照片"。在這種情況下,所述系統(tǒng)將對(duì)象 的類型限制為照片,并將確定Greece的GPS坐標(biāo)。然后,所述系統(tǒng) 將在元數(shù)據(jù)中搜索與照片對(duì)應(yīng)并且還滿足Greece的GPS坐標(biāo)的對(duì) 象。根據(jù)本發(fā)明的另一實(shí)施例,將GPS坐標(biāo)包括在對(duì)象的元數(shù)據(jù)中 使得能夠基于GPS坐標(biāo)對(duì)對(duì)象進(jìn)行后處理。例如,可基于存儲(chǔ)在元 數(shù)據(jù)中的通用GPS坐標(biāo)對(duì)對(duì)象進(jìn)行初始整理,并可基于關(guān)于GPS坐 標(biāo)的更多的特定標(biāo)準(zhǔn)對(duì)對(duì)象進(jìn)行另外的整理。因而,用戶最初可搜索 與著名的路標(biāo)附近的位置對(duì)應(yīng)的對(duì)象元數(shù)據(jù),并可將圖像匹配用于用 可搜索的元數(shù)據(jù)(即,文本描述)對(duì)對(duì)象進(jìn)行標(biāo)注。例如,通過使用 存儲(chǔ)在元數(shù)據(jù)中的GPS坐標(biāo),用戶可首先確定在Jefferson Memorial 拍攝的照片,并可將這個(gè)信息用于用包括"Jefferson Memorial的照 片,,的可搜索的元數(shù)據(jù)(即,文本描述)對(duì)照片進(jìn)行標(biāo)注。本領(lǐng)域的 普通技術(shù)人員中的一個(gè)將容易意識(shí)到,元數(shù)據(jù)可包括各種類型的信 息,并可通過使用各種類型的信息來搜索元數(shù)據(jù)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,在移動(dòng)電話或其它裝置上可使用短消 息服務(wù)來傳送文本注解。短消息服務(wù)為能夠?qū)崿F(xiàn)短文本消息的發(fā)送和 接收的文本消息服務(wù)??稍跀?shù)據(jù)中心存儲(chǔ)文本消息以轉(zhuǎn)發(fā)給想要的接 收者。可使用其它構(gòu)造。
根據(jù)本發(fā)明的另一實(shí)施例,在其它構(gòu)造中,移動(dòng)裝置36可支持 多模式通信,多模式通信能夠?qū)崿F(xiàn)在圖形接口上顯示非語音搜索結(jié)果和接收語音命令以提供后續(xù)搜索。例如,可為用戶呈現(xiàn)與著名人物的 姓名對(duì)應(yīng)的文本搜索結(jié)果,并且用戶可提供語音命令來找到該著名人 物的傳記。所述系統(tǒng)可維持文本搜索結(jié)果的上下文以找到與所述著名 人物相關(guān)聯(lián)的傳記。相反,已知的系統(tǒng)可對(duì)術(shù)語"傳記"執(zhí)行后續(xù)搜索, 并可呈現(xiàn)術(shù)語"傳記"的詞典定義。
圖4示出使用固定計(jì)算機(jī)44的實(shí)施例。在一些實(shí)施例中,可將 主語音處理單元98和語音單元128嵌入在固定計(jì)算機(jī)44中。主語音 處理單元可與和固定計(jì)算機(jī)相關(guān)聯(lián)的一個(gè)或多個(gè)處理單元84建立接 口。處理單元可包括一個(gè)或多個(gè)中央處理單元、 一個(gè)或多個(gè)數(shù)據(jù)和地 址總線、數(shù)據(jù)接口、易失性存儲(chǔ)器或其它組件。處理單元可將多種類 型的非易失性存儲(chǔ)器94中的一種用于軟件和數(shù)據(jù)存儲(chǔ)。合適類型的 非易失性存儲(chǔ)器包括,例如,閃存和硬盤驅(qū)動(dòng)器。在一些實(shí)施例中, 可將主語音處理單元98與一個(gè)或多個(gè)處理單元84集成。根據(jù)本發(fā)明 的一個(gè)實(shí)施例,可在固定計(jì)算機(jī)44執(zhí)行處理??涩F(xiàn)場對(duì)命令進(jìn)行處 理以使得固定計(jì)算機(jī)44能夠控制它們自己和/或控制其它固定計(jì)算機(jī) 44、移動(dòng)裝置36、移動(dòng)電話或其它裝置。另外,如上所述,固定計(jì)算 機(jī)44可跟蹤上下文。
根據(jù)本發(fā)明的另一實(shí)施例,固定計(jì)算機(jī)44可被構(gòu)造為允許將對(duì) 象的口語注解存儲(chǔ)在其上。固定計(jì)算機(jī)44可將口語注解轉(zhuǎn)錄為文本, 并將文本注解與對(duì)象一起存儲(chǔ)。可替換地,固定計(jì)算機(jī)44可被構(gòu)造 為使得用戶能夠手動(dòng)輸入與對(duì)象一起存儲(chǔ)的文本描述。根據(jù)本發(fā)明的 一個(gè)實(shí)施例,可對(duì)文本注解和/或文本描述進(jìn)行分類和搜索。在可替換 的實(shí)施例中,固定計(jì)算機(jī)44可對(duì)口語注解而不是文本注解進(jìn)行分類 和搜索。然而,對(duì)口語注解進(jìn)行分類和搜索可能比對(duì)文本注解和/或文 本描述進(jìn)行分類和搜索困難得多。
在本發(fā)明的另一實(shí)施例中,用戶可使用語音單元128、鍵盤88 或鍵區(qū)、顯示器86或其它外設(shè)與固定計(jì)算機(jī)44交互,顯示器86用 于顯示文本、圖形、視頻。根據(jù)本發(fā)明的一些實(shí)施例,顯示器可以是 觸摸屏類型。可替換地,可與其它裝置一起使用定點(diǎn)裝置(未顯示)??赏ㄟ^一個(gè)或多個(gè)接口將固定計(jì)算機(jī)44與一個(gè)或多個(gè)有線或無線廣 域網(wǎng)或局域網(wǎng)耦合。廣域網(wǎng)收發(fā)器92可使用無線或有線連接連接至 廣域無線網(wǎng)38或數(shù)據(jù)網(wǎng)42,所述無線或有線連接包括IP網(wǎng)、撥號(hào) PSTN網(wǎng)連接或其它連接。局域網(wǎng)收發(fā)器90可連接至有線或無線局域 網(wǎng)。這些網(wǎng)絡(luò)可包括與移動(dòng)裝置36的連接。
為了使裝置適當(dāng)?shù)卮饛?fù)以自然語言形式提交的請(qǐng)求和/或命令, 可在對(duì)自然形式的問題或命令進(jìn)行解析和解釋之后對(duì)機(jī)器可執(zhí)行的 請(qǐng)求和/或算法進(jìn)行公式化表達(dá)。算法描述機(jī)器應(yīng)該如何收集數(shù)據(jù)來答 復(fù)問題或命令。根據(jù)請(qǐng)求或命令的性質(zhì),可能不存在將返回讓人滿意 的答復(fù)的簡單的請(qǐng)求和/或算法集合??赡苄枰l(fā)起幾個(gè)請(qǐng)求和算法, 甚至可能需要對(duì)這些請(qǐng)求和算法進(jìn)行束縛或結(jié)合以實(shí)現(xiàn)完整的答復(fù)。 此外,沒有單個(gè)可利用的源可包含產(chǎn)生完整的答復(fù)所需要的整個(gè)結(jié)果 集合。因而,可產(chǎn)生可能具有幾個(gè)部分的多個(gè)請(qǐng)求和/或算法來訪問位 于本地或遠(yuǎn)程的多個(gè)數(shù)據(jù)源。不是所有的數(shù)據(jù)源、請(qǐng)求和/或算法都可 返回有用的結(jié)果,或者根本不返回任何結(jié)果。通常將返回的有用的結(jié) 果嵌入在其它信息中,并且可能需要從這些信息提取這些有用的結(jié) 果。例如,可能需要從大量的文本串、表格、列表、頁面、視頻流中 的其它信息或其它信息"積攢"幾個(gè)關(guān)鍵詞或數(shù)字。同時(shí),可去除包括 圖形或圖片的不必要的信息以對(duì)答復(fù)進(jìn)行處理。在任何情況下,必須
對(duì)多個(gè)結(jié)果進(jìn)行評(píng)估并組合這些結(jié)果以形成最佳的可能的答復(fù),甚至 在一些請(qǐng)求不返回有用的結(jié)果或者未能完整地生成結(jié)果的情況下,也 必須對(duì)多個(gè)結(jié)果進(jìn)行評(píng)估并組合這些結(jié)果以形成最佳的可能的答復(fù)。 在確定命令具有歧義或者結(jié)果在本質(zhì)上主觀的情況下,確定要在答復(fù) 中呈現(xiàn)的結(jié)果是個(gè)復(fù)雜的過程。最后,為了維持自然交互,應(yīng)該將答 復(fù)快速地返回給用戶。在維持實(shí)時(shí)性能的同時(shí)對(duì)復(fù)雜的不確定的請(qǐng)求 進(jìn)行管理和評(píng)估是個(gè)重要的挑戰(zhàn)。
本發(fā)明為遠(yuǎn)程信息處理應(yīng)用提供完整的基于語音的命令產(chǎn)生、信 息查詢、檢索、處理和呈現(xiàn)環(huán)境或者基于語音和基于非語音的命令產(chǎn) 生、信息查詢、檢索、處理和呈現(xiàn)環(huán)境的組合。另外,本發(fā)明對(duì)于控制系統(tǒng)自身和/或外部裝置可能有用。這個(gè)集成環(huán)境可最大化地利用上 下文、先驗(yàn)信息和領(lǐng)域以及用戶特定的簡檔數(shù)據(jù)來為提交多個(gè)領(lǐng)域中 的請(qǐng)求或命令的一個(gè)或多個(gè)用戶實(shí)現(xiàn)自然環(huán)境。通過這個(gè)集成方法, 可創(chuàng)建完整的基于語音的自然語言命令、算法和答復(fù)環(huán)境或者基于語 音和基于非語音的命令、算法和答復(fù)環(huán)境的組合。
遠(yuǎn)程信息處理自然語言接口可被部署為TCU或其它移動(dòng)裝置36
的一部分或外設(shè),被部署為通過有線、無線、光學(xué)或其它類型的連接 與車輛計(jì)算機(jī)和其它移動(dòng)系統(tǒng)建立接口的移動(dòng)裝置或者通過有線、無
線、光學(xué)和/或其它類型的連接與車輛計(jì)算機(jī)或其它系統(tǒng)建立接口的固 定計(jì)算機(jī)的一部分??商鎿Q地,可以以任何合適的方式在這些多個(gè)計(jì) 算平臺(tái)之間分布交互式自然語言遠(yuǎn)程信息處理接口的組件。
圖5示出根據(jù)本發(fā)明的實(shí)施例的系統(tǒng)卯的一個(gè)示例性示意圖。 系統(tǒng)卯可包括主單元98、語音單元128和多模式裝置155。在可替 換的實(shí)施例中,系統(tǒng)98可包括關(guān)于主單元98、語音單元U8和多模 式裝置155的完全分離的系統(tǒng)。事件管理程序100可對(duì)主單元卯的 組件之間的交互進(jìn)行調(diào)解。事件管理程序IOO提供多線程環(huán)境,該多 線程環(huán)境允許系統(tǒng)98沒有沖突地以有效率的方式對(duì)來自多個(gè)用戶會(huì) 話的多個(gè)命令或問題進(jìn)行操作,以維持實(shí)時(shí)答復(fù)能力。
圖8示出增強(qiáng)型會(huì)話用戶接口 800的一個(gè)示例性實(shí)施例,增強(qiáng)型 會(huì)話用戶接口 800從用戶802接收多模式輸入,并與會(huì)話語音分析器 804通信。會(huì)話語音分析器804可與幾個(gè)組件耦合,所述組件包括一 般認(rèn)知模型806、環(huán)境模型808、個(gè)性化認(rèn)知模型810和自適應(yīng)錯(cuò)誤 識(shí)別分析引擎812或其它組件。根據(jù)本發(fā)明的一個(gè)實(shí)施例,會(huì)話語音 分析器804可包括將話語轉(zhuǎn)錄為文本消息的一個(gè)或多個(gè)語音識(shí)別引 擎。可使用一個(gè)或多個(gè)會(huì)話語法、上下文描述語法1U或其它轉(zhuǎn)錄方 法來執(zhí)行轉(zhuǎn)錄。根據(jù)本發(fā)明的一個(gè)實(shí)施例,可將以文本形式鍵入的數(shù) 據(jù)與被從話語轉(zhuǎn)錄為文本格式的數(shù)據(jù)合并。會(huì)話語音分析器804還可 包括基于語義知識(shí)的模塊,該模塊分析文本消息并檢測命令組成。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,個(gè)性化認(rèn)知模型810為從用戶與所述系統(tǒng)的交互模式得到的模塊,該模塊可用于預(yù)測用戶在下一時(shí)間可能 采取什么動(dòng)作,從而輔助語音識(shí)別和/或問題或命令識(shí)別。個(gè)性化認(rèn)知
模型810可跟蹤用戶執(zhí)行的動(dòng)作。當(dāng)所述系統(tǒng)試圖預(yù)測用戶行為時(shí), 可首先請(qǐng)教個(gè)性化認(rèn)知模型。所述系統(tǒng)可具有多個(gè)個(gè)性化認(rèn)知模型, 其中, 一個(gè)模塊可與每個(gè)用戶對(duì)應(yīng)。
根據(jù)本發(fā)明的另 一實(shí)施例, 一般認(rèn)知模型806為對(duì)應(yīng)于多個(gè)用戶 與所述系統(tǒng)的交互模式的統(tǒng)計(jì)抽象。存儲(chǔ)在一般認(rèn)知模型806內(nèi)的數(shù) 據(jù)可用于預(yù)測用戶的下一動(dòng)作,從而輔助語音識(shí)別和/或問題或命令識(shí) 別。 一般認(rèn)知模型806還可跟蹤特定用戶已執(zhí)行什么動(dòng)作,當(dāng)用戶以 不在個(gè)性化認(rèn)知模型中處理的方式與所述系統(tǒng)交互時(shí),可使用一般認(rèn) 知模型806。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,環(huán)境模型808可包括與用戶的環(huán)境和 周遭相關(guān)聯(lián)的信息。該信息可包括用戶所處的環(huán)境的類型(比如,安 靜或吵鬧);麥克風(fēng)和/或揚(yáng)聲器系統(tǒng)的細(xì)節(jié);如可由GPS確定的用 戶的當(dāng)前全球位置和移動(dòng);當(dāng)前的系統(tǒng)狀態(tài),諸如正播放什么歌曲/ 電影、為正在檢索一些東西之中的系統(tǒng)或者其它系統(tǒng)狀態(tài);緊鄰的所
有能夠發(fā)聲的裝置的細(xì)節(jié),諸如在同一房屋內(nèi)能夠發(fā)聲的TV、立體 聲系統(tǒng)和DVD播放器的存在;用戶的信用卡信息,諸如號(hào)碼和當(dāng)前
余額,其中,用戶可讓移動(dòng)電話下載和支付視頻,并且所述系統(tǒng)可響
應(yīng)資金不足;或者其它信息??稍L問所述信息以調(diào)用上下文、領(lǐng)域知 識(shí)、偏好和/或提高問題和/或命令的解釋的其它認(rèn)知品質(zhì)。
會(huì)話語音分析器804還可訪問一般認(rèn)知模型806和/或個(gè)性化認(rèn) 知模型810以進(jìn)一步提煉上下文、領(lǐng)域知識(shí)、偏好和/或提高問題和/ 或命令的解釋的其它認(rèn)知品質(zhì)?;趶囊话阏J(rèn)知模型806、環(huán)境模型
808和/或個(gè)性化認(rèn)知模型810接收的信息,所述系統(tǒng)可通過包括用戶 行為的預(yù)測來提高對(duì)命令和問題的答復(fù)。
自適應(yīng)錯(cuò)誤識(shí)別分析引擎812可對(duì)被會(huì)話語音分析器804識(shí)別為 不被識(shí)別的或者被不正確識(shí)別的文本消息進(jìn)行分析,并存儲(chǔ)該文本消 息,該文本消息包括轉(zhuǎn)錄的話語。當(dāng)一確定文本不被識(shí)別時(shí),所述系統(tǒng)就可產(chǎn)生不被識(shí)別的事件。例如,不被識(shí)別的事件可由沒有找到與 文本和/或轉(zhuǎn)錄的話語的匹配引起。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述系統(tǒng)可實(shí)現(xiàn)確定文本消息被不正 確地識(shí)別的一種或多種技術(shù)。例如,在其它變形中,用戶可命令所述 系統(tǒng)播放特定的歌曲標(biāo)題,所述系統(tǒng)可能錯(cuò)誤識(shí)別請(qǐng)求的歌曲標(biāo)題并 提供具有不同標(biāo)題的歌曲,所述系統(tǒng)可能錯(cuò)誤識(shí)別不正確的歌曲標(biāo)題 并提供具有與請(qǐng)求的標(biāo)題不同的標(biāo)題的歌曲,所述系統(tǒng)可能錯(cuò)誤識(shí)別 正確的歌曲標(biāo)題并提供具有無效的歌曲標(biāo)題的歌曲。當(dāng)所述系統(tǒng)錯(cuò)誤 識(shí)別請(qǐng)求時(shí),用戶典型地提供直接反饋,諸如,在比命令的預(yù)期執(zhí)行 時(shí)間短的時(shí)間內(nèi)推翻命令、重復(fù)原始請(qǐng)求、發(fā)出停止命令或者采取其 它動(dòng)作,其中,在其它構(gòu)造中,可口頭呈現(xiàn)所述動(dòng)作、通過在蜂窩電 話或遠(yuǎn)程控制器上按下所選擇的按鈕來非口頭呈現(xiàn)所述動(dòng)作,或者口
頭呈現(xiàn)所述動(dòng)作并通過在蜂窩電話或遠(yuǎn)程控制器上按下所選擇的按 鈕來非口頭呈現(xiàn)所述動(dòng)作。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述系統(tǒng)可檢
測用戶動(dòng)作,并可提示用戶重新用短語描述請(qǐng)求以使得所述系統(tǒng)能夠 修改查詢中的單詞。可在統(tǒng)計(jì)模型中對(duì)用戶的動(dòng)作進(jìn)行分析以確定對(duì) 特定命令的錯(cuò)誤識(shí)別的頻率發(fā)生,結(jié)果用于更新對(duì)應(yīng)的個(gè)性化認(rèn)知模
型810。
根據(jù)本發(fā)明的另 一實(shí)施例,會(huì)話語音分析器804可訪問個(gè)性化認(rèn) 知模型810以為接收的文本積極地選擇下一最佳(或第n最佳)匹配。 可通過用戶動(dòng)作確認(rèn)匹配,所述用戶動(dòng)作包括用戶不直接取消命令或 采取其它動(dòng)作。還可對(duì)錯(cuò)誤識(shí)別進(jìn)行分析,以可能確定用于所述系統(tǒng) 的語音識(shí)別組件的個(gè)性化的調(diào)整參數(shù)。例如,所述系統(tǒng)可隨著時(shí)間通 過分析語音識(shí)別引擎如何錯(cuò)誤識(shí)別話語來調(diào)整語音識(shí)別引擎以來提 高識(shí)別。
事件管理程序100可調(diào)解本發(fā)明的其它組件之間的交互。事件管 理程序可提供多線程環(huán)境,該多線程環(huán)境允許所述系統(tǒng)沒有沖突地以 有效率的方式對(duì)來自多個(gè)用戶會(huì)話的多個(gè)命令或問題操作,同時(shí)維持 實(shí)時(shí)答復(fù)能力。代理106可包括可被訪問以對(duì)請(qǐng)求和/或命令集合作出答復(fù)的語 法、標(biāo)準(zhǔn)處理程序和算法的集合。代理106還可包含用于系統(tǒng)98的 一般行為和領(lǐng)域特定行為兩種行為的包。代理106可將非易失性存儲(chǔ) 器用于數(shù)據(jù)、參數(shù)、歷史信息和在系統(tǒng)數(shù)據(jù)庫102或其它本地源中提 供的本地存儲(chǔ)的內(nèi)容。可提供一個(gè)或多個(gè)用戶簡檔110,用戶簡檔110 包括用于確定代理106的行為的用戶特定數(shù)據(jù)、參數(shù)和會(huì)話和歷史信 息??稍跀?shù)據(jù)確定系統(tǒng)中提供一個(gè)或多個(gè)個(gè)性模塊108,個(gè)性模塊108 包括用于代理的個(gè)性特點(diǎn)。更新管理程序104管理代理106及其來自 因特網(wǎng)146或者通過網(wǎng)絡(luò)接口 116的其它網(wǎng)絡(luò)的相關(guān)聯(lián)的數(shù)據(jù)的自動(dòng) 和手動(dòng)加載和更新。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,用于系統(tǒng)90的基于語音的接口可包 括一個(gè)或多個(gè)語音單元128。語音單元128可包括一個(gè)或多個(gè)麥克風(fēng), 例如陣列麥克風(fēng)134,以從用戶接收話語。濾波器132可對(duì)在麥克風(fēng) 134接收的語音進(jìn)行處理,并將該語音傳遞到用于編碼和壓縮的語音 編碼器138。在一個(gè)實(shí)施例中,收發(fā)器模塊130可將編碼的語音發(fā)送 到主單元98。收發(fā)器130檢測從主單元98接收的編碼的語音,然后 語音編碼器138對(duì)該語音進(jìn)行解碼和解壓縮,揚(yáng)聲器136宣讀該語音。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,用于系統(tǒng)卯的基于非語音的接口可 包括一個(gè)或多個(gè)多模式裝置155,其可包括移動(dòng)裝置、獨(dú)立計(jì)算機(jī)和 聯(lián)網(wǎng)計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)、便攜式計(jì)算機(jī)裝置或其它多模
語音單元128、多模式裝置155和主單元98可通過通信鏈接通 信。通信鏈接可包括有線或無線鏈接。根據(jù)一個(gè)實(shí)施例,通信鏈接可 包括RF鏈接。語音單元上的收發(fā)器130可通過與主單元98上的收發(fā) 器126的通信鏈接雙向傳送編碼的語音數(shù)據(jù)。根據(jù)另一實(shí)施例,RF 鏈接可使用任何標(biāo)準(zhǔn)的局域無線數(shù)據(jù)協(xié)議,包括IEEE 802.11、藍(lán)牙 或其它標(biāo)準(zhǔn)??商鎿Q地,可使用符合任何合適的標(biāo)準(zhǔn)的紅外數(shù)據(jù)鏈接, 所述標(biāo)準(zhǔn)諸如IrDA或其它紅外標(biāo)準(zhǔn)。在可替換的實(shí)施例中,接線可 連接語音單元128和主單元98,去除了對(duì)于一個(gè)語音編碼器138的需要。可使用其它有線或無線模擬或數(shù)字傳輸技術(shù)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,將在主單元98上的收發(fā)器126接收 的編碼的語音傳遞到用于解碼和解壓縮的語音編碼器122。在其它信 息中,語音識(shí)別引擎120可使用上下文描述語法模塊112對(duì)解碼的語 音進(jìn)行處理。解析程序118可對(duì)任何識(shí)別的信息進(jìn)行處理,解析程序 118使用由知識(shí)代理供應(yīng)的數(shù)據(jù)將信息變換為完整的算法和問題。可 使用語法堆棧來從多個(gè)代理106選擇知識(shí)代理,其中,知識(shí)代理提供 用于產(chǎn)生對(duì)問題或命令的答復(fù)的信息。然后知識(shí)代理可通過創(chuàng)建提交 到本地?cái)?shù)據(jù)庫102的請(qǐng)求或者通過網(wǎng)絡(luò)接口 116提交到因特網(wǎng)146或 外部其它網(wǎng)絡(luò)上的外部數(shù)據(jù)源的請(qǐng)求來對(duì)命令或問題進(jìn)行處理。算法 典型地導(dǎo)致由系統(tǒng)90自己采取的動(dòng)作(即,暫停或停止),或者通 過與因特網(wǎng)的網(wǎng)絡(luò)接口或其它數(shù)據(jù)接口對(duì)遠(yuǎn)程裝置或數(shù)據(jù)源采取的 動(dòng)作(即,下栽數(shù)據(jù)或程序或者控制遠(yuǎn)程裝置)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,知識(shí)代理可將問題的結(jié)果作為答復(fù)返 回給用戶??墒褂眯畔⒄?qǐng)求的結(jié)果、系統(tǒng)個(gè)性108、用戶偏好、用戶 簡檔110中的其它數(shù)據(jù)和/或其它信息來創(chuàng)建答復(fù)。代理106可使用語 音單元128來呈現(xiàn)這些結(jié)果。代理106可創(chuàng)建發(fā)送到文本至語音引擎 124的答復(fù)串。文本至語音引擎124可產(chǎn)生語音編碼器122可對(duì)其進(jìn) 行編碼和壓縮的話語。 一旦被編碼,收發(fā)器126就將話語從主單元98 發(fā)送到語音單元128上的收發(fā)器130。然后,語音編碼器138對(duì)話語 進(jìn)行解碼和解壓縮,揚(yáng)聲器136輸出該話語??商鎿Q地,代理106可 使用多模式裝置155來呈現(xiàn)結(jié)果。
非語音接口 114可以是多模式裝置155的一部分,或者與多模式 裝置155分離,可將非語音接口 114用作語音接口的替代或者補(bǔ)充。 例如,非語音接口 114可用于以用戶更容易理解的方式呈現(xiàn)非語音(比 如,圖形或表格)信息和與非語音信息交互。根據(jù)本發(fā)明的一個(gè)實(shí)施 例,可提供多模式支持以維持聲音交互期間和通過非語音接口 114的 交互期間的上下文。在一個(gè)示例性實(shí)施例中,可在多模式裝置155和 主用戶接口系統(tǒng)卯之間開放通信信道,以允許多模式裝置155輸入文本命令和問題。根據(jù)本發(fā)明的一個(gè)實(shí)施例,多模式裝置155可發(fā)送 命令或問題的文本串或關(guān)鍵詞。主接口系統(tǒng)90可使多模式裝置155 和語音單元128之間的上下文同步。為了將答復(fù)發(fā)送到對(duì)應(yīng)的裝置, 主用戶接口系統(tǒng)90可跟蹤輸入從其而來的地方,從而可將答復(fù)發(fā)送 到TTS或多模式裝置155。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,非語音接口 114可以以比可通過語音 接口的方式更簡明的方式顯示系統(tǒng)、狀態(tài)和歷史信息??稍L問非語音 接口 114以創(chuàng)建或擴(kuò)展代理106的能力。這些操作可包括其它操作中 的代理的腳本撰寫、將數(shù)據(jù)添加到代理或者代理所使用的數(shù)據(jù)庫102、 將鏈接添加到信息源。
根據(jù)本發(fā)明的另一實(shí)施例,系統(tǒng)90可包括不同類型的代理106。 在本發(fā)明的一些實(shí)施例中,可將一般行為和信息以及領(lǐng)域特定行為和 信息組織到領(lǐng)域代理156中。另一方面,系統(tǒng)代理可提供默認(rèn)功能和 基本服務(wù)。領(lǐng)域特定代理可為每個(gè)應(yīng)用領(lǐng)域提供完整的、方便的和可 重新分布的包或模塊。換句話說,領(lǐng)域代理可包括在當(dāng)前領(lǐng)域或者新 的領(lǐng)域中擴(kuò)展或修改系統(tǒng)90的功能性所需的數(shù)據(jù)'此外,當(dāng)添加新 的行為或者新的信息變得可利用時(shí),可通過網(wǎng)絡(luò)遠(yuǎn)程更新領(lǐng)域代理及 其相關(guān)聯(lián)的數(shù)據(jù)。領(lǐng)域代理可訪問可提供各種服務(wù)的多個(gè)源。領(lǐng)域代 理可使用其它的服務(wù),典型地更具體地講,數(shù)據(jù)管理程序和系統(tǒng)代理 的服務(wù)。以許多方式分布和重新分布代理,所述方式包括在可拆除的 存儲(chǔ)介質(zhì)上、通過網(wǎng)絡(luò)轉(zhuǎn)移或者附到電子郵件或其它消息上。本發(fā)明 可提供許可證管理能力,許可證管理能力允許第三方一次或者基于預(yù) 訂將數(shù)據(jù)管理程序賣給一個(gè)或多個(gè)用戶。另外,具有特定的專門知識(shí) 的用戶可通過添加新的行為和信息并使得其他用戶可利用這些數(shù)據(jù) 管理程序來創(chuàng)建數(shù)據(jù)管理程序和更新現(xiàn)有的數(shù)據(jù)管理程序。圖6中顯 示根據(jù)本發(fā)明的實(shí)施例的代理架構(gòu)的框圖。
代理106可接收事件,并將事件返回給事件管理程序100。系統(tǒng) 代理150和領(lǐng)域代理156都可從解析程序118接收問題和命令?;?問題和命令中的關(guān)鍵詞以及問題和命令的結(jié)構(gòu),解析程序可調(diào)用所選擇的代理。代理將非易失性存儲(chǔ)用于數(shù)據(jù)、參數(shù)、歷史信息和在系統(tǒng)
數(shù)據(jù)庫102中提供的本地內(nèi)容。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,當(dāng)所述系統(tǒng)開機(jī)或者啟動(dòng)時(shí),代理管 理程序154可加載系統(tǒng)代理150和一個(gè)或多個(gè)領(lǐng)域代理156,并對(duì)系 統(tǒng)代理150和一個(gè)或多個(gè)領(lǐng)域代理156進(jìn)行初始化。代理管理程序154 包括代理106的知識(shí),并將代理106映射到代理庫158。在關(guān)機(jī)時(shí), 代理管理程序可卸載代理106。代理管理程序154還對(duì)領(lǐng)域代理156 和數(shù)據(jù)庫102中的內(nèi)容執(zhí)行許可證管理功能。
系統(tǒng)代理150管理標(biāo)準(zhǔn)處理程序152,標(biāo)準(zhǔn)處理程序152處理用 于確定關(guān)于問題和命令的上下文的特定參數(shù)或值(標(biāo)準(zhǔn))。才艮據(jù)本發(fā) 明的一個(gè)實(shí)施例,標(biāo)準(zhǔn)處理程序152包括解析例行程序,其專用于識(shí) 別語音的特定部分,諸如時(shí)間、位置、電影標(biāo)題和語音的其他部分。 標(biāo)準(zhǔn)處理程序152可識(shí)別匹配短語,并從這些短語提取語義屬性。系 統(tǒng)代理150和領(lǐng)域代理156都可使用標(biāo)準(zhǔn)處理程序152。各領(lǐng)域代理 156可使用系統(tǒng)代理150和其它的服務(wù),典型地更具體地講,領(lǐng)域代 理156的服務(wù)。系統(tǒng)代理150和領(lǐng)域代理156可使用代理庫158的服 務(wù),代理庫158包含關(guān)于公共使用的功能的實(shí)用程序。根據(jù)本發(fā)明的 一個(gè)實(shí)施例,代理庫可以是實(shí)現(xiàn)一個(gè)或多個(gè)代理的動(dòng)態(tài)鏈接庫。代理 庫可包括關(guān)于文本和串處理、網(wǎng)絡(luò)通信、數(shù)據(jù)庫查找和管理、模糊和 概率評(píng)估、文本至語音格式的實(shí)用程序以及其他實(shí)用程序。
可用編譯的代碼對(duì)領(lǐng)域代理156進(jìn)行數(shù)據(jù)驅(qū)動(dòng)、撰寫腳本或創(chuàng) 建。 一般代理的庫可被用作用于數(shù)據(jù)驅(qū)動(dòng)或撰寫腳本的代理的起點(diǎn)。 典型地,將用編譯的代碼創(chuàng)建的代理構(gòu)建到動(dòng)態(tài)可鏈接或可加載的庫 中。代理的開發(fā)者可根據(jù)需要將新的功能性添加到代理庫158中。以 下將在各部分中對(duì)代理分布和更新以及代理創(chuàng)建或修改的細(xì)節(jié)進(jìn)行討論。
根據(jù)本發(fā)明的另一實(shí)施例,提供這樣的能力,即,使用更新管理 程序104通過無線網(wǎng)或有線網(wǎng)136分布和更新系統(tǒng)代理150、領(lǐng)域代 理156、代理庫158組件、數(shù)據(jù)庫102和上下文描述語法112,所述無線網(wǎng)或有線網(wǎng)136包括IP網(wǎng)和撥號(hào)網(wǎng)。網(wǎng)絡(luò)接口 116可提供與一 個(gè)或多個(gè)網(wǎng)絡(luò)的連接。更新管理程序104還可管理核心系統(tǒng)更新的下 載和安裝。代理管理程序154可對(duì)領(lǐng)域代理和數(shù)據(jù)庫執(zhí)行許可證管理 功能。更新管理程序104和代理管理程序154可對(duì)所有的代理和數(shù)據(jù) 庫內(nèi)容執(zhí)行這些功能,所述代理和數(shù)據(jù)庫內(nèi)容包括所有用戶或代理可 利用的代理和內(nèi)容和/或所選擇的用戶可利用的內(nèi)容?;谥芷谛蕴砑?或更新的代理和數(shù)據(jù)庫組件的示例包括
參用于新的領(lǐng)域的代理;
*用于代理的附加領(lǐng)域知識(shí);
*用于領(lǐng)域的新的關(guān)鍵詞,其可包括政客、運(yùn)動(dòng)員、演藝人員的 姓名、新的電影或歌曲的名稱等,所述政客、運(yùn)動(dòng)員、演藝人員、新 的電影或歌曲最近受到突出關(guān)注;
*與用于覆蓋領(lǐng)域的優(yōu)選信息源集合的鏈接,所述領(lǐng)域包括對(duì)于 娛樂、新聞、體育、天氣等的鏈接;
參基于例如稅法的改變、公司合并、變化的政治分界線對(duì)領(lǐng)域信 息的更新;
參對(duì)內(nèi)容的更新,所述內(nèi)容包括詞典、百科全書、年鑒;和 參其它內(nèi)容和數(shù)據(jù)庫組件。
當(dāng)用戶需要或者選擇新的領(lǐng)域代理156或數(shù)據(jù)庫元素102時(shí),更
新管理程序104可通過網(wǎng)絡(luò)接口 116連接至它們在網(wǎng)絡(luò)1"上的源, 下載和安裝代理或數(shù)據(jù)。為了節(jié)省系統(tǒng)資源并符合任何許可證條件, 更新管理程序104可卸載不再使用的代理。在本發(fā)明的一個(gè)實(shí)施例中, 更新管理程序104可周期性地查詢許可的代理和數(shù)據(jù)庫組件的一個(gè)或 多個(gè)源,以當(dāng)代理可執(zhí)行程序、腳本或數(shù)據(jù)變得可利用時(shí),對(duì)對(duì)代理 可執(zhí)行程序、腳本或數(shù)據(jù)的更新進(jìn)行定位和下栽??商鎿Q地,當(dāng)注冊 的或者許可的代理的代理更新變得可利用時(shí),代理源可啟動(dòng)將所述代 理更新下載到更新管理程序的步驟。
代理管理程序154可提供能夠執(zhí)行大多數(shù)任何許可證期限和條 件的許可證管理客戶機(jī)程序。當(dāng)基于提交的命令選擇特定代理106和/或數(shù)據(jù)庫元素102時(shí),代理管理程序154驗(yàn)證代理或數(shù)據(jù)元素的使用 在所允許的期限和條件內(nèi),并且如果是這樣,則調(diào)用代理或者允許對(duì) 數(shù)據(jù)元素的訪問。可通過代理管理程序154實(shí)現(xiàn)的許可證管理方案包 括直接買斷、預(yù)訂更新、 一次或有限次使用。還可由代理管理程序154 對(duì)共享的代理和數(shù)據(jù)元素(諸如,從由領(lǐng)域?qū)<医M維護(hù)的網(wǎng)站下栽的 這些代理和數(shù)據(jù)元素)的使用進(jìn)行管理。
如果問題或命令與當(dāng)前在所述系統(tǒng)上加載的代理不匹配,則代理 管理程序154可通過網(wǎng)絡(luò)接口 116搜索網(wǎng)絡(luò)146以找到用于合適的代 理的源。例如,當(dāng)在代理不可利用的領(lǐng)域中進(jìn)行查詢時(shí),當(dāng)將新的裝 置添加到移動(dòng)結(jié)構(gòu)時(shí),或者當(dāng)移動(dòng)裝置的行為被更新時(shí),可觸發(fā)這個(gè) 過程。如代理管理程序強(qiáng)制實(shí)施地那樣, 一旦被定位,就可在更新管 理程序104的控制下、在許可證協(xié)議的期限和條件內(nèi)加載代理。
可通過改變代理數(shù)據(jù)或撰寫腳本來將新的命令、關(guān)鍵詞、信息或 信息源添加到任何領(lǐng)域代理156。這些構(gòu)造能力可允許用戶和內(nèi)容開 發(fā)商對(duì)現(xiàn)有的領(lǐng)域代理156的行為進(jìn)行擴(kuò)展和修改,或者從一般代理 創(chuàng)建新的領(lǐng)域代理156,而無需創(chuàng)建新的編譯的代碼。因而,領(lǐng)域代 理156的修改范圍可從甚至由最偶然的用戶進(jìn)行的次要的數(shù)據(jù)驅(qū)動(dòng)的 更新到如典型地由領(lǐng)域?qū)<覍⑦M(jìn)行的使用腳本語言的復(fù)雜行為的開 發(fā),所述次要的數(shù)據(jù)驅(qū)動(dòng)的更新諸如指定單詞的拼寫。用戶可通過語 音接口命令或者使用非語音接口 114創(chuàng)建領(lǐng)域代理156并管理對(duì)領(lǐng)域 代理156的修改。結(jié)合用戶的簡檔110存儲(chǔ)領(lǐng)域代理156的用戶特定 修改,并且在運(yùn)行時(shí)領(lǐng)域代理156訪問該修改。
可以以有助于有效率的評(píng)估和幫助開發(fā)者進(jìn)行組織的方式對(duì)用 于構(gòu)造數(shù)據(jù)驅(qū)動(dòng)的代理156的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化。不僅代理使用這個(gè)數(shù) 據(jù),而且還在語音識(shí)別引擎120、文本至語音引擎124和解析程序118 中使用這個(gè)數(shù)據(jù)。 一些主要類別的數(shù)據(jù)的示例包括
1、內(nèi)容包可包括問題或命令。每個(gè)命令或問題或者命令或問題 組可包括用于創(chuàng)建一個(gè)或多個(gè)請(qǐng)求的上下文。領(lǐng)域代理156可將上下 文描述語法表達(dá)傳遞到解析程序118以用于對(duì)上下文或問題進(jìn)行評(píng)估。典型地,為每個(gè)命令或問題供應(yīng)初始的或默認(rèn)的上下文。命令或 問題包括用于上下文堆棧的管理和評(píng)估的語法。
2、 受自然語言語音接口控制的裝置上的參數(shù)和其它操作數(shù)據(jù)。 領(lǐng)域代理156可使用這個(gè)數(shù)據(jù)和參數(shù)來確定如何執(zhí)行命令、如何對(duì)用 于解析程序118的命令串進(jìn)行公式化表達(dá)、確定命令是否可行、并確 定是否可在安全和操作極限內(nèi)執(zhí)行命令。
3、 頁面列表或者指向其它本地或網(wǎng)絡(luò)內(nèi)容源的指針。對(duì)于每個(gè) 頁面或內(nèi)容源,可能存在指向頁面或源的指針(比如,URL、 URI或 其它指針)。每個(gè)頁面可具有用于提取感興趣的數(shù)據(jù)的特定的積攢信 息。積攢信息可包括,例如,匹配模式、HTML或其它格式解析信息。
4、 答復(fù)列表,其在給定上下文、用戶簡檔和檢索的信息的情況 下確定領(lǐng)域代理156對(duì)特定命令或問題的答復(fù)。答復(fù)可包括診斷錯(cuò)誤 消息,或者如果仍不能從已知的信息解決問題或命令,則答復(fù)可包括 對(duì)更多信息的請(qǐng)求。答復(fù)可基于或者取決于用于變量的闞值或者概率 或模糊權(quán)重。
5、 包括變量替換和變換的替換列表,通常由代理150、 156在對(duì) 請(qǐng)求和結(jié)果進(jìn)行格式化時(shí)應(yīng)用替換列表。例如,證券領(lǐng)域特定代理156 將使用公司交易代號(hào)、公司名稱和普遍使用的縮寫的替換列表??蓪?duì) 命令和問題執(zhí)行替換和變換以創(chuàng)建精確的查詢,可對(duì)一個(gè)或多個(gè)信息 源應(yīng)用這些查詢,或者可將這些查詢應(yīng)用于用于創(chuàng)建對(duì)用戶更有意義 的輸出的結(jié)果。替換列表還包括用于對(duì)結(jié)構(gòu)化信息進(jìn)行優(yōu)化處理的信 息,所述優(yōu)化處理諸如HTML格式化頁面解析和評(píng)估。
6、 用于答復(fù)的個(gè)性??赏ㄟ^以加權(quán)的方式組合多個(gè)特征來構(gòu)造 個(gè)性??蓪?duì)每個(gè)代理的領(lǐng)域范圍指定權(quán)重以創(chuàng)建一個(gè)或多個(gè)特定的個(gè) 性。個(gè)性特征的示例包括諷刺、幽默、憤怒和同情以及其它特征。
7、 用于源、替換、變換、變量或標(biāo)準(zhǔn)的公共參數(shù)和用戶特定參 數(shù)。公共參數(shù)列表為代理包156的一部分。用戶特定參數(shù)包括在用戶 簡檔110中。
對(duì)命令和問題進(jìn)行解釋,公式化表達(dá)的請(qǐng)求、創(chuàng)建的答復(fù)和呈現(xiàn)的結(jié)果可基于用戶的個(gè)人值或用戶簡檔IIO值。個(gè)人簡檔可包括個(gè)體
所特有的信息、他們的興趣、他們的專用術(shù)語、他們與所述系統(tǒng)交互
的歷史、感興趣的領(lǐng)域或者其它因素。代理106、語音識(shí)別引擎120、 文本至語音引擎124和解析程序118可使用個(gè)人簡檔數(shù)據(jù)。偏好可包 括特殊(修改)命令、過去行為或歷史、問題、信息源、格式、報(bào)告、 警報(bào)或其它偏好??捎捎脩羰謩?dòng)鍵入用戶簡檔數(shù)據(jù),和/或可由系統(tǒng)基 于用戶行為學(xué)習(xí)用戶簡檔數(shù)據(jù)。用戶簡檔值可包括l)拼寫偏好;2) 用戶、家人和朋友的生日;3)收入水平;4)性別;5)職業(yè);6)位 置信息,諸如,家庭地址、街道和營業(yè)地址、旅行路徑、參觀的位置; 7) —種車輛類型或多種車輛類型;8)車輛駕駛者證書、許可證或特 殊證件;9)命令和查詢的歷史;10)電信和其它服務(wù)提供商和服務(wù); ll)金融和投資信息;12)異名(即,某人的綽號(hào)、同一項(xiàng)目的不同 術(shù)語);13)特殊拼寫;14)關(guān)鍵詞;15)變換或替換變量;16)感 興趣的領(lǐng)域;或者,17)其它值。
終端用戶可使用存儲(chǔ)在用戶簡檔110中的數(shù)據(jù)驅(qū)動(dòng)的代理156 擴(kuò)展和修改設(shè)施和值來創(chuàng)建特別專題報(bào)告、查詢包、警報(bào)和輸出格式。 單個(gè)警報(bào)或報(bào)告可被構(gòu)造為使用多個(gè)數(shù)據(jù)源和其它變量(即,時(shí)間、 位置、測量的值)值來確定什么時(shí)候應(yīng)該發(fā)送警報(bào)。例如,可通過以 下方式產(chǎn)生警報(bào),即,每15分鐘對(duì)股票價(jià)格進(jìn)行采樣,并且如果價(jià) 格下降到一些值以下,則發(fā)送警報(bào)。在另一示例中,當(dāng)特定條件或條 件的組合對(duì)于車輛發(fā)生時(shí),可產(chǎn)生警報(bào)。警報(bào)和報(bào)告可被發(fā)往本地或 遠(yuǎn)程輸出。
為了創(chuàng)建報(bào)告,用戶可首先指定命令或問題集合。接下來,用戶 可創(chuàng)建或選擇報(bào)告格式。最后,用戶可為報(bào)告命名。報(bào)告可具有可變 參數(shù)。例如,用戶可通過陳述報(bào)告的名稱和公司名稱來創(chuàng)建公司股票 報(bào)告并執(zhí)行該報(bào)告,該報(bào)告以用于該公司的指定格式給出用戶所選擇 的信息。在另一示例中,用戶可創(chuàng)建"早晨,,報(bào)告,該報(bào)告以期望的順 序和格式呈現(xiàn)所選擇的來自不同源(新聞、體育、交通、天氣)的多 媒體信息。在又一示例中,用戶可創(chuàng)建關(guān)于一個(gè)或多個(gè)車輛系統(tǒng)的狀態(tài)的報(bào)告??蓛H使用聲音命令和答復(fù)、通過圖形用戶接口 114的命令 和答復(fù)或者使用聲音命令和答復(fù)與通過圖形用戶接口 114的命令和答 復(fù)的組合來創(chuàng)建警報(bào)和報(bào)告??蓪?duì)于車輛本地或遠(yuǎn)程運(yùn)行^^告。為了 創(chuàng)建報(bào)告、警報(bào)或其它專門行為,用戶執(zhí)行許多步驟,包括l)指 定運(yùn)行報(bào)告或警告的命令;2)指定用于查詢的一個(gè)問題或多個(gè)問題, 包括關(guān)鍵詞;3)設(shè)置用于運(yùn)行報(bào)告的標(biāo)準(zhǔn),諸如應(yīng)命令或者當(dāng)特定 條件滿足時(shí);4)定義優(yōu)選的信息源;5)按源、值和其它參數(shù)的結(jié)果 評(píng)估順序定義偏好;6)指定用于報(bào)告或警報(bào)的呈現(xiàn)介質(zhì),諸如電子 郵件、文本至語音引擎、發(fā)到尋呼機(jī)的消息或者文本和圖形顯示器; 以及7)指定報(bào)告的優(yōu)選格式,諸如將呈現(xiàn)的信息、將呈現(xiàn)的信息的 順序、優(yōu)選縮寫或其它可變替換。
在使系統(tǒng)90的各種功能性便利的步驟中,濾波和噪聲消除可能 是重要的,濾波和噪聲消除可改進(jìn)有噪聲的移動(dòng)環(huán)境中的操作。在到 語音識(shí)別引擎120的輸入以良好的信噪比實(shí)現(xiàn)用戶的語音的識(shí)別和解 析。為了提供可接受的結(jié)果,可采用聲學(xué)模型、陣列麥克風(fēng)134、濾 波器132或其它組件的集合。如果不能實(shí)現(xiàn)良好的信噪比,則可使用 噪聲識(shí)別算法,并且可選擇合適的聲學(xué)模型,例如,在與所識(shí)別的噪 聲類似的條件下經(jīng)過訓(xùn)練的聲學(xué)模型。根據(jù)本發(fā)明的一個(gè)實(shí)施例,麥 克風(fēng)陣列、濾波器和語音編碼器138在物理上主單元98分離而是被 設(shè)置到語音單元128中,并使用無線鏈接連接。由于無線連接上的帶 寬非常珍責(zé),所以語音編碼器動(dòng)態(tài)地適應(yīng)捕捉的語音的數(shù)字化速率和 壓縮。
本發(fā)明的一些實(shí)施例可使用麥克風(fēng)134的一個(gè)或多個(gè)陣列來提 供比可用單個(gè)麥克風(fēng)實(shí)現(xiàn)的定向信號(hào)捕捉和噪聲消除好的定向信號(hào) 捕捉和噪聲消除。麥克風(fēng)陣列可以是一維(線性陣列)或兩維(圓、 正方形、三角形或其它合適的形狀)。陣列的波束模式可以是固定的, 或者可通過使用模擬或數(shù)字相移電路使陣列的波束模式自適應(yīng)。引導(dǎo) 有源陣列的圖案指向一個(gè)或多個(gè)講話的用戶的方向。同時(shí),可將零訊 號(hào)添加到模式中以切除點(diǎn)噪聲源或有限區(qū)噪聲源。陣列麥克風(fēng)的使用還幫助減少從文本至語音引擎124通過揚(yáng)聲器136的輸出或者從另一 說話的用戶的輸出和用戶的語音的方向之間的串音。
本發(fā)明可在陣列麥克風(fēng)或傳統(tǒng)麥克風(fēng)134和語音編碼器138之間 使用模擬或數(shù)字濾波器132??蓪V波器的帶通設(shè)置為優(yōu)化到語音識(shí) 別引擎120的輸入處的信噪比。在一些實(shí)施例中,通過使用與陷波濾 波器組合的頻帶形成來除去窄頻帶噪聲,濾波器是自適應(yīng)的。 一個(gè)實(shí) 施例在濾波器中采用自適應(yīng)回波消除。回波消除幫助防止從文本至語 音引擎的輸出和用戶的語音的檢測之間的串音以及抑制環(huán)境引起的 回波。將背景噪聲與從用戶語音接收的信號(hào)進(jìn)行比較的算法可用于優(yōu) 化自適應(yīng)濾波器的頻帶形成參數(shù)。
可將由陣列麥克風(fēng)134接收并通過濾波器132的語音發(fā)送到語音 數(shù)字轉(zhuǎn)換器或編碼器138。語音編碼器可使用自適應(yīng)有損音頻壓縮來 優(yōu)化通過無線鏈接將編碼的語音發(fā)送到語音識(shí)別引擎120的帶寬要 求。對(duì)有損編碼進(jìn)行優(yōu)化以僅保留優(yōu)化識(shí)別所需的語音信號(hào)的分量。 此外,可使用的有損壓縮算法被設(shè)計(jì)為防止信號(hào)流中的平坦瞬時(shí)間 隙,平坦瞬時(shí)間隙可引起語音識(shí)別引擎中的錯(cuò)誤??稍诰幋a器中對(duì)數(shù) 字化的語音進(jìn)行緩沖,編碼器可改編輸出數(shù)據(jù)速率以優(yōu)化可利用的帶 寬的使用。當(dāng)在編碼器和語音識(shí)別引擎之間使用限帶無線鏈接時(shí),自 適應(yīng)語音編碼器的使用特別有利。
可用模擬或數(shù)字(即,Voice over IP )語音接口實(shí)現(xiàn)麥克風(fēng)。這 個(gè)接口允許遠(yuǎn)程用戶連接至系統(tǒng),并且如果它們在物理上存在,則以 可能的相同的方式與系統(tǒng)交互。
在可替換的實(shí)施例中,可用物理分布的麥克風(fēng)或用戶佩戴的耳機(jī) 的集合代替陣列麥克風(fēng)??稍谲囕v的不同部分、房間的不同部分或者 建筑的不同房間中放置分布的麥克風(fēng)。分布的麥克風(fēng)可創(chuàng)建三維陣列 以改進(jìn)信噪比。耳機(jī)可使用無線或有線連接。
盡管本發(fā)明的意圖在于能夠接受大多數(shù)任何自然語言問題或命 令,但是歧義性可能是個(gè)問題。為了輔助用戶對(duì)簡明的問題和命令進(jìn) 行公式化表達(dá),系統(tǒng)可支持聲音查詢語言??蓪?duì)語言進(jìn)行結(jié)構(gòu)化以使得各種查詢和命令具有最小歧義性。因而,聲音查詢語言幫助用戶清 楚地指定連同參數(shù)或標(biāo)準(zhǔn)一起的問題或命令的關(guān)鍵詞或上下文。該語 言可提供這樣的語法,該語法清楚地指定用于確定上下文的關(guān)鍵詞和 呈現(xiàn)標(biāo)準(zhǔn)或參數(shù)集合??蓭缀蹩偸潜WC以聲音查詢語言問問題或者陳 述命令的用戶接收到答復(fù)。
聲音查詢語言可能對(duì)上下文堆棧的內(nèi)容敏感,其中,上下文定義 在對(duì)話期間可被激活或禁止的問題的集合。根據(jù)一個(gè)實(shí)施例,每個(gè)代 理可指定一個(gè)上下文為定義代理實(shí)現(xiàn)的基本算法的根本上下文。因 而,由于可從上下文堆棧繼承關(guān)鍵詞和標(biāo)準(zhǔn),所以可使用縮寫語法來 問后續(xù)問題。例如,如果問題的標(biāo)準(zhǔn)保持不變,則用戶可簡單地詢問 另一關(guān)鍵詞。
系統(tǒng)90可提供幫助用戶學(xué)習(xí)對(duì)他們的問題和命令進(jìn)行公式化表 達(dá)的最佳方法的內(nèi)置訓(xùn)練能力。交互式訓(xùn)練允許用戶可聽地或者可視 地看見他們的查詢的機(jī)器解釋,并提供關(guān)于如何更好地對(duì)查詢進(jìn)行結(jié) 構(gòu)化的建議。通過使用交互式訓(xùn)練,用戶可快速地變得對(duì)聲音查詢語 言感覺舒適,同時(shí),可學(xué)習(xí)如何優(yōu)化對(duì)話的每個(gè)步驟所需的信息量。
可將語音編碼器122的輸出供給到語音識(shí)別引擎120。語音識(shí)別 引擎120使用上下文描述語法112中的信息來識(shí)別單詞和短語,并將 這些單詞和短語傳遞到解析程序118以用于解釋。語音識(shí)別引擎l加
可通過每段話語的聲音和姓名來確定用戶的身份。在所有進(jìn)一步的處 理中,可用這個(gè)身份對(duì)識(shí)別的單詞和短語進(jìn)行標(biāo)記。因而,由于多個(gè) 用戶參與重疊會(huì)話,所以由語音識(shí)別引擎120添加到每段話語的標(biāo)記 允許系統(tǒng)90的其它組件將這段話語與正確的用戶和對(duì)話聯(lián)系起來。 用戶識(shí)別能力還可被用作需要安全措施的應(yīng)用的安全措施,所述應(yīng)用 諸如拍賣或在線購物。可將每個(gè)用戶的聲音特點(diǎn)包含在用戶簡檔110 中。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,當(dāng)用戶首先對(duì)系統(tǒng)90說話時(shí),用戶 可與系統(tǒng)90 —起開始對(duì)話。這可通過講出一般單詞("計(jì)算機(jī)")或 者說出特定名稱("Fred")來執(zhí)行,所述一般單詞和特定名稱通常可能與系統(tǒng)個(gè)性108聯(lián)系。 一旦用戶開始對(duì)話,語音識(shí)別引擎120就可 使用用戶語音的獨(dú)特特點(diǎn)來識(shí)別該對(duì)話。在對(duì)話結(jié)束時(shí)或者為了中斷 對(duì)話,用戶可說出遣散單詞("再見,,)。
根據(jù)本發(fā)明的另一實(shí)施例,系統(tǒng)90可采用語音識(shí)別引擎124, 語音識(shí)別引擎124使用來自其它組件中的上下文描述語法112、用戶 簡檔110和代理106的數(shù)據(jù)來獲取改進(jìn)的單詞識(shí)別準(zhǔn)確度。同時(shí),可 對(duì)單詞在上下文描述語法中的模糊集概率或先驗(yàn)概率進(jìn)行動(dòng)態(tài)更新 以最大化對(duì)話的每一階段的正確識(shí)別的概率??苫谠S多標(biāo)準(zhǔn)對(duì)概率 或可能性進(jìn)行動(dòng)態(tài)更新,所述標(biāo)準(zhǔn)包括其它標(biāo)準(zhǔn)中的應(yīng)用領(lǐng)域、問題 或命令、上下文、用戶簡檔和偏好、用戶對(duì)話歷史、識(shí)別器詞典和短 語表以及單詞拼寫。
對(duì)于不常見的單詞或新的詞匯單詞,可給予用戶拼寫單詞的選 擇。可通過說出名稱或字母或者使用音標(biāo)字母來進(jìn)行拼寫。音標(biāo)字母 可以是默認(rèn)的字母或者用戶的選擇中的一個(gè)。
可替換地,當(dāng)用戶提交語音識(shí)別引擎120根本不識(shí)別或者沒有被 正確識(shí)別的單詞時(shí),可要求用戶拼寫該單詞。語音識(shí)別引擎UO基于 評(píng)分過程的置信水平來確定這個(gè)條件。可在詞典中查找單詞,并將該 單詞的發(fā)音添加到詞典、代理106或用戶的簡檔110。然后將單詞發(fā) 音與領(lǐng)域、問題、上下文和用戶相關(guān)聯(lián)。通過這個(gè)過程,語音識(shí)別引 擎隨著時(shí)間學(xué)習(xí),并改進(jìn)準(zhǔn)確度。為了輔助用戶拼寫單詞,可使用個(gè) 性化的音標(biāo)字母。每個(gè)用戶可用他們可更容易記住的單詞來修改標(biāo)準(zhǔn) 的音標(biāo)字母。
一旦語音識(shí)別引擎120已識(shí)別單詞和短語,就可將表征和用戶識(shí) 別傳遞到解析程序118。解析程序檢查用于問題或命令、上下文和標(biāo) 準(zhǔn)的表征。解析程序可通過將先驗(yàn)概率或模糊概率應(yīng)用于關(guān)鍵詞匹 配、用戶簡檔IIO、對(duì)話歷史和上下文堆棧內(nèi)容來確定話語的上下文。 問題或命令的上下文可確定領(lǐng)域,從而,如果有的話,確定將被調(diào)用 的領(lǐng)域代理156。例如,具有關(guān)鍵詞"溫度"的問題暗示問題的天氣上 下文值。在不同對(duì)話內(nèi),關(guān)鍵詞"溫度,,可暗示測量上下文。解析程序從系統(tǒng)代理150或已激活的領(lǐng)域代理156動(dòng)態(tài)地接收關(guān)鍵詞和相關(guān)聯(lián) 的先驗(yàn)概率或模糊概率更新。基于這些概率或可能性,對(duì)可能的上下 文進(jìn)行評(píng)分,并將頂部的一個(gè)或幾個(gè)用于進(jìn)一步處理。
解析程序118使用評(píng)分系統(tǒng)來確定用戶的問題和/或命令的最可 能的上下文或領(lǐng)域。通過權(quán)衡許多因素來確定評(píng)分,所述因素包括用 戶簡檔110、領(lǐng)域代理的數(shù)據(jù)內(nèi)容和以前的上下文?;谶@個(gè)評(píng)分, 系統(tǒng)90調(diào)用正確的代理。如果得分的置信水平不是高得足以確???靠的答復(fù),則系統(tǒng)90可叫用戶驗(yàn)證是否正確地理解問題和/或命令。
通常,可將系統(tǒng)90所問的問題分成短語以指示問題的上下文, 包括所有的標(biāo)準(zhǔn)或參數(shù)。例如,問題可以是這樣的形式"我理解你 想如此這般嗎"。如果用戶確認(rèn)問題是正確的,則所述系統(tǒng)繼續(xù)生成 答復(fù)。否則,用戶可重新將原始問題分成短語,可通過添加附加信息 來重新將原始問題分成短語以去除歧義性,或者系統(tǒng)可問 一個(gè)或多個(gè) 問題以嘗試解決歧義性。
一旦已確定問題或命令的上下文,解析程序118就可調(diào)用正確的 代理156、 150。為了對(duì)代理所使用的常規(guī)語法中的問題和命令進(jìn)行公 式化表達(dá),解析程序?qū)?yōu)選地確定用于標(biāo)準(zhǔn)或參數(shù)的所需要的可選 值??捎捎脩裘鞔_地供應(yīng)這些標(biāo)準(zhǔn),或者可能需要對(duì)這些標(biāo)準(zhǔn)進(jìn)行推 測。解析程序可使用由系統(tǒng)代理供應(yīng)的標(biāo)準(zhǔn)處理程序152。標(biāo)準(zhǔn)處理
程序可提供對(duì)上下文敏感的進(jìn)程,該進(jìn)程用于從用戶的問題或命令提 取標(biāo)準(zhǔn)或參數(shù)。可通過執(zhí)行代理中的算法來確定一些標(biāo)準(zhǔn),而可通過 將概率或模糊推理應(yīng)用于可能的值的表格來確定其它標(biāo)準(zhǔn)??蓮脑S多 源接收先驗(yàn)概率或模糊概率以及相關(guān)聯(lián)的值,所述源包括,例如,對(duì) 話的歷史、用戶簡檔110和代理?;谟脩舸饛?fù),當(dāng)系統(tǒng)學(xué)習(xí)期望的 行為時(shí),可對(duì)先驗(yàn)概率或模糊概率進(jìn)行更新。對(duì)于天氣上下文,標(biāo)準(zhǔn) 的示例包括位置、日期和時(shí)間。其它標(biāo)準(zhǔn)可包括命令標(biāo)準(zhǔn)(即,是/ 不是、開/關(guān)、暫停、停止)和拼寫。可從用于處理列表、表格、插入 命令、長的文本串和系統(tǒng)命令的系統(tǒng)代理獲得專用標(biāo)準(zhǔn)處理程序。
標(biāo)準(zhǔn)處理程序152可迭代地或者遞歸地對(duì)被提取以消除歧義性的標(biāo)準(zhǔn)進(jìn)行操作。這個(gè)處理可幫助減少用戶的問題或命令中的歧義 性。例如,如果在用戶的話語具有地名(或者其它合適的名詞),則
解析程序118可使用領(lǐng)域代理156的服務(wù)來在數(shù)據(jù)庫102的表格中查 找該地名,或者可嘗試從話語的句法確定哪個(gè)單詞是合適的名詞。在 另 一示例中,用戶問"what about fight one hundred and twenty too ,,。 解析程序和領(lǐng)域代理使用數(shù)據(jù)庫中的航班信息和連同上下文的網(wǎng)絡(luò) 信息來確定以下解釋中的最似乎可信的解釋航班100和航班20,還 有,航班100和航班22、航班122等。
一旦確定上下文和標(biāo)準(zhǔn),解析程序118就可形成用于代理150、 156進(jìn)行處理的標(biāo)準(zhǔn)格式或分級(jí)數(shù)據(jù)結(jié)構(gòu)的問題或命令。解析程序118 可為上下文的語法填充所有需要的表征和一些可選的表征。經(jīng)常,必 須將表征變換為代理可接受的值和形式。解析程序從代理、對(duì)話歷史 或用戶簡檔110獲得所需要的變換。由解析程序?qū)Ρ碚鲌?zhí)行的變換或 替換的示例包括1)用股票代號(hào)替換公司名稱或縮寫;2)用數(shù)值替 換一個(gè)單詞或多個(gè)單詞;3)將郵政編碼添加到地址中;和4)將地點(diǎn)
或其它名稱變?yōu)槠毡槭褂玫臉?biāo)準(zhǔn)縮寫。
一旦解析程序118已以所需要的標(biāo)準(zhǔn)格式設(shè)置命令或問題,代理 150、 156就可接收該命令或問題?;谏舷挛?,解析程序可調(diào)用正確 的代理來對(duì)問題或命令進(jìn)行處理。
可將命令發(fā)往系統(tǒng)或外部實(shí)體。通常將系統(tǒng)命令發(fā)往系統(tǒng)代理 150。通常由包括命令上下文和外部實(shí)體的行為的領(lǐng)域代理156對(duì)關(guān) 于外部實(shí)體的命令進(jìn)行處理。
通??蓪⑻囟▎栴}發(fā)往領(lǐng)域代理156中的一個(gè)。正確的代理的實(shí) 時(shí)選擇允許本發(fā)明動(dòng)態(tài)地切換上下文。基于問題、命令或上下文和參 數(shù)或標(biāo)準(zhǔn),領(lǐng)域代理可創(chuàng)建對(duì)一個(gè)或多個(gè)本地或外部信息源的一個(gè)或 多個(gè)查詢。本質(zhì)上,問題可以是客觀的或者主觀的。通??赏ㄟ^對(duì)一 個(gè)或多個(gè)本地或網(wǎng)絡(luò)信息源的結(jié)構(gòu)化的查詢來獲得客觀問題的結(jié)果。 即使對(duì)于客觀問題,系統(tǒng)也可能需要應(yīng)用概率或模糊集分析來處理沖 突信息或不完整信息的情況。通常通過對(duì)本地或網(wǎng)絡(luò)數(shù)據(jù)源的一個(gè)或多個(gè)自組查詢來獲得用于回答主觀問題的信息,之后對(duì)一個(gè)結(jié)果進(jìn)行 概率或模糊集評(píng)估以確定最佳答案。
一旦領(lǐng)域代理156已對(duì)一個(gè)或多個(gè)查詢進(jìn)行公式化表達(dá),就可將 這些查詢發(fā)送到本地和/或網(wǎng)絡(luò)信息源??梢砸援惒椒绞綀?zhí)行查詢以說 明源以不同的速度答復(fù)或者源可能根本未能答復(fù)的事實(shí)??蓪⑼耆?同的查詢發(fā)送到不同的信息源以確保至少一個(gè)源以及時(shí)的方式用有 用的結(jié)果作出答復(fù)。此外,如果以及時(shí)的方式接收到多個(gè)結(jié)果,則系 統(tǒng)可對(duì)它們進(jìn)行評(píng)分以確定哪個(gè)數(shù)據(jù)最可靠或者最合適。適應(yīng)的數(shù)據(jù) 源的示例包括HTTP數(shù)據(jù)源、具有包括XML的各種格式的元數(shù)據(jù)的 源、來自使用各種格式的傳感器的測量數(shù)據(jù)、裝置32設(shè)置參數(shù)、娛 樂音頻、包括MP3的視頻和游戲文件、使用查詢語言的數(shù)據(jù)庫和諸 如SQL的結(jié)構(gòu)化答復(fù)以及其它數(shù)據(jù)源。
可將本地信息源存儲(chǔ)在一個(gè)或多個(gè)系統(tǒng)數(shù)據(jù)庫102中,或者本地 信息源可在任何本地?cái)?shù)據(jù)存儲(chǔ)器上,所述本地?cái)?shù)據(jù)存儲(chǔ)器諸如播放機(jī) 中的CD或DVD的集合或者其它本地?cái)?shù)據(jù)存儲(chǔ)器。在其它情況下, 可從車輛系統(tǒng)設(shè)置或測量裝置獲得本地信息。網(wǎng)絡(luò)信息源可連接至控
制器和裝置接口 30、數(shù)據(jù)接口 26、因特網(wǎng)42或其它網(wǎng)絡(luò),可通過網(wǎng) 絡(luò)接口 116中的已知為可插式源的一系列插件程序或適配器對(duì)網(wǎng)絡(luò)信 息源進(jìn)行訪問,可插式源能夠執(zhí)行協(xié)議,并解釋用于感興趣的數(shù)據(jù)源 的數(shù)據(jù)格式。可插式源提供從每個(gè)源到領(lǐng)域代理156的信息積攢形式 和過程。如果將使用新類型的數(shù)據(jù)源,則可將新的插件程序或適配器 添加到合適的接口。
當(dāng) 一個(gè)或多個(gè)查詢的結(jié)果到達(dá)時(shí),領(lǐng)域代理156可對(duì)這些結(jié)果進(jìn) 行評(píng)估。領(lǐng)域代理可使用概率或模糊評(píng)分技術(shù)基于已接收的結(jié)果、上 下文、標(biāo)準(zhǔn)、對(duì)話的歷史、用戶簡檔110和領(lǐng)域特定信息對(duì)結(jié)果的相 關(guān)性進(jìn)行評(píng)分。在上下文堆棧中對(duì)對(duì)話歷史的部分進(jìn)行維護(hù)。用于評(píng) 分的每個(gè)上下文的權(quán)重可基于一個(gè)上下文與另一上下文的相關(guān)性和 上下文的年齡??赏ㄟ^上下文堆棧將其它評(píng)分變量關(guān)聯(lián)。上下文也可 以是獨(dú)有的,從而以前的上下文在評(píng)分中不具有權(quán)重?;谡谶M(jìn)行的評(píng)分過程,領(lǐng)域代理156可確定是否可提取單個(gè) 最佳的答案。對(duì)于大多數(shù)問題,期望的結(jié)果可包括可被找到以對(duì)答案 進(jìn)行公式化表達(dá)的表征的集合。 一旦已對(duì)這些表征中的每個(gè)表征找到 值,就準(zhǔn)備將結(jié)果呈現(xiàn)給用戶。例如,對(duì)于天氣問題,表征可包括日 期、 一周中的某天、預(yù)測的高溫、預(yù)測的低溫、降雨量的變化、預(yù)期 的云覆蓋范圍、預(yù)期類型的降雨量和其它表征。以這種方式處理的結(jié) 果可包括錯(cuò)誤消息。對(duì)于主觀問題,通過確定最可能的一個(gè)答案或多 個(gè)答案來作出這個(gè)確定,通過接收的結(jié)果的匹配提取這些答案。如果 不能從查詢的結(jié)果推測出滿意的答案,則代理可進(jìn)行以下步驟中的一 個(gè)步驟
1、 要求用戶給予更多的信息,典型地通過語音接口,并基于獲 得的結(jié)果對(duì)新的查詢進(jìn)行公式化表達(dá)。當(dāng)不可解決的歧義性在答復(fù)的 公式化表達(dá)中出現(xiàn)時(shí),應(yīng)用這個(gè)方法。
2、 基于從第一查詢集合接收的結(jié)果對(duì)新的查詢進(jìn)行公式化表達(dá)。 典型地,在所接收的答復(fù)不包括所有需要的信息的情況下應(yīng)用這個(gè)方 法。可從已經(jīng)獲得的結(jié)果(即,HTML文檔中的鏈接或者來自其它裝 置32的測量或設(shè)置)或者從其它源推測出查詢的信息源。通過使用 這個(gè)方法,可對(duì)查詢和答復(fù)的一個(gè)或多個(gè)集合進(jìn)行束縛,而無需用戶 采取動(dòng)作。
3、 等待另外的查詢以返回結(jié)果。
在任何情況下,領(lǐng)域代理156可繼續(xù)進(jìn)行查詢并對(duì)結(jié)果進(jìn)行評(píng) 估,直到構(gòu)成滿意的答復(fù)為止。在這樣做的步驟中,代理可開始幾個(gè) 重疊的查詢路徑或詢問線程,典型地由事件管理程序100對(duì)這些查詢 路徑或詢問線程進(jìn)行調(diào)解。這個(gè)技術(shù),與來自多個(gè)數(shù)據(jù)源的異步查詢 的使用組合,提供與用戶的自然交互所需的實(shí)時(shí)答復(fù)性能。
當(dāng)接收到每個(gè)查詢答復(fù)時(shí),領(lǐng)域代理156可將條件積攢操作應(yīng)用 于每個(gè)查詢答復(fù)。條件積攢動(dòng)作可取決于上下文、標(biāo)準(zhǔn)、用戶簡檔110 和領(lǐng)域代理編碼和數(shù)據(jù)。對(duì)于將被提取的每個(gè)表征,可使用系統(tǒng)代理 150的服務(wù)來創(chuàng)建積攢標(biāo)準(zhǔn)152。積攢標(biāo)準(zhǔn)可使用格式特定的積攢方法,包括表格、列表、文本和其它方法。可將一個(gè)或多個(gè)積攢標(biāo)準(zhǔn)應(yīng) 用于一個(gè)頁面或者結(jié)果集合。 一旦接收到另外的結(jié)果,領(lǐng)域代理就可 創(chuàng)建新的積攢標(biāo)準(zhǔn)以應(yīng)用于已獲取的結(jié)果。條件積攢處理去除不必對(duì) 其進(jìn)行進(jìn)一步處理或存儲(chǔ)的不必要的信息,諸如圖形,從而改進(jìn)系統(tǒng)性能。
通常將特定命令發(fā)往領(lǐng)域代理156中的一個(gè)。正確的代理的實(shí)時(shí) 選擇允許本發(fā)明動(dòng)態(tài)地切換上下文。面向命令的領(lǐng)域代理156對(duì)命令 和車輛系統(tǒng)的狀態(tài)、系統(tǒng)能力和測量進(jìn)行評(píng)估以確定是否根本可執(zhí)行 命令,或者如果根本可執(zhí)行命令,則確定命令是否將超出操作或安全 極限。如果命令有歧義或者由于一些其它原因而導(dǎo)致不能執(zhí)行命令, 則系統(tǒng)可要求用戶給予更多的信息,或者可建議問題是什么以及可能 的解決方法。領(lǐng)域代理可對(duì)用于特定裝置32以及控制器和裝置接口 30的命令進(jìn)行格式化。這個(gè)格式化可涉及變量替換、丟失值的推測和 其它格式化。變量替換和推測取決于命令上下文、用戶簡檔110、命 令歷史、車輛系統(tǒng)的狀態(tài)和測量的值以及其它因素。復(fù)雜的命令可導(dǎo) 致發(fā)送到多個(gè)裝置的更微小的命令,可能在序列中發(fā)送這些更微小的 命令。序列和隨后命令的性質(zhì)可取決于以前的命令、以前的命令的結(jié)
果、裝置設(shè)置和其它測量。當(dāng)執(zhí)行命令時(shí),進(jìn)行測量,并收集結(jié)果以 確定執(zhí)行是否正確以及是否達(dá)到期望的 一種狀態(tài)或多種狀態(tài)。
一旦領(lǐng)域代理156已創(chuàng)建對(duì)問題或者對(duì)命令的滿意答復(fù),代理就 可對(duì)該答復(fù)進(jìn)行格式化以用于呈現(xiàn)。典型地,領(lǐng)域代理可將答復(fù)格式 化為文本至語音引擎124所使用的標(biāo)記格式。領(lǐng)域代理可使用可利用 的格式模板并基于上下文、標(biāo)準(zhǔn)和用戶簡檔IIO對(duì)結(jié)果呈現(xiàn)進(jìn)行格式 化。領(lǐng)域代理可執(zhí)行變量替換和變換以生成用戶最好理解、最自然的 答復(fù)。領(lǐng)域代理可改變表征的呈現(xiàn)順序和用于創(chuàng)建對(duì)用戶更自然的答 復(fù)的準(zhǔn)確術(shù)語。領(lǐng)域代理還可選擇將^/f吏用的呈現(xiàn)個(gè)性108。
對(duì)于命令和查詢答復(fù),領(lǐng)域代理156可選擇呈現(xiàn)模板,確定關(guān)于 表征的呈現(xiàn)的順序,并通過使用概率或模糊集決策方法確定變量替換 和變換。用于形成呈現(xiàn)的模板可來自領(lǐng)域代理本身或者來自用戶筒檔110。用戶簡檔可完全指定呈現(xiàn)格式,或者可用于選擇然后修改現(xiàn)有 的呈現(xiàn)格式。呈現(xiàn)模板的選擇和格式化還可取決于呈現(xiàn)個(gè)性108。同 時(shí),通過使用從上下文、標(biāo)準(zhǔn)、領(lǐng)域代理本身和用戶簡檔IIO得到的 概率或模糊概率來動(dòng)態(tài)地確定用于答復(fù)的個(gè)性化的特點(diǎn)。
領(lǐng)域代理156可在呈現(xiàn)給用戶之前將許多變換應(yīng)用于表征。可從 許多源得到這些變量替換和變換,所述源包括代理所攜帶的領(lǐng)域信 息、上下文、表征值、標(biāo)準(zhǔn)、將被使用的個(gè)性108以及用戶簡檔110。 變量替換和變換的示例包括l)用單詞替換數(shù)字;2)用名稱替換首 字母縮略詞或符號(hào)(即,交易代號(hào));3)從信息源(即,HTML標(biāo) 記)得到的格式化信息的使用;4)答復(fù)的性質(zhì),包括文本、長文本、 列表、表格;5)可能的丟失信息或差錯(cuò);6)測量單位(即,英語或 尺度);以及7)來自用戶簡檔或呈現(xiàn)個(gè)性108的優(yōu)選術(shù)語。
本發(fā)明可為長文本串、表格、列表和其它大的結(jié)果集合提供專用 呈現(xiàn)能力。領(lǐng)域代理156可將專用的格式模板用于這樣的結(jié)果。系統(tǒng) 代理150可提供用于呈現(xiàn)的專用標(biāo)準(zhǔn)處理程序152和用于大的結(jié)果集 合的用戶命令。領(lǐng)域代理將其用于大的結(jié)果集合的呈現(xiàn)模板典型地包 括用于對(duì)結(jié)果進(jìn)行總結(jié)然后允許用戶更詳細(xì)地查詢結(jié)果的方法。例 如, 一開始僅呈現(xiàn)短的摘要,諸如標(biāo)題或關(guān)鍵數(shù)字。然后用戶可進(jìn)一 步查詢結(jié)果集合。標(biāo)準(zhǔn)處理程序?yàn)橛脩籼峁g覽大的結(jié)果集合的能 力。由標(biāo)準(zhǔn)處理程序提供的用于大的結(jié)果集合的命令包括停止、暫停、 跳過、倒退、開始和前進(jìn)。
可以以顯示格式最好地呈現(xiàn)諸如視頻、圖片和圖形的格式的一些 信息。領(lǐng)域代理156應(yīng)用在這些情況下合適的呈現(xiàn)模板,并通過非語 音接口 114呈現(xiàn)信息。系統(tǒng)代理150提供用于呈現(xiàn)的專用標(biāo)準(zhǔn)處理程 序152和用于顯示呈現(xiàn)和控制的用戶命令。
雖然已顯示和描述了本發(fā)明的特定實(shí)施例,但是將理解,其意圖 并不在于將本發(fā)明限于所公開的實(shí)施例,對(duì)本領(lǐng)域的技術(shù)人員顯而易 見的是,可在不脫離本發(fā)明的精神和范圍的情況下進(jìn)行各種改變和^f務(wù) 改。因而,本發(fā)明的意圖在于覆蓋可替換物、修改和等同物,可將這些可替換物、修改和等同物包括在如由權(quán)利要求所限定的本發(fā)明的精 神和范圍內(nèi)。
權(quán)利要求
1、一種用于處理語音和非語音交流的移動(dòng)裝置,包括識(shí)別模塊,識(shí)別與所述移動(dòng)裝置交流的用戶;匹配模塊,將識(shí)別的用戶與一個(gè)或多個(gè)簡檔匹配;轉(zhuǎn)錄模塊,對(duì)語音和非語音交流進(jìn)行轉(zhuǎn)錄以創(chuàng)建基于語音的文本消息和基于非語音的文本消息,其中,該轉(zhuǎn)錄模塊訪問所述一個(gè)或多個(gè)簡檔;合并模塊,合并所述基于語音的文本消息和所述基于非語音的文本消息以產(chǎn)生查詢;搜索模塊,在所述查詢中搜索文本組合;比較模塊,將所述文本組合與上下文描述語法中的條目進(jìn)行比較;與所述上下文描述語法相關(guān)聯(lián)的多個(gè)領(lǐng)域代理;評(píng)分模塊,基于來自比較模塊的結(jié)果提供相關(guān)性得分;領(lǐng)域代理選擇器,基于來自評(píng)分模塊的結(jié)果選擇領(lǐng)域代理;和答復(fù)產(chǎn)生模塊,與所選擇的領(lǐng)域代理通信以獲得由所選擇的領(lǐng)域代理收集的內(nèi)容,并從該內(nèi)容產(chǎn)生答復(fù),其中,基于來自評(píng)分模塊的結(jié)果按選定的順序布置所述內(nèi)容。
2、 根據(jù)權(quán)利要求l所述的移動(dòng)裝置,其中,所述答復(fù)產(chǎn)生模塊 產(chǎn)生包括由所選擇的領(lǐng)域代理收集的內(nèi)容的總答復(fù)。
3、 根據(jù)權(quán)利要求1所述的移動(dòng)裝置,其中,所述識(shí)別模塊支持 在同一會(huì)話期間訪問所述移動(dòng)裝置的多個(gè)用戶。
4、 根據(jù)權(quán)利要求3所述的移動(dòng)裝置,其中,所述會(huì)話可包括重 疊會(huì)話或交錯(cuò)會(huì)話。
5、 根據(jù)權(quán)利要求3所述的移動(dòng)裝置,其中,所述識(shí)別模塊基于 聲紋匹配或口令匹配來驗(yàn)證所述多個(gè)用戶的身份。
6、 根據(jù)權(quán)利要求4所述的移動(dòng)裝置,其中,在交錯(cuò)會(huì)話期間, 所述移動(dòng)裝置按接收的順序處理一個(gè)或多個(gè)查詢。
7、 根據(jù)權(quán)利要求l所述的移動(dòng)裝置,其中,在交錯(cuò)會(huì)話期間, 所述移動(dòng)裝置基于根據(jù)所述查詢的長度而確定的順序處理一個(gè)或多 個(gè)查詢。
8、 根據(jù)權(quán)利要求1所述的移動(dòng)裝置,其中,所述移動(dòng)裝置包括 (O個(gè)人數(shù)字助理、(ii)蜂窩電話、(iii)便攜式計(jì)算機(jī)、(W)桌面計(jì)算機(jī)或者(i)至(iv)的任何組合。
9、 根據(jù)權(quán)利要求1所述的移動(dòng)裝置,其中,所述移動(dòng)裝置接收 后續(xù)的語音和非語音交流,其中,所述轉(zhuǎn)錄模塊對(duì)后續(xù)的語音和非語 音交流進(jìn)行轉(zhuǎn)錄以創(chuàng)建后續(xù)的基于語音的文本消息和后續(xù)的基于非 語音的文本消息。
10、 根據(jù)權(quán)利要求9所述的移動(dòng)裝置,其中,所述合并模塊合并 所述后續(xù)的基于語音的文本消息和后續(xù)的基于非語音的文本消息以 產(chǎn)生后續(xù)查詢。
11、 根據(jù)權(quán)利要求1所述的移動(dòng)裝置,還包括有助于對(duì)答復(fù)進(jìn)行 格式化的個(gè)性模塊。
12、 根據(jù)權(quán)利要求l所述的移動(dòng)裝置,其中,所述移動(dòng)裝置被構(gòu) 造為與上下文堆棧通信,所述上下文堆棧包括基于所述查詢而選擇的 一個(gè)或多個(gè)上下文。
13、 根據(jù)權(quán)利要求12所述的移動(dòng)裝置,其中,所述評(píng)分模塊基 于至少將先驗(yàn)概率或模糊概率應(yīng)用于(i)關(guān)鍵詞匹配、(ii)用戶簡 檔、(iii)對(duì)話歷史或者(i)至(iii)的任何組合來確定所述一個(gè)或 多個(gè)上下文。
14、 根據(jù)權(quán)利要求l所述的移動(dòng)裝置,其中,至少一個(gè)所述領(lǐng)域 代理創(chuàng)建請(qǐng)求并將該請(qǐng)求發(fā)往本地信息源或網(wǎng)絡(luò)信息源。
15、 根據(jù)權(quán)利要求l所述的移動(dòng)裝置,其中,至少一個(gè)所述領(lǐng)域 代理創(chuàng)建命令并將該命令發(fā)往遠(yuǎn)程裝置或本地裝置。
16、 根據(jù)權(quán)利要求IO所述的移動(dòng)裝置,其中,所述后續(xù)查詢與 和所述查詢相同的上下文相關(guān)聯(lián)。
17、 根據(jù)權(quán)利要求l所迷的移動(dòng)裝置,其中,所述移動(dòng)裝置支持因特網(wǎng)瀏覽,并且其中,產(chǎn)生的查詢被用于進(jìn)行因特網(wǎng)瀏覽。
18、 根據(jù)權(quán)利要求l所述的移動(dòng)裝置,其中,所述移動(dòng)裝置支持 多模式通信。
19、 一種移動(dòng)裝置,包括 可由該移動(dòng)裝置訪問的對(duì)象;輸入裝置,接收與所述對(duì)象相對(duì)應(yīng)的語音和非語音注解; 轉(zhuǎn)錄模塊,對(duì)所述語音和非語音注解進(jìn)行轉(zhuǎn)錄以創(chuàng)建基于語音的 文本消息和基于非語音的文本消息;和關(guān)聯(lián)模塊,將所述對(duì)象與所述基于語音的文本消息和基于非語音 的文本消息相互關(guān)聯(lián)。
20、 根據(jù)權(quán)利要求19所述的移動(dòng)裝置,還包括 分類模塊,對(duì)所述基于語音的文本消息和基于非語音的文本消息進(jìn)行分類;和搜索模塊,基于搜索請(qǐng)求搜索所述基于語音的文本消息和基于非 語音的文本消息。
21、 根據(jù)權(quán)利要求19所述移動(dòng)裝置,其中,所述關(guān)聯(lián)模塊將所 迷對(duì)象與所述語音和非語音注解相關(guān)聯(lián)。
22、 根據(jù)權(quán)利要求21所述的移動(dòng)裝置,還包括 分類模塊,對(duì)所述語音和非語音注解進(jìn)行分類;和 搜索模塊,基于搜索請(qǐng)求搜索所述語音和非語音注解。
23、 根據(jù)權(quán)利要求19所述的移動(dòng)裝置,其中,所述對(duì)象包括數(shù)字介質(zhì)。
24、 根據(jù)權(quán)利要求23所述的移動(dòng)裝置,其中,所述對(duì)象包括數(shù) 字照片、日歷條目、電子郵件消息、即時(shí)消息、電話簿條目、語音郵 件條目或數(shù)字電影。
25、 根據(jù)權(quán)利要求19所述的移動(dòng)裝置,其中,所述關(guān)聯(lián)模塊將 所述對(duì)象與所述語音和非語音注解、基于語音的文本消息和基于非語 音的文本消息相關(guān)聯(lián)。
26、 根據(jù)權(quán)利要求25所述的移動(dòng)裝置,其中,可使用(O聲音命令、(ii)文本命令或者(i)和(ii)的組合來檢索所述對(duì)象,
27、 根據(jù)權(quán)利要求19所述的移動(dòng)裝置,其中,所述對(duì)象被存儲(chǔ) 在(i)所述移動(dòng)裝置中,被存儲(chǔ)在(ii)服務(wù)器處或者被存儲(chǔ)在(i) 和(ii)的組合中。
28、 根據(jù)權(quán)利要求19所述的移動(dòng)裝置,其中,所述對(duì)象包括元數(shù)據(jù)。
29、 根據(jù)權(quán)利要求28所述的移動(dòng)裝置,其中,所述元數(shù)據(jù)包括 全球定位系統(tǒng)信息、環(huán)境信息或地理信息。
30、 根據(jù)權(quán)利要求28所述的移動(dòng)裝置,還包括能夠?qū)崿F(xiàn)元數(shù)據(jù) 的搜索的元數(shù)據(jù)搜索模塊。
31、 一種系統(tǒng),包括多個(gè)支持多模式通信的移動(dòng)裝置,其中,兩個(gè)或更多個(gè)移動(dòng)裝置 與用戶相關(guān)聯(lián);和被耦合到所述多個(gè)移動(dòng)裝置的上下文模塊,其中,在與所述用戶 相關(guān)聯(lián)的所述兩個(gè)或更多個(gè)移動(dòng)裝置處維持相同的上下文。
32、 根據(jù)權(quán)利要求31所述的系統(tǒng),其中,所述多個(gè)移動(dòng)裝置包括識(shí)別模塊,識(shí)別與該移動(dòng)裝置交流的用戶; 匹配模塊,將識(shí)別的用戶與一個(gè)或多個(gè)簡檔匹配; 轉(zhuǎn)錄模塊,對(duì)語音和非語音交流進(jìn)行轉(zhuǎn)錄以創(chuàng)建基于語音的文本 消息和基于非語音的文本消息,其中,該轉(zhuǎn)錄模塊訪問所述一個(gè)或多個(gè)簡檔;合并模塊,合并所述基于語音的文本消息和所述基于非語音的文 本消息以產(chǎn)生查詢;搜索模塊,在所述查詢中搜索文本組合;比較模塊,將所述文本組合與上下文描述語法中的條目進(jìn)行比較;與上下文描述語法相關(guān)聯(lián)的多個(gè)領(lǐng)域代理; 評(píng)分模塊,基于來自比較模塊的結(jié)果提供相關(guān)性得分;領(lǐng)域代理選擇器,基于來自評(píng)分模塊的結(jié)果選擇領(lǐng)域代理;和 答復(fù)產(chǎn)生模塊,與所選擇的領(lǐng)域代理通信以獲得由所選擇的領(lǐng)域代理收集的內(nèi)容,并從該內(nèi)容產(chǎn)生答復(fù),其中,基于來自評(píng)分模塊的結(jié)果按選定的順序布置所述內(nèi)容。
33. 根據(jù)權(quán)利要求31所述的系統(tǒng),其中,所述上下文模塊被構(gòu) 造為將相同的信息廣播到兩個(gè)或更多個(gè)移動(dòng)裝置,并從這些移動(dòng)裝置 之一接收答復(fù)。
34.根據(jù)權(quán)利要求31所述的系統(tǒng),其中,所述上下文模塊廣播 第一類型的信息,接收第二類型的信息。
35. 根據(jù)權(quán)利要求34所述的系統(tǒng),其中,第一類型的信息和第 二類型的信息包括語音信息或非語音信息。
36. 根據(jù)權(quán)利要求35所述的系統(tǒng),其中,第一類型的信息包括 在閨形用戶接口上呈現(xiàn)的非語音信息,第二類型的信息包括應(yīng)用于搜 索網(wǎng)絡(luò)的語音信息。
37. 根據(jù)權(quán)利要求36所述的系統(tǒng),其中,第一類型的信息和第 二類型的信息對(duì)應(yīng)于相同的上下文。
38. 一種在多模式環(huán)境中處理語音和非語音交流的方法,包括 接收語音和非語音交流; 識(shí)別提供所述語音和非語音交流的用戶; 將識(shí)別的用戶與一個(gè)或多個(gè)簡檔匹配;對(duì)所述語音和非語音交流進(jìn)行轉(zhuǎn)錄以創(chuàng)建基于語音的文本消息 和基于非語音的文本消息,其中,該轉(zhuǎn)錄操作包括訪問所述一個(gè)或多個(gè)簡檔;合并所述基于語音的文本消息和基于非語音的文本消息以產(chǎn)生查詢;在所述查詢中搜索文本組合;將所述文本組合與上下文描述語法中的條目進(jìn)行比較;訪問與所述上下文描述語法相關(guān)聯(lián)的多個(gè)領(lǐng)域代理;基于來自將所述文本組合和上下文描述語法中的條目進(jìn)行比較的結(jié)果產(chǎn)生相關(guān)性得分;基于來自相關(guān)性得分的結(jié)果選擇一個(gè)或多個(gè)領(lǐng)域代理; 獲得由所選擇的領(lǐng)域代理收集的內(nèi)容;和從所述內(nèi)容產(chǎn)生答復(fù),其中,基于來自相關(guān)性得分的結(jié)果按選定 的順序布置所述內(nèi)容。
39、 根據(jù)權(quán)利要求38所述的方法,還包括產(chǎn)生包括由所選擇的 領(lǐng)域代理收集的內(nèi)容的總答復(fù)。
40、 根據(jù)權(quán)利要求38所述的方法,還包括 接收后續(xù)的語音和非語音交流;對(duì)所述后續(xù)的語音和非語音交流進(jìn)行轉(zhuǎn)錄以創(chuàng)建后續(xù)的基于語 音的文本消息和后續(xù)的基于非語音的文本消息;和合并所述后續(xù)的基于語音的文本消息和后續(xù)的基于非語音的文 本消息以產(chǎn)生后續(xù)查詢。
41、 根據(jù)權(quán)利要求38所述的方法,還包括將答復(fù)傳達(dá)給用戶的 個(gè)性模塊。
42、 根據(jù)權(quán)利要求38所述的方法,其中,所述系統(tǒng)在同一會(huì)話 期間支持多個(gè)用戶。
43、 根據(jù)權(quán)利要求42所述的方法,其中,所述會(huì)話可包括重疊 會(huì)話或交錯(cuò)會(huì)話。
44、 根據(jù)權(quán)利要求42所述的方法,其中,基于聲紋匹配或口令 匹配來識(shí)別所述多個(gè)用戶。
45、 根據(jù)權(quán)利要求43所述的方法,還包括按接收的順序處理一 個(gè)或多個(gè)查詢。
46、 根據(jù)權(quán)利要求43所述的方法,還包括基于根據(jù)所述查詢的 長度而確定的順序處理一個(gè)或多個(gè)查詢。
47、 根據(jù)權(quán)利要求38所述的方法,還包括產(chǎn)生上下文堆棧,所 述上下文堆棧包括基于所述查詢而選擇的一個(gè)或多個(gè)上下文。
48、 根據(jù)權(quán)利要求47所述的方法,其中,基于將先驗(yàn)概率或模 糊概率應(yīng)用于(i)關(guān)鍵詞匹配、(ii)用戶簡檔、(iii)對(duì)話歷史或者(i)至(iii)的任何組合來產(chǎn)生所述一個(gè)或多個(gè)上下文。
49、根據(jù)權(quán)利要求38所述的方法,還包括用產(chǎn)生的查詢進(jìn)行因 特網(wǎng)瀏覽。
全文摘要
提供一種包括用于遠(yuǎn)程信息處理應(yīng)用的基于語音的接口(136)和基于非語音的接口(114,155)的移動(dòng)系統(tǒng)。該移動(dòng)系統(tǒng)識(shí)別和使用上下文、先驗(yàn)信息、領(lǐng)域知識(shí)和用戶特定的簡檔數(shù)據(jù)為提交多個(gè)領(lǐng)域中的請(qǐng)求和/或命令的用戶實(shí)現(xiàn)自然環(huán)境(106,108,110,112)。本發(fā)明創(chuàng)建、存儲(chǔ)并使用關(guān)于每個(gè)用戶的詳盡的個(gè)人簡檔信息(110),從而改進(jìn)確定上下文和呈現(xiàn)特定問題或命令的預(yù)期結(jié)果的可靠性。本發(fā)明可將領(lǐng)域特定行為和信息組織到可通過廣域網(wǎng)分布和更新的代理(110)中。
文檔編號(hào)G10L15/26GK101292282SQ200680038560
公開日2008年10月22日 申請(qǐng)日期2006年8月29日 優(yōu)先權(quán)日2005年8月29日
發(fā)明者C·威德爾, L·E·阿姆斯特隆, M·肯尼威克, P·迪克里斯圖, R·A·肯尼威克, R·肯尼威克, S·米納克 申請(qǐng)人:沃伊斯博克斯科技公司