專利名稱:在集成語言導航服務環(huán)境中提供自然語言語音用戶界面的制作方法
技術領域:
本發(fā)明涉及一種自然語言語音用戶界面,該語音用戶界面能夠促進在集成語音導 航服務環(huán)境中的合作的、會話式交互,并且具體而言,本發(fā)明涉及一種其中用戶能夠使用會 話式、自然語言查詢或命令來請求導航服務的自然語言語音用戶界面。
背景技術:
隨著技術進步,消費電子產(chǎn)品在日常生活中有扮演越來越重要的角色的趨勢。從 而,用戶傾向于期望他們的電子設備(例如,現(xiàn)代移動電話、導航設備、個人數(shù)字助理、便攜 式媒體播放器、以及提供了核心應用以外的大量功能的其他設備)具有更大的功能性、可 移動性以及方便性。然而,更大的功能性通常傾向于伴隨有顯著的學習曲線和阻礙用戶充 分開發(fā)設備能力的其他障礙(例如,功能通常被隱藏在難以導航的菜單或界面之中)。此 外,盡管日益增加的對于移動性的需求放大了對于簡單的正在進行中(on-the-go)設備交 互機制的需要,但是現(xiàn)有的系統(tǒng)通常具有復雜的人機界面。例如,現(xiàn)有的人機界面傾向于主 要利用鍵盤、按鍵、點選式(point and click)技術、觸摸屏顯示器、或其他界面機制的各種 組合。然而,這些界面會通常不適合于移動設備或車輛設備(例如,導航設備),這是因為在 交互的速度和精力不集中的危險會引起重大問題的環(huán)境中,這些界面是不方便的。因而,現(xiàn) 有的系統(tǒng)通常達不到提供簡單并直觀的交互機制的目的,潛在地抑制了采用某些技術的巨 大市場。因而,對于以直觀方式開發(fā)技術的方法有日益增長的需求。為了解決這些和其他問題,各種現(xiàn)有的系統(tǒng)已經(jīng)轉(zhuǎn)向語音識別軟件以簡化人機交 互。例如,語音識別軟件可以使用戶能夠開發(fā)設備的那些另外可能是不熟悉的、未知的或者 難于使用的應用和特征。然而,當現(xiàn)有語音用戶界面實際工作時,它們還需要在用戶的這部 分上進行有效的學習。例如,現(xiàn)有的語音用戶界面(例如,命令和控制系統(tǒng))通常需要用戶 記住句法、詞匯、短語或其他關鍵字或限定詞以發(fā)出查詢或命令。類似地,當用戶可能不確 定所需要的確切內(nèi)容,或者設備能夠提供的內(nèi)容時,現(xiàn)有的系統(tǒng)不能以產(chǎn)生的、合作的、自 然語言對話的方式來應答用戶,以解析需求并推進會話。相反,很多現(xiàn)有的語言界面強迫用 戶使用預定的命令或關鍵字來以這些系統(tǒng)能夠理解的方式傳送請求。與之相反,對于人類 交互的認知研究表明,提問或給出命令的人通常在很大程度上依賴于上下文和解答人的共 有知識。類似地,解答人也傾向于依賴上下文和共有知識來告知什么會是合適的響應。然 而,現(xiàn)有的語音用戶界面沒有充分地利用上下文、共有知識或其他類似信息來提供這樣一 種環(huán)境,在這種環(huán)境中用戶和設備能夠合作,通過會話的、自然語言的交互來滿足互相之間 的目的。此外,在近些年中,對于全球定位系統(tǒng)和能夠?qū)Ш降脑O備的需求顯著地增長。導航 設備通常傾向于當用戶在駕駛、正在進行或者在具有無需用手的界面就能夠提供關鍵優(yōu)勢 的其他環(huán)境中時使用。例如,用戶會希望避免由于將視線離開公路而造成分心,用戶還會希 望與導航設備進行交互,例如,計算到目的地的路線、響應于交通狀況而重新計算路線、找 到本地的餐館、加油站或其他感興趣的地點、或者執(zhí)行其他的與導航相關的任務。在這些和其他情況中,有效地處理基于自然語言語音的輸入能夠使得用戶以更安全、更簡單和更有 效的方式與導航設備進行交互。然而,現(xiàn)有的系統(tǒng)通常不能夠提供能夠在導航和其他移動 環(huán)境中提供這些優(yōu)勢的集成的、會話式的、自然語言語音用戶界面?,F(xiàn)有的系統(tǒng)受到這些和其他的問題的影響。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的各個方面,與現(xiàn)有系統(tǒng)相關的各種問題都可以通過提供集成語音導 航服務環(huán)境的會話式的、自然語言語音用戶界面來解決。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面能夠解析與導航相關的語音請求 (例如,計算路線、識別位置、顯示地圖等)。導航應用能夠向用戶提供交互的、到目的地或 旅途基準點的數(shù)據(jù)驅(qū)動指示,其中用戶能夠使用自由形式的自然語言來指定目的地或旅途 基準點(例如,用戶能夠識別全部或部分目的地,包括具體地址、大概的附近區(qū)域、城市、地 點的名稱或類型、商業(yè)的名稱或類型、人的姓名等)。由于自由形式的語音目的地輸入會以 多種不同的形式來提供,所以可以對全部或部分語音目的地輸入執(zhí)行后處理,以識別合適 的目的地地址用于計算路線(例如,“有意義”的最近似的地址)。例如,對包含全部或部分 目的地的話語進行分析,以識別一個或多個可能的地址(例如,目的地的N最佳列表)???以對該N最佳列表進行后處理,來為可能的目的地分配權重或排序(例如,基于對應于所期 望的目的地的給出的可能目的地的確定程度)。因此,可以計算從用戶的當前位置到N最佳 列表中的可能目的地中的權重最高的一個目的地的路線。此外,當語音目的地條目包括局 部目的地時,會在一個或多個隨后的語言目的地條目之上逐次提煉最終目的地。導航應用 還可以提供到目的地的動態(tài)的、數(shù)據(jù)驅(qū)動的指示或路線。例如,導航應用可以訪問與各種用 戶指定以及環(huán)境數(shù)據(jù)源相關的數(shù)據(jù),以提供沿路線的個性化數(shù)據(jù)驅(qū)動指示,該路線可以基 于從數(shù)據(jù)源取得的信息重新計算或修改。因而,可以動態(tài)地獲取數(shù)據(jù)以識別可替換的路線、 重新計算路線或者另外提供路線服務。此外,可以根據(jù)當前路線過濾對于給定話語的可能 的答復或響應。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面會動態(tài)地產(chǎn)生和/或加載用于解 釋在話語中說了什么(例如,話語的內(nèi)容)的識別語法。在動態(tài)識別語法中包含的信息可 以為導航代理、自動語音識別器(Automatic Speech Recognizer)、上下文堆?;蛘Z音用戶 界面中使用語法信息的各種其他部件使用。基于各種因素,通過有效地產(chǎn)生、更新、加載、擴 展或另外構建動態(tài)語法能夠避免處理瓶頸、能夠減少沖突、并且能夠優(yōu)化使用識別語法解 釋話語的其他方面。例如,所產(chǎn)生的語法的大小會受系統(tǒng)中可用資源量的限制(例如,嵌入 式設備或具有少量動態(tài)存儲器的其他設備,受限制的語法大小會限制要占據(jù)的資源量)。在 另一個示例中,動態(tài)語法的大小可以通過消除在上下文堆棧、共有知識,或其他本地資源中 可用的冗余關鍵字、標準或其他信息來減少。因此,能夠通過減少語法中的復雜狀態(tài)來改進 正確解釋的有利程度(例如,當兩個或多個元素可能會被混淆時,會消除這些元素中的一 個或多個元素來減少混淆)。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以使用地理組塊 (geographical chunking)技術產(chǎn)生動態(tài)識別語法。可以在給定時刻確定用戶的位置,以 確定一個或多個地理近似(geographic proximity),該地理近似可用于為語法形成適當?shù)耐負溆?。例如,該拓撲域可以反映物理上的近?例如,距離當前位置的距離)、民間組織 (civil organization)上的近似(例如,區(qū)、州、城市、附近地區(qū)、分支、地區(qū)等)、時間上的 近似(例如,從當前位置起的行進時間量)、方向上的近似(例如,基于方向行進向量)、或 它們的各種組合。從而,通過將用戶的地理近似映射到一個或多個拓撲域,可以在存儲器中 或在存儲器之外剪除、擴展或交換或者另外產(chǎn)生和/或加載動態(tài)語法,以提供基于位置、時 間、行程或其他因素的最優(yōu)識別(例如,當用戶從一個區(qū)域移動到另一個區(qū)域時,可以在語 法中或語法之外交換信息,保證系統(tǒng)資源利用當前關于給定位置的信息)。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以包括由一個或多個拓撲域形 成的動態(tài)語法,拓撲域可以被細分為多個瓦區(qū)(tile),該瓦區(qū)還可以被細分為多個子瓦區(qū) (subtile)。因此,用于構建動態(tài)語法的信息可以按照各種方式細分或加權,以確定應當在 語法中包括什么信息。此外,可以將基于物理上的、民間組織上的、時間上的、方向上的或其 他近似的地理組塊擴展到能夠設置拓撲分類的其他域中。從而,除在導航或其他依賴位置 的系統(tǒng)中具有相關性之外,地理組塊技術能夠被應用在地理或位置可以是相關的其他上下 文或域中。此外,被操作地耦接到語音用戶界面的服務器可以分析各種形式的信息,以建立 或提煉語法信息的資源。例如,當各種設備與服務器通信時,信息被傳送到服務器可以用于 更新近似、拓撲域、瓦區(qū)、子瓦區(qū)、對等相似性(peer-to-peer affinity)或其他語法信息。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以計算路線、提供到目的地的 動態(tài)的數(shù)據(jù)驅(qū)動指示、提供到目的地的動態(tài)路線、執(zhí)行全部或部分目的地條目的后處理、或 另外提供各種語音導航服務。此外,可以使用對語音目的地條目進行逐次提煉的技術來識 別目的地和/或路線,其中,除其他以外,上下文、代理自適應(agent adaptation)和共有 知識都能夠幫助用戶使用語音命令、多模式命令或其各種組合來縮小最終目的地。然而,很 顯然,可以將該逐次提煉技術應用于能夠通過語音或多模式命令對概括估計進行逐次提煉 以縮小用戶所要尋找的信息,包括各種其他的域、上下文、應用、設備或采用在此說明的技 術的其他部件。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以通過逐漸地縮小最終目的地 來允許對最終目的地的進行逐次提煉。例如,逐次提煉目的地可以模仿人類交互的方式,在 人類交互方式中,可以通過交互的過程來縮小或提煉路線或目的地。例如,用戶可以大致近 似一個目的地,這可以導致沿著到該近似的目的地的優(yōu)選路線計算路線。當在到該近似的 目的地的途中時,用戶和語音用戶界面可以通過一個或多個隨后的交互來合作提煉最終目 的地。因此,用戶可以使用自由形式的自然語言(例如,包括語音命令和/或多模式命令) 提供全部或部分目的地輸入。對應于語音目的地輸入的一個或多個可能的目的地的解釋可 以以目的地的N最佳列表的方式進行組織??梢詫υ摽赡艿哪康牡氐牧斜磉M行后處理,以 向其中的一個或多個條目分配權重或排序,從而根據(jù)全部或部分語音目的地輸入確定最可 能感興趣的目的地。因此,后處理操作可以根據(jù)關于用戶的共有知識、域指定的知識、對話 歷史、或其他因素來對可能的目的地進行排序或加權。從而,可以分析全部或部分目的地輸 入以識別能夠計算到其路線的地址(例如,通過解析關于輸入的目的地的“有意義”的最近 似的地址)。隨后的輸入可以提供關于目的地的其他信息,并且可以反復地提煉加權的N最 佳列表,直到通過逐次提煉能夠識別最終目的地。從而,當已經(jīng)識別出了適當?shù)淖罱K目的地 時,就可以完成到該最終目的地的路線。
根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以包括一個或多個廣告模型, 用于產(chǎn)生和/或檢測與導航系統(tǒng)的位置依賴廣告有關的事件(例如,通過本地或遠程廣告 引擎或經(jīng)由數(shù)據(jù)信道或以其他方式產(chǎn)生)。例如,導航系統(tǒng)通常包括用于確定當前位置的各 種機制(例如,全球定位系統(tǒng)、射頻識別系統(tǒng)、基于到可識別的無線電天線塔或接入點的距 離計算位置的系統(tǒng)等)。從而,位置檢測系統(tǒng)可以在商人用來提供廣告所使用的數(shù)據(jù)信道上 檢測與射頻標識符有關的信息。商人可以經(jīng)由數(shù)據(jù)信息對廣告進行廣播,從當導航系統(tǒng)處 于RFID的適當附近區(qū)域之中時觸發(fā)事件。從而,可以根據(jù)當前路線信息或其他上下文參數(shù) 過濾與該事件有關的信息,以確定應當對其做何反應。在其他實例中,可以通過一個或多個 廣告合作者將廣告上載到服務器,其中上載的廣告可以與元數(shù)據(jù)或識別識別目標聽眾、位 置依賴信息、或其他標準的其他描述信息相關聯(lián)。在另一示例中,可以在語音用戶界面處本 地存儲多個廣告,并且推理引擎可以確定應當產(chǎn)生事件以向用戶傳送一個或多個廣告的適 當環(huán)境。從而,很顯然,廣告事件可以以多種方式產(chǎn)生,并且可以本地地、遠程地、通過檢測 RFID或以其他方式產(chǎn)生和/或檢測所述廣告事件。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以跟蹤用戶與所傳送的廣告的 交互。以此方式,可以產(chǎn)生基于相似性的模型,例如,以保證宣傳或廣告將被傳送給可能的 目標聽眾。從而,當關于用戶的行為、偏好或其他特征的共有知識與和關于廣告的對等相似 性相關聯(lián)的一個或多個標準匹配時,可以產(chǎn)生和/或檢測到與給定廣告相關的事件。在其 他示例中,廣告模型可以包括移動每次使用付費系統(tǒng)、對等本地指南或推薦、或其他形式的 廣告。另外,可以根據(jù)應用于各種拓撲域的映射產(chǎn)生各個方面的廣告模型(諸如本地指南 或推薦)。例如,一些類型的廣告可以依賴于地理或拓撲特征,并且這種廣告可以與基于地 理組塊的拓撲分類相關聯(lián)。從而,可以根據(jù)物理上的近似、時間上的近似、方向上的近似、民 間組織上的近似、或它們的各種組合來產(chǎn)生和/或檢測各種廣告事件。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以允許用戶使用自然語言向?qū)?航設備提出請求(例如,查詢、命令或其他請求)。因而,用戶和導航設備可以進行合作的、 會話式的對話方式接合,以解析該請求。例如,除其他事情以外,語音用戶界面可以使用現(xiàn) 有的上下文、對話歷史、域知識、關于用戶行為和偏好的短期和長期共有知識、噪聲容忍、和 認知模型,來提供集成的環(huán)境,在該環(huán)境中用戶能夠使用自然的語言會話地講話,來發(fā)出能 夠被機器理解并處理的查詢、命令或其他請求。從而,語音用戶界面可以理解自由形式的 人類話語,使用戶不再受關于如何表達命令、查詢或其他類型的請求的限制。替代地,用戶 能夠使用自然的或不經(jīng)意的講話方式在集成環(huán)境中請求各種語音服務,其中在該集成環(huán)境 中,可以使用自然語言以會話的方式控制各種設備。例如,語音用戶界面可以知道與導航設 備、媒體設備、個人計算機、個人數(shù)字助理、移動電話或在該環(huán)境中可用的各種其他計算設 備或系統(tǒng)有關的數(shù)據(jù)和服務。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以包括接收基于語音的輸入的 輸入機構,該基于語音的輸入至少包括用戶講的話語或語言表達。輸入機構可以包括能夠 接收基于語音的輸入的適當?shù)脑O備或設備組合(例如,定向麥克風、麥克風陣列、或?qū)φZ音 進行編碼的其他設備)。可以將輸入機構優(yōu)化為在用戶的方向中增益最大化、取消回波、零 點(null point)噪聲源、執(zhí)行可變速率的采樣、濾除背景談話或噪音、或者另外優(yōu)化編碼語 音的保真度。從而,輸入機構可以以容忍會干擾對語音進行解釋的噪音或其他因素的方式來產(chǎn)生編碼語音。此外,在各種實現(xiàn)中,輸入機構可以包括一個或多個其他(非語音的)輸 入模式,這些模式能夠被處理和/或與一個或多個以前的、當前的、或隨后的話語或其他基 于語音的輸入相關聯(lián)。從而,用戶能夠利用,例如,觸摸屏界面、尖筆/寫字板界面、小鍵盤 或鍵盤、或者其他輸入界面來提供其他形式的輸入以澄清話語,或使用其他的輸入模式來 提供關于話語的附加信息。例如,用戶可以將尖筆或其他指示設備觸摸到在觸摸屏界面上 顯示的地圖的一部分,同時還提供關于所觸摸部分的話語(例如,“向我顯示在這兒周圍的 餐館。”)。在此示例中,可以將輸入相互關聯(lián)來將“在這兒周圍”解釋為很可能是指所觸摸 的地圖部分,與用戶當前的位置不同或具有一些其他含義。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以包括自動語音識別器,其處 理編碼語音以產(chǎn)生一個或多個在話語中說了什么(例如,話語的內(nèi)容)的初步解釋。例如, 自動語音識別器可以基于動態(tài)自適應識別語法使用語音聽寫(phonetic dictation)來識 別音素流以產(chǎn)生初步的解釋。動態(tài)自適應識別語法可以基于字典或來自各種輸入域(例 如,針對語言、導航、音樂、電影、天氣、各種時間或地理近似的域、或者各種其他域)的短 語。因此,自動語音識別器可以產(chǎn)生話語的一個或多個解釋,該話語可以表示為一系列的音 素或音節(jié)??梢詫σ粋€或多個解釋(例如,利用人類語言的語言規(guī)則或模型)進行分析來產(chǎn) 生關于用戶說了什么的初步解釋的N最佳列表。然后,可以將初步解釋提供給會話語言處 理器,其利用共有知識、上下文信息、和各種其他信息源來產(chǎn)生關于實際含意、用戶的意圖、 或話語的其他方面的智能假定。通過使用模仿人與人的日常對話的各種特征和部件對該假 定進行明確地敘述,會話語言處理器可以產(chǎn)生關于話語的含意和意圖的假定,其可以通知 解析包含在話語中的一個或多個請求的處理器。根據(jù)本發(fā)明的各個方面,除其他以外,自然語言語音用戶界面可以包括上下文跟 蹤引擎,其針對給定的話語的創(chuàng)建含意。例如,上下文跟蹤引擎能夠管理在創(chuàng)建含意的一個 或多個特定上下文的域代理(例如,對于給定上下文、域、系統(tǒng)、或應用提供功能性的可重 新分配的、自適應引擎或模塊)之間的競爭。域代理可以對話語的初步解釋進行分析,以產(chǎn) 生特定域的可能解釋。例如,一個或多個代理可以包括自適應詞匯表、概念、可得到的任務、 或指定用于各域或上下文的其他形式的信息。另外,代理能夠使用語音搜索引擎來針對系 統(tǒng)中沒有的信息搜索網(wǎng)絡??梢詾榭赡艿慕忉尫峙浼訖嗯判蚧蚍謹?shù),這可用于選擇代理中 的“獲勝的”一個代理。因此,除其他代理外,可以將代理中的獲勝的一個代理指定為負責建 立或推理進一步的信息(例如,基于域或特定上下文的信息)、更新共有知識、或解析話語 中的請求。上下文跟蹤引擎還可以保持上下文堆棧以跟蹤對話主題、跟蹤以前調(diào)用的引擎、 評價標準、加權參數(shù)、或保持關于會話上下文的信息(例如,可以按照最近的上下文、經(jīng)常 使用的上下文、或在其中包括的其他信息來回移動上下文堆棧,以確定用戶最有可能的意 圖)。通過識別上下文,或相關聯(lián)地,通過識別容量、任務、詞匯表、或上下文中的其他信息, 上下文跟蹤引擎能夠提供除與話語有關的語音線索(例如,可以基于詞匯在給定上下文中 的含意、在對話中以前的使用情況等,消除具有多個可能含意的詞匯的歧義)之外的用于 建立意圖的相關信息。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以利用各種形式的信息來允許 共享關于給定話語、會話、或其他人機交互的假定和預期。例如,為了通知在語音用戶界面 中作出的決定,語音用戶界面可以包括信息源,該信息源包含關于用戶行為、偏好、或其他特征的短期和長期共有知識(例如,特定用戶、全球用戶、對等用戶等的短期和長期簡檔)。 短期共有的知識可以在當前的會話期間積累信息,來動態(tài)地建立語音用戶界面的狀態(tài)的認 識(例如,以前的話語的識別文本、跨模式的用戶界面操作歷史、以前選擇的任務或調(diào)用的 查詢的列表、或者其他信息)。短期知識的存儲會模仿人類交互,從而在心理地適當?shù)臅r間 量之后某些信息會過期(例如,擦除陳舊的數(shù)據(jù)),反之可以將具有長期意義的信息添加到 長期共有知識(例如,建立很可能隨著時間的過去而保持不變的數(shù)據(jù)的持久穩(wěn)固的認識)。 從而,長期共有知識會基于隨著時間積累的信息對各種特征、偏好、行為、或者關于用戶的 其他信息(例如,特定用戶的專用語、人口狀況、認知方式、經(jīng)常請求的任務、喜好的主題或 概念等)進行建檔或建模。從而,語音用戶界面可以利用各種形式的可經(jīng)由上下文跟蹤引 擎、域代理、語音搜索引擎、共有知識、內(nèi)部或外部數(shù)據(jù)庫、與其他設備關聯(lián)的數(shù)據(jù)、或其他 的知識源得到的信息。因此,能夠識別會話類型或與話語有關的目的?;诳傻玫降男畔?和會話的類型或目的,語音用戶界面會嘗試解析話語(例如,通過調(diào)用代理,該代理利用一 個或多個應用來執(zhí)行請求的任務、檢索請求的信息等)。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以產(chǎn)生對句法、語法、和上下文 敏感的跨模式(cross-modal)智能響應,其可以向系統(tǒng)產(chǎn)生的響應提供會話的感覺。當可 用時,所產(chǎn)生的智能響應可以提供所解析的請求的結果(例如,關于任務的反饋、所檢索到 的作為查詢結果的信息等)。此外,例如使用口頭和/或非口頭輸出(例如,信息可以在顯 示設備上、經(jīng)由聽得見的警報、語言表示的輸出、其他輸出機構、或它們的各種組合來呈現(xiàn)) 的結合,可以跨模式提供智能響應。此外,跨模式響應的語言表示部分(例如,通過改變音 調(diào)、速度、定時、或其他變量)可以適應于用戶的講話方式,從而建立具有自然變化和個性 的口頭響應。還可以明確地表達智能響應來提供輸出,該輸出將用戶引導向更可能被識別 的后續(xù)響應(例如,后續(xù)的話語)。例如,當因為不明確的上下文、不能識別的詞匯或短語、 或者會導致不明確的或不能識別的解釋的其他因素而不能解析話語時,能夠制定智能響應 消除上下文的歧義或從用戶請求另外的信息,以澄清話語的含意。此外,當后續(xù)信息表明給 定的解釋或假定不正確時,會重新解釋一個或多個以前的話語,來提煉上下文并更新短期 或長期會話模型(例如,“不,我的意思是……”這樣的話語可以表明對以前的話語解釋得 不正確,在此情況中,可以基于正確的解釋對各種以前的話語重新進行解釋,因此建立更精 確的會話上下文)。從而,通過自適應機制,語音用戶界面可以容忍全部或部分失敗。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以在基于代理的架構之內(nèi)提供 語音導航服務。該架構可以包括多個自適應代理(例如,專門的軟件、數(shù)據(jù)、內(nèi)容、或其他信 息,其在多個各自上下文域中提供功能、行為、服務、數(shù)據(jù)、和其他信息),其中至少一個代理 提供導航服務(例如,路線計算、地圖控制、位置敏感信息、數(shù)據(jù)驅(qū)動指示等)。當代理處理 請求時,該代理可以自治地進行反應、自適應、和重新配置,以在各自域中提供最佳的語音 服務。例如,通過隨著時間建立上下文(例如,通過產(chǎn)生短期和長期的用戶簡檔、與用戶的 會話、頻繁的主題或偏好等),代理會自動地結合知識、自適應偏好、移除沖突、或執(zhí)行其他 自適應來提煉或優(yōu)化其操作結構。響應于解析基于語音請求的各種代理,例如,代理(至少 包括導航代理)的自適應可以跨越多個代理而發(fā)生。從而,自適應可以作為提供語音服務、 產(chǎn)生推理、識別相似性(例如,在用戶、對等人、團體等之間)、從外部源接收更新(例如,使 用更新管理器)、或其他方式的代理的副產(chǎn)品會自治地發(fā)生將是顯而易見的。
根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以包括用于提供語音導航服務 的基于代理的架構。例如,該基于代理的架構可以包括一個或多個域或上下文指定的代理, 其中至少包括導航代理。除其他以外,導航代理可以包括各種導航指定內(nèi)容分組(例如,字 典、可用查詢、任務、命令、動態(tài)語法等)、響應列表(例如,對命令、查詢、或其他請求的適當 響應)、個性簡檔(例如,用于為系統(tǒng)產(chǎn)生的語音建立自然的感覺)、置換列表(例如,將數(shù) 據(jù)置換或轉(zhuǎn)換成能夠被目標信息源理解的結構形式)、或各種其他形式的導航指定信息。此 外,導航代理還可以與指向本地或遠程數(shù)據(jù)源的指示器、與該架構中其他服務相關聯(lián)提供 的參數(shù)和操作數(shù)據(jù)、或者各種其他形式的信息進行關聯(lián)。例如,導航代理使用的數(shù)據(jù)源可以 包括與導航相關的數(shù)據(jù)、感興趣的地點、交通、事件、停車、個人數(shù)據(jù)、對等相似性、或各種其 他信息源。此外,可以通過自適應、各種模型的分析、與數(shù)據(jù)服務的通信、或其他方式來組裝 (populate)、擴展、剪除、或構造數(shù)據(jù)源將將是顯而易見的。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以包括導航代理,其可以與各 種信息源耦接,并且可以利用上下文、與各種其他自適應代理以及其他系統(tǒng)部件進行通信 來提供應用導航服務。例如,導航代理可以使用與導航域有關的上下文信息,包括跟蹤的主 題、用戶位置、行進路線、之前請求、用戶界面狀態(tài)、用戶行為、偏好、人口統(tǒng)計狀況、或其他 特征、或者各種其他類型的上下文信息。從而,導航代理可以具有各種知識源和對解析語音 導航請求可用的資源。例如,導航代理可以使用可用的知識和資源應用各種規(guī)則、策略、或 其他推理技術來產(chǎn)生推理(例如,使用推理引擎),以產(chǎn)生話語的解釋(例如,語音失真匹 配、歸納邏輯、貝葉斯概率分析、單調(diào)或非單調(diào)推理等)。從而,導航代理能夠推理在話語中 沒有明確提供的關鍵詞或標準、確定對于主觀的或不確定的話語的適當響應、產(chǎn)生事件、識 別對等相似性、或者產(chǎn)生對解析與導航相關請求的推理。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以包括一個或多個推理引擎, 其能夠通過以前的上下文的認識、短期或長期共有知識、命令歷史、車輛系統(tǒng)的狀態(tài)、用戶 界面狀態(tài)、和各種其他數(shù)據(jù)源產(chǎn)生各種推理。在各種實現(xiàn)中,一個或多個代理可以與各自 的推理引擎相關聯(lián),所述推理引擎能夠使用域指定知識、規(guī)則、策略、或其他標準產(chǎn)生推理。 例如,推理引擎可以識別話語中沒有的關鍵詞或標準、推理意圖的含意、自治地建議可用任 務、或輔助相關聯(lián)的代理來識別在話語中包含的查詢、命令、或其他請求。另外,當使用與導 航代理相關的信息源或通過產(chǎn)生推理不能夠適當?shù)亟馕鲂畔r,可以從一個或多個其他代 理、其他設備、網(wǎng)絡信息源(例如,經(jīng)由語音搜索引擎)、或以其他方式來請求該信息將是顯 而易見的。一旦通過一個或多個其他源識別了該信息,請求代理會適合于使得該信息隨后 可用。因此,架構中的不同設備、應用、系統(tǒng)、和其他部件可以合作地共享可用信息和服務 (例如,上下文、對話歷史、共有知識、地圖、感興趣的地點、聯(lián)系人列表、用戶或?qū)Φ认嗨菩浴?動態(tài)語法、可用應用、命令歷史等)。從而,該架構可以提供集成語音導航服務環(huán)境,在該環(huán) 境中用戶能夠講出關于各種可用上下文、域、應用、設備、信息源、或它們的各種組合的自然 語曰請求。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以接受基于自然語言語音的輸 入來控制除與語音用戶界面在其中進行操作的環(huán)境所關聯(lián)的各種其他設備外的能夠提供 導航信息的電子設備。此外,該語音用戶界面的各種功能方面可以存在于客戶設備、服務 器、或它們的各種組合中。
根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以支持多模式語音輸入。因此, 除一個或多個非語音輸入部分(例如,經(jīng)由小鍵盤、觸摸屏、尖筆/書寫板組合、鼠標、鍵盤、 或其他輸入模式提供的輸入)外,給定的多模式語音輸入至少還可以包括語音部分(例如, 話語)。從而,非語音輸入部分能夠提供附加信息或關于話語的澄清,添加到處理語音時的 可用輸入信息量。例如,用戶可以使用其他輸入模式來澄清話語的含意、提供關于話語的附 加信息、減少做出給定請求所需的設備交互數(shù)量、或者提供關于給定話語的附加信息。根據(jù)本發(fā)明的各個方面,自然語言語音用戶界面可以利用各種認知模型、上下文 模型、用戶指定模型、或其他模型來識別語音輸入中的查詢、命令、或其他請求。例如,給定 的輸入可以包括關于一個或多個上下文域的信息,域中的一個或多個可以被調(diào)用來解釋和 /或推理包含在輸入中的關鍵詞、概念、或其他信息。另外,可以在還考慮了語義分析和上下 文推理的混合識別模型中使用關于用戶行為和偏好的短期和長期共有知識。例如,某些音 節(jié)、詞匯、短語、請求、查詢、命令、或其他信息會更有可能在給定的上下文中發(fā)生。因此,混 合識別模型會分析語義模式來解析話語所說的內(nèi)容,并且會進一步依賴上下文歷史或其他 信息來解析話語意味著什么?;旌献R別模型可以與對等識別模型聯(lián)合使用或單獨使用。例 如,識別模型可以包括對全球使用方式、偏好、或者同等用戶的其他特征的認識,其中同等 用戶會在上下文中采用某些關鍵字、概念、查詢、命令、或上下文結構的其他方面?;谙铝懈綀D和詳細說明,本發(fā)明的其他目的和優(yōu)點將得以呈現(xiàn)。
圖1示出了根據(jù)本發(fā)明各個方面的用于提供具有會話式的自然語言語音用戶界 面的導航設備的示例性系統(tǒng)的框圖。圖2示出了根據(jù)本發(fā)明各個方面的用于提供具有會話式的自然語言語音用戶界 面的導航設備的示例性的基于代理的架構的框圖。圖3示出了根據(jù)本發(fā)明各個方面的用于動態(tài)產(chǎn)生用于具有會話式的自然語言語 音用戶界面的導航設備的識別語法的示例性方法的流程圖。圖4示出了根據(jù)本發(fā)明各個方面的用于處理提供到具有會話式的自然語言語音 用戶界面的導航設備的多模式基于語音的輸入的示例性方法的流程圖。圖5示出了根據(jù)本發(fā)明各個方面的用于根據(jù)提供到具有會話式的自然語言語音 用戶界面的導航設備的基于語音的輸入來計算路線的示例性方法的流程圖。圖6示出了根據(jù)本發(fā)明各個方面的用于根據(jù)當前的導航路線提供語音服務的示 例性方法的流程圖。
具體實施例方式根據(jù)本發(fā)明的各個方面,圖1示出了用于提供具有會話式的自然語言語音用戶界 面的導航設備的示例性系統(tǒng)100的框圖。如圖1所示,該系統(tǒng)100可以允許用戶與能夠進 行語音導航的設備采用自然語言的、合作的、會話式對話進行接合(engage)。例如,系統(tǒng) 100可以理解自由形式的人類話語,使用戶不再受應該如何表達命令、查詢或其他類型請求 的限制。替代地,除各種其他語音服務(例如,與電信息業(yè)務、通訊、媒體、消息、外部系統(tǒng)、 市場、信息檢索、或各種其他計算服務有關的服務)之外,用戶可以使用隨意或自然的講話方式來請求各種語音導航服務。從而,用戶可以使用系統(tǒng)100以使用自然語言的對話方式 來控制導航設備、媒體設備、個人計算機、個人數(shù)字助理、無線電話、或者其他計算設備或系 統(tǒng)。除其他以外,通過使用上下文、現(xiàn)有的信息、域知識、短期或長期共有知識、噪聲容忍、 和認知模型,系統(tǒng)100可以提供集成環(huán)境,在該環(huán)境中用戶可以使用自然的語言以對話方 式講話來發(fā)出能過被機器理解并處理的查詢、命令或其他請求。例如,在各種實現(xiàn)中,系統(tǒng) 100可以利用如于2003年6月3日提交的題為“Systems and Methods for Responding to Natural Language Speech Utterance” 的同時待審的美國專利申請 10/452,147 和于 2003 ^ 6 ^ 15 Hil^WH^J"Mobile System and Methods for Responding to Natural Language Speech Utterance”的同時待審的美國專利申請10/618,633中所說明的一種或 多種技術,因此通過引用將其全部內(nèi)容并入本文。根據(jù)本發(fā)明的各個方面,系統(tǒng)100可以包括輸入機構105,其接收基于語音的輸 入,該基于語音的輸入至少包括用戶講的一句話語或語言表達。輸入機構105可以包括用 于接收基于語音的輸入的適當?shù)脑O備或這些設備的組合(例如,定向麥克風、麥克風陣列 或?qū)φZ音進行編碼的其他設備)。在各種實現(xiàn)中,例如,可以通過最大化用戶方向中的增益、 取消回波、零點(null point)噪聲源、執(zhí)行各種速率的采樣、對背景談話或環(huán)境噪音進行過 濾、或者執(zhí)行用于最大化編碼語音的保真度的各種其他技術來優(yōu)化輸入機構105,以接收基 于語音的輸入。從而,由輸入機構105產(chǎn)生的編碼語音可以高度地容忍可能干擾解釋人的 講話的噪聲或者其他因素。此外,在各種實現(xiàn)中,輸入機構105可以被耦接到其他輸入模式,其中除語音外的 各種形式的輸入都可以被處理和/或與一個或多個以前的、當前的、或隨后的基于語音的 輸入相關聯(lián)。例如,輸入機構105可以被耦接到觸摸屏界面、尖筆/書寫板界面、小鍵盤或 鍵盤、或者其他設備或系統(tǒng)界面將是顯而易見的。從而,可以最大化對于系統(tǒng)100處理語音 潛在可用的輸入信息量,這是因為用戶可以使用其他輸入模式來澄清話語或提供關于話語 的附加信息。例如,用戶可以將尖筆或其他指示設備觸摸到在觸摸屏界面上顯示的地圖的 一部分,同時還提供關于所觸摸部分的話語(例如,“向我顯示在這兒周圍的餐館。”)。在 此示例中,系統(tǒng)100可以將輸入相互關聯(lián),以將“在這兒周圍”解釋為很可能是指所觸摸的 地圖部分,以和用戶當前的位置或其他含義進行區(qū)分。系統(tǒng)100還可以包括自動語音識別器110,其接收編碼語音輸入并產(chǎn)生其一個或 多個初步解釋。例如,自動語音識別器110可以使用語音聽寫來識別基于語音的輸入,以基 于動態(tài)自適應識別語法來識別音素流。從而,自動語音識別器110可以提供詞匯表之外的 能力,其可以容忍用戶的錯誤講話、講話信號的一部分被減弱、或會干擾對話語進行解釋的 其他因素。動態(tài)自適應識別語法可以基于字典或來自各種輸入域(例如,不同語言、導航、 音樂、電影、天氣、各種時間或地理近似的域、或者各種其他域)的短語。此外,可以通過剪 除與識別語法相關的搜索空間(例如,語法可以包括諸如SChwa的鏈接元素,來表示經(jīng)常被 講的無重音的中央元音,甚至不需用戶有意識的認識)來改進自動語音識別器110的性能。 因此,使用這些和其他技術,自動語音識別器110可以分析輸入的編碼話語,以將話語的各 部分表示為一系列的音素或音節(jié),除其他子種類以外,這些音素或音節(jié)可以被進一步分解 為開始、中心、和結尾的核心部分。然后可以分析該一系列的音素或音節(jié),以識別關于用戶 說了什么的多個初步解釋或最佳猜測(例如,N最佳列表)。然而,很顯然,自動語音識別器110可以使用各種技術來產(chǎn)生編碼話語的初步解釋,這些技術包括,例如,于2006年8月31 日提交的題為“Dynamic Speech Sharpening”的同時待審的美國專利申請第11/513, 269 號中所說明的技術,通過引用將其全部內(nèi)容并入本文。可以將由自動語音識別器110產(chǎn)生的多個初步解釋提供給會話語言處理器120, 其利用共有知識產(chǎn)生真實含意、用戶意圖、或基于語音的輸入的其他方面的智能假定。會話 語言處理器120可以使用共同地操作以模仿人與人的日常對話的各種特征和部件對該假 定進行明確地表達。例如,會話語言處理器120可以包括上下文跟蹤引擎140,除其他以外,上下文跟 蹤引擎140建立針對給定的話語的含意,管理在一個或多個上下文指定域代理125 (例如, 為給定上下文、域、系統(tǒng)、或應用提供功能性的可重新分配的、可自適應的分組或模塊)中 的競爭。例如,自動語音識別器110可以對初步解釋進行排序,代理125可以進一步分析初 步解釋,以產(chǎn)加權的排序或得分,排序或得分可用于選擇代理125中的“獲勝的”一個代理。 然后,代理125中的獲勝的一個代理可以負責建立或推理進一步的信息、更新共有知識、或 者執(zhí)行其他任務來輔助產(chǎn)生智能的假定。此外,上下文跟蹤引擎140可以使用上下文堆棧 來跟蹤會話主題、評價標準、加權參數(shù)、或者保持用于基于會話的上下文產(chǎn)生假定的上下文 信息(例如,可以按照最近的上下文、經(jīng)常使用的上下文、或在其中包括的其他信息來回移 動上下文堆棧,以確定用戶最有可能的意圖)。通過識別上下文,或相關地,通過識別容量、 任務、詞匯表、或上下文中的其他信息,除了不足的語音線索之外,上下文跟蹤引擎140還 可以提供用于建立意圖的高度相關信息。此外,會話式語言處理器120可以利用各種其他形式的知識來通知智能假定的產(chǎn) 生。例如,各種代理125可以自適應地包括域指定或上下文指定的詞匯表、概念、可用任務、 或與各域或上下文相關的其他形式的信息。另外,與會話式語言處理器120關聯(lián)的各種部 件能夠調(diào)用語音搜索引擎135(例如,針對信息搜索網(wǎng)絡的引擎)來解析不是內(nèi)部可得到的 信息(例如,當外部知識源會有助于澄清話語的特定詞匯、命令、查詢對象、或其他方面背 后的意圖時)。系統(tǒng)100還可以使用戶和該系統(tǒng)100共享關于給定話語、會話、或其他交互的假定 和預期。例如,會話語言處理器120可以耦接到存儲短期和長期共有知識的一個或多個數(shù) 據(jù)存儲庫160,這些共有知識用于通知在會話語言處理器120中作出的決定。短期共有知 識可以在當前會話期間積累信息(例如,以前話語的識別文本、跨模式用戶界面操作歷史、 以前選擇的任務或調(diào)用查詢的列表、或者其他信息),從而動態(tài)地建立語音用戶界面的跨模 式狀態(tài)的認識。短期知識的存儲可以模仿人類交互,從而某些數(shù)據(jù)會在心理適當時間量之 后過期(例如,擦出陳舊的數(shù)據(jù)),而可以將具有長期意義的信息添加到長期共有知識(例 如,用戶的長期聯(lián)系人的新地址)。從而,長期共有知識可以基于隨著時間積累的信息對用 戶的環(huán)境的、認知的、歷史的、人口的、或其他方面建檔或建模(例如,用戶指定的專用語、 經(jīng)常請求的任務、感興趣的主題或概念等)。從而,會話語言處理器120包括可用于針對用戶在給定話語中的意圖來產(chǎn)生智能 假定的各種特征。例如,假定可以基于經(jīng)由上下文跟蹤引擎140、代理125、語音搜索引擎 135、共有知識、或其他的知識源提供的信息。從而,會話式語言處理器120嘗試識別會話類 型或話語目的(例如,用于檢索離散信息片段的查詢、用于澄清由語音用戶界面提供的信息的教導式交互、或者隨著會話過程可以在其中臨時提供會話目的的探索交互等)。基于可 用的信息和會話的類型或目的,可以為所產(chǎn)生的假定指定某一等級,其可以通知會話語言 處理器120要如何解析話語。例如,當某一等級表明已經(jīng)識別了足夠的信息時,會話式語言 處理器可以調(diào)用一個或多個代理125,代理125然后可以進一步利用一個或多個應用150來 執(zhí)行所請求的任務(例如,關于導航應用、廣告應用、音樂應用、電子交易應用的任務、或者 其他適當?shù)膽没蛉蝿?。在另一個示例中,一個或多個代理125可以查詢數(shù)據(jù)存儲庫160 或語音搜索引擎135去檢索所請求的信息,或另外采取動作解析包含在話語中的信息的請 求。另外,會話語言處理器120可以產(chǎn)生跨模式的智能響應,該智能響應可以對句法、 語法、和上下文敏感,從而為系統(tǒng)產(chǎn)生的響應提供會話的感覺。當可用時,智能響應可以向 用戶呈現(xiàn)所執(zhí)行的任務或所執(zhí)行的查詢的結果,并且可以跨越各個模式提供該響應。例如, 可以分離地或共同地使用口頭和/或非口頭輸出180(例如,通過使用顯示設備、聽得見的 警報、語言話輸出、另外的輸出機構、或它們的各種組合來呈現(xiàn)信息)。此外,跨模式輸出 180的語言部分(例如,通過改變音調(diào)、速度、定時、或其他變量)可以適應于用戶的講話方 式,從而建立具有自然變化和個性的口頭響應。還可以明確地表達智能響應以提供輸出180,該輸出180引導用戶朝向?qū)ψR別可 能更有利的隨后的響應。例如,當特定的級別反映出不明確的上下文時(例如,當競爭導致 各個代理125之間的死鎖時),自適應的錯誤識別引擎130可以將該話語識別為不明確的或 未被識別的,可以制定智能響應消除上下文的歧義,或請求來自用戶的隨后請求澄清話語 的含意。此外,當會話語言處理器120或錯誤識別引擎130確定給定的解釋或假定不正確 時,會重新解釋一個或多個以前的話語,來提煉上下文并建立更精確的短期或長期會話模 型(例如,“不,我的意思是……”這樣的話語可以表明對以前的話語解釋得不正確,在此情 況中,可以基于正確的解釋對各種以前的話語重新進行解釋,從而建立更精確的會話上下 文)。從而,會話語言處理器120可以恢復全部或部分失敗??梢园ㄓ糜谧赃m應地響應 于錯誤識別或不明確的其它技術,諸如那些于2005年8月10日提交的題為“System and Method of Supporting Adaptive Misrecognition in Conversational Speech,,的同時待 審的美國專利申請第11/200,164號中所說明的技術,通過引用將其全部內(nèi)容并入本文。關于在此說明的各種技術的附加信息,以及系統(tǒng)100用于提供會話式的、自然 語言的交互的其他技術會被提供在,例如,于2005年8月5日提交的題為“Systems and Methods for Responding to Natural Language Speech Utterance,,的同時待審的美國專 利申請第11/197,504號、于2005年8月29日提交的題為“Mobile Systems and Methods of Supporting Natural Language Human-Machine Interactions,,的同時待審的美國專 利申請第11/212,693號、以及于2006年10月16日提交的題為“System and Method for a Cooperative Conversational Voice User Interface,,的同時待審的美國專禾丨J申請第 11/580,926號中,因此通過引用將其全部內(nèi)容并入本文。因此,系統(tǒng)100可以提供在用戶和該系統(tǒng)100之間能夠進行會話式的自然語言的 交互環(huán)境。此外,如將在下面更詳細說明的那樣,可以將系統(tǒng)100實現(xiàn)為會話式的自然語言 的交互,作為到一個或多個電子設備或應用(包括導航設備)的語音用戶界面。通過在此 提供的進一步說明將還顯而易見的是,該系統(tǒng)100具有跨設備和跨模式認知的能力,從而系統(tǒng)100提供一種環(huán)境,用戶能夠在其中采用合作的、自然語言的對話的方式進行接合,來 請求關于多種不同設備或應用的語音服務。根據(jù)本發(fā)明的各個方面,圖2示出了示例性基于代理的架構200的框圖,該架構 200能夠為導航設備提供會話式的、自然語言語音用戶界面。架構200可以包括多個代理 225a-n,其包括專門的軟件、數(shù)據(jù)、內(nèi)容、或其他信息,這些信息在多個各自上下文域中提供 功能、行為、服務、數(shù)據(jù)、和其他信息。架構200可以是集成的并且動態(tài)自適應的環(huán)境,代理 225在其中自治地進行反應、自適應、并重新配置,以便該環(huán)境中提供最佳的服務。例如,通 過建立隨著時間變化的上下文(例如,通過產(chǎn)生短期和長期的用戶簡檔、與用戶的會話、經(jīng) 常的主題或偏好等),導航代理225a會自動地結合知識、自適應偏好、去除沖突、或執(zhí)行其 他適應來提煉或優(yōu)化其操作結構。例如,至少包括導航代理225a的代理225可以通過正在使用的關于用戶行為、偏 好、或其他特征的短期共有知識270和長期共有知識275來進行自適應。此外,例如,響應 于解析基于語音的請求的各代理(例如,通過調(diào)用一個或多個應用250、查詢一個或多個數(shù) 據(jù)源260、與一個或多個其他代理225合作、或通過錯誤識別引擎230、語音搜索引擎235、上 下文跟蹤引擎24等進行學習),可以跨越多個代理225進行代理自適應。在各種實現(xiàn)中,自 適應可以自治進行作為代理225提供語音服務、產(chǎn)生推理、識別相似性(例如,在用戶、同等 人、團體等之間等)、從外部源接收更新(例如,更新管理器能夠為一個或多個代理25更新 內(nèi)容、行為、數(shù)據(jù)、命令、域知識、關鍵詞、概念、字典、或其他信息)的副產(chǎn)品,或自適應可以 以其他方式進行都是顯而易見的。如圖2所示,架構200至少利用導航代理225a向?qū)Ш皆O備提供會話式的、自然語 言語音用戶界面。除其他以外,導航代理225a可以包括各種導航指定的內(nèi)容分組(例如, 字典、可用查詢、任務、命令、動態(tài)語法等)、響應列表(例如,對命令、查詢、或其他請求的適 當?shù)捻憫?、個性簡檔(例如,用于為系統(tǒng)產(chǎn)生的語音建立自然的感覺)、置換列表(例如, 將數(shù)據(jù)置換或轉(zhuǎn)換成能夠被目標信息源理解的結構形式)、或各種其他形式的導航指定的 信息。此外,除各種其他形式的信息外,導航代理225a還可以與架構200中其他服務(例 如,可用設備、應用250、代理225等)提供的參數(shù)和操作數(shù)據(jù)、本地或遠程數(shù)據(jù)源的指示器 (例如,短期共有知識270、長期共有知識275、數(shù)據(jù)源260、語音搜索引擎235等)進行關聯(lián)。除其他以外,由導航代理225a使用的數(shù)據(jù)源260可以包括與導航相關的數(shù)據(jù)(例 如,地圖、地址、街道名稱、通訊錄、可替換的路線等)、感興趣的地點(例如,餐館、旅館、博 物館、游覽勝地、加油站等)、交通(例如,動態(tài)道路狀況、交通、便道、或與交通相關的其他 信息)、事件(例如,體育事件、音樂會、抗議等)、停車(例如,停車場、限制的區(qū)域或時間、 街道地段(street lot)、路邊停車等)、個人數(shù)據(jù)(例如,與用戶的聯(lián)系人列表相關聯(lián)的電 話號碼和地址)、對等相似性(例如,基于具有相似的偏好、人口統(tǒng)計的簡檔、或其他特征的 用戶的相似性的推薦)。此外,可以通過諸如基于一個或多個模型提供數(shù)據(jù)源260、經(jīng)由數(shù) 據(jù)服務器接收數(shù)據(jù)源260、通過自適應、或其他方式來擴展或提煉數(shù)據(jù)源260將是顯而易見 的。此外,除其他以外,可以經(jīng)由上下文跟蹤引擎240、短期共有知識270、和長期共有 知識275維護關于導航域的上下文信息。例如,除其他類型的上下文信息以外,上下文信息 可以涉及跟蹤的主題、用戶位置、行進的路線、以前的請求、用戶界面狀態(tài)、用戶行為、偏好、人口統(tǒng)計、或其他特征。例如,可以使用如上參考圖1、或如上參考的同時待審的美國專利 申請、或者其各種結合進行更詳細說明的技術建立并利用上下文。此外,當導航代理225a 不能在架構200以內(nèi)找到本地的信息,并且不能推理該信息時,則可以從一個或多個其他 代理225b-n(例如,請求特定域的信息)、其他設備、語音搜索引擎235(例如,搜索網(wǎng)絡)、 外部源(例如,可以調(diào)用更新管理器來下載可能會具有該信息的可用更新)、或其他源請求 該信息將是顯而易見的。如果能夠通過一個或多個其他源定位該信息,則可以對導航代理 225a進行自適應、擴展、或更新,以使得該信息隨后可得到。因此,當導航代理225a與各種其他自適應代理225b_n或其他系統(tǒng)部件進行通信 以提供語音導航服務時,導航代理225a可以與該信息的不同源進行耦接,并且可以使用上 下文。因此,上下文、共有知識、地圖、感興趣的位置、聯(lián)系人列表、用戶或?qū)Φ认嗨菩?、動態(tài) 語法、可用應用、或?qū)Ш郊軜?00的各種其他方面能夠為該架構200的各種部件、設備、或方 面共享或為其所用。從而,包括在導航代理255a中的推理引擎255可以耦接各種知識源和 可用于提供集成語音導航服務環(huán)境的其他源。例如,推理引擎255可以通過應用一個或多 個規(guī)則、策略、或其他推理機制來從可用的知識和資源產(chǎn)生推理,以產(chǎn)生所述環(huán)境中的話語 的可能解釋(例如,語音失真匹配、歸納邏輯、貝葉斯概率分析、單調(diào)或非單調(diào)推理等)。例如,如上更詳細的說明,導航代理225a和一個或多個其他代理225b_n可以在分 析話語的一個或多個初步解釋中進行競爭,以產(chǎn)生話語的一個或多個各自可能解釋。然后, 一旦被識別為競爭代理中的“獲勝的” 一個代理,導航代理225a就可以被調(diào)用來處理該可 能的解釋(例如,通過解析包含在話語中的信息)。例如,競爭代理中的哪個獲勝會取決于 上下文或包含在話語中的其他信息,從而響應于話語“這個交通太糟糕了,試試支路”,導航 代理225a獲勝并重新計算路線,而響應于話語“交通太糟糕了,試試來些老歌吧”,音樂代 理會獲勝并改變無線電頻道,而響應于話語“交通很糟糕,試試喜劇吧”,電影代理會獲勝并 搜索電影放映時間。因此,當導航代理225a產(chǎn)生導致成為代理225中獲勝的一個代理的可 能解釋時,導航代理225a可以管理用于搜索、推理、或根據(jù)上下文來識別信息的處理,來使 用一個或多個應用250(例如,導航、語法產(chǎn)生、位置確定、響應產(chǎn)生、廣告、設備控制、或在 架構200中可用的其他應用)提供語音導航服務。例如,導航代理225a可以利用推理引擎255來推理沒有在話語中明確提供的關鍵 詞或標準、確定對于主觀的或不確定的話語的適當響應(例如,選擇對于查詢最可能的回 答、向用戶請求更多信息等)、產(chǎn)生事件、識別對等相似性、或者產(chǎn)生用于解析與導航相關的 請求的推理。推理引擎255能夠通過以前的上下文的認識(例如,通過有上下文跟蹤引擎 240提供的信息)、短期或長期共有知識270、命令歷史、車輛系統(tǒng)的狀態(tài)、用戶界面、或者其 他設備、數(shù)據(jù)源260、或其他可用的信息產(chǎn)生這種推理。例如,在示例性說明中,以前的上下 文、共有知識、和其他信息源可以與推理引擎255和/或架構200中的各種其他部件一起使 用,以允許會產(chǎn)生如下的人機交互
權利要求
一種計算機實現(xiàn)的用于為導航設備提供自然語言語音用戶界面的方法,該方法包括在與所述導航設備相關聯(lián)的輸入機構處接收導航相關的基于語音的輸入,該基于語音的輸入至少包括由用戶提供的自然語言話語;使用與語音識別引擎相關聯(lián)的動態(tài)識別語法來產(chǎn)生所述自然語言話語的一個或多個初步解釋;使用會話語言處理器對所述初步解釋進行分析,該會話語言處理器使用共有知識和與導航上下文相關聯(lián)的信息,在該導航上下文中確定所述自然語言話語的可能解釋;以及將所述自然語言話語的可能解釋傳遞到與所述導航上下文相關聯(lián)的導航代理,所述導航代理可操作用于基于所述自然語言話語的可能解釋來識別包含在所述基于語音的輸入中的一個或多個導航相關的請求;并且使用與多個信息源中的一個或多個信息源相關聯(lián)的信息來解析所述請求,所述多個信息源至少包括導航指定信息源。
2.如權利要求1所述的方法,所述導航代理還可以操作用于確定所述請求中的至少一 個請求包括所請求信息的近似,其中所述會話語言處理器管理與用戶的對話來解析所述近 似信息,被管理的對話包括逐次提煉所述近似信息的與用戶進行的一次或多次交互。
3.如權利要求2所述的方法,每次交互都包括一次或多次提示用戶提煉所述近似信息 或者從用戶接收對所述近似信息進行提煉的隨后輸入。
4.如權利要求1所述的方法,所述導航相關的請求包括對去往全部或部分地址的路線 的請求,所述導航代理可以操作用于通過以下步驟解析對所述路線的請求為所述路線選擇目的地,所選擇的目的地具有最對應所述全部或部分地址的地址; 計算從用戶的當前位置到所選擇的目的地的路線;并且產(chǎn)生指示以指引用戶沿著所計算的路線到達所選擇的目的地,所產(chǎn)生的指示由來自多 個信息源的數(shù)據(jù)動態(tài)地驅(qū)動。
5.如權利要求4所述的方法,所述動態(tài)數(shù)據(jù)驅(qū)動的指示包括關于目的地、感興趣的位 置、交通、停車、天氣、事件、或與所計算的路線相關的其他信息的信息。
6.如權利要求4所述的方法,還包括在與所述導航設備相關聯(lián)的輸入機構處接收隨后的基于語音的輸入,所述隨后的基于 語音的輸入至少包括由用戶提供的一個請求;以及調(diào)用多個域代理中的至少一個域代理來解析包括在所述隨后的基于語音的輸入中的 請求,所述至少一個域代理可以操作用于根據(jù)所計算的路線對所述請求的結果進行過濾。
7.如權利要求1所述的方法,所述動態(tài)識別語法包括與一個或多個拓撲域相關聯(lián)的信息。
8.如權利要求7所述的方法,所述拓撲域包括相對于用戶的當前位置的物理上的近 似、時間上的近似、方向上的近似、和民間組織上的近似。
9.如權利要求1所述的方法,所述會話語言處理器耦接到可以操作用來產(chǎn)生一個或多 個推理的推理引擎,其中所述會話語言處理器使用所產(chǎn)生的推理來確定所述自然語言話語 的可能解釋。
10.如權利要求9所述的方法,其中所述會話語言處理器還使用所產(chǎn)生的推理向用戶 建議在所述導航上下文中可用的一個或多個服務。
11.如權利要求1所述的方法,所述導航有關的請求包括控制地圖顯示的多模式請求, 所述導航代理可以操作用于通過以下步驟來解析控制地圖顯示的請求將所述基于語音的輸入的非語音部分與該話語的可能解釋相關聯(lián),所述非語音部分識 別了地圖顯示的一部分;并且發(fā)出根據(jù)該話語的可能解釋對識別出的地圖顯示部分進行控制的命令。
12.如權利要求1所述的方法,其中所述多個信息源包括導航指定信息源、共有知識、 與所述導航上下文相關聯(lián)的信息、以及關于地圖、目的地、方向、感興趣的位置、交通、停車、 天氣、事件、用戶地址簿、用戶設備和系統(tǒng)、搜索引擎、和多個域代理的一個或多個信息源。
13.如權利要求12所述的方法,所述共有知識包括對話歷史信息、請求歷史信息、用戶 界面狀態(tài)信息、短期用戶簡檔信息、長期用戶簡檔信息、對等用戶簡檔信息、以及用戶位置 fn息ο
14.一種用于為導航設備提供自然語言語音用戶界面的系統(tǒng),該系統(tǒng)包括輸入機構,其接收導航相關的基于語音的輸入,該基于語音的輸入至少包括由用戶提 供的自然語言話語;語音識別引擎,其具有與其相關聯(lián)的動態(tài)識別語法,所述語音識別引擎可以操作用于 使用所述動態(tài)識別語法來產(chǎn)生所述自然語言話語的一個或多個初步解釋;多個域代理,其與各自上下文關聯(lián),所述多個域代理至少包括與導航上下文相關聯(lián)的 導航代理;以及會話語言處理器,其可操作用于使用共有知識和與所述導航上下文相關聯(lián)的信息對所述初步解釋進行分析,以確定所 述自然語言話語在所述導航上下文中的可能解釋;以及將所述自然語言話語的可能解釋傳遞到與所述導航上下文相關聯(lián)的導航代理,該導航 代理可以操作用于基于所述自然語言話語的可能解釋來識別包含在所述基于語音的輸入 中的一個或多個導航相關的請求,以及使用與多個信息源中的一個或多個信息源相關聯(lián)的 信息來解析所述請求,所述多個信息源至少包括導航指定信息源。
15.如權利要求14所述的系統(tǒng),所述導航代理還可以操作用于確定所述請求中的至少 一個請求包括所請求信息的近似;并且所述會話語言處理器還可以操作用于管理與用戶的對話來解析所述近似信息,被管理 的對話包括逐次提煉所述近似信息的與用戶進行的一次或多次交互。
16.如權利要求15所述的系統(tǒng),每次交互都包括一次或多次提示用戶提煉所述近似信 息或者從用戶接收對所述近似信息進行提煉的隨后的輸入。
17.如權利要求14所述的系統(tǒng),所述導航相關的請求包括對去往全部或部分地址的路 線的請求,所述導航代理可以操作用于通過以下步驟解析對所述路線的請求為所述路線選擇目的地,所選擇的目的地具有最對應所述全部或部分地址的地址;計算從用戶的當前位置到所選擇的目的地的路線;并且產(chǎn)生指示以指引用戶沿著所計算的路線到達所選擇的目的地,所產(chǎn)生的指示由來自多 個信息源的數(shù)據(jù)動態(tài)地驅(qū)動。
18.如權利要求17所述的系統(tǒng),所述動態(tài)數(shù)據(jù)驅(qū)動的指示包括關于目的地、感興趣的 位置、交通、停車、天氣、事件、或與所計算的路線相關的其他信息的信息。
19.如權利要求17所述的系統(tǒng),所述一個或多個輸入機構還接收隨后的基于語音的輸 入,所述隨后的基于語音的輸入至少包括由用戶提供的一個請求,并且所述會話語言處理 器還可以操作用于調(diào)用多個域代理中的至少一個域代理來解析包括在所述隨后的基于語音的輸入中的 請求,所述至少一個域代理可以操作用于根據(jù)所計算的路線對所述請求的結果進行過濾。
20.如權利要求14所述的系統(tǒng),所述動態(tài)識別語法包括與一個或多個拓撲域相關聯(lián)的fn息ο
21.如權利要求20所述的系統(tǒng),所述拓撲域包括相對于用戶的當前位置的物理上的近 似、時間上的近似、方向上的近似、和民間組織上的近似。
22.如權利要求14所述的系統(tǒng),還包括耦接到所述會話語言處理器的推理引擎,其產(chǎn) 生一個或多個推理,其中所述會話語言處理器使用所產(chǎn)生的推理來確定所述自然語言話語 的可能解釋。
23.如權利要求22所述的系統(tǒng),還包括耦接到所述會話語言處理器的推理引擎,其中 所述會話語言處理器還使用所產(chǎn)生的推理向用戶建議在所述導航上下文中可用的一個或 多個服務。
24.如權利要求14所述的系統(tǒng),所述導航有關的請求包括控制地圖顯示的多模式請 求,所述導航代理可以操作用于通過以下步驟來解析控制地圖顯示的請求將所述基于語音的輸入的非語音部分與該話語的可能解釋相關聯(lián),所述非語音部分識 別了地圖顯示的一部分;并且發(fā)出根據(jù)該話語的預期含意對識別出的地圖顯示部分進行控制的命令。
25.如權利要求14所述的系統(tǒng),其中所述多個信息源包括導航指定信息源、共有知識、 與所述導航上下文關聯(lián)的信息、以及關于地圖、目的地、方向、感興趣的位置、交通、停車、天 氣、事件、用戶地址簿、用戶設備和系統(tǒng)、搜索引擎、和多個域代理的一個或多個信息源。
26.如權利要求25所述的系統(tǒng),所述共有知識包括對話歷史信息、請求歷史信息、用戶 界面狀態(tài)信息、短期用戶簡檔信息、長期用戶簡檔信息、對等用戶簡檔信息、以及用戶位置 fn息ο
27.一種用于在語音導航服務環(huán)境中提供自然語言語音用戶界面的方法,該方法包括接收由用戶提供的基于語音的目的地輸入,該基于語音的目的地輸入至少包括自然語 言話語;使用與語音識別引擎相關聯(lián)的動態(tài)識別語法來產(chǎn)生所述自然語言話語的一個或多個 初步解釋;使用會話語言處理器對所述初步解釋進行分析,該會話語言處理器使用共有知識和與 導航上下文相關聯(lián)的信息來確定在所述自然語言話語中提供的預期目的地,該預期目的地 包括目的地的近似;以及將所述預期目的地傳遞到導航代理,該導航代理可以操作用于通過以下步驟提供到所 述預期目的地的路線為所述路線選擇初步目的地,所選擇的初步目的地具有最對應近似目的地的地址;計算從用戶的當前位置到所選擇的初步目的地的路線;并且參與和用戶的對話以為所計算的路線解析最終目的地,該對話包括與用戶的一次或多 次交互,所述交互對所述近似目的地進行逐次提煉,直到解析出所述最終目的地。
28.如權利要求27所述的方法,每次交互都包括一次或多次提示用戶提煉所述近似目 的地或者從用戶接收對所述近似信息進行提煉的隨后輸入。
29.如權利要求27所述的方法,所述導航代理還可以操作用于響應于對所述近似目的 地的逐次提煉來動態(tài)地重新計算路線。
30.如權利要求27所述的方法,在相對于初始路線計算之后的時間中,可對所述最終 目的地進行充分地解析。
31.如權利要求27所述的方法,所述導航代理可以操作用于通過識別可能對應于所述 近似目的地的一個或多個地址、并將所識別的地址中排序最高的一個地址選擇為所述初步 目的地來選擇所述初步目的地。
32.如權利要求27所述的方法,根據(jù)與用戶的當前位置或者所述近似目的地的近似程 度對所識別的地址進行排序。
33.如權利要求32所述的方法,所述近似基于一個或多個拓撲域,所述拓撲域包括相 對于用戶的當前位置或者所述近似目的地的物理上的近似、時間上的近似、方向上的近似、 和民間組織上的近似中的一個或多個。
34.如權利要求27所述的方法,所述導航代理還可以操作用于產(chǎn)生指示以沿著所計算 的路線指引用戶,所產(chǎn)生的指示由來自多個信息源的數(shù)據(jù)動態(tài)地驅(qū)動。
35.如權利要求34所述的方法,所述多個信息源包括關于目的地、感興趣的位置、交 通、停車、天氣、事件、或與所計算的路線相關的其他信息的信息。
36.如權利要求27所述的方法,所述共有知識包括對話歷史信息、請求歷史信息、用戶 界面狀態(tài)信息、短期用戶簡檔信息、長期用戶簡檔信息、對等用戶簡檔信息、以及用戶位置 fn息ο
37.一種用于在語音導航服務環(huán)境中提供自然語言語音用戶界面的方法,該方法包括接收由用戶提供的導航有關的基于語音的輸入,該基于語音的輸入至少包括自然語言 話語;使用位置檢測系統(tǒng)識別用戶的當前位置;確定與用戶的當前位置相關聯(lián)的一個或多個拓撲域;產(chǎn)生動態(tài)識別語法,其包括與所確定的拓撲域相關聯(lián)的語法信息;以及使用所述動態(tài)識別語法產(chǎn)生所述自然語言話語的一個或多個解釋。
38.如權利要求37所述的方法,所述動態(tài)識別語法根據(jù)與所述拓撲域相關聯(lián)的地理組 塊對所述語法信息進行組織。
39.如權利要求38所述的方法,所述地理組塊包括利用距離用戶當前位置的距離所定 義的物理上的近似。
40.如權利要求38所述的方法,所述地理組塊包括利用從用戶的當前位置起的行進時 間所定義的時間上的近似。
41.如權利要求38所述的方法,所述地理組塊包括利用用戶行進的方向向量所定義的 方向上的近似。
42.如權利要求38所述的方法,所述地理組塊包括利用大陸、國家、區(qū)域、州、城市、位 置、附近地區(qū)、和社區(qū)所定義的民間組織上的近似。
43.如權利要求38所述的方法,還包括將一個或多個地理組塊細分為多個瓦區(qū),所述 動態(tài)識別語法還根據(jù)所述多個瓦區(qū)對所述語法信息進行組織。
44.如權利要求43所述的方法,還包括將所述多個瓦區(qū)中的一個或多個瓦區(qū)細分為多 個子瓦區(qū),所述動態(tài)識別語法還根據(jù)所述多個子瓦區(qū)對所述語法信息進行組織。
45.如權利要求37所述的方法,所述動態(tài)識別語法具有根據(jù)所述語音導航服務環(huán)境中 存儲器或資源可用性所限制的尺寸。
46.如權利要求37所述的方法,還包括響應于與用戶的當前位置相關聯(lián)的拓撲域中的 改變,對包括在所述動態(tài)識別語法中的所述語法信息進行修改。
47.如權利要求37所述的方法,還包括確定用戶與用戶的一個或多個對等物之間的相 似性,所述動態(tài)識別語法還根據(jù)所確定的相似性對所述語法信息進行組織。
48.一種用于在語音導航服務環(huán)境中提供廣告的方法,該方法包括使用位置檢測系統(tǒng)識別用戶的當前位置;提取共有知識和與導航上下文相關聯(lián)的信息,所提取的信息用于確定在所述語音導航 服務環(huán)境中接收的自然語言話語的可能解釋;識別一個或多個廣告以向用戶提供,基于對用戶的當前位置、共有知識、或與所述導航 上下文相關聯(lián)的信息中的一個或多個的相似性來識別所述一個或多個廣告;以及產(chǎn)生多模式輸出來向用戶提供一個或多個所識別的廣告。
49.如權利要求48所述的方法,所述多模式輸出包括系統(tǒng)產(chǎn)生的語音話語。
50.如權利要求48所述的方法,所述位置檢測系統(tǒng)在數(shù)據(jù)信道上接收關于所述一個或 多個廣告的信息。
51.如權利要求50所述的方法,通過所述位置檢測系統(tǒng)檢測與射頻標識符相關聯(lián)的數(shù)據(jù)信道。
52.如權利要求48所述的方法,所述共有知識包括對話歷史信息、請求歷史信息、用戶 界面狀態(tài)信息、短期用戶簡檔信息、長期用戶簡檔信息、對等用戶簡檔信息、以及用戶位置 fn息ο
53.如權利要求48所述的方法,還包括接收至少包括自然語言話語的基于語音的輸入;使用所述共有知識和與所述導航上下文相關聯(lián)的信息來確定所所接收的自然語言的 話語的可能解釋,廣告是基于所述自然語言話語的可能解釋進行識別的。
54.如權利要求48所述的方法,所述廣告包括用戶當前位置的本地社區(qū)的指南。
55.如權利要求54所述的方法,所述本地社區(qū)指南包括對于感興趣的地點、事件、餐 館、商店、活動、或游覽勝地中的一個或多個的推薦。
56.如權利要求54所述的方法,所述本地社區(qū)指南包括與地圖、目的地、方向、交通、停 車、或天氣中的一個或多個相關聯(lián)的信息。
57.如權利要求54所述的方法,所述本地社區(qū)指南基于用戶與用戶的當前位置、用戶的一個或多個對等物、或者與用戶相關聯(lián)的一個或多個社區(qū)中的一個或多個之間的相似性。
58.如權利要求48所述的方法,所述廣告包括圖像、標語、音頻消息、視頻消息、獎勵提 供、優(yōu)惠券、以及數(shù)據(jù)流中的一個或多個。
全文摘要
本發(fā)明提供一種會話式的、自然語言語音用戶界面,其可以提供集成語音導航服務環(huán)境。該語音用戶界面允許用戶以自然語言提出關于各種導航服務的請求,并且還可以按照合作的、會話的對話方式與用戶交互,來解析該請求。除其他以外,通過動態(tài)的上下文的認識、可用的信息源、域知識、用戶行為和偏好、以及外部系統(tǒng)和設備,該語音用戶界面可以提供集成的環(huán)境,在該環(huán)境中用戶能夠使用自然語言會話式地進行講話,以發(fā)出查詢、命令、或與該環(huán)境中提供的與導航服務有關的其他請求。
文檔編號G06F17/27GK101939740SQ200880126525
公開日2011年1月5日 申請日期2008年7月9日 優(yōu)先權日2007年12月11日
發(fā)明者L·貝爾德文, L·阿姆斯特隆, M·特加爾弗, P·迪克里斯托, S·米納克, 亞力·所羅門, 凱薩琳·張, 席特·古德高力, 柏尼·齊墨曼, 麥可·肯尼維克 申請人:聲鈺科技