基于本地中斷探測的語音識別技術的制作方法

文檔序號：2829590閱讀：413來源：國知局

專利名稱：基于本地中斷探測的語音識別技術的制作方法
技術領域：
本發(fā)明一般涉及包括語音識別的通信系統(tǒng)，更具體地說，涉及一種在聲音通信期間的新穎中斷探測技術。
本發(fā)明的背景語音識別系統(tǒng)在先有技術中一般是已知的，特別涉及電話系統(tǒng)。美國專利No.4,914,692、5,475,791、5,708,704、及5,765,130表明包括語音識別系統(tǒng)的示范電話網絡。這樣的系統(tǒng)的共同特征在于，語音識別元件(即進行語音識別的器件)典型集中布置在電話網絡的組織內，與在用戶的通信器件(即用戶的電話)處不同。在一種典型用途中，語音合成和語音識別元件的組合采用在電話網絡或基礎結構內。呼叫者可以訪問系統(tǒng)，并且經語音合成元件呈現有合成或記錄語音形式的信息提示或詢問。呼叫者典型地提供對合成語音的口頭應答，并且語音識別元件將處理呼叫者的口頭應答以便向呼叫者提供進一步的服務。
這些類型系統(tǒng)的特定用途一直是“電子助手”的創(chuàng)建，有時稱作“虛擬助手”或“自動助手”。例如，美國專利No.5,652,789(此后稱作“789專利”)描述了一種允許對于服務的用戶通過電子助手的使用管理個人通信。使用語音識別技術，用戶能發(fā)出基于聲音的命令以管理進來和出去呼叫和消息。如在典型的基于電話的系統(tǒng)中，在’789專利中描述的語音識別元件完全布置在電話基礎結構的組織內。在’789專利中特別描述的一個特征在于，在用戶忙于與另一方通信語音識別元件在提供電子助手服務時進入“背景模式”的能力，而。盡管在這種背景模式中，但電子助手對于給定組基于聲音的命令的出現，特別是引起電子助手進入“前景模式”的“召喚命令”，監(jiān)視用戶的聲頻通信。在前景模式中，電子助手繼續(xù)監(jiān)視較在組基于聲音的命令。以這種方式，電子助手字面上“隨叫隨到”服務于用戶的需要，并且通過特定召喚或“喚醒”命令的探測懇求。
如以上提到的那樣，在’789專利中描述的懇求電子助手的能力通過在電話網絡內采用的語音識別元件能夠實現。實現類似電子助手服務的各種其它系統(tǒng)當前適用于公眾。同樣，這些系統(tǒng)通過基于網絡的語音識別元件的使用能夠實現。這些系統(tǒng)一般供給部分歸因于電話網絡本質的可接收性能。因為潛伏或延遲典型地在大多數電話網絡內較小(在幾毫秒的量級上)，所以基于基礎結構的語音識別元件的使用是實用的，特別是對于應用于用于電子助手的“喚醒”命令。然而，當前系統(tǒng)一般不能尋址無線系統(tǒng)。給定無線通信通道的波動本質(即，時間變化下降因數和全部延遲)、和在例如不同蜂窩系統(tǒng)中應用的處理的差別，純粹基于基礎結構的語音識別元件的使用可能是有問題的。當前解決方案也利用一個全語音通道和把“喚醒”提供給語音識別功能的專用網絡源。這些方法形成“廣播時間”和用于基于網絡的語音識別實現服務的資源的使用不足。這是一個確定提供這些服務的成本的顯著因數。因而，便利的是，提供一種允許對于電子助手服務或其它基于語音的服務的用戶能夠在無線通信環(huán)境中“喚醒“語音識別功能的更高效技術。
本發(fā)明概述本發(fā)明提供一種主要適用于無線通信環(huán)境、用來喚醒或召喚語音識別功能的技術。具體地說，本發(fā)明包括在用戶單元的用戶與另一個人之間的聲音通信期間一個中斷指示器的本地探測。響應中斷指示器，致動語音識別元件的一部分以開始處理基于聲音的命令。在一個實施例中，語音識別元件至少部分在基礎結構內實現，并且最好包括一個在用戶單元內實現的語音識別客戶機和一個在無線通信系統(tǒng)的基礎結構內實現的語音識別服務器。在另一個實施例中，中斷指示器可以使用形成用戶單元一部分的輸入器件提供。在又一個實施例中，在用戶單元內的本地語音識別器能用來提供中斷指示器。通過本地探測在用戶單元處的中斷指示器，與依賴于基于基礎結構的探測的先有技術相反，本發(fā)明更容易實現在無線通信環(huán)境中的電子助手和類似服務的使用。
附圖的簡要描述

圖1是按照本發(fā)明的無線通信系統(tǒng)的方塊圖。
圖2是按照本發(fā)明的用戶單元的方塊圖。
圖3是在按照本發(fā)明的用戶單元內的聲音和數據處理功能的示意表示。
圖4是按照本發(fā)明的語音識別服務器的方塊圖。
圖5是在按照本發(fā)明的語音識別服務器內的聲音和數據處理功能的示意表示。
圖6是流程圖，表明按照本發(fā)明的用戶單元的操作。
最佳實施例的詳細描述參照圖1-6可以更充分地描述本發(fā)明。圖1表明包括用戶單元102-103的無線通信系統(tǒng)100的整體系統(tǒng)結構。用戶單元102-103與基礎結構經由無線系統(tǒng)110支持的無線通道105通信。本發(fā)明的基礎結構除無線系統(tǒng)110外，可以包括經一個數據網絡150聯接在一起的一個小實體系統(tǒng)120、一個內容提供者系統(tǒng)130及一個企業(yè)系統(tǒng)140的任一個。
用戶單元可以包括能夠與通信基礎結構通信的任何無線通信器件，如手持蜂窩電話103或駐留在車輛102內的無線通信器件。要理解，能使用除圖1中表示的那些之外的各種用戶單元；本發(fā)明在這方面不受限制。用戶單元102-103最好包括免提蜂窩電話的元件，用于免提聲音通信；一個本地語音識別和合成系統(tǒng)；及客戶機-服務器語音識別和合成系統(tǒng)的客戶機部分。這些元件相對于圖2和3在下面更詳細地描述。
用戶單元102-103經無線通道105與無線系統(tǒng)110無線地通信。無線系統(tǒng)110最好包括一個蜂窩系統(tǒng)，盡管在本專業(yè)方面具有普通技巧的人員將認識到，本發(fā)明可以有益地應用于支持聲音通信的其它類型的無線系統(tǒng)。無線通道105典型地是實現數字發(fā)射技術并且能夠向用戶單元102-103和從其傳送語音和/或數據的射頻(RF)載波。要理解，也可以使用其它發(fā)射技術，如模擬技術。在一個最佳實施例中，無線通道105是無線分組數據通道，如由歐洲電信標準研究所(ETSI)定義的通用分組數據無線業(yè)務(GPRS)。無線通道105運送數據以有助于在客戶機-服務器語音識別和合成系統(tǒng)的客戶機部分、與客戶機-服務器語音識別和合成系統(tǒng)的服務器部分之間的通信。其它信息，如顯示、控制、位置、或狀態(tài)信息也能跨過無線通道105運送。
無線系統(tǒng)110包括一根接收通過無線通道105從用戶單元102-103傳送的發(fā)射的天線112。天線112也經無線通道105發(fā)射到用戶單元102-103。經天線112接收的數據轉換成數據信號，并且傳輸到無線網絡113。相反，來自無線網絡113的數據發(fā)送到天線112以便發(fā)射。在本發(fā)明的上下文中，無線網絡113包括實現無線系統(tǒng)必需的那些器件，如基站、控制器、資源分配器、接口、數據庫等，如在先有技術中通常已知的那樣。如具有本專業(yè)普通技巧的人員將理解的那樣，并入無線網絡113中的特定元件取決于使用的無線系統(tǒng)110的具體類型，例如蜂窩系統(tǒng)、中繼陸地-移動系統(tǒng)等。
提供客戶機-服務器語音識別和合成系統(tǒng)的服務器部分的一個語音識別服務器115可以聯接到無線網絡113上，由此允許無線系統(tǒng)110的操作者向用戶單元102-103的用戶提供基于語音的服務。一個控制實體116也可以聯接到無線網絡113上。控制實體116能用來響應由語音識別服務器115提供的輸入把控制信號發(fā)送到用戶單元102-103，以控制用戶單元或互連到用戶單元上的器件。如表示的那樣，可以包括任何適當編程通用計算機的控制實體116，可以通過無線網絡113、或直接地，如由虛線相互連接所示，聯接到語音識別服務器115上。
如以上提到的那樣，本發(fā)明的基礎結構能包括經數據網絡150聯接在一起的各種系統(tǒng)110、120、130、140。適當的數據網絡150可以包括使用已知網絡技術的私人數據網絡、諸如互聯網之類的公共網絡、或其組合。作為選擇例，或除此之外，在無線系統(tǒng)110內的語音識別服務器115、遠程語音識別服務器123、132、143、145可以以各種方式連接到數據網絡150上，以向用戶單元102-103提供基于語音的服務。遠程語音識別服務器在提供時，類似地能夠通過數據網絡150和任何插入通信路徑與控制實體116通信。
在一個小實體系統(tǒng)120(如一個小商務或家庭)內的計算機122，如臺式個人計算機或其它通用處理器件，能用來實現語音識別服務器123。到和來自用戶單元102-103的數據通過無線系統(tǒng)110和數據網絡150通向計算機122。執(zhí)行存儲的軟件算法和過程，計算機122提供語音識別服務器123的功能，它在最佳實施例中包括語音識別系統(tǒng)和語音合成系統(tǒng)的服務器部分。在例如計算機122是用戶的個人計算機的場合，在計算機上的語音識別服務器軟件能聯接到駐留在計算機上的用戶個人信息上，如用戶的郵件、電話薄、日歷、或其它信息上。這種配置允許用戶單元的用戶利用基于聲音的接口訪問在其個人計算機上的個人信息。下面結合圖2和3描述按照本發(fā)明的客戶機-服務器語音識別和語音合成系統(tǒng)的客戶機部分。下面結合圖4和5描述按照本發(fā)明的客戶機-服務器語音識別和語音合成系統(tǒng)的服務器部分。
要不然，具有使用戶單元的用戶可得到的信息的內容提供者130，能把語音識別服務器132連接到數據網絡上。作為特征或特別服務供應，語音識別服務器132把基于聲音的接口提供給希望訪問內容提供者的信息(未表示)的用戶單元的用戶。
用于語音識別服務器的另一種可能位置是在一個企業(yè)140內，如在一個大公司或類似實體內。企業(yè)的內部網絡146，如互聯網，經安全網關142連接到數據網絡150上。安全網關142結合用戶單元提供對企業(yè)的內部網絡146的安全訪問。如在先有技術中已知的那樣，以這種方式提供的安全訪問典型地部分取決于鑒定和加密技術。以這種方式，提供在用戶單元與內部網絡146之間經非安全數據網絡150的安全通信。在企業(yè)140內，實現語音識別服務器145的服務器軟件能提供在個人計算機144上，如在給定雇員的工作站上。類似于用在小實體系統(tǒng)中的上述配置，工作站途徑允許雇員通過基于聲音的接口訪問工作相關的或其它信息。而且，類似于內容提供者130模型，企業(yè)140能提供一個內部適用的語音識別服務器143以提供對企業(yè)數據庫的訪問。
不管何處采用本發(fā)明的語音識別服務器，他們都能用來實現各種基于語音的服務。例如，結合控制實體116操作，在提供時，語音識別服務器能夠實現用戶單元或聯接到用戶單元上的器件的操作控制。應該注意，術語語音識別服務器，如貫穿本描述使用的那樣，也打算包括語音合成功能。
本發(fā)明的基礎結構也提供在用戶單元102-103與正常電話系統(tǒng)之間的互聯。通過把無線網絡113聯接到POTS(簡單舊式電話系統(tǒng))網絡118上這表明在圖1中。如在先有技術中已知的那樣，POTS網絡118，或類似電話網絡，提供對多個呼叫站119的通信訪問，如陸上線路電話聽筒或其它無線器件。以這種方式，用戶單元102-103的用戶能與呼叫站119的另一個用戶繼續(xù)聲音通信。如在下面更詳細描述的那樣，本發(fā)明提供一種在這種聲音通信期間用來本地探測中斷指示器，如對于電子助手的喚醒命令，的技術。
圖2表明按照本發(fā)明可以用來實現用戶單元的硬件構造。如圖所示，可以使用兩個無線收發(fā)機一個無線數據發(fā)機203、和一個無線聲音收發(fā)機204。如在先有技術中已知的那樣，這些收發(fā)機可以組合成能完成數據和聲音功能的單個收發(fā)機。無線數據收發(fā)機203和無線聲音收發(fā)機204都連接到天線205上。要不然，也可以使用用于每個收發(fā)機的離散天線。無線聲音收發(fā)機204進行所有必需的信號處理、協(xié)議終止、調制/解調等，以提供無線聲音通信，并且在最佳實施例中，包括一個蜂窩收發(fā)機。以類似方式，無線數據收發(fā)機203提供與基礎結構的數據連接性。在一個最佳實施例中，無線數據收發(fā)機203支持無線分組數據，如由歐洲電信標準研究所(ETSI)定義的通用分組數據無線業(yè)務(GPRS)。
預期本發(fā)明能以特別優(yōu)點應用于車載系統(tǒng)，如下面討論的那樣。當采用在車輛中時，按照本發(fā)明的用戶單元也包括一般認為是車輛的部分而不是用戶單元的部分的處理元件。為了描述本發(fā)明的目的，假定這種處理元件是用戶單元的部分。要理解，用戶單元的實際實施可以包括或不包括由設計考慮支配的這種處理元件。在一個最佳實施例中，處理元件包括通用處理器(CPU)201，如IBM Corp.的“POWERPC”；和數字信號處理器(DSP)202，如Motorola Inc.的DSP56300系列處理器。CPU201和DSP202以連續(xù)形式表示在圖2中，以表明他們經數據和地址總線、以及其它控制連接聯接在一起，如在先有技術中已知的那樣?？蛇x擇實施例能把用于CPU201和DSP202的功能組合成單個處理器或把他們分裂成幾個處理器。CPU201和DSP202都聯接到為其有關處理器提供程序和數據存儲的相應存儲器240、241上。使用存儲的軟件例行程序，CPU201和/或DSP202能編程成實現本發(fā)明功能的至少一部分。下面對于圖3和6至少部分地描述CPU201和DSP202的軟件功能。
在一個最佳實施例中，用戶單元也包括聯接到天線207上的全球定位衛(wèi)星(GPS)收發(fā)機206。GPS收發(fā)機206聯接到DSP202上以提供接收的GPS信息。DSP202從GPS收發(fā)機206獲取信息，并且計算無線通信器件的位置坐標。要不然GPS收發(fā)機206可以把位置信息直接提供給CPU201。
CPU201和DSP202的各種輸入和輸出表明在圖2中。如圖2中表示的那樣，粗實線與聲音相關信息相對應，而粗虛線與控制/數據相關信息相對應。選擇元件和信號路徑使用虛線表明。DSP202從為電話(蜂窩電話)對話提供聲音輸入和把聲音輸入提供給本地語音識別器和客戶機-服務器語音識別器的客戶機側部分的麥克風270接收麥克風聲頻220，如在下面進一步詳細描述的那樣。DSP202也聯接到指向至少一個揚聲器271的輸出聲頻211上，揚聲器271提供用于電話(蜂窩電話)對話的聲音輸出和來自本地語音合成器和客戶機-服務器語音合成器的客戶機側部分的聲音輸出。注意麥克風270和揚聲器271可以鄰近地布置在一起，如在手持器件中，或者可以相對于彼此遠距離布置，如在具有安裝遮光板麥克風和安裝門面或門的揚聲器的汽車用途中。
在本發(fā)明的一個實施例中，CPU201通過雙向接口230聯接到一根車載數據總線208上。這根數據總線208允許控制和狀態(tài)信息在車輛內的各種器件209a-n，如蜂窩電話、娛樂系統(tǒng)、環(huán)境控制系統(tǒng)等，與CPU201之間通信。期望適當的數據總線208是當前在由汽車工程師協(xié)會標準化的過程中的ITS數據總線(IDB)。可以使用在各種器件之間通信控制和狀態(tài)信息的可選擇裝置，如由藍牙特殊興趣組(SIG)定義的短距離、無線數據通信系統(tǒng)。數據總線208允許CPU201響應由本地語音識別器或由客戶機-服務器語音識別器識別的聲音命令控制在車輛數據總線上的器件209。
CPU201經接收數據連接231和發(fā)射數據連接232聯接到無線數據收發(fā)機203上。這些連接231-232允許CPU201接收從無線系統(tǒng)110發(fā)送的控制信息和語音合成信息。語音合成信息經無線數據通道105從客戶機-服務器語音合成系統(tǒng)的服務器部分接收。CPU201譯碼然后輸送到DSP202的語音合成信息。DSP202然后合成輸出語音，并且把它輸送到聲頻輸出211。經接收數據連接231接收的任何控制信息可以用來控制用戶單元本身的操作，或者發(fā)送到器件的一個或多個以便控制其操作。另外，CPU201能把狀態(tài)信息、和輸出數據從客戶機-服務器語音識別系統(tǒng)的客戶機部分發(fā)送到無線系統(tǒng)110。客戶機-服務器語音識別系統(tǒng)的客戶機部分最好在DSP202和CPU201中的軟件中實現，如在下面更詳細描述的那樣。當支持語音識別時，DSP202從麥克風輸入220接收語音，并且處理這種聲頻以把一個參數化語音信號提供給CPU201。CPU201編碼參數化語音信號，并且把該信息經發(fā)射數據連接232發(fā)送到無線數據收發(fā)機203，以在無線數據通道105上發(fā)送到在基礎結構中的語音識別服務器。
無線聲音收發(fā)機204經一根雙向數據總線233聯接到CPU201上。這根數據總線允許CPU201控制無線聲音收發(fā)機204的操作，并且從無線聲音收發(fā)機204接收狀態(tài)信息。無線聲音收發(fā)機204經一個發(fā)射聲頻連接221和一個接收聲頻連接210也聯接到DSP202上。當無線聲音收發(fā)機204正在用來促進電話(蜂窩)呼叫時，聲頻從麥克風輸入220由DSP202接收。麥克風聲頻被處理(例如濾波、壓縮等)，并且提供到無線聲音收發(fā)機204以發(fā)射到蜂窩基礎結構。相反，由無線聲音收發(fā)機204接收的聲頻經接收聲頻連接210發(fā)送到其中處理(例如減壓、濾波等)聲頻的DSP202，并且提供給揚聲器輸出211。參照圖3將更詳細地描述由DSP202進行的處理。
表明在圖2中的用戶單元可以選擇性包括一個輸入器件250，以便用來在聲音通信期間人工提供一個中斷指示器251。就是說，在聲音對話期間，用戶單元的用戶能人工致動輸入器件以提供一個中斷指示器，由此信號化用戶的希望以喚醒語音識別功能。例如，在聲音通信期間，用戶單元的用戶可能希望中斷對話以便把基于語音的命令提供給電子伴隨物，例如撥號和把第三方添加到呼叫上。輸入器件250可以虛擬地包括任何類型的用戶致動輸入機構，其具體的例子包括單或多目的按鈕、一個多位置選擇器或具有輸入能力的菜單驅動顯示器。要不然，輸入器件250可以經雙向接口230和車載數據總線208連接到CPU201上。無論如何，當提供這樣一種輸入器件250時，CPU201起一個探測器的作用以便辨別中斷指示器的出現。當CPU201起一個用于輸入器件250的探測器的作用時，CPU201把中斷指示器的存在指示給DSP202，如由標號260標識的信號路徑表明的那樣。相反，另一種實施使用聯接到探測器應用程序上的一個本地語音識別器(最好在DSP202和/或CPU201內實施)以提供中斷指示器。在這種情況下，CPU201或DSP202發(fā)信號中斷指示器的存在，如由標號260a標識的信號路徑表示的那樣。無論如何，一旦已經探測到中斷指示器的存在，就致動語音識別元件的一部分(最好是結合或作為用戶單元的部分實施的客戶機部分)，以開始處理基于聲音的命令。另外，已經致動語音識別元件的部分的指示可以提供給用戶和提供給語音識別服務器。在一個最佳實施例中，這樣一種指示經發(fā)射數據連接232傳送到無線數據收發(fā)機203，用于發(fā)射到與語音識別客戶機共同操作的語音識別服務器以提供語音識別元件。
最后，用戶單元最好裝有一個信號器255，用來響應信號器控制256向用戶單元的用戶提供響應中斷指示器已經致動語音識別功能的指示。信號器255響應中斷指示器的探測而致動，并且可以包括一個用來提供可聽指示，如有限時段的音調或蜂鳴，的揚聲器。(同樣，中斷指示器的存在能使用基于輸入器件的信號260或基于語音的信號260a發(fā)信號。)在另一種實施中，信號器的功能經由把聲頻指向揚聲器輸出211的DSP202執(zhí)行的軟件程序提供。揚聲器可以與用來使聲頻輸出211可聽的揚聲器271分離或與其相同。要不然，信號器255可以包括一個提供可見指示器的顯示器件，如LED或LCD顯示器。信號器255的具體形式是設計選擇的問題，本發(fā)明不必在這方面受限制。更進一步，信號器255可以經雙向接口230和車載數據總線208連接到CPU201上。
現在參照圖3，示意表明在用戶單元內進行的處理的一部分(按照本發(fā)明操作)。最好，使用存儲的、由CPU201和/或DSP202執(zhí)行的機器可讀指令實現圖3中表明的處理。下面呈現的討論描述在機動車輛內采用的用戶單元的操作。然而，一般表明在圖3中并且在這里描述的功能同樣適用于非基于車輛的用途，該使用或者能從語音識別的使用受益。
麥克風聲頻220作為輸入提供給用戶單元。在汽車環(huán)境中，麥克風是典型安裝在遮光板或車輛的轉向柱上或靠近其的免提麥克風。最好，麥克風聲頻220以數字形式到達回波抵消和環(huán)境處理(ECEP)塊301。揚聲器聲頻211在經受任何必要的處理之后由ECEP塊301輸送到揚聲器。在車輛中，這樣的揚聲器能安裝在儀表板下方。要不然，揚聲器聲頻211能通過車載娛樂系統(tǒng)以便經娛樂系統(tǒng)的揚聲器系統(tǒng)播放。揚聲器聲頻211最好為數字格式。當蜂窩電話呼叫例如在進行中時，來自蜂窩電話的接收聲頻經接收聲頻連接210到達ECEP塊301。同樣，發(fā)射聲頻在發(fā)射聲頻連接221上輸送到蜂窩電話。
ECEP塊301經發(fā)射聲頻連接221把在輸送之前來自麥克風聲頻220的揚聲器聲頻211的回波抵消提供給無線聲音收發(fā)機204。這種形式的回波抵消稱作聲學回波抵消，并且在先有技術中是已知的。例如，授予Amano等和標題為“輔助帶聲學回波抵消器”的美國專利No.5,136,599、和授予Genter和標題為“具有輔助帶衰減和噪聲注入控制的回波抵消器”的美國專利No.5,561,668，講授用來進行聲學回波抵消的適當技術，這些專利的講授由此通過參考包括。
ECEP塊301除回波抵消之外，也把環(huán)境處理提供給麥克風聲頻220，以便把更舒適的聲音信號提供給接收由用戶單元發(fā)射的聲頻的一方。普通使用的一種技術叫做噪聲抑制。在車輛中的免提麥克風將典型地拾波由其它方聽到的多種類型的聲學噪聲。這種技術減小其它方聽到的感覺背景噪聲，并且例如在授予Vilmur等的美國專利No.4,811,404中描述，該專利的講授由此通過參考包括。
ECEP塊301也經一條第一聲頻路徑316提供由語音合成后端304提供的合成語音的回波抵消處理，這種合成語音經聲頻輸出211傳送到揚聲器。如在使接收聲音通向揚聲器的情況下那樣，抵消到達麥克風聲頻路徑220上的揚聲器聲頻“回波”。這允許在輸送到語音識別前端302之前從麥克風聲頻消除聲學聯接到麥克風上的揚聲器聲頻。這種類型的處理能夠實現在先有技術中稱作“闖入”的現象。闖入允許語音識別系統(tǒng)響應輸入語音，同時輸出語音同時由系統(tǒng)產生?！瓣J入”實施的例子能在例如美國專利No.4,914,692、5,475,791、5,708,704、及5,765,130中發(fā)現。
每當正在進行語音識別處理時，回波抵消麥克風聲頻總是經一條第二聲頻路徑326供給到語音識別前端302。可選擇地是，ECEP塊301把背景噪聲信息經第一數據路徑327提供給語音識別前端302。這種背景噪聲信息能用來改進用于在噪聲環(huán)境中操作的語音識別系統(tǒng)的識別性能。用來進行這樣的處理的適當技術在授予Gerson等的美國專利No.4,918,732中描述，該專利的講授由此通過參考包括。
根據回波抵消麥克風聲頻和可選擇的從ECEP塊301接收的背景噪聲信息，語音識別前端302產生參數化語音信息。語音識別前端302和語音合成后端304一起提供基于客戶機-服務器語音識別和合成系統(tǒng)的客戶機側部分的核心功能。參數化語音信息典型地為特征向量的形式，其中每10至20毫秒計算一個新向量。用于語音信號參數化的一種普通使用技術是嘜耳逆譜，如由Davis等在“用于在連續(xù)口頭句子中的單音節(jié)文字識別的參數表示的比較”，IEEE Transactions onAcoustics Speech and Signal Processing，ASSP-28(4)，pp.357-366，1980年8月中描述的那樣，其公開的講授由此通過參考包括。
由語音識別前端302計算的參數向量經用于本地語音識別處理的第二數據路徑325通到本地語音識別塊303。參數向量也選擇性地經一個第三數據路徑323通到包括語音應用協(xié)議接口(API)和數據協(xié)議的協(xié)議處理塊306。按照已知技術，處理塊306經發(fā)射數據連接232把參數向量發(fā)送到無線數據收發(fā)機203。依次，無線數據收發(fā)機203把參數向量運送到起基于客戶機-服務器的語音識別器部分的作用的服務器。(要理解，用戶單元，而不是發(fā)送參數向量，能代之以使用無線數據收發(fā)機203或無線聲音收發(fā)機204把語音信息發(fā)送到服務器。這可以以類似于用來支持從用戶單元到電話網絡的語音發(fā)射的方式、或使用語音信號的其它適當表示進行。就是說，語音信息可以包括多種非參數化表示的任一個粗數字化聲頻、已經由蜂窩語音編碼器處理的聲頻、根據諸如IP(互聯網協(xié)議)之類的特定協(xié)議適于發(fā)射的聲頻數據等。依次，服務器在接收非參數化語音信息時能進行必要的參數化。)在表示單個語音識別前端302的同時，本地語音識別器303和基于客戶機-服務器的語音識別器事實上可以利用不同的語音識別前端。
本地語音識別器303從語音識別前端302接收參數向量325，并且在其上進行語音識別分析，例如，以便確定在參數化語音內是否有任何可識別發(fā)聲。在一個實施例中，把識別發(fā)聲(典型地，話語)從本地語音識別器303經一條第四數據路徑324發(fā)送到協(xié)議處理塊306，第四數據路徑324又把識別發(fā)聲通到各種應用程序307以便進一步處理。使用CPU201和DSP202可以實現的應用程序307，能包括一個探測器應用程序，該探測器應用程序根據識別發(fā)聲確定已經接收到基于語音的中斷指示器。例如，探測器把識別發(fā)聲與查尋匹配的預定發(fā)聲清單(例如，“喚醒”)相比較。當探測到匹配時，探測器應用程序發(fā)出一個表示中斷指示器存在的信號260a。中斷指示器的存在又用來致動語音識別元件的一部分以開始處理基于聲音的命令。這通過供給到語音識別前端的信號260a示意表明在圖3中。在響應中，語音識別前端302繼續(xù)把參數化聲頻通到本地語音識別器，或者最好通到協(xié)議處理塊306，以便發(fā)射到用于另外處理的語音識別服務器。(也注意，可選擇地由輸入器件250提供的、基于輸入器件的信號260，也可以用于相同功能。)另外，中斷指示器的存在可以發(fā)送到發(fā)射數據連接232，以警告語音識別器的基于基礎結構的元件。
語音合成后端304把語音的參量表示取作輸入，并且把參量表示轉換成經第一聲頻路徑316然后輸送到ECEP塊301的語音信號。使用的特定參量表示是一個設計選擇問題。一種普通使用的參量表示是在Klatt的“Software For A Cascade/Parallel Formant Synthesizer”，Journal of the Acoustical Society of America，Vol.67，1980，pp.971-995中描述的共振峰參數。線性預測參數是另一種普通使用的參量表示，如在Markel等的Linear Prediction of Speech，Springer Verlag，New York，1976中討論的那樣。Klatt和Markel等的出版物的相應講授通過參考包括在這里。
在基于客戶機-服務器的語音合成的情況下，從網絡經無線通道105、無線數據收發(fā)機203和協(xié)議處理塊306接收語音的參量表示，其中它經第五數據路徑313前進到語音合成后端。在本地語音合成的情況下，應用程序307產生一個要講出的文本串。該文本串通過協(xié)議處理塊306經一條第六數據路徑314到一個本地語音合成器305。本地語音合成器305把文本串轉換成語音信號的參量表示，并且把該參量表示經第七數據路徑315通到語音合成后端304以轉換到語音信號。
應該注意，接收數據連接231能用來運送除語音合成信息之外的其它接收信息。例如，其它接收信息可以包括數據(如顯示信息)和/或從基礎結構接收的控制信息、和要下載到系統(tǒng)中的代碼。同樣，發(fā)射數據連接232除由語音識別前端302計算的參量向量之外能用來運送其它發(fā)射信息。例如，其它發(fā)射信息可以包括器件狀態(tài)信息、器件能力、及與闖入計時有關的信息。
現在參照圖4，表明有按照本發(fā)明提供客戶機-服務器語音識別和合成系統(tǒng)的服務器部分的語音識別服務器的硬件實施例。這種服務器能駐留在對于圖1以上描述的幾種環(huán)境中。與用戶單元或控制實體的數據通信能夠通過基礎結構或網絡連接411實現。這種連接411對于例如無線系統(tǒng)可以是本地的，并且直接連接到無線網絡上，如圖1中所示。要不然，連接411可以是公共或私人數據網絡、或其它的數據通信鏈接；本發(fā)明在這方面不受限制。
一個網絡接口405提供在CPU401與網絡連接411之間的連接性。網絡接口405把數據從網絡411經接收路徑408通到CPU401，并且從CPU401經發(fā)射路徑410通到網絡連接411。作為客戶機-服務器布置的部分，CPU401經網絡接口405和網絡連接411與一個或多個客戶機通信(最好在用戶單元中實現)。在一個最佳實施例中，CPU401實現客戶機-服務器語音識別和合成系統(tǒng)的服務器部分。盡管沒有表示，表明在圖4中的服務器也可以包括一個允許對服務器本地訪問的本地接口，由此促進例如服務器維護、狀態(tài)檢查及其它類似功能。
一個存儲器403存儲在實施客戶機-服務器布置的服務器部分時由CPU401執(zhí)行和使用的機器可讀指令(軟件)和程序數據。這種軟件的操作和結構參照圖5進一步描述。
圖5表明語音識別和合成服務器功能的實施。與至少一個語音識別客戶機合作，表明在圖5中的語音識別服務器功能提供一個語音識別元件。來自用戶單元的數據經收發(fā)機路徑408到達接收機(RX)502處。收發(fā)機譯碼數據，并且把語音識別數據503從語音識別客戶機通到語音識別分析器504。來自用戶單元的其它信息506，如器件狀態(tài)信息、器件能力、及與闖入上下文有關的信息通過接收機502通到一個本地控制處理器508。在一個實施例中，其它信息506包括來自用戶單元已經致動語音識別元件的一部分(例如，語音識別客戶機)的指示。這樣一種指示能用來啟動在語音識別服務器中的語音識別處理。
作為客戶機-服務器語音識別布置的部分，語音識別分析器504從用戶單元取出語音識別參數向量，并且完成識別處理。識別的話語或發(fā)聲507然后通到本地控制處理器508。要求把參數向量轉換成識別發(fā)聲的處理的描述能在Lee等的“Automatic Speech RecognitionTheDevelopment of the Sphinx System”，1998中發(fā)現，該出版物的講授通過這種參考包括在這里。如以上描述的那樣，也要理解，與其從用戶單元接收參數向量，倒不如服務器(就是說，語音識別分析器504)可以接收沒有參數化的語音信息。同樣，語音信息可以具有上述多種形式的任一種。在這種情況下，語音識別分析器504首先使用例如嘜耳逆譜技術參數化語音信息。生成的參數向量如上述那樣然后可以轉換成識別發(fā)聲。
本地控制處理器508從語音識別分析器504接收識別發(fā)聲507和其它信息508。一般地，本發(fā)明需要控制處理器基于識別發(fā)聲而操作，并且根據識別發(fā)聲提供控制信號。在一個最佳實施例中，這些控制信號用來以后控制用戶單元或聯接到用戶單元上的至少一個器件的操作。為此，本地控制處理器可以最好以兩種方式的一種操作。首先，本地控制處理器508能實現應用程序。典型應用程序的一個例子是在美國專利No.5,652,789中描述的電子助手。要不然，這樣的應用程序能在遠程控制處理器516上遠程運行。例如，在圖1的系統(tǒng)中，遠程控制處理器包括控制實體116。在這種情況下，本地控制處理器508通過經數據網絡連接515與遠程控制處理器516通信，借助于通過和接收數據像網關那樣操作。數據網絡連接515可以是公共的(例如，互聯網)、私人的(例如，內部網絡)、或一些其它數據通信鏈路。的確，本地控制處理器508可以依據由用戶使用的應用程序/服務與駐留在數據網絡上的各種遠程控制處理器通信。
在遠程控制處理器516或本地控制處理器508上運行的應用程序，確定對識別發(fā)聲507和/或其它信息506的響應。最好，響應可以包括一條合成消息和/或控制信號?？刂菩盘?13從本地控制處理器508轉發(fā)到發(fā)射機(TX)510。要合成的信息514，典型的文本信息，從本地控制處理器508發(fā)送到文本至語音分析器512。文本至語音分析器512把輸入文本串轉換成參量語音表示。用來進行這樣一種轉換的適當技術在Sproat(編輯)的“Multilingual Text-To-Speech SynthesisTheBell Labs Approach”，1997中描述，該出版物的講授通過這種參考包括在這里。來自文本至語音分析器512的參量語音表示511提供給發(fā)射機510，發(fā)射機510如必需的那樣倍增參量語音表示511和在發(fā)射路徑410上的控制信息513，以便發(fā)射到用戶單元。以剛描述的相同方式操作，文本至語音分析器512也可以用來提供合成提示等，以作為在用戶單元處的輸出聲頻信號播放。
參照圖6，表明描述按照本發(fā)明的用戶單元的操作的流程圖。在步驟601開始，用戶單元的用戶經與基礎結構的無線通信，忙于通過基礎結構與另一個人的聲音通信。使用上述機構的任一種，例如輸入器件或本地語音識別，和在聲音通信期間，用戶單元在步驟602本地探測中斷指示器的存在。中斷指示器一般指示用戶單元的用戶的希望以中斷聲音通信，例如，喚醒電子助手和開始把基于聲音的命令送給助手。
響應中斷指示器的存在，在步驟603致動語音識別元件的一部分。在一個最佳實施例中，如上述那樣，通過使客戶機-服務器語音識別器和語音合成系統(tǒng)的客戶機側部分開始基于處理聲音的命令。另外，在步驟604，能提供響應中斷指示器存在的指示，以警告用戶已經致動語音識別元件、和特別是駐留在用戶單元上的語音識別元件的該部分。這樣一種指示能是任何足夠獨特和可感覺的刺激物。以這種方式，用戶單元的用戶然后將知道已經認可他們中斷聲音通信的希望、和他們可以繼續(xù)認可已經致動聲音識別元件。另外，在步驟604，可以把對于無線發(fā)射適當處理的指示提供給形成語音識別元件的一部分的語音識別服務器。
上述本發(fā)明提供一種用來喚醒或召喚語音識別功能的獨特技術。部分因為在用戶單元處本地完成中斷指示器的探測，如喚醒命令，所以該技術更容易地適用于無線通信環(huán)境。以上已經描述的只表明本發(fā)明原理的應用。熟悉本專業(yè)的技術人員能實施其它布置和方法，而不脫離本發(fā)明的精神和范圍。
權利要求
1.在一種能夠與基礎結構無線通信由此提供在用戶單元的用戶與另一個人之間經基礎結構的聲音通信的用戶單元中，基礎結構包括一個語音識別服務器，一種方法包括步驟忙于在用戶單元的用戶與其他人之間經基礎結構的聲音通信；在聲音轉換期間本地探測一個中斷指示器；及響應中斷指示器致動語音識別元件的一部分以開始處理基于聲音的命令，其中在基礎結構內至少部分中實現語音識別元件。
2.根據權利要求1所述的方法，其中本地探測的步驟進一步包括步驟致動形成用戶單元的一部分的輸入器件以提供中斷指示器。
3.根據權利要求2所述的方法，其中致動輸入器件的步驟包括致動按鈕、選擇器及菜單驅動輸入器件的任一個的步驟。
4.根據權利要求1所述的方法，其中本地探測的步驟進一步包括步驟經在用戶單元內實現的本地語音識別器、對于至少一個預定發(fā)聲，本地監(jiān)視聲音通信；和在探測到至少一種預定發(fā)聲的一個時，提供中斷指示器。
5.根據權利要求1所述的方法，其中致動語音識別元件的部分的步驟包括步驟致動在用戶單元內實現的語音識別客戶機，其中語音識別客戶機和語音識別服務器合作提供語音識別元件。
6.根據權利要求5所述的方法，進一步包括步驟通過語音識別客戶機把參數化語音信息提供給語音識別服務器。
7.根據權利要求1所述的方法，進一步包括步驟把已經致動語音識別元件部分的指示提供給用戶。
8.根據權利要求1所述的方法，進一步包括步驟把已經致動語音識別元件部分的指示提供給語音識別服務器。
9.一種與基礎結構無線通信的用戶單元，用戶單元包括一個探測器，用來在用戶單元與基礎結構之間的聲音通信期間本地探測中斷指示器的存在；和語音識別元件的一部分，把中斷指示器的存在取作輸入，并且在由中斷指示器的存在致動時，開始處理基于聲音的命令，其中在基礎結構內至少部分中實現語音識別元件。
10.根據權利要求9所述的用戶單元，進一步包括一個輸入器件，聯接到探測器上，當致動時提供中斷指示器。
11.根據權利要求10所述的用戶單元，其中輸入器件包括按鈕、選擇器及菜單驅動輸入器件的任一個。
12.根據權利要求9所述的用戶單元，其中探測器包括一個本地語音識別器，對于至少一種預定發(fā)聲監(jiān)視聲音通信，并且在探測到至少一種預定發(fā)聲的一種時探測中斷指示器的存在。
13.根據權利要求9所述的用戶單元，其中語音識別元件的部分包括一個語音識別客戶機，并且其中語音識別客戶機和在基礎結構內實現的語音識別服務器合作以提供語音識別元件。
14.根據權利要求9所述的用戶單元，進一步包括一個信號器，響應中斷指示器，用來指示語音識別元件的部分已經被致動。
15.根據權利要求9所述的用戶單元，進一步包括一個無線收發(fā)機，把由語音識別元件的部分提供的參數化語音信息發(fā)射到基礎結構。
16.根據權利要求15所述的用戶單元，其中無線收發(fā)機把已經致動語音識別元件部分的指示發(fā)射到基礎結構。
17.一種包括在與基礎結構的無線通信中的至少一個用戶單元的無線通信系統(tǒng)，該無線通信系統(tǒng)包括在至少一個用戶元的每一個內一個探測器，用來在至少一個用戶單元的一個與基礎結構之間的聲音通信期間本地探測中斷指示器的存在；語音識別客戶機，把中斷指示器的存在取作輸入，并且在由中斷指示器的存在致動時，開始處理基于聲音的命令；及一個語音識別服務器，在基礎結構內，與語音識別客戶機合作以提供一個語音識別元件。
18.根據權利要求17所述的無線通信系統(tǒng)，其中至少一個用戶單元包括一個無線電話。
19.根據權利要求17所述的無線通信系統(tǒng)，其中至少一個用戶單元包括一個車載無線通信器件。
20.在一種形成基礎結構一部分和語音識別元件一部分的語音識別服務器中，基礎結構與至少一個用戶單元通信，一種方法包括步驟從至少一個用戶單元的用戶單元接收在聲音通信期間響應中斷指示器在用戶單元處的本地探測提供的語音信息；和根據語音信息進行語音識別處理。
21.根據權利要求20所述的方法，進一步包括步驟從用戶單元接收一個已經致動語音識別元件的一部分的指示；和根據指示啟動語音識別處理。
22.根據權利要求20所述的方法，其中通過在用戶單元處致動一個輸入器件提供中斷指示器。
23.根據權利要求20所述的方法，其中通過對于至少一種預定發(fā)聲在用戶單元處本地監(jiān)視聲音通信提供中斷指示器。
24.根據權利要求20所述的方法，進一步包括步驟處理語音信息以提供參數化語音信息，其中語音識別處理是基于參數化語音信息。
25.一種用在處于與至少一個用戶單元無線通信的基礎結構中的語音識別服務器，該語音識別服務器包括一個接收機，在聲音通信期間響應中斷指示器在用戶單元處的本地探測，把從至少一個用戶單元的用戶單元接收的輸入語音信息取作輸入；和一個語音識別分析器，根據語音信息進行語音識別處理。
26.根據權利要求25所述的語音識別服務器，其中接收機進一步操作以從用戶單元接收一個已經致動語音識別元件的一部分的指示，并且其中該指示啟動語音識別處理。
27.根據權利要求25所述的語音識別服務器，其中通過在用戶單元處致動一個輸入器件提供中斷指示器。
28.根據權利要求25所述的語音識別服務器，其中通過對于至少一種預定發(fā)聲在用戶單元處本地監(jiān)視聲音通信提供中斷指示器。
29.根據權利要求25所述的語音識別服務器，其中語音識別分析器處理語音信息以提供參數化語音信息，并且語音識別處理是基于參數化語音信息。
全文摘要
在一種無線通信系統(tǒng)(100)中，提供在用戶單元的用戶與另一個人之間的聲音通信期間的一個中斷指示器的本地探測。響應中斷指示器，致動語音識別元件的一部分以開始處理基于聲音的命令。語音識別元件能至少部分在基礎結構中，如在客戶機－服務器語音識別裝置(115)中，實施語音識別元件。使用形成用戶單元一部分的輸入器件、或通過在用戶單元(140)內的本地語音識別器的使用可以提供中斷指示器。通過本地探測在用戶單元處的中斷指示器，本發(fā)明更容易地能夠實現電子助手的使用和在無線通信環(huán)境中的類似服務。
文檔編號G10L15/28GK1408182SQ00816728
公開日2003年4月2日申請日期2000年10月4日優(yōu)先權日1999年10月5日
發(fā)明者艾拉·A·加森申請人:約莫拜爾公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：艾拉.A.加森
技術所有人：約莫拜爾公司
我是此專利的發(fā)明人

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于本地中斷探測的語音識別技術的制作方法