改善移動設(shè)備的語音識別的制作方法

文檔序號：2821065閱讀：256來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：改善移動設(shè)備的語音識別的制作方法
技術(shù)領(lǐng)域：
本發(fā)明通常涉及基于處理器的具備語音識別能力的移動系統(tǒng)。
背景技術(shù)：
提及到若干實例，基于處理器的移動系統(tǒng)包括諸如手持設(shè)備、個人數(shù)字助理、數(shù)碼相機、膝上型電腦、數(shù)據(jù)輸入設(shè)備、數(shù)據(jù)采集設(shè)備、遠(yuǎn)程控制單元、聲音記錄設(shè)備、以及蜂窩電話等等的設(shè)備。這些設(shè)備中的許多設(shè)備可具備語音識別能力。
利用語音識別，用戶所說的話可被轉(zhuǎn)換為文本。作為另一個實例，可將所說的話作為指令接收，該指令能夠選擇和操作基于處理器的系統(tǒng)的能力。
在大量的例子中，給定設(shè)備識別語音或標(biāo)識一個說話者的能力是相對有限的。各種周圍環(huán)境條件可能負(fù)面地影響語音識別或說話者識別的質(zhì)量。由于周圍條件可能會不可預(yù)測地發(fā)生變化，因此消除周圍環(huán)境對移動語音識別平臺的影響更加困難。
因而，需要一種更好的方式來實現(xiàn)基于處理器的移動系統(tǒng)的語音識別。

圖1示意性描述了本發(fā)明的一個實施例；圖2為根據(jù)本發(fā)明一個實施例的在圖1所示實施例中有利使用的流程圖；以及圖3為根據(jù)本發(fā)明一個實施例的在圖1所示實施例中有利使用的流程圖。
具體實施例方式
參考圖1，具備語音功能的基于處理器的移動系統(tǒng)14可以為任何一種通常利用電池供電的基于處理器的移動系統(tǒng)。這些設(shè)備的一些實例包括膝上型電腦、個人數(shù)字助理、蜂窩電話、數(shù)碼相機、數(shù)據(jù)輸入設(shè)備、數(shù)據(jù)采集設(shè)備、器具以及聲音記錄設(shè)備等等，以提及若干的實例。
通過在設(shè)備14內(nèi)包含位置檢測能力，在各種環(huán)境或周圍條件下可改善識別所說話語的能力。因此，設(shè)備14可包括一個位置檢測器或基于定位的服務(wù)(LBS)的客戶機26。使用各種技術(shù)、諸如全球定位衛(wèi)星、熱點檢測、小區(qū)檢測、無線電三角測量或其他技術(shù)等可實現(xiàn)位置檢測。
位置的各個方面可用于改善語音識別。系統(tǒng)14的物理位置可提供有關(guān)周圍空間的聲學(xué)特征的信息。這些特征可以包括房間的大小、諸如通風(fēng)道或外部窗戶之類的噪聲源，以及回響特征。
在網(wǎng)絡(luò)基礎(chǔ)設(shè)施、諸如基于位置的服務(wù)(LBS)的服務(wù)器12中能夠存儲該數(shù)據(jù)。對于被頻繁訪問的位置，可將這些特征存儲在系統(tǒng)14的數(shù)據(jù)存儲器28自身中。在本發(fā)明的一個實施例中，服務(wù)器12可通過無線網(wǎng)絡(luò)18耦合到系統(tǒng)14。
位置的其他方面包括在附近使用可比擬系統(tǒng)14的說話者的物理位置，這些方面可產(chǎn)生改善語音識別的杠桿作用。所述說話者可能為潛在的干擾源，并且能夠基于其與系統(tǒng)14的用戶的接近程度識別這些說話者。另外，可通過預(yù)訂他們的存在信息或尤其通過發(fā)現(xiàn)同等層推斷出附近攜帶可比擬系統(tǒng)14的人的身份。而且，可以確定系統(tǒng)14的方位，這可能為改善語音識別提供有用的信息。
系統(tǒng)14包括耦合到位置檢測器/基于位置的服務(wù)的客戶機26的語音環(huán)境(context)管理器24、語音識別器22、和噪聲減少語音預(yù)處理器20。
根據(jù)本發(fā)明的一個實施例，當(dāng)系統(tǒng)14試圖進(jìn)行語音識別時，語音環(huán)境管理器24從服務(wù)器12檢索當(dāng)前的環(huán)境。根據(jù)周圍空間的大小，環(huán)境管理器24調(diào)整識別器22的聲學(xué)模型以計算回響。
可以用包括使用諸如已知目標(biāo)的最大似然線性回歸等模型自適應(yīng)方法的各種方式完成這種調(diào)整。該目標(biāo)轉(zhuǎn)換可能已經(jīng)在該位置上在先前遇到時被估計，或可以從與該空間相關(guān)的回響時間推斷得出。也可以通過從一組先前訓(xùn)練的聲學(xué)模型中選擇來完成該調(diào)整，該聲學(xué)模型匹配用戶所典型遇到的各種聲學(xué)空間。
作為另一種替換，環(huán)境管理器24可選自特征提取和噪聲降低算法，這些算法抑制基于聲學(xué)空間大小的回響。還可以修改該聲學(xué)模型以匹配所選擇的前端噪聲降低和特征提取。模型還可以根據(jù)附近人的身份進(jìn)行調(diào)整，如果存在模型的話，則檢索并載入用于每個人的依賴于說話者的聲學(xué)模型。在本發(fā)明的一個實施例中，這些模型還用于走廊討論的自動錄音。
如果先前已經(jīng)遇到了該聲學(xué)空間，則另一種可完成調(diào)整的方式是通過初始化并調(diào)整一個新的聲學(xué)模型。一旦對該位置充分地進(jìn)行模擬，系統(tǒng)14就可以發(fā)送信息到服務(wù)器12并將其存儲在遠(yuǎn)程數(shù)據(jù)存儲器16中，以用于將來的訪問者訪問相同的位置。
作為另一個根據(jù)附近說話者的身份進(jìn)行調(diào)整的實例，系統(tǒng)14可輔助用戶將他們識別為錄音源。錄音源為應(yīng)該錄音其語音的人。用戶周圍的潛在源列表可提供給該用戶。在一個實施例中，用戶可從列表中選擇想要的錄音源。
作為另一個基于系統(tǒng)10的方位、鄰近的人們的位置和將其指定為錄音源的實例，預(yù)處理器20所控制的麥克風(fēng)陣列可配置成在不是錄音源的最近的人的方向上置零。由于該方向可能不是特別精確并易遭受突然的變化，因此這種方法不可能通過麥克風(fēng)陣列代替干擾者跟蹤。但是，它可提供一種當(dāng)干擾者不說話時置零的機制，借此顯著地改善了當(dāng)干擾者講話人開始說話時的性能。
參考圖2，根據(jù)本發(fā)明的一個實施例，語音環(huán)境管理器24可為基于處理器的設(shè)備，包括處理器和存儲將在處理器上執(zhí)行的指令的存儲器。因此，語音環(huán)境管理器24可以為軟件或者是硬件。一開始，如方框30所示，語音環(huán)境管理器24從服務(wù)器12檢索當(dāng)前的環(huán)境。然后，如方框32所示，環(huán)境管理器24可以確定接近于設(shè)備14的周圍空間的大小。如方框34所示，設(shè)備14可調(diào)整識別器的聲學(xué)模型以計算本地回響。
然后，如方框36所示，可根據(jù)對本地環(huán)境的認(rèn)識選擇特征提取和噪聲減少算法。另外，如方框38所示，可檢索和載入用于附近說話者的依賴于說話者的聲學(xué)模型。在一個實施例中，可從服務(wù)器12檢索這些模型。
如方框40所示，根據(jù)如位置檢測器/LBS客戶機26檢測到的系統(tǒng)14的位置可開發(fā)新的聲學(xué)模型。如方框42所示，與位置坐標(biāo)鏈接的新模型可通過無線網(wǎng)絡(luò)18發(fā)送到服務(wù)器12，以用于潛在的未來使用。在某些實施例中，可從服務(wù)器12獲取該模型，以及在其他情況下，可通過系統(tǒng)14獨立地或與服務(wù)器12合作來開發(fā)這些模型以用于即時動態(tài)使用。
如方框44所示，可以識別其語音應(yīng)該被識別的任何說話者。如方框46所示，可配置麥克風(fēng)陣列預(yù)處理器20。然后，如方框48所示，實現(xiàn)已獲得位置信息的好處的語音識別。
參考圖3，根據(jù)本發(fā)明的一個實施例，LBS服務(wù)器12可通過軟件50來實現(xiàn)。軟件50可存儲在服務(wù)器12上的合適的存儲器中。一開始，如方框52所確定，服務(wù)器12從系統(tǒng)14接收一個環(huán)境信息的請求。如方框54所示，一旦接收了請求，服務(wù)器12則從系統(tǒng)14獲取該位置信息。然后，如方框56所示，可將該位置信息與數(shù)據(jù)存儲器16中可用的模型相關(guān)聯(lián)。如方框58所示，一旦識別了合適的模型，可通過無線網(wǎng)絡(luò)將環(huán)境發(fā)送到設(shè)備14。
盡管已經(jīng)參考有限數(shù)量的實施例描述了本發(fā)明，但是本領(lǐng)域的普通技術(shù)人員將會理解可以對本發(fā)明作出各種修改和變型。意圖在于所附的權(quán)利要求覆蓋落入本發(fā)明實質(zhì)精神和范圍內(nèi)的全部的這些修改和變型。
權(quán)利要求
1.一種方法，包括獲取有關(guān)移動設(shè)備位置的信息；以及使用所述位置信息提供語音識別。
2.根據(jù)權(quán)利要求1所述的方法，包括獲取鏈接到特定位置的聲學(xué)模型，以便用于改善語音識別。
3.根據(jù)權(quán)利要求2所述的方法，包括通過無線網(wǎng)絡(luò)從遠(yuǎn)程服務(wù)器接收所述模型。
4.根據(jù)權(quán)利要求2所述的方法，包括根據(jù)本地特征設(shè)計(tailor)聲學(xué)模型。
5.根據(jù)權(quán)利要求4所述的方法，包括將所述模型和位置坐標(biāo)一起發(fā)送到遠(yuǎn)程服務(wù)器。
6.根據(jù)權(quán)利要求1所述的方法，其中，獲取信息包括獲取有關(guān)周圍空間大小的信息。
7.根據(jù)權(quán)利要求1所述的方法，其中，獲取信息包括調(diào)整聲學(xué)模型以考慮回響。
8.根據(jù)權(quán)利要求1所述的方法，其中，獲取信息包括選擇特征提取或噪聲降低算法。
9.根據(jù)權(quán)利要求1所述的方法，其中，獲取信息包括獲取有關(guān)附近說話者的信息。
10.根據(jù)權(quán)利要求1所述的方法，其中，獲取信息包括獲取有關(guān)周圍空間大小的信息，獲取有關(guān)回響的信息，選擇噪聲降低算法，以及獲取有關(guān)附近說話者的信息，以便開發(fā)出用于當(dāng)前位置的新聲學(xué)模型。
11.根據(jù)權(quán)利要求1所述的方法，包括根據(jù)不必識別其語音的附近說話者的位置配置一個麥克風(fēng)陣列。
12.一種包括存儲指令的介質(zhì)的產(chǎn)品，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行以下步驟獲取有關(guān)移動設(shè)備位置的信息；以及使用所述位置信息提供語音識別。
13.根據(jù)權(quán)利要求12的產(chǎn)品，還存儲以下指令，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行以下步驟，即獲取鏈接到特定位置的聲學(xué)模型以便用于改善語音識別。
14.根據(jù)權(quán)利要求13的產(chǎn)品，還存儲以下指令，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行通過無線網(wǎng)絡(luò)從遠(yuǎn)程服務(wù)器接收所述模型的步驟。
15.根據(jù)權(quán)利要求13的產(chǎn)品，還存儲以下指令，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行根據(jù)本地特征設(shè)計聲學(xué)模型的步驟。
16.根據(jù)權(quán)利要求15的產(chǎn)品，還存儲以下指令，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行將所述模型與位置坐標(biāo)一起發(fā)送到遠(yuǎn)程服務(wù)器的步驟。
17.根據(jù)權(quán)利要求12的產(chǎn)品，還存儲以下指令，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行獲取信息的步驟，它包括獲取有關(guān)周圍空間大小的信息。
18.根據(jù)權(quán)利要求12的產(chǎn)品，還存儲以下指令，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行獲取信息的步驟，它包括調(diào)整聲學(xué)模型以考慮回響。
19.根據(jù)權(quán)利要求12的產(chǎn)品，還存儲以下指令，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行獲取信息的步驟，它包括選擇特征提取或噪聲降低算法。
20.根據(jù)權(quán)利要求12的產(chǎn)品，還存儲以下指令，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行獲取信息的步驟，它包括獲取有關(guān)附近說話者的信息。
21.根據(jù)權(quán)利要求12的產(chǎn)品，還存儲以下指令，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行獲取信息的步驟，它包括獲取有關(guān)周圍空間大小的信息，獲取有關(guān)回響的信息，選擇噪聲降低算法，以及獲取有關(guān)附近說話者的信息，以便開發(fā)出用于當(dāng)前位置的新聲學(xué)模型。
22.根據(jù)權(quán)利要求12的產(chǎn)品，還存儲以下指令，如果執(zhí)行該指令，則使基于處理器的系統(tǒng)能夠執(zhí)行根據(jù)不必識別其語音的附近說話者的位置而配置一個麥克風(fēng)陣列的步驟。
23.一種系統(tǒng)，包括處理器；耦合到所述處理器的位置確定設(shè)備；以及耦合到所述處理器的存儲器，該存儲器存儲有使處理器能夠使用位置信息來提供語音識別的指令。
24.根據(jù)權(quán)利要求23所述的系統(tǒng)，其中，所述位置確定設(shè)備為全球定位衛(wèi)星設(shè)備。
25.根據(jù)權(quán)利要求23所述的系統(tǒng)，其中，所述存儲器存儲有使處理器能夠獲取鏈接到特定位置的聲學(xué)模型以便用于改善語音識別的指令。
26.根據(jù)權(quán)利要求25所述的系統(tǒng)，其中，所述存儲器存儲用于通過無線網(wǎng)絡(luò)從遠(yuǎn)程服務(wù)器接收模型的指令。
27.根據(jù)權(quán)利要求24所述的系統(tǒng)，其中，所述系統(tǒng)自動地為特定位置設(shè)計一種聲學(xué)模型并將該模型與位置坐標(biāo)一起發(fā)送到遠(yuǎn)程服務(wù)器。
28.根據(jù)權(quán)利要求23所述的系統(tǒng)，其中，所述系統(tǒng)自動獲取有關(guān)所述系統(tǒng)周圍空間大小的信息。
29.根據(jù)權(quán)利要求23所述的系統(tǒng)，其中，所述系統(tǒng)自動獲取有關(guān)附近說話者的信息。
30.根據(jù)權(quán)利要求29所述的系統(tǒng)，其中，所述系統(tǒng)包括一個麥克風(fēng)陣列，并根據(jù)附近說話者的位置來自動地配置所述麥克風(fēng)陣列。
全文摘要
通過使用位置信息可改善基于處理器的移動設(shè)備(14)中的語音識別?？梢詮牟寮迳系挠布?26)或者遠(yuǎn)程提供的信息中得到位置信息。位置信息以各種方式輔助改善語音識別。例如，通過位置信息可增強適應(yīng)于包括回響和噪聲特征的本地周圍環(huán)境條件的能力。在某些實施例中，可從遠(yuǎn)程服務(wù)器(12)為給定位置提供預(yù)先開發(fā)的模型或環(huán)境信息。
文檔編號G10L15/20GK1692407SQ03814192
公開日2005年11月2日申請日期2003年6月10日優(yōu)先權(quán)日2002年6月20日
發(fā)明者M·戴謝爾, R·克瑙爾哈斯申請人:英特爾公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：M.戴謝爾;R.克瑙爾哈斯
技術(shù)所有人：英特爾公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音識別設(shè)備相關(guān)技術(shù)

語音識別的應(yīng)用相關(guān)技術(shù)

語音識別技術(shù)的應(yīng)用相關(guān)技術(shù)

語音識別的意義相關(guān)技術(shù)

語音識別技術(shù)的發(fā)展相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

改善移動設(shè)備的語音識別的制作方法