亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

改善移動設(shè)備的語音識別的制作方法

文檔序號:2821065閱讀:256來源:國知局
專利名稱:改善移動設(shè)備的語音識別的制作方法
技術(shù)領(lǐng)域
本發(fā)明通常涉及基于處理器的具備語音識別能力的移動系統(tǒng)。
背景技術(shù)
提及到若干實例,基于處理器的移動系統(tǒng)包括諸如手持設(shè)備、個人數(shù)字助理、數(shù)碼相機、膝上型電腦、數(shù)據(jù)輸入設(shè)備、數(shù)據(jù)采集設(shè)備、遠(yuǎn)程控制單元、聲音記錄設(shè)備、以及蜂窩電話等等的設(shè)備。這些設(shè)備中的許多設(shè)備可具備語音識別能力。
利用語音識別,用戶所說的話可被轉(zhuǎn)換為文本。作為另一個實例,可將所說的話作為指令接收,該指令能夠選擇和操作基于處理器的系統(tǒng)的能力。
在大量的例子中,給定設(shè)備識別語音或標(biāo)識一個說話者的能力是相對有限的。各種周圍環(huán)境條件可能負(fù)面地影響語音識別或說話者識別的質(zhì)量。由于周圍條件可能會不可預(yù)測地發(fā)生變化,因此消除周圍環(huán)境對移動語音識別平臺的影響更加困難。
因而,需要一種更好的方式來實現(xiàn)基于處理器的移動系統(tǒng)的語音識別。


圖1示意性描述了本發(fā)明的一個實施例;圖2為根據(jù)本發(fā)明一個實施例的在圖1所示實施例中有利使用的流程圖;以及圖3為根據(jù)本發(fā)明一個實施例的在圖1所示實施例中有利使用的流程圖。
具體實施例方式
參考圖1,具備語音功能的基于處理器的移動系統(tǒng)14可以為任何一種通常利用電池供電的基于處理器的移動系統(tǒng)。這些設(shè)備的一些實例包括膝上型電腦、個人數(shù)字助理、蜂窩電話、數(shù)碼相機、數(shù)據(jù)輸入設(shè)備、數(shù)據(jù)采集設(shè)備、器具以及聲音記錄設(shè)備等等,以提及若干的實例。
通過在設(shè)備14內(nèi)包含位置檢測能力,在各種環(huán)境或周圍條件下可改善識別所說話語的能力。因此,設(shè)備14可包括一個位置檢測器或基于定位的服務(wù)(LBS)的客戶機26。使用各種技術(shù)、諸如全球定位衛(wèi)星、熱點檢測、小區(qū)檢測、無線電三角測量或其他技術(shù)等可實現(xiàn)位置檢測。
位置的各個方面可用于改善語音識別。系統(tǒng)14的物理位置可提供有關(guān)周圍空間的聲學(xué)特征的信息。這些特征可以包括房間的大小、諸如通風(fēng)道或外部窗戶之類的噪聲源,以及回響特征。
在網(wǎng)絡(luò)基礎(chǔ)設(shè)施、諸如基于位置的服務(wù)(LBS)的服務(wù)器12中能夠存儲該數(shù)據(jù)。對于被頻繁訪問的位置,可將這些特征存儲在系統(tǒng)14的數(shù)據(jù)存儲器28自身中。在本發(fā)明的一個實施例中,服務(wù)器12可通過無線網(wǎng)絡(luò)18耦合到系統(tǒng)14。
位置的其他方面包括在附近使用可比擬系統(tǒng)14的說話者的物理位置,這些方面可產(chǎn)生改善語音識別的杠桿作用。所述說話者可能為潛在的干擾源,并且能夠基于其與系統(tǒng)14的用戶的接近程度識別這些說話者。另外,可通過預(yù)訂他們的存在信息或尤其通過發(fā)現(xiàn)同等層推斷出附近攜帶可比擬系統(tǒng)14的人的身份。而且,可以確定系統(tǒng)14的方位,這可能為改善語音識別提供有用的信息。
系統(tǒng)14包括耦合到位置檢測器/基于位置的服務(wù)的客戶機26的語音環(huán)境(context)管理器24、語音識別器22、和噪聲減少語音預(yù)處理器20。
根據(jù)本發(fā)明的一個實施例,當(dāng)系統(tǒng)14試圖進(jìn)行語音識別時,語音環(huán)境管理器24從服務(wù)器12檢索當(dāng)前的環(huán)境。根據(jù)周圍空間的大小,環(huán)境管理器24調(diào)整識別器22的聲學(xué)模型以計算回響。
可以用包括使用諸如已知目標(biāo)的最大似然線性回歸等模型自適應(yīng)方法的各種方式完成這種調(diào)整。該目標(biāo)轉(zhuǎn)換可能已經(jīng)在該位置上在先前遇到時被估計,或可以從與該空間相關(guān)的回響時間推斷得出。也可以通過從一組先前訓(xùn)練的聲學(xué)模型中選擇來完成該調(diào)整,該聲學(xué)模型匹配用戶所典型遇到的各種聲學(xué)空間。
作為另一種替換,環(huán)境管理器24可選自特征提取和噪聲降低算法,這些算法抑制基于聲學(xué)空間大小的回響。還可以修改該聲學(xué)模型以匹配所選擇的前端噪聲降低和特征提取。模型還可以根據(jù)附近人的身份進(jìn)行調(diào)整,如果存在模型的話,則檢索并載入用于每個人的依賴于說話者的聲學(xué)模型。在本發(fā)明的一個實施例中,這些模型還用于走廊討論的自動錄音。
如果先前已經(jīng)遇到了該聲學(xué)空間,則另一種可完成調(diào)整的方式是通過初始化并調(diào)整一個新的聲學(xué)模型。一旦對該位置充分地進(jìn)行模擬,系統(tǒng)14就可以發(fā)送信息到服務(wù)器12并將其存儲在遠(yuǎn)程數(shù)據(jù)存儲器16中,以用于將來的訪問者訪問相同的位置。
作為另一個根據(jù)附近說話者的身份進(jìn)行調(diào)整的實例,系統(tǒng)14可輔助用戶將他們識別為錄音源。錄音源為應(yīng)該錄音其語音的人。用戶周圍的潛在源列表可提供給該用戶。在一個實施例中,用戶可從列表中選擇想要的錄音源。
作為另一個基于系統(tǒng)10的方位、鄰近的人們的位置和將其指定為錄音源的實例,預(yù)處理器20所控制的麥克風(fēng)陣列可配置成在不是錄音源的最近的人的方向上置零。由于該方向可能不是特別精確并易遭受突然的變化,因此這種方法不可能通過麥克風(fēng)陣列代替干擾者跟蹤。但是,它可提供一種當(dāng)干擾者不說話時置零的機制,借此顯著地改善了當(dāng)干擾者講話人開始說話時的性能。
參考圖2,根據(jù)本發(fā)明的一個實施例,語音環(huán)境管理器24可為基于處理器的設(shè)備,包括處理器和存儲將在處理器上執(zhí)行的指令的存儲器。因此,語音環(huán)境管理器24可以為軟件或者是硬件。一開始,如方框30所示,語音環(huán)境管理器24從服務(wù)器12檢索當(dāng)前的環(huán)境。然后,如方框32所示,環(huán)境管理器24可以確定接近于設(shè)備14的周圍空間的大小。如方框34所示,設(shè)備14可調(diào)整識別器的聲學(xué)模型以計算本地回響。
然后,如方框36所示,可根據(jù)對本地環(huán)境的認(rèn)識選擇特征提取和噪聲減少算法。另外,如方框38所示,可檢索和載入用于附近說話者的依賴于說話者的聲學(xué)模型。在一個實施例中,可從服務(wù)器12檢索這些模型。
如方框40所示,根據(jù)如位置檢測器/LBS客戶機26檢測到的系統(tǒng)14的位置可開發(fā)新的聲學(xué)模型。如方框42所示,與位置坐標(biāo)鏈接的新模型可通過無線網(wǎng)絡(luò)18發(fā)送到服務(wù)器12,以用于潛在的未來使用。在某些實施例中,可從服務(wù)器12獲取該模型,以及在其他情況下,可通過系統(tǒng)14獨立地或與服務(wù)器12合作來開發(fā)這些模型以用于即時動態(tài)使用。
如方框44所示,可以識別其語音應(yīng)該被識別的任何說話者。如方框46所示,可配置麥克風(fēng)陣列預(yù)處理器20。然后,如方框48所示,實現(xiàn)已獲得位置信息的好處的語音識別。
參考圖3,根據(jù)本發(fā)明的一個實施例,LBS服務(wù)器12可通過軟件50來實現(xiàn)。軟件50可存儲在服務(wù)器12上的合適的存儲器中。一開始,如方框52所確定,服務(wù)器12從系統(tǒng)14接收一個環(huán)境信息的請求。如方框54所示,一旦接收了請求,服務(wù)器12則從系統(tǒng)14獲取該位置信息。然后,如方框56所示,可將該位置信息與數(shù)據(jù)存儲器16中可用的模型相關(guān)聯(lián)。如方框58所示,一旦識別了合適的模型,可通過無線網(wǎng)絡(luò)將環(huán)境發(fā)送到設(shè)備14。
盡管已經(jīng)參考有限數(shù)量的實施例描述了本發(fā)明,但是本領(lǐng)域的普通技術(shù)人員將會理解可以對本發(fā)明作出各種修改和變型。意圖在于所附的權(quán)利要求覆蓋落入本發(fā)明實質(zhì)精神和范圍內(nèi)的全部的這些修改和變型。
權(quán)利要求
1.一種方法,包括獲取有關(guān)移動設(shè)備位置的信息;以及使用所述位置信息提供語音識別。
2.根據(jù)權(quán)利要求1所述的方法,包括獲取鏈接到特定位置的聲學(xué)模型,以便用于改善語音識別。
3.根據(jù)權(quán)利要求2所述的方法,包括通過無線網(wǎng)絡(luò)從遠(yuǎn)程服務(wù)器接收所述模型。
4.根據(jù)權(quán)利要求2所述的方法,包括根據(jù)本地特征設(shè)計(tailor)聲學(xué)模型。
5.根據(jù)權(quán)利要求4所述的方法,包括將所述模型和位置坐標(biāo)一起發(fā)送到遠(yuǎn)程服務(wù)器。
6.根據(jù)權(quán)利要求1所述的方法,其中,獲取信息包括獲取有關(guān)周圍空間大小的信息。
7.根據(jù)權(quán)利要求1所述的方法,其中,獲取信息包括調(diào)整聲學(xué)模型以考慮回響。
8.根據(jù)權(quán)利要求1所述的方法,其中,獲取信息包括選擇特征提取或噪聲降低算法。
9.根據(jù)權(quán)利要求1所述的方法,其中,獲取信息包括獲取有關(guān)附近說話者的信息。
10.根據(jù)權(quán)利要求1所述的方法,其中,獲取信息包括獲取有關(guān)周圍空間大小的信息,獲取有關(guān)回響的信息,選擇噪聲降低算法,以及獲取有關(guān)附近說話者的信息,以便開發(fā)出用于當(dāng)前位置的新聲學(xué)模型。
11.根據(jù)權(quán)利要求1所述的方法,包括根據(jù)不必識別其語音的附近說話者的位置配置一個麥克風(fēng)陣列。
12.一種包括存儲指令的介質(zhì)的產(chǎn)品,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行以下步驟獲取有關(guān)移動設(shè)備位置的信息;以及使用所述位置信息提供語音識別。
13.根據(jù)權(quán)利要求12的產(chǎn)品,還存儲以下指令,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行以下步驟,即獲取鏈接到特定位置的聲學(xué)模型以便用于改善語音識別。
14.根據(jù)權(quán)利要求13的產(chǎn)品,還存儲以下指令,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行通過無線網(wǎng)絡(luò)從遠(yuǎn)程服務(wù)器接收所述模型的步驟。
15.根據(jù)權(quán)利要求13的產(chǎn)品,還存儲以下指令,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行根據(jù)本地特征設(shè)計聲學(xué)模型的步驟。
16.根據(jù)權(quán)利要求15的產(chǎn)品,還存儲以下指令,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行將所述模型與位置坐標(biāo)一起發(fā)送到遠(yuǎn)程服務(wù)器的步驟。
17.根據(jù)權(quán)利要求12的產(chǎn)品,還存儲以下指令,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行獲取信息的步驟,它包括獲取有關(guān)周圍空間大小的信息。
18.根據(jù)權(quán)利要求12的產(chǎn)品,還存儲以下指令,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行獲取信息的步驟,它包括調(diào)整聲學(xué)模型以考慮回響。
19.根據(jù)權(quán)利要求12的產(chǎn)品,還存儲以下指令,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行獲取信息的步驟,它包括選擇特征提取或噪聲降低算法。
20.根據(jù)權(quán)利要求12的產(chǎn)品,還存儲以下指令,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行獲取信息的步驟,它包括獲取有關(guān)附近說話者的信息。
21.根據(jù)權(quán)利要求12的產(chǎn)品,還存儲以下指令,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行獲取信息的步驟,它包括獲取有關(guān)周圍空間大小的信息,獲取有關(guān)回響的信息,選擇噪聲降低算法,以及獲取有關(guān)附近說話者的信息,以便開發(fā)出用于當(dāng)前位置的新聲學(xué)模型。
22.根據(jù)權(quán)利要求12的產(chǎn)品,還存儲以下指令,如果執(zhí)行該指令,則使基于處理器的系統(tǒng)能夠執(zhí)行根據(jù)不必識別其語音的附近說話者的位置而配置一個麥克風(fēng)陣列的步驟。
23.一種系統(tǒng),包括處理器;耦合到所述處理器的位置確定設(shè)備;以及耦合到所述處理器的存儲器,該存儲器存儲有使處理器能夠使用位置信息來提供語音識別的指令。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),其中,所述位置確定設(shè)備為全球定位衛(wèi)星設(shè)備。
25.根據(jù)權(quán)利要求23所述的系統(tǒng),其中,所述存儲器存儲有使處理器能夠獲取鏈接到特定位置的聲學(xué)模型以便用于改善語音識別的指令。
26.根據(jù)權(quán)利要求25所述的系統(tǒng),其中,所述存儲器存儲用于通過無線網(wǎng)絡(luò)從遠(yuǎn)程服務(wù)器接收模型的指令。
27.根據(jù)權(quán)利要求24所述的系統(tǒng),其中,所述系統(tǒng)自動地為特定位置設(shè)計一種聲學(xué)模型并將該模型與位置坐標(biāo)一起發(fā)送到遠(yuǎn)程服務(wù)器。
28.根據(jù)權(quán)利要求23所述的系統(tǒng),其中,所述系統(tǒng)自動獲取有關(guān)所述系統(tǒng)周圍空間大小的信息。
29.根據(jù)權(quán)利要求23所述的系統(tǒng),其中,所述系統(tǒng)自動獲取有關(guān)附近說話者的信息。
30.根據(jù)權(quán)利要求29所述的系統(tǒng),其中,所述系統(tǒng)包括一個麥克風(fēng)陣列,并根據(jù)附近說話者的位置來自動地配置所述麥克風(fēng)陣列。
全文摘要
通過使用位置信息可改善基于處理器的移動設(shè)備(14)中的語音識別??梢詮牟寮迳系挠布?26)或者遠(yuǎn)程提供的信息中得到位置信息。位置信息以各種方式輔助改善語音識別。例如,通過位置信息可增強適應(yīng)于包括回響和噪聲特征的本地周圍環(huán)境條件的能力。在某些實施例中,可從遠(yuǎn)程服務(wù)器(12)為給定位置提供預(yù)先開發(fā)的模型或環(huán)境信息。
文檔編號G10L15/20GK1692407SQ03814192
公開日2005年11月2日 申請日期2003年6月10日 優(yōu)先權(quán)日2002年6月20日
發(fā)明者M·戴謝爾, R·克瑙爾哈斯 申請人:英特爾公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1