基于語音和手勢識別的多模態(tài)非觸摸人機交互方法及系統(tǒng)的制作方法_2

文檔序號：9248992閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于語音和手勢識別的多模態(tài)非觸摸人機交互方法及系統(tǒng)的制作方法

理語音和手勢輸入的不確定性誤差。此外，基于上下文模態(tài)的先驗概率模型也被考慮進來，增強對當前對話輪次的輸入通道預(yù)測能力。
[0037]在優(yōu)化縮小語音識別和手勢識別的語義搜索空間時，首先使用語義槽(slot)和對應(yīng)值(value)的方法進行用戶意圖理解，用戶的一句話可以被解析為許多的slot-value對，比如:“打電話給小明”的語義是contact =小明；在此基礎(chǔ)上，對于有歧義的value (即有多個可能的語義槽)，根據(jù)領(lǐng)域先驗知識縮小語義搜索空間。在指定領(lǐng)域中，value對應(yīng)多個可能的語義槽slotl, slot2,…，slotk,并有在訓(xùn)練數(shù)據(jù)中統(tǒng)計的value屬于某個slot的先驗概率pl, p2,…，P k,則在一般情況下對value進行領(lǐng)域先驗解析得到:sloti =value, (i = I,…,k)。
[0038]對于有歧義的語義槽，還可根據(jù)上下文信息縮小語義搜索空間。在上一句機器詢問用戶并向用戶請求某個slot的時候(比如:“請說聯(lián)系人名字”，slot為“聯(lián)系人名”)，用戶回答的內(nèi)容解析出該slot對應(yīng)的value的后驗概率加大(比如用戶回復(fù)“移動”，解析得“聯(lián)系人名=移動”的可能性加大)，最終得到用戶的真實意圖。
[0039]在上一句機器詢問用戶并請求用戶在多個某個slot下的多個value之間做選擇時(比如機器詢問“您是要撥打給小明還是移動？ ”)，用戶回答的內(nèi)容解析出該slot對應(yīng)的某個value的后驗概率加大，最終得到用戶的真實意圖。
[0040]對應(yīng)上述基于語音和手勢識別的多模態(tài)非觸摸人機交互方法，可構(gòu)建一種基于語音和手勢識別的多模態(tài)非觸摸人機交互系統(tǒng)，包括語音輸入和手勢輸入模塊、多通道輸入的語義融合、切換以及沖突解析模塊和語義搜索空間優(yōu)化模塊。
[0041]所述語音輸入和手勢輸入模塊用于接收和識別輸入的語音信號與手勢信號。
[0042]所述多通道輸入的語義融合、切換以及沖突解析模塊用于根據(jù)當前系統(tǒng)狀態(tài)以及使用通道判別分類器進行多通道輸入的融合、切換和沖突解決。
[0043]所述語義搜索空間優(yōu)化模塊用于根據(jù)領(lǐng)域信息和對話上下文內(nèi)容提供語義搜索空間的優(yōu)化。
[0044]所述語音輸入和手勢輸入模塊、多通道輸入的語義融合、切換以及沖突解析模塊與語義搜索空間優(yōu)化模塊依次串聯(lián)組成流水過程，用于實現(xiàn)上述的一種基于語音和手勢的多模態(tài)非接觸人機交互方法。
[0045]本發(fā)明提供的所述基于語音和手勢識別的多模態(tài)非觸摸人機交互方法及系統(tǒng)定義了語音及手勢的聯(lián)合語義，動態(tài)整合語音及手勢的語義結(jié)果，并基于對話的領(lǐng)域先驗知識和上下文信息，通過多輪語音或者手勢的混合交互手段優(yōu)化縮小語音識別和手勢識別的語義搜索空間，對用戶的意圖進行理解。
[0046]綜上，本發(fā)明所述的基于語音和手勢識別的多模態(tài)非觸摸人機交互方法及系統(tǒng)具有如下有益效果:
[0047]1、使用語音和手勢的多模態(tài)非接觸式交互方法，提供了更加便利、自然的人機交互方式；
[0048]2、提供了語音和手勢的多模態(tài)輸入的融合、通道切換以及沖突語義解析方案，可靠性尚;
[0049]3、使用領(lǐng)域知識和對話上下文信息，降低語義的歧義性，交互成功率高。
[0050]4、優(yōu)化縮小語義搜索空間，資源消耗低。
[0051]上面結(jié)合附圖對本發(fā)明進行了示例性的描述，顯然本發(fā)明的實現(xiàn)并不受上述方式的限制，只要采用了本發(fā)明的方法構(gòu)思和技術(shù)方案進行的各種改進，或未經(jīng)改進將本發(fā)明的構(gòu)思和技術(shù)方案直接應(yīng)用于其它場合的，均在本發(fā)明的保護范圍內(nèi)。
【主權(quán)項】
1.一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法，其特征在于，包括以下步驟: 51、解析用戶輸入的語音或手勢，確定用戶意圖； 52、根據(jù)用戶意圖制定語音與手勢的聯(lián)合語義表示，建立語義搜索空間和手勢搜索空間的映射； 53、當語音和手勢多路輸入同時存在時，融合語音和手勢識別的語義，根據(jù)對話的狀態(tài)切換兩種不同的輸入通道，處理多路輸入沖突時的語義解析； 54、優(yōu)化縮小語音識別和手勢識別的語義搜索空間，最終得到用戶的真實意圖。2.根據(jù)權(quán)利要求1所述的一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法，其特征在于，步驟S2包括: 使用對話過程中的用戶語義和系統(tǒng)反饋語義的聯(lián)合分布定義系統(tǒng)狀態(tài)；根據(jù)不同的系統(tǒng)狀態(tài)以及語音語義和手勢語義的交并集處理，對兩種輸入的語義作語義映射。3.根據(jù)權(quán)利要求1所述的一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法，其特征在于，步驟S3包括: 支持語音輸入和手勢輸入的雙通道識別，并在特定的系統(tǒng)狀態(tài)下自動開啟手勢識別；將語音和手勢作為互斥輸入源，一旦接收到其中一路有效輸入后就立即關(guān)閉另外一路的輸入信息。4.根據(jù)權(quán)利要求1所述的一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法，其特征在于，步驟S3采取基于統(tǒng)計機器學(xué)習(xí)、以分類器的置信度或者概率輸出進行通道選擇判斷以及融合的方法處理多路輸入沖突。5.根據(jù)權(quán)利要求4所述的一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法，其特征在于，分類器以語音輸入和手勢輸入的信號數(shù)字特征、識別中間結(jié)果、識別置信度等作為輸入特征，通過數(shù)據(jù)學(xué)習(xí)，對語音和手勢輸入輸出信號通道的選擇置信度或者概率。6.根據(jù)權(quán)利要求5所述的一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法，其特征在于，若其中一方通道的置信度或者概率值大于設(shè)置好的閾值時，則關(guān)閉另外一路的輸入信息；否則以概率整合的形式合并兩路輸入的語義解析結(jié)果。7.根據(jù)權(quán)利要求1所述的一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法，其特征在于，步驟S4包括: 使用語義槽和對應(yīng)值的方法進行用戶意圖理解，使用戶的一句話可以被解析為許多的語義槽-對應(yīng)值對；對于有歧義的語義槽，使用領(lǐng)域先驗知識和對話上下文信息作為先驗知識，再通過后驗概率的加權(quán)，優(yōu)化縮小語音識別和手勢識別的語義搜索空間，修改語音識別和手勢識別的語義備選項的置信度或概率值，最終得到用戶的真實意圖。8.一種基于語音和手勢識別的多模態(tài)非觸摸人機交互系統(tǒng)，其特征在于，包括: 語音輸入和手勢輸入模塊，用于接收和識別輸入的語音信號與手勢信號；多通道輸入的語義融合、切換以及沖突解析模塊，用于根據(jù)當前系統(tǒng)狀態(tài)以及使用通道判別分類器進行多通道輸入的融合、切換和沖突解決；語義搜索空間優(yōu)化模塊，用于根據(jù)領(lǐng)域信息和對話上下文內(nèi)容提供語義搜索空間的優(yōu)化；所述語音輸入和手勢輸入模塊、多通道輸入的語義融合、切換以及沖突解析模塊與語義搜索空間優(yōu)化模塊依次串聯(lián)組成流水過程，用于實現(xiàn)如上述權(quán)利要求1至權(quán)利要求7所述的一種基于語音和手勢的多模態(tài)非接觸人機交互方法。
【專利摘要】本發(fā)明公開了一種基于語音和手勢識別的多模態(tài)非觸摸人機交互方法及系統(tǒng)，在基本的語音識別、手勢識別的基礎(chǔ)上，通過定義語音和手勢的聯(lián)合語義表示，基于語音識別和手勢識別進行語義理解、融合以及多通道信息沖突處理，基于領(lǐng)域先驗知識和對話上下文信息優(yōu)化語音識別和手勢識別的語義空間搜索空間，最終基于多輪次交互對用戶意圖進行理解，提供非常便利、自然的人機交互方式，具有可靠性高、交互成功率高和資源消耗低的優(yōu)點。
【IPC分類】G10L15/22, G06F3/01
【公開號】CN104965592
【申請?zhí)枴緾N201510396954
【發(fā)明人】周偉達, 梅微星, 俞凱, 朱蘇
【申請人】蘇州思必馳信息科技有限公司
【公開日】2015年10月7日
【申請日】2015年7月8日

完整全部詳細技術(shù)資料下載

當前第2頁1 2

相關(guān)技術(shù)