語音交互方法和系統(tǒng)的制作方法

文檔序號：9525209閱讀：369來源：國知局

語音交互方法和系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及語音處理技術領域，尤其涉及一種語音交互方法和系統(tǒng)。
【背景技術】
[0002]隨著汽車工業(yè)的發(fā)展，車載逐漸成為人們生活中的一個重要場景。由于安全性的要求和移動互聯(lián)的發(fā)展，人們已經(jīng)逐漸習慣了通過語音輸入對車載設備進行操控。
[0003]通過語音輸入對車載設備進行操控時，如果同時有多人說話，語音交互系統(tǒng)就難以區(qū)分出目標指令，為此，通常會要求除了指令的發(fā)出者之外的其他人盡量不要說話，但是，這種方式由于增加了對用戶的限制，會使得語音交互系統(tǒng)的適應范圍受限，并且也會影響用戶體驗。

【發(fā)明內(nèi)容】

[0004]本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。
[0005]為此，本發(fā)明的一個目的在于提出一種語音交互方法，該方法可以在多人說話的場景下依然可以識別出目標聲源，從而擴大語音交互系統(tǒng)的適用范圍，提升用戶體驗。
[0006]本發(fā)明的另一個目的在于提出一種語音交互系統(tǒng)。
[0007]為達到上述目的，本發(fā)明第一方面實施例提出的語音交互方法，包括:確定目標用戶，并獲取目標用戶的用戶信息；在需要語音交互時，獲取多人同時說話時的混合聲源，以及，根據(jù)目標用戶的用戶信息，在所述混合聲源中識別出目標聲源；對目標聲源中的語音信息進行語音識別，得到語音識別結(jié)果，并將所述語音識別結(jié)果作為目標指令對交互設備進行操控。
[0008]本發(fā)明第一方面實施例提出的語音交互方法，通過根據(jù)目標用戶的用戶信息在混合聲源中識別出目標聲源，進而根據(jù)目標聲源進行操作，可以在多人說話的場景下依然可以識別出目標聲源，從而擴大語音系統(tǒng)的適用范圍，提升用戶體驗。
[0009]為達到上述目的，本發(fā)明第二方面實施例提出的語音交互系統(tǒng)，包括:獲取模塊，用于確定目標用戶，并獲取目標用戶的用戶信息；識別模塊，用于在需要語音交互時，獲取多人同時說話時的混合聲源，以及，根據(jù)目標用戶的用戶信息，在所述混合聲源中識別出目標聲源；操控模塊，用于對目標聲源中的語音信息進行語音識別，得到語音識別結(jié)果，并將所述語音識別結(jié)果作為目標指令對交互設備進行操控。
[0010]本發(fā)明第二方面實施例提出的語音交互系統(tǒng)，通過根據(jù)目標用戶的用戶信息在混合聲源中識別出目標聲源，進而根據(jù)目標聲源進行操作，可以在多人說話的場景下依然可以識別出目標聲源，從而擴大語音系統(tǒng)的適用范圍，提升用戶體驗。
[0011]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實踐了解到。
【附圖說明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解，其中:
[0013]圖1是本發(fā)明一實施例提出的語音交互方法的流程示意圖；
[0014]圖2是本發(fā)明另一實施例提出的語音交互方法的流程示意圖；
[0015]圖3是本發(fā)明實施例中聲紋注冊的示意圖；
[0016]圖4是本發(fā)明實施例中聲紋登錄的示意圖；
[0017]圖5是本發(fā)明實施例中在混合聲源中識別目標聲源的示意圖；
[0018]圖6是本發(fā)明另一實施例提出的語音交互系統(tǒng)的結(jié)構(gòu)示意圖；
[0019]圖7是本發(fā)明另一實施例提出的語音交互系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0020]下面詳細描述本發(fā)明的實施例，所述實施例的示例在附圖中示出，其中自始至終相同或類似的標號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的，僅用于解釋本發(fā)明，而不能理解為對本發(fā)明的限制。相反，本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0021]圖1是本發(fā)明一實施例提出的語音交互方法的流程示意圖，該方法包括:
[0022]S11:確定目標用戶，并獲取目標用戶的用戶信息。
[0023]目標用戶是指在需要語音交互時，發(fā)出目標指令的用戶。例如，可以將當前登錄語音交互系統(tǒng)的用戶確定為目標用戶，此時，如果需要更改目標用戶，需要更換當前登錄的用戶。
[0024]用戶信息例如包括:聲紋信息，和/或，方位信息。
[0025]其中，在用戶注冊時，語音交互系統(tǒng)可以采集并保存用戶的聲紋信息。相應的，在用戶登錄時可以采集當前登錄用戶的聲紋信息，如果當前的聲紋信息屬于已保存的聲紋信息，則允許用戶登錄，并將當前登錄的用戶確定為目標用戶，由于用戶登錄時采集了聲紋信息，因此可以獲取到目標用戶的聲紋信息。
[0026]另外，語音交互系統(tǒng)根據(jù)聲源定位技術可以確定當前登錄用戶發(fā)出的語音信息的方位，從而獲取目標用戶的方位信息。
[0027]S12:在需要語音交互時，獲取多人同時說話時的混合聲源，以及，根據(jù)目標用戶的用戶信息，在所述混合聲源中識別出目標聲源。
[0028]例如，目標用戶需要對車載設備進行操控時，可以發(fā)出目標指令，而同時還可能存在其他人在說話，從而語音交互系統(tǒng)獲取的聲源不僅包括目標用戶發(fā)出的聲源，還包括其他人發(fā)出的聲源。
[0029]為了準確獲取目標指令，需要先從混合聲源中識別出目標聲源。本實施例中，根據(jù)目標用戶的用戶信息進行識別。
[0030]其中，當根據(jù)目標用戶的聲紋信息進行識別時，例如，可以分別提取混合聲源中的每個聲源的聲音信息，再與預先獲取的目標用戶的聲紋信息進行比對，獲取與目標用戶的聲紋信息匹配一致的聲源，將該匹配一致的聲源確定為目標聲源。
[0031]當根據(jù)目標用戶的方位信息進行識別時，例如，可以采用聲源定位技術分別確定混合聲源中的每個聲源的方位信息，再與預先獲取的目標用戶的方位信息進行比對，獲取與目標用戶的方位信息匹配一致的聲源，將該匹配一致的聲源確定為目標聲源。
[0032]當根據(jù)目標用戶的方位信息和聲紋信息進行識別時，例如，先根據(jù)方位信息排除到部分的聲源，在剩下的聲源中再逐一比對聲紋信息，從而確定出目標聲源。
[0033]其中，在將混合聲源區(qū)分為單個聲源時，可以采用聽覺場景分析技術。聽覺場景分析技術是借鑒視覺場景分析技術產(chǎn)生的，可以對多個同時的語音信號進行區(qū)分。
[0034]S13:對目標聲源中的語音信息進行語音識別，得到語音識別結(jié)果，并將所述語音識別結(jié)果作為目標指令對交互設備進行操控。
[0035]在識別出目標聲源后，可以對其采用語言識別技術，將目標聲源中的聲音數(shù)據(jù)轉(zhuǎn)換為文字數(shù)據(jù)，將文字數(shù)據(jù)作為目標指令，之后可以根據(jù)目標指令進行操控，例如，目標指令是搜索某個目的地的路線，則可以給出到該目的地的路線圖。
[0036]本實施例以車載控制為例，相應的，交互設備是車載設備?？梢岳斫獾氖?，本實施例也可以應用在其他場景，例如，應用在對智能家電的控制等場景。
[0037]本實施例中，通過根據(jù)目標用戶的用戶信息在混合聲源中識別出目標聲源，進而根據(jù)目標聲源進行操作，可以在多人說話的場景下依然可以識別出目標聲源，從而擴大語音系統(tǒng)的適用范圍，提升用戶體驗。
[0038]圖2是本發(fā)明另一實施例提出的語音交互方法的流程示意圖，本實施例以對車載設備進行操控為例。該方法包括:
[0039]S21:用戶進行聲紋注冊。
[0040]例如，參見圖3，在用戶注冊時，獲取用戶輸入的語音信息(S31)，并根據(jù)語音信息獲取并保存用戶的聲紋信息(S32)。
[0041]例如，用戶在語音交互系統(tǒng)中注冊時，語音交互系統(tǒng)可以向用戶展示預設個數(shù)的提示文本，用戶對提示文本進行朗讀，從而獲取用戶輸入的語音信息。預設個數(shù)例如為3個，提示文本例如為字符串。
[0042]語音交互系統(tǒng)獲取到用戶的語音信息后，可以采用已有的聲紋識別技術對語音信息進行聲紋識別，獲取對應的聲紋信息。
[0043]本實施例中的語音交互系統(tǒng)可以是本地語音交互系統(tǒng)(如設置在車載設備內(nèi))，或者，也可以是在線語音交互系統(tǒng)。
[0044]可以理解的，S21可以在用戶開車之前完成。
[0045]S22:在用戶登錄時，將當前登錄的用戶作為目標用戶，采集目標用戶在登錄時產(chǎn)生的語音信息，以及，根據(jù)聲源定位技術，確定目標用戶的方位信息。
[0046]例如，參見圖4，用戶登錄流程可以包括:
[0047]S41

完整全部詳細技術資料下載

當前第1頁1 2 3