一種用于機(jī)器人的輸出方法以及機(jī)器人與流程

文檔序號(hào)：11730569閱讀：226來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及機(jī)器人領(lǐng)域，具體涉及一種用于機(jī)器人的輸出方法以及機(jī)器人。

背景技術(shù)：

隨著機(jī)器人技術(shù)的不斷發(fā)展，智能機(jī)器人的越來(lái)越多的被應(yīng)用到人類日常的生產(chǎn)生活中。

隨著智能機(jī)器人在人類日常生活中的不斷深化應(yīng)用，用戶對(duì)智能機(jī)器人的要求也越來(lái)越高。具體的，用戶不僅希望智能機(jī)器人具備更多的日常應(yīng)用功能，還希望智能機(jī)器人的行為更加貼近人類行為。

但是，在現(xiàn)有技術(shù)中，機(jī)器人的交互輸出往往是對(duì)某個(gè)具體的交互意圖的直接響應(yīng)，其并不包含類似人類行為輸出所包含的某些個(gè)性化細(xì)節(jié)，這就使得機(jī)器人的交互輸出相較人類行為而言顯得生澀、機(jī)械化，從而大大影響機(jī)器人的擬人化水平。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明提供了一種用于機(jī)器人的輸出方法，所述方法包括：

采集多模態(tài)輸入數(shù)據(jù)并解析，確定當(dāng)前用戶的方言屬性；

根據(jù)所述方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型；

結(jié)合所述個(gè)性化方言模型生成響應(yīng)所述多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出。

在一實(shí)施例中，確定當(dāng)前用戶的方言屬性,包括：

確定所述當(dāng)前用戶的身份；

根據(jù)當(dāng)前用戶的身份調(diào)用對(duì)應(yīng)的方言屬性。

在一實(shí)施例中，確定當(dāng)前用戶的方言屬性,包括：

獲取所述當(dāng)前用戶的語(yǔ)音數(shù)據(jù)；

將所述語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本，提取文本中的方言特征，生成所述當(dāng)前用戶的方言屬性。

在一實(shí)施例中，結(jié)合所述個(gè)性化方言模型生成響應(yīng)所述多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出，包括：

結(jié)合所述個(gè)性化方言模型將所述語(yǔ)音輸入數(shù)據(jù)轉(zhuǎn)化為普通話文本；

生成針對(duì)所述普通話文本的普通話回復(fù)；

通過所述個(gè)性化方言模型將所述普通話回復(fù)轉(zhuǎn)化為方言回復(fù)。

在一實(shí)施例中，所述方法還包括：

獲取用戶的含有方言特征參數(shù)的語(yǔ)音識(shí)別文本；

將所述語(yǔ)音識(shí)別文本應(yīng)用于訓(xùn)練所述個(gè)性化方言模型。

本發(fā)明還提供了一種智能機(jī)器人，所述機(jī)器人包括：

輸入采集模塊，其配置為采集多模態(tài)輸入數(shù)據(jù)；

方言屬性確認(rèn)模塊，其配置為解析所述多模態(tài)輸入數(shù)據(jù)，確定當(dāng)前用戶的方言屬性；

方言模型匹配模塊，其配置為根據(jù)所述方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型；

輸出模塊，其配置為結(jié)合所述個(gè)性化方言模型生成響應(yīng)所述多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出。

在一實(shí)施例中，所述方言屬性確認(rèn)模塊配置為：

確定所述當(dāng)前用戶的身份；

根據(jù)當(dāng)前用戶的身份調(diào)用對(duì)應(yīng)的方言屬性。

在一實(shí)施例中，所述方言屬性確認(rèn)模塊配置為：

獲取所述當(dāng)前用戶的語(yǔ)音數(shù)據(jù)；

將所述語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本，提取文本中的方言特征，生成所述當(dāng)前用戶的方言屬性。

在一實(shí)施例中，所述輸出模塊配置為：

結(jié)合所述個(gè)性化方言模型將所述語(yǔ)音輸入數(shù)據(jù)轉(zhuǎn)化為普通話文本；

生成針對(duì)所述普通話文本的普通話回復(fù)；

通過所述個(gè)性化方言模型將所述普通話回復(fù)轉(zhuǎn)化為方言回復(fù)。

在一實(shí)施例中，所述機(jī)器人還包括方言模型生成模塊，其配置為：

獲取用戶的含有方言特征參數(shù)的語(yǔ)音識(shí)別文本；

將所述語(yǔ)音識(shí)別文本應(yīng)用于訓(xùn)練所述個(gè)性化方言模型。

根據(jù)本發(fā)明的方法可以使得智能機(jī)器人實(shí)現(xiàn)匹配用戶方言風(fēng)格的多模態(tài)交互輸出，使得智能機(jī)器人與用戶的人機(jī)交互過程更加貼近人與人的交互過程，從而大大提高智能機(jī)器人的擬人化水平，增強(qiáng)智能機(jī)器人的用戶體驗(yàn)。

本發(fā)明的其它特征或優(yōu)點(diǎn)將在隨后的說(shuō)明書中闡述。并且，本發(fā)明的部分特征或優(yōu)點(diǎn)將通過說(shuō)明書而變得顯而易見，或者通過實(shí)施本發(fā)明而被了解。本發(fā)明的目的和部分優(yōu)點(diǎn)可通過在說(shuō)明書、權(quán)利要求書以及附圖中所特別指出的步驟來(lái)實(shí)現(xiàn)或獲得。

附圖說(shuō)明

附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解，并且構(gòu)成說(shuō)明書的一部分，與本發(fā)明的實(shí)施例共同用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中：

圖1～圖4是根據(jù)本發(fā)明不同實(shí)施例的方法流程圖；

圖5是根據(jù)本發(fā)明一實(shí)施例的方法部分流程圖；

圖6～圖9是根據(jù)本發(fā)明實(shí)施例的機(jī)器人系統(tǒng)結(jié)構(gòu)簡(jiǎn)圖；

圖10是根據(jù)本發(fā)明一實(shí)施例的機(jī)器人系統(tǒng)部分結(jié)構(gòu)簡(jiǎn)圖。

具體實(shí)施方式

以下將結(jié)合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式，借此本發(fā)明的實(shí)施人員可以充分理解本發(fā)明如何應(yīng)用技術(shù)手段來(lái)解決技術(shù)問題，并達(dá)成技術(shù)效果的實(shí)現(xiàn)過程并依據(jù)上述實(shí)現(xiàn)過程具體實(shí)施本發(fā)明。需要說(shuō)明的是，只要不構(gòu)成沖突，本發(fā)明中的各個(gè)實(shí)施例以及各實(shí)施例中的各個(gè)特征可以相互結(jié)合，所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。

隨著機(jī)器人技術(shù)的不斷發(fā)展，智能機(jī)器人的越來(lái)越多的被應(yīng)用到人類日常的生產(chǎn)生活中。

但是，在現(xiàn)有技術(shù)中，機(jī)器人的交互相較人類行為而言顯得生澀、機(jī)械化，從而大大影響機(jī)器人的擬人化水平。

具體的，在人與人的交往場(chǎng)景中，較為常用的交往手段之一是語(yǔ)言交互。語(yǔ)言交互的基本過程是向交互對(duì)象發(fā)送具有特定含義的語(yǔ)言，通過交互雙方對(duì)對(duì)方發(fā)送出的語(yǔ)言進(jìn)行語(yǔ)義理解來(lái)實(shí)現(xiàn)交互。也就是說(shuō)，語(yǔ)言交互的基本在與輸出包含特定含義的語(yǔ)言。

對(duì)應(yīng)的，在現(xiàn)有技術(shù)中，在機(jī)器人與人的交互場(chǎng)景中，基于對(duì)人與人之間的語(yǔ)言交互方式的模擬，機(jī)器人向人類輸出包含特定含義的語(yǔ)言(語(yǔ)音輸出)來(lái)實(shí)現(xiàn)人機(jī)交互。

然而，在實(shí)際的交互場(chǎng)景中，人類進(jìn)行語(yǔ)言交互時(shí)所輸出的語(yǔ)言(說(shuō)話)并不僅僅包含具體的語(yǔ)義(說(shuō)話人所想要表達(dá)的意思)，還會(huì)附帶有說(shuō)話人的一些個(gè)人信息(例如說(shuō)話人的口音、聲線等)。這些附帶信息即是人類說(shuō)話中體現(xiàn)“人性化”特征的關(guān)鍵。但是，在現(xiàn)有技術(shù)中，機(jī)器人在和人類進(jìn)行語(yǔ)音交互時(shí)，僅僅單純的輸出包含具體語(yǔ)義的語(yǔ)音(實(shí)現(xiàn)語(yǔ)義的表達(dá))，并未在語(yǔ)音上附加類似人類語(yǔ)音的“人性化特征”。由于人類在交互時(shí)已經(jīng)習(xí)慣附加有“人性化”特征的語(yǔ)音，因此，在人機(jī)交互時(shí)，人類就會(huì)覺得機(jī)器人語(yǔ)音輸出顯得生澀、機(jī)械化。

基于上述分析，為了提高智能機(jī)器人的擬人化水平，本發(fā)明提出了一種用于機(jī)器人的輸出方法。具體的，在本發(fā)明一實(shí)施例的方法中，機(jī)器人在進(jìn)行語(yǔ)音輸出時(shí)，模仿人類語(yǔ)音輸出的特點(diǎn)，不僅僅進(jìn)行單純的包含具體語(yǔ)義的語(yǔ)音輸出，而且在語(yǔ)音輸出時(shí)附加人類語(yǔ)音的附加細(xì)節(jié)，使得輸出的語(yǔ)音更加貼合人類語(yǔ)音的輸出習(xí)慣。

進(jìn)一步的，在眾多的語(yǔ)音“人性化”特征中，關(guān)鍵特征之一在于方言。一般的，方言是在語(yǔ)種之下，基于語(yǔ)言地域環(huán)境不同而形成的一種語(yǔ)言習(xí)慣細(xì)節(jié)。

因此，同一語(yǔ)種下，操持不同方言的人在進(jìn)行語(yǔ)音交互時(shí)會(huì)存在一定的理解障礙。例如，無(wú)法迅速理解對(duì)方的意思、無(wú)法完全準(zhǔn)確的理解對(duì)方的意思甚至是無(wú)法理解對(duì)方的意思。因此，在人與人交往的過程中，比較理想的語(yǔ)音交互場(chǎng)景通常存在于同一語(yǔ)種下同種方言或相近方言的交互場(chǎng)合中。

基于上述分析，為了提高智能機(jī)器人的擬人化水平，在本發(fā)明一實(shí)施例的方法中，智能機(jī)器人在進(jìn)行語(yǔ)音輸出的時(shí)候，為自身輸出的語(yǔ)音信息附加方言屬性，這樣就使得機(jī)器人輸出的語(yǔ)音更加接近真實(shí)人類的語(yǔ)音輸出，從而避免給聽眾帶來(lái)生澀、機(jī)械化的感覺。進(jìn)一步的，機(jī)器人為自身輸出的語(yǔ)音信息所附加的方言屬性是貼合當(dāng)前的聽眾(用戶)的方言屬性的(機(jī)器人的語(yǔ)音與用戶的語(yǔ)音從屬于同一語(yǔ)種同一方言)，這就在提高了機(jī)器人語(yǔ)音的擬人化水平的基礎(chǔ)上，保證用戶可以快速準(zhǔn)確的理解機(jī)器人輸出的語(yǔ)音的具體含義，從而提高了交互效率以及用戶體驗(yàn)。

接下來(lái)基于附圖詳細(xì)描述根據(jù)本發(fā)明實(shí)施例的方法的詳細(xì)流程，附圖的流程圖中示出的步驟可以在包含諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行。雖然在流程圖中示出了各步驟的邏輯順序，但是在某些情況下，可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

如圖1所示，在一實(shí)施例中，智能機(jī)器人首先采集多模態(tài)輸入數(shù)據(jù)(步驟s100)，然后解析采集到的多模態(tài)輸入數(shù)據(jù)(步驟s110)，根據(jù)解析結(jié)果確定當(dāng)前用戶的方言屬性(步驟s120)；接著根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型(步驟s130)；最后結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出(步驟s130)。

在上述步驟中，由于最后的輸出步驟是結(jié)合了與用戶方言屬性匹配的個(gè)性化方言模型的，因此智能機(jī)器人最后輸出的多模態(tài)交互輸出并不僅僅是響應(yīng)當(dāng)前的多模態(tài)輸入數(shù)據(jù)，而且?guī)в辛伺c當(dāng)前用戶方言屬性匹配(一致)的方言特征。

進(jìn)一步的，在實(shí)際的交互場(chǎng)景中，針對(duì)具體的人類(用戶)，其方言特征往往是固定不變的。一般的，不會(huì)出現(xiàn)一個(gè)人的方言屬性在短期內(nèi)突變的情況。因此在本發(fā)明一實(shí)施例中，機(jī)器人預(yù)先記錄不同的用戶的方言屬性，在進(jìn)行人際交互的過程中，根據(jù)當(dāng)前所面對(duì)的用戶調(diào)用已保存的該用戶的方言屬性記錄。

具體的，在一實(shí)施例中，即首先通過對(duì)采集到的多模態(tài)輸入數(shù)據(jù)進(jìn)行解析來(lái)確定當(dāng)前用戶的身份，然后根據(jù)當(dāng)前用戶的身份調(diào)用對(duì)應(yīng)的方言屬性。如圖2所示，智能機(jī)器人首先采集多模態(tài)輸入數(shù)據(jù)(步驟s200)，然后解析采集到的多模態(tài)輸入數(shù)據(jù)以確定當(dāng)前用戶的身份(步驟s210)，接著根據(jù)用戶身份調(diào)用已保存的當(dāng)前用戶所對(duì)應(yīng)的方言屬性(步驟s220)；接著根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型(步驟s230)；最后結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出(步驟s230)。

進(jìn)一步的，在上一實(shí)施例中，用戶的方言屬性的獲取前提之一是智能機(jī)器人必須預(yù)先保存有該用戶的方言屬性。但是，在某些交互場(chǎng)景中，機(jī)器人并沒有保存有當(dāng)前用戶的方言屬性(沒有該用戶的資料或者機(jī)器人并不具備保存用戶方言屬性的功能設(shè)置)。針對(duì)這一情況，在本發(fā)明一實(shí)施例中，機(jī)器人根據(jù)當(dāng)前用戶的語(yǔ)音輸出(語(yǔ)言)特征來(lái)自行分析獲取用戶的方言屬性。具體的，機(jī)器人首先獲取當(dāng)前用戶的語(yǔ)音數(shù)據(jù)；然后將語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本；接著提取文本中的方言特征；最后根據(jù)提取到的方言特征生成(分析獲取)當(dāng)前用戶的方言屬性。

如圖3所示，智能機(jī)器人首先采集多模態(tài)輸入數(shù)據(jù)(包括采集當(dāng)前用戶的語(yǔ)音數(shù)據(jù))(步驟s300)，然后將采集到的語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù)(步驟s311)，接著從轉(zhuǎn)化獲取的文本數(shù)據(jù)中提取方言特征(例如特性的單詞或是語(yǔ)法特征)(步驟s312)，最后分析提取出的方言特征生成(確定)當(dāng)前用戶所對(duì)應(yīng)的方言屬性(步驟s320)；接著根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型(步驟s330)；最后結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出(步驟s330)。

進(jìn)一步的，結(jié)合上述實(shí)施例，在一實(shí)施例中，如圖4所示，智能機(jī)器人首先采集多模態(tài)輸入數(shù)據(jù)(包括采集當(dāng)前用戶的語(yǔ)音數(shù)據(jù))(步驟s400)，然后解析多模態(tài)輸入數(shù)據(jù)判斷是否可以確定當(dāng)前用戶的身份(是否已保存有當(dāng)前用戶的相關(guān)數(shù)據(jù))(步驟s411)。如果可以確定用戶身份(已保存有當(dāng)前用戶的相關(guān)數(shù)據(jù))，則根據(jù)用戶的身份調(diào)用當(dāng)前用戶對(duì)應(yīng)的方言屬性(步驟s422)。

如果不能確定當(dāng)前用戶的身份(沒有保存有當(dāng)前用戶的相關(guān)數(shù)據(jù))，則將采集到的語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù)(步驟s412)，接著從轉(zhuǎn)化獲取的文本數(shù)據(jù)中提取方言特征(例如特性的單詞或是語(yǔ)法特征)(步驟s413)，最后分析提取出的方言特征生成(確定)當(dāng)前用戶所對(duì)應(yīng)的方言屬性(步驟s420)。

當(dāng)獲取到當(dāng)前用戶的方言屬性后(步驟s421或s422)，根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型(步驟s430)；最后結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出(步驟s430)。

進(jìn)一步的，在一實(shí)施例中，在步驟s421后，智能機(jī)器人還獲取當(dāng)前用戶的身份，將步驟s421生成的用戶的方言屬性與該用戶身份關(guān)聯(lián)保存。這樣，在下次面對(duì)該用戶進(jìn)行人機(jī)交互時(shí)，就不需要再次解析該用戶的語(yǔ)音數(shù)據(jù)，而是直接識(shí)別用戶身份并調(diào)用對(duì)應(yīng)的方言屬性。

進(jìn)一步的，在人機(jī)交互場(chǎng)景中，通常的人機(jī)交互流程是機(jī)器人接收用戶輸入；解析用戶輸入確定用戶意圖；根據(jù)用戶意圖生成并輸出對(duì)應(yīng)的多模態(tài)交互輸出。在上述流程中，決定最終機(jī)器人輸出是否滿足用戶需求的關(guān)鍵點(diǎn)在于：

(a)機(jī)器人是否理解用戶輸入(是否可以正確的獲取用戶意圖)

(b)機(jī)器人是否可以針對(duì)用戶意圖生成正確的多模態(tài)輸出。

在實(shí)際的交互場(chǎng)景中，操持同一語(yǔ)種但具有不同方言屬性的人在表達(dá)同一意思時(shí)，往往會(huì)輸出相似但不同的語(yǔ)音。因此，在同一語(yǔ)種下，針對(duì)不同的方言，理解其含義的具體方式也是存在不同的。也就是說(shuō)，人類在進(jìn)行語(yǔ)音交互時(shí)，如果想完美理解交互對(duì)象所要表達(dá)的含義，前提之一是必須知道如何理解該方言；同時(shí)，如果想讓對(duì)方完美理解自己所要表達(dá)的意思，前提之一就是必須知道如何說(shuō)對(duì)方所掌握的方言。

將上述人與人的交互特點(diǎn)套用到人機(jī)交互流程上。則：如果機(jī)器人需要理解用戶的輸入(關(guān)鍵點(diǎn)a)，機(jī)器人需要具備對(duì)應(yīng)該用戶的方言屬性的語(yǔ)義理解能力(具備對(duì)應(yīng)該用戶的方言屬性的語(yǔ)音解析系統(tǒng))；如果機(jī)器人需要用戶完美理解自身輸出的語(yǔ)音(關(guān)鍵點(diǎn)b)，機(jī)器人需要具備對(duì)應(yīng)該用戶的方言屬性的語(yǔ)音生成能力(具備對(duì)應(yīng)該用戶的方言屬性的語(yǔ)音生成系統(tǒng))。

由于在同一語(yǔ)種下，針對(duì)不同的方言，理解其含義的具體方式以及方言輸出的具體表達(dá)方式是存在不同的。因此，針對(duì)智能機(jī)器人，針對(duì)不同的方言，其語(yǔ)音解析系統(tǒng)以及語(yǔ)音輸出系統(tǒng)也會(huì)不同。這就使得如果機(jī)器人需要面對(duì)多個(gè)不同的方言屬性的用戶，就需要具備針對(duì)多個(gè)不同的方言屬性的語(yǔ)義解析系統(tǒng)以及語(yǔ)音輸出系統(tǒng)。

針對(duì)上述情況，在本發(fā)明一實(shí)施例中，智能機(jī)器人在進(jìn)行語(yǔ)義理解之前，將具有方言屬性的語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為普通話格式，這樣就可以采用針對(duì)普通話的語(yǔ)義解析系統(tǒng)進(jìn)行語(yǔ)義理解從而確定用戶意圖。對(duì)應(yīng)的，在生成多模態(tài)交互輸出時(shí)，首先基于針對(duì)普通話的輸出系統(tǒng)生成普通話格式的輸出數(shù)據(jù)，然后將普通話格式的輸出數(shù)據(jù)轉(zhuǎn)化為具有方言屬性的語(yǔ)音輸出。這樣，機(jī)器人只需要具備一套針對(duì)普通話的語(yǔ)義解析系統(tǒng)以及語(yǔ)音輸出系統(tǒng)(結(jié)合不同方言的轉(zhuǎn)化模型(個(gè)性化方言模型))就可以實(shí)現(xiàn)針對(duì)多個(gè)不同方言的人機(jī)交互。

如圖5所示，在一實(shí)施例中，在確定了當(dāng)前用戶的方言屬性后，根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型(步驟s530)；然后結(jié)合匹配出的個(gè)性化方言模型將當(dāng)前用戶的語(yǔ)音輸入數(shù)據(jù)轉(zhuǎn)化為普通話文本(步驟s541)；接著根據(jù)步驟s541生成的普通話文本生成針對(duì)普通話文本的普通話回復(fù)(具體的，首先對(duì)普通話文本進(jìn)行語(yǔ)義解析，然后生成對(duì)應(yīng)語(yǔ)義解析結(jié)果的普通話回復(fù))(步驟s542)；最后，通過匹配出的個(gè)性化方言模型將步驟s542生成的普通話回復(fù)轉(zhuǎn)化為方言回復(fù)。

在上述實(shí)施例中，使得機(jī)器人最終的多模態(tài)輸出具備方言屬性的關(guān)鍵點(diǎn)之一在于輸出過程中結(jié)合了與用戶的方言屬性匹配的個(gè)性化方言模型。在本發(fā)明一實(shí)施例中，個(gè)性化方言模型包含了方言的具體語(yǔ)法細(xì)節(jié)(與普通話的語(yǔ)法對(duì)應(yīng)關(guān)系)以及特定的單詞含義(與普通話的單詞對(duì)應(yīng)關(guān)系)。具體的，即在不改變語(yǔ)義的前提下，如何將普通話語(yǔ)法轉(zhuǎn)化為方言語(yǔ)法以及如何將普通話單詞轉(zhuǎn)化為方言單詞。

在本發(fā)明一實(shí)施例中，機(jī)器人采用模型訓(xùn)練的方法獲取個(gè)性化方言模型。具體的，機(jī)器人獲取用戶的含有方言特征參數(shù)的語(yǔ)音識(shí)別文本；將含有方言特征參數(shù)的語(yǔ)音識(shí)別文本應(yīng)用于訓(xùn)練個(gè)性化方言模型。這樣就可以大大減少生成個(gè)性化方言模型所需的工作量。

進(jìn)一步的，在一實(shí)施例中，機(jī)器人在與用戶的人機(jī)交互過程中獲取含有方言特征參數(shù)的語(yǔ)音識(shí)別文本，隨著人機(jī)交互的進(jìn)行，機(jī)器人獲取到的含有方言特征參數(shù)的語(yǔ)音識(shí)別文本也不斷積累，個(gè)性化方言模型不斷被完善，從而機(jī)器人輸出的具有方言屬性的語(yǔ)音輸出的正確率也就不斷被提高，機(jī)器人的用戶體驗(yàn)也不斷改善。

進(jìn)一步的，在一實(shí)施例中，機(jī)器人在進(jìn)行人機(jī)交互過程中接收用戶針對(duì)當(dāng)前具有方言屬性的語(yǔ)音輸出的反饋(例如用戶評(píng)價(jià)當(dāng)前機(jī)器人的具有方言屬性的語(yǔ)音輸出是否正確)，然后根據(jù)用戶的反饋調(diào)整個(gè)性化方言模型(例如用戶評(píng)價(jià)當(dāng)前機(jī)器人的語(yǔ)音輸出某個(gè)方言詞匯錯(cuò)誤時(shí)，機(jī)器人調(diào)整個(gè)性化方言模型中方言詞匯的對(duì)應(yīng)關(guān)系)。這樣就可以不斷優(yōu)化個(gè)性化方言模型，從而提高機(jī)器人輸出的具有方言屬性的語(yǔ)音輸出的正確率，改善機(jī)器人的用戶體驗(yàn)。

結(jié)合本發(fā)明的方法，本發(fā)明還提出了一種智能機(jī)器人。如圖6所示，在一實(shí)施例中，機(jī)器人包括：

輸入采集模塊600，其配置為采集多模態(tài)輸入數(shù)據(jù)；

方言屬性確認(rèn)模塊610，其配置為解析多模態(tài)輸入數(shù)據(jù)，確定當(dāng)前用戶的方言屬性；

方言模型匹配模塊620，其配置為根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型；

輸出模塊630，其配置為結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出。

進(jìn)一步的，在一實(shí)施例中，方言屬性確認(rèn)模塊配置為：

確定所述當(dāng)前用戶的身份；

根據(jù)當(dāng)前用戶的身份調(diào)用對(duì)應(yīng)的方言屬性。

具體的，如圖7所示，方言屬性確認(rèn)模塊710包含身份識(shí)別單元711以及方言屬性調(diào)用單元712。輸入采集模塊700配置為采集多模態(tài)輸入數(shù)據(jù)；身份識(shí)別單元711配置為根據(jù)多模態(tài)輸入數(shù)據(jù)確定當(dāng)前用戶的身份；方言屬性調(diào)用單元712配置為根據(jù)當(dāng)前用戶的身份調(diào)用對(duì)應(yīng)的方言屬性；方言模型匹配模塊720配置為根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型；輸出模塊730配置為結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出。

進(jìn)一步的，在一實(shí)施例中，方言屬性確認(rèn)模塊配置為：

獲取當(dāng)前用戶的語(yǔ)音數(shù)據(jù)；將語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本，提取文本中的方言特征，生成當(dāng)前用戶的方言屬性。

具體的，如圖8所示，方言屬性確認(rèn)模塊810包含語(yǔ)音獲取單元811、文本轉(zhuǎn)化單元812、方言特征提取單元813以及方言屬性生成單元814。輸入采集模塊800配置為采集多模態(tài)輸入數(shù)據(jù)；語(yǔ)音獲取單元811配置為獲取多模態(tài)輸入數(shù)據(jù)中的當(dāng)前用戶的語(yǔ)音數(shù)據(jù)；文本轉(zhuǎn)化單元812配置為將語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本；方言特征提取單元813配置為提取文本中的方言特征；方言屬性生成單元814配置為生成當(dāng)前用戶的方言屬性；方言模型匹配模塊820配置為根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型；輸出模塊830配置為結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出。

進(jìn)一步的，在一實(shí)施例中，輸出模塊配置為：

結(jié)合個(gè)性化方言模型將語(yǔ)音輸入數(shù)據(jù)轉(zhuǎn)化為普通話文本；

生成針對(duì)普通話文本的普通話回復(fù)；

通過個(gè)性化方言模型將普通話回復(fù)轉(zhuǎn)化為方言回復(fù)。

具體的，如圖9所示，輸出模塊930包含普通話文本生成單元931、普通話回復(fù)生成單元932以及方言回復(fù)生成單元933。輸入采集模塊900配置為采集多模態(tài)輸入數(shù)據(jù)；方言屬性確認(rèn)模塊910配置為解析多模態(tài)輸入數(shù)據(jù)，確定當(dāng)前用戶的方言屬性；方言模型匹配模塊920配置為根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型；普通話文本生成單元931配置為結(jié)合個(gè)性化方言模型將多模態(tài)輸入數(shù)據(jù)中的用戶語(yǔ)音輸入數(shù)據(jù)轉(zhuǎn)化為普通話文本；普通話回復(fù)生成單元932配置為生成針對(duì)普通話文本的普通話回復(fù)；方言回復(fù)生成單元933配置為通過個(gè)性化方言模型將普通話回復(fù)轉(zhuǎn)化為方言回復(fù)。

進(jìn)一步的，如圖10所示，在一實(shí)施例中，機(jī)器人還包括方言模型生成模塊1040，其配置為：

獲取用戶的含有方言特征參數(shù)的語(yǔ)音識(shí)別文本(來(lái)自輸入采集模塊1000)；

將語(yǔ)音識(shí)別文本應(yīng)用于訓(xùn)練個(gè)性化方言模型(并將訓(xùn)練完成的個(gè)性化方言模型提供給方言模型匹配模塊1020)。

雖然本發(fā)明所公開的實(shí)施方式如上，但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式，并非用以限定本發(fā)明。本發(fā)明所述的方法還可有其他多種實(shí)施例。在不背離本發(fā)明實(shí)質(zhì)的情況下，熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明做出各種相應(yīng)的改變或變形，但這些相應(yīng)的改變或變形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2