本發(fā)明涉及機(jī)器人領(lǐng)域,具體涉及一種用于機(jī)器人的輸出方法以及機(jī)器人。
背景技術(shù):
隨著機(jī)器人技術(shù)的不斷發(fā)展,智能機(jī)器人的越來(lái)越多的被應(yīng)用到人類日常的生產(chǎn)生活中。
隨著智能機(jī)器人在人類日常生活中的不斷深化應(yīng)用,用戶對(duì)智能機(jī)器人的要求也越來(lái)越高。具體的,用戶不僅希望智能機(jī)器人具備更多的日常應(yīng)用功能,還希望智能機(jī)器人的行為更加貼近人類行為。
但是,在現(xiàn)有技術(shù)中,機(jī)器人的交互輸出往往是對(duì)某個(gè)具體的交互意圖的直接響應(yīng),其并不包含類似人類行為輸出所包含的某些個(gè)性化細(xì)節(jié),這就使得機(jī)器人的交互輸出相較人類行為而言顯得生澀、機(jī)械化,從而大大影響機(jī)器人的擬人化水平。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種用于機(jī)器人的輸出方法,所述方法包括:
采集多模態(tài)輸入數(shù)據(jù)并解析,確定當(dāng)前用戶的方言屬性;
根據(jù)所述方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型;
結(jié)合所述個(gè)性化方言模型生成響應(yīng)所述多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出。
在一實(shí)施例中,確定當(dāng)前用戶的方言屬性,包括:
確定所述當(dāng)前用戶的身份;
根據(jù)當(dāng)前用戶的身份調(diào)用對(duì)應(yīng)的方言屬性。
在一實(shí)施例中,確定當(dāng)前用戶的方言屬性,包括:
獲取所述當(dāng)前用戶的語(yǔ)音數(shù)據(jù);
將所述語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本,提取文本中的方言特征,生成所述當(dāng)前用戶的方言屬性。
在一實(shí)施例中,結(jié)合所述個(gè)性化方言模型生成響應(yīng)所述多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出,包括:
結(jié)合所述個(gè)性化方言模型將所述語(yǔ)音輸入數(shù)據(jù)轉(zhuǎn)化為普通話文本;
生成針對(duì)所述普通話文本的普通話回復(fù);
通過所述個(gè)性化方言模型將所述普通話回復(fù)轉(zhuǎn)化為方言回復(fù)。
在一實(shí)施例中,所述方法還包括:
獲取用戶的含有方言特征參數(shù)的語(yǔ)音識(shí)別文本;
將所述語(yǔ)音識(shí)別文本應(yīng)用于訓(xùn)練所述個(gè)性化方言模型。
本發(fā)明還提供了一種智能機(jī)器人,所述機(jī)器人包括:
輸入采集模塊,其配置為采集多模態(tài)輸入數(shù)據(jù);
方言屬性確認(rèn)模塊,其配置為解析所述多模態(tài)輸入數(shù)據(jù),確定當(dāng)前用戶的方言屬性;
方言模型匹配模塊,其配置為根據(jù)所述方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型;
輸出模塊,其配置為結(jié)合所述個(gè)性化方言模型生成響應(yīng)所述多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出。
在一實(shí)施例中,所述方言屬性確認(rèn)模塊配置為:
確定所述當(dāng)前用戶的身份;
根據(jù)當(dāng)前用戶的身份調(diào)用對(duì)應(yīng)的方言屬性。
在一實(shí)施例中,所述方言屬性確認(rèn)模塊配置為:
獲取所述當(dāng)前用戶的語(yǔ)音數(shù)據(jù);
將所述語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本,提取文本中的方言特征,生成所述當(dāng)前用戶的方言屬性。
在一實(shí)施例中,所述輸出模塊配置為:
結(jié)合所述個(gè)性化方言模型將所述語(yǔ)音輸入數(shù)據(jù)轉(zhuǎn)化為普通話文本;
生成針對(duì)所述普通話文本的普通話回復(fù);
通過所述個(gè)性化方言模型將所述普通話回復(fù)轉(zhuǎn)化為方言回復(fù)。
在一實(shí)施例中,所述機(jī)器人還包括方言模型生成模塊,其配置為:
獲取用戶的含有方言特征參數(shù)的語(yǔ)音識(shí)別文本;
將所述語(yǔ)音識(shí)別文本應(yīng)用于訓(xùn)練所述個(gè)性化方言模型。
根據(jù)本發(fā)明的方法可以使得智能機(jī)器人實(shí)現(xiàn)匹配用戶方言風(fēng)格的多模態(tài)交互輸出,使得智能機(jī)器人與用戶的人機(jī)交互過程更加貼近人與人的交互過程,從而大大提高智能機(jī)器人的擬人化水平,增強(qiáng)智能機(jī)器人的用戶體驗(yàn)。
本發(fā)明的其它特征或優(yōu)點(diǎn)將在隨后的說(shuō)明書中闡述。并且,本發(fā)明的部分特征或優(yōu)點(diǎn)將通過說(shuō)明書而變得顯而易見,或者通過實(shí)施本發(fā)明而被了解。本發(fā)明的目的和部分優(yōu)點(diǎn)可通過在說(shuō)明書、權(quán)利要求書以及附圖中所特別指出的步驟來(lái)實(shí)現(xiàn)或獲得。
附圖說(shuō)明
附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說(shuō)明書的一部分,與本發(fā)明的實(shí)施例共同用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中:
圖1~圖4是根據(jù)本發(fā)明不同實(shí)施例的方法流程圖;
圖5是根據(jù)本發(fā)明一實(shí)施例的方法部分流程圖;
圖6~圖9是根據(jù)本發(fā)明實(shí)施例的機(jī)器人系統(tǒng)結(jié)構(gòu)簡(jiǎn)圖;
圖10是根據(jù)本發(fā)明一實(shí)施例的機(jī)器人系統(tǒng)部分結(jié)構(gòu)簡(jiǎn)圖。
具體實(shí)施方式
以下將結(jié)合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式,借此本發(fā)明的實(shí)施人員可以充分理解本發(fā)明如何應(yīng)用技術(shù)手段來(lái)解決技術(shù)問題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過程并依據(jù)上述實(shí)現(xiàn)過程具體實(shí)施本發(fā)明。需要說(shuō)明的是,只要不構(gòu)成沖突,本發(fā)明中的各個(gè)實(shí)施例以及各實(shí)施例中的各個(gè)特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。
隨著機(jī)器人技術(shù)的不斷發(fā)展,智能機(jī)器人的越來(lái)越多的被應(yīng)用到人類日常的生產(chǎn)生活中。
隨著智能機(jī)器人在人類日常生活中的不斷深化應(yīng)用,用戶對(duì)智能機(jī)器人的要求也越來(lái)越高。具體的,用戶不僅希望智能機(jī)器人具備更多的日常應(yīng)用功能,還希望智能機(jī)器人的行為更加貼近人類行為。
但是,在現(xiàn)有技術(shù)中,機(jī)器人的交互相較人類行為而言顯得生澀、機(jī)械化,從而大大影響機(jī)器人的擬人化水平。
具體的,在人與人的交往場(chǎng)景中,較為常用的交往手段之一是語(yǔ)言交互。語(yǔ)言交互的基本過程是向交互對(duì)象發(fā)送具有特定含義的語(yǔ)言,通過交互雙方對(duì)對(duì)方發(fā)送出的語(yǔ)言進(jìn)行語(yǔ)義理解來(lái)實(shí)現(xiàn)交互。也就是說(shuō),語(yǔ)言交互的基本在與輸出包含特定含義的語(yǔ)言。
對(duì)應(yīng)的,在現(xiàn)有技術(shù)中,在機(jī)器人與人的交互場(chǎng)景中,基于對(duì)人與人之間的語(yǔ)言交互方式的模擬,機(jī)器人向人類輸出包含特定含義的語(yǔ)言(語(yǔ)音輸出)來(lái)實(shí)現(xiàn)人機(jī)交互。
然而,在實(shí)際的交互場(chǎng)景中,人類進(jìn)行語(yǔ)言交互時(shí)所輸出的語(yǔ)言(說(shuō)話)并不僅僅包含具體的語(yǔ)義(說(shuō)話人所想要表達(dá)的意思),還會(huì)附帶有說(shuō)話人的一些個(gè)人信息(例如說(shuō)話人的口音、聲線等)。這些附帶信息即是人類說(shuō)話中體現(xiàn)“人性化”特征的關(guān)鍵。但是,在現(xiàn)有技術(shù)中,機(jī)器人在和人類進(jìn)行語(yǔ)音交互時(shí),僅僅單純的輸出包含具體語(yǔ)義的語(yǔ)音(實(shí)現(xiàn)語(yǔ)義的表達(dá)),并未在語(yǔ)音上附加類似人類語(yǔ)音的“人性化特征”。由于人類在交互時(shí)已經(jīng)習(xí)慣附加有“人性化”特征的語(yǔ)音,因此,在人機(jī)交互時(shí),人類就會(huì)覺得機(jī)器人語(yǔ)音輸出顯得生澀、機(jī)械化。
基于上述分析,為了提高智能機(jī)器人的擬人化水平,本發(fā)明提出了一種用于機(jī)器人的輸出方法。具體的,在本發(fā)明一實(shí)施例的方法中,機(jī)器人在進(jìn)行語(yǔ)音輸出時(shí),模仿人類語(yǔ)音輸出的特點(diǎn),不僅僅進(jìn)行單純的包含具體語(yǔ)義的語(yǔ)音輸出,而且在語(yǔ)音輸出時(shí)附加人類語(yǔ)音的附加細(xì)節(jié),使得輸出的語(yǔ)音更加貼合人類語(yǔ)音的輸出習(xí)慣。
進(jìn)一步的,在眾多的語(yǔ)音“人性化”特征中,關(guān)鍵特征之一在于方言。一般的,方言是在語(yǔ)種之下,基于語(yǔ)言地域環(huán)境不同而形成的一種語(yǔ)言習(xí)慣細(xì)節(jié)。
因此,同一語(yǔ)種下,操持不同方言的人在進(jìn)行語(yǔ)音交互時(shí)會(huì)存在一定的理解障礙。例如,無(wú)法迅速理解對(duì)方的意思、無(wú)法完全準(zhǔn)確的理解對(duì)方的意思甚至是無(wú)法理解對(duì)方的意思。因此,在人與人交往的過程中,比較理想的語(yǔ)音交互場(chǎng)景通常存在于同一語(yǔ)種下同種方言或相近方言的交互場(chǎng)合中。
基于上述分析,為了提高智能機(jī)器人的擬人化水平,在本發(fā)明一實(shí)施例的方法中,智能機(jī)器人在進(jìn)行語(yǔ)音輸出的時(shí)候,為自身輸出的語(yǔ)音信息附加方言屬性,這樣就使得機(jī)器人輸出的語(yǔ)音更加接近真實(shí)人類的語(yǔ)音輸出,從而避免給聽眾帶來(lái)生澀、機(jī)械化的感覺。進(jìn)一步的,機(jī)器人為自身輸出的語(yǔ)音信息所附加的方言屬性是貼合當(dāng)前的聽眾(用戶)的方言屬性的(機(jī)器人的語(yǔ)音與用戶的語(yǔ)音從屬于同一語(yǔ)種同一方言),這就在提高了機(jī)器人語(yǔ)音的擬人化水平的基礎(chǔ)上,保證用戶可以快速準(zhǔn)確的理解機(jī)器人輸出的語(yǔ)音的具體含義,從而提高了交互效率以及用戶體驗(yàn)。
根據(jù)本發(fā)明的方法可以使得智能機(jī)器人實(shí)現(xiàn)匹配用戶方言風(fēng)格的多模態(tài)交互輸出,使得智能機(jī)器人與用戶的人機(jī)交互過程更加貼近人與人的交互過程,從而大大提高智能機(jī)器人的擬人化水平,增強(qiáng)智能機(jī)器人的用戶體驗(yàn)。
接下來(lái)基于附圖詳細(xì)描述根據(jù)本發(fā)明實(shí)施例的方法的詳細(xì)流程,附圖的流程圖中示出的步驟可以在包含諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行。雖然在流程圖中示出了各步驟的邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
如圖1所示,在一實(shí)施例中,智能機(jī)器人首先采集多模態(tài)輸入數(shù)據(jù)(步驟s100),然后解析采集到的多模態(tài)輸入數(shù)據(jù)(步驟s110),根據(jù)解析結(jié)果確定當(dāng)前用戶的方言屬性(步驟s120);接著根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型(步驟s130);最后結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出(步驟s130)。
在上述步驟中,由于最后的輸出步驟是結(jié)合了與用戶方言屬性匹配的個(gè)性化方言模型的,因此智能機(jī)器人最后輸出的多模態(tài)交互輸出并不僅僅是響應(yīng)當(dāng)前的多模態(tài)輸入數(shù)據(jù),而且?guī)в辛伺c當(dāng)前用戶方言屬性匹配(一致)的方言特征。
進(jìn)一步的,在實(shí)際的交互場(chǎng)景中,針對(duì)具體的人類(用戶),其方言特征往往是固定不變的。一般的,不會(huì)出現(xiàn)一個(gè)人的方言屬性在短期內(nèi)突變的情況。因此在本發(fā)明一實(shí)施例中,機(jī)器人預(yù)先記錄不同的用戶的方言屬性,在進(jìn)行人際交互的過程中,根據(jù)當(dāng)前所面對(duì)的用戶調(diào)用已保存的該用戶的方言屬性記錄。
具體的,在一實(shí)施例中,即首先通過對(duì)采集到的多模態(tài)輸入數(shù)據(jù)進(jìn)行解析來(lái)確定當(dāng)前用戶的身份,然后根據(jù)當(dāng)前用戶的身份調(diào)用對(duì)應(yīng)的方言屬性。如圖2所示,智能機(jī)器人首先采集多模態(tài)輸入數(shù)據(jù)(步驟s200),然后解析采集到的多模態(tài)輸入數(shù)據(jù)以確定當(dāng)前用戶的身份(步驟s210),接著根據(jù)用戶身份調(diào)用已保存的當(dāng)前用戶所對(duì)應(yīng)的方言屬性(步驟s220);接著根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型(步驟s230);最后結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出(步驟s230)。
進(jìn)一步的,在上一實(shí)施例中,用戶的方言屬性的獲取前提之一是智能機(jī)器人必須預(yù)先保存有該用戶的方言屬性。但是,在某些交互場(chǎng)景中,機(jī)器人并沒有保存有當(dāng)前用戶的方言屬性(沒有該用戶的資料或者機(jī)器人并不具備保存用戶方言屬性的功能設(shè)置)。針對(duì)這一情況,在本發(fā)明一實(shí)施例中,機(jī)器人根據(jù)當(dāng)前用戶的語(yǔ)音輸出(語(yǔ)言)特征來(lái)自行分析獲取用戶的方言屬性。具體的,機(jī)器人首先獲取當(dāng)前用戶的語(yǔ)音數(shù)據(jù);然后將語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本;接著提取文本中的方言特征;最后根據(jù)提取到的方言特征生成(分析獲取)當(dāng)前用戶的方言屬性。
如圖3所示,智能機(jī)器人首先采集多模態(tài)輸入數(shù)據(jù)(包括采集當(dāng)前用戶的語(yǔ)音數(shù)據(jù))(步驟s300),然后將采集到的語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù)(步驟s311),接著從轉(zhuǎn)化獲取的文本數(shù)據(jù)中提取方言特征(例如特性的單詞或是語(yǔ)法特征)(步驟s312),最后分析提取出的方言特征生成(確定)當(dāng)前用戶所對(duì)應(yīng)的方言屬性(步驟s320);接著根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型(步驟s330);最后結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出(步驟s330)。
進(jìn)一步的,結(jié)合上述實(shí)施例,在一實(shí)施例中,如圖4所示,智能機(jī)器人首先采集多模態(tài)輸入數(shù)據(jù)(包括采集當(dāng)前用戶的語(yǔ)音數(shù)據(jù))(步驟s400),然后解析多模態(tài)輸入數(shù)據(jù)判斷是否可以確定當(dāng)前用戶的身份(是否已保存有當(dāng)前用戶的相關(guān)數(shù)據(jù))(步驟s411)。如果可以確定用戶身份(已保存有當(dāng)前用戶的相關(guān)數(shù)據(jù)),則根據(jù)用戶的身份調(diào)用當(dāng)前用戶對(duì)應(yīng)的方言屬性(步驟s422)。
如果不能確定當(dāng)前用戶的身份(沒有保存有當(dāng)前用戶的相關(guān)數(shù)據(jù)),則將采集到的語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù)(步驟s412),接著從轉(zhuǎn)化獲取的文本數(shù)據(jù)中提取方言特征(例如特性的單詞或是語(yǔ)法特征)(步驟s413),最后分析提取出的方言特征生成(確定)當(dāng)前用戶所對(duì)應(yīng)的方言屬性(步驟s420)。
當(dāng)獲取到當(dāng)前用戶的方言屬性后(步驟s421或s422),根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型(步驟s430);最后結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出(步驟s430)。
進(jìn)一步的,在一實(shí)施例中,在步驟s421后,智能機(jī)器人還獲取當(dāng)前用戶的身份,將步驟s421生成的用戶的方言屬性與該用戶身份關(guān)聯(lián)保存。這樣,在下次面對(duì)該用戶進(jìn)行人機(jī)交互時(shí),就不需要再次解析該用戶的語(yǔ)音數(shù)據(jù),而是直接識(shí)別用戶身份并調(diào)用對(duì)應(yīng)的方言屬性。
進(jìn)一步的,在人機(jī)交互場(chǎng)景中,通常的人機(jī)交互流程是機(jī)器人接收用戶輸入;解析用戶輸入確定用戶意圖;根據(jù)用戶意圖生成并輸出對(duì)應(yīng)的多模態(tài)交互輸出。在上述流程中,決定最終機(jī)器人輸出是否滿足用戶需求的關(guān)鍵點(diǎn)在于:
(a)機(jī)器人是否理解用戶輸入(是否可以正確的獲取用戶意圖)
(b)機(jī)器人是否可以針對(duì)用戶意圖生成正確的多模態(tài)輸出。
在實(shí)際的交互場(chǎng)景中,操持同一語(yǔ)種但具有不同方言屬性的人在表達(dá)同一意思時(shí),往往會(huì)輸出相似但不同的語(yǔ)音。因此,在同一語(yǔ)種下,針對(duì)不同的方言,理解其含義的具體方式也是存在不同的。也就是說(shuō),人類在進(jìn)行語(yǔ)音交互時(shí),如果想完美理解交互對(duì)象所要表達(dá)的含義,前提之一是必須知道如何理解該方言;同時(shí),如果想讓對(duì)方完美理解自己所要表達(dá)的意思,前提之一就是必須知道如何說(shuō)對(duì)方所掌握的方言。
將上述人與人的交互特點(diǎn)套用到人機(jī)交互流程上。則:如果機(jī)器人需要理解用戶的輸入(關(guān)鍵點(diǎn)a),機(jī)器人需要具備對(duì)應(yīng)該用戶的方言屬性的語(yǔ)義理解能力(具備對(duì)應(yīng)該用戶的方言屬性的語(yǔ)音解析系統(tǒng));如果機(jī)器人需要用戶完美理解自身輸出的語(yǔ)音(關(guān)鍵點(diǎn)b),機(jī)器人需要具備對(duì)應(yīng)該用戶的方言屬性的語(yǔ)音生成能力(具備對(duì)應(yīng)該用戶的方言屬性的語(yǔ)音生成系統(tǒng))。
由于在同一語(yǔ)種下,針對(duì)不同的方言,理解其含義的具體方式以及方言輸出的具體表達(dá)方式是存在不同的。因此,針對(duì)智能機(jī)器人,針對(duì)不同的方言,其語(yǔ)音解析系統(tǒng)以及語(yǔ)音輸出系統(tǒng)也會(huì)不同。這就使得如果機(jī)器人需要面對(duì)多個(gè)不同的方言屬性的用戶,就需要具備針對(duì)多個(gè)不同的方言屬性的語(yǔ)義解析系統(tǒng)以及語(yǔ)音輸出系統(tǒng)。
針對(duì)上述情況,在本發(fā)明一實(shí)施例中,智能機(jī)器人在進(jìn)行語(yǔ)義理解之前,將具有方言屬性的語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為普通話格式,這樣就可以采用針對(duì)普通話的語(yǔ)義解析系統(tǒng)進(jìn)行語(yǔ)義理解從而確定用戶意圖。對(duì)應(yīng)的,在生成多模態(tài)交互輸出時(shí),首先基于針對(duì)普通話的輸出系統(tǒng)生成普通話格式的輸出數(shù)據(jù),然后將普通話格式的輸出數(shù)據(jù)轉(zhuǎn)化為具有方言屬性的語(yǔ)音輸出。這樣,機(jī)器人只需要具備一套針對(duì)普通話的語(yǔ)義解析系統(tǒng)以及語(yǔ)音輸出系統(tǒng)(結(jié)合不同方言的轉(zhuǎn)化模型(個(gè)性化方言模型))就可以實(shí)現(xiàn)針對(duì)多個(gè)不同方言的人機(jī)交互。
如圖5所示,在一實(shí)施例中,在確定了當(dāng)前用戶的方言屬性后,根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型(步驟s530);然后結(jié)合匹配出的個(gè)性化方言模型將當(dāng)前用戶的語(yǔ)音輸入數(shù)據(jù)轉(zhuǎn)化為普通話文本(步驟s541);接著根據(jù)步驟s541生成的普通話文本生成針對(duì)普通話文本的普通話回復(fù)(具體的,首先對(duì)普通話文本進(jìn)行語(yǔ)義解析,然后生成對(duì)應(yīng)語(yǔ)義解析結(jié)果的普通話回復(fù))(步驟s542);最后,通過匹配出的個(gè)性化方言模型將步驟s542生成的普通話回復(fù)轉(zhuǎn)化為方言回復(fù)。
在上述實(shí)施例中,使得機(jī)器人最終的多模態(tài)輸出具備方言屬性的關(guān)鍵點(diǎn)之一在于輸出過程中結(jié)合了與用戶的方言屬性匹配的個(gè)性化方言模型。在本發(fā)明一實(shí)施例中,個(gè)性化方言模型包含了方言的具體語(yǔ)法細(xì)節(jié)(與普通話的語(yǔ)法對(duì)應(yīng)關(guān)系)以及特定的單詞含義(與普通話的單詞對(duì)應(yīng)關(guān)系)。具體的,即在不改變語(yǔ)義的前提下,如何將普通話語(yǔ)法轉(zhuǎn)化為方言語(yǔ)法以及如何將普通話單詞轉(zhuǎn)化為方言單詞。
在本發(fā)明一實(shí)施例中,機(jī)器人采用模型訓(xùn)練的方法獲取個(gè)性化方言模型。具體的,機(jī)器人獲取用戶的含有方言特征參數(shù)的語(yǔ)音識(shí)別文本;將含有方言特征參數(shù)的語(yǔ)音識(shí)別文本應(yīng)用于訓(xùn)練個(gè)性化方言模型。這樣就可以大大減少生成個(gè)性化方言模型所需的工作量。
進(jìn)一步的,在一實(shí)施例中,機(jī)器人在與用戶的人機(jī)交互過程中獲取含有方言特征參數(shù)的語(yǔ)音識(shí)別文本,隨著人機(jī)交互的進(jìn)行,機(jī)器人獲取到的含有方言特征參數(shù)的語(yǔ)音識(shí)別文本也不斷積累,個(gè)性化方言模型不斷被完善,從而機(jī)器人輸出的具有方言屬性的語(yǔ)音輸出的正確率也就不斷被提高,機(jī)器人的用戶體驗(yàn)也不斷改善。
進(jìn)一步的,在一實(shí)施例中,機(jī)器人在進(jìn)行人機(jī)交互過程中接收用戶針對(duì)當(dāng)前具有方言屬性的語(yǔ)音輸出的反饋(例如用戶評(píng)價(jià)當(dāng)前機(jī)器人的具有方言屬性的語(yǔ)音輸出是否正確),然后根據(jù)用戶的反饋調(diào)整個(gè)性化方言模型(例如用戶評(píng)價(jià)當(dāng)前機(jī)器人的語(yǔ)音輸出某個(gè)方言詞匯錯(cuò)誤時(shí),機(jī)器人調(diào)整個(gè)性化方言模型中方言詞匯的對(duì)應(yīng)關(guān)系)。這樣就可以不斷優(yōu)化個(gè)性化方言模型,從而提高機(jī)器人輸出的具有方言屬性的語(yǔ)音輸出的正確率,改善機(jī)器人的用戶體驗(yàn)。
結(jié)合本發(fā)明的方法,本發(fā)明還提出了一種智能機(jī)器人。如圖6所示,在一實(shí)施例中,機(jī)器人包括:
輸入采集模塊600,其配置為采集多模態(tài)輸入數(shù)據(jù);
方言屬性確認(rèn)模塊610,其配置為解析多模態(tài)輸入數(shù)據(jù),確定當(dāng)前用戶的方言屬性;
方言模型匹配模塊620,其配置為根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型;
輸出模塊630,其配置為結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出。
進(jìn)一步的,在一實(shí)施例中,方言屬性確認(rèn)模塊配置為:
確定所述當(dāng)前用戶的身份;
根據(jù)當(dāng)前用戶的身份調(diào)用對(duì)應(yīng)的方言屬性。
具體的,如圖7所示,方言屬性確認(rèn)模塊710包含身份識(shí)別單元711以及方言屬性調(diào)用單元712。輸入采集模塊700配置為采集多模態(tài)輸入數(shù)據(jù);身份識(shí)別單元711配置為根據(jù)多模態(tài)輸入數(shù)據(jù)確定當(dāng)前用戶的身份;方言屬性調(diào)用單元712配置為根據(jù)當(dāng)前用戶的身份調(diào)用對(duì)應(yīng)的方言屬性;方言模型匹配模塊720配置為根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型;輸出模塊730配置為結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出。
進(jìn)一步的,在一實(shí)施例中,方言屬性確認(rèn)模塊配置為:
獲取當(dāng)前用戶的語(yǔ)音數(shù)據(jù);將語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本,提取文本中的方言特征,生成當(dāng)前用戶的方言屬性。
具體的,如圖8所示,方言屬性確認(rèn)模塊810包含語(yǔ)音獲取單元811、文本轉(zhuǎn)化單元812、方言特征提取單元813以及方言屬性生成單元814。輸入采集模塊800配置為采集多模態(tài)輸入數(shù)據(jù);語(yǔ)音獲取單元811配置為獲取多模態(tài)輸入數(shù)據(jù)中的當(dāng)前用戶的語(yǔ)音數(shù)據(jù);文本轉(zhuǎn)化單元812配置為將語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本;方言特征提取單元813配置為提取文本中的方言特征;方言屬性生成單元814配置為生成當(dāng)前用戶的方言屬性;方言模型匹配模塊820配置為根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型;輸出模塊830配置為結(jié)合個(gè)性化方言模型生成響應(yīng)多模態(tài)輸入數(shù)據(jù)的多模態(tài)交互輸出。
進(jìn)一步的,在一實(shí)施例中,輸出模塊配置為:
結(jié)合個(gè)性化方言模型將語(yǔ)音輸入數(shù)據(jù)轉(zhuǎn)化為普通話文本;
生成針對(duì)普通話文本的普通話回復(fù);
通過個(gè)性化方言模型將普通話回復(fù)轉(zhuǎn)化為方言回復(fù)。
具體的,如圖9所示,輸出模塊930包含普通話文本生成單元931、普通話回復(fù)生成單元932以及方言回復(fù)生成單元933。輸入采集模塊900配置為采集多模態(tài)輸入數(shù)據(jù);方言屬性確認(rèn)模塊910配置為解析多模態(tài)輸入數(shù)據(jù),確定當(dāng)前用戶的方言屬性;方言模型匹配模塊920配置為根據(jù)當(dāng)前用戶的方言屬性匹配對(duì)應(yīng)的個(gè)性化方言模型;普通話文本生成單元931配置為結(jié)合個(gè)性化方言模型將多模態(tài)輸入數(shù)據(jù)中的用戶語(yǔ)音輸入數(shù)據(jù)轉(zhuǎn)化為普通話文本;普通話回復(fù)生成單元932配置為生成針對(duì)普通話文本的普通話回復(fù);方言回復(fù)生成單元933配置為通過個(gè)性化方言模型將普通話回復(fù)轉(zhuǎn)化為方言回復(fù)。
進(jìn)一步的,如圖10所示,在一實(shí)施例中,機(jī)器人還包括方言模型生成模塊1040,其配置為:
獲取用戶的含有方言特征參數(shù)的語(yǔ)音識(shí)別文本(來(lái)自輸入采集模塊1000);
將語(yǔ)音識(shí)別文本應(yīng)用于訓(xùn)練個(gè)性化方言模型(并將訓(xùn)練完成的個(gè)性化方言模型提供給方言模型匹配模塊1020)。
雖然本發(fā)明所公開的實(shí)施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。本發(fā)明所述的方法還可有其他多種實(shí)施例。在不背離本發(fā)明實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明做出各種相應(yīng)的改變或變形,但這些相應(yīng)的改變或變形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護(hù)范圍。