本專利涉及數(shù)字?jǐn)?shù)據(jù)處理領(lǐng)域,更特別地涉及語音合成和交互式對(duì)話的處理,尤其是在機(jī)器人與人類用戶之間的交談的特定背景下。
背景技術(shù):
陪伴機(jī)器人有益地能夠與人類建立情感關(guān)系。通過語音或?qū)υ捚つw的對(duì)話的動(dòng)態(tài)適應(yīng)能夠?qū)崿F(xiàn)豐富的交互。
現(xiàn)有的用于講話或語音合成的系統(tǒng)大多數(shù)被動(dòng)且無變化:超過比如男人或女性語音選擇的幾個(gè)選項(xiàng),語言生成引擎的音色相當(dāng)中性。而且,提供回應(yīng)缺乏文化參照。工業(yè)或大眾市場(chǎng)語音回答系統(tǒng)的目標(biāo)確切地是提供普遍接受的回應(yīng),即,被盡可能廣泛地理解。這暗指避免任何上下文參照,更不用說文化參照。語音命令通常限于具體的上下文。例如,語音聽寫軟件主要用于獨(dú)立軟件應(yīng)用(例如,文字處理軟件)的上下文中。根據(jù)現(xiàn)代操作系統(tǒng)越來越提供的一些可訪問性特征,用戶能夠使用語音命令來執(zhí)行一些動(dòng)作(例如,開始應(yīng)用,復(fù)制和粘貼,等等)。這些預(yù)定義的動(dòng)作相當(dāng)有限。這種視覺或聽覺交互模式通常是被動(dòng)的(例如,用戶主動(dòng)地給予指示,機(jī)器執(zhí)行指示)。即使使用近期的計(jì)算機(jī)交互模型,諸如那些在例如回答系統(tǒng)中所實(shí)現(xiàn)的模型,也會(huì)發(fā)生從機(jī)器到用戶的有限交互。
在伴隨類人機(jī)器人的背景下,當(dāng)相比于與個(gè)人計(jì)算機(jī)(及其不同的形式)的交互模型時(shí),與人類用戶的交互模型顯著地變化。與機(jī)器人的認(rèn)知交互基本上不同于與平板PC或智能手機(jī)的認(rèn)知交互。特別地,調(diào)制機(jī)器人的講話合成的能力即便對(duì)豐富交互不主要也是有益的,這進(jìn)而能夠允許采集相關(guān)的數(shù)據(jù)并且改善機(jī)器人或所連接的設(shè)備所呈現(xiàn)的服務(wù)。
對(duì)于尤其在機(jī)器人與人類用戶之間的交談的特定背景下處理語音合成(形式)以及相關(guān)聯(lián)的交互對(duì)話(實(shí)質(zhì))的方法和系統(tǒng)存在需求。
技術(shù)實(shí)現(xiàn)要素:
公開了一種處理機(jī)器人與人類用戶之間的音頻對(duì)話的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括:在所述音頻對(duì)話期間,接收音頻數(shù)據(jù)并且將所述音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù);響應(yīng)于對(duì)所述文本數(shù)據(jù)的一個(gè)或多個(gè)對(duì)話模式執(zhí)行規(guī)則進(jìn)行的核驗(yàn),選擇修改后的對(duì)話模式;其中對(duì)話模式包括一個(gè)或多個(gè)對(duì)話內(nèi)容以及一個(gè)或多個(gè)對(duì)話語音皮膚;其中對(duì)話內(nèi)容包括預(yù)定義句子的集合,所述集合包括問題句子和回答句子;并且其中對(duì)話語音皮膚包括語音渲染參數(shù),所述語音渲染參數(shù)包括頻率、音色、速度和音高。
在發(fā)展中,該方法還包括執(zhí)行所述選擇的修改后的對(duì)話模式。
在發(fā)展中,修改后的對(duì)話模式是通過修改當(dāng)前對(duì)話的當(dāng)前對(duì)話內(nèi)容和/或當(dāng)前對(duì)話語音皮膚來獲得的。
在發(fā)展中,修改當(dāng)前對(duì)話內(nèi)容的步驟包括使用所述對(duì)話內(nèi)容的詞語的同義詞以及應(yīng)用句法修改,所述句法修改包括所述對(duì)話內(nèi)容的一個(gè)或多個(gè)詞語的插入或置換或替代。
在發(fā)展中,修改所述當(dāng)前對(duì)話語音皮膚的步驟包括修改所述當(dāng)前對(duì)話語音皮膚的頻率和/或音色和/或速度和/或音高。
在發(fā)展中,修改后的對(duì)話模式是通過激活預(yù)定義對(duì)話模式來獲得的,所述預(yù)定義對(duì)話已經(jīng)由所述一個(gè)或多個(gè)對(duì)話執(zhí)行規(guī)則選定并且所述預(yù)定義對(duì)話模式包括預(yù)定義對(duì)話內(nèi)容和/或預(yù)定義對(duì)話語音皮膚。
在發(fā)展中,對(duì)話模式執(zhí)行規(guī)則取決于機(jī)器人所感知到的環(huán)境。
在發(fā)展中,對(duì)話模式執(zhí)行規(guī)則包括從包括如下的列表中選出的參數(shù):用戶年齡、用戶性別、用戶的情緒、用戶的情感、用戶數(shù)量、與用戶的交互歷史、用戶偏好、機(jī)器人和/或用戶的空間放置、機(jī)器人和/或用戶的姿勢(shì)或姿勢(shì)的組合、在機(jī)器人的環(huán)境中的檢測(cè)到的事件、本地天氣、地理位置、日期、時(shí)間及其組合。
在發(fā)展中,對(duì)話模式執(zhí)行規(guī)則是從因特網(wǎng)動(dòng)態(tài)取回的和/或是用戶可配置的。
在發(fā)展中,一個(gè)或多個(gè)對(duì)話內(nèi)容或?qū)ζ涞倪x擇是通過一個(gè)或多個(gè)過濾器的應(yīng)用來節(jié)制的,所述過濾器包括一個(gè)或多個(gè)詞語的黑名單、一個(gè)或多個(gè)詞語的白名單和/或?qū)υ捘J綀?zhí)行規(guī)則。
在發(fā)展中,對(duì)話內(nèi)容和/或?qū)υ捳Z音皮膚是通過語音命令或用戶請(qǐng)求來選定的。
在發(fā)展中,該方法還包括:標(biāo)識(shí)缺失的對(duì)話模式,在與用戶的對(duì)話期間取回所述缺失的對(duì)話模式并安裝于所述機(jī)器人中。在發(fā)展中,該方法還包括:在執(zhí)行選定的對(duì)話模式之前,接收用戶的確認(rèn)。在發(fā)展中,該方法還包括:在修改的對(duì)話模式執(zhí)行之后,接收用戶的反饋。在發(fā)展中,該方法的步驟能夠迭代(例如,對(duì)話模式能進(jìn)一步被修改)。
公開了一種計(jì)算機(jī)程序,包括當(dāng)所述計(jì)算機(jī)程序在適合的計(jì)算機(jī)設(shè)備或機(jī)器人設(shè)備上執(zhí)行時(shí),用于實(shí)施所述方法的一個(gè)或多個(gè)步驟的指令。公開了一種包括適于實(shí)施該方法的一個(gè)或多個(gè)步驟的裝置的系統(tǒng)。
陪伴機(jī)器人通常是多模態(tài)的。沿著與個(gè)人計(jì)算機(jī)及其類似物對(duì)比來表征機(jī)器人的進(jìn)展,語音交互構(gòu)成了與用戶的交互的重要部分。用戶與機(jī)器人之間的對(duì)話能夠增強(qiáng)或個(gè)性化交互且最后改善了用戶體驗(yàn)。在實(shí)施例中,機(jī)器人使其自身通過其對(duì)話模式的適應(yīng)而適應(yīng)當(dāng)前感知到的背景。機(jī)器人例如可以對(duì)外人說“先生”,或者如果過去被允許則可以使用一個(gè)人的姓,講話更加或較不正式,取決于用戶和/或上下文。具體的詞語同樣可以被過濾,取決于用戶、歷史、反饋、情緒、位置、日期和時(shí)間(舉例)。當(dāng)一個(gè)人不理解一個(gè)句子時(shí),機(jī)器人在被請(qǐng)求時(shí)或者自己自主地可以慢速重復(fù)和/或用同義詞重復(fù)。機(jī)器人還能夠?qū)W習(xí)用戶的偏好(使用哪種詞匯表講話更加或較不快速),改善用戶的情緒。
有益地,機(jī)器人能夠?qū)崿F(xiàn)新語言擴(kuò)展,渲染每個(gè)機(jī)器人的獨(dú)特之處,開始積極情感,以及因此加強(qiáng)機(jī)器人與人類的關(guān)系。
有益地,根據(jù)一些實(shí)施例,人機(jī)交互是主動(dòng)的,而不再是被動(dòng)的:機(jī)器人從人類的視角,能夠采取一些主動(dòng)性(例如,機(jī)器人能夠詢問問題,例如,為了澄清的目的)。此外,利用以個(gè)性化或其它相關(guān)方式表達(dá)的適應(yīng)的對(duì)話內(nèi)容或格式,人機(jī)交互得以進(jìn)一步優(yōu)化。
有益地,交互的交談模式允許與用戶有更“親密的”“關(guān)系”,至少越來越“自然的”交互。該更佳的用戶體驗(yàn)可能導(dǎo)致機(jī)器對(duì)人類用戶的增強(qiáng)的“理解”。通過相關(guān)的語音皮膚和/或?qū)υ捑渥影凳竞图訌?qiáng)的與機(jī)器的相關(guān)聯(lián)的“接近度”能夠促進(jìn)來自用戶以及關(guān)于用戶的數(shù)據(jù)的采集。用戶和機(jī)器人都可以更“具表達(dá)性”。術(shù)語“表達(dá)力”是指這樣的事實(shí):因?yàn)槿藱C(jī)交互(更加)自然,所以用戶將更多的數(shù)據(jù)傳達(dá)給機(jī)器人,機(jī)器人進(jìn)而能夠得知且存儲(chǔ)關(guān)于用戶的更多的數(shù)據(jù),在有效的圈內(nèi)進(jìn)一步豐富了交互。對(duì)于個(gè)人計(jì)算機(jī),情況并非如此。平板設(shè)備可以嘗試詢問“問題”,例如,為小測(cè)驗(yàn)或問卷的形式或者通過講話合成,但是由于平板設(shè)備不被認(rèn)為是能夠(自主地)自我移動(dòng)、將物體移位或者跟隨人類的“陪伴”,所以仍有殘存偏差。當(dāng)與伴隨機(jī)器人相比時(shí),所能夠捕獲的數(shù)據(jù)量較小。伴隨機(jī)器人能夠使用有趣的或其它相關(guān)的語音皮膚或?qū)υ捀袷降氖聦?shí)加強(qiáng)了這種捕獲數(shù)據(jù)的能力。
關(guān)于用戶的主動(dòng)或被動(dòng)地采集的信息(例如,用戶配置文件或者用戶聲稱的偏好)能夠被用作用于開始條件的輸入(例如,語音皮膚或?qū)υ捀袷綉?yīng)當(dāng)僅在用戶喜愛“Bienvenue chez les Ch'tis(歡迎來北方)”的情況下才開始。機(jī)器學(xué)習(xí)機(jī)制能夠被執(zhí)行:通過系統(tǒng)所開始或執(zhí)行的語音皮膚或?qū)υ捀袷綄⒏鶕?jù)關(guān)于用戶所學(xué)習(xí)到的來演進(jìn)。
附圖說明
現(xiàn)在,將參照附圖通過示例的方式來描述本發(fā)明的實(shí)施例,在附圖中相似的標(biāo)記指代相似的元件,并且在附圖中:
圖1圖示說明了本發(fā)明的全局技術(shù)環(huán)境;
圖2詳述了方法的實(shí)施例的一些方面。
具體實(shí)施方式
“對(duì)話”包括預(yù)制作的句子。對(duì)話是預(yù)定義句子的集合,包括對(duì)問題的回應(yīng)。對(duì)于多個(gè)問題的預(yù)期回應(yīng)構(gòu)成了對(duì)話。
“對(duì)話模式”包括影響規(guī)劃的句子的實(shí)質(zhì)(“對(duì)話格式”或“對(duì)話內(nèi)容”)和形式(“語音皮膚”或“語音渲染”)的一個(gè)或多個(gè)修改操作。換言之,“對(duì)話模式”與實(shí)質(zhì)性方面(例如,消息所傳達(dá)的實(shí)際內(nèi)容或信息)相關(guān)聯(lián)以及與形式方面(例如,所講語言的表達(dá)力或情感或音色)相關(guān)聯(lián)。對(duì)話模式能夠以可下載軟件程序的形式來實(shí)現(xiàn),所述程序包括當(dāng)在適當(dāng)?shù)臋C(jī)器人設(shè)備上執(zhí)行時(shí)使得所述機(jī)器人設(shè)備執(zhí)行特定物理動(dòng)作的指令,物理動(dòng)作包括執(zhí)行編程的對(duì)話模式(對(duì)話內(nèi)容和/或語音皮膚)。軟件程序能夠被提供作為“擴(kuò)展模塊”或“插件”或“附加物”。附加的對(duì)話模式能夠與機(jī)器人的缺省對(duì)話內(nèi)容和語音皮膚組合或添加到機(jī)器人的缺省對(duì)話內(nèi)容和語音皮膚或替代機(jī)器人的缺省對(duì)話內(nèi)容和語音皮膚。在實(shí)施例中,對(duì)于安裝在機(jī)器人上的其它軟件應(yīng)用,對(duì)話模式可以稱為服務(wù)。例如,天氣應(yīng)用可以在某上下文中(例如,滿月)使用Dark Vador的語音。對(duì)話模式和/或相關(guān)聯(lián)的執(zhí)行規(guī)則能夠通過網(wǎng)絡(luò)來訪問或者在本地訪問。在一些實(shí)施例中,通過訪問網(wǎng)絡(luò)和遠(yuǎn)程知識(shí)庫來補(bǔ)充或增補(bǔ)對(duì)話模式和/或相關(guān)聯(lián)的執(zhí)行規(guī)則。
“對(duì)話內(nèi)容”或“對(duì)話格式”或“對(duì)話話題”是指預(yù)定義句子的集合,所述句子對(duì)應(yīng)于問題和(預(yù)期的或期望的或可能的)回答,例如,圍繞某主題或話題或感興趣領(lǐng)域(但是不一定,因?yàn)榭梢詷?gòu)想句子的一般范圍)。句法修改可以修改安裝在機(jī)器人中的現(xiàn)有對(duì)話內(nèi)容的實(shí)質(zhì)(例如,比如“超級(jí)”的最高級(jí)詞的插入,詞語的置換,等等)。對(duì)話內(nèi)容或格式能夠使得某些詞語被審查(例如,無論有二義性或者根據(jù)概率或閾值,確定詞語的使用會(huì)被禁止),一些其它詞語能夠被允許,或者一些詞語的使用能夠被鼓勵(lì)(偏置)。對(duì)話內(nèi)容或格式尤其可以包括(或添加,如果修改)實(shí)質(zhì)性內(nèi)容和其它文化參照。詞語的選擇可以取決于上下文并且包括暗指或文化參照。對(duì)話可以因此包括一個(gè)對(duì)話內(nèi)容(由句子構(gòu)成的預(yù)制作的對(duì)話)。例如,不是其唯一的商業(yè)名稱,游戲應(yīng)用可被機(jī)器人稱為“具有鳥和綠色豬的游戲”或者“其中你須將鳥投向目標(biāo)的游戲”等等。這些由句子、可能的問題和回答構(gòu)成的元描述構(gòu)成了對(duì)話內(nèi)容。這些對(duì)話內(nèi)容允許機(jī)器人與用戶進(jìn)行交談。例如,如果用戶問到“我愿意和鳥一起玩”,則機(jī)器人可進(jìn)一步問到“你想要和真實(shí)的鳥玩還是和虛擬的鳥一起玩?”。如果用戶以“和虛擬的鳥”回應(yīng),則機(jī)器人可以請(qǐng)求確認(rèn)“那么你想要玩游戲嗎?!”。如果用戶以“是的”回應(yīng),則機(jī)器人可更進(jìn)一步請(qǐng)求確認(rèn),例如,“我有一個(gè)你須將鳥投向綠色豬的游戲”。
“對(duì)話皮膚”或“語音皮膚”是指音頻渲染修改。該音頻渲染修改影響“形式”(例如,頻率、速度、音高和音色)。換言之,對(duì)話皮膚的應(yīng)用能夠根本地改變機(jī)器人的表達(dá)力,而不修改底層的預(yù)制作句子。與機(jī)器人的講話交互的修改的影響可以在不同水平下進(jìn)行評(píng)估:以內(nèi)容的方式(實(shí)質(zhì))和/或形式(音色等)。語音皮膚可以包括導(dǎo)致模仿某些語音的參數(shù)。可以處理多種多樣的語音參數(shù)來管理講話合成。語音參數(shù)包括頻率(判定機(jī)器人是否將更嚴(yán)厲或更深切地講話)、速度(機(jī)器人講話多快或多慢)、音色(例如,如果演員Sylvester Stallone和人物Master Yoda以相同速度和頻率講話,則它們不具有相同的音色)。在實(shí)施例中,用戶可以要求他的陪伴機(jī)器人像Master Yoda或Sylvester Stallone一樣講話。通過用預(yù)定義語音參數(shù)適當(dāng)?shù)匦薷恼Z音參數(shù),能夠獲得接近的結(jié)果?!皠?dòng)態(tài)”模仿貌似合理(記錄音頻摘錄、推導(dǎo)參數(shù)以及應(yīng)用相關(guān)的修改)并且可允許機(jī)器人模仿一個(gè)或多個(gè)用戶。在實(shí)施例中,多個(gè)語音皮膚能夠組合。一些語音皮膚會(huì)不兼容組合(相互排斥)。一些其它語音皮膚可以在一定程度上組合。一些其它語音皮膚可以是加性的。
“對(duì)話執(zhí)行規(guī)則”是指管控一個(gè)或多個(gè)語音皮膚和/或?qū)υ拑?nèi)容或格式的應(yīng)用的執(zhí)行規(guī)則?!皥?zhí)行規(guī)則”可以包括腳本、程序代碼或其它布爾表達(dá)或邏輯規(guī)則,它們?cè)试S適應(yīng)機(jī)器人所能說的措辭(詞匯表、一些表達(dá)加在句子之前或句子末尾,等等)。每當(dāng)機(jī)器人要對(duì)人類用戶說某事物時(shí)(例如,因?yàn)闄C(jī)器人正在嘗試回答問題或澄清情形),如果機(jī)器人的規(guī)劃句子確實(shí)匹配一個(gè)或多個(gè)對(duì)話執(zhí)行皮膚規(guī)則,則將根據(jù)這些規(guī)則來修改句子,隨后機(jī)器人將它說出。在實(shí)施例中,一個(gè)或多個(gè)對(duì)話執(zhí)行規(guī)則可應(yīng)用于一個(gè)或多個(gè)句子(即,規(guī)劃以便由機(jī)器人說出)。在實(shí)施例中,所述規(guī)則能夠應(yīng)用于每個(gè)句子以便由機(jī)器人說出。在實(shí)施例中,規(guī)則能夠應(yīng)用于句子子集,例如,那些包括預(yù)定義詞語或表達(dá)的句子子集。對(duì)話執(zhí)行規(guī)則能夠預(yù)定義。對(duì)話執(zhí)行規(guī)則還能夠從因特網(wǎng)動(dòng)態(tài)地取回。一些規(guī)則可以是加性的,而一些其它規(guī)則可以是互斥的。例如,執(zhí)行規(guī)則可以包括(例如,編碼)年齡限制。累加執(zhí)行規(guī)則能夠使用或應(yīng)用。例如,特定的語音皮膚可以在年齡在12以上的用戶面前授權(quán)和/或根據(jù)某些情形(一天中的時(shí)間、測(cè)得的聽眾的情感等)來授權(quán)。一些執(zhí)行規(guī)則可以是用戶能配置的(例如,父母控制)。
作為示例,句子“我現(xiàn)在能跳舞”對(duì)應(yīng)于標(biāo)準(zhǔn)的預(yù)定義措辭(寫入機(jī)器人存儲(chǔ)器內(nèi))?!拔椰F(xiàn)在能跳hein biloute舞”對(duì)應(yīng)于在應(yīng)用了稱為“Ch'tis”的對(duì)話格式后機(jī)器人所表達(dá)的措辭。音頻渲染或語音皮膚“Ch'tis”可以(任選地)還提供適當(dāng)?shù)穆曇粽{(diào)制。形式和實(shí)質(zhì)可以進(jìn)行多樣地修改:能夠添加具體的口音或語調(diào)(例如,形成Northern France),能夠豐富機(jī)器人所使用的詞匯表,能夠添加新的交談話題(例如,問題與回答的模型)。
對(duì)話模式(對(duì)話內(nèi)容和/或?qū)υ捚つw)能夠?qū)崿F(xiàn)在軟件包中,其能夠由軟件編輯器來定義或編程。該軟件可以是可修改的或不可修改。換言之,對(duì)話模式(例如,語音皮膚)可以是完全確定的(例如,不可以正式地允許進(jìn)一步的參數(shù)化)??商娲?,對(duì)話模式可以僅部分確定。例如,一些(例如,有限數(shù)量的)本地參數(shù)可以仍在終端用戶的控制之下,而大多數(shù)設(shè)置不會(huì)改變(以維持例如語音皮膚的整體完整性)。
換言之,超越了文字含義的軟件應(yīng)用(當(dāng)在適當(dāng)?shù)挠?jì)算機(jī)設(shè)備上執(zhí)行時(shí)能夠執(zhí)行一個(gè)或多個(gè)步驟的計(jì)算機(jī)程序代碼)可以(或者關(guān)聯(lián))對(duì)話內(nèi)容(例如,預(yù)定義句子的集合,包括對(duì)預(yù)期問題的回應(yīng))和/或?qū)υ捚つw(例如,在對(duì)話內(nèi)容之上編程,即,諸如根據(jù)環(huán)境、與頭部運(yùn)動(dòng)同步、燈光(如果有)的激活等的適應(yīng)的執(zhí)行規(guī)則)及其組合(例如,在跳舞的同時(shí)對(duì)話)。軟件應(yīng)用可以相互依存。作為多模態(tài)輸出的結(jié)果,軟件應(yīng)用可進(jìn)一步組合(在輸出級(jí)或者在較低級(jí),例如,變量或參數(shù)或腳本能夠在軟件應(yīng)用之間共享或修改)。例如,機(jī)器人能夠使得所講結(jié)果“外面-10℃度”伴隨著將外面冷符號(hào)化的姿勢(shì)的組合。
軟件應(yīng)用有益地能夠通過對(duì)話接口呈現(xiàn)給用戶,即在與用戶的(“自然”)對(duì)話的動(dòng)作過程中。換言之,對(duì)話系統(tǒng)可以對(duì)于用戶充當(dāng)“瓶頸”以便能夠開始或執(zhí)行一個(gè)或多個(gè)應(yīng)用。
圖1示出了本發(fā)明的全局與技術(shù)環(huán)境。機(jī)器人130包括傳感器和執(zhí)行器。邏輯或“思想”100實(shí)現(xiàn)在機(jī)器人中或者與機(jī)器人相關(guān)聯(lián)(例如,遠(yuǎn)程地)并且包括軟件組件110和硬件組件120的集合。機(jī)器人130正在與一個(gè)或多個(gè)用戶150交互(通過雙方或雙向通信140,包括一個(gè)或多個(gè)對(duì)話會(huì)話)。所述一個(gè)或多個(gè)用戶能夠訪問其它計(jì)算設(shè)備160(例如,諸如可佩戴式計(jì)算機(jī)或智能手機(jī)或平板設(shè)備的個(gè)人計(jì)算機(jī)),其能夠是連接的設(shè)備(與服務(wù)器云通信和/或與一隊(duì)其它機(jī)器人或連接對(duì)象通信,等等)。尤其是,連接設(shè)備可以是可佩戴式計(jì)算機(jī)(例如,手表、眼鏡、沉浸式頭盔等)。
在圖中的具體的機(jī)器人130被看作僅僅是能夠?qū)崿F(xiàn)本發(fā)明的類人機(jī)器人的示例。在圖中機(jī)器人的下肢沒有行走功能,但是能夠在其基座上在任意方向上移動(dòng),基座在其所在的表面上滾動(dòng)。本發(fā)明能夠容易地實(shí)現(xiàn)在適合行走的機(jī)器人中。
在本發(fā)明的一些實(shí)施例中,機(jī)器人可以包括各種傳感器。其中一些傳感器用于控制機(jī)器人的位置和運(yùn)動(dòng)。這是例如位于機(jī)器人的軀干中的慣性單元的情況,包括3軸陀螺儀和3軸加速度計(jì)。機(jī)器人還可以包括在機(jī)器人前額(上和下)的兩個(gè)2D彩色RGB照相機(jī)。在機(jī)器人的眼睛后面也可以包括3D傳感器。機(jī)器人還能夠任選地包括激光線發(fā)生器,例如,在頭部和基座中,從而能夠感測(cè)其與其環(huán)境中的對(duì)象/人的相對(duì)位置。機(jī)器人還可以包括能夠感測(cè)其環(huán)境中的聲音的麥克風(fēng)。本發(fā)明的機(jī)器人還可以包括聲納傳感器、可能位于其基座的前部和后部,以測(cè)量距其環(huán)境中的對(duì)象/人類的距離。機(jī)器人還可以包括觸傳感器,在其頭部上以及在手部上,以允許與人類交互。機(jī)器人還可以包括在其基座上的緩沖器以感測(cè)其在路線中所遇到的障礙物。為了轉(zhuǎn)換其情感以及與其環(huán)境中的人類溝通,本發(fā)明的機(jī)器人還可以包括LED,例如,在其眼睛、耳部中以及在其肩部上以及揚(yáng)聲器(例如,位于其耳部中)。機(jī)器人能夠通過各種網(wǎng)絡(luò)(3G、4G/LTE、Wifi、BLE、網(wǎng)格等)與基站通信,與其它連接的設(shè)備通信,或者與其它機(jī)器人通信。機(jī)器人包括電池或能源。機(jī)器人能夠訪問適合于其所包含的電池類型的充電站。機(jī)器人的位置/運(yùn)動(dòng)由其電動(dòng)機(jī)利用算法來控制,算法根據(jù)傳感器的測(cè)量來激活由每個(gè)肢部以及限定在每個(gè)肢部的端部處的效應(yīng)器所限定的鏈。
在具體的實(shí)施例中,機(jī)器人能夠嵌入平板設(shè)備,利用該平板設(shè)備,機(jī)器人能夠?qū)⑾?音頻、視頻、網(wǎng)頁)傳達(dá)給其環(huán)境,或者通過平板設(shè)備的觸摸接口接收來自用戶的輸入。在另一實(shí)施例中,機(jī)器人不嵌入或呈現(xiàn)屏幕,但是其確實(shí)具有視頻投影儀,利用該視頻投影儀,能夠?qū)?shù)據(jù)或信息投影到機(jī)器人附近的表面上。所述表面可以是平坦的(例如,地板)或不是平坦的(例如,投影表面的變形處可被補(bǔ)償以獲得基本上平坦的投影)。在兩個(gè)實(shí)施例中(利用屏幕和/或利用投影儀),本發(fā)明的實(shí)施例均保持有效:要求保護(hù)的交互模型僅由視覺交互手段來增補(bǔ)或補(bǔ)充。在任意情況下,只要圖形裝置無序或被有意地去激活,交互的交談模式保留。
在實(shí)施例中,機(jī)器人不包括這種圖形用戶接口裝置?,F(xiàn)有的類人機(jī)器人通常被提供了先進(jìn)的語言能力,但是通常沒有被提供GUI。日益增加的用戶的群體可能不使用圖形裝置(例如,平板設(shè)備,智能手機(jī)),甚至作為補(bǔ)充,來與機(jī)器人通信,通過選擇和/或必需(年輕人、功能缺損者,因?qū)嶋H情形,等等)。
軟件110的集合(非窮盡地)包括彼此交互的軟件模塊或?qū)ο蠡蜍浖a部分,包括“提取器”111、“活動(dòng)建議”112、“思想優(yōu)先化”113、“包管理器”114、“用戶歷史數(shù)據(jù)”115、“專注自主活動(dòng)”116和“專注對(duì)話話題”117和“健康監(jiān)視服務(wù)”118。
“提取器服務(wù)”111通常感應(yīng)或感知在機(jī)器人內(nèi)或外的某物并且將短期數(shù)據(jù)提供給機(jī)器人的存儲(chǔ)器。提取器服務(wù)接收來自機(jī)器人傳感器的輸入讀數(shù);這些傳感器讀數(shù)經(jīng)預(yù)處理從而提取與機(jī)器人的位置、在其環(huán)境中的對(duì)象/人類的標(biāo)識(shí)、所述對(duì)象/人類的距離、人類所講的詞語或其情感有關(guān)的相關(guān)數(shù)據(jù)。提取器服務(wù)尤其包括:面部識(shí)別、人感知、接合區(qū)、波動(dòng)檢測(cè)、微笑檢測(cè)、注視檢測(cè)、情感檢測(cè)、語音分析、語言識(shí)別、聲音定位、移動(dòng)檢測(cè)、全景羅盤、機(jī)器人姿態(tài)、機(jī)器人健康診斷、電池、QR碼處理、家庭自動(dòng)化、宗族、時(shí)間和安排。
“執(zhí)行器服務(wù)”使得機(jī)器人130物理地做或執(zhí)行動(dòng)作。運(yùn)動(dòng)跟蹤器、LED、行為管理器是“執(zhí)行器服務(wù)”。
“數(shù)據(jù)服務(wù)”提供長(zhǎng)期存儲(chǔ)的數(shù)據(jù)。數(shù)據(jù)服務(wù)的示例是用戶會(huì)話服務(wù)115,其存儲(chǔ)用戶數(shù)據(jù),以及它們已經(jīng)對(duì)機(jī)器人和包管理器服務(wù)114所做的歷史,這利用它們的高級(jí)定義、開始條件和標(biāo)簽提供了機(jī)器人執(zhí)行的程序的可擴(kuò)展存儲(chǔ)?!鞍芾砥鳌庇绕涮峁┝嘶顒?dòng)和對(duì)話的可擴(kuò)展存儲(chǔ),以及展示?!罢故尽卑酥T如開始條件、標(biāo)簽和高級(jí)描述的元數(shù)據(jù)。
“思想服務(wù)”(例如,服務(wù)思想優(yōu)先化113)是在其開始動(dòng)作時(shí)由機(jī)器人的中心“思想”控制的服務(wù)?!八枷敕?wù)”與“執(zhí)行器服務(wù)”130、“提取器服務(wù)”111和“數(shù)據(jù)服務(wù)”115結(jié)合在一起?;靖兄恰八枷敕?wù)”。其訂閱“提取器服務(wù)”,諸如人感知、運(yùn)動(dòng)檢測(cè)和聲音定位,來告知運(yùn)動(dòng)服務(wù)移動(dòng)?!八枷搿?13基于該情形來配置基本感知行為。在其它時(shí)候,基本感知要么自我作用,要么由運(yùn)行活動(dòng)(Running Activity)來配置。
“自主生命”是思想服務(wù)。其執(zhí)行行為活動(dòng)?;谇樾蔚纳舷挛?,思想能夠告知自主生命專注何種活動(dòng)(“專注自主活動(dòng)”116)。在展示中的元數(shù)據(jù)將該信息結(jié)合思想。任何活動(dòng)能夠訪問操作系統(tǒng)API中的一個(gè)或多個(gè)?;顒?dòng)還可以直接告知自主生命專注于何種活動(dòng),或者告知對(duì)話服務(wù)專注于何種話題。
“對(duì)話”服務(wù)能夠配置為思想服務(wù)。其訂閱講話識(shí)別提取器并且能夠使用“動(dòng)畫講話執(zhí)行器服務(wù)”來說話?;谇樾蔚纳舷挛?,思想能夠告知對(duì)話專注于何種話題(“對(duì)話話題”)?!皩?duì)話”服務(wù)還使其算法來管理交談并且通常自我起作用。對(duì)話服務(wù)的一個(gè)部件可以是“專注對(duì)話話題”服務(wù)117。對(duì)話話題能夠在任何時(shí)候編程地告知思想切換注意力于(或者執(zhí)行或開始)不同的活動(dòng)或?qū)υ捲掝}。確定對(duì)話話題的可能的方法的一個(gè)示例包括:在對(duì)話話題或活動(dòng)的開始條件變?yōu)檎婊蚣俚臅r(shí)刻,該時(shí)刻的全部可能的活動(dòng)或?qū)υ捲掝}的列表送給思想;列表根據(jù)活動(dòng)優(yōu)先化來過濾;列表次序隨機(jī)化;列表被分類(或計(jì)分)以對(duì)“獨(dú)特的”且已經(jīng)不太經(jīng)常啟動(dòng)的活動(dòng)或?qū)υ捲掝}給予優(yōu)先權(quán);確保該列表中的頂級(jí)對(duì)話話題或活動(dòng)的特殊檢查不是與先前所執(zhí)行的活動(dòng)相同的活動(dòng)。該列表可以再次根據(jù)用戶的偏好進(jìn)行分類和過濾。
機(jī)器人能夠?qū)崿F(xiàn)“健康監(jiān)視”服務(wù)118。該服務(wù)能夠充當(dāng)守護(hù)進(jìn)程或“看門狗”,以閱覽或控制或調(diào)節(jié)機(jī)器人的不同優(yōu)先級(jí)。該服務(wù)能夠監(jiān)視(持續(xù)地、間斷地或者周期性地)機(jī)器人的內(nèi)部組件的狀況并且測(cè)量或預(yù)期或預(yù)測(cè)或校正硬件故障。在發(fā)展中,監(jiān)視一隊(duì)(例如,安裝的庫)機(jī)器人。嵌入式服務(wù)能夠持續(xù)地檢測(cè)出錯(cuò)情況且將它們與“云”服務(wù)同步(例如,每分鐘一次)。
硬件組件120包括處理器件121、存儲(chǔ)器件122、輸入/輸出I/O器件123、大容量存儲(chǔ)器件124和網(wǎng)絡(luò)訪問器件125、所述器件彼此交互(高速緩存、交換、分布式計(jì)算、負(fù)載平衡等)。處理器件121可以是CPU(多核或許多核)或FPGA。存儲(chǔ)器器件122包括閃速存儲(chǔ)器或隨機(jī)存取存儲(chǔ)器中的一個(gè)或多個(gè)。I/O器件123可以包括屏幕(例如,觸摸屏)、燈或LED、觸覺反饋、虛擬鍵盤、鼠標(biāo)、跟蹤球、操縱桿或投影儀(包括激光投影儀)中的一個(gè)或多個(gè)。存儲(chǔ)器件124可以包括硬盤驅(qū)動(dòng)器或SSD中的一個(gè)或多個(gè)。網(wǎng)絡(luò)訪問器件能夠提供對(duì)諸如3G、4G/LTE、Wifi、BLE或網(wǎng)格網(wǎng)絡(luò)的一個(gè)或多個(gè)網(wǎng)絡(luò)的訪問。網(wǎng)絡(luò)業(yè)務(wù)量可以被加密(例如,隧道、SSL等)。
在實(shí)施例中,計(jì)算資源(運(yùn)算、存儲(chǔ)器、I/O器件、存儲(chǔ)和連接)能夠遠(yuǎn)程地訪問,例如,作為(在機(jī)器人自身內(nèi)可用的)本地資源的補(bǔ)充。例如,另外的CPU單元能夠通過用于語音識(shí)別計(jì)算任務(wù)的云來訪問。計(jì)算資源還能夠共享。尤其是,多個(gè)機(jī)器人能夠共享資源。在機(jī)器人附近的連接的設(shè)備也能夠在一定程度上例如經(jīng)由安全協(xié)議來共享資源。還能夠共享顯示器件。例如,電視能夠在機(jī)器人經(jīng)過時(shí)被機(jī)器人用作另外的顯示器。
圖2詳述了該方法的實(shí)施例的一些方面。機(jī)器人130正在與人類用戶150交互(例如,對(duì)話、姿勢(shì)、命令)。交互的部分是對(duì)話140,包括句子(回答、問題、指示、斷言、評(píng)論等)。機(jī)器人通常使用其缺省的標(biāo)準(zhǔn)語音皮膚(形式)并且輸出標(biāo)準(zhǔn)的和預(yù)定義的對(duì)話內(nèi)容(實(shí)質(zhì))。例如,機(jī)器人說出對(duì)話句子141。根據(jù)某些參數(shù)(用戶請(qǐng)求或環(huán)境參數(shù)),機(jī)器人能夠切換到另一語音皮膚和/或另一對(duì)話內(nèi)容,例如142。機(jī)器人還能夠切換回到初始或缺省的語音。在更詳細(xì)地,以缺省的語音皮膚和對(duì)話內(nèi)容200開始(或者根據(jù)初始/修改后的語音皮膚和/或修改后的對(duì)話內(nèi)容),對(duì)話執(zhí)行規(guī)則220判定對(duì)話是否已經(jīng)修改以及在何種程度上修改。
對(duì)話執(zhí)行規(guī)則220例如由用戶請(qǐng)求221和/或由感知到的環(huán)境222來影響或確定(例如,通過傳感器或機(jī)器人確定,通過提取器或者根據(jù)關(guān)于在機(jī)器人思想中實(shí)現(xiàn)的邏輯的所描述的實(shí)施例來過濾)。例如,環(huán)境參數(shù)包括:附近的一個(gè)或多個(gè)用戶的年齡組(孩子,成年人)、附近的一個(gè)或多個(gè)用戶的性別、附近的用戶總數(shù)、當(dāng)前地點(diǎn)、當(dāng)前日期和時(shí)間、一個(gè)或多個(gè)用戶的當(dāng)前情緒(例如,微笑、大笑、哭等)。用戶請(qǐng)求221對(duì)應(yīng)于新對(duì)話模式的激活的“按需”模式(例如,用戶可以說“現(xiàn)在模仿Dark Vador”)。通過感知的環(huán)境的確定強(qiáng)調(diào)了新對(duì)話模式的激活的“自動(dòng)觸發(fā)”模式。機(jī)器人能夠前攝地激活或者去激活對(duì)話模式的一個(gè)或多個(gè)參數(shù)(減弱或夸大語音皮膚、適應(yīng)對(duì)話內(nèi)容等)。兩種激活(或去激活)模式能夠組合,即,新對(duì)話模式的觸發(fā)能夠部分地由用戶請(qǐng)求確定,部分地由環(huán)境確定。例如,在用戶請(qǐng)求時(shí),環(huán)境參數(shù)能夠確認(rèn)或抑制對(duì)話模式的變化??商娲兀詣?dòng)切換可以要求用戶的確認(rèn)或授權(quán)來激活。對(duì)話模式通??梢栽谌魏螘r(shí)候激活或去激活。在實(shí)施例中,有希望是有趣的,機(jī)器人能夠來回使用多個(gè)對(duì)話模式。任選地,在變化數(shù)量上的限制能夠被實(shí)現(xiàn)(以避免用戶飽和或者給出機(jī)器人極其愚蠢的印象)。
對(duì)話執(zhí)行規(guī)則220作用于實(shí)質(zhì)和/或形式,實(shí)質(zhì)和/或形式保持獨(dú)立地處理。規(guī)則能夠確定新對(duì)話內(nèi)容210的加載(例如,參照劇院電影,通過表達(dá)公知的句子),以及控制音頻渲染變化230。即使沒有選擇211對(duì)話內(nèi)容,新語音皮膚能夠應(yīng)用230。新的或修改的對(duì)話內(nèi)容還可以在沒有新語音皮膚231的情況下應(yīng)用。所確定的參數(shù)應(yīng)用于對(duì)話模式(或者新的對(duì)話模式加載或替代機(jī)器人使用的當(dāng)前對(duì)話模式)。例如,應(yīng)用稱為“Ch'tis”對(duì)話模式并且講出句子142??梢杂^察到,整體地或者部分地,對(duì)話內(nèi)容和/或語音皮膚參數(shù)能夠從因特網(wǎng)或云223取回。
現(xiàn)在描述對(duì)話模式(對(duì)話內(nèi)容以及尤其是語音皮膚)的示例。
在實(shí)施例中,“實(shí)用”對(duì)話模式(例如,對(duì)話內(nèi)容的修改)允許使用一個(gè)或多個(gè)詞典(或詞庫)以便機(jī)器人能夠以不同方式說出給定的句子。例如,可以使用同義詞。有益地,該實(shí)施例避免了機(jī)器人重復(fù)詞語。語言學(xué)家(編輯預(yù)制作對(duì)話句子)能夠?qū)懞芏鄬?duì)話內(nèi)容或話題,從而使得機(jī)器人能夠講出很多事情。同義詞的使用增加了機(jī)器人的表達(dá)的多樣性,像人類在使用不同詞語時(shí)共同完成的。對(duì)話模式能夠不同地渲染對(duì)話句子。例如,不是重復(fù)“今天天氣很好”,機(jī)器人將能夠說出“今天天氣令人舒服”。
在實(shí)施例中,“本地”適應(yīng)允許定制或個(gè)性化對(duì)話內(nèi)容和/或語音皮膚,取決于多個(gè)參數(shù),包括地理位置。例如,一些地理區(qū)域——例如,機(jī)器人將在此商業(yè)化——的一些語言特征,能夠通過應(yīng)用適合的語音皮膚來處理。在該實(shí)施例中,一些詞語的發(fā)音能夠例如基于地理位置來改動(dòng)。語音皮膚的觸發(fā)條件例如可以包括地理位置參數(shù)。實(shí)際上,在法國(guó)南部商業(yè)化的機(jī)器人能夠自動(dòng)地加載法國(guó)南部口音,反之亦然,對(duì)于法國(guó)北部加載北方口音。還可以應(yīng)用慣用表達(dá)。
在實(shí)施例中,能夠?qū)崿F(xiàn)或執(zhí)行“教育”對(duì)話模式。一般而言,由于實(shí)質(zhì)性內(nèi)容的添加可以是對(duì)話模式的應(yīng)用的部分,所以可以設(shè)想一些教育范圍。在該模式中,能夠?qū)崿F(xiàn)教育對(duì)話模式(例如,利用先決條件、目標(biāo)的定義、因此的教育內(nèi)容、同化的核驗(yàn)步驟)。用戶可以利用陪伴機(jī)器人來學(xué)習(xí)外語。用戶還可以發(fā)現(xiàn)他們的母語的方面。例如,不同的語言式樣能夠教導(dǎo)年輕用戶(法國(guó)“Soutenu”、法國(guó)“Verlan”、法國(guó)“argot”等)。對(duì)話模式還能夠?qū)崿F(xiàn)具體的專業(yè)術(shù)語(醫(yī)療、律師等)。
在實(shí)施例中,能夠?qū)崿F(xiàn)“有趣”對(duì)話模式。例如機(jī)器人能夠模仿或參照近期發(fā)布的劇院電影。例如,語音皮膚可以是“Dark Vador”或“Master Yoda”皮膚(Yoda人物經(jīng)常變換動(dòng)詞和主語,Dark Vador可以將“我是你的父親”添加到句子末尾并且以噪聲呼吸)。
在發(fā)展中,電影院的發(fā)布與可下載程序相關(guān)聯(lián),當(dāng)可下載程序加載到機(jī)器人上時(shí)會(huì)使得所述機(jī)器人實(shí)現(xiàn)具體的對(duì)話模式(根據(jù)對(duì)話內(nèi)容和/或語音皮膚表達(dá)力)。例如,在電影院發(fā)布了比如“Bienvenue chez les Ch'tis”后,對(duì)應(yīng)的對(duì)話模式能夠供用作“特別吸引人的東西”或衍生產(chǎn)品。在實(shí)施例中,能夠在DVD外套的背面上或者在電影票上使用的QR碼可由圖像獲取器件來讀取并且實(shí)現(xiàn)相應(yīng)的對(duì)話模式的它們對(duì)應(yīng)的軟件程序能夠被下載且進(jìn)一步安裝。任選地,該軟件程序的效果的持續(xù)時(shí)間可以在時(shí)間上受限制(例如,兩周)。在另一實(shí)施例中,著名明星或名人或英雄可以具有他們的數(shù)字對(duì)話模式對(duì)應(yīng)部分。例如,Claude(法國(guó)的著名歌唱家)的愛好者可以在機(jī)器人中實(shí)現(xiàn)對(duì)應(yīng)的語音皮膚(例如,語音模仿、語調(diào))和/或?qū)υ拑?nèi)容(例如,復(fù)制品、引用語、會(huì)晤確切復(fù)制或重構(gòu),等)。作為多模態(tài)對(duì)象,除了所描述的對(duì)話模式之外(以及任選地),機(jī)器人例如能夠編舞或者像Claude一樣跳舞或者以歌唱家的過去記錄的會(huì)晤的真實(shí)摘錄(關(guān)于版權(quán)的方面如果適用)排他地回應(yīng)。
在實(shí)施例中,機(jī)器人能夠從與用戶的交互中達(dá)到長(zhǎng)期同化。例如,個(gè)性化的以及持久的對(duì)話模型能夠逐漸地與給定機(jī)器人相關(guān)聯(lián)。長(zhǎng)期品質(zhì)的選擇和持續(xù)能夠幫助定義與機(jī)器人相關(guān)聯(lián)的“性格”的獨(dú)特性。例如,比如“vin de diouss”的某些表達(dá)可以呈現(xiàn)出沿某些用戶的充分高的可接受性,使得皮膚的特定方面將永久地實(shí)現(xiàn)。經(jīng)過一個(gè)又一個(gè)皮膚,機(jī)器人的“個(gè)性”因此能夠固定,混合不同對(duì)話模式的不同的特別之處,以及尤其是語音皮膚的不同的特別之處。
語言交互能夠暗示學(xué)習(xí)曲線,既針對(duì)機(jī)器人,又針對(duì)用戶。該交互可以命名為“社會(huì)交互”,即使一個(gè)參與者是機(jī)器人。鼓勵(lì)(確認(rèn))所強(qiáng)調(diào)的重復(fù)性以及迭代性的語言交互例如能夠促進(jìn)學(xué)習(xí)活動(dòng)。對(duì)話交互通常減少了“使用”與“學(xué)習(xí)”階段之間的分離度。陪伴機(jī)器人能夠嘗試模仿其“教育者”,例如重新使用人類的口語表達(dá)和/或利用相似的音速。更多的與機(jī)器人的交互通常意味著更相關(guān)的交互,因?yàn)橹R(shí)庫得以豐富和交叉檢查。
現(xiàn)在描述對(duì)話模式的觸發(fā)的示例(例如,對(duì)話內(nèi)容和/或?qū)υ捚つw的激活或去激活,例如利用執(zhí)行規(guī)則)。
對(duì)話模式(例如,語音皮膚)能夠與一個(gè)或多個(gè)執(zhí)行規(guī)則相關(guān)聯(lián)??梢愿鶕?jù)該執(zhí)行規(guī)則來觸發(fā)(激活或去激活)對(duì)話模式。下文描述不同的實(shí)施例。存在多種在人類用戶與機(jī)器人之間的包括句子的對(duì)話期間觸發(fā)包括對(duì)話內(nèi)容和對(duì)話語音皮膚的對(duì)話模式的開始或執(zhí)行的方式。這些不同的觸發(fā)一個(gè)或多個(gè)對(duì)話模式的開始或執(zhí)行的方式(尤其所下文所描述的)能夠獨(dú)立并且能夠進(jìn)一步彼此結(jié)合。
在實(shí)施例中,一個(gè)或多個(gè)軟件應(yīng)用的開始或執(zhí)行在與用戶的對(duì)話(與用戶的交互)期間被觸發(fā)。音頻信號(hào)被捕獲,任選的被過濾和增強(qiáng),執(zhí)行講話-文本操作(在機(jī)器人上本地地和/或在云上遠(yuǎn)程地),所獲得的文本被分析,并且利用所述格式來執(zhí)行一個(gè)或多個(gè)比較。在一個(gè)或多個(gè)匹配時(shí),任選地利用閾值,在那些安裝到機(jī)器人上的對(duì)話模式中選定一個(gè)或多個(gè)對(duì)話模式。結(jié)果,執(zhí)行一個(gè)或多個(gè)對(duì)話模式。
在實(shí)施例中,對(duì)話模式的開始是全自動(dòng)的,即無需用戶同意或確認(rèn)。在發(fā)展中,用戶或超級(jí)用戶(例如,父母)能夠中斷或暫?;蚪K止或結(jié)束對(duì)話模式的執(zhí)行。在另一實(shí)施例中,對(duì)話模式的開始要求用戶的明確確認(rèn)。機(jī)器人能夠聲明其開始某對(duì)話模式的意圖,但是將在繼續(xù)之前等待確認(rèn)。例如,機(jī)器人能夠聲明“我打算像Dark Vador一樣講話”并且用戶仍能夠回復(fù)“現(xiàn)在不可以”。
在實(shí)施例中,能夠取決于開始條件或參數(shù)執(zhí)行對(duì)話模式。這些條件或參數(shù)可以是事實(shí)或規(guī)則或者兩者(關(guān)于事實(shí)的規(guī)則)。這些事實(shí)例如包括用戶的類型或種類、當(dāng)前上下文或情形或環(huán)境,其特征在于一個(gè)環(huán)境值(例如,當(dāng)前本地天氣、日期和時(shí)間、檢測(cè)到的情感、用戶數(shù)量等)。執(zhí)行規(guī)則的范圍從簡(jiǎn)單規(guī)則到復(fù)雜規(guī)則。執(zhí)行規(guī)則可以是有條件的。例如,在實(shí)施例中,多個(gè)規(guī)則必須其它規(guī)則中同時(shí)滿足以授權(quán)或允許對(duì)話模式的執(zhí)行。在另一實(shí)施例中,多個(gè)規(guī)則必須順序地滿足(例如,按某次序和/或利用時(shí)間限制或閾值)。一些執(zhí)行規(guī)則可以被預(yù)定義。一些其它執(zhí)行規(guī)則可以被動(dòng)態(tài)地定義(例如,一些規(guī)則可以取自因特網(wǎng))。
在實(shí)施例中,執(zhí)行規(guī)則可以是簡(jiǎn)單規(guī)則。例如,執(zhí)行規(guī)則可以包括(例如,編碼)年齡限制。在另一實(shí)施例中,多個(gè)執(zhí)行規(guī)則可以累加地使用或應(yīng)用。例如,特定的語音皮膚可以在年齡在12以上的用戶面前授權(quán)和/或根據(jù)某些情形(一天中的時(shí)間、測(cè)得的聽眾的情感等)來授權(quán)。在實(shí)施例中,對(duì)話語音皮膚或?qū)υ拑?nèi)容的應(yīng)用由機(jī)器人檢測(cè)到預(yù)定義事件時(shí)觸發(fā),所述事件確定時(shí)間標(biāo)準(zhǔn)(日歷、一天中的時(shí)間等)和空間標(biāo)準(zhǔn)(在附近檢測(cè)到的用戶數(shù)量、所述用戶的相應(yīng)的年齡、從所述用戶感知到的情感態(tài)度,例如微笑與否)的具體組合。
在實(shí)施例中,一些執(zhí)行規(guī)則能夠是用戶可配置的(例如,父母控制)。一些執(zhí)行規(guī)則可以預(yù)定義,而其它執(zhí)行規(guī)則可以動(dòng)態(tài)地取回,例如從因特網(wǎng)和/或從其它機(jī)器人。在同一對(duì)話期間能夠激活或去激活對(duì)話模式:這些激活或去激活可以是動(dòng)態(tài)的,例如能夠以不同方式取決于所感知到的環(huán)境。
在實(shí)施例中,對(duì)話模式(例如,對(duì)話內(nèi)容和/或?qū)υ捚つw,獨(dú)立地)能夠根據(jù)多種參數(shù)來激活或結(jié)束,包括“標(biāo)簽”的使用和/或“條件”的使用和/或“先決條件”的使用。
標(biāo)簽是能夠與機(jī)器人所能說的一個(gè)或多個(gè)表達(dá)相關(guān)聯(lián)的標(biāo)記。這些標(biāo)簽?zāi)軌騽?dòng)態(tài)地激活或去激活并且能夠判定是否能夠保存相關(guān)聯(lián)的表達(dá)。例如,在機(jī)器人詢問“你喜歡談?wù)撆腼儐??”,如果用戶回?yīng)“不,我對(duì)烹飪不感興趣”(或類似的),標(biāo)簽“烹飪”被去激活。機(jī)器人更新與標(biāo)識(shí)的用戶相關(guān)聯(lián)的對(duì)話話題的列表。機(jī)器人未來將避免所述對(duì)話話題。
“條件”和“交叉條件”使得能夠修改機(jī)器人將要說的,其根據(jù)預(yù)定義變量(例如,用戶偏好)。例如,對(duì)于機(jī)器人問的問題“你的年齡是”,用戶可以回應(yīng)“我12歲”。在該情況下,機(jī)器人將值12存儲(chǔ)為所標(biāo)識(shí)的用戶的值的年齡。后來,機(jī)器人可以問“你今晚做什么”。如果用戶回應(yīng)“什么也不做”,則機(jī)器人將回應(yīng)存儲(chǔ)為與“晚間活動(dòng)”相關(guān)聯(lián)的變量。從年齡組和夜晚事務(wù)的缺失,機(jī)器人的推理后來可以在夜晚推導(dǎo)或提議“你想要和我玩嗎?”。
在實(shí)施例中,觸發(fā)(即,對(duì)話模式或語音皮膚或?qū)υ拑?nèi)容的激活或去激活)能夠由上下文(例如,環(huán)境、數(shù)據(jù)、時(shí)間、地點(diǎn)等)來驅(qū)動(dòng)。在實(shí)施例中,機(jī)器人能夠監(jiān)視并記錄一個(gè)或多個(gè)用戶表達(dá)。在檢測(cè)到類似“氛圍(atmosphere)”的詞語時(shí),機(jī)器人則可以說“atmosphere,atmosphere,est ce j'ai une gueule d'atmosphere?”。這是文化參照的示例。然而,對(duì)話還可以更復(fù)雜的事實(shí)和規(guī)則來觸發(fā),例如,通過所謂的“事件”檢測(cè)。例如,在某年齡組存在的情況下,不允許某些對(duì)話模式或皮膚。事實(shí)上,機(jī)器人例如能夠評(píng)估至少用戶年齡在12以下并且檢測(cè)到交談中的詞語“法國(guó)油炸馬鈴薯”且隨后加載特定的預(yù)定義皮膚(“Ch'tis”)。當(dāng)用戶觸摸機(jī)器人的頭時(shí),事件的另一示例發(fā)生。在該情況下,可以加載、激活和執(zhí)行特定的皮膚。事件可以包括諸如空間放置、姿勢(shì)或姿勢(shì)的組合、對(duì)話內(nèi)容(關(guān)鍵詞或關(guān)鍵表達(dá))、年齡組和或性別的評(píng)估、用戶偏好的參數(shù)。
在實(shí)施例中,在對(duì)話期間執(zhí)行一個(gè)或多個(gè)應(yīng)用,通過一個(gè)或多個(gè)執(zhí)行規(guī)則的滿足(或核驗(yàn)或滿意)而觸發(fā)該一個(gè)或多個(gè)應(yīng)用。人與機(jī)器之間的對(duì)話被監(jiān)視并且“格式”(例如)從對(duì)話流中持續(xù)地提取(“協(xié)作對(duì)話”模式)。在實(shí)施例中,講話流被接收且持續(xù)地分析。提取超越了講話流中帶有或者不帶有標(biāo)記(“好的,Glass,拍照”)的語音命令(例如,關(guān)鍵表達(dá))的唯一提取。尤其是,用戶的詞語或表達(dá)被提取且與預(yù)定義條件、標(biāo)簽、標(biāo)記或交叉條件進(jìn)行比較或匹配。
在另一實(shí)施例中,預(yù)定義一個(gè)或多個(gè)執(zhí)行規(guī)則。軟件應(yīng)用由編輯者或出版者提供,包括包含執(zhí)行規(guī)則列表的文件以便能夠或允許或授權(quán)所述對(duì)話模式的執(zhí)行。執(zhí)行規(guī)則被測(cè)試:如果它們令人滿意或允許或核驗(yàn),則能夠選擇一個(gè)或多個(gè)對(duì)話模式。一些規(guī)則可以是最小滿足標(biāo)準(zhǔn)。一些其它規(guī)則時(shí)間能夠定義優(yōu)選的開始或執(zhí)行條件。例如,最小執(zhí)行規(guī)則可以是“如果用戶年齡在12以下且在22pm之前,則Dark Vador語音皮膚被授權(quán)”,優(yōu)選的規(guī)則可以是“如果三個(gè)用戶位于5m內(nèi),并且至少兩個(gè)用戶年齡在12以下,并且至少一個(gè)正在微笑且如果沒其它相反指示,則提議用Dark Vador的語音來開玩笑”。
現(xiàn)在描述各個(gè)實(shí)施例。
現(xiàn)在描述反作用循環(huán)和相關(guān)反饋。在一個(gè)實(shí)施例中,給定的對(duì)話模式(例如,語音皮膚)的整體的成功或失敗,從人類用戶的視角,能夠被接收和/或量化。在發(fā)展中,利用細(xì)粒度的粒度,機(jī)器人的每個(gè)語言主動(dòng)性可以由用戶確認(rèn)或不確認(rèn)(例如,通過檢測(cè)明確的許可或者甚至從組合了姿勢(shì)和語音命令的復(fù)雜人類行為得到的隱式的許可)。而且,協(xié)作模型能夠?qū)崿F(xiàn):在用戶/機(jī)器人的群體之間統(tǒng)計(jì)地執(zhí)行給定表達(dá)的驗(yàn)證或無效。例如,如果表達(dá)“cha va biloute”接收到關(guān)于安裝的庫的部分的積極反饋超過75%,則所述表達(dá)能夠在全局規(guī)模上被驗(yàn)證。相反,如果表達(dá)“à”接收到過少的積極反饋(或者接收到否定反饋),則所述表達(dá)可以永久地從具體的對(duì)話模式或模型移除。
在發(fā)展中,人類提供給“帶皮膚的”對(duì)話的回應(yīng)可以被記錄以及進(jìn)一步利用。在實(shí)施例中,回應(yīng)用于衡量機(jī)器人干預(yù)的質(zhì)量。在另一實(shí)施例中,它們的回應(yīng)的實(shí)質(zhì)進(jìn)而能夠用于進(jìn)一步豐富交談模型。例如,如果一個(gè)回應(yīng)被循環(huán)地觀察到,則回應(yīng)進(jìn)一步重新用于對(duì)話模式(即,對(duì)話內(nèi)容)。
關(guān)于涉及到技術(shù)問題的商業(yè)方面,在實(shí)施例中,對(duì)話模式(例如,語音皮膚)經(jīng)由電子市場(chǎng)分布。一些皮膚能夠自由下載;一些其它皮膚會(huì)要求支付。一些皮膚可以時(shí)間上、區(qū)域上或其它硬件要求上受限制。
即使陪伴機(jī)器人理論上能夠記錄人類所說的每個(gè)詞語,但是隱私方面阻止這樣的記錄。通過使用機(jī)器學(xué)習(xí)技術(shù),機(jī)器人仍獲取高級(jí)和非侵入的特征。例如,利用機(jī)器學(xué)習(xí)技術(shù),能夠提取循環(huán)的格式(詞匯表的類型、優(yōu)選的表達(dá),等等)。同樣,從劇院電影有限提取可以從副標(biāo)題的分析中發(fā)生(在Master Yoda的示例中,能夠從這些分析確定對(duì)話內(nèi)容)。關(guān)于音色和頻率的方面,監(jiān)督學(xué)習(xí)能夠允許機(jī)器人模仿某些指定的人。例如,機(jī)器人可以開始講話并且可以進(jìn)一步被請(qǐng)求修改某些參數(shù)(“講話更嚴(yán)厲點(diǎn)”)。在實(shí)施例中,自動(dòng)化陪伴能夠在實(shí)現(xiàn)的語音皮膚與真實(shí)音頻摘錄之間執(zhí)行,從而提供用于改善反饋環(huán)的機(jī)會(huì)。
現(xiàn)在描述對(duì)話內(nèi)容的著作。不同的實(shí)體可能編輯對(duì)話內(nèi)容。在實(shí)施例中,操作者或機(jī)器人平臺(tái)可以著作對(duì)話句子(例如,語言學(xué)家編寫對(duì)話句子)。在實(shí)施例中,對(duì)話內(nèi)容由第三方公司(例如,軟件開發(fā)者)編寫和商業(yè)化。在實(shí)施例中,對(duì)話模式由機(jī)器人的用戶或所有者來編寫。例如,軟件工具(“DJ-skins”)或網(wǎng)絡(luò)平臺(tái)可以促進(jìn)語音皮膚的創(chuàng)建或修改。用戶能夠提交新的語音皮膚、在線編輯它們、為流行的語音皮膚投票或評(píng)分。版本可以包括混合預(yù)定義語音皮膚和/或?yàn)橛脩籼峁┠承﹦?chuàng)建控件來微調(diào)語音皮膚和/或上傳并共享聲音或記錄的句子,或其組合。可用的皮膚可以伴有證書或者沒有,免費(fèi)或者付費(fèi)。語音皮膚能夠由機(jī)器人的用戶選定,用戶例如可以收聽不同的語音皮膚的不同應(yīng)用并且選擇或選定一個(gè)或多個(gè)優(yōu)選的應(yīng)用。在另一實(shí)施例中,對(duì)話由多方共同著作。在實(shí)施例中,對(duì)話是從機(jī)器人的安裝的庫以及從作為不同機(jī)器人的所有者的用戶的真正的回應(yīng)合并的。所述合并可以是對(duì)初始對(duì)話的補(bǔ)充。在另一實(shí)施例中,也是作為補(bǔ)充或替代,對(duì)話內(nèi)容由在因特網(wǎng)內(nèi)容上進(jìn)行的提取來編寫(例如,監(jiān)督或非監(jiān)督方法能夠允許標(biāo)識(shí)、提取和使用問題和回答)。有益地,這些實(shí)施例允許快速改善對(duì)話內(nèi)容,接收分布式的反饋。所述改進(jìn)能夠迅速地在安裝的庫之間傳播。例如,通過使用閉環(huán)機(jī)器學(xué)習(xí),流行的語音皮膚能夠在世界范圍內(nèi)傳播。
如果多個(gè)實(shí)體能夠貢獻(xiàn)于對(duì)話模式的定義(即,提供對(duì)話內(nèi)容和/或語音皮膚和/或相關(guān)聯(lián)的執(zhí)行規(guī)則),則最終的實(shí)現(xiàn)能夠由機(jī)器人的提供者來控制。進(jìn)一步的控制或調(diào)節(jié)層能夠調(diào)制或過濾或減弱或放大或增加或鼓勵(lì)或減少或抑制或限制或避免或禁止對(duì)話模式的使用。尤其是,如所述的,對(duì)話模式的使用能夠通過執(zhí)行規(guī)則來調(diào)節(jié):機(jī)器人的制造商或提供者能夠支配這些規(guī)則,或者部分地支配這些規(guī)則。
在實(shí)施例中,機(jī)器人的提供者能夠控制最終音頻渲染設(shè)備,即在類比復(fù)原之前的最新點(diǎn)。換言之,由選定的對(duì)話模式或內(nèi)容或皮膚應(yīng)用于對(duì)話的預(yù)制作句子所得到的機(jī)器人的規(guī)劃音頻表達(dá)能夠在有效音頻復(fù)原之前濾除。
為了確?;蚝侠淼卮_保機(jī)器人不會(huì)講出任何差的詞語,能夠?qū)崿F(xiàn)授權(quán)詞語的白名單和禁用詞語的黑名單以及灰名單(能夠取決于實(shí)際上下文而被授權(quán)或不被授權(quán)的詞語或表達(dá))。在該情況下,將語音皮膚應(yīng)用于對(duì)話內(nèi)容的預(yù)制作句子上的結(jié)果可以與該名單進(jìn)行比較。超過名單的使用的復(fù)雜的邏輯規(guī)則同樣可以被使用。在成功時(shí),如果經(jīng)授權(quán)或允許,則句子被講出(和/或相應(yīng)地修改)。
另一將一個(gè)或多個(gè)對(duì)話內(nèi)容和/或語音皮膚應(yīng)用于機(jī)器人所表達(dá)的最終對(duì)話的調(diào)節(jié)方法可以包括使用安全啟動(dòng)方法。例如,對(duì)特定對(duì)話模式編碼的每個(gè)軟件包能夠與(例如,二進(jìn)制形式的程序的)散列值相關(guān)聯(lián)。通過安裝在機(jī)器人中的軟件包的散列值的核驗(yàn)所證明的所述程序的適當(dāng)?shù)拇嬖谀軌蛟诔晒蓑?yàn)后有條件地授權(quán)機(jī)器人的啟動(dòng)(或者在功能上進(jìn)行一些限制)。
作為(通常是安裝在機(jī)器人中的軟件應(yīng)用的)對(duì)話模式的執(zhí)行的進(jìn)一步調(diào)節(jié),機(jī)器人的健康監(jiān)視服務(wù)能夠調(diào)節(jié)執(zhí)行優(yōu)先級(jí)。尤其是,軟件應(yīng)用的執(zhí)行可以考慮到該“健康監(jiān)視”服務(wù)。換言之,高級(jí)優(yōu)先級(jí)方案能夠進(jìn)一步調(diào)節(jié)軟件應(yīng)用的執(zhí)行,包括對(duì)話模式。在實(shí)施例中,機(jī)器人不與用戶交互(即,沒有與任何人交互)。在該情況下,機(jī)器人執(zhí)行或者能夠執(zhí)行自主任務(wù)。在另一實(shí)施例中,機(jī)器人處于危險(xiǎn)中(例如,“防護(hù)模式”、電池電量低或者臨界、障礙物的存在或者掉落的風(fēng)險(xiǎn),等等)。在該情況下,機(jī)器人的優(yōu)先級(jí)是處理并解決其自身的問題(例如,執(zhí)行其自身的任務(wù))。例如,如果電池電量臨界,則機(jī)器人能夠中斷與用戶的對(duì)話并且嘗試到達(dá)能源基地。如果在附近檢測(cè)到用戶和/或如果機(jī)器人不處于臨界情形(其中機(jī)器人可以不執(zhí)行其基本功能),能夠激活對(duì)話模式。相反,如果在附近沒有檢測(cè)到用戶和/或機(jī)器人處于臨界情形,則對(duì)話模式模塊可以被去激活。
公開的方法能夠采取完全硬件的實(shí)施例(例如,F(xiàn)PGA)、完全軟件實(shí)施例或者包含硬件元件和軟件元件兩者的實(shí)施例的形式。軟件實(shí)施例包括但不限于固件、常駐軟件、微碼等。本發(fā)明能夠采取計(jì)算機(jī)程序產(chǎn)品的形式,計(jì)算機(jī)程序產(chǎn)品能夠從提供由計(jì)算機(jī)或任何指令執(zhí)行系統(tǒng)使用或者與其相結(jié)合的程序代碼的計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)來訪問。計(jì)算機(jī)可用或計(jì)算機(jī)可讀可以是任何能夠包含、存儲(chǔ)、傳達(dá)、傳播或傳送由指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用的或者與其相結(jié)合的程序的裝置。介質(zhì)可以是電子的、磁的、光的、電磁的、紅外的或半導(dǎo)體系統(tǒng)(或裝置或設(shè)備)或傳播介質(zhì)。