信息處理裝置的制造方法
【專利摘要】實現(xiàn)與發(fā)話者的自然對話。本發(fā)明的對話機器人(100)具備:輸入管理部(21),其將屬性信息與語音相對應(yīng)地存儲到存儲部(12),接受語音輸入;短語輸出部(23),其提示與語音對應(yīng)的短語;以及輸出與否判斷部(22),其在提示與第1語音對應(yīng)的第1短語之前輸入了第2語音的情況下,基于1個以上的屬性信息來判斷是否需要第1短語的提示。
【專利說明】
信息處理裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及響應(yīng)于發(fā)話者發(fā)出的語音對該發(fā)話者提示規(guī)定的短語的信息處理裝置等?!颈尘凹夹g(shù)】
[0002]以往廣泛研究了能使人類與機器人對話的對話系統(tǒng)。例如,專利文獻1公開了能使用新聞和會話的數(shù)據(jù)庫來使與發(fā)話者的對話繼續(xù)進行并展開的對話型信息系統(tǒng)。另外,專利文獻2公開了一種在處理多個對話腳本的多重對話系統(tǒng)中,為了防止發(fā)話者的混亂而在切換對話腳本時保持響應(yīng)模式的連續(xù)性的對話方法、對話裝置。專利文獻3公開了一種語音對話裝置,其更換所輸入的語音的順序來執(zhí)行識別處理,由此提供不讓發(fā)話者感到不協(xié)調(diào)、 帶來壓力的語音對話。
[0003]現(xiàn)有技術(shù)文獻
[0004]專利文獻
[0005]專利文獻1:日本國公開專利公報“特開2006-171719號公報(2006年6月29日公開)”
[0006]專利文獻2:日本國公開專利公報“特開2007-79397號公報(2007年3月29日公開)” [〇〇〇7] 專利文獻3:日本國公開專利公報“特開平10-124087號公報(1998年5月15日公開)”
[0008]專利文獻4:日本國公開專利公報“特開2006-106761號公報(2006年4月20日公開)”
【發(fā)明內(nèi)容】
[0009]發(fā)明要解決的問題
[0010]在以專利文獻1?4公開的技術(shù)為首的現(xiàn)有技術(shù)中,終究是以“提問/回答服務(wù)”(假定發(fā)話者等待直到機器人對提問的回答結(jié)束為止)中的一問一答的交流為前提的。因此,存在無法實現(xiàn)與人對人的對話相近的自然對話的問題。
[0011]具體地說,如在人對人的對話中也會發(fā)生的那樣,假定在對話系統(tǒng)中,與發(fā)話者對機器人的在先呼叫(語音)對應(yīng)的在先響應(yīng)(短語)發(fā)生延遲,在該響應(yīng)未輸出前就輸入下一呼叫。在這種情況下,會發(fā)生在先響應(yīng)輸出與對下一呼叫的在后響應(yīng)輸出交錯的現(xiàn)象。為了實現(xiàn)自然(類人)對話,需要按照對話的狀況對這些交錯的響應(yīng)輸出進行適當處理。然而,現(xiàn)有技術(shù)是以一問一答的交流為前提的,不存在能應(yīng)對上述要求的現(xiàn)有技術(shù)。
[0012]本發(fā)明是鑒于上述問題而完成的,其目的在于在接連輸入語音的情況下,也能實現(xiàn)與發(fā)話者的自然對話的信息處理裝置、對話系統(tǒng)以及信息處理裝置的控制程序。
[0013]用于解決問題的方案
[0014]為了解決上述問題,本發(fā)明的一個方式的信息處理裝置響應(yīng)于用戶發(fā)出的語音而對該用戶提示規(guī)定的短語,具備:接受部,其將上述語音或者識別該語音后的結(jié)果與表示該語音的屬性的屬性信息相對應(yīng)地存儲到存儲部,由此接受該語音的輸入;提示部,其提示與由上述接受部接受的語音對應(yīng)的短語;以及判斷部,其在由上述提示部提示與先輸入的第1 語音對應(yīng)的第1短語之前輸入了第2語音的情況下,根據(jù)上述存儲部中存儲的1個以上的屬性信息中的至少1個判斷是否需要上述第1短語的提示。[〇〇15] 發(fā)明效果
[0016]根據(jù)本發(fā)明的一個方式,能實現(xiàn)如下效果:在接連輸入語音的情況下,也能實現(xiàn)與發(fā)話者的自然對話。【附圖說明】
[0017]圖1是示出本發(fā)明的實施方式1?5的對話機器人和服務(wù)器的主要部分構(gòu)成的圖。
[0018]圖2是概略示出本發(fā)明的實施方式1?5的對話系統(tǒng)的示意圖。
[0019]圖3的(a)是示出實施方式1的語音管理表的具體例的圖,(b)是示出實施方式1的閾值的具體例的圖,(c)是示出語音管理表的其它具體例的圖。
[0020]圖4是示出實施方式1的對話系統(tǒng)中的處理流程的流程圖。
[0021]圖5的(a)?(c)是示出實施方式2的語音管理表的具體例的圖,(d)是示出實施方式2的閾值的具體例的圖。[〇〇22]圖6的(a)?(c)是示出上述語音管理表的具體例的圖。
[0023]圖7是示出實施方式2的對話系統(tǒng)中的處理流程的流程圖。
[0024]圖8的(a)是示出實施方式3的語音管理表的具體例的圖,(b)是示出實施方式3的發(fā)話者DB的具體例的圖。
[0025]圖9是示出實施方式3的對話系統(tǒng)中的處理流程的流程圖。
[0026]圖10的(a)是示出實施方式4的語音管理表的其它具體例的圖,(b)是示出實施方式4的閾值的具體例的圖,(c)是示出實施方式4的發(fā)話者DB的具體例的圖。
[0027]圖11是示出實施方式4的對話系統(tǒng)中的處理流程的流程圖。
[0028]圖12是示出實施方式4中的對話機器人和服務(wù)器的主要部分構(gòu)成的其它例的圖?!揪唧w實施方式】 [〇〇29]《實施方式1》
[0030]根據(jù)圖1?圖4說明本發(fā)明的實施方式1。
[0031]〔對話系統(tǒng)的概要〕
[0032]圖2是概略示出對話系統(tǒng)300的示意圖。如圖2所示,對話系統(tǒng)(信息處理系統(tǒng))300 包括對話機器人(信息處理裝置)1〇〇和服務(wù)器(外部裝置)200。根據(jù)對話系統(tǒng)300,發(fā)話者將使用自然語言的語音(例如語音la、語音lb……)輸入對話機器人100,收聽(或者閱讀)作為其響應(yīng)的從對話機器人100提示的短語(例如短語4a、短語4b……)。由此,發(fā)話者能與對話機器人100進行自然對話,得到各種信息。具體地說,對話機器人100是響應(yīng)于發(fā)話者發(fā)出的語音而對該發(fā)話者提示規(guī)定的短語(答復(fù)語)的裝置。發(fā)揮作為對話機器人100的功能的本發(fā)明的信息處理裝置只要是能輸入語音,能基于所輸入語音提示上述規(guī)定的短語的機器即可,不限于對話機器人(例如,上述對話機器人100也能利用平板終端、智能電話、個人計算機等實現(xiàn))。
[0033]服務(wù)器200是響應(yīng)于發(fā)話者對對話機器人100發(fā)出的語音,向?qū)υ挋C器人100提供短語從而對該發(fā)話者提示規(guī)定的短語的裝置。此外,如圖2所示,對話機器人100和服務(wù)器 200相連接,能按規(guī)定的通信方式通過通信網(wǎng)5進行通信。
[0034]在本實施方式中,作為一個例子,對話機器人100具有識別所輸入的語音的功能, 將語音識別結(jié)果作為請求2發(fā)送到服務(wù)器200,由此向服務(wù)器200請求與該語音對應(yīng)的短語。 服務(wù)器200根據(jù)從對話機器人100發(fā)送的語音識別結(jié)果,生成與它對應(yīng)的短語,將生成的短語作為回應(yīng)3返回給對話機器人100。此外,短語的生成方法沒有特別限定,也可以采用現(xiàn)有的技術(shù)。例如,能從與語音識別結(jié)果相對應(yīng)地保存于存儲部的短語集取得適當?shù)亩陶Z,或者從保存于存儲部的短語的素材集將符合語音識別結(jié)果的素材適當?shù)亟M合,由此生成與語音對應(yīng)的短語。
[0035]以下說明將用對話機器人100進行語音識別的對話系統(tǒng)300用作具體例來說明本發(fā)明的信息處理裝置的功能,但這只不過是用于說明的一個例子,不限定本發(fā)明的信息處理裝置的構(gòu)成。[〇〇36]〔對話機器人的構(gòu)成〕[〇〇37]圖1是示出對話機器人100和服務(wù)器200的主要部分構(gòu)成的圖。對話機器人100具備控制部10、通信部11、存儲部12、語音輸入部13以及語音輸出部14。[〇〇38] 通信部11通過沿用規(guī)定的通信方式的通信網(wǎng)5與外部裝置(服務(wù)器200等)進行通信。只要具備實現(xiàn)與外部裝置的通信的本質(zhì)功能即可,不限定通信線路、通信方式或者通信介質(zhì)等。例如,通信部11能用以太網(wǎng)(注冊商標)適配器等設(shè)備構(gòu)成。另外,通信部11例如能利用IEEE802.1l無線通信、藍牙(注冊商標)等通信方式、通信介質(zhì)。在本實施方式中,通信部11至少包括:向服務(wù)器200發(fā)送請求2的發(fā)送部;以及從服務(wù)器200接收回應(yīng)3的接收部。
[0039]語音輸入部13由從對話機器人100的周圍采集語音(發(fā)話者的語音la、lb……等) 的麥克風構(gòu)成。從語音輸入部13采集的語音被變換為數(shù)字信號輸入語音識別部20。語音輸出部14由將在控制部10的各部處理并輸出的短語(例如,短語4a、4b……)變換為聲音而向外部輸出的揚聲器構(gòu)成。語音輸入部13和語音輸出部14也可以分別內(nèi)置于對話機器人100, 也可以通過外部連接端子而外置,也可以是可通信地連接。
[0040]存儲部 12包括R0M(Read Only Memory:只讀存儲器)、NVRAM(Non_Volat i 1 e Random Access Memory:非揮發(fā)性存儲器)、閃存等非易失性的存儲裝置,在實施方式1中, 保存有語音管理表40a和閾值41a(例如圖3)。
[0041]控制部10統(tǒng)一控制對話機器人100所具有的各種功能??刂撇?0的功能模塊至少包括輸入管理部21、輸出與否判斷部22和短語輸出部23,根據(jù)需要包括語音識別部20、短語請求部24和短語接收部25。功能模塊能通過如下方式實現(xiàn):由CPU(Central Processing Unit:中央處理單元)等將存儲于非易失性的存儲裝置(存儲部12)的程序讀出到未圖示的 RAM(Random Access Memory:隨機存取存儲器)等來執(zhí)行。[〇〇42]語音識別部20對通過語音輸入部13輸入的語音的數(shù)字信號進行解析,將語音內(nèi)的術(shù)語變換為文本數(shù)據(jù)。上述文本數(shù)據(jù)作為語音識別結(jié)果由對話機器人100或者服務(wù)器200下游的各部處理。語音識別部20只要適當采用公知的語音識別技術(shù)即可。[〇〇43]輸入管理部(接受部)21管理由發(fā)話者輸入的語音及其輸入履歷。具體地說,輸入管理部21針對輸入的語音,將能唯一確定該語音的信息(例如,語音ID、上述語音識別結(jié)果或者語音的數(shù)字信號(以下稱為語音數(shù)據(jù)))和表示該語音的屬性的屬性信息(在圖3中詳述)中的至少1個相對應(yīng),一起保存于語音管理表40a。
[0044]輸出與否判斷部(判斷部)22判斷是否將對所輸入的語音的答復(fù)(以下稱為短語) 輸出到后述的短語輸出部23。具體地說,輸出與否判斷部22在語音被接連輸入的情況下,根據(jù)由輸入管理部21按每個語音賦予的屬性信息判斷是否需要短語的輸出。由此,在非一問一答的交流方式而是發(fā)生多個語音不等待逐一答復(fù)而接連輸入對話機器人100的狀況的對話中,省略不必要的短語的輸出,能維持對話的自然流暢。
[0045]短語輸出部(提示部)23根據(jù)輸出與否判斷部22的判斷,用發(fā)話者能認知的形式提示與發(fā)話者輸入的語音對應(yīng)的短語,不提示由輸出與否判斷部22判斷為不需要輸出的短語。作為提示短語的方法的一個例子,短語輸出部23將文本形式的短語變換為語音數(shù)據(jù),輸出到語音輸出部14,用聲音使發(fā)話者認知。但是不限于此,短語輸出部23也可以構(gòu)成為將文本形式的短語輸出到未圖示的顯示部,將該短語作為文字供發(fā)話者視覺識別。
[0046]短語請求部(請求部)24向服務(wù)器200請求與輸入對話機器人100的語音對應(yīng)的短語。作為一個例子,短語請求部24將包含上述語音識別結(jié)果的請求2通過通信部11發(fā)送到服務(wù)器200。[〇〇47]短語接收部(接收部)25接收從服務(wù)器200提供的短語。具體地說,短語接收部25接收與請求2對應(yīng)地從服務(wù)器200發(fā)送的回應(yīng)3。短語接收部25分析回應(yīng)3的內(nèi)容,通知輸出與否判斷部22接收到了與哪個語音對應(yīng)的短語,并且將接收到的短語提供給短語輸出部23。 [〇〇48]〔服務(wù)器的構(gòu)成〕[〇〇49] 如圖1所示,服務(wù)器200具備控制部50、通信部51和存儲部52。通信部51基本上是與通信部11同樣的構(gòu)成,與對話機器人100進行通信。通信部51至少包括:從對話機器人100接收請求2的接收部;以及向?qū)υ挋C器人100發(fā)送回應(yīng)3的發(fā)送部。存儲部52基本上是與存儲部 12同樣的構(gòu)成,存儲服務(wù)器200所處理的各種信息(短語集或者短語素材集80等)。
[0050]控制部50統(tǒng)一控制服務(wù)器200所具有的各種功能。控制部50包括作為功能模塊的短語請求接收部60、短語生成部61和短語發(fā)送部62。功能模塊例如能通過如下方式實現(xiàn):由 CPU等將存儲于非易失性的存儲裝置(存儲部52)程序讀出到未圖示的RAM等而執(zhí)行。短語請求接收部(接受部)60從對話機器人100接收請求短語的請求2。短語生成部(生成部)61根據(jù)接收到的請求2中包含的語音識別結(jié)果生成與該語音對應(yīng)的短語。短語生成部61從短語集或者短語素材集80取得與語音識別結(jié)果相對應(yīng)的短語或者短語的素材從而能以文本形式生成短語。短語發(fā)送部(發(fā)送部)62將包含所生成的短語的回應(yīng)3發(fā)送到對話機器人100作為對請求2的響應(yīng)。[〇〇511〔關(guān)于信息〕[〇〇52]圖3的(a)是示出存儲部12中存儲的實施方式1的語音管理表40a的具體例的圖, (b)是示出存儲部12中存儲的實施方式1的閾值41a的具體例的圖。另外,(c)是示出語音管理表40a的其它具體例的圖。圖3是為了易于理解而示出由對話系統(tǒng)300處理的信息的一個具體例,不限定對話系統(tǒng)300的各裝置的構(gòu)成。另外,在圖3中,以表形式表示信息的數(shù)據(jù)結(jié)構(gòu)是一個例子,不意味著將該數(shù)據(jù)結(jié)構(gòu)限定為表形式。以后,在用于說明數(shù)據(jù)結(jié)構(gòu)的其它圖中也同樣。[〇〇53]參照圖3的(a),實施方式1的對話機器人100所保持的語音管理表40a是針對所輸入的1個語音至少與用于識別該語音的語音ID和屬性信息相對應(yīng)而保存的結(jié)構(gòu)。如圖3的 (a)所示,語音管理表40a也可以還保存所輸入的語音的語音識別結(jié)果和與該語音對應(yīng)的短語。另外,雖未圖示,語音管理表40a也可以除了(或者代替)語音ID、語音識別結(jié)果和短語, 還保存所輸入的語音的語音數(shù)據(jù)。語音識別結(jié)果由語音識別部20生成,用于由短語請求部 24生成請求2。短語由短語接收部25接收,由短語輸出部23進行處理。
[0054]在實施方式1中,屬性信息包括輸入時刻和提示準備完成時刻。輸入時刻指語音被輸入的時刻。作為一個例子,輸入管理部21取得用戶發(fā)出的語音被輸入語音輸入部13的時刻作為輸入時刻?;蛘?,輸入管理部21也可以取得語音識別部20將語音識別結(jié)果保存到語音管理表40a的時刻作為輸入時刻。提示準備完成時刻指在對話機器人100中取得與所輸入的上述語音對應(yīng)的短語,成為能輸出該短語的狀態(tài)的時刻。作為一個例子,輸入管理部21取得短語接收部25從服務(wù)器200接收到上述短語的時刻作為提示準備完成時刻。
[0055]根據(jù)輸入時刻和提示準備完成時刻,按每個輸入的語音算出從語音輸入到能輸出對應(yīng)的短語為止所需的時間。上述所需時間也可以作為屬性信息的一部分由輸入管理部21 保存于語音管理表40a。或者也可以構(gòu)成為輸出與否判斷部22根據(jù)輸入時刻和提示準備完成時刻,按照需要來算出所需時間。輸出與否判斷部22將上述所需時間用于判斷是否需要短語的輸出。[〇〇56] 考慮如果對話機器人100答復(fù)用戶自己的呼叫需要時間而在對話中出現(xiàn)空隙,則用戶會關(guān)于其它話題接連輸入語音的情況。參照圖3的(a)具體地進行說明。在由短語輸出部23輸出與先輸入的第1語音(Q002)對應(yīng)的第1短語“今天晴朗哦?!敝拜斎肓说?語音 (Q003)。在這種情況下,輸出與否判斷部22使用對應(yīng)的第1語音的所需時間來判斷是否需要上述第1短語的輸出。更詳細地說,存儲部12中保存有閾值41a(圖3的(b)所示的例子中為5 秒)。輸出與否判斷部22算出第1語音的所需時間為提示準備完成時刻(7:00:17)-輸入時刻 (7:00:10) =7秒,與閾值41a(5秒)進行比較。然后,在所需時間超過閾值41a的情況下,判斷為不需要輸出第1短語。也就是說,輸出與否判斷部22判斷為不需要輸出與第1語音(Q002) 對應(yīng)的第1短語。因此,短語輸出部23中止“今天晴朗哦。”的輸出。由此,能避免在從輸入“今天天氣如何?”起經(jīng)過長時間(7秒)后再輸入不同話題的第2語音“那么今天幾號? ”后,輸出不自然的響應(yīng)“今天晴朗哦?!钡那闆r。此外,在上述第1短語被省略后,沒有接著輸入其它語音前,對話機器人100與上述第2語音對應(yīng)地輸出“是15日哦?!钡鹊?短語來繼續(xù)進行與用戶的對話。[〇〇57]另一方面,考慮用戶會關(guān)于同一個話題以非常短的間隔接連輸入2個語音的情況。 參照圖3的(c ),具體說明其它例子。在由語音輸出部23輸出與先輸入的第1語音(Q002)對應(yīng)的第1短語之前,第2語音(Q003)被輸入。在這種情況下,輸出與否判斷部22使用第1語音的所需時間來判斷是否需要第1短語的輸出。在圖3的(c)所示的具體例中,所需時間為3秒。所需時間不超過閾值41a(5秒),因此輸出與否判斷部22判斷為需要輸出第1短語。由此,短語輸出部23在第2語音“然后明天的天氣呢?”輸入后也會輸出第1短語“今天晴朗哦?!?。第1語音“今天天氣如何? ”輸入后沒過多久(僅3秒),并且以短間隔接連輸入的第2語音也是同樣的天氣話題。因此,在第2語音輸入后輸出第1短語也不會不自然。此外,此后,在沒有接下來輸入其它語音之前,對話機器人100與上述第2語音對應(yīng)地輸出“明天是多云哦?!钡榷陶Z來繼續(xù)進行與用戶的對話。
[0058]〔處理流程〕[〇〇59]圖4是示出實施方式1的對話系統(tǒng)300中的各裝置的處理流程的流程圖。在對話機器人100中,當從語音輸入部13輸入發(fā)話者的語音時(S101中為是),語音識別部20輸出該語音的語音識別結(jié)果(S102)。輸入管理部21取得輸入上述語音的輸入時刻Ts(S103),將上述輸入時刻與確定所輸入的語音的信息(語音ID、上述語音識別結(jié)果或者語音數(shù)據(jù))相對應(yīng)地存儲于語音管理表40a(S104)。另一方面,短語請求部24生成包含上述語音識別結(jié)果的請求 2,發(fā)送到服務(wù)器200,向服務(wù)器200請求與輸入的上述語音對應(yīng)的短語(S105)。
[0060]此外,為了在從服務(wù)器200接到短語時能簡易并且準確地確定是與哪個語音對應(yīng)的短語,優(yōu)選在請求2中包含語音ID。另外,在語音識別部20被設(shè)于服務(wù)器200的情況下,省略S 102,生成包含語音數(shù)據(jù)的請求2,語音數(shù)據(jù)代替語音識別結(jié)果。[0061 ]在服務(wù)器200中,當短語請求接收部60接收請求2時(S 106中為是),短語生成部61 根據(jù)請求2中包含的語音識別結(jié)果生成與輸入的語音對應(yīng)的短語(S 107)。短語發(fā)送部62將包含生成的短語的回應(yīng)3發(fā)送到對話機器人100(S108)。在此,優(yōu)選短語發(fā)送部62將上述語音ID包含于回應(yīng)3。[〇〇62]在對話機器人100中,當短語接收部25接收回應(yīng)3時(S 109中為是),輸入管理部21 取得回應(yīng)3的接收時刻作為提示準備完成時刻Te,與語音ID相對應(yīng)地存儲到語音管理表40a (S110)〇
[0063]接下來,輸出與否判斷部22判斷在接收回應(yīng)3中包含的短語前(或者短語輸出部23 輸出該短語以前)是否新輸入了其它的語音(S111)。具體地說,輸出與否判斷部22參照語音管理表40a(圖3的(a)),判斷是否存在比與接收到的短語(例如,“今天晴朗哦?!?對應(yīng)的語音(Q002)的輸入時刻(7:00:10)靠后輸入并且比上述短語的提示準備完成時刻(7:00:17) 靠前輸入的語音。在存在滿足條件的語音(圖3的(a)的例子中,為Q003的語音)的情況下 (S111中為是),輸出與否判斷部22讀出與在S109中接收到的語音ID對應(yīng)的輸入時刻Ts和提示準備完成時刻Te,取得答復(fù)所需時間Te_Ts(S112)。
[0064]輸出與否判斷部22將閾值41a與上述的所需時間進行比較,在所需時間不超過閾值41a的情況下(S113中為否),判斷為需要輸出上述接收到的短語(S114)。短語輸出部23根據(jù)上述需要輸出的判斷,輸出接收到的與語音ID對應(yīng)的上述短語(S116)。另一方面,在所需時間超過閾值41a的情況下(S113中為是),判斷為不需要輸出上述接收到的短語(SI 15)。短語輸出部23根據(jù)上述不需要輸出的判斷,不輸出接收到的與語音ID對應(yīng)的上述短語。在此判斷為不需要輸出的短語可以由輸出與否判斷部22從語音管理表40a刪除,也可以與未圖示的不需要輸出的標志一起保存下去。
[0065]此外,在不存在滿足S111的條件的語音的情況下(S111中為否),一問一答的交流成立,不用判斷是否需要輸出。因此在這種情況下,只要短語輸出部23輸出在S109中接收到的短語即可(S116)。
[0066]《實施方式2》[〇〇67]〔對話機器人的構(gòu)成〕[〇〇68]根據(jù)圖1、圖5?圖7說明本發(fā)明的實施方式2。此外,為了便于說明,對具有與在上述實施方式中說明的構(gòu)件相同的功能的構(gòu)件標注相同的附圖標記,省略其說明。在以后的實施方式中也同樣。首先,以下說明圖1所示的實施方式2的對話機器人100中與實施方式1的對話機器人100不同的點。存儲部12中保存有語音管理表40b來代替語音管理表40a,保存有閾值41b來代替閾值41a。圖5的(a)?(c)和圖6的(a)?(c)是示出實施方式2的語音管理表40b的具體例的圖,圖5的(d)是示出實施方式2的閾值41 b的具體例的圖。[〇〇69]實施方式2的語音管理表40b與實施方式1的語音管理表40a不同,是保存作為屬性信息的接受順序的結(jié)構(gòu)。接受順序表明語音輸入的順序,數(shù)字越小意味著越早輸入。因此, 在語音管理表40b中,接受順序的值最大的語音被確定為最新的語音。在實施方式2中,輸入管理部21在語音輸入時,將該語音的語音ID與接受順序相對應(yīng)地保存到語音管理表40b。輸入管理部21在對語音賦予接受順序后,遞增1來使下一個語音輸入具備最新的接受順序。
[0070]此外,圖5和圖6所示的語音管理表40b中包含的“輸出結(jié)果” 一欄是為了容易理解發(fā)明而記載的,在語音管理表40b中不一定要包含上述欄。此外,輸出結(jié)果的“已”表示判斷為與語音對應(yīng)的短語需要輸出而已經(jīng)輸出,空欄表示短語尚未準備好(無法輸出),“不需要輸出”表示短語的準備已完成但是判斷為不需要輸出而沒有輸出的情況。在用語音管理表 40b管理輸出結(jié)果的情況下,該欄由輸出與否判斷部22更新即可。
[0071]在實施方式2中,輸出與否判斷部22算出要判斷是否需要短語輸出的對象語音的接受順序Nc與最新的語音的接受順序Nn的差作為新鮮度。新鮮度是將對象語音和所對應(yīng)的短語的收發(fā)的新舊數(shù)值化得到的,新鮮度的值(上述差)越大,意味著在時間序列上為越舊的收發(fā)。然后,輸出與否判斷部22將新鮮度用于判斷是否需要短語的輸出。
[0072]具體地說,新鮮度足夠大表示在對象語音輸入后到最新的語音輸入之間,進行了多次對話機器人100與發(fā)話者的收發(fā)(至少是從發(fā)話者向?qū)υ挋C器人100的呼叫)。因此,在對象語音被輸入的時點到當前時點(對話的最新的時點)之間,認為話題切換又經(jīng)過了足夠的時間。也就是說,對象語音和對應(yīng)的短語的內(nèi)容不符合最新的收發(fā)的內(nèi)容而變舊的可能性高。輸出與否判斷部22控制短語輸出部23,不輸出根據(jù)新鮮度判斷為答復(fù)過舊的短語,能維持對話的自然流暢。另一方面,在新鮮度足夠小的情況下,對象語音和所對應(yīng)的短語的內(nèi)容與最新的收發(fā)的內(nèi)容沒怎么變的可能性高。因此,輸出與否判斷部22判斷為輸出上述短語也不會損害對話的流暢,許可短語輸出部23輸出該短語。
[0073]首先,參照圖5的(a)?(d)具體說明判斷為需要輸出短語的情形。3個語音(Q002? Q004)沒有等待對話機器人100的答復(fù)而接連輸入。輸入管理部21對這3個語音依次賦予接受順序,與語音識別結(jié)果一起進行保存(圖5的(a))。其中,最早由短語接收部25接收到的是與Q003的語音對應(yīng)的短語“是30日哦?!?圖5的(b))。在此,對象語音是Q003的語音,輸出與否判斷部22對所對應(yīng)的上述短語判斷是否需要輸出。輸出與否判斷部22讀出最新的接受順序Nn (圖5的(b)的時點中為4)和對象的接受順序Nc (3 ),根據(jù)它們的差“4-3”算出新鮮度 “1”。輸出與否判斷部22將圖5的(d)所示的閾值41b“2”與新鮮度“1”進行比較,判斷為新鮮度未超過閾值。即,新鮮度的值足夠小,收發(fā)沒有多到認為切換了話題的程度,輸出與否判斷部22判斷為需要輸出上述短語“是30日哦?!?。根據(jù)該判斷,短語輸出部23輸出上述短語 (圖 5的(c))。
[0074]接下來,參照圖6的(a)?(d)具體說明判斷為不需要輸出短語的情形。在輸出了與上述Q003的語音對應(yīng)的短語之后,尚未輸出與Q002的語音對應(yīng)的短語之前,由用戶又輸入了Q005的語音(圖6的(a))。此后,由短語接收部25接收到與Q002的語音對應(yīng)的短語“晴朗哦。”(圖6的(b))。輸出與否判斷部22如下判斷是否需要對象語音Q002的上述短語的輸出。輸出與否判斷部2 2讀出最新的接受順序Nn (圖6的(b)的時點中為5)和對象的接受順序Nc ⑵,根據(jù)它們的差“5-2”算出新鮮度“3”。輸出與否判斷部22將閾值41 b (圖5的⑷的例子中為2)與新鮮度“3”進行比較,判斷為新鮮度超過閾值。即,新鮮度的值足夠大,收發(fā)多到認為切換了話題的程度,輸出與否判斷部22判斷為不需要輸出上述短語“晴朗哦?!?圖6的(c))。 按照該判斷,短語輸出部23中止上述短語的輸出。由此,能避免盡管在對話的最新的時點關(guān)于今日的事件提出了話題,而在該時點從對話機器人100輸出關(guān)于天氣的話題的短語的情況。[〇〇75]〔處理流程〕[〇〇76]圖7是示出實施方式2的對話系統(tǒng)300中的各裝置的處理流程的流程圖。[〇〇77]在對話機器人100中,與實施方式1同樣,語音被輸入,對語音進行識別(S201, S202)。輸入管理部21對上述語音賦予接受順序(S203),將上述接受順序與上述語音的語音 ID(或者語音識別結(jié)果)相對應(yīng)地存儲到語音管理表4013(3204)。3205?S209與實施方式1的 S105?S109是同樣的。[〇〇78]輸入管理部21將在S209中接收到的短語與同樣接收到的語音ID相對應(yīng)地保存到語音管理表40b(S210)。在語音管理表40b中沒有保存短語的欄的情況下,也可以省略S210。 或者,上述短語也可以不保存到語音管理表40b(存儲部12),而是暫時保存到作為揮發(fā)性存儲裝置的未圖示的臨時存儲部。
[0079]接下來,輸出與否判斷部22判斷在接收回應(yīng)3中包含的短語之前是否新輸入了其它的語音(S211)。具體地說,輸出與否判斷部22參照語音管理表40b(圖5的(b))判斷與接收到的短語對應(yīng)的對象語音的接受順序是否最新。如果對象語音不是最新的語音(S211中為是),則輸出與否判斷部22讀出最新的語音的接受順序Nn和對象語音的接受順序Nc,算出對象語音及其短語的新舊,也就是說,算出新鮮度Nn-Nc(S212)。
[0080]輸出與否判斷部22將閾值41b與新鮮度進行比較,在新鮮度未超過閾值41b的情況下(S213中為否),判斷為需要輸出上述接收到的短語(S214)。另一方面,在新鮮度超過閾值 41b的情況下(S213中為是),判斷為不需要輸出上述接收到的短語(S215)。以后的處理 (S211中為否和S216)與實施方式1(S111中為否和S116)同樣。此外,閾值41b是大于等于0的數(shù)值。
[0081]〔變形例〕[〇〇82]也可以在上述實施方式2中省略圖7的S211所示的處理。根據(jù)該構(gòu)成,基于以下理由,能得到與上述實施方式2中的圖7所示的處理同樣的結(jié)果。[〇〇83]在執(zhí)行圖7的S212所示的處理的時點,在接收回應(yīng)3前未輸入其它語音的情況下, 最新的語音的接受順序Nn與對象語音的接受順序Nc相等。即,新鮮度為0。因此,新鮮度不超過作為〇以上的數(shù)值的閾值42b(S213中為否),因此判斷為需要輸出回應(yīng)3中包含的短語 (S214)。即,與在圖7的S211所示的處理中判斷為對象語音是最新的語音的情況(S211中為否)同樣,輸出回應(yīng)3中包含的短語。
[0084]另外,在執(zhí)行圖7的S212所示的處理的時點,在對象語音不是最新的語音的情況下,執(zhí)行圖7的S212以后的處理。這是與在圖7的S211所示的處理中判斷為對象語音不是最新的語音的情況(S211中為是)同樣的處理。
[0085]因此,在上述的構(gòu)成中,在與對象語音對應(yīng)的回應(yīng)3中包含的短語被短語輸出部23提示前輸入了最新的語音的情況下,由輸出與否判斷部22根據(jù)上述存儲部中存儲的語音的接受順序判斷是否需要提示回應(yīng)3中包含的短語。[〇〇86]《實施方式3》[〇〇87]〔對話機器人的構(gòu)成〕
[0088]根據(jù)圖1、圖8和圖9說明本發(fā)明的實施方式3。首先,以下說明圖1所示的實施方式3 的對話機器人100中與實施方式1和2的對話機器人100不同的點。存儲部12中保存有語音管理表40c來代替語音管理表40a、b。在實施方式3中,不保存閾值41a、b。在實施方式3中,存儲部12中保存有發(fā)話者數(shù)據(jù)庫(DB)42c。圖8的(a)是示出實施方式3的語音管理表40c的具體例的圖,圖8的(b)是示出實施方式3的發(fā)話者DB42c的具體例的圖。[〇〇89]實施方式3的語音管理表40c與實施方式1和2的語音管理表40不同,是保存作為屬性信息的發(fā)話者信息的結(jié)構(gòu)。發(fā)話者信息是確定發(fā)出了語音的發(fā)話者的信息。發(fā)話者信息只要是能唯一識別發(fā)話者的信息即可,可以是任何信息。例如發(fā)話者信息能使用發(fā)話者ID、 發(fā)話者姓名或者發(fā)話者的頭銜或者昵稱(父、母、兄、某某)等。
[0090]在實施方式3中,輸入管理部21具有確定輸入的語音的發(fā)話者的功能,作為發(fā)話者確定部而發(fā)揮功能。作為一個例子,輸入管理部21解析所輸入的語音的語音數(shù)據(jù),根據(jù)聲音的特征確定發(fā)話者。如圖8的(b)所示,發(fā)話者DB42c中與發(fā)話者信息相對應(yīng)地登記有聲音的樣本數(shù)據(jù)420。輸入管理部21將輸入的語音的語音數(shù)據(jù)與各樣本數(shù)據(jù)420進行比較,確定該語音的發(fā)話者?;蛘撸趯υ挋C器人100具備照相機的情況下,輸入管理部21也可以將照相機所取得的發(fā)話者的視頻與發(fā)話者的臉的樣本數(shù)據(jù)421進行比較,通過臉識別來確定發(fā)話者。此外,確定上述發(fā)話者的方法可以采用已經(jīng)公知的技術(shù),省略確定方法的詳細說明。
[0091]在實施方式3中,輸出與否判斷部22根據(jù)對象語音的發(fā)話者信息Pc與最新的語音的發(fā)話者信息Pn是否一致來判斷是否需要輸出與對象語音對應(yīng)的短語。參照圖8的(a)進行具體說明。設(shè)為在對話機器人100中,在接連輸入語音Q002和Q003后,從服務(wù)器200接收到與語音Q002對應(yīng)的短語。根據(jù)圖8的(a)所示的語音管理表40c,對象語音Q002的發(fā)話者信息Pc 為“B先生”,最新的語音Q003的發(fā)話者信息Pn為“A先生”。發(fā)話者信息Pc與發(fā)話者信息Pn不一致,因此輸出與否判斷部22判斷為不需要輸出與對象語音Q002對應(yīng)的短語“晴朗哦?!?。另一方面,在最新的發(fā)話者信息Pn是“B先生”的情況下,對象的發(fā)話者信息Pc與上述最新的發(fā)話者信息Pn—致,因此輸出與否判斷部22判斷為需要輸出上述短語。[〇〇92]〔處理流程〕
[0093]圖9是示出實施方式3的對話系統(tǒng)300中的各裝置的處理流程的流程圖。在對話機器人100中,與實施方式1和2同樣,語音被輸入,對語音進行識別(S301,S302)。輸入管理部 21參照發(fā)話者DB42c確定語音的發(fā)話者(S303),將所確定的發(fā)話者的發(fā)話者信息與上述語音的語音ID(或者語音識別結(jié)果)相對應(yīng)地存儲到語音管理表40〇(3304)。3305?S310與實施方式2的S205?S210是同樣的。[〇〇94]當接收從服務(wù)器200提供的短語,保存到語音管理表40c時,接下來,輸出與否判斷部22判斷在接收回應(yīng)3中包含的短語之前是否新輸入了其它的語音(S311)。具體地說,輸出與否判斷部22參照語音管理表40c(圖8的(a)),判斷在與接收到的短語對應(yīng)的對象語音 (Q002)之后是否有新輸入的語音。在有滿足條件的語音(Q003)的情況下(S311中為是),輸出與否判斷部22讀出對象語音的發(fā)話者信息Pc和最新的語音的發(fā)話者信息Pn,對它們進行比較(S312)。[〇〇95]輸出與否判斷部22在發(fā)話者信息Pc與發(fā)話者信息Pn—致的情況下(S313中為是), 判斷為需要輸出上述接收到的短語(S314)。另一方面,在發(fā)話者信息Pc與發(fā)話者信息Pn不一致的情況下(S313中為否),判斷為不需要輸出上述接收到的短語(S315)。以后的處理 (S311中為否和S316)與實施方式2(S211中為否和S216)是同樣的。[〇〇96]《實施方式4》[〇〇97]〔對話機器人的構(gòu)成〕
[0098]根據(jù)圖1、圖10?圖12說明本發(fā)明的實施方式4。首先,以下說明圖1所示的實施方式4的對話機器人100中與實施方式3的對話機器人100不同的點。存儲部12還保存閾值41 d, 并且保存發(fā)話者DB42d來代替發(fā)話者DB42c。此外,語音管理表與實施方式3同樣保存為語音管理表40c(圖8的(a))。但是,也可以保存語音管理表40d(圖10的(a))來代替語音管理表 40c。圖10的(a)是示出實施方式4的語音管理表的其它具體例(語音管理表40d)的圖,圖10 的(b)是示出實施方式4的閾值41d的具體例的圖,圖10的(c)是示出實施方式4的發(fā)話者 DB42d的具體例的圖。
[0099]在實施方式4中,與實施方式3同樣,輸入管理部21將所確定的發(fā)話者的發(fā)話者信息作為屬性信息與語音相對應(yīng)地存儲到語音管理表40c。或者在其它例子中也可以是如下構(gòu)成:輸入管理部21還從圖10的(c)所示的發(fā)話者DB42d取得與所確定的發(fā)話者相對應(yīng)的關(guān)系值,將該關(guān)系值作為屬性信息與語音相對應(yīng)地存儲到語音管理表40d(圖10的(a))。
[0100]關(guān)系值是用數(shù)值來表示對話機器人100與發(fā)話者的關(guān)系的值。關(guān)系值是將對話機器人100與發(fā)話者之間或者對話機器人100的所有者與發(fā)話者之間的關(guān)系性套用規(guī)定的計算式或者換算規(guī)則而算出的。利用上述關(guān)系值來使對話機器人100與發(fā)話者的關(guān)系客觀地定量化。即,輸出與否判斷部22能利用關(guān)系值,根據(jù)對話機器人100與發(fā)話者的關(guān)系性判斷是否需要短語的輸出。在實施方式4中,一個例子是將對話機器人100與發(fā)話者親密性數(shù)值化得到的親密度用作關(guān)系值。親密度是根據(jù)是否是對話機器人100的所有者,或者與對話機器人100進行對話的頻度等而預(yù)先算出的,如圖10的(c)所示,與每個發(fā)話者相對應(yīng)地存儲。 此外,在圖示的例子中,親密度的數(shù)值越大,表示對話機器人100與發(fā)話者的關(guān)系越親密。但是并不局限于此,也能將親密度設(shè)定為數(shù)值越小則關(guān)系越親密。
[0101]在實施方式4中,輸出與否判斷部22將與對象語音的發(fā)話者相對應(yīng)的關(guān)系值Rc與閾值41d進行比較,根據(jù)比較結(jié)果判斷是否需要輸出與對象語音對應(yīng)的短語。參照圖8的 (a)、圖10的(b)和(c)具體進行說明。設(shè)為在對話機器人100中,在語音Q002和Q003接連輸入后,從服務(wù)器200接收與語音Q002對應(yīng)的短語。根據(jù)圖8的(a)所示的語音管理表40c,對象語音Q002的發(fā)話者信息Pc為“B先生”。因此,輸出與否判斷部22從發(fā)話者DB42d(圖10的(c)), 取得與發(fā)話者信息“B先生”相對應(yīng)的親密度“50”。輸出與否判斷部22將上述親密度與閾值 41d(圖10的(b)中為“60”)進行比較。上述親密度不到閾值。也就是說,判明了對象語音的發(fā)話者“B先生”與對話機器人100的關(guān)系不親密。因此,輸出與否判斷部22判斷為不需要輸出與不親密的B先生的語音(對象語音Q002)對應(yīng)的短語“晴朗哦?!?。另一方面,在對象語音 Q002的發(fā)話者為“A先生”的情況下,取得對應(yīng)的親密度“100”。由此,上述親密度超過閾值 “60”,判明了對象語音的發(fā)話者“A先生”與對話機器人100的關(guān)系親密。因此,輸出與否判斷部22判斷為需要輸出上述短語。
[0102]〔處理流程〕
[0103]圖11是示出實施方式4的對話系統(tǒng)300中的各裝置的處理流程的流程圖。在對話機器人100中,S401?S411與實施方式3的S301?S311是同樣的。此外,在存儲部12中是保存語音管理表40d(圖10的(a))而非語音管理表40c的構(gòu)成,輸入管理部21在S404中,將在S403中確定的發(fā)話者的關(guān)系值(親密度)作為屬性信息保持于語音管理表40d來代替發(fā)話者信息。
[0104]在S411中存在滿足條件的語音(圖8的(a)中為Q003)的情況下(S411中為是),輸出與否判斷部22從發(fā)話者DB42d取得與對象語音的發(fā)話者信息Pc相對應(yīng)的關(guān)系值Rc(S412)。 [〇1〇5]輸出與否判斷部22將閾值41d與關(guān)系值Rc進行比較,在關(guān)系值Rc(親密度)超過閾值41d的情況下(S413中為否),判斷為需要輸出在S409中接收到的短語(S414)。另一方面, 在關(guān)系值Rc不到閾值41d的情況下(S413中為是),判斷為不需要輸出上述接收到的短語 (S415)。以后的處理(S411中為否和S416)與實施方式3(S311中為否和S316)是同樣的。 [〇1〇6]《實施方式5》
[0107]在上述的各實施方式1?4中,輸出與否判斷部22構(gòu)成為在接連輸入多個語音的情況下,對在先的語音判斷是否需要與該語音對應(yīng)的短語的輸出。在實施方式5中,進一步優(yōu)選輸出與否判斷部22在判斷為需要輸出與上述在先語音對應(yīng)的短語的情況下,對在后語音未完成短語的輸出的情況下,在輸出在先語音的基礎(chǔ)上,還判斷是否需要與該在后語音對應(yīng)的短語的輸出。是否需要輸出的判斷與各實施方式1?4同樣,用與對在先語音進行的判斷同樣的方法執(zhí)行即可。
[0108]根據(jù)上述構(gòu)成,能解決以下的問題。例如有時會有在先的第1語音、在后的第2語音接連輸入的情況,假定在輸出(決定為輸出)針對第1語音的第1短語的情況下,然后如果輸出針對第2語音的第2短語會導(dǎo)致對話變得不自然的情況。在實施方式1?4的構(gòu)成中,只要接下來沒有接連輸入第3語音,就不會判斷是否需要第2短語的輸出,因此無法可靠地避免上述不自然的對話。
[0109]因此,在實施方式5中,在輸出了針對第1語音的第1短語的情況下,即使沒有第3語音的輸入,也會判斷是否需要與第2語音對應(yīng)的短語的輸出。由此,能避免在第1短語輸出后必定輸出第2短語的情況。因此,能根據(jù)狀況省略不自然的短語的輸出,能進一步實現(xiàn)發(fā)話者與對話機器人100的自然對話。
[0110]《變形例》
[0111]〔關(guān)于語音識別部20〕
[0112]設(shè)于對話機器人100的語音識別部20也可以設(shè)于服務(wù)器200。在這種情況下,語音識別部20在服務(wù)器200的控制部50中設(shè)置在短語請求接收部60與短語生成部61之間。另外, 在這種情況下,在對話機器人100的語音管理表40(a?d)中,不保存所輸入的語音的語音識別結(jié)果,而是保存語音ID和語音數(shù)據(jù)以及屬性信息。并且,在服務(wù)器200的第2語音管理表81 (a?d)中,按輸入的每個語音保存語音ID、語音識別結(jié)果和短語。具體地說,短語請求部24 將輸入的語音作為請求2發(fā)送到服務(wù)器200,短語請求接收部60進行語音識別,短語生成部 61進行與該語音識別結(jié)果相符的短語的生成。在具有上述構(gòu)成的對話系統(tǒng)300中,也能得到與上述各實施方式同樣的效果。
[0113]〔關(guān)于短語生成部61〕
[0114]而且,對話機器人100也能構(gòu)成為不與服務(wù)器200進行通信,而在本地生成短語的對話機器人100。即,設(shè)于服務(wù)器200的短語生成部61也可以設(shè)置于對話機器人100。在這種情況下,短語集或者短語素材集80保存于對話機器人100的存儲部12。另外,在對話機器人 100中能省略通信部11、短語請求部24和短語接收部25。即,對話機器人100能單獨實現(xiàn)短語的生成和控制本發(fā)明的對話的方法。
[0115]〔關(guān)于輸出與否判斷部22〕
[0116]在實施方式4中,設(shè)于對話機器人100的輸出與否判斷部22也可以設(shè)于服務(wù)器200。 圖12是示出實施方式4中的對話機器人100和服務(wù)器200的主要部分構(gòu)成的其它例的圖。在圖12所示的本變形例的對話系統(tǒng)300中,與實施方式4的對話系統(tǒng)300不同的點如下。對話機器人100的控制部10不具備輸出與否判斷部22,而服務(wù)器200的控制部50具備輸出與否判斷部(判斷部)63。閾值41d被保存于存儲部52而非保存于存儲部12。而且,存儲部52中保存有發(fā)話者DB42e。發(fā)話者DB42e具有將發(fā)話者信息和關(guān)系值相對應(yīng)地進行保存的數(shù)據(jù)結(jié)構(gòu)。而且,存儲部52中保存有第2語音管理表81c(或者81d)。在本變形例中,第2語音管理表81c按所輸入的每個語音保存語音ID、語音識別結(jié)果和短語,還具有將各語音的屬性信息(發(fā)話者信息)相對應(yīng)地保存的數(shù)據(jù)結(jié)構(gòu)。
[0117]對話機器人100不判斷是否需要短語的輸出,因此存儲部12不需要保持每個發(fā)話者的關(guān)系值。因此,存儲部12保存發(fā)話者DB42c(圖8的b))來代替發(fā)話者DB42d(圖10的(c)) 即可。此外,在將輸入管理部21所具有的確定發(fā)話者的功能(發(fā)話者確定部)設(shè)于服務(wù)器200 的情況下,存儲部12也可以不保存發(fā)話者DB42c。
[0118]在本變形例中,當向?qū)υ挋C器人100輸入語音時,輸入管理部21參照發(fā)話者DB42c 確定該語音的發(fā)話者,將該發(fā)話者信息提供給短語請求部24。短語請求部24將包含從語音識別部20提供的上述語音的語音識別結(jié)果以及從輸入管理部21提供的上述語音的語音ID 和發(fā)話者信息的請求2發(fā)送到服務(wù)器200。
[0119]短語請求接收部60將請求2中包含的語音ID、語音識別結(jié)果和屬性信息(發(fā)話者信息)保存于第2語音管理表81c。短語生成部61按照接收到的上述語音識別結(jié)果生成與上述語音對應(yīng)的短語。生成的短語暫時保存于第2語音管理表81c。[〇12〇]輸出與否判斷部63與實施方式4的輸出與否判斷部22同樣,在參照第2語音管理表 81c判斷為在生成了短語的對象語音之后輸入了其它的語音的情況下,進行上述是否需要短語的輸出的判斷。與實施方式4同樣,輸出與否判斷部63根據(jù)與對象語音的發(fā)話者相對應(yīng)的關(guān)系值與閾值41d相比較是否滿足規(guī)定的條件來判斷是否需要輸出。[〇121]在輸出與否判斷部63判斷為需要輸出上述短語的情況下,短語發(fā)送部62根據(jù)該判斷將該短語發(fā)送到對話機器人100。另一方面,在輸出與否判斷部63判斷為不需要輸出上述短語的情況下,短語發(fā)送部62不將生成的上述短語發(fā)送到對話機器人100。在這種情況下, 短語發(fā)送部62也可以將通知不需要輸出該短語的意思的消息代替上述短語作為對請求2的回應(yīng)3發(fā)送到對話機器人100。在具有上述構(gòu)成的對話系統(tǒng)300中,也能得到與實施方式4同樣的效果。
[0122]〔關(guān)于關(guān)系值〕
[0123]在實施方式4中,說明了輸出與否判斷部22將“親密度”用作為了判斷是否需要輸出而利用的“關(guān)系值”的例子。但是,本發(fā)明的對話機器人100并不局限于此,也能采用其它的關(guān)系值。關(guān)系值的其它的具體例如以下列舉。
[0124]“精神的距離”是將對話機器人100與發(fā)話者的親疏關(guān)系數(shù)值化的值,值越小距離越近,意味著對話機器人100與發(fā)話者的關(guān)系越深。輸出與否判斷部22在與對象語音的發(fā)話者的“精神的距離”為規(guī)定閾值以上(關(guān)系不深)的情況下,判斷為不需要輸出與該語音對應(yīng)的短語。如下設(shè)定“精神的距離”:例如對話機器人100的所有者為最小的值,接下來為按該所有者的親戚、友人、所有者幾乎不知道的他人……的順序變大的值。因此,對于對話機器人100(或者所有者)來說關(guān)系越深的發(fā)話者,短語的答復(fù)越優(yōu)先。
[0125]“物理的距離”是將對話機器人100與發(fā)話者在對話時的物理距離數(shù)值化的值。例如,輸入管理部21在語音輸入時根據(jù)其音量或者用照相機拍攝的發(fā)話者的大小等取得“物理的距離”,作為屬性信息與語音相對應(yīng)地存儲到語音管理表40。輸出與否判斷部22在與對象語音的發(fā)話者的“物理的距離”大于等于規(guī)定閾值(從遠處呼叫)的情況下,判斷為不需要輸出與該語音對應(yīng)的短語。因此,優(yōu)先對在離對話機器人100近處對話的發(fā)話者進行答復(fù)。
[0126]“類似度”是將對話機器人100中設(shè)定的假想性質(zhì)與發(fā)話者的性質(zhì)的類似性數(shù)值化的值。值越大意味著對話機器人1〇〇與發(fā)話者的性質(zhì)越相似。例如,輸出與否判斷部22在與對象語音的發(fā)話者的“類似度”小于等于規(guī)定閾值(性質(zhì)不相似)的情況下,判斷為不需要輸出與該語音對應(yīng)的短語。此外,發(fā)話者的性質(zhì)(性格)例如也可以根據(jù)發(fā)話者預(yù)先輸入的信息(性別、年齡、職業(yè)、血型、星座等)決定,也可以代替這些或者除此以外還根據(jù)發(fā)話者的言辭、會話速度等決定。將這樣決定的發(fā)話者的性質(zhì)(性格)與在對話機器人100中預(yù)先設(shè)定的假想性質(zhì)(性格)進行比較,根據(jù)規(guī)定的計算式求出類似度。通過使用這樣算出的“類似度”, 能對與對話機器人100性質(zhì)(性格)相似的發(fā)話者優(yōu)先進行短語的答復(fù)。
[0127]〔閾值的調(diào)節(jié)功能〕
[0128]在實施方式1和2中,也可以不使輸出與否判斷部22為了判斷是否需要輸出而參照的閾值41a和41b固定化,而是根據(jù)對象語音的發(fā)話者的屬性而動態(tài)調(diào)節(jié)。發(fā)話者的屬性能使用例如在實施方式4中采用的“親密度”等關(guān)系值。
[0129]具體地說,輸出與否判斷部22為了對親密度高的發(fā)話者放松用于判斷為需要輸出短語(答復(fù))的條件而變更閾值。例如,在實施方式1中,輸出與否判斷部22在對象語音的發(fā)話者的親密度為100的情況下,也可以將閾值41a的秒數(shù)從5秒延長到10秒,判斷是否需要短語的輸出。由此,能對與對話機器人1〇〇的關(guān)系更親密的發(fā)話者優(yōu)先進行短語的答復(fù)。[〇13〇]〔軟件的實現(xiàn)例〕
[0131] 對話機器人100(和服務(wù)器200)的控制模塊(特別是控制部10和控制部50的各部) 也可以利用形成于集成電路(1C芯片)等的邏輯電路(硬件)實現(xiàn),也可以使用CPU(Central Processing Unit:中央處理單元)來通過軟件實現(xiàn)。在后者的情況下,對話機器人100(服務(wù)器200)具備執(zhí)行作為實現(xiàn)各功能的軟件的程序的命令的CPU、由計算機(或者CPU)可讀取地記錄該程序和各種數(shù)據(jù)的R〇M(Read Only Memory:只讀存儲器)或者存儲裝置(將它們稱為 “記錄介質(zhì)”)、展開上述程序的RAM(Random Access Memory:隨機存取存儲器)等。并且,計算機(或者CPU)從上述記錄介質(zhì)讀取并執(zhí)行上述程序,由此實現(xiàn)本發(fā)明的目的。上述記錄介質(zhì)能使用“非臨時的有形介質(zhì)”,例如能使用帶、盤、卡、半導(dǎo)體存儲器、可編程邏輯電路等。 另外,上述程序也可以通過能傳輸該程序的任意的傳送介質(zhì)(通信網(wǎng)絡(luò)、廣播波等)提供給上述計算機。此外,本發(fā)明也能以將上述程序通過電子傳輸而實現(xiàn)的嵌入載波的數(shù)據(jù)信號的形態(tài)實現(xiàn)。
[0132]〔總結(jié)〕
[0133]本發(fā)明的方式1的信息處理裝置(對話機器人100)是響應(yīng)于用戶(發(fā)話者)發(fā)出的語音而對該用戶提示規(guī)定的短語的信息處理裝置,具備:接受部(輸入管理部21),其將上述語音(語音數(shù)據(jù))或者識別該語音后的結(jié)果(語音識別結(jié)果)與表示該語音的屬性的屬性信息相對應(yīng)地存儲到存儲部(存儲部12的語音管理表40),由此接受該語音的輸入;提示部(短語輸出部23),其提示與由上述接受部接受的語音對應(yīng)的短語;以及判斷部(輸出與否判斷部22),其在由上述提示部提示與先輸入的第1語音對應(yīng)的第1短語之前輸入了第2語音的情況下,根據(jù)上述存儲部中存儲的1個以上的屬性信息中的至少1個判斷是否需要上述第1短語的提示。
[0134]根據(jù)上述的構(gòu)成,在第1語音和第2語音接連輸入的情況下,接受部將第1語音的屬性信息和第2語音的屬性信息按每個語音存儲到存儲部。然后,在提示與第1語音對應(yīng)的第1 短語之前輸入了第2語音的上述的情況下,判斷部根據(jù)上述存儲部中存儲的屬性信息的中至少1個判斷是否需要上述第1短語的提示。
[0135]由此,能在第2語音輸入后,根據(jù)對話的狀況中止提示與此前輸入的第1語音對應(yīng)的第1短語。在語音接連輸入的情況下,根據(jù)狀況,假定不答復(fù)在先語音而是繼續(xù)進行在后語音以后的收發(fā)在對話中是更自然的情況。本發(fā)明的結(jié)果是能根據(jù)屬性信息適當省略不自然的答復(fù),實現(xiàn)用戶與信息處理裝置之間的更自然(類人)的對話。
[0136]在本發(fā)明的方式2的信息處理裝置中,優(yōu)選在上述方式1中,上述判斷部在判斷為需要提示上述第1短語的情況下,根據(jù)上述存儲部中存儲的上述屬性信息中的至少1個來判斷是否需要與上述第2語音對應(yīng)的第2短語的提示。
[0137]根據(jù)上述構(gòu)成,在第1語音和第2語音接連輸入的情況下,在判斷部判斷為需要提示第1短語的情況下,進一步判斷是否需要第2短語的提示。由此,能避免在第1短語提示后必定提示第2短語的情況。根據(jù)狀況,假定在進行了對在先語音的答復(fù)后不對在后語音進行答復(fù)在對話中是更自然的情況。本發(fā)明的結(jié)果是能根據(jù)屬性信息適當省略不自然的答復(fù), 實現(xiàn)用戶與信息處理裝置之間的更自然(類人)的對話。
[0138]在本發(fā)明的方式3的信息處理裝置中,也可以是在上述方式1或者2中,上述接受部將上述語音輸入時的輸入時刻或者該語音的接受順序包含于上述屬性信息來進行存儲,上述判斷部使用上述輸入時刻或者上述接受順序和上述輸入時刻或者用上述接受順序決定的其它屬性信息中的至少任意1個來判斷是否需要短語的提示。
[0139]根據(jù)上述構(gòu)成,在第1語音和第2語音接連輸入的情況下,至少根據(jù)語音的輸入時刻或者接受順序或用這些屬性信息決定的其它屬性信息判斷是否需要與這些語音對應(yīng)的短語的提示。
[0140]由此,在語音輸入的定時過舊才對該語音進行答復(fù)導(dǎo)致不自然的狀況的情況下, 能省略這樣的答復(fù)。對話是隨著時間的經(jīng)過而持續(xù)進行的,對舊的輸入語音經(jīng)過長時間后才進行答復(fù),或者在其后發(fā)生多次收發(fā)后才進行答復(fù)會使對話變得不自然。本發(fā)明的結(jié)果是能避免上述這樣的不自然對話。
[0141]在本發(fā)明的方式4的信息處理裝置中,也可以是在上述方式3中,上述判斷部在從上述語音的輸入時刻到由本裝置生成或者從外部裝置(服務(wù)器200)取得與該語音對應(yīng)的短語從而能進行提示的提示準備完成時刻為止的時間(所需時間)超過規(guī)定的閾值的情況下,判斷為不需要該短語的提示。
[0142]由此,在從語音輸入的時點經(jīng)過太長時間后才進行答復(fù)的不自然的情況下,能省略這樣的答復(fù)的提示。
[0143]在本發(fā)明的方式5的信息處理裝置中,也可以是在上述方式3中,上述接受部進一步將各語音的接受順序包含于上述屬性信息來進行存儲,上述判斷部在最新輸入的語音的接受順序(最新的語音的接受順序Nn)與包含上述第1語音或者第2語音的在先輸入的語音的接受順序(對象語音的接受順序Nc)的差(新鮮度)超過規(guī)定的閾值的情況下,判斷為不需要對與該在先輸入的語音對應(yīng)的短語的提示。
[0144]由此,在先語音輸入以后,接連輸入多個語音(或者對該多個語音的答復(fù)變多)后才對上述在先語音進行答復(fù)的不自然的情況下,能省略這樣的答復(fù)的提示。
[0145]在本發(fā)明的方式6的信息處理裝置中,也可以是在方式1?5中,上述接受部將確定發(fā)出了語音的發(fā)話者的發(fā)話者信息包含于上述屬性信息來進行存儲,上述判斷部使用上述發(fā)話者信息和用該發(fā)話者信息決定的其它屬性信息中的至少任意1個來判斷是否需要短語的提示。
[0146]根據(jù)上述構(gòu)成,在第1語和第2語音接連輸入的情況下,至少根據(jù)確定語音的發(fā)話者的發(fā)話者信息或者用發(fā)話者信息決定的其它屬性信息來判斷是否需要與這些語音對應(yīng)的短語的提示。
[0147]由此,根據(jù)輸入了語音的發(fā)話者來省略不自然的答復(fù),能實現(xiàn)用戶與信息處理裝置的更自然的對話。對話在相同的對手之間繼續(xù)是自然的。因此,使用發(fā)話者信息省略阻礙對話流暢的不自然的答復(fù)(例如,來自他人的插話),能實現(xiàn)更自然的對話。
[0148]在本發(fā)明的方式7的信息處理裝置中,也可以是在上述方式6中,上述判斷部在包含上述第1語音或者第2語音的在先輸入的語音的發(fā)話者信息(對象語音的發(fā)話者信息Pc) 與最新輸入的語音的發(fā)話者信息(最新的語音的發(fā)話者信息Pn)不一致的情況下,判斷為不需要與該在先輸入的語音對應(yīng)的短語的提示。
[0149]由此,優(yōu)先進行與最新的談話對手的對話,能避免對話的對手頻繁更換交錯的不自然的狀況。
[0150]在本發(fā)明的方式8的信息處理裝置中,也可以是在上述方式6中,上述判斷部根據(jù)與上述語音的發(fā)話者信息相關(guān)聯(lián)的用數(shù)值表示上述發(fā)話者與上述信息處理裝置之間的關(guān)系的關(guān)系值相對于規(guī)定的閾值是否滿足規(guī)定的條件來判斷是否需要與該語音對應(yīng)的短語的提示。[〇151]根據(jù)上述構(gòu)成,根據(jù)在發(fā)話者與信息處理裝置之間虛擬設(shè)定的關(guān)系性,優(yōu)先對來自關(guān)系深的談話對手的語音進行答復(fù)。由此,能避免關(guān)系淺的對手插話、對話的對手頻繁更換的不自然的狀況。此外,作為一個例子,上述關(guān)系值也可以是表示用戶與信息處理裝置之間的親密性的親密度。親密度也可以例如根據(jù)用戶與信息處理裝置的對話頻度等決定。
[0152]在本發(fā)明的方式9的信息處理裝置中,也可以是在上述方式3?5中,上述接受部還將確定發(fā)出了語音的發(fā)話者的發(fā)話者信息包含于上述屬性信息來進行存儲,上述判斷部在用上述輸入時刻或者上述接受順序算出的值(所需時間或者新鮮度)超過規(guī)定的閾值的情況下,判斷為不需要該短語的提示,根據(jù)與上述語音的發(fā)話者信息相關(guān)聯(lián)的用數(shù)值表示上述發(fā)話者與上述信息處理裝置之間的關(guān)系的關(guān)系值來變更上述閾值。
[0153]由此,能優(yōu)先進行對關(guān)系深的談話對手的答復(fù),并且在語音輸入的定時過舊而進行答復(fù)不自然的情況下,省略該答復(fù)。[〇154]本發(fā)明的方式10的信息處理裝置在方式1?9中具備:請求部(短語請求部24),其將上述語音或者識別該語音的結(jié)果發(fā)送到外部裝置,由此向上述外部裝置請求與該語音對應(yīng)的短語;以及接收部(短語接收部25),其將從上述外部裝置返回的短語作為對上述請求部的請求(請求2)的響應(yīng)(回應(yīng)3)來接收,提供給上述提示部。
[0155]本發(fā)明的方式11的信息處理系統(tǒng)(對話系統(tǒng)300)包括:信息處理裝置(對話機器人 100),其根據(jù)用戶發(fā)出的語音向該用戶提示規(guī)定的短語;以及外部裝置(服務(wù)器200),其將與語音對應(yīng)的短語提供給上述信息處理裝置,上述信息處理裝置具備:請求部(短語請求部 24),其將上述語音或者識別該語音的結(jié)果以及表示該語音的屬性的屬性信息發(fā)送到上述外部裝置,由此向上述外部裝置請求與該語音對應(yīng)的短語;接收部(短語接收部25),其將從上述外部裝置發(fā)送的短語作為對上述請求部的要求(請求2)的響應(yīng)(回應(yīng)3)來接收;以及提示部(短語輸出部23),其提示由上述接收部接收到的上述短語,上述外部裝置具備:接受部 (短語請求接收部60),其將從上述信息處理裝置發(fā)送的上述語音或者識別該語音的結(jié)果與該語音的屬性信息相對應(yīng)地存儲到存儲部(存儲部52的第2語音管理表81),由此接受該語音的輸入;發(fā)送部(短語發(fā)送部62),其將與由上述接受部接受的語音對應(yīng)的短語發(fā)送到上述信息處理裝置;以及判斷部(輸出與否判斷部63),其在由上述發(fā)送部發(fā)送與在先輸入的第1語音對應(yīng)的第1短語之前輸入了第2語音的情況下,根據(jù)上述存儲部中存儲的1個以上的屬性信息中的至少1個判斷是否需要上述第1短語的發(fā)送。
[0156]根據(jù)方式10和方式11的構(gòu)成,能得到與方式1大致同樣的效果。
[0157]本發(fā)明的各方式的信息處理裝置也可以利用計算機實現(xiàn),在這種情況下,使計算機作為上述信息處理裝置所具備的各部分(軟件要素)進行動作從而用計算機實現(xiàn)上述信息處理裝置的信息處理裝置的控制程序和記錄該程序的計算機可讀取的記錄介質(zhì)也屬于本發(fā)明的范疇。
[0158]本發(fā)明不限于上述各實施方式,能在權(quán)利要求所示的范圍中進行各種變更,將不同的實施方式中分別公開的技術(shù)手段適當?shù)亟M合得到的實施方式也包含于本發(fā)明的技術(shù)范圍中。而且,也能通過將各實施方式中分別公開的技術(shù)手段組合來形成新的技術(shù)特征。
[0159]工業(yè)上的可利用性
[0160]本發(fā)明應(yīng)用于能根據(jù)用戶發(fā)出的語音向該用戶提示規(guī)定的短語的信息處理裝置和信息處理系統(tǒng)。
[0161]附圖標記說明:
[0162]10:控制部,12:存儲部,20:語音識別部,21:輸入管理部(接受部),22:輸出與否判斷部(判斷部),23:短語輸出部(提示部),24:短語請求部(請求部),25:短語接收部(接收部),50:控制部,52:存儲部,60:短語請求接收部(接受部),61:短語生成部(生成部),62:短語發(fā)送部(發(fā)送部),63:輸出與否判斷部(判斷部),100:對話機器人(信息處理裝置),200: 服務(wù)器(外部裝置),300:對話系統(tǒng)(信息處理系統(tǒng))。
【主權(quán)項】
1.一種信息處理裝置,響應(yīng)于用戶發(fā)出的語音對該用戶提示規(guī)定的短語,其特征在于, 具備:接受部,其將上述語音或者識別該語音后的結(jié)果與表示該語音的屬性的屬性信息相對 應(yīng)地存儲到存儲部,由此接受該語音的輸入;提示部,其提示與由上述接受部接受的語音對應(yīng)的短語;以及判斷部,其在由上述提示部提示與先輸入的第1語音對應(yīng)的第1短語之前輸入了第2語 音的情況下,根據(jù)上述存儲部中存儲的1個以上的屬性信息中的至少1個判斷是否需要上述 第1短語的提示。2.根據(jù)權(quán)利要求1所述的信息處理裝置,其特征在于,上述判斷部在判斷為需要提示上述第1短語的情況下,根據(jù)上述存儲部中存儲的上述 屬性信息中的至少1個來判斷是否需要與上述第2語音對應(yīng)的第2短語的提示。3.根據(jù)權(quán)利要求1或者2所述的信息處理裝置,其特征在于,上述接受部將上述語音被輸入時的輸入時刻或者該語音的接受順序包含于上述屬性 信息來進行存儲,上述判斷部使用上述輸入時刻或者上述接受順序以及用上述輸入時刻或者上述接受 順序決定的其它屬性信息中的至少任意1個來判斷是否需要短語的提示。4.根據(jù)權(quán)利要求1至3中的任意一項所述的信息處理裝置,其特征在于,上述接受部將確定發(fā)出了語音的發(fā)話者的發(fā)話者信息包含于上述屬性信息來進行存 儲,上述判斷部使用上述發(fā)話者信息和用該發(fā)話者信息決定的其它屬性信息中的至少任 意1個來判斷是否需要短語的提示。5.根據(jù)權(quán)利要求3所述的信息處理裝置,其特征在于,上述接受部還將確定發(fā)出了語音的發(fā)話者的發(fā)話者信息包含于上述屬性信息來進行 存儲,上述判斷部在用上述輸入時刻或者上述接受順序算出的值超過規(guī)定的閾值的情況下, 判斷為不需要該短語的提示,按照與上述語音的發(fā)話者信息相關(guān)聯(lián)的用數(shù)值表示上述發(fā)話 者與上述信息處理裝置之間的關(guān)系的關(guān)系值來變更上述閾值。
【文檔編號】G10L13/00GK105960674SQ201580007064
【公開日】2016年9月21日
【申請日】2015年1月22日
【發(fā)明人】本村曉, 荻野正德
【申請人】夏普株式會社