專利名稱:一種實現(xiàn)語音交互應用場景方法
技術領域:
本發(fā)明涉及一種以voicexml為基礎、為電話語音交互應用提供交互場景設計的方法,這個方法利用了結(jié)合傳統(tǒng)IVR樹結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)的語音交互流程結(jié)構(gòu)設計。
背景技術:
隨著語音應用技術的不斷成熟,和對智能化系統(tǒng)需要的不斷增多,各種語音交互應用系統(tǒng)不斷出現(xiàn),語音交互應用在廣泛地應用于銀行、股票、公共信息、企業(yè)呼叫中心等應用領域。W3C組織相應制定了語音應用的標準xml語言voicexml,但是目前基于voicexml的語音應用平臺大多數(shù)只是提供了voicexml的標簽編輯功能,有些編輯界面則針對語音瀏覽器的需求,設計過程遵循了常規(guī)的使用瀏覽器的方法,沒有考慮電話語音交互的實時化需求;此外針對標簽進行界面化設計,沒有兼容傳統(tǒng)的IVR樹的交互場景定義,不易于流程定制人員使用。
目前,IVR的語音交互應用已經(jīng)廣泛地應用于銀行、股票、公共信息、企業(yè)呼叫中心等應用領域,諸如電話查詢股票、電話銀行等業(yè)務都已經(jīng)逐漸被人們熟悉。而隨著語音應用技術的不斷成熟,和應用智能化的需求增多,采用語音識別技術的自動語音交互技術將逐漸取代傳統(tǒng)的IVR語音交互技術,而傳統(tǒng)IVR語音交互技術中的全IVR樹狀結(jié)構(gòu)的語音交互流程設計將不適應自動語音交互應用的要求。
傳統(tǒng)的IVR樹結(jié)構(gòu)的缺陷在于完全采用樹狀的多級菜單結(jié)構(gòu),用戶需要多次交互才能完成想要的功能,通話時間長;由于完全采用IVR菜單,用戶容易“迷失”在多級菜單中,電話的自動完成率低;有些功能無法實現(xiàn),如從大量數(shù)據(jù)中快速查找和定位人名或地址功能使用IVR的多級菜單無法實現(xiàn)。
同時,全網(wǎng)狀交互流程設計方法雖然有其靈活、方便、離散、跳躍等優(yōu)點,但是有明顯的缺陷由于流程離散,無法限制流程之間的相互跳轉(zhuǎn),容易造成死鎖;在交互流程修改復雜,對于流程節(jié)點功能重復的現(xiàn)象不易檢查,某些節(jié)點可能在交互中永遠不被用戶使用,造成流程節(jié)點的“孤島”;對于規(guī)模比較大的交互流程的可視性差;另外,對于熟悉了IVR樹結(jié)構(gòu)的交互流程定制人員,全網(wǎng)狀的交互流程會使他們無從下手。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術的上述缺點,為此,本發(fā)明提供一種電話語音交互場景的設計方法。傳統(tǒng)的IVR樹的每個節(jié)點是與用戶的一次交互場景,根據(jù)交互場景實現(xiàn)的電話操作功能進行分類,可以將voicexml中定義的標簽都納入交互場景中,每個標簽將成為交互場景中的一個屬性。
為了達到上面的目的,本發(fā)明的技術方案是這樣實現(xiàn)的一種語音交互應用場景方法,包括步驟定義多個場景,每一場景對應于VoiceXML中的代表實現(xiàn)預定功能的多個標簽組合;根據(jù)需求,組合所述多個場景中的至少一個;基于所述組合的場景,獲取VoiceXML的標簽;根據(jù)VoiceXML語法,產(chǎn)生相應的VoiceXML文件。
可選地,所述多個場景的每個包括相關的標簽,和語音識別語法文件的內(nèi)容。
優(yōu)選地,所述場景包括下列至少一個識別場景、錄音場景、轉(zhuǎn)接場景、掛機場景。
可選地,組合所述多個場景中的至少一個包括以IVR樹結(jié)合網(wǎng)狀結(jié)構(gòu)添加場景;和/或以IVR樹結(jié)合網(wǎng)狀結(jié)構(gòu)刪除場景。
優(yōu)選地,組合所述多個場景中的至少一個包括場景有效性檢查。
可選地,所述場景有效性檢查包括選擇一個場景;查找它的父節(jié)點場景;檢查所述父節(jié)點場景中是否有到所述場景的跳轉(zhuǎn);如果有,繼續(xù)下一個場景的檢查;否則,場景無效,退出。
優(yōu)選地,所述組合所述多個場景中的至少一個包括根據(jù)用戶要求,選擇所述場景的屬性,和/或提示語集,和/或指令集,和/或動作集;根據(jù)VoiceXML語法組合之。
可選地,根據(jù)VoiceXML語法,產(chǎn)生相應的VoiceXML文件的步驟包括將組合的場景解析為VoiceXML標記,基于VoiceXML標記庫解釋用戶的動作流,自動生成對應的VoiceXML文件。
利用本發(fā)明,一個具體的應用在界面上體現(xiàn)為一棵IVR樹。場景的屬性來描述跳轉(zhuǎn)關系。增加了跳轉(zhuǎn)判斷的靈活性;方便了用戶使用。
圖1為本發(fā)明的傳統(tǒng)IVR樹結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)的語音交互流程示意圖;圖2、圖3、圖4分別描述了交互流程節(jié)點的添加、刪除和交互流程有效性檢查過程;圖5為基于本發(fā)明的語音交互應用編輯環(huán)境主界面;圖6、圖7、圖8分別為提示語集界面、指令集界面和動作集界面。
具體實施例方式
為了使本技術領域的人員更好地理解本發(fā)明,下面結(jié)合附圖和實施方式對本發(fā)明作進一步的詳細說明。
在電話語音交互流程中,定義開始節(jié)點和結(jié)束節(jié)點來表示交互流程的開始和結(jié)束。在父節(jié)點的基礎上加入子節(jié)點,父子之間的關系通過“父子”屬性來記錄。節(jié)點之間的跳轉(zhuǎn)(包括父子之間)通過動作來表示。每個節(jié)點都有一個動作集,記錄了該節(jié)點所有的動作,即在哪種條件下,跳轉(zhuǎn)到哪個節(jié)點。系統(tǒng)來自動生成子節(jié)點到父節(jié)點的跳轉(zhuǎn),即返回動作。
這樣,以父子關系來記錄IVR樹的層次結(jié)構(gòu),動作集來表示網(wǎng)狀的層次跳轉(zhuǎn)。表現(xiàn)在界面上的應用流程是一棵IVR樹,在IVR樹的內(nèi)部屬性實現(xiàn)了節(jié)點之間的自由跳轉(zhuǎn),實質(zhì)上應用流程是網(wǎng)狀結(jié)構(gòu)。最終用戶可以通過按鍵的多層菜單方式遍歷流程,也可以直接說出語音指令跳轉(zhuǎn)到對應的節(jié)點。因此,實現(xiàn)了IVR樹狀結(jié)構(gòu)與網(wǎng)狀結(jié)構(gòu)的結(jié)合。
本發(fā)明中,語音交互流程的節(jié)點類型為識別節(jié)點、轉(zhuǎn)接節(jié)點、錄音節(jié)點、掛機節(jié)點、自定義JSP節(jié)點。識別節(jié)點表示一次播放識別交互場景,轉(zhuǎn)接節(jié)點實現(xiàn)電話的轉(zhuǎn)接功能,錄音節(jié)點實現(xiàn)錄音功能,掛機節(jié)點實現(xiàn)掛機。
以父子關系來描述節(jié)點之間的層次結(jié)構(gòu),一個父節(jié)點可以有多個子節(jié)點,每個子節(jié)點只能有一個父節(jié)點;子節(jié)點的創(chuàng)建必須是在父節(jié)點進行。交互流程的創(chuàng)建過程是一個IVR樹的生成過程。
每個節(jié)點除了有“父親”屬性之外,還有一個重要的屬性“動作集”,動作集由若個條動作組成,每個動作記錄了一個滿足一定條件的節(jié)點間跳轉(zhuǎn)。例如“條件主菜單=售前,跳轉(zhuǎn)節(jié)點售前”。除了結(jié)束節(jié)點(指掛機節(jié)點和轉(zhuǎn)接節(jié)點)之外,每個子節(jié)點都有到父節(jié)點的跳轉(zhuǎn),由系統(tǒng)默認創(chuàng)建,命名為“返回”。語音命令和按鍵命令是動作的條件的一部分,用戶個性的信息也是組成動作條件的可選內(nèi)容,如標識用戶是否已經(jīng)注冊等信息。
通過上述的規(guī)則的語音交互流程示例如圖1。
圖中,主菜單是用戶進入后的第一個場景,是應用的開始節(jié)點,人工坐席1~3是實現(xiàn)轉(zhuǎn)接電話,是應用的結(jié)束節(jié)點。主菜單的子節(jié)點包括售前、售后、注冊和投訴,售前有包括家用和商用兩個子節(jié)點,家用節(jié)點是人工坐席1的父節(jié)點,商用節(jié)點是人工坐席2的父節(jié)點,注冊是人工坐席3的父節(jié)點。如圖所示,父子之間的跳轉(zhuǎn)條件是滿足一定的按鍵,如主菜單=2,跳轉(zhuǎn)到售后節(jié)點。除了3個轉(zhuǎn)接節(jié)點,其余子節(jié)點都有到父節(jié)點的“返回”跳轉(zhuǎn),這個返回由流程定制人員自己定義,可以是“*”鍵,也可以是語音指令。
除了父子關系之外,圖中描述了節(jié)點之間的自由跳轉(zhuǎn),如主菜單節(jié)點可以直接跳轉(zhuǎn)到家用節(jié)點,家用節(jié)點可以跳轉(zhuǎn)到主菜單,商用節(jié)點可以跳轉(zhuǎn)到售后,而投訴節(jié)點跳轉(zhuǎn)到人工坐席3。節(jié)點之間的這些自由跳轉(zhuǎn)完全由流程定制人員來決定,同層之間,隔層之間都可以選擇跳轉(zhuǎn)。節(jié)點之間通過這樣的自由跳轉(zhuǎn),形成了一個實質(zhì)的網(wǎng)狀結(jié)構(gòu)。
整個交互流程的創(chuàng)建是通過添加節(jié)點完成,在創(chuàng)建結(jié)束時,系統(tǒng)需要對節(jié)點的有效性進行檢查,保證應用交互流程的層次關系存在。自由跳轉(zhuǎn)的加入通過隨時對節(jié)點的動作集進行編輯來完成。
圖2、圖3、圖4分別描述了交互流程節(jié)點的添加、刪除和交互流程有效性檢查過程。其中,添加節(jié)點包括步驟選擇父節(jié)點;添加子節(jié)點;編輯子節(jié)點的屬性,包括添加子節(jié)點到其他節(jié)點的自由跳轉(zhuǎn);添加父節(jié)點到子節(jié)點的跳轉(zhuǎn);添加子節(jié)點到父節(jié)點的返回。
而刪除節(jié)點包括步驟刪除該節(jié)點所有的子節(jié)點;刪除到該節(jié)點子節(jié)點的所有跳轉(zhuǎn);刪除該節(jié)點;刪除到該節(jié)點的所有跳轉(zhuǎn)。
節(jié)點有效性檢查步驟選擇一個節(jié)點;查找它的父節(jié)點;檢查父節(jié)點中是否有到該節(jié)點的跳轉(zhuǎn);如果有,繼續(xù)下一個節(jié)點的檢查否則,節(jié)點無效,退出。
在本發(fā)明中,為了實現(xiàn)語音交互應用場景方法,按照電話語音操作不同,將交互場景分為識別場景、錄音場景、轉(zhuǎn)接場景、掛機場景四類。按照voicexml標簽的具體含義與交互場景的關系,將相關的標簽歸入場景中,作為場景的屬性;此外語音識別語法文件的具體內(nèi)容也作為場景的屬性?;诖朔椒ǎ瑢Σ煌膱鼍霸O計不同的圖形界面,設計的圖形界面成為用戶編輯場景屬性的工具。如語法文件作為識別場景的屬性,語音交互應用編輯環(huán)境將提供用戶編輯這一屬性的圖形界面。
上述的交互場景對應于IVR樹與網(wǎng)狀結(jié)構(gòu)中的流程節(jié)點,場景的組織按照中的對話流程設計組織,一個具體的應用在界面上體現(xiàn)為一棵IVR樹。場景的屬性來描述節(jié)點之間的跳轉(zhuǎn)關系。
在本發(fā)明中,除了掛機場景是系統(tǒng)中默認設置的,其他場景都由流程定制人員創(chuàng)建,這三類場景公有的屬性是節(jié)點名稱和父節(jié)點名稱,描述了IVR樹的父子層次關系。下面對場景的詳細說明將不再提及這兩個屬性。
1.識別場景功能描述了與用戶的一次交互,識別場景從功能上劃分,包含兩類子場景播放子場景和播放并識別子場景。播放子場景描述的是系統(tǒng)播放提示語,播放完成后根據(jù)當前的條件進行一定的“動作”。播放并識別子場景描述的是系統(tǒng)播放提示語,等待用戶輸入,用戶語音或按鍵輸入后,系統(tǒng)根據(jù)當前的條件進行一定的“動作”。兩者的不同在于后者包含了語音識別的過程?!爱斍暗臈l件”包含當前場景或以前場景的識別結(jié)果,系統(tǒng)中全局變量的當前值等。流程定制人員可以根據(jù)自己的需要自由選擇。
屬性識別場景的主要屬性包括提示語集、指令集和動作集三類。
提示語集包含了識別場景中要播放的提示語,每條提示語都由兩部分組成類型和內(nèi)容。提示語的類型有wav文件、TTS(語音合成)文本、變量、和數(shù)據(jù)庫查詢結(jié)果四類。變量提示語通過選擇系統(tǒng)的全局變量來形成表示當前變量的值的提示語。數(shù)據(jù)庫查詢結(jié)果提示語與當前的數(shù)據(jù)庫查詢動作相關。用戶可以選擇多種類型,不同類型的提示語按用戶的選擇順序形成提示語集。
例如
如果當前的變量名為產(chǎn)品名稱的變量值是“家用電腦”。應用將播放提示語為確認.wav,“您需要的產(chǎn)品是家用電腦”。
指令集描述了當前交互場景使用的識別語法文件,每條指令對應于語法文件中的一條或多條語法。指令由指令名稱、語音命令、拼音、和按鍵命令組成。指令名稱將作為識別結(jié)果的主要判斷內(nèi)容,同一指令名稱可以有不同的語音命令和按鍵命令。同一語音命令或按鍵命令只能對應同樣的指令名稱。在用戶輸入的語音命令后,系統(tǒng)將自動生成拼音列表,供用戶選擇。
例如指令名稱為家用,語音命令為家用,按鍵命令為1
指令名稱為家用,語音命令為家用電腦由于語音命令“家用”、“家用電腦”和按鍵命令“1”都對應相同的指令“家用”,這三者的識別將返回同一識別結(jié)果“家用”。
動作集描述了當前場景在完成播放或識別后,進行的一系列操作。每個動作都是由動作條件和具體的操作組成。條件指當前場景或以前場景的識別結(jié)果滿足一定的條件,或全局變量滿足一定的條件。具體操作中可選的有提示語和變量賦值,必選的是跳轉(zhuǎn)節(jié)點名。即每個識別場景的執(zhí)行結(jié)果必須是跳轉(zhuǎn)到一定的場景中,交互應用的交互是要持續(xù)下去,不能出現(xiàn)交互“停頓”的現(xiàn)象。此處的提示語的定義同上面。
如果選擇的條件是本節(jié)點,則條件內(nèi)容可以選擇“用戶無輸入”和“拒絕識別”,同樣也需要設置滿足條件的操作。
例如動作1條件主菜單=家用提示語TTS文本您選擇的是家用電腦變量賦值varl=家用跳轉(zhuǎn)節(jié)點家用描述了當前識別結(jié)果為“家用”時,系統(tǒng)將播放“您選擇的是家用電腦”,并進行變量賦值varl,最后跳轉(zhuǎn)到家用場景。
對應voicexml識別場景對應了voicexml的<field>和<block>兩個標簽。指令集對應了<grammar>標簽,并增加了通過界面寫語法文件并編譯語法文件的功能。提示語對應了<prompt>標簽。動作集對應了<filled>和<catch>標簽。對于nomatch和reject事件的處理已經(jīng)歸納到動作集中。
綜合上述描述,如下所示的一個簡單的voicexml<form id=″test″>
<field name=″主菜單″>
<grammar src=″.S主菜單″/>
<prompt>家用1,商用2</prompt>
<catch event=″noinput″count=″1″>
<goto next=″#主菜單″/>
</catch>
<catch event=″nomatch″count=″1″>
<goto next=″#主菜單″/>
</catch>
<filled>
<if>
<condition name=″主菜單″expr=″家用″/>
<prompt>家用。</prompt>
<goto next=″#家用″/>
</if>
</filled>
</field>
</form>
可以以如下所述的識別場景來代替
流程圖2.錄音場景功能錄音場景描述了播放提示語,并進行錄音,錄音后直接跳轉(zhuǎn)到某個交互場景。
屬性錄音場景由提示語集和跳轉(zhuǎn)節(jié)點組成。提示語的定義同上。
對應的voicexml錄音場景對應了voicexml的<record>標簽。
3.轉(zhuǎn)接場景功能轉(zhuǎn)接場景描述了播放提示語后直接轉(zhuǎn)接電話的操作,是交互流程的結(jié)束節(jié)點。
屬性轉(zhuǎn)接場景由提示語集和轉(zhuǎn)接電話號碼組成。
對應的voicexml轉(zhuǎn)接節(jié)點對應了voicexml中的<transfer>標簽。
4.掛機場景功能描述了電話語音交互應用主動掛機的情景,是交互流程的技術節(jié)點。
屬性無特殊屬性。
對應的voicexml對應于voicexml中的<exit>標簽。
此外,全局變量包含變量名和值屬性,全局變量的定義和賦值對應了voicexml的<var>和<assign>標簽。
圖5為基于本專利方法設計的語音交互應用編輯環(huán)境主界面。圖6、圖7、圖8分別為提示語集界面、指令集界面和動作集界面。
雖然通過實施例描繪了本發(fā)明,本領域普通技術人員知道,本發(fā)明有許多變形和變化而不脫離本發(fā)明的精神,希望所附的權利要求包括這些變形和變化而不脫離本發(fā)明的精神。
權利要求
1.一種實現(xiàn)語音交互應用場景方法,包括步驟定義多個場景,每一場景對應于VoiceXML(語音xml編輯語言)中的代表實現(xiàn)預定功能的多個標簽組合;根據(jù)需求,組合所述多個場景中的至少一個;基于所述組合的場景,獲取VoiceXML的標簽;根據(jù)VoiceXML語法,產(chǎn)生相應的VoiceXML文件。
2.如權利要求1所述的方法,其中,所述多個場景的每個包括相關的標簽,和語音識別語法文件的內(nèi)容。
3.如權利要求2所述的方法,其中,所述場景包括下列至少一個識別場景、錄音場景、轉(zhuǎn)接場景、掛機場景。
4.如權利要求2或3所述的方法,其中,組合所述多個場景中的至少一個包括以IVR(按鍵語音交互)樹結(jié)合網(wǎng)狀結(jié)構(gòu)添加場景;和/或以IVR樹結(jié)合網(wǎng)狀結(jié)構(gòu)刪除場景。
5.如權利要求4所述的方法,組合所述多個場景中的至少一個包括場景有效性檢查。
6.如權利要求5所述的方法,其中,所述場景有效性檢查包括選擇一個場景;查找它的父節(jié)點場景;檢查所述父節(jié)點場景中是否有到所述場景的跳轉(zhuǎn);如果有,繼續(xù)下一個場景的檢查;否則,場景無效,退出。
7.如權利要求3所述的方法,其中,所述組合所述多個場景中的至少一個包括根據(jù)用戶要求,選擇所述場景的屬性,和/或提示語集,和/或指令集,和/或動作集;根據(jù)VoiceXML語法組合之。
8.如權利要求7所述的方法,其中,所述組合所述多個場景中的至少一個包括組合播放子場景和播放并識別子場景。
9.如權利要求1所述的方法,其中,所述定義多個場景包括對不同的場景定義不同的圖形界面,以便于人機交互。
10.如權利要求3所述的方法,其中,根據(jù)VoiceXML語法,產(chǎn)生相應的VoiceXML文件的步驟包括將組合的場景解析為VoiceXML標記,基于VoiceXML標記庫解釋用戶的動作流,自動生成對應的VoiceXML文件。
全文摘要
本發(fā)明提供了一種實現(xiàn)語音交互應用場景方法,包括步驟定義多個場景,每一場景對應于VoiceXML(語音xml標記語言)中的代表實現(xiàn)預定功能的多個標簽組合;根據(jù)需求,組合所述多個場景中的至少一個;基于所述組合的場景,獲取VoiceXML的標簽;根據(jù)VoiceXML語法,產(chǎn)生相應的VoiceXML文件。其中,根據(jù)VoiceXML語法,產(chǎn)生相應的VoiceXML文件的步驟包括將組合的場景解析為VoiceXML標記,基于VoiceXML標記庫解釋用戶的動作流,自動生成對應的VoiceXML文件。利用本發(fā)明,一個具體的應用在界面上體現(xiàn)為一棵IVR(按鍵語音交互)樹。場景的屬性來描述跳轉(zhuǎn)關系。增加了跳轉(zhuǎn)判斷的靈活性。
文檔編號G06F3/16GK1558655SQ200410001119
公開日2004年12月29日 申請日期2004年1月20日 優(yōu)先權日2004年1月20日
發(fā)明者孫文彥, 張繼勇, 諸光, 任文捷, 陳庭瑋 申請人:聯(lián)想(北京)有限公司