亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種語(yǔ)音控制系統(tǒng)、語(yǔ)音處理方法及終端設(shè)備與流程

文檔序號(hào):11623976閱讀:338來(lái)源:國(guó)知局
一種語(yǔ)音控制系統(tǒng)、語(yǔ)音處理方法及終端設(shè)備與流程

本發(fā)明涉及通信技術(shù)領(lǐng)域,特別涉及一種語(yǔ)音控制系統(tǒng)、語(yǔ)音處理方法及終端設(shè)備。



背景技術(shù):

隨著移動(dòng)通信技術(shù)迅猛發(fā)展,第四代數(shù)字通信(4g)時(shí)代開(kāi)始普及,移動(dòng)終端已成為人們?nèi)粘I畹谋匦杵?,智能移?dòng)終端的硬件配置越來(lái)越高,目前其功能已極其繁雜,業(yè)務(wù)也迅速增多,這一方面滿(mǎn)足了用戶(hù)的多種需要,用戶(hù)能夠從小小的移動(dòng)終端上獲得海量的信息,滿(mǎn)足不同用戶(hù)群體的多種需求,但另一方面手機(jī)終端所嵌入的功能越多、各模塊的功能越強(qiáng)大,其控制也就越復(fù)雜,控制流程也就越繁瑣,從而給用戶(hù)帶來(lái)極大的困擾和不便。智能語(yǔ)音技術(shù)在解決此類(lèi)問(wèn)題上有顯出極大的優(yōu)勢(shì),能夠極大地提高人機(jī)交互的體驗(yàn),所以目前基于嵌入式終端的語(yǔ)音產(chǎn)品也越來(lái)越多。

目前,現(xiàn)有技術(shù)中基于嵌入式終端的語(yǔ)音產(chǎn)品都是各自獨(dú)立的,包括語(yǔ)音服務(wù)和上層業(yè)務(wù)邏輯,終端如果支持多個(gè)語(yǔ)音應(yīng)用時(shí),占用的資源較大。另一方面,目前語(yǔ)音服務(wù)的支持普遍存在較大的封閉性和技術(shù)門(mén)檻,使其開(kāi)發(fā)使用的便利性大大降低,也使其差異化的語(yǔ)音業(yè)務(wù)無(wú)法實(shí)現(xiàn)。即目前的各類(lèi)終端語(yǔ)音業(yè)務(wù)應(yīng)用是獨(dú)立的,業(yè)務(wù)邏輯和對(duì)應(yīng)的語(yǔ)音功能的支持耦合在一起,其功能范疇也相對(duì)固定,同一終端上的不同的語(yǔ)音業(yè)務(wù)軟件即使含有相同的語(yǔ)音引擎支持,也彼此獨(dú)立。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種語(yǔ)音控制系統(tǒng)、語(yǔ)音處理方法及終端設(shè)備,解決了現(xiàn)有技術(shù)中終端設(shè)備設(shè)備上的多個(gè)語(yǔ)音應(yīng)用彼此獨(dú)立,占用的資源較大的問(wèn)題。

為了達(dá)到上述目的,本發(fā)明實(shí)施例提供一種語(yǔ)音控制系統(tǒng),所述語(yǔ)音控制系統(tǒng)搭載在一終端設(shè)備上,所述終端設(shè)備上還搭載有多個(gè)不同的語(yǔ)音業(yè)務(wù)應(yīng)用,所述語(yǔ)音控制系統(tǒng)包括:配置模塊和多個(gè)語(yǔ)音引擎模塊;其中,

所述配置模塊用于根據(jù)不同的語(yǔ)音業(yè)務(wù)應(yīng)用的綁定請(qǐng)求將所述語(yǔ)音業(yè)務(wù)應(yīng)用與至少一個(gè)語(yǔ)音引擎模塊綁定;

所述語(yǔ)音引擎模塊用于對(duì)輸入所述語(yǔ)音業(yè)務(wù)應(yīng)用的輸入信息進(jìn)行處理,并將處理結(jié)果輸出給對(duì)應(yīng)的語(yǔ)音業(yè)務(wù)應(yīng)用,使得所述語(yǔ)音業(yè)務(wù)應(yīng)用利用所述處理結(jié)果來(lái)進(jìn)行語(yǔ)音控制。

其中,所述語(yǔ)音控制系統(tǒng)還包括:

與所述語(yǔ)音引擎模塊和所述配置模塊連接的業(yè)務(wù)流程組件模塊,所述業(yè)務(wù)流程組件模塊用于對(duì)所述語(yǔ)音引擎模塊、所述配置模塊以及所述語(yǔ)音業(yè)務(wù)應(yīng)用之間的業(yè)務(wù)流程交互進(jìn)行邏輯控制。

其中,所述語(yǔ)音引擎模塊是語(yǔ)音識(shí)別asr模塊、語(yǔ)音合成tts模塊、自然語(yǔ)義理解nlu模塊或者聲紋識(shí)別vpr模塊。

其中,所述語(yǔ)音控制系統(tǒng)還包括:

與所述語(yǔ)音識(shí)別asr模塊和所述自然語(yǔ)義理解nlu模塊對(duì)應(yīng)的語(yǔ)音識(shí)別接口、與所述語(yǔ)音合成tts模塊對(duì)應(yīng)的語(yǔ)音合成接口以及與所述聲紋識(shí)別vpr模塊對(duì)應(yīng)的聲紋識(shí)別接口中的一個(gè)或多個(gè)。

其中,所述語(yǔ)音控制系統(tǒng)還包括:

與所述業(yè)務(wù)流程組件模塊對(duì)應(yīng)的對(duì)外接口。

本發(fā)明實(shí)施例還提供一種多個(gè)語(yǔ)音業(yè)務(wù)應(yīng)用的語(yǔ)音處理方法,所述多個(gè)語(yǔ)音業(yè)務(wù)應(yīng)用搭載于同一終端設(shè)備上,所述語(yǔ)音處理方法包括:

根據(jù)不同的語(yǔ)音業(yè)務(wù)應(yīng)用的綁定請(qǐng)求,與所述語(yǔ)音業(yè)務(wù)應(yīng)用進(jìn)行綁定;

針對(duì)已綁定的語(yǔ)音業(yè)務(wù)應(yīng)用,對(duì)輸入所述語(yǔ)音業(yè)務(wù)應(yīng)用的輸入信息進(jìn)行處理,并將處理結(jié)果輸出給對(duì)應(yīng)的語(yǔ)音業(yè)務(wù)應(yīng)用,使得所述語(yǔ)音業(yè)務(wù)應(yīng)用利用所述處理結(jié)果來(lái)進(jìn)行語(yǔ)音控制。

其中,所述多個(gè)語(yǔ)音業(yè)務(wù)應(yīng)用在不同時(shí)間交叉處于激活狀態(tài)。

其中,所述語(yǔ)音業(yè)務(wù)包括語(yǔ)音識(shí)別asr業(yè)務(wù)、語(yǔ)音合成tts業(yè)務(wù)、自然語(yǔ)義理解nlu業(yè)務(wù)或者聲紋識(shí)別vpr業(yè)務(wù)。

本發(fā)明實(shí)施例還提供一種終端設(shè)備,包括語(yǔ)音控制系統(tǒng),所述語(yǔ)音控制系統(tǒng)搭載在所述終端設(shè)備上,所述終端設(shè)備上還搭載有多個(gè)不同的語(yǔ)音業(yè)務(wù)應(yīng)用,所述語(yǔ)音控制系統(tǒng)包括:配置模塊和多個(gè)語(yǔ)音引擎模塊;其中,

所述配置模塊用于根據(jù)不同的語(yǔ)音業(yè)務(wù)應(yīng)用的綁定請(qǐng)求將所述語(yǔ)音業(yè)務(wù)應(yīng)用與至少一個(gè)語(yǔ)音引擎模塊綁定;

所述語(yǔ)音引擎模塊用于對(duì)輸入所述語(yǔ)音業(yè)務(wù)應(yīng)用的輸入信息進(jìn)行處理,并將處理結(jié)果輸出給對(duì)應(yīng)的語(yǔ)音業(yè)務(wù)應(yīng)用,使得所述語(yǔ)音業(yè)務(wù)應(yīng)用利用所述處理結(jié)果來(lái)進(jìn)行語(yǔ)音控制。

其中,所述語(yǔ)音控制系統(tǒng)還包括:

與所述語(yǔ)音引擎模塊和所述配置模塊連接的業(yè)務(wù)流程組件模塊,所述業(yè)務(wù)流程組件模塊用于對(duì)所述語(yǔ)音引擎模塊、所述配置模塊以及所述語(yǔ)音業(yè)務(wù)應(yīng)用之間的業(yè)務(wù)流程交互進(jìn)行邏輯控制。

其中,所述語(yǔ)音引擎模塊是語(yǔ)音識(shí)別asr模塊、語(yǔ)音合成tts模塊、自然語(yǔ)義理解nlu模塊或者聲紋識(shí)別vpr模塊。

本發(fā)明的上述技術(shù)方案至少具有如下有益效果:

本發(fā)明實(shí)施例的語(yǔ)音控制系統(tǒng)、語(yǔ)音處理方法及終端設(shè)備中,通過(guò)提供一語(yǔ)音控制系統(tǒng),對(duì)搭載在同一終端設(shè)備上的多個(gè)語(yǔ)音業(yè)務(wù)應(yīng)用提供統(tǒng)一的語(yǔ)音服務(wù)支撐,從而滿(mǎn)足各個(gè)語(yǔ)音業(yè)務(wù)應(yīng)用不同的差異性需求,同時(shí)達(dá)到降低資源占用,提升效率的目的。

附圖說(shuō)明

圖1表示本發(fā)明實(shí)施例提供的語(yǔ)音控制系統(tǒng)的組成結(jié)構(gòu)示意圖;

圖2表示本發(fā)明實(shí)施例提供的語(yǔ)音處理方法的基本步驟流程圖;

圖3表示本發(fā)明實(shí)施例提供的語(yǔ)音控制系統(tǒng)中語(yǔ)音識(shí)別狀態(tài)轉(zhuǎn)移圖;

圖4表示本發(fā)明實(shí)施例提供的語(yǔ)音控制系統(tǒng)中語(yǔ)音合成狀態(tài)轉(zhuǎn)移圖。

具體實(shí)施方式

為使本發(fā)明要解決的技術(shù)問(wèn)題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。

本發(fā)明針對(duì)現(xiàn)有技術(shù)中終端設(shè)備設(shè)備上的多個(gè)語(yǔ)音應(yīng)用彼此獨(dú)立,占用的資源較大的問(wèn)題,提供一種語(yǔ)音控制系統(tǒng)、語(yǔ)音處理方法及終端設(shè)備,通過(guò)提供一語(yǔ)音控制系統(tǒng),對(duì)搭載在同一終端設(shè)備上的多個(gè)語(yǔ)音業(yè)務(wù)應(yīng)用提供統(tǒng)一的語(yǔ)音服務(wù)支撐,從而滿(mǎn)足各個(gè)語(yǔ)音業(yè)務(wù)應(yīng)用不同的差異性需求,同時(shí)達(dá)到降低資源占用,提升效率的目的。

如圖1所示,本發(fā)明實(shí)施例提供一種語(yǔ)音控制系統(tǒng),所述語(yǔ)音控制系統(tǒng)搭載在一終端設(shè)備上,所述終端設(shè)備上還搭載有多個(gè)不同的語(yǔ)音業(yè)務(wù)應(yīng)用,所述語(yǔ)音控制系統(tǒng)包括:配置模塊10和多個(gè)語(yǔ)音引擎模塊20;其中,

所述配置模塊10用于根據(jù)不同的語(yǔ)音業(yè)務(wù)應(yīng)用的綁定請(qǐng)求將所述語(yǔ)音業(yè)務(wù)應(yīng)用與至少一個(gè)語(yǔ)音引擎模塊綁定;

所述語(yǔ)音引擎模塊20用于對(duì)輸入所述語(yǔ)音業(yè)務(wù)應(yīng)用的輸入信息進(jìn)行處理,并將處理結(jié)果輸出給對(duì)應(yīng)的語(yǔ)音業(yè)務(wù)應(yīng)用,使得所述語(yǔ)音業(yè)務(wù)應(yīng)用利用所述處理結(jié)果來(lái)進(jìn)行語(yǔ)音控制。

本發(fā)明的上述實(shí)施例中,配置模塊10主要實(shí)現(xiàn)該語(yǔ)音控制系統(tǒng)的可配置化,可以根據(jù)不同的需求場(chǎng)景,對(duì)語(yǔ)音平臺(tái)系統(tǒng)進(jìn)行語(yǔ)音引擎的可配置化;根據(jù)需要可以對(duì)語(yǔ)音引擎模塊20各組合進(jìn)行配置,可以只支持其中一個(gè)語(yǔ)音引擎模塊20,也可以支持任何可選語(yǔ)音引擎模塊的子集。同時(shí)還可對(duì)語(yǔ)音控制系統(tǒng)進(jìn)行語(yǔ)音語(yǔ)種的可配置化,根據(jù)不同地域的需求,對(duì)所支持語(yǔ)音服務(wù)進(jìn)行語(yǔ)種配置,以實(shí)現(xiàn)語(yǔ)音應(yīng)用的本地化。對(duì)于上層需要實(shí)現(xiàn)語(yǔ)音功能的語(yǔ)音業(yè)務(wù)應(yīng)用軟件,根據(jù)其實(shí)現(xiàn)語(yǔ)音的功能需要,在其啟動(dòng)的時(shí)候,需綁定語(yǔ)音控制系統(tǒng)。例如,某應(yīng)用軟件只需要語(yǔ)音識(shí)別的功能,就僅需要與語(yǔ)音識(shí)別模塊(語(yǔ)音引擎模塊的一種)綁定,就可以通過(guò)語(yǔ)音識(shí)別模塊來(lái)實(shí)現(xiàn)從音頻輸入到識(shí)別結(jié)果輸出的整個(gè)功能,其語(yǔ)音業(yè)務(wù)應(yīng)用只需要利用識(shí)別結(jié)果來(lái)處理控制邏輯即可。

進(jìn)一步的,本發(fā)明的上述實(shí)施例中所述語(yǔ)音控制系統(tǒng)還包括:

與所述語(yǔ)音引擎模塊20和所述配置模塊10連接的業(yè)務(wù)流程組件模塊30,所述業(yè)務(wù)流程組件模塊30用于對(duì)所述語(yǔ)音引擎模塊20、所述配置模塊10以及所述語(yǔ)音業(yè)務(wù)應(yīng)用之間的業(yè)務(wù)流程交互進(jìn)行邏輯控制。

本發(fā)明的上述實(shí)施例提供的業(yè)務(wù)流程組件模塊30包括常用于終端設(shè)備的語(yǔ)音通用標(biāo)準(zhǔn)流程組件,此組件除了支持上述多個(gè)語(yǔ)音引擎模塊20支持的功能外, 還包含了終端設(shè)備的其他常用功能的業(yè)務(wù)流程交互邏輯控制。如圖1所示,業(yè)務(wù)流程組件模塊30包含多個(gè)業(yè)務(wù)流程組件,終端設(shè)備的一個(gè)業(yè)務(wù)應(yīng)用可對(duì)應(yīng)一個(gè)或多個(gè)業(yè)務(wù)流程組件,一個(gè)業(yè)務(wù)流程組件也可用于一個(gè)或多個(gè)終端設(shè)備的業(yè)務(wù)應(yīng)用,在此不進(jìn)行具體限定。

具體的,本發(fā)明的上述實(shí)施例中,所述語(yǔ)音引擎模塊是語(yǔ)音識(shí)別asr模塊、語(yǔ)音合成tts模塊、自然語(yǔ)義理解nlu模塊或者聲紋識(shí)別vpr模塊。其中,語(yǔ)音識(shí)別(asr)模塊:語(yǔ)音識(shí)別模塊主要對(duì)用戶(hù)輸入的音頻錄音通過(guò)模式識(shí)別等各種算法進(jìn)行分析識(shí)別,最后將識(shí)別結(jié)果以約定的文本格式輸出,結(jié)束本次識(shí)別。其中,語(yǔ)音識(shí)別模塊包含語(yǔ)音喚醒子模塊,語(yǔ)音喚醒子模塊用于對(duì)用戶(hù)預(yù)先設(shè)置的喚醒詞進(jìn)行持續(xù)識(shí)別,與普通識(shí)別類(lèi)似的,語(yǔ)音喚醒子模塊對(duì)用戶(hù)根據(jù)喚醒詞輸入的音頻進(jìn)行分析識(shí)別,返回約定格式的文本效果后,立即開(kāi)始下次錄音監(jiān)聽(tīng),使得用戶(hù)可隨時(shí)輸入音頻進(jìn)行識(shí)別。

語(yǔ)音合成tts模塊:語(yǔ)音合成模塊主要根據(jù)用戶(hù)輸入的文本數(shù)據(jù)流,通過(guò)合成算法將文本數(shù)據(jù)與音頻數(shù)據(jù)對(duì)應(yīng)起來(lái),最終將輸入的文本數(shù)據(jù)流合成為音頻數(shù)據(jù)流輸出。

自然語(yǔ)義理解nlu模塊:對(duì)用戶(hù)的音頻輸入進(jìn)行識(shí)別,并在識(shí)別的基礎(chǔ)上進(jìn)行進(jìn)一步的語(yǔ)義分析,得到用戶(hù)話語(yǔ)的真實(shí)意圖,并根據(jù)用戶(hù)意圖提供進(jìn)一步的信息內(nèi)容的資源。

聲紋識(shí)別vpr模塊:聲紋識(shí)別模塊首先根據(jù)用戶(hù)輸入的音頻數(shù)據(jù),對(duì)其進(jìn)行數(shù)據(jù)采集和特征提取,提取用戶(hù)的音頻特征和相關(guān)參數(shù)并保存,對(duì)以后用戶(hù)的音頻輸入進(jìn)行匹配和鑒權(quán),主要用戶(hù)安全場(chǎng)景。

較佳的,本發(fā)明的上述實(shí)施例中所述語(yǔ)音控制系統(tǒng)還包括:

與所述語(yǔ)音識(shí)別asr模塊和所述自然語(yǔ)義理解nlu模塊對(duì)應(yīng)的語(yǔ)音識(shí)別接口、與所述語(yǔ)音合成tts模塊對(duì)應(yīng)的語(yǔ)音合成接口以及與所述聲紋識(shí)別vpr模塊對(duì)應(yīng)的聲紋識(shí)別接口中的一個(gè)或多個(gè)。

本發(fā)明實(shí)施例提供的語(yǔ)音控制系統(tǒng)根據(jù)其語(yǔ)音功能封裝統(tǒng)一的對(duì)外接口,如語(yǔ)音識(shí)別(asr)功能提供統(tǒng)一的語(yǔ)音識(shí)別接口,語(yǔ)音合成(tts)功能提供統(tǒng)一的語(yǔ)音合成接口,語(yǔ)音喚醒提供統(tǒng)一的語(yǔ)音喚醒接口,聲紋識(shí)別(vpr)提供統(tǒng)一的聲紋識(shí)別的接口。

進(jìn)一步的,本發(fā)明實(shí)施例提供的語(yǔ)音控制系統(tǒng)還提供與所述業(yè)務(wù)流程組件模塊30對(duì)應(yīng)的對(duì)外接口。

對(duì)于上層需要實(shí)現(xiàn)語(yǔ)音功能的業(yè)務(wù)應(yīng)用軟件,根據(jù)其實(shí)現(xiàn)語(yǔ)音的功能需要,在其啟動(dòng)的時(shí)候,綁定語(yǔ)音控制系統(tǒng),并調(diào)用其需要的對(duì)應(yīng)的語(yǔ)音功能接口,例如某應(yīng)用軟件只需要語(yǔ)音識(shí)別的功能,就可以通過(guò)調(diào)用語(yǔ)音識(shí)別的接口來(lái)實(shí)現(xiàn)從音頻輸入到識(shí)別結(jié)果輸出的整個(gè)功能,其應(yīng)用只需利用識(shí)別結(jié)果來(lái)處理控制邏輯即可,同樣的,應(yīng)用也可根據(jù)自身需要同時(shí)調(diào)用語(yǔ)音平臺(tái)支持的多個(gè)語(yǔ)音功能模塊接口來(lái)實(shí)現(xiàn)相對(duì)應(yīng)的語(yǔ)音功能。進(jìn)一步地,上層應(yīng)用軟件也可通過(guò)調(diào)用語(yǔ)音平臺(tái)系統(tǒng)的與業(yè)務(wù)流程組件模塊30對(duì)應(yīng)的對(duì)外接口來(lái)方便地同時(shí)實(shí)現(xiàn)對(duì)應(yīng)的業(yè)務(wù)的語(yǔ)音功能支持和控制邏輯。

綜上,本發(fā)明實(shí)施例提供的語(yǔ)音控制系統(tǒng)為智能終端上的語(yǔ)音業(yè)務(wù)應(yīng)用提供統(tǒng)一的語(yǔ)音服務(wù),終端上所有的語(yǔ)音業(yè)務(wù)應(yīng)用都可以通過(guò)調(diào)用語(yǔ)音控制系統(tǒng)而獲得對(duì)應(yīng)的語(yǔ)音服務(wù),而不必再各自獨(dú)立包含語(yǔ)音引擎,大大節(jié)省了對(duì)資源的占用;同時(shí),語(yǔ)音平臺(tái)引擎的可配置化可以滿(mǎn)足不同語(yǔ)音業(yè)務(wù)的差異性需求,大大便利了不同語(yǔ)音業(yè)務(wù)的集成,提高了終端的用戶(hù)體驗(yàn)。

為了更好的實(shí)現(xiàn)上述目的,如圖2所示,本發(fā)明實(shí)施例還提供一種多個(gè)語(yǔ)音業(yè)務(wù)應(yīng)用的語(yǔ)音處理方法,所述多個(gè)語(yǔ)音業(yè)務(wù)應(yīng)用搭載于同一終端設(shè)備上,所述語(yǔ)音處理方法包括:

步驟21,根據(jù)不同的語(yǔ)音業(yè)務(wù)應(yīng)用的綁定請(qǐng)求,與所述語(yǔ)音業(yè)務(wù)應(yīng)用進(jìn)行綁定;

步驟22,針對(duì)已綁定的語(yǔ)音業(yè)務(wù)應(yīng)用,對(duì)輸入所述語(yǔ)音業(yè)務(wù)應(yīng)用的輸入信息進(jìn)行處理,并將處理結(jié)果輸出給對(duì)應(yīng)的語(yǔ)音業(yè)務(wù)應(yīng)用,使得所述語(yǔ)音業(yè)務(wù)應(yīng)用利用所述處理結(jié)果來(lái)進(jìn)行語(yǔ)音控制。

進(jìn)一步的,本發(fā)明提供的語(yǔ)音處理方法中所述多個(gè)語(yǔ)音業(yè)務(wù)應(yīng)用在不同時(shí)間交叉處于激活狀態(tài)。

具體的,所述語(yǔ)音業(yè)務(wù)包括語(yǔ)音識(shí)別asr業(yè)務(wù)、語(yǔ)音合成tts業(yè)務(wù)、自然語(yǔ)義理解nlu業(yè)務(wù)或者聲紋識(shí)別vpr業(yè)務(wù)。本發(fā)明實(shí)施例中提及的多個(gè)語(yǔ)音業(yè)務(wù)即為上述語(yǔ)音業(yè)務(wù)中的任意兩個(gè)或多個(gè)的組合。

其中,語(yǔ)音識(shí)別(asr)業(yè)務(wù):語(yǔ)音識(shí)別模塊主要對(duì)用戶(hù)輸入的音頻錄音 通過(guò)模式識(shí)別等各種算法進(jìn)行分析識(shí)別,最后將識(shí)別結(jié)果以約定的文本格式輸出,結(jié)束本次識(shí)別。其中,語(yǔ)音識(shí)別模塊包含語(yǔ)音喚醒子模塊,語(yǔ)音喚醒子模塊用于對(duì)用戶(hù)預(yù)先設(shè)置的喚醒詞進(jìn)行持續(xù)識(shí)別,與普通識(shí)別類(lèi)似的,語(yǔ)音喚醒子模塊對(duì)用戶(hù)根據(jù)喚醒詞輸入的音頻進(jìn)行分析識(shí)別,返回約定格式的文本效果后,立即開(kāi)始下次錄音監(jiān)聽(tīng),使得用戶(hù)可隨時(shí)輸入音頻進(jìn)行識(shí)別。

語(yǔ)音合成tts業(yè)務(wù):語(yǔ)音合成模塊主要根據(jù)用戶(hù)輸入的文本數(shù)據(jù)流,通過(guò)合成算法將文本數(shù)據(jù)與音頻數(shù)據(jù)對(duì)應(yīng)起來(lái),最終將輸入的文本數(shù)據(jù)流合成為音頻數(shù)據(jù)流輸出。

自然語(yǔ)義理解nlu業(yè)務(wù):對(duì)用戶(hù)的音頻輸入進(jìn)行識(shí)別,并在識(shí)別的基礎(chǔ)上進(jìn)行進(jìn)一步的語(yǔ)義分析,得到用戶(hù)話語(yǔ)的真實(shí)意圖,并根據(jù)用戶(hù)意圖提供進(jìn)一步的信息內(nèi)容的資源。

聲紋識(shí)別vpr業(yè)務(wù):聲紋識(shí)別模塊首先根據(jù)用戶(hù)輸入的音頻數(shù)據(jù),對(duì)其進(jìn)行數(shù)據(jù)采集和特征提取,提取用戶(hù)的音頻特征和相關(guān)參數(shù)并保存,對(duì)以后用戶(hù)的音頻輸入進(jìn)行匹配和鑒權(quán),主要用戶(hù)安全場(chǎng)景。

本發(fā)明實(shí)施例中,終端設(shè)備的錄音資源一般具有排他性,同一時(shí)間只能支持一個(gè)應(yīng)用占用錄音設(shè)備,也就意味著同一時(shí)間只有一個(gè)應(yīng)用處于激活狀態(tài),而不同時(shí)間的應(yīng)用可交叉處于激活狀態(tài),使用同一語(yǔ)音控制系統(tǒng)的語(yǔ)音服務(wù)支撐。但是若同一時(shí)間用戶(hù)打開(kāi)兩個(gè)應(yīng)用,則優(yōu)先級(jí)較高的應(yīng)用占用錄音設(shè)備,優(yōu)先級(jí)較低的應(yīng)用自動(dòng)斷開(kāi);需要說(shuō)明的是,其優(yōu)先級(jí)的高低可預(yù)先設(shè)定或者由應(yīng)用之間交互決定,不限于一固定形式。

舉例說(shuō)明如下:

這里以智能終端平臺(tái)上支持兩種語(yǔ)音業(yè)務(wù)應(yīng)用產(chǎn)品為例,其中應(yīng)用一為語(yǔ)音助手,可在正常使用的環(huán)境下對(duì)手機(jī)的大部分功能進(jìn)行全語(yǔ)音操控,如打電話、發(fā)短信、播放音樂(lè)、聲控拍照、生活服務(wù)語(yǔ)音搜索等等;另一種語(yǔ)音業(yè)務(wù)應(yīng)用二為駕駛助手,可在駕駛環(huán)境下進(jìn)行諸如導(dǎo)航、打電話、發(fā)短信、播放音樂(lè)等等功能的全語(yǔ)音操控。

為了盡可能地節(jié)省系統(tǒng)資源,首先,根據(jù)這兩個(gè)應(yīng)用的需求,確定語(yǔ)音平臺(tái)系統(tǒng)需要支持的功能配置,這里需要語(yǔ)音識(shí)別、語(yǔ)音喚醒和語(yǔ)音合成三種引擎支持,那么由配置模塊讀取配置文件構(gòu)建這一滿(mǎn)足需求而又無(wú)冗余的語(yǔ)音平 臺(tái)系統(tǒng)版本。

應(yīng)用一的調(diào)用流程如下:

應(yīng)用一需要使用語(yǔ)音平臺(tái)系統(tǒng)的語(yǔ)音服務(wù),首先要綁定語(yǔ)音平臺(tái)系統(tǒng),綁定操作成功后,需要對(duì)各語(yǔ)音功能引擎進(jìn)行初始化,就語(yǔ)音識(shí)別而言,初始化后還需要加載語(yǔ)法,加載語(yǔ)法成功后即達(dá)到語(yǔ)音識(shí)別的準(zhǔn)備就緒狀態(tài),類(lèi)似地,語(yǔ)音合成也需要進(jìn)行引擎的初始化,初始化成功后即達(dá)到語(yǔ)音合成的準(zhǔn)備就緒狀態(tài)。對(duì)語(yǔ)音識(shí)別(包括語(yǔ)音喚醒)而言,準(zhǔn)備就緒狀態(tài)后,語(yǔ)音開(kāi)始錄音,并對(duì)錄音進(jìn)行識(shí)別,識(shí)別成功后返回文本的識(shí)別結(jié)果,應(yīng)用根據(jù)這個(gè)識(shí)別結(jié)果來(lái)進(jìn)行操作并繼續(xù)下個(gè)語(yǔ)音交互流程或進(jìn)入結(jié)束狀態(tài),如圖3所示的狀態(tài)轉(zhuǎn)移圖。而對(duì)語(yǔ)音合成而言,進(jìn)入準(zhǔn)備就緒狀態(tài)后,如應(yīng)用需要播報(bào)對(duì)應(yīng)的文本,則可將對(duì)應(yīng)的文本作為參數(shù)傳入開(kāi)始語(yǔ)音合成,設(shè)備對(duì)傳入的文本進(jìn)行語(yǔ)音播報(bào),然后進(jìn)行相關(guān)的操作并進(jìn)入相應(yīng)的下一環(huán)語(yǔ)音交互流程,或進(jìn)入結(jié)束狀態(tài),如圖4所示的狀態(tài)轉(zhuǎn)移圖。

應(yīng)用二的語(yǔ)音調(diào)用流程與應(yīng)用一相似,目前的終端設(shè)備其錄音資源一般具有排他性,同一時(shí)間只能支持一個(gè)應(yīng)用占用錄音設(shè)備,也就意味著同一時(shí)間只有一個(gè)應(yīng)用處于激活狀態(tài),而不同時(shí)間不同的應(yīng)用可交叉處于激活狀態(tài),使用同一語(yǔ)音平臺(tái)系統(tǒng)的語(yǔ)音服務(wù)支撐。

這里需要說(shuō)明的是,與上述類(lèi)似的,本發(fā)明在終端硬件允許的條件下,可支持任意數(shù)量的差異化功能的語(yǔ)音業(yè)務(wù)應(yīng)用,不局限于本實(shí)施例中所述情況。

為了更好的實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例還提供一種終端設(shè)備,包括語(yǔ)音控制系統(tǒng),所述語(yǔ)音控制系統(tǒng)搭載在所述終端設(shè)備上,所述終端設(shè)備上還搭載有多個(gè)不同的語(yǔ)音業(yè)務(wù)應(yīng)用,所述語(yǔ)音控制系統(tǒng)包括:配置模塊和多個(gè)語(yǔ)音引擎模塊;其中,

所述配置模塊用于根據(jù)不同的語(yǔ)音業(yè)務(wù)應(yīng)用的綁定請(qǐng)求將所述語(yǔ)音業(yè)務(wù)應(yīng)用與至少一個(gè)語(yǔ)音引擎模塊綁定;

所述語(yǔ)音引擎模塊用于對(duì)輸入所述語(yǔ)音業(yè)務(wù)應(yīng)用的輸入信息進(jìn)行處理,并將處理結(jié)果輸出給對(duì)應(yīng)的語(yǔ)音業(yè)務(wù)應(yīng)用,使得所述語(yǔ)音業(yè)務(wù)應(yīng)用利用所述處理結(jié)果來(lái)進(jìn)行語(yǔ)音控制。

具體的,本發(fā)明具體實(shí)施例中所述語(yǔ)音控制系統(tǒng)還包括:

與所述語(yǔ)音引擎模塊和所述配置模塊連接的業(yè)務(wù)流程組件模塊,所述業(yè)務(wù)流程組件模塊用于對(duì)所述語(yǔ)音引擎模塊、所述配置模塊以及所述語(yǔ)音業(yè)務(wù)應(yīng)用之間的業(yè)務(wù)流程交互進(jìn)行邏輯控制。

具體的,本發(fā)明具體實(shí)施例中所述語(yǔ)音引擎模塊是語(yǔ)音識(shí)別asr模塊、語(yǔ)音合成tts模塊、自然語(yǔ)義理解nlu模塊或者聲紋識(shí)別vpr模塊。

具體的,本發(fā)明具體實(shí)施例中所述語(yǔ)音控制系統(tǒng)還包括:

與所述語(yǔ)音識(shí)別asr模塊和所述自然語(yǔ)義理解nlu模塊對(duì)應(yīng)的語(yǔ)音識(shí)別接口、與所述語(yǔ)音合成tts模塊對(duì)應(yīng)的語(yǔ)音合成接口以及與所述聲紋識(shí)別vpr模塊對(duì)應(yīng)的聲紋識(shí)別接口中的一個(gè)或多個(gè)。

具體的,本發(fā)明具體實(shí)施例中所述語(yǔ)音控制系統(tǒng)還包括:

與所述業(yè)務(wù)流程組件模塊對(duì)應(yīng)的對(duì)外接口。

需要說(shuō)明的是,本發(fā)明上述實(shí)施例提供的終端設(shè)備是承載上述語(yǔ)音控制系統(tǒng)和語(yǔ)音處理方法的終端設(shè)備,則上述語(yǔ)音控制系統(tǒng)和語(yǔ)音處理方法的所有實(shí)施例均適用于該終端設(shè)備,且均能達(dá)到相同或相似的有益效果。

以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明所述原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1