亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

說話人識別方法、設(shè)備和系統(tǒng)的制作方法

文檔序號:7700927閱讀:230來源:國知局
專利名稱:說話人識別方法、設(shè)備和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明實施例涉及通信技術(shù)領(lǐng)域,特別涉及一種說話人識別方法、設(shè)備和系統(tǒng)。
背景技術(shù)
聲紋是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜,是一種人的個性特 征。和指紋類似,世界上任何兩個人的聲紋圖譜都會有差異。聲紋識別(Voiceprint Recognition ;簡稱VPR)是根據(jù)人的發(fā)音特征識別出某段語音是誰說的。聲紋識別也稱 為說話人識別(Speaker Recognition)。聲紋識別包括兩個方面說話人辨認(Speaker Identification)和說話人確認(Speaker Verification),其中說話人辨認是判斷某段語 音是若干人中的哪一個所說的;說話人確認是確認某段語音是否是指定的某個人所說的。 在一定意義上,說話人辨認可以理解為多次的說話人確認。與語音識別不同的是,聲紋識 別并不考慮語音中的字詞意思,而是利用語音信號中的說話人特征信息識別出說話人的身 份。每個說話人的生物特征與其他人都不同,具有唯一性,不易偽造和假冒,利用說話人識 別技術(shù)進行身份認證具有安全、準確、可靠的特點。因而說話人識別的應(yīng)用范圍廣泛,例如 說話人辨認可以應(yīng)用的領(lǐng)域包括刑偵破案、罪犯跟蹤、國防監(jiān)聽、個性化應(yīng)用等;說話人 確認領(lǐng)域包括證券交易、銀行交易、公安取證、個人電腦聲控鎖、汽車聲控鎖、身份證、信用 卡的認證等。發(fā)明人在實現(xiàn)本發(fā)明的過程中至少發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下問題現(xiàn)有的說話人識別技術(shù),是應(yīng)用于傳統(tǒng)的客戶端-服務(wù)器模式的網(wǎng)絡(luò)架構(gòu)中,提 供說話人識別功能的媒體資源服務(wù)器是單一的網(wǎng)絡(luò)設(shè)備,而這種模式無法應(yīng)用于通信網(wǎng)絡(luò) 中承載與控制分離的架構(gòu)中。

發(fā)明內(nèi)容
本發(fā)明實施例提供一種說話人識別方法、設(shè)備和系統(tǒng),用以解決現(xiàn)有說話人識別 無法應(yīng)用于通信網(wǎng)絡(luò)中承載與控制分離的架構(gòu)的問題,實現(xiàn)在分離架構(gòu)下通過媒體網(wǎng)關(guān)控 制協(xié)議的控制進行說話人識別。本發(fā)明實施例提供一種說話人識別方法,包括接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示;根據(jù)所述說話人確認指示執(zhí)行說話人確認操作,并獲取說話人確認操作的結(jié)果;將所述說話人確認操作的結(jié)果上報至所述媒體網(wǎng)關(guān)控制器。本發(fā)明實施例又提供一種說話人識別方法,包括向媒體網(wǎng)關(guān)發(fā)送說話人確認指示;接收所述媒體網(wǎng)關(guān)上報的根據(jù)所述說話人確認指示獲取的說話人確認操作的結(jié)^ ο本發(fā)明實施例再提供一種媒體網(wǎng)關(guān),包括第一接收模塊,用于接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示;
確認模塊,用于根據(jù)所述說話人確認指示執(zhí)行說話人確認操作,并獲取說話人確 認操作的結(jié)果;上報模塊,用于將所述說話人確認操作的結(jié)果上報至所述媒體網(wǎng)關(guān)控制器。本發(fā)明實施例還提供一種媒體網(wǎng)關(guān)控制器,包括第一發(fā)送模塊,用于向媒體網(wǎng)關(guān)發(fā)送說話人確認指示;第二接收模塊,用于接收所述媒體網(wǎng)關(guān)上報的根據(jù)所述說話人確認指示獲取的說 話人確認操作的結(jié)果。本發(fā)明實施例還提供一種說話人識別系統(tǒng),包括媒體網(wǎng)關(guān),用于接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示;根據(jù)所述說話人確 認指示執(zhí)行說話人確認操作,并獲取說話人確認操作的結(jié)果;將所述說話人確認操作的結(jié) 果上報至所述媒體網(wǎng)關(guān)控制器;媒體網(wǎng)關(guān)控制器,用于向媒體網(wǎng)關(guān)發(fā)送說話人確認指示;接收所述媒體網(wǎng)關(guān)上報 的根據(jù)所述說話人確認指示獲取的說話人確認操作的結(jié)果。本發(fā)明實施例提供的說話人識別方法、設(shè)備和系統(tǒng),媒體網(wǎng)關(guān)根據(jù)媒體網(wǎng)關(guān)控制 器發(fā)送的說話人確認指示進行說話人確認操作,然后將說話人確認操作的結(jié)果上報至媒體 網(wǎng)關(guān)控制器,實現(xiàn)了在分離架構(gòu)下通過媒體網(wǎng)關(guān)控制協(xié)議進行說話人識別。


圖1為本發(fā)明實施例中NGN網(wǎng)絡(luò)中MG和MGC組網(wǎng)示意圖;圖2為本發(fā)明說話人識別方法第一實施例的流程圖;圖3為本發(fā)明說話人識別方法第二實施例的流程圖;圖4為本發(fā)明說話人識別方法第三實施例的信令流程圖;圖5為本發(fā)明說話人識別方法第四實施例的信令流程圖;圖6為本發(fā)明說話人識別方法第五實施例的信令流程圖;圖7為本發(fā)明媒體網(wǎng)關(guān)實施例的結(jié)構(gòu)示意圖;圖8為本發(fā)明媒體網(wǎng)關(guān)控制器實施例的結(jié)構(gòu)示意圖;圖9為本發(fā)明說話人識別系統(tǒng)實施例的結(jié)構(gòu)示意圖。
具體實施例方式下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。媒體網(wǎng)關(guān)控制器(Media Gateway Controller ;簡稱MGC)和媒體網(wǎng)關(guān)(Media Gateway ;簡稱MG)是分組網(wǎng)絡(luò)中的兩個關(guān)鍵網(wǎng)元。其中MGC負責(zé)呼叫控制功能,MG負責(zé) 業(yè)務(wù)承載功能,可以實現(xiàn)呼叫控制平面和業(yè)務(wù)承載平面的分離,從而充分共享網(wǎng)絡(luò)資源,簡 化設(shè)備升級和業(yè)務(wù)擴展,降低開發(fā)和維護成本。圖1為本發(fā)明實施例中下一代網(wǎng)絡(luò)(Next Generation Network ;簡稱NGN)網(wǎng)絡(luò)中MG和MGC組網(wǎng)示意圖,如圖1所示,媒體網(wǎng)關(guān)控制 協(xié)議(MediaGateway Control Protocol ;簡稱MGCP)是MG和MGC之間通信的主要協(xié)議,例 如H. 248/MeGaCo和MGCP協(xié)議。其中,MGCP協(xié)議版本1由互聯(lián)網(wǎng)工程任務(wù)組(The Internet Engineering Task Force ;簡稱:IETF)于 1999 年 10 月制訂并于 2003 年 1 月修訂;H. 248/ MeGaCo協(xié)議版本 1 由 IETF和國際電報聯(lián)盟(International Telegraph Union ;簡稱ITU)于2000年11月共同制訂并于2003年6月修訂;H. 248協(xié)議版本2由ITU于2002年5月 制訂并于2004年3月修訂;H. 248協(xié)議版本3由ITU于2005年9月制訂。以H. 248協(xié)議 為例,MG上的各種資源被抽象表示為終端(Termination)。終端又分為物理(Physical)終 端和臨時(Ephemeral)終端,物理終端代表一些具有半永久存在性的物理實體,例如時分 復(fù)用(Time Division Multiplex ;簡稱TDM)通道等;臨時終端代表一些臨時申請、用后釋 放的公共資源,例如實時傳輸協(xié)議(Real-timeTransport Protocol ;簡稱RTP)流等。另 外,根(Root)終端代表MG整體,終端之間的組合被抽象表示為上下文(Context)。上下文 可以包含多個終端,因而以拓撲(Topology)來描述終端間的相互關(guān)系,對于還未與其它終 端發(fā)生關(guān)聯(lián)的終端,由一個稱為空(Null)上下文的特殊上下文來表示?;诿襟w網(wǎng)關(guān)控制 協(xié)議的抽象模型中,呼叫的接續(xù)實際上是對終端和上下文的操作。具體為通過MGC和MG 之間的指示即命令(Command)、請求(Request)和響應(yīng)(Iteply)來完成。命令類型包括添 加(Add)、修改(Modify)、刪減(Subtract)、移動(Move)、審計值(AuditValue)、審計能力 (AuditCapabilities)、通報(Notify)、服務(wù)改變(ServiceChange)。命令參數(shù)也稱為描述 符(Descriptor),分為屬性(Property)、信號(Signal)、事件(Event)、統(tǒng)計(Statistic) 參數(shù)。具有業(yè)務(wù)相關(guān)性的參數(shù)邏輯上聚合為包(Package)。H. 248作為媒體網(wǎng)關(guān)控制協(xié)議,支持媒體網(wǎng)關(guān)控制器和媒體網(wǎng)關(guān)配合實現(xiàn)媒體資 源控制的各種功能。例如,H. 248. 9定義了一系列擴展機制,支持媒體網(wǎng)關(guān)執(zhí)行自動語音識 別(Automatic Speech Recognition ;簡稱ASR)、文本語音轉(zhuǎn)換(Text to Speech ;簡稱 TTS)、媒體播放(PLAY)、錄制(RECORD)等功能。但是,目前的H. 248協(xié)議還沒有配套的機 制來支持實現(xiàn)說話人識別的功能,即根據(jù)接收到的語音的音頻信息進行說話人的辨認或確 認。本發(fā)明實施例的主要思想是在媒體網(wǎng)關(guān)控制協(xié)議例如H. 248中定義一套信號、 事件以及對應(yīng)參數(shù)的機制,以支持MGC和MG的說話人識別功能,例如實現(xiàn)說話人確認操作, 此外,說話人辨認操作可以理解為多個說話人確認操作的結(jié)果,說話人確認和說話人辨認 都屬于說話人識別。圖2為本發(fā)明說話人識別方法第一實施例的流程圖,如圖2所示,該說話人識別方 法包括步驟101、接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示。采用媒體網(wǎng)關(guān)控制協(xié)議例如H. 248進行說話人識別時,媒體網(wǎng)關(guān)可以接收媒體 網(wǎng)關(guān)控制器發(fā)送的說話人確認指示,該說話人確認指示可以通過擴展的H. 248信號實現(xiàn), 該說話人確認指示中可以攜帶一些參數(shù),用以指示媒體網(wǎng)關(guān)對語音信息進行說話人確認操作。步驟102、根據(jù)所述說話人確認指示執(zhí)行說話人確認操作,并獲取說話人確認操作 的結(jié)果。如果媒體網(wǎng)關(guān)控制器下發(fā)的說話人確認指示中可以通過參數(shù)指定一段語音信息 的存儲地址,媒體網(wǎng)關(guān)可以從該存儲地址獲取需要識別的語音信息;如果說話人確認指示 中通過參數(shù)指示媒體網(wǎng)關(guān)需要接收說話人實時語音信息,媒體網(wǎng)關(guān)可以實時的接收說話人 的語音信息。媒體網(wǎng)關(guān)可以根據(jù)自身存儲的聲紋文件對需要識別的語音信息進行聲紋的匹 配,執(zhí)行說話人確認操作,例如需要識別的語音信息為是否是“張三”的,則媒體網(wǎng)關(guān)調(diào)出存儲的“張三”的聲紋文件與該語音信息進行匹配。步驟103、將所述說話人確認操作的結(jié)果上報至所述媒體網(wǎng)關(guān)控制器。媒體網(wǎng)關(guān)可以通過通報(Notify)請求消息向媒體網(wǎng)關(guān)控制器上報說話人確認操 作的結(jié)果,說話人確認操作的結(jié)果中可以包括匹配是否成功、匹配的相似程度以及說話人 相關(guān)資料等信息。該上報的過程可以通過事件來實現(xiàn),在H. 248中,事件的檢測和上報需要 對媒體網(wǎng)關(guān)進行設(shè)置,設(shè)置的方式包括下發(fā)或預(yù)選配置。事件可以設(shè)置在媒體網(wǎng)關(guān)的根終 端、某特定終端或某特定流上,用以表示不同事件檢測的不同使用范圍。在步驟101之前,該說話人識別方法還可以包括建立說話人識別會話的過程,具 體為媒體網(wǎng)關(guān)接收所述媒體網(wǎng)關(guān)控制器發(fā)送的建立說話人確認會話指示,所述建立說話 人確認會話指示攜帶用于說話人確認操作的聲紋標識;媒體網(wǎng)關(guān)根據(jù)所述建立說話人確認 會話指示建立說話人識別會話,并獲取所述聲紋標識對應(yīng)的聲紋文件。在步驟103之后,該說話人識別方法還可以包括終止說話人識別會話的過程,具 體為媒體網(wǎng)關(guān)接收所述媒體網(wǎng)關(guān)控制器發(fā)送的終止說話人確認會話指示;媒體網(wǎng)關(guān)根據(jù) 所述終止說話人確認會話指示,終止說話人確認會話,并向所述媒體網(wǎng)關(guān)控制器返回終止 響應(yīng)消息。另外,該說話人識別方法中,媒體網(wǎng)關(guān)除了可以根據(jù)媒體網(wǎng)關(guān)控制器的說話人確 認指示實現(xiàn)說話人確認的操作之外,還可以進行獲取說話人確認操作的中間結(jié)果、停止說 話人確認操作、聲紋文件的查詢、刪除、確認回滾、媒體網(wǎng)關(guān)緩存清理等操作,可以包括以下 任一示例示例一、對媒體網(wǎng)關(guān)的緩存中的語音信息進行說話人確認操作的方法具體為媒 體網(wǎng)關(guān)接收所述媒體網(wǎng)關(guān)控制器發(fā)送的緩存確認指示,根據(jù)所述緩存確認指示對媒體網(wǎng)關(guān) 的緩存中存放的語音信息進行說話人確認操作。示例二、獲取說話人確認操作的中間結(jié)果具體為媒體網(wǎng)關(guān)接收所述媒體網(wǎng)關(guān)控 制器發(fā)送的獲取中間結(jié)果指示,根據(jù)所述獲取中間結(jié)果指示獲取并上報當(dāng)前所執(zhí)行的說話 人確認操作的中間結(jié)果。示例三、停止說話人確認操作具體為媒體網(wǎng)關(guān)接收所述媒體網(wǎng)關(guān)控制器發(fā)送的 停止確認指示,根據(jù)所述停止確認指示停止當(dāng)前所執(zhí)行的說話人確認操作。示例四、聲紋查詢的方法具體為媒體網(wǎng)關(guān)接收所述媒體網(wǎng)關(guān)控制器發(fā)送的聲紋 查詢指示,所述聲紋查詢指示攜帶需要查詢的聲紋標識,并向所述媒體網(wǎng)關(guān)控制器返回根 據(jù)所述聲紋標識獲取的查詢結(jié)果。示例五、聲紋刪除的方法具體為媒體網(wǎng)關(guān)接收所述媒體網(wǎng)關(guān)控制器發(fā)送的聲紋 刪除指示,所述聲紋刪除指示攜帶需要刪除的聲紋標識,并向所述媒體網(wǎng)關(guān)控制器返回刪 除結(jié)果。示例六、確認回滾的方法具體為媒體網(wǎng)關(guān)接收所述媒體網(wǎng)關(guān)控制器發(fā)送的確認 回滾指示,根據(jù)所述確認回滾指示丟棄媒體網(wǎng)關(guān)最新收集的語音信息。示例七、緩存清理的方法具體為媒體網(wǎng)關(guān)接收所述媒體網(wǎng)關(guān)控制器發(fā)送的緩存 清理指示,根據(jù)所述緩存清理指示丟棄緩存的媒體數(shù)據(jù)。由于媒體網(wǎng)關(guān)控制器和媒體網(wǎng)關(guān)之間是指示與被指示的關(guān)系,媒體網(wǎng)關(guān)控制器向 媒體網(wǎng)關(guān)發(fā)送的說話人確認指示、獲取中間結(jié)果指示、停止確認指示、聲紋查詢指示、聲紋刪除指示、確認回滾指示、緩存清理指示、建立說話人識別會話指示和終止說話人識別會話 指示等都可以為H. 248信號的格式,只需要修改H. 248信號內(nèi)攜帶的參數(shù)就可以實現(xiàn)。而 媒體網(wǎng)關(guān)發(fā)送的各種指示執(zhí)行相應(yīng)的操作,并向媒體網(wǎng)關(guān)控制器返回響應(yīng)消息。本實施例媒體網(wǎng)關(guān)根據(jù)媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示,并根據(jù)存儲的聲 紋文件執(zhí)行說話人確認操作,然后將執(zhí)行說話人確認操作的結(jié)果上報至媒體網(wǎng)關(guān)控制器, 實現(xiàn)了在分離架構(gòu)下通過媒體網(wǎng)關(guān)控制協(xié)議進行說話人識別,采用分離架構(gòu)進行說話人識 別可以方便各種聲紋文件資源的共享、維護與更新。圖3為本發(fā)明說話人識別方法第二實施例的流程圖,如圖3所示,該說話人識別方 法包括步驟201、向媒體網(wǎng)關(guān)發(fā)送說話人確認指示。采用媒體網(wǎng)關(guān)控制協(xié)議例如H. 248進行說話人識別時,媒體網(wǎng)關(guān)控制器向媒體網(wǎng) 關(guān)發(fā)送說話人確認指示。說話人確認指示通過擴展的H. 248信號實現(xiàn),該說話人確認指示 中可以攜帶一些參數(shù),用以指示媒體網(wǎng)關(guān)對語音信息進行說話人確認操作。步驟202、接收所述媒體網(wǎng)關(guān)上報的根據(jù)所述說話人確認指示獲取的說話人確認 操作的結(jié)果。如果媒體網(wǎng)關(guān)控制器下發(fā)的說話人確認指示中通過可以參數(shù)指定一段語音信息 的存儲地址,媒體網(wǎng)關(guān)可以從該存儲地址獲取需要識別的語音信息;如果說話人確認指示 中通過參數(shù)指定需要接收說話人實時語音信息,媒體網(wǎng)關(guān)可以實時的接收說話人的語音信 息。然后媒體網(wǎng)關(guān)可以根據(jù)自身存儲的聲紋文件對需要識別的語音信息進行聲紋的匹配。 媒體網(wǎng)關(guān)控制器接收媒體網(wǎng)關(guān)上報通報(Notify)請求消息,該通報請求消息中包括需要 識別的語音信息與存儲的聲紋文件的進行說話人確認操作的結(jié)果,例如匹配是否成功、匹 配的相似程度以及說話人相關(guān)資料等信息。該上報的過程可以通過事件來實現(xiàn)。在步驟201之前,該說話人識別方法還可以包括建立說話人識別會話的過程,具 體為媒體網(wǎng)關(guān)控制器向所述媒體網(wǎng)關(guān)發(fā)送建立說話人確認會話指示,所述建立說話人 確認會話指示攜帶用于說話人確認操作的聲紋標識。媒體網(wǎng)關(guān)根據(jù)建立說話人確認會話指 示建立說話人識別會話。在步驟202之后,該說話人識別方法還可以包括終止說話人識別會話的過程,具 體為媒體網(wǎng)關(guān)控制器向所述媒體網(wǎng)關(guān)發(fā)送終止說話人確認會話指示,并接收所述媒體 網(wǎng)關(guān)返回的終止響應(yīng)消息。媒體網(wǎng)關(guān)根據(jù)終止說話人確認會話指示終止說話人識別會話。另外,該說話人識別方法除了可以實現(xiàn)說話人識別之外,還可以進行獲取說話人 確認操作的中間結(jié)果、停止說話人確認操作、聲紋文件的查詢、刪除、確認回滾、媒體網(wǎng)關(guān)緩 存清理等操作,可以包括以下任一示例示例一、對媒體網(wǎng)關(guān)的緩存中的語音信息進行說話人確認操作的方法具體為媒 體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送緩存確認指示,指示所述媒體網(wǎng)關(guān)根據(jù)所述緩存確認指示對 媒體網(wǎng)關(guān)的緩存中存放的語音信息進行說話人確認操作。示例二、獲取說話人確認操作的中間結(jié)果具體為媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā) 送獲取中間結(jié)果指示,指示所述媒體網(wǎng)關(guān)根據(jù)所述獲取中間結(jié)果指示獲取并上報當(dāng)前所執(zhí)行的說話人確認操作的中間結(jié)果。示例三、停止說話人確認操作具體為媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送停止確認 指示,指示所述媒體網(wǎng)關(guān)根據(jù)所述停止確認指示停止當(dāng)前所執(zhí)行的說話人確認操作。示例四、聲紋查詢的方法具體為媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送聲紋查詢指示, 所述聲紋查詢指示攜帶需要查詢的聲紋標識,并接收所述媒體網(wǎng)關(guān)返回的根據(jù)所述聲紋標 識獲取的查詢結(jié)果。示例五、聲紋刪除的方法具體為媒體網(wǎng)關(guān)控制器向所述媒體網(wǎng)關(guān)發(fā)送聲紋刪除 指示,所述聲紋刪除指示攜帶需要刪除的聲紋標識,并接收所述媒體網(wǎng)關(guān)返回的根據(jù)所述 聲紋標識獲取的刪除結(jié)果。示例六、確認回滾的方法具體為媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送確認回滾指示, 指示所述媒體網(wǎng)關(guān)根據(jù)所述確認回滾指示丟棄媒體網(wǎng)關(guān)最新收集的語音信息。示例七、緩存清理的方法具體為媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送緩存清理指示, 指示所述媒體網(wǎng)關(guān)根據(jù)所述緩存清理指示丟棄緩存的媒體數(shù)據(jù)。由于媒體網(wǎng)關(guān)控制器和媒體網(wǎng)關(guān)之間是指示與被指示的關(guān)系,媒體網(wǎng)關(guān)控制器向 媒體網(wǎng)關(guān)發(fā)送的說話人確認指示、獲取中間結(jié)果指示、停止確認指示、聲紋查詢指示、聲紋 刪除指示、確認回滾指示、緩存清理指示、建立說話人識別會話指示和終止說話人識別會話 指示等都可以為H. 248信號的格式,只需要修改H. 248信號內(nèi)攜帶的參數(shù)就可以實現(xiàn)。而 媒體網(wǎng)關(guān)發(fā)送的各種指示執(zhí)行相應(yīng)的操作,并向媒體網(wǎng)關(guān)控制器返回響應(yīng)消息。本實施例媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送攜帶的需要識別的語音信息的狀態(tài)的 說話人確認指示,指示媒體網(wǎng)關(guān)根據(jù)存儲的聲紋文件執(zhí)行說話人確認操作,接收媒體網(wǎng)關(guān) 上報的執(zhí)行說話人確認操作的結(jié)果,實現(xiàn)了在分離架構(gòu)下通過媒體網(wǎng)關(guān)控制協(xié)議進行說話 人識別,方便了各種聲紋文件資源的共享、維護與更新。圖4為本發(fā)明說話人識別方法第三實施例的信令流程圖,如圖4所示,在本發(fā)明說 話人識別方法第一實施例的基礎(chǔ)上,該說話人識別方法包括步驟301、媒體網(wǎng)關(guān)控制器MGC向媒體網(wǎng)關(guān)MG發(fā)送建立說話人識別會話指示,該說 話人識別會話指示可以通過擴展的H. 248信號實現(xiàn),以指示媒體網(wǎng)關(guān)創(chuàng)建說話人識別會話 例如說話人確認會話。該建立說話人識別會話指示可以攜帶在H. 248的ADD、MODIFY或 MOVE等指示消息中??梢詳U展一個H. 248信號指示MG創(chuàng)建說話人確認會話。例如將該H. 248信號命 名為“確認會話開始(Start Verification Session ;簡稱SVS) ”信號。該SVS信號的類 型可以設(shè)置為簡潔(Brief ;簡稱BR),即該SVS信號可以自動停止或被新的信號描述符替 代停止,BR類型的信號沒有期滿時間的限制。該SVS信號可以定義在現(xiàn)有的包中,或者定義 在一個新的包中,例如定義一個新包,命名為“說話人確認和辨認(Speaker Verification andldentification),,包。在該SVS信號中可以定義一些參數(shù),MGC向MC發(fā)送SVS信號時可以將SVS信號中 定義的參數(shù)同時下發(fā)給MG,通過這些參數(shù)指示MG進行建立說話人識別會話的操作。下面舉 例介紹SVS信號中可以攜帶的各種參數(shù)的定義方法。參數(shù)一儲存庫統(tǒng)一資源標識(UniformResource Identifier ;簡稱URI)儲存庫URI (Repository URI ;簡稱REURI)參數(shù),用以指示建立說話人確認會話所使用或參考的聲紋文件所在的儲存庫標識。REURI參數(shù)的類型是字符串型,取值可以是 URI格式,也可以其它用以標識資源信息的格式。參數(shù)二聲紋標識聲紋標識(Voic^print Identifier ;簡稱V0ID)參數(shù),用以表示進行說話人確認 操作的聲紋文件標識。所述聲紋文件用于在說話人識別會話中對說話人語音信息進行匹 配。VOID參數(shù)所指定的聲紋文件可以是已經(jīng)存在的聲紋文件,也可以是新創(chuàng)建的聲紋文件。 VOID參數(shù)的類型可以為字符串型。參數(shù)三確認模式確認模式(Verification Mode ;簡稱VEM0)參數(shù),用以表示確認操作的模式,包 括訓(xùn)練模式“Train”和確認模式“Verify”。其中,訓(xùn)練模式是指確認會話將會對某個聲紋 進行訓(xùn)練;確認模式是使用已經(jīng)存在的聲紋文件對說話人進行確認識別。VEMO參數(shù)的類型 可以是布爾型,取值“True”時表示訓(xùn)練模式,取值“False”表示確認模式。VEMO參數(shù)的類 型也可以是枚舉型,取值包括“Train”和“Verify”。參數(shù)四適配控制適配控制(Adapt Control ;簡稱ADC0)參數(shù),用以指定在確認操作成功之后是否 進行聲紋文件資源的更新。其中,ADCO參數(shù)取值為“True”,表示MG需要使用在確認會話中 收集到的語音信息更新對應(yīng)說話人的聲紋文件;取值為“False”,表示MG不允許更改聲紋 文件。ADCO參數(shù)的類型可以為布爾型。參數(shù)五最低確認評價最低確認評價(Minimum Verification Score ;簡稱MINVS)參數(shù),用以指定說話 人確認操作所能接受的最低成功條件。接受條件可以用數(shù)值表示,取值可以是從“-100”到 “100”之間。MINVS參數(shù)缺省的取值可以根據(jù)具體的實現(xiàn)決定。MINVS參數(shù)的類型可以為整 數(shù)型。參數(shù)六最小確認詞語數(shù)目最小確認詞語數(shù)目(MinimumNumber of Verification Phrases ;簡稱MINNVP) 參數(shù),用以指定說話人確認操作正確執(zhí)行所需要有效表達(詞匯)的最少數(shù)目。MINNVP參 數(shù)可以用數(shù)值表示,取值可以是任何整數(shù)。MINNVP參數(shù)缺省的取值為“1”。MINNVP參數(shù)的 類型可以為整數(shù)型。一個成功的說話人確認操作,MG接收和處理的有效表達數(shù)目需要滿足 該MINNVP參數(shù)的取值。參數(shù)七最大確認詞語數(shù)目最大確認詞語數(shù)目(MaximumNumber of Verification Phrases ;簡稱MAXNVP) 參數(shù),用以指定說話人確認操作必須執(zhí)行的有效表達(詞匯)的最大數(shù)目。當(dāng)MG接收和處 理的有效表達數(shù)目滿足該MAXNVP參數(shù)的取值時,MG需要向MGC反饋操作結(jié)果,并且不能是 “Undecided(未決)”。MAXNVP參數(shù)可以用數(shù)值表示,取值可以是任何整數(shù),最小值為“1”。 MAXNVP參數(shù)缺省的取值依賴于具體的實現(xiàn)。MAXNVP參數(shù)的類型可以為整數(shù)型。步驟302、媒體網(wǎng)關(guān)接收到該說話人識別會話指示例如SVS信號后根據(jù)該說話 人識別會話指示中攜帶的參數(shù)建立說話人識別會話,并向媒體網(wǎng)關(guān)控制器返回建立響應(yīng)消 息。同時媒體網(wǎng)關(guān)可以根據(jù)儲存庫URI (REURI)參數(shù)和聲紋標識(VOID)參數(shù)查找、獲取用 于進行說話人確認操作的聲紋文件。
步驟303、媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送說話人確認指示,該說話人確認指示可 以通過擴展的H. 248信號實現(xiàn),指示媒體網(wǎng)關(guān)執(zhí)行說話人識別操作例如說話人確認的操作。MGC可以指示MG對指定的語音信息例如語音片段進行說話人確認,或者是指示 MG接收說話人實時語音信息并進行說話人確認操作。在步驟303或者步驟301中,MGC可 以通過設(shè)置事件要求MG上報確認結(jié)果(VerificationResult)。本實施例中的信號指示及 事件指示可以攜帶在H. 248的MODIFY或MOVE等指示消息中??梢詳U展一個H. 248信號指示MG執(zhí)行說話人確認操作。通過該H. 248信號的執(zhí) 行,可以實現(xiàn)對聲紋文件的訓(xùn)練或適配,或者是確認或辨認某個聲明的身份。例如,將該 H. 248信號命名為“說話人確認(Speaker Verify ;簡稱SPVE) ”信號。該SPVE信號的類型 可以設(shè)置為BR。該SPVE信號可以定義在現(xiàn)有的包中,或者在定義一個新的包中,例如前 面定義的“說話人確認和辨認(Speaker Verification and Identification) ”包中。在該 SPVE信號中,可以定義一些參數(shù),MGC向MC發(fā)送SPVE信號可以將SPVE信號中定義的參數(shù) 同時下發(fā)給MG,通過這些參數(shù)指示MG進行說話人識別的操作。下面舉例介紹SPVE信號中 可以攜帶的各種參數(shù)的定義方法。參數(shù)一無輸入定時器無輸入定時器(No Input Timeout ;簡稱ΝΙΤ0)參數(shù),用以指定說話人確認操作 中無輸入數(shù)據(jù)的時長閾值條件,即定時器。輸入數(shù)據(jù)可以是用戶的語音信息。NITO參數(shù)可 以用數(shù)值表示,NITO參數(shù)的類型可以為整數(shù)型,取值單位可以為毫秒(milliseconds)。參數(shù)二 聲波保存聲波保存(Waveform Save ;簡稱WASA)參數(shù),用以指定MG是否對用于確認操作的 語音數(shù)據(jù)進行保存。其中,WASA參數(shù)的類型可以布爾型,WASA參數(shù)取值為“True”,表示MG 需要對語音數(shù)據(jù)進行保存;取值為“False”,表示MG不需要保存語音數(shù)據(jù)。如果MG對語音 數(shù)據(jù)進行保存,則數(shù)據(jù)可以用URI格式進行保存,并通過確認結(jié)果事件攜帶給MGC。參數(shù)三媒體類型媒體類型(Media Type ;簡稱METY)參數(shù),用以指定確認操作的音頻或視頻數(shù)據(jù) 的媒體類型。METY參數(shù)的類型可以是字符串型,該METY參數(shù)為可選參數(shù),媒體類型信息也 可以通過媒體保存文件的后綴名顯示。參數(shù)四表達緩存控制表達緩存控制(Buffer Utterance Control ;簡稱BUC0)參數(shù),用以指示當(dāng)前處 理的表達信息是否可以用于后續(xù)的確認操作,如果是,則需要將所述表達信息進行緩存。其 中,BUCO參數(shù)的類型可以為布爾型,BUCO參數(shù)取值為“True”,表示MG需要對表達信息相關(guān) 的語音數(shù)據(jù)進行緩存,以便用于后續(xù)的說話人確認操作;取值為“False”,表示MG不需要緩存。參數(shù)五輸入聲波URI輸入聲波URI (Input Waveform URI ;簡稱IWURI)參數(shù),用以指示MG確認操作需 要預(yù)取和處理的已保存音頻內(nèi)容的URI信息。MG根據(jù)該IWURI參數(shù)攜帶的URI對指定存儲 地址的數(shù)據(jù)進行預(yù)取和處理。如果確認會話的確認模式是“Train”,表示使用該IWURI參 數(shù)指定URI文件對聲紋文件進行訓(xùn)練;如果確認會話的確認模式是“Verify”,則表示使用IWURI參數(shù)指定URI文件進行聲紋確認。IWURI參數(shù)的類型可以為字符串型,取值可以是 URI格式,也可以其它用以標識資源信息的格式。IWURI參數(shù)為可選,如果MGC在信號中不 指定IWURI參數(shù),則表示對實時語音信息進行確認操作。參數(shù)六語音完成定時器語音完成定時器(Speech Complete Timeout ;簡稱SCT0)參數(shù),用以指定說話人 確認操作中說話人輸入語音所需要的靜音時長定時器。SCTO參數(shù)用數(shù)值表示,取值單位可 以是毫秒(milliseconds)。SCTO參數(shù)的類型可以為整數(shù)型,通常的取值為0. 3秒到1. 0秒 之間,以實際應(yīng)用為準。步驟304、MG接收到該說話人確認指示例如SPVE信號后,向媒體網(wǎng)關(guān)控制器返回 確認響應(yīng)消息。通過確認響應(yīng)消息告知MGC,MG已經(jīng)收到SPVE信號,可以開始進行說話人 確認操作。步驟305、MG接收或獲取需要識別的說話人語音信息,例如接收說話人通過終端 發(fā)送的實時語音信息,或查找指定存儲地址對應(yīng)的語音文件,并根據(jù)步驟301和步驟303獲 得的關(guān)于說話人確認的各種參數(shù),根據(jù)獲取的用于確認操作的聲紋文件和需要識別的語音 信息進行聲紋信息的匹配。步驟306、MG通過通報(Notify)請求消息向MGC上報說話人確認操作的執(zhí)行結(jié) 果。如果說話人確認操作失敗,則上報說話人確認操作失敗的結(jié)果;如果說話人確認操作成 功,則上報說話人確認操作成功的結(jié)果。在H. 248中,事件的檢測和上報需要對MG進行設(shè)置,設(shè)置的方法包括下發(fā)或預(yù)先 配置。為了使能MG上報說話人確認操作的結(jié)果,需要在MG上設(shè)置該事件,例如在前面步 驟301或303中進行事件的設(shè)置。事件可以設(shè)置到MG的根(ROOT)終端、某個特定的終端 或某個特定的流上,以表示事件檢測的不同適用范圍??梢詳U展一個H. 248事件,表示說話人確認操作執(zhí)行失敗。例如,將該H. 248事件 命名為“說話人確認失敗(Speaker Verification Failure ;簡稱SPFA) ”事件。該SPFA 事件可以定義在現(xiàn)有的包中,或者定義在一個新的包中,例如定義在前面所述的“說話人 確認和辨認(Speaker Verificationand Identification) ”包中。由 MGC 下發(fā)到 MG 時,該 SPFA事件可以不攜帶參數(shù);由MG上報到MGC時,該SPFA事件可以攜帶參數(shù),指示不同的錯 誤返回碼,表示不同的錯誤類型??梢栽贁U展一個H. 248事件,用以表示說話人確認操作成功,并通過定義參數(shù)的 方式攜帶操作的執(zhí)行結(jié)果。該H. 248事件所攜帶的確認結(jié)果,取決于事件上報的不同時機, 可以是說話人確認操作的中間結(jié)果,也可以是執(zhí)行操作完成的最終結(jié)果。例如,將該H. 248 事件命名為“說話人確認結(jié)果(Speaker Verification Results ;簡稱SPRE) ”事件。該 SPRE事件可以定義在現(xiàn)有的包中,或者定義在一個新的包中,例如前面定義的“說話人確 認和辨認(Speaker Verification and Identification),,包中。SPRE事件由MGC到MG下發(fā) 時可以不帶參數(shù);SPRE事件由MG到MGC上報時,可以攜帶參數(shù)來表示確認結(jié)果數(shù)據(jù)。其中, 說話人確認成功的結(jié)果有兩種可能的上報方式,一種方式是將確認識別結(jié)果作為一個整體 字符串上報,例如采用可擴展多通道注釋標記語言(Extensible MultiModal Annotation markup language ; Ml^ :EMMA)JrMfeiSip-Ig (Extensible Markup Language ; Ml^ XML)等的語法格式上報確認結(jié)果,這種方式中只需要定義一個事件參數(shù)。另一種方式是通過定義多個事件參數(shù)將訓(xùn)練結(jié)果的信息一一攜帶上報,下面舉例介紹SPRE事件中可以攜 帶的各種參數(shù)的定義方法。參數(shù)一聲紋標識聲紋標識(Voic^print Identifier ;簡稱V0ID)參數(shù),用以指定進行確認操作的 聲紋文件標識。VOID參數(shù)的類型可以為字符串。參數(shù)二結(jié)果類型結(jié)果類型(Score Type ;簡稱SCTY)參數(shù),用以表示確認匹配結(jié)果的不同類型,包 括新增(Incremental)和累計(Cumulative)兩種。SCTY參數(shù)類型可以為布爾型或枚舉型。參數(shù)三決策結(jié)果決策結(jié)果(Decision ;簡稱DE)參數(shù),用以表示確認匹配的結(jié)論,包括接受 (Acc印ted)、拒絕(Rejected)和未決(Undecided)三種。DE參數(shù)類型可以為枚舉型。參數(shù)四表達長度表達長度(Utterance Length ;簡稱UTLE)參數(shù),用以表示新增表達數(shù)據(jù)或累計 表達數(shù)據(jù)的長度值,UTLE參數(shù)的類型可以為整數(shù)型,單位為毫秒。參數(shù)五設(shè)備類型設(shè)備類型(Device Type ;簡稱DETY)參數(shù),用以表示說話人的設(shè)備類型信息,例 如蜂窩電話(Cellular Phone)、電介體電話(Electret Phone)、碳精按鈕電話(Carbon Button Phone)和未知(Unknown)等。DETY參數(shù)類型可以為枚舉型。參數(shù)六性別性別(Gender ;簡稱=GE)參數(shù),用以表示說話人的性別,包括男性(Male)、女性 (Female)和未知(Unknown)三種。GE參數(shù)類型可以為枚舉型。參數(shù)七適配類型適配類型(Adapt Type ;簡稱ADTY)參數(shù),用以表示聲紋文件是否根據(jù)表達數(shù)據(jù) 進行適配更新。ADTY參數(shù)類型可以為布爾型。參數(shù)八確認評價確認評價(Verification Score ;簡稱VS)參數(shù),用以指定說話人確認操作的匹 配評價值。VS參數(shù)的類型可以為整數(shù)型,取值可以是從“-100”到“100”之間。參數(shù)九設(shè)備商特定信息設(shè)備商特定信息(Vendor Specific Results ;簡稱VSRE)參數(shù),用以攜帶其它實 現(xiàn)相關(guān)的數(shù)據(jù)信息。VSRE參數(shù)的類型可以為字符串型。此外,在上報成功識別結(jié)果的同時,SPRE事件還可以攜帶如下參數(shù)參數(shù)十聲波保存聲波保存(Waveform Save ;簡稱WASA)參數(shù),用以攜帶所保存聲波文件的URI信 息。WASA參數(shù)的類型可以為字符串型。如果需要在事件中同時攜帶多個說話人確認結(jié)果,則可以將上述參數(shù)的類型設(shè)置 成列表的格式。例如,將參數(shù)一聲紋標識設(shè)置為字符串列表(Sub-list of String)格式, 其中可以攜帶一個或多個聲紋標識。這樣,事件中可能會同時包含多個聲紋標識,其它的參 數(shù)則同時攜帶對應(yīng)每個聲紋標識的識別結(jié)果。因此,聲紋標識參數(shù)是該事件中的關(guān)鍵參數(shù), 其它參數(shù)取值需要包含與該參數(shù)相同數(shù)目的條目。如果某個參數(shù)中特定的條目不適于對應(yīng)
14的聲紋標識,則需要將該條目賦值為空(NULL)。步驟307、媒體網(wǎng)關(guān)控制器接收媒體網(wǎng)關(guān)上報的說話人確認操作的結(jié)果的相關(guān)數(shù) 據(jù)后,向媒體網(wǎng)關(guān)發(fā)送結(jié)果響應(yīng)消息。該結(jié)果響應(yīng)消息用于表示媒體網(wǎng)關(guān)收到了媒體網(wǎng)關(guān) 控制器發(fā)送的說話人確認操作的結(jié)果。步驟308、媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送終止說話人識別會話指示,該終止識別 會話指示可以通過擴展的H. 248信號實現(xiàn),以指示媒體網(wǎng)關(guān)終止說話人識別會話??梢詳U展一個H. 248信號,用以指示MG終止說話人確認會話。例如,將該H. 248信 號命名為“確認會話終止(End Verification Session ;簡稱EVS) ”信號。該EVS信號的 類型可以設(shè)置為BR。該EVS信號可以定義在現(xiàn)有的包中,或者定義在一個新的包中,例如 前面定義的“說話人確認和辨認(Speaker Verification and Identification) ”包中。在 該EVS信號中,可以定義一些參數(shù),MGC向MC發(fā)送EVS信號可以將EVS信號中定義的參數(shù) 同時下發(fā)給MG,通過這些參數(shù)指示MG進行終止說話人確認會話。EVS信號中可以攜帶的參 數(shù)例如中止控制(Abort Control ;簡稱ABC0)參數(shù),用以指定在確認會話終止時聲紋信 息的操作行為。其中,ABCO參數(shù)的類型是布爾型,ABCO參數(shù)取值為“True”,表示MG需要丟 失在確認會話中收集到的或正在處理的語音信息;ABCO參數(shù)取值為“False”,則表示MG保 存當(dāng)前確認會話中收集到的語音信息以及對聲紋文件的修改操作。步驟309、媒體網(wǎng)關(guān)接收到該終止說話人識別會話指示例如EVS信號后,根據(jù)終 止說話人識別會話指示攜帶的參數(shù)終止說話人識別會話,并向媒體網(wǎng)關(guān)控制器返回終止響 應(yīng)消息。在本實施例中說話人識別方法的基本流程的基礎(chǔ)上,可以對各個信號和事件進行 進一步的擴展定義,以支持MGC和MG需要具體實現(xiàn)的說話人確認和辨認的功能。本實施例定義擴展的H. 248信號中的各種參數(shù),媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送 由H. 248信號表示的說話人確認指示;媒體網(wǎng)關(guān)根據(jù)說話人確認指示中的參數(shù)獲取需要識 別的語音信息,并根據(jù)存儲的聲紋文件對所述語音信息進行聲紋的匹配;然后媒體網(wǎng)關(guān)采 用定義的H. 248事件上報匹配結(jié)果,可以實現(xiàn)在分離架構(gòu)下通過媒體網(wǎng)關(guān)控制協(xié)議進行說 話人識別,采用分離架構(gòu)進行說話人識別時,各種聲紋文件資源的共享、維護與更新方便。圖5為本發(fā)明說話人識別方法第四實施例的信令流程圖,如圖5所示,在本發(fā)明說 話人識別方法第一、二實施例的基礎(chǔ)上,該說話人識別方法還可以包括步驟401、媒體網(wǎng)關(guān)控制器MGC向媒體網(wǎng)關(guān)MG下發(fā)聲紋查詢指示,該聲紋查詢指 示可以通過擴展的H. 248信號實現(xiàn)。該聲紋查詢指示可以攜帶在H. 248的ADD、MODIFY或 MOVE等指示消息中??梢詳U展一個H. 248信號,用以指示媒體網(wǎng)關(guān)MG進行聲紋查詢操作。例如,將該 H. 248信號命名為“聲紋查詢(Voic^print Query ;簡稱V0QU) ”信號。該VOQU信號的類型 可以設(shè)置為BR。該VOQU信號可以定義在現(xiàn)有的包中,或者定義在一個新的包中,例如“說 話人石角認禾口辨認(SpeakerVerification and Identificationn在VOQU信號中,可以定義一些參數(shù),MGC向MC發(fā)送VOQU信號時可以將VOQU信號 中定義的參數(shù),通過這些參數(shù)指示MG進行聲紋查詢操作,下面舉例介紹VOQU信號中可以攜 帶的各種參數(shù)的定義方法
參數(shù)一儲存庫URI儲存庫URI (Repository URI ;簡稱REURI)參數(shù),用以指示需要查詢的聲紋文件 所在的儲存庫標識。REURI參數(shù)的類型可以為字符串型,取值可以是URI格式,也可以其它 用以標識資源信息的格式。參數(shù)二聲紋標識聲紋標識(Voic^print Identifier ;簡稱V0ID)參數(shù),用以指定所查詢聲紋文件 標識。VOID參數(shù)的類型可以為字符串型。參數(shù)三聲紋存在聲紋存在(Voic^print Exists ;簡稱V0EX)參數(shù),用以指示需要查詢的聲紋文件 是否存在。VOEX參數(shù)的類型可以是布爾型,取值“True”表示存在,取值“False”表示不存 在。當(dāng)MGC向MG發(fā)送聲紋查詢指示時,該VOEX參數(shù)的取值可以是通配符“$”;MG在響應(yīng)消 息中可以通過對該VOEX參數(shù)的賦值來向MGC通知查詢結(jié)果。步驟402、媒體網(wǎng)關(guān)接收到該聲紋查詢指示后,例如V0QU信號后,向媒體網(wǎng)關(guān)控 制器返回查詢響應(yīng)消息,在查詢響應(yīng)消息可以通過對聲紋存在參數(shù)例如=VOEX參數(shù)的賦值 攜帶查詢結(jié)果。其中,媒體網(wǎng)關(guān)根據(jù)儲存庫URI可以查找到聲紋文件所在的儲存庫標識,根 據(jù)聲紋標識可以查找到需要的聲紋文件。如果需要的聲紋文件存在,則VOEX參數(shù)取值為 “True”,如果需要的聲紋文件不存在,VOEX參數(shù)取值為“False”。本實施例定義擴展的H. 248信號中的各種參數(shù),媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送 由H. 248信號表示的聲紋查詢指示;媒體網(wǎng)關(guān)根據(jù)聲紋查詢指示中的參數(shù)查詢需要的聲紋 文件,實現(xiàn)了在分離架構(gòu)下通過媒體網(wǎng)關(guān)控制協(xié)議進行聲紋查詢,采用分離架構(gòu)進行說話 人識別可以方便各種聲紋文件資源的共享、維護與更新。圖6為本發(fā)明說話人識別方法第五實施例的信令流程圖,如圖6所示,在本發(fā)明說 話人識別方法第一、二實施例的基礎(chǔ)上,該說話人識別方法還可以包括步驟501、媒體網(wǎng)關(guān)控制器MGC向媒體網(wǎng)關(guān)MG發(fā)送聲紋刪除指示,該聲紋刪除指 示可以通過擴展的H. 248信號實現(xiàn)。該聲紋刪除指示可以攜帶在H. 248的ADD、MODIFY或 MOVE等指示消息中??梢詳U展一個H. 248信號,用以指示媒體網(wǎng)關(guān)MG進行聲紋刪除操作。例如,將該 H. 248信號命名為“聲紋刪除(Voic^print Delete ;簡稱V0DE) ”信號。該VODE信號的類 型可以設(shè)置為BR。該VODE信號可以定義在現(xiàn)有的包中,或者定義在一個新的包中,例如 前面定義的“說話人確認和辨認(SpeakerVerification and Identif ication) ”包。在VODE信號中,可以定義一些參數(shù),MGC向MC發(fā)送VODE信號時可以將VODE信號 中定義的參數(shù),通過這些參數(shù)指示MG進行聲紋刪除操作,下面舉例介紹VODE信號中可以攜 帶的各種參數(shù)的定義方法。參數(shù)一儲存庫URI儲存庫URI (Itepository URI ;簡稱REURI)參數(shù),用以指示需要刪除聲紋文件的 儲存庫標識。REURI參數(shù)的類型可以為字符串型,取值可以是URI格式,也可以其它用以標 識資源信息的格式。參數(shù)二聲紋標識聲紋標識(Voic^print Identifier ;簡稱V0ID)參數(shù),用以指定所刪除聲紋文件標識。VOID參數(shù)的類型可以為字符串型。參數(shù)三聲紋存在聲紋存在(Voic^print Exists ;簡稱V0EX)參數(shù),用以指示需要刪除的聲紋文件 在刪除操作開始前是否存在。VOEX參數(shù)的類型可以是布爾型,取值“True”表示存在,取值 “False”表示不存在。當(dāng)MGC向MG發(fā)送聲紋刪除指示時,該VOEX參數(shù)的取值可以是通配符 “$” ;MG在響應(yīng)消息可以中通過對該VOEX參數(shù)的賦值來向MGC通知刪除結(jié)果。步驟502、媒體網(wǎng)關(guān)接收到該聲紋刪除指示,例如V0DE信號后,向媒體網(wǎng)關(guān)控制 器返回刪除響應(yīng)消息,在刪除響應(yīng)消息中通過對聲紋存在參數(shù)例如VOEX參數(shù)的賦值攜帶 刪除結(jié)果。其中,媒體網(wǎng)關(guān)根據(jù)儲存庫URI可以查找到聲紋文件所在的儲存庫標識,根據(jù)聲 紋標識可以查找到需要的聲紋文件。如果需要的聲紋文件在刪除操作開始前存在,則VOEX 參數(shù)取值為“True”,在刪除操作開始前不存在,VOEX參數(shù)取值為“False”。本實施例中定義擴展的H. 248信號中的各種參數(shù),媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā) 送由H. 248信號表示的聲紋刪除指示;媒體網(wǎng)關(guān)根據(jù)聲紋刪除指示中的參數(shù)刪除指定的聲 紋文件,實現(xiàn)了在分離架構(gòu)下通過媒體網(wǎng)關(guān)控制協(xié)議的控制進行聲紋文件的刪除,采用分 離架構(gòu)進行說話人識別可以方便各種聲紋文件資源的共享、維護與更新。除了本發(fā)明說話人識別方法第四、第五實施例中介紹的聲紋查詢、聲紋刪除的方 法之外,該說話人識別方法中還可以包括緩存確認的方法,具體地MGC向MG發(fā)送的緩存 確認指示可以通過定義一種擴展的H. 248信號實現(xiàn),例如將H. 248信號命名為緩存確認 (Verify from Buffer ;簡稱VEBU)信號。媒體網(wǎng)關(guān)控制器采用VEBU信號可以指示媒體網(wǎng) 關(guān)對媒體網(wǎng)關(guān)的緩存中存放的語音信息進行說話人識別例如說話人確認的操作。該VEBU 信號的類型可以設(shè)置為BR。該VEBU信號可以定義在現(xiàn)有的包中,或者定義在一個新的包 中,例如前面定義的“說話人確認和辨認(Speaker Verificationand Identification)” 包。媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)下發(fā)的VEBU信號不需要攜帶參數(shù)。此外,該說話人識別方法中還可以包括確認回滾的方法,具體地MGC向MG發(fā)送的 確認回滾指示可以通過定義一種擴展的H. 248信號實現(xiàn),例如將H. 248信號命名為確認回 滾(Verification Rollback ;簡稱VER0)信號。媒體網(wǎng)關(guān)控制器采用VERO信號可以指示 媒體網(wǎng)關(guān)丟棄媒體網(wǎng)關(guān)最新收集的語音信息例如表達(Utterance)數(shù)據(jù)。該VERO信號的 類型可以設(shè)置為BR。該VODE信號可以定義在現(xiàn)有的包中,或者定義在一個新的包中,例如 前面定義的“說話人確認和辨認(Speaker Verification and Identification) ”包。媒體 網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)下發(fā)的VERO信號不需要攜帶參數(shù)。進一步地,該說話人識別方法中還可以包括緩存清理的方法,具體地MGC向MG發(fā) 送的緩存清理指示可以通過定義一種擴展的H. 248信號實現(xiàn),例如將H. 248信號命名為緩 存清理(Clear Buffer ;簡稱CLBU)信號。媒體網(wǎng)關(guān)控制器采用CLBU信號可以指示媒體網(wǎng) 關(guān)對當(dāng)前的緩存空間進行清理,即丟棄當(dāng)前緩存的內(nèi)容數(shù)據(jù)。該CLBU信號的類型可以設(shè)置 為BR。該CLBU信號可以定義在現(xiàn)有的包中,或者定義在一個新的包中,例如前面定義的 “說話人確認和辨認(Speaker Verification and Identification) ”包。媒體網(wǎng)關(guān)控制器 向媒體網(wǎng)關(guān)下發(fā)的CLBU信號不需要攜帶參數(shù)。進一步地,該說話人識別方法中還可以包括獲取說話人確認操作的中間結(jié)果的方 法,具體地MGC向MG發(fā)送的獲取中間結(jié)果指示可以通過定義一種擴展的H. 248信號實現(xiàn),例如將H. 248信號命名為獲取中間結(jié)果(Getlntermediate Result ;簡稱=GIR)信號。媒 體網(wǎng)關(guān)控制器采用GIR信號可以指示媒體網(wǎng)關(guān)向媒體網(wǎng)關(guān)控制返回當(dāng)前執(zhí)行說話人確認 操作的中間結(jié)果。這個中間結(jié)果可能只是一個聲紋匹配的過程數(shù)據(jù)。該GIR信號的類型可 以設(shè)置為BR。該GIR信號可以定義在現(xiàn)有的包中,或者定義在一個新的包中,例如前面定 義的“說話人確認和辨認(Speaker Verification andldentification) ”包。媒體網(wǎng)關(guān)控 制器向媒體網(wǎng)關(guān)下發(fā)的該GIR信號可以攜帶媒體網(wǎng)關(guān)控制器希望獲知信息對應(yīng)的信號參 數(shù)。參數(shù)的設(shè)置可以與前面確認結(jié)果事件的參數(shù)一致,例如可以包括聲紋標識、結(jié)果類型、 決策結(jié)果、表達長度、設(shè)備類型、性別、適配類型等參數(shù)。參數(shù)下發(fā)時可以賦值為“$”,媒體網(wǎng) 關(guān)在響應(yīng)消息攜帶結(jié)果信息給媒體網(wǎng)關(guān)控制器。另外,該信號的實現(xiàn)方法還可以是信號中 不攜帶任何信號參數(shù);當(dāng)媒體網(wǎng)關(guān)收到該信號時,觸發(fā)上述“說話人確認結(jié)果”事件,即獲取 當(dāng)前說話人確認操作的結(jié)果,并通過該事件上報結(jié)果給媒體網(wǎng)關(guān)控制器。進一步地,該說話人識別方法中還可以包括停止當(dāng)前的說話人確認操作的方法, 具體地向MG發(fā)送的停止確認指示可以通過定義一個擴展的H. 248信號實現(xiàn),用以指示MG 停止當(dāng)前的說話人確認操作。例如,將該H. 248信號命名為“停止確認(Stop Verify ;簡稱 STVE)”信號。該STVE信號的類型可以設(shè)置為BR。該STVE信號可以定義在現(xiàn)有的包中,或 者定義在一個新的包中,例如前面定義的“說話人確認和辨認(Speaker Verificationand Identification) ”包中。與前面終止說話人確認會話信號不同,停止確認信號是停止所執(zhí) 行的當(dāng)前的說話人確認操作,但不釋放識別資源,而終止說話人確認會話則是釋放識別會 話資源。在該STVE信號中,可以定義一些參數(shù),MGC向MC發(fā)送STVE信號可以將STVE信號 中定義的參數(shù)同時下發(fā)給MG,通過這些參數(shù)指示MG停止進行中的說話人確認操作。STVE 信號中可以攜帶的參數(shù)例如中止確認(Abort Verification ;簡稱ABVE)參數(shù),用以指定 在停止確認操作時是否上報當(dāng)前確認操作的結(jié)果。其中,ABVE參數(shù)的類型是布爾型,ABVE 參數(shù)取值為“True”,表示MG應(yīng)該丟棄當(dāng)前說話人確認操作的執(zhí)行結(jié)果;ABVE參數(shù)取值為 “False”,則表示MG需要將當(dāng)前說話人確認操作的執(zhí)行結(jié)果上報給MGC。媒體網(wǎng)關(guān)接收到 該停止確認指示例如=STVE信號后,停止當(dāng)前的說話人識別操作,并向媒體網(wǎng)關(guān)控制器返 回停止響應(yīng)消息。如果ABVE參數(shù)的取值為“False”,則MG觸發(fā)前面所述的“說話人確認結(jié) 果”事件,即獲取當(dāng)前說話人確認操作的結(jié)果,并通過該事件上報結(jié)果給媒體網(wǎng)關(guān)控制器。本發(fā)明實施例中通過擴展的H. 248信號表示緩存確認指示、獲取中間結(jié)果指示、 停止確認指示、確認回滾指示、緩存清理指示等,媒體網(wǎng)關(guān)控制器向媒體網(wǎng)關(guān)發(fā)送H. 248信 號,可以實現(xiàn)在分離架構(gòu)下通過說話人確認過程中的緩存確認、獲取中間結(jié)果、停止確認、 確認回滾、緩存清理等操作,方便了各種聲紋文件資源的共享、維護與更新。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述方法實施例的全部或部分步驟可以通過 程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序 在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括R0M、RAM、磁碟或者 光盤等各種可以存儲程序代碼的介質(zhì)。圖7為本發(fā)明媒體網(wǎng)關(guān)實施例的結(jié)構(gòu)示意圖,如圖7所示,該媒體網(wǎng)關(guān)包括第一 接收模塊71、確認模塊72和上報模塊73。其中第一接收模塊71用于接收媒體網(wǎng)關(guān)控制器 發(fā)送的說話人確認指示,所述說話人確認指示攜帶需要識別的語音信息的狀態(tài)。確認模塊 72用于根據(jù)所述說話人確認指示執(zhí)行說話人確認操作,并獲取說話人確認操作的結(jié)果。上報模塊73用于將所述說話人確認操作的結(jié)果上報至所述媒體網(wǎng)關(guān)控制器。具體地,采用媒體網(wǎng)關(guān)控制協(xié)議例如H. 248進行說話人識別時,媒體網(wǎng)關(guān)的第一 接收模塊71接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示后,確認模塊72根據(jù)所述說話人 確認指示執(zhí)行說話人確認操作,并獲取說話人確認操作的結(jié)果。如果媒體網(wǎng)關(guān)控制器下發(fā) 的說話人確認指示攜帶了一段指定的語音信息的存儲地址,確認模塊72可以從該存儲地 址獲取需要識別的語音信息;如果說話人確認指示媒體網(wǎng)關(guān)接收說話人實時語音信息的指 示,確認模塊72可以接收說話人實時的語音信息。然后確認模塊72執(zhí)行說話人確認的操 作,例如根據(jù)媒體網(wǎng)關(guān)上之前存儲的聲紋文件對所述語音信息進行聲紋的匹配,上報模塊 73將說話人確認的操作的結(jié)果上報至所述媒體網(wǎng)關(guān)控制器。其中第一接收模塊、確認模塊 和上報模塊進行說話人識別的具體方法,可以參照本發(fā)明說話人識別方法第一、第二實施 例中的相關(guān)描述。進一步地,該媒體網(wǎng)關(guān)還可以包括第一建立會話模塊、調(diào)用模塊。其中第一建立會 話模塊用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的建立說話人確認會話指示,所述建立說話人確 認會話指示攜帶用于說話人確認操作的聲紋標識。調(diào)用模塊用于根據(jù)所述建立說話人確認 會話指示建立說話人識別會話,并獲取所述聲紋標識對應(yīng)的聲紋文件。在第一接收模塊71 接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示之前,第一建立會話模塊可以接收所述媒體網(wǎng) 關(guān)控制器發(fā)送的建立說話人識別會話指示,調(diào)用模塊根據(jù)所述建立說話人識別會話指示建 立說話人識別會話,并可以根據(jù)建立說話人識別會話指示中攜帶的聲紋標識查找并調(diào)用聲 紋標識對應(yīng)的聲紋文件,如果建立說話人識別會話指示中攜帶存儲庫標識,則可以存儲庫 標識對應(yīng)的聲紋文件存儲庫中查找聲紋標識對應(yīng)的聲紋文件。使確認模塊72可以根據(jù)該 聲紋文件對需要識別的語音信息進行聲紋的匹配。該媒體網(wǎng)關(guān)還可以包括第一終止會話模塊、終止響應(yīng)模塊。其中第一終止會話模 塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的終止說話人確認會話指示。終止響應(yīng)模塊將根據(jù) 所述終止說話人確認會話指示,終止說話人確認會話,并向所述媒體網(wǎng)關(guān)控制器返回終止 響應(yīng)消息。其中第一建立會話模塊、調(diào)用模塊、第一終止會話模塊、終止響應(yīng)模塊建立、終止 聲紋會話連接的具體方法,可以參照本發(fā)明說話人識別方法第一、第三實施例中的相關(guān)描 述。此外,當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)對的緩存中的語音信息進行說話人確 認操作時,媒體網(wǎng)關(guān)可以包括第一緩存確認模塊。第一緩存確認模塊用于接收所述媒體網(wǎng) 關(guān)控制器發(fā)送的緩存確認指示,根據(jù)所述緩存確認指示對媒體網(wǎng)關(guān)的緩存中存放的語音信 息進行說話人確認操作。當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)獲取說話人確認操作的中間結(jié)果時,媒體網(wǎng) 關(guān)可以包括第一中間結(jié)果模塊。第一中間結(jié)果模塊用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的 獲取中間結(jié)果指示,根據(jù)所述獲取中間結(jié)果指示獲取并上報當(dāng)前所執(zhí)行的說話人確認操作 的中間結(jié)果。當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)進行停止說話人確認操作時,媒體網(wǎng)關(guān)可以 包括第一停止確認模塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的停止確認指示,根據(jù)所述停 止確認指示停止當(dāng)前所執(zhí)行的說話人確認操作;當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)進行聲紋文件的查詢時,媒體網(wǎng)關(guān)還可以包
19括第一查詢指示模塊。其中第一查詢指示模塊用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的聲紋查 詢指示,所述聲紋查詢指示攜帶需要查詢的聲紋標識,并向所述媒體網(wǎng)關(guān)控制器返回根據(jù) 所述聲紋標識獲取的查詢結(jié)果。查詢操作結(jié)束后,媒體網(wǎng)關(guān)可以向媒體網(wǎng)關(guān)控制器返回查 詢響應(yīng)消息,告知媒體網(wǎng)關(guān)控制器查詢結(jié)果。其中第一查詢指示模塊進行聲紋查詢的具體 方法,可以參照本發(fā)明說話人識別方法第一、第三、第四實施例中的相關(guān)描述。當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)進行聲紋文件的刪除時,媒體網(wǎng)關(guān)還可以包 括第一刪除指示模塊。其中第一刪除指示模塊用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的聲紋刪 除指示,所述聲紋刪除指示攜帶需要刪除的聲紋標識,并向所述媒體網(wǎng)關(guān)控制器返回刪除 結(jié)果。刪除操作結(jié)束后,媒體網(wǎng)關(guān)可以向媒體網(wǎng)關(guān)控制器返回刪除響應(yīng)消息,告知媒體網(wǎng)關(guān) 控制器刪除結(jié)果。其中第一刪除指示模塊進行聲紋刪除的具體方法,可以參照本發(fā)明說話 人識別方法第一、第三、第五實施例中的相關(guān)描述。當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)進行確認回滾時,媒體網(wǎng)關(guān)還可以包括第 一確認回滾模塊。第一確認回滾模塊用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的確認回滾指示, 根據(jù)所述確認回滾指示丟棄媒體網(wǎng)關(guān)最新收集的語音信息。當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)緩存清理時,媒體網(wǎng)關(guān)還可以包括第一緩 存清理模塊。第一緩存清理模塊用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的緩存清理指示,根據(jù) 所述緩存清理指示丟棄緩存的媒體數(shù)據(jù)。本實施例媒體網(wǎng)關(guān)的第一接收模塊接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示, 確認模塊根據(jù)說話人識別指進行說話人確認操作,上報模塊將說話人確認操作的結(jié)果上報 至媒體網(wǎng)關(guān)控制器,可以實現(xiàn)在分離架構(gòu)下通過媒體網(wǎng)關(guān)控制協(xié)議的控制進行說話人識 別,采用分離架構(gòu)進行說話人識別可以方便各種聲紋文件資源的共享、維護與更新。圖8為本發(fā)明媒體網(wǎng)關(guān)控制器實施例的結(jié)構(gòu)示意圖,如圖8所示,該媒體網(wǎng)關(guān)控制 器包括第一發(fā)送模塊81和第二接收模塊82。其中第一發(fā)送模塊81用于向媒體網(wǎng)關(guān)發(fā)送 說話人確認指示。第二接收模塊82用于接收所述媒體網(wǎng)關(guān)上報的根據(jù)所述說話人確認指 示獲取的說話人確認操作的結(jié)果。具體地,采用媒體網(wǎng)關(guān)控制協(xié)議例如H. 248進行說話人識別時,媒體網(wǎng)關(guān)控制器 的第一發(fā)送模塊81向媒體網(wǎng)關(guān)發(fā)送說話人確認指示,媒體網(wǎng)關(guān)根據(jù)說話人確認指示執(zhí)行 說話人確認操作,并獲取說話人確認操作的結(jié)果,第二接收模塊82接收媒體網(wǎng)關(guān)上報的話 人確認操作的結(jié)果。進一步地,該媒體網(wǎng)關(guān)控制器可以包括第二建立會話模塊,用于向所述媒體網(wǎng)關(guān) 發(fā)送建立說話人確認會話指示,所述建立說話人確認會話指示攜帶用于說話人確認操作的 聲紋標識。該媒體網(wǎng)關(guān)控制器還可以包括第二終止會話模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送終 止說話人確認會話指示,并接收所述媒體網(wǎng)關(guān)返回的終止響應(yīng)消息。其中第二建立會話模 塊、第二終止會話模塊指示媒體網(wǎng)關(guān)建立、終止聲紋會話連接進行說話人識別的具體方法, 可以參照本發(fā)明說話人識別方法第二、第三實施例中的相關(guān)描述。此外,當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)對的緩存中的語音信息進行說話人確 認操作時,媒體網(wǎng)關(guān)控制器可以包括第二緩存確認模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送緩存確 認指示,指示所述媒體網(wǎng)關(guān)根據(jù)所述緩存確認指示對媒體網(wǎng)關(guān)的緩存中存放的語音信息進 行說話人確認操作。
當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)獲取說話人確認操作的中間結(jié)果時,媒體網(wǎng) 關(guān)控制器可以包括第二中間結(jié)果模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送獲取中間結(jié)果指示,指示 所述媒體網(wǎng)關(guān)根據(jù)所述獲取中間結(jié)果指示獲取并上報當(dāng)前所執(zhí)行的說話人確認操作的中 間結(jié)果。當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)進行停止說話人確認操作時,媒體網(wǎng)關(guān)控制 器可以包括第二停止確認模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送停止確認指示,指示所述媒體網(wǎng) 關(guān)根據(jù)所述停止確認指示停止當(dāng)前所執(zhí)行的說話人確認操作。當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)進行聲紋文件的查詢時,該媒體網(wǎng)關(guān)控制器 還可以包括第二查詢指示模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送聲紋查詢指示,所述聲紋查詢指 示攜帶需要查詢的聲紋標識,并接收所述媒體網(wǎng)關(guān)返回的根據(jù)所述聲紋標識獲取的查詢結(jié) 果。其中第二查詢指示模塊指示媒體網(wǎng)關(guān)進行聲紋查詢的具體方法,可以參照本發(fā)明說話 人識別方法第二、第三、第四實施例中的相關(guān)描述。當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)進行聲紋文件的刪除時,該媒體網(wǎng)關(guān)控制器 還可以包括第二刪除指示模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送聲紋刪除指示,所述聲紋刪除指 示攜帶需要刪除的聲紋標識,并接收所述媒體網(wǎng)關(guān)返回的根據(jù)所述聲紋標識獲取的刪除結(jié) 果。其中第二刪除指示模塊指示媒體網(wǎng)關(guān)進行聲紋刪除的具體方法,可以參照本發(fā)明說話 人識別方法第二、第三、第五實施例中的相關(guān)描述。當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)進行確認回滾時,媒體網(wǎng)關(guān)控制器還可以包 括第二確認回滾模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送確認回滾指示,指示所述媒體網(wǎng)關(guān)根據(jù)所 述確認回滾指示丟棄媒體網(wǎng)關(guān)最新收集的語音信息。當(dāng)媒體網(wǎng)關(guān)控制器需要指示媒體網(wǎng)關(guān)緩存清理時,媒體網(wǎng)關(guān)控制器還可以包括 第二緩存清理模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送緩存清理指示,指示所述媒體網(wǎng)關(guān)根據(jù)所述 緩存清理指示丟棄緩存的媒體數(shù)據(jù)。本實施例媒體網(wǎng)關(guān)控制器的第一發(fā)送模塊向媒體網(wǎng)關(guān)發(fā)送說話人確認指示,指示 媒體網(wǎng)關(guān)獲取對語音信息進行說話人確認操作,第二接收模塊接收媒體網(wǎng)關(guān)上報的說話人 確認操作的結(jié)果,可以實現(xiàn)在分離架構(gòu)下通過媒體網(wǎng)關(guān)控制協(xié)議進行說話人識別,采用分 離架構(gòu)進行說話人識別可以方便各種聲紋文件資源的共享、維護與更新。圖9為本發(fā)明說話人識別系統(tǒng)實施例的結(jié)構(gòu)示意圖,如圖9所示,該說話人識別系 統(tǒng)包括媒體網(wǎng)關(guān)91和媒體網(wǎng)關(guān)控制器92。其中媒體網(wǎng)關(guān)91用于接收媒體網(wǎng)關(guān)控制器發(fā) 送的說話人確認指示;根據(jù)所述說話人確認指示執(zhí)行說話人確認操作,并獲取說話人確認 操作的結(jié)果;將所述說話人確認操作的結(jié)果上報至所述媒體網(wǎng)關(guān)控制器。媒體網(wǎng)關(guān)控制器 92用于向媒體網(wǎng)關(guān)發(fā)送說話人確認指示;接收所述媒體網(wǎng)關(guān)上報的根據(jù)所述說話人確認 指示獲取的說話人確認操作的結(jié)果。具體地,采用媒體網(wǎng)關(guān)控制協(xié)議例如H. 248進行說話人識別時,媒體網(wǎng)關(guān)91接收 媒體網(wǎng)關(guān)控制器92發(fā)送說話人確認指示,根據(jù)所述說話人確認指示可以對語音信息執(zhí)行 說話人確認的操作。其中,如果媒體網(wǎng)關(guān)控制器92下發(fā)的說話人確認指示包括為一段指 定的語音信息的存儲地址,媒體網(wǎng)關(guān)91可以從該存儲地址獲取需要識別的語音信息;如果 說話人確認指示為接收說話人實時語音信息的指示,媒體網(wǎng)關(guān)91可以接收說話人實時的 語音信息。然后媒體網(wǎng)關(guān)91可以根據(jù)存儲的聲紋文件對獲取的語音信息進行聲紋的匹配,執(zhí)行說話人確認的操作,并將說話人確認操作的結(jié)果上報至媒體網(wǎng)關(guān)控制器92。媒體網(wǎng)關(guān) 91可以通過通報(Notify)請求消息向媒體網(wǎng)關(guān)控制器92上報說話人確認操作的結(jié)果,說 話人確認操作的結(jié)果中可以包括匹配是否成功、匹配的相似程度以及說話人相關(guān)資料等信 息。該上報的過程可以通過事件來實現(xiàn)。本實施例中的媒體網(wǎng)關(guān)91和媒體網(wǎng)關(guān)控制器92可以采用上述的媒體網(wǎng)關(guān)和媒體 網(wǎng)關(guān)控制器實施例中的任意一種媒體網(wǎng)關(guān)和媒體網(wǎng)關(guān)控制器。媒體網(wǎng)關(guān)、媒體網(wǎng)關(guān)控制器 進行說話人識別的具體方法可以參照本發(fā)明說話人識別方法第一、第二、第三實施例中的 相關(guān)描述。本實施例媒體網(wǎng)關(guān)根據(jù)媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示,根據(jù)存儲的聲紋 文件對語音信息進行說話人確認的操作,然后將說話人確認操作的結(jié)果上報至媒體網(wǎng)關(guān)控 制器,在分離架構(gòu)下通過媒體網(wǎng)關(guān)控制協(xié)議的控制實現(xiàn)說話人識別,采用分離架構(gòu)進行說 話人識別可以方便各種聲紋文件資源的共享、維護與更新。最后應(yīng)說明的是以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡 管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解其依然 可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替 換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。
權(quán)利要求
一種說話人識別方法,其特征在于,包括接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示;根據(jù)所述說話人確認指示執(zhí)行說話人確認操作,并獲取說話人確認操作的結(jié)果;將所述說話人確認操作的結(jié)果上報至所述媒體網(wǎng)關(guān)控制器。
2.根據(jù)權(quán)利要求1所述的說話人識別方法,其特征在于,所述接收媒體網(wǎng)關(guān)控制器發(fā) 送的說話人確認指示之前包括接收所述媒體網(wǎng)關(guān)控制器發(fā)送的建立說話人確認會話指示,所述建立說話人確認會話 指示攜帶用于說話人確認操作的聲紋標識;根據(jù)所述建立說話人確認會話指示建立說話人識別會話,并獲取所述聲紋標識對應(yīng)的 聲紋文件。
3.根據(jù)權(quán)利要求2所述的說話人識別方法,其特征在于,所述將所述說話人確認操作 的結(jié)果上報至所述媒體網(wǎng)關(guān)控制器之后包括接收所述媒體網(wǎng)關(guān)控制器發(fā)送的終止說話人確認會話指示;根據(jù)所述終止說話人確認會話指示,終止說話人確認會話,并向所述媒體網(wǎng)關(guān)控制器 返回終止響應(yīng)消息。
4.根據(jù)權(quán)利要求1-3所述的說話人識別方法,其特征在于,進一步包括接收所述媒體網(wǎng)關(guān)控制器發(fā)送的緩存確認指示,根據(jù)所述緩存確認指示對媒體網(wǎng)關(guān)的 緩存中存放的語音信息進行說話人確認操作;或接收所述媒體網(wǎng)關(guān)控制器發(fā)送的獲取中間結(jié)果指示,根據(jù)所述獲取中間結(jié)果指示獲取 并上報當(dāng)前所執(zhí)行的說話人確認操作的中間結(jié)果;或接收所述媒體網(wǎng)關(guān)控制器發(fā)送的停止確認指示,根據(jù)所述停止確認指示停止當(dāng)前所執(zhí) 行的說話人確認操作;或接收所述媒體網(wǎng)關(guān)控制器發(fā)送的聲紋查詢指示,所述聲紋查詢指示攜帶需要查詢的聲 紋標識,并向所述媒體網(wǎng)關(guān)控制器返回根據(jù)所述聲紋標識獲取的查詢結(jié)果;或接收所述媒體網(wǎng)關(guān)控制器發(fā)送的聲紋刪除指示,所述聲紋刪除指示攜帶需要刪除的聲 紋標識,并向所述媒體網(wǎng)關(guān)控制器返回刪除結(jié)果;或接收所述媒體網(wǎng)關(guān)控制器發(fā)送的確認回滾指示,根據(jù)所述確認回滾指示丟棄媒體網(wǎng)關(guān) 最新收集的語音信息;或接收所述媒體網(wǎng)關(guān)控制器發(fā)送的緩存清理指示,根據(jù)所述緩存清理指示丟棄緩存的媒 體數(shù)據(jù)。
5.一種說話人識別方法,其特征在于,包括 向媒體網(wǎng)關(guān)發(fā)送說話人確認指示;接收所述媒體網(wǎng)關(guān)上報的根據(jù)所述說話人確認指示獲取的說話人確認操作的結(jié)果。
6.根據(jù)權(quán)利要求5所述的說話人識別方法,其特征在于,所述向媒體網(wǎng)關(guān)發(fā)送說話人 確認指示之前包括向所述媒體網(wǎng)關(guān)發(fā)送建立說話人確認會話指示,所述建立說話人確認會話指示攜帶用 于說話人確認操作的聲紋標識。
7.根據(jù)權(quán)利要求6所述的說話人識別方法,其特征在于,所述接收所述媒體網(wǎng)關(guān)上報 的根據(jù)所述說話人確認指示獲取的說話人確認操作的結(jié)果之后包括向所述媒體網(wǎng)關(guān)發(fā)送終止說話人確認會話指示,并接收所述媒體網(wǎng)關(guān)返回的終止響應(yīng) 消息。
8.根據(jù)權(quán)利要求5-7任一所述的說話人識別方法,其特征在于,還包括向所述媒體網(wǎng)關(guān)發(fā)送緩存確認指示,指示所述媒體網(wǎng)關(guān)根據(jù)所述緩存確認指示對所述 媒體網(wǎng)關(guān)的緩存中存放的語音信息進行說話人確認操作;或向所述媒體網(wǎng)關(guān)發(fā)送獲取中間結(jié)果指示,指示所述媒體網(wǎng)關(guān)根據(jù)所述獲取中間結(jié)果指 示獲取并上報當(dāng)前所執(zhí)行的說話人確認操作的中間結(jié)果;或向所述媒體網(wǎng)關(guān)發(fā)送停止確認指示,指示所述媒體網(wǎng)關(guān)根據(jù)所述停止確認指示停止當(dāng) 前所執(zhí)行的說話人確認操作;或向所述媒體網(wǎng)關(guān)發(fā)送聲紋查詢指示,所述聲紋查詢指示攜帶需要查詢的聲紋標識,并 接收所述媒體網(wǎng)關(guān)返回的根據(jù)所述聲紋標識獲取的查詢結(jié)果;或向所述媒體網(wǎng)關(guān)發(fā)送聲紋刪除指示,所述聲紋刪除指示攜帶需要刪除的聲紋標識,并 接收所述媒體網(wǎng)關(guān)返回的根據(jù)所述聲紋標識獲取的刪除結(jié)果;向所述媒體網(wǎng)關(guān)發(fā)送確認回滾指示,指示所述媒體網(wǎng)關(guān)根據(jù)所述確認回滾指示丟棄媒 體網(wǎng)關(guān)最新收集的語音信息;或向所述媒體網(wǎng)關(guān)發(fā)送緩存清理指示,指示所述媒體網(wǎng)關(guān)根據(jù)所述緩存清理指示丟棄緩 存的媒體數(shù)據(jù)。
9.一種媒體網(wǎng)關(guān),其特征在于,包括第一接收模塊,用于接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示; 確認模塊,用于根據(jù)所述說話人確認指示執(zhí)行說話人確認操作,并獲取說話人確認操 作的結(jié)果;上報模塊,用于將所述說話人確認操作的結(jié)果上報至所述媒體網(wǎng)關(guān)控制器。
10.根據(jù)權(quán)利要求9所述的媒體網(wǎng)關(guān),其特征在于,還包括以下模塊的任意一項或者多項第一建立會話模塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的建立說話人確認會話指示, 所述建立說話人確認會話指示攜帶用于說話人確認操作的聲紋標識;調(diào)用模塊,用于根據(jù)所述建立說話人確認會話指示建立說話人識別會話,并獲取所述 聲紋標識對應(yīng)的聲紋文件;第一終止會話模塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的終止說話人確認會話指示; 終止響應(yīng)模塊,用于根據(jù)所述終止說話人確認會話指示,終止說話人確認會話,并向所 述媒體網(wǎng)關(guān)控制器返回終止響應(yīng)消息;第一緩存確認模塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的緩存確認指示,根據(jù)所述緩 存確認指示對媒體網(wǎng)關(guān)的緩存中存放的語音信息進行說話人確認操作;第一中間結(jié)果模塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的獲取中間結(jié)果指示,根據(jù)所 述獲取中間結(jié)果指示獲取并上報當(dāng)前所執(zhí)行的說話人確認操作的中間結(jié)果;第一停止確認模塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的停止確認指示,根據(jù)所述停 止確認指示停止當(dāng)前所執(zhí)行的說話人確認操作;第一查詢模塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的聲紋查詢指示,所述聲紋查詢指 示攜帶需要查詢的聲紋標識,并向所述媒體網(wǎng)關(guān)控制器返回根據(jù)所述聲紋標識獲取的查詢結(jié)果;第一刪除模塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的聲紋刪除指示,所述聲紋刪除指 示攜帶需要刪除的聲紋標識,并向所述媒體網(wǎng)關(guān)控制器返回刪除結(jié)果;第一確認回滾模塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的確認回滾指示,根據(jù)所述確 認回滾指示丟棄媒體網(wǎng)關(guān)最新收集的語音信息;第一緩存清理模塊,用于接收所述媒體網(wǎng)關(guān)控制器發(fā)送的緩存清理指示,根據(jù)所述緩 存清理指示丟棄緩存的媒體數(shù)據(jù)。
11.一種媒體網(wǎng)關(guān)控制器,其特征在于,包括第一發(fā)送模塊,用于向媒體網(wǎng)關(guān)發(fā)送說話人確認指示;第二接收模塊,用于接收所述媒體網(wǎng)關(guān)上報的根據(jù)所述說話人確認指示獲取的說話人 確認操作的結(jié)果。
12.根據(jù)權(quán)利要求11所述的媒體網(wǎng)關(guān)控制器,其特征在于,還包括以下模塊的任意一 項或者多項第二建立會話模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送建立說話人確認會話指示,所述建立說 話人確認會話指示攜帶用于說話人確認操作的聲紋標識;第二終止會話模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送終止說話人確認會話指示,并接收所述 媒體網(wǎng)關(guān)返回的終止響應(yīng)消息;第二緩存確認模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送緩存確認指示,指示所述媒體網(wǎng)關(guān)根據(jù) 所述緩存確認指示對媒體網(wǎng)關(guān)的緩存中存放的語音信息進行說話人確認操作;第二中間結(jié)果模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送獲取中間結(jié)果指示,指示所述媒體網(wǎng)關(guān) 根據(jù)所述獲取中間結(jié)果指示獲取并上報當(dāng)前所執(zhí)行的說話人確認操作的中間結(jié)果;第二停止確認模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送停止確認指示,指示所述媒體網(wǎng)關(guān)根據(jù) 所述停止確認指示停止當(dāng)前所執(zhí)行的說話人確認操作;第二查詢模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送聲紋查詢指示,所述聲紋查詢指示攜帶需要 查詢的聲紋標識,并接收所述媒體網(wǎng)關(guān)返回的根據(jù)所述聲紋標識獲取的查詢結(jié)果;第二刪除模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送聲紋刪除指示,所述聲紋刪除指示攜帶需要 刪除的聲紋標識,并接收所述媒體網(wǎng)關(guān)返回的根據(jù)所述聲紋標識獲取的刪除結(jié)果;第二確認回滾模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送確認回滾指示,指示所述媒體網(wǎng)關(guān)根據(jù) 所述確認回滾指示丟棄媒體網(wǎng)關(guān)最新收集的語音信息。第二緩存清理模塊,用于向所述媒體網(wǎng)關(guān)發(fā)送緩存清理指示,指示所述媒體網(wǎng)關(guān)根據(jù) 所述緩存清理指示丟棄緩存的媒體數(shù)據(jù)。
13.—種說話人識別系統(tǒng),其特征在于,包括媒體網(wǎng)關(guān),用于接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示;根據(jù)所述說話人確認指 示執(zhí)行說話人確認操作,并獲取說話人確認操作的結(jié)果;將所述說話人確認操作的結(jié)果上 報至所述媒體網(wǎng)關(guān)控制器;媒體網(wǎng)關(guān)控制器,用于向媒體網(wǎng)關(guān)發(fā)送說話人確認指示;接收所述媒體網(wǎng)關(guān)上報的根 據(jù)所述說話人確認指示獲取的說話人確認操作的結(jié)果。
全文摘要
本發(fā)明實施例涉及一種說話人識別方法、設(shè)備和系統(tǒng),其中該說話人識別方法包括接收媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示;根據(jù)所述說話人確認指示執(zhí)行說話人確認操作,并獲取說話人確認操作的結(jié)果;將所述說話人確認操作的結(jié)果上報至所述媒體網(wǎng)關(guān)控制器。本發(fā)明實施例媒體網(wǎng)關(guān)根據(jù)媒體網(wǎng)關(guān)控制器發(fā)送的說話人確認指示進行說話人確認操作,然后將說話人確認操作的結(jié)果上報至媒體網(wǎng)關(guān)控制器,實現(xiàn)了在分離架構(gòu)下通過媒體網(wǎng)關(guān)控制協(xié)議進行說話人識別。
文檔編號H04L12/66GK101923853SQ200910086980
公開日2010年12月22日 申請日期2009年6月12日 優(yōu)先權(quán)日2009年6月12日
發(fā)明者楊瑋瑋, 祝寧 申請人:華為技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1