語音信號處理方法及實現(xiàn)此的終端和服務器的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種信號處理方法及裝置,具體而言,涉及一種可利用私密化模型而 保護個人信息的同時確保通信的迅捷性的語音信號處理方法及實現(xiàn)此的終端和服務器。
【背景技術(shù)】
[0002]語音識別(speech recognition)是接收用戶語音的輸入并將其轉(zhuǎn)換為文字的技 術(shù)。因為這些過程是自動執(zhí)行的,因此還可以將其稱之為自動語音識別(Automatic Speech Recognition,以下簡稱為ASR)。近來,其作為在智能手機或者TV等設(shè)備中代替鍵盤輸入的 接口技術(shù)而廣為流傳。語言理解(Natural Language Understanding,以下簡稱為NLU)是從 語音識別的識別結(jié)果中提取用戶的話語的含義的技術(shù)。其并不是單純地識別用戶的語音, 而是執(zhí)行高水準的用戶語音分析,從而可以進一步精確地掌握語音的含義。
[0003] 這種語音識別以及語音理解系統(tǒng)一般可以分為接收語音信號的客戶端(client) 和由語音信號執(zhí)行語音識別以及語言理解的語音識別及語言理解引擎(ASR/NLU engine), 而且為提高語音信號處理速度,兩個模塊可以相互分離地設(shè)計。在此情況下,處理能力和數(shù) 據(jù)存儲能力有限的智能手機或者TV等設(shè)備可以配備為客戶端,語音識別及語言理解引擎可 以配備為具有較高的運算能力的獨立的服務器形式,而且該兩種模塊通過網(wǎng)絡(luò)形成連接。 位于與用戶較近的位置的設(shè)備執(zhí)行接收語音信號的作用,數(shù)據(jù)處理速度較快的服務器執(zhí)行 語音識別以及語言理解的作用。作為其他形態(tài),還可以配備有如下的構(gòu)造:除了服務器以 外,還在設(shè)備內(nèi)部安裝語音識別及語言理解引擎,從而使語音識別以及語言理解這兩方面 的引擎可以相互協(xié)助而執(zhí)行語音識別以及語言理解。
[0004] 作為用于提高這種語音識別及語言理解系統(tǒng)的性能的方法之一,存在一種按用戶 分別收集數(shù)據(jù)而生成按用戶模型的方法。所述按用戶模型稱為私密化模型(personalized model),而相應的方法稱為私密化建模(personalized modeling)。私密化模型可以生成對 應于特定的個人的匹配型模型,因此與為了非特定的多數(shù)而制作的一般模型相比而言通常 具有更尚的性能。
[0005] 然而,在利用私密化模型的情況下,為了生成私密化模型而需要利用到用戶的個 人信息,然而在個人信息的傳輸以及處理過程中可能會發(fā)生信息保護問題,如果為了解決 這種問題而應用加密技術(shù),則可能會發(fā)生處理速度變慢的問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明公開的實施例的目的在于提供一種利用私密化模型而保護個人信息的同 時可以確保通信的迅捷性的語音信號處理方法及實現(xiàn)此的終端和服務器。
[0007] 具體而言,本發(fā)明公開的實施例的目的在于提供一種將私密化信息區(qū)間以及一般 信息區(qū)間分開到終端和服務器而處理的語音信號處理方法以及實現(xiàn)此的終端和服務器。
[0008] 此外,本發(fā)明公開的實施例的目的在于提供一種終端利用私密化模型而對由服務 器處理過的語音信號再次進行處理的語音信號處理方法及實現(xiàn)此的終端和服務器。
[0009] 此外,本發(fā)明公開的實施例的目的在于提供一種利用到基于ID的私密化模型的語 音信號處理方法及實現(xiàn)此的終端和服務器。
[0010] 根據(jù)本發(fā)明公開的實施例的一種終端的語音信號處理方法包括如下步驟:接收語 音信號(speech signal);檢測出所述語音信號中包含個人信息的私密化信息區(qū)間 (personalized information section);針對所述語音信號中對應于所述私密化信息區(qū)間 的語音信號,利用基于所述個人信息而生成的私密化模型(personalized model)而進行數(shù) 據(jù)處理;從服務器接收針對與作為所述私密化信息區(qū)間以外的區(qū)間的一般信息區(qū)間 (general information section)相對應的語音信號進行數(shù)據(jù)處理的結(jié)果。
[0011] 此外,所述終端的語音信號處理方法還可以包括如下步驟:生成關(guān)于所述私密化 信息區(qū)間和所述一般信息區(qū)間的語音區(qū)間信息并傳輸?shù)剿龇掌鳌?br>[0012] 此外,所述語音區(qū)間信息可以包括:區(qū)間掩蔽信息,用于在所述語音信號中掩蔽所 述私密化信息區(qū)間以及所述一般信息區(qū)間中的至少一個區(qū)間。
[0013] 此外,所述終端的語音信號處理方法還可以包括如下步驟:從所述服務器接收關(guān) 于所述私密化信息區(qū)間和一般信息區(qū)間的語音區(qū)間信息。
[0014] 其中,從所述服務器接收到的針對與所述一般信息區(qū)間相對應的語音信號進行數(shù) 據(jù)處理的結(jié)果可以是所述服務器利用一般模型而對與所述一般信息區(qū)間相對應的語音信 號進行處理的結(jié)果。
[0015] 根據(jù)本發(fā)明公開的實施例的一種服務器的語音信號處理方法包括如下步驟:接收 語音信號;檢測出所述語音信號中包含個人信息的私密化信息區(qū)間;針對所述語音信號中 的與作為所述私密化信息區(qū)間以外的區(qū)間的一般信息區(qū)間相對應的語音信號,利用一般模 型而進行數(shù)據(jù)處理;將針對與所述一般信息區(qū)間相對應的語音信號進行數(shù)據(jù)處理的結(jié)果傳 輸?shù)浇K端。
[0016] 此外,所述服務器的語音信號處理方法還可以包括如下步驟:生成關(guān)于所述私密 化信息區(qū)間和一般信息區(qū)間的語音區(qū)間信息并傳輸?shù)剿鼋K端。
[0017] 此外,所述語音區(qū)間信息可以包括:區(qū)間掩蔽信息,用于在所述語音信號中掩蔽所 述私密化信息區(qū)間以及所述一般信息區(qū)間中的至少一個區(qū)間。
[0018] 此外,所述服務器的語音信號處理方法還可以包括如下步驟:從所述終端接收關(guān) 于所述私密化信息區(qū)間和一般信息區(qū)間的語音區(qū)間信息。
[0019] 根據(jù)本發(fā)明公開的實施例的一種終端的語音信號處理方法包括如下步驟:接收語 音信號;從服務器接收利用一般模型而對所述語音信號進行數(shù)據(jù)處理的結(jié)果;利用基于個 人信息而生成的私密化模型以及所述數(shù)據(jù)處理的結(jié)果而對所述語音信號進行數(shù)據(jù)處理。
[0020] 其中,利用數(shù)據(jù)處理結(jié)果以及基于個人信息而生成的私密化模型而對所述語音信 號進行數(shù)據(jù)處理的步驟可以包括如下步驟:針對與包含所述個人信息的私密化信息區(qū)間相 對應的語音信號進行數(shù)據(jù)處理。
[0021] 此外,所述終端的語音信號處理方法還可以包括如下步驟:所述語音信號中檢測 出所述私密化信息區(qū)間。
[0022] 此外,所述終端的語音信號處理方法還可以包括如下步驟:從所述服務器接收關(guān) 于所述私密化信息區(qū)間和一般信息區(qū)間的語音區(qū)間信息。
[0023] 其中,所述語音區(qū)間信息可以包括:區(qū)間掩蔽信息,用于在所述語音信號中掩蔽 (marking)所述私密化信息區(qū)間以及所述一般信息區(qū)間中的至少一個區(qū)間。
[0024] 此外,所述私密化模型可以是私密化語音識別模型(personalized speech recognition model)、語言理角軍模型(personalized natural language understanding model)以及私密化詞匯模型(personalized lexical model)中的至少一個模型。
[0025] 根據(jù)本發(fā)明公開的另一實施例的終端的語音信號處理方法包括如下步驟:把ID映 射于個人信息而生成映射表;利用所述映射表而生成基于ID的私密化模型;將所述基于ID 的私密化模型傳輸?shù)椒掌?從所述服務器接收利用基于ID的私密化模型而對語音信號進 行數(shù)據(jù)處理的結(jié)果;利用所述數(shù)據(jù)處理的結(jié)果以及所述映射表而使對應于所述ID的所述個 人信息復原。
[0026]其中,利用所述映射表而生成基于ID的私密化模型的步驟可以包括如下步驟:將 映射于所述個人信息的ID表示成作為映射于聲音的ID的聲音單位ID。
[0027]此外,所述聲音單位ID可以是根據(jù)與所述服務器達成的協(xié)議而映射于所述聲音的 ID。
[0028]此外,所述終端的語音信號處理方法還可以包括如下步驟:把ID映射于由所述個 人信息生成的附加信息并生成所述映射表。
[0029] 根據(jù)本發(fā)明公開的又一實施例的服務器的語音信號處理方法包括如下步驟:從終 端接收基于ID的私密化模型;接收語音信號;利用所述基于ID的私密化模型而對所述語音 信號進行數(shù)據(jù)處理;將所述數(shù)據(jù)處理的結(jié)果傳輸?shù)剿鼋K端。
[0030] 其中,利用所述基于ID的私密化模型而對語音信號進行數(shù)據(jù)處理的步驟可以包括 如下步驟:根據(jù)與所述終端達成的協(xié)議而利用作為映射于聲音的ID的聲音單位ID表示映射 于個人信息的ID。
[0031 ]根據(jù)本發(fā)明公開的實施例的一種終端包括:接收單元,用于接收語音;通信單元, 用于與服務器執(zhí)行通信;控制單元,以如下方式執(zhí)行控制:得以接收語音信號,并使所述語 音信號中包含個人信息的私密化信息區(qū)間被檢測出,并且利用基于所述個人信息而生成的 私密化模型而使所述語音信號中的與所述私密化信息區(qū)間相對應的語音信號得到數(shù)據(jù)處 理,并實現(xiàn)從所述服務器接收針對與作為所述私密化信息區(qū)間以外的區(qū)間的一般信息區(qū)間 相對應的語音信號進行數(shù)據(jù)處理的結(jié)果。
[0032] 此外,所述控制單元可構(gòu)成為以如下方式執(zhí)行控制:使關(guān)于所述私密化信息區(qū)間 和所述一般信息區(qū)間的語音區(qū)間信息生成并傳輸?shù)剿龇掌鳌?br>[0033] 此外,所述語音區(qū)間信息可以包括:區(qū)間掩蔽信息,用于在所述語音信號中掩蔽所 述私密化信息區(qū)間以及所述一般信息區(qū)間中的至少一個區(qū)間。
[0034] 此外,所述控制單元可以構(gòu)成為以如下方式執(zhí)行控制:實現(xiàn)從所述服務器接收關(guān) 于所述私密化信息區(qū)間和所述一般信息區(qū)間的語音區(qū)間信息。
[0035] 此外,從所述服務器接收到的針對與所述一般信息區(qū)間相對應的語音信號進行數(shù) 據(jù)處理的結(jié)果可以是所述服務器利用一般模型而對與所述一般信息區(qū)間相對應的語音信 號進行處理的結(jié)果。
[0036] 根據(jù)本發(fā)明公開的實施例的一種服務器包括:接收單元,用于接收語音;通信單 元,用于與終端執(zhí)行通信;控制單元,以如下方式執(zhí)行控制:得以接收語音信號,并使所述語 音信號中包含個人信息的私密化信息區(qū)間被檢測出,且利用一般模型而使所述語音信號中 的與作為所述私密化信息區(qū)間以外的區(qū)間的一般信息區(qū)間相對應的語音信號得到數(shù)據(jù)處 理,并實現(xiàn)將針對與所述一般信息區(qū)間相對應的語音信號進行數(shù)據(jù)處理的結(jié)果傳輸?shù)剿?終端。
[0037] 此外,所述控制單元可構(gòu)成為以如下方式執(zhí)行控制:使關(guān)于所述私密化信息區(qū)間 和所述一般信息區(qū)間的語音區(qū)間信息生成并傳輸?shù)剿鼋K端。
[0038] 其中,所述語音區(qū)間信息可以包括:區(qū)間掩蔽信息,用于在所述語音信號中掩蔽所 述私密化信息區(qū)間以及所述一般信息區(qū)間中的至少一個區(qū)間。
[0039] 此外,所述控制單元可構(gòu)成為以如下方式執(zhí)行控制:實現(xiàn)從所述終端接收關(guān)于所 述私密化信息區(qū)間和所述一般信息區(qū)間的語音區(qū)間信息。
[0040] 根據(jù)本發(fā)明公開的另一實施例的一種終端包括:通信單元,用于與服務器執(zhí)行通 信;控制單元,以如下方式執(zhí)行控制:實現(xiàn)從所述服務器接收利用一般模型而對所述語音信 號進行數(shù)據(jù)處理的結(jié)果,并利用所述數(shù)據(jù)處理的結(jié)果以及基于個人信息而生成的私密化模 型而對所述語音信號進行數(shù)據(jù)處理。
[0041] 此外,所述控制單元可構(gòu)成為以如下方式執(zhí)行控制:在利用所述數(shù)據(jù)處理的結(jié)果 以及基于個人信息而生成的私密化模型而對所述語音信號進行數(shù)據(jù)處理時,實現(xiàn)針對與包 含所述個人信息的私密化信息區(qū)間相對應的語音信號執(zhí)行數(shù)據(jù)處理。
[0042] 此外,所述控制單元可構(gòu)成為以如下方式執(zhí)行控制:使所述語音信號中檢測出私 密化信息區(qū)間。
[0043] 此外,所述控制單元可構(gòu)成為以如下方式執(zhí)行控制:從所述服務器接收關(guān)于所述 私密化信息區(qū)間和一般信息區(qū)間的語音區(qū)間信息。
[0044] 此外,所述語音區(qū)間信息可以包括:區(qū)間掩蔽信息,用于在所述語音信號中掩蔽所 述私密化信息區(qū)間以及所述一般信息區(qū)間中的至少一個區(qū)間。
[0045] 此外,所述私密化模型可以是私密化語音識別模型、語言理解模型以及私密化詞 匯模型中的至少一個模型。
[0046] 根據(jù)本發(fā)明公開的又一實施例的一種終端包括:接收單元,用于接收語音信號;通 信單元,用于與服務器執(zhí)行通信;控制單元,以如下方式執(zhí)行控制:使ID對應于個人信息而 生成映射表,并利用所述映射表而使基于ID的私密化模型生成,并使所述基于ID的私密化 模型傳輸?shù)剿龇掌鳎崿F(xiàn)從所述服務器接收利用基于ID的私密化模型而對語音信號 進行數(shù)據(jù)處理的結(jié)果,且利用所述數(shù)據(jù)處理的結(jié)果以及所述映射表而使對應于所述ID的所 述個人信息復原。
[0047]此外,所述控制單元可通過如下方式執(zhí)行控制:在利用所述映射表而生成基于ID 的私密化模型時,使映射于所述個人信息的ID表示成作為映射于聲音的ID的聲音單位ID。
[0048] 此外,所述聲音單位ID可以是根據(jù)與所述服務器達成的協(xié)議而映射于所述聲音的 ID。
[0049] 此外,所述控制單元可通過如下方式執(zhí)行控制:使ID映射于由所述個人信息生成 的附加信息而生成所述映射表。
[0050] 根據(jù)本發(fā)明公開的又一實施例的一種服務器包括:接收單元,用于接收語音信號; 通信單元,用于與終端執(zhí)行通信;控制單元,以如下方式執(zhí)行控制:實現(xiàn)從終端接收基于ID 的私密化模型,并接收語音信號,且利用所述基于ID的私密化模型而使所述語音信號得到 數(shù)據(jù)處理,并使所述數(shù)據(jù)處理的結(jié)果傳輸?shù)剿鼋K端。
[0051]此外,所述控制單元可通過如下方式執(zhí)行控制:根據(jù)與所述終端達成的協(xié)議而利 用作為映射于聲音的ID的聲音單位ID來表示映射于個人信息的ID。
【附圖說明】
[0052]圖1是表示根據(jù)本發(fā)明公開的實施例的終端的內(nèi)部構(gòu)造的模塊圖。
[0053]圖2是表示根據(jù)本發(fā)明公開的實施例的服務器的內(nèi)部構(gòu)造的模塊圖。
[0054]圖3是進一步詳細地表示圖1所示出的終端的內(nèi)部構(gòu)造的模塊圖。
[0055] 圖4是進一步詳細地表示圖2所示出的服務器的內(nèi)部構(gòu)造的模塊圖。
[0056] 圖5是表示根據(jù)本發(fā)明公開的實施例的終端設(shè)備的語音處理方法的順序圖。
[0057]圖6是表示根據(jù)本發(fā)明公開的實施例的服務器的語音處理方法的順序圖。
[0058]圖7是對私密化信息區(qū)間和一般信息區(qū)間進行說明的圖。
[0059] 圖8是表示根據(jù)本發(fā)明公開的實施例的終端和服務器的具體操作過程的示例的順 序圖。
[0060] 圖9是表示根據(jù)本發(fā)明公開的另一實施例的終端的語音處理方法的順序圖。
[0061] 圖10是表示根據(jù)本發(fā)明公開的另一實施例的服務器的語音處理方法的順序圖。
[0062] 圖11是表示根據(jù)本發(fā)明公開的另一實施例的終端和服務