語音處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)實(shí)施例涉及語音技術(shù)領(lǐng)域,尤其涉及一種語音處理方法及裝置。
【背景技術(shù)】
[0002] 音素(Phoneme)是構(gòu)成語音的基本單元,通過單個(gè)音素或多個(gè)音素的組合,如字、 詞、短語、句子等,可以表達(dá)特定的含義。音素分割是語音信號(hào)處理的基礎(chǔ),包括語音識(shí)別, 聲紋識(shí)別,語音情感識(shí)別,語音合成,語音轉(zhuǎn)換等。
[0003] 無論漢語、英語還是其它語言,一個(gè)字的拼音通常包括:清音段、濁音段、靜音段, 其中,清音段、濁音段分別由至少一個(gè)音素組成,因此,音素分割通常分為兩個(gè)步驟:(1)音 段的分割,(2)音段內(nèi)部音素的分割。需要說明的是,有些情況下,清音段和靜音段可能不 存在。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本申請(qǐng)實(shí)施例的一個(gè)目的在于提供一種分割音段的方案。
[0005] 為實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)實(shí)施例的第一方面,提供一種語音處理方法,包括:
[0006] 獲取語音信號(hào)和與所述語音信號(hào)同步的電聲門圖EGG信號(hào);
[0007] 至少根據(jù)所述EGG信號(hào),將所述語音信號(hào)劃分為多個(gè)音段。
[0008] 為實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)實(shí)施例的第二方面,提供一種語音處理裝置,包括:
[0009] 獲取模塊,用于獲取語音信號(hào)和與所述語音信號(hào)同步的電聲門圖EGG信號(hào);
[0010] 第一分割模塊,用于至少根據(jù)所述EGG信號(hào),將所述語音信號(hào)劃分為多個(gè)音段。
[0011] 以上多個(gè)技術(shù)方案中的至少一個(gè)技術(shù)方案具有如下有益效果:
[0012] 本申請(qǐng)實(shí)施例通過獲取語音信號(hào)和與所述語音信號(hào)同步的EGG信號(hào),并至少根據(jù) 所述EGG信號(hào)將所述語音信號(hào)劃分為多個(gè)音段,提供了一種分割音段的方案。另外,由于各 種干擾的存在,單純地對(duì)語音信號(hào)進(jìn)行音段分割的準(zhǔn)確率不高,特別是文本無關(guān)的音段分 害J,即缺乏語音波形中包含的文本信息等先驗(yàn)知識(shí)的情況下,分割準(zhǔn)確率更低;然而,由于 清音段和靜音段中聲帶不振動(dòng),僅濁音段中聲帶振動(dòng),因此,EGG信號(hào)中各音段的區(qū)別較為 明顯,因此,本實(shí)施例中利用同步的EGG信號(hào)輔助語音信號(hào)中音段的分割,能夠提高音段分 割的準(zhǔn)確率。
【附圖說明】
[0013] 圖1為本申請(qǐng)?zhí)峁┑囊环N語音處理方法實(shí)施例的流程示意圖;
[0014] 圖2為一發(fā)音過程中語音信號(hào)和EGG信號(hào)的一種示意圖;
[0015] 圖3A為又一發(fā)音過程中語音信號(hào)和EGG信號(hào)的一種示意圖;
[0016] 圖3B為圖3A所示的語音信號(hào)和EGG信號(hào)的對(duì)數(shù)能量的一種示意圖;
[0017] 圖3C為圖3B所示的語音信號(hào)和EGG信號(hào)的對(duì)數(shù)能量組成的二維對(duì)數(shù)能量向量序 列的二維正態(tài)分布聚類的結(jié)果示意圖;
[0018]圖3D為基于圖3C所示的聚類結(jié)果對(duì)語音信號(hào)進(jìn)行分段的示意圖;
[0019] 圖4為又一發(fā)音過程中EGG信號(hào)和語音信號(hào)的對(duì)數(shù)能量的分布直方圖;
[0020] 圖5為本申請(qǐng)?zhí)峁┑囊环N語音處理裝置實(shí)施例一的結(jié)構(gòu)示意圖;
[0021] 圖6A~6D分別為圖5所示實(shí)施例的一種可選的實(shí)現(xiàn)方式的結(jié)構(gòu)示意圖;
[0022] 圖7為本申請(qǐng)?zhí)峁┑囊环N語音處理裝置實(shí)施例二的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023] 下面結(jié)合附圖和實(shí)施例,對(duì)本申請(qǐng)的【具體實(shí)施方式】作進(jìn)一步詳細(xì)說明。以下實(shí)施 例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0024] 圖1為本申請(qǐng)?zhí)峁┑囊环N語音處理方法實(shí)施例的流程示意圖。如圖1所示,本實(shí) 施例包括:
[0025] 110、獲取語音信號(hào)和與所述語音信號(hào)同步的電聲門圖信號(hào)。
[0026] 舉例來說,本申請(qǐng)?zhí)峁┑囊环N語音處理裝置實(shí)施例一或?qū)嵤├龅恼Z音處理 裝置作為本實(shí)施例的執(zhí)行主體,執(zhí)行110~120。
[0027] 本實(shí)施例中,所述語音信號(hào)可選地通過語音收集設(shè)備,如麥克風(fēng)等,收集得到。
[0028] 本實(shí)施例中,所述電聲門圖(Electroglottography,簡(jiǎn)稱EGG)信號(hào)是一種生物電 信號(hào),反映聲門的開閉和聲帶的振動(dòng)。所述EGG信號(hào)可選地通過電聲門圖儀在一用戶的聲 帶附近采集到。
[0029] 本實(shí)施例中,所述EGG信號(hào)與所述語音信號(hào)同步是指,所述語音信號(hào)與所述EGG信 號(hào)對(duì)應(yīng)同一用戶的同一發(fā)音過程。
[0030] 120、至少根據(jù)所述EGG信號(hào),將所述語音信號(hào)劃分為多個(gè)音段。
[0031] 本實(shí)施例中,所述多個(gè)音段包括但不限于:至少一個(gè)濁音段和至少一個(gè)清音段。可 選地,所述多個(gè)音段還包括:至少一個(gè)靜音段。
[0032] 圖2為一發(fā)音過程中語音信號(hào)和EGG信號(hào)的一種示意圖。圖2所示的發(fā)音過程為 一男性用戶發(fā)出四聲hei的發(fā)音過程,豎軸的幅度為對(duì)應(yīng)信號(hào)歸一化后的電壓值,橫軸為 以11025HZ為采樣率得到的采樣點(diǎn)。為清楚地示意,用豎線將圖中語音信號(hào)和EGG信號(hào)的清 音段(Unvoice)、濁音段(Voice)、靜音段(Silence)隔開。可以看出,左邊清音段表示清輔 音h,此時(shí)聲帶尚未產(chǎn)生振動(dòng),因此EGG信號(hào)無周期波形,語音信號(hào)為典型的雜亂無章的清 音波形;中間的濁音段對(duì)應(yīng)元音ei,此時(shí)聲帶振動(dòng),從EGG信號(hào)中可以看出聲帶振動(dòng)的周期 越來越長(zhǎng),對(duì)應(yīng)聲調(diào)第四聲的基頻下降趨勢(shì),語音信號(hào)波形經(jīng)歷了從元音e到元音i的連續(xù) 變化過程;靜音段和濁音段的分界并不十分明顯,其劃分原則為靜音段聲帶不振動(dòng);另外, 在靜音段和清音段,EGG信號(hào)中包含了反映喉部肌肉運(yùn)動(dòng)的低頻噪聲。
[0033] 本實(shí)施例通過獲取語音信號(hào)和與所述語音信號(hào)同步的EGG信號(hào),并至少根據(jù)所述 EGG信號(hào)將所述語音信號(hào)劃分為多個(gè)音段,提供了一種分割音段的方案。另外,由于各種干 擾的存在,單純地對(duì)語音信號(hào)進(jìn)行音段分割的準(zhǔn)確率不高,特別是文本無關(guān)的音段分割,即 缺乏語音波形中包含的文本信息等先驗(yàn)知識(shí)的情況下,分割準(zhǔn)確率更低;然而,由于清音段 和靜音段中聲帶不振動(dòng),僅濁音段中聲帶振動(dòng),因此,EGG信號(hào)中各音段的區(qū)別較為明顯,因 此,本實(shí)施例中利用同步的EGG信號(hào)輔助語音信號(hào)中音段的分割,能夠提高音段分割的準(zhǔn) 確率。
[0034] 以下通過一些可選的實(shí)現(xiàn)方式進(jìn)一步地描述本實(shí)施例的方法。
[0035] 本實(shí)施例中,120有多種實(shí)現(xiàn)方式。
[0036] 在一種可選的實(shí)現(xiàn)方式中,所述至少根據(jù)所述EGG信號(hào),將所述語音信號(hào)劃分為 多個(gè)音段,包括:
[0037] 確定所述語音信號(hào)的第一特征參數(shù)序列和與所述第一特征參數(shù)序列對(duì)應(yīng)的所述 EGG信號(hào)的第二特征參數(shù)序列;
[0038] 至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列,將所述語音信號(hào)劃分 為多個(gè)音段。
[0039] 其中,所述第一特征參數(shù)序列包括:所述語音信號(hào)中多個(gè)語音幀的特征參數(shù),所述 第二特征參數(shù)序列包括:所述EGG信號(hào)中多個(gè)EGG幀的所述特征參數(shù),所述多個(gè)語音幀與所 述多個(gè)EGG幀一一對(duì)應(yīng)相同的時(shí)間窗。舉例來說,所述語音信號(hào)中第一個(gè)語音幀和所述EGG 信號(hào)中第一個(gè)EGG幀對(duì)應(yīng)時(shí)間窗1,所述語音信號(hào)中第二個(gè)語音幀和所述EGG信號(hào)中第二個(gè) EGG幀對(duì)應(yīng)時(shí)間窗2,以此類推。
[0040] 可選地,將所述語音信號(hào)分為所述多個(gè)語音幀的方式,與將所述EGG信號(hào)分為所 述多個(gè)EGG幀的方式相同。舉例來說,采用相同的采樣率分別對(duì)所述語音信號(hào)和所述EGG進(jìn)行采樣,每個(gè)語音幀和與該語音幀對(duì)應(yīng)的EGG幀包含各自信號(hào)中相同數(shù)量和順序的采樣 點(diǎn)。
[0041] 可選地,所述語音信號(hào)中前后語音幀在時(shí)間上可以有重疊,所述EGG信號(hào)也是類 似的。舉例來說,以11025HZ的采樣率對(duì)所述語音信號(hào)進(jìn)行采樣,每個(gè)語音幀包括256個(gè)采 樣點(diǎn),前后語音幀之間的幀移為128個(gè)采樣點(diǎn),S卩,前后語音幀對(duì)應(yīng)的時(shí)間窗有一半是重疊 的;類似地,以11025HZ的采樣率對(duì)所述EGG信號(hào)進(jìn)行采樣,每個(gè)EGG幀包括256個(gè)采樣點(diǎn), 前后EGG幀之間的幀移為128個(gè)采樣點(diǎn),S卩,前后EGG幀對(duì)應(yīng)的時(shí)間窗有一半是重疊的。
[0042] 可選地,所述特征參數(shù)包括但不限于以下任一種:對(duì)數(shù)能量、過零率、基頻。舉例來 說,所述第一特征參數(shù)序列包括:所述語音信號(hào)中多個(gè)語音幀的對(duì)數(shù)能量,所述第二特征參 數(shù)序列包括:所述EGG信號(hào)中多個(gè)EGG幀的對(duì)數(shù)能量。
[0043] 在此實(shí)現(xiàn)方式中,所述至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序 列,將所述語音信號(hào)劃分為多個(gè)音段有多種實(shí)現(xiàn)方式。
[0044] 可選地,所述至少根據(jù)所述第一特征參數(shù)序列和所述第二特征參數(shù)序列,將所述 語音信號(hào)劃分為多個(gè)音段,包括:
[0045] 將所述第一特征參數(shù)序列和所述第二特征參數(shù)序列對(duì)齊,得到二維特征參數(shù)向量 序列;
[0046] 對(duì)所述二維特征參數(shù)向量序列進(jìn)行聚類;
[0047] 根據(jù)所述聚類的結(jié)果,將所述語音信號(hào)劃分為多個(gè)音段。
[0048] 具體地,所述對(duì)齊是在時(shí)間上對(duì)齊,所述二維特征參數(shù)向量序列中的每個(gè)二維特 征參數(shù)向量由所述第一特征參數(shù)序列和所述第二特征參數(shù)序列中分別對(duì)應(yīng)同一時(shí)間窗的 特征參數(shù)組成