相位對(duì)重構(gòu)語音聲調(diào)感知影響方法及在人工耳蝸中應(yīng)用
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明公開了相位對(duì)重構(gòu)語音聲調(diào)感知影響方法及在人工耳蝸中應(yīng)用。
【背景技術(shù)】
[0002] 人工耳蝸(Cochlear Implant,簡稱CI)的問世為先天或后天重度至極重度感音 性耳聾患者帶來了福音。隨著人工耳蝸對(duì)聲信號(hào)編碼策略的不斷的改進(jìn),CI植入者的言語 識(shí)別能力獲得了明顯改善,音節(jié)識(shí)別率可達(dá)到95% W上。但是,對(duì)講漢語該類聲調(diào)語言的 CI植入者來說,聲調(diào)感知不佳問題仍有待完善,是目前人工耳蝸技術(shù)研究的難題之一。為 此,國內(nèi)外學(xué)者對(duì)CI植入者進(jìn)行了若干研究。近期研究表明,49例國產(chǎn)諾爾康人工耳蝸產(chǎn) 品植入者在安靜環(huán)境下的聲調(diào)識(shí)別率平均為67. 26%,噪聲環(huán)境下僅為51. 92%;另有研究, 對(duì)16例語后聾CI植入者采用去除時(shí)長信息的測(cè)試材料進(jìn)行聲調(diào)識(shí)別能力測(cè)試,結(jié)果表明, 聲調(diào)識(shí)別總平均分為70. 22%。同時(shí),國外研究也發(fā)現(xiàn),各種主流言語編碼策略(如ACE、 CIS和SPEAK等)的CI植入者的聲調(diào)平均識(shí)別率為50% -80%,與言語音節(jié)或詞匯識(shí)別率 相差較大。
[0003] 對(duì)上述聲音編碼策略的分析可知,根據(jù)人耳內(nèi)部所具有的聲音"頻譜分析器"的 感音生理結(jié)構(gòu),人工耳蝸聲音處理器是將每小段聲音信號(hào)隨時(shí)間推移所包含的各種頻率成 分的變化分解成若干個(gè)頻帶,經(jīng)帶通濾波器濾波,每個(gè)通帶輸出對(duì)應(yīng)頻段的時(shí)變信號(hào),經(jīng)檢 波、低通,每個(gè)通帶信號(hào)的能量包絡(luò)按一定的時(shí)間間隔抽樣編碼,W所有通帶或部分能量較 高通帶的能量編碼調(diào)制刺激電流脈沖的幅度,再按一定工作順序送到耳蝸內(nèi)電極上,傳遞 該段聲音信號(hào)對(duì)末端聽神經(jīng)的刺激。目前子頻帶總數(shù)通常與電極總數(shù)相同,為12至24個(gè), 該樣的電極密度對(duì)傳遞聲道譜包絡(luò)特性(或諧振特性)為主要特征的發(fā)音內(nèi)容來說,可W 比較準(zhǔn)確地表達(dá)各個(gè)發(fā)音單元,所W目前的人工耳蝸各產(chǎn)品在識(shí)別語音內(nèi)容(即不設(shè)及聲 調(diào)的音節(jié)、詞和句)方面達(dá)到較高滿意度。然而,該樣的聲音編碼策略傳遞的刺激信號(hào)陣列 作用到聽覺神經(jīng)組織后得到的漢語的聲調(diào)感知卻并不理想,聲調(diào)識(shí)別率明顯下降,反映了 該樣的編碼策略在聲調(diào)信息表達(dá)上存在缺陷。
【發(fā)明內(nèi)容】
[0004] 為了解決現(xiàn)有技術(shù)中存在的技術(shù)缺陷,本發(fā)明公開了一種利用相位特征對(duì)重構(gòu)漢 語語音聲調(diào)感知進(jìn)行調(diào)教的方法。本發(fā)明從信號(hào)分解的角度出發(fā),采用測(cè)聽重構(gòu)音的實(shí)驗(yàn) 方法,研究該種缺失是否與相位特征有關(guān),W改進(jìn)人工耳蝸聲調(diào)信息的編碼方法。
[0005] 本發(fā)明采用的技術(shù)方案如下:
[0006] 一種相位對(duì)重構(gòu)語音聲調(diào)感知影響方法,包括W下步驟:
[0007] 步驟1獲取原始的漢語語音聲調(diào)信號(hào);
[000引步驟2對(duì)步驟1的聲調(diào)信號(hào)采用傅里葉變換分解,得到與漢語語音聲調(diào)信號(hào)相應(yīng) 的幅度、頻率和相位=組特征參數(shù);
[0009] 步驟3在相同條件下,保持信號(hào)的頻率和幅度特征兩者同時(shí)不變,僅改變相位特 征,得到原始漢語語音聲調(diào)信號(hào)的重構(gòu)信號(hào);
[0010] 步驟4對(duì)重構(gòu)信號(hào)進(jìn)行識(shí)別,進(jìn)而得到相位特征對(duì)重構(gòu)漢語語音聲調(diào)感知影響。
[0011] 步驟3中所述的重構(gòu)信號(hào)的方法為:去掉原始漢語語音聲調(diào)信號(hào)的原相位特征, 保持原信號(hào)頻率和幅度特征不變,重構(gòu)新信號(hào)。
[0012] 具體方法如下;
[0013] 3-1.選用符合短時(shí)平穩(wěn)要求的窗長;
[0014] 3-2.確定帖長、采樣率和FFT樣點(diǎn)數(shù),隨信號(hào)推移逐帖作FFT,半帖重疊,得到每 帖語音信號(hào)頻譜X(n,w)如下:
[00巧]X(n,w) = |X(n,w) |eJ*虹w),n = 0, (1)
[0016] |X(n,w) I為短時(shí)幅度譜,d) (n,w) =Z X(n,w)為短時(shí)相位譜;
[0017] 3-3.保持原語音信號(hào)的短時(shí)幅度譜|X(n,w) I不變,將短時(shí)相位譜d) (n,w)置零, 然后將幅度譜|X(n,w) I和零相位譜兩者重新組合重構(gòu)聲音。
[0018] 所述的窗長與相位特征關(guān)系的確定方法如下對(duì)同一個(gè)音節(jié)分別W不同窗長的語 音短段進(jìn)行短時(shí)頻譜分析和零相位重構(gòu)。
[0019] 所述的窗長選??;161113、1〇1113、81113、51113、41113、31113、21113、11113;在不考慮相位的情況 下,減小窗長至2ms W下,音節(jié)的調(diào)型由于窗長較小、頻譜的時(shí)間分辨率較高,即使在相位 缺失情況下,各頻率成分時(shí)間偏移有限,導(dǎo)致信號(hào)疊加后的主峰值間隔關(guān)系未發(fā)生明顯變 化,故聲調(diào)可感知。
[0020] 所述的3-2中重疊帖部分采用重疊相加法進(jìn)行處理,W去除海明窗疊加產(chǎn)生的增 益誤差。
[0021] 步驟3中所述的重構(gòu)信號(hào)的方法如下:
[0022] 采用短時(shí)傅里葉變換嵌合法重構(gòu)語音,即將兩個(gè)聲信號(hào)進(jìn)行相同的短時(shí)傅里葉變 換,提取各自的幅度譜和相位譜,再將來自不同原信號(hào)的幅度譜和相位譜交叉組合,重構(gòu)新 的音節(jié)。
[0023] 步驟3-1對(duì)相同音節(jié),不同聲調(diào)的兩個(gè)信號(hào)做相同的短時(shí)傅里葉變換;
[0024] 步驟3-2提取各自的幅度譜和相位譜;
[0025] 步驟3-3將得到的幅度譜和相位譜交叉組合,得到兩個(gè)重構(gòu)信號(hào);
[0026] 步驟3-4按照步驟3-1和步驟3-3的方法依次對(duì)15個(gè)音節(jié)的4中聲調(diào)進(jìn)行兩兩 組合,得到180個(gè)重構(gòu)音節(jié)。
[0027] 步驟4的識(shí)別方法采用W正常聽力者完好的聽覺神經(jīng)傳導(dǎo)系統(tǒng)為測(cè)聽對(duì)方進(jìn)行 聲調(diào)識(shí)別。
[002引相位在人工耳蝸中的應(yīng)用,利用相位特征對(duì)人工耳蝸的信號(hào)陣列編碼進(jìn)行控制。
[0029] 本發(fā)明的有益效果如下;
[0030] 本發(fā)明通過設(shè)計(jì)零相位重構(gòu)音和嵌合音聲調(diào)感知實(shí)驗(yàn),給出了相位特征與聲調(diào)感 知的關(guān)系。(1)在完全丟棄原信號(hào)相位特征時(shí)(如相位置零);采用常用窗長對(duì)信號(hào)分析并 重構(gòu),重構(gòu)音節(jié)識(shí)別基本不受影響,雖然音質(zhì)有所下降,但音節(jié)識(shí)別率仍很高,而聲調(diào)感知 已很難區(qū)別,重構(gòu)音幾乎全部無聲調(diào)變化;但當(dāng)窗長低于2ms時(shí),即使相位特征缺失,調(diào)型 的變化仍能識(shí)別。從而得出結(jié)論;聲調(diào)感知與信號(hào)的相位特征密切相關(guān)。(2)在用不同調(diào) 型、相同音節(jié)的幅度特征和相位特征進(jìn)行嵌合重構(gòu)實(shí)驗(yàn)中,嵌合音被識(shí)別的四種調(diào)型主要 由提供相位特征的音節(jié)決定,進(jìn)而同樣證實(shí)了相位對(duì)聲調(diào)感知的主要作用。通過該發(fā)明,可 W得出,若要進(jìn)一步提高聲音編碼裝置的性能,應(yīng)該在保證幅度譜特征編碼不受影響的前 提下,尋找能有效提高相位信息編碼和傳遞的措施。
【附圖說明】
[0031] 圖1 (a)語音/al/的零相位重構(gòu)信號(hào)和原信號(hào)波形比較;
[003引圖1化)語音/a4/的零相位重構(gòu)信號(hào)和原信號(hào)波形比較;
[0033] 圖2傅立葉分析嵌合原理圖;
[0034] 圖3同音節(jié)不同聲調(diào)嵌合音測(cè)聽統(tǒng)計(jì)結(jié)果;
[0035] 圖4嵌合音的調(diào)型識(shí)別統(tǒng)計(jì)結(jié)果。
【具體實(shí)施方式】
[0036] 1.語音信號(hào)產(chǎn)生模型與聽覺感知機(jī)理分析
[0037] 根據(jù)語音信號(hào)產(chǎn)生的數(shù)學(xué)模型可知,任何言語信號(hào)都是由一個(gè)聲口激勵(lì)源信號(hào)作 用于聲道系統(tǒng)、通過口鼻福射產(chǎn)生出來的,聲道和口鼻福射系統(tǒng)相當(dāng)于一個(gè)時(shí)變的調(diào)諧器。 聲口激勵(lì)源中最重要的參數(shù)就是基音周期,它控制著聲口(或聲帶)振動(dòng)的快慢,漢語中發(fā) 音比較響亮的元音音段都包含該參數(shù)?;糁芷诘牡箶?shù),簡稱基頻,聲調(diào)調(diào)型就是基頻參數(shù) 的變化模式。對(duì)于漢語單音節(jié)來說,每個(gè)音節(jié)都有聲調(diào),分別為"一、二、=、四"聲,或"陰 平、陽平、上聲、去聲"。根據(jù)語音的"聲源+濾波"的產(chǎn)生模型,聲源部分的信號(hào)與含有聲道 傳遞特征的傳輸函數(shù)相卷積,便形成傳入聽者耳內(nèi)的聲信號(hào)。該信號(hào)隨時(shí)間推移在時(shí)域和 頻域上,均可按短時(shí)段分解為不同的頻率、幅度及相位=個(gè)參量互相關(guān)聯(lián)的線性疊加。鑒于 人耳內(nèi)部的生理結(jié)構(gòu),耳蝸相當(dāng)于一個(gè)精密的頻譜感應(yīng)器,在耳蝸基底膜上按位置依次分 布著大量的能感知不同頻率成份的聽細(xì)胞及相連接的聽神經(jīng)組織。當(dāng)該些聽細(xì)胞或聽神經(jīng) 組織都正常工作時(shí),將負(fù)責(zé)接收和傳導(dǎo)聲音陣列信號(hào)的刺激,其中包括各時(shí)間點(diǎn)上有效的 頻率位置、其上的幅度特征W及各頻率和幅度特征在各時(shí)間關(guān)系上原有的時(shí)序(即相位特 征)。該些特征與原聲信號(hào)應(yīng)直接對(duì)應(yīng),聯(lián)合在一起構(gòu)成信號(hào)陣列,分時(shí)、準(zhǔn)確、有序地作用 于感知神經(jīng),是腦干感知各種清晰的聲音效果的基礎(chǔ)。而目前的語音編碼策略在頻率位置 和幅度特征上傳遞較為準(zhǔn)確,而對(duì)陣列信號(hào)各路工作的時(shí)間順序上基本未作相應(yīng)處理,該 問題主要設(shè)及信號(hào)的相位特征。
[003引為研究聲調(diào)感知是否與信號(hào)相位特征有關(guān),我們W正常聽力者完好的聽神經(jīng)傳導(dǎo) 系統(tǒng)為測(cè)聽對(duì)象,對(duì)聲音信號(hào)采用短時(shí)傅立葉變換分解方法,得到音段相應(yīng)的幅度、頻率和 相位=組特征參數(shù),然后在相同實(shí)驗(yàn)材料和實(shí)驗(yàn)條件下,保持信號(hào)的頻率和幅度特征兩者 同時(shí)不變,通過一定方式僅改變相位特征,再重構(gòu)信號(hào),W測(cè)聽方式進(jìn)行聲調(diào)識(shí)別,統(tǒng)計(jì)評(píng) 估重構(gòu)信號(hào)的聲調(diào)感知結(jié)果。
[0039] 2語音測(cè)聽實(shí)驗(yàn)方法
[0040] 測(cè)聽的語音材料采用兩種重構(gòu)語音方法,一種是去掉所給信號(hào)的原相位特征,保 持原信號(hào)頻率和幅度特征不變,重構(gòu)新信號(hào);另一種方法是利用短時(shí)傅里葉變換嵌合法重 構(gòu)語音,即將兩種不同聲調(diào)的音節(jié)的幅度譜和相位譜交叉嵌合再重構(gòu)新信號(hào)。通過測(cè)聽兩 種不同條件下重構(gòu)音的聲調(diào)感知識(shí)別結(jié)果,得出聲調(diào)與相位之間的影響關(guān)系。
[0041] 為科學(xué)有效地研究相位信息對(duì)漢語聲調(diào)的影響,除了分析觀察重構(gòu)信號(hào)和原信號(hào) 時(shí)域波形外,考慮到聲音感知的主觀評(píng)估重要性,還需要選取合適的人群,W大量的測(cè)聽實(shí) 驗(yàn)獲取主觀評(píng)估數(shù)據(jù)。測(cè)聽實(shí)驗(yàn)中,測(cè)試者由6位正常聽力者組成,其中3名男性和3名女 性,其母語均為漢語普通話,對(duì)普通話四聲調(diào)型有良好的識(shí)別能力。測(cè)試中,聽者要求佩戴 封閉式耳機(jī),W確保良好的聲音頻響特性和隔離外界噪音干擾。要求聽者主要關(guān)注兩個(gè)方 面的問題,一