專利名稱:評(píng)估單通道音頻信號(hào)中的音頻幀的語音質(zhì)量的方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及語音質(zhì)量評(píng)估技術(shù),并且尤其涉及用于評(píng)估單通道音頻信號(hào)中的音頻幀的語音質(zhì)量的方法。
背景技術(shù):
來自封閉空間內(nèi)的遠(yuǎn)程聲源的聲學(xué)信號(hào)產(chǎn)生根據(jù)房間脈沖響應(yīng)(RIR)變化的混響聲。根據(jù)空間內(nèi)混響級(jí)的觀察信號(hào)中的人類語音質(zhì)量的評(píng)估提供了有價(jià)值的信息。例如,在諸如互聯(lián)網(wǎng)協(xié)議電話(VOIP)系統(tǒng)、視頻會(huì)議系統(tǒng)、免提電話、聲控系統(tǒng)和助聽器的典型語音通信系統(tǒng)中,有利的是,無論房間混響如何,都知道在所產(chǎn)生的信號(hào)中語音是否清晰。
發(fā)明內(nèi)容
在此描述的語音質(zhì)量評(píng)估技術(shù)實(shí)施例通常涉及評(píng)估單通道音頻信號(hào)中的音頻幀的人類語音質(zhì)量。在典型實(shí)施例中,輸入音頻信號(hào)的幀,并且評(píng)估該幀的基頻。此外,將該幀從時(shí)域變換到頻域。然后,計(jì)算變換后的幀的諧波分量和非諧波分量。然后,使用諧波分量和非諧波分量計(jì)算諧波與非諧波之比(HnHR)。該HnHR表示用于計(jì)算該比率的單通道音頻信號(hào)中的用戶語音的質(zhì)量。這樣,HnHR被指定為該幀的語音質(zhì)量的評(píng)估值。在一個(gè)實(shí)施例中,利用音頻信號(hào)的幀的評(píng)估語音質(zhì)量向用戶提供反饋。這通常包括輸入所捕獲的音頻信號(hào),然后確定音頻信號(hào)的語音質(zhì)量是否落在規(guī)定的可接受水平以下。如果在規(guī)定的可接受水平以下,則向用戶提供反饋。在一個(gè)實(shí)現(xiàn)方式中,利用HnHR建立最小語音質(zhì)量閾值,在該最小語音質(zhì)量閾值以下,則認(rèn)為信號(hào)中的用戶語音質(zhì)量是不可接受的。然后,基于規(guī)定數(shù)量的連續(xù)音頻幀是否具有所計(jì)算的不超過規(guī)定的語音質(zhì)量閾值的HnHR,向用戶提供反饋。應(yīng)當(dāng)注意,提供本發(fā)明內(nèi)容用于以簡(jiǎn)化形式引入所選擇的概念,下面將在具體實(shí)施方式
中對(duì)它們做進(jìn)一步描述。本發(fā)明內(nèi)容不是旨在標(biāo)識(shí)要求保護(hù)的主題的關(guān)鍵特征或者必要特征,也不是旨在用來幫助確定要求保護(hù)的主題的范圍。
根據(jù)下面的描述、所附權(quán)利要求以及附圖,將更好地理解本公開的具體特征、方面和優(yōu)點(diǎn)。圖1是用于實(shí)現(xiàn)在此描述的語音質(zhì)量評(píng)估技術(shù)實(shí)施例的示例性計(jì)算程序架構(gòu)。圖2是示例性的基于幀的振幅加權(quán)因子的曲線圖, 其中,該振幅加權(quán)因子以混響尾部間隔逐漸降低合成的諧波分量信號(hào)的能量。圖3是一般概括用于評(píng)估混響信號(hào)的幀的語音質(zhì)量的處理的一個(gè)實(shí)施例的流程圖。圖4是一般概括用于向音頻語音捕獲系統(tǒng)的用戶提供關(guān)于所捕獲的單通道音頻信號(hào)中的人類語音的質(zhì)量的反饋的處理的一個(gè)實(shí)施例的流程圖。
圖bk 圖5B是一般概括用于確定音頻信號(hào)的語音質(zhì)量是否落在規(guī)定水平以下的、圖4的處理動(dòng)作的一個(gè)實(shí)現(xiàn)方式的流程圖。圖6是示出構(gòu)成用于實(shí)現(xiàn)在此描述的語音質(zhì)量評(píng)估技術(shù)實(shí)施例的示例性系統(tǒng)的通用計(jì)算裝置的圖。
具體實(shí)施例方式在下面對(duì)語音質(zhì)量評(píng)估技術(shù)實(shí)施例的描述中,參考構(gòu)成本文一部分的附圖,并且在附圖中通過示例示出了可以實(shí)施本技術(shù)的具體實(shí)施例。應(yīng)當(dāng)明白,也可以采用其它實(shí)施例,并且在不脫離該技術(shù)的范圍的情況下,可以進(jìn)行結(jié)構(gòu)改變。1. O語音質(zhì)暈評(píng)估通常,在此描述的語音質(zhì)量評(píng)估技術(shù)實(shí)施例通過自動(dòng)地向用戶反饋他或者她的話音質(zhì)量可以改善用戶的體驗(yàn)。諸如噪聲水平、回音泄漏、增益水平以及混響的許多因素影響所感知的話音質(zhì)量。在這些因素中,最大的挑戰(zhàn)是混響。迄今為止,沒有已知方法僅利用所觀察的語音測(cè)量混響的量。在此描述的語音質(zhì)量評(píng)估技術(shù)實(shí)施例提供了這樣一種度量標(biāo)準(zhǔn),它僅利用來自表示單音頻通道的信號(hào)的觀察語音樣本盲目測(cè)量(即,不需要“干凈的”用于比較的信號(hào))混響。已發(fā)現(xiàn)這對(duì)于各種房間環(huán)境(包括具有適當(dāng)量的背景噪聲的環(huán)境)下的揚(yáng)聲器和傳感器的隨機(jī)位置是可能的。更具體地,在此描述的語音質(zhì)量評(píng)估技術(shù)實(shí)施例盲目地采用所觀察的單通道音頻信號(hào)的諧度來評(píng)估用戶語音的質(zhì)量。諧度是人類話音語音的唯一特性。如上所述,關(guān)于觀察信號(hào)的質(zhì)量(取決于房間混響條件及揚(yáng)聲器到傳感器的距離)的信息向揚(yáng)聲器提供有用的反饋。在下面的小節(jié)中將更詳細(xì)地描述上面提到的諧度的采用。1.1信號(hào)建??梢岳梅忾]空間內(nèi)從聲源到傳感器的聲學(xué)聲音的多路徑傳播處理來對(duì)混響建模。通常,所接收的信號(hào)被分解為兩個(gè)分量早期混響(并且是直接路徑聲音)和晚期混響。早期混響(其在直接聲音之后不久到達(dá))加強(qiáng)該聲音并且對(duì)于確定語音可懂度是有用的分量。由于早反射依據(jù)說話者和傳感器位置改變的事實(shí),其還提供關(guān)于空間體積和說話者的距離的信息。晚期混響由在直接聲音到達(dá)后具有較長(zhǎng)延遲的反射產(chǎn)生,其削弱語音可懂度。這些不利影響通常隨著聲源與傳感器之間的距離變長(zhǎng)而增加。1.1.1混響信號(hào)模型被表示為h(n)的房間脈沖響應(yīng)(RIR)表示房間內(nèi)傳感器與說話者之間的聲學(xué)屬性。如上所述,混響信號(hào)可以被劃分為兩部分早期混響(包括直接路徑)和晚期混響
權(quán)利要求
1.一種用于評(píng)估包括人類語音分量的單通道音頻信號(hào)中的音頻幀的語音質(zhì)量的、計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 使用計(jì)算機(jī)執(zhí)行以下處理操作 輸入所述音頻信號(hào)的巾貞(300); 將所輸入的幀從時(shí)域變換到頻域(304); 計(jì)算變換后的幀的諧波分量(310); 計(jì)算變換后的幀的非諧波分量(312); 計(jì)算諧波與非諧波之比HnHR (314);以及 將計(jì)算出的HnHR指定為所述單通道音頻信號(hào)中的所輸入的幀的語音質(zhì)量的評(píng)估值(316)。
2.一種用于評(píng)估包括人類語音分量的單通道音頻信號(hào)中的音頻幀的語音質(zhì)量的、計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 使用計(jì)算機(jī)執(zhí)行以下處理操作 輸入所述音頻信號(hào)的巾貞(300); 對(duì)所輸入的幀的基頻進(jìn)行評(píng)估(302); 將所輸入的幀從時(shí)域變換到頻域以產(chǎn)生所述幀的頻譜(304); 計(jì)算所述幀的頻譜中與基頻的規(guī)定數(shù)量的整數(shù)倍中的每一個(gè)相對(duì)應(yīng)的頻率的振幅和相位值(306); 基于計(jì)算出的振幅和相位值,計(jì)算所輸入的幀的子諧波與諧波之比SHR (308); 基于計(jì)算出的SHR連同所述基頻以及所述振幅和相位值,合成所輸入的幀的諧波分量表示(310); 基于所述振幅和相位值連同所合成的諧波分量表示,計(jì)算所輸入的幀的非諧波分量(312); 基于所合成的諧波分量表示和所述非諧波分量,計(jì)算諧波與非諧波之比HnHR (314);以及 將計(jì)算出的HnHR指定為所述單通道音頻信號(hào)中的所輸入的幀的語音質(zhì)量的評(píng)估值(316)。
3.根據(jù)權(quán)利要求2所述的方法,其中所述基于計(jì)算出的振幅和相位值計(jì)算所輸入的幀的子諧波與諧波之比SHR的處理操作包括計(jì)算如下在前的和除以在后的和的商針對(duì)所述幀的頻譜中與基頻的規(guī)定數(shù)量的整數(shù)倍中的每一個(gè)相對(duì)應(yīng)的每個(gè)頻率所計(jì)算的振幅值的和;針對(duì)所述幀的頻譜中與基頻的規(guī)定數(shù)量的整數(shù)倍減O. 5中的每一個(gè)相對(duì)應(yīng)的每個(gè)頻率所計(jì)算的振幅值的和。
4.根據(jù)權(quán)利要求2所述的方法,其中所述基于計(jì)算出的SHR連同所述基頻以及所述振幅和相位值合成所輸入的幀的諧波分量表示的處理操作包括 計(jì)算振幅加權(quán)因子W(I)以便以所述幀的混響尾部間隔逐漸降低所述幀的諧波分量信號(hào)的合成表不的能量; 使用下述等式在一系列樣本時(shí)間內(nèi)合成所述幀的時(shí)域諧波分量元“/,O:
5.根據(jù)權(quán)利要求4所述的方法,其中所述計(jì)算振幅加權(quán)因子W(I)的處理操作包括計(jì)算所計(jì)算出的SHR的四次冪除以如下和的商,該和為所計(jì)算出的SHR的四次冪與規(guī)定加權(quán)參數(shù)相加的和。
6.根據(jù)權(quán)利要求4所述的方法,其中所述基于所述振幅和相位值連同所合成的諧波分量表示計(jì)算所輸入的幀的非諧波分量的處理操作包括 對(duì)于所述幀的頻譜中與基頻的整數(shù)倍對(duì)應(yīng)的每個(gè)頻率,從所述幀在該頻率下的計(jì)算出的振幅值中減去與該頻率相關(guān)聯(lián)的、合成的頻域諧波分量,以產(chǎn)生差值;以及使用期望算子函數(shù)從所產(chǎn)生的差值計(jì)算非諧波分量期望值。
7.根據(jù)權(quán)利要求6所述的方法,其中所述計(jì)算HnHR的處理操作包括 使用期望算子函數(shù)從與如下頻率相關(guān)聯(lián)的合成的頻域諧波分量計(jì)算諧波分量期望值該頻率為所述幀的頻譜中與所述基頻的整數(shù)倍對(duì)應(yīng)的頻率; 計(jì)算所計(jì)算出的諧波分量期望值除以所計(jì)算出的非諧波分量期望值的商;以及 將所述商指定為HnHR。
8.根據(jù)權(quán)利要求4所述的方法,其中所述計(jì)算HnHR的處理操作包括計(jì)算平滑HnHR,所述平滑HnHR是使用針對(duì)所述音頻信號(hào)的一個(gè)或更多個(gè)先前幀計(jì)算的HnHR的一部分來進(jìn)行平滑的。
9.根據(jù)權(quán)利要求8所述的方法,其中所述基于所述振幅和相位值連同所合成的諧波分量表示計(jì)算所輸入的幀的非諧波分量的處理操作包括 對(duì)于所述幀的頻譜中與基頻的整數(shù)倍對(duì)應(yīng)的每個(gè)頻率,從所述幀在該頻率下的計(jì)算出的振幅值中減去與該頻率相關(guān)聯(lián)的、合成的頻域諧波分量,以產(chǎn)生差值; 使用期望算子函數(shù)從所產(chǎn)生的差值計(jì)算非諧波分量期望值;以及將針對(duì)音頻信號(hào)的當(dāng)前幀的緊前幀計(jì)算的平滑非諧波分量期望值的規(guī)定百分比與針對(duì)所述當(dāng)前幀計(jì)算的非諧波分量期望值相加,以產(chǎn)生所述當(dāng)前幀的平滑非諧波分量期望值。
10.根據(jù)權(quán)利要求9所述的方法,其中所述計(jì)算平滑HnHR的處理操作包括 使用期望算子函數(shù)從與如下頻率相關(guān)聯(lián)的合成的頻域諧波分量計(jì)算諧波分量期望值該頻率為所述幀的頻譜中與所述基頻的整數(shù)倍對(duì)應(yīng)的頻率; 將針對(duì)音頻信號(hào)的當(dāng)前幀的緊前幀計(jì)算的平滑諧波分量期望值的規(guī)定百分比與針對(duì)所述當(dāng)前幀計(jì)算的諧波分量期望值相加,以產(chǎn)生所述當(dāng)前幀的平滑諧波分量期望值; 計(jì)算所述平滑諧波分量期望值除以所述平滑非諧波分量期望值的商;以及 將所述商指定為平滑HnHR。
全文摘要
本申請(qǐng)公開了一種用于評(píng)估單通道音頻信號(hào)中的音頻幀的語音質(zhì)量的方法。描述的語音質(zhì)量評(píng)估技術(shù)實(shí)施例通常包括評(píng)估單通道音頻信號(hào)中的音頻幀的人類語音質(zhì)量。合成所述幀的諧波分量表示并且利用它來計(jì)算所述幀的非諧波分量。然后,利用合成的諧波分量表示和非諧波分量計(jì)算諧波與非諧波之比(HnHR)。該HnHR表示用戶語音質(zhì)量,并且它被指定為所述幀的語音質(zhì)量的評(píng)估值。在一個(gè)實(shí)現(xiàn)方式中,HnHR用于建立最小語音質(zhì)量閾值,在該最小語音質(zhì)量閾值以下,即認(rèn)為用戶語音的質(zhì)量是不可接受的。然后,基于HnHR是否低于該閾值,向用戶提供反饋。
文檔編號(hào)H04L25/60GK103067322SQ20121052525
公開日2013年4月24日 申請(qǐng)日期2012年12月7日 優(yōu)先權(quán)日2011年12月9日
發(fā)明者陳偉戈, 張正友, 耶-莫·揚(yáng) 申請(qǐng)人:微軟公司