本發(fā)明涉及話音信號處理電路,具體來說,涉及能產(chǎn)生表示衰減話音信號的輸出分數(shù)的那些話音信號處理電路。
背景技術:
主觀聽音測試可被視為用于評定話音質(zhì)量的可靠方法。然而,它們可能昂貴且耗時??商鎿Q的是,客觀的自動方法可用于促進話音處理算法、編解碼器、裝置和網(wǎng)絡的質(zhì)量評定程序。它們從信噪比(snr)或頻譜距離(sd)等極簡單的測度跨越到包括心理聲學處理和認知(統(tǒng)計)模型的復雜方法。
后一類群是被設計成預測主觀聽音測試的分數(shù)的測度。這個類群的已知代表是itu-t標準系列,該itu-t標準系列在1997年開始于psqm(感知話音質(zhì)量測度),并在之后退出,且被pesq(感知話音質(zhì)量評估)和其寬帶版wb-pesq代替,接著在2011年終結于polqa(感知客觀聽音質(zhì)量評估)。來自這個系列的測度被廣泛使用,因為它們可以應用在許多不同的使用情況(例如線性和非線性失真的測試因子或丟包、譯碼技術、例如編解碼器評估、終端或網(wǎng)絡測試、話音增強算法的評定等應用、裝置等等)中一種類似的不再使用的測度是在1998年研發(fā)的tosqa(電信客觀話音質(zhì)量評定)。其它客觀測度更加專業(yè)化,只能用于一種應用,例如回聲抑止(equest)或噪聲減少(3quest)的評估。
所有上述測度都是侵入性測度,也就是說,通過與參考信號進行比較來估計受測試樣本(衰減信號)的質(zhì)量。
技術實現(xiàn)要素:
根據(jù)本發(fā)明的第一方面,提供一種被配置成接收時頻域參考話音信號和時頻域衰減話音信號的話音信號處理電路,其中時頻域參考話音信號和時頻域衰減話音信號中的每一個包括多個數(shù)據(jù)幀,其中:
時頻域參考話音信號處于時頻域中,并且包括:
上頻帶參考分量,該上頻帶參考分量具有大于頻率閾值的頻率;以及
下頻帶參考分量,該下頻帶參考分量具有小于頻率閾值的頻率;
時頻域衰減話音信號處于時頻域中,并且包括:
上頻帶衰減分量,該上頻帶衰減分量具有大于頻率閾值的頻率;以及
下頻帶衰減分量,該下頻帶衰減分量具有小于頻率閾值的頻率;
話音信號處理電路包括:
干擾計算器,該干擾計算器被配置成基于時頻域參考話音信號和時頻域衰減話音信號通過以下操作確定一個或多個sbr特征:
(i)對于多個幀中的每一個:
基于(i)上頻帶參考分量與(ii)下頻帶參考分量的比確定參考比;
基于(i)上頻帶衰減分量與(ii)下頻帶衰減分量的比確定衰減比;以及
基于參考比與衰減比的比確定頻譜平衡比;以及
(ii)基于多個幀的頻譜平衡比確定一個或多個sbr特征;以及
分數(shù)評估塊,該分數(shù)評估塊被配置成基于sbr特征確定衰減話音信號的輸出分數(shù)。
在一個或多個實施例中,時頻域衰減話音信號表示擴展帶寬信號。頻率閾值可對應于擴展帶寬信號的下頻帶和擴展帶寬信號的上頻帶之間的界限。
在一個或多個實施例中,擴展帶寬信號的上頻帶對應于已通過人工帶寬擴展算法添加的頻帶。擴展帶寬信號的下頻帶可對應于已通過人工帶寬擴展算法擴展的有限頻帶信號。
在一個或多個實施例中,干擾計算器被配置成確定以下sbr特征中的一個或多個:
具有正值頻譜平衡比的幀的頻譜平衡比的平均值;
具有負值頻譜平衡比的幀的頻譜平衡比的平均值;
具有正值頻譜平衡比的幀的頻譜平衡比的方差值;
具有負值頻譜平衡比的幀的頻譜平衡比的方差值;以及
(i)具有正值頻譜平衡比的幀的數(shù)目與(ii)具有負值頻譜平衡比的幀的數(shù)目的比。
在一個或多個實施例中,話音信號處理電路被配置成接收參考話音信號和衰減話音信號。參考話音信號和衰減話音信號中的每一個可包括多個數(shù)據(jù)幀。話音信號處理電路可包括:
參考時頻塊,該參考時頻塊被配置成基于參考話音信號確定時頻域參考話音信號;以及
衰減時頻塊,該衰減時頻塊被配置成基于衰減話音信號確定時頻域衰減話音信號。
參考話音信號和衰減話音信號可處于時域中。
在一個或多個實施例中,參考時頻塊包括參考感知處理塊,衰減時頻塊包括衰減感知處理塊。參考感知處理塊和衰減感知處理塊可以被配置成模擬人類聽覺的一個或多個方面。
在一個或多個實施例中,干擾計算器包括時頻域特征提取塊,該時頻域特征提取塊被配置成:
處理時頻域參考話音信號和時頻域衰減話音信號;以及
確定一個或多個額外的時頻域特征;并且
其中,分數(shù)評估塊被配置成基于時頻域特征確定輸出分數(shù)。
在一個或多個實施例中,時頻域特征提取塊包括歸一化協(xié)方差度量塊,該歸一化協(xié)方差度量塊被配置成:
處理時頻域參考話音信號和時頻域衰減話音信號,以便計算歸一化協(xié)方差度量特征,其中歸一化協(xié)方差度量是基于時頻域參考話音信號和時頻域衰減話音信號之間的協(xié)方差;并且
其中,分數(shù)評估塊被配置成基于歸一化協(xié)方差度量確定輸出分數(shù)。
在一個或多個實施例中,時頻域特征提取塊包括絕對失真塊,該絕對失真塊被配置成:
處理時頻域參考話音信號和時頻域衰減話音信號,以便計算絕對失真,其中絕對失真表示時頻域參考話音信號和時頻域衰減話音信號之間的絕對差;以及
基于絕對失真確定以下絕對失真特征中的一個或多個:
包括話音的幀的絕對失真的平均值;
包括話音的幀的絕對失真的方差值;
包括話音且絕對失真為正的幀的絕對失真的平均值;
包括話音且絕對失真為正的幀的絕對失真的方差值;
包括話音且絕對失真為負的幀的絕對失真的平均值;
包括話音且絕對失真為負的幀的絕對失真的方差值;
包括話音且絕對失真為正的幀以及上頻帶頻率分量的絕對失真的平均值;
包括話音且絕對失真為正的幀以及上頻帶頻率分量的絕對失真的方差值;
包括話音且絕對失真為負的幀以及上頻帶頻率分量的絕對失真的平均值;
包括話音且絕對失真為負的幀以及上頻帶頻率分量的絕對失真的方差值;并且
其中,分數(shù)評估塊被配置成基于絕對失真特征確定輸出分數(shù)。
在一個或多個實施例中,時頻域特征提取塊包括相對失真塊,該相對失真塊被配置成:
處理時頻域參考話音信號和時頻域衰減話音信號,以便將相對失真計算為信號失真比;以及
基于相對失真確定以下相對失真特征中的一個或多個:
包括話音的幀的相對失真的平均值;
包括話音的幀的相對失真的方差值;
其中,分數(shù)評估塊被配置成基于相對失真特征中的一個或多個確定輸出分數(shù)。
在一個或多個實施例中,時頻域特征提取塊包括二維相關塊,該二維相關塊被配置成處理時頻域參考話音信號和時頻域衰減話音信號,以便計算二維相關值;并且
其中,分數(shù)評估塊被配置成基于二維相關值確定輸出分數(shù)。
在一個或多個實施例中,話音信號處理電路被配置成接收參考話音信號和衰減話音信號,其中時頻域參考話音信號是參考話音信號的時頻域表示,時頻域衰減話音信號是衰減話音信號的時頻域表示。干擾計算器可包括基于樣本的時域特征提取塊,該基于樣本的時域特征提取塊被配置成:
接收參考話音信號和衰減話音信號的時域表示;以及
基于參考話音信號和衰減話音信號的時域表示確定一個或多個基于樣本的特征;并且
其中,分數(shù)評估塊被配置成基于所述基于樣本的特征確定輸出分數(shù)。
在一個或多個實施例中,基于樣本的時域特征提取塊包括gsdsr塊,該gsdsr塊被配置成對參考話音信號和衰減話音信號的時域表示執(zhí)行基于樣本的處理,以便確定全局信號與衰減話音比,其中全局信號與衰減話音比指示對源于參考話音信號和衰減話音信號的全部樣本的能量的比較;并且
其中,分數(shù)評估塊被配置成基于全局信號與衰減話音比確定輸出分數(shù)。
在一個或多個實施例中,話音信號處理電路被配置成接收參考話音信號和衰減話音信號,其中時頻域參考話音信號是參考話音信號的時頻域表示,時頻域衰減話音信號是衰減話音信號的時頻域表示。干擾計算器可包括基于幀的時域特征提取塊,該基于幀的時域特征提取塊被配置成:
接收參考話音信號和衰減話音信號的幀式時域表示;以及
基于參考話音信號和衰減話音信號的幀式時域表示確定一個或多個基于幀的特征;并且
其中,分數(shù)評估塊被配置成基于所述基于幀的特征確定輸出分數(shù)。
在一個或多個實施例中,干擾計算器包括ssdr塊,該ssdr塊被配置成:
處理參考話音信號和衰減話音信號的幀式時域表示,以便確定話音與話音失真比;以及
基于話音與話音失真比,確定以下ssdr特征中的一個或多個:
包括話音的幀的話音與話音失真比的平均值,
不包括話音的幀的話音與話音失真比的平均值,
包括話音的幀的話音與話音失真比的方差值,
不包括話音的幀的話音與話音失真比的方差值;并且
其中,分數(shù)評估塊被配置成基于ssdr特征中的一個或多個確定輸出分數(shù)。
在一個或多個實施例中,干擾計算器包括lsd塊,該lsd塊被配置成:
處理參考話音信號和衰減話音信號的時頻域表示,以便確定對數(shù)頻譜失真;以及
基于對數(shù)頻譜失真確定以下lsd特征中的一個或多個:
包括話音的幀的對數(shù)頻譜失真的平均值;
包括話音的幀的對數(shù)頻譜失真的方差值;并且
其中,分數(shù)評估塊被配置成基于lsd特征中的一個或多個確定輸出分數(shù)。
在一個或多個實施例中,話音信號處理電路另外包括輸入層,該輸入層被配置成接收輸入?yún)⒖荚捯粜盘柡洼斎胨p話音信號。輸入層可包括:
電平調(diào)整塊,該電平調(diào)整塊被配置成通過在小于頻率閾值的頻率下基于輸入?yún)⒖荚捯粜盘柡洼斎胨p話音信號的電平執(zhí)行輸入?yún)⒖荚捯粜盘柡洼斎胨p話音信號的電平調(diào)整而提供參考話音信號和衰減話音信號。
在一個或多個實施例中,話音信號處理電路另外被配置成接收語音指示信號,其中語音指示信號指示參考話音信號和衰減話音信號的幀是否含有話音。干擾計算器可以被配置成基于語音指示信號確定以下特征中的一個或多個:
僅僅語音指示信號指示存在話音的參考話音信號和衰減話音信號的幀或
僅僅語音指示信號指示不存在話音的參考話音信號和衰減話音信號的幀。
可提供一種處理衰減話音信號的方法,該方法包括:
接收包括多個數(shù)據(jù)幀的時頻域參考話音信號,其中時頻域參考話音信號處于時頻域中,并且包括:
上頻帶參考分量,該上頻帶參考分量具有大于頻率閾值的頻率;以及
下頻帶參考分量,該下頻帶參考分量具有小于頻率閾值的頻率;
接收包括多個數(shù)據(jù)幀的時頻域衰減話音信號,其中時頻域衰減話音信號處于時頻域中,并且包括:
上頻帶衰減分量,該上頻帶衰減分量具有大于頻率閾值的頻率;以及
下頻帶衰減分量,該下頻帶衰減分量具有小于頻率閾值的頻率;
基于時頻域參考話音信號和時頻域衰減話音信號通過對多個幀的以下操作確定一個或多個sbr特征:
基于(i)上頻帶參考分量與(ii)下頻帶參考分量的比確定參考比;
基于(i)上頻帶衰減分量與(ii)下頻帶衰減分量的比確定衰減比;以及
基于參考比與衰減比的比確定頻譜平衡比;以及
基于多個幀的頻譜平衡比確定一個或多個sbr特征;以及
基于sbr特征確定衰減話音信號的輸出分數(shù)。
可提供包括本文所公開的任何電路或系統(tǒng)或被配置成執(zhí)行本文所公開的任何方法的集成電路或裝置。
還可提供計算機程序,所述計算機程序當在計算機上運行時使得計算機配置任何設備(包括本文所公開的電路、系統(tǒng)或裝置)或執(zhí)行本文所公開的任何方法。
雖然本發(fā)明容許各種修改和替代形式,但其細節(jié)已經(jīng)借助于例子在圖式中示出且將詳細地描述。然而,應理解,超出所描述的特定實施例的其它實施例也是可能的。也涵蓋落入所附權利要求書的精神和范疇內(nèi)的所有修改、等效物和替代實施例。
以上論述并不意圖表示當前或將來權利要求集的范疇內(nèi)的每一示例實施例或每一實施方案。圖式和以下詳細描述還例示各種示例實施例??紤]以下結合附圖的詳細描述可以更全面地理解各種示例實施例。
附圖說明
現(xiàn)將僅借助于例子參考附圖描述一個或多個實施例,在附圖中:
圖1示出了可用于使用侵入性儀器測度來確定受測試信號的質(zhì)量的系統(tǒng)的通用框圖;
圖2示出了可用于確定經(jīng)abe處理的衰減信號的質(zhì)量的系統(tǒng)的框圖;
圖3示出了包括圖2的系統(tǒng)中的一些塊而不是全部塊的話音信號處理電路;
圖4示出了可用于從衰減信號提取特征的系統(tǒng)的框圖,所述衰減信號包括經(jīng)abe處理的衰減信號;以及
圖5示出了可如何提取/確定特定特征的更詳細的圖示。
具體實施方式
圖1示出了可用于以侵入性方式確定受測試信號的質(zhì)量的系統(tǒng)的通用框圖。
圖1示出了接收輸入?yún)⒖荚捯粜盘?04和輸入衰減話音信號106的輸入層102。輸入層102可由若干預處理塊構成,(例如)從而執(zhí)行輸入?yún)⒖荚捯粜盘?04和輸入衰減話音信號106之間的時間對準、語音活動檢測、電平調(diào)整等。將在下文中提供另外細節(jié)。輸入層102向干擾計算器112提供經(jīng)處理形式的參考信號和衰減信號。
干擾計算器112可計算一個或多個質(zhì)量指示符,其還可被稱作特征或干擾(因為它們是參考信號104和衰減信號106之間的差異的指示符)。在干擾計算器112計算質(zhì)量指示符之前,它可計算這兩個輸入信號的新表示。例子可為通過干擾計算器112接收的信號的時頻域表示。此類時頻域表示可由感知模型提供,并用于模擬經(jīng)選擇的人類聽覺的各方面(例如,以應用時間或頻率掩模、聽覺閾值、聽覺過濾)。干擾計算器112的輸出端連接到認知(統(tǒng)計)模型114,該認知(統(tǒng)計)模型114提供mos-lqo(平均意見分-客觀旁聽質(zhì)量)輸出信號/輸出分數(shù)116。
認知(統(tǒng)計)模型114還可被稱作質(zhì)量分數(shù)預測器,其可實施為(多變量)線性或二次回歸(如在pesq、polqa、3quest)中、人工神經(jīng)網(wǎng)絡(如在equest、3quest中),或任何其它經(jīng)訓練的統(tǒng)計模型。
對圖1的此通用模型的某些修改是可能的,以便更加強調(diào)不同的質(zhì)量因子。例如,對于人工帶寬擴展(abe)解決方案,摩擦音的重新建構可能更為重要。一般來說,摩擦音的大部分頻譜含量高于4khz,并且因此在窄帶(nb)話音中不能很好地表示。將在下文更詳細地論述abe。
摩擦音,特別是/s/和/z/音的正確的重新建構可對感知話音質(zhì)量產(chǎn)生較大的影響。一般來說,話音質(zhì)量的感知取決于在話音信號中出現(xiàn)的某一音度。為了利用此質(zhì)量因子,基于參考的話音質(zhì)量測量系統(tǒng)不僅可以使用衰減和參考話音信號作為輸入,而且還可以使用話音信號的音標轉錄,以應用對圖1中示出的方案的任何部分的修改。取決于轉錄,感知模型或干擾計算器112對干擾的計算內(nèi)的某一權重可被調(diào)整成減少經(jīng)選擇音(例如,先前提及的摩擦音/s/或/z/)的影響。
一個不同的例子是“旁聽質(zhì)量的診斷儀器評定”(dial),其已作為polqa計劃的部分發(fā)展。dial遵循若干專用測度的組合比一個單一的復雜測度更有效的假設,并且因此組合核心測度(其實施圖1的通用模型)與四個指定的質(zhì)量維度(直度/頻率含量、連續(xù)性、噪度和響度)。
不存在被專門設計成用于經(jīng)abe處理的話音信號的標準化客觀測度。wb-pesq和polqa可被視為通用測度,它們測試用于經(jīng)abe處理的信號的“平均意見分-主觀旁聽質(zhì)量”(mos-lqs)的預測的精確度。然而,結果顯示它們都沒有顯現(xiàn)出足夠高的與旁聽測試分數(shù)的相關性,因此無法被視為可靠的abe解決方案的質(zhì)量估計器。
并且,使用需要額外輸入時間對準的音標轉錄的方法可能較為冗長,并且可能承受語言依賴解決方案的風險。而話音質(zhì)量的儀器測度應該旨在在世界的幾乎全部語言中預測可靠的mos分數(shù)。
在下文中公開的另一個例子可能與已經(jīng)利用abe(人工帶寬擴展)算法處理的話音信號特別相關。通過估計和產(chǎn)生超出那些限度的含量,abe算法可擴展具有有限頻帶的輸入信號的頻率范圍。例如,在寬帶(wb)abe算法的情況下,輸入窄帶(nb)信號具有0hz<=f<=4khz的頻率范圍,這提供了下頻帶含量。通過產(chǎn)生上頻帶含量,abe算法可將那一范圍擴展到高達8khz(高于閾值頻率,該閾值頻率在此情況下等于4khz)。在此例子中,下頻帶具有在0和4khz之間的頻率含量,上頻帶具有在4khz和8khz之間的頻率含量。
圖2示出了可用于確定經(jīng)abe處理的衰減信號的質(zhì)量的系統(tǒng)的框圖。
也被稱作受測試信號或輸入衰減話音信號206的經(jīng)abe處理的話音信號表示為
是樣本索引,ns是信號中的樣本總數(shù)。此例子是基于用于確定輸入衰減話音信號206的質(zhì)量的侵入性方案,因此輸入?yún)⒖荚捯粜盘杝′(n)204用于執(zhí)行
在一個實施方案中,wb話音的有效帶寬被限定為50hz<=f<=7000hz,但是應了解,該帶寬可以是理論范圍內(nèi)的任何其它值。在此實施方案中,
圖2的系統(tǒng)包括輸入層202,該輸入層202可執(zhí)行時延補償、語音活動檢測和電平調(diào)整。
因為此例子基于侵入性方案,所以為了精確比較兩個輸入信號,符合要求的時間對準可極為重要。由于話音譯碼、傳輸或話音增強算法(例如,abe),時延可引入到輸入衰減話音信號206。因此,應該計算并補償輸入信號204、206兩者之間的時延。
如圖2所示,時延估計塊218可用于估計輸入?yún)⒖荚捯粜盘?04和輸入衰減話音信號206之間的時延,并且一個或兩個時延補償塊220、222可用于將時延補償應用到輸入?yún)⒖荚捯粜盘?04和/或輸入衰減話音信號206。通過計算輸入?yún)⒖荚捯粜盘?04和輸入衰減話音信號206之間的交叉相關性,并接著將輸入衰減話音信號206移位到交叉相關函數(shù)的最大值處,可實現(xiàn)時間對準,且反之亦然。因此,輸入信號204、206兩者都可切至較短輸入信號的長度??墒褂幂斎胨p話音信號206或輸入?yún)⒖荚捯粜盘?04的補零,以使得輸入信號204、206兩者中具有相同數(shù)量的樣本。應了解,也可使用其它方法進行輸入信號204、206的時間對準??墒褂酶蛹毣姆椒▽恼麄€輸入信號204、206中提取的話音的較短片段執(zhí)行時間對準。
在圖2的實施方案中,語音活動檢測器(vad)224對參考輸入s′(n)執(zhí)行語音活動檢測,其產(chǎn)生語音指示信號vad(t)。在此例子中,語音指示信號vad(t)包括逐幀vad值,其中t為幀索引。語音指示信號vad(t)提供關于信號的有聲部分(vad(t)=1)和靜音部分(vad(t)=0)的信息,這取決于它們由幀索引t限定的時間位置。因此,數(shù)據(jù)幀可在時域中間隔開。
應了解,vad224可處理輸入?yún)⒖荚捯粜盘?04、輸入衰減話音信號206,或這兩者(接著將結果組合到指示話音是否存在的單個判定中)。在一些例子中,對于vad224可為有利的是,處理輸入?yún)⒖荚捯粜盘?04(或基于輸入?yún)⒖荚捯粜盘?04的信號),因為此信號基本上不含失真。
在其中vad224計算逐幀vad值的例子中,可使用能量的簡單閾值處理。還可以應用更復雜的解決方案,例如使用自適應閾值。
在此例子中,輸入層還包括兩個電平調(diào)整塊226、228,其用于調(diào)整由時延補償塊220、222提供的相應的信號的功率電平。電平調(diào)整塊226、228可相對于作用話音電平歸一化它們的輸入信號。電平調(diào)整塊226、228可使用來自vad224的語音指示信號vad(t)確定有效話音電平。
在一些例子中,輸入?yún)⒖荚捯粜盘?04和輸入衰減話音信號206之間的電平差可被視作質(zhì)量因子,并且因此可充當額外特征。然而,如果不是這樣的情況,那么輸入信號(參考204和衰減206)可向同一全局電平按比例縮放,或輸入衰減話音信號206可向輸入?yún)⒖荚捯粜盘?04的電平按比例縮放。對于abe算法,上頻帶中的電平差可特別重要,因此電平調(diào)整塊226、228可僅在下頻帶(lb)頻率范圍(在小于頻率閾值的頻率下)中基于輸入?yún)⒖荚捯粜盘?04和輸入衰減話音信號206的電平來執(zhí)行電平調(diào)整。也就是說,兩個輸入信號204、206的上頻帶分量可不用于調(diào)整輸入?yún)⒖荚捯粜盘?04或衰減信號的電平。
電平調(diào)整塊226、228可測量信號的輸入電平,并借助于在全部有效話音幀中的均方根值應用任何比例因子。這可通過采用itu-t規(guī)范p.56或采用以分批模式或以逐樣本或逐幀方式操作的任何類似的電平測量方法來實現(xiàn)。
兩個電平調(diào)整塊226、228分別提供參考話音信號s(n)230和衰減話音信號
應了解,輸入層202可包括其它預處理塊,(例如)以對接近共同采樣頻率的輸入信號進行再取樣,或(修改后的)中間參考系統(tǒng)((m)irs)濾波器或其它濾波器。
在衰減話音信號232和參考話音信號s(n)230在時間上已經(jīng)對準,并且它們的電平已通過輸入層202調(diào)整之后,描述參考和衰減話音信號之間的差異的特征可通過干擾計算器212進行計算。如在下文中參看圖4和5將詳細地論述,特征可從輸入信號的不同表示推導出:時域表示(特征的逐樣本和逐幀計算);以及時頻域表示(例如,短時傅里葉變換(stft),或離散余弦變換(dct),或從時域到視頻域的任何其它信號的變換),其中應用任選的額外處理(例如,濾波器組或頻譜稱重),或聽覺模型(感知模型)表示。由于聽覺模型可執(zhí)行時頻分析,所以從此模型推導出的全部特征還可以從不同的時頻表示計算出,例如stft,但在那種情況下,它們將不對感知模型中包括的心理聲學效應做出解釋。
干擾計算器212可提取/確定衰減話音信號
圖2的系統(tǒng)還包括認知模型214,其也被稱作分數(shù)評估塊,在此例子中,該認知模型214包括特征歸一化塊234、mos預測器塊236和分數(shù)去歸一化塊238。這些塊中的每一個可使用經(jīng)預訓練參數(shù),該參數(shù)可從存儲器240存取。
取決于認知模型214的訓練策略,歸一化塊234執(zhí)行特征向量x′的歸一化可為有益的。如果是這樣,那么在訓練期間,計算用于特征向量x′的每一維度的比例因子和偏移量,并且該比例因子和偏移量在此處用于歸一化經(jīng)提取特征向量x′,這產(chǎn)生了歸一化的特征向量x。在沒有進行歸一化的情況下,x=x′成立。當將線性回歸用作認知模型214時,可隱含地實現(xiàn)比例因子和偏移量到特征維度的應用。
經(jīng)提取特征表示觀察到的輸入衰減話音信號206中的失真,因此其是到所預測的mos-lqo值216的鏈路。在此例子中,mos預測器236已事先訓練過,并且因此使用存儲在存儲器240中的經(jīng)預訓練參數(shù)。為了改進帶寬擴展(be)信號的性能,模型的訓練集合可主要由利用abe算法進行處理的話音樣本構成。
如果mos預測器236對歸一化mos-lqs值進行了訓練,那么它首先估計mos-lqo值,該mos-lqo值也處于歸一化范圍中。因此,歸一化值可通過分數(shù)去歸一化塊238進行去歸一化,以使得它們使用預先計算的比例因子和偏移量而向典型mos范圍移位,從而可將mos-lqo216作為輸出提供。
圖3示出了包括圖2的系統(tǒng)中的一些塊而不是全部塊的話音信號處理電路300。圖3將用于論述確定sbr特征以確定輸出分數(shù)316的干擾計算器的特定例子。
話音信號處理電路300(例如)從輸入層(例如,圖2中所示出的輸入層)接收參考話音信號330和衰減話音信號332。參考話音信號和衰減話音信號中的每一個包括多個數(shù)據(jù)幀,并且在此例子中,它們處于時域中。
話音信號處理電路300包括參考時頻塊342和衰減時頻塊344。參考時頻塊342基于參考話音信號330,確定時頻域參考話音信號。時頻域參考話音信號處于時頻域中,并且包括:(i)上頻帶參考分量,其對應于具有大于頻率閾值的頻率的時頻域參考話音信號的分量;以及(ii)下頻帶參考分量,其對應于具有小于頻率閾值的頻率的時頻域參考話音信號的分量。頻率閾值可對應于已通過abe算法擴展的窄帶信號的上限,在此情況下,下頻帶對應于abe算法的輸入信號,上頻帶對應于已經(jīng)通過abe算法添加的擴展頻率分量。對于上文所述的數(shù)值例子,頻率閾值將為4khz。
通過類似方式,衰減時頻塊344基于衰減話音信號332,確定時頻域衰減話音信號。時頻域衰減話音信號處于時頻域中,并且包括:(i)上頻帶衰減分量,其對應于具有大于頻率閾值的頻率的時頻域衰減話音信號的分量;以及(ii)下頻帶衰減分量,其對應于具有小于頻率閾值的頻率的時頻域衰減話音信號的分量。
在一些例子中,參考時頻塊342和衰減時頻塊344的功能性可由模擬人類聽覺的一個或多個方面的感知模型塊提供。
干擾計算器312可基于多個幀的時頻域參考話音信號和時頻域衰減話音信號,確定頻譜平衡比(sbr)。頻譜平衡比通過以下操作進行計算:
基于(i)上頻帶參考分量與(ii)下頻帶參考分量的比,確定參考比;
基于(i)上頻帶衰減分量與(ii)下頻帶衰減分量的比,確定衰減比;以及
基于參考比與衰減比的比,確定頻譜平衡比。
以此方式,頻譜平衡比(sbr)可表示這兩個輸入信號的兩個頻帶的關系。除了對遺漏上頻帶的譜形的正確估計之外,在遺漏頻帶中具有正確能量還可在主觀質(zhì)量感知中發(fā)揮重要作用。此外,下頻率分量和上頻率分量之間的頻譜平衡應通過abe算法適當恢復。因此,由sbr限定的能量比被設計成不僅比較經(jīng)人工擴展的頻率分量(上頻帶)的能量,而且還比較衰減信號與參考信號的所得頻譜平衡。
在數(shù)學上,sbr可表示為:
其中:
|h(l,b)|2是時頻域中的時頻域參考話音信號的絕對平方值,
l表示幀索引,并且因此充當時頻域信號的時間索引,
b表示頻段索引或頻帶索引,并且因此標引時頻域信號的頻域部分,
bub表示指定上頻帶的頻率索引b的集合,
blb表示指定下頻帶的頻率索引b的集合,以及
μ(x(l,b);b)表示時頻信號x的(經(jīng)加權)均值,其中該均值通過具有在b中的索引b的頻率計算得到。
此等式表示在上頻帶分量和下頻帶分量中的每一個中的能級比。
sbr的正值指示衰減信號的上頻帶中的能量過低,sbr的負值指示衰減信號的上頻帶中的能量過高。在數(shù)學上:
lsbr+表示幀集合,其中找到正(+)不平衡,也就是說,經(jīng)abe處理的信號(衰減信號)的上頻帶在上頻帶中不具有能量,和/或在下頻帶中含有過多的能量。因此,衰減信號的頻譜輪廓的特征為比來自參考信號的斜率更高的斜率。lsbr-表示相反意義。
隨后,干擾計算器312可基于多個幀的頻譜平衡比,確定一個或多個sbr特征。sbr特征的例子包括:
a)具有sbr的正值的各個幀的sbr的平均值,
b)具有sbr的負值的各個幀的sbr的平均值,
c)具有sbr的正值的各個幀的sbr的方差值,
d)具有sbr的負值的各個幀的sbr的方差值,
e)(i)具有sbr的正值的幀數(shù)目與(ii)具有sbr的負值的幀數(shù)目的比,
上述數(shù)學符號將另外參看可由干擾計算器312執(zhí)行以確定其它特征的其它計算進行描述。
話音信號處理電路300還包括分數(shù)評估塊314,其用于基于sbr特征,確定衰減話音信號332的輸出分數(shù)316。分數(shù)評估塊314可應用認知模型。分數(shù)評估塊314可(例如)應用線性預測或回歸、使用神經(jīng)網(wǎng)絡,或執(zhí)行可將接收到的sbr特征映射到輸出分數(shù)316的值的任何其它功能性。
圖4示出了可用于從衰減信號提取特征的系統(tǒng)的框圖,該衰減信號包括經(jīng)abe處理的衰減信號。
系統(tǒng)包括干擾計算器412,其具有三個特征提取塊:基于樣本的時域特征提取塊454、基于幀的時域特征提取塊456和時頻域特征提取塊458。干擾計算器412還包括多路復用器460,其可將由各個塊產(chǎn)生的單個特征組合成特征向量x′。
通過干擾計算器412確定的特征中的每一個可使用完整輸入信號、可僅使用已檢測到語音活動的輸入信號的片段/幀,或可僅使用具有話音停頓的片段/幀(基于vad判定)進行計算。
系統(tǒng)接收參考話音信號430和衰減話音信號432。這些輸入信號被提供到基于樣本的時域特征提取塊454。基于樣本的特征提取塊454可處理接收到的時域信號,并產(chǎn)生將納入特征向量x′中的一個或多個基于樣本的特征??赏ㄟ^基于樣本的特征提取塊454確定的特征的例子將參看圖5進行更詳細的論述。
圖4的系統(tǒng)還包括參考成幀塊446和衰減成幀塊448。參考成幀塊446處理參考話音信號430,并產(chǎn)生仍處于時域中的幀式參考信號。幀式參考信號中的數(shù)據(jù)被拆分成具有幀索引t的多個幀。類似地,衰減成幀塊448處理衰減話音信號432,并產(chǎn)生幀式衰減信號??舍槍μ囟☉脕碓O置成幀的時間分辨率。在一個例子中,幀長度是16ms,并且不使用重疊。
基于幀的時域特征提取塊456可處理幀式參考信號和幀式衰減信號,并產(chǎn)生將納入特征向量x′中的一個或多個基于幀的特征??赏ㄟ^基于幀的特征提取塊456確定的特征的例子將參看圖5進行更詳細的論述。
圖4的系統(tǒng)還包括參考dft塊450和衰減dft塊452。參考dft塊450對幀式參考信號執(zhí)行數(shù)字傅里葉變換,以便為時頻域特征提取塊458提供時頻域參考話音信號。在一些例子中,可對參考dft塊450的輸出信號執(zhí)行任選的額外處理442b,以便向時頻域特征提取塊458提供合適的時頻域信號。例如,額外處理442b可包括頻帶加權以強調(diào)一些頻帶的重要性、去除低于聽覺閾值的分量,以及其它感知處理(或組合)。類似地,衰減dft塊452對衰減參考信號執(zhí)行數(shù)字傅里葉變換,以便為時頻域特征提取塊458提供時頻域衰減話音信號。同樣,可對衰減dft塊452的輸出信號執(zhí)行任選的額外處理444b。
參考dft塊450和任選的額外處理塊442b可被視為參考時頻塊的例子,因為它/它們?yōu)楦蓴_計算器412提供時頻域參考話音信號。類似地,衰減dft塊452和任選的額外處理塊444b可被視為衰減時頻塊的例子,因為它/它們?yōu)楦蓴_計算器412提供時頻域衰減話音信號。
在圖4中,系統(tǒng)還包括參考感知處理塊442a和衰減感知處理塊444a。如上文所論述,這些塊可用于模擬人類聽覺的各方面,并且可提供時頻域中的信號。因此,這些塊也可被視為參考時頻塊/衰減時頻塊的例子。
時頻域特征提取塊458可處理時頻域參考話音信號和時頻域衰減話音信號,并產(chǎn)生將納入特征向量x′中的一個或多個時頻域特征。時頻域特征的例子包括sbr特征。將參看圖5對可通過時頻域特征提取塊458確定的其它特征進行更詳細的論述。
圖5示出了可如何通過干擾計算器提取/確定特定特征的更詳細的圖示。在圖4中也示出的圖5的組件已經(jīng)以500系列形式給出對應的附圖標號,并且此處將不必再次進行描述。
在此例子中,干擾計算器512還從vad(例如,圖2中所示出的vad)中接收語音指示信號vad(t)525。干擾計算器512內(nèi)的處理塊中的一個或多個可使用語音指示信號vad(t)525來區(qū)別包括話音的幀(有效語音幀)和不包括話音的那些幀。
在以下描述中,參數(shù)
為了表達整個信號的測得的失真,需要可為特征向量x′的部分的單個特征。因此,針對給出的逐幀失真測度d(t),均值μ和方差σ2可計算如下:
通常,但不是排他性地,使用以下集合:
來限定存在話音的幀和話音停頓。
在上述等式中,參數(shù)t用于表示幀索引。然而,由于不同的特征提取塊可使用不同的成幀參數(shù),所以l在文中也可用于表示幀索引。在此類情況下,以類似方式限定
干擾計算器512的各個處理塊處理通過感知處理塊542、544輸出的時頻域信號,該感知處理塊542、544可限定聽覺模型。已知若干心理聲學模型并用于話音信號處理。在一個實施方案中,感知處理塊542、544使用由羅蘭索泰克(rolandsottek)研發(fā)的聽覺模型(“用于在人耳中進行信號處理的模型(modellezursignalverarbeitungimmenschlichen
對濾波器組頻帶(如在這個實施例中所使用的)和它們相應的下截止頻率fl、中心頻率fc與上截止頻率fu,以及所得頻率帶寬fδ的限定在下方表格中示出,該表格示出了巴克濾波器組限定。
另外,頻帶被拆分成下范圍和上范圍。此分離可取決于所應用的聽覺模型而產(chǎn)生變化。在這個實施例中,分離是在4khz處,因此下頻帶(lb)和上頻帶(ub)被限定為:
其中頻帶數(shù)目是:
用于聽覺模型的成幀參數(shù)可不同于由成幀塊546、548使用的成幀參數(shù)(例如,當計算ssdr和lsd時,如下文所論述),并且因此針對基于在感知上經(jīng)處理的信號的特征,使用幀索引l。語音指示信號vad(t)525可因此經(jīng)由內(nèi)插轉換成vad(1),例如,通過圖5中展示的時間轉換塊572。在此實施例中,用于感知處理的幀長度被設置成3.3ms。
為了從給定失真的時頻表示d(l,b)中獲得單個特征,其中l(wèi)是幀索引,b是頻帶標識符,均值和方差可計算如下:
其中
為了執(zhí)行頻率集成,給定失真的時頻表示d(l,b)還可僅僅通過頻率頻帶集合
再次,所有上述等式可使用用于幀索引的不同參數(shù)(例如,是t而不是l,是
干擾計算器512包括八個特征提取塊554、556a、556b、562、564、566、568、570,其中的每一個特征提取塊可產(chǎn)生將納入特征向量x′中的特征或特征集合。現(xiàn)將轉而描述由這些特征提取塊中的每一個執(zhí)行的處理。
全局信號與衰減話音比(gsdsr)
gsdsr塊554可對參考話音信號430和衰減話音信號432執(zhí)行基于樣本的處理,以便確定全局信號與衰減話音比(gsdsr)。gsdsr是基于樣本的特征的例子,并且指示來自話音信號的全部樣本的能量的比較:
話音與話音失真比(ssdr)
ssdr塊556a可對幀式參考話音信號430和衰減話音信號432執(zhí)行基于幀的處理,以便確定話音與話音失真比(ssdr)。ssdr可用于確定基于幀的特征。
根據(jù)輸入信號s(n)430和
其中
ssdr(t)=min{ssdr′(t),30db}
下列ssdr特征是基于幀的特征的例子,它們可隨后提取為:
a)包括話音的各個幀(有效語音幀)的ssdr的平均值,
b)不包括話音的各個幀(話音停頓)的ssdr的平均值,
c)包括話音的各個幀的ssdr的方差值,
d)不包括話音的各個幀的ssdr的方差值,
在特別有利的實施例中,對有效語音幀執(zhí)行計算以檢測參考和衰減話音信號之間能量和相位的頻率不依賴性不匹配。此外,可對話音停頓計算均值和方差,以檢測abe解決方案是否錯誤地在上頻帶中添加了含量,以及錯誤添加的程度。
對數(shù)頻譜失真(lsd)
lsd塊556b可對幀式參考信號和幀式衰減信號的時頻域表示執(zhí)行處理,以便確定對數(shù)頻譜失真(lsd)。這些時頻域表示由參考dft塊550和衰減dft塊452提供。lsd可用于確定時頻域特征。
lsd是衰減話音信號的短期波譜
此外,計算被限制在頻率范圍50hz<=f<=7000hz內(nèi),因此
下列l(wèi)sd特征是時頻域特征的例子,它們可隨后提取為:
a)包括話音的各個幀(有效語音幀)的lsd的平均值,
b)包括話音的各個幀的lsd的方差值,
在此例子中,一般來說,僅僅對存在話音的幀計算均值和方差,以測量對波譜的估計的精確度。
絕對失真(δhabs)
絕對失真(δhabs)塊562可對如由感知處理塊542、544提供的時頻域參考話音信號(h(l,b))和時頻域衰減信號
δhabs是在應用聽覺模型之后參考和衰減信號的表示之間的差:
基于經(jīng)時頻(此處:聽覺模型)處理的表示h和
對于單個時頻域特征的計算,我們限定:
如果在全部頻率(此處,巴克頻帶)中的δhabs的均值大于0,那么衰減話音信號中的頻率分量的能量高于參考話音信號中的頻率分量的能量。換句話說:abe處理將不應該在信號那里的部分(錯誤地)添加(+)到信號。這種情況下的全部幀表示為l+。幀集合l-表示相反意義:經(jīng)abe處理的話音信號在應該已經(jīng)具有頻率分量的位置不具有(-)該頻率分量。
并且,可對信號的上頻帶執(zhí)行類似處理。在此例子中,上頻帶和下頻帶之間的界限是4khz。以此方式,特征可集中在上頻帶中的經(jīng)abe合成的分量。
abe解決方案可旨在盡可能精確地恢復遺漏頻率分量。因此,從δhabs計算所得的特征可特別集中在所添加和所省略的分量,因為相比于只是總體失真,abe誤差是更加精確的測度。
下列絕對失真特征是時頻域特征的例子,它們可隨后提取為:
a)包括話音的各個幀(有效語音幀)的δhabs的平均值,
b)包括話音的各個幀(有效語音幀)的δhabs的方差值,
c)包括話音且其δhabs為正(添加分量)的各個幀(有效語音幀)的δhabs的平均值,
d)包括話音且其δhabs為正(添加分量)的各個幀(有效語音幀)的δhabs的方差值
e)包括話音且其δhabs為負(省略分量)的各個幀(有效語音幀)的δhabs的平均值,
f)包括話音且其δhabs為負(省略分量)的各個幀(有效語音幀)的δhabs的方差值,
g)包括話音且其δhabs為正(添加分量)的各個幀(有效語音幀)和高頻帶頻率分量(通過僅僅考慮b,b表示高于頻率閾值(4khz)的頻率分量)的δhabs的平均值,
h)包括話音且其δhabs為正(添加分量)的各個幀(有效語音幀)和高頻帶頻率分量(通過僅僅考慮b,b表示高于頻率閾值(4khz)的頻率分量)的δhabs的方差值,
i)包括話音且其δhabs為負(省略分量)的各個幀(有效語音幀)和高頻帶頻率分量(通過僅僅考慮b,b表示高于頻率閾值(4khz)的頻率分量)的δhabs的平均值,
j)包括話音且其δhabs為負(省略分量)的各個幀(有效語音幀)和高頻帶頻率分量(通過僅僅考慮b,b表示高于頻率閾值(4khz)的頻率分量)的δhabs的方差值,
相對失真(δhrel)
相對失真(δhrel)塊564可對如由感知處理塊542、544提供的時頻域參考話音信號(h(l,b))和時頻域衰減話音信號
δhrel是在應用聽覺模型之后計算所得的頻譜域snr
在時頻域中進行計算(此處:在應用聽覺模型之后)的情況下,相對失真可被解釋為信號失真比(類似于眾所周知的信噪比)。分母表示失真:較小的失真產(chǎn)生較高的δhrel,且反之亦然。相對于h計算干擾:h越高,此測度所耐受的失真越多。
下列δhrel特征是時頻域特征的例子,它們可隨后提取為:
a)包括話音的各個幀的δhrel的平均值,
b)包括話音的各個幀的δhrel的方差值,
在一些例子中,在計算均值和方差之前,δhrel可被限制成最大值,例如45db。
二維相關性(snr2d)
二維相關塊570可對時頻域參考話音信號(h(l,b))和時頻域衰減話音信號
使用h(l,b)和
其中
二維相關性可設置時間和頻譜進程中的焦點,但是頻率分量的精確等同性隨著時間推移而變得較不重要。
基于snr的二維相關性特征還可根據(jù)下列等式計算:
歸一化協(xié)方差度量(ncm)
歸一化協(xié)方差度量(ncm)塊568可對時頻域參考話音信號(h(l,b))和時頻域衰減話音信號
歸一化協(xié)方差度量(ncm)是基于參考信號和衰減信號的時頻域表示之間的協(xié)方差。在此情況下,時頻表示通過將聽覺模型應用到這兩種輸入信號而獲得。然而,還可使用具有恰當?shù)臑V波器組(例如,基于巴克比例(thebarkscale))的stft表示(或任何其它時頻域表示),并應用適當?shù)募訖?。ncm測度在時間包絡上進行計算。這些可根據(jù)濾波器組輸出,在時頻域或時域中進行計算。在此實施方案中,時頻域參考話音信號(h(l,b))和時頻域衰減話音信號
然而,在此實施方案中,
成立。然后,針對每一頻帶b,計算衰減信號和參考信號所獲得的變換之間的相關性:
其中
這些相關值可隨后轉換成snr類ncm特征,并使用以下等式被閾值化到[-15db;15db]的取值范圍:
snrρ(b)=min(max(snr′ρ(b),-15db),15db)
接著,所得snrρ(b)移位15db,以使得它始終是非負的,并且按比例縮放30db。加權和根據(jù)以下等式產(chǎn)生最終ncm:
在此實施例中,針對全部b將權值w(b)設置為1。然而,它們可(例如)與頻率帶寬fδ(b)相關。
一般來說,有限頻帶話音信號(其是到abe解決方案的輸入)并不含有足夠的與遺漏上頻帶之間的交互信息,例如,4khz<f<8khz,因為abe算法能夠完美地恢復它。換句話說,寬帶話音信號的下頻帶(lb)(0khz<f<4khz)和上頻帶之間不存在一對一的對應關系。因此,abe解決方案可僅輸送上頻帶頻率分量的逼近。適合于評估經(jīng)abe處理的信號的質(zhì)量的儀器測度應該評定逼近的優(yōu)良性。因此,除了對應于衰減信號的總體質(zhì)量的特征(δhabs的均值/方差、均值/方差δhrel、ρ2d、snr2d)之外,所采用的特征集合含有嘗試檢測通過abe解決方案引入的典型誤差的特征。這些用于本發(fā)明的誤差和合適的特征的概述在下面的表格中給出。
應了解,兩個輸入信號之間的可使用儀器測量的干擾可以若干特征方式反射,其集中在不同種類的失真。這些特征可從信號的時間表示(基于逐樣本或逐幀的計算)和不同的時頻表示推導出,該時頻表示中的一個是模擬人類聽覺的感知模型的輸出。
圖5的系統(tǒng)還包括多路復用器560,其可將通過干擾計算器512計算的特征中的一個或多個組合成特征向量x′。應了解,在一些例子中,干擾計算器512可僅計算和輸出上文所述的各個特征的子集。以此方式,特征向量x′可以是本文件中的上文所呈現(xiàn)的特征的任何子集,并且不必使用全部特征。此外,一些特征可利用單個成幀結構或頻率分辨率,并使用不同的時頻變換進行計算。
返回到圖2,認知模型214中的特征歸一化塊234可將由圖5的干擾計算器提供的特征向量x′歸一化。在此實施方案中,計算用于受測試的給出信號的特征向量x′使用在認知模型214所應用的統(tǒng)計模型的訓練階段期間所獲得的均值和標準差進行歸一化。在訓練統(tǒng)計模型之前,針對訓練文件集合計算特征,以利用以下等式產(chǎn)生矩陣x′t
維度(x′t)=(訓練中文件的數(shù)目)x(每一文件的特征)。
隨后,將計算所得的特征歸一化(“零均值”和“單位方差”),以產(chǎn)生歸一化特征矩陣
其中在全部訓練中文件中計算每一特征的均值μ(x′t)和標準差σ(x′t)。隨后,統(tǒng)計模型對xt進行訓練。
為了將特征向量x′調(diào)適到其上統(tǒng)計模型進行訓練的取值范圍,所獲得的特征進行歸一化,如下:
認知模型214使用統(tǒng)計模型以將觀察到的失真(也就是特征向量x′)鏈接到所預測的mos-lqo分數(shù)216??赡艿慕y(tǒng)計模型為(例如)線性回歸、多變量線性回歸、人工神經(jīng)網(wǎng)絡、支持向量機等。如果在訓練階段期間找到相應的參數(shù),那么可僅使用統(tǒng)計模型。因此,模型的輸入不僅是歸一化特征向量x,還是在之前訓練階段中所獲得的存儲的參數(shù)集合。這個存儲的參數(shù)集合可從存儲器240存取。
如果統(tǒng)計模型對歸一化輸入和輸出數(shù)據(jù)進行訓練,那么大多數(shù)統(tǒng)計模型可發(fā)揮最佳作用。因此,在此實施方案中,在訓練期間進行歸一化的不僅有特征維度(如上文所描述),還有所要的目標值mos-lqs216。其結果是,統(tǒng)計模型(mos預測器236)輸出“歸一化的”經(jīng)預測mos-lqo′分數(shù),該分數(shù)應通過分數(shù)去歸一化塊238,并使用以下公式去歸一化:
mos-lqo=mos-lqs′·σ(mos-lqs′t)
+μ(mos-lqs′t)
其中μ(mos-lqs′t)和σ(mos-lqs′t)是在訓練過程中所使用的mos-lqs值的均值和標準差。
所得mos-lqo216值是圖2的系統(tǒng)的儀器測度的輸出。
在此實施例中,支持向量機(svm)充當認知模型214,其在歸一化特征和分數(shù)空間中操作。svm可為特別可靠和穩(wěn)固的統(tǒng)計模型,其考慮了在發(fā)展期間可供使用的相當少量的訓練數(shù)據(jù)。
本文所公開的話音信號處理電路的應用
高清(hd)語音(寬帶語音)使得運營商能夠區(qū)分他們通過移動網(wǎng)絡提供高質(zhì)量語音電話的服務。語音電話的這種較高質(zhì)量(更清晰、較高的可懂度)通過傳輸[4-7khz]話音頻帶實現(xiàn),該話音頻帶在傳統(tǒng)的窄帶電話中通常會降低。然而,為了使每一終端用戶得益于每次呼叫的hd語音,每個裝置和網(wǎng)絡必須支持hd語音。如果鏈路中的一個元件并不支持它,那么呼叫轉為窄帶。
帶寬擴展算法試圖從窄帶音頻源中產(chǎn)生寬帶含量,以改進窄帶呼叫中的語音質(zhì)量。當前,為了針對不同的abe系統(tǒng)測量這種改進的程度,必須執(zhí)行廣泛且耗時的主觀聽音測試。本文中所描述的由話音信號處理電路提供的功能性的例子提供替代該聽音測試的替代方案,其將有利地允許:
-開發(fā)人員加速研發(fā)和參數(shù)化,以進行進一步改進。
-網(wǎng)絡運營商指定質(zhì)量要求,該質(zhì)量要求易于利用儀器測度進行測試。
-移動裝置制造商針對運營商的規(guī)范客觀地比較、測試和調(diào)諧不同的解決方案。
上文所述的實施方案中的一個或多個涉及估計wbabe解決方案的質(zhì)量,然而,將應用擴大到其它類型的信號和其它abe算法是有可能的。例如,在對特征(例如,對下頻帶和上頻帶的限定)進行一些修改,以及對統(tǒng)計模型重新訓練的情況下,本文所公開的例子可用于估計超寬帶abe算法的質(zhì)量。
本文所公開的例子中的一個或多個提供用于預測如在絕對分類定級(acr)聽音測試中聽者所感知的話音的總體質(zhì)量的客觀方法。所提出的客觀(即,儀器)測度可被特別地設計成用于利用人工帶寬擴展(abe)算法處理的話音信號,該abe算法將窄帶(nb)信號的頻帶擴展到高于4khz(不高于8khz)。但是,它也能夠預測利用窄帶和寬帶(wb)話音編解碼器譯碼的信號的感知質(zhì)量。該測度是一種侵入性方法,其基于受測試話音樣本與參考話音樣本的比較。從那個比較推導出的特征集合可被饋送到認知模型,該認知模型可提供質(zhì)量分數(shù),其被稱作“平均意見分-客觀聽音質(zhì)量”(mos-lqo)。
有利的是,所提出的測度不需要音標轉錄。此外,基礎統(tǒng)計模型可對若干語言進行訓練,以最小化語言依賴性。所提出的測度可呈現(xiàn)mos-lqo和mos-lqs之間的高度線性相關和等級相關,以及較低的均方根誤差(rmse)。因此,它可用于在評估和比較abe解決方案中對質(zhì)量進行可靠預測。如測試所示出的,它還可高度精確地預測利用自適應多速率nb(amr-nb)編解碼器或amr-wb編解碼器譯碼的話音信號的mos-lqs。
除非明確陳述特定次序,否則可以任伺次序執(zhí)行以上各圖中的指令和/或流程圖步驟。而且,本領域的技術人員將認識到,盡管已經(jīng)論述一個示例指令集/方法,但是本說明書中的材料可以多種方式組合從而還產(chǎn)生其它例子,并且應在由此詳細描述提供的上下文內(nèi)來理解。
在一些示例實施例中,上文描述的指令集/方法實施為體現(xiàn)為可執(zhí)行指令集的功能和軟件指令,這些指令在計算機或以該可執(zhí)行指令編程和控制的機器上實現(xiàn)。此類指令經(jīng)加載以在處理器(例如一個或多個cpu)上執(zhí)行。術語處理器包括微處理器、微控制器、處理器模塊或子系統(tǒng)(包括一個或多個微處理器或微控制器),或其它控制或計算裝置。處理器可指代單個組件或指代多個組件。
在其它例子中,本文示出的指令集/方法以及與其相關聯(lián)的數(shù)據(jù)和指令存儲在相應的存儲裝置中,該存儲裝置實施為一個或多個非暫時性機器或計算機可讀或計算機可用存儲媒體。此類計算機可讀或計算機可用存儲媒體被認為是物品(或制品)的一部分。物品或制品可指代任何制造的單個組件或多個組件。如本文所定義的非暫時性機器或計算機可用媒體不包括信號,但此類媒體可能夠接收和處理來自信號和/或其它暫時性媒體的信息。
本說明書中論述的材料的示例實施例可以整體或部分地經(jīng)由網(wǎng)絡、計算機或基于數(shù)據(jù)的裝置和/或服務實施。這些可包含云、因特網(wǎng)、內(nèi)聯(lián)網(wǎng)、移動裝置、臺式計算機、處理器、查找表、微控制器、消費者設備、基礎架構,或其它致能裝置和服務。如本文和權利要求書中可使用,提供以下非排他性定義。
在一個例子中,使本文論述的一個或多個指令或步驟自動化。術語自動化或自動(及其類似變化)意味著使用計算機和/或機械/電氣裝置控制設備、系統(tǒng)和/或過程的操作,而不需要人類干預、觀測、努力和/或決策。
應了解,所說要耦合的任何組件可以直接或間接耦合或連接。在間接耦合的情況下,可以在稱為耦合的兩個組件之間安置額外的組件。
在本說明書中,已經(jīng)依據(jù)選定的細節(jié)集合呈現(xiàn)示例實施例。然而,本領域的普通技術人員將理解,可以實踐包括這些細節(jié)的不同選定集合的許多其它示例實施例。希望所附權利要求書涵蓋所有可能的示例實施例。