背景技術(shù):
1、隨著數(shù)字無(wú)線(xiàn)電話(huà)網(wǎng)絡(luò)、互聯(lián)網(wǎng)上的語(yǔ)音流式傳送和互聯(lián)網(wǎng)電話(huà)的出現(xiàn),語(yǔ)音的數(shù)字處理變得常見(jiàn)。工程師使用壓縮來(lái)有效地處理語(yǔ)音,同時(shí)仍然保持質(zhì)量。語(yǔ)音壓縮的一個(gè)目標(biāo)是以一種針對(duì)給定量的比特提供最大信號(hào)質(zhì)量的方式來(lái)表示語(yǔ)音信號(hào)。換句話(huà)說(shuō),這個(gè)目標(biāo)是針對(duì)給定的質(zhì)量水平使用最少比特來(lái)表示語(yǔ)音信號(hào)。在一些場(chǎng)景中,使用其它目標(biāo),例如傳輸錯(cuò)誤的彈性和限制由于編碼/傳輸/解碼導(dǎo)致的整體延遲。
2、一種類(lèi)型的傳統(tǒng)語(yǔ)音編碼器/解碼器(“編解碼器”)使用線(xiàn)性預(yù)測(cè)(“l(fā)p”)來(lái)實(shí)現(xiàn)壓縮。語(yǔ)音編碼器找到并量化針對(duì)預(yù)測(cè)濾波器的lp系數(shù),該預(yù)測(cè)濾波器用于將樣本值預(yù)測(cè)為先前樣本值的線(xiàn)性組合。殘差信號(hào)(也稱(chēng)為“激勵(lì)”信號(hào))指示原始信號(hào)中的未被濾波準(zhǔn)確預(yù)測(cè)的部分。語(yǔ)音編碼器對(duì)殘差信號(hào)進(jìn)行壓縮,通常針對(duì)濁音段(以聲帶振動(dòng)為特征)、清音段和無(wú)聲段使用不同的壓縮技術(shù),因?yàn)椴煌N類(lèi)的語(yǔ)音具有不同的特性。對(duì)應(yīng)的語(yǔ)音解碼器重構(gòu)殘差信號(hào),恢復(fù)用于合成濾波器的lp系數(shù),并用合成濾波器來(lái)處理殘差信號(hào)。
3、考慮到壓縮在計(jì)算機(jī)系統(tǒng)中表示語(yǔ)音的重要性,語(yǔ)音壓縮吸引了大量的研究和開(kāi)發(fā)活動(dòng)。雖然以前的語(yǔ)音編解碼器針對(duì)很多場(chǎng)景都提供了良好的性能,但它們也有一些缺點(diǎn)。特別地,當(dāng)以前的語(yǔ)音編解碼器用于非常低的比特率場(chǎng)景時(shí),可能會(huì)出現(xiàn)問(wèn)題。在這種情況下,無(wú)線(xiàn)電話(huà)網(wǎng)絡(luò)或其它網(wǎng)絡(luò)可能沒(méi)有足夠的帶寬(例如,由于擁塞或分組丟失)或傳輸質(zhì)量問(wèn)題(例如,由于傳輸噪聲或間歇性延遲),這會(huì)阻止在適用于實(shí)時(shí)通信的質(zhì)量約束和時(shí)間約束下傳輸編碼語(yǔ)音。
技術(shù)實(shí)現(xiàn)思路
1、在本
技術(shù)實(shí)現(xiàn)要素:
中,詳細(xì)描述呈現(xiàn)了語(yǔ)音編碼和語(yǔ)音解碼方面的創(chuàng)新。一些創(chuàng)新涉及在語(yǔ)音編碼期間的相位量化。其它創(chuàng)新涉及在語(yǔ)音解碼期間的相位重構(gòu)。在許多情況下,這些創(chuàng)新可以提高在低比特率場(chǎng)景中語(yǔ)音編解碼器的性能,即使當(dāng)編碼的數(shù)據(jù)通過(guò)經(jīng)受帶寬不足或傳輸質(zhì)量問(wèn)題的網(wǎng)絡(luò)傳輸也是如此。
2、根據(jù)本文描述的第一組創(chuàng)新,語(yǔ)音編碼器接收語(yǔ)音輸入(例如,在輸入緩沖區(qū)中),編碼語(yǔ)音輸入以產(chǎn)生編碼的數(shù)據(jù),并存儲(chǔ)編碼的數(shù)據(jù)(例如,在輸出緩沖區(qū)中)以用于作為比特流的一部分輸出。作為編碼的一部分,語(yǔ)音編碼器根據(jù)線(xiàn)性預(yù)測(cè)(“l(fā)p”)系數(shù)來(lái)過(guò)濾基于語(yǔ)音輸入的輸入值,從而產(chǎn)生殘差值。語(yǔ)音編碼器編碼殘差值。特別地,語(yǔ)音編碼器確定并編碼相位值的集合。可以例如通過(guò)將頻率變換應(yīng)用于當(dāng)前幀的子幀,這產(chǎn)生了針對(duì)子幀的復(fù)幅度值,并基于復(fù)幅度值來(lái)計(jì)算相位值(和對(duì)應(yīng)的幅度值),來(lái)確定相位值。為了提高性能,語(yǔ)音編碼器可以在編碼相位值的集合時(shí)執(zhí)行各種操作。
3、例如,當(dāng)對(duì)相位值的集合進(jìn)行編碼時(shí),語(yǔ)音編碼器使用線(xiàn)性分量和基函數(shù)(例如,正弦函數(shù))的加權(quán)和來(lái)表示相位值的集合中的至少一些。語(yǔ)音編碼器可以使用延遲的決策方法或其它方法來(lái)確定對(duì)基函數(shù)進(jìn)行加權(quán)的系數(shù)的集合。系數(shù)的計(jì)數(shù)可以變化,這取決于針對(duì)編碼的數(shù)據(jù)的目標(biāo)比特率和/或其它標(biāo)準(zhǔn)。當(dāng)找到合適的系數(shù)時(shí),語(yǔ)音編碼器可以使用基于線(xiàn)性相位測(cè)量的成本函數(shù)或其它成本函數(shù),從而基函數(shù)的加權(quán)和與線(xiàn)性分量一起類(lèi)似于所表示的相位值。語(yǔ)音編碼器可以使用偏移值和斜率值來(lái)參數(shù)化與加權(quán)和組合的線(xiàn)性分量。使用線(xiàn)性分量和基函數(shù)的加權(quán)和,語(yǔ)音編碼器可以以緊湊且靈活的方式準(zhǔn)確表示相位值,這可以提高低比特率場(chǎng)景下的比率失真性能(即,提供針對(duì)給定的比特率的更好的質(zhì)量,或者等效地提供針對(duì)給定的質(zhì)量級(jí)別的較低的比特率)。
4、作為另一示例,當(dāng)對(duì)相位值的集合進(jìn)行編碼時(shí),語(yǔ)音編碼器會(huì)省略具有的頻率高于截止頻率的任何相位值的集合。語(yǔ)音編碼器可以至少部分地基于針對(duì)編碼的數(shù)據(jù)的目標(biāo)比特率、基音(pitch)周期信息和/或其它標(biāo)準(zhǔn)來(lái)選擇截止頻率。省略的較高頻相位值可以在解碼期間基于較低頻相位值而合成,這些較低頻相位值是編碼的數(shù)據(jù)的一部分。通過(guò)省略較高頻相位值(并在解碼期間基于較低頻相位值合成它們),語(yǔ)音編碼器可以有效地表示完整范圍的相位值,這可以提高在低比特率場(chǎng)景下的比率失真性能。
5、根據(jù)本文描述的創(chuàng)新的第二集合,語(yǔ)音解碼器接收編碼的數(shù)據(jù)(例如,在輸入緩沖區(qū)中)作為比特流的一部分,解碼該編碼的數(shù)據(jù)以重構(gòu)語(yǔ)音,并存儲(chǔ)重構(gòu)的語(yǔ)音(例如,在輸出緩沖區(qū)中)以用于輸出。作為解碼的一部分,語(yǔ)音解碼器解碼殘差值,并根據(jù)lp系數(shù)過(guò)濾殘差值。特別地,語(yǔ)音解碼器解碼相位值的集合,并至少部分地基于相位值的集合來(lái)重構(gòu)殘差值。為了提高性能,語(yǔ)音解碼器可以在解碼相位值的集合時(shí)執(zhí)行各種操作。
6、例如,當(dāng)解碼相位值的集合時(shí),語(yǔ)音解碼器使用線(xiàn)性分量和基函數(shù)(例如正弦函數(shù))的加權(quán)和來(lái)重構(gòu)相位值的集合中的至少一些。可以通過(guò)偏移值和斜率值來(lái)參數(shù)化線(xiàn)性分量。語(yǔ)音解碼器可以解碼系數(shù)的集合(其對(duì)基函數(shù)進(jìn)行加權(quán))、偏移值和斜率值,然后使用系數(shù)的集合、偏移值和斜率值作為重構(gòu)相位值的一部分。對(duì)基函數(shù)進(jìn)行加權(quán)的系數(shù)的計(jì)數(shù)可以取決于針對(duì)編碼的數(shù)據(jù)的目標(biāo)比特率和/或其它標(biāo)準(zhǔn)而變化。使用線(xiàn)性分量和基函數(shù)的加權(quán)和,可以以緊湊且靈活的方式準(zhǔn)確地表示相位值,這可以提高低比特率場(chǎng)景下的比率失真性能。
7、作為另一示例,當(dāng)解碼相位值的集合時(shí),語(yǔ)音解碼器重構(gòu)相位值的集合的第一子集,然后使用第一子集中的至少一些來(lái)合成相位值的集合的第二子集,其中第二子集中的每個(gè)相位值都具有高于截止頻率的頻率。語(yǔ)音解碼器可以至少部分地基于針對(duì)編碼的數(shù)據(jù)的目標(biāo)比特率、基音周期信息和/或其它標(biāo)準(zhǔn)來(lái)確定截止頻率。為了合成第二子集的相位值,語(yǔ)音解碼器可以識(shí)別第一子集的范圍,確定(作為模式)第一子集的范圍內(nèi)相鄰相位值之間的差異,重復(fù)截止頻率以上的模式,并且然后對(duì)相鄰相位值之間的差異進(jìn)行積分以確定第二子集。通過(guò)基于在比特流中用信號(hào)發(fā)送的較低頻相位值來(lái)合成省略的較高頻相位值,語(yǔ)音解碼器可以有效地重構(gòu)整個(gè)范圍的相位值,這可以提高低比特率場(chǎng)景下的比率失真性能。
8、本文描述的創(chuàng)新包括但不限于權(quán)利要求所涵蓋的創(chuàng)新。這些創(chuàng)新可以被實(shí)現(xiàn)為方法的一部分,被配置為執(zhí)行方法的計(jì)算機(jī)系統(tǒng)的一部分,或者存儲(chǔ)用于使計(jì)算機(jī)系統(tǒng)中的一個(gè)或多個(gè)處理器執(zhí)行該方法的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)的一部分。各種創(chuàng)新可以組合使用或單獨(dú)使用。提供該發(fā)明內(nèi)容來(lái)引入以簡(jiǎn)化形式將在以下具體實(shí)施方式中進(jìn)一步描述的概念的選擇。該發(fā)明內(nèi)容無(wú)意識(shí)別要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于限制要求保護(hù)的主題的范圍。本發(fā)明的前述和其它目的、特征和優(yōu)點(diǎn)將從以下參照附圖進(jìn)行的具體實(shí)施方式中變得更加明顯,并說(shuō)明了許多示例。示例還可以用于其它且不同的應(yīng)用,并且在不背離所公開(kāi)的創(chuàng)新的精神和范圍的情況下,可以在各個(gè)方面修改一些細(xì)節(jié)。
1.一種計(jì)算機(jī)系統(tǒng),包括:
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,重構(gòu)所述殘差值包括:
3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,重構(gòu)的相位值是所述相位值的集合中的較低頻率相位值,并且其中,解碼所述相位值的集合還包括使用所述較低頻率相位值中的至少一些相位值來(lái)合成所述相位值的集合中的較高頻率相位值,所述較高頻率相位值中的每個(gè)相位值具有高于截止頻率的頻率。
4.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述基函數(shù)是正弦函數(shù)。
5.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,解碼所述相位值的集合還包括:
6.根據(jù)權(quán)利要求5所述的計(jì)算機(jī)系統(tǒng),其中,解碼所述相位值的集合還包括確定對(duì)所述基函數(shù)加權(quán)的所述系數(shù)的計(jì)數(shù)。
7.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,重構(gòu)所述殘差值包括:
8.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括:
9.根據(jù)權(quán)利要求8所述的方法,其中,重構(gòu)所述殘差值還包括至少部分地基于基音周期信息和跨邊界的幅度值差異中的一個(gè)或多個(gè),自適應(yīng)地平滑針對(duì)所述各個(gè)子幀的復(fù)幅度值,并且其中,所述逆頻率變換是應(yīng)用于平滑后的復(fù)幅度值的。
10.根據(jù)權(quán)利要求8所述的方法,其中,重構(gòu)所述殘差值還包括重復(fù)針對(duì)所述一個(gè)或多個(gè)子幀中的至少一個(gè)子幀的相位值的集合,其中,所述各個(gè)子幀的復(fù)幅度值是使用所重復(fù)的相位值的集合重構(gòu)的。
11.根據(jù)權(quán)利要求8所述的方法,其中,解碼所述相位值的集合包括使用至少一些較低頻率相位值來(lái)合成所述相位值的集合中的較高頻率相位值,所述較高頻率相位值中的每個(gè)相位值具有高于截止頻率的頻率。
12.根據(jù)權(quán)利要求8所述的方法,其中,解碼所述相位值的集合包括使用基函數(shù)的加權(quán)和來(lái)重構(gòu)所述相位值的集合中的至少一些相位值。
13.一種或多種計(jì)算機(jī)可讀存儲(chǔ)器或存儲(chǔ)設(shè)備,其上存儲(chǔ)有作為比特流一部分的編碼的數(shù)據(jù),所述編碼的數(shù)據(jù)包括系數(shù)的集合、偏移值和相位值的集合的斜率值,所述編碼的數(shù)據(jù)被組織成利用使用一個(gè)或多個(gè)處理器實(shí)現(xiàn)的語(yǔ)音解碼器,通過(guò)包括以下項(xiàng)的操作來(lái)促進(jìn)解碼所述編碼的數(shù)據(jù)以重構(gòu)語(yǔ)音,所述操作包括:
14.根據(jù)權(quán)利要求13所述的一種或多種計(jì)算機(jī)可讀存儲(chǔ)器或存儲(chǔ)設(shè)備,其中,所述偏移值和所述斜率值對(duì)線(xiàn)性分量進(jìn)行參數(shù)化,并且其中,重構(gòu)所述相位值的集合中的至少一些相位值也使用所述線(xiàn)性分量。
15.根據(jù)權(quán)利要求13所述的一種或多種計(jì)算機(jī)可讀存儲(chǔ)器或存儲(chǔ)設(shè)備,其中,所述編碼的數(shù)據(jù)還包括針對(duì)所述編碼的數(shù)據(jù)的目標(biāo)比特率和/或基音周期信息,其中,重構(gòu)的相位值是所述相位值的集合中的較低頻率相位值,并且其中,解碼所述相位值的集合還包括:
16.根據(jù)權(quán)利要求13所述的一種或多種計(jì)算機(jī)可讀存儲(chǔ)器或存儲(chǔ)設(shè)備,其中,所述編碼的數(shù)據(jù)還包括針對(duì)幅度值的一個(gè)或多個(gè)集合的編碼的數(shù)據(jù),并且其中,解碼所述相位值的集合還包括:
17.根據(jù)權(quán)利要求13所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)器或存儲(chǔ)設(shè)備,其中,編碼的數(shù)據(jù)還包括稀疏度值和相關(guān)值,并且其中,所述操作還包括:
18.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括:
19.根據(jù)權(quán)利要求18所述的方法,其中,重構(gòu)所述殘差值包括:
20.根據(jù)權(quán)利要求18所述的方法,其中,重構(gòu)所述殘差值包括重構(gòu)針對(duì)一個(gè)或多個(gè)子幀的復(fù)幅度值,包括:
21.一種或多種非瞬時(shí)性計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有作為比特流一部分的編碼的數(shù)據(jù),所述編碼的數(shù)據(jù)被組織成通過(guò)執(zhí)行包括以下項(xiàng)的操作來(lái)促進(jìn)解碼以重構(gòu)語(yǔ)音:
22.一種計(jì)算機(jī)系統(tǒng),包括:
23.根據(jù)權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其中,為了對(duì)所述相位值的集合進(jìn)行編碼,所述殘差編碼器還被配置為執(zhí)行操作以:
24.根據(jù)權(quán)利要求23所述的計(jì)算機(jī)系統(tǒng),其中,所述殘差編碼器還被配置為至少部分地基于針對(duì)所述編碼的數(shù)據(jù)的目標(biāo)比特率和/或基音周期信息來(lái)選擇所述截止頻率。
25.根據(jù)權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其中,為了對(duì)所述相位值的集合進(jìn)行編碼,所述殘差編碼器還被配置為執(zhí)行操作以:
26.根據(jù)權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其中,所述相位值的集合中的至少一些相位值也是使用線(xiàn)性分量表示的,并且其中,為了對(duì)所述相位值的集合進(jìn)行編碼,所述殘差編碼器還被配置為執(zhí)行操作以:
27.根據(jù)權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其中,所述語(yǔ)音編碼器還包括:
28.根據(jù)權(quán)利要求27所述的計(jì)算機(jī)系統(tǒng),其中,所述殘差編碼器還被配置為:
29.根據(jù)權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其中,所述語(yǔ)音編碼器還包括以下一個(gè)或多個(gè):
30.根據(jù)權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其中,所述殘差編碼器還被配置為,針對(duì)當(dāng)前幀:
31.一種或多種非瞬時(shí)性計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令在被編程時(shí)使得一個(gè)或多個(gè)處理單元執(zhí)行操作,所述操作包括:
32.根據(jù)權(quán)利要求31所述的一種或多種計(jì)算機(jī)可讀介質(zhì),其中,重構(gòu)的相位值是所述相位值的集合中的較低頻率相位值,并且其中,解碼所述相位值的集合還包括使用所述較低頻率相位值中的至少一些相位值來(lái)合成所述相位值的集合中的較高頻率相位值,所述較高頻率相位值中的每個(gè)相位值具有高于截止頻率的頻率,所述截止頻率是至少部分地基于針對(duì)所述編碼的數(shù)據(jù)的目標(biāo)比特率和/或基音周期信息的。
33.一種或多種非瞬時(shí)性計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有作為比特流一部分的編碼的數(shù)據(jù),所述編碼的數(shù)據(jù)被組織成通過(guò)執(zhí)行包括以下項(xiàng)的操作來(lái)促進(jìn)解碼以重構(gòu)語(yǔ)音:
34.根據(jù)權(quán)利要求33所述的一種或多種計(jì)算機(jī)可讀介質(zhì),其中,解碼所述相位值的集合包括使用至少一些較低頻率相位值來(lái)合成所述相位值的集合中的較高頻率相位值,所述較高頻率相位值中的每個(gè)相位值具有高于截止頻率的頻率,所述截止頻率是至少部分地基于針對(duì)所述編碼的數(shù)據(jù)的目標(biāo)比特率和/或基音周期信息的。
35.一種或多種非瞬時(shí)性計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令在被編程時(shí)使得一個(gè)或多個(gè)處理單元執(zhí)行操作,所述操作包括:
36.根據(jù)權(quán)利要求35所述的一種或多種計(jì)算機(jī)可讀介質(zhì),其中,對(duì)所述相位值的集合進(jìn)行編碼包括省略所述相位值的集合中具有高于截止頻率的頻率的任何相位值,所述截止頻率是至少部分地基于針對(duì)所述編碼的數(shù)據(jù)的目標(biāo)比特率和/或基音周期信息的。