自適應(yīng)編碼濁音語音的基音周期的制作方法
【專利摘要】本發(fā)明提供了用于雙重模式基音周期編碼的系統(tǒng)和方法實(shí)施例。所述系統(tǒng)和方法實(shí)施例用于根據(jù)基音周期長度、穩(wěn)定性或兩者使用一個(gè)或兩個(gè)基音周期編碼模式對濁音語音信號的基音周期進(jìn)行自適應(yīng)編碼。所述兩種基音周期編碼模式包括具有相對較高的精確度和較小的動態(tài)范圍的第一基音周期編碼模式以及具有相對較大的基音周期動態(tài)范圍和較低的精確度的第二基音周期編碼模式。在確定所述濁音語音信號具有相對較短或相當(dāng)穩(wěn)定的基音周期之后,使用所述第一基音周期編碼模式。在確定所述濁音語音信號具有相對較長或穩(wěn)定性較差的基音周期或是相當(dāng)嘈雜的信號之后,使用所述第二基音周期編碼模式。
【專利說明】自適應(yīng)編碼濁音語音的基音周期
[0001] 本發(fā)明要求2012年12月21日遞交的發(fā)明名稱為"自適應(yīng)編碼濁音語音的基音 周期(Adaptively Encoding Pitch Lag For Voiced Speech)" 的第 13/724700 號美國 非臨時(shí)專利申請案的在先申請優(yōu)先權(quán),該在先申請案要求2011年12月21日遞交的發(fā)明 名稱為"自適應(yīng)編碼池音語音的基音周期(Adaptively Encoding Pitch Lag For Voiced Speech) "的第61/578391號美國臨時(shí)專利申請案的在先申請優(yōu)先權(quán),以上在先申請的內(nèi)容 以引入的方式并入本文本中
【技術(shù)領(lǐng)域】
[0002] 本發(fā)明大體涉及信號編碼領(lǐng)域,且在特定實(shí)施例中,涉及一種用于對濁音語音的 基音周期進(jìn)行編碼的系統(tǒng)和方法。
【背景技術(shù)】
[0003] 傳統(tǒng)來講,參數(shù)化語音編碼方法都是利用語音信號本身的冗余,來減少待發(fā)送的 信息量,并估算一個(gè)信號的語音樣本在短時(shí)段內(nèi)的參數(shù)。這種冗余起因于語音波形周期性 的重復(fù)和語音信號的頻譜包絡(luò)慢變過程。不同形式的語音波形的冗余對應(yīng)于不同類型的語 音信號,例如濁音和清音。就濁音語音而言,語音信號基本上是周期性的。然而,這種周期 性在語音段中是變化的,而且周期波形在語音段之間緩慢變化。低比特率的語音編碼可以 很大地受益于這種周期性。濁音語音周期還稱為基音周期,這種基音周期預(yù)測通常被命名 為長期預(yù)測(LTP)。至于清音,其信號更像是一個(gè)隨機(jī)噪聲,可預(yù)測性也較小。
【發(fā)明內(nèi)容】
[0004] 根據(jù)實(shí)施例,一種由語音/音頻編碼裝置實(shí)施的雙重模式基音周期編碼方法包 括,根據(jù)基音周期長度、穩(wěn)定性或兩者,使用兩種基音周期編碼模式中的一種對一個(gè)濁音語 音信號中一幀的多個(gè)子幀的基音周期進(jìn)行編碼。所述兩種基音周期編碼模式包括第一種基 音周期編碼模式和第二種基音周期編碼模式,其中第一種基音周期編碼模式具有相對較高 的基音周期編碼精確度和較小的動態(tài)范圍,而第二種基音周期編碼模式具有相對較大的基 音周期動態(tài)范圍和較低的編碼精確度。
[0005] 根據(jù)另一實(shí)施例,一種由語音/音頻編碼裝置實(shí)施的雙重模式基音周期編碼的方 法包括,確定一個(gè)濁音語音信號是否具有相對較短的基音周期和相當(dāng)穩(wěn)定的基音周期中的 一個(gè)或者具有相對較長的基音周期和相對穩(wěn)定性較差的基音周期中的一個(gè)或者是一個(gè)相 當(dāng)嘈雜的信號。所述方法進(jìn)一步包括,在確定所述濁音語音信號具有相對較短的或相當(dāng)穩(wěn) 定的基音周期之后,對所述具有相對較高的基音周期精確度和較小的動態(tài)范圍的濁音語音 信號的基音周期進(jìn)行編碼,或者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的 基音周期或者是一個(gè)相當(dāng)嘈雜的信號之后,對所述具有相對較大的基音周期動態(tài)范圍和較 低的精確度的濁音語音信號的基音周期進(jìn)行編碼。
[0006] 在又一實(shí)施例中,一種支持雙重模式基音周期編碼的裝置,包括一個(gè)處理器和一 個(gè)存儲由所述處理器執(zhí)行的程序的計(jì)算機(jī)可讀存儲介質(zhì)。所述程序包括多個(gè)指令,以確定 濁音語音信號是否具有相對較短的基音周期和相當(dāng)穩(wěn)定的基音周期中的一個(gè)或者具有相 對較長的基音周期和相對穩(wěn)定性較差的基音周期中的一個(gè)或者是否是一個(gè)相對嘈雜的信 號;以及在確定所述濁音語音信號具有相對較短的或相當(dāng)穩(wěn)定的基音周期之后,對具有相 對較高的精確度和較小的動態(tài)范圍的濁音語音信號的基音周期進(jìn)行編碼;或在確定所述濁 音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是相對嘈雜的信號之后,對具有 相對較大的動態(tài)范圍和較低的精確度的濁音語音信號的基音周期進(jìn)行編碼。
【專利附圖】
【附圖說明】
[0007] 為了更完整地理解本發(fā)明及其優(yōu)點(diǎn),現(xiàn)在參考以下結(jié)合附圖進(jìn)行的描述,其中:
[0008] 圖1是碼激勵(lì)線性預(yù)測技術(shù)(CELP)編碼器的方框圖。
[0009] 圖2是對應(yīng)于圖1中的CELP編碼器的解碼器的方框圖。
[0010] 圖3是另一具有自適應(yīng)分量的CELP編碼器的方框圖。
[0011] 圖4是另一對應(yīng)于圖3中的CELP編碼器的解碼器的方框圖。
[0012] 圖5是基音周期小于子幀大小和半幀大小的濁音語音信號的示例。
[0013] 圖6是基音周期大于子幀大小而小于半幀大小的濁音語音信號的示例。
[0014] 圖7示出了濁音語音信號的頻譜的示例。
[0015] 圖8示出了圖7中的經(jīng)過雙倍基音周期編碼的相同信號的頻譜的示例。
[0016] 圖9示出了用于對濁音語音的基音周期進(jìn)行雙重模式的自適應(yīng)編碼的實(shí)施例方 法。
[0017] 圖10是可用于實(shí)施各種實(shí)施例的處理系統(tǒng)的方框圖。
【具體實(shí)施方式】
[0018] 下文將詳細(xì)論述當(dāng)前優(yōu)選實(shí)施例的制作和使用。然而,應(yīng)了解,本發(fā)明提供可在各 種具體上下文中體現(xiàn)的許多適用的發(fā)明性概念。所論述的具體實(shí)施例僅僅說明用以實(shí)施和 使用本發(fā)明的具體方式,而不限制本發(fā)明的范圍。
[0019] 針對濁音或清音,參數(shù)編碼通過分割頻譜包絡(luò)分量和語音信號的激勵(lì)分量來減 少語音段的冗余。頻譜包絡(luò)慢變過程可以被描述成線性預(yù)測編碼(LPC),也稱為短期預(yù)測 (STP)。低比特率的語音編碼也同樣受益于短期預(yù)測。這種編碼的優(yōu)點(diǎn)就來自于參數(shù)的慢 速變化。進(jìn)一步地,語音信號參數(shù)值可能不會在幾毫秒內(nèi)有很大不同。在8千赫茲(kHz)、 12. 8kHz或16kHz采樣率時(shí),語音編碼算法將10毫秒至30毫秒范圍內(nèi)的語音段作為常用 的幀長。而20毫秒是最常用的幀長。在G. 723. 1、G. 729、G. 718、EFR、SMV、AMR、VMR-WB或 AMR-WB等較近期的知名國際標(biāo)準(zhǔn)中已經(jīng)采用了碼激勵(lì)線性預(yù)測技術(shù)(CELP)。CELP是一種 編碼激勵(lì)、長期預(yù)測和短期預(yù)測技術(shù)的結(jié)合。盡管不同編解碼器的CELP細(xì)節(jié)可能顯著不 同,但利用CELP的語音編碼算法在語音壓縮領(lǐng)域已經(jīng)相當(dāng)流行。
[0020] 圖1示出了 CELP編碼器100的示例,其中利用綜合分析方法可以最小化合成語音 信號102和原始語音信號101之間的加權(quán)誤差109。CELP編碼器100執(zhí)行不同的操作或功 能。對應(yīng)的函數(shù)W(z)通過誤差加權(quán)濾波器110實(shí)現(xiàn)。函數(shù)1/B(z)通過長期線性預(yù)測濾波 器105實(shí)現(xiàn)。函數(shù)1/A(z)通過短期線性預(yù)測濾波器103實(shí)現(xiàn)。來自編碼激勵(lì)塊108的編 碼激勵(lì)107,也稱為固化碼本激勵(lì),在通過隨后濾波器之前乘以增益GJ06調(diào)節(jié)。短期線性 預(yù)測濾波器103通過分析原始信號101實(shí)施并由一組系數(shù)表示:
[0021]
【權(quán)利要求】
1. 一種由語音或音頻編碼裝置實(shí)施的雙重模式基音周期編碼的方法,其特征在于,所 述方法包括: 根據(jù)基音周期長度、穩(wěn)定性或兩者,使用兩種基音周期編碼模式中的一種對一個(gè)濁音 語音信號中一幀的多個(gè)子幀的基音周期進(jìn)行編碼,其中所述兩種基音周期編碼模式包括第 一種基音周期編碼模式和第二種基音周期編碼模式,所述第一種基音周期編碼模式具有相 對較高的基音周期編碼精確度和較小的動態(tài)范圍,所述第二種基音周期編碼模式具有相對 較大的基音周期動態(tài)范圍和較低的精確度。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一基音周期編碼模式用于對具有 相對較短或相當(dāng)穩(wěn)定的基音周期進(jìn)行編碼,以及所述第二基音周期編碼模式用于對具有相 對較長或穩(wěn)定性相對較差的或者是相當(dāng)嘈雜的信號的基音周期進(jìn)行編碼。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,相比于傳統(tǒng)的碼激勵(lì)線性預(yù)測技術(shù)CELP 算法,以具有相對較高的精確度和較小的動態(tài)范圍或具有相對較大的動態(tài)范圍和較低的精 確度對基音周期進(jìn)行編碼。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括,相比于傳統(tǒng)的碼激勵(lì)線性預(yù) 測技術(shù)CELP算法,使用較少的比特對基音周期進(jìn)行編碼。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述濁音語音信號的編碼具有相對較低 的比特率,其小于或等于16千比特每秒kbps。
6. -種由語音或音頻編碼裝置實(shí)施的雙重模式基音周期編碼的方法,其特征在于,所 述方法包括: 確定濁音語音信號是否具有相對較短的基音周期和相當(dāng)穩(wěn)定的基音周期中的一個(gè)或 相對較長的基音周期和穩(wěn)定性相對較差的基音周期中的一個(gè)或是相當(dāng)嘈雜的信號;以及 在確定所述濁音語音信號具有相對較短的或相當(dāng)穩(wěn)定的基音周期之后,對所述具有相 對較高的基音周期精確度和較小的動態(tài)范圍的濁音語音信號的基音周期進(jìn)行編碼,或者在 確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個(gè)相當(dāng)嘈雜的 信號之后,對所述具有相對較大的基音周期動態(tài)范圍和較低的精確度的濁音語音信號的基 音周期進(jìn)行編碼。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,進(jìn)一步包括: 在確定所述濁音語音信號具有相對較短的或相當(dāng)穩(wěn)定的基音周期之后,在對所述基音 周期進(jìn)行編碼中指示第一基音周期編碼模式具有相對較高的精確度和較小的動態(tài)范圍,或 者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個(gè)相當(dāng)嘈 雜的信號之后,指示第二基音周期編碼模式具有相對較大的動態(tài)范圍和較低的精確度。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述第一基音周期編碼模式或所述第二 基音周期編碼模式由在對所述基音周期進(jìn)行編碼中的一個(gè)比特指示。
9. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述濁音語音信號在12. 8千赫茲kHz取 樣頻率下使用6800比特每秒進(jìn)行編碼并包括四個(gè)子幀,其包括使用9個(gè)比特進(jìn)行編碼的第 一子幀,除此之外,一個(gè)指示所述第一基音周期編碼模式或所述第二基音周期編碼模式的 比特,使用4個(gè)比特進(jìn)行編碼的第二子幀和第三子幀,以及使用5個(gè)比特進(jìn)行編碼的第四子 幀。
10. 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述具有相對較短或相當(dāng)穩(wěn)定的基音周 期的濁音語音信號具有16到143之間的基音周期,濁音語音信號的幀的每個(gè)子幀使用四 分之一的基音周期精確度進(jìn)行編碼,以及所述第一子幀和所述第四子幀使用±4的基音周 期動態(tài)范圍進(jìn)行編碼,所述第二子幀和所述第三子幀使用±2的基音周期動態(tài)范圍進(jìn)行編 碼。
11. 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基音 周期的濁音語音信號具有34到128之間的基音周期,所述第一子幀和所述第四子幀使用四 分之一的基音周期精確度進(jìn)行編碼,所述第二子幀和所述第三子幀使用二分之一的基音周 期精確度進(jìn)行編碼,以及所述子幀中的每個(gè)子幀使用±4的基音周期動態(tài)范圍進(jìn)行編碼。
12. 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基音 周期的濁音語音信號具有128到160之間的基音周期,所述第一子幀、所述第二子幀和所述 第三子幀使用二分之一的基音周期精確度進(jìn)行編碼,所述第四子幀使用四分之一的基音周 期精確度進(jìn)行編碼,以及所述子幀中的每個(gè)子幀使用±4的基音周期動態(tài)范圍進(jìn)行編碼。
13. 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基音 周期的濁音語音信號具有160到231之間的基音周期,所述第一子幀使用1的基音周期精 確度進(jìn)行編碼,所述第四子幀使用四分之一的基音周期精確度進(jìn)行編碼,以及所述子幀中 的每個(gè)子幀使用±4的基音周期動態(tài)范圍進(jìn)行編碼。
14. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述濁音語音信號在12. 8千赫茲kHz取 樣頻率下使用7600比特每秒進(jìn)行編碼并包括四個(gè)子幀,其包括使用9個(gè)比特進(jìn)行編碼的第 一子幀,除此之外,一個(gè)指示所述第一基音周期編碼模式或所述第二基音周期編碼模式的 比特,使用3個(gè)比特進(jìn)行編碼的第二子幀和第三子幀,以及使用4個(gè)比特進(jìn)行編碼的第四子 幀。
15. 根據(jù)權(quán)利要求14所述的方法,其特征在于,所述具有相對較短或相當(dāng)穩(wěn)定的基音 周期的濁音語音信號具有16到143之間的基音周期,每個(gè)子幀使用四分之一的基音周期精 確度進(jìn)行編碼,以及所述第一子幀使用四分之一的基音周期精確度進(jìn)行編碼,所述第二子 幀和所述第三子幀使用±1的基音周期動態(tài)范圍進(jìn)行編碼,以及所述第四子幀使用±2的 基音周期動態(tài)范圍進(jìn)行編碼。
16. 根據(jù)權(quán)利要求14所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有34到128之間的基音周期,所述第一子幀使用四分之一的基音 周期精確度進(jìn)行編碼,所述第二子幀、所述第三子幀和所述第四子幀使用二分之一的基音 周期精確度進(jìn)行編碼,以及所述第一子幀和所述第四子幀使用±4的基音周期動態(tài)范圍進(jìn) 行編碼,第二子幀和第三子幀使用±2的基音周期動態(tài)范圍進(jìn)行編碼。
17. 根據(jù)權(quán)利要求14所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有128到160之間的基音周期,所述第一子幀和所述第四子幀使 用二分之一的基音周期精確度進(jìn)行編碼,所述第二子幀和所述第三子幀使用1的基音周期 精確度進(jìn)行編碼,以及每個(gè)所述子幀使用±4的基音周期動態(tài)范圍進(jìn)行編碼。
18. 根據(jù)權(quán)利要求14所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有160到231之間的基音周期,所述第一子幀、所述第二子幀和所 述第三子幀使用1的基音周期精確度進(jìn)行編碼,所述第四子幀使用二分之一的基音周期精 確度進(jìn)行編碼,以及每個(gè)所述子幀使用±4的基音周期動態(tài)范圍進(jìn)行編碼。
19. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述濁音語音信號在12. 8千赫茲kHz取 樣頻率下使用9200比特每秒或更大速率進(jìn)行編碼并包括四個(gè)子幀,其包括使用9個(gè)比特進(jìn) 行編碼的第一子幀,除此之外,一個(gè)指示所述第一基音周期編碼模式或所述第二基音周期 編碼模式的比特,使用4個(gè)比特進(jìn)行編碼的第二子幀,以及使用5個(gè)比特進(jìn)行編碼的第三子 幀和第四子幀。
20. 根據(jù)權(quán)利要求19所述的方法,其特征在于,所述具有相對較短或相當(dāng)穩(wěn)定的基音 周期的濁音語音信號具有16到143之間的基音周期,濁每個(gè)子幀使用四分之一的基音周期 精確度進(jìn)行編碼,以及所述第一子幀、所述第三子幀和所述第四子幀使用±4的基音周期 動態(tài)范圍進(jìn)行編碼,所述第二子幀使用±2的基音周期動態(tài)范圍進(jìn)行編碼。
21. 根據(jù)權(quán)利要求19所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有34到128之間的基音周期,所述第一子幀、所述第二子幀和所 述第三子幀使用四分之一的基音周期精確度進(jìn)行編碼,所述第四子幀使用二分之一的基音 周期精確度進(jìn)行編碼,以及每個(gè)所述子幀使用±4的基音周期動態(tài)范圍進(jìn)行編碼。
22. 根據(jù)權(quán)利要求19所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有128到160之間的基音周期,所述第一子幀和所述第二子幀使 用二分之一的基音周期精確度進(jìn)行編碼,所述第二子幀和所述第三子幀使用四分之一的基 音周期精確度進(jìn)行編碼,以及每個(gè)所述子幀使用±4的基音周期動態(tài)范圍進(jìn)行編碼。
23. 根據(jù)權(quán)利要求19所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有160到231之間的基音周期,所述第一子幀使用1的基音周期 精確度進(jìn)行編碼,所述第二子幀使用二分之一的基音周期精確度進(jìn)行編碼,所述第三子幀 和所述第四子幀使用四分之一的基音周期精確度進(jìn)行編碼,以及每個(gè)所述子幀使用±4的 基音周期動態(tài)范圍進(jìn)行編碼。
24. -種支持雙重模式基音周期編碼的裝置,其特征在于,包括: 一種處理器;以及 一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲由所述處理器執(zhí)行的程序, 所述程序包括可進(jìn)行如下操作的指令: 確定濁音語音信號是否具有相對較短的基音周期和相當(dāng)穩(wěn)定的基音周期中的一個(gè)或 相對較長的基音周期和穩(wěn)定性相對較差的基音周期中的一個(gè)或是相當(dāng)嘈雜的信號;以及 在確定所述濁音語音信號具有相對較短的或相當(dāng)穩(wěn)定的基音周期之后,對所述具有相 對較高的精確度和較小的動態(tài)范圍的濁音語音信號的基音周期進(jìn)行編碼,或者在確定所述 濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個(gè)相當(dāng)嘈雜的信號之后, 對所述具有相對較大的動態(tài)范圍和較低的精確度的濁音語音信號的基音周期進(jìn)行編碼。
25. 根據(jù)權(quán)利要求24所述的裝置,其特征在于,所述程序進(jìn)一步包括進(jìn)行如下操作的 指令: 在確定所述濁音語音信號具有相對較短的或相當(dāng)穩(wěn)定的基音周期之后,在對所述基音 周期進(jìn)行編碼中指示第一基音周期編碼模式具有相對較高的精確度和較小的動態(tài)范圍,或 者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個(gè)相當(dāng)嘈 雜的信號之后,指示第二基音周期編碼模式具有相對較大的動態(tài)范圍和較低的精確度,其 中所述第一基音周期編碼模式或所述第二基音周期編碼模式由一個(gè)在對所述基音周期進(jìn) 行編碼中的比特指示。
【文檔編號】G10L19/18GK104254886SQ201280055505
【公開日】2014年12月31日 申請日期:2012年12月21日 優(yōu)先權(quán)日:2011年12月21日
【發(fā)明者】高陽 申請人:華為技術(shù)有限公司