語音檢測方法及其設(shè)備的制作方法

文檔序號：2832034閱讀：189來源：國知局

專利名稱：語音檢測方法及其設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音技術(shù)，特別涉及語音中的分析檢測技術(shù)。
背景技術(shù)：
語音檢測技術(shù)是指在一段語音和噪聲混合的時間序列里將語音和噪聲分辨出來。即語音檢測的目的是在語音和噪聲的混合序列中將語音和噪聲區(qū)分出來。在語音通話的時候，由于說話者不可能一直都在說話，通過麥克風所錄到的時間序列必然會有相當長一段時間是沒有語音的，即應該被認為是噪聲。如果對所有的時間序列都用語音壓縮方法進行壓縮，則會造成兩個方面的浪費。具體地說，對噪聲用語音壓縮方法壓縮，首先它會造成壓縮比特數(shù)的浪費，對噪聲的壓縮并不需要像對語音壓縮那么多比特，傳輸噪聲的能量以及頻譜形狀即可在解碼端較好的恢復。其次它會造成運算開銷的浪費，語音編碼解碼算法比噪聲編碼解碼算法所需要消耗的開銷大得多。因此，如果能準確的檢測出輸入時間序列是語音還是噪聲，能同時減少不必要的比特消耗和運算開銷消耗。由于噪聲是一直存在于語音中，并且和語音信號在某一些結(jié)構(gòu)上有相似性，所以需要設(shè)計一些算法對語音和噪聲進行分辨。目前，通用的語音檢測方法如圖1所示。語音檢測系統(tǒng)一般包含兩個主要模塊，一是特征提取模塊，它的主要功用是從輸入信號里計算出幾個參數(shù)來表征語音信號和噪聲信號的區(qū)別；二是分類器決策模塊，它的主要功用是根據(jù)提取的特征來完成是語音還是噪聲的決定。其中，特征提取模塊的傳統(tǒng)算法有窄帶語音編碼標準G. 729所附帶的靜音檢測算法中的四種特征提取算法過零率、能量、低頻段能量比和線譜對距離參數(shù)。過零率是指提取當前時域信號穿過0的次數(shù)，通常部分語音信號會有較小的過零率而噪聲通常具有較大過零率。能量特征則是直接計算當前幀的能量，主要考慮到實際環(huán)境下語音的能量通常較大的因素。低頻段能量比是考慮到某一部分語音信號是周期性的且頻率較低，它們的低頻段能量占據(jù)著信號大部分的能量，而噪聲通常是在每個頻段有著均勻或者較均勻的分布的。線譜對距離參數(shù)則是描述著語音信號的頻譜包絡(luò)特性，噪聲中這一特征并不明顯。近年來有學者提出了基于高階統(tǒng)計量的方法，它的理論基礎(chǔ)則是高斯噪聲信號的某些高階統(tǒng)計量通常為零但相應的語音的卻不為零。關(guān)于現(xiàn)有的語音檢測方法也可參見專利號為 “5450484”的美國專利。然而，本發(fā)明的發(fā)明人發(fā)現(xiàn)，由于語音是由人的肺部或者其他發(fā)聲器官發(fā)出，通過聲道或者口鼻腔調(diào)制而產(chǎn)生的信號。而噪聲則是有多種產(chǎn)生方式，但和語音產(chǎn)生方式都會有截然的不同。但在目前的用于表征語音信號和噪聲信號的特征提取方法中，并沒有一種通過描述語音/噪聲產(chǎn)生模型差異的特征提取方法，來用于語音檢測。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種語音檢測方法及其設(shè)備，能根據(jù)語音/噪聲產(chǎn)生的模型差異，檢測出語音信號。
為解決上述技術(shù)問題，本發(fā)明的實施方式提供了一種語音檢測方法，包含以下步驟對輸入信號進行分幀，得到每一個輸入幀，每個輸入幀包含預定數(shù)目的輸入信號；將當前輸入幀內(nèi)的輸入信號變換為二進制序列；根據(jù)二進制序列計算當前輸入幀的描述二進制組合的出現(xiàn)種類的復雜性特征值，并根據(jù)計算出的復雜性特征值檢測出當前輸入幀內(nèi)的輸入信號是否為語音信號。本發(fā)明的實施方式還提供了一種語音檢測設(shè)備，包含分幀模塊，用于對輸入信號進行分幀，得到每一個輸入幀，每個輸入幀包含預定數(shù) 目的輸入信號；二進制變換模塊，用于將當前輸入幀內(nèi)的輸入信號變換為二進制序列；計算模塊，用于根據(jù)二進制變換模塊變換后的二進制序列，計算當前輸入幀的描述二進制組合的出現(xiàn)種類的復雜性特征值；檢測模塊，用于根據(jù)計算模塊計算出的復雜性特征值，檢測出當前輸入幀內(nèi)的輸入信號是否為語音信號。本發(fā)明實施方式與現(xiàn)有技術(shù)相比，主要區(qū)別及其效果在于將輸入幀內(nèi)的輸入信號變換為二進制序列，根據(jù)二進制序列計算當前輸入幀的能描述二進制組合的出現(xiàn)種類的復雜性特征值，從而檢測出當前輸入幀內(nèi)的輸入信號是否為語音信號。由于語音信號不同于噪聲信號，包含了聲源的特征(具有確定的基音頻率)和聲道的特征(具有更大的諧波性)，因此語音信號的組合種類將是非常之少的。所以，通過計算描述二進制組合的出現(xiàn)種類的復雜性特征值，來檢測語音信號，實現(xiàn)了根據(jù)語音/噪聲產(chǎn)生的模型差異，檢測出語音信號，使得語音信號能較為準確地被檢測出來。進一步地，可以在對輸入幀內(nèi)的輸入信號先進行處理后，再進行二進制序列的變換，使得本發(fā)明的語音檢測可適用于各種需對采樣信號進行處理的情況。進一步地，直接通過與門限值的比較，將輸入幀內(nèi)的各信號變換為二進制序列，操作簡單，方便實現(xiàn)。

圖1是根據(jù)現(xiàn)有技術(shù)中的語音檢測方法流程圖；圖2是根據(jù)本發(fā)明第一實施方式的語音檢測方法流程圖；圖3是根據(jù)本發(fā)明第三實施方式的語音檢測設(shè)備結(jié)構(gòu)示意圖。
具體實施例方式在以下的敘述中，為了使讀者更好地理解本申請而提出了許多技術(shù)細節(jié)。但是，本領(lǐng)域的普通技術(shù)人員可以理解，即使沒有這些技術(shù)細節(jié)和基于以下各實施方式的種種變化和修改，也可以實現(xiàn)本申請各權(quán)利要求所要求保護的技術(shù)方案。為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合附圖對本發(fā)明的實施方式作進一步地詳細描述。本發(fā)明的第一實施方式涉及一種語音檢測方法，具體流程如圖2所示。
4
在步驟210中，對輸入信號進行分幀，得到每一個輸入幀，每個輸入幀包含預定數(shù) 目的輸入信號，即將輸入信號每數(shù)個采樣點分成一幀，輸入幀可以表示為x(l) = T{s(l)+n(l)}，1 = 0，1，· · ·，L-I其中，s和η分別指輸入語音信號和噪聲信號，L為幀長度。比如說，以每10個輸
入信號分為一幀，則 L 為 10，s (0) +η (0)、s (1) +η (1)、s ⑵ +η (2).......s (9) +η (9)，即為第
1個、第2個......第10個采樣點。符號T表示一種變換。在本實施方式中，將變換T定
義為同等變換，即Τ{χ(1)} = χ(1)，因此，也可以理解為在本實施方式中，無需對采樣點進行變換，直接將采樣點s(l)+η (1)作為χ(1)。接著，在步驟220中，將當前輸入幀內(nèi)的輸入信號變換為二進制序列S' (1)，即 s' (1)只在0和1之間取值。在本實施方式中，通過以下方式將當前輸入幀內(nèi)的各輸入信號變換為二進制序列將輸入信號X(I)和一個門限值進行對比，如果大于門限值則取1，否則取0
, 「1, χ(1) > ηS'(I) = ^ w ‘其中，為方便計算門限值通常取0。但在實際應用中，門限值可以為任意數(shù)。需要說明的是，也可以通過其他任意方法，將輸入信號X(I)變換為二進制序列，如
fl,成/)〉；^ 或者 Χ(/)<Τ/2 s (I)= <也就是說，在實際應用中，無論通過哪種方式對χ(1)進行變換，只需將X(I)變換為二進制序列s' (1)即可。本實施方式中的變換為二進制序列只是一個具體的例子，直接通過與門限值的比較，將輸入幀內(nèi)的各信號變換為二進制序列，操作簡單，方便實現(xiàn)。接著，在步驟230中，根據(jù)得到的二進制序列s' (1)，計算當前輸入幀的描述二進制組合的出現(xiàn)種類的復雜性特征值C。由于語音信號的聲源特征，與噪聲信號的不同之處在于，某一些語音信號是通過聲帶的周期性震動產(chǎn)生的，這些語音信號具有著確定的基音頻率。并且，語音信號的聲道特征，與噪聲信號的不同之處在于，聲源信號通過聲道會產(chǎn)生壓強的變化，通?？梢杂靡粋€濾波系統(tǒng)來表示。此濾波系統(tǒng)常常對某些頻段的信號會有著增強的作用，這樣意味著語音信號有更大的諧波性。因此語音信號的組合種類將是非常之少的。所以，通過計算描述二進制組合(01組合)的出現(xiàn)種類的復雜性特征值C，可較好地體現(xiàn)出語音/噪聲產(chǎn)生的模型差異。復雜性特征值C的具體計算過程如下步驟一設(shè)定特征值C = 1，指數(shù)參數(shù)indeXl = 1和index2 = 0，同時設(shè)定步長step =1以及最大步長maxst印=1。步驟二比較兩個值s' [indeX2+st印]和s' [indeXl+st印]，如果它們是相等的，將步長值step增加1并且轉(zhuǎn)到下一步(即步驟三)。否則轉(zhuǎn)到步驟四。步驟三當所有序列值都被訪問過了，即當indeXl+st印> L的時候，過程中止并輸出特征值C = C+1，否則返回步驟二。步驟四當步長值超過了當前最大步長，即step > maxst印，將最大步長設(shè)定為當前步長值maXSt印=step。如果步長值沒有超過當前最大步長，則直接進入步驟五。
5
步驟五指數(shù)參數(shù)遞增indeX2 = index2+l步驟六當兩個指數(shù)參數(shù)不等的時候，即indeXl Φ index2時，設(shè)定步長值為1，即 step = 1，然后返回步驟二。如果兩個指數(shù)參數(shù)相等，則直接進入步驟七。步驟七將特征值加1 :C = C+1，并且增加指數(shù)參數(shù)indeXl = Index^maxstep0步驟八當indeXl+l > N時，算法中止，否則返回步驟二。由于若信號是規(guī)則的，例如周期信號等，它的組合種類將是非常之少的。反過來說，若信號是不規(guī)則，它的組合種類是相對較多的。而在噪聲污染下的規(guī)則信號的種類隨著噪聲增多緩慢增加，這種特性也是符合語音檢測實際情況的。因此上述計算的能描述二進制組合(01組合)的出現(xiàn)種類的特征值C，可以體現(xiàn)出語音信號的聲源和聲道特征，反映出語音/噪聲產(chǎn)生的模型差異，是一種有效的特征。另外，可以理解，本步驟中的特征值C的計算過程是一種具體的實現(xiàn)方法。在實際應用中，也可以通過設(shè)計其他的算法，計算出能描述二進制組合的出現(xiàn)種類的特征值。接著，在步驟240中，根據(jù)計算出的復雜性特征值C，檢測出當前輸入幀內(nèi)的語音信號。在本步驟中，可以對特征C采用任意的方法進行模式判別決策。比如說，一種根據(jù)典型噪聲的C值統(tǒng)計以及其和數(shù)據(jù)長度L的關(guān)系進行判決的方式如下
C < "^t,判為語音 Iog2I
<
O7^,判為噪聲 Iog2 L當然，可以理解，也可以通過將特征值C與其他門限值進行比較，來檢測語音信號。事實上，如何根據(jù)特征值C來檢測語音信號是已有的技術(shù)，因此在本實施方式中不再詳細贅述。不難發(fā)現(xiàn)，由于語音信號不同于噪聲信號，包含了聲源的特征(具有確定的基音頻率)和聲道的特征(具有更大的諧波性)，因此語音信號的組合種類將是非常之少的。簡單地說，在本實施方式中通過計算描述二進制組合(01組合)的出現(xiàn)種類的復雜性特征值，根據(jù)該特征值與設(shè)定門限的比較結(jié)果，來檢測語音信號(如果大于該設(shè)定門限，則認為是語音信號，否則認為是噪聲信號)，實現(xiàn)了根據(jù)語音/噪聲產(chǎn)生的模型差異，檢測出語音信號，使得語音信號能較為準確地被檢測出來。而且，由于區(qū)別語音信號和噪聲信號在很多應用場合都有很大的意義。比如說，在語音增強系統(tǒng)里，由于需要分辨出噪聲且用其能量或者其他統(tǒng)計特征對當前噪聲頻譜能量和語音信號頻譜能量進行估計，而且，為了保證被抑制的噪聲不至于產(chǎn)生刺耳的效果，也需要對噪聲和語音信號采用略有區(qū)別的處理方法，因此需要對噪聲和語音進行區(qū)別處理。類似的，在語音識別、語音分析的系統(tǒng)里亦會需要語音的正確檢測，以及如前文所述的能同時減少不必要的比特消耗和運算開銷消耗。因此，本實施方式中的語音檢測方法，可適用于多種應用場合。本發(fā)明的第二實施方式涉及一種語音檢測方法，本實施方式與第一實施方式大致相同，其主要區(qū)別在于，在第一實施方式中，T變換為同等變換，即無需對采樣點進行處理，直接將采樣點s(l)+n(l)作為x(l)。而在本實施方式中，對輸入幀內(nèi)的各輸入信號進行采樣點處理變換，如T變換為傅里葉變換、小波變換或哈爾變換等其他各種可能的變換，進行二進制序列變換的輸入信號為經(jīng)采樣點處理變換后的信號。由于可以在對輸入幀內(nèi)的輸入信號先進行采樣點處理后，再進行二進制序列的變換，使得本發(fā)明的語音檢測可適用于各種需對采樣信號進行處理的情況。本發(fā)明的各方法實施方式均可以以軟件、硬件、固件等方式實現(xiàn)。不管本發(fā)明是以軟件、硬件、還是固件方式實現(xiàn)，指令代碼都可以存儲在任何類型的計算機可訪問的存儲器中(例如永久的或者可修改的，易失性的或者非易失性的，固態(tài)的或者非固態(tài)的，固定的或者可更換的介質(zhì)等等)。同樣，存儲器可以例如是可編程陣列邏輯(Programmable Array Logic，簡稱“PAL”)、隨機存取存儲器(Random Access Memory，簡稱“RAM”)、可編程只讀存儲器(Programmable Read Only Memory，簡稱 “PROM”)、只讀存儲器(Read-Only Memory, 簡稱“ROM”)、電可擦除可編程只讀存儲器(Electrically Erasable Programmable ROM，簡稱“EEPR0M”)、磁盤、光盤、數(shù)字通用光盤(Digital Versatile Disc，簡稱“DVD”)等等。本發(fā)明第三實施方式涉及一種語音檢測設(shè)備，如圖3所示，包含分幀模塊，用于對輸入信號進行分幀，得到每一個輸入幀，每個輸入幀包含預定數(shù) 目的輸入信號。二進制變換模塊，用于將當前輸入幀內(nèi)的輸入信號變換為二進制序列；計算模塊，用于根據(jù)二進制變換模塊變換后的二進制序列，計算當前輸入幀的描述二進制組合的出現(xiàn)種類的復雜性特征值；檢測模塊，用于根據(jù)計算模塊計算出的復雜性特征值，檢測出當前輸入幀內(nèi)的輸入信號是否為語音信號。其中，二進制變換模塊可通過以下方式將當前輸入幀內(nèi)的輸入信號變換為二進制序列將當前輸入幀內(nèi)的各信號分別與門限值進行比較，如果大于門限值，則在二進制序列中的對應值為1 ；如果小于或等于門限值，則在二進制序列中的對應值為0。門限值可以為0，也可以是不為0的其他任意數(shù)。不難發(fā)現(xiàn)，第一實施方式是與本實施方式相對應的方法實施方式，本實施方式可與第一實施方式互相配合實施。第一實施方式中提到的相關(guān)技術(shù)細節(jié)在本實施方式中依然有效，為了減少重復，這里不再贅述。相應地，本實施方式中提到的相關(guān)技術(shù)細節(jié)也可應用在第一實施方式中。本發(fā)明第四實施方式涉及一種語音檢測設(shè)備。本實施方式與第三實施方式基本相同，區(qū)別主要在于在第三實施方式中，直接將采樣點S(l)+n(l)作為進行二進制序列變換的輸入信號，或者說，進行二進制序列變換的輸入信號為對采樣點S(l)+n(l)進行了同等變換的信號。而在本實施方式中，對輸入幀內(nèi)的各輸入信號進行采樣點處理變換，如傅里葉變換、小波變換或哈爾變換等其他各種可能的變換。也就是說，本實施方式中的語音檢測設(shè) 備還包含采樣點處理變換模塊，用于對當前輸入幀內(nèi)的各輸入信號進行采樣點處理變換，并將經(jīng)采樣點處理變換后的信號輸出到二進制變換模塊。進行二進制序列變換的輸入信號為經(jīng)采樣點處理變換后的信號。不難發(fā)現(xiàn)，第二實施方式是與本實施方式相對應的方法實施方式，本實施方式可與第二實施方式互相配合實施。第二實施方式中提到的相關(guān)技術(shù)細節(jié)在本實施方式中依然有效，為了減少重復，這里不再贅述。相應地，本實施方式中提到的相關(guān)技術(shù)細節(jié)也可應用在第二實施方式中。需要說明的是，本發(fā)明各設(shè)備實施方式中提到的各單元都是邏輯單元，在物理上，一個邏輯單元可以是一個物理單元，也可以是一個物理單元的一部分，還可以以多個物理單元的組合實現(xiàn)，這些邏輯單元本身的物理實現(xiàn)方式并不是最重要的，這些邏輯單元所實現(xiàn)的功能的組合是才解決本發(fā)明所提出的技術(shù)問題的關(guān)鍵。此外，為了突出本發(fā)明的創(chuàng)新部分，本發(fā)明上述各設(shè)備實施方式并沒有將與解決本發(fā)明所提出的技術(shù)問題關(guān)系不太密切的單元引入，這并不表明上述設(shè)備實施方式并不存在其它的單元。雖然通過參照本發(fā)明的某些優(yōu)選實施方式，已經(jīng)對本發(fā)明進行了圖示和描述，但本領(lǐng)域的普通技術(shù)人員應該明白，可以在形式上和細節(jié)上對其作各種改變，而不偏離本發(fā) 明的精神和范圍。
權(quán)利要求
一種語音檢測方法，其特征在于，包含以下步驟對輸入信號進行分幀，得到每一個輸入幀，每個輸入幀包含預定數(shù)目的輸入信號；將當前所述輸入幀內(nèi)的輸入信號變換為二進制序列；根據(jù)所述二進制序列計算當前輸入幀的描述二進制組合的出現(xiàn)種類的復雜性特征值，并根據(jù)計算出的復雜性特征值檢測當前所述輸入幀內(nèi)的輸入信號是否為語音信號。
2.根據(jù)權(quán)利要求1所述的語音檢測方法，其特征在于，還包含以下步驟在將當前所述輸入幀內(nèi)的輸入信號變換為二進制序列之前，對所述輸入幀內(nèi)的各輸入信號進行采樣點處理變換；所述進行二進制序列變換的輸入信號為經(jīng)所述采樣點處理變換后的信號。
3.根據(jù)權(quán)利要求2所述的語音檢測方法，其特征在于，所述采樣點處理變換為以下之傅里葉變換、小波變換、哈爾變換。
4.根據(jù)權(quán)利要求1至3中任一項所述的語音檢測方法，其特征在于，通過以下方式將當前輸入幀內(nèi)的輸入信號變換為二進制序列將當前所述輸入幀內(nèi)的各信號分別與門限值進行比較，如果大于所述門限值，則在所述二進制序列中的對應值為1 ；如果小于或等于所述門限值，則在所述二進制序列中的對應值為0。
5.根據(jù)權(quán)利要求4所述的語音檢測方法，其特征在于，所述門限值為任意數(shù)。
6.一種語音檢測設(shè)備，其特征在于，包含分幀模塊，用于對輸入信號進行分幀，得到每一個輸入幀，每個輸入幀包含預定數(shù)目的輸入信號；二進制變換模塊，用于將當前所述輸入幀內(nèi)的輸入信號變換為二進制序列；計算模塊，用于根據(jù)所述二進制變換模塊變換后的二進制序列，計算當前輸入幀的描述二進制組合的出現(xiàn)種類的復雜性特征值；檢測模塊，用于根據(jù)所述計算模塊計算出的復雜性特征值，檢測當前所述輸入幀內(nèi)的輸入信號是否為語音信號。
7.根據(jù)權(quán)利要求6所述的語音檢測設(shè)備，其特征在于，所述語音檢測設(shè)備還包含采樣點處理變換模塊，用于對當前所述輸入幀內(nèi)的各輸入信號進行采樣點處理變換，并將經(jīng)所述采樣點處理變換后的信號輸出到所述二進制變換模塊；所述進行二進制序列變換的輸入信號為經(jīng)所述采樣點處理變換后的信號。
8.根據(jù)權(quán)利要求6所述的語音檢測設(shè)備，其特征在于，所述采樣點處理變換為以下之傅里葉變換、小波變換、哈爾變換。
9.根據(jù)權(quán)利要求6所述的語音檢測設(shè)備，其特征在于，所述二進制變換模塊通過以下方式將當前輸入幀內(nèi)的輸入信號變換為二進制序列將當前所述輸入幀內(nèi)的各信號分別與門限值進行比較，如果大于所述門限值，則在所述二進制序列中的對應值為1 ；如果小于或等于所述門限值，則在所述二進制序列中的對應值為0。
10.根據(jù)權(quán)利要求6所述的語音檢測設(shè)備，其特征在于，所述門限值為任意數(shù)。全文摘要
本發(fā)明涉及語音技術(shù)，公開了一種語音檢測方法及其設(shè)備。本發(fā)明中，將輸入幀內(nèi)的輸入信號變換為二進制序列，根據(jù)二進制序列計算當前輸入幀的描述二進制組合的出現(xiàn)種類的復雜性特征值，從而檢測出當前輸入幀內(nèi)的語音信號。由于語音信號不同于噪聲信號，包含了聲源的特征(具有確定的基音頻率)和聲道的特征(具有更大的諧波性)，因此語音信號的組合種類將是非常之少的。所以，通過計算描述二進制組合的出現(xiàn)種類的復雜性特征值，來檢測語音信號，實現(xiàn)了根據(jù)語音/噪聲產(chǎn)生的模型差異，檢測出語音信號，使得語音信號能較為準確地被檢測出來。
文檔編號G10L11/02GK101937675SQ20091005749
公開日2011年1月5日申請日期2009年6月29日優(yōu)先權(quán)日2009年6月29日
發(fā)明者林福輝, 黃鶴云申請人:展訊通信(上海)有限公司

完整全部詳細技術(shù)資料下載