亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種雙門限地名語(yǔ)音端點(diǎn)檢測(cè)方法與流程

文檔序號(hào):12678455閱讀:489來(lái)源:國(guó)知局

本發(fā)明屬于語(yǔ)音端點(diǎn)檢測(cè)領(lǐng)域,特別涉及一種雙門限地名語(yǔ)音端點(diǎn)檢測(cè)方法。



背景技術(shù):

隨著經(jīng)濟(jì)的高速發(fā)展和全球化趨勢(shì)的日益突出,現(xiàn)代物流行業(yè)已在發(fā)達(dá)國(guó)家得到了空前的發(fā)展,并產(chǎn)生了巨大的經(jīng)濟(jì)效益和社會(huì)效益。物流資源有運(yùn)輸、倉(cāng)儲(chǔ)、分揀、包裝、配送等,這些資源分散在多個(gè)領(lǐng)域,包括制造業(yè)、農(nóng)業(yè)、流通業(yè)等。

在分揀環(huán)節(jié)中,現(xiàn)階段基本是人工進(jìn)行分揀,由于工人們長(zhǎng)期處于嘈雜的工作環(huán)境中,心里和身體上勢(shì)必會(huì)產(chǎn)生一定的疲勞感,并且工作任務(wù)的單一性和重復(fù)性也會(huì)使他們的工作狀態(tài)過(guò)于放松,這必然導(dǎo)致分揀精確性的下降,造成較多不可挽回的分揀失誤事故發(fā)生,因此工業(yè)領(lǐng)域中對(duì)流水線上的產(chǎn)品進(jìn)行人工檢測(cè)的方式已不能滿足現(xiàn)代化工業(yè)的需求。

語(yǔ)音識(shí)別作為人機(jī)交互的重要接口,發(fā)展到現(xiàn)在已經(jīng)在很多方面改變了我們的生活,從智能家居的語(yǔ)音控制系統(tǒng)到車載語(yǔ)音識(shí)別系統(tǒng)等,因此將語(yǔ)音識(shí)別技術(shù)與物流分揀環(huán)節(jié)的融合是物流行業(yè)發(fā)展的必然要求。

而在語(yǔ)音識(shí)別技術(shù)中,端點(diǎn)檢測(cè)技術(shù)是語(yǔ)音識(shí)別中極為重要的環(huán)節(jié),其效果的好壞直接影響最終的識(shí)別結(jié)果,傳統(tǒng)的基于短時(shí)能量和過(guò)零率的端點(diǎn)檢測(cè)方法是在理想的環(huán)境中才能適用,且對(duì)于孤立詞的地名語(yǔ)音信號(hào),端點(diǎn)檢測(cè)的準(zhǔn)確率相對(duì)較低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種雙門限地名語(yǔ)音端點(diǎn)檢測(cè)方法,提高了端點(diǎn)檢測(cè)的準(zhǔn)確性。

一種雙門限地名語(yǔ)音端點(diǎn)檢測(cè)方法,包括以下步驟:從第一幀信號(hào)開(kāi)始判斷每幀語(yǔ)音信號(hào)的能量與最低能量閾值、最高能量閾值的大小,判斷過(guò)零率與過(guò)零率閾值的大小,從而確定對(duì)下一幀信號(hào)進(jìn)行檢測(cè)的合適方法,并在可能進(jìn)入語(yǔ)音狀態(tài)的情況下,通過(guò)增加變量來(lái)對(duì)語(yǔ)音段前面出現(xiàn)的發(fā)音輕時(shí)間段的語(yǔ)音信號(hào)進(jìn)行保留。

具體步驟如下:

1、接收經(jīng)過(guò)預(yù)處理的地名語(yǔ)音信號(hào),判斷每幀語(yǔ)音信號(hào)的能量與最低能量閾值、最高能量閾值的大小以及判斷過(guò)零率與過(guò)零率閾值的大??;

2、當(dāng)?shù)趇幀語(yǔ)音信號(hào)的能量<最低能量閾值時(shí),將狀態(tài)變量設(shè)置為0,語(yǔ)音長(zhǎng)度計(jì)數(shù)變量設(shè)置成0,表明仍處于靜音段,繼續(xù)返回步驟1進(jìn)行下一幀檢測(cè);

當(dāng)最高能量閾值>第i幀語(yǔ)音信號(hào)的能量>最低能量閾值,且過(guò)零率>過(guò)零率閾值,將狀態(tài)變量設(shè)置為1,表明可能處于語(yǔ)音段,將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量加1,同時(shí)將可能處于語(yǔ)音段的長(zhǎng)度的變量加1,并返回步驟1進(jìn)行下一幀檢測(cè);

3、若已經(jīng)有狀態(tài)變量為1,則對(duì)可能處于語(yǔ)音段的語(yǔ)音信號(hào)按照一定的標(biāo)準(zhǔn)進(jìn)行篩選,進(jìn)一步區(qū)分噪音段和語(yǔ)音段;

4、當(dāng)?shù)趇幀語(yǔ)音信號(hào)的能量>最高能量閾值,則將狀態(tài)變量設(shè)置為2,表示進(jìn)入語(yǔ)音段,同時(shí)將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量加1,按照步驟5進(jìn)行下一幀檢測(cè);

5、判斷當(dāng)前幀語(yǔ)音信號(hào)的能量>最低能量閾值或當(dāng)前幀語(yǔ)音信號(hào)的過(guò)零率>過(guò)零率閾值是否成立;

若成立,表示還在語(yǔ)音段,不是靜音,將狀態(tài)變量保持為2,語(yǔ)音長(zhǎng)度計(jì)數(shù)變量加1,按照步驟5繼續(xù)下一幀檢測(cè);

若不成立,說(shuō)明信號(hào)已經(jīng)從語(yǔ)音段轉(zhuǎn)向靜音段,則將靜音長(zhǎng)度加1,并對(duì)靜音長(zhǎng)度作進(jìn)一步判斷;直到找到全部有效的語(yǔ)音信號(hào),將狀態(tài)參數(shù)設(shè)置為3,結(jié)束進(jìn)程。

優(yōu)選的,若已經(jīng)有狀態(tài)變量為1,且語(yǔ)音信號(hào)的能量小于最低能量閾值時(shí),判斷可能處于語(yǔ)音段的長(zhǎng)度的變量大于一定閾值是否成立,若成立,表示當(dāng)前是噪音段,舍棄前面的語(yǔ)音部分,令狀態(tài)變量,語(yǔ)音長(zhǎng)度計(jì)數(shù)變量和可能處于語(yǔ)音段的長(zhǎng)度的變量等于0并返回步驟1繼續(xù)下一幀檢測(cè);若不成立,則表示可能還在語(yǔ)音段,保持狀態(tài)變量等于1且將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量加1,可能處于語(yǔ)音段的長(zhǎng)度的變量加1,返回步驟1進(jìn)行下一幀檢測(cè)。

進(jìn)一步的,上述一定閾值等于6。

優(yōu)選的,對(duì)靜音長(zhǎng)度作進(jìn)一步判斷的步驟是:判斷靜音長(zhǎng)度<最大靜音長(zhǎng)度是否成立;

若成立,則保持狀態(tài)變量為2,將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量加1,并按照步驟5進(jìn)行下一幀檢測(cè);

若不成立,則判斷語(yǔ)音長(zhǎng)度計(jì)數(shù)變量<語(yǔ)音信號(hào)最小長(zhǎng)度是否成立;若語(yǔ)音長(zhǎng)度計(jì)數(shù)變量<語(yǔ)音信號(hào)最小長(zhǎng)度成立,表明前面檢測(cè)出來(lái)的都是噪聲,將狀態(tài)變量設(shè)置為0、靜音段長(zhǎng)度設(shè)置為0、語(yǔ)音長(zhǎng)度計(jì)數(shù)變量設(shè)置為0,再繼續(xù)檢驗(yàn);若語(yǔ)音長(zhǎng)度計(jì)數(shù)變量<語(yǔ)音信號(hào)最小長(zhǎng)度不成立,表示語(yǔ)音段已經(jīng)找到,認(rèn)為是有效的語(yǔ)音信號(hào),將狀態(tài)參數(shù)設(shè)置為3,結(jié)束進(jìn)程。

優(yōu)選的,初始狀態(tài)下,令狀態(tài)變量等于0,語(yǔ)音長(zhǎng)度計(jì)數(shù)變量等于0,用于計(jì)算未確定進(jìn)入語(yǔ)音段時(shí)可能處于語(yǔ)音段的長(zhǎng)度的變量等于0,靜音長(zhǎng)度等于0。

優(yōu)選的,所述最低能量閾值的值為0.01,最高能量閾值的值是0.1,過(guò)零率閾值為100。

優(yōu)選的,所述靜音最大長(zhǎng)度等于10,所述語(yǔ)音信號(hào)最小長(zhǎng)度等于5。

優(yōu)選的,預(yù)處理過(guò)程包括預(yù)加重處理及分幀處理。

具體的,預(yù)加重處理是通過(guò)具有6dB/倍頻程的提升高頻特性的數(shù)字濾波器來(lái)實(shí)現(xiàn),所述高通濾波器滿足H(z)=1-μz-1,μ=0.97;按照幀長(zhǎng)256,幀移128對(duì)語(yǔ)音信號(hào)進(jìn)行分幀。

本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:

本發(fā)明結(jié)合孤立詞的地名語(yǔ)音信號(hào)的特點(diǎn),通過(guò)對(duì)傳統(tǒng)的雙門限方法進(jìn)行改進(jìn),加入用于計(jì)算未確定進(jìn)入語(yǔ)音段時(shí)可能處于語(yǔ)音段的長(zhǎng)度的變量slience1變量,以及優(yōu)化各種端點(diǎn)檢測(cè)參數(shù),能夠保證輕音且持續(xù)時(shí)間很短的斷續(xù)的地名語(yǔ)音信號(hào)的前一部分不會(huì)被判定為噪聲,從而避免丟失語(yǔ)音信號(hào),提高了端點(diǎn)檢測(cè)的準(zhǔn)確性以及現(xiàn)場(chǎng)應(yīng)用環(huán)境的適應(yīng)性,降低了端點(diǎn)檢測(cè)對(duì)環(huán)境的要求。

附圖說(shuō)明

圖1是實(shí)施例方法的過(guò)程示意圖。

具體實(shí)施方式

下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。

在地名語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)過(guò)程中,如果一段地名語(yǔ)音先是處于語(yǔ)音段,然后處于靜音段,再進(jìn)入正常語(yǔ)音段,則傳統(tǒng)的端點(diǎn)檢測(cè)方法會(huì)將正常語(yǔ)音段前面的一段認(rèn)為是噪音段,然后重新剪切語(yǔ)音信號(hào),這就導(dǎo)致語(yǔ)音信號(hào)的丟失,例如“石家莊”這個(gè)發(fā)音,“石”發(fā)音很輕很短,不易識(shí)別。

而本實(shí)施例給出的雙門限地名語(yǔ)音端點(diǎn)檢測(cè)方法,基于改進(jìn)的短時(shí)平均能量和過(guò)零率,通過(guò)加入用于計(jì)算未確定進(jìn)入語(yǔ)音段時(shí)可能處于語(yǔ)音段的長(zhǎng)度的變量slience1,即使遇到上述情況,也能夠保存正常語(yǔ)音段前面的語(yǔ)音長(zhǎng)度,將其作為有效片段,從而提高端點(diǎn)檢測(cè)的有效性。

在進(jìn)行端點(diǎn)檢測(cè)前,對(duì)地名語(yǔ)音信號(hào)進(jìn)行預(yù)處理,包括預(yù)加重處理(Pre-emphasis)及分幀處理。

由于語(yǔ)音信號(hào)的平均功率受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在80Hz以上按6dB倍頻程跌落,所以當(dāng)求語(yǔ)音信號(hào)頻譜時(shí),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分難求,因此要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理。預(yù)加重處理的中心思想是利用信號(hào)特性和噪聲特性的差別來(lái)有效地對(duì)信號(hào)進(jìn)行處理,目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。預(yù)加重是通過(guò)具有6dB/倍頻程的提升高頻特性的數(shù)字濾波器來(lái)實(shí)現(xiàn),本實(shí)施例中采用高通濾波器,所述高通濾波器滿足H(z)=1-μz-1,μ=0.97。

另外,語(yǔ)音信號(hào)從整體來(lái)看,其特性及表征其本質(zhì)特征的參數(shù)均是隨時(shí)間變化的,但是它又具有短時(shí)平穩(wěn)特性,在短時(shí)間內(nèi)(一般為10ms~30ms內(nèi))可以看作是一個(gè)近似不變的平穩(wěn)過(guò)程。

目前絕大多數(shù)的語(yǔ)音信號(hào)處理技術(shù)均是在短時(shí)的基礎(chǔ)上對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理,然后分別對(duì)每一幀提取特征參數(shù)段,為了使幀與幀之間平滑,保持連續(xù)性,一般采用交疊分幀的方法,使前一幀和后一幀具有相交部分,相交部分稱為幀移,分幀時(shí)要對(duì)幀長(zhǎng)和幀移的長(zhǎng)度進(jìn)行選擇,如果采用較大的幀長(zhǎng),則幀數(shù)太少,計(jì)算量會(huì)小,系統(tǒng)處理的速度快,但容易增加端點(diǎn)檢測(cè)的誤差,如果采用較小的幀長(zhǎng),則幀數(shù)較多,計(jì)算量增加,系統(tǒng)處理的速度慢。一般每秒的幀數(shù)約為33~100幀,幀移一般取幀長(zhǎng)的1/3~2/3,本實(shí)施例中,按照幀長(zhǎng)256,幀移128對(duì)語(yǔ)音信號(hào)進(jìn)行分幀,256、128均為采樣點(diǎn)個(gè)數(shù)。

對(duì)地名語(yǔ)音信號(hào)經(jīng)過(guò)預(yù)處理后,即可進(jìn)行端點(diǎn)檢測(cè),,如附圖1所示,具體步驟如下:

初始狀態(tài)下,令狀態(tài)變量status=0,語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count=0,用于計(jì)算未確定進(jìn)入語(yǔ)音段時(shí)可能處于語(yǔ)音段的長(zhǎng)度的變量slience1=0,靜音長(zhǎng)度slience=0。

S1、接收經(jīng)過(guò)預(yù)處理的地名語(yǔ)音信號(hào),判斷每幀語(yǔ)音信號(hào)的能量amp[i]與最低能量閾值amp2、最高能量閾值amp1的大小以及判斷過(guò)零率zcr[i]與過(guò)零率閾值z(mì)cr的大小,其中,所述最低能量閾值amp2的值為0.01,最高能量閾值amp1的值是0.1,過(guò)零率閾值z(mì)cr為100。

這些閾值均是語(yǔ)音信號(hào)在歸一化處理之后設(shè)置的閾值,假設(shè)語(yǔ)音信號(hào)為x=[x1,x2,…xn],則歸一化處理是:

在這些處理之后,信號(hào)x中的所有值均在[-1,1]之間。在這基礎(chǔ)上設(shè)定的閾值,以下數(shù)據(jù)均是在歸一化之后設(shè)定的閾值。

這個(gè)過(guò)程是將語(yǔ)音信號(hào)的每一幀依次進(jìn)行檢測(cè),根據(jù)語(yǔ)音信號(hào)各幀的判斷結(jié)果,設(shè)置狀態(tài)變量status的值,從而確定下一幀語(yǔ)音信號(hào)應(yīng)該如何進(jìn)行判斷。

S2、當(dāng)?shù)趇幀語(yǔ)音信號(hào)的能量amp[i]<最低能量閾值amp2時(shí),將狀態(tài)變量status設(shè)置為0,語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count設(shè)置成0,表明仍處于靜音段,繼續(xù)返回S1步驟進(jìn)行下一幀檢測(cè);

S3、當(dāng)最高能量閾值amp1>第i幀語(yǔ)音信號(hào)的能量amp[i]>最低能量閾值amp2,且過(guò)零率zcr[i]>過(guò)零率閾值z(mì)cr,將狀態(tài)變量status設(shè)置為1,表明可能處于語(yǔ)音段,將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count加1,同時(shí)將可能處于語(yǔ)音段的長(zhǎng)度的變量sliencel加1,并返回S1步驟進(jìn)行下一幀檢測(cè)。

S4、若已經(jīng)進(jìn)入狀態(tài)status=1,且當(dāng)下一幀語(yǔ)音信號(hào)的能量小于最低能量閾值amp2時(shí),判斷sliencel>6是否成立,若成立,表示當(dāng)前是噪音段,舍棄前面的語(yǔ)音部分,令狀態(tài)變量status=0,語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count=0,可能處于語(yǔ)音段的長(zhǎng)度的變量slience1=0并返回S1步驟繼續(xù)下一幀檢測(cè);若不成立,則表示可能還在語(yǔ)音段,保持狀態(tài)變量status=1且將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count加1,可能處于語(yǔ)音段的長(zhǎng)度的變量slience1加1,返回S1步驟進(jìn)行下一幀檢測(cè)。

S5、當(dāng)?shù)趇幀語(yǔ)音信號(hào)的能量amp[i]>最高能量閾值amp1,則將狀態(tài)變量status設(shè)置為2,表示進(jìn)入語(yǔ)音段,同時(shí)將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count加1,按照S6步驟進(jìn)行下一幀檢測(cè)。

S6、判斷當(dāng)前幀語(yǔ)音信號(hào)的能量amp[i]>最低能量閾值amp2或當(dāng)前幀語(yǔ)音信號(hào)的過(guò)零率zcr[i]>過(guò)零率閾值z(mì)cr是否成立。

若成立,表示還在語(yǔ)音段,不是靜音,將狀態(tài)變量status保持為2,語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count加1,按照S6步驟繼續(xù)下一幀檢測(cè)。

若不成立,說(shuō)明信號(hào)已經(jīng)從語(yǔ)音段轉(zhuǎn)向靜音段,則將靜音長(zhǎng)度slience加1,此處?kù)o音長(zhǎng)度slience變量是用于后面判斷語(yǔ)音信號(hào)是否結(jié)束,并執(zhí)行S9步驟。

S9、判斷靜音長(zhǎng)度slience<最大靜音長(zhǎng)度maxslience是否成立,其中所述靜音最大長(zhǎng)度maxslience=10;

若成立,則表示可能還在語(yǔ)音段,這是因?yàn)樵谇懊娉霈F(xiàn)語(yǔ)音信號(hào)之后,當(dāng)前靜音段的語(yǔ)音長(zhǎng)度沒(méi)有達(dá)到最大靜音長(zhǎng)度,則說(shuō)明語(yǔ)音信號(hào)后面可能還沒(méi)結(jié)束,可能還有信號(hào),因此可能還在語(yǔ)音段,保持狀態(tài)變量status為2,將語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count加1,并按照步驟S6進(jìn)行下一幀檢測(cè)。

若不成立,則判斷語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count<語(yǔ)音信號(hào)最小長(zhǎng)度minlen是否成立,其中所述語(yǔ)音信號(hào)最小長(zhǎng)度minlen=5;若語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count<語(yǔ)音信號(hào)最小長(zhǎng)度minlen成立,表明前面檢測(cè)出來(lái)的都是噪聲,這是因?yàn)椋赫5恼Z(yǔ)音信號(hào)長(zhǎng)度應(yīng)該大于語(yǔ)音信號(hào)最小長(zhǎng)度minlen,若小于此長(zhǎng)度,則判定為噪聲,將狀態(tài)變量status設(shè)置為0、靜音段長(zhǎng)度slience設(shè)置為0、語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count設(shè)置為0,再繼續(xù)檢驗(yàn);若語(yǔ)音長(zhǎng)度計(jì)數(shù)變量count<語(yǔ)音信號(hào)最小長(zhǎng)度minlen不成立,表示語(yǔ)音段已經(jīng)找到,認(rèn)為是有效的語(yǔ)音信號(hào),因此可以結(jié)束整個(gè)過(guò)程,即將狀態(tài)參數(shù)status設(shè)置為3,結(jié)束進(jìn)程。

本實(shí)施例中對(duì)于范圍的判斷都是用大于或者小于表達(dá),未提及等于,可將等于歸結(jié)為大于那一類。

上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1