一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法
【專利摘要】本發(fā)明公開了一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法,該方法具體包括:對(duì)音頻信號(hào)進(jìn)行預(yù)處理,所述預(yù)處理包括:預(yù)加重處理、分幀處理以及加窗處理;提取音頻特征,所述音頻特征包括:頻譜質(zhì)心、擴(kuò)頻、頻譜平坦度、頻譜變遷參數(shù)、短時(shí)能量、基音頻率以及Mel頻率倒譜系數(shù)(MFCC)和MFCC一階差分;根據(jù)音頻特征進(jìn)行檢索分類,找到相似音頻。本發(fā)明克服了現(xiàn)有技術(shù)中通過采用單一的音頻特征對(duì)音頻進(jìn)行檢索所帶來的誤差問題,并且其計(jì)算過程簡(jiǎn)單,易于在現(xiàn)實(shí)中進(jìn)行應(yīng)用,檢索的效率較高。
【專利說明】一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于音頻檢索【技術(shù)領(lǐng)域】,具體涉及一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法的設(shè)計(jì)。
【背景技術(shù)】
[0002]如今網(wǎng)絡(luò)媒體中存有海量的數(shù)字音頻,從其中找出有相同或相似特征的文件是一件困難的事,目前普遍的做法是根據(jù)文件名稱、歌手或?qū)W說人、標(biāo)簽等文本信息來辨別,而這樣做有很大的主觀性,從而使得到的結(jié)果并不準(zhǔn)確。基于內(nèi)容的音頻特征抽取則能克服這些缺點(diǎn),由于音頻數(shù)據(jù)樣本的數(shù)據(jù)量過大,并不適合直接用于自動(dòng)分類,因此必須從這個(gè)數(shù)值序列中提取相應(yīng)特征,常用的音頻特征大致可以分成三類:時(shí)域特征、頻域特征和聲學(xué)感知特征。
[0003]時(shí)域特征僅僅利用音頻信號(hào)在時(shí)域上的信息,在提取時(shí)不需要特別的轉(zhuǎn)換,處理時(shí)間短。常見的時(shí)域特征包括:短時(shí)過零率、平均能量、自相關(guān)函數(shù)、短時(shí)平均幅度差函數(shù)等。頻域特征需要將時(shí)域波形信號(hào)轉(zhuǎn)換到頻譜或倒譜域,然后進(jìn)行計(jì)算。常見的頻域特征有:頻譜質(zhì)心、帶寬、頻率等。聲學(xué)感知特征是一些聲學(xué)上定義的概念,考慮了人的聽覺感知特點(diǎn),但通常計(jì)算比較復(fù)雜。所以在現(xiàn)有技術(shù)中,采用不同上述三種特征實(shí)現(xiàn)的音頻分類的方法都存在某一方面取得較好的效果,而在另一方面表現(xiàn)欠佳,缺少一種能夠整合上述三種特征各自優(yōu)點(diǎn)的音頻分類方法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中音頻分類方法存在的缺點(diǎn)而提供一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法。
[0005]本發(fā)明的技術(shù)方案是:一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法,具體包括:
[0006]S1、對(duì)音頻信號(hào)進(jìn)行預(yù)處理,所述預(yù)處理包括:預(yù)加重處理、分幀處理以及加窗處理;
[0007]S2、提取音頻特征,所述音頻特征包括:頻譜質(zhì)心、擴(kuò)頻、頻譜平坦度、頻譜變遷參數(shù)、短時(shí)能量、基音頻率以及Mel頻率倒譜系數(shù)(MFCC)和MFCC —階差分;
[0008]S3、根據(jù)音頻特征進(jìn)行檢索分類,找到相似音頻。
[0009]進(jìn)一步的,所述步驟SI具體為:
[0010]S11、預(yù)加重處理: 用提升高頻特性的預(yù)加重?cái)?shù)字濾波器來實(shí)現(xiàn);
[0011]S12、分幀處理:對(duì)音頻信號(hào)進(jìn)行分幀處理;
[0012]S13、加窗處理:設(shè)音頻幀信號(hào)為X (η),窗函數(shù)為w (η),加窗后的信號(hào)為:y (η) =x (n) *w (η);其中,0 £η〈Ν, N為每幀的取樣數(shù)。
[0013]更進(jìn)一步的, 所述步驟SI中的預(yù)加重處理中的預(yù)加重?cái)?shù)字濾波器為6dB/倍頻程,預(yù)加重系數(shù)取0.97,所述分幀處理中的幀長取25ms,幀移取12ms,所述加窗處理中采用漢明窗進(jìn)行加窗處理。[0014]進(jìn)一步的,所述步驟S2具體為:
[0015]S21、計(jì)算頻譜質(zhì)心,其公式具體為:
【權(quán)利要求】
1.一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法,其特征在于,具體包括: S1、對(duì)音頻信號(hào)進(jìn)行預(yù)處理,所述預(yù)處理包括:預(yù)加重處理、分幀處理以及加窗處理; S2、提取音頻特征,所述音頻特征包括:頻譜質(zhì)心、擴(kuò)頻、頻譜平坦度、頻譜變遷參數(shù)、短時(shí)能量、基音頻率以及Mel頻率倒譜系數(shù)(MFCC)和MFCC —階差分; S3、根據(jù)音頻特征進(jìn)行檢索分類,找到相似音頻。
2.如權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法,其特征在于,所述步驟SI具體為: S11、預(yù)加重處理:用提升高頻特性的預(yù)加重?cái)?shù)字濾波器來實(shí)現(xiàn); S12、分幀處理:對(duì)音頻信號(hào)進(jìn)行分幀處理; S13、加窗處理:設(shè)音頻幀信號(hào)為X(η),窗函數(shù)為w (η),加窗后的信號(hào)為:y (η) =x(n)*w(η);其中,O £η〈Ν, N為每幀的取樣數(shù)。
3.如權(quán)利要求2所述的一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法,其特征在于,所述步驟SI中的預(yù)加重處理中的預(yù)加重?cái)?shù)字濾波器為6dB/倍頻程,預(yù)加重系數(shù)取0.97,所述分幀處理中的幀長取25ms,幀移取12ms,所述加窗處理中米用漢明窗進(jìn)行加窗處理。
4.如權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法,其特征在于,所述步驟S2具體為: S21、計(jì)算頻譜質(zhì)心,其公式具體為
5.如權(quán)利要求1所述的一種實(shí)現(xiàn)數(shù)字音頻自動(dòng)分類的方法,其特征在于,所述步驟S3具體為: S31、創(chuàng)建特征集合,對(duì)子特征集合進(jìn)行分類器訓(xùn)練; S32、提取音頻特征,對(duì)音頻進(jìn)行分類; S33、檢索相似音頻。
【文檔編號(hào)】G10L15/08GK103854646SQ201410120865
【公開日】2014年6月11日 申請(qǐng)日期:2014年3月27日 優(yōu)先權(quán)日:2014年3月27日
【發(fā)明者】陳科, 李世旭 申請(qǐng)人:成都康賽信息技術(shù)有限公司