語音處理裝置和語音處理方法
【專利摘要】公開了語音處理裝置和語音處理方法。根據(jù)一種實(shí)施例,語音處理裝置包含增強(qiáng)器、轉(zhuǎn)換器、濾波器和逆變換器。增強(qiáng)器被配置用于生成包含于輸入聲音內(nèi)的諧波分量的頻譜。轉(zhuǎn)換器被配置用于將頻譜轉(zhuǎn)換成在調(diào)制頻域內(nèi)的第一信號(hào)。濾波器被配置用于過濾第一信號(hào)以通過人類語音。逆變換器被配置用于將已過濾的第一信號(hào)轉(zhuǎn)換成在頻域內(nèi)的第二信號(hào)。
【專利說明】語音處理裝置和語音處理方法
[0001]相關(guān)申請(qǐng)的交叉引用
[0002]本申請(qǐng)基于2015年I月22日提交的日本專利申請(qǐng)N0.2015-010666并要求其優(yōu)先權(quán);該專利申請(qǐng)全文并入本文,以作參考。
技術(shù)領(lǐng)域
[0003]本文所描述的實(shí)施例一般地涉及語音處理裝置和語音處理方法。
【背景技術(shù)】
[0004]在應(yīng)用了頻率轉(zhuǎn)換的語音信號(hào)的元音部分中觀察到的諧波結(jié)構(gòu)是用于檢測(cè)語音段及估計(jì)基頻的重要信息。為了找出諧波結(jié)構(gòu),用于從語音信號(hào)中提取諧波分量的各種方法已經(jīng)被公開,這些諧波分量是構(gòu)成諧波結(jié)構(gòu)的頻率分量。
[0005]所有此類在傳統(tǒng)上公開的諧波分量提取方法提取具有比鄰近頻帶的功率更強(qiáng)的功率的頻率分量作為諧波分量。因此,當(dāng)噪聲包含具有比鄰近頻帶的功率更高的功率的頻率分量時(shí),例如,當(dāng)電話音調(diào)聲或鳴響聲(telephone tone or chime sound)被混合到語音中時(shí),這樣的方法將會(huì)提取噪聲作為諧波分量。這樣的噪聲會(huì)對(duì)語音檢測(cè)或基頻估計(jì)造成不利(adversary)的影響。因此,具有創(chuàng)建能夠針對(duì)這樣的噪聲穩(wěn)健地提取語音諧波分量的機(jī)制的需求。
【發(fā)明內(nèi)容】
[0006]實(shí)施例的目的是提供能夠針對(duì)噪聲穩(wěn)健地提取語音的諧波分量的語音處理裝置和語音處理方法。
[0007]根據(jù)一種實(shí)施例,語音處理裝置包含增強(qiáng)器、轉(zhuǎn)換器、濾波器和逆變換器。增強(qiáng)器被配置用于生成其中增強(qiáng)包含于輸入聲音內(nèi)的諧波分量的頻譜。轉(zhuǎn)換器被配置用于將頻譜轉(zhuǎn)換成在調(diào)制頻域內(nèi)的第一信號(hào)。濾波器被配置用于過濾第一信號(hào)以通過人類語音。逆變換器被配置用于將已過濾的第一信號(hào)轉(zhuǎn)換成在頻域內(nèi)的第二信號(hào)。
[0008]根據(jù)以上所描述的語音處理裝置,可以針對(duì)噪聲穩(wěn)健地提取語音的諧波分量。
【附圖說明】
[0009]圖1是示出根據(jù)一種實(shí)施例的語音處理裝置的示例性的功能配置的框圖;
[0010]圖2是示出由根據(jù)實(shí)施例的語音處理裝置執(zhí)行的示例性過程的流程圖;
[0011]圖3是示出示例性的頻譜圖的示意圖;
[0012]圖4是示出由連結(jié)的多個(gè)占有度譜產(chǎn)生的示例性頻譜圖的示意圖;
[0013]圖5是示出從圖4所示的頻譜圖中對(duì)幀100至200的提取的示意圖;
[0014]圖6是示出通過在每個(gè)時(shí)間增量處從圖5所示的頻譜圖中提取頻率分量(A)來采集的一維時(shí)間信號(hào)的示意圖;
[0015]圖7是示出通過在每個(gè)時(shí)間增量處從圖5所示的頻譜圖中提取頻率分量(B)來采集的一維時(shí)間信號(hào)的示意圖;
[0016]圖8是示出通過將離散傅立葉變換應(yīng)用于圖6所示的時(shí)間信號(hào)而產(chǎn)生的調(diào)制頻譜的不意圖;
[0017]圖9是示出通過將離散傅立葉變換應(yīng)用于圖7所示的時(shí)間信號(hào)而產(chǎn)生的調(diào)制頻譜的不意圖;
[0018]圖10是示出示例性的調(diào)制頻譜圖的示意圖;
[0019]圖11是示出通過對(duì)圖10所示的調(diào)制頻譜圖進(jìn)行過濾并執(zhí)行逆轉(zhuǎn)換而獲得的頻譜圖的不意圖;以及
[0020]圖12是示出語音處理裝置的示例性硬件配置的框圖。
【具體實(shí)施方式】
[0021]根據(jù)一種實(shí)施例的語音處理裝置、語音處理方法和計(jì)算機(jī)程序現(xiàn)在將參照附圖來詳細(xì)解釋。根據(jù)該實(shí)施例的語音處理裝置在語音檢測(cè)或基頻估計(jì)之前提取在輸入聲音中的人類語音的諧波分量。輸入聲音是包含聲音的信號(hào)并且被輸入到根據(jù)該實(shí)施例的語音處理裝置。在該實(shí)施例中,包含作為與人類語音對(duì)應(yīng)的片段的語音段以及非語音段的信號(hào)被作為輸入聲音輸入到語音處理裝置。
[0022]首先,現(xiàn)在將參照?qǐng)D1來解釋根據(jù)該實(shí)施例的語音處理裝置的配置。圖1是示出根據(jù)該實(shí)施例的語音處理裝置I的示例性功能配置的框圖。如圖1所示,語音處理裝置I包含增強(qiáng)器11、轉(zhuǎn)換器12、濾波器13、逆變換器14、檢測(cè)器15和估計(jì)器16。
[0023]增強(qiáng)器11在每個(gè)時(shí)間增量處生成其中增強(qiáng)輸入聲音的諧波分量的頻譜,并且通過連結(jié)在各個(gè)時(shí)間增量處生成的頻譜來生成其中時(shí)間和頻率沿各自的軸表示的頻譜圖。增強(qiáng)器11可以被配置用于從輸入聲音中生成頻譜并且在每個(gè)時(shí)間增量處將頻譜傳遞給轉(zhuǎn)換器12,從而促使轉(zhuǎn)換器12通過連結(jié)由增強(qiáng)器11生成的與各個(gè)時(shí)間增量對(duì)應(yīng)的頻譜來生成頻譜圖。
[0024]增強(qiáng)器11可以被配置用于生成例如日本專利申請(qǐng)?zhí)亻_N0.2003-173195所公開的占有度譜,作為具有增強(qiáng)的諧波分量的頻譜。日本專利申請(qǐng)?zhí)亻_N0.2003-173195所公開的占有度譜通過下列操作來生成:用于在每個(gè)時(shí)間增量處從輸入信號(hào)中提取與各個(gè)頻帶對(duì)應(yīng)的瞬時(shí)頻率的瞬時(shí)頻率提取過程;用于提取每個(gè)頻帶的中心頻率的輸入信號(hào)功率的信號(hào)功率提取過程;提取在中心頻率與相鄰于該中心頻率的每個(gè)頻帶的瞬時(shí)頻率之間的差的頻率差提取過程;以及計(jì)算每個(gè)中心頻率的頻率差之和并獲取占有度的占有度計(jì)算過程。作為提取中心頻率與相鄰于該中心頻率的每個(gè)頻帶的瞬時(shí)頻率之差的替代,頻率差提取過程可以提取對(duì)應(yīng)于中心頻率的瞬時(shí)頻率與相鄰于該中心頻率的每個(gè)頻帶的瞬時(shí)頻率之差。
[0025]增強(qiáng)器11可以被配置用于生成不同于日本專利申請(qǐng)?zhí)亻_N0.2003-173195所公開的占有度譜的頻譜,作為具有增強(qiáng)的諧波分量的頻譜。例如,增強(qiáng)器11可以生成例如 Kenichi Noguchi 等人的 “Single-channel non-stat1nary noise reduct1n in ateleconference,,(IEICE Technical Report,Engineering Acoustics (EA) 105 (403),PP.31-36(2005))所公開的LPC殘差譜,作為具有增強(qiáng)的諧波分量的頻譜。例如,增強(qiáng)器11同樣可以生成由通過對(duì)輸入聲音應(yīng)用倒譜分析來抑制(提升(Iiftering))低階分量并且對(duì)結(jié)果應(yīng)用逆離散余弦變換而獲得的頻譜,作為具有增強(qiáng)的諧波分量的頻譜。作為另一個(gè)例子,增強(qiáng)器11同樣可以生成下面的引用文獻(xiàn)I所公開的瞬時(shí)頻譜,作為具有增強(qiáng)的諧波分量的頻譜。
[0026]引用文獻(xiàn)1:Toshihiko Abe 等,“Pitch Estimat1n Based on InstantaneousFrequency in Noisy Enviroments,,,The Transact1ns of the Institute ofElectronics, Informat1n and Communicat1n Engineers, D-1I INFORMAT1N-SYSTEM,11-1NFORMAT1N J79-D-2(11),pp.1771-1781(1996)
[0027]轉(zhuǎn)換器12將由增強(qiáng)器11生成的頻譜圖轉(zhuǎn)換成在調(diào)制頻域內(nèi)的信號(hào)。通過在每個(gè)時(shí)間增量處從由增強(qiáng)器11生成的頻譜圖中提取特定頻率倉的分量,一維時(shí)間信號(hào)被獲得。通過對(duì)時(shí)間信號(hào)進(jìn)行頻率轉(zhuǎn)換,在調(diào)制頻域內(nèi)的頻譜被獲得。這個(gè)所獲得的頻譜稱為調(diào)制頻譜。在調(diào)制頻譜中的頻率方向軸表示調(diào)制頻率。轉(zhuǎn)換器12能夠通過對(duì)頻譜圖中的每個(gè)頻率倉執(zhí)行以上所公開的過程,將由增強(qiáng)器11生成的頻譜圖轉(zhuǎn)換成其中調(diào)制頻率和頻率沿各自的軸來表示的調(diào)制頻譜圖。
[0028]濾波器13過濾調(diào)制頻譜圖以通過人類語音。已知的是,對(duì)于人類語音的可理解度重要的信息分布于沿著調(diào)制頻率軸的I赫茲至16赫茲周圍(例如,見下面的引用文獻(xiàn)2)。例如,利用這種特性,濾波器13可以使用令在調(diào)制頻率軸內(nèi)的I赫茲至16赫茲附近的分量通過的濾波器并且去除不同于此類分量的任意分量來過濾調(diào)制頻譜圖。
[0029]引用文獻(xiàn)2:N.Kanedera 等,“On the properties of modulat1n spectrum forcontinuous speech recognit1n,,,Proceedings of Acoustical Society of Japan,1999(1),pp.3-4(1999)。
[0030]逆變換器14執(zhí)行用于將由濾波器13過濾的調(diào)制頻譜圖轉(zhuǎn)換成在原始頻域(與通過轉(zhuǎn)換器12來轉(zhuǎn)換頻譜之前的頻譜圖的頻域相同的頻域)中的頻譜圖的頻率逆變換。通過從由濾波器13過濾的調(diào)制頻譜圖中提取特定頻率倉的分量,在一維調(diào)制頻域內(nèi)的信號(hào)被獲得。通過對(duì)該信號(hào)執(zhí)行頻率逆變換,與特定頻率倉對(duì)應(yīng)的時(shí)間信號(hào)被獲得。逆變換器14能夠通過對(duì)在調(diào)制頻譜圖中的每個(gè)頻率倉執(zhí)行以上所描述的過程,將由濾波器13過濾的調(diào)制頻譜圖轉(zhuǎn)換成在原始頻域內(nèi)的頻譜圖。
[0031]通過由逆變換器14執(zhí)行的過程獲得的頻譜圖代表其中包含于輸入聲音內(nèi)的人類語音的諧波分量被增強(qiáng)的信號(hào)。換言之,根據(jù)該實(shí)施例的語音處理裝置I能夠通過促使增強(qiáng)器11到逆變換器14將它們相應(yīng)的過程應(yīng)用于輸入聲音來適當(dāng)?shù)靥崛“谳斎肼曇魞?nèi)的人類語音的諧波分量。
[0032]檢測(cè)器15基于由逆變換器14生成的頻譜圖從輸入聲音中檢測(cè)出語音段。語音段可以使用例如用于將頻譜圖分割成多個(gè)頻譜的方法并且通過獲得在與各個(gè)時(shí)間增量對(duì)應(yīng)的每個(gè)頻譜內(nèi)的每個(gè)頻率倉的平均功率來檢測(cè),但沒有任何限制。在這種情況下,例如,檢測(cè)器15在輸入聲音的片段中檢測(cè)出具有超過閾值的平均功率的片段作為語音段。檢測(cè)器15同樣可以使用以下方法檢測(cè)出語音段:將每個(gè)頻譜傳遞到各自具有不同的梳狀間隔的各種梳狀濾波器內(nèi),并且使用最大響應(yīng)來檢測(cè)語音段。在這種情況下,例如,檢測(cè)器15在輸入信號(hào)的片段中檢測(cè)可從其中獲得最大響應(yīng)的片段作為語音段。同樣可以從用于輸出最大響應(yīng)的梳狀濾波器的梳狀間隔中估計(jì)基頻。
[0033]估計(jì)器16基于由逆變換器14生成的頻譜圖來估計(jì)包含于輸入聲音內(nèi)的人類語音的基頻。由估計(jì)器16執(zhí)行的基頻估計(jì)可以對(duì)由檢測(cè)器15檢測(cè)出的語音段執(zhí)行,或者可以與由檢測(cè)器15執(zhí)行的語音檢測(cè)并行地執(zhí)行。作為基頻估計(jì)方法,估計(jì)器16可以使用用于使用在諧波結(jié)構(gòu)中的占有度來估計(jì)基頻的方法,如同例如日本專利申請(qǐng)?zhí)亻_N0.2003-173195所公開的,但沒有任何限制。
[0034]由根據(jù)該實(shí)施例的語音處理裝置I執(zhí)行的操作現(xiàn)在將參照?qǐng)D2來解釋。圖2是示出由語音處理裝置I執(zhí)行的示例性過程的流程圖。每當(dāng)一段輸入聲音被輸入語音處理裝置I時(shí),示于圖2的流程圖中的一系列步驟就被重復(fù)。
[0035]首先,當(dāng)圖2的流程圖所示的過程開始時(shí),增強(qiáng)器11在每個(gè)時(shí)間增量處生成其中增強(qiáng)了輸入聲音的諧波分量的頻譜(步驟S101)。增強(qiáng)器11然后通過連結(jié)在各個(gè)時(shí)間增量處生成的頻譜來生成具有由各自的軸表示的時(shí)間和頻率的頻譜圖(步驟S102)。由增強(qiáng)器11生成的頻譜圖被供應(yīng)給轉(zhuǎn)換器12。
[0036]轉(zhuǎn)換器12然后將由增強(qiáng)器11供應(yīng)的頻譜圖轉(zhuǎn)換成具有由各自的軸表示的調(diào)制頻率和頻率的調(diào)制頻譜圖(步驟S103)。通過促使轉(zhuǎn)換器12轉(zhuǎn)換頻譜圖而獲得的調(diào)制頻譜圖被供應(yīng)給濾波器13。
[0037]濾波器13然后過濾由轉(zhuǎn)換器12供應(yīng)的調(diào)制頻譜圖以通過人類語音(步驟S104)。由濾波器13過濾的調(diào)制頻譜圖(已經(jīng)通過濾波器的)被供應(yīng)給逆變換器14。
[0038]逆變換器14然后將由濾波器13供應(yīng)的調(diào)制頻譜圖(已過濾的調(diào)制頻譜圖)轉(zhuǎn)換成具有由各自的軸表示的時(shí)間和頻率的頻譜圖(步驟S105)。通過促使逆變換器14轉(zhuǎn)換調(diào)制頻譜圖而獲得的頻譜圖被供應(yīng)給檢測(cè)器15。
[0039]檢測(cè)器15然后基于由逆變換器14供應(yīng)的頻譜圖從輸入聲音中檢測(cè)出語音段(步驟S106)。由檢測(cè)器15檢測(cè)出的語音段的信息被供應(yīng)給估計(jì)器16,并且同樣被輸出到例如輸出裝置(例如,顯示器或揚(yáng)聲器)、文件存儲(chǔ)器件(例如,硬盤驅(qū)動(dòng)器(HDD)),或者與網(wǎng)絡(luò)連接的通信接口(I/F)。
[0040]估計(jì)器16然后基于由逆變換器14供應(yīng)的頻譜圖來估計(jì)出由檢測(cè)器15從輸入聲音中檢測(cè)出的語音段的基頻(步驟S107)。由估計(jì)器17估計(jì)出的基頻的信息被輸出到例如輸出裝置(例如,顯示器或揚(yáng)聲器)、文件存儲(chǔ)器件(例如,HDD),或者與網(wǎng)絡(luò)連接的通信接口 I/F。
[0041]由根據(jù)該實(shí)施例的語音處理裝置I執(zhí)行的示例性過程現(xiàn)在將使用某些具體的實(shí)例來更詳細(xì)地解釋。在這些實(shí)例中,假定日本專利申請(qǐng)?zhí)亻_N0.2003-173195所公開的占有度譜由增強(qiáng)器11生成為頻譜(其中增強(qiáng)了輸入聲音的諧波分量的頻譜)。
[0042]圖3是示出通過將輸入聲音轉(zhuǎn)換成多個(gè)幀并且對(duì)各個(gè)幀的信號(hào)進(jìn)行頻率轉(zhuǎn)換而產(chǎn)生的示例性頻譜圖的示意圖。在圖3中,橫軸代表幀編號(hào),而縱軸代表頻率倉編號(hào)。從圖3所示的這種頻譜圖中能夠觀察出,語音在輸入聲音的幀100至200附近被發(fā)現(xiàn)。該片段是語音段。在該語音段中,包含按相等間隔沿頻率軸布置的強(qiáng)功率分量的結(jié)構(gòu)代表在元音部分中觀察到的諧波結(jié)構(gòu)。在圖3所示的示例性頻譜圖中,除了諧波分量外,具有強(qiáng)功率的音調(diào)聲在第30頻率倉附近被穩(wěn)定地觀察到。
[0043]圖4是示出通過使用日本專利申請(qǐng)?zhí)亻_N0.2003-173195所公開的方法從與圖3中所使用的輸入聲音相同的輸入聲音中提取單位為I幀的占有度譜并且通過連結(jié)占有度譜而獲得的示例性頻譜圖的示意圖。將圖4所示的頻譜圖與圖3所述的頻譜圖進(jìn)行比較,能夠觀察出,因?yàn)閳D4表示占有度譜的提取,輸入聲音的諧波分量被增強(qiáng),附近的背景噪聲被抑制。但是,音調(diào)聲沒有被抑制,而是按照與語音的諧波分量相同的方式被增強(qiáng)。這是因?yàn)?,通過占有度譜提取方法,具有比鄰近頻帶的功率強(qiáng)的功率的信號(hào)分量被認(rèn)為是諧波分量,并被增強(qiáng)。如果噪聲與語音混合在一起的此類占有度譜照原樣來使用,則語音檢測(cè)和基頻估計(jì)無法被正確地執(zhí)行。
[0044]圖5是示出從圖4所示的頻譜圖中對(duì)幀100至200的提取的示意圖。在下文中,在本例中,在解釋圖2的流程圖中的步驟S103至步驟S105所執(zhí)行的具體操作時(shí),該片段被假定為待分析的片段。
[0045]在步驟S103,轉(zhuǎn)換器12將頻譜圖轉(zhuǎn)換成調(diào)制頻譜圖?,F(xiàn)在于本例中解釋圖5所示的示例性的兩個(gè)頻率(A)和(B)。頻率(A)代表第80頻率倉,并且頻率(B)代表第30頻率倉。
[0046]圖6是示出通過在每個(gè)時(shí)間增量處從圖5所示的頻譜圖中提取頻率分量㈧而獲得的一維時(shí)間信號(hào)的示意圖。從圖6所示的時(shí)間信號(hào)中能夠看出,在頻率(A)處的信號(hào)具有波動(dòng)較大的振幅(占有度)。這是因?yàn)樵谥C波分量與頻率(A)重疊的時(shí)間增量處以及在諧波分量不與頻率(A)重疊的時(shí)間增量處觀察到不同的振幅,這是在諧波結(jié)構(gòu)中諧波分量沿著頻率軸的位置變化的結(jié)果,這樣的變化由語音的間距的變化引起。
[0047]圖7是示出通過在每個(gè)時(shí)間增量處從圖5所示的頻譜圖中提取頻率分量⑶而獲得的一維時(shí)間信號(hào)的示意圖。將圖7所示的時(shí)間信號(hào)與圖6所示的時(shí)間信號(hào)進(jìn)行比較,能夠看出,在圖7中的信號(hào)具有比圖6中的振幅高的振幅,并且變化比圖6中的信號(hào)小。這是因?yàn)橐粽{(diào)聲的振幅在頻率(B)處是主要的,并且音調(diào)聲的振幅波動(dòng)較小。
[0048]圖8是示出通過將離散傅立葉變換應(yīng)用于圖6所示的時(shí)間信號(hào)而產(chǎn)生的調(diào)制頻譜的示意圖。圖9是示出通過將離散傅立葉變換應(yīng)用于圖7所示的時(shí)間信號(hào)而產(chǎn)生的調(diào)制頻譜的示意圖。在圖8中,偏移分量(在O赫茲的調(diào)制頻率處的分量)具有大約15的振幅,并且其他調(diào)制頻率具有最多5左右的振幅。相比之下,在圖9中,偏移分量具有大約300的振幅,該振幅比其他調(diào)制頻率的振幅尚得多。這是因?yàn)榫哂猩姓穹▌?dòng)$父小的首調(diào)聲分量被轉(zhuǎn)換成在頻域內(nèi)的偏移分量。
[0049]圖10是示出通過將以上所描述的過程應(yīng)用于所有頻率倉而獲得的示例性調(diào)制頻譜圖的示意圖。在圖10所示的調(diào)制頻譜圖中,雖然在離包含音調(diào)聲的第30頻率倉很近的地方?jīng)]有觀察到除偏移分量外的分量,但是包含語音的其他頻率倉具有除該偏移外的許多分量。
[0050]在步驟S104,濾波器13然后過濾調(diào)制頻譜圖以通過人類語音。在本例中使用的是用于通過在具有編號(hào)2至16的調(diào)制頻率倉內(nèi)的分量(由圖10中的虛線包圍的部分)并且將其他分量從圖10所示的調(diào)制頻譜圖中消減到O的濾波器。通過該過程,作為在調(diào)制頻域內(nèi)的偏移分量的音調(diào)聲被過濾掉。
[0051]在步驟S105,逆變換器14然后將由過濾頻譜圖而產(chǎn)生的調(diào)制頻譜圖轉(zhuǎn)換成頻譜圖。圖11是示出由過濾所示的調(diào)制頻譜圖并對(duì)其執(zhí)行頻率逆變換而產(chǎn)生的頻譜圖的示意圖。將圖11所示的頻譜圖與圖5所示的頻譜圖比較,能夠看出,在圖5所示的頻譜圖中觀察到的音調(diào)聲幾乎沒有在圖11所示的頻譜圖中被觀察到。
[0052]基于上文,應(yīng)當(dāng)清楚的是,能夠使用通過以設(shè)計(jì)用于通過人類語音的濾波器來過濾調(diào)制頻譜圖并且對(duì)已過濾的調(diào)制頻譜圖執(zhí)行頻率逆變換變換而獲得的頻譜圖,按照受噪聲(例如,音調(diào)聲)影響較小的方式針對(duì)此類噪聲來穩(wěn)健地提取語音的諧波分量。結(jié)果,通過使用這樣的頻譜圖來執(zhí)行語音檢測(cè)或基頻估計(jì),這些過程能夠高度精確地執(zhí)行。
[0053]如同上文使用某些特定實(shí)例來詳細(xì)解釋的,根據(jù)該實(shí)施例的語音處理裝置I生成其中增強(qiáng)了輸入聲音的諧波分量的頻譜(頻譜圖),并且將頻譜轉(zhuǎn)換成在調(diào)制頻域內(nèi)的信號(hào)(轉(zhuǎn)換成調(diào)制頻譜圖)。語音處理裝置I然后通過以設(shè)計(jì)用于通過人類語音的濾波器來過濾在調(diào)制頻域內(nèi)的信號(hào)并且將已過濾的調(diào)制頻域信號(hào)轉(zhuǎn)換成在頻域內(nèi)的信號(hào)(頻譜圖),來生成其中增強(qiáng)了包含于輸入聲音內(nèi)的人類語音的諧波分量的信號(hào)。因此,以根據(jù)該實(shí)施例的語音處理裝置1,即使是在語音與包含功率比鄰近頻帶的功率強(qiáng)的強(qiáng)功率頻率分量的噪聲(例如,電話音調(diào)或鳴響聲)混合時(shí),語音的諧波分量能夠針對(duì)噪聲穩(wěn)健地提取。
[0054]而且,根據(jù)該實(shí)施例的語音處理裝置I能夠通過基于已轉(zhuǎn)換的信號(hào)來檢測(cè)出語音段而從輸入聲音中精確地檢測(cè)出語音段。而且,根據(jù)該實(shí)施例的語音處理裝置I能夠通過基于已轉(zhuǎn)換的信號(hào)來估計(jì)基頻而精確地估計(jì)出包含于輸入聲音內(nèi)的語音的基頻。
[0055]而且,根據(jù)該實(shí)施例的語音處理裝置I執(zhí)行使用其中增強(qiáng)了輸入聲音的諧波分量的頻譜(例如,占有度譜)代替僅作為輸入聲音的頻率變換的頻譜的過程。因此,包含于例如語音頻率的頻譜內(nèi)的任意包絡(luò)分量能夠被預(yù)先去除,使得諧波分量能夠被有效地提取。
[0056]例如,通過將通用計(jì)算機(jī)系統(tǒng)用作基本硬件,并且在計(jì)算機(jī)系統(tǒng)上執(zhí)行預(yù)定的計(jì)算機(jī)程序(軟件),根據(jù)該實(shí)施例的語音處理裝置I能夠?qū)崿F(xiàn)以上所述的單元(增強(qiáng)器11、轉(zhuǎn)換器12、濾波器13、逆變換器14、檢測(cè)器15和估計(jì)器16)。
[0057]圖12是示出根據(jù)該實(shí)施例的語音處理裝置I的示例性硬件配置的框圖。如圖12所示,語音處理裝置I具有通用計(jì)算機(jī)的硬件配置,包括處理器(例如,中央處理單元(CPU) 101)、存儲(chǔ)器件(例如,隨機(jī)存取存儲(chǔ)器(RAM) 102和只讀存儲(chǔ)器(ROM) 103)、用于連接外圍設(shè)備的器件I/F 104、文件存儲(chǔ)器件(例如,HDD 105),以及用于經(jīng)由網(wǎng)絡(luò)與外部通信的通信接口 I/F 106。
[0058]記錄于記錄介質(zhì)內(nèi)的計(jì)算機(jī)程序被提供,該計(jì)算機(jī)程序可以作為計(jì)算機(jī)程序產(chǎn)品來提供,例如,磁盤(例如,軟盤或硬盤)、光盤(例如,壓縮盤只讀存儲(chǔ)器(CD-ROM)、可記錄壓縮盤(⑶-R)、可重寫壓縮盤(⑶-RW)、數(shù)字通用壓縮盤只讀存儲(chǔ)器(DVD-R0M)、可記錄的數(shù)字通用壓縮盤(DVD±R)、可重寫的數(shù)字通用壓縮盤(DVD土RW)或藍(lán)光(Blu-ray)(注冊(cè)商標(biāo))盤),或者半導(dǎo)體存儲(chǔ)器。用于記錄計(jì)算機(jī)程序的記錄介質(zhì)可以按照任意方式來存儲(chǔ)計(jì)算機(jī)程序,只要計(jì)算機(jī)系統(tǒng)能夠讀取這樣的記錄介質(zhì)。計(jì)算機(jī)程序可以被配置為預(yù)先安裝于計(jì)算機(jī)系統(tǒng)上,或者經(jīng)由網(wǎng)絡(luò)來分發(fā)并在需要時(shí)安裝。
[0059]在計(jì)算機(jī)系統(tǒng)上執(zhí)行的計(jì)算機(jī)程序具有模塊結(jié)構(gòu),該模塊結(jié)構(gòu)包括作為根據(jù)該實(shí)施例的語音處理裝置I的功能單元的單元(增強(qiáng)器11、轉(zhuǎn)換器12、濾波器13、逆變換器14、檢測(cè)器15和估計(jì)器16)。通過促使處理器讀取計(jì)算機(jī)程序并在需要時(shí)執(zhí)行該計(jì)算機(jī)程序,這些單元在主存儲(chǔ)器(例如,RAM 102)上生成。
[0060]除了被實(shí)現(xiàn)為計(jì)算機(jī)程序(軟件)之外,包含于根據(jù)該實(shí)施例的語音處理裝置I內(nèi)的單元(增強(qiáng)器11、轉(zhuǎn)換器12、濾波器13、逆變換器14、檢測(cè)器15和估計(jì)器16)還可以被部分地或完全地實(shí)現(xiàn)為專用硬件,例如,專用集成電路(ASIC)或現(xiàn)場可編程門陣列(FPGA) ο
[0061]而且,根據(jù)該實(shí)施例的語音處理裝置I可以被配置為其中多個(gè)計(jì)算機(jī)通信地互連并且其中以上所描述的單元分布于計(jì)算機(jī)之間的網(wǎng)絡(luò)系統(tǒng)。
[0062]以上描述了本發(fā)明的一種實(shí)施例。但是,本文所描述的實(shí)施例僅作為示例來給出,而并非意指以任何方式來限定本發(fā)明的范圍。本文所描述的新的實(shí)施例可以按照任何其他各種方式來實(shí)施,并且各種刪除、替代和修改在不脫離本發(fā)明的情況下仍然是可能的。本文所描述的實(shí)施例及其改型包含于本發(fā)明的范圍和本質(zhì)內(nèi),并且屬于由所附權(quán)利要求以及它們的法律等效形式定義的范圍。
[0063]根據(jù)本文所描述的至少一種實(shí)施例的語音處理裝置,語音處理裝置包含增強(qiáng)器、轉(zhuǎn)換器、濾波器和逆變換器。增強(qiáng)器被配置用于生成其中增強(qiáng)了包含于輸入聲音內(nèi)的諧波分量的頻譜。轉(zhuǎn)換器被配置用于將頻譜轉(zhuǎn)換成在調(diào)制頻域內(nèi)的第一信號(hào)。濾波器被配置用于過濾第一信號(hào)以通過人類語音。逆變換器被配置用于將已過濾的第一信號(hào)轉(zhuǎn)換成在頻域內(nèi)的第二信號(hào)。因此,可以針對(duì)噪聲穩(wěn)健地提取語音的諧波分量。
[0064]雖然已經(jīng)描述了某些實(shí)施例,但是這些實(shí)施例僅通過示例的方式來給出,并且并非意指限定本發(fā)明的范圍。實(shí)際上,本文所描述的新的實(shí)施例可以按照多種其他形式來實(shí)施;而且,本文所描述的實(shí)施例的形式的各種刪除、替代及改變可以在不脫離本發(fā)明的精神的情況下進(jìn)行。所附的權(quán)利要求及它們的等效形式意指涵蓋屬于本發(fā)明的范圍和精神內(nèi)的此類形式或修改。
【主權(quán)項(xiàng)】
1.一種語音處理裝置,包含: 被配置用于生成其中增強(qiáng)了包含于輸入聲音內(nèi)的諧波分量的頻譜的增強(qiáng)器; 被配置用于將所述頻譜轉(zhuǎn)換成在調(diào)制頻域內(nèi)的第一信號(hào)的轉(zhuǎn)換器; 被配置用于過濾所述第一信號(hào)以通過人類語音的濾波器;以及 被配置用于將已過濾的第一信號(hào)轉(zhuǎn)換成在頻域內(nèi)的第二信號(hào)的逆變換器。2.根據(jù)權(quán)利要求1所述的裝置,還包含被配置用于基于所述第二信號(hào)來檢測(cè)作為包含于所述輸入聲音內(nèi)的人類語音的片段的語音段的檢測(cè)器。3.根據(jù)權(quán)利要求1所述的裝置,還包含被配置用于基于所述第二信號(hào)來估計(jì)包含于所述輸入聲音內(nèi)的人類語音的基頻的估計(jì)器。4.根據(jù)權(quán)利要求1所述的語音處理裝置,其中所述增強(qiáng)器被配置用于生成占有度譜作為所述頻譜。5.一種通過語音處理裝置來執(zhí)行的語音處理方法,所述方法包括: 生成其中增強(qiáng)了包含于輸入聲音內(nèi)的諧波分量的頻譜; 將所述頻譜轉(zhuǎn)換成在調(diào)制頻域內(nèi)的第一信號(hào); 過濾所述第一信號(hào)以通過人類語音;并且 將已過濾的第一信號(hào)轉(zhuǎn)換成在頻域內(nèi)的第二信號(hào)。
【文檔編號(hào)】G10L21/02GK105825863SQ201510690027
【公開日】2016年8月3日
【申請(qǐng)日】2015年10月22日
【發(fā)明人】木田祐介
【申請(qǐng)人】株式會(huì)社東芝