亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

語音處理系統(tǒng)的制作方法

文檔序號(hào):8501181閱讀:724來源:國知局
語音處理系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 這里描述的實(shí)施例一般地涉及語音處理系統(tǒng)。
【背景技術(shù)】
[0002] 經(jīng)常需要在嘈雜的環(huán)境中去理解語音,舉例來講,當(dāng)在擁擠的地方使用移動(dòng)電話 時(shí)、在移動(dòng)設(shè)備上收聽媒體文件時(shí)、在車站聽公告時(shí),等等。
[0003] 可以增強(qiáng)語音信號(hào)以使得其在這種環(huán)境中更加易懂。
【附圖說明】
[0004] 現(xiàn)在參照附圖描述根據(jù)非限制性實(shí)施例的系統(tǒng)和方法,其中:
[0005] 圖1是根據(jù)本發(fā)明的一種實(shí)施例的系統(tǒng)的示意圖;
[0006] 圖2是示出了具有頻譜整形濾波器和動(dòng)態(tài)范圍壓縮級(jí)的根據(jù)本發(fā)明的一種實(shí)施 例的系統(tǒng)的進(jìn)一步示意圖;
[0007] 圖3是示出了圖2的頻譜整形濾波器和動(dòng)態(tài)范圍壓縮級(jí)的示意圖;
[0008] 圖4是更詳細(xì)地示出了頻譜整形濾波器的示意圖;
[0009] 圖5是更詳細(xì)地示出了動(dòng)態(tài)范圍壓縮級(jí)的示意圖;
[0010] 圖6是輸入-輸出包絡(luò)特性曲線的圖;
[0011] 圖7a是語音信號(hào)的圖以及圖7b是來自動(dòng)態(tài)范圍壓縮級(jí)的輸出的圖;
[0012] 圖8是根據(jù)信噪比適配的輸入-輸出包絡(luò)特性曲線的圖;以及
[0013] 圖9是具有多個(gè)輸出的根據(jù)又一實(shí)施例的系統(tǒng)的示意圖。
【具體實(shí)施方式】
[0014] 在一種實(shí)施例中,提供了一種用于增強(qiáng)將在嘈雜環(huán)境中輸出的語音的語音易懂性 增強(qiáng)系統(tǒng),該系統(tǒng)包括:
[0015] 語音輸入,用于接收要增強(qiáng)的語音;
[0016] 噪聲輸入,用于接收關(guān)于嘈雜環(huán)境的實(shí)時(shí)信息;
[0017] 增強(qiáng)語音輸出,用于輸出增強(qiáng)的語音;以及
[0018] 處理器,被配置為將從所述語音輸入接收的語音轉(zhuǎn)換成將由所述增強(qiáng)語音輸出輸 出的所述增強(qiáng)的語音,
[0019] 所述處理器被配置為:
[0020] 將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音;
[0021] 將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出;以及
[0022] 測(cè)量所述噪聲輸入處的信噪比;
[0023] 其中頻譜整形濾波器包括控制參數(shù),動(dòng)態(tài)范圍壓縮包括控制參數(shù),以及其中根據(jù) 所測(cè)量的信噪比來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
[0024] 在根據(jù)以上實(shí)施例的系統(tǒng)中,所述輸出適應(yīng)于噪聲環(huán)境。此外,所述輸出被不斷更 新,以使得其實(shí)時(shí)地適應(yīng)于改變的噪聲環(huán)境。例如,如果將上述系統(tǒng)構(gòu)建于移動(dòng)電話中并且 用戶站立于嘈雜的房間之外,則系統(tǒng)能夠適于根據(jù)房間門是打開還是關(guān)閉來增強(qiáng)語音。類 似地,如果系統(tǒng)用于火車站中的公共廣播系統(tǒng),則所述系統(tǒng)可隨著列車到達(dá)和離開實(shí)時(shí)地 適應(yīng)于變化的噪聲條件。
[0025] 在一種實(shí)施例中,逐幀地估計(jì)信噪比,并且針對(duì)前一幀的信噪比用來更新當(dāng)前幀 的參數(shù)。典型的幀的長度是1秒到3秒。
[0026] 以上系統(tǒng)可以使頻譜整形濾波器和/或動(dòng)態(tài)范圍壓縮級(jí)適應(yīng)于嘈雜環(huán)境。在一些 實(shí)施例中,頻譜整形濾波器和動(dòng)態(tài)范圍壓縮級(jí)兩者都適配于嘈雜環(huán)境。
[0027] 當(dāng)使動(dòng)態(tài)范圍壓縮適應(yīng)于SNR時(shí),經(jīng)過更新的控制參數(shù)可被用來控制將由所述動(dòng) 態(tài)范圍壓縮應(yīng)用的增益。在其他實(shí)施例中,更新控制參數(shù),以使得其隨著信噪比增加逐漸地 抑制輸入語音的低能量段的加強(qiáng)。在一些實(shí)施例中,假定SNR和控制參數(shù)之間具有線性關(guān) 系,在其它實(shí)施例中,可使用非線性或邏輯關(guān)系。
[0028] 為了控制輸出的音量,在一些實(shí)施例中,所述系統(tǒng)還包括能量存儲(chǔ)箱,所述能量存 儲(chǔ)箱是所述系統(tǒng)中設(shè)置的存儲(chǔ)器且被配置為存儲(chǔ)在增強(qiáng)之前所述輸入語音的總能量,所述 處理器還被配置為使用所述能量存儲(chǔ)箱中存儲(chǔ)的能量來增加增強(qiáng)信號(hào)中低能量部分的能 量。
[0029] 頻譜整形濾波器可包括自適應(yīng)頻譜整形級(jí)和固定頻譜整形級(jí)。自適應(yīng)頻譜整形級(jí) 可包括共振峰成形濾波器和用來減少頻譜傾斜的濾波器。在一種實(shí)施例中,第一控制參數(shù) 被設(shè)置為控制所述共振峰成形濾波器,第二控制參數(shù)被配置為控制用于減少頻譜傾斜的所 述濾波器,以及其中根據(jù)所述信噪比來更新所述第一和/或第二控制參數(shù)。所述第一和/ 或第二控制參數(shù)與所述信噪比線性相關(guān)。
[0030] 上述討論集中于響應(yīng)于SNR來適配信號(hào)。然而,所述系統(tǒng)還可被配置為與噪聲測(cè) 量無關(guān)地根據(jù)輸入語音來修改頻譜整形濾波器。例如,所述處理器可被配置為在應(yīng)用頻譜 整形濾波器時(shí)估計(jì)最大濁音化概率,以及其中所述系統(tǒng)被配置為每m秒更新最大濁音化概 率,其中m是從2到10的值。
[0031] 所述系統(tǒng)還可以附加地或備選地被配置為與噪聲測(cè)量無關(guān)地根據(jù)所述輸入語音 來修改動(dòng)態(tài)范圍壓縮。例如,所述處理器被配置為在應(yīng)用動(dòng)態(tài)范圍壓縮時(shí)估計(jì)輸入語音 的信號(hào)包絡(luò)的最大值,以及其中所述系統(tǒng)被配置為每m秒更新輸入語音的信號(hào)包絡(luò)的最大 值,其中m是從2到10的值。
[0032] 所述系統(tǒng)還被配置為在多個(gè)位置輸出增強(qiáng)語音。例如,這種系統(tǒng)可包括對(duì)應(yīng)于多 個(gè)位置的多個(gè)噪聲輸入,所述處理器被配置為應(yīng)用多個(gè)頻譜整形濾波器和多個(gè)相應(yīng)的動(dòng)態(tài) 范圍壓縮級(jí),以使得針對(duì)每個(gè)噪聲輸入存在頻譜整形濾波器和動(dòng)態(tài)范圍壓縮級(jí)對(duì),所述處 理器被配置為根據(jù)從相應(yīng)的噪聲輸入測(cè)量的信噪比來更新每個(gè)頻譜整形濾波器和動(dòng)態(tài)范 圍壓縮級(jí)對(duì)的控制參數(shù)。這種系統(tǒng)可用于例如在不同環(huán)境中具有多個(gè)揚(yáng)聲器的PA系統(tǒng)。
[0033] 在其他實(shí)施例中,提供了一種用于增強(qiáng)將在嘈雜環(huán)境中輸出的語音的方法,該方 法包括:
[0034] 接收要增強(qiáng)的語音;
[0035] 在噪聲輸入處接收關(guān)于嘈雜環(huán)境的實(shí)時(shí)信息;
[0036] 將從所述語音輸入接收的語音轉(zhuǎn)換成增強(qiáng)的語音;以及
[0037] 輸出所述增強(qiáng)的語音,
[0038] 其中轉(zhuǎn)換所述語音包括:
[0039] 測(cè)量所述噪聲輸入處的信噪比;
[0040] 將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音;以及
[0041] 將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出;
[0042] 其中頻譜整形濾波器包括控制參數(shù),動(dòng)態(tài)范圍壓縮包括控制參數(shù),以及其中根據(jù) 所測(cè)量的信噪比來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
[0043] 以上實(shí)施例討論了系統(tǒng)響應(yīng)于SNR的適應(yīng)性。然而,在一些實(shí)施例中,與語音將要 被輸出到的環(huán)境的SNR無關(guān)地增強(qiáng)語音。這里,提供了一種用于增強(qiáng)要輸出的語音的語音 易懂性增強(qiáng)系統(tǒng),該系統(tǒng)包括:
[0044] 語音輸入,用于接收要增強(qiáng)的語音;
[0045] 增強(qiáng)語音輸出,用于輸出增強(qiáng)的語音;以及
[0046] 處理器,被配置為將從所述語音輸入接收的語音轉(zhuǎn)換成將由所述增強(qiáng)語音輸出輸 出的所述增強(qiáng)的語音,所述處理器被配置為:
[0047] 將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音;以及
[0048] 將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出;
[0049] 其中頻譜整形濾波器包括控制參數(shù),動(dòng)態(tài)范圍壓縮包括控制參數(shù),以及其中根據(jù) 在語音輸入處接收的語音來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
[0050] 例如,所述處理器可被配置為在應(yīng)用頻譜整形濾波器時(shí)估計(jì)最大濁音化概率,以 及其中所述系統(tǒng)被配置為每m秒更新最大濁音化概率,其中m是從2到10的值。
[0051] 所述系統(tǒng)還可以附加地或備選地被配置為與噪聲測(cè)量無關(guān)地根據(jù)所述輸入語音 來修改動(dòng)態(tài)范圍壓縮。例如,所述處理器被配置為在應(yīng)用動(dòng)態(tài)范圍壓縮時(shí)估計(jì)輸入語音 的信號(hào)包絡(luò)的最大值,以及其中所述系統(tǒng)被配置為每m秒更新輸入語音的信號(hào)包絡(luò)的最大 值,其中m是從2到10的值。
[0052] 在又一種實(shí)施例中,提供了一種用于增強(qiáng)語音易懂性的方法,該方法包括:
[0053] 接收要增強(qiáng)的語音;
[0054] 將從所述語音輸入接收的語音轉(zhuǎn)換成增強(qiáng)的語音;以及
[0055] 輸出所述增強(qiáng)的語音,
[0056] 其中轉(zhuǎn)換所述語音包括:
[0057] 將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音;以及
[0058] 將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出;
[0059] 其中頻譜整形濾波器包括控制參數(shù),動(dòng)態(tài)范圍壓縮包括控制參數(shù),根據(jù)在語音輸 入處接收的語音來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
[0060] 由于根據(jù)實(shí)施例的一些方法可通過軟件實(shí)現(xiàn),所以一些實(shí)施例涵蓋任意合適載體 介質(zhì)上的提供給通用計(jì)算機(jī)的計(jì)算機(jī)代碼。載體介質(zhì)可包括任意存儲(chǔ)介質(zhì)(比如軟盤、CD ROM、磁性裝置或可編程存儲(chǔ)器設(shè)備)或任何瞬時(shí)介質(zhì)(比如任何信號(hào),例如電、光或微波信 號(hào))。
[0061] 圖1是語音易懂性增強(qiáng)系統(tǒng)的示意圖。
[0062] 系統(tǒng)1包括處理器3,處理器3包括程序5,其獲取輸入語音和關(guān)于將輸出語音處 的噪聲條件的信息,并增強(qiáng)語音,以增加噪聲存在情況下的語音易懂性。存儲(chǔ)器7存儲(chǔ)由程 序5使用的數(shù)據(jù)。下文將描述關(guān)于存儲(chǔ)何種數(shù)據(jù)的細(xì)節(jié)。
[0063] 系
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1