一種視頻會(huì)議系統(tǒng)的多麥克風(fēng)混音方法
【專利摘要】本發(fā)明提供一種視頻會(huì)議系統(tǒng)的多麥克風(fēng)混音方法,通過各麥克風(fēng)通道采集聲音與揚(yáng)聲器播放聲音之間的延時(shí)時(shí)間以及采集聲音的能量大小來判定最大回聲通道,以排除回聲最大的通道,再由各可選通道采集幀能量值以及它們之間的相關(guān)性,選擇最佳通道采集的聲音作為混音源并確定所選通道的混音權(quán)值,最后根據(jù)所選通道及確定的混音權(quán)值進(jìn)行混音輸出。本發(fā)明選擇最佳通道采集的聲音作為最優(yōu)混音源,且所有算法按照自適應(yīng)設(shè)計(jì),能動(dòng)態(tài)調(diào)整最優(yōu)混音源,保證了聲音的采集范圍和音質(zhì)效果。
【專利說明】一種視頻會(huì)議系統(tǒng)的多麥克風(fēng)混音方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種混音處理方法,更具體地說,涉及一種用于視頻會(huì)議的多麥克風(fēng) 混音處理方法。
【背景技術(shù)】
[0002] 早期的視頻會(huì)議系統(tǒng)一般都使用定向或者全向麥克風(fēng)來進(jìn)行聲音采集,全向麥克 風(fēng)的聲音采集范圍大,但混響嚴(yán)重,音質(zhì)不佳,定向麥克風(fēng)音質(zhì)好,但聲音采集范圍窄,為解 決音質(zhì)和聲音采集范圍的矛盾,目前視頻會(huì)議系統(tǒng)已經(jīng)開始采用多麥克風(fēng)的方案,通過多 個(gè)定向麥克風(fēng)的組合,來保證聲音的采集范圍和音質(zhì)。而如何組合多麥克風(fēng)采集的數(shù)據(jù),形 成最佳的混音(多路語音數(shù)據(jù)混合形成一路輸出語音)效果,成為多麥克風(fēng)方案需要解決 的核心問題。
[0003] 自適應(yīng)是指處理和分析過程中,根據(jù)處理數(shù)據(jù)的數(shù)據(jù)特征自動(dòng)調(diào)整處理方法、處 理順序、處理參數(shù)、邊界條件或約束條件,使其與所處理數(shù)據(jù)的統(tǒng)計(jì)分布特征、結(jié)構(gòu)特征相 適應(yīng),以取得最佳的處理效果。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的技術(shù)問題,在于提供一種視頻會(huì)議系統(tǒng)的多麥克風(fēng)混音方法,先 判定最大回聲通道并將其排除,再選擇出最佳通道采集的聲音作為混音源,最后確定動(dòng)態(tài) 變化的混音權(quán)值輸出混音。選擇最佳通道采集的聲音作為最優(yōu)混音源,保證了聲音的采集 范圍和音質(zhì)效果。
[0005] 本發(fā)明是這樣實(shí)現(xiàn)的:一種視頻會(huì)議系統(tǒng)的多麥克風(fēng)混音方法,所述方法包括聲 音采集過程、延時(shí)估計(jì)過程、回聲通道判定過程、混音源選擇過程和混音輸出過程:
[0006] 所述聲音米集過程是:揚(yáng)聲器播放聲音,復(fù)數(shù)個(gè)麥克風(fēng)通道米集聲音;將所述揚(yáng) 聲器播放的聲音和各麥克風(fēng)通道米集的聲音按巾貞分塊存儲(chǔ),得到揚(yáng)聲器的播放巾貞能量和各 麥克風(fēng)通道的采集幀能量,每幀長(zhǎng)度為一固定值,每幀包含復(fù)數(shù)個(gè)點(diǎn);
[0007] 所述延時(shí)估計(jì)過程:得到各麥克風(fēng)通道每次采集的聲音與揚(yáng)聲器每次播放的聲音 之間的延時(shí)時(shí)間;
[0008] 所述最大回聲通道判定過程:根據(jù)得到的各麥克風(fēng)通道的延時(shí)時(shí)間,將各麥克風(fēng) 通道米集的聲音與揚(yáng)聲器播放的聲音按巾貞 對(duì)齊,再根據(jù)對(duì)齊后的麥克風(fēng)通道的各子帶 能量與揚(yáng)聲器的各子帶能量之比的均值判定最大回聲通道,即該通道所含的回聲成分最 高,選擇混音源時(shí)將最大回聲通道排除,以保證消除會(huì)議系統(tǒng)的回聲;
[0009] 所述混音源選擇過程:將所述最大回聲通道排除后,選擇其余麥克風(fēng)通道中采集 幀能量最大的兩個(gè)麥克風(fēng)通道所采集的聲音作為混音源進(jìn)行混音,計(jì)算所述兩個(gè)混音源每 幀的混音權(quán)值;
[0010] 所述混音輸出過程是:由所述兩個(gè)混音源每幀的混音權(quán)值得到混音每幀各個(gè)點(diǎn)的 輸出值,最終再由各麥克風(fēng)通道輸出混音。
[0011] 進(jìn)一步的,所述延時(shí)時(shí)間的計(jì)算過程如下:
[0012] 步驟21、把各麥克風(fēng)通道的采集幀能量與對(duì)應(yīng)揚(yáng)聲器的播放幀能量進(jìn)行一一對(duì) t匕,得到各麥克風(fēng)通道的延時(shí)時(shí)間,計(jì)算公式如下公式1所示:
[0013]
【權(quán)利要求】
1. 一種視頻會(huì)議系統(tǒng)的多麥克風(fēng)混音方法,其特征在于,所述方法包括聲音采集過程、 延時(shí)估計(jì)過程、最大回聲通道判定過程、混音源選擇過程和混音輸出過程: 所述聲音米集過程是:揚(yáng)聲器播放聲音,復(fù)數(shù)個(gè)麥克風(fēng)通道米集聲音;將所述揚(yáng)聲器 播放的聲音和各麥克風(fēng)通道米集的聲音按巾貞分塊存儲(chǔ),得到揚(yáng)聲器的播放巾貞能量和各麥克 風(fēng)通道的采集幀能量,每幀長(zhǎng)度為一固定值,每幀包含復(fù)數(shù)個(gè)點(diǎn); 所述延時(shí)估計(jì)過程:得到各麥克風(fēng)通道每次采集的聲音與揚(yáng)聲器每次播放的聲音之間 的延時(shí)時(shí)間; 所述最大回聲通道判定過程:根據(jù)得到的各麥克風(fēng)通道的延時(shí)時(shí)間,將各麥克風(fēng)通道 米集的聲音與揚(yáng)聲器播放的聲音按巾貞 對(duì)齊,再根據(jù)對(duì)齊后的麥克風(fēng)通道的各子帶能量 與揚(yáng)聲器的各子帶能量之比的均值判定最大回聲通道,即該通道所含的回聲成分最高,選 擇混音源時(shí)將最大回聲通道排除,以保證消除會(huì)議系統(tǒng)的回聲; 所述混音源選擇過程:將所述最大回聲通道排除后,選擇其余麥克風(fēng)通道中采集幀能 量最大的兩個(gè)麥克風(fēng)通道所采集的聲音作為混音源進(jìn)行混音,計(jì)算所述兩個(gè)混音源每幀的 混音權(quán)值; 所述混音輸出過程是:由所述兩個(gè)混音源每幀的混音權(quán)值得到混音每幀各個(gè)點(diǎn)的輸出 值,最終再由各麥克風(fēng)通道輸出混音。
2. 根據(jù)權(quán)利要求1所述一種視頻會(huì)議系統(tǒng)的多麥克風(fēng)混音方法,其特征在于,所述延 時(shí)時(shí)間的計(jì)算過程如下: 步驟21、把各麥克風(fēng)通道的采集幀能量與對(duì)應(yīng)揚(yáng)聲器的播放幀能量進(jìn)行一一對(duì)比,得 到各麥克風(fēng)通道的延時(shí)時(shí)間,計(jì)算公式如下公式1所示:
(1) 公式(1)中,N表不聲音最大延時(shí)對(duì)應(yīng)的樣點(diǎn)數(shù),η為1到N的正整數(shù),i表不聲音每中貞 包含的點(diǎn)數(shù),cap (i+n)表示麥克風(fēng)通道的采集巾貞第i+n個(gè)點(diǎn)的值,play⑴表示揚(yáng)聲器的播 放幀第i個(gè)點(diǎn)的值,cor (η)表示麥克風(fēng)通道和揚(yáng)聲器播放通道的線性相關(guān)值; 步驟22、公式(1)中每一個(gè)η對(duì)應(yīng)一個(gè)所述線性相關(guān)值,將最大的線性相關(guān)值對(duì)應(yīng)的η 換算成t,得到麥克風(fēng)通道的延時(shí)時(shí)間,換算過程如下公式(2)所示:
(2)
3. 根據(jù)權(quán)利要求1所述一種視頻會(huì)議系統(tǒng)的多麥克風(fēng)混音方法,其特征在于,所述子 帶能量是指聲音每幀上的各個(gè)點(diǎn)經(jīng)過FFT后對(duì)應(yīng)得到的每個(gè)點(diǎn)的能量幅值,所述最大回聲 通道判定過程,具體如下公式(3)和公式(4)所示:
(3) (4) 公式(3)和公式(4)中,i表示通道索引,j表示子帶索引,Μ表示子帶總數(shù),PMP (i,j) 表示第i麥克風(fēng)通道第j子帶能量,Pplay(j)為揚(yáng)聲器第j子帶能量,Π (i,j)表示第i麥 克風(fēng)通道第j子帶能量的衰減比,n_n(i)表示第i麥克風(fēng)通道平均子帶能量的衰減比; 將公式(3)得到的值代入公式(4)中能得到各麥克風(fēng)通道對(duì)應(yīng)的平均子帶能量的衰減 t匕,再對(duì)每個(gè)麥克風(fēng)通道的平均子帶能量的衰減比進(jìn)行排序,其中最大平均子帶能量的衰 減比對(duì)應(yīng)的麥克風(fēng)通道就是最大回聲通道。
4. 根據(jù)權(quán)利要求1所述一種視頻會(huì)議系統(tǒng)的多麥克風(fēng)混音方法,其特征在于,所述混 音源包括,任意選擇采集幀能量最大的兩個(gè)麥克風(fēng)通道中的一個(gè)麥克風(fēng)通道采集的聲音記 為混音源mixO,則另一個(gè)麥克風(fēng)通道采集的聲音記為混音源mixl,所述兩個(gè)混音源mixO和 mixl每幀的混音權(quán)值計(jì)算過程,如公式(5)和公式(6)所示:
(5) 所述公式(5)和公式(6)中,λπ?χ。與別表示混音源mix〇和mixl每幀的混音權(quán) 值,Y表示遺忘因子,為一固定常數(shù),PMP(mixO)表示混音源mixO每巾貞的能量值,PMP(mixl) 表示混音源mixl每巾貞的能量值; 將公式(5)得到的混音源mixO每幀的混音權(quán)值代入公式(6)能得到混音源mixl每幀 的混音權(quán)值,兩個(gè)混音源的混音權(quán)值都是每幀更新一次,其中混音源mixO的混音權(quán)值有初 始值。
5. 根據(jù)權(quán)利要求4所述一種視頻會(huì)議系統(tǒng)的多麥克風(fēng)混音方法,其特征在于,所述混 音輸出的過程如公式(7)所示:
(7) 所述公式(7)中,i表示混音源mixO和混音源mixl采集聲音每幀所包含的點(diǎn)數(shù), capmix(l[i]表示混音源mixO的采集巾貞第i個(gè)點(diǎn)的值,capmixl[i]表示混音源mixl的采集中貞 第i個(gè)點(diǎn)的值,out [i]表示混音每幀第i個(gè)點(diǎn)的輸出值; 將所述公式(5)和公式(6)得到的混音源mixO和mixl每幀的混音權(quán)值代入公式(7), 就得到混音每幀第i個(gè)點(diǎn)的輸出值。
【文檔編號(hào)】H04H60/04GK104219013SQ201410441776
【公開日】2014年12月17日 申請(qǐng)日期:2014年9月1日 優(yōu)先權(quán)日:2014年9月1日
【發(fā)明者】畢永建 申請(qǐng)人:廈門億聯(lián)網(wǎng)絡(luò)技術(shù)股份有限公司