專利名稱:一種用于多媒體會(huì)議的快速實(shí)時(shí)混音方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多媒體會(huì)議通信技術(shù),確切地說,涉及一種用于多媒體會(huì)議的快速實(shí)時(shí)混音方法,屬于多媒體會(huì)議通信中的混音技術(shù)領(lǐng)域。
背景技術(shù):
近年來,多媒體會(huì)議已經(jīng)成為多媒體通信發(fā)展的熱點(diǎn)之一。在多媒體會(huì)議系統(tǒng)中,混音處理是其中的關(guān)鍵環(huán)節(jié),直接影響用戶之間的相互交流。因?yàn)樽鳛槎嗝襟w會(huì)議中最基本的要素-音頻交流最為頻繁,其對(duì)實(shí)時(shí)性的要求也遠(yuǎn)遠(yuǎn)高于視頻及數(shù)據(jù)。為了能夠有更好的會(huì)議臨場(chǎng)感,與會(huì)者希望能同時(shí)聽到多個(gè)發(fā)言者的聲音,在分散控制會(huì)議模式下,每個(gè)發(fā)言者的語音信號(hào)都單獨(dú)傳送給與會(huì)者,在終端處進(jìn)行混音后再播放。這種方式需要占用大量的網(wǎng)絡(luò)帶寬,影響語音信號(hào)的質(zhì)量,并對(duì)終端設(shè)備的要求較高。
為此,ITU-T提出了集中控制會(huì)議模式,在MCU(Multipoint Control Unit)中對(duì)來自各個(gè)發(fā)言者的語音信號(hào)進(jìn)行混音處理后,再將處理結(jié)果傳送給與會(huì)者,這樣就大大降低了網(wǎng)絡(luò)的傳輸負(fù)擔(dān)和終端的處理能力。其中對(duì)語音信號(hào)進(jìn)行混音處理是集中控制會(huì)議模式的關(guān)鍵技術(shù)。
目前,人們已經(jīng)研制出來了多種混音方法,但是它們存在一個(gè)共同缺點(diǎn)在混音過程中音量發(fā)生忽大忽小的變化。其原因是現(xiàn)有的各種混音算法中的每路音頻輸入的混音權(quán)重是時(shí)間t的函數(shù),這樣隨著時(shí)間的變化,其混音權(quán)重也會(huì)隨之發(fā)生變化,進(jìn)而導(dǎo)致各路音頻流的音量會(huì)隨著時(shí)間不同而有不同程度的縮放,進(jìn)而造成音量在混音過程中發(fā)生忽大忽小的變化,嚴(yán)重影響了語音的識(shí)別。因此如何尋找一個(gè)與時(shí)間t無關(guān)的權(quán)重進(jìn)行混音處理,就成為業(yè)內(nèi)人士關(guān)注的焦點(diǎn)。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種用于多媒體會(huì)議的快速實(shí)時(shí)混音方法,即采用非均勻混音波形的收縮計(jì)算方法,又稱AWS算法(AsymmetricalWave-Shrinking audio mixing algorithm),本發(fā)明基于在語音信號(hào)中低強(qiáng)度信號(hào)比高強(qiáng)度信號(hào)出現(xiàn)幾率更高的事實(shí),使用與時(shí)間和混音輸入無關(guān)的恒定混音權(quán)重,來解決混音過程中的音量忽大忽小的變化問題,該方法混音速度快、容易采用硬件實(shí)現(xiàn),可以廣泛應(yīng)用于大規(guī)模的多媒體會(huì)議系統(tǒng)中。
為了達(dá)到上述目的,本發(fā)明提供了一種用于多媒體會(huì)議的快速實(shí)時(shí)混音方法,其特征在于先對(duì)輸入信號(hào)進(jìn)行線性疊加,再對(duì)該疊加信號(hào)進(jìn)行分段收縮處理,使得混音后的輸出信號(hào)值處于正常范圍內(nèi);在分段收縮處理過程中,使用與時(shí)間和混音輸入無關(guān)的分段收縮因子,且各分段收縮因子構(gòu)成一等比級(jí)數(shù),即采用數(shù)值大的收縮因子對(duì)該疊加信號(hào)低強(qiáng)度部分進(jìn)行較小壓縮,采用按比例縮小的數(shù)值小的收縮因子對(duì)該疊加信號(hào)高強(qiáng)度部分進(jìn)行較大壓縮,以解決混音過程中音量忽大忽小變化的問題。
所述方法包括下列步驟(A)先計(jì)算系統(tǒng)在t時(shí)刻將全部M路音頻輸入信號(hào)進(jìn)行線性疊加后得到的疊加信號(hào)bM+1(t)=Σi=1Mai(t),]]>式中,ai(t)是在t時(shí)刻解碼后的第i路音頻輸入信號(hào);再計(jì)算系統(tǒng)在t時(shí)刻將所有M路音頻輸入信號(hào)的疊加信號(hào)bM+1(t)中減去其中第j路的音頻輸入信號(hào)aj(t)后,得到除去aj(t)外的其他M-1路音頻輸入的疊加信號(hào)bj(t)=bM+1(t)-aj(t);(B)先計(jì)算上述步驟求得的疊加信號(hào)的絕對(duì)值,再按照每段的標(biāo)準(zhǔn)長度數(shù)值2Q-1進(jìn)行均勻分段,得到下述各個(gè)均勻分段區(qū)間區(qū)間1
,…,區(qū)間n((n-1)2Q-1,n2Q-1],區(qū)間(n+1)(n2Q-1,(n+1)2Q-1],…;若疊加信號(hào)的絕對(duì)值大小落入?yún)^(qū)間n((n-1)2Q-1,n2Q-1],則稱其為(n-1)級(jí)強(qiáng)度信號(hào);然后計(jì)算疊加信號(hào)bj(t)的強(qiáng)度等級(jí)nj=[|bj(t)|/2Q-1],即不包括剩余的不夠標(biāo)準(zhǔn)長度的尾段的整段區(qū)間數(shù);式中,函數(shù)[x]表示取不大于x的最大整數(shù),函數(shù)|x|表示取x的絕對(duì)值;Q是音頻信號(hào)進(jìn)行量化的量化精度,在該量化精度下,每一路音頻輸入信號(hào)的取值范圍在區(qū)間[-2Q-1,2Q-1-1]內(nèi);(C)分別計(jì)算第j路音頻的混音輸出信號(hào)b′j(t)=sgn(bj(t))(Σi=0nj-1k-1k(1k)i2Q-1+k-1k(1k)nj(|bj(t)|mod2Q-1)),]]>式中,基本收縮因子k為大于1的正整數(shù),函數(shù)sgn(x)表示取x的符號(hào),運(yùn)算符mod表示模運(yùn)算,其中尾段數(shù)值是把疊加信號(hào)的絕對(duì)值|bj(t)|以值2Q-1為模進(jìn)行模運(yùn)算得到的,即|bj(t)|mod2Q-1;當(dāng)全部M+1路混音輸出信號(hào)計(jì)算完畢后,操作結(jié)束。
所述步驟(C)進(jìn)一步包括下列操作步驟在步驟(B)對(duì)疊加信號(hào)的絕對(duì)值大小進(jìn)行分段的基礎(chǔ)上,先把包括整段和尾段的各段區(qū)間的信號(hào)絕對(duì)值分別進(jìn)行收縮處理,且每個(gè)區(qū)間采用不同的收縮因子區(qū)間1的收縮因子為 區(qū)間2的收縮因子為 區(qū)間3的收縮因子為 依次類推,區(qū)間(n+1)的收縮因子為 把各個(gè)整段和尾段的各段區(qū)間信號(hào)絕對(duì)值都收縮后,進(jìn)行疊加處理,再乘以原疊加信號(hào)的正負(fù)號(hào),即獲得原疊加信號(hào)的壓縮信號(hào)-每路音頻混音輸出信號(hào)b’j(t),該壓縮信號(hào)b’j(t)的取值范圍仍保持在區(qū)間[-2Q-1,2Q-1-1]內(nèi);由于各區(qū)間的收縮因子是與時(shí)間t無關(guān)的常數(shù),所以疊加信號(hào)收縮后能夠避免音量的忽大忽小變化。
所述步驟(C)中,實(shí)際應(yīng)用時(shí)基本收縮因子k的值選擇2的整數(shù)次冪,以方便二進(jìn)制運(yùn)算;推薦值為8或16。
本發(fā)明是一種用于多媒體會(huì)議的快速實(shí)時(shí)混音方法,通過對(duì)目前現(xiàn)有的混音算法的分析研究,人們得出的結(jié)論是變化的混音權(quán)重是導(dǎo)致音量忽大忽小的主要原因。本發(fā)明方法采用與時(shí)間和混音輸入無關(guān)的恒定混音權(quán)重的非均勻波形收縮混音算法,較好地解決了混音過程中音量忽大忽小變化的問題,混音后的語音自然、清楚、流暢,沒有噪音,避免了音量突變;同時(shí)該混音方法中的全部計(jì)算,都可以通過二進(jìn)制的加、減、移位、與等操作快速完成,不需要進(jìn)行乘除法操作,也沒有浮點(diǎn)運(yùn)算,容易采用硬件實(shí)現(xiàn),因此,本發(fā)明具有很好的應(yīng)用前景,能夠廣泛應(yīng)用于大規(guī)模的多媒體會(huì)議系統(tǒng)中。
圖1是本發(fā)明用于多媒體會(huì)議的快速實(shí)時(shí)混音方法操作步驟方框圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。
假設(shè)在多媒體會(huì)議中,一共有M位代表參加發(fā)言,則共有M路音頻輸入信號(hào)參與混音,且這些參與混音的輸入信號(hào)都是已經(jīng)經(jīng)過采樣、量化、濾波等處理后的數(shù)字信號(hào)。這樣,一位參與會(huì)議并發(fā)言的代表就要接收其他M-1路音頻混音后的輸出信號(hào),即除去自己一路后的其余各路音頻混音后的輸出信號(hào)。另外,混音后的輸出信號(hào)共有M+1路,該第M+1路混音輸出信號(hào)是將全部M路輸入信號(hào)進(jìn)行混音后的輸出信號(hào),可供不參與發(fā)言的與會(huì)代表收聽使用。
參見圖1,介紹本發(fā)明用于多媒體會(huì)議的快速實(shí)時(shí)混音方法,其包括下列步驟(一)先計(jì)算系統(tǒng)在t時(shí)刻將全部M路音頻輸入信號(hào)進(jìn)行線性疊加后得到的疊加信號(hào)bM+1(t)=Σi=1Mai(t),]]>式中,ai(t)是在t時(shí)刻解碼后的第i路音頻輸入信號(hào);再計(jì)算系統(tǒng)在t時(shí)刻將所有M路音頻輸入信號(hào)的疊加信號(hào)bM+1(t)中減去其中第j路的音頻輸入信號(hào)aj(t)后,得到除去aj(t)外的其他M-1路音頻輸入的疊加信號(hào)bj(t)=bM+1(t)-aj(t);(二)先計(jì)算上述步驟求得的疊加信號(hào)的絕對(duì)值,再按照每段的標(biāo)準(zhǔn)長度數(shù)值2Q-1進(jìn)行均勻分段,得到下述各個(gè)均勻分段區(qū)間區(qū)間1
,…,區(qū)間n((n-1)2Q-1,n2Q-1],區(qū)間(n+1)(n2Q-1,(n+1)2Q-1],…;若疊加信號(hào)的絕對(duì)值大小落入?yún)^(qū)間n((n-1)2Q-1,n2Q-1],則稱其為(n-1)級(jí)強(qiáng)度信號(hào);然后計(jì)算疊加信號(hào)bj(t)的強(qiáng)度等級(jí)nj=[|bj(t)|/2Q-1],即不包括剩余的不夠標(biāo)準(zhǔn)長度的尾段的整段區(qū)間數(shù);式中,函數(shù)[x]表示取不大于x的最大整數(shù),函數(shù)|x|表示取x的絕對(duì)值;Q是音頻信號(hào)進(jìn)行量化的量化精度,在該量化精度下,每一路音頻輸入信號(hào)的取值范圍在區(qū)間[-2Q-1,2Q-1-1]內(nèi);(三)分別計(jì)算第j路音頻的混音輸出信號(hào)b′j(t)=sgn(bj(t))(Σi=0nj-1k-1k(1k)i2Q-1+k-1k(1k)nj(|bj(t)|mod2Q-1)),]]>式中,基本收縮因子k為大于1的正整數(shù),函數(shù)sgn(x)表示取x的符號(hào),運(yùn)算符mod表示模運(yùn)算,其中尾段數(shù)值是把疊加信號(hào)的絕對(duì)值|bj(t)|以值2Q-1為模進(jìn)行模運(yùn)算得到的,即|bj(t)|mod2Q-1;當(dāng)全部M+1路混音輸出信號(hào)計(jì)算完畢后,操作結(jié)束。
該步驟的物理含義是在步驟(B)對(duì)疊加信號(hào)的絕對(duì)值大小進(jìn)行分段的基礎(chǔ)上,先把包括整段和尾段的各段區(qū)間的信號(hào)絕對(duì)值分別進(jìn)行收縮處理,即把疊加信號(hào)按區(qū)間分別進(jìn)行壓縮處理,且每個(gè)區(qū)間采用不同的收縮因子區(qū)間1的收縮因子為 區(qū)間2的收縮因子為 區(qū)間3的收縮因子為 依次類推,區(qū)間(n+1)的收縮因子為 把各個(gè)整段和尾段的各段區(qū)間信號(hào)絕對(duì)值都收縮后,進(jìn)行疊加處理,再乘以原疊加信號(hào)的正負(fù)號(hào),即獲得原疊加信號(hào)的壓縮信號(hào)-每路音頻混音輸出信號(hào)b’j(t),該壓縮信號(hào)b’j(t)的取值范圍仍保持在區(qū)間[-2Q-1,2Q-1-1]內(nèi);由于各區(qū)間的收縮因子是與時(shí)間t無關(guān)的常數(shù),所以疊加信號(hào)收縮后能夠避免音量的忽大忽小變化。
在本發(fā)明方法的實(shí)際應(yīng)用中,首要考慮是基本收縮因子k的取值,為了方便二進(jìn)制運(yùn)算,通常k取2的整數(shù)次冪。根據(jù)計(jì)算的特點(diǎn),k值太小會(huì)對(duì)較大的收縮波形造成整體失真,太大又會(huì)導(dǎo)致高強(qiáng)度信號(hào)嚴(yán)重失真,所以推薦取k=8或16。
下面介紹本發(fā)明方法的一個(gè)實(shí)施例此時(shí),根據(jù)ITU-T G.7xx系列規(guī)范,取Q=16。由于在實(shí)施過程中,要大量計(jì)算區(qū)間收縮因子 的值,下面分別以k=8和Q=16為例,說明如何快速計(jì)算區(qū)間收縮因子 的值。
由于7=4+2+1,所以7x=4x+2x+x=(x<<2)+(x<<1)+x,式中運(yùn)算符<<表示二進(jìn)制的左移位運(yùn)算,進(jìn)而78(78)njx=((x<<2)+(x<<1)+x)>>(3×(nj+1)),]]>式中運(yùn)算符>>表示二進(jìn)制的右移位運(yùn)算,同時(shí)注意到 對(duì)于固定的nj、k和Q來說是常數(shù),并且當(dāng)n=5,k=8和Q=16時(shí),k-1k(1k)n2Q-1=78(18)5215=0.875]]>已經(jīng)小于1,所以可以忽略掉nj>5以后的數(shù)值.于是得到下述表1 這樣在實(shí)際應(yīng)用中,可以直接查詢表1來快速獲得 的值。
此外,對(duì)于前述公式中的模(mod)運(yùn)算,可以用二進(jìn)制的與(&)操作完成,即|bj(t)|mod2Q-1=|bj(t)|&(2Q-1-1)。所以,本發(fā)明混音方法中的全部計(jì)算都可以通過二進(jìn)制的加、減、移位、與等操作快速完成,不需要進(jìn)行乘除法操作,沒有浮點(diǎn)運(yùn)算,容易采用硬件實(shí)現(xiàn),具有很好的應(yīng)用前景。
權(quán)利要求
1.一種用于多媒體會(huì)議的快速實(shí)時(shí)混音方法,其特征在于先對(duì)輸入信號(hào)進(jìn)行線性疊加,再對(duì)該疊加信號(hào)進(jìn)行分段收縮處理,使得混音后的輸出信號(hào)值處于正常范圍內(nèi);在分段收縮處理過程中,使用與時(shí)間和混音輸入無關(guān)的分段收縮因子,且各分段收縮因子構(gòu)成一等比級(jí)數(shù),即采用數(shù)值大的收縮因子對(duì)該疊加信號(hào)低強(qiáng)度部分進(jìn)行較小壓縮,采用按比例縮小的數(shù)值小的收縮因子對(duì)該疊加信號(hào)高強(qiáng)度部分進(jìn)行較大壓縮,以解決混音過程中音量忽大忽小變化的問題。
2.根據(jù)權(quán)利要求1所述的用于多媒體會(huì)議的快速實(shí)時(shí)混音方法,其特征在于所述方法包括下列步驟(A)先計(jì)算系統(tǒng)在t時(shí)刻將全部M路音頻輸入信號(hào)進(jìn)行線性疊加后得到的疊加信號(hào)bM+1(t)=Σi=1Mai(t),]]>式中,ai(t)是在t時(shí)刻解碼后的第i路音頻輸入信號(hào);再計(jì)算系統(tǒng)在t時(shí)刻將所有M路音頻輸入信號(hào)的疊加信號(hào)bM+1(t)中減去其中第j路的音頻輸入信號(hào)aj(t)后,得到除去aj(t)外的其他M-1路音頻輸入的疊加信號(hào)bj(t)=bM+1(t)-aj(t);(B)先計(jì)算上述步驟求得的疊加信號(hào)的絕對(duì)值,再按照每段的標(biāo)準(zhǔn)長度數(shù)值2Q-1進(jìn)行均勻分段,得到下述各個(gè)均勻分段區(qū)間區(qū)間1
,...,區(qū)間n((n-1)2Q-1,n2Q-1],區(qū)間(n+1)(n2Q-1,(n+1)2Q-1],...;若疊加信號(hào)的絕對(duì)值大小落入?yún)^(qū)間n((n-1)2Q-1,n2Q-1],則稱其為(n-1)級(jí)強(qiáng)度信號(hào);然后計(jì)算疊加信號(hào)bj(t)的強(qiáng)度等級(jí)nj=[|bj(t)|/2Q-1],即不包括剩余的不夠標(biāo)準(zhǔn)長度的尾段的整段區(qū)間數(shù);式中,函數(shù)[x]表示取不大于x的最大整數(shù),函數(shù)|x|表示取x的絕對(duì)值;Q是音頻信號(hào)進(jìn)行量化的量化精度,在該量化精度下,每一路音頻輸入信號(hào)的取值范圍在區(qū)間[-2Q-1,2Q-1-1]內(nèi);(C)分別計(jì)算第j路音頻的混音輸出信號(hào)b′j(t)=sgn(bj(t))(Σi=0nj-1k-1k(1k)i2Q-1+k-1k(1k)nj(|bj(t)|mod2Q-1)),]]>式中,基本收縮因子k為大于1的正整數(shù),函數(shù)sgn(x)表示取x的符號(hào),運(yùn)算符mod表示模運(yùn)算,其中尾段數(shù)值是把疊加信號(hào)的絕對(duì)值|bj(t)|以值2Q-1為模進(jìn)行模運(yùn)算得到的,即|bj(t)|mod2Q-1;當(dāng)全部M+1路混音輸出信號(hào)計(jì)算完畢后,操作結(jié)束。
3.根據(jù)權(quán)利要求1所述的用于多媒體會(huì)議的快速實(shí)時(shí)混音方法,其特征在于所述步驟(C)進(jìn)一步包括下列操作步驟在步驟(B)對(duì)疊加信號(hào)的絕對(duì)值大小進(jìn)行分段的基礎(chǔ)上,先把包括整段和尾段的各段區(qū)間的信號(hào)絕對(duì)值分別進(jìn)行收縮處理,且每個(gè)區(qū)間采用不同的收縮因子區(qū)間1的收縮因子為 區(qū)間2的收縮因子為 區(qū)間3的收縮因子為 依次類推,區(qū)間(n+1)的收縮因子為 把各個(gè)整段和尾段的各段區(qū)間信號(hào)絕對(duì)值都收縮后,進(jìn)行疊加處理,再乘以原疊加信號(hào)的正負(fù)號(hào),即獲得原疊加信號(hào)的壓縮信號(hào)-每路音頻混音輸出信號(hào)b’j(t),該壓縮信號(hào)b’j(t)的取值范圍仍保持在區(qū)間[-2Q-1,2Q-1-1]內(nèi);由于各區(qū)間的收縮因子是與時(shí)間t無關(guān)的常數(shù),所以疊加信號(hào)收縮后能夠避免音量的忽大忽小變化。
4.根據(jù)權(quán)利要求3所述的用于多媒體會(huì)議的快速實(shí)時(shí)混音方法,其特征在于所述步驟(C)中,實(shí)際應(yīng)用時(shí)基本收縮因子k的值選擇2的整數(shù)次冪,以方便二進(jìn)制運(yùn)算;推薦值為8或16。
全文摘要
一種用于多媒體會(huì)議的快速實(shí)時(shí)混音方法,是先對(duì)輸入信號(hào)進(jìn)行線性疊加,再對(duì)該疊加信號(hào)進(jìn)行分段收縮處理,使得混音后的輸出信號(hào)值處于正常范圍內(nèi);在分段收縮處理過程中,使用與時(shí)間和混音輸入無關(guān)的分段收縮因子,且各分段收縮因子構(gòu)成一等比級(jí)數(shù),即采用數(shù)值大的收縮因子對(duì)疊加信號(hào)低強(qiáng)度部分進(jìn)行較小壓縮,采用按比例縮小的數(shù)值小的收縮因子對(duì)疊加信號(hào)高強(qiáng)度部分進(jìn)行較大壓縮,以便解決混音過程中的音量忽大忽小變化的問題。該方法混音速度快,混音后的語音自然、清楚、流暢,沒有噪音,避免了音量突變;所有計(jì)算可通過二進(jìn)制的加、減、移位、與等操作快速完成,沒有乘除法和浮點(diǎn)運(yùn)算,容易采用硬件實(shí)現(xiàn),可廣泛應(yīng)用于大規(guī)模多媒體會(huì)議系統(tǒng)中。
文檔編號(hào)H04L12/18GK1805006SQ20061000156
公開日2006年7月19日 申請(qǐng)日期2006年1月24日 優(yōu)先權(quán)日2006年1月24日
發(fā)明者廖建新, 王晶, 王純, 李煒, 王文林, 朱曉民, 武家春, 張磊, 樊利民, 程莉 申請(qǐng)人:北京郵電大學(xué)