專利名稱:一種視頻終端以及一種音頻碼流處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通訊技術(shù),特別是涉及一種視頻終端以及一種音頻碼流處理方法。
背景技術(shù):
隨著寬帶的普及,視頻通訊在我們的社會生活中占據(jù)著越來越重要的地位,通訊的視頻化時(shí)代已揭開帷幕。但是,目前電視機(jī)的屏幕越來越大,而有的視頻通訊系統(tǒng)采用投影儀或電視墻顯示,導(dǎo)致與會者在畫面上移動的位置較大,而目前的多媒體通訊系統(tǒng)的聲音并沒有根據(jù)說話人的位置發(fā)生改變,即聲音沒有方位信息,導(dǎo)致視頻通訊缺乏真實(shí)感。
現(xiàn)有技術(shù)公開了一種解決上述問題的方法在電視機(jī)頂部放置一個(gè)長條型的裝置,在該裝置里有多個(gè)麥克風(fēng),多個(gè)揚(yáng)聲器,以及攝像頭。對多個(gè)麥克風(fēng)采集的聲音信號進(jìn)行處理之后,可以獲得一個(gè)語音信號,以及一個(gè)相對于長條型裝置的說話人方位信息。視頻通訊系統(tǒng)的發(fā)送端將獲得的語音信號和說話人方位信息通過網(wǎng)絡(luò)傳送到接收端,接收端根據(jù)接收到的方位信息,選擇一個(gè)或多個(gè)揚(yáng)聲器播放,這樣在接收端就可以重現(xiàn)說話人的方位信息。
在上述方案中,發(fā)送端采集的說話人方位信息是相對于長條型裝置的,而不是相對于攝像機(jī)鏡頭的。當(dāng)轉(zhuǎn)動攝像機(jī)鏡頭時(shí),長條形裝置正前方的說話人就在畫面的旁邊,甚至不在畫面之內(nèi),而采集的聲音方位信息還是正前方的,這樣就導(dǎo)致畫面中說話人的位置和采集的聲音方位信息不匹配。
另外,發(fā)送端需要將方位信息通過網(wǎng)絡(luò)發(fā)送給接收端,如果發(fā)送端和接收端是不同廠家的設(shè)備,就會存在互通的問題,就是說接收端不能正確處理發(fā)送端的方位信息。
發(fā)明內(nèi)容本發(fā)明的實(shí)施例提供一種視頻終端以及一種音頻碼流處理方法,使得發(fā)送端不需要將音源位置信息通過網(wǎng)絡(luò)發(fā)送給接收端,重放的聲音也可以和音源的位置實(shí)現(xiàn)準(zhǔn)確的匹配。
一種音頻碼流處理方法,其特征在于,所述方法具體包括對視頻壓縮碼流進(jìn)行解碼,獲得包含音源的圖像,在所述的圖像中檢測所述音源的位置信息;對視頻壓縮碼流對應(yīng)的音頻壓縮碼流進(jìn)行解碼,獲得語音信息;根據(jù)所述音源的位置信息對所述語音信息進(jìn)行處理,使重放的聲音方位和所述音源的位置相匹配。
一種視頻終端,其特征在于,視頻解碼模塊,用于對接收到的視頻壓縮碼流進(jìn)行解碼,并輸出解碼后的圖像;音頻解碼模塊,用于對接收到的視頻壓縮碼流對應(yīng)的音頻壓縮碼流進(jìn)行解碼,并輸出解碼后的語音信息;音源位置檢測模塊,用于接收視頻解碼模塊發(fā)送的圖像,并提取音源的特征,從而檢測到音源的位置信息;聲音方位處理模塊,用于接收音頻解碼模塊發(fā)送的語音信息和音源位置檢測模塊發(fā)送的音源位置信息,將聲音方位和音源的位置相互匹配。
本發(fā)明的實(shí)施例通過檢測圖像中音源的位置信息,對重放的聲音進(jìn)行處理,可以使得揚(yáng)聲器中重放的聲音的方位和圖像中音源的位置相互匹配;同時(shí)接收終端不必依賴發(fā)送終端提供音源位置信息。
圖1是本發(fā)明實(shí)施例的方法流程圖;圖2是本發(fā)明實(shí)施例的一個(gè)應(yīng)用場景;圖3是本發(fā)明實(shí)施例中唇動檢測的流程 圖4是本發(fā)明實(shí)施例中視頻終端的結(jié)構(gòu)圖。
具體實(shí)施方式本發(fā)明的實(shí)施例提供了一種音頻碼流處理方法。如圖1所示,本方法由如下步驟組成對視頻壓縮碼流進(jìn)行解碼,獲得包含音源的圖像,在所述的圖像中檢測所述音源的位置信息;對視頻壓縮碼流對應(yīng)的音頻壓縮碼流進(jìn)行解碼,獲得語音信息;根據(jù)所述音源的位置信息對所述語音信息進(jìn)行處理,使重放的聲音方位和所述音源的位置相匹配。
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
下面以一個(gè)視頻會議作為本發(fā)明實(shí)施例的一個(gè)應(yīng)用場景來詳細(xì)說明本發(fā)明。但該應(yīng)用場景并不用來限定本發(fā)明。
圖2是視頻通信系統(tǒng)的示意圖。在圖2中,10是發(fā)送端會場,11是接收端會場,12是通信網(wǎng)絡(luò),通信網(wǎng)絡(luò)可以是IP網(wǎng)絡(luò)、PSTN網(wǎng)絡(luò)、無線網(wǎng)絡(luò)等。在會場10中,101是攝像頭,102是視頻通信終端,103是電視機(jī),104是參會者,105、106是揚(yáng)聲器。終端102中內(nèi)置有麥克風(fēng),也可以是獨(dú)立的置于外部,通過傳輸線和終端112相連接。在會場11中,111是攝像頭,112是視頻通信終端,113是電視機(jī),104a是參會者104的圖像,115、116是揚(yáng)聲器。終端112中內(nèi)置有麥克風(fēng),也可以是獨(dú)立的置于外部,通過傳輸線和終端102相連接。發(fā)送端會場10中的攝像頭101捕獲圖像后,傳送到終端102,終端102對圖像經(jīng)過編碼等處理之后,通過網(wǎng)絡(luò)12傳輸?shù)浇K端112,終端112對接收到的圖像碼流進(jìn)行解碼,并將解碼之后的圖像傳輸?shù)诫娨暀C(jī)113上顯示。會場10中的麥克風(fēng)捕獲聲音信號之后,傳遞給終端102,終端102進(jìn)行音頻編碼,通過網(wǎng)絡(luò)12將編碼后的音頻碼流傳輸給終端112,終端112對接收到的音頻碼流解碼之后,傳送給揚(yáng)聲器115、116重放。
在圖2的11會場中,為了使聲音具有臨場感,需要使揚(yáng)聲器115、116重放的聲音和說話人104a的位置相匹配。
下面我們以在視頻會議中,會議中的說話人為音源作為例子對本發(fā)明的方法進(jìn)行說明Step1將發(fā)送端傳送過來的視頻壓縮碼流進(jìn)行視頻解碼,得到發(fā)送端的圖像,然后檢測出圖像中說話人的位置信息。
對視頻壓縮碼流進(jìn)行視頻解碼,得到的是多幀圖像,然后對幀序列中的圖像進(jìn)行檢測,得到說話人的位置信息。
其中,檢測說話人位置的方法有許多種,例如采用圖像識別技術(shù),用說話人的某些特點(diǎn)作為特征檢測出圖像中說話人的位置,可以用于檢測的特征包括人臉、眼睛、嘴唇等,下面我們以說話人的嘴唇作為特征為例子,來說明如何通過檢測說話人的唇動位置來確定說話人的位置信息。
請參考圖3的唇動檢測處理流程。
S11檢測當(dāng)前幀的唇動位置,如果當(dāng)前幀有唇動,則執(zhí)行步驟S12;否則執(zhí)行步驟S14;S12進(jìn)一步判斷是否有多個(gè)唇動位置,如果有多個(gè)唇動位置,則在多個(gè)唇動位置中選擇一個(gè)唇動位置,或計(jì)算多個(gè)唇動位置的中心位置并將此中心位置作為唇動位置,執(zhí)行步驟S13;否則,直接執(zhí)行步驟S13;S13輸出唇動位置;S14不輸出唇動位置。
唇動位置即說話人的嘴唇所在的位置。檢測唇動位置可以采用現(xiàn)有技術(shù)中的檢測方法。一個(gè)簡單有效的方法是根據(jù)嘴唇的顏色,唇色的搜索可以在YIQ或YUV顏色空間進(jìn)行。例如,在YIQ空間,經(jīng)過統(tǒng)計(jì)及實(shí)驗(yàn)效果,得到唇色各分量的最佳閾值分別為Y∈[80,220],I∈[12,78],Q∈[7,25]。根據(jù)這些閾值可以比較容易的搜索出嘴唇的位置。如果只根據(jù)唇色進(jìn)行搜索,不可避免的會帶來一些誤判,因而還可以在根據(jù)唇色搜索出嘴唇位置后,進(jìn)一步根據(jù)嘴唇周圍的膚色來判斷。膚色也有一個(gè)相對集中的閾值范圍,利用這些閾值范圍可以判斷出嘴唇周邊的顏色是否是膚色,如果是則說明嘴唇位置的判斷是正確的,否則不正確。此外可以利用的特征還有眼部特征等。
在判斷出嘴唇的位置之后還需要判斷嘴唇是否處于運(yùn)動狀態(tài),這可以根據(jù)前后若干幀圖像相同位置的嘴唇的大小以及變化的快慢就可以很容易的做出判斷。由于唇動位置具有連續(xù)性,因此不需要每幀圖像都在圖像的整個(gè)范圍內(nèi)檢測唇動位置,具體方法是如果前一幀已檢測出唇動的位置,則檢測當(dāng)前幀的唇動位置可以在前一幀唇動位置的附近檢測是否有嘴唇存在,如果沒有,則在整個(gè)圖像范圍內(nèi)搜索唇動位置,如果有,則進(jìn)一步判斷嘴唇是否在運(yùn)動;如果在運(yùn)動,則將運(yùn)動嘴唇的位置作為唇動位置,否則,設(shè)置一個(gè)預(yù)定幀數(shù),在當(dāng)前幀之后的預(yù)定幀數(shù)之內(nèi)都保持唇動位置不變,如果超過預(yù)定幀數(shù)嘴唇都沒有運(yùn)動,則重新開始在整個(gè)圖像范圍搜索唇動位置。采用該方法可以很大程度上減小計(jì)算量,并且可以保證聲音方位的連續(xù)性。
在視頻通信中,特別是在視頻會議的應(yīng)用中,同一個(gè)會場可能有多個(gè)參會者,此時(shí)因?yàn)橛腥舜蚬贰⑿÷曌h論等原因,會檢測出多個(gè)唇動位置,因此需要從多個(gè)唇動位置中選擇一個(gè)合適的唇動位置。如前所述,如果前一幀有唇動位置,則只在前一幀唇動位置的附近檢測唇動位置,因此如果檢測到多個(gè)唇動位置,也是在整個(gè)圖像范圍內(nèi)搜索唇動位置才發(fā)生的。從多個(gè)唇動位置中選擇一個(gè)唇動位置的策略有多種,例如選擇正面的唇動位置,過濾掉側(cè)面的唇動位置;或者選擇靠近畫面中間的唇動位置,而過濾掉畫面邊上的唇動位置。在會場中,有時(shí)也可能同時(shí)存在多個(gè)說話人,若采用上述的方法都不能選擇合適的唇動位置,此時(shí)可以計(jì)算這多個(gè)說話人唇動位置的中心位置,并將此中心位置作為輸出的唇動的位置。
Step2對發(fā)送端發(fā)送的音頻壓縮碼流進(jìn)行解碼,獲得語音信息;Step1和Step2中所述的對音頻壓縮碼流和視頻壓縮碼流的解碼可以同時(shí)進(jìn)行,也可以分開進(jìn)行,無先后順序之分。
Step3根據(jù)說話人的位置信息對接收到的語音信息進(jìn)行處理,使得說話人的聲音方位和其位置相匹配。
根據(jù)說話人的位置處理語音信息,可以利用現(xiàn)有技術(shù)的方法來實(shí)現(xiàn)。下面舉例進(jìn)行說明。對于圖2的應(yīng)用場景,如果重放的是兩個(gè)揚(yáng)聲器,且兩個(gè)揚(yáng)聲器分別在電視機(jī)左右兩邊,一個(gè)聲音處理方案是,通過調(diào)整左右聲道聲音的幅度,來達(dá)到聲音的水平方位和畫面中說話人位置相匹配的目的,也就是使說話人的位置和聲音方位相匹配??捎孟旅娴膬蓚€(gè)公式描述具體的調(diào)整方法D=(g1-g2)/(g1+g2)C=g1*g1+g2*g2上述兩個(gè)式子中C是一個(gè)固定值,g1是左聲道幅度增益,g2是右聲道幅度增益,D是根據(jù)唇動位置信息計(jì)算出來的說話人水平方向在畫面上的相對距離,令唇動位置距離畫面中間垂直線的距離為D’(唇動位置在畫面左邊為正值,右邊為負(fù)值),電視畫面水平方向的寬度為W,則D按下式計(jì)算D=D’/(W/2)根據(jù)音源位置信息處理聲音的方法還可以采用HRTF(Head RelatedTransfer Functions,頭部相關(guān)傳輸函數(shù))。采用HRTF虛擬出一個(gè)聲源的技術(shù)在現(xiàn)有的技術(shù)文獻(xiàn)中都已公開,在本發(fā)明中不再詳述。
在本發(fā)明的實(shí)施例提供的方法中,通過在聲音重放地檢測并獲得說話人位置信息,使得接收終端不必依賴發(fā)送終端提供說話人位置信息;在獲得位置信息后,根據(jù)此位置信息對重放的語音信息進(jìn)行處理,從而使得重放的聲音和圖像中說話人的位置實(shí)現(xiàn)準(zhǔn)確的匹配。
需要說明的是,本發(fā)明提供的音頻碼流處理方法不僅僅局限于處理從發(fā)送端接收的音頻碼流,同樣適用于對存儲在本地的視頻、音頻碼流進(jìn)行處理。
本發(fā)明的實(shí)施例還提供了一種視頻終端。如圖4所示,在視頻通信終端中有視頻解碼、音頻解碼、音源位置檢測、聲音方位處理等模塊。視頻壓縮碼流經(jīng)視頻解碼模塊解碼之后,一方面輸出到電視機(jī)顯示,另外一方面輸出到音源位置檢測模塊。音源位置檢測模塊接收視頻解碼模塊輸出的圖像,并對圖像進(jìn)行檢測,提取音源的特征,從而得到音源位置信息,并將音源位置信息輸出到聲音方位處理模塊。音頻壓縮碼流經(jīng)音頻解碼模塊解碼之后,輸出到聲音方位處理模塊。聲音方位處理模塊根據(jù)音源位置信息對接收的音頻碼流進(jìn)行處理,使得處理后的聲音方位和音源的位置相一致,并產(chǎn)生左右兩路音頻輸出,分別輸送到左、右揚(yáng)聲器重放。為了具有更好的聲音重放效果,視頻通信終端可以外接三個(gè)或三個(gè)以上的揚(yáng)聲器,此時(shí)聲音方位處理模塊相應(yīng)的輸出三路或三路以上的音頻流。
視頻終端中的音源位置檢測模塊的目的是對視頻解碼模塊輸出的圖像進(jìn)行檢測,得到其中音源的位置信息。所以在視頻終端中如果音源是說話人時(shí),位置檢測可以通過提取說話人的嘴唇特征來實(shí)現(xiàn),也可以通過檢測說話人的人臉等特征,只要該模塊能檢測到視頻解碼模塊輸出的圖像中的說話人位置即可。
如果以說話人的嘴唇為特征來檢測說話人的位置,則音源位置檢測模塊包括第一接收模塊,用于接收視頻解碼模塊發(fā)送的包含說話人的圖像;特征提取模塊,用于提取所述第一接收模塊接收的圖像中所述說話人的嘴唇特征;位置檢測模塊,用于根據(jù)所述的特征提取模塊提取的所述說話人的嘴唇特征,來確定所述說話人的位置。
其中,檢測唇動位置可以采用前面介紹的唇動檢測方法。
聲音方位處理模塊包括第二接收模塊,用于接收所述音頻解碼模塊發(fā)送的語音信息和所述位置檢測模塊發(fā)送的所述說話人的位置信息;匹配模塊,用于根據(jù)所述第二接收模塊接收的語音信息和所述說話人的位置信息,使重放的聲音方位和所述說話人的位置相匹配。
綜上所述,以上僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種音頻碼流處理方法,其特征在于,包括對視頻壓縮碼流進(jìn)行解碼,獲得包含音源的圖像,在所述的圖像中檢測所述音源的位置信息;對視頻壓縮碼流對應(yīng)的音頻壓縮碼流進(jìn)行解碼,獲得語音信息;根據(jù)所述音源的位置信息對所述語音信息進(jìn)行處理,使重放的聲音方位和所述音源的位置相匹配。
2.如權(quán)利要求
1所述的方法,其特征在于,當(dāng)所述的音源為說話人時(shí),所述的在所述的圖像中檢測所述音源的位置信息具體為從所述的圖像中提取所述說話人的嘴唇特征,根據(jù)所述的嘴唇特征檢測出唇動的位置,從而確定所述說話人的位置信息。
3.如權(quán)利要求
2所述的方法,如果在所述的視頻壓縮碼流解碼得到的前一幀圖像中已檢測出唇動的位置,則當(dāng)前幀在所述前一幀唇動位置的附近檢測是否有嘴唇存在。
4.如權(quán)利要求
2所述的方法,其特征在于,當(dāng)用至少兩個(gè)揚(yáng)聲器重放所述語音時(shí),所述的根據(jù)所述音源的位置信息對所述語音信息進(jìn)行處理具體為調(diào)整所述揚(yáng)聲器左右聲道聲音的幅度,使聲音的水平方位和所述說話人位置相匹配。
5.如權(quán)利要求
2所述的方法,其特征在于,所述的在所述的圖像中檢測所述音源的位置信息進(jìn)一步包括當(dāng)所述的圖像中有多個(gè)唇動位置時(shí),計(jì)算所述多個(gè)唇動位置的中心位置,并將此中心位置作為輸出的說話人的位置。
6.如權(quán)利要求
2所述的方法,其特征在于,所述的嘴唇特征包括嘴唇的顏色。
7.如權(quán)利要求
6所述的方法,其特征在于,在根據(jù)嘴唇的顏色確定嘴唇位置后,進(jìn)一步判斷嘴唇周圍的顏色是否是皮膚的顏色。
8.如權(quán)利要求
6或7所述的方法,在檢測出嘴唇位置之后,進(jìn)一步判斷嘴唇是否在運(yùn)動;如果在運(yùn)動,則將運(yùn)動嘴唇的位置作為唇動位置,否則,設(shè)置一個(gè)預(yù)定幀數(shù),在當(dāng)前幀之后的預(yù)定幀數(shù)之內(nèi)都保持唇動位置不變,如果超過預(yù)定幀數(shù)嘴唇都沒有運(yùn)動,則重新開始在整個(gè)圖像范圍內(nèi)搜索唇動位置。
9.一種視頻終端,其特征在于,視頻解碼模塊,用于對接收到的視頻壓縮碼流進(jìn)行解碼,并輸出解碼后的圖像;音頻解碼模塊,用于對接收到的視頻壓縮碼流對應(yīng)的音頻壓縮碼流進(jìn)行解碼,并輸出解碼后的語音信息;音源位置檢測模塊,用于接收視頻解碼模塊發(fā)送的圖像,并提取音源的特征,從而檢測到音源的位置信息;聲音方位處理模塊,用于接收音頻解碼模塊發(fā)送的語音信息和音源位置檢測模塊發(fā)送的音源位置信息,將聲音方位和音源的位置相互匹配。
10.如權(quán)利要求
9所述的裝置,其特征在于,所述的音源位置檢測模塊包括第一接收模塊,用于接收視頻解碼模塊發(fā)送的包含說話人的圖像;特征提取模塊,用于提取所述第一接收模塊接收的圖像中所述說話人的嘴唇特征;位置檢測模塊,用于根據(jù)所述的特征提取模塊提取的嘴唇特征,來確定所述說話人的位置。
11.如權(quán)利要求
10所述的裝置,其特征在于,所述的聲音方位處理模塊包括第二接收模塊,用于接收所述音頻解碼模塊發(fā)送的語音信息和所述位置檢測模塊發(fā)送的所述說話人的位置信息;匹配模塊,用于根據(jù)所述第二接收模塊接收的語音信息和所述說話人的位置信息,使重放的聲音方位和所述說話人的位置相匹配。
專利摘要
本發(fā)明的實(shí)施例公開了一種音頻碼流處理的方法,該方法為對視頻壓縮碼流進(jìn)行解碼,獲得包含音源的圖像,在所述的圖像中檢測所述音源的位置信息;對音頻壓縮碼流進(jìn)行解碼,獲得語音信息;根據(jù)所述音源的位置信息對所述語音信息進(jìn)行處理,使重放的聲音方位和所述音源的位置相匹配。這樣,接收端不需要依賴于發(fā)送端提供的音源位置信息,也可以使音源的位置信息和重放的聲音方位信息相匹配。本發(fā)明的實(shí)施例同時(shí)還公開了一種視頻終端。
文檔編號H04N5/14GK1997161SQ200610064656
公開日2007年7月11日 申請日期2006年12月30日
發(fā)明者詹五洲 申請人:華為技術(shù)有限公司導(dǎo)出引文BiBTeX, EndNote, RefMan