分布式混音處理方法及系統(tǒng)的制作方法
【專利摘要】一種分布式混音處理方法及系統(tǒng),其方法包括步驟:獲取子混音服務(wù)器接收的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來源;當所述數(shù)據(jù)包來自客戶端時,解析數(shù)據(jù)包獲得擴展音頻編碼幀,根據(jù)擴展音頻編碼幀的語音特征值進行初選,獲得初選音頻編碼幀,將初選音頻編碼幀進行解碼,獲得初選音頻信息,發(fā)送所述初選音頻信息;獲取主混音服務(wù)器接收的各初選音頻信息;根據(jù)各所述初選音頻信息的語音特征值進行終選,獲得終選音頻信息;將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。通過本方案避免了由于將終選結(jié)果全部發(fā)往客戶端導(dǎo)致的高碼率。
【專利說明】分布式混音處理方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及視頻會議領(lǐng)域,特別是涉及一種分布式混音處理方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)和視頻會議的迅速發(fā)展,多方通話業(yè)務(wù)已經(jīng)成為公共交換電信網(wǎng)/綜合業(yè)務(wù)數(shù)字網(wǎng)、分組語音網(wǎng)和移動網(wǎng)必備的補充業(yè)務(wù),同時在上述網(wǎng)絡(luò)會議電話和會議電視業(yè)務(wù)應(yīng)用也越來越廣泛?;镜恼Z音業(yè)務(wù)僅涉及兩個通話方,通話雙方可互相聽到對方的聲音,二在多方通話業(yè)務(wù)和會議業(yè)務(wù)中,同時通話方可能不止兩方,其中任意一方的語音信號都可以被傳送至所有其他通話方,而每一通話方都應(yīng)同時可聽到多個其他通話方的聲音。為此,在多方通話和會議電話業(yè)務(wù)中通常需要進行混音處理,即將多個通話方的語音信號混合起來,以便任意一個通話成員都可同時聽到其他通話方的聲音。
[0003]傳統(tǒng)分布式混音系統(tǒng)包括主混音服務(wù)器、子混音服務(wù)器和客戶端,主混音服務(wù)器與子混音服務(wù)器呈樹狀形的網(wǎng)絡(luò)??蛻舳擞嬎阋纛l信息的短時平均能量,根據(jù)短時平均能量和音頻編碼信息獲得擴展音頻編碼幀,向子混音服務(wù)器發(fā)送擴展音頻編碼幀,子混音服務(wù)器根據(jù)擴展音頻編碼幀的短時平均能量對音頻編碼幀進行初選,將初選結(jié)果發(fā)送至主混音服務(wù)器。主混音服務(wù)器將初選結(jié)果計算得到語音活動度量,根據(jù)語音活動度量進行終選,將終選得到的音頻編碼幀轉(zhuǎn)發(fā)到客戶端??蛻舳藢K選音頻編碼幀進行解碼、混音處理。
[0004]上述傳統(tǒng)技術(shù),將短時平均能量計算放到客戶端編碼前進行,和編碼數(shù)據(jù)一起發(fā)到子混音服務(wù)器,這樣子混音服務(wù)器根據(jù)已計算好的短時平均能量初選混音通道數(shù),主混音服務(wù)器終選混音通道數(shù)。然后將需要混音的m個通道數(shù)據(jù),全部發(fā)往各客戶端進行解碼混音。該方案由于將終選結(jié)果全部發(fā)往客戶端,由客戶端解碼混音,將發(fā)往客戶端的碼率提高m倍。這對客戶的網(wǎng)絡(luò)提出較高的要求。在目前普遍網(wǎng)絡(luò)較差的情況下,是無法達到的。
【發(fā)明內(nèi)容】
[0005]基于此,有必要針對混音碼率高的問題,提供一種分布式混音處理方法及系統(tǒng)。
[0006]一種分布式混音處理方法,包括步驟:
[0007]獲取子混音服務(wù)器接收的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來源;當所述數(shù)據(jù)包來自客戶端時,解析數(shù)據(jù)包獲得擴展音頻編碼幀,根據(jù)擴展音頻編碼幀的語音特征值進行初選,獲得初選音頻編碼幀,將初選音頻編碼幀進行解碼,獲得初選音頻信息,發(fā)送所述初選音頻信息;
[0008]獲取主混音服務(wù)器接收的各初選音頻信息;
[0009]根據(jù)各所述初選音頻信息的語音特征值進行終選,獲得終選音頻信息;
[0010]將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。
[0011]—種分布式混音處理系統(tǒng),包括:
[0012]第一獲取模塊,用于獲取子混音服務(wù)器接收的數(shù)據(jù)包;
[0013]數(shù)據(jù)包來源判斷模塊,用于根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來源,當所述數(shù)據(jù)包來自客戶端時,將數(shù)據(jù)包發(fā)送至擴展音頻幀解析模塊;
[0014]擴展音頻幀解析模塊,用于解析數(shù)據(jù)包獲得擴展音頻編碼幀;
[0015]混音通道初選模塊,用于根據(jù)擴展音頻編碼幀的語音特征值進行初選,獲得初選音頻編碼幀,將初選音頻編碼幀進行解碼,獲得初選音頻信息;
[0016]第一發(fā)送模塊,用于發(fā)送所述初選音頻信息;
[0017]第二獲取模塊,用于獲取主混音服務(wù)器接收的各初選音頻信息;
[0018]混音通道終選模塊,用于根據(jù)各所述初選音頻信息的語音特征值進行終選,獲得終選音頻信息;
[0019]第二發(fā)送模塊,用于將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。
[0020]上述分布式混音處理方法及系統(tǒng),首先將初選音頻編碼幀進行解碼后,再發(fā)送至主混音服務(wù)器,避免了在主混音服務(wù)器同時對所有編碼幀進行解碼帶來的效率低,提高了效率。其次,將終選音頻信息先混音編碼后,再發(fā)送至各子混音服務(wù)器,避免了由于將終選結(jié)果全部發(fā)往客戶端對網(wǎng)絡(luò)的要求,降低了碼率。同時,避免了由于每個客戶端都需對終選結(jié)果進行混音帶來的延時。
【專利附圖】
【附圖說明】
[0021]圖1為本發(fā)明分布式混音處理方法實施例的流程示意圖;
[0022]圖2為本發(fā)明分布式混音處理系統(tǒng)實施例的結(jié)構(gòu)示意圖;
[0023]圖3為客戶端、子混音服務(wù)器和主混音服務(wù)器的連接關(guān)系示意圖;
[0024]圖4為本發(fā)明分布式混音處理系統(tǒng)具體應(yīng)用實例中客戶端結(jié)構(gòu)示意圖;
[0025]圖5為本發(fā)明分布式混音處理系統(tǒng)具體應(yīng)用實例中子混音服務(wù)器結(jié)構(gòu)示意圖;
[0026]圖6為本發(fā)明分布式混音處理系統(tǒng)具體應(yīng)用實例中主混音服務(wù)器結(jié)構(gòu)示意圖。
【具體實施方式】
[0027]以下針對本發(fā)明分布式混音處理方法及系統(tǒng)的各實施例進行詳細的描述。
[0028]參見圖1,為本發(fā)明分布式混音處理方法實施例的流程示意圖,包括步驟:
[0029]步驟SlOl:獲取子混音服務(wù)器接收的數(shù)據(jù)包;
[0030]步驟S102:根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來源,當數(shù)據(jù)包來自客戶端時,進入步驟S103 ;
[0031]步驟S103:解析數(shù)據(jù)包獲得擴展音頻編碼幀,根據(jù)擴展音頻編碼幀的語音特征值進行初選,獲得初選音頻編碼幀,將初選音頻編碼幀進行解碼,獲得初選音頻信息。
[0032]其中,擴展音頻編碼幀包括語音特征值和音頻編碼幀。音頻編碼幀是客戶端將音頻信息進行編碼得到的。語音特征值可以是語音信號的能量量度、語音信號的幅度量度、語音平均能量或語音能量等,具體根據(jù)需要設(shè)定。根據(jù)擴展音頻編碼幀的語音特征值進行初選,是指根據(jù)語音特征值與預(yù)設(shè)的第一混音優(yōu)先級判定規(guī)則確定初步參與混音的音頻編碼幀。根據(jù)語音特征值與預(yù)設(shè)的第一混音優(yōu)先級判定規(guī)則確定參與混音的語音編碼幀的方法有很多種,比如語音特征值為信號能量,預(yù)設(shè)的混音優(yōu)先級判定規(guī)則是指信號能量排名前n的語音信息參與混音,又或者,對于主會場,只要其講話,即被確定為語音信息混合處理所需通話方,對于其他通話方,則按照語音能量大小排序,并選擇能量較大的幾個通過方參與混音。初選音頻編碼幀包括音頻編碼幀和語音特征值。獲得初選音頻編碼幀后,將初選音頻編碼幀進行解碼,獲得初選音頻信息。則初選音頻信息中包括音頻信息和語音特征值。
[0033]步驟S104:發(fā)送初選音頻信息。這里是指向主混音服務(wù)器發(fā)送初選音頻信息。
[0034]步驟S105:獲取主混音服務(wù)器接收的各初選音頻信息;
[0035]步驟S106:根據(jù)各初選音頻信息的語音特征值進行終選,獲得終選音頻信息。
[0036]其中,根據(jù)初選音頻信息的語音特征值進行初選,是指根據(jù)語音特征值與預(yù)設(shè)的第二混音優(yōu)先級判定規(guī)則確定初步參與混音的音頻編碼幀。根據(jù)語音特征值與預(yù)設(shè)的第二混音優(yōu)先級判定規(guī)則確定最終參與混音的音頻信息的方法有很多種,具體根據(jù)需要設(shè)定。這里終選音頻信息可以包括語音特征值和音頻信息,也可以只包括音頻信息。
[0037]步驟S107:將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。將終選音頻信息混音編碼后才發(fā)送至子混音服務(wù)器,子混音服務(wù)器可以轉(zhuǎn)發(fā)至各客戶端。
[0038]本發(fā)明方法可以運用在子混音服務(wù)器與客戶端呈樹狀形的網(wǎng)絡(luò),主混音服務(wù)器與子混音服務(wù)器呈樹狀形的網(wǎng)絡(luò)的情況。由于本方法首先將初選音頻編碼幀進行解碼后,再發(fā)送至主混音服務(wù)器,避免了在主混音服務(wù)器同時對所有編碼幀進行解碼帶來的效率低,提高了效率。其次,將終選音頻信息混音編碼后,再發(fā)送至各子混音服務(wù)器,避免了由于將終選結(jié)果全部發(fā)往客戶端對網(wǎng)絡(luò)的要求,降低了碼率。同時,避免了由于每個客戶端都需對終選結(jié)果進行混音帶來的延時。
[0039]在其中一個實施例中,步驟S106包括步驟:將混音標志位和終選音頻信息封包發(fā)送至有客戶端參與混音的子混音服務(wù)器,將終選音頻信息混音并編碼,將轉(zhuǎn)發(fā)標志位和該編碼信息封包發(fā)送至沒有客戶端參與混音的子混音服務(wù)端。
[0040]其中,轉(zhuǎn)發(fā)標志位用于標識子混音服務(wù)器將接收的信息直接轉(zhuǎn)發(fā),混音標志位用于標識子混音服務(wù)器將接收的信息需要先混音。有客戶端參與混音的子混音服務(wù)器是指與終選音頻信息對應(yīng)的客戶端中的一個或多個客戶端連接的子混音服務(wù)器,沒有客戶端參與混音的子混音服務(wù)器是指與終選音頻信息對應(yīng)的客戶端不連接的子混音服務(wù)器。例如:客戶端C11、C12、C13連接子混音服務(wù)器Cl,客戶端C21、C22、C23連接子混音服務(wù)器C2。在主混音服務(wù)器中,終選出需要混音的信息是來源于客戶端CU、C12的信息。則子混音服務(wù)器Cl叫做有客戶端參與混音的子混音服務(wù)器,子混音服務(wù)器C2叫做沒有客戶端參與混音的子服務(wù)端。將C11、C12的信息混音編碼后直接轉(zhuǎn)發(fā)給子混音服務(wù)器C2,子混音服務(wù)器C2轉(zhuǎn)發(fā)給客戶端。將C11、C12未編碼的信息直接發(fā)給子混音服務(wù)器Cl,子混音服務(wù)器Cl轉(zhuǎn)發(fā)給客戶端Cll時,直接將C12信息轉(zhuǎn)發(fā)給客戶端Cl I,子混音服務(wù)器Cl轉(zhuǎn)發(fā)給客戶端C13時,需要先將C11、C12的信息進行混音并編碼,然后轉(zhuǎn)發(fā)給客戶端C13。
[0041]步驟S102還包括步驟:當數(shù)據(jù)包來自主混音服務(wù)器時,進入以下步驟:讀取數(shù)據(jù)包的轉(zhuǎn)發(fā)/混音標志位,若為轉(zhuǎn)發(fā)標識位時,將數(shù)據(jù)包轉(zhuǎn)發(fā)至對應(yīng)客戶端;若為混音標志位時,根據(jù)被發(fā)送客戶端對數(shù)據(jù)包的終選音頻信息進行混音并編碼,將編碼后數(shù)據(jù)發(fā)送至對應(yīng)客戶端。其中,根據(jù)被發(fā)送客戶端對數(shù)據(jù)包的終選音頻信息進行混音并編碼是指當終選音頻信息對應(yīng)的客戶端包括被發(fā)送客戶端時,將該客戶端對應(yīng)的音頻信息不進行混音,目的是讓客戶端不能聽到自己的聲音。
[0042]本實施例是針對多個客戶端時,將混音服務(wù)器分為多個子混音服務(wù)器和一個主混音服務(wù)器。子混音服務(wù)器實現(xiàn)初選過程,并將編碼信息進行解碼,主混音服務(wù)器直接接收解碼后的數(shù)據(jù),減少主混音服務(wù)器的工作量。然后主混音服務(wù)器也通過混音標志位和轉(zhuǎn)發(fā)標識位的形式,將終選后的混音信息混音并編碼,直接轉(zhuǎn)發(fā)至沒有參與混音的客戶端的子混音服務(wù)器,子混音服務(wù)器直接轉(zhuǎn)發(fā)至客戶端。主混音服務(wù)器還將沒有編碼的混音信息發(fā)給有參與混音的客戶端的子混音服務(wù)器,然后在子混音服務(wù)器中實現(xiàn)編碼,發(fā)送至客戶端。當然,此時子混音服務(wù)器可以判斷混音信息中是否包含了被發(fā)客戶端發(fā)送的信息,如果有,則將混音信息中該客戶端發(fā)送的信息刪除后,再混音編碼,發(fā)送至該客戶端,使該客戶端不能聽到自己的聲音。通過區(qū)別對待沒有客戶端參與混音的子混音服務(wù)端和有客戶端參與混音的子混音服務(wù)端,在降低碼率的同時,還提高了混音效率,同時實現(xiàn)用戶端不能聽到自己的聲音。
[0043]在另一個實施例中,步驟SlOl之前,還包括步驟:
[0044]Al:分別獲取各個客戶端的音頻信息,音頻信息為語音信息、音樂信息或語音音樂信息,其中,語音音樂信息為同一個客戶端同時接收的語音信息和音樂信息的混音。其中音樂信息可以是主會場播放的背景音樂、分會場分享的音樂等。當一個會場同時存在語音信息和音樂信息時,先將語音信息和音樂信息進行混音。
[0045]A2:分別將各個客戶端對應(yīng)的音頻信息進行編碼,獲得音頻編碼幀。即音頻編碼幀包括語音編碼幀、音樂編碼幀、語音音樂編碼幀。
[0046]A3:在音頻編碼幀前設(shè)置標志位和語音特征位,獲得擴展音頻編碼幀;其中,若音頻信息為語音信息,則計算語音信息的語音特征值,標志位為語音標志位,語音特征位為語音特征值。若音頻信息為音樂信息,則標志位為音樂標志位,語音特征位可以設(shè)為空。若音頻信息為語音音樂信息,則標志位為音樂標志位,語音特征位可以設(shè)為空。本實施例中,擴展音頻編碼幀由三位組成,包括標志位、語音特征位、語音編碼幀位。當標志位為音樂時,語音特征值位除了為空,還可以對音樂標志位對應(yīng)的擴展音頻編碼幀不增加語音特征位。
[0047]A4:將擴展音頻編碼幀打包后發(fā)送至子混音服務(wù)器;
[0048]在判斷數(shù)據(jù)包來自客戶端時,獲得初選音頻編碼幀步驟,包括步驟,
[0049]解析數(shù)據(jù)包獲得擴展音頻編碼幀,當擴展音頻編碼幀的標志位為音樂標志位時,該擴展音頻編碼幀設(shè)為初選音頻編碼幀,當擴展音頻編碼幀的標志位為語音標志位時,則根據(jù)擴展音頻編碼幀的語音特征值與第一預(yù)設(shè)的混音優(yōu)先級判定規(guī)則確定初選音頻編碼幀。即當標志位為音樂標志位時,默認該音頻信息為初選音頻編碼幀,而當標志位為音樂標志位時,需要根據(jù)預(yù)先設(shè)定的判定規(guī)則,篩選出符合條件的音頻編碼幀。
[0050]根據(jù)各初選音頻信息的語音特征值進行終選,獲得終選音頻信息步驟,包括步驟:
[0051]當初選音頻信息的標志位為音樂標志位時,該初選音頻信息設(shè)為終選音頻信息,當初選音頻信息的標志位為語音標志位時,則根據(jù)初選音頻信息的語音特征值與第二預(yù)設(shè)的混音優(yōu)先級判定規(guī)則確定終選選音頻信息。即當標志位為音樂標志位時,默認該初選音頻信息為終選音頻信息,而當標志位為音樂標志位時,則需要根據(jù)預(yù)先設(shè)定的規(guī)則進行篩選,獲得終選音頻信息。
[0052]本實施例通過分別采集語音信息、音樂信息或者混音后的語音音樂信息,在音頻編碼幀前設(shè)置標志位,將音樂信息、語音音樂信息和語音信息區(qū)分開,在初選和終選時,將音樂標志位對應(yīng)的信息默認為最終要混音的信息,從而實現(xiàn)會場有音樂需要分享時,混音信息中存在完整音樂信息,提高了混音信息中背景音樂播放質(zhì)量。同時,本方案在發(fā)送至子混音服務(wù)器之前進行了編碼,提高了客戶端與子混音服務(wù)器之間的傳輸效率,從而提高了整個混音過程的效率。在發(fā)送至主混音服務(wù)器之前進行了解碼,分擔了主混音服務(wù)器解碼的工作量。同時在主混音服務(wù)器返回信息之前進行了混音編碼,降低了碼率。
[0053]在一個具體應(yīng)用實例中,可運用在多個客戶端連接一個子混音服務(wù)器,多個子混音服務(wù)器連接一個主混音服務(wù)器的實例中。在客戶端,分別獲取語音信息和音樂信息。當一個客戶端同時存在語音信息和音樂信息時,先將語音信息和音樂信息進行混音得到語音音樂信息。分別將音頻信息進行編碼,獲得音頻編碼幀。若音頻為語音信息,計算語音信息的語音特征值,則語音特征位為語音特征值。在語音特征位前設(shè)置標志位,獲得擴展音頻編碼中貞。其中,若音頻為語音信息,則標志位為語音標志位,若音頻信息為音樂信息,則標志位為首樂標志位,右首頻為語首首樂彳目息,則標志位為首樂標志位。將擴展首頻編碼巾貞打包后發(fā)送至子混音服務(wù)器。
[0054]在子混音服務(wù)器中,接收的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來源;
[0055]當數(shù)據(jù)包來自客戶端時,解析數(shù)據(jù)包獲得解析擴展音頻編碼幀,解析擴展音頻編碼幀的標志位,若標志位為語音標識位時,讀取擴展音頻編碼幀的語音特征值;根據(jù)語音特征值與第一預(yù)設(shè)的混音優(yōu)先級判定規(guī)則確定參與混音的音頻編碼幀,將該音頻編碼幀解碼,若標志位為音樂標志位,則將音頻編碼幀進行解碼,根據(jù)各解碼音頻信息獲得初選音頻信息,初選音頻信息包括音頻信息和對應(yīng)的標識位、語音特征值。發(fā)送初選音頻信息。
[0056]當數(shù)據(jù)包來自主混音服務(wù)器時,讀取數(shù)據(jù)包的轉(zhuǎn)發(fā)/混音標志位,若為轉(zhuǎn)發(fā)標識位時,將數(shù)據(jù)包轉(zhuǎn)發(fā)至對應(yīng)客戶端;若為混音標志位時,根據(jù)被發(fā)送客戶端對數(shù)據(jù)包的終選音頻信息進行混音并編碼,將編碼后數(shù)據(jù)發(fā)送至對應(yīng)客戶端。
[0057]在主混音服務(wù)器,接收初選音頻信息,根據(jù)語音特征值與第二預(yù)設(shè)的混音優(yōu)先級判定規(guī)則獲得終選音頻信息,將混音標志位和終選音頻信息封包發(fā)送至有客戶端參與混音的子混音服務(wù)器,將終選音頻信息混音并編碼,將轉(zhuǎn)發(fā)標志位和該編碼信息封包發(fā)送至沒有客戶端參與混音的子服務(wù)端。
[0058]本方案還提供一種分布式混音處理系統(tǒng),參見圖2,為本發(fā)明分布式混音處理系統(tǒng)實施例的結(jié)構(gòu)示意圖,包括:
[0059]第一獲取模塊201,用于獲取子混音服務(wù)器接收的數(shù)據(jù)包;
[0060]數(shù)據(jù)包來源判斷模塊202,用于根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來源,當數(shù)據(jù)包來自客戶端時,將數(shù)據(jù)包發(fā)送至擴展音頻幀解析模塊;
[0061]擴展音頻幀解析模塊203,用于解析數(shù)據(jù)包獲得擴展音頻編碼幀;
[0062]混音通道初選模塊204,用于根據(jù)擴展音頻編碼幀的語音特征值進行初選,獲得初選音頻編碼幀,將初選音頻編碼幀進行解碼,獲得初選音頻信息;
[0063]第一發(fā)送模塊205,用于發(fā)送初選音頻信息;
[0064]第二獲取模塊206,用于獲取主混音服務(wù)器接收的各初選音頻信息;
[0065]混音通道終選模塊207,用于根據(jù)各初選音頻信息的語音特征值進行終選,獲得終選音頻信息;
[0066]第二發(fā)送模塊208,用于將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。[0067]在其中一個實施例中,第二發(fā)送模塊,用于將混音標志位和終選音頻信息封包發(fā)送至有客戶端參與混音的子混音服務(wù)器,將終選音頻信息混音并編碼,將轉(zhuǎn)發(fā)標志位和該編碼信息封包發(fā)送至沒有客戶端參與混音的子混音服務(wù)端。
[0068]數(shù)據(jù)包來源判斷模塊,還用于當數(shù)據(jù)包來自主混音服務(wù)器時,將數(shù)據(jù)包發(fā)送至第一發(fā)送模塊。
[0069]第一發(fā)送模塊,還用于讀取數(shù)據(jù)包的轉(zhuǎn)發(fā)/混音標志位,若為轉(zhuǎn)發(fā)標識位時,將數(shù)據(jù)包轉(zhuǎn)發(fā)至對應(yīng)客戶端;若為混音標志位時,根據(jù)被發(fā)送客戶端對數(shù)據(jù)包的終選音頻信息進行混音并編碼,將編碼后數(shù)據(jù)發(fā)送至對應(yīng)客戶端。
[0070]在其中一個實施例中,還包括:
[0071]第三獲取模塊,用于分別獲取各個客戶端的音頻信息,音頻信息為語音信息、音樂信息或語音音樂信息,其中,語音音樂信息為同一個客戶端同時接收的語音信息和音樂信息的混首;
[0072]編碼模塊,用于分別將各個客戶端對應(yīng)的音頻信息進行編碼,獲得音頻編碼幀;
[0073]擴展音頻幀模塊,用于在音頻編碼幀前設(shè)置標志位和語音特征位,獲得擴展音頻編碼幀;其中,若音頻信息為語音信息,則計算語音信息的語音特征值,標志位為語音標志位,語音特征位為語音特征值;若音頻信息為音樂信息,則標志位為音樂標志位,若音頻信息為語音音樂信息,則標志位為音樂標志位;
[0074]第三發(fā)送模塊,用于將擴展音頻編碼幀打包后發(fā)送至子混音服務(wù)器;
[0075]混音通道初選模塊,用于當擴展音頻編碼幀的標志位為音樂標志位時,該擴展音頻編碼幀設(shè)為初選音頻編碼幀,當擴展音頻編碼幀的標志位為語音標志位時,則根據(jù)擴展音頻編碼幀的語音特征值與第一預(yù)設(shè)的混音優(yōu)先級判定規(guī)則獲得初選音頻編碼幀;
[0076]混音通道終選模塊,用于當初選音頻信息的標志位為音樂標志位時,該初選音頻信息設(shè)為終選音頻信息,當初選音頻信息的標志位為語音標志位時,則根據(jù)初選音頻信息的語音特征值與第二預(yù)設(shè)的混音優(yōu)先級判定規(guī)則確定終選選音頻信息。
[0077]在一個具體應(yīng)用實例中,如圖3,為客戶端、子混音服務(wù)器、主混音服務(wù)器關(guān)系示意圖。參見如圖4至圖6,客戶端可以包括第一接收模塊401、編碼模塊402、擴展音頻幀模塊403、第三發(fā)送模塊404。其中第一接收模塊401用于接收音頻信息,即分別獲取語音信息和音頻信息。在其中一個實施例中,第一接收模塊包括語音采集模塊4011、音樂采集模塊4012、混音模塊4013。同時采集到語音和音樂信息時,混音模塊將語音和音樂信息進行混音。子混音服務(wù)器可以包括第二接收模塊501、數(shù)據(jù)包來源判斷模塊502、擴展音頻幀解析模塊503、混音通道初選模塊504、第一發(fā)送模塊505。其中,第二接收模塊501用于接收客戶端和主混音服務(wù)器發(fā)送的數(shù)據(jù)包。主混音服務(wù)器可以包括第三獲取模塊601、混音通道終選模塊602、第二發(fā)送模塊603。其中,第三獲取模塊601用于獲取子混音服務(wù)器發(fā)送的初選音頻信息。其他模塊與上述模塊功能相似。
[0078]本發(fā)明的分布式混音處理系統(tǒng)與本發(fā)明的分布式混音處理方法是一一對應(yīng)的,上述分布式混音處理方法實施例中的相關(guān)技術(shù)特征及其技術(shù)效果均適用于分布式混音處理系統(tǒng)實施例中,在此不再贅述。
[0079]以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應(yīng)以所附權(quán)利要求為準。
【權(quán)利要求】
1.一種分布式混音處理方法,其特征在于,包括步驟: 獲取子混音服務(wù)器接收的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來源; 當所述數(shù)據(jù)包來自客戶端時,解析數(shù)據(jù)包獲得擴展音頻編碼幀,根據(jù)擴展音頻編碼幀的語音特征值進行初選,獲得初選音頻編碼幀,將初選音頻編碼幀進行解碼,獲得初選音頻信息,發(fā)送所述初選音頻信息; 獲取主混音服務(wù)器接收的各初選音頻信息; 根據(jù)各所述初選音頻信息的語音特征值進行終選,獲得終選音頻信息; 將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。
2.根據(jù)權(quán)利要求1所述的分布式混音處理方法,其特征在于, 所述將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器步驟,包括步驟: 將混音標志位和所述終選音頻信息封包發(fā)送至有客戶端參與混音的子混音服務(wù)器,將所述終選音頻信息混音并編碼,將轉(zhuǎn)發(fā)標志位和該編碼信息封包發(fā)送至沒有客戶端參與混音的子混音服務(wù)端; 所述獲取子混音服 務(wù)器接收的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來源步驟,還包括步驟: 當所述數(shù)據(jù)包來自主混音服務(wù)器時,讀取所述數(shù)據(jù)包的轉(zhuǎn)發(fā)/混音標志位,若為轉(zhuǎn)發(fā)標識位時,將數(shù)據(jù)包轉(zhuǎn)發(fā)至對應(yīng)客戶端;若為混音標志位時,根據(jù)被發(fā)送客戶端對所述數(shù)據(jù)包的終選音頻信息進行混音并編碼,將編碼后數(shù)據(jù)發(fā)送至對應(yīng)客戶端。
3.根據(jù)權(quán)利要求1或2所述的分布式混音處理方法,其特征在于,所述獲取子混音服務(wù)器接收的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來源步驟之前,還包括步驟: 分別獲取各個客戶端的音頻信息,所述音頻信息為語音信息、音樂信息或語音音樂信息,其中,所述語音音樂信息為同一個客戶端同時接收的語音信息和音樂信息的混音; 分別將各個客戶端對應(yīng)的音頻信息進行編碼,獲得音頻編碼幀; 在所述音頻編碼幀前設(shè)置標志位和語音特征位,獲得擴展音頻編碼幀;其中,若所述音頻信息為語音信息,則計算語音信息的語音特征值,所述標志位為語音標志位,所述語音特征位為語音特征值;若所述音頻信息為音樂信息,則所述標志位為音樂標志位,若所述音頻信息為語音音樂信息,則所述標志位為音樂標志位; 將所述擴展音頻編碼幀打包后發(fā)送至子混音服務(wù)器; 在判斷所述數(shù)據(jù)包來自客戶端時,獲得初選音頻編碼幀步驟,包括步驟, 解析數(shù)據(jù)包獲得擴展音頻編碼幀,當擴展音頻編碼幀的標志位為音樂標志位時,該擴展音頻編碼幀設(shè)為初選音頻編碼幀,當擴展音頻編碼幀的標志位為語音標志位時,則根據(jù)所述擴展音頻編碼幀的語音特征值與第一預(yù)設(shè)的混音優(yōu)先級判定規(guī)則確定初選音頻編碼幀; 所述根據(jù)各所述初選音頻信息的語音特征值進行終選,獲得終選音頻信息步驟,包括步驟: 當初選音頻信息的標志位為音樂標志位時,該初選音頻信息設(shè)為終選音頻信息,當初選音頻信息的標志位為語音標志位時,則根據(jù)所述初選音頻信息的語音特征值與第二預(yù)設(shè)的混音優(yōu)先級判定規(guī)則確定終選選音頻信息。
4.一種分布式混音處理系統(tǒng),其特征在于,包括:第一獲取模塊,用于獲取子混音服務(wù)器接收的數(shù)據(jù)包; 數(shù)據(jù)包來源判斷模塊,用于根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來源,當所述數(shù)據(jù)包來自客戶端時,將數(shù)據(jù)包發(fā)送至擴展音頻幀解析模塊; 擴展音頻幀解析模塊,用于解析數(shù)據(jù)包獲得擴展音頻編碼幀; 混音通道初選模塊,用于根據(jù)擴展音頻編碼幀的語音特征值進行初選,獲得初選音頻編碼幀,將初選音頻編碼幀進行解碼,獲得初選音頻信息; 第一發(fā)送模塊,用于發(fā)送所述初選音頻信息; 第二獲取模塊,用于獲取主混音服務(wù)器接收的各初選音頻信息; 混音通道終選模塊,用于根據(jù)各所述初選音頻信息的語音特征值進行終選,獲得終選音頻信息; 第二發(fā)送模塊,用于將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。
5.根據(jù)權(quán)利要求4所述的分布式混音處理系統(tǒng),其特征在于, 所述第二發(fā)送模塊,用于將混音標志位和所述終選音頻信息封包發(fā)送至有客戶端參與混音的子混音服務(wù)器,將所述終選音頻信息混音并編碼,將轉(zhuǎn)發(fā)標志位和該編碼信息封包發(fā)送至沒有客戶端參與混音的子混音服務(wù)端; 所述數(shù)據(jù)包來源判斷模塊,還用于當所述數(shù)據(jù)包來自主混音服務(wù)器時,將數(shù)據(jù)包發(fā)送至第一發(fā)送模塊; 所述第一發(fā)送模塊,還用于讀取所述數(shù)據(jù)包的轉(zhuǎn)發(fā)/混音標志位,若為轉(zhuǎn)發(fā)標識位時,將數(shù)據(jù)包轉(zhuǎn)發(fā)至對應(yīng)客戶端;若為混音標志位時,根據(jù)被發(fā)送客戶端對所述數(shù)據(jù)包的終選音頻信息進行混音并編碼,將編碼后數(shù)據(jù)發(fā)送至對應(yīng)客戶端。
6.根據(jù)權(quán)利要求4或5所述的分布式混音處理系統(tǒng),其特征在于,還包括: 第三獲取模塊,用于分別獲取各個客戶端的音頻信息,所述音頻信息為語音信息、音樂信息或語音音樂信息,其中,所述語音音樂信息為同一個客戶端同時接收的語音信息和音樂信息的混音; 編碼模塊,用于分別將各個客戶端對應(yīng)的音頻信息進行編碼,獲得音頻編碼幀; 擴展音頻幀模塊,用于在所述音頻編碼幀前設(shè)置標志位和語音特征位,獲得擴展音頻編碼幀;其中,若所述音頻信息為語音信息,則計算語音信息的語音特征值,所述標志位為語音標志位,所述語音特征位為語音特征值;若所述音頻信息為音樂信息,則所述標志位為音樂標志位,若所述音頻信息為語音音樂信息,則所述標志位為音樂標志位; 第三發(fā)送模塊,用于將所述擴展音頻編碼幀打包后發(fā)送至子混音服務(wù)器; 所述混音通道初選模塊,用于當擴展音頻編碼幀的標志位為音樂標志位時,該擴展音頻編碼幀設(shè)為初選音頻編碼幀,當擴展音頻編碼幀的標志位為語音標志位時,則根據(jù)所述擴展音頻編碼幀的語音特征值與第一預(yù)設(shè)的混音優(yōu)先級判定規(guī)則獲得初選音頻編碼幀;混音通道終選模塊,用于當初選音頻信息的標志位為音樂標志位時,該初選音頻信息設(shè)為終選音頻信息,當初選音頻信息的標志位為語音標志位時,則根據(jù)所述初選音頻信息的語音特征值與第二預(yù)設(shè)的混音優(yōu)先級判定規(guī)則確定終選選音頻信息。
【文檔編號】H04N7/15GK103686059SQ201310444847
【公開日】2014年3月26日 申請日期:2013年9月23日 優(yōu)先權(quán)日:2013年9月23日
【發(fā)明者】李 根, 譚小剛 申請人:廣東威創(chuàng)視訊科技股份有限公司