視音頻信息的處理方法、裝置和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種視音頻信息的處理方法、裝置和系統(tǒng)。該方法包括:采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息;獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子;將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息;發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。本發(fā)明實施例實現(xiàn)了根據(jù)獲取的視音頻數(shù)據(jù)中的聲音信息和目標對象的特征值對視音頻數(shù)據(jù)添加相應的符號信息。
【專利說明】視音頻信息的處理方法、裝置和系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及通信領域,尤其涉及一種視音頻信息的處理方法、裝置和系統(tǒng)。
【背景技術】
[0002]視頻會議系統(tǒng)是通過網(wǎng)絡平臺以實時的音、視頻等多媒體手段,支持在不同的地理位置的人們進行遠距離實時信息交流、開展協(xié)同工作的應用系統(tǒng)。視頻會議系統(tǒng)實時傳輸視頻與音頻信息,使在不同的地理位置的人們可以遠距離地進行直觀、真實的視音頻交流。
[0003]目前的視頻會議系統(tǒng)中的各個會場的場景和氛圍都是嚴肅和呆板的,與會人和組織者在會議中的語言和表情只能通過傳統(tǒng)的視頻采集和音頻采集裝置將本地的音視頻數(shù)據(jù)通過盡可能真實的方式顯示給其他會場,缺少一種趣味性的表達會議中情緒和氛圍的方法和途徑。例如,在現(xiàn)有的視頻會議系統(tǒng)中,由于只能通過視頻采集和音頻采集裝置采集到各個會場真實的會議場景,與會人要以一種非嚴肅的方式表達自己參會時或在會議中的某種開心的氛圍和情緒,如只能通過語言的描述或面部表情動作來進行直接的表達。但隨著視頻會議的逐步普及,特別是在一些相對寬松的辦公環(huán)境下,如果只通過視頻采集和音頻采集裝置采集各個會場真實的會議場景,可導致與會人根據(jù)視頻終端上顯示的呆板的視音頻信息對視頻會議系統(tǒng)產(chǎn)生不好的體驗。
【發(fā)明內容】
[0004]本發(fā)明實施例提供了一種視音頻信息的處理方法、裝置和系統(tǒng),以實現(xiàn)根據(jù)獲取的視音頻數(shù)據(jù)中的目標對象的特征值對視音頻數(shù)據(jù)添加相應的符號信息,更好地表達視頻會議中會議的情緒和氛圍。
[0005]第一方面,本發(fā)明實施例提供了一種視音頻信息的處理方法,所述方法包括:
[0006]采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息;
[0007]獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子;
[0008]將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息;
[0009]發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。
[0010]在第一種可能的實現(xiàn)方式中,所述將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理具體為:在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù);將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行混合編碼處理。
[0011]結合第一方面或第一方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子之后還包括:根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或,根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
[0012]結合第一方面的第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子具體為:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子。
[0013]結合第一方面的第三種可能的實現(xiàn)方式中,在第四種可能的實現(xiàn)方式中,所述根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為預設第二調節(jié)因子具體為:根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
[0014]結合第一方面的第四中可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中,所述下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的;所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
[0015]結合第一方面,在第六種可能的實現(xiàn)方式中,所述方法還包括:接收所述MCU發(fā)送的所述視音頻數(shù)據(jù)的全局參數(shù)調節(jié)因子;所述將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理具體為:將所述采集到的視音頻數(shù)據(jù)和所述全局參數(shù)調節(jié)因子對應的視音頻數(shù)據(jù)與以下數(shù)據(jù)中的至少一個進行疊加處理:所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)。
[0016]第二方面,本發(fā)明實施例還提供了一種視音頻信息的處理方法,所述方法包括:
[0017]接收視頻終端發(fā)送的視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲
音信息;
[0018]獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子;
[0019]將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息;
[0020]將所述視音頻信息廣播至其他視頻終端。
[0021]在第一種可能的實現(xiàn)方式中,所述將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行疊加處理具體為:在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù);將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行混合編碼處理。
[0022]結合第二方面或者第二方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述計算所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子之后還包括:根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或,根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
[0023]結合第二方面的第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子具體為:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子。
[0024]結合第二方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為預設第二調節(jié)因子具體為:根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
[0025]結合第二方面的第四種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中,所述下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的;所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
[0026]第三方面,本發(fā)明實施例提供了 一種視音頻信息的處理裝置,所述裝置包括:
[0027]采集單元,用于采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息,以及將所述視音頻數(shù)據(jù)傳輸至處理單元,將所述當前圖像幀以及所述當前聲音信息傳輸至獲取單元;
[0028]獲取單元,用于接收所述采集單元發(fā)送的所述當前圖像幀以及所述當前聲音信息,獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子,以及將所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子傳輸至處理單元;
[0029]處理單元,用于接收所述采集單元發(fā)送的所述視音頻數(shù)據(jù)以及所述獲取單元發(fā)送的所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子,將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息,以及將所述視音頻信息發(fā)送至所述發(fā)送單元;
[0030]發(fā)送單元,用于接收所述處理單元發(fā)送的所述視音頻信息,發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。
[0031]在第一種可能的實現(xiàn)方式中,所述處理單元具體用于:在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù);將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行混合編碼處理。
[0032]結合第三方面或者第三方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述裝置還包括:預估單元,用于根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或,根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子
[0033]結合第三方面的第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述預估單元具體用于:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子;根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
[0034]結合第三方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的;所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
[0035]結合第三方面,在第五種可能的實現(xiàn)方式中,所述裝置還包括:接收單元,用于接收所述MCU發(fā)送的所述視音頻數(shù)據(jù)的全局參數(shù)調節(jié)因子;所述處理單元具體用于:將所述采集到的視音頻數(shù)據(jù)和所述全局參數(shù)調節(jié)因子對應的視音頻數(shù)據(jù)與以下數(shù)據(jù)中的至少一個進行疊加處理:所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)。
[0036]第四方面,本發(fā)明實施例提供了 一種視音頻信息的處理裝置,所述裝置包括:
[0037]接收單元,用于接收視頻終端發(fā)送的視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息,將所述視音頻數(shù)據(jù)傳輸至處理單元,將所述當前圖像幀和所述當前聲音信息傳輸至獲取單元;
[0038]獲取單元,用于接收所述接收單元發(fā)送的所述當前圖像幀和所述當前聲音信息,獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子,將所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子傳輸至處理單元;
[0039]處理單元,用于接收所述接收單元發(fā)送的所述視音頻數(shù)據(jù),以及所述獲取單元發(fā)送的所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子,將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息,將所述視音頻信息傳輸至發(fā)送單元;
[0040]發(fā)送單元,用于接收所述處理單元發(fā)送的所述視音頻信息,將所述視音頻信息廣播至其他視頻終端。
[0041]在第一種可能的實現(xiàn)方式中,所述處理單元具體用于:在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù);將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行混合編碼處理。
[0042]結合第四方面或者第四方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述裝置還包括:預估單元,用于根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或,根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
[0043]結合第四方面的第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的;所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
[0044]第五方面,本發(fā)明實施例提供了一種視音頻信息的處理系統(tǒng),所述系統(tǒng)包括上述視音頻信息的處理裝置。
[0045]本發(fā)明實施例中,視頻終端采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息;獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子;將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息;發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。由此,本發(fā)明實施例實現(xiàn)了根據(jù)獲取的視音頻數(shù)據(jù)中的目標對象的特征值對視音頻數(shù)據(jù)添加相應的符號信息,更好地表達了視頻會議中會議的情緒和氛圍。
【專利附圖】
【附圖說明】
[0046]圖1為本發(fā)明實施例提供的一種視音頻信息的處理方法的應用場景圖;
[0047]圖2為本發(fā)明實施例提供的一種視音頻信息的處理方法流程圖;
[0048]圖3為本發(fā)明實施例提供的另一視音頻信息的處理方法流程圖;
[0049]圖4為本發(fā)明實施例提供的一種視音頻信息的處理裝置示意圖;
[0050]圖5為本發(fā)明實施例提供的另一視音頻信息的處理裝置示意圖;
[0051]圖6為本發(fā)明實施例提供的一種視頻終端示意圖;
[0052]圖7為本發(fā)明實施例提供的一種MCU示意圖。
【具體實施方式】
[0053]為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0054]圖1為本發(fā)明實施例提供的一種視音頻信息的處理方法的應用場景圖。本發(fā)明實施例提供的視音頻信息的處理方法、裝置和系統(tǒng)在實際應用時,作為一種新的視音頻信息的處理方法可應用于可以通過識別情緒和氛圍來表達情感的場景,如廣播電視、可視電話、網(wǎng)絡視頻、無線通訊等場景。如圖1所示,本發(fā)明實施例提供的應用場景中,視頻終端I采集視音頻數(shù)據(jù)后,根據(jù)視音頻數(shù)據(jù)中的目標對象的特征值獲取第一調節(jié)因子,根據(jù)聲音信息獲取第二調節(jié)因子,根據(jù)第一調節(jié)因子和第二調節(jié)因子對視音頻數(shù)據(jù)進行相應的處理,然后通過多點控制器(Multiple Control Unit,MCU)將處理后的視音頻數(shù)據(jù)廣播至其他視頻終端,如視頻終端2、視頻終端3、...、視頻終端n,當然視頻終端I也可將獲取的視音頻數(shù)據(jù)以及第一調節(jié)因子和第二調節(jié)因子發(fā)送至MCU,由MCU對視音頻數(shù)據(jù)進行處理并將處理后的視音頻數(shù)據(jù)廣播至其他視頻終端。同樣,其他視頻終端獲取的視音頻數(shù)據(jù)也可以通過同樣的方式進行處理。由此,本發(fā)明實施例實現(xiàn)了根據(jù)獲取的視音頻數(shù)據(jù)中的目標對象的特征值和/或聲音信息對視音頻數(shù)據(jù)進行相應的處理。
[0055]需要說明的是,本發(fā)明實施例所提供的方法可應用于廣播電視、可視電話、網(wǎng)絡視頻、無線通訊、視頻會議等場景,下面的實施例以視頻會議這個應用場景為例來介紹本發(fā)明的詳細技術方案,但是這只是本發(fā)明的具體實施例,不用于限定本發(fā)明的保護范圍。
[0056]圖2為本發(fā)明實施例提供的一種視音頻信息的處理方法流程圖。該實施例的執(zhí)行主體是視頻終端,其中詳細描述了視頻終端對采集到的視音頻數(shù)據(jù)進行處理的方法。如圖2所示,該實施例包括以下步驟:
[0057]步驟201,采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信
肩、O
[0058]不同地理位置的與會人員可通過MCU召開一個視頻會議,各會場的視頻終端可通過聲音識別、視頻識別、語言識別等來采集各會場的視音頻數(shù)據(jù),在該視音頻數(shù)據(jù)中提取圖像幀和聲音信息,并將提取的圖像幀和聲音信息保存在內部存儲器件中。
[0059]當然,視頻終端可以每隔一定的時間提取圖像幀和聲音信息,用以視頻終端通過后面接收的技術方案對該提取的圖像幀和聲音信息進行分析,以獲取對應的視第二調節(jié)因子。其中,每隔一定的時間中時間的長短可由用戶根據(jù)需要設定。另外,對圖像幀的提取時間間隔和對聲音信息的提取時間間隔也可不同。
[0060]步驟202,獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子。
[0061]視頻終端可以對獲取到的圖像幀中的目標對象進行識別,這里的目標對象可包括與會人員、會場的橫幅等于會議相關的信息,主要是指與會人員。其中,與會人員的當前特征值可為與會人員的相貌信息、表情信息、動作信息等。
[0062]具體地,圖像幀中可包括人臉區(qū)域,要獲取當前圖像幀中的目標對象的當前特征值,首先可識別圖像幀中的人臉區(qū)域,然后將人臉區(qū)域劃分為多個分區(qū),如可以劃分為眼睛分區(qū)、鼻子分區(qū)、嘴唇分區(qū)、牙齒分區(qū)、舌頭分區(qū)。然后提取各個分區(qū)的特征值,如嘴唇分區(qū)的特征值可以為上下嘴唇之間的距離、嘴角上揚的幅度等,牙齒分區(qū)的特征值可以為露出的牙齒的數(shù)量,舌頭分區(qū)的特征值可以為露出的舌頭的面積或部位等等。
[0063]對人臉區(qū)域進行分區(qū)劃分后,為了便于提取并保存每個分區(qū)的特征值,通過各個分區(qū)的特征值可以判斷與會人員的相貌信息、表情信息、動作信息等,即獲取目標對象的特征值。
[0064]為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,視頻終端數(shù)據(jù)庫中保存了目標對象的特征值與第一調節(jié)因子的映射關系,以及聲音信息與第二調節(jié)因子的映射關系。視頻終端可以在獲取到圖像幀中目標對象的特征值和聲音信息時,從該數(shù)據(jù)庫中檢索出與當前特征值對應的當前第一調節(jié)因子和/或所述當前聲音信息對應的當前第二調節(jié)因子。當然,視頻終端也中也可以不保存該數(shù)據(jù)庫,在需要獲取與目標對象的特征值對應的第一調節(jié)因子和與聲音信息對應的第二調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0065]其中,第一調節(jié)因子可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于圖像幀中某個與會人的“大笑”面部表情,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0066]當然,對于相同的面部表情,在數(shù)據(jù)庫中可以對應多個信息,如對于一個面部表情,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出?!按笮Ρ砬椤睂男β暱梢詮哪幸魩臁⑴魩?、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0067]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0068]第二調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于音頻信息中某個與會人的“大笑”聲音,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0069]當然,對于相同的笑聲,在數(shù)據(jù)庫中可以對應多個信息,如對于一個大笑的聲音,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出?!按笮Ρ砬椤睂男β暱梢詮哪幸魩臁⑴魩?、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0070]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0071]優(yōu)選地,所述獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子之后還包括:根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或,根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
[0072]所述預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子具體為:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子。
[0073]所述根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為預設第二調節(jié)因子具體為:根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
[0074]具體地,為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,本地數(shù)據(jù)庫中好保存了預估關聯(lián)數(shù)據(jù)庫,該預估關聯(lián)數(shù)據(jù)庫中保存了第一調節(jié)因子與預估第一調節(jié)因子的映射關系,以及第二調節(jié)因子與預估第二調節(jié)因子的映射關系。在獲取到圖像幀中目標對象的特征值和聲音信息時,從該預估關聯(lián)數(shù)據(jù)庫中檢索出與當前第一調節(jié)因子的預估第一調節(jié)因子和/或所述當前聲音信息對應的預估第二調節(jié)因子。當然,視頻終端也中也可以不保存該預估關聯(lián)數(shù)據(jù)庫,在需要獲取與當前第一調節(jié)因子和當前第二調節(jié)因子對應的預估調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0075]其中,下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的;所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
[0076]具體地,在當前圖像幀對應的時間后的預設時間范圍內,如果通過視音頻數(shù)據(jù)檢測到目標對象的情緒與預估的第一調節(jié)因子對應的視音頻數(shù)據(jù)發(fā)生沖突,則忽略預估的第一調節(jié)因子,下一個圖像幀的第一調節(jié)因子只為根據(jù)檢測到的下一個圖像幀的特征值計算出的檢測第一調節(jié)因子。例如,如果當前圖像幀中某個與會人員是微笑的表情,則可以預估該與會人員在5s后是大笑的表情。但是如果在第3s時,該與會人員的情緒變?yōu)閼嵟?,則需要改變所預估的5s的大笑表情。當然,如果在預設時間范圍內,通過采集的視音頻數(shù)據(jù)沒有檢測到目標對象的表情與預估第一調節(jié)因子對應的表情沒有沖突,則下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的預設第一調節(jié)因子。
[0077]當然,對于下一個圖像幀也可以不提前預估相應的第一調節(jié)因子或者第二調節(jié)因子,而是采用與獲取當前圖像幀和當前聲音信息一致的方式來獲取相應的調節(jié)因子。
[0078]步驟203,將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息。
[0079]所述將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理具體為:在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù);將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行混合編碼處理。
[0080]優(yōu)選地,該方法還包括:接收所述MCU發(fā)送的所述視音頻數(shù)據(jù)的全局參數(shù)調節(jié)因子;所述將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述采集到的視音頻數(shù)據(jù)進行疊加處理具體為:將所述采集到的視音頻數(shù)據(jù)和所述全局參數(shù)調節(jié)因子對應的視音頻數(shù)據(jù)與以下數(shù)據(jù)中的至少一個進行疊加處理:所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)。
[0081]具體地,各個會場的視頻終端通過MCU召開一個視頻會議時,MCU可向各個會場的視頻終端發(fā)送一個全局參數(shù)調節(jié)因子,即根據(jù)該視頻會議的主題以及當天的環(huán)境信息,MCU可預設一個全局參數(shù)調節(jié)因子。該全局參數(shù)調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù)。例如,MCU可根據(jù)視頻會議的主題,以及視頻終端所處環(huán)境光線的變化、環(huán)境溫度的變化、環(huán)境聲音分貝的變化、天氣的變化等設置一個全局參數(shù)調節(jié)因子,用來對視頻終端所采集的視音頻數(shù)據(jù)進行處理。如果MCU將該全局參數(shù)調節(jié)因子發(fā)送給了各個視頻終端,則各個視頻終端可以根據(jù)該全局參數(shù)調節(jié)因子對視音頻數(shù)據(jù)進行處理,如果MCU沒有將該全局參數(shù)調節(jié)因子發(fā)送給各個視頻終端,則在視頻終端將視音頻數(shù)據(jù)發(fā)送給MCU時,MCU可以根據(jù)該全局參數(shù)調節(jié)因子對接收到的視音頻數(shù)據(jù)進行處理。
[0082]步驟204,發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。
[0083]視頻終端對視頻數(shù)據(jù)進行處理得到視音頻信息后,可對該視音頻信息進行編碼處理并發(fā)送到MCU,MCU接收到該視音頻信息后,可將該視音頻信息通過廣播的方式發(fā)送至參加會議的其他會場的視頻終端,由其他視頻終端將該視音頻數(shù)據(jù)顯示出來。
[0084]由此,視頻終端采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息;獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子;將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息;發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。由此,本發(fā)明實施例實現(xiàn)了根據(jù)獲取的視音頻數(shù)據(jù)中的目標對象的特征值對視音頻數(shù)據(jù)添加相應的符號信息,更好地表達了視頻會議中會議的情緒和氛圍。
[0085]對視音頻數(shù)據(jù)進行處理的功能也可由MCU來完成,上述實施例描述了視頻終端對采集到的視音頻數(shù)據(jù)進行處理的方法,下述實施例描述MCU對視頻終端采集到的視音頻數(shù)據(jù)進行處理的方法。
[0086]圖3為本發(fā)明實施例提供的另一視音頻信息的處理方法流程圖。該實施例的執(zhí)行主體是多點控制器MCU,其中詳細描述了 MCU對視頻終端采集到的視音頻數(shù)據(jù)進行處理的方法。如圖3所示,該實施例包括以下步驟:
[0087]步驟301,接收視頻終端發(fā)送的視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息。
[0088]不同地理位置的與會人員可通過MCU召開一個視頻會議,各會場的視頻終端可通過聲音識別、視頻識別、語言識別等來采集各會場的視音頻數(shù)據(jù),在該視音頻數(shù)據(jù)中提取圖像幀和聲音信息,并將提取的圖像幀和聲音信息保存在內部存儲器件中。
[0089]當然,視頻終端可以將該視音頻數(shù)據(jù)發(fā)送至MCU,MCU可以每隔一定的時間提取圖像幀和聲音信息,并通過后面的技術方案對該提取的圖像幀和聲音信息進行分析,以獲取對應的視第二調節(jié)因子。其中,每隔一定的時間中時間的長短可由用戶根據(jù)需要設定。另夕卜,對圖像幀的提取時間間隔和對聲音信息的提取時間間隔也可不同。
[0090]步驟302,獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子。
[0091]MCU可以對獲取到的圖像幀中的目標對象進行識別,這里的目標對象可包括與會人員、會場的橫幅等于會議相關的信息,主要是指與會人員。其中,與會人員的當前特征值可為與會人員的相貌信息、表情信息、動作信息等。
[0092]具體地,圖像幀中可包括人臉區(qū)域,要獲取當前圖像幀中的目標對象的當前特征值,首先可識別圖像幀中的人臉區(qū)域,然后將人臉區(qū)域劃分為多個分區(qū),如可以劃分為眼睛分區(qū)、鼻子分區(qū)、嘴唇分區(qū)、牙齒分區(qū)、舌頭分區(qū)。然后提取各個分區(qū)的特征值,如嘴唇分區(qū)的特征值可以為上下嘴唇之間的距離、嘴角上揚的幅度等,牙齒分區(qū)的特征值可以為露出的牙齒的數(shù)量,舌頭分區(qū)的特征值可以為露出的舌頭的面積或部位等等。
[0093]對人臉區(qū)域進行分區(qū)劃分后,為了便于提取并保存每個分區(qū)的特征值,通過各個分區(qū)的特征值可以判斷與會人員的相貌信息、表情信息、動作信息等,即獲取目標對象的特征值。
[0094]為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,視頻終端數(shù)據(jù)庫中保存了目標對象的特征值與第一調節(jié)因子的映射關系,以及聲音信息與第二調節(jié)因子的映射關系。視頻終端可以在獲取到圖像幀中目標對象的特征值和聲音信息時,從該數(shù)據(jù)庫中檢索出與當前特征值對應的當前第一調節(jié)因子和/或所述當前聲音信息對應的當前第二調節(jié)因子。當然,視頻終端也中也可以不保存該數(shù)據(jù)庫,在需要獲取與目標對象的特征值對應的第一調節(jié)因子和與聲音信息對應的第二調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0095]其中,第一調節(jié)因子可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于圖像幀中某個與會人的“大笑”面部表情,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0096]當然,對于相同的面部表情,在數(shù)據(jù)庫中可以對應多個信息,如對于一個面部表情,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出。“大笑表情”對應的笑聲可以從男音庫、女音庫、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0097]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0098]第二調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于音頻信息中某個與會人的“大笑”聲音,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0099]當然,對于相同的笑聲,在數(shù)據(jù)庫中可以對應多個信息,如對于一個大笑的聲音,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出?!按笮Ρ砬椤睂男β暱梢詮哪幸魩?、女音庫、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。[0100]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0101]優(yōu)選地,所述獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子之后還包括:根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或,根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
[0102]所述預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子具體為:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子。
[0103]所述根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為預設第二調節(jié)因子具體為:根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
[0104]具體地,為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,本地數(shù)據(jù)庫中好保存了預估關聯(lián)數(shù)據(jù)庫,該預估關聯(lián)數(shù)據(jù)庫中保存了第一調節(jié)因子與預估第一調節(jié)因子的映射關系,以及第二調節(jié)因子與預估第二調節(jié)因子的映射關系。在獲取到圖像幀中目標對象的特征值和聲音信息時,從該預估關聯(lián)數(shù)據(jù)庫中檢索出與當前第一調節(jié)因子的預估第一調節(jié)因子和/或所述當前聲音信息對應的預估第二調節(jié)因子。當然,視頻終端也中也可以不保存該預估關聯(lián)數(shù)據(jù)庫,在需要獲取與當前第一調節(jié)因子和當前第二調節(jié)因子對應的預估調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0105]其中,下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的;所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
[0106]具體地,在當前圖像幀對應的時間后的預設時間范圍內,如果通過視音頻數(shù)據(jù)檢測到目標對象的情緒與預估的第一調節(jié)因子對應的視音頻數(shù)據(jù)發(fā)生沖突,則忽略預估的第一調節(jié)因子,下一個圖像幀的第一調節(jié)因子只為根據(jù)檢測到的下一個圖像幀的特征值計算出的檢測第一調節(jié)因子。例如,如果當前圖像幀中某個與會人員是微笑的表情,則可以預估該與會人員在5s后是大笑的表情。但是如果在第3s時,該與會人員的情緒變?yōu)閼嵟瑒t需要改變所預估的5s的大笑表情。當然,如果在預設時間范圍內,通過采集的視音頻數(shù)據(jù)沒有檢測到目標對象的表情與預估第一調節(jié)因子對應的表情沒有沖突,則下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的預設第一調節(jié)因子。
[0107]當然,對于下一個圖像幀也可以不提前預估相應的第一調節(jié)因子或者第二調節(jié)因子,而是采用與獲取當前圖像幀和當前聲音信息一致的方式來獲取相應的調節(jié)因子。
[0108]步驟303,將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息。
[0109]所述將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理具體為:在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù);將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行混合編碼處理。
[0110]具體地,各個會場的視頻終端通過MCU召開一個視頻會議時,MCU可向各個會場的視頻終端發(fā)送一個全局參數(shù)調節(jié)因子,即根據(jù)該視頻會議的主題以及當天的環(huán)境信息,MCU可預設一個全局參數(shù)調節(jié)因子。該全局參數(shù)調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,MCU可根據(jù)視頻會議的主題,以及視頻終端所處環(huán)境光線的變化、環(huán)境溫度的變化、環(huán)境聲音分貝的變化、天氣的變化等設置一個全局參數(shù)調節(jié)因子,用來對視頻終端所采集的視音頻數(shù)據(jù)進行處理。如果MCU將該全局參數(shù)調節(jié)因子發(fā)送給了各個視頻終端,則各個視頻終端可以根據(jù)該全局參數(shù)調節(jié)因子對視音頻數(shù)據(jù)進行處理,如果MCU沒有將該全局參數(shù)調節(jié)因子發(fā)送給各個視頻終端,則在視頻終端將視音頻數(shù)據(jù)發(fā)送給MCU時,MCU可以根據(jù)該全局參數(shù)調節(jié)因子對接收到的視音頻數(shù)據(jù)進行處理。
[0111]步驟304,將所述視音頻信息廣播至其他視頻終端。
[0112]由此,本發(fā)明實施例實現(xiàn)了根據(jù)獲取的視音頻數(shù)據(jù)中的目標對象的特征值對視音頻數(shù)據(jù)添加相應的符號信息,更好地表達了視頻會議中會議的情緒和氛圍。
[0113]相應地,本發(fā)明實施例還提供了一種視音頻信息的處理裝置。圖4為本發(fā)明實施例提供的一種視音頻信息的處理裝置示意圖。如圖4所示,該裝置包括:
[0114]采集單元401,用于采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息,以及將所述視音頻數(shù)據(jù)傳輸至處理單元,將所述當前圖像幀以及所述當前聲音信息傳輸至獲取單元。
[0115]不同地理位置的與會人員可通過MCU召開一個視頻會議,各會場的視頻終端可通過聲音識別、視頻識別、語言識別等來采集各會場的視音頻數(shù)據(jù),在該視音頻數(shù)據(jù)中提取圖像幀和聲音信息,并將提取的圖像幀和聲音信息保存在內部存儲器件中。
[0116]當然,視頻終端可以每隔一定的時間提取圖像幀和聲音信息,用以視頻終端通過后面接收的技術方案對該提取的圖像幀和聲音信息進行分析,以獲取對應的視第二調節(jié)因子。其中,每隔一定的時間中時間的長短可由用戶根據(jù)需要設定。另外,對圖像幀的提取時間間隔和對聲音信息的提取時間間隔也可不同。
[0117]獲取單元402,用于接收所述采集單元發(fā)送的所述當前圖像幀以及所述當前聲音信息,獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子,以及將所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子傳輸至處理單元。
[0118]視頻終端可以對獲取到的圖像幀中的目標對象進行識別,這里的目標對象可包括與會人員、會場的橫幅等于會議相關的信息,主要是指與會人員。其中,與會人員的當前特征值可為與會人員的相貌信息、表情信息、動作信息等。
[0119]具體地,圖像幀中可包括人臉區(qū)域,要獲取當前圖像幀中的目標對象的當前特征值,首先可識別圖像幀中的人臉區(qū)域,然后將人臉區(qū)域劃分為多個分區(qū),如可以劃分為眼睛分區(qū)、鼻子分區(qū)、嘴唇分區(qū)、牙齒分區(qū)、舌頭分區(qū)。然后提取各個分區(qū)的特征值,如嘴唇分區(qū)的特征值可以為上下嘴唇之間的距離、嘴角上揚的幅度等,牙齒分區(qū)的特征值可以為露出的牙齒的數(shù)量,舌頭分區(qū)的特征值可以為露出的舌頭的面積或部位等等。
[0120]對人臉區(qū)域進行分區(qū)劃分后,為了便于提取并保存每個分區(qū)的特征值,通過各個分區(qū)的特征值可以判斷與會人員的相貌信息、表情信息、動作信息等,即獲取目標對象的特征值。
[0121]為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,視頻終端數(shù)據(jù)庫中保存了目標對象的特征值與第一調節(jié)因子的映射關系,以及聲音信息與第二調節(jié)因子的映射關系。視頻終端可以在獲取到圖像幀中目標對象的特征值和聲音信息時,從該數(shù)據(jù)庫中檢索出與當前特征值對應的當前第一調節(jié)因子和/或所述當前聲音信息對應的當前第二調節(jié)因子。當然,視頻終端也中也可以不保存該數(shù)據(jù)庫,在需要獲取與目標對象的特征值對應的第一調節(jié)因子和與聲音信息對應的第二調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0122]其中,第一調節(jié)因子可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于圖像幀中某個與會人的“大笑”面部表情,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0123]當然,對于相同的面部表情,在數(shù)據(jù)庫中可以對應多個信息,如對于一個面部表情,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出?!按笮Ρ砬椤睂男β暱梢詮哪幸魩?、女音庫、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0124]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0125]第二調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于音頻信息中某個與會人的“大笑”聲音,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0126]當然,對于相同的笑聲,在數(shù)據(jù)庫中可以對應多個信息,如對于一個大笑的聲音,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出?!按笮Ρ砬椤睂男β暱梢詮哪幸魩臁⑴魩?、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0127]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0128]處理單元403,用于接收所述采集單元發(fā)送的所述視音頻數(shù)據(jù)以及所述獲取單元發(fā)送的所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子,將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息,以及將所述視音頻信息發(fā)送至所述發(fā)送單元。
[0129]處理單元403具體用于:在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù);將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行混合編碼處理。
[0130]發(fā)送單元404,用于接收所述處理單元發(fā)送的所述視音頻信息,發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。
[0131]優(yōu)選地,本發(fā)明實施例還包括:預估單元405,用于根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或,根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
[0132]預估單元405具體用于:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子;根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
[0133]所述下一個圖像幀的第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的下一個圖像幀的檢測第一調節(jié)因子與所述下一個圖像幀的所述預設第一調節(jié)因子的疊加值;所述下一個聲音信息的第二調節(jié)因子為根據(jù)檢測到的下一個聲音信息計算出的檢測下一個聲音信息的第二調節(jié)因子與所述下一個聲音信息的所述預設第二調節(jié)因子的疊加值。
[0134]具體地,為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,本地數(shù)據(jù)庫中好保存了預估關聯(lián)數(shù)據(jù)庫,該預估關聯(lián)數(shù)據(jù)庫中保存了第一調節(jié)因子與預估第一調節(jié)因子的映射關系,以及第二調節(jié)因子與預估第二調節(jié)因子的映射關系。在獲取到圖像幀中目標對象的特征值和聲音信息時,從該預估關聯(lián)數(shù)據(jù)庫中檢索出與當前第一調節(jié)因子的預估第一調節(jié)因子和/或所述當前聲音信息對應的預估第二調節(jié)因子。當然,視頻終端也中也可以不保存該預估關聯(lián)數(shù)據(jù)庫,在需要獲取與當前第一調節(jié)因子和當前第二調節(jié)因子對應的預估調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0135]其中,下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的;所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
[0136]具體地,在當前圖像幀對應的時間后的預設時間范圍內,如果通過視音頻數(shù)據(jù)檢測到目標對象的情緒與預估的第一調節(jié)因子對應的視音頻數(shù)據(jù)發(fā)生沖突,則忽略預估的第一調節(jié)因子,下一個圖像幀的第一調節(jié)因子只為根據(jù)檢測到的下一個圖像幀的特征值計算出的檢測第一調節(jié)因子。例如,如果當前圖像幀中某個與會人員是微笑的表情,則可以預估該與會人員在5s后是大笑的表情。但是如果在第3s時,該與會人員的情緒變?yōu)閼嵟?,則需要改變所預估的5s的大笑表情。當然,如果在預設時間范圍內,通過采集的視音頻數(shù)據(jù)沒有檢測到目標對象的表情與預估第一調節(jié)因子對應的表情沒有沖突,則下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的預設第一調節(jié)因子。
[0137]當然,對于下一個圖像幀也可以不提前預估相應的第一調節(jié)因子或者第二調節(jié)因子,而是采用與獲取當前圖像幀和當前聲音信息一致的方式來獲取相應的調節(jié)因子。
[0138]優(yōu)選地,本發(fā)明實施例還包括:接收單元406,用于接收所述MCU發(fā)送的所述視音頻數(shù)據(jù)的全局參數(shù)調節(jié)因子。處理單元403具體用于:所述處理單元具體用于:將所述采集到的視音頻數(shù)據(jù)和所述全局參數(shù)調節(jié)因子對應的視音頻數(shù)據(jù)與以下數(shù)據(jù)中的至少一個進行疊加處理:所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)。
[0139]具體地,各個會場的視頻終端通過MCU召開一個視頻會議時,MCU可向各個會場的視頻終端發(fā)送一個全局參數(shù)調節(jié)因子,即根據(jù)該視頻會議的主題以及當天的環(huán)境信息,MCU可預設一個全局參數(shù)調節(jié)因子。該全局參數(shù)調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù)。例如,MCU可根據(jù)視頻會議的主題,以及視頻終端所處環(huán)境光線的變化、環(huán)境溫度的變化、環(huán)境聲音分貝的變化、天氣的變化等設置一個全局參數(shù)調節(jié)因子,用來對視頻終端所采集的視音頻數(shù)據(jù)進行處理。如果MCU將該全局參數(shù)調節(jié)因子發(fā)送給了各個視頻終端,則各個視頻終端可以根據(jù)該全局參數(shù)調節(jié)因子對視音頻數(shù)據(jù)進行處理,如果MCU沒有將該全局參數(shù)調節(jié)因子發(fā)送給各個視頻終端,則在視頻終端將視音頻數(shù)據(jù)發(fā)送給MCU時,MCU可以根據(jù)該全局參數(shù)調節(jié)因子對接收到的視音頻數(shù)據(jù)進行處理。
[0140]由此,本發(fā)明實施例實現(xiàn)了根據(jù)獲取的視音頻數(shù)據(jù)中的目標對象的特征值對視音頻數(shù)據(jù)添加相應的符號信息,更好地表達了視頻會議中會議的情緒和氛圍。
[0141]相應地,本發(fā)明還提供了一種視音頻信息的處理裝置。圖5為本發(fā)明實施例提供的另一視音頻信息的處理裝置示意圖。如圖5所示,該實施例包括:
[0142]接收單元501,用于接收視頻終端發(fā)送的視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息,將所述視音頻數(shù)據(jù)傳輸至處理單元,將所述當前圖像幀和所述當前聲音信息傳輸至獲取單元。
[0143]獲取單元502,用于接收所述接收單元發(fā)送的所述當前圖像幀和所述當前聲音信息,獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子,將所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子傳輸至處理單元。
[0144]MCU可以對獲取到的圖像幀中的目標對象進行識別,這里的目標對象可包括與會人員、會場的橫幅等于會議相關的信息,主要是指與會人員。其中,與會人員的當前特征值可為與會人員的相貌信息、表情信息、動作信息等。
[0145]具體地,圖像幀中可包括人臉區(qū)域,要獲取當前圖像幀中的目標對象的當前特征值,首先可識別圖像幀中的人臉區(qū)域,然后將人臉區(qū)域劃分為多個分區(qū),如可以劃分為眼睛分區(qū)、鼻子分區(qū)、嘴唇分區(qū)、牙齒分區(qū)、舌頭分區(qū)。然后提取各個分區(qū)的特征值,如嘴唇分區(qū)的特征值可以為上下嘴唇之間的距離、嘴角上揚的幅度等,牙齒分區(qū)的特征值可以為露出的牙齒的數(shù)量,舌頭分區(qū)的特征值可以為露出的舌頭的面積或部位等等。[0146]對人臉區(qū)域進行分區(qū)劃分后,為了便于提取并保存每個分區(qū)的特征值,通過各個分區(qū)的特征值可以判斷與會人員的相貌信息、表情信息、動作信息等,即獲取目標對象的特征值。
[0147]為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,視頻終端數(shù)據(jù)庫中保存了目標對象的特征值與第一調節(jié)因子的映射關系,以及聲音信息與第二調節(jié)因子的映射關系。視頻終端可以在獲取到圖像幀中目標對象的特征值和聲音信息時,從該數(shù)據(jù)庫中檢索出與當前特征值對應的當前第一調節(jié)因子和/或所述當前聲音信息對應的當前第二調節(jié)因子。當然,視頻終端也中也可以不保存該數(shù)據(jù)庫,在需要獲取與目標對象的特征值對應的第一調節(jié)因子和與聲音信息對應的第二調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0148]其中,第一調節(jié)因子可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于圖像幀中某個與會人的“大笑”面部表情,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0149]當然,對于相同的面部表情,在數(shù)據(jù)庫中可以對應多個信息,如對于一個面部表情,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出。“大笑表情”對應的笑聲可以從男音庫、女音庫、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0150]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0151]第二調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于音頻信息中某個與會人的“大笑”聲音,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0152]當然,對于相同的笑聲,在數(shù)據(jù)庫中可以對應多個信息,如對于一個大笑的聲音,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出?!按笮Ρ砬椤睂男β暱梢詮哪幸魩?、女音庫、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0153]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0154]處理單元503,用于接收所述接收單元發(fā)送的所述視音頻數(shù)據(jù),以及所述獲取單元發(fā)送的所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子,將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息,將所述視音頻信息傳輸至發(fā)送單元。
[0155]處理單元503具體用于:在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù);將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行混合編碼處理。
[0156]具體地,各個會場的視頻終端通過MCU召開一個視頻會議時,MCU可向各個會場的視頻終端發(fā)送一個全局參數(shù)調節(jié)因子,即根據(jù)該視頻會議的主題以及當天的環(huán)境信息,MCU可預設一個全局參數(shù)調節(jié)因子。該全局參數(shù)調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,MCU可根據(jù)視頻會議的主題,以及視頻終端所處環(huán)境光線的變化、環(huán)境溫度的變化、環(huán)境聲音分貝的變化、天氣的變化等設置一個全局參數(shù)調節(jié)因子,用來對視頻終端所采集的視音頻數(shù)據(jù)進行處理。如果MCU將該全局參數(shù)調節(jié)因子發(fā)送給了各個視頻終端,則各個視頻終端可以根據(jù)該全局參數(shù)調節(jié)因子對視音頻數(shù)據(jù)進行處理,如果MCU沒有將該全局參數(shù)調節(jié)因子發(fā)送給各個視頻終端,則在視頻終端將視音頻數(shù)據(jù)發(fā)送給MCU時,MCU可以根據(jù)該全局參數(shù)調節(jié)因子對接收到的視音頻數(shù)據(jù)進行處理。
[0157]發(fā)送單元504,用于接收所述處理單元發(fā)送的所述視音頻信息,將所述視音頻信息廣播至其他視頻終端。
[0158]優(yōu)選地,所述裝置還包括:預估單元505,用于根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或,根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
[0159]預估單元505具體用于:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子;根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
[0160]所述下一個圖像幀的第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的下一個圖像幀的檢測第一調節(jié)因子與所述下一個圖像幀的所述預設第一調節(jié)因子的疊加值;所述下一個聲音信息的第二調節(jié)因子為根據(jù)檢測到的下一個聲音信息計算出的檢測下一個聲音信息的第二調節(jié)因子與所述下一個聲音信息的所述預設第二調節(jié)因子的疊加值。
[0161]具體地,為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,本地數(shù)據(jù)庫中好保存了預估關聯(lián)數(shù)據(jù)庫,該預估關聯(lián)數(shù)據(jù)庫中保存了第一調節(jié)因子與預估第一調節(jié)因子的映射關系,以及第二調節(jié)因子與預估第二調節(jié)因子的映射關系。在獲取到圖像幀中目標對象的特征值和聲音信息時,從該預估關聯(lián)數(shù)據(jù)庫中檢索出與當前第一調節(jié)因子的預估第一調節(jié)因子和/或所述當前聲音信息對應的預估第二調節(jié)因子。當然,視頻終端也中也可以不保存該預估關聯(lián)數(shù)據(jù)庫,在需要獲取與當前第一調節(jié)因子和當前第二調節(jié)因子對應的預估調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0162]其中,下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的;所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
[0163]具體地,在當前圖像幀對應的時間后的預設時間范圍內,如果通過視音頻數(shù)據(jù)檢測到目標對象的情緒與預估的第一調節(jié)因子對應的視音頻數(shù)據(jù)發(fā)生沖突,則忽略預估的第一調節(jié)因子,下一個圖像幀的第一調節(jié)因子只為根據(jù)檢測到的下一個圖像幀的特征值計算出的檢測第一調節(jié)因子。例如,如果當前圖像幀中某個與會人員是微笑的表情,則可以預估該與會人員在5s后是大笑的表情。但是如果在第3s時,該與會人員的情緒變?yōu)閼嵟瑒t需要改變所預估的5s的大笑表情。當然,如果在預設時間范圍內,通過采集的視音頻數(shù)據(jù)沒有檢測到目標對象的表情與預估第一調節(jié)因子對應的表情沒有沖突,則下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的預設第一調節(jié)因子。
[0164]當然,對于下一個圖像幀也可以不提前預估相應的第一調節(jié)因子或者第二調節(jié)因子,而是采用與獲取當前圖像幀和當前聲音信息一致的方式來獲取相應的調節(jié)因子。
[0165]由此,本發(fā)明實施例實現(xiàn)了根據(jù)獲取的視音頻數(shù)據(jù)中的目標對象的特征值對視音頻數(shù)據(jù)添加相應的符號信息,更好地表達了視頻會議中會議的情緒和氛圍。
[0166]相應地,本發(fā)明實施例還提供了一種視頻終端。圖6為本發(fā)明實施例提供的一種視頻終端示意圖,如圖6所示,本視頻終端包括存儲器601、處理器602、網(wǎng)絡接口 603。系統(tǒng)總線604用于連接網(wǎng)絡接口 603、處理器602和存儲器601。網(wǎng)絡接口 603用于與MCU通?目。
[0167]存儲器601可以是永久存儲器,例如硬盤驅動器和閃存,存儲器601中具有應用程序,在啟動時,應用程序被加載到存儲器601中,然后被處理器602訪問并執(zhí)行以下過程的指令:`
[0168]采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息;
[0169]獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子;
[0170]將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息;
[0171]發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。
[0172]視頻終端可以對獲取到的圖像幀中的目標對象進行識別,這里的目標對象可包括與會人員、會場的橫幅等于會議相關的信息,主要是指與會人員。其中,與會人員的當前特征值可為與會人員的相貌信息、表情信息、動作信息等。
[0173]具體地,圖像幀中可包括人臉區(qū)域,要獲取當前圖像幀中的目標對象的當前特征值,首先可識別圖像幀中的人臉區(qū)域,然后將人臉區(qū)域劃分為多個分區(qū),如可以劃分為眼睛分區(qū)、鼻子分區(qū)、嘴唇分區(qū)、牙齒分區(qū)、舌頭分區(qū)。然后提取各個分區(qū)的特征值,如嘴唇分區(qū)的特征值可以為上下嘴唇之間的距離、嘴角上揚的幅度等,牙齒分區(qū)的特征值可以為露出的牙齒的數(shù)量,舌頭分區(qū)的特征值可以為露出的舌頭的面積或部位等等。
[0174]對人臉區(qū)域進行分區(qū)劃分后,為了便于提取并保存每個分區(qū)的特征值,通過各個分區(qū)的特征值可以判斷與會人員的相貌信息、表情信息、動作信息等,即獲取目標對象的特征值。
[0175]為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,視頻終端數(shù)據(jù)庫中保存了目標對象的特征值與第一調節(jié)因子的映射關系,以及聲音信息與第二調節(jié)因子的映射關系。視頻終端可以在獲取到圖像幀中目標對象的特征值和聲音信息時,從該數(shù)據(jù)庫中檢索出與當前特征值對應的當前第一調節(jié)因子和/或所述當前聲音信息對應的當前第二調節(jié)因子。當然,視頻終端也中也可以不保存該數(shù)據(jù)庫,在需要獲取與目標對象的特征值對應的第一調節(jié)因子和與聲音信息對應的第二調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0176]其中,第一調節(jié)因子可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于圖像幀中某個與會人的“大笑”面部表情,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0177]當然,對于相同的面部表情,在數(shù)據(jù)庫中可以對應多個信息,如對于一個面部表情,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出?!按笮Ρ砬椤睂男β暱梢詮哪幸魩?、女音庫、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0178]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0179]第二調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于音頻信息中某個與會人的“大笑”聲音,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0180]當然,對于相同的笑聲,在數(shù)據(jù)庫中可以對應多個信息,如對于一個大笑的聲音,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出?!按笮Ρ砬椤睂男β暱梢詮哪幸魩?、女音庫、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0181]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0182]優(yōu)選地,所述獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子之后還包括:根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或,根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
[0183]所述預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子具體為:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子。
[0184]所述根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為預設第二調節(jié)因子具體為:根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
[0185]具體地,為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,本地數(shù)據(jù)庫中好保存了預估關聯(lián)數(shù)據(jù)庫,該預估關聯(lián)數(shù)據(jù)庫中保存了第一調節(jié)因子與預估第一調節(jié)因子的映射關系,以及第二調節(jié)因子與預估第二調節(jié)因子的映射關系。在獲取到圖像幀中目標對象的特征值和聲音信息時,從該預估關聯(lián)數(shù)據(jù)庫中檢索出與當前第一調節(jié)因子的預估第一調節(jié)因子和/或所述當前聲音信息對應的預估第二調節(jié)因子。當然,視頻終端也中也可以不保存該預估關聯(lián)數(shù)據(jù)庫,在需要獲取與當前第一調節(jié)因子和當前第二調節(jié)因子對應的預估調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0186]在當前圖像幀對應的時間后的預設時間范圍內,如果通過視音頻數(shù)據(jù)檢測到目標對象的情緒與預估的第一調節(jié)因子對應的視音頻數(shù)據(jù)發(fā)生沖突,則更換預估的第一調節(jié)因子。例如,如果當前圖像幀中某個與會人員是微笑的表情,則可以預估該與會人員在5s后是大笑的表情。但是如果在第3s時,該與會人員的情緒變?yōu)閼嵟?,則需要改變所預估的5s的大笑表情。
[0187]具體地,各個會場的視頻終端通過MCU召開一個視頻會議時,MCU可向各個會場的視頻終端發(fā)送一個全局參數(shù)調節(jié)因子,即根據(jù)該視頻會議的主題以及當天的環(huán)境信息,MCU可預設一個全局參數(shù)調節(jié)因子。該全局參數(shù)調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù)。例如,MCU可根據(jù)視頻會議的主題,以及視頻終端所處環(huán)境光線的變化、環(huán)境溫度的變化、環(huán)境聲音分貝的變化、天氣的變化等設置一個全局參數(shù)調節(jié)因子,用來對視頻終端所采集的視音頻數(shù)據(jù)進行處理。如果MCU將該全局參數(shù)調節(jié)因子發(fā)送給了各個視頻終端,則各個視頻終端可以根據(jù)該全局參數(shù)調節(jié)因子對視音頻數(shù)據(jù)進行處理,如果MCU沒有將該全局參數(shù)調節(jié)因子發(fā)送給各個視頻終端,則在視頻終端將視音頻數(shù)據(jù)發(fā)送給MCU時,MCU可以根據(jù)該全局參數(shù)調節(jié)因子對接收到的視音頻數(shù)據(jù)進行處理。
[0188]由此,本發(fā)明實施例實現(xiàn)了根據(jù)獲取的視音頻數(shù)據(jù)中的目標對象的特征值對視音頻數(shù)據(jù)添加相應的符號信息,更好地表達了視頻會議中會議的情緒和氛圍。
[0189]相應地,本發(fā)明實施例還提供了一種MCU。圖7為本發(fā)明實施例提供的一種MCU示意圖。如圖7所示,MCU包括存儲器701、處理器702、網(wǎng)絡接口 703。系統(tǒng)總線704用于連接網(wǎng)絡接口 703、處理器702和存儲器701。網(wǎng)絡接口 703用于與各個會場的視頻終端通信。
[0190]存儲器701可以是永久存儲器,例如硬盤驅動器和閃存,存儲器701中具有應用程序,在啟動時,應用程序被加載到存儲器701中,然后被處理器702訪問并執(zhí)行以下過程的指令:[0191]接收視頻終端發(fā)送的視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲
音信息;
[0192]獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子;
[0193]將全局參數(shù)因子對應的圖像數(shù)據(jù)和/或音頻數(shù)據(jù)、所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息;
[0194]將所述視音頻信息廣播至其他視頻終端。
[0195]MCU可以對獲取到的圖像幀中的目標對象進行識別,這里的目標對象可包括與會人員、會場的橫幅等于會議相關的信息,主要是指與會人員。其中,與會人員的當前特征值可為與會人員的相貌信息、表情信息、動作信息等。
[0196]具體地,圖像幀中可包括人臉區(qū)域,要獲取當前圖像幀中的目標對象的當前特征值,首先可識別圖像幀中的人臉區(qū)域,然后將人臉區(qū)域劃分為多個分區(qū),如可以劃分為眼睛分區(qū)、鼻子分區(qū)、嘴唇分區(qū)、牙齒分區(qū)、舌頭分區(qū)。然后提取各個分區(qū)的特征值,如嘴唇分區(qū)的特征值可以為上下嘴唇之間的距離、嘴角上揚的幅度等,牙齒分區(qū)的特征值可以為露出的牙齒的數(shù)量,舌頭分區(qū)的特征值可以為露出的舌頭的面積或部位等等。
[0197]對人臉區(qū)域進行分區(qū)劃分后,為了便于提取并保存每個分區(qū)的特征值,通過各個分區(qū)的特征值可以判斷與會人員的相貌信息、表情信息、動作信息等,即獲取目標對象的特征值。
[0198]為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,視頻終端數(shù)據(jù)庫中保存了目標對象的特征值與第一調節(jié)因子的映射關系,以及聲音信息與第二調節(jié)因子的映射關系。視頻終端可以在獲取到圖像幀中目標對象的特征值和聲音信息時,從該數(shù)據(jù)庫中檢索出與當前特征值對應的當前第一調節(jié)因子和/或所述當前聲音信息對應的當前第二調節(jié)因子。當然,視頻終端也中也可以不保存該數(shù)據(jù)庫,在需要獲取與目標對象的特征值對應的第一調節(jié)因子和與聲音信息對應的第二調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0199]其中,第一調節(jié)因子可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于圖像幀中某個與會人的“大笑”面部表情,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0200]當然,對于相同的面部表情,在數(shù)據(jù)庫中可以對應多個信息,如對于一個面部表情,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出?!按笮Ρ砬椤睂男β暱梢詮哪幸魩?、女音庫、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0201]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0202]第二調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,對于音頻信息中某個與會人的“大笑”聲音,可以在數(shù)據(jù)庫中檢索出“大笑表情”符號以及“大笑表情”對應的笑聲,并將該“大笑表情”符號添加在視頻中該與會人旁邊,將該聲音笑聲添加在背景聲音中。
[0203]當然,對于相同的笑聲,在數(shù)據(jù)庫中可以對應多個信息,如對于一個大笑的聲音,可以從數(shù)據(jù)庫中檢索出多種表情符號或笑聲聲音。具體地,根據(jù)該與會人的相貌信息,該“大笑表情”符號可以為相貌信息對應的卡通人物的大笑表情。大笑表情對應的大笑表情符號可以從動物表情庫、卡通表情庫、人物表情庫、搞笑表情庫、科技表情庫等等數(shù)據(jù)庫中檢索出?!按笮Ρ砬椤睂男β暱梢詮哪幸魩臁⑴魩?、小孩音庫、卡通庫等數(shù)據(jù)庫中檢索出。
[0204]具體使用哪種表情庫或聲音庫,可以由用戶根據(jù)視頻會議的類型預先進行設置。例如,對于“慶功”會議類型可以對應卡通庫或動物庫,以增加會議的喜悅氣氛。
[0205]優(yōu)選地,所述獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子之后還包括:根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或,根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
[0206]所述預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子具體為:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子。
[0207]所述根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為預設第二調節(jié)因子具體為:根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
[0208]具體地,為了實現(xiàn)本發(fā)明的技術方案,在實際應用中,本地數(shù)據(jù)庫中好保存了預估關聯(lián)數(shù)據(jù)庫,該預估關聯(lián)數(shù)據(jù)庫中保存了第一調節(jié)因子與預估第一調節(jié)因子的映射關系,以及第二調節(jié)因子與預估第二調節(jié)因子的映射關系。在獲取到圖像幀中目標對象的特征值和聲音信息時,從該預估關聯(lián)數(shù)據(jù)庫中檢索出與當前第一調節(jié)因子的預估第一調節(jié)因子和/或所述當前聲音信息對應的預估第二調節(jié)因子。當然,視頻終端也中也可以不保存該預估關聯(lián)數(shù)據(jù)庫,在需要獲取與當前第一調節(jié)因子和當前第二調節(jié)因子對應的預估調節(jié)因子時,視頻終端可以自動從網(wǎng)絡服務器的數(shù)據(jù)庫中獲取。
[0209]在當前圖像幀對應的時間后的預設時間范圍內,如果通過視音頻數(shù)據(jù)檢測到目標對象的情緒與預估的第一調節(jié)因子對應的視音頻數(shù)據(jù)發(fā)生沖突,則更換預估的第一調節(jié)因子。例如,如果當前圖像幀中某個與會人員是微笑的表情,則可以預估該與會人員在5s后是大笑的表情。但是如果在第3s時,該與會人員的情緒變?yōu)閼嵟瑒t需要改變所預估的5s的大笑表情。
[0210]所述將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理具體為:在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù);將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行混合編碼處理。
[0211]具體地,各個會場的視頻終端通過MCU召開一個視頻會議時,MCU可向各個會場的視頻終端發(fā)送一個全局參數(shù)調節(jié)因子,即根據(jù)該視頻會議的主題以及當天的環(huán)境信息,MCU可預設一個全局參數(shù)調節(jié)因子。該全局參數(shù)調節(jié)因子也可以為對視頻進行調節(jié)的參數(shù)和/或對音頻進行調節(jié)的參數(shù),可以在本地數(shù)據(jù)庫或者網(wǎng)絡服務器中相應的情緒數(shù)據(jù)庫中查詢第一調節(jié)因子對應的用來表達與會人情緒的圖標,或查詢第二調節(jié)因子對應的用來表達與會人情緒的聲音。例如,MCU可根據(jù)視頻會議的主題,以及視頻終端所處環(huán)境光線的變化、環(huán)境溫度的變化、環(huán)境聲音分貝的變化、天氣的變化等設置一個全局參數(shù)調節(jié)因子,用來對視頻終端所采集的視音頻數(shù)據(jù)進行處理。如果MCU將該全局參數(shù)調節(jié)因子發(fā)送給了各個視頻終端,則各個視頻終端可以根據(jù)該全局參數(shù)調節(jié)因子對視音頻數(shù)據(jù)進行處理,如果MCU沒有將該全局參數(shù)調節(jié)因子發(fā)送給各個視頻終端,則在視頻終端將視音頻數(shù)據(jù)發(fā)送給MCU時,MCU可以根據(jù)該全局參數(shù)調節(jié)因子對接收到的視音頻數(shù)據(jù)進行處理。
[0212]由此,本發(fā)明實施例實現(xiàn)了根據(jù)獲取的視音頻數(shù)據(jù)中的目標對象的特征值對視音頻數(shù)據(jù)添加相應的符號信息,更好地表達了視頻會議中會議的情緒和氛圍。
[0213]本發(fā)明實施例還提供了一種視音頻信息的處理系統(tǒng),該系統(tǒng)植入了本發(fā)明實施例的視音頻信息的處理方法,包括視音頻信息的處理裝置,還包括其他的視頻終端。在該視音頻信息的處理系統(tǒng)中,視頻終端采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息;獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子;將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息;發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。另外,本系統(tǒng)中,MCU也可接收視頻終端發(fā)送的視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息;獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子;將全局參數(shù)因子對應的圖像數(shù)據(jù)和/或音頻數(shù)據(jù)、所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息;將所述視音頻信息廣播至其他視頻終端。由此,本發(fā)明實施例實現(xiàn)了根據(jù)獲取的視音頻數(shù)據(jù)中的目標對象的特征值對視音頻數(shù)據(jù)添加相應的符號信息,更好地表達了視頻會議中會議的情緒和氛圍。因此,本發(fā)明實施例提供的視音頻信息的處理系統(tǒng)也在本專利申請的保護范圍內。
[0214]專業(yè)人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。
[0215]結合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結合來實施。軟件模塊可以置于隨機存儲器(RAM)、內存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或【技術領域】內所公知的任意其它形式的存儲介質中。
[0216]以上所述的【具體實施方式】,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的【具體實施方式】而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【權利要求】
1.一種視音頻信息的處理方法,其特征在于,所述方法包括: 采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息; 獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子; 將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述采集到的視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息; 發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。
2.根據(jù)權利要求1所述的視音頻信息的處理方法,其特征在于,所述將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理具體為: 在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù); 將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行混合編碼處理。
3.根據(jù)權利要求1或2所述的視音頻信息的處理方法,其特征在于,所述獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子之后還包括: 根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下 一個圖像幀的預設第一調節(jié)因子;和/或, 根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
4.根據(jù)權利要求3所述的視音頻信息的處理方法,其特征在于,所述預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子具體為:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子。
5.根據(jù)權利要求4所述的視音頻信息的處理方法,其特征在于,所述根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為預設第二調節(jié)因子具體為:根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
6.根據(jù)權利要求5所述的視音頻信息的處理方法,其特征在于,所述下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的; 所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
7.根據(jù)權利要求1所述的視音頻信息的處理方法,其特征在于,所述方法還包括:接收所述MCU發(fā)送的所述視音頻數(shù)據(jù)的全局參數(shù)調節(jié)因子; 所述將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述采集到的視音頻數(shù)據(jù)進行疊加處理具體為:將所述采集到的視音頻數(shù)據(jù)和所述全局參數(shù)調節(jié)因子對應的視音頻數(shù)據(jù)與以下數(shù)據(jù)中的至少一個進行疊加處理:所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)。
8.一種視音頻信息的處理方法,其特征在于,所述方法包括: 接收視頻終端發(fā)送的視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息; 獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子; 將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息; 將所述視音頻信息廣播至其他視頻終端。
9.根據(jù)權利要求8所述的視音頻信息的處理方法,其特征在于,所述將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行疊加處理具體為: 在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù); 將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行混合編碼處理?!?br>
10.根據(jù)權利要求8或9所述的視音頻信息的處理方法,其特征在于,所述獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子之后還包括: 根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或, 根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
11.根據(jù)權利要求10所述的視音頻信息的處理方法,其特征在于,所述預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子具體為:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子。
12.根據(jù)權利要求11所述的視音頻信息的處理方法,其特征在于,所述根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為預設第二調節(jié)因子具體為:根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
13.根據(jù)權利要求12所述的視音頻信息的處理方法,其特征在于,所述下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的; 所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
14.一種視音頻信息的處理裝置,其特征在于,所述裝置包括: 采集單元,用于采集視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息,以及將所述視音頻數(shù)據(jù)傳輸至處理單元,將所述當前圖像幀以及所述當前聲音信息傳輸至獲取單元; 獲取單元,用于接收所述采集單元發(fā)送的所述當前圖像幀以及所述當前聲音信息,獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子,以及將所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子傳輸至處理單元; 處理單元,用于接收所述采集單元發(fā)送的所述視音頻數(shù)據(jù)以及所述獲取單元發(fā)送的所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子,將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息,以及將所述視音頻信息發(fā)送至所述發(fā)送單元; 發(fā)送單元,用于接收所述處理單元發(fā)送的所述視音頻信息,發(fā)送所述視音頻信息至多點控制單元MCU,用以所述MCU將所述視音頻信息廣播至其他視頻終端。
15.根據(jù)權利要求14所述的視音頻信息的處理裝置,其特征在于,所述處理單元具體用于: 在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù); 將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述視音頻數(shù)據(jù)進行混合 編碼處理。
16.根據(jù)權利要求14或15所述的視音頻信息的處理裝置,其特征在于,所述裝置還包括: 預估單元,用于根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或, 根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
17.根據(jù)權利要求16所述的視音頻信息的處理裝置,其特征在于,所述預估單元具體用于: 根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子; 根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
18.根據(jù)權利要求17所述的視音頻信息的處理裝置,其特征在于,所述下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的; 所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
19.根據(jù)權利要求14所述的視音頻信息的處理裝置,其特征在于,所述裝置還包括:接收單元,用于接收所述MCU發(fā)送的所述視音頻數(shù)據(jù)的全局參數(shù)調節(jié)因子; 所述處理單元具體用于:將所述采集到的視音頻數(shù)據(jù)和所述全局參數(shù)調節(jié)因子對應的視音頻數(shù)據(jù)與以下數(shù)據(jù)中的至少一個進行疊加處理:所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)。
20.一種視音頻信息的處理裝置,其特征在于,所述裝置包括: 接收單元,用于接收視頻終端發(fā)送的視音頻數(shù)據(jù),在所述視音頻數(shù)據(jù)中提取當前圖像幀和當前聲音信息,將所述視音頻數(shù)據(jù)傳輸至處理單元,將所述當前圖像幀和所述當前聲音信息傳輸至獲取單元; 獲取單元,用于接收所述接收單元發(fā)送的所述當前圖像幀和所述當前聲音信息,獲取所述當前圖像幀中的目標對象的當前特征值對應的當前第一調節(jié)因子,和/或所述當前聲音信息對應的當前第二調節(jié)因子,將所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子傳輸至處理單元; 處理單元,用于接收所述接收單元發(fā)送的所述視音頻數(shù)據(jù),以及所述獲取單元發(fā)送的所述當前第一調節(jié)因子和/或所述當前第二調節(jié)因子,將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行疊加處理,得到視音頻信息,將所述視音頻信息傳輸至發(fā)送單元; 發(fā)送單元,用于接收所述處理單元發(fā)送的所述視音頻信息,將所述視音頻信息廣播至其他視頻終端?!?br>
21.根據(jù)權利要求20所述的視音頻信息的處理裝置,其特征在于,所述處理單元具體用于: 在本地數(shù)據(jù)庫或網(wǎng)絡服務器中查詢所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)、所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù); 將所述當前第一調節(jié)因子對應的視音頻數(shù)據(jù)和/或所述當前第二調節(jié)因子對應的視音頻數(shù)據(jù)與所述全局參數(shù)因子對應的視音頻數(shù)據(jù)、所述接收到的視音頻數(shù)據(jù)進行混合編碼處理。
22.根據(jù)權利要求20或21所述的視音頻信息的處理裝置,其特征在于,所述裝置還包括:預估單元,用于根據(jù)所述當前第一調節(jié)因子,預估所述當前圖像幀的下一個圖像幀的特征值對應的第一調節(jié)因子,作為下一個圖像幀的預設第一調節(jié)因子;和/或, 根據(jù)所述當前第二調節(jié)因子,預估所述當前聲音的下一個聲音信息對應的第二調節(jié)因子,作為下一個聲音信息對應的預設第二調節(jié)因子。
23.根據(jù)權利要求22所述的視音頻信息的處理裝置,其特征在于,所述預估單元具體用于:根據(jù)所述當前第一調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第一調節(jié)因子對應的所述預設第一調節(jié)因子; 根據(jù)所述當前第二調節(jié)因子,在所述預估關聯(lián)數(shù)據(jù)庫中查詢所述當前第二調節(jié)因子對應的所述預設第二調節(jié)因子。
24.根據(jù)權利要求23所述的視音頻信息的處理裝置,其特征在于,所述下一個圖像幀的第一調節(jié)因子為所述下一個圖像幀的所述預設第一調節(jié)因子與檢測第一調節(jié)因子的疊加值,所述檢測第一調節(jié)因子為根據(jù)檢測到的下一個圖像幀的特征值計算出的; 所述下一個聲音信息的第二調節(jié)因子為所述下一個聲音信息的所述預設第二調節(jié)因子與檢測第二因子的疊加值,所述檢測第二因子為根據(jù)檢測到的下一個聲音信息計算出的。
25.—種視音頻信息的處理系統(tǒng),其特征在于,所述系統(tǒng)包括如權利要求13-24任一項所述的視音頻信息的 處理裝置。
【文檔編號】H04N7/15GK103856742SQ201210523813
【公開日】2014年6月11日 申請日期:2012年12月7日 優(yōu)先權日:2012年12月7日
【發(fā)明者】王玉茂, 楊海曜 申請人:華為技術有限公司