視頻與音頻處理裝置及其視頻會議系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出一種視頻會議系統(tǒng),其包括至少一客戶端裝置以及可連線于客戶端裝置與遠(yuǎn)端裝置的主機(jī)裝置。主機(jī)裝置將取得至少一筆候選視頻數(shù)據(jù)以及多筆待整合音頻數(shù)據(jù),根據(jù)待整合音頻數(shù)據(jù)篩選出其中一筆候選視頻數(shù)據(jù),并且整合待整合音頻數(shù)據(jù),以及將整合后的音頻數(shù)據(jù)以及篩選后的視頻數(shù)據(jù)傳送至遠(yuǎn)端裝置,其中待整合音頻數(shù)據(jù)包括客戶端音頻數(shù)據(jù)以及主機(jī)音頻數(shù)據(jù),候選視頻數(shù)據(jù)包括至少其中一筆客戶端視頻數(shù)據(jù)以及主機(jī)視頻數(shù)據(jù)。本發(fā)明還提出分別對應(yīng)于客戶端裝置以及遠(yuǎn)端裝置的視頻與音頻處理裝置。
【專利說明】
視頻與音頻處理裝置及其視頻會議系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明是有關(guān)于一種視頻與音頻處理的技術(shù),且特別是有關(guān)于一種視頻與音頻處理裝置及其視頻會議系統(tǒng)。
【背景技術(shù)】
[0002]隨著電子科技以及通信網(wǎng)絡(luò)不斷地發(fā)展,視頻的硬設(shè)備、軟件技術(shù)及操作功能已大幅提升?,F(xiàn)今的視頻可隨時提供多個用戶通過例如是計算機(jī)、智能型手機(jī)、平板計算機(jī)等電子裝置進(jìn)行同步連線,以讓用戶之間在進(jìn)行語音通話時,還可以通過屏幕看到其它用戶的動態(tài)圖像,從而增強(qiáng)交流的真實感以及臨場感?;耍曨l會議已應(yīng)用于商業(yè)溝通上,借此企業(yè)得以進(jìn)行跨地域的內(nèi)外部溝通。
[0003]然而,一般在進(jìn)行多人對多人的視頻會議時,往往會因為視頻設(shè)備的鏡頭廣角或是麥克風(fēng)的收音范圍不足而導(dǎo)致所有人必須緊靠在視頻設(shè)備,進(jìn)而影響到了視頻會議的質(zhì)量與效率。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明提供一種視頻與音頻處理裝置及其視頻會議系統(tǒng),其可提供具有主講者聚焦效果的多人視頻會議。
[0005]本發(fā)明提出一種視頻與音頻處理裝置,包括通信電路、圖像捕獲設(shè)備、收音裝置、存儲器以及處理器。通信電路用以連線至另一視頻與音頻處理裝置。圖像捕獲設(shè)備用以擷取圖像信號。收音裝置用以擷取聲音信號。存儲器用以儲存檔案數(shù)據(jù)。處理器耦接通信電路、圖像捕獲設(shè)備、收音裝置以及存儲器,并且用以執(zhí)行下列步驟。首先,自圖像捕獲設(shè)備以及收音裝置分別接收第一圖像信號以及第一聲音信號,以產(chǎn)生第一視頻數(shù)據(jù)以及第一音頻數(shù)據(jù)。接著,判斷第一音頻數(shù)據(jù)是否符合至少一傳輸條件。若是,通過通信電路將第一音頻數(shù)據(jù)以及第一視頻數(shù)據(jù)傳送至另一視頻與音頻處理裝置。若否,通過通信電路僅將第一音頻數(shù)據(jù)傳送至另一視頻與音頻處理裝置。
[0006]在本發(fā)明的一實施例中,視頻與音頻處理裝置還包括屏幕以及播音裝置。屏幕用以顯示畫面,而播音裝置用以播放聲音。處理器還耦接屏幕以及播音裝置,并且用以通過通信電路自另一視頻與音頻處理裝置接收遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù),以及分別通過屏幕以及播音裝置播放遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù)。
[0007]在本發(fā)明的一實施例中,第一音頻數(shù)據(jù)包括音頻頻率,而處理器用以判斷音頻頻率是否符合人聲頻率。
[0008]在本發(fā)明的一實施例中,第一音頻數(shù)據(jù)還包括收音裝置的收音音量,而處理器還用以判斷收音音量是否大于音量門限值。
[0009]在本發(fā)明的一實施例中,第一音頻數(shù)據(jù)還包括收音裝置的收音噪聲比,而處理器還用以判斷該收音噪聲比是否大于噪聲比門限值。
[0010]本發(fā)明提出一種視頻與音頻處理裝置,包括通信電路、圖像捕獲設(shè)備、收音裝置、存儲器以及處理器。通信電路用以連線至另一視頻與音頻處理裝置。圖像捕獲設(shè)備用以擷取圖像信號。收音裝置用以擷取聲音信號。存儲器用以儲存檔案數(shù)據(jù)。處理器接屏幕、通信電路、圖像捕獲設(shè)備、收音裝置、播音裝置以及存儲器,并且用以執(zhí)行下列步驟。首先,取得至少一筆候選視頻數(shù)據(jù)以及多筆待整合音頻數(shù)據(jù),其中各筆候選視頻數(shù)據(jù)對應(yīng)于其中一筆所述待整合音頻數(shù)據(jù)。接著,根據(jù)各筆候選視頻數(shù)據(jù)所對應(yīng)的待整合音頻數(shù)據(jù),選擇其中一筆候選視頻數(shù)據(jù),以產(chǎn)生篩選后的視頻數(shù)據(jù),并且整合各筆待整合音頻數(shù)據(jù),以產(chǎn)生整合后的音頻數(shù)據(jù)。通過通信電路將整合后的音頻數(shù)據(jù)以及篩選后的視頻數(shù)據(jù)傳送至遠(yuǎn)端裝置。
[0011]在本發(fā)明的一實施例中,處理器更用以通過通信電路自遠(yuǎn)端裝置接收遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù),并且通過通信電路傳輸遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù)至各個其它視頻與音頻處理裝置。
[0012]在本發(fā)明的一實施例中,視頻與音頻處理裝置還包括屏幕以及播音裝置。屏幕用以顯示畫面,而播音裝置用以播放所接收的聲音數(shù)據(jù)。處理器還耦接屏幕以及播音裝置,并且用以分別通過屏幕以及播音裝置播放遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù)。
[0013]在本發(fā)明的一實施例中,各筆待整合音頻數(shù)據(jù)包括收音音量,而處理器用以選擇具有最大收音音量的待整合音頻數(shù)據(jù)所對應(yīng)的候選視頻數(shù)據(jù)作為篩選后的視頻數(shù)據(jù)。
[0014]在本發(fā)明的一實施例中,各筆待整合音頻數(shù)據(jù)包括收音噪聲比,而處理器用以選擇具有最大收音噪聲比的待整合音頻數(shù)據(jù)所對應(yīng)的候選視頻數(shù)據(jù)作為篩選后的視頻數(shù)據(jù)。
[0015]在本發(fā)明的一實施例中,各所述待整合音頻數(shù)據(jù)包括收音時間,而處理器用以選擇具有最長收音時間的待整合音頻數(shù)據(jù)所對應(yīng)的候選視頻數(shù)據(jù)作為篩選后的視頻數(shù)據(jù)。
[0016]在本發(fā)明的一實施例中,各所述待整合音頻數(shù)據(jù)包括收音時間,而處理器用以選擇收音時間大于時間門限值的音頻數(shù)據(jù)所對應(yīng)的候選視頻數(shù)據(jù)作為篩選后的視頻數(shù)據(jù)。
[0017]在本發(fā)明的一實施例中,處理器用以針對各筆待整合音頻數(shù)據(jù)進(jìn)行混音處理以及/或除噪處理,以產(chǎn)生整合后的音頻數(shù)據(jù)。
[0018]在本發(fā)明的一實施例中,處理器更用以執(zhí)行下列步驟。自圖像捕獲設(shè)備以及收音裝置分別接收第二圖像信號以及第二聲音信號,以產(chǎn)生第二視頻數(shù)據(jù)以及第二音頻數(shù)據(jù)。接著,判斷第二音頻數(shù)據(jù)是否符合至少一傳輸條件。若是,分別設(shè)定第二視頻數(shù)據(jù)以及第二音頻數(shù)據(jù)為其中一筆候選視頻數(shù)據(jù)以及其中一筆待整合音頻數(shù)據(jù)。若否,僅設(shè)定第二音頻數(shù)據(jù)為其中一筆待整合音頻數(shù)據(jù)。
[0019]在本發(fā)明的一實施例中,第二音頻數(shù)據(jù)包括音頻頻率,而處理器用以判斷音頻頻率是否符合人聲頻率。
[0020]在本發(fā)明的一實施例中,第二音頻數(shù)據(jù)還包括收音裝置的收音音量,而處理器更用以判斷收音音量是否大于音量門限值。
[0021]在本發(fā)明的一實施例中,第二音頻數(shù)據(jù)還包括收音裝置的收音噪聲比,而處理器更用以判斷收音音量是否大于音量門限值。
[0022]本發(fā)明提出一種視頻與音頻處理裝置,包括至少一客戶端裝置以及可連線于客戶端裝置與遠(yuǎn)端裝置的主機(jī)裝置。各個客戶端裝置將分別產(chǎn)生客戶端視頻數(shù)據(jù)以及客戶端音頻數(shù)據(jù)。主機(jī)裝置將取得至少一筆候選視頻數(shù)據(jù)以及多筆待整合音頻數(shù)據(jù),根據(jù)待整合音頻數(shù)據(jù)選擇其中一筆候選視頻數(shù)據(jù),以產(chǎn)生篩選后的視頻數(shù)據(jù),并且整合各筆待整合音頻數(shù)據(jù),以及將整合后的音頻數(shù)據(jù)以及篩選后的視頻數(shù)據(jù)傳送至遠(yuǎn)端裝置,其中待整合音頻數(shù)據(jù)包括客戶端音頻數(shù)據(jù)以及主機(jī)音頻數(shù)據(jù),候選視頻數(shù)據(jù)包括至少其中一筆客戶端視頻數(shù)據(jù)以及主機(jī)視頻數(shù)據(jù),各筆候選視頻數(shù)據(jù)對應(yīng)于其中一筆所述音頻數(shù)據(jù)。
[0023]在本發(fā)明的一實施例中,對于各個客戶端裝置將判斷客戶端音頻數(shù)據(jù)是否符合至少一傳輸條件,若是,客戶端裝置將客戶端音頻數(shù)據(jù)以及客戶端視頻數(shù)據(jù)傳送至主機(jī)裝置,若否,客戶端裝置僅將客戶端音頻數(shù)據(jù)傳送至主機(jī)裝置。
[0024]在本發(fā)明的一實施例中,主機(jī)裝置還自遠(yuǎn)端裝置接收遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù),并且傳送遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù)至各所述客戶端裝置。
[0025]基于上述,本發(fā)明所提出的視頻與音頻處理裝置及其視頻會議系統(tǒng),主機(jī)裝置除了將整合本地端所產(chǎn)生的各筆音頻數(shù)據(jù)并且傳送整合后的音頻數(shù)據(jù)至遠(yuǎn)端裝置外,還根據(jù)各筆音頻數(shù)據(jù)的聲音參數(shù)來傳送其中一筆視頻數(shù)據(jù)至遠(yuǎn)端裝置,以使本地端在具有多個視頻會議參與者的前提下,遠(yuǎn)端裝置的用戶視覺仍可聚焦于本地端的主講者上,以提升視頻會議的質(zhì)量與效率。
[0026]為讓本發(fā)明的上述特征和優(yōu)點能更明顯易懂,下文特舉實施例,并配合所附附圖作詳細(xì)說明如下。
【附圖說明】
[0027]圖1A繪示依據(jù)本發(fā)明一實施例的視頻會議系統(tǒng)的示意圖。
[0028]圖1B繪示依據(jù)本發(fā)明一實施例的客戶端裝置的示意圖。
[0029]圖1C繪示依據(jù)本發(fā)明一實施例的主機(jī)裝置的示意圖。
[0030]圖2繪示依據(jù)本發(fā)明一實施例的音頻與視頻處理方法的流程圖。
[0031 ]圖3繪示依據(jù)本發(fā)明一實施例的音頻與視頻處理方法的流程圖。
[0032]圖4繪示依據(jù)本發(fā)明一實施例的音頻與視頻處理方法的流程圖。
[0033]圖5A繪示依據(jù)本發(fā)明一實施例的音頻與視頻處理方法的流程圖。
[0034]圖5B繪示圖5A的應(yīng)用情境示意圖。
[0035]【符號說明】
[0036]100:視頻會議系統(tǒng)
[0037]I1A?IlOD:客戶端裝置
[0038]W0:主機(jī)裝置
[0039]130:遠(yuǎn)端裝置
[0040]111、121:屏幕
[0041]112、122:通信電路
[0042]113、123:圖像捕獲設(shè)備
[0043]114、124:播音裝置
[0044]115、125:收音裝置
[0045]116、126:存儲器
[0046]117、127:處理器
[0047]S202?S208、S302?S308、S402?S408、S502?S512:
[0048]音頻與視頻處理方法的流程
[0049]C1、C2、H、R:用戶
[0050]VC1、VC2、VH、VR、M:音頻數(shù)據(jù)
[0051]LAN、WAN:網(wǎng)絡(luò)
【具體實施方式】
[0052]本發(fā)明的部分實施例接下來將會配合附圖來詳細(xì)描述,以下的描述所引用的元件符號,當(dāng)不同附圖出現(xiàn)相同的元件符號將視為相同或相似的元件。這些實施例只是本發(fā)明的一部分,并未揭示所有本發(fā)明的可實施方式。更確切的說,這些實施例只是本發(fā)明的權(quán)利要求中的裝置以及系統(tǒng)的范例。
[0053]圖1A繪示依據(jù)本發(fā)明一實施例的視頻會議系統(tǒng)的示意圖。
[0054]請參照圖1A,視頻會議系統(tǒng)100包括客戶端裝置IlOA?IlOD以及主機(jī)裝置120,其中主機(jī)裝置120可分別連線至客戶端裝置IlOA?IlOD以及遠(yuǎn)端裝置130??蛻舳搜b置IlOA?IlOD以及主機(jī)裝置120為本地端裝置,而客戶端裝置IlOA?IlOD可以是利用局域網(wǎng)絡(luò)與主機(jī)裝置120進(jìn)行無線連線,或者是直接與主機(jī)裝置120進(jìn)行有線連接。此外,主機(jī)裝置120可以是利用因特網(wǎng)與遠(yuǎn)端裝置130進(jìn)行連線。必須說明的是,視頻會議系統(tǒng)100中的客戶端裝置IlOA?IlOD僅是為了方便說明實作方式。在其它的實施例中,視頻會議系統(tǒng)100還可提供任意數(shù)量的客戶端裝置來與主機(jī)裝置120進(jìn)行連線,本發(fā)明不在此設(shè)限。
[0055]圖1B繪示依據(jù)本發(fā)明一實施例的客戶端裝置的示意圖。
[0056]請參照圖1B,客戶端裝置IlOA?IlOD皆包括屏幕111、通信電路112、圖像捕獲設(shè)備113、播音裝置114、收音裝置115、存儲器116以及處理器117。在本實施例中,客戶端裝置IlOA?IlOD例如是個人計算機(jī)、筆記本電腦、智能型手機(jī)、平板計算機(jī)、個人數(shù)字助理等具有音頻與視頻處理功能的電子裝置,然而本發(fā)明并不以此為限。為了方便說明,以下僅將針對客戶端裝置IlOA來進(jìn)行描述。
[0057]屏幕111用以顯示客戶端裝置IlOA輸出的畫面而提供給用戶觀看。在本實施例中,屏幕111例如是外接或是內(nèi)建于客戶端裝置I1A的液晶顯示器(Liquid Crystal Display,LCD)、發(fā)光二極管(Light-Emitting D1de,LED)顯示器、場發(fā)射顯示器(Field Emiss1nDisplay,F(xiàn)ED)或其他種類的顯示器。
[0058]通信電路112用以通過通信網(wǎng)絡(luò)與其它裝置連接,其可以例如是支持WiMAX通信協(xié)議、W1-Fi通信協(xié)議、3G通信協(xié)議、4G通信協(xié)議等無線網(wǎng)絡(luò)連線,ADSL寬帶或光纖網(wǎng)絡(luò)等有線網(wǎng)絡(luò)連線的元件,然而本發(fā)明不在此設(shè)限。
[0059]圖像捕獲設(shè)備113用以擷取其前方的圖像,其可以是采用電荷耦合元件(chargecoupled de V i ce,CCD)、互補(bǔ)性氧化金屬半導(dǎo)體(Comp I emen tary Metal-OxideSemiconductor,CMOS)元件或其他元件鏡頭的照相機(jī)。圖像捕獲設(shè)備113可以是內(nèi)建于客戶端裝置110A,也可以是外接于客戶端裝置110A的網(wǎng)絡(luò)攝影機(jī)、數(shù)字相機(jī)、單眼相機(jī)、數(shù)字?jǐn)z影機(jī)等。
[0060]播音裝置114用以播放聲音,其包括喇叭。收音裝置115用以接收聲音,其包括麥克風(fēng)。播音裝置114以及收音裝置115可以是內(nèi)建于客戶端裝置110A,也可以是外接于客戶端裝置110A。此外,當(dāng)播音裝置114以及收音裝置115外接于客戶端裝置110A時,更可以整合為例如是耳機(jī)麥克風(fēng)等單一裝置。
[0061]存儲器116用以儲存檔案資料,其可以例如是任意型式的固定式或可移動式隨機(jī)存取存儲器(Random Access Memory,RAM)、只讀存儲器(Read-Only Memory,ROM)、閃存(Flash memory)、硬盤或其他類似裝置或這些裝置的組合。
[0062]處理器117耦接于屏幕111、通信電路112、圖像捕獲設(shè)備113、播音裝置114、收音裝置115以及存儲器116,其用以控制以及整合此些元件之間的作動。處理器117可以例如是中央處理單元(Central Processing Unit,CPU),或是其他可編程的一般用途或特殊用途的微處理器(Microprocessor)、數(shù)字信號處理器(Digital Signal Processor ,DSP)、可編程控制器、特殊應(yīng)用集成電路(Applicat1n Specific Integrated Circuits,ASIC)、可編程邏輯設(shè)備(Programmable Logic Device,PLD)或其他類似裝置或這些裝置的組合。
[0063]除此之外,在一實施例中,客戶端裝置IlOA也可以是僅由通信電路112、圖像捕獲設(shè)備113、收音裝置115、存儲器116以及處理器117所組成的電子裝置,并且可外接于包括屏幕111以及播音裝置114的另一電子裝置(例如是電視)。
[0064]圖1C繪示依據(jù)本發(fā)明一實施例的主機(jī)裝置的示意圖。
[0065]請參照圖1C,主機(jī)裝置120包括屏幕121、通信電路122、圖像捕獲設(shè)備123、播音裝置124、收音裝置125、存儲器126以及處理器127。在本實施例中,主機(jī)裝置120也可以例如是個人計算機(jī)、筆記本電腦、智能型手機(jī)、平板計算機(jī)、個人數(shù)字助理等具有音頻與視頻處理功能的電子裝置,然而本發(fā)明并不以此為限。屏幕121、通信電路122、圖像捕獲設(shè)備123、播音裝置124、收音裝置125、存儲器126以及處理器127分別類似于圖1B中客戶端裝置110A?110D的屏幕111、通信電路112、圖像捕獲設(shè)備113、播音裝置114、收音裝置115、存儲器116以及處理器117,其相關(guān)說明請參照前述段落,于此不再贅述。
[0066]在本實施例中,視頻會議系統(tǒng)100的多個本地端裝置(即客戶端裝置110A?110D以及主機(jī)裝置120)與遠(yuǎn)端裝置130進(jìn)行視頻會議時,各個客戶端裝置110A?110D會將所產(chǎn)生的客戶端音頻數(shù)據(jù)傳送至主機(jī)裝置120,還會利用客戶端音頻數(shù)據(jù)決定是否進(jìn)一步將所產(chǎn)生的客戶端視頻數(shù)據(jù)傳送至主機(jī)裝置120。主機(jī)裝置120本身也會產(chǎn)生主機(jī)音頻數(shù)據(jù)以及主機(jī)視頻數(shù)據(jù)。之后,主機(jī)裝置120會整合音頻數(shù)據(jù)以及篩選視頻數(shù)據(jù),并且將整合后的音頻數(shù)據(jù)以及篩選后的視頻數(shù)據(jù)傳送到遠(yuǎn)端裝置130,據(jù)以實現(xiàn)具有主講者聚焦效果的視頻會議。以下將分別說明客戶端裝置110A?110D以及主機(jī)裝置120進(jìn)行音頻與視頻處理的具體方式。
[0067]圖2繪示依據(jù)本發(fā)明一實施例的音頻與視頻處理方法的流程圖。本實施例的方法適用于圖1B的客戶端裝置110A?110D,以下即搭配客戶端裝置110A中的各個元件說明其音頻與視頻處理方法的詳細(xì)步驟,而客戶端裝置110B?110D可依此類推。然而,就以實際操作上而言,本實施例的方法也適用于僅包括以通信電路112、圖像捕獲設(shè)備113、收音裝置115、存儲器116以及處理器117所組成的電子裝置,本發(fā)明不在此設(shè)限。
[0068]請同時參照圖1B以及圖2,首先,客戶端裝置110A的處理器117將自圖像捕獲設(shè)備113以及收音裝置115分別接收第一圖像信號以及第一聲音信號,以產(chǎn)生第一視頻數(shù)據(jù)以及第一音頻數(shù)據(jù)(步驟S202)。在此,第一圖像信號為圖像捕獲設(shè)備113所擷取到客戶端裝置110A的用戶的動態(tài)圖像,而第一聲音信號為收音裝置115所擷取到客戶端裝置110A的周遭環(huán)境聲音。處理器117可將圖像捕獲設(shè)備113以及收音裝置115所擷取到的第一圖像信號以及第一聲音信號進(jìn)行數(shù)字轉(zhuǎn)換,以產(chǎn)生第一視頻數(shù)據(jù)以及第一音頻數(shù)據(jù)。此外,處理器117也可選擇性地壓縮第一視頻數(shù)據(jù),以適應(yīng)后續(xù)網(wǎng)絡(luò)傳輸帶寬的不同需求,本發(fā)明不在此設(shè)限。
[0069]接著,處理器117將判斷第一音頻數(shù)據(jù)是否符合至少一傳輸條件(步驟S204),以通過第一音頻數(shù)據(jù)的聲音參數(shù)來判定收音裝置114所擷取到的第一聲音信號是否為客戶端裝置IlOA的用戶的說話聲以及判定客戶端裝置IlOA的用戶是否為視頻會議的可能主講者,從而判定第一音頻數(shù)據(jù)是否符合傳輸條件。在此的聲音參數(shù)可以是收音頻率、收音音量以及收音噪聲比等參數(shù)。
[0070]具體來說,在一實施例中,由于第一聲音信號為收音裝置115所擷取到的周遭環(huán)境聲音,因此處理器117會先判斷第一音頻數(shù)據(jù)的收音頻率是否符合人聲頻率。若是符合,則處理器117直接判定客戶端裝置IlOA的用戶為視頻會議的可能主講者。舉例而言,男性說話聲的頻率范圍為85?180Hz,女性說話聲的頻率范圍為165?255Hz,而處理器117可判斷第一音頻數(shù)據(jù)的收音頻率是否落入于此些區(qū)間內(nèi),藉以判定第一音頻數(shù)據(jù)是否對應(yīng)于人聲。當(dāng)?shù)谝灰纛l數(shù)據(jù)的收音頻率確實對應(yīng)于人聲時,則處理器117將判定其符合傳輸條件。
[0071 ]在一實施例中,處理器117在判定出第一音頻數(shù)據(jù)對應(yīng)于人聲后,還會判斷第一音頻數(shù)據(jù)的收音音量是否大于預(yù)設(shè)的音量門限值來判定客戶端裝置IlOA的用戶是否為視頻會議的可能主講者。一般而言,平常一般人說話的音量為60dB左右,而音量門限值可以例如是預(yù)設(shè)為55dB,以預(yù)留容許偵測誤差范圍。此外,處理器117也可根據(jù)隨時根據(jù)視頻會議的周圍環(huán)境或者是客戶端裝置IlOA的用戶的手動調(diào)整來更改預(yù)設(shè)的音量門限值。當(dāng)?shù)谝灰纛l數(shù)據(jù)的收音頻率確實對應(yīng)于人聲并且第一音頻數(shù)據(jù)的收音音量大于音量門限值時,則處理器117將判定其符合傳輸條件。
[0072]在一實施例中,類似于收音音量的概念,處理器117在判定出第一音頻數(shù)據(jù)對應(yīng)于人聲后,還會利用第一音頻數(shù)據(jù)的第一音頻數(shù)據(jù)的收音噪聲比是否大于預(yù)設(shè)的噪聲比門限值來判定客戶端裝置IlOA的用戶是否為視頻會議的可能主講者,其中噪聲比門限值可以例如是預(yù)設(shè)為55dB。此外,處理器117也可根據(jù)隨時根據(jù)客戶端裝置IlOA的周圍環(huán)境或者是客戶端裝置IlOA的用戶的手動調(diào)整來更改預(yù)設(shè)的噪聲比門限值。當(dāng)?shù)谝灰纛l數(shù)據(jù)的收音頻率確實對應(yīng)于人聲并且第一音頻數(shù)據(jù)的噪聲比門限值大于噪聲比門限值時,則處理器117將判定其符合傳輸條件。
[0073]在一實施例中,處理器117也可同時利用第一音頻數(shù)據(jù)的收音頻率、收音音量以及收音噪聲比來判定客戶端裝置IlOA的用戶是否為視頻會議的可能主講者。當(dāng)?shù)谝灰纛l數(shù)據(jù)的收音頻率確實對應(yīng)于人聲、第一音頻數(shù)據(jù)的收音音量大于音量門限值并且第一音頻數(shù)據(jù)的噪聲比門限值大于噪聲比門限值時,則處理器117將判定其符合傳輸條件。
[0074]接著,當(dāng)處理器117判定第一音頻數(shù)據(jù)符合傳輸條件時,則代表客戶端裝置I1A的用戶為視頻會議的可能主講者,因此處理器117將通過通信電路112傳送第一音頻數(shù)據(jù)以及第一視頻數(shù)據(jù)至主機(jī)裝置120(步驟S206)。另一方面,當(dāng)處理器117判定第一音頻數(shù)據(jù)不符合任何傳輸條件時,則代表客戶端裝置I1A的用戶并非為視頻會議的可能主講者,因此處理器117僅將通過通信電路112傳送第一音頻數(shù)據(jù)至主機(jī)裝置120(步驟S208),以減少本地端數(shù)據(jù)量的傳輸。必須先說明的是,在此傳送至主機(jī)裝置120的第一視頻數(shù)據(jù)僅為后續(xù)將傳送至遠(yuǎn)端裝置130的其中一筆候選視頻數(shù)據(jù),也就是說主機(jī)裝置120仍會在多筆候選視頻數(shù)據(jù)中篩選出其中一筆來傳送至遠(yuǎn)端裝置130。此外,傳送至主機(jī)裝置120的第一音頻數(shù)據(jù)也會在后續(xù)與其它音頻數(shù)據(jù)進(jìn)行整合。詳細(xì)細(xì)節(jié)將于稍后進(jìn)行說明。
[0075]主機(jī)裝置120除了將接收客戶端裝置IlOA?IlOD的音頻數(shù)據(jù)以及任何可能的視頻數(shù)據(jù)之外,本身也會產(chǎn)生音頻數(shù)據(jù)以及視頻數(shù)據(jù)。詳細(xì)來說,圖3繪示依據(jù)本發(fā)明一實施例的音頻與視頻處理方法的流程圖。本實施例的方法適用于圖1C的主機(jī)裝置120,以下即搭配主機(jī)裝置120中的各個元件說明其音頻與視頻處理方法的詳細(xì)步驟。然而,就以實際操作上而言,本實施例的方法也適用于僅包括以通信電路122、圖像捕獲設(shè)備123、收音裝置125、存儲器126以及處理器127所組成的電子裝置,本發(fā)明不在此設(shè)限。
[0076]請同時參照圖1C以及圖3,首先,主機(jī)裝置120的處理器127將自圖像捕獲設(shè)備123以及收音裝置125接收第二圖像信號以及第二聲音信號,以分別產(chǎn)生第二視頻數(shù)據(jù)以及第二音頻數(shù)據(jù)(步驟S302),并且處理器127將判斷第二音頻數(shù)據(jù)是否符合至少一傳輸條件(步驟S304)。在此主機(jī)裝置120的處理器127執(zhí)行步驟S302以及步驟S304的方式類似于客戶端裝置IlOA?IlOD執(zhí)行步驟S202以及步驟S204的方式,相關(guān)說明請參照前述段落,于此不再贅述。
[0077]不同于圖2的實施例,由于主機(jī)裝置120本身將于稍后進(jìn)行音頻數(shù)據(jù)的整合以及視頻數(shù)據(jù)的篩選,因此當(dāng)處理器127判定第二音頻數(shù)據(jù)符合傳輸條件時,也就是主機(jī)裝置120的用戶為視頻會議的可能主講者,處理器127將第二視頻數(shù)據(jù)設(shè)定為其中一筆候選視頻數(shù)據(jù)以及將第二音頻數(shù)據(jù)設(shè)定為其中一筆待整合音頻數(shù)據(jù)(步驟S306)。另一方面,當(dāng)處理器127判定第二音頻數(shù)據(jù)不符合任何傳輸條件時,僅會將第二音頻數(shù)據(jù)設(shè)定為其中一筆待整合音頻數(shù)據(jù)(步驟S308),也就是主機(jī)裝置120的用戶并非為視頻會議的可能主講者。
[0078]主機(jī)裝置120在取得本身以及客戶端裝置IlOA?IlOD所有待整合的音頻數(shù)據(jù)以及候選視頻數(shù)據(jù)后,將會分別進(jìn)行整合以及篩選,以作為傳送至遠(yuǎn)端裝置130的傳輸數(shù)據(jù)。詳細(xì)來說,圖4繪示依據(jù)本發(fā)明一實施例的音頻與視頻處理方法的流程圖。本實施例的方法適用于圖1C的主機(jī)裝置120,以下即搭配主機(jī)裝置120中的各個元件說明其音頻與視頻處理方法的詳細(xì)步驟。
[0079]請同時參照圖1C以及圖4,首先,主機(jī)裝置120的處理器127將取得至少一筆候選視頻數(shù)據(jù)以及多筆待整合音頻數(shù)據(jù)(步驟S402)。在此的候選視頻數(shù)據(jù)以及待整合音頻數(shù)據(jù)即為客戶端裝置IlOA?IlOD在執(zhí)行完圖2的流程以及主機(jī)裝置120在執(zhí)行完圖3的流程后所取得的數(shù)據(jù)。
[0080]接著,處理器127將根據(jù)各筆待整合音頻數(shù)據(jù),自所有候選視頻數(shù)據(jù)中選擇其中之一者,以產(chǎn)生篩選后的視頻數(shù)據(jù)(步驟S404)。詳細(xì)來說,候選視頻數(shù)據(jù)僅為視頻會議中的可能主講者的視頻數(shù)據(jù),處理器127將比較所有候選視頻數(shù)據(jù)所對應(yīng)的待整合音頻數(shù)據(jù)(也就是,與候選視頻數(shù)據(jù)相同來源裝置的待整合音頻數(shù)據(jù)),以進(jìn)一步地選出將傳送至遠(yuǎn)端裝置130的視頻數(shù)據(jù)。由于所有候選視頻數(shù)據(jù)所對應(yīng)的待整合音頻數(shù)據(jù)已符合人聲頻率,因此處理器127將根據(jù)所有對應(yīng)的待整合音頻數(shù)據(jù)的聲音參數(shù)來選擇所欲傳送的視頻數(shù)據(jù)。在此的聲音參數(shù)可以是收音時間、收音音量以及收音噪聲比等參數(shù)。
[0081]在一實施例中,處理器127將選擇所有候選視頻數(shù)據(jù)所對應(yīng)的待整合音頻數(shù)據(jù)之中具有最長收音時間者來作為篩選后的視頻數(shù)據(jù)。此實施例是則是直接將先說話的用戶視為視頻會議當(dāng)下的主講者。
[0082]在一實施例中,處理器127將選擇所有候選視頻數(shù)據(jù)所對應(yīng)的待整合音頻數(shù)據(jù)之中收音時間大于時間門限值者來作為篩選后的視頻數(shù)據(jù),其中時間門限值可以例如是0.5秒。此實施例是考慮到多個用戶搶話的情形,因此處理器127僅將收音時間大于時間門限值所對應(yīng)的用戶視為視頻會議當(dāng)下的主講者,以避免在后續(xù)遠(yuǎn)端裝置130在極短的時間內(nèi)不斷地切換顯示不同裝置用戶的視頻畫面。
[0083]在一實施例中,處理器127將選擇所有候選視頻數(shù)據(jù)所對應(yīng)的待整合音頻數(shù)據(jù)之中具有最大收音音量者來作為篩選后的視頻數(shù)據(jù)。此實施例則是考慮到其它候選視頻數(shù)據(jù)所對應(yīng)的用戶可能在進(jìn)行私下討論,而并非為視頻會議的主講者。
[0084]在一實施例中,類似于收音音量的概念,處理器127將選擇所有候選視頻數(shù)據(jù)所對應(yīng)的待整合音頻數(shù)據(jù)之中具有最大收音噪聲比者來作為篩選后的視頻數(shù)據(jù)。
[0085]在一實施例中,處理器127也可利用收音時間、收音音量以及收音噪聲比的不同組合來作為選擇依據(jù),以使篩選后的結(jié)果更為精確。
[0086]在一實施例中,當(dāng)僅有單一筆候選視頻數(shù)據(jù)時,處理器127可直接將其設(shè)定為篩選后的視頻數(shù)據(jù)。在又另一實施例中,當(dāng)沒有任何候選視頻數(shù)據(jù)時,即代表本地端的用戶并未發(fā)言,處理器127可持續(xù)地傳送前個時點的主講人的視頻數(shù)據(jù)來作為篩選后的視頻數(shù)據(jù)。
[0087]另一方面,處理器127也會一并整合所有待整合音頻數(shù)據(jù),以產(chǎn)生整合后的音頻數(shù)據(jù)(步驟S406)。詳細(xì)來說,處理器127可針對所有待整合音頻數(shù)據(jù)進(jìn)行混音處理(Aud1Mixing)以及/或除噪處理(Aud1 Denoising),以使整合后的音頻數(shù)據(jù)具有更好的質(zhì)量。
[0088]之后,處理器127將通過通信電路112傳輸整合后的音頻數(shù)據(jù)以及篩選后的視頻數(shù)據(jù)至遠(yuǎn)端裝置130(步驟S408)。換句話說,遠(yuǎn)端裝置130自主機(jī)裝置120所接收的音頻數(shù)據(jù)以及視頻數(shù)據(jù)為本地端整合后的聲音以及主講者的視頻畫面,從而達(dá)到具有主講者聚焦效果的視頻會議。
[0089]附帶說明的是,主機(jī)裝置120同時將一并通過通信電路122自遠(yuǎn)端裝置130接收遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù),并且分別通過屏幕121以及播音裝置124播放遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù)。此外,主機(jī)裝置120也會傳送遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù)至客戶端裝置IlOA?110D,而客戶端裝置IlOA?IlOD將通過屏幕111以及播音裝置114播放遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù)。
[0090]圖5A繪示依據(jù)本發(fā)明一實施例的音頻與視頻處理方法的流程圖來說明圖1A的視頻會議系統(tǒng)100的應(yīng)用情境。圖5B繪示圖5A的應(yīng)用情境示意圖。
[0091]請同時參照圖1A以及圖5A,首先,視頻會議系統(tǒng)100的主機(jī)裝置120將取得至少一筆候選視頻數(shù)據(jù)以及多筆待整合音頻數(shù)據(jù)(步驟S502)。在此的候選視頻數(shù)據(jù)為本地端的裝置用戶當(dāng)中可能為主講者的視頻畫面,而待整合音頻數(shù)據(jù)為本地端的裝置用戶的說話聲。接著,主機(jī)裝置120將根據(jù)候選視頻數(shù)據(jù)所對應(yīng)的待整合音頻數(shù)據(jù)來判斷本地端的主講者(步驟S504),以產(chǎn)生主講者的視頻數(shù)據(jù)(步驟S506)。另一方面,主機(jī)裝置120會將待整合音頻數(shù)據(jù)進(jìn)行混音處理以及/或除噪處理(步驟S508),以產(chǎn)生整合后的音頻數(shù)據(jù)(步驟S510)。之后,主機(jī)裝置120會將主講者的視頻數(shù)據(jù)以及整合后的音頻數(shù)據(jù)傳送至遠(yuǎn)端裝置(步驟S512)。在此步驟S502?S512的細(xì)節(jié)請參照前述實施例的相關(guān)說明,于此不再贅述。
[0092]請再參照圖5B,在本實施例中,客戶端裝置11OA?11OB分別利用網(wǎng)絡(luò)LAN與主機(jī)裝置120進(jìn)行連線,而主機(jī)裝置120利用網(wǎng)絡(luò)WAN與遠(yuǎn)端裝置130進(jìn)行連線。假設(shè)主機(jī)裝置120在圖5A中判定客戶端裝置IlOA的用戶Cl為主講者后,會將用戶Cl的視頻數(shù)據(jù)傳送至遠(yuǎn)端裝置130。此外,主機(jī)裝置120也會將用戶Cl、C2以及H的音頻數(shù)據(jù)VCl、VC2與VH所整合出的音頻數(shù)據(jù)M傳送至遠(yuǎn)端裝置130,而遠(yuǎn)端裝置130將播放用戶Cl的視頻畫面以及用戶C1、C2與H的聲音。此外,主機(jī)裝置120也會接收并且傳送遠(yuǎn)端裝置130的用戶R的視頻數(shù)據(jù)以及音頻數(shù)據(jù)VCl至客戶端裝置IlOA?110B,而客戶端裝置IlOA?IlOB以及主機(jī)裝置120將同時播放用戶R的視頻畫面以及聲音。
[0093]綜上所述,本發(fā)明所提出的視頻與音頻處理裝置及其視頻會議系統(tǒng),主機(jī)裝置除了將整合本地端所產(chǎn)生的各筆音頻數(shù)據(jù)并且傳送整合后的音頻數(shù)據(jù)至遠(yuǎn)端裝置外,還根據(jù)各筆音頻數(shù)據(jù)的聲音參數(shù)來傳送其中一筆視頻數(shù)據(jù)至遠(yuǎn)端裝置,以使本地端在具有多個視頻會議參與者的前提下,遠(yuǎn)端裝置的用戶視覺仍可聚焦于本地端的主講者上,以提升視頻會議的質(zhì)量與效率。
[0094]雖然本發(fā)明已以實施例揭露如上,然其并非用以限定本發(fā)明,任何所屬技術(shù)領(lǐng)域中普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作部分的更改與修飾,故本發(fā)明的保護(hù)范圍當(dāng)視權(quán)利要求所界定者為準(zhǔn)。
【主權(quán)項】
1.一種視頻與音頻處理裝置,其特征在于,包括: 通信電路,用以連線至另一視頻與音頻處理裝置; 圖像捕獲設(shè)備,用以擷取圖像信號; 收音裝置,用以擷取聲音信號; 存儲器,用以儲存檔案數(shù)據(jù);以及 處理器,耦接該通信電路、該圖像捕獲設(shè)備、該收音裝置以及該存儲器,用以執(zhí)行下列步驟: 自該圖像捕獲設(shè)備以及該收音裝置分別接收第一圖像信號以及第一聲音信號,以產(chǎn)生第一視頻數(shù)據(jù)以及第一音頻數(shù)據(jù); 判斷該第一音頻數(shù)據(jù)是否符合至少一傳輸條件; 若是,通過該通信電路傳送該第一音頻數(shù)據(jù)以及該第一視頻數(shù)據(jù)至該另一視頻與音頻處理裝置;以及 若否,通過該通信電路僅傳送該第一音頻數(shù)據(jù)至該另一視頻與音頻處理裝置。2.根據(jù)權(quán)利要求1所述的視頻與音頻處理裝置,其特征在于,還包括: 屏幕,用以顯示畫面;以及 播音裝置,用以播放聲音; 其中該處理器還耦接該屏幕以及該播音裝置,并且用以執(zhí)行下列步驟: 通過該通信電路自該另一視頻與音頻處理裝置接收遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù);以及 分別通過該屏幕以及該播音裝置播放該遠(yuǎn)端視頻數(shù)據(jù)以及該遠(yuǎn)端音頻數(shù)據(jù)。3.根據(jù)權(quán)利要求1所述的視頻與音頻處理裝置,其特征在于,該第一音頻數(shù)據(jù)包括音頻頻率,而該處理器用以判斷該第一音頻數(shù)據(jù)是否符合所述傳輸條件的步驟包括: 判斷該音頻頻率是否符合人聲頻率。4.根據(jù)權(quán)利要求3所述的視頻與音頻處理裝置,其特征在于,該第一音頻數(shù)據(jù)還包括該收音裝置的收音音量,而該處理器用以判斷該第一音頻數(shù)據(jù)是否符合所述傳輸條件的步驟還包括: 判斷該收音音量是否大于音量門限值。5.根據(jù)權(quán)利要求3所述的視頻與音頻處理裝置,其特征在于,該第一音頻數(shù)據(jù)還包括該收音裝置的收音噪聲比,而該處理器用以判斷該第一音頻數(shù)據(jù)是否符合所述傳輸條件的步驟還包括: 判斷該收音噪聲比是否大于噪聲比門限值。6.一種視頻與音頻處理裝置,其特征在于,包括: 通信電路,用以連接至至少一其它視頻與音頻處理裝置以及遠(yuǎn)端裝置; 圖像捕獲設(shè)備,用以擷取圖像信號; 收音裝置,用以擷取聲音信號; 存儲器,用以儲存檔案數(shù)據(jù);以及 處理器,耦接該通信電路、該圖像捕獲設(shè)備、該收音裝置以及該存儲器,用以執(zhí)行下列步驟: 取得至少一筆候選視頻數(shù)據(jù)以及多筆待整合音頻數(shù)據(jù),其中各所述候選視頻數(shù)據(jù)對應(yīng)于其中一筆所述待整合音頻數(shù)據(jù); 根據(jù)各所述候選視頻數(shù)據(jù)所對應(yīng)的該待整合音頻數(shù)據(jù),選擇其中一筆所述候選視頻數(shù)據(jù),以產(chǎn)生篩選后的視頻數(shù)據(jù); 整合所述待整合音頻數(shù)據(jù),以產(chǎn)生整合后的音頻數(shù)據(jù);以及 通過該通信電路傳輸該整合后的音頻數(shù)據(jù)以及該篩選后的視頻數(shù)據(jù)至該遠(yuǎn)端裝置。7.根據(jù)權(quán)利要求6所述的視頻與音頻處理裝置,其特征在于,該處理器還用以執(zhí)行下列步驟: 通過該通信電路自該遠(yuǎn)端裝置接收遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù);以及 通過該通信電路傳輸該遠(yuǎn)端視頻數(shù)據(jù)以及該遠(yuǎn)端音頻數(shù)據(jù)至各所述其它視頻與音頻處理裝置。8.根據(jù)權(quán)利要求7所述的視頻與音頻處理裝置,其特征在于,還包括: 屏幕,用以顯示畫面;以及 播音裝置,用以播放聲音; 其中該處理器還耦接至該屏幕以及該播音裝置,并且用以執(zhí)行下列步驟: 分別通過該屏幕以及該播音裝置播放該遠(yuǎn)端視頻數(shù)據(jù)以及該遠(yuǎn)端音頻數(shù)據(jù)。9.根據(jù)權(quán)利要求6所述的視頻與音頻處理裝置,其特征在于,各所述待整合音頻數(shù)據(jù)包括收音音量,而該處理器根據(jù)各所述候選視頻數(shù)據(jù)所對應(yīng)的該待整合音頻數(shù)據(jù),選擇其中一筆所述候選視頻數(shù)據(jù),以產(chǎn)生該篩選后的視頻數(shù)據(jù)的步驟包括: 選擇具有最大收音音量的該待整合音頻數(shù)據(jù)所對應(yīng)的該候選視頻數(shù)據(jù)作為該篩選后的視頻數(shù)據(jù)。10.根據(jù)權(quán)利要求6所述的視頻與音頻處理裝置,其特征在于,各所述待整合音頻數(shù)據(jù)包括收音噪聲比,而該處理器根據(jù)各所述候選視頻數(shù)據(jù)所對應(yīng)的該待整合音頻數(shù)據(jù),選擇其中一筆所述候選視頻數(shù)據(jù),以產(chǎn)生該篩選后的視頻數(shù)據(jù)的步驟包括: 選擇具有最大收音噪聲比的該待整合音頻數(shù)據(jù)所對應(yīng)的該候選視頻數(shù)據(jù)作為該篩選后的視頻數(shù)據(jù)。11.根據(jù)權(quán)利要求6所述的視頻與音頻處理裝置,其特征在于,各所述待整合音頻數(shù)據(jù)包括收音時間,而該處理器根據(jù)各所述候選視頻數(shù)據(jù)所對應(yīng)的該待整合音頻數(shù)據(jù),選擇其中一筆所述候選視頻數(shù)據(jù),以產(chǎn)生該篩選后的視頻數(shù)據(jù)的步驟包括: 選擇具有最長收音時間的該待整合音頻數(shù)據(jù)所對應(yīng)的該候選視頻數(shù)據(jù)作為該篩選后的視頻數(shù)據(jù)。12.根據(jù)權(quán)利要求6所述的視頻與音頻處理裝置,其特征在于,各所述待整合音頻數(shù)據(jù)包括收音時間,而該處理器根據(jù)各所述音頻數(shù)據(jù),選擇所述候選視頻數(shù)據(jù)其中之一者,以產(chǎn)生該篩選后的視頻數(shù)據(jù)的步驟包括: 選擇收音時間大于時間門限值的該音頻數(shù)據(jù)所對應(yīng)的該候選視頻數(shù)據(jù)作為該篩選后的視頻數(shù)據(jù)。13.根據(jù)權(quán)利要求6所述的視頻與音頻處理裝置,其特征在于,該處理器用以整合所述待整合音頻數(shù)據(jù),以產(chǎn)生整合后的音頻數(shù)據(jù)的步驟包括: 針對所述待整合音頻數(shù)據(jù)進(jìn)行混音處理以及/或除噪處理,以產(chǎn)生該整合后的音頻數(shù)據(jù)。14.根據(jù)權(quán)利要求6所述的視頻與音頻處理裝置,其特征在于,該處理器還用以執(zhí)行下列步驟: 自該圖像捕獲設(shè)備以及該收音裝置分別接收第二圖像信號以及第二聲音信號,以產(chǎn)生第二視頻數(shù)據(jù)以及第二音頻數(shù)據(jù); 判斷該第二音頻數(shù)據(jù)是否符合至少一傳輸條件; 若是,分別設(shè)定該第二視頻數(shù)據(jù)以及該第二音頻數(shù)據(jù)為其中一筆所述候選視頻數(shù)據(jù)以及其中一筆所述待整合音頻數(shù)據(jù);以及 若否,僅設(shè)定該第二音頻數(shù)據(jù)為其中一筆所述待整合音頻數(shù)據(jù)。15.根據(jù)權(quán)利要求14所述的視頻與音頻處理裝置,其特征在于,該第二音頻數(shù)據(jù)包括音頻頻率,而該處理器用以判斷該第二音頻數(shù)據(jù)是否符合所述傳輸條件的步驟包括: 判斷該音頻頻率是否符合人聲頻率。16.根據(jù)權(quán)利要求14所述的視頻與音頻處理裝置,其特征在于,該第二音頻數(shù)據(jù)還包括該收音裝置的收音音量,而該處理器用以判斷該第二音頻數(shù)據(jù)是否符合所述傳輸條件的步驟包括: 判斷該收音音量是否大于音量門限值。17.根據(jù)權(quán)利要求14所述的視頻與音頻處理裝置,其特征在于,該音頻數(shù)據(jù)還包括該收音裝置的收音噪聲比,而該處理器用以判斷該第二音頻數(shù)據(jù)是否符合所述傳輸條件的步驟還包括: 判斷該收音音量是否大于音量門限值。18.一種視頻會議系統(tǒng),其特征在于,包括: 至少一客戶端裝置,其中各所述客戶端裝置分別產(chǎn)生客戶端視頻數(shù)據(jù)以及客戶端音頻數(shù)據(jù);以及 主機(jī)裝置,連線于各所述客戶端裝置以及遠(yuǎn)端裝置,其中該主機(jī)裝置取得至少一筆候選視頻數(shù)據(jù)以及多筆待整合音頻數(shù)據(jù),根據(jù)各所述待整合音頻數(shù)據(jù),選擇其中一筆所述候選視頻數(shù)據(jù),以產(chǎn)生篩選后的視頻數(shù)據(jù),整合所述待整合音頻數(shù)據(jù),以產(chǎn)生整合后的音頻數(shù)據(jù),傳輸該整合后的音頻數(shù)據(jù)以及該篩選后的視頻數(shù)據(jù)至該遠(yuǎn)端裝置,其中所述待整合音頻數(shù)據(jù)包括所述客戶端音頻數(shù)據(jù)以及該主機(jī)音頻數(shù)據(jù),所述候選視頻數(shù)據(jù)包括至少其中一筆所述客戶端視頻數(shù)據(jù)以及主機(jī)視頻數(shù)據(jù),各所述候選視頻數(shù)據(jù)對應(yīng)于其中一筆所述音頻數(shù)據(jù)。19.根據(jù)權(quán)利要求18所述的視頻會議系統(tǒng),其特征在于,對于各所述客戶端裝置: 該客戶端裝置判斷該客戶端音頻數(shù)據(jù)是否符合至少一傳輸條件; 若是,該客戶端裝置傳送該客戶端音頻數(shù)據(jù)以及該客戶端視頻數(shù)據(jù)至該主機(jī)裝置;以及 若否,該客戶端裝置僅傳送該客戶端音頻數(shù)據(jù)至該主機(jī)裝置。20.根據(jù)權(quán)利要求18所述的視頻會議系統(tǒng),其特征在于,該主機(jī)裝置還自該遠(yuǎn)端裝置接收遠(yuǎn)端視頻數(shù)據(jù)以及遠(yuǎn)端音頻數(shù)據(jù)并且傳送該遠(yuǎn)端視頻數(shù)據(jù)以及該遠(yuǎn)端音頻數(shù)據(jù)至各所述客戶端裝置。
【文檔編號】H04L29/08GK106027589SQ201610016778
【公開日】2016年10月12日
【申請日】2016年1月12日
【發(fā)明人】詹婕妤, 翁明哲
【申請人】仁寶電腦工業(yè)股份有限公司