專利名稱:多點視頻會議中對帶寬進行優(yōu)化的制作方法
技術領域:
本發(fā)明一般地涉及電信,并且更具體地涉及多點視頻會議中對帶寬進 行優(yōu)化。
背景技術:
存在可用于成組的個體參與會議的很多方法。 一種進行視頻會議的普 通方法涉及第一位置處的個體參與和位于至少一個遠程位置的一個或多個 個體的視頻和音頻通信。視頻會議通常需要相當大的帶寬以容納實時傳輸 的數據量,特別是與音頻會議相比。
發(fā)明內容
根據本發(fā)明,提供了用于在多點視頻會議中優(yōu)化帶寬的技術。根據具 體實施例,這些技術描述了通過發(fā)送選中的視頻流來減小視頻會議期間所 使用的帶寬的量的方法。
根據具體實施例, 一種用于在視頻會議期間優(yōu)化帶寬的系統包括多
個多點會議單元(MCU),每個MCU都能夠輔助兩個或更多參與者之問 的視頻會議。MCU還能夠輔助包括由兩個或更多MCU管理的參與者的級 聯(cascade)的視頻會議。所述系統還包括多個端點,這多個端點參與視 頻會議。每個端點能夠建立與MCU中的選中的一個MCU的會議鏈接, 生成多個視頻流和相應多個音頻流,在會議鏈接上發(fā)送所生成的視頻流和 所生成的音頻流,接收多個視頻流和多個音頻流,利用多個揚聲器呈現所 接收的音頻流,并且利用多個監(jiān)視器顯示所接收的視頻流。所述系統還包 括MCU中的受控MCU,受控MCU管理第一組端點。受控MCU能夠
(1)接收包括了從第一組端點中的每一個端點生成的視頻流的第一組可 用視頻流,(2)從第一組可用視頻流中選出N個潛在(potential)視頻流,其中N等于任一端點能夠并發(fā)顯示的活動視頻流的最大數目,并且
(3)向MCU中的主MCU發(fā)送潛在視頻流。所述系統還包括主MCU, 主MCU管理第二組端點。主MCU能夠(1)接收包括了從第二組端點 中的每一個端點生成的視頻流以及來自受控MCU的潛在視頻流的第二組 可用視頻流,(2)從第二組可用視頻流中選出活動視頻流,其中活動視 頻流包括N個主要視頻流和M個替代視頻流,(3)確定活動視頻流中所 需的視頻流,用于傳送至第一組端點中的一個或多個端點,并且(4)將 活動視頻流中所需的視頻流發(fā)送至受控MCU。
本發(fā)明的實施例提供了各種技術優(yōu)點。例如,這些技術可減小多點視 頻會議所需要的帶寬。通過減小帶寬,額外視頻會議可以基本上同時發(fā) 生。此外,在較少帶寬可用的情況下,可發(fā)起和維持優(yōu)化了帶寬的視頻會 議。在某些實施例中,有限的帶寬連接使用這些帶寬減小技術以支持高清 晰度的視頻會議。在一些實施例中,通過從總體數目的可用視頻流中發(fā)送 僅特定的視頻流,可減少網絡業(yè)務量和產生的錯誤。此外,在具體實施例 中,降低了對接收(一個或多個)視頻流的裝置的處理要求。如果更少的 視頻流被發(fā)送,則接收裝置可處理更少的接收到的視頻流。
從下面的附圖、說明書和權利要求中,本領域的技術人員將會容易明 白本發(fā)明的其他技術優(yōu)點。此外,雖然具體優(yōu)點已被列舉在上面,但是各 種實施例可全部地、 一些地或者不包括所列舉的優(yōu)點。
為了更完整地理解本發(fā)明及其優(yōu)點,結合附圖參考下面的描述,其
中
圖1示出用于優(yōu)化多點視頻會議中的帶寬的系統;
圖2是示出示例三重端點的框圖,該端點生成三個視頻流并且顯示三
個接收到的視頻流;
圖3示出多點控制單元(MCU),該單元通過選擇某些視頻流以發(fā)送
至視頻會議參與者來優(yōu)化多點視頻會議期間的帶寬 ,
圖4是示出在主MCU處和在受控MCU處執(zhí)行的優(yōu)化帶寬的方法的
10流程圖5是示出用于通過選擇某些視頻流以發(fā)送至視頻會議參與者來優(yōu)化 MCU處的帶寬的特定方法的流程圖;并且
圖6示出示例多點視頻會議,該視頻會議通過選擇特定視頻流以發(fā)送 至端點和/或MCU來優(yōu)化帶寬。
具體實施例方式
圖1示出用于優(yōu)化多點視頻會議中的帶寬的系統,該系統總地指示為
10。如所示出的,視頻會議系統IO包括網絡12。網絡12包括端點14、 日歷服務器16、呼叫服務器18、遠程會議服務器20和多點控制單元 (MCU) 22 (有時被稱為多點會議單元)??偟恼f來,視頻會議系統10 內的元件互操作(interoperate)以優(yōu)化視頻會議期間所使用的帶寬。
在具體實施例中,MCU 22可通過選擇發(fā)送至端點14禾[1/或其他MCU 22的具體視頻流,來優(yōu)化視頻會議期間所使用的帶寬。在某些實施例中, 當端點14中止發(fā)送未使用的視頻流時,也可在視頻會議期間優(yōu)化帶寬。 例如,如果音頻流指示在某個時間段中沒有活動的說話者,則管理MCU 22可指示發(fā)送端點14停止發(fā)送相應的視頻流。作為另一示例,不是接收 來自管理MCU 22的指令,而是端點14可自己確定它的音頻流沒有活動 說話者并且臨時間斷相應視頻流的發(fā)送。
網絡12將系統10的元件互連并且輔助視頻會議系統10中端點14之 間的視頻會議。網絡12表示包括了用于將耦合至網絡12的或網絡12內的 元件互連的硬件和任何適當的控制邏輯的通信設備。網絡12可包括局域 網(LAN),城域網(MAN),廣域網(WAN),任何其他的公用或專 用網,本地的、區(qū)域的或全球的通信網絡,企業(yè)內聯網,其他合適的有線 或無線通信鏈路,或者任何合適網絡的任何組合。網絡12可包括網關、 路由器、集線器、交換機、接入點、基站以及實現合適的協議和通信的任 何其他硬件或軟件的任何組合。
端點14表示支持參與視頻會議的電信設備。視頻會議系統IO的用戶 可使用端點14之一以參與視頻會議。端點14可包括任何合適的視頻會議設備,例如揚聲器、麥克風、揚聲器電話、顯示器、相機和網絡接口。在
例示實施例中,視頻會議系統10包括六個端點14a、 14b、 14c、 14d、 14e、 14f。在視頻會議期間,每個參與端點14都可生成一個或多個音頻、 視頻和/或數據流,并且可將這些音頻、視頻和/或數據流發(fā)送至MCU 22 中管理的一個。端點14還可為每個音頻流生成和發(fā)送置信值(confidence value),其中置信值指示音頻流包括活動說話者的話音的可能性。每個端 點14還可顯示或投射(project)從管理MCU 22接收的一個或多個音頻、 視頻和/或數據流。如下面更充分地描述的,MCU 22可建立并輔助兩個或 更多的端點14之間的視頻會議。
在具體實施例中,端點14被配置為生成和顯示(或投射)相同數目 的音頻和視頻流。例如,"單重(single)"端點14可生成一個音頻流和 一個視頻流,并且顯示一個接收到的音頻流和一個接收到的視頻流。"雙 重(double)"端點14可生成兩個音頻流和兩個視頻流,每個流通過該端 點14傳送參與視頻會議的一個或多個用戶的聲音或圖像。雙重端點14還 可包括用于顯示和呈現多個視頻和音頻流的兩個視頻屏幕和多個揚聲器。 類似地,具有"三重(triple)"配置的端點14可包含用于生成和發(fā)送多 達三個視頻流的三個視頻屏幕、三個相機,以及用于接收和投射音頻信號 的三個麥克風和揚聲器的組。在某些實施例中,視頻會議系統10中的端 點14包括任何數目的單重、雙重和三重端點14。端點14可生成和顯示大 于三的音頻和視頻流。此外,在具體實施例中, 一個或多個端點14可生 成與端點14能夠顯示的數目相比不同數目的音頻、視頻和/或數據流。
此外,端點14可包括利用任何合適的協議技術或方法建立和輔助視 頻會議的任何合適的組件和裝置。例如,會話發(fā)起協議(SIP)或H.323可 被使用。此外,端點14可支持支持了諸如H.26K H.263和/或H.264之類 的其他標準的、以及具有純音頻電話裝置的其他視頻系統,并且對這些其 他視頻系統是不可操作的(inoperable)。雖然視頻會議系統10被示出為 具有六個端點14,但是被理解的是,視頻會議系統10可包括任何合適配 置的任何合適數目的端點14。
日歷服務器16使用戶能在一個或多個端點14之間調度視頻會議。日歷服務器16可執(zhí)行編排日歷(calendaring)操作,例如接收視頻會議請 求、存儲所調度的視頻會議和提供對所調度的視頻會議的通知。在具體實 施例中,用戶可借助在編排日歷應用中調度會議通過日歷服務器16來組 織視頻會議。用戶可通過端點14之一或通過用戶的個人計算機、蜂窩或 工作電話、個人數字助理(PDA)或任何適當的裝置來訪問編排日歷應 用。日歷服務器16可使組織者能指定所調度的視頻會議的各種方面,例 如視頻會議中的其他參與者、視頻會議的時間、視頻會議的持續(xù)時間以及 視頻會議所需要的任何資源。 一旦用戶已調度了視頻會議,日歷服務器16 就可存儲視頻會議的必要信息。日歷服務器16還可向組織者提醒視頻會 議或者向組織者提供關于所調度的視頻會議的額外信息。
呼叫服務器18協調網絡12中某音頻、視頻和/或數據通信的發(fā)起、維 持和終止。在具體實施例中,呼叫服務器18輔助了端點14之間的IP語音 (Voice-over-Intemet-Protocol) (VoIP)通信。例如,呼叫服務器18可輔 助實現了基于分組的媒體流通信的端點14之間的信號發(fā)送。呼叫服務器 18可保存與網絡12中的端點14或其他裝置有關的任何必要信息。
遠程會議服務器20協調視頻會議系統IO中端點14之間的視頻會議的 發(fā)起、維持和終止。遠程會議服務器20可訪問日歷服務器16以獲得關于 所調度的視頻會議的信息。遠程會議服務器20可使用此信息來預約網絡 12中的裝置,例如端點14和MCU 22。遠程會議服務器20可在視頻會議 的發(fā)起之前預約網絡12中的各種元件(例如端點14和MCU 22),并且 可在視頻會議期間修改這些預約。例如,遠程會議服務器20可使用關于 所調度的視頻會議的信息來確定端點14a、 14b、 14e將被預約,從4:00 p.m. EST直到5:00 p.m. EST,用于將由MCU 22a建立和維持的視頻會 議。此外,在具體實施例中,遠程會議服務器20負責在視頻會議終止之 后釋放資源。
遠程會議服務器20可確定哪一個或多個MCU 22將會建立視頻會 議、以及哪些端點14將會連接到所分配的MCU 22中的每一個。遠程會 議服務器20還可確定"主"MCU 22以及一個或多個"受控"MCU 22。 在具體實施例中,遠程會議服務器20基于各種不同因素,例如參與端點14的位置、 一個或多個MCU 22的容量、網絡連接性以及網絡12中不同 裝置之間的等待時間和帶寬,來選擇用于參與視頻會議的主MCU 22以及 一個或多個受控MCU 22。在作出哪些MCU 22將會作為主MCU 22和 (一個或多個)受控MCU 22來參與視頻會議的決定之后,遠程會議服務 器20可向這些MCU 22發(fā)送消息告知它們主和/或受控的指定。此消息可 被包括在關于視頻會議所發(fā)送的其他消息內。在具體實施例中,主和受控 MCU 22由視頻會議系統10中的不同裝置來選擇。
在具體實施例中,遠程會議服務器20將MCU 22a和MCU 22b分配給 涉及端點14a、 14b、 14c、 14d、 14e禾卩14f的視頻會議。遠程會議服務器 20還可確定MCU 22a將會管理端點14a、 14b、 14c,同時MCU22b將會 管理端點14d、 14e、 14f。遠程會議服務器20還可確定MCU 22a和MCU 22b如何交互和/或連接的細節(jié),例如,MCU 22a可被指定為主MCU, MCU 22b可被指定為受控MCU。雖然視頻會議系統IO被示出和描述為具 有具體配置,但是要理解,遠程會議服務器20可發(fā)起、維持和終止視頻 會議系統IO中任何端點14與任何MCU22之間的視頻會議。
總的說來,MCU 22可建立視頻會議、在視頻會議期間控制和管理端 點14、并且輔助視頻會議的終止。MCU 22可管理哪些端點14參與哪些 視頻會議,并且可控制向受管理端點14發(fā)送的和從受管理端點14發(fā)送的 視頻、音頻和/或數據流。
在具體實施例中,MCU 22可通過在視頻會議期間選擇某(一個或多 個)視頻流以發(fā)送至端點14和/或其他MCU 22,來優(yōu)化帶寬。例如,當 帶寬在端點14和/或MCU22之間是有限的時候,這可能是重要的。所選 擇的視頻流的數目可直接與任何一個端點14可并發(fā)顯示的流的最大數目 有關。為了選擇視頻流,MCU 22可標識出提供識別要選擇哪些流的準則 的一個或多個策略。在具體實施例中,遠程會議服務器20確定哪個策略 或哪些策略將被用于具體視頻會議,并且發(fā)送此信息至MCU 22。在具體 實施例中,參與視頻會議的其他裝置將會選擇該一個或多個策略來用,并 且發(fā)送此信息至MCU 22。例如, 一個策略可指定特定視頻流應當顯示在 參與視頻會議的所有端點14處(例如,用于從一個端點14到所有其他參與端點14的演講或陳述)。結果,MCU 22可選擇至少此特定視頻流用于 發(fā)送至視頻會議中涉及的端點14和/或MCU22。
作為另一示例, 一種策略可指定活動說話者應當顯示在端點14處。 活動說話者可以是當前正在通信(例如說話)的用戶,或者活動說話者可 以是通信的最后用戶。結果,MCU 22可確定一個或多個活動說話者,并 且選擇(一個或多個)相應視頻流用于發(fā)送至視頻會議中涉及的端點14 和/或MCU22。例如,為了確定活動說話者,MCU22a可監(jiān)控從受管理端 點14a、 14b、 14c接收的音頻流。如果端點14a、 14b和14c被配置為三 重,則MCU22a監(jiān)控和分析九個音頻流。為了確定活動說話者,MCU22a 可估計與每個接收到的音頻流相關聯的置信值。置信值可通過發(fā)送端點14 來生成,并且可指示音頻流包含活動說話者的音頻的可能性。此外,MCU 22a可分析音頻流以識別任何活動說話者。如果活動說話者被識別出在來 自端點14b的音頻流之一中,則MCU22a選擇相應的視頻流用于發(fā)送。當 參與視頻會議的端點14被配置為單重、雙重或三重時,那么MCU22a可 識別三個活動說話者,用于利用多達三個的視頻流向端點14發(fā)送。在具 體實施例中,MCU 22還選擇一個或多個替代活動說話者,從而活動說話 者不被顯示自身的圖像。此外,除選擇和發(fā)送視頻流以外,MCU22可接 收來自受管理端點14的音頻流,并且向參與視頻會議的端點14和MCU 22全部地、 一些地或者不轉發(fā)這些流。
雖然可以描述這些具體策略,但是被理解的是,當為了優(yōu)化帶寬而在 視頻會議期間選擇具體視頻流來傳輸時,可使用任何合適的策略。此外, 雖然視頻會議系統10被示出和描述為包含兩個MCU,但是被理解的是, 視頻會議系統10可包括任何合適數目的MCU。例如第三個MCU可連接 至MCU22b。在此示例中,MCU 22b可以以類似于受管理端點14的方式 來與第三個MCU交互,并且第三個MCU可以以和MCU 22a與MCU 22b 交互大致相同的方式來與MCU 22b交互。
在示例操作中,端點14通過向其他端點14發(fā)送音頻、視頻和/或數據 流以及從其他端點14接收流(MCU 22控制這媒體流)來參與視頻會議。 例如,MCU 22a可建立與端點14a、 14b、 14c和MCU 22b的視頻會議,其中MCU22b可將端點14d、 14e、 14f連接至視頻會議。MCU22a可被指 定為主MCU,同時MCU 22b被指定為受控MCU。 MCU 22a、 22b可發(fā)送 和接收由端點14a、 14b、 14c、 14d、 14e和14f生成的音頻、視頻和/或數 據流中的各種流。為了優(yōu)化帶寬,MCU 22b可選擇特定視頻流以發(fā)送至 MCU 22a,并且MCU 22a可選擇特定視頻流以發(fā)送至MCU 22b和受管理 端點14。 MCU 22還可通過指示一個或多個受管理端點14不發(fā)送視頻流 來優(yōu)化帶寬。
在具體實施例中,端點14a、 14b、 14c、 14d、 14e、 14f具有單重配 置,每個都生成一個視頻流,并且每個都能夠顯示一個接收到的視頻流。 此外,端點14a、 14b、 14c、 14d、 14e、 14f每個都可生成一個音頻流并且 接收一個聚合(aggregate)的音頻流。受控MCU, MCU 22b,可從受管 理端點14d、 14e、 14f接收三個音頻流和三個視頻流。從這些音頻流中, MCU 22b可確定活動說話者,選擇相應的視頻流,并且發(fā)送此視頻流至 MCU22a。在具體實施例中,如果活動說話者是不可得的,則MCU 22b 可選擇和發(fā)送對應于適度活動的說話者的視頻流。MCU 22b還可將與受管 理端點14d、 14e、 14f相對應的三個音頻流發(fā)送至MCU22a。主MCU, MCU22a,可接收來自MCU 22b的視頻流、來自MCU 22b的音頻流、 以及來自受管理端點14a、 14b、 14c中的每一個的視頻流和音頻流。對于 六個接收到的音頻流,MCU 22a可確定所有參與端點14中的活動說話 者??商娲?,MCU 22a可使用僅僅四個音頻流(來自受管理端點14a、 14b、 14c的三個以及與MCU 22b所發(fā)送的視頻流相對應的一個),因為 MCU 22b已經從它的受管理端點14d、 14e、 14f之中選出了 "勝利的"音 頻/視頻組合。MCU 22a然后可選擇對應于所識別的活動說話者的視頻 流,并且向端點14a、 14b、 14c和MCU 22b發(fā)送此視頻流。MCU 22a還 可聚合六個接收到的音頻流,并且向端點14a、 14b、 14c和MCU22b發(fā)送 聚合的音頻流。在接收到此視頻流和聚合音頻流之后,MCU22b可向端點 14d、 14e、 14f發(fā)送此視頻流和聚合音頻流。
在某些實施例中,MCU 22a將會選擇兩個視頻流以確?;顒诱f話者不 收到它自己的視頻流。例如,可能不希望向正在進行說話的用戶顯示活動
1說話者的圖像。因此,MCU 22可確定活動說話者和替代的活動說話者。
替代的活動說話者可以是先前的活動說話者(在當前的活動說話者被選擇 之前),或者替代的活動說話者可指示正在比活動說話者更小聲地說話的
說話者。雖然大多數端點14接收對應于活動說話者的視頻流,但是與活 動說話者相關聯的端點14可接收對應于替代的活動說話者的視頻流。例 如,MCU 22b可選擇對應于端點14d的視頻流,并且可發(fā)送此視頻流至 MCU22a。在分析了接收到的音頻流之后,MCU 22a可確定端點14d包含 活動說話者并且端點14a包含替代的活動說話者,例如因為端點14a先前 是活動說話者。MCU22a向受管理端點14a、 14b、 14c發(fā)送對應于端點 14d的視頻流。另一方面,MCU22a向MCU22b發(fā)送既與端點14a相對應 的又與端點14d相對應的視頻流。MCU22b然后可向端點14e、 14f發(fā)送 對應于端點14d的視頻流,并且可向端點14d發(fā)送對應于端點Ma的視頻 流。
雖然己參考被配置為單重端點14的端點14描述了優(yōu)化帶寬,但是被 理解的是,可修改這些技術并且使這些技術適于支持包括任何合適數目的 單重、雙重、三重和/或更大重數的端點的視頻會議系統10。在具體實施 例中,視頻會議系統10包括各種不同類型的端點14。在具體實施例中, MCU 22a僅將與它的受管理端點14a、 14b、 14c相對應的(一個或多個) 視頻流發(fā)送至MCU 22b,因為MCU 22b緩沖了由它的受管理端點14d、 14e、 14f接收到的視頻流,并且因此MCU22a不需要發(fā)送這些流給MCU 22b。在一些實施例中,不是選擇和發(fā)送視頻流給MCU 22a,而是MCU 22b將接收到的音頻流轉發(fā)至MCU 22a,直到被MCU 22a指示發(fā)送特定視 頻流。
視頻會議系統10的具體實施例己被描述,并且不希望是全部包括 的。雖然視頻會議系統10被描繪為包含元件和裝置的某配置和布置,但 是應當注意,這是邏輯描繪,并且可以既邏輯地又物理地酌情組合、分開 和分布視頻會議系統10的組件和功能。此外,可通過組件的任何合適的 聚集和布置來提供視頻會議系統10的功能。視頻會議系統10內的元件所 執(zhí)行的功能可由在視頻會議期間優(yōu)化帶寬的任何合適裝置來實現。圖2是示出示例三重端點14的框圖,該端點14生成三個視頻流并且
顯示三個接收到的視頻流。端點14可包括參與視頻會議的任何合適數0 的用戶30??偟恼f來,即使端點14處監(jiān)視器36的數目可能少于其他端點 14為視頻會議生成的視頻流的數目,視頻會議系統IO也通過端點14向用 戶30提供逼真的視頻會議體驗。
用戶30表示可出席視頻會議的一個或多個個體或者成組的個體。用 戶30可利用諸如音頻因特網協議(IP)電話、視頻電話器具、基于個人計 算機(PC)的視頻電話和流客戶端(streaming client)之類的任何合適的 裝置和/或組件來參與視頻會議。在視頻會議期間,用戶30可作為說話者 或作為觀察者參與視頻會議。
遙現設備32輔助了在不同端點14處的用戶30之間的視頻會議。遙現 設備32可包括建立和輔助視頻會議的任何合適的元件和裝置。例如,遙 現設備32可包括揚聲器、用戶接口、控制器、麥克風或揚聲器電話。在 所示的實施例中,遙現設備32包括相機34、監(jiān)視器36、麥克風38、揚聲 器40、控制器42、存儲器44和網絡接口 46。
相機34和監(jiān)視器36生成和投射視頻會議期間的視頻流。相機34可包 括輔助捕捉一個或多個用戶30和周圍區(qū)域的圖像以及提供圖像給其他用 戶30的任何合適的硬件和/或軟件。每個視頻信號可作為分開的視頻流來 發(fā)送(例如,每個相機34都發(fā)送它自己的視頻流)。在具體實施例中, 相機34捕捉和發(fā)送一個或多個用戶30的圖像作為高清晰度視頻信號。監(jiān) 視器36可包括輔助接收(一個或多個)視頻流和向用戶30顯示接收到的 視頻流的任何合適的硬件和/或軟件。例如,監(jiān)視器36可包括筆記本PC、 墻上安裝的監(jiān)視器、地板上安裝的監(jiān)視器或自立式(free standing)監(jiān)視 器。雖然,如所示出的,端點14包含每個用戶30—個相機34和一個監(jiān) 視器36,但是被理解的是,端點14可包含每個都與任何合適數目的用戶 30相關聯的任何合適數目的相機34和監(jiān)視器36。
麥克風38和揚聲器40生成和投射視頻會議期間的音頻流。麥克風38 提供來自用戶30的音頻輸入。麥克風38可從每個麥克風38周圍的噪聲生 成音頻流。揚聲器40可包括輔助接收(一個或多個)音頻流和向用戶30
18投射接收到的音頻流的任何合適的硬件和/或軟件。例如,揚聲器40可包 括高保真揚聲器。雖然,如所示出的,端點14包含每個用戶30—個麥
克風38和一個揚聲器40,但是被理解的是,端點14可包含每個都與任何 合適數目的用戶30相關聯的任何合適數目的麥克風38和揚聲器40。
控制器42控制遙現設備32的操作和管理??刂破?2可處理從諸如麥 克風38、相機34和網絡接口 46之類的、遙現設備32的其他元件接收的 信息和信號??刂破?2可包括任何合適的硬件、軟件和/或邏輯。例如, 控制器42可以是可編程邏輯器件、微控制器、微處理器、任何合適的處 理裝置或上述的任何組合。存儲器44可存儲在提供視頻會議功能方面由 控制器42使用的任何數據或邏輯。在一些實施例中,存儲器44可存儲全 部或部分的視頻會議。存儲器44可包括任何形式的易失性或非易失性存 儲器,包括但不限于磁介質、光介質、隨機存取存儲器(RAM)、只讀存 儲器(ROM)、可拆卸介質、或任何其他合適的本地或遠程存儲組件。網 絡接口 46可向網絡12傳送信息和信號,并且從網絡12接收信息和信號。 網絡接口 46表示任何端口或連接,真實或虛擬的,包括使遙現設備32能 與視頻會議系統10中的網絡12、其他遙現設備32和/或其他裝置交換信 息和信號的任何合適的硬件和/或軟件。
當端點14參與視頻會議時,視頻流可由每個相機34生成并且被發(fā)送 至呼叫的遠端參與者。類似地,端點14可利用麥克風38捕捉相應的音頻 流并且與視頻流一起發(fā)送這些音頻流。在多點視頻會議的情況下,遠端參 與者可以是選出的管理MCU 22,并且管理MCU 22可能需要或者可能不 需要一個或多個視頻流。對于這些和類似的情況,端點14可支持暫停一 個或多個它的視頻流的發(fā)送。例如,如果對應于特定相機34的麥克風38 己超過針對給定時間段的預定閾值還沒檢測到輸入,則MCU 22可指示端 點14中止發(fā)送由相應相機34生成的視頻流。響應地,端點14可臨時停止 發(fā)送視頻流。此時間段可被自動調節(jié),并且可以啟發(fā)式地或利用可配置的 參數來確定??商娲鼗蚋郊拥兀它c14可獨立確定它的視頻流是不需 要的并且可單向地暫停發(fā)送。如果MCU 22檢測到活動說話者可能對應于 被停止的視頻流,則MCU 22可發(fā)送開始視頻消息至適當的端點14??商娲鼗蚋郊拥兀跈z測到超過預定閾值的輸入之后,端點14可重啟視頻 流的發(fā)送。
根據具體實施例,控制器42監(jiān)控來自麥克風38的輸入,并且向每個 輸入音頻流指派置信值。例如,端點14可指派從1到10 (或者任何其他 合適的范圍)的置信值,該置信值指示麥克風38正在從相應的(一個或 多個)用戶30接收所希望的音頻輸入的可能性。為了生成這些置信值, 端點14可使用任何適當的算法和數據。例如,端點14可處理接收到的音 頻輸入,并且甚至可使用從適當相機34接收的相應視頻輸入來確定相應 的(一個或多個)用戶30希望提供輸入的可能性。在規(guī)則的間隔或其他 適當時間,端點14可將這些經測量的置信值嵌入它的音頻流中,或者以 另外的方式將這些值發(fā)信號給管理MCU22。在某些實施例中,端點14將 用于每個視頻流的置信值發(fā)送至它的管理MCU 22。 MCU 22然后可使用 這些置信值來幫助選擇活動的音頻和視頻流,它們可被提供至參與視頻會 議的端點14。
在視頻會議期間,端點14可在監(jiān)視器36上顯示三個視頻流(或者更 多,在單個監(jiān)視器36顯示多個視頻流的情況下)。在具體實施例中,端 點14利用對哪個監(jiān)視器36應當顯示每個視頻流的指示來接收三個視頻 流。作為具體示例,考慮四個三重端點14之間的視頻會議。在此示例 中,參與端點14總共生成十二個視頻流。在會議期間,MCU22確定哪些 視頻流將由參與端點14處的哪些監(jiān)視器來顯示。在此示例中,從每個端 點14接收的三個視頻流可被指定為左、中和右流。在每個參與端點14 處,監(jiān)視器36將會顯示活動的左視頻流、活動的中視頻流和活動的右視 頻流。這提供了用于維持參與者的空間 一致性的相對直接的技術。
為了避免迫使活動說話者觀看它自己的視頻饋給(feed) , MCU 22 可選擇替代的視頻饋給,例如先前的活動視頻流。例如,如果參與端點14 的左視頻流被選為活動流,則MCU 22可向此端點14提供替代的左視頻 流。
如果單重或雙重端點14也參與和三重端點14的呼叫,則MCU 22可 使用適當的技術來確保來自這些端點14的視頻流維持空間一致性。例如,MCU22可確保來自雙重端點14的視頻饋給總是保持在所有顯示器上
正確的左-右配置中。然而,應當明白,來自具有小于最大數目的監(jiān)視器
的端點14的視頻流可被不同地對待,同時仍然維持參與者之間的空間一 致性。例如,在不損害空間一致性的情況下,來自單重端點14的視頻饋 給可被置于左、中或右監(jiān)視器36上。
在具體實施例中,主MCU22創(chuàng)建和存儲"虛擬表",該虛擬表維持 了參與視頻會議的所有用戶的空間一致性。使用此虛擬表以及與選擇哪些 視頻流用于發(fā)送有關的策略,MCU 22可確定哪些監(jiān)視器36顯示視頻流中 的哪些。例如,通過使用虛擬表,MCU 22a可確定針對左監(jiān)視器36a、中 監(jiān)視器36b和右監(jiān)視器36c的活動說話者。這可實現用于確定適當的視頻 饋給以顯示在每個端點14處的監(jiān)視器36上的更復雜的算法。然而,系統 10考慮到了 MCU 22使用用于確定哪些視頻饋給顯示在哪些監(jiān)視器36上 的任何合適的算法。例如,系統操作者可確定空間一致性是不重要的,并 且MCU 22可被配置為當選擇和提供視頻流時完全不管空間關系。
此外,在某些實施例中,端點14可將一個或多個監(jiān)視器36的部分劃 分成分開區(qū),每個區(qū)仿佛它是分開的監(jiān)視器般發(fā)揮作用。通過將監(jiān)視器劃 分成分幵區(qū),端點14可以能夠顯示額外的視頻流。
生成和接收三個視頻流的端點14的具體實施例已被描述,并且不希 望是全部包括的。要理解,雖然端點14被描述為具有三重配置,但是端 點14可生成和接收任何合適數目的音頻和視頻流。生成的音頻流、接收 到的音頻流、生成的視頻流和接收到的視頻流的數目可以是不同的。雖然 端點14被描繪為包含元件和裝置的某配置和布置,但是應當注意,這是 邏輯描繪,并且可以既邏輯地又物理地酌情組合、分開和分布端點14的 組件和功能。例如,端點14可包括任何合適數目的相機34和監(jiān)視器36以 輔助視頻會議。此外,可通過組件的任何合適的聚集和布置來提供端點14 的功能。
圖3示出多點控制單元(MCU),該單元總地指示為MCU 22,該單 元通過選擇某些視頻流以發(fā)送至視頻會議參與者來在多點視頻會議期間優(yōu) 化帶寬。視頻會議參與者可包括一個或多個受管理端點14和/或其他MCU
2122。在所示的實施例中,MCU 22包括網絡接口 50、控制器52、交叉點交換器54和存儲器56。
網絡接口 50支持與視頻會議系統IO的其他元件的通信。網絡接口 50可與端點14和其他MCU 22相連接。在具體實施例中,網絡接口50可包括有線以太網接口。雖然被描述和示出為MCU 22內的單個組件,但是被理解的是,這是邏輯描繪。網絡接口 50可由用于將MCU 22與視頻會議系統10的其他元件和/或網絡12相接口的任何合適的組件、硬件、軟件和/或邏輯所組成。這里所使用的術語"邏輯"包括軟件、固件以及可運行以執(zhí)行操作的計算機可讀代碼。
總的說來,控制器52控制MCU22的操作和功能??刂破?2可處理由MCU 22通過網絡接口 50接收的信息??刂破?2還可訪問存儲器56中的信息以供操作期間使用并且在該存儲器56中存儲信息。雖然被描繪為MCU22中的單個元件,但是被理解的是,控制器52的功能可由一個或多個元件來執(zhí)行??刂破?2可具有控制MCU 22的操作的任何合適的額外功能。
交叉點交換器54 —般地使MCU 22能接收和轉發(fā)從端點14和/或其他MCU 22接收到的分組至端點14和/或其他MCU 22。在具體實施例中,MCU 22接收來自一個或多個端點14的視頻、音頻和/或數據流中的分組,并且轉發(fā)這些分組至另一MCU22。交叉點交換器54可轉發(fā)特定視頻流至端點14和/或其他MCU 22。在具體實施例中,交叉點交換器54確定活動說話者。為了確定活動說話者,交叉點交換器54可分析從受管理端點14和/或其他MCU 22接收的音頻流以確定哪個端點14包含正在口頭通信的用戶。在具體實施例中,交叉點交換器54估計與每個接收到的音頻流相關聯的置信值以確定(一個或多個)活動流。基于(一個或多個)活動說話者,MCU 22可選擇視頻流以發(fā)送至受管理端點14和/或其他MCU22。交叉點交換器54還可聚合從端點14和/或其他MCU 22接收的一些或全部音頻流。在具體實施例中,交叉點交換器54轉發(fā)聚合的音頻流至受管理端點14和其他MCU 22。交叉點交換器54可包含執(zhí)行這些功能或任何其他合適功能的硬件、軟件、邏輯和/或任何適當的電路。此外,雖然被描述為MCU 22內的不同元件,但是被理解的是,網絡接口 50和交叉點交換器54是邏輯元件并且可物理地實現為MCU 22中的一個或多個元件。
存儲器56存儲由MCU 22使用的數據。在所示的實施例中,存儲器56包含端點信息58、會議信息60、虛擬表62、選擇策略64和選擇數據66。
端點信息58和會議信息60分別可包括與受管理端點14和涉及端點14的視頻會議有關的任何合適的信息。例如,端點信息58可存儲與指派給用于特定視頻會議的MCU 22的端點14的數目和類型有關的信息。端點信息58還可指定從特定端點14預期的視頻、音頻和/或數據流的數目(如果有的話)。端點信息58可指示每個端點14預期接收的視頻流的數目。在具體實施例中,當MCU 22被指定為用于特定視頻會議的主MCU時,端點信息58存儲與參與視頻會議的所有端點14有關的信息。會議信息60可包含與MCU 22將會建立或管理的經調度的或專門的視頻會議有關的信息。例如,會議信息60可包括視頻會議的調度開始時間和持續(xù)吋間,并且可包括視頻會議所必需的額外資源。在具體實施例中,會議信息60包括與可能正在參與特定視頻會議的其他MCU 22有關的信息。例如,會議信息60可包括對于哪個MCU 22將會在視頻會議期間作為主MCU 22來操作以及哪些其他MCU 22 (如果有的話)將會作為受控MCU 22來操作的指定。在具體實施例中,哪個MCU 22被指定為主MCU 22可基于任何數目的因素在視頻會議期間被修改,這些因素例如哪些端點14連接至會議、從會議斷開和/或包含最活動的說話者。在某些實施例中,用于特定視頻會議的主MCU 22具有大于或等于由任何參與的受控MCU 22管理的端點14的數目的受管理端點14的數目。要理解,存儲器56可包括與視頻會議系統10內的端點14、 MCU 22和/或任何其他元件有關的任何合適的自
虛擬表62維持視頻會議期間參與者的空間一致性。在具體實施例中,利用虛擬表62, MCU22確保特定三重端點14的左側的相機34c總是顯示在任何三重端點14的左監(jiān)視器36c上。對虛擬表的指派可持續(xù)視頻會
23議的持續(xù)時間。因此,當多于一個的監(jiān)視器在端點14處可用時,MCU22可使用虛擬表62來確保遠程用戶貫穿視頻會議都顯示在相同的監(jiān)視器上。這可使得用戶更容易識別所顯示的用戶是誰和在哪。在具體實施例中,由虛擬表62表示的虛擬表處的位置針對每個端點14都是不同的。例如,雖然特定視頻流可顯示在端點14b的左監(jiān)視器36上,但是相同的視頻流可顯示在端點14a的中監(jiān)視器上。雖然以具體的方式來描述,但是被理解的是,虛擬表62可以以任何適當的方式為用戶指定虛擬的"位置"。
MCU 22還可包括一個或多個選擇策略64。每個選擇策略64都可標識用于選擇視頻流以在視頻會議期間發(fā)送的特定算法。例如,選擇策略64之一可指定特定視頻流應當顯示在參與視頻會議的所有端點14處。結果,MCU 22可選擇至少此特定視頻流用于發(fā)送至視頻會議中涉及的端點14禾B/或MCU 22。例如,當個體正在作陳述或者當公司的CEO正在對各種不同辦公室處的雇員演講時,此選擇策略64可以是適當的。作為另一示例, 一種策略可指定一個或多個活動說話者應當顯示在端點14處。結果,MCU22可確定(一個或多個)活動說話者,并且選擇與這些(一個或多個)活動說話者相對應的(一個或多個)視頻流用于發(fā)送至視頻會議中涉及的端點14禾Q/或MCU 22。 MCU 22可使用任何合適的手段來確定使用哪一個或多個選擇策略64。例如,會議信息60可標識哪一個或多個選擇策略64應用于特定視頻會議期間。
選擇數據66存儲由選擇策略64用來確定 些視頻流發(fā)送至端點14和/或其他MCU 22的數據。例如,如果活動說話者選擇策略64被選中,則選擇數據66可標識(一個或多個)活動說話者。在具體實施例中,選擇數據66還指定(一個或多個)替代的活動說話者,從而,不是看到他自身的視頻,而是當前的活動說話者被示出對應于替代活動說話者的視頻流。
在操作中,充當主MCU的MCU 22選擇特定視頻流以發(fā)送至一個或多個端點14和/或其他MCU 22,以便優(yōu)化視頻會議期間的帶寬使用。MCU 22可標識當選擇視頻會議期間的視頻流時 用的一個或多個選擇策略64,例如主要說話者優(yōu)先(override)和/或活動說話者。如果活動說話 者選擇策略64被建立,則MCU 22可選擇特定的視頻流來發(fā)送。在具體 實施例中,此選擇基于活動說話者、替代的活動說話者、虛擬表62中不 同說話者的位置、以及任何其他合適的因素。
MCU 22可通過確定參與端點14將會同時接收的視頻流的最大數目, 來確定選擇的視頻流的數目。此信息可存儲在端點信息58和/或會議信息 60中。在某些實施例中,當端點14要么是單重的、要么是雙重的、要么 是三重的端點14時,所顯示的流的此最大數目是三。在具體實施例中, 沒有端點14接收它自己所生成的視頻流,所以MCU22可選擇多達六個 視頻流用于發(fā)送三個活動說話者流以及發(fā)送至活動說話者的三個替代說 話者流。選擇數據66可存儲對當前活動說話者和上一活動說話者的指 示。例如,端點14可接收要顯示在左、中和右監(jiān)視器上的多達三個視頻 流的情況下,選擇數據66可存儲活動的左說話者、替代的左說話者、活 動的中說話者、替代的中說話者、活動的右說話者和替代的右說話者。
當新的活動說話者被選中時,虛擬表62可用來確定新的活動說話者 的位置。例如,虛擬表62可指定某些視頻流定位于左、中或右位置。利 用虛擬表62, MCU 22可判斷新的活動說話者是否變?yōu)榛顒拥淖笳f話者、 活動的右說話者或活動的中說話者。如果虛擬表62沒有指定新的活動說 話者的位置,則MCU 22可為新的活動說話者選擇位置。在具體實施例 中,MCU 22將新的活動說話者放在與已經保持安靜最長時間段的活動說 話者(左、中或右)相對應的位置。
MCU22的具體實施例已被示出和描述,并且不希望是全部包括的。 雖然MCU22被描繪為包含組件的某配置和布置,但是應當注意,這是邏 輯描繪,并且可以既邏輯地又物理地酌情組合、分開和分布MCU 22的組 件和功能。MCU22的功能可由在多點視頻會議期間優(yōu)化帶寬的任何合適 組件來執(zhí)行。
圖4是總地指示為80的流程圖,示出在主MCU 82處和在受控MCU 84處執(zhí)行的優(yōu)化帶寬的方法。在具體實施例中,主MCU 82和受控MCU 84具有類似于MCU 22的功能?;驍?據流。在具體實施例中,MCU 84從一個或多個受管理端點14接收多個音 頻流和多個視頻流。受控MCU 84在步驟88處分析接收到的音頻流,并 且在步驟90中確定選中的視頻流。在具體實施例中,MCU 84分析接收到 的音頻流以識別一個或多個活動說話者。為了識別(一個或多個)活動說 話者,MCU 84可估計與每個接收到的音頻流相關聯的置信值。MCU 84 可選擇與(一個或多個)當前活動說話者和/或(一個或多個)替代說話者 相對應的視頻流。MCU 84可使它對視頻流的選擇基于虛擬表中說話者的 位置。在具體實施例中,MCU 84基于任何一個端點14處同時顯示的視頻 流的最大數目來確定選擇的視頻流的數目。例如,如果僅僅單重、雙重和 三重端點14被涉及在特定視頻會議中,則MCU 84可選擇三個視頻流。 在步驟92處,受控MCU 84向主MCU 82發(fā)送選中的視頻流和接收到的 音頻流。
在步驟94處,主MCU 82從受管理端點14接收音頻、視頻和/或數據 流。在具體實施例中,主MCU 82從一個或多個受管理端點14接收多個 音頻流和多個視頻流。在步驟96處,主MCU 82接收由受控MCU 84發(fā) 送的音頻和視頻流。在具體實施例中,步驟94和96可以以任何合適的順 序發(fā)生,例如步驟94和96可并行地發(fā)生。
在步驟98處,主MCU 82分析從受管理端點14和受控MCU 84接收 的音頻流。在步驟100中,從接收到的音頻流,主MCU82確定所選擇的 視頻流。這些選中的視頻流可包括從受控MCU 84接收的一個、很多或零 個視頻流。在具體實施例中,類似于MCU 84, MCU 82分析接收到的音 頻流以識別一個或多個活動說話者。為了識別(一個或多個)活動說話 者,MCU 82可估計與每個接收到的音頻流相關聯的置信值。主MCU 82 還可選擇與當前活動說話者和/或替代說話者相對應的視頻流。MCU 82還 可使它對視頻流的選擇基于虛擬表處說話者的位置。此虛擬表可以是虛擬 表62。在具體實施例中,MCU 82可選擇多達MCU 84所選擇的兩倍多的 視頻流。例如,如果MCU 84發(fā)送三個視頻流并且所有的三個視頻流都被 MCU 82選擇,則MCU 82可選擇與原始的三個活動說話者相對應的、要顯示在監(jiān)視器36處的額外的三個視頻流。在步驟102處,主MCU 82可聚 合音頻流。在具體實施例中,MCU 82聚合從端點14和MCU 84接收的所 有音頻流。在聚合期間,MCU 82可使用任何合適的協議或技術來減小聚 合的音頻流中的噪聲、回聲和其他不希望的效果。在某些實施例中,MCU 82對接收到的音頻流的一些組合進行聚合。例如,MCU82可將特定音頻 流或其部分增加到對應于選中視頻流的音頻流中,并且可發(fā)送后面的流用 于與選中視頻流一起投射。
在步驟104處,主MCU82向受管理端點14和受控MCU22發(fā)送聚合 的音頻流和選中的視頻流。在具體實施例中,主MCU82向端點14和受 控MCU 84發(fā)送不同的選中視頻流。例如,主MCU 82可向受控MCU 84 發(fā)送與MCU 82所管理的端點14處的活動說話者相對應的三個視頻流; 然而主MCU 82可向原始地發(fā)送選中流的三個端點14中的每一個都發(fā)送 額外的視頻流。因此,端點14可以不接收由此端點14原始生成的視頻 流。受控MCU 22在步驟106處接收這些音頻和視頻流,并且在歩驟108 中向受管理端點14發(fā)送這些流。類似地,受控MCU 22可將不同的視頻 流發(fā)送至不同的受管理端點14以提供端點14處的更希望的用戶體驗。
參考圖4描述的方法僅是例示性的,并且被理解的是,操作的方式以 及指示為執(zhí)行操作的裝置可以以任何適當的方式來修改。雖然該方法描述 了以特定順序執(zhí)行的具體步驟,但是應當理解,視頻會議系統IO考慮到 了以任何可操作順序來一些地、全部地或者不執(zhí)行步驟的元件的任何合適 的聚集和布置。如所描述的,主MCU 82和受控MCU 84以特定的方式來 選擇視頻流以在視頻會議期間發(fā)送。要理解,這些技術可以以任何合適的 方式來使之適應和修改,以便通過選擇特定視頻流以在視頻會議期間發(fā)送 來優(yōu)化帶寬。
圖5是示出特定方法的流程圖,該方法總地指示為120,該方法用于 通過選擇某些視頻流以發(fā)送至視頻會議參與者來優(yōu)化MCU 22處的帶寬。 在具體實施例中,MCU22是受控MCU22。
在步驟122處,MCU 22從受管理端點14接收音頻和視頻流。MCU 22還可接收來自另一 MCU 22的音頻和視頻流,并且可以以仿佛它們是從受管理端點14接收的相同的方式來處理這些流。在具體實施例中,MCU
22管理三個端點14d、 14e、 14f,其中端點14d具有單重配置,端點14e、 14f具有三重配置。因此,MCU 22可接收七個音頻流和七個視頻流。 MCU 22在步驟124處分析接收到的音頻流,并且在步驟126中判斷新的 活動說話者是否出現。MCU 22可確定哪個音頻流具有相應的活動說話 者。在具體實施例中,MCU 22通過估計每個音頻流的置信值來分析音頻 流。置信值可由端點14來確定并且可指示相應音頻流具有活動說話者的 可能性。如果新的活動說話者沒有出現,則方法120進至步驟140。
在步驟127處,MCU 22判斷對應于活動說話者的視頻饋給是否需要 開始。例如,當發(fā)送端點14先前從MCU 22接收到關于此視頻流的停 止-視頻消息時,開始視頻饋給可能是必需的。例如,在步驟138中停 止-視頻消息可能被發(fā)送至特定端點14。在具體實施例中,代替MCU22 發(fā)送開始-視頻消息,端點14確定何時它應當恢復特定視頻流的發(fā)送。 如果視頻饋給需要開始,則MCU 22在步驟128中發(fā)送開始_視頻消息。 在步驟129處,MCU 22選擇對應于活動說話者的視頻流。例如,如果 MCU 22確定活動說話者出現在端點14e的中心位置,則MCU 22可選擇 由端點14e的中心位置生成的視頻流。在步驟130處,MCU22確定虛擬 表處活動說話者的"位置"。在具體實施例中,MCU22訪問虛擬表62以 判斷活動說話者的虛擬位置是否已被設置。如果位置沒被設置,則MCU 22可設置活動說話者的位置。如果位置己被確定,則MCU 22識別此位 置。例如,如果活動說話者位于端點14e的中心位置,則MCU22可確定 此活動說話者位于虛擬表處的中心位置。從此"位置",MCU 22可確定 對應于此活動說話者的視頻流應當顯示在其他端點14的什么地方。
在步驟132處,MCU 22判斷活動說話者的位置是否與另一選中流的 位置相同。例如,如果端點14e處的中心位置被確定為當前的活動說話 者,則MCU 22判斷任何其他的選中視頻流是否對應于活動的中心說話 者。如果沒有另一選中流對應于此位置,則方法120進至步驟140。否 則,在步驟134處,MCU 22不選擇該另一視頻流。在具體實施例中, MCU 22可指定此未選中的視頻流作為替代的活動流。在步驟136處,
28MCU 22判斷相應的端點14是否應當繼續(xù)發(fā)送未選中視頻流。MCU 22可 以使此判斷基于自從活動說話者對應于未選中視頻流以來的時間長度。此 時間量的閾值可以被自動調節(jié)、啟發(fā)式地來確定、或者利用可配置的參數 來確定。如果視頻流應當被停止,則在步驟138中,MCU22將停止-視 頻消息發(fā)送至對應于未選中視頻流的端點14。在具體實施例中,代替 MCU 22發(fā)送停止-視頻消息,端點14確定何時它應當不再發(fā)送此特定的 (一個或多個)視頻流。在某些實施例中,如果此端點14確定它應當重 啟發(fā)送,則它將會重啟此特定的(一個或多個)視頻流的發(fā)送。例如,如 果端點14確定與相應音頻流相關聯的置信值超過閾值,則端點14可恢復 視頻流的發(fā)送。作為另一示例,端點14可確定相關聯的相機34已檢測到 超過預定閾值的輸入,并且可響應地重啟發(fā)送。
在步驟140處,受控MCU 22向主MCU 22發(fā)送接收到的音頻流和選 中的視頻流。在步驟142處,受控MCU 22從主MCU 22接收一個或多個 音頻流和選中的視頻流。在具體實施例中,主MCU選中的視頻流可以全 部地、 一些地或者不包括由受控MCU22選擇的視頻流。此外,受控 MCU 22可接收(一個或多個)聚合音頻流。每個選中視頻流都可具有它 自己相關聯的音頻流,該音頻流可以包括或者可以不包括從一個或多個其 他音頻流聚合的音頻。在步驟144處,受控MCU22訪問虛擬表以確定接 收到的視頻流應當如何分配至受管理端點14。例如,受控MCU22可能接 收四個視頻流,其中的三個與主MCU 22所管理的端點14a、 14b、 14c相 對應,并且其中的一個與端點14e的中心相對應。這些視頻流可指示端點 14e的中心是最新近活動的說話者,并且其他三個視頻流是虛擬表處左、 中和右位置處的替代活動說話者。因此,MCU 22可確定具有單重配置 的端點14d應當接收與端點14e的中心相對應的視頻流;具有三重配置的 端點i4e應當接收與遠程端點14a、 14b、 14c左、中和右位置相對應的視 頻流(從而端點14e不接收它原始生成的視頻流);并且具有三重配置的 端點14f應當接收與端點14e的中心以及遠程端點14a、 14b、 14c的左和 右位置相對應的視頻流。基于所確定的分布,MCU 22向受管理端點14發(fā) 送接收到的音頻流和選中的視頻流。
29參考圖5描述的方法僅是例示性的,并且被理解的是,操作的方式以 及指示為執(zhí)行操作的裝置可以以任何適當的方式來修改。雖然該方法描述 了以特定順序執(zhí)行的具體步驟,但是應當理解,視頻會議系統IO考慮到 了以任何可操作順序來一些地、全部地或者不執(zhí)行步驟的元件的任何合適
的聚集和布置。如所描述的,MCU22以特定的方式來選擇視頻流以在視
頻會議期間發(fā)送。要理解,這些技術可以以任何合適的方式來使之適應和 修改,以便通過選擇特定視頻流以在視頻會議期間發(fā)送來優(yōu)化帶寬。
圖6示出總地指示為150的示例多點視頻會議,該視頻會議通過選擇 特定視頻流以發(fā)送至端點14和/或MCU 22來優(yōu)化帶寬。如所示出的,多 點視頻會議150包括六個端點14a、 14b、 14c、 14d、 14e、 14f,主MCU 22a,以及受控MCU22b。
如所示出的,端點14被配置為三重。因此,每個端點14生成三個視 頻流并且轉發(fā)這三個視頻流至它的管理MCU 22。例如,端點14a生成視 頻流a,、 a2、 a3并且轉發(fā)這些流至MCU 22a。類似地,端點14d生成視頻 流d,、 d2、 d3并且轉發(fā)這些流至MCU22b。在此示例中,來自每個端點14 的三個視頻流分別可被指定為與下標"1" 、 "2"和"3"相對應的左、 中和右。在每個參與端點14處,三個監(jiān)視器36顯示接收到的左視頻流、 中視頻流和右視頻流。雖然沒有被分開地示出,但是每個端點14還生成 三個音頻流并且轉發(fā)這三個音頻流至它的管理MCU 22。每個音頻流都與 特定視頻流相關聯。端點14可確定與每個生成的音頻流相關聯的置信 值。此置信值可指示音頻流包含活動說話者的可能性。在具體實施例中, 端點14將這些置信值與音頻流一起發(fā)送至管理MCU 22。
受控MCU 22b可接收來自它的受管理端點14d、 14e、 14f的九個視頻 流和九個音頻流。從接收到的視頻流,MCU 22b確定選中的視頻流以發(fā)送 至主MCU 22a。在某些實施例中,受控MCU 22b選擇多達N個視頻流, 其中N等于任何端點14可同時顯示的視頻流的最大數目。在所示的實施 例中,N是三。雖然MCU 22b可選擇多達N個視頻流,但是在適當的環(huán) 境下,MCU22b可選擇少于N個視頻流。例如,如果MCU22b確定(或 者被MCU22a告知)沒有受管理端點14d、 14e、 14f所生成的視頻流正顯示在端點14a、 14b、 14c處,則MCU22b可以不選擇或發(fā)送任何視頻流至 MCU22a并且可以僅發(fā)送相應的音頻流,直到以另外的方式被指示。
在具體實施例中,MCU 22b通過識別任何當前活動的或新近活動的 (一個或多個)說話者,來選擇視頻流以發(fā)送至主MCU22a。例如, MCU 22b可分析音頻流以判斷一個或多個活動說話者是否出現。在具體實 施例中,MCU 22b估計與每個接收到的音頻流相關聯的置信值以判斷(一 個或多個)活動說話者的存在或不存在。MCU 22b還可存儲類似于選擇數 據66的選擇數據,該選擇數據可包含上一活動的左、中和右說話者以及 針對左、中和右位置的替代說話者的標識。例如,當新的活動或替代說話 者被識別出時,MCU 22b可更新選擇數據66?;谒鎯Φ倪x擇數據, MCU 22b可選擇和發(fā)送與左活動說話者、中活動說話者和右活動說話者相 對應的視頻流至MCU 22a。替代的左、中和右活動說話者可被維持,用于 發(fā)送至任何受管理端點14。例如,在所示的實施例中,MCU22b選擇三 個(N個)視頻流視頻流山,因為它可能具有活動說話者;以及視頻流 &和e3,因為選擇數據指示,中和右位置的視頻流,這些視頻流最新近地 具有有著活動說話者的音頻流。MCU 22b還可將所有接收到的音頻流發(fā)送 至MCU 22a 。
以與受控MCU 22b接收和處理從它的受管理端點14d、 14e、 14f接收 的音頻和視頻流類似的方式,主MCU 22a接收和處理來自它的受管理端 點14a、 14b、 14c的音頻和視頻流。此外,MCU22a接收來自MCU 22b 的音頻和視頻流。類似于MCU 22b, MCU 22a確定選擇哪些視頻流用于 發(fā)送至受管理端點14a、 14b、 14c和MCU 22b。在某些實施例中,主 MCU 22a將會選擇多達2N個視頻流,其中N等于任何端點14可同時顯 示的視頻流的最大數目。因此,在所示的實施例中,MCU22a選擇六個視 頻流用于發(fā)送至受管理端點14和MCU 22b。雖然MCU 22a可選擇多達 2N個視頻流,但是在適當的環(huán)境下,MCU22a可選擇少于2N個視頻流。
為了選擇視頻流,MCU 22a可分析接收到的音頻流以判斷(一個或多 個)活動說話者是否出現,并且可估計與音頻流相關聯的置信值。在所示 的實施例中,MCU 22a將選擇數據存儲在活動說話者表152中?;顒诱f話者表152針對虛擬表處的每個位置,即左、中和右將活動說話者標識為
"PRIM.(主要)"并且將替代說話者標識為"ALT.(替代)"。如所示 出的,活動說話者表152當前指定了活動的左說話者、活動的中說話者和 活動的右說話者山、a2和b3。因此,除端點14d以外的所有端點14將會 接收到d,視頻流用于顯示在左屏幕上。類似地,除端點14a以外的所有端 點14將會接收到a2視頻流用于顯示在中屏幕上,并且除端點14b以外的 所有端點14將會接收到b3視頻流用于顯示在右屏幕上。然而,因為用戶 可能發(fā)現不希望被顯示自身的視頻,所以活動說話者表152為活動說話者 提供三個替代說話者以選擇。如活動說話者表152中所示出的,端點14d 的左屏幕將會顯示a,視頻流,端點14a的中屏幕將會顯示e2視頻流,并且 端點14b的右屏幕將會顯示a3視頻流。
利用活動說話者表152, MCU 22a可選擇視頻流,并且可確定每個受 管理端點14和MCU 22b應當接收哪些視頻流。在所示的實施例中,MCU 22a向MCU 22b發(fā)送對應于主要活動流的視頻流,即山、&2和b3。此外, 如上所述,MCU 22a確定端點14d將不會顯示d,視頻流,所以MCU 22a 將替代活動流,即ai發(fā)送至MCU22b。因此,在所示的示例中,MCU22a 選擇四個視頻流(即N+l)用于發(fā)送至MCU 22b。除了選擇視頻流以 外,MCU 22a可選擇某些音頻流用于發(fā)送和/或聚合某些音頻流。例如, MCU 22a可選擇對應于選中視頻流的音頻流,并且將這些音頻流與它們相 應的視頻流一起發(fā)送至MCU22b和受管理端點14。在具體實施例中, MCU 22a將對應于未選中視頻流的一些音頻包括進對應于選中視頻流的音 頻流。
通過從MCU 22b向MCU 22a發(fā)送N個視頻流,可優(yōu)化MCU 22a與 MCU 22b之間的帶寬使用。在所示的實施例中,MCU22b接收九個視頻 流并且向MCU 22a發(fā)送可能用在視頻會議中的僅僅三個視頻流。此外, MCU 22b可向MCU 22a發(fā)送少于N個視頻流。例如,MCU 22a可指不 MCU 22b中止ei視頻流的發(fā)送,因為此視頻流最終沒有發(fā)送至任何參與端 點14。在具體實施例中,受控MCU 22b將音頻流和零視頻流發(fā)送至主 MCU 22a,直到MCU 22a指示MCU 22b發(fā)送一個或多個特定視頻流。MCU 22a還可通過確定哪些視頻流將會被MCU 22b所管理的端點14顯示 并且僅發(fā)送這些視頻流至MCU 22b,來優(yōu)化帶寬使用。
此外,例如,當受管理端點14d、 14e、 14f中止未被MCU 22b選中的 一些視頻流的發(fā)送時,MCU22b和受管理端點14d、 14e、 14f之間的帶寬 使用可被優(yōu)化。在具體實施例中,當相應的音頻流已經有閾值時間段不具 有活動說話者時,MCU 22b向端點14發(fā)送指定特定視頻流的停止-視頻 消息。此時間段可被自動調節(jié),并且可以啟發(fā)式地或利用可配置的參數來 確定。例如, 一旦自從對應于d3的音頻流指示了活動說話者以來已流逝了 五分鐘,MCU22b就可指示端點14d中止對應于d3的視頻流的發(fā)送。當相 應視頻流變得適當的時候,端點14d可繼續(xù)發(fā)送對應于ds的音頻流,并且 可重啟相應視頻流的發(fā)送。在具體實施例中,當MCU22b確定活動說話 者與此視頻流相關聯時,MCU 22b將開始-視頻消息發(fā)送至受管理端點 14,指示受管理端點14恢復視頻流的發(fā)送。在某些實施例中,當與相應 音頻流相關聯的置信值指示活動說話者的出現時,特定端點14重啟發(fā) 送。利用類似的技術可優(yōu)化MCU 22a和它的受管理端點14a、 14b、 14c之 間的帶寬使用。
多點視頻會議150的具體示例己被描述并且不希望是包括性的。雖然 多點視頻會議150被描繪為包含元件的某配置和布置,但是應當注意,這 這是示例,并且視頻會議可包含全部地、 一些地或者不執(zhí)行上述功能的元 件的任何合適的聚集和布置。
雖然已在幾個實施例中描述了本發(fā)明,但是無數的改變和修改可被暗 示給本領域的技術人員,并且希望本發(fā)明包括落在本所附權利要求內的這 樣的改變和修改。
權利要求
1.一種用于在視頻會議期間優(yōu)化帶寬的系統,包括多個多點會議單元(MCU),每個MCU都可操作用于輔助兩個或更多參與者之間的視頻會議,MCU還可操作用于輔助包括由兩個或更多MCU管理的參與者的級聯的視頻會議;多個端點,所述多個端點參與視頻會議,每個端點可操作用于建立與MCU中的選中的一個MCU的會議鏈接,生成多個視頻流和相應多個音頻流,在所述會議鏈接上發(fā)送所生成的視頻流和所生成的音頻流,接收多個視頻流和多個音頻流,利用多個揚聲器呈現所接收的音頻流,并且利用多個監(jiān)視器顯示所接收的視頻流;MCU中的受控MCU,所述受控MCU管理第一組端點,所述受控MCU可操作用于接收包括了從第一組端點中的每一個端點生成的視頻流的第一組可用視頻流;從所述第一組可用視頻流中選出N個潛在視頻流,其中N等于任一端點能夠并發(fā)顯示的活動視頻流的最大數目;并且向MCU中的主MCU發(fā)送所述潛在視頻流;以及所述主MCU,所述主MCU管理第二組端點,所述主MCU可操作用于接收包括了從第二組端點中的每一個端點生成的視頻流以及來自所述受控MCU的潛在視頻流的第二組可用視頻流;從所述第二組可用視頻流中選出活動視頻流,所述活動視頻流包括N個主要視頻流和M個替代視頻流;確定所述活動視頻流中所需的視頻流,用于傳送至第一組端點中的一個或多個端點;并且將所述活動視頻流中所需的視頻流發(fā)送至所述受控MCU。
2. 根據權利要求1所述的系統,其中所述活動視頻流中所需的視頻流 包括由第二組端點生成的活動流。
3. 根據權利要求1所述的系統,其中所述活動視頻流中所需的視頻流包括所述N個主要視頻流;并且 如果任何的主要視頻流都是由第一組端點生成的,則所需的視頻流還 包括所述M個替代視頻流中的一個或多個。
4. 根據權利要求1所述的系統,其中所述受控MCU和所述主MCU每個都還可操作用于對于每個主要視頻流,將該主要視頻流發(fā)送至沒有生成該主要視頻流的每個端點;并且對于生成L個主要流的每個受管理端點,將L個替代視頻流發(fā)送至此受管理端點。
5. 根據權利要求1所述的系統,其中從所述第一組可用視頻流中選出N個潛在視頻流包括對于所述第一組可用視頻流中的每個可用視頻流,識別與對應于該可 用視頻流的音頻流相關聯的置信值,所述置信值指示相應音頻流與活動說話者相關聯的可能性;并且選擇具有指示最高可能性的置信值的N個可用視頻流。
6. 根據權利要求1所述的系統,其中所述受控MCU和所述主MCU 每個都還可操作用于確定自從特定音頻流與活動說話者相關聯以來流逝了的時間段,所述 特定音頻流與由特定端點所生成的特定視頻流相對應;并且響應于該確定,發(fā)送停止-視頻消息至所述特定端點,所述停止-視 頻消息指示所述特定端點停止所述特定視頻流的發(fā)送。
7. 根據權利要求1所述的系統,其中M等于N。
8. 根據權利要求1所述的系統,還包括參與視頻會議的一個或多個單重端點,每個單重端點可操作用于生成 一個視頻流和一個音頻流并且用于接收一個視頻流和一個音頻流;其中所述多個端點包括一個或多個雙重端點和一個或多個三重端點, 每個雙重端點可操作用于生成兩個視頻流和兩個音頻流并且用于接收兩個 視頻流和兩個音頻流,每個三重端點可操作用于生成三個視頻流和三個音頻流并且用于接收三個視頻流和三個音頻流。
9. 根據權利要求1所述的系統,其中所述多個監(jiān)視器中的至少一個可操作用于顯示多個所接收的視頻流。
10. 根據權利要求1所述的系統,還包括遠程會議服務器,所述遠程會議服務器可操作用于從多個MCU中選出所述主MCU和所述受控MCU;并且向所述受控MCU發(fā)送消息,該消息標識所述主MCU。
11. 一種用于在視頻會議期間優(yōu)化帶寬的多點會議單元(MCU),所述MCU包括控制器,所述控制器可操作用于在第一操作模式中作為管理第一組參與視頻會議的多個端點的受控MCU來輔助視頻會議,每個端點可操作用于生成多個視頻流和相應多個音頻流并且用于接收不同的多個視頻流和不同的多個音頻流;接收包括了從第一組端點中的每一個端點生成的視頻流的第一組可用視頻流;從所述第一組可用視頻流中選出N個潛在視頻流,其中N等于任一端點能夠并發(fā)顯示的活動視頻流的最大數目;并且向主MCU發(fā)送所述潛在視頻流;并且所述控制器還可操作用于在第二操作模式中作為管理第二組端點的所述主MCU來輔助視頻會議;接收包括了從第二組端點中的每一個端點生成的視頻流以及來自所述受控MCU的潛在視頻流的第二組可用視頻流;從所述第二組可用視頻流中選出活動視頻流,所述活動視頻流包括N個主要視頻流和M個替代視頻流;確定所述活動視頻流中所需的視頻流,用于傳送至第一組端點屮的一個或多個端點;并且將所述活動視頻流中所需的視頻流發(fā)送至所述受控MCU。
12. 根據權利要求11所述的MCU,其中所述活動視頻流中所需的視頻流包括由第二組端點生成的活動流。
13. 根據權利要求ll所述的MCU,其中所述活動視頻流中所需的視頻流包括所述N個主要視頻流;并且如果任何的主要視頻流都是由第一組端點生成的,則所需的視頻流還包括所述M個替代視頻流中的一個或多個。
14. 根據權利要求11所述的MCU,其中所述控制器還可操作用于對于每個主要視頻流,將該主要視頻流發(fā)送至沒有生成該主要視頻流的每個端點;并且對于生成L個主要流的每個受管理端點,將L個替代視頻流發(fā)送至此受管理端點。
15. 根據權利要求11所述的MCU,其中從所述第一組可用視頻流中選出N個潛在視頻流包括對于所述第一組可用視頻流中的每個可用視頻流,識別與對應于該可用視頻流的音頻流相關聯的置信值,所述置信值指示相應音頻流與活動說話者相關聯的可能性;并且選擇具有指示最高可能性的置信值的N個可用視頻流。
16. —種用于在視頻會議期間優(yōu)化帶寬的方法,包括在第一操作模式中作為管理第一組參與視頻會議的多個端點的受控MCU來輔助視頻會議,每個端點可操作用于生成多個視頻流和相應多個音頻流并且用于接收不同的多個視頻流和不同的多個音頻流;接收包括了從第一組端點中的每一個端點生成的視頻流的第一組可用視頻流;從所述第一組可用視頻流中選出N個潛在視頻流,其中N等于任一端點能夠并發(fā)顯示的活動視頻流的最大數目;并且向主MCU發(fā)送所述潛在視頻流;并且在第二操作模式中作為管理第二組端點的所述主MCU來輔助視頻會議;接收包括了從第二組端點中的每一個端點生成的視頻流以及來自所述受控MCU的潛在視頻流的第二組可用視頻流;從所述第二組可用視頻流中選出活動視頻流,所述活動視頻流包括N個主要視頻流和M個替代視頻流;確定所述活動視頻流中所需的視頻流,用于傳送至第一組端點中的一個或多個端點;并且將所述活動視頻流中所需的視頻流發(fā)送至所述受控MCU。
17. 根據權利要求16所述的方法,其中所述活動視頻流中所需的視頻流包括由第二組端點生成的活動流。
18. 根據權利要求16所述的方法,其中所述活動視頻流中所需的視頻流包括所述N個主要視頻流;并且如果任何的主要視頻流都是由第一組端點生成的,則所需的視頻流還包括所述M個替代視頻流中的一個或多個。
19. 根據權利要求16所述的方法,還包括對于每個主要視頻流,將該主要視頻流發(fā)送至沒有生成該主要視頻流的每個端點;并且對于生成L個主要流的每個受管理端點,將L個替代視頻流發(fā)送至此受管理端點。
20. 根據權利要求16所述的方法,其中從所述第一組可用視頻流中選出N個潛在視頻流包括對于所述第一組可用視頻流中的每個可用視頻流,識別與對應于該可用視頻流的音頻流相關聯的置信值,所述置信值指示相應音頻流與活動說話者相關聯的可能性;并且選擇具有指示最高可能性的置信值的N個可用視頻流。
21. —種用于在視頻會議期間優(yōu)化帶寬的邏輯,所述邏輯編碼在介質中,并且當被執(zhí)行時可操作用于在第一操作模式中作為管理第一組參與視頻會議的多個端點的受控MCU來輔助視頻會議,每個端點可操作用于生成多個視頻流和相應多個音頻流并且用于接收不同的多個視頻流和不同的多個音頻流;接收包括了從第一組端點中的每一個端點生成的視頻流的第一組可用視頻流;從所述第一組可用視頻流中選出N個潛在視頻流,其中N等于任一端點能夠并發(fā)顯示的活動視頻流的最大數目;并且向主MCU發(fā)送所述潛在視頻流;并且在第二操作模式中作為管理第二組端點的所述主MCU來輔助視頻會議;接收包括了從第二組端點中的每一個端點生成的視頻流以及來自所述受控MCU的潛在視頻流的第二組可用視頻流;從所述第二組可用視頻流中選出活動視頻流,所述活動視頻流包括N個主要視頻流和M個替代視頻流;確定所述活動視頻流中所需的視頻流,用于傳送至第一組端點中的一個或多個端點;并且將所述活動視頻流中所需的視頻流發(fā)送至所述受控MCU。
22. 根據權利要求21所述的邏輯,其中所述活動視頻流中所需的視頻流包括由第二組端點生成的活動流。
23. 根據權利要求21所述的邏輯,其中所述活動視頻流中所需的視頻流包括所述N個主要視頻流;并且如果任何的主要視頻流都是由第一組端點生成的,則所需的視頻流還包括所述M個替代視頻流中的一個或多個。
24. 根據權利要求21所述的邏輯,還可操作用于對于每個主要視頻流,將該主要視頻流發(fā)送至沒有生成該主要視頻流的每個端點;并且對于生成L個主要流的每個受管理端點,將L個替代視頻流發(fā)送至此受管理端點。
25. 根據權利要求21所述的邏輯,其中從所述第一組可用視頻流中選出N個潛在視頻流包括對于所述第一組可用視頻流中的每個可用視頻流,識別與對應于該可用視頻流的音頻流相關聯的置信值,所述置信值指示相應音頻流與活動說話者相關聯的可能性;并且選擇具有指示最高可能性的置信值的N個可用視頻流。
26. —種用于在視頻會議期間優(yōu)化帶寬的系統,包括 在第一操作模式中用于作為管理第一組參與視頻會議的多個端點的受控MCU來輔 助視頻會議的裝置,每個端點可操作用于生成多個視頻流和相應多個音頻流并且用于接收不同的多個視頻流和不同的多個音頻流;用于接收包括了從第一組端點中的每一個端點生成的視頻流的第一組可用視頻流的裝置;用于從所述第一組可用視頻流中選出N個潛在視頻流的裝置,其 中N等于任一端點能夠并發(fā)顯示的活動視頻流的最大數目;以及用于向主MCU發(fā)送所述潛在視頻流的裝置;并且在第二操作模式中用于作為管理第二組端點的所述主MCU來輔助視頻會議的裝置;用于接收包括了從第二組端點中的每一個端點生成的視頻流以及 來自所述受控MCU的潛在視頻流的第二組可用視頻流的裝置;用于從所述第二組可用視頻流中選出活動視頻流的裝置,所述活 動視頻流包括N個主要視頻流和M個替代視頻流;用于確定所述活動視頻流中所需的視頻流,用于傳送至第一組端 點中的一個或多個端點的裝置;以及用于將所述活動視頻流中所需的視頻流發(fā)送至所述受控MCU的裝置。
全文摘要
多個多點會議單元(MCU)可通過選擇特定的視頻流以發(fā)送至參與視頻會議的端點和/或其他MCU來優(yōu)化帶寬。端點可生成視頻流和音頻流,并且將這些流發(fā)送至它的管理MCU。在視頻會議期間,端點還可接收和顯示不同的視頻流和不同的音頻流。在具體實施例中,受控MCU從它的受管理端點接收視頻流,基于任一端點能夠并發(fā)顯示的視頻流的最大數目來選擇潛在視頻流,并且向主MCU發(fā)送這些潛在視頻流。MCU還可以從它的受管理端點接收視頻流,并且可以選擇活動視頻流用于發(fā)送至它的受管理端點和受控MCU,受控MCU向它的受管理端點發(fā)送選中的流。
文檔編號H04L12/18GK101669324SQ200880013465
公開日2010年3月10日 申請日期2008年4月22日 優(yōu)先權日2007年4月27日
發(fā)明者克魯塔斯·M·沙赫, 拉加·K·V·R·卡利帕特那普, 拉杰什·維利亞特, 考·T·瑞恩, 莫西·V·艾特瑪酷睿 申請人:思科技術公司