專利名稱::來自多個(gè)視聽源的信息的合成的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及信息合成系統(tǒng),尤其涉及用于合成從聚焦于單個(gè)場景的多個(gè)音頻和可視源接收到的信息的系統(tǒng)。背景在過去,諸如計(jì)算機(jī)游戲和多媒體應(yīng)用等計(jì)算應(yīng)用使用控制器、遙控器、鍵盤、鼠標(biāo)等來允許用戶操縱游戲人物或應(yīng)用的其他方面。近來,計(jì)算機(jī)游戲和多媒體應(yīng)用已開始使用照相機(jī)和軟件姿勢識(shí)別引擎來提供自然用戶界面(“NUI”)。對于NUI,使用捕捉設(shè)備來檢測用戶移動(dòng)、姿勢和語音。相關(guān)聯(lián)的視聽數(shù)據(jù)被轉(zhuǎn)發(fā)至處理器,該處理器解釋該數(shù)據(jù)并使用該數(shù)據(jù)來控制游戲人物或者應(yīng)用程序的其他方面。當(dāng)前NUI系統(tǒng)可以使用單個(gè)捕捉設(shè)備來記錄來自玩游戲空間或場景的數(shù)據(jù)。然而,可能需要增大玩游戲空間或場景的大小。在此情況下,使用單個(gè)捕捉設(shè)備可能由于許多原因而不適合,諸如,例如,分辨率或場景的照明度不夠,或?qū)ο笤趫鼍皟?nèi)被遮蔽。對于這樣的情況,使用一個(gè)以上的捕捉設(shè)備將是有利的。需要一種系統(tǒng)來合成來自拍攝一個(gè)共同的場景的多個(gè)捕捉設(shè)備的數(shù)據(jù),以協(xié)調(diào)來自多個(gè)源的數(shù)據(jù)。
發(fā)明內(nèi)容此處公開了用于合成從聚焦于單個(gè)場景的多個(gè)音頻和可視源接收到的信息的系統(tǒng)。該系統(tǒng)可包括從兩個(gè)或更多源接收數(shù)據(jù)的計(jì)算環(huán)境。源可以是用于從玩游戲空間或場景捕捉音頻和/或可視數(shù)據(jù)的捕捉設(shè)備。本技術(shù)的各實(shí)施方式首先將捕捉設(shè)備彼此校準(zhǔn)以及與場景校準(zhǔn)。場景常??梢跃哂幸七M(jìn)移出場景的用戶和對象。如此,校準(zhǔn)過程的第一階段可包括時(shí)間同步來自多個(gè)捕捉設(shè)備的數(shù)據(jù),以確保來自音頻和可視源的數(shù)據(jù)在相同時(shí)間提供同一場景的數(shù)據(jù)。此后,可以通過標(biāo)識(shí)各種捕捉設(shè)備的圖像數(shù)據(jù)內(nèi)的關(guān)鍵點(diǎn)不連續(xù)性或線索來將捕捉設(shè)備彼此校準(zhǔn)。然后,可以通過標(biāo)識(shí)兩個(gè)或更多捕捉設(shè)備的圖像所共有的線索的數(shù)量,確定兩個(gè)或更多捕捉設(shè)備相對于彼此的相對位置。重復(fù)此過程,直到所有捕捉設(shè)備的位置都已經(jīng)相對于彼此被校準(zhǔn)。此后,可以將來自多個(gè)捕捉設(shè)備的可視數(shù)據(jù)協(xié)調(diào)并在縫合一起,以改進(jìn)系統(tǒng)的感應(yīng)和解釋場景的可視方面的能力。類似地,一旦校準(zhǔn)了不同的捕捉設(shè)備的位置,來自多個(gè)捕捉設(shè)備的音頻數(shù)據(jù)可以提供改進(jìn)的音頻質(zhì)量、噪聲消減和聲源定位。本技術(shù)的一個(gè)實(shí)施方式可以涉及用于合成來自多個(gè)源的場景的信息的方法。該方法下列步驟a)從第一源和第二源接收場景信息,第一和第二源在空間上彼此并與場景是分開的;b)根據(jù)場景信息以及由第一和第二源從場景共同檢測到的一個(gè)或多個(gè)線索,確定第一和第二源中的每一個(gè)的位置;以及c)基于在所述步驟b)中確定的第一和第二源的位置,以及從第一和第二源接收到的信息,創(chuàng)建場景的表示。本技術(shù)的再一個(gè)實(shí)施方式可以涉及用于合成來自多個(gè)源的場景的信息的方法,包括下列步驟a)從第一源和第二源接收場景信息,第一源相對于第二源的初始位置是未知的,第一和第二源在空間上彼此并與場景是分開的,場景信息包括圖像深度數(shù)據(jù)和RGB數(shù)據(jù)中的至少一種;b)根據(jù)圖像數(shù)據(jù)和RGB數(shù)據(jù)中的至少一種,以及來自場景的由第一和第二源共享的場景信息,確定第一和第二源00)中的每一個(gè)的位置;以及c)基于在所述步驟b)中確定的第一和第二源的位置,以及從第一和第二源接收到的信息,創(chuàng)建場景的表示。本技術(shù)的再一個(gè)實(shí)施方式可以涉及用于合成來自多個(gè)捕捉設(shè)備的游戲應(yīng)用程序中的玩游戲空間的信息的方法,多個(gè)捕捉設(shè)備中的捕捉設(shè)備包括深度照像機(jī)、RGB照像機(jī)和至少一個(gè)話筒。該方法可包括下列步驟a)從第一捕捉設(shè)備和第二捕捉設(shè)備接收圖像深度數(shù)據(jù)和RGB深度數(shù)據(jù),來自第一和第二捕捉設(shè)備的圖像深度數(shù)據(jù)和RGB深度數(shù)據(jù)被時(shí)間同步在一起,第一和第二捕捉設(shè)備在空間上彼此并與玩游戲空間是分開的;b)根據(jù)已同步的圖像深度數(shù)據(jù)和RGB數(shù)據(jù)的組合,以及由第一和第二捕捉設(shè)備從玩游戲空間共同檢測到的多個(gè)線索,確定第一和第二捕捉設(shè)備中的每一個(gè)的位置和方向;c)基于在所述步驟b)中確定的第一和第二捕捉設(shè)備的位置,以及從第一和第二捕捉設(shè)備接收到的圖像深度數(shù)據(jù)和RGB深度數(shù)據(jù),創(chuàng)建玩游戲空間的表示;d)將來自第一捕捉設(shè)備的玩游戲空間表示的第一部分與來自第二捕捉設(shè)備的玩游戲空間表示的第二部分縫合在一起;以及e)在與第一和第二捕捉設(shè)備相關(guān)聯(lián)的顯示器上呈現(xiàn)玩游戲空間的表示。提供本
發(fā)明內(nèi)容以便以簡化形式介紹將在以下的具體實(shí)施方式中進(jìn)一步描述的一些概念。本
發(fā)明內(nèi)容并不旨在標(biāo)識(shí)出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。此外,所要求保護(hù)的主題不限于解決在本發(fā)明的任一部分中提及的任何或所有缺點(diǎn)的實(shí)現(xiàn)。圖IA示出了目標(biāo)識(shí)別、分析,及跟蹤系統(tǒng)的示例實(shí)施方式,用戶正在玩游戲。圖IB示出了目標(biāo)識(shí)別、分析,及跟蹤系統(tǒng)的另一示例實(shí)施方式,用戶正在操作圖形用戶界面。圖IC示出了目標(biāo)識(shí)別、分析,及跟蹤系統(tǒng)的另一示例實(shí)施方式,用戶正在玩游戲。圖2示出了可以用于目標(biāo)識(shí)別、分析和跟蹤系統(tǒng)中的捕捉設(shè)備的示例實(shí)施方式。圖3A示出了可以被用來解釋目標(biāo)識(shí)別、分析和跟蹤系統(tǒng)中的一個(gè)或多個(gè)姿勢的計(jì)算環(huán)境的示例實(shí)施方式。圖IBB示出了可以被用來解釋目標(biāo)識(shí)別、分析和跟蹤系統(tǒng)中的一個(gè)或多個(gè)姿勢的計(jì)算環(huán)境的另一示例實(shí)施方式。圖4示出了從圖2的目標(biāo)識(shí)別、分析,及跟蹤系統(tǒng)生成的用戶的骨架映射。圖5是用于將捕捉設(shè)備彼此校準(zhǔn)以及針對場景校準(zhǔn)的過程的高級別流程圖。圖6是用于同步圖像數(shù)據(jù)以便將捕捉設(shè)備彼此校準(zhǔn)以及與場景校準(zhǔn)的過程的流程圖。圖7是帶有用于捕捉設(shè)備彼此校準(zhǔn)以及針對場景校準(zhǔn)的過程的進(jìn)一步的細(xì)節(jié)的流程圖。圖8是用于從多個(gè)捕捉設(shè)備捕捉數(shù)據(jù)并同步該數(shù)據(jù)以呈現(xiàn)場景的表示的的流程圖。圖9是帶有用于將圖像縫合在一起的過程的進(jìn)一步的細(xì)節(jié)的流程圖。圖10是對來自多個(gè)捕捉設(shè)備的音頻數(shù)據(jù)的流程圖。具體實(shí)施例方式現(xiàn)在將參考圖1-10描述本技術(shù)的各實(shí)施方式,它們一般涉及用于合成從聚焦于單個(gè)場景的多個(gè)音頻和可視源接收到的信息的系統(tǒng)。在各實(shí)施方式中,該系統(tǒng)在NUI系統(tǒng)內(nèi)操作,包括用于從單個(gè)玩游戲空間或場景捕捉音頻和/或可視數(shù)據(jù)的兩個(gè)或更多捕捉設(shè)備。由于捕捉設(shè)備的位置一般可能不是已知的,因此,可以確定捕捉設(shè)備相對于場景和相對于彼此的位置和方向。由于場景常常可以具有移進(jìn)移出場景的用戶和對象,可以使來自多個(gè)捕捉設(shè)備的數(shù)據(jù)在時(shí)間上同步,以確保來自音頻和可視源的數(shù)據(jù)在相同時(shí)間提供同一場景的數(shù)據(jù)??梢砸黄饏f(xié)調(diào)和吸收來自多個(gè)源的音頻和/或可視數(shù)據(jù),以改進(jìn)系統(tǒng)的解釋場景的音頻和/或可視方面的能力。最初參考圖1A-2,用于實(shí)現(xiàn)本發(fā)明的技術(shù)的硬件包括目標(biāo)識(shí)別、分析和跟蹤系統(tǒng)10,該系統(tǒng)可用于識(shí)別、分析和/或跟蹤諸如用戶18等一個(gè)或多個(gè)人類目標(biāo)。目標(biāo)識(shí)別、分析與跟蹤系統(tǒng)10的實(shí)施方式包括用于執(zhí)行游戲或其他應(yīng)用的計(jì)算環(huán)境12。計(jì)算環(huán)境12可以包括硬件組件和/或軟件組件,使得計(jì)算系統(tǒng)12可以用于執(zhí)行諸如游戲應(yīng)用和非游戲應(yīng)用之類的應(yīng)用。在一個(gè)實(shí)施方式中,計(jì)算環(huán)境12可以包括諸如標(biāo)準(zhǔn)化處理器、專用處理器、微處理器等之類的處理器,該處理器可以執(zhí)行存儲(chǔ)在處理器可讀存儲(chǔ)設(shè)備上的用于執(zhí)行在此所述的過程的指令。該計(jì)算環(huán)境可以從在各實(shí)施方式中可以是或包括多個(gè)捕捉設(shè)備20的多個(gè)源接收信息。捕捉設(shè)備20捕捉與捕捉設(shè)備感測到的一個(gè)或多個(gè)用戶和/或?qū)ο笙嚓P(guān)的圖形和音頻數(shù)據(jù)。在各實(shí)施方式中,捕獲設(shè)備20可以用于捕獲與一個(gè)或多個(gè)用戶的移動(dòng)、姿勢和話音相關(guān)的信息,所述信息被計(jì)算環(huán)境接收并且被用于呈現(xiàn)游戲或其他應(yīng)用的方面、與所述方面交互和/或控制所述方面。在各實(shí)施方式中,每一個(gè)捕捉設(shè)備20可以是彼此相同的,但在另外的實(shí)施方式中它們不一定是相同的。下面更詳細(xì)地解釋計(jì)算環(huán)境12和捕獲設(shè)備20的示例。目標(biāo)識(shí)別、分析與跟蹤系統(tǒng)10的實(shí)施方式可以連接到具有顯示器14的音頻/視覺設(shè)備16。設(shè)備16例如可以是可以向用戶提供游戲或應(yīng)用視覺和/或音頻的電視機(jī)、監(jiān)視器、高清電視機(jī)(HDTV)等等。例如,計(jì)算環(huán)境12可以包括諸如圖形卡之類的視頻適配器和/或諸如聲卡之類的音頻適配器,這些適配器可提供與游戲應(yīng)用、或其他應(yīng)用相關(guān)聯(lián)的音頻/視覺信號(hào)。音頻/視覺設(shè)備16可以從計(jì)算環(huán)境12接收音頻/視覺信號(hào),并且然后可以向用戶18輸出與該音頻/視覺信號(hào)相關(guān)聯(lián)的游戲或應(yīng)用視覺和/或音頻。根據(jù)一個(gè)實(shí)施方式,音頻/視覺設(shè)備16可以通過例如S-視頻電纜、同軸電纜、HDMI電纜、DVI電纜、VGA電纜、分量視頻電纜等等連接到計(jì)算環(huán)境12。在各實(shí)施方式中,計(jì)算環(huán)境12、A/V設(shè)備16和捕獲設(shè)備20可以協(xié)作以在顯示器14上呈現(xiàn)一個(gè)或多個(gè)化身或屏幕上人物19。在各實(shí)施方式中,化身19模仿對應(yīng)的用戶18在現(xiàn)實(shí)世界空間中的移動(dòng),使得用戶18可以執(zhí)行控制化身19在顯示器14上的移動(dòng)和動(dòng)作的移動(dòng)和姿勢。如圖IA到圖IC所示,可以定位一個(gè)或多個(gè)用戶18以使其移動(dòng)和/或語音被兩個(gè)或更多捕捉設(shè)備20捕捉到。如此處所使用的,場景是由捕捉設(shè)備20的圖像和/或音頻傳感器捕捉到的聚集區(qū)域。玩游戲空間是由捕捉設(shè)備20在運(yùn)行在計(jì)算環(huán)境12上的游戲應(yīng)用程序的上下文中捕捉到的場景。圖IA示出了包括兩個(gè)捕捉場景的捕捉設(shè)備20的實(shí)施方式。圖IB示出了包括三個(gè)捕捉場景的捕捉設(shè)備20的實(shí)施方式。應(yīng)該理解,在更進(jìn)一步的實(shí)施方式中,可以有三個(gè)以上的捕捉設(shè)備20。每一個(gè)捕捉設(shè)備20都可以被設(shè)置為任意位置和方向,并帶有一焦距,以捕捉場景的至少一部分。在各實(shí)施方式中,每一個(gè)捕捉設(shè)備都可以捕捉場景的一部分,多個(gè)捕捉設(shè)備之間的重疊只在一個(gè)或多個(gè)邊界區(qū)發(fā)生。在更進(jìn)一步的實(shí)施方式中,可以將第一捕捉設(shè)備20聚焦到一特定區(qū)域,該特定區(qū)域完全包含在由一個(gè)或多個(gè)附加的捕捉設(shè)備20捕捉到的更大的場景內(nèi),并是其一部分。在圖IA到IC所示出的實(shí)施方式中,一般在單個(gè)區(qū)域訓(xùn)練捕捉設(shè)備20。然而,應(yīng)該理解,多個(gè)捕捉設(shè)備可以被用來捕捉更大場景。在各實(shí)施方式中,可以提供兩個(gè)到四個(gè)捕捉設(shè)備。以這些數(shù)量,典型的處理器能夠接收和處理所有數(shù)據(jù),在顯示器14呈現(xiàn)的圖像中不會(huì)產(chǎn)生延遲。然而,除諸如處理速度之類的考慮之外,在本技術(shù)的各實(shí)施方式中,可以使用任意數(shù)量的捕捉設(shè)備來捕捉任何大小的場景的某些部分??梢詫⒉蹲皆O(shè)備20定位在相對于捕捉到的場景的任何位置。圖IA示出了在被捕捉的場景的前面和側(cè)面的兩個(gè)捕捉設(shè)備。圖IB示出了位于被捕捉的場景后面的第三捕捉設(shè)備20。如下面所說明的,在各實(shí)施方式中,可以根據(jù)本技術(shù),來確定不同的捕捉設(shè)備20相對于彼此以及相對于被捕捉的場景的位置,當(dāng)設(shè)置捕捉設(shè)備20時(shí),其位置不必是已知的。在例如在圖IC中所示出的更進(jìn)一步的實(shí)施方式中,關(guān)于捕捉設(shè)備相對于彼此的位置的一般知識(shí)可以是已知的。圖IC示出了固定于固定裝置23的一對捕捉設(shè)備,以使得相關(guān)聯(lián)的捕捉設(shè)備的間隔和朝向一般是已知的。這可以減少校準(zhǔn)捕捉設(shè)備位置所需的處理,如下面所說明的。盡管圖IA到IC中的捕捉設(shè)備20—般彼此平行對齊和/或正交,但是,這只作為示例,在更進(jìn)一步的實(shí)施方式中,它們不必是這樣。此外,在更進(jìn)一步的實(shí)施方式中,還可以省略圖IB和IC所示出的捕捉設(shè)備20中的任何一個(gè)。在其他位置,可以使用附加的捕捉設(shè)備20,以代替,或補(bǔ)充圖IA到IC所示出的捕捉設(shè)備。在圖IA和IC中,捕獲設(shè)備20用在NUI系統(tǒng)中,其中例如一對用戶18正在玩足球游戲。在該示例中,計(jì)算環(huán)境12可以使用視聽顯示14來提供以由相應(yīng)用戶18控制的足球移動(dòng)員形式的兩個(gè)化身19的視覺表示。用戶18可以在物理空間中移動(dòng)或執(zhí)行踢移動(dòng)以致使其相關(guān)聯(lián)的移動(dòng)員化身19在游戲空間中移動(dòng)或踢足球。因此,根據(jù)一示例性實(shí)施方式,計(jì)算機(jī)環(huán)境12和捕捉設(shè)備20可以用于識(shí)別和分析用戶58在物理空間中的移動(dòng)和姿勢,并且這樣的移動(dòng)和姿勢使可以被解釋成用戶在游戲空間中相關(guān)聯(lián)的玩家化身19的游戲控制或動(dòng)作。圖IA和IC的實(shí)施方式是可以在計(jì)算環(huán)境12上運(yùn)行的許多不同應(yīng)用程序之一,并且在計(jì)算環(huán)境12上運(yùn)行的應(yīng)用程序可以是多種其他游戲和非游戲應(yīng)用程序。此外,系統(tǒng)10還可以用于將用戶18移動(dòng)解釋成處于游戲或運(yùn)行在計(jì)算環(huán)境12上的特定應(yīng)用程序的領(lǐng)域之外的操作系統(tǒng)(OS)和/或應(yīng)用程序控制。圖IB中示出了一個(gè)示例,其中用戶18在具有多種呈現(xiàn)在顯示14上的菜單選項(xiàng)的用戶界面21的范圍內(nèi)滾動(dòng)并且控制該用戶界面21。事實(shí)上,操作系統(tǒng)和/或應(yīng)用程序的任何可控方面都可以由用戶18的移動(dòng)和/或語音來控制。系統(tǒng)10及其內(nèi)部組件的適合的示例位于如下共同待審的專利申請中,所有這些專利申請都特此通過引用并入本申請于2009年5月四日提交的名稱為“EnvironmentAnd/OrTargetSegmentation(環(huán)境和/或目標(biāo)分割)”的美國專利申請序列號(hào)No.12/475,094;于2009年7月四日提交的名稱為"AutoGeneratingaVisualRepresentation"(自動(dòng)生成視覺表示),,的美國專利申請序列號(hào)No.12/511,850;于2009年5月四日提交的名稱為“GestureTool(姿勢工具)”的美國專利申請序列號(hào)No.12/474,655;于2009年10月21日提交的名稱為“PoseTrackingPipeline(姿勢跟蹤流水線)”的美國專利申請序列號(hào)No.12/603,437;于2009年5月四日提交的名稱為“DeviceforIdentifyingandTrackingMultipleHumansOverTime(用于隨時(shí)間標(biāo)識(shí)和跟蹤多個(gè)人類的設(shè)備)”的美國專利申請序列號(hào)No.12/475,308;于2009年10月7日提交的名稱為“HumanTrackingSyStem(人類跟蹤系統(tǒng))”的美國專利申請序列號(hào)No.12/575,388;于2009年4月13日提交的名稱為“GestureRecognizerSystemArchitecture(姿勢識(shí)別器系統(tǒng)架構(gòu))”的美國專利申請序列號(hào)No.12/422,661;于2009年2月23日提交的名稱為‘、tandardGestures(標(biāo)準(zhǔn)姿勢)”的美國專利申請序列號(hào)No.12/391,150;以及于2009年5月四日提交的名稱為"GestureTool(姿勢工具)”的美國專利申請12/474,655。如上所示,捕捉設(shè)備20在本發(fā)明技術(shù)的各實(shí)施方式中可以是相同或不同的??捎米魉驹O(shè)備20中的任一個(gè)或全部的捕捉設(shè)備20的一個(gè)示例現(xiàn)在將參考圖2來描述。在一個(gè)示例性實(shí)施方式中,捕獲設(shè)備20可以被配置為通過任何合適的技術(shù)捕獲具有可以包括深度值的深度圖像的視頻,這些技術(shù)包括例如飛行時(shí)間、結(jié)構(gòu)化光、立體圖像等等。根據(jù)一實(shí)施方式,捕捉設(shè)備可將所計(jì)算的深度信息組織為“Z層”,或可與從深度照相機(jī)沿其視線延伸的Z軸垂直的層。在其他實(shí)施方式中,捕捉設(shè)備可將計(jì)算出的深度信息組織成以不同角度從深度照相機(jī)延伸至捕捉到的數(shù)據(jù)點(diǎn)的向量。如圖2所示,每一個(gè)捕獲設(shè)備20可以包括圖像照相機(jī)組件22。根據(jù)一個(gè)示例實(shí)施方式,圖像照相機(jī)組件22可以是可以捕捉場景的深度圖像的深度照相機(jī)。深度圖像可包括所捕捉的場景的二維0-D)像素區(qū)域,其中2-D像素區(qū)域中的每一像素可表示諸如按照以厘米、毫米等為單位的所捕捉的場景中的物體離照相機(jī)的長度或距離等的深度值。如圖2所示,根據(jù)一個(gè)示例性實(shí)施方式,圖像照相機(jī)22可以包括可以用于捕獲場景的深度圖像的頂光組件對、三維(3-D)照相機(jī)26,以及RGB照相機(jī)28。例如,在飛行時(shí)間分析中,捕捉設(shè)備20的頂光組件M可以將紅外光發(fā)射到場景上,然后,可以使用傳感器(未示出),用例如3-D照相機(jī)沈和/或RGB照相機(jī)觀,來檢測從場景中的一個(gè)或多個(gè)目標(biāo)和對象的表面反向散射的光。在某些實(shí)施方式中,可以使用脈沖式紅外光從而可以測量出射光脈沖和相應(yīng)的入射光脈沖之間的時(shí)間差并將其用于確定從捕捉設(shè)備20到場景中的目標(biāo)或物體上的特定位置的物理距離。另外,在其他示例實(shí)施方式中,可將入射光波的相位與出射光波的相位進(jìn)行比較來確定相移。然后可以使用該相移來確定從捕捉設(shè)備20到目標(biāo)或物體上的特定位置的物理距離。根據(jù)另一示例實(shí)施方式,可使用飛行時(shí)間分析,通過經(jīng)由包括例如快門式光脈沖成像的各種技術(shù)來分析反射光束隨時(shí)間的強(qiáng)度變化以間接地確定從捕捉設(shè)備20到目標(biāo)或物體上的特定位置的物理距離。在另一示例實(shí)施方式中,捕捉設(shè)備20可使用結(jié)構(gòu)化光來捕捉深度信息。在這樣的分析中,圖案化光(即被顯示成諸如網(wǎng)格圖案或條紋圖案的已知圖案的光)可以通過例如頂光組件對被投影到場景上。在撞擊到場景中的一個(gè)或多個(gè)目標(biāo)或物體的表面時(shí),作為響應(yīng),圖案可變形。圖案的這種變形可由例如3-D照相機(jī)沈和/或RGB照相機(jī)觀來捕捉,然后可被分析以確定從捕捉設(shè)備20到目標(biāo)或物體上的特定位置的物理距離。根據(jù)另一實(shí)施方式,每一個(gè)捕捉設(shè)備20可包括可以從不同的角度觀察場景的兩個(gè)或更多個(gè)在物理上分離的照相機(jī),以獲取可以被解析以生成深度信息的視覺立體數(shù)據(jù)。在另一示例實(shí)施方式中,捕捉設(shè)備20可使用點(diǎn)云數(shù)據(jù)(pointclouddata)和目標(biāo)數(shù)字化技術(shù)來檢測場景和/或用戶的特征。這些技術(shù)在下文中在一起校準(zhǔn)不同的捕捉設(shè)備20的上下文中更詳細(xì)地解釋。每一個(gè)捕捉設(shè)備20還可包括話筒陣列30,其包括一個(gè)或多個(gè)話筒。話筒陣列30可以包括可以接收聲音并將其轉(zhuǎn)換成電信號(hào)的換能器或傳感器。根據(jù)一個(gè)實(shí)施方式,話筒陣列30可以被用來減少目標(biāo)識(shí)別、分析和跟蹤系統(tǒng)10中的捕捉設(shè)備20和計(jì)算環(huán)境12之間的反饋。另外,話筒陣列30可用于接收也可由用戶提供的音頻信號(hào),以控制可由計(jì)算環(huán)境12執(zhí)行的諸如游戲應(yīng)用程序、非游戲應(yīng)用程序等應(yīng)用。在一示例實(shí)施方式中,每一個(gè)捕捉設(shè)備20還可以包括可以與圖像照相機(jī)組件22進(jìn)行可操作的通信的處理器32。處理器32可包括可執(zhí)行指令的標(biāo)準(zhǔn)處理器、專用處理器、微處理器等,這些指令可包括用于接收深度圖像的指令、用于確定合適的目標(biāo)是否可被包括在深度圖像中的指令、用于將合適的目標(biāo)轉(zhuǎn)換成該目標(biāo)的骨架表示或模型的指令、或任何其他合適的指令。每一個(gè)捕捉設(shè)備20還可以包括存儲(chǔ)器組件34,該存儲(chǔ)器組件34可以存儲(chǔ)可以由處理器32執(zhí)行的指令,由3-D照相機(jī)或RGB照相機(jī)捕捉到的圖像或圖像的幀,或任何其他合適的信息、圖像等等。根據(jù)一個(gè)示例實(shí)施方式,存儲(chǔ)器組件34可包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、高速緩存、閃存、硬盤或任何其他合適的存儲(chǔ)組件。如圖2所示,在一個(gè)實(shí)施方式中,存儲(chǔ)器組件34可以是與圖像照相機(jī)組件22和處理器32通信的單獨(dú)的組件。根據(jù)另一實(shí)施方式,存儲(chǔ)器組件34可以集成到處理器32和/或圖像照相機(jī)組件22中。如圖2所示,每一個(gè)捕獲設(shè)備20可以通過通信鏈路36與計(jì)算環(huán)境12通信。通信鏈路36可以是包括例如USB連接、火線連接、以太網(wǎng)電纜連接等的有線連接和/或諸如無線802.lib,802.llg、802.Ila或802.Iln連接等無線連接。根據(jù)一個(gè)實(shí)施方式,計(jì)算環(huán)境12可以向捕捉設(shè)備20提供主時(shí)鐘,可以使用該時(shí)鐘來通過通信鏈路36確定何時(shí)捕捉,例如,場景,如以下參考同步引擎184解釋的。圖2示出了計(jì)算環(huán)境12的可以被用來校準(zhǔn)捕捉設(shè)備20的相對位置,并同步從設(shè)備中獲取的音頻和/或可視數(shù)據(jù)的多個(gè)組件。這樣的組件包括同步引擎180、捕捉設(shè)備校準(zhǔn)引擎182、圖像縫合引擎184和/或聲源定位引擎186。這些引擎可以用軟件、硬件或軟件和硬件的組合來實(shí)現(xiàn)。下面將說明引擎180到186中的每一個(gè)。另外,每一個(gè)捕捉設(shè)備20可以通過通信鏈路36向計(jì)算環(huán)境12提供深度信息和由例如3-D照相機(jī)沈和/或RGB照相機(jī)觀捕捉到的圖像,以及可以由捕捉設(shè)備20生成的骨架模型。存在用于判斷由捕獲設(shè)備20檢測到的目標(biāo)或?qū)ο笫欠衽c人類目標(biāo)相對應(yīng)的各種已知技術(shù)。骨架映射技術(shù)因而可用于確定該用戶的骨架上的各個(gè)點(diǎn),手、腕、肘、膝、鼻、踝、肩的關(guān)節(jié),以及骨盆與脊椎相交之處。其他技術(shù)包括將圖像轉(zhuǎn)換為人的人體模型表示以及將圖像轉(zhuǎn)換為人的網(wǎng)格模型表示。然后,可以將骨骼模型提供給計(jì)算環(huán)境12,使得計(jì)算環(huán)境可以執(zhí)行各種動(dòng)作。計(jì)算環(huán)境還可基于例如從骨架模型中識(shí)別出的用戶的姿勢來確定在計(jì)算機(jī)環(huán)境上執(zhí)行的應(yīng)用中要執(zhí)行哪些控制命令。例如,如圖2所示,計(jì)算環(huán)境12可包括用于確定用戶何時(shí)執(zhí)行了預(yù)定義姿勢的姿勢識(shí)別器引擎190,如本領(lǐng)域中已知的。圖3A示出了可以用于在目標(biāo)識(shí)別、分析與跟蹤系統(tǒng)中解釋用戶的一個(gè)或多個(gè)位置和運(yùn)動(dòng)的計(jì)算環(huán)境的示例性實(shí)施方式。上面參考圖1A-2所描述的諸如計(jì)算環(huán)境12等的計(jì)算環(huán)境可以是諸如游戲控制臺(tái)等的多媒體控制臺(tái)100。如圖3A所示,多媒體控制臺(tái)100具有中央處理單元(CPU)101,其具有1級緩存102、2級緩存104,以及閃存R0M106。一級高速緩存102和二級高速緩存104臨時(shí)存儲(chǔ)數(shù)據(jù)并因此減少存儲(chǔ)器訪問周期數(shù),由此改進(jìn)處理速度和吞吐量。CPUlOl可以設(shè)置成具有一個(gè)以上的核,以及由此具有附加的一級和二級高速緩存102和104。閃存R0M106可存儲(chǔ)在當(dāng)多媒體控制臺(tái)100通電時(shí)的引導(dǎo)過程的初始階段期間加載的可執(zhí)行代碼。圖形處理單元(GPU)108和視頻編碼器/視頻編解碼器(編碼器/解碼器)114形成用于高速、高分辨率圖形處理的視頻處理流水線。經(jīng)由總線從GPU108向視頻編碼器/視頻編解碼器114運(yùn)送數(shù)據(jù)。視頻處理流水線向A/V(音頻/視頻)端口140輸出數(shù)據(jù),用于傳輸至電視機(jī)或其他顯示器。存儲(chǔ)器控制器110連接到GPU108,以促進(jìn)處理器對各種類型的存儲(chǔ)器112、比如但不限于RAM的訪問。多媒體控制臺(tái)100包括優(yōu)選地在模塊118上實(shí)現(xiàn)的I/O控制器120、系統(tǒng)管理控制器122、音頻處理單元123、網(wǎng)絡(luò)接口控制器124、第一USB主控制器126、第二USB主控制器128以及前面板I/O子部件130。USB控制器126和1用作外圍控制器142(1)-142O)、無線適配器148、和外置存儲(chǔ)器設(shè)備146(例如閃存、外置⑶/DVDROM驅(qū)動(dòng)器、可移動(dòng)介質(zhì)等)的主機(jī)。網(wǎng)絡(luò)接口1和/或無線適配器148提供對網(wǎng)絡(luò)(例如,因特網(wǎng)、家庭網(wǎng)絡(luò)等)的訪問并且可以是包括以太網(wǎng)卡、調(diào)制解調(diào)器、藍(lán)牙模塊、電纜調(diào)制解調(diào)器等的各種不同的有線或無線適配器組件中任何一種。提供系統(tǒng)存儲(chǔ)器143來存儲(chǔ)在引導(dǎo)進(jìn)程期間加載的應(yīng)用數(shù)據(jù)。提供媒體驅(qū)動(dòng)器144,且其可包括DVD/⑶驅(qū)動(dòng)器、硬盤驅(qū)動(dòng)器、或其他可移動(dòng)媒體驅(qū)動(dòng)器等。媒體驅(qū)動(dòng)器144可以是對多媒體控制器100內(nèi)置的或外置的。應(yīng)用數(shù)據(jù)可經(jīng)由媒體驅(qū)動(dòng)器144訪問,以由多媒體控制臺(tái)100執(zhí)行、回放等。介質(zhì)驅(qū)動(dòng)器144經(jīng)由諸如串行ATA總線或其他高速連接(例如IEEE1394)等總線連接到I/O控制器120。系統(tǒng)管理控制器122提供涉及確保多媒體控制臺(tái)100的可用性的各種服務(wù)功能。音頻處理單元123和音頻編解碼器132形成具有高保真度和立體聲處理的對應(yīng)的音頻處理流水線。音頻數(shù)據(jù)經(jīng)由通信鏈路在音頻處理單元123與音頻編解碼器132之間傳輸。音頻處理流水線將數(shù)據(jù)輸出到A/V端口140以供外置音頻播放器或具有音頻能力的設(shè)備再現(xiàn)。前板I/O子部件130支持展示在多媒體控制臺(tái)100的外表面上的電源按鈕150和彈出按鈕152以及任何LED(發(fā)光二極管)或其他指示器的功能。系統(tǒng)供電模塊136向多媒體控制臺(tái)100的組件供電。風(fēng)扇138冷卻多媒體控制臺(tái)100內(nèi)的電路。CPUlOl、GPU108、存儲(chǔ)器控制器110、和多媒體控制臺(tái)100內(nèi)的各個(gè)其他組件經(jīng)由一條或多條總線互連,包括串行和并行總線、存儲(chǔ)器總線、外圍總線、和使用各種總線架構(gòu)中任一種的處理器或局部總線。作為示例,這些架構(gòu)可以包括外圍部件互連(PCI)總線、PCI-Express總線等。當(dāng)多媒體控制臺(tái)100通電時(shí),應(yīng)用數(shù)據(jù)可從系統(tǒng)存儲(chǔ)器143加載到存儲(chǔ)器112和/或高速緩存102、104中并在CPUlOl上執(zhí)行。應(yīng)用可呈現(xiàn)在導(dǎo)航到多媒體控制臺(tái)100上可用的不同媒體類型時(shí)提供一致的用戶體驗(yàn)的圖形用戶界面。在操作中,媒體驅(qū)動(dòng)器144中包含的應(yīng)用和/或其他媒體可從媒體驅(qū)動(dòng)器144啟動(dòng)或播放,以向多媒體控制臺(tái)100提供附加功能。多媒體控制臺(tái)100可通過將該系統(tǒng)簡單地連接到電視機(jī)或其他顯示器而作為獨(dú)立系統(tǒng)來操作。在該獨(dú)立模式中,多媒體控制臺(tái)100允許一個(gè)或多個(gè)用戶與該系統(tǒng)交互、看電影、或聽音樂。然而,隨著通過網(wǎng)絡(luò)接口1或無線適配器148可用的寬帶連接的集成,多媒體控制臺(tái)100還可作為較大網(wǎng)絡(luò)社區(qū)中的參與者來操作。當(dāng)多媒體控制臺(tái)100通電時(shí),可以保留設(shè)定量的硬件資源以供多媒體控制臺(tái)操作系統(tǒng)作系統(tǒng)使用。這些資源可包括存儲(chǔ)器的保留量(諸如,16MB)、CPU和GPU周期的保留量(諸如,5%)、網(wǎng)絡(luò)帶寬的保留量(諸如,Slcbs),等等。因?yàn)檫@些資源是在系統(tǒng)引導(dǎo)時(shí)間保留的,所保留的資源對于應(yīng)用程序視角而言是不存在的。具體而言,存儲(chǔ)器保留優(yōu)選地大得足以包含啟動(dòng)內(nèi)核、并發(fā)系統(tǒng)應(yīng)用和驅(qū)動(dòng)程序。CPU保留優(yōu)選地為恒定的,使得如果所保留的CPU使用量不被系統(tǒng)應(yīng)用使用,則空閑線程將消耗任何未使用的周期。對于GPU保留,通過使用GPU中斷來顯示由系統(tǒng)應(yīng)用生成的輕量消息(例如,彈出窗口),以調(diào)度代碼來將彈出窗口呈現(xiàn)為覆蓋圖。覆蓋圖所需的存儲(chǔ)器量取決于覆蓋區(qū)域大小,并且覆蓋圖優(yōu)選地與屏幕分辨率成比例地縮放。在完整的用戶界面被并發(fā)系統(tǒng)應(yīng)用使用的情況下,優(yōu)選地使用獨(dú)立于應(yīng)用分辨率的分辨率。定標(biāo)器可用于設(shè)置該分辨率,從而無需改變頻率,也就不會(huì)引起TV重新同步。在多媒體控制臺(tái)100引導(dǎo)且系統(tǒng)資源被保留之后,就執(zhí)行并發(fā)系統(tǒng)應(yīng)用來提供系統(tǒng)功能。系統(tǒng)功能被封裝在一組在上述所保留的系統(tǒng)資源中執(zhí)行的系統(tǒng)應(yīng)用中。操作系統(tǒng)內(nèi)核標(biāo)識(shí)是系統(tǒng)應(yīng)用線程而非游戲應(yīng)用線程的線程。系統(tǒng)應(yīng)用優(yōu)選地被調(diào)度為在預(yù)定時(shí)間并以預(yù)定時(shí)間間隔在CPUlOl上運(yùn)行,以便為應(yīng)用提供一致的系統(tǒng)資源視圖。進(jìn)行調(diào)度是為了把由在控制臺(tái)上運(yùn)行的游戲應(yīng)用所引起的高速緩存分裂最小化。當(dāng)并發(fā)系統(tǒng)應(yīng)用需要音頻時(shí),則由于時(shí)間敏感性而異步調(diào)度音頻處理給游戲應(yīng)用。多媒體控制臺(tái)應(yīng)用管理器(如下所述)在系統(tǒng)應(yīng)用活動(dòng)時(shí)控制游戲應(yīng)用的音頻水平(例如,靜音、衰減)。輸入設(shè)備(例如,控制器142(1)和142()由游戲應(yīng)用和系統(tǒng)應(yīng)用共享。輸入設(shè)備不是所保留的資源,但卻在系統(tǒng)應(yīng)用和游戲應(yīng)用之間切換以使其各自具有設(shè)備的焦點(diǎn)。應(yīng)用管理器優(yōu)選地控制輸入流的切換,而無需知道游戲應(yīng)用的知識(shí),并且驅(qū)動(dòng)程序維護(hù)關(guān)于焦點(diǎn)切換的狀態(tài)信息。照相機(jī)26J8和捕獲設(shè)備20可以為控制臺(tái)100定義額外的輸入設(shè)備。圖;3B示出了計(jì)算環(huán)境220的另一示例性實(shí)施方式,它可以是用來解釋目標(biāo)識(shí)別、分析與跟蹤系統(tǒng)中的一個(gè)或多個(gè)位置和動(dòng)作的圖1A-2中示出的計(jì)算環(huán)境12。計(jì)算系統(tǒng)環(huán)境220只是合適的計(jì)算環(huán)境的一個(gè)示例,并且不旨在對所公開的主題的使用范圍或功能提出任何限制。也不應(yīng)該將計(jì)算環(huán)境220解釋為對示例性操作環(huán)境220中示出的任一組件或其組合有任何依賴性或要求。在一些實(shí)施方式中,各種所描繪的計(jì)算元件可包括被配置成實(shí)例化本發(fā)明的特定方面的電路。例如,本公開中使用的術(shù)語電路可包括被配置成通過固件或開關(guān)來執(zhí)行功能的專用硬件組件。在其他示例實(shí)施方式中,術(shù)語電路可包括通過體現(xiàn)可操作以執(zhí)行功能的邏輯的軟件指令配置的通用處理單元、存儲(chǔ)器等等。在其中電路包括硬件和軟件的組合的示例實(shí)施方式中,實(shí)施者可以編寫體現(xiàn)邏輯的源代碼,且源代碼可以被編譯為可以由通用處理單元處理的機(jī)器可讀代碼。因?yàn)楸绢I(lǐng)域技術(shù)人員可以明白現(xiàn)有技術(shù)已經(jīng)進(jìn)化到硬件、軟件或硬件/軟件組合之間幾乎沒有差別的地步,因而選擇硬件或是軟件來實(shí)現(xiàn)具體功能是留給實(shí)現(xiàn)者的設(shè)計(jì)選擇。更具體而言,本領(lǐng)域技術(shù)人員可以明白軟件進(jìn)程可被變換成等價(jià)的硬件結(jié)構(gòu),而硬件結(jié)構(gòu)本身可被變換成等價(jià)的軟件進(jìn)程。因此,是硬件實(shí)現(xiàn)還是軟件實(shí)現(xiàn)的選擇是設(shè)計(jì)選擇之一并留給實(shí)現(xiàn)者。在圖;3B中,計(jì)算環(huán)境220包括通常包括各種計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)Ml。計(jì)算機(jī)可讀介質(zhì)可以是能由計(jì)算機(jī)241訪問的任何可用介質(zhì),而且包含易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。系統(tǒng)存儲(chǔ)器222包括以諸如R0M223和RAM260之類的易失性和/或非易失性存儲(chǔ)器的形式存在的計(jì)算機(jī)存儲(chǔ)介質(zhì)?;据斎?輸出系統(tǒng)224(BIOS)包括如在啟動(dòng)時(shí)幫助在計(jì)算機(jī)Ml內(nèi)的元件之間傳輸信息的基本例程,它通常儲(chǔ)存在R0M223中。RAM260通常包含處理單元259可以立即訪問和/或目前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非限制,圖3B示出了操作系統(tǒng)225、應(yīng)用程序226、其他程序模塊227,以及程序數(shù)據(jù)228。圖:3B還包括具有用于高速和高分辨率的圖形處理和存儲(chǔ)的相關(guān)聯(lián)的視頻存儲(chǔ)器230的圖形處理器單元(GPU)229。GPU229可通過圖形接口231連接到系統(tǒng)總線221。計(jì)算機(jī)241還可以包括其他可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。只作為示例,圖3B示出了讀寫不可移動(dòng)、非易失性磁性介質(zhì)的硬盤驅(qū)動(dòng)器238,讀寫可移動(dòng)、非易失性磁盤邪4的磁盤驅(qū)動(dòng)器239,以及讀寫諸如CDROM或其他光學(xué)介質(zhì)之類的可移動(dòng)的,非易失性光盤253的光盤驅(qū)動(dòng)器M0??梢栽谑纠圆僮鳝h(huán)境中使用的其他可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動(dòng)器238通常由不可移動(dòng)存儲(chǔ)器接口,諸如接口234連接至系統(tǒng)總線221,磁盤驅(qū)動(dòng)器239和光盤驅(qū)動(dòng)器240通常由可移動(dòng)存儲(chǔ)器接口,諸如接口235連接至系統(tǒng)總線221。上面所討論的并且在圖IBB中所示出的驅(qū)動(dòng)器以及它們的相關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì),為計(jì)算機(jī)Ml提供了計(jì)算機(jī)可讀的指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊及其他數(shù)據(jù)的存儲(chǔ)。例如,在圖:3B中,硬盤驅(qū)動(dòng)器238被示為存儲(chǔ)了操作系統(tǒng)258、應(yīng)用程序257,其他程序模塊256,以及程序數(shù)據(jù)255。注意,這些組件可以與操作系統(tǒng)225、應(yīng)用程序226、其他程序模塊227和程序數(shù)據(jù)2相同,也可以與它們不同。在此給操作系統(tǒng)258、應(yīng)用程序257、其他程序模塊256、以及程序數(shù)據(jù)255提供了不同的編號(hào),以說明至少它們是不同的副本。用戶可以通過諸如鍵盤251和指示設(shè)備252(通常被稱為鼠標(biāo)、軌跡球或觸摸板)之類的輸入設(shè)備向計(jì)算機(jī)Ml中輸入命令和信息。其他輸入設(shè)備(未示出)可以包括話筒、操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀等等。這些和其他輸入設(shè)備通常通過耦合至系統(tǒng)總線的用戶輸入接口236連接至處理單元259,但也可以由其他接口和總線結(jié)構(gòu),諸如并行端口、游戲端口或通用串行總線(USB)來連接。照相機(jī)沈、觀和捕獲設(shè)備20可以為控制臺(tái)100定義額外的輸入設(shè)備。監(jiān)視器242或其他類型的顯示設(shè)備也通過接口,諸如視頻接口232,連接至系統(tǒng)總線221。除監(jiān)視器之外,計(jì)算機(jī)還可以包括可以通過輸出外圍接口233連接的諸如揚(yáng)聲器244和打印機(jī)243之類的其他外圍輸出設(shè)備。計(jì)算機(jī)241可以使用到諸如遠(yuǎn)程計(jì)算機(jī)246之類的一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)的邏輯連接在聯(lián)網(wǎng)環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)246可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其他公共網(wǎng)絡(luò)節(jié)點(diǎn),通常包括上文相對于計(jì)算機(jī)241所描述的許多或全部元件,但是圖:3B中只示出了存儲(chǔ)器設(shè)備對7。圖:3B中所描繪的邏輯連接包括局域網(wǎng)(LAN)245和廣域網(wǎng)(WAN049,但是,也可以包括其他網(wǎng)絡(luò)。這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)241通過網(wǎng)絡(luò)接口或適配器237連接至LAN245.當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)241通常包括調(diào)制解調(diào)器250或用于通過諸如因特網(wǎng)等WAN249建立通信的其他裝置。調(diào)制解調(diào)器250可以是內(nèi)置或外置的,它可以經(jīng)由用戶輸入接口236或其他適當(dāng)?shù)臋C(jī)制連接至系統(tǒng)總線221。在聯(lián)網(wǎng)環(huán)境中,相對于計(jì)算機(jī)241所描述的程序模塊或其部分可被存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。作為示例而非限制,圖3B示出了駐留在存儲(chǔ)器設(shè)備247上的遠(yuǎn)程應(yīng)用程序M8。可以理解,所示的網(wǎng)絡(luò)連接是示例性的,且可以使用在計(jì)算機(jī)之間建立通信鏈路的其他手段。圖4A描繪了可從捕捉設(shè)備20生成的用戶18的示例骨架映射。在該實(shí)施方式中,標(biāo)識(shí)出各種關(guān)節(jié)和骨骼每只手302、每個(gè)前臂304、每個(gè)肘306、每個(gè)大臂308、每個(gè)肩310、每個(gè)髖312、每條大腿314、每個(gè)膝316、每條小腿318、每個(gè)足320、頭322、軀干324、脊椎的頂部3和底部328以及腰330。在跟蹤更多點(diǎn)的情況下,可標(biāo)識(shí)出附加的特征,比如手指或腳趾的骨骼和關(guān)節(jié),或臉部的各個(gè)特征,如鼻和眼。如上文所指出的,本技術(shù)可以將兩個(gè)或更多捕捉設(shè)備20同步在一起,以提供合成的音頻和/或圖像映射,供游戲或其他應(yīng)用程序使用。在各實(shí)施方式中,可以將捕捉設(shè)備20置于待捕捉的場景周圍的位置,其中,捕捉設(shè)備之間的間隔和朝向是未知的。在本技術(shù)的第一方面,通過同步引擎180和捕捉設(shè)備校準(zhǔn)引擎182,將捕捉設(shè)備20相對于彼此以及相對于它們正在捕捉的場景進(jìn)行校準(zhǔn)?,F(xiàn)在將參考圖5的高級別流程圖來說明引擎180和182的操作。在步驟400中,啟動(dòng)系統(tǒng)10。此時(shí),捕捉設(shè)備20開始捕捉場景的數(shù)據(jù),并將它傳輸?shù)接?jì)算環(huán)境12。由捕捉設(shè)備20捕捉到的場景可以不是靜態(tài)的。用戶和對象可能進(jìn)入和離開場景。如此,為了校準(zhǔn)不同的捕捉設(shè)備20,本技術(shù)的各實(shí)施方式在步驟402中時(shí)間同步從不同的捕捉設(shè)備的照像機(jī)接收到的圖像數(shù)據(jù),以將時(shí)間作為變量刪除。這樣,校準(zhǔn)引擎182可以對來自不同的設(shè)備20的在相同時(shí)間捕捉到的圖像數(shù)據(jù)執(zhí)行其分析。由計(jì)算設(shè)備12中的同步引擎180執(zhí)行同步步驟402。現(xiàn)在將參考圖6的流程圖來描述涉及步驟402的進(jìn)一步的細(xì)節(jié)。下面的描述可以適用于從不同的捕捉設(shè)備20的深度照像機(jī)沈和RGB照像機(jī)觀接收到的數(shù)據(jù)的同步。如下面所說明的,當(dāng)將不同的捕捉設(shè)備20彼此校準(zhǔn)時(shí),本技術(shù)的各實(shí)施方式使用深度照像機(jī)數(shù)據(jù)和RGB照像機(jī)數(shù)據(jù)兩者。因此,在這樣的實(shí)施方式中,可以將給定捕捉設(shè)備20的深度照像機(jī)沈和RGB照像機(jī)觀彼此進(jìn)行同步,也將它們與其他捕捉設(shè)備20的深度照像機(jī)沈和RGB照像機(jī)觀同步。如此,所有捕捉設(shè)備20中的所有照像機(jī)沈和觀都可以同步在一起。在各實(shí)施方式中,雖然困難得多,但是,在校準(zhǔn)不同的捕捉設(shè)備20時(shí),校準(zhǔn)引擎182使用僅僅來自深度照像機(jī)的數(shù)據(jù)或僅僅來自RGB照像機(jī)的數(shù)據(jù)也是可以的。在這樣的實(shí)施方式中,同步引擎180可以在步驟402中只同步在校準(zhǔn)過程中所使用的照像機(jī)。在每一個(gè)捕捉設(shè)備20內(nèi),在步驟420中,由深度照像機(jī)和RGB照像機(jī)捕捉場景信息的幀。在步驟424中,將每一個(gè)捕捉設(shè)備的深度和RGB幀數(shù)據(jù)傳輸?shù)接?jì)算環(huán)境12。在步驟426中,用計(jì)算環(huán)境12中的單個(gè)主時(shí)鐘對傳入的深度/RGB數(shù)據(jù)加上時(shí)間戳。應(yīng)該理解,對于給定捕捉設(shè)備,在步驟426中,可以在與RGB幀數(shù)據(jù)不同的時(shí)間,生成和發(fā)送深度幀數(shù)據(jù)。如果是,對于數(shù)據(jù)的給定幀,來自給定捕捉設(shè)備的深度和RGB幀數(shù)據(jù)在計(jì)算環(huán)境12將不會(huì)具有相同時(shí)間戳。在步驟430中,同步引擎180在從所有設(shè)備接收到的幀數(shù)據(jù)中查看給定幀編號(hào)。通過使用給定幀的這樣的數(shù)據(jù)的時(shí)間戳,以及每一個(gè)照像機(jī)的已知的分辨率,同步引擎確定來自生成數(shù)據(jù)的每一個(gè)設(shè)備的深度和RGB數(shù)據(jù)的所需的時(shí)間偏移。從此,同步引擎可以確定同步所有捕捉設(shè)備中的每一個(gè)深度和RGB設(shè)備時(shí)所需的調(diào)整。同步引擎可以選擇來自單個(gè)設(shè)備的幀數(shù)據(jù)(例如,生成該幀的第一數(shù)據(jù)的設(shè)備)的時(shí)間戳作為參考,并將該時(shí)間戳設(shè)置為參考時(shí)間戳。然后,可以將所有其他設(shè)備的幀數(shù)據(jù)調(diào)整到參考時(shí)間戳??闪磉x地,同步引擎可以生成內(nèi)部時(shí)鐘參考,并將對于所有幀數(shù)據(jù)的調(diào)整設(shè)置為內(nèi)部時(shí)鐘參考。一旦在步驟430中確定了對于每一個(gè)設(shè)備的調(diào)整,同步引擎可以在步驟434中向每一個(gè)設(shè)備發(fā)送命令,以調(diào)整該設(shè)備生成其幀數(shù)據(jù)的速率。有各種機(jī)制可以用于調(diào)整幀數(shù)據(jù)的生成。在一個(gè)實(shí)施方式中同步引擎可以添加或減去生成幀數(shù)據(jù)的深度設(shè)備和RGB設(shè)備的消隱間隔,以便在相同時(shí)間生成和發(fā)送來自所有捕捉設(shè)備的所有幀數(shù)據(jù)。如果同步引擎180需要讓來自一個(gè)設(shè)備的幀更快地到達(dá),例如,為避免緩沖區(qū)下溢,它可以向該設(shè)備發(fā)送命令以縮短該設(shè)備的消隱間隔。如果同步引擎180需要讓一個(gè)設(shè)備的幀數(shù)據(jù)稍后生成,例如,為避免緩沖區(qū)上溢,它可以增大該設(shè)備的垂直消隱間隔。在2010年5月3日提出的申請人的共同待審的標(biāo)題為“HeterogeneousImageSensor"的美國專利申請系列No.12/772,802中公開了涉及步驟402中的同步引擎180的操作的進(jìn)一步的細(xì)節(jié),該申請以引用的方式全部并入本文中。給定此處的公開,本領(lǐng)域的技術(shù)人員將理解可以用于同步不同的深度和RGB設(shè)備用于校準(zhǔn)過程的各種其他操作。當(dāng)捕捉設(shè)備20正在隨著用戶和/或?qū)ο筮M(jìn)入和離開場景而捕捉動(dòng)態(tài)場景時(shí),可以使用同步步驟作為初始捕捉設(shè)備校準(zhǔn)過程的一部分。在更進(jìn)一步的實(shí)施方式中,可能已知沒有出入場景的移動(dòng)。在這樣的實(shí)施方式中,可以省略初始校準(zhǔn)過程的同步步驟。例如,系統(tǒng)10的操作系統(tǒng)可以具有校準(zhǔn)例程,該例程引導(dǎo)用戶完成校準(zhǔn)過程。在這樣的實(shí)施方式中,當(dāng)在校準(zhǔn)捕捉設(shè)備20時(shí),校準(zhǔn)例程可以告訴用戶靜止不動(dòng)和/或只在某些時(shí)間和以定義的方式移動(dòng)。在這樣的實(shí)施方式中,可以可任選地省略與校準(zhǔn)過程相關(guān)聯(lián)的同步步驟。在在校準(zhǔn)過程中省略的情況下,在校準(zhǔn)過程之后,仍可以使用同步步驟來處理場景縫合過程中的運(yùn)動(dòng),如下面所說明的。在更進(jìn)一步的實(shí)施方式中,還可從初始校準(zhǔn)過程省略同步步驟,甚至在有動(dòng)態(tài)移動(dòng)進(jìn)出場景的情況下。這樣的實(shí)施方式可以利用運(yùn)動(dòng)矢量來在捕捉點(diǎn)之外的時(shí)間預(yù)測已捕捉的深度和/或RGB數(shù)據(jù)點(diǎn)的位置。盡管從計(jì)算上來說是困難的,并且是處理密集的,但是,這樣的實(shí)施方式也是可以的?,F(xiàn)在返回到圖5,一旦在步驟402中對于數(shù)據(jù)的移動(dòng)場景同步了圖像數(shù)據(jù)幀,就可以在步驟404中將捕捉設(shè)備彼此校準(zhǔn),并與場景校準(zhǔn)。在下面的描述中,從照相機(jī)透鏡發(fā)出的直線被定義為ζ軸,χ軸和1軸分別是與ζ軸的水平和垂直偏移。這種對χ、y和ζ軸的定義僅用作示例,在更進(jìn)一步的實(shí)施方式中,軸可以是不同的朝向。每一個(gè)捕捉設(shè)備都可以具有不同于其他捕捉設(shè)備的X,1,ζ笛卡兒空間。如下面所說明的,一旦校準(zhǔn)了所有捕捉設(shè)備,就可以定義包括所有捕捉設(shè)備20的單個(gè)3-D現(xiàn)實(shí)世界笛卡爾坐標(biāo)系統(tǒng)。在各實(shí)施方式中,由校準(zhǔn)引擎182使用來自不同的捕捉設(shè)備的深度信息和RGB信息來執(zhí)行校準(zhǔn)操作。深度照像機(jī)提供有關(guān)圖像中的點(diǎn)的x,y和ζ位置的信息,但是,可以具有低分辨率。RGB照像機(jī)不提供ζ方向的深度信息,但是,通常具有高分辨率和用于辨別不連續(xù)性或線索的紋理,用于將一個(gè)捕捉設(shè)備的視圖與另一個(gè)相關(guān)聯(lián)。因此,本技術(shù)的各實(shí)施方式可以使用來自捕捉設(shè)備的深度和RGB照像機(jī)兩者來完成校準(zhǔn)過程。然而,如上文所指出的,盡管從計(jì)算上來說更加密集,并取決于場景中的對象,但是,可以只使用來自捕捉設(shè)備中的兩個(gè)或更多的深度信息,將捕捉設(shè)備彼此校準(zhǔn)并與場景校準(zhǔn)。類似地,盡管從計(jì)算上來說更加密集,并取決于場景中的對象,但是,可以只使用來自兩個(gè)或更多捕捉設(shè)備的RGB信息,將設(shè)備彼此校準(zhǔn)。在例如2007年5月17日發(fā)布的標(biāo)題為“NavigatingImagesUsingImageBasedGeometricAlignmentandObjectBasedControls"的美國專利出版物No.2007/0110338中描述了用于單獨(dú)使用RGB信息校準(zhǔn)照像機(jī)視圖的技術(shù),該出版物用于微軟公司的Wiotosynth圖像識(shí)別軟件的技術(shù)中,該出版物以引用的方式全部并入本文中?,F(xiàn)在將參考圖7的流程圖來說明涉及通過校準(zhǔn)引擎182使用深度和RGB數(shù)據(jù)來校準(zhǔn)捕捉設(shè)備20的實(shí)施方式的進(jìn)一步的細(xì)節(jié)。在步驟440中,不同的捕捉設(shè)備20從場景捕捉深度和RGB圖像數(shù)據(jù)。在步驟442中,將不同的捕捉設(shè)備的每一個(gè)深度照像機(jī)和RGB照像機(jī)的照像機(jī)視圖從以照像機(jī)為中心的視圖轉(zhuǎn)換成生成照像機(jī)特定的正交3-D世界視圖。某些深度照像機(jī)使用垂直參考系來測量捕捉到的數(shù)據(jù)。即,照像機(jī)在ζ軸方向定義平面,該平面對于遠(yuǎn)離照像機(jī)的對象增大。χ和y維度表示與ζ軸的水平和垂直變化。其他深度照像機(jī)使用徑向參考系來測量捕捉到的數(shù)據(jù)。即,照像機(jī)測量具有照像機(jī)上的第一點(diǎn)(xl,yl,zl)和對象上的第二點(diǎn)(x2,y2,z2)的矢量。不管照像機(jī)如何測量其圖像數(shù)據(jù)點(diǎn),在理想情況下,測量結(jié)果中的任何兩個(gè)相鄰的坐標(biāo)之間的距離都是相同的。然而,由于照相機(jī)透鏡失真,可能不是這種情況。因此,在步驟442中,校準(zhǔn)引擎182可以對于系統(tǒng)10中的深度照像機(jī)和RGB照像機(jī)兩者校正照像機(jī)失真。給定照像機(jī)(深度或RGB)的失真可以是由照像機(jī)制造商所提供的已知屬性。如果不是,用于計(jì)算照像機(jī)的失真的算法是已知的,包括,例如,在照像機(jī)的視場內(nèi)的不同的位置成像諸如棋盤圖案之類的已知維度的對象。該圖像中的點(diǎn)的照像機(jī)視圖坐標(biāo)中的偏離將是照相機(jī)透鏡失真的結(jié)果。一旦知道了透鏡失真的程度,就可以通過已知的逆矩陣變換來校正失真,變換導(dǎo)致給定捕捉設(shè)備的點(diǎn)云中的點(diǎn)的均勻照像機(jī)視圖映射。接下來,在步驟446中,校準(zhǔn)引擎182可以將由捕捉設(shè)備捕捉到的經(jīng)過失真校正的圖像數(shù)據(jù)點(diǎn)從照像機(jī)視圖轉(zhuǎn)換為正交3-D世界視圖。此正交3-D世界視圖是由捕捉設(shè)備20在正交X,y,Z笛卡爾坐標(biāo)系統(tǒng)中捕捉到的所有數(shù)據(jù)相對于捕捉設(shè)備(例如,該捕捉設(shè)備可以位于3-D世界視圖中的(0,0,0))的點(diǎn)云圖。用于將照像機(jī)視圖轉(zhuǎn)換為正交3-D世界視圖的矩陣變換等式是已知的。參見,例如,DavidH.Eberly所著的“3dGameEngineDesignAPracticalApproachToReal-TimeComputerGraphics"(MorganKaufmanPublishers2000年出版),該出版物以引用的方式全部并入本文中。在步驟446中,來自捕捉設(shè)備深度照像機(jī)沈的數(shù)據(jù)可以足以構(gòu)建正交3-D世界視圖。然而,在步驟446中,來自捕捉設(shè)備RGB照像機(jī)觀的數(shù)據(jù)也可以用于構(gòu)建3-D世界視圖。RGB照像機(jī)返回?cái)?shù)據(jù)點(diǎn)的2-D圖,如此,從計(jì)算上來說更加難以單獨(dú)地從RGB數(shù)據(jù)導(dǎo)出3-D世界地圖。然而,取決于場景中的對象,可以從RGB數(shù)據(jù)構(gòu)建3-D世界地圖。例如,參見前面引用的美國專利出版物No.2007/0110338。在步驟446中,系統(tǒng)10中的每一個(gè)捕捉設(shè)備20都可以構(gòu)建正交3-D世界視圖。在步驟446結(jié)束時(shí),給定捕捉設(shè)備的數(shù)據(jù)點(diǎn)的X,y,ζ世界坐標(biāo)從該捕捉設(shè)備的觀點(diǎn)來看是靜止的,但是不與系統(tǒng)10中的其他捕捉設(shè)備的數(shù)據(jù)點(diǎn)的x,y,z世界坐標(biāo)相關(guān)聯(lián)。在更進(jìn)一步的實(shí)施方式中,可以在將照像機(jī)視圖轉(zhuǎn)換為正交3-D世界視圖的步驟446之后執(zhí)行校正照相機(jī)透鏡失真的步驟。下一個(gè)步驟是將不同的捕捉設(shè)備20的各種正交3-D世界視圖轉(zhuǎn)換為由系統(tǒng)10中的所有捕捉設(shè)備20共享的單個(gè)總體3-D世界視圖。為此,在步驟448中,校準(zhǔn)引擎182的各實(shí)施方式接下來查找相應(yīng)的捕捉設(shè)備的世界視圖的點(diǎn)云中的關(guān)鍵點(diǎn)不連續(xù)性或線索,然后,在步驟450中,標(biāo)識(shí)在不同的捕捉設(shè)備的不同的點(diǎn)云之間相同的線索。一旦校準(zhǔn)引擎182能夠判斷兩個(gè)不同的捕捉設(shè)備的兩個(gè)世界視圖包括相同線索,在步驟452中,引擎182就能夠確定兩個(gè)捕捉設(shè)備相對于彼此以及線索的位置、朝向和焦距。在各實(shí)施方式中,并非系統(tǒng)10中的所有捕捉設(shè)備20都共享相同共同的線索。然而,只要第一和第二捕捉設(shè)備具有共享的線索,并且第二和第三捕捉設(shè)備具有共享的線索,校準(zhǔn)引擎就能夠確定第一、第二以及第三捕捉設(shè)備相對于彼此以及單個(gè)總體3-D世界視圖的位置、朝向以及焦距。對于附加的捕捉設(shè)備,同樣如此。此過程中的第一步驟448是標(biāo)識(shí)每一個(gè)捕捉設(shè)備的3-D現(xiàn)實(shí)世界視圖點(diǎn)云中的線索。線索可以是與鄰近點(diǎn)不連續(xù)的數(shù)據(jù)點(diǎn),因此,在來自不同的捕捉設(shè)備的點(diǎn)云之間被輕松地標(biāo)識(shí)。在理想情況下,在每一點(diǎn)云內(nèi)標(biāo)識(shí)許多這樣的線索,它們可以定義一個(gè)對象在點(diǎn)云內(nèi)的邊緣和/或角部。圖像點(diǎn)云內(nèi)的其他對象的各方面也可以是線索。存在用于從圖像點(diǎn)云標(biāo)識(shí)線索的各種已知算法。在例如Mikolajczyk,K.^PSchmid,C.所著的"APerformanceEvaluationOfLocalDescriptors"(IEEETransactionsonPatternAnalysis&MachineIntelligence,27,10,1615-1630(2005))中闡述了這樣的算法,該論文以引用的方式全部并入本文中。利用圖像數(shù)據(jù)檢測線索的再一個(gè)方法是尺度不變特征變換(SIFT)算法。在2004年3月23日頒發(fā)給DavidG.Lowe的標(biāo)題為“MethodandApparatusforIdentifyingScaleInvariantFeaturesinanImageandUseofSameforLocatinganObjectinanLnage”的美國專利No.6,711,293中描述了SIFT算法,該專利此處以引用的方式全部并入本文中。另一種線索檢測器方法是最大限度地穩(wěn)定致極函數(shù)區(qū)域(MSER)算法。例如在由J.Matas,0.Chum、M.Urba和T.Pajdla所著的論文“RobustWideBaselineStereoFromMaximallyStableExtremalRegions,,(BritishMachineVisionConference會(huì)議記錄,第384-396頁000)中描述了MSER算法,該論文此處以引用的方式全部并入本文中。在步驟450中,標(biāo)識(shí)在來自兩個(gè)或更多捕捉設(shè)備的點(diǎn)云之間共享的線索。在概念上,在在第一捕捉設(shè)備和第一捕捉設(shè)備的笛卡爾坐標(biāo)系統(tǒng)中的線索集合之間存在第一組矢量,并且在第二捕捉設(shè)備和第二捕捉設(shè)備的笛卡爾坐標(biāo)系統(tǒng)中的該相同線索集合之間存在第二組矢量的情況下,可以將兩個(gè)系統(tǒng)相對于彼此解析為包括兩個(gè)捕捉設(shè)備的單個(gè)笛卡爾坐標(biāo)系統(tǒng)。存在用于發(fā)現(xiàn)來自兩個(gè)或更多捕捉設(shè)備的點(diǎn)云之間的共享線索的許多已知技術(shù)。例如在MSERArya,S.,Mount,D.Μ.,Netanyahu,N.S.,Silverman,R.,禾口Wu,Α.Y.所著的"AnOptimalAlgorithmForApproximateNearestNeighborSearchingFixedDimensions"(JournaloftheACM45,6,891-923(1998))中示出了這樣的技術(shù),該論文此處以引用的方式全部并入本文中??梢允褂闷渌夹g(shù)代替或補(bǔ)充上文引用的Arya等人的最近鄰域解決方案,包括,但不限于,散列或上下文相關(guān)的散列。在來自兩個(gè)不同的捕捉設(shè)備的點(diǎn)云共享足夠大的數(shù)量的匹配的線索的情況下,可以估計(jì)將兩個(gè)點(diǎn)云相關(guān)聯(lián)在一起的矩陣,例如,通過隨機(jī)抽樣一致性(RANSAC)或各種其他估算技術(shù)。然后,可以刪除對于已恢復(fù)的基本矩陣的是異常值的匹配。在發(fā)現(xiàn)一對點(diǎn)云之間的假設(shè)的,幾何學(xué)上一致的匹配的集合之后,可以將匹配組織成相應(yīng)的點(diǎn)云的軌道的集合,其中,軌道是點(diǎn)云之間的相互匹配的線索的集合。該集合中的第一軌道可以包含第一點(diǎn)云中的每一共同的線索的投影。該集合中的第二軌道可以包含第二點(diǎn)云中的每一共同的線索的投影。如果相應(yīng)的點(diǎn)云中的線索構(gòu)成圖的頂點(diǎn)集,并且在每一對匹配的線索之間的圖中有邊緣,那么,此圖的每個(gè)連接的分量都包括軌道。然而,與某些連接的分量相關(guān)聯(lián)的軌道可以是不一致的;具體而言,如果軌道包含對于相同圖像的一個(gè)以上的線索,則它是不一致的。在各實(shí)施方式中,如下面所描述的,對于確定相對捕捉設(shè)備位置的步驟452,只保留包含至少兩個(gè)線索的一致的軌道。通過使用步驟448和450中的信息,可以將來自不同的捕捉設(shè)備的點(diǎn)云分解成單個(gè)正交3-D現(xiàn)實(shí)世界視圖中的單個(gè)點(diǎn)云。相對于此單個(gè)點(diǎn)云和單個(gè)正交3-D現(xiàn)實(shí)世界視圖,校準(zhǔn)所有捕捉設(shè)備的位置和方向。為了一起解析各種點(diǎn)云,分析兩個(gè)點(diǎn)云的軌道組中的線索的投影。校準(zhǔn)引擎182可以根據(jù)這些投影確定第一捕捉設(shè)備相對于線索的角度,還可以確定第二捕捉設(shè)備相對于線索的觀點(diǎn)。據(jù)此,校準(zhǔn)引擎182可以將點(diǎn)云解析為對單個(gè)點(diǎn)云和包含線索的單個(gè)正交3-D現(xiàn)實(shí)世界視圖及來自兩個(gè)點(diǎn)云的其他數(shù)據(jù)點(diǎn)的最佳估計(jì)。對于任何其他捕捉設(shè)備,重復(fù)此過程,直到單個(gè)正交3-D現(xiàn)實(shí)世界視圖包括所有捕捉設(shè)備20。一旦此過程完成,校準(zhǔn)引擎可以確定捕捉設(shè)備相對于單個(gè)正交3-D現(xiàn)實(shí)世界視圖和彼此的相對位置和方向。校準(zhǔn)引擎還可以確定每一個(gè)捕捉設(shè)備相對于單個(gè)正交3-D現(xiàn)實(shí)世界視圖的焦距。在上文所描述的各實(shí)施方式中,可以將捕捉設(shè)備20放置在玩游戲空間或場景周圍的任何地方,放置設(shè)備的位置不必是已知的。如上所述,系統(tǒng)將校準(zhǔn)那些位置。在又一實(shí)施方式中,當(dāng)放置在場景周圍時(shí),兩個(gè)或更多捕捉設(shè)備的位置和方向相對于彼此可以是已知的。例如,圖IC的固定裝置23可以被用來固定兩個(gè)捕捉設(shè)備相對于彼此的位置??梢栽诓蹲皆O(shè)備上放置陀螺儀和/或加速度計(jì)來代替固定裝置23。在這樣的實(shí)施方式中,如下面所說明的,可以跳過或簡化相對于固定的捕捉設(shè)備的校準(zhǔn)步驟。盡管上面的組件幫助固定兩個(gè)或更多捕捉設(shè)備相對于彼此的位置,但是,它們可能沒有足夠的準(zhǔn)確性。不同的捕捉設(shè)備中的照像機(jī)可以具有不同的特征。固定裝置23可以在捕捉設(shè)備的位置和/或朝向方面具有容差變化。陀螺儀和加速度計(jì)可以因漂移或以其他方式可能無法適當(dāng)?shù)匦?zhǔn)。因此,可能需要執(zhí)行上文所描述的校準(zhǔn)步驟,將固定裝置23中的兩個(gè)捕捉設(shè)備20當(dāng)作位于相對于彼此未知的位置。在各實(shí)施方式中,可以執(zhí)行如上文所描述的完全校準(zhǔn)。在又一實(shí)施方式中,至少具有捕捉設(shè)備20相對于彼此的位置的概況可以使校準(zhǔn)過程簡化。例如,與用于校準(zhǔn)位于未知位置的捕捉設(shè)備的線索的數(shù)量相比,用于校準(zhǔn)固定裝置中的捕捉設(shè)備20的相應(yīng)的位置的線索的數(shù)量可以縮小。由校準(zhǔn)引擎182執(zhí)行的并且上文參考圖5到7所描述的校準(zhǔn)步驟可以執(zhí)行一次,在系統(tǒng)10的初始啟動(dòng)時(shí)。場景內(nèi)的用戶和對象可以變化,如此,由相應(yīng)的捕捉設(shè)備所生成的點(diǎn)云也可以變化,但是,對照像機(jī)相對于彼此的校準(zhǔn)可以保持相同。在各實(shí)施方式中,校準(zhǔn)引擎可以從各種捕捉設(shè)備的點(diǎn)云中繼續(xù)收集關(guān)于線索的數(shù)據(jù),在校準(zhǔn)引擎從兩個(gè)或更多捕捉設(shè)備標(biāo)識(shí)更好的線索的情況下,它可以重復(fù)上面的步驟,以圖改進(jìn)對捕捉設(shè)備的校準(zhǔn)。如下面所描述的,可以將來自各種捕捉設(shè)備的場景的視圖縫合在一起,可以預(yù)期,來自不同的捕捉設(shè)備的重疊視圖中的共享數(shù)據(jù)點(diǎn)一般將彼此共同存在。然而,捕捉設(shè)備可能被敲擊或以別的方式移動(dòng),在這樣的情況下,共享數(shù)據(jù)點(diǎn)的對齊將偏離超過預(yù)期的誤差界限。在這樣的情況下,系統(tǒng)可以重復(fù)上文所描述的校準(zhǔn)步驟,再次將系統(tǒng)10中的捕捉設(shè)備彼此校準(zhǔn)并與場景校準(zhǔn)。一旦校準(zhǔn)了捕捉設(shè)備的位置,可以在與系統(tǒng)10的正常的交互中使用不同的捕捉設(shè)備來捕捉有關(guān)場景的數(shù)據(jù)。將此數(shù)據(jù)縫合到單個(gè)點(diǎn)云中,表示單個(gè)視圖,并包括來自所有捕捉設(shè)備的數(shù)據(jù)。這樣的系統(tǒng)優(yōu)于常規(guī)的單一捕捉設(shè)備系統(tǒng)。例如,在單個(gè)捕捉設(shè)備的視圖中的某些區(qū)域可能被遮蔽的情況下,當(dāng)使用多個(gè)捕捉設(shè)備時(shí),可以降低這種似然率。類似地,玩游戲空間或場景的大小可以被增大。此外,單個(gè)捕捉設(shè)備利用單個(gè)分辨率拍攝一場景,而多個(gè)捕捉設(shè)備可包括用于捕捉全景的第一廣角捕捉設(shè)備,而第二捕捉設(shè)備可以提供該場景的小部分的高分辨率圖像。下面說明了這些特征。在校準(zhǔn)之后的正常使用中,可以在步驟460中捕捉來自不同的捕捉設(shè)備20的圖像數(shù)據(jù)。由于在正常使用過程中可能會(huì)移進(jìn)和移出場景,在步驟464中,可以將來自每一個(gè)照像機(jī)的數(shù)據(jù)幀彼此同步。這里的同步步驟可以與初始校準(zhǔn)過程中上文參考圖6所描述的相同。如此,在相同時(shí)間捕捉在縫合合成圖像時(shí)所使用的各種照像機(jī)的數(shù)據(jù)。還必須對來自不同的照像機(jī)的數(shù)據(jù)每一個(gè)幀校正透鏡失真,如上文所描述的,以使得3-D現(xiàn)實(shí)世界視圖中的任何兩個(gè)坐標(biāo)點(diǎn)之間的距離是相等的。在步驟466中,可以對來自每一個(gè)照像機(jī)(包括深度照像機(jī)和RGB照像機(jī))的圖像校正失真,例如,如上文參考圖7的步驟442所描述的。在步驟468中,縫合引擎184可以獲取從不同的捕捉設(shè)備捕捉到的經(jīng)過失真校正的視圖,并將它們轉(zhuǎn)換為單個(gè)共同的場景視圖。具體而言,一旦校準(zhǔn)了捕捉設(shè)備20,就知道了所有捕捉設(shè)備相對于彼此以及場景的位置,可以通過已知矩陣將來自捕捉設(shè)備的視圖轉(zhuǎn)換為任何觀點(diǎn)的場景視圖。因此,在步驟468中,將每一個(gè)捕捉設(shè)備的視圖轉(zhuǎn)換為從單個(gè)共同的預(yù)定義的觀點(diǎn)的視圖,即,從共同的位置和共同的朝向(pitch、roll和yaw)。將來自給定捕捉設(shè)備的RGB數(shù)據(jù)記錄到深度數(shù)據(jù),以使得給定捕捉設(shè)備的經(jīng)過轉(zhuǎn)換的視圖具有正確的深度和RGB數(shù)據(jù)。此視圖可以是來自其中一個(gè)捕捉設(shè)備的視圖,或者可以是沒有被任何捕捉設(shè)備捕捉到的任何其他場景視圖。一旦被轉(zhuǎn)換為單個(gè)共同的觀點(diǎn),可以在步驟470中由縫合引擎184將來自不同的捕捉設(shè)備的視圖縫合在一起。如所注意的,這種縫合可以涉及將來自一個(gè)重疊的捕捉設(shè)備的變焦的圖像縫合到包括變焦的圖像的廣角圖像上??闪磉x地,這種縫合可以涉及將來自兩個(gè)不同的捕捉設(shè)備的沿著邊界區(qū)域重疊的兩個(gè)圖像縫合在一起。圖9提供了關(guān)于縫合步驟470的更多細(xì)節(jié)。理論上,應(yīng)該將來自不同的捕捉設(shè)備20的被轉(zhuǎn)換為同一個(gè)視圖的數(shù)據(jù)彼此利用正確的色值校準(zhǔn)。在步驟480中,縫合引擎可以判斷不同的捕捉設(shè)備的視圖中的重疊點(diǎn)是否對齊。如果是,則在步驟482中,縫合引擎184可以無縫地將圖像縫合在一起。然而,如果由于某種原因視圖不匹配,則縫合引擎可以按如下方式選擇使用一個(gè)視圖而不使用另一個(gè)。在一個(gè)實(shí)施方式中,在步驟486中,縫合引擎可以給來自不同的捕捉設(shè)備20的場景的視圖指定加權(quán)值。加權(quán)值可以基于多個(gè)準(zhǔn)則,包括捕捉到的場景的該部分的視圖的空間位置,生成該視圖的照像機(jī)的照像機(jī)特征,創(chuàng)建該視圖的照像機(jī)的分辨率,場景內(nèi)的亮度,照明條件(例如,是指向陽光照射的窗口的捕捉設(shè)備,該窗口會(huì)不利地影響場景捕捉),以及特定視圖中的一個(gè)或多個(gè)對象是否被遮蔽。關(guān)于遮蔽,縫合引擎184知道對象和用戶在視圖內(nèi)的3-D位置,因此,可以判斷照像機(jī)的對第一對象/用戶的視圖是否被第二對象/用戶遮蔽。在向照像機(jī)的視圖指定加權(quán)值時(shí),可以使用其他準(zhǔn)則??梢越o上面準(zhǔn)則中的每一個(gè)指定任意權(quán)重,更重要的準(zhǔn)則得到比次要的準(zhǔn)則更高的權(quán)重。在步驟486中,可以對于每一個(gè)視圖,給這些準(zhǔn)則指定權(quán)重,以對于給定視圖,取得一置信度值。在步驟488中,使用具有最高置信度值的視圖。通過使用所選視圖,在步驟490中,可以將各視圖縫合在一起。在來自第一捕捉設(shè)備的視圖變換到另一個(gè)捕捉設(shè)備的視圖的情況下,可以使用各種已知的混合和修勻技術(shù)來提供平穩(wěn)并且無縫的變換。參見前面引用的美國出版物No.2007/011033。此外,還可能在場景內(nèi)存在間隙,不會(huì)被任何一個(gè)捕捉設(shè)備捕捉到。用于使用來自與這些間隙交界的圖像的深度和圖像數(shù)據(jù)來填充這些間隙的技術(shù)是已知的。在前面引用的美國出版物No.2007/011033中還公開了這樣的技術(shù)。返回到圖8,在將來自所有照像機(jī)的場景的協(xié)調(diào)并且合成的圖像的點(diǎn)云縫合在一起之后,可以在步驟472中,由在計(jì)算環(huán)境12上運(yùn)行的應(yīng)用程序呈現(xiàn)圖像。代替或補(bǔ)充呈現(xiàn)合成圖像,應(yīng)用程序可以以各種其他方式中的任何一種,來使用點(diǎn)云數(shù)據(jù),如由應(yīng)用程序所確定的。在更進(jìn)一步的實(shí)施方式中,應(yīng)該理解,可以將來自各種捕捉設(shè)備的原始數(shù)據(jù)饋送到在計(jì)算環(huán)境12上運(yùn)行的應(yīng)用程序,供該應(yīng)用程序按如上文所描述的方式或以其他方式進(jìn)行處理。除圖像數(shù)據(jù)之外,對多個(gè)捕捉設(shè)備的使用和同步會(huì)改進(jìn)來自場景的音頻的聲音質(zhì)量、噪聲消除和/或聲音定位。如上文所指出的,每一個(gè)圖像捕捉設(shè)備20都可包括話筒陣列30。陣列中的話筒在捕捉設(shè)備內(nèi)彼此隔開,但是,在改進(jìn)基線聲音質(zhì)量、噪聲消除和聲音定位方面,不如分離的捕捉設(shè)備20中的話筒陣列那樣有效。現(xiàn)在參考圖10,可以在步驟500中從各種捕捉設(shè)備20中的話筒陣列中捕捉音頻數(shù)據(jù)。用于區(qū)別由話筒拾取的聲音以判斷是否聲音中的一個(gè)或多個(gè)是人的聲音的技術(shù)是已知的。話筒陣列30還可包括諸如高通濾波器之類的各種已知的濾波器,以減弱可以由話筒陣列30檢測到的低頻噪聲。陣列30還能夠確定感覺到的音頻源相對于彼此的朝向,并能夠使用聲音定位技術(shù)來計(jì)算每一個(gè)音頻源相對于話筒陣列的角度。如此,在步驟504中,可以使用聲源定位引擎186來確定場景中的音頻數(shù)據(jù)的源的位置。聲源定位引擎186可以使用各種已知的聲音定位技術(shù)。一個(gè)實(shí)施方式可以使用到達(dá)時(shí)間差(TDOA)技術(shù),該技術(shù)的第一步驟是確定陣列30中的不同的話筒的不同的話筒對之間的TDOA的集合。即,對于話筒對的集合中的每一個(gè),確定話筒對中的每一個(gè)話筒中的聲源信號(hào)的到達(dá)之間的相對時(shí)間差。例如,可以按如下方式確定測量一個(gè)聲源的位置s的兩個(gè)話筒i和j的到達(dá)時(shí)間差TDOAi,j=(ιs-mi|-1s_mj|)/c其中,mi是第i個(gè)話筒的位置,mj是第j個(gè)話筒的位置,而c是聲速。TDOA技術(shù)還包括第二步驟使用已確定的TDOA數(shù)據(jù)和在初始捕捉設(shè)備校準(zhǔn)階段習(xí)得的話筒陣列幾何形狀來估計(jì)聲源的位置。此第二步驟可以通過各種已知的方法來執(zhí)行,包括,例如,極大似然法、三角形法、球狀交會(huì)法,以及球狀內(nèi)插法。在場景周圍的不同的位置具有各種分隔的話筒,大大地增強(qiáng)了上文所描述的系統(tǒng)定位聲音的源的能力。在步驟508中,成像設(shè)備可以指出,在被指出是聲源的位置處有單個(gè)人。在這樣的情況下,假設(shè)在附近沒有其他人或聲音源,聲源定位引擎186可以積極地標(biāo)識(shí)該聲音來自該位置處的該人。這是標(biāo)識(shí)用戶的聲音的一種方法,然后,可以將該聲音存儲(chǔ)起來,以供將來參考。同樣,聲源定位引擎186可以判斷,聲音來自其中沒有用戶、在計(jì)算環(huán)境上運(yùn)行的應(yīng)用程序中所使用的揚(yáng)聲器或其他聲源的位置。在聲源被判斷為與在計(jì)算環(huán)境12上運(yùn)行的應(yīng)用程序不相關(guān)的情況下,聲源定位引擎186可以將該聲音當(dāng)作噪聲,并在步驟510中消除聲音。TDOA方法是可以用于定位感覺到的聲音的源的許多已知方法中的一種。其他的包括基于轉(zhuǎn)向的波束形成器的技術(shù)和高分辨率基于譜估計(jì)的技術(shù)。關(guān)于用于聲音定位的話筒系統(tǒng)的進(jìn)一步的細(xì)節(jié)可以在例如標(biāo)題為“MethodandApparatusforPassiveAcousticSourceLocalizationforVideoCameraSteeringApplications,,的美國專利No.6,826,沘4,以及在H.Wang和P.Chu所發(fā)表的論文“VoiceSourceLocalizationforAutomaticCameraPointingSystemInVideoconferencing"(Proc.IEEEInt.Conf.Acoustics,Speech,andSignalProcessing(ICASSP),Munich,Germany,Apr.1997,PP.187-190)中找到。上面的專利和論文此處以引用的方式全部并入本文中。除上文所描述的聲源定位技術(shù)之外(可能通過轉(zhuǎn)向波束形成執(zhí)行),波束形成技術(shù)也可以用于各實(shí)施方式中,以在步驟512中改進(jìn)接收到的信號(hào)的信噪比。一旦標(biāo)識(shí)了聲信號(hào)的源,并計(jì)算出了其與捕捉設(shè)備中的各種話筒的距離,可以使用波束形成技術(shù)來加強(qiáng)信噪比。具體而言,一旦確定了從源到各種話筒的距離,對于特定elevation和系統(tǒng)10操作時(shí)所處的溫度,到達(dá)每一話筒的信號(hào)可能會(huì)相移相當(dāng)于聲音的速度,結(jié)果,信號(hào)同相地到達(dá)每一個(gè)話筒。通過此波束形成過程,并通過另外增強(qiáng)遠(yuǎn)離聲源的話筒的增益,相位可以被移位,以使得在話筒中接收到時(shí)所有信號(hào)波前是對齊的,而信號(hào)相對于該信號(hào)中的任何噪聲是加強(qiáng)的。如上文所描述的波束形成以改進(jìn)信噪比要求緊密度容限控制以及知道波束形成過程中所使用的相應(yīng)的話筒的位置,例如,在幾個(gè)毫米內(nèi)。緊密地控制時(shí)鐘時(shí)間選擇以為每一個(gè)話筒提供正確的相位位移同樣重要。由于許多游戲系統(tǒng)沒有執(zhí)行符合這樣的準(zhǔn)確的標(biāo)準(zhǔn)的波束形成,在本技術(shù)的各實(shí)施方式中,可以跳過步驟512,如由圖10中的虛線所指示的。前面的對本發(fā)明的系統(tǒng)的詳細(xì)描述只是為了說明和描述。它不是詳盡的公開或?qū)⒈景l(fā)明的系統(tǒng)限于所公開的準(zhǔn)確的形式。鑒于上述教導(dǎo),許多修改和變型都是可能的。所描述的實(shí)施方式只是為了最好地說明本發(fā)明的系統(tǒng)的原理以及其實(shí)際應(yīng)用,從而使精通本技術(shù)的其他人在各種實(shí)施方式中最佳地利用本發(fā)明的系統(tǒng),適合于特定用途的各種修改也是可以的。本發(fā)明的系統(tǒng)的范圍由所附的權(quán)利要求進(jìn)行定義。權(quán)利要求1.一種用于合成來自多個(gè)源00)的關(guān)于場景的信息的方法,包括a)從第一源OO)和第二源OO)接收(步驟440,460)場景信息,所述第一和第二源(20)在空間上彼此并與所述場景是分開的;b)根據(jù)所述場景信息以及由所述第一和第二源從所述場景中共同檢測到的一個(gè)或多個(gè)線索來確定(404)所述第一和第二源00)中的每一個(gè)的位置;c)基于在所述步驟b)中確定的所述第一和第二源OO)的位置,以及從所述第一和第二源接收到的信息來創(chuàng)建所述場景的表示(步驟470)。2.如權(quán)利要求1所述的方法,其特征在于,接收場景信息的所述步驟a)包括從所述第一和第二源接收圖像數(shù)據(jù)。3.如權(quán)利要求2所述的方法,其特征在于,從所述第一和第二源接收圖像數(shù)據(jù)的所述步驟a)包括將從所述第一源接收到的所述圖像數(shù)據(jù)與從所述第二源接收到的所述圖像數(shù)據(jù)進(jìn)行時(shí)間同步的步驟。4.如權(quán)利要求2所述的方法,其特征在于,還包括在確定所述第一和第二源中的每一個(gè)的所述位置的所述步驟b)之前校正來自所述第一和第二源的所述圖像數(shù)據(jù)中的透鏡失真的步驟d)。5.如權(quán)利要求1所述的方法,其特征在于,所述步驟c)還包括基于將來自所述第一和第二源的所述場景信息轉(zhuǎn)換為包括所述第一和第二源的公共參考系來創(chuàng)建所述場景的表示的步驟。6.如權(quán)利要求1所述的方法,其特征在于,所述步驟b)包括根據(jù)所述場景信息內(nèi)所包括的圖像深度數(shù)據(jù)或RGB數(shù)據(jù)來確定所述第一和第二源中的每一個(gè)的所述位置的步驟。7.如權(quán)利要求1所述的方法,其特征在于,所述步驟a)包括從所述場景接收音頻信號(hào)的步驟,所述方法還包括部分地基于確定所述第一和第二源中的每一個(gè)的位置的所述步驟b)來確定所述音頻信號(hào)的位置的步驟e)。8.如權(quán)利要求1所述的方法,其特征在于,所述第一和第二源的位置相對于彼此是固定的。9.一種用于合成來自多個(gè)源OO)的關(guān)于場景的信息的方法,包括a)從第一源OO)和第二源OO)接收場景信息(步驟440,460),所述第一源QO)的相對于所述第二源OO)的初始位置是未知的,所述第一和第二源OO)在空間上彼此并與所述場景是分開的,所述場景信息包括圖像深度數(shù)據(jù)和RGB數(shù)據(jù)中的至少一個(gè);b)根據(jù)所述圖像數(shù)據(jù)和RGB數(shù)據(jù)中的至少一個(gè),以及來自所述場景的由所述第一和第二源共享的所述場景信息,確定(404)所述第一和第二源OO)中的每一個(gè)的位置;c)基于在所述步驟b)中確定的所述第一和第二源OO)的所述位置,以及從所述第一和第二源接收到的信息,創(chuàng)建所述場景的表示(步驟470)。10.如權(quán)利要求9所述的方法,其特征在于,所述步驟C)包括將來自所述第一源的場景表示的第一部分與來自所述第二源的場景表示的第二部分縫合在一起的步驟。11.如權(quán)利要求9所述的方法,其特征在于,所述步驟a)包括從所述場景接收音頻信號(hào)的步驟,所述方法還包括部分地基于確定所述第一和第二源中的每一個(gè)的位置的所述步驟b)來確定所述音頻信號(hào)的位置的步驟e)。12.一種用于合成來自多個(gè)捕捉設(shè)備(20)的游戲應(yīng)用程序中的玩游戲空間的信息的方法,所述多個(gè)捕捉設(shè)備00)中的捕捉設(shè)備OO)包括深度照像機(jī)06)、RGB照像機(jī)08)和至少一個(gè)話筒(30),所述方法包括a)從第一捕捉設(shè)備OO)和第二捕捉設(shè)備OO)接收(步驟440,460)圖像深度數(shù)據(jù)和RGB深度數(shù)據(jù),來自所述第一和第二捕捉設(shè)備OO)的所述圖像深度數(shù)據(jù)和所述RGB深度數(shù)據(jù)在一起進(jìn)行時(shí)間同步(步驟40,所述第一和第二捕捉設(shè)備OO)在空間上彼此并與所述玩游戲空間是分開的;b)根據(jù)所同步的圖像深度數(shù)據(jù)和RGB數(shù)據(jù)的組合,以及由所述第一和第二捕捉設(shè)備從所述玩游戲空間共同檢測到的多個(gè)線索,確定(步驟404)所述第一和第二捕捉設(shè)備OO)中的每一個(gè)的位置和方向;c)基于在所述步驟b)中確定的所述第一和第二捕捉設(shè)備OO)的所述位置,以及從所述第一和第二捕捉設(shè)備接收到的所述圖像深度數(shù)據(jù)和RGB深度數(shù)據(jù),創(chuàng)建所述玩游戲空間的表示(步驟468)。d)將來自所述第一捕捉設(shè)備的所述玩游戲空間表示的第一部分與來自所述第二捕捉設(shè)備的所述玩游戲空間表示的第二部分縫合(步驟47)在一起;以及e)在與所述第一和第二捕捉設(shè)備相關(guān)聯(lián)的顯示器上呈現(xiàn)(步驟47所述玩游戲空間的表示。13.如權(quán)利要求12所述的方法,其特征在于,還包括以下步驟通過定位所述第一和第二捕捉設(shè)備檢測到的聲音的源并經(jīng)由所述圖像深度數(shù)據(jù)和/或所述RGB數(shù)據(jù)確定所述用戶在所述聲音的源處的存在,將所述聲音與用戶相關(guān)聯(lián)。14.如權(quán)利要求12所述的方法,其特征在于,還包括以下步驟使用來自所述第一捕捉設(shè)備的所述圖像深度數(shù)據(jù)和RGB數(shù)據(jù)來填充所述玩游戲空間的表示中的所述第二捕捉設(shè)備的視圖中被遮蔽的區(qū)域。15.如權(quán)利要求12所述的方法,其特征在于,呈現(xiàn)所述玩游戲空間的表示的所述步驟包括以下步驟從沒有被所述第一或第二捕捉設(shè)備或多個(gè)捕捉設(shè)備中的任何一個(gè)捕捉到的觀點(diǎn)呈現(xiàn)所述玩游戲空間的表示。全文摘要公開了用于合成從聚焦于單個(gè)場景的多個(gè)音頻和可視源接收到的信息的系統(tǒng)和方法。該系統(tǒng)可以基于在捕捉設(shè)備的圖像數(shù)據(jù)中標(biāo)識(shí)的共同的線索集合來確定捕捉設(shè)備的位置。由于場景常??梢跃哂幸七M(jìn)移出場景的用戶和對象,可以使來自多個(gè)捕捉設(shè)備的數(shù)據(jù)在時(shí)間上同步,以確保來自音頻和可視源的數(shù)據(jù)在相同時(shí)間提供同一場景的數(shù)據(jù)??梢砸黄饏f(xié)調(diào)和吸收來自多個(gè)源的音頻和/或可視數(shù)據(jù),以改進(jìn)系統(tǒng)的從場景解釋音頻和/或可視方面的能力。文檔編號(hào)G06F19/00GK102289564SQ201110161330公開日2011年12月21日申請日期2011年6月2日優(yōu)先權(quán)日2010年6月3日發(fā)明者A·A-A·基普曼,D·易,J·A·塔迪夫,K·S·佩雷申請人:微軟公司