專利名稱:用于人體跟蹤的代表訓(xùn)練數(shù)據(jù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及運(yùn)動(dòng)捕捉系統(tǒng),尤其涉及運(yùn)動(dòng)捕捉系統(tǒng)中的人體跟蹤。
背景技術(shù):
跟蹤系統(tǒng)獲得關(guān)于人或其他對(duì)象在物理空間中的位置和移動(dòng)的數(shù)據(jù),并且可使用該數(shù)據(jù)作為計(jì)算系統(tǒng)中的某一應(yīng)用的輸入。某些系統(tǒng)確定身體的骨架模型,包括該骨架的關(guān)節(jié),并且因此可被認(rèn)為是身體關(guān)節(jié)跟蹤系統(tǒng)。可能有許多應(yīng)用,如出于軍事、娛樂、體育和醫(yī)療目的。例如,人的運(yùn)動(dòng)可用于創(chuàng)建動(dòng)畫人物或化身。包括使用可見和不可見(例如,紅外)光的系統(tǒng)在內(nèi)的光學(xué)系統(tǒng)使用相機(jī)來檢測(cè)視野中的人的存在。然而,需要通過提供合成圖像形式的訓(xùn)練數(shù)據(jù)來方便身體關(guān)節(jié)跟蹤系統(tǒng)的開發(fā)。
發(fā)明內(nèi)容
提供了用于生成用于身體關(guān)節(jié)跟蹤系統(tǒng)中的人體跟蹤的代表訓(xùn)練數(shù)據(jù)的處理器實(shí)現(xiàn)的方法、系統(tǒng)和有形計(jì)算機(jī)可讀存儲(chǔ)。在身體關(guān)節(jié)跟蹤系統(tǒng)的開發(fā)中,使用深度相機(jī)來獲得在該相機(jī)的視野中移動(dòng)的人的深度圖像。使用各種處理技術(shù)來檢測(cè)該人的身體,并識(shí)別該人執(zhí)行的移動(dòng)或姿態(tài)。該過程可被認(rèn)為是監(jiān)督機(jī)器學(xué)習(xí)算法。該過程是監(jiān)督的是因?yàn)槿说奈恢煤妥藨B(tài)都是已知的。目標(biāo)是使得身體關(guān)節(jié)跟蹤系統(tǒng)了解如何識(shí)別該人的位置和姿態(tài)??蓪?duì)該學(xué)習(xí)算法作出各種調(diào)整,例如,過濾掉噪聲、識(shí)別不同的身體類型、以及將該人的身體與可能存在于視野中的其他物體(如家具、墻等)進(jìn)行區(qū)分。然而,使用真實(shí)世界環(huán)境中的活人來訓(xùn)練該學(xué)習(xí)算法是低效的,且無法準(zhǔn)確地表示身體關(guān)節(jié)跟蹤系統(tǒng)在其被部署為數(shù)千或甚至數(shù)百萬用戶家庭中的商用產(chǎn)品時(shí)將經(jīng)歷的各種場(chǎng)景。為了優(yōu)化對(duì)學(xué)習(xí)算法的訓(xùn)練,可生成合成圖像來作為用于真實(shí)的人的圖像的代替或代表。該合成圖像可用于擴(kuò)充或替換真實(shí)的人的圖像。此外,該合成圖像可以用在計(jì)算上高效的方式來提供,同時(shí)是真實(shí)的且提供高度可變性來模擬身體關(guān)節(jié)跟蹤系統(tǒng)在被部署時(shí)將經(jīng)歷的真實(shí)世界狀況。在一個(gè)實(shí)施例中,提供了一種用于生成用于人體跟蹤的代表訓(xùn)練數(shù)據(jù)的處理器實(shí)現(xiàn)的方法。該方法包括多個(gè)處理器實(shí)現(xiàn)的步驟。該方法包括訪問至少一個(gè)運(yùn)動(dòng)捕捉序列, 該至少一個(gè)運(yùn)動(dòng)捕捉序列標(biāo)識(shí)了其中行動(dòng)者執(zhí)行移動(dòng)的時(shí)間段期間該行動(dòng)者的身體的姿態(tài)。例如,該序列可在運(yùn)動(dòng)捕捉工作室中通過在穿著帶有標(biāo)記的運(yùn)動(dòng)捕捉套裝的行動(dòng)者執(zhí)行一系列規(guī)定移動(dòng)時(shí)對(duì)該行動(dòng)者進(jìn)行成像來獲得。該方法還包括基于至少一個(gè)運(yùn)動(dòng)捕捉序列執(zhí)行對(duì)多個(gè)不同身體類型的重新定標(biāo)以及不相似姿態(tài)選擇,以便提供多個(gè)重新定標(biāo)的不相似姿態(tài)。該方法還包括根據(jù)用于相應(yīng)身體類型的3-D身體模型來渲染每一不相似姿態(tài), 以提供該不相似姿態(tài)的相應(yīng)深度圖像,并且提供標(biāo)識(shí)該不相似姿態(tài)的身體部位的相應(yīng)分類圖像。使用多個(gè)不同的3-D身體模型,對(duì)每一身體類型使用一個(gè)。此外,相應(yīng)深度圖像和相應(yīng)分類圖像構(gòu)成了可由機(jī)器學(xué)習(xí)算法用于人體跟蹤的像素?cái)?shù)據(jù)。
4
在一種方法中,重新定標(biāo)是在不相似姿態(tài)選擇之前執(zhí)行的,并且在另一方法中,重新定標(biāo)是在不相似姿態(tài)選擇之后執(zhí)行的。任選地,向深度圖像添加噪聲來提供更真實(shí)的深度圖像,該更真實(shí)的深度圖像與真實(shí)世界環(huán)境中的深度相機(jī)將看見的深度圖像相似。噪聲可包括可因人有頭發(fā)而引起的噪聲、深度量化噪聲、隨機(jī)噪聲、人的身體邊緣所引起的噪聲、因檢測(cè)極薄結(jié)構(gòu)而引起的噪聲、以及因照相機(jī)幾何結(jié)構(gòu)引起的噪聲。提供本概要以用簡(jiǎn)化形式介紹在下面的說明書中進(jìn)一步描述的精選概念。本概述并不旨在標(biāo)識(shí)出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于限定所要求保護(hù)的主題的范圍。
在附圖中,標(biāo)號(hào)相同的元素彼此對(duì)應(yīng)。圖1描繪了身體關(guān)節(jié)跟蹤系統(tǒng)的示例實(shí)施例。圖2描繪了圖1的身體關(guān)節(jié)跟蹤系統(tǒng)的示例框圖。圖3描繪了可以在圖1的身體關(guān)節(jié)跟蹤系統(tǒng)中使用的計(jì)算環(huán)境的示例框圖。圖4描繪了可以在圖1的身體關(guān)節(jié)跟蹤系統(tǒng)中,或在用于重新定標(biāo)、不相似姿態(tài)選擇和渲染的計(jì)算機(jī)圖形系統(tǒng)中使用的計(jì)算環(huán)境的另一示例框圖。圖5描繪了用于提供用于人體跟蹤的代表訓(xùn)練數(shù)據(jù)的方法。圖6提供了獲得運(yùn)動(dòng)捕捉數(shù)據(jù)(圖5的步驟500)的進(jìn)一步細(xì)節(jié)。圖7a提供了執(zhí)行重新定標(biāo)和不相似姿態(tài)檢測(cè)(圖5的步驟50 的進(jìn)一步細(xì)節(jié), 其中首先執(zhí)行重新定標(biāo)。圖7b描繪了用于不相似姿態(tài)選擇的算法。圖7c提供了執(zhí)行重新定標(biāo)和不相似姿態(tài)檢測(cè)(圖5的步驟50 的進(jìn)一步細(xì)節(jié), 其中首先執(zhí)行不相似姿態(tài)檢測(cè)。圖8提供了執(zhí)行渲染來提供深度圖像和分類圖像(圖5的步驟504)的進(jìn)一步細(xì)節(jié)。圖9是向深度圖像添加噪聲(圖5的步驟506)的進(jìn)一步細(xì)節(jié)。圖IOa描繪了圖5的過程的替換視圖,其中重新定標(biāo)在不相似姿態(tài)檢測(cè)之前執(zhí)行。圖IOb描繪了圖5的過程的替換視圖,其中重新定標(biāo)在不相似姿態(tài)檢測(cè)之后執(zhí)行。圖Ila描繪了運(yùn)動(dòng)捕捉工作室中具有標(biāo)記的行動(dòng)者的第一姿態(tài)(圖5的步驟500) 的示例視圖。圖lib描繪了運(yùn)動(dòng)捕捉工作室中具有標(biāo)記的行動(dòng)者的第二姿態(tài)(圖5的步驟500) 的示例視圖。圖12描繪了從圖Ila的行動(dòng)者的姿態(tài)中得到的骨架中的關(guān)節(jié)位置的示例。圖13a描繪了第一身體類型的3-D身體的深度圖像的渲染,該3-D身體具有圖12 的對(duì)應(yīng)骨架的覆蓋物以及3-D場(chǎng)景元素。圖13b描繪了第二身體類型的3-D身體1360的深度圖像的渲染,該3-D身體具有對(duì)應(yīng)骨架的覆蓋物。圖14描繪了對(duì)應(yīng)于圖13a的3-D身體的分類圖像。圖15a描繪了一示例深度圖像。
圖15b描繪了對(duì)應(yīng)于圖15a的深度圖像的示例分類圖像。
具體實(shí)施例方式提供了用于生成供身體關(guān)節(jié)跟蹤系統(tǒng)的機(jī)器學(xué)習(xí)算法使用的合成圖像的技術(shù)。從運(yùn)動(dòng)捕捉工作室獲得有限數(shù)量的運(yùn)動(dòng)捕捉序列。該運(yùn)動(dòng)捕捉序列包括行動(dòng)者執(zhí)行的姿態(tài)或移動(dòng)。這些序列被充分利用來通過將各序列重新定標(biāo)到多個(gè)不同身體類型來提供程度提高的可變性。通過選擇不相似姿態(tài),使得冗余姿態(tài)或接近冗余的姿態(tài)不被提供給機(jī)器學(xué)習(xí)算法,來達(dá)到效率。此外,通過添加預(yù)期在身體關(guān)節(jié)跟蹤系統(tǒng)的真實(shí)世界部署中看見的各種類型的噪聲來達(dá)到較大的真實(shí)性。也可引入其他隨機(jī)變化。例如,可向重新定標(biāo)添加一定程度的隨機(jī)性。提供給該學(xué)習(xí)算法的數(shù)據(jù)包括深度和分類圖像的已配準(zhǔn)對(duì)形式的已標(biāo)記訓(xùn)練數(shù)據(jù),以及姿態(tài)數(shù)據(jù)。此處提供的技術(shù)避免向訓(xùn)練算法提供壓倒性量的數(shù)據(jù),同時(shí)仍覆蓋了大范圍的姿態(tài)和身體類型,包括例如較高和較低身體的獨(dú)立移動(dòng)??商峁┠芴幚泶蠓秶藨B(tài)和身體類型的單個(gè)系統(tǒng)。各特征包括基于姿態(tài)之間的距離的樣本選擇、通過組合部分骨架來生成新樣本、 通過插入3-D模型來生成合成背景、以及通過擾動(dòng)深度圖來生成合成的含噪聲圖像。圖1描繪了其中個(gè)人8與應(yīng)用交互的身體關(guān)節(jié)跟蹤系統(tǒng)10的示例實(shí)施例。這示出了身體關(guān)節(jié)跟蹤系統(tǒng)諸如在用戶家中的真實(shí)世界部署。身體關(guān)節(jié)跟蹤系統(tǒng)10包括顯示器196、深度相機(jī)系統(tǒng)20、以及計(jì)算環(huán)境或裝置12。深度相機(jī)系統(tǒng)20可包括圖像相機(jī)組件 22,其具有紅外(IR)光發(fā)射器M、紅外相機(jī)沈和紅-綠-藍(lán)(RGB)相機(jī)28。也稱為個(gè)人或玩家的用戶8站在深度相機(jī)的視野6中。線2和4表示視野6的邊界。在該示例中,深度相機(jī)系統(tǒng)20和計(jì)算環(huán)境12提供了其中顯示器196上的化身197跟蹤用戶8的移動(dòng)的應(yīng)用。例如,當(dāng)用戶舉起手臂時(shí),化身可舉起手臂。化身197在3-D虛擬世界中站在路198上。 可定義笛卡爾世界坐標(biāo)系,其包括沿著深度相機(jī)系統(tǒng)20的焦距(例如水平)延伸的ζ軸、 垂直延伸的y軸、以及橫向且水平延伸的χ軸。注意,附圖的透視被修改成簡(jiǎn)化表示,顯示器196在y軸方向上垂直延伸,ζ軸垂直于y軸和χ軸且與用戶8所站立的地平面平行地從深度相機(jī)系統(tǒng)延伸出來。一般而言,身體關(guān)節(jié)跟蹤系統(tǒng)10用于識(shí)別、分析和/或跟蹤人類目標(biāo)。計(jì)算環(huán)境 12可包括計(jì)算機(jī)、游戲系統(tǒng)或控制臺(tái)等,以及執(zhí)行應(yīng)用的硬件組件和/或軟件組件。深度相機(jī)系統(tǒng)20可以包括相機(jī),相機(jī)用于在視覺上監(jiān)視諸如用戶8等的一個(gè)或多個(gè)人,從而可以捕捉、分析并跟蹤用戶所執(zhí)行的姿勢(shì)和/或移動(dòng),來執(zhí)行應(yīng)用中的一個(gè)或多個(gè)控制或動(dòng)作,如使化身或屏幕上人物活動(dòng)起來或選擇用戶界面(UI)中的一菜單項(xiàng)。身體關(guān)節(jié)跟蹤系統(tǒng)10可以連接到諸如顯示器196等可向用戶提供視覺和音頻輸出的視聽設(shè)備,如電視機(jī)、監(jiān)視器、高清電視機(jī)(HDTV)等,或甚至是墻或其他表面上的投影。音頻輸出也可經(jīng)由單獨(dú)的設(shè)備來提供。為驅(qū)動(dòng)顯示器,計(jì)算環(huán)境12可包括提供與應(yīng)用相關(guān)聯(lián)的視聽信號(hào)的諸如圖形卡等視頻適配器,和/或諸如聲卡等音頻適配器。顯示器196 可經(jīng)由例如,S-視頻電纜、同軸電纜、HDMI電纜、DVI電纜、VGA電纜等連接到計(jì)算環(huán)境12。用戶8可使用深度相機(jī)系統(tǒng)20來跟蹤,使得用戶的姿勢(shì)和/或移動(dòng)被捕捉并用于使化身或屏幕上人物活動(dòng)起來,和/或被解釋為對(duì)計(jì)算機(jī)環(huán)境12所執(zhí)行的應(yīng)用的輸入控制。用戶8的某些移動(dòng)可被解釋為可對(duì)應(yīng)于除控制化身之外的動(dòng)作的控制。例如,在一實(shí)施例中,玩家可使用移動(dòng)來結(jié)束、暫?;虮4嬗螒?、選擇級(jí)別、查看高分、與朋友交流等。玩家可使用移動(dòng)來從主用戶界面選擇游戲或其他應(yīng)用,或以其他方式導(dǎo)航選項(xiàng)菜單。由此,用戶8的全范圍運(yùn)動(dòng)可以用任何合適的方式來獲得、使用并分析以與應(yīng)用進(jìn)行交互。個(gè)人可在與應(yīng)用交互時(shí)抓握諸如道具等物體。在此類實(shí)施例中,個(gè)人和物體的移動(dòng)可用于控制應(yīng)用。例如,可以跟蹤并利用玩家手持球拍的運(yùn)動(dòng)來控制模擬網(wǎng)球游戲的應(yīng)用中的屏幕上球拍。在另一示例實(shí)施例中,可以跟蹤并利用玩家手持諸如塑料劍等玩具武器的運(yùn)動(dòng)來控制提供海盜船的應(yīng)用的虛擬世界中對(duì)應(yīng)的武器。身體關(guān)節(jié)跟蹤系統(tǒng)10還可用于將目標(biāo)移動(dòng)解釋為游戲以及出于娛樂和休閑目的的其他應(yīng)用范圍之外的操作系統(tǒng)和/或應(yīng)用控制。例如,操作系統(tǒng)和/或應(yīng)用的基本上任何可控方面可由用戶8的移動(dòng)來控制。圖2描繪了圖Ia的身體關(guān)節(jié)跟蹤系統(tǒng)10的示例框圖。深度相機(jī)系統(tǒng)20可被配置成經(jīng)由任何合適的技術(shù),包括例如飛行時(shí)間、結(jié)構(gòu)化光、立體圖像等,捕捉帶有包括深度圖像的深度信息的視頻,該深度圖像可包括深度值。深度相機(jī)系統(tǒng)20可將深度信息組織為 "Z層”,即可與從深度相機(jī)沿其視線延伸的Z軸垂直的層。深度相機(jī)系統(tǒng)20可包括圖像相機(jī)組件22,如捕捉物理空間中的場(chǎng)景的深度圖像的深度相機(jī)。深度圖像可包括所捕捉的場(chǎng)景的二維O-D)像素區(qū)域,其中該2-D像素區(qū)域中的每一像素具有代表距離圖像相機(jī)組件22的線性距離的相關(guān)聯(lián)的深度值。圖像相機(jī)組件22可包括可用于捕捉場(chǎng)景的深度圖像的紅外(IR)光發(fā)射器對(duì)、紅外相機(jī)26、以及紅-綠-藍(lán)(RGB)相機(jī)28。3-D相機(jī)由紅外發(fā)射器M和紅外相機(jī)沈的組合來形成。例如,在飛行時(shí)間分析中,頂光發(fā)射器M將紅外光發(fā)射到物理表面上,并且紅外相機(jī)沈檢測(cè)來自物理空間中的一個(gè)或多個(gè)目標(biāo)和物體的表面的反向散射光。在某些實(shí)施例中,可以使用脈沖式紅外光,從而可以測(cè)量出射光脈沖與相應(yīng)的入射光脈沖之間的時(shí)間并將其用于確定從深度相機(jī)系統(tǒng)20到物理空間中的目標(biāo)或?qū)ο笊系奶囟ㄎ恢玫奈锢砭嚯x。可將傳出光波的相位與傳入光波的相位進(jìn)行比較來確定相移。然后可以使用相移來確定從深度相機(jī)系統(tǒng)到對(duì)象或目標(biāo)上的特定位置的物理距離。飛行時(shí)間分析也可用于通過經(jīng)由包括例如快門式光脈沖成像等各種技術(shù)來分析反射光束隨時(shí)間的強(qiáng)度,來間接地確定從深度相機(jī)系統(tǒng)20到目標(biāo)或?qū)ο笊系奶囟ㄎ恢玫奈锢砭嚯x。在另一示例實(shí)施例中,深度相機(jī)系統(tǒng)20可使用結(jié)構(gòu)化光來捕捉深度信息。在這一分析中,圖案化光(即,被顯示為諸如網(wǎng)格圖案或條紋圖案等已知圖案的光)可經(jīng)由例如頂光發(fā)射器M被投影到場(chǎng)景上。在撞擊到場(chǎng)景中的一個(gè)或多個(gè)目標(biāo)或?qū)ο蟮谋砻鏁r(shí),作為響應(yīng),圖案可變形。圖案的這種變形可由例如紅外相機(jī)沈和/或RGB相機(jī)觀來捕捉,然后可被分析以確定從深度相機(jī)系統(tǒng)到目標(biāo)或?qū)ο笊系奶囟ㄎ恢玫奈锢砭嚯x。深度相機(jī)系統(tǒng)20可包括兩個(gè)或更多物理上分開的相機(jī),這些相機(jī)可從不同角度查看場(chǎng)景以獲得視覺立體數(shù)據(jù),該視覺立體數(shù)據(jù)可被解析以生成深度信息。深度相機(jī)系統(tǒng)20還可包括話筒30,話筒30包括例如接收聲波并將其轉(zhuǎn)換成電信號(hào)的換能器或傳感器。另外,話筒30可用于接收由個(gè)人提供的諸如聲音等音頻信號(hào),來控
7制由計(jì)算環(huán)境12運(yùn)行的應(yīng)用。音頻信號(hào)可包括諸如說出的單詞、口哨、叫聲和其他話語等個(gè)人的口聲,以及諸如拍手或跺腳等非口聲。深度相機(jī)系統(tǒng)20可包括與圖像相機(jī)組件22進(jìn)行通信的處理器32。處理器32可包括可執(zhí)行指令的標(biāo)準(zhǔn)化處理器、專用處理器、微處理器等,這些指令包括例如用于接收深度圖像的指令;用于基于深度圖像來生成三維像素網(wǎng)格的指令;用于移除包括在三維像素網(wǎng)格中的背景以便隔離與人類目標(biāo)相關(guān)聯(lián)的一個(gè)或多個(gè)三維像素的指令;用于確定隔離的人類目標(biāo)的一個(gè)或多個(gè)骨端的位置或定位的指令;用于基于一個(gè)或多個(gè)骨端的位置或定位來調(diào)整模型的指令;或任何其他合適的指令,這些將在下文中更詳細(xì)描述。深度相機(jī)系統(tǒng)20還可包括存儲(chǔ)器組件34,存儲(chǔ)器組件34可存儲(chǔ)可由處理器32執(zhí)行的指令、以及存儲(chǔ)3-D相機(jī)或RGB相機(jī)所捕捉的圖像或圖像幀、或任何其他合適的信息、 圖像等等。根據(jù)一示例實(shí)施例,存儲(chǔ)器組件34可包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器 (ROM)、高速緩存、閃存、硬盤、或任何其他合適的有形計(jì)算機(jī)可讀存儲(chǔ)組件。存儲(chǔ)器組件34 可以是經(jīng)由總線21與圖像捕捉組件22和處理器32進(jìn)行通信的單獨(dú)組件。根據(jù)另一實(shí)施方式,存儲(chǔ)器組件34可被集成到處理器32和/或圖像捕捉組件22中。深度相機(jī)系統(tǒng)20可以經(jīng)由通信鏈路36與計(jì)算環(huán)境12進(jìn)行通信。通信鏈路36可以是有線和/或無線連接。根據(jù)一實(shí)施例,計(jì)算環(huán)境12可經(jīng)由通信鏈路36向深度相機(jī)系統(tǒng)20提供時(shí)鐘信號(hào),該信號(hào)指示何時(shí)從位于深度相機(jī)系統(tǒng)20的視野中的物理空間捕捉圖像數(shù)據(jù)。另外,深度相機(jī)系統(tǒng)20可經(jīng)由通信鏈路36向計(jì)算環(huán)境12提供深度信息和由例如 3-D相機(jī)沈和/或RGB相機(jī)觀捕捉的圖像,和/或可由深度相機(jī)系統(tǒng)20生成的骨架模型。 計(jì)算環(huán)境12然后可使用該模型、深度信息和捕捉的圖像來控制應(yīng)用。例如,如圖2所示,計(jì)算環(huán)境12可包括諸如姿勢(shì)過濾器集合等姿勢(shì)庫190,每一姿勢(shì)過濾器具有關(guān)于可由骨架模型(在用戶移動(dòng)時(shí))執(zhí)行的姿勢(shì)的信息。例如,可為各種手姿勢(shì)提供姿勢(shì)過濾器,如手的揮擊或投擲。通過將檢測(cè)到的運(yùn)動(dòng)與每一過濾器進(jìn)行比較,可標(biāo)識(shí)個(gè)人執(zhí)行的指定姿勢(shì)或移動(dòng)。也可確定執(zhí)行移動(dòng)的范圍??蓪⒂缮疃认鄼C(jī)系統(tǒng)20捕捉的骨架模型形式的數(shù)據(jù)以及與其相關(guān)聯(lián)的移動(dòng)與姿勢(shì)庫190中的姿勢(shì)過濾器進(jìn)行比較來標(biāo)識(shí)用戶(如骨架模型所表示的)何時(shí)執(zhí)行了一個(gè)或多個(gè)特定移動(dòng)。那些移動(dòng)可與應(yīng)用的各種控制命令相關(guān)聯(lián)。計(jì)算環(huán)境還可包括用于執(zhí)行存儲(chǔ)在存儲(chǔ)器194中的指令以向顯示設(shè)備196提供音頻-視頻輸出信號(hào)并實(shí)現(xiàn)如此處所描述的其他功能的處理器192。圖3描繪了可以在圖1的身體關(guān)節(jié)跟蹤系統(tǒng)中使用的計(jì)算環(huán)境的示例框圖。計(jì)算環(huán)境可用于解釋一個(gè)或多個(gè)姿勢(shì)或其他移動(dòng)并作為響應(yīng)來更新顯示器上的視覺空間。上面描述的諸如計(jì)算環(huán)境12等計(jì)算環(huán)境可以是諸如游戲控制臺(tái)等多媒體控制臺(tái)100。多媒體控制臺(tái)100包括具有一級(jí)高速緩存102、二級(jí)高速緩存104和閃存ROM(只讀存儲(chǔ)器)106的中央處理單元(CPU) 101。一級(jí)高速緩存102和二級(jí)高速緩存104臨時(shí)存儲(chǔ)數(shù)據(jù)并因此減少存儲(chǔ)器訪問周期數(shù),由此改進(jìn)處理速度和吞吐量。CPU 101可以設(shè)置成具有一個(gè)以上的核,以及由此的附加的一級(jí)和二級(jí)高速緩存102和104。諸如閃存ROM等存儲(chǔ)器106可存儲(chǔ)在多媒體控制臺(tái)100通電時(shí)在引導(dǎo)過程的初始階段期間加載的可執(zhí)行代碼。圖形處理單元(GPU) 108和視頻編碼器/視頻編解碼器(編碼器/解碼器)114形成用于高速、高分辨率圖形處理的視頻處理流水線。數(shù)據(jù)經(jīng)由總線從圖形處理單元108輸送到視頻編碼器/視頻編解碼器114。視頻處理流水線將數(shù)據(jù)輸出到A/V (音頻/視頻)端口 140以傳輸?shù)诫娨暀C(jī)或其他顯示器。存儲(chǔ)器控制器110連接到GPU 108以便于處理器訪問各種類型的存儲(chǔ)器112,諸如RAM(隨機(jī)存取存儲(chǔ)器)。多媒體控制臺(tái)100包括較佳地在模塊118上實(shí)現(xiàn)的I/O控制器120、系統(tǒng)管理控制器122、音頻處理單元123、網(wǎng)絡(luò)接口 124、第一 USB主控制器126、第二 USB控制器1 和前面板I/O子部件130。USB控制器126和128用作外圍控制器142 (1)-142 (2)、無線適配器 148、和外置存儲(chǔ)器設(shè)備146 (例如閃存、外置⑶/DVD ROM驅(qū)動(dòng)器、可移動(dòng)介質(zhì)等)的主機(jī)。 網(wǎng)絡(luò)接口(NW IF) IM和/或無線適配器148提供對(duì)網(wǎng)絡(luò)(例如,因特網(wǎng)、家庭網(wǎng)絡(luò)等)的訪問并且可以是包括以太網(wǎng)卡、調(diào)制解調(diào)器、藍(lán)牙模塊、電纜調(diào)制解調(diào)器等的各種不同的有線或無線適配器組件中任何一種。提供系統(tǒng)存儲(chǔ)器143來存儲(chǔ)在引導(dǎo)進(jìn)程期間加載的應(yīng)用數(shù)據(jù)。提供媒體驅(qū)動(dòng)器 144且其可包括DVD/CD驅(qū)動(dòng)器、硬盤驅(qū)動(dòng)器、或其它可移動(dòng)媒體驅(qū)動(dòng)器。媒體驅(qū)動(dòng)器144對(duì)于多媒體控制臺(tái)100可以內(nèi)置或外置的。應(yīng)用數(shù)據(jù)可經(jīng)由媒體驅(qū)動(dòng)器144訪問,以由多媒體控制臺(tái)100執(zhí)行、回放等。媒體驅(qū)動(dòng)器144經(jīng)由諸如串行ATA總線或其它高速連接等總線連接到I/O控制器120。系統(tǒng)管理控制器122提供涉及確保多媒體控制臺(tái)100的可用性的各種服務(wù)功能。 音頻處理單元123和音頻編解碼器132形成具有高保真度和立體聲處理的對(duì)應(yīng)的音頻處理流水線。音頻數(shù)據(jù)經(jīng)由通信鏈路在音頻處理單元123與音頻編解碼器132之間傳輸。音頻處理流水線將數(shù)據(jù)輸出到A/V端口 140以供外置音頻播放器或具有音頻能力的設(shè)備再現(xiàn)。前面板I/O子部件130支持暴露在多媒體控制臺(tái)100的外表面上的電源按鈕150 和彈出按鈕152以及任何LED(發(fā)光二極管)或其它指示器的功能。系統(tǒng)供電模塊136向多媒體控制臺(tái)100的組件供電。風(fēng)扇138冷卻多媒體控制臺(tái)100內(nèi)的電路。CPU 101、GPU 108、存儲(chǔ)器控制器110、和多媒體控制臺(tái)100內(nèi)的各個(gè)其它組件經(jīng)由一條或多條總線互連,包括串行和并行總線、存儲(chǔ)器總線、外圍總線、和使用各種總線架構(gòu)中任一種的處理器或局部總線。當(dāng)多媒體控制臺(tái)100通電時(shí),應(yīng)用數(shù)據(jù)可從系統(tǒng)存儲(chǔ)器143加載到存儲(chǔ)器112和/ 或高速緩存102、104中并在CPU 101上執(zhí)行。應(yīng)用可呈現(xiàn)在導(dǎo)航到多媒體控制臺(tái)100上可用的不同媒體類型時(shí)提供一致的用戶體驗(yàn)的圖形用戶界面。在操作中,媒體驅(qū)動(dòng)器144中包含的應(yīng)用和/或其它媒體可從媒體驅(qū)動(dòng)器144啟動(dòng)或播放,以向多媒體控制臺(tái)100提供附加功能。多媒體控制臺(tái)100可通過將該系統(tǒng)簡(jiǎn)單地連接到電視機(jī)或其它顯示器而作為獨(dú)立系統(tǒng)來操作。在該獨(dú)立模式中,多媒體控制臺(tái)100允許一個(gè)或多個(gè)用戶與該系統(tǒng)交互、看電影、或聽音樂。然而,隨著通過網(wǎng)絡(luò)接口 1 或無線適配器148可用的寬帶連接的集成, 多媒體控制臺(tái)100還可作為較大網(wǎng)絡(luò)社區(qū)中的參與者來操作。當(dāng)多媒體控制臺(tái)100通電時(shí),保留指定量的硬件資源以供多媒體控制臺(tái)操作系統(tǒng)作系統(tǒng)使用。這些資源可以包括存儲(chǔ)器保留(例如,16MB)、CPU和GPU周期(例如,5%)、 網(wǎng)絡(luò)帶寬(例如,SlAs)等。因?yàn)檫@些資源是在系統(tǒng)引導(dǎo)時(shí)保留的,所以所保留的資源對(duì)應(yīng)用而言是不存在的。
具體地,存儲(chǔ)器保留較佳地足夠大,以包含啟動(dòng)內(nèi)核、并發(fā)系統(tǒng)應(yīng)用和驅(qū)動(dòng)程序。 CPU保留較佳地為恒定,使得若所保留的CPU用量不被系統(tǒng)應(yīng)用使用,則空閑線程將消耗任何未使用的周期。對(duì)于GPU保留,通過使用GPU中斷來顯示由系統(tǒng)應(yīng)用生成的輕量消息(例如,彈出窗口),以調(diào)度代碼來將彈出窗口呈現(xiàn)為覆蓋圖。覆蓋圖所需的存儲(chǔ)器量取決于覆蓋區(qū)域大小,并且覆蓋圖較佳地與屏幕分辨率成比例縮放。在并發(fā)系統(tǒng)應(yīng)用使用完整用戶界面的情況下,優(yōu)選使用獨(dú)立于應(yīng)用分辨率的分辨率。定標(biāo)器可用于設(shè)置該分辨率,從而無需改變頻率,也就不會(huì)引起TV重新同步。在多媒體控制臺(tái)100引導(dǎo)且系統(tǒng)資源被保留之后,就執(zhí)行并發(fā)系統(tǒng)應(yīng)用來提供系統(tǒng)功能。系統(tǒng)功能被封裝在一組在上述所保留的系統(tǒng)資源中執(zhí)行的系統(tǒng)應(yīng)用中。操作系統(tǒng)內(nèi)核標(biāo)識(shí)是系統(tǒng)應(yīng)用線程而非游戲應(yīng)用線程的線程。系統(tǒng)應(yīng)用優(yōu)選地被調(diào)度為在預(yù)定時(shí)間并以預(yù)定時(shí)間間隔在CPU 101上運(yùn)行,以便為應(yīng)用提供一致的系統(tǒng)資源視圖。進(jìn)行調(diào)度是為了把由在控制臺(tái)上運(yùn)行的游戲應(yīng)用所引起的高速緩存分裂最小化。當(dāng)并發(fā)系統(tǒng)應(yīng)用需要音頻時(shí),則由于時(shí)間敏感性而異步調(diào)度音頻處理給游戲應(yīng)用。多媒體控制臺(tái)應(yīng)用管理器(如下所述)在系統(tǒng)應(yīng)用活動(dòng)時(shí)控制游戲應(yīng)用的音頻水平 (例如,靜音、衰減)。輸入設(shè)備(例如,控制器142(1)和142( )由游戲應(yīng)用和系統(tǒng)應(yīng)用共享。輸入設(shè)備不是所保留的資源,但卻在系統(tǒng)應(yīng)用和游戲應(yīng)用之間切換以使其各自具有設(shè)備的焦點(diǎn)。 應(yīng)用管理器較佳地控制輸入流的切換,而無需知曉游戲應(yīng)用的知識(shí),并且驅(qū)動(dòng)程序維持有關(guān)焦點(diǎn)切換的狀態(tài)信息。控制臺(tái)100可從包括相機(jī)沈和觀的圖2的深度相機(jī)系統(tǒng)20接收附加輸入。圖4描繪了可以在圖1的身體關(guān)節(jié)跟蹤系統(tǒng)中,或在用于重新定標(biāo)、不相似姿態(tài)選擇和渲染的計(jì)算機(jī)圖形系統(tǒng)中使用的計(jì)算環(huán)境的另一示例框圖。在身體關(guān)節(jié)跟蹤系統(tǒng)中,該計(jì)算環(huán)境可用于解釋一個(gè)或多個(gè)姿勢(shì)或其他移動(dòng)并作為響應(yīng)更新顯示器上的視覺空間。計(jì)算環(huán)境220包括計(jì)算機(jī)M1,計(jì)算機(jī)241通常包括各種有形計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。這可以是能由計(jì)算機(jī)241訪問的任何可用介質(zhì),而且包含易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。系統(tǒng)存儲(chǔ)器222包括易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì),如只讀存儲(chǔ)器(ROM) 223和隨機(jī)存取存儲(chǔ)器(RAM06O?;据斎?輸出系統(tǒng)224 (BIOS)包括如在啟動(dòng)時(shí)幫助在計(jì)算機(jī)Ml內(nèi)的元件之間傳輸信息的基本例程,它通常儲(chǔ)存在ROM 223中。RAM 260通常包含處理單元259可以立即訪問和/或目前正在操作的數(shù)據(jù)和/或程序模塊。圖形接口 231與GPU 2 進(jìn)行通信。作為示例而非局限,圖4描繪了操作系統(tǒng)225、應(yīng)用程序226、其它程序模塊227和程序數(shù)據(jù)228。計(jì)算機(jī)241還可包括其他可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì), 如從不可移動(dòng)、非易失性磁介質(zhì)讀取或?qū)ζ鋵懭氲挠脖P驅(qū)動(dòng)器238,從可移動(dòng)、非易失性磁盤2M讀取或?qū)ζ鋵懭氲拇疟P驅(qū)動(dòng)器239,以及從諸如CDROM或其他光介質(zhì)等可移動(dòng)、非易失性光盤253讀取或?qū)ζ鋵懭氲墓獗P驅(qū)動(dòng)器M0。可以在示例性操作環(huán)境中使用的其他可移動(dòng)/不可移動(dòng)、易失性/非易失性有形計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動(dòng)器238通常由諸如接口 234等不可移動(dòng)存儲(chǔ)器接口連接至系統(tǒng)總線221,磁盤驅(qū)動(dòng)器239和光盤驅(qū)動(dòng)器240通常由諸如接口 235等可移動(dòng)存儲(chǔ)器接口連接至系統(tǒng)總線221。以上討論并在圖4中描繪的驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算機(jī)241提供了對(duì)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的存儲(chǔ)。例如,硬盤驅(qū)動(dòng)器238被描繪為存儲(chǔ)操作系統(tǒng)258、應(yīng)用程序257、其它程序模塊256和程序數(shù)據(jù)255。注意,這些組件可以與操作系統(tǒng)225、應(yīng)用程序226、其他程序模塊227和程序數(shù)據(jù)2 相同,也可以與它們不同。操作系統(tǒng)258、應(yīng)用程序257、其他程序模塊256和程序數(shù)據(jù)255在這里被標(biāo)注了不同的標(biāo)號(hào)是為了說明至少它們是不同的副本。用戶可以通過輸入設(shè)備,諸如鍵盤251和定點(diǎn)設(shè)備252 (通常被稱為鼠標(biāo)、跟蹤球或觸摸墊),向計(jì)算機(jī)241輸入命令和信息。其他輸入設(shè)備(未示出)可以包括話筒、操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀等等。這些和其他輸入設(shè)備通常由耦合至系統(tǒng)總線的用戶輸入接口 236連接至處理單元259,但也可以由其他接口和總線結(jié)構(gòu),諸如并行端口、游戲端口或通用串行總線(USB),來連接。包括相機(jī)沈和觀的圖2的深度相機(jī)系統(tǒng)20可為控制臺(tái)100定義附加輸入設(shè)備。監(jiān)視器242或其他類型的顯示器也經(jīng)由接口,諸如視頻接口 232連接至系統(tǒng)總線221。除監(jiān)視器以外,計(jì)算機(jī)也可以包括其它外圍輸出設(shè)備,諸如揚(yáng)聲器244和打印機(jī)對(duì)3,它們可以通過輸出外圍接口 233連接。計(jì)算機(jī)241可使用至一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),諸如遠(yuǎn)程計(jì)算機(jī)M6的邏輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)246可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其他常見的網(wǎng)絡(luò)節(jié)點(diǎn),且通常包括許多或所有以上相對(duì)于計(jì)算機(jī)241描述的元件, 但是在圖4中僅示出了存儲(chǔ)器存儲(chǔ)設(shè)備M7。邏輯連接包括局域網(wǎng)(LAN) 245和廣域網(wǎng) (WAN) M9,但也可以包括其它網(wǎng)絡(luò)。這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)241通過網(wǎng)絡(luò)接口或適配器237連接至LAN 2450當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)241通常包括調(diào)制解調(diào)器250或用于通過諸如因特網(wǎng)等WAN 249建立通信的其他裝置。調(diào)制解調(diào)器250可以是內(nèi)置或外置的,它可以經(jīng)由用戶輸入接口 236或其他適當(dāng)?shù)臋C(jī)制連接至系統(tǒng)總線221。在網(wǎng)絡(luò)化環(huán)境中,相對(duì)于計(jì)算機(jī) 241所描述的程序模塊或其部分可被存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。作為示例而非限制, 圖4示出了遠(yuǎn)程應(yīng)用程序248駐留在存儲(chǔ)器設(shè)備247上??梢岳斫?,所示的網(wǎng)絡(luò)連接是示例性的,且可以使用在計(jì)算機(jī)之間建立通信鏈路的其他手段。該計(jì)算環(huán)境可包括其上包含有計(jì)算機(jī)可讀軟件的有形計(jì)算機(jī)可讀存儲(chǔ),該計(jì)算機(jī)可讀軟件用于對(duì)至少一個(gè)處理器進(jìn)行編程來執(zhí)行此處描述的用于生成用于人體跟蹤的代表訓(xùn)練數(shù)據(jù)的方法。該有形計(jì)算機(jī)可讀存儲(chǔ)可包括例如,組件222、234、235、230、253、254 中的一個(gè)或多個(gè)。此外,該計(jì)算環(huán)境的一個(gè)或多個(gè)處理器可以提供用于生成用于人體跟蹤的代表訓(xùn)練數(shù)據(jù)的處理器實(shí)現(xiàn)的方法,包括此處所描述的處理器實(shí)現(xiàn)的步驟。處理器可包括例如組件2 和259中的一個(gè)或多個(gè)。圖5描繪了用于提供用于人體跟蹤的代表訓(xùn)練數(shù)據(jù)的方法。步驟500包括獲得運(yùn)動(dòng)捕捉數(shù)據(jù)。例如,這可從運(yùn)動(dòng)捕捉工作室中的行動(dòng)者獲得。在運(yùn)動(dòng)捕捉工作室中,對(duì)一個(gè)或多個(gè)行動(dòng)者的移動(dòng)進(jìn)行每秒多次,例如每秒30次的采樣。每一樣本對(duì)應(yīng)于一數(shù)據(jù)幀。通常,行動(dòng)者穿著具有將光反射到相機(jī)的標(biāo)記的特殊套裝。使用多個(gè)高分辨率相機(jī)來從工作室中的不同位置對(duì)行動(dòng)者成像,可通過三角測(cè)量來檢測(cè)每一標(biāo)記的確切位置。參見圖Ila
11和lib來獲得更多細(xì)節(jié)。步驟500的輸出是一組運(yùn)動(dòng)捕捉序列。每一這樣的序列描述了執(zhí)行移動(dòng)的行動(dòng)者的身體上的一組3-D點(diǎn)的運(yùn)動(dòng)。所表示的各具體點(diǎn)對(duì)應(yīng)于該行動(dòng)者身體上的標(biāo)記的定位,并且可以在序列之間有所不同。運(yùn)動(dòng)捕捉序列包括一組運(yùn)動(dòng)捕捉幀,其中每一幀對(duì)應(yīng)于某一時(shí)刻的點(diǎn)的配置。步驟500在以下結(jié)合圖6來進(jìn)一步討論。步驟502包括執(zhí)行重新定標(biāo)和不相似姿態(tài)檢測(cè)。在一種方法中,重新定標(biāo)是在不相似姿態(tài)選擇之前執(zhí)行的,而在另一種方法中,重新定標(biāo)是在不相似姿態(tài)選擇之后執(zhí)行的。 重新定標(biāo)將從運(yùn)動(dòng)捕捉工作室中的行動(dòng)者獲得的標(biāo)記位置轉(zhuǎn)換成不同身體類型的骨架模型。給定身體類型的骨架模型可以通過基于標(biāo)記的位置確定骨架模型中的關(guān)節(jié)的位置來獲得。例如,當(dāng)一個(gè)或多個(gè)標(biāo)記被定位在行動(dòng)者上相對(duì)于肩的已知位置時(shí),可從該標(biāo)記位置確定表示肩的關(guān)節(jié)的位置。骨架模型或骨架是通過肢或骨連接的身體的3-D關(guān)節(jié)或其它點(diǎn)的虛擬構(gòu)造,使得骨架的構(gòu)造可以通過列出3-D點(diǎn)的位置,或者另選地通過枚舉將各條骨相關(guān)到骨架中的另一條骨的關(guān)節(jié)角度來表示。該相對(duì)定位可將每一條骨相關(guān)到骨架的樹結(jié)構(gòu)分解中的其父骨。另外,可以用關(guān)節(jié)角度來指定形狀參數(shù),例如指定骨長(zhǎng)度。在對(duì)身體關(guān)節(jié)跟蹤系統(tǒng)的真實(shí)世界使用中,所成像的用戶將具有許多不同的身體類型,包括基于高度、寬度、體重、姿態(tài)、年齡、性別、發(fā)型和發(fā)量、服飾等的變化。由此,僅使用行動(dòng)者的身體類型或某一其它標(biāo)準(zhǔn)身體類型來提供用于運(yùn)動(dòng)捕捉的學(xué)習(xí)算法的訓(xùn)練數(shù)據(jù)將不能提供足夠的可變性。重新定標(biāo)到不同的身體類型提供了增加的可變性而不需要從運(yùn)動(dòng)捕捉工作室中的許多不同身體類型的不同行動(dòng)者獲得運(yùn)動(dòng)捕捉數(shù)據(jù),從而節(jié)省了成本和時(shí)間。運(yùn)動(dòng)捕捉數(shù)據(jù)的重新定標(biāo)可涉及將來自運(yùn)動(dòng)捕捉序列的3-D數(shù)據(jù)表示為身體類型的預(yù)定義骨架的參數(shù),特別是在轉(zhuǎn)換運(yùn)動(dòng)捕捉序列的每一幀的3-D標(biāo)記位置的意義上, 將該3-D數(shù)據(jù)表示為一系列關(guān)節(jié)角度(每一幀有一組關(guān)節(jié)角度)和形狀參數(shù)(每一序列有一組形狀參數(shù))。從同一行動(dòng)者捕捉的序列一般將共享形狀參數(shù)。運(yùn)動(dòng)捕捉序列的每一幀的3-D標(biāo)記位置可作為諸如(x,y,z)坐標(biāo)等一系列坐標(biāo)來提供。類似地,骨架的關(guān)節(jié)位置可作為另一系列(x,y,z)坐標(biāo)來提供??蓤?zhí)行到不同骨架和身體類型的重新定標(biāo)。作為一示例,可使用10-15個(gè)不同的身體類型。重新定標(biāo)還可引入身體類型的進(jìn)一步變化,如略微變化的骨或肢長(zhǎng)度,以便增加可變性程度。一般而言,目標(biāo)是在基于一定范圍的真實(shí)人類可變性的邊界內(nèi)提供身體姿態(tài)之間的最高量的可變性。不相似姿態(tài)選擇分析從每一重新定標(biāo)的運(yùn)動(dòng)捕捉序列獲得的所有姿態(tài)的集合。采用每秒30幀的幀速率、長(zhǎng)度為例如1-2分鐘的運(yùn)動(dòng)捕捉序列、以及對(duì)每一幀到15個(gè)不同身體類型的重新定標(biāo),可以看到幀/姿態(tài)的數(shù)量可變得巨大。為了提高效率并避免向?qū)W習(xí)算法提供具有高度冗余的過量數(shù)據(jù),可使用每一幀來運(yùn)行不相似姿態(tài)選擇過程,以獲得指定的、減少數(shù)量的不相似姿態(tài)。該不相似姿態(tài)選擇過程標(biāo)識(shí)根據(jù)一距離度量相隔指定距離的幀。步驟502在以下結(jié)合圖7a-7c來進(jìn)一步討論。不相似姿態(tài)選擇提供了具有最大程度不同的骨架的運(yùn)動(dòng)捕捉樣本子集。這些樣本中的每一個(gè)用于渲染3-D身體模型,從而創(chuàng)建深度圖以及分類圖或Harlequin(哈利昆)圖。多個(gè)任選階段可被插入到該過程中。步驟504包括執(zhí)行渲染來提供深度圖和分類圖像。渲染指的是在像素空間中生成合成圖像。深度圖像可以從相對(duì)于深度圖像所表示的身體位于指定位置的虛擬相機(jī)的角度來渲染。在渲染深度圖像時(shí)也可指定諸如虛擬相機(jī)的視野等其它因素。本質(zhì)上,深度圖像通過模擬視野中的3-D身體并且任選地模擬諸如地板、墻、天花板、家具和其它家用物品等場(chǎng)景元素,來模擬真實(shí)的深度相機(jī)將在真實(shí)環(huán)境中看見的東西。深度圖像可具有與真實(shí)深度相機(jī)相似的像素分辨率。此外,在深度圖像中,每一像素可以標(biāo)識(shí)從虛擬相機(jī)到3-D身體的距離、從虛擬相機(jī)到3-D場(chǎng)景物體的距離、或背景空間,背景空間是既不表示3-D身體也不表示3-D場(chǎng)景物體的像素。分類圖像或分類圖標(biāo)識(shí)并標(biāo)記3-D身體的不同身體部位或不同3-D場(chǎng)景元素。例如,每一像素可以標(biāo)識(shí)最接近虛擬相機(jī)的身體部位的編號(hào),或3-D場(chǎng)景物體的唯一索引。在用于身體關(guān)節(jié)跟蹤系統(tǒng)的學(xué)習(xí)算法中,深度圖像是使用諸如過濾器設(shè)置等設(shè)置來處理的, 并且生成對(duì)應(yīng)的分類圖,在該分類圖中學(xué)習(xí)算法試圖標(biāo)識(shí)身體部位和場(chǎng)景元素。由學(xué)習(xí)算法生成的分類圖可與隨深度圖像一起提供的分類圖進(jìn)行比較來確定該學(xué)習(xí)算法有多準(zhǔn)確。 隨深度圖像一起提供的分類圖本質(zhì)上是提供了正確答案的基準(zhǔn)圖,并且該學(xué)習(xí)算法可以在處理深度圖像時(shí)重復(fù)地調(diào)整其設(shè)置,例如訓(xùn)練其自身,直到它能夠盡可能準(zhǔn)確地復(fù)制正確的結(jié)果。此外,深度圖像的處理以及與相關(guān)聯(lián)的分類圖的比較可對(duì)該學(xué)習(xí)算法作為輸入數(shù)據(jù)集接收的眾多不相似幀重復(fù)。一旦優(yōu)化了學(xué)習(xí)算法,就記錄對(duì)應(yīng)的設(shè)置并可隨身體關(guān)節(jié)跟蹤系統(tǒng)一起發(fā)送該學(xué)習(xí)算法以供最終用戶使用。渲染也可隨每一深度圖像和分類圖一起提供描述姿態(tài)的文本文件,如按照用于提供3-D身體姿態(tài)的骨架模型的關(guān)節(jié)坐標(biāo)來描述。也可提供諸如在運(yùn)動(dòng)捕捉工作室中使用的設(shè)置等其它數(shù)據(jù)。步驟504在以下結(jié)合圖8來進(jìn)一步討論。步驟506包括向部分或全部深度圖像添加噪聲。在一種方法中,噪聲的量和類型以及要添加噪聲的深度幀的選擇可被隨機(jī)化。步驟506在以下結(jié)合圖9來進(jìn)一步討論。步驟508包括將深度圖像和分類圖像提供給機(jī)器學(xué)習(xí)算法。圖6提供了獲得運(yùn)動(dòng)捕捉數(shù)據(jù)(圖5的步驟500)的進(jìn)一步細(xì)節(jié)。步驟600包括在運(yùn)動(dòng)捕捉工作室中,當(dāng)行動(dòng)者隨之間執(zhí)行移動(dòng)時(shí)捕捉幀序列。在一種方法中,執(zhí)行大量種類的移動(dòng),這些移動(dòng)預(yù)期適用于描述預(yù)期在用戶參與身體關(guān)節(jié)跟蹤系統(tǒng)的不同應(yīng)用時(shí)會(huì)遇到的用戶移動(dòng)。在另一種方法中,移動(dòng)是特定于諸如游戲等具體應(yīng)用的。例如,交互式網(wǎng)球游戲可具有諸如揮動(dòng)球拍等規(guī)定移動(dòng)。任選地,行動(dòng)者可在移動(dòng)期間在他或她的手中持有道具。每一序列由連續(xù)的幀組成,且每一幀標(biāo)識(shí)了行動(dòng)者的身體上的標(biāo)記的位置。每一序列可以基于一腳本來執(zhí)行。例如,一個(gè)腳本可指定特定的手臂和腿移動(dòng)??色@得一個(gè)或多個(gè)序列。在步驟602,對(duì)于序列中的每一幀,提供標(biāo)記的3-D坐標(biāo)的數(shù)據(jù)集。如上所述,每一標(biāo)記的確切位置可以使用運(yùn)動(dòng)捕捉工作室中的不同相機(jī)通過三角測(cè)量來確定。步驟604輸出運(yùn)動(dòng)捕捉序列的一個(gè)或多個(gè)數(shù)據(jù)集。在一個(gè)示例實(shí)現(xiàn)中,捕捉N個(gè)運(yùn)動(dòng)捕捉序列,表示為{S」i = 1....N}。每一序列包括幀Si= {Fit|t= 1...NJ。由此,Si表示一系列或一組幀,且其所包含的對(duì)象是Fit。每一 Fit是3-D點(diǎn)位置的向量或關(guān)節(jié)角度的向量,并表示在時(shí)間t序列Si的幀(F)。每一幀由一組M個(gè)標(biāo)記位置來表示,因此Fit由MX 3的矩陣來表示,每一行編碼了一個(gè)標(biāo)記的3-D位置。注意,N和每一個(gè)Ni表示不同的變量。Ni是序列Si中的幀數(shù)。圖7a提供了執(zhí)行重新定標(biāo)和不相似姿態(tài)檢測(cè)(圖5的步驟50 的進(jìn)一步細(xì)節(jié), 其中首先執(zhí)行重新定標(biāo)。在一種方法中,將每一運(yùn)動(dòng)捕捉幀重新定標(biāo)到多個(gè)不同的身體類型。該重新定標(biāo)在步驟700處開始。步驟702從來自圖6的步驟606的運(yùn)動(dòng)捕捉序列的數(shù)據(jù)集中選擇一序列。步驟704從當(dāng)前序列中選擇一個(gè)幀。步驟706選擇一身體類型。步驟708基于所選身體類型將3-D標(biāo)記位置轉(zhuǎn)換成關(guān)節(jié)位置。作為指定類型的身體的骨架模型的一部分的關(guān)節(jié)位置可基于標(biāo)記的位置來獲得。例如,當(dāng)一個(gè)或多個(gè)標(biāo)記被定位在行動(dòng)者上相對(duì)于肩的已知位置時(shí),可從該標(biāo)記位置確定表示肩的關(guān)節(jié)的位置。此外, 指定類型的身體中的關(guān)節(jié)的位置可以基于該身體的模型以及適合該身體模型的對(duì)應(yīng)的骨架來確定。也可在步驟708期間添加諸如基于骨或肢長(zhǎng)度等隨機(jī)變化。在一示例實(shí)現(xiàn)中,輸入骨架序列被重新定標(biāo)到一個(gè)或多個(gè)標(biāo)號(hào)為1. . . B的身體形狀,從而產(chǎn)生經(jīng)重新定標(biāo)的幀{F' itk|k= 1...B}。F' itk是對(duì)于身體類型k在時(shí)間t運(yùn)動(dòng)捕捉序列Si中的一個(gè)幀??梢赃x擇身體形狀的范圍來覆蓋該系統(tǒng)的較大比例的潛在用戶, 并且可包括以下各項(xiàng)的變化性別(男性、女性)、年齡(成人、孩子)、身體類型(諸如100 磅、150磅和200磅等指定體重;或胖、瘦或普通體形)、身高(例如,5英尺、5. 5英尺、6英尺)、頭部毛發(fā)類型(小胡子、胡須、長(zhǎng)發(fā)/短發(fā))、服飾(寬松、繃緊、短裙)、等等。例如, 身體類型1可以是男性、成人、體重150磅、5. 5英尺高、具有短發(fā)和寬松的服飾,身體類型2 可以是男性、成人、體重200磅、6英尺高、具有長(zhǎng)發(fā)和繃緊的服飾,等等。該階段可任選地包括對(duì)諸如手指角度等未跟蹤關(guān)節(jié)的調(diào)整。用于渲染的身體模型具有比輸入骨架多得多的參數(shù)(關(guān)節(jié)角度),因此對(duì)于大多數(shù)未跟蹤的關(guān)節(jié),不具有關(guān)于它們?cè)谀睦锏男畔?。為了填入該信息,可以設(shè)置一默認(rèn)值(例如,將手指角度設(shè)為對(duì)應(yīng)于張開的手)?;蛘撸恳讳秩镜膱D像可以隨機(jī)地設(shè)置這些值,從而生成渲染中的更多變化。人們知道這些手指在哪里是因?yàn)槿藗冎朗衷谀睦?因?yàn)槭质歉櫟年P(guān)節(jié)),且給定手指定向, 人們可以使用人類骨架的運(yùn)動(dòng)學(xué)模型以及手指如何與手相關(guān)。在一個(gè)具體實(shí)例中,使用了 15個(gè)基礎(chǔ)骨架,其體重和/或骨或肢長(zhǎng)度隨機(jī)變化。由此,B實(shí)際上非常大,但可考慮所有可能的F' itk的隨機(jī)子集。參見圖12可獲得身體模型的骨架的進(jìn)一步細(xì)節(jié)。步驟710將重新定標(biāo)的幀添加到重新定標(biāo)的幀的數(shù)據(jù)集。在第一關(guān)節(jié)位置標(biāo)識(shí)方案中,骨架模型中的關(guān)節(jié)位置可以由(X,y,ζ)坐標(biāo)來標(biāo)識(shí)。一示例骨架可具有大約40個(gè)關(guān)節(jié)。該數(shù)據(jù)集可包括對(duì)應(yīng)于每一幀的矩陣,其中每一行表示骨架模型中的一個(gè)具體關(guān)節(jié),并且有表示坐標(biāo)系中的關(guān)節(jié)的(X,1,ζ)位置的三列對(duì)應(yīng)于χ的第一列、對(duì)應(yīng)于y的第二列、以及對(duì)應(yīng)于ζ的第三列。例如,可標(biāo)識(shí)關(guān)節(jié),使得左肩是關(guān)節(jié)#1,右肩是關(guān)節(jié)#2,等等。在第二關(guān)節(jié)位置標(biāo)識(shí)方案中,骨架模型可以通過指定起始點(diǎn)以及一系列關(guān)節(jié)角度和諸如骨或肢長(zhǎng)度等形狀參數(shù)來定義。例如,關(guān)節(jié)可以與一給定點(diǎn)相距沿著一向量的指定距離。在這一情況下,該數(shù)據(jù)集可包括對(duì)應(yīng)于每一幀的矩陣,其中第一行表示起始關(guān)節(jié),且每一另外的行表示骨架模型中的相鄰關(guān)節(jié)。在這一情況下,可以有四列。前三個(gè)列表示例如分別在每一 χ-y、y_z、χ-ζ平面中從先前關(guān)節(jié)到當(dāng)前關(guān)節(jié)的向量的角度。第四個(gè)矩陣列可提供形狀參數(shù),如從先前關(guān)節(jié)到當(dāng)前關(guān)節(jié)的距離,例如骨長(zhǎng)度。也可使用其它關(guān)節(jié)標(biāo)識(shí)方案。
14
可做出關(guān)節(jié)位置標(biāo)識(shí)方案之間的轉(zhuǎn)換。例如,從第一到第二關(guān)節(jié)位置標(biāo)識(shí)方案的轉(zhuǎn)換可以涉及將3-D空間中的兩個(gè)連續(xù)關(guān)節(jié)位置相減來獲得它們之間的向量,該向量按照每一 X-y、y-Z、X-Z平面中的角度以及作為形狀參數(shù)的該向量的大小。從第二到第一關(guān)節(jié)位置標(biāo)識(shí)方案的轉(zhuǎn)換可涉及添加由兩個(gè)連續(xù)關(guān)節(jié)位置之間的角度和大小定義的向量。在判定步驟712,如果存在下一身體類型,則對(duì)當(dāng)前幀重復(fù)步驟706-710的過程。 如果當(dāng)前幀已被重新定標(biāo)到所有身體類型,則判定步驟712為假,并且判定步驟714確定當(dāng)前序列中是否還有另一幀要處理。如果判定步驟714為真,則在步驟704選擇一新的幀,并且對(duì)該新的幀重復(fù)步驟706-710的過程。如果當(dāng)前序列中的所有幀都已被重新定標(biāo),則判定步驟714為假,并且判定步驟716確定是否有另一序列要處理。如果有另一序列要處理, 則在步驟702選擇新序列并且執(zhí)行步驟704-710的過程。當(dāng)已經(jīng)處理了最后一個(gè)序列時(shí), 判定步驟716為假,并且重新定標(biāo)在步驟718結(jié)束。步驟720輸出重新定標(biāo)的幀的數(shù)據(jù)集。不相似姿態(tài)選擇在步驟722開始。在所有可能姿態(tài)的空間中,不相似姿態(tài)選擇提供了稀疏采樣。結(jié)果,向?qū)W習(xí)算法提供了較少的幀,從而減少了計(jì)算花費(fèi),但不損失大量質(zhì)量。例如,幀數(shù)可以按照大小的數(shù)量級(jí)來減少。在所描繪的方法中,不相似姿態(tài)檢測(cè)使用用于重新定標(biāo)的骨架模型中的關(guān)節(jié)位置,而非來自運(yùn)動(dòng)捕捉序列的標(biāo)記位置來執(zhí)行。步驟7M從步驟720提供的重新定標(biāo)的幀的數(shù)據(jù)集中選擇并移除姿態(tài)。步驟7 將該姿態(tài)添加到所選不相似姿態(tài)的新數(shù)據(jù)集。步驟 7 確定每一所選不相似姿態(tài)和重新定標(biāo)的幀的數(shù)據(jù)集中的所有剩余姿態(tài)之間的距離,這些剩余姿態(tài)是候選姿態(tài)。步驟730任選地排除距離任何所選不相似姿態(tài)不足至少閾值距離 T的候選姿態(tài)。這些候選姿態(tài)被認(rèn)為與一個(gè)或多個(gè)所選不相似姿態(tài)太相似。步驟732確定哪一候選姿態(tài)具有與任何所選不相似姿態(tài)的最大的最小距離。由此,對(duì)于每一候選姿態(tài),可以確定其距離每一所選不相似姿態(tài)的距離。然后可對(duì)每一候選姿態(tài)取這些距離的最小值。 然后,確定在所有候選姿態(tài)中哪一個(gè)最小值是最大的。在步驟734,將所選候選姿態(tài)添加到所選不相似姿態(tài)的數(shù)據(jù)集,并從重新定標(biāo)的幀的數(shù)據(jù)集中移除。如果在判定步驟736在重新定標(biāo)的幀的數(shù)據(jù)集中有下一幀要處理,則處理在步驟7觀-734繼續(xù)。在一種方法中,當(dāng)在重新定標(biāo)的、不相似的幀的數(shù)據(jù)集中已經(jīng)提供了指定數(shù)量D的幀時(shí),判定步驟736為假。不相似姿態(tài)檢測(cè)在步驟738結(jié)束。步驟740輸出所選不相似幀的數(shù)據(jù)集。不相似姿態(tài)是重新定標(biāo)的運(yùn)動(dòng)步驟序列中的姿態(tài)的子集。圖7b描繪了用于不相似姿態(tài)選擇的算法。將每一元組(i,t,k)與一整數(shù)r相關(guān)聯(lián),所有重新定標(biāo)的運(yùn)動(dòng)捕捉幀被表示為集合S' = {F'」1^=1...! },其中1 = 8\111 Ni = BXN1X...……Nn。不相似姿態(tài)選擇的目標(biāo)是選擇這些幀的(大小為D的)子集,由整數(shù)集P1 = Ir1, . . . , rD}來表示,使得該子集不包括由相似度函數(shù)Φ定義的相似幀對(duì),該相似度函數(shù)也可被認(rèn)為是距離度量。該函數(shù)(其示例在下文中給出)將來自S'的一對(duì)幀映射到一正實(shí)數(shù),該正實(shí)數(shù)對(duì)于相似幀較小,在其它情況下則較大。為清楚起見,如果幀由 MX3的矩陣G和H來表示,則Φ (G,H)返回G和H的相似度,其中對(duì)于相同的姿態(tài)Φ = 0, 且越大的Φ表示越不相似的姿態(tài)。用于該算法的偽代碼在圖7b中示出。輸出索引&定義了作為對(duì)后續(xù)階段的輸入的一組運(yùn)動(dòng)捕捉幀P。如果未執(zhí)行不相似姿態(tài)檢測(cè),則P'= S'?;蛘?,不相似姿態(tài)檢測(cè)可以在重新定標(biāo)之前在運(yùn)動(dòng)捕捉幀上運(yùn)行(見圖7c)。不相似姿態(tài)檢測(cè)算法使用姿態(tài)相似度函數(shù)Φ (G,H)。給定矩陣G,其M行由{gj}」= 1:Μ表示,且類似地H的行由0ι1 = 1:Μ表示。第一個(gè)可能的相似性定義是最大關(guān)節(jié)距離
權(quán)利要求
1.一種用于生成用于人體跟蹤的代表訓(xùn)練數(shù)據(jù)的處理器實(shí)現(xiàn)的方法,包括以下處理器實(shí)現(xiàn)的步驟訪問至少一個(gè)運(yùn)動(dòng)捕捉序列(500),所述至少一個(gè)運(yùn)動(dòng)捕捉序列標(biāo)識(shí)其中行動(dòng)者執(zhí)行移動(dòng)的時(shí)間段期間所述行動(dòng)者的身體的姿態(tài)(1100);基于所述至少一個(gè)運(yùn)動(dòng)捕捉序列執(zhí)行到多個(gè)身體類型的重新定標(biāo)和不相似姿態(tài)選擇, 來提供多個(gè)不相似姿態(tài)(502);以及根據(jù)用于所述多個(gè)身體類型中的一相應(yīng)身體類型的3-D身體模型(1302、1360)來渲染每一所述不相似姿態(tài),以提供所述不相似姿態(tài)的相應(yīng)的深度圖像,并提供標(biāo)識(shí)所述不相似姿態(tài)的身體部位的相應(yīng)的分類圖像(1400),其中所述3-D身體模型是基于對(duì)應(yīng)骨架的關(guān)節(jié)位置和關(guān)節(jié)角度中的至少一個(gè)來渲染的,使用多個(gè)3-D身體模型,對(duì)每一身體類型有一個(gè) 3-D身體模型,并且相應(yīng)的深度圖像和相應(yīng)的分類圖像包括可由機(jī)器學(xué)習(xí)算法用于人體跟蹤的像素?cái)?shù)據(jù)。
2.如權(quán)利要求1所述的處理器實(shí)現(xiàn)的方法,其特征在于所述重新定標(biāo)將所述至少一個(gè)運(yùn)動(dòng)捕捉序列重新定標(biāo)到所述多個(gè)身體類型,以提供多個(gè)重新定標(biāo)的運(yùn)動(dòng)捕捉序列,每一重新定標(biāo)的運(yùn)動(dòng)捕捉序列標(biāo)識(shí)所述多個(gè)身體類型的一相應(yīng)身體類型的姿態(tài);以及所述不相似姿態(tài)選擇從所述多個(gè)重新定標(biāo)的運(yùn)動(dòng)捕捉序列中選擇不相似姿態(tài),使得所述不相似姿態(tài)是所述多個(gè)重新定標(biāo)的運(yùn)動(dòng)捕捉序列中的姿態(tài)的子集。
3.如權(quán)利要求1所述的處理器實(shí)現(xiàn)的方法,其特征在于所述不相似姿態(tài)選擇從所述至少一個(gè)運(yùn)動(dòng)捕捉序列中選擇不相似姿態(tài),使得所述不相似姿態(tài)是所述至少一個(gè)運(yùn)動(dòng)捕捉序列中的姿態(tài)的子集;以及所述重新定標(biāo)將所述不相似姿態(tài)重新定標(biāo)到所述多個(gè)身體類型,以提供多個(gè)重新定標(biāo)的運(yùn)動(dòng)捕捉序列,每一重新定標(biāo)的運(yùn)動(dòng)捕捉序列標(biāo)識(shí)所述多個(gè)身體類型的一相應(yīng)身體類型的姿態(tài)。
4.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其特征在于,還包括以下處理器實(shí)現(xiàn)的步驟向至少一個(gè)所述不相似姿態(tài)引入變化,所述變化包括變化的骨長(zhǎng)度和變化的關(guān)節(jié)角度中的至少一個(gè)。
5.如權(quán)利要求1所述的處理器實(shí)現(xiàn)的方法,其特征在于所述渲染向至少一個(gè)所述不相似姿態(tài)添加3-D場(chǎng)景元素(1304、1306、1308、1310);以及所述3-D場(chǎng)景元素中的至少一個(gè)被修改成適合所述不相似姿態(tài)的對(duì)應(yīng)的身體姿態(tài)。
6.如權(quán)利要求5所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其特征在于,還包括以下處理器實(shí)現(xiàn)的步驟通過組合來自所述至少一個(gè)運(yùn)動(dòng)捕捉序列的兩個(gè)或更多運(yùn)動(dòng)捕捉幀的關(guān)節(jié)角度,將所述行動(dòng)者的身體的姿態(tài)擴(kuò)展到至少一個(gè)附加姿態(tài)。
7.如權(quán)利要求1所述的處理器實(shí)現(xiàn)的方法,其特征在于所述渲染通過改變虛擬相機(jī)高度、虛擬相機(jī)角度和虛擬相機(jī)視野中的至少一個(gè)來改變至少一個(gè)所述不相似姿態(tài)。
8.如權(quán)利要求1所述的處理器實(shí)現(xiàn)的方法,其特征在于所述渲染通過改變至少一個(gè)所述不相似姿態(tài)的身體位置來改變至少一個(gè)所述不相似姿態(tài)。
9.如權(quán)利要求1所述的處理器實(shí)現(xiàn)的方法,其特征在于所述渲染向至少一個(gè)所述不相似姿態(tài)添加3-D場(chǎng)景元素;以及所述渲染組合不同姿態(tài)中的、但具有共同的虛擬相機(jī)位置和共同的3-D場(chǎng)景元素的兩個(gè)或更多3-D身體模型。
10.一種用于生成用于人體跟蹤的代表訓(xùn)練數(shù)據(jù)的處理器實(shí)現(xiàn)的方法,包括以下處理器實(shí)現(xiàn)的步驟訪問至少一個(gè)運(yùn)動(dòng)捕捉序列(500),所述至少一個(gè)運(yùn)動(dòng)捕捉序列標(biāo)識(shí)其中行動(dòng)者執(zhí)行移動(dòng)的時(shí)間段期問所述行動(dòng)者的身體的姿態(tài)(1100);基于所述至少一個(gè)運(yùn)動(dòng)捕捉序列執(zhí)行不相似姿態(tài)選擇和到多個(gè)身體類型的重新定標(biāo), 來提供多個(gè)不相似姿態(tài)(502);以及根據(jù)用于所述多個(gè)身體類型中的一相應(yīng)身體類型的3-D身體模型(1302、1360)來渲染每一所述不相似姿態(tài),以提供所述不相似姿態(tài)的相應(yīng)的深度圖像,并提供標(biāo)識(shí)所述不相似姿態(tài)的身體部位的相應(yīng)的分類圖像(1400),其中使用多個(gè)3-D身體模型,對(duì)每一身體類型有一個(gè)3-D身體模型,并且相應(yīng)的深度圖像和相應(yīng)的分類圖像包括可由機(jī)器學(xué)習(xí)算法用于人體跟蹤的像素?cái)?shù)據(jù),并且所述渲染向至少一個(gè)所述不相似姿態(tài)添加噪聲(506)。
11.如權(quán)利要求10所述的處理器實(shí)現(xiàn)的方法,其特征在于所述噪聲是通過向至少一個(gè)所述不相似姿態(tài)添加頭部毛發(fā)(90 來添加的。
12.如權(quán)利要求10所述的處理器實(shí)現(xiàn)的方法,其特征在于所述噪聲是通過量化至少一個(gè)所述不相似姿態(tài)的深度分辨率(904)來添加的,其中精度取決于深度。
13.如權(quán)利要求10所述的處理器實(shí)現(xiàn)的方法,其特征在于所述噪聲是通過標(biāo)識(shí)至少一個(gè)所述不相似姿態(tài)中的至少一個(gè)邊緣(908),并用遠(yuǎn)離所述至少一個(gè)邊緣的相鄰像素的深度替換所述至少一個(gè)便邊緣處的至少一個(gè)像素的深度來添加的。
14.如權(quán)利要求10所述的處理器實(shí)現(xiàn)的方法,其特征在于所述噪聲是通過標(biāo)識(shí)比至少一個(gè)所述不相似姿態(tài)中的指定數(shù)量的像素薄的至少一個(gè)薄結(jié)構(gòu)(910),并用背景像素替換所述至少一個(gè)薄結(jié)構(gòu)的像素來添加的。
15.如權(quán)利要求10所述的處理器實(shí)現(xiàn)的方法,其特征在于所述噪聲是通過標(biāo)識(shí)至少一個(gè)所述不相似姿態(tài)中具有大于閾值的深度不連續(xù)性的第一和第二邊緣(91 ,并用背景像素替換所述第一和第二邊緣之間的像素來添加的。
全文摘要
本發(fā)明公開了一種生成用于人體跟蹤的代表訓(xùn)練數(shù)據(jù)的方法。為身體關(guān)節(jié)跟蹤系統(tǒng)的機(jī)器學(xué)習(xí)算法生成合成身體圖像。來自運(yùn)動(dòng)捕捉序列的幀被重新定標(biāo)到若干不同的身體類型,來充分利用該運(yùn)動(dòng)捕捉序列。為了避免向機(jī)器學(xué)習(xí)算法提供冗余或相似的幀,并且為了提供緊湊但仍高度變化的圖像集,可使用相似度度量來標(biāo)識(shí)不相似的幀。該相似度度量用于定位根據(jù)閾值距離足夠不同的幀。出于真實(shí)性起見,基于真實(shí)世界深度相機(jī)通常經(jīng)歷的噪聲源來向深度圖像添加噪聲。也可引入其他隨機(jī)變化。例如,可向重新定標(biāo)添加一定程度的隨機(jī)性。對(duì)于每一幀,提供深度圖像和具有標(biāo)記的身體部位的對(duì)應(yīng)的分類圖像。也可提供3-D場(chǎng)景元素。
文檔編號(hào)G06K9/00GK102194105SQ201110071738
公開日2011年9月21日 申請(qǐng)日期2011年3月18日 優(yōu)先權(quán)日2010年3月19日
發(fā)明者A·費(fèi)茨吉本, J·肖頓, M·科克, M·芬諾基奧, R·摩爾 申請(qǐng)人:微軟公司