亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制的制作方法

文檔序號:6350888閱讀:204來源:國知局
專利名稱:實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制的制作方法
實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制相關(guān)文獻(xiàn)的交叉引用本申請要求2009年11月6日向美國專利局提交的題為“REAL TIME HANDTRACKING AND POSE CLASSIFICATION USING SIFT AND KLT” 的美國臨時(shí)專禾丨J 申請No. 61/258,975的優(yōu)先權(quán)和權(quán)益,該申請通過引用被整體結(jié)合于此。版權(quán)和商標(biāo)聲明本專利文獻(xiàn)的公開的一部分包含受版權(quán)保護(hù)的資料。版權(quán)所有者不反對任何人對本專利文獻(xiàn)或本專利公開進(jìn)行復(fù)制再現(xiàn),如其出現(xiàn)在專利商標(biāo)局的專利文件或記錄中那樣,但是無論怎樣版權(quán)所有者都保留所有版權(quán)權(quán)利。商標(biāo)是其各自所有者的財(cái)產(chǎn)。
背景技術(shù)
手可以呈現(xiàn)二十七個(gè)(XT)自由度(DOF)的運(yùn)動。在這二十七個(gè)自由度中,二十一個(gè)表示關(guān)節(jié)角度,六個(gè)(6)表示朝向和位置。傳統(tǒng)上,手跟蹤利用著色手套和顏色圖案匹配、使用儀器化手套/傳感器系統(tǒng)或重疊相機(jī)(例如,立體相機(jī)系統(tǒng))的陣列的附接到手的回復(fù)反射(retro-reflective)標(biāo)記。


參考下面結(jié)合附圖所作的詳細(xì)描述可以最好地理解示出了組織和操作方法以及目的和優(yōu)點(diǎn)的一些說明性實(shí)施例,在附圖中圖1是符合本發(fā)明的某些實(shí)施例的能夠執(zhí)行自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制的電視機(jī)的實(shí)施方式的示例的示圖。圖2是符合本發(fā)明的某些實(shí)施例的與圖1的電視機(jī)相關(guān)聯(lián)的提供自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制的示例核心處理模塊的框圖。圖3是符合本發(fā)明的某些實(shí)施例的提供自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制的處理的實(shí)施方式的示例的流程圖。圖4是符合本發(fā)明的某些實(shí)施例的提供與自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制相關(guān)聯(lián)的訓(xùn)練處理的處理的實(shí)施方式的示例的流程圖。圖5是符合本發(fā)明的某些實(shí)施例的提供與自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制相關(guān)聯(lián)的檢測和姿態(tài)識別處理的處理的實(shí)施方式的示例的流程圖。圖6是符合本發(fā)明的某些實(shí)施例的提供與自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制相關(guān)聯(lián)的電子設(shè)備用戶界面處理的處理的實(shí)施方式的示例的流程圖。圖7是符合本發(fā)明的某些實(shí)施例的提供與自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制相關(guān)聯(lián)的電子設(shè)備用戶界面處理以及對于電子設(shè)備的控制功能的姿態(tài)指派的處理的實(shí)施方式的示例的流程圖。
具體實(shí)施例方式雖然本發(fā)明容許實(shí)施例有許多不同形式,但是將在如下理解下在附圖中示出并在這里的具體特定實(shí)施例中描述本發(fā)明這樣的實(shí)施例的公開被認(rèn)為是原理的示例而不希望將本發(fā)明限制到所示出和描述的具體實(shí)施例。在下面的描述中,在附圖中的若干視圖中相似標(biāo)號被用來描述相同、類似或?qū)?yīng)部分。如這里使用的術(shù)語“一”或“一個(gè)”被定義為一個(gè)或多于一個(gè)。如這里使用的術(shù)語“多個(gè)”被定義為兩個(gè)或多于兩個(gè)。如這里使用的術(shù)語“另一個(gè)”被定義為至少第二個(gè)或者更多。如這里使用的術(shù)語“包括”和/或“具有”被定義為包含(即,開放式語言)。如這里使用的術(shù)語“耦合”被定義為連接,盡管不一定是直接地并且不一定是機(jī)械上的。如這里使用的術(shù)語“程序”(program)或“計(jì)算機(jī)程序”或類似術(shù)語被定義為被設(shè)計(jì)用于在計(jì)算機(jī)系統(tǒng)上執(zhí)行的指令序列?!俺绦?,,或“計(jì)算機(jī)程序,,可以包括可執(zhí)行應(yīng)用中的子例程、功能、過程、對象方法、對象實(shí)施方式、以及小應(yīng)用程序、伺服小程序、源代碼、對象代碼、共享庫/動態(tài)負(fù)載庫和/或被設(shè)計(jì)用于在具有一個(gè)或多個(gè)處理器的計(jì)算機(jī)系統(tǒng)上執(zhí)行的其它指令序列。如這里使用的術(shù)語“program”也可以用在第二種語境中(以上定義用于第一種語境)。在第二種語境中,該術(shù)語被用作“電視節(jié)目”的意義。在此語境中,該術(shù)語被用來指音視頻內(nèi)容的任何相關(guān)序列,音視頻內(nèi)容例如是被解釋為并且在電子節(jié)目指南(EPG)中被報(bào)告為單個(gè)電視節(jié)目的內(nèi)容,而不管該內(nèi)容是否是電影、體育事件、多部分系列中的片段、新聞廣播等。該術(shù)語也可以被解釋為包括可能不被報(bào)告為電子節(jié)目指南中的節(jié)目的商業(yè)廣告位置和其它像節(jié)目的內(nèi)容。貫穿本文檔提及的“一個(gè)實(shí)施例”、“某些實(shí)施例”、“實(shí)施例”、“實(shí)施方式”、“示例”、或者類似術(shù)語指結(jié)合示例描述的特定特征、結(jié)構(gòu)、或者特性被包括在本發(fā)明的至少一個(gè)實(shí)施例中。所以,這些短語的出現(xiàn)或者在貫穿本說明書的各個(gè)位置不一定全都是指同一實(shí)施例。另外,特定特征、結(jié)構(gòu)、或者特性可以被以任何適當(dāng)?shù)姆绞浇Y(jié)合在一個(gè)或多個(gè)實(shí)施例中,而不受任何限制。如這里使用的術(shù)語“或”將被解釋為包含性的或者指任一個(gè)或任何組合。因此,“A、B或C”是指“如下意思中的任一種意思=A ;B ;C ;A和B ;A和C ;B和C ;A、B和C”。僅當(dāng)元素、功能、步驟或動作以某種方式固有地相互排斥時(shí)才會發(fā)生此定義的例外。本主題提供了自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制??梢越Y(jié)合標(biāo)識并對徒手的手姿態(tài)和手姿態(tài)的改變進(jìn)行分類的系統(tǒng)使用本主題。還可以結(jié)合用戶界面控制系統(tǒng)使用本主題,以允許手姿勢控制諸如消費(fèi)電子設(shè)備之類的設(shè)備。這里描述的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制還適于允許用戶基于手姿勢來形成輸入控制。另外,用戶界面系統(tǒng)的每個(gè)個(gè)體用戶的手特性,例如因受傷產(chǎn)生的特性或其它特性,可被處理并且被結(jié)合消費(fèi)電子設(shè)備的基于手勢的控制進(jìn)行配置,以允許個(gè)性化地自動識別手姿勢,從而控制共同的或不同的用戶界面控件。實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制還存在許多其它可能性,并且所有可能性均被認(rèn)為落在本主題的范圍內(nèi)。作為示例,可被標(biāo)識出來并被用來控制諸如消費(fèi)電子設(shè)備之類的設(shè)備的所檢測到的手姿勢包括對可被標(biāo)識出來并被與打開消費(fèi)電子設(shè)備的控制命令相關(guān)聯(lián)的“豎拇指(thumbs-up) ”手姿勢或“向上指”手姿勢的檢測。類似地例如,對“倒拇指(thumbs-down),,手姿勢或“向下指”手姿勢的檢測可以被標(biāo)識出來并被與關(guān)閉消費(fèi)電子設(shè)備的控制命令相關(guān)聯(lián)??苫诒局黝}被檢測并被標(biāo)識出來的任何手姿勢可被用來控制設(shè)備的界面(例如,用戶界面)。另外,手姿勢可由用戶創(chuàng)建并且可被響應(yīng)于手姿勢輸入而指派給控制功能。用戶界面控制存在許多可能性并且所有可能性被認(rèn)為落在本主題的范圍內(nèi)。本主題可以利用諸如單目相機(jī)之類的單個(gè)相機(jī)以及如下數(shù)據(jù)驅(qū)動方法來操作,其中該數(shù)據(jù)驅(qū)動方法使用尺度不變特征變換(SIFT)描述符和像素強(qiáng)度/位移描述符作為所提取的特征來不僅跟蹤三維的手的關(guān)節(jié)型姿態(tài)而且還對其進(jìn)行分類。然而,應(yīng)注意,這里描述的處理可被擴(kuò)展為使用多個(gè)相機(jī),這可以極大地提高準(zhǔn)確度。實(shí)時(shí)方面允許其被集成到消費(fèi)電子設(shè)備中。還可以應(yīng)用在三維(3D)建模、新桌面用戶界面和多觸摸界面中。還可以通過為這些實(shí)施方式創(chuàng)建更直觀的界面設(shè)備來改進(jìn)實(shí)時(shí)嵌入系統(tǒng)。SIFT是一種用于處理圖像的技術(shù),其提取在旋轉(zhuǎn)、平移(translation)和縮放時(shí)不變的突出特征描述符。因此,SIFT描述符可被認(rèn)為對于匹配、識別和圖像登記任務(wù)是穩(wěn)健的。像素強(qiáng)度/位移是一種用于處理圖像的技術(shù),其使用像素相對于其相鄰像素的位移位置和像素強(qiáng)度來跟蹤圖像內(nèi)的像素。要在圖像序列內(nèi)跟蹤的特征是這樣的像素,這些像素是通過計(jì)算一個(gè)圖像與被位移了已知值的同一圖像之間的圖像梯度并形成圖像梯度矩陣而被確定的。如果圖像梯度矩陣的本征(Eigen)值大于指定閾值(例如,最大值10. 0),則每個(gè)這樣的特征可被認(rèn)為是提供適合于跟蹤目的的信息的特征。Kanade、Lucas和Tomasi (KLT)描述符表示可被使用的一種可能形式的像素強(qiáng)度/位移描述符。然而,將明白,任何形式的像素強(qiáng)度/位移描述符可被適當(dāng)?shù)赜糜诮o定實(shí)施方式。跟蹤方面可以包括跟蹤平面外旋轉(zhuǎn)以及動態(tài)手的其它特性。可以將三維的手的所分類的關(guān)節(jié)型姿態(tài)(articulated pose)與消費(fèi)電子設(shè)備的用戶界面控制相關(guān)聯(lián)。配置和訓(xùn)練模式允許將定制的姿態(tài)朝向與電子系統(tǒng)的具體控制相關(guān)聯(lián)。由于徒手跟蹤和姿態(tài)識別是利用單個(gè)相機(jī)執(zhí)行的,因此不需要使用回復(fù)反射標(biāo)記、相機(jī)陣列的傳統(tǒng)技術(shù)或者其它傳統(tǒng)技術(shù)。此外,可以在實(shí)時(shí)地執(zhí)行手跟蹤、姿態(tài)分類和界面控制的同時(shí)維持分辨率和范圍。與某些傳統(tǒng)技術(shù)相比,這里描述的主題可被用來捕捉增加的自由度,從而使能直接操縱任務(wù)和對增強(qiáng)手勢集的識別。這里描述的方法示出了數(shù)據(jù)驅(qū)動方法的示例,其中數(shù)據(jù)驅(qū)動方法允許單個(gè)幀被用來基于經(jīng)減少的存儲姿態(tài)信息集來正確地標(biāo)識姿態(tài)。穩(wěn)健的尺度不變特征被從手姿態(tài)的單個(gè)幀提取,并且多類支持向量機(jī)(SVM)被用來實(shí)時(shí)地對姿態(tài)進(jìn)行分類。多假設(shè)推斷被用來進(jìn)行實(shí)時(shí)徒手跟蹤和姿態(tài)識別。本主題通過利用對圖像特征的選擇并且利用多類SVM推斷最接近姿態(tài)圖像來促進(jìn)實(shí)時(shí)性能,其中最接近姿態(tài)圖像允許快速檢索出最接近匹配。關(guān)于圖像特征的選擇,可以快速地計(jì)算出SIFT和像素強(qiáng)度/位移特征兩者,并且多類SVM可以使用類似濾波器來提取突出信息進(jìn)而加快提取速度。由于多類SVM在先前圖像集上被訓(xùn)練,因此可以進(jìn)一步提高檢索效率。將在下面的一些介紹性示例體系結(jié)構(gòu)(基于其可以實(shí)現(xiàn)本主題)中描述結(jié)合本主題執(zhí)行的處理的其它細(xì)節(jié)?,F(xiàn)在轉(zhuǎn)向圖1,圖1是能夠執(zhí)行自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制的電視機(jī)100的實(shí)施方式的示例的示圖。應(yīng)注意,在本示例中使用電視機(jī)100僅僅是出于說明的目的。因此,在不脫離本主題的范圍的情況下,這里描述的實(shí)現(xiàn)自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制的系統(tǒng)可以形成手持消費(fèi)電子設(shè)備或任何其它合適設(shè)備的一部分。外殼102容納顯示器104,顯示器104向電視機(jī)100的用戶提供視覺和/或其它信息。顯示器104可以包括任何類型的顯示設(shè)備,例如,陰極射線管(CRT)、液晶顯示器(LCD)、發(fā)光二極管(LED)、投射式或其它顯示元件或面板。顯示器104還可以包括觸摸屏顯示器,例如,與手持消費(fèi)電子設(shè)備或包括觸摸屏輸入設(shè)備的其它設(shè)備相關(guān)聯(lián)的觸摸屏顯示器。紅外(IR)(或射頻(RF))響應(yīng)輸入設(shè)備106為電視機(jī)100的用戶提供了經(jīng)由諸如紅外遙控設(shè)備(未示出)之類的設(shè)備進(jìn)行輸入的能力。音頻輸出設(shè)備108為電視機(jī)100提供音頻輸出能力,例如與所渲染的內(nèi)容相關(guān)聯(lián)的音頻。對于給定的實(shí)施方式,音頻輸出設(shè)備108可以適當(dāng)?shù)匕ㄒ粚P(yáng)聲器、驅(qū)動器電路和接口電路。發(fā)光二極管(LED)輸出模塊110提供一個(gè)或多個(gè)LED以及用于用信號向電視機(jī)100的用戶通知某些事件或確認(rèn)的相關(guān)聯(lián)的驅(qū)動器電路。有許多用于經(jīng)由LED信號向用戶傳輸信息的可能性并且所有可能性被認(rèn)為落在本主題的范圍內(nèi)。相機(jī)112為電視機(jī)100提供圖像捕捉能力。如下面將更詳細(xì)描述的,由相機(jī)112捕捉的圖像可被處理,以執(zhí)行與本主題相關(guān)聯(lián)的自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制。圖2是提供與圖1的電視機(jī)100相關(guān)聯(lián)的自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制的示例核心處理模塊200的框圖。對于給定的實(shí)施方式,核心處理模塊200可以適當(dāng)?shù)乇患傻诫娨暀C(jī)100中或者被實(shí)現(xiàn)為分離的互連模塊的一部分。處理器202提供核心處理模塊200內(nèi)的計(jì)算機(jī)指令執(zhí)行、計(jì)算和其它能力。紅外輸入設(shè)備106被示出并且同樣為電視機(jī)100的用戶提供經(jīng)由諸如紅外遙控設(shè)備(同樣未示出)之類的設(shè)備進(jìn)行輸入的能力。音頻輸出設(shè)備108被示出并且同樣為核心處理模塊200提供音頻輸出能力。對于給定的實(shí)施方式,音頻輸出設(shè)備108可以適當(dāng)?shù)匕ㄒ粋€(gè)或多個(gè)揚(yáng)聲器、驅(qū)動器電路和接口電路。調(diào)諧器/解碼器模塊204接收電視(例如,音頻/視頻)內(nèi)容并且對該內(nèi)容進(jìn)行解碼以供經(jīng)由顯示器104進(jìn)行顯示。該內(nèi)容可以包括經(jīng)由運(yùn)動圖像專家組(MPEG)標(biāo)準(zhǔn)中的任一種標(biāo)準(zhǔn)被格式化的內(nèi)容或者以任何其它合適格式被格式化的內(nèi)容,以供調(diào)諧器/解碼器模塊204接收。調(diào)諧器/解碼器模塊204可以包括如下形式的其它控制器電路專用集成電路(ASIC)、天線、處理器和/或離散集成電路以及用于執(zhí)行與調(diào)諧器/解碼器模塊204 (該模塊用于調(diào)諧到并解碼經(jīng)由與核心處理模塊200的無線或有線連接而接收的內(nèi)容)相關(guān)聯(lián)的電子控制活動的組件。顯示器104被示出并且同樣經(jīng)由調(diào)諧器/解碼器模塊204為核心處理模塊200提供視覺和/或其它信息。對于給定的實(shí)施方式,通信模塊206可以替代地為核心處理模塊200提供通信能力,例如,經(jīng)由衛(wèi)星、線纜、存儲介質(zhì)、因特網(wǎng)或其它內(nèi)容提供商檢索靜止圖像內(nèi)容、音頻和視頻內(nèi)容或其它內(nèi)容,以及其它活動。對于給定的實(shí)施方式,通信模塊206可以適當(dāng)?shù)刂С钟芯€或無線標(biāo)準(zhǔn)。示例的有線標(biāo)準(zhǔn)包括家庭網(wǎng)絡(luò)內(nèi)的因特網(wǎng)視頻鏈路(IVL)互連,例如,索尼公司的Bravia |因特網(wǎng)視頻鏈路(BIVL )。示例的無線標(biāo)準(zhǔn)包括蜂窩無線通信和Bluetooth :無線通信標(biāo)準(zhǔn)。許多其它有線和無線通信標(biāo)準(zhǔn)也是可以的并且所有標(biāo)準(zhǔn)被認(rèn)為落在本主題的范圍內(nèi)。存儲器208包括手姿態(tài)存儲區(qū)域210、手跟蹤和姿態(tài)處理存儲區(qū)域212以及控制相關(guān)性存儲區(qū)域214。手姿態(tài)存儲區(qū)域210可以存儲信息(例如,被捕捉并被用于處理本主題的自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制的手姿態(tài)的詞表)。手跟蹤和姿態(tài)處理存儲區(qū)域212可以存儲如下信息,例如,相機(jī)112捕捉的圖像以及與手姿態(tài)標(biāo)識相關(guān)聯(lián)的所捕捉圖像的處理的中間及最后階段。控制相關(guān)性存儲區(qū)域214可以存儲這樣的信息,例如,已經(jīng)與
8電視機(jī)100的控制命令相關(guān)起來的手位置或手位置標(biāo)識符。應(yīng)明白,存儲器208可以包括適用于所期望的目的的易失性和非易失性存儲器的任何組合(根據(jù)需要為分布式的或局部性的),并且可以包括其它存儲器片段(為了簡化說明未在本示例中圖示出)。例如,在不脫離本主題的范圍的情況下,存儲器208可以包括代碼存儲區(qū)域、代碼執(zhí)行區(qū)域和數(shù)據(jù)區(qū)域。還示出了手跟蹤和姿態(tài)處理模塊216。手跟蹤和姿態(tài)處理模塊216為核心處理模塊200提供執(zhí)行如上所述并且下面將更詳細(xì)描述的自動化的實(shí)時(shí)手跟蹤、姿態(tài)分類和界面控制的處理能力。相機(jī)112被示出并且同樣為核心處理模塊200提供圖像捕捉能力。應(yīng)注意,為了簡化說明和描述,上面與核心處理模塊200相關(guān)聯(lián)地描述的模塊被示出為組件級模塊。還應(yīng)明白,這些模塊包括被用來執(zhí)行如上所述并將在下面更詳細(xì)描述的這些模塊的各各功能的任何硬件、(一個(gè)或多個(gè))經(jīng)編程的處理器以及存儲器。例如,各模塊可以包括如下形式的其它控制器電路專用集成電路(ASIC)、處理器和/或用于執(zhí)行電子控制活動的離散集成電路以及組件。另外,這些模塊可以適當(dāng)?shù)匕ㄖ袛嗉墶⒍褩<壓蛻?yīng)用級模塊。此外,這些模塊可以包括由這些模塊用來進(jìn)行存儲、執(zhí)行和數(shù)據(jù)處理以便執(zhí)行各自的處理活動的任何存儲器組件。還應(yīng)注意,手跟蹤和姿態(tài)處理模塊216可以在不脫離本主題的范圍的情況下形成其它電路的一部分。此外,手跟蹤和姿態(tài)處理模塊216替代地可以被實(shí)現(xiàn)為存儲在存儲器208中的應(yīng)用。在這種實(shí)施方式中,手跟蹤和姿態(tài)處理模塊216可以包括由處理器202運(yùn)行的用于執(zhí)行這里描述的功能的指令。處理器202可以執(zhí)行這些指令以為核心處理模塊200提供如上所述并且將在下面更詳細(xì)描述的處理能力。在不脫離本主題的范圍的情況下,手跟蹤和姿態(tài)處理模塊216可以形成中斷服務(wù)例程(ISR)的一部分、操作系統(tǒng)的一部分、瀏覽器應(yīng)用的一部分或者單獨(dú)應(yīng)用的一部分。處理器202、紅外輸入設(shè)備106、音頻輸出設(shè)備108、調(diào)諧器/解碼器模塊204、通信模塊206、存儲器208、相機(jī)112和手跟蹤和姿態(tài)處理模塊216經(jīng)由一個(gè)或多個(gè)互連被相互連接,為了簡化圖示說明,所述互連被示出為互連218。互連218可以包括系統(tǒng)總線、網(wǎng)絡(luò)或者能夠出于各種目的而向各組件提供合適互連的任何其它互連。 這里描述的處理包括某些類別的活動。用于手檢測和姿態(tài)推斷的穩(wěn)健特征集合被提取并被存儲。經(jīng)訓(xùn)練的多類SVM被用來推斷姿態(tài)類型。關(guān)節(jié)型(articulated)姿態(tài)然后被利用反向運(yùn)動學(xué)(IK)優(yōu)化來近似。下面將更詳細(xì)描述這些處理方面中的每個(gè)方面。特征集合的提取和存儲關(guān)于用于手檢測和姿態(tài)推斷的穩(wěn)健特征集合的提取和存儲,臨時(shí)準(zhǔn)備的特征群跟蹤算法可被用來跟蹤后續(xù)視頻幀之間的感興趣區(qū)域(ROI)。特征群跟蹤可被用于快速跟蹤諸如手之類的非剛性且高度關(guān)節(jié)化的對象。特征群跟蹤將像素強(qiáng)度/位移特征和所學(xué)習(xí)的前景顏色分布結(jié)合起來,以輔助二維OD)跟蹤。特征群跟蹤還觸發(fā)SIFT特征提取。所提取的SIFT特征可被用于姿態(tài)推斷。特征群跟蹤假設(shè)關(guān)節(jié)型對象內(nèi)的突出特征以類似于鳥群的方式逐幀地移動。利用光流算法來計(jì)算路徑。在某些實(shí)現(xiàn)方式中可以利用其它條件或約束,例如,所有特征彼此維持最小距離,以及這些特征離特征中值從不超過所定義的距離。在這樣的實(shí)施方式中,如果違反了該條件或約束,則可以基于對膚色濾波具有高響應(yīng)的區(qū)域來重新計(jì)算并定位特征的位置。特征群行為改進(jìn)了對跨越幀轉(zhuǎn)變的感興趣區(qū)域的跟蹤,并且還可以改進(jìn)對于區(qū)域的外觀可能隨著時(shí)間改變的情形的跟蹤。關(guān)于膚色的另一線索允許當(dāng)跨越幀序列的特征被丟失時(shí),使用另外的信息??梢酝ㄟ^在橫跨圖像的多個(gè)方向上測量亮度梯度(與在提取SIFT描述符時(shí)尋找定向梯度密切相關(guān)的一個(gè)步驟)來提取像素強(qiáng)度/位移特征。與所生成的圖像金字塔相結(jié)合,特征的圖像區(qū)域可以被高效地匹配到后面的視頻幀中的搜索窗口內(nèi)的“最”相似區(qū)域。圖像金字塔可被認(rèn)為是基于原始圖像生成的一系列分辨率逐漸變小的內(nèi)插,例如,從手的直方圖數(shù)據(jù)開始,針對處理可能性的迭代,將圖像內(nèi)的灰度減小所配置的百分比(例如,百分之十(10%)),如下面將更詳細(xì)描述的。特征大小確定了可用于匹配的上下文知識的數(shù)量。如果兩個(gè)連續(xù)幀之間的特征匹配相關(guān)性低于可配置閾值,則該特征可被認(rèn)為“丟失”。因此,可配置閾值允許出于跟蹤和標(biāo)識目的的分辨率調(diào)節(jié)。所生成的圖像金字塔可被用來提取像素強(qiáng)度/位移特征和SIFT特征兩者。像素強(qiáng)度/位移特征可被考慮適當(dāng)?shù)赜糜诟櫮康?。然而,由于認(rèn)識到像素強(qiáng)度/位移特征對于尺度或旋轉(zhuǎn)并非不變的,因此,由于準(zhǔn)確性而不被用來推斷手姿態(tài)。SIFT特征對于圖像縮放和旋轉(zhuǎn)是不變的,并且至少部分地對于照度和2D相機(jī)視角的改變是不變的。SIFT特征還被很好地定位在空間和頻率域兩者中,這可以降低被遮擋、喧鬧、噪聲或其它因素破壞的概率??梢酝ㄟ^利用級聯(lián)濾波方法來減少提取像素強(qiáng)度/位移特征和SIFT特征的時(shí)間影響,在級聯(lián)濾波方法中,更費(fèi)時(shí)的操作被應(yīng)用于通過初始測試的位置。初始測試?yán)缈梢园▽D像劃分為三十二乘三十二(3h32)的像素子窗口。對于每個(gè)子窗口,可利用高斯濾波器的差分來計(jì)算關(guān)鍵點(diǎn)(keypoint)。如果任何子窗口中都存在許多關(guān)鍵點(diǎn),則完整的SIFT描述符可被計(jì)算出來。否則,該子窗口可被丟棄以去除圖像中可能與手位置檢測不相關(guān)的大部分。SIFT描述符已被選擇用于該實(shí)施方式,因?yàn)镾IFT描述符將圖像數(shù)據(jù)變換為相對于局部特征的尺度不變坐標(biāo)。利用SIFT描述符將圖像數(shù)據(jù)變換為相對于局部特征的尺度不變坐標(biāo)的處理包括四個(gè)階段。第一階段包括尺度空間極值檢測。第二階段包括關(guān)鍵點(diǎn)定位。第三階段包括朝向指派。第四階段包括關(guān)鍵點(diǎn)描述符變換。關(guān)于尺度空間極值檢測,尺度空間極值檢測包括遍歷所有尺度和圖像位置的計(jì)算搜索。尺度空間極值檢測例如可以利用高斯差分濾波器(dif f erence-of-Gaussianfilter)來實(shí)現(xiàn)。關(guān)于關(guān)鍵點(diǎn)定位,對于經(jīng)由尺度空間極值檢測被標(biāo)識出的每個(gè)候選位置,詳細(xì)模型被擬合以確定位置和尺度。關(guān)鍵點(diǎn)基于其在圖像或圖像序列內(nèi)的穩(wěn)定性的度量而被選擇。在圖像或圖像序列內(nèi)的穩(wěn)定性可被定義為在其自身與其相鄰像素之間具有高對比度的關(guān)鍵點(diǎn)。該穩(wěn)定性可被用來減少或移除對低對比度的感興趣點(diǎn)的靈敏度,低對比度的感興趣點(diǎn)可能對噪聲敏感或者可能被較差地沿著邊緣定位。關(guān)于朝向指派,一個(gè)或多個(gè)朝向基于局部圖像梯度方向被指派給經(jīng)由關(guān)鍵點(diǎn)定位標(biāo)識出的每個(gè)關(guān)鍵點(diǎn)位置。可以針對每個(gè)特征對已經(jīng)相對于所指派朝向、尺度和位置被變換的圖像數(shù)據(jù)執(zhí)行所有將來操作,從而為這些變換提供不變性。關(guān)于關(guān)鍵點(diǎn)描述符變換,在每個(gè)關(guān)鍵點(diǎn)周圍的區(qū)域中以所選尺度來測量從朝向指派得到的局部圖像梯度。局部圖像梯度然后可被變換為一種表示,該表示允許極大水平的局部形狀失真和照度改變。該方法的令人感興趣的方面在于,其生成了在尺度和位置的全部范圍中密集地覆蓋圖像的大量特征。例如,對于典型的五百乘五百(500x500)像素的圖像大小,該處理可以產(chǎn)生大約兩千O000)個(gè)穩(wěn)定特征,盡管該數(shù)目可能取決于圖像內(nèi)容和各種參數(shù)選擇兩者。較快的識別方法可包括將所生成的特征與利用歐幾里得距離作為接近參考圖像的度量從參考數(shù)據(jù)庫提取的特征相比較。然而,該方法可能會產(chǎn)生較低的準(zhǔn)確度。多類SVM因此可被用來增加匹配的準(zhǔn)確度,通過匹配每個(gè)單獨(dú)手姿態(tài)可被表示出來并被當(dāng)作一類。下面的偽文本處理表示Kanade,Lucas和Tomasi (KLT)群檢測的示例。將明白,下面的偽文本處理可以用適合于給定的實(shí)施方式的任何語法來實(shí)現(xiàn)。還將明白,任何其它像素強(qiáng)度/位移技術(shù)可被適當(dāng)?shù)赜糜诮o定的實(shí)施方式。初始化處理1.學(xué)習(xí)顏色直方圖;2.標(biāo)識出具有最小距離的將要跟蹤的n*k個(gè)特征;3.基于顏色和固定手膜(hand mask)來對所標(biāo)識出的特征進(jìn)行排序;以及4.選擇η個(gè)排序最高特征進(jìn)行跟蹤。群檢測處理1.利用圖像金字塔來更新KLT特征位置2.計(jì)算中值特征3.對于每個(gè)特征,進(jìn)行如果a)離任何其它特征小于min_dist,或者b)在以中值為中心的max范圍之夕卜,或者c)低匹配相關(guān)性則將特征重新定位到符合群集條件的優(yōu)良顏色點(diǎn)上去從以上的偽文本處理可以看出,初始化包括學(xué)習(xí)顏色直方圖,利用所標(biāo)識出的特征之間的最小距離標(biāo)識出要跟蹤的特征的集合,對所標(biāo)識出的特征集合排序,并且選擇最高排序特征的子集進(jìn)行跟蹤。在初始化處理完成之后,群檢測處理可開始。群檢測處理包括利用圖像金字塔來更新KLT特征位置并且計(jì)算中值特征。對于每個(gè)中值特征,條件處理可被執(zhí)行。例如,如果相應(yīng)特征離任何其它特征小于所定義的最小距離(min_dist)、在以所計(jì)算出的中值為中心的最大(max)范圍之外、或者具有低的匹配相關(guān)性,則該特征可被重新定位到符合群集條件的顏色直方圖內(nèi)的顏色點(diǎn)上。響應(yīng)于該處理,圖像內(nèi)的群檢測可被執(zhí)行。使用經(jīng)訓(xùn)練的多類SVM來推斷姿態(tài)類型關(guān)于使用經(jīng)訓(xùn)練的多類SVM來推斷姿態(tài)類型,元素的實(shí)例與從元素的有限集合中得到的標(biāo)簽的一對一映射可被建立,以獲得一種學(xué)習(xí)或推斷姿態(tài)類型的形式。SVM可被認(rèn)為是一種解決二進(jìn)制分類問題(例如,可能標(biāo)簽集合的大小為二的問題)的方法。多類SVM將此理論擴(kuò)展到多類域中。已認(rèn)識到,利用支持向量機(jī)通過將單個(gè)多類問題簡化為多個(gè)二進(jìn)制問題來解決多類問題的傳統(tǒng)方法對于數(shù)百種不同手姿態(tài)類型之間的辨別可能是不實(shí)際的。本主題通過在訓(xùn)練和輸入圖像中檢測突出特征然后在每個(gè)所檢測到的特征之間進(jìn)行一一對應(yīng)的映射來辨別手姿態(tài)。該一對一映射允許匹配跨越多個(gè)2D圖像的特征,并且還允許跨越用于生成訓(xùn)練集的3D訓(xùn)練模型進(jìn)行映射。該信息然后可被用于在該處理的后一階段優(yōu)化姿態(tài)推斷,如下面將更詳細(xì)描述的。因此,SIFT特征不僅可以提供感興趣區(qū)域(ROI)的定位描述,而且可以提供感興趣區(qū)域的全局位置的觀念(尤其是在映射到3D訓(xùn)練模型時(shí))。因此,得到的感興趣區(qū)域被高度結(jié)構(gòu)化并被互連,以使得在多個(gè)圖像中特征的位置及其與其它特征的關(guān)系也可以通過利用被設(shè)計(jì)用于相互依賴和結(jié)構(gòu)化輸出空間的多類SVM來提供另外的信息。分類問題可被用如下公式表示。訓(xùn)練集在下式(1)中被示出。具有[1.· · k]中的標(biāo)簽 Yi 的(xi; Y1)... (xn, yn)式(1)其中,Xi是!11個(gè)SIFT特征的集合[t” . . tm],其中變量“y”代表描述符的垂直坐標(biāo)位置,變量“III”代表SIFT特征的數(shù)目,并且k代表標(biāo)簽的數(shù)目,標(biāo)簽表示各種姿態(tài)類型。變量“η”代表要處理的SIFT描述符的大小,并且變量“t”代表完整特征向量(Xl,yi)... (xn,yn) ο該方法的途徑是要解決下式O)中提到的優(yōu)化問題。
權(quán)利要求
1.一種手位置檢測方法,包括經(jīng)由電子設(shè)備的圖像處理模塊從至少一個(gè)輸入圖像提取與手姿勢檢測和手姿態(tài)推斷相關(guān)聯(lián)的特征集合;利用經(jīng)訓(xùn)練的多類支持向量機(jī)(SVM)來推斷手姿態(tài)類型;以及利用反向運(yùn)動學(xué)(IK)優(yōu)化來近似所述手姿態(tài)。
2.根據(jù)權(quán)利要求1所述的方法,其中,經(jīng)由電子設(shè)備的圖像處理模塊從至少一個(gè)輸入圖像提取與手姿勢檢測和手姿態(tài)推斷相關(guān)聯(lián)的特征集合的處理包括橫跨所述至少一個(gè)輸入圖像測量多個(gè)方向上的亮度梯度;以及從所測得的亮度梯度生成圖像金字塔。
3.根據(jù)權(quán)利要求2所述的方法,還包括利用所生成的圖像金字塔來提取像素強(qiáng)度/位移特征和尺度不變特征變換(SIFT)特征。
4.根據(jù)權(quán)利要求3所述的方法,還包括與從所生成的圖像金字塔提取像素強(qiáng)度/位移特征和SIFT特征相關(guān)聯(lián)地應(yīng)用級聯(lián)濾波器。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述至少一個(gè)輸入圖像包括多個(gè)輸入圖像,并且經(jīng)由電子設(shè)備的圖像處理模塊從至少一個(gè)輸入圖像提取與手姿勢檢測和手姿態(tài)推斷相關(guān)聯(lián)的特征集合的處理包括跟蹤作為特征群的所述多個(gè)輸入圖像的后續(xù)視頻幀之間的感興趣區(qū)域(ROI);觸發(fā)尺度不變特征變換(SIFT)特征提?。灰约坝?jì)算所述特征群的光流路徑。
6.根據(jù)權(quán)利要求5所述的方法,其中,跟蹤作為特征群的所述多個(gè)輸入圖像的后續(xù)視頻幀之間的ROI的處理包括跟蹤像素強(qiáng)度/位移特征和所學(xué)習(xí)的前景顏色分布的二維OD)組合。
7.根據(jù)權(quán)利要求5所述的方法,其中,計(jì)算所述特征群的光流路徑包括對所述特征群中的每個(gè)特征應(yīng)用至少一個(gè)約束,以使所述特征群彼此維持最小距離。
8.根據(jù)權(quán)利要求1所述的方法,其中,利用經(jīng)訓(xùn)練的多類SVM來推斷手姿態(tài)類型的處理包括在訓(xùn)練圖像和所述至少一個(gè)輸入圖像中檢測至少一個(gè)特征;以及執(zhí)行所述至少一個(gè)輸入圖像內(nèi)的所述至少一個(gè)特征的實(shí)例與從元素的有限集合得到的至少一個(gè)標(biāo)簽的一對一映射。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述至少一個(gè)標(biāo)簽包括在訓(xùn)練階段基于動態(tài)捕捉三維(3D)數(shù)據(jù)集生成的至少一個(gè)標(biāo)簽。
10.根據(jù)權(quán)利要求1所述的方法,其中,利用IK優(yōu)化來近似所述手姿態(tài)的處理包括將所述至少一個(gè)輸入圖像分割成多個(gè)處理區(qū)域;確定所述多個(gè)處理區(qū)域的每個(gè)處理區(qū)域中的特征的質(zhì)心;以及將每個(gè)特征質(zhì)心的位置映射到與動態(tài)捕捉數(shù)據(jù)集相關(guān)聯(lián)的三維(3D)姿態(tài)數(shù)據(jù)上。
11.根據(jù)權(quán)利要求10所述的方法,其中,確定所述多個(gè)處理區(qū)域的每個(gè)處理區(qū)域中的特征的質(zhì)心的處理包括比較從每個(gè)特征質(zhì)心到所述3D姿態(tài)數(shù)據(jù)內(nèi)的最接近匹配的偏差;以及確定多個(gè)關(guān)節(jié)約束中的哪個(gè)會影響所述IK優(yōu)化。
12.根據(jù)權(quán)利要求11所述的方法,還包括將每個(gè)特征質(zhì)心映射到存儲在所述3D姿態(tài)數(shù)據(jù)內(nèi)的最接近關(guān)節(jié)。
13.根據(jù)權(quán)利要求12所述的方法,還包括基于所述3D姿態(tài)數(shù)據(jù)最小化訓(xùn)練圖像內(nèi)的每個(gè)被映射的最接近關(guān)節(jié)的距離;以及基于所述訓(xùn)練圖像內(nèi)的每個(gè)被映射的最接近關(guān)節(jié)的最小化距離來確定最終的手位置。
14.根據(jù)權(quán)利要求1所述的方法,還包括定義用于圖像處理的可配置分辨率閾值;以及調(diào)節(jié)所述可配置分辨率閾值。
15.根據(jù)權(quán)利要求1所述的方法,還包括存儲與所述手姿勢檢測和所述手姿態(tài)推斷相關(guān)聯(lián)的所提取的特征集合。
16.一種存儲指令的計(jì)算機(jī)可讀存儲介質(zhì),所述指令在一個(gè)或多個(gè)經(jīng)編程的處理器上被運(yùn)行時(shí),執(zhí)行根據(jù)權(quán)利要求1所述的方法。
17.一種用于經(jīng)由手姿勢來控制電子設(shè)備的裝置,包括相機(jī);以及處理器,該處理器被編程為經(jīng)由所述相機(jī)檢測手姿勢;從手姿勢的詞表中標(biāo)識出所檢測到的手姿勢;以及響應(yīng)于所標(biāo)識出的手姿勢來控制所述電子設(shè)備。
18.根據(jù)權(quán)利要求17所述的裝置,其中,當(dāng)被編程為經(jīng)由所述相機(jī)檢測手姿勢時(shí),所述處理器被編程為檢測徒手位置。
19.根據(jù)權(quán)利要求17所述的裝置,其中,當(dāng)被編程為經(jīng)由所述相機(jī)檢測手姿勢時(shí),所述處理器被編程為檢測徒手位置的序列。
20.根據(jù)權(quán)利要求17所述的裝置,其中,所標(biāo)識出的手姿勢包括與所述電子設(shè)備的加電相關(guān)聯(lián)的手姿勢,并且其中,當(dāng)被編程為響應(yīng)于所標(biāo)識出的手姿勢來控制所述電子設(shè)備時(shí),所述處理器被編程為對所述電子設(shè)備加電。
21.根據(jù)權(quán)利要求17所述的裝置,其中,所標(biāo)識出的手姿勢包括與所述電子設(shè)備的斷電相關(guān)聯(lián)的手姿勢,并且其中,當(dāng)被編程為響應(yīng)于所標(biāo)識出的手姿勢來控制所述電子設(shè)備時(shí),所述處理器被編程為將所述電子設(shè)備斷電。
22.根據(jù)權(quán)利要求17所述的裝置,其中,所述處理器還被編程為判定與所述電子設(shè)備的控制相關(guān)聯(lián)的手姿勢是否被檢測到達(dá)閾值持續(xù)時(shí)間;以及當(dāng)被編程為經(jīng)由所述相機(jī)檢測手姿勢時(shí),所述處理器被編程為檢測到與所述電子設(shè)備的控制相關(guān)聯(lián)的手姿勢達(dá)所述閾值持續(xù)時(shí)間。
23.根據(jù)權(quán)利要求17所述的裝置,其中,所述處理器還被編程為判定與所述電子設(shè)備的控制相關(guān)聯(lián)的手姿勢是否被檢測到達(dá)閾值持續(xù)時(shí)間;以及當(dāng)被編程為從手姿勢的詞表中標(biāo)識出所檢測到的手姿勢時(shí),所述處理器被編程為響應(yīng)于判定與所述電子設(shè)備的控制相關(guān)聯(lián)的手姿勢已被檢測到達(dá)閾值持續(xù)時(shí)間,而從所述手姿勢的詞表中標(biāo)識出所檢測到的手姿勢。
24.根據(jù)權(quán)利要求17所述的裝置,其中,所述處理器還被編程為檢測指示向所述電子設(shè)備的控制功能指派所述手姿勢的詞表中的一個(gè)手姿勢的用戶輸入;以及向所述電子設(shè)備的所述控制功能指派所述手姿勢的詞表中的所述一個(gè)手姿勢。
25.根據(jù)權(quán)利要求M所述的裝置,其中,當(dāng)被編程為檢測指示向所述電子設(shè)備的控制功能指派所述手姿勢的詞表中的一個(gè)手姿勢的用戶輸入時(shí),所述處理器被編程為檢測與向所述電子設(shè)備的所述控制功能指派所述手姿勢的詞表中的一個(gè)手姿勢相關(guān)聯(lián)的手姿勢。
全文摘要
利用消費(fèi)電子設(shè)備的圖像處理模塊來檢測來自相機(jī)輸入的手姿勢。從手姿勢的詞表中標(biāo)識出所檢測到的手姿勢。響應(yīng)于所標(biāo)識出的手姿勢來控制電子設(shè)備。本摘要不被認(rèn)為是限制性的,因?yàn)槠渌麑?shí)施例可以偏離本摘要描述的特征。
文檔編號G06F3/033GK102576259SQ201080047670
公開日2012年7月11日 申請日期2010年10月29日 優(yōu)先權(quán)日2009年11月6日
發(fā)明者蘇拉吉特·阿德??ㄈ?申請人:索尼公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1