亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的第一視角空中手寫(xiě)和空中交互方法

文檔序號(hào):9929815閱讀:610來(lái)源:國(guó)知局
基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的第一視角空中手寫(xiě)和空中交互方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)視覺(jué)W及機(jī)器學(xué)習(xí)領(lǐng)域,特別設(shè)及一種基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò) 的第一視角空中手寫(xiě)和空中交互方法。
【背景技術(shù)】
[0002] 近年來(lái),隨著虛擬現(xiàn)實(shí)技術(shù)(Virtual Reality,VR)和增強(qiáng)現(xiàn)實(shí)技術(shù)(Augmenting Reality ,AR)的興起,第一視角巧gocentric Vision)手勢(shì)交互技術(shù)受到學(xué)術(shù)界和工業(yè)界的 廣泛關(guān)注,尤其是Google Glass、Mic;rosoft Hololens等智能可穿戴式設(shè)備W及Oculus等 虛擬現(xiàn)實(shí)設(shè)備的出現(xiàn)使得傳統(tǒng)的人機(jī)交互方式難W適用,急需一種算法來(lái)幫助設(shè)備理解人 的交互需要,如手勢(shì)操作等。手勢(shì)交互技術(shù)主要設(shè)及兩個(gè)方面,手勢(shì)識(shí)別和關(guān)鍵點(diǎn)定位,本 發(fā)明為結(jié)合手勢(shì)識(shí)別和關(guān)鍵點(diǎn)定位形成的一個(gè)綜合應(yīng)用,即指尖檢測(cè)獲得采樣點(diǎn)W及手勢(shì) 識(shí)別獲得書(shū)寫(xiě)信號(hào)。假象如下使用場(chǎng)景:用戶在不方便使用觸摸屏的情境下,可W直接在空 中進(jìn)行第一視角手寫(xiě),完成發(fā)送信息操作;用戶在需要對(duì)現(xiàn)實(shí)畫(huà)面進(jìn)行某些圖像操作如拍 照,在不便于使用拍照設(shè)備情況下可直接利用指尖空中畫(huà)圈或其他手勢(shì)實(shí)現(xiàn)即時(shí)拍攝。
[0003] 過(guò)去一些年里,關(guān)于手勢(shì)交互的算法大多數(shù)考慮利用膚色先驗(yàn)信息或者運(yùn)動(dòng)時(shí)序 信息,但是都只能使用在受限的實(shí)驗(yàn)室環(huán)境,無(wú)法適應(yīng)室內(nèi)室外場(chǎng)景變化,光照變化等因 素。另外,傳統(tǒng)的人工特征提取無(wú)法充分刻畫(huà)不同使用者的膚色變化和手部姿態(tài)多樣性。最 近興起的深度學(xué)習(xí)技術(shù)正好可W解決運(yùn)個(gè)特征提取問(wèn)題。利用善于處理視覺(jué)信息的是深度 卷積神經(jīng)網(wǎng)絡(luò)(CNN)能訓(xùn)練出一個(gè)能夠提取圖像淺層特征并逐層將淺層特征通過(guò)非線性變 換抽象成高級(jí)特征的神經(jīng)網(wǎng)絡(luò)。C順?lè)椒ㄔ诟鞣N視覺(jué)分類任務(wù),如多類別物體識(shí)別等,獲得 極佳表現(xiàn),同時(shí)在某些回歸問(wèn)題,如人臉關(guān)鍵點(diǎn)檢測(cè)、行人檢測(cè)等任務(wù)中亦表現(xiàn)出非常好的 效果。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于級(jí)聯(lián)卷積神經(jīng) 網(wǎng)絡(luò)的第一視角空中手寫(xiě)和空中交互方法,解決動(dòng)態(tài)視頻流里面指尖檢測(cè)問(wèn)題和手勢(shì)識(shí)別 的問(wèn)題,并利用手勢(shì)識(shí)別作為信號(hào),指尖檢測(cè)跟蹤作為采樣點(diǎn)集,實(shí)現(xiàn)一套第一視角的空中 手寫(xiě)和空中交互方案。
[0005] 為了達(dá)到上述目的,本發(fā)明采用W下技術(shù)方案:
[0006] 本發(fā)明基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的第一視角空中手寫(xiě)和空中交互方法,包括下述步 驟:
[0007] S1、獲取訓(xùn)練數(shù)據(jù),人工標(biāo)記包含手部區(qū)域的前景區(qū)域的左上角點(diǎn)和右下角點(diǎn),人 工標(biāo)記指尖所在坐標(biāo),人工標(biāo)記不同手勢(shì)的類別;
[000引S2、設(shè)計(jì)一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)用于手部檢測(cè),該神經(jīng)網(wǎng)絡(luò)輸入為第一視角下的 單帖圖像,輸出為手部前景矩形的左上角坐標(biāo)和右下角坐標(biāo),投入訓(xùn)練數(shù)據(jù)并優(yōu)化歐氏范 數(shù)損失函數(shù),迭代直至參數(shù)穩(wěn)定;
[0009] S3、設(shè)計(jì)一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)用于手勢(shì)識(shí)別和指尖檢測(cè),該神經(jīng)網(wǎng)絡(luò)輸入為僅 包含手部區(qū)域的前景矩形,輸出為指尖坐標(biāo)和手勢(shì)類別,投入訓(xùn)練數(shù)據(jù)并優(yōu)化一個(gè)分段損 失函數(shù),迭代直至參數(shù)穩(wěn)定;
[0010] S4、將一級(jí)網(wǎng)絡(luò)和二級(jí)網(wǎng)絡(luò)級(jí)聯(lián),通過(guò)一級(jí)網(wǎng)絡(luò)輸出的前景外接矩形切割出感興 趣區(qū)域從而獲得包含手部的前景區(qū)域,然后將前景區(qū)域作為第二級(jí)卷積網(wǎng)絡(luò)的輸入進(jìn)行指 尖檢測(cè)和手勢(shì)識(shí)別;
[0011] S5、判斷手勢(shì)類別,若為單指手勢(shì),則輸出其指尖坐標(biāo)并進(jìn)行時(shí)序平滑和點(diǎn)間插 值;
[0012] S6、利用連續(xù)多帖的指尖采樣坐標(biāo)進(jìn)行文字識(shí)別。
[0013] 作為優(yōu)選的技術(shù)方案,步驟Sl具體為:
[0014] SI. 1、通過(guò)攝像頭處于人眼位置模擬第一視角,采集大規(guī)模數(shù)據(jù),覆蓋不同的場(chǎng) 景,包括多種不同的手勢(shì),其中一種必須是單指手勢(shì)而且指尖可見(jiàn);
[0015] SI. 2、人工標(biāo)記包含手部區(qū)域的外接矩形左上角坐標(biāo)和右下角坐標(biāo),人工標(biāo)記手 勢(shì)類別,若手勢(shì)為單指手勢(shì),人工標(biāo)記指尖的位置;
[0016] Sl .3、按照鍵值對(duì)的方式,配對(duì)儲(chǔ)存圖像和對(duì)應(yīng)的標(biāo)簽真實(shí)值。
[0017] 作為優(yōu)選的技術(shù)方案,在所述步驟SI. 1中,所采集的數(shù)據(jù)為第一視角的數(shù)據(jù),畫(huà)面 包含手勢(shì)。
[0018] 作為優(yōu)選的技術(shù)方案,在所述步驟SI. 2中,所采集的數(shù)據(jù)是通過(guò)人工標(biāo)價(jià)手部前 景左上角坐標(biāo)和右下角坐標(biāo),人工標(biāo)記指尖坐標(biāo)和人工標(biāo)記手勢(shì)類別來(lái)進(jìn)行監(jiān)督學(xué)習(xí)。
[0019] 作為優(yōu)選的技術(shù)方案,步驟S2具體為:
[0020] S2.1、合理設(shè)計(jì)一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),包括卷積層、池化層和全卷積層,使得網(wǎng) 絡(luò)輸入為立通道RGB圖像,輸出為兩個(gè)二維坐標(biāo)(xti,yti)和(xbr,ybr),分別代表手部前景的 左上角右下角;
[0021] S2.2、其應(yīng)用損失函數(shù)為:
[0022]
[0023] 其中Pi代表預(yù)測(cè)的坐標(biāo)值,ti代表訓(xùn)練樣本中已經(jīng)標(biāo)注的坐標(biāo)真實(shí)值,N代表輸出 坐標(biāo)的個(gè)數(shù),此處N為4,代表左上角和右下角坐標(biāo),對(duì)應(yīng)的反向傳播的殘差為
[0024] ei = pi-ti(l < i < 4)
[0025] S2.3、投入訓(xùn)練數(shù)據(jù)并應(yīng)用梯度下降法優(yōu)化目標(biāo)函數(shù)。
[0026] 作為優(yōu)選的技術(shù)方案,步驟S3具體為:
[0027] S3.1、合理設(shè)計(jì)一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),包括卷積層,池化層,全卷積層,使得網(wǎng)絡(luò) 輸入為立通道RGB圖像,輸出為指尖的二維坐標(biāo)(Xft,yft)和手勢(shì)分類^gesture);
[00%] S3.2、確定其損失函數(shù),該損失函數(shù)表示為:
[0029]
[0030] E = O Cgesture 辛 CgroimcHruth
[0031] 其中Pi代表預(yù)測(cè)的坐標(biāo)值,ti代表訓(xùn)練樣本中已經(jīng)標(biāo)注的坐標(biāo)真實(shí)值,N代表輸出 坐標(biāo)的個(gè)數(shù),此處N為2,Cgroundtruth代表手勢(shì)類別真實(shí)值,Cgesture代表網(wǎng)絡(luò)輸出的手勢(shì),對(duì)應(yīng) 的反向傳播的殘差為:
[0032] £i = pi-ti
[0033] S3.3、投入訓(xùn)練數(shù)據(jù)并應(yīng)用梯度下降法優(yōu)化目標(biāo)函數(shù)。
[0034] 作為優(yōu)選的技術(shù)方案,步驟S4中,利用兩層卷積神經(jīng)網(wǎng)絡(luò)級(jí)聯(lián)的方法,先進(jìn)行手部 檢測(cè),獲取較小的前景區(qū)域,再進(jìn)行指尖檢測(cè)和手勢(shì)識(shí)別。
[0035] 作為優(yōu)選的技術(shù)方案,步驟S5具體為:
[0036] S5.1、判斷手勢(shì)類別,若為單指,記錄采樣點(diǎn)坐標(biāo)序列;
[0037] S5.2、進(jìn)行一個(gè)滑動(dòng)窗均值濾波;
[003引 Pi = pi-i+pi+pi+i。
[0039] 作為優(yōu)選的技術(shù)方案,步驟S5中,對(duì)每一帖圖像先進(jìn)行手勢(shì)識(shí)別,若為單指手勢(shì), 則輸出指尖坐柄。
[0040] 作為優(yōu)選的技術(shù)方案,步驟S6中,利用平滑的采樣點(diǎn)進(jìn)行文字識(shí)別。
[0041] 本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:
[0042] 1、本發(fā)明采用了大規(guī)模數(shù)據(jù)采集人工標(biāo)定的技術(shù)方案,從而能夠利用深度卷積神 經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí)。
[0043] 2、本發(fā)明采用了人工標(biāo)定手部外接矩形坐標(biāo)和指尖坐標(biāo)的技術(shù)方案,從而能夠利 用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸問(wèn)題的優(yōu)化訓(xùn)練求解。
[0044] 3、本發(fā)明采用了兩層級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)方案,從而能夠分兩層分別著重處 理不同的檢測(cè)。
[0045] 4、本發(fā)明采用了第一級(jí)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)手部檢測(cè)的技術(shù)方案,為后續(xù)的指尖檢 測(cè)濾除了70% W上的無(wú)用背景信息。
[0046] 5、本發(fā)明采用了第二級(jí)卷積神經(jīng)網(wǎng)絡(luò)同時(shí)進(jìn)行指尖檢測(cè)和手勢(shì)識(shí)別的技術(shù)方案, 能夠穩(wěn)定的預(yù)測(cè)指尖的坐標(biāo)同時(shí)預(yù)測(cè)手勢(shì)類型
[0047] 6、本發(fā)明采用了第二級(jí)卷積神經(jīng)網(wǎng)絡(luò)同時(shí)進(jìn)行指尖檢測(cè)和手勢(shì)識(shí)別的技術(shù)方案, 能夠減少整體時(shí)間性能消耗。
[0048] 7、本發(fā)明采用了預(yù)測(cè)指尖坐標(biāo)后進(jìn)行采樣點(diǎn)平滑濾波,從而優(yōu)化空中手寫(xiě)的視覺(jué) 效果W及優(yōu)化文字識(shí)別的準(zhǔn)確率
【附圖說(shuō)明】
[0049] 圖1(a)-圖1(b)是本發(fā)明的體驗(yàn)者佩戴智能眼鏡的第一視角示意圖;
[0050] 圖2是本發(fā)明第一視角采集的樣本示意;
[0051 ]圖3是本發(fā)明第一視角空中手寫(xiě)和交互算法流程圖;
[0052] 圖4是本發(fā)明求解手部檢測(cè)外接矩形的卷積神經(jīng)網(wǎng)絡(luò)示意圖;
[0053] 圖5是本發(fā)明求解指尖檢測(cè)和手勢(shì)分類所使用的卷積神經(jīng)網(wǎng)絡(luò)示意圖;
[0054] 圖6(a)-圖6(d)是本發(fā)明優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)可視化示意圖;
[0055] 圖7是本發(fā)明算法程序原型的連續(xù)多帖輸出示意圖。
【具體實(shí)施方式】
[0056] 下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限 于此。
[0057] 實(shí)施例
[0058] 本發(fā)明基于級(jí)聯(lián)卷積深度卷積神經(jīng)網(wǎng)絡(luò)的第一視角空中手寫(xiě)和空中交互方法,如 圖3所示,包括如下步驟:
[0059] S1、獲取訓(xùn)練數(shù)據(jù),人工標(biāo)記包含手部區(qū)域的外接矩形(前景區(qū)域)的左上角點(diǎn)和 右下角點(diǎn),人工標(biāo)記指尖所在坐標(biāo),人工標(biāo)記不同手勢(shì)的類別;
[0060] SI. 1通過(guò)攝像頭處于人眼位置模擬第一視角(如圖1(a)-圖1(b)所示),采集大規(guī) 模數(shù)據(jù),覆蓋不同的場(chǎng)景,包括多種不同的手勢(shì)(如圖2所示),其中一種必須是單指手勢(shì)而 且指尖可見(jiàn);
[0061] SI. 2人工標(biāo)記包含手部區(qū)域的外接矩形
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1