亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于自動編碼器和DTW的手繪圖人體運動檢索方法與流程

文檔序號:11251035閱讀:730來源:國知局

本發(fā)明屬于運動捕捉動畫技術領域,具體涉及一種基于自動編碼器和dtw的手繪圖人體運動檢索方法。



背景技術:

近年來,計算機動畫在各種應用中日益普及。計算機動畫對人體運動的應用尤為重要。這已經導致了一個高的需求對于制作非常逼真的人類運動表征。已經形成了多種方法來產生人體運動數(shù)據(jù)。運動捕獲(mocap)是一種眾所周知的方法。運動捕獲設備的可用性越來越多,驅動了大規(guī)模的人體和物體運動數(shù)據(jù)庫的發(fā)展。然而,隨著各種運動數(shù)據(jù)的增長,搜索滿足特定要求的合適的運動是一件困難的事情。因此,運動檢索最近成為在運動捕捉動畫領域的主要研究重點。

在文獻中已經提出了一些運動檢索方法,其中許多是由現(xiàn)有的音頻檢索方法修改,如動態(tài)時間規(guī)整(dtw)方法。為了支持索引和提高dtw的檢索性能,基于均勻縮放(us)的算法已被提出。一種基于dtw和典型相關分析(cca)擴展的方法,被稱為廣義的典型時間規(guī)整(gctw),已被提出用于調整多模態(tài)序列。除了基于dtw的方法,其它方法尋求邏輯上類似的運動匹配。例如,已經開發(fā)了用于呈現(xiàn)運動的模板,以及提出使用模板匹配的運動搜索。此外,幾何特征已被用來構建索引樹,使用聚類和分割,然后提出根據(jù)峰值點進行動作匹配。但上述運動檢索方法有以下不足:

(1)動態(tài)時間規(guī)整(dtw)方法,由于這種類型的數(shù)據(jù)的屬性和參數(shù)數(shù)量大,通常證明了dtw對運動捕獲數(shù)據(jù)的應用有效率低的表現(xiàn)。

(2)均勻縮放(us)的算法,基于均勻縮放的方法通常具有較高的計算成本。

(3)使用模板匹配的運動搜索和聚類和分割等方法來根據(jù)峰值點進行動作匹配,但是不能區(qū)分緊密匹配的運動。



技術實現(xiàn)要素:

本發(fā)明的目的是提供一種基于自動編碼器和dtw的手繪圖人體運動檢索方法,克服了現(xiàn)有方法較高的計算成本,運動捕獲數(shù)據(jù)較低的應用效率和對緊密匹配的運動的檢索不能區(qū)分到位的問題。

本發(fā)明采用的技術方案是,一種基于自動編碼器和dtw的手繪圖人體運動檢索方法,具體按照以下步驟實施:

步驟1:使用相應設備拍攝單目視頻,拍攝速度為30幀每秒,構建有n個類別的動態(tài)人體運動序列數(shù)據(jù)庫v(1)=(v1(1),…,vn(1))及m個類別人體運動骨架手繪圖序列數(shù)據(jù)庫v(2)=(v1(2),…,vm(2));

步驟2:提取視頻v(1)的每幀圖像,得到幀圖像fi=(fi1,...,fin),其中n表示視頻v(1)的幀數(shù),對fij進行預處理,通過背景差分和膚色模型獲取出fij中運動輪廓,通過人體骨架提取法獲得運動骨架;

步驟3:通過系統(tǒng)學習獲取基于模糊c-均值聚類的代表性幀圖像數(shù)據(jù)庫drf;

步驟4:代表性的幀圖像數(shù)據(jù)庫drf通過使用自動編碼器提取人體骨胳運動圖像特征;

步驟5:應用畫板手繪預查詢的人體運動序列,首先應用自動編碼器提取手繪圖序列特征,進而應用模糊聚類獲取手繪圖運動序列代表幀應用dtw算法計算rfx和代表幀圖像數(shù)據(jù)庫drf距離,根據(jù)相似距離順序排序,輸出最優(yōu)運動檢索結果。

本發(fā)明的特點還在于,

步驟2具體按照以下步驟實施:

(21)使用kinect獲取人體運動的rgb彩色與深度圖像,去除rgb彩色與深度圖像噪聲,并對其進行圖像校正處理;

(22)根據(jù)彩色圖像背景的復雜程度采用不同方法去除背景,獲得前景彩色圖像;

(23)基于前景彩色圖像且依據(jù)膚色模型對臉部及手部進行定位并將臉部及手部定位質心作為初始獲取的關節(jié)點;

(24)基于學習得到的貝葉斯分類器對彩色圖像前景中的運動人體進行部件分類識別;

(25)依據(jù)分類識別結果判定肢體各剛體結構部位類別,再根據(jù)各剛體部件的鏈接關系確定出各關節(jié)點,依次聯(lián)接各關節(jié)點形成平面人體骨架,結合各個關節(jié)點深度數(shù)據(jù)將平面骨架變換成三維立體骨架。

步驟3具體按照以下步驟實施:

(31)給定運動序列{fi}i=1:n,其中n是幀數(shù),使用模糊c-均值fcm聚類方法生成代表性幀;

(32)基于幀圖像fi=(fi1,...,fin)聚類獲取運動序列代表性的幀rf(1)i=(rf1(1),…,rfk(1)),并對v(2)手繪圖數(shù)據(jù)庫進行聚類處理,獲得手繪圖關鍵幀圖像rf(2)j=(rf1(2),…,rfk(2)),然后總的代表幀可以表示為rf={rfk}k=1:c,其中rfk對應于第k個聚類中心;

(33)所有視頻運動類別及手繪圖所對應的代表性幀圖像共同組成人體運動代表幀圖像數(shù)據(jù)庫drf={rf(1)i,rf(2)j}。

步驟4具體按照以下步驟實施:

(41)假設自動編碼器的輸入為x,首先,該編碼器將原始信號x映射到特征信號z中:

z(e)=h(e)(w(e)x+b(e))

其中“(e)”是指神經網(wǎng)絡編碼層,h(e)是傳遞函數(shù),w(e)是加權矩陣,b(e)是偏置向量;

(42)解碼器將特征信號z映射返回到估計中:

其中“(d)”表示第d網(wǎng)絡層,h(d)是解碼器的傳遞函數(shù),w(d)是權重矩陣,b(d)是偏置向量;

(43)建立一個代價函數(shù)來描述輸入,表示為x,與其重建之間的誤差輸出,表示為并需要控制誤差的值最小

其中代價函數(shù)e由3部分組成,第1部分是均方誤差,第2部分l*wweights是l2正則化,第3部分b*wsparsity是稀疏正則化,l2正則化系數(shù)為l,稀疏正則化系數(shù)為b,如果讓l2正則化是:

其中l(wèi),n,k分別是訓練數(shù)據(jù)中的隱層數(shù),觀測數(shù)和變量數(shù),添加一個正則化來激勵稀疏項,將第i個神經元激活措施定義為:

其中n是訓練樣本數(shù),xj是第j個訓練樣本,wi(1)t和bi(1)分別是w(1)的第i行,偏移向量,接下來,利用kullbackleibler發(fā)散呈現(xiàn)稀疏正則化:

當ri和相等,kullbackleibler發(fā)散是0,否則,由于它們彼此偏離,發(fā)散是較大的。

步驟5具體按照以下步驟實施:

(51)dtw的目的是比較兩個序列rfx=(rf1x,…,rfcx)和rfy=(rf1y,…,rfcy)之間的相似性,讓整體匹配代價為cp(rfx,rfy):

cp(rfx,rfy)=[ddtw(rfix,rfjy)]c×c

在rfx和rfy之間的一個規(guī)整路徑p,被定義為本地代價度量,而ddtw(rfix,rfjy)是(i,j=1,…,c)之間的dtw,設定是t維向量,并且rfix=(x1,…,xt)和之間的dtw是:

(52)rfx和rfy之間的最佳規(guī)整路徑是在所有可能的規(guī)整路徑中具有最小總成本的規(guī)整路徑p*,然后定義rfx和rfy之間的距離是p*的總成本:ddtw(rfx,rfy)=cp*(rfx,rfy);

(53)為了確定最優(yōu)路徑p*,使用動態(tài)規(guī)劃獲得最優(yōu)路徑,累積成本矩陣d滿足以下等式:

且n∈[1:c],d(1,m)=∑mk=1ddtw(rf1x,rfky)有m∈[1:c],和:

d(n,m)=min{d(n-1,m-1),d(n-1,m),d(n,m-1)}+ddtw(rfnx,rfmy),

最終優(yōu)化dtw的距離是:

本發(fā)明的有益效果是,本發(fā)明從運動數(shù)據(jù)庫檢索與給定查詢運動非常相似的運動,提出將基于dtw的匹配與統(tǒng)計運動匹配相結合以提高運動匹配的性能和效率?;趦?yōu)化的代表性識別特征通常比原始無序描述符具有更好的性能,使用模糊聚類將冗余姿態(tài)描述符轉換成判別描述符。多變量統(tǒng)計學習和貝葉斯融合方法用于將運動匹配轉換為運輸問題以適應旋轉,局部或全局縮放,將提出的算法的性能與dtw和us方法的性能進行比較,使得該算法檢索結果具有良好的精確性和有效性。

附圖說明

圖1是本發(fā)明的一種基于自動編碼器和dtw的手繪圖人體運動檢索方法的流程圖。

具體實施方式

下面結合附圖和具體實施方式對本發(fā)明進行詳細說明。

本發(fā)明中相關技術介紹如下:

(1)聚類分析:聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統(tǒng)計分析方法,本發(fā)明提到的系統(tǒng)聚類方法是其中的一種,其主要原理是應用緊鄰法將屬性相似的向量分類成多個集合,是一種無監(jiān)督的分類方法。系統(tǒng)聚類的步驟一般是首先根據(jù)一批數(shù)據(jù)或指標找出能度量這些數(shù)據(jù)或指標之間相似程度的統(tǒng)計量然后以統(tǒng)計量作為劃分類型的依據(jù),把一些相似程度大的站點(或樣品)首先聚合為一類,而把另一些相似程度較小的站點(或樣品)聚合為另一類,直到所有的站點(或樣品)都聚合完畢,最后根據(jù)各類之間的親疏關系,逐步畫成一張完整的分類系統(tǒng)圖,又稱譜系圖。其相似程度由距離或者相似系數(shù)定義。進行類別合并的準則是使得類間差異最大,而類內差異最小。

(2)主元素分析(principalcomponentanalysis,縮寫pca):它是一種對數(shù)據(jù)進行分析的技術,最重要的應用是對原有數(shù)據(jù)進行簡化。正如它的名字主元素分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結構,去除噪音和冗余,將原有的復雜數(shù)據(jù)降維,揭示隱藏在復雜數(shù)據(jù)背后的簡單結構。它的優(yōu)點是簡單,而且無參數(shù)限制,可以方便的應用與各個場合。因此應用極其廣泛,從神經科學到計算機圖形學都有它的用武之地。被譽為應用線形代數(shù)最價值的結果之一。本發(fā)明采用的改進連續(xù)pca方法是在原有pca基礎上,提出的一種快速方法,不僅提高了主元分析中的計算速度,同時提高了計算精度。

(3)動態(tài)時間規(guī)整(dynamictimewarping,縮寫dtw):動態(tài)時間規(guī)整是一個典型的優(yōu)化問題,它用滿足一定條件的動態(tài)時間規(guī)整函數(shù)描述輸入模板和參考模板的時間對應關系,求解兩模板匹配時累計距離最小所對應的規(guī)整函數(shù)。

(4)典型相關分析:利用綜合變量對之間的相關關系來反映兩組指標之間的整體相關性的多元統(tǒng)計分析方法。它的基本原理是:為了從總體上把握兩組指標之間的相關關系,分別在兩組變量中提取有代表性的兩個綜合變量w1和z1(分別為兩個變量組中各變量的線性組合),利用這兩個綜合變量之間的相關關系來反映兩組指標之間的整體相關性。

(5)代價函數(shù):一般來說,自動編碼器的性能是由系統(tǒng)參數(shù)優(yōu)化決定,并且代價函數(shù)始終是自動編碼器參數(shù)訓練的關鍵因素。根據(jù)深度學習理論,一個對象,諸如圖像,可以被輸入到深層網(wǎng)絡中來提取特征并且進行特征重構,完成任務,輸入(表示為x)與其重建之間的誤差輸出(表示為)需要控制到最小的值,建立一個代價函數(shù)來描述這個誤差。

(6)自動編碼器:自動編碼器可以看作是神經網(wǎng)絡。這個網(wǎng)絡可以減小輸入的維數(shù),并將重建的信號作為輸出。在深層網(wǎng)絡中,自動編碼器始終作為自動學習對象特征的良好模式。在自動編碼器訓練過程中,只有無監(jiān)督的學習機制才是必需的。

本發(fā)明方法如圖1所示,具體按照以下步驟實施:

步驟1:使用相應設備拍攝單目視頻,拍攝速度為30幀每秒,構建有n個類別的動態(tài)人體運動序列數(shù)據(jù)庫v(1)=(v1(1),…,vn(1))及m個類別人體運動骨架手繪圖序列數(shù)據(jù)庫v(2)=(v1(2),…,vm(2));

步驟2:提取視頻v(1)的每幀圖像,得到幀圖像fi=(fi1,...,fin),其中n表示視頻v(1)的幀數(shù),對fij進行預處理,通過背景差分和膚色模型獲取出fij中運動輪廓,通過人體骨架提取法獲得運動骨架;

步驟2具體按照以下步驟實施:

(21)使用kinect獲取人體運動的rgb彩色與深度圖像,去除rgb彩色與深度圖像噪聲,并對其進行圖像校正處理;

(22)根據(jù)彩色圖像背景的復雜程度采用不同方法去除背景,獲得前景彩色圖像;

(23)基于前景彩色圖像且依據(jù)膚色模型對臉部及手部進行定位并將臉部及手部定位質心作為初始獲取的關節(jié)點;

(24)基于學習得到的貝葉斯分類器對彩色圖像前景中的運動人體進行部件分類識別;

(25)依據(jù)分類識別結果判定肢體各剛體結構部位類別,再根據(jù)各剛體部件的鏈接關系確定出各關節(jié)點,依次聯(lián)接各關節(jié)點形成平面人體骨架,結合各個關節(jié)點深度數(shù)據(jù)將平面骨架變換成三維立體骨架。

步驟3:通過系統(tǒng)學習獲取基于模糊c-均值聚類的代表性幀圖像數(shù)據(jù)庫drf;

步驟3具體按照以下步驟實施:

(31)給定運動序列{fi}i=1:n,其中n是幀數(shù),使用模糊c-均值fcm聚類方法生成代表性幀;

(32)基于幀圖像fi=(fi1,...,fin)聚類獲取運動序列代表性的幀rf(1)i=(rf1(1),…,rfk(1)),并對v(2)手繪圖數(shù)據(jù)庫進行聚類處理,獲得手繪圖關鍵幀圖像rf(2)j=(rf1(2),…,rfk(2)),然后總的代表幀可以表示為rf={rfk}k=1:c,其中rfk對應于第k個聚類中心;

(33)所有視頻運動類別及手繪圖所對應的代表性幀圖像共同組成人體運動代表幀圖像數(shù)據(jù)庫drf={rf(1)i,rf(2)j}。

步驟4:代表性的幀圖像數(shù)據(jù)庫drf通過使用自動編碼器提取人體骨胳運動圖像特征;

步驟4具體按照以下步驟實施:

(41)假設自動編碼器的輸入為x,首先,該編碼器將原始信號x映射到特征信號z中:

z(e)=h(e)(w(e)x+b(e))

其中“(e)”是指神經網(wǎng)絡編碼層,h(e)是傳遞函數(shù),w(e)是加權矩陣,b(e)是偏置向量;

(42)解碼器將特征信號z映射返回到估計中:

其中“(d)”表示第d網(wǎng)絡層,h(d)是解碼器的傳遞函數(shù),w(d)是權重矩陣,b(d)是偏置向量;

(43)建立一個代價函數(shù)來描述輸入,表示為x,與其重建之間的誤差輸出,表示為并需要控制誤差的值最小

其中代價函數(shù)e由3部分組成,第1部分是均方誤差,第2部分l*wweights是l2正則化,第3部分b*wsparsity是稀疏正則化,l2正則化系數(shù)為l,稀疏正則化系數(shù)為b,如果讓l2正則化是:

其中l(wèi),n,k分別是訓練數(shù)據(jù)中的隱層數(shù),觀測數(shù)和變量數(shù),添加一個正則化來激勵稀疏項,將第i個神經元激活措施定義為:

其中n是訓練樣本數(shù),xj是第j個訓練樣本,wi(1)t和bi(1)分別是w(1)的第i行,偏移向量,接下來,利用kullbackleibler發(fā)散呈現(xiàn)稀疏正則化:

當ri和相等,kullbackleibler發(fā)散是0,否則,由于它們彼此偏離,發(fā)散是較大的。

步驟5:應用畫板手繪預查詢的人體運動序列,首先應用自動編碼器提取手繪圖序列特征,進而應用模糊聚類獲取手繪圖運動序列代表幀應用dtw算法計算rfx和代表幀圖像數(shù)據(jù)庫drf距離,根據(jù)相似距離順序排序,輸出最優(yōu)運動檢索結果。

步驟5具體按照以下步驟實施:

(51)dtw的目的是比較兩個序列和rfy=(rf1y,…,rfcy)之間的相似性,讓整體匹配代價為cp(rfx,rfy):

cp(rfx,rfy)=[ddtw(rfix,rfjy)]c×c

在rfx和rfy之間的一個規(guī)整路徑p,被定義為本地代價度量,而ddtw(rfix,rfjy)是rfix(i,j=1,…,c)之間的dtw,設定rfix是t維向量,并且rfix=(x1,…,xt)和rfix之間的dtw是:

(52)rfx和rfy之間的最佳規(guī)整路徑是在所有可能的規(guī)整路徑中具有最小總成本的規(guī)整路徑p*,然后定義rfx和rfy之間的距離是p*的總成本:ddtw(rfx,rfy)=cp*(rfx,rfy);

(53)為了確定最優(yōu)路徑p*,使用動態(tài)規(guī)劃獲得最優(yōu)路徑,累積成本矩陣d滿足以下等式:

且n∈[1:c],d(1,m)=∑mk=1ddtw(rf1x,rfky)有m∈[1:c],和:

d(n,m)=min{d(n-1,m-1),d(n-1,m),d(n,m-1)}+ddtw(rfnx,rfmy),

最終優(yōu)化dtw的距離是:

ddtw(rfx,rfy)=cp*(rfx,rfy)=d(n,m)。

本發(fā)明與現(xiàn)有的運動檢索技術相比:提出的統(tǒng)計學習和貝葉斯融合(slbf)運動相似性匹配算法首先找到代表性的幀及其對應的權重值?;诮y(tǒng)計學習,我們獲得每個運動類別的可能性模型。為了計算相似度距離,我們利用兩種相似度測量方法,包括基于類和基于cca的運動相似距離測量。為了獲得進一步優(yōu)化的相似性距離,采用貝葉斯融合算法并運用基于實時cca的運動相似度距離測量來更新基于類的相似距離預測。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1