一種基于eSC和HOG的自適應HMM的手語識別方法

文檔序號：10535301閱讀：400來源：國知局

一種基于eSC和HOG的自適應HMM的手語識別方法
【專利摘要】本發(fā)明公開了一種基于eSC和HOG的自適應HMM的手語識別方法，包括：步驟S1、對手語的軌跡進行基于密度的采樣處理，再進行形狀上下文特征的提取并結合金字塔處理方法，獲得包含了空間和時間上信息的eSC特征；步驟S2、對于手型特征，通過從圖像數(shù)據(jù)中提取出包含手的矩形框，在框中進行HOG特征的提取，從而實現(xiàn)對手型特征的描述；步驟S3、基于提取出的eSC特征與HOG特征建立自適應HMM模型；步驟S4、對于待識別的數(shù)據(jù)，通過步驟S1與步驟S2提取出eSC特征與HOG特征，再基于所述自適應HMM模型對待識別的數(shù)據(jù)中提取出的eSC特征與HOG特征進行識別，獲得識別結果。通過采用本發(fā)明公開的方法能夠顯著的提高手語識別正確率。
【專利說明】
一種基于eSC和HOG的自適應HMM的手語識別方法
技術領域
[0001] 本發(fā)明涉及多媒體技術中的手語識別領域，尤其涉及一種基于eSC和H0G的自適應 HMM的手語識別方法。
【背景技術】
[0002] 在手語識別領域，有兩個至關重要的問題。一是如何獲取并設計魯棒高效的手語動作特征，二是如何對手語動作特征建立魯棒的識別模型。
[0003] 對于第一個問題，從上世紀開始就有學者引入數(shù)據(jù)手套傳感器，對每個手指的位置、形變等進行精細記錄。但數(shù)據(jù)手套不僅昂貴，還需測試者穿戴復雜設備，為此又有學者引入顏色手套，根據(jù)手套的顏色從視覺上跟蹤并分割手型，但它還是需要測試者進行穿戴。近年來，隨著體感設備例如微軟的Kinect，英特爾的Real-Sense，以及Leap-Mot ion等等地出現(xiàn)，使得測試者無需穿戴任何設備，并且能夠記錄手的坐標信息，以及記錄RGB視頻文件。所以現(xiàn)在的學者大多基于體感設備提供的原始數(shù)據(jù)進行設計手語動作的特征。
[0004] 對于第二個問題，對手語動作進行建模，進而實現(xiàn)手語動作的識別。這主要是借鑒于語音識別，利用機器學習理論中的一些模型。例如利用可以計算不等長序列相關性的DTW (Dynamic Time Warping，動態(tài)時間規(guī)整）算法以及機器學習模型SVM(Support Vector Machine，支持向量機）、GMM(Gaussi an Mixture Model，高斯混合模型）、HMM(Hidden Markov Model，隱馬爾科夫模型）、CRF(Conditional Random Field，條件隨機場）、ANN (Artificial Neural Network，人工神經網絡)等等。由于一直沒有公認的、實用的、魯棒的手語識別特征以及方法，以至于現(xiàn)今手語識別技術還不能像語音識別技術一樣真正地實用化。

【發(fā)明內容】

[0005] 本發(fā)明的目的是提供一種基于eSC和H0G的自適應HMM的手語識別方法，能夠顯著的提高手語識別正確率。
[0006] 本發(fā)明的目的是通過以下技術方案實現(xiàn)的：
[0007] -種基于eSC和H0G的自適應HMM的手語識別方法，包括：
[0008] 步驟S1、對手語的軌跡進行基于密度的采樣處理，再進行形狀上下文特征的提取并結合金字塔處理方法，獲得包含了空間和時間上信息的eSC特征；
[0009] 步驟S2、對于手型特征，通過從圖像數(shù)據(jù)中提取出包含手的矩形框，在框中進行 H0G特征的提取，從而實現(xiàn)對手型特征的描述；
[0010] 步驟S3、基于提取出的eSC特征與H0G特征建立自適應HMM模型；
[0011] 步驟S4、對于待識別的數(shù)據(jù)，通過步驟S1與步驟S2提取出eSC特征與H0G特征，再基于所述自適應HMM模型對待識別的數(shù)據(jù)中提取出的eSC特征與H0G特征進行識別，獲得識別結果。
[0012]進一步的，所述對手語的軌跡進行基于密度的采樣處理后，進行形狀上下文特征的提取并結合金字塔處理方法，獲得包含了空間和時間上信息的eSC特征包括：
[0013] 采用基于密度的采樣處理，使得圖像數(shù)據(jù)中手語軌跡點趨于均勻化:a、設定采樣上界值，初始化手語軌跡Path為原始數(shù)據(jù)歸一化后的坐標點序列；b、計算手語軌跡Path中相鄰圖像幀的手語軌跡點的平均距離d;c、在相鄰圖像幀的手語軌跡點距離最大且超過平均距離d的兩個手語軌跡點之間線性插入一個手語軌跡點，并更新Path;d、判斷更新后的 Path中的手語軌跡點總數(shù)是否達到采樣上界值;若是，則停止;若否，則繼續(xù)重復上述步驟b ~d;
[0014] 將采樣處理后的三維數(shù)據(jù)(x，y，z)分成三個兩維數(shù)據(jù)：（^7)、（^2)與(7,2);分別獲取每一個二維數(shù)據(jù)的形狀上下文直方圖；將形狀上下文直方圖平面分成t個方向，每個方向上取s層，所以將空間分成了 tXs個區(qū)域，每個區(qū)域的取值為落在對應區(qū)域中手語軌跡點的個數(shù);再進行歸一化處理，將三個二維的直方圖連在一起，形成一個能夠描述三維空間的特征向量；
[0015]弓丨入時間金字塔處理方法，來利用時間信息：將圖像數(shù)據(jù)通過前述兩個步驟處理獲得的三維空間的特征向量記為f1;將圖像數(shù)據(jù)從時間上劃分為前半部分與后半部分，再分別對前半部分與后半部分進行上述兩個步驟的處理，處理獲得的三維空間的特征向量分另IJ記為fgf 3;再將圖像數(shù)據(jù)從時間上劃分為四個部分，再分別對四個部分進行上述兩個步驟的處理，處理獲得的三維空間的特征向量分別記為f 4、f 5、f 6與f7 ;
[0016] 最終獲得的獲得包含了空間和時間上彳目息的eSC特征記為：
[0017] F=(fl，f2，f3，f4，f5，f6，f7)。
[0018]進一步的，對手語的軌跡進行基于密度的采樣處理之前還對圖像數(shù)據(jù)進行歸一化處理，其包括：
[0019]歸一化的方式為左右手相對于頭部的位置，再與用于本身肩寬w的比值，假設L和R 分別為歸一化后的左右手坐標點，則通過如下操作實現(xiàn)歸一化處理：
[0022]進一步的，所述對于手型特征，通過從圖像數(shù)據(jù)中提取出包含手的矩形框，在框中進行H0G特征的提取，從而實現(xiàn)對手型特征的描述包括：
[0023]根據(jù)圖像數(shù)據(jù)采集設備的映射函數(shù)，找到每一幀圖像中手對應的骨骼點在圖像數(shù) 據(jù)中的像素位置，提取出預定大小且以手為中心的矩形像素框；
[0024]對于每一幀圖像，均從矩形像素框中提取H0G特征，其中，參數(shù)設置為n Xn為一個 cel 1單元，hXh個cell單元組成一個block塊;在每個cell中取p個梯度方向，計算一個直方圖；每平移一個cell選取一個block，則總共有h Xh Xp個block塊，每個block由h Xh Xp維直方圖表達，每一幀圖像總共可以獲得(hXhXp)2維的直方圖特征；
[0025] 采用PCA方法將每一幀圖像的(hXhXp)2維的直方圖特征降維成W維，其中，W<< (hXhXp) 2。
[0026] 進一步的，基于提取出的eSC特征與HOG特征建立自適應HMM模型包括：
[0027]所建立的自適應HMM模型的參數(shù)為A=(N，M，A，B，jt);式中，N為隱狀態(tài)參數(shù)數(shù)目，M 為觀察狀態(tài)數(shù)目，A為狀態(tài)轉移矩陣，B為觀察序列概率矩陣，Jr為初始狀態(tài)；
[0028] 其中，隱狀態(tài)參數(shù)數(shù)目N確定方法如下：
[0029] 記第i幀圖像的H0G特征為hi，將第i+1幀圖像與第i幀圖像的差值記為di:
[0030] di = hi+i-hi ；
[0031] 則整個圖像數(shù)據(jù)的差值向量D為：
[0032] D=(di,d2, . . . ,c1t-i)；
[0033]式中的T為整個圖像數(shù)據(jù)的總幀數(shù)；
[0034] 設置閾值Threshold，將差值向量D中的各個元素依次與閾值Threshold進行比較，將大于閾值Thr e sho 1 d的記為0，小于閾值Thr e sho 1 d的記為1，則獲得由0與1組成的序列;利用中值濾波的方法去除單個噪聲，最終獲得若干個連續(xù)的由1組成的片段;統(tǒng)計片段的數(shù)量并將該數(shù)量作為自適應HMM模型的隱狀態(tài)參數(shù)數(shù)目N;
[0035]觀察狀態(tài)數(shù)目M的確定方法如下：
[0036]設置初始時觀察狀態(tài)數(shù)值，記eSC特征與H0G初始時觀察狀態(tài)數(shù)值均為m;
[0037]分別取一部分eSC特征和HOG特征聚類，獲得聚類中心，將剩余的特征映射到距離最近的中心，使得所有的特征能夠用有限個類別來表示，從而實現(xiàn)觀察狀態(tài)的表達；
[0038]分別對eSC和H0G特征利用上述五個參數(shù)建立自適應HMM模型，利用校驗數(shù)據(jù)求得識別率；
[0039]將eSC特征和/或H0G初始時觀察狀態(tài)數(shù)值m加上步進值m'，并重復上述三個步驟，直至求得的識別率開始遞減，將識別率為最大值時對應的觀察狀態(tài)數(shù)值作為最終結果。 [0040] 進一步的，所述對于待識別的數(shù)據(jù)，通過步驟S1與步驟S2提取出eSC特征與H0G特征，再基于所述自適應HMM模型對待識別的數(shù)據(jù)中提取出的eSC特征與H0G特征進行識別，獲得識別結果包括：
[0041 ] 對待識別的數(shù)據(jù)，通過步驟S1與步驟S2提取出eSC特征與H0G特征，并根據(jù)自適應 HMM模型中觀察狀態(tài)的聚類中心聚類成相應的觀察狀態(tài)數(shù)序列；
[0042] 對獲得的觀察狀態(tài)數(shù)序列，利用自適應的H麗模型得到后驗概率與
[0043] P(〇\Cf,) = n 々'/)(01 G;)；
[0044] P(01II.) =：/2 fP{d\Ti~)；
[0045]式中，P(0 | Gi)與P(0 | Hi)分別表示待識別的數(shù)據(jù)0的eSC特征G與HOG特征H在第i個模型下的概率;ll_j與12_j分別表示第j個eSC特征與HOG特征的長度；
[0046] 計算判決概率^01孓；)；
[0047] ) = >(01 (7,.) + >(01 j 丨,）；
[0048] 則最大的判決概率戶丨0|為;)對應的標號即為識別結果，其中每一標號均對應一個詞語：
[0049] Index - argmax argmax P{〇 \ / )- 0</<Af iHi<N
[0050] 由上述本發(fā)明提供的技術方案可以看出，利用基于eSC和HOG的自適應HMM模型手語識別方法在大規(guī)模詞匯的手語識別中識別率顯著提升。一方面，在特征描述與表達上， eSC能夠處理不同速度造成的差異，時間金字塔能夠將時間信息考慮其中，相比于現(xiàn)有技術，這種特征可以更加深入地描述軌跡特征。另一方面，在自適應的HMM模型中，不同于現(xiàn)有技術將模型參數(shù)固定，我們采用自適應參數(shù)對不同的手語進行自適應的建模，進而實現(xiàn)手語識別正確率的提升。
【附圖說明】
[0051] 為了更清楚地說明本發(fā)明實施例的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域的普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他附圖。
[0052] 圖1為本發(fā)明實施例提供的一種基于eSC和H0G的自適應HMM的手語識別方法的流程圖；
[0053]圖2為本發(fā)明實施例提供的提取包含空間和時間信息的eSC特征的示意圖。
【具體實施方式】
[0054]下面結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒?發(fā)明的實施例，本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明的保護范圍。
[0055]圖1為本發(fā)明實施例提供的一種基于eSC和H0G的自適應HMM的手語識別方法的流程圖。如圖1所示，其主要包括如下步驟：
[0056]步驟S1、對手語的軌跡進行基于密度的采樣處理，再進行形狀上下文特征的提取并結合金字塔處理方法，獲得包含了空間和時間上信息的eSC特征。
[0057] 本發(fā)明實施例中，為了適應不同人對同一手語詞匯的不同比劃速度，對圖像數(shù)據(jù) 進行了一種基于密度的采樣處理，即在密度小的地方進行差值采樣，使得樣本點更加平滑。然后，再行形狀上下文特征的提取;再在時間上將動作分成等分段，分別對二分之一段和四分之一段進行特征提取，將所有特征拼接在一起實現(xiàn)軌跡特征的描述，使得提取出的特征同時包含了空間和時間上的信息。
[0058] 優(yōu)選的，為了適應不同比劃者的身高臂展等造成的影響，可以對圖像數(shù)據(jù)中獲得的左右手三維坐標進行歸一化。示例性的，圖像數(shù)據(jù)采集設備可以為微軟的Kinect。
[0059] 歸一化過程如下:記左手的坐標點為l(x，y，z)，右手的坐標點為r(X，y，z)，頭部的坐標點為h(x，y，z)，左肩膀的坐標點為ls(x，y，z)，右肩膀的坐標點為rs(x，y，z);設肩膀的寬度為w，則每一幀數(shù)據(jù)中左肩膀與右肩膀的空間距離為：
[0060] wHJ&-r5|!2- ^
[0061] 歸一化的方式為左右手相對于頭部的位置，再與用于本身肩寬的比值，假設L和R 分別為歸一化后的左右手坐標點，則通過如下操作實現(xiàn)歸一化處理：
[0064] 歸一化后，則可通過如下三個步驟提取出包含空間和時間信息的eSC特征；下述三個步驟的示意圖如圖2所示。
[0065] 1)采用基于密度的采樣處理，使得圖像數(shù)據(jù)中手語軌跡點趨于均勻化:a、設定采樣上界值，初始化手語軌跡Path為原始數(shù)據(jù)歸一化后的坐標點序列；b、計算手語軌跡Path 中相鄰圖像幀的手語軌跡點的平均距離d;c、在相鄰圖像幀的手語軌跡點距離最大且超過平均距離d的兩個手語軌跡點之間線性插入一個手語軌跡點，并更新Path;d、判斷更新后的 Path中的手語軌跡點總數(shù)是否達到采樣上界值;若是，則停止;若否，則繼續(xù)重復上述步驟b ~d〇
[0066] 示例性的，所述圖像數(shù)據(jù)可以為視頻數(shù)據(jù)，若視頻數(shù)據(jù)中每一秒包含30幀圖像，則每秒鐘可以獲取30個手的坐標點。歸一化后只是在相對位置上進行了不同人的適應。而在速度上差異只能由采樣來克服。一般情況下，每個手語動作平均3秒(90幀數(shù)據(jù)），最長的數(shù) 據(jù)不會超過5秒，因此，可以設置采樣上界為250個點。本領域技術人員可以理解，上述各個參數(shù)的具體數(shù)值僅為舉例。
[0067] 2)將采樣處理后的三維數(shù)據(jù)(x，y，z)分成三個兩維數(shù)據(jù)：（^7)、（^ 2)與(7,2);分別獲取每一個二維數(shù)據(jù)的形狀上下文直方圖；將形狀上下文直方圖平面分成t個方向，每個方向上取s層，所以將空間分成了 tXs個區(qū)域，每個區(qū)域的取值為落在對應區(qū)域中手語軌跡點的個數(shù);再進行歸一化處理，將三個二維的直方圖連在一起，形成一個能夠描述三維空間的特征向量。
[0068] 所述t可以為12，s可以為3;本領域技術人員可以理解，這兩個參數(shù)的具體數(shù)值僅為舉例。
[0069] 3)引入時間金字塔處理方法，來利用時間信息：將圖像數(shù)據(jù)通過前述兩個步驟處理獲得的三維空間的特征向量記為f 1;將圖像數(shù)據(jù)從時間上劃分為前半部分與后半部分，再分別對前半部分與后半部分進行上述兩個步驟的處理，處理獲得的三維空間的特征向量分別記為f 2與f3;再將圖像數(shù)據(jù)從時間上劃分為四個部分，再分別對四個部分進行上述兩個步驟的處理，處理獲得的三維空間的特征向量分別記為f 4、f 5、f 6與f7 ;
[0070] 最終獲得的獲得包含了空間和時間上信息的eSC特征記為：
[0071] F=(fl，f2，f3，f4，f5，f6，f7)。
[0072] 步驟S2、對于手型特征，通過從圖像數(shù)據(jù)中提取出包含手的矩形框，在框中進行 H0G特征的提取，從而實現(xiàn)對手型特征的描述。
[0073] 本步驟可以分為如下三部進行處理：
[0074] 1)根據(jù)圖像數(shù)據(jù)采集設備的映射函數(shù)(如前所述，圖像數(shù)據(jù)采集設備可以為微軟的Kinect)，找到每一幀圖像中手對應的骨骼點在圖像數(shù)據(jù)中的像素位置，提取出預定大小且以手為中心的矩形像素框；
[0075] 2)對于每一幀圖像，均從矩形像素框中提取H0G特征，其中，參數(shù)設置為nXn為一個cell單元，hXh個cell單元組成一個block塊;在每個cell中取p個梯度方向，計算一個直方圖；每平移一個cell選取一個block，則總共有h Xh Xp個block塊，每個block由h Xh Xp 維直方圖表達，每一幀圖像總共可以獲得(hXhXp)2維的直方圖特征；
[0076] 3)采用PCA(Principal Component Analysis，主成分分析)方法將每一幀圖像的 (hXhXp)2維的直方圖特征降維成W維，其中，W<<(hXhXp)2。
[0077] 本發(fā)明實施例中，可以提取手為中心的70 X 70的矩形像素框，提取HOG特征時，參數(shù)n可以為10, a可以為2, p可以為9,則每平移一個cell選取一個block，總共有36個block塊每個block由36維直方圖表達，每一幀圖像總共可以獲得1296維的直方圖特征;采用PCA方法可以將降維成每只手50維，則每幀圖像包含兩只手，通過100(即W=100)維H0G特征描述。本領域技術人員可以理解，上述各個參數(shù)的具體數(shù)值僅為舉例。
[0078] 步驟S3、基于提取出的eSC特征與H0G特征建立自適應HMM模型。
[0079] 本發(fā)明實施例中，所建立的自適應HMM模型的參數(shù)為A = (N，M，A，B，JT);
[0080] 其中：
[0081 ] N為隱狀態(tài)參數(shù)數(shù)目，每個模型對應的N可自適應確定，具體的計算方法將在后文詳細介紹。可記為⑶，&，…，SN)。第i幀的數(shù)據(jù)所處狀態(tài)可以記為qi。
[0082] M為觀察狀態(tài)數(shù)目，計算方法將在后文詳細介紹。
[0083] A為狀態(tài)轉移矩陣，A= (aij)NXN，其中，aij = P(qi+i = Sj | qi = Si)，表示從狀態(tài)Si到狀態(tài)Sj的跳轉概率。
[0084] B為觀察序列概率矩陣，B=(bjk)MXN，其中，bjk = P(0j = Vk|qj = Sj)，表示，在qi狀態(tài) 時，觀察序列符號〇j為Vk的概率。其中Vk為已知的模型觀察狀態(tài)。
[0085] JT為初始狀態(tài);可以設置為(1，0，…，0)表示從第一個狀態(tài)開始跳轉。
[0086]該自適應HMM模型的參數(shù)確定后，再利用Baum-We lch學習算法使得模型收斂。
[0087]本發(fā)明所建立的自適應HMM模型，引入了自適應參數(shù)機制，使得每個模型的參數(shù)根據(jù)手語本身特性自適應而定。
[0088]隱狀態(tài)參數(shù)數(shù)目N確定方法如下：
[0089] 記第i幀圖像的H0G特征為hi，將第i+1幀圖像與第i幀圖像的差值記為di:
[0090] di = hi+i-hi ；
[0091] 則整個圖像數(shù)據(jù)的差值向量D為：
[0092] D=(di，d2,…，cIt-1);
[0093] 式中的T為整個圖像數(shù)據(jù)的總幀數(shù)；
[0094] 本發(fā)明實施例中，設置閾值Thresho 1 d (例如，Thresho 1 d = 0.8)，將差值向量D中的各個元素依次與閾值Threshold進行比較，將大于閾值Threshold的記為0，小于閾值 Thre sho Id的記為1，則獲得由0與1組成的序列;利用中值濾波的方法去除單個噪聲，最終獲得若干個連續(xù)的由1組成的片段;統(tǒng)計片段的數(shù)量并將該數(shù)量作為自適應HMM模型的隱狀態(tài) 參數(shù)數(shù)目N;
[0095] 觀察狀態(tài)的數(shù)目通過校驗獲得，分別對不同的觀察狀態(tài)做測試實驗，取校驗效果最好的觀察狀態(tài)值。觀察狀態(tài)數(shù)目M的確定方法如下：
[0096] 1)設置初始時觀察狀態(tài)數(shù)值，記eSC特征與H0G初始時觀察狀態(tài)數(shù)值均為m;
[0097] 2)分別取一部分eSC特征和HOG特征聚類，獲得聚類中心，將剩余的特征映射到距離最近的中心，使得所有的特征可以用有限個類別來表示，也就實現(xiàn)模型中觀察狀態(tài)的表達；
[0098] 3)分別對eSC和HOG特征利用上述參數(shù)建立自適應HMM模型，利用校驗數(shù)據(jù)求得在該模型下識別率；
[0099] 4)將eSC特征和/或H0G初始時觀察狀態(tài)數(shù)值m加上步進值m'，并重復上述三個步驟，直至求得的識別率開始遞減，將識別率為最大值時對應的觀察狀態(tài)數(shù)值作為最終結果。
[0100] 本發(fā)明實施例中，可以根據(jù)數(shù)據(jù)集中手語詞匯數(shù)目確定初始觀察狀態(tài)數(shù)值，例如 500個詞匯時，取eSC和H0G特征的初值均為500;所述步進值m'可以設置為100，通過上述步驟可得eSC特征的觀察狀態(tài)數(shù)值為1900，H0G特征的觀察狀態(tài)數(shù)值為1800。本領域技術人員可以理解，上述各個參數(shù)的具體數(shù)值僅為舉例。
[0101] 步驟S4、對于待識別的數(shù)據(jù)，通過步驟S1與步驟S2提取出eSC特征與H0G特征，再基于所述自適應HMM模型對待識別的數(shù)據(jù)進行識別，所有模型中給出的最大識別概率對應的詞匯作為該詞的識別結果，細節(jié)如下所述。
[0102] 本發(fā)明實施例中，對待識別的數(shù)據(jù)，通過步驟S1與步驟S2提取出eSC特征與H0G特征，并根據(jù)自適應HMM模型中觀察狀態(tài)的聚類中心聚類成相應的觀察狀態(tài)數(shù)序列；
[0103] 對獲得的觀察狀態(tài)數(shù)序列，利用自適應的HMM模型得到后驗概率與盧(0|
[0104] 首先，計算出待識別的數(shù)據(jù)0的eSC特征G與H0G特征H在第i個自適應HMM模型下的概率p(01 與P(0 I出），由于處理軌跡的采樣使得其與手型長度不一致，因此概率不在一個量級上，需要進行歸一化處理得到后驗概率| G,丨1與| //,):
[0105] p(〇\Gi) = :' ^P{〇\G：)：
[0106] P{〇\ l!.) = !- 々'/)(〇|/:)；
[0107] 式中，ll_j與12_j分別表示第j個eSC特征與HOG特征的長度；
[0108] 計算判決概率多(0 |爲)：
[0109] ) = >(01 G,.)十 /)(01 丨丨,）：
[0110] 則最大的判決概率對應的標號(每個標號對應一個詞語)即為識別結果：
[0111] Index = argi)iax argnwx P (O \ A.) 〇 ()<i-<N 0<i-<N'
[0112] 本發(fā)明實施例的上述方案，利用基于eSC和HOG的自適應HMM模型手語識別方法在大規(guī)模詞匯的手語識別中識別率顯著提升。一方面，在特征描述與表達上，eSC能夠處理不同速度造成的差異，時間金字塔能夠將時間信息考慮其中，相比于現(xiàn)有技術，這種特征可以更加深入地描述軌跡特征。另一方面，在自適應的HMM模型中，不同于現(xiàn)有技術將模型參數(shù) 固定，我們采用自適應參數(shù)對不同的手語進行自適應的建模，進而實現(xiàn)手語識別正確率的提升。
[0113] 通過以上的實施方式的描述，本領域的技術人員可以清楚地了解到上述實施例可以通過軟件實現(xiàn)，也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)。基于這樣的理解，上述實施例的技術方案可以以軟件產品的形式體現(xiàn)出來，該軟件產品可以存儲在一個非易失性存儲介質（可以是CD-ROM，U盤，移動硬盤等）中，包括若干指令用以使得一臺計算機設備(可以是個人計算機，服務器，或者網絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。
[0114]以上所述，僅為本發(fā)明較佳的【具體實施方式】，但本發(fā)明的保護范圍并不局限于此，任何熟悉本技術領域的技術人員在本發(fā)明披露的技術范圍內，可輕易想到的變化或替換，都應涵蓋在本發(fā)明的保護范圍之內。因此，本發(fā)明的保護范圍應該以權利要求書的保護范圍為準。
【主權項】
1. 一種基于esc和HOG的自適應HMM的手語識別方法，其特征在于，包括：步驟S1、對手語的軌跡進行基于密度的采樣處理，再進行形狀上下文特征的提取并結合金字塔處理方法，獲得包含了空間和時間上信息的eSC特征；步驟S2、對于手型特征，通過從圖像數(shù)據(jù)中提取出包含手的矩形框，在框中進行HOG特征的提取，從而實現(xiàn)對手型特征的描述；步驟S3、基于提取出的eSC特征與HOG特征建立自適應HMM模型；步驟S4、對于待識別的數(shù)據(jù)，通過步驟Sl與步驟S2提取出eSC特征與HOG特征，再基于所述自適應HMM模型對待識別的數(shù)據(jù)中提取出的eSC特征與HOG特征進行識別，獲得識別結果。2. 根據(jù)權利要求1所述的方法，其特征在于，所述對手語的軌跡進行基于密度的采樣處理后，進行形狀上下文特征的提取并結合金字塔處理方法，獲得包含了空間和時間上信息的eSC特征包括：采用基于密度的采樣處理，使得圖像數(shù)據(jù)中手語軌跡點趨于均勻化:a、設定采樣上界值，初始化手語軌跡Path為原始數(shù)據(jù)歸一化后的坐標點序列;b、計算手語軌跡Path中相鄰圖像幀的手語軌跡點的平均距離d;c、在相鄰圖像幀的手語軌跡點距離最大且超過平均距離d的兩個手語軌跡點之間線性插入一個手語軌跡點，并更新Path;d、判斷更新后的Path中的手語軌跡點總數(shù)是否達到采樣上界值;若是，則停止;若否，則繼續(xù)重復上述步驟b~d; 將采樣處理后的三維數(shù)據(jù)(x，y，z)分成三個兩維數(shù)據(jù)：（^7)、（^2)與(7, 2);分別獲取每一個二維數(shù)據(jù)的形狀上下文直方圖；將形狀上下文直方圖平面分成t個方向，每個方向上取s層，所以將空間分成了 tXs個區(qū)域，每個區(qū)域的取值為落在對應區(qū)域中手語軌跡點的個數(shù);再進行歸一化處理，將三個二維的直方圖連在一起，形成一個能夠描述三維空間的特征向量；引入時間金字塔處理方法，來利用時間信息：將圖像數(shù)據(jù)通過前述兩個步驟處理獲得的三維空間的特征向量記為f1;將圖像數(shù)據(jù)從時間上劃分為前半部分與后半部分，再分別對前半部分與后半部分進行上述兩個步驟的處理，處理獲得的三維空間的特征向量分別記為f 2與f3;再將圖像數(shù)據(jù)從時間上劃分為四個部分，再分別對四個部分進行上述兩個步驟的處理，處理獲得的三維空間的特征向量分別記為f 4、ft、f 6與f7 ; 最終獲得的獲得包含了空間和時間上信息的eSC特征記為： F=(fl,f2,f3,f4,f5,f6,f7)〇3. 根據(jù)權利要求1或2所述的方法，其特征在于，對手語的軌跡進行基于密度的采樣處理之前還對圖像數(shù)據(jù)進行歸一化處理，其包括：歸一化的方式為左右手相對于頭部的位置，再與用于本身肩寬W的比值，假設L和R分別為歸一化后的左右手坐標點，則通討如下操作賣現(xiàn)伯一化處理：4. 根據(jù)權利要求1所述的方法，其特征在于，所述對于手型特征，通過從圖像數(shù)據(jù)中提取出包含手的矩形框，在框中進行HOG特征的提取，從而實現(xiàn)對手型特征的描述包括：根據(jù)圖像數(shù)據(jù)采集設備的映射函數(shù)，找到每一幀圖像中手對應的骨骼點在圖像數(shù)據(jù)中的像素位置，提取出預定大小且以手為中心的矩形像素框；對于每一幀圖像，均從矩形像素框中提取HOG特征，其中，參數(shù)設置為nXn為一個cell 單元，h X h個cel 1單元組成一個block塊;在每個cel 1中取p個梯度方向，計算一個直方圖；每平移一個cel 1選取一個block，則總共有h X h X p個block塊，每個block由h X h X p維直方圖表達，每一幀圖像總共可以獲得(hXhXp)2維的直方圖特征；采用PCA方法將每一幀圖像的(hXhXp)2維的直方圖特征降維成W維，其中，W<<(hXh Xp)2。5. 根據(jù)權利要求1或2或4所述的方法，其特征在于，基于提取出的eSC特征與HOG特征建立自適應HMM模型包括：所建立的自適應HMM模型的參數(shù)為λ= (N，M，A，B，JT);式中，N為隱狀態(tài)參數(shù)數(shù)目，M為觀察狀態(tài)數(shù)目，A為狀態(tài)轉移矩陣，B為觀察序列概率矩陣，π為初始狀態(tài)；其中，隱狀態(tài)參數(shù)數(shù)目N確定方法如下：記第i幀圖像的HOG特征為lu，將第i+Ι幀圖像與第i幀圖像的差值記為d1: di = hi+i_hi; 則整個圖像數(shù)據(jù)的差值向量D為： D= (di,d2, ·' ,cIt-i)；式中的T為整個圖像數(shù)據(jù)的總幀數(shù)；設置閾值Thr e sho I d，將差值向量D中的各個元素依次與閾值Thr e sho I d進行比較，將大于閾值Threshold的記為0,小于閾值Threshold的記為1，則獲得由0與1組成的序列；利用中值濾波的方法去除單個噪聲，最終獲得若干個連續(xù)的由1組成的片段;統(tǒng)計片段的數(shù)量并將該數(shù)量作為自適應HMM模型的隱狀態(tài)參數(shù)數(shù)目N; 觀察狀態(tài)數(shù)目M的確定方法如下：設置初始時觀察狀態(tài)數(shù)值，記eSC特征與HOG初始時觀察狀態(tài)數(shù)值均為m; 分別取一部分eSC特征和HOG特征聚類，獲得聚類中心，將剩余的特征映射到距離最近的中心，使得所有的特征能夠用有限個類別來表示，從而實現(xiàn)觀察狀態(tài)的表達；分別對eSC和HOG特征利用上述五個參數(shù)建立自適應HMM模型，利用校驗數(shù)據(jù)求得識別率；將eSC特征和/或HOG初始時觀察狀態(tài)數(shù)值m加上步進值m'，并重復上述三個步驟，直至求得的識別率開始遞減，將識別率為最大值時對應的觀察狀態(tài)數(shù)值作為最終結果。6. 根據(jù)權利要求5所述的方法，其特征在于，所述對于待識別的數(shù)據(jù)，通過步驟Sl與步驟S2提取出eSC特征與HOG特征，再基于所述自適應HMM模型對待識別的數(shù)據(jù)中提取出的eSC 特征與HOG特征進行識別，獲得識別結果包括：對待識別的數(shù)據(jù)，通過步驟Sl與步驟S2提取出eSC特征與HOG特征，并根據(jù)自適應HMM模型中觀察狀態(tài)的聚類中心聚類成相應的觀察狀態(tài)數(shù)序列；對獲得的觀察狀態(tài)數(shù)序列，利用自適應的HMM模型得到后驗概率/5(01 q ；)與1 //,_):式中，P(〇 I Gi)與P(0 I Hi)分別表示待識別的數(shù)據(jù)0的eSC特征G與HOG特征H在第i個模型下的概率;ll_j與12_j分別表示第j個eSC特征與HOG特征的長度；計算判決概率Μομ,)·則最大的判決概率為：)對應的標號即為識別結果，其中每一標號均對應一個詞語：
【文檔編號】G06K9/00GK105893942SQ201610186434
【公開日】2016年8月24日
【申請日】2016年3月25日
【發(fā)明人】周文罡, 張繼海, 李厚強
【申請人】中國科學技術大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：周文罡;張繼海;李厚強;
技術所有人：中國科學技術大學;
我是此專利的發(fā)明人

上一篇：一種油位檢測方法及系統(tǒng)的制作方法
上一篇：一種基于區(qū)域圖像的人臉表情識別方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

感恩的心手語視頻相關技術

手語相關技術

中國手語相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于eSC和HOG的自適應HMM的手語識別方法