一種基于eSC和HOG的自適應HMM的手語識別方法
【專利摘要】本發(fā)明公開了一種基于eSC和HOG的自適應HMM的手語識別方法,包括:步驟S1、對手語的軌跡進行基于密度的采樣處理,再進行形狀上下文特征的提取并結合金字塔處理方法,獲得包含了空間和時間上信息的eSC特征;步驟S2、對于手型特征,通過從圖像數(shù)據(jù)中提取出包含手的矩形框,在框中進行HOG特征的提取,從而實現(xiàn)對手型特征的描述;步驟S3、基于提取出的eSC特征與HOG特征建立自適應HMM模型;步驟S4、對于待識別的數(shù)據(jù),通過步驟S1與步驟S2提取出eSC特征與HOG特征,再基于所述自適應HMM模型對待識別的數(shù)據(jù)中提取出的eSC特征與HOG特征進行識別,獲得識別結果。通過采用本發(fā)明公開的方法能夠顯著的提高手語識別正確率。
【專利說明】
一種基于eSC和HOG的自適應HMM的手語識別方法
技術領域
[0001] 本發(fā)明涉及多媒體技術中的手語識別領域,尤其涉及一種基于eSC和H0G的自適應 HMM的手語識別方法。
【背景技術】
[0002] 在手語識別領域,有兩個至關重要的問題。一是如何獲取并設計魯棒高效的手語 動作特征,二是如何對手語動作特征建立魯棒的識別模型。
[0003] 對于第一個問題,從上世紀開始就有學者引入數(shù)據(jù)手套傳感器,對每個手指的位 置、形變等進行精細記錄。但數(shù)據(jù)手套不僅昂貴,還需測試者穿戴復雜設備,為此又有學者 引入顏色手套,根據(jù)手套的顏色從視覺上跟蹤并分割手型,但它還是需要測試者進行穿戴。 近年來,隨著體感設備例如微軟的Kinect,英特爾的Real-Sense,以及Leap-Mot ion等等地 出現(xiàn),使得測試者無需穿戴任何設備,并且能夠記錄手的坐標信息,以及記錄RGB視頻文件。 所以現(xiàn)在的學者大多基于體感設備提供的原始數(shù)據(jù)進行設計手語動作的特征。
[0004] 對于第二個問題,對手語動作進行建模,進而實現(xiàn)手語動作的識別。這主要是借鑒 于語音識別,利用機器學習理論中的一些模型。例如利用可以計算不等長序列相關性的DTW (Dynamic Time Warping,動態(tài)時間規(guī)整)算法以及機器學習模型SVM(Support Vector Machine,支持向量機)、GMM(Gaussi an Mixture Model,高斯混合模型)、HMM(Hidden Markov Model,隱馬爾科夫模型)、CRF(Conditional Random Field,條件隨機場)、ANN (Artificial Neural Network,人工神經網絡)等等。由于一直沒有公認的、實用的、魯棒的 手語識別特征以及方法,以至于現(xiàn)今手語識別技術還不能像語音識別技術一樣真正地實用 化。
【發(fā)明內容】
[0005] 本發(fā)明的目的是提供一種基于eSC和H0G的自適應HMM的手語識別方法,能夠顯著 的提高手語識別正確率。
[0006] 本發(fā)明的目的是通過以下技術方案實現(xiàn)的:
[0007] -種基于eSC和H0G的自適應HMM的手語識別方法,包括:
[0008] 步驟S1、對手語的軌跡進行基于密度的采樣處理,再進行形狀上下文特征的提取 并結合金字塔處理方法,獲得包含了空間和時間上信息的eSC特征;
[0009] 步驟S2、對于手型特征,通過從圖像數(shù)據(jù)中提取出包含手的矩形框,在框中進行 H0G特征的提取,從而實現(xiàn)對手型特征的描述;
[0010] 步驟S3、基于提取出的eSC特征與H0G特征建立自適應HMM模型;
[0011] 步驟S4、對于待識別的數(shù)據(jù),通過步驟S1與步驟S2提取出eSC特征與H0G特征,再基 于所述自適應HMM模型對待識別的數(shù)據(jù)中提取出的eSC特征與H0G特征進行識別,獲得識別 結果。
[0012]進一步的,所述對手語的軌跡進行基于密度的采樣處理后,進行形狀上下文特征 的提取并結合金字塔處理方法,獲得包含了空間和時間上信息的eSC特征包括:
[0013] 采用基于密度的采樣處理,使得圖像數(shù)據(jù)中手語軌跡點趨于均勻化:a、設定采樣 上界值,初始化手語軌跡Path為原始數(shù)據(jù)歸一化后的坐標點序列;b、計算手語軌跡Path中 相鄰圖像幀的手語軌跡點的平均距離d;c、在相鄰圖像幀的手語軌跡點距離最大且超過平 均距離d的兩個手語軌跡點之間線性插入一個手語軌跡點,并更新Path;d、判斷更新后的 Path中的手語軌跡點總數(shù)是否達到采樣上界值;若是,則停止;若否,則繼續(xù)重復上述步驟b ~d;
[0014] 將采樣處理后的三維數(shù)據(jù)(x,y,z)分成三個兩維數(shù)據(jù):(^7)、(^2)與(7,2);分別 獲取每一個二維數(shù)據(jù)的形狀上下文直方圖;將形狀上下文直方圖平面分成t個方向,每個方 向上取s層,所以將空間分成了 tXs個區(qū)域,每個區(qū)域的取值為落在對應區(qū)域中手語軌跡點 的個數(shù);再進行歸一化處理,將三個二維的直方圖連在一起,形成一個能夠描述三維空間的 特征向量;
[0015]弓丨入時間金字塔處理方法,來利用時間信息:將圖像數(shù)據(jù)通過前述兩個步驟處理 獲得的三維空間的特征向量記為f1;將圖像數(shù)據(jù)從時間上劃分為前半部分與后半部分,再 分別對前半部分與后半部分進行上述兩個步驟的處理,處理獲得的三維空間的特征向量分 另IJ記為fgf 3;再將圖像數(shù)據(jù)從時間上劃分為四個部分,再分別對四個部分進行上述兩個步 驟的處理,處理獲得的三維空間的特征向量分別記為f 4、f 5、f 6與f7 ;
[0016] 最終獲得的獲得包含了空間和時間上彳目息的eSC特征記為:
[0017] F=(fl,f2,f3,f4,f5,f6,f7)。
[0018]進一步的,對手語的軌跡進行基于密度的采樣處理之前還對圖像數(shù)據(jù)進行歸一化 處理,其包括:
[0019]歸一化的方式為左右手相對于頭部的位置,再與用于本身肩寬w的比值,假設L和R 分別為歸一化后的左右手坐標點,則通過如下操作實現(xiàn)歸一化處理:
[0022]進一步的,所述對于手型特征,通過從圖像數(shù)據(jù)中提取出包含手的矩形框,在框中 進行H0G特征的提取,從而實現(xiàn)對手型特征的描述包括:
[0023]根據(jù)圖像數(shù)據(jù)采集設備的映射函數(shù),找到每一幀圖像中手對應的骨骼點在圖像數(shù) 據(jù)中的像素位置,提取出預定大小且以手為中心的矩形像素框;
[0024]對于每一幀圖像,均從矩形像素框中提取H0G特征,其中,參數(shù)設置為n Xn為一個 cel 1單元,hXh個cell單元組成一個block塊;在每個cell中取p個梯度方向,計算一個直方 圖;每平移一個cell選取一個block,則總共有h Xh Xp個block塊,每個block由h Xh Xp維 直方圖表達,每一幀圖像總共可以獲得(hXhXp)2維的直方圖特征;
[0025] 采用PCA方法將每一幀圖像的(hXhXp)2維的直方圖特征降維成W維,其中,W<< (hXhXp) 2。
[0026] 進一步的,基于提取出的eSC特征與HOG特征建立自適應HMM模型包括:
[0027]所建立的自適應HMM模型的參數(shù)為A=(N,M,A,B,jt);式中,N為隱狀態(tài)參數(shù)數(shù)目,M 為觀察狀態(tài)數(shù)目,A為狀態(tài)轉移矩陣,B為觀察序列概率矩陣,Jr為初始狀態(tài);
[0028] 其中,隱狀態(tài)參數(shù)數(shù)目N確定方法如下:
[0029] 記第i幀圖像的H0G特征為hi,將第i+1幀圖像與第i幀圖像的差值記為di:
[0030] di = hi+i-hi ;
[0031] 則整個圖像數(shù)據(jù)的差值向量D為:
[0032] D=(di,d2, . . . ,c1t-i);
[0033]式中的T為整個圖像數(shù)據(jù)的總幀數(shù);
[0034] 設置閾值Threshold,將差值向量D中的各個元素依次與閾值Threshold進行比較, 將大于閾值Thr e sho 1 d的記為0,小于閾值Thr e sho 1 d的記為1,則獲得由0與1組成的序列;利 用中值濾波的方法去除單個噪聲,最終獲得若干個連續(xù)的由1組成的片段;統(tǒng)計片段的數(shù)量 并將該數(shù)量作為自適應HMM模型的隱狀態(tài)參數(shù)數(shù)目N;
[0035]觀察狀態(tài)數(shù)目M的確定方法如下:
[0036]設置初始時觀察狀態(tài)數(shù)值,記eSC特征與H0G初始時觀察狀態(tài)數(shù)值均為m;
[0037]分別取一部分eSC特征和HOG特征聚類,獲得聚類中心,將剩余的特征映射到距離 最近的中心,使得所有的特征能夠用有限個類別來表示,從而實現(xiàn)觀察狀態(tài)的表達;
[0038]分別對eSC和H0G特征利用上述五個參數(shù)建立自適應HMM模型,利用校驗數(shù)據(jù)求得 識別率;
[0039]將eSC特征和/或H0G初始時觀察狀態(tài)數(shù)值m加上步進值m',并重復上述三個步驟, 直至求得的識別率開始遞減,將識別率為最大值時對應的觀察狀態(tài)數(shù)值作為最終結果。 [0040] 進一步的,所述對于待識別的數(shù)據(jù),通過步驟S1與步驟S2提取出eSC特征與H0G特 征,再基于所述自適應HMM模型對待識別的數(shù)據(jù)中提取出的eSC特征與H0G特征進行識別,獲 得識別結果包括:
[0041 ] 對待識別的數(shù)據(jù),通過步驟S1與步驟S2提取出eSC特征與H0G特征,并根據(jù)自適應 HMM模型中觀察狀態(tài)的聚類中心聚類成相應的觀察狀態(tài)數(shù)序列;
[0042] 對獲得的觀察狀態(tài)數(shù)序列,利用自適應的H麗模型得到后驗概率與
[0043] P(〇\Cf,) = n 々'/)(01 G;);
[0044] P(01II.) =:/2 fP{d\Ti~);
[0045]式中,P(0 | Gi)與P(0 | Hi)分別表示待識別的數(shù)據(jù)0的eSC特征G與HOG特征H在第i個 模型下的概率;ll_j與12_j分別表示第j個eSC特征與HOG特征的長度;
[0046] 計算判決概率^01孓;);
[0047] ) = >(01 (7,.) + >(01 j 丨,);
[0048] 則最大的判決概率戶丨0|為;)對應的標號即為識別結果,其中每一標號均對應一個 詞語:
[0049] Index - argmax argmax P{〇 \ / )- 0</<Af iHi<N
[0050] 由上述本發(fā)明提供的技術方案可以看出,利用基于eSC和HOG的自適應HMM模型手 語識別方法在大規(guī)模詞匯的手語識別中識別率顯著提升。一方面,在特征描述與表達上, eSC能夠處理不同速度造成的差異,時間金字塔能夠將時間信息考慮其中,相比于現(xiàn)有技 術,這種特征可以更加深入地描述軌跡特征。另一方面,在自適應的HMM模型中,不同于現(xiàn)有 技術將模型參數(shù)固定,我們采用自適應參數(shù)對不同的手語進行自適應的建模,進而實現(xiàn)手 語識別正確率的提升。
【附圖說明】
[0051] 為了更清楚地說明本發(fā)明實施例的技術方案,下面將對實施例描述中所需要使用 的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本 領域的普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 附圖。
[0052] 圖1為本發(fā)明實施例提供的一種基于eSC和H0G的自適應HMM的手語識別方法的流 程圖;
[0053]圖2為本發(fā)明實施例提供的提取包含空間和時間信息的eSC特征的示意圖。
【具體實施方式】
[0054]下面結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整 地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒?發(fā)明的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施 例,都屬于本發(fā)明的保護范圍。
[0055]圖1為本發(fā)明實施例提供的一種基于eSC和H0G的自適應HMM的手語識別方法的流 程圖。如圖1所示,其主要包括如下步驟:
[0056]步驟S1、對手語的軌跡進行基于密度的采樣處理,再進行形狀上下文特征的提取 并結合金字塔處理方法,獲得包含了空間和時間上信息的eSC特征。
[0057] 本發(fā)明實施例中,為了適應不同人對同一手語詞匯的不同比劃速度,對圖像數(shù)據(jù) 進行了一種基于密度的采樣處理,即在密度小的地方進行差值采樣,使得樣本點更加平滑。 然后,再行形狀上下文特征的提取;再在時間上將動作分成等分段,分別對二分之一段和四 分之一段進行特征提取,將所有特征拼接在一起實現(xiàn)軌跡特征的描述,使得提取出的特征 同時包含了空間和時間上的信息。
[0058] 優(yōu)選的,為了適應不同比劃者的身高臂展等造成的影響,可以對圖像數(shù)據(jù)中獲得 的左右手三維坐標進行歸一化。示例性的,圖像數(shù)據(jù)采集設備可以為微軟的Kinect。
[0059] 歸一化過程如下:記左手的坐標點為l(x,y,z),右手的坐標點為r(X,y,z),頭部的 坐標點為h(x,y,z),左肩膀的坐標點為ls(x,y,z),右肩膀的坐標點為rs(x,y,z);設肩膀的 寬度為w,則每一幀數(shù)據(jù)中左肩膀與右肩膀的空間距離為:
[0060] wHJ&-r5|!2- ^
[0061] 歸一化的方式為左右手相對于頭部的位置,再與用于本身肩寬的比值,假設L和R 分別為歸一化后的左右手坐標點,則通過如下操作實現(xiàn)歸一化處理:
[0064] 歸一化后,則可通過如下三個步驟提取出包含空間和時間信息的eSC特征;下述三 個步驟的示意圖如圖2所示。
[0065] 1)采用基于密度的采樣處理,使得圖像數(shù)據(jù)中手語軌跡點趨于均勻化:a、設定采 樣上界值,初始化手語軌跡Path為原始數(shù)據(jù)歸一化后的坐標點序列;b、計算手語軌跡Path 中相鄰圖像幀的手語軌跡點的平均距離d;c、在相鄰圖像幀的手語軌跡點距離最大且超過 平均距離d的兩個手語軌跡點之間線性插入一個手語軌跡點,并更新Path;d、判斷更新后的 Path中的手語軌跡點總數(shù)是否達到采樣上界值;若是,則停止;若否,則繼續(xù)重復上述步驟b ~d〇
[0066] 示例性的,所述圖像數(shù)據(jù)可以為視頻數(shù)據(jù),若視頻數(shù)據(jù)中每一秒包含30幀圖像,則 每秒鐘可以獲取30個手的坐標點。歸一化后只是在相對位置上進行了不同人的適應。而在 速度上差異只能由采樣來克服。一般情況下,每個手語動作平均3秒(90幀數(shù)據(jù)),最長的數(shù) 據(jù)不會超過5秒,因此,可以設置采樣上界為250個點。本領域技術人員可以理解,上述各個 參數(shù)的具體數(shù)值僅為舉例。
[0067] 2)將采樣處理后的三維數(shù)據(jù)(x,y,z)分成三個兩維數(shù)據(jù):(^7)、(^ 2)與(7,2);分 別獲取每一個二維數(shù)據(jù)的形狀上下文直方圖;將形狀上下文直方圖平面分成t個方向,每個 方向上取s層,所以將空間分成了 tXs個區(qū)域,每個區(qū)域的取值為落在對應區(qū)域中手語軌跡 點的個數(shù);再進行歸一化處理,將三個二維的直方圖連在一起,形成一個能夠描述三維空間 的特征向量。
[0068] 所述t可以為12,s可以為3;本領域技術人員可以理解,這兩個參數(shù)的具體數(shù)值僅 為舉例。
[0069] 3)引入時間金字塔處理方法,來利用時間信息:將圖像數(shù)據(jù)通過前述兩個步驟處 理獲得的三維空間的特征向量記為f 1;將圖像數(shù)據(jù)從時間上劃分為前半部分與后半部分, 再分別對前半部分與后半部分進行上述兩個步驟的處理,處理獲得的三維空間的特征向量 分別記為f 2與f3;再將圖像數(shù)據(jù)從時間上劃分為四個部分,再分別對四個部分進行上述兩個 步驟的處理,處理獲得的三維空間的特征向量分別記為f 4、f 5、f 6與f7 ;
[0070] 最終獲得的獲得包含了空間和時間上信息的eSC特征記為:
[0071] F=(fl,f2,f3,f4,f5,f6,f7)。
[0072] 步驟S2、對于手型特征,通過從圖像數(shù)據(jù)中提取出包含手的矩形框,在框中進行 H0G特征的提取,從而實現(xiàn)對手型特征的描述。
[0073] 本步驟可以分為如下三部進行處理:
[0074] 1)根據(jù)圖像數(shù)據(jù)采集設備的映射函數(shù)(如前所述,圖像數(shù)據(jù)采集設備可以為微軟 的Kinect),找到每一幀圖像中手對應的骨骼點在圖像數(shù)據(jù)中的像素位置,提取出預定大小 且以手為中心的矩形像素框;
[0075] 2)對于每一幀圖像,均從矩形像素框中提取H0G特征,其中,參數(shù)設置為nXn為一 個cell單元,hXh個cell單元組成一個block塊;在每個cell中取p個梯度方向,計算一個直 方圖;每平移一個cell選取一個block,則總共有h Xh Xp個block塊,每個block由h Xh Xp 維直方圖表達,每一幀圖像總共可以獲得(hXhXp)2維的直方圖特征;
[0076] 3)采用PCA(Principal Component Analysis,主成分分析)方法將每一幀圖像的 (hXhXp)2維的直方圖特征降維成W維,其中,W<<(hXhXp)2。
[0077] 本發(fā)明實施例中,可以提取手為中心的70 X 70的矩形像素框,提取HOG特征時,參 數(shù)n可以為10, a可以為2, p可以為9,則每平移一個cell選取一個block,總共有36個block塊 每個block由36維直方圖表達,每一幀圖像總共可以獲得1296維的直方圖特征;采用PCA方 法可以將降維成每只手50維,則每幀圖像包含兩只手,通過100(即W=100)維H0G特征描述。 本領域技術人員可以理解,上述各個參數(shù)的具體數(shù)值僅為舉例。
[0078] 步驟S3、基于提取出的eSC特征與H0G特征建立自適應HMM模型。
[0079] 本發(fā)明實施例中,所建立的自適應HMM模型的參數(shù)為A = (N,M,A,B,JT);
[0080] 其中:
[0081 ] N為隱狀態(tài)參數(shù)數(shù)目,每個模型對應的N可自適應確定,具體的計算方法將在后文 詳細介紹。可記為⑶,&,…,SN)。第i幀的數(shù)據(jù)所處狀態(tài)可以記為qi。
[0082] M為觀察狀態(tài)數(shù)目,計算方法將在后文詳細介紹。
[0083] A為狀態(tài)轉移矩陣,A= (aij)NXN,其中,aij = P(qi+i = Sj | qi = Si),表示從狀態(tài)Si到狀 態(tài)Sj的跳轉概率。
[0084] B為觀察序列概率矩陣,B=(bjk)MXN,其中,bjk = P(0j = Vk|qj = Sj),表示,在qi狀態(tài) 時,觀察序列符號〇j為Vk的概率。其中Vk為已知的模型觀察狀態(tài)。
[0085] JT為初始狀態(tài);可以設置為(1,0,…,0)表示從第一個狀態(tài)開始跳轉。
[0086]該自適應HMM模型的參數(shù)確定后,再利用Baum-We lch學習算法使得模型收斂。
[0087]本發(fā)明所建立的自適應HMM模型,引入了自適應參數(shù)機制,使得每個模型的參數(shù)根 據(jù)手語本身特性自適應而定。
[0088]隱狀態(tài)參數(shù)數(shù)目N確定方法如下:
[0089] 記第i幀圖像的H0G特征為hi,將第i+1幀圖像與第i幀圖像的差值記為di:
[0090] di = hi+i-hi ;
[0091] 則整個圖像數(shù)據(jù)的差值向量D為:
[0092] D=(di,d2,…,cIt-1);
[0093] 式中的T為整個圖像數(shù)據(jù)的總幀數(shù);
[0094] 本發(fā)明實施例中,設置閾值Thresho 1 d (例如,Thresho 1 d = 0.8),將差值向量D中的 各個元素依次與閾值Threshold進行比較,將大于閾值Threshold的記為0,小于閾值 Thre sho Id的記為1,則獲得由0與1組成的序列;利用中值濾波的方法去除單個噪聲,最終獲 得若干個連續(xù)的由1組成的片段;統(tǒng)計片段的數(shù)量并將該數(shù)量作為自適應HMM模型的隱狀態(tài) 參數(shù)數(shù)目N;
[0095] 觀察狀態(tài)的數(shù)目通過校驗獲得,分別對不同的觀察狀態(tài)做測試實驗,取校驗效果 最好的觀察狀態(tài)值。觀察狀態(tài)數(shù)目M的確定方法如下:
[0096] 1)設置初始時觀察狀態(tài)數(shù)值,記eSC特征與H0G初始時觀察狀態(tài)數(shù)值均為m;
[0097] 2)分別取一部分eSC特征和HOG特征聚類,獲得聚類中心,將剩余的特征映射到距 離最近的中心,使得所有的特征可以用有限個類別來表示,也就實現(xiàn)模型中觀察狀態(tài)的表 達;
[0098] 3)分別對eSC和HOG特征利用上述參數(shù)建立自適應HMM模型,利用校驗數(shù)據(jù)求得在 該模型下識別率;
[0099] 4)將eSC特征和/或H0G初始時觀察狀態(tài)數(shù)值m加上步進值m',并重復上述三個步 驟,直至求得的識別率開始遞減,將識別率為最大值時對應的觀察狀態(tài)數(shù)值作為最終結果。
[0100] 本發(fā)明實施例中,可以根據(jù)數(shù)據(jù)集中手語詞匯數(shù)目確定初始觀察狀態(tài)數(shù)值,例如 500個詞匯時,取eSC和H0G特征的初值均為500;所述步進值m'可以設置為100,通過上述步 驟可得eSC特征的觀察狀態(tài)數(shù)值為1900,H0G特征的觀察狀態(tài)數(shù)值為1800。本領域技術人員 可以理解,上述各個參數(shù)的具體數(shù)值僅為舉例。
[0101] 步驟S4、對于待識別的數(shù)據(jù),通過步驟S1與步驟S2提取出eSC特征與H0G特征,再基 于所述自適應HMM模型對待識別的數(shù)據(jù)進行識別,所有模型中給出的最大識別概率對應的 詞匯作為該詞的識別結果,細節(jié)如下所述。
[0102] 本發(fā)明實施例中,對待識別的數(shù)據(jù),通過步驟S1與步驟S2提取出eSC特征與H0G特 征,并根據(jù)自適應HMM模型中觀察狀態(tài)的聚類中心聚類成相應的觀察狀態(tài)數(shù)序列;
[0103] 對獲得的觀察狀態(tài)數(shù)序列,利用自適應的HMM模型得到后驗概率與 盧(0|
[0104] 首先,計算出待識別的數(shù)據(jù)0的eSC特征G與H0G特征H在第i個自適應HMM模型下的 概率p(01 與P(0 I出),由于處理軌跡的采樣使得其與手型長度不一致,因此概率不在一個 量級上,需要進行歸一化處理得到后驗概率| G,丨1與| //,):
[0105] p(〇\Gi) = :' ^P{〇\G:):
[0106] P{〇\ l!.) = !- 々'/)(〇|/:);
[0107] 式中,ll_j與12_j分別表示第j個eSC特征與HOG特征的長度;
[0108] 計算判決概率多(0 |爲):
[0109] ) = >(01 G,.)十 /)(01 丨丨,):
[0110] 則最大的判決概率對應的標號(每個標號對應一個詞語)即為識別結果:
[0111] Index = argi)iax argnwx P (O \ A.) 〇 ()<i-<N 0<i-<N'
[0112] 本發(fā)明實施例的上述方案,利用基于eSC和HOG的自適應HMM模型手語識別方法在 大規(guī)模詞匯的手語識別中識別率顯著提升。一方面,在特征描述與表達上,eSC能夠處理不 同速度造成的差異,時間金字塔能夠將時間信息考慮其中,相比于現(xiàn)有技術,這種特征可以 更加深入地描述軌跡特征。另一方面,在自適應的HMM模型中,不同于現(xiàn)有技術將模型參數(shù) 固定,我們采用自適應參數(shù)對不同的手語進行自適應的建模,進而實現(xiàn)手語識別正確率的 提升。
[0113] 通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到上述實施例可 以通過軟件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)。基于這樣的理解, 上述實施例的技術方案可以以軟件產品的形式體現(xiàn)出來,該軟件產品可以存儲在一個非易 失性存儲介質(可以是CD-ROM,U盤,移動硬盤等)中,包括若干指令用以使得一臺計算機設 備(可以是個人計算機,服務器,或者網絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。
[0114]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此, 任何熟悉本技術領域的技術人員在本發(fā)明披露的技術范圍內,可輕易想到的變化或替換, 都應涵蓋在本發(fā)明的保護范圍之內。因此,本發(fā)明的保護范圍應該以權利要求書的保護范 圍為準。
【主權項】
1. 一種基于esc和HOG的自適應HMM的手語識別方法,其特征在于,包括: 步驟S1、對手語的軌跡進行基于密度的采樣處理,再進行形狀上下文特征的提取并結 合金字塔處理方法,獲得包含了空間和時間上信息的eSC特征; 步驟S2、對于手型特征,通過從圖像數(shù)據(jù)中提取出包含手的矩形框,在框中進行HOG特 征的提取,從而實現(xiàn)對手型特征的描述; 步驟S3、基于提取出的eSC特征與HOG特征建立自適應HMM模型; 步驟S4、對于待識別的數(shù)據(jù),通過步驟Sl與步驟S2提取出eSC特征與HOG特征,再基于所 述自適應HMM模型對待識別的數(shù)據(jù)中提取出的eSC特征與HOG特征進行識別,獲得識別結果。2. 根據(jù)權利要求1所述的方法,其特征在于,所述對手語的軌跡進行基于密度的采樣處 理后,進行形狀上下文特征的提取并結合金字塔處理方法,獲得包含了空間和時間上信息 的eSC特征包括: 采用基于密度的采樣處理,使得圖像數(shù)據(jù)中手語軌跡點趨于均勻化:a、設定采樣上界 值,初始化手語軌跡Path為原始數(shù)據(jù)歸一化后的坐標點序列;b、計算手語軌跡Path中相鄰 圖像幀的手語軌跡點的平均距離d;c、在相鄰圖像幀的手語軌跡點距離最大且超過平均距 離d的兩個手語軌跡點之間線性插入一個手語軌跡點,并更新Path;d、判斷更新后的Path中 的手語軌跡點總數(shù)是否達到采樣上界值;若是,則停止;若否,則繼續(xù)重復上述步驟b~d; 將采樣處理后的三維數(shù)據(jù)(x,y,z)分成三個兩維數(shù)據(jù):(^7)、(^2)與(7, 2);分別獲取 每一個二維數(shù)據(jù)的形狀上下文直方圖;將形狀上下文直方圖平面分成t個方向,每個方向上 取s層,所以將空間分成了 tXs個區(qū)域,每個區(qū)域的取值為落在對應區(qū)域中手語軌跡點的個 數(shù);再進行歸一化處理,將三個二維的直方圖連在一起,形成一個能夠描述三維空間的特征 向量; 引入時間金字塔處理方法,來利用時間信息:將圖像數(shù)據(jù)通過前述兩個步驟處理獲得 的三維空間的特征向量記為f1;將圖像數(shù)據(jù)從時間上劃分為前半部分與后半部分,再分別 對前半部分與后半部分進行上述兩個步驟的處理,處理獲得的三維空間的特征向量分別記 為f 2與f3;再將圖像數(shù)據(jù)從時間上劃分為四個部分,再分別對四個部分進行上述兩個步驟的 處理,處理獲得的三維空間的特征向量分別記為f 4、ft、f 6與f7 ; 最終獲得的獲得包含了空間和時間上信息的eSC特征記為: F=(fl,f2,f3,f4,f5,f6,f7)〇3. 根據(jù)權利要求1或2所述的方法,其特征在于,對手語的軌跡進行基于密度的采樣處 理之前還對圖像數(shù)據(jù)進行歸一化處理,其包括: 歸一化的方式為左右手相對于頭部的位置,再與用于本身肩寬W的比值,假設L和R分別 為歸一化后的左右手坐標點,則通討如下操作賣現(xiàn)伯一化處理:4. 根據(jù)權利要求1所述的方法,其特征在于,所述對于手型特征,通過從圖像數(shù)據(jù)中提 取出包含手的矩形框,在框中進行HOG特征的提取,從而實現(xiàn)對手型特征的描述包括: 根據(jù)圖像數(shù)據(jù)采集設備的映射函數(shù),找到每一幀圖像中手對應的骨骼點在圖像數(shù)據(jù)中 的像素位置,提取出預定大小且以手為中心的矩形像素框; 對于每一幀圖像,均從矩形像素框中提取HOG特征,其中,參數(shù)設置為nXn為一個cell 單元,h X h個cel 1單元組成一個block塊;在每個cel 1中取p個梯度方向,計算一個直方圖; 每平移一個cel 1選取一個block,則總共有h X h X p個block塊,每個block由h X h X p維直方 圖表達,每一幀圖像總共可以獲得(hXhXp)2維的直方圖特征; 采用PCA方法將每一幀圖像的(hXhXp)2維的直方圖特征降維成W維,其中,W<<(hXh Xp)2。5. 根據(jù)權利要求1或2或4所述的方法,其特征在于,基于提取出的eSC特征與HOG特征建 立自適應HMM模型包括: 所建立的自適應HMM模型的參數(shù)為λ= (N,M,A,B,JT);式中,N為隱狀態(tài)參數(shù)數(shù)目,M為觀 察狀態(tài)數(shù)目,A為狀態(tài)轉移矩陣,B為觀察序列概率矩陣,π為初始狀態(tài); 其中,隱狀態(tài)參數(shù)數(shù)目N確定方法如下: 記第i幀圖像的HOG特征為lu,將第i+Ι幀圖像與第i幀圖像的差值記為d1: di = hi+i_hi; 則整個圖像數(shù)據(jù)的差值向量D為: D= (di,d2, ·' ,cIt-i); 式中的T為整個圖像數(shù)據(jù)的總幀數(shù); 設置閾值Thr e sho I d,將差值向量D中的各個元素依次與閾值Thr e sho I d進行比較,將大 于閾值Threshold的記為0,小于閾值Threshold的記為1,則獲得由0與1組成的序列;利用中 值濾波的方法去除單個噪聲,最終獲得若干個連續(xù)的由1組成的片段;統(tǒng)計片段的數(shù)量并將 該數(shù)量作為自適應HMM模型的隱狀態(tài)參數(shù)數(shù)目N; 觀察狀態(tài)數(shù)目M的確定方法如下: 設置初始時觀察狀態(tài)數(shù)值,記eSC特征與HOG初始時觀察狀態(tài)數(shù)值均為m; 分別取一部分eSC特征和HOG特征聚類,獲得聚類中心,將剩余的特征映射到距離最近 的中心,使得所有的特征能夠用有限個類別來表示,從而實現(xiàn)觀察狀態(tài)的表達; 分別對eSC和HOG特征利用上述五個參數(shù)建立自適應HMM模型,利用校驗數(shù)據(jù)求得識別 率; 將eSC特征和/或HOG初始時觀察狀態(tài)數(shù)值m加上步進值m',并重復上述三個步驟,直至 求得的識別率開始遞減,將識別率為最大值時對應的觀察狀態(tài)數(shù)值作為最終結果。6. 根據(jù)權利要求5所述的方法,其特征在于,所述對于待識別的數(shù)據(jù),通過步驟Sl與步 驟S2提取出eSC特征與HOG特征,再基于所述自適應HMM模型對待識別的數(shù)據(jù)中提取出的eSC 特征與HOG特征進行識別,獲得識別結果包括: 對待識別的數(shù)據(jù),通過步驟Sl與步驟S2提取出eSC特征與HOG特征,并根據(jù)自適應HMM模 型中觀察狀態(tài)的聚類中心聚類成相應的觀察狀態(tài)數(shù)序列; 對獲得的觀察狀態(tài)數(shù)序列,利用自適應的HMM模型得到后驗概率/5(01 q ;)與1 //,_):式中,P(〇 I Gi)與P(0 I Hi)分別表示待識別的數(shù)據(jù)0的eSC特征G與HOG特征H在第i個模型 下的概率;ll_j與12_j分別表示第j個eSC特征與HOG特征的長度; 計算判決概率Μομ,)·則最大的判決概率為:)對應的標號即為識別結果,其中每一標號均對應一個詞語:
【文檔編號】G06K9/00GK105893942SQ201610186434
【公開日】2016年8月24日
【申請日】2016年3月25日
【發(fā)明人】周文罡, 張繼海, 李厚強
【申請人】中國科學技術大學