基于口型識別的視頻編排方法

文檔序號：6551911閱讀：298來源：國知局

基于口型識別的視頻編排方法
【專利摘要】本發(fā)明公開了一種基于口型識別的視頻編排方法。本發(fā)明根據(jù)彩色圖像中色調(diào)(H)、飽和度(S)、亮度(V)分量在唇色和膚色區(qū)域分布的差異，選擇3個顏色特征向量，利用Fisher分類器分類并閾值分割后的二值圖像進行濾波和區(qū)域連通處理；將嘴唇特征與素材庫中動畫圖片嘴唇特征相匹配；最后通過圖像插值合成兩幀之間過渡圖像，以實現(xiàn)視頻的自動編排。本發(fā)明合理選擇HSV顏色空間中的顏色信息構(gòu)建Fisher分類器，從而獲得更多的信息量對唇色和膚色區(qū)域進行分割，增強了在復雜環(huán)境下嘴部匹配特征提取的可靠性和自適應性。并且，采用圖像插值技術(shù)，生成兩幅匹配視頻幀畫面之間的過渡圖像，增強了視頻編排的靈敏度與可觀賞性，使視頻內(nèi)容更流暢與完整。
【專利說明】基于口型識別的視頻編排方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像處理以及計算機視覺領(lǐng)域。具體來說，通過對面部嘴唇進行分割，提取匹配特征，從而對輸出圖像進行重新編排，達到輸出圖像嘴部運動與實際檢測人物嘴部運動相一致的效果。

【背景技術(shù)】
[0002] 隨著圖像處理技術(shù)以及視頻編排技術(shù)的發(fā)展，研究者將圖像分割技術(shù)應用到視頻畫面編排中，為觀眾提供了更真實生動的觀賞體驗。
[0003] 在動畫視頻中，動畫人物需要與真實人類高度協(xié)調(diào)一致，無論是面部表情，肢體動作抑或是發(fā)聲方式。其中，動畫人物發(fā)聲時的口型動作，也需要與真實人類相一致，而不是簡單的張開閉合。傳統(tǒng)的制作方法，以普通話為例，根據(jù)其聲母、韻母的發(fā)聲方式，分別總結(jié) 出與26個字母相對應的嘴唇動作特征，再按照各自特征進行嘴唇模型的繪制。這種方式確保了動畫人物發(fā)聲時嘴部動作與發(fā)聲的高度一致，十分逼真。但是，這種方式重復作業(yè)量大，即使是相同場景相同人物相同發(fā)音，只要時間不同，都需要重新繪制。再加上觀眾對嘴部動作的區(qū)分度主要表現(xiàn)在嘴唇的張開閉合尺度上，對其向兩側(cè)拉伸情況，內(nèi)部舌頭運動等要求不高，因此本發(fā)明引入嘴唇分割技術(shù)來實現(xiàn)視頻編排，在保證逼真度的基礎(chǔ)上，提高視頻畫面的反復利用，大大提升了工作效率，降低了資源浪費。
[0004] 圖像分割就是把圖像分成若干個特定的、具有獨特性質(zhì)的區(qū)域，并提出感興趣目標的過程。它是由圖像處理到圖像分析的關(guān)鍵步驟?，F(xiàn)有的圖像分割方法主要分為以下幾類：基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。圖像分割后提取出的目標可以用于目標跟蹤、圖像搜索、圖像語義識別等多個領(lǐng)域。
[0005] 目前，嘴唇分割技術(shù)主要分為2類：一類是基于灰度圖像的方法；而另一類是基于彩色圖像的方法。前者比較常用的是基于Snake模型的嘴部邊緣提取算法，但其計算復雜度高，容易受到嘴部周圍胡須組織的干擾，且在光照變化的情況下，常造成嘴部邊緣缺失和梯度較弱的缺陷。后者由于彩色圖像能夠提供更豐富、全面的信息，已越來越受到人們的重視。如Alan等提出利用CIELAB顏色空間和模糊聚類的方法對嘴唇區(qū)域進行分割；張志文等利用直方圖分析R、G、B色度分量在膚色和唇色中的分布特性，提供了一種唇部檢測算法。但是，它們僅使用色度差異顏色特征向量，其適應能力和魯棒性均較差。此外，視頻編排領(lǐng)域?qū)崟r性要求較高，輸出畫面稍有延時即會造成不好的觀賞體驗。
[0006] 基于上述情況，亟需一種算法簡單，實時性強、準確性高的嘴唇分割技術(shù)用于視頻編排中。

【發(fā)明內(nèi)容】

[0007]本發(fā)明目的在于解決以上問題，提供了一種基于口型識別的視頻編排方法，提高嘴唇檢測的自適應性和魯棒性，滿足視頻編排對實時性的要求。方法根據(jù)彩色圖像中色調(diào) (Η)、飽和度（S)、亮度（V)分量在唇色和膚色區(qū)域分布的差異，選擇3個顏色特征向量，利用Fisher分類器進行閾值分類；將分類得到的二值化圖像進行濾波和區(qū)域連通處理，通過設(shè)置flag值確定嘴唇邊界，從而提取嘴唇匹配特征；然后將嘴唇匹配特征值與素材庫中動物視頻圖像嘴唇特征相匹配；最后通過圖像插值技術(shù)實現(xiàn)視頻圖像自動編排。
[0008]本申請?zhí)峁┑幕诳谛妥R別的視頻編排方法，包括步驟：（D采集原始圖像；(2) 獲取視頻信息的當前幀；（3)人臉檢測；(4)根據(jù)先驗知識框選出嘴唇感興趣區(qū)域（ROI); (5)在ROI基礎(chǔ)上進行嘴唇區(qū)域檢測；( 6)確定嘴唇邊界并確定檢測圖像與視頻編排圖像的匹配特征；(7)采用圖像插值技術(shù)，插值出兩幅圖像中間的過渡圖像并輸出，以此實現(xiàn)視頻自動編排；其中嘴唇區(qū)域檢測進一步包括創(chuàng)建基于HSV空間模型的圖像，運用基于HSV顏色空間模型來訓練Fisher分類器，基于訓練好的Fisher分類器對ROI逐像素進行閾值分類。 [0009]所述的視頻編排方法，其中原始圖像采集是利用direct show下的CCameraDS類進行的，采集步驟還包括獲取攝像頭數(shù)目，并為系統(tǒng)分配相應內(nèi)存。
[0010]所述的視頻編排方法，在采集原始圖像的步驟之后，還包括獲取所有攝像頭名稱，并通過窗口顯示，以及通過設(shè)置錯誤返回，檢測攝像頭是否正常工作的步驟。
[0011]所述的視頻編排方法，在上述檢測攝像頭的步驟后還包括打開第一個攝像頭，彈出屬性選擇窗口，進行視頻編碼以及視頻壓縮率設(shè)置的步驟。
[0012]所述的視頻編排方法，在獲取視頻信息的當前幀的步驟之后，還包括創(chuàng)建 CvVideoWriter對象，為其分配內(nèi)存空間，以及保存視頻編碼的步驟；保存的文件大小為攝像頭視頻大小，幀頻率為32幀/秒。
[0013] 所述的視頻編排方法，在人臉檢測中調(diào)入detect_and_draw()函數(shù)，具體步驟為：首先創(chuàng)建單通道、8位數(shù)灰度圖像，圖像的寬度、高度與待檢測圖像一致；再創(chuàng)建縮放比例為原圖的1/1.3倍的小圖smalljmg，在創(chuàng)建小圖的過程中，引入cvRoundO函數(shù)，實現(xiàn)對一個double型數(shù)值的四舍五入，并輸出整數(shù)型數(shù)值；將待檢測圖像轉(zhuǎn)換為灰度圖，調(diào) 用cvResizeO函數(shù)，利用雙線性插值法，經(jīng)過縮放變換，將待檢測圖像所生成灰度圖匹配成小圖small_img ;對小圖small jmg進行均衡化處理，增強圖像亮度以及對比度；創(chuàng)建 cvHaarDetectObjects 序列檢測人臉。
[0014] 所述的視頻編排方法，調(diào)用OnSkincolorDetectionO函數(shù)在R0I基礎(chǔ)上進行嘴唇區(qū)域檢測，嘴唇區(qū)域檢測還包括創(chuàng)建膚色圖cvCreateO。
[0015] 所述的視頻編排方法，在利用Fisher分類器進行閾值分類后，還包括對圖像進行二值化的步驟，然后對二值化圖像進行平滑濾波以及膨脹處理，獲取二值化圖像最大連通域的步驟，以更好地去除椒鹽噪聲的干擾。
[0016] 所述的視頻編排方法，其中確定嘴唇邊界并確定圖像匹配特征的步驟，具體包括：遍歷二值化圖像，檢測上嘴唇上邊緣以及下嘴唇下邊緣像素點，提取高度差作為圖像匹配特征，并與素材庫中視頻畫面進行匹配，作為圖像插值前后幀。
[0017] 所述的視頻編排方法，其中確定嘴唇邊界的步驟具體為：首先定義標記變量 flag，并賦初值為0,用以標識邊緣像素點；由左上角至右下角按列逐個遍歷每個像素點；若像素值由255變?yōu)?則flag置為1，由此確定上邊緣點以及左邊緣點；若像素值由〇變為255則flag置為0,由此確定下邊緣點以及右邊緣點。
[0018] 本發(fā)明對比現(xiàn)有技術(shù)，具有如下有益效果：本發(fā)明基于唇色和膚色分布差異，考慮周圍關(guān)系干擾，合理選擇HSV顏色空間中的顏色信息構(gòu)建Fisher分類器，從而獲得更多的信息量，以對唇色和膚色區(qū)域進行分割，增強了在復雜環(huán)境下嘴唇特征匹配的自適應性和魯棒性；以及采用圖像插值技術(shù)，生成兩幅匹配視頻圖像之間的過渡圖像，增強了視頻編排的靈敏度與可觀賞性，使視頻內(nèi)容播放更流暢與完整。

【專利附圖】

【附圖說明】
[0019] 下面結(jié)合附圖對本發(fā)明的【具體實施方式】作進一步詳細地說明，其中：
[0020] 圖1示例性的示出了本發(fā)明的整體流程；
[0021] 圖2-a示例性的示出了人臉檢測并確定R0I感興趣區(qū)域算法流程圖；
[0022] 圖2-b示例性的示出了嘴部感興趣區(qū)域；
[0023] 圖3示例性的示出了利用Fisher分類器進行唇色與膚色分類，并二值化檢測圖像算法流程圖；
[0024]圖4_a示例性的示出了嘴唇邊界確定算法流程圖；
[0025]圖4_b示例性的示出了獲取最大連通域前后的二值化圖像效果比對圖；
[0026]圖5-a示例性的示出了根據(jù)匹配特征進行視頻圖像輸出算法流程圖；
[0027]圖5-b示例性的示出了樹懶運動視頻提取畫面；
[0028]圖6-a示例性的示出了通過圖像插值技術(shù)合成過渡圖像并合成最終效果算法流程圖；
[0029] 圖6_b示例性的示出了單特征線對的圖像變形；
[0030] 圖6-c示例性的示出了生成過渡圖像效果對比圖；
[0031]圖7示例性的示出了本發(fā)明在視頻編排中的輸出效果展示。

【具體實施方式】
[0032] 下面結(jié)合附圖和實施例對本發(fā)明作進一步的描述。
[0033] 本發(fā)明提供了一種基于HSV顏色空間Fisher分類器的嘴唇分割算法并利用其進行視頻編排的方法，圖1所示為整體流程圖。
[0034] 本實施例中，在系統(tǒng)啟動以后，首先在步驟S101中采用direct show的CCameraDS 類進行原始圖像采集，獲取攝像頭數(shù)目，并為系統(tǒng)分配相應內(nèi)存空間。若存在攝像頭，則進入步驟S102打開第一個攝像頭，彈出屬性選擇窗口，進行視頻編碼以及視頻壓縮率設(shè)置；否則，若攝像頭數(shù)目為〇，則錯誤返回，程序終止。
[0035] 在步驟S103中，首先獲取攝像頭獲得視頻信息的當前幀，創(chuàng)建cvVideoWriter對象并分配內(nèi)存空間，保存文件名為"camera, avi"，文件大小為攝像頭視頻大小，幀率為32幀 /秒。然后判斷視頻幀是否寫入成功，若成功則返回1，并將當前幀作為待檢測變量進入步驟 S104。
[0036] 在步驟S104中調(diào)用detect_and_draw()函數(shù)進行人臉檢測，并框選感興趣區(qū) 域。其中通過訓練和加載級聯(lián)"haarcascade_frontalface_alt2x. ml〃分類器進行人臉檢測，再根據(jù)先驗知識，在人臉檢測基礎(chǔ)上，在檢測圖像面部區(qū)域框選出嘴唇分割感興趣區(qū)域 R0I，并通過cvSetlmageROI ()設(shè)置選框?qū)傩浴?br> [0037] 隨后，在步驟S105中，以R0I為待檢測圖像，調(diào)用OnSkincolorDetectionO函數(shù) 進行嘴唇分割，并生成二值化圖像。這里運用基于HSV顏色空間模型來訓練Fisher分類器，能更好的區(qū)分膚色和唇色區(qū)域。
[0038]生二值化圖像確定后，進入步驟S106,確定嘴唇邊界，并通過上嘴唇上邊緣與下嘴唇下邊緣高度差，確定檢測圖像與視頻編排圖像的匹配特征。在步驟S107中，對手動標記好的視頻編排圖像進行查找選擇并輸出。
[0039]最后在步驟S108中，將在步驟Sl〇7中獲得的匹配圖像作為前后插值圖像幀，利用圖像插值算法生成中間過渡圖像并輸出，完成視頻圖像的自動編排。
[0040]圖2-a示例性的示出了人臉檢測并確定R0I感興趣區(qū)域算法流程圖。其中，步驟S201讀取當前視頻幀，步驟S2〇la將待檢測圖像轉(zhuǎn)化為灰度圖，步驟S201b調(diào)用 cvResize()函數(shù)，利用雙線性插值法，經(jīng)過縮放變換，將待檢測圖像所生成灰度圖按原比例匹配為1/1. 3倍的小圖small jmg。隨后在步驟S202中，對小圖進行均衡化處理，增強圖像売度以及對比度。步驟S2〇3中首先載入'Tiaarcascade_fromalface_alt2x.ml"分類器，再創(chuàng)建cvHaarDetectObjects序列進行人臉檢測：
[0041] CvSeq*objects = cvHaarDetectObjects(small_img，cascade, storage，1· 1，2， 0, cvSize(30,30))〇
[0042] 其中，cascade為分類器級聯(lián)的內(nèi)部標識形式；storage用來存儲檢測到的一序列候選目標矩形的內(nèi)存區(qū)域；"1. 1"用來設(shè)置在前后兩次相繼掃描中搜索窗口的比例系數(shù)，具體表示將搜索窗口依次擴大1〇%;"2"構(gòu)成檢測目標的相鄰矩形的最小個數(shù)（缺省-1)，如果組成檢測目標的小矩形的個數(shù)和小于"min_neighbors-1"則都會被排除，若min_ neighbors為0,則函數(shù)不做任何操作就返回所有的被檢測候選矩形框，這種設(shè)定值一般用在用戶自定義對檢測結(jié)果的組合程序上；"0"代表操作方式，當前唯一可以定義的操作方式是CV_HAAR_D0_CANNY_PRUNING，函數(shù)利用Canny邊緣檢測器來排除一些邊緣很少或者很多的圖像區(qū)域，因為這樣的區(qū)域一般不含被檢測目標，人臉檢測中通過設(shè)定閾值使用了這種方法，并提高了檢測速度；cvSizeO函數(shù)用來設(shè)置檢測窗口的最小尺寸，缺省的情況下被設(shè)為分類器訓練時采用的樣本尺寸。
[0043] 步驟S204中，假定臉部圖像的坐標原點A在左上角，根據(jù)嘴部區(qū)域在人臉幾何分布上的先驗知識，在人臉檢測的基礎(chǔ)上，將式（1)確定的檢測區(qū)域EFGH作為嘴部的感興趣區(qū)域，并將EFHG區(qū)域用綠色框框選出來，如圖2-b所示。
[0044]

【權(quán)利要求】
1. 基于口型識別的視頻編排方法，其特征在于，包括以下步驟：（1)采集原始圖像；（2) 獲取視頻信息的當前幀；（3)人臉檢測；（4)根據(jù)先驗知識框選出嘴唇感興趣區(qū)域（ROI); (5)在ROI基礎(chǔ)上進行嘴唇區(qū)域檢測；(6)確定嘴唇邊界并確定檢測圖像與視頻編排圖像的匹配特征；（7)采用圖像插值技術(shù)，插值出兩幅圖像中間的過渡圖像并輸出，以此實現(xiàn)視頻自動編排；其中嘴唇區(qū)域檢測進一步包括創(chuàng)建基于HSV空間模型的圖像，運用基于HSV顏色空間模型來訓練Fisher分類器，基于訓練好的Fisher分類器對ROI逐像素進行閾值分類。
2. 根據(jù)權(quán)利要求1所述的視頻編排方法，其特征在于，圖像采集步驟還包括獲取攝像頭數(shù)目，并為系統(tǒng)分配相應內(nèi)存。
3. 根據(jù)權(quán)利要求1所述的視頻編排方法，其特征在于，在采集原始圖像的步驟之后，還包括獲取所有攝像頭名稱，并通過窗口顯示，通過設(shè)置錯誤返回，檢測攝像頭是否正常工作的步驟。
4. 根據(jù)權(quán)利要求3所述的視頻編排方法，其特征在于，在檢測攝像頭的步驟之后，還包括打開第一個攝像頭，彈出屬性選擇窗口，進行視頻編碼以及視頻壓縮率設(shè)置的步驟。
5. 根據(jù)權(quán)利要求1所述的視頻編排方法，其特征在于，在獲取視頻信息的當前幀的步驟之后，還包括創(chuàng)建CvVideoWriter對象，為其分配內(nèi)存空間，以及保存視頻編碼的步驟；保存的文件大小為攝像頭視頻大小，幀頻率為32幀/秒。
6. 根據(jù)權(quán)利要求1所述的視頻編排方法，其特征在于，人臉檢測中調(diào)入deteCt_and_ draw〇函數(shù)，人臉檢測的具體步驟為：首先創(chuàng)建單通道、8位數(shù)灰度圖像，圖像的寬度、高度與待檢測圖像一致；再創(chuàng)建縮放比例為原圖的1/1. 3倍的小圖small_img ;將待檢測圖像轉(zhuǎn) 換為灰度圖，調(diào)用cvResizeO函數(shù)，利用雙線性插值法，經(jīng)過縮放變換，將待檢測圖像所生成灰度圖匹配成小圖small_img ;對小圖small_img進行均衡化處理，增強圖像亮度以及對比度；倉ll建cvHaarDetectObjects序列檢測人臉。
7. 根據(jù)權(quán)利要求1所述的視頻編排方法，其特征在于，嘴唇區(qū)域檢測還包括創(chuàng)建膚色圖 cvCreate ()。
8. 根據(jù)權(quán)利要求1所述的視頻編排方法，其特征在于，在利用Fisher分類器進行閾值分類后，對圖像進行二值化，再對二值化圖像進行平滑濾波以及膨脹處理，獲取二值化圖像最大連通域。
9. 根據(jù)權(quán)利要求1所述的視頻編排方法，其特征在于，確定嘴唇邊界并確定圖像匹配特征具體包括步驟：遍歷二值化圖像，檢測上嘴唇上邊緣以及下嘴唇下邊緣像素點，提取高度差作為圖像匹配特征，并與素材庫中視頻畫面進行匹配，作為圖像插值前后幀。
10. 根據(jù)權(quán)利要求1所述的視頻編排方法，其特征在于，確定嘴唇邊界的步驟具體為：首先定義標記變量flag，并賦初值為0,用以標識邊緣像素點；由左上角至右下角按列逐個遍歷每個像素點；若像素值由255變?yōu)?則flag置為1,由此確定上邊緣點以及左邊緣點；若像素值由〇變?yōu)?55則flag置為0,由此確定下邊緣點以及右邊緣點。
【文檔編號】G06K9/46GK104298961SQ201410310093
【公開日】2015年1月21日申請日期:2014年6月30日優(yōu)先權(quán)日:2014年6月30日
【發(fā)明者】徐品, 藍善禎, 張岳, 王爽, 張宜春申請人:中國傳媒大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐品;藍善禎;張岳;王爽;張宜春
技術(shù)所有人：中國傳媒大學
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

漢語拼音發(fā)音口型視頻相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于口型識別的視頻編排方法