一種人體口型視頻重構系統(tǒng)與重構方法

文檔序號：6526634閱讀：168來源：國知局

一種人體口型視頻重構系統(tǒng)與重構方法
【專利摘要】本發(fā)明提供一種基于環(huán)形彈性空間動力學時間演化的人體口型視頻重構系統(tǒng)及相應的方法。本發(fā)明方法包括信息讀入、預處理、口型重構和視頻輸出這四個步驟，有關聯(lián)反演法和邏輯修正法兩種實現(xiàn)方式。本發(fā)明提供的重構方法及系統(tǒng)既可以在該單幀圖像上實現(xiàn)讀入口型信息的反演，生成重構后的人體口型視頻，也可以在多幀圖像組成的視頻上實現(xiàn)讀入口型信息的修正，生成重構后的人體口型視頻。相比傳統(tǒng)的口型重構方法及系統(tǒng)，本發(fā)明方法和系統(tǒng)準確高效，無需數(shù)據(jù)庫，在節(jié)省了空間的同時也增強了口型變換的靈活度。更優(yōu)選地，本發(fā)明的系統(tǒng)的所有單元可以集成在一個智能終端上，所述的智能終端可以是各種智能手機、平板電腦（如iPad等）、掌上電腦、智能掌上游戲機等。
【專利說明】一種人體口型視頻重構系統(tǒng)與重構方法
【技術領域】
[0001]本發(fā)明涉及視頻圖像處理領域，具體涉及一種基于環(huán)形彈性空間動力學時間演化的人體口型視頻重構系統(tǒng)及重構方法。
【背景技術】
[0002]隨著計算機技術的發(fā)展和日趨完善，人臉的造型和動畫作為計算機圖形學中的一個獨特分支也越來越受到人們的關注，其中針對視頻、圖像中人體口型的變化更是有廣泛的應用。許多場合需要將現(xiàn)有的視頻或圖像中的人的口型進行重構，即由一張靜止的圖像生成一系列口型動作，或?qū)ΜF(xiàn)有視頻里的口型進行修正。為了達到這樣的目的，現(xiàn)有的技術方法一般都是通過對已有的大量視頻圖像信息加以分析處理，建立口型數(shù)據(jù)庫，再針對具體問題進行從所述的口型數(shù)據(jù)庫中調(diào)用相關的信息。這樣的技術手段雖然能夠較為準確地對視頻、圖像中的人體口型進行變換，但是它的局限性也是明顯的。一方面，它的實現(xiàn)依賴于事先構建好的龐大的口型數(shù)據(jù)庫，需要規(guī)模巨大的數(shù)據(jù)樣本，可移植性較差；另一方面，算法的實現(xiàn)涉及大量的計算分析，復雜度很高，也限制了它的應用范圍。

【發(fā)明內(nèi)容】

[0003]針對現(xiàn)有技術的不足，本發(fā)明所要解決的技術問題是提供一種精度高、可移植性好的人體口型視頻重構方法和系統(tǒng)，以根據(jù)所需要的口型實現(xiàn)目標對象單幀圖像向視頻的演化，或?qū)崿F(xiàn)目標對象多幀圖像組成的視頻的修改和反演。傳統(tǒng)的口型變換技術依賴于龐大的口型數(shù)據(jù)庫，該口型數(shù)據(jù)庫中包含了語音庫以及與之對應的口型圖像，以便于在變換中加以調(diào)用，一方面占用了大量的空間；另一方面由于該口型數(shù)據(jù)庫本身不能自主構建出新的口型，實際運用中無法處理數(shù)據(jù)庫中未包含口型的變換問題。本發(fā)明系統(tǒng)區(qū)別于傳統(tǒng)的口型變換系統(tǒng)，不需要這樣的口型數(shù)據(jù)庫，即可快速、準確地完成人體口型的視頻重構。
[0004]本發(fā)明采用的技術方案如下:
一種人體口型視頻重構方法，具體包括以下四個步驟:
(1)信息讀入:從輸入口讀入人體信息和口型信息，所述的人體信息選自目標對象的單幀圖像或多幀圖像組成的視頻，所述的口型信息選自文字、聲音、圖像、視頻的任意一種或任意多種；
(2)預處理:對輸入口讀入的口型信息進行識別轉(zhuǎn)換并將識別轉(zhuǎn)換后的口型信息在顯示模塊實時顯示，并對輸入口讀入的人體信息進行分析并鎖定口部的位置；
(3)口型重構:基于環(huán)形彈性空間動力學的時間演化法，根據(jù)預處理后的口型信息和人體信息進行人體口型視頻重構；
(4)視頻輸出:在輸出口輸出重構完成后的人體口型視頻。
[0005]本發(fā)明技術方案的流程圖如圖1所示。
[0006]所述的步驟(3)中，所述口型重構的方法是基于環(huán)形彈性空間動力學時間演化。所述的環(huán)形彈性空間是一種定義了點的順序和距離的平面空間，其具有以下4條性質(zhì):1、環(huán)形彈性空間里的任意兩點P1和P2，其間距離可變。
[0007]2、環(huán)形彈性空間里的任意兩點P1和P2，其順序嚴格不變，即:選取環(huán)形彈性空間里異于PpP2的任一點P3,這三點順時針(或逆時針)的順序在任意變換中都不會發(fā)生變化。
[0008]3、環(huán)形彈性空間里的任意一點P可以受與水平軸夾角為α、大小為f的力F的作用，并因此產(chǎn)生位置上的變化，表現(xiàn)為相對原始位置沿與水平軸夾角為α的方向產(chǎn)生一定的位移。
[0009]4、當環(huán)形彈性空間里的任意一點P受到一個力F的作用時，該力F在影響P的同時也會影響到環(huán)形彈性空間中其他的點，使其等同于受到一個與水平軸夾角為^、大小為f‘的力的作用，稱作關聯(lián)作用。該點相對于P的空間位置決定了 α,的大小，該點和P的距離決定了 f,的大小，當該點和P的距離大于的影響范圍R時，認為其不受力F的關聯(lián)作用影響。
[0010]環(huán)形彈性空間示意圖如圖2所示。
[0011]口型的變換是唇部的口輪匝肌由面神經(jīng)頰支支配牽動產(chǎn)生，因此對于口型可以建立所述的環(huán)形彈性空間模型來研究。當t時刻口型發(fā)生變化，可以認為是此時該環(huán)形彈性空間上某η個點P1, P2,…，Pn分別受到了力F1, F2,…，F(xiàn)n的作用，這η個力的共同作用使得該環(huán)形彈性空間發(fā)生局部的位移、旋轉(zhuǎn)或拉伸，即產(chǎn)生口型的變換。所述的步驟(3)中，系統(tǒng)處理模塊能辨識出視頻、圖像中口型的位置和基于時間序列的變化，建立對應的環(huán)形彈性空間模型，提取出各個t時刻在該模型各個區(qū)域上產(chǎn)生的力的作用。同時，再利用所述的人體信息建立新的環(huán)形彈性空間模型，將所提取出的力按照對應時間作用在新的環(huán)形彈性空間模型上的對應位置，即可完成人體口型視頻重構。所述的對應位置可以通過口型的4條輪廓線及輪廓線上的特征點確定，為了保證變換的精度，實際操作中每條輪廓線上的特征點應大于等于3個，如圖3所示。所述的確定對應位置的過程即為基于環(huán)形彈性空間的關聯(lián)。
[0012]作為優(yōu)選，所述的步驟(3)中的基于環(huán)形彈性空間動力學時間演化法為關聯(lián)反演法，即由現(xiàn)場真人作為同步對象模擬顯示模塊顯示出的口型信息，再通過實時采集模塊采集模擬視頻，和已經(jīng)讀取的人體信息進行基于環(huán)形彈性空間的匹配，從而完成人體口型視頻的重構。如圖4所示，本方法中，同步對象現(xiàn)場模擬待重構的口型信息，這一過程作為模擬視頻被采集，基于該模擬視頻建立環(huán)形彈性空間模型然后對其進行分析處理，即可使待重構的口型信息被準確、高效地重現(xiàn)在目標對象的人體信息上，從而實現(xiàn)該口型在目標對象口部的重構。本方法流程示意圖如圖6所示。具體地，同步對象根據(jù)顯示模塊顯示出的口型信息模擬口型，例如，讀出顯示的一段文字或模仿顯示的若干口型圖片，此時，處理模塊控制實時采集模塊采集同步對象的模擬視頻，作為口型重構的依據(jù)。采集完成后，處理模塊將采集到的模擬視頻按照一定的幀數(shù)N平均分割為η幀(當所述的樣例口型視頻時長為T秒時，有η=ΤΝ)，分別對應時間t1; t2，…，tn，定位每一幀的口型，并且把口型的輪廓和特征點和已經(jīng)讀取的人體信息中口型的輪廓和特征點進行聯(lián)動對應。所述的幀數(shù)N可根據(jù)實際情況確定，要滿足采樣定理以保證分割后的圖像能夠反映出所需重構的口型信息；分割的頻率越高，口型重構的復雜度越高，重構的精度也越高；分割的頻率越低，口型重構的復雜度越低，重構的精度也越低。當步驟(1)中讀入的人體信息為單幀圖像時，所述的聯(lián)動對應是指把模擬視頻每一幀中的口型特征點都對應到單幀人體信息圖像上；當步驟(1)中讀Λ的人體信息為多幀圖像組成的視頻時，所述的聯(lián)動對應是指把模擬視頻每一幀中的口型特征點都對應到人體信息視頻的對應幀上。所述的對應幀可以由下面的方法確定:將人體信息視頻分割出的幀圖和模擬視頻分割出的幀圖都進行編號，如果人體信息視頻和模擬視頻的幀數(shù)相等，所述的對應幀即為編號相同的幀；如果人體信息視頻和模擬視頻的幀數(shù)不相等，所述的對應幀則為在總數(shù)中所占比例位置相同的幀。當模擬視頻的幀數(shù)大于人體信息視頻幀數(shù)時，對多余的幀按比例舍去；當模擬視頻的幀數(shù)小于人體信息視頻幀數(shù)時，對不足的幀按比例進行插值處理，插值的中間項口型通過基于環(huán)形彈性空間的動力學時間演化構造。當完成了口型的聯(lián)動對應之后，即可按照模擬視頻中第i幀到第(i+1)幀的口型的變化分析得出t=(i/N)秒這一時刻對應的環(huán)形彈性空間模型中各個特征點受到的力的作用，將得到的力作用在人體信息對應的環(huán)形彈性空間模型中，即可完成t=(i/N)秒這一時刻口型信息的重構。新視頻每一幀圖重構完成之后，即得到重構完成后的人體口型視頻。
[0013]作為優(yōu)選，所述的步驟(3)中的基于環(huán)形彈性空間動力學時間演化法為邏輯修正法，即不依賴于現(xiàn)場真人演繹，直接根據(jù)所需的口型信息，調(diào)用口型基元模塊人為地構建口型狀態(tài)模板，再通過基于環(huán)形彈性空間的動力學時間演化生成缺失的過渡狀態(tài)完成視頻重構。如圖5所示，本方法無需同步對象現(xiàn)場模擬，而是通過人為地調(diào)用口型基元在人體信息和口型信息的基礎上生成口型狀態(tài)模板，再建立環(huán)形彈性空間模型演化生成目標對象的口型視頻，實現(xiàn)目標對象口部的視頻重構。本方法流程示意圖如圖7所示。所述的口型基元為人體口型最基本情形的模型，例如拼音里的a 口型(張嘴)、ο 口型(撅嘴)、i 口型(咧嘴)等等，能夠通過基于環(huán)形彈性空間的動力學時間演化生成所有過渡的口型狀態(tài)。所述的過渡的口型狀態(tài)指一個口型基元變換到另一個口型基元的過程中產(chǎn)生的口型狀態(tài)，例如，從閉口的口型基元到發(fā)出拼音“a”的口型基元，其過渡的口型狀態(tài)就是口部慢慢張大過程中的口型。具體地，當顯示模塊顯示出所需重構的口型信息，可以人為地在口型庫中選取符合需求的η個基本口型對特定位置幀中的口型進行關聯(lián)修正，模擬構建出基于時間序列的口型狀態(tài)模板。當步驟(I)中讀入的人體信息為單幀圖像時，所述的口型狀態(tài)模板中口型之外的信息全部由單幀圖像擴展；當步驟(I)中讀入的人體信息為多幀圖像組成的視頻時，所述的口型狀態(tài)模板中口型之外的信息和視頻一致。所述的口型之外的信息是圖像或視頻中口部之外的一切信息，包括人體口部之外的其他部分(例如鼻、眼、臉頰、軀干、四肢等)和人所處的環(huán)境。例如，人眼睛的眨動、身體的晃動、身后其他人的經(jīng)過等都視為口部之外的一切信息發(fā)生的變化?？谛蜖顟B(tài)模板構建完成后，再對人體信息中的口部周邊位置進行基于環(huán)形彈性空間的關聯(lián)，使得口部的變化對口部周邊范圍的區(qū)域造成相應的影響，即構建出對應的環(huán)形彈性空間模型。此時，分析第i個口型基元到第(i+1)個口型基元的變化，即可得出第i階段對應的環(huán)形彈性空間模型中各個點收到的力的作用，再將力的作用延長到更長的時間序列上，即可得到這兩個階段中所有的口型過渡狀態(tài)。當(η-1)個過渡狀態(tài)全部重構完成，即實現(xiàn)人體口型視頻的重構。
[0014]針對關聯(lián)反演法，本發(fā)明還提供一種人體口型視頻重構系統(tǒng)，包括輸入口、輸出口、處理模塊、顯示模塊和實時采集模塊，其中:
所述的輸入口用于讀入人體信息和口型信息，所述的人體信息選自目標對象的單幀圖像或多幀圖像組成的視頻，所述的口型信息選自文字、聲音、圖像、視頻的任意一種或任意多種；所述的輸出口用于輸出重構完成后的人體口型視頻；
所述的顯示模塊用于對輸入口讀入的口型信息進行實時顯示；
所述的處理模塊用于對輸入口讀入的口型信息進行轉(zhuǎn)換處理，再在人體信息的基礎上實現(xiàn)人體口型視頻的重構；
所述的實時采集模塊用于在采用關聯(lián)反演法進行重構的過程中對同步對象的視頻進行實時采集。
[0015]各個模塊的連接方式如圖8所示。其中，所述的輸入口與處理模塊之間、處理模塊與輸出口之間、處理模塊和實時采集模塊之間、處理模塊和顯示模塊之間可部分或全部通過有線或無線方式進行連接，以保證數(shù)據(jù)的有效傳輸?？梢愿鶕?jù)實際需要，全部采用有線方式連接，全部采用無線方式連接，或部分采用有線方式連接、部分采用無線方式連接。
[0016]所述的處理模塊為具有視頻圖像處理和信息分析能力的終端，可選自數(shù)字芯片、智能終端。所述的智能終端是指能夠捕獲外部信息，能進行計算、分析和處理，并在不同終端之間能夠進行信息傳輸?shù)脑O備，包括但不限于臺式電腦、筆記本電腦、移動智能終端。所述的移動智能終端是便攜式的智能終端，包括但不限于各種智能手機、平板電腦(如iPad等)、掌上電腦、智能掌上游戲機。所述的數(shù)字芯片指經(jīng)過設計，采用集成電子工藝，能夠進行計算、分析和處理的芯片，并能夠通過擴展控制其他設備，包括但不限于單片機，ARM,DSP，F(xiàn)PGA 等。
[0017]所述的實時采集模塊選自攝像機、照相機、攝像頭、數(shù)字化圖像設備、具有攝像功能的智能終端的任意一種或任意多種。
[0018]所述的顯示模塊選自顯示器、顯示屏、投影儀、智能終端的任意一種或任意多種。
[0019]具體地，同步對象根據(jù)顯示模塊顯示出的口型信息模擬口型，例如，讀出顯示的一段文字或模仿顯示的若干口型圖片，此時，處理模塊控制實時采集模塊采集同步對象的模擬視頻，作為口型重構的依據(jù)。采集完成后，處理模塊將采集到的模擬視頻按照一定的幀數(shù)N平均分割為η幀(當所述的樣例口型視頻時長為T秒時，有η=ΤΝ)，分別對應時間I1，t2，…，tn，定位每一幀的口型，并且把口型的輪廓和特征點和已經(jīng)讀取的人體信息中口型的輪廓和特征點進行聯(lián)動對應。所述的分割的頻率可根據(jù)實際情況確定，要滿足采樣定理以保證分割后的圖像能夠反映出所需重構的口型信息；分割的頻率越高，口型重構的復雜度越高，重構的精度也越高；分割的頻率越低，口型重構的復雜度越低，重構的精度也越低。當所述的輸入口中讀入的人體信息為單幀圖像時，所述的聯(lián)動對應是指把模擬視頻每一幀中的口型特征點都對應到單幀人體信息圖像上；當所述的輸入口中讀入的人體信息為多幀圖像組成的視頻時，所述的聯(lián)動對應是指把模擬視頻每一幀中的口型特征點都對應到人體信息視頻的對應幀上。所述的對應幀可以由下面的方法確定:將人體信息視頻分割出的幀圖和模擬視頻分割出的幀圖都進行編號，如果人體信息視頻和模擬視頻的幀數(shù)相等，所述的對應幀即為編號相同的幀；如果人體信息視頻和模擬視頻的幀數(shù)不相等，所述的對應幀則為在總數(shù)中所占比例位置相同的幀。當模擬視頻的幀數(shù)大于人體信息視頻幀數(shù)時，對多余的幀按比例舍去；當模擬視頻的幀數(shù)小于人體信息視頻幀數(shù)時，對不足的幀按比例進行插值處理，插值的中間項口型通過基于環(huán)形彈性空間的動力學時間演化構造。當完成了口型的聯(lián)動對應之后，即可按照模擬視頻中第i幀到第(i+1)幀的口型的變化分析得出t=(i/N)秒這一時刻對應的環(huán)形彈性空間模型中各個特征點受到的力的作用，將得到的力作用在人體信息對應的環(huán)形彈性空間模型中，即可完成t=(i/N)秒這一時刻口型信息的重構。新視頻每一幀圖重構完成之后，即得到重構完成后的人體口型視頻。
[0020]針對邏輯修正法，本發(fā)明還提供一種人體口型視頻重構系統(tǒng)，包括輸入口、輸出口、處理模塊、顯示模塊和口型基元模塊，其中:
所述的輸入口用于讀入人體信息和口型信息，所述的人體信息選自目標對象的單幀圖像或多幀圖像組成的視頻，所述的口型信息選自文字、聲音、圖像、視頻的任意一種或任意多種；
所述的輸出口用于輸出重構完成后的人體口型視頻；
所述的顯示模塊用于對輸入口讀入的口型信息進行實時顯示；
所述的處理模塊用于對輸入口讀入的口型信息進行轉(zhuǎn)換處理，再在人體信息的基礎上實現(xiàn)人體口型視頻的重構；
所述的口型基元模塊用于儲存基本的口型基元，用以在采用邏輯修正法進行重構的過程中調(diào)用，人為地構建口型狀態(tài)模板。
[0021]所述的口型基元為人體口型最基本情形的模型，例如拼音里的a 口型(張嘴)、O 口型(撅嘴)、i 口型(咧嘴)等等，能夠通過基于環(huán)形彈性空間的動力學時間演化生成所有過渡的口型狀態(tài)。所述的過渡的口型狀態(tài)指一個口型基元變換到另一個口型基元的過程中產(chǎn)生的口型狀態(tài)，例如，從閉口的口型基元到發(fā)出拼音“a”的口型基元，其過渡的口型狀態(tài)就是口部慢慢張大過程中的口型。
[0022]各個模塊的連接方式如圖9所示。其中，所述的輸入口與處理模塊之間、處理模塊與輸出口之間、處理模塊和口型基元模塊之間、處理模塊和顯示模塊之間可部分或全部通過有線或無線方式進行連接，以保證數(shù)據(jù)的有效傳輸?？梢愿鶕?jù)實際需要，全部采用有線方式連接，全部采用無線方式連接，或部分采用有線方式連接、部分采用無線方式連接。
[0023]所述的處理模塊為具有視頻圖像處理和信息分析能力的終端，包括選自數(shù)字芯片、智能終端。所述的智能終端是指能夠捕獲外部信息，能進行計算、分析和處理，并在不同終端之間能夠進行信息傳輸?shù)脑O備，包括但不限于臺式電腦、筆記本電腦、移動智能終端。所述的移動智能終端是便攜式的智能終端，包括但不限于各種智能手機、平板電腦(如iPad等)、掌上電腦、智能掌上游戲機。所述的數(shù)字芯片指經(jīng)過設計，采用集成電子工藝，能夠進行計算、分析和處理的芯片，并能夠通過擴展控制其他設備，包括但不限于單片機，ARM,DSP，F(xiàn)PGA 等。
[0024]所述的顯示模塊選自顯示器、顯示屏、投影儀、智能終端的任意一種或任意多種。
[0025]所述的口型基元模塊用于儲存基本的口型模型，用以在采用邏輯修正法進行重構的過程中調(diào)用，人為地構建口型狀態(tài)模板。傳統(tǒng)的口型變換技術依賴于龐大的口型數(shù)據(jù)庫，該口型數(shù)據(jù)庫中包含了語音庫以及與之對應的口型圖像以便于在變換中加以調(diào)用，一方面占用了大量的空間；另一方面由于該口型數(shù)據(jù)庫本身不能自主構建出新的口型，實際運用中無法處理數(shù)據(jù)庫中未包含口型的變換問題。本發(fā)明系統(tǒng)區(qū)別于傳統(tǒng)的口型變換系統(tǒng)，不需要這樣的口型數(shù)據(jù)庫，即可快速、準確地完成人體口型的視頻重構。
[0026]作為優(yōu)選，本發(fā)明的口型視頻重構系統(tǒng)可以是具有攝像功能的臺式電腦、筆記本電腦或移動智能終端。所述的移動智能終端是便攜式的智能終端，包括但不限于各種智能手機、平板電腦(如iPad等)、掌上電腦、智能掌上游戲機。具體地，本發(fā)明的口型視頻重構系統(tǒng)可以僅是一臺具有攝像功能的臺式電腦，或者一臺具有攝像功能的筆記本電腦，或者一個具有攝像功能的移動智能終端。此時，設備的通訊和數(shù)據(jù)傳輸模塊作為系統(tǒng)的輸入口和輸出口，處理內(nèi)核作為系統(tǒng)的處理模塊，攝像頭作為系統(tǒng)的實時采集模塊，顯示屏作為系統(tǒng)的顯示模塊，存儲單元作為系統(tǒng)的口型基元模塊。本發(fā)明的口型視頻重構系統(tǒng)也可以是具有攝像功能的臺式電腦、筆記本電腦或移動智能終端的組合，例如，具有攝像功能的移動智能終端的攝像頭和顯示屏分別作為實時采集模塊和顯示模塊，筆記本電腦的通訊模塊、處理內(nèi)核和存儲單元分別作為系統(tǒng)的輸入輸出口、處理模塊和口型基元模塊，等等。
[0027]作為優(yōu)選，所述的步驟(3)中的基于環(huán)形彈性空間動力學時間演化法為邏輯修正法，即不依賴于現(xiàn)場真人演繹，直接根據(jù)所需的口型信息，調(diào)用口型基元模塊人為地構建口型狀態(tài)模板，再通過基于環(huán)形彈性空間的動力學時間演化生成缺失的過渡狀態(tài)完成視頻重構，其流程示意圖如圖7所示。所述的口型基元為人體口型最基本情形的模型，例如拼音里的a 口型(張嘴)、O 口型(撅嘴)、i 口型(咧嘴)等等，能夠通過基于環(huán)形彈性空間的動力學時間演化生成所有過渡的口型狀態(tài)。所述的過渡的口型狀態(tài)指一個口型基元變換到另一個口型基元的過程中產(chǎn)生的口型狀態(tài)，例如，從閉口的口型基元到發(fā)出拼音“ a”的口型基元，其過渡的口型狀態(tài)就是口部慢慢張大過程中的口型。具體地，當顯示模塊顯示出所需重構的口型信息，可以人為地在口型庫中選取符合需求的η個基本口型對特定位置幀中的口型進行關聯(lián)修正，模擬構建出基于時間序列的口型狀態(tài)模板。當所述的輸入口中讀入的人體信息為單幀圖像時，所述的口型狀態(tài)模板中口型之外的信息全部由單幀圖像擴展；當所述的輸入口中讀入的人體信息為多幀圖像組成的視頻時，所述的口型狀態(tài)模板中口型之外的信息和視頻一致。所述的口型之外的信息是圖像或視頻中口部之外的一切信息，包括人體口部之外的其他部分(例如鼻、眼、臉頰、軀干、四肢等)和人所處的環(huán)境。例如，人眼睛的眨動、身體的晃動、身后其他人的經(jīng)過等都視為口部之外的一切信息發(fā)生的變化?？谛蜖顟B(tài)模板構建完成后，再對人體信息中的口部周邊位置進行基于環(huán)形彈性空間的關聯(lián)，使得口部的變化對口部周邊范圍的區(qū)域造成相應的影響，即構建出對應的環(huán)形彈性空間模型。此時，分析第i個口型基元到第(i+1)個口型基元的變化，即可得出第i階段對應的環(huán)形彈性空間模型中各個點收到的力的作用，再將力的作用延長到更長的時間序列上，即可得到這兩個階段中所有的口型過渡狀態(tài)。當(η-1)個過渡狀態(tài)全部重構完成，即實現(xiàn)人體口型視頻的重構。
[0028]本發(fā)明的有益效果是:
(I)本發(fā)明既可以在該單幀圖像上實現(xiàn)讀入口型信息的反演，生成重構后的人體口型視頻，也可以在多幀圖像組成的視頻上實現(xiàn)讀入口型信息的修正，生成重構后的人體口型視頻，有很強的適用性。
[0029](2)本發(fā)明具有關聯(lián)反演和邏輯修正兩種具體的實施方案，前者借助現(xiàn)場真人的同步演繹可以快捷、高效地完成人體口型視頻的重構；后者需要人為調(diào)用口型基元但是不依賴于現(xiàn)場演繹，可以實現(xiàn)離線修改，兩種方法能滿足不同情況下口型視頻重構的需求。
[0030](3)本發(fā)明在系統(tǒng)硬件方面配置簡單，成本低廉；軟件方面也僅需普通的視頻、圖像處理軟件和小型的口型基元，不涉及額外的軟件部署，尤其是相對傳統(tǒng)的口型重構系統(tǒng)，本發(fā)明系統(tǒng)無需數(shù)據(jù)庫，在節(jié)省了空間的同時也增強了口型變換的靈活度。
[0031](4)更優(yōu)選地，本發(fā)明的系統(tǒng)的所有單元可以集成在一個智能終端上，所述的智能終端可以是智能手機、平板電腦、掌上電腦、智能掌上游戲機，因此具有很高的可移植性。【專利附圖】

【附圖說明】
[0032]圖1為本發(fā)明方法流程圖。
[0033]圖2為環(huán)形彈性空間示意圖。
[0034]圖3為本發(fā)明方法中口型位置對應時輪廓線和特征點的示意圖，圖中LI至L4和LI’至L4’分別是兩個口型的輪廓線，Pl至P6和Ρ至P6’分別是兩個口型輪廓線上的關鍵點，需要保證每條輪廓線上有至少3個對應點以保證變換的準確性。 [0035]圖4為本發(fā)明中關聯(lián)反演法的信息轉(zhuǎn)換簡圖。
[0036]圖5為本發(fā)明中邏輯修正法的信息轉(zhuǎn)換簡圖。
[0037]圖6為本發(fā)明中關聯(lián)反演法的流程示意圖。
[0038]圖7為本發(fā)明中邏輯修正法的流程示意圖。
[0039]圖8為本發(fā)明關聯(lián)反演法對應的系統(tǒng)結(jié)構圖。
[0040]圖9為本發(fā)明邏輯修正法對應的系統(tǒng)結(jié)構圖。
【具體實施方式】
[0041]為了更詳細地說明本發(fā)明的人體口型視頻重構方法，下面根據(jù)附圖詳細說明本發(fā)明。
[0042]實施例1
如圖6所示，以B作為同步對象，運用關聯(lián)反演法從目標對象A的一張照片中重構出A朗讀一篇演講稿的視頻為例，具體說明本發(fā)明的口型重構方法。這里以一臺配備了攝像頭的臺式電腦作為重構系統(tǒng)，其中:USB接口作為系統(tǒng)的輸入、輸出口，處理器作為系統(tǒng)的處理模塊，攝像頭作為系統(tǒng)的實時采集模塊，顯示器作為系統(tǒng)的顯示模塊。
[0043](I)信息讀入:系統(tǒng)從USB接口讀入A的照片作為待處理的人體信息，讀入演講稿文檔作為待處理的口型信息。
[0044](2)預處理:處理器識別出口型信息為文字格式，考慮到關聯(lián)反演法的運用方便，直接將文字格式的口型信息傳遞至顯示器顯示；同時，處理器對A的照片進行圖像分析，識別并鎖定出照片中A 口部的位置，選取出口型的特征點，如兩個唇角、四條唇線的中心。
[0045](3) 口型重構:同步對象B根據(jù)顯示器顯示出的文字信息模擬口型，讀出演講稿的內(nèi)容。同時，攝像頭采集B讀該演講稿的視頻(時長1000秒)，即模擬視頻，來作為口型重構的依據(jù)。采集完成后，處理器將采集到的B的模擬視頻按30幀/秒的幀數(shù)分割為30000幀，分別對應時間t1; t2，…，t3_，并在各幀中定位口型，選取同樣的口型特征點，即兩個唇角、四條唇線的中心。因為人體信息，即A的照片是單幀圖像，將B的模擬視頻分割出的30000幀分別和A的照片中對應的特征點進行對應，聯(lián)動周邊位置，建立起基于時間序列的環(huán)形彈性空間模型。之后，即可按照B的模擬視頻中第I幀到第2幀的口型的變化分析得出t=(l/30)秒這一時刻對應的環(huán)形彈性空間模型中各個特征點受到的力的作用，將得到的力作用在A照片對應的環(huán)形彈性空間模型中，即可完成t=(l/30)秒這一時刻A 口型信息的重構。當30000幀重構全部完成，即得到重構完成后的A朗讀該演講稿的視頻。
[0046](4)視頻輸出:在USB接口輸出重構完成后的A朗讀該演講稿的視頻。[0047]本實施例中，也可以用這里以一個智能手機作為重構系統(tǒng)，其中:WIFI接口作為系統(tǒng)的輸入、輸出口，手機處理器作為系統(tǒng)的處理模塊，手機攝像頭作為系統(tǒng)的實時采集模塊，手機顯示屏作為系統(tǒng)的顯示模塊。
[0048](I)信息讀入:系統(tǒng)從WIFI接口讀入A的照片作為待處理的人體信息，讀入演講稿文檔作為待處理的口型信息。
[0049](2)預處理:手機處理器識別出口型信息為文字格式，考慮到關聯(lián)反演法的運用方便，直接將文字格式的口型信息傳遞至顯示器顯示；同時，處理器對A的照片進行圖像分析，識別并鎖定出照片中A 口部的位置，選取出口型的特征點，如兩個唇角、四條唇線的中心。
[0050](3) 口型重構:同步對象B根據(jù)顯示器顯示出的文字信息模擬口型，讀出演講稿的內(nèi)容。同時，手機攝像頭將采集到的B的模擬視頻按30幀/秒的幀數(shù)分割為30000幀，分別對應時間t1;t2，…，t3_，并在各幀中定位口型，選取同樣的口型特征點，即兩個唇角、四條唇線的中心。因為人體信息，即A的照片是單幀圖像，將B的模擬視頻分割出的30000幀分別和A的照片中對應的特征點進行對應，聯(lián)動周邊位置，建立起基于時間序列的環(huán)形彈性空間模型。之后，即可按照B的模擬視頻中第I幀到第2幀的口型的變化分析得出t= (1/30)秒這一時刻對應的環(huán)形彈性空間模型中各個特征點受到的力的作用，將得到的力作用在A照片對應的環(huán)形彈性空間模型中，即可完成t=(l/30)秒這一時刻A 口型信息的重構。當30000幀重構全部完成，即得到重構完成后的A朗讀該演講稿的視頻。
[0051](4)視頻輸出:在WIFI接口輸出重構完成后的A朗讀該演講稿的視頻。
[0052]實施例2
如圖7所示，下面以運`用邏輯修正法對播音員C視頻中的某片段的口型修正為例，具體說明本發(fā)明的的口型重構方法，本實施例中C即為目標對象。這里以一個智能手機作為重構系統(tǒng)，其中=WIFI接口作為系統(tǒng)的輸入、輸出口，手機處理器作為系統(tǒng)的處理模塊，手機顯示屏作為系統(tǒng)的顯示模塊，手機的存儲單元作為系統(tǒng)的口型基元模塊。
[0053](I)信息讀入:系統(tǒng)從WIFI接口讀入播音員C的視頻，剪輯出待修正的部分作為待處理的人體信息，同時讀入語音修正內(nèi)容作為待處理的口型信息。
[0054](2)預處理:處理器識別出口型信息為語音格式，考慮到邏輯修正法的運用方便，將語音格式的口型信息轉(zhuǎn)換成對應的口型視頻傳遞至顯示屏顯示。
[0055](3) 口型重構:當顯示屏顯示出所需重構的口型信息，可以人為地在口型基元模塊中調(diào)用符合需求的基本口型對特定位置幀中的口型進行關聯(lián)修正，模擬構建出基于時間序列的口型狀態(tài)模板，模板中口型之外的信息，例如這里人肢體的晃動，周圍環(huán)境的變化等，需和視頻一致。例如，待重構的是由閉口狀態(tài)發(fā)出“a”的音后再恢復閉口的一段語音，只需要把初始閉口口型、發(fā)“a”時張到最大的口型、發(fā)音結(jié)束后閉口的口型這三個口型改寫入對應時間的幀，即可作為這一段口型的狀態(tài)模板，建立對應的環(huán)形彈性空間模型。對該模型三個階段之間兩個變化進行分析，即可得到這兩個階段環(huán)形彈性空間模型中各個特征點收到的力的作用，再將力的作用延長到更長的時間序列上，即可得到這兩個階段中所有的過渡的口型狀態(tài)，即嘴慢慢張大的若干幀和嘴慢慢合攏的若干幀。例如，需要在這兩個口型基元間構建30幀以完成視頻重構，就將所分析出的力的效果均分為30份，依次作用在該環(huán)形彈性空間模型中，產(chǎn)生30個過渡的口型狀態(tài)。[0056](4)視頻輸出:用生成的視頻覆蓋原始視頻中剪輯出的部分，在WIFI接口輸出重構完成后的播音員C的視頻。
[0057]對本領域的技術人員來說應理解，根據(jù)設計要求和其他因素可以進行各種修改、組合、自組合和變化，只要它們都落于所附權利要求及其等效方案所限定的范圍內(nèi)。
【權利要求】
1.一種人體口型視頻重構方法，其特征在于包括以下四個步驟: 信息讀入:從輸入口讀入人體信息和口型信息，所述的人體信息選自目標對象的單幀圖像或多幀圖像組成的視頻，所述的口型信息選自文字、聲音、圖像、視頻的任意一種或任意多種；預處理:對輸入口讀入的口型信息進行識別轉(zhuǎn)換并將識別轉(zhuǎn)換后的口型信息在顯示模塊實時顯示，并對輸入口讀入的人體信息進行分析并鎖定口部的位置；口型重構:基于環(huán)形彈性空間動力學的時間演化法，根據(jù)預處理后的口型信息和人體信息進行人體口型視頻重構；視頻輸出:在輸出口輸出重構完成后的人體口型視頻。
2.根據(jù)權利要求1所述的人體口型視頻重構方法，其特征在于:所述的步驟(3)中的基于環(huán)形彈性空間動力學時間演化法為關聯(lián)反演法，即由現(xiàn)場真人作為同步對象模擬顯示模塊顯示出的口型信息，再通過實時采集模塊采集模擬視頻，和已經(jīng)讀取的人體信息進行基于環(huán)形彈性空間的匹配，從而完成人體口型視頻的重構。
3.根據(jù)權利要求1所述的人體口型視頻重構方法，其特征在于:所述的步驟(3)中的基于環(huán)形彈性空間動力學時間演化法為邏輯修正法，即不依賴于現(xiàn)場真人演繹，直接根據(jù)所需的口型信息，調(diào)用口型基元模塊人為地構建口型狀態(tài)模板，生成缺失的過渡狀態(tài)完成視頻重構。
4.根據(jù)權利要求2所述重構方法的人體口型視頻重構系統(tǒng)，其特征在于:所述的視頻重構系統(tǒng)包括輸入口、輸出口、處理模塊、顯示模塊和實時采集模塊，其中: 所述的輸入口用于讀入人體信息和口型信息`，所述的人體信息選自目標對象的單幀圖像或多幀圖像組成的視頻，所述的口型信息選自文字、聲音、圖像、視頻的任意一種或任意多種；所述的輸出口用于輸出重構完成后的人體口型視頻；所述的顯示模塊用于對輸入口讀入的口型信息進行實時顯示；所述的處理模塊用于對輸入口讀入的口型信息進行轉(zhuǎn)換處理，再在人體信息的基礎上實現(xiàn)人體口型視頻的重構；所述的實時采集模塊用于在采用關聯(lián)反演法進行重構的過程中對同步對象的視頻進行實時采集。
5.根據(jù)權利要求4所述的人體口型視頻重構系統(tǒng)，其特征在于:所述的實時采集模塊選自攝像機、照相機、攝像頭、數(shù)字化圖像設備、具有攝像功能的智能終端的任意一種或任意多種。
6.根據(jù)權利要求3所述重構方法的人體口型視頻重構系統(tǒng)，其特征在于:所述的視頻重構系統(tǒng)包括輸入口、輸出口、處理模塊、顯示模塊和口型基元模塊，其中: 所述的輸入口用于讀入人體信息和口型信息，所述的人體信息選自目標對象的單幀圖像或多幀圖像組成的視頻，所述的口型信息選自文字、聲音、圖像、視頻的任意一種或任意多種；所述的輸出口用于輸出重構完成后的人體口型視頻；所述的顯示模塊用于對輸入口讀入的口型信息進行實時顯示；所述的處理模塊用于對輸入口讀入的口型信息進行轉(zhuǎn)換處理，再在人體信息的基礎上實現(xiàn)人體口型視頻的重構；所述的口型基元模塊用于儲存基本的口型基元，用以在采用邏輯修正法進行重構的過程中調(diào)用，人為地構建口型狀態(tài)模板。
7.根據(jù)權利要求4-6任一項所述的人體口型視頻重構系統(tǒng)，其特征在于:所述的處理模塊為具有視頻圖像處理和信息分析能力的終端。
8.根據(jù)權利要求4-6任一項所述的人體口型視頻重構系統(tǒng)，其特征在于:所述的顯示模塊選自顯示器、顯示屏、投影儀、智能終端的任意一種或任意多種。
9.根據(jù)權利要求4-6任一項所述的人體口型視頻重構系統(tǒng)，其特征在于:所述的口型視頻重構系統(tǒng)為具有攝像功能的臺式電腦、筆記本電腦或移動智能終端。
10.根據(jù)權利要求9所述的人體口型視頻重構系統(tǒng)，其特征在于:所述的口型視頻重構系統(tǒng)為智能手機、平板電腦、掌上電腦、智能掌上游戲機。
【文檔編號】G06T7/00GK103745462SQ201310745441
【公開日】2014年4月23日申請日期:2013年12月27日優(yōu)先權日:2013年12月27日
【發(fā)明者】孟濬, 黃吉羊, 劉瓊申請人:浙江大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：孟濬;黃吉羊;劉瓊
技術所有人：浙江大學
我是此專利的發(fā)明人

上一篇：一種控制電子地圖平移的裝置及對應方法
上一篇：一種VCT文件到shapefile文件的矢量數(shù)據(jù)并行轉(zhuǎn)換方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種人體口型視頻重構系統(tǒng)與重構方法