亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于化身的視頻編碼的制作方法

文檔序號:9439014閱讀:267來源:國知局
基于化身的視頻編碼的制作方法
【專利說明】基于化身的視頻編碼
【背景技術(shù)】
[0001] 移動通信涉及多個(gè)不小難題,以及移動視頻共享和基于視頻的通信面臨具體復(fù)雜 情況。
【附圖說明】
[0002] 圖1示出按照本公開的一實(shí)施例所配置的裝置。
[0003] 圖2示出按照本公開的一實(shí)施例所配置的示例臉部檢測模塊。
[0004] 圖3A-3E示出按照本公開的一實(shí)施例的化身動畫的示例臉部控制參數(shù)和生成。
[0005] 圖4示出按照本公開的一實(shí)施例所配置的示例化身控制模塊和化身選擇模塊。
[0006] 圖5示出按照本公開的一實(shí)施例的基于化身的視頻編碼的過程。
[0007] 圖6示出按照本公開的一實(shí)施例、使用化身來重構(gòu)視頻的示例過程。
[0008] 圖7示出按照本公開的一實(shí)施例、用于提取所檢測臉部表情并且通過對其映射臉 部表情來動畫制作(animate)所選化身的示例過程。
[0009] 圖8示出按照本公開的一實(shí)施例、附有多個(gè)運(yùn)動捕獲標(biāo)記的人臉。
[0010] 圖9A-9C不出按照本公開的一實(shí)施例的各種不例化身表情的若干不例屏幕截圖 圖像。
[0011] 圖10是示出按照本公開的一實(shí)施例、服務(wù)器上的示例視頻渲染流程的框圖。
[0012] 圖11示出按照一些實(shí)施例、可執(zhí)行如本文所述用于基于化身的視頻編碼的技術(shù) 的示例系統(tǒng)。
[0013] 圖12示出可實(shí)施圖11的系統(tǒng)的小形狀因數(shù)裝置的實(shí)施例。
【具體實(shí)施方式】
[0014] 公開用于執(zhí)行基于化身的視頻編碼的技術(shù)。在一些實(shí)施例中,個(gè)人的視頻記錄可 利用化身(其通過個(gè)人的(一個(gè)或多個(gè))臉部表情來驅(qū)動)來編碼。在一些這類情況下, 所產(chǎn)生化身動畫可準(zhǔn)確地模仿所記錄個(gè)人的(一個(gè)或多個(gè))臉部表情。一些實(shí)施例能夠用 于例如經(jīng)由社交媒體和連網(wǎng)網(wǎng)站的視頻共享中。一些實(shí)施例能夠用于例如基于視頻的通信 (例如,對等視頻呼叫、電視會議)中。在一些情況下,例如,所公開技術(shù)的使用可幫助降低 通信帶寬使用、保存?zhèn)€人的匿名性和/或?yàn)閭€(gè)人提供增強(qiáng)娛樂價(jià)值(例如興趣)。根據(jù)本公 開,許多配置和變更將會是顯而易見的。
[0015] 一般概述 隨著移動裝置和社交網(wǎng)絡(luò)的流行持續(xù)增長,越來越多數(shù)量的用戶設(shè)法經(jīng)由其移動裝置 來記錄并且與他人共享視頻,以及經(jīng)由作為典型電話呼叫和基于文本的消息的替代的視頻 進(jìn)行通信。例如,用戶可期望使用其移動裝置發(fā)起視頻呼叫和電視會議,以向一個(gè)或多個(gè)遠(yuǎn) 程接收方傳送音頻和實(shí)時(shí)視頻。但是,如先前所述,出現(xiàn)使參與包含視頻數(shù)據(jù)的移動通信的 能力復(fù)雜化的多個(gè)不小問題。例如,大量視頻數(shù)據(jù)的傳輸消耗例如第三代和第四代(3G和 4G)數(shù)據(jù)網(wǎng)絡(luò)的大量網(wǎng)絡(luò)帶寬,并且對現(xiàn)有無線通信基礎(chǔ)設(shè)施施加大負(fù)擔(dān),這能夠不利地影 響傳輸質(zhì)量。在實(shí)時(shí)視頻傳輸?shù)那闆r下尤其是這樣。另一個(gè)不小問題涉及如下事實(shí):極少 的現(xiàn)有化身視頻應(yīng)用(例如WeChat移動電話文本和語音消息傳遞通信服務(wù)、StarGreetz ? 個(gè)性化視頻平面和Tom的Messenger消息傳遞應(yīng)用)不允許化身模仿用戶的(一個(gè)或多 個(gè))臉部表情。由這些應(yīng)用所提供的視頻中的化身而是通過用戶的語音來驅(qū)動。其他現(xiàn)有 應(yīng)用(例如Mojo Masks)只在即時(shí)視頻之上覆蓋掩碼,并且使用商用視頻編解碼器來壓縮 具有掩碼的即時(shí)視頻。
[0016] 因此并且按照本公開的一實(shí)施例,公開用于提供視頻數(shù)據(jù)的基于化身的編碼的技 術(shù)。在一個(gè)示例情況中,技術(shù)在一種系統(tǒng)中實(shí)現(xiàn),該系統(tǒng)配置成記錄用戶臉部的視頻,并且 隨后將那個(gè)原始視頻記錄重構(gòu)為利用選擇為表示用戶的化身的基于化身的動畫。在初始視 頻記錄期間,檢測用戶的臉部特性,并且跟蹤其中例如產(chǎn)生于用戶臉部表情的改變、用戶頭 部的移動等的變化。此后,那些變化逐幀地映射到所選化身,以及化身幀的所產(chǎn)生集合能夠 采用原始音頻(若有的話)來編碼。所產(chǎn)生的新視頻是視頻動畫,其準(zhǔn)確地模仿或者模擬 由用戶在原始視頻記錄期間所記錄的臉部表情和頭部移動。在一些情況下,在所產(chǎn)生的視 頻中使用實(shí)際臉部和化身視頻幀的混合。在其他情況下,僅使用化身視頻幀。在任何這類 情況下,原始音頻(若有的話)能夠采用化身圖像來編碼,以提供新的較低帶寬視頻。
[0017] 如本文所使用的術(shù)語'化身' 一般表示二維(2-D)或三維(3-D)的用戶的圖形表 示。在一些情況下,給定化身可與其用戶的外貌相似,但這不是必要的,因?yàn)樵谝恍┢渌?況下,可觀察用戶與化身之間的更大或更小差異。因此,雖然化身能夠是逼真表示,但是它 們也能夠采取繪圖、卡通、草圖等的形式,其不一定與用戶的實(shí)際外貌相似。
[0018] 在一些情況下,所選化身能夠是例如從例如在原始視頻的記錄期間所提取的用戶 臉部的靜止圖像來生成的化身。但是,本公開并不局限于此,因?yàn)樵谝恍┢渌闆r下,所選 化身能夠?yàn)椴皇沁@樣所生成、而是可供公共、私有或用戶生成內(nèi)容數(shù)據(jù)庫的選擇的化身。在 一些情況下,(從用戶臉部或其它生成的)化身的創(chuàng)建和存儲能夠例如通過在線源或其他 適當(dāng)內(nèi)容提供商來執(zhí)行。
[0019] 在一些情況下,使用所公開技術(shù)所生成的化身動畫能夠提供有例如固定背景,使 得化身的背景圖像在組成和顏色方面是基本上靜態(tài)或者非動態(tài)的,以便簡化編碼并且進(jìn)一 步降低通過網(wǎng)絡(luò)發(fā)送視頻所需的傳輸帶寬。因此,在一些這類情況下,存在提供化身編碼視 頻的時(shí)機(jī),這準(zhǔn)確地模擬用戶的感情交流,同時(shí)包含較少量的成像/視頻數(shù)據(jù),這可產(chǎn)生比 例如原始視頻記錄要小許多的文件大小。
[0020] 如先前所述,本文所公開的技術(shù)能夠用來例如提供臉部表現(xiàn)驅(qū)動化身,其準(zhǔn)確地 表示用戶的實(shí)際臉部并且可靠地模擬用戶的臉部表情變化和頭部移動。在一些其他情況 下,所公開技術(shù)能夠用來例如提供與用戶的實(shí)際臉部有所不同(根據(jù)需要在更大或更小的 程度上)的臉部表現(xiàn)驅(qū)動化身,同時(shí)仍然可靠地模擬用戶的臉部表情變化和頭部移動。在 一些這類情況下,這可允許用戶的保密性或多或少地被保存,特別是在化身是卡通人物、動 物等或者與用戶實(shí)際外貌有所不同的另一實(shí)體的示例情況下。在任何情況下,用戶選擇在 給定通信會話期間向其他用戶表示他/她的化身的能力可提供改進(jìn)通信/交互會話,并且 因而可幫助增加用戶對那種體驗(yàn)的總體滿意度/樂趣。還要注意,本文所公開的基于化身 的編碼技術(shù)能夠例如在在線視頻呼叫和其他這類視頻應(yīng)用期間實(shí)時(shí)地實(shí)現(xiàn)。
[0021] 一些實(shí)施例可顯著改進(jìn)視頻壓縮(例如,取得比例如采用即時(shí)視頻可取得的要 高的壓縮比)。例如,與原始記錄視頻相比,所公開的技術(shù)能夠用來將視頻大小減小大約 1-70% (例如在大約10-20%減小、大約20-30%減小、大約30-40%減小、大約40-50%減小、大 約50-60%減小、大約60-70%減小范圍中或者處于大約1-70%的范圍中的任何其他子范圍 的范圍中)。在一些情況下,能夠提供大約50-70%或以上的減小。在一種示例情況中,使 用所公開技術(shù)所產(chǎn)生的具有VGA分辨率和25 fps的幀率的40秒的基于化身的視頻的大小 能夠?yàn)榇蠹s1兆字節(jié),而對應(yīng)原始臉部視頻的大小為3-5兆字節(jié)。如根據(jù)本公開將顯而易 見,視頻壓縮中的更大或更小改進(jìn)可使用所公開技術(shù)、根據(jù)給定目標(biāo)應(yīng)用或最終使用來提 供。在任何情況下,視頻壓縮的改進(jìn)可至少部分涉及:(1)在無需捕獲和傳送用戶的不必要 微小臉部紋理細(xì)節(jié)的情況下準(zhǔn)確地模仿用戶因臉部表情引起的形狀變化的化身的使用;和 /或(2)固定背景與化身和/或?qū)嶋H臉部幀的配合使用。如根據(jù)本公開將會理解,這些考 慮因素可幫助降低給定通信會話或者視頻的其他傳輸期間的帶寬消耗。一些實(shí)施例可準(zhǔn)許 查看用戶的基于化身的表示,而無需交換大量信息(其是原本采用即時(shí)圖像的裝置-裝置 通信一般所涉及的)。
[0022] 如根據(jù)本公開并且按照一些實(shí)施例將會理解,使用所公開技術(shù)所產(chǎn)生的基于化身 的動畫視頻能夠使用大量平臺或傳遞服務(wù)的任一種與他人共享。例如,在一些情況下,如本 文所述所提供的基于化身的動畫能夠例如使用下列方法來共享或者以其他方式傳播:即時(shí) 消息傳遞(IM);社交媒體或連網(wǎng)工具,例如 YouTube、Facebook、LinkedIn、Yahoo、Google+、 MSN、Weibo等;或者其他文本語音通信服務(wù),例如WeChat/Weixin等。一些實(shí)施例可提供增 強(qiáng)或者輕松娛樂價(jià)值(例如化身的使用能夠是娛樂和有趣的)或者以其他方式增強(qiáng)的用戶 體驗(yàn)。
[0023] 應(yīng)當(dāng)注意,雖然所公開技術(shù)一般在移動計(jì)算裝置的示例上下文中論述,但是本公 開并不局限于此。例如,在一些情況下,按照一些實(shí)施例,所公開的技術(shù)能夠例如與非移動 計(jì)算裝置(例如臺式計(jì)算機(jī)、電視會議系統(tǒng)等)配合使用。另外,應(yīng)當(dāng)注意,雖然所公開技 術(shù)一般在視頻創(chuàng)建的示例上下文中論述,但是按照一些實(shí)施例,它們也能夠用于例如基于 視頻的協(xié)作上下文(例如對等或多點(diǎn)電視會議、虛擬教室)中或者其中能夠使用基于對等 視頻的通信的任何其他上下文中。在一些示例情況中,這種基于視頻的協(xié)作上下文中所涉 及的各對等體能夠共享和/或接收(例如實(shí)時(shí)地)如本文所述所提供的基于化身的視頻。 在一些其他示例情況中,這種基于視頻的協(xié)作上下文中所涉及的一些對等體能夠共享和/ 或接收即時(shí)視頻,而其他對等體共享和/或接收基于化身的視頻。根據(jù)本公開,許多適當(dāng)用 途將會是顯而易見的。
[0024] 如將會進(jìn)一步理解,各個(gè)實(shí)施例能夠例如通過軟件、固件、硬件和/或其組合來實(shí) 現(xiàn)。在一些情況中并且按照一實(shí)施例,使用所公開技術(shù)的基于化身的視頻編碼能夠例如作 為商品服務(wù)來提供。另外并且按照一實(shí)施例,所公開技術(shù)的使用可例如通過基于化身的視 頻(其使用臉部表現(xiàn)驅(qū)動化身)的視覺觀察來檢測。
[0025] 本公開的一些能夠例如使用例如按照MPEG標(biāo)準(zhǔn)(MPEG Video,Information technology - Coding of audio-visual objects - Part 2 :Vsiaual, Amendment I : Visual extensions,IS0/IEC JTC1/SC29/WG11/N3056,2000 年 I 月)的人臉編碼方案來實(shí) 現(xiàn)。在這類情況下,靜態(tài)臉部形狀能夠例如通過臉部定義參數(shù)(FDP)來描述,而動態(tài)臉部變 化能夠例如通過臉部動畫參數(shù)(FAP)來描述。但是,應(yīng)當(dāng)注意,MPEG-4面向自然臉部圖像 編碼,而本文所述的一些實(shí)施例針對現(xiàn)實(shí)臉部風(fēng)格化身和卡通風(fēng)格化身編碼。如根據(jù)本公 開將會理解,按照一些實(shí)施例,當(dāng)用戶實(shí)際臉部的畫像在圖像中心采用化身的畫像來替代 時(shí),信息熵能夠極大地減小,并且明顯更少的位是編碼所需的。另外,一些實(shí)施例可按照交 互式方式進(jìn)行工作,使得用戶能夠從不同化身模型(人物、動物等)和渲染風(fēng)格(草圖、掩 碼、2-D/3-D卡通、人類現(xiàn)實(shí))中進(jìn)行選擇,以重構(gòu)原始臉部視頻。如將會進(jìn)一步理解,這些 示例特征在一些情況下能夠有助于用戶例如在對等消息傳遞以及社交媒體和連網(wǎng)上下文 中所體驗(yàn)的樂趣。
[0026] 系統(tǒng)架構(gòu) 圖1示出按照本公開的一實(shí)施例所配置的裝置102。如能夠看到,裝置102包括成像 輸入裝置104和音頻輸入裝置106 (以下所述),并且能夠配置成例如與網(wǎng)絡(luò)122進(jìn)行通 信。按照一些實(shí)施例,裝置102可以是或者以其他方式包括能夠具有有線和/或無線通信 能力的多種硬件平臺的任一種。例如,裝置102可以是或者以其他方式包括:膝上型/筆 記本計(jì)算機(jī);平板計(jì)算機(jī);移動電話或智能電話(例如iPhone?、基于Android?的電話、 Blackberry?、基于Symbian?的電話、基于Plam?的電話等);個(gè)人數(shù)字助理(PDA);蜂窩手 機(jī);手持游戲裝置;游戲平臺;臺式計(jì)算機(jī);和/或電視會議系統(tǒng)。在更一般的意義上并且 按照一些實(shí)施例,裝置102能夠是移動或者能夠通過有線和/或無線連接進(jìn)行通信的任何 計(jì)算裝置,如根據(jù)本公開將會是顯而易見的。
[0027] 網(wǎng)絡(luò)122能夠是任何適當(dāng)通信網(wǎng)絡(luò),如根據(jù)本公開將會是顯而易見的。例如,網(wǎng)絡(luò) 122可以是公共和/或?qū)S镁W(wǎng)絡(luò),例如在操作上耦合到廣域網(wǎng)(WAN)、例如因特網(wǎng)的專用局 域網(wǎng)(LAN)。在一些情況下,網(wǎng)絡(luò)122能夠包括各種第二代(2G)、第三代(3G)、第四代(4G) 移動通信技術(shù)、無線局域網(wǎng)(WLAN)(例如Wi-Fi?無線數(shù)據(jù)通信技術(shù))等。在一些情況下, 網(wǎng)絡(luò)122可包括支持基礎(chǔ)設(shè)施和/或功能性、例如服務(wù)器和服務(wù)提供商,但是這類特征不是 執(zhí)行經(jīng)由網(wǎng)絡(luò)122的通信所必需的。
[0028] 按照一實(shí)施例,成像輸入裝置104能夠是用于捕獲表示包括一人或多人的環(huán)境的 數(shù)字圖像的任何裝置,并且可具有用于環(huán)境中的一人或多人的臉部分析的充分分辨率,如 本文所述。例如,成像輸入裝置104可以是靜止相機(jī)(例如,配置成捕獲靜止照片的照相裝 置)或者攝像機(jī)(例如配置成捕獲包括多幀的運(yùn)動圖像的照相裝置)。在一些情況下,成像 輸入裝置104可包括非限制性地諸如光學(xué)組合件、圖像傳感器和圖像/視頻編碼器之類的 組件。成像輸入裝置104的這些組件(以及其他組件,若有的話)可按照硬件和/或軟件 的任何組合來實(shí)現(xiàn)。
[0029] 成像輸入裝置104能夠配置成使用例如在可見光譜中的光或者采用并不局限于 紅外(IR)光譜、紫外(UV)光譜等的電磁譜的其他部分進(jìn)行操作。成像輸入裝置104可結(jié)合 在裝置102中,或者可以是配置成經(jīng)由有線和/或無線通信與裝置102進(jìn)行通信的獨(dú)立裝 置。成像輸入裝置104的一些示例可包括:如可與計(jì)算機(jī)、視頻監(jiān)視器等關(guān)聯(lián)的萬維網(wǎng)攝像 頭;移動裝置照相裝置(例如,集成在例如先前所述示例裝置中的蜂窩電話或智能電話照 相裝置);集成膝上型計(jì)算機(jī)照相裝置;以及集成平板計(jì)算機(jī)照相裝置(例如iPad?、Galaxy Tab?等)。在任何情況下,成像輸入裝置104可配置用于有線(例如通用串行總線即USB、 以太網(wǎng)、FireWi
當(dāng)前第1頁1 2 3 4 5 6 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1