一種視頻處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及多媒體處理技術(shù)領(lǐng)域,尤其設(shè)及一種視頻處理方法及裝置。
【背景技術(shù)】
[0002] 隨著多媒體技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展,視頻信息越來越多。相應(yīng)的,對(duì)視頻的處理 顯得越來越重要。視頻編碼是其中的一種關(guān)鍵技術(shù),近年來受到人們?cè)絹碓蕉嗟年P(guān)注和重 視。
[0003] 為了提高視頻編碼的效率,現(xiàn)有技術(shù)中存在一種基于圖像庫(kù)進(jìn)行視頻編碼的方 法,即將待編碼視頻中的圖像與圖像庫(kù)中的預(yù)存儲(chǔ)圖像進(jìn)行比較得到區(qū)別圖像及相同圖 像,然后對(duì)區(qū)別圖像進(jìn)行編碼W及相同圖像所對(duì)應(yīng)的屬性信息進(jìn)行編碼。
[0004] 但是,上述方法中提到的圖像庫(kù)通常是預(yù)先對(duì)各種類型的人物、物體或動(dòng)畫、片段 等數(shù)據(jù)進(jìn)行采集,獲取大量豐富的圖片或圖像的數(shù)據(jù)并存儲(chǔ)在數(shù)據(jù)庫(kù)中形成的。該圖像庫(kù) 中的數(shù)據(jù)與待編碼視頻中的圖像的相關(guān)性較小,且該圖像庫(kù)中的數(shù)據(jù)容易出現(xiàn)多個(gè)數(shù)據(jù)之 間存在較高相關(guān)性的問題,即圖像庫(kù)中的數(shù)據(jù)冗余較大。另外,將該樣的圖像庫(kù)傳輸?shù)浇獯a 端,將會(huì)耗費(fèi)大量比特。因此,基于該樣的圖像庫(kù)進(jìn)行視頻編碼時(shí),依舊會(huì)限制視頻編碼的 效率。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的實(shí)施例提供一種視頻處理方法及裝置,通過分析待編碼視頻,構(gòu)建出與 待編碼視頻相關(guān)性較大且內(nèi)部數(shù)據(jù)之間冗余較小的知識(shí)庫(kù),進(jìn)而利用該知識(shí)庫(kù)對(duì)待編碼視 頻進(jìn)行編碼,可有效的解決視頻編碼效率較低的問題。
[0006] 為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
[0007] 第一方面,本發(fā)明實(shí)施例提供了一種視頻處理方法,該方法包括;
[0008] 將待編碼視頻分割為至少兩段場(chǎng)景;
[0009] 將各段場(chǎng)景劃分為至少兩個(gè)場(chǎng)景類別;
[0010] 從所述至少兩個(gè)場(chǎng)景類別中的至少一個(gè)場(chǎng)景類別中分別選取出至少一幅圖像;
[0011] 保存選取出的圖像,W生成知識(shí)庫(kù)。
[0012] 在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述選取出的圖像中任意兩幅圖像之間 的相似度低于第一預(yù)設(shè)闊值。
[0013] 在第一方面的第二種可能的實(shí)現(xiàn)方式中,所述將各段場(chǎng)景劃分為至少兩個(gè)場(chǎng)景類 另0,包括:
[0014] 每段場(chǎng)景為一個(gè)場(chǎng)景類別;
[0015] 或者,
[0016] 檢測(cè)至少一段場(chǎng)景和其不相鄰場(chǎng)景的相似度,并將相似度大于或等于第二預(yù)設(shè)闊 值的場(chǎng)景劃分為同一個(gè)場(chǎng)景類別。
[0017] 結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第=種可能的實(shí)現(xiàn)方式 中,所述檢測(cè)至少一段場(chǎng)景和其不相鄰場(chǎng)景的相似度,包括:
[001引從各段場(chǎng)景中分別選取一幅代表圖像;
[0019] 計(jì)算任意兩段不相鄰場(chǎng)景的代表圖像之間的相似度;所述相似度使用兩幅圖像之 間的圖像差、特征描述子相似度或運(yùn)動(dòng)補(bǔ)償殘差中的一種來衡量。
[0020] 在第一方面的第四種可能的實(shí)現(xiàn)方式中,所述從所述至少兩個(gè)場(chǎng)景類別中的至少 一個(gè)場(chǎng)景類別中分別選取出至少一幅圖像,包括:
[0021] 選取第一場(chǎng)景類別中任意一段場(chǎng)景的第一預(yù)設(shè)位置的圖像,所述第一場(chǎng)景類別為 所述至少一個(gè)場(chǎng)景類別中的任意一個(gè)場(chǎng)景類別;
[002引或者,
[0023]根據(jù)所述第一場(chǎng)景類別中各段場(chǎng)景的活動(dòng)性選取圖像,所述活動(dòng)性使用運(yùn)動(dòng)矢量 強(qiáng)度、圖像差、運(yùn)動(dòng)補(bǔ)償殘差或者圖像特征變化中的至少一種來衡量;其中,所述圖像特征 至少包括亮度直方圖、色度直方圖、特征描述子中的一種,所述特征描述子至少包括尺度不 變轉(zhuǎn)換SIFT特征描述子、加速穩(wěn)健特征SURF特征描述子中的一種。
[0024] 結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式 中,所述第一預(yù)設(shè)位置屬于所述待編碼視頻中的隨機(jī)訪問點(diǎn)。
[0025]在第一方面的第六種可能的實(shí)現(xiàn)方式中,所述保存選取出的圖像,W生成知識(shí)庫(kù), 具體包括:
[0026]對(duì)選取出的圖像進(jìn)行編碼,生成重建圖像;
[0027]保存重建圖像,W生成知識(shí)庫(kù)。
[0028] 結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式,在第一方面的第走種可能的實(shí)現(xiàn)方式 中,所述根據(jù)所述第一場(chǎng)景類別中各段場(chǎng)景的活動(dòng)性選取圖像,包括:
[0029] 計(jì)算所述第一場(chǎng)景類別中每段場(chǎng)景的活動(dòng)性;
[0030]根據(jù)所述每段場(chǎng)景的活動(dòng)性,確定每段場(chǎng)景中需要選取圖像的數(shù)量;
[0031] 采用第一預(yù)設(shè)選取規(guī)則,在每段場(chǎng)景中選取圖像,所述選取圖像的數(shù)量與所述需 要選取圖像的數(shù)量相同。
[0032] 結(jié)合第一方面的第走種可能的實(shí)現(xiàn)方式,在第一方面的第八種可能的實(shí)現(xiàn)方式 中,當(dāng)?shù)谝粓?chǎng)景類別中只包含有一段場(chǎng)景,且在該段場(chǎng)景中需要選取圖像的數(shù)量為零時(shí),貝U 將所述第一場(chǎng)景類別需要選取圖像的數(shù)量修改為一;
[0033]當(dāng)所述第一場(chǎng)景類別中包含至少兩段場(chǎng)景,且所有場(chǎng)景中需要選取圖像的數(shù)量均 為零時(shí),則將所述第一場(chǎng)景類別中其中一段場(chǎng)景需要選取圖像的數(shù)量修改為一。
[0034] 結(jié)合第一方面的第走種可能的實(shí)現(xiàn)方式或第八種可能的實(shí)現(xiàn)方式,在第一方面的 第九種可能的實(shí)現(xiàn)方式中,每段場(chǎng)景中需要選取圖像的數(shù)量和該段場(chǎng)景的活動(dòng)性呈單調(diào)遞 增關(guān)系,但每段場(chǎng)景中需要選取圖像的數(shù)量不超過第=預(yù)設(shè)闊值。
[0035] 結(jié)合第一方面的第走種可能的實(shí)現(xiàn)方式,在第一方面的第十種可能的實(shí)現(xiàn)方式 中,所述采用第一預(yù)設(shè)選取規(guī)則,在每段場(chǎng)景中選取圖像,包括:
[0036]根據(jù)選取圖像的數(shù)量,等間隔或近似等間隔地從場(chǎng)景中選取出相應(yīng)數(shù)量的圖像。
[0037] 結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式,在第一方面的第十一種可能的實(shí)現(xiàn)方式 中,所述根據(jù)所述第一場(chǎng)景類別中各段場(chǎng)景的活動(dòng)性選取圖像,包括:
[0038] 計(jì)算所述第一場(chǎng)景類別中位于第二預(yù)設(shè)位置的圖像的活動(dòng)性;
[0039] 根據(jù)各個(gè)位于第二預(yù)設(shè)位置的圖像的活動(dòng)性和第二預(yù)設(shè)選取規(guī)則,選取所述第一 場(chǎng)景類別中的圖像。
[0040] 結(jié)合第一方面的第十一種可能的實(shí)現(xiàn)方式,在第一方面的第十二種可能的實(shí)現(xiàn)方 式中,所述根據(jù)各個(gè)位于第二預(yù)設(shè)位置的圖像的活動(dòng)性和第二預(yù)設(shè)選取規(guī)則,選取所述第 一場(chǎng)景類別中的圖像,包括:
[0041] 從第一幅位于第二預(yù)設(shè)位置的圖像開始,累積各幅位于第二預(yù)設(shè)位置的圖像的活 動(dòng)性;
[0042] 當(dāng)活動(dòng)性累積達(dá)到第四預(yù)設(shè)闊值時(shí),選取對(duì)應(yīng)位置的圖像;
[0043] 將活動(dòng)性清零,從選取出的圖像所在位置的下一個(gè)第二預(yù)設(shè)位置開始重復(fù)上述累 積活動(dòng)性、達(dá)到第四預(yù)設(shè)闊值時(shí)選取對(duì)應(yīng)位置圖像的過程,直到遍歷完所述第一場(chǎng)景類別 中所有位于第二預(yù)設(shè)位置的圖像。
[0044] 結(jié)合第一方面的第十一種可能的實(shí)現(xiàn)方式,在第一方面的第十=種可能的實(shí)現(xiàn)方 式中,所述第二預(yù)設(shè)位置屬于所述待編碼視頻中的隨機(jī)訪問點(diǎn)。
[0045] 結(jié)合前述第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式至第十=種可能的實(shí)現(xiàn) 方式中的任意一種可能的實(shí)現(xiàn)方式,在第一方面的第十四種可能的實(shí)現(xiàn)方式中,所述選取 出的圖像屬于所述待編碼視頻中的隨機(jī)訪問點(diǎn)所在的圖像。
[0046] 結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式或第十=種可能的實(shí)現(xiàn)方式至第十四種 可能的實(shí)現(xiàn)方式中的任意一種可能的實(shí)現(xiàn)方式,在第一方面的第十五種可能的實(shí)現(xiàn)方式 中,所述待編碼視頻中的隨機(jī)訪問點(diǎn)所在的圖像采用帖內(nèi)編碼,或者僅參考知識(shí)庫(kù)中的至 少一幅圖像采用帖間編碼。
[0047] 結(jié)合前述第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式至第十五種可能的實(shí)現(xiàn) 方式中的任意一種可能的實(shí)現(xiàn)方式,在第一方面的第十六種可能的實(shí)現(xiàn)方式中,所述方法 還包括:
[0048] 獲取當(dāng)前圖像,所述當(dāng)前圖像為所述待編碼視頻中至少一幅圖像;
[0049] 從所述知識(shí)庫(kù)中選擇所述當(dāng)前圖像的至少一幅參考圖像;
[0050] 根據(jù)所述至少一幅參考圖像對(duì)所述當(dāng)前圖像進(jìn)行編碼。
[0051] 結(jié)合第一方面的第十六種可能的實(shí)現(xiàn)方式,在第一方面的第十走種可能的實(shí)現(xiàn)方 式中,所述當(dāng)前圖像至少包括所述待編碼視頻中至少一個(gè)隨機(jī)訪問點(diǎn)所在的圖像。
[0052] 結(jié)合第一方面的第十六種可能的實(shí)現(xiàn)方式,在第一方面的第十八種可能的實(shí)現(xiàn)方 式中,從所述知識(shí)庫(kù)中選擇所述當(dāng)前圖像的至少一幅參考圖像,包括:
[0053] 將所述當(dāng)前圖像和所述知識(shí)庫(kù)中至少一幅圖像進(jìn)行相似度比較;
[0054] 選取相似度超過第五預(yù)設(shè)闊值的N幅圖像作為當(dāng)前圖像的參考圖像,其中N為大 于等于1的整數(shù)。
[00巧]第二方面,本發(fā)明實(shí)施例提供了一種視頻處理裝置,包括:
[0056] 分割單元,用于將待編碼視頻分割為至少兩段場(chǎng)景,W及用于將各段場(chǎng)景劃分為 至少兩個(gè)場(chǎng)景類別;
[0057] 選取單元,用于從所述至少兩個(gè)場(chǎng)景類別中的至少一個(gè)場(chǎng)景類別中分別選取出至 少一幅圖像;
[0058] 存儲(chǔ)單元,用于保存所述選取單元選取出的圖像,W生成知識(shí)庫(kù)。
[0059] 在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述選取出的圖像中任意兩幅圖像之間 的相似度低于第一預(yù)設(shè)闊值。
[0060] 在第二方面的第二種可能的實(shí)現(xiàn)方式中,所述分割單元,具體用于將每段場(chǎng)景劃 分為一個(gè)場(chǎng)景類別;
[006 U或者,
[0062] 所述分割單元,具體用于檢測(cè)至少一段場(chǎng)景和其不相鄰場(chǎng)景的相似度,并將相似 度大于或等于第二預(yù)設(shè)闊值的場(chǎng)景劃分為同一個(gè)場(chǎng)景類別。
[0063] 結(jié)合第二方面的第二種可能的實(shí)現(xiàn)方式,在第二方面的第=種可能的實(shí)現(xiàn)方式 中,所述選取單元,具體用于從各段場(chǎng)景中分別選取一幅代表圖像;
[0064] 所述視頻處理裝置還包括計(jì)算單元;
[0065] 所述計(jì)算單元,用于計(jì)算任意兩段不相鄰場(chǎng)景的代表圖像之間的相似度;所述相 似度使用兩幅圖像之間的圖像差、特征描述子相似度或運(yùn)動(dòng)補(bǔ)償殘差中的一種來衡量。
[0066] 在第二方面的第四種可能的實(shí)現(xiàn)方式中,所述選取單元,具體用于選取第一場(chǎng)景 類別中任意一段場(chǎng)景的第一預(yù)設(shè)位置的圖像,所述第一場(chǎng)景類別為所述至少一個(gè)場(chǎng)景類別 中的任意一個(gè)場(chǎng)景類別;
[0067] 所述選取單元,具體用于根據(jù)所述第一場(chǎng)景類別中各段場(chǎng)景的活動(dòng)性選取圖像, 所述活動(dòng)性使用運(yùn)動(dòng)矢量強(qiáng)度、圖像差、運(yùn)動(dòng)補(bǔ)償殘差或者圖像特征變化中的至少一種來 衡量;其中,所述圖像特征至少包括亮度直方圖、色度直方圖、特征描述子中的一種,所述特 征描述子至少包括尺度不變轉(zhuǎn)換SIFT特征描述子、加速穩(wěn)健特征SURF特征描述子中的一 種。
[0068] 結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式,在第二方面的第五種可能的實(shí)現(xiàn)方式 中,所述第一預(yù)設(shè)位置屬于所述待編碼視頻中的隨機(jī)訪問點(diǎn)。
[0069] 在第二方面的第六種可能的實(shí)現(xiàn)方式中,所述視頻處理裝置還包括處理單元;
[0070] 所述處理單元,還用于對(duì)選取出的圖像進(jìn)行編碼,生成重建圖像;
[0071] 所述存儲(chǔ)單元,具體用于保存所述處理單元生成的重建圖像,W生成知識(shí)庫(kù)。
[0072] 結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式,在第二方面的第走種可能的實(shí)現(xiàn)方式 中,所述計(jì)算單元,還用于計(jì)算所述第一場(chǎng)景類別中每段場(chǎng)景的活動(dòng)性;
[0073] 所述視頻處理裝置還包括確定單元;
[0074] 所述確定單元,用于根據(jù)所述計(jì)算單元計(jì)算的每段場(chǎng)景的活動(dòng)性,確定每段場(chǎng)景 中需要選取圖像的數(shù)量;
[0075] 所述選取單元,還用于采用第一預(yù)設(shè)選取規(guī)則,在每段場(chǎng)景中選取圖像,所述選取 圖像的數(shù)量與所述需要選取圖像的數(shù)量相同。
[0076] 結(jié)合第二方面的第走種可能的實(shí)現(xiàn)方式,在第二方面的第八種可能的實(shí)現(xiàn)方式 中,當(dāng)?shù)谝粓?chǎng)景類別中只包含有一段場(chǎng)景,且在該段場(chǎng)景中需要選取圖像的數(shù)量為零時(shí),貝U 將所述第一場(chǎng)景類別需要選取圖像的數(shù)量修改為一;
[0077] 當(dāng)所述第一場(chǎng)景類別中包含至少兩段場(chǎng)景,且所有場(chǎng)景中需要選取圖像的數(shù)量均 為零時(shí),則將所述第一場(chǎng)景類別中其中一段場(chǎng)景需要選取圖像的數(shù)量修改為一。
[0078] 結(jié)合第二方面的第走種可能的實(shí)現(xiàn)方式或第八種可能的實(shí)現(xiàn)方式,在第二方面的 第九種可能的實(shí)現(xiàn)方式中,每段場(chǎng)景中需要選取圖像的數(shù)量和該段場(chǎng)景的活動(dòng)性呈單調(diào)遞 增關(guān)系,但每段場(chǎng)景中需要選取圖像的數(shù)量不超過第=預(yù)設(shè)闊值。
[0079] 結(jié)合第二方面的第走種可能的實(shí)現(xiàn)方式,在第二方面的第十種可能的實(shí)現(xiàn)方式 中,所述選取單元,還用于根據(jù)選取圖像的數(shù)量,等間隔或近似等間隔地從場(chǎng)景中選取出相 應(yīng)數(shù)量的圖像。
[0080] 結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式,在第二方面的第十一種可能的實(shí)現(xiàn)方式 中,所述計(jì)算單元,還用于計(jì)算所述第一場(chǎng)景類別中位于第二預(yù)設(shè)位置的圖像的活動(dòng)性;
[0081] 所述選取單元,還用于根據(jù)所述計(jì)算單元計(jì)算的各個(gè)位于第二預(yù)設(shè)位置的圖像的 活動(dòng)性和第二預(yù)設(shè)選取規(guī)則,選取所述第一場(chǎng)景類別中的圖像。
[0082] 結(jié)合第二方面的第^^一種可能的實(shí)現(xiàn)方式,在第二方面的第十二種可能的實(shí)現(xiàn)方 式中,所述處理單元,還用于從第一幅位于第二預(yù)設(shè)位置的圖像開始,累積各幅位于第二預(yù) 設(shè)位置的圖像的活動(dòng)性;
[0083] 所述選取單元,還用于當(dāng)活動(dòng)性累積達(dá)到第四預(yù)設(shè)闊值時(shí),選取對(duì)應(yīng)位置的圖像。
[0084] 結(jié)合第二方面的第十一種可能的實(shí)現(xiàn)方式,在第二方面的第十=種可能的實(shí)現(xiàn)方 式中,所述第二預(yù)設(shè)位置屬于所述待編碼視頻中的隨機(jī)訪問點(diǎn)。
[0085] 結(jié)合前述第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式至第十=種可能的實(shí)現(xiàn) 方式中的任意一種可能的實(shí)現(xiàn)方式,在第二方面的第十四種可能的實(shí)現(xiàn)方式中,所述選取 出的圖像屬于所述待編碼視頻中的隨機(jī)訪問點(diǎn)所在的圖像。
[0086] 結(jié)合第二方面的第五種可能的實(shí)現(xiàn)方式或第十=種可能的實(shí)現(xiàn)方式至第十四種 可能的實(shí)現(xiàn)方式中的任意一種可能的實(shí)現(xiàn)方式,在第二方面的第十五種可能的實(shí)現(xiàn)方式 中,所述待編碼視頻中的隨機(jī)訪問點(diǎn)所在的圖像采用帖內(nèi)編碼,或者僅參考知識(shí)庫(kù)中的至 少一幅圖像采用帖間編碼。
[0087] 結(jié)合前述第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式至第十五種可能的實(shí)現(xiàn) 方式中的任意一種可能的實(shí)現(xiàn)方式,在第二方面的第十六種可能的實(shí)現(xiàn)方式中,所述視頻 處理裝置還包括獲取單元;
[0088] 所述獲取單元,用于獲取當(dāng)前圖像,所述當(dāng)前圖像為所述待編碼視頻中至少一幅 圖像;
[0089] 所述選取單元,還用于從所述知識(shí)庫(kù)中選擇所述當(dāng)前圖像的至少一幅參考圖像;<