一種多媒體數(shù)據(jù)處理方法及其裝置與流程

文檔序號(hào)：12476040閱讀：315來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及多媒體技術(shù)領(lǐng)域，尤其涉及一種多媒體數(shù)據(jù)處理方法及其裝置。

背景技術(shù)：

歌曲一般由一定結(jié)構(gòu)性的段落如前奏，兩段主歌，一段副歌，過門音樂，重復(fù)一次的副歌和主歌，以及結(jié)尾音樂順序地連接而成的。副歌，通常是我們口頭所說的音樂的高潮部分，作為一首歌曲的標(biāo)志，常?？蓱?yīng)用于音樂試聽、手機(jī)彩鈴等等。在一些歌曲處理過程中，也經(jīng)常需要對(duì)副歌進(jìn)行分析和處理，比如確定歌曲基調(diào)，音樂搜索，樂曲識(shí)別等等。

由于歌曲中信號(hào)的復(fù)雜性和不同歌曲之間的差異性，為副歌定位帶來了很多困難。現(xiàn)有的副歌檢測方法主要包括以下方式：歌詞或樂譜檢測法，通過對(duì)歌詞的相似性進(jìn)行檢測或根據(jù)樂譜特征進(jìn)行檢測，該方法對(duì)歌詞或樂譜依賴性較高且準(zhǔn)確度不高；音頻特征檢測法，例如通過重復(fù)片段或節(jié)拍等規(guī)律來檢測副歌的位置，只能適用于特征規(guī)律的歌曲，難以滿足較為復(fù)雜性的歌曲的副歌定位。因此，如何準(zhǔn)確地對(duì)歌曲的副歌進(jìn)行定位，成為當(dāng)前亟需解決的關(guān)鍵問題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例提供一種多媒體數(shù)據(jù)處理方法及其裝置，可以完成對(duì)副歌的準(zhǔn)確定位。

本發(fā)明實(shí)施例第一方面提供了一種多媒體數(shù)據(jù)處理方法，可包括：

獲取多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本，并生成各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣；各音頻文件樣本中的幀數(shù)相同；每個(gè)目標(biāo)音頻能量矩陣中的各元素分別為所述目標(biāo)音頻文件樣本中各幀的音頻能量值；

對(duì)所有所述目標(biāo)音頻能量矩陣中各幀的音頻能量值進(jìn)行均值化處理，獲得目標(biāo)均值化矩陣，所述目標(biāo)均值化矩陣中的各元素為各幀的音頻能量平均值；

將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀，并根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。

本發(fā)明實(shí)施例第二方面提供了一種多媒體數(shù)據(jù)處理裝置，可包括：

樣本獲取單元，用于獲取多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本；

矩陣生成單元，生成各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣；各音頻文件樣本中的幀數(shù)相同；每個(gè)目標(biāo)音頻能量矩陣中的各元素分別為所述目標(biāo)音頻文件樣本中各幀的音頻能量值；

均值化處理單元，用于對(duì)所有所述目標(biāo)音頻能量矩陣中各幀的音頻能量值進(jìn)行均值化處理，獲得目標(biāo)均值化矩陣，所述目標(biāo)均值化矩陣中的各元素為各幀的音頻能量平均值；

幀確定單元，用于將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀；

副歌起始單元，用于根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。

在本發(fā)明實(shí)施例中，可通過獲取多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本，并生成各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣，然后對(duì)所有所述目標(biāo)音頻能量矩陣中各幀的音頻能量值進(jìn)行均值化處理，獲得目標(biāo)均值化矩陣，并將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀，并根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻，完成對(duì)多媒體數(shù)據(jù)的副歌的準(zhǔn)確定位。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明實(shí)施例提供的一種多媒體數(shù)據(jù)處理方法的流程示意圖；

圖2是本發(fā)明實(shí)施例提供的另一種多媒體數(shù)據(jù)處理方法的流程示意圖；

圖3是本發(fā)明實(shí)施例提供的一種多媒體數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖；

圖4是本發(fā)明實(shí)施例提供的另一種多媒體數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖；

圖5是本發(fā)明實(shí)施例提供的矩陣生成單元的結(jié)構(gòu)示意圖；

圖6是本發(fā)明實(shí)施例提供的副歌起始單元的結(jié)構(gòu)示意圖；

圖7是本發(fā)明實(shí)施例提供的又一種多媒體數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

下面將結(jié)合附圖1-附圖2，對(duì)本發(fā)明實(shí)施例提供的多媒體數(shù)據(jù)處理方法進(jìn)行詳細(xì)介紹。

請(qǐng)參見圖1，為本發(fā)明實(shí)施例提供的一種多媒體數(shù)據(jù)處理方法的流程示意圖。如圖1所示，本發(fā)明實(shí)施例的所述方法可以包括以下步驟S101-步驟S103。

S101，獲取多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本，并生成各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣。

具體的，由于當(dāng)前一些歌曲類應(yīng)用軟件較為普及，用戶可以通過這些軟件演唱歌曲并進(jìn)行存儲(chǔ)或處理，因此這些應(yīng)用的應(yīng)用數(shù)據(jù)庫中，會(huì)存儲(chǔ)有大量的用戶演唱數(shù)據(jù)。本發(fā)明實(shí)施例可以基于上述數(shù)據(jù)進(jìn)行副歌定位。如通過在數(shù)據(jù)庫中獲取任意選取一首歌曲(多媒體數(shù)據(jù))中的多個(gè)用戶演唱的音頻文件，或者是任意一首歌曲的某個(gè)用戶演唱的多個(gè)音頻文件，作為該多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本。

本發(fā)明實(shí)施例中，第n個(gè)音頻文件樣本可采用Sn(n＝1,2,3.....N)來表示，假設(shè)音頻數(shù)據(jù)長度為L(標(biāo)準(zhǔn)長度，可以以原唱歌曲長度為準(zhǔn))，設(shè)定幀長為FL，確定音頻數(shù)據(jù)幀個(gè)數(shù)M(M＝L/FL，當(dāng)樣本Sn的實(shí)際數(shù)據(jù)長度L’≠L時(shí)，可以統(tǒng)一補(bǔ)零或截?cái)?，以使L’＝L),各音頻文件樣本中的幀數(shù)相同，且每個(gè)目標(biāo)音頻能量矩陣中的各元素分別為所述目標(biāo)音頻文件樣本中各幀的音頻能量值，即樣本Sn(n＝1,2,3.....N)對(duì)應(yīng)的目標(biāo)音頻能量矩陣En為：

S1：E1＝{E₁(1)，E₁(2)，E₁(3)，......，E₁(M)}；

S2：E2＝{E₂(1)，E₂(2)，E₂(3)，......，E₂(M)}；

S3：E3＝{E₃(1)，E₃(2)，E₃(3)，......，E₃(M)}；

.......

SN：EN＝{E_N(1)，E_N(2)，E_N(3)，......，E_N(M)}。

其中，E_n(K)表示樣本Sn中的第K幀的音頻能量值，K＝1,2,3.....M。

S102，對(duì)所有所述目標(biāo)音頻能量矩陣中各幀的音頻能量值進(jìn)行均值化處理，獲得目標(biāo)均值化矩陣。

具體的，對(duì)所有所述目標(biāo)音頻能量矩陣中各幀的音頻能量值進(jìn)行均值化處理，獲得目標(biāo)均值化矩陣，所述目標(biāo)均值化矩陣中的各元素為各幀的音頻能量平均值。本發(fā)明實(shí)施例中，生成各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣之后，可以對(duì)所有所述目標(biāo)音頻能量矩陣中各幀的音頻能量值進(jìn)行均值化處理，獲得目標(biāo)均值化矩陣，均值化處理具體過程包括：將E1～EN中的各元素分別按幀進(jìn)行疊加，并除以幀個(gè)數(shù)N，即

E_r(1)＝(E₁(1)+E₂(1)+E₃(1)+......+E_N(1))/N；

E_r(2)＝(E₁(2)+E₂(2)+E₃(2)+......+E_N(2))/N；

......

E_r(M)＝(E₁(M)+E₂(M)+E₃(M)+......+E_N(M))/N；

其中，目標(biāo)均值化矩陣用Er表示，Er＝{E_r(1)，E_r(2)，E_r(3)，......，E_r(M)}。

S103，將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀，并根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。

具體的，將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀，并根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。本發(fā)明實(shí)施例中，假設(shè)E_r(3)為最大音頻能量平均值，則將E_r(3)對(duì)應(yīng)的幀確定為目標(biāo)幀，即第三幀確定為目標(biāo)幀。根據(jù)目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻的計(jì)算公式(1)為：

T_K＝K*FL/fs (1)

其中，T_K表示多媒體數(shù)據(jù)的副歌起始時(shí)刻，K表示第幾幀，fs為音頻文件的采樣率。

請(qǐng)參見圖2，為本發(fā)明實(shí)施例提供的另一種多媒體數(shù)據(jù)處理方法的流程示意圖。如圖2所示，所述方法可以包括以下步驟S201-步驟S209。

S201，獲取多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本。

S202，判斷所述多個(gè)音頻文件樣本中的聲道屬性是否均為單聲道。

具體的，聲道是指聲音在錄制或播放時(shí)在不同空間位置采集或回放的相互獨(dú)立的音頻信號(hào)，由于錄制時(shí)存在音源數(shù)量不同，多個(gè)音頻文件樣本中可能會(huì)出現(xiàn)一個(gè)或多個(gè)為非單聲道的樣本，這時(shí)，需要執(zhí)行步驟S203，若多個(gè)音頻文件樣本的聲道屬性均為單聲道，則可以執(zhí)行步驟S204。

S203，若否，基于向下混音算法將所述多個(gè)音頻文件樣本中非單聲道的音頻文件樣本的聲道屬性調(diào)整為單聲道。

具體的，若所述多個(gè)音頻文件樣本中存在聲道屬性為非單聲道的音頻文件樣本，例如存在一個(gè)或多個(gè)雙聲道的音頻文件，則可以基于向下混音算法將聲道屬性為非單聲道的音頻文件樣本的聲道屬性調(diào)整為單聲道。

S204，獲取各音頻文件樣本中各幀的音頻能量值。

具體的，本發(fā)明實(shí)施例中，第n個(gè)音頻文件樣本可采用Sn(n＝1,2,3.....N)來表示，假設(shè)音頻數(shù)據(jù)長度為L(標(biāo)準(zhǔn)長度，可以以原唱歌曲長度為準(zhǔn))，設(shè)定幀長為FL，將確定音頻數(shù)據(jù)幀個(gè)數(shù)M(M＝L/FL，當(dāng)樣本Sn的實(shí)際數(shù)據(jù)長度L’≠L時(shí)，可以統(tǒng)一補(bǔ)零或截?cái)?，以使L’＝L),各音頻文件樣本中的幀數(shù)相同，可獲取各音頻文件樣本中各幀的音頻能量值，能量值計(jì)算公式(2)為：

其中，x(i)(i＝0,1,2......N’)為每幀中的各個(gè)數(shù)據(jù)點(diǎn)的能量值，E_n(K)表示樣本Sn中的第K幀的音頻能量值，K＝1,2,3.....M。

具體獲取方式可以是：將各幀分別按照正常幀長FL分為多個(gè)數(shù)據(jù)點(diǎn)，獲取每幀中的各個(gè)數(shù)據(jù)點(diǎn)的能量值x(i)，然后按計(jì)算公式獲取各幀的能量值E_n(K)。

S205，將所述各音頻文件樣本中各幀的音頻能量值中低于預(yù)設(shè)能量閾值的音頻能量值設(shè)置為預(yù)設(shè)能量值，并生成所述各音頻文件樣本分別對(duì)應(yīng)的初始音頻能量矩陣。

具體的，本發(fā)明實(shí)施例中，預(yù)設(shè)能量閾值可以用Te表示，將所有E_n(K)與Te進(jìn)行比較，小于該Te的將其設(shè)置為預(yù)設(shè)能量值(例如0)，假設(shè)E₁(1)，E₁(2)，E₁(3)均小于Te，則生成的各音頻文件樣本分別對(duì)應(yīng)的初始音頻能量矩陣En’為：

S1：E1’＝{0，0，0，......，E₁(M)}；

S2：E2’＝{E₂(1)，E₂(2)，E₂(3)，......，E₂(M)}；

S3：E3’＝{E₃(1)，E₃(2)，E₃(3)，......，E₃(M)}；

.......

SN：EN’＝{E_N(1)，E_N(2)，E_N(3)，......，E_N(M)}。

S206，對(duì)各所述初始音頻能量矩陣分別進(jìn)行歸一化處理，生成所述各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣。

具體的，本發(fā)明實(shí)施例中，對(duì)各所述初始音頻能量矩陣分別進(jìn)行歸一化處理，歸一化公式為：

E’_N(M)＝E_N(M)/E_Nmax (3)

其中，E’_N(M)為歸一化后的各幀的能量值，E’_N(M)∈[0,1]。

S207，將所有所述目標(biāo)音頻能量矩陣中的音頻能量值按照相同列進(jìn)行疊加后除以所述目標(biāo)音頻能量矩陣的個(gè)數(shù)，并進(jìn)行濾波處理，獲得目標(biāo)矩陣。

具體的，將所有所述目標(biāo)音頻能量矩陣中的音頻能量值按照相同列(例如，E’₁(1)，E’₂(1)......和E’_N(1)為相同列上的音頻能量值)進(jìn)行疊加后除以所述目標(biāo)音頻能量矩陣的個(gè)數(shù)(假設(shè)為N)，并進(jìn)行濾波處理，獲得目標(biāo)矩陣，所述目標(biāo)音頻能量矩陣中的每列上的元素為每幀對(duì)應(yīng)的音頻能量值，即

E’_r(1)＝(E’₁(1)+E’₂(1)+E’₃(1)+......+E’_N(1))/N；

E’_r(2)＝(E’₁(2)+E’₂(2)+E’₃(2)+......+E’_N(2)/N；

......

E’_r(M)＝(E’₁(M)+E’₂(M)+E’₃(M)+......+E’_N(M)/N；

其中，目標(biāo)均值化矩陣用E’r表示，E’r＝{E’_r(1)，E’_r(2)，E’_r(3)，......，E’_r(M)}。進(jìn)一步地，可以對(duì)E’r進(jìn)行均值濾波或者中值濾波，濾波器階數(shù)為I，I的取值可以為7(具體可根據(jù)經(jīng)驗(yàn)選用)。

S208，將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀，并根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。

具體的，本發(fā)明實(shí)施例中，假設(shè)E’_r(3)為最大音頻能量平均值，則將E’_r(3)對(duì)應(yīng)的幀確定為目標(biāo)幀，即第三幀確定為目標(biāo)幀。通過獲取預(yù)設(shè)幀長、預(yù)設(shè)采樣率和目標(biāo)幀的位置信息，計(jì)算所述多媒體數(shù)據(jù)的第一目標(biāo)時(shí)刻，將所述第一目標(biāo)時(shí)刻確定為所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。根據(jù)目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻的計(jì)算公式(1)為：

T_K＝K*FL/fs (1)

其中，T_K表示多媒體數(shù)據(jù)的副歌起始時(shí)刻，K表示第幾幀，fs為音頻文件的采樣率。

S209，獲取副歌經(jīng)驗(yàn)時(shí)長，計(jì)算所述副歌經(jīng)驗(yàn)時(shí)長和所述副歌起始時(shí)刻的和，得到所述多媒體數(shù)據(jù)中的第二目標(biāo)時(shí)刻，將所述第二目標(biāo)時(shí)刻確定為所述多媒體數(shù)據(jù)的副歌終止時(shí)刻。

具體的，獲取副歌經(jīng)驗(yàn)時(shí)長，計(jì)算所述副歌經(jīng)驗(yàn)時(shí)長和所述副歌起始時(shí)刻的和，得到所述多媒體數(shù)據(jù)中的第二目標(biāo)時(shí)刻，將所述第二目標(biāo)時(shí)刻確定為所述多媒體數(shù)據(jù)的副歌終止時(shí)刻。多媒體數(shù)據(jù)的副歌終止時(shí)刻(即第二目標(biāo)時(shí)刻)T_over的計(jì)算公式(4)為：

T_over＝T_K+T_offset (4)

其中，T_offset為副歌經(jīng)驗(yàn)時(shí)長，T_K為多媒體數(shù)據(jù)的副歌起始時(shí)刻。

在本發(fā)明實(shí)施例中，可以通過獲取多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本，并判斷所述多個(gè)音頻文件樣本中的聲道屬性是否均為單聲道，若否，基于向下混音算法將所述多個(gè)音頻文件樣本中非單聲道的音頻文件樣本的聲道屬性調(diào)整為單聲道，然后獲取各音頻文件樣本中各幀的音頻能量值，將所述各音頻文件樣本中各幀的音頻能量值中低于預(yù)設(shè)能量閾值的音頻能量值設(shè)置為預(yù)設(shè)能量值，并生成所述各音頻文件樣本分別對(duì)應(yīng)的初始音頻能量矩陣，對(duì)各所述初始音頻能量矩陣分別進(jìn)行歸一化處理，生成所述各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣，將所有所述目標(biāo)音頻能量矩陣中的音頻能量值按照相同列進(jìn)行疊加后除以所述目標(biāo)音頻能量矩陣的個(gè)數(shù)，并進(jìn)行濾波處理，獲得目標(biāo)矩陣，將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀，并根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻，進(jìn)一步可獲取副歌經(jīng)驗(yàn)時(shí)長，計(jì)算所述副歌經(jīng)驗(yàn)時(shí)長和所述副歌起始時(shí)刻的和，得到所述多媒體數(shù)據(jù)中的第二目標(biāo)時(shí)刻，將所述第二目標(biāo)時(shí)刻確定為所述多媒體數(shù)據(jù)的副歌終止時(shí)刻，完成對(duì)多媒體數(shù)據(jù)的副歌的起始時(shí)刻和終止時(shí)刻進(jìn)行定位。

下面將結(jié)合附圖3-附圖7，對(duì)本發(fā)明實(shí)施例提供的多媒體數(shù)據(jù)處理裝置進(jìn)行詳細(xì)接收。需要說明的是，附圖3-附圖7所示的多媒體數(shù)據(jù)處理裝置，用于執(zhí)行本發(fā)明圖1-圖2所示實(shí)施例的方法，為了便于說明，僅示出了與本發(fā)明實(shí)施例相關(guān)的部分，具體技術(shù)細(xì)節(jié)未揭示的，請(qǐng)參照本發(fā)明圖1-圖2所示的實(shí)施例。

請(qǐng)參見圖3，為本發(fā)明實(shí)施例提供的一種多媒體數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。如圖3所示，本發(fā)明實(shí)施例的所述多媒體數(shù)據(jù)處理裝置1可以包括：樣本獲取單元11、矩陣生成單元12、均值化處理單元13、幀確定單元14和副歌起始單元15。

樣本獲取單元11，用于獲取多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本。

具體的，由于當(dāng)前一些歌曲類應(yīng)用軟件較為普及，用戶可以通過這些軟件演唱歌曲并進(jìn)行存儲(chǔ)或處理，因此這些應(yīng)用的應(yīng)用數(shù)據(jù)庫中，會(huì)存儲(chǔ)有大量的用戶演唱數(shù)據(jù)。本發(fā)明實(shí)施例可以基于上述數(shù)據(jù)進(jìn)行副歌定位。如樣本獲取單元11可通過在數(shù)據(jù)庫中獲取任意選取一首歌曲(多媒體數(shù)據(jù))中的多個(gè)用戶演唱的音頻文件，或者是任意一首歌曲的某個(gè)用戶演唱的多個(gè)音頻文件，作為該多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本。

矩陣生成單元12，生成各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣,各音頻文件樣本中的幀數(shù)相同，每個(gè)目標(biāo)音頻能量矩陣中的各元素分別為所述目標(biāo)音頻文件樣本中各幀的音頻能量值。

具體的，第n個(gè)音頻文件樣本可采用Sn(n＝1,2,3.....N)來表示，假設(shè)音頻數(shù)據(jù)長度為L(標(biāo)準(zhǔn)長度，可以以原唱歌曲長度為準(zhǔn))，設(shè)定幀長為FL，矩陣生成單元12確定音頻數(shù)據(jù)幀個(gè)數(shù)M(M＝L/FL，當(dāng)樣本Sn的實(shí)際數(shù)據(jù)長度L’≠L時(shí)，可以統(tǒng)一補(bǔ)零或截?cái)?，以使L’＝L),各音頻文件樣本中的幀數(shù)相同，且每個(gè)目標(biāo)音頻能量矩陣中的各元素分別為所述目標(biāo)音頻文件樣本中各幀的音頻能量值，即樣本Sn(n＝1,2,3.....N)對(duì)應(yīng)的目標(biāo)音頻能量矩陣En為：

S1：E1＝{E₁(1)，E₁(2)，E₁(3)，......，E₁(M)}；

S2：E2＝{E₂(1)，E₂(2)，E₂(3)，......，E₂(M)}；

S3：E3＝{E₃(1)，E₃(2)，E₃(3)，......，E₃(M)}；

.......

SN：EN＝{E_N(1)，E_N(2)，E_N(3)，......，E_N(M)}。

其中，E_n(K)表示樣本Sn中的第K幀的音頻能量值，K＝1,2,3.....M。

均值化處理單元13，用于對(duì)所有所述目標(biāo)音頻能量矩陣中各幀的音頻能量值進(jìn)行均值化處理，獲得目標(biāo)均值化矩陣，所述目標(biāo)均值化矩陣中的各元素為各幀的音頻能量平均值。

具體的，均值化處理單元13對(duì)所有所述目標(biāo)音頻能量矩陣中各幀的音頻能量值進(jìn)行均值化處理，獲得目標(biāo)均值化矩陣，所述目標(biāo)均值化矩陣中的各元素為各幀的音頻能量平均值。本發(fā)明實(shí)施例中，均值化處理單元13生成各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣之后，可以對(duì)所有所述目標(biāo)音頻能量矩陣中各幀的音頻能量值進(jìn)行均值化處理，獲得目標(biāo)均值化矩陣，均值化處理具體過程包括：將E1～EN中的各元素分別按幀進(jìn)行疊加，并除以幀個(gè)數(shù)N，即

E_r(1)＝(E₁(1)+E₂(1)+E₃(1)+......+E_N(1))/N；

E_r(2)＝(E₁(2)+E₂(2)+E₃(2)+......+E_N(2)/N；

......

E_r(M)＝(E₁(M)+E₂(M)+E₃(M)+......+E_N(M)/N；

其中，目標(biāo)均值化矩陣用Er表示，Er＝{E_r(1)，E_r(2)，E_r(3)，......，E_r(M)}。

幀確定單元14，用于將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀。

具體的，幀確定單元14將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀，并根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。本發(fā)明實(shí)施例中，假設(shè)E_r(3)為最大音頻能量平均值，則將E_r(3)對(duì)應(yīng)的幀確定為目標(biāo)幀，即第三幀確定為目標(biāo)幀。

副歌起始單元15，用于根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。

具體的，副歌起始單元15根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。副歌起始單元15根據(jù)目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻的計(jì)算公式(1)為：

T_K＝K*FL/fs (1)

其中，T_K表示多媒體數(shù)據(jù)的副歌起始時(shí)刻，K表示第幾幀，fs為音頻文件的采樣率。

請(qǐng)參見圖4，為本發(fā)明實(shí)施例提供的另一種多媒體數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。如圖4所示，本發(fā)明實(shí)施例的所述多媒體數(shù)據(jù)處理裝置1除包括圖4所述的單元外，還可以包括：時(shí)長獲取單元16、和計(jì)算單元17、副歌終止單元18、判斷單元19和調(diào)整單元20。

樣本獲取單元11，用于獲取多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本。

所述樣本獲取單元11所執(zhí)行的動(dòng)作的詳細(xì)解釋請(qǐng)參考圖3對(duì)應(yīng)的實(shí)施例中的相應(yīng)單元，在此不再贅述。

判斷單元19，用于判斷所述多個(gè)音頻文件樣本中的聲道屬性是否均為單聲道。

具體的，聲道是指聲音在錄制或播放時(shí)在不同空間位置采集或回放的相互獨(dú)立的音頻信號(hào)，由于錄制時(shí)存在音源數(shù)量不同，多個(gè)音頻文件樣本中可能會(huì)出現(xiàn)一個(gè)或多個(gè)為非單聲道的樣本，若判斷單元19判斷所述多個(gè)音頻文件樣本中的聲道屬性不均為單聲道，即多個(gè)音頻文件樣本中存在非單聲道的音頻文件樣本，則調(diào)用調(diào)整單元20進(jìn)行調(diào)整，若多個(gè)音頻文件樣本的聲道屬性均為單聲道，則調(diào)用矩陣生成單元12。

調(diào)整單元20，用于若所述多個(gè)音頻文件樣本中存在聲道屬性為非單聲道的音頻文件樣本，基于向下混音算法將所述多個(gè)音頻文件樣本中非單聲道的音頻文件樣本的聲道屬性調(diào)整為單聲道。

具體的，若所述多個(gè)音頻文件樣本中存在聲道屬性為非單聲道的音頻文件樣本，例如存在一個(gè)或多個(gè)雙聲道的音頻文件，則調(diào)整單元20可以基于向下混音算法將聲道屬性為非單聲道的音頻文件樣本的聲道屬性調(diào)整為單聲道。

矩陣生成單元12，用于生成各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣；各音頻文件樣本中的幀數(shù)相同。

具體的，請(qǐng)參見圖5，,圖5為本發(fā)明實(shí)施例提供的矩陣生成單元的結(jié)構(gòu)示意圖，所述矩陣生成單元12具體包括：能量值獲取子單元121、設(shè)置子單元122、生成子單元123和歸一化處理子單元124。

能量值獲取子單元121，用于獲取各音頻文件樣本中各幀的音頻能量值。

具體的，本發(fā)明實(shí)施例中，第n個(gè)音頻文件樣本可采用Sn(n＝1,2,3.....N)來表示，假設(shè)音頻數(shù)據(jù)長度為L(標(biāo)準(zhǔn)長度，可以以原唱歌曲長度為準(zhǔn))，設(shè)定幀長為FL，將確定音頻數(shù)據(jù)幀個(gè)數(shù)M(M＝L/FL，當(dāng)樣本Sn的實(shí)際數(shù)據(jù)長度L’≠L時(shí)，可以統(tǒng)一補(bǔ)零或截?cái)?，以使L’＝L),各音頻文件樣本中的幀數(shù)相同，能量值獲取子單元121可獲取各音頻文件樣本中各幀的音頻能量值，能量值計(jì)算公式(2)為：

其中，x(i)(i＝0,1,2......N’)為每幀中的各個(gè)數(shù)據(jù)點(diǎn)的能量值，E_n(K)表示樣本Sn中的第K幀的音頻能量值，K＝1,2,3.....M。

具體獲取方式可以是：將各幀分別按照正常幀長FL分為多個(gè)數(shù)據(jù)點(diǎn)，能量值獲取子單元121獲取每幀中的各個(gè)數(shù)據(jù)點(diǎn)的能量值x(i)，然后按計(jì)算公式獲取各幀的能量值E_n(K)。

設(shè)置子單元122，用于將所述各音頻文件樣本中各幀的音頻能量值中低于預(yù)設(shè)能量閾值的音頻能量值設(shè)置為預(yù)設(shè)能量值。

生成子單元123，用于生成所述各音頻文件樣本分別對(duì)應(yīng)的初始音頻能量矩陣。

具體的，本發(fā)明實(shí)施例中，預(yù)設(shè)能量閾值可以用Te表示，設(shè)置子單元122將所有E_n(K)與Te進(jìn)行比較，小于該Te的將其設(shè)置為預(yù)設(shè)能量值(例如0)，假設(shè)E₁(1)，E₁(2)，E₁(3)均小于Te，則生成子單元123生成的各音頻文件樣本分別對(duì)應(yīng)的初始音頻能量矩陣En’為：

S1：E1’＝{0，0，0，......，E₁(M)}；

S2：E2’＝{E₂(1)，E₂(2)，E₂(3)，......，E₂(M)}；

S3：E3’＝{E₃(1)，E₃(2)，E₃(3)，......，E₃(M)}；

.......

SN：EN’＝{E_N(1)，E_N(2)，E_N(3)，......，E_N(M)}。

歸一化處理子單元124，用于對(duì)各所述初始音頻能量矩陣分別進(jìn)行歸一化處理，生成所述各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣。

具體的，本發(fā)明實(shí)施例中，歸一化處理子單元124對(duì)各所述初始音頻能量矩陣分別進(jìn)行歸一化處理，歸一化公式為：

E’_N(M)＝E_N(M)/E_Nmax (3)

其中，E’_N(M)為歸一化后的各幀的能量值，E’_N(M)∈[0,1]。

均值化處理單元13，用于將所有所述目標(biāo)音頻能量矩陣中的音頻能量值按照相同列進(jìn)行疊加后除以所述目標(biāo)音頻能量矩陣的個(gè)數(shù)，并進(jìn)行濾波處理，獲得目標(biāo)矩陣。

具體的，均值化處理單元13將所有所述目標(biāo)音頻能量矩陣中的音頻能量值按照相同列(例如，E’₁(1)，E’₂(1)......和E’_N(1)為相同列上的音頻能量值)進(jìn)行疊加后除以所述目標(biāo)音頻能量矩陣的個(gè)數(shù)(假設(shè)為N)，并進(jìn)行濾波處理，獲得目標(biāo)矩陣，所述目標(biāo)音頻能量矩陣中的每列上的元素為每幀對(duì)應(yīng)的音頻能量值，即

E’_r(1)＝(E’₁(1)+E’₂(1)+E’₃(1)+......+E’_N(1))/N；

E’_r(2)＝(E’₁(2)+E’₂(2)+E’₃(2)+......+E’_N(2)/N；

......

E’_r(M)＝(E’₁(M)+E’₂(M)+E’₃(M)+......+E’_N(M)/N；

幀確定單元14，用于將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀，

所述幀確定單元14所執(zhí)行的動(dòng)作的詳細(xì)解釋請(qǐng)參考圖3對(duì)應(yīng)的實(shí)施例中的相應(yīng)單元，在此不再贅述。

副歌起始單元15，用于根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。

如圖6所示，圖6為本發(fā)明實(shí)施例提供的副歌起始單元的結(jié)構(gòu)示意圖，所述副歌起始單元15包括信息獲取子單元151、計(jì)算子單元152和確定子單元153。

信息獲取子單元151，用于獲取預(yù)設(shè)幀長、預(yù)設(shè)采樣率和目標(biāo)幀的位置信息。

計(jì)算子單元152，用于根據(jù)所述預(yù)設(shè)幀長、所述預(yù)設(shè)采樣率和所述目標(biāo)幀的位置信息計(jì)算所述多媒體數(shù)據(jù)的第一目標(biāo)時(shí)刻。

確定子單元153，用于將所述第一目標(biāo)時(shí)刻確定為所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。

具體的，根據(jù)目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻的計(jì)算公式(1)為：

T_K＝K*FL/fs (1)

其中，T_K表示多媒體數(shù)據(jù)的副歌起始時(shí)刻，K表示第幾幀，fs為音頻文件的采樣率。

時(shí)長獲取單元16，用于獲取副歌經(jīng)驗(yàn)時(shí)長。

和計(jì)算單元17，用于計(jì)算所述副歌經(jīng)驗(yàn)時(shí)長和所述副歌起始時(shí)刻的和，得到所述多媒體數(shù)據(jù)中的第二目標(biāo)時(shí)刻。

副歌終止單元18，用于將所述第二目標(biāo)時(shí)刻確定為所述多媒體數(shù)據(jù)的副歌終止時(shí)刻。

T_over＝T_K+T_offset (3)

其中，T_offset為副歌經(jīng)驗(yàn)時(shí)長，T_K為多媒體數(shù)據(jù)的副歌起始時(shí)刻。

請(qǐng)參見圖7，為本發(fā)明實(shí)施例提供的又一種多媒體數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。如圖7所示，本發(fā)明實(shí)施例的所述多媒體數(shù)據(jù)處理裝置1000可以包括：至少一個(gè)處理器1001，例如CPU，至少一個(gè)輸入裝置1002，至少一個(gè)輸出裝置1003,存儲(chǔ)器1004，至少一個(gè)通信總線1005。其中，通信總線1005用于實(shí)現(xiàn)這些組件之間的連接通信。存儲(chǔ)器1003可以是高速RAM存儲(chǔ)器，也可以是非不穩(wěn)定的存儲(chǔ)器(non-volatile memory)，例如至少一個(gè)磁盤存儲(chǔ)器。存儲(chǔ)器1003可選的還可以是至少一個(gè)位于遠(yuǎn)離前述處理器1001的存儲(chǔ)裝置。

在圖7所示的多媒體數(shù)據(jù)處理裝置1000中，處理器1001可以用于調(diào)用存儲(chǔ)器1005中存儲(chǔ)的代碼，并具體執(zhí)行以下步驟：

在一個(gè)實(shí)施例中，所述處理器1001在執(zhí)行生成各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣步驟時(shí)，具體執(zhí)行以下步驟：

獲取各音頻文件樣本中各幀的音頻能量值；

將所述各音頻文件樣本中各幀的音頻能量值中低于預(yù)設(shè)能量閾值的音頻能量值設(shè)置為預(yù)設(shè)能量值，并生成所述各音頻文件樣本分別對(duì)應(yīng)的初始音頻能量矩陣；

對(duì)各所述初始音頻能量矩陣分別進(jìn)行歸一化處理，生成所述各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣。

在一個(gè)實(shí)施例中，所述處理器1001在執(zhí)行對(duì)所有所述目標(biāo)音頻能量矩陣中各幀的音頻能量值進(jìn)行均值化處理，獲得目標(biāo)矩陣步驟時(shí)，具體執(zhí)行以下步驟：

將所有所述目標(biāo)音頻能量矩陣中每幀對(duì)應(yīng)的所有音頻能量值進(jìn)行疊加后除以所述目標(biāo)音頻能量矩陣的個(gè)數(shù)，并進(jìn)行濾波處理，獲得目標(biāo)矩陣。

在一個(gè)實(shí)施例中，所述處理器1001在執(zhí)行根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻步驟時(shí)，具體執(zhí)行以下步驟：

獲取預(yù)設(shè)幀長、預(yù)設(shè)采樣率和目標(biāo)幀的位置信息；

根據(jù)所述預(yù)設(shè)幀長、所述預(yù)設(shè)采樣率和所述目標(biāo)幀的位置信息計(jì)算所述多媒體數(shù)據(jù)的第一目標(biāo)時(shí)刻；

將所述第一目標(biāo)時(shí)刻確定為所述多媒體數(shù)據(jù)的副歌起始時(shí)刻。

在一個(gè)實(shí)施例中，所述處理器1001在執(zhí)行根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻步驟之后，還執(zhí)行以下步驟：

獲取副歌經(jīng)驗(yàn)時(shí)長；

計(jì)算所述副歌經(jīng)驗(yàn)時(shí)長和所述副歌起始時(shí)刻的和，得到所述多媒體數(shù)據(jù)中的第二目標(biāo)時(shí)刻；

將所述第二目標(biāo)時(shí)刻確定為所述多媒體數(shù)據(jù)的副歌終止時(shí)刻。

在一個(gè)實(shí)施例中，所述處理器1001在執(zhí)行獲取多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本步驟之后，還執(zhí)行以下步驟：

判斷所述多個(gè)音頻文件樣本中的聲道屬性是否均為單聲道；

若否，基于向下混音算法將所述多個(gè)音頻文件樣本中非單聲道的音頻文件樣本的聲道屬性調(diào)整為單聲道。

在本發(fā)明實(shí)施例中，可以通過獲取多媒體數(shù)據(jù)對(duì)應(yīng)的多個(gè)音頻文件樣本，并判斷所述多個(gè)音頻文件樣本中的聲道屬性是否均為單聲道，若否，基于向下混音算法將所述多個(gè)音頻文件樣本中非單聲道的音頻文件樣本的聲道屬性調(diào)整為單聲道，然后獲取各音頻文件樣本中各幀的音頻能量值，將所述各音頻文件樣本中各幀的音頻能量值中低于預(yù)設(shè)能量閾值的音頻能量值設(shè)置為預(yù)設(shè)能量值，并生成所述各音頻文件樣本分別對(duì)應(yīng)的初始音頻能量矩陣，對(duì)各所述初始音頻能量矩陣分別進(jìn)行歸一化處理，生成所述各音頻文件樣本分別對(duì)應(yīng)的目標(biāo)音頻能量矩陣，將所有所述目標(biāo)音頻能量矩陣中每幀對(duì)應(yīng)的所有音頻能量值進(jìn)行疊加后除以所述目標(biāo)音頻能量矩陣的個(gè)數(shù)，并進(jìn)行濾波處理，獲得目標(biāo)矩陣，將所述目標(biāo)均值化矩陣中的最大音頻能量平均值對(duì)應(yīng)的幀確定為目標(biāo)幀，并根據(jù)所述目標(biāo)幀確定所述多媒體數(shù)據(jù)的副歌起始時(shí)刻，進(jìn)一步可獲取副歌經(jīng)驗(yàn)時(shí)長，計(jì)算所述副歌經(jīng)驗(yàn)時(shí)長和所述副歌起始時(shí)刻的和，得到所述多媒體數(shù)據(jù)中的第二目標(biāo)時(shí)刻，將所述第二目標(biāo)時(shí)刻確定為所述多媒體數(shù)據(jù)的副歌終止時(shí)刻，完成對(duì)多媒體數(shù)據(jù)的副歌的起始時(shí)刻和終止時(shí)刻進(jìn)行定位。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程，是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成，所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，可包括如上述各方法的實(shí)施例的流程。其中，所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory，ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory，RAM)等。

以上所揭露的僅為本發(fā)明較佳實(shí)施例而已，當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍，因此依本發(fā)明權(quán)利要求所作的等同變化，仍屬本發(fā)明所涵蓋的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3