多媒體文件高潮片段的確定方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種多媒體文件高潮片段的確定方法及裝 置。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)技術(shù)的普及,網(wǎng)絡(luò)可以為用戶提供了足不出戶即可獲取到的視聽享受, 如,服務(wù)提供商提供了音樂平臺(tái)等多媒體平臺(tái),以為用戶提供多媒體搜索、播放、下載和分 享等功能。由于多媒體平臺(tái)上提供了海量的多媒體文件,那么,用戶為了找到自己喜歡的多 媒體文件,可能需要對(duì)多媒體文件進(jìn)行試聽,試聽過程往往會(huì)受到網(wǎng)速的限制,且,由于多 媒體文件數(shù)量較多,試聽效率較低。為了解決這一問題,多媒體平臺(tái)上提供了對(duì)多媒體文件 高潮部分的試聽方法,以使得用戶能夠通過播放高潮部分,收聽到多媒體文件的最有代表 性的部分。
[0003] 為了進(jìn)行上述試聽,需要對(duì)多媒體文件的高潮部分進(jìn)行確定,在現(xiàn)有技術(shù)中,該確 定方式包括以下兩種:
[0004] 第一種方式是基于多媒體文件的歌詞信息進(jìn)行確定。具體方法如下:通過對(duì)大量 多媒體文件的歌詞信息進(jìn)行統(tǒng)計(jì)與分析,確定出歌詞語(yǔ)速、字?jǐn)?shù)等特征,計(jì)算出多媒體文件 中歌詞重復(fù)出現(xiàn)的片段,最終確定出歌曲的高潮片段。
[0005] 第二種方式是通過多媒體文件的音頻內(nèi)容進(jìn)行確定。具體方法如下:先將多媒體 數(shù)據(jù)流劃分成一系列定長(zhǎng)的多媒體片段,獲取每個(gè)多媒體片段的短時(shí)能量和所有多媒體片 段的平均能量,再把所有多媒體片段按時(shí)間先后分組,每組所包含的多媒體片段數(shù)相同,再 通過計(jì)算多媒體數(shù)據(jù)中每個(gè)多媒體片段組的短時(shí)能量閾值穿越頻率,得到整個(gè)多媒體數(shù)據(jù) 流的短時(shí)能量閾值穿越頻率曲線,二值化該短時(shí)能量閾值穿越頻率曲線后,曲線中每個(gè)連 續(xù)的"1"值部分對(duì)應(yīng)的就是該多媒體信息流中的相對(duì)高能量區(qū)域,即為可能的候選片段。最 后在候選片段中選擇具有合適長(zhǎng)度且平均短時(shí)能量最高的片段作為高潮片段。
[0006] 但是,在利用第一種方式進(jìn)行確定時(shí),對(duì)于一些沒有歌詞的多媒體文件來(lái)說(shuō),無(wú)法 進(jìn)行高潮部分的確定,也即是,該方法的應(yīng)用局限性較大。利用第二種方式進(jìn)行確定時(shí),對(duì) 于現(xiàn)場(chǎng)類型的音樂等多媒體文件,錄制過程中若歌手說(shuō)話或移動(dòng),都會(huì)導(dǎo)致錄制聲音會(huì)發(fā) 生忽大忽小的變化,然而第二種方式無(wú)法準(zhǔn)確識(shí)別出這種聲音變化,從而對(duì)歌曲高潮片段 的確定準(zhǔn)確性較差。
【發(fā)明內(nèi)容】
[0007] 為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種多媒體文件高潮片段的確定 方法。所述技術(shù)方案如下:
[0008] -方面,提供了一種多媒體文件高潮片段的確定方法,所述方法包括:
[0009] 獲取多媒體文件中的音頻信號(hào);
[0010] 獲取所述音頻信號(hào)的色度特征矩陣,所述色度特征矩陣的每個(gè)元素用于表示每個(gè) 音頻幀上每個(gè)色度特征維度的信號(hào)強(qiáng)度;
[0011] 根據(jù)所述色度特征矩陣中每個(gè)音頻幀之間的互相關(guān)函數(shù),獲取色度距離矩陣;
[0012] 根據(jù)所述色度距離矩陣,從所述音頻信號(hào)中確定多個(gè)候選高潮片段;
[0013] 對(duì)所述多個(gè)候選高潮片段進(jìn)行打分;
[0014] 至少根據(jù)打分結(jié)果,確定所述多媒體文件的高潮片段。
[0015] 在本發(fā)明的一個(gè)實(shí)施例中,獲取所述音頻信號(hào)的色度特征矩陣之前,所述方法還 包括:
[0016] 判斷所述音頻信號(hào)的時(shí)長(zhǎng)是否大于預(yù)設(shè)時(shí)長(zhǎng),若大于,則執(zhí)行獲取所述音頻信號(hào) 的色度特征矩陣的步驟,若不大于,則結(jié)束。
[0017] 在本發(fā)明一個(gè)實(shí)施例中,所述根據(jù)所述色度特征矩陣中每個(gè)音頻幀之間的互相關(guān) 函數(shù),獲取色度距離矩陣包括:
[0018] 根據(jù)公式:
[0020] 獲取所述色度距離矩陣;
[0021] 公式中,B表示所述色度距離矩陣,A表示所述色度特征矩陣,i和j表示所述色度 特征矩陣中的音頻幀的標(biāo)號(hào),t表示所述色度特征矩陣中的色度特征維度的標(biāo)號(hào),η表示所 述色度特征矩陣中最大的色度特征維度標(biāo)號(hào)。
[0022] 在本發(fā)明一個(gè)實(shí)施例中,所述根據(jù)所述色度距離矩陣,從所述音頻信號(hào)中確定多 個(gè)候選高潮片段包括:
[0023] 將每一條子對(duì)角線上符合預(yù)設(shè)標(biāo)準(zhǔn)的元素置為0,其他元素保持不變;
[0024] 計(jì)算所述每一條對(duì)角線上由所述其他元素組成的至少一個(gè)連續(xù)片段的平均值;
[0025] 將所述至少一個(gè)連續(xù)片段中平均值最大的片段,獲取為候選高潮片段。
[0026] 在本發(fā)明一個(gè)實(shí)施例中,所述至少根據(jù)打分結(jié)果,確定所述多媒體文件的高潮片 段包括:
[0027] 將所述多個(gè)候選高潮片段中分?jǐn)?shù)最高的候選片段確定為最佳候選片段;
[0028] 根據(jù)歌詞確定多個(gè)音頻片段的起點(diǎn)時(shí)間;
[0029] 將所述多個(gè)音頻片段的起點(diǎn)時(shí)間與所述最佳候選片段的起點(diǎn)時(shí)間進(jìn)行比對(duì);
[0030] 將所述多個(gè)音頻片段的起點(diǎn)時(shí)間中最接近所述最佳候選片段的起點(diǎn)時(shí)間確定為 高潮片段的起點(diǎn)時(shí)間。
[0031] 另一方面,提供了一種多媒體文件高潮片段的確定裝置,所述裝置包括:
[0032] 音頻信號(hào)獲取模塊,用于獲取多媒體文件中的音頻信號(hào);
[0033] 色度特征矩陣獲取模塊,用于獲取所述音頻信號(hào)的色度特征矩陣,所述色度特征 矩陣的每個(gè)元素用于表示每個(gè)音頻幀上每個(gè)色度特征維度的信號(hào)強(qiáng)度;
[0034] 色度距離矩陣獲取模塊,用于根據(jù)所述色度特征矩陣中每個(gè)音頻幀之間的互相關(guān) 函數(shù),獲取色度距離矩陣;
[0035] 候選片段確定模塊,用于根據(jù)所述色度距離矩陣,從所述音頻信號(hào)中確定多個(gè)候 選高潮片段;
[0036] 打分模塊,用于對(duì)所述多個(gè)候選高潮片段進(jìn)行打分;
[0037] 高潮片段確定模塊,用于至少根據(jù)打分結(jié)果,確定所述多媒體文件的高潮片段。
[0038] 在本發(fā)明一個(gè)實(shí)施例中,所述裝置還包括:
[0039] 判斷模塊,用于判斷所述音頻信號(hào)的時(shí)長(zhǎng)是否大于預(yù)設(shè)時(shí)長(zhǎng),若大于,則執(zhí)行獲取 所述音頻信號(hào)的色度特征矩陣的步驟,若不大于,則結(jié)束。
[0040] 在本發(fā)明一個(gè)實(shí)施例中,所述色度距離矩陣獲取模塊用于:
[0041] 根據(jù)公式:
[0043] 獲取所述色度距離矩陣;
[0044] 公式中,B表示所述色度距離矩陣,A表示所述色度特征矩陣,i和j表示所述色度 特征矩陣中的音頻幀的標(biāo)號(hào),t表示所述色度特征矩陣中的色度特征維度的標(biāo)號(hào),η表示所 述色度特征矩陣中最大的色度特征維度標(biāo)號(hào)。
[0045] 在本發(fā)明一個(gè)實(shí)施例中,所述候選片段確定模塊用于:
[0046] 將每一條子對(duì)角線上符合預(yù)設(shè)標(biāo)準(zhǔn)的元素置為0,其他元素保持不變;
[0047] 計(jì)算所述每一條對(duì)角線上由所述其他元素組成的至少一個(gè)連續(xù)片段的平均值;
[0048] 將所述至少一個(gè)連續(xù)片段中平均值最大的片段,獲取為候選高潮片段。
[0049] 在本發(fā)明一個(gè)實(shí)施例中,所述高潮片段確定模塊用于:
[0050] 將所述多個(gè)候選高潮片段中分?jǐn)?shù)最高的候選片段確定為最佳候選片段;
[0051] 根據(jù)歌詞確定多個(gè)音頻片段的起點(diǎn)時(shí)間;
[0052] 將所述多個(gè)音頻片段的起點(diǎn)時(shí)間與所述最佳候選片段的起點(diǎn)時(shí)間進(jìn)行比對(duì);
[0053] 將所述多個(gè)音頻片段的起點(diǎn)時(shí)間中最接近所述最佳候選片段的起點(diǎn)時(shí)間確定為 高潮片段的起點(diǎn)時(shí)間。
[0054] 本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:
[0055] 通過獲取多媒體文件中的音頻信號(hào);獲取所述音頻信號(hào)的色度特征矩陣,所述色 度特征矩陣的每個(gè)元素用于表示每個(gè)音頻幀上每個(gè)色度特征維度的信號(hào)強(qiáng)度;根據(jù)所述色 度特征矩陣中每個(gè)音頻幀之間的互相關(guān)函數(shù),獲取色