視頻文件的標(biāo)注方法及裝置的制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種視頻文件的標(biāo)注方法及裝置,屬于音頻處理技術(shù)領(lǐng)域。該方法包括:獲取建模視頻文件;從建模視頻文件中,提取建模音頻文件;從建模音頻文件中,識(shí)別出多個(gè)音頻片段,每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽;對(duì)于任一音頻片段,將音頻片段劃分為多幀音頻信號(hào);從每幀音頻信號(hào)中,提取音頻幀特征;對(duì)音頻幀特征進(jìn)行歸一化處理,得到特征向量;根據(jù)特征向量及相應(yīng)的音頻標(biāo)簽,構(gòu)建音頻標(biāo)注模型;根據(jù)音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻標(biāo)簽。本發(fā)明無(wú)需借助人力,基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注的視頻文件添加不同的音頻標(biāo)簽,在滿足用戶(hù)預(yù)覽需求的前提下,不僅節(jié)省了制作成本,而且提高了標(biāo)注效率及辨識(shí)度。
【專(zhuān)利說(shuō)明】
視頻文件的標(biāo)注方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及音頻處理技術(shù)領(lǐng)域,特別設(shè)及一種視頻文件的標(biāo)注方法及裝置。
【背景技術(shù)】
[0002] 在現(xiàn)代生活中,視頻文件作為一種重要的多媒體形式,已成為用戶(hù)生活中必不可 少的組成部分。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的視頻文件種類(lèi)和數(shù)量急劇增加,當(dāng)用戶(hù) 在互聯(lián)網(wǎng)上捜索指定類(lèi)型的視頻文件時(shí),往往會(huì)捜索出大量的視頻文件,而一個(gè)視頻文件 的時(shí)長(zhǎng)往往達(dá)到上百分鐘,如果用戶(hù)通過(guò)逐個(gè)預(yù)覽的方式,從中運(yùn)些視頻文件中篩選出自 己感興趣的視頻文件,將消耗用戶(hù)大量的時(shí)間。為了節(jié)省用戶(hù)的預(yù)覽時(shí)間,需要對(duì)視頻文件 進(jìn)行標(biāo)注。
[0003] 當(dāng)前對(duì)視頻文件進(jìn)行標(biāo)注,主要通過(guò)人工的方式在時(shí)間軸上為視頻文件的章節(jié)或 高潮部分標(biāo)注上相應(yīng)地內(nèi)容標(biāo)簽,通過(guò)所添加的內(nèi)容標(biāo)簽,用戶(hù)可對(duì)視頻文件進(jìn)行預(yù)覽。
[0004] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在W下問(wèn)題:
[0005] 由于需要采用人工的方式進(jìn)行標(biāo)注,因而標(biāo)注效率較低,制作成本較高。
【發(fā)明內(nèi)容】
[0006] 為了解決現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明實(shí)施例提供了一種視頻文件的標(biāo)注方法及裝 置。所述技術(shù)方案如下:
[0007] -方面,提供了一種視頻文件的標(biāo)注方法,所述方法包括:
[000引獲取建模視頻文件;
[0009] 從所述建模視頻文件中,提取建模音頻文件;
[0010] 從所述建模音頻文件中,識(shí)別出多個(gè)音頻片段,每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽;
[0011] 對(duì)于任一音頻片段,將所述音頻片段劃分為多帖音頻信號(hào);
[0012] 從每帖音頻信號(hào)中,提取音頻帖特征;
[0013] 對(duì)所述音頻帖特征進(jìn)行歸一化處理,得到特征向量;
[0014] 根據(jù)所述特征向量及相應(yīng)的音頻標(biāo)簽,構(gòu)建音頻標(biāo)注模型;
[0015] 根據(jù)所述音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻標(biāo)簽。
[0016] 在本發(fā)明的另一個(gè)實(shí)施例中,所述將所述音頻片段劃分為多帖音頻信號(hào)之前,還 包括:
[0017] 對(duì)所述音頻片段進(jìn)行預(yù)加重處理,得到預(yù)加重音頻片段;
[0018] 所述將所述音頻片段劃分為多帖音頻信號(hào),包括:
[0019] 采用窗函數(shù)將所述預(yù)加重音頻片段劃分為多帖音頻信號(hào)。
[0020] 在本發(fā)明的另一個(gè)實(shí)施例中,所述從每帖音頻信號(hào)中,提取音頻帖特征之前,還包 括:
[0021 ]提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征;
[0022]根據(jù)所述短時(shí)能量特征和短時(shí)過(guò)零率特征,剔除所述多帖音頻信號(hào)中的靜音信 號(hào),得到多帖非靜音信號(hào);
[0023] 所述從每帖音頻信號(hào)中,提取音頻帖特征,包括:
[0024] 從每帖非靜音信號(hào)中,提取子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能 量特征及人耳感知特征。
[0025] 在本發(fā)明的另一個(gè)實(shí)施例中,所述對(duì)所述音頻帖特征進(jìn)行歸一化處理,得到特征 向量,包括:
[0026] 獲取所述建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差;
[0027] 根據(jù)所述平均值和所述標(biāo)準(zhǔn)差,應(yīng)用W下公式,對(duì)所述音頻帖特征進(jìn)行歸一化處 理,得到特征向量:
[002引
[0029] 其中,f/為歸一化后的音頻帖特征,fd為所述音頻帖特征,Wd為所述平均值,曰d為 所述標(biāo)準(zhǔn)差,D為所述音頻帖特征。
[0030] 在本發(fā)明的另一個(gè)實(shí)施例中,所述根據(jù)所述音頻標(biāo)注模型,為待標(biāo)注的視頻文件, 添加音頻標(biāo)簽,包括:
[0031 ]將所述待標(biāo)注的視頻文件劃分為多帖目標(biāo)音頻信號(hào);
[0032] 從所述多帖目標(biāo)音頻信號(hào)中,剔除目標(biāo)靜音信號(hào),得到多帖目標(biāo)非靜音信號(hào);
[0033] 從每帖目標(biāo)非靜音信號(hào)中,提取目標(biāo)音頻帖特征;
[0034] 對(duì)所述目標(biāo)音頻帖特征進(jìn)行歸一化處理,得到目標(biāo)特征向量;
[0035] 根據(jù)所述音頻標(biāo)注模型,為所述目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音 頻柄簽。
[0036] 在本發(fā)明的另一個(gè)實(shí)施例中,所述根據(jù)所述音頻標(biāo)注模型,為所述目標(biāo)特征向量 對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽之后,還包括:
[0037] 將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。
[0038] 在本發(fā)明的另一個(gè)實(shí)施例中,所述音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo) 簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
[0039] 另一方面,提供了一種視頻文件的標(biāo)注裝置,所述裝置包括:
[0040] 獲取模塊,用于獲取建模視頻文件;
[0041 ]第一提取模塊,用于從所述建模視頻文件中,提取建模音頻文件;
[0042] 識(shí)別模塊,用于從所述建模音頻文件中,識(shí)別出多個(gè)音頻片段,每個(gè)音頻片段對(duì)應(yīng) 首頻t不簽;
[0043] 劃分模塊,用于對(duì)于任一音頻片段,將所述音頻片段劃分為多帖音頻信號(hào);
[0044] 第二提取模塊,用于從每帖音頻信號(hào)中,提取音頻帖特征;
[0045] 處理模塊,用于對(duì)所述音頻帖特征進(jìn)行歸一化處理,得到特征向量;
[0046] 構(gòu)建模塊,用于根據(jù)所述特征向量及相應(yīng)的音頻標(biāo)簽,構(gòu)建音頻標(biāo)注模型;
[0047] 添加模塊,用于據(jù)所述音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻標(biāo)簽。
[004引在本發(fā)明的另一個(gè)實(shí)施例中,所述裝置還包括:
[0049] 預(yù)加重模塊,用于對(duì)所述音頻片段進(jìn)行預(yù)加重處理,得到預(yù)加重音頻片段;
[0050] 所述劃分模塊,用于采用窗函數(shù)將所述預(yù)加重音頻片段劃分為多帖音頻信號(hào)。
[0051 ]在本發(fā)明的另一個(gè)實(shí)施例中,所述裝置還包括:
[0052] 第Ξ提取模塊,用于提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征;
[0053] 剔除模塊,用于根據(jù)所述短時(shí)能量特征和短時(shí)過(guò)零率特征,剔除所述多帖音頻信 號(hào)中的靜音信號(hào),得到多帖非靜音信號(hào);
[0054] 所述第二提取模塊,用于從每帖非靜音信號(hào)中,提取子帶能量比特征、頻率質(zhì)屯、特 征、譜帶寬特征、頻率能量特征及人耳感知特征。
[0055] 在本發(fā)明的另一個(gè)實(shí)施例中,所述處理模塊,用于獲取所述建模音頻文件中音頻 信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差;根據(jù)所述平均值和所述標(biāo)準(zhǔn)差,應(yīng)用W下公式,對(duì)所 述音頻帖特征進(jìn)行歸一化處理,得到特征向量:
[0化6]
[0057]其中,f/為歸一化后的音頻帖特征,fd為所述音頻帖特征,Wd為所述平均值,〇d為 所述標(biāo)準(zhǔn)差,D為所述音頻帖特征。
[005引在本發(fā)明的另一個(gè)實(shí)施例中,所述添加模塊,用于將所述待標(biāo)注的視頻文件劃分 為多帖目標(biāo)音頻信號(hào);從所述多帖目標(biāo)音頻信號(hào)中,剔除目標(biāo)靜音信號(hào),得到多帖目標(biāo)非靜 音信號(hào);從每帖目標(biāo)非靜音信號(hào)中,提取目標(biāo)音頻帖特征;對(duì)所述目標(biāo)音頻帖特征進(jìn)行歸一 化處理,得到目標(biāo)特征向量;根據(jù)所述音頻標(biāo)注模型,為所述目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻 信號(hào)添加相應(yīng)的音頻標(biāo)簽。
[0059] 在本發(fā)明的另一個(gè)實(shí)施例中,所述裝置還包括:
[0060] 合并模塊,用于將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。
[0061] 在本發(fā)明的另一個(gè)實(shí)施例中,所述音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo) 簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
[0062] 本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:
[0063] 無(wú)需借助人力,基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注的視頻文件添加不同的音頻 標(biāo)簽,在滿足用戶(hù)預(yù)覽需求的前提下,不僅節(jié)省了制作成本,而且提高了標(biāo)注效率及辨識(shí) 度。
【附圖說(shuō)明】
[0064] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù)運(yùn)些附圖獲得其他 的附圖。
[0065] 圖1是本發(fā)明一個(gè)實(shí)施例提供的一種視頻文件的標(biāo)注方法流程圖;
[0066] 圖2是本發(fā)明另一個(gè)實(shí)施例提供的一種視頻文件的標(biāo)注方法流程圖;
[0067] 圖3是本發(fā)明另一個(gè)實(shí)施例提供一種待標(biāo)注的視頻文件標(biāo)注結(jié)果的示意圖;
[0068] 圖4是本發(fā)明另一個(gè)實(shí)施例提供的一種視頻文件的標(biāo)注過(guò)程的示意圖;
[0069] 圖5是本發(fā)明另一個(gè)實(shí)施例提供的一種視頻文件的標(biāo)注裝置結(jié)構(gòu)示意圖;
[0070] 圖6是根據(jù)一示例性實(shí)施例示出的一種用于視頻文件的標(biāo)注的服務(wù)器。
【具體實(shí)施方式】
[0071] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。
[0072] 本發(fā)明實(shí)施例提供了一種視頻文件的標(biāo)注方法,參見(jiàn)圖1,本實(shí)施例提供的方法流 程包括:
[0073] 101、獲取建模視頻文件。
[0074] 102、從建模視頻文件中,提取建模音頻文件。
[0075] 103、從建模音頻文件中,識(shí)別出多個(gè)音頻片段,每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽。
[0076] 104、對(duì)于任一音頻片段,將音頻片段劃分為多帖音頻信號(hào)。
[0077] 105、從每帖音頻信號(hào)中,提取音頻帖特征。
[0078] 106、對(duì)音頻帖特征進(jìn)行歸一化處理,得到特征向量。
[0079] 107、根據(jù)特征向量及相應(yīng)的首頻柄;簽,構(gòu)建首頻柄;注板型。
[0080] 108、根據(jù)音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻標(biāo)簽。
[0081] 本發(fā)明實(shí)施例提供的方法,無(wú)需借助人力,基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注 的視頻文件添加不同的音頻標(biāo)簽,在滿足用戶(hù)預(yù)覽需求的前提下,不僅節(jié)省了制作成本,而 且提高了標(biāo)注效率及辨識(shí)度。
[0082] 在本發(fā)明的另一個(gè)實(shí)施例中,將音頻片段劃分為多帖音頻信號(hào)之前,還包括:
[0083] 對(duì)音頻片段進(jìn)行預(yù)加重處理,得到預(yù)加重音頻片段;
[0084] 將音頻片段劃分為多帖音頻信號(hào),包括:
[0085] 采用窗函數(shù)將預(yù)加重音頻片段劃分為多帖音頻信號(hào)。
[0086] 在本發(fā)明的另一個(gè)實(shí)施例中,從每帖音頻信號(hào)中,提取音頻帖特征之前,還包括:
[0087] 提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征;
[0088] 根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征,剔除多帖音頻信號(hào)中的靜音信號(hào),得到多 帖非靜音信號(hào);
[0089] 從每帖音頻信號(hào)中,提取音頻帖特征,包括:
[0090] 從每帖非靜音信號(hào)中,提取子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能 量特征及人耳感知特征。
[0091] 在本發(fā)明的另一個(gè)實(shí)施例中,對(duì)音頻帖特征進(jìn)行歸一化處理,得到特征向量,包 括:
[0092] 獲取建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差;
[0093] 根據(jù)平均值和標(biāo)準(zhǔn)差,應(yīng)用W下公式,對(duì)音頻帖特征進(jìn)行歸一化處理,得到特征向 量:
[0094]
[0095] 其中,f/為歸一化后的音頻帖特征,fd為音頻帖特征,Wd為平均值,〇d為標(biāo)準(zhǔn)差,D 為音頻帖特征。
[0096] 在本發(fā)明的另一個(gè)實(shí)施例中,根據(jù)音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻 標(biāo)簽,包括:
[0097] 將待標(biāo)注的視頻文件劃分為多帖目標(biāo)音頻信號(hào);
[0098] 從多帖目標(biāo)音頻信號(hào)中,剔除目標(biāo)靜音信號(hào),得到多帖目標(biāo)非靜音信號(hào);
[0099] 從每帖目標(biāo)非靜音信號(hào)中,提取目標(biāo)音頻帖特征;
[0100] 對(duì)目標(biāo)音頻帖特征進(jìn)行歸一化處理,得到目標(biāo)特征向量;
[0101] 根據(jù)音頻標(biāo)注模型,為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽。
[0102] 在本發(fā)明的另一個(gè)實(shí)施例中,根據(jù)音頻標(biāo)注模型,為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音 頻信號(hào)添加相應(yīng)的音頻標(biāo)簽之后,還包括:
[0103] 將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。
[0104] 在本發(fā)明的另一個(gè)實(shí)施例中,音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo)簽、 槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
[0105] 上述所有可選技術(shù)方案,可W采用任意結(jié)合形成本發(fā)明的可選實(shí)施例,在此不再 --寶述。
[0106] 本發(fā)明實(shí)施例提供了一種視頻文件的標(biāo)注方法,參見(jiàn)圖2,本實(shí)施例提供的方法流 程包括:
[0107] 201、服務(wù)器獲取建模視頻文件。
[0108] 本實(shí)施例中設(shè)及到的視頻文件有兩種類(lèi)型,一種用于構(gòu)建音頻標(biāo)注模型,稱(chēng)為建 模視頻文件,一種需要進(jìn)行音頻識(shí)別,稱(chēng)為待標(biāo)注的視頻文件。其中,建模視頻文件的數(shù)量 可W為10個(gè)、20個(gè)、30個(gè)等,本實(shí)施例不對(duì)建模視頻文件的數(shù)量作具體的限定。在實(shí)際應(yīng)用 中,為了提高所構(gòu)建的音頻標(biāo)注模型的準(zhǔn)確性,服務(wù)器所獲取的建模視頻文件的數(shù)量越多 越好。關(guān)于服務(wù)器獲取建模視頻文件的方式,包括但不限于從互聯(lián)網(wǎng)上獲取比較典型的視 頻文件,并將獲取到的視頻文件作為建模視頻文件。所謂典型的視頻文件是指在單一音頻 場(chǎng)景下所錄制的視頻文件。
[0109] 202、服務(wù)器從建模視頻文件中,提取建模音頻文件。
[0110] 服務(wù)器從建模視頻文件中,提取建模音頻文件的方式有W下幾種:
[0111] 第一種方式:服務(wù)器可借助音頻提取工具,從建模視頻文件中提取建模音頻文件。
[0112] 第二種方式:服務(wù)器可根據(jù)視頻文件的編碼格式,對(duì)建模視頻文件進(jìn)行解碼,得到 解碼后的視頻文件,并根據(jù)音頻文件的編碼格式,從解碼后的視頻文件中,提取建模音頻文 件。其中,視頻文件的常用編碼格式有4¥1、施曰、1'11^13、1'111^1曰311、11194、1111(1等;音頻文件的常 用編碼格式有?〔1、¥4¥、]\^3、¥魁等。
[0113] 當(dāng)然,除了采用上述幾種方式,還可W采用其他方式,本實(shí)施例不再一一說(shuō)明。
[0114] 203、服務(wù)器從建模音頻文件中,識(shí)別出多個(gè)音頻片段,每個(gè)音頻片段對(duì)應(yīng)一個(gè)音 頻標(biāo)簽。
[0115] 在本實(shí)施例中,音頻場(chǎng)景可W包括語(yǔ)音場(chǎng)景、音樂(lè)場(chǎng)景、歡呼場(chǎng)景、槍炮場(chǎng)景、打斗 場(chǎng)景、引擎場(chǎng)景、靜音場(chǎng)景及其他場(chǎng)景等,每種音頻場(chǎng)景對(duì)應(yīng)一種音頻標(biāo)簽,例如,語(yǔ)音場(chǎng)景 對(duì)應(yīng)語(yǔ)音標(biāo)簽、音樂(lè)場(chǎng)景對(duì)應(yīng)音樂(lè)標(biāo)簽、歡呼場(chǎng)景對(duì)應(yīng)歡呼標(biāo)簽、槍炮場(chǎng)景對(duì)應(yīng)槍炮標(biāo)簽、 打斗場(chǎng)景對(duì)應(yīng)打斗標(biāo)簽、引擎場(chǎng)景對(duì)應(yīng)引擎標(biāo)簽、靜音場(chǎng)景對(duì)應(yīng)靜音標(biāo)簽等。
[0116] 當(dāng)服務(wù)器從建模視頻文件中提取建模音頻文件之后,用戶(hù)可基于所劃分的音頻場(chǎng) 景,從建模音頻文件中識(shí)別出不同的音頻片段,并通過(guò)人工的方式在服務(wù)器上為每個(gè)音頻 片段標(biāo)注一個(gè)音頻標(biāo)簽。服務(wù)器檢測(cè)到用戶(hù)的操作后,獲取用戶(hù)所標(biāo)注的多個(gè)音頻片段,并 將獲取到的多個(gè)音頻片段,作為從建模音頻文件中,識(shí)別出的音頻片段。在本實(shí)施例中,每 個(gè)音頻片段的時(shí)長(zhǎng)大致為幾秒到幾分鐘,各個(gè)音頻場(chǎng)景對(duì)應(yīng)的音頻片段的總時(shí)長(zhǎng)一般在 100分鐘到200分鐘之間。
[0117] 需要說(shuō)明的是,在音頻處理領(lǐng)域,靜音的音量一般為零,當(dāng)任一音頻片段的音量為 0時(shí),可直接確定該音頻片段為靜音片段。因此,為了減少構(gòu)建音頻標(biāo)注模型時(shí)的計(jì)算量,月良 務(wù)器在識(shí)別多個(gè)音頻片段時(shí),可僅識(shí)別非靜音片段。
[0118] 為了便于在后續(xù)步驟中,對(duì)識(shí)別出的音頻片段進(jìn)行計(jì)算,服務(wù)器從建模視頻文件 中識(shí)別出多個(gè)音頻片段之后,還將對(duì)識(shí)別出的音頻片段進(jìn)行進(jìn)一步處理:
[0119] 第一步,將不同存儲(chǔ)格式、不同規(guī)格的音頻片段轉(zhuǎn)化為相同存儲(chǔ)格式、相同規(guī)格的 音頻片段,本實(shí)施例W將識(shí)別出的多個(gè)音頻片段轉(zhuǎn)化為wav、單通道、采樣率為16K的音頻片 段為例。
[0120] 第二步,將轉(zhuǎn)化為采樣率16KHZ、單聲道、wav格式的音頻片段進(jìn)行預(yù)加重處理,得 到預(yù)加重音頻信號(hào)。設(shè)定原始音頻片段表達(dá)式為y(n),預(yù)加重處理后得到的預(yù)加重音頻信 號(hào)為y(n),則預(yù)加重處理如下述公式(1):
[0121] y(n) =χ(η)-λχ(η-1) (1)
[0122] 其中,λ為常數(shù)。
[0123] 經(jīng)過(guò)預(yù)加重處理,可W提高音頻片段的高頻分量,減少尖銳噪聲的影響。
[0124] 204、對(duì)于任一音頻片段,服務(wù)器將音頻片段劃分為多帖音頻信號(hào)。
[0125] 本實(shí)施例中的音頻片段實(shí)質(zhì)上都是一個(gè)時(shí)變信號(hào),時(shí)變信號(hào)具有不穩(wěn)定、非線性 等特征,研究起來(lái)十分不方便。在對(duì)時(shí)變信號(hào)研究時(shí)發(fā)現(xiàn),時(shí)變信號(hào)具有短時(shí)平穩(wěn)特性,在 一段時(shí)間例如幾十毫秒內(nèi),時(shí)變信號(hào)又呈現(xiàn)一定的穩(wěn)定性。為了獲取到穩(wěn)定的線性信號(hào),在 音頻處理領(lǐng)域,通常采用窗函數(shù)將較大的音頻片段劃分為多帖音頻信號(hào)。其中,窗函數(shù)包括 矩形窗函數(shù)、Ξ角窗函數(shù)、漢明窗函數(shù)、高斯窗函數(shù)等。在實(shí)際處理過(guò)程中,所采用的窗函數(shù) 不同,所劃分的音頻信號(hào)也是不同的,本實(shí)施例選取公式(2)所示的漢明窗函數(shù)將預(yù)加重音 頻片段劃分為多帖音頻信號(hào)為例。
[0126] (2)
[0127] 其中,ω (η)為函數(shù)窗函數(shù),η為當(dāng)前的采樣點(diǎn),Ν為一帖內(nèi)采樣點(diǎn)的個(gè)數(shù)。
[0128] 當(dāng)采用漢明窗函數(shù)將每個(gè)音頻片段劃分為多帖音頻信號(hào)時(shí),預(yù)先選取一個(gè)固定帖 長(zhǎng),W該帖長(zhǎng)為單位,每次移動(dòng)帖長(zhǎng)的一半。本實(shí)施例中,設(shè)定每帖音頻信號(hào)的帖長(zhǎng)為30ms, 帖移為10ms,每帖音頻信號(hào)中包括480個(gè)采樣點(diǎn)。
[0129] 205、服務(wù)器剔除多帖音頻信號(hào)中的靜音信號(hào),得到多帖非靜音信號(hào)。
[0130] 雖然服務(wù)器從建模音頻文件中,識(shí)別出的音頻片段為非靜音片段,但是非靜音片 段所劃分的多帖音頻信號(hào)中,可能包括靜音信號(hào),為了減少計(jì)算量和計(jì)算時(shí)間,需要將每個(gè) 音頻片段所劃分的多帖音頻信號(hào)中的靜音信號(hào)剔除,W得到多帖非靜音信號(hào)。
[0131] 在音頻處理領(lǐng)域,短時(shí)能量反映音頻信號(hào)的能量隨時(shí)間的變化關(guān)系,可用于靜音 信號(hào)的檢測(cè)。短時(shí)能量可用于如下公式(3)表示:
[01 扣]
(3)
[0133] 其中,En為短時(shí)能量特征,x(m)為非靜音信號(hào)序列,N為序列長(zhǎng)度。
[0134] 短時(shí)過(guò)零率表示在一個(gè)窗口內(nèi)音頻信號(hào)通過(guò)零值的次數(shù),在波形中表現(xiàn)為穿過(guò)時(shí) 間軸的情況。為了抵抗低頻對(duì)短時(shí)過(guò)零率干擾,可設(shè)置一個(gè)闊值T。短時(shí)過(guò)零率可用公式(4) 表不:
[0135]
[0136] 其中,為短時(shí)過(guò)零率,x(m)為非靜音信號(hào)序列,N為序列長(zhǎng)度。
[0137] sgn[ ·]表示符號(hào)函數(shù),該符號(hào)函數(shù)可用如下公式(5)表示:
[013 引 - (5)
[0139] 基于短時(shí)能量和短時(shí)過(guò)零率的含義,本實(shí)施例提供的方法采用短時(shí)能量特征和短 時(shí)過(guò)零率特征相結(jié)合的方式,確定音頻信號(hào)的起點(diǎn)和終點(diǎn),并根據(jù)音頻信號(hào)的起點(diǎn)和終點(diǎn), 識(shí)別出多帖音頻信號(hào)中的靜音信號(hào),進(jìn)而將靜音信號(hào)從多帖音頻信號(hào)中剔除,W得到多帖 非靜音信號(hào)。具體實(shí)施時(shí),可采用下述步驟2051~2052。
[0140] 2051、服務(wù)器提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征。
[0141] 服務(wù)器在提取每帖音頻信號(hào)的短時(shí)能量特征時(shí),可采用公式(3)進(jìn)行提取;在提取 短時(shí)過(guò)零率特征時(shí),可采用公式(4)進(jìn)行提取。
[0142] 2052、服務(wù)器根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征,剔除多帖音頻信號(hào)中的靜音 信號(hào),得到多帖非靜音信號(hào)。
[0143] 服務(wù)器在根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征,剔除多帖音頻信號(hào)中的靜音信號(hào) 之前,需要為短時(shí)能量特征設(shè)置兩個(gè)口限值,分別為第一口限值和第二口限值,其中,第一 口限值比較小,音頻信號(hào)的強(qiáng)度很容易超過(guò)該第一口限值,第二口限值比較大,音頻信號(hào)的 強(qiáng)度需要達(dá)到一定值,才能超過(guò)該第二口限值。服務(wù)器還需要為短時(shí)過(guò)零率特征設(shè)置兩個(gè) 口限值,分別為第Ξ口限值和第四口限值,其中,第Ξ口限值比較小,音頻信號(hào)的強(qiáng)度很容 易超過(guò)該第Ξ 口限值,第四口限值比較大,音頻信號(hào)的強(qiáng)度需要達(dá)到一定值,才能超過(guò)該第 四口限值。
[0144] 在本實(shí)施例中,服務(wù)器根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征,對(duì)音頻信號(hào)進(jìn)行識(shí) 別時(shí),可分為如下幾種情況:
[0145] 第一種情況、當(dāng)音頻信號(hào)的短時(shí)能量未超過(guò)第一口限值,且短時(shí)過(guò)零率未超過(guò)第 Ξ 口限值,則確定該音頻信號(hào)為靜音信號(hào)。
[0146] 第二種情況、當(dāng)音頻信號(hào)的短時(shí)能量超過(guò)第一口限值或短時(shí)過(guò)零率超過(guò)第Ξ 口限 值,且該音頻信號(hào)的后面Ξ帖音頻信號(hào)中有一帖音頻信號(hào)的短時(shí)能量超過(guò)第二口限值或短 時(shí)過(guò)零率超過(guò)第四口限值,則確定該音頻信號(hào)為非靜音信號(hào)。
[0147] 當(dāng)識(shí)別出任一音頻信號(hào)為靜音信號(hào)之后,服務(wù)器將該靜音信號(hào)從多帖音頻信號(hào)中 剔除,W得到多帖非靜音信號(hào)。
[0148] 206、服務(wù)器從每帖非靜音信號(hào)中,提取音頻帖特征。
[0149] 在音頻處理領(lǐng)域,音頻信號(hào)具有時(shí)域和頻域兩種表示形式,相應(yīng)地,音頻信號(hào)也具 有時(shí)域上特征和頻域上的特征。音頻信號(hào)時(shí)域上的特征包括短時(shí)能量特征和短時(shí)過(guò)零率特 征等;頻域上的特征包括子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征及人 耳感知特征等。由于人耳聽(tīng)覺(jué)系統(tǒng)具有頻譜分析的功能,因而人耳聽(tīng)到的聲音是受頻率限 制的。在數(shù)字信號(hào)處理中,常把時(shí)域音頻信號(hào)轉(zhuǎn)換到頻域音頻信號(hào)進(jìn)行分析。
[0150] 本步驟中服務(wù)器從每帖非靜音信號(hào)中所提取音頻帖特征,主要是指頻域上的特 征,具體提取時(shí)可采用下述步驟2061~2065:
[0151] 2061、針對(duì)子帶能量比特征。
[0152] 子帶能量比用來(lái)描述音頻信號(hào)的頻率分布的特征,可衡量不同子帶的能量占整個(gè) 頻帶能量的比值。通常每個(gè)子帶的寬度可W是等長(zhǎng),也可W按照人耳感知特征為每個(gè)子帶 分配寬度。在頻域上,按照頻率區(qū)間[0, ω0/8]、[ ω0/8, ω0/4]、[ ω0/4, ω0/2]、[ ω0/2, ω0] 可將音頻信號(hào)的頻帶劃分為四個(gè)均勻的子帶,每個(gè)子帶的能量不同。子帶能量比可采用如 下公式(6)進(jìn)行計(jì)算:
[0153]
(6)
[0154] 其中,ω〇表示采樣頻率的一半,Dj表示子帶j的能量,Ε表示頻譜能量,Uj表示子帶j 的上邊界能量,^表示子帶j的下邊界能量,ω表示頻率,X( ω )表示傅里葉變換。
[0巧日]2062、針對(duì)頻率質(zhì)屯、特征。
[0156] 頻譜質(zhì)屯、(frequen巧centroid)為反映音頻信號(hào)亮度的重要指標(biāo),是音頻信號(hào)的 頻率能量分布的平均點(diǎn)。頻譜質(zhì)屯、可采用下述公式(7)進(jìn)行計(jì)算:
[0157]
(7)
[015引其中,ω。表示頻率質(zhì)屯、,ω0表示采樣頻率的一半,X( ω )表示傅里葉變換,ω表示 頻率。
[0159] 2063、針對(duì)譜帶寬特征。
[0160] 譜帶寬(Band wi化h)反映了音頻信號(hào)功率或能量在頻譜中集中的范圍,為衡量音 頻型號(hào)頻域范圍的重要指標(biāo)。譜帶寬可采用如下公式(8)進(jìn)行計(jì)算:
[0161]
(8)
[0162] 其中,BW表示譜帶寬,ω〇表示采樣頻率的一半,ω表示傅里葉變換,Χ(ω)表示頻 率。
[0163] 2064、針對(duì)頻率能量特征。
[0164] 頻率能量描述了音頻信號(hào)的頻率能量大小頻率能量,可采用如下公式(9)進(jìn)行計(jì) 算:
[01 化]
(9)
[016W 其中,Ε表示頻率能量,ω質(zhì)示采樣頻率的一半,χ( ω )表示傅里葉變換。
[0167] 2065、針對(duì)人耳感知特征。
[0168] 人耳感知特征也即是基于Mel頻率的倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC),人耳感知特征是根據(jù)人耳的聽(tīng)覺(jué)機(jī)理來(lái)對(duì)音頻信號(hào)進(jìn)行分析的。經(jīng)研 究表明,人耳所聽(tīng)到的聲音高低與聲音的頻率成線性正比關(guān)系,如果用Mel頻率尺度表述二 者之間的關(guān)系更加符合人耳聽(tīng)覺(jué)特性。對(duì)于Mel頻率與實(shí)際頻率的具體轉(zhuǎn)換尺度,可用公式 (10)進(jìn)行計(jì)算:
[0169] Mel(f)=25951g(l+f/700) (10)
[0170] 其中,Mel(f)表示轉(zhuǎn)換后的頻率,f表示實(shí)際頻率。
[0171] 人耳感知特征提取步驟可參見(jiàn)下述步驟(1)~(5):
[0172] (1)、應(yīng)用公式九將音頻信號(hào)從實(shí)際頻率尺度轉(zhuǎn)換為Mel頻率尺度。
[0173] (2)、根據(jù)數(shù)字處理信號(hào)的截止頻率,在Mel頻率軸上截取L個(gè)Ξ角濾波器。其中,每 個(gè)Ξ角濾波器的下限頻率為前一個(gè)Ξ角濾波器的中屯、頻率,每個(gè)Ξ角濾波器的中屯、頻率為 上一個(gè)Ξ角濾波器的下限頻率,依次構(gòu)成Ξ角濾波器組。
[0174] (3)、計(jì)算音頻信號(hào)的幅度譜|Xn化)|,并采用公式(11)計(jì)算該幅度譜|Xn化)|在每 個(gè)Ξ角濾波器上的輸出:
[0177] 其中,m(l)表示幅度譜|Xn化)|在第1個(gè)Ξ角濾波器上的輸出,o(l),c(l)和h(l)表 示第1個(gè)Ξ角濾波器的下限頻率、中屯、頻率和上限頻率,k表示頻率,L表示Ξ角濾波器的數(shù) 量。
[0178] (4)、根據(jù)計(jì)算出的,m(l)對(duì)其做對(duì)數(shù)運(yùn)算,再做離散余弦變換,可得到公式(12)中 的人耳感知特征:
[0179]
(12)
[0180] 其中,Cmfcc(i)表示人耳感知特征,m(l)表示幅度譜|Xn化)|在第1個(gè)Ξ角濾波器上 的輸出,N表示人耳感知特征的維數(shù),1表示第1個(gè)Ξ角濾波器,L表示Ξ角濾波器的數(shù)量。
[0181] (5 )、將人耳感知特征做一階差分及更高階差分。
[0182] 通過(guò)步驟205服務(wù)器提取了短時(shí)能量特征和短時(shí)過(guò)零率特征等時(shí)域上的特征,通 過(guò)本步驟服務(wù)器提取了子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征及人耳 感知特征等頻域上的特征,并計(jì)算了人耳感知特征的一階差分,基于短時(shí)能量特征、短時(shí)過(guò) 零率特征、子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征、人耳感知特征及人 耳感知特征的一階差分所組成的17維的超向量,服務(wù)器可作為每帖音頻信號(hào)的音頻帖特 征。
[0183] 207、服務(wù)器對(duì)音頻帖特征進(jìn)行歸一化處理,得到特征向量。
[0184] 對(duì)于多帖音頻信號(hào)來(lái)說(shuō),每一維的音頻帖特征大小差異很大,為了便于后續(xù)計(jì)算, 服務(wù)器還將對(duì)從每帖音頻信號(hào)中提取的音頻帖特征進(jìn)行歸一化處理,W得到每帖音頻信號(hào) 對(duì)應(yīng)的特征向量。具體處理時(shí),可采用下述步驟2071~2072:
[0185] 2071、服務(wù)器獲取建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差。
[0186] 由于本實(shí)施例中的音頻帖特征為一個(gè)17維的超向量,因此,服務(wù)器在獲取建模音 頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差時(shí),需要分別獲取每維音頻帖特征的平 均值和標(biāo)準(zhǔn)差。
[0187] 2072、服務(wù)器根據(jù)該平均值和標(biāo)準(zhǔn)差,應(yīng)用W下公式(13),對(duì)音頻帖特征進(jìn)行歸一 化處理,得到特征向量:
[0188]
( 13 )
[0189] 其中,f/為歸一化后的音頻帖特征,fd為音頻帖特征,Wd為平均值,〇d為標(biāo)準(zhǔn)差,d 為維度,D為音頻特征的總維數(shù)。
[0190] 需要說(shuō)明的是,由于每帖音頻信號(hào)的音頻帖特征均為一個(gè)17維的超向量,因此,月良 務(wù)器在應(yīng)用公式(13)對(duì)每帖音頻信號(hào)的音頻帖特征進(jìn)行歸一化處理時(shí),需要針對(duì)每一維的 音頻帖特征均作一次處理,運(yùn)樣處理后可得到一個(gè)17維的特征向量。
[0191] 208、服務(wù)器根據(jù)特征向量及相應(yīng)的音頻標(biāo)簽,構(gòu)建音頻標(biāo)注模型。
[0192] 基于所獲取到的建模音頻文件中每帖音頻信號(hào)對(duì)應(yīng)的特征向量及音頻標(biāo)簽,服務(wù) 器通過(guò)采用GMM(Gaussian Mix化re Models,高斯混合模型),構(gòu)建音頻標(biāo)注模型。其中,GMM 是多個(gè)高斯分布的混合分布。GMM用多個(gè)高斯密度函數(shù)的加權(quán)和來(lái)逼近特征向量在特征空 間的分布。GMM實(shí)現(xiàn)起來(lái)簡(jiǎn)單,但功能強(qiáng)大,在音頻處理領(lǐng)域有廣泛的應(yīng)用。
[0193] 在音頻處理領(lǐng)域,由于每種音頻場(chǎng)景下的音頻信號(hào)都是由相應(yīng)地GMM模型描述的, 因此,對(duì)于具有相同音頻標(biāo)簽的音頻信號(hào),在提取出音頻帖特征,并進(jìn)行歸一化處理,得到 特征向量之后,需要通過(guò)對(duì)特征向量進(jìn)行訓(xùn)練,得至化匪模型,該GMM模型即為音頻標(biāo)注模 型。由于建模音頻文件中包含多種音頻場(chǎng)景下的音頻信號(hào),且每個(gè)音頻信號(hào)都標(biāo)注相應(yīng)的 音頻標(biāo)簽,因此,服務(wù)器通過(guò)對(duì)多個(gè)音頻信號(hào)對(duì)應(yīng)的特征向量及相應(yīng)地音頻標(biāo)簽進(jìn)行訓(xùn)練, 可得到多個(gè)GMM模型,每個(gè)GMM模型用于標(biāo)注一種音頻場(chǎng)景下的音頻信號(hào)。實(shí)際上,構(gòu)建GMM 模型的過(guò)程,就是對(duì)GMM模型參數(shù)進(jìn)行估計(jì)的過(guò)程。GMM參數(shù)估計(jì)最常用的一種方法就是最 大似然估計(jì)法。最大似然估計(jì)的目的是在給定訓(xùn)練結(jié)果的前提下,尋求合適的模型參數(shù)λ, 使得GMM模型的似然函數(shù)最大。GMM模型的似然函數(shù)可用公式(14)表示:
[0194]
(14)
[01M]其中,X為由對(duì)應(yīng)同一音頻標(biāo)簽的特征向量組成的訓(xùn)練集,N為特征向量的個(gè)數(shù),i 為任一特征向量,λ為模型參數(shù)。
[0196]雖然似然函數(shù)ρ(Χ|λ)和參數(shù)λ之間存在很復(fù)雜的非線性函數(shù)關(guān)系,不易用常規(guī)的 方法直接求得最大值,但是參數(shù)λ可W通過(guò)ΕΜ算法迭代求得。ΕΜ算法的基本思路是從一個(gè)初 始模型開(kāi)始,來(lái)估計(jì)一個(gè)新的模型參數(shù)。在GMM模型中,特征向量由不同參數(shù)值λ的高斯混合 概率密度函數(shù)唯一確定,因此,在訓(xùn)練過(guò)程中,服務(wù)器需要估計(jì)出待分類(lèi)的音頻信號(hào)對(duì)應(yīng)的 參數(shù)λ,更關(guān)鍵的是要得到使得該音頻信號(hào)特征序列概率最大的參數(shù)λ。按照最大似然估計(jì) 準(zhǔn)則,就是要求出參數(shù)λ,使得對(duì)于該音頻信號(hào)的特征向量模型的概率最大。最常用的估計(jì) 參數(shù)λ的算法是Μ算法。ΕΜ算法從初始化的模型參數(shù)開(kāi)始,根據(jù)最大似然原則,利用迭代算 法估計(jì)新的模型參數(shù)。每次迭代首先根據(jù)已知樣本和當(dāng)前參數(shù)估計(jì)得到未知數(shù)據(jù)的分布, 然后在假設(shè)前一步所得到的分布正確的情況下,根據(jù)最大似然原則,計(jì)算新的模型的參數(shù)。 然后不斷地重復(fù)W上過(guò)程,在達(dá)到局部最大之前,每次的迭代都會(huì)增大似然度。當(dāng)似然度不 再改變時(shí),說(shuō)明達(dá)到了局部最大,運(yùn)時(shí)得到的參數(shù)λ就是最優(yōu)的參數(shù)。
[0197] 209、服務(wù)器根據(jù)音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻標(biāo)簽。
[0198] 對(duì)于任一待標(biāo)注的視頻文件,服務(wù)器采用ffmpeg等工具從互聯(lián)網(wǎng)上提取出來(lái)后, 先將該待標(biāo)注的視頻文件的格式參數(shù)轉(zhuǎn)換為與建模視頻文件相同的格式參數(shù),然后基于所 構(gòu)建的音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻標(biāo)簽,具體添加過(guò)程,可參見(jiàn)下述步 驟2091~2095:
[0199] 2091、服務(wù)器將待標(biāo)注的視頻文件劃分為多帖目標(biāo)音頻信號(hào)。
[0200] 服務(wù)器可采用公式一中的漢明窗函數(shù),將待標(biāo)注的視頻文件劃分為多帖音頻信 號(hào)。
[0201] 2092、服務(wù)器從多帖目標(biāo)音頻信號(hào)中,剔除目標(biāo)靜音信號(hào),得到多帖目標(biāo)非靜音信 號(hào)。
[0202] 該步驟的實(shí)現(xiàn)方式與上述步驟205的實(shí)現(xiàn)方式相同,具體參見(jiàn)上述步驟205。
[0203] 2093、服務(wù)器從每帖目標(biāo)非靜音信號(hào)中,提取目標(biāo)音頻帖特征。
[0204] 該步驟的實(shí)現(xiàn)方式與上述步驟206的實(shí)現(xiàn)方式相同,具體參見(jiàn)上述步驟206。
[0205] 2094、服務(wù)器對(duì)目標(biāo)音頻帖特征進(jìn)行歸一化處理,得到目標(biāo)特征向量。
[0206] 該步驟的實(shí)現(xiàn)方式與上述步驟207的實(shí)現(xiàn)方式相同,具體參見(jiàn)上述步驟207。
[0207] 2095、服務(wù)器根據(jù)音頻標(biāo)注模型,為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng) 的音頻標(biāo)簽。
[0208] 對(duì)目標(biāo)音頻信號(hào)的識(shí)別的目的是從所構(gòu)建的多個(gè)音頻標(biāo)注模型中找到一個(gè)模型 參數(shù)λι<,使得目標(biāo)特征向量r具有最大的后驗(yàn)概率P(Ak/r ),其中,k為音頻標(biāo)注模型的個(gè) 數(shù)。根據(jù)貝葉斯理論,最大后驗(yàn)概率可W用公式(15)表示:
[0209]
(")
[0210] 由于Ρ(λ〇的先驗(yàn)概率未知,因此,可設(shè)定目標(biāo)特征向量符合每個(gè)音頻標(biāo)注模型的 可能性相同,也即是巧為J = | k
[0211] 對(duì)于一個(gè)確定的觀察矢量公,Ρ(Χ/ )是一個(gè)確定的常數(shù)值,對(duì)于所有的音頻標(biāo)注模 型都相同,因此,在可通過(guò)計(jì)算ρ(χνλι〇的最大值,計(jì)算出目標(biāo)特征向量的后驗(yàn)概率的最大 值。在獲取到目標(biāo)特征向量的后驗(yàn)概率的最大值后,獲取目標(biāo)特征向量的后驗(yàn)概率的最大 值對(duì)應(yīng)的音頻標(biāo)注模型,進(jìn)而為目標(biāo)音頻信號(hào)添加上該音頻標(biāo)注模型對(duì)應(yīng)的音頻標(biāo)簽。
[0212] 除了為每帖目標(biāo)音頻信號(hào)標(biāo)注上相應(yīng)地音頻標(biāo)簽之后,服務(wù)器還將為每帖目標(biāo)音 頻信號(hào)標(biāo)注上時(shí)間標(biāo)簽,該時(shí)間標(biāo)簽包括起始時(shí)間和結(jié)束時(shí)間,通過(guò)采用該種處理方式,每 帖目標(biāo)音頻信號(hào)對(duì)應(yīng)一個(gè)時(shí)間標(biāo)簽和一個(gè)音頻標(biāo)簽,運(yùn)兩個(gè)標(biāo)簽的表現(xiàn)形式可W為[開(kāi)始 時(shí)間:結(jié)束時(shí)間]〉音頻標(biāo)簽。
[0213] 在根據(jù)音頻標(biāo)注模型,為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽 之后,服務(wù)器還將根據(jù)整個(gè)待標(biāo)注的音頻文件中的所有音頻標(biāo)簽,將相鄰且對(duì)應(yīng)同一音頻 標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并,W得到最少的音頻標(biāo)簽。圖3為采用本實(shí)施例提供的方法標(biāo) 注后的視頻文件的音頻場(chǎng)景分布圖,圖3作為一種非常直觀的人機(jī)交互方式,通過(guò)圖3用戶(hù) 可W快速定位到自己感興趣的段落進(jìn)行預(yù)覽。
[0214] 對(duì)于上述根據(jù)音頻標(biāo)注模型為待標(biāo)注的視頻文件添加音頻標(biāo)簽的過(guò)程,為了便于 理解,下面將W圖4為例進(jìn)行說(shuō)明。
[0215] 參見(jiàn)圖4,服務(wù)器獲取建模視頻文件,從建模視頻文件中提取建模音頻文件,根據(jù) 不同的音頻場(chǎng)景,從該建模音頻文件中,識(shí)別出不同的音頻片段,對(duì)識(shí)別出的音頻片段進(jìn)行 預(yù)加重處理,得到預(yù)加重音頻片段,將每個(gè)預(yù)加重音頻片段分割成多帖音頻信號(hào),剔除多帖 音頻信號(hào)中的靜音信號(hào),得到多帖非靜音信號(hào)。提取每帖非靜音信號(hào)的音頻帖特征,對(duì)建模 音頻文件中音頻信號(hào)的音頻帖特征進(jìn)行歸一化處理,得到特征向量,基于該特征向量及音 頻標(biāo)簽,構(gòu)建GMM模型,通過(guò)對(duì)該GMM模型進(jìn)行訓(xùn)練,得到GMM模型參數(shù)。
[0216] 對(duì)于任一待標(biāo)注的視頻文件,例如電影文件,從該電影文件中提取電影音頻文件, 將該電影音頻文件劃分為多帖目標(biāo)音頻信號(hào),剔除多帖音頻信號(hào)中的目標(biāo)靜音信號(hào),得到 多帖目標(biāo)非靜音信號(hào)。提取每帖目標(biāo)非靜音信號(hào)的目標(biāo)音頻帖特征,并對(duì)待標(biāo)注的視頻文 件中的目標(biāo)非靜音信號(hào)進(jìn)行歸一化處理,得到目標(biāo)特征向量?;诘玫降腉MM模型參數(shù),為 目標(biāo)音頻信號(hào)標(biāo)注音頻標(biāo)簽,并將標(biāo)注音頻標(biāo)簽的視頻文件顯示出來(lái)。
[0217] 本發(fā)明實(shí)施例提供的方法,無(wú)需借助人力,基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注 的視頻文件添加不同的音頻標(biāo)簽,在滿足用戶(hù)預(yù)覽需求的前提下,不僅節(jié)省了制作成本,而 且提高了標(biāo)注效率及辨識(shí)度。
[0218] 參見(jiàn)圖5,本發(fā)明實(shí)施例提供了一種視頻文件的標(biāo)注裝置,該裝置包括:
[0219] 獲取模塊501,用于獲取建模視頻文件;
[0220] 第一提取模塊502,用于從建模視頻文件中,提取建模音頻文件;
[0221] 識(shí)別模塊503,用于從建模音頻文件中,識(shí)別出多個(gè)音頻片段,每個(gè)音頻片段對(duì)應(yīng) 一個(gè)音頻標(biāo)簽;
[0222] 劃分模塊504,用于對(duì)于任一音頻片段,將音頻片段劃分為多帖音頻信號(hào);
[0223] 第二提取模塊505,用于從每帖音頻信號(hào)中,提取音頻帖特征;
[0224] 處理模塊506,用于對(duì)音頻帖特征進(jìn)行歸一化處理,得到特征向量;
[0225] 構(gòu)建模塊507,用于根據(jù)特征向量及相應(yīng)的音頻標(biāo)簽,構(gòu)建音頻標(biāo)注模型;
[0226] 添加模塊508,用于據(jù)音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻標(biāo)簽。
[0227] 在本發(fā)明的另一個(gè)實(shí)施例中,該裝置還包括:
[0228] 預(yù)加重模塊,用于對(duì)音頻片段進(jìn)行預(yù)加重處理,得到預(yù)加重音頻片段;
[0229] 劃分模塊504,用于采用窗函數(shù)將預(yù)加重音頻片段劃分為多帖音頻信號(hào)。
[0230] 在本發(fā)明的另一個(gè)實(shí)施例中,該裝置還包括:
[0231] 第Ξ提取模塊,用于提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征;
[0232] 剔除模塊,用于根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征,剔除多帖音頻信號(hào)中的靜 音信號(hào),得到多帖非靜音信號(hào);
[0233] 第二提取模塊505,用于從每帖非靜音信號(hào)中,提取子帶能量比特征、頻率質(zhì)屯、特 征、譜帶寬特征、頻率能量特征及人耳感知特征。
[0234] 在本發(fā)明的另一個(gè)實(shí)施例中,處理模塊506,用于獲取建模音頻文件中音頻信號(hào)的 音頻帖特征的平均值和標(biāo)準(zhǔn)差;根據(jù)平均值和標(biāo)準(zhǔn)差,應(yīng)用w下公式,對(duì)音頻帖特征進(jìn)行歸 一化處理,得到特征向量:
[0235]
[0236] 其中,f/為歸一化后的音頻帖特征,fd為音頻帖特征,Wd為平均值,〇d為標(biāo)準(zhǔn)差,D 為音頻帖特征。
[0237] 在本發(fā)明的另一個(gè)實(shí)施例中,添加模塊508,用于將待標(biāo)注的視頻文件劃分為多帖 目標(biāo)音頻信號(hào);從多帖目標(biāo)音頻信號(hào)中,剔除目標(biāo)靜音信號(hào),得到多帖目標(biāo)非靜音信號(hào);從 每帖目標(biāo)非靜音信號(hào)中,提取目標(biāo)音頻帖特征;對(duì)目標(biāo)音頻帖特征進(jìn)行歸一化處理,得到目 標(biāo)特征向量;根據(jù)音頻標(biāo)注模型,為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo) 簽。
[0238] 在本發(fā)明的另一個(gè)實(shí)施例中,該裝置還包括:
[0239] 合并模塊,用于將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。
[0240] 在本發(fā)明的另一個(gè)實(shí)施例中,音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo)簽、 槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
[0241] 綜上,本發(fā)明實(shí)施例提供的裝置,無(wú)需借助人力,基于所構(gòu)建的音頻識(shí)別模型為待 標(biāo)注的視頻文件添加不同的音頻標(biāo)簽,在滿足用戶(hù)預(yù)覽需求的前提下,不僅節(jié)省了制作成 本,而且提高了標(biāo)注效率及辨識(shí)度。
[0242] 圖6是根據(jù)一示例性實(shí)施例示出的一種用于視頻文件的標(biāo)注的服務(wù)器。參照?qǐng)D6, 服務(wù)器600包括處理組件622,其進(jìn)一步包括一個(gè)或多個(gè)處理器,W及由存儲(chǔ)器632所代表的 存儲(chǔ)器資源,用于存儲(chǔ)可由處理組件622的執(zhí)行的指令,例如應(yīng)用程序。存儲(chǔ)器632中存儲(chǔ)的 應(yīng)用程序可W包括一個(gè)或一個(gè)W上的每一個(gè)對(duì)應(yīng)于一組指令的模塊。此外,處理組件622被 配置為執(zhí)行指令,W執(zhí)行上述視頻文件的標(biāo)注方法中服務(wù)器所執(zhí)行的功能,該方法包括:
[0243] 獲取建模視頻文件。
[0244] 從建模視頻文件中,提取建模音頻文件。
[0245] 從建模音頻文件中,識(shí)別出多個(gè)音頻片段,每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽。
[0246] 對(duì)于任一音頻片段,將音頻片段劃分為多帖音頻信號(hào)。
[0247] 從每帖音頻信號(hào)中,提取音頻帖特征。
[0248] 對(duì)音頻帖特征進(jìn)行歸一化處理,得到特征向量。
[0249 ]根據(jù)特征向量及相應(yīng)的音頻標(biāo)簽,構(gòu)建音頻標(biāo)注模型。
[0250] 根據(jù)音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻標(biāo)簽。
[0251] 本發(fā)明實(shí)施例提供的方法,無(wú)需借助人力,基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注 的視頻文件添加不同的音頻標(biāo)簽,在滿足用戶(hù)預(yù)覽需求的前提下,不僅節(jié)省了制作成本,而 且提高了標(biāo)注效率及辨識(shí)度。
[0252] 在本發(fā)明的另一個(gè)實(shí)施例中,將音頻片段劃分為多帖音頻信號(hào)之前,還包括:
[0253] 對(duì)音頻片段進(jìn)行預(yù)加重處理,得到預(yù)加重音頻片段;
[0254] 采用窗函數(shù)將預(yù)加重音頻片段劃分為多帖音頻信號(hào)。
[02W]在本發(fā)明的另一個(gè)實(shí)施例中,從每帖音頻信號(hào)中,提取音頻帖特征之前,還包括: [0256]提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征;
[0257] 根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征,剔除多帖音頻信號(hào)中的靜音信號(hào),得到多 帖非靜音信號(hào);
[0258] 從每帖音頻信號(hào)中,提取音頻帖特征,包括:
[0259] 從每帖非靜音信號(hào)中,提取子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能 量特征及人耳感知特征。
[0260] 在本發(fā)明的另一個(gè)實(shí)施例中,對(duì)音頻帖特征進(jìn)行歸一化處理,得到特征向量,包 括:
[0261] 獲取建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差;
[0262] 根據(jù)平均值和標(biāo)準(zhǔn)差,應(yīng)用W下公式,對(duì)音頻帖特征進(jìn)行歸一化處理,得到特征向 量:
[0%3]
[0264] 其中,f/為歸一化后的音頻帖特征,fd為音頻帖特征,Wd為平均值,〇d為標(biāo)準(zhǔn)差,D 為音頻帖特征。
[0265] 在本發(fā)明的另一個(gè)實(shí)施例中,根據(jù)音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻 標(biāo)簽,包括:
[0266] 將待標(biāo)注的視頻文件劃分為多帖目標(biāo)音頻信號(hào);
[0267] 從多帖目標(biāo)音頻信號(hào)中,剔除目標(biāo)靜音信號(hào),得到多帖目標(biāo)非靜音信號(hào);
[0268] 從每帖目標(biāo)非靜音信號(hào)中,提取目標(biāo)音頻帖特征;
[0269] 對(duì)目標(biāo)音頻帖特征進(jìn)行歸一化處理,得到目標(biāo)特征向量;
[0270] 根據(jù)音頻標(biāo)注模型,為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽。 [0271 ]在本發(fā)明的另一個(gè)實(shí)施例中,根據(jù)音頻標(biāo)注模型,為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音 頻信號(hào)添加相應(yīng)的音頻標(biāo)簽之后,還包括:
[0272] 將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。
[0273] 在本發(fā)明的另一個(gè)實(shí)施例中,音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo)簽、 槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
[0274] 服務(wù)器600還可W包括一個(gè)電源組件626被配置為執(zhí)行服務(wù)器600的電源管理,一 個(gè)有線或無(wú)線網(wǎng)絡(luò)接口 650被配置為將服務(wù)器600連接到網(wǎng)絡(luò),和一個(gè)輸入輸出(I/O)接口 658。服務(wù)器600可W操作基于存儲(chǔ)在存儲(chǔ)器632的操作系統(tǒng),例如Windows Server?,Mac 0S X?,Unix?,Linux?,化 eeBSD? 或類(lèi)似。
[0275] 本發(fā)明實(shí)施例提供的服務(wù)器,無(wú)需借助人力,基于所構(gòu)建的音頻識(shí)別模型為待標(biāo) 注的視頻文件添加不同的音頻標(biāo)簽,在滿足用戶(hù)預(yù)覽需求的前提下,不僅節(jié)省了制作成本, 而且提高了標(biāo)注效率及辨識(shí)度。
[0276] 需要說(shuō)明的是:上述實(shí)施例提供的視頻文件的標(biāo)注裝置在標(biāo)注視頻文件時(shí),僅W 上述各功能模塊的劃分進(jìn)行舉例說(shuō)明,實(shí)際應(yīng)用中,可W根據(jù)需要而將上述功能分配由不 同的功能模塊完成,即將視頻文件的標(biāo)注裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,W完成 W上描述的全部或者部分功能。另外,上述實(shí)施例提供的視頻文件的標(biāo)注裝置與視頻文件 的標(biāo)注方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過(guò)程詳見(jiàn)方法實(shí)施例,運(yùn)里不再寶述。
[0277] 本領(lǐng)域普通技術(shù)人員可W理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可W通過(guò)硬件 來(lái)完成,也可w通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可w存儲(chǔ)于一種計(jì)算機(jī)可讀 存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可W是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。
[0278] W上所述僅為本發(fā)明的較佳實(shí)施例,并不用W限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種視頻文件的標(biāo)注方法,其特征在于,所述方法包括: 獲取建模視頻文件; 從所述建模視頻文件中,提取建模音頻文件; 從所述建模音頻文件中,識(shí)別出多個(gè)音頻片段,每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽; 對(duì)于任一音頻片段,將所述音頻片段劃分為多幀音頻信號(hào); 從每幀音頻信號(hào)中,提取音頻幀特征; 對(duì)所述音頻幀特征進(jìn)行歸一化處理,得到特征向量; 根據(jù)所述特征向量及相應(yīng)的音頻標(biāo)簽,構(gòu)建音頻標(biāo)注模型; 根據(jù)所述音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻標(biāo)簽。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述音頻片段劃分為多幀音頻信號(hào) 之前,還包括: 對(duì)所述音頻片段進(jìn)行預(yù)加重處理,得到預(yù)加重音頻片段; 所述將所述音頻片段劃分為多幀音頻信號(hào),包括: 采用窗函數(shù)將所述預(yù)加重音頻片段劃分為多幀音頻信號(hào)。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從每幀音頻信號(hào)中,提取音頻幀特征 之前,還包括: 提取每幀音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征; 根據(jù)所述短時(shí)能量特征和短時(shí)過(guò)零率特征,剔除所述多幀音頻信號(hào)中的靜音信號(hào),得 到多幀非靜音信號(hào); 所述從每幀音頻信號(hào)中,提取音頻幀特征,包括: 從每幀非靜音信號(hào)中,提取子帶能量比特征、頻率質(zhì)心特征、譜帶寬特征、頻率能量特 征及人耳感知特征。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述音頻幀特征進(jìn)行歸一化處理, 得到特征向量,包括: 獲取所述建模音頻文件中音頻信號(hào)的音頻幀特征的平均值和標(biāo)準(zhǔn)差; 根據(jù)所述平均值和所述標(biāo)準(zhǔn)差,應(yīng)用以下公式,對(duì)所述音頻幀特征進(jìn)行歸一化處理,得 到特征向量:其中,f/為歸一化后的音頻幀特征,fd為所述音頻幀特征,w為所述平均值,〇d為所述標(biāo) 準(zhǔn)差,D為所述音頻幀特征。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述音頻標(biāo)注模型,為待標(biāo)注的 視頻文件,添加音頻標(biāo)簽,包括: 將所述待標(biāo)注的視頻文件劃分為多幀目標(biāo)音頻信號(hào); 從所述多幀目標(biāo)音頻信號(hào)中,剔除目標(biāo)靜音信號(hào),得到多幀目標(biāo)非靜音信號(hào); 從每幀目標(biāo)非靜音信號(hào)中,提取目標(biāo)音頻幀特征; 對(duì)所述目標(biāo)音頻幀特征進(jìn)行歸一化處理,得到目標(biāo)特征向量; 根據(jù)所述音頻標(biāo)注模型,為所述目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo) 簽。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述音頻標(biāo)注模型,為所述目標(biāo) 特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽之后,還包括: 將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。7. 根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其特征在于,所述音頻標(biāo)簽至少包括語(yǔ)音 標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo)簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。8. -種視頻文件的標(biāo)注裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取建模視頻文件; 第一提取模塊,用于從所述建模視頻文件中,提取建模音頻文件; 識(shí)別模塊,用于從所述建模音頻文件中,識(shí)別出多個(gè)音頻片段,每個(gè)音頻片段對(duì)應(yīng)一個(gè) 首頻標(biāo)簽; 劃分模塊,用于對(duì)于任一音頻片段,將所述音頻片段劃分為多幀音頻信號(hào); 第二提取模塊,用于從每幀音頻信號(hào)中,提取音頻幀特征; 處理模塊,用于對(duì)所述音頻幀特征進(jìn)行歸一化處理,得到特征向量; 構(gòu)建模塊,用于根據(jù)所述特征向量及相應(yīng)的音頻標(biāo)簽,構(gòu)建音頻標(biāo)注模型; 添加模塊,用于據(jù)所述音頻標(biāo)注模型,為待標(biāo)注的視頻文件,添加音頻標(biāo)簽。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括: 預(yù)加重模塊,用于對(duì)所述音頻片段進(jìn)行預(yù)加重處理,得到預(yù)加重音頻片段; 所述劃分模塊,用于采用窗函數(shù)將所述預(yù)加重音頻片段劃分為多幀音頻信號(hào)。10. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括: 第三提取模塊,用于提取每幀音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征; 剔除模塊,用于根據(jù)所述短時(shí)能量特征和短時(shí)過(guò)零率特征,剔除所述多幀音頻信號(hào)中 的靜音信號(hào),得到多幀非靜音信號(hào); 所述第二提取模塊,用于從每幀非靜音信號(hào)中,提取子帶能量比特征、頻率質(zhì)心特征、 譜帶寬特征、頻率能量特征及人耳感知特征。11. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述處理模塊,用于獲取所述建模音頻文 件中音頻信號(hào)的音頻幀特征的平均值和標(biāo)準(zhǔn)差;根據(jù)所述平均值和所述標(biāo)準(zhǔn)差,應(yīng)用以下 公式,對(duì)所述音頻幀特征進(jìn)行歸一化處理,得到特征向量:其中,f/為歸一化后的音頻幀特征,fd為所述音頻幀特征,w為所述平均值,〇d為所述標(biāo) 準(zhǔn)差,D為所述音頻幀特征。12. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述添加模塊,用于將所述待標(biāo)注的視頻 文件劃分為多幀目標(biāo)音頻信號(hào);從所述多幀目標(biāo)音頻信號(hào)中,剔除目標(biāo)靜音信號(hào),得到多幀 目標(biāo)非靜音信號(hào);從每幀目標(biāo)非靜音信號(hào)中,提取目標(biāo)音頻幀特征;對(duì)所述目標(biāo)音頻幀特征 進(jìn)行歸一化處理,得到目標(biāo)特征向量;根據(jù)所述音頻標(biāo)注模型,為所述目標(biāo)特征向量對(duì)應(yīng)的 目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽。13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括: 合并模塊,用于將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。14. 根據(jù)權(quán)利要求8至13中任一權(quán)利要求所述的裝置,其特征在于,所述音頻標(biāo)簽至少 包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo)簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
【文檔編號(hào)】H04N21/845GK105872855SQ201610364407
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2016年5月26日
【發(fā)明人】何新超
【申請(qǐng)人】廣州酷狗計(jì)算機(jī)科技有限公司