視頻文件的標(biāo)注方法及裝置的制造方法

文檔序號(hào)：10516468閱讀：426來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>電子通信裝置的制造及其應(yīng)用技術(shù)

視頻文件的標(biāo)注方法及裝置的制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種視頻文件的標(biāo)注方法及裝置，屬于音頻處理技術(shù)領(lǐng)域。該方法包括：獲取建模視頻文件；從建模視頻文件中，提取建模音頻文件；從建模音頻文件中，識(shí)別出多個(gè)音頻片段，每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽；對(duì)于任一音頻片段，將音頻片段劃分為多幀音頻信號(hào)；從每幀音頻信號(hào)中，提取音頻幀特征；對(duì)音頻幀特征進(jìn)行歸一化處理，得到特征向量；根據(jù)特征向量及相應(yīng)的音頻標(biāo)簽，構(gòu)建音頻標(biāo)注模型；根據(jù)音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽。本發(fā)明無(wú)需借助人力，基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注的視頻文件添加不同的音頻標(biāo)簽，在滿足用戶(hù)預(yù)覽需求的前提下，不僅節(jié)省了制作成本，而且提高了標(biāo)注效率及辨識(shí)度。
【專(zhuān)利說(shuō)明】
視頻文件的標(biāo)注方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及音頻處理技術(shù)領(lǐng)域，特別設(shè)及一種視頻文件的標(biāo)注方法及裝置。
【背景技術(shù)】
[0002] 在現(xiàn)代生活中，視頻文件作為一種重要的多媒體形式，已成為用戶(hù)生活中必不可少的組成部分。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，互聯(lián)網(wǎng)上的視頻文件種類(lèi)和數(shù)量急劇增加，當(dāng)用戶(hù) 在互聯(lián)網(wǎng)上捜索指定類(lèi)型的視頻文件時(shí)，往往會(huì)捜索出大量的視頻文件，而一個(gè)視頻文件的時(shí)長(zhǎng)往往達(dá)到上百分鐘，如果用戶(hù)通過(guò)逐個(gè)預(yù)覽的方式，從中運(yùn)些視頻文件中篩選出自己感興趣的視頻文件，將消耗用戶(hù)大量的時(shí)間。為了節(jié)省用戶(hù)的預(yù)覽時(shí)間，需要對(duì)視頻文件進(jìn)行標(biāo)注。
[0003] 當(dāng)前對(duì)視頻文件進(jìn)行標(biāo)注，主要通過(guò)人工的方式在時(shí)間軸上為視頻文件的章節(jié)或高潮部分標(biāo)注上相應(yīng)地內(nèi)容標(biāo)簽，通過(guò)所添加的內(nèi)容標(biāo)簽，用戶(hù)可對(duì)視頻文件進(jìn)行預(yù)覽。
[0004] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中，發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在W下問(wèn)題：
[0005] 由于需要采用人工的方式進(jìn)行標(biāo)注，因而標(biāo)注效率較低，制作成本較高。

【發(fā)明內(nèi)容】

[0006] 為了解決現(xiàn)有技術(shù)的問(wèn)題，本發(fā)明實(shí)施例提供了一種視頻文件的標(biāo)注方法及裝置。所述技術(shù)方案如下：
[0007] -方面，提供了一種視頻文件的標(biāo)注方法，所述方法包括：
[000引獲取建模視頻文件；
[0009] 從所述建模視頻文件中，提取建模音頻文件；
[0010] 從所述建模音頻文件中，識(shí)別出多個(gè)音頻片段，每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽；
[0011] 對(duì)于任一音頻片段，將所述音頻片段劃分為多帖音頻信號(hào)；
[0012] 從每帖音頻信號(hào)中，提取音頻帖特征；
[0013] 對(duì)所述音頻帖特征進(jìn)行歸一化處理，得到特征向量；
[0014] 根據(jù)所述特征向量及相應(yīng)的音頻標(biāo)簽，構(gòu)建音頻標(biāo)注模型；
[0015] 根據(jù)所述音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽。
[0016] 在本發(fā)明的另一個(gè)實(shí)施例中，所述將所述音頻片段劃分為多帖音頻信號(hào)之前，還包括：
[0017] 對(duì)所述音頻片段進(jìn)行預(yù)加重處理，得到預(yù)加重音頻片段；
[0018] 所述將所述音頻片段劃分為多帖音頻信號(hào)，包括：
[0019] 采用窗函數(shù)將所述預(yù)加重音頻片段劃分為多帖音頻信號(hào)。
[0020] 在本發(fā)明的另一個(gè)實(shí)施例中，所述從每帖音頻信號(hào)中，提取音頻帖特征之前，還包括：
[0021 ]提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征；
[0022]根據(jù)所述短時(shí)能量特征和短時(shí)過(guò)零率特征，剔除所述多帖音頻信號(hào)中的靜音信號(hào)，得到多帖非靜音信號(hào)；
[0023] 所述從每帖音頻信號(hào)中，提取音頻帖特征，包括：
[0024] 從每帖非靜音信號(hào)中，提取子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征及人耳感知特征。
[0025] 在本發(fā)明的另一個(gè)實(shí)施例中，所述對(duì)所述音頻帖特征進(jìn)行歸一化處理，得到特征向量，包括：
[0026] 獲取所述建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差；
[0027] 根據(jù)所述平均值和所述標(biāo)準(zhǔn)差，應(yīng)用W下公式，對(duì)所述音頻帖特征進(jìn)行歸一化處理，得到特征向量：
[002引
[0029] 其中，f/為歸一化后的音頻帖特征，fd為所述音頻帖特征，Wd為所述平均值，曰d為所述標(biāo)準(zhǔn)差，D為所述音頻帖特征。
[0030] 在本發(fā)明的另一個(gè)實(shí)施例中，所述根據(jù)所述音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽，包括：
[0031 ]將所述待標(biāo)注的視頻文件劃分為多帖目標(biāo)音頻信號(hào)；
[0032] 從所述多帖目標(biāo)音頻信號(hào)中，剔除目標(biāo)靜音信號(hào)，得到多帖目標(biāo)非靜音信號(hào)；
[0033] 從每帖目標(biāo)非靜音信號(hào)中，提取目標(biāo)音頻帖特征；
[0034] 對(duì)所述目標(biāo)音頻帖特征進(jìn)行歸一化處理，得到目標(biāo)特征向量；
[0035] 根據(jù)所述音頻標(biāo)注模型，為所述目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻柄簽。
[0036] 在本發(fā)明的另一個(gè)實(shí)施例中，所述根據(jù)所述音頻標(biāo)注模型，為所述目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽之后，還包括：
[0037] 將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。
[0038] 在本發(fā)明的另一個(gè)實(shí)施例中，所述音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo) 簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
[0039] 另一方面，提供了一種視頻文件的標(biāo)注裝置，所述裝置包括：
[0040] 獲取模塊，用于獲取建模視頻文件；
[0041 ]第一提取模塊，用于從所述建模視頻文件中，提取建模音頻文件；
[0042] 識(shí)別模塊，用于從所述建模音頻文件中，識(shí)別出多個(gè)音頻片段，每個(gè)音頻片段對(duì)應(yīng) 首頻t不簽；
[0043] 劃分模塊，用于對(duì)于任一音頻片段，將所述音頻片段劃分為多帖音頻信號(hào)；
[0044] 第二提取模塊，用于從每帖音頻信號(hào)中，提取音頻帖特征；
[0045] 處理模塊，用于對(duì)所述音頻帖特征進(jìn)行歸一化處理，得到特征向量；
[0046] 構(gòu)建模塊，用于根據(jù)所述特征向量及相應(yīng)的音頻標(biāo)簽，構(gòu)建音頻標(biāo)注模型；
[0047] 添加模塊，用于據(jù)所述音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽。
[004引在本發(fā)明的另一個(gè)實(shí)施例中，所述裝置還包括：
[0049] 預(yù)加重模塊，用于對(duì)所述音頻片段進(jìn)行預(yù)加重處理，得到預(yù)加重音頻片段；
[0050] 所述劃分模塊，用于采用窗函數(shù)將所述預(yù)加重音頻片段劃分為多帖音頻信號(hào)。
[0051 ]在本發(fā)明的另一個(gè)實(shí)施例中，所述裝置還包括：
[0052] 第Ξ提取模塊，用于提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征；
[0053] 剔除模塊，用于根據(jù)所述短時(shí)能量特征和短時(shí)過(guò)零率特征，剔除所述多帖音頻信號(hào)中的靜音信號(hào)，得到多帖非靜音信號(hào)；
[0054] 所述第二提取模塊，用于從每帖非靜音信號(hào)中，提取子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征及人耳感知特征。
[0055] 在本發(fā)明的另一個(gè)實(shí)施例中，所述處理模塊，用于獲取所述建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差;根據(jù)所述平均值和所述標(biāo)準(zhǔn)差，應(yīng)用W下公式，對(duì)所述音頻帖特征進(jìn)行歸一化處理，得到特征向量：
[0化6]
[0057]其中，f/為歸一化后的音頻帖特征，fd為所述音頻帖特征，Wd為所述平均值，〇d為所述標(biāo)準(zhǔn)差，D為所述音頻帖特征。
[005引在本發(fā)明的另一個(gè)實(shí)施例中，所述添加模塊，用于將所述待標(biāo)注的視頻文件劃分為多帖目標(biāo)音頻信號(hào);從所述多帖目標(biāo)音頻信號(hào)中，剔除目標(biāo)靜音信號(hào)，得到多帖目標(biāo)非靜音信號(hào);從每帖目標(biāo)非靜音信號(hào)中，提取目標(biāo)音頻帖特征;對(duì)所述目標(biāo)音頻帖特征進(jìn)行歸一化處理，得到目標(biāo)特征向量;根據(jù)所述音頻標(biāo)注模型，為所述目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽。
[0059] 在本發(fā)明的另一個(gè)實(shí)施例中，所述裝置還包括：
[0060] 合并模塊，用于將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。
[0061] 在本發(fā)明的另一個(gè)實(shí)施例中，所述音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo) 簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
[0062] 本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是：
[0063] 無(wú)需借助人力，基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注的視頻文件添加不同的音頻標(biāo)簽，在滿足用戶(hù)預(yù)覽需求的前提下，不僅節(jié)省了制作成本，而且提高了標(biāo)注效率及辨識(shí) 度。
【附圖說(shuō)明】
[0064] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案，下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可W根據(jù)運(yùn)些附圖獲得其他的附圖。
[0065] 圖1是本發(fā)明一個(gè)實(shí)施例提供的一種視頻文件的標(biāo)注方法流程圖；
[0066] 圖2是本發(fā)明另一個(gè)實(shí)施例提供的一種視頻文件的標(biāo)注方法流程圖；
[0067] 圖3是本發(fā)明另一個(gè)實(shí)施例提供一種待標(biāo)注的視頻文件標(biāo)注結(jié)果的示意圖；
[0068] 圖4是本發(fā)明另一個(gè)實(shí)施例提供的一種視頻文件的標(biāo)注過(guò)程的示意圖；
[0069] 圖5是本發(fā)明另一個(gè)實(shí)施例提供的一種視頻文件的標(biāo)注裝置結(jié)構(gòu)示意圖；
[0070] 圖6是根據(jù)一示例性實(shí)施例示出的一種用于視頻文件的標(biāo)注的服務(wù)器。
【具體實(shí)施方式】
[0071] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0072] 本發(fā)明實(shí)施例提供了一種視頻文件的標(biāo)注方法，參見(jiàn)圖1，本實(shí)施例提供的方法流程包括：
[0073] 101、獲取建模視頻文件。
[0074] 102、從建模視頻文件中，提取建模音頻文件。
[0075] 103、從建模音頻文件中，識(shí)別出多個(gè)音頻片段，每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽。
[0076] 104、對(duì)于任一音頻片段，將音頻片段劃分為多帖音頻信號(hào)。
[0077] 105、從每帖音頻信號(hào)中，提取音頻帖特征。
[0078] 106、對(duì)音頻帖特征進(jìn)行歸一化處理，得到特征向量。
[0079] 107、根據(jù)特征向量及相應(yīng)的首頻柄；簽，構(gòu)建首頻柄；注板型。
[0080] 108、根據(jù)音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽。
[0081] 本發(fā)明實(shí)施例提供的方法，無(wú)需借助人力，基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注的視頻文件添加不同的音頻標(biāo)簽，在滿足用戶(hù)預(yù)覽需求的前提下，不僅節(jié)省了制作成本，而且提高了標(biāo)注效率及辨識(shí)度。
[0082] 在本發(fā)明的另一個(gè)實(shí)施例中，將音頻片段劃分為多帖音頻信號(hào)之前，還包括：
[0083] 對(duì)音頻片段進(jìn)行預(yù)加重處理，得到預(yù)加重音頻片段；
[0084] 將音頻片段劃分為多帖音頻信號(hào)，包括：
[0085] 采用窗函數(shù)將預(yù)加重音頻片段劃分為多帖音頻信號(hào)。
[0086] 在本發(fā)明的另一個(gè)實(shí)施例中，從每帖音頻信號(hào)中，提取音頻帖特征之前，還包括：
[0087] 提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征；
[0088] 根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征，剔除多帖音頻信號(hào)中的靜音信號(hào)，得到多帖非靜音信號(hào)；
[0089] 從每帖音頻信號(hào)中，提取音頻帖特征，包括：
[0090] 從每帖非靜音信號(hào)中，提取子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征及人耳感知特征。
[0091] 在本發(fā)明的另一個(gè)實(shí)施例中，對(duì)音頻帖特征進(jìn)行歸一化處理，得到特征向量，包括：
[0092] 獲取建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差；
[0093] 根據(jù)平均值和標(biāo)準(zhǔn)差，應(yīng)用W下公式，對(duì)音頻帖特征進(jìn)行歸一化處理，得到特征向量：
[0094]
[0095] 其中，f/為歸一化后的音頻帖特征，fd為音頻帖特征，Wd為平均值，〇d為標(biāo)準(zhǔn)差，D 為音頻帖特征。
[0096] 在本發(fā)明的另一個(gè)實(shí)施例中，根據(jù)音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽，包括：
[0097] 將待標(biāo)注的視頻文件劃分為多帖目標(biāo)音頻信號(hào)；
[0098] 從多帖目標(biāo)音頻信號(hào)中，剔除目標(biāo)靜音信號(hào)，得到多帖目標(biāo)非靜音信號(hào)；
[0099] 從每帖目標(biāo)非靜音信號(hào)中，提取目標(biāo)音頻帖特征；
[0100] 對(duì)目標(biāo)音頻帖特征進(jìn)行歸一化處理，得到目標(biāo)特征向量；
[0101] 根據(jù)音頻標(biāo)注模型，為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽。
[0102] 在本發(fā)明的另一個(gè)實(shí)施例中，根據(jù)音頻標(biāo)注模型，為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽之后，還包括：
[0103] 將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。
[0104] 在本發(fā)明的另一個(gè)實(shí)施例中，音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo)簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
[0105] 上述所有可選技術(shù)方案，可W采用任意結(jié)合形成本發(fā)明的可選實(shí)施例，在此不再 --寶述。
[0106] 本發(fā)明實(shí)施例提供了一種視頻文件的標(biāo)注方法，參見(jiàn)圖2,本實(shí)施例提供的方法流程包括：
[0107] 201、服務(wù)器獲取建模視頻文件。
[0108] 本實(shí)施例中設(shè)及到的視頻文件有兩種類(lèi)型，一種用于構(gòu)建音頻標(biāo)注模型，稱(chēng)為建模視頻文件，一種需要進(jìn)行音頻識(shí)別，稱(chēng)為待標(biāo)注的視頻文件。其中，建模視頻文件的數(shù)量可W為10個(gè)、20個(gè)、30個(gè)等，本實(shí)施例不對(duì)建模視頻文件的數(shù)量作具體的限定。在實(shí)際應(yīng)用中，為了提高所構(gòu)建的音頻標(biāo)注模型的準(zhǔn)確性，服務(wù)器所獲取的建模視頻文件的數(shù)量越多越好。關(guān)于服務(wù)器獲取建模視頻文件的方式，包括但不限于從互聯(lián)網(wǎng)上獲取比較典型的視頻文件，并將獲取到的視頻文件作為建模視頻文件。所謂典型的視頻文件是指在單一音頻場(chǎng)景下所錄制的視頻文件。
[0109] 202、服務(wù)器從建模視頻文件中，提取建模音頻文件。
[0110] 服務(wù)器從建模視頻文件中，提取建模音頻文件的方式有W下幾種：
[0111] 第一種方式:服務(wù)器可借助音頻提取工具，從建模視頻文件中提取建模音頻文件。
[0112] 第二種方式:服務(wù)器可根據(jù)視頻文件的編碼格式，對(duì)建模視頻文件進(jìn)行解碼，得到解碼后的視頻文件，并根據(jù)音頻文件的編碼格式，從解碼后的視頻文件中，提取建模音頻文件。其中，視頻文件的常用編碼格式有4￥1、施曰、1'11^13、1'111^1曰311、11194、1111(1等;音頻文件的常用編碼格式有?〔1、￥4￥、]\^3、￥魁等。
[0113] 當(dāng)然，除了采用上述幾種方式，還可W采用其他方式，本實(shí)施例不再一一說(shuō)明。
[0114] 203、服務(wù)器從建模音頻文件中，識(shí)別出多個(gè)音頻片段，每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽。
[0115] 在本實(shí)施例中，音頻場(chǎng)景可W包括語(yǔ)音場(chǎng)景、音樂(lè)場(chǎng)景、歡呼場(chǎng)景、槍炮場(chǎng)景、打斗場(chǎng)景、引擎場(chǎng)景、靜音場(chǎng)景及其他場(chǎng)景等，每種音頻場(chǎng)景對(duì)應(yīng)一種音頻標(biāo)簽，例如，語(yǔ)音場(chǎng)景對(duì)應(yīng)語(yǔ)音標(biāo)簽、音樂(lè)場(chǎng)景對(duì)應(yīng)音樂(lè)標(biāo)簽、歡呼場(chǎng)景對(duì)應(yīng)歡呼標(biāo)簽、槍炮場(chǎng)景對(duì)應(yīng)槍炮標(biāo)簽、打斗場(chǎng)景對(duì)應(yīng)打斗標(biāo)簽、引擎場(chǎng)景對(duì)應(yīng)引擎標(biāo)簽、靜音場(chǎng)景對(duì)應(yīng)靜音標(biāo)簽等。
[0116] 當(dāng)服務(wù)器從建模視頻文件中提取建模音頻文件之后，用戶(hù)可基于所劃分的音頻場(chǎng) 景，從建模音頻文件中識(shí)別出不同的音頻片段，并通過(guò)人工的方式在服務(wù)器上為每個(gè)音頻片段標(biāo)注一個(gè)音頻標(biāo)簽。服務(wù)器檢測(cè)到用戶(hù)的操作后，獲取用戶(hù)所標(biāo)注的多個(gè)音頻片段，并將獲取到的多個(gè)音頻片段，作為從建模音頻文件中，識(shí)別出的音頻片段。在本實(shí)施例中，每個(gè)音頻片段的時(shí)長(zhǎng)大致為幾秒到幾分鐘，各個(gè)音頻場(chǎng)景對(duì)應(yīng)的音頻片段的總時(shí)長(zhǎng)一般在 100分鐘到200分鐘之間。
[0117] 需要說(shuō)明的是，在音頻處理領(lǐng)域，靜音的音量一般為零，當(dāng)任一音頻片段的音量為 0時(shí)，可直接確定該音頻片段為靜音片段。因此，為了減少構(gòu)建音頻標(biāo)注模型時(shí)的計(jì)算量，月良務(wù)器在識(shí)別多個(gè)音頻片段時(shí)，可僅識(shí)別非靜音片段。
[0118] 為了便于在后續(xù)步驟中，對(duì)識(shí)別出的音頻片段進(jìn)行計(jì)算，服務(wù)器從建模視頻文件中識(shí)別出多個(gè)音頻片段之后，還將對(duì)識(shí)別出的音頻片段進(jìn)行進(jìn)一步處理：
[0119] 第一步，將不同存儲(chǔ)格式、不同規(guī)格的音頻片段轉(zhuǎn)化為相同存儲(chǔ)格式、相同規(guī)格的音頻片段，本實(shí)施例W將識(shí)別出的多個(gè)音頻片段轉(zhuǎn)化為wav、單通道、采樣率為16K的音頻片段為例。
[0120] 第二步，將轉(zhuǎn)化為采樣率16KHZ、單聲道、wav格式的音頻片段進(jìn)行預(yù)加重處理，得到預(yù)加重音頻信號(hào)。設(shè)定原始音頻片段表達(dá)式為y(n)，預(yù)加重處理后得到的預(yù)加重音頻信號(hào)為y(n)，則預(yù)加重處理如下述公式（1):
[0121] y(n) =χ(η)-λχ(η-1) (1)
[0122] 其中，λ為常數(shù)。
[0123] 經(jīng)過(guò)預(yù)加重處理，可W提高音頻片段的高頻分量，減少尖銳噪聲的影響。
[0124] 204、對(duì)于任一音頻片段，服務(wù)器將音頻片段劃分為多帖音頻信號(hào)。
[0125] 本實(shí)施例中的音頻片段實(shí)質(zhì)上都是一個(gè)時(shí)變信號(hào)，時(shí)變信號(hào)具有不穩(wěn)定、非線性等特征，研究起來(lái)十分不方便。在對(duì)時(shí)變信號(hào)研究時(shí)發(fā)現(xiàn)，時(shí)變信號(hào)具有短時(shí)平穩(wěn)特性，在一段時(shí)間例如幾十毫秒內(nèi)，時(shí)變信號(hào)又呈現(xiàn)一定的穩(wěn)定性。為了獲取到穩(wěn)定的線性信號(hào)，在音頻處理領(lǐng)域，通常采用窗函數(shù)將較大的音頻片段劃分為多帖音頻信號(hào)。其中，窗函數(shù)包括矩形窗函數(shù)、Ξ角窗函數(shù)、漢明窗函數(shù)、高斯窗函數(shù)等。在實(shí)際處理過(guò)程中，所采用的窗函數(shù) 不同，所劃分的音頻信號(hào)也是不同的，本實(shí)施例選取公式(2)所示的漢明窗函數(shù)將預(yù)加重音頻片段劃分為多帖音頻信號(hào)為例。
[0126] (2)
[0127] 其中，ω (η)為函數(shù)窗函數(shù)，η為當(dāng)前的采樣點(diǎn)，Ν為一帖內(nèi)采樣點(diǎn)的個(gè)數(shù)。
[0128] 當(dāng)采用漢明窗函數(shù)將每個(gè)音頻片段劃分為多帖音頻信號(hào)時(shí)，預(yù)先選取一個(gè)固定帖長(zhǎng)，W該帖長(zhǎng)為單位，每次移動(dòng)帖長(zhǎng)的一半。本實(shí)施例中，設(shè)定每帖音頻信號(hào)的帖長(zhǎng)為30ms，帖移為10ms，每帖音頻信號(hào)中包括480個(gè)采樣點(diǎn)。
[0129] 205、服務(wù)器剔除多帖音頻信號(hào)中的靜音信號(hào)，得到多帖非靜音信號(hào)。
[0130] 雖然服務(wù)器從建模音頻文件中，識(shí)別出的音頻片段為非靜音片段，但是非靜音片段所劃分的多帖音頻信號(hào)中，可能包括靜音信號(hào)，為了減少計(jì)算量和計(jì)算時(shí)間，需要將每個(gè) 音頻片段所劃分的多帖音頻信號(hào)中的靜音信號(hào)剔除，W得到多帖非靜音信號(hào)。
[0131] 在音頻處理領(lǐng)域，短時(shí)能量反映音頻信號(hào)的能量隨時(shí)間的變化關(guān)系，可用于靜音信號(hào)的檢測(cè)。短時(shí)能量可用于如下公式(3)表示：
[01 扣]
(3)
[0133] 其中，En為短時(shí)能量特征，x(m)為非靜音信號(hào)序列，N為序列長(zhǎng)度。
[0134] 短時(shí)過(guò)零率表示在一個(gè)窗口內(nèi)音頻信號(hào)通過(guò)零值的次數(shù)，在波形中表現(xiàn)為穿過(guò)時(shí) 間軸的情況。為了抵抗低頻對(duì)短時(shí)過(guò)零率干擾，可設(shè)置一個(gè)闊值T。短時(shí)過(guò)零率可用公式(4) 表不：
[0135]
[0136] 其中，為短時(shí)過(guò)零率，x(m)為非靜音信號(hào)序列，N為序列長(zhǎng)度。
[0137] sgn[ ·]表示符號(hào)函數(shù)，該符號(hào)函數(shù)可用如下公式(5)表示：
[013 引 - (5)
[0139] 基于短時(shí)能量和短時(shí)過(guò)零率的含義，本實(shí)施例提供的方法采用短時(shí)能量特征和短時(shí)過(guò)零率特征相結(jié)合的方式，確定音頻信號(hào)的起點(diǎn)和終點(diǎn)，并根據(jù)音頻信號(hào)的起點(diǎn)和終點(diǎn)，識(shí)別出多帖音頻信號(hào)中的靜音信號(hào)，進(jìn)而將靜音信號(hào)從多帖音頻信號(hào)中剔除，W得到多帖非靜音信號(hào)。具體實(shí)施時(shí)，可采用下述步驟2051~2052。
[0140] 2051、服務(wù)器提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征。
[0141] 服務(wù)器在提取每帖音頻信號(hào)的短時(shí)能量特征時(shí)，可采用公式(3)進(jìn)行提取;在提取短時(shí)過(guò)零率特征時(shí)，可采用公式(4)進(jìn)行提取。
[0142] 2052、服務(wù)器根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征，剔除多帖音頻信號(hào)中的靜音信號(hào)，得到多帖非靜音信號(hào)。
[0143] 服務(wù)器在根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征，剔除多帖音頻信號(hào)中的靜音信號(hào) 之前，需要為短時(shí)能量特征設(shè)置兩個(gè)口限值，分別為第一口限值和第二口限值，其中，第一口限值比較小，音頻信號(hào)的強(qiáng)度很容易超過(guò)該第一口限值，第二口限值比較大，音頻信號(hào)的強(qiáng)度需要達(dá)到一定值，才能超過(guò)該第二口限值。服務(wù)器還需要為短時(shí)過(guò)零率特征設(shè)置兩個(gè) 口限值，分別為第Ξ口限值和第四口限值，其中，第Ξ口限值比較小，音頻信號(hào)的強(qiáng)度很容易超過(guò)該第Ξ 口限值，第四口限值比較大，音頻信號(hào)的強(qiáng)度需要達(dá)到一定值，才能超過(guò)該第四口限值。
[0144] 在本實(shí)施例中，服務(wù)器根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征，對(duì)音頻信號(hào)進(jìn)行識(shí) 別時(shí)，可分為如下幾種情況：
[0145] 第一種情況、當(dāng)音頻信號(hào)的短時(shí)能量未超過(guò)第一口限值，且短時(shí)過(guò)零率未超過(guò)第 Ξ 口限值，則確定該音頻信號(hào)為靜音信號(hào)。
[0146] 第二種情況、當(dāng)音頻信號(hào)的短時(shí)能量超過(guò)第一口限值或短時(shí)過(guò)零率超過(guò)第Ξ 口限值，且該音頻信號(hào)的后面Ξ帖音頻信號(hào)中有一帖音頻信號(hào)的短時(shí)能量超過(guò)第二口限值或短時(shí)過(guò)零率超過(guò)第四口限值，則確定該音頻信號(hào)為非靜音信號(hào)。
[0147] 當(dāng)識(shí)別出任一音頻信號(hào)為靜音信號(hào)之后，服務(wù)器將該靜音信號(hào)從多帖音頻信號(hào)中剔除，W得到多帖非靜音信號(hào)。
[0148] 206、服務(wù)器從每帖非靜音信號(hào)中，提取音頻帖特征。
[0149] 在音頻處理領(lǐng)域，音頻信號(hào)具有時(shí)域和頻域兩種表示形式，相應(yīng)地，音頻信號(hào)也具有時(shí)域上特征和頻域上的特征。音頻信號(hào)時(shí)域上的特征包括短時(shí)能量特征和短時(shí)過(guò)零率特征等;頻域上的特征包括子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征及人耳感知特征等。由于人耳聽(tīng)覺(jué)系統(tǒng)具有頻譜分析的功能，因而人耳聽(tīng)到的聲音是受頻率限制的。在數(shù)字信號(hào)處理中，常把時(shí)域音頻信號(hào)轉(zhuǎn)換到頻域音頻信號(hào)進(jìn)行分析。
[0150] 本步驟中服務(wù)器從每帖非靜音信號(hào)中所提取音頻帖特征，主要是指頻域上的特征，具體提取時(shí)可采用下述步驟2061~2065:
[0151] 2061、針對(duì)子帶能量比特征。
[0152] 子帶能量比用來(lái)描述音頻信號(hào)的頻率分布的特征，可衡量不同子帶的能量占整個(gè) 頻帶能量的比值。通常每個(gè)子帶的寬度可W是等長(zhǎng)，也可W按照人耳感知特征為每個(gè)子帶分配寬度。在頻域上，按照頻率區(qū)間[0, ω0/8]、[ ω0/8, ω0/4]、[ ω0/4, ω0/2]、[ ω0/2, ω0] 可將音頻信號(hào)的頻帶劃分為四個(gè)均勻的子帶，每個(gè)子帶的能量不同。子帶能量比可采用如下公式(6)進(jìn)行計(jì)算：
[0153]
(6)
[0154] 其中，ω〇表示采樣頻率的一半，Dj表示子帶j的能量，Ε表示頻譜能量，Uj表示子帶j 的上邊界能量，^表示子帶j的下邊界能量，ω表示頻率，X( ω )表示傅里葉變換。
[0巧日]2062、針對(duì)頻率質(zhì)屯、特征。
[0156] 頻譜質(zhì)屯、(frequen巧centroid)為反映音頻信號(hào)亮度的重要指標(biāo)，是音頻信號(hào)的頻率能量分布的平均點(diǎn)。頻譜質(zhì)屯、可采用下述公式(7)進(jìn)行計(jì)算：
[0157]
(7)
[015引其中，ω。表示頻率質(zhì)屯、，ω0表示采樣頻率的一半，X( ω )表示傅里葉變換，ω表示頻率。
[0159] 2063、針對(duì)譜帶寬特征。
[0160] 譜帶寬(Band wi化h)反映了音頻信號(hào)功率或能量在頻譜中集中的范圍，為衡量音頻型號(hào)頻域范圍的重要指標(biāo)。譜帶寬可采用如下公式(8)進(jìn)行計(jì)算：
[0161]
(8)
[0162] 其中，BW表示譜帶寬，ω〇表示采樣頻率的一半，ω表示傅里葉變換，Χ(ω)表示頻率。
[0163] 2064、針對(duì)頻率能量特征。
[0164] 頻率能量描述了音頻信號(hào)的頻率能量大小頻率能量，可采用如下公式(9)進(jìn)行計(jì) 算：
[01 化]
(9)
[016W 其中，Ε表示頻率能量，ω質(zhì)示采樣頻率的一半，χ( ω )表示傅里葉變換。
[0167] 2065、針對(duì)人耳感知特征。
[0168] 人耳感知特征也即是基于Mel頻率的倒譜系數(shù)（Mel frequency cepstrum coefficient，MFCC)，人耳感知特征是根據(jù)人耳的聽(tīng)覺(jué)機(jī)理來(lái)對(duì)音頻信號(hào)進(jìn)行分析的。經(jīng)研究表明，人耳所聽(tīng)到的聲音高低與聲音的頻率成線性正比關(guān)系，如果用Mel頻率尺度表述二者之間的關(guān)系更加符合人耳聽(tīng)覺(jué)特性。對(duì)于Mel頻率與實(shí)際頻率的具體轉(zhuǎn)換尺度，可用公式 (10)進(jìn)行計(jì)算：
[0169] Mel(f)=25951g(l+f/700) (10)
[0170] 其中，Mel(f)表示轉(zhuǎn)換后的頻率，f表示實(shí)際頻率。
[0171] 人耳感知特征提取步驟可參見(jiàn)下述步驟(1)~(5):
[0172] (1)、應(yīng)用公式九將音頻信號(hào)從實(shí)際頻率尺度轉(zhuǎn)換為Mel頻率尺度。
[0173] (2)、根據(jù)數(shù)字處理信號(hào)的截止頻率，在Mel頻率軸上截取L個(gè)Ξ角濾波器。其中，每個(gè)Ξ角濾波器的下限頻率為前一個(gè)Ξ角濾波器的中屯、頻率，每個(gè)Ξ角濾波器的中屯、頻率為上一個(gè)Ξ角濾波器的下限頻率，依次構(gòu)成Ξ角濾波器組。
[0174] (3)、計(jì)算音頻信號(hào)的幅度譜|Xn化）|，并采用公式（11)計(jì)算該幅度譜|Xn化）|在每個(gè)Ξ角濾波器上的輸出：
[0177] 其中，m(l)表示幅度譜|Xn化）|在第1個(gè)Ξ角濾波器上的輸出，o(l)，c(l)和h(l)表示第1個(gè)Ξ角濾波器的下限頻率、中屯、頻率和上限頻率，k表示頻率，L表示Ξ角濾波器的數(shù) 量。
[0178] (4)、根據(jù)計(jì)算出的，m(l)對(duì)其做對(duì)數(shù)運(yùn)算，再做離散余弦變換，可得到公式（12)中的人耳感知特征：
[0179]
(12)
[0180] 其中，Cmfcc(i)表示人耳感知特征，m(l)表示幅度譜|Xn化）|在第1個(gè)Ξ角濾波器上的輸出，N表示人耳感知特征的維數(shù)，1表示第1個(gè)Ξ角濾波器，L表示Ξ角濾波器的數(shù)量。
[0181] (5 )、將人耳感知特征做一階差分及更高階差分。
[0182] 通過(guò)步驟205服務(wù)器提取了短時(shí)能量特征和短時(shí)過(guò)零率特征等時(shí)域上的特征，通過(guò)本步驟服務(wù)器提取了子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征及人耳感知特征等頻域上的特征，并計(jì)算了人耳感知特征的一階差分，基于短時(shí)能量特征、短時(shí)過(guò) 零率特征、子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征、人耳感知特征及人耳感知特征的一階差分所組成的17維的超向量，服務(wù)器可作為每帖音頻信號(hào)的音頻帖特征。
[0183] 207、服務(wù)器對(duì)音頻帖特征進(jìn)行歸一化處理，得到特征向量。
[0184] 對(duì)于多帖音頻信號(hào)來(lái)說(shuō)，每一維的音頻帖特征大小差異很大，為了便于后續(xù)計(jì)算，服務(wù)器還將對(duì)從每帖音頻信號(hào)中提取的音頻帖特征進(jìn)行歸一化處理，W得到每帖音頻信號(hào) 對(duì)應(yīng)的特征向量。具體處理時(shí)，可采用下述步驟2071~2072:
[0185] 2071、服務(wù)器獲取建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差。
[0186] 由于本實(shí)施例中的音頻帖特征為一個(gè)17維的超向量，因此，服務(wù)器在獲取建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差時(shí)，需要分別獲取每維音頻帖特征的平均值和標(biāo)準(zhǔn)差。
[0187] 2072、服務(wù)器根據(jù)該平均值和標(biāo)準(zhǔn)差，應(yīng)用W下公式（13)，對(duì)音頻帖特征進(jìn)行歸一化處理，得到特征向量：
[0188]
( 13 )
[0189] 其中，f/為歸一化后的音頻帖特征，fd為音頻帖特征，Wd為平均值，〇d為標(biāo)準(zhǔn)差，d 為維度，D為音頻特征的總維數(shù)。
[0190] 需要說(shuō)明的是，由于每帖音頻信號(hào)的音頻帖特征均為一個(gè)17維的超向量，因此，月良務(wù)器在應(yīng)用公式（13)對(duì)每帖音頻信號(hào)的音頻帖特征進(jìn)行歸一化處理時(shí)，需要針對(duì)每一維的音頻帖特征均作一次處理，運(yùn)樣處理后可得到一個(gè)17維的特征向量。
[0191] 208、服務(wù)器根據(jù)特征向量及相應(yīng)的音頻標(biāo)簽，構(gòu)建音頻標(biāo)注模型。
[0192] 基于所獲取到的建模音頻文件中每帖音頻信號(hào)對(duì)應(yīng)的特征向量及音頻標(biāo)簽，服務(wù) 器通過(guò)采用GMM(Gaussian Mix化re Models,高斯混合模型），構(gòu)建音頻標(biāo)注模型。其中，GMM 是多個(gè)高斯分布的混合分布。GMM用多個(gè)高斯密度函數(shù)的加權(quán)和來(lái)逼近特征向量在特征空間的分布。GMM實(shí)現(xiàn)起來(lái)簡(jiǎn)單，但功能強(qiáng)大，在音頻處理領(lǐng)域有廣泛的應(yīng)用。
[0193] 在音頻處理領(lǐng)域，由于每種音頻場(chǎng)景下的音頻信號(hào)都是由相應(yīng)地GMM模型描述的，因此，對(duì)于具有相同音頻標(biāo)簽的音頻信號(hào)，在提取出音頻帖特征，并進(jìn)行歸一化處理，得到特征向量之后，需要通過(guò)對(duì)特征向量進(jìn)行訓(xùn)練，得至化匪模型，該GMM模型即為音頻標(biāo)注模型。由于建模音頻文件中包含多種音頻場(chǎng)景下的音頻信號(hào)，且每個(gè)音頻信號(hào)都標(biāo)注相應(yīng)的音頻標(biāo)簽，因此，服務(wù)器通過(guò)對(duì)多個(gè)音頻信號(hào)對(duì)應(yīng)的特征向量及相應(yīng)地音頻標(biāo)簽進(jìn)行訓(xùn)練，可得到多個(gè)GMM模型，每個(gè)GMM模型用于標(biāo)注一種音頻場(chǎng)景下的音頻信號(hào)。實(shí)際上，構(gòu)建GMM 模型的過(guò)程，就是對(duì)GMM模型參數(shù)進(jìn)行估計(jì)的過(guò)程。GMM參數(shù)估計(jì)最常用的一種方法就是最大似然估計(jì)法。最大似然估計(jì)的目的是在給定訓(xùn)練結(jié)果的前提下，尋求合適的模型參數(shù)λ，使得GMM模型的似然函數(shù)最大。GMM模型的似然函數(shù)可用公式(14)表示：
[0194]
(14)
[01M]其中，X為由對(duì)應(yīng)同一音頻標(biāo)簽的特征向量組成的訓(xùn)練集，N為特征向量的個(gè)數(shù)，i 為任一特征向量，λ為模型參數(shù)。
[0196]雖然似然函數(shù)ρ(Χ|λ)和參數(shù)λ之間存在很復(fù)雜的非線性函數(shù)關(guān)系，不易用常規(guī)的方法直接求得最大值，但是參數(shù)λ可W通過(guò)ΕΜ算法迭代求得。ΕΜ算法的基本思路是從一個(gè)初始模型開(kāi)始，來(lái)估計(jì)一個(gè)新的模型參數(shù)。在GMM模型中，特征向量由不同參數(shù)值λ的高斯混合概率密度函數(shù)唯一確定，因此，在訓(xùn)練過(guò)程中，服務(wù)器需要估計(jì)出待分類(lèi)的音頻信號(hào)對(duì)應(yīng)的參數(shù)λ，更關(guān)鍵的是要得到使得該音頻信號(hào)特征序列概率最大的參數(shù)λ。按照最大似然估計(jì) 準(zhǔn)則，就是要求出參數(shù)λ，使得對(duì)于該音頻信號(hào)的特征向量模型的概率最大。最常用的估計(jì) 參數(shù)λ的算法是Μ算法。ΕΜ算法從初始化的模型參數(shù)開(kāi)始，根據(jù)最大似然原則，利用迭代算法估計(jì)新的模型參數(shù)。每次迭代首先根據(jù)已知樣本和當(dāng)前參數(shù)估計(jì)得到未知數(shù)據(jù)的分布，然后在假設(shè)前一步所得到的分布正確的情況下，根據(jù)最大似然原則，計(jì)算新的模型的參數(shù)。然后不斷地重復(fù)W上過(guò)程，在達(dá)到局部最大之前，每次的迭代都會(huì)增大似然度。當(dāng)似然度不再改變時(shí)，說(shuō)明達(dá)到了局部最大，運(yùn)時(shí)得到的參數(shù)λ就是最優(yōu)的參數(shù)。
[0197] 209、服務(wù)器根據(jù)音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽。
[0198] 對(duì)于任一待標(biāo)注的視頻文件，服務(wù)器采用ffmpeg等工具從互聯(lián)網(wǎng)上提取出來(lái)后，先將該待標(biāo)注的視頻文件的格式參數(shù)轉(zhuǎn)換為與建模視頻文件相同的格式參數(shù)，然后基于所構(gòu)建的音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽，具體添加過(guò)程，可參見(jiàn)下述步驟2091~2095:
[0199] 2091、服務(wù)器將待標(biāo)注的視頻文件劃分為多帖目標(biāo)音頻信號(hào)。
[0200] 服務(wù)器可采用公式一中的漢明窗函數(shù)，將待標(biāo)注的視頻文件劃分為多帖音頻信號(hào)。
[0201] 2092、服務(wù)器從多帖目標(biāo)音頻信號(hào)中，剔除目標(biāo)靜音信號(hào)，得到多帖目標(biāo)非靜音信號(hào)。
[0202] 該步驟的實(shí)現(xiàn)方式與上述步驟205的實(shí)現(xiàn)方式相同，具體參見(jiàn)上述步驟205。
[0203] 2093、服務(wù)器從每帖目標(biāo)非靜音信號(hào)中，提取目標(biāo)音頻帖特征。
[0204] 該步驟的實(shí)現(xiàn)方式與上述步驟206的實(shí)現(xiàn)方式相同，具體參見(jiàn)上述步驟206。
[0205] 2094、服務(wù)器對(duì)目標(biāo)音頻帖特征進(jìn)行歸一化處理，得到目標(biāo)特征向量。
[0206] 該步驟的實(shí)現(xiàn)方式與上述步驟207的實(shí)現(xiàn)方式相同，具體參見(jiàn)上述步驟207。
[0207] 2095、服務(wù)器根據(jù)音頻標(biāo)注模型，為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng) 的音頻標(biāo)簽。
[0208] 對(duì)目標(biāo)音頻信號(hào)的識(shí)別的目的是從所構(gòu)建的多個(gè)音頻標(biāo)注模型中找到一個(gè)模型參數(shù)λι<，使得目標(biāo)特征向量r具有最大的后驗(yàn)概率P(Ak/r )，其中，k為音頻標(biāo)注模型的個(gè) 數(shù)。根據(jù)貝葉斯理論，最大后驗(yàn)概率可W用公式(15)表示：
[0209]
(")
[0210] 由于Ρ(λ〇的先驗(yàn)概率未知，因此，可設(shè)定目標(biāo)特征向量符合每個(gè)音頻標(biāo)注模型的可能性相同，也即是巧為J = | k
[0211] 對(duì)于一個(gè)確定的觀察矢量公，Ρ(Χ/ )是一個(gè)確定的常數(shù)值，對(duì)于所有的音頻標(biāo)注模型都相同，因此，在可通過(guò)計(jì)算ρ(χνλι〇的最大值，計(jì)算出目標(biāo)特征向量的后驗(yàn)概率的最大值。在獲取到目標(biāo)特征向量的后驗(yàn)概率的最大值后，獲取目標(biāo)特征向量的后驗(yàn)概率的最大值對(duì)應(yīng)的音頻標(biāo)注模型，進(jìn)而為目標(biāo)音頻信號(hào)添加上該音頻標(biāo)注模型對(duì)應(yīng)的音頻標(biāo)簽。
[0212] 除了為每帖目標(biāo)音頻信號(hào)標(biāo)注上相應(yīng)地音頻標(biāo)簽之后，服務(wù)器還將為每帖目標(biāo)音頻信號(hào)標(biāo)注上時(shí)間標(biāo)簽，該時(shí)間標(biāo)簽包括起始時(shí)間和結(jié)束時(shí)間，通過(guò)采用該種處理方式，每帖目標(biāo)音頻信號(hào)對(duì)應(yīng)一個(gè)時(shí)間標(biāo)簽和一個(gè)音頻標(biāo)簽，運(yùn)兩個(gè)標(biāo)簽的表現(xiàn)形式可W為[開(kāi)始時(shí)間：結(jié)束時(shí)間]〉音頻標(biāo)簽。
[0213] 在根據(jù)音頻標(biāo)注模型，為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽之后，服務(wù)器還將根據(jù)整個(gè)待標(biāo)注的音頻文件中的所有音頻標(biāo)簽，將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并，W得到最少的音頻標(biāo)簽。圖3為采用本實(shí)施例提供的方法標(biāo) 注后的視頻文件的音頻場(chǎng)景分布圖，圖3作為一種非常直觀的人機(jī)交互方式，通過(guò)圖3用戶(hù) 可W快速定位到自己感興趣的段落進(jìn)行預(yù)覽。
[0214] 對(duì)于上述根據(jù)音頻標(biāo)注模型為待標(biāo)注的視頻文件添加音頻標(biāo)簽的過(guò)程，為了便于理解，下面將W圖4為例進(jìn)行說(shuō)明。
[0215] 參見(jiàn)圖4,服務(wù)器獲取建模視頻文件，從建模視頻文件中提取建模音頻文件，根據(jù) 不同的音頻場(chǎng)景，從該建模音頻文件中，識(shí)別出不同的音頻片段，對(duì)識(shí)別出的音頻片段進(jìn)行預(yù)加重處理，得到預(yù)加重音頻片段，將每個(gè)預(yù)加重音頻片段分割成多帖音頻信號(hào)，剔除多帖音頻信號(hào)中的靜音信號(hào)，得到多帖非靜音信號(hào)。提取每帖非靜音信號(hào)的音頻帖特征，對(duì)建模音頻文件中音頻信號(hào)的音頻帖特征進(jìn)行歸一化處理，得到特征向量，基于該特征向量及音頻標(biāo)簽，構(gòu)建GMM模型，通過(guò)對(duì)該GMM模型進(jìn)行訓(xùn)練，得到GMM模型參數(shù)。
[0216] 對(duì)于任一待標(biāo)注的視頻文件，例如電影文件，從該電影文件中提取電影音頻文件，將該電影音頻文件劃分為多帖目標(biāo)音頻信號(hào)，剔除多帖音頻信號(hào)中的目標(biāo)靜音信號(hào)，得到多帖目標(biāo)非靜音信號(hào)。提取每帖目標(biāo)非靜音信號(hào)的目標(biāo)音頻帖特征，并對(duì)待標(biāo)注的視頻文件中的目標(biāo)非靜音信號(hào)進(jìn)行歸一化處理，得到目標(biāo)特征向量?；诘玫降腉MM模型參數(shù)，為目標(biāo)音頻信號(hào)標(biāo)注音頻標(biāo)簽，并將標(biāo)注音頻標(biāo)簽的視頻文件顯示出來(lái)。
[0217] 本發(fā)明實(shí)施例提供的方法，無(wú)需借助人力，基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注的視頻文件添加不同的音頻標(biāo)簽，在滿足用戶(hù)預(yù)覽需求的前提下，不僅節(jié)省了制作成本，而且提高了標(biāo)注效率及辨識(shí)度。
[0218] 參見(jiàn)圖5,本發(fā)明實(shí)施例提供了一種視頻文件的標(biāo)注裝置，該裝置包括：
[0219] 獲取模塊501，用于獲取建模視頻文件；
[0220] 第一提取模塊502,用于從建模視頻文件中，提取建模音頻文件；
[0221] 識(shí)別模塊503,用于從建模音頻文件中，識(shí)別出多個(gè)音頻片段，每個(gè)音頻片段對(duì)應(yīng) 一個(gè)音頻標(biāo)簽；
[0222] 劃分模塊504,用于對(duì)于任一音頻片段，將音頻片段劃分為多帖音頻信號(hào)；
[0223] 第二提取模塊505,用于從每帖音頻信號(hào)中，提取音頻帖特征；
[0224] 處理模塊506,用于對(duì)音頻帖特征進(jìn)行歸一化處理，得到特征向量；
[0225] 構(gòu)建模塊507,用于根據(jù)特征向量及相應(yīng)的音頻標(biāo)簽，構(gòu)建音頻標(biāo)注模型；
[0226] 添加模塊508，用于據(jù)音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽。
[0227] 在本發(fā)明的另一個(gè)實(shí)施例中，該裝置還包括：
[0228] 預(yù)加重模塊，用于對(duì)音頻片段進(jìn)行預(yù)加重處理，得到預(yù)加重音頻片段；
[0229] 劃分模塊504,用于采用窗函數(shù)將預(yù)加重音頻片段劃分為多帖音頻信號(hào)。
[0230] 在本發(fā)明的另一個(gè)實(shí)施例中，該裝置還包括：
[0231] 第Ξ提取模塊，用于提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征；
[0232] 剔除模塊，用于根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征，剔除多帖音頻信號(hào)中的靜音信號(hào)，得到多帖非靜音信號(hào)；
[0233] 第二提取模塊505,用于從每帖非靜音信號(hào)中，提取子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征及人耳感知特征。
[0234] 在本發(fā)明的另一個(gè)實(shí)施例中，處理模塊506,用于獲取建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差;根據(jù)平均值和標(biāo)準(zhǔn)差，應(yīng)用w下公式，對(duì)音頻帖特征進(jìn)行歸一化處理，得到特征向量：
[0235]
[0236] 其中，f/為歸一化后的音頻帖特征，fd為音頻帖特征，Wd為平均值，〇d為標(biāo)準(zhǔn)差，D 為音頻帖特征。
[0237] 在本發(fā)明的另一個(gè)實(shí)施例中，添加模塊508,用于將待標(biāo)注的視頻文件劃分為多帖目標(biāo)音頻信號(hào);從多帖目標(biāo)音頻信號(hào)中，剔除目標(biāo)靜音信號(hào)，得到多帖目標(biāo)非靜音信號(hào);從每帖目標(biāo)非靜音信號(hào)中，提取目標(biāo)音頻帖特征;對(duì)目標(biāo)音頻帖特征進(jìn)行歸一化處理，得到目標(biāo)特征向量;根據(jù)音頻標(biāo)注模型，為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo) 簽。
[0238] 在本發(fā)明的另一個(gè)實(shí)施例中，該裝置還包括：
[0239] 合并模塊，用于將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。
[0240] 在本發(fā)明的另一個(gè)實(shí)施例中，音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo)簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
[0241] 綜上，本發(fā)明實(shí)施例提供的裝置，無(wú)需借助人力，基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注的視頻文件添加不同的音頻標(biāo)簽，在滿足用戶(hù)預(yù)覽需求的前提下，不僅節(jié)省了制作成本，而且提高了標(biāo)注效率及辨識(shí)度。
[0242] 圖6是根據(jù)一示例性實(shí)施例示出的一種用于視頻文件的標(biāo)注的服務(wù)器。參照?qǐng)D6，服務(wù)器600包括處理組件622,其進(jìn)一步包括一個(gè)或多個(gè)處理器，W及由存儲(chǔ)器632所代表的存儲(chǔ)器資源，用于存儲(chǔ)可由處理組件622的執(zhí)行的指令，例如應(yīng)用程序。存儲(chǔ)器632中存儲(chǔ)的應(yīng)用程序可W包括一個(gè)或一個(gè)W上的每一個(gè)對(duì)應(yīng)于一組指令的模塊。此外，處理組件622被配置為執(zhí)行指令，W執(zhí)行上述視頻文件的標(biāo)注方法中服務(wù)器所執(zhí)行的功能，該方法包括：
[0243] 獲取建模視頻文件。
[0244] 從建模視頻文件中，提取建模音頻文件。
[0245] 從建模音頻文件中，識(shí)別出多個(gè)音頻片段，每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽。
[0246] 對(duì)于任一音頻片段，將音頻片段劃分為多帖音頻信號(hào)。
[0247] 從每帖音頻信號(hào)中，提取音頻帖特征。
[0248] 對(duì)音頻帖特征進(jìn)行歸一化處理，得到特征向量。
[0249 ]根據(jù)特征向量及相應(yīng)的音頻標(biāo)簽，構(gòu)建音頻標(biāo)注模型。
[0250] 根據(jù)音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽。
[0251] 本發(fā)明實(shí)施例提供的方法，無(wú)需借助人力，基于所構(gòu)建的音頻識(shí)別模型為待標(biāo)注的視頻文件添加不同的音頻標(biāo)簽，在滿足用戶(hù)預(yù)覽需求的前提下，不僅節(jié)省了制作成本，而且提高了標(biāo)注效率及辨識(shí)度。
[0252] 在本發(fā)明的另一個(gè)實(shí)施例中，將音頻片段劃分為多帖音頻信號(hào)之前，還包括：
[0253] 對(duì)音頻片段進(jìn)行預(yù)加重處理，得到預(yù)加重音頻片段；
[0254] 采用窗函數(shù)將預(yù)加重音頻片段劃分為多帖音頻信號(hào)。
[02W]在本發(fā)明的另一個(gè)實(shí)施例中，從每帖音頻信號(hào)中，提取音頻帖特征之前，還包括： [0256]提取每帖音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征；
[0257] 根據(jù)短時(shí)能量特征和短時(shí)過(guò)零率特征，剔除多帖音頻信號(hào)中的靜音信號(hào)，得到多帖非靜音信號(hào)；
[0258] 從每帖音頻信號(hào)中，提取音頻帖特征，包括：
[0259] 從每帖非靜音信號(hào)中，提取子帶能量比特征、頻率質(zhì)屯、特征、譜帶寬特征、頻率能量特征及人耳感知特征。
[0260] 在本發(fā)明的另一個(gè)實(shí)施例中，對(duì)音頻帖特征進(jìn)行歸一化處理，得到特征向量，包括：
[0261] 獲取建模音頻文件中音頻信號(hào)的音頻帖特征的平均值和標(biāo)準(zhǔn)差；
[0262] 根據(jù)平均值和標(biāo)準(zhǔn)差，應(yīng)用W下公式，對(duì)音頻帖特征進(jìn)行歸一化處理，得到特征向量：
[0%3]
[0264] 其中，f/為歸一化后的音頻帖特征，fd為音頻帖特征，Wd為平均值，〇d為標(biāo)準(zhǔn)差，D 為音頻帖特征。
[0265] 在本發(fā)明的另一個(gè)實(shí)施例中，根據(jù)音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽，包括：
[0266] 將待標(biāo)注的視頻文件劃分為多帖目標(biāo)音頻信號(hào)；
[0267] 從多帖目標(biāo)音頻信號(hào)中，剔除目標(biāo)靜音信號(hào)，得到多帖目標(biāo)非靜音信號(hào)；
[0268] 從每帖目標(biāo)非靜音信號(hào)中，提取目標(biāo)音頻帖特征；
[0269] 對(duì)目標(biāo)音頻帖特征進(jìn)行歸一化處理，得到目標(biāo)特征向量；
[0270] 根據(jù)音頻標(biāo)注模型，為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽。 [0271 ]在本發(fā)明的另一個(gè)實(shí)施例中，根據(jù)音頻標(biāo)注模型，為目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽之后，還包括：
[0272] 將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。
[0273] 在本發(fā)明的另一個(gè)實(shí)施例中，音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo)簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
[0274] 服務(wù)器600還可W包括一個(gè)電源組件626被配置為執(zhí)行服務(wù)器600的電源管理，一個(gè)有線或無(wú)線網(wǎng)絡(luò)接口 650被配置為將服務(wù)器600連接到網(wǎng)絡(luò)，和一個(gè)輸入輸出（I/O)接口 658。服務(wù)器600可W操作基于存儲(chǔ)在存儲(chǔ)器632的操作系統(tǒng)，例如Windows Server?,Mac 0S X?，Unix?，Linux?，化 eeBSD? 或類(lèi)似。
[0275] 本發(fā)明實(shí)施例提供的服務(wù)器，無(wú)需借助人力，基于所構(gòu)建的音頻識(shí)別模型為待標(biāo) 注的視頻文件添加不同的音頻標(biāo)簽，在滿足用戶(hù)預(yù)覽需求的前提下，不僅節(jié)省了制作成本，而且提高了標(biāo)注效率及辨識(shí)度。
[0276] 需要說(shuō)明的是：上述實(shí)施例提供的視頻文件的標(biāo)注裝置在標(biāo)注視頻文件時(shí)，僅W 上述各功能模塊的劃分進(jìn)行舉例說(shuō)明，實(shí)際應(yīng)用中，可W根據(jù)需要而將上述功能分配由不同的功能模塊完成，即將視頻文件的標(biāo)注裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊，W完成 W上描述的全部或者部分功能。另外，上述實(shí)施例提供的視頻文件的標(biāo)注裝置與視頻文件的標(biāo)注方法實(shí)施例屬于同一構(gòu)思，其具體實(shí)現(xiàn)過(guò)程詳見(jiàn)方法實(shí)施例，運(yùn)里不再寶述。
[0277] 本領(lǐng)域普通技術(shù)人員可W理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可W通過(guò)硬件來(lái)完成，也可w通過(guò)程序來(lái)指令相關(guān)的硬件完成，所述的程序可w存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中，上述提到的存儲(chǔ)介質(zhì)可W是只讀存儲(chǔ)器，磁盤(pán)或光盤(pán)等。
[0278] W上所述僅為本發(fā)明的較佳實(shí)施例，并不用W限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種視頻文件的標(biāo)注方法，其特征在于，所述方法包括：獲取建模視頻文件；從所述建模視頻文件中，提取建模音頻文件；從所述建模音頻文件中，識(shí)別出多個(gè)音頻片段，每個(gè)音頻片段對(duì)應(yīng)一個(gè)音頻標(biāo)簽；對(duì)于任一音頻片段，將所述音頻片段劃分為多幀音頻信號(hào)；從每幀音頻信號(hào)中，提取音頻幀特征；對(duì)所述音頻幀特征進(jìn)行歸一化處理，得到特征向量；根據(jù)所述特征向量及相應(yīng)的音頻標(biāo)簽，構(gòu)建音頻標(biāo)注模型；根據(jù)所述音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述音頻片段劃分為多幀音頻信號(hào) 之前，還包括：對(duì)所述音頻片段進(jìn)行預(yù)加重處理，得到預(yù)加重音頻片段；所述將所述音頻片段劃分為多幀音頻信號(hào)，包括：采用窗函數(shù)將所述預(yù)加重音頻片段劃分為多幀音頻信號(hào)。3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述從每幀音頻信號(hào)中，提取音頻幀特征之前，還包括：提取每幀音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征；根據(jù)所述短時(shí)能量特征和短時(shí)過(guò)零率特征，剔除所述多幀音頻信號(hào)中的靜音信號(hào)，得到多幀非靜音信號(hào)；所述從每幀音頻信號(hào)中，提取音頻幀特征，包括：從每幀非靜音信號(hào)中，提取子帶能量比特征、頻率質(zhì)心特征、譜帶寬特征、頻率能量特征及人耳感知特征。4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)所述音頻幀特征進(jìn)行歸一化處理，得到特征向量，包括：獲取所述建模音頻文件中音頻信號(hào)的音頻幀特征的平均值和標(biāo)準(zhǔn)差；根據(jù)所述平均值和所述標(biāo)準(zhǔn)差，應(yīng)用以下公式，對(duì)所述音頻幀特征進(jìn)行歸一化處理，得到特征向量：其中，f/為歸一化后的音頻幀特征，fd為所述音頻幀特征，w為所述平均值，〇d為所述標(biāo) 準(zhǔn)差，D為所述音頻幀特征。5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽，包括：將所述待標(biāo)注的視頻文件劃分為多幀目標(biāo)音頻信號(hào)；從所述多幀目標(biāo)音頻信號(hào)中，剔除目標(biāo)靜音信號(hào)，得到多幀目標(biāo)非靜音信號(hào)；從每幀目標(biāo)非靜音信號(hào)中，提取目標(biāo)音頻幀特征；對(duì)所述目標(biāo)音頻幀特征進(jìn)行歸一化處理，得到目標(biāo)特征向量；根據(jù)所述音頻標(biāo)注模型，為所述目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo) 簽。6. 根據(jù)權(quán)利要求5所述的方法，其特征在于，所述根據(jù)所述音頻標(biāo)注模型，為所述目標(biāo) 特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽之后，還包括：將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。7. 根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法，其特征在于，所述音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo)簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。8. -種視頻文件的標(biāo)注裝置，其特征在于，所述裝置包括：獲取模塊，用于獲取建模視頻文件；第一提取模塊，用于從所述建模視頻文件中，提取建模音頻文件；識(shí)別模塊，用于從所述建模音頻文件中，識(shí)別出多個(gè)音頻片段，每個(gè)音頻片段對(duì)應(yīng)一個(gè) 首頻標(biāo)簽；劃分模塊，用于對(duì)于任一音頻片段，將所述音頻片段劃分為多幀音頻信號(hào)；第二提取模塊，用于從每幀音頻信號(hào)中，提取音頻幀特征；處理模塊，用于對(duì)所述音頻幀特征進(jìn)行歸一化處理，得到特征向量；構(gòu)建模塊，用于根據(jù)所述特征向量及相應(yīng)的音頻標(biāo)簽，構(gòu)建音頻標(biāo)注模型；添加模塊，用于據(jù)所述音頻標(biāo)注模型，為待標(biāo)注的視頻文件，添加音頻標(biāo)簽。9. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述裝置還包括：預(yù)加重模塊，用于對(duì)所述音頻片段進(jìn)行預(yù)加重處理，得到預(yù)加重音頻片段；所述劃分模塊，用于采用窗函數(shù)將所述預(yù)加重音頻片段劃分為多幀音頻信號(hào)。10. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述裝置還包括：第三提取模塊，用于提取每幀音頻信號(hào)的短時(shí)能量特征和短時(shí)過(guò)零率特征；剔除模塊，用于根據(jù)所述短時(shí)能量特征和短時(shí)過(guò)零率特征，剔除所述多幀音頻信號(hào)中的靜音信號(hào)，得到多幀非靜音信號(hào)；所述第二提取模塊，用于從每幀非靜音信號(hào)中，提取子帶能量比特征、頻率質(zhì)心特征、譜帶寬特征、頻率能量特征及人耳感知特征。11. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述處理模塊，用于獲取所述建模音頻文件中音頻信號(hào)的音頻幀特征的平均值和標(biāo)準(zhǔn)差;根據(jù)所述平均值和所述標(biāo)準(zhǔn)差，應(yīng)用以下公式，對(duì)所述音頻幀特征進(jìn)行歸一化處理，得到特征向量：其中，f/為歸一化后的音頻幀特征，fd為所述音頻幀特征，w為所述平均值，〇d為所述標(biāo) 準(zhǔn)差，D為所述音頻幀特征。12. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述添加模塊，用于將所述待標(biāo)注的視頻文件劃分為多幀目標(biāo)音頻信號(hào);從所述多幀目標(biāo)音頻信號(hào)中，剔除目標(biāo)靜音信號(hào)，得到多幀目標(biāo)非靜音信號(hào);從每幀目標(biāo)非靜音信號(hào)中，提取目標(biāo)音頻幀特征;對(duì)所述目標(biāo)音頻幀特征進(jìn)行歸一化處理，得到目標(biāo)特征向量;根據(jù)所述音頻標(biāo)注模型，為所述目標(biāo)特征向量對(duì)應(yīng)的目標(biāo)音頻信號(hào)添加相應(yīng)的音頻標(biāo)簽。13. 根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述裝置還包括：合并模塊，用于將相鄰且對(duì)應(yīng)同一音頻標(biāo)簽的目標(biāo)音頻信號(hào)進(jìn)行合并。14. 根據(jù)權(quán)利要求8至13中任一權(quán)利要求所述的裝置，其特征在于，所述音頻標(biāo)簽至少包括語(yǔ)音標(biāo)簽、音樂(lè)標(biāo)簽、歡呼標(biāo)簽、槍炮標(biāo)簽、引擎標(biāo)簽、靜音標(biāo)簽。
【文檔編號(hào)】H04N21/845GK105872855SQ201610364407
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2016年5月26日
【發(fā)明人】何新超
【申請(qǐng)人】廣州酷狗計(jì)算機(jī)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何新超;
技術(shù)所有人：廣州酷狗計(jì)算機(jī)科技有限公司;
我是此專(zhuān)利的發(fā)明人

上一篇：一種流媒體文件分發(fā)方法及系統(tǒng)的制作方法
上一篇：水印展示方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車(chē)檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車(chē)電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

固封裝置安裝方法視頻相關(guān)技術(shù)

英制螺紋標(biāo)注方法相關(guān)技術(shù)

形位公差的標(biāo)注方法相關(guān)技術(shù)

倒角標(biāo)注方法相關(guān)技術(shù)

螺紋標(biāo)注方法相關(guān)技術(shù)

螺紋孔標(biāo)注方法相關(guān)技術(shù)

長(zhǎng)圓孔標(biāo)注方法相關(guān)技術(shù)

表面粗糙度標(biāo)注方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

視頻文件的標(biāo)注方法及裝置的制造方法