語音字幕的生成和裝置、播放方法和裝置的制造方法

文檔序號：9263786閱讀：684來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

語音字幕的生成和裝置、播放方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，特別是涉及一種語音字幕的生成方法、一種語音字幕的生成裝置、一種播放方法和一種播放裝置。
【背景技術(shù)】
[0002]隨著人們生活質(zhì)量的提高，觀賞視頻已經(jīng)成為了人們?nèi)粘５囊环N消遣方式，但是對于盲人群體來說，他們由于在視力上存在缺陷，無法正常觀看視頻，因此需要為他們提供可觀看的“無障礙視頻”。
[0003]目前，上述為盲人提供的“無障礙視頻”都是由講解員對視頻的過場場景、片頭片尾、形體動作等非人物對話的場景進行現(xiàn)場解說，或者將這些解說合成到視頻中一同對外發(fā)售。這種純?nèi)斯さ淖龇ㄐ枰獙ｉT的解說員創(chuàng)作解說詞并錄音，因此存在制作成本高、生產(chǎn)效率低和制作量低的問題。

【發(fā)明內(nèi)容】

[0004]本發(fā)明實施例所要解決的技術(shù)問題是提供一種語音字幕的生成方法、一種播放方法，能夠節(jié)約成本，并且提高生產(chǎn)效率和產(chǎn)量。
[0005]相應(yīng)的，本發(fā)明實施例還提供了一種語音字幕的生成裝置、一種播放裝置，用以保證上述方法的實現(xiàn)及應(yīng)用。
[0006]為了解決上述問題，本發(fā)明公開了一種語音字幕的生成方法，包括:
[0007]提取目標(biāo)視頻片段的視頻特征；
[0008]將與所述視頻特征最匹配的評論信息確定為所述目標(biāo)視頻片段的文本描述信息;
[0009]依據(jù)所述文本描述信息，生成所述目標(biāo)視頻片段的語音字幕。
[0010]優(yōu)選的，通過如下步驟確定目標(biāo)視頻片段:
[0011]識別視頻對應(yīng)音頻信息的類別；其中，所述音頻信息的類別包括人物對話類別和非人物對話類別；
[0012]在所述音頻信息的類別為非人物對話類別時，將當(dāng)前視頻片段作為目標(biāo)視頻片段。
[0013]優(yōu)選的，所述識別視頻對應(yīng)音頻信息的類別的步驟，包括:使用語音活性檢測技術(shù)識別所述視頻對應(yīng)音頻信息的類別。
[0014]優(yōu)選的，所述將與所述視頻特征最匹配的評論信息確定為所述目標(biāo)視頻片段的文本描述信息的步驟，包括:
[0015]計算所述目標(biāo)視頻片段的評論信息與所述視頻特征的相似度；
[0016]確定所述相似度最大的所述評論信息為所述目標(biāo)視頻片段的文本信息。
[0017]優(yōu)選的，所述方法還包括:將所述語音字幕合成到所述目標(biāo)視頻片段對應(yīng)的音頻中。
[0018]另一方面，本發(fā)明還提供了一種播放方法，包括:
[0019]接收視頻加載請求；
[0020]依據(jù)所述視頻加載請求，確定對應(yīng)視頻的音頻信息；其中，所述音頻中包括:普通音頻和語音字幕；其中，所述語音字幕為利用前述的語音字幕的生成方法得到；
[0021]播放所述音頻。
[0022]再一方面，本發(fā)明還提供了一種語音字幕的生成裝置，包括:
[0023]提取模塊，用于提取目標(biāo)視頻片段的視頻特征；
[0024]第一確定模塊，用于將與所述視頻特征最匹配的評論信息確定為所述目標(biāo)視頻片段的文本描述信息；及
[0025]生成模塊，用于依據(jù)所述文本描述信息，生成所述目標(biāo)視頻片段的語音字幕。
[0026]優(yōu)選的，所述裝置還包括:
[0027]識別模塊，用于識別視頻對應(yīng)音頻信息的類別；其中，所述音頻信息的類別包括人物對話類別和非人物對話類別；
[0028]第二確定模塊，用于在所述音頻信息的類別為非人物對話類別時，將當(dāng)前視頻片段作為目標(biāo)視頻片段。
[0029]優(yōu)選的，所述識別模塊包括:
[0030]識別單元，用于使用語音活性檢測技術(shù)識別所述視頻對應(yīng)音頻信息的類別。
[0031]優(yōu)選的，所述第一確定模塊包括:
[0032]計算單元，用于計算所述目標(biāo)視頻片段的評論信息與所述視頻特征的相似度；及
[0033]確定單元，用于確定所述相似度最大的所述評論信息為所述目標(biāo)視頻片段的文本信息。
[0034]優(yōu)選的，所述裝置還包括:
[0035]合成模塊，用于將所述語音字幕合成到所述目標(biāo)視頻片段對應(yīng)的音頻中。
[0036]又一方面，本發(fā)明還提供了一種播放裝置，包括:
[0037]接收模塊，用于接收視頻加載請求；
[0038]確定模塊，用于依據(jù)所述視頻加載請求，確定對應(yīng)視頻的音頻信息；其中，所述音頻中包括:普通音頻和語音字幕；其中，所述語音字幕為利用前述的語音字幕的生成裝置得到；
[0039]播放模塊，用于播放所述音頻。
[0040]與現(xiàn)有技術(shù)相比，本發(fā)明實施例包括以下優(yōu)點:
[0041]本發(fā)明實施例提供的一種語音字幕的生成方案，將目標(biāo)視頻片段的視頻特征與評論信息相結(jié)合，確定與上述視頻特征最匹配的評論信息為上述目標(biāo)視頻片段的文本描述信息，并依據(jù)上述文本描述信息生成語音字幕。采用本發(fā)明實施例提供的一種語音字幕的生成方法，可以自動化的為視頻生成語音字幕，由于生成的語音字幕在內(nèi)容上是在將視頻片段中的前后場景關(guān)聯(lián)基礎(chǔ)上對當(dāng)前視頻片段提交的描述性的文字信息，因此對目標(biāo)視頻片段的描述較為精準(zhǔn)；相對于人工的做法，本發(fā)明實施例不僅節(jié)約了成本，而且提高了生產(chǎn)效率和產(chǎn)量。
【附圖說明】
[0042]圖1是本發(fā)明的一種語音字幕的生成方法實施例一的步驟流程圖；
[0043]圖2是本發(fā)明的一種語音字幕的生成方法實施例二的步驟流程圖；
[0044]圖3是本發(fā)明的一種語音字幕的生成方法實施例三的步驟流程圖；
[0045]圖4是本發(fā)明的一種語音字幕的生成方法實施例四的步驟流程圖；
[0046]圖5是本發(fā)明的一種語音字幕的生成方法實施例五的步驟流程圖；
[0047]圖6是本發(fā)明的一種播放方法實施例的步驟流程圖；
[0048]圖7是本發(fā)明的一種語音字幕的生成裝置實施例一的結(jié)構(gòu)示意圖；
[0049]圖8是本發(fā)明的一種語音字幕的生成裝置實施例二的結(jié)構(gòu)示意圖；
[0050]圖9是本發(fā)明的一種語音字幕的生成裝置實施例三的結(jié)構(gòu)示意圖；
[0051]圖10是本發(fā)明的一種語音字幕的生成裝置實施例四的結(jié)構(gòu)示意圖；
[0052]圖11是本發(fā)明的一種語音字幕的生成裝置實施例五的結(jié)構(gòu)示意圖；以及
[0053]圖12是本發(fā)明的一種播放裝置實施例的結(jié)構(gòu)示意圖。
【具體實施方式】
[0054]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步詳細(xì)的說明。
[0055]參照圖1，示出了本發(fā)明的一種語音字幕的生成方法實施例一的步驟流程圖，具體可以包括如下步驟:
[0056]步驟101、提取目標(biāo)視頻片段的視頻特征；
[0057]本發(fā)明實施例可應(yīng)用于各類視頻播放應(yīng)用程序的場景中；這里的視頻播放應(yīng)用程序具體可以包括:客戶端程序、或者瀏覽器上運行的視頻網(wǎng)站程序等，本發(fā)明實施例對具體的應(yīng)用場景不加以限制。
[0058]本發(fā)明實施例中，目標(biāo)視頻片段可用于表示需要插入語音字幕的視頻片段，通常一個視頻具體可以包括多個視頻片段，其中的需要插入語音字幕的視頻片段即為目標(biāo)視頻片段。
[0059]上述視頻特征可用于表示目標(biāo)視頻片段中包含的信息(如圖像的紋理特征等)、或者涉及的信息(如元數(shù)據(jù)信息等)。在此提供一種提取視頻特征的一種示例:可以采用視頻分割技術(shù)，將連續(xù)的視頻流劃分成多個視頻片段，提取視頻片段的代表幀和動態(tài)特征，其中，代表幀可以是視頻片段中所有視頻幀中的部分視頻幀，上述提取視頻片段的動態(tài)特征具體過程可以包括:提取視頻片段中圖像的顏色特征、紋理特征、形狀特征等，將這些特征與圖像知識庫進行映射來得到圖像的實際含義，其中圖像知識庫可用于存儲圖像特征以及其對應(yīng)的圖像的實際意義。例如，對于一段描述“霜葉紅于二月花”的視頻片段，可以采用上述視頻分割技術(shù)提取到該視頻片段的顏色(如紅和灰)、樹葉形狀、以及樹葉慢慢飄落的動態(tài)特征等特征，這些特征就可以作為該視頻片段的視頻特征。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭磊濤;
技術(shù)所有人：北京奇藝世紀(jì)科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

自動識別語音生成字幕相關(guān)技術(shù)

語音自動生成字幕軟件相關(guān)技術(shù)

語音識別生成字幕相關(guān)技術(shù)

語音自動生成字幕相關(guān)技術(shù)

語音生成字幕相關(guān)技術(shù)

語音識別影片生成字幕相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

語音字幕的生成和裝置、播放方法和裝置的制造方法

語音字幕的生成和裝置、播放方法和裝置的制造方法