語音字幕的生成和裝置、播放方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種語音字幕的生成方法、一種語音字幕的生成裝置、一種播放方法和一種播放裝置。
【背景技術(shù)】
[0002]隨著人們生活質(zhì)量的提高,觀賞視頻已經(jīng)成為了人們?nèi)粘5囊环N消遣方式,但是對于盲人群體來說,他們由于在視力上存在缺陷,無法正常觀看視頻,因此需要為他們提供可觀看的“無障礙視頻”。
[0003]目前,上述為盲人提供的“無障礙視頻”都是由講解員對視頻的過場場景、片頭片尾、形體動作等非人物對話的場景進行現(xiàn)場解說,或者將這些解說合成到視頻中一同對外發(fā)售。這種純?nèi)斯さ淖龇ㄐ枰獙iT的解說員創(chuàng)作解說詞并錄音,因此存在制作成本高、生產(chǎn)效率低和制作量低的問題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例所要解決的技術(shù)問題是提供一種語音字幕的生成方法、一種播放方法,能夠節(jié)約成本,并且提高生產(chǎn)效率和產(chǎn)量。
[0005]相應(yīng)的,本發(fā)明實施例還提供了一種語音字幕的生成裝置、一種播放裝置,用以保證上述方法的實現(xiàn)及應(yīng)用。
[0006]為了解決上述問題,本發(fā)明公開了一種語音字幕的生成方法,包括:
[0007]提取目標(biāo)視頻片段的視頻特征;
[0008]將與所述視頻特征最匹配的評論信息確定為所述目標(biāo)視頻片段的文本描述信息;
[0009]依據(jù)所述文本描述信息,生成所述目標(biāo)視頻片段的語音字幕。
[0010]優(yōu)選的,通過如下步驟確定目標(biāo)視頻片段:
[0011]識別視頻對應(yīng)音頻信息的類別;其中,所述音頻信息的類別包括人物對話類別和非人物對話類別;
[0012]在所述音頻信息的類別為非人物對話類別時,將當(dāng)前視頻片段作為目標(biāo)視頻片段。
[0013]優(yōu)選的,所述識別視頻對應(yīng)音頻信息的類別的步驟,包括:使用語音活性檢測技術(shù)識別所述視頻對應(yīng)音頻信息的類別。
[0014]優(yōu)選的,所述將與所述視頻特征最匹配的評論信息確定為所述目標(biāo)視頻片段的文本描述信息的步驟,包括:
[0015]計算所述目標(biāo)視頻片段的評論信息與所述視頻特征的相似度;
[0016]確定所述相似度最大的所述評論信息為所述目標(biāo)視頻片段的文本信息。
[0017]優(yōu)選的,所述方法還包括:將所述語音字幕合成到所述目標(biāo)視頻片段對應(yīng)的音頻中。
[0018]另一方面,本發(fā)明還提供了一種播放方法,包括:
[0019]接收視頻加載請求;
[0020]依據(jù)所述視頻加載請求,確定對應(yīng)視頻的音頻信息;其中,所述音頻中包括:普通音頻和語音字幕;其中,所述語音字幕為利用前述的語音字幕的生成方法得到;
[0021]播放所述音頻。
[0022]再一方面,本發(fā)明還提供了一種語音字幕的生成裝置,包括:
[0023]提取模塊,用于提取目標(biāo)視頻片段的視頻特征;
[0024]第一確定模塊,用于將與所述視頻特征最匹配的評論信息確定為所述目標(biāo)視頻片段的文本描述信息;及
[0025]生成模塊,用于依據(jù)所述文本描述信息,生成所述目標(biāo)視頻片段的語音字幕。
[0026]優(yōu)選的,所述裝置還包括:
[0027]識別模塊,用于識別視頻對應(yīng)音頻信息的類別;其中,所述音頻信息的類別包括人物對話類別和非人物對話類別;
[0028]第二確定模塊,用于在所述音頻信息的類別為非人物對話類別時,將當(dāng)前視頻片段作為目標(biāo)視頻片段。
[0029]優(yōu)選的,所述識別模塊包括:
[0030]識別單元,用于使用語音活性檢測技術(shù)識別所述視頻對應(yīng)音頻信息的類別。
[0031]優(yōu)選的,所述第一確定模塊包括:
[0032]計算單元,用于計算所述目標(biāo)視頻片段的評論信息與所述視頻特征的相似度;及
[0033]確定單元,用于確定所述相似度最大的所述評論信息為所述目標(biāo)視頻片段的文本信息。
[0034]優(yōu)選的,所述裝置還包括:
[0035]合成模塊,用于將所述語音字幕合成到所述目標(biāo)視頻片段對應(yīng)的音頻中。
[0036]又一方面,本發(fā)明還提供了一種播放裝置,包括:
[0037]接收模塊,用于接收視頻加載請求;
[0038]確定模塊,用于依據(jù)所述視頻加載請求,確定對應(yīng)視頻的音頻信息;其中,所述音頻中包括:普通音頻和語音字幕;其中,所述語音字幕為利用前述的語音字幕的生成裝置得到;
[0039]播放模塊,用于播放所述音頻。
[0040]與現(xiàn)有技術(shù)相比,本發(fā)明實施例包括以下優(yōu)點:
[0041]本發(fā)明實施例提供的一種語音字幕的生成方案,將目標(biāo)視頻片段的視頻特征與評論信息相結(jié)合,確定與上述視頻特征最匹配的評論信息為上述目標(biāo)視頻片段的文本描述信息,并依據(jù)上述文本描述信息生成語音字幕。采用本發(fā)明實施例提供的一種語音字幕的生成方法,可以自動化的為視頻生成語音字幕,由于生成的語音字幕在內(nèi)容上是在將視頻片段中的前后場景關(guān)聯(lián)基礎(chǔ)上對當(dāng)前視頻片段提交的描述性的文字信息,因此對目標(biāo)視頻片段的描述較為精準(zhǔn);相對于人工的做法,本發(fā)明實施例不僅節(jié)約了成本,而且提高了生產(chǎn)效率和產(chǎn)量。
【附圖說明】
[0042]圖1是本發(fā)明的一種語音字幕的生成方法實施例一的步驟流程圖;
[0043]圖2是本發(fā)明的一種語音字幕的生成方法實施例二的步驟流程圖;
[0044]圖3是本發(fā)明的一種語音字幕的生成方法實施例三的步驟流程圖;
[0045]圖4是本發(fā)明的一種語音字幕的生成方法實施例四的步驟流程圖;
[0046]圖5是本發(fā)明的一種語音字幕的生成方法實施例五的步驟流程圖;
[0047]圖6是本發(fā)明的一種播放方法實施例的步驟流程圖;
[0048]圖7是本發(fā)明的一種語音字幕的生成裝置實施例一的結(jié)構(gòu)示意圖;
[0049]圖8是本發(fā)明的一種語音字幕的生成裝置實施例二的結(jié)構(gòu)示意圖;
[0050]圖9是本發(fā)明的一種語音字幕的生成裝置實施例三的結(jié)構(gòu)示意圖;
[0051]圖10是本發(fā)明的一種語音字幕的生成裝置實施例四的結(jié)構(gòu)示意圖;
[0052]圖11是本發(fā)明的一種語音字幕的生成裝置實施例五的結(jié)構(gòu)示意圖;以及
[0053]圖12是本發(fā)明的一種播放裝置實施例的結(jié)構(gòu)示意圖。
【具體實施方式】
[0054]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步詳細(xì)的說明。
[0055]參照圖1,示出了本發(fā)明的一種語音字幕的生成方法實施例一的步驟流程圖,具體可以包括如下步驟:
[0056]步驟101、提取目標(biāo)視頻片段的視頻特征;
[0057]本發(fā)明實施例可應(yīng)用于各類視頻播放應(yīng)用程序的場景中;這里的視頻播放應(yīng)用程序具體可以包括:客戶端程序、或者瀏覽器上運行的視頻網(wǎng)站程序等,本發(fā)明實施例對具體的應(yīng)用場景不加以限制。
[0058]本發(fā)明實施例中,目標(biāo)視頻片段可用于表示需要插入語音字幕的視頻片段,通常一個視頻具體可以包括多個視頻片段,其中的需要插入語音字幕的視頻片段即為目標(biāo)視頻片段。
[0059]上述視頻特征可用于表示目標(biāo)視頻片段中包含的信息(如圖像的紋理特征等)、或者涉及的信息(如元數(shù)據(jù)信息等)。在此提供一種提取視頻特征的一種示例:可以采用視頻分割技術(shù),將連續(xù)的視頻流劃分成多個視頻片段,提取視頻片段的代表幀和動態(tài)特征,其中,代表幀可以是視頻片段中所有視頻幀中的部分視頻幀,上述提取視頻片段的動態(tài)特征具體過程可以包括:提取視頻片段中圖像的顏色特征、紋理特征、形狀特征等,將這些特征與圖像知識庫進行映射來得到圖像的實際含義,其中圖像知識庫可用于存儲圖像特征以及其對應(yīng)的圖像的實際意義。例如,對于一段描述“霜葉紅于二月花”的視頻片段,可以采用上述視頻分割技術(shù)提取到該視頻片段的顏色(如紅和灰)、樹葉形狀、以及樹葉慢慢飄落的動態(tài)特征等特征,這些特征就可以作為該視頻片段的視頻特征。