一種多媒體轉(zhuǎn)寫方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種多媒體轉(zhuǎn)寫方法,應(yīng)用于多媒體轉(zhuǎn)寫系統(tǒng)中,包括以下步驟:S1、接收演示文稿,并構(gòu)建所述演示文稿的關(guān)鍵信息樹;S2、接收語音數(shù)據(jù),并對所述語音數(shù)據(jù)進(jìn)行語音識別,得到所述語音數(shù)據(jù)的轉(zhuǎn)寫文本;S3、通過所述關(guān)鍵信息樹將所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本與所述演示文稿進(jìn)行同步;S4、將同步后帶有所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本的演示文稿顯示給用戶。用戶在看演示文稿時可以同時聽到演講人的聲音,看到演講人聲音轉(zhuǎn)寫的文本;進(jìn)一步地,根據(jù)每頁演示文稿包含的子主題對轉(zhuǎn)寫文本分段,同一個子主題的轉(zhuǎn)寫文本作為一段,不同子主題的轉(zhuǎn)寫文本作為不同的段,可以方便用戶理解轉(zhuǎn)寫文本,進(jìn)一步提高了用戶體驗。
【專利說明】
一種多媒體轉(zhuǎn)寫方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及語音信號處理領(lǐng)域,特別是涉及一種多媒體轉(zhuǎn)寫方法和系統(tǒng)。
【背景技術(shù)】
[0002]近年來,隨著語音識別技術(shù)的快速發(fā)展,自動語音識別相關(guān)產(chǎn)品已廣泛應(yīng)用于各行各業(yè),將語音轉(zhuǎn)成文本,大大方便了人們的生活需求,如將會議錄音轉(zhuǎn)成相應(yīng)文本,方便會議秘書后續(xù)查詢會議信息或輔助其撰寫會議紀(jì)要;或者將采訪錄音轉(zhuǎn)成相應(yīng)文本,在此基礎(chǔ)上編輯成稿等。然而,上述應(yīng)用都僅僅是將錄音轉(zhuǎn)成文本,并不能同步看到語音數(shù)據(jù)對應(yīng)的演示文稿,尤其是演示文稿中存在重要信息,而所述重要信息不存在轉(zhuǎn)寫結(jié)果中時,用戶必須根據(jù)語音數(shù)據(jù)或轉(zhuǎn)寫文本查找相應(yīng)的演示文稿,如果演示文稿量較多時,很難快速查找到與轉(zhuǎn)寫文本對應(yīng)的演示文稿,從而降低了用戶體驗;如錄制的語音數(shù)據(jù)是老師的課堂教學(xué)錄音,老師在課堂上經(jīng)常會給出各種參考資料或其相應(yīng)鏈接,或知識點講解時的演示操作,這些內(nèi)容在語音數(shù)據(jù)或轉(zhuǎn)寫文本數(shù)據(jù)中經(jīng)常無法找到,學(xué)生必須要到轉(zhuǎn)寫文本對應(yīng)的演示文稿中才可查看。
[0003]現(xiàn)有的轉(zhuǎn)寫系統(tǒng)一般將錄制的語音數(shù)據(jù)直接轉(zhuǎn)寫成文本數(shù)據(jù)顯示給用戶,當(dāng)用戶在查看轉(zhuǎn)寫文本時,看不到相應(yīng)的演示文稿,當(dāng)有些重要的信息只存在演示文稿時,如圖片中包含的重要鏈接;用戶必須要根據(jù)錄制的語音數(shù)據(jù)或轉(zhuǎn)寫文本自己查找相應(yīng)的演示文稿,用戶體驗較差,同時也不能做到,隨時查看轉(zhuǎn)寫文本的同時查看相應(yīng)演示文稿,尤其是當(dāng)演示文稿較多時,很難快速找到與轉(zhuǎn)寫文本對應(yīng)的演示文稿。
【發(fā)明內(nèi)容】
[0004]鑒于以上所述現(xiàn)有技術(shù)的缺點,本發(fā)明的目的在于提供一種多媒體轉(zhuǎn)寫方法,應(yīng)用于多媒體轉(zhuǎn)寫系統(tǒng)中,包括以下步驟:S1、接收演示文稿,并構(gòu)建所述演示文稿的關(guān)鍵信息樹;S2、接收語音數(shù)據(jù),并對所述語音數(shù)據(jù)進(jìn)行語音識別,得到所述語音數(shù)據(jù)的轉(zhuǎn)寫文本;
S3、通過所述關(guān)鍵信息樹將所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本與所述演示文稿進(jìn)行同步;S4、將同步后帶有所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本的演示文稿顯示給用戶。
[0005]于本發(fā)明的一實施例中,所述步驟S2還包括步驟:S21、對所述語音數(shù)據(jù)進(jìn)行端點檢測,得到所述語音數(shù)據(jù)有效語音段的起始點和結(jié)束點;S22、對所述語音段的特征進(jìn)行提取;S23、根據(jù)所述特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作;S24、根據(jù)解碼結(jié)果獲取所述語音數(shù)據(jù)對應(yīng)的所述轉(zhuǎn)寫文本和所述轉(zhuǎn)寫文本置信度。
[0006]于本發(fā)明的一實施例中,所述步驟SI包括步驟:S11、提取每一頁所述演示文稿中包含的關(guān)鍵信息;S12、根據(jù)所述關(guān)鍵信息構(gòu)建所述演示文稿關(guān)鍵信息樹。
[0007]于本發(fā)明的一實施例中,所述步驟S12中還包括步驟:S121、獲取所述演示文稿的提綱信息,得到整個所述演示文稿之間的鏈接關(guān)系;S122、將每頁所述演示文稿作為所述關(guān)鍵信息樹的一個節(jié)點,所述演示文稿之間的鏈接關(guān)系作為所述節(jié)點之間的邊,形成所述演示文稿的樹結(jié)構(gòu);S123、將所述關(guān)鍵信息分別添加到相應(yīng)的所述節(jié)點上,得到所述演示文稿的關(guān)鍵信息樹。
[0008]于本發(fā)明的一實施例中,所述步驟S3還包括步驟:S31、獲取所述演示文稿的翻頁時間點;S32、將所述關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖;S33、根據(jù)所述翻頁時間點和所述關(guān)鍵信息圖對所述轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯示。
[0009]于本發(fā)明的一實施例中,所述步驟S32還包括步驟:S321、構(gòu)建所述節(jié)點中的父節(jié)點與子節(jié)點之間的翻頁出?。籗322、構(gòu)建相同所述父節(jié)點的所有所述子節(jié)點之間的翻頁出??;S323、構(gòu)建相鄰所述父節(jié)點之間的翻頁出??;S324、構(gòu)建終止節(jié)點以及所述終止節(jié)點與開始節(jié)點之間的翻頁出弧。
[0010]于本發(fā)明的一實施例中,所述步驟S33還包括步驟:S331、將所述關(guān)鍵信息圖中的根節(jié)點激活,并將所述激活節(jié)點保存為當(dāng)前活動節(jié)點;S332、接收當(dāng)前頁的所述演示文稿的翻頁時間點和對應(yīng)的每個所述有效語音段的所述轉(zhuǎn)寫文本;S333、遍歷當(dāng)前活動節(jié)點對應(yīng)的出弧,并將接收的所述轉(zhuǎn)寫文本與所述出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對應(yīng)的節(jié)點激活并記錄為當(dāng)前活動節(jié)點,并進(jìn)入步驟S334;若失敗,則進(jìn)入步驟S335;S334、根據(jù)匹配結(jié)果,對所述轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中中,并進(jìn)入步驟S335;S335、判斷當(dāng)前所述轉(zhuǎn)寫文本的對應(yīng)時間點是否到達(dá)當(dāng)前頁的所述演示文稿的翻頁時間點;若是,則進(jìn)入步驟S336;若否,則返回步驟S332; S336、判斷當(dāng)前活動節(jié)點是否包含翻頁出弧;若不包含,則進(jìn)入步驟S337 ;若包含,則進(jìn)入步驟S338 ; S337、判斷當(dāng)前活動節(jié)點的出弧是否指向終止節(jié)點;若是,則所有所述演示文稿與所述轉(zhuǎn)寫文本的同步完成;若否,則進(jìn)入步驟S338; S338、判斷當(dāng)前接收的所述轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的所述轉(zhuǎn)寫文本作為當(dāng)前頁最后一個所述有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入S339;若否,則對所述轉(zhuǎn)寫文本進(jìn)行調(diào)整,調(diào)整后當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入S339;S339、將下一頁演示文稿作為當(dāng)前頁,返回步驟S332。
[0011]本發(fā)明還提供了一種多媒體轉(zhuǎn)寫系統(tǒng),包括:構(gòu)建模塊,用于接收演示文稿,并構(gòu)建所述演示文稿的關(guān)鍵信息樹;轉(zhuǎn)寫模塊,用于接收語音數(shù)據(jù),并對所述語音數(shù)據(jù)進(jìn)行語音識別,得到所述語音數(shù)據(jù)的轉(zhuǎn)寫文本;同步模塊,用于通過所述關(guān)鍵信息樹將所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本與所述演示文稿進(jìn)行同步;顯示模塊,用于將所述同步模塊同步后帶有所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本的演示文稿顯示給用戶。
[0012]于本發(fā)明的一實施例中,所述轉(zhuǎn)寫模塊還包括:檢測單元,用于對所述語音數(shù)據(jù)進(jìn)行端點檢測,得到所述語音數(shù)據(jù)有效語音段的起始點和結(jié)束點;特征提取單元,用于對所述語音段的特征進(jìn)行提取;解碼單元,用于根據(jù)所述特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作;轉(zhuǎn)寫結(jié)果獲取單元,用于根據(jù)解碼結(jié)果獲取所述語音數(shù)據(jù)對應(yīng)的所述轉(zhuǎn)寫文本和所述轉(zhuǎn)寫文本置信度。
[0013]于本發(fā)明的一實施例中,所述構(gòu)建模塊還包括:提取單元,用于提取每一頁所述演示文稿中包含的關(guān)鍵信息;構(gòu)建單元,用于根據(jù)所述關(guān)鍵信息構(gòu)建所述演示文稿關(guān)鍵信息樹。
[0014]于本發(fā)明的一實施例中,所述構(gòu)建單元還包括:獲取子單元,用于獲取所述演示文稿的提綱信息,得到整個所述演示文稿之間的鏈接關(guān)系;構(gòu)建子單元,用于將每頁所述演示文稿作為所述關(guān)鍵信息樹的一個節(jié)點,所述演示文稿之間的鏈接關(guān)系作為所述節(jié)點之間的邊,形成所述演示文稿的樹結(jié)構(gòu);還用于將所述關(guān)鍵信息分別添加到相應(yīng)的所述節(jié)點上,得到所述演示文稿的關(guān)鍵信息樹。
[0015]于本發(fā)明的一實施例中,所述同步模塊還包括:時間點獲取單元,用于獲取所述演示文稿的翻頁時間點;轉(zhuǎn)換單元,用于將所述關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖;同步單元,用于根據(jù)所述翻頁時間點和所述關(guān)鍵信息圖對所述轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯示。
[0016]于本發(fā)明的一實施例中,所述轉(zhuǎn)換單元還用于構(gòu)建所述節(jié)點中的父節(jié)點與子節(jié)點之間的翻頁出弧、相同所述父節(jié)點的所有所述子節(jié)點之間的翻頁出弧、相鄰所述父節(jié)點之間的翻頁出弧,還用于構(gòu)建終止節(jié)點以及所述終止節(jié)點與開始節(jié)點之間的翻頁出弧。
[0017]于本發(fā)明的一實施例中,所述同步單元包括:節(jié)點激活子單元,用于將所述關(guān)鍵信息圖中的根節(jié)點激活,并將所述激活節(jié)點保存為當(dāng)前活動節(jié)點;接收子單元,用于接收當(dāng)前頁的所述演示文稿的翻頁時間點和對應(yīng)的每個所述有效語音段的所述轉(zhuǎn)寫文本;匹配子單元,用于遍歷當(dāng)前活動節(jié)點對應(yīng)的出弧,并將接收的所述轉(zhuǎn)寫文本與所述出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對應(yīng)的節(jié)點激活并記錄為當(dāng)前活動節(jié)點;分段顯示子單元,用于根據(jù)匹配結(jié)果,對所述轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中;時間點判斷子單元,用于判斷當(dāng)前所述轉(zhuǎn)寫文本的對應(yīng)時間點是否到達(dá)當(dāng)前頁的所述演示文稿的翻頁時間點;翻頁出弧判斷子單元,用于判斷當(dāng)前活動節(jié)點是否包含翻頁出弧;終止節(jié)點判斷子單元,用于判斷當(dāng)前活動節(jié)點的出弧是否指向終止節(jié)點;若是,則所有所述演示文稿與所述轉(zhuǎn)寫文本的同步完成;語義判斷子單元,用于判斷當(dāng)前接收的所述轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的所述轉(zhuǎn)寫文本作為當(dāng)前頁最后一個所述有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成;若否,則對所述轉(zhuǎn)寫文本的語義進(jìn)行調(diào)整,調(diào)整后當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成;同步子單元,用于將下一頁演示文稿作為當(dāng)前頁,并開始下一頁演示文稿的同步。
[0018]如上所述,本發(fā)明的一種多媒體轉(zhuǎn)寫方法和系統(tǒng),具有以下有益效果:
[0019]用戶在看演示文稿時可以同時聽到演講人的聲音,看到演講人聲音轉(zhuǎn)寫的文本;進(jìn)一步地,根據(jù)每頁演示文稿包含的子主題對轉(zhuǎn)寫文本分段,同一個子主題的轉(zhuǎn)寫文本作為一段,不同子主題的轉(zhuǎn)寫文本作為不同的段,可以方便用戶理解轉(zhuǎn)寫文本,進(jìn)一步提高了用戶體驗。
【附圖說明】
[0020]圖1顯示為本發(fā)明多媒體轉(zhuǎn)寫方法一實施例的系統(tǒng)流程示意圖。
[0021]圖2顯示為本發(fā)明多媒體轉(zhuǎn)寫系統(tǒng)一實施例的系統(tǒng)框架示意圖。
[0022]圖3顯示為本發(fā)明中關(guān)鍵信息樹的一實施例的示意圖。
[0023]圖4顯示為本發(fā)明中關(guān)鍵信息圖的一實施例的示意圖。
【具體實施方式】
[0024]以下通過特定的具體實例說明本發(fā)明的實施方式,本領(lǐng)域技術(shù)人員可由本說明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的【具體實施方式】加以實施或應(yīng)用,本說明書中的各項細(xì)節(jié)也可以基于不同觀點與應(yīng)用,在沒有背離本發(fā)明的精神下進(jìn)行各種修飾或改變。需說明的是,在不沖突的情況下,以下實施例及實施例中的特征可以相互組合。
[0025]需要說明的是,以下實施例中所提供的圖示僅以示意方式說明本發(fā)明的基本構(gòu)想,遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實際實施時的組件數(shù)目、形狀及尺寸繪制,其實際實施時各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也可能更為復(fù)雜。
[0026]參見圖1,圖1顯示為本發(fā)明多媒體轉(zhuǎn)寫方法一實施例的系統(tǒng)流程示意圖。本發(fā)明提供了一種多媒體轉(zhuǎn)寫方法,應(yīng)用于多媒體轉(zhuǎn)寫系統(tǒng)中,多媒體轉(zhuǎn)寫系統(tǒng)指包含演示文稿、演講人的語音數(shù)據(jù)及語音數(shù)據(jù)轉(zhuǎn)寫文本的系統(tǒng),多媒體轉(zhuǎn)寫系統(tǒng)可以將演講人的語音數(shù)據(jù)、演講人語音數(shù)據(jù)的轉(zhuǎn)寫文本及演示文稿進(jìn)行同步,方便用戶在查看轉(zhuǎn)寫文本的同時,查看相應(yīng)演示文稿。演示文稿指用于各種演示的文稿,可以為紙質(zhì)文稿,也可以為電子文稿,紙質(zhì)文稿一般可以通過拍照顯示到屏幕上,如老師上課時的演示課本,電子文稿如PPT、各種演示圖片等;當(dāng)然,系統(tǒng)不僅可以用于演講結(jié)束后,用戶對演講內(nèi)容的查詢,也可以用于允許短時延時的演講直播中,用戶可以現(xiàn)場或遠(yuǎn)程以接近直播的形式看到演講內(nèi)容、聽到演講語音數(shù)據(jù),看到演講語音數(shù)據(jù)的轉(zhuǎn)寫結(jié)果。
[0027]本發(fā)明提供的多媒體轉(zhuǎn)寫方法包括以下步驟:
[0028]S1、接收演示文稿,并構(gòu)建演示文稿的關(guān)鍵信息樹;具體地在開始時接收演示文稿,構(gòu)建演示文稿的關(guān)鍵信息樹,關(guān)鍵信息樹包含了演示文稿的關(guān)鍵信息,關(guān)鍵信息可以是每頁演示文稿的子主題和相應(yīng)子主題的關(guān)鍵詞。在本發(fā)明的一實施例中,步驟SI包括步驟:
511、提取每一頁演示文稿中包含的關(guān)鍵信息。具體提取時,可以根據(jù)演示文稿包含的文本信息進(jìn)行語義理解,提取關(guān)鍵信息,關(guān)鍵信息包含每頁演示文稿的子主題及子主題對應(yīng)的關(guān)鍵詞,每個子主題可以提取一到多個關(guān)鍵詞。例如一頁演示文稿的文本內(nèi)容包括的主題為“‘十二五’先進(jìn)制造領(lǐng)域整體布局”;子主題為“3+2個專項”和“5個主題”;子主題“3+2個專項”包括項目“智能制造”、“綠色制造”、“服務(wù)機(jī)器人”和“+數(shù)控一代”、“制造業(yè)信息化”;子主題“5個主題”包括項目“重大裝備與工藝”、“系統(tǒng)控制”、“制造服務(wù)”、“微機(jī)電系統(tǒng)”和“智能機(jī)器人”。例如對每個子主題提取的關(guān)鍵詞信息如下:子主題“3+2個專項”的關(guān)鍵詞:3+2,服務(wù)機(jī)器人,制造業(yè)信息化;子主題“5個主題”的關(guān)鍵詞:重大裝備與工藝,智能機(jī)器人。
512、根據(jù)關(guān)鍵信息構(gòu)建演示文稿關(guān)鍵信息樹。優(yōu)選地,步驟S12中還包括步驟:S121、獲取演示文稿的提綱信息,得到整個演示文稿之間的鏈接關(guān)系;提綱信息一般根據(jù)演示文稿的結(jié)構(gòu)得到,如演示文稿為PPT時,則可以直接根據(jù)PPT的結(jié)構(gòu)得到,演示文稿為書本時,可以根據(jù)目錄得到。S122、將每頁演示文稿作為關(guān)鍵信息樹的一個節(jié)點,演示文稿之間的鏈接關(guān)系作為節(jié)點之間的邊,形成演示文稿的樹結(jié)構(gòu);S123、將關(guān)鍵信息分別添加到相應(yīng)的節(jié)點上,得到演示文稿的關(guān)鍵信息樹。例如,圖3顯示為本發(fā)明中關(guān)鍵信息樹的一實施例的示意圖。圖中顯示了主題為“機(jī)器人”的演示文稿形成的關(guān)鍵信息樹。如圖3所示,根據(jù)上例機(jī)器人演示文稿得到的關(guān)鍵信息樹,每個節(jié)點均設(shè)置有對應(yīng)的關(guān)鍵信息節(jié)點。
[0029]S2、接收語音數(shù)據(jù),并對語音數(shù)據(jù)進(jìn)行語音識別,得到語音數(shù)據(jù)的轉(zhuǎn)寫文本;在本發(fā)明的一實施例中,步驟S2還包括步驟:S21、對語音數(shù)據(jù)進(jìn)行端點檢測,得到語音數(shù)據(jù)有效語音段的起始點和結(jié)束點;S22、對語音段的特征進(jìn)行提取;如MFCC(Mel FrequencyCepstrum Coefficient,MFCC)特征。S23、根據(jù)特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作;S24、根據(jù)解碼結(jié)果獲取語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)寫文本和轉(zhuǎn)寫文本置信度。
[0030]S3、通過關(guān)鍵信息樹將語音數(shù)據(jù)和轉(zhuǎn)寫文本與演示文稿進(jìn)行同步;演講語音數(shù)據(jù)、轉(zhuǎn)寫文本與演示文稿的同步過程即將演講人演講的語音數(shù)據(jù)、轉(zhuǎn)寫文本與每頁演示文稿進(jìn)行對齊,當(dāng)演講人對演示文稿翻頁時,演講語音數(shù)據(jù)和轉(zhuǎn)寫文本進(jìn)行相應(yīng)的分頁。具體同步時,先采用介入式或非介入式的方法獲取演講人的翻頁時間點信息,根據(jù)時間點信息及構(gòu)建的演示文稿關(guān)鍵信息樹,對語音數(shù)據(jù)、轉(zhuǎn)寫文本及演示文稿進(jìn)行同步,同時將轉(zhuǎn)寫文本根據(jù)每頁演示文稿的子主題進(jìn)行分段。在本發(fā)明的一實施例中,步驟S3還包括步驟:
[0031]S31、獲取演示文稿的翻頁時間點;翻頁時間點即當(dāng)前演示文稿講解結(jié)束后,翻到下一頁的時間點,利用時間點信息對演示文稿和演講語音數(shù)據(jù)及相應(yīng)轉(zhuǎn)寫文本進(jìn)行同步后,需要根據(jù)關(guān)鍵信息樹及翻頁時間點對演示文稿與轉(zhuǎn)寫文本的同步結(jié)果進(jìn)行調(diào)整,利用調(diào)整后的時間點對演示文稿與演講語音數(shù)據(jù)進(jìn)行再次同步。翻頁時間點的獲取可以采用介入式或非介入式兩種方法,由于翻頁時間點直接影響同步的結(jié)果,所以也可以采用兩種方法的結(jié)合來獲取翻頁時間點,具體如下:介入式獲取方法需要在演講人演講時使用的計算機(jī)上安裝系統(tǒng)事件捕捉程序,用于捕捉演示文稿的翻頁事件,每次觸發(fā)翻頁事件時,保存當(dāng)前的翻頁時間點;非介入式獲取方法指無法在演講人演講時使用的計算機(jī)上安裝系統(tǒng)事件捕捉程序時使用的方法,具體可以通過在演示文稿前面設(shè)置相應(yīng)的攝像機(jī)來捕捉翻頁事件,當(dāng)演示文稿翻頁時,保存當(dāng)前的翻頁時間點。獲取到演示文稿的翻頁時間點后,將時間點對應(yīng)到演講語音數(shù)據(jù)上,從而得到每頁演示文稿對應(yīng)的演講語音數(shù)據(jù)及相應(yīng)語音數(shù)據(jù)的轉(zhuǎn)寫文本。
[0032]S32、將關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖;關(guān)鍵信息圖主要用于演示文稿與轉(zhuǎn)寫文本的同步調(diào)整,及每頁演示文稿對應(yīng)轉(zhuǎn)寫文本的分段顯示,關(guān)鍵信息圖包含了演示文稿的關(guān)鍵信息,即演示文稿的子主題及子主題相應(yīng)的關(guān)鍵詞;在同步時,根據(jù)演示文稿的子主題分段顯示轉(zhuǎn)寫文本。如圖4所示,圖4顯示為本發(fā)明中關(guān)鍵信息圖的一實施例的示意圖。圖中顯示了主題為“機(jī)器人”的演示文稿中的關(guān)鍵信息樹轉(zhuǎn)換后形成的關(guān)鍵信息圖,其中“[翻頁]”表示翻頁出弧。具體地,步驟S32還包括步驟:S321、構(gòu)建節(jié)點中的父節(jié)點與子節(jié)點之間的翻頁出弧;將關(guān)鍵信息樹中每個節(jié)點的關(guān)鍵信息節(jié)點包含的關(guān)鍵詞信息放到每個節(jié)點的入弧上;同時,將每個父節(jié)點到其第一個子節(jié)點的邊標(biāo)識為翻頁出弧,如圖4中“機(jī)器人介紹”節(jié)點到其第一個子節(jié)點“機(jī)器人的發(fā)展史”的邊被標(biāo)識為翻頁出弧。S322、構(gòu)建相同父節(jié)點的所有子節(jié)點之間的翻頁出??;即將關(guān)鍵信息樹中相同的父節(jié)點的子節(jié)點之間增加一翻頁出弧,并將子節(jié)點的關(guān)鍵詞信息放到翻頁出弧上。S323、構(gòu)建相鄰父節(jié)點之間的翻頁出弧;在對應(yīng)同一個父節(jié)點的所有子節(jié)點中最后一個子節(jié)點與下一個父節(jié)點之間設(shè)置一個翻頁出弧,并將對應(yīng)兩個父節(jié)點的關(guān)鍵詞信息放在此翻頁出弧上。具體地,找到關(guān)鍵信息樹中所有的葉子節(jié)點,在屬于同一個父節(jié)點的葉子節(jié)點中的最后一個葉子節(jié)點上分別增加該葉子節(jié)點到其父節(jié)點的下一個兄弟節(jié)點的出弧,如圖4中,增加“第三代機(jī)器人”節(jié)點到“現(xiàn)代機(jī)器人的發(fā)展”節(jié)點的出弧,并將父節(jié)點兄弟節(jié)點的關(guān)鍵詞信息放到新增加的弧上,同時標(biāo)識該弧為翻頁出弧。如果父節(jié)點后面沒有兄弟節(jié)點,則不需要增加出弧,如圖4中“機(jī)器人的發(fā)展方向”節(jié)點后面沒有兄弟節(jié)點了,則該節(jié)點下的最后一個葉子節(jié)點不需要增加出弧。S324、構(gòu)建終止節(jié)點以及終止節(jié)點與開始節(jié)點之間的翻頁出弧。首先增加終止節(jié)點,終止節(jié)點可以使用end節(jié)點標(biāo)示,在所有子節(jié)點增加一條出弧指向終止節(jié)點,并在終止節(jié)點增加一條翻頁出弧指向開始節(jié)點。即,所有葉子節(jié)點增加一條出弧,指向end節(jié)點,end節(jié)點增加一條弧指向start節(jié)點,start節(jié)點為關(guān)鍵信息樹的根節(jié)點,標(biāo)識end節(jié)點增加一條弧指向start節(jié)點的弧為翻頁出弧。
[0033]S33、根據(jù)翻頁時間點和關(guān)鍵信息圖對轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯示。為了保持每頁轉(zhuǎn)寫文本語義的完整性,需要對根據(jù)演示文稿翻頁時間點得到的轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整,同時為了方便用戶理解,需要對對調(diào)整后的轉(zhuǎn)寫文本進(jìn)行分段顯示。具體地,步驟S33還包括步驟:S331、將關(guān)鍵信息圖中的根節(jié)點激活,即將圖4中的start節(jié)點激活,并將激活節(jié)點保存為當(dāng)前活動節(jié)點。S332、接收當(dāng)前頁的演示文稿的翻頁時間點和對應(yīng)的每個有效語音段的轉(zhuǎn)寫文本;通常以有效語音段為單位,依次接收當(dāng)前頁演示文稿對應(yīng)的每個有效語音的轉(zhuǎn)寫文本,及當(dāng)前頁演示文稿翻頁時間點。S333、遍歷當(dāng)前活動節(jié)點對應(yīng)的出弧,并將接收的轉(zhuǎn)寫文本與出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對應(yīng)的節(jié)點激活并記錄為當(dāng)前活動節(jié)點,并進(jìn)入步驟S334;若失敗,則進(jìn)入步驟S335; S334、根據(jù)匹配結(jié)果,對轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中,并進(jìn)入步驟S335;S335、判斷當(dāng)前轉(zhuǎn)寫文本的對應(yīng)時間點是否到達(dá)當(dāng)前頁的演示文稿的翻頁時間點;若是,則進(jìn)入步驟S336;若否,則返回步驟S332;S336、判斷當(dāng)前活動節(jié)點是否包含翻頁出弧;若不包含,則進(jìn)入步驟S337;若包含,則進(jìn)入步驟S338; S337、判斷當(dāng)前活動節(jié)點的出弧是否指向終止節(jié)點;若是,則所有演示文稿與轉(zhuǎn)寫文本的同步完成;同時,將關(guān)鍵信息圖保存的記錄清空,將所有轉(zhuǎn)寫文本分頁分段與演示文稿同步顯示出來;若否,則進(jìn)入步驟S338;S338、判斷當(dāng)前接收的轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的轉(zhuǎn)寫文本作為當(dāng)前頁最后一個有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入步驟S339;若否,則對轉(zhuǎn)寫文本的語義進(jìn)行調(diào)整,調(diào)整后即當(dāng)前頁的演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入步驟S339;S339、將下一頁演示文稿作為當(dāng)前頁,返回步驟S332,開始下一頁演示文稿的同步。判斷轉(zhuǎn)寫文本語義是否完整主要判斷當(dāng)前演示文稿翻頁時間點位置是否是轉(zhuǎn)寫文本整句結(jié)束位置,即當(dāng)前轉(zhuǎn)寫文本是否是在句子中間被切斷。在本發(fā)明的一優(yōu)選實施例中,具體判斷時,可以根據(jù)當(dāng)前轉(zhuǎn)寫文本的置信度得分判斷,分別計算當(dāng)前轉(zhuǎn)寫文本的置信度得分,及將翻頁時間點后一個有效語音段的轉(zhuǎn)寫文本與當(dāng)前轉(zhuǎn)寫文本一起的置信度得分,如果后者置信度得分較低,則認(rèn)為當(dāng)前轉(zhuǎn)寫文本語義完整;如果后者得分較高,并且得分超過閾值,則認(rèn)為當(dāng)前轉(zhuǎn)寫文本語義不完整,需要調(diào)整,具體調(diào)整時,可以根據(jù)翻頁時間點后一有效語音段轉(zhuǎn)寫文本與當(dāng)前轉(zhuǎn)寫文本的置信度,將當(dāng)前頁的翻頁時間點調(diào)整為當(dāng)前轉(zhuǎn)寫文本后一有效語音段的轉(zhuǎn)寫文本結(jié)束位置,同時調(diào)整轉(zhuǎn)寫文本對應(yīng)語音數(shù)據(jù)的翻頁時間點。當(dāng)然,也可以采用其它方法進(jìn)行判斷,如根據(jù)當(dāng)前轉(zhuǎn)寫文本對應(yīng)的語音數(shù)據(jù)上判斷,判斷語音數(shù)據(jù)翻頁時間點前后的聲學(xué)變化,或連續(xù)性,再結(jié)合轉(zhuǎn)寫文本的置信度來判斷語義的完整性。
[0034]S4、將同步后帶有語音數(shù)據(jù)和轉(zhuǎn)寫文本的演示文稿顯示給用戶。同步顯示后,使用戶在看演示文稿時可以同時聽到演講人的聲音,看到演講人聲音轉(zhuǎn)寫的文本,大大提高了用戶體驗;進(jìn)一步地,為了方便用戶理解轉(zhuǎn)寫文本,本發(fā)明的多媒體轉(zhuǎn)寫方法根據(jù)每頁演示文稿包含的子主題對轉(zhuǎn)寫文本分段,同一個子主題的轉(zhuǎn)寫文本作為一段,不同子主題的轉(zhuǎn)寫文本作為不同的段,進(jìn)一步提高了用戶體驗。
[0035]如圖2所示,圖2顯示為本發(fā)明多媒體轉(zhuǎn)寫系統(tǒng)一實施例的系統(tǒng)框架示意圖。本發(fā)明還提供了一種多媒體轉(zhuǎn)寫系統(tǒng),包括:
[0036]構(gòu)建模塊,用于接收演示文稿,并構(gòu)建演示文稿的關(guān)鍵信息樹;具體地在開始時構(gòu)建模塊接收演示文稿,構(gòu)建演示文稿的關(guān)鍵信息樹,關(guān)鍵信息樹包含了演示文稿的關(guān)鍵信息,關(guān)鍵信息可以是每頁演示文稿的子主題和相應(yīng)子主題的關(guān)鍵詞。在本發(fā)明的一實施例中,構(gòu)建模塊還包括:提取單元,用于提取每一頁演示文稿中包含的關(guān)鍵信息;構(gòu)建單元,用于根據(jù)關(guān)鍵信息構(gòu)建演示文稿關(guān)鍵信息樹。具體提取時,提取單元可以根據(jù)演示文稿包含的文本信息進(jìn)行語義理解,提取關(guān)鍵信息,關(guān)鍵信息包含每頁演示文稿的子主題及子主題對應(yīng)的關(guān)鍵詞,每個子主題可以提取一到多個關(guān)鍵詞。例如一頁演示文稿的文本內(nèi)容包括的主題為“‘十二五’先進(jìn)制造領(lǐng)域整體布局”;子主題為“3+2個專項”和“5個主題”;子主題“3+2個專項”包括項目“智能制造”、“綠色制造”、“服務(wù)機(jī)器人”和“+數(shù)控一代”、“制造業(yè)信息化”;子主題“5個主題”包括項目“重大裝備與工藝”、“系統(tǒng)控制”、“制造服務(wù)”、“微機(jī)電系統(tǒng)”和“智能機(jī)器人”。例如對每個子主題提取的關(guān)鍵詞信息如下:子主題“3+2個專項”的關(guān)鍵詞:3+2,服務(wù)機(jī)器人,制造業(yè)信息化;子主題“5個主題”的關(guān)鍵詞:重大裝備與工藝,智能機(jī)器人。優(yōu)選地,構(gòu)建單元還包括:獲取子單元,用于獲取演示文稿的提綱信息,得到整個演示文稿之間的鏈接關(guān)系;構(gòu)建子單元,用于將每頁演示文稿作為關(guān)鍵信息樹的一個節(jié)點,演示文稿之間的鏈接關(guān)系作為節(jié)點之間的邊,形成演示文稿的樹結(jié)構(gòu);還用于將關(guān)鍵信息分別添加到相應(yīng)的節(jié)點上,得到演示文稿的關(guān)鍵信息樹。例如,圖3顯示為本發(fā)明中關(guān)鍵信息樹的一實施例的示意圖。圖中顯示了主題為“機(jī)器人”的演示文稿形成的關(guān)鍵信息樹。如圖3所示,根據(jù)上例機(jī)器人演示文稿得到的關(guān)鍵信息樹,每個節(jié)點均設(shè)置有對應(yīng)的關(guān)鍵信息節(jié)點。
[0037]轉(zhuǎn)寫模塊,用于接收語音數(shù)據(jù),并對語音數(shù)據(jù)進(jìn)行語音識別,得到語音數(shù)據(jù)的轉(zhuǎn)寫文本;在本發(fā)明的一實施例中,轉(zhuǎn)寫模塊還包括:檢測單元,用于對語音數(shù)據(jù)進(jìn)行端點檢測,得到語音數(shù)據(jù)有效語音段的起始點和結(jié)束點;特征提取單元,用于對語音段的特征進(jìn)行提??;如MFCC(Mel Frequency Cepstrum Coefficient,MFCC)特征。解碼單元,用于根據(jù)特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作;轉(zhuǎn)寫結(jié)果獲取單元,用于根據(jù)解碼結(jié)果獲取語音數(shù)據(jù)對應(yīng)的轉(zhuǎn)寫文本和轉(zhuǎn)寫文本置信度。
[0038]同步模塊,用于通過關(guān)鍵信息樹將語音數(shù)據(jù)和轉(zhuǎn)寫文本與演示文稿進(jìn)行同步;演講語音數(shù)據(jù)、轉(zhuǎn)寫文本與演示文稿的同步過程即將演講人演講的語音數(shù)據(jù)、轉(zhuǎn)寫文本與每頁演示文稿進(jìn)行對齊,當(dāng)演講人對演示文稿翻頁時,演講語音數(shù)據(jù)和轉(zhuǎn)寫文本進(jìn)行相應(yīng)的分頁。具體同步時,先采用介入式或非介入式的方法獲取演講人的翻頁時間點信息,根據(jù)時間點信息及構(gòu)建的演示文稿關(guān)鍵信息樹,對語音數(shù)據(jù)、轉(zhuǎn)寫文本及演示文稿進(jìn)行同步,同時將轉(zhuǎn)寫文本根據(jù)每頁演示文稿的子主題進(jìn)行分段。在本發(fā)明的一實施例中,同步模塊還包括:時間點獲取單元,用于獲取演示文稿的翻頁時間點;轉(zhuǎn)換單元,用于將關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖;同步單元,用于根據(jù)翻頁時間點和關(guān)鍵信息圖對轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯示。翻頁時間點即當(dāng)前演示文稿講解結(jié)束后,翻到下一頁的時間點,利用時間點信息對演示文稿和演講語音數(shù)據(jù)及相應(yīng)轉(zhuǎn)寫文本進(jìn)行同步后,需要根據(jù)關(guān)鍵信息樹及翻頁時間點對演示文稿與轉(zhuǎn)寫文本的同步結(jié)果進(jìn)行調(diào)整,利用調(diào)整后的時間點對演示文稿與演講語音數(shù)據(jù)進(jìn)行再次同步。翻頁時間點的獲取可以采用介入式或非介入式兩種方法,由于翻頁時間點直接影響同步的結(jié)果,所以也可以采用兩種方法的結(jié)合來獲取翻頁時間點,具體如下:介入式獲取方法需要在演講人演講時使用的計算機(jī)上安裝系統(tǒng)事件捕捉程序,用于捕捉演示文稿的翻頁事件,每次觸發(fā)翻頁事件時,保存當(dāng)前的翻頁時間點;非介入式獲取方法指無法在演講人演講時使用的計算機(jī)上安裝系統(tǒng)事件捕捉程序時使用的方法,具體可以通過在演示文稿前面設(shè)置相應(yīng)的攝像機(jī)來捕捉翻頁事件,當(dāng)演示文稿翻頁時,保存當(dāng)前的翻頁時間點。獲取到演示文稿的翻頁時間點后,將時間點對應(yīng)到演講語音數(shù)據(jù)上,從而得到每頁演示文稿對應(yīng)的演講語音數(shù)據(jù)及相應(yīng)語音數(shù)據(jù)的轉(zhuǎn)寫文本。關(guān)鍵信息圖主要用于演示文稿與轉(zhuǎn)寫文本的同步調(diào)整,及每頁演示文稿對應(yīng)轉(zhuǎn)寫文本的分段顯示,關(guān)鍵信息圖包含了演示文稿的關(guān)鍵信息,即演示文稿的子主題及子主題相應(yīng)的關(guān)鍵詞;在同步時,根據(jù)演示文稿的子主題分段顯示轉(zhuǎn)寫文本。如圖4所示,圖4顯示為本發(fā)明中關(guān)鍵信息圖的一實施例的示意圖。圖中顯示了主題為“機(jī)器人”的演示文稿中的關(guān)鍵信息樹轉(zhuǎn)換后形成的關(guān)鍵信息圖,其中“[翻頁]”表示翻頁出弧。具體地,轉(zhuǎn)換單元還用于構(gòu)建節(jié)點中的父節(jié)點與子節(jié)點之間的翻頁出弧,如圖4中“機(jī)器人介紹”節(jié)點到其第一個子節(jié)點“機(jī)器人的發(fā)展史”的邊被標(biāo)識為翻頁出弧。轉(zhuǎn)換單元還用于構(gòu)建相同父節(jié)點的所有子節(jié)點之間的翻頁出弧,即將關(guān)鍵信息樹中相同的父節(jié)點的子節(jié)點之間增加一翻頁出弧,并將子節(jié)點的關(guān)鍵詞信息放到翻頁出弧上。轉(zhuǎn)換單元還用于構(gòu)建相鄰父節(jié)點之間的翻頁出弧,在對應(yīng)同一個父節(jié)點的所有子節(jié)點中最后一個子節(jié)點與下一個父節(jié)點之間設(shè)置一個翻頁出弧,并將對應(yīng)兩個父節(jié)點的關(guān)鍵詞信息放在此翻頁出弧上。具體地,找到關(guān)鍵信息樹中所有的葉子節(jié)點,在屬于同一個父節(jié)點的葉子節(jié)點中的最后一個葉子節(jié)點上分別增加該葉子節(jié)點到其父節(jié)點的下一個兄弟節(jié)點的出弧,如圖4中,增加“第三代機(jī)器人”節(jié)點到“現(xiàn)代機(jī)器人的發(fā)展”節(jié)點的出弧,并將父節(jié)點兄弟節(jié)點的關(guān)鍵詞信息放到新增加的弧上,同時標(biāo)識該弧為翻頁出弧。如果父節(jié)點后面沒有兄弟節(jié)點,則不需要增加出弧,如圖4中“機(jī)器人的發(fā)展方向”節(jié)點后面沒有兄弟節(jié)點了,則該節(jié)點下的最后一個葉子節(jié)點不需要增加出弧。轉(zhuǎn)換單元還用于構(gòu)建終止節(jié)點以及終止節(jié)點與開始節(jié)點之間的翻頁出弧。首先增加終止節(jié)點,終止節(jié)點可以使用end節(jié)點標(biāo)示,在所有子節(jié)點增加一條出弧指向終止節(jié)點,并在終止節(jié)點增加一條翻頁出弧指向開始節(jié)點。即,所有葉子節(jié)點增加一條出弧,指向end節(jié)點,end節(jié)點增加一條弧指向start節(jié)點,start節(jié)點為關(guān)鍵信息樹的根節(jié)點,標(biāo)識end節(jié)點增加一條弧指向start節(jié)點的弧為翻頁出弧。同步單元在進(jìn)行同步時,為了保持每頁轉(zhuǎn)寫文本語義的完整性,需要對根據(jù)演示文稿翻頁時間點得到的轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整,同時為了方便用戶理解,需要對調(diào)整后的轉(zhuǎn)寫文本進(jìn)行分段顯示。具體地,同步單元包括:節(jié)點激活子單元,用于將關(guān)鍵信息圖中的根節(jié)點激活,并將激活節(jié)點保存為當(dāng)前活動節(jié)點;即將圖4中的節(jié)點激活,并將激活節(jié)點保存為當(dāng)前活動節(jié)點。接收子單元,用于接收當(dāng)前頁的演示文稿的翻頁時間點和對應(yīng)的每個有效語音段的轉(zhuǎn)寫文本;通常以有效語音段為單位,依次接收當(dāng)前頁演示文稿對應(yīng)的每個有效語音的轉(zhuǎn)寫文本,及當(dāng)前頁演示文稿翻頁時間點。匹配子單元,用于遍歷當(dāng)前活動節(jié)點對應(yīng)的出弧,并將接收的轉(zhuǎn)寫文本與出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對應(yīng)的節(jié)點激活并記錄為當(dāng)前活動節(jié)點;分段顯示子單元,用于根據(jù)匹配結(jié)果,對轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中;時間點判斷子單元,用于判斷當(dāng)前轉(zhuǎn)寫文本的對應(yīng)時間點是否到達(dá)當(dāng)前頁的演示文稿的翻頁時間點;翻頁出弧判斷子單元,用于判斷當(dāng)前活動節(jié)點是否包含翻頁出弧;終止節(jié)點判斷子單元,用于判斷當(dāng)前活動節(jié)點的出弧是否指向終止節(jié)點;若是,則所有演示文稿與轉(zhuǎn)寫文本的同步完成;同時,將關(guān)鍵信息圖保存的記錄清空,將所有轉(zhuǎn)寫文本分頁分段與演示文稿同步顯示出來。語義判斷子單元,用于判斷當(dāng)前接收的所述轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的所述轉(zhuǎn)寫文本作為當(dāng)前頁最后一個所述有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成;若否,則對所述轉(zhuǎn)寫文本的語義進(jìn)行調(diào)整,調(diào)整后當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成;同步子單元,用于將下一頁演示文稿作為當(dāng)前頁,并開始下一頁演示文稿的同步。判斷轉(zhuǎn)寫文本語義是否完整主要判斷當(dāng)前演示文稿翻頁時間點位置是否是轉(zhuǎn)寫文本整句結(jié)束位置,即當(dāng)前轉(zhuǎn)寫文本是否是在句子中間被切斷。在本發(fā)明的一優(yōu)選實施例中,具體判斷時,可以根據(jù)當(dāng)前轉(zhuǎn)寫文本的置信度得分判斷,分別計算當(dāng)前轉(zhuǎn)寫文本的置信度得分,及將翻頁時間點后一個有效語音段的轉(zhuǎn)寫文本與當(dāng)前轉(zhuǎn)寫文本一起的置信度得分,如果后者置信度得分較低,則認(rèn)為當(dāng)前轉(zhuǎn)寫文本語義完整;如果后者得分較高,并且得分超過閾值,則認(rèn)為當(dāng)前轉(zhuǎn)寫文本語義不完整,需要調(diào)整,具體調(diào)整時,可以根據(jù)翻頁時間點后一有效語音段轉(zhuǎn)寫文本與當(dāng)前轉(zhuǎn)寫文本的置信度,將當(dāng)前頁的翻頁時間點調(diào)整為當(dāng)前轉(zhuǎn)寫文本后一有效語音段的轉(zhuǎn)寫文本結(jié)束位置,同時調(diào)整轉(zhuǎn)寫文本對應(yīng)語音數(shù)據(jù)的翻頁時間點。當(dāng)然,也可以采用其它方法進(jìn)行判斷,如根據(jù)當(dāng)前轉(zhuǎn)寫文本對應(yīng)的語音數(shù)據(jù)上判斷,判斷語音數(shù)據(jù)翻頁時間點前后的聲學(xué)變化,或連續(xù)性,再結(jié)合轉(zhuǎn)寫文本的置信度來判斷語義的完整性。
[0039]顯示模塊,用于將同步模塊同步后帶有語音數(shù)據(jù)和轉(zhuǎn)寫文本的演示文稿顯示給用戶。同步顯示后,使用戶在看演示文稿時可以同時聽到演講人的聲音,看到演講人聲音轉(zhuǎn)寫的文本,大大提高了用戶體驗;進(jìn)一步地,為了方便用戶理解轉(zhuǎn)寫文本,本發(fā)明的多媒體轉(zhuǎn)寫方法根據(jù)每頁演示文稿包含的子主題對轉(zhuǎn)寫文本分段,同一個子主題的轉(zhuǎn)寫文本作為一段,不同子主題的轉(zhuǎn)寫文本作為不同的段,進(jìn)一步提高了用戶體驗。
[0040]綜上所述,本發(fā)明的一種多媒體轉(zhuǎn)寫方法和系統(tǒng),使用戶在看演示文稿時可以同時聽到演講人的聲音,看到演講人聲音轉(zhuǎn)寫的文本,大大提高了用戶體驗;進(jìn)一步地,為了方便用戶理解轉(zhuǎn)寫文本,本發(fā)明的多媒體轉(zhuǎn)寫方法根據(jù)每頁演示文稿包含的子主題對轉(zhuǎn)寫文本分段,同一個子主題的轉(zhuǎn)寫文本作為一段,不同子主題的轉(zhuǎn)寫文本作為不同的段,進(jìn)一步提高了用戶體驗。所以,本發(fā)明有效克服了現(xiàn)有技術(shù)中的種種缺點而具高度產(chǎn)業(yè)利用價值。
[0041]上述實施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對上述實施例進(jìn)行修飾或改變。因此,舉凡所屬技術(shù)領(lǐng)域中具有通常知識者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完成的一切等效修飾或改變,仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。
【主權(quán)項】
1.一種多媒體轉(zhuǎn)寫方法,應(yīng)用于多媒體轉(zhuǎn)寫系統(tǒng)中,其特征在于,包括以下步驟: 51、接收演示文稿,并構(gòu)建所述演示文稿的關(guān)鍵信息樹; 52、接收語音數(shù)據(jù),并對所述語音數(shù)據(jù)進(jìn)行語音識別,得到所述語音數(shù)據(jù)的轉(zhuǎn)寫文本; 53、通過所述關(guān)鍵信息樹將所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本與所述演示文稿進(jìn)行同步; 54、將同步后帶有所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本的演示文稿顯示給用戶。2.根據(jù)權(quán)利要求1所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟S2還包括步驟: 521、對所述語音數(shù)據(jù)進(jìn)行端點檢測,得到所述語音數(shù)據(jù)有效語音段的起始點和結(jié)束占.V , 522、對所述語音段的特征進(jìn)行提??; 523、根據(jù)所述特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作; 524、根據(jù)解碼結(jié)果獲取所述語音數(shù)據(jù)對應(yīng)的所述轉(zhuǎn)寫文本和所述轉(zhuǎn)寫文本置信度。3.根據(jù)權(quán)利要求2所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟SI包括步驟: 511、提取每一頁所述演示文稿中包含的關(guān)鍵信息; 512、根據(jù)所述關(guān)鍵信息構(gòu)建所述演示文稿關(guān)鍵信息樹。4.根據(jù)權(quán)利要求3所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟S12中還包括步驟: 5121、獲取所述演示文稿的提綱信息,得到整個所述演示文稿之間的鏈接關(guān)系; 5122、將每頁所述演示文稿作為所述關(guān)鍵信息樹的一個節(jié)點,所述演示文稿之間的鏈接關(guān)系作為所述節(jié)點之間的邊,形成所述演示文稿的樹結(jié)構(gòu); 5123、將所述關(guān)鍵信息分別添加到相應(yīng)的所述節(jié)點上,得到所述演示文稿的關(guān)鍵信息樹。5.根據(jù)權(quán)利要求4所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟S3還包括步驟: 531、獲取所述演示文稿的翻頁時間點; 532、將所述關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖; 533、根據(jù)所述翻頁時間點和所述關(guān)鍵信息圖對所述轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯不O6.根據(jù)權(quán)利要求5所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟S32還包括步驟: 5321、構(gòu)建所述節(jié)點中的父節(jié)點與子節(jié)點之間的翻頁出?。? 5322、構(gòu)建相同所述父節(jié)點的所有所述子節(jié)點之間的翻頁出??; 5323、構(gòu)建相鄰所述父節(jié)點之間的翻頁出?。? 5324、構(gòu)建終止節(jié)點以及所述終止節(jié)點與開始節(jié)點之間的翻頁出弧。7.根據(jù)權(quán)利要求6所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟S33還包括步驟: 5331、將所述關(guān)鍵信息圖中的根節(jié)點激活,并將所述激活節(jié)點保存為當(dāng)前活動節(jié)點; 5332、接收當(dāng)前頁的所述演示文稿的翻頁時間點和對應(yīng)的每個所述有效語音段的所述轉(zhuǎn)寫文本; 5333、遍歷當(dāng)前活動節(jié)點對應(yīng)的出弧,并將接收的所述轉(zhuǎn)寫文本與所述出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對應(yīng)的節(jié)點激活并記錄為當(dāng)前活動節(jié)點,并進(jìn)入步驟S334 ;若失敗,則進(jìn)入步驟S335 ; 5334、根據(jù)匹配結(jié)果,對所述轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中,并進(jìn)入步驟S335; 5335、判斷當(dāng)前所述轉(zhuǎn)寫文本的對應(yīng)時間點是否到達(dá)當(dāng)前頁的所述演示文稿的翻頁時間點;若是,則進(jìn)入步驟S336 ;若否,則返回步驟S332 ; 5336、判斷當(dāng)前活動節(jié)點是否包含翻頁出弧;若不包含,則進(jìn)入步驟S337;若包含,則進(jìn)入步驟S338; 5337、判斷當(dāng)前活動節(jié)點的出弧是否指向終止節(jié)點;若是,則所有所述演示文稿與所述轉(zhuǎn)寫文本的同步完成;若否,則進(jìn)入步驟S338; 5338、判斷當(dāng)前接收的所述轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的所述轉(zhuǎn)寫文本作為當(dāng)前頁最后一個所述有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入S339;若否,則對所述轉(zhuǎn)寫文本進(jìn)行調(diào)整,調(diào)整后當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入S339; 5339、將下一頁演示文稿作為當(dāng)前頁,返回步驟S332。8.一種多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,包括: 構(gòu)建模塊,用于接收演示文稿,并構(gòu)建所述演示文稿的關(guān)鍵信息樹; 轉(zhuǎn)寫模塊,用于接收語音數(shù)據(jù),并對所述語音數(shù)據(jù)進(jìn)行語音識別,得到所述語音數(shù)據(jù)的轉(zhuǎn)寫文本; 同步模塊,用于通過所述關(guān)鍵信息樹將所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本與所述演示文稿進(jìn)行同步; 顯示模塊,用于將所述同步模塊同步后帶有所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本的演示文稿顯示給用戶。9.根據(jù)權(quán)利要求8所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述轉(zhuǎn)寫模塊還包括: 檢測單元,用于對所述語音數(shù)據(jù)進(jìn)行端點檢測,得到所述語音數(shù)據(jù)有效語音段的起始點和結(jié)束點; 特征提取單元,用于對所述語音段的特征進(jìn)行提?。?解碼單元,用于根據(jù)所述特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作; 轉(zhuǎn)寫結(jié)果獲取單元,用于根據(jù)解碼結(jié)果獲取所述語音數(shù)據(jù)對應(yīng)的所述轉(zhuǎn)寫文本和所述轉(zhuǎn)寫文本置信度。10.根據(jù)權(quán)利要求9所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述構(gòu)建模塊還包括: 提取單元,用于提取每一頁所述演示文稿中包含的關(guān)鍵信息; 構(gòu)建單元,用于根據(jù)所述關(guān)鍵信息構(gòu)建所述演示文稿關(guān)鍵信息樹。11.根據(jù)權(quán)利要求10所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述構(gòu)建單元還包括: 獲取子單元,用于獲取所述演示文稿的提綱信息,得到整個所述演示文稿之間的鏈接關(guān)系; 構(gòu)建子單元,用于將每頁所述演示文稿作為所述關(guān)鍵信息樹的一個節(jié)點,所述演示文稿之間的鏈接關(guān)系作為所述節(jié)點之間的邊,形成所述演示文稿的樹結(jié)構(gòu);還用于將所述關(guān)鍵信息分別添加到相應(yīng)的所述節(jié)點上,得到所述演示文稿的關(guān)鍵信息樹。12.根據(jù)權(quán)利要求11所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述同步模塊還包括: 時間點獲取單元,用于獲取所述演示文稿的翻頁時間點; 轉(zhuǎn)換單元,用于將所述關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖; 同步單元,用于根據(jù)所述翻頁時間點和所述關(guān)鍵信息圖對所述轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯示。13.根據(jù)權(quán)利要求12所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述轉(zhuǎn)換單元還用于構(gòu)建所述節(jié)點中的父節(jié)點與子節(jié)點之間的翻頁出弧、相同所述父節(jié)點的所有所述子節(jié)點之間的翻頁出弧、相鄰所述父節(jié)點之間的翻頁出弧,還用于構(gòu)建終止節(jié)點以及所述終止節(jié)點與開始節(jié)點之間的翻頁出弧。14.根據(jù)權(quán)利要求13所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述同步單元包括: 節(jié)點激活子單元,用于將所述關(guān)鍵信息圖中的根節(jié)點激活,并將所述激活節(jié)點保存為當(dāng)前活動節(jié)點; 接收子單元,用于接收當(dāng)前頁的所述演示文稿的翻頁時間點和對應(yīng)的每個所述有效語音段的所述轉(zhuǎn)寫文本; 匹配子單元,用于遍歷當(dāng)前活動節(jié)點對應(yīng)的出弧,并將接收的所述轉(zhuǎn)寫文本與所述出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對應(yīng)的節(jié)點激活并記錄為當(dāng)前活動節(jié)點; 分段顯示子單元,用于根據(jù)匹配結(jié)果,對所述轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中; 時間點判斷子單元,用于判斷當(dāng)前所述轉(zhuǎn)寫文本的對應(yīng)時間點是否到達(dá)當(dāng)前頁的所述演示文稿的翻頁時間點; 翻頁出弧判斷子單元,用于判斷當(dāng)前活動節(jié)點是否包含翻頁出??; 終止節(jié)點判斷子單元,用于判斷當(dāng)前活動節(jié)點的出弧是否指向終止節(jié)點;若是,則所有所述演示文稿與所述轉(zhuǎn)寫文本的同步完成; 語義判斷子單元,用于判斷當(dāng)前接收的所述轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的所述轉(zhuǎn)寫文本作為當(dāng)前頁最后一個所述有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成;若否,則對所述轉(zhuǎn)寫文本的語義進(jìn)行調(diào)整,調(diào)整后當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成; 同步子單元,用于將下一頁演示文稿作為當(dāng)前頁,并開始下一頁演示文稿的同步。
【文檔編號】G10L15/26GK105895085SQ201610200600
【公開日】2016年8月24日
【申請日】2016年3月30日
【發(fā)明人】王金钖, 胡尹, 潘青華, 胡國平, 胡郁, 劉慶峰
【申請人】科大訊飛股份有限公司