一種多媒體轉(zhuǎn)寫方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種多媒體轉(zhuǎn)寫方法,應(yīng)用于多媒體轉(zhuǎn)寫系統(tǒng)中,包括以下步驟:S1、接收演示文稿,并構(gòu)建所述演示文稿的關(guān)鍵信息樹;S2、接收語音數(shù)據(jù),并對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到所述語音數(shù)據(jù)的轉(zhuǎn)寫文本;S3、通過所述關(guān)鍵信息樹將所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本與所述演示文稿進(jìn)行同步;S4、將同步后帶有所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本的演示文稿顯示給用戶。用戶在看演示文稿時(shí)可以同時(shí)聽到演講人的聲音,看到演講人聲音轉(zhuǎn)寫的文本;進(jìn)一步地,根據(jù)每頁演示文稿包含的子主題對(duì)轉(zhuǎn)寫文本分段,同一個(gè)子主題的轉(zhuǎn)寫文本作為一段,不同子主題的轉(zhuǎn)寫文本作為不同的段,可以方便用戶理解轉(zhuǎn)寫文本,進(jìn)一步提高了用戶體驗(yàn)。
【專利說明】
一種多媒體轉(zhuǎn)寫方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及語音信號(hào)處理領(lǐng)域,特別是涉及一種多媒體轉(zhuǎn)寫方法和系統(tǒng)。
【背景技術(shù)】
[0002]近年來,隨著語音識(shí)別技術(shù)的快速發(fā)展,自動(dòng)語音識(shí)別相關(guān)產(chǎn)品已廣泛應(yīng)用于各行各業(yè),將語音轉(zhuǎn)成文本,大大方便了人們的生活需求,如將會(huì)議錄音轉(zhuǎn)成相應(yīng)文本,方便會(huì)議秘書后續(xù)查詢會(huì)議信息或輔助其撰寫會(huì)議紀(jì)要;或者將采訪錄音轉(zhuǎn)成相應(yīng)文本,在此基礎(chǔ)上編輯成稿等。然而,上述應(yīng)用都僅僅是將錄音轉(zhuǎn)成文本,并不能同步看到語音數(shù)據(jù)對(duì)應(yīng)的演示文稿,尤其是演示文稿中存在重要信息,而所述重要信息不存在轉(zhuǎn)寫結(jié)果中時(shí),用戶必須根據(jù)語音數(shù)據(jù)或轉(zhuǎn)寫文本查找相應(yīng)的演示文稿,如果演示文稿量較多時(shí),很難快速查找到與轉(zhuǎn)寫文本對(duì)應(yīng)的演示文稿,從而降低了用戶體驗(yàn);如錄制的語音數(shù)據(jù)是老師的課堂教學(xué)錄音,老師在課堂上經(jīng)常會(huì)給出各種參考資料或其相應(yīng)鏈接,或知識(shí)點(diǎn)講解時(shí)的演示操作,這些內(nèi)容在語音數(shù)據(jù)或轉(zhuǎn)寫文本數(shù)據(jù)中經(jīng)常無法找到,學(xué)生必須要到轉(zhuǎn)寫文本對(duì)應(yīng)的演示文稿中才可查看。
[0003]現(xiàn)有的轉(zhuǎn)寫系統(tǒng)一般將錄制的語音數(shù)據(jù)直接轉(zhuǎn)寫成文本數(shù)據(jù)顯示給用戶,當(dāng)用戶在查看轉(zhuǎn)寫文本時(shí),看不到相應(yīng)的演示文稿,當(dāng)有些重要的信息只存在演示文稿時(shí),如圖片中包含的重要鏈接;用戶必須要根據(jù)錄制的語音數(shù)據(jù)或轉(zhuǎn)寫文本自己查找相應(yīng)的演示文稿,用戶體驗(yàn)較差,同時(shí)也不能做到,隨時(shí)查看轉(zhuǎn)寫文本的同時(shí)查看相應(yīng)演示文稿,尤其是當(dāng)演示文稿較多時(shí),很難快速找到與轉(zhuǎn)寫文本對(duì)應(yīng)的演示文稿。
【發(fā)明內(nèi)容】
[0004]鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種多媒體轉(zhuǎn)寫方法,應(yīng)用于多媒體轉(zhuǎn)寫系統(tǒng)中,包括以下步驟:S1、接收演示文稿,并構(gòu)建所述演示文稿的關(guān)鍵信息樹;S2、接收語音數(shù)據(jù),并對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到所述語音數(shù)據(jù)的轉(zhuǎn)寫文本;
S3、通過所述關(guān)鍵信息樹將所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本與所述演示文稿進(jìn)行同步;S4、將同步后帶有所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本的演示文稿顯示給用戶。
[0005]于本發(fā)明的一實(shí)施例中,所述步驟S2還包括步驟:S21、對(duì)所述語音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè),得到所述語音數(shù)據(jù)有效語音段的起始點(diǎn)和結(jié)束點(diǎn);S22、對(duì)所述語音段的特征進(jìn)行提取;S23、根據(jù)所述特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作;S24、根據(jù)解碼結(jié)果獲取所述語音數(shù)據(jù)對(duì)應(yīng)的所述轉(zhuǎn)寫文本和所述轉(zhuǎn)寫文本置信度。
[0006]于本發(fā)明的一實(shí)施例中,所述步驟SI包括步驟:S11、提取每一頁所述演示文稿中包含的關(guān)鍵信息;S12、根據(jù)所述關(guān)鍵信息構(gòu)建所述演示文稿關(guān)鍵信息樹。
[0007]于本發(fā)明的一實(shí)施例中,所述步驟S12中還包括步驟:S121、獲取所述演示文稿的提綱信息,得到整個(gè)所述演示文稿之間的鏈接關(guān)系;S122、將每頁所述演示文稿作為所述關(guān)鍵信息樹的一個(gè)節(jié)點(diǎn),所述演示文稿之間的鏈接關(guān)系作為所述節(jié)點(diǎn)之間的邊,形成所述演示文稿的樹結(jié)構(gòu);S123、將所述關(guān)鍵信息分別添加到相應(yīng)的所述節(jié)點(diǎn)上,得到所述演示文稿的關(guān)鍵信息樹。
[0008]于本發(fā)明的一實(shí)施例中,所述步驟S3還包括步驟:S31、獲取所述演示文稿的翻頁時(shí)間點(diǎn);S32、將所述關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖;S33、根據(jù)所述翻頁時(shí)間點(diǎn)和所述關(guān)鍵信息圖對(duì)所述轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯示。
[0009]于本發(fā)明的一實(shí)施例中,所述步驟S32還包括步驟:S321、構(gòu)建所述節(jié)點(diǎn)中的父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的翻頁出?。籗322、構(gòu)建相同所述父節(jié)點(diǎn)的所有所述子節(jié)點(diǎn)之間的翻頁出?。籗323、構(gòu)建相鄰所述父節(jié)點(diǎn)之間的翻頁出??;S324、構(gòu)建終止節(jié)點(diǎn)以及所述終止節(jié)點(diǎn)與開始節(jié)點(diǎn)之間的翻頁出弧。
[0010]于本發(fā)明的一實(shí)施例中,所述步驟S33還包括步驟:S331、將所述關(guān)鍵信息圖中的根節(jié)點(diǎn)激活,并將所述激活節(jié)點(diǎn)保存為當(dāng)前活動(dòng)節(jié)點(diǎn);S332、接收當(dāng)前頁的所述演示文稿的翻頁時(shí)間點(diǎn)和對(duì)應(yīng)的每個(gè)所述有效語音段的所述轉(zhuǎn)寫文本;S333、遍歷當(dāng)前活動(dòng)節(jié)點(diǎn)對(duì)應(yīng)的出弧,并將接收的所述轉(zhuǎn)寫文本與所述出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對(duì)應(yīng)的節(jié)點(diǎn)激活并記錄為當(dāng)前活動(dòng)節(jié)點(diǎn),并進(jìn)入步驟S334;若失敗,則進(jìn)入步驟S335;S334、根據(jù)匹配結(jié)果,對(duì)所述轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中中,并進(jìn)入步驟S335;S335、判斷當(dāng)前所述轉(zhuǎn)寫文本的對(duì)應(yīng)時(shí)間點(diǎn)是否到達(dá)當(dāng)前頁的所述演示文稿的翻頁時(shí)間點(diǎn);若是,則進(jìn)入步驟S336;若否,則返回步驟S332; S336、判斷當(dāng)前活動(dòng)節(jié)點(diǎn)是否包含翻頁出弧;若不包含,則進(jìn)入步驟S337 ;若包含,則進(jìn)入步驟S338 ; S337、判斷當(dāng)前活動(dòng)節(jié)點(diǎn)的出弧是否指向終止節(jié)點(diǎn);若是,則所有所述演示文稿與所述轉(zhuǎn)寫文本的同步完成;若否,則進(jìn)入步驟S338; S338、判斷當(dāng)前接收的所述轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的所述轉(zhuǎn)寫文本作為當(dāng)前頁最后一個(gè)所述有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入S339;若否,則對(duì)所述轉(zhuǎn)寫文本進(jìn)行調(diào)整,調(diào)整后當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入S339;S339、將下一頁演示文稿作為當(dāng)前頁,返回步驟S332。
[0011]本發(fā)明還提供了一種多媒體轉(zhuǎn)寫系統(tǒng),包括:構(gòu)建模塊,用于接收演示文稿,并構(gòu)建所述演示文稿的關(guān)鍵信息樹;轉(zhuǎn)寫模塊,用于接收語音數(shù)據(jù),并對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到所述語音數(shù)據(jù)的轉(zhuǎn)寫文本;同步模塊,用于通過所述關(guān)鍵信息樹將所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本與所述演示文稿進(jìn)行同步;顯示模塊,用于將所述同步模塊同步后帶有所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本的演示文稿顯示給用戶。
[0012]于本發(fā)明的一實(shí)施例中,所述轉(zhuǎn)寫模塊還包括:檢測(cè)單元,用于對(duì)所述語音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè),得到所述語音數(shù)據(jù)有效語音段的起始點(diǎn)和結(jié)束點(diǎn);特征提取單元,用于對(duì)所述語音段的特征進(jìn)行提取;解碼單元,用于根據(jù)所述特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作;轉(zhuǎn)寫結(jié)果獲取單元,用于根據(jù)解碼結(jié)果獲取所述語音數(shù)據(jù)對(duì)應(yīng)的所述轉(zhuǎn)寫文本和所述轉(zhuǎn)寫文本置信度。
[0013]于本發(fā)明的一實(shí)施例中,所述構(gòu)建模塊還包括:提取單元,用于提取每一頁所述演示文稿中包含的關(guān)鍵信息;構(gòu)建單元,用于根據(jù)所述關(guān)鍵信息構(gòu)建所述演示文稿關(guān)鍵信息樹。
[0014]于本發(fā)明的一實(shí)施例中,所述構(gòu)建單元還包括:獲取子單元,用于獲取所述演示文稿的提綱信息,得到整個(gè)所述演示文稿之間的鏈接關(guān)系;構(gòu)建子單元,用于將每頁所述演示文稿作為所述關(guān)鍵信息樹的一個(gè)節(jié)點(diǎn),所述演示文稿之間的鏈接關(guān)系作為所述節(jié)點(diǎn)之間的邊,形成所述演示文稿的樹結(jié)構(gòu);還用于將所述關(guān)鍵信息分別添加到相應(yīng)的所述節(jié)點(diǎn)上,得到所述演示文稿的關(guān)鍵信息樹。
[0015]于本發(fā)明的一實(shí)施例中,所述同步模塊還包括:時(shí)間點(diǎn)獲取單元,用于獲取所述演示文稿的翻頁時(shí)間點(diǎn);轉(zhuǎn)換單元,用于將所述關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖;同步單元,用于根據(jù)所述翻頁時(shí)間點(diǎn)和所述關(guān)鍵信息圖對(duì)所述轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯示。
[0016]于本發(fā)明的一實(shí)施例中,所述轉(zhuǎn)換單元還用于構(gòu)建所述節(jié)點(diǎn)中的父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的翻頁出弧、相同所述父節(jié)點(diǎn)的所有所述子節(jié)點(diǎn)之間的翻頁出弧、相鄰所述父節(jié)點(diǎn)之間的翻頁出弧,還用于構(gòu)建終止節(jié)點(diǎn)以及所述終止節(jié)點(diǎn)與開始節(jié)點(diǎn)之間的翻頁出弧。
[0017]于本發(fā)明的一實(shí)施例中,所述同步單元包括:節(jié)點(diǎn)激活子單元,用于將所述關(guān)鍵信息圖中的根節(jié)點(diǎn)激活,并將所述激活節(jié)點(diǎn)保存為當(dāng)前活動(dòng)節(jié)點(diǎn);接收子單元,用于接收當(dāng)前頁的所述演示文稿的翻頁時(shí)間點(diǎn)和對(duì)應(yīng)的每個(gè)所述有效語音段的所述轉(zhuǎn)寫文本;匹配子單元,用于遍歷當(dāng)前活動(dòng)節(jié)點(diǎn)對(duì)應(yīng)的出弧,并將接收的所述轉(zhuǎn)寫文本與所述出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對(duì)應(yīng)的節(jié)點(diǎn)激活并記錄為當(dāng)前活動(dòng)節(jié)點(diǎn);分段顯示子單元,用于根據(jù)匹配結(jié)果,對(duì)所述轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中;時(shí)間點(diǎn)判斷子單元,用于判斷當(dāng)前所述轉(zhuǎn)寫文本的對(duì)應(yīng)時(shí)間點(diǎn)是否到達(dá)當(dāng)前頁的所述演示文稿的翻頁時(shí)間點(diǎn);翻頁出弧判斷子單元,用于判斷當(dāng)前活動(dòng)節(jié)點(diǎn)是否包含翻頁出弧;終止節(jié)點(diǎn)判斷子單元,用于判斷當(dāng)前活動(dòng)節(jié)點(diǎn)的出弧是否指向終止節(jié)點(diǎn);若是,則所有所述演示文稿與所述轉(zhuǎn)寫文本的同步完成;語義判斷子單元,用于判斷當(dāng)前接收的所述轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的所述轉(zhuǎn)寫文本作為當(dāng)前頁最后一個(gè)所述有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成;若否,則對(duì)所述轉(zhuǎn)寫文本的語義進(jìn)行調(diào)整,調(diào)整后當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成;同步子單元,用于將下一頁演示文稿作為當(dāng)前頁,并開始下一頁演示文稿的同步。
[0018]如上所述,本發(fā)明的一種多媒體轉(zhuǎn)寫方法和系統(tǒng),具有以下有益效果:
[0019]用戶在看演示文稿時(shí)可以同時(shí)聽到演講人的聲音,看到演講人聲音轉(zhuǎn)寫的文本;進(jìn)一步地,根據(jù)每頁演示文稿包含的子主題對(duì)轉(zhuǎn)寫文本分段,同一個(gè)子主題的轉(zhuǎn)寫文本作為一段,不同子主題的轉(zhuǎn)寫文本作為不同的段,可以方便用戶理解轉(zhuǎn)寫文本,進(jìn)一步提高了用戶體驗(yàn)。
【附圖說明】
[0020]圖1顯示為本發(fā)明多媒體轉(zhuǎn)寫方法一實(shí)施例的系統(tǒng)流程示意圖。
[0021]圖2顯示為本發(fā)明多媒體轉(zhuǎn)寫系統(tǒng)一實(shí)施例的系統(tǒng)框架示意圖。
[0022]圖3顯示為本發(fā)明中關(guān)鍵信息樹的一實(shí)施例的示意圖。
[0023]圖4顯示為本發(fā)明中關(guān)鍵信息圖的一實(shí)施例的示意圖。
【具體實(shí)施方式】
[0024]以下通過特定的具體實(shí)例說明本發(fā)明的實(shí)施方式,本領(lǐng)域技術(shù)人員可由本說明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點(diǎn)與功效。本發(fā)明還可以通過另外不同的【具體實(shí)施方式】加以實(shí)施或應(yīng)用,本說明書中的各項(xiàng)細(xì)節(jié)也可以基于不同觀點(diǎn)與應(yīng)用,在沒有背離本發(fā)明的精神下進(jìn)行各種修飾或改變。需說明的是,在不沖突的情況下,以下實(shí)施例及實(shí)施例中的特征可以相互組合。
[0025]需要說明的是,以下實(shí)施例中所提供的圖示僅以示意方式說明本發(fā)明的基本構(gòu)想,遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實(shí)際實(shí)施時(shí)的組件數(shù)目、形狀及尺寸繪制,其實(shí)際實(shí)施時(shí)各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也可能更為復(fù)雜。
[0026]參見圖1,圖1顯示為本發(fā)明多媒體轉(zhuǎn)寫方法一實(shí)施例的系統(tǒng)流程示意圖。本發(fā)明提供了一種多媒體轉(zhuǎn)寫方法,應(yīng)用于多媒體轉(zhuǎn)寫系統(tǒng)中,多媒體轉(zhuǎn)寫系統(tǒng)指包含演示文稿、演講人的語音數(shù)據(jù)及語音數(shù)據(jù)轉(zhuǎn)寫文本的系統(tǒng),多媒體轉(zhuǎn)寫系統(tǒng)可以將演講人的語音數(shù)據(jù)、演講人語音數(shù)據(jù)的轉(zhuǎn)寫文本及演示文稿進(jìn)行同步,方便用戶在查看轉(zhuǎn)寫文本的同時(shí),查看相應(yīng)演示文稿。演示文稿指用于各種演示的文稿,可以為紙質(zhì)文稿,也可以為電子文稿,紙質(zhì)文稿一般可以通過拍照顯示到屏幕上,如老師上課時(shí)的演示課本,電子文稿如PPT、各種演示圖片等;當(dāng)然,系統(tǒng)不僅可以用于演講結(jié)束后,用戶對(duì)演講內(nèi)容的查詢,也可以用于允許短時(shí)延時(shí)的演講直播中,用戶可以現(xiàn)場(chǎng)或遠(yuǎn)程以接近直播的形式看到演講內(nèi)容、聽到演講語音數(shù)據(jù),看到演講語音數(shù)據(jù)的轉(zhuǎn)寫結(jié)果。
[0027]本發(fā)明提供的多媒體轉(zhuǎn)寫方法包括以下步驟:
[0028]S1、接收演示文稿,并構(gòu)建演示文稿的關(guān)鍵信息樹;具體地在開始時(shí)接收演示文稿,構(gòu)建演示文稿的關(guān)鍵信息樹,關(guān)鍵信息樹包含了演示文稿的關(guān)鍵信息,關(guān)鍵信息可以是每頁演示文稿的子主題和相應(yīng)子主題的關(guān)鍵詞。在本發(fā)明的一實(shí)施例中,步驟SI包括步驟:
511、提取每一頁演示文稿中包含的關(guān)鍵信息。具體提取時(shí),可以根據(jù)演示文稿包含的文本信息進(jìn)行語義理解,提取關(guān)鍵信息,關(guān)鍵信息包含每頁演示文稿的子主題及子主題對(duì)應(yīng)的關(guān)鍵詞,每個(gè)子主題可以提取一到多個(gè)關(guān)鍵詞。例如一頁演示文稿的文本內(nèi)容包括的主題為“‘十二五’先進(jìn)制造領(lǐng)域整體布局”;子主題為“3+2個(gè)專項(xiàng)”和“5個(gè)主題”;子主題“3+2個(gè)專項(xiàng)”包括項(xiàng)目“智能制造”、“綠色制造”、“服務(wù)機(jī)器人”和“+數(shù)控一代”、“制造業(yè)信息化”;子主題“5個(gè)主題”包括項(xiàng)目“重大裝備與工藝”、“系統(tǒng)控制”、“制造服務(wù)”、“微機(jī)電系統(tǒng)”和“智能機(jī)器人”。例如對(duì)每個(gè)子主題提取的關(guān)鍵詞信息如下:子主題“3+2個(gè)專項(xiàng)”的關(guān)鍵詞:3+2,服務(wù)機(jī)器人,制造業(yè)信息化;子主題“5個(gè)主題”的關(guān)鍵詞:重大裝備與工藝,智能機(jī)器人。
512、根據(jù)關(guān)鍵信息構(gòu)建演示文稿關(guān)鍵信息樹。優(yōu)選地,步驟S12中還包括步驟:S121、獲取演示文稿的提綱信息,得到整個(gè)演示文稿之間的鏈接關(guān)系;提綱信息一般根據(jù)演示文稿的結(jié)構(gòu)得到,如演示文稿為PPT時(shí),則可以直接根據(jù)PPT的結(jié)構(gòu)得到,演示文稿為書本時(shí),可以根據(jù)目錄得到。S122、將每頁演示文稿作為關(guān)鍵信息樹的一個(gè)節(jié)點(diǎn),演示文稿之間的鏈接關(guān)系作為節(jié)點(diǎn)之間的邊,形成演示文稿的樹結(jié)構(gòu);S123、將關(guān)鍵信息分別添加到相應(yīng)的節(jié)點(diǎn)上,得到演示文稿的關(guān)鍵信息樹。例如,圖3顯示為本發(fā)明中關(guān)鍵信息樹的一實(shí)施例的示意圖。圖中顯示了主題為“機(jī)器人”的演示文稿形成的關(guān)鍵信息樹。如圖3所示,根據(jù)上例機(jī)器人演示文稿得到的關(guān)鍵信息樹,每個(gè)節(jié)點(diǎn)均設(shè)置有對(duì)應(yīng)的關(guān)鍵信息節(jié)點(diǎn)。
[0029]S2、接收語音數(shù)據(jù),并對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到語音數(shù)據(jù)的轉(zhuǎn)寫文本;在本發(fā)明的一實(shí)施例中,步驟S2還包括步驟:S21、對(duì)語音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè),得到語音數(shù)據(jù)有效語音段的起始點(diǎn)和結(jié)束點(diǎn);S22、對(duì)語音段的特征進(jìn)行提?。蝗鏜FCC(Mel FrequencyCepstrum Coefficient,MFCC)特征。S23、根據(jù)特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作;S24、根據(jù)解碼結(jié)果獲取語音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)寫文本和轉(zhuǎn)寫文本置信度。
[0030]S3、通過關(guān)鍵信息樹將語音數(shù)據(jù)和轉(zhuǎn)寫文本與演示文稿進(jìn)行同步;演講語音數(shù)據(jù)、轉(zhuǎn)寫文本與演示文稿的同步過程即將演講人演講的語音數(shù)據(jù)、轉(zhuǎn)寫文本與每頁演示文稿進(jìn)行對(duì)齊,當(dāng)演講人對(duì)演示文稿翻頁時(shí),演講語音數(shù)據(jù)和轉(zhuǎn)寫文本進(jìn)行相應(yīng)的分頁。具體同步時(shí),先采用介入式或非介入式的方法獲取演講人的翻頁時(shí)間點(diǎn)信息,根據(jù)時(shí)間點(diǎn)信息及構(gòu)建的演示文稿關(guān)鍵信息樹,對(duì)語音數(shù)據(jù)、轉(zhuǎn)寫文本及演示文稿進(jìn)行同步,同時(shí)將轉(zhuǎn)寫文本根據(jù)每頁演示文稿的子主題進(jìn)行分段。在本發(fā)明的一實(shí)施例中,步驟S3還包括步驟:
[0031]S31、獲取演示文稿的翻頁時(shí)間點(diǎn);翻頁時(shí)間點(diǎn)即當(dāng)前演示文稿講解結(jié)束后,翻到下一頁的時(shí)間點(diǎn),利用時(shí)間點(diǎn)信息對(duì)演示文稿和演講語音數(shù)據(jù)及相應(yīng)轉(zhuǎn)寫文本進(jìn)行同步后,需要根據(jù)關(guān)鍵信息樹及翻頁時(shí)間點(diǎn)對(duì)演示文稿與轉(zhuǎn)寫文本的同步結(jié)果進(jìn)行調(diào)整,利用調(diào)整后的時(shí)間點(diǎn)對(duì)演示文稿與演講語音數(shù)據(jù)進(jìn)行再次同步。翻頁時(shí)間點(diǎn)的獲取可以采用介入式或非介入式兩種方法,由于翻頁時(shí)間點(diǎn)直接影響同步的結(jié)果,所以也可以采用兩種方法的結(jié)合來獲取翻頁時(shí)間點(diǎn),具體如下:介入式獲取方法需要在演講人演講時(shí)使用的計(jì)算機(jī)上安裝系統(tǒng)事件捕捉程序,用于捕捉演示文稿的翻頁事件,每次觸發(fā)翻頁事件時(shí),保存當(dāng)前的翻頁時(shí)間點(diǎn);非介入式獲取方法指無法在演講人演講時(shí)使用的計(jì)算機(jī)上安裝系統(tǒng)事件捕捉程序時(shí)使用的方法,具體可以通過在演示文稿前面設(shè)置相應(yīng)的攝像機(jī)來捕捉翻頁事件,當(dāng)演示文稿翻頁時(shí),保存當(dāng)前的翻頁時(shí)間點(diǎn)。獲取到演示文稿的翻頁時(shí)間點(diǎn)后,將時(shí)間點(diǎn)對(duì)應(yīng)到演講語音數(shù)據(jù)上,從而得到每頁演示文稿對(duì)應(yīng)的演講語音數(shù)據(jù)及相應(yīng)語音數(shù)據(jù)的轉(zhuǎn)寫文本。
[0032]S32、將關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖;關(guān)鍵信息圖主要用于演示文稿與轉(zhuǎn)寫文本的同步調(diào)整,及每頁演示文稿對(duì)應(yīng)轉(zhuǎn)寫文本的分段顯示,關(guān)鍵信息圖包含了演示文稿的關(guān)鍵信息,即演示文稿的子主題及子主題相應(yīng)的關(guān)鍵詞;在同步時(shí),根據(jù)演示文稿的子主題分段顯示轉(zhuǎn)寫文本。如圖4所示,圖4顯示為本發(fā)明中關(guān)鍵信息圖的一實(shí)施例的示意圖。圖中顯示了主題為“機(jī)器人”的演示文稿中的關(guān)鍵信息樹轉(zhuǎn)換后形成的關(guān)鍵信息圖,其中“[翻頁]”表示翻頁出弧。具體地,步驟S32還包括步驟:S321、構(gòu)建節(jié)點(diǎn)中的父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的翻頁出弧;將關(guān)鍵信息樹中每個(gè)節(jié)點(diǎn)的關(guān)鍵信息節(jié)點(diǎn)包含的關(guān)鍵詞信息放到每個(gè)節(jié)點(diǎn)的入弧上;同時(shí),將每個(gè)父節(jié)點(diǎn)到其第一個(gè)子節(jié)點(diǎn)的邊標(biāo)識(shí)為翻頁出弧,如圖4中“機(jī)器人介紹”節(jié)點(diǎn)到其第一個(gè)子節(jié)點(diǎn)“機(jī)器人的發(fā)展史”的邊被標(biāo)識(shí)為翻頁出弧。S322、構(gòu)建相同父節(jié)點(diǎn)的所有子節(jié)點(diǎn)之間的翻頁出??;即將關(guān)鍵信息樹中相同的父節(jié)點(diǎn)的子節(jié)點(diǎn)之間增加一翻頁出弧,并將子節(jié)點(diǎn)的關(guān)鍵詞信息放到翻頁出弧上。S323、構(gòu)建相鄰父節(jié)點(diǎn)之間的翻頁出弧;在對(duì)應(yīng)同一個(gè)父節(jié)點(diǎn)的所有子節(jié)點(diǎn)中最后一個(gè)子節(jié)點(diǎn)與下一個(gè)父節(jié)點(diǎn)之間設(shè)置一個(gè)翻頁出弧,并將對(duì)應(yīng)兩個(gè)父節(jié)點(diǎn)的關(guān)鍵詞信息放在此翻頁出弧上。具體地,找到關(guān)鍵信息樹中所有的葉子節(jié)點(diǎn),在屬于同一個(gè)父節(jié)點(diǎn)的葉子節(jié)點(diǎn)中的最后一個(gè)葉子節(jié)點(diǎn)上分別增加該葉子節(jié)點(diǎn)到其父節(jié)點(diǎn)的下一個(gè)兄弟節(jié)點(diǎn)的出弧,如圖4中,增加“第三代機(jī)器人”節(jié)點(diǎn)到“現(xiàn)代機(jī)器人的發(fā)展”節(jié)點(diǎn)的出弧,并將父節(jié)點(diǎn)兄弟節(jié)點(diǎn)的關(guān)鍵詞信息放到新增加的弧上,同時(shí)標(biāo)識(shí)該弧為翻頁出弧。如果父節(jié)點(diǎn)后面沒有兄弟節(jié)點(diǎn),則不需要增加出弧,如圖4中“機(jī)器人的發(fā)展方向”節(jié)點(diǎn)后面沒有兄弟節(jié)點(diǎn)了,則該節(jié)點(diǎn)下的最后一個(gè)葉子節(jié)點(diǎn)不需要增加出弧。S324、構(gòu)建終止節(jié)點(diǎn)以及終止節(jié)點(diǎn)與開始節(jié)點(diǎn)之間的翻頁出弧。首先增加終止節(jié)點(diǎn),終止節(jié)點(diǎn)可以使用end節(jié)點(diǎn)標(biāo)示,在所有子節(jié)點(diǎn)增加一條出弧指向終止節(jié)點(diǎn),并在終止節(jié)點(diǎn)增加一條翻頁出弧指向開始節(jié)點(diǎn)。即,所有葉子節(jié)點(diǎn)增加一條出弧,指向end節(jié)點(diǎn),end節(jié)點(diǎn)增加一條弧指向start節(jié)點(diǎn),start節(jié)點(diǎn)為關(guān)鍵信息樹的根節(jié)點(diǎn),標(biāo)識(shí)end節(jié)點(diǎn)增加一條弧指向start節(jié)點(diǎn)的弧為翻頁出弧。
[0033]S33、根據(jù)翻頁時(shí)間點(diǎn)和關(guān)鍵信息圖對(duì)轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯示。為了保持每頁轉(zhuǎn)寫文本語義的完整性,需要對(duì)根據(jù)演示文稿翻頁時(shí)間點(diǎn)得到的轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整,同時(shí)為了方便用戶理解,需要對(duì)對(duì)調(diào)整后的轉(zhuǎn)寫文本進(jìn)行分段顯示。具體地,步驟S33還包括步驟:S331、將關(guān)鍵信息圖中的根節(jié)點(diǎn)激活,即將圖4中的start節(jié)點(diǎn)激活,并將激活節(jié)點(diǎn)保存為當(dāng)前活動(dòng)節(jié)點(diǎn)。S332、接收當(dāng)前頁的演示文稿的翻頁時(shí)間點(diǎn)和對(duì)應(yīng)的每個(gè)有效語音段的轉(zhuǎn)寫文本;通常以有效語音段為單位,依次接收當(dāng)前頁演示文稿對(duì)應(yīng)的每個(gè)有效語音的轉(zhuǎn)寫文本,及當(dāng)前頁演示文稿翻頁時(shí)間點(diǎn)。S333、遍歷當(dāng)前活動(dòng)節(jié)點(diǎn)對(duì)應(yīng)的出弧,并將接收的轉(zhuǎn)寫文本與出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對(duì)應(yīng)的節(jié)點(diǎn)激活并記錄為當(dāng)前活動(dòng)節(jié)點(diǎn),并進(jìn)入步驟S334;若失敗,則進(jìn)入步驟S335; S334、根據(jù)匹配結(jié)果,對(duì)轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中,并進(jìn)入步驟S335;S335、判斷當(dāng)前轉(zhuǎn)寫文本的對(duì)應(yīng)時(shí)間點(diǎn)是否到達(dá)當(dāng)前頁的演示文稿的翻頁時(shí)間點(diǎn);若是,則進(jìn)入步驟S336;若否,則返回步驟S332;S336、判斷當(dāng)前活動(dòng)節(jié)點(diǎn)是否包含翻頁出弧;若不包含,則進(jìn)入步驟S337;若包含,則進(jìn)入步驟S338; S337、判斷當(dāng)前活動(dòng)節(jié)點(diǎn)的出弧是否指向終止節(jié)點(diǎn);若是,則所有演示文稿與轉(zhuǎn)寫文本的同步完成;同時(shí),將關(guān)鍵信息圖保存的記錄清空,將所有轉(zhuǎn)寫文本分頁分段與演示文稿同步顯示出來;若否,則進(jìn)入步驟S338;S338、判斷當(dāng)前接收的轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的轉(zhuǎn)寫文本作為當(dāng)前頁最后一個(gè)有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入步驟S339;若否,則對(duì)轉(zhuǎn)寫文本的語義進(jìn)行調(diào)整,調(diào)整后即當(dāng)前頁的演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入步驟S339;S339、將下一頁演示文稿作為當(dāng)前頁,返回步驟S332,開始下一頁演示文稿的同步。判斷轉(zhuǎn)寫文本語義是否完整主要判斷當(dāng)前演示文稿翻頁時(shí)間點(diǎn)位置是否是轉(zhuǎn)寫文本整句結(jié)束位置,即當(dāng)前轉(zhuǎn)寫文本是否是在句子中間被切斷。在本發(fā)明的一優(yōu)選實(shí)施例中,具體判斷時(shí),可以根據(jù)當(dāng)前轉(zhuǎn)寫文本的置信度得分判斷,分別計(jì)算當(dāng)前轉(zhuǎn)寫文本的置信度得分,及將翻頁時(shí)間點(diǎn)后一個(gè)有效語音段的轉(zhuǎn)寫文本與當(dāng)前轉(zhuǎn)寫文本一起的置信度得分,如果后者置信度得分較低,則認(rèn)為當(dāng)前轉(zhuǎn)寫文本語義完整;如果后者得分較高,并且得分超過閾值,則認(rèn)為當(dāng)前轉(zhuǎn)寫文本語義不完整,需要調(diào)整,具體調(diào)整時(shí),可以根據(jù)翻頁時(shí)間點(diǎn)后一有效語音段轉(zhuǎn)寫文本與當(dāng)前轉(zhuǎn)寫文本的置信度,將當(dāng)前頁的翻頁時(shí)間點(diǎn)調(diào)整為當(dāng)前轉(zhuǎn)寫文本后一有效語音段的轉(zhuǎn)寫文本結(jié)束位置,同時(shí)調(diào)整轉(zhuǎn)寫文本對(duì)應(yīng)語音數(shù)據(jù)的翻頁時(shí)間點(diǎn)。當(dāng)然,也可以采用其它方法進(jìn)行判斷,如根據(jù)當(dāng)前轉(zhuǎn)寫文本對(duì)應(yīng)的語音數(shù)據(jù)上判斷,判斷語音數(shù)據(jù)翻頁時(shí)間點(diǎn)前后的聲學(xué)變化,或連續(xù)性,再結(jié)合轉(zhuǎn)寫文本的置信度來判斷語義的完整性。
[0034]S4、將同步后帶有語音數(shù)據(jù)和轉(zhuǎn)寫文本的演示文稿顯示給用戶。同步顯示后,使用戶在看演示文稿時(shí)可以同時(shí)聽到演講人的聲音,看到演講人聲音轉(zhuǎn)寫的文本,大大提高了用戶體驗(yàn);進(jìn)一步地,為了方便用戶理解轉(zhuǎn)寫文本,本發(fā)明的多媒體轉(zhuǎn)寫方法根據(jù)每頁演示文稿包含的子主題對(duì)轉(zhuǎn)寫文本分段,同一個(gè)子主題的轉(zhuǎn)寫文本作為一段,不同子主題的轉(zhuǎn)寫文本作為不同的段,進(jìn)一步提高了用戶體驗(yàn)。
[0035]如圖2所示,圖2顯示為本發(fā)明多媒體轉(zhuǎn)寫系統(tǒng)一實(shí)施例的系統(tǒng)框架示意圖。本發(fā)明還提供了一種多媒體轉(zhuǎn)寫系統(tǒng),包括:
[0036]構(gòu)建模塊,用于接收演示文稿,并構(gòu)建演示文稿的關(guān)鍵信息樹;具體地在開始時(shí)構(gòu)建模塊接收演示文稿,構(gòu)建演示文稿的關(guān)鍵信息樹,關(guān)鍵信息樹包含了演示文稿的關(guān)鍵信息,關(guān)鍵信息可以是每頁演示文稿的子主題和相應(yīng)子主題的關(guān)鍵詞。在本發(fā)明的一實(shí)施例中,構(gòu)建模塊還包括:提取單元,用于提取每一頁演示文稿中包含的關(guān)鍵信息;構(gòu)建單元,用于根據(jù)關(guān)鍵信息構(gòu)建演示文稿關(guān)鍵信息樹。具體提取時(shí),提取單元可以根據(jù)演示文稿包含的文本信息進(jìn)行語義理解,提取關(guān)鍵信息,關(guān)鍵信息包含每頁演示文稿的子主題及子主題對(duì)應(yīng)的關(guān)鍵詞,每個(gè)子主題可以提取一到多個(gè)關(guān)鍵詞。例如一頁演示文稿的文本內(nèi)容包括的主題為“‘十二五’先進(jìn)制造領(lǐng)域整體布局”;子主題為“3+2個(gè)專項(xiàng)”和“5個(gè)主題”;子主題“3+2個(gè)專項(xiàng)”包括項(xiàng)目“智能制造”、“綠色制造”、“服務(wù)機(jī)器人”和“+數(shù)控一代”、“制造業(yè)信息化”;子主題“5個(gè)主題”包括項(xiàng)目“重大裝備與工藝”、“系統(tǒng)控制”、“制造服務(wù)”、“微機(jī)電系統(tǒng)”和“智能機(jī)器人”。例如對(duì)每個(gè)子主題提取的關(guān)鍵詞信息如下:子主題“3+2個(gè)專項(xiàng)”的關(guān)鍵詞:3+2,服務(wù)機(jī)器人,制造業(yè)信息化;子主題“5個(gè)主題”的關(guān)鍵詞:重大裝備與工藝,智能機(jī)器人。優(yōu)選地,構(gòu)建單元還包括:獲取子單元,用于獲取演示文稿的提綱信息,得到整個(gè)演示文稿之間的鏈接關(guān)系;構(gòu)建子單元,用于將每頁演示文稿作為關(guān)鍵信息樹的一個(gè)節(jié)點(diǎn),演示文稿之間的鏈接關(guān)系作為節(jié)點(diǎn)之間的邊,形成演示文稿的樹結(jié)構(gòu);還用于將關(guān)鍵信息分別添加到相應(yīng)的節(jié)點(diǎn)上,得到演示文稿的關(guān)鍵信息樹。例如,圖3顯示為本發(fā)明中關(guān)鍵信息樹的一實(shí)施例的示意圖。圖中顯示了主題為“機(jī)器人”的演示文稿形成的關(guān)鍵信息樹。如圖3所示,根據(jù)上例機(jī)器人演示文稿得到的關(guān)鍵信息樹,每個(gè)節(jié)點(diǎn)均設(shè)置有對(duì)應(yīng)的關(guān)鍵信息節(jié)點(diǎn)。
[0037]轉(zhuǎn)寫模塊,用于接收語音數(shù)據(jù),并對(duì)語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到語音數(shù)據(jù)的轉(zhuǎn)寫文本;在本發(fā)明的一實(shí)施例中,轉(zhuǎn)寫模塊還包括:檢測(cè)單元,用于對(duì)語音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè),得到語音數(shù)據(jù)有效語音段的起始點(diǎn)和結(jié)束點(diǎn);特征提取單元,用于對(duì)語音段的特征進(jìn)行提取;如MFCC(Mel Frequency Cepstrum Coefficient,MFCC)特征。解碼單元,用于根據(jù)特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作;轉(zhuǎn)寫結(jié)果獲取單元,用于根據(jù)解碼結(jié)果獲取語音數(shù)據(jù)對(duì)應(yīng)的轉(zhuǎn)寫文本和轉(zhuǎn)寫文本置信度。
[0038]同步模塊,用于通過關(guān)鍵信息樹將語音數(shù)據(jù)和轉(zhuǎn)寫文本與演示文稿進(jìn)行同步;演講語音數(shù)據(jù)、轉(zhuǎn)寫文本與演示文稿的同步過程即將演講人演講的語音數(shù)據(jù)、轉(zhuǎn)寫文本與每頁演示文稿進(jìn)行對(duì)齊,當(dāng)演講人對(duì)演示文稿翻頁時(shí),演講語音數(shù)據(jù)和轉(zhuǎn)寫文本進(jìn)行相應(yīng)的分頁。具體同步時(shí),先采用介入式或非介入式的方法獲取演講人的翻頁時(shí)間點(diǎn)信息,根據(jù)時(shí)間點(diǎn)信息及構(gòu)建的演示文稿關(guān)鍵信息樹,對(duì)語音數(shù)據(jù)、轉(zhuǎn)寫文本及演示文稿進(jìn)行同步,同時(shí)將轉(zhuǎn)寫文本根據(jù)每頁演示文稿的子主題進(jìn)行分段。在本發(fā)明的一實(shí)施例中,同步模塊還包括:時(shí)間點(diǎn)獲取單元,用于獲取演示文稿的翻頁時(shí)間點(diǎn);轉(zhuǎn)換單元,用于將關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖;同步單元,用于根據(jù)翻頁時(shí)間點(diǎn)和關(guān)鍵信息圖對(duì)轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯示。翻頁時(shí)間點(diǎn)即當(dāng)前演示文稿講解結(jié)束后,翻到下一頁的時(shí)間點(diǎn),利用時(shí)間點(diǎn)信息對(duì)演示文稿和演講語音數(shù)據(jù)及相應(yīng)轉(zhuǎn)寫文本進(jìn)行同步后,需要根據(jù)關(guān)鍵信息樹及翻頁時(shí)間點(diǎn)對(duì)演示文稿與轉(zhuǎn)寫文本的同步結(jié)果進(jìn)行調(diào)整,利用調(diào)整后的時(shí)間點(diǎn)對(duì)演示文稿與演講語音數(shù)據(jù)進(jìn)行再次同步。翻頁時(shí)間點(diǎn)的獲取可以采用介入式或非介入式兩種方法,由于翻頁時(shí)間點(diǎn)直接影響同步的結(jié)果,所以也可以采用兩種方法的結(jié)合來獲取翻頁時(shí)間點(diǎn),具體如下:介入式獲取方法需要在演講人演講時(shí)使用的計(jì)算機(jī)上安裝系統(tǒng)事件捕捉程序,用于捕捉演示文稿的翻頁事件,每次觸發(fā)翻頁事件時(shí),保存當(dāng)前的翻頁時(shí)間點(diǎn);非介入式獲取方法指無法在演講人演講時(shí)使用的計(jì)算機(jī)上安裝系統(tǒng)事件捕捉程序時(shí)使用的方法,具體可以通過在演示文稿前面設(shè)置相應(yīng)的攝像機(jī)來捕捉翻頁事件,當(dāng)演示文稿翻頁時(shí),保存當(dāng)前的翻頁時(shí)間點(diǎn)。獲取到演示文稿的翻頁時(shí)間點(diǎn)后,將時(shí)間點(diǎn)對(duì)應(yīng)到演講語音數(shù)據(jù)上,從而得到每頁演示文稿對(duì)應(yīng)的演講語音數(shù)據(jù)及相應(yīng)語音數(shù)據(jù)的轉(zhuǎn)寫文本。關(guān)鍵信息圖主要用于演示文稿與轉(zhuǎn)寫文本的同步調(diào)整,及每頁演示文稿對(duì)應(yīng)轉(zhuǎn)寫文本的分段顯示,關(guān)鍵信息圖包含了演示文稿的關(guān)鍵信息,即演示文稿的子主題及子主題相應(yīng)的關(guān)鍵詞;在同步時(shí),根據(jù)演示文稿的子主題分段顯示轉(zhuǎn)寫文本。如圖4所示,圖4顯示為本發(fā)明中關(guān)鍵信息圖的一實(shí)施例的示意圖。圖中顯示了主題為“機(jī)器人”的演示文稿中的關(guān)鍵信息樹轉(zhuǎn)換后形成的關(guān)鍵信息圖,其中“[翻頁]”表示翻頁出弧。具體地,轉(zhuǎn)換單元還用于構(gòu)建節(jié)點(diǎn)中的父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的翻頁出弧,如圖4中“機(jī)器人介紹”節(jié)點(diǎn)到其第一個(gè)子節(jié)點(diǎn)“機(jī)器人的發(fā)展史”的邊被標(biāo)識(shí)為翻頁出弧。轉(zhuǎn)換單元還用于構(gòu)建相同父節(jié)點(diǎn)的所有子節(jié)點(diǎn)之間的翻頁出弧,即將關(guān)鍵信息樹中相同的父節(jié)點(diǎn)的子節(jié)點(diǎn)之間增加一翻頁出弧,并將子節(jié)點(diǎn)的關(guān)鍵詞信息放到翻頁出弧上。轉(zhuǎn)換單元還用于構(gòu)建相鄰父節(jié)點(diǎn)之間的翻頁出弧,在對(duì)應(yīng)同一個(gè)父節(jié)點(diǎn)的所有子節(jié)點(diǎn)中最后一個(gè)子節(jié)點(diǎn)與下一個(gè)父節(jié)點(diǎn)之間設(shè)置一個(gè)翻頁出弧,并將對(duì)應(yīng)兩個(gè)父節(jié)點(diǎn)的關(guān)鍵詞信息放在此翻頁出弧上。具體地,找到關(guān)鍵信息樹中所有的葉子節(jié)點(diǎn),在屬于同一個(gè)父節(jié)點(diǎn)的葉子節(jié)點(diǎn)中的最后一個(gè)葉子節(jié)點(diǎn)上分別增加該葉子節(jié)點(diǎn)到其父節(jié)點(diǎn)的下一個(gè)兄弟節(jié)點(diǎn)的出弧,如圖4中,增加“第三代機(jī)器人”節(jié)點(diǎn)到“現(xiàn)代機(jī)器人的發(fā)展”節(jié)點(diǎn)的出弧,并將父節(jié)點(diǎn)兄弟節(jié)點(diǎn)的關(guān)鍵詞信息放到新增加的弧上,同時(shí)標(biāo)識(shí)該弧為翻頁出弧。如果父節(jié)點(diǎn)后面沒有兄弟節(jié)點(diǎn),則不需要增加出弧,如圖4中“機(jī)器人的發(fā)展方向”節(jié)點(diǎn)后面沒有兄弟節(jié)點(diǎn)了,則該節(jié)點(diǎn)下的最后一個(gè)葉子節(jié)點(diǎn)不需要增加出弧。轉(zhuǎn)換單元還用于構(gòu)建終止節(jié)點(diǎn)以及終止節(jié)點(diǎn)與開始節(jié)點(diǎn)之間的翻頁出弧。首先增加終止節(jié)點(diǎn),終止節(jié)點(diǎn)可以使用end節(jié)點(diǎn)標(biāo)示,在所有子節(jié)點(diǎn)增加一條出弧指向終止節(jié)點(diǎn),并在終止節(jié)點(diǎn)增加一條翻頁出弧指向開始節(jié)點(diǎn)。即,所有葉子節(jié)點(diǎn)增加一條出弧,指向end節(jié)點(diǎn),end節(jié)點(diǎn)增加一條弧指向start節(jié)點(diǎn),start節(jié)點(diǎn)為關(guān)鍵信息樹的根節(jié)點(diǎn),標(biāo)識(shí)end節(jié)點(diǎn)增加一條弧指向start節(jié)點(diǎn)的弧為翻頁出弧。同步單元在進(jìn)行同步時(shí),為了保持每頁轉(zhuǎn)寫文本語義的完整性,需要對(duì)根據(jù)演示文稿翻頁時(shí)間點(diǎn)得到的轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整,同時(shí)為了方便用戶理解,需要對(duì)調(diào)整后的轉(zhuǎn)寫文本進(jìn)行分段顯示。具體地,同步單元包括:節(jié)點(diǎn)激活子單元,用于將關(guān)鍵信息圖中的根節(jié)點(diǎn)激活,并將激活節(jié)點(diǎn)保存為當(dāng)前活動(dòng)節(jié)點(diǎn);即將圖4中的節(jié)點(diǎn)激活,并將激活節(jié)點(diǎn)保存為當(dāng)前活動(dòng)節(jié)點(diǎn)。接收子單元,用于接收當(dāng)前頁的演示文稿的翻頁時(shí)間點(diǎn)和對(duì)應(yīng)的每個(gè)有效語音段的轉(zhuǎn)寫文本;通常以有效語音段為單位,依次接收當(dāng)前頁演示文稿對(duì)應(yīng)的每個(gè)有效語音的轉(zhuǎn)寫文本,及當(dāng)前頁演示文稿翻頁時(shí)間點(diǎn)。匹配子單元,用于遍歷當(dāng)前活動(dòng)節(jié)點(diǎn)對(duì)應(yīng)的出弧,并將接收的轉(zhuǎn)寫文本與出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對(duì)應(yīng)的節(jié)點(diǎn)激活并記錄為當(dāng)前活動(dòng)節(jié)點(diǎn);分段顯示子單元,用于根據(jù)匹配結(jié)果,對(duì)轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中;時(shí)間點(diǎn)判斷子單元,用于判斷當(dāng)前轉(zhuǎn)寫文本的對(duì)應(yīng)時(shí)間點(diǎn)是否到達(dá)當(dāng)前頁的演示文稿的翻頁時(shí)間點(diǎn);翻頁出弧判斷子單元,用于判斷當(dāng)前活動(dòng)節(jié)點(diǎn)是否包含翻頁出弧;終止節(jié)點(diǎn)判斷子單元,用于判斷當(dāng)前活動(dòng)節(jié)點(diǎn)的出弧是否指向終止節(jié)點(diǎn);若是,則所有演示文稿與轉(zhuǎn)寫文本的同步完成;同時(shí),將關(guān)鍵信息圖保存的記錄清空,將所有轉(zhuǎn)寫文本分頁分段與演示文稿同步顯示出來。語義判斷子單元,用于判斷當(dāng)前接收的所述轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的所述轉(zhuǎn)寫文本作為當(dāng)前頁最后一個(gè)所述有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成;若否,則對(duì)所述轉(zhuǎn)寫文本的語義進(jìn)行調(diào)整,調(diào)整后當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成;同步子單元,用于將下一頁演示文稿作為當(dāng)前頁,并開始下一頁演示文稿的同步。判斷轉(zhuǎn)寫文本語義是否完整主要判斷當(dāng)前演示文稿翻頁時(shí)間點(diǎn)位置是否是轉(zhuǎn)寫文本整句結(jié)束位置,即當(dāng)前轉(zhuǎn)寫文本是否是在句子中間被切斷。在本發(fā)明的一優(yōu)選實(shí)施例中,具體判斷時(shí),可以根據(jù)當(dāng)前轉(zhuǎn)寫文本的置信度得分判斷,分別計(jì)算當(dāng)前轉(zhuǎn)寫文本的置信度得分,及將翻頁時(shí)間點(diǎn)后一個(gè)有效語音段的轉(zhuǎn)寫文本與當(dāng)前轉(zhuǎn)寫文本一起的置信度得分,如果后者置信度得分較低,則認(rèn)為當(dāng)前轉(zhuǎn)寫文本語義完整;如果后者得分較高,并且得分超過閾值,則認(rèn)為當(dāng)前轉(zhuǎn)寫文本語義不完整,需要調(diào)整,具體調(diào)整時(shí),可以根據(jù)翻頁時(shí)間點(diǎn)后一有效語音段轉(zhuǎn)寫文本與當(dāng)前轉(zhuǎn)寫文本的置信度,將當(dāng)前頁的翻頁時(shí)間點(diǎn)調(diào)整為當(dāng)前轉(zhuǎn)寫文本后一有效語音段的轉(zhuǎn)寫文本結(jié)束位置,同時(shí)調(diào)整轉(zhuǎn)寫文本對(duì)應(yīng)語音數(shù)據(jù)的翻頁時(shí)間點(diǎn)。當(dāng)然,也可以采用其它方法進(jìn)行判斷,如根據(jù)當(dāng)前轉(zhuǎn)寫文本對(duì)應(yīng)的語音數(shù)據(jù)上判斷,判斷語音數(shù)據(jù)翻頁時(shí)間點(diǎn)前后的聲學(xué)變化,或連續(xù)性,再結(jié)合轉(zhuǎn)寫文本的置信度來判斷語義的完整性。
[0039]顯示模塊,用于將同步模塊同步后帶有語音數(shù)據(jù)和轉(zhuǎn)寫文本的演示文稿顯示給用戶。同步顯示后,使用戶在看演示文稿時(shí)可以同時(shí)聽到演講人的聲音,看到演講人聲音轉(zhuǎn)寫的文本,大大提高了用戶體驗(yàn);進(jìn)一步地,為了方便用戶理解轉(zhuǎn)寫文本,本發(fā)明的多媒體轉(zhuǎn)寫方法根據(jù)每頁演示文稿包含的子主題對(duì)轉(zhuǎn)寫文本分段,同一個(gè)子主題的轉(zhuǎn)寫文本作為一段,不同子主題的轉(zhuǎn)寫文本作為不同的段,進(jìn)一步提高了用戶體驗(yàn)。
[0040]綜上所述,本發(fā)明的一種多媒體轉(zhuǎn)寫方法和系統(tǒng),使用戶在看演示文稿時(shí)可以同時(shí)聽到演講人的聲音,看到演講人聲音轉(zhuǎn)寫的文本,大大提高了用戶體驗(yàn);進(jìn)一步地,為了方便用戶理解轉(zhuǎn)寫文本,本發(fā)明的多媒體轉(zhuǎn)寫方法根據(jù)每頁演示文稿包含的子主題對(duì)轉(zhuǎn)寫文本分段,同一個(gè)子主題的轉(zhuǎn)寫文本作為一段,不同子主題的轉(zhuǎn)寫文本作為不同的段,進(jìn)一步提高了用戶體驗(yàn)。所以,本發(fā)明有效克服了現(xiàn)有技術(shù)中的種種缺點(diǎn)而具高度產(chǎn)業(yè)利用價(jià)值。
[0041]上述實(shí)施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對(duì)上述實(shí)施例進(jìn)行修飾或改變。因此,舉凡所屬技術(shù)領(lǐng)域中具有通常知識(shí)者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完成的一切等效修飾或改變,仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。
【主權(quán)項(xiàng)】
1.一種多媒體轉(zhuǎn)寫方法,應(yīng)用于多媒體轉(zhuǎn)寫系統(tǒng)中,其特征在于,包括以下步驟: 51、接收演示文稿,并構(gòu)建所述演示文稿的關(guān)鍵信息樹; 52、接收語音數(shù)據(jù),并對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到所述語音數(shù)據(jù)的轉(zhuǎn)寫文本; 53、通過所述關(guān)鍵信息樹將所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本與所述演示文稿進(jìn)行同步; 54、將同步后帶有所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本的演示文稿顯示給用戶。2.根據(jù)權(quán)利要求1所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟S2還包括步驟: 521、對(duì)所述語音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè),得到所述語音數(shù)據(jù)有效語音段的起始點(diǎn)和結(jié)束占.V , 522、對(duì)所述語音段的特征進(jìn)行提??; 523、根據(jù)所述特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作; 524、根據(jù)解碼結(jié)果獲取所述語音數(shù)據(jù)對(duì)應(yīng)的所述轉(zhuǎn)寫文本和所述轉(zhuǎn)寫文本置信度。3.根據(jù)權(quán)利要求2所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟SI包括步驟: 511、提取每一頁所述演示文稿中包含的關(guān)鍵信息; 512、根據(jù)所述關(guān)鍵信息構(gòu)建所述演示文稿關(guān)鍵信息樹。4.根據(jù)權(quán)利要求3所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟S12中還包括步驟: 5121、獲取所述演示文稿的提綱信息,得到整個(gè)所述演示文稿之間的鏈接關(guān)系; 5122、將每頁所述演示文稿作為所述關(guān)鍵信息樹的一個(gè)節(jié)點(diǎn),所述演示文稿之間的鏈接關(guān)系作為所述節(jié)點(diǎn)之間的邊,形成所述演示文稿的樹結(jié)構(gòu); 5123、將所述關(guān)鍵信息分別添加到相應(yīng)的所述節(jié)點(diǎn)上,得到所述演示文稿的關(guān)鍵信息樹。5.根據(jù)權(quán)利要求4所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟S3還包括步驟: 531、獲取所述演示文稿的翻頁時(shí)間點(diǎn); 532、將所述關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖; 533、根據(jù)所述翻頁時(shí)間點(diǎn)和所述關(guān)鍵信息圖對(duì)所述轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯不O6.根據(jù)權(quán)利要求5所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟S32還包括步驟: 5321、構(gòu)建所述節(jié)點(diǎn)中的父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的翻頁出?。? 5322、構(gòu)建相同所述父節(jié)點(diǎn)的所有所述子節(jié)點(diǎn)之間的翻頁出弧; 5323、構(gòu)建相鄰所述父節(jié)點(diǎn)之間的翻頁出?。? 5324、構(gòu)建終止節(jié)點(diǎn)以及所述終止節(jié)點(diǎn)與開始節(jié)點(diǎn)之間的翻頁出弧。7.根據(jù)權(quán)利要求6所述的多媒體轉(zhuǎn)寫方法,其特征在于,所述步驟S33還包括步驟: 5331、將所述關(guān)鍵信息圖中的根節(jié)點(diǎn)激活,并將所述激活節(jié)點(diǎn)保存為當(dāng)前活動(dòng)節(jié)點(diǎn); 5332、接收當(dāng)前頁的所述演示文稿的翻頁時(shí)間點(diǎn)和對(duì)應(yīng)的每個(gè)所述有效語音段的所述轉(zhuǎn)寫文本; 5333、遍歷當(dāng)前活動(dòng)節(jié)點(diǎn)對(duì)應(yīng)的出弧,并將接收的所述轉(zhuǎn)寫文本與所述出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對(duì)應(yīng)的節(jié)點(diǎn)激活并記錄為當(dāng)前活動(dòng)節(jié)點(diǎn),并進(jìn)入步驟S334 ;若失敗,則進(jìn)入步驟S335 ; 5334、根據(jù)匹配結(jié)果,對(duì)所述轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中,并進(jìn)入步驟S335; 5335、判斷當(dāng)前所述轉(zhuǎn)寫文本的對(duì)應(yīng)時(shí)間點(diǎn)是否到達(dá)當(dāng)前頁的所述演示文稿的翻頁時(shí)間點(diǎn);若是,則進(jìn)入步驟S336 ;若否,則返回步驟S332 ; 5336、判斷當(dāng)前活動(dòng)節(jié)點(diǎn)是否包含翻頁出弧;若不包含,則進(jìn)入步驟S337;若包含,則進(jìn)入步驟S338; 5337、判斷當(dāng)前活動(dòng)節(jié)點(diǎn)的出弧是否指向終止節(jié)點(diǎn);若是,則所有所述演示文稿與所述轉(zhuǎn)寫文本的同步完成;若否,則進(jìn)入步驟S338; 5338、判斷當(dāng)前接收的所述轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的所述轉(zhuǎn)寫文本作為當(dāng)前頁最后一個(gè)所述有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入S339;若否,則對(duì)所述轉(zhuǎn)寫文本進(jìn)行調(diào)整,調(diào)整后當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成,進(jìn)入S339; 5339、將下一頁演示文稿作為當(dāng)前頁,返回步驟S332。8.一種多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,包括: 構(gòu)建模塊,用于接收演示文稿,并構(gòu)建所述演示文稿的關(guān)鍵信息樹; 轉(zhuǎn)寫模塊,用于接收語音數(shù)據(jù),并對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別,得到所述語音數(shù)據(jù)的轉(zhuǎn)寫文本; 同步模塊,用于通過所述關(guān)鍵信息樹將所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本與所述演示文稿進(jìn)行同步; 顯示模塊,用于將所述同步模塊同步后帶有所述語音數(shù)據(jù)和所述轉(zhuǎn)寫文本的演示文稿顯示給用戶。9.根據(jù)權(quán)利要求8所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述轉(zhuǎn)寫模塊還包括: 檢測(cè)單元,用于對(duì)所述語音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè),得到所述語音數(shù)據(jù)有效語音段的起始點(diǎn)和結(jié)束點(diǎn); 特征提取單元,用于對(duì)所述語音段的特征進(jìn)行提??; 解碼單元,用于根據(jù)所述特征和預(yù)先訓(xùn)練的聲學(xué)模型及語言模型進(jìn)行解碼操作; 轉(zhuǎn)寫結(jié)果獲取單元,用于根據(jù)解碼結(jié)果獲取所述語音數(shù)據(jù)對(duì)應(yīng)的所述轉(zhuǎn)寫文本和所述轉(zhuǎn)寫文本置信度。10.根據(jù)權(quán)利要求9所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述構(gòu)建模塊還包括: 提取單元,用于提取每一頁所述演示文稿中包含的關(guān)鍵信息; 構(gòu)建單元,用于根據(jù)所述關(guān)鍵信息構(gòu)建所述演示文稿關(guān)鍵信息樹。11.根據(jù)權(quán)利要求10所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述構(gòu)建單元還包括: 獲取子單元,用于獲取所述演示文稿的提綱信息,得到整個(gè)所述演示文稿之間的鏈接關(guān)系; 構(gòu)建子單元,用于將每頁所述演示文稿作為所述關(guān)鍵信息樹的一個(gè)節(jié)點(diǎn),所述演示文稿之間的鏈接關(guān)系作為所述節(jié)點(diǎn)之間的邊,形成所述演示文稿的樹結(jié)構(gòu);還用于將所述關(guān)鍵信息分別添加到相應(yīng)的所述節(jié)點(diǎn)上,得到所述演示文稿的關(guān)鍵信息樹。12.根據(jù)權(quán)利要求11所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述同步模塊還包括: 時(shí)間點(diǎn)獲取單元,用于獲取所述演示文稿的翻頁時(shí)間點(diǎn); 轉(zhuǎn)換單元,用于將所述關(guān)鍵信息樹轉(zhuǎn)換成關(guān)鍵信息圖; 同步單元,用于根據(jù)所述翻頁時(shí)間點(diǎn)和所述關(guān)鍵信息圖對(duì)所述轉(zhuǎn)寫文本進(jìn)行分頁調(diào)整和分段顯示。13.根據(jù)權(quán)利要求12所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述轉(zhuǎn)換單元還用于構(gòu)建所述節(jié)點(diǎn)中的父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的翻頁出弧、相同所述父節(jié)點(diǎn)的所有所述子節(jié)點(diǎn)之間的翻頁出弧、相鄰所述父節(jié)點(diǎn)之間的翻頁出弧,還用于構(gòu)建終止節(jié)點(diǎn)以及所述終止節(jié)點(diǎn)與開始節(jié)點(diǎn)之間的翻頁出弧。14.根據(jù)權(quán)利要求13所述的多媒體轉(zhuǎn)寫系統(tǒng),其特征在于,所述同步單元包括: 節(jié)點(diǎn)激活子單元,用于將所述關(guān)鍵信息圖中的根節(jié)點(diǎn)激活,并將所述激活節(jié)點(diǎn)保存為當(dāng)前活動(dòng)節(jié)點(diǎn); 接收子單元,用于接收當(dāng)前頁的所述演示文稿的翻頁時(shí)間點(diǎn)和對(duì)應(yīng)的每個(gè)所述有效語音段的所述轉(zhuǎn)寫文本; 匹配子單元,用于遍歷當(dāng)前活動(dòng)節(jié)點(diǎn)對(duì)應(yīng)的出弧,并將接收的所述轉(zhuǎn)寫文本與所述出弧上的關(guān)鍵信息進(jìn)行匹配,并判斷匹配是否成功;若成功,則將對(duì)應(yīng)的節(jié)點(diǎn)激活并記錄為當(dāng)前活動(dòng)節(jié)點(diǎn); 分段顯示子單元,用于根據(jù)匹配結(jié)果,對(duì)所述轉(zhuǎn)寫文本進(jìn)行分段顯示,與同一關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入同一段中,與不同關(guān)鍵信息相匹配的轉(zhuǎn)寫文本放入不同段中; 時(shí)間點(diǎn)判斷子單元,用于判斷當(dāng)前所述轉(zhuǎn)寫文本的對(duì)應(yīng)時(shí)間點(diǎn)是否到達(dá)當(dāng)前頁的所述演示文稿的翻頁時(shí)間點(diǎn); 翻頁出弧判斷子單元,用于判斷當(dāng)前活動(dòng)節(jié)點(diǎn)是否包含翻頁出弧; 終止節(jié)點(diǎn)判斷子單元,用于判斷當(dāng)前活動(dòng)節(jié)點(diǎn)的出弧是否指向終止節(jié)點(diǎn);若是,則所有所述演示文稿與所述轉(zhuǎn)寫文本的同步完成; 語義判斷子單元,用于判斷當(dāng)前接收的所述轉(zhuǎn)寫文本的語義是否完整;若是,則將當(dāng)前的所述轉(zhuǎn)寫文本作為當(dāng)前頁最后一個(gè)所述有效語音段的轉(zhuǎn)寫文本,當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成;若否,則對(duì)所述轉(zhuǎn)寫文本的語義進(jìn)行調(diào)整,調(diào)整后當(dāng)前頁演示文稿與轉(zhuǎn)寫文本的同步完成; 同步子單元,用于將下一頁演示文稿作為當(dāng)前頁,并開始下一頁演示文稿的同步。
【文檔編號(hào)】G10L15/26GK105895085SQ201610200600
【公開日】2016年8月24日
【申請(qǐng)日】2016年3月30日
【發(fā)明人】王金钖, 胡尹, 潘青華, 胡國(guó)平, 胡郁, 劉慶峰
【申請(qǐng)人】科大訊飛股份有限公司