專利名稱:一種可視電話及其通訊方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通訊領(lǐng)域,尤其涉及一種可視電話及其通訊方法。
背景技術(shù):
隨著通訊技術(shù)的迅速發(fā)展,人們對(duì)通訊方式提出了越來(lái)越高的要求,除了使用傳 統(tǒng)的語(yǔ)音和文字進(jìn)行通訊以外,近年來(lái),基于新的無(wú)線通訊標(biāo)準(zhǔn),可視電話實(shí)現(xiàn)了視頻通訊 的方式。可視電話通常包括多種終端,例如手機(jī)、固定電話、計(jì)算機(jī)、掌上電腦等??梢曤娫?實(shí)現(xiàn)視頻通訊的具體過(guò)程為安裝在可視電話本端的攝像頭采集用戶所需的視頻圖像,并 根據(jù)通訊協(xié)議規(guī)定的視頻壓縮標(biāo)準(zhǔn)進(jìn)行編碼,接著通過(guò)無(wú)線傳輸協(xié)議將編碼后的視頻碼流 與音頻碼流一起發(fā)送至對(duì)方用戶,對(duì)方用戶對(duì)視頻碼流進(jìn)行解碼,最后將其顯示在屏幕上 進(jìn)行觀看。這樣,通訊系統(tǒng)中兩端的用戶既可以聽(tīng)到對(duì)方的聲音,又可以觀看對(duì)方的視頻圖 像,不僅為溝通帶來(lái)了便利,而且提高了用戶的體驗(yàn)度。然而,目前的可視電話在功能上仍然存在一定的局限性。由于只支持語(yǔ)音和視頻 的通訊方式,在某些場(chǎng)合中不能保證用戶順利地進(jìn)行溝通,例如噪雜的環(huán)境中,由于受到噪 音的干擾難以聽(tīng)清對(duì)方的語(yǔ)音;或者在會(huì)議過(guò)程中,不方便放大可視電話的音量接聽(tīng)對(duì)方 的語(yǔ)音。另外,對(duì)于一些存在聽(tīng)力障礙的用戶,可視電話雖然能夠看到對(duì)方的視頻,但是無(wú) 法聽(tīng)到對(duì)方的聲音,因此還是難以進(jìn)行正常的溝通。因此,現(xiàn)有技術(shù)的可視電話不能適用于 各種場(chǎng)合和多種用戶,為用戶的通訊帶來(lái)一定的不便。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是,克服現(xiàn)有技術(shù)的不足,提供一種適用于多種場(chǎng)合、 多種用戶,且靈活便利的可視電話及其通訊方法。本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是一種可視電話通訊方法,包括以下步驟步驟A 可視電話對(duì)語(yǔ)音進(jìn)行識(shí)別,得到 對(duì)應(yīng)的文字信息;步驟B 將所述文字信息轉(zhuǎn)換成字幕;步驟C 顯示或發(fā)送所述字幕。步驟A中可視電話對(duì)本端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息,步驟B將所述文字 信息轉(zhuǎn)換成本端字幕,步驟C中對(duì)所述本端字幕進(jìn)行編碼得到碼流,并發(fā)送所述碼流。步驟A中可視電話對(duì)對(duì)端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息,步驟B將所述文字 信息轉(zhuǎn)換成對(duì)端字幕,步驟C在可視電話上顯示所述對(duì)端字幕。步驟C之前還包括以下步驟將所述本端字幕與可視電話采集的本端視頻信息相 疊加;步驟C中對(duì)所述疊加后的本端字幕和本端視頻信息一并進(jìn)行編碼得到碼流,并發(fā)送 所述碼流。步驟C之前還包括以下步驟將所述對(duì)端字幕與可視電話接收的對(duì)端視頻信息相 疊加;步驟C在可視電話上一并顯示所述疊加后的對(duì)端字幕和對(duì)端視頻信息。一種可視電話,包括語(yǔ)音識(shí)別模塊、字幕轉(zhuǎn)換模塊和字幕處理模塊;語(yǔ)音識(shí)別模 塊用于對(duì)語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息;字幕轉(zhuǎn)換模塊用于將所述語(yǔ)音識(shí)別模塊得到的文字信息轉(zhuǎn)換成字幕;字幕處理模塊用于顯示或發(fā)送所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的字
眷ο還包括視頻疊加模塊,所述視頻疊加模塊用于將所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的字幕 與視頻信息相疊加;所述字幕處理模塊還用于一并顯示或發(fā)送所述疊加后的字幕和視頻信 肩、ο還包括疊加控制模塊,所述疊加控制模塊用于選擇需疊加的視頻信息或控制疊加 方式。所述疊加方式包括按照一定的透明度疊加,或?qū)⑺鲎帜慌c視頻信息分別縮放 后按照一定的比例布局。所述字幕處理模塊包括編碼模塊和發(fā)送模塊;所述語(yǔ)音為本端語(yǔ)音時(shí),所述語(yǔ)音 識(shí)別模塊用于對(duì)所述本端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息,所述字幕轉(zhuǎn)換模塊用于將 所述語(yǔ)音識(shí)別模塊得到的文字信息轉(zhuǎn)換成本端字幕,所述編碼模塊用于對(duì)所述字幕轉(zhuǎn)換模 塊轉(zhuǎn)換后的本端字幕進(jìn)行編碼得到碼流,所述發(fā)送模塊用于發(fā)送所述編碼模塊編碼后的碼 流。所述字幕處理模塊包括顯示模塊;所述語(yǔ)音為對(duì)端語(yǔ)音時(shí),所述語(yǔ)音識(shí)別模塊用 于對(duì)所述對(duì)端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息,所述字幕轉(zhuǎn)換模塊用于將所述語(yǔ)音識(shí) 別模塊得到的文字信息轉(zhuǎn)換成對(duì)端字幕,所述顯示模塊用于顯示所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后 的對(duì)端字幕。所述語(yǔ)音識(shí)別模塊包括第一語(yǔ)音識(shí)別模塊和第二語(yǔ)音識(shí)別模塊,所述語(yǔ)音為本端 語(yǔ)音時(shí),所述第一語(yǔ)音識(shí)別模塊用于對(duì)所述本端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息,所述 語(yǔ)音為對(duì)端語(yǔ)音時(shí),所述第二語(yǔ)音識(shí)別模塊用于對(duì)所述對(duì)端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文 字信息;所述字幕轉(zhuǎn)換模塊包括第一字幕轉(zhuǎn)換模塊和第二字幕轉(zhuǎn)換模塊,所述第一字幕轉(zhuǎn) 換模塊用于將所述第一語(yǔ)音識(shí)別模塊得到的文字信息轉(zhuǎn)換成本端字幕,所述第二字幕轉(zhuǎn)換 模塊用于將所述第二語(yǔ)音識(shí)別模塊得到的文字信息轉(zhuǎn)換成對(duì)端字幕;字幕處理模塊包括編 碼模塊、發(fā)送模塊和顯示模塊,所述編碼模塊用于對(duì)所述第一字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的本端 字幕進(jìn)行編碼得到碼流,發(fā)送模塊用于發(fā)送所述編碼模塊編碼后的碼流,所述顯示模塊用 于顯示第二字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的對(duì)端字幕。還包括字幕功能選擇模塊,所述字幕功能選擇模塊用于選擇所述語(yǔ)音識(shí)別模塊所 需識(shí)別的語(yǔ)音。本發(fā)明的有益效果是,本發(fā)明的可視電話通訊方法對(duì)語(yǔ)音進(jìn)行識(shí)別得到文字信 息,并將所述文字信息轉(zhuǎn)換成相應(yīng)的字幕,最后按照具體需要顯示或發(fā)送得到的字幕。本發(fā) 明使可視電話具有字幕功能,例如可發(fā)送本端字幕或顯示對(duì)端字幕功能等,因此適用于多 種場(chǎng)合和多種用戶。例如可在噪雜的環(huán)境中無(wú)法聽(tīng)清聲音時(shí)只需讀取字幕便可與對(duì)方進(jìn)行 交流,在會(huì)議場(chǎng)合不便放大音量時(shí)可通過(guò)字幕獲得對(duì)方的語(yǔ)音信息,對(duì)于聽(tīng)力障礙的用戶 只需讀取字幕即可與對(duì)方進(jìn)行溝通,因此本發(fā)明靈活便利,提高了通訊效率,同時(shí)提高了用 戶的體驗(yàn)度。本發(fā)明還能夠?qū)崿F(xiàn)字幕與視頻信息相疊加的功能,使字幕與視頻信息同步顯示, 進(jìn)一步方便用戶之間的溝通。本發(fā)明還保護(hù)了一種可視電話,該可視電話能夠?qū)⒄Z(yǔ)音轉(zhuǎn)化成相應(yīng)的字幕,并按
5照具體需要對(duì)字幕進(jìn)行處理。本發(fā)明不僅支持視頻通訊,而且具有字幕功能,例如發(fā)送本端 字幕或顯示對(duì)端字幕等,這兩種功能還可在可視電話中任意選擇、切換或者同時(shí)使用。因 此,本發(fā)明的可視電話不僅適用于多種場(chǎng)合、多種用戶,而且靈活便利,滿足了用戶的個(gè)性 化需求。
圖1為本發(fā)明的可視電話通訊方法的流程圖;圖2為本發(fā)明的可視電話通訊方法中發(fā)送本端字幕的實(shí)施方式;圖3為本發(fā)明的可視電話通訊方法中顯示對(duì)端字幕的實(shí)施方式;圖4為本發(fā)明的可視電話通訊方法中選擇發(fā)送本端字幕或顯示對(duì)端字幕的實(shí)施 方式;圖5為本發(fā)明的可視電話第一種具體實(shí)施方式
結(jié)構(gòu)框圖;圖6為本發(fā)明的可視電話第二種具體實(shí)施方式
結(jié)構(gòu)框圖;圖7為本發(fā)明的可視電話第三種具體實(shí)施方式
結(jié)構(gòu)框圖;圖8為本發(fā)明的可視電話第四種具體實(shí)施方式
結(jié)構(gòu)框圖。
具體實(shí)施例方式本發(fā)明提供了一種可視電話及其通訊方法,不僅能夠?qū)崿F(xiàn)可視電話的視頻通訊, 還具有字幕功能,例如可向?qū)Χ擞脩舭l(fā)送字幕,或者在可視電話中直接顯示對(duì)端用戶的語(yǔ) 音產(chǎn)生的字幕。本發(fā)明包括多種實(shí)施方式,以下將對(duì)各種實(shí)施方式分別進(jìn)行說(shuō)明,但并不局 限于以下實(shí)施方式圖1為本發(fā)明的可視電話通訊方法的流程圖,包括以下步驟步驟SlOO 可視電話對(duì)語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息。本發(fā)明中的語(yǔ)音指 可視電話本端用戶提供的語(yǔ)音(簡(jiǎn)稱本端語(yǔ)音)、可視電話通過(guò)通訊網(wǎng)絡(luò)接收到的對(duì)端用 戶提供的語(yǔ)音(簡(jiǎn)稱對(duì)端語(yǔ)音),或可視電話本身存儲(chǔ)或產(chǎn)生的語(yǔ)音等。文字信息可為中 文、英文或者其他語(yǔ)種等,語(yǔ)種可根據(jù)具體需要進(jìn)行設(shè)置或由可視電話自動(dòng)識(shí)別,還可根據(jù) 需要增設(shè)翻譯功能,得到的文字信息為翻譯后的語(yǔ)種。步驟SlOl 將步驟SlOO得到的文字信息轉(zhuǎn)換成字幕,這些字幕通過(guò)一定的圖像 信息反映文字信息,還可根據(jù)需要設(shè)置字幕的大小、字體、色彩、透明度等,設(shè)置方式包括多 種,例如可視電話固定預(yù)設(shè)、隨機(jī)設(shè)置以及用戶自行設(shè)置等。字幕轉(zhuǎn)換過(guò)程中,考慮到通話 速度、停頓時(shí)長(zhǎng)和通話時(shí)長(zhǎng)等因素對(duì)字幕顯示時(shí)間的影響,還可根據(jù)需要靈活設(shè)置字幕顯 示時(shí)間的長(zhǎng)短,例如對(duì)于通話速度較快的語(yǔ)音,可以對(duì)字幕進(jìn)行動(dòng)態(tài)更新;對(duì)于當(dāng)前時(shí)刻之 間的語(yǔ)音,可適當(dāng)保持相對(duì)較長(zhǎng)的顯示時(shí)間。步驟S102 根據(jù)字幕的種類或用戶的個(gè)性化需求顯示或發(fā)送字幕,例如對(duì)于本端 語(yǔ)音,用戶希望將對(duì)應(yīng)的本端字幕發(fā)送至對(duì)端用戶或其他對(duì)象;對(duì)于對(duì)端語(yǔ)音,用戶希望將 對(duì)應(yīng)的對(duì)端字幕直接顯示在可視電話上進(jìn)行觀看;對(duì)于可視電話本身提供的語(yǔ)音,用戶可 根據(jù)喜好將字幕發(fā)送至對(duì)端用戶或直接顯示在可視電話上自行觀看。如果用戶希望將字幕 與視頻信息一同顯示,則可在本步驟之前將字幕與視頻信息相疊加,接著可對(duì)疊加后的字 幕與視頻信息一并進(jìn)行顯示或發(fā)送,這些視頻信息為可視電話采集到或接收到的實(shí)時(shí)視頻信息,或可視電話中本身保存的視頻信息等。本發(fā)明的可視電話通訊方法對(duì)語(yǔ)音進(jìn)行識(shí)別得到文字信息,并將所述文字信息轉(zhuǎn) 換成相應(yīng)的字幕,最后按照具體需要對(duì)字幕進(jìn)行顯示或發(fā)送,本發(fā)明使可視電話具有字幕 顯示或字幕發(fā)送等功能,因此適用于多種場(chǎng)合和多種用戶。例如可在噪雜的環(huán)境中無(wú)法聽(tīng) 清聲音時(shí),只需讀取字幕便可與對(duì)方進(jìn)行交流,在會(huì)議場(chǎng)合不便放大音量時(shí)可通過(guò)字幕獲 得對(duì)方的語(yǔ)音信息,對(duì)于聽(tīng)力障礙的用戶只需讀取字幕即可與對(duì)方進(jìn)行溝通,因此本發(fā)明 靈活便利,提高了通訊效率,同時(shí)提高了用戶的體驗(yàn)度。圖2為本發(fā)明的可視電話通訊方法中發(fā)送本端字幕的實(shí)施方式,包括以下步驟步驟S200 開(kāi)啟可視電話的發(fā)送本端字幕功能,該過(guò)程可設(shè)置在通話開(kāi)始之前或 通話進(jìn)行過(guò)程中,還可由用戶自行設(shè)定或固定設(shè)置在可視電話中默認(rèn)開(kāi)啟該功能。步驟S201 對(duì)本端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息,為了保持本端語(yǔ)音和字 幕的一致性,通常需要實(shí)時(shí)識(shí)別本端語(yǔ)音,得到與本端語(yǔ)音實(shí)時(shí)對(duì)應(yīng)的文字信息。步驟S202 將文字信息轉(zhuǎn)化成本端字幕。步驟S203 判斷是否需要與本端視頻信息相疊加,如果是則進(jìn)入步驟S204,否則 進(jìn)入步驟S207,該過(guò)程可由用戶自行選擇,也可在可視電話中直接默認(rèn)一種方式。步驟S204 需要與本端視頻信息相疊加,則將本端字幕與可視電話采集的本端視 頻信息相疊加,保持本端字幕與本端視頻信息在時(shí)間上的同步性。步驟S205 對(duì)疊加后的本端字幕和本端視頻信息一并進(jìn)行編碼。步驟S206 發(fā)送碼流至與可視電話進(jìn)行通訊的對(duì)端用戶,通常按照一定的無(wú)線通 訊協(xié)議(例如H. 324. M)進(jìn)行發(fā)送。對(duì)方通過(guò)解碼和播放即可觀看本端字幕的單獨(dú)顯示效 果,或者本端字幕疊加在本端視頻信息中進(jìn)行顯示的效果。步驟S207 不需要與本端視頻信息相疊加,則對(duì)本端字幕進(jìn)行編碼得到碼流,接 著進(jìn)入步驟S206發(fā)送碼流。圖3為本發(fā)明的可視電話通訊方法中顯示對(duì)端字幕的實(shí)施方式,包括以下步驟步驟S300 開(kāi)啟顯示對(duì)端字幕功能,該過(guò)程可設(shè)置在通過(guò)開(kāi)始之前或通話進(jìn)行 中,還可由用戶自行設(shè)定或固定設(shè)置在可視電話中默認(rèn)開(kāi)啟該功能。步驟S301 對(duì)可視電話接收到的對(duì)端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息,為了 保持對(duì)端語(yǔ)音和字幕的一致性,通常需要實(shí)時(shí)識(shí)別對(duì)端語(yǔ)音,得到與對(duì)端語(yǔ)音實(shí)時(shí)對(duì)應(yīng)的
又子{曰息。步驟S302 將文字信息轉(zhuǎn)換成對(duì)端字幕。步驟S303 判斷是否需要與對(duì)端視頻信息相疊加,如果是則進(jìn)入步驟S304,否則 進(jìn)入步驟S306。步驟S304 將對(duì)端字幕和可視電話接收的對(duì)端視頻信息相疊加,保持對(duì)端字幕與 對(duì)端視頻信息在時(shí)間上的同步性。步驟S305 在可視電話上一并顯示疊加后的對(duì)端字幕和對(duì)端視頻信息。步驟S306 如果不需要與對(duì)端視頻信息相疊加,則在可視電話上直接顯示對(duì)端字 幕,這種情況下,可視電話用戶只看到對(duì)端字幕,這些字幕并未與對(duì)端視頻信息一同顯示。圖4為本發(fā)明的可視電話通訊方法中選擇發(fā)送本端字幕或顯示對(duì)端字幕的實(shí)施 方式,包括以下步驟
7
步驟S400 開(kāi)啟字幕功能。步驟S401 判斷是否選擇了發(fā)送本端字幕的功能?是則進(jìn)入步驟S402,否則進(jìn)入 步驟S409。本實(shí)施方式中只設(shè)定可選擇發(fā)送本端字幕或顯示對(duì)端字幕兩種功能,實(shí)際上還 可根據(jù)需要選擇其他功能,例如將可視電話中存儲(chǔ)的語(yǔ)音轉(zhuǎn)化成字幕、或?qū)⒈径苏Z(yǔ)音轉(zhuǎn)化 成字幕,并與可視電話中存儲(chǔ)的視頻信息相疊加后進(jìn)行發(fā)送或顯示的功能等。步驟S402 對(duì)本端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息。步驟S403 將文字信息轉(zhuǎn)化成本端字幕。步驟S404 判斷是否需要與本端視頻信息相疊加,如果是則進(jìn)入步驟S405,否則 進(jìn)入步驟S408,該過(guò)程可由用戶自行選擇,也可在可視電話中直接默認(rèn)一種方式。步驟S405 需要與本端視頻信息相疊加。步驟S406 對(duì)疊加后的本端字幕與本端視頻信息一并進(jìn)行編碼。步驟S407:發(fā)送碼流。步驟S408 不需要與本端視頻信息相疊加,則對(duì)本端字幕進(jìn)行編碼得到碼流,接 著進(jìn)入步驟S407發(fā)送碼流。步驟S409 未選擇發(fā)送本端字幕的功能,表明選擇了顯示對(duì)端字幕的功能,則對(duì) 可視電話接收到的對(duì)端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息。步驟S410 將文字信息轉(zhuǎn)換成對(duì)端字幕。步驟S411 判斷是否需要與對(duì)端視頻信息相疊加,如果是則進(jìn)入步驟S412,否則 進(jìn)入步驟S414。該過(guò)程可由用戶自行選擇,也可在可視電話中直接默認(rèn)一種方式。步驟S412 將對(duì)端字幕與可視電話接收的對(duì)端視頻信息相疊加,保持對(duì)端字幕與 對(duì)端視頻信息在時(shí)間上的同步性。步驟S3413 在可視電話上一并顯示疊加后的對(duì)端字幕和對(duì)端視頻信息。步驟S414 如果不需要與對(duì)端視頻信息相疊加,則在可視電話上直接顯示對(duì)端字
眷ο圖4所示的實(shí)施方式中,還可不包括步驟S401所述的判斷或選擇方式,實(shí)現(xiàn)在可 視電話中既發(fā)送本端字幕又顯示對(duì)端字幕的功能,可視電話接收到的對(duì)端語(yǔ)音所對(duì)應(yīng)的字 幕顯示在可視電話上,對(duì)方也能夠接收到本端語(yǔ)音所對(duì)應(yīng)的字幕。本實(shí)施方式根據(jù)具體需 求,同樣可實(shí)現(xiàn)本端字幕與本端視頻信息相疊加,以及對(duì)端字幕與對(duì)端視頻信息相疊加的 功能。因此本實(shí)施方式更加靈活、方便,進(jìn)一步提高了用戶之間的通訊效率和用戶體驗(yàn)度。本發(fā)明還保護(hù)了支持字幕功能的可視電話,該可視電話可為固定電話、手機(jī)、計(jì)算 機(jī)和掌上電腦等能夠進(jìn)行視頻通訊的終端。圖5為本發(fā)明的可視電話第一種具體實(shí)施方式
結(jié)構(gòu)框圖,包括語(yǔ)音識(shí)別模塊10、字幕轉(zhuǎn)換模塊20和字幕處理模塊30,箭頭所示方向表示 為信息流的傳遞方向。其中,語(yǔ)音識(shí)別模塊10用于對(duì)語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息,可視電話中 可預(yù)先設(shè)定所要識(shí)別的語(yǔ)音,用戶也可自行指定需要識(shí)別的語(yǔ)音;字幕轉(zhuǎn)換模塊20用于將 語(yǔ)音識(shí)別模塊10得到的文字信息轉(zhuǎn)換成字幕;字幕處理模塊30用于對(duì)字幕轉(zhuǎn)換模塊20轉(zhuǎn) 換后的字幕進(jìn)行顯示或發(fā)送。本實(shí)施方式的可視電話還可包括視頻疊加模塊40,用于將字幕轉(zhuǎn)換模塊20轉(zhuǎn)換 后的字幕與視頻信息相疊加,這種實(shí)施方式下,字幕處理模塊30還用于對(duì)疊加后的字幕與視頻信息一并進(jìn)行顯示或發(fā)送。為了實(shí)現(xiàn)靈活的疊加方式,本實(shí)施方式還可進(jìn)一步包括疊 加控制模塊41,用于選擇需疊加的視頻信息或控制疊加方式;用戶可根據(jù)需求靈活選擇需 要疊加的視頻信息,還可控制疊加方式,例如按照一定的透明度實(shí)現(xiàn)Alpha融合,或者將字 幕與視頻信息分別縮放后按照一定的比例進(jìn)行布局等。本實(shí)施方式的可視電話還可包括字幕功能開(kāi)啟模塊11,用于開(kāi)啟或關(guān)閉語(yǔ)音識(shí)別 模塊10對(duì)語(yǔ)音進(jìn)行識(shí)別的功能,該字幕功能開(kāi)啟模塊11可由用戶在通訊之前或通訊過(guò)程 中控制,也可在可視電話開(kāi)機(jī)時(shí)自動(dòng)開(kāi)啟。本實(shí)施方式的可視電話還可包括字幕功能選擇 模塊12,用于選擇語(yǔ)音識(shí)別模塊10需要識(shí)別的語(yǔ)音,例如本端語(yǔ)音或?qū)Χ苏Z(yǔ)音等。圖6為本發(fā)明的可視電話第二種具體實(shí)施方式
結(jié)構(gòu)框圖,本實(shí)施方式的可視電話 能夠?qū)崿F(xiàn)本端字幕的發(fā)送功能。本實(shí)施方式與圖5相似,還包括本端視頻采集模塊50,通常為攝像頭等裝置用于 采集視頻信息。本實(shí)施方式中,語(yǔ)音識(shí)別模塊10對(duì)本端語(yǔ)音進(jìn)行識(shí)別時(shí),字幕轉(zhuǎn)換模塊20 將語(yǔ)音識(shí)別模塊10得到的文字信息轉(zhuǎn)換成本端字幕;如果需要將本端字幕與本端視頻信 息相疊加,視頻采集模塊50將采集到的本端視頻信息傳送至視頻疊加模塊40實(shí)現(xiàn)本端字 幕和本端視頻信息的疊加。本實(shí)施方式的字幕處理模塊30包括編碼模塊31和發(fā)送模塊 32,其中,編碼模塊31用于對(duì)字幕轉(zhuǎn)換模塊20轉(zhuǎn)換后的本端字幕按照一定的視頻壓縮標(biāo)準(zhǔn) 進(jìn)行編碼得到碼流,或者對(duì)疊加后的本端字幕與本端視頻信息一并進(jìn)行編碼得到碼流(例 如編碼標(biāo)準(zhǔn)為H. 263);發(fā)送模塊32用于發(fā)送編碼模塊31編碼后的碼流。本實(shí)施方式的可 視電話同樣可以包括圖5所示的字幕功能開(kāi)啟模塊11和字幕功能選擇模塊12。圖7為本發(fā)明的可視電話第三種具體實(shí)施方式
結(jié)構(gòu)框圖,本實(shí)施方式的可視電話 能夠?qū)崿F(xiàn)對(duì)端字幕的顯示功能。本實(shí)施方式與圖5相似,還包括視頻接收模塊60和視頻解碼模塊70,視頻接收模 塊60用于接收對(duì)端視頻,視頻解碼模塊70用于對(duì)接收到的對(duì)端視頻進(jìn)行解碼。本實(shí)施方式 中,語(yǔ)音識(shí)別模塊10對(duì)對(duì)端語(yǔ)音進(jìn)行識(shí)別時(shí),字幕轉(zhuǎn)換模塊20將語(yǔ)音識(shí)別模塊10得到的 文字信息轉(zhuǎn)換成對(duì)端字幕,如果需要將對(duì)端字幕與對(duì)端視頻信息相疊加,視頻解碼模塊70 將解碼后的對(duì)端視頻信息傳送至視頻疊加模塊40實(shí)現(xiàn)對(duì)端字幕和對(duì)端視頻信息的疊加。 本實(shí)施方式的字幕處理模塊30包括顯示模塊33,用于顯示字幕轉(zhuǎn)換模塊20轉(zhuǎn)換后的對(duì)端 字幕,或者顯示疊加后的對(duì)端字幕和對(duì)端視頻信息。本實(shí)施方式的可視電話同樣可以包括 圖5所示的字幕功能開(kāi)啟模塊11和字幕功能選擇模塊12。圖6和圖7所示的實(shí)施方式分別實(shí)現(xiàn)了可視電話的發(fā)送本端字幕和顯示對(duì)端字 幕功能,通過(guò)融合兩圖所述的功能模塊還可在可視電話中實(shí)現(xiàn)兩種功能,用戶可自行選取、 切換其中的功能或者同時(shí)實(shí)現(xiàn)兩種功能。實(shí)現(xiàn)兩種功能時(shí),可視電話中的語(yǔ)音識(shí)別模塊10 和字幕轉(zhuǎn)換模塊20對(duì)指定的語(yǔ)音進(jìn)行統(tǒng)一處理,或按照?qǐng)D8所示的優(yōu)選的實(shí)施方式進(jìn)行處 理。圖8所述的實(shí)施方式中,語(yǔ)音識(shí)別模塊10、字幕轉(zhuǎn)換模塊20都包括兩個(gè)子模塊,分別實(shí) 現(xiàn)本端語(yǔ)音的發(fā)送和對(duì)端語(yǔ)音的顯示功能,該優(yōu)選的實(shí)施方式對(duì)子模塊的功能進(jìn)行區(qū)分, 處理效率更高,且易于實(shí)現(xiàn)兩種功能的同步進(jìn)行。例如圖8為本發(fā)明的可視電話第四種具體實(shí)施方式
結(jié)構(gòu)框圖,該實(shí)施方式中,語(yǔ) 音識(shí)別模塊10包括第一語(yǔ)音識(shí)別模塊13和第二語(yǔ)音識(shí)別模塊14,第一語(yǔ)音識(shí)別模塊13用 于對(duì)本端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息;第二語(yǔ)音識(shí)別模塊14用于對(duì)對(duì)端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息。字幕轉(zhuǎn)換模塊20包括第一字幕轉(zhuǎn)換模塊21和第二字幕轉(zhuǎn)換 模塊22,第一字幕轉(zhuǎn)換模塊21用于將第一語(yǔ)音識(shí)別模塊13得到的文字信息轉(zhuǎn)換成本端字 幕;第二字幕轉(zhuǎn)換模塊22用于將第二語(yǔ)音識(shí)別模塊14得到的文字信息轉(zhuǎn)換成對(duì)端字幕。 視頻疊加模塊40 (本圖未畫出)包括第一視頻疊加模塊41和第二視頻疊加模塊42,第一視 頻疊加模塊41用于將本端字幕與本端視頻信息相疊加;第二視頻疊加模塊42用于將對(duì)端 字幕與對(duì)端視頻信息相疊加。字幕處理模塊30包括編碼模塊31、發(fā)送模塊21和顯示模塊 33,編碼模塊31用于對(duì)第一字幕轉(zhuǎn)換模塊21轉(zhuǎn)換后的本端字幕進(jìn)行編碼得到碼流,或?qū)Ρ?端字幕和本端視頻信息一并進(jìn)行編碼,發(fā)送模塊32用于發(fā)送編碼模塊31編碼后的碼流,顯 示模塊33用于顯示第二字幕轉(zhuǎn)換模塊22轉(zhuǎn)換后的對(duì)端字幕,或疊加后的對(duì)端字幕和對(duì)端 視頻信息。 以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說(shuō)明,不能認(rèn)定 本發(fā)明的具體實(shí)施只局限于這些說(shuō)明。對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在 不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干簡(jiǎn)單推演或替換,都應(yīng)當(dāng)視為屬于本發(fā)明的 保護(hù)范圍。
權(quán)利要求
一種可視電話通訊方法,其特征在于,包括以下步驟步驟A可視電話對(duì)語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息;步驟B將所述文字信息轉(zhuǎn)換成字幕;步驟C顯示或發(fā)送所述字幕。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于步驟A中可視電話對(duì)本端語(yǔ)音進(jìn)行識(shí)別, 得到對(duì)應(yīng)的文字信息,步驟B將所述文字信息轉(zhuǎn)換成本端字幕,步驟C中對(duì)所述本端字幕進(jìn) 行編碼得到碼流,并發(fā)送所述碼流。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于步驟A中可視電話對(duì)對(duì)端語(yǔ)音進(jìn)行 識(shí)別,得到對(duì)應(yīng)的文字信息,步驟B將所述文字信息轉(zhuǎn)換成對(duì)端字幕,步驟C在可視電話上 顯示所述對(duì)端字幕。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于步驟C之前還包括以下步驟將所述本端 字幕與可視電話采集的本端視頻信息相疊加;步驟C中對(duì)所述疊加后的本端字幕和本端視 頻信息一并進(jìn)行編碼得到碼流,并發(fā)送所述碼流。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于步驟C之前還包括以下步驟將所述對(duì)端 字幕與可視電話接收的對(duì)端視頻信息相疊加;步驟C在可視電話上一并顯示所述疊加后的 對(duì)端字幕和對(duì)端視頻信息。
6.一種可視電話,其特征在于,包括語(yǔ)音識(shí)別模塊、字幕轉(zhuǎn)換模塊和字幕處理模塊;語(yǔ)音識(shí)別模塊用于對(duì)語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息;字幕轉(zhuǎn)換模塊用于將所述語(yǔ)音識(shí)別模塊得到的文字信息轉(zhuǎn)換成字幕;字幕處理模塊用于顯示或發(fā)送所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的字幕。
7.根據(jù)權(quán)利要求6所述的可視電話,其特征在于還包括視頻疊加模塊,所述視頻疊加 模塊用于將所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的字幕與視頻信息相疊加;所述字幕處理模塊還用于 一并顯示或發(fā)送所述疊加后的字幕和視頻信息。
8.根據(jù)權(quán)利要求7所述的可視電話,其特征在于還包括疊加控制模塊,所述疊加控制 模塊用于選擇需疊加的視頻信息或控制疊加方式。
9.根據(jù)權(quán)利要求8所述的可視電話,其特征在于所述疊加方式包括按照一定的透明 度疊加,或?qū)⑺鲎帜慌c視頻信息分別縮放后按照一定的比例布局。
10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的可視電話,其特征在于所述字幕處理模塊包 括編碼模塊和發(fā)送模塊;所述語(yǔ)音為本端語(yǔ)音時(shí),所述語(yǔ)音識(shí)別模塊用于對(duì)所述本端語(yǔ)音 進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息,所述字幕轉(zhuǎn)換模塊用于將所述語(yǔ)音識(shí)別模塊得到的文字 信息轉(zhuǎn)換成本端字幕,所述編碼模塊用于對(duì)所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的本端字幕進(jìn)行編碼 得到碼流,所述發(fā)送模塊用于發(fā)送所述編碼模塊編碼后的碼流。
11.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的可視電話,其特征在于所述字幕處理模塊包 括顯示模塊;所述語(yǔ)音為對(duì)端語(yǔ)音時(shí),所述語(yǔ)音識(shí)別模塊用于對(duì)所述對(duì)端語(yǔ)音進(jìn)行識(shí)別,得 到對(duì)應(yīng)的文字信息,所述字幕轉(zhuǎn)換模塊用于將所述語(yǔ)音識(shí)別模塊得到的文字信息轉(zhuǎn)換成對(duì) 端字幕,所述顯示模塊用于顯示所述字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的對(duì)端字幕。
12.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的可視電話,其特征在于所述語(yǔ)音識(shí)別模塊包括第一語(yǔ)音識(shí)別模塊和第二語(yǔ)音識(shí)別模塊,所述語(yǔ)音為本端語(yǔ)音 時(shí),所述第一語(yǔ)音識(shí)別模塊用于對(duì)所述本端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息,所述語(yǔ)音為對(duì)端語(yǔ)音時(shí),所述第二語(yǔ)音識(shí)別模塊用于對(duì)所述對(duì)端語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信 息;所述字幕轉(zhuǎn)換模塊包括第一字幕轉(zhuǎn)換模塊和第二字幕轉(zhuǎn)換模塊,所述第一字幕轉(zhuǎn)換模 塊用于將所述第一語(yǔ)音識(shí)別模塊得到的文字信息轉(zhuǎn)換成本端字幕,所述第二字幕轉(zhuǎn)換模塊 用于將所述第二語(yǔ)音識(shí)別模塊得到的文字信息轉(zhuǎn)換成對(duì)端字幕;字幕處理模塊包括編碼模塊、發(fā)送模塊和顯示模塊,所述編碼模塊用于對(duì)所述第一字 幕轉(zhuǎn)換模塊轉(zhuǎn)換后的本端字幕進(jìn)行編碼得到碼流,發(fā)送模塊用于發(fā)送所述編碼模塊編碼后 的碼流,所述顯示模塊用于顯示第二字幕轉(zhuǎn)換模塊轉(zhuǎn)換后的對(duì)端字幕。
13.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的可視電話,其特征在于還包括字幕功能選擇 模塊,所述字幕功能選擇模塊用于選擇所述語(yǔ)音識(shí)別模塊所需識(shí)別的語(yǔ)音。
全文摘要
本發(fā)明公開(kāi)了一種可視電話通訊方法,包括以下步驟,步驟A可視電話對(duì)語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文字信息;步驟B將所述文字信息轉(zhuǎn)換成字幕;步驟C顯示或發(fā)送所述字幕。本發(fā)明還保護(hù)了一種實(shí)現(xiàn)該通訊方法的可視電話。本發(fā)明的可視電話及其通訊方法不僅能夠?qū)崿F(xiàn)視頻通訊,而且支持字幕功能,例如發(fā)送本端字幕或在可視電話中顯示對(duì)端字幕等,還可使字幕與視頻信息相疊加,因此適用于多種場(chǎng)合和多種用戶,靈活便利,提高了通訊效率和用戶體驗(yàn)度。
文檔編號(hào)H04N7/52GK101931779SQ200910108380
公開(kāi)日2010年12月29日 申請(qǐng)日期2009年6月23日 優(yōu)先權(quán)日2009年6月23日
發(fā)明者梁立偉, 王寧 申請(qǐng)人:中興通訊股份有限公司