本發(fā)明涉及語音識別和聲紋識別技術領域,尤其涉及一種文字直播方法及平臺。
背景技術:
目前,對直播過程一般以人工的方式將語音轉換為文字,即相關工作人員將聽到的發(fā)言人的語音轉換為文字,例如:有主持人、嘉賓、采訪者和被訪者,將各自說話的語音轉為文字,并直播每句話是某個人說的。這種方式需要耗費大量的人力成本,并且受限于速度,很大可能出現轉換前一句話時,沒有辦法集中精力聽下一句話,造成漏播、錯播,使文字直播效率低下。
技術實現要素:
有鑒于此,本發(fā)明實施例期望提供一種文字直播方法及平臺,能將直播過程中發(fā)言者的語音轉換為有序的文字,并識別出文字的歸屬者,提高文字直播效率,節(jié)省人力物力。
為達到上述目的,本發(fā)明實施例提供了一種文字直播方法:
將直播的語音音頻進行語音識別,生成有序文字;
根據預先設置的聲紋特征確定所生成的有序文字的歸屬;
生成有序的包含歸屬者的文字作為直播文字。
其中,所述將直播的語音音頻進行語音識別,生成有序文字包括:將語音音頻轉換為文字,并根據直播的語音音頻中發(fā)言者的對話順序確定轉換后的文字順序,將按對話順序排序的文字作為有序文字。
其中,所述根據預先設置的聲紋特征確定所生成的有序文字的歸屬之前,所述方法還包括:
對直播的語音音頻中的各個發(fā)言者進行聲紋特征提取,所述聲紋特征包括:聲學特征、詞法特征、韻律特征、語種、方言和口音特征。
其中,所述根據預先設置的聲紋特征確定所生成有序文字的歸屬,包括:
將所述提取的聲紋特征與語音音頻中的發(fā)言者形成對應關系,確定直播的語音音頻中當前語音音頻的歸屬,確定所述有序文字的歸屬。
本發(fā)明實施例還提供了一種文字直播平臺,包括:
語音識別模塊,用于將直播的語音音頻進行語音識別,生成有序文字;
聲紋識別模塊,用于根據預先設置的聲紋特征確定所生成的有序文字的歸屬;
處理模塊,用于生成有序的包含歸屬者的文字作為直播文字。
其中,所述語音識別模塊具體用于:將語音音頻轉換為文字,并根據直播的語音音頻中發(fā)言者的對話順序確定轉換后的文字順序,將按對話順序排序的文字作為有序文字。
其中,所述聲紋識別模塊,還用于對直播的語音音頻中的各個發(fā)言者進行聲紋特征提取。
其中,所述聲紋識別模塊具體用于:將所述提取的聲紋特征與語音音頻中的發(fā)言者形成對應關系,確定直播的語音音頻中語音音頻的歸屬,確定所述有序文字的歸屬。
本發(fā)明實施例提供的文字直播方法及平臺,將直播的語音音頻進行語音識別,生成有序文字;根據預先設置的聲紋特征確定所生成的有序文字的歸屬,生成有序的包含歸屬者的文字作為直播文字。如此,能夠實時將直播中發(fā)言者的語音音頻轉換為文字,并確定所述文字的歸屬者,再將生成的直播文字進行展示,能提高文字直播效率,節(jié)省人力物力。
附圖說明
圖1為本發(fā)明實施例文字直播方法實現流程示意圖;
圖2為本發(fā)明實施例文字直播平臺的組成結構示意圖;
圖3為本發(fā)明實施例文字直播方法完整流程示意圖。
具體實施方式
圖1為本發(fā)明實施例文字直播方法實現流程示意圖,如圖1所示,本發(fā)明實施例文字直播方法包括以下步驟:
步驟101:將直播的語音音頻進行語音識別,生成有序文字;
本步驟可采用現有的語音識別(Speech Recognize)技術識別語音音頻,所謂語音識別技術,是讓機器通過識別和理解過程,使其能聽懂人類語言的技術;語音識別技術是信息技術中人機交互的關鍵技術,目前已經在呼叫中心、電信增值業(yè)務、企業(yè)信息化系統(tǒng)中有著廣泛的應用。
隨著語音識別在語音搜索、語音控制等全新應用領域的深入應用,語音識別技術被業(yè)界權威人士譽為有可能引發(fā)人機界面領域革命的關鍵技術。目前,語音識別技術已經可以進行針對長時間音頻進行語音轉換文字,再通過文字的信息服務特定的應用。
具體語音識別工具,可以采用隱性馬爾科夫(HMM,Hidden Markov Model)模型,HMM模型是語音識別領域廣泛采用的統(tǒng)計學模型,能表示出語音信號的時變特征和隨機特征,能適應各種變化的發(fā)音,進而適合非特定人的大詞匯量連續(xù)語音的識別工作。
本步驟中,具體的,所述將直播的語音音頻進行語音識別,生成有序文字包括:通過語音識別模塊將語音音頻轉換為文字,并根據直播的語音音頻中發(fā)言者的對話順序確定轉換后的文字順序,將按對話順序排好序的文字作為有序文字。
步驟102:根據預先設置的聲紋特征確定所生成的有序文字的歸屬;
本步驟之前,所述方法還包括:對直播的語音音頻中的各個發(fā)言者進行聲紋特征提取,所述聲紋特征包括:聲學特征、詞法特征、韻律特征、語種、方言和口音特征;
特征提取的目的是:提取并選擇對發(fā)言者的聲紋具有可分性強、穩(wěn)定性高等特性的聲學或語言特征。與語音識別不同,聲紋識別的特征必須是個性化特征,而發(fā)言者語音識別的特征,對發(fā)言者來講必須是共性特征。
雖然,目前大部分聲紋識別系統(tǒng)用的都是聲學層面的特征,但是表征一個人特點的特征應該是多層面的,包括:(1)與人類的發(fā)音機制的解剖學結構有關的聲學特征(如頻譜、倒頻譜、共振峰、基音、反射系數等)、鼻音、帶深呼吸音、沙啞音、笑聲等;(2)受社會經濟狀況、受教育水平、出生地等影響的語義、修辭、發(fā)音、言語習慣等;(3)個人特點或受父母影響的韻律、節(jié)奏、速度、語調、音量等特征。
從利用數學方法可以建模的角度出發(fā),聲紋自動識別模型目前可以使用的特征包括:(1)聲學特征;(2)詞法特征;(3)韻律特征;(4)語種、方言和口音信息。因此,采集聲紋特征,應該能夠有效地區(qū)分不同的發(fā)言者。
所述根據預先設置的聲紋特征確定所生成的有序文字的歸屬,包括:將所述提取的聲紋特征與語音音頻中的發(fā)言者形成對應關系,確定直播的語音音頻中當前語音音頻的歸屬,進一步確定所述有序文字的歸屬。
在實際應用中,聲紋識別可以有以下幾類方法:
模板匹配方法:利用動態(tài)時間彎折以對準訓練和測試特征序列,主要用于固定詞組的應用;
最近鄰方法:訓練時保留所有特征矢量,識別時對每個矢量都找到訓練矢量中最近的K個,據此進行識別,通常模型存儲和相似計算的量都很大;
神經網絡方法:有很多種形式,如多層感知、徑向基函數等,可以顯式訓練以區(qū)分發(fā)言者和其背景發(fā)言者,其訓練量很大,且模型的可推廣性不好;
HMM方法:通常使用單狀態(tài)的HMM,或高斯混合模型,是比較流行的方法,效果比較好;
VQ聚類方法:效果比較好,算法復雜度也不高,和HMM方法配合起來更可以收到更好的效果;
多項式分類器方法:有較高的精度,但模型存儲和計算量都比較大。
步驟103:生成有序的包含歸屬者的文字作為直播文字;
根據步驟101和步驟102分別確定出了有序文字、以及文字的歸屬者,本步驟通過將上述內容進行編輯并進行展示,如:主持人(這里顯示的是發(fā)言人的姓名):XXXXX(這里顯示的是發(fā)言內容),將步驟103中語音識別出的有序文字之前加入步驟102中識別出的發(fā)言人的姓名,使用戶盡量真實的感受到直播過程。
圖2為本發(fā)明實施例文字直播平臺的組成結構示意圖,如圖2所示,本發(fā)明實施例文字直播平臺包括:語音識別模塊201、聲紋識別模塊、處理模塊203;其中,
語音識別模塊201,用于將直播的語音音頻進行語音識別,生成有序文字;
聲紋識別模塊202,用于根據預先設置的聲紋特征確定所生成的有序文字的歸屬;
處理模塊203,用于生成有序的包含歸屬者的文字作為直播文字;
其中,語音識別模塊201具體用于:將語音音頻轉換為文字,并根據直播的語音音頻中發(fā)言者的對話順序確定轉換后的文字順序,將按對話順序排好序的文字稱為有序文字;
所述聲紋識別模塊202,還用于對直播的語音音頻中的各個發(fā)言者進行聲紋特征提取。
聲紋識別模塊202具體用于:將所述提取的聲紋特征與語音音頻中的發(fā)言者形成對應關系,確定直播的語音音頻中語音音頻的歸屬,進一步確定所述有序文字的歸屬。
圖3為本發(fā)明實施例文字直播方法完整流程示意圖,如圖3所示,本發(fā)明實施例文字直播方法完整流程包括以下步驟:
步驟301:輸入直播語音音頻;
這里,可將直播語音音頻輸入到本發(fā)明實施例文字所述的直播平臺中;
步驟302:進行語音識別;
其中,語音識別過程包括:將直播的語音音頻進行語音識別,生成有序文字;
在實際應用中,對語音音頻進行語音識別過程可以使用了數據準備、模型訓練、識別測試等方法進行識別;其中,
數據準備是用來將采集的語音文件轉換成可以被系統(tǒng)處理的用于訓練的數據文件,包含:語音特征參數提取過程,主要提取語音的梅爾倒譜系數(MFCC,Mel-scale Frequency Cepstral Coefficients),其中,MFCC充分考慮的人耳的聽覺特性,不僅能提高抗噪性能,而且能突出包含語音大部分信息的低頻部分,有利于提高語音識別性能,對于動態(tài)性比較強的輔音,MFCC也可以能夠進行很好的識別;
訓練模型主要是基于Baum-Welch算法,在模型訓練之前先確定隱馬爾科夫模型(HMM,Hidden Markov Model)的拓撲結構,并以文本的形式進行保存,然后對語音識別模塊建立HMM模型;
識別測試主要應用Viterbi算法在語音識別單元中隊語音進行識別;
整個語音識別過程就是在語音數據轉化之后,使用模型訓練根據這些數據和相關的文本文件估計出HMM模型的參數,根據這些訓練產生的模型利用語音識別模塊將直播語音轉換成相應的文字;
步驟303:進行聲紋識別;
其中,聲紋識別過程包括:先對直播的語音音頻中的發(fā)言者進行聲紋特征提取,將所述提取的聲紋特征與語音音頻中的發(fā)言者形成對應關系,確定直播的語音音頻中語音音頻的歸屬,進一步確定所述有序文字的歸屬。
步驟304:生成直播文字;
將步驟302和303確定出的有序文字以及文字的歸屬,生成直播文字進行展示。
通過上述步驟,將直播的語音音頻進行語音識別,生成有序文字;根據預先設置的聲紋特征確定所生成的有序文字的歸屬;生成有序的包含歸屬者的直播文字。如此,可以提高語音轉換文字直播的效率,同時還可以使收看者感受真實的直播過程。
以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。