亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種音頻數(shù)據(jù)處理方法及其裝置與流程

文檔序號:11155391閱讀:243來源:國知局
一種音頻數(shù)據(jù)處理方法及其裝置與制造工藝

本發(fā)明涉及多媒體技術(shù)領(lǐng)域,具體涉及一種音頻數(shù)據(jù)處理方法及其裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)和多媒體技術(shù)的發(fā)展,以及用戶終端(例如手機、電腦等)的普及,用戶終端可為人們提供豐富多彩的娛樂性應用程序,例如視頻類應用程序、音頻類應用程序、游戲類應用程序等。

對于喜歡音樂的用戶而言,音頻類應用程序備受歡迎。根據(jù)音頻類應用程序的用途,可將其分為收聽類音頻應用程序和演唱類音頻應用程序。其中,演唱類音頻應用程序主要以用戶演唱歌曲及分享所演唱的歌曲為主,這類應用程序還可以對用戶所演唱的歌曲進行評分,方便用戶獲知自己的歌唱能力。

目前,演唱類音頻應用程序?qū)τ脩羲莩母枨M行評分時,主要根據(jù)音準維度的準確度進行評分,使得評分結(jié)果較為單一。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例提供一種音頻數(shù)據(jù)處理方法及其裝置,能夠豐富評分結(jié)果,進而增加趣味性,有助于提升用戶的積極性。

本發(fā)明實施例第一方面提供一種音頻數(shù)據(jù)處理方法,包括:

采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù);

將所述音頻數(shù)據(jù)與所述目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果;

根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型,所述目標聲音類型為男聲或女聲;

若所述目標聲音類型與所述目標音樂的原始聲音類型相反且所述音準匹配結(jié)果滿足預設(shè)音準匹配條件,則輸出所述目標用戶的反串能力信息。

其中,所述預設(shè)反串音樂條件包括預設(shè)女聲音樂平均音高和預設(shè)男聲音樂平均音高;若所述目標音樂的平均音高大于所述預設(shè)女聲音樂平均音高且所述目標音樂的原始聲音類型為女聲,或小于所述預設(shè)男聲音樂平均音高且所述目標音樂的原始聲音類型為男聲,則確定所述目標音樂滿足所述預設(shè)反串音樂條件。

其中,所述預設(shè)反串音樂條件包括預設(shè)反串維度評價音樂數(shù)據(jù)庫;若所述目標音樂存在于所述預設(shè)反串維度評價音樂數(shù)據(jù)庫中,則確定所述目標音樂滿足所述預設(shè)反串音樂條件。

其中,所述預設(shè)聲音類型識別模型為將提取的預設(shè)男聲音頻數(shù)據(jù)的男聲特征參數(shù)和預設(shè)女聲音頻數(shù)據(jù)的女聲特征參數(shù),通過支持向量機SVM模型訓練得到的,用于識別音頻數(shù)據(jù)的聲音類型的模型。

其中,所述根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型,包括:

根據(jù)所述目標音樂的歌詞信息和預設(shè)選擇規(guī)則從所述音頻數(shù)據(jù)中選擇用于識別聲音類型的目標音頻數(shù)據(jù);

將所述目標音頻數(shù)據(jù)與預設(shè)聲音類型識別模型進行匹配得到目標聲音類型。

其中,所述根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型,包括:

將所述音頻數(shù)據(jù)與預設(shè)聲音類型識別模型進行匹配得到匹配浮點數(shù);

若所述匹配浮點數(shù)大于第一預設(shè)浮點數(shù),則確定目標聲音類型為所述男聲;若所述匹配浮點數(shù)小于第二預設(shè)浮點數(shù),則確定目標聲音類型為所述女聲。

本發(fā)明實施例第二方面提供一種音頻數(shù)據(jù)處理裝置,包括:

音頻數(shù)據(jù)采集單元,用于采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù);

音準維度匹配單元,用于將所述音頻數(shù)據(jù)與所述目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果;

聲音類型識別單元,用于根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型,所述目標聲音類型為男聲或女聲;

反串能力輸出單元,用于若所述目標聲音類型與所述目標音樂的原始聲音類型相反且所述音準匹配結(jié)果滿足預設(shè)音準匹配條件,則輸出所述目標用戶的反串能力信息。

本發(fā)明實施例第二方面提供的音頻數(shù)據(jù)處理裝置用于實現(xiàn)本發(fā)明實施例第一方面提供的音頻數(shù)據(jù)處理方法,在此不再贅述。

在本發(fā)明實施例中,通過采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù),并將采集的音頻數(shù)據(jù)與目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果,根據(jù)預設(shè)聲音類型識別模型對采集的音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型,并在目標聲音類型與目標音樂的原始聲音類型相反且音準匹配結(jié)果滿足預設(shè)音準匹配條件的情況下,輸出目標用戶的反串能力信息,從而實現(xiàn)對目標用戶輸入的音頻數(shù)據(jù)的反串維度的評價,進而豐富評分結(jié)果,增加趣味性,有助于提升用戶的積極性。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實施例提供的一種音頻數(shù)據(jù)處理方法的流程示意圖;

圖2為本發(fā)明實施例提供的提取特征參數(shù)的流程示意圖;

圖3為本發(fā)明實施例提供的另一種音頻數(shù)據(jù)處理方法的流程示意圖;

圖4為本發(fā)明實施例提供的又一種音頻數(shù)據(jù)處理方法的流程示意圖;

圖5為本發(fā)明實施例提供的一種音頻數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;

圖6為本發(fā)明實施例提供的另一種音頻數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

在本發(fā)明實施例中使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本發(fā)明。在本發(fā)明實施例和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。還應當理解,本文中使用的術(shù)語“和/或”是指并包含一個或多個相關(guān)聯(lián)的列出項目的任何或所有可能組合。本文中字符“/”,一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。

下面將對本發(fā)明實施例涉及的名稱或?qū)I(yè)術(shù)語進行介紹:

(1)反串:串,就是串角的意思。反,就是相反,男的反義詞是女,女的反義詞是男。現(xiàn)代意義上的反串是一門新生藝術(shù),也是娛樂圈的近年來最新的流行詞,是形容"男扮女裝"或"女扮男裝"的舞臺表演藝術(shù)。在過去是指角色的客串,而現(xiàn)代已被廣泛的用于性別、聲音的反串。本發(fā)明實施例中的反串是指聲音的反串,即男聲唱女聲或女聲唱男聲。

(2)音高:指各種不同高低的聲音,即音的高度,音的基本特征的一種。音高指人耳對聲音調(diào)子高低的主觀感覺。主要取決于頻率的高低與響度的大小。頻率低的調(diào)子給人以低沉、厚實、粗獷的感覺;頻率高的調(diào)子給人以亮麗、明亮、尖刻的感覺。通常,男聲的音高低于女聲的音高。

(3)樂器數(shù)字接口(Musical Instrument Digital Interface,MIDI)是一種電子樂器之間以及電子樂器與電腦之間的統(tǒng)一交流協(xié)議。MIDI文件是一種描述性的“音樂語言”,它將所要演奏的樂曲信息用字節(jié)進行描述。譬如在某一時刻,使用什么樂器,以什么音符開始,以什么音調(diào)結(jié)束,加以什么伴奏等等,也就是說MIDI文件本身并不包含波形數(shù)據(jù)。

(4)支持向量機(Support Vector Machine,SVM)是一個有監(jiān)督的學習模型,通常用來進行模式識別、分類、以及回歸分析。

本發(fā)明實施例提供一種音頻數(shù)據(jù)處理方法及其裝置,可以應用于對用戶反串能力評價的場景中,例如,音頻數(shù)據(jù)處理裝置采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù);所述音頻數(shù)據(jù)處理裝置將所述音頻數(shù)據(jù)與所述目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果;所述音頻數(shù)據(jù)處理裝置根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型,所述目標聲音類型為男聲或女聲;若所述目標聲音類型與所述目標音樂的原始聲音類型相反且所述音準匹配結(jié)果滿足預設(shè)音準匹配條件,則所述音頻數(shù)據(jù)處理裝置輸出所述目標用戶的反串能力信息的場景。本發(fā)明實施例不僅可以從音準維度對用戶輸入的音頻數(shù)據(jù)進行評價,還可以從反串維度對用戶輸入的音頻數(shù)據(jù)進行評價,能夠豐富評分結(jié)果,進而增加趣味性,有助于提升用戶的積極性,提升用戶體驗。

本發(fā)明實施例中的音頻數(shù)據(jù)處理裝置可以為安裝、運行在用戶終端上的演唱類音頻應用程序,例如全民K歌、唱吧等應用程序。用戶終端可以包括但不限于智能手機、個人計算機、平板電腦(Pad)和便攜式電腦,還可以包括智能可穿戴設(shè)備等電子設(shè)備。音頻數(shù)據(jù)處理裝置還可以為上述演唱類音頻應用程序?qū)姆掌鞯牟糠只蛉俊?/p>

本發(fā)明實施例中的音樂可以包括歌曲、戲曲等曲類音樂,本發(fā)明實施例主要以歌曲為例進行介紹。

下面將結(jié)合附圖1-附圖4對本發(fā)明實施例提供的音頻數(shù)據(jù)處理方法進行詳細介紹。

請參見圖1,為本發(fā)明實施例提供的一種音頻數(shù)據(jù)處理方法的流程示意圖,該方法可包括步驟101-步驟104。

101,采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù);

目前,演唱類音頻應用程序既可以為用戶提供音樂的原始音頻數(shù)據(jù),也可以采集、存儲用戶針對某個音樂輸入的音頻數(shù)據(jù)。可以理解的是,音樂的原始音頻數(shù)據(jù)為演唱類音頻應用程序?qū)姆掌魈峁┑?,用于與用戶輸入的音頻數(shù)據(jù)進行對比的參考音頻數(shù)據(jù)。演唱類音頻應用程序在接收到用戶針對某個音樂輸入的錄制指令時,通過用戶終端上的音頻輸入設(shè)備(例如麥克風、耳機等)采集、存儲用戶輸入的音頻數(shù)據(jù),此時的存儲并非永久性存儲,只是對采集的音頻數(shù)據(jù)進行暫時性存儲,若需永久性存儲,則根據(jù)用戶輸入的存儲指令對所采集的音頻數(shù)據(jù)進行永久性存儲。演唱類音頻應用程序在采集完用戶輸入的音頻數(shù)據(jù)之后,可接收用戶輸入的針對該音頻數(shù)據(jù)的分享指令,并根據(jù)分享指令將該音頻數(shù)據(jù)分享至目的地。

具體的,音頻數(shù)據(jù)處理裝置通過用戶終端上的音頻輸入設(shè)備采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù)。其中,所述目標用戶可以為當前正在使用演唱類音頻應用程序的用戶,也可以為當前登錄演唱類音頻應用程序的用戶。所述目標音樂為演唱類應用程序提供的多個音樂中的任意一個,為所述目標用戶選擇的將要輸入音頻數(shù)據(jù)的音樂。可以理解的是,所述目標音樂為所述目標用戶將要錄入聲音的歌曲。

在一種可能實現(xiàn)的方式中,所述音頻數(shù)據(jù)處理裝置為演唱類音頻應用程序,那么所述音頻數(shù)據(jù)處理裝置直接調(diào)用音頻輸入設(shè)備采集所述目標用戶針對所述目標音樂輸入的音頻數(shù)據(jù)。在另一種可能實現(xiàn)的方式中,所述音頻數(shù)據(jù)處理裝置為演唱類音頻應用程序?qū)姆掌鞯牟糠只蛉?,那么所述音頻數(shù)據(jù)處理裝置接收演唱類音頻應用程序發(fā)送的音頻數(shù)據(jù),該音頻數(shù)據(jù)為演唱類音頻應用程序通過音頻輸入設(shè)備采集的音頻數(shù)據(jù)。

對于演唱類音頻應用程序提供的所有音樂中每個音樂都會有一個對應的MIDI文件,音樂以歌曲為例,該文件描述了原唱歌手演繹此歌曲的音高走勢,可視化格式如下圖:

其中每一行表示一個音符,第一列為音符的起始時間(單位為毫秒),第二列為音符持續(xù)時間(單位為毫秒),第三列為音符音高值。MIDI文件的作用有很多,例如給用戶提供可視化音高參考曲線,以便用戶根據(jù)音高參考曲線輸入音頻數(shù)據(jù);對于用戶輸入的音頻數(shù)據(jù)的不足之處進行修正;對用戶演唱進行評價等。本發(fā)明實施例則是使用MIDI文件來對音樂的平均音高進行計算。

假設(shè)某個音樂對應的MIDI文件有n個音符,每個音符的持續(xù)時間為ti,i∈[1,n],每個音符的音高為pi,i∈[1,n],則所述音頻數(shù)據(jù)處理裝置根據(jù)如下公式計算該音樂的平均音高P:

在一種可能實現(xiàn)的方式中,基于上述平均音高的計算公式,所述音頻數(shù)據(jù)處理裝置計算所述目標音樂的平均音高。所述預設(shè)反串音樂條件包括預設(shè)女聲音樂平均音高和預設(shè)男聲音樂平均音高。所述預設(shè)女聲音樂平均音高和所述預設(shè)男聲音樂平均音高用于衡量用戶所選的音樂是否可以作為反串維度評價的音樂,這兩個的具體數(shù)值由所述音頻數(shù)據(jù)處理裝置設(shè)定,在此不做限定。若所述目標音樂的平均音高大于所述預設(shè)女聲音樂平均音高,且所述目標音樂的原始聲音類型為女聲;或小于所述預設(shè)男聲音樂平均音高,且所述目標音樂的原始聲音類型為男聲;則所述音頻數(shù)據(jù)處理裝置確定所述目標音樂滿足所述預設(shè)反串音樂條件,即所述目標音樂可以作為反串維度評價的音樂。

在另一種可能實現(xiàn)的方式中,所述預設(shè)反串音樂條件包括預設(shè)反串維度評價音樂數(shù)據(jù)庫,所述預設(shè)反串維度評價音樂數(shù)據(jù)庫包括多首用于反串維度評價的音樂,具體的包括多首女聲音樂和多首男聲音樂,具體所述預設(shè)反串維度評價音樂數(shù)據(jù)庫所包括的音樂數(shù)量、所述多首女聲音樂的數(shù)量和所述多首男聲音樂的數(shù)量由所述音頻數(shù)據(jù)處理裝置設(shè)定,在此不做限定。其中,所述多首女聲音樂的平均音高大于第一閾值,所述多首男聲音樂的平均音高小于第二閾值,所述第一閾值和所述第二閾值的大小由所述音頻數(shù)據(jù)處理裝置設(shè)定,在此不做限定。所述音頻數(shù)據(jù)處理裝置可根據(jù)上述平均音高計算公式,預先計算、獲取演唱類音頻應用程序提供的所有音樂中每個音樂的平均音高,并根據(jù)每個音樂的歌手標簽信息將所有音樂區(qū)分為男聲演唱音樂與女聲演唱音樂兩類,根據(jù)所述第一閾值和所述第二閾值選擇出所述多首女聲音樂和所述多首男聲音樂??梢岳斫獾氖?,所述預設(shè)反串維度評價音樂數(shù)據(jù)庫包括平均音高較高的多首女聲音樂和平均音高較低的多首男聲音樂。若所述目標音樂存在于所述預設(shè)反串維度評價音樂數(shù)據(jù)庫中,則所述音頻數(shù)據(jù)處理裝置確定所述目標音樂滿足所述預設(shè)反串音樂條件。

可以理解的是,所述預設(shè)反串音樂條件用于衡量用戶所選擇的音樂是否可以用于作為反串維度評價的音樂,即并不是所有音樂均可以作為反串維度評價的音樂,根據(jù)所述預設(shè)反串音樂條件所選擇的音樂有一定的難度。只要在用戶所選擇的音樂滿足所述預設(shè)反串音樂條件時,才能繼續(xù)執(zhí)行后續(xù)步驟。

102,將所述音頻數(shù)據(jù)與所述目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果;

具體的,所述音頻數(shù)據(jù)處理裝置在接收到停止錄制指令或所述目標用戶完成輸入時,將所述音頻數(shù)據(jù)與所述目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果。目前,演唱類音頻應用程序都具備音準匹配這個功能,將用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)進行音準維度的比較,得出匹配結(jié)果。不同演唱類音頻應用程序所采用的音準匹配算法可能有所不同,在本發(fā)明實施例中對具體的音準匹配算法不做限定。

在一種可能實現(xiàn)的方式中,所述音準匹配結(jié)果為分數(shù),分數(shù)的取值范圍可以為0~100,0~500等,具體取值范圍由所述音頻數(shù)據(jù)處理裝置設(shè)定,在此不做限定。越接近最大值,表明用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)的匹配度越高,用戶唱得越準,同時也表明噪音比較少(因為在有噪聲的情況下音準提前準確度低,分數(shù)會比較低),保障了后續(xù)對所述目標用戶輸入的音頻數(shù)據(jù)的聲音類型的識別過程中不會被噪聲所影響。

在一種可能實現(xiàn)的方式中,所述音準匹配結(jié)果為匹配等級,例如匹配等級越高,表明用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)的匹配度越高;匹配等級越低,表明用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)的匹配度越抵;或者,匹配等級越高,表明用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)的匹配度越低;匹配等級越低,表明用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)的匹配度越高。具體匹配等級的數(shù)量與匹配形式由所述音頻數(shù)據(jù)處理裝置設(shè)定,在此不做限定。

在一種可能實現(xiàn)的方式中,所述音準匹配結(jié)果包括分數(shù)和匹配等級,根據(jù)匹配等級與分數(shù)范圍之間的對應關(guān)系確定分數(shù)對應的匹配等級,具體的對應關(guān)系、匹配等級的數(shù)量、各個匹配等級對應的分數(shù)范圍由所述音頻數(shù)據(jù)處理裝置設(shè)定,在此不做限定。

需要說明的是,執(zhí)行步驟102得到的所述音準匹配結(jié)果,并不需要立即呈現(xiàn)給用戶。演唱類音頻應用程序在進行音準匹配之后,得到所述音準匹配結(jié)果,對用戶輸入的音頻數(shù)據(jù)進行暫時存儲,暫時不輸出所述音準匹配結(jié)果。演唱類音頻應用程序?qū)姆掌髟谶M行音準匹配之后,得到所述音準匹配結(jié)果,將所述音準匹配結(jié)果發(fā)送至演唱類音頻應用程序,演唱類音頻應用程序暫時不輸出所述音準匹配結(jié)果。

103,根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型;

具體的,所述音頻數(shù)據(jù)處理裝置根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型,所述目標聲音類型為男聲或女聲??梢岳斫獾氖牵鲆纛l數(shù)據(jù)處理裝置根據(jù)預設(shè)聲音類型識別模型識別所述音頻數(shù)據(jù)為男聲還是女聲,也即識別所述目標用戶為男還是女。

在應用本發(fā)明實施例之前,建立預設(shè)聲音類型識別模型。建立所述預設(shè)聲音類型識別模型的過程包括:

(1)演唱類音頻應用程序的工作人員從演唱類音頻應用程序?qū)姆掌髦?,選取唱得較好的且不同用戶演唱的若干首男聲(此時人工確定是男性唱的,對于容易混淆性別的聲音不選取)清唱音頻數(shù)據(jù)和若干首女聲清唱音頻數(shù)據(jù)。其中,若干首男聲清唱音頻數(shù)據(jù)的總時長與若干首女聲清唱音頻數(shù)據(jù)的總時長相同,以使男聲與女聲的訓練概率相等,具體總時長由演唱類音頻應用程序的工作人員設(shè)定,在此不做限定。

(2)所述音頻數(shù)據(jù)處理裝置根據(jù)若干首男聲清唱音頻數(shù)據(jù)各自對應的歌詞信息和若干首女聲清唱音頻數(shù)據(jù)各自對應的歌詞信息從若干首男聲清唱音頻數(shù)據(jù)和若干首女聲清唱音頻數(shù)據(jù)中提取有效數(shù)據(jù),也就是將沒有歌詞的靜音部分去掉,保留人聲部分,整合得到女聲語音信號和男聲語音信號。

(3)所述音頻數(shù)據(jù)處理裝置提取特征參數(shù),請參見圖3,為本發(fā)明實施例提供的提取特征參數(shù)的流程示意圖。語音信號通過圖3所示流程示意圖的處理得到特征參數(shù),該特征參數(shù)可為感知線性預測(Perceptual Linear Predict ive,PLP)特征參數(shù)。PLP特征參數(shù)是一種基于聽覺模型的特征參數(shù),為13維的特征參數(shù)。上述女聲語音信號和上述男聲語音信號通過圖3所示流程示意圖的處理得到女聲13維PLP特征參數(shù)和男聲13維PLP特征參數(shù)。

(4)所述音頻數(shù)據(jù)處理裝置利用提取的女聲13維PLP特征參數(shù)和男聲13維PLP特征參數(shù)計算各自的一階差分與二階差分得到女聲39維特征參數(shù)和男聲39維特征參數(shù),進行SVM模型訓練,建立所述預設(shè)聲音類型識別模型。其中,SVM模型訓練中的核函數(shù)類型采用徑向基函數(shù)(Radial basis function,RBF),該函數(shù)是一個取值僅僅依賴于離原點距離的實值函數(shù)。

所述預設(shè)聲音類型識別模型將女聲的輸出標識為“-1”,男聲的輸出標記為“1”,也就是當音頻數(shù)據(jù)通過所述預設(shè)聲音類型識別模型時,會輸出一個“-1~1”的值,越接近“-1”則越有可能是女聲;越接近“1”則越有可能是男聲。

由上歸納可得,所述預設(shè)聲音類型識別模型為將提取的預設(shè)男聲音頻數(shù)據(jù)的男聲特征參數(shù)和預設(shè)女聲音頻數(shù)據(jù)的女聲特征參數(shù),通過SVM模型訓練得到的,用于識別音頻數(shù)據(jù)的聲音類型的模型。其中,所述預設(shè)男聲音頻數(shù)據(jù)和所述預設(shè)女聲音頻數(shù)據(jù)即為上述步驟(2)得到的男聲語音信號和女聲語音信號;所述男聲特征參數(shù)和所述女聲特征參數(shù)即為上述步驟(3)得到的男聲13維PLP特征參數(shù)和女聲13維PLP特征參數(shù),或為上述步驟(4)計算得到的男聲39維特征參數(shù)和女聲39維特征參數(shù)。

所述預設(shè)聲音類型識別模型可以保存在演唱類音頻應用程序中,也可以包括在演唱類音頻應用程序?qū)姆掌髦?,即演唱類音頻應用程序可以對所述目標用戶輸入的音頻數(shù)據(jù)的聲音類型進行識別,演唱類音頻應用程序?qū)姆掌饕部梢詫λ瞿繕擞脩糨斎氲囊纛l數(shù)據(jù)的聲音類型進行識別。

需要說明的是,步驟103可在步驟102之后執(zhí)行,即在音準匹配之后對所述目標用戶輸入的音頻數(shù)據(jù)的聲音類型進行識別;步驟103也可與步驟102同時執(zhí)行,即在音準匹配的過程中對所述目標用戶輸入的音頻數(shù)據(jù)的聲音類型進行識別。

104,若所述目標聲音類型與所述目標音樂的原始聲音類型相反且所述音準匹配結(jié)果滿足預設(shè)音準匹配條件,則輸出所述目標用戶的反串能力信息;

具體的,在得到所述音準匹配結(jié)果和所述目標聲音類型后,所述音頻數(shù)據(jù)處理裝置檢測所述目標聲音類型與所述目標音樂的原始聲音類型是否相同且所述音準匹配結(jié)果是否滿足音準匹配條件。

在一種可能實現(xiàn)的方式中,所述目標音樂的原始聲音類型可根據(jù)所述目標音樂的歌手標簽信息確定,若為男歌手,則所述原始聲音類型為男聲;若為女歌手,則所述原始聲音類型為女聲。

在另一種可能實現(xiàn)的方式中,所述目標音樂的原始聲音類型可根據(jù)所述預設(shè)聲音類型識別模型對所述目標音樂的原始音頻數(shù)據(jù)進行識別得到。

若所述音準匹配結(jié)果為分數(shù),則所述音準匹配條件包括預設(shè)分數(shù)閾值。若所述分數(shù)達到所述預設(shè)分數(shù)閾值,則確定所述音準匹配結(jié)果滿足所述預設(shè)音準匹配條件。

若所述音準匹配結(jié)果為匹配等級,則所述音準匹配條件包括預設(shè)匹配等級。若匹配等級越高,匹配度越高,則在所述匹配等級高于所述預設(shè)匹配等級時,確定所述音準匹配結(jié)果滿足所述預設(shè)音準匹配條件;若匹配等級越高,匹配度越抵,則在所述匹配等級低于所述預設(shè)匹配等級時,確定所述音準匹配結(jié)果滿足所述預設(shè)音準匹配條件。

所述目標聲音類型與所述目標音樂的原始聲音類型相反,表明是男聲唱女聲或女聲唱男聲。所述音準匹配結(jié)果滿足所述預設(shè)音準匹配條件,表明所述目標用戶輸入的音頻數(shù)據(jù)在音高上比較準,噪音較少,比較接近所述目標音樂的原始音頻數(shù)據(jù)。若所述目標聲音類型與所述目標音樂的原始聲音類型相反且所述音準匹配結(jié)果滿足預設(shè)音準匹配條件,則所述音頻數(shù)據(jù)處理裝置輸出所述目標用戶的反串能力信息。

其中,所述反串能力信息用于標識所述目標用戶具有比較強的反串能力,可以是“反串達人”、“反串強者”等稱號,也可以是根據(jù)所述音準匹配結(jié)果確定的不同級別的反串能力。

所述音頻數(shù)據(jù)處理裝置在輸出所述目標用戶的反串能力信息的同時或之前,還可以輸出所述音準匹配結(jié)果,以便所述目標用戶了解匹配情況。

需要說明的是,本發(fā)明實施例在滿足三個條件的情況下才輸出目標用戶的反串能力信息,這三個條件分別為目標音樂滿足預設(shè)反串音樂條件,音準匹配結(jié)果滿足預設(shè)音準匹配條件,目標用戶輸入的音頻數(shù)據(jù)的聲音類型與目標音樂的原始聲音類型相反。

在本發(fā)明實施例中,通過采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù),并將采集的音頻數(shù)據(jù)與目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果,根據(jù)預設(shè)聲音類型識別模型對采集的音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型,并在目標聲音類型與目標音樂的原始聲音類型相反且音準匹配結(jié)果滿足預設(shè)音準匹配條件的情況下,輸出目標用戶的反串能力信息,從而實現(xiàn)對目標用戶輸入的音頻數(shù)據(jù)的反串維度的評價,進而豐富評分結(jié)果,增加趣味性,有助于提升用戶的積極性。

請參見圖3,為本發(fā)明實施例提供的另一種音頻數(shù)據(jù)處理方法的流程示意圖,該方法可包括步驟301-步驟305。圖3所示實施例中的步驟301、302和305的具體實現(xiàn)過程可參見圖1所示實施例中的步驟101、102和104的具體描述,在此不再贅述。

301,采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù);

302,將所述音頻數(shù)據(jù)與所述目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果;

303,根據(jù)所述目標音樂的歌詞信息和預設(shè)選擇規(guī)則從所述音頻數(shù)據(jù)中選擇用于識別聲音類型的目標音頻數(shù)據(jù);

為了減少運算量,所述音頻數(shù)據(jù)處理裝置從所述音頻數(shù)據(jù)中挑選一部分音頻數(shù)據(jù)進行聲音類型的識別。所述音頻數(shù)據(jù)處理裝置根據(jù)所述目標音樂的歌詞信息和預設(shè)選擇規(guī)則從所述音頻數(shù)據(jù)中選擇用戶識別聲音類型的目標音頻數(shù)據(jù)。其中,所述目標音樂的歌詞信息可由演唱類音頻應用程序提供,或由演唱類音頻應用程序?qū)姆掌魈峁?。所述預設(shè)選擇規(guī)則用于指示選擇哪句或哪些歌詞。

為了便于選擇和運算,所述預設(shè)選擇規(guī)則可指示選擇第一句歌詞,此時,所述音頻數(shù)據(jù)處理裝置根據(jù)所述目標音樂的歌詞信息從所述音頻數(shù)據(jù)中選擇第一句歌詞對應的音頻數(shù)據(jù)作為目標音頻數(shù)據(jù)。為了防止第一句歌詞對應的音頻數(shù)據(jù)無法識別出聲音類型,所述預設(shè)選擇規(guī)則可指示選擇第一句和第二句歌詞,在第一句無法識別出的情況下,對第二句歌詞對應的音頻數(shù)據(jù)進行識別。

304,將所述目標音頻數(shù)據(jù)與預設(shè)聲音類型識別模型進行匹配得到目標聲音類型;

具體的,所述預設(shè)聲音類型識別模型的描述可參見圖1所示實施例中對預設(shè)聲音類型識別模型的具體描述,在此不再贅述。

所述音頻數(shù)據(jù)處理裝置根據(jù)圖3所示的提取特征參數(shù)的流程示意圖提取所述目標音頻數(shù)據(jù)的13維PLP特征參數(shù),并利用該13維PLP特征參數(shù)計算一階差分與二階差分共39維PLP特征參數(shù),將該39維PLP特征參數(shù)與所述預設(shè)聲音類型識別模型進行匹配得到一個匹配浮點數(shù),所述匹配浮點數(shù)為“-1~1”中的一個數(shù)。

若所述匹配浮點數(shù)大于“0.5”,則確定目標聲音類型為男聲;若所述匹配浮點數(shù)小于“-0.5”,則確定目標聲音類型為女聲。若所述匹配浮點數(shù)為“-0.5~0.5”中的一個數(shù),則確定當前所選的所述目標音頻數(shù)據(jù)無法識別出聲音類型,即根據(jù)第一句歌詞對應的音頻數(shù)據(jù)無法識別出聲音類型,此時選擇第二句歌詞對應的音頻數(shù)據(jù)進行識別。若第二句歌詞對應的音頻數(shù)據(jù)還是無法識別出聲音類型,則選擇第三句歌詞對應的音頻數(shù)據(jù)進行識別,以此類推,直到匹配浮點數(shù)大于“0.5”或小于“-0.5”。若直到歌詞對應的音頻數(shù)據(jù)用完,匹配浮點數(shù)還為“-0.5~0.5”中的一個數(shù),則確定所述目標用戶輸入的音頻數(shù)據(jù)無法識別,所述音頻數(shù)據(jù)處理裝置便不會執(zhí)行步驟305。

305,若所述目標聲音類型與所述目標音樂的原始聲音類型相反且所述音準匹配結(jié)果滿足預設(shè)音準匹配條件,則輸出所述目標用戶的反串能力信息;

在本發(fā)明實施例中,從目標用戶輸入的音頻數(shù)據(jù)中選取目標音頻數(shù)據(jù)進行聲音類型的識別,可減少運算量,提高運算速度。

請參見圖4,為本發(fā)明實施例提供的又一種音頻數(shù)據(jù)處理方法的流程示意圖,該方法可包括步驟401-步驟406。圖4所示實施例中的步驟401、402和406的具體實現(xiàn)過程可參見圖1所示實施例中的步驟101、102和104的具體描述,在此不再贅述。

401,采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù);

402,將所述音頻數(shù)據(jù)與所述目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果;

403,將所述音頻數(shù)據(jù)與預設(shè)聲音類型識別模型進行匹配得到匹配浮點數(shù);

具體的,所述預設(shè)聲音類型識別模型的描述可參見圖1所示實施例中對預設(shè)聲音類型識別模型的具體描述,在此不再贅述。

所述音頻數(shù)據(jù)處理裝置根據(jù)圖3所示的提取特征參數(shù)的流程示意圖提取所述音頻數(shù)據(jù)的13維PLP特征參數(shù),并利用該13維PLP特征參數(shù)計算一階差分與二階差分共39維PLP特征參數(shù),將該39維PLP特征參數(shù)與所述預設(shè)聲音類型識別模型進行匹配得到一個匹配浮點數(shù),所述匹配浮點數(shù)為“-1~1”中的一個數(shù)。

404,若所述匹配浮點數(shù)大于第一預設(shè)浮點數(shù),則確定目標聲音類型為男聲;

其中,所述第一預設(shè)浮點數(shù)為“0.5”,若所述匹配浮點數(shù)大于“0.5”,則確定目標聲音類型為男聲。

405,若所述匹配浮點數(shù)小于第二預設(shè)浮點數(shù),則確定目標聲音類型為女聲;

其中,所述第一預設(shè)浮點數(shù)為“-0.5”,若所述匹配浮點數(shù)小于“-0.5”,則確定目標聲音類型為女聲。

406,若所述目標聲音類型與所述目標音樂的原始聲音類型相反且所述音準匹配結(jié)果滿足預設(shè)音準匹配條件,則輸出所述目標用戶的反串能力信息;

在本發(fā)明實施例中,將目標用戶輸入的所有音頻數(shù)據(jù)與預設(shè)聲音類型識別模型進行匹配,能夠確保聲音類型識別的準確性。

請參見圖5,為本發(fā)明實施例提供的一種音頻數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。圖5所示的音頻數(shù)據(jù)處理裝置50用于執(zhí)行圖1、圖3和圖4所示的方法,為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分,具體技術(shù)細節(jié)未揭示的,請參照本發(fā)明圖1、圖3和圖4所示的實施例。

圖5所示的音頻數(shù)據(jù)處理裝置50包括音頻數(shù)據(jù)采集單元501、音準維度匹配單元502、聲音類型識別單元503和反串能力輸出單元504。

音頻數(shù)據(jù)采集單元501,用于采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù);

具體實現(xiàn)中,所述音頻數(shù)據(jù)采集單元501通過用戶終端上的音頻輸入設(shè)備采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù)。

對于演唱類音頻應用程序提供的所有音樂中每個音樂都會有一個對應的MIDI文件,音樂以歌曲為例,該文件描述了原唱歌手演繹此歌曲的音高走勢,可視化格式如下圖:

其中每一行表示一個音符,第一列為音符的起始時間(單位為毫秒),第二列為音符持續(xù)時間(單位為毫秒),第三列為音符音高值。MIDI文件的作用有很多,例如給用戶提供可視化音高參考曲線,以便用戶根據(jù)音高參考曲線輸入音頻數(shù)據(jù);對于用戶輸入的音頻數(shù)據(jù)的不足之處進行修正;對用戶演唱進行評價等。本發(fā)明實施例則是使用MIDI文件來對音樂的平均音高進行計算。

假設(shè)某個音樂對應的MIDI文件有n個音符,每個音符的持續(xù)時間為ti,i∈[1,n],每個音符的音高為pi,i∈[1,n],則根據(jù)如下公式計算該音樂的平均音高P:

在一種可能實現(xiàn)的方式中,基于上述平均音高的計算公式,計算所述目標音樂的平均音高。所述預設(shè)反串音樂條件包括預設(shè)女聲音樂平均音高和預設(shè)男聲音樂平均音高。所述預設(shè)女聲音樂平均音高和所述預設(shè)男聲音樂平均音高用于衡量用戶所選的音樂是否可以作為反串維度評價的音樂,這兩個的具體數(shù)值由所述音頻數(shù)據(jù)處理裝置50設(shè)定,在此不做限定。若所述目標音樂的平均音高大于所述預設(shè)女聲音樂平均音高,且所述目標音樂的原始聲音類型為女聲;或小于所述預設(shè)男聲音樂平均音高,且所述目標音樂的原始聲音類型為男聲;則確定所述目標音樂滿足所述預設(shè)反串音樂條件,即所述目標音樂可以作為反串維度評價的音樂。

在另一種可能實現(xiàn)的方式中,所述預設(shè)反串音樂條件包括預設(shè)反串維度評價音樂數(shù)據(jù)庫,所述預設(shè)反串維度評價音樂數(shù)據(jù)庫包括多首用于反串維度評價的音樂,具體的包括多首女聲音樂和多首男聲音樂,具體所述預設(shè)反串維度評價音樂數(shù)據(jù)庫所包括的音樂數(shù)量、所述多首女聲音樂的數(shù)量和所述多首男聲音樂的數(shù)量由所述音頻數(shù)據(jù)處理裝置50設(shè)定,在此不做限定。其中,所述多首女聲音樂的平均音高大于第一閾值,所述多首男聲音樂的平均音高小于第二閾值,所述第一閾值和所述第二閾值的大小由所述音頻數(shù)據(jù)處理裝置50設(shè)定,在此不做限定。所述音頻數(shù)據(jù)處理裝置50可根據(jù)上述平均音高計算公式,預先計算、獲取演唱類音頻應用程序提供的所有音樂中每個音樂的平均音高,并根據(jù)每個音樂的歌手標簽信息將所有音樂區(qū)分為男聲演唱音樂與女聲演唱音樂兩類,根據(jù)所述第一閾值和所述第二閾值選擇出所述多首女聲音樂和所述多首男聲音樂??梢岳斫獾氖?,所述預設(shè)反串維度評價音樂數(shù)據(jù)庫包括平均音高較高的多首女聲音樂和平均音高較低的多首男聲音樂。若所述目標音樂存在于所述預設(shè)反串維度評價音樂數(shù)據(jù)庫中,則確定所述目標音樂滿足所述預設(shè)反串音樂條件。

可以理解的是,所述預設(shè)反串音樂條件用于衡量用戶所選擇的音樂是否可以用于作為反串維度評價的音樂,即并不是所有音樂均可以作為反串維度評價的音樂,根據(jù)所述預設(shè)反串音樂條件所選擇的音樂有一定的難度。

音準維度匹配單元502,用于將所述音頻數(shù)據(jù)與所述目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果;

具體實現(xiàn)中,所述音頻數(shù)據(jù)處理裝置50在接收到停止錄制指令或所述目標用戶完成輸入時,所述音準維度匹配單元502將所述音頻數(shù)據(jù)與所述目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果。目前,演唱類音頻應用程序都具備音準匹配這個功能,將用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)進行音準維度的比較,得出匹配結(jié)果。不同演唱類音頻應用程序所采用的音準匹配算法可能有所不同,在本發(fā)明實施例中對具體的音準匹配算法不做限定。

在一種可能實現(xiàn)的方式中,所述音準匹配結(jié)果為分數(shù),分數(shù)的取值范圍可以為0~100,0~500等,具體取值范圍由所述音頻數(shù)據(jù)處理裝置50設(shè)定,在此不做限定。越接近最大值,表明用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)的匹配度越高,用戶唱得越準,同時也表明噪音比較少(因為在有噪聲的情況下音準提前準確度低,分數(shù)會比較低),保障了后續(xù)對所述目標用戶輸入的音頻數(shù)據(jù)的聲音類型的識別過程中不會被噪聲所影響。

在一種可能實現(xiàn)的方式中,所述音準匹配結(jié)果為匹配等級,例如匹配等級越高,表明用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)的匹配度越高;匹配等級越低,表明用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)的匹配度越抵;或者,匹配等級越高,表明用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)的匹配度越低;匹配等級越低,表明用戶輸入的音頻數(shù)據(jù)與對應的原始音頻數(shù)據(jù)的匹配度越高。具體匹配等級的數(shù)量與匹配形式由所述音頻數(shù)據(jù)處理裝置50設(shè)定,在此不做限定。

在一種可能實現(xiàn)的方式中,所述音準匹配結(jié)果包括分數(shù)和匹配等級,根據(jù)匹配等級與分數(shù)范圍之間的對應關(guān)系確定分數(shù)對應的匹配等級,具體的對應關(guān)系、匹配等級的數(shù)量、各個匹配等級對應的分數(shù)范圍由所述音頻數(shù)據(jù)處理裝置50設(shè)定,在此不做限定。

需要說明的是,所述音準維度匹配單元502得到的所述音準匹配結(jié)果,并不需要立即呈現(xiàn)給用戶。演唱類音頻應用程序在進行音準匹配之后,得到所述音準匹配結(jié)果,對用戶輸入的音頻數(shù)據(jù)進行暫時存儲,暫時不輸出所述音準匹配結(jié)果。演唱類音頻應用程序?qū)姆掌髟谶M行音準匹配之后,得到所述音準匹配結(jié)果,將所述音準匹配結(jié)果發(fā)送至演唱類音頻應用程序,演唱類音頻應用程序暫時不輸出所述音準匹配結(jié)果。

聲音類型識別單元503,用于根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型;

其中,所述預設(shè)聲音類型識別模型為將提取的預設(shè)男聲音頻數(shù)據(jù)的男聲特征參數(shù)和預設(shè)女聲音頻數(shù)據(jù)的女聲特征參數(shù),通過SVM模型訓練得到的,用于識別音頻數(shù)據(jù)的聲音類型的模型。

在一種可能實現(xiàn)的方式中,所述聲音類型識別單元503具體用于根據(jù)所述目標音樂的歌詞信息和預設(shè)選擇規(guī)則從所述音頻數(shù)據(jù)中選擇用于識別聲音類型的目標音頻數(shù)據(jù);將所述目標音頻數(shù)據(jù)與預設(shè)聲音類型識別模型進行匹配得到目標聲音類型。

在一種可能實現(xiàn)的方式中,所述聲音類型識別單元503具體用于將所述音頻數(shù)據(jù)與預設(shè)聲音類型識別模型進行匹配得到匹配浮點數(shù);若所述匹配浮點數(shù)大于第一預設(shè)浮點數(shù),則確定目標聲音類型為所述男聲;若所述匹配浮點數(shù)小于第二預設(shè)浮點數(shù),則確定目標聲音類型為所述女聲。

反串能力輸出單元504,用于若所述目標聲音類型與所述目標音樂的原始聲音類型相反且所述音準匹配結(jié)果滿足預設(shè)音準匹配條件,則輸出所述目標用戶的反串能力信息;

具體實現(xiàn)中,在得到所述音準匹配結(jié)果和所述目標聲音類型后,所述音頻數(shù)據(jù)處理裝置50檢測所述目標聲音類型與所述目標音樂的原始聲音類型是否相同且所述音準匹配結(jié)果是否滿足音準匹配條件。

在一種可能實現(xiàn)的方式中,所述目標音樂的原始聲音類型可根據(jù)所述目標音樂的歌手標簽信息確定,若為男歌手,則所述原始聲音類型為男聲;若為女歌手,則所述原始聲音類型為女聲。

在另一種可能實現(xiàn)的方式中,所述目標音樂的原始聲音類型可根據(jù)所述預設(shè)聲音類型識別模型對所述目標音樂的原始音頻數(shù)據(jù)進行識別得到。

若所述音準匹配結(jié)果為分數(shù),則所述音準匹配條件包括預設(shè)分數(shù)閾值。若所述分數(shù)達到所述預設(shè)分數(shù)閾值,則確定所述音準匹配結(jié)果滿足所述預設(shè)音準匹配條件。

若所述音準匹配結(jié)果為匹配等級,則所述音準匹配條件包括預設(shè)匹配等級。若匹配等級越高,匹配度越高,則在所述匹配等級高于所述預設(shè)匹配等級時,確定所述音準匹配結(jié)果滿足所述預設(shè)音準匹配條件;若匹配等級越高,匹配度越抵,則在所述匹配等級低于所述預設(shè)匹配等級時,確定所述音準匹配結(jié)果滿足所述預設(shè)音準匹配條件。

所述目標聲音類型與所述目標音樂的原始聲音類型相反,表明是男聲唱女聲或女聲唱男聲。所述音準匹配結(jié)果滿足所述預設(shè)音準匹配條件,表明所述目標用戶輸入的音頻數(shù)據(jù)在音高上比較準,噪音較少,比較接近所述目標音樂的原始音頻數(shù)據(jù)。若所述目標聲音類型與所述目標音樂的原始聲音類型相反且所述音準匹配結(jié)果滿足預設(shè)音準匹配條件,則所述反串能力輸出單元504輸出所述目標用戶的反串能力信息。

其中,所述反串能力信息用于標識所述目標用戶具有比較強的反串能力,可以是“反串達人”、“反串強者”等稱號,也可以是根據(jù)所述音準匹配結(jié)果確定的不同級別的反串能力。

所述音頻數(shù)據(jù)處理裝置50在所述反串能力輸出單元504輸出所述目標用戶的反串能力信息的同時或之前,還可以輸出所述音準匹配結(jié)果,以便所述目標用戶了解匹配情況。

需要說明的是,本發(fā)明實施例在滿足三個條件的情況下才輸出目標用戶的反串能力信息,這三個條件分別為目標音樂滿足預設(shè)反串音樂條件,音準匹配結(jié)果滿足預設(shè)音準匹配條件,目標用戶輸入的音頻數(shù)據(jù)的聲音類型與目標音樂的原始聲音類型相反。

在本發(fā)明實施例中,通過采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù),并將采集的音頻數(shù)據(jù)與目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果,根據(jù)預設(shè)聲音類型識別模型對采集的音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型,并在目標聲音類型與目標音樂的原始聲音類型相反且音準匹配結(jié)果滿足預設(shè)音準匹配條件的情況下,輸出目標用戶的反串能力信息,從而實現(xiàn)對目標用戶輸入的音頻數(shù)據(jù)的反串維度的評價,進而豐富評分結(jié)果,增加趣味性,有助于提升用戶的積極性。

其中,上述各個單元可以是處理器或控制器,例如可以是中央處理器(Central Processing Unit,CPU),通用處理器,數(shù)字信號處理器(Digital Signal Processor,DSP),專用集成電路(Application-Specific Integrated Circuit,ASIC),現(xiàn)場可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)或者其他可編程邏輯器件、晶體管邏輯器件、硬件部件或者其任意組合。其可以實現(xiàn)或執(zhí)行結(jié)合本發(fā)明公開內(nèi)容所描述的各種示例性的邏輯方框,模塊和電路。所述處理器也可以是實現(xiàn)計算功能的組合,例如包含一個或多個微處理器組合,DSP和微處理器的組合等等。

當上述各個單元為處理器時,本發(fā)明實施例所涉及的音頻數(shù)據(jù)處理裝置可以為圖6所示的音頻數(shù)據(jù)處理裝置。圖6所示的音頻數(shù)據(jù)處理裝置包括處理器601、通信接口602、存儲器603和總線604。

其中,存儲器603可以是一個存儲裝置,也可以是多個存儲元件的統(tǒng)稱,且用于存儲可執(zhí)行程序代碼或應用程序運行裝置運行所需要參數(shù)、數(shù)據(jù)等。且存儲器603可以包括隨機存儲器(Random Access Memory,RAM),也可以包括非易失性存儲器(non-volatile memory),例如磁盤存儲器,閃存(Flash)等。

總線604可以是工業(yè)標準體系結(jié)構(gòu)(Industry Standard Architecture,ISA)總線、外部設(shè)備互連(Peripheral Component,PCI)總線或擴展工業(yè)標準體系結(jié)構(gòu)(Extended Industry Standard Architecture,EISA)總線等。該總線604可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖6中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。

其中,處理器601用于執(zhí)行如下操作步驟:

采集目標用戶針對滿足預設(shè)反串音樂條件的目標音樂輸入的音頻數(shù)據(jù);

將所述音頻數(shù)據(jù)與所述目標音樂的原始音頻數(shù)據(jù)進行匹配得到音準匹配結(jié)果;

根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型,所述目標聲音類型為男聲或女聲;

若所述目標聲音類型與所述目標音樂的原始聲音類型相反且所述音準匹配結(jié)果滿足預設(shè)音準匹配條件,則輸出所述目標用戶的反串能力信息。

其中,所述預設(shè)反串音樂條件包括預設(shè)女聲音樂平均音高和預設(shè)男聲音樂平均音高;若所述目標音樂的平均音高大于所述預設(shè)女聲音樂平均音高,或小于所述預設(shè)男聲音樂平均音高,則確定所述目標音樂滿足所述預設(shè)反串音樂條件。

其中,所述預設(shè)反串音樂條件包括預設(shè)反串維度評價音樂數(shù)據(jù)庫;若所述目標音樂存在于所述預設(shè)反串維度評價音樂數(shù)據(jù)庫中,則確定所述目標音樂滿足所述預設(shè)反串音樂條件。

其中,所述預設(shè)聲音類型識別模型為將提取的預設(shè)男聲音頻數(shù)據(jù)的男聲特征參數(shù)和預設(shè)女聲音頻數(shù)據(jù)的女聲特征參數(shù),通過支持向量機SVM模型訓練得到的,用于識別音頻數(shù)據(jù)的聲音類型的模型。

其中,處理器601執(zhí)行根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型時,具體執(zhí)行以下步驟:

根據(jù)所述目標音樂的歌詞信息和預設(shè)選擇規(guī)則從所述音頻數(shù)據(jù)中選擇用于識別聲音類型的目標音頻數(shù)據(jù);

將所述目標音頻數(shù)據(jù)與預設(shè)聲音類型識別模型進行匹配得到目標聲音類型。

其中,處理器601執(zhí)行根據(jù)預設(shè)聲音類型識別模型對所述音頻數(shù)據(jù)的聲音類型進行識別得到目標聲音類型時,具體執(zhí)行以下步驟:

將所述音頻數(shù)據(jù)與預設(shè)聲音類型識別模型進行匹配得到匹配浮點數(shù);

若所述匹配浮點數(shù)大于第一預設(shè)浮點數(shù),則確定目標聲音類型為所述男聲;若所述匹配浮點數(shù)小于第二預設(shè)浮點數(shù),則確定目標聲音類型為所述女聲。

需要說明的是,對于前述的各個方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某一些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。

在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳細描述的部分,可以參見其他實施例的相關(guān)描述。

本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)或隨機存儲記憶體(Random Access Memory,RAM)等。

以上所揭露的僅為本發(fā)明較佳實施例而已,當然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1