本發(fā)明屬于信號(hào)處理技術(shù)領(lǐng)域,尤其涉及一種音頻數(shù)據(jù)可視化方法及裝置。
背景技術(shù):
現(xiàn)有的部分音樂軟件帶有可視化功能,例如形狀、圖形、顏色等的變換。而這些變換都是根據(jù)能量簡(jiǎn)單地生成的,并不具有情感表達(dá)能力和娛樂性。類似的可視化地表達(dá)音樂情感的方法是根據(jù)音樂段落尋找相匹配的視頻,或使用直接的音樂聲學(xué)特征與視頻特征的匹配。
在實(shí)現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:現(xiàn)有技術(shù)采用視頻的搜索與匹配技術(shù),即根據(jù)給定的音樂段落,在特定的視頻數(shù)據(jù)庫里找尋在時(shí)序上最匹配的視頻。然而對(duì)于任意音樂段落,不一定能找出與之在時(shí)序上足夠匹配的視頻。同時(shí),針對(duì)不同的特定模式,例如舞蹈、音樂噴泉、煙火等,視頻尋找的方法更是沒法滿足匹配的一致性。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明實(shí)施例提供了一種音頻數(shù)據(jù)可視化方法及裝置,以解決現(xiàn)有技術(shù)中對(duì)于任一音頻數(shù)據(jù)不能搜索出在時(shí)序上足夠匹配的視頻的問題。
本發(fā)明實(shí)施例的第一方面,提供了一種音頻數(shù)據(jù)可視化方法,包括:
接收音頻數(shù)據(jù)并提取所述音頻數(shù)據(jù)的聲學(xué)特征;
通過情感分類模型得出所述音頻數(shù)據(jù)的與所述聲學(xué)特征時(shí)序上對(duì)應(yīng)的情感特征;
通過模式特征生成模型生成所述音頻數(shù)據(jù)的與所述情感特征時(shí)序上對(duì)應(yīng)的模式特征;
通過預(yù)設(shè)數(shù)據(jù)庫獲取與所述模式特征對(duì)應(yīng)的預(yù)設(shè)可視化信息并展示,所述預(yù)設(shè)數(shù)據(jù)庫中存儲(chǔ)有多對(duì)一一對(duì)應(yīng)的模式特征和預(yù)設(shè)可視化信息。
本發(fā)明實(shí)施例的第二方面,提供了一種音頻數(shù)據(jù)可視化裝置,包括:
聲學(xué)特征提取模塊,用于接收音頻數(shù)據(jù)并提取所述音頻數(shù)據(jù)的聲學(xué)特征;
情感特征獲取模塊,用于通過情感分類模型得出與所述聲學(xué)特征時(shí)序上對(duì)應(yīng)的情感特征;
模式生成模塊,用于通過模式特征生成模型生成與所述情感特征時(shí)序上對(duì)應(yīng)的模式特征;
可視化模塊,用于通過預(yù)設(shè)數(shù)據(jù)庫獲取與所述模式特征對(duì)應(yīng)的預(yù)設(shè)可視化信息并展示;所述預(yù)設(shè)數(shù)據(jù)庫中存儲(chǔ)有多對(duì)一一對(duì)應(yīng)的模式特征和預(yù)設(shè)可視化信息。
本發(fā)明實(shí)施例相對(duì)于現(xiàn)有技術(shù)所具有的有益效果:提取所述音頻數(shù)據(jù)的聲學(xué)特征,通過情感分類模型得出所述音頻數(shù)據(jù)的與所述聲學(xué)特征時(shí)序上對(duì)應(yīng)的情感特征,通過模式特征生成模型生成所述音頻數(shù)據(jù)的與所述情感特征時(shí)序上對(duì)應(yīng)的模式特征,通過預(yù)設(shè)數(shù)據(jù)庫獲取與所述模式特征對(duì)應(yīng)的預(yù)設(shè)可視化信息并展示,只需預(yù)先定義模式特征的組合,即可根據(jù)任意音頻數(shù)據(jù)生成對(duì)應(yīng)的模式特征并予以顯示,而且聲學(xué)特征、情感特征和模式特征之間在時(shí)序上相對(duì)應(yīng),因此相對(duì)于現(xiàn)有技術(shù),音頻數(shù)據(jù)與可視化信息之間具有更好的一致性和匹配度。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)可視化方法的流程圖;
圖2是本發(fā)明實(shí)施例提供的通過情感分類模型得出所述音頻數(shù)據(jù)的與所述聲學(xué)特征時(shí)序上對(duì)應(yīng)的情感特征的流程圖;
圖3是本發(fā)明實(shí)施例提供的通過模式特征生成模型生成所述音頻數(shù)據(jù)的與所述情感特征時(shí)序上對(duì)應(yīng)的模式特征的流程圖;
圖4是本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)可視化裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
以下描述中,為了說明而不是為了限定,提出了諸如特定系統(tǒng)結(jié)構(gòu)、技術(shù)之類的具體細(xì)節(jié),以便透徹理解本發(fā)明實(shí)施例。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)清楚,在沒有這些具體細(xì)節(jié)的其它實(shí)施例中也可以實(shí)現(xiàn)本發(fā)明。在其它情況中,省略對(duì)眾所周知的系統(tǒng)、裝置、電路以及方法的詳細(xì)說明,以免不必要的細(xì)節(jié)妨礙本發(fā)明的描述。
為了說明本發(fā)明所述的技術(shù)方案,下面通過具體實(shí)施例來進(jìn)行說明。
實(shí)施例一:
圖1示出了本發(fā)明實(shí)施例一提供的音頻數(shù)據(jù)可視化方法的實(shí)現(xiàn)流程,詳述如下:
在步驟S101中,接收音頻數(shù)據(jù)并提取所述音頻數(shù)據(jù)的聲學(xué)特征。
本實(shí)施例中,音頻數(shù)據(jù)采用包括但不限于wav編碼格式。其中,所述提取所述音頻數(shù)據(jù)的聲學(xué)特征包括:
按照預(yù)設(shè)條件將所述音頻數(shù)據(jù)切分成多段子音頻數(shù)據(jù);所述預(yù)設(shè)條件包括預(yù)設(shè)時(shí)長間隔;
對(duì)每段所述子音頻數(shù)據(jù)提取聲學(xué)特征。
具體的,對(duì)接收到的音頻數(shù)據(jù),按照預(yù)設(shè)條件先進(jìn)行子音頻數(shù)據(jù)切分,使得每一子音頻數(shù)據(jù)盡可能只保留一種情感類別。例如,按照每隔兩秒時(shí)長的條件,將所述音頻數(shù)據(jù)切分成多個(gè)子音頻數(shù)據(jù)。
另外,還可以對(duì)所述音頻數(shù)據(jù)進(jìn)行分幀,然后再使用基于Matlab的MIRToolbox工具來提取四種幀級(jí)別的特征,分別是動(dòng)態(tài)(dynamic)特征、頻譜(spectral)特征、音色(timbre)特征以及聲調(diào)(tonal)特征。分幀的窗寬可以是0.025秒,滑動(dòng)距離0.01秒。
優(yōu)選的,在執(zhí)行步驟S102之前,本實(shí)施例的音頻數(shù)據(jù)可視化方法還包括:通過第一樣本數(shù)據(jù)對(duì)所述情感分類模型進(jìn)行訓(xùn)練,確定所述情感分類模型的參數(shù)。
本實(shí)施例中,情感分類模型的訓(xùn)練需要第一樣本數(shù)據(jù)。所述第一樣本數(shù)據(jù)包括音頻段落的聲學(xué)特征和與所述音頻段落的聲學(xué)特征在時(shí)序上對(duì)應(yīng)的情感標(biāo)簽。作為一種可實(shí)施方式,情感標(biāo)簽可以為激勵(lì)(arousal)和價(jià)(valence)的高低值。情感標(biāo)簽可以由相關(guān)專業(yè)人士對(duì)音頻數(shù)據(jù)的時(shí)序切分進(jìn)行標(biāo)記。
訓(xùn)練情感分類模型前,先對(duì)情感類別進(jìn)行定義。由于情感激勵(lì)低時(shí),價(jià)的高低不容易檢測(cè),因此根據(jù)激勵(lì)和價(jià)分成三個(gè)情感類別,分別為高激勵(lì)-高價(jià),高激勵(lì)-低價(jià),低激勵(lì)。需要說明的是,在其他實(shí)施例中,情感分類還可以采用更為精細(xì)的分級(jí),而不是僅僅是高-低分級(jí)。
本實(shí)施例中,使用隱馬爾可夫模型的結(jié)構(gòu)訓(xùn)練情感分類模型,使得每一幀音頻數(shù)據(jù)的情感類別能夠跟前面的幀存在依賴關(guān)系。在訓(xùn)練情感分類器時(shí),每一個(gè)情感類別構(gòu)建一個(gè)隱狀態(tài)馬爾科夫模型,每個(gè)情感類別模型有三個(gè)可發(fā)射隱藏狀態(tài),以及兩個(gè)不可發(fā)射隱藏狀態(tài)作為開始和結(jié)束。三個(gè)可發(fā)射隱藏狀態(tài)可以互相跳轉(zhuǎn)以及自跳轉(zhuǎn)。隱馬爾可夫模型的發(fā)射模型使用高斯混合模型。模型訓(xùn)練使用第一樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其情感類別標(biāo)簽序列作為情感標(biāo)簽,獲得優(yōu)化的高斯混合模型參數(shù)和跳轉(zhuǎn)概率。隱馬爾可夫模型的訓(xùn)練可以使用HTK工具進(jìn)行。
在步驟S102中,通過情感分類模型得出所述音頻數(shù)據(jù)的與所述聲學(xué)特征時(shí)序上對(duì)應(yīng)的情感特征。
本實(shí)施例中,提取出所述音頻數(shù)據(jù)的聲學(xué)特征以后,通過情感分類模型得出所述音頻數(shù)據(jù)的與所述聲學(xué)特征對(duì)應(yīng)的情感特征。其中,所述情感分類模型優(yōu)選為基于隱馬爾可夫模型的情感分類模型。另外,情感分類模型還可以為基于遞歸神經(jīng)網(wǎng)絡(luò)的情感分類模型等。本實(shí)施例中,以所述情感分類模型優(yōu)選為基于隱馬爾可夫模型的情感分類模型為例進(jìn)行說明,但并不以此為限。
具體的,對(duì)接收到的音頻數(shù)據(jù),先進(jìn)行音頻數(shù)據(jù)切分,使得每一子音頻數(shù)據(jù)盡可能只保留一種情感類別。例如,切成每?jī)擅霑r(shí)長一子音頻數(shù)據(jù)。對(duì)每一切分好的子音頻數(shù)據(jù)提取上述聲學(xué)特征,再使用所述情感分類器得出所述音頻數(shù)據(jù)的與所述聲學(xué)特征對(duì)應(yīng)的情感特征。
在步驟S103之前,本實(shí)施例的音頻數(shù)據(jù)可視化方法還包括:通過第二樣本數(shù)據(jù)對(duì)所述模式特征生成模型進(jìn)行訓(xùn)練,確定所述模式特征生成模型的參數(shù)。
本實(shí)施例中,模式特征生成模型的訓(xùn)練需要第二樣本書劇。所述第二樣本數(shù)據(jù)包括音頻段落的情感特征和與所述音頻段落的情感特征在時(shí)序上對(duì)應(yīng)的模式特征。模式特征可以根據(jù)實(shí)際需要進(jìn)行設(shè)定。以音樂噴泉為例,可以先定義噴泉的噴口數(shù)目,例如8個(gè)噴泉口。對(duì)于每個(gè)噴泉口,可以定義噴泉的高度和顏色,以及旋轉(zhuǎn)時(shí)的夾角和方向。然后錄制音樂噴泉的音樂-噴泉視頻,再由人工對(duì)視頻中的噴泉模式每隔一小段時(shí)間進(jìn)行一次標(biāo)記。
為了生成模式特征,首先需要訓(xùn)練模式特征生成模型,本實(shí)施例中使用基于混合密度網(wǎng)絡(luò)的模式特征生成模型,但并不以此為限?;旌厦芏染W(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的變種,本實(shí)施例中使用深度長短時(shí)記憶的神經(jīng)網(wǎng)絡(luò)框架,輸出是混合高斯模型的參數(shù),即權(quán)重、均值和方差。為了降低模式特征生成模型的復(fù)雜性,本實(shí)施例中高斯函數(shù)均使用球體方差的形式。
訓(xùn)練數(shù)據(jù)使用第二樣本數(shù)據(jù),先對(duì)第二樣本數(shù)據(jù)內(nèi)音頻數(shù)據(jù)進(jìn)行情感特征提取,然后使用前后連續(xù)的多幀情感特征作為混合密度網(wǎng)絡(luò)的輸入特征。例如,可以使用前后連續(xù)的11幀情感特征作為混合密度網(wǎng)絡(luò)的輸入特征,當(dāng)并不以此為限。訓(xùn)練的標(biāo)簽是音樂段落對(duì)應(yīng)的模式特征以及其一階和二階差分。進(jìn)一步的,由于模式特征采樣率一般低于聲學(xué)特征的分幀率,因此可對(duì)模式特征進(jìn)行平滑插值,使得采樣率跟聲學(xué)特征的分幀率一致。訓(xùn)練混合密度網(wǎng)絡(luò)時(shí),訓(xùn)練的目標(biāo)函數(shù)是混合高斯模型的最大似然準(zhǔn)則。
在步驟S103中,通過模式特征生成模型生成所述音頻數(shù)據(jù)的與所述情感特征時(shí)序上對(duì)應(yīng)的模式特征。
本實(shí)施例中,得出所述音頻數(shù)據(jù)的情感特征以后,通過模式特征生成模型生成所述音頻數(shù)據(jù)的與所述情感特征對(duì)應(yīng)的模式特征。其中,所述模式特征生成模型優(yōu)選為基于混合密度網(wǎng)絡(luò)的模式特征生成模型。另外,模式特征生成模型還可以為基于遞歸神經(jīng)網(wǎng)絡(luò)的模式特征生成模型等。通過訓(xùn)練后的所述模式特征生成模型,根據(jù)步驟S102中得出的所述音頻數(shù)據(jù)的情感特征,即可生成所述音頻數(shù)據(jù)的與所述情感特征對(duì)應(yīng)的模式特征。
在步驟S104中,通過預(yù)設(shè)數(shù)據(jù)庫獲取與所述模式特征對(duì)應(yīng)的預(yù)設(shè)可視化信息并展示。
其中,所述預(yù)設(shè)數(shù)據(jù)庫中存儲(chǔ)有多對(duì)一一對(duì)應(yīng)的模式特征和預(yù)設(shè)可視化信息。在步驟S103S中生成所述音頻數(shù)據(jù)的模式特征后,通過預(yù)設(shè)數(shù)據(jù)庫獲取與所述模式特征對(duì)應(yīng)的預(yù)設(shè)可視化信息。然后通過顯示裝置將該預(yù)設(shè)可視化信息按照時(shí)序進(jìn)行顯示,從而完成將音頻數(shù)據(jù)可視化的過程。
優(yōu)選的,預(yù)設(shè)數(shù)據(jù)庫中可以包括多類預(yù)設(shè)可視化信息,以滿足用戶多元化的需求。每一類預(yù)設(shè)可視化信息對(duì)應(yīng)不同的可視化裝置。其中,可視化裝置可以包括噴泉等實(shí)體裝置用于對(duì)可視化信息進(jìn)行展示??梢暬b置也可以包括相關(guān)應(yīng)用程序虛擬工具用于對(duì)可視化信息進(jìn)行顯示。用戶可以根據(jù)實(shí)際需要選定對(duì)應(yīng)類的可視化信息。在選定可視化信息后,步驟S104會(huì)將所述模式特征對(duì)應(yīng)到選定類的可視化信息進(jìn)行顯示。
上述音頻數(shù)據(jù)可視化方法,提取所述音頻數(shù)據(jù)的聲學(xué)特征,通過情感分類模型得出所述音頻數(shù)據(jù)的與所述聲學(xué)特征對(duì)應(yīng)的情感特征,通過模式特征生成模型生成所述音頻數(shù)據(jù)的與所述情感特征對(duì)應(yīng)的模式特征,通過預(yù)設(shè)數(shù)據(jù)庫獲取與所述模式特征對(duì)應(yīng)的預(yù)設(shè)可視化信息并展示,只需預(yù)先定義模式特征的組合,即可根據(jù)任意音頻數(shù)據(jù)生成對(duì)應(yīng)的模式特征并予以顯示,而且聲學(xué)特征、情感特征和模式特征之間在時(shí)序上相對(duì)應(yīng),因此相對(duì)于現(xiàn)有技術(shù),音頻數(shù)據(jù)與可視化信息之間具有更好的一致性和匹配度。
實(shí)施例二:
圖2為本發(fā)明實(shí)施例提供的通過情感分類模型得出所述音頻數(shù)據(jù)的與所述聲學(xué)特征時(shí)序上對(duì)應(yīng)的情感特征的流程圖,詳述如下:
在步驟S201中,通過基于隱馬爾科夫模型的情感分類模型,計(jì)算所述音頻數(shù)據(jù)的每一可發(fā)射隱藏狀態(tài)的后驗(yàn)概率。
在步驟S202中,將所述音頻數(shù)據(jù)的各個(gè)可發(fā)射隱藏狀態(tài)的后驗(yàn)概率形成特征向量,所述特征向量為所述音頻數(shù)據(jù)的情感特征。
其中,對(duì)于所述音頻數(shù)據(jù)的每一情感類別的隱馬爾可夫模型,計(jì)算每一幀音頻數(shù)據(jù)歸類成每一類情感的每一可發(fā)射隱藏狀態(tài)的后驗(yàn)概率。將計(jì)算出的這些后驗(yàn)概率組成一組多維的特征向量。例如,可以將這些后驗(yàn)概率組成一組9維的特征向量。上述特征向量即為所述音頻數(shù)據(jù)的情感特征。
優(yōu)選的,為了解決過程中可能遇到的數(shù)值問題,后驗(yàn)概率使用log后驗(yàn)概率代替。
實(shí)施例三:
圖3為本發(fā)明實(shí)施例提供的通過模式特征生成模型生成所述音頻數(shù)據(jù)的與所述情感特征時(shí)序上對(duì)應(yīng)的模式特征的流程圖,詳述如下:
在步驟S301中,對(duì)于所述音頻數(shù)據(jù)的情感特征,通過基于混合密度網(wǎng)絡(luò)的模式特征生成模型,確定所述音頻數(shù)據(jù)的高斯混合模型參數(shù)。
在步驟S302中,對(duì)所述高斯混合模型,通過最大似然參數(shù)生成算法生成模式特征。
其中,對(duì)于一段給定的音頻數(shù)據(jù),使用實(shí)施例一種所述的模式特征生成模型獲得每一幀音頻數(shù)據(jù)對(duì)應(yīng)的高斯混合模型參數(shù)后,再使用最大似然參數(shù)生成算法生成模式特征,再重新采樣為需要的模式特征采樣率。
應(yīng)理解,上述各個(gè)實(shí)施例中各步驟的序號(hào)的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對(duì)本發(fā)明實(shí)施例的實(shí)施過程構(gòu)成任何限定。
實(shí)施例四:
對(duì)應(yīng)于上文實(shí)施例所述的音頻數(shù)據(jù)可視化方法,圖4示出了本發(fā)明實(shí)施例提供的音頻數(shù)據(jù)可視化裝置的結(jié)構(gòu)框圖。為了便于說明,僅示出了與本實(shí)施例相關(guān)的部分。
參照?qǐng)D4,該裝置包括:聲學(xué)特征提取模塊401、情感特征獲取模塊402、模式生成模塊403和可視化模塊404。
聲學(xué)特征提取模塊401,用于接收音頻數(shù)據(jù)并提取所述音頻數(shù)據(jù)的聲學(xué)特征。情感特征獲取模塊402,用于通過情感分類模型得出與所述聲學(xué)特征時(shí)序上對(duì)應(yīng)的情感特征。模式生成模塊403,用于通過模式特征生成模型生成與所述情感特征時(shí)序上對(duì)應(yīng)的模式特征。可視化模塊404,用于通過預(yù)設(shè)數(shù)據(jù)庫獲取與所述模式特征對(duì)應(yīng)的預(yù)設(shè)可視化信息并展示;所述預(yù)設(shè)數(shù)據(jù)庫中存儲(chǔ)有多對(duì)一一對(duì)應(yīng)的模式特征和預(yù)設(shè)可視化信息。
進(jìn)一步的,音頻數(shù)據(jù)可視化裝置還可以包括:
情感分類模型參數(shù)確定模塊,用于通過第一樣本數(shù)據(jù)對(duì)所述情感分類模型進(jìn)行訓(xùn)練,確定所述情感分類模型的參數(shù);所述情感分類模型為基于隱馬爾科夫模型的情感分類模型;所述第一樣本數(shù)據(jù)包括音頻段落的聲學(xué)特征和與所述音頻段落的聲學(xué)特征在時(shí)序上對(duì)應(yīng)的情感特征。其中,在情感分類模型參數(shù)確定模塊確定完所述情感分類模型的參數(shù)之后,情感特征獲取模塊402再通過情感分類模型得出與所述聲學(xué)特征時(shí)序上對(duì)應(yīng)的情感特征。
進(jìn)一步的,音頻數(shù)據(jù)可視化裝置還可以包括:
模式特征生成模型參數(shù)確定模塊,用于通過第二樣本數(shù)據(jù)對(duì)所述模式特征生成模型進(jìn)行訓(xùn)練,確定所述模式特征生成模型的參數(shù);所述模式特征生成模型為基于混合密度網(wǎng)絡(luò)的模式特征生成模型;所述第二樣本數(shù)據(jù)包括音頻段落的情感特征和與所述音頻段落的情感特征在時(shí)序上對(duì)應(yīng)的模式特征。其中,在模式特征生成模型參數(shù)確定模塊確定完所述模式特征生成模型的參數(shù)之后,模式生成模塊403再通過模式特征生成模型生成與所述情感特征時(shí)序上對(duì)應(yīng)的模式特征.
優(yōu)選的,所述情感特征獲取模塊包括:
計(jì)算單元,用于通過基于隱馬爾科夫模型的情感分類模型,計(jì)算所述音頻數(shù)據(jù)的每一可發(fā)射隱藏狀態(tài)的后驗(yàn)概率;
情感特征生成單元,用于將所述音頻數(shù)據(jù)的各個(gè)可發(fā)射隱藏狀態(tài)的后驗(yàn)概率形成特征向量,所述特征向量為所述音頻數(shù)據(jù)的情感特征。
優(yōu)選的,模式生成模塊包括:
參數(shù)確定單元,用于對(duì)于所述音頻數(shù)據(jù)的情感特征,通過基于混合密度網(wǎng)絡(luò)的模式特征生成模型,確定所述音頻數(shù)據(jù)的高斯混合模型參數(shù);
模式生成單元,用于對(duì)所述高斯混合模型,通過最大似然參數(shù)生成算法生成模式特征。
優(yōu)選的,所述聲學(xué)特征提取模塊包括:
音頻切分單元,用于按照預(yù)設(shè)條件將所述音頻數(shù)據(jù)切分成多段子音頻數(shù)據(jù);所述預(yù)設(shè)條件包括預(yù)設(shè)時(shí)長間隔;
聲學(xué)特征提取單元,用于對(duì)每段所述子音頻數(shù)據(jù)提取聲學(xué)特征。
上述音頻數(shù)據(jù)可視化裝置,提取所述音頻數(shù)據(jù)的聲學(xué)特征,通過情感分類模型得出所述音頻數(shù)據(jù)的與所述聲學(xué)特征時(shí)序上對(duì)應(yīng)的情感特征,通過模式特征生成模型生成所述音頻數(shù)據(jù)的與所述情感特征時(shí)序上對(duì)應(yīng)的模式特征,通過預(yù)設(shè)數(shù)據(jù)庫獲取與所述模式特征對(duì)應(yīng)的預(yù)設(shè)可視化信息并展示,只需預(yù)先定義模式特征的組合,即可根據(jù)任意音頻數(shù)據(jù)生成對(duì)應(yīng)的模式特征并予以顯示,而且聲學(xué)特征、情感特征和模式特征之間在時(shí)序上相對(duì)應(yīng),因此相對(duì)于現(xiàn)有技術(shù),音頻數(shù)據(jù)與可視化信息之間具有更好的一致性和匹配度。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡(jiǎn)潔,僅以上述各功能單元、模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能單元、模塊完成,即將所述裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能單元或模塊,以完成以上描述的全部或者部分功能。實(shí)施例中的各功能單元、模塊可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中,上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。另外,各功能單元、模塊的具體名稱也只是為了便于相互區(qū)分,并不用于限制本申請(qǐng)的保護(hù)范圍。上述系統(tǒng)中單元、模塊的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
在本發(fā)明所提供的實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是通過一些接口,裝置或單元的間接耦合或通訊連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明實(shí)施例的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明實(shí)施例各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。