在播放視頻的設(shè)備中識別視頻中音頻的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及音頻處理領(lǐng)域,尤其涉及在播放視頻的設(shè)備中識別視頻中音頻的方法和裝置。
【背景技術(shù)】
[0002]隨著娛樂信息技術(shù)的蓬勃發(fā)展,用戶越來越追求高質(zhì)、高速且無障礙的信息獲取。例如,用戶在觀看視頻時,若聽到好聽的背景音樂,可能希望獲得背景音樂的樂曲信息。
[0003]目前,在觀看視頻時獲取背景音樂的樂曲信息的方式,通常是在第二設(shè)備中打開基于音頻識別樂曲的應(yīng)用,以接收來自播放視頻的第一設(shè)備的音頻,并對該音頻進(jìn)行分析處理后給出結(jié)果。
[0004]然而,這種跨設(shè)備進(jìn)行的音頻識別方式,可能存在較大的環(huán)境噪音,因此會產(chǎn)生較大的識別誤差或?qū)е伦R別失敗。
【發(fā)明內(nèi)容】
[0005]本申請的目的在于提出一種在播放視頻的設(shè)備中識別視頻中音頻的方法和裝置,來解決以上【背景技術(shù)】部分提到的技術(shù)問題。
[0006]第一方面,本申請?zhí)峁┝艘环N在播放視頻的設(shè)備中識別視頻中音頻的方法,包括:響應(yīng)于用戶的截取指令而截取正在播放的視頻中的音頻信息;對截取的音頻信息提取音頻特征,得到待識別音頻指紋;比對所述待識別音頻指紋與預(yù)設(shè)的音頻指紋數(shù)據(jù)庫中的樂曲音頻指紋的相似度;按照相似度從高至低,獲取預(yù)設(shè)數(shù)量的樂曲音頻指紋,查詢以獲取的音頻指紋為索引的樂曲的元數(shù)據(jù);呈現(xiàn)查詢得到的元數(shù)據(jù)。
[0007]在一些實施例中,所述方法還包括:接收用戶操作;響應(yīng)于所述用戶操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令。
[0008]在一些實施例中,響應(yīng)于所述用戶操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令包括以下一項或多項:響應(yīng)于所述用戶操作為對正在播放的視頻中呈現(xiàn)的截取選項的選擇操作,并且所述選擇操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;響應(yīng)于所述用戶操作為對快捷鍵的按鍵操作,并且所述按鍵操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;響應(yīng)于所述用戶操作為指紋輸入,并且所述指紋輸入為預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;響應(yīng)于所述用戶操作為音波輸入,并且所述音波輸入為預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;以及響應(yīng)于所述用戶操作為正在播放視頻的設(shè)備感應(yīng)到的操作,并且所述感應(yīng)到的操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令。
[0009]在一些實施例中,所述響應(yīng)于用戶的截取指令而截取正在播放的視頻中的音頻信息包括:響應(yīng)于用戶的截取指令而截取所述正在播放的視頻的音頻源文件,得到截取的音頻信息;和/或響應(yīng)于用戶的截取指令而對所述正在播放的視頻進(jìn)行錄音,得到截取的音頻?目息。
[0010]在一些實施例中,在云端服務(wù)器進(jìn)行以下一項或多項操作:對截取的音頻信息提取音頻特征,得到待識別音頻指紋;比對所述待識別音頻指紋與預(yù)設(shè)的音頻指紋數(shù)據(jù)庫中的樂曲音頻指紋的相似度;按照相似度從高至低,獲取預(yù)設(shè)數(shù)量的樂曲音頻指紋,查詢以獲取的音頻指紋為索引的樂曲的元數(shù)據(jù)。
[0011]在一些實施例中,通過以下一項或多項表現(xiàn)形式向用戶呈現(xiàn)查詢得到的樂曲的元數(shù)據(jù):語音、文本、圖片和流媒體。
[0012]在一些實施例中,在預(yù)設(shè)位置以以下一項或多項呈現(xiàn)方式向用戶呈現(xiàn)查詢得到的樂曲的元數(shù)據(jù):預(yù)設(shè)顏色、預(yù)設(shè)亮度和預(yù)設(shè)遮罩狀態(tài)。
[0013]第二方面,本申請?zhí)峁┝艘环N在播放視頻的設(shè)備中識別視頻中音頻的裝置,其特征在于,所述裝置包括:截取模塊,用于響應(yīng)于用戶的截取指令而截取正在播放的視頻中的音頻信息;提取模塊,用于對截取的音頻信息提取音頻特征,得到待識別音頻指紋;比對模塊,用于比對所述待識別音頻指紋與預(yù)設(shè)的音頻指紋數(shù)據(jù)庫中的樂曲音頻指紋的相似度;獲取模塊,用于按照相似度從高至低,獲取預(yù)設(shè)數(shù)量的樂曲音頻指紋,查詢以獲取的音頻指紋為索引的樂曲的元數(shù)據(jù);呈現(xiàn)模塊,用于呈現(xiàn)查詢得到的樂曲的元數(shù)據(jù)。
[0014]在一些實施例中,所述裝置還包括:接收模塊,用于接收用戶操作;觸發(fā)模塊,用于響應(yīng)于所述用戶操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令。
[0015]在一些實施例中,所述觸發(fā)模塊包括以下一項或多項:選項觸發(fā)模塊,用于響應(yīng)于所述用戶操作為對正在播放的視頻中呈現(xiàn)的截取選項的選擇操作,并且所述選擇操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;快捷鍵觸發(fā)模塊,用于響應(yīng)于所述用戶操作為對快捷鍵的按鍵操作,并且所述按鍵操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;指紋觸發(fā)模塊,用于響應(yīng)于所述用戶操作為指紋輸入,并且所述指紋輸入為預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;音波觸發(fā)模塊,用于響應(yīng)于所述用戶操作為音波輸入,并且所述音波輸入為預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;以及感應(yīng)觸發(fā)模塊,用于響應(yīng)于所述用戶操作為正在播放視頻的設(shè)備感應(yīng)到的操作,并且所述感應(yīng)到的操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令。
[0016]在一些實施例中,所述截取模塊包括:源音頻截取模塊,用于響應(yīng)于用戶的截取指令而截取所述正在播放的視頻的音頻源文件,得到截取的音頻信息;和/或錄音截取模塊,用于響應(yīng)于用戶的截取指令而對所述正在播放的視頻進(jìn)行錄音,得到截取的音頻信息。
[0017]在一些實施例中,以下一個或多個模塊設(shè)于云端服務(wù)器:提取模塊、比對模塊和獲取模塊。
[0018]在一些實施例中,所述呈現(xiàn)模塊通過以下一項或多項表現(xiàn)形式向用戶呈現(xiàn)查詢得到的樂曲的元數(shù)據(jù):語音、文本、圖片和流媒體。
[0019]在一些實施例中,所述呈現(xiàn)模塊在預(yù)設(shè)位置以以下一項或多項呈現(xiàn)方式向用戶呈現(xiàn)查詢得到的樂曲的元數(shù)據(jù):預(yù)設(shè)顏色、預(yù)設(shè)亮度和預(yù)設(shè)遮罩狀態(tài)。
[0020]第三方面,本申請?zhí)峁┝艘环N視頻播放裝置,所述視頻播放裝置包括如上所述的在播放視頻的設(shè)備中識別視頻中音頻的裝置。
[0021]第四方面,本申請?zhí)峁┝艘环N電子設(shè)備,所述電子設(shè)備包括:如上所述的在播放視頻的設(shè)備中識別視頻中音頻的裝置;和/或如上所述的視頻播放裝置。
[0022]本申請?zhí)峁┑脑诓シ乓曨l的設(shè)備中識別視頻中音頻的方法和裝置,通過響應(yīng)于用戶的截取指令而截取正在播放的視頻中的音頻信息,而后對截取的音頻信息提取音頻特征,比對所述待識別音頻指紋與預(yù)設(shè)的音頻指紋數(shù)據(jù)庫中的樂曲音頻指紋的相似度,之后按照相似度從高至低,獲取預(yù)設(shè)數(shù)量的樂曲音頻指紋,查詢以獲取的音頻指紋為索引的樂曲的元數(shù)據(jù),最后呈現(xiàn)查詢得到的元數(shù)據(jù),從而有效降低了識別過程中的環(huán)境噪音,進(jìn)而提高了音頻識別的精準(zhǔn)度以及音頻識別的成功率。
【附圖說明】
[0023]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
[0024]圖1是本申請可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
[0025]圖2是根據(jù)本申請的在播放視頻的設(shè)備中識別視頻中音頻的方法的一個實施例的流程圖;
[0026]圖3是根據(jù)本申請的在播放視頻的設(shè)備中識別視頻中音頻的方法的一個應(yīng)用場景的截屏示意圖;
[0027]圖4是根據(jù)本申請的在播放視頻的設(shè)備中識別視頻中音頻的方法的又一個實施例的流程圖;
[0028]圖5是根據(jù)本申請的在播放視頻的設(shè)備中識別視頻中音頻的裝置的一個實施例的結(jié)構(gòu)示意圖;
[0029]圖6是適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的計算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0030]下面結(jié)合附圖和實施例對本申請作進(jìn)一步的詳細(xì)說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
[0031]需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細(xì)說明本申請。
[0032]圖1示出了可以應(yīng)用本申請的在播放視頻的設(shè)備中識別視頻中音頻的方法和裝置的實施例的示例性系統(tǒng)架構(gòu)100。
[0033]如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
[0034]用戶可以使用終端設(shè)備101、102、103通過網(wǎng)絡(luò)104與服務(wù)器105交互,以接收或發(fā)送消息等。終端設(shè)備101、102、103上可以安裝有各種通訊客戶端應(yīng)用,例如視頻播放平臺、網(wǎng)頁瀏覽應(yīng)用、搜索類應(yīng)用、即時通信工具、郵箱客戶端、社交平臺軟件等。
[0035]終端設(shè)備101、102、103可以是具有顯示屏并且支持視頻播放的各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、膝上型便攜計算機(jī)和臺式計算機(jī)等等。
[0036]服務(wù)器105可以是提供各種服務(wù)的服務(wù)器,例如對終端設(shè)備101、102、103上顯示的視頻播放提供支持的后臺服務(wù)器。后臺服務(wù)器可以對截取的音頻信息等數(shù)據(jù)進(jìn)行分析等處理,并將處理結(jié)果(例如以獲取的音頻指紋為索引的樂曲的元數(shù)據(jù))反饋