音頻、視頻內(nèi)容的搜索方法

文檔序號：6459692閱讀：388來源：國知局

專利名稱：音頻、視頻內(nèi)容的搜索方法
技術領域：
本發(fā)明涉及音頻、視頻內(nèi)容的搜索方法。
技術背景隨著互聯(lián)網(wǎng)的發(fā)展，搜索引擎成為人們上網(wǎng)必不可少的工具之一。傳統(tǒng)的搜索引擎都是基于文本搜索(Text Search)，稱為是文本搜索引擎。其原理是搜索引擎服務器收集大量的網(wǎng)頁；并根據(jù)已有的規(guī)則提取網(wǎng)頁中的文本并做分詞(Word Segmentation)處理，常見的分詞方法，例如基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法; 文本搜索引擎利用文本詞庫做索引表用于快速搜索。用戶在進行搜索的時候，將文本輸入到服務器，服務器對該文本進行分詞處理后，根據(jù)索引表進行快速的搜索，然后返回結(jié)果。目前，搜索引擎都是基于文本的，即使是一些搜索圖片或視頻的搜索引擎也是通過圖片或視頻節(jié)目的名稱、說明、介紹、標簽等文本信息進行搜索的。搜索引擎還沒有直接通過音視頻的信號內(nèi)容進行搜索的。這里，我們所說的音視頻是指音頻文件或者視頻文件。通常視頻文件包含音頻信號流和視頻信號流。音頻指紋(audio fingerprinting)在很早以前就被提出來，例如，Jaap Haitsma和Ton Kalke在2002年音樂搜索進展國際會議(Proceedings of International Conference on Music Information Retrieval)上發(fā)表了 "一種高可靠性的音頻指紋系統(tǒng)"(A Highly Robust Audio Fingerprinting System)。這種系統(tǒng)通過信號處理的方法,將音頻文件中每隔一段時間(例如11.6ms)的音頻信號，轉(zhuǎn)化為一個32比特(bit)大小的指紋(fingerprint),通過這種方法一個音頻文件就可以被轉(zhuǎn)換成一個指紋文件。系統(tǒng)在對所有的音頻指紋文件做索引表后，就可以進行快速的音頻指紋檢索了。和音頻指紋系統(tǒng)原理相似地，視頻指紋(video fingerprinting)系統(tǒng)將每一幀(frame) 或者幾幀轉(zhuǎn)化為很小的指紋(例如32比特大小)，然后進行檢索。例如國際專利號為 W02007/127590A2的"基于多分辨率，多幀率和時域信號的數(shù)字視頻指紋處理方法和系統(tǒng)"(Method and system for fingerprinting digital video object based on multiresolution， multirate and temporal signatures)公開了一種將視頻信號的每幀轉(zhuǎn)化為84比特或132比特的視頻指紋處理方法。通過這種方法一個視頻文件就可以被轉(zhuǎn)換成一個很小的指紋文件。在音頻指紋或視頻文件數(shù)目較少(例如l萬個)的情況下，可以將所有的指紋文件存入到3計算機內(nèi)存中，進行索引后，可方便地進行快速的檢索。上述"一種高可靠性的音頻指紋系統(tǒng)"即給出了這種方法的詳細步驟。然而，在實際情況下，視頻文件的數(shù)目要遠遠超過一萬的數(shù)目。例如，目前在互聯(lián)網(wǎng)上出現(xiàn)的視頻文件數(shù)目超過一千萬數(shù)目，而且數(shù)量在不斷增長。因此采用這種方法很難做出實用的搜索引擎。發(fā)明內(nèi)容為了解決上述技術問題，本發(fā)明提供一種音頻、視頻內(nèi)容的搜索方法。本發(fā)明采用如下技術方案一種音頻、視頻內(nèi)容的搜索裝置，包括判斷模塊，用于判斷當前流媒體文件是否包括音頻文件和視頻文件；音頻指紋提取模塊，與所述判斷模塊相連接，用于提取多個音頻文件的音頻指紋；音頻指紋分詞模塊，與所述音頻指紋提取模塊相連接，用于對提取的音頻指紋進行分詞；音頻索引生成模塊，與所述音頻指紋分詞模塊相連接，用于根據(jù)分詞結(jié)果生成音頻指紋索引；視頻指紋提取模塊，與所述判斷模塊相連接，用于提取多個視頻文件的視頻指紋；視頻指紋分詞模塊，與所述視頻指紋提取模塊相連接，用于對提取的視頻指紋進行分詞；視頻索引生成模塊，與所述視頻指紋分詞模塊相連接，用于根據(jù)據(jù)分詞結(jié)果生成視頻指紋索引；搜索模塊，與所述音頻索引生成模塊和視頻索引生成模塊相連接，利用所述音頻指紋索引搜索匹配的音頻文件，利用所述視頻指紋索引搜索匹配的視頻文件。進一步地，所述搜索模塊包括輸入判斷模塊，用于判斷輸入的需要檢索的流媒體文件或流媒體文件片段，是否包括音頻文件和視頻文件如果包括音頻文件或音頻片段，則通過所述音頻指紋提取模塊提取其音頻指紋，并通過音頻指紋分詞模塊對該音頻指紋進行分詞，根據(jù)分詞結(jié)果在該音頻指紋索引中搜索匹配的音頻文件；如果包括視頻文件或視頻片段，則通過所述視頻指紋提取模塊提取其視頻指紋，并通過視頻指紋分詞模塊對該視頻指紋進行分詞，根據(jù)分詞結(jié)果在該視頻指紋索引中搜索匹配的視頻文件。進一步地，還包括存儲模塊，所述搜索模塊通過所述存儲模塊與所述音頻索引生成模塊和視頻索引生成模塊相連接，所述音頻索引生成模塊和視頻索引生成模塊相連接，用于存儲音頻指紋、所述音頻指紋索引及其對應的音頻文件，并存儲視頻指紋、所述視頻指紋索引及其對應的視頻文件。本發(fā)明通過采用文本搜索引擎中的分詞技術，在音視頻指紋文件上進行分詞處理，然后采用文本搜索領域中的索引技術對音視頻指紋進行索引處理，索引處理完成后，搜索引擎可以對用戶輸入的音視頻片段進行搜索。不但方便了用戶的搜索，而且提高了搜索的效率。

圖l為本發(fā)明音頻、視頻指紋搜索裝置實施例結(jié)構(gòu)示意圖。
具體實施方式
如圖1所示，一種音頻、視頻內(nèi)容的搜索裝置，包括判斷模塊，用于判斷當前流媒體文件是否包括音頻文件和視頻文件；音頻指紋提取模塊，與所述判斷模塊相連接，用于提取多個音頻文件的音頻指紋；音頻指紋分詞模塊，與所述音頻指紋提取模塊相連接，用于對提取的音頻指紋進行分詞; 音頻索引生成模塊，與所述音頻指紋分詞模塊相連接，用于根據(jù)分詞結(jié)果生成音頻指紋索引；視頻指紋提取模塊，與所述判斷模塊相連接，用于提取多個視頻文件的視頻指紋；視頻指紋分詞模塊，與所述視頻指紋提取模塊相連接，用于對提取的視頻指紋進行分詞；視頻索引生成模塊，與所述視頻指紋分詞模塊相連接，用于根據(jù)據(jù)分詞結(jié)果生成視頻指紋索引；搜索模塊，與所述音頻索引生成模塊和視頻索引生成模塊相連接，利用所述音頻指紋索引搜索匹配的音頻文件，利用所述視頻指紋索引搜索匹配的視頻文件。進一步地，所述搜索模塊包括輸入判斷模塊，用于判斷輸入的需要檢索的流媒體文件或流媒體文件片段，是否包括音頻文件和視頻文件如果包括音頻文件或音頻片段，則通過所述音頻指紋提取模塊提取其音頻指紋，并通過音頻指紋分詞模塊對該音頻指紋進行分詞，根據(jù)分詞結(jié)果在該音頻指紋索引中搜索匹配的音頻文件；5如果包括視頻文件或視頻片段，則通過所述視頻指紋提取模塊提取其視頻指紋，并通過視頻指紋分詞模塊對該視頻指紋進行分詞，根據(jù)分詞結(jié)果在該視頻指紋索引中搜索匹配的視頻文件。進一步地，還包括存儲模塊，所述搜索模塊通過所述存儲模塊與所述音頻索弓1生成模塊和視頻索弓I生成模塊相連接，用于存儲音頻指紋、所述音頻指紋索引及其對應的音頻文件，并存儲視頻指紋、所述視頻指紋索弓i及其對應的視頻文件。上述實施例中的分詞方式可采用多種方式實現(xiàn)，以下列舉幾種方式分別說明。方式一采用基于統(tǒng)計的中文分詞方法對音頻指紋進行分詞處理。首先將15000個音頻文件按上述Jaap Haitsma和Ton Kalke的方法生成寬度固定的指紋文件，其寬度可以是32比特或16 比特，得到的每個指紋文件平均由約10000個寬度固定的指紋組成。每個32比特或16比特的數(shù)據(jù)被看作是中文中的一個字。所有15000個包含"字"的指紋文件被當作是15000篇"文章"，而這些"文章"則作為中文分詞的語料進行分詞。在統(tǒng)計過程中，對音頻語料中相鄰共現(xiàn)的每個"字"的組合的頻度進行統(tǒng)計。共現(xiàn)頻度高的組合被認為是一個詞，稱為"指紋詞"。例如，頻度較高的7個連續(xù)的二進制"00000000000000000000000000000000"的指紋的組合，和5個連續(xù)的二進制"11111111111111111111111111111111"的指紋的組合被統(tǒng)計是頻度較高的指紋組合，他們被作為"指紋詞"。方式二采用指紋寬度為16比特的音頻指紋提取方法。具體是將方式一中寬度為32比特的指紋進行間隔采樣得到16比特的指紋。然后采用與方式一相同的基于統(tǒng)計的中文分詞方法進行音頻指紋的分詞處理。方式三采用Job Oostven等人在2002年發(fā)表在第五次視頻信息系統(tǒng)進展國際會議(Proceeding of the 5th International Conference on Recent Advances in Visual Information Systems.) 上發(fā)表的視頻指紋的特征提取和一種數(shù)據(jù)庫策略(Feature Extraction and a Database strategy for video fingerprinting.)的方法進行視頻指紋提取。然后將32比特的指紋經(jīng) 過間隔采樣后，得到16比特的視頻指紋文件。最后采用與方式一相同的基于統(tǒng)計的中文分詞方法進行視頻指紋的分詞處理。
權利要求
1、一種音頻、視頻內(nèi)容的搜索裝置，其特征在于包括判斷模塊，用于判斷當前流媒體文件是否包括音頻文件和視頻文件；音頻指紋提取模塊，與所述判斷模塊相連接，用于提取多個音頻文件的音頻指紋；音頻指紋分詞模塊，與所述音頻指紋提取模塊相連接，用于對提取的音頻指紋進行分詞；音頻索引生成模塊，與所述音頻指紋分詞模塊相連接，用于根據(jù)分詞結(jié)果生成音頻指紋索引；視頻指紋提取模塊，與所述判斷模塊相連接，用于提取多個視頻文件的視頻指紋；視頻指紋分詞模塊，與所述視頻指紋提取模塊相連接，用于對提取的視頻指紋進行分詞；視頻索引生成模塊，與所述視頻指紋分詞模塊相連接，用于根據(jù)據(jù)分詞結(jié)果生成視頻指紋索引；搜索模塊，與所述音頻索引生成模塊和視頻索引生成模塊相連接，利用所述音頻指紋索引搜索匹配的音頻文件，利用所述視頻指紋索引搜索匹配的視頻文件。
2、根據(jù)權利要求1所述的音頻、視頻內(nèi)容的搜索裝置，其特征在于所述搜索模塊包括: 輸入判斷模塊，用于判斷輸入的需要檢索的流媒體文件或流媒體文件片段，是否包括音頻文件和視頻文件如果包括音頻文件或音頻片段，則通過所述音頻指紋提取模塊提取其音頻指紋，并通過音頻指紋分詞模塊對該音頻指紋進行分詞，根據(jù)分詞結(jié)果在該音頻指紋索引中搜索匹配的音頻文件；如果包括視頻文件或視頻片段，則通過所述視頻指紋提取模塊提取其視頻指紋，并通過視頻指紋分詞模塊對該視頻指紋進行分詞，根據(jù)分詞結(jié)果在該視頻指紋索引中搜索匹配的視頻文件。
3、根據(jù)權利要求1或2所述的音頻、視頻內(nèi)容的搜索裝置，其特征在于還包括存儲模塊，所述搜索模塊通過所述存儲模塊與所述音頻索引生成模塊和視頻索引生成模塊相連接，所述音頻索引生成模塊和視頻索引生成模塊相連接，用于存儲音頻指紋、所述音頻指紋索引及其對應的音頻文件，并存儲視頻指紋、所述視頻指紋索引及其對應的視頻文件。
全文摘要
一種音頻、視頻內(nèi)容的搜索裝置，包括判斷模塊，用于判斷當前流媒體文件是否包括音頻文件和視頻文件；音頻指紋提取模塊，與所述判斷模塊相連接，音頻指紋分詞模塊，與所述音頻指紋提取模塊相連接；音頻索引生成模塊，與所述音頻指紋分詞模塊相連接；視頻指紋提取模塊，與所述判斷模塊相連接；視頻指紋分詞模塊，與所述視頻指紋提取模塊相連接；視頻索引生成模塊，與所述視頻指紋分詞模塊相連接；搜索模塊。本發(fā)明通過采用文本搜索引擎中的分詞技術，在音視頻指紋文件上進行分詞處理，然后采用文本搜索領域中的索引技術對音視頻指紋進行索引處理，搜索引擎可以對用戶輸入的音視頻片段進行搜索。不但方便了用戶的搜索，而且提高了搜索的效率。
文檔編號G06F17/30GK101673267SQ200810042858
公開日2010年3月17日申請日期2008年9月12日優(yōu)先權日2008年9月12日
發(fā)明者程建章, 連惠城申請人:未序網(wǎng)絡科技(上海)有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：連惠城;程建章
技術所有人：未序網(wǎng)絡科技（上海）有限公司
我是此專利的發(fā)明人

上一篇：影像譯碼裝置及方法
上一篇：音頻、視頻內(nèi)容的搜索方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

音頻、視頻內(nèi)容的搜索方法