用于內(nèi)容識別的音頻指紋的制作方法
【專利摘要】用于識別流過電視的多媒體內(nèi)容的方法和系統(tǒng)包括從被選擇用于在電視處呈現(xiàn)的多媒體內(nèi)容中取回音頻信號。所取回的音頻信號被劃分到較小間隔的多個區(qū)段中。分析特定的區(qū)段來識別聲學(xué)調(diào)制并基于該聲學(xué)調(diào)制生成該特定區(qū)段的區(qū)別向量,其中該向量定義了音頻信號的特定區(qū)段的獨有指紋。使用該特定區(qū)段的向量來查詢服務(wù)器上的內(nèi)容數(shù)據(jù)庫以獲得匹配該特定區(qū)段的指紋的多媒體內(nèi)容的內(nèi)容信息。內(nèi)容信息被用于識別與所接收的用于呈現(xiàn)的音頻信號相匹配的多媒體內(nèi)容的源和多媒體內(nèi)容。
【專利說明】用于內(nèi)容識別的音頻指紋
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻指紋,更具體地涉及用于所連接的電視的音頻指紋。
【背景技術(shù)】
[0002]電視觀看已經(jīng)在多年間發(fā)生了改變。技術(shù)的進(jìn)步已經(jīng)允許電視制造商將互聯(lián)網(wǎng)和web特征集成到電視機中,來提供通過這些電視機連接和訪問在線交互媒體、互聯(lián)網(wǎng)TV、OTT內(nèi)容(over-the-top content)、和按需流媒體的能力。除了電視機之外,一些諸如機頂盒、藍(lán)光播放器、游戲控制器、和其他協(xié)同設(shè)備之類的外部設(shè)備也裝備了這些互聯(lián)網(wǎng)和web特征以便使得傳統(tǒng)的、沒有所集成的這些特征的電視機能夠通過這些外部設(shè)備訪問互聯(lián)網(wǎng)和web特征。利用這些帶互聯(lián)網(wǎng)功能的電視機,觀看者能夠搜索和找到在web上可用、本地可用、或者直接由內(nèi)容提供商提供的視頻、電影、照片、和其他內(nèi)容,該內(nèi)容提供商例如是有線內(nèi)容提供商、衛(wèi)星內(nèi)容提供商、其他用戶等等。并入到TV和外部設(shè)備中的互聯(lián)網(wǎng)特征還提供了與社交網(wǎng)絡(luò)站點的集成,從而允許觀看者在進(jìn)行傳統(tǒng)的TV觀看的同時進(jìn)行社交互動。
[0003]帶有互聯(lián)網(wǎng)功能的電視機擁有眾多的應(yīng)用以允許用戶搜索并選擇用于觀看的內(nèi)容。然而,要被觀看的內(nèi)容的身份(identity)和/或內(nèi)容的源在電視機處可能不是可用的。如果能夠通過指紋來識別被選擇用于觀看的內(nèi)容從而使得與該內(nèi)容有關(guān)的附加信息和宣傳內(nèi)容(包括與內(nèi)容相關(guān)的事件)能夠被呈現(xiàn)給觀看者,那么這將是有利的。在當(dāng)前的信息時代,示出任何與該內(nèi)容有關(guān)的附加信息能夠增加用戶的參與度和用戶的滿意度。
[0004]這是產(chǎn)生本發(fā)明的實施例的背景。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的實施例描述了在電視上允許對被選擇用于觀看的多媒體內(nèi)容進(jìn)行識別的方法和系統(tǒng)?;ヂ?lián)網(wǎng)使能的電視機或外部設(shè)備的處理器執(zhí)行的算法從被選擇用于在電視設(shè)備處呈現(xiàn)的多媒體內(nèi)容中取回音頻信號、通過檢查該音頻信號的調(diào)制特性來執(zhí)行該音頻信號中的一部分的指紋化、以及使用指紋來識別與來自內(nèi)容提供商的內(nèi)容有關(guān)的信息。內(nèi)容信息可被用于識別與該內(nèi)容有關(guān)的附加信息或宣傳媒體,或者用于生成在該內(nèi)容旁邊呈現(xiàn)的事件。
[0006]實施例提供了一種使用音頻信號確定諸如視頻內(nèi)容之類的多媒體內(nèi)容的源的方式。由于大多數(shù)受保護(hù)的內(nèi)容在給定音頻的情況下是可識別的,因此分析多媒體內(nèi)容的圖像不如分析所廣播的話語和音樂那么重要。當(dāng)前的實施例提供了通過執(zhí)行以下動作聚焦在一小段音頻信號上來識別整個內(nèi)容的方式:提取被選擇用于呈現(xiàn)的多媒體內(nèi)容的音頻部分、對該音頻部分進(jìn)行指紋化、以及將該指紋與數(shù)據(jù)庫中可用的多媒體內(nèi)容的相應(yīng)音頻部分進(jìn)行匹配來確定該多媒體內(nèi)容。當(dāng)前實施例提供了一種高效算法,該算法聚焦于音頻信號的一部分的調(diào)制特性上來匹配從多個內(nèi)容提供商中獲得的多媒體內(nèi)容。算法還提供了這樣的能力:通過在本地緩存中存儲與內(nèi)容有關(guān)的信息并執(zhí)行對流向電視機的音頻信號的周期性驗證來驗證該音頻信號是針對同一內(nèi)容的。算法通過以下動作來執(zhí)行周期性驗證:生成流式音頻信號的新指紋并與本地緩存中的內(nèi)容信息進(jìn)行比較來確定信號是否繼續(xù)與本地緩存中的內(nèi)容相匹配或者是否有偏離。如果存在偏離,那么算法啟動在數(shù)據(jù)庫服務(wù)器上的搜索以找尋與其中存儲的內(nèi)容的匹配并且匹配周期繼續(xù)。如果不存在偏離,那么不需要查詢數(shù)據(jù)庫服務(wù)器來找尋匹配,從而在提供對于內(nèi)容的高效和精確匹配的同時產(chǎn)生了資源優(yōu)化和匹配速度。
[0007]應(yīng)當(dāng)認(rèn)識到,本發(fā)明能夠以多種方式(例如,方法和系統(tǒng)的方式)實現(xiàn)。本發(fā)明的數(shù)個創(chuàng)造性實施例被描述如下。
[0008]在一個實施例中,公開了一種用于識別流過電視的多媒體內(nèi)容的方法。該方法包括從被選擇用于在電視處呈現(xiàn)的多媒體內(nèi)容中取回音頻信號。所取回的音頻信號被劃分到較小間隔的多個區(qū)段中。分析特定的區(qū)段來識別聲學(xué)調(diào)制(acoustic modulation)并基于該聲學(xué)調(diào)制生成該特定區(qū)段的區(qū)別向量。該向量定義了音頻信號的特定區(qū)段的獨有指紋。使用該特定區(qū)段的向量來查詢服務(wù)器上的內(nèi)容數(shù)據(jù)庫以獲得匹配該特定區(qū)段的指紋的多媒體內(nèi)容的內(nèi)容信息。內(nèi)容信息被用于識別與所接收的用于呈現(xiàn)的音頻信號相匹配的多媒體內(nèi)容的源和多媒體內(nèi)容。
[0009]在另一實施例中,公開了一種用于識別流過電視的內(nèi)容的方法。該方法包括從被選擇用于在電視處呈現(xiàn)的內(nèi)容中取回音頻信號。音頻信號被劃分到較小間隔的多個區(qū)段中。分析音頻信號的特定區(qū)段來識別聲學(xué)調(diào)制以基于該聲學(xué)調(diào)制生成針對特定區(qū)段的向量。該向量標(biāo)識了與該特定區(qū)段的數(shù)據(jù)點有關(guān)的多個浮點數(shù)并且定義了音頻信號的特定區(qū)段的獨有音頻指紋。內(nèi)容數(shù)據(jù)庫被搜索來識別帶有具有最接近于該特定區(qū)段的多個浮點數(shù)的數(shù)據(jù)點的音頻區(qū)段的一個或多個內(nèi)容。內(nèi)容數(shù)據(jù)庫是對于多個音頻區(qū)段的預(yù)計算出的數(shù)據(jù)點的存儲庫,該多個音頻區(qū)段表示從多個內(nèi)容提供商處獲得的多個內(nèi)容的多個音頻信號的不同部分。帶有某一音頻區(qū)段的內(nèi)容被識別出,該音頻區(qū)段具有最接近特定區(qū)段的浮點數(shù)的數(shù)據(jù)點。使用帶有與該特定區(qū)段相匹配的音頻區(qū)段的內(nèi)容的內(nèi)容標(biāo)識符來查詢內(nèi)容提供商數(shù)據(jù)庫。響應(yīng)于該查詢,從內(nèi)容提供商數(shù)據(jù)庫中接收內(nèi)容的一部分。該內(nèi)容的一部分包括匹配特定區(qū)段的內(nèi)容記錄以及針對預(yù)定量時間的附加記錄。從內(nèi)容提供商數(shù)據(jù)庫接收的內(nèi)容的一部分被用于對流經(jīng)電視的音頻信號的后續(xù)匹配。
[0010]在另一實施例中,公開了一種用于匹配流經(jīng)電視的內(nèi)容的宣傳媒體的方法。該方法包括從被選擇用于在電視處呈現(xiàn)的內(nèi)容中取回音頻信號。音頻信號被劃分到較小間隔的多個區(qū)段中。分析音頻信號的特定區(qū)段來識別調(diào)制特征并生成與關(guān)聯(lián)于音頻區(qū)段的數(shù)據(jù)點有關(guān)的多個浮點數(shù)的向量。該向量定義了音頻區(qū)段的獨有指紋。內(nèi)容數(shù)據(jù)庫被搜索來識別帶有具有最接近于音頻信號的特定區(qū)段的多個浮點數(shù)的數(shù)據(jù)點的音頻區(qū)段的內(nèi)容。內(nèi)容數(shù)據(jù)庫是對于多個音頻區(qū)段的預(yù)計算出的數(shù)據(jù)點的存儲庫,該多個音頻區(qū)段表示與從多個內(nèi)容提供商處獲得的多個內(nèi)容相關(guān)聯(lián)的多個音頻信號的不同部分。使用特定區(qū)段的指紋來從服務(wù)數(shù)據(jù)庫中識別出與該內(nèi)容有關(guān)的宣傳媒體。從內(nèi)容提供商數(shù)據(jù)庫中接收內(nèi)容的一部分,從廣告活動數(shù)據(jù)庫中接收與所識別的宣傳媒體有關(guān)的元數(shù)據(jù)和資產(chǎn)(assets)。使用所取回的元數(shù)據(jù)和資產(chǎn)對宣傳媒體的多媒體內(nèi)容進(jìn)行組裝以在電視上在與音頻信號流有關(guān)的內(nèi)容旁邊進(jìn)行呈現(xiàn)。
[0011]因此,發(fā)明的實施例提供了用于通過使用聲學(xué)調(diào)制對從內(nèi)容中提取的音頻信號的一部分進(jìn)行指紋化以及將該指紋與存儲在內(nèi)容數(shù)據(jù)庫中的內(nèi)容進(jìn)行匹配來識別流經(jīng)電視機的內(nèi)容的源的高效搜索和匹配算法。匹配算法在提供高效匹配的同時使用了最優(yōu)的系統(tǒng)資源。算法繼續(xù)通過周期性的指紋化和匹配來驗證匹配的有效性。算法使用周期性匹配的結(jié)果來識別和更新在內(nèi)容旁邊呈現(xiàn)的事件或附加信息。附加信息與當(dāng)前流經(jīng)電視機的內(nèi)容有關(guān)并且以無縫的方式被提供在內(nèi)容的旁邊,從而增強了用戶的電視觀看體驗。用戶體驗的滿意度能夠被充分利用來增加通過將適當(dāng)?shù)男麄髅襟w定位給用戶的貨幣化。
[0012]本發(fā)明的其他方面將根據(jù)以下詳細(xì)描述并結(jié)合附圖變得清楚,該以下詳細(xì)描述通過示例的方式闡述了本發(fā)明的原則。
【專利附圖】
【附圖說明】
[0013]通過參考結(jié)合附圖的以下描述可最佳地理解本發(fā)明。
[0014]圖1示出了在本發(fā)明的一個實施例中,裝備有算法的系統(tǒng)的簡化概圖,包括算法內(nèi)用于識別流經(jīng)電視的多媒體內(nèi)容的源和內(nèi)容的各種模塊。
[0015]圖2a_2f示出了對在本發(fā)明的一個實施例中使用算法的C和Matlab實現(xiàn)的音頻信號的采樣音頻區(qū)段的調(diào)制特性進(jìn)行比較的簡圖。
[0016]圖3示出了在本發(fā)明的一個實施例中用于將特定區(qū)段與內(nèi)容的相應(yīng)區(qū)段相匹配的局部敏感哈希(locality sensitive hashing)技術(shù)的圖形表示。
[0017]圖4示出了在一個實施例中被用于通過分析音頻區(qū)段的調(diào)制特性來生成區(qū)別向量的示意調(diào)制流程圖。
[0018]圖5示出了在本發(fā)明的一個實施例中算法遵循的用以生成音頻區(qū)段的指紋的示意音頻指紋流程圖。
[0019]圖6示出了在本發(fā)明的一個實施例中由算法用于識別流經(jīng)電視的多媒體內(nèi)容的處理流操作的流程圖。
[0020]圖7示出了在本發(fā)明的替換實施例中由算法用于識別流經(jīng)電視的多媒體內(nèi)容的各種處理流操作的流程圖。
[0021]圖8示出了識別用于將宣傳媒體與流經(jīng)電視的內(nèi)容匹配的處理流操作的替換實施例。
【具體實施方式】
[0022]廣泛地講,本發(fā)明的實施例提供了識別流經(jīng)電視的多媒體內(nèi)容的方法和系統(tǒng)。在互聯(lián)網(wǎng)使能的電視或者連接至電視的互聯(lián)網(wǎng)使能的外部設(shè)備的處理器上執(zhí)行的算法從被選擇用于呈現(xiàn)的內(nèi)容中選擇音頻區(qū)段、生成音頻指紋并使用該音頻指紋來識別多媒體內(nèi)容的源和多媒體內(nèi)容信息。算法利用音頻區(qū)段的聲學(xué)調(diào)制特性來執(zhí)行匹配并且在以最優(yōu)和有效的方式使用網(wǎng)絡(luò)資源的同時通過周期性驗證來確保正確的匹配。算法采用算法可用的本地緩存來存儲匹配內(nèi)容和執(zhí)行周期性驗證以確保所識別的內(nèi)容繼續(xù)與電視處的流內(nèi)容有關(guān)。算法還使用多媒體內(nèi)容信息來識別附加信息(例如,與內(nèi)容有關(guān)的宣傳媒體和/或事件)以在內(nèi)容的旁邊進(jìn)行呈現(xiàn)。
[0023]在簡要概述之后,現(xiàn)在參考附圖來詳細(xì)描述發(fā)明的各種實施例。圖1示出了系統(tǒng)的簡化概圖,其標(biāo)識了用于識別流至電視的多媒體內(nèi)容的高層軟件/硬件模塊。系統(tǒng)包括呈現(xiàn)設(shè)備(例如,電視100)來請求和接收來自內(nèi)容提供商的內(nèi)容。在一個實施例中,電視包括被集成到電視中的互聯(lián)網(wǎng)連接接口 110-a。在另一實施例中,電視被連接至諸如帶有集成的互聯(lián)網(wǎng)使能接口的機頂盒110-b之類的外部設(shè)備?;ヂ?lián)網(wǎng)連接/使能接口例如可包括替代通過諸如衛(wèi)星信號或者有線電視格式之類的傳統(tǒng)模式進(jìn)行遞送,通過互聯(lián)網(wǎng)接收電視服務(wù)的互聯(lián)網(wǎng)協(xié)議組(suite)。電視服務(wù)可包括直播電視、時移電視和按需視頻(VOD)內(nèi)容。通常,在互聯(lián)網(wǎng)使能的電視中,內(nèi)容保留在內(nèi)容提供商的網(wǎng)絡(luò)服務(wù)器上并且所請求的節(jié)目被流向電視。結(jié)果,電視中的互聯(lián)網(wǎng)連接接口未意識到所請求的內(nèi)容的源以及與該內(nèi)容有關(guān)的信息。電視還裝備有硬件音頻捕獲系統(tǒng)(HAC) 115,該硬件音頻捕獲系統(tǒng)被配置為:與互聯(lián)網(wǎng)使能/連接接口進(jìn)行交互并且從從內(nèi)容提供商的網(wǎng)絡(luò)服務(wù)器中選擇用于流向電視的內(nèi)容中提取音頻信號的一部分,其中被選擇用于流處理的內(nèi)容是響應(yīng)于觀看者的請求的并且能夠是直播電視、時移電視和VOD內(nèi)容中的任何一種。HAC與電視處可用的算法120 (例如,音頻處理算法)進(jìn)行交互以發(fā)送捕獲自互聯(lián)網(wǎng)連接接口的音頻信號用于進(jìn)一步處理。
[0024]算法120接收音頻信號的一部分并且將該部分音頻信號劃分為較小間隔的多個區(qū)段。在一個實施例中,被算法接收的該部分音頻信號可被劃分為5秒間隔的區(qū)段。然后算法選擇特定的區(qū)段進(jìn)行分析。在一個實施例中,算法可基于其內(nèi)所包括的內(nèi)容的有效載荷數(shù)據(jù)來選擇進(jìn)行分析的特定區(qū)段。然后算法分析該特定的音頻區(qū)段來確定音頻信號的聲學(xué)調(diào)制并生成浮點數(shù)的區(qū)別向量。該向量基于特定區(qū)段的調(diào)制特性定義了音頻信號的音頻指紋。生成定義了音頻指紋的區(qū)別向量的處理將在下文參考圖1進(jìn)一步描述。在一個實施例中,使用所生成的矢量,算法查詢在與電視相關(guān)聯(lián)的本地服務(wù)器上可用的內(nèi)容數(shù)據(jù)庫來找尋帶有在服務(wù)器上可用的數(shù)據(jù)的指紋的匹配。將指紋與內(nèi)容數(shù)據(jù)庫中的內(nèi)容匹配的處理將參考其他圖在下文詳細(xì)描述。在找到匹配后,算法從內(nèi)容數(shù)據(jù)庫獲得包括多媒體內(nèi)容的源的內(nèi)容信息。算法可使用該內(nèi)容信息來取回覆蓋特定區(qū)段的時間的內(nèi)容記錄以及針對預(yù)定量時間的附加記錄,并將其存儲在本地緩存125中。本地緩存中的信息可被算法用來進(jìn)一步驗證流經(jīng)電視的內(nèi)容。
[0025]在另一實施例中,本地緩存可被用于預(yù)填充內(nèi)容和相應(yīng)的指紋,并且算法可使用本地緩存中的信息來找尋與音頻信號的區(qū)段的匹配。在此實施例中,后端服務(wù)器基于以下內(nèi)容來動態(tài)地收集內(nèi)容相關(guān)的信息和相應(yīng)的指紋信息:電視設(shè)備的用戶通常觀看什么節(jié)目、觀看什么節(jié)目的頻率更高、特定的地理區(qū)域的用戶(使用用戶的郵政編碼)流行什么節(jié)目等等。當(dāng)用戶選擇在電視上觀看的內(nèi)容時,電視處的算法請求服務(wù)器下載緩存。響應(yīng)于來自算法的請求,服務(wù)器將不同子集的內(nèi)容和相應(yīng)的匹配指紋推送到電視的本地緩存上。然后算法使用本地緩存中的信息來識別用戶所選擇的內(nèi)容。本地緩存中的信息能夠被使用直到它到期。當(dāng)該信息到期時,算法發(fā)送針對該內(nèi)容和與該內(nèi)容相關(guān)聯(lián)的指紋的更新請求至后端服務(wù)器,并且后端服務(wù)器將轉(zhuǎn)送恰當(dāng)?shù)膬?nèi)容和指紋信息來裝載本地緩存。
[0026]在一個實施例中,算法通過查詢一個或多個網(wǎng)絡(luò)服務(wù)器上可用的一個或多個數(shù)據(jù)庫來執(zhí)行指紋匹配。例如,算法可首先生成音頻信號的所選區(qū)段的指紋并且查詢網(wǎng)絡(luò)服務(wù)器上的內(nèi)容數(shù)據(jù)庫210來找尋指紋的匹配。內(nèi)容數(shù)據(jù)庫可為針對從多個內(nèi)容提供商處獲得的多個音頻信號的多個部分的指紋的存儲庫。在一個實施例中,來自多個內(nèi)容提供商的內(nèi)容信息可以被提前獲得并且被存儲在對算法本地可用的服務(wù)器上的內(nèi)容數(shù)據(jù)庫中,從而使得內(nèi)容能夠被輕易地識別出而不管它被廣播的位置和時間。內(nèi)容數(shù)據(jù)庫中的內(nèi)容的音頻部分可被指紋化,并且這些指紋可被存儲在內(nèi)容的旁邊或者被存儲在服務(wù)器上的分離的數(shù)據(jù)庫中,該服務(wù)器裝備有搜索軟件并且用于當(dāng)前被選擇用于在電視處觀看的內(nèi)容的匹配。服務(wù)器上的搜索軟件幫助搜索數(shù)據(jù)庫并找尋內(nèi)容的匹配。使用此信息,在電視的處理器上執(zhí)行的算法然后查詢第二服務(wù)器(例如,事件服務(wù)器或者商業(yè)信息服務(wù)(BIS)服務(wù)器)以確定是否存在為所選內(nèi)容被流入的特定日期時間安排的針對此音頻的任何(一個或多個)BIS服務(wù)、廣告活動或事件。如果發(fā)現(xiàn)了針對該時間段的服務(wù)、事件或者廣告活動,那么算法從廣告活動數(shù)據(jù)庫中抓取服務(wù)/事件/廣告活動的元數(shù)據(jù)和資產(chǎn)來創(chuàng)建該服務(wù)/廣告活動的應(yīng)用或視頻。應(yīng)用或視頻被呈現(xiàn)在流入電視中的內(nèi)容的旁邊并且提供了與內(nèi)容有關(guān)的附加信息或宣傳媒體。觀看所選內(nèi)容的觀看者被提供了與正在觀看的內(nèi)容最相關(guān)的附加信息,從而豐富了用戶的觀看體驗。算法提供了提取一小部分音頻信號的特征并使用它來匹配和描述被選擇進(jìn)行流處理的完整視頻內(nèi)容的能力。
[0027]現(xiàn)在將參考圖1詳細(xì)描述特征提取和指紋化。在典型的音頻/視頻記錄中,計算出的媒體的特征的頂部(peak)和轉(zhuǎn)折(transition)在編輯、壓縮和傳輸期間沒有太大的變化。此外,在語音領(lǐng)域(speech world),已確定大多數(shù)的語音信息集中與4Hz左右。結(jié)果,算法使用調(diào)制聲譜圖(spectrogram)來捕獲音頻信號的調(diào)制特性并且使用音頻調(diào)制指紋技術(shù)來識別視頻的指紋。算法生成針對所選的音頻信號的特定區(qū)段的隨時間推移的聲譜圖并且查找在不同頻率周圍分布的能量。為了實現(xiàn)它,使用帶通濾波器將所選區(qū)段內(nèi)的音頻信號劃分到不同的波帶/通道中。在一個實施例中,使用13個線性分隔的濾波器將所選的音頻區(qū)段劃分以獲得13個不同的通道。與使用帶通濾波器劃分音頻信號有關(guān)的附加信息在可從https://engineering, purdue.edu/ ?malcolm/interval/1998-010/ 獲得的“音頻工具箱(Auditory Toolbox) ”中被描述,通過引用將該地址合并于此??梢院喜⒁粋€或多個通道來提供更寬的通道用于分析。
[0028]在獲得了不同通道的音頻信號之后,算法通過采用每個通道的信號的絕對值來計算出每個通道中的調(diào)制能量并且然后使用截止頻率在6Hz處的低通濾波器來對響應(yīng)進(jìn)行平滑化。調(diào)制能量是對通道中的時間信息的粗略測量。調(diào)制能量提供了對音頻信號如何隨時間變化的重要測量。在一個實施例中,算法使用快速傅里葉變換(FFT)算法來分析每個通道中的調(diào)制。根據(jù)FFT獲得的量值提供了對于在每個頻率處每個通道中的能量多少的測量。圖5示出了在發(fā)明的一個實施例中算法遵循的用于生成從流向電視的內(nèi)容中提取的音頻區(qū)段的音頻指紋的音頻指紋流程圖。如圖所示,指紋是通過從流式內(nèi)容中提取音頻信號并將音頻信號的特定區(qū)段通過濾波器帶以將音頻區(qū)段劃分為多個不同頻率處的通道來生成的。在每個通道處每個頻率中的調(diào)制的量值被測量以確定在每個通道中每個頻率處的能量分布。
[0029]只聚焦在頻譜的量值上而忽略頻譜的相位使得算法能夠在即使音頻數(shù)據(jù)在分析窗口中具有輕量位移時也能獲得內(nèi)容的相同指紋。使用調(diào)制聲譜圖,算法針對每個帶通通道在從OHz (DC)到大約6Hz的頻率處計算每個通道的調(diào)制的18次測量。該18次測量是從通道數(shù)與調(diào)制頻率的二維陣列中選擇性地選取的。因此,利用13個通道的調(diào)制譜和在每個通道處的18次獨立頻率測量,算法計算出針對音頻信號的所選區(qū)段的234個元素(即,13*18)的單個區(qū)別向量。向量中的每個元素是表示為浮點數(shù)的數(shù)據(jù)點。該區(qū)別向量簡要地描述了音頻信號在該較短區(qū)段內(nèi)的調(diào)制并形成了音頻信號的指紋。
[0030]圖4示出了算法遵循的用于生成針對音頻信號的音頻區(qū)段的區(qū)別向量的調(diào)制流程圖,該音頻信號是從被選擇用于在電視處進(jìn)行流處理的內(nèi)容中提取的。算法檢查特定通道的聲學(xué)調(diào)制并且使用FFT來生成特定通道的聲學(xué)譜。來自聲學(xué)譜的選擇性數(shù)據(jù)點(234數(shù)據(jù)點)被選擇來計算音頻區(qū)段的向量。
[0031]圖2a_2f示出了由算法生成并用來與來自內(nèi)容提供商的內(nèi)容進(jìn)行匹配的音頻信號聲譜圖。圖2a、2b和2c是使用三調(diào)制語調(diào)測試的Matlab實現(xiàn)來生成的,該三調(diào)制語調(diào)測試?yán)媒?jīng)2Hz、3Hz和4Hz調(diào)制的頻率調(diào)制441Ηζ、881Ηζ和1201Hz。當(dāng)使用較低的頻率調(diào)制器濾波器(例如,2Hz)時,帶有較低調(diào)制頻率的低通道被記錄,如圖2a (Matlab實現(xiàn))所示。類似地,圖2b示出了來自3Hz的稍高頻率調(diào)制器濾波器的結(jié)果并且圖2c示出了來自4Hz的更高頻率調(diào)制器濾波器的結(jié)果。這里應(yīng)當(dāng)注意,通過使用Matlab實現(xiàn)方式生成的音頻信號聲譜圖是示例性而不應(yīng)被視為限制性的。可以使用諸如C實現(xiàn)方式之類的其他類型的實現(xiàn)方式,如圖2d、2e和2f所示。能夠從圖2a-2f中注意到,來自C實現(xiàn)方式的結(jié)果在3個不同頻率的每個頻率處與來自調(diào)制器頻率的Matlab實現(xiàn)方式的結(jié)果相似。另外,每個頻率的聲音具有其自身的獨有指紋并且?guī)в羞@些不同頻率的音頻信號將生成其自身獨有的指紋組合。指紋越大,它就越容易進(jìn)行匹配。為了取得較好的采樣,在一個實施例中選擇5秒的窗口進(jìn)行分段和指紋化。用于對音頻信號進(jìn)行分段的時間段、通道的數(shù)目以及頻率的數(shù)目是示例性的而不應(yīng)被視為限制性的。
[0032]在生成針對特定音頻區(qū)段的聲譜圖并且生成區(qū)別向量之后,算法使用該向量來找尋內(nèi)容數(shù)據(jù)庫中的內(nèi)容的匹配。內(nèi)容數(shù)據(jù)庫可位于服務(wù)器上并且通過網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng))對算法可用。內(nèi)容數(shù)據(jù)庫是從多個內(nèi)容提供商處接收到的內(nèi)容的存儲庫,其中內(nèi)容的音頻信號已經(jīng)被指紋化。音頻信號的指紋被存儲在內(nèi)容的旁邊或者被存儲在分離的數(shù)據(jù)庫中并且每個指紋映射到內(nèi)容。算法可使用各種技術(shù)來找尋向量的匹配。在一個實施例中,算法使用隨機化的算法(例如,局部敏感哈希(LSH)方法)來查找并找到內(nèi)容數(shù)據(jù)庫中的內(nèi)容的匹配。當(dāng)新內(nèi)容被選擇流向電視時,算法捕獲內(nèi)容的音頻部分并將該內(nèi)容劃分到例如5秒的較小間隔的區(qū)段中。然后算法執(zhí)行相同的分析(上文已經(jīng)描述過)來獲得所捕獲的音頻信號的特定區(qū)段的指紋并且通過使用向量的浮點數(shù)將所捕獲的音頻信號的指紋針對存儲在數(shù)據(jù)庫中的那些指紋進(jìn)行匹配。應(yīng)當(dāng)注意到,即使所捕獲的音頻信號的內(nèi)容與內(nèi)容數(shù)據(jù)庫中的音頻信號相同,信號也可能不是精確匹配的。這可能由于這樣的事實:數(shù)據(jù)庫中的音頻信號可能經(jīng)歷了不同的壓縮技術(shù)并且與正在進(jìn)行匹配的特定區(qū)段所關(guān)聯(lián)的音頻信號相比具有不同的時間偏移。因此,直接和常規(guī)的匹配將不能提供所期望的匹配結(jié)果。為了適應(yīng)壓縮技術(shù)中的這種變化,算法可使用LSH技術(shù)來找尋最近鄰匹配(nearest neighbormatch)。
[0033]圖3示出了使用LSH匹配技術(shù)的、特定音頻區(qū)段的指紋與來自內(nèi)容數(shù)據(jù)庫的預(yù)定指紋的比較。LSH匹配使用來自流向電視的新內(nèi)容的音頻信號的區(qū)段的234個浮點數(shù)中的每個并且嘗試與內(nèi)容數(shù)據(jù)庫中的內(nèi)容的音頻信號的相應(yīng)數(shù)據(jù)點進(jìn)行匹配。如上所述,234個浮點數(shù)是使用調(diào)制聲譜圖獲得的。應(yīng)當(dāng)理解,生成234個浮點數(shù)的向量以及使用LSH匹配技術(shù)來匹配234個浮點數(shù)的向量是示例性的而不應(yīng)被視為限制性的。因此,可采用替換方式對音頻信號的區(qū)段進(jìn)行匹配。算法計算內(nèi)容數(shù)據(jù)庫中的音頻區(qū)段的每個數(shù)據(jù)點與音頻信號的特定區(qū)段的相應(yīng)浮點數(shù)之間的距離。當(dāng)算法找到具有的數(shù)據(jù)點更接近于特定音頻信號的相應(yīng)數(shù)據(jù)點的多個音頻信號時,算法確定數(shù)據(jù)點最接近由特定音頻區(qū)段的向量中的浮點數(shù)定義的數(shù)據(jù)點的內(nèi)容的音頻信號。當(dāng)不止一個內(nèi)容具有最接近特定音頻區(qū)段的數(shù)據(jù)點的音頻信號時,我們通過彩用被選擇進(jìn)行流處理的內(nèi)容的后續(xù)音頻區(qū)段來進(jìn)行進(jìn)一步的采樣、分析后續(xù)音頻區(qū)段以定義第二向量、并使用第二向量來找尋匹配。采樣、分析和匹配可以是連續(xù)的直到發(fā)現(xiàn)良好的匹配。關(guān)于局部敏感哈希技術(shù)的更多信息,可參考Malcolm Slaney和 Michael Casey 的、題為“Local-Sensitive Hashing for Finding Nearest Neighbors (用于找尋最近鄰的局部敏感哈希)”的IEEE公開(IEEE Signal Processing magazine,March2008),通過引用將其合并于此。
[0034]內(nèi)容的匹配使得算法能夠識別內(nèi)容的源并且能夠取回與被選擇用于流向電視的內(nèi)容相關(guān)聯(lián)的信息。在一個實施例中,算法請求并接收來自服務(wù)器的內(nèi)容,其包括針對它所匹配的特定區(qū)段的時段的內(nèi)容的指紋的匹配以及還有針對預(yù)定量時間的附加到來的指紋。服務(wù)器與多個內(nèi)容提供商進(jìn)行交互并且從這些源中接收內(nèi)容。附加內(nèi)容被用于對于音頻信號的后續(xù)匹配。在一個實施例中,內(nèi)容和附加的內(nèi)容被接收并被存儲在算法可用的本地緩存中。算法可通過驗證音頻信號的一個或多個后續(xù)區(qū)段繼續(xù)與存儲與本地緩存中的內(nèi)容的音頻區(qū)段相匹配來確保音頻區(qū)段被匹配到正確的內(nèi)容。如果音頻信號的后續(xù)音頻區(qū)段與內(nèi)容的音頻區(qū)段相匹配,那么就無需查詢服務(wù)器以獲得內(nèi)容。替代地,內(nèi)容可以從本地緩存中提供。在另一方面,如果后續(xù)音頻區(qū)段不與存儲于本地緩存中的內(nèi)容相匹配,那么來自內(nèi)容數(shù)據(jù)庫的、匹配特定音頻區(qū)段的新內(nèi)容被取回并被存儲在本地緩存中以用于后續(xù)匹配。
[0035]存在使用當(dāng)前實施例的音頻指紋匹配來緩存和分布工作的多個選項。一些最重要的選項包括提前暗示(advance hinting)、本地緩存、和驗證。提前暗示是一種用所匹配的內(nèi)容標(biāo)識符和到來指紋的序列來應(yīng)答單個指紋請求的方法。與內(nèi)容ID—起新接收的指紋被存儲在TV上的本地緩存中用于后續(xù)的參考和驗證。到來的指紋允許TV或連接到TV的機頂盒識別出什么內(nèi)容將在后面到來并簡單地對照存儲在本地緩存中的到來指紋檢查新計算的內(nèi)容的指紋。如果新計算的指紋與所期望的到來指紋相匹配,那么內(nèi)容提供商源不存在變化,并且無需向內(nèi)容提供商查詢內(nèi)容標(biāo)識符。
[0036]在一個實施例中,本地緩存選項被調(diào)用,其中匹配音頻信號的指紋的內(nèi)容和指紋被下載并被存儲在本地緩存中以與音頻信號的到來的指紋進(jìn)行匹配。在另一實施例中,內(nèi)容和與多個內(nèi)容有關(guān)的一組指紋被下載到本地設(shè)備(即,TV)并被存儲在本地緩存中。在此實施例中,該組指紋可能與針對特定時段的時間所安排的內(nèi)容有關(guān)。客戶端能夠周期性地請求和接收該組指紋,例如每天一次或者每三個小時一次等等。在一個實施例中,客戶端根據(jù)音頻信號計算出指紋,并且只在內(nèi)容與存儲與本地緩存中的已知指紋中的一個匹配的情況下對該內(nèi)容執(zhí)行動作。通過只在存在匹配時執(zhí)行動作,網(wǎng)絡(luò)資源被保存下來,因為算法避免了不必要的為了找尋匹配的服務(wù)器訪問。
[0037]在一個實施例中,驗證選項被調(diào)用,其中算法將請求與基于對內(nèi)容的最佳猜測的內(nèi)容標(biāo)識符一同發(fā)送至服務(wù)器。在一個實施例中,內(nèi)容的最佳猜測可基于先前的查詢。接收這樣的請求的服務(wù)器只驗證并且確認(rèn)從TV中的算法接收到的指紋確實是與在請求中獲得的內(nèi)容標(biāo)識符有關(guān)的內(nèi)容的所期望指紋。此選項也節(jié)省了網(wǎng)絡(luò)資源,因為服務(wù)器已經(jīng)被提供了足夠的與內(nèi)容有關(guān)的信息來識別該內(nèi)容。因此,本地緩存與指紋一起提供了對于被選擇用于在TV處呈現(xiàn)的內(nèi)容的更快和精確的匹配,同時保存了網(wǎng)絡(luò)資源。
[0038]在發(fā)明的一個實施例中,內(nèi)容標(biāo)識信息被算法用來識別事件、宣傳媒體或者廣告活動并抓取廣告活動或事件的元數(shù)據(jù)和資產(chǎn)。在此實施例中,源數(shù)據(jù)和資產(chǎn)被用于組裝在內(nèi)容的旁邊呈現(xiàn)的視頻或應(yīng)用。一旦視頻或應(yīng)用被呈現(xiàn)在內(nèi)容的旁邊,算法通過繼續(xù)執(zhí)行對于音頻信號的后續(xù)區(qū)段的匹配來繼續(xù)驗證匹配的有效性,從而確保該內(nèi)容沒有隨時間變化。如果內(nèi)容發(fā)生了變化,那么算法重新初始化本地緩存中的數(shù)據(jù)并開始音頻信號的提取、區(qū)別向量的生成、以及該向量到內(nèi)容數(shù)據(jù)庫中的內(nèi)容的匹配,以識別新內(nèi)容的源和與新內(nèi)容有關(guān)的信息,從而使得宣傳媒體或事件能夠被識別并被組裝以用于與新內(nèi)容的呈現(xiàn)。
[0039]圖6示出了在發(fā)明的一個實施例中用于識別流經(jīng)電視的多媒體內(nèi)容的操作的流程圖。方法始于操作710,其中從被選擇用于在電視處呈現(xiàn)的多媒體內(nèi)容中取回音頻信號。多媒體內(nèi)容可以從包括衛(wèi)星提供商、有線提供商、DVR、藍(lán)光提供商、來自互聯(lián)網(wǎng)的直播媒體在內(nèi)的內(nèi)容源中的任何一個處獲得。多媒體內(nèi)容可被存儲在內(nèi)容提供商服務(wù)器上并且在觀看者的請求下被流向電視。結(jié)果,內(nèi)容的源或者內(nèi)容信息在電視的互聯(lián)網(wǎng)連接接口或者連接至電視的外部設(shè)備處不是可用的。為了識別內(nèi)容的源和內(nèi)容信息,算法可將音頻信號劃分為較小間隔的多個區(qū)段,如操作720所述。
[0040]音頻信號的特定區(qū)段被分析以識別特定區(qū)段中的聲學(xué)調(diào)制,如操作730所述。特定區(qū)段是基于其中所包括的有效載荷數(shù)據(jù)而被選擇用于分析的。對特定區(qū)段的分析的結(jié)果是對區(qū)別浮點數(shù)表示的多個數(shù)據(jù)點的標(biāo)識。多個浮點數(shù)被用于生成向量。使用浮點數(shù)的向量來查詢服務(wù)器上的內(nèi)容數(shù)據(jù)庫,如操作740所述。服務(wù)器裝備有幫助確定來自特定內(nèi)容提供商的內(nèi)容的位置的搜索算法,其中特定內(nèi)容提供商的內(nèi)容包括這樣的數(shù)據(jù)區(qū)段,該數(shù)據(jù)區(qū)段的數(shù)據(jù)點與特定區(qū)段的浮點數(shù)相匹配或者緊密接近。內(nèi)容數(shù)據(jù)庫中的內(nèi)容是從多個源中獲得的,并且這些內(nèi)容的音頻信號被預(yù)先指紋化并與內(nèi)容一起存儲或者存儲在分離的數(shù)據(jù)庫中且被映射到內(nèi)容數(shù)據(jù)庫中的內(nèi)容。結(jié)果,當(dāng)來自特定內(nèi)容提供商的內(nèi)容的音頻區(qū)段與流向電視的內(nèi)容的特定區(qū)段相匹配時,從該內(nèi)容提供商處取回與該內(nèi)容有關(guān)的信息以及該內(nèi)容的源。所取回的信息可以被存儲在本地緩存中并被用于對流經(jīng)電視的內(nèi)容的進(jìn)一步驗證。
[0041]圖7示出了用于識別流經(jīng)電視的內(nèi)容的本發(fā)明的替換實施例。處理開始于操作810,其中電視內(nèi)的算法識別出對于流經(jīng)電視的特定內(nèi)容的選擇。內(nèi)容能夠來自任一內(nèi)容提供商。來自所選內(nèi)容的音頻信號被取回。音頻信號被劃分為多個較小的間隔,如操作820所述。在一個實施例中,每個區(qū)段劃分有預(yù)設(shè)的持續(xù)時間,例如5秒。多個區(qū)段內(nèi)的特定區(qū)段被選擇并被分析以識別該特定區(qū)段內(nèi)的聲學(xué)調(diào)制,如操作830所述。聲學(xué)調(diào)制是通過將音頻區(qū)段通過帶通濾波器并使用FFT檢查該特定區(qū)段的調(diào)制特性以識別音頻區(qū)段的每個頻率在每個通道處的能量分布來獲得的。對調(diào)制特性的檢查的結(jié)果是標(biāo)識出由浮點數(shù)表示的選擇性數(shù)據(jù)點組。該組浮點數(shù)被用于計算區(qū)別向量。該向量定義了特定區(qū)段的獨有音頻指紋。
[0042]內(nèi)容數(shù)據(jù)庫被搜索以識別帶有具有與特定區(qū)段的向量的浮點數(shù)匹配或者緊密接近的數(shù)據(jù)點的音頻區(qū)段的一個或多個內(nèi)容,如操作840所述。如前所述,內(nèi)容數(shù)據(jù)庫包括來自多個內(nèi)容提供商的內(nèi)容,該內(nèi)容具有已經(jīng)被算法使用相同的技術(shù)進(jìn)行指紋化的音頻區(qū)段。當(dāng)來自一個或多個內(nèi)容提供商的不止一個音頻區(qū)段包括與特定音頻區(qū)段的數(shù)據(jù)點匹配的數(shù)據(jù)點時,算法識別具有與該特定區(qū)段的浮點數(shù)最接近的音頻區(qū)段的內(nèi)容。然后算法獲得帶有與特定區(qū)段的音頻區(qū)段緊密匹配的音頻區(qū)段的內(nèi)容的內(nèi)容標(biāo)識符,如操作850所述。使用諸如內(nèi)容標(biāo)識符之類從內(nèi)容數(shù)據(jù)庫獲得的信息對內(nèi)容提供商數(shù)據(jù)庫進(jìn)行查詢,如操作860所述。響應(yīng)于該查詢,所標(biāo)識的內(nèi)容的ID部分被從內(nèi)容提供商數(shù)據(jù)庫接收,如操作870所述。該部分可包括匹配特定區(qū)段的內(nèi)容的標(biāo)識符和針對預(yù)定量時間的附加指紋。在一個實施例中,附加記錄可包括除了與特定區(qū)段有關(guān)的5秒之外的關(guān)于額外的15秒鐘的記錄。從內(nèi)容提供商獲得的音頻內(nèi)容的記錄被存儲在本地緩存中并被用于進(jìn)一步驗證和匹配宣傳媒體或事件。
[0043]圖8示出了用于匹配流經(jīng)電視的內(nèi)容的宣傳媒體的另一替換實施例。該方法開始于操作910,其中從被選擇用于在電視處呈現(xiàn)的內(nèi)容中取回音頻信號。音頻信號被劃分為較小間隔的多個區(qū)段,如操作920所述。音頻信號的特定區(qū)段被選擇用于分析以識別調(diào)制特性,如操作930所述。特定的音頻區(qū)段可基于其內(nèi)所包含的有效載荷來選擇。對特定區(qū)段的分析包括:生成特定區(qū)段的聲學(xué)聲譜圖并識別聲學(xué)聲譜圖中與數(shù)據(jù)點有關(guān)的、定義了音頻信號的特定區(qū)段的聲學(xué)調(diào)制的多個浮點數(shù)。區(qū)別向量被計算為浮點數(shù)的函數(shù)。該向量定義了音頻區(qū)段的獨有音頻指紋。
[0044]在操作940,內(nèi)容數(shù)據(jù)庫被搜索以識別這樣的內(nèi)容,該內(nèi)容包括帶有與特定音頻區(qū)段的多個浮點數(shù)匹配或者緊密接近的數(shù)據(jù)點的音頻區(qū)段。內(nèi)容數(shù)據(jù)庫是多個音頻區(qū)段的預(yù)計算出的數(shù)據(jù)點的存儲庫,該多個音頻區(qū)段表示從多個內(nèi)容提供商處獲得的多個內(nèi)容的多個音頻信號的不同部分。在識別出帶有與特定音頻區(qū)段匹配的音頻信號的內(nèi)容后,可使用內(nèi)容標(biāo)識符從內(nèi)容提供商處取回與內(nèi)容有關(guān)的內(nèi)容信息和內(nèi)容的源。
[0045]使用內(nèi)容標(biāo)識符,使用特定區(qū)段的指紋來從服務(wù)數(shù)據(jù)庫中識別出與內(nèi)容有關(guān)的宣傳媒體或事件,如操作950所述。內(nèi)容提供商數(shù)據(jù)庫被查詢以獲得來自內(nèi)容提供商數(shù)據(jù)庫的內(nèi)容并且廣告活動數(shù)據(jù)庫被查詢以獲得與所識別的宣傳媒體有關(guān)的元數(shù)據(jù)和資產(chǎn),如操作960所述。處理結(jié)束于對來自從內(nèi)容提供商數(shù)據(jù)庫獲得的內(nèi)容的多媒體內(nèi)容的組裝以及使用從廣告活動數(shù)據(jù)庫取回的元數(shù)據(jù)和資產(chǎn)對宣傳媒體內(nèi)容/應(yīng)用的組裝以用于在電視處進(jìn)行呈現(xiàn),如操作970所述。宣傳媒體內(nèi)容在發(fā)明的一個實施例中可被以小工具(widget)的形式在內(nèi)容旁邊或者分離地呈現(xiàn)。
[0046]通過借助與內(nèi)容有關(guān)的音頻信號的較小區(qū)段的音頻指紋化提取內(nèi)容的特征來確定特定的用戶正在他/她的電視上觀看什么內(nèi)容并識別與該內(nèi)容有關(guān)的特定應(yīng)用或宣傳多媒體以用于在內(nèi)容旁邊的呈現(xiàn),算法表現(xiàn)得像為用戶創(chuàng)建廣播交互服務(wù)(BIS)的潛在橋梁。使用基于其調(diào)制相似度來匹配兩個信號的調(diào)制檢測處理,較小區(qū)段的音頻被與為特定時間段安排的、從內(nèi)容提供商/廣播商接收的多個內(nèi)容的音頻進(jìn)行匹配。該方法使用了更少的CPU資源和時間但提供了更高效和精確的匹配。除了調(diào)制匹配之外,算法還通過使得針對時間區(qū)段以及針對附加預(yù)定量時間的匹配內(nèi)容的記錄能夠被本地存儲于電視的本地緩存中并且通過繼續(xù)驗證所識別的內(nèi)容繼續(xù)與被選擇用于在電視處呈現(xiàn)的多媒體內(nèi)容的音頻信號匹配來提供更快的匹配。當(dāng)用戶改變選擇的用于觀看的多媒體內(nèi)容時,算法確定存儲在本地緩存中的內(nèi)容不再匹配并沖除內(nèi)容。然后算法使用如前所述的HAC和LSH技術(shù)進(jìn)行音頻指紋化,使得其成為更健全和高效的算法工具。
[0047]本發(fā)明的實施例可被在多種計算機系統(tǒng)配置中實現(xiàn),包括手持設(shè)備、微處理器系統(tǒng)、基于微處理器或可編程的消費者電子產(chǎn)品、迷你計算機,大型計算機等。本發(fā)明還能夠被實現(xiàn)在分布式計算環(huán)境中,其中,任務(wù)被經(jīng)由基于有線或無線網(wǎng)絡(luò)所鏈接的遠(yuǎn)程處理設(shè)備所執(zhí)行。
[0048]將上述實施例牢記在心,應(yīng)當(dāng)理解,本發(fā)明能夠使用多種計算機實現(xiàn)的操作,涉及存儲在計算機系統(tǒng)上的數(shù)據(jù)。這些操作能夠包括對數(shù)據(jù)的物理變換、數(shù)據(jù)的保存、和數(shù)據(jù)的顯示。這些操作是那些需要對物理量的物理操縱的操作。通常但不必須,這些量以能夠被存儲、轉(zhuǎn)換、組合、比較和其他操縱方式的電或電磁信號的形式存在。數(shù)據(jù)還能夠在通過網(wǎng)絡(luò)進(jìn)行捕獲和傳輸期間被存儲在網(wǎng)絡(luò)中。存儲設(shè)備例如可以是在網(wǎng)絡(luò)節(jié)點和與服務(wù)器相關(guān)聯(lián)的存儲器,以及其他計算設(shè)備(包括便攜式設(shè)備)處。
[0049]這里所描述的任意操作(其形成了本發(fā)明的一部分)是有用的機器操作。本發(fā)明還涉及用于執(zhí)行這些操作的設(shè)備或裝置。該裝置可以是針對所需的目的被具體建造的,或該裝置可以是通用計算機,其被存儲在計算機上的計算機程序有選擇性地激活或配置。具體地,多種通用機器可被與根據(jù)此處的教導(dǎo)所寫出的計算機程序一起使用,或者建造一個更專業(yè)的裝置以執(zhí)行所需的操作是更方便的。
[0050]本發(fā)明還能夠被體現(xiàn)為在計算機可讀介質(zhì)上的計算機可讀代碼。計算機可讀介質(zhì)是任意可存儲數(shù)據(jù)的數(shù)據(jù)存儲設(shè)備,此后其能夠被計算機系統(tǒng)讀出。計算機可讀介質(zhì)還能被分布于與網(wǎng)絡(luò)耦合的計算機系統(tǒng)中,使得計算機可讀代碼以分布式模式被存儲和執(zhí)行。
[0051]雖然出于清晰理解的目的,前述發(fā)明在一些細(xì)節(jié)上進(jìn)行了描述,但很明顯,在所附權(quán)利要求的范圍內(nèi),可實施某種變更和修改。相應(yīng)地,本實施例應(yīng)被認(rèn)為是說明性的而非限制性的,并且,本發(fā)明并不限于這里給出的細(xì)節(jié),而是可在所附權(quán)利要求的范圍和等同物內(nèi)被修改。
【權(quán)利要求】
1.一種用于識別流經(jīng)電視的多媒體內(nèi)容的方法,所述方法由所述電視的處理器執(zhí)行,包括: 從被選擇用于在所述電視處呈現(xiàn)的多媒體內(nèi)容中取回音頻信號; 將所述音頻信號劃分為較小間隔的多個區(qū)段; 分析特定區(qū)段來識別所述特定區(qū)段中的聲學(xué)調(diào)制,該分析基于所述聲學(xué)調(diào)制生成所述特定區(qū)段的區(qū)別向量,該向量定義了所述音頻信號的所述特定區(qū)段的獨有音頻指紋;以及 使用音頻信號的所述特定區(qū)段的向量對服務(wù)器上的內(nèi)容數(shù)據(jù)庫進(jìn)行查詢,以獲得與所述特定區(qū)段的指紋相匹配的多媒體內(nèi)容的內(nèi)容信息,所述內(nèi)容信息被用于從內(nèi)容提供商獲得與匹配所接收的用于呈現(xiàn)的音頻信號的所述多媒體內(nèi)容有關(guān)的信息。
2.如權(quán)利要求1所述的方法,其中所述音頻信號是從由內(nèi)容提供商流向所述電視的多媒體內(nèi)容中捕獲的,或者是從數(shù)字多媒體記錄設(shè)備中獲得的。
3.如權(quán)利要求1所述的方法,其中所述較小的間隔是5秒左右的預(yù)定義間隔。
4.如權(quán)利要求1所述的方法,其中分析還包括: 生成聲學(xué)聲譜圖來識別音頻信號的所述特定區(qū)段在一個或多個頻率處的聲學(xué)調(diào)制特性,其中所述聲學(xué)調(diào)制特性散布于多個通道; 在每個通道處檢查所述聲學(xué)調(diào)制來測量量值,所述量值標(biāo)識了在每個頻率處每個通道中的能量值;以及 將所述音頻信號的特定區(qū)段的所述向量計算為在與所述音頻信號的特定區(qū)段相關(guān)聯(lián)的時間段針對每個頻率在每個通道中所測量的量值的函數(shù),其中所述向量標(biāo)識了表示所述音頻信號的特定區(qū)段的獨有指紋的數(shù)據(jù)點的多個浮點數(shù)。
5.如權(quán)利要求4所述的方法,其中對所述聲波調(diào)制的檢查以及對量值的測量是使用快速傅里葉變換技術(shù)實現(xiàn)的。
6.如權(quán)利要求4所述的方法,其中查詢還包括: 搜索所述內(nèi)容數(shù)據(jù)庫以識別帶有音頻區(qū)段的一個或多個多媒體內(nèi)容,該音頻區(qū)段具有最接近于所述音頻信號的特定區(qū)段的所述多個浮點數(shù)的數(shù)據(jù)點,所述內(nèi)容數(shù)據(jù)庫為多個音頻區(qū)段的預(yù)計算出的數(shù)據(jù)點的存儲庫,所述多個音頻區(qū)段表示從多個內(nèi)容提供商獲得的多媒體內(nèi)容的多個音頻信號的不同部分; 使用迭代計算法計算所識別的多媒體內(nèi)容的每個音頻區(qū)段的數(shù)據(jù)點與所述特定區(qū)段的浮點數(shù)之間的距離;以及 選擇具有最接近于所述浮點數(shù)的數(shù)據(jù)點的多媒體內(nèi)容,其中該多媒體內(nèi)容是使用獨有標(biāo)識符來進(jìn)行引用的。
7.如權(quán)利要求6所述的方法,還包括使用所述獨有標(biāo)識符從所述內(nèi)容提供商取回與條目有關(guān)的多媒體內(nèi)容,所述多媒體內(nèi)容包括匹配所述特定區(qū)段的多媒體內(nèi)容以及與當(dāng)前正在所述電視處呈現(xiàn)的音頻信號有關(guān)的、預(yù)定量時間的附加多媒體內(nèi)容,所取回的多媒體內(nèi)容被存儲在所述電視的本地緩存中以用于對繼續(xù)流經(jīng)所述電視的內(nèi)容的音頻信號的后續(xù)驗證。
8.如權(quán)利要求6所述的方法,還包括: 當(dāng)不止一個多媒體內(nèi)容具有最接近于所述特定區(qū)段的浮點數(shù)的數(shù)據(jù)點時, 通過選擇當(dāng)前被選擇在所述電視處呈現(xiàn)的所述內(nèi)容的音頻信號的一個或多個附加區(qū)段來執(zhí)行附加匹配。
9.如權(quán)利要求1所述的方法,還包括: 識別來自服務(wù)數(shù)據(jù)庫的、與被安排用于呈現(xiàn)的多媒體內(nèi)容有關(guān)的事件或宣傳媒體,所述事件或宣傳媒體是通過使用來自所述特定區(qū)段的指紋中的信息來識別的; 從廣告活動數(shù)據(jù)庫取回與所識別的事件或宣傳媒體有關(guān)的元數(shù)據(jù)和資產(chǎn);以及使用所取回的元數(shù)據(jù)和資產(chǎn)來組裝與所述事件或宣傳媒體相關(guān)聯(lián)的應(yīng)用或多媒體內(nèi)容,所組裝的、與事件或宣傳媒體有關(guān)的應(yīng)用或多媒體內(nèi)容在電視處在與所述音頻信號有關(guān)的多媒體內(nèi)容的旁邊呈現(xiàn)。
10.一種用于識別流經(jīng)電視的內(nèi)容的方法,所述方法由所述電視的處理器執(zhí)行,包括: 從被選擇用于在所述電視處呈現(xiàn)的內(nèi)容中取回音頻信號; 將所述音頻信號劃分為較小間隔的多個區(qū)段; 分析特定區(qū)段來識別所述特定區(qū)段中的聲學(xué)調(diào)制,該分析基于所述聲學(xué)調(diào)制生成所述特定區(qū)段的向量,所述向量標(biāo)識了與所述特定區(qū)段的數(shù)據(jù)點有關(guān)的多個浮點數(shù),所述向量定義了所述音頻信號的所述特定區(qū)段的獨有音頻指紋; 搜索內(nèi)容數(shù) 據(jù)庫以識別帶有音頻區(qū)段的一個或多個內(nèi)容,該音頻區(qū)段具有最接近于所述特定區(qū)段的所述多個浮點數(shù)的數(shù)據(jù)點,所述內(nèi)容數(shù)據(jù)庫為多個音頻區(qū)段的預(yù)計算出的數(shù)據(jù)點的存儲庫,所述多個音頻區(qū)段表示從多個內(nèi)容提供商獲得的多個內(nèi)容的多個音頻信號的不同部分; 獲得具有這樣的音頻區(qū)段的內(nèi)容的內(nèi)容標(biāo)識符,該音頻區(qū)段具有最接近于所述特定區(qū)段的浮點數(shù)的數(shù)據(jù)點; 使用所述內(nèi)容標(biāo)識符向內(nèi)容提供商數(shù)據(jù)庫查詢與帶有匹配特定音頻區(qū)段的音頻區(qū)段的內(nèi)容有關(guān)的?目息;以及 響應(yīng)于所述查詢,從所述內(nèi)容提供商數(shù)據(jù)庫接收所述內(nèi)容的一部分,該部分內(nèi)容包括匹配所述特定區(qū)段的內(nèi)容記錄以及針對預(yù)定量時間的附加記錄,所述附加記錄定義了所述多媒體內(nèi)容的音頻指紋的序列,從所述內(nèi)容提供商數(shù)據(jù)庫接收的該部分內(nèi)容記錄和附加記錄被用于所述音頻信號的后續(xù)區(qū)段的進(jìn)一步匹配。
11.如權(quán)利要求10所述的方法,其中分析還包括: 生成聲學(xué)聲譜圖來識別音頻信號的所述特定區(qū)段在一個或多個頻率處的聲學(xué)調(diào)制特性,其中所述聲學(xué)調(diào)制特性散布于多個通道;在每個通道處檢查所述聲學(xué)調(diào)制來測量量值,所述量值標(biāo)識了在每個頻率處每個通道中的能量值,所述檢查識別與音頻信號的所述特定區(qū)段的聲學(xué)調(diào)制有關(guān)的數(shù)據(jù)點;以及將所述音頻信號的特定區(qū)段的所述向量計算為在與所述音頻信號的特定區(qū)段相關(guān)聯(lián)的時間段針對每個頻率在每個通道中所測量的量值的函數(shù),其中所述向量標(biāo)識了與所述特定區(qū)段的數(shù)據(jù)點有關(guān)的多個浮點數(shù),所述向量表示所述音頻信號的特定區(qū)段的獨有指紋。
12.如權(quán)利要求10所述的方法,其中識別所述內(nèi)容標(biāo)識符還包括: 使用迭代計算法計算所述內(nèi)容數(shù)據(jù)庫中的每個內(nèi)容的數(shù)據(jù)點與所述音頻區(qū)段的相應(yīng)浮點數(shù)之間的距離;以及 識別帶有與所述音頻區(qū)段的相應(yīng)浮點數(shù)最接近的一組數(shù)據(jù)點的內(nèi)容。
13.如權(quán)利要求10所述的方法,還包括:將從所述內(nèi)容提供商數(shù)據(jù)庫中接收的該部分內(nèi)容記錄和附加記錄存儲在所述電視的處理器可訪問的本地緩存中,以用于對流經(jīng)所述電視的音頻信號的內(nèi)容的進(jìn)一步驗證。
14.如權(quán)利要求13所述的方法,還包括: 周期性地生成用于流式音頻信號的附加區(qū)段的附加指紋;以及將所述附加指紋與存儲在所述本地緩存中的所述內(nèi)容和附加記錄的指紋和指紋序列進(jìn)行比較以確定所述流式音頻信號是否繼續(xù)與所述本地緩存中的內(nèi)容相匹配。
15.如權(quán)利要求14所述的方法,還包括: 當(dāng)所述附加指紋不與存儲在所述本地緩存中的內(nèi)容的指紋匹配時, 從所述本地緩存中清除所述內(nèi)容; 通過查詢所述內(nèi)容數(shù)據(jù)庫來啟動搜索以使用所述附加指紋來識別與所述附加區(qū)段匹配的內(nèi)容;以及 從所述內(nèi)容提供商數(shù)據(jù)庫取回內(nèi)容以存儲在所述本地緩存中用于后續(xù)驗證。
16.如權(quán)利要求10所述的方法,還包括: 識別來自服務(wù)數(shù)據(jù)庫的、與所述內(nèi)容有關(guān)的宣傳媒體,所述宣傳媒體是通過使用來自所述特定區(qū)段的指紋中的信息來識別的; 從廣告活動數(shù)據(jù)庫取回與所識別的宣傳媒體有關(guān)的元數(shù)據(jù)和資產(chǎn);以及使用所取回的元數(shù)據(jù)和資產(chǎn)來組裝針對所述宣傳媒體的多媒體內(nèi)容,所組裝的、與所述宣傳媒體有關(guān)的多媒體內(nèi)容在電視處在與所述音頻信號有關(guān)的內(nèi)容的旁邊呈現(xiàn)。
17.一種用于識別流經(jīng)電視的內(nèi)容的方法,所述方法由所述電視的處理器執(zhí)行,包括: 取回與被安排用于呈現(xiàn)的多個內(nèi)容相關(guān)聯(lián)的一組音頻指紋; 將該組音頻指紋存儲在于所述電視相關(guān)聯(lián)的本地緩存中; 接收在所述電視上呈現(xiàn)內(nèi)容的請求; 取回被選擇在所述電視處呈現(xiàn)的內(nèi)容的音頻信號; 分析所述音頻信號的特定區(qū)段來識別所述特定區(qū)段中的聲學(xué)調(diào)制,該分析基于所述聲學(xué)調(diào)制生成針對所述特定區(qū)段的向量,所述向量標(biāo)識了與所述特定區(qū)段的數(shù)據(jù)點有關(guān)的多個浮點數(shù),所述向量定義了所述音頻信號的特定區(qū)段的獨有音頻指紋; 通過比較所述特定區(qū)段的音頻指紋與所述多個內(nèi)容的音頻指紋,確定是否在所述本地緩存內(nèi)找到針對所述音頻信號的特定區(qū)段的所述音頻指紋的匹配; 當(dāng)在所述本地緩存中找到匹配時,使用與所述特定區(qū)段的音頻指紋相匹配的特定內(nèi)容的內(nèi)容標(biāo)識符查詢內(nèi)容提供商數(shù)據(jù)庫以獲得所述特定內(nèi)容的一部分;以及 響應(yīng)于來自所述用戶的請求,呈現(xiàn)從所述內(nèi)容提供商數(shù)據(jù)庫獲得的所述特定內(nèi)容。
18.如權(quán)利要求17所述的方法,還包括: 當(dāng)所述音頻信號的特定區(qū)段的音頻指紋不與所述本地緩存中存儲的所述多個內(nèi)容中的任何一個的指紋匹配時, 將請求轉(zhuǎn)發(fā)至內(nèi)容數(shù)據(jù)庫,來驗證與所述音頻信號相關(guān)聯(lián)的所述音頻指紋的可能匹配,其中所述請求包括來自前一查詢的內(nèi)容的內(nèi)容標(biāo)識符; 從所述內(nèi)容數(shù)據(jù)庫接收對于所述音頻信號的音頻指紋的可能匹配的確認(rèn)。
19.如權(quán)利要求17所述的方法,還包括: 周期性地生成用于流式音頻信號的附加區(qū)段的附加指紋;以及通過將所述附加指紋與存儲在所述本地緩存中的所述特定內(nèi)容的相應(yīng)指紋進(jìn)行比較來驗證所述附加指紋是否繼續(xù)與所述本地緩存中的所述特定內(nèi)容匹配。
20.如權(quán)利要求17所述的方法,其中被安排進(jìn)行呈現(xiàn)的該組音頻指紋被周期性地取回并被存儲在所述本地緩存中,并且其中所述本地緩存在存儲所取回的音頻指紋之前被清除。
【文檔編號】H04N21/43GK103999473SQ201280061913
【公開日】2014年8月20日 申請日期:2012年11月30日 優(yōu)先權(quán)日:2011年12月20日
【發(fā)明者】馬爾科姆·斯萊尼, 安德瑞斯·赫爾南德斯·沙夫霍瑟 申請人:雅虎公司