專利名稱:用于處理媒體流的樣本的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本公開涉及媒體處理,包括媒體信息檢索、媒體同步和媒體識別驗證。另外,本公開涉及假肯定檢測(false positive detection)、多個版本消歧(disambiguation)、匹配片段長度確定和媒體流的重新同步。
背景技術(shù):
用于各種媒體類型(諸如音頻或視頻)的內(nèi)容識別系統(tǒng)使用許多不同方法??蛻舳嗽O(shè)備可以捕獲媒體流(諸如無線電)的媒體樣本記錄,并且然后可以在媒體記錄(也稱為媒體軌道)的數(shù)據(jù)庫中執(zhí)行對匹配的搜索,以識別媒體流??梢栽诳蛻舳嗽O(shè)備上對樣本記錄進(jìn)行預(yù)處理,以提取相關(guān)特征用于內(nèi)容識別。可以將樣本記錄傳遞至內(nèi)容識別模塊,所述內(nèi)容識別模塊可以執(zhí)行對樣本的內(nèi)容識別,并將識別的結(jié)果返回至客戶端設(shè)備。然后,可以在客戶端設(shè)備上向用戶顯示辨識結(jié)果,或者辨識結(jié)果可被用于各種后繼服務(wù),諸如購買或參考有關(guān)信息。例如,內(nèi)容識別的其它應(yīng)用包括廣播監(jiān)控或內(nèi)容敏感廣告。在示例的內(nèi)容識別系統(tǒng)中,可以在將結(jié)果返回至客戶端設(shè)備之后結(jié)束內(nèi)容識別。然而,一些內(nèi)容識別系統(tǒng)可能具有低鑒別性,這會導(dǎo)致大量假肯定匹配。另外,一些內(nèi)容識別系統(tǒng)可能不能在數(shù)據(jù)庫中多個可能的匹配記錄之間消歧。例如,如果樣本記錄跨越由數(shù)據(jù)庫中的多個目標(biāo)記錄共享的片段,則內(nèi)容識別系統(tǒng)可以確定這些多個記錄中的任何一個是匹配。此情形可能在存在多個版本的媒體記錄(例如,無線電混音(radio mix)、延長舞蹈混音(extended dance mix)、或集錦曲(mash_up))的情況下發(fā)生,在集錦曲中,將來自相同原始記錄的片段采樣到不同作品中。在這些示例情況中,內(nèi)容識別的結(jié)果可能是不準(zhǔn)確的。
發(fā)明內(nèi)容
在一個示例中,本公開描述了一種方法,包括接收由媒體渲染(render)源渲染的媒體流的樣本。所述方法還包括對于從中獲得樣本的匹配媒體記錄,接收包括在時間上映射的描述匹配媒體記錄的內(nèi)容的特征的集合的簽署(signature)文件。所述方法還包括將每個接收的簽署文件存儲在存儲器中。在一個示例中,所述方法還包括接收包括由媒體渲染源渲染的媒體流的樣本的內(nèi)容識別查詢、以及確定從中獲得樣本的匹配媒體記錄的識別。在一個示例中,所述方法還可以包括接收包括從媒體流提取的特征的簽署流、確定媒體流的簽署流與用于至少一個匹配媒體記錄的簽署文件之間的匹配特征的數(shù)目、以及基于所述匹配特征的數(shù)目識別匹配媒體記錄。在一個示例中,所述方法還可以包括接收包括從媒體流提取的特征的簽署流、以及確定媒體流的簽署流與用于至少一個匹配媒體記錄的簽署文件之間的特征是否隨著時間而基本上匹配。所述方法還可以包括當(dāng)媒體流的簽署流與用于匹配媒體記錄的簽署文件之間的基本上匹配的特征停止出現(xiàn)時,識別中斷(discontinuity)。例如,所述方法可以由客戶端設(shè)備或者由服務(wù)器來執(zhí)行??梢砸源鎯υ诜撬矔r計算機可讀介質(zhì)上的指令的形式提供這里描述的任何方法,其中,當(dāng)由計算設(shè)備執(zhí)行所述指令時,所述指令執(zhí)行所述方法的功能。其它實施例還可以包括包含有形計算機可讀介質(zhì)的制品,在所述有形計算機可讀介質(zhì)上編碼了計算機可讀指令,并且所述指令可以包括用以執(zhí)行這里描述的方法的功能。計算機可讀介質(zhì)可以包括非瞬時計算機可讀介質(zhì),諸如在短時段內(nèi)存儲數(shù)據(jù)的計算機可讀介質(zhì),如寄存器存儲器、處理器緩存和隨機存取存儲器(RAM)。計算機可讀介質(zhì)還·可以包括非瞬時介質(zhì),諸如二次(secondary)或永久長期存儲裝置,如只讀存儲器(ROM)、光或磁盤、光盤只讀存儲器(CD-ROM)。計算機可讀介質(zhì)還可以是任何其它易失性或非易失性存儲系統(tǒng)。計算機可讀介質(zhì)可以被認(rèn)為是例如計算機可讀存儲介質(zhì)或有形存儲介質(zhì)。另外,可以提供被布線成執(zhí)行這里描述的處理或方法中的邏輯功能的電路。在另一示例中,描述了一種系統(tǒng),包括輸入接口,被配置為接收由媒體渲染源渲染的媒體流的樣本;以及連續(xù)性跟蹤器,被配置為對于從中獲得樣本的匹配媒體記錄,接收包括在時間上映射的描述匹配媒體記錄的內(nèi)容的特征的集合的簽署文件。前述發(fā)明內(nèi)容僅僅是說明性的,而不意圖以任何方式進(jìn)行限制。除了上述說明性方面、實施例和特征之外,參考附圖和以下詳細(xì)描述,其它方面、實施例和特征將變得顯而易見。
圖I圖示了用于識別媒體內(nèi)容和執(zhí)行識別驗證的系統(tǒng)的一個示例。圖2圖示了用于準(zhǔn)備簽署數(shù)據(jù)庫的示例系統(tǒng)。圖3是根據(jù)這里描述的至少一些實施例的用于處理媒體的樣本的示例方法的框圖。圖4是根據(jù)這里描述的至少一些實施例的用于處理媒體的樣本的另一示例方法的框圖。圖5圖示了示例時序圖。圖6是根據(jù)這里描述的至少一些實施例的、包括執(zhí)行假肯定檢測的用于處理媒體的樣本的示例方法的框圖。圖7是根據(jù)這里描述的至少一些實施例的、包括在多個匹配媒體記錄之間消歧的用于處理媒體的樣本的示例方法的框圖。圖8圖示了示例時序圖。圖9圖示了用于識別媒體流、以及將數(shù)據(jù)與所識別的媒體流進(jìn)行同步的系統(tǒng)的示例。圖10是根據(jù)這里描述的至少一些實施例的、包括在多個匹配從(slave)媒體記錄之間消歧的用于處理媒體的樣本的示例方法的框圖。圖11是根據(jù)這里描述的至少一些實施例的、包括在多個匹配從媒體記錄之間消歧的用于處理媒體的樣本的示例方法的框圖。
具體實施例方式在以下詳細(xì)描述中,參考形成此一部分的附圖。在附圖中,類似的符號通常標(biāo)識類似的組件,除非上下文另外指定。詳細(xì)描述、附圖和權(quán)利要求書中描述的說明性實施例不意味著限制。在不違背這里呈現(xiàn)的主題的精神或范圍的情況下,可以利用其它實施例,并且可以進(jìn)行其它改變。將容易理解,可以在各種各樣的這里明確設(shè)想的不同配置中布置、替換、組合、分離和設(shè)計如這里一般描述且在附圖中圖 示的本公開的各方面。此公開可以描述用于處理媒體流的樣本的方法和系統(tǒng)等。在一個示例中,方法包括接收由媒體渲染源渲染的媒體流的樣本,并且,對于從中獲得樣本的匹配媒體記錄,所述方法還包括接收包括在時間上映射的描述匹配媒體記錄的內(nèi)容的特征的集合的簽署文件??梢詫⒚總€接收的簽署文件存儲在存儲器中。另外,可以接收包括從媒體流提取的特征的簽署流,并且可以確定媒體流的簽署流與用于至少一個匹配媒體記錄的簽署文件之間的匹配特征的數(shù)目。在一個示例中,當(dāng)在媒體流的簽署流與用于匹配媒體記錄的簽署文件之間的基本上匹配的特征停止出現(xiàn)時,可以識別中斷。在下面描述的示例中,方法和系統(tǒng)使得能夠驗證從內(nèi)容識別返回的匹配結(jié)果以便修正假肯定,并且消除為了從媒體流捕獲的媒體樣本的附加增量(increment)而進(jìn)一步執(zhí)行計算上昂貴的內(nèi)容識別的需要。示例方法和系統(tǒng)還可以使得能夠在媒體記錄的多個版本之間進(jìn)行消歧、以及管理主媒體流與一組從媒體流之間的同步性??梢酝ㄟ^提供對來自媒體流的媒體樣本的內(nèi)容識別、以及為每個識別的媒體記錄提供對應(yīng)的從媒體記錄推出的經(jīng)特征提取的簽署文件,來執(zhí)行示例方法和系統(tǒng)。可以從媒體流在原始媒體樣本附近的部分開始,從媒體流提取對應(yīng)的經(jīng)特征提取的簽署流??梢源_定每個識別的媒體記錄內(nèi)的時間偏移位置,并且,可以將每個識別的媒體記錄的對應(yīng)簽署文件內(nèi)的對應(yīng)時間位置初始地與媒體流內(nèi)的對應(yīng)時間偏移對準(zhǔn)。由于媒體流的簽署流與每個識別的媒體記錄的簽署文件之間的特征的對準(zhǔn),可以在每個識別的媒體流中的對應(yīng)時間預(yù)期媒體流中的匹配特征。當(dāng)在預(yù)期位置處的特征對應(yīng)關(guān)系停止出現(xiàn)時,可以標(biāo)記中斷。例如,中斷可以觸發(fā)諸如標(biāo)記假肯定的動作發(fā)生。連續(xù)性的驗證在計算上可以是廉價的,因為可以使用較少數(shù)目的特征在預(yù)期的位置進(jìn)行比較。例如,用于驗證整個全長度的音樂記錄的簽署文件可以小于約5KB。因此,可以將驗證庫存儲在客戶端設(shè)備上,或者通過網(wǎng)絡(luò)推行(push)驗證庫。在這里描述的示例中,可以通過執(zhí)行向內(nèi)容識別服務(wù)器的分立的查詢,來完成用于驗證內(nèi)容識別的方法和系統(tǒng)。然而,為了避免附加的查詢(其可以向識別服務(wù)器模塊增加額外負(fù)擔(dān)),可以使用簽署文件執(zhí)行對連續(xù)性的驗證。I.示例系統(tǒng)的概述現(xiàn)在參照附圖,圖I圖示了用于識別媒體內(nèi)容和執(zhí)行識別驗證的系統(tǒng)的一個示例。系統(tǒng)包括媒體渲染源102、客戶端設(shè)備104、以及服務(wù)器106。圖I中的系統(tǒng)的所描述的功能或組件中的一個或多個可以被分為附加的功能或物理組件、或者被組合為更少的功能或物理組件。例如,可能不存在客戶端104和服務(wù)器106的區(qū)分,因為系統(tǒng)可以用作用于辨識的驗證機構(gòu)、或者在集成的便攜式用戶設(shè)備中是完全獨立的。在一些其它示例中,可以將附加的功能和/或物理組件添加至圖I所示的示例。媒體渲染源102以任何已知方式實時地渲染并呈現(xiàn)來自媒體流的媒體內(nèi)容??梢詫⒚襟w流作為記錄而存儲在媒體渲染源102上、或者可以從諸如模擬或數(shù)字廣播的外部源接收媒體流。在一個示例中,媒體渲染源102可以是廣播媒體流(例如,音頻和/或視頻)和/或其它信息的廣播站或電視內(nèi)容提供方。媒體渲染源102還可以是以已記錄的或?qū)崨r格式播放音頻媒體、顯示視頻媒體的任何類型的設(shè)備。在替代實施例中,例如,媒體渲染源102可以包括實況表演作為音頻源和/或視頻源。例如,媒體渲染源102可以通過圖形顯示器、音頻揚聲器、MIDI樂器、操縱木偶等、或者由媒體渲染源102提供的任何其它種類的表·現(xiàn)來渲染或呈現(xiàn)媒體流??蛻舳嗽O(shè)備104通過包含媒體接收器108的樣本捕獲模塊接收來自媒體渲染源102的媒體流的渲染。在圖I中,媒體接收器108被示出為天線,并且,媒體渲染源102向客戶端設(shè)備104無線地廣播媒體流。然而,取決于媒體流的形式,媒體渲染源102可以使用無線或有線通信技術(shù)渲染媒體。在其它示例中,客戶端設(shè)備104包括麥克風(fēng)110,用以從媒體渲染源102接收媒體流或記錄??蛻舳嗽O(shè)備104還可以包括攝像機、振動傳感器、無線電接收器、網(wǎng)絡(luò)接口等中的任一個,用以接收媒體流。除了接收媒體流的渲染,客戶端設(shè)備104可能不被操作地耦接至媒體渲染源102。如此,客戶端設(shè)備104可能不被媒體渲染源102控制,并且,客戶端設(shè)備104可能不是媒體渲染源102的必要部分。在圖I所示的示例中,客戶端設(shè)備104是與媒體渲染源102分立的實體??梢詫⒖蛻舳嗽O(shè)備104實施為小外形便攜式(或移動)電子設(shè)備的一部分,小外形便攜式(或移動)電子設(shè)備諸如包括任何上述功能的蜂窩電話、無線蜂窩電話、個人數(shù)字助理(PDA)、個人媒體播放設(shè)備、無線網(wǎng)絡(luò)手表設(shè)備、個人耳機設(shè)備、特定應(yīng)用設(shè)備、或混合設(shè)備。還可以將客戶端設(shè)備104實施為包括膝上型計算機和非膝上型計算機配置的個人計算機。客戶端設(shè)備104還可以是較大設(shè)備或系統(tǒng)的組件。可以操作客戶端設(shè)備104以捕獲所渲染的媒體流的媒體樣本。這可以在沒有用戶介入的情況下自動發(fā)生、或者可以通過用戶激活按鈕或其它應(yīng)用以觸發(fā)樣本捕獲而實現(xiàn)。例如,客戶端設(shè)備104的用戶可以按下按鈕以通過麥克風(fēng)記錄音頻的10秒數(shù)字樣本,或者使用相機捕獲靜止圖像或視頻序列。作為其它示例,客戶端設(shè)備104可以接收具有指令的信號以捕獲媒體樣本,或者,客戶端設(shè)備104可以自主地檢測環(huán)境活動(例如,經(jīng)由語音活動或音樂活動檢測模塊)并響應(yīng)地捕獲媒體樣本。連續(xù)媒體流的媒體樣本可以被天線108或麥克風(fēng)110捕獲、通過模數(shù)(A/D)轉(zhuǎn)換器112傳遞、并存儲在滾動媒體樣本緩沖器114(例如,諸如圓形或環(huán)形緩沖器或隊列)。當(dāng)捕獲新樣本時,舊媒體樣本可以退出(retire),從而在時間上向后特定長度的歷史可用于分析。替代地,媒體樣本可以直接從數(shù)字饋送捕獲,或者,如所示的,可以從A/D轉(zhuǎn)換器112采樣。媒體流可以是周圍自由場音頻,并且,例如,媒體樣本可以是從麥克風(fēng)110以8KHz采樣率捕獲的數(shù)字化的脈沖編碼調(diào)制(PCM)樣本。(例如,這里的術(shù)語“樣本”可以被認(rèn)為是諸如PCM音頻樣本值的單獨的樣本、以及這樣的樣本在時間片段上的集合兩者)。
將與媒體樣本的采樣時間對應(yīng)的時間戳記錄為Ttl,并且可以將該時間戳稱為同步點。采樣時間優(yōu)選地可以是媒體樣本的起始,但也可以是媒體樣本的末尾、中間、或任何其它預(yù)定時間。因此,媒體樣本可以被加以時間戳,使得獲知媒體流內(nèi)從固定的任意參考時間點的對應(yīng)時間偏移。例如,時間戳可以是顯式的,其中每個媒體樣本可以具有關(guān)聯(lián)的時間值;或者,時間戳可以是隱式的,其中可以從樣本在樣本緩沖器114內(nèi)位置、或從自參考時間點起經(jīng)過的樣本時段的數(shù)目而確定時間。例如,可以將參考時間定義為開啟客戶端設(shè)備104并捕獲第一個媒體樣本的時刻。可以從媒體樣本緩沖器114獲得媒體樣本,并將媒體樣本傳遞至服務(wù)器106用于內(nèi)容識別。在另一示例中,可以在發(fā)送至服務(wù)器106之前對媒體樣本進(jìn)行預(yù)處理和特征提取。舉例而言,可以將媒體樣本發(fā)送至簽署提取器116以生成所提取的特征的簽署流,并且,每個特征可具有媒體流內(nèi)的對應(yīng)時間位置。可以將所提取的特征的簽署流提供給連續(xù) 性跟蹤器118,連續(xù)性跟蹤器118可以將所提取的特征的簽署流與用于對應(yīng)的媒體記錄的所接收的簽署文件進(jìn)行比較,以確定所接收的內(nèi)容識別的有效性/連續(xù)性。簽署文件可以是在時間上映射的描述媒體記錄的內(nèi)容的特征的集合,所述媒體記錄具有與媒體記錄的時間線對應(yīng)的時間維度,并且,每個特征可以是對在每個映射的時間點附近的內(nèi)容的描述。可以基于媒體記錄而預(yù)先確定簽署文件并存儲簽署文件,并且,例如,可以基于觀測的媒體流而實時地確定并生成簽署流。一般地,例如,可以將特征選擇為在存在噪聲和失真的情況下可再現(xiàn)??梢栽陔x散時間位置稀疏地提取特征,并且,每個特征可以對應(yīng)于感興趣的特征。稀疏特征的示例包括Lp范數(shù)功率峰值(norm power peak)、頻譜圖(spectrogram)能量峰值、連接的凸點(linked salient point),等等。對于更多的示例,請讀者參考Wang和Smith的美國專利No. 6,990,453,通過引用將其全文合并在此。替代地,可以密集地表現(xiàn)連續(xù)的時間軸,其中每個時間值具有對應(yīng)的特征值。這樣的密集特征的示例包括特征波形(如授權(quán)給Kenyon的美國專利No. 7,174,293中描述的,通過引用將其全文合并在此)、頻譜圖位圖光柵(如在美國專利No. 5,437,050中描述的,通過引用將其全文合并在此)、活動矩陣(如在美國公布專利申請No. 2010/0145708中描述的,通過引用將其全文合并在此)、以及能量通量位圖光柵(如在美國專利No. 7,549,052中描述的,通過引用將其全文合并在此)。在一個示例中,簽署文件包括稀疏特征表現(xiàn)??梢詮氖褂弥丿B的短時間快速傅立葉變換(FFT)提取的頻譜圖獲得特征。可以在對應(yīng)的能量值是局部最大值的時頻位置選擇頻譜圖中的峰值。例如,可以通過識別圍繞每個候選位置的區(qū)域中的最大點來選擇峰值。還可以使用心理聲學(xué)掩蔽準(zhǔn)則來抑制聽不見的能量峰值。每個峰值可以被編碼為一對時間和頻率值。另外,可以記錄峰值的能量幅度。在一個示例,音頻采樣率是8KHz,并且,F(xiàn)FT幀尺寸可在約64-1024面元(bin)之間變化,其中約25-75 %的幀之間的跳變尺寸與前一幀重疊。增加頻率分辨率可導(dǎo)致較小的時間精度。另外,可以使頻率軸變形(warp)并內(nèi)插到對數(shù)尺度上,諸如Mel頻率??梢詫⒍鄠€特征或與特征關(guān)聯(lián)的信息組合為簽署文件。簽署文件可以將特征排序為隨時間增加而排列的列表。在數(shù)據(jù)構(gòu)造中,每個特征Fj可以與時間值&關(guān)聯(lián),并且,該列表可以是這樣的構(gòu)造的陣列;這里,例如,j是第j個構(gòu)造的索引。在使用連續(xù)時間表現(xiàn)(例如頻譜圖的連續(xù)幀)的示例中,時間軸可以在索引中被隱含到列表陣列中。為了方便起見,可以獲得每個媒體記錄內(nèi)的時間軸作為從記錄的起始的偏移,因此時間零是指記錄的起始。所得到的簽署文件的尺寸可以根據(jù)所使用的特征提取方法而變化。在一個示例中,可以將所選的頻譜圖峰值(例如特征)的密度選擇為約在每秒10-50個點之間。可以將峰值選擇為每單位時間的最高能的N個峰值,例如,一秒幀中的最高10個峰值。在使用每秒10個峰值的示例中,使用32個比特對每個峰值頻率進(jìn)行編碼(例如,8個比特用于頻率值,24個比特用以對時間偏移進(jìn)行編碼),可能需要每秒40字節(jié)來對特征進(jìn)行編碼。由于平均歌曲長度為約3分鐘,所以一首歌曲可以產(chǎn)生近似7. 2千字節(jié)的簽署文件尺寸。對于其它簽署編碼方法,例如,在具有100毫秒的跳變尺寸的頻譜圖的每個偏移處的32比特特征產(chǎn)生類似尺寸的指紋。在另一示例中,簽署文件可以是約5-10KB的量級,并且可以對應(yīng)于從中獲得樣本的媒體記錄的一部分,其約20秒長并且是指媒體記錄中在捕獲的樣本的末尾之后的一部分。 因此,簽署提取器116可以使用這里描述的任何方法從媒體樣本提取特征,以生成所提取的特征的簽署流。連續(xù)性跟蹤器118可以接收對應(yīng)的媒體記錄的預(yù)定簽署文件,并且,連續(xù)性跟蹤器118可以將所提取的特征的所提取的簽署流、與簽署文件進(jìn)行比較,如以下所述??梢圆僮骺蛻舳嗽O(shè)備104以捕獲由媒體渲染源102渲染的媒體樣本的部分用于識另IJ,并將所捕獲的部分發(fā)送至服務(wù)器106用于識別。客戶端設(shè)備104可以被操作地通過有線或無線接口而耦接至服務(wù)器106。服務(wù)器106可以包括位置識別模塊120和內(nèi)容識別模塊122。雖然圖I圖示了服務(wù)器106包括位置識別模塊120和內(nèi)容識別模塊122兩者,但是,例如,位置識別模塊120和/或內(nèi)容識別模塊122中的任一者可以是與服務(wù)器106分開的分立實體。替代地,位置識別模塊120和內(nèi)容識別模塊122可以是同一實體,或者,可以通過同一實體執(zhí)行位置識別模塊120和內(nèi)容識別模塊122的功能。另外,位置識別模塊120和/或內(nèi)容識別模塊122可以位于客戶端設(shè)備104中、或者可以在通過網(wǎng)絡(luò)連接至客戶端設(shè)備104的遠(yuǎn)程服務(wù)器上,如圖I中所示。服務(wù)器106可以(通過有線或無線連接)從客戶端設(shè)備104接收媒體樣本,并且,位置識別模塊120可以識別對應(yīng)估計的時間位置(Ts),其基于在該時刻捕獲的媒體樣本指示媒體樣本在媒體流(或媒體記錄)中的的時間偏移。在一些示例中,Ts還可以是從媒體流的起始經(jīng)過的時間量。內(nèi)容識別模塊122還可以可選地對所接收的媒體樣本執(zhí)行內(nèi)容識別。如果標(biāo)識仍未知,則內(nèi)容識別可以識別媒體流(例如音樂聲軌)中的內(nèi)容??梢栽谌魏问纠襟w樣本信息檢索系統(tǒng)(例如,由英國倫敦的ShazamEntertainment、加利福尼亞埃默里維爾的Gracenot、或者加利福尼亞圣何塞的Melodis提供的)內(nèi)使用或合并內(nèi)容識別模塊122。這些服務(wù)進(jìn)行操作以接收環(huán)境音頻的樣本,識別音頻樣本的音樂內(nèi)容,并向用戶提供關(guān)于音樂的信息,包括軌道名稱、藝術(shù)家、曲集、藝術(shù)作品、傳記、唱片分類目錄、音樂會票,等等。在這一點上,內(nèi)容識別模塊122可以包括媒體搜索引擎124,并且可以包括或有權(quán)訪問對參考媒體內(nèi)容對象和記錄(例如,音樂聲軌、視頻剪輯、電影和電視節(jié)目)進(jìn)行索引的媒體記錄數(shù)據(jù)庫126,以比較所接收的媒體樣本與所存儲的信息,以便識別所接收的媒體樣本內(nèi)的媒體內(nèi)容。一旦已經(jīng)識別了媒體流內(nèi)的媒體對象,便可以將標(biāo)識信息和其它元數(shù)據(jù)報告回客戶端設(shè)備104。元數(shù)據(jù)還可以包括數(shù)據(jù)以及至其它相關(guān)內(nèi)容和服務(wù)的超鏈接,包括推薦、廣告、用以預(yù)覽的提議(offer)、加標(biāo)簽和購買音樂記錄、視頻、音樂會票和獎贈內(nèi)容;以及便利于在萬維網(wǎng)上瀏覽、搜索、發(fā)現(xiàn)有關(guān)內(nèi)容。替代地,客戶端設(shè)備104可以從媒體渲染源102獲取媒體流的樣本,并對該樣本執(zhí)行初始特征提取處理,以便創(chuàng)建媒體樣本的指紋(fingerprint)。客戶端設(shè)備104然后可以將指紋信息發(fā)送至位置識別模塊120和/或內(nèi)容識別模塊122,其可以僅僅基于指紋信息而識別關(guān)于該樣本的信息。如此,例如,可以在客戶端設(shè)備104、而非在位置識別模塊120和/或內(nèi)容識別模塊122執(zhí)行更多的計算或識別處理。 如所提及的,媒體記錄數(shù)據(jù)庫126可以包括多個媒體內(nèi)容對象,其每個可以由唯一的標(biāo)識符(例如sound ID)識別。數(shù)據(jù)庫126或許不一定存儲實際媒體流(諸如用于每個記錄的音頻或視頻文件),因為可以使用sound ID從別處檢索文件。然而,在一些實施例中,數(shù)據(jù)庫126可以存儲媒體內(nèi)容文件。媒體內(nèi)容數(shù)據(jù)庫索引可以非常大,例如,包含用于數(shù)百萬或甚至數(shù)十億文件的索引??梢韵驍?shù)據(jù)庫索引遞增地添加新內(nèi)容。數(shù)據(jù)庫126還可以包括用于每個存儲的音頻、視頻或媒體文件、或者用于每個存儲的媒體索引的信息。例如,元數(shù)據(jù)可以對每個文件存儲元數(shù)據(jù),其指示關(guān)于文件的信息,諸如藝術(shù)家名稱、歌曲長度、歌曲的歌詞、歌詞的行或詞的時間索引、專輯封面、或任何其它識別文件或與文件有關(guān)的信息。圖I的系統(tǒng)允許識別所捕獲的媒體樣本的時間偏移,并且也允許基于所存儲的信息識別媒體樣本。雖然圖I圖示了具有給定配置的系統(tǒng),但是可以以其它方式布置該系統(tǒng)內(nèi)的組件。例如,媒體搜索引擎124可以與內(nèi)容識別模塊122分立,或者,媒體樣本處理可以發(fā)生在客戶端104或服務(wù)器106。因此,應(yīng)當(dāng)理解,這里描述的配置本質(zhì)上僅僅是示例性的,并且,還可以使用許多替代的配置。圖I中的系統(tǒng)、特別是位置識別模塊120可以識別媒體流內(nèi)的媒體樣本的時間偏移??蛇x地,該系統(tǒng)可以用于使用內(nèi)容識別模塊122、使用媒體流內(nèi)的媒體的樣本識別媒體流中的內(nèi)容。在本領(lǐng)域中已知各種媒體樣本識別技術(shù),用于使用媒體內(nèi)容對象的數(shù)據(jù)庫執(zhí)行媒體樣本和媒體樣本的特征的計算內(nèi)容識別。下列美國專利和出版物描述了媒體辨識技術(shù)的可能示例,并且通過引用將其美國全文合并在此,如同在此說明書中完全提出一樣=Kenyon等人的標(biāo)題為“Broadcast InformationClassification System and Method”的美國專利No. 4,843,562 ;Kenyon 的標(biāo)題為 “Broadcast Signal Recognition System and Method,,的美國專利 No. 4,450,531 ;Haitsma 等人的標(biāo)題為 “Generating and Matching HashesofMultimedia Content” 的美國專利申請公布 No. 2008/0263360 ;ffang 和 Culbert 的標(biāo)題為 “Robust and Invariant Audio Pattern Matching” 的美國專利 No. 7,627,477 ;Wang和 Avery 的標(biāo)題為“Method and Apparatus for Identification ofBroadcast Source,,的美國專利申請公布No. 2007/0143777 ;Wang和Smith的標(biāo)題為“System and Methodsfor Recognizing Sound and Music Signals in HighNoise and Distortion,,的美國專利 No. 6,990,453 ;以及 Blum 等人的標(biāo)題為 “Method and Article of Manufacturefor Content-Based Analysis,Storage,Retrieval, and Segmentation of AudioInformation” 的美國專利 No. 5,918,223。簡而言之,對媒體記錄的識別通過接收媒體記錄并對媒體記錄進(jìn)行采樣而開始。將該記錄與數(shù)字化且歸一化的參考信號片段相關(guān),以獲得每個所得到的相關(guān)片段的相關(guān)函數(shù)峰值,從而當(dāng)相關(guān)函數(shù)峰值之間的間隔在預(yù)定界限之內(nèi)時提供辨識信號,并且,與相關(guān)函數(shù)峰值一致的RMS功率值的模式(pattern)在來自數(shù)字化的參考信號片段的RMS功率值的模式的預(yù)定界限內(nèi)匹配,如例如美國專利No. 4,450,531中所述。因此識別匹配的媒體內(nèi)容。此外,例如,媒體內(nèi)容中的媒體記錄的匹配位置由匹配的相關(guān)片段的位置、以及相關(guān)峰值的偏移給出。在另一示例中,通常,可以通過識別或計算媒體樣本的特性或指紋、并將指紋與之前識別的指紋相比較,來識別媒體內(nèi)容。樣本內(nèi)的計算指紋的特定位置取決于樣本中的可再現(xiàn)點。這樣的可再現(xiàn)地計算的位置稱為“界標(biāo)”。界標(biāo)在樣本內(nèi)的位置可以通過該樣本自·己確定,即,取決于樣本質(zhì)量并且是可再現(xiàn)的。也就是,每當(dāng)重復(fù)該處理時,可以為相同的信號計算相同或類似的界標(biāo)。加界標(biāo)方案可以對于聲音記錄的每五秒而標(biāo)記約5個或約10個界標(biāo);然而,加界標(biāo)密度取決于媒體記錄內(nèi)的活動量。一種已知為“功率規(guī)范(PowerNorm)”的加界標(biāo)技術(shù)是計算記錄中的許多時間點處的瞬時功率,并選擇局部最大值。這樣做的一種方式是通過直接對波形進(jìn)行整流和濾波而計算包絡(luò)。另一種方式是計算信號的希耳伯特(Hilbert)變換(積分),并使用希耳伯特變換和原始信號的平方大小的和。還可以使用用于計算界標(biāo)的其它方法。一旦已經(jīng)計算了界標(biāo),就在記錄中的每個界標(biāo)時間點或其附近計算指紋。通過使用的指紋識別(fingerprinting)方法來定義特征與界標(biāo)的接近。在一些情況下,如果特征清楚地對應(yīng)于界標(biāo)且不對應(yīng)于前一或后一界標(biāo),則特征被認(rèn)為接近界標(biāo)。在其它情況下,特征對應(yīng)于多個相鄰界標(biāo)。指紋通常是概括記錄中在該時間點或其附近的特征的集合的值或值的集合。在一個實施例中,每個指紋是作為多個特征的哈希函數(shù)的單個數(shù)值。指紋的其它示例包括頻譜片指紋、多片指紋、LPC系數(shù)、對數(shù)倒譜(cepstral)系數(shù)、以及頻譜圖峰值的頻率成分??梢酝ㄟ^對信號的任何類型的數(shù)字信號處理或頻率分析來計算指紋。在一個示例中,為了生成頻譜片指紋,在每個界標(biāo)時間點的附近執(zhí)行頻率分析,以提取最高的幾個頻譜峰值。然后,指紋值可以是最強的頻譜峰值的單個頻率值。對于關(guān)于計算音頻樣本的特性或指紋的更多信息,請讀者參見授權(quán)給Wang和Smith的標(biāo)題為“System and Methodsfor Recognizing Sound and MusicSignals in High Noise and Distortion,,的美國專利No. 6,990,453,通過引用將其完整公開合并在此,如同在此說明書中完全提出一樣。因此,內(nèi)容識別模塊122可以接收樣本并計算樣本的指紋。內(nèi)容識別模塊122可以通過與附加辨識引擎通信來計算指紋。為了識別記錄,內(nèi)容識別模塊122然后可以訪問媒體記錄數(shù)據(jù)庫126,以通過生成等效指紋與媒體記錄數(shù)據(jù)庫126中的文件之間的對應(yīng)關(guān)系以定位具有最大數(shù)目的線性地有關(guān)的對應(yīng)關(guān)系、或者其特性指紋的相對位置最嚴(yán)密地匹配樣本的相同指紋的相對位置的文件,來將樣本的指紋與已知音頻軌道的指紋相匹配。也就是,識別界標(biāo)對之間的線性對應(yīng)關(guān)系,并且根據(jù)線性地有關(guān)的對的數(shù)目而對集合評分。例如,當(dāng)在容許容限內(nèi)可以通過基板上相同的線性方程式描述統(tǒng)計上有效的數(shù)目的對應(yīng)樣本位置和文件位置時,可能存在線性對應(yīng)關(guān)系。具有最高的統(tǒng)計上有效的評分(即具有最大數(shù)目的顯性地有關(guān)的對應(yīng)關(guān)系)的集合的文件是獲勝的文件,并且被認(rèn)為是匹配媒體文件。作為識別媒體流內(nèi)的內(nèi)容的技術(shù)的另一示例,可以使用局部式匹配技術(shù)分析媒體樣本以識別其內(nèi)容。例如,通常,可以通過首先匹配源自各個樣本的特定指紋對象而表征兩個媒體樣本之間的關(guān)系。為每個媒體樣本生成指紋對象的集合,其中每個指紋對象發(fā)生在特定位置。取決于相應(yīng)媒體樣本的內(nèi)容而確定每個位置,并且,每個指紋對象表征在相應(yīng)特定位置或其附近的一個或多個局部特征。接下來,為每對匹配的指紋對象確定相對值。然后生成相對值的直方圖。如果發(fā)現(xiàn)統(tǒng)計上有效的峰值,則可以將兩個媒體樣本表征為基本上匹配。另外,可以確定時間拉伸比率,其指示與原始音頻軌道相比,音頻樣本已經(jīng)被加速或減慢多少。對于對此方法的更詳細(xì)說明,請讀者參見授權(quán)給Wang和Culbert的標(biāo)題為“Robust and Invariant Audio Pattern Matching” 的美國專利 No. 7,627,477,通過引用將其完整公開合并在此,如同在此說明書中完全提出一樣。
另外,以上的出版物內(nèi)描述的系統(tǒng)和方法可以不僅僅返回媒體流的標(biāo)識。例如,使用授權(quán)給Wang和Smith的美國專利No. 6,990,453中描述的方法,除了返回與識別的音頻軌道關(guān)聯(lián)的元數(shù)據(jù)之外,還可以返回媒體樣本與識別的樣本的起始的相對時間偏移(RTO),其稱為估計的所識別的媒體流位置Ts。為了確定記錄的相對時間偏移,可以將樣本的指紋與指紋所匹配的原始文件的指紋相比較。每個指紋出現(xiàn)在給定時間,因此,在匹配指紋以識別樣本之后,(樣本中的匹配指紋的)第一指紋與所存儲的原始文件的第一指紋之間的時間差將是樣本的時間偏移,例如進(jìn)入到歌曲的時間量。因此,可以確定取得樣本的相對時間偏移(例如67秒進(jìn)入到歌曲)。其它信息也可以用于確定RT0。例如,直方圖峰值的位置可以被認(rèn)為是從參考記錄的起始到樣本記錄的起始的時間偏移。還可以取決于媒體樣本的類型而執(zhí)行其它形式的內(nèi)容識別。例如,視頻識別算法可以用于識別視頻流(例如電影)內(nèi)的位置。在Oostveen, J.等人的“Feature Extractionand a Database Strategy for Video Fingerprinting,, (LectureNotes in ComputerScience, 2314, (2002年3月11日),117-128)中描述了示例視頻識別算法,通過引用將其全部內(nèi)容合并在此。例如,可以通過確定哪個視頻幀被識別而推出視頻樣本在視頻中的位置。為了識別視頻幀,可以將媒體樣本的幀分割為行和列的網(wǎng)格,并且,對于網(wǎng)格的每個塊,計算像素的亮度值的平均值??梢詫⒖臻g濾波器應(yīng)用至所計算的平均亮度值,以推出網(wǎng)格的每個塊的指紋比特。可以使用指紋比特來唯一識別幀,并且可以將指紋比特與包括已知媒體的數(shù)據(jù)庫的指紋比特相比較或匹配。從幀提取的指紋比特可以稱為子指紋,并且,指紋塊是來自連續(xù)的幀的固定數(shù)目的子指紋。使用子指紋和指紋塊,可以執(zhí)行視頻樣本的識別?;诿襟w樣本包括哪個幀,可以確定視頻中的位置(例如,時間偏移)。此外,還可以執(zhí)行其它形式的內(nèi)容和/或位置識別,諸如使用加水印方法。例如,可以由位置識別模塊120使用加水印方法以確定時間偏移,使得媒體流可以不時地嵌入水印,并且每個水印直接地、或經(jīng)由數(shù)據(jù)庫查詢而間接地指定水印的時間或位置。替代地,如果媒體流包括直接地或間接地指示時間或位置偏移值的所嵌入的水印,則客戶端設(shè)備104可以確定所渲染的媒體的樣本的時間偏移,而無需與位置識別模塊120通信。
在每個前述用于實施內(nèi)容識別模塊122的功能的示例內(nèi)容識別方法中,識別處理的副作用可以是媒體樣本在媒體流內(nèi)的時間偏移(例如,所估計的識別的媒體流位置Ts)。因此,在這些情況下,位置識別模塊120可以與內(nèi)容識別模塊122相同,或者,可以由內(nèi)容識別模塊122執(zhí)行位置識別模塊120的功能。因此,用戶可以從客戶端設(shè)備104向位置識別模塊120發(fā)送位置識別查詢,位置識別模塊120可以使用這里描述的任何技術(shù)來將與內(nèi)容有關(guān)的信息返回至客戶端設(shè)備104,并且可選地,可以訪問內(nèi)容識別模塊122以識別內(nèi)容。這里描述的示例實施例適用于任何類型的媒體流,諸如,預(yù)先記錄的或?qū)崨r音樂、音頻、視頻、音頻和視頻的組合、或者任何其它種類的遵循媒體流中的位置的時間線的媒體或事件序列。示例實施例還適用于任何格式的媒體流,諸如CD、DVD上的媒體、壓縮數(shù)字媒體、MIDI文件、動畫序列、控制序列、腳本、幻燈片等。在其它示例中,客戶端設(shè)備104或服務(wù)器106還可以訪問媒體流庫數(shù)據(jù)庫128,以選擇與所采樣的媒體對應(yīng)的媒體流,其然后可以被返回至客戶端設(shè)備104以被客戶端設(shè)備·104渲染。媒體流庫數(shù)據(jù)庫128可以位于客戶端設(shè)備104中或服務(wù)器106中,或者替代地,客戶端設(shè)備104和服務(wù)器106中的任一者或兩者均可以通過網(wǎng)絡(luò)連接至媒體流庫數(shù)據(jù)庫128。在圖I中,例如,媒體流庫數(shù)據(jù)庫128被示出為連接至服務(wù)器106。媒體流庫數(shù)據(jù)庫128中的信息、或者媒體流庫數(shù)據(jù)庫128自身也可以被包括在媒體記錄數(shù)據(jù)庫126中。例如,媒體流庫數(shù)據(jù)庫128中的與媒體樣本對應(yīng)的媒體流可以被客戶端設(shè)備104的用戶手動選擇、被客戶端設(shè)備104編程地選擇、或者被服務(wù)器106基于由內(nèi)容識別模塊122確定的媒體樣本的標(biāo)識選擇。所選擇的媒體流可以是與媒體樣本不同種類的媒體,并且可以與由媒體渲染源102渲染的媒體同步。例如,媒體樣本可以是音樂,而所選擇的媒體流可以是歌詞、音樂評分、吉他符號譜、音樂伴奏、視頻、操縱木偶舞蹈、動畫序列等,它們可以與音樂同步。例如,所選擇的媒體流可以基于媒體樣本的內(nèi)容識別而確定。在一些示例中,所選擇的媒體流可以是與所識別的媒體流對應(yīng)的歌詞。所選擇的媒體流可以替代地是任何類型的媒體流,諸如,電影、聲軌、歌詞、文本、視頻剪輯、圖片、幻燈片、文檔等。在另外的示例中,媒體流可以是視頻流,并且所選擇的媒體流可以是視頻流的聲軌。另外,或者作為替代,媒體流可以是聲軌,并且所選擇的媒體流可以是電影。在另一實施例中,所選擇的媒體流可以是第一媒體流的替代版本,例如不同語言的版本?;蛘撸x擇的媒體流可以為與第一媒體流不同的分辨率,例如高清或7. I聲道環(huán)繞聲,使得通過同步所選擇的媒體流,可以提供更高質(zhì)量版本的第一媒體流??蛻舳嗽O(shè)備104可以接收所選擇的與媒體樣本對應(yīng)的媒體流,并且可以與由媒體渲染源102渲染的媒體同步地渲染所選擇的媒體流。由媒體渲染源102渲染的媒體的估計時間位置可以由位置識別模塊120確定,并且可以用于確定所選擇的媒體流內(nèi)的渲染所選擇的媒體流的對應(yīng)位置??蛻舳嗽O(shè)備104然后可以與由媒體渲染源102渲染的媒體同步地渲染和表現(xiàn)所選擇的媒體流??蛻舳嗽O(shè)備104可以包括位置跟蹤模塊130,以確保兩個媒體流之間的精確同步。當(dāng)客戶端設(shè)備104被觸發(fā)以捕獲媒體樣本時,從客戶端設(shè)備104的參考時鐘記錄時間戳(T0)。在任何時間t,從自服務(wù)器106接收的所估計的識別的媒體流位置Ts加上自時間戳的時間起經(jīng)過的時間,確定估計的實時媒體流位置TJt)
Tr (t) =Ts+t-T0 方程式⑴Tr(t)是從諸如媒體流的起始的參考點到當(dāng)前正在渲染的媒體流的實時位置的經(jīng)過時間量。因此,使用Ts (即,基于所記錄的樣本而估計的從媒體流的起始到媒體流的位置的經(jīng)過時間量),可以計算然后,客戶端設(shè)備104可以使用TJt)來與由媒體渲染源102渲染的媒體同步地(或者基本上同步地)表現(xiàn)所選擇的媒體流。例如,客戶端設(shè)備104可以在時間位置TJt)、或者在諸如經(jīng)過了時間量TJt)的位置開始渲染所選擇的媒體流。由于許多原因,位置跟蹤可能喪失同步。在一個實例中,媒體渲染源102可能以非預(yù)期的速度渲染媒體流。例如,如果在未校準(zhǔn)的唱機轉(zhuǎn)盤或CD播放器上播放音樂記錄,可以比預(yù)期的參考速度更快或更慢地播放音樂記錄,或者,以與所存儲的參考媒體流不同的方式播放音樂記錄?;蛘?,有時,DJ可以故意改變音樂記錄的速度以達(dá)到特定效果,諸如匹配多個軌道之間的節(jié)奏。在這樣的實例中,所估計的位置TJt)可能隨著t增加而變得不準(zhǔn)確,因此,所選擇的媒體流可能喪失同步。作為參考速度的示例,預(yù)期CD播放器以每秒 44100個樣本來進(jìn)行渲染;預(yù)期45RPM黑膠唱片在唱機轉(zhuǎn)盤上以每分鐘45轉(zhuǎn)來播放;以及預(yù)期NTSC視頻流以每秒60幀來播放。在一些實施例中,為了減輕或防止所選擇的媒體流喪失與由媒體渲染源102渲染的媒體的同步,可以根據(jù)速度調(diào)整比率R調(diào)整所估計的位置TJt)。例如,可以執(zhí)行標(biāo)題為“Robust and invariant audio pattern matching” 的美國專利 No. 7,627,477 (通過引用將其全部內(nèi)容合并在此)中描述的方法以識別媒體樣本、所估計的識別的媒體流位置Ts、以及速度比率R。為了估計速度比率R,計算匹配指紋的變化部分的跨頻率比率(cross-frequencyratio),并且,因為頻率與時間成反比,所以跨時間比率是跨頻率比率的倒數(shù)??缢俣缺嚷蔙是跨頻率比率(例如,跨時間比率的倒數(shù))。更具體地,使用上述方法,可以通過生成樣本的時間-頻率頻譜圖(例如,計算傅立葉變換以生成每幀中的頻率面元)并識別頻譜圖的局部能量峰值,來表征兩個音頻樣本之間的關(guān)系。提取與局部能量峰值有關(guān)的信息,并將該信息概括為指紋對象的列表,每個指紋對象可選地包括位置字段、變化成分、以及不變成分。然后可以匹配從各個音頻樣本的頻譜圖推出的特定指紋對象。為每對匹配的指紋對象確定相對值,例如,該相對值可以是各個音頻樣本的參數(shù)值的對數(shù)的商或差。在一個示例中,從媒體樣本的頻譜圖選擇頻譜峰值的局部對,并且每個局部對包括指紋。類似地,從已知媒體流的頻譜圖選擇頻譜峰值的局部對,并且每個局部對包括指紋。確定樣本與已知媒體流之間的匹配的指紋,并且計算樣本和媒體流的每個的頻譜峰值之間的時間差。例如,確定樣本的兩個峰值之間的時間差,并將該時間差與已知媒體流的兩個峰值之間的時間差相比較??梢源_定這兩個時間差的比率,并且可以生成包括這樣的比率(例如,從匹配的指紋對提取)的直方圖??梢詫⒅狈綀D的峰值確定為實際速度比率(例如,媒體渲染源102播放媒體的速度與渲染參考媒體文件的參考速度相比的比率)。因此,可以通過找到直方圖中的峰值(例如,使得直方圖中的峰值將兩個音頻樣本之間的關(guān)系表征為相對音高、或者在線性拉伸的情況下表征為相對播放速度)而獲得速度比率R的估計。替代地,可以從來自樣本和已知媒體流的匹配的指紋的頻率值確定相對值。例如,確定樣本的頻譜圖峰值對的錨點的頻率值,并將該頻率值與媒體流的頻譜圖峰值對的錨點的頻率值相比較??梢源_定這兩個頻率值的比率,并且可以生成包括這樣的比率(例如,從匹配的指紋對提取)的直方圖??梢詫⒅狈綀D的峰值確定為實際速度比率R。在方程式中,
權(quán)利要求
1.一種方法,包括 接收由媒體渲染源渲染的媒體流的樣本;以及 對于從中獲得所述樣本的候選匹配媒體記錄,在計算設(shè)備接收包括在時間上映射的描述所述候選匹配媒體記錄的內(nèi)容的特征的集合的簽名文件。
2.如權(quán)利要求I所述的方法,其中,由服務(wù)器執(zhí)行所述方法,并且其中,對于所述候選匹配媒體記錄而接收所述簽名文件包括從數(shù)據(jù)庫檢索用于所述候選匹配媒體記錄的簽名文件。
3.如權(quán)利要求2所述的方法,還包括 接收包括由媒體渲染源渲染的媒體流的樣本的內(nèi)容識別查詢;以及 確定從中獲得所述樣本的候選匹配媒體記錄的識別。
4.如權(quán)利要求3所述的方法,還包括向客戶端設(shè)備發(fā)送與候選匹配媒體記錄的識別關(guān)聯(lián)的信息和用于每個所述候選匹配媒體記錄的簽名文件。
5.如權(quán)利要求I所述的方法,其中,由客戶端設(shè)備執(zhí)行所述方法,并且其中,對于所述候選匹配媒體記錄而接收所述簽名文件包括從服務(wù)器接收用于所述候選匹配媒體記錄的簽名文件。
6.如權(quán)利要求I所述的方法,其中,由客戶端設(shè)備執(zhí)行所述方法,并且其中,對于所述候選匹配媒體記錄而接收所述簽名文件包括從所述客戶端設(shè)備的存儲器檢索用于所述候選匹配媒體記錄的簽名文件。
7.如權(quán)利要求I所述的方法,其中,由客戶端設(shè)備執(zhí)行所述方法,并且其中,接收由所述媒體渲染源渲染的媒體流的樣本包括使用麥克風(fēng)從周圍環(huán)境接收所述樣本。
8.如權(quán)利要求I所述的方法,還包括 接收包括從所述媒體流提取的特征的簽名流; 確定所述媒體流的簽名流與用于至少一個候選匹配媒體記錄的簽名文件之間的匹配特征的數(shù)目;以及 基于匹配特征的數(shù)目,識別匹配媒體記錄。
9.如權(quán)利要求I所述的方法,還包括 接收包括從所述媒體流提取的特征的簽名流;以及 確定所述媒體流的簽名流與用于至少一個候選匹配媒體記錄的簽名文件之間的特征是否隨時間基本上匹配。
10.如權(quán)利要求9所述的方法,其中,接收包括從所述媒體流提取的特征的簽名流包括從所述媒體流在所述樣本附近的部分接收所述簽名流。
11.如權(quán)利要求9所述的方法,還包括接收與所述樣本在第k個候選匹配媒體記錄內(nèi)的采樣時間對應(yīng)的時間偏移(Ts,k)。
12.如權(quán)利要求11所述的方法,還包括 將用于每個候選匹配媒體記錄的簽名文件內(nèi)的時間位置與所述時間偏移對準(zhǔn);以及 將經(jīng)對準(zhǔn)的用于每個候選匹配媒體記錄的簽名文件與所述簽名流比較。
13.如權(quán)利要求9所述的方法,其中,確定所述媒體流的簽名流與用于至少一個候選匹配媒體記錄的簽名文件之間的特征是否隨時間基本上匹配包括 對于給定時間片段(T1, T2),從所述簽名流檢索具有對應(yīng)的時間h的特征匕的集合,使得 WT2 ; 在第k個簽名文件內(nèi),確定基本上類似于Fj的特征(F’ j,k)是否出現(xiàn)在基本上類似于T;,kUp=UR1^aj-Tci)的時間a’ j,k),其中Ttl是指示記錄所述樣本的時間的時間戳,Trjk(t)是與在時間t的媒體流的內(nèi)容對應(yīng)的第k個候選匹配媒體記錄內(nèi)的內(nèi)容的相對時間偏移,Ts,k是所述第k個候選匹配媒體記錄內(nèi)的樣本的采樣時間的時間偏移,以及Rk是指示基于所述第k個媒體記錄的參考速度的由所述媒體渲染源渲染媒體流的速度的時間尺度比率;以及 當(dāng)F’ j,k在與Fj的預(yù)定偏差內(nèi)并且t’ j,k在與Utj)的預(yù)定偏差內(nèi)時,確定匹配。
14.如權(quán)利要求9所述的方法,其中,給定簽名文件指示對應(yīng)的參考媒體記錄的長度Lk,對于所述對應(yīng)的參考媒體記錄,所述給定簽名文件包括在時間上映射的特征的集合,并且,所述方法包括確定所述媒體流的簽名流與用于至少一個候選匹配媒體記錄的簽名文件之間的特征是否在所述參考媒體記錄的時間片段(T1J2)上基本上匹配,其中根據(jù)以下而確定所述時間片段(T1J2) 對于跨越所述長度Lk的給定時間片段(T1, T2),并且,時間偏移Ts,k可以使能對于所述片段(T1, T2)的確定 T1=TcrTsVRk 方程式(η) T2=T0+(Lk-Ts, k)/Rk 方程式(12) 其中,T1對應(yīng)于所述參考媒體記錄在所述媒體流中的起始時間,T2對應(yīng)于所述參考媒體記錄在所述媒體流中的末尾時間,Ts,k是所述第k個候選匹配媒體記錄內(nèi)的樣本的采樣時間的時間偏移,以及Rk是指示基于所述第k個媒體記錄的參考速度的由所述媒體渲染源渲染媒體流的速度的時間尺度比率。
15.如權(quán)利要求9所述的方法,其中,確定所述媒體流的簽名流與用于至少一個候選匹配媒體記錄的簽名文件之間的特征是否隨時間基本上匹配包括 將所述簽名流的遞增片段與所述簽名文件的對應(yīng)的經(jīng)時間對準(zhǔn)的部分進(jìn)行迭代比較。
16.如權(quán)利要求9所述的方法,還包括當(dāng)所述媒體流的簽名流與用于候選匹配媒體記錄的簽名文件之間的基本上匹配的特征停止出現(xiàn)時,識別中斷。
17.如權(quán)利要求16所述的方法,其中,當(dāng)匹配特征的密度隨時間而落在預(yù)定閾值之下時,基本上匹配的特征停止出現(xiàn)。
18.如權(quán)利要求16所述的方法,還包括 基于所述中斷,確定所述候選匹配媒體記錄的識別的一個或多個不再有效。
19.如權(quán)利要求16所述的方法,還包括 接收包括由媒體渲染源渲染的媒體流的樣本的內(nèi)容識別查詢; 確定從中獲得所述樣本的候選匹配媒體記錄的識別; 向客戶端設(shè)備發(fā)送與候選匹配媒體記錄的識別關(guān)聯(lián)的信息和用于每個所述候選匹配媒體記錄的簽名文件;以及 基于所述中斷,向所述客戶端設(shè)備發(fā)送所述候選匹配媒體記錄的識別的一個或多個不再有效的通知。
20.如權(quán)利要求16所述的方法,還包括對由所述媒體渲染源渲染的媒體流執(zhí)行內(nèi)容識別。
21.如權(quán)利要求9所述的方法,還包括 將包括最高數(shù)目的與所述簽名流的特征匹配的特征的給定簽名文件識別為匹配;以及 識別與所述給定簽名文件對應(yīng)的媒體記錄的識別。
22.如權(quán)利要求9所述的方法,還包括 接收包括從所述媒體流提取的附加特征的簽名流增量; 確定多個簽名文件的給定簽名文件包括與所述簽名流增量中的特征匹配的特征;以及 識別與所述給定簽名文件對應(yīng)的媒體記錄的識別。
23.如權(quán)利要求22所述的方法,其中,所述方法由服務(wù)器執(zhí)行,并且所述方法還包括 從存儲的媒體流中檢索所述簽名流和所述簽名流增量,其中所述簽名流包括從所存儲的媒體流的第一部分提取的特征,并且所述簽名流增量包括從所存儲的媒體流的遞增部分中提取的特征。
24.如權(quán)利要求9所述的方法,還包括 對于多個簽名文件的每個,在時間上向前和向后直到在兩個方向上均喪失連續(xù)性為止,將特征與從所述媒體流提取的特征相比較; 將包括最長連續(xù)性長度的與所述簽名流的特征匹配的特征的給定簽名文件識別為匹配,其中從匹配特征的兩個端點之間的時間差確定所述連續(xù)性長度;以及確定與所述給定簽名文件對應(yīng)的媒體記錄的識別。
25.如權(quán)利要求9所述的方法,還包括 將包括最長連續(xù)性長度的與所述簽名流的特征匹配的特征的給定簽名文件識別為匹配,其中從匹配特征的兩個端點之間的時間差確定所述連續(xù)性長度;以及確定與所述給定簽名文件對應(yīng)的媒體記錄的識別。
26.如權(quán)利要求9所述的方法,還包括 確定具有基本上匹配所述簽名流中的特征的特征的給定簽名文件;以及 識別與從中獲得所述樣本的候選匹配媒體記錄有關(guān)的第二媒體記錄。
27.如權(quán)利要求26所述的方法,還包括確定第二媒體記錄與由所述媒體渲染源渲染的媒體流的重新對準(zhǔn)。
28.如權(quán)利要求26所述的方法,還包括 將所述第二媒體記錄提供給客戶端設(shè)備;以及 與由所述媒體渲染源渲染的媒體流基本上同步地渲染所述第二媒體記錄。
29.如權(quán)利要求28所述的方法,其中,所述媒體流是音樂記錄,并且所述第二媒體記錄是所述音樂記錄的歌詞,并且其中,與由所述媒體渲染源渲染的媒體流基本上同步地渲染所述第二媒體記錄包括顯示所述音樂記錄的歌詞。
30.如權(quán)利要求29所述的方法,其中,顯示所述音樂記錄的歌詞包括顯示所述音樂記錄的歌詞的即將到來行,并且,所述方法還包括 當(dāng)所述媒體流的簽名流與用于候選匹配媒體記錄的簽名文件之間的基本上匹配的特征停止出現(xiàn)時,中止所述音樂記錄的歌詞的即將到來行的顯示。
31.如權(quán)利要求28所述的方法,還包括 當(dāng)所述媒體流的簽名流與用于候選匹配媒體記錄的簽名文件之間的基本上匹配的特征停止出現(xiàn)時,中止與由所述媒體渲染源渲染的媒體流基本上同步地渲染所述第二媒體記錄。
32.如權(quán)利要求31所述的方法,還包括使用所述候選匹配媒體記錄的簽名文件執(zhí)行位置識別,以識別所述候選匹配媒體記錄在所述媒體流中的時間偏移。
33.如權(quán)利要求32所述的方法,還包括在與所述候選匹配媒體記錄的所識別的時間偏移對應(yīng)的位置渲染所述第二媒體記錄,使得所述第二媒體記錄和在所述媒體流中渲染的媒體記錄基本上同步。
34.如權(quán)利要求28所述的方法,還包括 確定已經(jīng)喪失所述第二媒體流與所述媒體流之間的同步; 使用所述簽名文件確定所述媒體流中的候選匹配媒體記錄的時間位置;以及 在所確定的時間位置渲染所述第二媒體流。
35.如權(quán)利要求34所述的方法,其中,確定已經(jīng)喪失所述第二媒體流與所述媒體流之間的同步包括對于與所述媒體流中的特征的匹配,周期性地掃描所述簽名文件。
36.如權(quán)利要求28所述的方法,還包括 確定已經(jīng)喪失所述第二媒體流與所述媒體流之間的同步; 將第三媒體記錄提供給客戶端設(shè)備;以及 與由所述媒體渲染源渲染的媒體流基本上同步地渲染所述第三媒體記錄。
37.如權(quán)利要求I所述的方法,還包括將每個接收的簽名文件存儲在存儲器中。
38.如權(quán)利要求I所述的方法,其中,從由服務(wù)器和客戶端設(shè)備組成的組中選擇所述計算設(shè)備。
39.如權(quán)利要求9所述的方法,其中,基于確定所述媒體流的簽名流與用于至少一個候選匹配媒體記錄的簽名文件之間的特征是否隨時間基本上匹配,所述方法還包括 確定所述媒體流與參考匹配媒體記錄之間的時間尺度比率的不匹配,其中所述時間尺度比率指示基于參考媒體記錄的參考速度的由給定媒體渲染源渲染給定媒體流的速度。
40.如權(quán)利要求39所述的方法,還包括 確定具有基本上匹配所述簽名流中的特征的特征的給定簽名文件; 識別與從中獲得所述樣本的候選匹配媒體記錄有關(guān)的第二媒體記錄; 將所述第二媒體記錄提供給客戶端設(shè)備; 與由所述媒體渲染源渲染的媒體流基本上同步地渲染所述第二媒體記錄;以及確定對所述媒體記錄與所述第二媒體記錄之間的時間尺度比率的調(diào)整,以便執(zhí)行所述第二媒體記錄與所述媒體記錄的重新同步。
41.如權(quán)利要求I所述的方法,還包括將用于給定匹配媒體記錄的給定簽名文件識別為隨時間基本上匹配于所述媒體流的簽名流中的特征。
42.一種包括有形計算機可讀介質(zhì)的制品,在所述有形計算機可讀介質(zhì)上編碼有計算機可讀指令,所述指令包括 用于接收由媒體渲染源渲染的媒體流的樣本的指令;以及 對于從中獲得所述樣本的候選匹配媒體記錄,用于接收包括在時間上映射的描述所述候選匹配媒體記錄的內(nèi)容的特征的集合的簽名文件的指令。
43.如權(quán)利要求42所述的制品,還包括指令,用于 接收包括從所述媒體流提取的特征的簽名流;以及確定所述媒體流的簽名流與用于至少一個候選匹配媒體記錄的簽名文件之間的特征是否隨時間基本上匹配。
44.如權(quán)利要求42所述的制品,還包括指令,用于 確定具有基本上匹配所述簽名流中的特征的特征的給定簽名文件;以及 識別與從中獲得所述樣本的候選匹配媒體記錄有關(guān)的第二媒體記錄。
45.如權(quán)利要求44所述的制品,還包括指令,用于 將所述第二媒體記錄提供給客戶端設(shè)備;以及 與由所述媒體渲染源渲染的媒體流基本上同步地渲染所述第二媒體記錄。
46.一種系統(tǒng),包括 輸入接口,被配置為接收由媒體渲染源渲染的媒體流的樣本;以及 連續(xù)性跟蹤器,被配置為對于從中獲得所述樣本的候選匹配媒體記錄,接收包括在時間上映射的描述所述候選匹配媒體記錄的內(nèi)容的特征的集合的簽名文件。
47.如權(quán)利要求46所述的系統(tǒng),其中,所述連續(xù)性跟蹤器被配置為接收包括從所述媒體流提取的特征的簽名流,以及確定所述媒體流的簽名流與用于至少一個候選匹配媒體記錄的簽名文件之間的特征是否隨時間基本上匹配。
48.如權(quán)利要求46所述的系統(tǒng),其中,所述連續(xù)性跟蹤器被配置為確定具有基本上匹配所述簽名流中的特征的特征的給定簽名文件,以及識別與從中獲得所述樣本的候選匹配媒體記錄有關(guān)的第二媒體記錄。
49.如權(quán)利要求48所述的系統(tǒng),還包括媒體播放器,被配置為與由所述媒體渲染源渲染的媒體流基本上同步地渲染所述第二媒體記錄。
全文摘要
本發(fā)明提供用于處理媒體流的樣本的方法和系統(tǒng)。在一個示例中,一種方法包括接收由媒體渲染源渲染的媒體流的樣本,并且,對于從中獲得所述樣本的匹配媒體記錄,所述方法還包括接收包括在時間上映射的描述所述匹配媒體記錄的內(nèi)容的特征的集合的簽名文件。可以將每個接收的簽名文件存儲在存儲器中。另外,可以接收包括從媒體流提取的特征的簽名流,并且,可以確定所述媒體流的簽名流與用于至少一個匹配媒體記錄的簽名文件之間的匹配特征的數(shù)目。在一個示例中,當(dāng)所述媒體流的簽名流與用于匹配媒體記錄的簽名文件之間的基本上匹配的特征停止出現(xiàn)時,可以識別中斷。
文檔編號G06F17/30GK102959543SQ201180032224
公開日2013年3月6日 申請日期2011年5月4日 優(yōu)先權(quán)日2010年5月4日
發(fā)明者A.L-C.王, A.A.雷維爾 申請人:沙扎姆娛樂有限公司