亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于上下文的視頻查找器的制作方法

文檔序號:6602374閱讀:283來源:國知局
專利名稱:基于上下文的視頻查找器的制作方法
技術領域
本發(fā)明涉及基于上下文的視頻查找器(context based video finder)。
背景技術
在線視頻社區(qū)的流行是視頻數(shù)據(jù)庫強勁增長的一個原因。瀏覽這種大集合對于用 戶來說經(jīng)常是耗時的并且繁瑣的。因此,用戶很難查找到他想觀看的偏好的視頻。因而,在巨大的視頻數(shù)據(jù)庫里查找感興趣的視頻已成為具有挑戰(zhàn)性的任務。

發(fā)明內(nèi)容
實施例的一個目的是提供用于視頻檢索的一種方法及一種服務器。這一目的是通 過依照權利要求1和15的一種方法及一種服務器解決的。更多的細節(jié)將參照附圖和隨后的說明而變得明顯。


包括接下來的附圖以提供對于實施例的更進一步的理解并且其被納入并構成本 說明書的一部分。這些附圖闡明了實施例并且與說明書一起用于解釋實施例的原理。通過 參考接下來的細節(jié)說明,其它實施例以及實施例的很多預期的優(yōu)點將由于其變得更好理解 而容易被領會。附圖的各個元件不必相對于彼此成比例。相同的標號表示相應的類似部分圖1顯示了用于視頻檢索的方法的一個實施例;圖2顯示了用于視頻檢索的方法的第二個實施例;圖3顯示了用于視頻檢索的方法的第三個實施例;圖4顯示了包括元數(shù)據(jù)的示例音樂數(shù)據(jù)庫結構;圖5顯示了包括視頻數(shù)據(jù)和音頻數(shù)據(jù)的音頻視頻文件;圖6顯示了包括音頻視頻文件的網(wǎng)頁;圖7顯示了示例視頻數(shù)據(jù)庫結構,引用了(reference)音頻視頻文件的音樂段;圖8顯示了用于視頻檢索的服務器的一個實施例;圖9顯示了用于視頻檢索的用戶裝置的一個實施例;以及圖10顯示了用于視頻檢索的系統(tǒng)的一個實施例
具體實施例方式接下來,實施例將被描述。重要的是指出所有下面被描述的實施例可采用任何方 式結合,即,沒有限制某些描述的實施例不可以與其它相結合。更進一步的,應指出的是貫 穿所有附圖同樣的參考標記表示同樣的或相似的元件。
將理解其他實施例可以被利用并且可以進行結構和邏輯的變化而不脫離本發(fā)明 的范圍。因此,以下詳細說明不被理解為限制性的并且本發(fā)明的范圍通過附加的權利要求 書所限定。將理解除非特別注明,這里描述的各個實施例的特征可以彼此結合。在圖1中示出了依據(jù)一個實施例的用于視頻檢索的方法。步驟SlOO處,作為示例,通過用戶和/或應用提供第一音頻視頻文件。該第一音頻視頻文件可包含視頻數(shù)據(jù)和音頻 數(shù)據(jù),該音頻數(shù)據(jù)包括至少一個音樂段。該第一音頻視頻文件可包括編碼的音樂數(shù)據(jù)。該第音頻視頻文件的來源可以是視 頻數(shù)據(jù)庫。該第一音頻視頻文件也可以通過便攜式存儲介質(zhì)(例如,存儲棒等等)、和/或 通過用戶經(jīng)由圖形用戶接口,經(jīng)由互聯(lián)網(wǎng)、內(nèi)部網(wǎng)從位于本地或遠程的存儲器所提供。在步驟S102,包含于該第一音頻視頻文件中的音樂的第一段的第一標識符 被確定。確定所述第一標識符可能包括確定所述音樂的第一段的音頻信號的指紋 (fingerprint) 0所述指紋可以是第一標識符。在另一個實施例中,也可能直接提供音樂段,它可用于查找包括該音樂段或至少 類似音樂段的視頻。在另一個實施例中,也可能直接提供音樂段的第一標識符,它可用于查找包括該 音樂段或至少類似音樂段的視頻。在該實施例中,在圖1中,塊SlOO將被跳過。步驟S104處用于在音樂數(shù)據(jù)庫100中查找該第一標識符的元數(shù)據(jù),其中所述第一 元數(shù)據(jù)和所述第一標識符是相關聯(lián)的。查找表(其中指紋與標識符相關聯(lián)),也可結合進該 音樂數(shù)據(jù)庫100中。該結合使指紋也有可能用作元數(shù)據(jù)。描述該音樂的第一段的至少一個屬性的至少一個元數(shù)據(jù)被查找,但是也可能查找 多于一個元數(shù)據(jù),因此,該音樂的第一段的多于一個屬性可被查找。音樂數(shù)據(jù)庫100中的該元數(shù)據(jù)與相應的音樂段的標識符相關聯(lián)。該元數(shù)據(jù)可以獨 立于包括該音樂段的原始提供的音頻視頻文件而確定。該元數(shù)據(jù)可以基于音樂文件和/或 音頻視頻文件(其獨立于所述原始提供的音頻視頻文件而獲得)。例如,音頻視頻文件中的 音樂段可以只包括音樂段中的若干秒,例如一首歌曲。然而該音樂段中的該若干秒可允許 確定該音樂段的標識符,例如,指紋。該標識符然后可用于為該音樂段查找元數(shù)據(jù)。因此, 在各自的數(shù)據(jù)庫中,該元數(shù)據(jù)可與一個或多個標識符相關聯(lián),這些標識符是基于用于計算 該音樂段的該若干秒的標識符的相同算法而確定。當然,該元數(shù)據(jù)將隨后描述該音樂段的 整體(全部長度)。因而,例如,該元數(shù)據(jù)“每分鐘的平均節(jié)拍”將涉及全部音樂段而不僅是 該音樂段的該若干秒。該元數(shù)據(jù)因此是更可靠的(“清潔(clean)”元數(shù)據(jù))。因此,因為可以只用音樂段中的一些秒來為該音樂段確定元數(shù)據(jù),所以這是優(yōu)點。 這些元數(shù)據(jù)將隨后描述全部音樂。而且,這些“清潔”元數(shù)據(jù)將用于搜索視頻(見下文,及 圖1中的參考標記S112),該搜索結果可以被改善。以上內(nèi)容將在接下來的示例中進一步闡明圖1中的音樂數(shù)據(jù)庫100可包含標識 符(指紋),這些標識符由“清潔”音頻數(shù)據(jù)(例如來自CD或純音頻文件的全部歌曲)基于 用于確定指紋的算法X而確定。而且,對于每一首歌曲,“清潔”元數(shù)據(jù)可以是確定的,例如 每分鐘的節(jié)拍等等。當確定第一標識符時,指紋將基于例如僅用于包含于第一音頻視頻文 件中的音樂段的若干秒的算法X而計算。該指紋可隨后用于查找音樂數(shù)據(jù)庫100中的元數(shù)據(jù)。最后,由此確定的元數(shù)據(jù)將用于搜索類似的歌曲并從而用于確定類似的視頻(見下文 詳細描述的圖1中的S112)。通過這樣的步驟,因為獨立于例如由所述用戶提供的所述音頻 視頻文件而確定該元數(shù)據(jù),總的搜索結果可以被改善。因而,這些是“清潔”元數(shù)據(jù),即可靠 元數(shù)據(jù)。同時,在此方法中,基于音頻視頻文件的音頻信號確定的該指紋可被基于從數(shù)據(jù)庫 提供的該“清潔”音頻信號而確定的另外的指紋所替代。這另外的指紋隨后可用作標識在 第二音頻視頻文件中的音樂段的標識符。關于該術語“指紋”,這可指聲學指紋,該聲學指紋可以是確定性地 (deterministically)自音頻信號生成的壓縮的數(shù)字概要(condensed digital summary), 該音頻信號可以用于標識音頻樣本或在音頻數(shù)據(jù)庫中快速定位類似的項目。這里屬性意味著元數(shù)據(jù)的通用術語,該元數(shù)據(jù)描述同樣的屬性。例如,藝術家為屬性而“U2”可以是音樂的第一段的元數(shù)據(jù),以及“王子(Prince)”可以是音樂的第二段的元 數(shù)據(jù)。該音樂段的其他描述信息也可用于檢索類似視頻。因而,屬性涉及元數(shù)據(jù),結合圖4 更詳細討論它們。例子可以是音樂的氣氛(mood)、藝術家或每分鐘的節(jié)拍或任何其他描述 元素,如將在下文示出的。進一步指出的是指紋也可以是元數(shù)據(jù)。在步驟S106,提供了音樂的第二段的第二元數(shù)據(jù),其包含于第二音頻視頻文件 中。該第二元數(shù)據(jù)的來源可以是已查找第一元數(shù)據(jù)的相同音樂數(shù)據(jù)庫100,或可選的是另 一個音樂數(shù)據(jù)庫。該第二元數(shù)據(jù)也可以經(jīng)由互聯(lián)網(wǎng)、內(nèi)部網(wǎng)和/或從位于本地或遠程的存 儲器所提供。為音樂的第二段提供的該元數(shù)據(jù)可以描述已針對音樂的第一段所查找過的 至少一個屬性。例如當用于音樂的第一段的第一標識符的藝術家被查找時,音樂的第二段 的藝術家也被提供。音樂的第二段的元數(shù)據(jù)也可以描述音樂的第二段的多于一個屬性,并 且在該元數(shù)據(jù)描述在步驟S104中已被查找過的相同屬性的情況下,視頻檢索功能的細化 (refinement)可以實現(xiàn)。在步驟S108,相似性度量被確定。該相似性度量描述音樂的第一段和音樂的第二 段的相似性。通過比較與音樂的第一段的第一標識符相關聯(lián)的第一元數(shù)據(jù)和音樂的第二段 的第二元數(shù)據(jù)而生成該相似性度量。根據(jù)元數(shù)據(jù)的類型,該比較可以用不同方式實施。如果元數(shù)據(jù)包括數(shù)字,例如在每 分鐘的節(jié)拍的情況下,這些數(shù)字可以通過例如確定兩數(shù)字間的比值而直接比較,因而該相 似性度量可以是數(shù)字。在元數(shù)據(jù)是基于類別的其它情況下,例如元數(shù)據(jù)描述藝術家姓名,該 相似性度量可基于更復雜的比較算法。例如可以比較藝術家名字的全部字符串,或比較部 分名字,或可以比較相同字母的數(shù)目。該相似性度量可以是二進制信息(具有“是”或“否” 的含義)。如下文所討論,在步驟S112,根據(jù)相似性度量提供該第二音頻視頻文件或其標識 符,例如提供給用戶和/或應用。該相關性可能源自相似性度量與閾值的比較。因而,在步驟S110,該相似性度量可與閾值比較。該閾值的類型取決于相似性度 量。因此,可通過設定如“是”或“否”,“1”或“0”之類的數(shù)字或內(nèi)容而設定該閾值。也很 很明顯的是根據(jù)相似性值的確定,閾值需要被定義。例如,如果相似性度量的比值是音樂的 第一段的第一標識符的每分鐘節(jié)拍除以音樂的第二段的每分鐘節(jié)拍,該閾值將設置為偏離 值1的值。在此情況下,相似性度量可具有大于或小于值1的值。但是如果該相似性度量總 是被定義為較小數(shù)字與較大數(shù)字的比值,則該閾值可被設置為這樣的數(shù),該數(shù)大于某數(shù)且小于1。更進一步地,相應地可能將閾值設置成上邊界條件(upper boundary condition), 使得該相似性值低于該閾值。相應地,該閾值也可以是有“等于”含義的條件閾值。這可例 如在相似性度量是字符串的比較的情況下應用。
也可能設置用于視頻檢索的閾值,其盡可能地與第一音頻視頻文件不同。例如如 果用戶已看過他根本不喜歡的電影,他可能有興趣檢索與他不喜歡的該視頻不同的視頻, 艮口,第一和第二元數(shù)據(jù)具有相距彼此預定的距離。因而,相似性度量的定義可被設置,使得 相似性度量高于閾值的條件僅在第一元數(shù)據(jù)和第二元數(shù)據(jù)不同的情況下才滿足。設置和選擇閾值方面的這樣的廣泛靈活性允許定義適應于用戶需求或興趣的搜 索并且避免誤導視頻檢索。因而,為確定該相似性度量通過元數(shù)據(jù)描述的屬性并且用戶可 以選擇相似性閾值的定義。然而,為確定該相似性度量通過元數(shù)據(jù)描述的屬性以及相似性 閾值的定義也可是預設的,導致用戶和管理員更省力,以及用法的更容易使用和視頻檢索 功能的更高自動化水平。在步驟S112,根據(jù)相似性度量,例如提供第二音頻視頻文件或其標識符(第二標 識符)給用戶和/或另外的應用或?qū)σ曨l檢索功能的任何其他請求者。例如,如果相似性 度量滿足閾值條件,例如比閾值大,在步驟S112中,提供第二音頻視頻文件或其標識符(第 二標識符)。如上所述,也可查找描述音樂的第一段的多于一個的元數(shù)據(jù)。步驟S108中,相應 地多于一個的元數(shù)據(jù)也可被用于相似性度量的確定。步驟S108中,該相似性度量可被壓縮 (condense)成一個相似性度量。但是,在步驟SllO中,多個相似性度量也可以被確定并且 與多個閾值比較。該多個相似性度量與多個閾值的比較結果可被壓縮成與一個相似性閾值 比較的一個相似性度量并且通過相似性距離度量來描述。如果該相似性度量沒有滿足閾值條件,該過程在步驟114中止。但是,該方法可被 重復應用,因為對于與音樂的第一段的相似性而言,包含于音頻視頻文件中的各音樂段的 元數(shù)據(jù)的音樂數(shù)據(jù)庫被掃描。這可以通過重復進行步驟S106到SllO來實現(xiàn)。用于重復該 視頻檢索的選項也可結合任何隨后的實施例而應用。這樣的掃描功能的好處在于視頻數(shù)據(jù) 庫的視頻檢索功能的自動化以及允許獲得相似音頻視頻文件的列表。該重復視頻檢索也可 用于視頻數(shù)據(jù)庫的有效管理,因為視頻可以被分組并且不相關視頻可被擦除以節(jié)省存儲容 量或該視頻數(shù)據(jù)庫可被重新安排以允許較少的時間消耗和/或要求使用視頻數(shù)據(jù)庫的較 少白勺i十算會邑力(computational power)。如上所述,用于確定元數(shù)據(jù)的音樂文件和/或音頻視頻文件可以是有用的(獨立 于原始提供的第一音頻視頻文件)。因此,查找第一和第二元數(shù)據(jù)的步驟和確定相似性度量 的步驟可先于第一音頻視頻文件的提供而執(zhí)行和/或獨立于第一音頻視頻文件的提供而 執(zhí)行。相似性度量的該確定的結果可被存儲于包括音樂段的相似性矩陣的相似性數(shù)據(jù)庫, 并且因此與音樂的第一和第二段的相應標識符相關聯(lián)的相似性度量可被直接查找并用于 第二音頻視頻文件的提供步驟。當基于第一音頻視頻文件搜索第二音頻視頻文件時,相似 性的該(獨立的)預計算可節(jié)省計算時間。在提供第二音頻視頻文件或第二標識符以外,在步驟S112,該相似性度量本身可 結合第二音頻視頻文件或其標識符而提供。將具有有益效果的是信息的接收方就如何以相 應的信息繼續(xù)進行可以具有另外的判定標準。例如,在他具有使用本發(fā)明方面的經(jīng)驗的情況下,他可以知道即使有相似性閾值,他也只想以滿足了他自己的相似性度量條件的視頻 來繼續(xù)。應用根據(jù)圖1中示出的實施例的方法可具有以下優(yōu)點視頻中的音樂可能是視頻 內(nèi)容的鮮明特性(very characteristic),因而,適合用于標識相似的視頻。例如,電視系列 節(jié)目就是這樣,電視系列節(jié)目具有相同的音樂預告片(trailer)因此在音頻數(shù)據(jù)中有相同 的音樂段,但是可能關于其視頻數(shù)據(jù)的內(nèi)容而變化。
將音樂段的相似性用于視頻檢索的另一個好處可以是相比于視頻數(shù)據(jù)的描述信 息可以用較少的努力獲得描述信息。例如,用于音樂的特征提取方法可以就是這樣,因為由 于他們在計算上是有效率的且算法具有有限的復雜性所以他們要求較少的計算能力。進一 步的,可能有益的是將音樂段的相似性用于視頻檢索,因為描述音樂段的參數(shù)的數(shù)目可以 保持成小的而不限制區(qū)分視頻(包含類似或不類似的音樂段)的能力。因此,包含描述信 息的元數(shù)據(jù)的音樂數(shù)據(jù)庫在存儲需要方面可能是有限的,并且因此可以實現(xiàn)具有大量音樂 段的數(shù)據(jù)庫。應當理解,向音樂數(shù)據(jù)庫增加另外的描述元素允許類似視頻的檢索的細化并 且該音樂數(shù)據(jù)庫的擁有者可根據(jù)他的需求設計該音樂數(shù)據(jù)庫。圖2顯示了視頻檢索的方法的另外的實施例。在這一實施例中對于如上所述的步 驟SlOO到Sl 14而言,附加性地,在步驟Sl 16提供置信度量(conf idencemeasure)。該置信 度量可以描述在第二音頻視頻文件中正確地標識該音樂的第二段的概率。該置信度量的來 源可以是音樂數(shù)據(jù)庫100或另一音樂數(shù)據(jù)庫。該置信度量也可經(jīng)由互聯(lián)網(wǎng)、內(nèi)部網(wǎng)和/或 從位于本地或遠程的存儲器所提供。該置信度量也可包含于如上所述的相似性數(shù)據(jù)庫中, 其中,所述標識符也與音頻視頻文件標識符相關聯(lián)。下面更詳細地描述該置信度量。根據(jù)置信度量,可以隨后確定圖2中的步驟S108處的相似性度量。例如如果置信 度量很小,這可能表明該音樂段在音頻視頻文件中被正確標識的概率較小。因此,音頻視頻 文件不包括標識的音樂的第二段的概率較高。當在步驟S108中確定該相似性度量時通過 考慮該置信度量,僅具有高置信水平的音樂段可產(chǎn)生高相似性度量。在確定相似性度量時考慮置信度量具有以下優(yōu)點以更高的準確性檢索類似的音 頻視頻文件。如果元數(shù)據(jù)的差異通常不是很大,則這可以改善該視頻檢索方法選擇性。也 可具有以下主要優(yōu)點如果該音樂的第二段包含于很多音頻視頻文件中,則置信度量的附 加標準可導致對于各個音頻視頻文件的相似性度量的分級(gradation)。因此,標識于元數(shù) 據(jù)中以包括音樂的第二段的不是所有的各個音頻視頻文件可被提供給用戶。因此,可避免 具有大量音頻視頻文件的用戶的優(yōu)勢(overwhelming),并且可減少數(shù)據(jù)傳輸量。如果大的 數(shù)據(jù)庫與音樂的第一段的元數(shù)據(jù)進行比較,因為可再次實現(xiàn)比較的細化,該置信度量的考 慮進一步具有節(jié)省時間和資源的效果。置信度量可被定義為獨有(exclusive)標準,因為是在比較步驟S106處的其它提 供的元數(shù)據(jù)之前,該置信度量必須高于閾值。只有在該標準被滿足的情況下,步驟S108中 的比較才可繼續(xù)。這可具有視頻檢索過程的加速的效果以及可以減少計算能力需求。其他 元數(shù)據(jù)也可被標識成這樣的獨有標準。例如如果該音樂的第一段被標識成通過藝術家“王 子”來演奏,則僅僅也由藝術家“王子”演奏的音樂段可被選擇,并且例如氣氛的其它元數(shù)據(jù) 在步驟S108中被比較。
圖3中示出了另一個細化選項,示出了視頻檢索方法的另一個實施例。對于如上 所述的SlOO到S114,附加性地,將協(xié)同過濾(collaborative filtering)作為附加輸入用 于在步驟S108中的相似性度量確定。該相似性度量因此可取決于用戶簡檔與協(xié)同過濾信 息的相似性。在步驟S118,用戶可提供他的用戶簡檔,這樣的簡檔可包括年齡,觀看偏好,興趣, 音樂興趣,家庭住址,性別等。可在實施方法前或?qū)嵤┓椒ㄆ陂g先驗地提供該簡檔。也可基 于請求而提供。后者會具備以下優(yōu)點在不實施該方法的情況下不必須存儲該簡檔數(shù)據(jù), 因此,這將允許限制該存儲空間和該數(shù)據(jù)管理工作量。周期性地使用該方法,一旦已錄入簡 檔,則保存該簡檔將引起用戶的較少的工作量。
在步驟S120,提供協(xié)同過濾信息。該協(xié)同過濾信息可以描述關于音樂的第二段的 聽行為或關于音頻視頻文件(包含不同用戶組和/或不同用戶的音樂的第二段)的觀看行 為。步驟S108中,相似性度量隨后可取決于用戶簡檔和協(xié)同過濾信息而確定。例如, 如果用戶年齡低于35歲,他可能想要具有該第二音頻視頻文件或僅僅所提供的其標識符, 如果包含音樂的第二段的相應第二音頻視頻文件已經(jīng)常被年齡也低于35歲的人的用戶組 觀看的話。通過考慮用戶簡檔和協(xié)同過濾信息,當在步驟S108中確定該相似性度量時,只 有被特定用戶組喜歡的音樂段和音頻視頻文件可導致高相似性度量。在相似性度量確定中考慮到這種協(xié)同過濾信息具有以下優(yōu)點其改善了視頻檢索 方法的選擇性。其也可具有以下優(yōu)點如果該音樂的第二段包含于很多音頻視頻文件中時, 附加標準協(xié)同過濾信息導致對于各個音頻視頻文件的相似性度量的分級。因此,不是所有 的各個音頻視頻文件可被提供給用戶。因此,可避免具有大量音頻視頻文件的用戶的優(yōu)勢, 并且可進一步減少數(shù)據(jù)傳輸量。如果大的數(shù)據(jù)庫與音樂的第一段的元數(shù)據(jù)進行比較,因為 再次實現(xiàn)了比較的細化,這種協(xié)同過濾信息細化進一步具有節(jié)省時間和資源的效果。該協(xié)同過濾信息細化可被定義為獨有標準,因為是在比較步驟S106處提供的元 數(shù)據(jù)之前,用戶簡檔與協(xié)同過濾信息的比較必產(chǎn)生正(positive)的結果。只有在該標準被 滿足的情況下,步驟S108中的比較才可繼續(xù)。這具有視頻檢索過程的加速的效果以及減少 了計算能力需求。注意到,可以用兩種不同的方式使用該協(xié)同過濾信息元數(shù)據(jù)。在步驟S120,該音樂 的第二段的協(xié)同過濾信息元數(shù)據(jù)與各個用戶簡檔相比較。但是,該數(shù)據(jù)也可獨立于特定用 戶而被使用。因此,可以用與圖1中的步驟S104到S114處的任何其它元數(shù)據(jù)相同的方式 使用該協(xié)同過濾信息元數(shù)據(jù)。圖4顯示了示例性的音樂數(shù)據(jù)庫100,該音樂數(shù)據(jù)庫帶有元數(shù)據(jù)402,404,406, 408,410,412,414,416,418的非終止示例性列表。PM ID 400 (標識符)可標識每個音樂 段。該元數(shù)據(jù)描述相應的音樂段并且可描述流派404,例如搖滾,靈魂,古典,民歌或其他 流派;氣氛406,例如悲傷,浪漫,戲劇性,歡樂或任何其他氣氛;音樂段的標題;與音樂段相 關聯(lián)的藝術家408,例如音樂段的演奏藝術家或作曲家;每分鐘的節(jié)拍BPM 402 ;其他低層 描述符(low leveldescriptor)。該元數(shù)據(jù)也可描述音頻視頻文件中的音樂段。例如時間 (temporal)位置410或音樂段的順序位置412或音樂段的長度414可通過各自的元數(shù)據(jù)來 表示。包含于音樂數(shù)據(jù)庫中的其他元數(shù)據(jù)可以是協(xié)同過濾信息416或置信度量418。
音樂數(shù)據(jù)庫中元數(shù)據(jù)的布置也可不同于圖4中的示例并且該布置僅需要鏈接相 應的信息。例如該協(xié)同過濾數(shù)據(jù)可群集于音樂數(shù)據(jù)庫或相似性數(shù)據(jù)庫中作為用戶組/音樂 矩陣,其中該群集包含用戶組或聽眾組傾聽或喜歡的音樂。因此通過查找該群集,可標識類 似的音樂。該元數(shù)據(jù)可限制于一維或替代地可以包括多維表示。這種靈活性允許根據(jù)要求和 可用的硬件對音樂數(shù)據(jù)庫進行優(yōu)化設計。
該不同的元數(shù)據(jù)可通過不同特性而被分組。第一組可被描述成高層描述符。例子 可以是標題,藝術家408,流派404或氣氛406。第一組的元數(shù)據(jù)通常不可直接得自音樂的 音頻信號,但是可直接得自屬性,該屬性需要與音樂段的音頻信號分別標識。這些元數(shù)據(jù)可 允許描述標題和/或藝術家和/或氣氛和/或流派的第一和第二元數(shù)據(jù)之間的比較。元數(shù)據(jù)的第二組可被描述成低層描述符。這些元數(shù)據(jù)可從音頻信號音樂中推導 出。這些元數(shù)據(jù)的例子是每分鐘的節(jié)拍,零交叉率(zero crossing rate),強度波動或強度 峰值的相對位置或任何其他基于非頻譜的元數(shù)據(jù)(例如基于時域的描述符)。這些非頻譜 相關的元數(shù)據(jù)具有其要求低計算能力的有益效果。根據(jù)項低層描述符項,也可以對諸如梅 爾式頻率聲譜系數(shù)(Mel Frequency CepstralCoefficient)之類的基于頻譜的描述符進行 分組。這些低層描述符可適合于產(chǎn)生音樂段的特性指紋并且允許對于視頻檢索方法的高細 化。第二組的所有這些元數(shù)據(jù)具有以下有益效果可以自動地從音樂段的音頻信號中提取 它們。這些元數(shù)據(jù)可以允許描述每分鐘節(jié)拍BPM和/或描述另外的低層描述符的第一和第 二元數(shù)據(jù)的比較。如果低層描述符只在時間域中計算,這可以節(jié)省計算能力。元數(shù)據(jù)的第三組可以描述為時間相關的和視頻特定的描述符。例子是時間位置 410或音樂段的順序位置412,音樂段的長度414或音樂段之間的時間距離。在圖5中示意 性地示出了音樂段的時間位置和長度。包含于音頻視頻文件500中的視頻文件502中的音 樂段506具有tl的時間位置和Tl的長度。相應地,與視頻文件502 —起包含于音頻視頻文 件500中的音樂段508具有t2的時間位置和T2的長度;以及與視頻文件502 —起包含于 音頻視頻文件500中的音樂段510具有t3的時間位置和T3的長度。關于圖4中的順序位 置412,對于與圖5中的音頻視頻文件500相對應的視頻中的音樂段而言,音樂數(shù)據(jù)庫100 中的元數(shù)據(jù)將會是對于音樂段506而言是“第一”,對于音樂段508而言是“第二”以及對于 音樂段510而言是“第三”。這些時間相關的和視頻特定的元數(shù)據(jù)可以適合于區(qū)分不同的音 頻視頻文件(這些音頻視頻文件在包含于音頻視頻文件的音頻文件中的音樂段中有大的 重疊),因為該信息是非常特定于音頻視頻文件的。也可結合低層描述符分析從音頻視頻文 件的音頻數(shù)據(jù)中通過由特性指紋來標識音樂段,自動地推導出這些信息。這些元數(shù)據(jù)可允 許對分別描述第一和第二音頻視頻文件中的音樂的第一和第二段的第一和第二時間位置 的第一和第二元數(shù)據(jù)進行比較,和/或?qū)Ψ謩e描述包含于第一和第二音頻視頻文件中的音 樂段的時間次序的第一和第二元數(shù)據(jù)進行比較,和/或?qū)Ψ謩e描述第一和第二音頻視頻文 件中的音樂的第一和第二段的第一和第二長度的第一和第二元數(shù)據(jù)進行比較。另外的元數(shù)據(jù)組可被描述為環(huán)境相關的描述符。例子是置信度量或協(xié)同過濾信 息。這些特征通過描述音樂段的另外的特性而支持視頻檢索功能。如果在步驟S106處的 元數(shù)據(jù)供應經(jīng)由這個音樂數(shù)據(jù)庫100而進行,則該信息優(yōu)選地也包含于音樂數(shù)據(jù)庫100中。例如該協(xié)同過濾信息可僅僅基于例如所有用戶的回放統(tǒng)計??捎糜谝曨l檢索的其他信息,可包含包括音頻視頻文件或與音頻視頻文件相關聯(lián) 的網(wǎng)頁信息。在圖6中示出了一個例子。音頻視頻文件500 (包含包括至少一個音樂段504 的視頻數(shù)據(jù)502和音頻數(shù)據(jù))被包括于網(wǎng)頁600或與網(wǎng)頁600相關聯(lián)。當在步驟S112中 提供第二音頻視頻文件時,該網(wǎng)頁600也可被提供給用戶。網(wǎng)頁600的提供可經(jīng)由因特網(wǎng) 地址602或到其的鏈接的提供來實現(xiàn)。該網(wǎng)頁的這種提供對于用戶可以具有以下優(yōu)點他可查找連接到他感興趣的其他音頻視頻文件的因特網(wǎng)網(wǎng)頁。其還具有以下有益效果數(shù)據(jù) 業(yè)務量可被減少為需要被提供的第二音頻視頻文件的標識符,并且用戶被緊接著告知他可 以觀看該相應視頻的位置。該網(wǎng)頁也可包含設計。這設計可用于確定音樂的第一和第二段的相似性度量,方 式是通過比較包括包含音樂的第一段的第一音頻視頻文件的第一網(wǎng)頁的設計和包括包含 音樂的第二段的第二音頻視頻文件的第二網(wǎng)頁的設計。這樣的設計可以是對于該網(wǎng)頁的任 何視覺元素特征。該視覺元素的示例可以是標志,徽章,背景顏色,圖案,文本元素,字體,特 定風格元素等等。如上所述,根據(jù)實施例的用于視頻檢索的方法可用于視頻數(shù)據(jù)庫中的音頻視頻文 件檢索。這樣的視頻數(shù)據(jù)庫700顯示于圖7中。在該視頻數(shù)據(jù)庫700中,每一個音頻視頻 文件通過它的索引(indeX)V ID (標識符)704被標識(被編索引)并且音頻視頻文件中的 音樂段通過它們的索引PM ID (標識符)702被標識。因此,結合上述音樂數(shù)據(jù)庫,在步驟 S112處的第二音頻視頻文件的提供可進一步被自動化,因為在步驟S106處提供的音樂的 第二段被鏈接到視頻數(shù)據(jù)庫700中的至少一個音頻視頻文件;并且分別從該音樂數(shù)據(jù)庫和 視頻數(shù)據(jù)庫中自動進行在S106處的音樂的第二段的提供和在步驟Sl 12處的第二音頻視頻 文件的提供。該視頻檢索也可基于從包含于音頻視頻文件的音頻數(shù)據(jù)中提取低層描述符或高 層描述符。這種信息可被存儲為描述符_視頻數(shù)據(jù)庫中的元數(shù)據(jù),在該描述符_視頻數(shù)據(jù) 庫中每一個音頻視頻文件都鏈接到它的元數(shù)據(jù)。在這個實施例中,第一音頻視頻文件由用戶提供,針對該第音頻視頻文件,該用戶 有興趣知道其他類似的視頻,一個或更多的低層描述符或高層描述符被從包含于第一音頻 視頻文件中的音頻文件中提取出來。這些描述符被與第二音頻視頻文件的相應描述符相比 較。該第二文件的描述符可通過與針對第一音頻視頻文件所進行的特征提取相同的特征提 取而獲得,或可在描述符-視頻數(shù)據(jù)庫中查找該第二文件的描述符。相似性度量通過比較 第一和第二音頻文件的描述符而確定并且如果該相似性被發(fā)現(xiàn)高于閾值,則該第二音頻視 頻文件被提供給用戶。這種視頻檢索可結合根據(jù)如上所述的音樂段標識的視頻檢索。網(wǎng)頁 信息,置信度量或協(xié)同過濾信息可被用于以與基于音樂段標識的視頻檢索方法的上述方式 相同的方式針對這種基于特征的分析來細化相似性度量確定??稍谙鄳剡m配的裝置上進行或可在包含這種裝置的網(wǎng)絡的系統(tǒng)上進行視頻檢 索的執(zhí)行。在圖8,顯示了用于這樣的系統(tǒng)的服務器800。服務器800可包含通信單元802, 適于接收第一音頻視頻文件;存儲器806,適于存儲音樂數(shù)據(jù)庫100 ;以及數(shù)據(jù)處理器804, 適于確定第一音頻視頻文件中的音樂的第一段的第一標識符,并且查找音樂數(shù)據(jù)庫100中的該第一標識符的第一元數(shù)據(jù)(其中所述第一元數(shù)據(jù)與所述第一標識符相關聯(lián)),并且從 音樂數(shù)據(jù)庫100中查找音樂的第二段的第二元數(shù)據(jù)(其中該音樂的第二段被包含于第二音 頻視頻文件中),該數(shù)據(jù)處理器進一步地適于通過比較第一和第二元數(shù)據(jù)來確定相似性度 量,并且適于根據(jù)相似性度量向該通信單元802提供該第二音頻視頻文件或其標識符。從 而該通信單元802可進一步適于發(fā)送第二音頻視頻文件或其標識符給用戶。該存儲器806 可進一步包含視頻數(shù)據(jù)庫700。該數(shù)據(jù)處理器804也可包含若干處理器,這些處理器被優(yōu)化 以進行特定任務,例如音樂段標識和標識符確定,查找元數(shù)據(jù)或?qū)⒃撓嗨菩远攘颗c閾值相 比較。該存儲單元可包含相似性度量數(shù)據(jù)庫。
圖9顯示了相應的用戶裝置900,其適于與圖8中所示的該服務器800通信/協(xié) 作。這種裝置的例子是計算機,筆記本,移動游戲機,PDA,移動電話,無線視頻照相機,交互 式電視接收機。該用戶裝置可包含至少一個通信單元904,其適于從服務器800接收第二音 頻視頻文件或其標識符。服務器800因此適于例如從所述用戶裝置900接收第一音頻視頻 文件,存儲音樂數(shù)據(jù)庫100,確定第一音頻視頻文件中的音樂的第一段的第一標識符,以及 查找音樂數(shù)據(jù)庫100中的第一標識符的第一元數(shù)據(jù)(其中所述第一元數(shù)據(jù)與所述第一標識 符相關聯(lián)),并且適于從所述音樂數(shù)據(jù)庫100中查找音樂的第二段的第二元數(shù)據(jù)(其中該音 樂的第二段被包括于第二音頻視頻文件中),該數(shù)據(jù)處理器804進一步適于通過比較第一 和第二元數(shù)據(jù)確定相似性度量,并且根據(jù)相似性度量向該通信單元902提供該第二音頻視 頻文件或其標識符,以及例如發(fā)送第二音頻視頻文件或其標識符到用戶裝置。該用戶裝置 900優(yōu)選地包含用戶接口 904,該用戶接口允許該用戶提供音頻視頻文件。這可以是DVD播 放器,CD播放器,存儲器棒接口或甚至是用戶可用其鍵入該音頻視頻文件的名字的圖形用 戶接口。圖10顯示用于視頻檢索的系統(tǒng)。它可包含至少一個服務器1008、1010,所述服務 器包括通信單元,適于從用戶裝置1002、1004、1006接收第一音頻視頻文件或其音頻視頻 標識符;存儲器,適于存儲音樂數(shù)據(jù)庫;數(shù)據(jù)處理器,適于確定該第一音頻視頻文件中的音 樂的第一段的第一標識符,并且在該音樂數(shù)據(jù)庫中查找第一元數(shù)據(jù)的第一標識符(其中所 述第一元數(shù)據(jù)與所述第一標識符相關聯(lián)),并且在音樂數(shù)據(jù)庫中查找音樂的第二段的第二 元數(shù)據(jù)(其中該音樂的第二段包括于第二音頻視頻文件中),該數(shù)據(jù)處理器進一步適于通 過比較第一和第二元數(shù)據(jù)確定相似性度量,并且根據(jù)相似性度量向該通信單元提供該第二 音頻視頻文件或其標識符,其中該通信單元進一步適于發(fā)送該第二音頻視頻文件或其標識 符到該用戶裝置1002、1004、1006,并且至少一個用戶裝置1002、1004、1006適于向該服務 器1008、1010傳送該第一音頻視頻文件并且進一步適于接收該第二音頻視頻文件。該服務器1008、1010可以是與圖8中的服務器800相對應的服務器,但是該音樂 數(shù)據(jù)庫可作為單獨的(一個或多個)數(shù)據(jù)庫1012而被提供,且相應地,該視頻數(shù)據(jù)庫可作 為單獨的(一個或多個)數(shù)據(jù)庫1014而被提供。該音樂數(shù)據(jù)庫和視頻數(shù)據(jù)庫可以是一個 數(shù)據(jù)庫。該系統(tǒng)的不同裝置可通過通信連接1000而被連接。該通信連接1000也可被配置 為僅提供在分層通信結構中的不同裝置之間的通信連接。圖8到圖10顯示了視頻檢索的裝置和系統(tǒng)的示例性設置。視頻檢索方法的各個 任務也可在不同的裝置之間不同地劃分。這允許最有效地設計系統(tǒng)。也有可能的是所有任務都結合于用戶裝置中,因此,裝置可被設計成獨立的裝置。相應于視頻檢索的方法,計算機程序產(chǎn)品包括計算機程序指令,該指令導致計算 機執(zhí)行視頻檢索的方法,包括提供第一音頻視頻文件,在第一音頻視頻文件中確定音樂的 第一段的第一標識符,在音樂數(shù)據(jù)庫中查找該第一標識符的第一元數(shù)據(jù)(其中所述第一元 數(shù)據(jù)與所述第一標識符相關聯(lián)),從該音樂數(shù)據(jù)庫中提供音樂的第二段的第二元數(shù)據(jù)(其 中該音樂的第二段被包含于第二音頻視頻文件中),通過比較第一和第二元數(shù)據(jù)來確定相 似性度量,并且根據(jù)該相似性度量提供該第二音頻視頻文件或其標識符。
這樣的計算機程序產(chǎn)品可被提供于相應的計算機可讀存儲介質(zhì)上。還可以有如下的實施例用于視頻檢索的方法,包括例如由用戶提供音頻視頻文件;在該音頻視頻文件 中確定音樂的第一段的標識符,其中該標識符基于該音樂段的音頻信號的特性音頻特征(# 指紋)而確定;基于查找表獨立于音頻信號針對標識符確定元數(shù)據(jù)和/或協(xié)同過濾信息,其 中在查找表中音樂段的多個標識符與相應的元數(shù)據(jù)和/或協(xié)同過濾信息相關聯(lián);提供另外 的元數(shù)據(jù)和/或音樂的多個第二段的另外的協(xié)同過濾信息,其中音樂的第二段中的每一個 與一組另外的音頻視頻文件的相應的另外的音頻視頻文件相關聯(lián);為音樂的第二段中的每 一個確定相似性度量,該相似性度量指示該音樂的第一段與音樂的相應第二段的相似性, 其中通過將該元數(shù)據(jù)與相應的另外的元數(shù)據(jù)相比較和/或通過將該防同過濾信息與該另 外的協(xié)同過濾信息相比較而確定該相似性度量;以及根據(jù)該相似性度量例如向該用戶提供 該組另外的音頻視頻文件中的至少一個音頻視頻文件或其標識符。盡管已在此闡明和描述特定實施例,本領域普通技術人員將理解,多種超網(wǎng) (ultra net)和/或等同的實施方式可以在不脫離所描述的實施例的范圍的情況下替換所 示出和描述的特定實施例。本申請旨在涵蓋這里所討論的特定實施例的任何適配或變型。 因此,本發(fā)明旨在僅由權利要求書及其等同內(nèi)容所限定。
權利要求
一種用于視頻檢索的方法,包括提供第一音頻視頻文件;在該第一音頻視頻文件中確定音樂的第一段的第一標識符;在音樂數(shù)據(jù)庫中查找所述第一標識符的第一元數(shù)據(jù),其中所述第一元數(shù)據(jù)與所述第一標識符相關聯(lián);從所述音樂數(shù)據(jù)庫中提供音樂的第二段的第二元數(shù)據(jù),其中該音樂的第二段被包含于第二音頻視頻文件中;使用微處理器,通過比較第一和第二元數(shù)據(jù)來確定相似性度量;以及根據(jù)該相似性度量提供該第二音頻視頻文件或其標識符。
2.如權利要求1所述的方法,其中第一和/或第二元數(shù)據(jù)描述流派、氣氛、標題和/或 藝術家。
3.如權利要求1所述的方法,其中第一和/或第二元數(shù)據(jù)描述每分鐘的節(jié)拍BPM和/ 或另外的低層描述符。
4.如權利要求1所述的方法,其中第一和/或第二元數(shù)據(jù)描述協(xié)同過濾信息。
5.如權利要求1所述的方法,進一步包括,提供指示在該第二音頻視頻文件中正確地標識該音樂的第二段的概率的置信度量,其 中該相似性度量取決于該置信度量。
6.如權利要求1所述的方法,其中該相似性度量取決于用戶簡檔對協(xié)同過濾信息的相 似性。
7.如權利要求1所述的方法,其中第一和/或第二元數(shù)據(jù)分別描述在第一和第二音頻 視頻文件中的音樂的第一段和第二段的第一和第二時間位置。
8.如權利要求1所述的方法,其中第一和/或第二元數(shù)據(jù)分別描述被包含于第一和第 二音頻視頻文件中的音樂段的時間順序。
9.如權利要求1所述的方法,其中第一和/或第二元數(shù)據(jù)分別描述在第一和第二音頻 視頻文件中的音樂的第一段和第二段的第一和第二長度。
10.如權利要求1所述的方法,其中該第二音頻視頻文件被包含于網(wǎng)頁中或與該網(wǎng)頁 相關聯(lián),并且該網(wǎng)頁被提供給用戶。
11.如權利要求10所述的方法,其中該第一音頻視頻文件被包含于另外的網(wǎng)頁中或與 該另外的網(wǎng)頁相關聯(lián),并且該相似性度量通過比較第一和第二網(wǎng)頁的設計而確定。
12.如權利要求1所述的方法,其中所述第一標識符和/或所述第二標識符是指紋。
13.如權利要求1所述的方法,其中所述第一元數(shù)據(jù)基于音樂文件和/或音頻視頻文件 獨立于所述第一音頻視頻文件而確定,該音樂文件和/或音頻視頻文件獨立于由所述用戶 提供的所述音頻視頻文件而獲得。
14.如權利要求1所述的方法,其中該相似性度量被提供于包括音樂段的相似性矩陣 的相似性數(shù)據(jù)庫中。
15.一種服務器,包括通信單元,適于接收第一音頻視頻文件;存儲器,適于存儲音樂數(shù)據(jù)庫;數(shù)據(jù)處理器,適于在該第一音頻視頻文件中確定音樂的第一段的第一標識符,并且在該音樂數(shù)據(jù)庫中查找所述第一標識符的第一元數(shù)據(jù),并且從所述音樂數(shù)據(jù)庫中查找音樂的 第二段的第二元數(shù)據(jù),其中所述第一元數(shù)據(jù)與所述第一標識符相關聯(lián),其中該音樂的第二 段被包含于第二音頻視頻文件中;該數(shù)據(jù)處理器進一步適于通過比較第一和第二元數(shù)據(jù)來 確定相似性度量,并且根據(jù)該相似性度量向該通信單元提供該第二音頻視頻文件或其標識 符,其中該通信單元進一步適于提供該第二音頻視頻文件或其標識符。
全文摘要
本發(fā)明涉及基于上下文的視頻查找器。本發(fā)明的實施例涉及一種用于視頻檢索的方法,該方法通過提供第一音頻視頻文件,在該第一一音頻視頻文件中確定音樂的第一段的第一標識符,在音樂數(shù)據(jù)庫中查找該第一標識符的第一元數(shù)據(jù),其中所述第一元數(shù)據(jù)與所述第一標識符相關聯(lián),從該音樂數(shù)據(jù)庫中提供音樂的第二段的第二元數(shù)據(jù)。該音樂的第二段被包含于第二音頻視頻文件中。進一步地通過以下來實施該方法通過比較第一和第二元數(shù)據(jù)來確定該相似性度量,并且根據(jù)該相似性度量提供該第二音頻視頻文件或其標識符。另外的實施例涉及用于視頻檢索的服務器,用戶裝置和系統(tǒng)以及計算機程序產(chǎn)品。
文檔編號G06F17/30GK101847158SQ201010173120
公開日2010年9月29日 申請日期2010年3月24日 優(yōu)先權日2009年3月24日
發(fā)明者F·吉倫, J·埃金克, J·阿朗索加西亞, T·坎普, W·哈格 申請人:索尼株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1