專利名稱:由視頻重放系統(tǒng)從壓縮數(shù)字視頻信號(hào)中動(dòng)態(tài)地提取特征的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般說(shuō)來(lái)涉及從壓縮數(shù)字視頻信號(hào)中提取特征,而更具體地說(shuō),涉及使用所提取的特征來(lái)訪問視頻信號(hào)的內(nèi)容。
近來(lái)提出了許多關(guān)于傳送可視信息的標(biāo)準(zhǔn)。對(duì)于視頻信號(hào),最廣泛采用的標(biāo)準(zhǔn)包括MPEG-1(用于運(yùn)動(dòng)圖象的存儲(chǔ)和檢索),MPEG-2(用于數(shù)字電視)以及H.263,參見ISO/IEC JTC1 CD 11172,MPEG,“信息技術(shù)-用于數(shù)字存儲(chǔ)媒體速率高達(dá)大約1.5兆位/秒的運(yùn)動(dòng)圖象及其伴音的編碼-第二部分運(yùn)動(dòng)圖象信息的編碼”,1991;LeGall,“MPEG多媒體應(yīng)用的視頻壓縮標(biāo)準(zhǔn)”,ACM通信,第34卷,第四分冊(cè),第45-58頁(yè),1991;ISO/IEC DIS 13818-2,MPEG-2,“信息技術(shù)-運(yùn)動(dòng)圖象及其伴音信息的通用編碼-第二部分視頻”,1994;ITU-T SG XV,DRAFT H.263,“用于低位率通信的視頻編碼”,1996;ITU-T SG XVI,DRAFT13 H.263+Q15-A-60rev.0,“用于低位率通信的視頻編碼”,1997。
這些標(biāo)準(zhǔn)相對(duì)來(lái)說(shuō)是低級(jí)的規(guī)范,主要涉及到視頻信號(hào)的時(shí)間和空間壓縮。這些標(biāo)準(zhǔn)具有一個(gè)共同特征它們都是以每幀為基礎(chǔ)進(jìn)行壓縮。采用了這些標(biāo)準(zhǔn),可以在廣泛的應(yīng)用范圍內(nèi)獲得高的壓縮率。
較新的視頻編碼標(biāo)準(zhǔn),例如MPEG-4(用于多媒體應(yīng)用),參見“信息技術(shù)-音頻/可視對(duì)象的通用編碼”,ISO/IEC 14496-21999(MPEG4Visual),允許將任意形狀的對(duì)象作為獨(dú)立的視頻對(duì)象平面(VOP)和幀組(GOF)來(lái)進(jìn)行編碼和解碼。這些對(duì)象可以是可視、音頻、天然、人工合成、原始、復(fù)合等形式或者上述形式的組合。
這個(gè)新興的標(biāo)準(zhǔn)用來(lái)實(shí)現(xiàn)多媒體應(yīng)用,如交互式視頻,其中集成了天然及人工合成材料,而且Internet也為其提供了通用訪問的方法。例如,人們可能想將一個(gè)運(yùn)動(dòng)圖象或?qū)ο髲囊欢我曨l中“剪切并粘貼”到另一段視頻中。在這種應(yīng)用中,假定多媒體內(nèi)容中的對(duì)象已經(jīng)被某種分割方法所識(shí)別,如參見序列號(hào)為09/326,750的美國(guó)專利申請(qǐng)“對(duì)圖象空間進(jìn)行排序以搜索對(duì)象表面的方法”,1999年6月4日由林(Lin)等人申請(qǐng)。
圖1示出高層的傳統(tǒng)視頻重放系統(tǒng)100。重放系統(tǒng)100包含一個(gè)視頻接收器/解碼器/顯示器(以下稱作“接收器”200)。接收器200連接到用戶接口120,如遠(yuǎn)程控制器、鍵盤或鼠標(biāo)。壓縮數(shù)字輸入位流101形式的視頻節(jié)目101來(lái)自存儲(chǔ)設(shè)備、攝像機(jī),或者通過廣播頻道接收。接收器200接收該輸入位流,對(duì)其進(jìn)行解碼,最后再將已解碼的圖象向用戶102顯示。顯示器可以是電視或電腦終端。
在先有技術(shù)中,所允許的對(duì)本地視頻內(nèi)容的訪問相對(duì)比較簡(jiǎn)單。用戶接口提供有限的一組命令來(lái)遍歷(“訪問”)視頻的內(nèi)容,例如快進(jìn)、播放以及回退等。如果該內(nèi)容存儲(chǔ)在DVD上,那么就能夠進(jìn)行隨機(jī)訪問。無(wú)論如何,用戶的訪問都是以該視頻中幀的位置為基礎(chǔ)的,其中所述位置或者由時(shí)間或者由幀對(duì)該視頻開頭的偏移量來(lái)確定。訪問視頻時(shí)并不考慮該視頻的內(nèi)容。
如果不知道內(nèi)容,就很難為用戶提供訪問該內(nèi)容的先進(jìn)方法。例如,如果用戶想要跳進(jìn)到視頻中一場(chǎng)賽事的得分鏡頭部分,那么僅有快進(jìn)、播放以及回退等命令則難于實(shí)現(xiàn)。
這樣有限的一組位置訪問命令只能允許用戶在視頻中確定所需的位置。目前的視頻重放系統(tǒng)不支持基于內(nèi)容的訪問?;趦?nèi)容的訪問需要對(duì)視頻進(jìn)行一些預(yù)先分析,以便確定并定位特定用戶感興趣的部分。
某些重放系統(tǒng)可能具有極為有限的基于內(nèi)容的訪問功能,例如,可以為所需的特定幀做標(biāo)記或注釋,所標(biāo)記的幀的位置和注釋可以存儲(chǔ)在內(nèi)存中。那么用戶以后就可以跳進(jìn)到以前所標(biāo)記的幀進(jìn)行重放。但是,提供這種視頻注釋功能的系統(tǒng)通常不能與其它設(shè)備協(xié)同操作,而且還要求用戶進(jìn)行大量的操作。也就是說(shuō),用戶必須查看這些幀,并選取所需的特定幀。
因此,先有技術(shù)的視頻重放系統(tǒng)和用戶就受到限制,只能共同參與定位。換句話說(shuō),用戶必須即時(shí)訪問該內(nèi)容。在內(nèi)容放置在遠(yuǎn)端的情況下,先有技術(shù)系統(tǒng)通常不允許基于內(nèi)容的訪問。例如,通過Web瀏覽器和Internet對(duì)存儲(chǔ)在遠(yuǎn)程服務(wù)器上的視頻數(shù)據(jù)進(jìn)行訪問的用戶。
將來(lái),基于內(nèi)容的訪問以及可交換的重放系統(tǒng)將是一個(gè)必須支持的關(guān)鍵特征。以可交換的方式對(duì)基于內(nèi)容的訪問的支持將需要描述該內(nèi)容的元數(shù)據(jù)。
先有技術(shù)的接收器200的詳細(xì)結(jié)構(gòu)在圖2中給出。解碼發(fā)生在兩個(gè)基本階段。在第一階段,從壓縮的視頻中提取特征,并且在第二階段,所提取的特征被用來(lái)重組視頻。為了支持基于內(nèi)容的訪問,本發(fā)明(如下所述)采用不同的方式進(jìn)行解碼。
多路分離器(demux)210接收壓縮的位流101。該多路分離器與所接收的位流數(shù)據(jù)包同步,并將位流中的視頻、音頻以及數(shù)據(jù)部分分離成各原始位流。利用內(nèi)存控制器230將壓縮數(shù)據(jù)發(fā)送到共享內(nèi)存單元220。前端分析程序240對(duì)壓縮視頻進(jìn)行分析。分析程序240負(fù)責(zé)提取位流的高層語(yǔ)法,例如,在MPEG-2標(biāo)準(zhǔn)的片層之上。
在此等級(jí)之下,位被傳送到符號(hào)處理器250,該符號(hào)處理器主要負(fù)責(zé)可變長(zhǎng)解碼(VLD)運(yùn)算。例如,在MPEG位流中,運(yùn)動(dòng)矢量和離散余弦變換(DCT)系數(shù)通過可變長(zhǎng)編碼連同其它信息(如宏塊方式等)進(jìn)行編碼。
經(jīng)過符號(hào)處理器,宏塊(MB)和運(yùn)動(dòng)矢量(MV)信息251被發(fā)送到地址生成器260,同時(shí)DCT信息252被發(fā)送到反向DCT(IDCT)270。
地址生成器負(fù)責(zé)生成內(nèi)存地址,該地址將用于在內(nèi)存單元220中寫入和讀取視頻數(shù)據(jù)。地址生成器在很大程度上要依靠諸如預(yù)測(cè)方式、當(dāng)前塊的位置以及運(yùn)動(dòng)矢量值等信息。某些信息被傳遞到運(yùn)動(dòng)補(bǔ)償單元280,此單元把從內(nèi)存單元中讀取的數(shù)據(jù)與從IDCT 270接收的數(shù)據(jù)進(jìn)行組合。
在幀內(nèi)方式預(yù)測(cè)的情況下,由于從內(nèi)存中讀取的數(shù)據(jù)屬于預(yù)測(cè)性信息,就可能沒有從內(nèi)存中讀取的數(shù)據(jù)。重組的數(shù)據(jù)將從運(yùn)動(dòng)補(bǔ)償單元280寫入到內(nèi)存220中。要顯示此數(shù)據(jù)時(shí),顯示處理器290讀取該數(shù)據(jù)以便進(jìn)行任何所需的處理。用戶接口120與內(nèi)存控制器230相互配合,從而能夠?qū)崿F(xiàn)如上所述的有限的位置訪問。
MPEG委員會(huì)最近進(jìn)行的標(biāo)準(zhǔn)化工作就是關(guān)于MPEG-7,命名為“多媒體內(nèi)容描述接口”,參見“MPEG-7環(huán)境、目標(biāo)以及技術(shù)說(shuō)明”,ISO/IEC N2861,1999年7月。該標(biāo)準(zhǔn)主要是計(jì)劃加入一套描述符和描述方案(DS),它們可以用于描述各種類型的多媒體內(nèi)容。描述符和描述方案與內(nèi)容本身相關(guān)聯(lián),并允許對(duì)特定用戶感興趣的內(nèi)容進(jìn)行快速及有效的檢索。
重要的是要認(rèn)識(shí)到,MPEG-7標(biāo)準(zhǔn)并不是要取代以前的編碼標(biāo)準(zhǔn)。相反,它是基于以前的標(biāo)準(zhǔn)方案的,尤其是MPEG-4,這是因?yàn)槎嗝襟w內(nèi)容可以分解為不同的對(duì)象,而且可以給每個(gè)對(duì)象指定一套唯一的描述符。同時(shí),該標(biāo)準(zhǔn)與存儲(chǔ)內(nèi)容的格式無(wú)關(guān)。
MPEG-7的主要應(yīng)用將是在搜索和檢索應(yīng)用方面,參見“MPEG-7應(yīng)用”,ISO/IECN2861,1999年7月。在簡(jiǎn)單的應(yīng)用環(huán)境中,用戶指定一個(gè)特定對(duì)象的某些屬性。在該低級(jí)表示法,這些屬性可以包含描述該特定對(duì)象的結(jié)構(gòu)、運(yùn)動(dòng)及形狀等的描述符。一種表示和比較形狀的方法在序列號(hào)為09/326,759的美國(guó)專利申請(qǐng)“對(duì)圖象空間進(jìn)行排序以表示對(duì)象形狀的方法”中進(jìn)行了說(shuō)明,該專利由林(Lin)等人于1999年6月4日申請(qǐng),另外,一種描述運(yùn)動(dòng)活動(dòng)性的方法在序列號(hào)為09/406,444的美國(guó)專利申請(qǐng)“視頻序列活動(dòng)性描述符”中進(jìn)行了說(shuō)明,該專利由迪瓦卡倫(Divakaran)等人于1999年9月27日申請(qǐng)。
為了獲得高層表示法,就可能要考慮結(jié)合了多個(gè)低級(jí)描述符的更為詳細(xì)的描述方案。實(shí)際上,這些描述方案甚至還可以包含其它描述方案,參見“MPEG-7多媒描述方案WD(V1.0)”,ISO/IECN3113,1999年12月,以及由林(Lin)等人于1999年8月30日申請(qǐng)的序列號(hào)為09/385,169的美國(guó)專利申請(qǐng)“表示及比較多媒體內(nèi)容的方法”。
將由MPEG-7標(biāo)準(zhǔn)提供的描述符和描述方案可以看作是語(yǔ)法或語(yǔ)義的。語(yǔ)法信息指的是內(nèi)容的物理和邏輯信號(hào)方面。語(yǔ)義信息指的是內(nèi)容的概念上的含義。對(duì)于視頻序列,語(yǔ)法元素可能涉及到特定對(duì)象的色彩、形狀以及運(yùn)動(dòng)。另一方面,語(yǔ)義元素可能涉及到無(wú)法從低級(jí)描述符中提取的信息,如視頻序列中事件的時(shí)間和位置或某個(gè)人的名字。
在數(shù)字視頻壓縮標(biāo)準(zhǔn)(如MPEG-2和MPEG-4)以及規(guī)定描述內(nèi)容方式的標(biāo)準(zhǔn)(如MPEG-7)的背景下,將會(huì)涌現(xiàn)新的應(yīng)用,這些應(yīng)用允許對(duì)內(nèi)容進(jìn)行改進(jìn)的訪問。這就需要提供能夠?qū)崿F(xiàn)這些應(yīng)用的視頻重放系統(tǒng)。此外,該視頻重放系統(tǒng)還應(yīng)該允許對(duì)遠(yuǎn)程及本地內(nèi)容進(jìn)行基于內(nèi)容的訪問。
本發(fā)明提供一種用于處理輸入的壓縮數(shù)字視頻信號(hào)的視頻重放系統(tǒng)。該重放系統(tǒng)包括連接成接收輸入的壓縮數(shù)字視頻信號(hào)的接收器。運(yùn)行過程中,在接收輸入的壓縮數(shù)字視頻信號(hào)的同時(shí),與接收器相連接的特征提取單元從輸入的壓縮數(shù)字視頻信號(hào)中動(dòng)態(tài)地提取特征,而與特征提取單元相連接的描述方案例示程序?qū)⑺崛〉奶卣骶幋a成為內(nèi)容描述符。在本發(fā)明的一個(gè)方面,相對(duì)于接收器來(lái)說(shuō),輸入的壓縮數(shù)字視頻信號(hào)的視頻信號(hào)源可以是本地的或者是遠(yuǎn)程的。
視頻重放系統(tǒng)還可以包括搜索引擎,該搜索引擎與接收器相連接,用于根據(jù)內(nèi)容描述符來(lái)訪問所接收的輸入的壓縮數(shù)字視頻信號(hào)。在這種情況下,與接收器和搜索引擎相連接的用戶接口根據(jù)與內(nèi)容描述符有關(guān)的用戶命令來(lái)訪問輸入的壓縮數(shù)字視頻信號(hào)。
經(jīng)過內(nèi)存控制器與接收器相連接的內(nèi)存單元可以用于存儲(chǔ)輸入的壓縮數(shù)字視頻信號(hào)和內(nèi)容描述符。
與特征提取單元相連接的符號(hào)處理器用于從輸入的壓縮數(shù)字視頻信號(hào)中提取運(yùn)動(dòng)矢量、宏塊以及DCT系數(shù)。與特征提取單元相連接的前端分析程序用于從輸入的壓縮數(shù)字視頻信號(hào)中提取電子編程指南。
與特征提取單元相連接的系統(tǒng)多路分離器可以提取內(nèi)容制作和用法信息。與內(nèi)存單元相連接的位流處理器可以用于產(chǎn)生輸出的壓縮數(shù)字視頻信號(hào),其中還包括輸入的壓縮數(shù)字視頻信號(hào)和內(nèi)容描述符。
圖1是先有技術(shù)視頻重放系統(tǒng)的方塊圖;圖2是圖1所示系統(tǒng)的接收器的方塊圖;圖3是依照本發(fā)明的視頻重放系統(tǒng)的高層方塊圖;圖4是圖3所示視頻重放系統(tǒng)的低層方塊圖;圖5是包括頻道沖浪器的視頻重放系統(tǒng)的高層方塊圖;圖6是圖5所示視頻重放系統(tǒng)所使用的訪問方法的方塊圖。
最佳實(shí)施例的詳細(xì)說(shuō)明系統(tǒng)概述圖3示出依照本發(fā)明的高層視頻重放系統(tǒng)300。該重放系統(tǒng)包括接收器/解碼器/顯示器(“接收器”)302。該接收器與編碼器303以及可選的搜索引擎304相連接。編碼器和搜索引擎將在下面詳細(xì)說(shuō)明。接收器和搜索引擎由增強(qiáng)型用戶接口305來(lái)控制,該用戶接口能夠?qū)σ曨l進(jìn)行基于內(nèi)容的訪問。正如在圖1和圖2所示的系統(tǒng)中,壓縮數(shù)字輸入位流301由視頻接收器接收。
為了能夠進(jìn)行基于內(nèi)容的訪問,本系統(tǒng)采用編碼器303來(lái)進(jìn)行動(dòng)態(tài)特征提取以及MPEG-7編碼。編碼器生成內(nèi)容描述(擴(kuò)充的位流)306。擴(kuò)充的位流可以包含原始輸入位流301。搜索引擎執(zhí)行改進(jìn)的用戶命令,以視頻內(nèi)容為基礎(chǔ),使用已編碼的內(nèi)容描述符來(lái)訪問視頻。與先有技術(shù)系統(tǒng)形成對(duì)比,可以對(duì)本地或者遠(yuǎn)程內(nèi)容進(jìn)行這種基于內(nèi)容的訪問。
圖4更為詳細(xì)地示出重放系統(tǒng)300。在內(nèi)部運(yùn)行和輸出方面,本重放系統(tǒng)不同于圖1和圖2所示的系統(tǒng)。圖4中的虛線框標(biāo)出了與一些組件的連接,這些組件是先有技術(shù)視頻重放系統(tǒng)中所沒有的。
重放系統(tǒng)300包括多路分離器(demux)310、內(nèi)存單元320、內(nèi)存控制器330、前端分析程序340以及符號(hào)處理器350。這些系統(tǒng)組件用于第一階段解碼過程中的特征提取。
該系統(tǒng)還包括地址生成器360、反向DCT(IDCT)370、運(yùn)動(dòng)補(bǔ)償器380以及顯示處理器390。這些組件用于第二階段解碼過程中的圖象重組。與先有技術(shù)的接收器相反,在下述的某些運(yùn)行方式下,用于第二階段的這些組件可以斷開,使得全部?jī)?nèi)存帶寬均用于特征提取及第一階段編碼。
對(duì)內(nèi)部運(yùn)行所作的變更就是編碼器中的動(dòng)態(tài)特征提取單元410和MPEG-7描述方案例示程序420。提取單元進(jìn)行動(dòng)態(tài)特征提取,正如本文中所述。低層數(shù)據(jù)(包括運(yùn)動(dòng)矢量信息、DCT系數(shù)以及形狀信息)從符號(hào)處理器350傳遞到特征提取單元410。
如下所述,該數(shù)據(jù)可以映射到MPEG-7描述符,該描述符有助于搜索和檢索。映射由MPEG-7例示程序420來(lái)執(zhí)行。例示程序420還可以接收來(lái)自前端分析程序340及系統(tǒng)多路分離器310的信息。
在最佳實(shí)施例中,編碼器根據(jù)所選擇的標(biāo)準(zhǔn)(如MPEG-7標(biāo)準(zhǔn))來(lái)例示描述方案。大家應(yīng)該了解,其它類型的編碼器可以按照其它標(biāo)準(zhǔn)進(jìn)行例示。描述方案被寫入與搜索引擎304交互作用的本地存儲(chǔ)器430。最后,可以將所提取的數(shù)據(jù)通過內(nèi)存控制器330傳遞到主存單元320。
因此,在本重放系統(tǒng)中,內(nèi)存單元存儲(chǔ)三種類型的視頻數(shù)據(jù),全部或部分原始?jí)嚎s位流(BS)321,所選的或即時(shí)幀(幀)322,以及描述方案(DS)323。
除了具有特征提取功能之外,本系統(tǒng)還可以通過位流處理器440來(lái)輸出擴(kuò)充的位流401。位流處理器通過內(nèi)存控制器接收來(lái)自主存單元的數(shù)據(jù)。輸出位流可以包含壓縮內(nèi)容,即原始位流301、內(nèi)容概要以及內(nèi)容描述等。位流處理器440規(guī)定信息的格式,使其適合于傳送給遠(yuǎn)離此內(nèi)容的用戶。
輸出內(nèi)容和/或其相應(yīng)描述的目的是為了給用戶提供改進(jìn)基于內(nèi)容訪問遠(yuǎn)程內(nèi)容的信息。即使該信息是從本地內(nèi)容中提取的,但仍然為遠(yuǎn)程重放系統(tǒng)提供了一種靈活性,使其能夠正確地修改及變更訪問遠(yuǎn)程內(nèi)容的方式。
系統(tǒng)運(yùn)行本視頻重放系統(tǒng)從壓縮數(shù)字視頻信號(hào)中動(dòng)態(tài)地提取特征。使用這些特征,可以實(shí)現(xiàn)對(duì)遠(yuǎn)程和本地內(nèi)容進(jìn)行改進(jìn)的基于內(nèi)容的訪問。對(duì)于基于內(nèi)容的訪問,我們指的是內(nèi)容檢索、內(nèi)容解碼以及內(nèi)容重放。
本系統(tǒng)的關(guān)鍵特征是其與其它設(shè)備的互用性。通過采用標(biāo)準(zhǔn)壓縮技術(shù)來(lái)傳送和重放視頻內(nèi)容,以及采用標(biāo)準(zhǔn)描述方案(DS)來(lái)描述、檢索及訪問內(nèi)容,可以實(shí)現(xiàn)互用性。本重放系統(tǒng)可以在許多不同方式下運(yùn)行。
部分解碼在第一方式中,所接收的壓縮位流由本重放系統(tǒng)進(jìn)行分析并只進(jìn)行部分解碼。部分解碼定義為僅包括第一階段的解碼操作。重組視頻的第二階段解碼被禁用。換句話說(shuō),在此方式下,與傳統(tǒng)接收器不同,沒有地址生成,沒有反向DCT計(jì)算,沒有運(yùn)動(dòng)補(bǔ)償,而且自然也沒有顯示。這就是說(shuō),第二階段解碼被略去了。
因?yàn)闆]有顯示,所以所有內(nèi)存帶寬都可以用于部分解碼、特征提取以及編碼。因此,在此方式下,本系統(tǒng)能夠有效地處理壓縮輸入位流的所選元素,從而能夠提取有關(guān)該內(nèi)容的低層和高層兩種信息。部分解碼可以在相對(duì)短的時(shí)間內(nèi)提取重要的特征。例如,可以在數(shù)分鐘或更短的時(shí)間內(nèi)對(duì)一段完整的視頻進(jìn)行處理,而不是要花數(shù)小時(shí)來(lái)進(jìn)行完整地查看。
有助于此目的的所提取的位流元素的實(shí)例是位流中的運(yùn)動(dòng)矢量、DCT系數(shù)以及圖象/宏塊編碼方式。這些元素從符號(hào)處理器350和前端分析程序340中輸出。另外,信息還可以從輔助位流中提取。這樣的信息從系統(tǒng)多路分離器(demux)310中輸出。這樣的數(shù)據(jù)的實(shí)例包括電子編程指南(EPG)信息和其它類型的元數(shù)據(jù),其中包括MPEG-7元數(shù)據(jù)。EPG數(shù)據(jù)可以包含有關(guān)內(nèi)容的注釋信息,如片名、等級(jí)以及演員表等。
對(duì)位流進(jìn)行部分解碼及提取信息所帶來(lái)的益處在于可以在相對(duì)短的時(shí)間內(nèi)實(shí)現(xiàn)改進(jìn)的基于內(nèi)容的訪問。部分解碼方式最適用于訪問預(yù)先存儲(chǔ)的信息,如存儲(chǔ)在DVD或本地及遠(yuǎn)程重放系統(tǒng)的其它存儲(chǔ)單元中。因?yàn)椴糠纸獯a極快,例如只需數(shù)分鐘或更少,所以對(duì)于在能夠進(jìn)行基于內(nèi)容的訪問之前提取這樣的信息,用戶將只會(huì)感受到很短暫的啟動(dòng)延時(shí)。
完全解碼與第一部分解碼方式相比,第二方式的不同之處在于不需要啟動(dòng)延時(shí)。在完全解碼方式中,特征是作為內(nèi)容描述符被提取及編碼的,與前述的部分方式完全一樣。但是特征提取是與視頻數(shù)據(jù)的顯示同時(shí)進(jìn)行的。也就是說(shuō),特征提取和編碼是在視頻重放時(shí)動(dòng)態(tài)進(jìn)行的。在此方式下,就能夠?qū)σ呀?jīng)查看過的視頻部分進(jìn)行基于內(nèi)容的訪問。
混合解碼在第三方式中,在以可能的最高位率接收及處理壓縮位流時(shí),位流被部分地解碼。該部分解碼的位流存儲(chǔ)在內(nèi)存單元320中。同時(shí),存儲(chǔ)在內(nèi)存單元320中的已解碼位流也發(fā)生了階段二的重組,使得該視頻可以被顯示。在從整個(gè)視頻中提取特征及對(duì)特征進(jìn)行編碼的時(shí)間段,幀率可以減少,例如減少到每秒十五幀或更少,使得更多的系統(tǒng)資源可以為特征提取及編碼所使用。當(dāng)特征提取及編碼完成時(shí),可以恢復(fù)正常的幀率。在此方式的一個(gè)實(shí)例應(yīng)用中,特征是在播放演職員表或預(yù)告片時(shí)從該視頻中提取的。在進(jìn)入正片時(shí),就可以開始對(duì)整個(gè)視頻進(jìn)行基于內(nèi)容的訪問了。
所有這些方式的關(guān)鍵在于符合所選標(biāo)準(zhǔn)的元數(shù)據(jù)是從可用的壓縮數(shù)據(jù)中提取的??捎玫臄?shù)據(jù)可能只是從壓縮位流中提取的低層特征或是來(lái)自輔助數(shù)據(jù)流的信息,甚至包含一些MPEG-7元數(shù)據(jù),這些元數(shù)據(jù)可能是完整的或者可能是不完整的。有了MPEG-7元數(shù)據(jù),就不僅能夠描述本地存儲(chǔ)的內(nèi)容,而且也能夠描述遠(yuǎn)程存儲(chǔ)的內(nèi)容。這樣,就實(shí)現(xiàn)了與其它設(shè)備的互用性。一些可以使用本視頻重放系統(tǒng)的應(yīng)用將在下面進(jìn)行說(shuō)明。
改進(jìn)的訪問的類型改進(jìn)的訪問需要對(duì)視頻內(nèi)容的分析。盡管有專利權(quán)的重放系統(tǒng)實(shí)際上可能進(jìn)行了這樣的分析并在基于位置的訪問方面取得了一些改進(jìn),但重要的是要指出,有專利權(quán)的視頻重放系統(tǒng)所實(shí)現(xiàn)的與其它設(shè)備的互用性是極為有限的。
這里所說(shuō)的改進(jìn)的訪問類型是能夠通過所規(guī)定的描述符和描述方案(如由新興的MPEG-7標(biāo)準(zhǔn)所規(guī)定的)來(lái)實(shí)現(xiàn)的。該標(biāo)準(zhǔn)預(yù)計(jì)在2001年下半年確立。
內(nèi)容概要內(nèi)容概要是基于內(nèi)容訪問的重要特征。采用內(nèi)容概要,就能夠在相對(duì)短的時(shí)間內(nèi)查看視頻的重要部分。要生成內(nèi)容概要,就需要分析視頻數(shù)據(jù),并規(guī)定對(duì)該視頻的重要片斷提供鏈接的描述方案。概要可能適合于某個(gè)賽事的精彩部分、電影中的氣候場(chǎng)景或者有吸引力的新聞節(jié)目部分。所生成的符合MPEG-7標(biāo)準(zhǔn)的相應(yīng)描述方案將被例示。一個(gè)順應(yīng)的MPEG-7分析程序或Web瀏覽器懂得例示的描述方案。在進(jìn)行分析后,就可以重放相應(yīng)的概要,即可以顯示和查看。根據(jù)概要,用戶可以選擇視頻的特定部分進(jìn)行完整的查看。對(duì)所選擇內(nèi)容的訪問可以直接進(jìn)行,而避免了象在先有技術(shù)中那樣采用快進(jìn)、播放以及回退命令進(jìn)行前后移動(dòng)的麻煩。
內(nèi)容活動(dòng)性按照概要來(lái)遍歷視頻只是一種基于內(nèi)容訪問的方法。但是,依照本發(fā)明的基于內(nèi)容的訪問則更為普遍。例如,如果人們想先查看影片中最“活躍”的內(nèi)容,或者查看喜劇片中最幽默的鏡頭,那么就需要一些描述此查看順序的方法。MPEG-7中的描述方案將包括這個(gè)特征。有關(guān)可用技術(shù)的更多信息可以查看序列號(hào)為09/518,937的美國(guó)專利申請(qǐng)“使用排序來(lái)表示及比較多媒體內(nèi)容的方法”,該專利由迪瓦卡倫等人于2000年3月6日申請(qǐng)。其中說(shuō)明的技術(shù)使本重放系統(tǒng)能夠根據(jù)語(yǔ)法和語(yǔ)義信息對(duì)內(nèi)容進(jìn)行排序。
內(nèi)容瀏覽其它類型的改進(jìn)的訪問包括同時(shí)瀏覽多段節(jié)目,并搜索想要重放和/或錄制的內(nèi)容。在一個(gè)廣播劇中,本視頻重放系統(tǒng)可以幫助用戶定位到其特別感興趣的內(nèi)容上,即使是在本重放系統(tǒng)的用戶各不相同的情況下,就是說(shuō),某個(gè)特定的顯示終端有多個(gè)用戶。在這種情況下,本重放系統(tǒng)通過編輯現(xiàn)有的元數(shù)據(jù)來(lái)適應(yīng)特定用戶的愛好。這樣,本重放系統(tǒng)可以自動(dòng)錄制所需的視頻節(jié)目。
為了強(qiáng)調(diào)互用性方面,內(nèi)容可以被本地或遠(yuǎn)程的不同用戶所訪問,并且內(nèi)容可能需要以不同的方式進(jìn)行訪問。為此,動(dòng)態(tài)特征提取是必須的,以便內(nèi)容及內(nèi)容描述可以被共享。
特征提取壓縮位流中的特征提取已經(jīng)在文獻(xiàn)中廣泛地進(jìn)行了報(bào)道。這種提取的主要優(yōu)勢(shì)在于其計(jì)算上的簡(jiǎn)便,這是因?yàn)樗揽慷嗦贩蛛x器、分析程序以及符號(hào)處理器等的輸出而避免了對(duì)反向DCT的計(jì)算。符號(hào)處理器的輸出包括運(yùn)動(dòng)矢量信息(MV)351和DCT系數(shù)(DCT)352。
最適合于這種提取的特征是色彩、亮度以及運(yùn)動(dòng)。還應(yīng)當(dāng)指出,特征提取單元410的輸出送到例示描述符值的DS例示程序420。描述符例示則用于諸如瀏覽、概要等等的各種應(yīng)用中。
亮度和色彩-應(yīng)當(dāng)指出,對(duì)于I幀,符號(hào)處理器350的輸出包含亮度的“dc”值和塊的色度。這樣,I幀的“dc圖象”可以采用符號(hào)處理器350的輸出來(lái)輕松地組建。大家都知道如何使用dc圖象來(lái)檢測(cè)場(chǎng)景變化。還能夠從dc圖象中確定諸如主色、彩色條帶、壓縮色、GOF/GOP彩色條帶、彩色結(jié)構(gòu)條帶以及彩色分布等色彩描述符。例如,下面考察表A中主色描述符的二進(jìn)制語(yǔ)法表A
應(yīng)當(dāng)指出,對(duì)于MPEG壓縮視頻信號(hào),色彩空間(Color Space)缺省為YUV或YcrCb,色彩量化(Color Quantization)(即二進(jìn)制(bins)的數(shù)量、色彩閾值的初始值等)由特征提取單元本身來(lái)決定,就象主色的數(shù)量一樣。信用量度(Confiderce Measure)、色彩值(Color Value)以及百分比(Percentage)則從圖象本身來(lái)確定,將宏塊的dc值用作屬于該宏塊每個(gè)象素的色彩。以上簡(jiǎn)要地說(shuō)明了主色是如何可以從符號(hào)處理器350的輸出來(lái)進(jìn)行確定的。
符號(hào)處理器的輸出必須進(jìn)行不同的處理,以便從P幀獲得dc圖象。由于宏塊通常是預(yù)測(cè)性地編碼的,所以這個(gè)處理過程也是不同的。為了獲得dc分量,可以使用在DCT域中進(jìn)行運(yùn)動(dòng)補(bǔ)償?shù)囊恍┓椒?,如美?guó)專利申請(qǐng)08/742,124“數(shù)字視頻解碼器及對(duì)視頻信號(hào)進(jìn)行解碼的方法”中說(shuō)明的那些方法。應(yīng)當(dāng)指出,與計(jì)算反向DCT相比,這種計(jì)算開銷相當(dāng)小。
運(yùn)動(dòng)-運(yùn)動(dòng)特征相對(duì)地比較容易在壓縮域中進(jìn)行提取,這是因?yàn)閷?duì)于運(yùn)動(dòng)補(bǔ)償幀來(lái)說(shuō),符號(hào)處理器的輸出包含每個(gè)宏塊的運(yùn)動(dòng)矢量。有多種方法能夠用于從運(yùn)動(dòng)矢量中進(jìn)行特征提取,參見美國(guó)專利申請(qǐng)09/236,838“視頻序列特征提取的方法”。
可以在壓縮域中確定的MPEG-7運(yùn)動(dòng)描述符包括運(yùn)動(dòng)活動(dòng)性(Motion Activity)、攝像機(jī)運(yùn)動(dòng)(Camera Motion)、運(yùn)動(dòng)軌跡(MotionTrajectory)以及參數(shù)運(yùn)動(dòng)(Parametric Motion)。下面考察圖B所示運(yùn)動(dòng)活動(dòng)性描述符的二進(jìn)制(Binary)表示語(yǔ)法表B
應(yīng)當(dāng)指出,上表中的所有欄目均可以很容易地從運(yùn)動(dòng)矢量中計(jì)算出來(lái),運(yùn)動(dòng)矢量是符號(hào)處理器的輸出。例如,強(qiáng)度參數(shù)可以按以下方法進(jìn)行計(jì)算首先計(jì)算運(yùn)動(dòng)矢量幅度的標(biāo)準(zhǔn)偏差,然后再將標(biāo)準(zhǔn)偏差量化為一個(gè)3位的值。
元數(shù)據(jù)編碼器在MPEG-2或MPEG-4中有一個(gè)完整規(guī)定的編碼器結(jié)構(gòu),它必須用來(lái)產(chǎn)生相符的位流。一致點(diǎn)以簡(jiǎn)要表/層次定義為基礎(chǔ),也就是說(shuō),MPEG-2 Main Profile(主簡(jiǎn)要表)@High Level(高層)(MP@HL)編碼器在圖象大小及數(shù)據(jù)率等方面受到限制。但是大家知道,必須要有某種塊來(lái)進(jìn)行運(yùn)動(dòng)預(yù)測(cè),也要有一個(gè)塊來(lái)處理DCT。如果在一個(gè)縮放性簡(jiǎn)要表中進(jìn)行操作,其中必須對(duì)一個(gè)基本和增強(qiáng)層進(jìn)行編碼,那么我們就知道該編碼器需要進(jìn)行什么樣的改變。該標(biāo)準(zhǔn)已清楚地定義了這一點(diǎn)。
在MPEG-7中,例示描述方案就象是MPEG-7編碼器。但是,描述方案的大矩陣適合于許多不同類型的元數(shù)據(jù)。每種數(shù)據(jù)產(chǎn)生的方式可能是獨(dú)特的,該標(biāo)準(zhǔn)沒有對(duì)其作出規(guī)定。因?yàn)镸PEG-7將不會(huì)規(guī)定例示描述方案的方式,而且這是該標(biāo)準(zhǔn)的規(guī)范部分,所以MPEG-7編碼器就沒有任何結(jié)構(gòu)。這樣,每個(gè)DS必須以應(yīng)用場(chǎng)合為基礎(chǔ)來(lái)進(jìn)行例示并在特定的應(yīng)用范圍內(nèi)有效。
這里要說(shuō)的是,在沒有認(rèn)識(shí)到特定目標(biāo)或應(yīng)用時(shí),通用MPEG-7編碼器是沒有意義的。目標(biāo)就在于本視頻重放系統(tǒng)實(shí)現(xiàn)了改進(jìn)的基于內(nèi)容的訪問。因此,本重放系統(tǒng)要例示的描述方案以及本系統(tǒng)才具有的例示方法將在下面進(jìn)行說(shuō)明。
另一個(gè)需要了解的是,本重放系統(tǒng)對(duì)元數(shù)據(jù)進(jìn)行編碼以便實(shí)現(xiàn)與其它設(shè)備的互用性。如果不是為了互用性,就不需要根據(jù)MPEG-7標(biāo)準(zhǔn)來(lái)對(duì)元數(shù)據(jù)進(jìn)行編碼。一個(gè)系統(tǒng)可以僅使用它自己專有的描述符和描述方案,這些描述符和描述方案是屬于內(nèi)部的而且是只有特定系統(tǒng)才能理解的。在這種情況下,也不需要輸出擴(kuò)充的位流。
描述方案例示程序的詳細(xì)說(shuō)明可以將描述方案(DS)作為描述符的容器來(lái)進(jìn)行查看。也可以將它們作為組織各種描述符的數(shù)據(jù)結(jié)構(gòu)來(lái)進(jìn)行查看。參考附錄A所述“MPEG-7 VideoSegment描述方案(DS)”的語(yǔ)義,附錄A選自“MPEG-7多媒體方案工作草案”。
注意VideoSegment DS是如何封裝色彩及運(yùn)動(dòng)描述符的,這些描述符在描述符部分已經(jīng)提到。在這種情況下,如前所述,通過確定各個(gè)描述符就可以例示描述方案。應(yīng)當(dāng)指出,通過壓縮域的特征提取,VideoSegment DS確實(shí)有助于例示。這樣,DS允許它們自己使用各自的描述符,并且可以結(jié)合其它描述符,從而實(shí)現(xiàn)所有可能的MPEG-7的應(yīng)用,包括快速內(nèi)容瀏覽、視頻數(shù)據(jù)庫(kù)檢索、監(jiān)控以及靈活的多媒體編輯-表示等等。
VideoSegment DS是MPEG-7 DS的一個(gè)實(shí)例,它說(shuō)明內(nèi)容的結(jié)構(gòu)特征。其它類似的DS包括段DS(Segment DS)及其子集,如活動(dòng)區(qū)域DS(Moving Region DS)等。其它DS強(qiáng)調(diào)應(yīng)用,如由即時(shí)DS(Summary DS)實(shí)現(xiàn)的概要、表達(dá)式(Expression)以及由用戶優(yōu)先選擇DS(User Preference DS)實(shí)現(xiàn)的滿足用戶優(yōu)先選擇等等。
加權(quán)DS(Weight DS)表示描述方案中的各種描述符的相關(guān)加權(quán)。這樣,它就能夠在MPEG-7 DS例示程序中按需要進(jìn)行例示。實(shí)體相關(guān)圖表DS(Entity-Relation Graph DS)表示不同實(shí)體之間的關(guān)系。符號(hào)處理器的輸出能夠進(jìn)行關(guān)系識(shí)別,如更活躍或最活躍、更快、更大以及更綠等等。這樣,相應(yīng)實(shí)體關(guān)系圖表(Entity Relation Graphs)類就可以在壓縮域中進(jìn)行例示。
數(shù)字視頻的節(jié)目流(Program Stream)包含象電子編程指南(Electronic Programming Guide)(EPG)之類有用的信息。前端分析程序340捕捉這樣的信息。類似地,多路分離器310捕捉有關(guān)內(nèi)容制作和使用的信息。這樣的元數(shù)據(jù)可以用于增加DS,如媒體ID DS(Media IDDS)以及創(chuàng)建DS(Creation DS)等。
還有一些基本DS,如時(shí)間DS(Time DS)、媒體定位器DS(MediaLocator DS)、柵(Grids)以及條帶(Histograms),這些DS可以用于所有DS,因此是最為重要的。在例示程序420中處理符號(hào)處理器350的輸出可以增加所有這些描述符方案。例如,使用壓縮位流所提供的時(shí)間戳信息可以增加時(shí)間DS(Time DS)。
MPEG-7還包含“高層”DS,此DS表示文字描述(注釋DS)、概念方面(即語(yǔ)義DS)以及內(nèi)容的固有屬性(如模型DS)等。
簡(jiǎn)而言之,由系統(tǒng)多路分離器310、前端分析程序340以及符號(hào)處理器350所提供的信息可以用于例示功能強(qiáng)大的描述方案子集。
解碼環(huán)節(jié)與特征提取之間的互用性問題對(duì)于部分解碼方式,互用性就沒有什么問題。在完全解碼方式下,對(duì)于特征提取及解碼,尤其是在與基于內(nèi)容訪問的顆粒度相關(guān)時(shí),互用性可能就成了一個(gè)問題。例如,當(dāng)特征從每個(gè)幀或鏡頭中提取時(shí),就可能要確定重寫特征或判斷特征為無(wú)用的時(shí)間。
增強(qiáng)型用戶接口增強(qiáng)型用戶接口是一種解釋用戶命令并給各種系統(tǒng)組件下指令的機(jī)制。用戶可以在兩種方式下進(jìn)行操作,一種是輸入方式,另一種是輸出方式。在輸入方式下,用戶指定進(jìn)行特征提取及編碼的方式,例如,提取是否要產(chǎn)生概要以及該概要的長(zhǎng)度是多少。而且在此方式下,用戶可以指定要提取的特定特征以及要忽略的其它特征。在輸出方式下,用戶指定查看內(nèi)容的方式以及要查看的內(nèi)容。用戶命令允許進(jìn)行前述改進(jìn)的基于內(nèi)容的訪問,如概要、基于內(nèi)容的遍歷、多個(gè)節(jié)目的瀏覽以及對(duì)用戶優(yōu)先選擇的適應(yīng)性等。該系統(tǒng)中受用戶接口影響的主要組件包括搜索引擎、編碼器以及內(nèi)存控制器等。
增強(qiáng)型用戶接口可以通過鍵盤、鼠標(biāo)、話筒、攝像機(jī)、傳感器或其它外設(shè)來(lái)實(shí)現(xiàn)。在通過鍵盤和鼠標(biāo)輸入的情況下,該系統(tǒng)具有基于Web的界面,允許用戶鍵入自己的身份標(biāo)識(shí)(必要時(shí)還有密碼)。這樣就可以訪問某個(gè)特定用戶的優(yōu)先選擇項(xiàng),并允許該用戶鍵入有關(guān)所搜索內(nèi)容的語(yǔ)法和/或語(yǔ)義信息,以及所搜索內(nèi)容的類型(如圖象、視頻、特殊格式以及分辨率等)。這樣的界面對(duì)于搜索、過濾以及瀏覽應(yīng)用是最為有用的。在找到所需的內(nèi)容時(shí),還可以從菜單中拉出一組命令,使用戶能夠以有趣而且有效的方式來(lái)對(duì)該內(nèi)容進(jìn)行摘要及遍歷。
在通過話筒和攝像機(jī)輸入的情況下,該增強(qiáng)型用戶接口接受音頻和可視命令。通過語(yǔ)音識(shí)別,該增強(qiáng)型用戶接口可以包含有限的一組口頭命令,使用戶能夠執(zhí)行諸如開始/結(jié)束一段、搜索內(nèi)容以及指定所搜索的內(nèi)容類型等任務(wù)。實(shí)際上,查詢本身就可能是一段音頻,例如該用戶哼一段要查找的音調(diào)。類似地,對(duì)于視頻,該輸入可能是一個(gè)特殊的運(yùn)動(dòng),如一個(gè)舞步或一場(chǎng)賽事的重演。
對(duì)于通過傳感器的輸入,該用戶要有某種觸摸板,如用于接受指紋。采用這樣的識(shí)別方法,就可以很容易地建立身份證明,而且用戶的優(yōu)先選擇項(xiàng)也可以得到解決。
對(duì)于受影響的系統(tǒng)組件,搜索引擎必須處理屬于匹配過程的這樣一類命令。增強(qiáng)型用戶接口將會(huì)把語(yǔ)義和語(yǔ)法輸入傳送給搜索引擎,搜索引擎則將定位相關(guān)及相應(yīng)的描述方案,并提供關(guān)于內(nèi)容與查詢條件相匹配程度的記錄。對(duì)于完全匹配的內(nèi)容,命令就必須隨即傳送給內(nèi)存控制器,使該內(nèi)容可以進(jìn)行定位并發(fā)送到顯示器。在這種情況下,地址生成器也可以起重要的作用,即將所需內(nèi)容轉(zhuǎn)化為內(nèi)存單元320中的實(shí)際地址。
增強(qiáng)型用戶接口除了必須處理查詢和摘要類型的命令之外,還要處理用戶/設(shè)備對(duì)遠(yuǎn)程內(nèi)容及內(nèi)容描述的請(qǐng)求。在這種情況下,該接口請(qǐng)求內(nèi)存控制器來(lái)定位遠(yuǎn)程壓縮內(nèi)容及/或遠(yuǎn)程內(nèi)容描述符,并通過位流處理器440將該信息傳送到其它重放系統(tǒng)。位流處理器將負(fù)責(zé)在傳送數(shù)據(jù)之前在緩沖器中對(duì)各種流進(jìn)行多路復(fù)用、對(duì)數(shù)據(jù)進(jìn)行分組和平整。
應(yīng)用系統(tǒng)及方案本系統(tǒng)的應(yīng)用可以擴(kuò)展到增強(qiáng)型DVD重放器、家庭影院、本地/遠(yuǎn)程服務(wù)器上的內(nèi)容檢索以及廣播視頻。
圖5示出通用視頻重放系統(tǒng)500。此處,接收器302和編碼器303和上述情況相同。在此應(yīng)用中的搜索引擎是頻道沖浪器510。視頻源(內(nèi)容)510可以是本地的或遠(yuǎn)程的,例如象DVD之類的光盤,這類光盤將被連接到本地客戶機(jī)或遠(yuǎn)程服務(wù)器、捕捉壓縮的現(xiàn)場(chǎng)視頻的攝像機(jī),或來(lái)自電臺(tái)的傳輸流。內(nèi)容描述可能與相應(yīng)的內(nèi)容相關(guān)、或者可能與相應(yīng)的內(nèi)容無(wú)關(guān)。
圖6給出了多個(gè)視頻重放系統(tǒng)601-604的布置600,各個(gè)視頻處理系統(tǒng)(VPS)基本上與上述情況相同。該重放系統(tǒng)可以訪問相應(yīng)的本地內(nèi)容611-614或者遠(yuǎn)程內(nèi)容,例如,VPS 620請(qǐng)求對(duì)內(nèi)容613進(jìn)行基于內(nèi)容的訪問。因此,在需要遠(yuǎn)程訪問時(shí),該重放系統(tǒng)就被連接到網(wǎng)絡(luò)650,它是局域網(wǎng)(LAN)或是廣域網(wǎng)(WAN)(如Internet)。當(dāng)然,如果所有訪問都是針對(duì)本地內(nèi)容來(lái)進(jìn)行的話,那么就不需要網(wǎng)絡(luò)連接。
重放系統(tǒng)601可以產(chǎn)生它自己的內(nèi)容描述DS1 621。視頻數(shù)據(jù)則可以采用上述改進(jìn)的內(nèi)容訪問來(lái)進(jìn)行重放。在本系統(tǒng)與網(wǎng)絡(luò)相連接時(shí),其它重放系統(tǒng)(如家庭602、辦公室603以及大學(xué)604)也可以訪問此內(nèi)容以及本系統(tǒng)產(chǎn)生的內(nèi)容描述621。該描述的某些部分可能適用于所有用戶,因此就不需要進(jìn)行任何編輯。但是,該描述的其它部分可能需要進(jìn)行編輯,以便適合于特定用戶的優(yōu)先選擇。在這種情況下,動(dòng)態(tài)特征提取將被使用,而且在不同終端可以實(shí)現(xiàn)改進(jìn)的內(nèi)容訪問。
在廣播電臺(tái)620傳送內(nèi)容的情況下,只要在本地重放系統(tǒng)中有存儲(chǔ)資源來(lái)支持此選項(xiàng),內(nèi)容612可以被重放系統(tǒng)602在本地存儲(chǔ)。在此情況下,動(dòng)態(tài)特征提取被運(yùn)用到內(nèi)容612的本地拷貝上,以便產(chǎn)生內(nèi)容描述(DS2)622。
但是,在重放系統(tǒng)604中沒有這樣的本地存儲(chǔ)資源的情況下,它仍然可以訪問遠(yuǎn)程內(nèi)容612并產(chǎn)生它自己的內(nèi)容612的內(nèi)容描述(DS4)624。使用所述系統(tǒng),動(dòng)態(tài)特征提取使許多設(shè)備能夠共享及編輯內(nèi)容描述,而不管該內(nèi)容是本地存儲(chǔ)的還是遠(yuǎn)程存儲(chǔ)的。通過使用壓縮視頻的特征提取以及對(duì)實(shí)現(xiàn)改進(jìn)的內(nèi)容訪問的描述方案進(jìn)行例示,這種功能將會(huì)有效地實(shí)現(xiàn)。
多頻道過濾另一個(gè)有興趣的應(yīng)用系統(tǒng)是多頻道過濾系統(tǒng),該系統(tǒng)允許對(duì)來(lái)自多個(gè)頻道的數(shù)字視頻中的所需內(nèi)容進(jìn)行過濾。在該多頻道過濾系統(tǒng)中,頻道沖浪器510是自動(dòng)的。該沖浪器定期處理各個(gè)頻道,以便提取特征并確定“需要性”或“顯著部分的質(zhì)量”。需要性是指對(duì)于用戶所指定的優(yōu)先選擇的接近程度,例如,用戶也許想將頻道沖浪限制在體育頻道,在這個(gè)情況下,非體育頻道將不需要。
顯著部分的質(zhì)量是指該節(jié)目的顯著特征,此特征將有助于用戶決定是否繼續(xù)瀏覽該視頻節(jié)目。例如,在選擇一個(gè)或多個(gè)頻道之前,用戶也許想先領(lǐng)略一下運(yùn)動(dòng)活動(dòng)性的強(qiáng)度或者各個(gè)頻道中的情節(jié)。沖浪器510的計(jì)算速度以及頻道的數(shù)量確定沖浪器510在每個(gè)頻道上所花費(fèi)的時(shí)間。在每個(gè)頻道所花費(fèi)的時(shí)間與沖浪速度之間存在一個(gè)明顯的折衷方案。注意,每個(gè)頻道上所花費(fèi)的時(shí)間越多,特征提取就可以更細(xì)致。
很明顯,在顯示幀時(shí)提取特征與通過完全遍歷所存儲(chǔ)的整段節(jié)目來(lái)提取特征之間,頻道沖浪器采取一個(gè)折衷立場(chǎng)。一方面,頻道沖浪器在每個(gè)頻道上不能花費(fèi)太多時(shí)間,因此在實(shí)時(shí)的情況下,它就無(wú)法存儲(chǔ)大量的頻道信息塊,即使還有大量的存儲(chǔ)空間可以使用。另一方面,隨著所存儲(chǔ)信息塊的增大,沖浪器的準(zhǔn)確性也會(huì)增加。應(yīng)當(dāng)指出,頻道沖浪器既可以提供原始的特征又可以提供該特征的高層解釋(如可視概要)。例如,在觀看一部喜劇時(shí),沖浪器仍然可以追蹤另一個(gè)節(jié)目(如一場(chǎng)賽事)。在這種情況下,當(dāng)從運(yùn)動(dòng)活動(dòng)性特征提取中確定的精彩事件發(fā)生時(shí),沖浪器510就會(huì)發(fā)信號(hào)給用戶307。該信號(hào)可以是在屏幕上以小圖象顯示的頻道號(hào)或者關(guān)鍵幀,或者是任何其它不搶眼但行之有效的方式。
盡管已經(jīng)以最佳實(shí)施例作為例子描述了本發(fā)明,但是,顯然,還可以在本發(fā)明的主旨及范圍之內(nèi)進(jìn)行其它各種變化或修改。因此,后附的權(quán)利要求書的目的就是要涵蓋所有在本發(fā)明的主旨及范圍內(nèi)所作的改編或修改。
附錄A
權(quán)利要求
1.一種用于處理輸入的壓縮數(shù)字視頻信號(hào)的視頻重放系統(tǒng),它包括接收器,連接成接收所述輸入的壓縮數(shù)字視頻信號(hào);特征提取單元,與所述接收器相連接,用于從所述輸入的壓縮數(shù)字視頻信號(hào)中動(dòng)態(tài)地提取特征;描述方案例示程序,與所述特征提取單元相連接,用于在接收所述輸入的壓縮數(shù)字視頻信號(hào)時(shí),將所述提取的特征編碼成為內(nèi)容描述符。
2.權(quán)利要求1的視頻重放系統(tǒng),其特征在于還包括視頻源,用于所述接收器本地的所述輸入的壓縮數(shù)字視頻信號(hào)。
3.權(quán)利要求1的視頻重放系統(tǒng),其特征在于還包括視頻源,用于遠(yuǎn)離所述接收器的所述輸入的壓縮數(shù)字視頻信號(hào)。
4.權(quán)利要求1的視頻重放系統(tǒng),其特征在于還包括搜索引擎,與所述接收器相連接,用于根據(jù)所述內(nèi)容描述符來(lái)訪問所述接收到的輸入的壓縮數(shù)字視頻信號(hào)。
5.權(quán)利要求4的視頻重放系統(tǒng),其特征在于還包括用戶接口,與所述接收器及所述搜索引擎相連接,用于根據(jù)與所述內(nèi)容描述符相關(guān)的用戶命令來(lái)訪問所述輸入的壓縮數(shù)字視頻信號(hào)。
6.權(quán)利要求1的視頻重放系統(tǒng),其特征在于還包括內(nèi)存單元,通過內(nèi)存控制器與所述接收器相連接,用于存儲(chǔ)所述輸入的壓縮數(shù)字視頻信號(hào)以及所述內(nèi)容描述符。
7.權(quán)利要求1的視頻重放系統(tǒng),其特征在于所述接收器還包括符號(hào)處理器,與所述特征提取單元相連接,用于從所述輸入的壓縮數(shù)字視頻信號(hào)中提取運(yùn)動(dòng)矢量、宏塊以及DCT系數(shù)。
8.權(quán)利要求1的視頻重放系統(tǒng),其特征在于所述接收器還包括前端分析程序,與所述特征提取單元相連接,用于從所述輸入的壓縮數(shù)字視頻信號(hào)中提取電子編程指南。
9.權(quán)利要求1的視頻重放系統(tǒng),其特征在于所述接收器還包括系統(tǒng)多路分離器,與所述特征提取單元相連接,用于提取內(nèi)容制作和用法信息。
10.權(quán)利要求6的視頻重放系統(tǒng),其特征在于還包括位流處理器,與所述內(nèi)存單元相連接,用于產(chǎn)生輸出的壓縮數(shù)字視頻信號(hào),后者包含括所述輸入的壓縮數(shù)字視頻信號(hào)以及所述內(nèi)容描述符。
11.權(quán)利要求1的視頻重放系統(tǒng),其特征在于在提取特征并且將其編碼成為內(nèi)容描述符時(shí),禁止視頻重組。
12.權(quán)利要求1的視頻重放系統(tǒng),其特征在于在提取特征并且將其編碼成為內(nèi)容描述符時(shí),同時(shí)執(zhí)行視頻重組。
13.權(quán)利要求1的視頻重放系統(tǒng),其特征在于在提取特征并且將其編碼成為內(nèi)容描述符時(shí),同時(shí)以降低的幀率執(zhí)行視頻重組。
14.權(quán)利要求1的視頻重放系統(tǒng),其特征在于根據(jù)視頻編碼標(biāo)準(zhǔn)對(duì)所述內(nèi)容描述符進(jìn)行編碼。
15.權(quán)利要求14的視頻重放系統(tǒng),其特征在于所述視頻編碼標(biāo)準(zhǔn)是MPEG-7。
16.權(quán)利要求10的視頻重放系統(tǒng),其特征在于所述輸出的壓縮數(shù)字視頻信號(hào)被發(fā)送到遠(yuǎn)程接收器。
17.權(quán)利要求1的視頻重放系統(tǒng),其特征在于所述編碼器根據(jù)所述內(nèi)容描述符產(chǎn)生所述輸入的壓縮數(shù)字視頻信號(hào)的概要。
18.權(quán)利要求15的視頻重放系統(tǒng),其特征在于所述輸入的壓縮數(shù)字視頻信號(hào)的所述概要被存儲(chǔ)在所述接收器的內(nèi)存單元中。
19.權(quán)利要求1的視頻重放系統(tǒng),其特征在于所述內(nèi)容描述符基于所述輸入的壓縮數(shù)字視頻信號(hào)的活動(dòng)性。
20.權(quán)利要求4的視頻重放系統(tǒng),其特征在于所述搜索引擎根據(jù)所述內(nèi)容描述符而瀏覽多個(gè)輸入的壓縮數(shù)字視頻信號(hào)。
21.一種處理輸入的壓縮數(shù)字視頻信號(hào)的方法,它包括接收輸入的壓縮數(shù)字視頻信號(hào);從所述輸入的壓縮數(shù)字視頻信號(hào)中提取特征;以及在接收所述輸入的壓縮數(shù)字視頻信號(hào)時(shí),將所述提取的特征編碼成為內(nèi)容描述符。
22.權(quán)利要求12的方法,其特征在于還包括根據(jù)所述內(nèi)容描述符來(lái)訪問所接收的輸入的壓縮數(shù)字視頻信號(hào)。
23.權(quán)利要求21中的方法,其特征在于還包括在內(nèi)存單元中存儲(chǔ)所述內(nèi)容描述符。
24.權(quán)利要求21中的方法,其特征在于還包括根據(jù)所述內(nèi)容描述符產(chǎn)生所述輸入的壓縮數(shù)字視頻信號(hào)的概要。
全文摘要
一種視頻播放系統(tǒng)包括連接成接收輸入的壓縮數(shù)字視頻信號(hào)的接收器。在接收輸入的壓縮數(shù)字視頻信號(hào)時(shí),與接收器相連接的編碼器從輸入的壓縮數(shù)字視頻信號(hào)中提取特征,并將所提取的特征編碼成為內(nèi)容描述符。與接收器相連接的搜索引擎根據(jù)內(nèi)容描述符通過用戶接口來(lái)訪問所接收的輸入壓縮數(shù)字視頻信號(hào)。
文檔編號(hào)G06F17/30GK1334677SQ0111895
公開日2002年2月6日 申請(qǐng)日期2001年5月16日 優(yōu)先權(quán)日2000年5月17日
發(fā)明者A·維特羅, A·迪瓦卡蘭, H·孫, 淺井光太郎, 西川博文, 關(guān)口俊一, 村上篤道, 守屋芳美 申請(qǐng)人:三菱電機(jī)株式會(huì)社