專利名稱:存儲的節(jié)目及片斷的沉淀/溶解的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及處理多媒體內(nèi)容的領(lǐng)域。
本申請是對2001年12月24日提交的美國專利申請10/028,299的改進(jìn)。那個申請教導(dǎo)了基于個人信息的內(nèi)容累積;從由至少一個相關(guān)用戶所體驗的內(nèi)容中提取的事實;和從相關(guān)用戶的行為提取的事實。那個發(fā)明還教導(dǎo)了在存儲來自內(nèi)容的摘錄和制定基于累積內(nèi)容的查詢之前對內(nèi)容進(jìn)行過濾。
還期望有基于存儲的信息自動獲取與一個用戶相關(guān)的補(bǔ)充信息的附加方法。
當(dāng)與用戶表現(xiàn)相關(guān)的數(shù)據(jù)可得時,允許數(shù)據(jù)隨時間累積是有利的。數(shù)據(jù)可被看作經(jīng)歷一個隨著時間的“沉淀(precipitation)”過程和/或用戶對其不那么感興趣時經(jīng)受一個“溶解(dissolution)”過程。
其目標(biāo)和優(yōu)點在下面將變得明顯。
現(xiàn)在將通過非限制性地實例并參考附圖的方式來描述本發(fā)明。
圖1a顯示一個在其中使用本發(fā)明的系統(tǒng)。
圖1b顯示機(jī)頂盒101內(nèi)部的一部分。
圖2顯示本發(fā)明的操作。
圖3利用不同的細(xì)節(jié)顯示圖2的另一個視圖。
圖4顯示一個本發(fā)明對數(shù)據(jù)的操作的例子。
具體實施例方式
圖1a顯示了一個用于交互地體驗多媒體信息的系統(tǒng)。該系統(tǒng)包括一個或者多個機(jī)頂盒101、一個電視機(jī)102、網(wǎng)絡(luò)連接103、用戶通信通道104以及用戶輸入和輸出(I/O)設(shè)備105。
網(wǎng)絡(luò)連接103可包括下列一個或者多個一個天線,其連接用以從地面廣播網(wǎng)絡(luò)接收節(jié)目;一個電視電纜連接;一個互聯(lián)網(wǎng)連接;一個電話網(wǎng)絡(luò)類型連接;一個到局域網(wǎng)(LAN)的連接,或者任何其他合適的網(wǎng)絡(luò)連接。I/O設(shè)備105可包括下列一個或者多個一個鍵盤、一個遠(yuǎn)程設(shè)備、一個定點設(shè)備(比如操作桿、鼠標(biāo)、跟蹤球、觸摸板等)、一個打印機(jī)、揚聲器、麥克風(fēng)、相機(jī)、語音識別系統(tǒng)、或者任何其他適于用戶輸入或者輸出的設(shè)備。用戶設(shè)備105還可包括用于檢測用戶的安全設(shè)備,比如相機(jī)、ID標(biāo)簽傳感器,或者指紋傳感器。
該系統(tǒng)被展示說明為包括一個電視機(jī)102和一個機(jī)頂盒101。如圖1b所示,具有存儲器的機(jī)頂盒優(yōu)選地具有一些處理能力?;蛘撸琍C和監(jiān)視器可被用來替代電視機(jī)和機(jī)頂盒——以及任何合適類型的處理設(shè)備。通常,該系統(tǒng)將包括至少一個本地存儲器111和至少一個處理器或者CPU 110。該處理器和存儲器可以是任何合適類型。例如,該處理器可以是數(shù)字信號處理器。但是,該系統(tǒng)還可利用遠(yuǎn)程處理和存儲器設(shè)施。存儲器可用于存儲編碼和/或數(shù)據(jù)并且能包括電、磁、光或者任何其他類型的介質(zhì)。可具有多于一個的處理器。通常將存在多個存儲器設(shè)備,比如RAM、VCR、硬盤、DVD設(shè)備等。處理器110能執(zhí)行由本地或者遠(yuǎn)程存儲的代碼和/或數(shù)據(jù)所規(guī)定的操作。
用戶可以使用專用機(jī)頂盒或者軟件的形式接收本發(fā)明,所述機(jī)頂盒或者軟件需要安裝在一個通用盒子或者PC上。在安裝時,根據(jù)本發(fā)明的設(shè)備或者軟件應(yīng)當(dāng)提示用戶包括興趣的偏好,比如關(guān)鍵詞、實體、沉淀源。這些偏好將以詢問或者搜索結(jié)構(gòu)的形式被內(nèi)部格式化,如圖5中的502處說明的。搜索結(jié)構(gòu)可如同2001年3月27日由Dimitrova等提交的題為“Automatic Video Retriever Genie”(US010079)的美國專利申請09/818,303一樣被初始地生成在擴(kuò)充的存儲器中。優(yōu)選實施例的搜索結(jié)構(gòu)在這里具有5個字段種類、實體、事件、關(guān)鍵詞和沉淀源。但是,那些本領(lǐng)域的普通技術(shù)人員可容易設(shè)計出其他格式的搜索結(jié)構(gòu),比如以自然語言詢問誰、何時、為何。在生成之后,在數(shù)據(jù)庫212中存儲初始搜索結(jié)構(gòu)以便將來使用。
根據(jù)用戶偏好生成的搜索結(jié)構(gòu)的一些例子為搜索結(jié)構(gòu)1種類美國新聞實體美國總統(tǒng)事件對美國的攻擊關(guān)鍵詞恐怖主義沉淀源http//cnn.com,http//news.bbc,co.uk/,channel//CNN,channel//MSNBC搜索結(jié)構(gòu)2種類美國新聞關(guān)鍵詞空中旅行沉淀源http//cnn.com,http//news.bbc,co.uk/,channel//CNN,channel//MSNBC
搜索結(jié)構(gòu)3種類電影關(guān)鍵詞James Bond沉淀源http//imdb.com,http//www.klast.net/bond/,channel//SUPERSTATION搜索結(jié)構(gòu)4種類喜劇實體演員-Mike Myers沉淀源http//imdb.com,channel//E!可以從這些例子中看出,不一定使用搜索結(jié)構(gòu)中的所有字段。
如在這里使用的,術(shù)語“內(nèi)容”可包括任何類型的內(nèi)容,比如多媒體、視頻、音頻和文本。內(nèi)容可以是由外部資源產(chǎn)生的“節(jié)目”或者在本地聚集于用戶的節(jié)目內(nèi)容和擴(kuò)充的內(nèi)容的組合。
盡管舉例說明顯示了一個用于實現(xiàn)本發(fā)明的接收設(shè)備,圖1b的CPU和處理器還可位于內(nèi)容提供商的場所,比如安置在網(wǎng)絡(luò)服務(wù)器或者電纜的頂端。內(nèi)容提供商能維護(hù)一個用于支持下面描述的沉淀過程的簡檔。
圖2顯示與本發(fā)明的操作有關(guān)的信息。
來自網(wǎng)絡(luò)連接103的內(nèi)容流向A。在邏輯框201,存儲的內(nèi)容接收一個初始過程。
在邏輯框202,MPEG類型的多路分解器將內(nèi)容多路分解成數(shù)據(jù)分量,比如視頻、音頻、文本和元數(shù)據(jù)。
在203分析視頻內(nèi)容。此類分析的例子在2000年10月24日授權(quán)給Dimitrova等、題為“Significant Scene Cut Detection and FrameFiltering For a Visual Indexing System”的美國專利6,137,544和由Agnihotri等提出的在2000年8月3日出版的EP 1066577 A1,題為“System and Method for Analyzing Video Content UsingDetected Text in Video Frames”中給出,后者是1999年8月9日提交的美國專利申請序列號為09/370,931的對應(yīng)申請。
在204,分析音頻內(nèi)容。該分析的例子可在Pattern RecognitionLetter 2001上的Li等的“Classification of General Audio Data forContent-Based Retrieval”中找到。此類分析的結(jié)果是用戶體驗的音頻信息的類別。
在205,分析文本內(nèi)容。該文本內(nèi)容分析的例子在2000年11月14日由Agnihotri等提交的美國專利申請序列號09/712,681、題為“Method and Apparatus for the Summarization and Indexing ofVideo;Programs Using Transcript Information”(US000279)的申請中找到;在206,分析元數(shù)據(jù),比如電子節(jié)目指南信息和類型信息。
在207集成所有組合的分析。該集成的例子可在1999年11月18日由Dimitrova等提交的美國專利申請序列號為09/442,960題為“Method and Apparatus for Audio/Data/Visual InformationSelection”的申請中找到。
邏輯框201的輸出是一個內(nèi)容的注釋片。該注釋可包含人類臉部的位置和枚舉、音樂的注釋、商業(yè)廣告間隔部分、和笑聲、鼓掌的注釋等。一旦邏輯框201確定接收了所有的內(nèi)容片斷或者顯示,它產(chǎn)生一個沉淀過程208、210、211。在單個時間可存在若干個沉淀過程,因為它們可以對不同的內(nèi)容片工作。該裝置可通過不同信道同時接收若干內(nèi)容片,或者可從更早傳輸?shù)膬?nèi)容中簡單地忽略沉淀過程。
每個沉淀過程與知識庫209、用戶偏好和搜索結(jié)構(gòu)212以及沉淀池213交互。
圖3顯示圖2的一個不同的視圖。在這種情況下,邏輯框201收縮為單個邏輯框,同時擴(kuò)展邏輯框208以顯示其內(nèi)容以及它們?nèi)绾闻c存儲的數(shù)據(jù)交互。沒有示出邏輯框210和211,以便在本頁上給出更多的空間。每一沉淀過程208、210、211在操作上相互等效,但其每一個處理不同的數(shù)據(jù)集。
每個沉淀過程包含一個擴(kuò)充子過程301,其將來自知識庫209和內(nèi)容流的數(shù)據(jù)用作在201處理。擴(kuò)充在2001年3月27日由Dimitrova等提交美國專利申請序列號為09/818,303、題為“Automatic VideoRetriever Genie”(US010079)的申請中描述;用戶的偏好和擴(kuò)充歷史的長期記憶在2001年12月24日由Dimitrova等提交美國專利申請序列號為10/028,299、題為“Personal Adaptive Memory System”(US010671)的申請中描述。
優(yōu)選沉淀過程的剩下部分包括六個主要步驟
加亮/片斷描述符提取302;第一、客觀過濾步驟303;第二、主觀過濾步驟304;與高配置/優(yōu)先級事件和個人鏈接的信息305;初始的沉淀和存儲器管理306;和擴(kuò)充的沉淀和存儲器管理307。
雖然這些步驟顯示為單遍操作的序列,可替換地,本領(lǐng)域的普通技術(shù)人員可設(shè)計替換的算法,循環(huán)以檢查存儲的內(nèi)容或并行執(zhí)行內(nèi)容的不同部分。
步驟302加亮/片斷描述符提取本操作自動地找到內(nèi)容中的加亮區(qū)和片斷。發(fā)射的內(nèi)容或者節(jié)目的片斷涉及將其分成包含情節(jié)的若干片斷。這可以通過使用一個系統(tǒng)來完成,比如用于基于內(nèi)容分析和檢索技術(shù)的內(nèi)容片斷和選擇的VideoScout。Video Scout在美國專利申請序列號為09/442,960的、99年11月18日由Nevenka Dimitrova、Thomas McGee、Herman Elenbaas、Radu Jasinschi、Lalitha Agnihotri、Serhan Dagtas、Aaron Mendelsohn等提交的、題為“Method and Apparatus for Audio/Data/VisualInformation Selection”(PHA23,847)中描述。該系統(tǒng)還在R.Jasinschi,N.Dimitrova,T.McGee,L.Agnihotri,and J.Zimmerman,“VideoScoutingan Architecture and System for the Integration ofMultimedia Information in Personal TV Application”,聲學(xué)、語音以及信號處理國際會議,鹽湖城,2001中描述。該應(yīng)用的系統(tǒng)查看音頻、視頻和記錄以尋找那些自身完整的片斷。對于視頻,系統(tǒng)在先前的限制內(nèi)尋找一個一致的色彩調(diào)色板、類似的背景、和類似的臉部。對于記錄,在記錄中的記號,比如“>>”和“>>>”能連同分析用于尋找在一個給定的片斷中是否有一個正在談?wù)摰墓簿€索。類似分析能對音頻執(zhí)行以找到加亮區(qū)。
在步驟302的末尾,存在確定片斷內(nèi)容所必須的信息。例如,內(nèi)容可被分成5個片獨白、引導(dǎo)片斷、客戶1、客戶2、音樂客戶。另外,注釋所有片斷的位置、主題和類型;因此,302的輸出(即是303的輸入)是片斷的集合,每一個片斷包含來自201的已有的注釋。一些片斷在此時可以被丟棄。例如,商業(yè)廣告將被丟棄或者注釋,以便忽略它們。
還通過內(nèi)容創(chuàng)建器或者廣播器執(zhí)行步驟302,并且片斷描述符可合并到在A處接收的內(nèi)容中。將參考步驟304和圖4更詳細(xì)解釋片斷描述符。
擴(kuò)充過程301能擔(dān)當(dāng)一個到302的替換路徑。在內(nèi)容已經(jīng)被高亮注釋和分段的地方,擴(kuò)充過程將直接檢索與內(nèi)容有關(guān)的補(bǔ)充信息,以便在步驟303和304中通知過濾。附加的擴(kuò)充步驟還可在步驟302之后插入。
為多個信息處理音頻、視頻和記錄流擴(kuò)充了該信息。系統(tǒng)尋找在記錄中被命名的實體。這將幫助識別場景中的位置(拉斯維加斯,里維埃拉飯店)和人(布什總統(tǒng),Austin Powers)。出現(xiàn)過多次的詞可被標(biāo)注為關(guān)鍵詞,用于特定的加亮。
包含種類和與其相關(guān)的詞匯的種類數(shù)據(jù)庫被用于尋找片斷的種類??蓤?zhí)行臉部識別以尋找出現(xiàn)在情節(jié)中的人物。還可執(zhí)行識別場景中目標(biāo)的目標(biāo)識別??蓤?zhí)行音頻分析以識別任何音樂??梢栽谶@里發(fā)生的過程的類型的例子在L.Agnihotri等的“Summarization of VideoPrograms Based ON Closed Captioning”SPIE Conference On StorageAnd Retrieval In Media Database,San Jose CA,January 2001,pp.599-607和D.Li等的“Fusion of Visual And Audio Features ForPersonal Identification IN Real Video”,SPIE Conference ON StorageAnd Retrieval IN Media Database,San Jose CA,January 2001中給出。
優(yōu)選地,完成分段和加亮以便將內(nèi)容的注釋制作成類似于搜索結(jié)構(gòu)的結(jié)構(gòu)。該注釋的內(nèi)容結(jié)構(gòu)在圖4中的優(yōu)選實施例501處示出。
步驟303和步驟304事件/人物過濾、評定等級、選擇和優(yōu)先化這些操作選擇主題、事實、人名等。
這里在“事件過濾、評定等級和優(yōu)先化”303和“事件/人物選擇和過濾”304之間進(jìn)行區(qū)分。
第一過濾303是一個客觀分類,即是與用戶偏好無關(guān)的分類。通常這是在節(jié)目(內(nèi)容)級別上的,因為其是優(yōu)選地在節(jié)目中過濾和優(yōu)先化。這個模塊還進(jìn)一步截斷內(nèi)容,刪除不感興趣的部分。例如,如果找到的片斷只是下面三個片斷的通告(例如在頭條新聞中),那么可丟棄該片斷。
客觀過濾303還可以將特定片斷標(biāo)志成可能不感興趣。也可以不立刻丟棄這樣的片斷,但是如果主觀過濾304也認(rèn)為對它們不感興趣,也在之后將其丟棄。例如,在Academy Awards——一個四個多小時的節(jié)目期間,試圖對節(jié)目中提到的每個可確認(rèn)的人或者電影進(jìn)行沉淀可能就不是很有意義。用于縮減那些觀看內(nèi)容的啟發(fā)式方法可以是只觀看本年度的獲獎?wù)咭约八麄儗?yīng)的情節(jié)片斷。然而,用戶可能對未能獲獎或者被提名的人物有特殊興趣。因此,將節(jié)目中每個參與者的有關(guān)信息標(biāo)識為可能不感興趣、如果之后確實不感興趣再丟棄之可能是有利的。
步驟303還可用作識別重大的緊急事件,比如用戶的城市被龍卷風(fēng)破壞的照片,并將給予其更高的優(yōu)先級。
基于諸如長度、主題、受歡迎程度等因子來優(yōu)先化303輸出的片斷。因此,303的輸出是一個來自302的片斷的重新排序的子集。另外,附加地用在過濾和優(yōu)先化過程中獲得的關(guān)于片斷的信息來注釋該片斷。
第二過濾步驟“事件/人物選擇和過濾”304使用個人配置文件,以便選擇和過濾出與用戶偏好有關(guān)的情節(jié)片斷。根據(jù)用戶偏好進(jìn)行的內(nèi)容過濾在2001年12月24日由Dimitrova等提交的美國專利申請序列號為10/028,299、題為“Personal Adaptive Memory System”(US010671)的申請中有更詳細(xì)的描述。例如,如果用戶偏愛歐洲新聞,涉及歐洲范圍內(nèi)的新聞剪輯比那些不在范圍內(nèi)的級別高。還考慮其他的偏好,比如用戶特別感興趣的一組人(比如運動員、演員或者導(dǎo)演)、事件類型(比如戰(zhàn)爭、經(jīng)濟(jì)、電影/音樂獎項等)。根據(jù)這些,可丟棄一些子片斷,因為它們與用戶配置文件一點也不相關(guān);同時剩余部分再次排序和用更多的信息注釋。采用優(yōu)先級值之間的平均值來確定丟棄那些項,該優(yōu)先權(quán)值可一方面根據(jù)步驟303確定、和另一方面根據(jù)用戶偏好確定。注釋可包括使用哪些用戶偏好來歸類/選擇子片斷。
操作303和304通過進(jìn)一步注釋內(nèi)容優(yōu)選地操作,對邏輯框302的操作進(jìn)行補(bǔ)充。這樣,邏輯框302通過將內(nèi)容分成顯著的主題和/或片斷來注釋內(nèi)容。邏輯框303進(jìn)行一個客觀優(yōu)先化并且將特定的內(nèi)容項注釋為客觀重要。邏輯框304接著將特定內(nèi)容項注釋為用戶感興趣的。
邏輯框302-304被實現(xiàn)為逐漸地細(xì)化過濾操作。可替換地,邏輯框303和304的每一個可提供一個特定項的重要性的獨立估計。邏輯框302-304中所發(fā)生的操作很大程度上是設(shè)計選擇的問題。應(yīng)當(dāng)實現(xiàn)任何對設(shè)計者有意義的片斷或者注釋。
步驟305將片斷描述符匹配到搜索結(jié)構(gòu)到305的輸入是原始內(nèi)容的注釋的子片斷的集合。該模塊將這些注釋格式化為類似如圖4中501的結(jié)構(gòu),并且試圖將得到的這些與511所示的搜索結(jié)構(gòu)502進(jìn)行匹配??赡苡卸鄠€結(jié)構(gòu),例如來自相同子片斷的501。例如,新聞故事可關(guān)于反恐戰(zhàn)爭,還可關(guān)于FBI或者政府改組。
與搜索結(jié)構(gòu)成功匹配的每個片斷描述連同該匹配的描述一起(實際上是片斷描述符和搜索結(jié)構(gòu)的聯(lián)合體)將被進(jìn)一步處理,并最終添加到沉淀池。
在邏輯框305,更多的信息將添加到過濾的結(jié)果中。例如,如果所有在內(nèi)容中規(guī)定的信息是表演者的號碼或者表演者的姓,則可從知識庫209檢索表演者的全名。
基于注釋,系統(tǒng)可自動生成進(jìn)一步的搜索結(jié)構(gòu)。例如來自CNN頭條新聞和電影“Austin Powers-International Man of Mystery”的兩個片斷將在下面兩個結(jié)構(gòu)中描述“CNN-議院關(guān)于機(jī)場安全的投票”將描述為種類美國/新聞/犯罪/恐怖主義,美國/新聞/旅行/航空實體美國國會議員,美國總統(tǒng),George W.Bush,機(jī)場安全議案,......
事件對美國的攻擊關(guān)鍵詞美國,政治,恐怖主義,犯罪,航空旅行“Austin Powers-International Man of Mystery”(場景3到達(dá)拉斯維加斯)的片斷描述如下種類電影,喜劇,滑稽作品實體歌曲(Soul Bossa Nova-Quincy Jones And His Orchestra),演員Mike Myers,角色Austin Powers,汽車E-empty Jaguar,位置美國拉斯維加斯,位置里維埃拉飯店關(guān)鍵詞James Bond,拉斯維加斯在上面,給出了兩個搜索結(jié)構(gòu)的例子。這些結(jié)構(gòu)使用字段,但是如前所述,本領(lǐng)域的普通技術(shù)人員將很容易地設(shè)計出其他的結(jié)構(gòu),比如自然語言的問題。
由系統(tǒng)生成的搜索結(jié)構(gòu)應(yīng)位于沉淀池213,表示將在后面修改它們。直接從用戶輸入中生成的搜索結(jié)構(gòu)應(yīng)當(dāng)存儲在用戶偏好數(shù)據(jù)庫212中,以便作為內(nèi)容處理結(jié)果的它們不被系統(tǒng)改變。兩種類型的搜索結(jié)構(gòu)都能用在匹配305中。
如果不匹配,那么在308和309,該特定的沉淀過程將終止。
步驟306和307沉淀更新和維護(hù)在306,基于已經(jīng)過濾的和匹配的內(nèi)容來沉淀一些信息。在306,還發(fā)生對沉淀池的數(shù)據(jù)庫的維護(hù)以重新識別數(shù)據(jù)庫或者刪除不再感興趣或不再精確的項。某些沉淀項還可成為搜索結(jié)構(gòu)并存儲以便今后使用。在分支B中的虛線不表示實際的循環(huán)或者分支。相反地,它在概念上表示通過沉淀得出的諸如搜索結(jié)構(gòu)的信息可用于今后的處理以沉淀出新的信息。
邏輯框307使用已經(jīng)在沉淀池中的信息來進(jìn)一步擴(kuò)充一個先前沉淀的項。還可將這個擴(kuò)充的信息作為進(jìn)一步的搜索結(jié)構(gòu)存儲。分支C中的虛線也不表示實際的循環(huán)。相反地,它表示通過擴(kuò)充得到的信息可用于之后的沉淀過程用以沉淀信息。邏輯框307還用作基于來自知識庫209或者其他信息源的項來創(chuàng)建或者改變搜索結(jié)構(gòu)。
對于C的一個例子是如下情況在Academy Awards節(jié)目之后,當(dāng)系統(tǒng)發(fā)現(xiàn)“Tom Cruise”和“Nicole Kidman”是感興趣的演員。該系統(tǒng)可從小報網(wǎng)站或者從沉淀池獲悉Tom Cruise和Nicole Kidman正在離婚。該系統(tǒng)可接著創(chuàng)建新的搜索結(jié)構(gòu),尋找關(guān)于他倆或者他們離婚的信息。根據(jù)新生成的搜索結(jié)構(gòu),系統(tǒng)能多次回到不同的新聞組、雜志網(wǎng)站、小報站點,以獲取更多關(guān)于離婚狀態(tài)的最新新聞的信息。
每一輪沉淀將擴(kuò)寬沉淀的范圍,但是這些分支的一些還可能往回指向沉淀的主要焦點——初始觸發(fā)片斷。這發(fā)生在其中一個分支獲得觸發(fā)它的相同的內(nèi)容時,即是在一系列沉淀(例如從NBC我們找到CNN的故事,接著BBC故事,其導(dǎo)引我們到我們從其開始的同一NBC故事)之后往回指向其本身。如果系統(tǒng)發(fā)現(xiàn)相同的項被沉淀多于一次,系統(tǒng)能將該條目標(biāo)識為特別重要。
用戶接口最終,沉淀池將包含數(shù)個條目,其每一個具有一些種類、關(guān)鍵詞和與其相關(guān)的歡迎程度。另外,每個條目指向一個或者多個用于生成或者沉淀該條目的內(nèi)容片。用戶具有一個用戶接口,通過該用戶接口他或她能例如按照編成日期、按照種類、按照受歡迎程度、按照內(nèi)容片斷的數(shù)量等來訪問內(nèi)容沉淀池條目。注釋可能被也可能不被存儲、或者用于該目的。有利地,注釋可與內(nèi)容一起存儲用于在之后的分析和/或由其他應(yīng)用程序分析。用戶接口還可例如通過加亮注釋和個人配置文件之間匹配的關(guān)鍵詞/人物/地點來使用注釋數(shù)據(jù)。
圖4示例說明來自邏輯框305和306的數(shù)據(jù)所得結(jié)果。邏輯框501顯示一個內(nèi)容結(jié)構(gòu),該內(nèi)容結(jié)構(gòu)符號表示一個片斷并從邏輯框302-305的操作得出結(jié)果。在邏輯框501中的內(nèi)容結(jié)構(gòu)如下CNN-“議院關(guān)于機(jī)場安全的投票”被描述為種類美國/新聞/犯罪/恐怖主義,美國/新聞/旅行/航空實體美國國會議員,美國總統(tǒng),George W.Bush,機(jī)場安全議案,?事件對美國的攻擊關(guān)鍵詞美國,政治,恐怖主義,犯罪,航空旅行詢問或者搜索結(jié)構(gòu)顯示在502。搜索結(jié)構(gòu)為如下格式種類美國新聞實體美國總統(tǒng)事件對美國的攻擊沉淀源http//cnn.com,http//news.bbc.co.uk/,channel//CNN,channel//MSNBC根據(jù)邏輯框305,在511發(fā)生一個匹配過程。
邏輯框503顯示一個匹配過程的結(jié)果,即是種類美國/新聞/犯罪/恐怖主義,美國/新聞/旅行/航空實體美國國會議員,美國總統(tǒng),George W.Bush,機(jī)場安全議案,......
事件對美國的攻擊關(guān)鍵詞美國,政治,恐怖主義,犯罪,航空旅行沉淀源http//cnn.com,http//news.bbc.co.uk/,
channel//CNN,channel//MSNBC在503中所示的結(jié)構(gòu)具有與502中所示的搜索結(jié)構(gòu)和501處的內(nèi)容注釋結(jié)構(gòu)大致相同的格式。在511可使用多種匹配。如果搜索結(jié)構(gòu)字段的其中一個匹配內(nèi)容,那么就找到一個匹配??商鎿Q地,也可以僅當(dāng)多個字段匹配或者僅當(dāng)所有字段匹配時,才認(rèn)為與搜索結(jié)構(gòu)匹配。清楚的,如果搜索結(jié)構(gòu)具有的字段比所有字段少,如上面的例子,匹配過程涉及的字段不能比實際用于搜索結(jié)構(gòu)中的字段多。
在511處的匹配之后,數(shù)據(jù)項-CNN議會通過支持GOP的航空安全議案504,-CNNRumsfeld對恐怖主義的戰(zhàn)爭“需要時間”505,-CNN政府官員加尼弗尼亞存在的威脅過渡為“可靠”506-CNN議會通過支持GOP的航空安全議案507,-BBC議院處理機(jī)場安全508,-BBC關(guān)鍵的華盛頓機(jī)場將重新開放509作為沉淀被添加。項504和507是完全相同的。完全相同的項的沉淀指明項中的信息應(yīng)當(dāng)被標(biāo)志為十分重要,例如通過指明一個增加的受歡迎程度。完全相同的項實際上不需要分別記錄到沉淀池中,但是可以作為一個優(yōu)先級指示被記錄。
匹配的內(nèi)容的什么部分將被沉淀和它們將如何被結(jié)構(gòu)化是根據(jù)美國專利申請序列號為09/818,303的、2001年3月27日由Dimitrova等提交的、題為“Automatic Video Retriever Genie”(US010079)確定的。還在該申請中描述了對存儲沉淀有用的存儲結(jié)構(gòu)。項510顯示由項509沉淀出的數(shù)據(jù)的格式,即是插入新的沉淀池條目時間2001年12月13日受歡迎程度1種類美國新聞實體機(jī)場安全議案事件『空』關(guān)鍵詞航空旅行沉淀源http//cnn.com,http//news.bbc.co.uk/,channel//CNN,channel//MSNBC
通常一個沉淀池條目對于每個字段、事件、實體或者關(guān)鍵詞只具有一個或者零個條目,因為匹配過程通常只將搜索結(jié)構(gòu)的一個字段與內(nèi)容匹配。其他沉淀數(shù)據(jù)504-508將具有相似的條目,為了空間的原因沒有示出。
其他各種情況時間沉淀相關(guān)函數(shù)一個優(yōu)選的時間沉淀相關(guān)函數(shù)使得系統(tǒng)收集的信息量時間相關(guān)。優(yōu)選地,系統(tǒng)收集事件(加亮區(qū))的第一天內(nèi)多個相關(guān)的項,并且隨著時間的流逝收集越來越少的項。在一定時間之后(根據(jù)用戶的興趣),系統(tǒng)停止沉淀特定的內(nèi)容。優(yōu)選的時間沉淀相關(guān)函數(shù)是R(x)=ax-b-c]]>其中x是時間變量以及a、b和c是預(yù)定常量(正值或者負(fù)值)。常量a確定沉淀的速度,同時b和c是時間偏移量——b引入一個延遲(例如,在分析內(nèi)容24小時后開始沉淀)而c控制何時應(yīng)當(dāng)停止沉淀(例如,在開始沉淀48小時后)。
優(yōu)選地,該函數(shù)在邏輯框308中使用以幫助確定是否沉淀一個匹配的信息片。還可在邏輯框306中使用以從沉淀池刪除舊信息以作為數(shù)據(jù)庫維護(hù)的一部分。
知識庫209對于一個給定的搜索結(jié)構(gòu),系統(tǒng)需要選擇系統(tǒng)應(yīng)當(dāng)跟蹤和搜索的媒體的類型,比如其他電視頻道、新聞組、新聞網(wǎng)站等以及它們最最可能的位置(URL,來自節(jié)目指南的電視頻道的數(shù)目和時間)。
基于源的類型、種類和實體,為信息搜索不同的媒體。例如,對于關(guān)于恐怖主義的CNN新聞,搜索其他新聞網(wǎng)站。關(guān)于Brad Pitt的CNN新聞故事引起對電影和娛樂網(wǎng)站的搜索。另外,為更多的信息搜索諸如E-TV的頻道和諸如“好萊塢新聞”的節(jié)目。如果搜索的實體是汽車,在電影中的精彩場面引起對汽車或者AAA網(wǎng)站的搜索。
優(yōu)選地,知識庫209部分由存儲在本地的信息實現(xiàn)以及部分由存儲在遠(yuǎn)程的信息實現(xiàn),并且可經(jīng)由網(wǎng)絡(luò)連接訪問。例如,通常使用的信息,比如當(dāng)前美國總統(tǒng)的名字將在本地存儲。通常不使用的信息,比如特定的體育圖片的名字需要從遠(yuǎn)程存儲位置檢索。
通過閱讀本公開,對于本領(lǐng)域的技術(shù)人員來說其他修改是明顯的。這樣的修改涉及用戶配置文件、內(nèi)容分析和數(shù)據(jù)庫維護(hù)的設(shè)計、制造和使用中已知的其他特征,以及代替這里描述的特征或者除這里描述的特征外的其他特征。雖然在本申請中權(quán)利要求已經(jīng)明確表達(dá)為特定的特征組合,需要理解,本申請的公開的范圍還包括在這里明顯地或者暗示公開的任何新穎的特征或者新穎的特征的組合,或者任何其衍生,不論其是否減輕任何或者所有與本發(fā)明相同的技術(shù)問題。因此本發(fā)明給出提示,新的權(quán)利要求可明確表達(dá)為在進(jìn)行本應(yīng)用或者由此得到的任何應(yīng)用期間的特征。
在這里使用的詞語“包括”,“包含”不應(yīng)當(dāng)被看成排除附加的元素。在這里量詞“一”或者“一個”不應(yīng)當(dāng)看成是排除多個元素。
權(quán)利要求
1.一種維護(hù)和更新存儲的信息的方法,包括在至少一個數(shù)據(jù)處理設(shè)備中執(zhí)行下列操作將一個存儲的信息維護(hù)成一個用戶潛在地感興趣的信息池;維護(hù)與所述池相關(guān)的用戶偏好信息;重復(fù)地識別添加到所述池或從所述池刪除的被沉淀的信息,這至少根據(jù)用戶偏好信息,和時間相關(guān)的沉淀函數(shù);和響應(yīng)于所述識別,添加或者刪除被沉淀的信息。
2.權(quán)利要求1的方法,其中識別添加到所述池的被沉淀的信息進(jìn)一步響應(yīng)于已經(jīng)在所述池中的內(nèi)容。
3.權(quán)利要求1的方法,其中時間相關(guān)的沉淀函數(shù)規(guī)定一個擴(kuò)充曲線,用于響應(yīng)用戶感興趣的初始表示來進(jìn)行被沉淀的信息的時間相關(guān)的迭代擴(kuò)充。
4.權(quán)利要求1的方法,其中時間相關(guān)的沉淀函數(shù)規(guī)定一個溶解曲線,用于在用戶感興趣的初始表示之后的給定時間進(jìn)行被沉淀的信息的時間相關(guān)的迭代溶解。
5.權(quán)利要求1的方法,其中時間相關(guān)沉淀函數(shù)是R(x)=ax-b-c.]]>
6.權(quán)利要求1的方法,其中沉淀的信息用于生成搜索結(jié)構(gòu),用于匹配將來接收的內(nèi)容。
7.一種數(shù)據(jù)庫,在至少一個數(shù)據(jù)處理設(shè)備可讀的介質(zhì)中實現(xiàn),并根據(jù)權(quán)利要求1的方法產(chǎn)生。
8.用于實現(xiàn)權(quán)利要求1的方法的軟件。
9.一個數(shù)據(jù)處理系統(tǒng),包括至少一個存儲器,包含有數(shù)據(jù)和根據(jù)權(quán)利要求8的軟件;至少一個數(shù)據(jù)處理設(shè)備,用于執(zhí)行由所述軟件規(guī)定的操作。
10.一種維護(hù)和更新內(nèi)容的方法,包括從內(nèi)容提供商接收內(nèi)容;從內(nèi)容中提取加亮區(qū)或片斷描述符;基于客觀標(biāo)準(zhǔn),從內(nèi)容過濾和/或選擇重大事件;進(jìn)一步基于用戶偏好信息,從內(nèi)容過濾和/或選擇事件或人物;將內(nèi)容與存儲的搜索標(biāo)準(zhǔn)進(jìn)行匹配;和基于匹配,優(yōu)先化、更新和/或刪除信息。
11.權(quán)利要求10的方法,其中更新或者刪除信息是基于用戶偏好信息,和時間相關(guān)沉淀函數(shù)。
12.一種數(shù)據(jù)庫,包含在至少一個數(shù)據(jù)處理設(shè)備可讀的介質(zhì)中并根據(jù)權(quán)利要求10的方法而產(chǎn)生。
13.用于實現(xiàn)權(quán)利要求10的方法的軟件。
14.一個數(shù)據(jù)處理系統(tǒng),包括至少一個存儲器,包含數(shù)據(jù)和根據(jù)權(quán)利要求13的軟件;以及至少一個用于執(zhí)行由所述軟件規(guī)定的操作的數(shù)據(jù)處理設(shè)備。
15.一種用于維護(hù)和更新存儲的信息的方法,包括在至少一個數(shù)據(jù)處理設(shè)備中執(zhí)行下列操作維護(hù)一個用戶潛在地會感興趣的信息池;維護(hù)與所述池相關(guān)的演化的用戶偏好信息;和根據(jù)演化的用戶偏好信息,發(fā)起多個并行沉淀過程,用于找出添加到池中的、與用戶興趣的表達(dá)的不同方面有關(guān)的附加信息。
16.一種數(shù)據(jù)庫,包含在至少一個數(shù)據(jù)處理設(shè)備可讀的介質(zhì)中并根據(jù)權(quán)利要求15的方法而產(chǎn)生。
17.用于實現(xiàn)權(quán)利要求15的方法的軟件。
18.一個數(shù)據(jù)處理系統(tǒng),包括至少一個存儲器,包含數(shù)據(jù)和根據(jù)權(quán)利要求17的軟件;至少一個用于執(zhí)行由所述軟件規(guī)定的操作的數(shù)據(jù)處理設(shè)備。
19一種數(shù)據(jù)庫,包含在由至少一個數(shù)據(jù)處理設(shè)備可讀的介質(zhì)中,該數(shù)據(jù)庫包括從接收的和處理的內(nèi)容得到的多個條目,每個條目包括多個字段,所述字段包括○ 生成時間;○ 受歡迎程度的等級;○ 種類;○ 關(guān)鍵詞;○ 實體;○ 事件;和○ 至少一個源
20.權(quán)利要求19的數(shù)據(jù)庫,其中對于至少一個條目,實體、事件或者關(guān)鍵詞字段中的至少一個為空。
全文摘要
一個內(nèi)容維護(hù)系統(tǒng)使用時間相關(guān)沉淀函數(shù),在初始表達(dá)用戶興趣之后隨時間迭代地擴(kuò)充或者刪除內(nèi)容。響應(yīng)于用戶興趣表達(dá)的不同方面可發(fā)起多個并行沉淀過程。沉淀取決于從用戶感興趣的內(nèi)容中加亮或者提取的片斷描述符。接著根據(jù)該內(nèi)容,片斷被過濾、分級、注釋和/或優(yōu)先化。剩下的片斷與存儲的搜索結(jié)構(gòu)進(jìn)行匹配。當(dāng)片斷匹配時,將其沉淀出以進(jìn)行存儲,并且能生成新的搜索結(jié)構(gòu)。
文檔編號G06F13/00GK1662908SQ03814428
公開日2005年8月31日 申請日期2003年6月16日 優(yōu)先權(quán)日2002年6月21日
發(fā)明者A·賈內(nèi)夫斯基, N·迪米特羅瓦, L·阿尼霍特里 申請人:皇家飛利浦電子股份有限公司