專利名稱:用于產(chǎn)生視聽節(jié)目?jī)?nèi)容的視聽概要的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及一種用于產(chǎn)生視聽節(jié)目?jī)?nèi)容的視聽概要的系統(tǒng)和方法,并且尤其涉及一種用于在視聽設(shè)備中提供視聽概要產(chǎn)生的系統(tǒng)和方法。
諸如視頻點(diǎn)播、付費(fèi)電視和在線多媒體內(nèi)容之類的服務(wù)的出現(xiàn)向觀眾展示了大量可得到的節(jié)目,而DVD技術(shù)和硬盤記錄系統(tǒng)中的新發(fā)展向觀眾提供了用于易于記錄電視節(jié)目并且編輯他自己的影片收集的手段。隨著數(shù)字電視的出現(xiàn)以及可用頻道的增加,觀眾可能會(huì)面對(duì)相當(dāng)多的、可觀看節(jié)目的選擇。于是,可能非常希望把節(jié)目記錄在視頻或DVD上以供以后觀看,在節(jié)目在不適于觀眾的時(shí)間播出時(shí)或在幾個(gè)節(jié)目同時(shí)在不同的頻道上播出時(shí)特別如此。
隨著所記錄節(jié)目收集的發(fā)展,變得越來(lái)越難于定位要用于觀看的具體節(jié)目。通常,記錄名稱自己可能不足以向觀眾通知其性質(zhì)和內(nèi)容,并且通常觀看每個(gè)記錄段以便看看它是否是所想要的那個(gè)也是不可行的。通過收集概要可能會(huì)使定位所想要的記錄變得更容易,所述概要收集提供了關(guān)于每個(gè)記錄的足夠信息以便使用戶能夠做出明智的選擇。
存在可用于使用視聽流的音頻和視頻內(nèi)容來(lái)產(chǎn)生概要的技術(shù),所述視聽流例如可能來(lái)源于電視廣播或視聽設(shè)備,諸如DVD播放器、VCR等。視聽信號(hào)的音頻內(nèi)容連同語(yǔ)音內(nèi)容一起可以包含音樂、音響效果及其它音頻內(nèi)容。例如US 2002/0051077 A1分析閉合的字幕文本以便找到在視頻內(nèi)容中故事的概要句子,概要句子可以用來(lái)定位相應(yīng)的音頻和視頻剪輯。可以排序所述剪輯以便給出節(jié)目?jī)?nèi)容的概要。挑選視頻剪輯以便用在概要中要相對(duì)容易,但是使用伴隨的音頻內(nèi)容常常是不合需要的,這是因?yàn)樗a(chǎn)生的背景音樂和/或音響效果的斷開具有振動(dòng)效應(yīng)并且可能使結(jié)果聽起來(lái)不適。音頻會(huì)話在中間句子斷開是完全不能接受的,這是因?yàn)闀?huì)話被再現(xiàn)得不可理解。此外,伴隨有視頻剪輯的會(huì)話可能不足以向觀眾給出影片實(shí)際上是關(guān)于什么的概念,并且可能不會(huì)給出任何關(guān)于影片中的演員、制片人、攝制年份、影片種類、等級(jí)、預(yù)算、票房成就、奧斯卡提名數(shù)目、對(duì)特定年齡組的適合性等信息。然而,當(dāng)觀眾選擇要觀看的記錄時(shí),這可能是所述觀眾非常感興趣的信息。因此當(dāng)前可用于使用視聽輸入的音頻和視頻內(nèi)容來(lái)產(chǎn)生概要的技術(shù)通常不能令人滿意,原因在于從所述音頻和視頻內(nèi)容中編纂與影片有關(guān)的、并且對(duì)觀眾做出明智的選擇至關(guān)重要的信息是不可能的。
因此,本發(fā)明的目的是提供一種系統(tǒng)和方法,可以用來(lái)容易地產(chǎn)生視聽節(jié)目的簡(jiǎn)潔且信息豐富的概要。
為此,本發(fā)明提供了一種用于產(chǎn)生視聽節(jié)目?jī)?nèi)容的視聽概要的系統(tǒng),其中所述系統(tǒng)包括搜索部件,用于定位與節(jié)目?jī)?nèi)容相關(guān)聯(lián)的、預(yù)先產(chǎn)生的文本概要;語(yǔ)言合成器,用于把所述文本概要轉(zhuǎn)換為語(yǔ)音;視頻概要產(chǎn)生器,用于產(chǎn)生所述視聽節(jié)目?jī)?nèi)容的視頻概要;以及音頻/視頻混合器,用于把所合成的語(yǔ)音與所述視頻概要相混合。
一種用于產(chǎn)生視聽節(jié)目?jī)?nèi)容的視聽概要的適當(dāng)方法包括定位與節(jié)目?jī)?nèi)容相關(guān)聯(lián)的、預(yù)先產(chǎn)生的文本概要;把所述文本概要合成為語(yǔ)音;產(chǎn)生所述視聽節(jié)目?jī)?nèi)容的視頻概要;并且把所合成的語(yǔ)音與所述視頻概要相混合。
從而,所述系統(tǒng)提供了一種用于產(chǎn)生視聽節(jié)目的、信息豐富的概要的容易方法,所述概要可以由觀眾用來(lái)在短時(shí)間內(nèi)做出有智慧的觀看選擇,其中向所述觀眾展示所有必要的信息。
本領(lǐng)域內(nèi)技術(shù)人員通過使用現(xiàn)成的組件可以實(shí)現(xiàn)用于定位文本概要、執(zhí)行語(yǔ)言合成以及用于產(chǎn)生視頻概要的模塊。還可以使用可得到的軟件和/或硬件組件來(lái)實(shí)現(xiàn)這些模塊,以致可以采用劃算的方式來(lái)實(shí)現(xiàn)本發(fā)明。
被用于搜索與節(jié)目?jī)?nèi)容有關(guān)的文本概要的信息源例如可以是信息數(shù)據(jù)庫(kù)、因特網(wǎng)、內(nèi)聯(lián)網(wǎng)或數(shù)字廣播信號(hào)。
從屬權(quán)利要求和隨后的說明書特別公開了本發(fā)明有益的實(shí)施例和特征。
一般來(lái)講,將由搜索部件來(lái)定位特定影片的一個(gè)以上的文本概要,除非所述搜索部件被另外配置,否則例如它可以被配置成使得它只是采取首先定位的概要。為了允許從多個(gè)所定位的文本概要中選擇最適當(dāng)?shù)囊粋€(gè),所述系統(tǒng)優(yōu)選包括選擇器,所述選擇器檢查每個(gè)概要并且挑選最接近地滿足預(yù)定義準(zhǔn)則的那個(gè)摘要。
用于選擇適當(dāng)概要的準(zhǔn)則可以是在所述概要文本中所包含的信息量,以及用來(lái)把概要作為合成語(yǔ)音而展示所要求的時(shí)間長(zhǎng)度。例如,也許提及影片的標(biāo)題、明星演員的名字、影片的簡(jiǎn)短說明以及影片等級(jí)就足夠了。這種概要文本連同從音頻內(nèi)容中所提取的視頻剪輯和背景音樂和/或音響效果一起,可以在很短的時(shí)間長(zhǎng)度內(nèi)被合成并作為片花展示,這樣就可以滿足那些想要根據(jù)最少信息量而做出快速選擇的觀眾。另一方面,觀眾可能想更詳細(xì)地得知更多信息,以便使得關(guān)于影片內(nèi)容的更多信息連同關(guān)于影片背景、所有主要演員、制片人、導(dǎo)演、影片獎(jiǎng)項(xiàng)提名等信息一起,也應(yīng)當(dāng)出現(xiàn)于概要文本中。這樣的信息可以利用視頻剪輯的更大選擇(可能還伴隨有從音頻內(nèi)容中提取的音響效果和音樂)來(lái)合成并展示,以便給出該記錄的信息非常豐富的片花。
所合成概要文本的質(zhì)量還可以由用戶控制,所述用戶可以指定聲音特征以便在語(yǔ)言合成中使用。例如,觀眾可能想把他自己的聲音特征加到合成中,也可能更喜歡與在該記錄中的主要演員的聲音匹配的語(yǔ)音特征。
因此,本發(fā)明特別有益的實(shí)施例使用戶能夠定義偏好,諸如用于選擇幾個(gè)概要中一個(gè)的準(zhǔn)則,所述偏好例如是想要的概要長(zhǎng)度、信息內(nèi)容的質(zhì)量等;還能夠定義用于把概要文本合成為語(yǔ)音中的偏好。為此優(yōu)選地是,該系統(tǒng)包括用于輸入這種偏好的適當(dāng)?shù)挠脩艚涌凇?br>
現(xiàn)有概要的類型和質(zhì)量在一定程度上取決于所述概要位于的站點(diǎn)。一些評(píng)述將被專業(yè)地編輯并且達(dá)到高標(biāo)準(zhǔn),而其它評(píng)述可能具有相當(dāng)?shù)偷臉?biāo)準(zhǔn)并因此而不能被觀眾所接受。因此,本發(fā)明進(jìn)一步的有益實(shí)施例使用戶能通過指定如下因特網(wǎng)站點(diǎn)來(lái)控制搜索過程的結(jié)果,所述因特網(wǎng)站點(diǎn)是要在文本概要的搜索中排除掉或包括在其中的站點(diǎn)。優(yōu)選地是,用戶可以借助于用戶接口來(lái)輸入這種搜索偏好。
本發(fā)明進(jìn)一步的實(shí)施例包括用于把由用戶所指定的信息存儲(chǔ)在用戶簡(jiǎn)檔中的裝置,所述信息關(guān)于所要求文本概要的類型和長(zhǎng)度以及概要的質(zhì)量。有益地是,所述系統(tǒng)提供了存儲(chǔ)一個(gè)以上用戶簡(jiǎn)檔的可能性,以便一個(gè)以上觀眾可以充分利用所述系統(tǒng)而不必每次都輸入用戶簡(jiǎn)檔信息。
在本發(fā)明的特別有益實(shí)施例中,系統(tǒng)使用搜索部件也許還使用選擇器來(lái)提供用于收集預(yù)先產(chǎn)生的文本概要并且在本地把它們存儲(chǔ)在概要庫(kù)中以供將來(lái)使用的可能性。搜索部件可以在不要求用戶輸入的情況下在后臺(tái)執(zhí)行此任務(wù)。由于所述概要是文本格式的,所以存儲(chǔ)這種概要的收集往往不要求大容量的存儲(chǔ)器。用戶可以在以后通過在屏幕(諸如電視或計(jì)算機(jī)屏幕)上或以打印輸出的形式觀看文本概要收集來(lái)細(xì)讀它們,并且根據(jù)包含在所述概要中的信息來(lái)決定特定的影片是否值得記錄。如果用戶決定記錄該影片,那么適當(dāng)?shù)奈谋疽呀?jīng)被作標(biāo)記并且可以很容易地本地庫(kù)中定位,繼而從本地庫(kù)中提取并且用于為所述記錄產(chǎn)生片花。
在本發(fā)明的特別有益的實(shí)施例中,該系統(tǒng)充分利用了計(jì)算機(jī)網(wǎng)絡(luò)接口來(lái)在計(jì)算機(jī)網(wǎng)絡(luò)中搜索與特定影片有關(guān)的預(yù)先產(chǎn)生的文本概要。所述接口可以借助于例如調(diào)制解調(diào)器、ISDN或DSL連接以及任何所要求的硬件和軟件來(lái)實(shí)現(xiàn)。所述接口進(jìn)一步的實(shí)施例可以使用無(wú)線連接來(lái)與計(jì)算機(jī)網(wǎng)絡(luò)相連接。所述系統(tǒng)與其連接的計(jì)算機(jī)網(wǎng)絡(luò)可以是本地內(nèi)聯(lián)網(wǎng)或萬(wàn)維網(wǎng)(因特網(wǎng))。例如在因特網(wǎng)上,存在許多專用于電影的站點(diǎn),包括關(guān)于所有類型電影的一般信息,還包括評(píng)述和概要。搜索引擎可以定位這些現(xiàn)有的概要(優(yōu)選地是,依照選擇的語(yǔ)言),并且把它們下載到該系統(tǒng)以便進(jìn)一步處理。該系統(tǒng)的搜索引擎還可以充分利用現(xiàn)有的服務(wù)(可能是更強(qiáng)大的搜索引擎(例如meta-crawler))來(lái)執(zhí)行并行搜索,由此使獲得所想要結(jié)果所要求的時(shí)間量最小化。本發(fā)明的優(yōu)選實(shí)施例使搜索部件能與基于網(wǎng)絡(luò)的服務(wù)供應(yīng)商聯(lián)系,所述服務(wù)供應(yīng)商直接提供文本描述,這樣就使得該系統(tǒng)能夠容易且高效地訪問所想要的信息。
因?yàn)楫?dāng)包括某些原始音軌時(shí)會(huì)節(jié)目?jī)?nèi)容的概要可以做得更有趣且信息更加豐富,所以優(yōu)選地是,本發(fā)明包括音頻處理器,用于識(shí)別視聽信號(hào)上的音樂和聲音效果,這是因?yàn)楫?dāng)觀眾選擇要觀看的記錄時(shí),聽到所提取的原始音頻內(nèi)容可能對(duì)其會(huì)有幫助。原始音頻內(nèi)容的這種包含例如在音樂或音樂會(huì)記錄的概要的情況下可能特別有益,這樣就使得觀眾可以根據(jù)賦有特征的音樂的類型來(lái)做出更明智的選擇。在驚悚或神話電影的情況下,包含從原始音軌拷貝的聲音效果可能對(duì)產(chǎn)生記錄氣氛來(lái)說極其有用。還可以把原始的語(yǔ)音內(nèi)容混合在概要中音量可能比所合成的概要語(yǔ)音的音量更低的地方處(如果想要的話)。
本發(fā)明的優(yōu)選特征包括用于執(zhí)行所有步驟的計(jì)算機(jī)程序,所述步驟包括定位所預(yù)先產(chǎn)生的概要;依照用戶偏好來(lái)選擇適當(dāng)?shù)母乓?;把文本合成為語(yǔ)音;產(chǎn)生視頻概要并且混合視頻和音頻元素以得到完成的概要,即該系統(tǒng)的大部分或全部組件,諸如搜索部件、選擇器、合成器、視頻概要產(chǎn)生器都可以采用軟件模塊的形式實(shí)現(xiàn)以及在適當(dāng)?shù)挠布M件上實(shí)現(xiàn)。所要求的軟件可以在任何媒體設(shè)備(諸如電視、VCR、多媒體計(jì)算機(jī)等)的處理器上編碼,或在獨(dú)立的處理器上編碼,這樣就可以對(duì)現(xiàn)有的媒體設(shè)備加以調(diào)整以受益于本發(fā)明的特征。
從結(jié)合附圖所考慮的以下詳細(xì)描述中,本發(fā)明的其它目的和特征將變得非常清楚。
唯一的圖(
圖1)是依照本發(fā)明實(shí)施例用于自動(dòng)產(chǎn)生概要的系統(tǒng)的示意性框圖。
在下圖的描述中,其并不排除本發(fā)明的其它可能的實(shí)現(xiàn)方式,所示出的系統(tǒng)連接到視聽設(shè)備24,例如家庭娛樂系統(tǒng)、電視、多媒體設(shè)備或類似設(shè)備。為了清楚起見,在圖中只是示意地包括了在用戶25和系統(tǒng)1之間的接口12。然而,應(yīng)當(dāng)理解,系統(tǒng)1包括用于解釋由用戶采用用戶接口的通常方式所發(fā)出的命令的裝置,并且還可以包括用于輸出視聽信號(hào)的裝置,例如電視揚(yáng)聲器、電視屏幕等。
圖1示出了自動(dòng)概要產(chǎn)生系統(tǒng)1,在該系統(tǒng)中,搜索部件4定位與外部計(jì)算機(jī)網(wǎng)絡(luò)18(例如,因特網(wǎng))中的節(jié)目?jī)?nèi)容3相關(guān)聯(lián)的預(yù)先產(chǎn)生的文本概要51、52、...、5i、...、5n。
節(jié)目?jī)?nèi)容3可以來(lái)源于例如視頻或DVD上的記錄14,或作為電視廣播26被接收。開關(guān)22允許選擇節(jié)目?jī)?nèi)容3的源。與節(jié)目?jī)?nèi)容3有關(guān)的信息(由用戶25經(jīng)由用戶接口12輸入或從伴隨節(jié)目?jī)?nèi)容3的閉合字幕信息中提取),被傳送到搜索部件4。
搜索部件4使用此信息來(lái)看看是否已經(jīng)有合適的概要存儲(chǔ)在本地文本概要庫(kù)15中。作為選擇,作為搜索部件4一部分的因特網(wǎng)搜索引擎17可以定位因特網(wǎng)18中的、預(yù)先產(chǎn)生的相關(guān)概要51、52、...5i、...5n并且經(jīng)由計(jì)算機(jī)網(wǎng)絡(luò)接口16下載它們。如果一個(gè)以上合適的文本概要51、52、...5i、...5n位于因特網(wǎng)18上,搜索部件4的選擇器11決定哪一個(gè)最接近地滿足預(yù)定義的準(zhǔn)則,所述準(zhǔn)則由用戶25經(jīng)由用戶接口12輸入并且連同其它用戶偏好13一起在本地存儲(chǔ)在存儲(chǔ)器27中。根據(jù)這些準(zhǔn)則,概要5i被選擇并且被傳送到合成模塊6,所述合成模塊6把數(shù)字文本概要5i轉(zhuǎn)換為語(yǔ)音7。所述合成可以由其它類用戶偏好13控制,諸如要加到合成語(yǔ)音7的那個(gè)聲音特征。
同時(shí),視頻概要產(chǎn)生器8識(shí)別節(jié)目?jī)?nèi)容3中合適的視頻序列并且把它們編纂到視頻概要9中,當(dāng)音頻處理器19識(shí)別適當(dāng)?shù)囊纛l內(nèi)容(例如,音響效果或音樂)時(shí),并且把這些音頻內(nèi)容編纂到音頻概要20中。視頻概要產(chǎn)生器8和音頻處理器19可以由一個(gè)單元組成,也可以實(shí)現(xiàn)為相互獨(dú)立的組件。
視聽混合器10把視頻和音頻概要9、20與所合成的音頻語(yǔ)音7組合起來(lái)以便得出節(jié)目?jī)?nèi)容3的完成概要2。概要2可以在諸如電視、計(jì)算機(jī)屏幕、多媒體設(shè)備等視聽設(shè)備24上觀看,和/或可以存儲(chǔ)在例如錄像磁帶、DVD、硬盤、(可插拔)固態(tài)存儲(chǔ)器等存儲(chǔ)介質(zhì)23上以供將來(lái)使用。
在此例子中所描述的系統(tǒng)1被示為單個(gè)裝置21,其例如可以是連接到視聽設(shè)備24的機(jī)頂盒。然而,所描述的全部附加組件(搜索部件4,語(yǔ)言合成器6,視頻概要產(chǎn)生器8,音頻/視頻混合器10)可以被集成起來(lái)以便連同視聽設(shè)備24一起給出單個(gè)設(shè)備,或者可以被實(shí)現(xiàn)為連接到視聽設(shè)備24的個(gè)人計(jì)算機(jī)系統(tǒng)的一部分。
盡管已經(jīng)采用優(yōu)選實(shí)施例及其變化的形式公開了本發(fā)明,然而應(yīng)當(dāng)理解在不脫離本發(fā)明范圍的情況下可以做出許多附加的修改和變化。例如,在存儲(chǔ)器中所存儲(chǔ)的文本概要可以按要求通過從因特網(wǎng)下載更新的概要來(lái)更新或替換。還可以從第三方供應(yīng)商下載與要記錄的影片相關(guān)聯(lián)的高質(zhì)量現(xiàn)成的視頻剪輯,以便自動(dòng)概要產(chǎn)生系統(tǒng)可以充分利用大部分可得到的、最新的視頻數(shù)據(jù)。本發(fā)明的進(jìn)一步應(yīng)用可以是租用視頻和DVD的客戶展示短的庫(kù)、簡(jiǎn)要的片花以供瀏覽,例如在租用前提下的視聽設(shè)備上或采用視頻或DVD目錄的形式以供在家瀏覽,這樣就使得客戶可以做出明智的選擇。另一應(yīng)用可以用于為影片檔案編目錄,在所述影片檔案中存儲(chǔ)上千的影片。
為了清楚起見,應(yīng)當(dāng)理解,貫穿本申請(qǐng)使用“一個(gè)”或“一種”并不排除多個(gè)的存在,而“包括”也不排除其它步驟或元件的存在。
權(quán)利要求
1.一種用于自動(dòng)產(chǎn)生視聽節(jié)目?jī)?nèi)容(3)的視聽概要(2)的系統(tǒng)(1),所述系統(tǒng)包括搜索部件(4),用于定位與所述節(jié)目?jī)?nèi)容(3)相關(guān)聯(lián)的預(yù)先產(chǎn)生的文本概要(5i);語(yǔ)言合成器(6),用于把所選擇的文本概要(5i)轉(zhuǎn)換為語(yǔ)音(7);視頻概要產(chǎn)生器(8),用于產(chǎn)生所述視聽節(jié)目?jī)?nèi)容(3)的視頻概要(9);音頻/視頻混合器(10),用于把所合成的語(yǔ)音(7)與所述視頻概要(9)相混合。
2.如權(quán)利要求1所述的系統(tǒng),其中所述搜索部件(4)包括選擇器(11),用于在已經(jīng)定位了一個(gè)以上的概要的情況下依照預(yù)定義的準(zhǔn)則從所定位的文本概要(51,52,...5i,...5n)選擇一個(gè)文本概要(5i)。
3.如權(quán)利要求1或2所述的系統(tǒng),其中所述系統(tǒng)(1)包括用戶接口(12),用于輸入用戶偏好(13)。
4.如先前任何一個(gè)權(quán)利要求所述的系統(tǒng),其中所述系統(tǒng)(1)包括用于存儲(chǔ)預(yù)先產(chǎn)生的文本概要以供將來(lái)使用的庫(kù)(15)。
5.如先前任何一個(gè)權(quán)利要求所述的系統(tǒng),包含計(jì)算機(jī)網(wǎng)絡(luò)接口(16)和搜索引擎(17),用于定位在計(jì)算機(jī)網(wǎng)絡(luò)(18)中所預(yù)先產(chǎn)生的文本概要(51,52,...5i,...5n)。
6.如先前任何一個(gè)權(quán)利要求所述的系統(tǒng),其中所述系統(tǒng)(1)包括音頻處理器(19),用于識(shí)別視聽信號(hào)的、適合于包含在概要(2)中的音頻內(nèi)容(20)。
7.一種媒體設(shè)備(21),包括依照如在前權(quán)利要求中任何一個(gè)所述的系統(tǒng)。
8.一種用于自動(dòng)產(chǎn)生視聽節(jié)目?jī)?nèi)容(3)的視聽概要(2)的方法,所述方法包括定位與所述節(jié)目?jī)?nèi)容(3)相關(guān)聯(lián)的預(yù)先產(chǎn)生的文本概要(5i);把所選擇的文本概要(5i)合成為語(yǔ)音(7);產(chǎn)生所述視聽節(jié)目?jī)?nèi)容(3)的視頻概要(9);把所合成的語(yǔ)音(7)與所述視頻概要(9)相混合。
9.如權(quán)利要求8所述的方法,其中如果已經(jīng)定位了一個(gè)以上的概要,那么依照預(yù)定義的準(zhǔn)則從所定位的文本概要(51,52,...5i,...5n)中選擇一個(gè)文本概要(5i)。
10.如權(quán)利要求8或9所述的方法,其中依照用戶偏好(13)來(lái)執(zhí)行定位和/或選擇所預(yù)先產(chǎn)生的文本概要(5i)。
11.一種用于執(zhí)行如權(quán)利要求8到10中任何一個(gè)所述方法的所有步驟的計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被實(shí)現(xiàn)為媒體設(shè)備(21)的一部分。
全文摘要
本發(fā)明描述了一種用于產(chǎn)生視聽節(jié)目?jī)?nèi)容(3)的視聽概要的系統(tǒng)(1)。所述系統(tǒng)包括搜索部件(4),用于定位與節(jié)目?jī)?nèi)容(3)相關(guān)聯(lián)的所預(yù)先產(chǎn)生的文本概要(文檔編號(hào)H04N7/16GK1795506SQ200480014371
公開日2006年6月28日 申請(qǐng)日期2004年5月17日 優(yōu)先權(quán)日2003年5月26日
發(fā)明者M·巴比伊里, G·E·梅肯坎普 申請(qǐng)人:皇家飛利浦電子股份有限公司