專利名稱:指示音頻對象的部分的元數(shù)據(jù)時間標記信息的制作方法
技術領域:
本申請涉及音頻編碼,尤其涉及音頻數(shù)據(jù)中的用于指示音頻對象的部分的元數(shù)據(jù)。
背景技術:
常??梢酝ㄟ^聆聽音樂片段的特征部分(諸如副歌合唱(chorus))來識別音樂片段。此外,聆聽音樂片段的特征部分也足以評價音樂聽眾是否喜歡音樂片段。當音樂聽眾尋找存儲為數(shù)字音頻數(shù)據(jù)的音樂片段的特征部分時,他必須手動地在音樂片段內(nèi)快進以尋找該特征部分。這是繁重的,當音樂聽眾在大的音樂集合中瀏覽多個音樂片段以尋找特定的音樂片段時尤其如此
發(fā)明內(nèi)容
本發(fā)明的第一方面涉及用于在音頻數(shù)據(jù)中編碼時間標記信息的方法。優(yōu)選地,包括時間標記信息的編碼音頻數(shù)據(jù)被存儲在單個音頻文件(諸如MP3 (MPEG-1音頻層3)文件或AAC (高級音頻編碼)文件)中。根據(jù)本方法,時間標記信息被編碼為音頻數(shù)據(jù)中的音頻元數(shù)據(jù)。時間標記信息指示音頻數(shù)據(jù)中編碼的音頻對象的至少一個部分。例如,時間標記信息可指定該部分的開始位置和結束位置或僅僅指定開始位置。所述至少一個部分可是音頻對象的特征部分。該特征部分常常使得通過收聽該特征部分可即時識別所述音頻對象。音頻數(shù)據(jù)中編碼的該時間標記信息使得能夠即時瀏覽到所述音頻對象的某個部分。因此,避免了手動尋找音頻對象以尋找某個部分。音頻數(shù)據(jù)中編碼的該時間標記信息使得能提取某個部分,例如,特征部分,特別是合唱(chorus)。該部分可以被用作鈴聲或警報信號。為此,該部分可以被保存在新文件中,或者當播放鈴聲或警報音調(diào)或信號時,音頻數(shù)據(jù)中的時間標記可用于開始特定部分處的重放。當至少一個部分是音頻對象的特征部分(即,重要部分或代表部分)時,標記部分結合時間標記信息提供了使得通過收聽能夠即時識別的音頻對象的音頻縮略圖。即使聽眾設備支持音頻數(shù)據(jù)的自動分析以發(fā)現(xiàn)某個部分,諸如音樂片段的特征部分,用于尋找所述部分的分析也是不需要的,這是因為時間標記信息已經(jīng)提前被識別并包括在首頻數(shù)據(jù)中。應該注意音頻數(shù)據(jù)可以是單純的音頻數(shù)據(jù)、復合多媒體視頻/音頻數(shù)據(jù)(諸如MPEG-4視頻/音頻比特流或MPEG-2視頻/音頻比特流)、或者這樣的復合視頻/音頻數(shù)據(jù)的音頻部分。時間標記信息可當產(chǎn)生音頻數(shù)據(jù)時被編碼,或者該時間標記信息可包括在給定音頻數(shù)據(jù)中。
從編碼器輸出的或輸入到音頻解碼器的音頻數(shù)據(jù)一般形成比特流。因此,在本申請中,可使用術語“比特流”替代術語“音頻數(shù)據(jù)”。包含時間標記信息的編碼音頻數(shù)據(jù)優(yōu)選地被保存在存儲介質(zhì)上儲存的單個文件中。然而,編碼音頻數(shù)據(jù)(換句話說編碼比特流)可通過復用分離的文件(具有音頻信息的一個音頻文件以及具有一個或多個時間標記的一個元數(shù)據(jù)文件)的信息而產(chǎn)生。音頻數(shù)據(jù)可用于流應用,諸如因特網(wǎng)無線電比特流或包括音頻和視頻的多媒體比特流。可替換地,音頻數(shù)據(jù)可保存在聽眾的存儲介質(zhì)(諸如閃存或硬盤)中。優(yōu)選地,音頻對象通過感知編碼方法(諸如MP3、DoIby數(shù)字化或(HE-) AAC中所用的編碼方法)被編碼??商鎿Q地,音頻對象可是PCM(脈沖碼調(diào)制)編碼的音頻對象。
例如,音頻對象可以是音樂片段或講話記錄,諸如音頻書。優(yōu)選地,時間標記信息的編碼允許向前兼容,即,時間標記信息的編碼以如下方式執(zhí)行不支持時間標記信息的解碼器可跳過該信息。優(yōu)選地,可實現(xiàn)向后和向前兼容。向后兼容指得是支持時間標記信息的解碼器(例如,具有用于時間標記元數(shù)據(jù)的提取器和處理器的HE-AAC解碼器)可讀取不具有時間標記信息的常規(guī)音頻數(shù)據(jù)(例如,常規(guī)HE-AAC比特流)以及具有時間標記信息的音頻數(shù)據(jù)(例如,具有附加的時間標記元數(shù)據(jù)的ffi-AAC比特流)。向前兼容性指得是不支持時間標記信息的解碼器(例如,常規(guī)的HE-AAC解碼器)可以讀取不具有時間標記信息的常規(guī)音頻數(shù)據(jù)以及具有時間標記信息的音頻數(shù)據(jù)的常規(guī)部分(在這種情況下,因為不支持,時間標記信息被跳過)。根據(jù)實施例,時間標記信息指示音頻對象的特征部分的位置。例如,在音樂片段的情況下,時間標記信息可指示合唱、副歌或其部分。換句話說時間標記元數(shù)據(jù)指向重要部分或代表部分。這使得解碼音頻比特流的音樂播放器能夠在重要時刻開始重放。時間標記信息可以指示音頻對象中的例如在音樂片段或音頻書中的多個部分。換句話說時間標記信息可包含和多個音頻對象部分相關的多個時間標記。例如,時間標記信息可指明多個部分的開始點和結束點的時間位置。這使得可瀏覽到音頻對象內(nèi)的不同部分。時間標記信息可指定與音樂片段的時間音樂結構有關的不同時間位置。換句話說時間標記信息可指示音樂片段內(nèi)的多個部分,該多個部分涉及時間音樂結構的不同部分。例如,時間標記信息可指示如下部分中的一個或多個的開始例如,前奏、第一主歌(verse)、第一副歌或合唱、第二(第三)主歌、第二(第三)副歌或合唱或過渡樂節(jié)(bridge)。時間標記信息也可以標記音樂片段內(nèi)主導旋律(motive)、主題和/或主題變奏。此外,時間標記信息可指定其他音樂方面,諸如歌聲(singing voice)的出現(xiàn)(例如,第一個歌唱項(vocal entry)),或涉及音樂配置,諸如特定樂器的出現(xiàn)(具別地,某個樂器的獨奏(solo)出現(xiàn))或樂器組(例如,銅管樂器部分、背景音樂)的出現(xiàn),或音樂片段中最大聲部分。該時間標記信息也可指示具有特定音樂屬性的部分。音樂屬性可以是例如特定音樂類型或類別、特定曲調(diào)、特定節(jié)拍、特定音調(diào)、特定發(fā)音。該時間標記的部分也可與用于標注該部分的標簽信息相關。例如,標簽信息可描述部分的若干音樂屬性,諸如音樂類型或類別(例如,輕音樂、經(jīng)典音樂、電子音樂等)、相關曲調(diào)(例如,快樂的、悲傷的、進取的)、節(jié)奏(例如,由每分鐘的節(jié)拍指定或由音樂項標注的音頻信號的速度或步速,諸如,歡快的,舒緩的等)、音頻信號的部分的音調(diào)(例如,A大調(diào)、C小調(diào))或發(fā)音(例如,次斷音、連奏、撥奏)的說明。標簽信息可包括在另一元數(shù)據(jù)字段中。該標簽信息可包含文本標簽??商鎿Q地,為了標注,時間標記也可以和例如如上所述地指定音樂結構或音樂屬性的表中的索引相關。在這種情況下,各個標簽的索引可包括在音頻數(shù)據(jù)中作為標簽信息。該查詢表的示例如下所示
權利要求
1.一種在音頻數(shù)據(jù)中編碼時間標記信息的方法,該方法包括 -編碼時間標記信息為所述音頻數(shù)據(jù)中的音頻元數(shù)據(jù),所述時間標記信息指示所述音頻數(shù)據(jù)中音頻對象的至少一個部分。
2.如權利要求I所述的方法,其中所述音頻對象是音樂片段。
3.如權利要求1-2中任一項所述的方法,其中所述部分是所述音頻對象的特征部分。
4.如權利要求3所述的方法,其中所述音頻對象是音樂片段,以及所述部分是合唱、副歌或其部分。
5.如前述權利要求中任一項所述的方法,其中所述時間標記信息指示所述音頻對象的多個部分。
6.如權利要求5所述的方法,其中所述音頻對象是音樂片段,以及所述多個部分是涉及所述音樂片段的時間音樂結構的不同部分。
7.如權利要求6所述的方法,其中所述多個部分包括如下部分中的至少一個 -前奏, -主歌, -副歌或合唱, -過渡樂節(jié),或 -獨奏。
8.如前述權利要求中任一項所述的方法,其中所述音頻對象是音樂片段,以及所述時間標記信息指示如下中的至少一個 -所述音樂片段中特定樂器或樂器組的出現(xiàn), -歌聲的出現(xiàn), -所述音樂片段的最大聲部分, _主題J -主導旋律,或 -主題變奏。
9.如前述權利要求中任一項所述的方法,其中所述音頻對象是音樂片段,以及所述時間標記信息指示具有特定音樂屬性的部分。
10.如權利要求9所述的方法,其中所述音樂屬性包括如下中的一種 -特定節(jié)拍, -特定發(fā)音, -特定曲調(diào), -特定音調(diào),或 -特定音樂類型或類別。
11.如前述權利要求中任一項所述的方法,其中所述時間標記信息指定所述部分的 -開始位置;和 -結束位置或持續(xù)時間。
12.如前述權利要求中任一項所述的方法,所述方法包括 -在所述音頻數(shù)據(jù)中編碼標簽信息,所述標簽信息標注所述音頻對象的至少一個部分。
13.如權利要求12所述的方法,其中所述標簽信息被編碼為文本標簽。
14.如權利要求12或13中任一項所述的方法,其中所述標簽信息被編碼為表的索引。
15.如前述權利要求中任一項所述的方法,其中所述時間標記信息包括 -秒值, -秒值和小數(shù)秒值, -樣本數(shù), -幀數(shù), -整數(shù)幀數(shù)和整數(shù)樣本數(shù),或 -整數(shù)幀數(shù)和小數(shù)幀值。
16.如前述權利要求中任一項所述的方法,其中所述時間標記信息被編碼在所述音頻 數(shù)據(jù)的頭部分中。
17.如權利要求1-15中任一項所述的方法,其中所述時間標記信息被編碼在所述音頻數(shù)據(jù)的多個部分中。
18.如權利要求17所述的方法,其中所述多個部分在所述音頻數(shù)據(jù)比特流中以特定出現(xiàn)率出現(xiàn)。
19.如權利要求17或18中任一項所述的方法,其中多個部分的給定部分中的所述時間標記信息相對于所述比特流中所述給定部分的出現(xiàn)而指定。
20.如前述權利要求中任一項所述的方法,其中所述音頻數(shù)據(jù)是用于流應用的比特流。
21.如權利要求20所述的方法,其中所述比特流是無線電比特流。
22.如前述權利要求中任一項所述的方法,進一步包括 -確定所述時間標記信息,其中所述時間標記信息來自于 -提取算法或服務, -外部數(shù)據(jù)庫,或 _手動輸入。
23.如前述權利要求中任一項所述的方法,其中所述時間標記信息被編碼在元數(shù)據(jù)容器中。
24.如前述權利要求中任一項所述的方法,其中所述時間標記信息被編碼在如下容器中 -ID3容器或擴展ID3容器, -MPEG-I或-2層的I、II或III音頻數(shù)據(jù)的輔助數(shù)據(jù)容器, -MPEG-2或-4AAC音頻數(shù)據(jù)的擴展有效載荷容器,或 -MPEG-4部分12兼容的元數(shù)據(jù)容器。
25.一種解碼音頻數(shù)據(jù)中的時間標記信息的方法,所述方法包括 -解碼在所述音頻數(shù)據(jù)中提供為音頻元數(shù)據(jù)的時間標記信息,所述時間標記信息指示所述音頻數(shù)據(jù)中編碼的音頻對象的至少一個部分。
26.如權利要求25所述的方法,其中所述音頻對象是音樂片段。
27.如權利要求25-26中任一項所述的方法,其中所述部分是所述音頻對象的特征部分。
28.如權利要求25-27中任一項所述的方法,進一步包括 -在所述部分的開端開始重放,所述開端由所述時間標記信息指示。
29.如權利要求28所述的方法,進一步包括 -在所述部分的末端停止重放,所述末端由所述時間標記信息指示;以及 -再次開始在所述部分的所述開端的重放。
30.如權利要求28-29中任一項所述的方法,其中解碼所述時間標記信息以及在各個部分的開端的重放對于多個音頻對象執(zhí)行。
31.如權利要求28-30中任一項所述的方法,其中 -所述音頻數(shù)據(jù)中多個音頻對象的時間標記信息被解碼,以及 -對于多個音頻對象,相繼地,開始在各個音頻對象的各個部分的開端的重放。
32.如權利要求31所述的方法,其中所述音頻數(shù)據(jù)和無線電信道相關。
33.如權利要求32所述的方法,其中所述方法對于多個無線電信道執(zhí)行。
34.如權利要求28-33中任一項所述的方法,其中 -使用和多個無線電信道相關的多個比特流,解碼多個比特流中的時間標記信息,以及-對多個比特流的每個,相繼地,在由各個比特流的所述時間標記信息指示的至少一個相應部分的開端開始重放。
35.如權利要求25-34中任一項所述的方法,其中所述部分用作鈴聲或警報信號。
36.如權利要求35所述的方法,其中 -所述部分被存儲在用于重放所述鈴聲或警報信號的文件中,或-指示所述部分的所述時間標記信息用于在用于重放所述鈴聲或警報信號的所述部分的開端開始重放。
37.如前述權利要求中任一項所述的方法,其中包括所述時間標記信息的所述音頻數(shù)據(jù)被存儲在文件中。
38.如前述權利要求中任一項所述的方法,其中所述音頻對象由感知編碼方法進行編碼。
39.如權利要求1-25所述的方法,其中編碼所述時間標記信息允許向前兼容。
40.一種被配置用于在音頻數(shù)據(jù)中將時間標記信息編碼為音頻元數(shù)據(jù)的編碼器,所述時間標記信息指示在所述音頻數(shù)據(jù)中編碼的音頻對象的至少一個部分。
41.一種被配置用于解碼在音頻數(shù)據(jù)中提供為音頻元數(shù)據(jù)的時間標記信息的解碼器,所述時間標記信息指示在所述音頻數(shù)據(jù)中編碼的音頻對象的至少一個部分。
42.一種包含根據(jù)權利要求41所述的解碼器的音頻播放器。
43.如權利要求42所述的音頻播放器,其中所述音頻播放器被配置用于在所述部分的開端開始重放,所述開端由所述時間標記信息指示。
44.一種音頻數(shù)據(jù),所述音頻數(shù)據(jù)包括作為音頻元數(shù)據(jù)的時間標記信息,所述時間標記信息指示所述音頻數(shù)據(jù)中編碼的音頻對象的至少一個部分。
45.一種存儲介質(zhì),所述存儲介質(zhì)包括包含音頻數(shù)據(jù)的文件,所述音頻數(shù)據(jù)包括作為音頻元數(shù)據(jù)的時間標記信息,所述時間標記信息指示所述音頻數(shù)據(jù)中編碼的音頻對象的至少一個部分。
全文摘要
本申請涉及一種在音頻數(shù)據(jù)中編碼時間標記信息的方法。根據(jù)該方法,時間標記信息被編碼為音頻數(shù)據(jù)中的音頻元數(shù)據(jù)。該時間標記信息指示音頻數(shù)據(jù)中編碼的音頻對象的至少一個部分。例如,時間標記信息可指定部分的開始位置和結束位置或僅僅開始位置。該至少一個部分可以是音頻對象的特征部分,其使得通過聆聽可即時識別。在音頻數(shù)據(jù)中編碼的該時間標記信息使得能夠即時瀏覽到音頻對象的某個部分。本申請進一步涉及用于解碼在音頻數(shù)據(jù)中編碼的時間標記信息的方法。
文檔編號G11B27/10GK102754159SQ201080047066
公開日2012年10月24日 申請日期2010年10月14日 優(yōu)先權日2009年10月19日
發(fā)明者B·雷施, J·恩德加德 申請人:杜比國際公司