本技術涉及處理音頻數(shù)據(jù)。例如,描述了用于使用基于機器學習的音頻表示(例如,嵌入向量)來將輸入音頻與所存儲的音頻進行匹配并且基于匹配的結果來執(zhí)行一個或多個功能的系統(tǒng)和技術。
背景技術:
1、諸如智能電話、平板計算機、可穿戴電子設備、智能tv等的電子設備在消費者中變得越來越流行。這些設備可通過無線或有線網(wǎng)絡提供音頻(例如,語音或言語、音樂等)和/或數(shù)據(jù)通信功能性。此外,此類電子設備可包括提供經(jīng)設計以增強用戶便利性的多種功能的其他特征。數(shù)字音頻包括大量數(shù)據(jù)以滿足消費者和音頻提供者的需求。
2、言語是音頻的一個示例。言語應用可依賴于能夠使用言語模型來有效地對言語進行建模。言語模型可由諸如言語譯碼、語音轉換、關鍵詞定位、言語質(zhì)量評估等的應用使用。這些系統(tǒng)的言語質(zhì)量、低位速率和檢測能力取決于基礎模型的質(zhì)量。
技術實現(xiàn)思路
1、本文描述了用于處理音頻數(shù)據(jù)的系統(tǒng)和技術。在一些方面,本文中所描述的系統(tǒng)和技術涉及一種用于對音頻信息進行編碼的裝置,該裝置包括:至少一個存儲器;和至少一個處理器,該至少一個處理器耦合到該至少一個存儲器并且被配置為:檢測輸入音頻片段;處理該輸入音頻片段以生成該輸入音頻片段的表示;將該輸入音頻片段的該表示與存儲在該至少一個存儲器中的多個表示進行比較,該多個表示表示多個音頻片段;基于將該表示與該多個表示進行比較,從存儲在該至少一個存儲器中的該多個表示確定一個或多個目標音頻片段的一個或多個目標表示;確定與該一個或多個目標音頻片段相關聯(lián)的一個或多個索引;分組化該一個或多個索引;以及發(fā)送該分組化的一個或多個索引。
2、在一些方面,本文中所描述的系統(tǒng)和技術涉及一種用于對音頻信息進行編碼的方法,該方法包括:檢測輸入音頻片段;處理該輸入音頻片段以生成該輸入音頻片段的表示;將該輸入音頻片段的該表示與存儲在該至少一個存儲器中的多個表示進行比較,該多個表示表示多個音頻片段;基于將該表示與該多個表示進行比較,從存儲在該至少一個存儲器中的該多個表示確定一個或多個目標音頻片段的一個或多個目標表示;確定與該一個或多個目標音頻片段相關聯(lián)的一個或多個索引;分組化該一個或多個索引;以及發(fā)送該分組化的一個或多個索引。
3、在一些方面,本文中所描述的系統(tǒng)和技術涉及一種其上存儲有指令的非暫態(tài)計算機可讀介質(zhì),這些指令在由一個或多個處理器執(zhí)行時致使該一個或多個處理器:檢測輸入音頻片段;處理該輸入音頻片段以生成該輸入音頻片段的表示;將該輸入音頻片段的該表示與存儲在該至少一個存儲器中的多個表示進行比較,該多個表示表示多個音頻片段;基于將該表示與該多個表示進行比較,從存儲在該至少一個存儲器中的該多個表示確定一個或多個目標音頻片段的一個或多個目標表示;確定與該一個或多個目標音頻片段相關聯(lián)的一個或多個索引;分組化該一個或多個索引;以及發(fā)送該分組化的一個或多個索引。
4、在一些方面,本文中所描述的系統(tǒng)和技術涉及一種用于對音頻信息進行編碼的裝置。該裝置包括:用于檢測輸入音頻片段的部件;用于處理該輸入音頻片段以生成該輸入音頻片段的表示的部件;用于將該輸入音頻片段的該表示與存儲在該至少一個存儲器中的多個表示進行比較的部件,該多個表示表示多個音頻片段;用于基于將該表示與該多個表示進行比較,從存儲在該至少一個存儲器中的該多個表示確定一個或多個目標音頻片段的一個或多個目標表示的部件;用于確定與該一個或多個目標音頻片段相關聯(lián)的一個或多個索引的部件;用于分組化該一個或多個索引的部件;和用于發(fā)送該分組化的一個或多個索引的部件。
5、在一些方面,本文中所描述的系統(tǒng)和技術涉及一種用于對音頻信息進行解碼的裝置,該裝置包括:至少一個存儲器;和至少一個處理器,該至少一個處理器耦合到該至少一個存儲器并且被配置為:接收與一個或多個目標音頻片段相關聯(lián)的一個或多個分組化索引;將該一個或多個分組化索引解分組化以生成與該一個或多個目標音頻片段相關聯(lián)的一個或多個索引;基于該一個或多個索引從該至少一個存儲器檢索該一個或多個目標音頻片段;以及組合該一個或多個目標音頻片段以生成已解碼音頻。
6、在一些方面,本文中所描述的系統(tǒng)和技術涉及一種對音頻信息進行解碼的方法,該方法包括:接收與一個或多個目標音頻片段相關聯(lián)的一個或多個分組化索引;將該一個或多個分組化索引解分組化以生成與該一個或多個目標音頻片段相關聯(lián)的一個或多個索引;基于該一個或多個索引從至少一個存儲器檢索該一個或多個目標音頻片段;以及組合該一個或多個目標音頻片段以生成已解碼音頻。
7、在一些方面,本文中所描述的系統(tǒng)和技術涉及一種其上存儲有指令的非暫態(tài)計算機可讀介質(zhì),這些指令在由一個或多個處理器執(zhí)行時致使該一個或多個處理器:接收與一個或多個目標音頻片段相關聯(lián)的一個或多個分組化索引;將該一個或多個分組化索引解分組化以生成與該一個或多個目標音頻片段相關聯(lián)的一個或多個索引;基于該一個或多個索引從至少一個存儲器檢索該一個或多個目標音頻片段;以及組合該一個或多個目標音頻片段以生成已解碼音頻。
8、在一些方面,本文中所描述的系統(tǒng)和技術涉及一種用于對音頻信息進行解碼的裝置。該裝置包括:用于接收與一個或多個目標音頻片段相關聯(lián)的一個或多個分組化索引的部件;用于將該一個或多個分組化索引解分組化以生成與該一個或多個目標音頻片段相關聯(lián)的一個或多個索引的部件;用于基于該一個或多個索引從至少一個存儲器檢索該一個或多個目標音頻片段的部件;和用于組合該一個或多個目標音頻片段以生成已解碼音頻的部件。
9、在一些方面,本文所描述的裝置中的一者或多者是以下內(nèi)容、作為以下內(nèi)容的一部分和/或包括以下內(nèi)容:移動設備或無線通信設備(例如,移動電話或其他移動設備)、擴展現(xiàn)實(xr)設備或系統(tǒng)(例如,虛擬現(xiàn)實(vr)設備、增強現(xiàn)實(ar)設備或混合現(xiàn)實(mr)設備)、交通工具或交通工具的計算設備或組件、可穿戴設備(例如,網(wǎng)絡連接的手表或其他可穿戴設備)、相機、個人計算機、膝上型計算機、服務器計算機或服務器設備(例如,基于邊緣或云的服務器、充當服務器設備的個人計算機、諸如充當服務器設備的移動電話的移動設備、充當服務器設備的xr設備、充當服務器設備的交通工具、網(wǎng)絡路由器或充當服務器設備的其他設備)、另一設備或它們的組合。在一些方面,該裝置包括用于捕獲一個或多個圖像的一個相機或多個相機。在一些方面,該裝置還包括用于顯示一個或多個圖像、通知和/或其他可顯示數(shù)據(jù)的顯示器。在一些方面,該裝置可包括一個或多個傳感器(例如,一個或多個慣性測量單元(imu),諸如一個或多個陀螺儀、一個或多個陀螺測試儀、一個或多個加速度計、它們的任何組合和/或其他傳感器)。在一些方面,該裝置可包括被配置為接收信息或數(shù)據(jù)的接收器、被配置成發(fā)送信息或數(shù)據(jù)的發(fā)送器、和/或被配置為接收和發(fā)送信息或數(shù)據(jù)的收發(fā)器。
10、可單獨地或以任何合適的組合使用涉及方法、裝置和計算機可讀介質(zhì)中的任一者的上述方面。
11、該
技術實現(xiàn)要素:
不旨在標識所要求保護的主題的關鍵或必要特征,其也不旨在單獨用于確定所要求保護的主題的范圍。本主題應當參考本專利的整個說明書的合適部分、任何或所有附圖、以及每項權利要求來理解。
12、前述內(nèi)容以及其他特征和實施方案將在參考以下說明書、權利要求書和附圖時變得更明顯。