用于生成文本的神經(jīng)網(wǎng)絡(luò)的制作方法

文檔序號：39726218發(fā)布日期：2024-10-22 13:25閱讀：11來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

至少一個實(shí)施例涉及使用諸如語音識別任務(wù)的持續(xù)時間的處理。例如，至少一個實(shí)施例涉及用于使用一個或更多個神經(jīng)網(wǎng)絡(luò)至少部分地基于一個或更多個預(yù)測的符號和持續(xù)時間來生成文本的處理器或計(jì)算設(shè)備。在至少一個實(shí)施例中，一種處理器包括一個或更多個電路，該一個或更多個電路用于使用一個或更多個神經(jīng)網(wǎng)絡(luò)以至少部分地基于包含音頻信息的僅音頻幀來生成文本。

背景技術(shù)：

1、使用神經(jīng)網(wǎng)絡(luò)來處理音頻信號的每個幀會使用大量的存儲器、時間或計(jì)算資源。例如，神經(jīng)網(wǎng)絡(luò)可以接收5秒的音頻記錄并使用10毫秒的幀速率，結(jié)果是500個幀作為神經(jīng)網(wǎng)絡(luò)的輸入，其中這500個幀用于推理文本。作為另一示例，神經(jīng)網(wǎng)絡(luò)可接收5秒的音頻記錄并使用1毫秒的幀速率，結(jié)果是5000個幀作為神經(jīng)網(wǎng)絡(luò)的輸入，其中這5000個幀用于推理文本。因?yàn)樯窠?jīng)網(wǎng)絡(luò)在處理音頻信號時會使用音頻信號的每個幀，所以處理時間、存儲器和計(jì)算資源可能是大量的。因此，可以改善用于利用神經(jīng)網(wǎng)絡(luò)處理音頻信號的存儲器、時間或計(jì)算資源的量。

技術(shù)實(shí)現(xiàn)思路

技術(shù)特征：

1.一種處理器，包括：

2.如權(quán)利要求1所述的處理器，其中所述音頻信息包括一個或更多個符號以及所述一個或更多個符號的持續(xù)時間。

3.如權(quán)利要求1所述的處理器，其中所述音頻信息包括一個或更多個符號，并且所述一個或更多個符號是空白的或者不是空白的。

4.如權(quán)利要求1所述的處理器，其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)用于使用用于預(yù)測在推理時要跳過的一個或更多個幀的預(yù)測的持續(xù)時間和先前預(yù)測的文本來生成文本。

5.如權(quán)利要求1所述的處理器，其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括變換器神經(jīng)網(wǎng)絡(luò)，所述變換器神經(jīng)網(wǎng)絡(luò)用于預(yù)測在推理時要跳過的幀的數(shù)量。

6.如權(quán)利要求1所述的處理器，其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括變換器神經(jīng)網(wǎng)絡(luò)，所述變換器神經(jīng)網(wǎng)絡(luò)用于生成從一個或更多個音頻幀生成具有持續(xù)時間的詞元的聯(lián)合概率。

7.如權(quán)利要求1所述的處理器，其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括一個或更多個解碼器、編碼器和用于生成預(yù)測的持續(xù)時間的聯(lián)合網(wǎng)絡(luò)層。

8.一種系統(tǒng)，包括：

9.如權(quán)利要求8所述的系統(tǒng)，其中所述音頻信息包括一個或更多個符號以及所述一個或更多個符號的持續(xù)時間。

10.如權(quán)利要求8所述的系統(tǒng)，其中所述音頻信息包括一個或更多個符號，并且所述一個或更多個符號是空白的或者不是空白的。

11.如權(quán)利要求8所述的系統(tǒng)，其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)用于使用用于預(yù)測在推理時要跳過的一個或更多個幀的預(yù)測的持續(xù)時間和先前預(yù)測的文本來生成文本。

12.如權(quán)利要求8所述的系統(tǒng)，其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括變換器神經(jīng)網(wǎng)絡(luò)，所述變換器神經(jīng)網(wǎng)絡(luò)用于預(yù)測在推理時要跳過的幀的數(shù)量。

13.如權(quán)利要求8所述的系統(tǒng)，其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括變換器神經(jīng)網(wǎng)絡(luò)，所述變換器神經(jīng)網(wǎng)絡(luò)用于生成從一個或更多個音頻幀生成具有持續(xù)時間的詞元的聯(lián)合概率。

14.如權(quán)利要求8所述的系統(tǒng)，其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括一個或更多個解碼器、編碼器和用于生成預(yù)測的持續(xù)時間的聯(lián)合網(wǎng)絡(luò)層。

15.一種方法，包括：

16.如權(quán)利要求15所述的方法，其中所述音頻信息包括一個或更多個符號以及所述一個或更多個符號的持續(xù)時間。

17.如權(quán)利要求15所述的方法，其中所述音頻信息包括一個或更多個符號，并且所述一個或更多個符號是空白的或者不是空白的。

18.如權(quán)利要求15所述的方法，進(jìn)一步包括：使用用于預(yù)測在推理時要跳過的一個或更多個幀的預(yù)測的持續(xù)時間和先前預(yù)測的文本來生成文本。

19.如權(quán)利要求15所述的方法，其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括變換器神經(jīng)網(wǎng)絡(luò)，所述變換器神經(jīng)網(wǎng)絡(luò)用于預(yù)測在推理時要跳過的幀的數(shù)量。

20.如權(quán)利要求15所述的方法，其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括一個或更多個解碼器、編碼器和用于生成預(yù)測的持續(xù)時間的聯(lián)合網(wǎng)絡(luò)層。

技術(shù)總結(jié)
本發(fā)明公開了用于生成文本的神經(jīng)網(wǎng)絡(luò)，具體公開了用于從音頻生成文本的裝置、系統(tǒng)和技術(shù)。在至少一個實(shí)施例中，一種包括電路的處理器使用一個或更多個神經(jīng)網(wǎng)絡(luò)以至少部分地基于包括音頻信息的音頻幀來生成文本。在至少一個實(shí)施例中，一種包括電路的處理器使用一個或更多個神經(jīng)網(wǎng)絡(luò)以至少部分地基于包括音頻信息的僅音頻幀來生成文本。

技術(shù)研發(fā)人員：許海南,B·金斯伯格
受保護(hù)的技術(shù)使用者：輝達(dá)公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許海南,B·金斯伯格
技術(shù)所有人：輝達(dá)公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于生成文本的神經(jīng)網(wǎng)絡(luò)的制作方法