本申請(qǐng)涉及大語(yǔ)言模型,特別涉及一種大語(yǔ)言模型的壓縮監(jiān)督方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、在模型壓縮技術(shù)的領(lǐng)域,校準(zhǔn)數(shù)據(jù)集扮演著至關(guān)重要的角色。在注意力剪枝領(lǐng)域,通過(guò)統(tǒng)計(jì)模型在校準(zhǔn)數(shù)據(jù)集上的注意力值和梯度信息,就能夠精確地識(shí)別出那些對(duì)模型性能影響最小的注意力,從而在保證模型性能不顯著下降的前提下,實(shí)現(xiàn)高效的注意力削減。
2、現(xiàn)有的校準(zhǔn)數(shù)據(jù)集直接使用人工編寫(xiě)的通用語(yǔ)言建模數(shù)據(jù)集,例如redpajama。這種缺乏長(zhǎng)上下文依賴(lài),無(wú)法有效處理長(zhǎng)程檢索等需要全局注意力的任務(wù)。同時(shí)因?yàn)槭褂萌斯ろ憫?yīng)進(jìn)行監(jiān)督,注意力影響的描述可能不準(zhǔn)確,導(dǎo)致模型性能下降。具體來(lái)說(shuō),一般的通用語(yǔ)言建模數(shù)據(jù)集中,為了預(yù)測(cè)下一詞,其往往只需要用到前面的幾個(gè)詞或幾個(gè)句子,而不需要用到遠(yuǎn)距離的上下文信息。這種性質(zhì)導(dǎo)致得到的注意力矩陣重要性也僅僅捕捉了附近詞之間的影響,而沒(méi)有考慮遠(yuǎn)距離的語(yǔ)言信息。
3、此外,大型語(yǔ)言模型的響應(yīng)可能與人工編寫(xiě)的監(jiān)督不一致。因此,使用人工響應(yīng)來(lái)計(jì)算注意力值和梯度時(shí),可能會(huì)導(dǎo)致注意力影響的描述不準(zhǔn)確。例如,對(duì)于同一個(gè)問(wèn)題,人類(lèi)可能回答“藍(lán)色”,而模型可能生成“顏色藍(lán)”。使用人類(lèi)答案進(jìn)行監(jiān)督,注意力敏感性基于預(yù)測(cè)“藍(lán)色”的概率偏移進(jìn)行量化,這與保持模型原始預(yù)測(cè)“顏色”的重要注意力目標(biāo)背道而馳。這些不一致還會(huì)來(lái)自于同義詞、語(yǔ)調(diào)和隨機(jī)性等等。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┮环N大語(yǔ)言模型的壓縮監(jiān)督方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品,以解決相關(guān)技術(shù)中模型壓縮的校準(zhǔn)數(shù)據(jù)集直接使用人工編寫(xiě)的通用語(yǔ)言建模數(shù)據(jù),且直接使用人工響應(yīng)進(jìn)行監(jiān)督,導(dǎo)致模型壓縮的性能下降,準(zhǔn)確性較低等問(wèn)題。
2、本申請(qǐng)第一方面實(shí)施例提供一種大語(yǔ)言模型的壓縮監(jiān)督方法,包括以下步驟:獲取文本數(shù)據(jù),其中,文本數(shù)據(jù)為包括多個(gè)字符或句子的文本數(shù)據(jù);將文本數(shù)據(jù)輸入大語(yǔ)言模型,大語(yǔ)言模型輸出回答數(shù)據(jù);根據(jù)文本數(shù)據(jù)和回答數(shù)據(jù)生成監(jiān)督數(shù)據(jù)集,基于監(jiān)督數(shù)據(jù)集對(duì)大語(yǔ)言模型進(jìn)行模型壓縮,并基于回答數(shù)據(jù)監(jiān)督大語(yǔ)言模型的模型壓縮過(guò)程,以得到與大語(yǔ)言模型對(duì)應(yīng)的目標(biāo)壓縮模型。
3、可選地,基于回答數(shù)據(jù)監(jiān)督大語(yǔ)言模型的模型壓縮過(guò)程,包括:獲取大語(yǔ)言模型的壓縮模型的預(yù)測(cè)數(shù)據(jù);根據(jù)回答數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)計(jì)算壓縮模型的預(yù)測(cè)損失;根據(jù)預(yù)測(cè)損失優(yōu)化大語(yǔ)言模型的壓縮模型,得到目標(biāo)壓縮模型。
4、可選地,文本數(shù)據(jù)包括文檔類(lèi)型的數(shù)據(jù)和問(wèn)題類(lèi)型的數(shù)據(jù)的至少一個(gè)。
5、可選地,若文本數(shù)據(jù)為文檔類(lèi)型的數(shù)據(jù),則回答數(shù)據(jù)包括每個(gè)文檔的摘要。
6、可選地,若文本數(shù)據(jù)為問(wèn)題類(lèi)型的數(shù)據(jù),則回答數(shù)據(jù)包括問(wèn)題的回答。
7、可選地,文本數(shù)據(jù)為人工編寫(xiě)的文本數(shù)據(jù)或任意模型生成的文本數(shù)據(jù)。
8、本申請(qǐng)第二方面實(shí)施例提供一種大語(yǔ)言模型的壓縮監(jiān)督裝置,包括:獲取模塊,用于獲取文本數(shù)據(jù),其中,文本數(shù)據(jù)為包括多個(gè)字符或句子的文本數(shù)據(jù);輸入模塊,用于將文本數(shù)據(jù)輸入大語(yǔ)言模型,大語(yǔ)言模型輸出回答數(shù)據(jù);壓縮模塊,用于根據(jù)文本數(shù)據(jù)和回答數(shù)據(jù)生成監(jiān)督數(shù)據(jù)集,基于監(jiān)督數(shù)據(jù)集對(duì)大語(yǔ)言模型進(jìn)行模型壓縮,并基于回答數(shù)據(jù)監(jiān)督大語(yǔ)言模型的模型壓縮過(guò)程,以得到與大語(yǔ)言模型對(duì)應(yīng)的目標(biāo)壓縮模型。
9、可選地,壓縮模塊進(jìn)一步用于:獲取大語(yǔ)言模型的壓縮模型的預(yù)測(cè)數(shù)據(jù);根據(jù)回答數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)計(jì)算壓縮模型的預(yù)測(cè)損失;根據(jù)預(yù)測(cè)損失優(yōu)化大語(yǔ)言模型的壓縮模型,得到目標(biāo)壓縮模型。
10、可選地,文本數(shù)據(jù)包括文檔類(lèi)型的數(shù)據(jù)和問(wèn)題類(lèi)型的數(shù)據(jù)的至少一個(gè)。
11、可選地,若文本數(shù)據(jù)為文檔類(lèi)型的數(shù)據(jù),則回答數(shù)據(jù)包括每個(gè)文檔的摘要。
12、可選地,若文本數(shù)據(jù)為問(wèn)題類(lèi)型的數(shù)據(jù),則回答數(shù)據(jù)包括問(wèn)題的回答。
13、可選地,文本數(shù)據(jù)為人工編寫(xiě)的文本數(shù)據(jù)或任意模型生成的文本數(shù)據(jù)。
14、本申請(qǐng)第三方面實(shí)施例提供一種電子設(shè)備,包括:存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行程序,以實(shí)現(xiàn)如上述實(shí)施例的大語(yǔ)言模型的壓縮監(jiān)督方法。
15、本申請(qǐng)第四方面實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí),以用于實(shí)現(xiàn)如上述實(shí)施例的大語(yǔ)言模型的壓縮監(jiān)督方法。
16、本申請(qǐng)第五方面實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被執(zhí)行時(shí),以用于實(shí)現(xiàn)如上述實(shí)施例的大語(yǔ)言模型的壓縮監(jiān)督方法。
17、由此,本申請(qǐng)包括如下有益效果:
18、本申請(qǐng)實(shí)施例可以基于文本數(shù)據(jù)和大語(yǔ)言模型輸出的回答數(shù)據(jù)生成監(jiān)督數(shù)據(jù)集,利用監(jiān)督數(shù)據(jù)集對(duì)大語(yǔ)言模型進(jìn)行模型壓縮,提高了壓縮后的大語(yǔ)言模型和壓縮前的大語(yǔ)言模型回答的一致性,并只基于回答數(shù)據(jù)監(jiān)督大語(yǔ)言的模型壓縮過(guò)程,避免使用人工編寫(xiě)的答案而造成的描述不準(zhǔn)確,提高了模型壓縮的準(zhǔn)確性和效率。由此,解決了相關(guān)技術(shù)中模型壓縮的校準(zhǔn)數(shù)據(jù)集直接使用人工編寫(xiě)的通用語(yǔ)言建模數(shù)據(jù),且直接使用人工響應(yīng)進(jìn)行監(jiān)督,導(dǎo)致模型壓縮的性能下降,準(zhǔn)確性較低等技術(shù)問(wèn)題。
19、本申請(qǐng)附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本申請(qǐng)的實(shí)踐了解到。
1.一種大語(yǔ)言模型的壓縮監(jiān)督方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的大語(yǔ)言模型的壓縮監(jiān)督方法,其特征在于,所述基于所述回答數(shù)據(jù)監(jiān)督大語(yǔ)言模型的模型壓縮過(guò)程,包括:
3.根據(jù)權(quán)利要求1或2所述的大語(yǔ)言模型的壓縮監(jiān)督方法,其特征在于,所述文本數(shù)據(jù)包括文檔類(lèi)型的數(shù)據(jù)和問(wèn)題類(lèi)型的數(shù)據(jù)的至少一個(gè)。
4.根據(jù)權(quán)利要求3所述的大語(yǔ)言模型的壓縮監(jiān)督方法,其特征在于,若所述文本數(shù)據(jù)為文檔類(lèi)型的數(shù)據(jù),則所述回答數(shù)據(jù)包括每個(gè)文檔的摘要。
5.根據(jù)權(quán)利要求3所述的大語(yǔ)言模型的壓縮監(jiān)督方法,其特征在于,若所述文本數(shù)據(jù)為所述問(wèn)題類(lèi)型的數(shù)據(jù),則所述回答數(shù)據(jù)包括問(wèn)題的回答。
6.根據(jù)權(quán)利要求1所述的大語(yǔ)言模型的壓縮監(jiān)督方法,其特征在于,所述文本數(shù)據(jù)為人工編寫(xiě)的文本數(shù)據(jù)或任意模型生成的文本數(shù)據(jù)。
7.一種大語(yǔ)言模型的壓縮監(jiān)督裝置,其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序,以實(shí)現(xiàn)權(quán)利要求1-6任一項(xiàng)所述的大語(yǔ)言模型的壓縮監(jiān)督方法。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序或指令,其特征在于,所述計(jì)算機(jī)程序或指令被執(zhí)行時(shí),以實(shí)現(xiàn)權(quán)利要求1-6任一項(xiàng)所述的大語(yǔ)言模型的壓縮監(jiān)督方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,其特征在于,所述計(jì)算機(jī)程序或指令被執(zhí)行時(shí),以實(shí)現(xiàn)權(quán)利要求1-6任一項(xiàng)所述的大語(yǔ)言模型的壓縮監(jiān)督方法。