亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法

文檔序號:39727900發(fā)布日期:2024-10-22 13:30閱讀:57來源:國知局
面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法

本發(fā)明屬于預(yù)訓(xùn)練語言模型微調(diào)領(lǐng)域,具體涉及一種面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法。


背景技術(shù):

1、近年來,預(yù)訓(xùn)練語言模型已席卷人工智能的各個領(lǐng)域,并取得了巨大成功。預(yù)訓(xùn)練語言模型適應(yīng)下游任務(wù)的主流范式是微調(diào)。由于大多數(shù)預(yù)訓(xùn)練語言模型如t5、gpt3都有大量的參數(shù),因此對它們進(jìn)行微調(diào)通常是昂貴且耗時的,并且存儲它們會占用大量空間,并且微調(diào)過程中存在大量冗余參數(shù)。因此,有必要在不影響預(yù)訓(xùn)練語言模型在下游任務(wù)中的性能的情況下,減少微調(diào)中的參數(shù)規(guī)模。

2、現(xiàn)有的預(yù)訓(xùn)練語言模型參數(shù)高效型微調(diào)主要包括三類方法,具體為適配器微調(diào)、前綴微調(diào)和提示符微調(diào)。適配器微調(diào)是將一個小型神經(jīng)網(wǎng)絡(luò)模塊插入預(yù)訓(xùn)練語言模型的每一層或某些層中進(jìn)行微調(diào)的方法,在微調(diào)過程中,只需要學(xué)習(xí)這個小模塊的參數(shù)。前綴微調(diào)和提示符微調(diào)是在輸入或隱藏層中預(yù)設(shè)了額外的可調(diào)整前綴標(biāo)記,在下游任務(wù)的微調(diào)過程中僅訓(xùn)練這些軟提示。但是這些的參數(shù)高效型微調(diào)依舊需要眾多的參數(shù),參數(shù)效率仍有改進(jìn)的空間。


技術(shù)實現(xiàn)思路

1、本發(fā)明是為了解決上述問題而進(jìn)行的,目的在于提供一種面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法。

2、本發(fā)明提供了一種面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法,用于通過訓(xùn)練數(shù)據(jù)集和適配器對給定下游任務(wù)的預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),將待分類數(shù)據(jù)輸入微調(diào)好的所述預(yù)訓(xùn)練語言模型得到分類結(jié)果,具有這樣的特征,包括以下步驟:步驟s1,將預(yù)訓(xùn)練語言模型中除分類器模塊外的其他參數(shù)進(jìn)行凍結(jié);步驟s2,將訓(xùn)練數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型,根據(jù)給定下游任務(wù)對分類器模塊進(jìn)行反向傳播和梯度更新,得到訓(xùn)練好的分類器模塊;步驟s3,在預(yù)訓(xùn)練語言模型的每層自注意力的后面分別插入適配器;步驟s4,將預(yù)訓(xùn)練語言模型的各個適配器和歸一化模塊解凍,并將預(yù)訓(xùn)練語言模型的訓(xùn)練好的分類器模塊和其他參數(shù)凍結(jié);步驟s5,將訓(xùn)練數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型,根據(jù)給定下游任務(wù)對各個適配器和歸一化模塊進(jìn)行微調(diào),得到微調(diào)好的預(yù)訓(xùn)練語言模型;步驟s6,將待分類數(shù)據(jù)輸入預(yù)訓(xùn)練語言模型得到分類結(jié)果,其中,各個自注意力對應(yīng)的適配器具有不同的參數(shù),適配器的參數(shù)包括權(quán)重向量和偏置向量。

3、在本發(fā)明提供的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法中,還可以具有這樣的特征:其中,適配器對對應(yīng)的自注意力的輸出結(jié)果的處理過程為:適配器將輸入的輸出結(jié)果與權(quán)重向量按位相乘,相乘后的乘積與偏置向量按位相加,得到更新后自注意力輸出結(jié)果,適配器輸出更新后自注意力輸出結(jié)果。

4、在本發(fā)明提供的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法中,還可以具有這樣的特征:其中,權(quán)重向量和偏置向量均為一維向量,權(quán)重向量和偏置向量的形狀與預(yù)訓(xùn)練語言模型的隱藏層大小相同。

5、在本發(fā)明提供的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法中,還可以具有這樣的特征:其中,在適配器微調(diào)前,對所有適配器的權(quán)重向量和偏置向量進(jìn)行初始化,初始化后相當(dāng)于在每層自注意力的后面未插入適配器。

6、在本發(fā)明提供的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法中,還可以具有這樣的特征:其中,權(quán)重向量初始化為1.0,偏置向量初始化為0.0。

7、發(fā)明的作用與效果

8、根據(jù)本發(fā)明所涉及的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法,因為通過在多頭注意力后插入對輸出結(jié)果逐元素進(jìn)行線性變換的適配器,能夠減少微調(diào)的參數(shù)數(shù)量,所以,本發(fā)明的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法能夠提高預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)效率。



技術(shù)特征:

1.一種面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法,用于通過訓(xùn)練數(shù)據(jù)集和適配器對分類任務(wù)的預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),將待分類數(shù)據(jù)輸入微調(diào)好的所述預(yù)訓(xùn)練語言模型得到分類結(jié)果,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法,其特征在于:

3.根據(jù)權(quán)利要求1所述的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法,其特征在于:

4.根據(jù)權(quán)利要求1所述的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法,其特征在于:

5.根據(jù)權(quán)利要求4所述的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法,其特征在于:


技術(shù)總結(jié)
本發(fā)明提供了一種面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法,具有這樣的特征,包括以下步驟:步驟S1,將預(yù)訓(xùn)練語言模型中除分類器模塊外的其他參數(shù)進(jìn)行凍結(jié);步驟S2,根據(jù)訓(xùn)練數(shù)據(jù)集和給定下游任務(wù)對分類器模塊進(jìn)行反向傳播和梯度更新,得到訓(xùn)練好的分類器模塊;步驟S3,在預(yù)訓(xùn)練語言模型的每層自注意力的后面分別插入適配器;步驟S4,將預(yù)訓(xùn)練語言模型的各個適配器和歸一化模塊解凍,并將其他參數(shù)凍結(jié);步驟S5,根據(jù)訓(xùn)練數(shù)據(jù)集對各個適配器和歸一化模塊進(jìn)行微調(diào),得到微調(diào)好的預(yù)訓(xùn)練語言模型;步驟S6,將待分類數(shù)據(jù)輸入預(yù)訓(xùn)練語言模型得到分類結(jié)果。總之,本方法能夠提高預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)效率。

技術(shù)研發(fā)人員:陳昱妍,李直旭,肖仰華,樊哿
受保護(hù)的技術(shù)使用者:復(fù)旦大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1