面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法

文檔序號：39727900發(fā)布日期：2024-10-22 13:30閱讀：57來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于預(yù)訓(xùn)練語言模型微調(diào)領(lǐng)域，具體涉及一種面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法。

背景技術(shù)：

1、近年來，預(yù)訓(xùn)練語言模型已席卷人工智能的各個領(lǐng)域，并取得了巨大成功。預(yù)訓(xùn)練語言模型適應(yīng)下游任務(wù)的主流范式是微調(diào)。由于大多數(shù)預(yù)訓(xùn)練語言模型如t5、gpt3都有大量的參數(shù)，因此對它們進(jìn)行微調(diào)通常是昂貴且耗時的，并且存儲它們會占用大量空間，并且微調(diào)過程中存在大量冗余參數(shù)。因此，有必要在不影響預(yù)訓(xùn)練語言模型在下游任務(wù)中的性能的情況下，減少微調(diào)中的參數(shù)規(guī)模。

2、現(xiàn)有的預(yù)訓(xùn)練語言模型參數(shù)高效型微調(diào)主要包括三類方法，具體為適配器微調(diào)、前綴微調(diào)和提示符微調(diào)。適配器微調(diào)是將一個小型神經(jīng)網(wǎng)絡(luò)模塊插入預(yù)訓(xùn)練語言模型的每一層或某些層中進(jìn)行微調(diào)的方法，在微調(diào)過程中，只需要學(xué)習(xí)這個小模塊的參數(shù)。前綴微調(diào)和提示符微調(diào)是在輸入或隱藏層中預(yù)設(shè)了額外的可調(diào)整前綴標(biāo)記，在下游任務(wù)的微調(diào)過程中僅訓(xùn)練這些軟提示。但是這些的參數(shù)高效型微調(diào)依舊需要眾多的參數(shù)，參數(shù)效率仍有改進(jìn)的空間。

技術(shù)實現(xiàn)思路

1、本發(fā)明是為了解決上述問題而進(jìn)行的，目的在于提供一種面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法。

2、本發(fā)明提供了一種面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法，用于通過訓(xùn)練數(shù)據(jù)集和適配器對給定下游任務(wù)的預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)，將待分類數(shù)據(jù)輸入微調(diào)好的所述預(yù)訓(xùn)練語言模型得到分類結(jié)果，具有這樣的特征，包括以下步驟：步驟s1，將預(yù)訓(xùn)練語言模型中除分類器模塊外的其他參數(shù)進(jìn)行凍結(jié)；步驟s2，將訓(xùn)練數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型，根據(jù)給定下游任務(wù)對分類器模塊進(jìn)行反向傳播和梯度更新，得到訓(xùn)練好的分類器模塊；步驟s3，在預(yù)訓(xùn)練語言模型的每層自注意力的后面分別插入適配器；步驟s4，將預(yù)訓(xùn)練語言模型的各個適配器和歸一化模塊解凍，并將預(yù)訓(xùn)練語言模型的訓(xùn)練好的分類器模塊和其他參數(shù)凍結(jié)；步驟s5，將訓(xùn)練數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型，根據(jù)給定下游任務(wù)對各個適配器和歸一化模塊進(jìn)行微調(diào)，得到微調(diào)好的預(yù)訓(xùn)練語言模型；步驟s6，將待分類數(shù)據(jù)輸入預(yù)訓(xùn)練語言模型得到分類結(jié)果，其中，各個自注意力對應(yīng)的適配器具有不同的參數(shù)，適配器的參數(shù)包括權(quán)重向量和偏置向量。

3、在本發(fā)明提供的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法中，還可以具有這樣的特征：其中，適配器對對應(yīng)的自注意力的輸出結(jié)果的處理過程為：適配器將輸入的輸出結(jié)果與權(quán)重向量按位相乘，相乘后的乘積與偏置向量按位相加，得到更新后自注意力輸出結(jié)果，適配器輸出更新后自注意力輸出結(jié)果。

4、在本發(fā)明提供的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法中，還可以具有這樣的特征：其中，權(quán)重向量和偏置向量均為一維向量，權(quán)重向量和偏置向量的形狀與預(yù)訓(xùn)練語言模型的隱藏層大小相同。

5、在本發(fā)明提供的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法中，還可以具有這樣的特征：其中，在適配器微調(diào)前，對所有適配器的權(quán)重向量和偏置向量進(jìn)行初始化，初始化后相當(dāng)于在每層自注意力的后面未插入適配器。

6、在本發(fā)明提供的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法中，還可以具有這樣的特征：其中，權(quán)重向量初始化為1.0，偏置向量初始化為0.0。

7、發(fā)明的作用與效果

8、根據(jù)本發(fā)明所涉及的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法，因為通過在多頭注意力后插入對輸出結(jié)果逐元素進(jìn)行線性變換的適配器，能夠減少微調(diào)的參數(shù)數(shù)量，所以，本發(fā)明的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法能夠提高預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)效率。

技術(shù)特征：

1.一種面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法，用于通過訓(xùn)練數(shù)據(jù)集和適配器對分類任務(wù)的預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)，將待分類數(shù)據(jù)輸入微調(diào)好的所述預(yù)訓(xùn)練語言模型得到分類結(jié)果，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法，其特征在于：

3.根據(jù)權(quán)利要求1所述的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法，其特征在于：

4.根據(jù)權(quán)利要求1所述的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法，其特征在于：

5.根據(jù)權(quán)利要求4所述的面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法，其特征在于：

技術(shù)總結(jié)
本發(fā)明提供了一種面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法，具有這樣的特征，包括以下步驟：步驟S1，將預(yù)訓(xùn)練語言模型中除分類器模塊外的其他參數(shù)進(jìn)行凍結(jié)；步驟S2，根據(jù)訓(xùn)練數(shù)據(jù)集和給定下游任務(wù)對分類器模塊進(jìn)行反向傳播和梯度更新，得到訓(xùn)練好的分類器模塊；步驟S3，在預(yù)訓(xùn)練語言模型的每層自注意力的后面分別插入適配器；步驟S4，將預(yù)訓(xùn)練語言模型的各個適配器和歸一化模塊解凍，并將其他參數(shù)凍結(jié)；步驟S5，根據(jù)訓(xùn)練數(shù)據(jù)集對各個適配器和歸一化模塊進(jìn)行微調(diào)，得到微調(diào)好的預(yù)訓(xùn)練語言模型；步驟S6，將待分類數(shù)據(jù)輸入預(yù)訓(xùn)練語言模型得到分類結(jié)果。總之，本方法能夠提高預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)效率。

技術(shù)研發(fā)人員：陳昱妍,李直旭,肖仰華,樊哿
受保護(hù)的技術(shù)使用者：復(fù)旦大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳昱妍,李直旭,肖仰華,樊哿
技術(shù)所有人：復(fù)旦大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

面向預(yù)訓(xùn)練語言模型微調(diào)的參數(shù)高效型適配器微調(diào)方法