本公開(kāi)涉及人工智能,尤其涉及大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著技術(shù)的進(jìn)步,大型語(yǔ)言模型在文本分類(lèi)、情感分析、問(wèn)答、文本生成等方面取得了顯著成果。雖然,當(dāng)前大語(yǔ)言模型的通用語(yǔ)言能力已經(jīng)相當(dāng)驚艷,但它在垂直業(yè)務(wù)和專(zhuān)業(yè)領(lǐng)域的專(zhuān)業(yè)化能力仍然不足。為將大語(yǔ)言模型的通用能力適配到具體的應(yīng)用領(lǐng)域,并解決llm全參數(shù)微調(diào)開(kāi)銷(xiāo)大的問(wèn)題,現(xiàn)在已經(jīng)提出了適配器微調(diào)(adapter?tuning)、前綴微調(diào)(prefix?tuning)、提示微調(diào)(prompt?tuning)和低秩微調(diào)(lora)等四種方法。
2、但是,經(jīng)過(guò)上述微調(diào)方法后的大語(yǔ)言模型雖然提升了在垂直業(yè)務(wù)和專(zhuān)業(yè)領(lǐng)域的專(zhuān)業(yè)化能力,但是,它僅能對(duì)輸入信息進(jìn)行單維度的分析處理,從而使得輸出結(jié)果的準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問(wèn)題,本公開(kāi)提供了大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
2、第一方面,本發(fā)明提供了一種大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法,包括:
3、加載預(yù)訓(xùn)練的大語(yǔ)言模型,大語(yǔ)言模型包括植入混合微調(diào)組件的編碼器和植入混合微調(diào)組件的解碼器;獲取訓(xùn)練數(shù)據(jù)和專(zhuān)家經(jīng)驗(yàn)函數(shù),專(zhuān)家經(jīng)驗(yàn)函數(shù)根據(jù)多個(gè)分類(lèi)函數(shù)和每一分類(lèi)函數(shù)對(duì)應(yīng)的權(quán)重構(gòu)建而成;構(gòu)建模板引擎,并利用模板引擎對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行序列化處理,得到訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本單元序列;構(gòu)建經(jīng)驗(yàn)總結(jié)器和目標(biāo)函數(shù),通過(guò)目標(biāo)函數(shù)實(shí)現(xiàn)經(jīng)驗(yàn)總結(jié)器對(duì)專(zhuān)家經(jīng)驗(yàn)的蒸餾學(xué)習(xí),并利用文本單元序列和預(yù)構(gòu)建的第一損失函數(shù)對(duì)經(jīng)驗(yàn)總結(jié)器中的微調(diào)參數(shù)進(jìn)行優(yōu)化,將優(yōu)化后的微調(diào)參數(shù)更新至編碼器中,得到優(yōu)化編碼器;利用預(yù)構(gòu)建的第二損失函數(shù)和文本單元序列對(duì)解碼器進(jìn)行模板式對(duì)齊訓(xùn)練,以對(duì)解碼器中的微調(diào)參數(shù)進(jìn)行優(yōu)化,得到優(yōu)化解碼器;利用預(yù)構(gòu)建的第三損失函數(shù)和文本單元序列對(duì)由優(yōu)化編碼器和優(yōu)化解碼器組成的大語(yǔ)言模型進(jìn)行聯(lián)合對(duì)齊訓(xùn)練,以對(duì)優(yōu)化編碼器中的微調(diào)參數(shù)進(jìn)行優(yōu)化,得到目標(biāo)大語(yǔ)言模型。
4、本公開(kāi)實(shí)施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn):
5、本實(shí)施例提供的大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法,在加載預(yù)訓(xùn)練的大語(yǔ)言模型,獲取訓(xùn)練數(shù)據(jù)和專(zhuān)家經(jīng)驗(yàn)函數(shù),構(gòu)建模板引擎、經(jīng)驗(yàn)總結(jié)器和目標(biāo)函數(shù)之后,首先通過(guò)目標(biāo)函數(shù)實(shí)現(xiàn)了經(jīng)驗(yàn)總結(jié)器對(duì)專(zhuān)家經(jīng)驗(yàn)的蒸餾學(xué)習(xí),利用文本單元序列和第一損失函數(shù)對(duì)經(jīng)驗(yàn)總結(jié)器中的微調(diào)參數(shù)進(jìn)行優(yōu)化,將優(yōu)化后微調(diào)參數(shù)更新至編碼器中得到優(yōu)化編碼器;然后利用第二損失函數(shù)和文本單元序列對(duì)解碼器進(jìn)行模板式對(duì)齊訓(xùn)練,從而實(shí)現(xiàn)對(duì)解碼器微調(diào)參數(shù)的優(yōu)化,得到優(yōu)化解碼器;最后,利用第三損失函數(shù)和文本單元序列對(duì)由優(yōu)化編碼器和優(yōu)化解碼器組成的大語(yǔ)言模型進(jìn)行聯(lián)合對(duì)齊訓(xùn)練,得到目標(biāo)大語(yǔ)言模型;在本方案中,優(yōu)化編碼器是經(jīng)驗(yàn)總結(jié)器對(duì)專(zhuān)家經(jīng)驗(yàn)函數(shù)進(jìn)行蒸餾學(xué)習(xí)后得到的,首先通過(guò)蒸餾能夠?qū)W到專(zhuān)家經(jīng)驗(yàn)函數(shù)的決策邊界和高級(jí)特征表示,使得優(yōu)化編碼器即使在訓(xùn)練數(shù)據(jù)有限的情況下也能展現(xiàn)出較好的泛化能力,其次,通過(guò)對(duì)輸入信息進(jìn)行多維度的分析處理,使具備該優(yōu)化編碼器的大語(yǔ)言模型可以學(xué)習(xí)到不同用戶(hù)或場(chǎng)景的特定需求,為用戶(hù)提供更加個(gè)性化和定制化的服務(wù),也可以使模型更加魯棒,適應(yīng)更多樣化的場(chǎng)景;除此之外,通過(guò)對(duì)大語(yǔ)言模型的聯(lián)合訓(xùn)練可以使最終得到的目標(biāo)大語(yǔ)言模型具備更高的準(zhǔn)確性。
6、第二方面,本發(fā)明提供了一種大語(yǔ)言模型的知識(shí)蒸餾微調(diào)裝置,包括:
7、加載模塊,用于加載預(yù)訓(xùn)練的大語(yǔ)言模型,大語(yǔ)言模型包括植入混合微調(diào)組件的編碼器和植入混合微調(diào)組件的解碼器;獲取模塊,用于獲取訓(xùn)練數(shù)據(jù)和專(zhuān)家經(jīng)驗(yàn)函數(shù),專(zhuān)家經(jīng)驗(yàn)函數(shù)根據(jù)多個(gè)分類(lèi)函數(shù)和每一分類(lèi)函數(shù)對(duì)應(yīng)的權(quán)重構(gòu)建而成;第一構(gòu)建模塊,用于構(gòu)建模板引擎,并利用模板引擎對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行序列化處理,得到訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本單元序列;第二構(gòu)建模塊,用于構(gòu)建經(jīng)驗(yàn)總結(jié)器和目標(biāo)函數(shù),通過(guò)目標(biāo)函數(shù)實(shí)現(xiàn)經(jīng)驗(yàn)總結(jié)器對(duì)專(zhuān)家經(jīng)驗(yàn)的蒸餾學(xué)習(xí),并利用文本單元序列和預(yù)構(gòu)建的第一損失函數(shù)對(duì)經(jīng)驗(yàn)總結(jié)器中的微調(diào)參數(shù)進(jìn)行優(yōu)化,將優(yōu)化后的微調(diào)參數(shù)更新至編碼器中,得到優(yōu)化編碼器;對(duì)齊訓(xùn)練模塊,用于利用預(yù)構(gòu)建的第二損失函數(shù)和文本單元序列對(duì)解碼器進(jìn)行模板式對(duì)齊訓(xùn)練,以對(duì)解碼器中的微調(diào)參數(shù)進(jìn)行優(yōu)化,得到優(yōu)化解碼器;聯(lián)合訓(xùn)練模塊,用于利用預(yù)構(gòu)建的第三損失函數(shù)和文本單元序列對(duì)由優(yōu)化編碼器和優(yōu)化解碼器組成的大語(yǔ)言模型進(jìn)行聯(lián)合對(duì)齊訓(xùn)練,以對(duì)優(yōu)化編碼器中的微調(diào)參數(shù)進(jìn)行優(yōu)化,得到目標(biāo)大語(yǔ)言模型。
8、第三方面,本發(fā)明提供了一種計(jì)算機(jī)設(shè)備,包括:
9、存儲(chǔ)器和處理器,存儲(chǔ)器和處理器之間互相通信連接,存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)指令,處理器通過(guò)執(zhí)行計(jì)算機(jī)指令,從而執(zhí)行
技術(shù)實(shí)現(xiàn)要素:
第一方面及其任一實(shí)施方式的大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法。
10、第四方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)指令,計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行發(fā)明內(nèi)容第一方面及其任一實(shí)施方式的大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法。
1.一種大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法,其特征在于,所述編碼器由依次設(shè)置的低秩微調(diào)機(jī)制、多頭注意力機(jī)制和適配器微調(diào)機(jī)制組成。
3.根據(jù)權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法,其特征在于,所述目標(biāo)函數(shù)如下:
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法,其特征在于,所述利用所述文本單元序列和預(yù)構(gòu)建的第一損失函數(shù)對(duì)所述經(jīng)驗(yàn)總結(jié)器中的微調(diào)參數(shù)進(jìn)行優(yōu)化,包括:
5.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法,其特征在于,所述利用預(yù)構(gòu)建的第二損失函數(shù)和所述文本單元序列對(duì)所述解碼器進(jìn)行模板式對(duì)齊訓(xùn)練,以對(duì)所述解碼器中的微調(diào)參數(shù)進(jìn)行優(yōu)化,包括:
6.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法,其特征在于,所述利用預(yù)構(gòu)建的第三損失函數(shù)和所述文本單元序列對(duì)由所述優(yōu)化編碼器和所述優(yōu)化解碼器組成的大語(yǔ)言模型進(jìn)行聯(lián)合對(duì)齊訓(xùn)練,以對(duì)所述優(yōu)化編碼器中的微調(diào)參數(shù)進(jìn)行優(yōu)化,包括:
7.一種大語(yǔ)言模型的知識(shí)蒸餾微調(diào)裝置,其特征在于,包括:
8.根據(jù)權(quán)利要求7所述的大語(yǔ)言模型的知識(shí)蒸餾微調(diào)裝置,其特征在于,在所述加載模塊中,所述編碼器由依次設(shè)置的低秩微調(diào)機(jī)制、多頭注意力機(jī)制和適配器微調(diào)機(jī)制組成。
9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行權(quán)利要求1至6中任一項(xiàng)所述的大語(yǔ)言模型的知識(shí)蒸餾微調(diào)方法。