亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法與流程

文檔序號(hào):42066911發(fā)布日期:2025-06-04 18:29閱讀:4來(lái)源:國(guó)知局

本發(fā)明涉及語(yǔ)義標(biāo)簽生成領(lǐng)域,具體為一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法。


背景技術(shù):

1、隨著大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的發(fā)展,語(yǔ)義標(biāo)簽生成在自然語(yǔ)言處理、圖像識(shí)別和視頻分析等領(lǐng)域的應(yīng)用日益廣泛。語(yǔ)義標(biāo)簽?zāi)軌驇椭?jì)算機(jī)理解數(shù)據(jù)的含義,并為后續(xù)的任務(wù)提供有價(jià)值的信息。傳統(tǒng)的語(yǔ)義標(biāo)簽生成方法依賴(lài)于大量的人工標(biāo)注數(shù)據(jù),但人工標(biāo)注成本高、時(shí)間長(zhǎng),且難以滿(mǎn)足大規(guī)模數(shù)據(jù)集的需求。為了解決這一問(wèn)題,半監(jiān)督學(xué)習(xí)方法應(yīng)運(yùn)而生。

2、半監(jiān)督學(xué)習(xí)是介于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)之間的一種學(xué)習(xí)范式,利用大量未標(biāo)注數(shù)據(jù)和少量標(biāo)注數(shù)據(jù)共同訓(xùn)練模型。它能夠在標(biāo)注數(shù)據(jù)稀缺的情況下,通過(guò)挖掘未標(biāo)注數(shù)據(jù)中的潛在結(jié)構(gòu),提升模型的泛化能力和準(zhǔn)確性?;诎氡O(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,主要通過(guò)設(shè)計(jì)能夠有效利用未標(biāo)注數(shù)據(jù)的算法,如生成對(duì)抗網(wǎng)絡(luò)、自編碼器和圖神經(jīng)網(wǎng)絡(luò)等,從而實(shí)現(xiàn)高效的標(biāo)簽生成。

3、然而,半監(jiān)督學(xué)習(xí)在語(yǔ)義標(biāo)簽生成中的應(yīng)用仍面臨一些挑戰(zhàn),例如標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)的影響。因此,設(shè)計(jì)一種提高標(biāo)簽生成的準(zhǔn)確性的基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法是很有必要的。


技術(shù)實(shí)現(xiàn)思路

1、(一)解決的技術(shù)問(wèn)題

2、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,具備提高標(biāo)簽生成的準(zhǔn)確性的優(yōu)點(diǎn),解決了上述背景技術(shù)中的問(wèn)題。

3、(二)技術(shù)方案

4、為實(shí)現(xiàn)上述提高標(biāo)簽生成的準(zhǔn)確性的目的,本發(fā)明提供如下技術(shù)方案:一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,包括以下步驟:

5、s1:收集具有標(biāo)簽的有監(jiān)督數(shù)據(jù)和無(wú)標(biāo)簽的未標(biāo)注數(shù)據(jù),對(duì)原始數(shù)據(jù)進(jìn)行去噪、去除無(wú)關(guān)信息和缺失值處理,從原始數(shù)據(jù)中提取出語(yǔ)義標(biāo)簽生成的特征;

6、優(yōu)選的,所述s1進(jìn)一步包括已知領(lǐng)域或任務(wù)中收集標(biāo)注好的數(shù)據(jù)集,在特征選擇中,去除與目標(biāo)任務(wù)無(wú)關(guān)的特征,通過(guò)插值法、均值填充或刪除缺失值樣本來(lái)處理缺失數(shù)據(jù),特征提取包括文本數(shù)據(jù)特征提取、圖像數(shù)據(jù)特征提取和音頻數(shù)據(jù)特征提取,通過(guò)算法選擇與標(biāo)簽生成相關(guān)的特征,基于已有的監(jiān)督數(shù)據(jù)訓(xùn)練初步分類(lèi)模型,對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)測(cè),生成初步標(biāo)簽。

7、s2:利用標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)監(jiān)督學(xué)習(xí)模型,使用訓(xùn)練好的模型對(duì)無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)測(cè),生成初步的標(biāo)簽;

8、優(yōu)選的,所述s2進(jìn)一步包括對(duì)于每個(gè)無(wú)標(biāo)簽樣本,模型會(huì)輸出一個(gè)類(lèi)別的預(yù)測(cè)概率,設(shè)定一個(gè)置信度閾值,選擇高置信度預(yù)測(cè)作為偽標(biāo)簽,低置信度的預(yù)測(cè),需要丟棄或重新評(píng)估,在生成的偽標(biāo)簽中,檢查與現(xiàn)有標(biāo)簽數(shù)據(jù)的標(biāo)簽一致性,計(jì)算已標(biāo)注數(shù)據(jù)與偽標(biāo)簽的相似性,來(lái)評(píng)估標(biāo)簽質(zhì)量,將生成的高置信度偽標(biāo)簽添加到訓(xùn)練集中,形成一個(gè)新的混合訓(xùn)練集,使用這個(gè)新的訓(xùn)練集重新訓(xùn)練模型,反復(fù)迭代訓(xùn)練過(guò)程,每次使用已標(biāo)注數(shù)據(jù)和偽標(biāo)簽訓(xùn)練模型,并生成新的偽標(biāo)簽,再次加入訓(xùn)練集中進(jìn)行更新。

9、s3:將模型生成的初步標(biāo)簽作為偽標(biāo)簽,添加到未標(biāo)注數(shù)據(jù)中,使用已標(biāo)注數(shù)據(jù)和帶有偽標(biāo)簽的未標(biāo)注數(shù)據(jù)聯(lián)合訓(xùn)練模型;

10、優(yōu)選的,所述s3進(jìn)一步包括將原始已標(biāo)注數(shù)據(jù)與帶有偽標(biāo)簽的未標(biāo)注數(shù)據(jù)結(jié)合,形成一個(gè)擴(kuò)展的訓(xùn)練集,使用混合數(shù)據(jù)進(jìn)行訓(xùn)練,使用訓(xùn)練好的模型再次對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)測(cè),生成新的偽標(biāo)簽。

11、s4:在每一輪迭代中,將已標(biāo)注數(shù)據(jù)和帶有高置信度偽標(biāo)簽的未標(biāo)注數(shù)據(jù)一起訓(xùn)練,使用高置信度的標(biāo)簽進(jìn)行標(biāo)簽更新,剔除低置信度的偽標(biāo)簽;

12、優(yōu)選的,所述s4進(jìn)一步包括設(shè)定一個(gè)置信度閾值,將所有置信度大于該閾值的偽標(biāo)簽視為高置信度標(biāo)簽,認(rèn)為這些標(biāo)簽是可信的,評(píng)估模型輸出的每個(gè)偽標(biāo)簽的置信度,根據(jù)當(dāng)前模型的性能動(dòng)態(tài)調(diào)整閾值,在每一輪迭代中,使用高置信度的偽標(biāo)簽更新原有標(biāo)簽,將這些高置信度標(biāo)簽的未標(biāo)注數(shù)據(jù)和已標(biāo)注數(shù)據(jù)合并在一起,形成新的訓(xùn)練集,并進(jìn)行下一輪訓(xùn)練,在每一輪訓(xùn)練中,將已標(biāo)注數(shù)據(jù)和篩選后的高置信度偽標(biāo)簽數(shù)據(jù)合并,進(jìn)行聯(lián)合訓(xùn)練。

13、s5:通過(guò)訓(xùn)練完成的半監(jiān)督學(xué)習(xí)模型對(duì)所有數(shù)據(jù)進(jìn)行預(yù)測(cè),生成最終的語(yǔ)義標(biāo)簽,根據(jù)真實(shí)標(biāo)簽與生成標(biāo)簽的對(duì)比,評(píng)估模型的準(zhǔn)確性和召回率,優(yōu)化模型的參數(shù)。

14、優(yōu)選的,所述s5進(jìn)一步包括使用訓(xùn)練好的半監(jiān)督學(xué)習(xí)模型對(duì)所有數(shù)據(jù)進(jìn)行預(yù)測(cè),生成最終的語(yǔ)義標(biāo)簽,將模型生成的標(biāo)簽與真實(shí)標(biāo)簽進(jìn)行對(duì)比,計(jì)算模型在測(cè)試集或驗(yàn)證集上的準(zhǔn)確性和召回率,根據(jù)模型評(píng)估結(jié)果,通過(guò)調(diào)整超參數(shù)來(lái)優(yōu)化模型表現(xiàn),根據(jù)評(píng)估結(jié)果和超參數(shù)優(yōu)化后的設(shè)置,重新訓(xùn)練模型,使用全量數(shù)據(jù)進(jìn)行訓(xùn)練,并根據(jù)反饋繼續(xù)調(diào)整模型參數(shù)。

15、(三)有益效果

16、與現(xiàn)有技術(shù)相比,本發(fā)明提供一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,具備以下有益效果:

17、本發(fā)明通過(guò)將模型生成的初步標(biāo)簽作為偽標(biāo)簽,添加到未標(biāo)注數(shù)據(jù)中,使用已標(biāo)注數(shù)據(jù)和帶有偽標(biāo)簽的未標(biāo)注數(shù)據(jù)聯(lián)合訓(xùn)練模型;在每一輪迭代中,將已標(biāo)注數(shù)據(jù)和帶有高置信度偽標(biāo)簽的未標(biāo)注數(shù)據(jù)一起訓(xùn)練,使用高置信度的標(biāo)簽進(jìn)行標(biāo)簽更新,剔除低置信度的偽標(biāo)簽;通過(guò)訓(xùn)練完成的半監(jiān)督學(xué)習(xí)模型對(duì)所有數(shù)據(jù)進(jìn)行預(yù)測(cè),生成最終的語(yǔ)義標(biāo)簽,根據(jù)真實(shí)標(biāo)簽與生成標(biāo)簽的對(duì)比,評(píng)估模型的準(zhǔn)確性和召回率,優(yōu)化模型的參數(shù)。具備提高標(biāo)簽生成的準(zhǔn)確性的優(yōu)點(diǎn)。



技術(shù)特征:

1.一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,其特征在于,所述s1進(jìn)一步包括從已知領(lǐng)域或任務(wù)中收集標(biāo)注好的數(shù)據(jù)集,在特征選擇中,去除與目標(biāo)任務(wù)無(wú)關(guān)的特征,通過(guò)插值法、均值填充或刪除缺失值樣本來(lái)處理缺失數(shù)據(jù),特征提取包括文本數(shù)據(jù)特征提取、圖像數(shù)據(jù)特征提取和音頻數(shù)據(jù)特征提取,通過(guò)算法選擇與標(biāo)簽生成相關(guān)的特征,基于已有的監(jiān)督數(shù)據(jù)訓(xùn)練初步分類(lèi)模型,對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)測(cè),生成初步標(biāo)簽。

3.根據(jù)權(quán)利要求1所述的一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,其特征在于,所述s2進(jìn)一步包括對(duì)于每個(gè)無(wú)標(biāo)簽樣本,模型會(huì)輸出一個(gè)類(lèi)別的預(yù)測(cè)概率,設(shè)定一個(gè)置信度閾值,選擇高置信度預(yù)測(cè)作為偽標(biāo)簽,低置信度的預(yù)測(cè),需要丟棄或重新評(píng)估,在生成的偽標(biāo)簽中,檢查與現(xiàn)有標(biāo)簽數(shù)據(jù)的標(biāo)簽一致性,計(jì)算已標(biāo)注數(shù)據(jù)與偽標(biāo)簽的相似性,來(lái)評(píng)估標(biāo)簽質(zhì)量,將生成的高置信度偽標(biāo)簽添加到訓(xùn)練集中,形成一個(gè)新的混合訓(xùn)練集,使用這個(gè)新的訓(xùn)練集重新訓(xùn)練模型,反復(fù)迭代訓(xùn)練過(guò)程,每次使用已標(biāo)注數(shù)據(jù)和偽標(biāo)簽訓(xùn)練模型,并生成新的偽標(biāo)簽,再次加入訓(xùn)練集中進(jìn)行更新。

4.根據(jù)權(quán)利要求1所述的一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,其特征在于,所述s3進(jìn)一步包括將原始已標(biāo)注數(shù)據(jù)與帶有偽標(biāo)簽的未標(biāo)注數(shù)據(jù)結(jié)合,形成一個(gè)擴(kuò)展的訓(xùn)練集,使用混合數(shù)據(jù)進(jìn)行訓(xùn)練,使用訓(xùn)練好的模型再次對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)測(cè),生成新的偽標(biāo)簽。

5.根據(jù)權(quán)利要求1所述的一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,其特征在于,所述s4進(jìn)一步包括設(shè)定一個(gè)置信度閾值,將所有置信度大于該閾值的偽標(biāo)簽視為高置信度標(biāo)簽,認(rèn)為這些標(biāo)簽是可信的,評(píng)估模型輸出的每個(gè)偽標(biāo)簽的置信度,根據(jù)當(dāng)前模型的性能動(dòng)態(tài)調(diào)整閾值,在每一輪迭代中,使用高置信度的偽標(biāo)簽更新原有標(biāo)簽,將這些高置信度標(biāo)簽的未標(biāo)注數(shù)據(jù)和已標(biāo)注數(shù)據(jù)合并在一起,形成新的訓(xùn)練集,并進(jìn)行下一輪訓(xùn)練,在每一輪訓(xùn)練中,將已標(biāo)注數(shù)據(jù)和篩選后的高置信度偽標(biāo)簽數(shù)據(jù)合并,進(jìn)行聯(lián)合訓(xùn)練。

6.根據(jù)權(quán)利要求1所述的一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,其特征在于,所述s5進(jìn)一步包括使用訓(xùn)練好的半監(jiān)督學(xué)習(xí)模型對(duì)所有數(shù)據(jù)進(jìn)行預(yù)測(cè),生成最終的語(yǔ)義標(biāo)簽,將模型生成的標(biāo)簽與真實(shí)標(biāo)簽進(jìn)行對(duì)比,計(jì)算模型在測(cè)試集或驗(yàn)證集上的準(zhǔn)確性和召回率,根據(jù)模型評(píng)估結(jié)果,通過(guò)調(diào)整超參數(shù)來(lái)優(yōu)化模型表現(xiàn),根據(jù)評(píng)估結(jié)果和超參數(shù)優(yōu)化后的設(shè)置,重新訓(xùn)練模型,使用全量數(shù)據(jù)進(jìn)行訓(xùn)練,并根據(jù)反饋繼續(xù)調(diào)整模型參數(shù)。


技術(shù)總結(jié)
本發(fā)明涉及語(yǔ)義標(biāo)簽生成領(lǐng)域,且公開(kāi)了一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義標(biāo)簽生成方法,包括收集具有標(biāo)簽的有監(jiān)督數(shù)據(jù)和無(wú)標(biāo)簽的未標(biāo)注數(shù)據(jù),從原始數(shù)據(jù)中提取出語(yǔ)義標(biāo)簽生成的特征;利用標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)監(jiān)督學(xué)習(xí)模型,使用訓(xùn)練好的模型對(duì)無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)測(cè),生成初步的標(biāo)簽;將模型生成的初步標(biāo)簽作為偽標(biāo)簽,添加到未標(biāo)注數(shù)據(jù)中,使用已標(biāo)注數(shù)據(jù)和帶有偽標(biāo)簽的未標(biāo)注數(shù)據(jù)聯(lián)合訓(xùn)練模型;在每一輪迭代中,將已標(biāo)注數(shù)據(jù)和帶有高置信度偽標(biāo)簽的未標(biāo)注數(shù)據(jù)一起訓(xùn)練,使用高置信度的標(biāo)簽進(jìn)行標(biāo)簽更新,剔除低置信度的偽標(biāo)簽;通過(guò)訓(xùn)練完成的半監(jiān)督學(xué)習(xí)模型對(duì)所有數(shù)據(jù)進(jìn)行預(yù)測(cè),生成最終的語(yǔ)義標(biāo)簽。本發(fā)明具備提高標(biāo)簽生成的準(zhǔn)確性的優(yōu)點(diǎn)。

技術(shù)研發(fā)人員:王海榮,匡小燕,江趙越
受保護(hù)的技術(shù)使用者:中科天璣數(shù)據(jù)科技股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/3
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1