本發(fā)明涉及氣體檢測(cè)訓(xùn)練技術(shù)領(lǐng)域,尤其涉及一種呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)方法及裝置。
背景技術(shù):
傳統(tǒng)的疾病診斷和監(jiān)測(cè)手段包括血檢、尿檢、CT等,其結(jié)果較準(zhǔn)確,但操作較復(fù)雜,有些也是有創(chuàng)檢測(cè),會(huì)帶來(lái)疼痛。不少患者因此忽視日常檢查,錯(cuò)過(guò)了最佳的治療時(shí)間。因此,社迫切需要一種無(wú)創(chuàng)和操作簡(jiǎn)便的常見(jiàn)疾病監(jiān)測(cè)方法。
呼吸氣體診斷系統(tǒng)能夠通過(guò)對(duì)患者的呼吸氣體進(jìn)行檢測(cè),從而診斷出患者的疾病,具體通過(guò)在主設(shè)備上采集一系列有配備的標(biāo)準(zhǔn)氣體作為標(biāo)簽樣本,用于訓(xùn)練預(yù)測(cè)模型,然后將訓(xùn)練的模型應(yīng)用到其他所有從設(shè)備上,以供從設(shè)備的測(cè)試樣本進(jìn)行學(xué)習(xí),從而獲得測(cè)試樣本的診斷數(shù)據(jù)。
傳統(tǒng)的機(jī)器在學(xué)習(xí)時(shí),假定預(yù)測(cè)訓(xùn)練域與測(cè)試域獨(dú)立同分布,即不存在個(gè)體差異,直接將訓(xùn)練數(shù)據(jù)集得到的模型直接應(yīng)用于測(cè)試集。但在實(shí)際應(yīng)用中,這種假設(shè)很多時(shí)候并不成立,例如由于使用不同的設(shè)備、在不同時(shí)間采集到的氣體樣本間會(huì)存在設(shè)備差異和時(shí)間漂移,即訓(xùn)練域與測(cè)試域分布存在差異,導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)的性能較低,導(dǎo)致系統(tǒng)診斷的準(zhǔn)確率較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于提供一種呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)方法及裝置,旨在縮小訓(xùn)練樣本與測(cè)試樣本由于設(shè)備差異和時(shí)間漂移導(dǎo)致分布存在的差異,提高系統(tǒng)的學(xué)習(xí)性能和診斷的準(zhǔn)確率。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)方法包括以下步驟:
根據(jù)第一設(shè)備的響應(yīng)獲取對(duì)已知病患者及健康者呼吸氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為訓(xùn)練樣本;
根據(jù)第二設(shè)備的響應(yīng)獲取對(duì)待測(cè)病患者呼吸氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為測(cè)試樣本;所述訓(xùn)練樣本和測(cè)試樣本共同構(gòu)成樣本空間;所述訓(xùn)練樣本的背景特征及測(cè)試樣本的背景特征構(gòu)成背景特征空間;
根據(jù)kernel trick核戲法、背景特征空間、HSIC獨(dú)立準(zhǔn)則、MIDA最大獨(dú)立領(lǐng)域適配算法獲得第一投影矩陣;
經(jīng)所述第一投影矩陣將所述樣本空間投影到一個(gè)高維特征空間,以使所述訓(xùn)練樣本及測(cè)試樣本按照同一特征呈線性分布。
優(yōu)選地,所述樣本空間由多個(gè)原始特征向量構(gòu)成;所述根據(jù)kernel trick核戲法、背景特征空間、HSIC獨(dú)立準(zhǔn)則、MIDA最大獨(dú)立領(lǐng)域適配算法獲得第一投影矩陣包括:
用非線性映射函數(shù)把所述原始特征向量映射到所述高維特征空間;
定義第二投影矩陣將高維特征空間投影到所述第一投影矩陣,投影后的樣本構(gòu)成子空間;
根據(jù)kernel trick核戲法獲得非線性映射函數(shù)內(nèi)積的核函數(shù),獲得所述子空間中樣本與非線性映射函數(shù)內(nèi)積的核函數(shù)及所述第一投影矩陣的關(guān)系式,進(jìn)而獲得所述子空間中樣本內(nèi)積的核函數(shù);
從所述子空間和背景特征空間中分別抽取獨(dú)立樣本,通過(guò)HSIC獨(dú)立準(zhǔn)則使得從所述子空間中樣本與背景特征空間中抽取的獨(dú)立樣本之間的獨(dú)立性最大;并使得所述子空間中樣本的方差最大,獲得所述第一投影矩陣。
優(yōu)選地,所述從所述子空間和背景特征空間中分別抽取獨(dú)立樣本,通過(guò)HSIC獨(dú)立準(zhǔn)則使得從所述子空間中樣本與背景特征空間中抽取的獨(dú)立樣本之間的獨(dú)立性最大;并使得所述子空間中樣本的方差最大,獲得所述第一投影矩陣包括:
由所述子空間中樣本內(nèi)積的核函數(shù)Kz、所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd及HSIC獨(dú)立準(zhǔn)則的經(jīng)驗(yàn)估計(jì)公式獲得決定HSIC值的關(guān)鍵因子:
tr(Kz×H×Kd×H)=tr(Kx×W×WT×Kx×H×Kd×H);
由所述子空間中樣本Z與非線性映射函數(shù)內(nèi)積的核函數(shù)Kx及所述第一投影矩陣W的關(guān)系式:Z=Kx×W,計(jì)算子空間樣本的協(xié)方差矩陣:
cov(Z)=WT×Kx×H×Kx×W;
根據(jù)HSIC值的關(guān)鍵因子和子空間樣本的協(xié)方差矩陣,獲得MIDA最大獨(dú)立領(lǐng)域適配算法目標(biāo)函數(shù):
Y=-tr(WT×Kx×H×Kd×H×Kx×W)+μ×tr(WT×Kx×H×Kx×W)
其中:μ為權(quán)重系數(shù),μ>0,Kx為非線性映射函數(shù)內(nèi)積的核函數(shù),W為所述第一投影矩陣,且滿足:WT×W=I,H滿足:I是單位矩陣,n為樣本空間中樣本的數(shù)量;
在所述MIDA最大獨(dú)立領(lǐng)域適配算法目標(biāo)函數(shù)的函數(shù)值Y最大時(shí),獲取與所述函數(shù)值Y對(duì)應(yīng)的變量,即獲得所述第一投影矩陣W。
優(yōu)選地,在所述求解所述MIDA最大獨(dú)立領(lǐng)域適配算法目標(biāo)函數(shù)的函數(shù)值Y最大時(shí),獲取與所述函數(shù)值Y對(duì)應(yīng)的變量,即獲得所述第一投影矩陣W包括:
利用拉格朗日乘子法構(gòu)造中間函數(shù):
tr(WT×Kx×(-H×Kd×H+μ×H)×Kx×W)-tr((WT×W-I)×Λ)
其中Λ為拉格朗日乘子矩陣;
所述中間函數(shù)對(duì)W的導(dǎo)數(shù)為:
Y'=Kx×(-H×Kd×H+μ×H)×Kx×W-W×Λ
在所述中間函數(shù)對(duì)W的導(dǎo)數(shù)值Y’為零時(shí),可得所述第一投影矩陣W是矩陣Kx×(-H×Kd×H+μ×H)×Kx的最大特征值對(duì)應(yīng)的特征向量;
其中所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx為以下線性核函數(shù)(k(x,y)=xTy)、多項(xiàng)式(k(x,y)=(σxTy+1)d)或高斯徑向基函數(shù)中的一個(gè);其中所述σ為核參數(shù),d為核矩陣維度;
所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd滿足:Kd=DDT,其中,D為背景特征矩陣,若樣本i和樣本j來(lái)自不同設(shè)備,則(Kd)ij=0;若來(lái)自相同設(shè)備,則(Kd)ij=1或1+titj,t為樣本的采樣時(shí)間;
由所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx及所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd獲得所述第一投影矩陣W。
優(yōu)選地,當(dāng)所述訓(xùn)練樣本中包含有標(biāo)簽樣本時(shí),根據(jù)第一設(shè)備的響應(yīng)獲取對(duì)標(biāo)準(zhǔn)成分及標(biāo)準(zhǔn)含量的氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為所述標(biāo)簽樣本;
定義所述訓(xùn)練樣本的標(biāo)簽矩陣,獲得標(biāo)簽矩陣的核函數(shù)Ky:
根據(jù)所述HSIC值的關(guān)鍵因子、子空間樣本的協(xié)方差矩陣、標(biāo)簽矩陣的核函數(shù)獲得SMIDA半監(jiān)督最大獨(dú)立領(lǐng)域適配目標(biāo)函數(shù):
P=-tr(WT×Kx×(-H×Kd×H+μ×H+γ×H×Ky×H)×Kx×H)
其中:γ為權(quán)重系數(shù),γ>0;
在所述SMIDA半監(jiān)督最大獨(dú)立領(lǐng)域適配目標(biāo)函數(shù)的函數(shù)值P最大時(shí),獲取與所述函數(shù)值P對(duì)應(yīng)的變量,即所述第一投影矩陣W為矩陣Kx×(-H×Kd×H+μ×H+γ×H×Ky×H)×Kx的最大特征值對(duì)應(yīng)的特征向量;
其中所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx為以下線性核函數(shù)(k(x,y)=xTy)、多項(xiàng)式(k(x,y)=(σxTy+1)d)或高斯徑向基函數(shù)中的一個(gè);其中所述σ為核參數(shù),d為核矩陣維度;
所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd滿足:Kd=DDT,其中,D為背景特征矩陣,若樣本i和樣本j來(lái)自不同設(shè)備,則(Kd)ij=0;若來(lái)自相同設(shè)備,則(Kd)ij=1或1+titj,t為樣本的采樣時(shí)間;
所述標(biāo)簽矩陣的核函數(shù)Ky滿足:
Ky=Y(jié)×YT
對(duì)于c類分類問(wèn)題使用啞變量編碼方式,即標(biāo)簽矩陣Y∈Rn×c,若xi為有標(biāo)簽樣本且屬于第j類,則Yij=1;否則Yij=0;對(duì)于回歸問(wèn)題,首先將標(biāo)簽的均值設(shè)置為0、標(biāo)簽的方差設(shè)置為1,然后定義標(biāo)簽矩陣Y∈Rn,若xi為有標(biāo)簽樣本,則Yi等于該標(biāo)簽值;否則Yi=0;c為正整數(shù);
由所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx、所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd及標(biāo)簽矩陣的核函數(shù)Ky獲得所述第一投影矩陣W。
此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)裝置包括:
第一獲取模塊,用于根據(jù)第一設(shè)備的響應(yīng)獲取對(duì)已知病患者呼吸氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為訓(xùn)練樣本;
第二獲取模塊,用于根據(jù)第二設(shè)備的響應(yīng)獲取對(duì)待測(cè)病患者呼吸氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為測(cè)試樣本;所述訓(xùn)練樣本和測(cè)試樣本共同構(gòu)成樣本空間;所述訓(xùn)練樣本的背景特征及測(cè)試樣本的背景特征構(gòu)成背景特征空間;
計(jì)算模塊,用于根據(jù)kernel trick核戲法、背景特征空間、HSIC獨(dú)立準(zhǔn)則、MIDA最大獨(dú)立領(lǐng)域適配算法獲得第一投影矩陣;
遷移模塊,用于經(jīng)所述第一投影矩陣將所述樣本空間投影到一個(gè)高維特征空間,以使所述訓(xùn)練樣本及測(cè)試樣本按照同一特征呈線性分布。
優(yōu)選地,在所述樣本空間由多個(gè)原始特征向量構(gòu)成時(shí),所述計(jì)算模塊包括:
映射模塊,用于用非線性映射函數(shù)把所述原始特征向量映射到所述高維特征空間;
投影模塊,用于定義第二投影矩陣將高維特征空間投影到所述第一投影矩陣,投影后的樣本構(gòu)成子空間;
核戲法模塊,用于根據(jù)kernel trick核戲法獲得非線性映射函數(shù)內(nèi)積的核函數(shù),獲得所述子空間中樣本與非線性映射函數(shù)內(nèi)積的核函數(shù)及所述第一投影矩陣的關(guān)系式,進(jìn)而獲得所述子空間中樣本內(nèi)積的核函數(shù);
適配模塊,用于從所述子空間和背景特征空間中分別抽取獨(dú)立樣本,通過(guò)HSIC獨(dú)立準(zhǔn)則使得從所述子空間中樣本與背景特征空間中抽取的獨(dú)立樣本之間的獨(dú)立性最大;并使得所述子空間中樣本的方差最大,獲得所述第一投影矩陣。
優(yōu)選地,所述適配模塊包括:
HSIC模塊,用于由所述子空間中樣本內(nèi)積的核函數(shù)Kz、所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd及HSIC獨(dú)立準(zhǔn)則的經(jīng)驗(yàn)估計(jì)公式獲得決定HSIC值的關(guān)鍵因子:
tr(Kz×H×Kd×H)=tr(Kx×W×WT×Kx×H×Kd×H);
方差模塊,用于由所述子空間中樣本Z與非線性映射函數(shù)內(nèi)積的核函數(shù)Kx及所述第一投影矩陣W的關(guān)系式:Z=Kx×W,計(jì)算子空間樣本的協(xié)方差矩陣:
cov(Z)=WT×Kx×H×Kx×W;
MIDA模塊,根據(jù)HSIC值的關(guān)鍵因子和子空間樣本的協(xié)方差矩陣的跡,獲得MIDA最大獨(dú)立領(lǐng)域適配算法目標(biāo)函數(shù):
Y=-tr(WT×Kx×H×Kd×H×Kx×W)+μ×tr(WT×Kx×H×Kx×W)
其中:μ為權(quán)重系數(shù),μ>0,Kx為非線性映射函數(shù)內(nèi)積的核函數(shù),,W為所述第一投影矩陣,且滿足:WT×W=I,H滿足:I是單位矩陣,n為樣本空間中樣本的數(shù)量;
解析模塊,用于在所述MIDA最大獨(dú)立領(lǐng)域適配算法目標(biāo)函數(shù)的函數(shù)值Y最大時(shí),獲取與所述函數(shù)值Y對(duì)應(yīng)的變量,即獲得所述第一投影矩陣W。
優(yōu)選地,所述解析模塊包括:
函數(shù)構(gòu)造模塊,用于利用拉格朗日乘子法構(gòu)造中間函數(shù):
tr(WT×Kx×(-H×Kd×H+μ×H)×Kx×W)-tr((WT×W-I)×Λ)
其中Λ為拉格朗日乘子矩陣;
算子模塊,用于令所述中間函數(shù)對(duì)W的導(dǎo)數(shù)為:
Y'=Kx×(-H×Kd×H+μ×H)×Kx×W-W×Λ
在所述中間函數(shù)對(duì)W的導(dǎo)數(shù)值Y’為零時(shí),可得所述第一投影矩陣W是矩陣Kx×(-H×Kd×H+μ×H)×Kx的最大特征值對(duì)應(yīng)的特征向量;
其中所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx為以下線性核函數(shù)(k(x,y)=xTy)、多項(xiàng)式(k(x,y)=(σxTy+1)d)或高斯徑向基函數(shù)中的一個(gè);其中所述σ為核參數(shù),d為核矩陣維度;
所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd滿足:Kd=DDT,其中,D為背景特征矩陣,若樣本i和樣本j來(lái)自不同設(shè)備,則(Kd)ij=0;若來(lái)自相同設(shè)備,則(Kd)ij=1或1+titj,t為樣本的采樣時(shí)間;
由所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx及所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd獲得所述第一投影矩陣W。
優(yōu)選地,當(dāng)所述訓(xùn)練樣本中包含有標(biāo)簽樣本時(shí);
所述第一模塊,還用于根據(jù)第一設(shè)備的響應(yīng)獲取對(duì)標(biāo)準(zhǔn)成分及標(biāo)準(zhǔn)含量的氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為所述標(biāo)簽樣本;
自定義模塊;用于定義所述訓(xùn)練樣本的標(biāo)簽矩陣,獲得標(biāo)簽矩陣的核函數(shù)Ky:
SMIDA模塊,用于根據(jù)所述HSIC值的關(guān)鍵因子、子空間樣本的協(xié)方差矩陣的跡、標(biāo)簽矩陣的核函數(shù)獲得SMIDA半監(jiān)督最大獨(dú)立領(lǐng)域適配目標(biāo)函數(shù):
P=-tr(WT×Kx×(-H×Kd×H+μ×H+γ×H×Ky×H)×Kx×H)
其中γ為權(quán)重系數(shù),γ>0;
所述解析模塊,還用于在所述SMIDA半監(jiān)督最大獨(dú)立領(lǐng)域適配目標(biāo)函數(shù)的函數(shù)值P最大時(shí),獲取與所述函數(shù)值P對(duì)應(yīng)的變量,即獲得所述第一投影矩陣W為矩陣Kx×(-H×Kd×H+μ×H+γ×H×Ky×H)×Kx的最大特征值對(duì)應(yīng)的特征向量;
其中所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx為以下線性核函數(shù)(k(x,y)=xTy)、多項(xiàng)式(k(x,y)=(σxTy+1)d)或高斯徑向基函數(shù)中的一個(gè);其中所述σ為核參數(shù),d為核矩陣維度;
所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd滿足:Kd=DDT,其中,D為背景特征矩陣,若樣本i和樣本j來(lái)自不同設(shè)備,則(Kd)ij=0;若來(lái)自相同設(shè)備,則(Kd)ij=1或1+titj,t為樣本的采樣時(shí)間;
所述標(biāo)簽矩陣的核函數(shù)Ky滿足:
Ky=Y(jié)×YT
對(duì)于c類分類問(wèn)題使用啞變量編碼方式,即標(biāo)簽矩陣Y∈Rn×c,若xi為有標(biāo)簽樣本且屬于第j類,則Yij=1;否則Yij=0;對(duì)于回歸問(wèn)題,首先將標(biāo)簽的均值設(shè)置為0、標(biāo)簽的方差設(shè)置為1,然后定義標(biāo)簽矩陣Y∈Rn,若xi為有標(biāo)簽樣本,則Yi等于該標(biāo)簽值;否則Yi=0;c為正整數(shù);
由所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx、所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd及標(biāo)簽矩陣的核函數(shù)Ky獲得所述第一投影矩陣W。
本發(fā)明的方案,由于訓(xùn)練樣本與測(cè)試樣本是根據(jù)不同設(shè)備的相應(yīng)獲取的采用數(shù)據(jù),由于存在設(shè)備漂移和時(shí)變漂移,樣本的分布呈非線性,本方案通過(guò)非線性函數(shù)將由訓(xùn)練樣本和測(cè)試樣本共同構(gòu)成的樣本空間的原始向量特征映射到一個(gè)高維特征空間,在這個(gè)高維特征空間中樣本按照統(tǒng)一特征呈線性分布,本方案通過(guò)將高維特征空間投影到第一投影矩陣,通過(guò)kernel trick核戲法、HSIC獨(dú)立準(zhǔn)則、MIDA最大獨(dú)立領(lǐng)域適配算法獲得第一投影矩陣;經(jīng)第一投影矩陣將所述樣本空間投影到高維特征空間或者說(shuō)按照第一投影矩陣將樣本空間遷移到高維特征空間中,在高維空特征間中,遷移后的訓(xùn)練樣本及測(cè)試樣本按照同一特征呈線性分布,即降低訓(xùn)練樣本與測(cè)試樣本分布存在的差異,盡可能相似;并且關(guān)于樣本數(shù)據(jù)的重要結(jié)構(gòu)信息能夠被保留在遷移后的樣本信息中,由于保留了樣本數(shù)據(jù)的重要結(jié)構(gòu)信息,用遷移到高維特征空間后的訓(xùn)練樣本結(jié)合疾病標(biāo)簽訓(xùn)練學(xué)習(xí)疾病分類模型;用所述疾病分類模型對(duì)遷移后的測(cè)試樣本進(jìn)行疾病分類預(yù)測(cè),并輸出診斷結(jié)果;相對(duì)于現(xiàn)有技術(shù),本方案縮小了使不同設(shè)備、不同時(shí)間采集到氣體樣本間的設(shè)備差異和時(shí)變漂移,提高了系統(tǒng)的學(xué)習(xí)性能和診斷的準(zhǔn)確率。
附圖說(shuō)明
圖1為本發(fā)明呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)方法第一實(shí)施例的流程示意圖;
圖2為本發(fā)明呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)方法第二實(shí)施例獲得第一投影矩陣步驟的細(xì)化流程示意圖;
圖3為本發(fā)明呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)方法第三實(shí)施例中的流程示意圖;
圖4為本發(fā)明呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)方法第四實(shí)施例的細(xì)化流程示意圖;
圖5為本發(fā)明呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)方法第五實(shí)施例的細(xì)化流程示意圖;
圖6為本發(fā)明呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)裝置第一實(shí)施例的功能模塊示意圖;
圖7為本發(fā)明呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)裝置第二實(shí)施例的細(xì)化功能模塊示意圖;
圖8為本發(fā)明呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)裝置第三實(shí)施例的細(xì)化功能模塊示意圖;
圖9為本發(fā)明呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)裝置第四實(shí)施例的細(xì)化功能模塊示意圖;
圖10本發(fā)明呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)裝置第五實(shí)施例的細(xì)化功能模塊示意圖。
本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說(shuō)明。
具體實(shí)施方式
應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供一種呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)方法,參照?qǐng)D1,在一實(shí)施例中,該方法包括以下步驟:
步驟S10,根據(jù)第一設(shè)備的響應(yīng)獲取對(duì)已知病患者及健康者呼吸氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為訓(xùn)練樣本;
利用電子鼻實(shí)地采集了健康人和各種病人的呼氣樣本,樣本的詳細(xì)情況如表1.1所示。所有樣本都由醫(yī)院提供了診斷標(biāo)簽。目前數(shù)據(jù)庫(kù)數(shù)據(jù)量超過(guò)10000條,涵蓋了包括糖尿病、高血壓、心臟病、肺病、腎病、乳腺疾病等四十余種常見(jiàn)、非常見(jiàn)疾病,為挖掘呼氣和疾病間的對(duì)應(yīng)關(guān)系提供了足夠的數(shù)據(jù)支持。
表1.1呼氣大數(shù)據(jù)樣本疾病分布表
在采集病人呼氣樣本的同時(shí),還記錄了病人的實(shí)時(shí)血糖、血脂等生化指標(biāo),以便后續(xù)對(duì)全面的身體狀況檢測(cè)進(jìn)行實(shí)驗(yàn),如表1.2所示。
表1.2呼氣大數(shù)據(jù)樣本生化指標(biāo)分布表
這里的第一設(shè)備為電子鼻,根據(jù)電子鼻的響應(yīng)采集的數(shù)據(jù)很多是沒(méi)有用的,按照預(yù)定規(guī)則從采集的這些數(shù)據(jù)中提取有價(jià)值的目標(biāo)數(shù)據(jù)作為訓(xùn)練樣本,這里的目標(biāo)數(shù)據(jù)實(shí)際上是對(duì)采集的數(shù)據(jù)中一部分含有有用信息的數(shù)據(jù)的一個(gè)命名,可以是原有的數(shù)據(jù),也可以是對(duì)原有數(shù)據(jù)的一個(gè)分析或變形,訓(xùn)練樣本的集合可理解為源領(lǐng)域或源數(shù)據(jù)集,在機(jī)器的學(xué)習(xí)領(lǐng)域,根據(jù)源數(shù)據(jù)集建立一個(gè)預(yù)測(cè)模型,預(yù)測(cè)根據(jù)從設(shè)備的響應(yīng)獲取的目標(biāo)數(shù)據(jù)集的響應(yīng)變量值。這里的第一設(shè)備也可理解為主設(shè)備,具體使用過(guò)程中,會(huì)將訓(xùn)練樣本拷貝到第二設(shè)備、第三設(shè)備等從設(shè)備中。
步驟S20,根據(jù)第二設(shè)備的響應(yīng)獲取對(duì)待測(cè)病患者呼吸氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為測(cè)試樣本;所述訓(xùn)練樣本和測(cè)試樣本共同構(gòu)成樣本空間;所述訓(xùn)練樣本的背景特征及測(cè)試樣本的背景特征構(gòu)成背景特征空間;
這里的第二設(shè)備也是電子鼻,但是與步驟S10中提到的第一設(shè)備不是同一臺(tái)電子鼻,第二設(shè)備可理解為從設(shè)備,上述根據(jù)源數(shù)據(jù)集建立的預(yù)測(cè)模型希望能用在若干從設(shè)備上;測(cè)量樣本構(gòu)成的空間可理解為目標(biāo)數(shù)據(jù)集,在實(shí)際運(yùn)算過(guò)程中,獲取的所有樣本包括練樣本和測(cè)試樣本共同構(gòu)成樣本空間,
設(shè)X∈Rn×m為樣本空間,即包含原始特征向量的樣本矩陣,原始特征維度為m,樣本數(shù)為n,其中既包含訓(xùn)練也包含測(cè)試樣本。與DCAE類似,這里我們不需要指明每個(gè)樣本x屬于哪個(gè)領(lǐng)域(源領(lǐng)域或目標(biāo)領(lǐng)域),相關(guān)信息蘊(yùn)含在這些樣本的背景特征中。這里的背景特征可以是來(lái)自同一設(shè)備、來(lái)自不同設(shè)備、來(lái)自同一時(shí)間、或不同時(shí)間等,具體可定義一個(gè)背景特征矩陣來(lái)表達(dá)。傳統(tǒng)的機(jī)器學(xué)習(xí)假定訓(xùn)練域(源領(lǐng)域)與測(cè)試域(目標(biāo)領(lǐng)域)獨(dú)立同分布,將由訓(xùn)練數(shù)據(jù)集得到的模型直接應(yīng)用于測(cè)試集。但在實(shí)際應(yīng)用中,這種假設(shè)并不一定成立,若訓(xùn)練域與測(cè)試域分布存在差異,則傳統(tǒng)機(jī)器學(xué)習(xí)的性能將會(huì)大大降低,而實(shí)際應(yīng)用中,源領(lǐng)域與目標(biāo)領(lǐng)域之間存在較大的差距。
步驟S30,根據(jù)kernel trick核戲法、背景特征空間、HSIC獨(dú)立準(zhǔn)則、MIDA最大獨(dú)立領(lǐng)域適配算法獲得第一投影矩陣;
核戲法(kernel trick)是核方法(kernel methods簡(jiǎn)稱KMs)一個(gè)運(yùn)算規(guī)則,其中KMs是一類模式識(shí)別的算法。其目的是找出并學(xué)習(xí)一組數(shù)據(jù)中的相互的關(guān)系。用途較廣的核方法有支持向量機(jī)、高斯過(guò)程等。
核方法是解決非線性模式分析問(wèn)題的一種有效途徑,其核心思想是:首先,通過(guò)某種非線性映射將原始數(shù)據(jù)嵌入到合適的高維特征空間;然后,利用通用的線性學(xué)習(xí)器在這個(gè)新的空間中分析和處理模式。相對(duì)于使用通用非線性學(xué)習(xí)器直接在原始數(shù)據(jù)上進(jìn)行分析的范式,核方法有明顯的優(yōu)勢(shì):
首先,通用非線性學(xué)習(xí)器不便反應(yīng)具體應(yīng)用問(wèn)題的特性,而核方法的非線性映射由于面向具體應(yīng)用問(wèn)題設(shè)計(jì)而便于集成問(wèn)題相關(guān)的先驗(yàn)知識(shí)。
再者,線性學(xué)習(xí)器相對(duì)于非線性學(xué)習(xí)器有更好的過(guò)擬合控制從而可以更好地保證泛化性能。
還有,很重要的一點(diǎn)是核方法還是實(shí)現(xiàn)高效計(jì)算的途徑,它能利用核函數(shù)將非線性映射隱含在線性學(xué)習(xí)器中進(jìn)行同步計(jì)算,使得計(jì)算復(fù)雜度與高維特征空間的維數(shù)無(wú)關(guān)。
本文對(duì)核方法進(jìn)行簡(jiǎn)要的介紹。
核方法的主要思想是基于這樣一個(gè)假設(shè):“在低維空間中不能線性分割的點(diǎn)集,通過(guò)轉(zhuǎn)化為高維空間中的點(diǎn)集時(shí),很有可能變?yōu)榫€性可分的”,例如有兩類數(shù)據(jù),一類為x<aUx>b;另一部分為a<x<b。要想在一維空間上線性分開(kāi)是不可能的。然而我們可以通過(guò)F(x)=(x-a)(x-b)把一維空間上的點(diǎn)轉(zhuǎn)化到二維空間上,這樣就可以劃分兩類數(shù)據(jù)F(x)>0,F(xiàn)(x)<0;從而實(shí)現(xiàn)線性分割。
然而,如果直接把低維度的數(shù)據(jù)轉(zhuǎn)化到高維度的空間中,然后再去尋找線性分割平面,會(huì)遇到兩個(gè)大問(wèn)題,一是由于是在高維度空間中計(jì)算,導(dǎo)致維度禍根(curse of dimension)問(wèn)題;二是非常的麻煩,每一個(gè)點(diǎn)都必須先轉(zhuǎn)換到高維度空間,然后求取分割平面的參數(shù)等等;怎么解決這些問(wèn)題?答案是通過(guò)核戲法(kernel trick)。
Kernel Trick:定義一個(gè)核函數(shù)K(x1,x2)=<\phi(x1),\phi(x2)>,其中x1和x2是低維度空間中點(diǎn)(在這里可以是標(biāo)量,也可以是向量),\phi(xi)是低維度空間的點(diǎn)xi轉(zhuǎn)化為高維度空間中的點(diǎn)的表示,<,>表示向量的內(nèi)積。這里核函數(shù)K(x1,x2)的表達(dá)方式一般都不會(huì)顯式地寫(xiě)為內(nèi)積的形式,即我們不關(guān)心高維度空間的形式。
核函數(shù)巧妙地解決了上述的問(wèn)題,在高維度中向量的內(nèi)積通過(guò)低維度的點(diǎn)的核函數(shù)就可以計(jì)算了。這種技巧被稱為Kernel trick。
這里還有一個(gè)問(wèn)題:“為什么我們要關(guān)心向量的內(nèi)積?”,一般地,我們可以把分類(或者回歸)的問(wèn)題分為兩類:參數(shù)學(xué)習(xí)的形式和基于實(shí)例的學(xué)習(xí)形式。參數(shù)學(xué)習(xí)的形式就是通過(guò)一堆訓(xùn)練數(shù)據(jù),把相應(yīng)模型的參數(shù)給學(xué)習(xí)出來(lái),然后訓(xùn)練數(shù)據(jù)就沒(méi)有用了,對(duì)于新的數(shù)據(jù),用學(xué)習(xí)出來(lái)的參數(shù)即可以得到相應(yīng)的結(jié)論;而基于實(shí)例的學(xué)習(xí)(又叫基于內(nèi)存的學(xué)習(xí))則是在預(yù)測(cè)的時(shí)候也會(huì)使用訓(xùn)練數(shù)據(jù),如KNN算法。而基于實(shí)例的學(xué)習(xí)一般就需要判定兩個(gè)點(diǎn)之間的相似程度,一般就通過(guò)向量的內(nèi)積來(lái)表達(dá)。從這里可以看出,核方法不是萬(wàn)能的,它一般只針對(duì)基于實(shí)例的學(xué)習(xí)。
緊接著,我們還需要解決一個(gè)問(wèn)題,即核函數(shù)的存在性判斷和如何構(gòu)造?既然我們不關(guān)心高維度空間的表達(dá)形式,那么怎么才能判斷一個(gè)函數(shù)是否是核函數(shù)呢?
Mercer定理:任何半正定的函數(shù)都可以作為核函數(shù)。所謂半正定的函數(shù)f(xi,xj),是指擁有訓(xùn)練數(shù)據(jù)集合(x1,x2,...xn),我們定義一個(gè)矩陣的元素aij=f(xi,xj),這個(gè)矩陣式n×n的,如果這個(gè)矩陣是半正定的,那么f(xi,xj)就稱為半正定的函數(shù)。這個(gè)mercer定理不是核函數(shù)必要條件,只是一個(gè)充分條件,即還有不滿足mercer定理的函數(shù)也可以是核函數(shù)。
常見(jiàn)的核函數(shù)有高斯核,多項(xiàng)式核等等,在這些常見(jiàn)核的基礎(chǔ)上,通過(guò)核函數(shù)的性質(zhì)(如對(duì)稱性等)可以進(jìn)一步構(gòu)造出新的核函數(shù)。SVM是目前核方法應(yīng)用的經(jīng)典模型。
Hilbert-Schmidt獨(dú)立性準(zhǔn)則(Hilbert-Schmidt Independence Criterion,HSIC)是一種用來(lái)度量?jī)蓚€(gè)隨機(jī)變量的獨(dú)立性的準(zhǔn)則。
最大獨(dú)立領(lǐng)域適配(Maximum Independence Domain Adaptation,MIDA)可以被視為一種特征抽取(feature extraction)算法,目標(biāo)在于學(xué)習(xí)一個(gè)領(lǐng)域不變子空間,利用Hilbert-Schmidt獨(dú)立性準(zhǔn)則來(lái)最大化子空間中的特征與背景特征之間的獨(dú)立性。直觀來(lái)講,子空間中的特征與背景特征獨(dú)立意味著我們不能通過(guò)一個(gè)樣本在子空間中的位置來(lái)推斷它的背景,也就是說(shuō)不同背景的樣本不存在分布差異。根據(jù)Ben-David等人的理論,為了取得較好的領(lǐng)域適配效果,需要使得不同領(lǐng)域的樣本變得難以區(qū)分。通過(guò)這種方式,我們不僅可以對(duì)兩個(gè)離散領(lǐng)域進(jìn)行適配,還可以處理多個(gè)離散領(lǐng)域和連續(xù)分布變化的情況。
要去解決上述這個(gè)問(wèn)題并跨不同目標(biāo)領(lǐng)域構(gòu)建預(yù)測(cè)模型。為此,本文提出了一種基于核分布嵌入和Hilbert-Schmidt獨(dú)立準(zhǔn)則的方法。該方法將源數(shù)據(jù)和目標(biāo)數(shù)據(jù)嵌入在一個(gè)新的特征空間中。新的特征空間具有兩個(gè)屬性:1)源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的分布盡可能相似;2)關(guān)于數(shù)據(jù)的重要結(jié)構(gòu)信息被保存下來(lái)。嵌入數(shù)據(jù)在一個(gè)較低維度的空間中并同時(shí)保留了之前的兩個(gè)屬性。因此,該方法也能被看作是一種降維方法。該方法具有閉合形式解并且實(shí)驗(yàn)表明其能夠有效處理實(shí)際數(shù)據(jù)。
步驟S40,經(jīng)所述第一投影矩陣將所述樣本空間投影到一個(gè)高維特征空間,以使所述訓(xùn)練樣本及測(cè)試樣本按照同一特征呈線性分布。
可理解為以第一投影矩陣為遷移規(guī)則,將上述的樣本空間遷移到高維特征空間,在這個(gè)高維特征空間中,訓(xùn)練樣本與測(cè)試樣本的分布的差異很小,或者說(shuō)訓(xùn)練樣本的分布與測(cè)試樣本的分布之間彼此獨(dú)立,相互依賴性很低或不存在,所述訓(xùn)練樣本及測(cè)試樣本按照同一特征呈線性分布,并且關(guān)于樣本數(shù)據(jù)的重要結(jié)構(gòu)信息能夠被保留在遷移后的樣本信息中,由于保留了樣本數(shù)據(jù)的重要結(jié)構(gòu)信息,用遷移到高維特征空間后的訓(xùn)練樣本結(jié)合疾病標(biāo)簽訓(xùn)練學(xué)習(xí)疾病分類模型;用所述疾病分類模型對(duì)遷移后的測(cè)試樣本進(jìn)行疾病分類預(yù)測(cè),并輸出診斷結(jié)果;相對(duì)于現(xiàn)有技術(shù),本方案縮小了使不同設(shè)備、不同時(shí)間采集到氣體樣本間的設(shè)備差異和時(shí)變漂移,提高了系統(tǒng)的學(xué)習(xí)性能和診斷的準(zhǔn)確率。
實(shí)施例二
進(jìn)一步地,參見(jiàn)圖2,在實(shí)施例一的基礎(chǔ)上,對(duì)其中的步驟S30進(jìn)一步細(xì)化,包括:
步驟S31,用非線性映射函數(shù)把所述原始特征向量映射到所述高維特征空間;
這里的非線性映射函數(shù)用Φ(X)表示,基于核戲法(kernel trick),非線性映射函數(shù)的具體形式Φ并不需要給出,只需要將Φ(X)的內(nèi)積用一個(gè)核矩陣代替Kx=Φ(X)Φ(X)T。
步驟S32,定義第二投影矩陣將高維特征空間中的樣本投影到所述第一投影矩陣,投影后的樣本構(gòu)成子空間;
第一投影矩陣用W表示,第二投影矩陣用表示,假設(shè)子空間的維度為h,高維特征空間中的樣本用Φ(X)表示,步驟S32可理解為定義第二投影矩陣用將Φ(X)投影到第一投影矩陣W中,投影后的樣本滿足:
步驟S33,根據(jù)kernel trick核戲法獲得非線性映射函數(shù)內(nèi)積的核函數(shù),獲得所述子空間中樣本與非線性映射函數(shù)內(nèi)積的核函數(shù)及所述第一投影矩陣的關(guān)系式,進(jìn)而獲得所述子空間中樣本內(nèi)積的核函數(shù);
基于核技巧(kernel trick),非線性映射函數(shù)的具體形式Φ并不需要給出,只需要將Φ(X)的內(nèi)積用一個(gè)核矩陣或核函數(shù)Kx=Φ(X)Φ(X)T代替。
核子空間學(xué)習(xí)中,可以用高維空間中的樣本的線性組合來(lái)表達(dá)第二投影矩陣,即第一投影矩陣W∈Rn×h才是真正需要學(xué)習(xí)的投影矩陣。這時(shí),子空間中的樣本可表達(dá)為:
Z=Φ(X)Φ(X)TW=KxW
其核矩陣為:
Kz=KxWWTKx
步驟S34,從所述子空間和背景特征空間中分別抽取獨(dú)立樣本,通過(guò)HSIC獨(dú)立準(zhǔn)則使得從所述子空間中樣本與背景特征空間中抽取的獨(dú)立樣本之間的獨(dú)立性最大;并使得所述子空間中樣本的方差最大,獲得所述第一投影矩陣。
HSIC獨(dú)立準(zhǔn)則(Hilbert-Schmidt Independence Criterion,HSIC)是一種用來(lái)度量?jī)蓚€(gè)隨機(jī)變量的獨(dú)立性的準(zhǔn)則。設(shè)兩個(gè)隨機(jī)變量的聯(lián)合分布是pxy,它們的核函數(shù)分別是kx和ky,對(duì)應(yīng)著兩個(gè)RKHS:F和G。HSIC定義為互協(xié)方差運(yùn)算符Cxy的Hilbert-Schmidt范數(shù)的平方:
這里Exx′yy′是對(duì)從pxy中抽取的獨(dú)立樣本組合(x,y)和(x′,y′)求取的期望??梢宰C明,對(duì)于典型核函數(shù)(characteristic kernels)kx和ky,HSIC(pxy,F,G)為0當(dāng)且僅當(dāng)兩個(gè)隨機(jī)變量獨(dú)立。HSIC越大,兩個(gè)隨機(jī)變量的依賴性越強(qiáng)(在所選核函數(shù)意義下)。
HSIC有一個(gè)有偏經(jīng)驗(yàn)估計(jì)。設(shè)X和Y是從pxy中抽取的兩組觀測(cè)樣本,Z=X×Y={(x1,y1),…,(xn,yn)},Kx,Ky∈Rn×n分別是X和Y的核矩陣,則:
HSIC(Z,F,G)=(n-1)-2tr(KxHKyH)
其中為中心化矩陣。由于上式有效且應(yīng)用方便,HSIC已被應(yīng)用在特征抽取和特征選擇等領(lǐng)域。通常的方法是最大化抽取或選擇的特征與標(biāo)簽之間的依賴,即最小化獨(dú)立性。然而,在領(lǐng)域適配問(wèn)題中用HSIC來(lái)最大化子空間中特征與背景特征之間的獨(dú)立性。
子空間中樣本的方差最大的目的在于使得樣本中保留有用的信息或重要結(jié)構(gòu)信息;
在上述兩個(gè)條件下,根據(jù)線性函數(shù)關(guān)系能夠獲得第一投影矩陣W。
實(shí)施例三
更進(jìn)一步地,參見(jiàn)圖3,上述實(shí)施例二中的步驟S34包括:
步驟S34a,由所述子空間中樣本內(nèi)積的核函數(shù)Kz、所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd及HSIC獨(dú)立準(zhǔn)則的經(jīng)驗(yàn)估計(jì)公式:HSIC(Z,F,G)=(n-1)-2tr(KxHKyH)獲得決定HSIC值的關(guān)鍵因子:
tr(Kz×H×Kd×H)=tr(Kx×W×WT×Kx×H×Kd×H);
相當(dāng)于在子空間和背景特征空間中抽取獨(dú)立樣本,HSIC值最小時(shí),兩者之間的獨(dú)立性越大,因此在下面的步驟中,使得HSIC值的關(guān)鍵因子最??;
步驟S34b,由所述子空間中樣本Z與非線性映射函數(shù)內(nèi)積的核函數(shù)Kx及所述第一投影矩陣W的關(guān)系式:Z=Kx×W,計(jì)算子空間樣本的協(xié)方差矩陣:
cov(Z)=WT×Kx×H×Kx×W;
通過(guò)子空間樣本的協(xié)方差矩陣的跡最大來(lái)獲得方差的最大值;以此實(shí)現(xiàn)子空間中的樣本保留重要結(jié)構(gòu)信息;
步驟S34c,根據(jù)HSIC值的關(guān)鍵因子和子空間樣本的協(xié)方差矩陣,獲得MIDA最大獨(dú)立領(lǐng)域適配算法目標(biāo)函數(shù):
Y=-tr(WT×Kx×H×Kd×H×Kx×W)+μ×tr(WT×Kx×H×Kx×W)
其中:μ為權(quán)重系數(shù),μ>0,Kx為非線性映射函數(shù)內(nèi)積的核函數(shù),W為所述第一投影矩陣,且滿足:WT×W=I,H滿足:I是單位矩陣,n為樣本空間中樣本的數(shù)量;
首先需要根據(jù)子空間樣本的協(xié)方差矩陣獲得子空間樣本的協(xié)方差矩陣的軌跡:
tr(WT×Kx×H×Kx×W)
然后根據(jù)MIDA最大獨(dú)立領(lǐng)域適配算法的核心思想,HSIC值的關(guān)鍵因子取最小值,保證抽取的來(lái)自兩個(gè)領(lǐng)域的獨(dú)立樣本之間的獨(dú)立性最大;子空間樣本的方差最大保證每個(gè)抽取的獨(dú)立樣本保留最多的重要結(jié)構(gòu)信息,這里通過(guò)使得子空間樣本的協(xié)方差矩的跡最大來(lái)實(shí)現(xiàn)子空間樣本的方差最大,因此MIDA最大獨(dú)立領(lǐng)域適配算法目標(biāo)函數(shù):
Y=-tr(WT×Kx×H×Kd×H×Kx×W)+μ×tr(WT×Kx×H×Kx×W)
HSIC值的關(guān)鍵因子數(shù)值越小,目標(biāo)函數(shù)的前半部分的值越大,子空間樣本的協(xié)方差矩的跡越大,目標(biāo)函數(shù)的后半部分的值越大;因子后面只要在目標(biāo)函數(shù)值Y最大時(shí),獲取變量的值能夠滿足需要的結(jié)果:抽取的來(lái)自兩個(gè)領(lǐng)域的獨(dú)立樣本之間的獨(dú)立性最大;每個(gè)抽取的獨(dú)立樣本保留最多的重要結(jié)構(gòu)信息。
步驟S34d,在所述MIDA最大獨(dú)立領(lǐng)域適配算法目標(biāo)函數(shù)的函數(shù)值Y最大時(shí),獲取與所述函數(shù)值Y對(duì)應(yīng)的變量,即獲得所述第一投影矩陣W。這里的變量就是第一投影矩陣W。
實(shí)施例四
再進(jìn)一步地,作為實(shí)施例四,參見(jiàn)圖4,在實(shí)施例三的基礎(chǔ)上,步驟S34d包括:
步驟d1,利用拉格朗日乘子法構(gòu)造中間函數(shù):
tr(WT×Kx×(-H×Kd×H+μ×H)×Kx×W)-tr((WT×W-I)×Λ)
其中Λ為拉格朗日乘子矩陣;
所述中間函數(shù)對(duì)W的導(dǎo)數(shù)為:
Y'=Kx×(-H×Kd×H+μ×H)×Kx×W-W×Λ
步驟d2,在所述中間函數(shù)對(duì)W的導(dǎo)數(shù)值Y’為零時(shí),可得所述第一投影矩陣W是矩陣Kx×(-H×Kd×H+μ×H)×Kx的最大特征值對(duì)應(yīng)的特征向量;
其中所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx為以下線性核函數(shù)(k(x,y)=xTy)、多項(xiàng)式(k(x,y)=(σxTy+1)d)或高斯徑向基函數(shù)中的一個(gè);其中所述σ為核參數(shù),d為核矩陣維度;
所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd滿足:Kd=DDT,其中,D為背景特征矩陣,若樣本i和樣本j來(lái)自不同設(shè)備,則(Kd)ij=0;若來(lái)自相同設(shè)備,則(Kd)ij=1或1+titj,t為樣本的采樣時(shí)間;
步驟d3,由所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx及所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd獲得所述第一投影矩陣W。
上述的實(shí)施例一至實(shí)施例四,訓(xùn)練樣本中沒(méi)有包括根據(jù)第一設(shè)備的響應(yīng)獲取對(duì)標(biāo)定氣體采樣的數(shù)據(jù),適用與無(wú)監(jiān)督領(lǐng)域適配算法。
最大獨(dú)立領(lǐng)域適配(Maximum Independence Domain Adaptation,MIDA)可以被視為一種特征抽取(feature extraction)算法,目標(biāo)在于學(xué)習(xí)一個(gè)領(lǐng)域不變子空間,利用Hilbert-Schmidt獨(dú)立性準(zhǔn)則來(lái)最大化子空間中的特征與背景特征之間的獨(dú)立性。直觀來(lái)講,子空間中的特征與背景特征獨(dú)立意味著我們不能通過(guò)一個(gè)樣本在子空間中的位置來(lái)推斷它的背景,也就是說(shuō)不同背景的樣本不存在分布差異。根據(jù)Ben-David等人的理論,為了取得較好的領(lǐng)域適配效果,需要使得不同領(lǐng)域的樣本變得難以區(qū)分,這與我們的思路是一致的。通過(guò)這種方式,我們不僅可以對(duì)兩個(gè)離散領(lǐng)域進(jìn)行適配,還可以處理多個(gè)離散領(lǐng)域和連續(xù)分布變化的情況。
實(shí)施例五,
在實(shí)施例三的基礎(chǔ)上,步驟S34d還包括:
步驟d4,當(dāng)所述訓(xùn)練樣本中包含有標(biāo)簽樣本時(shí),根據(jù)第一設(shè)備的響應(yīng)獲取對(duì)標(biāo)準(zhǔn)成分及標(biāo)準(zhǔn)含量的氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為所述標(biāo)簽樣本,并定義所述訓(xùn)練樣本的標(biāo)簽矩陣,獲得標(biāo)簽矩陣的核函數(shù)Ky:
所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd滿足:Kd=DDT,其中,D為背景特征矩陣,若樣本i和樣本j來(lái)自不同設(shè)備,則(Kd)ij=0;若來(lái)自相同設(shè)備,則(Kd)ij=1或1+titj,t為樣本的采樣時(shí)間;
所述標(biāo)簽矩陣的核函數(shù)Ky滿足:
Ky=Y(jié)×YT
對(duì)于c類分類問(wèn)題使用啞變量編碼方式,即標(biāo)簽矩陣Y∈Rn×c,若xi為有標(biāo)簽樣本且屬于第j類,則Yij=1;否則Yij=0;對(duì)于回歸問(wèn)題,首先將標(biāo)簽的均值設(shè)置為0、標(biāo)簽的方差設(shè)置為1,然后定義標(biāo)簽矩陣Y∈Rn,若xi為有標(biāo)簽樣本,則Yi等于該標(biāo)簽值;否則Yi=0;其中,對(duì)于分類問(wèn)題,如果所有可能出現(xiàn)的類型數(shù)為c類,就叫c類分類,例如:按性別分類問(wèn)題,一般只有兩種可能的類型,可以叫二類分類,這里統(tǒng)一定義類型為c類,便于后面的標(biāo)簽矩陣的關(guān)系式表達(dá)。
步驟d5,根據(jù)所述HSIC值的關(guān)鍵因子、子空間樣本的協(xié)方差矩陣、標(biāo)簽矩陣的核函數(shù)獲得SMIDA半監(jiān)督最大獨(dú)立領(lǐng)域適配目標(biāo)函數(shù):
P=-tr(WT×Kx×(-H×Kd×H+μ×H+γ×H×Ky×H)×Kx×H)
其中:γ為權(quán)重系數(shù),γ>0;
步驟d6,在所述SMIDA半監(jiān)督最大獨(dú)立領(lǐng)域適配目標(biāo)函數(shù)的函數(shù)值P最大時(shí),獲取與所述函數(shù)值P對(duì)應(yīng)的變量,即所述第一投影矩陣W為矩陣Kx×(-H×Kd×H+μ×H+γ×H×Ky×H)×Kx的最大特征值對(duì)應(yīng)的特征向量;
其中所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx為以下線性核函數(shù)(k(x,y)=xTy)、多項(xiàng)式(k(x,y)=(σxTy+1)d)或高斯徑向基函數(shù)中的一個(gè);其中所述σ為核參數(shù),d為核矩陣維度;
步驟d7,由所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx、所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd及標(biāo)簽矩陣的核函數(shù)Ky獲得所述第一投影矩陣W。
MIDA在縮小不同背景樣本的分布差異時(shí)沒(méi)有考慮樣本的標(biāo)簽。如果部分樣本標(biāo)簽已知,將其結(jié)合到學(xué)習(xí)過(guò)程中有利于提高子空間中特征的鑒別能力。提高特征的鑒別能力也可以降低領(lǐng)域適配誤差上界。因此,我們將無(wú)監(jiān)督情況下的MIDA拓展到半監(jiān)督情況,并命名為SMIDA(Semi-supervised MIDA)。在SMIDA中,無(wú)標(biāo)簽和有標(biāo)簽樣本都可以來(lái)自任何領(lǐng)域。SMIDA利用HSIC最大化子空間中有標(biāo)簽樣本的特征與標(biāo)簽的依賴性。用這種方式利用樣本標(biāo)簽的好處在于,不管是分類問(wèn)題中的離散標(biāo)簽還是回歸問(wèn)題中的連續(xù)標(biāo)簽,都可以被統(tǒng)一地集成到算法中。
數(shù)據(jù)集中,選取了對(duì)應(yīng)五種疾病的呼氣樣本,分別是糖尿病、慢性腎病、心臟病、肺癌、乳腺癌。這些疾病已被證明與特定呼氣標(biāo)志物相關(guān)。我們對(duì)健康樣本和每種疾病樣本進(jìn)行二分類,比較無(wú)遷移、基于PCA的成分校正(CC-PCA)方法以及本研究提出的幾種方法的識(shí)別率,如表1.3。
表1.3漂移補(bǔ)償方法識(shí)別率比較
表1.4總結(jié)比較了不同漂移補(bǔ)償方法的特點(diǎn)
表1.4 TMTL、DCAE和MIDA的算法差異
本發(fā)明通過(guò)采用大數(shù)據(jù)支持下的漂移補(bǔ)償方法,縮小了使不同設(shè)備、不同時(shí)間采集到氣體樣本間的設(shè)備差異和時(shí)變漂移。
本發(fā)明還提供一種呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)裝置,參照?qǐng)D6,在一實(shí)施例中,本發(fā)明提供的呼吸氣體診斷系統(tǒng)的領(lǐng)域自適應(yīng)裝置包括:
第一獲取模塊10,用于根據(jù)第一設(shè)備的響應(yīng)獲取對(duì)已知病患者呼吸氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為訓(xùn)練樣本;
利用電子鼻實(shí)地采集了健康人和各種病人的呼氣樣本,樣本的詳細(xì)情況如表1.1所示。所有樣本都由醫(yī)院提供了診斷標(biāo)簽。目前數(shù)據(jù)庫(kù)數(shù)據(jù)量超過(guò)10000條,涵蓋了包括糖尿病、高血壓、心臟病、肺病、腎病、乳腺疾病等四十余種常見(jiàn)、非常見(jiàn)疾病,為挖掘呼氣和疾病間的對(duì)應(yīng)關(guān)系提供了足夠的數(shù)據(jù)支持。
表1.1呼氣大數(shù)據(jù)樣本疾病分布表
在采集病人呼氣樣本的同時(shí),還記錄了病人的實(shí)時(shí)血糖、血脂等生化指標(biāo),以便后續(xù)對(duì)全面的身體狀況檢測(cè)進(jìn)行實(shí)驗(yàn),如表1.2所示。
表1.2呼氣大數(shù)據(jù)樣本生化指標(biāo)分布表
這里的第一設(shè)備為電子鼻,根據(jù)電子鼻的響應(yīng)采集的數(shù)據(jù)很多是沒(méi)有用的,這里按照預(yù)定規(guī)則從采集的這些數(shù)據(jù)中提取有價(jià)值的目標(biāo)數(shù)據(jù)作為訓(xùn)練樣本,這里的目標(biāo)數(shù)據(jù)實(shí)際上是對(duì)采集的數(shù)據(jù)中一部分還有有用信息的數(shù)據(jù)的一個(gè)命名,訓(xùn)練樣本的集合可理解為源領(lǐng)域或源數(shù)據(jù)集,在機(jī)器的學(xué)習(xí)領(lǐng)域,根據(jù)源數(shù)據(jù)集建立一個(gè)預(yù)測(cè)模型,預(yù)測(cè)根據(jù)從設(shè)備的響應(yīng)獲取的目標(biāo)數(shù)據(jù)集的響應(yīng)變量值。這里的第一設(shè)備也可理解為主設(shè)備,具體使用過(guò)程中,會(huì)將訓(xùn)練樣本拷貝到第二設(shè)備、第三設(shè)備等從設(shè)備中。
第二獲取模塊20,用于根據(jù)第二設(shè)備的響應(yīng)獲取對(duì)待測(cè)病患者呼吸氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為測(cè)試樣本;所述訓(xùn)練樣本和測(cè)試樣本共同構(gòu)成樣本空間;所述訓(xùn)練樣本的背景特征及測(cè)試樣本的背景特征構(gòu)成背景特征空間;
這里的第二設(shè)備也是電子鼻,但是與第一獲取模塊10中提到的第一設(shè)備不是同一臺(tái)電子鼻,第二設(shè)備可理解為從設(shè)備,上述根據(jù)源數(shù)據(jù)集建立的預(yù)測(cè)模型希望能用在若干從設(shè)備上;測(cè)量樣本構(gòu)成的空間可理解為目標(biāo)數(shù)據(jù)集,在實(shí)際運(yùn)算過(guò)程中,獲取的所有樣本包括練樣本和測(cè)試樣本共同構(gòu)成樣本空間,
設(shè)X∈Rn×m為樣本空間,即包含原始特征向量的樣本矩陣,原始特征維度為m,樣本數(shù)為n,其中既包含訓(xùn)練也包含測(cè)試樣本。與DCAE類似,這里我們不需要指明每個(gè)樣本x屬于哪個(gè)領(lǐng)域(源領(lǐng)域或目標(biāo)領(lǐng)域),相關(guān)信息蘊(yùn)含在這些樣本的背景特征中。這里的背景特征可以是來(lái)自同一設(shè)備、來(lái)自不同設(shè)備、來(lái)自同一時(shí)間、或不同時(shí)間等,具體可定義一個(gè)背景特征矩陣來(lái)表達(dá)。傳統(tǒng)的機(jī)器學(xué)習(xí)假定訓(xùn)練域(源領(lǐng)域)與測(cè)試域(目標(biāo)領(lǐng)域)獨(dú)立同分布,將由訓(xùn)練數(shù)據(jù)集得到的模型直接應(yīng)用于測(cè)試集。但在實(shí)際應(yīng)用中,這種假設(shè)并不一定成立,若訓(xùn)練域與測(cè)試域分布存在差異,則傳統(tǒng)機(jī)器學(xué)習(xí)的性能將會(huì)大大降低,而實(shí)際應(yīng)用中,源領(lǐng)域與目標(biāo)領(lǐng)域之間存在較大的差距。
計(jì)算模塊30,用于根據(jù)kernel trick核戲法、背景特征空間、HSIC獨(dú)立準(zhǔn)則、MIDA最大獨(dú)立領(lǐng)域適配算法獲得第一投影矩陣;
要去解決上述這個(gè)問(wèn)題并跨不同目標(biāo)領(lǐng)域構(gòu)建預(yù)測(cè)模型。為此,本文提出了一種基于核分布嵌入和Hilbert-Schmidt獨(dú)立準(zhǔn)則的方法。該方法將源數(shù)據(jù)和目標(biāo)數(shù)據(jù)嵌入在一個(gè)新的特征空間中。新的特征空間具有兩個(gè)屬性:1)源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的分布盡可能相似;2)關(guān)于數(shù)據(jù)的重要結(jié)構(gòu)信息被保存下來(lái)。嵌入數(shù)據(jù)在一個(gè)較低維度的空間中并同時(shí)保留了之前的兩個(gè)屬性。因此,該方法也能被看作是一種降維方法。該方法具有閉合形式解并且實(shí)驗(yàn)表明其能夠有效處理實(shí)際數(shù)據(jù)。
遷移模塊40,用于經(jīng)所述第一投影矩陣將所述樣本空間投影到一個(gè)高維特征空間,以使所述訓(xùn)練樣本及測(cè)試樣本按照同一特征呈線性分布。
可理解為以第一投影矩陣為遷移規(guī)則,將上述的樣本空間遷移到高維特征空間,在這個(gè)高維特征空間中,訓(xùn)練樣本與測(cè)試樣本的分布的差異很小,或者說(shuō)訓(xùn)練樣本的分布與測(cè)試樣本的分布之間彼此獨(dú)立,相互依賴性很低或不存在,所述訓(xùn)練樣本及測(cè)試樣本按照同一特征呈線性分布,并且關(guān)于樣本數(shù)據(jù)的重要結(jié)構(gòu)信息能夠被保留在遷移后的樣本信息中,由于保留了樣本數(shù)據(jù)的重要結(jié)構(gòu)信息,用遷移到高維特征空間后的訓(xùn)練樣本結(jié)合疾病標(biāo)簽訓(xùn)練學(xué)習(xí)疾病分類模型;用所述疾病分類模型對(duì)遷移后的測(cè)試樣本進(jìn)行疾病分類預(yù)測(cè),并輸出診斷結(jié)果;相對(duì)于現(xiàn)有技術(shù),本方案縮小了使不同設(shè)備、不同時(shí)間采集到氣體樣本間的設(shè)備差異和時(shí)變漂移,提高了系統(tǒng)的學(xué)習(xí)性能和診斷的準(zhǔn)確率。
實(shí)施例二
進(jìn)一步地,參見(jiàn)圖7,在所述樣本空間由多個(gè)原始特征向量構(gòu)成時(shí),其中所述計(jì)算模塊30包括:
映射模塊31,用于用非線性映射函數(shù)把所述原始特征向量映射到所述高維特征空間;
這里的非線性映射函數(shù)用Φ(X)表示,基于核技巧(kernel trick),非線性映射函數(shù)的具體形式Φ并不需要給出,只需要將Φ(X)的內(nèi)積用一個(gè)核矩陣代替Kx=Φ(X)Φ(X)T。
投影模塊32,用于定義第二投影矩陣將高維特征空間投影到所述第一投影矩陣,投影后的樣本構(gòu)成子空間;
第一投影矩陣用W表示,第二投影矩陣用表示,假設(shè)子空間的維度為h,高維特征空間中的樣本用Φ(X)表示,步驟S32可理解為定義第二投影矩陣用將Φ(X)投影到第一投影矩陣W中,投影后的樣本滿足:
核戲法模塊33,用于根據(jù)kernel trick核戲法獲得非線性映射函數(shù)內(nèi)積的核函數(shù),獲得所述子空間中樣本與非線性映射函數(shù)內(nèi)積的核函數(shù)及所述第一投影矩陣的關(guān)系式,進(jìn)而獲得所述子空間中樣本內(nèi)積的核函數(shù);
基于核戲法(kernel trick),非線性映射函數(shù)的具體形式Φ并不需要給出,只需要將Φ(X)的內(nèi)積用一個(gè)核矩陣或核函數(shù)Kx=Φ(X)Φ(X)T代替。
核子空間學(xué)習(xí)中,可以用高維空間中的樣本的線性組合來(lái)表達(dá)第二投影矩陣,即第一投影矩陣W∈Rn×h才是真正需要學(xué)習(xí)的投影矩陣。這時(shí),子空間中的樣本可表達(dá)為:
Z=Φ(X)Φ(X)TW=KxW
其核矩陣為:
Kz=KxWWTKx
適配模塊34,用于從所述子空間和背景特征空間中分別抽取獨(dú)立樣本,通過(guò)HSIC獨(dú)立準(zhǔn)則使得從所述子空間中樣本與背景特征空間中抽取的獨(dú)立樣本之間的獨(dú)立性最大;并使得所述子空間中樣本的方差最大,獲得所述第一投影矩陣。
HSIC獨(dú)立準(zhǔn)則(Hilbert-Schmidt Independence Criterion,HSIC)是一種用來(lái)度量?jī)蓚€(gè)隨機(jī)變量的獨(dú)立性的準(zhǔn)則。設(shè)兩個(gè)隨機(jī)變量的聯(lián)合分布是pxy,它們的核函數(shù)分別是kx和ky,對(duì)應(yīng)著兩個(gè)RKHS:F和G。HSIC定義為互協(xié)方差運(yùn)算符Cxy的Hilbert-Schmidt范數(shù)的平方:
這里Exx′yy′是對(duì)從pxy中抽取的獨(dú)立樣本組合(x,y)和(x′,y′)求取的期望。可以證明,對(duì)于典型核函數(shù)(characteristic kernels)kx和ky,HSIC(pxy,F,G)為0當(dāng)且僅當(dāng)兩個(gè)隨機(jī)變量獨(dú)立。HSIC越大,兩個(gè)隨機(jī)變量的依賴性越強(qiáng)(在所選核函數(shù)意義下)。
HSIC有一個(gè)有偏經(jīng)驗(yàn)估計(jì)。設(shè)X和Y是從pxy中抽取的兩組觀測(cè)樣本,Z=X×Y={(x1,y1),…,(xn,yn)},Kx,Ky∈Rn×n分別是X和Y的核矩陣,則:
HSIC(Z,F,G)=(n-1)-2tr(KxHKyH)
其中為中心化矩陣。由于上式有效且應(yīng)用方便,HSIC已被應(yīng)用在特征抽取和特征選擇等領(lǐng)域。通常的方法是最大化抽取或選擇的特征與標(biāo)簽之間的依賴,即最小化獨(dú)立性。然而,在領(lǐng)域適配問(wèn)題中用HSIC來(lái)最大化子空間中特征與背景特征之間的獨(dú)立性。
子空間中樣本的方差最大的目的在于使得樣本中保留有用的信息或重要結(jié)構(gòu)信息;
在上述兩個(gè)條件下,根據(jù)線性關(guān)系能夠獲得第一投影矩陣W。
實(shí)施例三
更進(jìn)一步地,參見(jiàn)圖8,所述適配模塊34包括:
HSIC模塊34a,用于由所述子空間中樣本內(nèi)積的核函數(shù)Kz、所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd及HSIC獨(dú)立準(zhǔn)則的經(jīng)驗(yàn)估計(jì)公式獲得決定HSIC值的關(guān)鍵因子:
tr(Kz×H×Kd×H)=tr(Kx×W×WT×Kx×H×Kd×H);
相當(dāng)于在子空間和背景特征空間中抽取獨(dú)立樣本,HSIC值最小時(shí),兩者之間的獨(dú)立性越大,因此在下面的步驟中,使得HSIC值的關(guān)鍵因子最?。?/p>
方差模塊34b,用于由所述子空間中樣本Z與非線性映射函數(shù)內(nèi)積的核函數(shù)Kx及所述第一投影矩陣W的關(guān)系式:Z=Kx×W,計(jì)算子空間樣本的協(xié)方差矩陣:
cov(Z)=WT×Kx×H×Kx×W;
通過(guò)子空間樣本的協(xié)方差矩陣的跡最大來(lái)獲得方差的最大值;以此實(shí)現(xiàn)子空間中的樣本保留重要結(jié)構(gòu)信息;
MIDA模塊34c,根據(jù)HSIC值的關(guān)鍵因子和子空間樣本的協(xié)方差矩陣的跡,獲得MIDA最大獨(dú)立領(lǐng)域適配算法目標(biāo)函數(shù):
Y=-tr(WT×Kx×H×Kd×H×Kx×W)+μ×tr(WT×Kx×H×Kx×W)
其中:μ為權(quán)重系數(shù),μ>0,Kx為非線性映射函數(shù)內(nèi)積的核函數(shù),,W為所述第一投影矩陣,且滿足:WT×W=I,H滿足:I是單位矩陣,n為樣本空間中樣本的數(shù)量;
解析模塊34d,用于在所述MIDA最大獨(dú)立領(lǐng)域適配算法目標(biāo)函數(shù)的函數(shù)值Y最大時(shí),獲取與所述函數(shù)值Y對(duì)應(yīng)的變量,即獲得所述第一投影矩陣W。
這里的變量就是第一投影矩陣W。
實(shí)施例四
再進(jìn)一步地,參見(jiàn)圖9,所述解析模塊到34d包括:
函數(shù)構(gòu)造模塊d1,用于利用拉格朗日乘子法構(gòu)造中間函數(shù):
tr(WT×Kx×(-H×Kd×H+μ×H)×Kx×W)-tr((WT×W-I)×Λ)
其中Λ為拉格朗日乘子矩陣;
算子模塊d2,用于令所述中間函數(shù)對(duì)W的導(dǎo)數(shù)為:
Y'=Kx×(-H×Kd×H+μ×H)×Kx×W-W×Λ
在所述中間函數(shù)對(duì)W的導(dǎo)數(shù)值Y’為零時(shí),可得所述第一投影矩陣W是矩陣Kx×(-H×Kd×H+μ×H)×Kx的最大特征值對(duì)應(yīng)的特征向量;
其中所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx為以下線性核函數(shù)(k(x,y)=xTy)、多項(xiàng)式(k(x,y)=(σxTy+1)d)或高斯徑向基函數(shù)中的一個(gè);其中所述σ為核參數(shù),d為核矩陣維度;
所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd滿足:Kd=DDT,其中,D為背景特征矩陣,若樣本i和樣本j來(lái)自不同設(shè)備,則(Kd)ij=0;若來(lái)自相同設(shè)備,則(Kd)ij=1或1+titj,t為樣本的采樣時(shí)間;
由所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx及所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd獲得所述第一投影矩陣W。
上述的實(shí)施例一至實(shí)施例四,訓(xùn)練樣本中沒(méi)有包括根據(jù)第一設(shè)備的響應(yīng)獲取對(duì)標(biāo)定氣體采樣的數(shù)據(jù),適用與無(wú)監(jiān)督領(lǐng)域適配算法。
最大獨(dú)立領(lǐng)域適配(Maximum Independence Domain Adaptation,MIDA)可以被視為一種特征抽取(feature extraction)算法,目標(biāo)在于學(xué)習(xí)一個(gè)領(lǐng)域不變子空間,利用Hilbert-Schmidt獨(dú)立性準(zhǔn)則來(lái)最大化子空間中的特征與背景特征之間的獨(dú)立性。直觀來(lái)講,子空間中的特征與背景特征獨(dú)立意味著我們不能通過(guò)一個(gè)樣本在子空間中的位置來(lái)推斷它的背景,也就是說(shuō)不同背景的樣本不存在分布差異。根據(jù)Ben-David等人的理論,為了取得較好的領(lǐng)域適配效果,需要使得不同領(lǐng)域的樣本變得難以區(qū)分,這與我們的思路是一致的。通過(guò)這種方式,我們不僅可以對(duì)兩個(gè)離散領(lǐng)域進(jìn)行適配,還可以處理多個(gè)離散領(lǐng)域和連續(xù)分布變化的情況。
作為實(shí)施例五,參見(jiàn)圖10,在實(shí)施例三的基礎(chǔ)上:
當(dāng)所述訓(xùn)練樣本中包含有標(biāo)簽樣本時(shí);
所述第一模塊10,還用于根據(jù)第一設(shè)備的響應(yīng)獲取對(duì)標(biāo)準(zhǔn)成分及標(biāo)準(zhǔn)含量的氣體進(jìn)行采樣的數(shù)據(jù),按照預(yù)定規(guī)則從所述數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)作為所述標(biāo)簽樣本;
適配模塊34包括:
自定義模塊34e;用于定義所述訓(xùn)練樣本的標(biāo)簽矩陣,獲得標(biāo)簽矩陣的核函數(shù)Ky:
SMIDA模塊34f,用于根據(jù)所述HSIC值的關(guān)鍵因子、子空間樣本的協(xié)方差矩陣的跡、標(biāo)簽矩陣的核函數(shù)獲得SMIDA半監(jiān)督最大獨(dú)立領(lǐng)域適配目標(biāo)函數(shù):
P=-tr(WT×Kx×(-H×Kd×H+μ×H+γ×H×Ky×H)×Kx×H)
其中γ為權(quán)重系數(shù),γ>0;
所述解析模塊34d,還用于在所述SMIDA半監(jiān)督最大獨(dú)立領(lǐng)域適配目標(biāo)函數(shù)的函數(shù)值P最大時(shí),獲取與所述函數(shù)值P對(duì)應(yīng)的變量,即獲得所述第一投影矩陣W為矩陣Kx×(-H×Kd×H+μ×H+γ×H×Ky×H)×Kx的最大特征值對(duì)應(yīng)的特征向量;
其中所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx為以下線性核函數(shù)(k(x,y)=xTy)、多項(xiàng)式(k(x,y)=(σxTy+1)d)或高斯徑向基函數(shù)中的一個(gè);其中所述σ為核參數(shù),d為核矩陣維度;
所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd滿足:Kd=DDT,其中,D為背景特征矩陣,若樣本i和樣本j來(lái)自不同設(shè)備,則(Kd)ij=0;若來(lái)自相同設(shè)備,則(Kd)ij=1或1+titj,t為樣本的采樣時(shí)間;
所述標(biāo)簽矩陣的核函數(shù)Ky滿足:
Ky=Y(jié)×YT
對(duì)于c類分類問(wèn)題使用啞變量編碼方式,即標(biāo)簽矩陣Y∈Rn×c,若xi為有標(biāo)簽樣本且屬于第j類,則Yij=1;否則Yij=0;對(duì)于回歸問(wèn)題,首先將標(biāo)簽的均值設(shè)置為0、標(biāo)簽的方差設(shè)置為1,然后定義標(biāo)簽矩陣Y∈Rn,若xi為有標(biāo)簽樣本,則Yi等于該標(biāo)簽值;否則Yi=0;其中,對(duì)于分類問(wèn)題,如果所有可能出現(xiàn)的類型數(shù)為c類,就叫c類分類,例如:按性別分類問(wèn)題,一般只有兩種可能的類型,可以叫二類分類,這里統(tǒng)一定義類型為c類,便于后面的標(biāo)簽矩陣的關(guān)系式表達(dá)。
由所述非線性映射函數(shù)內(nèi)積的核函數(shù)Kx、所述背景特征空間中樣本內(nèi)積的核函數(shù)Kd及標(biāo)簽矩陣的核函數(shù)Ky獲得所述第一投影矩陣W。
MIDA在縮小不同背景樣本的分布差異時(shí)沒(méi)有考慮樣本的標(biāo)簽。如果部分樣本標(biāo)簽已知,將其結(jié)合到學(xué)習(xí)過(guò)程中有利于提高子空間中特征的鑒別能力。提高特征的鑒別能力也可以降低領(lǐng)域適配誤差上界。因此,我們將無(wú)監(jiān)督情況下的MIDA拓展到半監(jiān)督情況,并命名為SMIDA(Semi-supervised MIDA)。在SMIDA中,無(wú)標(biāo)簽和有標(biāo)簽樣本都可以來(lái)自任何領(lǐng)域。SMIDA利用HSIC最大化子空間中有標(biāo)簽樣本的特征與標(biāo)簽的依賴性。用這種方式利用樣本標(biāo)簽的好處在于,不管是分類問(wèn)題中的離散標(biāo)簽還是回歸問(wèn)題中的連續(xù)標(biāo)簽,都可以被統(tǒng)一地集成到算法中。
數(shù)據(jù)集中,選取了對(duì)應(yīng)五種疾病的呼氣樣本,分別是糖尿病、慢性腎病、心臟病、肺癌、乳腺癌。這些疾病已被證明與特定呼氣標(biāo)志物相關(guān)。我們對(duì)健康樣本和每種疾病樣本進(jìn)行二分類,比較無(wú)遷移、基于PCA的成分校正(CC-PCA)方法以及本研究提出的幾種方法的識(shí)別率,如表1.3。
表1.3漂移補(bǔ)償方法識(shí)別率比較
表1.4總結(jié)比較了不同漂移補(bǔ)償方法的特點(diǎn)
表1.4 TMTL、DCAE和MIDA的算法差異
本發(fā)明通過(guò)采用大數(shù)據(jù)支持下的漂移補(bǔ)償方法,縮小了使不同設(shè)備、不同時(shí)間采集到氣體樣本間的設(shè)備差異和時(shí)變漂移。
以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。