一種基于信息熵的約簡(jiǎn)型支持向量數(shù)據(jù)描述方法
【專利摘要】本發(fā)明提供一種基于信息熵的約簡(jiǎn)型支持向量數(shù)據(jù)描述方法,首先利用核函數(shù)計(jì)算訓(xùn)練樣本在核空間中相互之間的距離,然后通過所得的結(jié)果計(jì)算訓(xùn)練樣本的信息熵值并通過信息熵值大小進(jìn)行訓(xùn)練樣本的約簡(jiǎn),接著將約簡(jiǎn)后的訓(xùn)練樣本根據(jù)支持向量數(shù)據(jù)描述方法計(jì)算得到所需的超球體,之后對(duì)測(cè)試樣本進(jìn)行判別,若測(cè)試樣本位于超球體之內(nèi)則判為目標(biāo)類樣本,反之則判為異常類樣本。相較于傳統(tǒng)的分類技術(shù),本發(fā)明的基于信息熵的支持向量數(shù)據(jù)描述方法通過盡量保留訓(xùn)練數(shù)據(jù)集邊界附近的樣本點(diǎn)的同時(shí)約簡(jiǎn)掉其它的訓(xùn)練樣本點(diǎn)進(jìn)行訓(xùn)練的過程,實(shí)現(xiàn)在保持SVDD算法分類精度的同時(shí)降低算法訓(xùn)練時(shí)間和減少內(nèi)存消耗的效果。
【專利說明】
一種基于信息熵的約簡(jiǎn)型支持向量數(shù)據(jù)描述方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于機(jī)器學(xué)習(xí)領(lǐng)域,特別涉及一種基于信息熵的約簡(jiǎn)型支持向量數(shù)據(jù)描述 算法。
【背景技術(shù)】
[0002] 模式識(shí)別系統(tǒng)中分類器的作用是根據(jù)特征提取得到的特征向量來給一個(gè)被測(cè)試 的對(duì)象賦一個(gè)類標(biāo)號(hào)。單類分類器是分類器中的一種特殊的情況。單類問題相對(duì)兩類或多 類問題而言,是指分類器模型在模式識(shí)別的訓(xùn)練階段只有一類數(shù)據(jù)可用,我們稱之為目標(biāo) 數(shù)據(jù)。在這種情況下,只能利用該類數(shù)據(jù)樣本進(jìn)行訓(xùn)練,而另一類樣本一般會(huì)出現(xiàn)采樣難的 情況,通常該類稱為非目標(biāo)類或者說成是異常類。單類分類器比較適合異常檢測(cè)的問題,其 在各種異常檢測(cè)應(yīng)用中有著非常顯著地效果。其中,支持向量數(shù)據(jù)描述(Support Vector Data Description,SVDD)就是單類分類器中廣泛使用的一種。
[0003] SVDD算法是一種基于邊界的方法,通過幾何圖形超球體對(duì)目標(biāo)數(shù)據(jù)進(jìn)行描述,該 方法是利用邊界對(duì)數(shù)據(jù)樣本進(jìn)行描述,從而分開野值點(diǎn)。主要是利用一個(gè)超球體去將目標(biāo) 數(shù)據(jù)樣本包含,并將位于超球體外的數(shù)據(jù)樣本視做異常點(diǎn)。該方法比較實(shí)質(zhì)的面對(duì)了單類 分類器描述目標(biāo)數(shù)據(jù)的問題,能夠適應(yīng)高維數(shù)據(jù)樣本的分類特點(diǎn)。
[0004] 在單分類問題中存在大量的目標(biāo)數(shù)據(jù)以及對(duì)應(yīng)的少數(shù)異常數(shù)據(jù)的不對(duì)稱問題, SVDD對(duì)此有很好的處理能力。但是作為一個(gè)有效的分類器,因?yàn)楹撕瘮?shù)的引用從而增加了 SVDD的訓(xùn)練的時(shí)間和空間復(fù)雜度,使得訓(xùn)練速度非常緩慢,并會(huì)消耗設(shè)備較多的內(nèi)存,這導(dǎo) 致了 SVDD在實(shí)際應(yīng)用中有較高的難度。
[0005] 熵(entropy)是德國物理學(xué)家克勞修斯在1850年創(chuàng)造的一個(gè)術(shù)語,在信息熵中,變 量的不確定性越大,熵也就越大,將其弄清楚所需要的信息量也就越大。對(duì)于數(shù)據(jù)樣本來 說,樣本的熵值越大,則認(rèn)為其不確定性越大,即該樣本進(jìn)行分類時(shí)的不確定性越大。而在 邊界分類的方法中,位于邊界附近的樣本點(diǎn)的不確定性較大。另外,在SVDD方法中,通過保 留邊界附近的訓(xùn)練樣本點(diǎn)而刪除遠(yuǎn)離邊界的訓(xùn)練樣本點(diǎn)是一種常用的降低訓(xùn)練時(shí)間的方 法。
[0006] 本發(fā)明通過將SVDD算法中所用到的訓(xùn)練樣本在核空間中的相互距離信息引入信 息熵,得到各個(gè)樣本的熵值信息,并對(duì)訓(xùn)練樣本集中的較小作用的樣本進(jìn)行約簡(jiǎn),保留有較 大作用的樣本,這方法能夠在保持SVDD算法分類精度的同時(shí)降低算法訓(xùn)練時(shí)間和減少內(nèi)存 消耗的效果,這對(duì)SVDD算法的推廣能夠起到重要的作用。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明要解決的技術(shù)問題在于針對(duì)SVDD算法高時(shí)空復(fù)雜度的缺點(diǎn),提供一種基于 信息熵的約簡(jiǎn)型支持向量數(shù)據(jù)描述方法,降低SVDD訓(xùn)練時(shí)間并減少內(nèi)存消耗。
[0008] 本發(fā)明解決其技術(shù)問題所提出一種基于信息熵的約簡(jiǎn)型支持向量數(shù)據(jù)描述方法。
[0009] 本算法的目標(biāo)是盡量保留訓(xùn)練數(shù)據(jù)集邊界附近的樣本點(diǎn)的同時(shí)約簡(jiǎn)掉其它的訓(xùn) 練樣本點(diǎn)進(jìn)行訓(xùn)練,步驟如下: 步驟1:利用核函數(shù)計(jì)算訓(xùn)練樣本在核空間中相互之間的距離; 步驟2:通過步驟1所得的結(jié)果計(jì)算訓(xùn)練樣本的信息熵值并通過信息熵值大小進(jìn)行訓(xùn)練 樣本的約簡(jiǎn); 步驟3:將約簡(jiǎn)后的訓(xùn)練樣本根據(jù)支持向量數(shù)據(jù)描述方法計(jì)算得到所需的超球體; 步驟4:對(duì)測(cè)試樣本進(jìn)行判別,若測(cè)試樣本位于超球體之內(nèi)則判為目標(biāo)類樣本,反之則 判為異常類樣本。
[0010] 本發(fā)明解決的技術(shù)問題所采用的技術(shù)方案還可以進(jìn)一步完善和推廣。本方法中所 提出的利用樣本的相互距離得到信息熵值方法可以在多類樣本中進(jìn)行考慮,利用樣本不同 類的信息進(jìn)行樣本熵值的計(jì)算,這種熵值的計(jì)算能夠更好的體現(xiàn)樣本的不確定性,對(duì)樣本 進(jìn)行約簡(jiǎn)后訓(xùn)練所得結(jié)果更佳。
[0011] 本發(fā)明的有益的效果是:基于信息熵的應(yīng)用,利用信息熵的特征表達(dá)訓(xùn)練樣本的 不確定性信息,約簡(jiǎn)訓(xùn)練樣本中對(duì)支持向量數(shù)據(jù)描述影響比較小的部分訓(xùn)練樣本使得在不 降低訓(xùn)練效果的情況下對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行約簡(jiǎn),達(dá)到降低算法訓(xùn)練時(shí)間和減少內(nèi)存消耗的 目的,并在部分?jǐn)?shù)據(jù)集上提高分辨精度的情況,使得SVDD算法能在機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用問 題中有一定的參考價(jià)值。
【附圖說明】
[0012] 圖1是本發(fā)明的基于信息熵的約簡(jiǎn)型支持向量數(shù)據(jù)描述方法流程圖。
【具體實(shí)施方式】
[0013] 本發(fā)明解決其技術(shù)問題具體實(shí)施方法如下,總共分為四步。
[0014] 第一步:計(jì)算訓(xùn)練樣本相互之間的空間距離和聚簇中心樣本。
[0015] 根據(jù)支持向量數(shù)據(jù)描述算法,樣本通過核函數(shù)Kt)映射到高維的特征空間(也稱作 核空間)來對(duì)數(shù)據(jù)進(jìn)行更好的描述,為保證算法的準(zhǔn)確度,計(jì)算樣本的信息熵也在核空間中 進(jìn)行。設(shè)訓(xùn)練樣本的數(shù)據(jù)集為而為 t…Λ},(η為訓(xùn)練樣本數(shù)目) 首先計(jì)算訓(xùn)練集中樣本在核空間的距離矩陣?yán)^S, 第i個(gè)樣本與第j個(gè)樣本在核空間中的距離計(jì)算公式如下
其中表示第i個(gè)樣本與第j個(gè)樣本在核空間中的歐式距離,K為核函數(shù)。
[0016] 第二步:計(jì)算訓(xùn)練樣本的信息熵值并對(duì)訓(xùn)練樣本進(jìn)行約簡(jiǎn)。
[0017] 1)第i個(gè)樣本與第j個(gè)樣本的概率P為第i個(gè)樣本與第j個(gè)樣本的距離除以第i個(gè)樣 本和所有樣本的距離之和,并注意樣本與自身的概率都設(shè)為1, 通過信息熵的計(jì)算公式得到,
其中出表示第i個(gè)樣本的信息熵的值。
[0018] 2)利用樣本之間的熵值大小可得到所需要的訓(xùn)練樣本,而對(duì)熵值較小的樣本進(jìn)行 約簡(jiǎn),在進(jìn)行訓(xùn)練集的約簡(jiǎn)之前,先利用樣本的信息熵值的大小設(shè)定閥值的大小,對(duì)小于閾 值的樣本熵值,對(duì)其進(jìn)行約簡(jiǎn); 通過自定義的觀得到信息熵的閾值|(其中霞仏綱渴),通過公式如下
依次判斷訓(xùn)練集中樣本的熵值與閾值i的大小,如果A > ^則將第i個(gè)樣本加入到新 的訓(xùn)練集γ中。
[0019] 3)用Y代替原始的訓(xùn)練集進(jìn)行SVDD的訓(xùn)練。
[0020] 第三步:將約簡(jiǎn)后的訓(xùn)練樣本進(jìn)行新的支持向量數(shù)據(jù)描述方法的訓(xùn)練。
[0021] 1)基于對(duì)SVDD進(jìn)行訓(xùn)練樣本的約簡(jiǎn)的前提下使用了一種對(duì)SVDD懲罰因子進(jìn)行改 進(jìn)的方法。對(duì)懲罰因子進(jìn)行改進(jìn)的SVDD目標(biāo)函數(shù)如下,
在目標(biāo)函數(shù)中u表示[0,1]之間的數(shù)值,其代表可接受的野值點(diǎn)在目標(biāo)數(shù)據(jù)中的比值,η 為訓(xùn)練樣本的數(shù)目?;谛畔㈧貙?duì)樣本進(jìn)行約簡(jiǎn)的算法,隨著訓(xùn)練樣本的不斷減少,導(dǎo)致支 持向量的數(shù)目減少,為了降低訓(xùn)練樣本數(shù)帶來的影響,
,可以彌 補(bǔ)訓(xùn)練集約簡(jiǎn)所帶來的影響,故而保持SVDD的性能不會(huì)隨著樣本數(shù)的減少而降低。
[0022] 2)引入拉格朗日因子,構(gòu)造拉格朗日函數(shù):
上式中拉格朗日因子%之〇,Ys >
[0023] 3)通過拉格朗日求解方法,即使得|對(duì)變量和R的偏微分為零,得
[0024] 4)通過(7)式的結(jié)果,帶入拉格朗日函數(shù)可得下面的對(duì)偶規(guī)劃函數(shù)
通過如上的對(duì)偶規(guī)劃可以得到拉格朗日因子_的值,其中t滿足以下式子
[0025]第四步:對(duì)測(cè)試樣本進(jìn)行判別 判斷樣本z是否屬于目標(biāo)類樣本可由以下決策函數(shù)判斷,若樣本z到球心的距離小于球 半徑,樣本Z判為目標(biāo)類
上式中超球體的球心|可以通過(7)式所得的爾值來確定,其中超球體半徑R=|%^_。
[0026] 實(shí)驗(yàn)結(jié)果 為了驗(yàn)證我們所提方法的有效性,我們選取UCI數(shù)據(jù)集進(jìn)行約簡(jiǎn)并和原始的支持向量 數(shù)據(jù)描述的性能進(jìn)行比較。
[0027] 實(shí)驗(yàn)環(huán)境{卩1]1.806取,861?艦,11^61(1〇父6〇11(1〇,¥預(yù)7,]\&^1&匕201013。試驗(yàn)中,選
,其中I取值為原始訓(xùn)練集中所有樣本空間距離(即 lh、、、乂/ = uη)的均值。每次的試驗(yàn)中依次討論了f值取值來自集合[0.1,0.2, 0.3,0.4,0.5,0.6,0.7,0.8,0.9],依次帶入取其中每個(gè)值的情況。3¥00的目標(biāo)函數(shù)中參數(shù)11 從[2 0,2 _1,2 _2,2 _3,2 _4,2 _5,2 _6]中選擇。
[0028] 利用UCI數(shù)據(jù)集進(jìn)行比較,數(shù)據(jù)集可以從http://archive. ics.uci .edu/ml/ index.html網(wǎng)站中下載獲得,表1給出了實(shí)驗(yàn)數(shù)據(jù)特征屬性。
[0029]表1 UCI實(shí)驗(yàn)數(shù)據(jù)集特征
表2 UCI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果 其中f為自定義參數(shù),SVs表示支持向量個(gè)數(shù),Time為總時(shí)間,G-Mean是一種不平衡數(shù) 據(jù)集的判斷標(biāo)準(zhǔn)。
[0030]
實(shí)驗(yàn)結(jié)果表明,和原始的支持向量數(shù)據(jù)描述方法比較,該約簡(jiǎn)方法達(dá)到了降低算法訓(xùn) 練時(shí)間目的,并在不同的f值上存在提高分辨精度的情況。
【主權(quán)項(xiàng)】
1. 一種基于信息熵的約簡(jiǎn)型支持向量數(shù)據(jù)描述方法,其特征在于包括以下步驟: 利用核函數(shù)計(jì)算訓(xùn)練樣本在核空間中相互之間的距離,通過所得的結(jié)果計(jì)算訓(xùn)練樣本 的信息熵值并通過信息熵值大小進(jìn)行訓(xùn)練樣本的約簡(jiǎn),將約簡(jiǎn)后的訓(xùn)練樣本根據(jù)支持向量 數(shù)據(jù)描述方法計(jì)算得到所需的超球體,之后對(duì)測(cè)試樣本進(jìn)行判別,若測(cè)試樣本位于超球體 之內(nèi)則判為目標(biāo)類樣本,反之則判為異常類樣本。2. 權(quán)利要求1種所描述的訓(xùn)練樣本在核空間中相互之間的距離,是指訓(xùn)練樣本在通過 核函數(shù)進(jìn)行映射之后的空間中計(jì)算樣本之間的距離,其特征在于通過核函數(shù)求得樣本間的 相互距離。3. 權(quán)利要求1所述的一種求得樣本信息熵的方法,其特征在于通過樣本之間的距離求 得樣本之間的概率即第i個(gè)樣本與第k個(gè)樣本的概率P為第i個(gè)樣本與第k個(gè)樣本的距離除 以第i個(gè)樣本和所有樣本的距離之和,并注意樣本與自身的概率都設(shè)為1;之后根據(jù)信息熵 公¥求得每個(gè)樣本的信息熵值大小。4. 權(quán)利要求1所述的一種加權(quán)支持向量數(shù)據(jù)描述方法,其特征在于約簡(jiǎn)樣本后對(duì)原始 支持向量數(shù)據(jù)描述算法進(jìn)行參數(shù)的改進(jìn)設(shè)計(jì),即原始參數(shù)C改為5. 權(quán)利要求1所述的一種基于信息熵對(duì)訓(xùn)練樣本進(jìn)行約簡(jiǎn)的方法中,其特征在于利用 自定義的f得到信息熵的閾值I,其值為樣本最大的熵值減去響與樣本最大的熵值減去樣 本最小的熵值之差的乘積,即0 = ?
【文檔編號(hào)】G06K9/62GK105868783SQ201610194127
【公開日】2016年8月17日
【申請(qǐng)日】2016年3月31日
【發(fā)明人】李冬冬, 王喆, 劉宇, 高大啟
【申請(qǐng)人】華東理工大學(xué)