一種基于信息熵的約簡型支持向量數(shù)據(jù)描述方法

文檔序號：10512753閱讀：561來源：國知局

一種基于信息熵的約簡型支持向量數(shù)據(jù)描述方法
【專利摘要】本發(fā)明提供一種基于信息熵的約簡型支持向量數(shù)據(jù)描述方法，首先利用核函數(shù)計算訓練樣本在核空間中相互之間的距離，然后通過所得的結果計算訓練樣本的信息熵值并通過信息熵值大小進行訓練樣本的約簡，接著將約簡后的訓練樣本根據(jù)支持向量數(shù)據(jù)描述方法計算得到所需的超球體，之后對測試樣本進行判別，若測試樣本位于超球體之內則判為目標類樣本，反之則判為異常類樣本。相較于傳統(tǒng)的分類技術，本發(fā)明的基于信息熵的支持向量數(shù)據(jù)描述方法通過盡量保留訓練數(shù)據(jù)集邊界附近的樣本點的同時約簡掉其它的訓練樣本點進行訓練的過程，實現(xiàn)在保持SVDD算法分類精度的同時降低算法訓練時間和減少內存消耗的效果。
【專利說明】
一種基于信息熵的約簡型支持向量數(shù)據(jù)描述方法
技術領域
[0001] 本發(fā)明屬于機器學習領域，特別涉及一種基于信息熵的約簡型支持向量數(shù)據(jù)描述算法。
【背景技術】
[0002] 模式識別系統(tǒng)中分類器的作用是根據(jù)特征提取得到的特征向量來給一個被測試的對象賦一個類標號。單類分類器是分類器中的一種特殊的情況。單類問題相對兩類或多類問題而言，是指分類器模型在模式識別的訓練階段只有一類數(shù)據(jù)可用，我們稱之為目標數(shù)據(jù)。在這種情況下，只能利用該類數(shù)據(jù)樣本進行訓練，而另一類樣本一般會出現(xiàn)采樣難的情況，通常該類稱為非目標類或者說成是異常類。單類分類器比較適合異常檢測的問題，其在各種異常檢測應用中有著非常顯著地效果。其中，支持向量數(shù)據(jù)描述（Support Vector Data Description，SVDD)就是單類分類器中廣泛使用的一種。
[0003] SVDD算法是一種基于邊界的方法，通過幾何圖形超球體對目標數(shù)據(jù)進行描述，該方法是利用邊界對數(shù)據(jù)樣本進行描述，從而分開野值點。主要是利用一個超球體去將目標數(shù)據(jù)樣本包含，并將位于超球體外的數(shù)據(jù)樣本視做異常點。該方法比較實質的面對了單類分類器描述目標數(shù)據(jù)的問題，能夠適應高維數(shù)據(jù)樣本的分類特點。
[0004] 在單分類問題中存在大量的目標數(shù)據(jù)以及對應的少數(shù)異常數(shù)據(jù)的不對稱問題， SVDD對此有很好的處理能力。但是作為一個有效的分類器，因為核函數(shù)的引用從而增加了 SVDD的訓練的時間和空間復雜度，使得訓練速度非常緩慢，并會消耗設備較多的內存，這導致了 SVDD在實際應用中有較高的難度。
[0005] 熵(entropy)是德國物理學家克勞修斯在1850年創(chuàng)造的一個術語，在信息熵中，變量的不確定性越大，熵也就越大，將其弄清楚所需要的信息量也就越大。對于數(shù)據(jù)樣本來說，樣本的熵值越大，則認為其不確定性越大，即該樣本進行分類時的不確定性越大。而在邊界分類的方法中，位于邊界附近的樣本點的不確定性較大。另外，在SVDD方法中，通過保留邊界附近的訓練樣本點而刪除遠離邊界的訓練樣本點是一種常用的降低訓練時間的方法。
[0006] 本發(fā)明通過將SVDD算法中所用到的訓練樣本在核空間中的相互距離信息引入信息熵，得到各個樣本的熵值信息，并對訓練樣本集中的較小作用的樣本進行約簡，保留有較大作用的樣本，這方法能夠在保持SVDD算法分類精度的同時降低算法訓練時間和減少內存消耗的效果，這對SVDD算法的推廣能夠起到重要的作用。

【發(fā)明內容】

[0007] 本發(fā)明要解決的技術問題在于針對SVDD算法高時空復雜度的缺點，提供一種基于信息熵的約簡型支持向量數(shù)據(jù)描述方法，降低SVDD訓練時間并減少內存消耗。
[0008] 本發(fā)明解決其技術問題所提出一種基于信息熵的約簡型支持向量數(shù)據(jù)描述方法。
[0009] 本算法的目標是盡量保留訓練數(shù)據(jù)集邊界附近的樣本點的同時約簡掉其它的訓練樣本點進行訓練，步驟如下：步驟1:利用核函數(shù)計算訓練樣本在核空間中相互之間的距離；步驟2:通過步驟1所得的結果計算訓練樣本的信息熵值并通過信息熵值大小進行訓練樣本的約簡；步驟3:將約簡后的訓練樣本根據(jù)支持向量數(shù)據(jù)描述方法計算得到所需的超球體；步驟4:對測試樣本進行判別，若測試樣本位于超球體之內則判為目標類樣本，反之則判為異常類樣本。
[0010] 本發(fā)明解決的技術問題所采用的技術方案還可以進一步完善和推廣。本方法中所提出的利用樣本的相互距離得到信息熵值方法可以在多類樣本中進行考慮，利用樣本不同類的信息進行樣本熵值的計算，這種熵值的計算能夠更好的體現(xiàn)樣本的不確定性，對樣本進行約簡后訓練所得結果更佳。
[0011] 本發(fā)明的有益的效果是:基于信息熵的應用，利用信息熵的特征表達訓練樣本的不確定性信息，約簡訓練樣本中對支持向量數(shù)據(jù)描述影響比較小的部分訓練樣本使得在不降低訓練效果的情況下對訓練數(shù)據(jù)集進行約簡，達到降低算法訓練時間和減少內存消耗的目的，并在部分數(shù)據(jù)集上提高分辨精度的情況，使得SVDD算法能在機器學習的實際應用問題中有一定的參考價值。
【附圖說明】
[0012] 圖1是本發(fā)明的基于信息熵的約簡型支持向量數(shù)據(jù)描述方法流程圖。
【具體實施方式】
[0013] 本發(fā)明解決其技術問題具體實施方法如下，總共分為四步。
[0014] 第一步:計算訓練樣本相互之間的空間距離和聚簇中心樣本。
[0015] 根據(jù)支持向量數(shù)據(jù)描述算法，樣本通過核函數(shù)Kt)映射到高維的特征空間（也稱作核空間）來對數(shù)據(jù)進行更好的描述，為保證算法的準確度，計算樣本的信息熵也在核空間中進行。設訓練樣本的數(shù)據(jù)集為而為 t…Λ}，（η為訓練樣本數(shù)目）首先計算訓練集中樣本在核空間的距離矩陣繼S，第i個樣本與第j個樣本在核空間中的距離計算公式如下
其中表示第i個樣本與第j個樣本在核空間中的歐式距離，K為核函數(shù)。
[0016] 第二步:計算訓練樣本的信息熵值并對訓練樣本進行約簡。
[0017] 1)第i個樣本與第j個樣本的概率P為第i個樣本與第j個樣本的距離除以第i個樣本和所有樣本的距離之和，并注意樣本與自身的概率都設為1，通過信息熵的計算公式得到，
其中出表示第i個樣本的信息熵的值。
[0018] 2)利用樣本之間的熵值大小可得到所需要的訓練樣本，而對熵值較小的樣本進行約簡，在進行訓練集的約簡之前，先利用樣本的信息熵值的大小設定閥值的大小，對小于閾值的樣本熵值，對其進行約簡；通過自定義的觀得到信息熵的閾值|(其中霞仏綱渴），通過公式如下
依次判斷訓練集中樣本的熵值與閾值i的大小，如果A > ^則將第i個樣本加入到新的訓練集γ中。
[0019] 3)用Y代替原始的訓練集進行SVDD的訓練。
[0020] 第三步:將約簡后的訓練樣本進行新的支持向量數(shù)據(jù)描述方法的訓練。
[0021] 1)基于對SVDD進行訓練樣本的約簡的前提下使用了一種對SVDD懲罰因子進行改進的方法。對懲罰因子進行改進的SVDD目標函數(shù)如下，
在目標函數(shù)中u表示[0，1]之間的數(shù)值，其代表可接受的野值點在目標數(shù)據(jù)中的比值，η 為訓練樣本的數(shù)目?；谛畔㈧貙颖具M行約簡的算法，隨著訓練樣本的不斷減少，導致支持向量的數(shù)目減少，為了降低訓練樣本數(shù)帶來的影響，
，可以彌補訓練集約簡所帶來的影響，故而保持SVDD的性能不會隨著樣本數(shù)的減少而降低。
[0022] 2)引入拉格朗日因子，構造拉格朗日函數(shù)：
上式中拉格朗日因子％之〇，Ys >
[0023] 3)通過拉格朗日求解方法，即使得|對變量和R的偏微分為零，得
[0024] 4)通過(7)式的結果，帶入拉格朗日函數(shù)可得下面的對偶規(guī)劃函數(shù)
通過如上的對偶規(guī)劃可以得到拉格朗日因子_的值，其中t滿足以下式子
[0025]第四步:對測試樣本進行判別判斷樣本z是否屬于目標類樣本可由以下決策函數(shù)判斷，若樣本z到球心的距離小于球半徑，樣本Z判為目標類
上式中超球體的球心|可以通過(7)式所得的爾值來確定，其中超球體半徑R=|%^_。
[0026] 實驗結果為了驗證我們所提方法的有效性，我們選取UCI數(shù)據(jù)集進行約簡并和原始的支持向量數(shù)據(jù)描述的性能進行比較。
[0027] 實驗環(huán)境{卩1]1.806取，861?艦，11^61(1〇父6〇11(1〇，￥預7，]\&^1&匕201013。試驗中，選
，其中I取值為原始訓練集中所有樣本空間距離（即 lh、、、乂/ = uη)的均值。每次的試驗中依次討論了f值取值來自集合[0.1，0.2， 0.3,0.4,0.5,0.6,0.7,0.8,0.9]，依次帶入取其中每個值的情況。3￥00的目標函數(shù)中參數(shù)11 從[2 0，2 _1，2 _2,2 _3,2 _4,2 _5,2 _6]中選擇。
[0028] 利用UCI數(shù)據(jù)集進行比較，數(shù)據(jù)集可以從http://archive. ics.uci .edu/ml/ index.html網(wǎng)站中下載獲得，表1給出了實驗數(shù)據(jù)特征屬性。
[0029]表1 UCI實驗數(shù)據(jù)集特征
表2 UCI數(shù)據(jù)集實驗結果其中f為自定義參數(shù)，SVs表示支持向量個數(shù)，Time為總時間，G-Mean是一種不平衡數(shù) 據(jù)集的判斷標準。
[0030]
實驗結果表明，和原始的支持向量數(shù)據(jù)描述方法比較，該約簡方法達到了降低算法訓練時間目的，并在不同的f值上存在提高分辨精度的情況。
【主權項】
1. 一種基于信息熵的約簡型支持向量數(shù)據(jù)描述方法，其特征在于包括以下步驟：利用核函數(shù)計算訓練樣本在核空間中相互之間的距離，通過所得的結果計算訓練樣本的信息熵值并通過信息熵值大小進行訓練樣本的約簡，將約簡后的訓練樣本根據(jù)支持向量數(shù)據(jù)描述方法計算得到所需的超球體，之后對測試樣本進行判別，若測試樣本位于超球體之內則判為目標類樣本，反之則判為異常類樣本。2. 權利要求1種所描述的訓練樣本在核空間中相互之間的距離，是指訓練樣本在通過核函數(shù)進行映射之后的空間中計算樣本之間的距離，其特征在于通過核函數(shù)求得樣本間的相互距離。3. 權利要求1所述的一種求得樣本信息熵的方法，其特征在于通過樣本之間的距離求得樣本之間的概率即第i個樣本與第k個樣本的概率P為第i個樣本與第k個樣本的距離除以第i個樣本和所有樣本的距離之和，并注意樣本與自身的概率都設為1;之后根據(jù)信息熵公￥求得每個樣本的信息熵值大小。4. 權利要求1所述的一種加權支持向量數(shù)據(jù)描述方法，其特征在于約簡樣本后對原始支持向量數(shù)據(jù)描述算法進行參數(shù)的改進設計，即原始參數(shù)C改為5. 權利要求1所述的一種基于信息熵對訓練樣本進行約簡的方法中，其特征在于利用自定義的f得到信息熵的閾值I，其值為樣本最大的熵值減去響與樣本最大的熵值減去樣本最小的熵值之差的乘積，即0 = ?
【文檔編號】G06K9/62GK105868783SQ201610194127
【公開日】2016年8月17日
【申請日】2016年3月31日
【發(fā)明人】李冬冬, 王喆, 劉宇, 高大啟
【申請人】華東理工大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：李冬冬;王喆;劉宇;高大啟;
技術所有人：華東理工大學;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

支持向量機相關技術

支持向量回歸相關技術

最小二乘支持向量機相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于信息熵的約簡型支持向量數(shù)據(jù)描述方法