亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

自適應(yīng)向量投影的線性支持向量選取方法

文檔序號:8430898閱讀:367來源:國知局
自適應(yīng)向量投影的線性支持向量選取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于支持向量機的學習方法,具體涉及一種自適應(yīng)向量投影的線性支持向 量選取方法。
【背景技術(shù)】
[0002] 統(tǒng)計學習理論最早提出于20世紀60年代,它是針對小樣本進行研宄,20世紀90 年代中期,Vapnik基于此理論提出了新的學習算法--支持向量機。近年來,支持向量機 的研宄獲得了越來越多的關(guān)注,支持向量機已經(jīng)成功應(yīng)用于許多實際問題,例如人臉識別、 手寫體識別,文本分類等。文本分類是信息過濾、信息檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化 圖書管等領(lǐng)域的技術(shù)基礎(chǔ),而支持向量機是文本分類的最主要最簡單的手段之一。
[0003] 然而,標準支持向量機的訓練速度比較慢,在實際應(yīng)用中受到極大限制,通過研 宄發(fā)現(xiàn),支持向量機在訓練的時候,僅僅由位于邊界的支持向量決定,因此如果能預先確 定支持向量,能夠極大的加快支持向量機的訓練速度。目前很多相關(guān)的算法被提出,例如 Chunking算法,Decomposing算法和序列最小最優(yōu)化算法,這些算法獲得支持向量需要多 次迭代。為了加快獲得支持向量的時間,研宄者提出了一種改進的支持向量機BS-SVM(見 參考文獻1)、基于向量投影的支撐向量預選取方法(見參考文獻2)。然而在實際中,由于 樣本分布難以預測,如何選取邊界向量代替支持向量成為研宄的關(guān)鍵。在文獻2中采用類 中心向量作為投影方向,但是當樣本分散時,類中心并不能反映該樣本的原始特征,降低分 類精度。
[0004] 針對樣本分布不均勻和離散度大的問題,在選取支持向量時,難以確定包含原始 樣本特征的邊界向量,從而造成分類速度低下。而隨著科技的日益發(fā)展,在信息過濾、信息 檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化圖書管等領(lǐng)域,都其渴望一種更快速、分類更精確的方 法來提尚其彳目息過濾、彳目息檢索、搜索的速率和效果。
[0005] 故一種分類精度高、分類速度快的自適應(yīng)向量投影的線性支持向量選取方法亟待 提出。
[0006] 參考文獻1:郭亞琴,王正群,一種改進的支持向量機BS-SVM[J].微電子學與計算 機,2010, 28(6) :54-56。
[0007] 參考文獻2:李青,焦李成,周偉達.基于向量投影的支撐向量預選取[J].計算機 學報,2005, 28(2) :145-151。

【發(fā)明內(nèi)容】

[0008] 為了解決上述技術(shù)問題,本發(fā)明提出了自適應(yīng)向量投影的線性支持向量選取方 法,該方法相較于現(xiàn)有的支持向量機的方法,針對線性可分的數(shù)據(jù),其分類精度更高,分類 速度更快,更適用于人臉識別、手寫體識別,文本分類等領(lǐng)域內(nèi)。
[0009] 為了達到上述目的,本發(fā)明的技術(shù)方案如下:
[0010] 自適應(yīng)向量投影的線性支持向量選取方法,方法用于線性數(shù)據(jù)的文本分類,包括 以下步驟:
[0011] (1)對原始樣本建立數(shù)據(jù)模型;
[0012] (2)對數(shù)據(jù)模型進行計算,得到最佳自適應(yīng)投影直線;
[0013] (3)將原始樣本投影到最佳自適應(yīng)投影直線后,在一維空間內(nèi)選取具有原始特征 的邊界樣本;
[0014] (4)利用支持向量機對邊界樣本進行訓練,得到分類結(jié)果。
[0015] 本發(fā)明一種自適應(yīng)向量投影的線性支持向量選取方法,運用自適應(yīng)投影方法,從 原始樣本中提取出包含樣本特征的邊界樣本作為新的訓練樣本,在保證原始樣本所有特征 的同時限制邊界樣本數(shù)量,以提高訓練速度和分類精度。
[0016] 在上述技術(shù)方案的基礎(chǔ)上,還可做如下改進:
[0017]作為優(yōu)選的方案,在步驟(1)中的數(shù)據(jù)模型為
[0018]
【主權(quán)項】
1. 自適應(yīng)向量投影的線性支持向量選取方法,所述方法用于線性數(shù)據(jù)的文本分類,其 特征在于,包括以下步驟: (1) 對原始樣本建立數(shù)據(jù)模型; (2) 對所述數(shù)據(jù)模型進行計算,得到最佳自適應(yīng)投影直線; (3) 將原始樣本投影到所述最佳自適應(yīng)投影直線后,在一維空間內(nèi)選取具有原始特征 的邊界樣本; (4) 利用支持向量機對邊界樣本進行訓練,得到分類結(jié)果。
2. 根據(jù)權(quán)利要求1所述的自適應(yīng)向量投影的線性支持向量選取方法,其特征在于,在 所述步驟(1)中的數(shù)據(jù)模型為
為兩類原始樣本,
為原始樣本的均值; W= {¥1,¥2,1^,'\¥(1}1^1? (1為自適應(yīng)投影向量。
3. 根據(jù)權(quán)利要求2所述的自適應(yīng)向量投影的線性支持向量選取方法,其特 征在于,在所述步驟(2)中,對數(shù)據(jù)模型中的各式求和,得到自適應(yīng)函數(shù)J(W t),
;當j屬于第i類時,au= 0,當j 不屬于第i類時,au= 1。
4. 根據(jù)權(quán)利要求3所述的自適應(yīng)向量投影的線性支持向量選取方法,其特征 在于,對所述自適應(yīng)函數(shù)J(Wt)進行求導后取零,得到所述最佳自適應(yīng)投影直線,
5. 根據(jù)權(quán)利要求4所述的自適應(yīng)向量投影的線性支持向量選取方法,其特征在于,在 所述步驟(3)中:將所有原始樣本投影到所述最佳自適應(yīng)投影直線上后,得到:
計算類和 < 之間的最小距離. Φ,類和g的類內(nèi)最大距離戎?°)和 J(C0)o
6. 根據(jù)權(quán)利要求5所述的自適應(yīng)向量投影的線性支持向量選取方法,其特征在于,利 用下式來選取所述邊界樣本:
其中=Q1為投影后的樣本中點,λ λ 2,用于控制邊界樣本的數(shù)量。
7. 根據(jù)權(quán)利要求5或6所述的自適應(yīng)向量投影的線性支持向量選取方法,其特征在于, 距離的計算選用標準的歐式距離。
【專利摘要】本發(fā)明公開了自適應(yīng)向量投影的線性支持向量選取方法,方法用于線性數(shù)據(jù)的文本分類,包括以下步驟:(1)對原始樣本建立數(shù)據(jù)模型;(2)對數(shù)據(jù)模型進行計算,得到最佳自適應(yīng)投影直線;(3)將原始樣本投影到最佳自適應(yīng)投影直線后,在一維空間內(nèi)選取具有原始特征的邊界樣本;(4)利用支持向量機對邊界樣本進行訓練,得到分類結(jié)果。本發(fā)明自適應(yīng)向量投影的線性支持向量選取方法相較于現(xiàn)有的支持向量機的方法,針對線性可分的數(shù)據(jù),其分類精度更高,分類速度更快,更適用于人臉識別、手寫體識別、文本分類等領(lǐng)域內(nèi)。
【IPC分類】G06F17-30
【公開號】CN104750867
【申請?zhí)枴緾N201510182575
【發(fā)明人】郭亞琴, 秦燕, 顧娜
【申請人】南通理工學院
【公開日】2015年7月1日
【申請日】2015年4月16日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1