專利名稱:用于在大規(guī)模數(shù)據(jù)分類問題中訓(xùn)練svm分類器的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種分類器的訓(xùn)練方法,主要解決大規(guī) 模數(shù)據(jù)分類問題中快速有效地訓(xùn)練分類器的問題。 技術(shù)背景隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)與存儲(chǔ)設(shè)備的迅速發(fā)展,各應(yīng)用領(lǐng)域的信息化程度不斷提高, 例如政府、企業(yè)、學(xué)校都在使用大規(guī)模數(shù)據(jù)庫來管理與存儲(chǔ)信息化數(shù)據(jù)。然而,除了簡 單地對(duì)數(shù)據(jù)進(jìn)行管理與存儲(chǔ)操作,人們更希望從這些海量的數(shù)據(jù)庫中挖掘出一些有意義 的規(guī)則或知識(shí),例如門戶網(wǎng)站希望自動(dòng)對(duì)文檔或圖片進(jìn)行分類。然而,在實(shí)際應(yīng)用中, 數(shù)據(jù)庫中數(shù)據(jù)量通常是非常龐大的,其數(shù)量級(jí)通常會(huì)達(dá)到太字節(jié)(TB)以上,如果把所 有樣本都作為訓(xùn)練數(shù)據(jù)來訓(xùn)練分類器,其時(shí)空復(fù)雜性將無比巨大。對(duì)于大規(guī)模數(shù)據(jù)的分類問題,國內(nèi)外研究者己經(jīng)做過大量工作,他們從不同角度提 出了許多解決方案,比如分解技術(shù)[16, 12, 17, 3, 13]通過將原有大規(guī)模分類器學(xué)習(xí) 問題分解為較小的子問題進(jìn)行迭代學(xué)習(xí),每次只對(duì)一個(gè)工作子集進(jìn)行訓(xùn)練,并利用該次 訓(xùn)練的結(jié)果指導(dǎo)選擇下一個(gè)工作子集用于訓(xùn)練;增量技術(shù)[2, 8, 14]每次僅讀入一個(gè)樣本, 對(duì)分類器進(jìn)行增量式更新;并行技術(shù)[4, 9]一般使用集成方法,先把總體樣本平分為多個(gè) 樣本子集,并把得到的樣本子集作為獨(dú)立的任務(wù)交給不同的處理器進(jìn)行訓(xùn)練,最后把各 處理器得到的結(jié)果通過某種技術(shù)合并為一個(gè)總的分類器;近似技術(shù)[7, 15]則使用近似的 計(jì)算公式降低原有算法的復(fù)雜性。以上這些技術(shù)需要對(duì)所有樣本都進(jìn)行訓(xùn)練,其復(fù)雜度 難以降低。還有一類技術(shù)通過在原數(shù)據(jù)集中選取代表點(diǎn)訓(xùn)練分類器,其思想在于使用一定的方 式,在原有大規(guī)模數(shù)據(jù)集中選取小部分的代表性樣本訓(xùn)練分類器,以達(dá)到降低訓(xùn)練樣本 數(shù)量的目的。較典型的方法包括"主動(dòng)學(xué)習(xí)"[18]通過啟發(fā)式地選取代表點(diǎn);CB-SVM[22] 通過層次化聚類選取類中心作為代表點(diǎn);[19]選取聚類超球表面的樣本作為代表點(diǎn);CVM[20]使用"核心集"作為代表點(diǎn);[1, 23]則選取聚類中心作為代表點(diǎn)。由于代表點(diǎn)的選取技術(shù)大多基于不同的假設(shè),并不適合所有的應(yīng)用場景,并且會(huì)丟失原數(shù)據(jù)集的統(tǒng)計(jì)信息。經(jīng)過大量觀察以及實(shí)際應(yīng)用,我們發(fā)現(xiàn)現(xiàn)有的針對(duì)大規(guī)模數(shù)據(jù)分類問題的分類器訓(xùn)練方法都在不同程度上存在以下一些局限性(1)在訓(xùn)練階段所需要的時(shí)間復(fù)雜性和空 間復(fù)雜性極高;(2)丟失部分原數(shù)據(jù)集的統(tǒng)計(jì)信息;(3)基于較強(qiáng)的假設(shè)條件與前提條 件;(4)對(duì)于硬件設(shè)備與資源的要求相當(dāng)高;(5)算法實(shí)現(xiàn)非常復(fù)雜。以上分析說明,如果用大規(guī)模訓(xùn)練樣本進(jìn)行訓(xùn)練,其時(shí)間復(fù)雜性必然會(huì)居高不下, 即使通過各種優(yōu)化與近似手段后,依然無法奏效;如果使用代表點(diǎn)技術(shù),即基于一定的 假設(shè)條件在原大規(guī)模數(shù)據(jù)中抽取一部分代表樣本進(jìn)行訓(xùn)練,又必定會(huì)丟失部分統(tǒng)計(jì)信息, 影響分類器的性能。如果有一種方法既能使樣本數(shù)量減少,又能使原有的統(tǒng)計(jì)信息盡量不丟失,則可以 達(dá)到在保持與現(xiàn)有分類器相似的分類準(zhǔn)確率的條件下,顯著降低訓(xùn)練階段時(shí)空復(fù)雜性—— 本發(fā)明就是通過事先把訓(xùn)練樣本聚類成高斯模型作為分類器訓(xùn)練的基本信息單元,從而 達(dá)到既減少樣本數(shù)量又能保持原有統(tǒng)計(jì)信息的目的;同時(shí),本發(fā)明設(shè)計(jì)出的一種兼容的 核函數(shù)使訓(xùn)練階段得到的支撐高斯模型可以直接用于測試階段,線性組合成最終的分類器0參考文獻(xiàn)<formula>formula see original document page 5</formula> Graf, H. P., Cosatto, E., Bottou, L., Durdanovic, I., and Vapnik, V., Parallel Support Vector Machines: The Cascade SVM,爿6 rawced 7Vrara/ r/wa"o/7 Prace^wg 5y他脂,2004, Cambridge, MA: MIT Press.間Hartigan, J. A. and Wong, M. A., A K-Means Clustering Algorithm, 5W/幼'cy, 1979,vol. 28, pp. 100-108.i l] Jebara, T., Kondor, R., and Howard, A,, Probability Product Kemels, 《/ Mac/uwi esearcA, 2004, vol. 5, pp. 819-844. [12〗Joachims, T., Making Large-scale SVM Learning Practical, In B. Schoelkopf, C. J. C.Burges, and A.丄Smola (Eds.),爿rfTOWC^ z/ 尺er/ e/ Me^zo^ - Sw/7/ oW Ke加r Z^armwg,1999, pp. 169-184, Cambridge, MA: MIT Press. [13] Keerthi, S. S., Shevade, S. K., Bhattacharyya, C., and Murthy, K. R. K., Improvements toPlatt,s SMO Algorithm for SVM Classifier Design, Afewra/ Co附p齒rio", 2001, vol. 13, pp.637-649.問Laskov, P., Gehl, C., Krueger, S., and Mueller, K., Incremental Support Vector Learning: Analysis, Implementation and Applications, J o/MscWwe iearw/wg 7 e^an:/z, 2006, vol. 7, pp. 1909-1936.[15〗Lee, Y. and Mangasarian, O. L., RSVM: Reduced Support Vector Machines, In5X4M/wf7 Cow/Ztoa Mfm'"g, 2001. [16] Osuna, E., Freund, R., and Girosi, F., An Improved Training Algorithm for Support VectorMachines, In /Voc.7997fforfo/zo/ A^wr"/ A^/worfo/or /Vocew/wg,1997, pp. 276-285.[17] Piatt, J,, Fast Training of Support Vector Machines using Sequential Minimal Optimization, In B. Schodkopf, C. J. C. Burges, and A. J. Smola (Eds.), Wvawces ferwe/附ef/ ocfe — ra/ poW vecfor /ean /wg, 1999, pp. 185-208. Cambridge, MA: MIT Press.[18Schohn, G. and Cohn, D., Less is More: Active Learning with Support Vector Machines, In /Voc. o/&e 7/^ 7 Cow/M"c/w力e丄e" rowg, 2000.[19] Sun, S., Tseng, C. L., Chen, Y. H., Chuang, S. C., and Fu, H. C., Cluster-based SupportVector Machines in Text-independent Speaker Identification, In Prac.f/ze 7n/ 7 Ja/wf Cbw/ iVewra/ 7Ve/MwA;, 2004.[20] Tsang, I. W., Kwok, J, T., and Cheung, P., Core Vector Machines: Fast SVM Training onVery Large Data Sets, /M"c/nwe Zearw/wg i^rarc/z, 2005, vol. 6, pp. 363-392. [21] Vapnik, V., Statistical Learning Theory, 1998, John Wiley.[22] Yu, H., Yang, J., and Han, J., Classifying Large Data Sets Using SVMs with Hierarchical Clusters, In /Vw.爿CM57GAZ)Z) CV w/ Zfecover} Z)她M論g, 2003, pp. 306-315. Zhang, T., Ramakrishnan, R., and Livny, M., BIRCH: An Efficient Data Clustering Method for Very Large Databases, In JVoc./996v4CM57GMDZ) /w/17 Cw /" Ma7 ageme"f o,Z)豐1996, pp. 103-114.發(fā)明內(nèi)容本發(fā)明的目的在于提出一種在大規(guī)模數(shù)據(jù)分類問題中快速有效地訓(xùn)練SVM分類器 的方法。本發(fā)明提出的訓(xùn)練分類器的方法,遵循了 Vapnik提出的經(jīng)典統(tǒng)計(jì)學(xué)習(xí)框架[21],并 在核空間中解決了高斯模型與特征向量可比性的難題。本發(fā)明的主要思想如下首先對(duì)于用于訓(xùn)練的大規(guī)模樣本集進(jìn)行聚類,并根據(jù)聚類 結(jié)果把具有相同標(biāo)簽的樣本分別擬合成高斯模型作為訓(xùn)練的基本信息單元,而測試樣本仍然保留特征向量的形式用于測試。在訓(xùn)練與測試階段,同時(shí)都需要使用一個(gè)兼容的核 函數(shù),該核函數(shù)不僅可以在訓(xùn)練階段衡量兩個(gè)高斯模型之間的相似度,并且可以在測試 階段衡量高斯模型與單個(gè)向量之間的相似度。因此,在訓(xùn)練階段得到的支撐高斯模型可 以直接用于決策函數(shù)的構(gòu)造。本發(fā)明所提出的分類器訓(xùn)練方法包括如下步驟(1)訓(xùn)練樣本的聚類;(2)核矩陣 的計(jì)算;(3)目標(biāo)函數(shù)的優(yōu)化;(4)決策函數(shù)的建立。下面詳細(xì)介紹卜-述步驟(l)訓(xùn)練樣本的聚類給定一個(gè)包含^ = ^+ + ^.個(gè)訓(xùn)練樣本的集合£={(^,)} =1,其中A^表示正樣本數(shù), 見表示負(fù)樣本數(shù),樣本(特征向量)XiER^其中D為輸入空間的維數(shù),標(biāo)簽為£{1,-1}。 在分類器的訓(xùn)練階段,對(duì)JV+個(gè)正樣本和見個(gè)負(fù)樣本首先分別進(jìn)行聚類,得到《+個(gè)正集群和個(gè)負(fù)集群,共計(jì)《=夂+ +個(gè)集群。然后,按照聚類結(jié)果的集群標(biāo)簽,把具 有相同標(biāo)簽的樣本擬合成高斯模型,這樣,共得到K+個(gè)正樣本高斯模型和個(gè)負(fù)樣本高斯模型,表示為。={(0 4,》)}^=!,其中生成模型0「(A,^&)包含了第A個(gè)高斯模型 的先驗(yàn)概率A (權(quán)重)、均值^、以及協(xié)方差矩陣w則表示該高斯模型的標(biāo)簽。這里需要指出的是作為訓(xùn)練基本單元的高斯模型的先驗(yàn)概率按照如下公式計(jì)算iV =A^/W+,其中A^+表示正樣本中第/t個(gè)高斯模型包含的樣本數(shù),W+表示正樣本的總數(shù);負(fù) 樣本高斯模型的先驗(yàn)概率按照同樣方法計(jì)算,即iV = AV/見。在本發(fā)明提出的方法中,聚類技術(shù)并沒有任何限制,聚類算法僅是用來壓縮原大規(guī) 模訓(xùn)練數(shù)據(jù)的一種降采樣手段,任何現(xiàn)有的聚類技術(shù)都可以用于訓(xùn)練樣本的聚類,如,K
均值(K-means) [10],期望最大化算法(Expectation Maximization) [5],層次聚類 (Hierarchical Clustering) [24],閾值順序依賴(Threshold Order-Dependent) [6]等。生成 的聚類結(jié)果也無需一定要把樣本的密度擬合得很好_一在大規(guī)模數(shù)據(jù)分類問題中,最重 要的是降低計(jì)算復(fù)雜性。因此,任何高效的聚類技術(shù),只要能夠準(zhǔn)確地描述出數(shù)據(jù)在輸 入空間中的布局(layout),就可以適用于本發(fā)明提出的方法。在說明書的示例中,僅以 閾值順序依賴(Threshold Order-Dependent)算法,簡稱TOD算法為例。 (2)核矩陣的構(gòu)建在對(duì)訓(xùn)練樣本進(jìn)行聚類后,需要構(gòu)建一個(gè)^X/C的核矩陣,該矩陣中的任意一項(xiàng)元 素K&則為以第/個(gè)與第7'個(gè)高斯模型作為變量的核函數(shù)值。本發(fā)明所設(shè)計(jì)的核函數(shù)由概 率積核(Probability Product Kernel) [ll]演化而來。因此,首先簡要介紹在高斯分布下的概率積核。概率積核函數(shù)對(duì)于分布化和p;有如下形式定義其中 (^,p/)正定(positive definite),而指數(shù)/ 如果取不同的值則可以得到一系列候選核。 在此,以滿足構(gòu)造兼容核函數(shù)的需要。當(dāng)分布W和都為高斯分布時(shí),即A = AP(x I ,p,=尸/p(x I ,核函數(shù)Kh,P,)可以寫成K( t, /),表示為兩個(gè)生成模型的函數(shù)。K(0A,0/)可以使用兩個(gè)高斯模型的 參數(shù)直接計(jì)算(l),從而避免了在整個(gè)輸入空間中對(duì)概率分布進(jìn)行積分其中£—、(2^+2:71) , ^K、 + S7、,上標(biāo)T表示矩陣或者向量的轉(zhuǎn)置。在實(shí)際應(yīng)用中,可以僅使用高斯模型協(xié)方差矩陣的對(duì)角線元素進(jìn)行計(jì)算,即diag((Q(1))2, ... ,(^(D))2),以此達(dá)到避免在公式(2)中計(jì)算逆矩陣的目的。當(dāng)僅使用協(xié)方差矩陣對(duì)角線元素時(shí),核函數(shù)變?yōu)?lt;formula>formula see original document page 8</formula> 本發(fā)明中提出的兼容核函數(shù)不僅能夠衡量高斯模型之間的相似度,還能夠衡量高斯 模型與單個(gè)向量之間的相似度。在決策函數(shù)中,測試樣本X可以看作是高斯分布的一個(gè) 極端情況,即其協(xié)方差矩陣為零矩陣,而先驗(yàn)概率為常量l。在這種情況下,有如下結(jié)論給定兩個(gè)高斯模型e^和0/,如果尸,=1,并且協(xié)方差矩陣i:/趨向于零矩陣,即i:,—0,則核函數(shù)(2)的極限變?yōu)閊在高斯分布 *下的后驗(yàn)概率一—u 啦, (4)=々"IhA)其中H,表示以Jl/為中心的s開鄰域。把公式(4)中的0/替換為測試樣本0x,可以得到如下用于決策函數(shù)的核函數(shù)氛A),(xl") (5)為了在實(shí)際應(yīng)用中更加簡便,公式(5)也可以僅使用協(xié)方差矩陣的對(duì)角線元素進(jìn)行近似表達(dá)If x呵、(6)(3)目標(biāo)函數(shù)的優(yōu)化核矩陣構(gòu)造完之后,就需要把其代入目標(biāo)函數(shù)并對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化。在訓(xùn)練的基 本單元為高斯模型的情況下,所有用于訓(xùn)練的高斯模型必須滿足如下約束條件-h(wV(0t)++l-&, hl,…,K (7)其中0(.)表示映射函數(shù),該函數(shù)可以把生成模型映射到無限維的概率分布空間,常數(shù)6 為線性函數(shù)的偏置(bias)。與支撐向量機(jī)[21]類似,本發(fā)明提出的方法同樣遵循結(jié)構(gòu)化風(fēng)險(xiǎn)最小化(SRM)準(zhǔn) 則。該準(zhǔn)則通過把一個(gè)正則化項(xiàng)引入代價(jià)函數(shù)達(dá)到最小化VC維的目的,這又等價(jià)于最 大化正負(fù)高斯模型訓(xùn)練集之間的邊界1 k^w'w+ci;私 (8)'^ z 疋=1其中常數(shù)C為結(jié)構(gòu)化風(fēng)險(xiǎn)最低(Structural Risk Minimization)目標(biāo)函數(shù)的權(quán)衡(tradeoff) 參數(shù),松弛變量^乘上權(quán)重A (第A個(gè)高斯模型的先驗(yàn)概率)的目的為使錯(cuò)分的高斯模 型得到與它所包含樣本數(shù)量等比例的懲罰,即包含樣本較多的高斯模型一旦分錯(cuò)將會(huì)得 到更多的懲罰。
綜合約束條件(7)以及如下約束條件&>0, A:=l,...,K,代價(jià)函數(shù)(8)可以表示為帶 約束的優(yōu)化問題,即原始拉格朗日(Primal Lagrangian)問題。然后,原始拉格朗日問題 可以轉(zhuǎn)化成對(duì)偶表示(DualRepresentation),其表達(dá)形式為<formula>formula see original document page 10</formula>至此,分類器目標(biāo)函數(shù)的優(yōu)化問題已經(jīng)轉(zhuǎn)化為一個(gè)常見的帶約束的二次規(guī)劃問題,可以使 用多種數(shù)值方法進(jìn)行求解,求解后可以得到一組系數(shù)&, *=1,...,《的值,其中非負(fù)值 即對(duì)應(yīng)為支撐高斯模型,可用于決策函數(shù)的建立。(4)決策函數(shù)的建立在上一步解決目標(biāo)函數(shù)的優(yōu)化問題后,可以得到系數(shù)序列a;t, A=l,...,/:。在決策函數(shù)中,測試樣本(向量)x可看作為高斯模型e^在極端條件下的情況,即其協(xié)方差矩陣退化為零矩陣,參數(shù)表示為0x:(Pf1, fix=x,Ex=0)。然后,測試樣本x就可以使用如 下決策函數(shù)進(jìn)行預(yù)測(即為x在高斯分布6^下的后驗(yàn)概率)<formula>formula see original document page 10</formula>(10)根據(jù)上述思想,本發(fā)明提出的分類器訓(xùn)練方法,具體步驟如下(1) 、訓(xùn)練樣本的聚類。對(duì)于用于訓(xùn)練的大規(guī)模樣本進(jìn)行聚類,根據(jù)聚類結(jié)果,把具 有相同標(biāo)簽的樣本分別擬合成高斯模型,作為訓(xùn)練的基本信息單元;而測試樣本仍然保持向量的形式用于測試。(2) 、核矩陣的構(gòu)建。使用步驟(i)中得到的《個(gè)高斯模型構(gòu)建一個(gè)KxK的核矩陣,其中每個(gè)元素根據(jù)公式(2)或公式(3)計(jì)算得到。(3) 、目標(biāo)函數(shù)的優(yōu)化。使用步驟(2)中得到的核矩陣建立帶約束的二次規(guī)劃問題,即 公式(9),使用數(shù)值方法求解該二次規(guī)劃問題,可得到系數(shù)&, 4=1,...,《的值。(4) 、決策函數(shù)的建立。把從步驟(3)中得到的系數(shù)c^, ,代入公式(10), 即可得到分類器的決策函數(shù),使用該決策函數(shù)對(duì)測試樣本X進(jìn)行預(yù)測。。本發(fā)明所提出的分類器訓(xùn)練方法主要針對(duì)于大規(guī)模數(shù)據(jù)分類問題中的應(yīng)用。對(duì)于時(shí)間 復(fù)雜性,目前用于大規(guī)模數(shù)據(jù)分類器訓(xùn)練的方法在訓(xùn)練階段的時(shí)間復(fù)雜度一般處于0(1og^V A^)到O(Y)之間,而本發(fā)明所提出的方法在訓(xùn)練階段可以把時(shí)間復(fù)雜度降低到0(A +iC3), 其中W為訓(xùn)練集總樣本數(shù),iC為訓(xùn)練樣本經(jīng)過聚類后所得到的高斯模型數(shù),并且《<<^。 例如,如果//=10000, X=100,則其它方法的時(shí)間復(fù)雜度為0(101())到0(1012)之間,而本發(fā) 明所提出的方法僅為0(106)。而且,本方法在時(shí)間復(fù)雜性上的優(yōu)勢會(huì)隨著iV數(shù)量級(jí)的增大 越來越顯著。在測試階段,由于一般情況下該方法訓(xùn)練所得到的支撐高斯模型數(shù)會(huì)比支撐 向量機(jī)所得到的支撐向量數(shù)少很多,所以本方法在測試階段的時(shí)間復(fù)雜性也會(huì)在一定程度 上降低。對(duì)于空間復(fù)雜性, 一般分類器(不使用分解、增量技術(shù))都需要存儲(chǔ)一個(gè)WXiV 的矩陣,即空間復(fù)雜度為O(iV2》而本發(fā)明所提出的方法在訓(xùn)練階段可以把空間復(fù)雜度降低到o(《2), w與x定義同前。例如,如果w-ioooo, a:=ioo,并且存儲(chǔ)矩陣的數(shù)據(jù)類型為雙精度型(8個(gè)字節(jié)),則一般方法需要約800M的內(nèi)存,在真實(shí)應(yīng)用場景中,樣本數(shù)遠(yuǎn)不 止這些,這就意味著, 一般的PC機(jī)根本就無法勝任分類器的訓(xùn)練任務(wù);而本方法則只需 要80K的內(nèi)存。本發(fā)明方法可應(yīng)用于多個(gè)領(lǐng)域,如多媒體信息檢索、生物信息識(shí)別、金融信息處理等。
具體實(shí)施方式
為了演示本發(fā)明中所提出的分類器訓(xùn)練方法的直觀效果,并且說明該方法的有效性, 這里使用該方法對(duì)一個(gè)在二維空間中生成的模擬數(shù)據(jù)集進(jìn)行訓(xùn)練(見附
圖1)。該模擬數(shù) 據(jù)集根據(jù)預(yù)定義的某高斯混合模型的分布生成2500個(gè)正樣本(用符號(hào)"+"表示)和2500 個(gè)負(fù)樣本(用符號(hào)"x"表示)。分類器的具體訓(xùn)練步驟如下1、 使用TOD聚類算法分別對(duì)正樣本集與負(fù)樣本集分別聚類,得到25個(gè)正樣本集群 和25個(gè)負(fù)樣本集群,并根據(jù)集群標(biāo)簽把具有相同標(biāo)簽的樣本擬合成高斯模型,并分別計(jì) 算其權(quán)重、均值、以及協(xié)方差矩陣(圖中橢圓形即表示作為基本訓(xùn)練單元的高斯模型, 其大小與權(quán)重成正比,其中心位置為均值,其形狀表示協(xié)方差矩陣)。2、 基于步驟1中得到的50個(gè)高斯模型構(gòu)造一個(gè)50X50的核矩陣,矩陣中的第z'行 第J列中的元素為第z'行個(gè)與第y個(gè)高斯模型的相似度由公式(3)計(jì)算得到。3、 把步驟2中得到的核矩陣代入公式(9),求解帶約束的二次規(guī)劃問題,得到系數(shù) 序列W, /t=l,...,《。圖中黑體橢圓表示支撐高斯模型,它們所對(duì)應(yīng)的a值均大于零。4、 使用步驟3中得到的支撐高斯模型根據(jù)公式(10)構(gòu)建決策函數(shù)。把坐標(biāo)系中的 所有點(diǎn)代入,計(jì)算得到的結(jié)果如圖1所示,淡灰色區(qū)域?yàn)?l《/x)0,深灰色區(qū)域?yàn)?《Ax) 《1。從這個(gè)例子可以看出,通過將樣本事先聚類并使用得到的高斯模型作為訓(xùn)練的基本 單元,可以顯著降低樣本數(shù)量,同時(shí)保持原有的統(tǒng)計(jì)信息。另外,該方法由于同樣遵循 了邊界最大化準(zhǔn)則,其分類面與其它同類分類器一樣盡量拉開正負(fù)樣本之間的邊界。
權(quán)利要求
1、一種用于在大規(guī)模數(shù)據(jù)分類問題中訓(xùn)練SVA分類器的方法,其特征在于具體步驟如下(1)訓(xùn)練樣本的聚類給定一個(gè)包含N=N++N-個(gè)訓(xùn)練樣本的集合<math-cwu><![CDATA[<math> <mrow><mi>L</mi><mo>=</mo><msub> <msup><mrow> <mo>{</mo> <mrow><mo>(</mo><msub> <mi>x</mi> <mi>i</mi></msub><mo>,</mo><msub> <mi>y</mi> <mi>i</mi></msub><mo>)</mo> </mrow> <mo>}</mo></mrow><mi>N</mi> </msup> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow></msub><mo>,</mo> </mrow></math>]]></math-cwu><!--img id="icf0001" file="A2007100452420002C1.gif" wi="123" he="20" img-content="drawing" img-format="tif"/-->其中N+表示正樣本數(shù),N-表示負(fù)樣本數(shù),樣本xi∈RD,其中D為輸入空間的維數(shù),標(biāo)簽yi∈{1,-1};在分類器的訓(xùn)練階段,對(duì)N+個(gè)正樣本和N-個(gè)負(fù)樣本首先分別進(jìn)行聚類,得到K+個(gè)正集群和K-個(gè)負(fù)集群,共計(jì)K=K++K-個(gè)集群;然后,按照聚類結(jié)果的集群標(biāo)簽,把具有相同標(biāo)簽的樣本擬合成高斯模型,這樣,共得到K+個(gè)正樣本高斯模型和K-個(gè)負(fù)樣本高斯模型,表示為C={(Θk,yk)}Kk=1,其中生成模型Θk=(Pk,μk,∑k)包含了第k個(gè)高斯模型的先驗(yàn)概率Pk、均值μk、以及協(xié)方差矩陣∑k,yk則表示該高斯模型的標(biāo)簽;這里,作為訓(xùn)練基本單元的高斯模型的先驗(yàn)概率按照如下公式計(jì)算Pk+=Nk+/N+,其中Nk+表示正樣本中第k個(gè)高斯模型包含的樣本數(shù),N+表示正樣本的總數(shù);負(fù)樣本高斯模型的先驗(yàn)概率按照同樣方法計(jì)算,即Pk-=Nk-/N-;(2)核矩陣的構(gòu)建使用步驟(1)中得到的K個(gè)高斯模型構(gòu)建一個(gè)K×K的核矩陣,其中每個(gè)元素根據(jù)公式(2)或公式(3)計(jì)算得到
全文摘要
本發(fā)明屬于統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種用于在大規(guī)模數(shù)據(jù)分類問題中訓(xùn)練SVM分類器的方法。該方法首先訓(xùn)練樣本的聚類,根據(jù)聚類結(jié)果,把具有相同標(biāo)簽的樣本分別擬合成高斯模型,作為訓(xùn)練的基本信息單元;然后根據(jù)K個(gè)高斯模型建立K×K的核矩陣,并建立帶約束的二次規(guī)劃問題,用數(shù)值方法求解之;最后利用該二次規(guī)劃問題的解得到分類器的決策函數(shù),使用該決策函數(shù)對(duì)測試樣本進(jìn)行預(yù)測。本發(fā)明方法對(duì)時(shí)間復(fù)雜度和空間復(fù)雜度都大有降低;可廣泛應(yīng)用于多媒體信息檢索、生物信息識(shí)別、金融信息處理等領(lǐng)域。
文檔編號(hào)G06F17/30GK101127029SQ20071004524
公開日2008年2月20日 申請日期2007年8月24日 優(yōu)先權(quán)日2007年8月24日
發(fā)明者斌 李, 池明旻, 薛向陽 申請人:復(fù)旦大學(xué)