亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于梯度下降法的多視圖gepsvm網(wǎng)頁分類算法

文檔序號:10656140閱讀:543來源:國知局
一種基于梯度下降法的多視圖gepsvm網(wǎng)頁分類算法
【專利摘要】本發(fā)明提出了一種基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,包括MvGDSVM網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟和網(wǎng)頁數(shù)據(jù)分類步驟;MvGDSVM網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟包括:步驟A:輸入網(wǎng)頁訓(xùn)練樣本數(shù)據(jù);步驟B:對網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理;步驟C:訓(xùn)練MvGDSVM網(wǎng)頁分類模型參數(shù);網(wǎng)頁數(shù)據(jù)分類步驟包括:步驟a:輸入待測網(wǎng)頁樣本數(shù)據(jù);步驟b:對待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理;步驟c:通過MvGDSVM網(wǎng)頁分類模型對待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,通過引入一個多視圖協(xié)同規(guī)范化項來最大化不同視圖間分類的一致性,從而有效地結(jié)合了兩個單視圖的提高性的廣義特征值最接近支持向量機(jī),最后利用共軛梯度下降法來求解生成的優(yōu)化問題。
【專利說明】
-種基于梯度下降法的多視圖化PSVM網(wǎng)頁分類算法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及網(wǎng)頁分類技術(shù)領(lǐng)域,尤其設(shè)及一種基于梯度下降法的多視圖GEPSVM網(wǎng) 頁分類算法(簡稱MvGDSVM網(wǎng)頁分類算法)。
【背景技術(shù)】
[0002] 近年來,隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)信息呈指數(shù)級增長,它已經(jīng)成為人們獲取信息的 重要手段。面對海量而又內(nèi)容復(fù)雜的網(wǎng)絡(luò)信息,很多時候無法準(zhǔn)確定位自己想要的信息,而 通過網(wǎng)頁的分類,可W從海量的網(wǎng)絡(luò)信息中迅速、準(zhǔn)確的獲取用戶感興趣的信息。
[0003] 目前,現(xiàn)有的廣義特征值最接近支持向量機(jī)(Generalized eigenvalue proximal support vector machine,GEPSVM)W及提高性的廣義特征值最接近支持向量機(jī)(Improved generalized eigenvalue proximal support vector machine,IGEPSVM)都是簡單有效的 分類方法。
[0004] 1.廣義特征值最接近支持向量機(jī)
[0005] a)線性的 GEPSVM
[0006] 廣義特征值最接近支持向量機(jī)是監(jiān)督學(xué)習(xí)中一種簡單且有效的二分類方法,利用 兩個超平面來對數(shù)據(jù)點進(jìn)行分類。其中每一個超平面離兩類數(shù)據(jù)的其中一類盡量近,離另 外一類盡量遠(yuǎn)。廣義特征值最接近支持向量機(jī)通過解一對廣義特征值問題來獲得運兩個非 平行的超平面。
[0007] 假設(shè)在實空間Rd中,有n個標(biāo)簽為yi(i = l,2,. . .,n)G{ + l,-l}的樣本點。其中,矩 陣Je度"ixd表示屬于+1類的樣本在第一個視圖上的特征,矩陣公e/T"'表示屬于-1類的樣 本在第二個視圖上的特征(ni+n2 = n)。
[000引在實空間Rd中定義兩個超平面:
[0009]
CD
[0010] GEPSVM在最接近超平面上擬棄了標(biāo)準(zhǔn)的SVM中兩個超平面平行的條件,而要求:第 一個超平面離類+1的樣本點盡可能近,離類-1的樣本點盡可能遠(yuǎn);第二個超平面離類-1的 樣本點盡可能近,離類+1的樣本點盡可能遠(yuǎn)。GEPSVM的決策目標(biāo)產(chǎn)生了如下一對優(yōu)化問題:
[0015]
(4)
[0011] (2)
[0012]
[001引 巧)
[0014] 其中M」陵示2-范數(shù)。W上的兩個優(yōu)化問題可W被簡化成:
[0016] 和
[0017] (5)
[001引 :)和(5)可W被規(guī)范化成:
[0019] (貸》
[0020]
[0021] (7)
[0022] 其中e是個非負(fù)的權(quán)重系數(shù)。
[0023] 做出如下定義:
[0024]
化)
[00劇其中G和H是兩個在上的對稱矩陣,Zi和Z2是兩個在R"喘超平面參數(shù)。那 么優(yōu)化問題(6)和(7)可W簡寫成:
[0026] (9)
[0027]
[002引 (1的
[0029] 上面的優(yōu)化問題(9)和(10)是完全瑞利商的,所W它們的全局最優(yōu)解可W通過求 解W下相關(guān)的廣義特征值問題得到
[0030] (G+e Dzi = AHzi, Zi^O (11)
[0031] 和
[0032] 巧+ei)z2 = AGz2,Z2 聲 0. (12)
[0033] 第一個和第二個最優(yōu)接近超平面分別是廣義特征值問題(11)和(12)對于最小特 征值相對應(yīng)的特征向量。
[0034] 顯然,對于一個測試樣本X,線性的GEPSVM的預(yù)測函數(shù)是
[0035]
(13)
[0036] 其中I .是個絕對值函數(shù),I"",,I表示X到第一個分類超平面的垂直距離, Ii Wj Il ^^^^^^^表示^到第二個分類超平面的垂直距離。運個預(yù)測函數(shù)表明如果樣本^離第一個 Il ^2 Il 分類超平面比較近,它就被分到類+1,否則它被分到類-1。
[0037] b)核方法的 GEPSVM
[0038] 線性的GEPSVM可W通過核方法來泛化到非線性的情況。考慮一下兩個核生成的超 平面代替平面(I):
[0039]
, (14)
[0040] 其中
《是個核函數(shù)。在本文中,主要考慮常用的高斯核(Gaussian kernel),它的第ij(i = l,2,...,ni,j = l,2,...,n)個元素如下給出:
[0041 ] , (巧)
[0042] t注意到其實平面(1)是一個(14)的 特殊情況:假設(shè)使用一個線性核
[0043] 后面訓(xùn)練得到兩個超平面的過程與線性的GEPSVM的訓(xùn)練過程形式相同。
[0044] 對于一個測試樣本X,核的GEPSVM的預(yù)測函數(shù)是
[0045]
(巧)
[0046] 其中iy_點叫表示X到第一個基于核的分類超平面的距離, yjUi KiC 乂 腳 表示X到第二個基于核的分類超平面的距離。運個預(yù)測函數(shù)表明如果樣 小!; Ki、C,C )!i; 本X離第一個分類超平面比較近,它就被分到類+1,否則它被分到類-I。
[0047] 2.提高性的廣義特征值最接近支持向量機(jī) [004 引 a)線性的 IGEPSVM
[0049] GEPSVM的決策目標(biāo)產(chǎn)生了如下一對優(yōu)化問題:
[(K)加] (17)
[0化1 ]
[0052] 。8)
[0化3]其中II. M表示2-范數(shù)。
[0054] GEPSVM在廣義特征值分解時會產(chǎn)生奇異值問題,為了克服運個缺陷,IGEPSVM使用 減來代替GEPSVM中的除來衡量兩類樣本到分類超平面之間的距離差。那么優(yōu)化問題(17)和 (18)可W被轉(zhuǎn)化成:
[005引 。9)
[0化6]
[0057] 口0)
[005引其中V是個權(quán)重系數(shù)。為了消去超平面變量(wi,丫 I) (i = I,2)的范數(shù),引入一個 Ti化onov規(guī)范化項。然后通過如下的定義:
[0化9]
[0060]然后優(yōu)化問題(19)和(20)可W被規(guī)范化成:
[0061 ] (21)
[0062]
[0063] (22)
[0064] W上的兩個優(yōu)化問題是完全瑞利商的。式(21)的拉格朗日函數(shù)可W寫成:
[00化]
(23)
[0066] 其中Al和A2是拉格朗日乘子。令式(23)關(guān)于變量(zi,ai)求偏導(dǎo)后的值為零,得到 W下等式
[0067] 2(G+eI-vH)z 廣 2 入IZ = O.
[0068] 所W優(yōu)化問題(21)的全局最優(yōu)解可W通過求解下面的特征值問題求得
[0069] (G+eI-vH)zi = Aizi.(24)
[0070] 相似的,優(yōu)化問題(22)的全局最優(yōu)解可W通過下面的特征值問題求得
[0071] (H+eI-vG)z2 = Aiz2.(25)
[0072] 第一個和第二個最優(yōu)接近超平面分別是特征值問題(24)和(25)對于最小特征值 對應(yīng)的特征向量。
[0073] 顯然,對于一個測試樣本X,線性的IGEPSVM的預(yù)測函數(shù)是
[0074]
[0075] b)核的 IGEPSVM
[0076] 線性的IGEPSVM可W通過核方法來泛化到非線性的情況。考慮一下兩個核生成的 超平面代替平面(1):
[0077] (紙)
[007引
[0079] 后面的訓(xùn)練過程與線性的IGEPSVM的訓(xùn)練過程形式相同。而核的IGEPSVM的預(yù)測準(zhǔn) 則和核的GEPSVM相同。
[0080] 但目前,現(xiàn)有的不管是廣義特征值最接近支持向量機(jī),還是提高性的廣義特征值 最接近支持向量在網(wǎng)頁分類的應(yīng)用都不是很廣泛。因為運兩個算法都是單視圖的分類算 法,有著一定的局限性。它們都不能充分利用網(wǎng)頁的多個視圖上的特征信息,在網(wǎng)頁上的分 類精度還有提高的空間。

【發(fā)明內(nèi)容】

[0081] 本發(fā)明提出一種多視圖GEPSVM算法用于網(wǎng)頁分類,能夠充分利用網(wǎng)頁的多個視圖 信息,來提高分類性能。
[0082] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中,包括MvGDSVM網(wǎng) 頁分類模型參數(shù)訓(xùn)練步驟和網(wǎng)頁數(shù)據(jù)分類步驟;
[0083] 所述MvGDSVM網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟包括:
[0084] 步驟A:輸入網(wǎng)頁訓(xùn)練樣本數(shù)據(jù);
[0085] 步驟B:對所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理;
[0086] 步驟C:訓(xùn)練MvGDSVM網(wǎng)頁分類模型參數(shù);
[0087] 所述網(wǎng)頁數(shù)據(jù)分類步驟包括:
[0088] 步驟a:輸入待測網(wǎng)頁樣本數(shù)據(jù);
[0089] 步驟b:對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理;
[0090] 步驟C:通過MvGDSVM網(wǎng)頁分類模型對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。
[0091] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中,所述步驟B中的 預(yù)處理包括:
[0092] 步驟BI:確定所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)每個視圖上的特征向量;
[0093] 步驟B2:對所有所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)的每個視圖上的特征向量分別作標(biāo)準(zhǔn)化處 理。
[0094] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中,所述步驟C中,通 過多視圖協(xié)同規(guī)范化項來最大化不同視圖間分類的一致性。
[00M]本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中,所述步驟C包括:
[0096] 步驟Cl:在每個視圖上最大化兩類樣本與超平面之間的距離差,同時最小化在同 一個網(wǎng)頁訓(xùn)練樣本上兩個假設(shè)函數(shù)作用在不同視圖上的結(jié)果;
[0097] 步驟C2:使用共輛梯度下降法優(yōu)化目標(biāo)函數(shù),給出目標(biāo)函數(shù)的梯度。
[0098] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中,所述步驟C進(jìn)一 步包括:
[0099] 步驟C3:利用MvGDSVM求得分類超平面參數(shù);
[0100] 步驟C4:分別計算每個視圖上網(wǎng)頁訓(xùn)練樣本到兩個超平面的垂直距離,得到?jīng)Q策 函數(shù)的預(yù)測結(jié)果。
[0101] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中,所述步驟b中標(biāo) 準(zhǔn)化預(yù)處理包括:
[0102] 步驟bl:確定待測網(wǎng)頁樣本數(shù)據(jù)每個視圖上的特征向量;
[0103] 步驟b2:對所有待測網(wǎng)頁網(wǎng)頁數(shù)據(jù)的每個視圖上的特征向量分別作標(biāo)準(zhǔn)化處理。
[0104] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中,所述步驟C中對 所述待測網(wǎng)頁數(shù)據(jù)進(jìn)行分類包括:
[0105] 步驟Cl:利用訓(xùn)練樣本數(shù)據(jù)得到的MvGDSVM分類模型的最佳參數(shù),分別計算每個視 圖上樣本到兩個超平面的垂直距離;
[0106] 步驟c2:利用訓(xùn)練時得到的最佳預(yù)測函數(shù)來對待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。
[010 引
[0107]本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中,線性的MvGDSVM 中,每個視圖上網(wǎng)頁樣本到兩個超平面的垂直距離如下式:
[0109]
[0110] 其中,view 1和view 2分別表示第一個視圖和第二個視圖;distil表示網(wǎng)頁樣本 數(shù)據(jù)在第一個視圖上到第一個超平面的垂直距離,distl2表示網(wǎng)頁樣本數(shù)據(jù)在第一個視圖 上到第二個超平面的垂直距離;dist21表示網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上到第一個超平面 的垂直距離,dist22表示網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上到第二個超平面的垂直距離;Xi表 示網(wǎng)頁樣本數(shù)據(jù)第一個視圖上的特征向量,X2表示網(wǎng)頁樣本數(shù)據(jù)第二個視圖上的特征向 量;第一個視圖的第一個超平面參數(shù)表示為(W1,丫 1),第二個超平面參數(shù)表示為(ui,Ci);第 二個視圖的第一個超平面參數(shù)表示為(W2,丫 2 ),第二個超平面參數(shù)表示為(U2,(2 )。
[0111] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中,核的MvGDSVM中, 每個視圖上網(wǎng)頁樣本到兩個超平面的距離如下式:
[0112]
[0113]
[0114] 其中
矩陣表示第一類網(wǎng)頁樣本數(shù)據(jù)在第一個視圖上的特征; 矩陣4 表示第一類網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上的特征;矩陣公1 表示第二類 網(wǎng)頁樣本數(shù)據(jù)在第一個視圖上的特征;矩陣馬€表示第二類網(wǎng)頁樣本數(shù)據(jù)在第二個 視圖上的特征;K為核函數(shù)。
[0115] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中,所述決策函數(shù)的 預(yù)測結(jié)果如下式:
[0116]
[0117]
[011 引
[0119] 其中,J;為第一個視圖上的決策函數(shù)的預(yù)測結(jié)果;£是第二個視圖上的決策函數(shù) 的預(yù)測結(jié)果;來是結(jié)合兩個視圖的決策函數(shù)的預(yù)測結(jié)果。
[0120] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,通過引入一個多視 圖協(xié)同規(guī)范化項來最大化不同視圖間分類的一致性,從而有效地結(jié)合了兩個單視圖的提高 性的廣義特征值最接近支持向量機(jī)(IGEPSVM)。最后利用共輛梯度下降法來求解生成的優(yōu) 化問題。
【附圖說明】
[0121] 圖1為本發(fā)明基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法的流程框架圖。
【具體實施方式】
[0122] 結(jié)合W下具體實施例和附圖,對發(fā)明作進(jìn)一步的詳細(xì)說明。實施本發(fā)明的過程、條 件、實驗方法等,除W下??谔峒暗膬?nèi)容之外,均為本領(lǐng)域的普遍知識和公知常識,本發(fā)明 沒有特別限制內(nèi)容。
[0123] 本發(fā)明提出了一種基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,包括MvGDSVM 網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟和網(wǎng)頁數(shù)據(jù)分類步驟。
[0124] 本發(fā)明中,MvGDSVM網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟包括:
[0125] 步驟A:輸入網(wǎng)頁訓(xùn)練樣本數(shù)據(jù);
[0126] 步驟B:對所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理;
[0127] 步驟C:訓(xùn)練MvGDSVM網(wǎng)頁分類模型參數(shù);
[01 %]本發(fā)明中,所述網(wǎng)頁數(shù)據(jù)分類步驟包括:
[0129] 步驟a:輸入待測網(wǎng)頁樣本數(shù)據(jù);
[0130] 步驟b:對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理;
[0131] 步驟C:通過MvGDSVM網(wǎng)頁分類模型對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。
[0132] 本發(fā)明提出的MvGDSVM網(wǎng)頁分類算法,分為線性和非線性的兩種情況:1.線性的 MvGDSVM
[0133] 考慮一個網(wǎng)頁數(shù)據(jù)的二分類問題,給定n個標(biāo)簽為yi(i = l,2, . . .,n) G { + 1,-1}的 網(wǎng)頁樣本點。對網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)預(yù)處理后,得到所有網(wǎng)頁訓(xùn)練樣本的在每個視圖上的特 征向量。其中矩陣4 e巧"表示屬于類+1的樣本點在第一個視圖上的特征,矩陣4 €巧" 表示屬于類+1的樣本點在第二個視圖上的特征。矩陣巧.€度"2^|表示屬于類-1的樣本點在第 一個視圖上的特征,矩陣馬6貸"2^2表示屬于類-1的樣本點在第二個視圖上的特征。顯然,ni +n2 = n〇
[0134] 對于每個視圖,分別給出如下兩個超平面的定義:
[0135]
[0136]
[0137] 其中xi(X2)表示X的第一個(第二個)視圖的特征。
[0138] 本發(fā)明給出如下定義:
[0140] 其中,Gi和出是在上的對稱矩陣瓜和也是在點+"XW;+"上的對稱矩陣。Zi (27)
[0139] 和Pl是兩個在度的超平面參數(shù),Z2和P2是兩個在巧上的超平面參數(shù)。
[0141] 為了結(jié)合兩個視圖的特征,引入如下的多視圖協(xié)同規(guī)范化項:
[0142]
[0143] 通過結(jié)合兩個單視圖的IGEPSVM,本發(fā)明給出MvGDSVM的第一個優(yōu)化問題:
[0144] (28)
[0145] 其中v,S是非負(fù)的權(quán)重參數(shù)。
[0146] 上面的優(yōu)化問題的目標(biāo)函數(shù)可W被理解成:在每個視圖上最大化兩類樣本與超平 面之間的距離差,與此同時最小化在同一個訓(xùn)練樣本上兩個函數(shù)+71和xjw; +朽作用 在不同視圖上的結(jié)果。
[0147] 上面的優(yōu)化問題(28)可W被簡化成:
[014 引
[0149] 本發(fā)明中,使用共輛梯度下降法去優(yōu)化目標(biāo)函數(shù)Fi(zi,Z2),然后分別給出目標(biāo)函 數(shù)關(guān)于Zl和Z2的梯度
[0150]
[0151]
[0152] 對于一個非凸函數(shù),梯度下降法求得的是局部最優(yōu)解。所W它不能確保得到優(yōu)化 問題(29)的最優(yōu)解。為了較好的分類超平面,選擇=組不同zi,Z2的初始值來對優(yōu)化問題 (29)進(jìn)行梯度下降:
[0153] 1 .Zi和Z2分別通過單視圖的IGEPSVM求得。
[0154] 2.Zi和Z2分別是對應(yīng)維度的單位列向量。
[0155] 3.Zi和Z2分別是對應(yīng)維度的列向量,它們的每個元素都是在[-1,U之間取值的隨 機(jī)數(shù)。
[0156] 第一組初始值作為基本參照,它能夠確保采用的初始化策略對目標(biāo)函數(shù)(29)進(jìn)行 梯度下降后求得的局部最優(yōu)解肯定優(yōu)于Zi和Z2分別是兩個單視圖的IGEPSVM的最優(yōu)分類平 面的參數(shù)的情況。它表明在理論上本發(fā)明提出的多視圖方法與對應(yīng)的單視圖方法相比是更 加有效的。
[0157] 相同地,通過引入另外一個多視圖協(xié)同規(guī)范化項 [015 引
[0159]本發(fā)明給出MvGDSVM的第二個優(yōu)化問題:
[0160] (30) [0161]
[0162] P
[0163] 本發(fā)明用共輛梯度下降法并采用上面的初始化策略去優(yōu)化目標(biāo)函數(shù)F2(Pi,P2),然 后分別給出目標(biāo)函數(shù)式(31)關(guān)于Pl和P2的梯度
[0164]
[01 化]
[0166] 現(xiàn)在利用線性的MvGDSVM求得需要的分類超平面參數(shù):第一個視圖的第一個超平 面參數(shù)(W1,丫 1)和第二個超平面參數(shù)(m,Ci),W及第二個視圖的第一個超平面參數(shù)(W2, 丫 2)和第二個超平面參數(shù)(112,(2)。對于一個網(wǎng)頁待測樣本X,首先對其每個視圖上的特征向 量分別作標(biāo)準(zhǔn)化處理,然后分別計算每個視圖上X到兩個超平面的垂直距離:
[0167] 腿)
[016 引
[0側(cè) 辯)
[0170] 其中^和;;分別是第一個視圖上和第二個視圖上的決策函數(shù)的預(yù)測結(jié)果,少是結(jié) 合兩個視圖的決策函數(shù)的預(yù)測結(jié)果。
[0171] 2.核的 MvGDSVM
[0172] 對于非線性的情況,引入核生成的超平面。對于每一個視圖上的兩個超平面,做出 如下定義:
[0175] 其中K是上文中提及的核函數(shù).
[0173]
[0174]
[0176] 首先給出如下定義:
[0177]
[017 引
[0179]
[0180]
[01 81 ] 其中61,化,62和出是在1?''""'^''""'上的對稱矩陣,21,口1,22,口2是在滬"上的超平面參 數(shù)。
[0182] 在核的MvGDSVM中,為了結(jié)合兩個視圖的特征,引入如下的多視圖協(xié)同規(guī)范化項
[0183]
[0184] 然后通過結(jié)合兩個單視圖的IGEPSVM,本發(fā)明給出核的MvGDSVM的第一個優(yōu)化問 題:
[0185]
(糾)
[0186] 其中V是個非負(fù)的權(quán)重參數(shù)。上面的優(yōu)化問題(34)可W被簡化成 W873
(35) 1234567
[0188] 同樣地,利用共輛梯度下降法并采用上面的初始化策略去優(yōu)化目標(biāo)函數(shù)Fi(zi, Z2),然后分別給出目標(biāo)函數(shù)式(35)關(guān)于Zl和Z2的梯度:
2 3 相同地,通過引入另外一個多視圖協(xié)同規(guī)范化項: 4
[0192]
5 本發(fā)明給出核的MvGDSVM的第二個優(yōu)化問題 6
(36) 7 它可W被簡化成:
[0196]
(37)
[0197] 用共輛梯度下降法并采用上面的初始化策略去優(yōu)化目標(biāo)函數(shù)F2(Pi,P2),然后分別 給出目標(biāo)函數(shù)式(37)關(guān)于Pi和P2的梯度
[019 引
[0199]
[0200] 對于核的MvGDSVM來說,決策函數(shù)和在線性的MvGDSVM中的式(33)是完全相同,但 是對點到超平面的距離的定義是不同于式(32)的.對于一個網(wǎng)頁待測樣本X,首先對其每個 視圖上的特征向量分別作標(biāo)準(zhǔn)化處理,然后分別計算每個視圖上X到兩個超平面的距離:
[0201]
[0202]
[0203] 通過在一個真實的網(wǎng)頁數(shù)據(jù)集上的例子來說明本發(fā)明的具體實施方法和驗證本 發(fā)明算法的效果。網(wǎng)頁分類數(shù)據(jù)集是從Cornell University,University of Washington, University of Wisconsin,and University of Texas運四所美國大學(xué)計算機(jī)系網(wǎng)站上收 集而來的擁有兩個視圖的網(wǎng)頁構(gòu)成的,其中一個視圖是網(wǎng)頁本身的單詞特性,另一個視圖 是指向此網(wǎng)頁的超鏈接上的單詞特性。運兩個視圖的維度分別是500和87。運個數(shù)據(jù)集一共 有1051個樣本,其中有關(guān)課程的網(wǎng)頁230個,無關(guān)課程的網(wǎng)頁821個。隨機(jī)選擇了 500個樣本 來驗證本發(fā)明MvGDSVM算法的分類性能。
[0204] 對于運500個網(wǎng)頁樣本,首先把它們劃分成訓(xùn)練樣本數(shù)據(jù)和測試樣本數(shù)據(jù)。通過在 訓(xùn)練樣本數(shù)據(jù)上利用網(wǎng)格捜索的5-fold交叉驗證得到的平均驗證準(zhǔn)確率,選取出最佳的模 型參數(shù)。對于MvGDSVM方法,除了復(fù)合決策函數(shù),也考慮來自各個視圖的決策函數(shù),其中最大 驗證準(zhǔn)確率的決策函數(shù)將被采用的,見式(33)。當(dāng)最佳的模型參數(shù)和決策函數(shù)都選擇好后, 將會評估所有的方法在測試集上的性能。上面的過程隨機(jī)重復(fù)5次,然后通過平均正確率和 對應(yīng)的標(biāo)準(zhǔn)差來展示所有方法的分類性能。下圖是MvGDSVMW及對比算法的平均分類準(zhǔn)確 率和標(biāo)準(zhǔn)差。其中IGEPSVM1,IGEPSVM2和IGEPSVM3是單視圖的IGEPSVM算法,前兩者分別作 用在第一個視圖和第二個視圖的特征向量上。而IGEPSVM3把兩個視圖的特征向量連接起來 作為一個視圖。從圖中可W看出本發(fā)明的MvGDSVM算法與對應(yīng)的單視圖方法相比,有很好的 性能提高。與另外一個經(jīng)典的多視圖學(xué)習(xí)方法SVM-2K相比,本發(fā)明的算法不管在準(zhǔn)確率和 穩(wěn)定性上都表現(xiàn)得較好。運說明本發(fā)明的多視圖學(xué)習(xí)算法MvGDSVM在網(wǎng)頁分類上是完全有 效的。 「AOAKl

'[0206]本發(fā)明的保護(hù)內(nèi)容不局限于W上i施例。在不背離發(fā)明構(gòu)思的申和范圍下,本I 領(lǐng)域技術(shù)人員能夠想到的變化和優(yōu)點都被包括在本發(fā)明中,并且W所附的權(quán)利要求書為保 護(hù)范圍。
【主權(quán)項】
1. 一種基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,其特征在于,包括MvGDSVi^H 分類模型參數(shù)訓(xùn)練步驟和網(wǎng)頁數(shù)據(jù)分類步驟; 所述Mv⑶SVM網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟包括: 步驟A:輸入網(wǎng)頁訓(xùn)練樣本數(shù)據(jù); 步驟B:對所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理; 步驟C:訓(xùn)練Mv⑶SVM網(wǎng)頁分類模型參數(shù); 所述網(wǎng)頁數(shù)據(jù)分類步驟包括: 步驟a:輸入待測網(wǎng)頁樣本數(shù)據(jù); 步驟b:對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理; 步驟c:通過Mv⑶SVM網(wǎng)頁分類模型對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。2. 如權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,其特征在于,所 述步驟B中的預(yù)處理包括: 步驟BI:確定所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)每個視圖上的特征向量; 步驟B2:對所有所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)的每個視圖上的特征向量分別作標(biāo)準(zhǔn)化處理。3. 權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,其特征在于,所述 步驟C中,通過多視圖協(xié)同規(guī)范化項來最大化不同視圖間分類的一致性。4. 如權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,其特征在于,所 述步驟C包括: 步驟Cl:在每個視圖上最大化兩類樣本與超平面之間的距離差,同時最小化在同一個 網(wǎng)頁訓(xùn)練樣本上兩個假設(shè)函數(shù)作用在不同視圖上的結(jié)果; 步驟C2:使用共輒梯度下降法優(yōu)化目標(biāo)函數(shù),給出目標(biāo)函數(shù)的梯度。5. 如權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,其特征在于,所 述步驟C進(jìn)一步包括: 步驟C3:利用MvGDSVM求得分類超平面參數(shù); 步驟C4:分別計算每個視圖上網(wǎng)頁訓(xùn)練樣本到兩個超平面的垂直距離,得到?jīng)Q策函數(shù) 的預(yù)測結(jié)果。6. 如權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,其特征在于,所 述步驟b中標(biāo)準(zhǔn)化預(yù)處理包括: 步驟b 1:確定待測網(wǎng)頁樣本數(shù)據(jù)每個視圖上的特征向量; 步驟b2:對所有待測網(wǎng)頁網(wǎng)頁數(shù)據(jù)的每個視圖上的特征向量分別作標(biāo)準(zhǔn)化處理。7. 如權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,其特征在于,所 述步驟c中對所述待測網(wǎng)頁數(shù)據(jù)進(jìn)行分類包括: 步驟cl:利用訓(xùn)練樣本數(shù)據(jù)得到的MvGDSVM分類模型的最佳參數(shù),分別計算每個視圖上 樣本到兩個超平面的垂直距離; 步驟c2:利用訓(xùn)練時得到的最佳預(yù)測函數(shù)來對待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。8. 如權(quán)利要求5或7所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,其特征在 于,線性的MvGDSVM中,每個視圖上網(wǎng)頁樣本到兩個超平面的垂直距離如下式:其中,view 1和view 2分別表示第一個視圖和第二個視圖;distil表示網(wǎng)頁樣本數(shù)據(jù) 在第一個視圖上到第一個超平面的垂直距離,distl2表示網(wǎng)頁樣本數(shù)據(jù)在第一個視圖上到 第二個超平面的垂直距離;dist21表示網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上到第一個超平面的垂 直距離,dist22表示網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上到第二個超平面的垂直距離; X1表示網(wǎng) 頁樣本數(shù)據(jù)第一個視圖上的特征向量,X2表示網(wǎng)頁樣本數(shù)據(jù)第二個視圖上的特征向量;第 一個視圖的第一個超平面參數(shù)表示為( W1,γ :),第二個超平面參數(shù)表示為(m,ζ:);第二個 視圖的第一個超平面參數(shù)表示為(w2,y2),第二個超平面參數(shù)表示為(ιι 2,ζ2)。9. 如權(quán)利要求5或7所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,其特征在 于,核的MvGDSVM中,每個視圖上網(wǎng)頁樣本到兩個超平面的距離如下式:其中,矩陣4 e表示第一類網(wǎng)頁樣本數(shù)據(jù)在第一個視圖上的特征;矩陣 4 表示第一類網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上的特征;矩陣戽EiTW1表示第二類網(wǎng) 頁樣本數(shù)據(jù)在第一個視圖上的特征;矩陣孕表示第二類網(wǎng)頁樣本數(shù)據(jù)在第二個視 圖上的特征;K為核函數(shù)。10. 如權(quán)利要求5或7所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,其特征在 于,所述決策函數(shù)的預(yù)測結(jié)果如下式: ,丨=sign(i//、,12 -i//、vl 1), 3 s = s i g η (JAv / 2 2 - distl I), y = sign(disi 12 + distil - disil I - distl I ); 其中,?為第一個視圖上的決策函數(shù)的預(yù)測結(jié)果;g是第二個視圖上的決策函數(shù)的預(yù) 測結(jié)果d是結(jié)合兩個視圖的決策函數(shù)的預(yù)測結(jié)果。
【文檔編號】G06K9/62GK106022356SQ201610307835
【公開日】2016年10月12日
【申請日】2016年5月11日
【發(fā)明人】孫仕亮, 董超, 謝錫炯
【申請人】華東師范大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1