一種基于梯度下降法的多視圖gepsvm網(wǎng)頁分類算法

文檔序號：10656140閱讀：543來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于梯度下降法的多視圖gepsvm網(wǎng)頁分類算法
【專利摘要】本發(fā)明提出了一種基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法,包括MvGDSVM網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟和網(wǎng)頁數(shù)據(jù)分類步驟；MvGDSVM網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟包括：步驟A：輸入網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)；步驟B：對網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理；步驟C：訓(xùn)練MvGDSVM網(wǎng)頁分類模型參數(shù)；網(wǎng)頁數(shù)據(jù)分類步驟包括：步驟a：輸入待測網(wǎng)頁樣本數(shù)據(jù)；步驟b：對待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理；步驟c：通過MvGDSVM網(wǎng)頁分類模型對待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，通過引入一個多視圖協(xié)同規(guī)范化項來最大化不同視圖間分類的一致性，從而有效地結(jié)合了兩個單視圖的提高性的廣義特征值最接近支持向量機(jī)，最后利用共軛梯度下降法來求解生成的優(yōu)化問題。
【專利說明】
-種基于梯度下降法的多視圖化PSVM網(wǎng)頁分類算法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及網(wǎng)頁分類技術(shù)領(lǐng)域，尤其設(shè)及一種基于梯度下降法的多視圖GEPSVM網(wǎng) 頁分類算法(簡稱MvGDSVM網(wǎng)頁分類算法）。
【背景技術(shù)】
[0002] 近年來，隨著互聯(lián)網(wǎng)的普及，網(wǎng)絡(luò)信息呈指數(shù)級增長，它已經(jīng)成為人們獲取信息的重要手段。面對海量而又內(nèi)容復(fù)雜的網(wǎng)絡(luò)信息，很多時候無法準(zhǔn)確定位自己想要的信息，而通過網(wǎng)頁的分類，可W從海量的網(wǎng)絡(luò)信息中迅速、準(zhǔn)確的獲取用戶感興趣的信息。
[0003] 目前，現(xiàn)有的廣義特征值最接近支持向量機(jī)(Generalized eigenvalue proximal support vector machine,GEPSVM)W及提高性的廣義特征值最接近支持向量機(jī)（Improved generalized eigenvalue proximal support vector machine,IGEPSVM)都是簡單有效的分類方法。
[0004] 1.廣義特征值最接近支持向量機(jī)
[0005] a)線性的 GEPSVM
[0006] 廣義特征值最接近支持向量機(jī)是監(jiān)督學(xué)習(xí)中一種簡單且有效的二分類方法，利用兩個超平面來對數(shù)據(jù)點進(jìn)行分類。其中每一個超平面離兩類數(shù)據(jù)的其中一類盡量近，離另外一類盡量遠(yuǎn)。廣義特征值最接近支持向量機(jī)通過解一對廣義特征值問題來獲得運兩個非平行的超平面。
[0007] 假設(shè)在實空間Rd中，有n個標(biāo)簽為yi(i = l，2，. . .，n)G{ + l，-l}的樣本點。其中，矩陣Je度"ixd表示屬于+1類的樣本在第一個視圖上的特征，矩陣公e/T"'表示屬于-1類的樣本在第二個視圖上的特征(ni+n2 = n)。
[000引在實空間Rd中定義兩個超平面：
[0009]
CD
[0010] GEPSVM在最接近超平面上擬棄了標(biāo)準(zhǔn)的SVM中兩個超平面平行的條件，而要求:第一個超平面離類+1的樣本點盡可能近，離類-1的樣本點盡可能遠(yuǎn);第二個超平面離類-1的樣本點盡可能近，離類+1的樣本點盡可能遠(yuǎn)。GEPSVM的決策目標(biāo)產(chǎn)生了如下一對優(yōu)化問題：
[0015]
(4)
[0011] (2)
[0012]
[001引巧）
[0014] 其中M」陵示2-范數(shù)。W上的兩個優(yōu)化問題可W被簡化成：
[0016] 和
[0017] (5)
[001引：)和(5)可W被規(guī)范化成：
[0019] (貸》
[0020]
[0021] (7)
[0022] 其中e是個非負(fù)的權(quán)重系數(shù)。
[0023] 做出如下定義：
[0024]
化）
[00劇其中G和H是兩個在上的對稱矩陣，Zi和Z2是兩個在R"喘超平面參數(shù)。那么優(yōu)化問題(6)和(7)可W簡寫成：
[0026] (9)
[0027]
[002引（1的
[0029] 上面的優(yōu)化問題（9)和（10)是完全瑞利商的，所W它們的全局最優(yōu)解可W通過求解W下相關(guān)的廣義特征值問題得到
[0030] (G+e Dzi = AHzi, Zi^O (11)
[0031] 和
[0032] 巧+ei)z2 = AGz2,Z2 聲 0. (12)
[0033] 第一個和第二個最優(yōu)接近超平面分別是廣義特征值問題（11)和（12)對于最小特征值相對應(yīng)的特征向量。
[0034] 顯然，對于一個測試樣本X，線性的GEPSVM的預(yù)測函數(shù)是
[0035]
(13)
[0036] 其中I .是個絕對值函數(shù)，I"",,I表示X到第一個分類超平面的垂直距離， Ii Wj Il ^^^^^^^表示^到第二個分類超平面的垂直距離。運個預(yù)測函數(shù)表明如果樣本^離第一個 Il ^2 Il 分類超平面比較近，它就被分到類+1，否則它被分到類-1。
[0037] b)核方法的 GEPSVM
[0038] 線性的GEPSVM可W通過核方法來泛化到非線性的情況。考慮一下兩個核生成的超平面代替平面(I):
[0039]
, (14)
[0040] 其中
《是個核函數(shù)。在本文中，主要考慮常用的高斯核（Gaussian kernel)，它的第ij(i = l，2,...，ni，j = l，2,...，n)個元素如下給出：
[0041 ] , (巧）
[0042] t注意到其實平面(1)是一個(14)的特殊情況:假設(shè)使用一個線性核
[0043] 后面訓(xùn)練得到兩個超平面的過程與線性的GEPSVM的訓(xùn)練過程形式相同。
[0044] 對于一個測試樣本X，核的GEPSVM的預(yù)測函數(shù)是
[0045]
(巧)
[0046] 其中iy_點叫表示X到第一個基于核的分類超平面的距離， yjUi KiC 乂腳表示X到第二個基于核的分類超平面的距離。運個預(yù)測函數(shù)表明如果樣小!； Ki、C，C )!i; 本X離第一個分類超平面比較近，它就被分到類+1，否則它被分到類-I。
[0047] 2.提高性的廣義特征值最接近支持向量機(jī) [004 引 a)線性的 IGEPSVM
[0049] GEPSVM的決策目標(biāo)產(chǎn)生了如下一對優(yōu)化問題：
[(K)加] (17)
[0化1 ]
[0052] 。8)
[0化3]其中II. M表示2-范數(shù)。
[0054] GEPSVM在廣義特征值分解時會產(chǎn)生奇異值問題，為了克服運個缺陷，IGEPSVM使用減來代替GEPSVM中的除來衡量兩類樣本到分類超平面之間的距離差。那么優(yōu)化問題（17)和 (18)可W被轉(zhuǎn)化成：
[005引。9)
[0化6]
[0057] 口0)
[005引其中V是個權(quán)重系數(shù)。為了消去超平面變量(wi，丫 I) (i = I，2)的范數(shù)，引入一個 Ti化onov規(guī)范化項。然后通過如下的定義：
[0化9]
[0060]然后優(yōu)化問題（19)和(20)可W被規(guī)范化成：
[0061 ] (21)
[0062]
[0063] (22)
[0064] W上的兩個優(yōu)化問題是完全瑞利商的。式(21)的拉格朗日函數(shù)可W寫成：
[00化]
(23)
[0066] 其中Al和A2是拉格朗日乘子。令式(23)關(guān)于變量(zi，ai)求偏導(dǎo)后的值為零，得到 W下等式
[0067] 2(G+eI-vH)z 廣 2 入IZ = O.
[0068] 所W優(yōu)化問題(21)的全局最優(yōu)解可W通過求解下面的特征值問題求得
[0069] (G+eI-vH)zi = Aizi.(24)
[0070] 相似的，優(yōu)化問題(22)的全局最優(yōu)解可W通過下面的特征值問題求得
[0071] (H+eI-vG)z2 = Aiz2.(25)
[0072] 第一個和第二個最優(yōu)接近超平面分別是特征值問題(24)和(25)對于最小特征值對應(yīng)的特征向量。
[0073] 顯然，對于一個測試樣本X，線性的IGEPSVM的預(yù)測函數(shù)是
[0074]
[0075] b)核的 IGEPSVM
[0076] 線性的IGEPSVM可W通過核方法來泛化到非線性的情況。考慮一下兩個核生成的超平面代替平面(1):
[0077] (紙)
[007引
[0079] 后面的訓(xùn)練過程與線性的IGEPSVM的訓(xùn)練過程形式相同。而核的IGEPSVM的預(yù)測準(zhǔn) 則和核的GEPSVM相同。
[0080] 但目前，現(xiàn)有的不管是廣義特征值最接近支持向量機(jī)，還是提高性的廣義特征值最接近支持向量在網(wǎng)頁分類的應(yīng)用都不是很廣泛。因為運兩個算法都是單視圖的分類算法，有著一定的局限性。它們都不能充分利用網(wǎng)頁的多個視圖上的特征信息，在網(wǎng)頁上的分類精度還有提高的空間。

【發(fā)明內(nèi)容】

[0081] 本發(fā)明提出一種多視圖GEPSVM算法用于網(wǎng)頁分類，能夠充分利用網(wǎng)頁的多個視圖信息，來提高分類性能。
[0082] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中，包括MvGDSVM網(wǎng) 頁分類模型參數(shù)訓(xùn)練步驟和網(wǎng)頁數(shù)據(jù)分類步驟；
[0083] 所述MvGDSVM網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟包括：
[0084] 步驟A:輸入網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)；
[0085] 步驟B:對所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理；
[0086] 步驟C:訓(xùn)練MvGDSVM網(wǎng)頁分類模型參數(shù)；
[0087] 所述網(wǎng)頁數(shù)據(jù)分類步驟包括：
[0088] 步驟a:輸入待測網(wǎng)頁樣本數(shù)據(jù)；
[0089] 步驟b:對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理；
[0090] 步驟C:通過MvGDSVM網(wǎng)頁分類模型對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。
[0091] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中，所述步驟B中的預(yù)處理包括：
[0092] 步驟BI:確定所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)每個視圖上的特征向量；
[0093] 步驟B2:對所有所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)的每個視圖上的特征向量分別作標(biāo)準(zhǔn)化處理。
[0094] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中，所述步驟C中，通過多視圖協(xié)同規(guī)范化項來最大化不同視圖間分類的一致性。
[00M]本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中，所述步驟C包括：
[0096] 步驟Cl:在每個視圖上最大化兩類樣本與超平面之間的距離差，同時最小化在同一個網(wǎng)頁訓(xùn)練樣本上兩個假設(shè)函數(shù)作用在不同視圖上的結(jié)果；
[0097] 步驟C2:使用共輛梯度下降法優(yōu)化目標(biāo)函數(shù)，給出目標(biāo)函數(shù)的梯度。
[0098] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中，所述步驟C進(jìn)一步包括：
[0099] 步驟C3:利用MvGDSVM求得分類超平面參數(shù)；
[0100] 步驟C4:分別計算每個視圖上網(wǎng)頁訓(xùn)練樣本到兩個超平面的垂直距離，得到?jīng)Q策函數(shù)的預(yù)測結(jié)果。
[0101] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中，所述步驟b中標(biāo) 準(zhǔn)化預(yù)處理包括：
[0102] 步驟bl:確定待測網(wǎng)頁樣本數(shù)據(jù)每個視圖上的特征向量；
[0103] 步驟b2:對所有待測網(wǎng)頁網(wǎng)頁數(shù)據(jù)的每個視圖上的特征向量分別作標(biāo)準(zhǔn)化處理。
[0104] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中，所述步驟C中對所述待測網(wǎng)頁數(shù)據(jù)進(jìn)行分類包括：
[0105] 步驟Cl:利用訓(xùn)練樣本數(shù)據(jù)得到的MvGDSVM分類模型的最佳參數(shù)，分別計算每個視圖上樣本到兩個超平面的垂直距離；
[0106] 步驟c2:利用訓(xùn)練時得到的最佳預(yù)測函數(shù)來對待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。
[010 引
[0107]本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中，線性的MvGDSVM 中，每個視圖上網(wǎng)頁樣本到兩個超平面的垂直距離如下式：
[0109]
[0110] 其中，view 1和view 2分別表示第一個視圖和第二個視圖；distil表示網(wǎng)頁樣本數(shù)據(jù)在第一個視圖上到第一個超平面的垂直距離，distl2表示網(wǎng)頁樣本數(shù)據(jù)在第一個視圖上到第二個超平面的垂直距離;dist21表示網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上到第一個超平面的垂直距離，dist22表示網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上到第二個超平面的垂直距離;Xi表示網(wǎng)頁樣本數(shù)據(jù)第一個視圖上的特征向量，X2表示網(wǎng)頁樣本數(shù)據(jù)第二個視圖上的特征向量;第一個視圖的第一個超平面參數(shù)表示為(W1，丫 1)，第二個超平面參數(shù)表示為(ui，Ci);第二個視圖的第一個超平面參數(shù)表示為(W2，丫 2 )，第二個超平面參數(shù)表示為(U2，（2 )。
[0111] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中，核的MvGDSVM中，每個視圖上網(wǎng)頁樣本到兩個超平面的距離如下式：
[0112]
[0113]
[0114] 其中
矩陣表示第一類網(wǎng)頁樣本數(shù)據(jù)在第一個視圖上的特征；矩陣4 表示第一類網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上的特征;矩陣公1 表示第二類網(wǎng)頁樣本數(shù)據(jù)在第一個視圖上的特征;矩陣馬€表示第二類網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上的特征;K為核函數(shù)。
[0115] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法中，所述決策函數(shù)的預(yù)測結(jié)果如下式：
[0116]
[0117]
[011 引
[0119] 其中，J；為第一個視圖上的決策函數(shù)的預(yù)測結(jié)果;￡是第二個視圖上的決策函數(shù) 的預(yù)測結(jié)果;來是結(jié)合兩個視圖的決策函數(shù)的預(yù)測結(jié)果。
[0120] 本發(fā)明提出的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，通過引入一個多視圖協(xié)同規(guī)范化項來最大化不同視圖間分類的一致性，從而有效地結(jié)合了兩個單視圖的提高性的廣義特征值最接近支持向量機(jī)（IGEPSVM)。最后利用共輛梯度下降法來求解生成的優(yōu) 化問題。
【附圖說明】
[0121] 圖1為本發(fā)明基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法的流程框架圖。
【具體實施方式】
[0122] 結(jié)合W下具體實施例和附圖，對發(fā)明作進(jìn)一步的詳細(xì)說明。實施本發(fā)明的過程、條件、實驗方法等，除W下?？谔峒暗膬?nèi)容之外，均為本領(lǐng)域的普遍知識和公知常識，本發(fā)明沒有特別限制內(nèi)容。
[0123] 本發(fā)明提出了一種基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，包括MvGDSVM 網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟和網(wǎng)頁數(shù)據(jù)分類步驟。
[0124] 本發(fā)明中，MvGDSVM網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟包括：
[0125] 步驟A:輸入網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)；
[0126] 步驟B:對所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理；
[0127] 步驟C:訓(xùn)練MvGDSVM網(wǎng)頁分類模型參數(shù)；
[01 %]本發(fā)明中，所述網(wǎng)頁數(shù)據(jù)分類步驟包括：
[0129] 步驟a:輸入待測網(wǎng)頁樣本數(shù)據(jù)；
[0130] 步驟b:對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理；
[0131] 步驟C:通過MvGDSVM網(wǎng)頁分類模型對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。
[0132] 本發(fā)明提出的MvGDSVM網(wǎng)頁分類算法，分為線性和非線性的兩種情況：1.線性的 MvGDSVM
[0133] 考慮一個網(wǎng)頁數(shù)據(jù)的二分類問題，給定n個標(biāo)簽為yi(i = l，2, . . .，n) G { + 1,-1}的網(wǎng)頁樣本點。對網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)預(yù)處理后，得到所有網(wǎng)頁訓(xùn)練樣本的在每個視圖上的特征向量。其中矩陣4 e巧"表示屬于類+1的樣本點在第一個視圖上的特征，矩陣4 €巧" 表示屬于類+1的樣本點在第二個視圖上的特征。矩陣巧.€度"2^|表示屬于類-1的樣本點在第一個視圖上的特征，矩陣馬6貸"2^2表示屬于類-1的樣本點在第二個視圖上的特征。顯然，ni +n2 = n〇
[0134] 對于每個視圖，分別給出如下兩個超平面的定義：
[0135]
[0136]
[0137] 其中xi(X2)表示X的第一個(第二個)視圖的特征。
[0138] 本發(fā)明給出如下定義：
[0140] 其中，Gi和出是在上的對稱矩陣瓜和也是在點+"XW;+"上的對稱矩陣。Zi (27)
[0139] 和Pl是兩個在度的超平面參數(shù)，Z2和P2是兩個在巧上的超平面參數(shù)。
[0141] 為了結(jié)合兩個視圖的特征，引入如下的多視圖協(xié)同規(guī)范化項：
[0142]
[0143] 通過結(jié)合兩個單視圖的IGEPSVM，本發(fā)明給出MvGDSVM的第一個優(yōu)化問題：
[0144] (28)
[0145] 其中v，S是非負(fù)的權(quán)重參數(shù)。
[0146] 上面的優(yōu)化問題的目標(biāo)函數(shù)可W被理解成:在每個視圖上最大化兩類樣本與超平面之間的距離差，與此同時最小化在同一個訓(xùn)練樣本上兩個函數(shù)+71和xjw; +朽作用在不同視圖上的結(jié)果。
[0147] 上面的優(yōu)化問題(28)可W被簡化成：
[014 引
[0149] 本發(fā)明中，使用共輛梯度下降法去優(yōu)化目標(biāo)函數(shù)Fi(zi，Z2)，然后分別給出目標(biāo)函數(shù)關(guān)于Zl和Z2的梯度
[0150]
[0151]
[0152] 對于一個非凸函數(shù)，梯度下降法求得的是局部最優(yōu)解。所W它不能確保得到優(yōu)化問題（29)的最優(yōu)解。為了較好的分類超平面，選擇=組不同zi，Z2的初始值來對優(yōu)化問題 (29)進(jìn)行梯度下降：
[0153] 1 .Zi和Z2分別通過單視圖的IGEPSVM求得。
[0154] 2.Zi和Z2分別是對應(yīng)維度的單位列向量。
[0155] 3.Zi和Z2分別是對應(yīng)維度的列向量，它們的每個元素都是在[-1，U之間取值的隨機(jī)數(shù)。
[0156] 第一組初始值作為基本參照，它能夠確保采用的初始化策略對目標(biāo)函數(shù)(29)進(jìn)行梯度下降后求得的局部最優(yōu)解肯定優(yōu)于Zi和Z2分別是兩個單視圖的IGEPSVM的最優(yōu)分類平面的參數(shù)的情況。它表明在理論上本發(fā)明提出的多視圖方法與對應(yīng)的單視圖方法相比是更加有效的。
[0157] 相同地，通過引入另外一個多視圖協(xié)同規(guī)范化項 [015 引
[0159]本發(fā)明給出MvGDSVM的第二個優(yōu)化問題：
[0160] (30) [0161]
[0162] P
[0163] 本發(fā)明用共輛梯度下降法并采用上面的初始化策略去優(yōu)化目標(biāo)函數(shù)F2(Pi，P2)，然后分別給出目標(biāo)函數(shù)式(31)關(guān)于Pl和P2的梯度
[0164]
[01 化]
[0166] 現(xiàn)在利用線性的MvGDSVM求得需要的分類超平面參數(shù):第一個視圖的第一個超平面參數(shù)(W1，丫 1)和第二個超平面參數(shù)(m，Ci)，W及第二個視圖的第一個超平面參數(shù)(W2，丫 2)和第二個超平面參數(shù)(112，（2)。對于一個網(wǎng)頁待測樣本X，首先對其每個視圖上的特征向量分別作標(biāo)準(zhǔn)化處理，然后分別計算每個視圖上X到兩個超平面的垂直距離：
[0167] 腿）
[016 引
[0側(cè) 辯)
[0170] 其中^和；；分別是第一個視圖上和第二個視圖上的決策函數(shù)的預(yù)測結(jié)果，少是結(jié) 合兩個視圖的決策函數(shù)的預(yù)測結(jié)果。
[0171] 2.核的 MvGDSVM
[0172] 對于非線性的情況，引入核生成的超平面。對于每一個視圖上的兩個超平面，做出如下定義：
[0175] 其中K是上文中提及的核函數(shù).
[0173]
[0174]
[0176] 首先給出如下定義：
[0177]
[017 引
[0179]
[0180]
[01 81 ] 其中61，化，62和出是在1?''""'^''""'上的對稱矩陣，21,口1,22，口2是在滬"上的超平面參數(shù)。
[0182] 在核的MvGDSVM中，為了結(jié)合兩個視圖的特征，引入如下的多視圖協(xié)同規(guī)范化項
[0183]
[0184] 然后通過結(jié)合兩個單視圖的IGEPSVM，本發(fā)明給出核的MvGDSVM的第一個優(yōu)化問題：
[0185]
(糾）
[0186] 其中V是個非負(fù)的權(quán)重參數(shù)。上面的優(yōu)化問題(34)可W被簡化成 W873
(35) 1234567
[0188] 同樣地，利用共輛梯度下降法并采用上面的初始化策略去優(yōu)化目標(biāo)函數(shù)Fi(zi， Z2)，然后分別給出目標(biāo)函數(shù)式(35)關(guān)于Zl和Z2的梯度：
2 3 相同地，通過引入另外一個多視圖協(xié)同規(guī)范化項： 4
[0192]
5 本發(fā)明給出核的MvGDSVM的第二個優(yōu)化問題 6
(36) 7 它可W被簡化成：
[0196]
(37)
[0197] 用共輛梯度下降法并采用上面的初始化策略去優(yōu)化目標(biāo)函數(shù)F2(Pi，P2)，然后分別給出目標(biāo)函數(shù)式(37)關(guān)于Pi和P2的梯度
[019 引
[0199]
[0200] 對于核的MvGDSVM來說，決策函數(shù)和在線性的MvGDSVM中的式(33)是完全相同，但是對點到超平面的距離的定義是不同于式(32)的.對于一個網(wǎng)頁待測樣本X，首先對其每個視圖上的特征向量分別作標(biāo)準(zhǔn)化處理，然后分別計算每個視圖上X到兩個超平面的距離：
[0201]
[0202]
[0203] 通過在一個真實的網(wǎng)頁數(shù)據(jù)集上的例子來說明本發(fā)明的具體實施方法和驗證本發(fā)明算法的效果。網(wǎng)頁分類數(shù)據(jù)集是從Cornell University,University of Washington， University of Wisconsin,and University of Texas運四所美國大學(xué)計算機(jī)系網(wǎng)站上收集而來的擁有兩個視圖的網(wǎng)頁構(gòu)成的，其中一個視圖是網(wǎng)頁本身的單詞特性，另一個視圖是指向此網(wǎng)頁的超鏈接上的單詞特性。運兩個視圖的維度分別是500和87。運個數(shù)據(jù)集一共有1051個樣本，其中有關(guān)課程的網(wǎng)頁230個，無關(guān)課程的網(wǎng)頁821個。隨機(jī)選擇了 500個樣本來驗證本發(fā)明MvGDSVM算法的分類性能。
[0204] 對于運500個網(wǎng)頁樣本，首先把它們劃分成訓(xùn)練樣本數(shù)據(jù)和測試樣本數(shù)據(jù)。通過在訓(xùn)練樣本數(shù)據(jù)上利用網(wǎng)格捜索的5-fold交叉驗證得到的平均驗證準(zhǔn)確率，選取出最佳的模型參數(shù)。對于MvGDSVM方法，除了復(fù)合決策函數(shù)，也考慮來自各個視圖的決策函數(shù)，其中最大驗證準(zhǔn)確率的決策函數(shù)將被采用的，見式(33)。當(dāng)最佳的模型參數(shù)和決策函數(shù)都選擇好后，將會評估所有的方法在測試集上的性能。上面的過程隨機(jī)重復(fù)5次，然后通過平均正確率和對應(yīng)的標(biāo)準(zhǔn)差來展示所有方法的分類性能。下圖是MvGDSVMW及對比算法的平均分類準(zhǔn)確率和標(biāo)準(zhǔn)差。其中IGEPSVM1，IGEPSVM2和IGEPSVM3是單視圖的IGEPSVM算法，前兩者分別作用在第一個視圖和第二個視圖的特征向量上。而IGEPSVM3把兩個視圖的特征向量連接起來作為一個視圖。從圖中可W看出本發(fā)明的MvGDSVM算法與對應(yīng)的單視圖方法相比，有很好的性能提高。與另外一個經(jīng)典的多視圖學(xué)習(xí)方法SVM-2K相比，本發(fā)明的算法不管在準(zhǔn)確率和穩(wěn)定性上都表現(xiàn)得較好。運說明本發(fā)明的多視圖學(xué)習(xí)算法MvGDSVM在網(wǎng)頁分類上是完全有效的。「AOAKl

'[0206]本發(fā)明的保護(hù)內(nèi)容不局限于W上i施例。在不背離發(fā)明構(gòu)思的申和范圍下，本I 領(lǐng)域技術(shù)人員能夠想到的變化和優(yōu)點都被包括在本發(fā)明中，并且W所附的權(quán)利要求書為保護(hù)范圍。
【主權(quán)項】
1. 一種基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，其特征在于，包括MvGDSVi^H 分類模型參數(shù)訓(xùn)練步驟和網(wǎng)頁數(shù)據(jù)分類步驟；所述Mv⑶SVM網(wǎng)頁分類模型參數(shù)訓(xùn)練步驟包括：步驟A:輸入網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)；步驟B:對所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理；步驟C:訓(xùn)練Mv⑶SVM網(wǎng)頁分類模型參數(shù)；所述網(wǎng)頁數(shù)據(jù)分類步驟包括：步驟a:輸入待測網(wǎng)頁樣本數(shù)據(jù)；步驟b:對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理；步驟c:通過Mv⑶SVM網(wǎng)頁分類模型對所述待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。2. 如權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，其特征在于，所述步驟B中的預(yù)處理包括：步驟BI:確定所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)每個視圖上的特征向量；步驟B2:對所有所述網(wǎng)頁訓(xùn)練樣本數(shù)據(jù)的每個視圖上的特征向量分別作標(biāo)準(zhǔn)化處理。3. 權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，其特征在于，所述步驟C中，通過多視圖協(xié)同規(guī)范化項來最大化不同視圖間分類的一致性。4. 如權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，其特征在于，所述步驟C包括：步驟Cl:在每個視圖上最大化兩類樣本與超平面之間的距離差，同時最小化在同一個網(wǎng)頁訓(xùn)練樣本上兩個假設(shè)函數(shù)作用在不同視圖上的結(jié)果；步驟C2:使用共輒梯度下降法優(yōu)化目標(biāo)函數(shù)，給出目標(biāo)函數(shù)的梯度。5. 如權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，其特征在于，所述步驟C進(jìn)一步包括：步驟C3:利用MvGDSVM求得分類超平面參數(shù)；步驟C4:分別計算每個視圖上網(wǎng)頁訓(xùn)練樣本到兩個超平面的垂直距離，得到?jīng)Q策函數(shù) 的預(yù)測結(jié)果。6. 如權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，其特征在于，所述步驟b中標(biāo)準(zhǔn)化預(yù)處理包括：步驟b 1:確定待測網(wǎng)頁樣本數(shù)據(jù)每個視圖上的特征向量；步驟b2:對所有待測網(wǎng)頁網(wǎng)頁數(shù)據(jù)的每個視圖上的特征向量分別作標(biāo)準(zhǔn)化處理。7. 如權(quán)利要求1所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，其特征在于，所述步驟c中對所述待測網(wǎng)頁數(shù)據(jù)進(jìn)行分類包括：步驟cl:利用訓(xùn)練樣本數(shù)據(jù)得到的MvGDSVM分類模型的最佳參數(shù)，分別計算每個視圖上樣本到兩個超平面的垂直距離；步驟c2:利用訓(xùn)練時得到的最佳預(yù)測函數(shù)來對待測網(wǎng)頁樣本數(shù)據(jù)進(jìn)行分類。8. 如權(quán)利要求5或7所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，其特征在于，線性的MvGDSVM中，每個視圖上網(wǎng)頁樣本到兩個超平面的垂直距離如下式：其中，view 1和view 2分別表示第一個視圖和第二個視圖；distil表示網(wǎng)頁樣本數(shù)據(jù) 在第一個視圖上到第一個超平面的垂直距離，distl2表示網(wǎng)頁樣本數(shù)據(jù)在第一個視圖上到第二個超平面的垂直距離;dist21表示網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上到第一個超平面的垂直距離，dist22表示網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上到第二個超平面的垂直距離; X1表示網(wǎng) 頁樣本數(shù)據(jù)第一個視圖上的特征向量，X2表示網(wǎng)頁樣本數(shù)據(jù)第二個視圖上的特征向量;第一個視圖的第一個超平面參數(shù)表示為( W1，γ :)，第二個超平面參數(shù)表示為(m，ζ:);第二個視圖的第一個超平面參數(shù)表示為(w2，y2)，第二個超平面參數(shù)表示為(ιι 2，ζ2)。9. 如權(quán)利要求5或7所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，其特征在于，核的MvGDSVM中，每個視圖上網(wǎng)頁樣本到兩個超平面的距離如下式：其中，矩陣4 e表示第一類網(wǎng)頁樣本數(shù)據(jù)在第一個視圖上的特征；矩陣 4 表示第一類網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上的特征;矩陣戽EiTW1表示第二類網(wǎng) 頁樣本數(shù)據(jù)在第一個視圖上的特征;矩陣孕表示第二類網(wǎng)頁樣本數(shù)據(jù)在第二個視圖上的特征;K為核函數(shù)。10. 如權(quán)利要求5或7所述的基于梯度下降法的多視圖GEPSVM網(wǎng)頁分類算法，其特征在于，所述決策函數(shù)的預(yù)測結(jié)果如下式：，丨=sign(i//、，12 -i//、vl 1)， 3 s = s i g η (JAv / 2 2 - distl I), y = sign(disi 12 + distil - disil I - distl I )；其中，?為第一個視圖上的決策函數(shù)的預(yù)測結(jié)果；g是第二個視圖上的決策函數(shù)的預(yù) 測結(jié)果d是結(jié)合兩個視圖的決策函數(shù)的預(yù)測結(jié)果。
【文檔編號】G06K9/62GK106022356SQ201610307835
【公開日】2016年10月12日
【申請日】2016年5月11日
【發(fā)明人】孫仕亮, 董超, 謝錫炯
【申請人】華東師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫仕亮;董超;謝錫炯;
技術(shù)所有人：華東師范大學(xué);
我是此專利的發(fā)明人

上一篇：一種數(shù)據(jù)輸入校準(zhǔn)的方法及終端的制作方法
上一篇：基于3dcnn的高光譜圖像空譜聯(lián)合分類方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

梯度下降法相關(guān)技術(shù)

梯度下降相關(guān)技術(shù)

隨機(jī)梯度下降相關(guān)技術(shù)

梯度下降算法相關(guān)技術(shù)

隨機(jī)梯度下降算法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于梯度下降法的多視圖gepsvm網(wǎng)頁分類算法