一種基于互正則化約束子空間表達(dá)的多視角數(shù)據(jù)聚類方法
【專利摘要】本發(fā)明公開(kāi)了一種基于互正則化約束子空間表達(dá)的多視角數(shù)據(jù)聚類方法,該方法包括以下步驟:組成多視角數(shù)據(jù)庫(kù),提取不同視角數(shù)據(jù)的視角特征;選擇互正則化方法,確定互正則化約束;基于一優(yōu)化目標(biāo)函數(shù)和不同視角數(shù)據(jù)的視角特征,得到所有樣本的協(xié)同表示向量;將協(xié)同表示向量按照其所對(duì)應(yīng)的樣本順序排序,得到子空間表達(dá)矩陣;對(duì)子空間表達(dá)矩陣進(jìn)行處理,得到親和矩陣;根據(jù)需要聚類的數(shù)目分割親和矩陣,得到多視角數(shù)據(jù)庫(kù)的樣本聚類結(jié)果。本發(fā)明利用子空間表達(dá)來(lái)挖掘樣本之間的隱含結(jié)構(gòu)信息,采用兩種互正則化方式來(lái)約束不同視角的子空間表達(dá),以利用多視角的互補(bǔ)信息,進(jìn)一步加強(qiáng)樣本集隱含結(jié)構(gòu)信息的表示,從而能夠廣泛的應(yīng)用于多視角數(shù)據(jù)聚類。
【專利說(shuō)明】一種基于互正則化約束子空間表達(dá)的多視角數(shù)據(jù)聚類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及模式識(shí)別【技術(shù)領(lǐng)域】,尤其是一種基于互正則化約束子空間表達(dá)的多視角數(shù)據(jù)聚類方法。
【背景技術(shù)】
[0002]現(xiàn)實(shí)世界中的數(shù)據(jù)往往具有多種視角,此處視角可以是同一圖像的不同特征表達(dá),也可以是不同模態(tài)的數(shù)據(jù),比如網(wǎng)頁(yè)信息既包含圖片信息,又包含文本信息以及超鏈接信息。多視角聚類,作為模式識(shí)別的基本任務(wù),旨在利用不同視角下的互補(bǔ)信息提高聚類性能,其面臨的核心挑戰(zhàn)有兩方面:(I)挖掘數(shù)據(jù)之間的隱含結(jié)構(gòu)信息,即數(shù)據(jù)之間的相似性與相異性;(2)利用多視角數(shù)據(jù)提供的互補(bǔ)信息。傳統(tǒng)的多視角聚類方法在解決這兩個(gè)挑戰(zhàn)時(shí),一般找到多視角數(shù)據(jù)的一個(gè)統(tǒng)一的有判別能力的低維表達(dá),但是它們不能顯式地利用數(shù)據(jù)本身的先驗(yàn)信息,如稀疏性,協(xié)同表示特性。因此,傳統(tǒng)的多視角聚類方法并不能有效的進(jìn)行多視角數(shù)據(jù)的聚類。
【發(fā)明內(nèi)容】
[0003]鑒于以往的方法不能有效的滿足多視角數(shù)據(jù)聚類的需求,本發(fā)明提出了一種基于互正則化約束子空間表達(dá)的多視角數(shù)據(jù)聚類方法。該方法的子空間表達(dá)利用子空間聚類領(lǐng)域中協(xié)同表示的方法來(lái)深入挖掘數(shù)據(jù)之間的相似與相異特性,同時(shí)互正則化約束使得不同視角子空間表達(dá)相互促進(jìn),以達(dá)到利用視角之間的互補(bǔ)信息。
[0004]為了解決現(xiàn)有技術(shù)存在的缺陷,本發(fā)明的目的是提供一種基于互正則化約束子空間表達(dá)的多視角數(shù)據(jù)聚類方法,該方法包括以下步驟:
[0005]步驟SI,收集多視角數(shù)據(jù)樣本,組成多視角數(shù)據(jù)庫(kù),并對(duì)不同視角的數(shù)據(jù),分別提取其視角特征;
[0006]步驟S2,選擇互正則化方法,并確定所選擇的互正則化方法的互正則化約束;
[0007]步驟S3,根據(jù)所述步驟S2選定的互正則化方法,基于一優(yōu)化目標(biāo)函數(shù)和不同視角的數(shù)據(jù)的視角特征,學(xué)習(xí)得到所述多視角數(shù)據(jù)庫(kù)中所有樣本的協(xié)同表示向量;
[0008]步驟S4,將所述協(xié)同表示向量按照其所對(duì)應(yīng)的樣本順序按列排序,得到子空間表達(dá)矩陣;
[0009]步驟S5,對(duì)所述子空間表達(dá)矩陣進(jìn)行處理,得到度量所述多視角數(shù)據(jù)庫(kù)中樣本相似性的親和矩陣;
[0010]步驟S6,根據(jù)需要聚類的數(shù)目,對(duì)于所述親和矩陣進(jìn)行分割,得到所述多視角數(shù)據(jù)庫(kù)的樣本聚類結(jié)果。
[0011]本發(fā)明提出的上述方法能夠廣泛的應(yīng)用于多視角數(shù)據(jù)聚類分析問(wèn)題。在該方法中,首先提取出數(shù)據(jù)集在不同視角下的特征;然后利用互正則化約束的方式求出各個(gè)視角下樣本的協(xié)同表示向量,又稱為子空間表達(dá);將所有樣本的子空間表達(dá)按列排序得到子空間表達(dá)矩陣,所述矩陣的元素值反映了樣本之間的相似性權(quán)重;最后將子空間表達(dá)矩陣構(gòu)造為對(duì)稱非負(fù)的親和矩陣(Affinity matrix),并利用Normalized Cuts譜聚類算法進(jìn)行多視角的聚類。本發(fā)明方法利用子空間表達(dá)來(lái)挖掘樣本之間的隱含結(jié)構(gòu)信息,并采用兩種互正則化方式來(lái)約束不同視角的子空間表達(dá),以利用多視角的互補(bǔ)信息,進(jìn)一步加強(qiáng)樣本集隱含結(jié)構(gòu)信息的表示,同時(shí),本發(fā)明還提出了一種交替優(yōu)化的算法來(lái)有效的求解不同互正則化約束的目標(biāo)函數(shù)。
【專利附圖】
【附圖說(shuō)明】
[0012]圖1是本發(fā)明基于互正則化約束子空間表達(dá)的多視角數(shù)據(jù)聚類方法的流程圖?!揪唧w實(shí)施方式】
[0013]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
[0014]圖1是本發(fā)明基于互正則化約束子空間表達(dá)的多視角數(shù)據(jù)聚類方法的流程圖,如圖1所示,該方法包括以下步驟:
[0015]步驟SI,收集多視角數(shù)據(jù)樣本,組成多視角數(shù)據(jù)庫(kù),并對(duì)不同視角的數(shù)據(jù),分別提取其視角特征;
[0016]所述多視角可以是圖片的不同特征表達(dá),如GIST特征,Color特征,也可以是不同模態(tài)的數(shù)據(jù),如網(wǎng)頁(yè)數(shù)據(jù)可以由圖片相關(guān)特征以及文本相關(guān)特征來(lái)進(jìn)行表示。
[0017]步驟S2,選擇互正則化方法以利用多視角數(shù)據(jù)的互補(bǔ)信息,并確定所選擇的互正則化方法的互正則化約束;
[0018]該步驟中,互正則化方法包括兩兩互正則化方法(pairwise co-regularization)和基于中心的互正則化方法(centroid-based co-regularization),在性能上,一般兩者能達(dá)到相似的效果。但是基于中心的互正則化方法,可將求得的中心(或隱變量)直接用于后續(xù)的計(jì)算,較為方便,在實(shí)際應(yīng)用中,可根據(jù)需要自由選擇互正則化方法。
[0019]步驟S3,根據(jù)所述步驟S2選定的互正則化方法,基于一優(yōu)化目標(biāo)函數(shù)和不同視角的數(shù)據(jù)的視角特征,學(xué)習(xí)得到所述多視角數(shù)據(jù)庫(kù)中所有樣本的協(xié)同表示向量,所述協(xié)同表示向量又稱為子空間表達(dá),其元素值反映了樣本之間的關(guān)系;
[0020]所述優(yōu)化目標(biāo)函數(shù)表示為:
【權(quán)利要求】
1.一種基于互正則化約束子空間表達(dá)的多視角數(shù)據(jù)聚類方法,其特征在于,該方法包括以下步驟: 步驟Si,收集多視角數(shù)據(jù)樣本,組成多視角數(shù)據(jù)庫(kù),并對(duì)不同視角的數(shù)據(jù),分別提取其視角特征; 步驟S2,選擇互正則化方法,并確定所選擇的互正則化方法的互正則化約束; 步驟S3,根據(jù)所述步驟S2選定的互正則化方法,基于一優(yōu)化目標(biāo)函數(shù)和不同視角的數(shù)據(jù)的視角特征,學(xué)習(xí)得到所述多視角數(shù)據(jù)庫(kù)中所有樣本的協(xié)同表示向量; 步驟S4,將所述協(xié)同表示向量按照其所對(duì)應(yīng)的樣本順序按列排序,得到子空間表達(dá)矩陣; 步驟S5,對(duì)所述子空間表達(dá)矩陣進(jìn)行處理,得到度量所述多視角數(shù)據(jù)庫(kù)中樣本相似性的親和矩陣; 步驟S6,根據(jù)需要聚類的數(shù)目,對(duì)于所述親和矩陣進(jìn)行分割,得到所述多視角數(shù)據(jù)庫(kù)的樣本聚類結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多視角是圖片的不同特征表達(dá)或者是不同模態(tài)的數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述互正則化方法包括兩兩互正則化方法和基于中心的互正則化方法。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述協(xié)同表示向量又稱為子空間表達(dá),其元素值反映了樣本之間的關(guān)系。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述優(yōu)化目標(biāo)函數(shù)表示為:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3進(jìn)一步包括以下步驟: 步驟S3.1,當(dāng)互正則化約束為兩兩互正則化約束時(shí),改寫所述目標(biāo)函數(shù),采用交替優(yōu)化的方式求解協(xié)同表示向量,直至收斂; 步驟S3.2,當(dāng)互正則化約束為基于中心的互正則化約束時(shí),改寫所述目標(biāo)函數(shù),采用交替優(yōu)化的方式求解協(xié)同表示向量,直至收斂。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟S3.1中,所述目標(biāo)函數(shù)被改寫為:
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟S3.2中,所述目標(biāo)函數(shù)被改寫為:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述親和矩陣A表示為:
A = 1/2*(|Z| + |Zt|), 其中,Z表示子空間表達(dá)矩陣。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S6中,利用譜聚類算法對(duì)于所述親和矩陣A進(jìn)行分割。`
【文檔編號(hào)】G06K9/62GK103617292SQ201310687876
【公開(kāi)日】2014年3月5日 申請(qǐng)日期:2013年12月16日 優(yōu)先權(quán)日:2013年12月16日
【發(fā)明者】王亮, 譚鐵牛, 赫然, 尹奇躍 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所