一種基于非負(fù)矩陣分解的半監(jiān)督聚類方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及聚類分析技術(shù)領(lǐng)域,尤其涉及一種基于非負(fù)矩陣分解的半監(jiān)督聚類方 法及系統(tǒng)。
【背景技術(shù)】
[0002] 近年來(lái)非負(fù)矩陣分解技術(shù)在模式識(shí)別和人工智能中起著非常重要的作用。已有研 究表明,在心里和生理上都有人腦的基于部分表示的證據(jù)。非負(fù)矩陣表示在學(xué)習(xí)類似于人 臉,圖像和文檔等部分表示上有先天的優(yōu)勢(shì)。同時(shí),在許多諸如信息檢索,計(jì)算機(jī)視覺(jué)和模 式識(shí)別問(wèn)題中,數(shù)據(jù)的特點(diǎn)是維數(shù)高,使得直接從樣例中學(xué)習(xí)不可行。研究者們期望對(duì)高維 數(shù)據(jù)矩陣分解,得到高維矩陣分解后的低維表示。
[0003] 非負(fù)矩陣分解(nonnegativematrixfactorization,NMF)是對(duì)非負(fù)矩陣 Xe:K_分解,找到兩個(gè)因子矩陣UeMW和VeJR-:,使得UV的乘積盡可能的和原來(lái)的 矩陣近似。其中,U可以看作是包含新基的矩陣,V可以看作是原來(lái)數(shù)據(jù)在新基下的表示,由 于k<<m,并且k<<n,所以V可以看作是原來(lái)矩陣X的低維表示。流形學(xué)習(xí)自從2000 年在《Science》被首次提出以來(lái),已成為信息科學(xué)領(lǐng)域的研究熱點(diǎn)?;趫D正則化的非負(fù) 矩陣分解(GraphRegularizedNonnegativeMatrixFactorization,GNMF)方法,把拉普 拉斯圖作為一個(gè)正則項(xiàng)加入到NMF框架中,有效的利用了原始數(shù)據(jù)的幾何結(jié)構(gòu),取得了較 好的聚類性能。
[0004] 在數(shù)據(jù)的聚類應(yīng)用中,有些數(shù)據(jù)是有標(biāo)記的。上述算法都是無(wú)監(jiān)督學(xué)習(xí)方法,不 能有效的利用已有的帶標(biāo)記數(shù)據(jù)指導(dǎo)聚類,所以在聚類性能上會(huì)大打折扣?;贜MF的半 監(jiān)督聚類方法如約束非負(fù)矩陣分解(ConstrainedNonnegativeMatrixFactorization, CNMF),其主要思想是同類的數(shù)據(jù)映射到投影空間應(yīng)該有相同的表示。這個(gè)方法強(qiáng)制投影 空間的表示和原空間的數(shù)據(jù)有相同類別標(biāo)記,該方法存在的不足是當(dāng)已知的標(biāo)記數(shù)據(jù)很少 時(shí),方法退化為NMF,不能有效的利用原始數(shù)據(jù)的內(nèi)部結(jié)構(gòu),故而聚類性能得不到提升。除此 之外,CNMF方法使用不是約束對(duì),而是硬性的標(biāo)記,這種信息一般很難獲得。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種基于非負(fù)矩陣分解的半監(jiān)督聚類方法,該方法基于非負(fù)矩陣分 解,不僅考慮了原始數(shù)據(jù)的鄰域保持,同時(shí)還考慮了相似性在原始空間和低維流形子空間 的一致性,使得聚類性能在先驗(yàn)信息較多的時(shí)候大大提高,在先驗(yàn)信息很少的時(shí)候依然能 保持較好的聚類性能。
[0006] 本發(fā)明提供了一種基于非負(fù)矩陣分解的半監(jiān)督聚類方法,包括:
[0007] 對(duì)原始數(shù)據(jù)矩陣作非負(fù)矩陣分解投影,得到既有鄰域保持又有相似性保持的原始 數(shù)據(jù)的低維近似矩陣;
[0008] 利用算法接收參數(shù)K對(duì)所述原始數(shù)據(jù)的低維近似矩陣進(jìn)行聚類,得到聚類結(jié)果;
[0009] 利用精確度和互信息兩種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)所述聚類結(jié)果進(jìn)行評(píng)價(jià)。
[0010] 優(yōu)選地,所述對(duì)原始數(shù)據(jù)矩陣作非負(fù)矩陣分解投影,得到既有鄰域保持又有相似 性保持的原始數(shù)據(jù)的低維近似矩陣具體為:
[0011] 令所有數(shù)據(jù)組成的集合為,其中XieR'n是圖像的總個(gè)數(shù),m是圖像樣本 的維數(shù),并假設(shè)圖像數(shù)據(jù)中有NM個(gè)must-link約束對(duì)和N£個(gè)cannot-link約束對(duì);
[0012] 構(gòu)造由所有頂點(diǎn)構(gòu)成的p_鄰域圖,并使用cannot-link約束對(duì)進(jìn)行修正,如果兩 個(gè)頂點(diǎn)滿足cannot-link約束,同時(shí)又是p-鄰域頂點(diǎn),則從p-鄰域圖中刪除這兩個(gè)頂點(diǎn)形 成的邊,其中,邊上的權(quán)重定義為:
[0013]
[0014] 構(gòu)造由must-link約束對(duì)構(gòu)成的相似圖,其中,邊上的權(quán)重定義為:
[0015]
[0016] 利用公式
對(duì)非負(fù)矩陣 分解進(jìn)行優(yōu)化,得到投影以后的新空間的基U和原始數(shù)據(jù)在新空間的投影V,其中,Aw和入s均為參數(shù);
[0017] 定義
,簡(jiǎn)化后得到:
[0018] F= | |X-UVT | 12+ 入wTr(VTLWV) + 入sTr(VTLSV);
[0019] 利用拉格朗日最小二乘法,分別對(duì)U和V求偏導(dǎo),得到U和V的迭代公式;
[0020] 利用迭代公式求U和V直至收斂。
[0021] 優(yōu)選地,所述利用精確度和互信息兩種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)所述聚類結(jié)果進(jìn)行評(píng)價(jià)具體 為:
[0022] 對(duì)數(shù)據(jù)點(diǎn)山,令込和ai分別代表數(shù)據(jù)的原始標(biāo)記和非負(fù)矩陣分解算法得到的標(biāo) 記,定義精確度:
[0023]
其中,n是數(shù)據(jù)集的數(shù)據(jù)總數(shù),函數(shù)mapaj把得到的類 別標(biāo)記映射為數(shù)據(jù)集中相應(yīng)的標(biāo)記a8 (x,y)是delta函數(shù),定義為:
[0024]
[0025] 定義互信息:
[0026]
其中,P(Cl)和pkj分別表示從數(shù) 據(jù)集中隨機(jī)抽取的數(shù)據(jù)屬于聚類cdPC',的概率,p(Ci,C' 表示數(shù)據(jù)同時(shí)屬于聚類(^和c' 的聯(lián)合概率;
[0027] 利用歸一化互信息,定義
,其中,H(C)和H(C')分 別是C和C'的熵。
[0028] -種基于非負(fù)矩陣分解的半監(jiān)督聚類系統(tǒng),包括:
[0029] 投影模塊,用于對(duì)原始數(shù)據(jù)矩陣作非負(fù)矩陣分解投影,得到既有鄰域保持又有相 似性保持的原始數(shù)據(jù)的低維近似矩陣;
[0030] 聚類模塊,用于利用算法接收參數(shù)K對(duì)所述原始數(shù)據(jù)的低維近似矩陣進(jìn)行聚類, 得到聚類結(jié)果;
[0031] 評(píng)價(jià)模塊,用于利用精確度和互信息兩種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)所述聚類結(jié)果進(jìn)行評(píng)價(jià)。
[0032] 優(yōu)選地,所述投影模塊對(duì)原始數(shù)據(jù)矩陣作非負(fù)矩陣分解投影,得到既有鄰域保持 又有相似性保持的原始數(shù)據(jù)的低維近似矩陣具體為:
[0033] 令所有數(shù)據(jù)組成的集合為,其中XlGR'n是圖像的總個(gè)數(shù),m是圖像樣本的 維數(shù),并假設(shè)圖像數(shù)據(jù)中有NM個(gè)must-link約束對(duì)和N/hcannot-link約束對(duì);
[0034] 構(gòu)造由所有頂點(diǎn)構(gòu)成的p_鄰域圖,并使用cannot-link約束對(duì)進(jìn)行修正,如果兩 個(gè)頂點(diǎn)滿足cannot-link約束,同時(shí)又是p-鄰域頂點(diǎn),則從p-鄰域圖中刪除這兩個(gè)頂點(diǎn)形 成的邊,其中,邊上的權(quán)重定義為:
[0035]
[0036] 構(gòu)造由must-link約束對(duì)構(gòu)成的相似圖,其中,邊上的權(quán)重定義為:
[0037]
[0038] 利用公式
對(duì)非負(fù)矩陣 分解進(jìn)行優(yōu)化,得到投影以后的新空間的基U和原始數(shù)據(jù)在新空間的投影V,其中,Aw和入s均為參數(shù);
[0039] 定義
簡(jiǎn)化后得到:
[0040]F=| |X-UVT | 12+ 人wTr(VTLWV) + 入sTr(VTLSV);
[0041] 利用拉格朗日最小二乘法,分別對(duì)U和V求偏導(dǎo),得到U和V的迭代公式;
[0042] 利用迭代公式求U和V直至收斂。
[0043] 優(yōu)選地,所述評(píng)價(jià)模塊利用精確度和互信息兩種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)所述聚類結(jié)果進(jìn)行評(píng) 價(jià)具體為:
[0044]對(duì)數(shù)據(jù)點(diǎn)山,令込和ai分別代表數(shù)據(jù)的原始標(biāo)記和非負(fù)矩陣分解算法得到的標(biāo) 記,定義精確度:
[0045]
(其中,n是數(shù)據(jù)集的數(shù)據(jù)總數(shù),函數(shù)mapaj把得到的類 別標(biāo)記映射為數(shù)據(jù)集中相應(yīng)的標(biāo)記a8 (x,y)是delta函數(shù),定義為:
[0046]
[0047] 定義互信息:
[0048]
其中,P(Cl)和pG'P分別表示從數(shù) 據(jù)集中隨機(jī)抽取的數(shù)據(jù)屬于聚類cdPC',的概率,p(Ci,C' 表示數(shù)據(jù)同時(shí)屬于聚類(^和c' 的聯(lián)合概率;
[0049] 利用歸一化互信息,定義
,其中,H(C)和H(C')分 別是C和C'的熵。
[0050]由上述方案可知,本發(fā)明提供的一種基于非負(fù)矩陣分解的半監(jiān)督聚類方法,首先 通過(guò)對(duì)原始數(shù)據(jù)矩陣作非負(fù)矩陣分解投影,得到原始數(shù)據(jù)的低維近似矩陣,然后利用算法 接收參數(shù)K對(duì)低維近似矩陣進(jìn)行聚類,得到聚類結(jié)果,最后利用精確度和互信息兩種評(píng)價(jià) 標(biāo)準(zhǔn)對(duì)所述聚類結(jié)果進(jìn)行評(píng)價(jià),本發(fā)明基于非負(fù)矩陣分解,不僅考慮了原始數(shù)據(jù)的鄰域保 持,同時(shí)還考慮了相似性在原始空間和低維流形子空間的一致性,使得聚類性能在先驗(yàn)信 息較多的時(shí)候大大提高,在先驗(yàn)信息很少的時(shí)候依然能保持較好的聚類性能。
【附