一種文本聚類方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明設(shè)及語義分析技術(shù)領(lǐng)域,更具體地設(shè)及一種文本聚類方法。
【背景技術(shù)】
[0002] 信息化時代的今天,網(wǎng)絡(luò)文本呈現(xiàn)出海量的特性,從捜索到的海量文本中提取有 效信息或獲取當(dāng)前熱點(diǎn)信息,需要對文本聚類,使同一個文本簇中的文本間相似度盡量的 高,不同簇中的文本間相似度盡量的低。
[0003] 文本聚類中,常用特征詞來表達(dá)文本的特性,最常用的模型是向量空間模型。向量 空間模型中,每一個文本用一個向量表示,向量中的每一個值表示每一個特征詞在文本中 的權(quán)重。文本向量空間模型是一個矩陣模型,矩陣的行表示文本,矩陣的列表示特征詞屬 性,矩陣中的數(shù)值表示對應(yīng)列的特征詞在對應(yīng)行的文本中的權(quán)值。
[0004] 向量空間模型中的權(quán)值是指特征詞能代表文本特性的能力,是一個文本不同于其 他文本的特性。如果特征詞在運(yùn)個文本中出現(xiàn)的次數(shù)越高,在其他文本中出現(xiàn)的次數(shù)越低, 那么運(yùn)個特征詞在運(yùn)個文本中的權(quán)重就越高,運(yùn)個特征詞就越能代表運(yùn)個文本的特性。
[0005] 層次聚類算法是通過分解數(shù)據(jù)集合來構(gòu)建樹形層次結(jié)構(gòu),具體可W分為分裂(自 頂向下)算法和凝聚(自底向上)算法。分裂算法是將所有的數(shù)據(jù)集合看做一個簇,一步一步 的將簇分解,然后逐層向下,每個層次都將分裂其中一個簇,直到每一個數(shù)據(jù)對象都是單獨(dú) 一個簇或者滿足條件為止。相反,凝聚算法是起初將每個數(shù)據(jù)對象看做一個單獨(dú)的簇,逐步 的合并簇,從底逐層向上,每一步都合并最相似的兩個簇,最終將所有的簇合并為一個簇或 者滿足條件為止。
[0006] 文本聚類中常用的還有協(xié)同聚類算法,其是將文本和特征詞同時進(jìn)行聚類的方 法,該算法中將行對象和列對象同時聚類或者交替聚類,常常運(yùn)用到文本聚類算法中,文本 聚類中的行對象是文本對象,列對象是特征詞對象,用此方法聚類不僅可W提高聚類的精 確度,而且由于聚類結(jié)果的簇中含有文本對象和特征詞對象,特征詞對象還可W作為文本 簇的主題詞,從而達(dá)到了主題發(fā)現(xiàn)的效果。
[0007] 目前,將層次聚類和協(xié)同聚類結(jié)合起來研究實(shí)際問題,可W達(dá)到一個好的聚類效 果,2010年,Li等人提出了層次協(xié)同聚類的算法,運(yùn)個算法用來解決文本和特征詞的共同聚 類問題。此方法是將文本和特征詞當(dāng)作葉子節(jié)點(diǎn),利用特征詞和文本間的相似性矩陣,用層 次聚類法同時聚類文本和特征詞。2011年Li等人又提出了用層次協(xié)同聚類的算法來對音樂 信息進(jìn)行協(xié)同聚類,利用藝術(shù)家和音樂風(fēng)格之間的權(quán)重信息,對藝術(shù)家和音樂風(fēng)格進(jìn)行層 次協(xié)同聚類,用到了層次聚類算法的凝集算法和分裂算法兩種來對實(shí)際問題進(jìn)行聚類。
[000引由于文本和特征詞都是海量的,直接運(yùn)用層次協(xié)同聚類將會增加時間復(fù)雜度并且 降低精度。而且只考慮了詞對于文本的權(quán)重值,而忽略了特征詞之間的語義關(guān)系。例如,假 設(shè)一篇文檔中出現(xiàn)"高血糖",而另外一篇文檔中出現(xiàn)"高血脂",如果單單從特征詞的共現(xiàn) 性來判斷兩篇文檔的相似度,運(yùn)兩個特征詞被認(rèn)為是完全獨(dú)立的,運(yùn)兩篇文檔可能不會屬 于同一個類,實(shí)際上都是屬于醫(yī)學(xué)類別,運(yùn)里就容易出現(xiàn)聚類的錯誤。
【發(fā)明內(nèi)容】
[0009] 有鑒于此,本發(fā)明的目的在于提出一種文本聚類方法。本發(fā)明優(yōu)選的文本聚類方 法可W兼采幾種聚類方法的優(yōu)點(diǎn),改善聚類效率和精度,同時利用少量的監(jiān)督信息指導(dǎo)聚 類,使聚類的效果明顯得到改善。
[0010] 為了實(shí)現(xiàn)上述目的,本發(fā)明提出了一種文本聚類方法,包括W下步驟:
[0011] 對文本集先采用半監(jiān)督聚類方法對特征詞進(jìn)行聚類,在出現(xiàn)頻繁的詞匯中找出成 對約束實(shí)例,出現(xiàn)頻繁的詞匯集從每篇文檔中權(quán)重最大的那個特征詞抽取出來,從中找出 正約束集和負(fù)約束集;
[0012] 根據(jù)K最近鄰集對所述正約束集和負(fù)約束集進(jìn)行擴(kuò)充;
[0013] 根據(jù)約束集的劃分結(jié)果對特征詞進(jìn)行聚類。
[0014] 其中,所述根據(jù)K最近鄰集對所述正約束集和負(fù)約束集進(jìn)行擴(kuò)充的原則為:
[0015] 距離正約束對其中一個對象的距離非常的近,距離另外一個對象的距離小于此正 約束對的距離,并且此對象和正約束對的兩個對象都不屬于負(fù)約束集,那么此對象和其中 一個對象的關(guān)系屬于正約束關(guān)系;W及
[0016] 距離負(fù)約束對其中一個對象的距離非常的近,距離另外一個對象的距離大于此負(fù) 約束對的距離,并且此對象和負(fù)約束對的兩個對象都不屬于正約束集,則此對象和其中一 個對象的關(guān)系屬于負(fù)約束關(guān)系。
[0017] 基于上述技術(shù)方案可知,本發(fā)明的方法加入了半監(jiān)督聚類算法對特征詞進(jìn)行聚 類,找到特征詞的簇,對特征詞進(jìn)行合并,不僅降低了向量空間的維度,提高了實(shí)驗(yàn)的效率, 而且在少量監(jiān)督信息的指導(dǎo)下,使特征詞的聚類更加合理、可靠;此外,本發(fā)明對文本和特 征詞進(jìn)行層次協(xié)同聚類之前,擴(kuò)充文本特征詞對象集的相似度矩陣,通過找出文本之間的 語義關(guān)系,特征詞之間的語義關(guān)系,構(gòu)造了協(xié)同矩陣,對原有的只含有特征詞和文本之間的 相似度的矩陣,擴(kuò)充為含有文本之間的相似度、特征詞之間的相似度、含有兩種對象之間的 相似度的協(xié)同矩陣,使層次協(xié)同聚類所含有的兩種類型的對象任意兩兩之間的相似度包含 在協(xié)同矩陣?yán)锩?,聚類的效果得到改善?br>【附圖說明】
[0018] 圖1為K最鄰近集擴(kuò)充正約束集的示意圖;
[0019] 圖2為K最鄰近集擴(kuò)充負(fù)約束集的示意圖。
【具體實(shí)施方式】
[0020] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,W下結(jié)合具體實(shí)施例,并參照 附圖,對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0021] 聚類分析(Clustering Analysis)是根據(jù)事物之間的內(nèi)在聯(lián)系對其進(jìn)行歸類,分 成逐個事物的集合,又稱簇(Cluster),聚類的結(jié)果使同一個簇中的事物之間盡量相似,不 同簇的對象之間盡量相異。常用的聚類分析算法包括層次聚類、協(xié)同聚類、半監(jiān)督聚類等, 下面分述之。
[0022] 層次聚類算法是通過分解數(shù)據(jù)集合來構(gòu)建樹形層次結(jié)構(gòu),具體可W分為分裂(自 頂向下)算法和凝聚(自底向上)算法。分裂算法是將所有的數(shù)據(jù)集合看做一個簇,一步一步 的將簇分解,然后逐層向下,每個層次都將分裂其中一個簇,直到每一個數(shù)據(jù)對象都是單獨(dú) 一個簇或者滿足條件為止。相反,凝聚算法是起初將每個數(shù)據(jù)對象看做一個單獨(dú)的簇,逐步 的合并簇,從底逐層向上,每一步都合并最相似的兩個簇,最終將所有的簇合并為一個簇或 者滿足條件為止。
[0023] 協(xié)同聚類,又稱雙向聚類,或聯(lián)合聚類,指對數(shù)據(jù)集的對象和屬性同時聚類或者交 替進(jìn)行聚類,相互協(xié)作,最終達(dá)到收斂。數(shù)據(jù)集的對象和屬性常常用數(shù)據(jù)矩陣的方法表示, 協(xié)同聚類就是對數(shù)據(jù)矩陣的行和列同時或者交替進(jìn)行聚類,實(shí)現(xiàn)行聚類和列聚類的彼此約 束。協(xié)同聚類和傳統(tǒng)的聚類方法最大的不同是聚類的對象含有兩種類型的數(shù)據(jù),一種是樣 本點(diǎn),一種是樣本的屬性。
[0024] 半監(jiān)督聚類是指利用少量的監(jiān)督信息來指導(dǎo)聚類分析,從而提高聚類的性能。少 量監(jiān)督信息是指樣本的類標(biāo)記或者樣本點(diǎn)之間的相似約束信息。利用樣本的類標(biāo)記進(jìn)行聚 類的算法一般是學(xué)習(xí)少量的監(jiān)督信息,從中得出聚類的種子,指導(dǎo)聚類的完成。
[0025] 向量空間模型中的權(quán)重是指特征詞能代表文本特性的能力,是一個文本不同于其 他文本的特性。如果特征詞在運(yùn)個文本中出現(xiàn)的次數(shù)越高,在其他文本中出現(xiàn)的次數(shù)越低, 那么運(yùn)個特征詞在運(yùn)個文本中的權(quán)重就越高,運(yùn)個特征詞就越能代表運(yùn)個文本的特性。
[0026] 半監(jiān)督聚類特征詞即用先驗(yàn)信息指導(dǎo)聚類那些關(guān)系極為密切的特征詞,先驗(yàn)信息 包括約束實(shí)例和類別標(biāo)記,運(yùn)里用到的先驗(yàn)信息為成對約束實(shí)例。
[0027] 本發(fā)明公開了一種半監(jiān)督層次協(xié)同文本聚類方法,包括:首先在出現(xiàn)頻繁的詞匯 集中找出成對約束實(shí)例,運(yùn)個過程可W是人工找出成對約束集,出現(xiàn)頻繁的詞匯集可W從 每篇文檔中權(quán)重最大的那個特征詞抽取出來,從中找出正約束集和負(fù)約束集。然后根據(jù)K最 近鄰集來對約束集進(jìn)行擴(kuò)充,接著根據(jù)約束集的劃分結(jié)果進(jìn)行聚類。
[0028] 成對約束實(shí)例也就是樣本間的關(guān)聯(lián)約束,分為正約束(Must-1 ink)和負(fù)約束 (C曰nnot-link)〇
[0029] 設(shè)正約束集為M,負(fù)約束集為C,M和C具有對稱性和傳遞性,如下公式(1)、公式(2), 利用運(yùn)兩個屬性可W對Μ集合和C集合進(jìn)行擴(kuò)充。
[0032] 對于W上擴(kuò)充后的少量信息仍然無法滿足需要,利用最近Κ臨近集原則對Μ集