一種文本聚類方法

文檔序號：9687580閱讀：453來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本聚類方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明設(shè)及語義分析技術(shù)領(lǐng)域，更具體地設(shè)及一種文本聚類方法。
【背景技術(shù)】
[0002] 信息化時代的今天，網(wǎng)絡(luò)文本呈現(xiàn)出海量的特性，從捜索到的海量文本中提取有效信息或獲取當(dāng)前熱點(diǎn)信息，需要對文本聚類，使同一個文本簇中的文本間相似度盡量的高，不同簇中的文本間相似度盡量的低。
[0003] 文本聚類中，常用特征詞來表達(dá)文本的特性，最常用的模型是向量空間模型。向量空間模型中，每一個文本用一個向量表示，向量中的每一個值表示每一個特征詞在文本中的權(quán)重。文本向量空間模型是一個矩陣模型，矩陣的行表示文本，矩陣的列表示特征詞屬性，矩陣中的數(shù)值表示對應(yīng)列的特征詞在對應(yīng)行的文本中的權(quán)值。
[0004] 向量空間模型中的權(quán)值是指特征詞能代表文本特性的能力，是一個文本不同于其他文本的特性。如果特征詞在運(yùn)個文本中出現(xiàn)的次數(shù)越高，在其他文本中出現(xiàn)的次數(shù)越低，那么運(yùn)個特征詞在運(yùn)個文本中的權(quán)重就越高，運(yùn)個特征詞就越能代表運(yùn)個文本的特性。
[0005] 層次聚類算法是通過分解數(shù)據(jù)集合來構(gòu)建樹形層次結(jié)構(gòu)，具體可W分為分裂（自頂向下)算法和凝聚（自底向上)算法。分裂算法是將所有的數(shù)據(jù)集合看做一個簇，一步一步的將簇分解，然后逐層向下，每個層次都將分裂其中一個簇，直到每一個數(shù)據(jù)對象都是單獨(dú) 一個簇或者滿足條件為止。相反，凝聚算法是起初將每個數(shù)據(jù)對象看做一個單獨(dú)的簇，逐步的合并簇，從底逐層向上，每一步都合并最相似的兩個簇，最終將所有的簇合并為一個簇或者滿足條件為止。
[0006] 文本聚類中常用的還有協(xié)同聚類算法，其是將文本和特征詞同時進(jìn)行聚類的方法，該算法中將行對象和列對象同時聚類或者交替聚類，常常運(yùn)用到文本聚類算法中，文本聚類中的行對象是文本對象，列對象是特征詞對象，用此方法聚類不僅可W提高聚類的精確度，而且由于聚類結(jié)果的簇中含有文本對象和特征詞對象，特征詞對象還可W作為文本簇的主題詞，從而達(dá)到了主題發(fā)現(xiàn)的效果。
[0007] 目前，將層次聚類和協(xié)同聚類結(jié)合起來研究實(shí)際問題，可W達(dá)到一個好的聚類效果，2010年，Li等人提出了層次協(xié)同聚類的算法，運(yùn)個算法用來解決文本和特征詞的共同聚類問題。此方法是將文本和特征詞當(dāng)作葉子節(jié)點(diǎn)，利用特征詞和文本間的相似性矩陣，用層次聚類法同時聚類文本和特征詞。2011年Li等人又提出了用層次協(xié)同聚類的算法來對音樂信息進(jìn)行協(xié)同聚類，利用藝術(shù)家和音樂風(fēng)格之間的權(quán)重信息，對藝術(shù)家和音樂風(fēng)格進(jìn)行層次協(xié)同聚類，用到了層次聚類算法的凝集算法和分裂算法兩種來對實(shí)際問題進(jìn)行聚類。
[000引由于文本和特征詞都是海量的，直接運(yùn)用層次協(xié)同聚類將會增加時間復(fù)雜度并且降低精度。而且只考慮了詞對于文本的權(quán)重值，而忽略了特征詞之間的語義關(guān)系。例如，假設(shè)一篇文檔中出現(xiàn)"高血糖"，而另外一篇文檔中出現(xiàn)"高血脂"，如果單單從特征詞的共現(xiàn) 性來判斷兩篇文檔的相似度，運(yùn)兩個特征詞被認(rèn)為是完全獨(dú)立的，運(yùn)兩篇文檔可能不會屬于同一個類，實(shí)際上都是屬于醫(yī)學(xué)類別，運(yùn)里就容易出現(xiàn)聚類的錯誤。

【發(fā)明內(nèi)容】

[0009] 有鑒于此，本發(fā)明的目的在于提出一種文本聚類方法。本發(fā)明優(yōu)選的文本聚類方法可W兼采幾種聚類方法的優(yōu)點(diǎn)，改善聚類效率和精度，同時利用少量的監(jiān)督信息指導(dǎo)聚類，使聚類的效果明顯得到改善。
[0010] 為了實(shí)現(xiàn)上述目的，本發(fā)明提出了一種文本聚類方法，包括W下步驟：
[0011] 對文本集先采用半監(jiān)督聚類方法對特征詞進(jìn)行聚類，在出現(xiàn)頻繁的詞匯中找出成對約束實(shí)例，出現(xiàn)頻繁的詞匯集從每篇文檔中權(quán)重最大的那個特征詞抽取出來，從中找出正約束集和負(fù)約束集；
[0012] 根據(jù)K最近鄰集對所述正約束集和負(fù)約束集進(jìn)行擴(kuò)充；
[0013] 根據(jù)約束集的劃分結(jié)果對特征詞進(jìn)行聚類。
[0014] 其中，所述根據(jù)K最近鄰集對所述正約束集和負(fù)約束集進(jìn)行擴(kuò)充的原則為：
[0015] 距離正約束對其中一個對象的距離非常的近，距離另外一個對象的距離小于此正約束對的距離，并且此對象和正約束對的兩個對象都不屬于負(fù)約束集，那么此對象和其中一個對象的關(guān)系屬于正約束關(guān)系；W及
[0016] 距離負(fù)約束對其中一個對象的距離非常的近，距離另外一個對象的距離大于此負(fù) 約束對的距離，并且此對象和負(fù)約束對的兩個對象都不屬于正約束集，則此對象和其中一個對象的關(guān)系屬于負(fù)約束關(guān)系。
[0017] 基于上述技術(shù)方案可知，本發(fā)明的方法加入了半監(jiān)督聚類算法對特征詞進(jìn)行聚類，找到特征詞的簇，對特征詞進(jìn)行合并，不僅降低了向量空間的維度，提高了實(shí)驗(yàn)的效率，而且在少量監(jiān)督信息的指導(dǎo)下，使特征詞的聚類更加合理、可靠;此外，本發(fā)明對文本和特征詞進(jìn)行層次協(xié)同聚類之前，擴(kuò)充文本特征詞對象集的相似度矩陣，通過找出文本之間的語義關(guān)系，特征詞之間的語義關(guān)系，構(gòu)造了協(xié)同矩陣，對原有的只含有特征詞和文本之間的相似度的矩陣，擴(kuò)充為含有文本之間的相似度、特征詞之間的相似度、含有兩種對象之間的相似度的協(xié)同矩陣，使層次協(xié)同聚類所含有的兩種類型的對象任意兩兩之間的相似度包含在協(xié)同矩陣?yán)锩?，聚類的效果得到改善?br>【附圖說明】
[0018] 圖1為K最鄰近集擴(kuò)充正約束集的示意圖；
[0019] 圖2為K最鄰近集擴(kuò)充負(fù)約束集的示意圖。
【具體實(shí)施方式】
[0020] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，W下結(jié)合具體實(shí)施例，并參照附圖，對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0021] 聚類分析(Clustering Analysis)是根據(jù)事物之間的內(nèi)在聯(lián)系對其進(jìn)行歸類，分成逐個事物的集合，又稱簇(Cluster),聚類的結(jié)果使同一個簇中的事物之間盡量相似，不同簇的對象之間盡量相異。常用的聚類分析算法包括層次聚類、協(xié)同聚類、半監(jiān)督聚類等，下面分述之。
[0022] 層次聚類算法是通過分解數(shù)據(jù)集合來構(gòu)建樹形層次結(jié)構(gòu)，具體可W分為分裂（自頂向下)算法和凝聚（自底向上)算法。分裂算法是將所有的數(shù)據(jù)集合看做一個簇，一步一步的將簇分解，然后逐層向下，每個層次都將分裂其中一個簇，直到每一個數(shù)據(jù)對象都是單獨(dú) 一個簇或者滿足條件為止。相反，凝聚算法是起初將每個數(shù)據(jù)對象看做一個單獨(dú)的簇，逐步的合并簇，從底逐層向上，每一步都合并最相似的兩個簇，最終將所有的簇合并為一個簇或者滿足條件為止。
[0023] 協(xié)同聚類，又稱雙向聚類，或聯(lián)合聚類，指對數(shù)據(jù)集的對象和屬性同時聚類或者交替進(jìn)行聚類，相互協(xié)作，最終達(dá)到收斂。數(shù)據(jù)集的對象和屬性常常用數(shù)據(jù)矩陣的方法表示，協(xié)同聚類就是對數(shù)據(jù)矩陣的行和列同時或者交替進(jìn)行聚類，實(shí)現(xiàn)行聚類和列聚類的彼此約束。協(xié)同聚類和傳統(tǒng)的聚類方法最大的不同是聚類的對象含有兩種類型的數(shù)據(jù)，一種是樣本點(diǎn)，一種是樣本的屬性。
[0024] 半監(jiān)督聚類是指利用少量的監(jiān)督信息來指導(dǎo)聚類分析，從而提高聚類的性能。少量監(jiān)督信息是指樣本的類標(biāo)記或者樣本點(diǎn)之間的相似約束信息。利用樣本的類標(biāo)記進(jìn)行聚類的算法一般是學(xué)習(xí)少量的監(jiān)督信息，從中得出聚類的種子，指導(dǎo)聚類的完成。
[0025] 向量空間模型中的權(quán)重是指特征詞能代表文本特性的能力，是一個文本不同于其他文本的特性。如果特征詞在運(yùn)個文本中出現(xiàn)的次數(shù)越高，在其他文本中出現(xiàn)的次數(shù)越低，那么運(yùn)個特征詞在運(yùn)個文本中的權(quán)重就越高，運(yùn)個特征詞就越能代表運(yùn)個文本的特性。
[0026] 半監(jiān)督聚類特征詞即用先驗(yàn)信息指導(dǎo)聚類那些關(guān)系極為密切的特征詞，先驗(yàn)信息包括約束實(shí)例和類別標(biāo)記，運(yùn)里用到的先驗(yàn)信息為成對約束實(shí)例。
[0027] 本發(fā)明公開了一種半監(jiān)督層次協(xié)同文本聚類方法，包括:首先在出現(xiàn)頻繁的詞匯集中找出成對約束實(shí)例，運(yùn)個過程可W是人工找出成對約束集，出現(xiàn)頻繁的詞匯集可W從每篇文檔中權(quán)重最大的那個特征詞抽取出來，從中找出正約束集和負(fù)約束集。然后根據(jù)K最近鄰集來對約束集進(jìn)行擴(kuò)充，接著根據(jù)約束集的劃分結(jié)果進(jìn)行聚類。
[0028] 成對約束實(shí)例也就是樣本間的關(guān)聯(lián)約束，分為正約束（Must-1 ink)和負(fù)約束 (C曰nnot-link)〇
[0029] 設(shè)正約束集為M，負(fù)約束集為C，M和C具有對稱性和傳遞性，如下公式（1)、公式(2)，利用運(yùn)兩個屬性可W對Μ集合和C集合進(jìn)行擴(kuò)充。
[0032] 對于W上擴(kuò)充后的少量信息仍然無法滿足需要，利用最近Κ臨近集原則對Μ集

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃菲菲;
技術(shù)所有人：北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司;
我是此專利的發(fā)明人

上一篇：綜合射頻傳感器數(shù)據(jù)分析系統(tǒng)的制作方法
上一篇：基于地圖顯示功能的即時通信方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本聚類方法相關(guān)技術(shù)

文本聚類相關(guān)技術(shù)

文本聚類算法相關(guān)技術(shù)

短文本聚類相關(guān)技術(shù)

文本聚類工具相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種文本聚類方法