基于中心法的自適應(yīng)文本聚類算法
【專利摘要】基于中心法的自適應(yīng)文本聚類算法是一種迭代分割聚類算法,迭代之前,算法首先初始化相關(guān)參數(shù),然后隨機(jī)將數(shù)據(jù)集分割為大小相同的一組聚簇,并計(jì)算每個(gè)聚簇的CFC向量;在此之后,算法進(jìn)入迭代過(guò)程,在進(jìn)入迭代過(guò)程之后,每次迭代過(guò)程包括下列主要步驟:根據(jù)每個(gè)文本和不同聚簇的CFC向量的相似度重新組織每個(gè)文本,以得到新的一組聚簇;在重新組織每個(gè)文本之后,重新計(jì)算每個(gè)非空聚簇的CFC向量;判定算法是否滿足終止條件,若滿足則終止,否則繼續(xù)進(jìn)行迭代過(guò)程;具有如下主要優(yōu)點(diǎn):(1)方法簡(jiǎn)單,易于實(shí)現(xiàn);(2)具有自適應(yīng)性。
【專利說(shuō)明】基于中心法的自適應(yīng)文本聚類算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息檢索領(lǐng)域,尤其涉及一種基于中心法并自適應(yīng)確定聚類個(gè)數(shù)的文本聚類算法。
【背景技術(shù)】
[0002]文本聚類算法是機(jī)器學(xué)習(xí)、信息檢索等領(lǐng)域中一類主要的文本數(shù)據(jù)挖掘方法,是解決互聯(lián)網(wǎng)文本信息過(guò)載的主要途徑之一。其目的是按照“物以類聚”的原則組織互聯(lián)網(wǎng)文本集合,以得到一系列有意義的文本子集。其中,每個(gè)文本子集內(nèi)的文本之間最大程度地相似,而不同文本子集的文本之間最大程度地不同。良好的文本聚類算法能夠?qū)⑼掝}同種類的文本聚集成一個(gè)有意義的文本子集,可以幫助互聯(lián)網(wǎng)用戶從海量文本信息中更容易地找到其最感興趣的內(nèi)容。研究和運(yùn)用文本聚類算法對(duì)于完成文本數(shù)據(jù)挖掘任務(wù)具有重要的理論價(jià)值和現(xiàn)實(shí)意義。
[0003]目前,已提出了多種文本聚類算法,大體分為如下三類:層次聚類算法、分割聚類算法和概率模型聚類算法。層次聚類算法通常以自頂向下或者自底向上的方式將文本集合組織成一個(gè)層次結(jié)構(gòu);分割聚類算法則按照某種選定標(biāo)準(zhǔn)將文本集合直接分割成幾個(gè)聚簇,聚簇的數(shù)目通常是預(yù)先設(shè)定的;而概率模型聚類算法通過(guò)概率主題模型來(lái)解決文本聚類問(wèn)題。
[0004]其中,分割聚類算法因其具有容易理解、實(shí)現(xiàn)簡(jiǎn)單的優(yōu)點(diǎn)而被廣泛研究和使用。分割聚類算法的基本原理和過(guò)程是:首先,根據(jù)某一選定標(biāo)準(zhǔn)將數(shù)據(jù)集分割為k份,每份代表一個(gè)聚簇。分割產(chǎn)生的聚簇具備兩個(gè)特點(diǎn):1)每個(gè)聚簇至少包含一個(gè)數(shù)據(jù),2)每個(gè)數(shù)據(jù)只屬于一個(gè)聚簇。然后,通過(guò)反復(fù)的迭代過(guò)程對(duì)初次產(chǎn)生的劃分進(jìn)行逐步調(diào)整。最后,當(dāng)選定標(biāo)準(zhǔn)達(dá)到最優(yōu)或者迭代收斂條件滿足時(shí)算法終止。
[0005]從上述算法過(guò)程可以看出:分割聚類在算法運(yùn)行之前需要人工預(yù)先指定聚簇個(gè)數(shù)k,這是其主要問(wèn)題之一。另外,根據(jù)前人研究:分割聚類算法在數(shù)據(jù)集包含較多類別時(shí)算法表現(xiàn)較差。綜上,分割聚類算法存在兩個(gè)主要問(wèn)題:1)在算法運(yùn)行之前需要人工預(yù)先指定聚簇個(gè)數(shù);2)在數(shù)據(jù)集包含較多類別時(shí)算法表現(xiàn)較差。
【發(fā)明內(nèi)容】
[0006]針對(duì)分割聚類算法在算法運(yùn)行之前需要人工預(yù)先指定聚簇個(gè)數(shù)以及在數(shù)據(jù)集包含較多類別時(shí)算法表現(xiàn)較差這兩個(gè)問(wèn)題,本發(fā)明的目的是提供一種在算法運(yùn)行之前不需人工預(yù)先指定聚類個(gè)數(shù)(即根據(jù)數(shù)據(jù)集和算法運(yùn)行情況自適應(yīng)確定聚類個(gè)數(shù))并且在數(shù)據(jù)集包含較多類別時(shí)算法表現(xiàn)較好的分割聚類算法。本發(fā)明方法:首先將文本數(shù)據(jù)集隨機(jī)分割成大小相同并且較小的一組聚簇;然后根據(jù)文本和各聚簇中心的相似度通過(guò)迭代過(guò)程對(duì)聚簇進(jìn)行調(diào)整、對(duì)數(shù)據(jù)集進(jìn)行重組;最后當(dāng)終止條件達(dá)到時(shí)迭代過(guò)程終止,可以獲得更準(zhǔn)確的聚類結(jié)果。
[0007]本發(fā)明提供了一種基于中心法并自適應(yīng)確定聚簇個(gè)數(shù)的文本聚類算法,所述方法包括如下步驟:
[0008]步驟1:初始化算法相關(guān)參數(shù)
[0009]首先,初始化聚簇的“類一特征一中心”(CFC: Class-Feature-Centroid)向量計(jì)算參數(shù):b和log函數(shù)的底數(shù)。其次,設(shè)置算法運(yùn)行控制參數(shù),包括:隨機(jī)聚類過(guò)程時(shí)的初始聚簇大小參數(shù)Im,重啟頻率參數(shù)Fm和重啟范圍Rm。最后,設(shè)置算法終止條件參數(shù):最大迭代次數(shù)和收斂準(zhǔn)確率。
[0010]步驟2:分割數(shù)據(jù)集
[0011]隨機(jī)將數(shù)據(jù)集分割為大小為Im的一組聚簇,并計(jì)算每個(gè)聚簇的CFC向量。
[0012]步驟3:重組數(shù)據(jù)集
[0013]根據(jù)每個(gè)文本和不同聚簇的CFC向量的相似度重新組織每個(gè)文本,以得到新的一組聚簇,重組過(guò)程包含兩種處理情況:
[0014](I)非重啟迭代重組:將每個(gè)文本分配到和其最相似的CFC向量所屬的聚簇中。
[0015](2)重啟迭代重組:將每個(gè)文本分配到和其第2到第Rm相似區(qū)間中的某一 CFC向量所屬的聚簇中。
[0016]步驟4:重新計(jì)算各聚簇的CFC向量
[0017]在將所有文本重組之后,重新計(jì)算每個(gè)非空聚簇的CFC向量。
[0018]步驟5:判定算法是否終止
[0019]算法有兩個(gè)終止條件:最大迭代次數(shù)和收斂準(zhǔn)確率。如果兩個(gè)終止條件有一個(gè)滿足,則算法終止。否則,算法繼續(xù)進(jìn)行,轉(zhuǎn)到步驟3。
【專利附圖】
【附圖說(shuō)明】
[0020]圖1基于中心法的自適應(yīng)文本聚類算法流程示意圖。
[0021]圖2四個(gè)子數(shù)據(jù)集上本方法與其他4個(gè)方法的F值比較圖。
[0022]圖3四個(gè)子數(shù)據(jù)集上本方法與其他4個(gè)方法的純度比較圖。
[0023]圖4四個(gè)子數(shù)據(jù)集上本方法與其他4個(gè)方法的信息熵比較圖。
[0024]圖5參數(shù)Im和F值的關(guān)系圖。
[0025]圖6參數(shù)Fm和F值的關(guān)系圖。
[0026]圖7參數(shù)Rm和F值的關(guān)系圖。
[0027]圖8重啟和非重啟情況下的F值比較圖。
[0028]圖9重啟和非重啟情況下的純度比較圖。
[0029]圖10重啟和非重啟情況下的信息熵比較圖。
【具體實(shí)施方式】
[0030]以下實(shí)施例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍?,F(xiàn)通過(guò)附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。
[0031 ] 本發(fā)明實(shí)施例的前提是已獲得了文本數(shù)據(jù)集。
[0032]圖1為本發(fā)明實(shí)施例提供的基于中心法的自適應(yīng)文本聚類算法流程示意圖,如圖1所示,本實(shí)施例主要包含以下步驟:
[0033]步驟1:初始化相關(guān)參數(shù)[0034]首先,初始化聚簇的CFC向量計(jì)算參數(shù)b和log函數(shù)的底數(shù)。其次,設(shè)置算法隨機(jī)分割過(guò)程時(shí)的參數(shù)初始聚簇大小Im,設(shè)置算法重啟策略的參數(shù)重啟頻率Fm和重啟范圍Rm。最后,設(shè)置算法終止條件的參數(shù)最大迭代次數(shù)和收斂準(zhǔn)確率。
[0035]步驟2:分割數(shù)據(jù)集
[0036]隨機(jī)將數(shù)據(jù)集分割為聚簇大小為Im的一系列聚簇,并按公式(I)計(jì)算每個(gè)聚簇的CFC向量。
【權(quán)利要求】
1.基于中心法的自適應(yīng)文本聚類算法,其特征在于,包括如下步驟: 步驟1:初始化算法相關(guān)參數(shù) 首先,初始化聚簇的“類一特征一中心”(CFC:Class-Feature-Centroid)向量計(jì)算參數(shù):b和log函數(shù)的底數(shù),其次,設(shè)置算法運(yùn)行控制參數(shù),包括:隨機(jī)聚類過(guò)程時(shí)的初始聚簇大小參數(shù)Im,重啟頻率參數(shù)Fm和重啟范圍Rm,最后,設(shè)置算法終止條件參數(shù):最大迭代次數(shù)和收斂準(zhǔn)確率; 步驟2:分割數(shù)據(jù)集 隨機(jī)將數(shù)據(jù)集分割為大小為Im的一組聚簇,并計(jì)算每個(gè)聚簇的CFC向量; 步驟3:重組數(shù)據(jù)集 根據(jù)每個(gè)文本和不同聚簇的CFC向量的相似度重新組織每個(gè)文本,以得到新的一組聚簇,重組過(guò)程包含兩種處理情況: (O非重啟迭代重組:將每個(gè)文本分配到和其最相似的CFC向量所屬的聚簇中; (2)重啟迭代重組:將每個(gè)文本分配到和其第2到第Rm相似區(qū)間中的某一 CFC向量所屬的聚簇中; 步驟4:重新計(jì)算各聚簇的CFC向量 在將所有文本重組之后,重新計(jì)算每個(gè)非空聚簇的CFC向量; 步驟5:判定算法是否終止 算法有兩個(gè)終止條件:最大迭代次數(shù)和收斂準(zhǔn)確率,如果兩個(gè)終止條件有一個(gè)滿足,則算法終止,否則,算法繼續(xù)進(jìn)行,轉(zhuǎn)到步驟3。
2.根據(jù)權(quán)利要求1所述的基于中心法的自適應(yīng)文本聚類算法,其特征在于,該算法采用如下基本原理對(duì)文本進(jìn)行聚類: 首先將文本數(shù)據(jù)集隨機(jī)分割成大小相同并且較小的一組聚簇;然后根據(jù)文本和各聚簇中心的相似度通過(guò)迭代過(guò)程對(duì)聚簇進(jìn)行調(diào)整、對(duì)數(shù)據(jù)集進(jìn)行重組;最后當(dāng)終止條件達(dá)到時(shí)迭代過(guò)程終止,可以獲得更準(zhǔn)確的聚類結(jié)果。
3.根據(jù)權(quán)利要求1所述的基于中心法的自適應(yīng)文本聚類算法,其特征在于,按照如下方法構(gòu)造每個(gè)聚簇的CFC向量:
4.根據(jù)權(quán)利要求1所述的基于中心法的自適應(yīng)文本聚類算法,其特征在于,按照如下方法構(gòu)造文本向量和聚簇的CFC向量的相似度:
5.根據(jù)權(quán)利要求1所述的基于中心法的自適應(yīng)文本聚類算法,其特征在于,按照如下策略對(duì)聚簇進(jìn)行調(diào)整、對(duì)數(shù)據(jù)集進(jìn)行重組: (O當(dāng)前迭代次數(shù)沒(méi)達(dá)到重啟頻率參數(shù)Im時(shí),進(jìn)行“非重啟策略迭代重組”,即將每個(gè)文本分配到和其最相似的CFC向量所屬的聚簇中; (2)當(dāng)前迭代次數(shù)達(dá)到重啟頻率參數(shù)Im時(shí),進(jìn)行“重啟策略迭代重組”,即將每個(gè)文本分配到和其非最相似的某一 CFC向量(第2到第Rm相似區(qū)間中的某一個(gè)CFC向量)所屬的聚簇中,重啟策略的目的是避免算法過(guò)早地陷入到局部極小值中。
6.根據(jù)權(quán)利要求1所述的基于中心法的自適應(yīng)文本聚類算法,其特征在于,按照如下條件終止運(yùn)行: 算法有兩個(gè)終止條件:最大迭代次數(shù)和收斂準(zhǔn)確率,如果兩個(gè)終止條件有一個(gè)滿足,則算法終止,否則,算法繼續(xù)進(jìn)行。
【文檔編號(hào)】G06F17/30GK103699695SQ201410014995
【公開(kāi)日】2014年4月2日 申請(qǐng)日期:2014年1月14日 優(yōu)先權(quán)日:2014年1月14日
【發(fā)明者】歐陽(yáng)繼紅, 周曉堂, 李熙, 馬超, 王旭 申請(qǐng)人:吉林大學(xué)