專利名稱:大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息技術(shù)領(lǐng)域中一種利用外部存儲(chǔ)器進(jìn)行大規(guī)模文本數(shù)據(jù)聚類 的方法及實(shí)現(xiàn),基于檢索技術(shù)的外部文檔聚類方法,克服現(xiàn)有方法在處理問(wèn)題規(guī) 模和時(shí)間上的不足的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)。 -
背景技術(shù):
近10年,以信息為基礎(chǔ)的組織或知識(shí)型企業(yè)煥發(fā)勃勃生機(jī),創(chuàng)造和傳播知 識(shí)己經(jīng)成為檢驗(yàn)企業(yè)核心能力的關(guān)鍵要素,知識(shí)的創(chuàng)造和應(yīng)用能力成為不折不 扣的企業(yè)核心競(jìng)爭(zhēng)力的強(qiáng)力支撐。知識(shí)除儲(chǔ)存于員工的大腦中外,還根植于企 業(yè)長(zhǎng)期積累的各種文檔,以及其他應(yīng)用系統(tǒng)的數(shù)據(jù)當(dāng)中。如何在企業(yè)龐雜的信 息數(shù)據(jù)中挖掘出知識(shí),則首先需要將數(shù)據(jù)歸類分析,本發(fā)明則是其中一種歸類方 法——聚類。聚類是按照事物的某些屬性、特征把事物聚集成類,使得類間的 相似性最小,類內(nèi)的相似性盡量大。由于聚類是一種無(wú)指導(dǎo)的學(xué)習(xí)方法,無(wú)需 -耗費(fèi)大量的人力、物力,因此文本的自動(dòng)聚類技術(shù)已成為最有效的突破信息處 理的最主要手段。例如,基于聚類技術(shù)的搜索引擎,通過(guò)聚類技術(shù)可以對(duì)每個(gè) 用戶的檢索結(jié)果進(jìn)行歸類,當(dāng)用戶檢索"軟件"時(shí),可以將結(jié)果歸類為"病毒"、 "辦公"等類別,這樣用戶可以更系統(tǒng)地掌握、分析檢索結(jié)果。聚類能夠消耗大量存儲(chǔ)器和處理器資源,因?yàn)槊總€(gè)數(shù)據(jù)必須和其它數(shù)據(jù)逐 一比較,以便識(shí)別數(shù)據(jù)間的類別關(guān)系。然而隨著數(shù)據(jù)的不斷積累,處理數(shù)據(jù)的 規(guī)模成為了現(xiàn)有的聚類系統(tǒng)的最主要問(wèn)題。參考文獻(xiàn)中有涉及一些處理規(guī)模較大的方法,如CURE和CURD, CURE是一種自底向上的層次聚類算法,首先將輸 -入的每個(gè)點(diǎn)作為一個(gè)聚類,然后合并相似的聚類,直到聚類的個(gè)數(shù)為k時(shí)為止。 在CURE中指出,基于中心點(diǎn)的方法和所有的點(diǎn)的距離計(jì)算方法都不適合非球形 或任意形狀的聚類,因此CURE采用了折衷的方法,即用固定數(shù)目的點(diǎn)表示一個(gè) 聚類,從而提高了算法挖掘任意形狀的聚類的能力。CURE算法的時(shí)間復(fù)雜性為 0(n*n)(低維數(shù)據(jù))和0(r^r^logn)(高維數(shù)據(jù)),算法在處理大量數(shù)據(jù)時(shí)必須基于抽樣、劃分等技術(shù)。CURD算法受CURE算法的啟發(fā),不同的是采用了密度的方法 屏蔽異常數(shù)據(jù)(噪音)對(duì)算法的影響,具有和K-MEANS算法相同的時(shí)間復(fù)雜性,效率較高。由此可以看到現(xiàn)有的方法,只是在通過(guò)一種縮減的手段,利用少數(shù)的特點(diǎn) 來(lái)代替大規(guī)模數(shù)據(jù)。但往往為了保證系統(tǒng)的性能,其選擇的代表點(diǎn)不能過(guò)少, 因此從本質(zhì)上上述方法還是沒(méi)有解決由于處理規(guī)模的空間復(fù)雜度而造成的不可 計(jì)算問(wèn)題。因此研制一種大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)是國(guó)內(nèi)外急需 -解決的新課題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種新的利用外存進(jìn)行聚類方法,在確保空間復(fù)雜度 較低的前提下,利用最少的內(nèi)、外存交互,實(shí)現(xiàn)一個(gè)處理數(shù)據(jù)規(guī)模大,執(zhí)行效 率高的聚類方法,對(duì)海量的雜亂的非結(jié)構(gòu)化數(shù)據(jù),進(jìn)行有用資源正確提取,標(biāo)明 屬性,抽象特征,區(qū)分類別,使資源重新有序化,并實(shí)現(xiàn)跨來(lái)源、跨類別的廣 泛關(guān)聯(lián)的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)。本發(fā)明的目的是這樣實(shí)現(xiàn)的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),方法'的主要?dú)i驟包括對(duì)輸入文本集的預(yù)處理,生成文本集的倒排索引和特征向量;采用檢索技術(shù)檢索每一文檔的候選關(guān)系集合;利用關(guān)系計(jì)算方法對(duì)有候選關(guān)系的文檔進(jìn)行關(guān)系計(jì)算;排序輸出大于一定閾值的計(jì)算結(jié)果;聚類算法再依照排序結(jié)果,反復(fù)迭代合并具有第一直接關(guān)系的文本對(duì),最終達(dá)到對(duì)文本集合的聚類輸出;大規(guī)模文本數(shù)據(jù)的外部聚類方法設(shè)計(jì)的聚類系統(tǒng),包括一候選分析器、關(guān)系生成器、關(guān)系選取和聚類部件,聚類的基本過(guò)程,首先每個(gè)樣本點(diǎn)都作為一個(gè)簇,通過(guò)檢索技術(shù)為每個(gè)樣本挑選出候選的具有聯(lián)系的候選點(diǎn)集合,而后利'用關(guān)系生成器計(jì)算樣本與候選關(guān)系樣本間的關(guān)系,并按遞增/遞減順序輸出到外部存儲(chǔ)空間,然后在關(guān)系選取和聚類部件的控制下在外部存儲(chǔ)中反復(fù)地對(duì)樣本關(guān)系文件進(jìn)行刪除合并,直到關(guān)系文件為空;基于文本檢索技術(shù)的樣本關(guān)系候選計(jì)算方法,該方法通過(guò)對(duì)描述數(shù)據(jù)的特征建立倒排索引,然后對(duì)于每一樣本 '都檢索出與其有共同特征的樣本作為候選樣本集合;聚類是一種消耗大量存儲(chǔ) 器和處理器資源的方法,因?yàn)槊總€(gè)樣本必須和其它樣本進(jìn)行逐一比較,以便識(shí) 別出樣本間的類別關(guān)系;利用高效的倒排檢索技術(shù)可以最大程度地減少樣本關(guān) 系計(jì)算中所占用的存儲(chǔ)器和處理器資源;這種過(guò)濾的過(guò)程可被稱為篩選, 一些 傳統(tǒng)聚類方法都有利用篩選,但是本發(fā)明中基于檢索技術(shù)的篩選尤其有效;當(dāng) 所有樣本計(jì)算出候選關(guān)系序列后,便需要計(jì)算樣本與樣本間的關(guān)系,這里稱之 為距離或相似度;這個(gè)距離或相似度的值可以衡量?jī)蓚€(gè)樣本的相似程度,是諸 '衡量?jī)蓚€(gè)具有一定數(shù)量的特征和權(quán)值的數(shù)據(jù)的相似程度的方法或組合;各樣本 間的距離或相似度通過(guò)一定閾值加以控制,如果距離/相似度低于/高于所對(duì)應(yīng) 的閾值,則這個(gè)關(guān)系則被按升序或降序保存到關(guān)系文件中;這種按順序保存的 樣本關(guān)系可以減小其后的聚類中合并和選取的復(fù)雜度,減小磁盤交互帶來(lái)的時(shí) 間開(kāi)銷;通過(guò)排序的關(guān)系文件進(jìn)行外部聚類的方法,該方法每次從存儲(chǔ)于外存 的關(guān)系文件依次合并具有最先關(guān)系的樣本,而后在合并的基礎(chǔ)對(duì)現(xiàn)有關(guān)系進(jìn)行 裁剪;當(dāng)關(guān)系文件為空時(shí)聚類過(guò)程結(jié)束,并將合并樣本集合作為結(jié)果進(jìn)行輸出。本發(fā)明的要點(diǎn)在-f它的聚類方法及系統(tǒng)。iri:作原理足,采用自然語(yǔ)言處理技術(shù)對(duì)文本進(jìn)行處理生成可計(jì)算的數(shù)據(jù)格式,并存儲(chǔ)于計(jì)算的外部?jī)?chǔ)存器中 構(gòu)成文檔庫(kù),并通過(guò)檢索技術(shù)建立索引庫(kù)。對(duì)于每一文本都通過(guò)篩選器,檢索 出與其有共同特征的樣本作為候選樣本集合,縮小文本間相似/相關(guān)度計(jì)算的空 間,原始的計(jì)算頻度由Wn/2,變化為n*k,其中k《n/2。在文本相似度計(jì)算的候選空間中可以通過(guò)現(xiàn)有的文本相似度計(jì)算方法對(duì)文本間的關(guān)系進(jìn)行量化,并 保證其關(guān)系量化的數(shù)值在0到1之間。同時(shí)為了確保排序算法的時(shí)間復(fù)雜度, 根據(jù)數(shù)據(jù)規(guī)模大小在設(shè)定不同區(qū)間m (m〉0)將文本關(guān)系劃分到不同的外部關(guān)系 文件中。同時(shí)采用哈希排序的方法,對(duì)每個(gè)外部關(guān)系文件進(jìn)行遞增排序,并合并存儲(chǔ)于外部關(guān)系文件中。最后針對(duì)該排序的數(shù)據(jù)關(guān)系文件,采用本發(fā)明的聚 類算法,耗費(fèi)最少的I/O交互,并且占用較小的內(nèi)存空間,實(shí)現(xiàn)數(shù)據(jù)的聚類處理。大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)與現(xiàn)有技術(shù)相比,具有構(gòu)思新穎科 學(xué),聚類過(guò)程占用空間小,執(zhí)行效率高,適用于大規(guī)模文檔的聚類,使用成本 低、容量大的外部存儲(chǔ)器,對(duì)處理過(guò)程進(jìn)行分化處理等優(yōu)點(diǎn),將廣泛地應(yīng)用于 信息技術(shù)領(lǐng)域中。
下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。 圖l是本發(fā)明的一個(gè)聚類過(guò)程說(shuō)明原理圖。圖2是本發(fā)明的外部聚類算法每次的數(shù)據(jù)合并流程原理圖。圖3是本發(fā)明的聚類系統(tǒng)中計(jì)算兩個(gè)樣本集合的空間距離說(shuō)明原理圖。圖4是本發(fā)明的采用外部存儲(chǔ)的聚類系統(tǒng)原理圖。 圖5關(guān)系選擇和聚類部件的主要過(guò)程原理圖。
具體實(shí)施例方式參照附圖,大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),方法的主要步驟包括對(duì)輸入文本集的預(yù)處理,生成文本集的倒排索引和特征向量;采用檢索技術(shù)檢 索每一文檔的候選關(guān)系集合;利用關(guān)系計(jì)算方法對(duì)有候選關(guān)系的文檔進(jìn)行關(guān)系 計(jì)算;排序輸出大于一定閾值的計(jì)算結(jié)果;聚類算法再依照排序結(jié)果,反復(fù)迭 代合并具有第一直接關(guān)系的文本對(duì),最終達(dá)到對(duì)文本集合的聚類輸出;大規(guī)模 文本數(shù)據(jù)的外部聚類方法設(shè)計(jì)的聚類系統(tǒng),包括一候選分析器、關(guān)系生成器、 關(guān)系選取和聚類部件,聚類的基本過(guò)程,首先每個(gè)樣本點(diǎn)都作為一個(gè)簇,通過(guò) 檢索技術(shù)為每個(gè)樣本挑選出候選的具有聯(lián)系的候選點(diǎn)集合,而后利用關(guān)系生成 器計(jì)算樣本與候選關(guān)系樣本間的關(guān)系,并按遞增/遞減順序輸出到外部存儲(chǔ)空 間,然后在關(guān)系選取和聚類部件的控制下在外部存儲(chǔ)中反復(fù)地對(duì)樣本關(guān)系文件進(jìn)行刪除合并,直到關(guān)系文件為空;基于文本檢索技術(shù)的樣本關(guān)系候選計(jì)算方 法,該方法通過(guò)對(duì)描述數(shù)據(jù)的特征建立倒排索引,然后對(duì)于每一樣本都檢索出 與其有共同特征的樣本作為候選樣本集合;聚類是一種消耗大量存儲(chǔ)器和處理器資源的方法,因?yàn)槊總€(gè)樣本必須和其它樣本進(jìn)行逐一比較,以便識(shí)別出樣本間的類別關(guān)系;利用高效的倒排檢索技術(shù)可以最大程度地減少樣本關(guān)系計(jì)算中 所占用的存儲(chǔ)器和處理器資源;這種過(guò)濾的過(guò)程可被稱為篩選, 一些傳統(tǒng)聚類 方法都有利用篩選,但是本發(fā)明中基于檢索技術(shù)的篩選尤其有效;當(dāng)所有樣本 計(jì)算出候選關(guān)系序列后,便需要計(jì)算樣本與樣本間的關(guān)系,這里稱之為距離或 相似度;這個(gè)距離或相似度的值可以衡量?jī)蓚€(gè)樣本的相似程度,是諸衡量?jī)蓚€(gè) 具有一定數(shù)量的特征和權(quán)值的數(shù)據(jù)的相似程度的方法或組合;各樣本間的距離 或相似度通過(guò)一定閾值加以控制,如果距離/相似度低于/高于所對(duì)應(yīng)的閾值, 則這個(gè)關(guān)系則被按升序或降序保存到關(guān)系文件中;這種按順序保存的樣本關(guān)系 可以減小其后的聚類中合并和選取的復(fù)雜度,減小磁盤交互帶來(lái)的時(shí)間開(kāi)銷; 通過(guò)排序的關(guān)系文件進(jìn)行外部聚類的方法,該方法每次從存儲(chǔ)于外存的關(guān)系文 件依次合并具有最先關(guān)系的樣本,而后在合并的基礎(chǔ)對(duì)現(xiàn)有關(guān)系進(jìn)行裁剪;當(dāng) 關(guān)系文件為空時(shí)聚類過(guò)程結(jié)束,并將合并樣本集合作為結(jié)果進(jìn)行輸出。對(duì)本發(fā)明的實(shí)施加以詳細(xì)描述,參照附圖1描述了本發(fā)明中各層次模型的 組成,候選分析器4、關(guān)系生成器5、關(guān)系選取和聚類部件ll。其中關(guān)系生成器 的主要功能是計(jì)算數(shù)據(jù)間相互關(guān)系,是聚類算法的基礎(chǔ)。其內(nèi)部還包括文本處 理8和關(guān)系計(jì)算9兩部分,文本處理部分是將給定的文本集合生成可計(jì)算的模 型,如特征向量等;關(guān)系計(jì)算部分主要是在對(duì)文本進(jìn)行特征表示的基礎(chǔ)上計(jì) 算兩個(gè)文本的相似度,如余弦?jiàn)A角等。由于文本的相似度計(jì)算時(shí)間復(fù)雜度較 高,因此需要與候選分析器結(jié)合。候選分析器是關(guān)系生成器的補(bǔ)充和改善,主 要通過(guò)高效的檢索器6將特征表示后的文本進(jìn)行檢索處理,粗略地為每個(gè)文本選擇相關(guān)數(shù)據(jù)集。由此,關(guān)系生成器在候選分析器給定的候選集內(nèi)計(jì)算出每對(duì) 文木數(shù)據(jù)間的相似度,而后需要采用關(guān)系選取和聚類部件對(duì)數(shù)據(jù)集合進(jìn)行劃分。 在關(guān)系選取和聚類部件中主要包括關(guān)系排序12和聚類13兩個(gè)部分,排序主要 是將文本數(shù)據(jù)間的相似度按照從大到小的順序進(jìn)行排序,由此可以使聚類算法有指導(dǎo)地發(fā)現(xiàn)最相關(guān)的文本數(shù)據(jù),并進(jìn)行合并處理。聚類則是對(duì)排序的文本數(shù) 據(jù)相似度進(jìn)行遍歷從最大相似度的文本進(jìn)行合并,最終對(duì)數(shù)據(jù)集合實(shí)現(xiàn)聚類劃 分的目的。' 參照附圖2是發(fā)明的一個(gè)聚類過(guò)程分步說(shuō)明圖,本發(fā)明是通過(guò)不斷合并最終實(shí)現(xiàn)數(shù)據(jù)聚類的過(guò)程。但在每歩的合并過(guò)程中于傳統(tǒng)算法不同,每歩可同時(shí) 合并多個(gè)具有第一候選的中間類(合并過(guò)程中的小類,并非最終的聚類結(jié)果)。 這樣可提高聚類的性能。參照附圖3是本發(fā)明計(jì)算兩個(gè)類與類間距離的方法,當(dāng)聚類不斷進(jìn)行,文本被不斷合并到中間類中,進(jìn)而涉及如何計(jì)算兩個(gè)中間類的方法,本發(fā)明中采 用傳統(tǒng)的最長(zhǎng)距離方法進(jìn)行計(jì)算,即如圖所示,兩個(gè)類間的距離是兩個(gè)類中所 有樣本點(diǎn)間最長(zhǎng)的距離。' 參照附圖4是發(fā)明的一個(gè)聚類過(guò)程說(shuō)明圖。本系統(tǒng)通過(guò)特征選擇和特征的 權(quán)重計(jì)算將數(shù)據(jù)樣本映射成為一個(gè)多維空間的數(shù)據(jù)點(diǎn),如17,再通過(guò)任一空間 距離計(jì)算的方法計(jì)算出兩兩數(shù)據(jù)點(diǎn)的距離18,圖4中沒(méi)有線相連的數(shù)據(jù)點(diǎn)(如, 17和18之間)認(rèn)為距離無(wú)窮大。當(dāng)構(gòu)建完數(shù)據(jù)樣本的空間關(guān)系圖18后,系統(tǒng) 每次選取距離最短的樣本集進(jìn)行合并,如20。合并完成后,更新其余樣本與合 并后新的樣本集合的距離,生成新的數(shù)據(jù)關(guān)系圖。參照附圖5是本發(fā)明的關(guān)系選擇和聚類部件的主要過(guò)程原理圖。系統(tǒng)首先 從文本關(guān)系文件中讀取文本間的相似度22,并通過(guò)部件23按相似度的大小將當(dāng)'前讀入的文本關(guān)系按從大到小的順序排序輸出,直到滿足條件24后進(jìn)行下一步 操作。排序后系統(tǒng)通過(guò)25從文件中讀入文本關(guān)系,在通過(guò)條件26判斷當(dāng)前關(guān) 系是否滿足第一合并條件,滿足則進(jìn)行合并27,不滿足則判斷其是否具有輸出 條件29,是則將K-輸出到臨時(shí)文件中28,當(dāng)條件30(關(guān)系文件中最后一個(gè)關(guān)系)被滿足后一次合并結(jié)束,而后需要判斷臨時(shí)文件中是否還有記錄31,有則更新關(guān)系列表32,并跳轉(zhuǎn)到25步繼續(xù)進(jìn)行。如果臨時(shí)列表中無(wú)記錄則程序推出輸出 聚類結(jié)果33。首先結(jié)合附圖具休說(shuō)明本發(fā)明外部聚類系統(tǒng)的結(jié)構(gòu)組成及其處理數(shù)據(jù)流的操作歩驟參見(jiàn)圖4,本發(fā)明是一種采用外部存儲(chǔ)的聚類系統(tǒng),其中包括:候選分析器、 關(guān)系生成器、關(guān)系選取和聚類部件。其中文本處理和關(guān)系計(jì)算與現(xiàn)有的計(jì)算方 法相同。其創(chuàng)新之處在于增設(shè)一個(gè)基于檢索的候選分析器,并通過(guò)關(guān)系選取和 聚類算法構(gòu)成一種新的基于外部存儲(chǔ)器的聚類系統(tǒng)。圖中細(xì)實(shí)線箭頭表示控制 信號(hào)流動(dòng)方向,中空箭頭表不數(shù)據(jù)流動(dòng)方向。重點(diǎn)對(duì)本發(fā)明系統(tǒng)里的各個(gè)模塊組成及功能作進(jìn)一步的介紹1候選分析器是由一臺(tái)微機(jī)或?qū)S肞C機(jī)或者專用處理器芯片和一個(gè)具有檢索功能的程序包組成.該部件的功能是通過(guò)索引文件對(duì)每篇文檔進(jìn)行檢索,查找出與每篇文檔具 有相同關(guān)鍵詞的候選集合,并將結(jié)果存儲(chǔ)于存儲(chǔ)器中。關(guān)系生成器5是由文本處理模塊8和關(guān)系計(jì)算模塊9組成。其中文本處理 模塊主要是對(duì)文本進(jìn)行特征選取和權(quán)重計(jì)算,具體方法如下(1) 采用向量空間模型(Vector Space Model, VSM)對(duì)文本進(jìn)行表示。這種方法最開(kāi)始被用于信息檢索中用來(lái)表示查詢(query)和文檔。向量空間模型己經(jīng)被證明同樣可以用在文本分類中用于分類文本的表示。用這種表示方法,每個(gè)文本d都可以表示為由一個(gè)一個(gè)"對(duì)"(pair)表示成的向量<formula>formula see original document page 10</formula>其中,L ),"""是對(duì)應(yīng)第工個(gè)特征的"對(duì)",t表示特征的編號(hào), 表示特征的權(quán)重,n是整個(gè)特征集合的大小,也就是特征的個(gè)數(shù)。(2) 采用tf * idf計(jì)算特征的權(quán)重。權(quán)重把詞頻和詞的反比文 檔頻率的乘積對(duì)詞賦于權(quán)重。如下式其中,^V表示整個(gè)數(shù)據(jù)集的文檔數(shù),加'表示在整個(gè)數(shù)據(jù)集包含文本特征/i的文檔數(shù)。該方法基于兩個(gè)假設(shè)特征在單個(gè)文本中出現(xiàn)次數(shù)越多,越重要;特 -征在越多的文本中出現(xiàn),越不重要。在上式中,當(dāng)yV^77J'時(shí),特征的idf值為 0,導(dǎo)致權(quán)重為0。在小數(shù)據(jù)集上, 一些高頻特征會(huì)發(fā)生這種情況。因此避免特 征的權(quán)重為0,通常需要進(jìn)行平滑,如下式所示3j7f :二 ( t房+1) 氺~ (#+(3)特征選取在給定候選特征集合中選擇某一最優(yōu)子集,不僅可以對(duì)高維的空間進(jìn)行降維,并且可以消除噪音數(shù)據(jù)的影響。本發(fā)明中使用的是基于文檔頻度(DF)的特征選取方法。 一個(gè)特征的文檔頻率指的是包含這個(gè)特征的文檔 的數(shù)據(jù)。這種特征選取方法針對(duì)每個(gè)特征計(jì)算包含這個(gè)特征的文檔的數(shù)目,然-后去除文檔頻度低于某個(gè)預(yù)先給定閾值的特征。參照附圖5的基本過(guò)程主要分為兩部分 一是對(duì)文本關(guān)系的相似度按由大 到小排序輸出,具體采用哈希排序的方法。如考慮排序效率,也可將文本關(guān)系 相似度(0 1的數(shù)值)劃分成不同部分分別進(jìn)行排序再合并。二是對(duì)排序的關(guān)系 序列進(jìn)行遍歷合并的過(guò)程。該過(guò)程主要通過(guò)對(duì)排序序列嚴(yán)格按照由大到小進(jìn)行 遍歷,在此順序中如果兩個(gè)文本都是首次出現(xiàn)(第一關(guān)系),則將兩個(gè)文本關(guān)系 進(jìn)行合并,否則判斷該關(guān)系是否為當(dāng)前兩個(gè)文本的最小相似度,是則將改關(guān)系 輸出到臨時(shí)關(guān)系序列中,否則刪除。 一次遍歷結(jié)束后將臨時(shí)關(guān)系序列更新到原-關(guān)系文件中,并重復(fù)同樣遍歷操作,直到關(guān)系文件為空。關(guān)系選擇和聚類部件的主要過(guò)程可以參考圖5。首先選取大于給定的閾值的 關(guān)系計(jì)算結(jié)果,并采用排序方法對(duì)其進(jìn)行排序輸出。然后從排序文件中依次選 取具有第一關(guān)系的文檔進(jìn)行合并,所謂第一關(guān)系即在一次迭代中按照排序順序 第一次被記錄的兩個(gè)文檔關(guān)系。合并后通過(guò)記數(shù)器,只保留新生成的類與其他 類別在排序文件中的最后一個(gè)記錄。以此不斷合并,直到排序關(guān)系文件中的記 錄為空。
權(quán)利要求
1、一種大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),其特征在于方法的主要步驟包括對(duì)輸入文本集的預(yù)處理,生成文本集的倒排索引和特征向量;采用檢索技術(shù)檢索每一文檔的候選關(guān)系集合;利用關(guān)系計(jì)算方法對(duì)有候選關(guān)系的文檔進(jìn)行關(guān)系計(jì)算;排序輸出大于一定閾值的計(jì)算結(jié)果;聚類算法再依照排序結(jié)果,反復(fù)迭代合并具有第一直接關(guān)系的文本對(duì),最終達(dá)到對(duì)文本集合的聚類輸出。
2、 根據(jù)權(quán)利要求1所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法設(shè)計(jì)的聚類系統(tǒng), 包括一候選分析器、關(guān)系生成器、關(guān)系選取和聚類部件,其特征在于聚類的 基本過(guò)程,首先每個(gè)樣本點(diǎn)都作為一個(gè)簇,通過(guò)檢索技術(shù)為每個(gè)樣本挑選出候 選的具有聯(lián)系的候選點(diǎn)集合,而后利用關(guān)系生成器計(jì)算樣本與候選關(guān)系樣本間 的關(guān)系,并按遞增/遞減順序輸出到外部存儲(chǔ)空間,然后在關(guān)系選取和聚類部件 的控制下在外部存儲(chǔ)中反復(fù)地對(duì)樣本關(guān)系文件進(jìn)行刪除合并,直到關(guān)系文件為 空。
3、根據(jù)權(quán)利要求1所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),其特征 在于基于文本檢索技術(shù)的樣本關(guān)系候選計(jì)算方法,該方法通過(guò)對(duì)描述數(shù)據(jù)的 特征建立倒排索引,然后對(duì)于每一樣本都檢索出與其有共同特征的樣本作為候 選樣本集合;聚類是一種消耗大量存儲(chǔ)器和處理器資源的方法,因?yàn)槊總€(gè)樣本 必須和其它樣本進(jìn)行逐一比較,以便識(shí)別出樣本間的類別關(guān)系;利用高效的倒 排檢索技術(shù)可以最大程度地減少樣本關(guān)系計(jì)算中所占用的存儲(chǔ)器和處理器資 源;這種過(guò)濾的過(guò)程可被稱為篩選, 一些傳統(tǒng)聚類方法都有利用篩選,但是本 發(fā)明中基于檢索技術(shù)的篩選尤其有效。
4、根據(jù)權(quán)利要求1和3所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),其 特征在于當(dāng)所有樣本計(jì)算出候選關(guān)系序列后,便需要計(jì)算樣本與樣本間的關(guān) 系,這里稱之為距離或相似度;這個(gè)距離或相似度的值可以衡量?jī)蓚€(gè)樣本的相 似程度,是諸衡量?jī)蓚€(gè)具有一定數(shù)量的特征和權(quán)值的數(shù)據(jù)的相似程度的方法或 組合;各樣本間的距離或相似度通過(guò)一定閾值加以控制,如果距離/相似度低于/高于所對(duì)應(yīng)的閾值,則這個(gè)關(guān)系則被按升序或降序保存到關(guān)系文件中;這種按 順序保存的樣本關(guān)系可以減小其后的聚類中合并和選取的復(fù)雜度,減小磁盤交 互帶來(lái)的時(shí)間開(kāi)銷。
5、根據(jù)權(quán)利要求1和3所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),其特征在于通過(guò)排序的關(guān)系文件進(jìn)行外部聚類的方法,該方法每次從存儲(chǔ)于外 存的關(guān)系文件依次合并具有最先關(guān)系的樣本,而后在合并的基礎(chǔ)對(duì)現(xiàn)有關(guān)系進(jìn)行裁剪;當(dāng)關(guān)系文件為空時(shí)聚類過(guò)程結(jié)束,并將合并樣本集合作為結(jié)果進(jìn)行輸出。
全文摘要
一種應(yīng)用于信息技術(shù)領(lǐng)域中的一種大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),設(shè)計(jì)的聚類系統(tǒng),包括一候選分析器、關(guān)系生成器、關(guān)系選取和聚類部件,每個(gè)樣本點(diǎn)都作為一個(gè)簇,通過(guò)檢索技術(shù)為每個(gè)樣本挑選出候選的具有聯(lián)系的候選點(diǎn)集合,利用關(guān)系生成器計(jì)算樣本與候選關(guān)系樣本間的關(guān)系,按遞增/遞減順序輸出到外部存儲(chǔ)空間;方法的主要步驟包括對(duì)輸入文本集的預(yù)處理,生成文本集的倒排索引和特征向量;采用檢索技術(shù)檢索每一文檔的候選關(guān)系集合;利用關(guān)系計(jì)算方法對(duì)有候選關(guān)系的文檔進(jìn)行關(guān)系計(jì)算;排序輸出大于一定閾值的計(jì)算結(jié)果;聚類算法再依照排序結(jié)果,反復(fù)迭代合并具有第一直接關(guān)系的文本對(duì),最終達(dá)到對(duì)文本集合的聚類輸出。該裝置構(gòu)思新穎科學(xué)、聚類過(guò)程占用空間小、容量大的外部存儲(chǔ)器,對(duì)處理過(guò)程進(jìn)行分化處理。
文檔編號(hào)G06F17/30GK101308496SQ20081001214
公開(kāi)日2008年11月19日 申請(qǐng)日期2008年7月4日 優(yōu)先權(quán)日2008年7月4日
發(fā)明者周俏麗, 鐸 季, 尹寶生, 張桂平, 羽 白, 苗雪雷, 蔡?hào)|風(fēng) 申請(qǐng)人:沈陽(yáng)格微軟件有限責(zé)任公司