大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)的制作方法

文檔序號(hào)：6458454閱讀：195來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息技術(shù)領(lǐng)域中一種利用外部存儲(chǔ)器進(jìn)行大規(guī)模文本數(shù)據(jù)聚類的方法及實(shí)現(xiàn)，基于檢索技術(shù)的外部文檔聚類方法，克服現(xiàn)有方法在處理問(wèn)題規(guī) 模和時(shí)間上的不足的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)。 -
背景技術(shù)：
近10年，以信息為基礎(chǔ)的組織或知識(shí)型企業(yè)煥發(fā)勃勃生機(jī)，創(chuàng)造和傳播知識(shí)己經(jīng)成為檢驗(yàn)企業(yè)核心能力的關(guān)鍵要素，知識(shí)的創(chuàng)造和應(yīng)用能力成為不折不扣的企業(yè)核心競(jìng)爭(zhēng)力的強(qiáng)力支撐。知識(shí)除儲(chǔ)存于員工的大腦中外，還根植于企業(yè)長(zhǎng)期積累的各種文檔，以及其他應(yīng)用系統(tǒng)的數(shù)據(jù)當(dāng)中。如何在企業(yè)龐雜的信息數(shù)據(jù)中挖掘出知識(shí)，則首先需要將數(shù)據(jù)歸類分析，本發(fā)明則是其中一種歸類方法——聚類。聚類是按照事物的某些屬性、特征把事物聚集成類，使得類間的相似性最小，類內(nèi)的相似性盡量大。由于聚類是一種無(wú)指導(dǎo)的學(xué)習(xí)方法，無(wú)需 -耗費(fèi)大量的人力、物力，因此文本的自動(dòng)聚類技術(shù)已成為最有效的突破信息處理的最主要手段。例如，基于聚類技術(shù)的搜索引擎，通過(guò)聚類技術(shù)可以對(duì)每個(gè) 用戶的檢索結(jié)果進(jìn)行歸類，當(dāng)用戶檢索"軟件"時(shí)，可以將結(jié)果歸類為"病毒"、 "辦公"等類別，這樣用戶可以更系統(tǒng)地掌握、分析檢索結(jié)果。聚類能夠消耗大量存儲(chǔ)器和處理器資源，因?yàn)槊總€(gè)數(shù)據(jù)必須和其它數(shù)據(jù)逐一比較，以便識(shí)別數(shù)據(jù)間的類別關(guān)系。然而隨著數(shù)據(jù)的不斷積累，處理數(shù)據(jù)的規(guī)模成為了現(xiàn)有的聚類系統(tǒng)的最主要問(wèn)題。參考文獻(xiàn)中有涉及一些處理規(guī)模較大的方法，如CURE和CURD， CURE是一種自底向上的層次聚類算法，首先將輸 -入的每個(gè)點(diǎn)作為一個(gè)聚類，然后合并相似的聚類，直到聚類的個(gè)數(shù)為k時(shí)為止。在CURE中指出，基于中心點(diǎn)的方法和所有的點(diǎn)的距離計(jì)算方法都不適合非球形或任意形狀的聚類，因此CURE采用了折衷的方法，即用固定數(shù)目的點(diǎn)表示一個(gè) 聚類，從而提高了算法挖掘任意形狀的聚類的能力。CURE算法的時(shí)間復(fù)雜性為 0(n*n)(低維數(shù)據(jù))和0(r^r^logn)(高維數(shù)據(jù))，算法在處理大量數(shù)據(jù)時(shí)必須基于抽樣、劃分等技術(shù)。CURD算法受CURE算法的啟發(fā)，不同的是采用了密度的方法屏蔽異常數(shù)據(jù)(噪音)對(duì)算法的影響，具有和K-MEANS算法相同的時(shí)間復(fù)雜性，效率較高。由此可以看到現(xiàn)有的方法，只是在通過(guò)一種縮減的手段，利用少數(shù)的特點(diǎn) 來(lái)代替大規(guī)模數(shù)據(jù)。但往往為了保證系統(tǒng)的性能，其選擇的代表點(diǎn)不能過(guò)少，因此從本質(zhì)上上述方法還是沒(méi)有解決由于處理規(guī)模的空間復(fù)雜度而造成的不可計(jì)算問(wèn)題。因此研制一種大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)是國(guó)內(nèi)外急需 -解決的新課題。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種新的利用外存進(jìn)行聚類方法，在確保空間復(fù)雜度較低的前提下，利用最少的內(nèi)、外存交互，實(shí)現(xiàn)一個(gè)處理數(shù)據(jù)規(guī)模大，執(zhí)行效率高的聚類方法，對(duì)海量的雜亂的非結(jié)構(gòu)化數(shù)據(jù)，進(jìn)行有用資源正確提取，標(biāo)明屬性，抽象特征，區(qū)分類別，使資源重新有序化，并實(shí)現(xiàn)跨來(lái)源、跨類別的廣泛關(guān)聯(lián)的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)。本發(fā)明的目的是這樣實(shí)現(xiàn)的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)，方法'的主要?dú)i驟包括對(duì)輸入文本集的預(yù)處理，生成文本集的倒排索引和特征向量；采用檢索技術(shù)檢索每一文檔的候選關(guān)系集合；利用關(guān)系計(jì)算方法對(duì)有候選關(guān)系的文檔進(jìn)行關(guān)系計(jì)算；排序輸出大于一定閾值的計(jì)算結(jié)果；聚類算法再依照排序結(jié)果，反復(fù)迭代合并具有第一直接關(guān)系的文本對(duì)，最終達(dá)到對(duì)文本集合的聚類輸出；大規(guī)模文本數(shù)據(jù)的外部聚類方法設(shè)計(jì)的聚類系統(tǒng)，包括一候選分析器、關(guān)系生成器、關(guān)系選取和聚類部件，聚類的基本過(guò)程，首先每個(gè)樣本點(diǎn)都作為一個(gè)簇，通過(guò)檢索技術(shù)為每個(gè)樣本挑選出候選的具有聯(lián)系的候選點(diǎn)集合，而后利'用關(guān)系生成器計(jì)算樣本與候選關(guān)系樣本間的關(guān)系，并按遞增/遞減順序輸出到外部存儲(chǔ)空間，然后在關(guān)系選取和聚類部件的控制下在外部存儲(chǔ)中反復(fù)地對(duì)樣本關(guān)系文件進(jìn)行刪除合并，直到關(guān)系文件為空；基于文本檢索技術(shù)的樣本關(guān)系候選計(jì)算方法，該方法通過(guò)對(duì)描述數(shù)據(jù)的特征建立倒排索引，然后對(duì)于每一樣本 '都檢索出與其有共同特征的樣本作為候選樣本集合；聚類是一種消耗大量存儲(chǔ) 器和處理器資源的方法，因?yàn)槊總€(gè)樣本必須和其它樣本進(jìn)行逐一比較，以便識(shí) 別出樣本間的類別關(guān)系；利用高效的倒排檢索技術(shù)可以最大程度地減少樣本關(guān) 系計(jì)算中所占用的存儲(chǔ)器和處理器資源；這種過(guò)濾的過(guò)程可被稱為篩選，一些傳統(tǒng)聚類方法都有利用篩選，但是本發(fā)明中基于檢索技術(shù)的篩選尤其有效；當(dāng) 所有樣本計(jì)算出候選關(guān)系序列后，便需要計(jì)算樣本與樣本間的關(guān)系，這里稱之為距離或相似度；這個(gè)距離或相似度的值可以衡量?jī)蓚€(gè)樣本的相似程度，是諸 '衡量?jī)蓚€(gè)具有一定數(shù)量的特征和權(quán)值的數(shù)據(jù)的相似程度的方法或組合；各樣本間的距離或相似度通過(guò)一定閾值加以控制，如果距離/相似度低于/高于所對(duì)應(yīng) 的閾值，則這個(gè)關(guān)系則被按升序或降序保存到關(guān)系文件中；這種按順序保存的樣本關(guān)系可以減小其后的聚類中合并和選取的復(fù)雜度，減小磁盤交互帶來(lái)的時(shí) 間開(kāi)銷；通過(guò)排序的關(guān)系文件進(jìn)行外部聚類的方法，該方法每次從存儲(chǔ)于外存的關(guān)系文件依次合并具有最先關(guān)系的樣本，而后在合并的基礎(chǔ)對(duì)現(xiàn)有關(guān)系進(jìn)行裁剪；當(dāng)關(guān)系文件為空時(shí)聚類過(guò)程結(jié)束，并將合并樣本集合作為結(jié)果進(jìn)行輸出。本發(fā)明的要點(diǎn)在-f它的聚類方法及系統(tǒng)。iri:作原理足，采用自然語(yǔ)言處理技術(shù)對(duì)文本進(jìn)行處理生成可計(jì)算的數(shù)據(jù)格式，并存儲(chǔ)于計(jì)算的外部?jī)?chǔ)存器中構(gòu)成文檔庫(kù)，并通過(guò)檢索技術(shù)建立索引庫(kù)。對(duì)于每一文本都通過(guò)篩選器，檢索出與其有共同特征的樣本作為候選樣本集合，縮小文本間相似/相關(guān)度計(jì)算的空間，原始的計(jì)算頻度由Wn/2，變化為n*k，其中k《n/2。在文本相似度計(jì)算的候選空間中可以通過(guò)現(xiàn)有的文本相似度計(jì)算方法對(duì)文本間的關(guān)系進(jìn)行量化，并保證其關(guān)系量化的數(shù)值在0到1之間。同時(shí)為了確保排序算法的時(shí)間復(fù)雜度，根據(jù)數(shù)據(jù)規(guī)模大小在設(shè)定不同區(qū)間m (m〉0)將文本關(guān)系劃分到不同的外部關(guān)系文件中。同時(shí)采用哈希排序的方法，對(duì)每個(gè)外部關(guān)系文件進(jìn)行遞增排序，并合并存儲(chǔ)于外部關(guān)系文件中。最后針對(duì)該排序的數(shù)據(jù)關(guān)系文件，采用本發(fā)明的聚類算法，耗費(fèi)最少的I/O交互，并且占用較小的內(nèi)存空間，實(shí)現(xiàn)數(shù)據(jù)的聚類處理。大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)與現(xiàn)有技術(shù)相比，具有構(gòu)思新穎科學(xué)，聚類過(guò)程占用空間小，執(zhí)行效率高，適用于大規(guī)模文檔的聚類，使用成本低、容量大的外部存儲(chǔ)器，對(duì)處理過(guò)程進(jìn)行分化處理等優(yōu)點(diǎn)，將廣泛地應(yīng)用于信息技術(shù)領(lǐng)域中。

下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。圖l是本發(fā)明的一個(gè)聚類過(guò)程說(shuō)明原理圖。圖2是本發(fā)明的外部聚類算法每次的數(shù)據(jù)合并流程原理圖。圖3是本發(fā)明的聚類系統(tǒng)中計(jì)算兩個(gè)樣本集合的空間距離說(shuō)明原理圖。圖4是本發(fā)明的采用外部存儲(chǔ)的聚類系統(tǒng)原理圖。圖5關(guān)系選擇和聚類部件的主要過(guò)程原理圖。
具體實(shí)施例方式參照附圖，大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)，方法的主要步驟包括對(duì)輸入文本集的預(yù)處理，生成文本集的倒排索引和特征向量；采用檢索技術(shù)檢索每一文檔的候選關(guān)系集合；利用關(guān)系計(jì)算方法對(duì)有候選關(guān)系的文檔進(jìn)行關(guān)系計(jì)算；排序輸出大于一定閾值的計(jì)算結(jié)果；聚類算法再依照排序結(jié)果，反復(fù)迭代合并具有第一直接關(guān)系的文本對(duì)，最終達(dá)到對(duì)文本集合的聚類輸出；大規(guī)模文本數(shù)據(jù)的外部聚類方法設(shè)計(jì)的聚類系統(tǒng)，包括一候選分析器、關(guān)系生成器、關(guān)系選取和聚類部件，聚類的基本過(guò)程，首先每個(gè)樣本點(diǎn)都作為一個(gè)簇，通過(guò) 檢索技術(shù)為每個(gè)樣本挑選出候選的具有聯(lián)系的候選點(diǎn)集合，而后利用關(guān)系生成器計(jì)算樣本與候選關(guān)系樣本間的關(guān)系，并按遞增/遞減順序輸出到外部存儲(chǔ)空間，然后在關(guān)系選取和聚類部件的控制下在外部存儲(chǔ)中反復(fù)地對(duì)樣本關(guān)系文件進(jìn)行刪除合并，直到關(guān)系文件為空；基于文本檢索技術(shù)的樣本關(guān)系候選計(jì)算方法，該方法通過(guò)對(duì)描述數(shù)據(jù)的特征建立倒排索引，然后對(duì)于每一樣本都檢索出與其有共同特征的樣本作為候選樣本集合；聚類是一種消耗大量存儲(chǔ)器和處理器資源的方法，因?yàn)槊總€(gè)樣本必須和其它樣本進(jìn)行逐一比較，以便識(shí)別出樣本間的類別關(guān)系；利用高效的倒排檢索技術(shù)可以最大程度地減少樣本關(guān)系計(jì)算中所占用的存儲(chǔ)器和處理器資源；這種過(guò)濾的過(guò)程可被稱為篩選，一些傳統(tǒng)聚類方法都有利用篩選，但是本發(fā)明中基于檢索技術(shù)的篩選尤其有效；當(dāng)所有樣本計(jì)算出候選關(guān)系序列后，便需要計(jì)算樣本與樣本間的關(guān)系，這里稱之為距離或相似度；這個(gè)距離或相似度的值可以衡量?jī)蓚€(gè)樣本的相似程度，是諸衡量?jī)蓚€(gè) 具有一定數(shù)量的特征和權(quán)值的數(shù)據(jù)的相似程度的方法或組合；各樣本間的距離或相似度通過(guò)一定閾值加以控制，如果距離/相似度低于/高于所對(duì)應(yīng)的閾值，則這個(gè)關(guān)系則被按升序或降序保存到關(guān)系文件中；這種按順序保存的樣本關(guān)系可以減小其后的聚類中合并和選取的復(fù)雜度，減小磁盤交互帶來(lái)的時(shí)間開(kāi)銷；通過(guò)排序的關(guān)系文件進(jìn)行外部聚類的方法，該方法每次從存儲(chǔ)于外存的關(guān)系文件依次合并具有最先關(guān)系的樣本，而后在合并的基礎(chǔ)對(duì)現(xiàn)有關(guān)系進(jìn)行裁剪；當(dāng) 關(guān)系文件為空時(shí)聚類過(guò)程結(jié)束，并將合并樣本集合作為結(jié)果進(jìn)行輸出。對(duì)本發(fā)明的實(shí)施加以詳細(xì)描述，參照附圖1描述了本發(fā)明中各層次模型的組成，候選分析器4、關(guān)系生成器5、關(guān)系選取和聚類部件ll。其中關(guān)系生成器的主要功能是計(jì)算數(shù)據(jù)間相互關(guān)系，是聚類算法的基礎(chǔ)。其內(nèi)部還包括文本處理8和關(guān)系計(jì)算9兩部分，文本處理部分是將給定的文本集合生成可計(jì)算的模型，如特征向量等；關(guān)系計(jì)算部分主要是在對(duì)文本進(jìn)行特征表示的基礎(chǔ)上計(jì) 算兩個(gè)文本的相似度，如余弦?jiàn)A角等。由于文本的相似度計(jì)算時(shí)間復(fù)雜度較高，因此需要與候選分析器結(jié)合。候選分析器是關(guān)系生成器的補(bǔ)充和改善，主要通過(guò)高效的檢索器6將特征表示后的文本進(jìn)行檢索處理，粗略地為每個(gè)文本選擇相關(guān)數(shù)據(jù)集。由此，關(guān)系生成器在候選分析器給定的候選集內(nèi)計(jì)算出每對(duì) 文木數(shù)據(jù)間的相似度，而后需要采用關(guān)系選取和聚類部件對(duì)數(shù)據(jù)集合進(jìn)行劃分。在關(guān)系選取和聚類部件中主要包括關(guān)系排序12和聚類13兩個(gè)部分，排序主要是將文本數(shù)據(jù)間的相似度按照從大到小的順序進(jìn)行排序，由此可以使聚類算法有指導(dǎo)地發(fā)現(xiàn)最相關(guān)的文本數(shù)據(jù)，并進(jìn)行合并處理。聚類則是對(duì)排序的文本數(shù) 據(jù)相似度進(jìn)行遍歷從最大相似度的文本進(jìn)行合并，最終對(duì)數(shù)據(jù)集合實(shí)現(xiàn)聚類劃分的目的。' 參照附圖2是發(fā)明的一個(gè)聚類過(guò)程分步說(shuō)明圖，本發(fā)明是通過(guò)不斷合并最終實(shí)現(xiàn)數(shù)據(jù)聚類的過(guò)程。但在每歩的合并過(guò)程中于傳統(tǒng)算法不同，每歩可同時(shí) 合并多個(gè)具有第一候選的中間類(合并過(guò)程中的小類，并非最終的聚類結(jié)果)。這樣可提高聚類的性能。參照附圖3是本發(fā)明計(jì)算兩個(gè)類與類間距離的方法，當(dāng)聚類不斷進(jìn)行，文本被不斷合并到中間類中，進(jìn)而涉及如何計(jì)算兩個(gè)中間類的方法，本發(fā)明中采用傳統(tǒng)的最長(zhǎng)距離方法進(jìn)行計(jì)算，即如圖所示，兩個(gè)類間的距離是兩個(gè)類中所有樣本點(diǎn)間最長(zhǎng)的距離。' 參照附圖4是發(fā)明的一個(gè)聚類過(guò)程說(shuō)明圖。本系統(tǒng)通過(guò)特征選擇和特征的權(quán)重計(jì)算將數(shù)據(jù)樣本映射成為一個(gè)多維空間的數(shù)據(jù)點(diǎn)，如17，再通過(guò)任一空間距離計(jì)算的方法計(jì)算出兩兩數(shù)據(jù)點(diǎn)的距離18，圖4中沒(méi)有線相連的數(shù)據(jù)點(diǎn)(如， 17和18之間)認(rèn)為距離無(wú)窮大。當(dāng)構(gòu)建完數(shù)據(jù)樣本的空間關(guān)系圖18后，系統(tǒng) 每次選取距離最短的樣本集進(jìn)行合并，如20。合并完成后，更新其余樣本與合并后新的樣本集合的距離，生成新的數(shù)據(jù)關(guān)系圖。參照附圖5是本發(fā)明的關(guān)系選擇和聚類部件的主要過(guò)程原理圖。系統(tǒng)首先從文本關(guān)系文件中讀取文本間的相似度22，并通過(guò)部件23按相似度的大小將當(dāng)'前讀入的文本關(guān)系按從大到小的順序排序輸出，直到滿足條件24后進(jìn)行下一步操作。排序后系統(tǒng)通過(guò)25從文件中讀入文本關(guān)系，在通過(guò)條件26判斷當(dāng)前關(guān) 系是否滿足第一合并條件，滿足則進(jìn)行合并27，不滿足則判斷其是否具有輸出條件29，是則將K-輸出到臨時(shí)文件中28，當(dāng)條件30(關(guān)系文件中最后一個(gè)關(guān)系)被滿足后一次合并結(jié)束，而后需要判斷臨時(shí)文件中是否還有記錄31，有則更新關(guān)系列表32，并跳轉(zhuǎn)到25步繼續(xù)進(jìn)行。如果臨時(shí)列表中無(wú)記錄則程序推出輸出聚類結(jié)果33。首先結(jié)合附圖具休說(shuō)明本發(fā)明外部聚類系統(tǒng)的結(jié)構(gòu)組成及其處理數(shù)據(jù)流的操作歩驟參見(jiàn)圖4，本發(fā)明是一種采用外部存儲(chǔ)的聚類系統(tǒng)，其中包括:候選分析器、關(guān)系生成器、關(guān)系選取和聚類部件。其中文本處理和關(guān)系計(jì)算與現(xiàn)有的計(jì)算方法相同。其創(chuàng)新之處在于增設(shè)一個(gè)基于檢索的候選分析器，并通過(guò)關(guān)系選取和聚類算法構(gòu)成一種新的基于外部存儲(chǔ)器的聚類系統(tǒng)。圖中細(xì)實(shí)線箭頭表示控制信號(hào)流動(dòng)方向，中空箭頭表不數(shù)據(jù)流動(dòng)方向。重點(diǎn)對(duì)本發(fā)明系統(tǒng)里的各個(gè)模塊組成及功能作進(jìn)一步的介紹1候選分析器是由一臺(tái)微機(jī)或?qū)Ｓ肞C機(jī)或者專用處理器芯片和一個(gè)具有檢索功能的程序包組成.該部件的功能是通過(guò)索引文件對(duì)每篇文檔進(jìn)行檢索，查找出與每篇文檔具有相同關(guān)鍵詞的候選集合，并將結(jié)果存儲(chǔ)于存儲(chǔ)器中。關(guān)系生成器5是由文本處理模塊8和關(guān)系計(jì)算模塊9組成。其中文本處理模塊主要是對(duì)文本進(jìn)行特征選取和權(quán)重計(jì)算，具體方法如下(1) 采用向量空間模型(Vector Space Model, VSM)對(duì)文本進(jìn)行表示。這種方法最開(kāi)始被用于信息檢索中用來(lái)表示查詢(query)和文檔。向量空間模型己經(jīng)被證明同樣可以用在文本分類中用于分類文本的表示。用這種表示方法，每個(gè)文本d都可以表示為由一個(gè)一個(gè)"對(duì)"(pair)表示成的向量<formula>formula see original document page 10</formula>其中，L )，"""是對(duì)應(yīng)第工個(gè)特征的"對(duì)"，t表示特征的編號(hào)，表示特征的權(quán)重，n是整個(gè)特征集合的大小，也就是特征的個(gè)數(shù)。(2) 采用tf * idf計(jì)算特征的權(quán)重。權(quán)重把詞頻和詞的反比文檔頻率的乘積對(duì)詞賦于權(quán)重。如下式其中，^V表示整個(gè)數(shù)據(jù)集的文檔數(shù)，加'表示在整個(gè)數(shù)據(jù)集包含文本特征/i的文檔數(shù)。該方法基于兩個(gè)假設(shè)特征在單個(gè)文本中出現(xiàn)次數(shù)越多，越重要；特 -征在越多的文本中出現(xiàn)，越不重要。在上式中，當(dāng)yV^77J'時(shí)，特征的idf值為 0，導(dǎo)致權(quán)重為0。在小數(shù)據(jù)集上，一些高頻特征會(huì)發(fā)生這種情況。因此避免特征的權(quán)重為0，通常需要進(jìn)行平滑，如下式所示3j7f :二 ( t房+1) 氺~ (#+(3)特征選取在給定候選特征集合中選擇某一最優(yōu)子集，不僅可以對(duì)高維的空間進(jìn)行降維，并且可以消除噪音數(shù)據(jù)的影響。本發(fā)明中使用的是基于文檔頻度(DF)的特征選取方法。一個(gè)特征的文檔頻率指的是包含這個(gè)特征的文檔的數(shù)據(jù)。這種特征選取方法針對(duì)每個(gè)特征計(jì)算包含這個(gè)特征的文檔的數(shù)目，然-后去除文檔頻度低于某個(gè)預(yù)先給定閾值的特征。參照附圖5的基本過(guò)程主要分為兩部分一是對(duì)文本關(guān)系的相似度按由大到小排序輸出，具體采用哈希排序的方法。如考慮排序效率，也可將文本關(guān)系相似度(0 1的數(shù)值)劃分成不同部分分別進(jìn)行排序再合并。二是對(duì)排序的關(guān)系序列進(jìn)行遍歷合并的過(guò)程。該過(guò)程主要通過(guò)對(duì)排序序列嚴(yán)格按照由大到小進(jìn)行遍歷，在此順序中如果兩個(gè)文本都是首次出現(xiàn)(第一關(guān)系)，則將兩個(gè)文本關(guān)系進(jìn)行合并，否則判斷該關(guān)系是否為當(dāng)前兩個(gè)文本的最小相似度，是則將改關(guān)系輸出到臨時(shí)關(guān)系序列中，否則刪除。一次遍歷結(jié)束后將臨時(shí)關(guān)系序列更新到原-關(guān)系文件中，并重復(fù)同樣遍歷操作，直到關(guān)系文件為空。關(guān)系選擇和聚類部件的主要過(guò)程可以參考圖5。首先選取大于給定的閾值的關(guān)系計(jì)算結(jié)果，并采用排序方法對(duì)其進(jìn)行排序輸出。然后從排序文件中依次選取具有第一關(guān)系的文檔進(jìn)行合并，所謂第一關(guān)系即在一次迭代中按照排序順序第一次被記錄的兩個(gè)文檔關(guān)系。合并后通過(guò)記數(shù)器，只保留新生成的類與其他類別在排序文件中的最后一個(gè)記錄。以此不斷合并，直到排序關(guān)系文件中的記錄為空。
權(quán)利要求
1、一種大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)，其特征在于方法的主要步驟包括對(duì)輸入文本集的預(yù)處理，生成文本集的倒排索引和特征向量；采用檢索技術(shù)檢索每一文檔的候選關(guān)系集合；利用關(guān)系計(jì)算方法對(duì)有候選關(guān)系的文檔進(jìn)行關(guān)系計(jì)算；排序輸出大于一定閾值的計(jì)算結(jié)果；聚類算法再依照排序結(jié)果，反復(fù)迭代合并具有第一直接關(guān)系的文本對(duì)，最終達(dá)到對(duì)文本集合的聚類輸出。
2、根據(jù)權(quán)利要求1所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法設(shè)計(jì)的聚類系統(tǒng)，包括一候選分析器、關(guān)系生成器、關(guān)系選取和聚類部件，其特征在于聚類的基本過(guò)程，首先每個(gè)樣本點(diǎn)都作為一個(gè)簇，通過(guò)檢索技術(shù)為每個(gè)樣本挑選出候選的具有聯(lián)系的候選點(diǎn)集合，而后利用關(guān)系生成器計(jì)算樣本與候選關(guān)系樣本間的關(guān)系，并按遞增/遞減順序輸出到外部存儲(chǔ)空間，然后在關(guān)系選取和聚類部件的控制下在外部存儲(chǔ)中反復(fù)地對(duì)樣本關(guān)系文件進(jìn)行刪除合并，直到關(guān)系文件為空。
3、根據(jù)權(quán)利要求1所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)，其特征在于基于文本檢索技術(shù)的樣本關(guān)系候選計(jì)算方法，該方法通過(guò)對(duì)描述數(shù)據(jù)的特征建立倒排索引，然后對(duì)于每一樣本都檢索出與其有共同特征的樣本作為候選樣本集合；聚類是一種消耗大量存儲(chǔ)器和處理器資源的方法，因?yàn)槊總€(gè)樣本必須和其它樣本進(jìn)行逐一比較，以便識(shí)別出樣本間的類別關(guān)系；利用高效的倒排檢索技術(shù)可以最大程度地減少樣本關(guān)系計(jì)算中所占用的存儲(chǔ)器和處理器資源；這種過(guò)濾的過(guò)程可被稱為篩選，一些傳統(tǒng)聚類方法都有利用篩選，但是本發(fā)明中基于檢索技術(shù)的篩選尤其有效。
4、根據(jù)權(quán)利要求1和3所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)，其特征在于當(dāng)所有樣本計(jì)算出候選關(guān)系序列后，便需要計(jì)算樣本與樣本間的關(guān) 系，這里稱之為距離或相似度；這個(gè)距離或相似度的值可以衡量?jī)蓚€(gè)樣本的相似程度，是諸衡量?jī)蓚€(gè)具有一定數(shù)量的特征和權(quán)值的數(shù)據(jù)的相似程度的方法或組合；各樣本間的距離或相似度通過(guò)一定閾值加以控制，如果距離/相似度低于/高于所對(duì)應(yīng)的閾值，則這個(gè)關(guān)系則被按升序或降序保存到關(guān)系文件中；這種按順序保存的樣本關(guān)系可以減小其后的聚類中合并和選取的復(fù)雜度，減小磁盤交互帶來(lái)的時(shí)間開(kāi)銷。
5、根據(jù)權(quán)利要求1和3所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)，其特征在于通過(guò)排序的關(guān)系文件進(jìn)行外部聚類的方法，該方法每次從存儲(chǔ)于外存的關(guān)系文件依次合并具有最先關(guān)系的樣本，而后在合并的基礎(chǔ)對(duì)現(xiàn)有關(guān)系進(jìn)行裁剪；當(dāng)關(guān)系文件為空時(shí)聚類過(guò)程結(jié)束，并將合并樣本集合作為結(jié)果進(jìn)行輸出。
全文摘要
一種應(yīng)用于信息技術(shù)領(lǐng)域中的一種大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)，設(shè)計(jì)的聚類系統(tǒng)，包括一候選分析器、關(guān)系生成器、關(guān)系選取和聚類部件，每個(gè)樣本點(diǎn)都作為一個(gè)簇，通過(guò)檢索技術(shù)為每個(gè)樣本挑選出候選的具有聯(lián)系的候選點(diǎn)集合，利用關(guān)系生成器計(jì)算樣本與候選關(guān)系樣本間的關(guān)系，按遞增/遞減順序輸出到外部存儲(chǔ)空間；方法的主要步驟包括對(duì)輸入文本集的預(yù)處理，生成文本集的倒排索引和特征向量；采用檢索技術(shù)檢索每一文檔的候選關(guān)系集合；利用關(guān)系計(jì)算方法對(duì)有候選關(guān)系的文檔進(jìn)行關(guān)系計(jì)算；排序輸出大于一定閾值的計(jì)算結(jié)果；聚類算法再依照排序結(jié)果，反復(fù)迭代合并具有第一直接關(guān)系的文本對(duì)，最終達(dá)到對(duì)文本集合的聚類輸出。該裝置構(gòu)思新穎科學(xué)、聚類過(guò)程占用空間小、容量大的外部存儲(chǔ)器，對(duì)處理過(guò)程進(jìn)行分化處理。
文檔編號(hào)G06F17/30GK101308496SQ20081001214
公開(kāi)日2008年11月19日申請(qǐng)日期2008年7月4日優(yōu)先權(quán)日2008年7月4日
發(fā)明者周俏麗, 鐸季, 尹寶生, 張桂平, 羽白, 苗雪雷, 蔡?hào)|風(fēng) 申請(qǐng)人:沈陽(yáng)格微軟件有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：季鐸;蔡?hào)|風(fēng);張桂平;尹寶生;苗雪雷;周俏麗;白羽
技術(shù)所有人：沈陽(yáng)格微軟件有限責(zé)任公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本聚類相關(guān)技術(shù)

文本聚類算法相關(guān)技術(shù)

短文本聚類相關(guān)技術(shù)

文本聚類工具相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)的制作方法