專(zhuān)利名稱(chēng):一種分批聚類(lèi)方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聚類(lèi),尤其涉及一種分批聚類(lèi)方法和系統(tǒng)。
背景技術(shù):
隨著網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)上重復(fù)信息越來(lái)越多。如何對(duì)這些同類(lèi)網(wǎng)頁(yè)進(jìn)行區(qū)分就變的非常重要。對(duì)網(wǎng)頁(yè)的區(qū)分,通常采用聚類(lèi)的方法來(lái)實(shí)現(xiàn)?,F(xiàn)在通用的聚類(lèi)算法聚類(lèi)的效果都有各自的瓶頸和缺陷。傳統(tǒng)的聚類(lèi)分析計(jì)算方法主要有劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法,其中,劃分方法的代表算法有K-MEANS算法,層次方法的代表算法有 HAC(Hierarchical Agglomerative Clustering,層次凝聚聚類(lèi))算法。
傳統(tǒng)的聚類(lèi)方法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類(lèi)問(wèn)題。但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多問(wèn)題時(shí),現(xiàn)有的算法經(jīng)常失效,特別是對(duì)于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。因?yàn)閭鹘y(tǒng)聚類(lèi)方法在高維數(shù)據(jù)集中進(jìn)行聚類(lèi)時(shí),主要遇到兩個(gè)問(wèn)題。①高維數(shù)據(jù)集中存在大量無(wú)關(guān)的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數(shù)據(jù)較低維空間中數(shù)據(jù)分布要稀疏,其中數(shù)據(jù)間距離幾乎相等是普遍現(xiàn)象,而傳統(tǒng)聚類(lèi)方法是基于距離進(jìn)行聚類(lèi)的,因此在高維空間中無(wú)法基于距離來(lái)構(gòu)建簇。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種分批聚類(lèi)方法和系統(tǒng),通過(guò)對(duì)要聚類(lèi)的文檔進(jìn)行分批、聚類(lèi)、批聚類(lèi)結(jié)果的凝聚性處理、批聚類(lèi)結(jié)果的合并,達(dá)到提高聚類(lèi)性能的效果。根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種分批聚類(lèi)方法,其中,所述方法包括按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批;對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到每一批文檔的聚類(lèi)結(jié)果;對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理,得到每一批文檔的凝聚性處理結(jié)果;將除第一批文檔以外的每一批文檔的凝聚性處理結(jié)果中的每一類(lèi)與上一批文檔的凝聚性處理結(jié)果中的類(lèi)合并,得到所述要聚類(lèi)的文檔的分批聚類(lèi)結(jié)果。根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種分批聚類(lèi)系統(tǒng),其中,所述系統(tǒng)包括分批單元,其按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批;聚類(lèi)單元,其對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到每一批文檔的聚類(lèi)結(jié)果;第一處理單元,其對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理,得到每一批文檔的凝聚性處理結(jié)果;合并單元,其將除第一批文檔以外的每一批文檔的凝聚性處理結(jié)果中的每一類(lèi)與上一批文檔的凝聚性處理結(jié)果中的類(lèi)合并,得到所述要聚類(lèi)的文檔的分批聚類(lèi)結(jié)果。本發(fā)明實(shí)施例的有益效果在于通過(guò)對(duì)分批聚類(lèi)的結(jié)果進(jìn)行凝聚性處理,凝聚性處理后再合并,提高了聚類(lèi)的性能。通過(guò)將后續(xù)經(jīng)過(guò)凝聚性處理的文檔合并(添加)到已有的經(jīng)過(guò)凝聚性處理的聚類(lèi)結(jié)果當(dāng)中,實(shí)現(xiàn)了增量式的聚類(lèi)。參照后文的說(shuō)明和附圖,詳細(xì)公開(kāi)了本發(fā)明的特定實(shí)施方式,指明了本發(fā)明的原理可以被采用的方式。應(yīng)該理解,本發(fā)明的實(shí)施方式在范圍上并不因此受到限制。在所附權(quán)利要求的精神和條款的范圍內(nèi),本發(fā)明的實(shí)施方式包括許多改變、修改和等同。針對(duì)一種實(shí)施方式描述和/或示出的特征可以以相同或類(lèi)似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征相組合,或替代其它實(shí)施方式中的特征。應(yīng)該強(qiáng)調(diào),術(shù)語(yǔ)“包括/包含”在本文使用時(shí)指特征、整件、步驟或組件的存在,但并不排除一個(gè)或更多個(gè)其它特征、整件、步驟或組件的存在或附加。
所包括的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步的理解,其構(gòu)成了說(shuō)明書(shū)的一部分,例示了本發(fā)明的優(yōu)選實(shí)施方式,并與文字說(shuō)明一起用來(lái)解釋本發(fā)明的原理,其中對(duì)于相同的要素,始終用相同的附圖標(biāo)記來(lái)表示。在附圖中圖I是本發(fā)明一個(gè)實(shí)施例的分批聚類(lèi)方法的流程圖;圖2是圖I所示實(shí)施例中對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理的流程圖;圖3是圖2所示實(shí)施例中確定當(dāng)前批次文檔的每一個(gè)類(lèi)中的每個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性的流程圖;圖4是圖2所示實(shí)施例中確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性的流程圖;圖5是本發(fā)明另一個(gè)實(shí)施例的分批聚類(lèi)方法的流程圖;圖6是圖5所示實(shí)施例中對(duì)合并后的當(dāng)前批次文檔的每一類(lèi)文檔中除所述第一批文檔以外的每一個(gè)文檔進(jìn)行凝聚性處理的流程圖;圖7是圖6所示實(shí)施例中確定所述每一個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性的流程圖;圖8是圖6所示實(shí)施例中確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性的流程圖;圖9是本發(fā)明實(shí)施例的分批聚類(lèi)系統(tǒng)的組成示意圖。
具體實(shí)施例方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例和附圖,對(duì)本發(fā)明實(shí)施例做進(jìn)一步詳細(xì)說(shuō)明。在此,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,但并不作為對(duì)本發(fā)明的限定。實(shí)施例I圖I為本發(fā)明實(shí)施例提供的一種分批聚類(lèi)方法的流程圖,請(qǐng)參照?qǐng)D1,該方法包括步驟101 :按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批;其中,預(yù)定策略可以是按比例分批,也可以是其他,本實(shí)施例并不以此作為限制。
其中,針對(duì)網(wǎng)絡(luò)上網(wǎng)頁(yè)的區(qū)分,考慮到搜索引擎返回結(jié)果的特點(diǎn),也即越靠前的結(jié)果相關(guān)性越高,為了提高返回結(jié)果的聚類(lèi)效果,本實(shí)施例可以先通過(guò)搜索引擎以給定查詢(xún)關(guān)鍵詞進(jìn)行檢索,將搜索引擎返回的結(jié)果作為要聚類(lèi)的文檔進(jìn)行分批。如果是按比例分批,可以是按照一定的百分比和先后順序?qū)λ阉饕娣祷氐乃阉鹘Y(jié)果進(jìn)行分批。例如,將搜索引擎返回的搜索結(jié)果中,前40%作為第一批,剩下的60%,均分為四批,按照從前到后的順序分別稱(chēng)為第二批、第三 批、第四批和第五批。由于搜索引擎具有排序較前的搜索結(jié)果具有較好的凝聚性的特性,其中分批后的第一批的比重相對(duì)較大而且較為重要,因此可以將第一批稱(chēng)為首批。其中,對(duì)于搜索引擎直接返回的搜索結(jié)果,為了便于聚類(lèi),還需要進(jìn)行聚類(lèi)前的處理。在本實(shí)施例中,這里的聚類(lèi)前的處理包括網(wǎng)頁(yè)預(yù)處理、特征向量提取以及網(wǎng)頁(yè)相似度計(jì)算。網(wǎng)頁(yè)預(yù)處理是對(duì)網(wǎng)頁(yè)進(jìn)行內(nèi)容抽取、有效url提取、標(biāo)題提取等操作,把待聚類(lèi)的網(wǎng)頁(yè)按照一定的形式統(tǒng)一用xml文件格式保存。特征向量抽取是根據(jù)保存的xml文件,建立特征向量組,并給每個(gè)特征向量賦予權(quán)重。在這里,可以采用TFIDF方法或者其他方法來(lái)獲得特征向量。網(wǎng)頁(yè)相似度計(jì)算可以采用歐式距離公式,余弦距離公式等經(jīng)典公式進(jìn)行計(jì)算。以上聚類(lèi)前的處理是聚類(lèi)之前的一些常規(guī)的處理步驟,其具體的處理方式可以采用現(xiàn)有手段實(shí)現(xiàn),在此不再贅述。步驟102 :對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到每一批文檔的聚類(lèi)結(jié)果;其中,可以通過(guò)常規(guī)的聚類(lèi)方法對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到批聚類(lèi)結(jié)果,例如K-MEANS聚類(lèi)算法、層次凝聚聚類(lèi)算法、基于密度的聚類(lèi)算法等。本實(shí)施例優(yōu)選層次凝聚聚類(lèi)算法。步驟103 :對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理,得到每一批文檔的凝聚性處理結(jié)果;其中,通過(guò)對(duì)批聚類(lèi)結(jié)果進(jìn)行凝聚性處理,使文檔的分類(lèi)更加明確,增加了聚類(lèi)的性能。在步驟103的一個(gè)實(shí)施例中,對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理可以通過(guò)圖2所示的方法來(lái)實(shí)現(xiàn),請(qǐng)參照?qǐng)D2,該方法包括步驟201 :根據(jù)當(dāng)前批次文檔的所有類(lèi)之間的相似度平均值,按照預(yù)定規(guī)則生成一個(gè)凝聚性閾值;其中,凝聚性閾值是判斷文檔與文檔之間相似度的標(biāo)準(zhǔn),其預(yù)定規(guī)則例如可以是將所述相似度平均值乘以一個(gè)系數(shù)再加上一個(gè)平滑值,作為該批次文檔的凝聚性閾值,也可以是其他規(guī)則,本實(shí)施例并不以此作為限制。步驟202 :根據(jù)所述凝聚性閾值,確定當(dāng)前批次文檔的每一個(gè)類(lèi)中的每個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性;其中,確定每個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性,也就是對(duì)聚類(lèi)結(jié)果進(jìn)行分析,統(tǒng)計(jì)該文檔與其所屬的類(lèi)的其他文檔的相似度超出上述凝聚性閾值的文檔對(duì)的個(gè)數(shù),計(jì)算它占該文檔所屬的類(lèi)內(nèi)部文檔個(gè)數(shù)的比重,稱(chēng)之為凝聚因子,如果凝聚因子超出一定的閾值,認(rèn)為該文檔對(duì)于該類(lèi)不具有凝聚性,稱(chēng)之為不凝聚,否則稱(chēng)之為可凝聚。
在步驟202的一個(gè)實(shí)施例中,確定每個(gè)文檔對(duì)于其所屬的類(lèi)是否具有凝聚性,可以通過(guò)圖3所示的方法來(lái)實(shí)現(xiàn),請(qǐng)參照?qǐng)D3,該方法包括步驟301 :統(tǒng)計(jì)當(dāng)前類(lèi)內(nèi)部的每個(gè)文檔與當(dāng)前類(lèi)內(nèi)部的其他文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);步驟302 :計(jì)算所述個(gè)數(shù)占所述當(dāng)前類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;步驟303 :如果所述比重超出一定的閾值,則確定所述文檔對(duì)于所述當(dāng)前類(lèi)不具有凝聚性,否則確定所述文檔對(duì)于所述當(dāng)前類(lèi)具有凝聚性。通過(guò)圖3的方法對(duì)當(dāng)前批次文檔的每一個(gè)類(lèi)中的每個(gè)文檔進(jìn)行處理,可以確定該文檔對(duì)于其所屬的類(lèi)是否具有凝聚性。步驟203 :將不具有凝聚性的文檔從該文檔所屬的類(lèi)中剔除;·其中,根據(jù)步驟202的判斷結(jié)果,如果某文檔對(duì)于其所述的類(lèi)中的其他文檔不凝聚,把此文檔從該類(lèi)中剔除。步驟204 :確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性;其中,判斷剔除后的文檔與當(dāng)前批次文檔的其他類(lèi)的凝聚性,判斷的方法與圖3所示的方法相似,不同的是,在步驟301中,是統(tǒng)計(jì)該不具有凝聚性的文檔與當(dāng)前批次的其他類(lèi)內(nèi)部的其他文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù)。在步驟204的一個(gè)實(shí)施例中,確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性,可以通過(guò)圖4所示的方法來(lái)實(shí)現(xiàn),請(qǐng)參照?qǐng)D4,該方法包括步驟401 :統(tǒng)計(jì)所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)內(nèi)部的所有文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);步驟402 :計(jì)算所述個(gè)數(shù)占所述其他類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;步驟403 :如果所述比重超出一定的閾值,則確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)不具有凝聚性,否則確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)具有凝聚性。通過(guò)圖4所示的方法,可以確定之前剔除的不具有凝聚性的文檔與當(dāng)前批次的其他類(lèi)是否具有凝聚性。步驟205 :如果存在與所述不具有凝聚性的文檔可凝聚的類(lèi),則將所述不具有凝聚性的文檔加入所述類(lèi),否則將所述不具有凝聚性的文檔單獨(dú)作為所述當(dāng)前批次文檔的一個(gè)類(lèi)。其中,根據(jù)步驟204的判斷結(jié)果,如果存在某個(gè)類(lèi)與該不具有凝聚性的文檔可凝聚,則把該文檔合并到這個(gè)類(lèi)中;如果不存可凝聚類(lèi),則把這個(gè)文檔單獨(dú)作為一個(gè)類(lèi)。步驟104 :將除第一批文檔以外的每一批文檔的凝聚性處理結(jié)果中的每一類(lèi)與上一批文檔的凝聚性處理結(jié)果中的類(lèi)合并,得到所述要聚類(lèi)的文檔的分批聚類(lèi)結(jié)果。其中,在對(duì)批聚類(lèi)結(jié)果進(jìn)行了凝聚性處理后,本實(shí)施例還可以進(jìn)行批聚類(lèi)合并,也即,取當(dāng)前批次文檔中每一個(gè)類(lèi),和上一步得到的批聚類(lèi)結(jié)果中的類(lèi)合并。例如將第二批文檔中的每一個(gè)類(lèi)與第一批文檔中的類(lèi)合并,再將第三批文檔中的每一個(gè)類(lèi)與第二批文檔和第一批文檔合并后的類(lèi)合并,以此類(lèi)推,直到最后一批文檔合并完成,由此得到分批聚類(lèi)結(jié)果,聚類(lèi)結(jié)束。
其中,合并方法可以與前述的聚類(lèi)方法相同。其中,由于對(duì)于第一批文檔,并不存在上一步的批聚類(lèi)結(jié)果,因此,本步驟是除第一批文檔以外的每一批文檔的處理。本實(shí)施例的分批聚類(lèi)方法,通過(guò)對(duì)要聚類(lèi)的文檔進(jìn)行分批聚類(lèi)、批聚類(lèi)結(jié)果的凝聚性處理以及批凝聚性處理結(jié)果的合并,提高了聚類(lèi)性能,實(shí)現(xiàn)了增量式的聚類(lèi)。實(shí)施例2圖5為本發(fā)明另一實(shí)施例提供的一種分批聚類(lèi)方法的流程圖,該分批聚類(lèi)方法是在圖I所示的分批聚類(lèi)方法的基礎(chǔ)上,對(duì)合并后的文檔再次進(jìn)行凝聚性處理,得到更為可靠的分批聚類(lèi)結(jié)果。請(qǐng)參照?qǐng)D5,該方法包括 步驟501 :按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批;步驟502 :對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到每一批文檔的聚類(lèi)結(jié)果;步驟503 :對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理,得到每一批文檔的凝聚性處理結(jié)果;步驟504 :將除第一批文檔以外的每一批文檔的凝聚性處理結(jié)果中的每一類(lèi)與上一批文檔的凝聚性處理結(jié)果中的類(lèi)合并;步驟505 :對(duì)合并后的當(dāng)前批次文檔的每一類(lèi)文檔中除所述第一批文檔以外的每一個(gè)文檔進(jìn)行凝聚性處理,得到所述要聚類(lèi)的文檔的分批聚類(lèi)結(jié)果。其中,步驟501-步驟504與實(shí)施例I的步驟101-步驟104相同,其各個(gè)步驟的實(shí)施可以參見(jiàn)實(shí)施例I的方法的實(shí)施,重復(fù)之處不再贅述。其中,步驟505與實(shí)施例I的步驟103相似,該步驟的實(shí)施可以參考實(shí)施例I的圖2-圖4的各個(gè)步驟的實(shí)施,重復(fù)之處不再贅述。 在步驟505的一個(gè)實(shí)施例中,對(duì)合并后的當(dāng)前批次文檔的每一類(lèi)文檔中除所述第一批文檔以外的每一個(gè)文檔進(jìn)行凝聚性處理,可以通過(guò)圖6所示的方法來(lái)實(shí)現(xiàn),請(qǐng)參照?qǐng)D6,該方法包括步驟601 :根據(jù)當(dāng)前批次文檔的所有類(lèi)之間的相似度平均值,按照預(yù)定規(guī)則生成一個(gè)凝聚性閾值;步驟602 :根據(jù)所述凝聚性閾值,確定所述每一個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性;步驟603 :將不具有凝聚性的文檔從該文檔所屬的類(lèi)中剔除;步驟604 :確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性;步驟605 :如果存在與所述不具有凝聚性的文檔可凝聚的類(lèi),則將所述不具有凝聚性的文檔加入所述類(lèi),否則將所述不具有凝聚性的文檔單獨(dú)作為所述當(dāng)前批次文檔的一個(gè)類(lèi)。在步驟602的一個(gè)實(shí)施例中,根據(jù)所述凝聚性閾值,確定所述每一個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性,可以通過(guò)圖7所示的方法來(lái)實(shí)現(xiàn),請(qǐng)參照?qǐng)D7,該方法包括步驟701 :統(tǒng)計(jì)所述每一個(gè)文檔與當(dāng)前類(lèi)內(nèi)部的其他文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);步驟702 :計(jì)算所述個(gè)數(shù)占所述當(dāng)前類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;
步驟703 :如果所述比重超出一定的閾值,則確定所述每一個(gè)文檔對(duì)于所述當(dāng)前類(lèi)不具有凝聚性,否則確定所述每一個(gè)文檔對(duì)于所述當(dāng)前類(lèi)具有凝聚性。在步驟604的一個(gè)實(shí)施例中,確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性,可以通過(guò)圖8所示的方法來(lái)實(shí)現(xiàn),請(qǐng)參照?qǐng)D8,該方法包括步驟801 :統(tǒng)計(jì)所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)內(nèi)部的所有文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);步驟802 :計(jì)算所述個(gè)數(shù)占所述其他類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;步驟803 :如果所述比重超出一定的閾值,則確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)不具有凝聚性,否則確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)具有凝聚性。 本實(shí)施例的分批聚類(lèi)方法,通過(guò)對(duì)要聚類(lèi)的文檔進(jìn)行分批聚類(lèi)、批聚類(lèi)結(jié)果的凝聚性處理、批凝聚性處理結(jié)果的合并以及合并后的再次凝聚性處理,進(jìn)一步提高了聚類(lèi)性能,實(shí)現(xiàn)了增量式的聚類(lèi)。本發(fā)明實(shí)施例還提供了一種分批聚類(lèi)系統(tǒng),如下面的實(shí)施例3所述。由于該分批聚類(lèi)系統(tǒng)解決問(wèn)題的原理與上述實(shí)施例I和實(shí)施例2的方法相似,因此該分批聚類(lèi)系統(tǒng)的實(shí)施可以參見(jiàn)實(shí)施例I和實(shí)施例2的方法的實(shí)施,重復(fù)之處不再贅述。實(shí)施例3圖9是本發(fā)明實(shí)施例提供的一種分批聚類(lèi)系統(tǒng)的組成示意圖,請(qǐng)參照?qǐng)D9,該分批聚類(lèi)系統(tǒng)包括分批單元901,其按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批;聚類(lèi)單元902,其對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到每一批文檔的聚類(lèi)結(jié)果;第一處理單元903,其對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理,得到每一批文檔的凝聚性處理結(jié)果;合并單元904,其將除第一批文檔以外的每一批文檔的凝聚性處理結(jié)果中的每一類(lèi)與上一批文檔的凝聚性處理結(jié)果中的類(lèi)合并,得到所述要聚類(lèi)的文檔的分批聚類(lèi)結(jié)果。在一個(gè)實(shí)施例中,該分批聚類(lèi)系統(tǒng)還包括搜索單元905,用于通過(guò)搜索引擎返回搜索結(jié)果,將所述搜索結(jié)果作為所述分批單元要聚類(lèi)的文檔。在本實(shí)施例中,分批單元901具體用于對(duì)所述搜索引擎返回的搜索結(jié)果按照一定的百分比和先后順序進(jìn)行分批。在一個(gè)實(shí)施例中,第一處理單元903包括第一生成模塊9031,其根據(jù)當(dāng)前批次文檔的所有類(lèi)之間的相似度平均值,按照預(yù)定規(guī)則生成一個(gè)凝聚性閾值;第一確定模塊9032,其根據(jù)所述第一生成模塊9031生成的凝聚性閾值,確定當(dāng)前批次文檔的每一個(gè)類(lèi)中的每個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性;第一處理模塊9033,其將所述第一確定模塊9032確定的不具有凝聚性的文檔從該文檔所屬的類(lèi)中剔除;第二確定模塊9034,其確定所述第一確定模塊9032確定的不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性;
第二處理模塊9035,其在所述第二確定模塊9034確定為是時(shí),將所述不具有凝聚性的文檔加入所述類(lèi),其在所述第二確定模塊9034確定為否時(shí),將所述不具有凝聚性的文檔單獨(dú)作為所述當(dāng)前批次文檔的一個(gè)類(lèi)。在一個(gè)實(shí)施例中,第一確定模塊9032包括第一統(tǒng)計(jì)子模塊,其統(tǒng)計(jì)當(dāng)前類(lèi)內(nèi)部的每個(gè)文檔與當(dāng)前類(lèi)內(nèi)部的其他文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);第一計(jì)算子模塊,其計(jì)算所述第一統(tǒng)計(jì)子模塊統(tǒng)計(jì)的個(gè)數(shù)占所述當(dāng)前類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;
第一確定子模塊,其在所述第一計(jì)算子模塊計(jì)算出的比重超出第一預(yù)設(shè)閾值時(shí),確定所述文檔對(duì)于所述當(dāng)前類(lèi)不具有凝聚性,在所述第一計(jì)算子模塊計(jì)算出的比重沒(méi)有超出所述第一預(yù)設(shè)閾值時(shí),確定所述文檔對(duì)于所述當(dāng)前類(lèi)具有凝聚性。在一個(gè)實(shí)施例中,第二確定模塊9034包括第二統(tǒng)計(jì)子模塊,其統(tǒng)計(jì)所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)內(nèi)部的所有文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);第二計(jì)算子模塊,其計(jì)算所述第二統(tǒng)計(jì)子模塊統(tǒng)計(jì)的個(gè)數(shù)占所述其他類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;第二確定子模塊,其在所述第二計(jì)算子模塊計(jì)算出的比重超出第二預(yù)設(shè)閾值時(shí),確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)不具有凝聚性,在所述第二計(jì)算子模塊計(jì)算出的比重沒(méi)有超出所述第二預(yù)設(shè)閾值時(shí),確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)具有凝聚性。在一個(gè)實(shí)施例中,該分批聚類(lèi)系統(tǒng)還包括 第二處理單元906,其對(duì)所述合并單元904合并后的當(dāng)前批次文檔的每一類(lèi)文檔中除所述第一批文檔以外的每一個(gè)文檔進(jìn)行凝聚性處理。在一個(gè)實(shí)施例中,該第二處理單元906包括第二生成模塊9061,其根據(jù)當(dāng)前批次文檔的所有類(lèi)之間的相似度平均值,按照預(yù)定規(guī)則生成一個(gè)凝聚性閾值;第三確定模塊9062,其根據(jù)所述第二生成模塊9061生成的凝聚性閾值,確定所述每一個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性;第三處理模塊9063,其將所述第三確定模塊9062確定的不具有凝聚性的文檔從該文檔所屬的類(lèi)中剔除;第四確定模塊9064,其確定所述第三確定模塊9062確定的不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性;第四處理模塊9065,其在所述第四確定模塊9064確定為是時(shí),將所述不具有凝聚性的文檔加入所述類(lèi),其在所述第四確定模塊9064確定為否時(shí),將所述不具有凝聚性的文檔單獨(dú)作為所述當(dāng)前批次文檔的一個(gè)類(lèi)。在一個(gè)實(shí)施例中,第三確定模塊9062包括第三統(tǒng)計(jì)子模塊,其統(tǒng)計(jì)所述每一個(gè)文檔與當(dāng)前類(lèi)內(nèi)部的其他文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);第三計(jì)算子模塊,其計(jì)算所述第三統(tǒng)計(jì)子模塊統(tǒng)計(jì)的個(gè)數(shù)占所述當(dāng)前類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;第三確定子模塊,其在所述第三計(jì)算子模塊計(jì)算出的比重超出第一預(yù)設(shè)閾值時(shí),確定所述每一個(gè)文檔對(duì)于所述當(dāng)前類(lèi)不具有凝聚性,在所述第三計(jì)算子模塊計(jì)算出的比重沒(méi)有超出所述第一預(yù)設(shè)閾值時(shí),確定所述每一個(gè)文檔對(duì)于所述當(dāng)前類(lèi)具有凝聚性。在一個(gè)實(shí)施例中,第四確定模塊9064包括第四統(tǒng)計(jì)子模塊,其統(tǒng)計(jì)所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)內(nèi)部的所有文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);第四計(jì)算子模塊,其計(jì)算所述第四統(tǒng)計(jì)子模塊統(tǒng)計(jì)的個(gè)數(shù)占所述其他類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;第四確定子模塊,其在所述第四計(jì)算子模塊計(jì)算出的比重超出第二預(yù)設(shè)閾值時(shí),確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)不具有凝聚性,在所述第四計(jì)算子模塊計(jì)算出的比重沒(méi)有超出所述第二預(yù)設(shè)閾值時(shí),確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)具·有凝聚性。本實(shí)施例的分批聚類(lèi)系統(tǒng),通過(guò)對(duì)要聚類(lèi)的文檔進(jìn)行分批聚類(lèi)、批聚類(lèi)結(jié)果的凝聚性處理、批凝聚性處理結(jié)果的合并以及合并后的再次凝聚性處理,進(jìn)一步提高了聚類(lèi)性能,實(shí)現(xiàn)了增量式的聚類(lèi)。以上參照附圖描述了本發(fā)明的優(yōu)選實(shí)施方式。這些實(shí)施方式的許多特征和優(yōu)點(diǎn)根據(jù)該詳細(xì)的說(shuō)明書(shū)是清楚的,因此所附權(quán)利要求旨在覆蓋這些實(shí)施方式的落入其真實(shí)精神和范圍內(nèi)的所有這些特征和優(yōu)點(diǎn)。此外,由于本領(lǐng)域的技術(shù)人員容易想到很多修改和改變,因此不是要將本發(fā)明的實(shí)施方式限于所例示和描述的精確結(jié)構(gòu)和操作,而是可以涵蓋落入其范圍內(nèi)的所有合適修改和等同物。應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或者它們的組合來(lái)實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來(lái)實(shí)現(xiàn)。例如,如果用硬件來(lái)實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可以用本領(lǐng)域共知的下列技術(shù)中的任一項(xiàng)或者他們的組合來(lái)實(shí)現(xiàn)具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門(mén)電路的離散邏輯電路,具有合適的組合邏輯門(mén)電路的專(zhuān)用集成電路,可編程門(mén)陣列(PGA),現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)等。流程圖中或在此以其它方式描述的任何過(guò)程或方法描述或框可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過(guò)程中的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中,可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或者按相反的順序,來(lái)執(zhí)行功能,這應(yīng)被本發(fā)明所述技術(shù)領(lǐng)域的技術(shù)人員所理解。在流程圖中表示或者在此以其它方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說(shuō)明書(shū)而言,“計(jì)算機(jī)可讀介質(zhì)”可以是任何可以包含、存儲(chǔ)、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計(jì)算機(jī)可讀介質(zhì)例如可以是但不限于電子、磁、光、電磁、紅外或半導(dǎo)體系統(tǒng)、裝置、設(shè)備或傳播介質(zhì)。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下具有一個(gè)或更多個(gè)布線的電連接部(電子裝置),便攜式計(jì)算機(jī)盤(pán)盒(磁裝置),隨機(jī)存取存儲(chǔ)器(RAM)(電子裝置),只讀存儲(chǔ)器(ROM)(電子裝置),可擦除可編程只讀存儲(chǔ)器(EPR0M或閃速存儲(chǔ)器)(電子裝置),光纖(光裝置),以及便攜式光盤(pán)只讀存儲(chǔ)器(CDROM)(光學(xué)裝置)。另外,計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因?yàn)榭梢岳缤ㄟ^(guò)對(duì)紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必要時(shí)以其它合適方式進(jìn)行處理來(lái)以電子方式獲得所述程序,然后將其存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。上述文字說(shuō)明和附圖示出了本發(fā)明的各種不同的特征。應(yīng)當(dāng)理解,本領(lǐng)域普通技術(shù)人員可以準(zhǔn)備合適的計(jì)算機(jī)代碼來(lái)實(shí)現(xiàn)上面描述且在附圖中例示的各個(gè)步驟和過(guò)程。還應(yīng)當(dāng)理解,上面描述的各種終端、計(jì)算機(jī)、服務(wù)器、網(wǎng)絡(luò)等可以是任何類(lèi)型的,并且可以根據(jù)公開(kāi)內(nèi)容來(lái)準(zhǔn)備所述計(jì)算機(jī)代碼以利用所述裝置實(shí)現(xiàn)本發(fā)明。在此公開(kāi)了本發(fā)明的特定實(shí)施方式。本領(lǐng)域的普通技術(shù)人員將容易地認(rèn)識(shí)到,本發(fā)明在其他環(huán)境下具有其他應(yīng)用。實(shí)際上,還存在許多實(shí)施方式和實(shí)現(xiàn)。所附權(quán)利要求絕 非為了將本發(fā)明的范圍限制為上述具體實(shí)施方式
。另外,任意對(duì)于“用于……的裝置”的引用都是為了描繪要素和權(quán)利要求的裝置加功能的闡釋?zhuān)我馕淳唧w使用“用于……的裝置”的引用的要素都不希望被理解為裝置加功能的元件,即使該權(quán)利要求包括了 “裝置”的用詞。盡管已經(jīng)針對(duì)特定優(yōu)選實(shí)施方式或多個(gè)實(shí)施方式示出并描述了本發(fā)明,但是顯然,本領(lǐng)域技術(shù)人員在閱讀和理解說(shuō)明書(shū)和附圖時(shí)可以想到等同的修改例和變型例。尤其是對(duì)于由上述要素(部件、組件、裝置、組成等)執(zhí)行的各種功能,除非另外指出,希望用于描述這些要素的術(shù)語(yǔ)(包括“裝置”的引用)對(duì)應(yīng)于執(zhí)行所述要素的具體功能的任意要素(即,功能等效),即使該要素在結(jié)構(gòu)上不同于在本發(fā)明的所例示的示例性實(shí)施方式或多個(gè)實(shí)施方式中執(zhí)行該功能的公開(kāi)結(jié)構(gòu)。另外,盡管以上已經(jīng)針對(duì)幾個(gè)例示的實(shí)施方式中的僅一個(gè)或更多個(gè)描述了本發(fā)明的具體特征,但是可以根據(jù)需要以及從對(duì)任意給定或具體應(yīng)用有利的方面考慮,將這種特征與其他實(shí)施方式的一個(gè)或更多個(gè)其他特征相結(jié)合。關(guān)于包括以上多個(gè)實(shí)施例的實(shí)施方式,還公開(kāi)下述的附記。附記I、一種分批聚類(lèi)方法,其中,所述方法包括按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批;對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到每一批文檔的聚類(lèi)結(jié)果;對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理,得到每一批文檔的凝聚性處理結(jié)果;將除第一批文檔以外的每一批文檔的凝聚性處理結(jié)果中的每一類(lèi)與上一批文檔的凝聚性處理結(jié)果中的類(lèi)合并,得到所述要聚類(lèi)的文檔的分批聚類(lèi)結(jié)果。附記2、根據(jù)附記I所述的方法,其中,所述要聚類(lèi)的文檔為搜索引擎返回的搜索結(jié)果。附記3、根據(jù)附記2所述的方法,其中,所述按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批包括對(duì)所述搜索引擎返回的搜索結(jié)果按照一定的百分比和先后順序進(jìn)行分批。附記4、根據(jù)附記I所述的方法,其中,對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理包括
根據(jù)當(dāng)前批次文檔的所有類(lèi)之間的相似度平均值,按照預(yù)定規(guī)則生成一個(gè)凝聚性閾值;根據(jù)所述凝聚性閾值,確定當(dāng)前批次文檔的每一個(gè)類(lèi)中的每個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性;將不具有凝聚性的文檔從該文檔所屬的類(lèi)中剔除;確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性;如果存在與所述不具有凝聚性的文檔可凝聚的類(lèi),則將所述不具有凝聚性的文檔加入所述類(lèi),否則將所述不具有凝聚性的文檔單獨(dú)作為所述當(dāng)前批次文檔的一個(gè)類(lèi)。
附記5、根據(jù)附記4所述的方法,其中,所述根據(jù)所述凝聚性閾值,確定當(dāng)前批次文檔的每一個(gè)類(lèi)中的每個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性,包括統(tǒng)計(jì)當(dāng)前類(lèi)內(nèi)部的每個(gè)文檔與當(dāng)前類(lèi)內(nèi)部的其他文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);計(jì)算所述個(gè)數(shù)占所述當(dāng)前類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;如果所述比重超出一定的閾值,則確定所述文檔對(duì)于所述當(dāng)前類(lèi)不具有凝聚性,否則確定所述文檔對(duì)于所述當(dāng)前類(lèi)具有凝聚性。附記6、根據(jù)附記4所述的方法,其中,所述確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性,包括統(tǒng)計(jì)所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)內(nèi)部的所有文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);計(jì)算所述個(gè)數(shù)占所述其他類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;如果所述比重超出一定的閾值,則確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)不具有凝聚性,否則確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)具有凝聚性。附記7、根據(jù)附記I所述的方法,其中,所述方法還包括對(duì)合并后的當(dāng)前批次文檔的每一類(lèi)文檔中除所述第一批文檔以外的每一個(gè)文檔進(jìn)行凝聚性處理。附記8、根據(jù)附記7所述的方法,其中,對(duì)合并后的當(dāng)前批次文檔的每一類(lèi)文檔中除所述第一批文檔以外的每一個(gè)文檔進(jìn)行凝聚性處理,包括根據(jù)當(dāng)前批次文檔的所有類(lèi)之間的相似度平均值,按照預(yù)定規(guī)則生成一個(gè)凝聚性閾值;根據(jù)所述凝聚性閾值,確定所述每一個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性;將不具有凝聚性的文檔從該文檔所屬的類(lèi)中剔除;確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性;如果存在與所述不具有凝聚性的文檔可凝聚的類(lèi),則將所述不具有凝聚性的文檔加入所述類(lèi),否則將所述不具有凝聚性的文檔單獨(dú)作為所述當(dāng)前批次文檔的一個(gè)類(lèi)。附記9、根據(jù)附記8所述的方法,其中,所述根據(jù)所述凝聚性閾值,確定所述每一個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性,包括統(tǒng)計(jì)所述每一個(gè)文檔與當(dāng)前類(lèi)內(nèi)部的其他文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);
計(jì)算所述個(gè)數(shù)占所述當(dāng)前類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;如果所述比重超出一定的閾值,則確定所述每一個(gè)文檔對(duì)于所述當(dāng)前類(lèi)不具有凝聚性,否則確定所述每一個(gè)文檔對(duì)于所述當(dāng)前類(lèi)具有凝聚性。附記10、根據(jù)附記8所述的方法,其中,所述確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性,包括統(tǒng)計(jì)所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)內(nèi)部的所有文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);計(jì)算所述個(gè)數(shù)占所述其他類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;如果所述比重超出一定的閾值,則確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)不具有凝聚性,否則確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)具有凝聚性。 附記11、一種分批聚類(lèi)系統(tǒng),其中,所述系統(tǒng)包括分批單元,其按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批;聚類(lèi)單元,其對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到每一批文檔的聚類(lèi)結(jié)果;第一處理單元,其對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理,得到每一批文檔的凝聚性處理結(jié)果;合并單元,其將除第一批文檔以外的每一批文檔的凝聚性處理結(jié)果中的每一類(lèi)與上一批文檔的凝聚性處理結(jié)果中的類(lèi)合并,得到所述要聚類(lèi)的文檔的分批聚類(lèi)結(jié)果。附記12、根據(jù)附記11所述的系統(tǒng),其中,所述系統(tǒng)還包括搜索單元,用于通過(guò)搜索引擎返回搜索結(jié)果,將所述搜索結(jié)果作為所述分批單元要聚類(lèi)的文檔。附記13、根據(jù)附記12所述的系統(tǒng),其中,所述分批單元具體用于對(duì)所述搜索引擎返回的搜索結(jié)果按照一定的百分比和先后順序進(jìn)行分批。附記14、根據(jù)附記11所述的系統(tǒng),其中,所述第一處理單元包括第一生成模塊,其根據(jù)當(dāng)前批次文檔的所有類(lèi)之間的相似度平均值,按照預(yù)定規(guī)則生成一個(gè)凝聚性閾值;第一確定模塊,其根據(jù)所述第一生成模塊生成的凝聚性閾值,確定當(dāng)前批次文檔的每一個(gè)類(lèi)中的每個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性;第一處理模塊,其將所述第一確定模塊確定的不具有凝聚性的文檔從該文檔所屬的類(lèi)中剔除;第二確定模塊,其確定所述第一確定模塊確定的不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性;第二處理模塊,其在所述第二確定模塊確定為是時(shí),將所述不具有凝聚性的文檔加入所述類(lèi),其在所述第二確定模塊確定為否時(shí),將所述不具有凝聚性的文檔單獨(dú)作為所述當(dāng)前批次文檔的一個(gè)類(lèi)。附記15、根據(jù)附記14所述的系統(tǒng),其中,所述第一確定模塊包括第一統(tǒng)計(jì)子模塊,其統(tǒng)計(jì)當(dāng)前類(lèi)內(nèi)部的每個(gè)文檔與當(dāng)前類(lèi)內(nèi)部的其他文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);第一計(jì)算子模塊,其計(jì)算所述第一統(tǒng)計(jì)子模塊統(tǒng)計(jì)的個(gè)數(shù)占所述當(dāng)前類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;
第一確定子模塊,其在所述第一計(jì)算子模塊計(jì)算出的比重超出第一預(yù)設(shè)閾值時(shí),確定所述文檔對(duì)于所述當(dāng)前類(lèi)不具有凝聚性,在所述第一計(jì)算子模塊計(jì)算出的比重沒(méi)有超出所述第一預(yù)設(shè)閾值時(shí),確定所述文檔對(duì)于所述當(dāng)前類(lèi)具有凝聚性。附記16、根據(jù)附記14所述的系統(tǒng),其中,所述第二確定模塊包括第二統(tǒng)計(jì)子模塊,其統(tǒng)計(jì)所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)內(nèi)部的所有文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);第二計(jì)算子模塊,其計(jì)算所述第二統(tǒng)計(jì)子模塊統(tǒng)計(jì)的個(gè)數(shù)占所述其他類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;第二確定子模塊,其在所述第二計(jì)算子模塊計(jì)算出的比重超出第二預(yù)設(shè)閾值時(shí),確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)不具有凝聚性,在所述第二計(jì)算子模塊計(jì)算出的比重沒(méi)有超出所述第二預(yù)設(shè)閾值時(shí),確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)具 有凝聚性。附記17、根據(jù)附記11所述的系統(tǒng),其中,所述系統(tǒng)還包括第二處理單元,其對(duì)所述合并單元合并后的當(dāng)前批次文檔的每一類(lèi)文檔中除所述第一批文檔以外的每一個(gè)文檔進(jìn)行凝聚性處理。附記18、根據(jù)附記17所述的系統(tǒng),其中,所述第二處理單元包括第二生成模塊,其根據(jù)當(dāng)前批次文檔的所有類(lèi)之間的相似度平均值,按照預(yù)定規(guī)則生成一個(gè)凝聚性閾值;第三確定模塊,其根據(jù)所述第二生成模塊生成的凝聚性閾值,確定所述每一個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性;第三處理模塊,其將所述第三確定模塊確定的不具有凝聚性的文檔從該文檔所屬的類(lèi)中剔除;第四確定模塊,其確定所述第三確定模塊確定的不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性;第四處理模塊,其在所述第四確定模塊確定為是時(shí),將所述不具有凝聚性的文檔加入所述類(lèi),其在所述第四確定模塊確定為否時(shí),將所述不具有凝聚性的文檔單獨(dú)作為所述當(dāng)前批次文檔的一個(gè)類(lèi)。附記19、根據(jù)附記18所述的系統(tǒng),其中,所述第三確定模塊包括第三統(tǒng)計(jì)子模塊,其統(tǒng)計(jì)所述每一個(gè)文檔與當(dāng)前類(lèi)內(nèi)部的其他文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);第三計(jì)算子模塊,其計(jì)算所述第三統(tǒng)計(jì)子模塊統(tǒng)計(jì)的個(gè)數(shù)占所述當(dāng)前類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;第三確定子模塊,其在所述第三計(jì)算子模塊計(jì)算出的比重超出第一預(yù)設(shè)閾值時(shí),確定所述每一個(gè)文檔對(duì)于所述當(dāng)前類(lèi)不具有凝聚性,在所述第三計(jì)算子模塊計(jì)算出的比重沒(méi)有超出所述第一預(yù)設(shè)閾值時(shí),確定所述每一個(gè)文檔對(duì)于所述當(dāng)前類(lèi)具有凝聚性。附記20、根據(jù)附記18所述的系統(tǒng),其中,所述第四確定模塊包括第四統(tǒng)計(jì)子模塊,其統(tǒng)計(jì)所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)內(nèi)部的所有文檔相似度超出所述凝聚性閾值的文檔對(duì)的個(gè)數(shù);第四計(jì)算子模塊,其計(jì)算所述第四統(tǒng)計(jì)子模塊統(tǒng)計(jì)的個(gè)數(shù)占所述其他類(lèi)內(nèi)部文檔個(gè)數(shù)的比重;第四確定子模塊,其在所述第四計(jì)算子模塊計(jì)算出的比重超出第二預(yù)設(shè)閾值時(shí), 確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)不具有凝聚性,在所述第四計(jì)算子模塊計(jì)算出的比重沒(méi)有超出所述第二預(yù)設(shè)閾值時(shí),確定所述不具有凝聚性的文檔對(duì)于所述其他類(lèi)具有凝聚性。
權(quán)利要求
1.一種分批聚類(lèi)方法,其中,所述方法包括 按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批; 對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到每一批文檔的聚類(lèi)結(jié)果; 對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理,得到每一批文檔的凝聚性處理結(jié)果;將除第一批文檔以外的每一批文檔的凝聚性處理結(jié)果中的每一類(lèi)與上一批文檔的凝聚性處理結(jié)果中的類(lèi)合并,得到所述要聚類(lèi)的文檔的分批聚類(lèi)結(jié)果。
2.根據(jù)權(quán)利要求I所述的方法,其中,所述要聚類(lèi)的文檔為搜索引擎返回的搜索結(jié)果。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批包括 對(duì)所述搜索引擎返回的搜索結(jié)果按照一定的百分比和先后順序進(jìn)行分批。
4.根據(jù)權(quán)利要求I所述的方法,其中,對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理包括 根據(jù)當(dāng)前批次文檔的所有類(lèi)之間的相似度平均值,按照預(yù)定規(guī)則生成一個(gè)凝聚性閾值; 根據(jù)所述凝聚性閾值,確定當(dāng)前批次文檔的每一個(gè)類(lèi)中的每個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性; 將不具有凝聚性的文檔從該文檔所屬的類(lèi)中剔除; 確定所述不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性; 如果存在與所述不具有凝聚性的文檔可凝聚的類(lèi),則將所述不具有凝聚性的文檔加入所述類(lèi),否則將所述不具有凝聚性的文檔單獨(dú)作為所述當(dāng)前批次文檔的一個(gè)類(lèi)。
5.根據(jù)權(quán)利要求I所述的方法,其中,所述方法還包括 對(duì)合并后的當(dāng)前批次文檔的每一類(lèi)文檔中除所述第一批文檔以外的每一個(gè)文檔進(jìn)行凝聚性處理。
6.一種分批聚類(lèi)系統(tǒng),其中,所述系統(tǒng)包括 分批單元,其按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批; 聚類(lèi)單元,其對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到每一批文檔的聚類(lèi)結(jié)果; 第一處理單元,其對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理,得到每一批文檔的凝聚性處理結(jié)果; 合并單元,其將除第一批文檔以外的每一批文檔的凝聚性處理結(jié)果中的每一類(lèi)與上一批文檔的凝聚性處理結(jié)果中的類(lèi)合并,得到所述要聚類(lèi)的文檔的分批聚類(lèi)結(jié)果。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述系統(tǒng)還包括 搜索單元,用于通過(guò)搜索引擎返回搜索結(jié)果,將所述搜索結(jié)果作為所述分批單元要聚類(lèi)的文檔。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述分批單元具體用于對(duì)所述搜索引擎返回的搜索結(jié)果按照一定的百分比和先后順序進(jìn)行分批。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述第一處理單元包括 第一生成模塊,其根據(jù)當(dāng)前批次文檔的所有類(lèi)之間的相似度平均值,按照預(yù)定規(guī)則生成一個(gè)凝聚性閾值; 第一確定模塊,其根據(jù)所述第一生成模塊生成的凝聚性閾值,確定當(dāng)前批次文檔的每一個(gè)類(lèi)中的每個(gè)文檔對(duì)于該文檔所屬的類(lèi)是否具有凝聚性;第一處理模塊,其將所述第一確定模塊確定的不具有凝聚性的文檔從該文檔所屬的類(lèi)中副除; 第二確定模塊,其確定所述第一確定模塊確定的不具有凝聚性的文檔與當(dāng)前批次文檔的其他類(lèi)是否具有凝聚性; 第二處理模塊,其在所述第二確定模塊確定為是時(shí),將所述不具有凝聚性的文檔加入所述類(lèi),其在所述第二確定模塊確定為否時(shí),將所述不具有凝聚性的文檔單獨(dú)作為所述當(dāng)前批次文檔的一個(gè)類(lèi)。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述系統(tǒng)還包括 第二處理單元,其對(duì)所述合并單元合并后的當(dāng)前批次文檔的每一類(lèi)文檔中除所述第一批文檔以外的每一個(gè)文檔進(jìn)行凝聚性處理。
全文摘要
本發(fā)明實(shí)施例提供一種分批聚類(lèi)方法和系統(tǒng),所述方法包括按照預(yù)定策略對(duì)要聚類(lèi)的文檔進(jìn)行分批;對(duì)分批后的每一批文檔進(jìn)行聚類(lèi),得到每一批文檔的聚類(lèi)結(jié)果;對(duì)每一批文檔的聚類(lèi)結(jié)果進(jìn)行凝聚性處理,得到每一批文檔的凝聚性處理結(jié)果;將除第一批文檔以外的每一批文檔的凝聚性處理結(jié)果中的每一類(lèi)與上一批文檔的凝聚性處理結(jié)果中的類(lèi)合并,得到所述要聚類(lèi)的文檔的分批聚類(lèi)結(jié)果。本實(shí)施例的分批聚類(lèi)方法,通過(guò)對(duì)要聚類(lèi)的文檔進(jìn)行分批聚類(lèi)、批聚類(lèi)結(jié)果的凝聚性處理以及批凝聚性處理結(jié)果的合并,提高了聚類(lèi)性能,實(shí)現(xiàn)了增量式的聚類(lèi)。
文檔編號(hào)G06F17/30GK102867006SQ20111018956
公開(kāi)日2013年1月9日 申請(qǐng)日期2011年7月7日 優(yōu)先權(quán)日2011年7月7日
發(fā)明者王新文, 張姝, 賈文杰, 夏迎炬, 孟遙, 于浩 申請(qǐng)人:富士通株式會(huì)社