亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種針對混合長度文本集的文本聚類方法

文檔序號:8258941閱讀:1043來源:國知局
一種針對混合長度文本集的文本聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息技術(shù)領(lǐng)域,具體說涉及一種針對混合長度文本集的文本聚類方 法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上的文本越來越多,在這些巨量的文本中進(jìn)行知識發(fā)現(xiàn)變 得越來越困難。
[0003] 為了便于在大量的文本中查詢檢索用戶所需的的內(nèi)容,通常對文本集中的文本進(jìn) 行聚類操作。聚類是一個把數(shù)據(jù)對象集劃分為多個組或簇的過程,使得組內(nèi)的對象具有很 高的相似性,但與其他組中的對象很不相似,相異性和相似性根據(jù)描述對象的屬性值進(jìn)行 評估。聚類一直以來作為知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的強有力工具已經(jīng)植根于許多應(yīng)用領(lǐng)域,如 生物學(xué)、安全、商務(wù)智能和Web搜索。文本聚類更是近年來的一個研宄熱點,例如,由于Web 頁面的數(shù)目巨大,關(guān)鍵詞搜索常常會返回大量命中的網(wǎng)頁,可以用文本聚類將搜索結(jié)果分 組,以簡明、容易訪問的方式提交這些結(jié)果。
[0004] 近年來,人們已經(jīng)提出了很多優(yōu)秀的文本聚類算法,但它們大多數(shù)是為新聞、博客 之類的傳統(tǒng)長文本而設(shè)計的。長文本通常包含多個主題并且具有高維度的特征表示,一般 的文檔相似性測量無法考慮這種情況。最近,隨著社交網(wǎng)絡(luò)(如新浪微博)的廣泛出現(xiàn),短 文本扮演了非常重要的角色。短文本包含很少的詞匯,特征表示的時候是非常稀疏的。有 人直接對短文本運用長文本的聚類方法,聚類的效果非常差。因此,很多研宄就提出了針對 短文本的文本聚類算法,實現(xiàn)了很好的聚類效果。
[0005] 然而,很多實際的數(shù)據(jù)集不僅包含長文本,也包含很多短文本,即混合長度的文本 集。由于短文本的存在,直接對混合長度文本集用基于詞袋的聚類方法,也很難達(dá)到理想的 聚類效果。另一方面,如果直接對混合長度文本集用近來提出的短文本聚類算法,很多長文 本由于降維操作會有信息損失,也達(dá)不到好的聚類效果。
[0006] 因此,針對同時包含長文本以及短文本的混合長度文本集,需要一種新的文本聚 類方法以獲取更為理想的聚類結(jié)果。

【發(fā)明內(nèi)容】

[0007] 針對同時包含長文本以及短文本的混合長度文本集,本發(fā)明提供了一種針對混合 長度文本集的文本聚類方法,所述方法包括以下步驟:
[0008] 劃分長短文本步驟,將待聚類文本集劃分為長文本集和短文本集;
[0009] 建模步驟,按照特定的規(guī)則分別針對所述長文本集和所述短文本集中的文本進(jìn)行 建模從而獲取所述文本對應(yīng)的文本模型;
[0010] 生成特征向量步驟,基于所述文本模型生成主題參數(shù)從而基于所述主題參數(shù)獲取 相應(yīng)文本的特征向量;
[0011] 文本聚類步驟,基于所述特征向量進(jìn)行所述文本的聚類。
[0012] 在一實施例中,在所述劃分長短文步驟中,基于所述文本中字符個數(shù)將所述文本 劃分到所述長文本集或所述短文本集。
[0013] 在一實施例中,將所述字符個數(shù)多于140個字符的文本劃分到所述長文本集,將 所述字符個數(shù)少于或等于140個字符的文本劃分到所述短文本集。
[0014] 在一實施例中,在所述劃分長短文步驟中,基于所述文本對應(yīng)的文檔主題生成模 型中特定隱藏主題的個數(shù)將所述文本劃分到所述長文本集或所述短文本集。
[0015] 在一實施例中,將所述文本對應(yīng)的文檔主題生成模型中概率大于特定閾值的隱藏 主題定義為所述特定隱藏主題。
[0016] 在一實施例中,在所述建模步驟中,基于雙主題文檔主題生成模型對所述文本進(jìn) 行建模。
[0017] 在一實施例中,在所述建模步驟中:
[0018] 在針對所述短文本集中的文本進(jìn)行建模時利用所述長文本集中的文本進(jìn)行輔助 建模,從而減緩所述文本模型的稀疏程度;
[0019] 在針對所述長文本集中的文本進(jìn)行建模時利用所述短文本集中的文本進(jìn)行輔助 建模,從而降低所述文本模型的特征維度。
[0020] 在一實施例中,在所述建模步驟中,在利用所述長/短文本集中的文本進(jìn)行輔助 建模時,基于所述長文本集的文本個數(shù)與所述短文本集的文本個數(shù)之間的比例關(guān)系調(diào)整所 述長/短文本集中的文本的輔助程度。
[0021 ] 在一實施例中,在所述建模步驟中,在利用所述長/短文本集中的文本進(jìn)行輔助 建模時,基于所述長文本集中文本個數(shù)與所述短文本集中文本個數(shù)的比值采用相應(yīng)比例的 所述長/短文本集中的文本信息。
[0022] 在一實施例中,在所述生成特征向量步驟中,首先通過對所述待聚類文本集的訓(xùn) 練,估算出所述文本模型的參數(shù);然后對所述參數(shù)中關(guān)于文本主題的參數(shù)進(jìn)行歸一化,從而 得到以主題數(shù)為維度的所述特征向量。
[0023] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點:
[0024] 本發(fā)明的聚類方法充分考慮了同時包含長文本以及短文本的混合長度文本集的 特點,在平衡混合長度文本集稀疏性以及維度的前提下進(jìn)行文本聚類,相較于現(xiàn)有技術(shù),獲 得的聚類結(jié)果更加理想。
[0025] 本發(fā)明的其它特征或優(yōu)點將在隨后的說明書中闡述。并且,本發(fā)明的部分特征或 優(yōu)點將通過說明書而變得顯而易見,或者通過實施本發(fā)明而被了解。本發(fā)明的目的和部分 優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的步驟來實現(xiàn)或獲得。
【附圖說明】
[0026] 附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實 施例共同用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0027] 圖1是根據(jù)本發(fā)明一實施例執(zhí)行流程圖。
【具體實施方式】
[0028] 以下將結(jié)合附圖及實施例來詳細(xì)說明本發(fā)明的實施方式,借此本發(fā)明的實施人員 可以充分理解本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達(dá)成技術(shù)效果的實現(xiàn)過程并依 據(jù)上述實現(xiàn)過程具體實施本發(fā)明。需要說明的是,只要不構(gòu)成沖突,本發(fā)明中的各個實施 例以及各實施例中的各個特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之 內(nèi)。
[0029] 文本依據(jù)其長度大小可以分為短文本以及長文本兩類。短文本在聚類的過程中具 有高度稀疏的特性,長文本在聚類過程中具有維度特別高的特性?,F(xiàn)有的文本聚類方法通 常是單獨針對長/短文本的高稀疏或高維度來進(jìn)行文本聚類。由于混合長度文本集同時包 含較多的長文本以及短文本,其同時具有高稀疏以及高維度的特點。因此利用現(xiàn)有的文本 聚類方法對混合長度文本集進(jìn)行聚類往往無法獲得理想的聚類結(jié)果。
[0030] 本發(fā)明針對同時包含長文本以及短文本的混合長度文本集提供了 一種新的文本 聚類方法。接下來基于流程圖詳細(xì)描述本發(fā)明的方法的實施過程,附圖的流程圖中示出的 步驟可以在包含諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行。雖然在流程圖中示出了 各步驟的邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步 驟。
[0031] 執(zhí)行本發(fā)明的方法,首先執(zhí)行步驟S100,獲取待聚
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1