一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法
【專利摘要】本發(fā)明公開(kāi)了一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法,該方法解決了已有的基于聚類分析的熱點(diǎn)事件發(fā)現(xiàn)方法存在的效率和準(zhǔn)確率有待進(jìn)一步提高的問(wèn)題。該方法首先利用訓(xùn)練語(yǔ)料庫(kù)通過(guò)特征詞提取和特征選擇為各類別文本分別選取特征詞,再采用向量空間模型法將每個(gè)訓(xùn)練文本和測(cè)試文本表示為在所有特征空間中的向量,并采用TF-IDF方法確定向量中每一維的權(quán)重,然后對(duì)各個(gè)測(cè)試文本進(jìn)行分類,再對(duì)分好類的各個(gè)類別的測(cè)試文本分別進(jìn)行聚類分析,得到各個(gè)類別的熱點(diǎn)簇,再分析得到代表熱點(diǎn)事件的特征詞,進(jìn)而分析熱點(diǎn)各個(gè)特征詞的詞性等,再利用相關(guān)語(yǔ)言知識(shí),通過(guò)必要的語(yǔ)言組織生成熱點(diǎn)事件的描述。本發(fā)明能有效提高熱點(diǎn)事件發(fā)現(xiàn)的效率和準(zhǔn)確率。
【專利說(shuō)明】一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本挖掘【技術(shù)領(lǐng)域】,特別涉及一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)的發(fā)展,為民眾抒發(fā)內(nèi)心的情緒和態(tài)度提供了一個(gè)理想的表達(dá)渠道,人們可以根據(jù)新聞來(lái)發(fā)表自己的觀點(diǎn)和意見(jiàn)。熱點(diǎn)事件是指在一段時(shí)間、一定區(qū)域范圍引起人們極大關(guān)注的事件,也即吸引公眾一定注意力的公眾事件。突發(fā)事件是網(wǎng)絡(luò)熱點(diǎn)事件中相當(dāng)重要的一個(gè)部分。突發(fā)事件是指突然形成、造成巨大的財(cái)物損失、大量的人員傷亡以及對(duì)人們的日常生活造成嚴(yán)重影響的事件。政府部門需要隨時(shí)對(duì)網(wǎng)絡(luò)的突發(fā)輿情信息進(jìn)行嚴(yán)密的監(jiān)控,希望可以實(shí)時(shí)把握和跟蹤最新的社會(huì)熱點(diǎn),并判斷其是否對(duì)人們的生活造成了影響。
[0003]對(duì)于現(xiàn)實(shí)出現(xiàn)的各種網(wǎng)絡(luò)熱點(diǎn)事件和相關(guān)的網(wǎng)絡(luò)評(píng)論,社會(huì)管理者和有關(guān)的政府部門必須有能力及時(shí)做出反應(yīng),防患于未然,防微杜漸,這就需要及時(shí)地對(duì)網(wǎng)絡(luò)熱點(diǎn)事件進(jìn)行監(jiān)控、跟蹤和處理。
[0004]文本分類是指在給定分類體系下,根據(jù)文本的內(nèi)容將其分到相應(yīng)預(yù)定義類別中的過(guò)程。文本分類過(guò)程實(shí)際上是對(duì)文本的模式特征進(jìn)行識(shí)別,其中的關(guān)鍵技術(shù)包括文本預(yù)處理、特征提取、分類模型等。將物理或抽象對(duì)象的集合分成由類似對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,與其他簇中的對(duì)象相異。話題發(fā)現(xiàn)與跟蹤技術(shù)是一項(xiàng)針對(duì)新聞信息進(jìn)行話題的提取和后續(xù)跟蹤的信息處理技術(shù)。
[0005]熱點(diǎn)事件發(fā)現(xiàn)是要發(fā)現(xiàn)某個(gè)以前未知的熱點(diǎn)話題,它實(shí)際上是一個(gè)聚類過(guò)程,聚類形成的每個(gè)簇都表示一個(gè)話題,話題可以通過(guò)不同的聚類方法來(lái)發(fā)現(xiàn)。不過(guò),單純通過(guò)聚類發(fā)現(xiàn)熱點(diǎn)事件,存在準(zhǔn)確率不高和效率低下的問(wèn)題。而本發(fā)明能夠很好地解決上面的問(wèn)題。
【發(fā)明內(nèi)容】
[0006]本發(fā)明目的在于提供一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法,該方法用于解決傳統(tǒng)的單一基于聚類的熱點(diǎn)事件發(fā)現(xiàn)方法中存在的聚類方法效率和準(zhǔn)確率有待進(jìn)一步提聞的問(wèn)題。
[0007]本發(fā)明解決其技術(shù)問(wèn)題所采取的技術(shù)方案是:本發(fā)明將文本分類應(yīng)用于熱點(diǎn)事件發(fā)現(xiàn)中,提出采用先分類再聚類的方法來(lái)解決聚類方法存在的一些缺點(diǎn)。本發(fā)明采用的方法是先對(duì)網(wǎng)絡(luò)文本進(jìn)行分類,之后再針對(duì)各個(gè)類別的文本集分別利用熱點(diǎn)發(fā)現(xiàn)系統(tǒng)進(jìn)行處理,從而發(fā)現(xiàn)熱點(diǎn)事件。本發(fā)明基于的原理是:一個(gè)熱點(diǎn)事件相關(guān)聯(lián)的若干數(shù)量的文本,包含一定數(shù)量的相同特征詞,在文本類別屬性上也應(yīng)該是相同的。
[0008]方法流程:
[0009]本發(fā)明提出一種基于文本分類和聚類技術(shù)的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)方法,該方法是利用KNN分類方法對(duì)測(cè)試集中的文本進(jìn)行分類,再利用文本分類結(jié)果,分別對(duì)各個(gè)類別的所有文本進(jìn)行聚類分析,之后再進(jìn)行相關(guān)統(tǒng)計(jì),進(jìn)而發(fā)現(xiàn)熱點(diǎn)事件,該方法包括如下步驟:
[0010]步驟1:利用KNN分類方法對(duì)測(cè)試文本進(jìn)行分類;
[0011]步驟1-1:構(gòu)建訓(xùn)練語(yǔ)料庫(kù)(即DTrain)和測(cè)試語(yǔ)料庫(kù)(即DTest),利用訓(xùn)練語(yǔ)料庫(kù)提取特征詞并進(jìn)行特征選擇。訓(xùn)練集可以采用網(wǎng)上發(fā)布的已有的中文語(yǔ)料庫(kù),測(cè)試樣本可以從BBS論壇、門戶網(wǎng)站新聞版面獲取,可利用網(wǎng)頁(yè)采集模塊在互聯(lián)網(wǎng)上搜索和下載所需的網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)清洗模塊對(duì)已下載文檔中的廣告等干擾信息進(jìn)行處理,并利用HTMLParser技術(shù)對(duì)網(wǎng)頁(yè)中的主體內(nèi)容進(jìn)行抽取,完成網(wǎng)頁(yè)文本信息的前期處理工作。對(duì)文本再做分詞、去除停用詞等處理,得到特征詞,再基于X 2特征評(píng)價(jià)函數(shù)進(jìn)行特征選擇,為訓(xùn)練集中各類別文本分別選取一定數(shù)量的特征詞;
[0012]步驟1-2:掃描并統(tǒng)計(jì)每一篇訓(xùn)練文本、測(cè)試文本在所有特征空間中的向量,采用TF-1DF的方法確定向量中每一維的權(quán)重;
[0013]步驟1-3:對(duì)測(cè)試集(即DTest)中的每個(gè)測(cè)試文本X,按余弦距離法在訓(xùn)練集(即DTrain)中找到它的K-最近鄰子集(X1, - ,Xj ;
[0014]步驟1-4:基于測(cè)試文本X與其k個(gè)近鄰的余弦相似度以及k個(gè)近鄰的類別,計(jì)算測(cè)試文本X屬于每一個(gè)類別的權(quán)重:
[0015]Pj (^) = Σ /0 (xi Xi)
/=1
[0016]其中,Uj(Xi) e {0,1}含義為測(cè)試文本的近鄰文本Xi是否屬于Cj Aimaxi)表示測(cè)試文本與訓(xùn)練文本Xi的余弦相似度。決策方法為:如果U1(X) = maxy j(X),則決策X e C1,即類別權(quán)重最大的作為測(cè)試文本的所屬類別。最終得到所有測(cè)試文本的分類結(jié)果,為下面的聚類分析和熱點(diǎn)事件發(fā)現(xiàn)做好準(zhǔn)備;
[0017]步驟2:根據(jù)分類結(jié)果,利用聚類方法分別對(duì)各個(gè)類別的測(cè)試文本進(jìn)行熱點(diǎn)事件發(fā)現(xiàn);熱點(diǎn)分析子系統(tǒng)包括聚類、熱點(diǎn)特征詞提取、熱點(diǎn)事件分析等模塊,具體步驟為:
[0018]步驟2-1:聚類;根據(jù)文本分類的結(jié)果,分別對(duì)測(cè)試語(yǔ)料庫(kù)中各個(gè)類別的所有文本進(jìn)行聚類處理,進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)簇。對(duì)文本預(yù)處理子系統(tǒng)中提供的文本向量,利用K-means聚類模塊進(jìn)行相關(guān)的運(yùn)算,得到聚類的結(jié)果,從而發(fā)現(xiàn)與熱點(diǎn)相關(guān)的簇和屬于該簇的文本集合,對(duì)每個(gè)類別的所有測(cè)試文本的聚類分析包括如下步驟:
[0019]步驟1:首選隨機(jī)選出k個(gè)文本對(duì)象,每個(gè)被選擇的文本對(duì)象表示一個(gè)簇的初始中心;
[0020]步驟2:計(jì)算該類別中的每個(gè)文本對(duì)象與各個(gè)簇中心的距離,并把劃分到離它最近的聚類中心所在的簇中,之后利用各簇中所有文本對(duì)象的文本特征向量的均值更新簇中心;
[0021]步驟3:重復(fù)上述步驟2,直到該類別所有測(cè)試文本對(duì)象\的簇不再變化為止,這樣就得到了 k個(gè)熱點(diǎn)簇C1, C2,…,ck。對(duì)測(cè)試集中每個(gè)類別分別得到若干熱點(diǎn)簇;
[0022]步驟2-2:熱點(diǎn)特征詞提取:根據(jù)聚類模塊計(jì)算出的各個(gè)簇中心,對(duì)每個(gè)簇中心而言,把簇中心的特征向量中權(quán)重前80%大的特征詞提取出來(lái),作為該熱點(diǎn)的代表性特征,這樣可以更加明確熱點(diǎn)事件,也便于之后的熱點(diǎn)事件的分析和描述;
[0023]步驟2-3:熱點(diǎn)事件分析:利用各個(gè)特征詞的詞性和相關(guān)的語(yǔ)言知識(shí),對(duì)由提取模塊得到的各個(gè)熱點(diǎn)事件的特征詞進(jìn)行必要的語(yǔ)言組織,從而形成熱點(diǎn)事件的完整描述。權(quán)值排序倒數(shù)20%的特征詞也有一定的價(jià)值,雖然這些特征的權(quán)重較小,但可以從側(cè)面為熱點(diǎn)提供一定的附加信息。
[0024]有益效果:
[0025]1、本發(fā)明解決了已有的基于聚類分析的熱點(diǎn)事件發(fā)現(xiàn)方法存在的時(shí)空復(fù)雜度高和熱點(diǎn)事件發(fā)現(xiàn)準(zhǔn)確率較低等問(wèn)題,提高了熱點(diǎn)事件發(fā)現(xiàn)的效率和準(zhǔn)確率。
[0026]2、本發(fā)明減少了聚類方法的時(shí)空復(fù)雜度。
[0027]3、本發(fā)明能夠有效地提取特征詞,也便于文本降維,減少了不同類別熱點(diǎn)事件之間的影響,從而提高了熱點(diǎn)事件發(fā)現(xiàn)的成功率。
【專利附圖】
【附圖說(shuō)明】
[0028]圖1為本發(fā)明基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法的流程圖。
【具體實(shí)施方式】
[0029]以下結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說(shuō)明。
[0030]如圖1所示,本發(fā)明提出一種基于文本分類和聚類技術(shù)的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)方法,該方法包括如下步驟:
[0031 ] 步驟1:利用KNN分類方法對(duì)測(cè)試文本進(jìn)行分類;
[0032]步驟1-1:構(gòu)建訓(xùn)練語(yǔ)料庫(kù)(即DTrain)和測(cè)試語(yǔ)料庫(kù)(即DTest),利用訓(xùn)練語(yǔ)料庫(kù)提取特征詞并進(jìn)行特征選擇。訓(xùn)練集采用網(wǎng)上發(fā)布的已有的中文語(yǔ)料庫(kù),測(cè)試樣本可以從BBS論壇、門戶網(wǎng)站新聞版面獲取,利用網(wǎng)頁(yè)采集模塊在互聯(lián)網(wǎng)上搜索和下載所需的網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)清洗模塊對(duì)已下載文檔中的廣告等干擾信息進(jìn)行處理,并利用HTMLParser技術(shù)對(duì)網(wǎng)頁(yè)中的主體內(nèi)容進(jìn)行抽取,完成網(wǎng)頁(yè)文本信息的前期處理工作。對(duì)文本再做分詞、去除停用詞等處理,得到特征詞,再基于X 2特征評(píng)價(jià)函數(shù)進(jìn)行特征選擇,為訓(xùn)練集中各類別文本分別選取一定數(shù)量的特征詞;
[0033]步驟1-2:掃描并統(tǒng)計(jì)每一篇訓(xùn)練文本、測(cè)試文本在所有特征空間中的向量,采用TF-1DF的方法確定向量中每一維的權(quán)重;
[0034]步驟1-3:對(duì)測(cè)試集(即DTest)中的每個(gè)測(cè)試文本X,按余弦距離法在訓(xùn)練集(即DTrain)中找到它的K-最近鄰子集(X1, - ,Xj ;
[0035]步驟1-4:基于測(cè)試文本X與其k個(gè)近鄰的余弦相似度以及k個(gè)近鄰的類別,計(jì)算測(cè)試文本X屬于每一個(gè)類別的權(quán)重:
[0036]Mj (X) = Σ Mj (XiXi)
/=1
[0037]其中,μ j(Xi) e {O, 1}含義為測(cè)試文本的近鄰文本Xi是否屬于Cj ;sim(X, Xi)表示測(cè)試文本與訓(xùn)練文本Xi的余弦相似度。決策方法為:如果U1(X) = maxy j(X),則決策X e C1,即類別權(quán)重最大的作為測(cè)試文本的所屬類別。最終得到所有測(cè)試文本的分類結(jié)果,為下面的聚類分析和熱點(diǎn)事件發(fā)現(xiàn)做好準(zhǔn)備;
[0038]步驟2:根據(jù)分類結(jié)果,利用聚類方法分別對(duì)各個(gè)類別的測(cè)試文本進(jìn)行熱點(diǎn)事件發(fā)現(xiàn);熱點(diǎn)分析子系統(tǒng)主要包括聚類、熱點(diǎn)特征詞提取、熱點(diǎn)事件分析等模塊,具體步驟為:
[0039]步驟2-1:聚類;根據(jù)文本分類的結(jié)果,分別對(duì)測(cè)試語(yǔ)料庫(kù)中各個(gè)類別的所有文本進(jìn)行聚類處理,進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)簇。對(duì)文本預(yù)處理子系統(tǒng)中提供的文本向量,利用K-means聚類模塊進(jìn)行相關(guān)的運(yùn)算,得到聚類的結(jié)果,從而發(fā)現(xiàn)與熱點(diǎn)相關(guān)的簇和屬于該簇的文本集合;
[0040]步驟2-2:熱點(diǎn)特征詞提取:根據(jù)聚類模塊計(jì)算出的各個(gè)簇中心,對(duì)每個(gè)簇中心而言,把簇中心的特征向量中權(quán)重前80%大的特征詞提取出來(lái),作為該熱點(diǎn)的代表性特征,這樣可以更加明確熱點(diǎn)事件,也便于之后的熱點(diǎn)事件的分析和描述;
[0041]步驟2-3:熱點(diǎn)事件分析:利用各個(gè)特征詞的詞性和相關(guān)的語(yǔ)言知識(shí),對(duì)由提取模塊得到的各個(gè)熱點(diǎn)事件的特征詞進(jìn)行必要的語(yǔ)言組織,從而形成熱點(diǎn)事件的完整描述。權(quán)值排序倒數(shù)20%的特征詞也有一定的價(jià)值,雖然這些特征的權(quán)重較小,但是也可以從側(cè)面為熱點(diǎn)提供一定的附加信息。
[0042]本發(fā)明是采用KNN方法來(lái)對(duì)文本進(jìn)行分類處理。
[0043]本發(fā)明基于傳統(tǒng)KNN方法的文本分類過(guò)程,具體包括如下步驟:
[0044](I)文本的預(yù)處理,主要包括分詞、去除停用詞等;
[0045](2)特征選擇,即從經(jīng)預(yù)處理得到的數(shù)量仍然較大的特征詞中進(jìn)行篩選,選取對(duì)分類較重要的特征詞,其主要方法有:互信息、交叉熵、信息增益、X 2統(tǒng)計(jì)方法、文本證據(jù)權(quán)等;
[0046](3)掃描并統(tǒng)計(jì)每一篇訓(xùn)練文本在所有特征空間中的向量,采用TF-1DF的方法確定向量中每一維的權(quán)重;
[0047](4)對(duì)于一篇待分類的文本,也稱測(cè)試文本,提取特征詞并計(jì)算文本向量的各維權(quán)重,之后計(jì)算該文本與每一篇訓(xùn)練文本的相似度,一般采用余弦距離的方法:
m
[0048]sim、di O= j '產(chǎn)1(1)
J(fwa2)* (EwJtz)
V Jc=Ik=l
[0049]其中Wik為文本向量Cli的第k維屬性權(quán)重,m是文本特征向量的維度;
[0050](5)將所有文本相似度按降序排列,選出與測(cè)試文本最相鄰的k個(gè)訓(xùn)練文本;
[0051](6)基于測(cè)試文本與其k個(gè)近鄰的相似度,以及k個(gè)近鄰的類別,計(jì)算測(cè)試文本屬于每一個(gè)類別的權(quán)重:
k
[0052]u (γ) = Σ 6 (Xi )sim(X, Xi)
-1 (2)
[0053]其中,μ J(Xi) e {O, 1}含義為文本Xi是否屬于類別Cj ;sim(X, Xi)表示測(cè)試文本X與訓(xùn)練文本Xi的相似度。決策方法為:如果μ i⑴=max μ j⑴,則決策X e C1,即類別權(quán)重最大的作為測(cè)試文本的所屬類別。
[0054]本發(fā)明中聚類部分使用劃分法中的k-means方法,基于傳統(tǒng)kneans方法的文本聚類主要包括如下過(guò)程:
[0055](I)首先從η個(gè)數(shù)據(jù)對(duì)象中任意選擇k個(gè)對(duì)象作為初始聚類中心;
[0056](2)對(duì)所有對(duì)象,根據(jù)它們與聚類中心的相似度(距離),分別將它們劃分到與其最相似的簇(聚類中心所代表的簇);
[0057](3)計(jì)算每個(gè)新簇的聚類中心,也即該簇中所有對(duì)象的均值;不斷重復(fù)(2) (3)直到所有對(duì)象的簇不再改變?yōu)橹梗?br>
[0058](4)統(tǒng)計(jì)各個(gè)對(duì)象分別歸屬于哪一個(gè)聚類中心,再對(duì)各個(gè)簇進(jìn)行統(tǒng)計(jì)分析,從而可以發(fā)現(xiàn)熱點(diǎn)事件。
[0059]本發(fā)明從網(wǎng)絡(luò)上搜集新聞并進(jìn)行熱點(diǎn)事件分析,【具體實(shí)施方式】為:
[0060]一、分類部分
[0061](I)利用網(wǎng)絡(luò)爬蟲(chóng)或相關(guān)網(wǎng)絡(luò)信息抓取工具從互聯(lián)網(wǎng)上抓取一定數(shù)目的各個(gè)領(lǐng)域有代表性的文章構(gòu)成文本分類系統(tǒng)的訓(xùn)練樣本集,再?gòu)拈T戶新聞網(wǎng)站隨機(jī)抓取一些文章構(gòu)成測(cè)試樣本集。
[0062](2)對(duì)這些文本進(jìn)行預(yù)處理,分詞后去掉停用詞,得到特征詞,統(tǒng)計(jì)詞的頻度和反文檔頻率,并根據(jù)X 2特征評(píng)價(jià)方法分別計(jì)算出一個(gè)特征詞相對(duì)于每個(gè)類別的權(quán)重并求和得到特征評(píng)價(jià)值。將每個(gè)特征詞的最終權(quán)重設(shè)為:TF-1DF。對(duì)訓(xùn)練集中文本按類別分別選取一定數(shù)量(記為Nf)特征詞。利用所有這些特征詞將訓(xùn)練集中每篇文章表示為文本向量的形式。
[0063](3)同樣,對(duì)于測(cè)試樣本集中的每個(gè)測(cè)試文本,利用所有類別全部的特征詞對(duì)其進(jìn)行特征詞掃描,并將每一維的特征權(quán)重設(shè)為TF-1DF,從而得到測(cè)試文本的文本向量。
[0064](4)對(duì)每個(gè)測(cè)試文本\,計(jì)算它與訓(xùn)練集中每個(gè)文本的余弦相似度,在訓(xùn)練集中找到Xq的K-最近鄰子集(X1,…,XJ,計(jì)算公式如下:
Twgk* wJt
[0065]sim{dq,dj)=,,廣1 m
J(Zwg/c2)*(ZwJk2)
V 女=1k=l
[0066]式中d,表示測(cè)試文本的特征向量,Clj為訓(xùn)練文本序號(hào)為j文本的特征向量,m為特征向量的維度,Wjk表示文本j的特征向量的第k維權(quán)重。
[0067](5)基于測(cè)試文本X與其k個(gè)近鄰的余弦相似度以及k個(gè)近鄰的類別,計(jì)算測(cè)試文本X屬于每一個(gè)類別的權(quán)重:
[0068]Mj (X) = Σ Mj )sim{X, Xi)
[0069]其中,μ j(Xi) e {O, 1}含義為測(cè)試文本的近鄰文本Xi是否屬于Cj ;sim(X, Xi)表示測(cè)試文本與訓(xùn)練文本Xi的余弦相似度。決策方法為:如果U1(X) = maxy j(X),則決策X e C1,即類別權(quán)重最大的作為測(cè)試文本的所屬類別。
[0070]最終得到所有測(cè)試文本的分類結(jié)果,為下面的聚類分析和熱點(diǎn)事件發(fā)現(xiàn)做好準(zhǔn)備。
[0071]二、聚類部分
[0072]根據(jù)分類結(jié)果,利用聚類方法分別對(duì)各個(gè)類別進(jìn)行熱點(diǎn)事件發(fā)現(xiàn)。這里聚類采用的是K-means聚類方法。熱點(diǎn)分析子系統(tǒng)主要包括聚類模塊,熱點(diǎn)特征詞提取模塊,熱點(diǎn)事件分析模塊等。
[0073](I)聚類模塊:根據(jù)文本分類的結(jié)果,分別對(duì)測(cè)試語(yǔ)料庫(kù)中各個(gè)類別的所有文本進(jìn)行聚類處理,進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)簇。對(duì)文本預(yù)處理子系統(tǒng)中提供的文本向量,利用K-means聚類模塊進(jìn)行相關(guān)的運(yùn)算,得到聚類的結(jié)果,從而發(fā)現(xiàn)與熱點(diǎn)相關(guān)的簇和屬于該簇的文本集合,對(duì)每個(gè)類別的所有測(cè)試文本的聚類分析包括如下步驟:
[0074]步驟1:首選隨機(jī)選出k個(gè)文本對(duì)象,每個(gè)被選擇的文本對(duì)象表示一個(gè)簇的初始中心;
[0075]步驟2:計(jì)算該類別中的每個(gè)文本對(duì)象與各個(gè)簇中心的距離,并把劃分到離它最近的聚類中心所在的簇中,之后利用各簇中所有文本對(duì)象的文本特征向量的均值更新簇中心;
[0076]步驟3:重復(fù)上述步驟2,直到該類別所有測(cè)試文本對(duì)象\的簇不再變化為止,這樣就得到了平均誤差最小的k個(gè)熱點(diǎn)簇C1, C2,…,ck。對(duì)測(cè)試集中每個(gè)類別分別得到若干熱點(diǎn)簇;
[0077](2)熱點(diǎn)特征詞提取模塊:根據(jù)聚類模塊計(jì)算出的各個(gè)簇中心,對(duì)每個(gè)簇中心而言,把簇中心的特征向量中權(quán)重較大的80 %的特征詞提取出來(lái),作為該熱點(diǎn)的代表性特征,這樣可以更加明確熱點(diǎn)事件,也便于之后的熱點(diǎn)事件的分析和描述;
[0078](3)熱點(diǎn)事件分析模塊:利用各個(gè)特征詞的詞性和相關(guān)的語(yǔ)言知識(shí),對(duì)由提取模塊得到的各個(gè)熱點(diǎn)事件的特征詞進(jìn)行必要的語(yǔ)言組織,從而形成熱點(diǎn)事件的完整描述。權(quán)值排序倒數(shù)20%的特征詞也有一定的價(jià)值,雖然這些特征的權(quán)重較小,但是也可以從側(cè)面為熱點(diǎn)提供一定的附加信息。
【權(quán)利要求】
1.一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法,其特征在于,所述方法包括如下步驟: 步驟1:利用KNN分類方法對(duì)測(cè)試文本進(jìn)行分類,包括: 步驟1-1:構(gòu)建訓(xùn)練語(yǔ)料庫(kù)和測(cè)試語(yǔ)料庫(kù),利用訓(xùn)練語(yǔ)料庫(kù)提取特征詞并進(jìn)行特征選擇; 步驟1-2:掃描并統(tǒng)計(jì)每一篇訓(xùn)練文本、測(cè)試文本在所有特征空間中的向量,采用TF-1DF的方法確定向量中每一維的權(quán)重; 步驟1-3:對(duì)測(cè)試集中的每個(gè)測(cè)試文本X,按余弦距離法在訓(xùn)練集中找到它的K-最近鄰子集(X1, - ,XJ ; 步驟1-4:基于測(cè)試文本X與其k個(gè)近鄰的余弦相似度以及k個(gè)近鄰的類別,計(jì)算測(cè)試文本X屬于每一個(gè)類別的權(quán)重:
i=\ 其中,Uj(Xi) e {0,1}含義為測(cè)試文本的近鄰文本Xi是否屬于Cysimaxi)表示測(cè)試文本與訓(xùn)練文本Xi的余弦相似度;決策方法為:如果μ: (X) = max μ j⑴,則決策X e C1,即類別權(quán)重最大的作為測(cè)試文本的所屬類別,最終得到所有測(cè)試文本的分類結(jié)果,為下面的聚類分析和熱點(diǎn)事件發(fā)現(xiàn)做好準(zhǔn)備; 步驟2:根據(jù)分類結(jié)果,利用聚類方法分別對(duì)各個(gè)類別的測(cè)試文本進(jìn)行熱點(diǎn)事件發(fā)現(xiàn);熱點(diǎn)分析子系統(tǒng)包括聚類、熱點(diǎn)特征詞提取、熱點(diǎn)事件分析等模塊,包括: 步驟2-1:聚類;根據(jù)文本分類的結(jié)果,分別對(duì)測(cè)試語(yǔ)料庫(kù)中各個(gè)類別的所有文本進(jìn)行聚類處理,進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)簇;對(duì)文本預(yù)處理子系統(tǒng)中提供的文本向量,利用K-means聚類模塊進(jìn)行相關(guān)的運(yùn)算,得到聚類的結(jié)果,從而發(fā)現(xiàn)與熱點(diǎn)相關(guān)的簇和屬于該簇的文本集合,對(duì)每個(gè)類別的所有測(cè)試文本的聚類分析包括如下步驟: 第一步:首選隨機(jī)選出k個(gè)文本對(duì)象,每個(gè)被選擇的文本對(duì)象表示一個(gè)簇的初始中心;第二步:計(jì)算該類別中的每個(gè)文本對(duì)象Xj與各個(gè)簇中心的距離,并把Xj劃分到離它最近的聚類中心所在的簇中,之后利用各簇中所有文本對(duì)象的文本特征向量的均值更新簇中心; 第三步:重復(fù)上述第二步,直到該類別所有測(cè)試文本對(duì)象\的簇不再變化為止,這樣就得到了 k個(gè)熱點(diǎn)簇C1, C2,…,Ck ;對(duì)測(cè)試集中每個(gè)類別分別得到若干熱點(diǎn)簇; 步驟2-2:熱點(diǎn)特征詞提?。桓鶕?jù)聚類模塊計(jì)算出的各個(gè)簇中心,對(duì)每個(gè)簇中心而言,把簇中心的特征向量中權(quán)重前80%大的特征詞提取出來(lái),作為該熱點(diǎn)的代表性特征; 步驟2-3:熱點(diǎn)事件分析;利用各個(gè)特征詞的詞性和相關(guān)的語(yǔ)言知識(shí),對(duì)由提取模塊得到的各個(gè)熱點(diǎn)事件的特征詞進(jìn)行必要的語(yǔ)言組織,從而形成熱點(diǎn)事件的完整描述;權(quán)值排序倒數(shù)20%的特征詞也有價(jià)值,從側(cè)面為熱點(diǎn)提供附加信息。
2.根據(jù)權(quán)利要求1所述的一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法,其特征在于,所述方法是利用訓(xùn)練語(yǔ)料庫(kù)通過(guò)特征詞提取和特征選擇為各類別文本分別選取特征詞;所述方法采用向量空間模型法將每一篇訓(xùn)練文本、測(cè)試文本表示為在所有特征空間中的向量,并采用TF-1DF的方法確定向量中每一維的權(quán)重;所述方法是利用KNN分類方法對(duì)測(cè)試集中的文本進(jìn)行分類;所述方法是利用文本分類結(jié)果,分別對(duì)各個(gè)類別的所有文本進(jìn)行聚類分析,之后再進(jìn)行相關(guān)統(tǒng)計(jì),進(jìn)而發(fā)現(xiàn)熱點(diǎn)事件。
【文檔編號(hào)】G06F17/30GK104239436SQ201410432539
【公開(kāi)日】2014年12月24日 申請(qǐng)日期:2014年8月27日 優(yōu)先權(quán)日:2014年8月27日
【發(fā)明者】成衛(wèi)青, 范恒亮, 盧艷紅 申請(qǐng)人:南京郵電大學(xué)