一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法

文檔序號(hào)：6625243閱讀：278來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法
【專利摘要】本發(fā)明公開(kāi)了一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法，該方法解決了已有的基于聚類分析的熱點(diǎn)事件發(fā)現(xiàn)方法存在的效率和準(zhǔn)確率有待進(jìn)一步提高的問(wèn)題。該方法首先利用訓(xùn)練語(yǔ)料庫(kù)通過(guò)特征詞提取和特征選擇為各類別文本分別選取特征詞，再采用向量空間模型法將每個(gè)訓(xùn)練文本和測(cè)試文本表示為在所有特征空間中的向量，并采用TF-IDF方法確定向量中每一維的權(quán)重，然后對(duì)各個(gè)測(cè)試文本進(jìn)行分類，再對(duì)分好類的各個(gè)類別的測(cè)試文本分別進(jìn)行聚類分析，得到各個(gè)類別的熱點(diǎn)簇，再分析得到代表熱點(diǎn)事件的特征詞，進(jìn)而分析熱點(diǎn)各個(gè)特征詞的詞性等，再利用相關(guān)語(yǔ)言知識(shí)，通過(guò)必要的語(yǔ)言組織生成熱點(diǎn)事件的描述。本發(fā)明能有效提高熱點(diǎn)事件發(fā)現(xiàn)的效率和準(zhǔn)確率。
【專利說(shuō)明】一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本挖掘【技術(shù)領(lǐng)域】，特別涉及一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法。

【背景技術(shù)】
[0002]網(wǎng)絡(luò)的發(fā)展，為民眾抒發(fā)內(nèi)心的情緒和態(tài)度提供了一個(gè)理想的表達(dá)渠道，人們可以根據(jù)新聞來(lái)發(fā)表自己的觀點(diǎn)和意見(jiàn)。熱點(diǎn)事件是指在一段時(shí)間、一定區(qū)域范圍引起人們極大關(guān)注的事件，也即吸引公眾一定注意力的公眾事件。突發(fā)事件是網(wǎng)絡(luò)熱點(diǎn)事件中相當(dāng)重要的一個(gè)部分。突發(fā)事件是指突然形成、造成巨大的財(cái)物損失、大量的人員傷亡以及對(duì)人們的日常生活造成嚴(yán)重影響的事件。政府部門需要隨時(shí)對(duì)網(wǎng)絡(luò)的突發(fā)輿情信息進(jìn)行嚴(yán)密的監(jiān)控，希望可以實(shí)時(shí)把握和跟蹤最新的社會(huì)熱點(diǎn)，并判斷其是否對(duì)人們的生活造成了影響。
[0003]對(duì)于現(xiàn)實(shí)出現(xiàn)的各種網(wǎng)絡(luò)熱點(diǎn)事件和相關(guān)的網(wǎng)絡(luò)評(píng)論，社會(huì)管理者和有關(guān)的政府部門必須有能力及時(shí)做出反應(yīng)，防患于未然，防微杜漸，這就需要及時(shí)地對(duì)網(wǎng)絡(luò)熱點(diǎn)事件進(jìn)行監(jiān)控、跟蹤和處理。
[0004]文本分類是指在給定分類體系下，根據(jù)文本的內(nèi)容將其分到相應(yīng)預(yù)定義類別中的過(guò)程。文本分類過(guò)程實(shí)際上是對(duì)文本的模式特征進(jìn)行識(shí)別，其中的關(guān)鍵技術(shù)包括文本預(yù)處理、特征提取、分類模型等。將物理或抽象對(duì)象的集合分成由類似對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合，這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似，與其他簇中的對(duì)象相異。話題發(fā)現(xiàn)與跟蹤技術(shù)是一項(xiàng)針對(duì)新聞信息進(jìn)行話題的提取和后續(xù)跟蹤的信息處理技術(shù)。
[0005]熱點(diǎn)事件發(fā)現(xiàn)是要發(fā)現(xiàn)某個(gè)以前未知的熱點(diǎn)話題，它實(shí)際上是一個(gè)聚類過(guò)程，聚類形成的每個(gè)簇都表示一個(gè)話題，話題可以通過(guò)不同的聚類方法來(lái)發(fā)現(xiàn)。不過(guò)，單純通過(guò)聚類發(fā)現(xiàn)熱點(diǎn)事件，存在準(zhǔn)確率不高和效率低下的問(wèn)題。而本發(fā)明能夠很好地解決上面的問(wèn)題。

【發(fā)明內(nèi)容】

[0006]本發(fā)明目的在于提供一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法，該方法用于解決傳統(tǒng)的單一基于聚類的熱點(diǎn)事件發(fā)現(xiàn)方法中存在的聚類方法效率和準(zhǔn)確率有待進(jìn)一步提聞的問(wèn)題。
[0007]本發(fā)明解決其技術(shù)問(wèn)題所采取的技術(shù)方案是:本發(fā)明將文本分類應(yīng)用于熱點(diǎn)事件發(fā)現(xiàn)中，提出采用先分類再聚類的方法來(lái)解決聚類方法存在的一些缺點(diǎn)。本發(fā)明采用的方法是先對(duì)網(wǎng)絡(luò)文本進(jìn)行分類，之后再針對(duì)各個(gè)類別的文本集分別利用熱點(diǎn)發(fā)現(xiàn)系統(tǒng)進(jìn)行處理，從而發(fā)現(xiàn)熱點(diǎn)事件。本發(fā)明基于的原理是:一個(gè)熱點(diǎn)事件相關(guān)聯(lián)的若干數(shù)量的文本，包含一定數(shù)量的相同特征詞，在文本類別屬性上也應(yīng)該是相同的。
[0008]方法流程:
[0009]本發(fā)明提出一種基于文本分類和聚類技術(shù)的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)方法，該方法是利用KNN分類方法對(duì)測(cè)試集中的文本進(jìn)行分類，再利用文本分類結(jié)果，分別對(duì)各個(gè)類別的所有文本進(jìn)行聚類分析，之后再進(jìn)行相關(guān)統(tǒng)計(jì)，進(jìn)而發(fā)現(xiàn)熱點(diǎn)事件，該方法包括如下步驟:
[0010]步驟1:利用KNN分類方法對(duì)測(cè)試文本進(jìn)行分類；
[0011]步驟1-1:構(gòu)建訓(xùn)練語(yǔ)料庫(kù)(即DTrain)和測(cè)試語(yǔ)料庫(kù)(即DTest)，利用訓(xùn)練語(yǔ)料庫(kù)提取特征詞并進(jìn)行特征選擇。訓(xùn)練集可以采用網(wǎng)上發(fā)布的已有的中文語(yǔ)料庫(kù)，測(cè)試樣本可以從BBS論壇、門戶網(wǎng)站新聞版面獲取，可利用網(wǎng)頁(yè)采集模塊在互聯(lián)網(wǎng)上搜索和下載所需的網(wǎng)頁(yè)，通過(guò)網(wǎng)頁(yè)清洗模塊對(duì)已下載文檔中的廣告等干擾信息進(jìn)行處理，并利用HTMLParser技術(shù)對(duì)網(wǎng)頁(yè)中的主體內(nèi)容進(jìn)行抽取，完成網(wǎng)頁(yè)文本信息的前期處理工作。對(duì)文本再做分詞、去除停用詞等處理，得到特征詞，再基于X 2特征評(píng)價(jià)函數(shù)進(jìn)行特征選擇，為訓(xùn)練集中各類別文本分別選取一定數(shù)量的特征詞；
[0012]步驟1-2:掃描并統(tǒng)計(jì)每一篇訓(xùn)練文本、測(cè)試文本在所有特征空間中的向量，采用TF-1DF的方法確定向量中每一維的權(quán)重；
[0013]步驟1-3:對(duì)測(cè)試集(即DTest)中的每個(gè)測(cè)試文本X，按余弦距離法在訓(xùn)練集(即DTrain)中找到它的K-最近鄰子集(X1, - ,Xj ；
[0014]步驟1-4:基于測(cè)試文本X與其k個(gè)近鄰的余弦相似度以及k個(gè)近鄰的類別，計(jì)算測(cè)試文本X屬于每一個(gè)類別的權(quán)重:
[0015]Pj (^) = Σ /0 (xi Xi)

/=1
[0016]其中，Uj(Xi) e {0，1}含義為測(cè)試文本的近鄰文本Xi是否屬于Cj Aimaxi)表示測(cè)試文本與訓(xùn)練文本Xi的余弦相似度。決策方法為:如果U1(X) = maxy j(X),則決策X e C1，即類別權(quán)重最大的作為測(cè)試文本的所屬類別。最終得到所有測(cè)試文本的分類結(jié)果，為下面的聚類分析和熱點(diǎn)事件發(fā)現(xiàn)做好準(zhǔn)備；
[0017]步驟2:根據(jù)分類結(jié)果，利用聚類方法分別對(duì)各個(gè)類別的測(cè)試文本進(jìn)行熱點(diǎn)事件發(fā)現(xiàn)；熱點(diǎn)分析子系統(tǒng)包括聚類、熱點(diǎn)特征詞提取、熱點(diǎn)事件分析等模塊，具體步驟為:
[0018]步驟2-1:聚類；根據(jù)文本分類的結(jié)果，分別對(duì)測(cè)試語(yǔ)料庫(kù)中各個(gè)類別的所有文本進(jìn)行聚類處理，進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)簇。對(duì)文本預(yù)處理子系統(tǒng)中提供的文本向量，利用K-means聚類模塊進(jìn)行相關(guān)的運(yùn)算，得到聚類的結(jié)果，從而發(fā)現(xiàn)與熱點(diǎn)相關(guān)的簇和屬于該簇的文本集合，對(duì)每個(gè)類別的所有測(cè)試文本的聚類分析包括如下步驟:
[0019]步驟1:首選隨機(jī)選出k個(gè)文本對(duì)象，每個(gè)被選擇的文本對(duì)象表示一個(gè)簇的初始中心；
[0020]步驟2:計(jì)算該類別中的每個(gè)文本對(duì)象與各個(gè)簇中心的距離，并把劃分到離它最近的聚類中心所在的簇中，之后利用各簇中所有文本對(duì)象的文本特征向量的均值更新簇中心；
[0021]步驟3:重復(fù)上述步驟2，直到該類別所有測(cè)試文本對(duì)象\的簇不再變化為止，這樣就得到了 k個(gè)熱點(diǎn)簇C1, C2,…，ck。對(duì)測(cè)試集中每個(gè)類別分別得到若干熱點(diǎn)簇；
[0022]步驟2-2:熱點(diǎn)特征詞提取:根據(jù)聚類模塊計(jì)算出的各個(gè)簇中心，對(duì)每個(gè)簇中心而言，把簇中心的特征向量中權(quán)重前80%大的特征詞提取出來(lái)，作為該熱點(diǎn)的代表性特征，這樣可以更加明確熱點(diǎn)事件，也便于之后的熱點(diǎn)事件的分析和描述；
[0023]步驟2-3:熱點(diǎn)事件分析:利用各個(gè)特征詞的詞性和相關(guān)的語(yǔ)言知識(shí)，對(duì)由提取模塊得到的各個(gè)熱點(diǎn)事件的特征詞進(jìn)行必要的語(yǔ)言組織，從而形成熱點(diǎn)事件的完整描述。權(quán)值排序倒數(shù)20%的特征詞也有一定的價(jià)值，雖然這些特征的權(quán)重較小，但可以從側(cè)面為熱點(diǎn)提供一定的附加信息。
[0024]有益效果:
[0025]1、本發(fā)明解決了已有的基于聚類分析的熱點(diǎn)事件發(fā)現(xiàn)方法存在的時(shí)空復(fù)雜度高和熱點(diǎn)事件發(fā)現(xiàn)準(zhǔn)確率較低等問(wèn)題，提高了熱點(diǎn)事件發(fā)現(xiàn)的效率和準(zhǔn)確率。
[0026]2、本發(fā)明減少了聚類方法的時(shí)空復(fù)雜度。
[0027]3、本發(fā)明能夠有效地提取特征詞，也便于文本降維，減少了不同類別熱點(diǎn)事件之間的影響，從而提高了熱點(diǎn)事件發(fā)現(xiàn)的成功率。

【專利附圖】

【附圖說(shuō)明】
[0028]圖1為本發(fā)明基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法的流程圖。

【具體實(shí)施方式】
[0029]以下結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說(shuō)明。
[0030]如圖1所示，本發(fā)明提出一種基于文本分類和聚類技術(shù)的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)方法，該方法包括如下步驟:
[0031 ] 步驟1:利用KNN分類方法對(duì)測(cè)試文本進(jìn)行分類；
[0032]步驟1-1:構(gòu)建訓(xùn)練語(yǔ)料庫(kù)(即DTrain)和測(cè)試語(yǔ)料庫(kù)(即DTest)，利用訓(xùn)練語(yǔ)料庫(kù)提取特征詞并進(jìn)行特征選擇。訓(xùn)練集采用網(wǎng)上發(fā)布的已有的中文語(yǔ)料庫(kù)，測(cè)試樣本可以從BBS論壇、門戶網(wǎng)站新聞版面獲取，利用網(wǎng)頁(yè)采集模塊在互聯(lián)網(wǎng)上搜索和下載所需的網(wǎng)頁(yè)，通過(guò)網(wǎng)頁(yè)清洗模塊對(duì)已下載文檔中的廣告等干擾信息進(jìn)行處理，并利用HTMLParser技術(shù)對(duì)網(wǎng)頁(yè)中的主體內(nèi)容進(jìn)行抽取，完成網(wǎng)頁(yè)文本信息的前期處理工作。對(duì)文本再做分詞、去除停用詞等處理，得到特征詞，再基于X 2特征評(píng)價(jià)函數(shù)進(jìn)行特征選擇，為訓(xùn)練集中各類別文本分別選取一定數(shù)量的特征詞；
[0033]步驟1-2:掃描并統(tǒng)計(jì)每一篇訓(xùn)練文本、測(cè)試文本在所有特征空間中的向量，采用TF-1DF的方法確定向量中每一維的權(quán)重；
[0034]步驟1-3:對(duì)測(cè)試集(即DTest)中的每個(gè)測(cè)試文本X，按余弦距離法在訓(xùn)練集(即DTrain)中找到它的K-最近鄰子集(X1, - ,Xj ；
[0035]步驟1-4:基于測(cè)試文本X與其k個(gè)近鄰的余弦相似度以及k個(gè)近鄰的類別，計(jì)算測(cè)試文本X屬于每一個(gè)類別的權(quán)重:
[0036]Mj (X) = Σ Mj (XiXi)

/=1
[0037]其中，μ j(Xi) e {O, 1}含義為測(cè)試文本的近鄰文本Xi是否屬于Cj ；sim(X, Xi)表示測(cè)試文本與訓(xùn)練文本Xi的余弦相似度。決策方法為:如果U1(X) = maxy j(X),則決策X e C1，即類別權(quán)重最大的作為測(cè)試文本的所屬類別。最終得到所有測(cè)試文本的分類結(jié)果，為下面的聚類分析和熱點(diǎn)事件發(fā)現(xiàn)做好準(zhǔn)備；
[0038]步驟2:根據(jù)分類結(jié)果，利用聚類方法分別對(duì)各個(gè)類別的測(cè)試文本進(jìn)行熱點(diǎn)事件發(fā)現(xiàn)；熱點(diǎn)分析子系統(tǒng)主要包括聚類、熱點(diǎn)特征詞提取、熱點(diǎn)事件分析等模塊，具體步驟為:
[0039]步驟2-1:聚類；根據(jù)文本分類的結(jié)果，分別對(duì)測(cè)試語(yǔ)料庫(kù)中各個(gè)類別的所有文本進(jìn)行聚類處理，進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)簇。對(duì)文本預(yù)處理子系統(tǒng)中提供的文本向量，利用K-means聚類模塊進(jìn)行相關(guān)的運(yùn)算，得到聚類的結(jié)果，從而發(fā)現(xiàn)與熱點(diǎn)相關(guān)的簇和屬于該簇的文本集合；
[0040]步驟2-2:熱點(diǎn)特征詞提取:根據(jù)聚類模塊計(jì)算出的各個(gè)簇中心，對(duì)每個(gè)簇中心而言，把簇中心的特征向量中權(quán)重前80%大的特征詞提取出來(lái)，作為該熱點(diǎn)的代表性特征，這樣可以更加明確熱點(diǎn)事件，也便于之后的熱點(diǎn)事件的分析和描述；
[0041]步驟2-3:熱點(diǎn)事件分析:利用各個(gè)特征詞的詞性和相關(guān)的語(yǔ)言知識(shí)，對(duì)由提取模塊得到的各個(gè)熱點(diǎn)事件的特征詞進(jìn)行必要的語(yǔ)言組織，從而形成熱點(diǎn)事件的完整描述。權(quán)值排序倒數(shù)20%的特征詞也有一定的價(jià)值，雖然這些特征的權(quán)重較小，但是也可以從側(cè)面為熱點(diǎn)提供一定的附加信息。
[0042]本發(fā)明是采用KNN方法來(lái)對(duì)文本進(jìn)行分類處理。
[0043]本發(fā)明基于傳統(tǒng)KNN方法的文本分類過(guò)程，具體包括如下步驟:
[0044](I)文本的預(yù)處理，主要包括分詞、去除停用詞等；
[0045](2)特征選擇，即從經(jīng)預(yù)處理得到的數(shù)量仍然較大的特征詞中進(jìn)行篩選，選取對(duì)分類較重要的特征詞，其主要方法有:互信息、交叉熵、信息增益、X 2統(tǒng)計(jì)方法、文本證據(jù)權(quán)等;
[0046](3)掃描并統(tǒng)計(jì)每一篇訓(xùn)練文本在所有特征空間中的向量，采用TF-1DF的方法確定向量中每一維的權(quán)重；
[0047](4)對(duì)于一篇待分類的文本，也稱測(cè)試文本，提取特征詞并計(jì)算文本向量的各維權(quán)重，之后計(jì)算該文本與每一篇訓(xùn)練文本的相似度，一般采用余弦距離的方法:

m
[0048]sim、di O= j '產(chǎn)1(1)

J(fwa2)* (EwJtz)

V Jc=Ik=l
[0049]其中Wik為文本向量Cli的第k維屬性權(quán)重，m是文本特征向量的維度；
[0050](5)將所有文本相似度按降序排列，選出與測(cè)試文本最相鄰的k個(gè)訓(xùn)練文本；
[0051](6)基于測(cè)試文本與其k個(gè)近鄰的相似度，以及k個(gè)近鄰的類別，計(jì)算測(cè)試文本屬于每一個(gè)類別的權(quán)重:

k
[0052]u (γ) = Σ 6 (Xi )sim(X, Xi)
-1 (2)
[0053]其中，μ J(Xi) e {O, 1}含義為文本Xi是否屬于類別Cj ；sim(X, Xi)表示測(cè)試文本X與訓(xùn)練文本Xi的相似度。決策方法為:如果μ i⑴=max μ j⑴，則決策X e C1,即類別權(quán)重最大的作為測(cè)試文本的所屬類別。
[0054]本發(fā)明中聚類部分使用劃分法中的k-means方法,基于傳統(tǒng)kneans方法的文本聚類主要包括如下過(guò)程:
[0055](I)首先從η個(gè)數(shù)據(jù)對(duì)象中任意選擇k個(gè)對(duì)象作為初始聚類中心；
[0056](2)對(duì)所有對(duì)象，根據(jù)它們與聚類中心的相似度(距離)，分別將它們劃分到與其最相似的簇(聚類中心所代表的簇)；
[0057](3)計(jì)算每個(gè)新簇的聚類中心，也即該簇中所有對(duì)象的均值；不斷重復(fù)(2) (3)直到所有對(duì)象的簇不再改變?yōu)橹梗?br> [0058](4)統(tǒng)計(jì)各個(gè)對(duì)象分別歸屬于哪一個(gè)聚類中心，再對(duì)各個(gè)簇進(jìn)行統(tǒng)計(jì)分析，從而可以發(fā)現(xiàn)熱點(diǎn)事件。
[0059]本發(fā)明從網(wǎng)絡(luò)上搜集新聞并進(jìn)行熱點(diǎn)事件分析，【具體實(shí)施方式】為:
[0060]一、分類部分
[0061](I)利用網(wǎng)絡(luò)爬蟲(chóng)或相關(guān)網(wǎng)絡(luò)信息抓取工具從互聯(lián)網(wǎng)上抓取一定數(shù)目的各個(gè)領(lǐng)域有代表性的文章構(gòu)成文本分類系統(tǒng)的訓(xùn)練樣本集,再?gòu)拈T戶新聞網(wǎng)站隨機(jī)抓取一些文章構(gòu)成測(cè)試樣本集。
[0062](2)對(duì)這些文本進(jìn)行預(yù)處理，分詞后去掉停用詞，得到特征詞，統(tǒng)計(jì)詞的頻度和反文檔頻率，并根據(jù)X 2特征評(píng)價(jià)方法分別計(jì)算出一個(gè)特征詞相對(duì)于每個(gè)類別的權(quán)重并求和得到特征評(píng)價(jià)值。將每個(gè)特征詞的最終權(quán)重設(shè)為:TF-1DF。對(duì)訓(xùn)練集中文本按類別分別選取一定數(shù)量(記為Nf)特征詞。利用所有這些特征詞將訓(xùn)練集中每篇文章表示為文本向量的形式。
[0063](3)同樣，對(duì)于測(cè)試樣本集中的每個(gè)測(cè)試文本，利用所有類別全部的特征詞對(duì)其進(jìn)行特征詞掃描，并將每一維的特征權(quán)重設(shè)為TF-1DF，從而得到測(cè)試文本的文本向量。
[0064](4)對(duì)每個(gè)測(cè)試文本\，計(jì)算它與訓(xùn)練集中每個(gè)文本的余弦相似度，在訓(xùn)練集中找到Xq的K-最近鄰子集(X1,…，XJ，計(jì)算公式如下:

Twgk* wJt
[0065]sim{dq,dj)=,,廣1 m

J(Zwg/c2)*(ZwJk2)

V 女=1k=l
[0066]式中d,表示測(cè)試文本的特征向量，Clj為訓(xùn)練文本序號(hào)為j文本的特征向量，m為特征向量的維度，Wjk表示文本j的特征向量的第k維權(quán)重。
[0067](5)基于測(cè)試文本X與其k個(gè)近鄰的余弦相似度以及k個(gè)近鄰的類別，計(jì)算測(cè)試文本X屬于每一個(gè)類別的權(quán)重:
[0068]Mj (X) = Σ Mj )sim{X, Xi)
[0069]其中，μ j(Xi) e {O, 1}含義為測(cè)試文本的近鄰文本Xi是否屬于Cj ；sim(X, Xi)表示測(cè)試文本與訓(xùn)練文本Xi的余弦相似度。決策方法為:如果U1(X) = maxy j(X),則決策X e C1，即類別權(quán)重最大的作為測(cè)試文本的所屬類別。
[0070]最終得到所有測(cè)試文本的分類結(jié)果，為下面的聚類分析和熱點(diǎn)事件發(fā)現(xiàn)做好準(zhǔn)備。
[0071]二、聚類部分
[0072]根據(jù)分類結(jié)果，利用聚類方法分別對(duì)各個(gè)類別進(jìn)行熱點(diǎn)事件發(fā)現(xiàn)。這里聚類采用的是K-means聚類方法。熱點(diǎn)分析子系統(tǒng)主要包括聚類模塊，熱點(diǎn)特征詞提取模塊，熱點(diǎn)事件分析模塊等。
[0073](I)聚類模塊:根據(jù)文本分類的結(jié)果，分別對(duì)測(cè)試語(yǔ)料庫(kù)中各個(gè)類別的所有文本進(jìn)行聚類處理，進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)簇。對(duì)文本預(yù)處理子系統(tǒng)中提供的文本向量，利用K-means聚類模塊進(jìn)行相關(guān)的運(yùn)算，得到聚類的結(jié)果，從而發(fā)現(xiàn)與熱點(diǎn)相關(guān)的簇和屬于該簇的文本集合，對(duì)每個(gè)類別的所有測(cè)試文本的聚類分析包括如下步驟:
[0074]步驟1:首選隨機(jī)選出k個(gè)文本對(duì)象，每個(gè)被選擇的文本對(duì)象表示一個(gè)簇的初始中心；
[0075]步驟2:計(jì)算該類別中的每個(gè)文本對(duì)象與各個(gè)簇中心的距離，并把劃分到離它最近的聚類中心所在的簇中，之后利用各簇中所有文本對(duì)象的文本特征向量的均值更新簇中心；
[0076]步驟3:重復(fù)上述步驟2，直到該類別所有測(cè)試文本對(duì)象\的簇不再變化為止，這樣就得到了平均誤差最小的k個(gè)熱點(diǎn)簇C1, C2，…，ck。對(duì)測(cè)試集中每個(gè)類別分別得到若干熱點(diǎn)簇；
[0077](2)熱點(diǎn)特征詞提取模塊:根據(jù)聚類模塊計(jì)算出的各個(gè)簇中心，對(duì)每個(gè)簇中心而言，把簇中心的特征向量中權(quán)重較大的80 %的特征詞提取出來(lái)，作為該熱點(diǎn)的代表性特征，這樣可以更加明確熱點(diǎn)事件，也便于之后的熱點(diǎn)事件的分析和描述；
[0078](3)熱點(diǎn)事件分析模塊:利用各個(gè)特征詞的詞性和相關(guān)的語(yǔ)言知識(shí)，對(duì)由提取模塊得到的各個(gè)熱點(diǎn)事件的特征詞進(jìn)行必要的語(yǔ)言組織，從而形成熱點(diǎn)事件的完整描述。權(quán)值排序倒數(shù)20%的特征詞也有一定的價(jià)值，雖然這些特征的權(quán)重較小，但是也可以從側(cè)面為熱點(diǎn)提供一定的附加信息。
【權(quán)利要求】
1.一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法，其特征在于，所述方法包括如下步驟: 步驟1:利用KNN分類方法對(duì)測(cè)試文本進(jìn)行分類，包括: 步驟1-1:構(gòu)建訓(xùn)練語(yǔ)料庫(kù)和測(cè)試語(yǔ)料庫(kù)，利用訓(xùn)練語(yǔ)料庫(kù)提取特征詞并進(jìn)行特征選擇；步驟1-2:掃描并統(tǒng)計(jì)每一篇訓(xùn)練文本、測(cè)試文本在所有特征空間中的向量，采用TF-1DF的方法確定向量中每一維的權(quán)重；步驟1-3:對(duì)測(cè)試集中的每個(gè)測(cè)試文本X，按余弦距離法在訓(xùn)練集中找到它的K-最近鄰子集(X1, - ,XJ ；步驟1-4:基于測(cè)試文本X與其k個(gè)近鄰的余弦相似度以及k個(gè)近鄰的類別，計(jì)算測(cè)試文本X屬于每一個(gè)類別的權(quán)重:

i=\ 其中，Uj(Xi) e {0,1}含義為測(cè)試文本的近鄰文本Xi是否屬于Cysimaxi)表示測(cè)試文本與訓(xùn)練文本Xi的余弦相似度；決策方法為:如果μ: (X) = max μ j⑴，則決策X e C1,即類別權(quán)重最大的作為測(cè)試文本的所屬類別，最終得到所有測(cè)試文本的分類結(jié)果，為下面的聚類分析和熱點(diǎn)事件發(fā)現(xiàn)做好準(zhǔn)備；步驟2:根據(jù)分類結(jié)果，利用聚類方法分別對(duì)各個(gè)類別的測(cè)試文本進(jìn)行熱點(diǎn)事件發(fā)現(xiàn)；熱點(diǎn)分析子系統(tǒng)包括聚類、熱點(diǎn)特征詞提取、熱點(diǎn)事件分析等模塊，包括: 步驟2-1:聚類；根據(jù)文本分類的結(jié)果，分別對(duì)測(cè)試語(yǔ)料庫(kù)中各個(gè)類別的所有文本進(jìn)行聚類處理，進(jìn)而發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)簇；對(duì)文本預(yù)處理子系統(tǒng)中提供的文本向量，利用K-means聚類模塊進(jìn)行相關(guān)的運(yùn)算，得到聚類的結(jié)果，從而發(fā)現(xiàn)與熱點(diǎn)相關(guān)的簇和屬于該簇的文本集合，對(duì)每個(gè)類別的所有測(cè)試文本的聚類分析包括如下步驟: 第一步:首選隨機(jī)選出k個(gè)文本對(duì)象，每個(gè)被選擇的文本對(duì)象表示一個(gè)簇的初始中心；第二步:計(jì)算該類別中的每個(gè)文本對(duì)象Xj與各個(gè)簇中心的距離，并把Xj劃分到離它最近的聚類中心所在的簇中，之后利用各簇中所有文本對(duì)象的文本特征向量的均值更新簇中心；第三步:重復(fù)上述第二步，直到該類別所有測(cè)試文本對(duì)象\的簇不再變化為止，這樣就得到了 k個(gè)熱點(diǎn)簇C1, C2,…，Ck ;對(duì)測(cè)試集中每個(gè)類別分別得到若干熱點(diǎn)簇；步驟2-2:熱點(diǎn)特征詞提?。桓鶕?jù)聚類模塊計(jì)算出的各個(gè)簇中心，對(duì)每個(gè)簇中心而言，把簇中心的特征向量中權(quán)重前80%大的特征詞提取出來(lái)，作為該熱點(diǎn)的代表性特征；步驟2-3:熱點(diǎn)事件分析；利用各個(gè)特征詞的詞性和相關(guān)的語(yǔ)言知識(shí)，對(duì)由提取模塊得到的各個(gè)熱點(diǎn)事件的特征詞進(jìn)行必要的語(yǔ)言組織，從而形成熱點(diǎn)事件的完整描述；權(quán)值排序倒數(shù)20%的特征詞也有價(jià)值，從側(cè)面為熱點(diǎn)提供附加信息。
2.根據(jù)權(quán)利要求1所述的一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法，其特征在于，所述方法是利用訓(xùn)練語(yǔ)料庫(kù)通過(guò)特征詞提取和特征選擇為各類別文本分別選取特征詞；所述方法采用向量空間模型法將每一篇訓(xùn)練文本、測(cè)試文本表示為在所有特征空間中的向量，并采用TF-1DF的方法確定向量中每一維的權(quán)重；所述方法是利用KNN分類方法對(duì)測(cè)試集中的文本進(jìn)行分類；所述方法是利用文本分類結(jié)果，分別對(duì)各個(gè)類別的所有文本進(jìn)行聚類分析，之后再進(jìn)行相關(guān)統(tǒng)計(jì)，進(jìn)而發(fā)現(xiàn)熱點(diǎn)事件。
【文檔編號(hào)】G06F17/30GK104239436SQ201410432539
【公開(kāi)日】2014年12月24日申請(qǐng)日期:2014年8月27日優(yōu)先權(quán)日:2014年8月27日
【發(fā)明者】成衛(wèi)青, 范恒亮, 盧艷紅申請(qǐng)人:南京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：成衛(wèi)青;范恒亮;盧艷紅
技術(shù)所有人：南京郵電大學(xué)
我是此專利的發(fā)明人

上一篇：一種可靈活定制的電網(wǎng)綜合告警展示方法
上一篇：一種流體分配系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

分類變量聚類分析方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于文本分類和聚類分析的網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)方法