一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法
【專利摘要】一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法,首先對(duì)報(bào)文進(jìn)行劃分得到各個(gè)報(bào)分詞文序列,然后根據(jù)偏移、寬度、語義、類型、數(shù)據(jù)內(nèi)容計(jì)算各個(gè)報(bào)分詞文序列中分詞的相似度,并使用位置和距離對(duì)分析相似度進(jìn)行修正,進(jìn)而得到各個(gè)報(bào)文分析序列的相似度,最后計(jì)算多個(gè)聚類數(shù)量下的聚類有效性評(píng)價(jià)指標(biāo),將聚類有效性評(píng)價(jià)指標(biāo)最大值對(duì)應(yīng)的聚類作為聚類結(jié)果。本發(fā)明與現(xiàn)有技術(shù)相比,通過綜合考察分詞的多個(gè)屬性來對(duì)報(bào)文分詞的相似程度進(jìn)行比對(duì),改善了以往序列比對(duì)中元素的比較僅考慮數(shù)值的片面性,能夠更加全面準(zhǔn)確地判斷網(wǎng)絡(luò)報(bào)文中分詞的相似性,從而提高整體分析的性能。
【專利說明】
-種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法,特別是一種基于序列比對(duì)的自適 應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法。
【背景技術(shù)】
[0002] 當(dāng)前互聯(lián)網(wǎng)中安全問題日益突出,各種攻擊手段層出不窮,而且呈現(xiàn)出通訊更隱 秘,攻擊力更強(qiáng)等特點(diǎn)。在僵尸網(wǎng)絡(luò)防控、深度數(shù)據(jù)包分析,F(xiàn)uzzing測(cè)試等安全研究和技術(shù) 領(lǐng)域,對(duì)于使用未知協(xié)議通訊的發(fā)現(xiàn)和檢測(cè)具有重要意義。而對(duì)于未知協(xié)議,研究其工作原 理,如協(xié)議報(bào)文特征和協(xié)議報(bào)文格式等信息對(duì)于進(jìn)一步加強(qiáng)網(wǎng)絡(luò)監(jiān)控和安全管理與分析等 工作影響深遠(yuǎn)。高效準(zhǔn)確的逆向分析網(wǎng)絡(luò)中未知通訊協(xié)議的相關(guān)信息已成為目前網(wǎng)絡(luò)安全 領(lǐng)域的一個(gè)重點(diǎn)研究?jī)?nèi)容。
[0003] 網(wǎng)絡(luò)協(xié)議報(bào)文格式逆向分析的目標(biāo)是通過分析未知協(xié)議格式的報(bào)文數(shù)據(jù)或分析 協(xié)議實(shí)體對(duì)報(bào)文數(shù)據(jù)的處理過程,獲得報(bào)文的結(jié)構(gòu)信息,并在此基礎(chǔ)上推斷報(bào)文中各個(gè)字 段的語義信息。目前對(duì)協(xié)議報(bào)文的逆向分析主要有兩種方式:基于網(wǎng)絡(luò)的分析和基于程序 的分析。基于程序的分析通過對(duì)協(xié)議程序進(jìn)行動(dòng)態(tài)污點(diǎn)分析,具有較高的準(zhǔn)確度。但多數(shù)情 況下協(xié)議程序無法獲得,使得基于網(wǎng)絡(luò)報(bào)文的數(shù)據(jù)分析方法日漸趨于主流。
[0004] 目前通過網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議格式逆向分析所使用的主要方法如下:網(wǎng)絡(luò)協(xié)議報(bào)文 相似性度量方法主要借鑒文本序列比對(duì)或生物信息中基因序列比對(duì)的技術(shù),有基于最長公 共子序列的序列比對(duì)和基于編輯距離的序列比對(duì)兩種方法;網(wǎng)絡(luò)協(xié)議報(bào)文聚類的方法主要 采取機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中的聚類劃分方法,包含基于均值的聚類和基于中屯、點(diǎn)的聚類兩 種數(shù)據(jù)聚類方法,其中,網(wǎng)絡(luò)協(xié)議報(bào)文相似度度量的結(jié)果是報(bào)文聚類的重要依據(jù)。在相似性 度量和聚類的過程中,分別存在如下的問題:
[0005] 報(bào)文相似性度量通過引進(jìn)文本序列比對(duì)或基因序列比對(duì)中的方法來實(shí)現(xiàn),能夠在 一定程度上度量組成兩個(gè)報(bào)文的字段序列的相似度。但是在比較的過程中,沒有考慮到協(xié) 議報(bào)文結(jié)構(gòu)獨(dú)有的特點(diǎn)。在網(wǎng)絡(luò)協(xié)議的報(bào)文結(jié)構(gòu)中,通常存在位于報(bào)文前部的報(bào)文首部,其 中包含大部分協(xié)議報(bào)文格式的信息,尾部可能存在少量校驗(yàn)等信息,而帶有負(fù)載的報(bào)文中 部大多為負(fù)載數(shù)據(jù),與協(xié)議報(bào)文格式無關(guān)。因此,在進(jìn)行報(bào)文相似性度量的過程中,如果把 報(bào)文不同位置的內(nèi)容相同對(duì)待,就會(huì)很容易受到負(fù)載數(shù)據(jù)的影響,并且忽略對(duì)報(bào)文首尾位 置報(bào)文格式的分析和識(shí)別。
[0006] 在目前常用的聚類方法中,基于中屯、點(diǎn)的聚類更加適用于協(xié)議數(shù)據(jù)包格式聚類的 場(chǎng)景。但是基于中屯、點(diǎn)的聚類在執(zhí)行時(shí),需要事先輸入目標(biāo)聚類的數(shù)量,而運(yùn)在分析未知協(xié) 議時(shí)是無法事先獲知該協(xié)議實(shí)際報(bào)文種類的。此外,對(duì)于聚類數(shù)量的確定,基于中屯、點(diǎn)的聚 類沒有給出具體的方法,而人工判斷也缺乏合適的依據(jù)。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明解決的技術(shù)問題是:克服現(xiàn)有技術(shù)的不足,提供了一種通過綜合考察報(bào)文 分詞的多個(gè)屬性來對(duì)報(bào)文分詞的相似程度進(jìn)行比對(duì),能夠更全面準(zhǔn)確地判斷網(wǎng)絡(luò)報(bào)文中分 詞的相似性,從而提高整體分析的性能的基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類 方法。
[0008] 本發(fā)明的技術(shù)解決方案是:一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類 方法,包括如下步驟:
[0009] (1)獲取需要進(jìn)行報(bào)文聚類的報(bào)文,分別對(duì)各個(gè)報(bào)文進(jìn)行劃分得到分詞,進(jìn)而得到 各個(gè)報(bào)文對(duì)應(yīng)的報(bào)文分詞序列;所述的分詞為報(bào)文中的各個(gè)字段;
[0010] (2)從步驟(1)得到的報(bào)分詞文序列中任意選擇兩個(gè),分別記為T"、Fn,計(jì)算報(bào)文分 詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞關(guān)于偏移的相似度SC〇reP(Tm[i],F(xiàn)n 山).0為
[0011]
[0012]
[OOK] Tm[i].0=Fn[j].0表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分 詞均包括偏移,Tm[i] .O聲Fn[j] .O表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第 j個(gè)分詞不均包括偏移,1 = 1,2,3...111〇 = 1,2,3...11,111為報(bào)文分詞序列1"中分詞的個(gè)數(shù),11 為報(bào)文分詞序列Fn中分詞的個(gè)數(shù),Tm. 1為報(bào)文分詞序列Tm的長度,F(xiàn)n. 1為報(bào)文分詞序列Fn的 長度;所述的偏移為分詞首位到當(dāng)前報(bào)文分詞序列頭部的距離;
[0014] (3)計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞關(guān)于寬度的 相似度 scoreP(Tm[i],F(xiàn)n[j]) .W為
[0015]
[0016] 其中,Tm[i] .W = Fn[ j] .W表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第 j個(gè)分詞寬度相同,Tm[i] .W聲Fn[j] .W表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn 中第j個(gè)分詞寬度不同;所述的寬度為分詞的長度;
[0017] (4)計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞關(guān)于語義的 相似度3(30的?(1"山少山]).3為
[001 引
[0019]其中,Tm[i] .S=FnU] .S表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第 j個(gè)分詞語義相同,Tm[i]. S聲Fn[j]. S表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn 中第j個(gè)分詞語義不同;所述的語義為分詞的含義;
[0020] (5)計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞關(guān)于類型的 相似度 scoreP(Tm[i],F(xiàn)n[j]).t 為
[0021]
[0022] 所還的類型刃分詞類型,其甲,分詞類型包巧義本、二巧制,TmLi」.t = Fn[j].t表示 報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞類型相同,Tm[i].t聲Fn[j].t 表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞類型不同;
[0023] (6)計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞關(guān)于數(shù)據(jù)內(nèi) 容的相似度 scoreP(Tm[i],F(xiàn)n[j]).d 為
[0024]
[0025] 所述的數(shù)據(jù)內(nèi)容為分詞的取值;其中,Tm[i].d = Fn[j].d表示報(bào)文分詞序列Tm中第 i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞數(shù)據(jù)內(nèi)容相同,Tm[i] .d聲Fn[ j] .d表示報(bào)文分詞序 列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞數(shù)據(jù)內(nèi)容不同;
[0026] (7)計(jì)算得到報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞的相似 度scoreP(Tm[i],F(xiàn)n[j])為
[0027] scoreP(Tm[i],F(xiàn)n[ j]) = scoreP(Tm[i],F(xiàn)n[ j]) .o+scoreP(Tm[i],F(xiàn)n[ j]) .w+scoreP (Tm[i],Fn[ j]) .s+scoreP(Tm[i],Fn[ j]).t+scoreP(Tm[i],Fn[ j]).d;
[0028] (8)分別計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞的相對(duì) 位置dis(Tm山,。山])=巾山.0斗。。'].〇|,進(jìn)而計(jì)算得到修正后的報(bào)文分詞序列1"中第1 個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞的相似度SC〇reD(Tm[i],F(xiàn)n[j])為
[0029]
[0030] (9)將3(3〇'6〇(1^1」^。^'」)作為最終的報(bào)文分詞序列1?中第1個(gè)分詞與報(bào)文分詞 序列Fn中第j個(gè)分詞的相似度3(30'6(1"[。術(shù)。。']),重復(fù)步驟(2)-步驟(8)得到各個(gè)報(bào)文分 詞序列中各個(gè)分詞的相似度;
[0031] (10)計(jì)算報(bào)文分詞序列Tl與報(bào)文分詞序列Fj的相似度MS[i,j]為
[0032]
[0033] 其中,i的初值為l,j的初值為l,Ti為包括報(bào)文分詞序列Tm中第e個(gè)分詞的報(bào)文分詞 序列,e = l,2,3. . . i ;
[0034] (ll)i = i+l,重復(fù)步驟(10),直至i=m;
[0035] (12) j = j + l,重復(fù)步驟(10)-步驟(11),直至j=n,得到報(bào)文分詞序列Tm與報(bào)文分 詞序列Fn的相似度MS[m,n],從而得到各個(gè)報(bào)文分詞序列間的相似度;
[0036] (13)根據(jù)步驟(12)得到的各個(gè)報(bào)文分詞序列間的相似度,對(duì)各個(gè)報(bào)文分詞序列進(jìn) 行聚類,得到不同的報(bào)文序列聚類,并記為Ci,C2,. . .,Ck,其中,k為聚類個(gè)數(shù),k=l,2, 3. . .g,g為報(bào)分詞文序列個(gè)數(shù);
[0037] (14)計(jì)算聚類有效性評(píng)價(jià)指標(biāo)Dunn化)為
[00;3 引
[0039] d(Tm,F(xiàn)n)=min{dis(Tm[i],F(xiàn)n[ j])};
[0040] (15)選取聚類有效性評(píng)價(jià)指標(biāo)Dunn化)最大的報(bào)文序列聚類Ci,C2,. . .,Ck作為聚 類結(jié)果。
[0041 ]所述的對(duì)各個(gè)報(bào)文分詞序列進(jìn)行聚類的方法為PAM算法。
[0042] 本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于:
[0043] (1)本發(fā)明通過設(shè)計(jì)基于多因素加權(quán)評(píng)分的報(bào)文分詞序列比對(duì)方案,克服了 W往 序列比對(duì)中忽略網(wǎng)絡(luò)報(bào)文自身結(jié)構(gòu)特性的缺陷,實(shí)現(xiàn)了對(duì)數(shù)據(jù)包的格式結(jié)構(gòu)相似性更加準(zhǔn) 確的度量;
[0044] (2)本發(fā)明通過設(shè)計(jì)報(bào)文自適應(yīng)聚類方案,解決了未知協(xié)議報(bào)文聚類過程中需要 預(yù)先指定聚類數(shù)量的問題,通過使用聚類結(jié)果分析與參數(shù)反饋的有關(guān)方法,實(shí)現(xiàn)了聚類過 程自動(dòng)遞歸執(zhí)行,且有效地提高了分析效率和結(jié)果準(zhǔn)確度;
[0045] (3)本發(fā)明通過綜合考察分詞的多個(gè)屬性來對(duì)報(bào)文分詞的相似程度進(jìn)行比對(duì),改 善了 W往序列比對(duì)中元素的比較僅考慮數(shù)值的片面性,能夠更加全面準(zhǔn)確地判斷網(wǎng)絡(luò)報(bào)文 中分詞的相似性,從而提高整體分析的性能。
【附圖說明】
[0046] 圖1為本發(fā)明網(wǎng)絡(luò)通信數(shù)據(jù)收集過程;
[0047] 圖2為本發(fā)明一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法流程圖。
【具體實(shí)施方式】
[004引如圖1所示為網(wǎng)絡(luò)通信數(shù)據(jù)收集過程,首先使用數(shù)據(jù)包捕獲工具如Wireshark或 tcpdump等在進(jìn)行通信的兩個(gè)或多個(gè)協(xié)議實(shí)體之間對(duì)通信數(shù)據(jù)包進(jìn)行捕獲,然后將運(yùn)些協(xié) 議數(shù)據(jù)包進(jìn)行分解,得到未知網(wǎng)絡(luò)協(xié)議對(duì)應(yīng)的報(bào)文序列作為分析對(duì)象。本發(fā)明在針對(duì)未知 網(wǎng)絡(luò)協(xié)議通過通信數(shù)據(jù)報(bào)文進(jìn)行逆向分析的過程中,對(duì)報(bào)文相似度比對(duì)和報(bào)文聚類方法進(jìn) 行改進(jìn),設(shè)計(jì)針對(duì)網(wǎng)絡(luò)協(xié)議數(shù)據(jù)包格式的報(bào)文字段序列相似度比對(duì)方法和具有反饋?zhàn)詣?dòng)調(diào) 節(jié)功能的聚類算法,提高未知網(wǎng)絡(luò)協(xié)議逆向分析的自動(dòng)化程度和準(zhǔn)確度。
[0049]對(duì)于報(bào)文相似性度量,本發(fā)明方法重點(diǎn)考察網(wǎng)絡(luò)協(xié)議數(shù)據(jù)包首部和尾部一定范圍 內(nèi)的數(shù)據(jù)相似度,結(jié)合并改進(jìn)現(xiàn)有序列比對(duì)技術(shù),設(shè)計(jì)一種新型針對(duì)于未知協(xié)議的報(bào)文相 似性度量方法。對(duì)于報(bào)文聚類,本發(fā)明方法通過引入聚類結(jié)果質(zhì)量評(píng)價(jià)指標(biāo),通過反饋過程 來影響和調(diào)節(jié)聚類的開始參數(shù)(主要是目標(biāo)聚類的數(shù)量),使得整個(gè)分析過程脫離人工干 預(yù),自動(dòng)高效地選擇出合理的最優(yōu)報(bào)文聚類,下面結(jié)合附圖對(duì)本發(fā)明方法進(jìn)行詳細(xì)說明。 [0050] -、報(bào)文分詞序列比對(duì)原理及實(shí)現(xiàn)方法,在格式逆向的預(yù)處理階段,將截獲的未知 協(xié)議數(shù)據(jù)包進(jìn)行初步字段劃分,將報(bào)文分解為由一系列劃分出的分詞(即字段)組成的分詞 序列。
[0化1 ] 本發(fā)明基于編輯距離的UKLevenshtein Distance)算法,通過進(jìn)行相應(yīng)的改造, 設(shè)計(jì)符合報(bào)文分詞序列比對(duì)特點(diǎn)的基于序列比對(duì)的報(bào)文相似度計(jì)算方法(MS算法,Message Similarity)來度量和比較兩個(gè)聚類中報(bào)文分詞序列的相似程度。在使用時(shí),根據(jù)報(bào)文序列 的特點(diǎn),對(duì)其基本評(píng)分規(guī)則進(jìn)行設(shè)計(jì),并根據(jù)位置和距離對(duì)分詞匹配相似程度的影響設(shè)計(jì) 相應(yīng)的位置加權(quán)和距離加權(quán)進(jìn)而優(yōu)化評(píng)分規(guī)則。
[0052] 1)設(shè)置序列元素相似度基本評(píng)分規(guī)則
[0053] 基本評(píng)分規(guī)則是指,在度量?jī)蓚€(gè)序列的相似程度的過程中,首先需要對(duì)兩個(gè)相關(guān) 元素的相似程度進(jìn)行評(píng)價(jià)。在描述協(xié)議格式的分詞序列中,對(duì)分詞屬性的描述包含多個(gè)方 面,如目前已經(jīng)可W分析的偏移(offset,分詞首位到報(bào)文頭部的距離),寬度(width,分詞 本身的長度),語義(syntax,分詞的含義,如長度、序列等,語義識(shí)別在預(yù)處理過程進(jìn)行),類 型(type,本發(fā)明中定義為文本和二進(jìn)制兩種類型)和數(shù)據(jù)內(nèi)容(data,即該分詞本身的取 值)。因此對(duì)分詞的匹配采用分級(jí)方式進(jìn)行評(píng)分,共分為五級(jí):只有一項(xiàng)相同(如偏移相同) 則評(píng)分為1,兩項(xiàng)相同(如偏移和寬度相同)則評(píng)分為2,若五項(xiàng)全部相同,則評(píng)分為5。也就是 說,在基本評(píng)分時(shí),五個(gè)屬性各自權(quán)值也就是基本分值為1。
[0054] 基本評(píng)分規(guī)則形式化描述如下:
[0化5] (1)
[0化6] (2)
[0化7] (3)
[0化引 (斗)
[0化9] 巧)
[0060] 貨)
[0061] 其中,Ti[i],T2[j]表示分詞序列Tl和T2中分別在位置i和位置j進(jìn)行相似度評(píng)價(jià)的 兩個(gè)分詞,i、j為正整數(shù),點(diǎn)下標(biāo)表示分詞的偏移、寬度等屬性,0表示偏移,W表示寬度,S表 示語義,t表示類型,d表示數(shù)據(jù)內(nèi)容,scoreBase(Tl[ i ],T2[ j ]). d表示Tl[ i ],T2[ j ]關(guān)于數(shù)據(jù) 內(nèi)容的相似度評(píng)價(jià)基本評(píng)分結(jié)果,ScoreBase (Tl [ i ],T2 [ j ])為相似度評(píng)價(jià)基本評(píng)分結(jié)果,Tl
[i].〇 = T2[j].o表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞均包括偏 移屬性,Ti[i].o聲T2[j].o表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分 詞不均包括偏移屬性,Ti[i].w = T2[j].w表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列 T2中第j個(gè)分詞的寬度相同,Ti[i] .W聲T2[ j] .W表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分 詞序列T2中第j個(gè)分詞的寬度不同,Ti[i].s = T2[j].s表示報(bào)文分詞序列Tl中第i個(gè)分詞與 報(bào)文分詞序列T2中第j個(gè)分詞的語義相同,Ti[i].s聲T2[j].s表示報(bào)文分詞序列Tl中第i個(gè) 分詞與報(bào)文分詞序列T2中第j個(gè)分詞的語義不同,Ti[i].t = T2[j].t表示報(bào)文分詞序列Tl中 第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞的類型相同,Ti[i].t聲T2[j].t表示報(bào)文分詞序 列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞的類型不同,Ti[i].d = T2[j].d表示報(bào)文 分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞的數(shù)據(jù)內(nèi)容相同,Ti[i].d聲T2[j] .d表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞的數(shù)據(jù)內(nèi)容不同。
[0062] 2)通過位置加權(quán)改進(jìn)基本評(píng)分規(guī)則
[0063] 位置加權(quán)是指:在報(bào)文序列中,通常報(bào)文頭部是報(bào)文格式集中變化的地方,報(bào)文中 部的大部分可能是數(shù)據(jù)域,尾部可能有若干報(bào)文格式域,但是數(shù)量不多。因此,對(duì)分詞相似 度評(píng)分追加評(píng)分規(guī)則,使得報(bào)文中描述格式的分詞序列相對(duì)應(yīng)位置相似時(shí),按照分詞相似 度評(píng)分從高到低依次設(shè)定為報(bào)文頭部,尾部,中部的優(yōu)先級(jí)考慮優(yōu)化相似度評(píng)分。同時(shí),對(duì) 于較長的報(bào)文,報(bào)文中部的數(shù)據(jù)對(duì)于格式分析的貢獻(xiàn)相對(duì)較小,所W考慮在長報(bào)文的頭尾 截取一定長度賦予不同的權(quán)值來參加序列相似度比對(duì)的評(píng)分。分詞相似度位置加權(quán)評(píng)分規(guī) 則簡(jiǎn)要描述及說明(W偏移屬性為例)如下:
[0064] <+0.5,+0.4,+0.3,+0.2,+0.1,_,......,-,+0.1,+0.2,+0.3> (7)
[00化]其中,序列開始處的"+0.5,+0.4,+0.3,+0.2,+0.1"表示用于比對(duì)的分詞在所屬序 列中的位置為1-5時(shí),若偏移相同,則所得評(píng)分在原有分值的基礎(chǔ)上再加上相應(yīng)的加權(quán)值, 例如,當(dāng)兩個(gè)序列中第一個(gè)分詞的偏移相同時(shí),偏移項(xiàng)所得評(píng)分為1+0.5 = 1.5分;若偏移不 同,則所得評(píng)分在兩個(gè)附加權(quán)值的平均值的基礎(chǔ)上加上相應(yīng)的原有分值,例如,當(dāng)?shù)谝粋€(gè)序 列中第二個(gè)分詞的偏移屬性和第二個(gè)序列中第四個(gè)分詞的偏移相同時(shí),偏移項(xiàng)所得評(píng)分為 l+sum(0.4,0.2)/2 = 1.3 分。
[0066] 相應(yīng)地,序列結(jié)尾處的"+0.1 ,+0.2,+0.3"表示用于比對(duì)的分詞在所屬序列中的位 置為后1-3個(gè)時(shí),若偏移相同,則所得評(píng)分在原有基本權(quán)值的基礎(chǔ)上再加上相應(yīng)的分值,例 如,當(dāng)兩個(gè)序列中的最后一個(gè)分詞的偏移相同時(shí),偏移項(xiàng)所得評(píng)分為1+0.3 = 1.3分;若偏移 不同,則所得評(píng)分在兩個(gè)附加權(quán)值的平均值的基礎(chǔ)上加上相應(yīng)的原有分值,例如,當(dāng)?shù)谝粋€(gè) 序列中最后一個(gè)分詞的偏移屬性和第二個(gè)序列中倒數(shù)第立個(gè)分詞的偏移屬性相同時(shí),偏移 項(xiàng)所得評(píng)分為l+sum(0.3,0.1)/2 = 1.2分。報(bào)文序列中間分詞偏移項(xiàng)互相匹配時(shí)按照普通 的基本權(quán)值打分即可,不再另加分值。
[0067] 上述=個(gè)位置處的評(píng)分優(yōu)先級(jí)依次為:首部、尾部,中間。匹配評(píng)分時(shí),W前向優(yōu)先 級(jí)確定位置,W后向優(yōu)先級(jí)確定分值,即當(dāng)報(bào)文較短首部和尾部定義的一部分位置重合時(shí), 根據(jù)前向優(yōu)先級(jí)將重合部分的分詞定義為首部,其他重合情況處理類似;當(dāng)首部分詞與尾 部分詞偏移屬性相同時(shí),根據(jù)后向優(yōu)先級(jí)將加權(quán)分值設(shè)置為尾部分詞計(jì)算加權(quán)所得分值, 其他位置不同的加權(quán)評(píng)分方法計(jì)算類似,具體加權(quán)分值見公式8,對(duì)于其他屬性評(píng)分的修正 方法與上述評(píng)分追加規(guī)則相同。位置加權(quán)評(píng)分規(guī)則形式化描述如下:
[0068; 巧)
[0069] 其中,Tl. I和T2. I分別表示Tl和T2兩個(gè)報(bào)文的長度即各自所包含的分詞個(gè)數(shù)。
[0070] 化簡(jiǎn)后:
[0071]
識(shí))
[0072] 位置加權(quán)后的評(píng)分規(guī)則形式化描述如下:
[0073] (10)
[0074] (11)
[0075] (巧
[0076]
[0077] (14)
[007引 scoreP(Ti[i],T2[j]) = ScoreP(Ti[i],T2[j]).o+scoreP(Ti[i],T2[j]) .w+scoreP (Ti[i],T2[ j]).S (15)+scoreP(Ti[i],T2[ j]).t+scoreP(Ti[i],T2[ j]) .d
[0079] 在后續(xù)分析中,使用改進(jìn)的位置加權(quán)評(píng)分結(jié)果scoreP(Ti[i],T2[j])代替原基本評(píng) 分結(jié)果scoreBase(Ti[i],T2[ j])。
[0080] 3)通過距離加權(quán)改進(jìn)評(píng)分規(guī)則
[0081 ]距離加權(quán)是指:對(duì)兩個(gè)相應(yīng)的分詞進(jìn)行匹配,度量其相似度時(shí),其相對(duì)距離越大, 相應(yīng)相似度的評(píng)分按一定規(guī)則降低。因?yàn)閷?duì)于報(bào)文格式域的序列來說,只有在相同或者相 近位置出現(xiàn)相匹配的分詞才有意義,所W,對(duì)于序列比對(duì)中距離比較遠(yuǎn)的匹配,對(duì)其進(jìn)行適 當(dāng)罰分,即將其在比對(duì)中的分值貢獻(xiàn)降低。
[0082]因此,對(duì)分詞相似度評(píng)分追加評(píng)分規(guī)則,使得兩個(gè)分詞的相似度隨著其相對(duì)位置 的增大而減小。分詞相似度距離加權(quán)評(píng)分規(guī)則形式化描述及說明如下:
[0083]
(1巧
[0084] 其中,3(30'6口(1'1[。^2。'])表示在基本評(píng)分和位置加權(quán)后得到的相似度分值,山3 (Tl[i],T2[j])表示分詞Sl和分詞S2的偏移量差值即相對(duì)位置,可W通過計(jì)算兩個(gè)分詞偏移 屬性的差值得到,即diS (Tl「i L T2「H ) = Tl「i L 0-T2「H . O。在兩個(gè)分詞的距離不超過10 時(shí),距離加權(quán)的分值3
,在兩個(gè)分詞的距離超 過10之后,即使兩個(gè)分詞非常相似或相同,對(duì)于整個(gè)報(bào)文格式的比對(duì)也是沒有意義的,因此 將距離加權(quán)的結(jié)果設(shè)置為0。
[00化]舉例來講,如果兩個(gè)分詞的距離為2,貝lJscoreD(Ti[i],T2[ j]) = 0.8*scoreP(Ti
[i] ,了2[ j]),如果兩個(gè)分詞的距離為 3,貝lJscoreD(Ti[i],T2[ j])=〇.7*scoreP(Ti[i],T2
[j] ),如果兩個(gè)分詞的距離為14,則scoreD(Ti[i],T2[ j])=0。
[00化]將經(jīng)過位置加權(quán)和距離加權(quán)運(yùn)算后得到的scoreD(Ti[i],T2[j])作為兩個(gè)分詞比 對(duì)得到的相似程度結(jié)果score(Tl[ i ],T2 [ j ]) = scoreD(;Tl[ i ],T2[ j ])。
[0087] 4)參考分詞相似度設(shè)計(jì)算法對(duì)報(bào)文序列相似度進(jìn)行度量
[0088] 本發(fā)明設(shè)計(jì)的MS(Message SimiIarity)算法采用基于文本編輯距離的方法,對(duì)報(bào) 文序列比對(duì)設(shè)計(jì)動(dòng)態(tài)規(guī)劃算法求解。W下首先對(duì)報(bào)文序列相似度的最優(yōu)子結(jié)構(gòu)和重疊子問 題進(jìn)行分析,然后給出一個(gè)遞歸解和算法描述。
[0089] 最優(yōu)子結(jié)構(gòu):設(shè)兩個(gè)報(bào)文序列分別為Tm=<tl,t2, . . .,*。>和。。=<'1^2, . . .,fn >,Tm和Fn的序列相似度記為MS(Tm,F(xiàn)n),其中,tl,t2,. . .,tm均為報(bào)文分詞,fl,f2,. . .,fn均 為報(bào)文分詞。對(duì)于Tm和Fn之間最后一個(gè)分詞位置的編輯轉(zhuǎn)換方式,可W有如下立種方式實(shí) 現(xiàn):
[0090] (1)序列T的最后一個(gè)分詞轉(zhuǎn)換為序列F的最后一個(gè)分詞(或,F(xiàn)的最后一個(gè)分詞轉(zhuǎn) 換為 T 的最后一個(gè)分詞),此時(shí),有 15(1'111術(shù))=15(1'111-1術(shù)-1) + 3(30'6(1:111,打),其中,3(30'6(1:111, fn)為兩個(gè)序列最后一個(gè)分詞tm,fn之間相似度的評(píng)分,MS(Tm-l,F(xiàn)n-l)為最后一個(gè)分詞的序列 T與去除最后一個(gè)分詞的序列F的序列相似度;
[0091] (2)序列T添加 fn到序列尾部(或,序列F在尾部刪除分詞fn),此時(shí),有MS(TmJn) = MS(Tm'Fn-l);
[0092] (3)序列F添加 tm到序列尾部(或,序列T在尾部刪除分詞tm),此時(shí),有MS(Tm,F(xiàn)n) = MS(Tm-IjFn) O
[0093] 在運(yùn)=種方式得到的相似度分值中,選取最大的分值作為最終對(duì)序列相似性度量 的結(jié)果。
[0094] 在LD算法中,考慮兩個(gè)元素相同時(shí)兩個(gè)序列最后一個(gè)元素對(duì)編輯距離不造成影 響,元素不同時(shí)需要選取相對(duì)最小前綴編輯距離加1,運(yùn)實(shí)際上是將兩個(gè)序列最后一個(gè)元素 的相似程度對(duì)序列相似程度的影響二值化為0和1。而在MS算法中,對(duì)兩個(gè)序列中元素的相 似程度采用相似度評(píng)分的方法得到更加精確的度量,因此,在考慮元素相似對(duì)序列相似性 的影響時(shí),將序列相似度的增量設(shè)置為分詞的相似度,并且將LD算法中序列元素相同和不 相同的兩種情況整合到一起,使用序列元素相似度即分詞相似度進(jìn)行度量。
[OOM]此外,由于LD算法對(duì)兩個(gè)文本(序列)的編輯距離也就是差異程度進(jìn)行度量,而本 發(fā)明所設(shè)計(jì)的MS算法是對(duì)兩個(gè)序列的相似程度進(jìn)行度量。由于差異性通常與相似性負(fù)相 關(guān),所W,不同于LD算法中選取子問題的最小結(jié)果值作為最終結(jié)果,MS算法選取子問題中的 最大結(jié)果分值作為相似度評(píng)價(jià)的最終結(jié)果。
[0096] 重疊子問題:由最優(yōu)子問題分析可得,計(jì)算兩個(gè)序列相似度時(shí)包含兩個(gè)序列分別 各自去掉最后一個(gè)元素的子問題,即計(jì)算MS(TmJn)時(shí),需要對(duì)MS(Tm,F(xiàn)n-l)和MS(Tm-l,F(xiàn)n)進(jìn) 行考察,而運(yùn)兩個(gè)子問題都包含的子問題是兩個(gè)原序列都去掉最后一個(gè)元素的相似度的問 題,即計(jì)算MS(Tm,F(xiàn)n-l)和MS(Tm-l,F(xiàn)n)時(shí),都需要計(jì)算原本兩個(gè)序列考察相似度時(shí)需要解決的 子問題MS(Tm-l,F(xiàn)n-l)。也就是說,原問題的子問題中,有兩個(gè)包含相同的子問題。W此類推, MS算法的多個(gè)子問題中存在共享遞進(jìn)的子子問題。
[0097] 遞歸解:將MS(Ti,門)記為MS[i,j],根據(jù)算法思想和W上分析,設(shè)計(jì)算法的遞歸求 解方法如下:
[009引
(17)
[0099] 具體求解步驟說明如下:
[0100] 第一步:求解過程初始化,對(duì)于i或j為0的位置,設(shè)置MS[i,j]為0;
[0101 ]第二步:按照遞歸求解方程,i,j各自依次從小到大的順序求解MS[ i,j ];
[0102] 第S步:當(dāng)i,j取到范圍內(nèi)最大值,即MS[i,j]表示兩個(gè)完整報(bào)文分詞序列的相似 度時(shí),求解結(jié)束。
[0103] 該算法的時(shí)間復(fù)雜度和空間復(fù)雜度均為〇(mn),其中,m,n分別為兩個(gè)分詞序列的 規(guī)模,即分詞序列所含分詞數(shù)量:m = Len(A),n = Len(B)。本發(fā)明比較報(bào)文分詞序列相似度 的方法將用于本發(fā)明報(bào)文聚類過程的聚類對(duì)象距離度量,因此所設(shè)及到的報(bào)文也可稱之為 用于比對(duì)和分析的格式模板。
[0104] 二、報(bào)文自適應(yīng)聚類原理及實(shí)現(xiàn)方案
[0105] 目前使用的聚類算法需要將聚類的個(gè)數(shù)作為聚類算法的輸入?yún)?shù),但是對(duì)于運(yùn)個(gè) 參數(shù)的設(shè)定,并沒有任何先驗(yàn)知識(shí)可W參考。而聚類的結(jié)果包括聚類個(gè)數(shù)、聚類中報(bào)文的分 布W及聚類后得到的報(bào)文格式模版都對(duì)整體協(xié)議格式逆向的結(jié)果產(chǎn)生重要的影響。而在運(yùn) 之中,聚類的個(gè)數(shù)將在聚類過程中影響最終分析得到的報(bào)文分布和格式模版。所W,需要對(duì) PAM聚類的輸入?yún)?shù)即目標(biāo)聚類的個(gè)數(shù)進(jìn)行選擇,來獲得較好的分析結(jié)果。為此,考慮引入 一種聚類評(píng)價(jià)指標(biāo)(Clustering Validity Index)來對(duì)聚類結(jié)果進(jìn)行考量,通過調(diào)整不同 的輸入?yún)?shù),來找到能夠使得聚類效果達(dá)到最優(yōu)的聚類個(gè)數(shù)。
[0106] 常用的聚類有效性評(píng)價(jià)指標(biāo)有Dunn指標(biāo),DBI指標(biāo)(DaviesBouldin Index),CH有 效性指標(biāo)Waiinski-HarabaszIndex) ,Partition Coeff icient,S有效性指標(biāo)(SiIhouette Index) ,CS Index,Separation Index等。根據(jù)目前聚類對(duì)象數(shù)據(jù)類型和聚類方式,選擇 Dunn指標(biāo)作為本發(fā)明聚類歸約階段的聚類評(píng)價(jià)指標(biāo),用于指導(dǎo)選擇聚類的個(gè)數(shù),對(duì)于其他 指標(biāo)的效果測(cè)試和比較暫且留作將來進(jìn)一步研究的工作內(nèi)容。
[0107] 具體地,Dunn指標(biāo)是一種評(píng)價(jià)同一類別樣本的緊密程度與不同類別之間樣本分散 程度的一個(gè)函數(shù),其定義如下:
[010 引
(18)
[0109] 其中,Ci,C2, . . .,Ck表示不同的報(bào)文序列I 示 聚類Cl的直徑,x、y為聚類Cl中的兩個(gè)報(bào)文分詞序巧 表 示兩個(gè)聚類Cl, Cj之間的距離,X表示聚類Cl中的報(bào)文分詞序列、y表示聚類Cj中的報(bào)文分詞 序列,d(x,y)表示報(bào)文分詞序列X與報(bào)文分詞序列y的距離,即報(bào)文序列X中分詞與報(bào)文序列 7中分詞的最近距離,(1^,7)=111;[]1{(113^[;[],7。'])},義[;[]為報(bào)文分詞序列中的第;[個(gè)分 詞,y[ j ]為報(bào)文分詞序列中的第j個(gè)分詞,k為報(bào)文聚類數(shù)量。
[0110] 式(18)中,分子表示類間樣本的分散程度,分母表示類內(nèi)樣本的緊密程度。Dunn 化)的值越大,表示聚類的結(jié)果越優(yōu)。
[0111] 本發(fā)明WPAM算法為基礎(chǔ),在聚類數(shù)目的有效取值范圍內(nèi)進(jìn)行PAM聚類,選取結(jié)果 最優(yōu)即能夠使得Dunn化)最大的k值作為最優(yōu)聚類數(shù)目并確定最優(yōu)聚類結(jié)果,設(shè)計(jì)基于Dunn 指數(shù)的改進(jìn)PAM聚類算法如下:
[0112] W遞歸聚類結(jié)果中聚類內(nèi)報(bào)文通用格式為對(duì)象,使用報(bào)文距離序列比對(duì)算法計(jì)算 兩個(gè)對(duì)象之間的距離,使用PM算法對(duì)有效的聚類數(shù)目k計(jì)算聚類結(jié)果的Dunn化),統(tǒng)計(jì)具有 最大Dunn化)的聚類數(shù)目作為最優(yōu)聚類結(jié)果輸出。
[0113] 求解過程說明:
[0114] 第一步:設(shè)置聚類數(shù)量取值范圍為不超過報(bào)文數(shù)量的正整數(shù);
[0115] 第二步:選取初始聚類數(shù)量(1或最大值)使用PAM算法進(jìn)行聚類,記錄聚類結(jié)果和 聚類質(zhì)量;
[0116] 第=步:依次調(diào)整更改聚類數(shù)量的取值,根據(jù)聚類數(shù)量進(jìn)行聚類;
[0117] 第四步:將新聚類方式與記錄的聚類質(zhì)量相比較,若新聚類較好,則替換原記錄中 的聚類結(jié)果和聚類質(zhì)量;
[0118] 第五步:在考察完畢所有可取的聚類數(shù)量之后,將對(duì)比和記錄得到的具有最優(yōu)聚 類質(zhì)量的聚類方法作為最優(yōu)聚類的結(jié)果。
[0119] 本設(shè)計(jì)的時(shí)間復(fù)雜度分析:
[0120] PAM算法具有(Kk(n-k)2)的時(shí)間復(fù)雜度,本算法執(zhí)行n+1次PAM算法,因此本算法的 時(shí)間復(fù)雜度為(Kkn(n-k)2)。
[0121] 本方法設(shè)計(jì)的自適應(yīng)聚類過程流程如圖2所示。
[0122] 本發(fā)明說明書中未作詳細(xì)描述的內(nèi)容屬本領(lǐng)域技術(shù)人員的公知技術(shù)。
【主權(quán)項(xiàng)】
1. 一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法,其特征在于包括如下步 驟: (1) 獲取需要進(jìn)行報(bào)文聚類的報(bào)文,分別對(duì)各個(gè)報(bào)文進(jìn)行劃分得到分詞,進(jìn)而得到各個(gè) 報(bào)文對(duì)應(yīng)的報(bào)文分詞序列;所述的分詞為報(bào)文中的各個(gè)字段; (2) 從步驟(1)得到的報(bào)分詞文序列中任意選擇兩個(gè),分別記為Tm、Fn,計(jì)算報(bào)文分詞序 列Tm中第i個(gè)分詞與報(bào)文分詞序列F n中第j個(gè)分詞關(guān)于偏移的相似度scoreP(Tm[i],F(xiàn)n[ j]) ·〇為Tm[i].o = Fn[j].o表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞均 包括偏移,Tm[i] .o#Fn[ j] .〇表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè) 分詞不均包括偏移,i = l,2,3···ηι,j = l,2,3···η,ηι為報(bào)文分詞序列Tm中分詞的個(gè)數(shù),η為報(bào) 文分詞序列Fn中分詞的個(gè)數(shù),Tm. 1為報(bào)文分詞序列Tm的長度,F(xiàn)n. 1為報(bào)文分詞序列Fn的長度; 所述的偏移為分詞首位到當(dāng)前報(bào)文分詞序列頭部的距離; (3) 計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞關(guān)于寬度的相似 度scoreP(Tm[i],F(xiàn) n[j]).w為其中,Tm[i] .w = Fn[j] .w表不報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分 詞寬度相同,Tm[i] .w#Fn[ j] .w表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j 個(gè)分詞寬度不同;所述的寬度為分詞的長度; (4) 計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞關(guān)于語義的相似 度scoreP(Tm[i],F(xiàn) n[j])·s為其中,Tm[i].s = Fn[j].s表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分 詞語義相同,1^[1].8^^11[」].8表示報(bào)文分詞序列1?中第1個(gè)分詞與報(bào)文分詞序列? 11中第」 個(gè)分詞語義不同;所述的語義為分詞的含義; (5) 計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞關(guān)于類型的相似 度scoreP(Tm[i],F(xiàn) n[j])·t為所述的類型為分詞類型,其中,分詞類型包括文本、二進(jìn)制,Tm[i].t = Fn[j].t表示報(bào)文 分詞序列!"中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞類型相同, 報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞類型不同; (6) 計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞關(guān)于數(shù)據(jù)內(nèi)容的 相似度scoreP(T m「il .Fn「il) .d為所述的數(shù)據(jù)內(nèi)容為分詞的取值;其中,Tm[i].d = Fn[j].d表示報(bào)文分詞序列Tm中第i個(gè) 分詞與報(bào)文分詞序列Fn中第j個(gè)分詞數(shù)據(jù)內(nèi)容相同,Tm[i] .d辛Fn[j] .d表不報(bào)文分詞序列Tm 中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞數(shù)據(jù)內(nèi)容不同; (7) 計(jì)算得到報(bào)文分詞序列1"中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞的相似度 scoreP(Tm[i],F(xiàn)n[j])為 scoreP(Tm[i] ,Fn[ j ]) = scoreP(Tm[ i ] ,Fn[ j]). o+scoreP(Tm[ i ] ,Fn[ j]) .w+scoreP(Tm [i],Fn[ j]).s+scoreP(Tm[i],Fn[ j]).t+scoreP(Tm[i],Fn[ j]).d; (8) 分別計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞的相對(duì)位置 (^(1"[1]$[」])=|1"[1]. 〇$[」].〇|,進(jìn)而計(jì)算得到修正后的報(bào)文分詞序列1"中第1個(gè)分 詞Iis枏f令福癢別R1由笛彳個(gè)令福的和化IlifQmrpnnni(9) 將%〇代0(1'^]^11[幻)作為最終的報(bào)文分詞序列1"中第1個(gè)分詞與報(bào)文分詞序列?11 中第j個(gè)分詞的相似度8〇〇^(1'^]^幻),重復(fù)步驟(2)-步驟(8)得到各個(gè)報(bào)文分詞序列 中各個(gè)分詞的相似度; (10) 計(jì)算報(bào)文分詞序列1^與報(bào)文分詞序列Fj的相似度MS[i,j]為其中,i的初值為I,j的初值為I,Ti為包括報(bào)文分詞序列Tm中第e個(gè)分詞的報(bào)文分詞序 列,e = l,2,3...i; (11) i = i+l,重復(fù)步驟(10),直至i=m; (12) j = j+l,重復(fù)步驟(10)-步驟(11),直至j=n,得到報(bào)文分詞序列1?與報(bào)文分詞序列 ?"的相似度MS[m,n],從而得到各個(gè)報(bào)文分詞序列間的相似度; (13) 根據(jù)步驟(12)得到的各個(gè)報(bào)文分詞序列間的相似度,對(duì)各個(gè)報(bào)文分詞序列進(jìn)行聚 類,得到不同的報(bào)文序列聚類,并記為(^,(^,…,(^,其中汰為聚類個(gè)數(shù)汰二^一-飛^為報(bào) 分詞文序列個(gè)數(shù); (14) 計(jì)算聚類有效性評(píng)價(jià)指標(biāo)Dunn(k)為d(Tm,Fn)=rnin{dis(Tm[i] ,Fn[ j])}; (15) 選取聚類有效性評(píng)價(jià)指標(biāo)Dunn(k)最大的報(bào)文序列聚類C^C2,- ,Ck作為聚類結(jié) 果。2.根據(jù)權(quán)利要求1所述的一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法, 其特征在于:所述的對(duì)各個(gè)報(bào)文分詞序列進(jìn)行聚類的方法為PAM算法。
【文檔編號(hào)】G06K9/62GK106021361SQ201610305948
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月10日
【發(fā)明人】齊維孔, 衣龍騰, 李明, 周鈉, 劉曉暉
【申請(qǐng)人】中國空間技術(shù)研究院