一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法

文檔序號(hào)：10655204閱讀：663來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法
【專利摘要】一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法，首先對(duì)報(bào)文進(jìn)行劃分得到各個(gè)報(bào)分詞文序列，然后根據(jù)偏移、寬度、語義、類型、數(shù)據(jù)內(nèi)容計(jì)算各個(gè)報(bào)分詞文序列中分詞的相似度，并使用位置和距離對(duì)分析相似度進(jìn)行修正，進(jìn)而得到各個(gè)報(bào)文分析序列的相似度，最后計(jì)算多個(gè)聚類數(shù)量下的聚類有效性評(píng)價(jià)指標(biāo)，將聚類有效性評(píng)價(jià)指標(biāo)最大值對(duì)應(yīng)的聚類作為聚類結(jié)果。本發(fā)明與現(xiàn)有技術(shù)相比，通過綜合考察分詞的多個(gè)屬性來對(duì)報(bào)文分詞的相似程度進(jìn)行比對(duì)，改善了以往序列比對(duì)中元素的比較僅考慮數(shù)值的片面性，能夠更加全面準(zhǔn)確地判斷網(wǎng)絡(luò)報(bào)文中分詞的相似性，從而提高整體分析的性能。
【專利說明】
-種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法，特別是一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法。
【背景技術(shù)】
[0002] 當(dāng)前互聯(lián)網(wǎng)中安全問題日益突出，各種攻擊手段層出不窮，而且呈現(xiàn)出通訊更隱秘，攻擊力更強(qiáng)等特點(diǎn)。在僵尸網(wǎng)絡(luò)防控、深度數(shù)據(jù)包分析，F(xiàn)uzzing測(cè)試等安全研究和技術(shù) 領(lǐng)域，對(duì)于使用未知協(xié)議通訊的發(fā)現(xiàn)和檢測(cè)具有重要意義。而對(duì)于未知協(xié)議，研究其工作原理，如協(xié)議報(bào)文特征和協(xié)議報(bào)文格式等信息對(duì)于進(jìn)一步加強(qiáng)網(wǎng)絡(luò)監(jiān)控和安全管理與分析等工作影響深遠(yuǎn)。高效準(zhǔn)確的逆向分析網(wǎng)絡(luò)中未知通訊協(xié)議的相關(guān)信息已成為目前網(wǎng)絡(luò)安全領(lǐng)域的一個(gè)重點(diǎn)研究?jī)?nèi)容。
[0003] 網(wǎng)絡(luò)協(xié)議報(bào)文格式逆向分析的目標(biāo)是通過分析未知協(xié)議格式的報(bào)文數(shù)據(jù)或分析協(xié)議實(shí)體對(duì)報(bào)文數(shù)據(jù)的處理過程，獲得報(bào)文的結(jié)構(gòu)信息，并在此基礎(chǔ)上推斷報(bào)文中各個(gè)字段的語義信息。目前對(duì)協(xié)議報(bào)文的逆向分析主要有兩種方式:基于網(wǎng)絡(luò)的分析和基于程序的分析。基于程序的分析通過對(duì)協(xié)議程序進(jìn)行動(dòng)態(tài)污點(diǎn)分析，具有較高的準(zhǔn)確度。但多數(shù)情況下協(xié)議程序無法獲得，使得基于網(wǎng)絡(luò)報(bào)文的數(shù)據(jù)分析方法日漸趨于主流。
[0004] 目前通過網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行協(xié)議格式逆向分析所使用的主要方法如下：網(wǎng)絡(luò)協(xié)議報(bào)文相似性度量方法主要借鑒文本序列比對(duì)或生物信息中基因序列比對(duì)的技術(shù)，有基于最長公共子序列的序列比對(duì)和基于編輯距離的序列比對(duì)兩種方法;網(wǎng)絡(luò)協(xié)議報(bào)文聚類的方法主要采取機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中的聚類劃分方法，包含基于均值的聚類和基于中屯、點(diǎn)的聚類兩種數(shù)據(jù)聚類方法，其中，網(wǎng)絡(luò)協(xié)議報(bào)文相似度度量的結(jié)果是報(bào)文聚類的重要依據(jù)。在相似性度量和聚類的過程中，分別存在如下的問題：
[0005] 報(bào)文相似性度量通過引進(jìn)文本序列比對(duì)或基因序列比對(duì)中的方法來實(shí)現(xiàn)，能夠在一定程度上度量組成兩個(gè)報(bào)文的字段序列的相似度。但是在比較的過程中，沒有考慮到協(xié) 議報(bào)文結(jié)構(gòu)獨(dú)有的特點(diǎn)。在網(wǎng)絡(luò)協(xié)議的報(bào)文結(jié)構(gòu)中，通常存在位于報(bào)文前部的報(bào)文首部，其中包含大部分協(xié)議報(bào)文格式的信息，尾部可能存在少量校驗(yàn)等信息，而帶有負(fù)載的報(bào)文中部大多為負(fù)載數(shù)據(jù)，與協(xié)議報(bào)文格式無關(guān)。因此，在進(jìn)行報(bào)文相似性度量的過程中，如果把報(bào)文不同位置的內(nèi)容相同對(duì)待，就會(huì)很容易受到負(fù)載數(shù)據(jù)的影響，并且忽略對(duì)報(bào)文首尾位置報(bào)文格式的分析和識(shí)別。
[0006] 在目前常用的聚類方法中，基于中屯、點(diǎn)的聚類更加適用于協(xié)議數(shù)據(jù)包格式聚類的場(chǎng)景。但是基于中屯、點(diǎn)的聚類在執(zhí)行時(shí)，需要事先輸入目標(biāo)聚類的數(shù)量，而運(yùn)在分析未知協(xié) 議時(shí)是無法事先獲知該協(xié)議實(shí)際報(bào)文種類的。此外，對(duì)于聚類數(shù)量的確定，基于中屯、點(diǎn)的聚類沒有給出具體的方法，而人工判斷也缺乏合適的依據(jù)。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明解決的技術(shù)問題是：克服現(xiàn)有技術(shù)的不足，提供了一種通過綜合考察報(bào)文分詞的多個(gè)屬性來對(duì)報(bào)文分詞的相似程度進(jìn)行比對(duì)，能夠更全面準(zhǔn)確地判斷網(wǎng)絡(luò)報(bào)文中分詞的相似性，從而提高整體分析的性能的基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法。
[0008] 本發(fā)明的技術(shù)解決方案是:一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法，包括如下步驟：
[0009] (1)獲取需要進(jìn)行報(bào)文聚類的報(bào)文，分別對(duì)各個(gè)報(bào)文進(jìn)行劃分得到分詞，進(jìn)而得到各個(gè)報(bào)文對(duì)應(yīng)的報(bào)文分詞序列;所述的分詞為報(bào)文中的各個(gè)字段；
[0010] (2)從步驟（1)得到的報(bào)分詞文序列中任意選擇兩個(gè)，分別記為T"、Fn，計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞關(guān)于偏移的相似度SC〇reP(Tm[i]，F(xiàn)n 山）.0為
[0011]
[0012]
[OOK] Tm[i].0=Fn[j].0表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞均包括偏移，Tm[i] .O聲Fn[j] .O表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第 j個(gè)分詞不均包括偏移，1 = 1，2,3...111〇 = 1，2,3...11，111為報(bào)文分詞序列1"中分詞的個(gè)數(shù)，11 為報(bào)文分詞序列Fn中分詞的個(gè)數(shù)，Tm. 1為報(bào)文分詞序列Tm的長度，F(xiàn)n. 1為報(bào)文分詞序列Fn的長度;所述的偏移為分詞首位到當(dāng)前報(bào)文分詞序列頭部的距離；
[0014] (3)計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞關(guān)于寬度的相似度 scoreP(Tm[i]，F(xiàn)n[j]) .W為
[0015]
[0016] 其中，Tm[i] .W = Fn[ j] .W表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第 j個(gè)分詞寬度相同，Tm[i] .W聲Fn[j] .W表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn 中第j個(gè)分詞寬度不同；所述的寬度為分詞的長度；
[0017] (4)計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞關(guān)于語義的相似度3(30的？(1"山少山]).3為
[001 引
[0019]其中，Tm[i] .S=FnU] .S表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第 j個(gè)分詞語義相同，Tm[i]. S聲Fn[j]. S表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn 中第j個(gè)分詞語義不同；所述的語義為分詞的含義；
[0020] (5)計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞關(guān)于類型的相似度 scoreP(Tm[i]，F(xiàn)n[j]).t 為
[0021]
[0022] 所還的類型刃分詞類型，其甲，分詞類型包巧義本、二巧制，TmLi」.t = Fn[j].t表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞類型相同，Tm[i].t聲Fn[j].t 表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞類型不同；
[0023] (6)計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞關(guān)于數(shù)據(jù)內(nèi) 容的相似度 scoreP(Tm[i]，F(xiàn)n[j]).d 為
[0024]
[0025] 所述的數(shù)據(jù)內(nèi)容為分詞的取值;其中，Tm[i].d = Fn[j].d表示報(bào)文分詞序列Tm中第 i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞數(shù)據(jù)內(nèi)容相同，Tm[i] .d聲Fn[ j] .d表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞數(shù)據(jù)內(nèi)容不同；
[0026] (7)計(jì)算得到報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞的相似度scoreP(Tm[i]，F(xiàn)n[j])為
[0027] scoreP(Tm[i]，F(xiàn)n[ j]) = scoreP(Tm[i]，F(xiàn)n[ j]) .o+scoreP(Tm[i]，F(xiàn)n[ j]) .w+scoreP (Tm[i],Fn[ j]) .s+scoreP(Tm[i],Fn[ j]).t+scoreP(Tm[i],Fn[ j]).d；
[0028] (8)分別計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞的相對(duì) 位置dis(Tm山，。山])=巾山.0斗。。'].〇|，進(jìn)而計(jì)算得到修正后的報(bào)文分詞序列1"中第1 個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞的相似度SC〇reD(Tm[i]，F(xiàn)n[j])為
[0029]
[0030] (9)將3(3〇'6〇(1^1」^。^'」）作為最終的報(bào)文分詞序列1?中第1個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞的相似度3(30'6(1"[。術(shù)。。'])，重復(fù)步驟(2)-步驟(8)得到各個(gè)報(bào)文分詞序列中各個(gè)分詞的相似度；
[0031] (10)計(jì)算報(bào)文分詞序列Tl與報(bào)文分詞序列Fj的相似度MS[i，j]為
[0032]
[0033] 其中，i的初值為l，j的初值為l，Ti為包括報(bào)文分詞序列Tm中第e個(gè)分詞的報(bào)文分詞序列，e = l，2,3. . . i ;
[0034] (ll)i = i+l，重復(fù)步驟（10)，直至i=m;
[0035] (12) j = j + l，重復(fù)步驟（10)-步驟（11)，直至j=n，得到報(bào)文分詞序列Tm與報(bào)文分詞序列Fn的相似度MS[m，n]，從而得到各個(gè)報(bào)文分詞序列間的相似度；
[0036] (13)根據(jù)步驟(12)得到的各個(gè)報(bào)文分詞序列間的相似度，對(duì)各個(gè)報(bào)文分詞序列進(jìn) 行聚類，得到不同的報(bào)文序列聚類，并記為Ci，C2，. . .，Ck，其中，k為聚類個(gè)數(shù)，k=l，2， 3. . .g，g為報(bào)分詞文序列個(gè)數(shù)；
[0037] (14)計(jì)算聚類有效性評(píng)價(jià)指標(biāo)Dunn化）為
[00；3 引
[0039] d(Tm，F(xiàn)n)=min{dis(Tm[i]，F(xiàn)n[ j])};
[0040] (15)選取聚類有效性評(píng)價(jià)指標(biāo)Dunn化)最大的報(bào)文序列聚類Ci，C2,. . .，Ck作為聚類結(jié)果。
[0041 ]所述的對(duì)各個(gè)報(bào)文分詞序列進(jìn)行聚類的方法為PAM算法。
[0042] 本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于：
[0043] (1)本發(fā)明通過設(shè)計(jì)基于多因素加權(quán)評(píng)分的報(bào)文分詞序列比對(duì)方案，克服了 W往序列比對(duì)中忽略網(wǎng)絡(luò)報(bào)文自身結(jié)構(gòu)特性的缺陷，實(shí)現(xiàn)了對(duì)數(shù)據(jù)包的格式結(jié)構(gòu)相似性更加準(zhǔn) 確的度量；
[0044] (2)本發(fā)明通過設(shè)計(jì)報(bào)文自適應(yīng)聚類方案，解決了未知協(xié)議報(bào)文聚類過程中需要預(yù)先指定聚類數(shù)量的問題，通過使用聚類結(jié)果分析與參數(shù)反饋的有關(guān)方法，實(shí)現(xiàn)了聚類過程自動(dòng)遞歸執(zhí)行，且有效地提高了分析效率和結(jié)果準(zhǔn)確度；
[0045] (3)本發(fā)明通過綜合考察分詞的多個(gè)屬性來對(duì)報(bào)文分詞的相似程度進(jìn)行比對(duì)，改善了 W往序列比對(duì)中元素的比較僅考慮數(shù)值的片面性，能夠更加全面準(zhǔn)確地判斷網(wǎng)絡(luò)報(bào)文中分詞的相似性，從而提高整體分析的性能。
【附圖說明】
[0046] 圖1為本發(fā)明網(wǎng)絡(luò)通信數(shù)據(jù)收集過程；
[0047] 圖2為本發(fā)明一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法流程圖。
【具體實(shí)施方式】
[004引如圖1所示為網(wǎng)絡(luò)通信數(shù)據(jù)收集過程，首先使用數(shù)據(jù)包捕獲工具如Wireshark或 tcpdump等在進(jìn)行通信的兩個(gè)或多個(gè)協(xié)議實(shí)體之間對(duì)通信數(shù)據(jù)包進(jìn)行捕獲，然后將運(yùn)些協(xié) 議數(shù)據(jù)包進(jìn)行分解，得到未知網(wǎng)絡(luò)協(xié)議對(duì)應(yīng)的報(bào)文序列作為分析對(duì)象。本發(fā)明在針對(duì)未知網(wǎng)絡(luò)協(xié)議通過通信數(shù)據(jù)報(bào)文進(jìn)行逆向分析的過程中，對(duì)報(bào)文相似度比對(duì)和報(bào)文聚類方法進(jìn) 行改進(jìn)，設(shè)計(jì)針對(duì)網(wǎng)絡(luò)協(xié)議數(shù)據(jù)包格式的報(bào)文字段序列相似度比對(duì)方法和具有反饋?zhàn)詣?dòng)調(diào) 節(jié)功能的聚類算法，提高未知網(wǎng)絡(luò)協(xié)議逆向分析的自動(dòng)化程度和準(zhǔn)確度。
[0049]對(duì)于報(bào)文相似性度量，本發(fā)明方法重點(diǎn)考察網(wǎng)絡(luò)協(xié)議數(shù)據(jù)包首部和尾部一定范圍內(nèi)的數(shù)據(jù)相似度，結(jié)合并改進(jìn)現(xiàn)有序列比對(duì)技術(shù)，設(shè)計(jì)一種新型針對(duì)于未知協(xié)議的報(bào)文相似性度量方法。對(duì)于報(bào)文聚類，本發(fā)明方法通過引入聚類結(jié)果質(zhì)量評(píng)價(jià)指標(biāo)，通過反饋過程來影響和調(diào)節(jié)聚類的開始參數(shù)（主要是目標(biāo)聚類的數(shù)量），使得整個(gè)分析過程脫離人工干預(yù)，自動(dòng)高效地選擇出合理的最優(yōu)報(bào)文聚類，下面結(jié)合附圖對(duì)本發(fā)明方法進(jìn)行詳細(xì)說明。 [0050] -、報(bào)文分詞序列比對(duì)原理及實(shí)現(xiàn)方法，在格式逆向的預(yù)處理階段，將截獲的未知協(xié)議數(shù)據(jù)包進(jìn)行初步字段劃分，將報(bào)文分解為由一系列劃分出的分詞（即字段)組成的分詞序列。
[0化1 ] 本發(fā)明基于編輯距離的UKLevenshtein Distance)算法，通過進(jìn)行相應(yīng)的改造，設(shè)計(jì)符合報(bào)文分詞序列比對(duì)特點(diǎn)的基于序列比對(duì)的報(bào)文相似度計(jì)算方法(MS算法，Message Similarity)來度量和比較兩個(gè)聚類中報(bào)文分詞序列的相似程度。在使用時(shí)，根據(jù)報(bào)文序列的特點(diǎn)，對(duì)其基本評(píng)分規(guī)則進(jìn)行設(shè)計(jì)，并根據(jù)位置和距離對(duì)分詞匹配相似程度的影響設(shè)計(jì) 相應(yīng)的位置加權(quán)和距離加權(quán)進(jìn)而優(yōu)化評(píng)分規(guī)則。
[0052] 1)設(shè)置序列元素相似度基本評(píng)分規(guī)則
[0053] 基本評(píng)分規(guī)則是指，在度量?jī)蓚€(gè)序列的相似程度的過程中，首先需要對(duì)兩個(gè)相關(guān) 元素的相似程度進(jìn)行評(píng)價(jià)。在描述協(xié)議格式的分詞序列中，對(duì)分詞屬性的描述包含多個(gè)方面，如目前已經(jīng)可W分析的偏移(offset,分詞首位到報(bào)文頭部的距離），寬度(width,分詞本身的長度），語義(syntax,分詞的含義，如長度、序列等，語義識(shí)別在預(yù)處理過程進(jìn)行），類型（type,本發(fā)明中定義為文本和二進(jìn)制兩種類型）和數(shù)據(jù)內(nèi)容（data,即該分詞本身的取值）。因此對(duì)分詞的匹配采用分級(jí)方式進(jìn)行評(píng)分，共分為五級(jí)：只有一項(xiàng)相同（如偏移相同）則評(píng)分為1，兩項(xiàng)相同（如偏移和寬度相同）則評(píng)分為2,若五項(xiàng)全部相同，則評(píng)分為5。也就是說，在基本評(píng)分時(shí)，五個(gè)屬性各自權(quán)值也就是基本分值為1。
[0054] 基本評(píng)分規(guī)則形式化描述如下：
[0化5] (1)
[0化6] (2)
[0化7] (3)
[0化引（斗）
[0化9] 巧）
[0060] 貨)
[0061] 其中，Ti[i]，T2[j]表示分詞序列Tl和T2中分別在位置i和位置j進(jìn)行相似度評(píng)價(jià)的兩個(gè)分詞，i、j為正整數(shù)，點(diǎn)下標(biāo)表示分詞的偏移、寬度等屬性，0表示偏移，W表示寬度，S表示語義，t表示類型，d表示數(shù)據(jù)內(nèi)容，scoreBase(Tl[ i ]，T2[ j ]). d表示Tl[ i ]，T2[ j ]關(guān)于數(shù)據(jù) 內(nèi)容的相似度評(píng)價(jià)基本評(píng)分結(jié)果，ScoreBase (Tl [ i ]，T2 [ j ])為相似度評(píng)價(jià)基本評(píng)分結(jié)果，Tl
[i].〇 = T2[j].o表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞均包括偏移屬性，Ti[i].o聲T2[j].o表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞不均包括偏移屬性，Ti[i].w = T2[j].w表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列 T2中第j個(gè)分詞的寬度相同，Ti[i] .W聲T2[ j] .W表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞的寬度不同，Ti[i].s = T2[j].s表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞的語義相同，Ti[i].s聲T2[j].s表示報(bào)文分詞序列Tl中第i個(gè) 分詞與報(bào)文分詞序列T2中第j個(gè)分詞的語義不同，Ti[i].t = T2[j].t表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞的類型相同，Ti[i].t聲T2[j].t表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞的類型不同，Ti[i].d = T2[j].d表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞的數(shù)據(jù)內(nèi)容相同，Ti[i].d聲T2[j] .d表示報(bào)文分詞序列Tl中第i個(gè)分詞與報(bào)文分詞序列T2中第j個(gè)分詞的數(shù)據(jù)內(nèi)容不同。
[0062] 2)通過位置加權(quán)改進(jìn)基本評(píng)分規(guī)則
[0063] 位置加權(quán)是指:在報(bào)文序列中，通常報(bào)文頭部是報(bào)文格式集中變化的地方，報(bào)文中部的大部分可能是數(shù)據(jù)域，尾部可能有若干報(bào)文格式域，但是數(shù)量不多。因此，對(duì)分詞相似度評(píng)分追加評(píng)分規(guī)則，使得報(bào)文中描述格式的分詞序列相對(duì)應(yīng)位置相似時(shí)，按照分詞相似度評(píng)分從高到低依次設(shè)定為報(bào)文頭部，尾部，中部的優(yōu)先級(jí)考慮優(yōu)化相似度評(píng)分。同時(shí)，對(duì) 于較長的報(bào)文，報(bào)文中部的數(shù)據(jù)對(duì)于格式分析的貢獻(xiàn)相對(duì)較小，所W考慮在長報(bào)文的頭尾截取一定長度賦予不同的權(quán)值來參加序列相似度比對(duì)的評(píng)分。分詞相似度位置加權(quán)評(píng)分規(guī) 則簡(jiǎn)要描述及說明（W偏移屬性為例)如下：
[0064] <+0.5，+0.4，+0.3，+0.2，+0.1，_，......，-，+0.1，+0.2，+0.3> (7)
[00化]其中，序列開始處的"+0.5，+0.4，+0.3，+0.2，+0.1"表示用于比對(duì)的分詞在所屬序列中的位置為1-5時(shí)，若偏移相同，則所得評(píng)分在原有分值的基礎(chǔ)上再加上相應(yīng)的加權(quán)值，例如，當(dāng)兩個(gè)序列中第一個(gè)分詞的偏移相同時(shí)，偏移項(xiàng)所得評(píng)分為1+0.5 = 1.5分;若偏移不同，則所得評(píng)分在兩個(gè)附加權(quán)值的平均值的基礎(chǔ)上加上相應(yīng)的原有分值，例如，當(dāng)?shù)谝粋€(gè)序列中第二個(gè)分詞的偏移屬性和第二個(gè)序列中第四個(gè)分詞的偏移相同時(shí)，偏移項(xiàng)所得評(píng)分為 l+sum(0.4,0.2)/2 = 1.3 分。
[0066] 相應(yīng)地，序列結(jié)尾處的"+0.1 ,+0.2,+0.3"表示用于比對(duì)的分詞在所屬序列中的位置為后1-3個(gè)時(shí)，若偏移相同，則所得評(píng)分在原有基本權(quán)值的基礎(chǔ)上再加上相應(yīng)的分值，例如，當(dāng)兩個(gè)序列中的最后一個(gè)分詞的偏移相同時(shí)，偏移項(xiàng)所得評(píng)分為1+0.3 = 1.3分;若偏移不同，則所得評(píng)分在兩個(gè)附加權(quán)值的平均值的基礎(chǔ)上加上相應(yīng)的原有分值，例如，當(dāng)?shù)谝粋€(gè) 序列中最后一個(gè)分詞的偏移屬性和第二個(gè)序列中倒數(shù)第立個(gè)分詞的偏移屬性相同時(shí)，偏移項(xiàng)所得評(píng)分為l+sum(0.3,0.1)/2 = 1.2分。報(bào)文序列中間分詞偏移項(xiàng)互相匹配時(shí)按照普通的基本權(quán)值打分即可，不再另加分值。
[0067] 上述=個(gè)位置處的評(píng)分優(yōu)先級(jí)依次為:首部、尾部，中間。匹配評(píng)分時(shí)，W前向優(yōu)先級(jí)確定位置，W后向優(yōu)先級(jí)確定分值，即當(dāng)報(bào)文較短首部和尾部定義的一部分位置重合時(shí)，根據(jù)前向優(yōu)先級(jí)將重合部分的分詞定義為首部，其他重合情況處理類似；當(dāng)首部分詞與尾部分詞偏移屬性相同時(shí)，根據(jù)后向優(yōu)先級(jí)將加權(quán)分值設(shè)置為尾部分詞計(jì)算加權(quán)所得分值，其他位置不同的加權(quán)評(píng)分方法計(jì)算類似，具體加權(quán)分值見公式8，對(duì)于其他屬性評(píng)分的修正方法與上述評(píng)分追加規(guī)則相同。位置加權(quán)評(píng)分規(guī)則形式化描述如下：
[0068；巧）
[0069] 其中，Tl. I和T2. I分別表示Tl和T2兩個(gè)報(bào)文的長度即各自所包含的分詞個(gè)數(shù)。
[0070] 化簡(jiǎn)后：
[0071]
識(shí)）
[0072] 位置加權(quán)后的評(píng)分規(guī)則形式化描述如下：
[0073] (10)
[0074] (11)
[0075] (巧
[0076]
[0077] (14)
[007引 scoreP(Ti[i]，T2[j]) = ScoreP(Ti[i]，T2[j]).o+scoreP(Ti[i]，T2[j]) .w+scoreP (Ti[i]，T2[ j]).S (15)+scoreP(Ti[i]，T2[ j]).t+scoreP(Ti[i]，T2[ j]) .d
[0079] 在后續(xù)分析中，使用改進(jìn)的位置加權(quán)評(píng)分結(jié)果scoreP(Ti[i]，T2[j])代替原基本評(píng) 分結(jié)果scoreBase(Ti[i]，T2[ j])。
[0080] 3)通過距離加權(quán)改進(jìn)評(píng)分規(guī)則
[0081 ]距離加權(quán)是指:對(duì)兩個(gè)相應(yīng)的分詞進(jìn)行匹配，度量其相似度時(shí)，其相對(duì)距離越大，相應(yīng)相似度的評(píng)分按一定規(guī)則降低。因?yàn)閷?duì)于報(bào)文格式域的序列來說，只有在相同或者相近位置出現(xiàn)相匹配的分詞才有意義，所W，對(duì)于序列比對(duì)中距離比較遠(yuǎn)的匹配，對(duì)其進(jìn)行適當(dāng)罰分，即將其在比對(duì)中的分值貢獻(xiàn)降低。
[0082]因此，對(duì)分詞相似度評(píng)分追加評(píng)分規(guī)則，使得兩個(gè)分詞的相似度隨著其相對(duì)位置的增大而減小。分詞相似度距離加權(quán)評(píng)分規(guī)則形式化描述及說明如下：
[0083]
(1巧
[0084] 其中，3(30'6口(1'1[。^2。'])表示在基本評(píng)分和位置加權(quán)后得到的相似度分值，山3 (Tl[i]，T2[j])表示分詞Sl和分詞S2的偏移量差值即相對(duì)位置，可W通過計(jì)算兩個(gè)分詞偏移屬性的差值得到，即diS (Tl「i L T2「H ) = Tl「i L 0-T2「H . O。在兩個(gè)分詞的距離不超過10 時(shí)，距離加權(quán)的分值3
，在兩個(gè)分詞的距離超過10之后，即使兩個(gè)分詞非常相似或相同，對(duì)于整個(gè)報(bào)文格式的比對(duì)也是沒有意義的，因此將距離加權(quán)的結(jié)果設(shè)置為0。
[00化]舉例來講，如果兩個(gè)分詞的距離為2,貝lJscoreD(Ti[i]，T2[ j]) = 0.8*scoreP(Ti
[i] ，了2[ j])，如果兩個(gè)分詞的距離為 3,貝lJscoreD(Ti[i]，T2[ j])=〇.7*scoreP(Ti[i]，T2
[j] )，如果兩個(gè)分詞的距離為14,則scoreD(Ti[i]，T2[ j])=0。
[00化]將經(jīng)過位置加權(quán)和距離加權(quán)運(yùn)算后得到的scoreD(Ti[i]，T2[j])作為兩個(gè)分詞比對(duì)得到的相似程度結(jié)果score(Tl[ i ]，T2 [ j ]) = scoreD(；Tl[ i ]，T2[ j ])。
[0087] 4)參考分詞相似度設(shè)計(jì)算法對(duì)報(bào)文序列相似度進(jìn)行度量
[0088] 本發(fā)明設(shè)計(jì)的MS(Message SimiIarity)算法采用基于文本編輯距離的方法，對(duì)報(bào) 文序列比對(duì)設(shè)計(jì)動(dòng)態(tài)規(guī)劃算法求解。W下首先對(duì)報(bào)文序列相似度的最優(yōu)子結(jié)構(gòu)和重疊子問題進(jìn)行分析，然后給出一個(gè)遞歸解和算法描述。
[0089] 最優(yōu)子結(jié)構(gòu):設(shè)兩個(gè)報(bào)文序列分別為Tm=<tl，t2, . . .，*。>和。。=<'1^2, . . .，fn >，Tm和Fn的序列相似度記為MS(Tm，F(xiàn)n)，其中，tl，t2，. . .，tm均為報(bào)文分詞，fl，f2，. . .，fn均為報(bào)文分詞。對(duì)于Tm和Fn之間最后一個(gè)分詞位置的編輯轉(zhuǎn)換方式，可W有如下立種方式實(shí) 現(xiàn)：
[0090] (1)序列T的最后一個(gè)分詞轉(zhuǎn)換為序列F的最后一個(gè)分詞（或，F(xiàn)的最后一個(gè)分詞轉(zhuǎn) 換為 T 的最后一個(gè)分詞），此時(shí)，有 15(1'111術(shù)）=15(1'111-1術(shù)-1) + 3(30'6(1：111，打），其中，3(30'6(1：111， fn)為兩個(gè)序列最后一個(gè)分詞tm，fn之間相似度的評(píng)分，MS(Tm-l，F(xiàn)n-l)為最后一個(gè)分詞的序列 T與去除最后一個(gè)分詞的序列F的序列相似度；
[0091] (2)序列T添加 fn到序列尾部（或，序列F在尾部刪除分詞fn)，此時(shí)，有MS(TmJn) = MS(Tm'Fn-l);
[0092] (3)序列F添加 tm到序列尾部（或，序列T在尾部刪除分詞tm)，此時(shí)，有MS(Tm，F(xiàn)n) = MS(Tm-IjFn) O
[0093] 在運(yùn)=種方式得到的相似度分值中，選取最大的分值作為最終對(duì)序列相似性度量的結(jié)果。
[0094] 在LD算法中，考慮兩個(gè)元素相同時(shí)兩個(gè)序列最后一個(gè)元素對(duì)編輯距離不造成影響，元素不同時(shí)需要選取相對(duì)最小前綴編輯距離加1，運(yùn)實(shí)際上是將兩個(gè)序列最后一個(gè)元素的相似程度對(duì)序列相似程度的影響二值化為0和1。而在MS算法中，對(duì)兩個(gè)序列中元素的相似程度采用相似度評(píng)分的方法得到更加精確的度量，因此，在考慮元素相似對(duì)序列相似性的影響時(shí)，將序列相似度的增量設(shè)置為分詞的相似度，并且將LD算法中序列元素相同和不相同的兩種情況整合到一起，使用序列元素相似度即分詞相似度進(jìn)行度量。
[OOM]此外，由于LD算法對(duì)兩個(gè)文本(序列）的編輯距離也就是差異程度進(jìn)行度量，而本發(fā)明所設(shè)計(jì)的MS算法是對(duì)兩個(gè)序列的相似程度進(jìn)行度量。由于差異性通常與相似性負(fù)相關(guān)，所W，不同于LD算法中選取子問題的最小結(jié)果值作為最終結(jié)果，MS算法選取子問題中的最大結(jié)果分值作為相似度評(píng)價(jià)的最終結(jié)果。
[0096] 重疊子問題：由最優(yōu)子問題分析可得，計(jì)算兩個(gè)序列相似度時(shí)包含兩個(gè)序列分別各自去掉最后一個(gè)元素的子問題，即計(jì)算MS(TmJn)時(shí)，需要對(duì)MS(Tm，F(xiàn)n-l)和MS(Tm-l，F(xiàn)n)進(jìn) 行考察，而運(yùn)兩個(gè)子問題都包含的子問題是兩個(gè)原序列都去掉最后一個(gè)元素的相似度的問題，即計(jì)算MS(Tm，F(xiàn)n-l)和MS(Tm-l，F(xiàn)n)時(shí)，都需要計(jì)算原本兩個(gè)序列考察相似度時(shí)需要解決的子問題MS(Tm-l，F(xiàn)n-l)。也就是說，原問題的子問題中，有兩個(gè)包含相同的子問題。W此類推， MS算法的多個(gè)子問題中存在共享遞進(jìn)的子子問題。
[0097] 遞歸解:將MS(Ti，門）記為MS[i，j]，根據(jù)算法思想和W上分析，設(shè)計(jì)算法的遞歸求解方法如下：
[009引
(17)
[0099] 具體求解步驟說明如下：
[0100] 第一步:求解過程初始化，對(duì)于i或j為0的位置，設(shè)置MS[i，j]為0;
[0101 ]第二步:按照遞歸求解方程，i，j各自依次從小到大的順序求解MS[ i，j ];
[0102] 第S步：當(dāng)i，j取到范圍內(nèi)最大值，即MS[i，j]表示兩個(gè)完整報(bào)文分詞序列的相似度時(shí)，求解結(jié)束。
[0103] 該算法的時(shí)間復(fù)雜度和空間復(fù)雜度均為〇(mn)，其中，m，n分別為兩個(gè)分詞序列的規(guī)模，即分詞序列所含分詞數(shù)量:m = Len(A)，n = Len(B)。本發(fā)明比較報(bào)文分詞序列相似度的方法將用于本發(fā)明報(bào)文聚類過程的聚類對(duì)象距離度量，因此所設(shè)及到的報(bào)文也可稱之為用于比對(duì)和分析的格式模板。
[0104] 二、報(bào)文自適應(yīng)聚類原理及實(shí)現(xiàn)方案
[0105] 目前使用的聚類算法需要將聚類的個(gè)數(shù)作為聚類算法的輸入?yún)?shù)，但是對(duì)于運(yùn)個(gè) 參數(shù)的設(shè)定，并沒有任何先驗(yàn)知識(shí)可W參考。而聚類的結(jié)果包括聚類個(gè)數(shù)、聚類中報(bào)文的分布W及聚類后得到的報(bào)文格式模版都對(duì)整體協(xié)議格式逆向的結(jié)果產(chǎn)生重要的影響。而在運(yùn) 之中，聚類的個(gè)數(shù)將在聚類過程中影響最終分析得到的報(bào)文分布和格式模版。所W，需要對(duì) PAM聚類的輸入?yún)?shù)即目標(biāo)聚類的個(gè)數(shù)進(jìn)行選擇，來獲得較好的分析結(jié)果。為此，考慮引入一種聚類評(píng)價(jià)指標(biāo)(Clustering Validity Index)來對(duì)聚類結(jié)果進(jìn)行考量，通過調(diào)整不同的輸入?yún)?shù)，來找到能夠使得聚類效果達(dá)到最優(yōu)的聚類個(gè)數(shù)。
[0106] 常用的聚類有效性評(píng)價(jià)指標(biāo)有Dunn指標(biāo)，DBI指標(biāo)(DaviesBouldin Index)，CH有效性指標(biāo)Waiinski-HarabaszIndex) ,Partition Coeff icient，S有效性指標(biāo)（SiIhouette Index) ,CS Index,Separation Index等。根據(jù)目前聚類對(duì)象數(shù)據(jù)類型和聚類方式，選擇 Dunn指標(biāo)作為本發(fā)明聚類歸約階段的聚類評(píng)價(jià)指標(biāo)，用于指導(dǎo)選擇聚類的個(gè)數(shù)，對(duì)于其他指標(biāo)的效果測(cè)試和比較暫且留作將來進(jìn)一步研究的工作內(nèi)容。
[0107] 具體地，Dunn指標(biāo)是一種評(píng)價(jià)同一類別樣本的緊密程度與不同類別之間樣本分散程度的一個(gè)函數(shù)，其定義如下：
[010 引
（18)
[0109] 其中，Ci，C2, . . .，Ck表示不同的報(bào)文序列I 示聚類Cl的直徑，x、y為聚類Cl中的兩個(gè)報(bào)文分詞序巧表示兩個(gè)聚類Cl, Cj之間的距離，X表示聚類Cl中的報(bào)文分詞序列、y表示聚類Cj中的報(bào)文分詞序列，d(x，y)表示報(bào)文分詞序列X與報(bào)文分詞序列y的距離，即報(bào)文序列X中分詞與報(bào)文序列 7中分詞的最近距離，(1^，7)=111；[]1{(113^[;[]，7。'])}，義[;[]為報(bào)文分詞序列中的第;[個(gè)分詞，y[ j ]為報(bào)文分詞序列中的第j個(gè)分詞，k為報(bào)文聚類數(shù)量。
[0110] 式（18)中，分子表示類間樣本的分散程度，分母表示類內(nèi)樣本的緊密程度。Dunn 化)的值越大，表示聚類的結(jié)果越優(yōu)。
[0111] 本發(fā)明WPAM算法為基礎(chǔ)，在聚類數(shù)目的有效取值范圍內(nèi)進(jìn)行PAM聚類，選取結(jié)果最優(yōu)即能夠使得Dunn化)最大的k值作為最優(yōu)聚類數(shù)目并確定最優(yōu)聚類結(jié)果，設(shè)計(jì)基于Dunn 指數(shù)的改進(jìn)PAM聚類算法如下：
[0112] W遞歸聚類結(jié)果中聚類內(nèi)報(bào)文通用格式為對(duì)象，使用報(bào)文距離序列比對(duì)算法計(jì)算兩個(gè)對(duì)象之間的距離，使用PM算法對(duì)有效的聚類數(shù)目k計(jì)算聚類結(jié)果的Dunn化），統(tǒng)計(jì)具有最大Dunn化)的聚類數(shù)目作為最優(yōu)聚類結(jié)果輸出。
[0113] 求解過程說明：
[0114] 第一步:設(shè)置聚類數(shù)量取值范圍為不超過報(bào)文數(shù)量的正整數(shù)；
[0115] 第二步:選取初始聚類數(shù)量（1或最大值)使用PAM算法進(jìn)行聚類，記錄聚類結(jié)果和聚類質(zhì)量；
[0116] 第=步:依次調(diào)整更改聚類數(shù)量的取值，根據(jù)聚類數(shù)量進(jìn)行聚類；
[0117] 第四步:將新聚類方式與記錄的聚類質(zhì)量相比較，若新聚類較好，則替換原記錄中的聚類結(jié)果和聚類質(zhì)量；
[0118] 第五步:在考察完畢所有可取的聚類數(shù)量之后，將對(duì)比和記錄得到的具有最優(yōu)聚類質(zhì)量的聚類方法作為最優(yōu)聚類的結(jié)果。
[0119] 本設(shè)計(jì)的時(shí)間復(fù)雜度分析：
[0120] PAM算法具有(Kk(n-k)2)的時(shí)間復(fù)雜度，本算法執(zhí)行n+1次PAM算法，因此本算法的時(shí)間復(fù)雜度為(Kkn(n-k)2)。
[0121] 本方法設(shè)計(jì)的自適應(yīng)聚類過程流程如圖2所示。
[0122] 本發(fā)明說明書中未作詳細(xì)描述的內(nèi)容屬本領(lǐng)域技術(shù)人員的公知技術(shù)。
【主權(quán)項(xiàng)】
1. 一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法，其特征在于包括如下步驟： (1) 獲取需要進(jìn)行報(bào)文聚類的報(bào)文，分別對(duì)各個(gè)報(bào)文進(jìn)行劃分得到分詞，進(jìn)而得到各個(gè) 報(bào)文對(duì)應(yīng)的報(bào)文分詞序列;所述的分詞為報(bào)文中的各個(gè)字段； (2) 從步驟（1)得到的報(bào)分詞文序列中任意選擇兩個(gè)，分別記為Tm、Fn，計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列F n中第j個(gè)分詞關(guān)于偏移的相似度scoreP(Tm[i]，F(xiàn)n[ j]) ·〇為Tm[i].o = Fn[j].o表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞均包括偏移，Tm[i] .o#Fn[ j] .〇表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè) 分詞不均包括偏移，i = l，2,3···ηι，j = l，2,3···η，ηι為報(bào)文分詞序列Tm中分詞的個(gè)數(shù)，η為報(bào) 文分詞序列Fn中分詞的個(gè)數(shù)，Tm. 1為報(bào)文分詞序列Tm的長度，F(xiàn)n. 1為報(bào)文分詞序列Fn的長度；所述的偏移為分詞首位到當(dāng)前報(bào)文分詞序列頭部的距離； (3) 計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞關(guān)于寬度的相似度scoreP(Tm[i]，F(xiàn) n[j]).w為其中，Tm[i] .w = Fn[j] .w表不報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞寬度相同，Tm[i] .w#Fn[ j] .w表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j 個(gè)分詞寬度不同；所述的寬度為分詞的長度； (4) 計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞關(guān)于語義的相似度scoreP(Tm[i]，F(xiàn) n[j])·s為其中，Tm[i].s = Fn[j].s表示報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞語義相同，1^[1].8^^11[」].8表示報(bào)文分詞序列1?中第1個(gè)分詞與報(bào)文分詞序列? 11中第」個(gè)分詞語義不同；所述的語義為分詞的含義； (5) 計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞關(guān)于類型的相似度scoreP(Tm[i]，F(xiàn) n[j])·t為所述的類型為分詞類型，其中，分詞類型包括文本、二進(jìn)制，Tm[i].t = Fn[j].t表示報(bào)文分詞序列!"中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞類型相同，報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞類型不同； (6) 計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞關(guān)于數(shù)據(jù)內(nèi)容的相似度scoreP(T m「il .Fn「il) .d為所述的數(shù)據(jù)內(nèi)容為分詞的取值;其中，Tm[i].d = Fn[j].d表示報(bào)文分詞序列Tm中第i個(gè) 分詞與報(bào)文分詞序列Fn中第j個(gè)分詞數(shù)據(jù)內(nèi)容相同，Tm[i] .d辛Fn[j] .d表不報(bào)文分詞序列Tm 中第i個(gè)分詞與報(bào)文分詞序列?"中第j個(gè)分詞數(shù)據(jù)內(nèi)容不同； (7) 計(jì)算得到報(bào)文分詞序列1"中第i個(gè)分詞與報(bào)文分詞序列？"中第j個(gè)分詞的相似度 scoreP(Tm[i]，F(xiàn)n[j])為 scoreP(Tm[i] ,Fn[ j ]) = scoreP(Tm[ i ] ,Fn[ j]). o+scoreP(Tm[ i ] ,Fn[ j]) .w+scoreP(Tm [i],Fn[ j]).s+scoreP(Tm[i],Fn[ j]).t+scoreP(Tm[i],Fn[ j]).d； (8) 分別計(jì)算報(bào)文分詞序列Tm中第i個(gè)分詞與報(bào)文分詞序列Fn中第j個(gè)分詞的相對(duì)位置 (^(1"[1]$[」])=|1"[1]. 〇$[」].〇|，進(jìn)而計(jì)算得到修正后的報(bào)文分詞序列1"中第1個(gè)分詞Iis枏f令福癢別R1由笛彳個(gè)令福的和化IlifQmrpnnni(9) 將％〇代0(1'^]^11[幻）作為最終的報(bào)文分詞序列1"中第1個(gè)分詞與報(bào)文分詞序列?11 中第j個(gè)分詞的相似度8〇〇^(1'^]^幻），重復(fù)步驟(2)-步驟(8)得到各個(gè)報(bào)文分詞序列中各個(gè)分詞的相似度； (10) 計(jì)算報(bào)文分詞序列1^與報(bào)文分詞序列Fj的相似度MS[i，j]為其中，i的初值為I，j的初值為I，Ti為包括報(bào)文分詞序列Tm中第e個(gè)分詞的報(bào)文分詞序列，e = l，2,3...i; (11) i = i+l，重復(fù)步驟（10)，直至i=m; (12) j = j+l，重復(fù)步驟（10)-步驟(11)，直至j=n，得到報(bào)文分詞序列1?與報(bào)文分詞序列 ?"的相似度MS[m，n]，從而得到各個(gè)報(bào)文分詞序列間的相似度； (13) 根據(jù)步驟(12)得到的各個(gè)報(bào)文分詞序列間的相似度，對(duì)各個(gè)報(bào)文分詞序列進(jìn)行聚類，得到不同的報(bào)文序列聚類，并記為(^，(^，…，(^，其中汰為聚類個(gè)數(shù)汰二^一-飛^為報(bào) 分詞文序列個(gè)數(shù)； (14) 計(jì)算聚類有效性評(píng)價(jià)指標(biāo)Dunn(k)為d(Tm,Fn)=rnin{dis(Tm[i] ,Fn[ j])}； (15) 選取聚類有效性評(píng)價(jià)指標(biāo)Dunn(k)最大的報(bào)文序列聚類C^C2,- ,Ck作為聚類結(jié) 果。2.根據(jù)權(quán)利要求1所述的一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法，其特征在于:所述的對(duì)各個(gè)報(bào)文分詞序列進(jìn)行聚類的方法為PAM算法。
【文檔編號(hào)】G06K9/62GK106021361SQ201610305948
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月10日
【發(fā)明人】齊維孔, 衣龍騰, 李明, 周鈉, 劉曉暉
【申請(qǐng)人】中國空間技術(shù)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：齊維孔;衣龍騰;李明;周鈉;劉曉暉;
技術(shù)所有人：中國空間技術(shù)研究院;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

應(yīng)用層網(wǎng)絡(luò)協(xié)議相關(guān)技術(shù)

應(yīng)用層報(bào)文相關(guān)技術(shù)

網(wǎng)絡(luò)協(xié)議相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于序列比對(duì)的自適應(yīng)應(yīng)用層網(wǎng)絡(luò)協(xié)議報(bào)文聚類方法