一種協(xié)議自動(dòng)識(shí)別方法及其所用分類器的構(gòu)造方法

文檔序號(hào)：6501890閱讀：224來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種協(xié)議自動(dòng)識(shí)別方法及其所用分類器的構(gòu)造方法
【專利摘要】本發(fā)明涉及一種協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法，包括：采集原始數(shù)據(jù)樣本，從中提取出訓(xùn)練集；其中，訓(xùn)練集中的一個(gè)元素對(duì)應(yīng)原始數(shù)據(jù)樣本中的一個(gè)數(shù)據(jù)，每一元素表示為：(x(i),y(i))，其中的y(i)為賦予給第i個(gè)數(shù)據(jù)的類標(biāo)，表明該數(shù)據(jù)屬于哪一種協(xié)議；x(i)表示特征值，反映了數(shù)據(jù)的內(nèi)在特性；利用得到的訓(xùn)練集構(gòu)造分類器。本發(fā)明還提供一種基于所述方法所構(gòu)造的分類器實(shí)現(xiàn)協(xié)議自動(dòng)識(shí)別的方法，包括：接收到數(shù)據(jù)后，提取出該數(shù)據(jù)的特征值；將所得到的某一數(shù)據(jù)的特征值代入分類器中，得到該數(shù)據(jù)所屬協(xié)議的類別。
【專利說明】一種協(xié)議自動(dòng)識(shí)別方法及其所用分類器的構(gòu)造方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及物聯(lián)網(wǎng)領(lǐng)域，特別涉及一種協(xié)議自動(dòng)識(shí)別方法及其所用分類器的構(gòu)造方法。

【背景技術(shù)】
[0002] 近年來隨著物聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步，整個(gè)物聯(lián)網(wǎng)產(chǎn)業(yè)進(jìn)入了快速發(fā)展階段，各種新型的面向物聯(lián)網(wǎng)的傳感設(shè)備大量涌現(xiàn)，并出現(xiàn)了很多基于這些終端設(shè)備數(shù)據(jù)的創(chuàng)新應(yīng) 用。所有物聯(lián)網(wǎng)應(yīng)用的基礎(chǔ)都是在傳感網(wǎng)絡(luò)所收集的數(shù)據(jù)，因此數(shù)據(jù)獲取是物聯(lián)網(wǎng)的一個(gè) 核心內(nèi)容。
[0003] 物聯(lián)網(wǎng)發(fā)展十分迅速，相比之下其規(guī)范標(biāo)準(zhǔn)則落后很多。直至目前，仍沒有一個(gè)組織提出的標(biāo)準(zhǔn)能夠被大多數(shù)的從業(yè)人員所認(rèn)同，并且就現(xiàn)下情況來看，這也不是一個(gè)短時(shí) 間內(nèi)能夠解決的問題。由此產(chǎn)生的弊端就是數(shù)據(jù)協(xié)議的多樣化和隨意性。傳感數(shù)據(jù)有著各式各樣的協(xié)議格式，并且很多的協(xié)議格式是私有協(xié)議，使用范圍非常窄，這就給讀取并理解傳感數(shù)據(jù)制造了很多的麻煩。
[0004] 現(xiàn)有技術(shù)中的解決方法可以概括為靜態(tài)綁定模板方法。在該方法中，一個(gè)模板能夠解析一種特定協(xié)議的數(shù)據(jù)，將一模板綁定在一個(gè)端口上，則能夠解析該端口接收到的這種協(xié)議的數(shù)據(jù)。但是這樣做的問題在于：一個(gè)端口可能會(huì)接收到不同協(xié)議的數(shù)據(jù)。以網(wǎng)絡(luò) 端口為例，各種不同的傳感節(jié)點(diǎn)都可以通過網(wǎng)絡(luò)上傳數(shù)據(jù)，這樣在網(wǎng)絡(luò)端口接收到的數(shù)據(jù) 往往包含了多種協(xié)議類型。在這種情況下，靜態(tài)綁定的方法不可取。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的靜態(tài)綁定方法無法滿足網(wǎng)絡(luò)數(shù)據(jù)協(xié)議識(shí)別的需要，從而提供一種更加智能、并能動(dòng)態(tài)調(diào)整的協(xié)議自動(dòng)識(shí)別方法。
[0006] 為了實(shí)現(xiàn)上述目的，本發(fā)明提供了一種協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法，包括：
[0007] 步驟11)、采集原始數(shù)據(jù)樣本，從中提取出訓(xùn)練集；其中，
[0008] 所述訓(xùn)練集中的一個(gè)元素對(duì)應(yīng)原始數(shù)據(jù)樣本中的一個(gè)數(shù)據(jù)，每一元素表示為： (x(i)，y (i))，其中的y(i)為賦予給第i個(gè)數(shù)據(jù)的類標(biāo)，表明該數(shù)據(jù)屬于哪一種協(xié)議；χω表示特征值，反映了數(shù)據(jù)的內(nèi)在特性；
[0009] 步驟12)、利用步驟11)得到的訓(xùn)練集構(gòu)造分類器。
[0010] 上述技術(shù)方案中，在所述的步驟11)中，通過Tf-Idf方法求取所述特征值；包括：
[0011] 步驟11-1)、根據(jù)原始數(shù)據(jù)樣本中的數(shù)據(jù)構(gòu)建詞典；所述詞典表示詞匯的取值范圍，所述詞匯表示組成原始數(shù)據(jù)的字符串中若干個(gè)字符的組合；
[0012] 步驟11-2)、將原始數(shù)據(jù)樣本中的各個(gè)數(shù)據(jù)與步驟11-1)所得到的詞典進(jìn)行比較，根據(jù)比較結(jié)果得到各個(gè)數(shù)據(jù)的特征值。
[0013] 上述技術(shù)方案中，在所述的步驟11-1)中還包括：計(jì)算所述詞匯與詞典的關(guān)聯(lián)程度，將關(guān)聯(lián)程度低的詞匯從所述詞典中刪除。
[0014] 上述技術(shù)方案中，在所述的步驟12)中，采用k類樸素貝葉斯方法構(gòu)造分類器。
[0015] 本發(fā)明還提供了一種基于所述方法所構(gòu)造的分類器實(shí)現(xiàn)協(xié)議自動(dòng)識(shí)別的方法，包括：
[0016] 步驟21)、接收到數(shù)據(jù)后，提取出該數(shù)據(jù)的特征值；
[0017] 步驟22)、將步驟21)所得到的某一數(shù)據(jù)的特征值代入所述分類器中，得到該數(shù)據(jù) 所屬協(xié)議的類別。
[0018] 上述技術(shù)方案中，所述步驟22)包括：
[0019] 步驟22-1)、將步驟21)所得到的某一數(shù)據(jù)的特征值代入分類器中，得到該特征值屬于各個(gè)協(xié)議的概率值；
[0020] 步驟22-2)、將步驟22-1)所得到的各個(gè)概率值與一用于表示顯著性的閾值進(jìn)行比較，若均小于該閾值，所述數(shù)據(jù)不屬于任何已知協(xié)議，屬于未分類，否則將概率最大值所對(duì)應(yīng)的協(xié)議作為所述數(shù)據(jù)所屬的協(xié)議；
[0021] 步驟22-3)、對(duì)分類后的數(shù)據(jù)做進(jìn)一步分析，將分析結(jié)果與實(shí)際情況較大的數(shù)據(jù)歸為誤分類。
[0022] 上述技術(shù)方案中，在所述的步驟22)之后還包括：
[0023] 步驟23)、記錄并保存屬于誤分類或未分類的數(shù)據(jù)，達(dá)到一定量后，將這些數(shù)據(jù)按照權(quán)利要求1-4之一所述方法提取訓(xùn)練集，并與之前的訓(xùn)練集合并，形成新的訓(xùn)練集，進(jìn)而構(gòu)造另一分類器。
[0024] 上述技術(shù)方案中，在所述的步驟22)之后還包括：
[0025] 步驟24)、當(dāng)刪除的協(xié)議達(dá)到一定數(shù)量后，修改之前保存的訓(xùn)練集，從中刪除所有屬于刪除協(xié)議的數(shù)據(jù)條目，得到新的訓(xùn)練集，然后按照權(quán)利要求1-4之一所述方法得到新的分類器。
[0026] 與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點(diǎn)：
[0027] 1、不再需要綁定端口和協(xié)議，使得數(shù)據(jù)的處理更加地智能和自動(dòng)化。
[0028] 2、能夠動(dòng)態(tài)地調(diào)整協(xié)議的數(shù)量，方便添加新增協(xié)議，刪除過時(shí)協(xié)議，更適應(yīng)真實(shí)的物聯(lián)網(wǎng)場(chǎng)景。

【專利附圖】

【附圖說明】
[0029] 圖1是本發(fā)明方法中構(gòu)造分類器過程的流程圖；
[0030] 圖2是本發(fā)明方法中利用分類器對(duì)數(shù)據(jù)做協(xié)議識(shí)別的流程圖。

【具體實(shí)施方式】
[0031] 現(xiàn)結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的描述。
[0032] 本發(fā)明的方法總體上包括兩個(gè)階段，第一階段是訓(xùn)練階段，第二階段是識(shí)別階段，所述訓(xùn)練階段用于構(gòu)造分類器，而所述的識(shí)別階段則是利用所構(gòu)造的分類器識(shí)別所接收數(shù) 據(jù)的協(xié)議格式。
[0033] 下面就本發(fā)明的方法分階段分別予以說明。
[0034] 一、訓(xùn)練階段
[0035] 如圖1所示，訓(xùn)練階段包括以下步驟：
[0036] 步驟11)、采集原始數(shù)據(jù)樣本，從中提取出訓(xùn)練集。
[0037] 網(wǎng)絡(luò)中所傳輸?shù)臄?shù)據(jù)包采集后可作為原始數(shù)據(jù)樣本，根據(jù)這些原始數(shù)據(jù)樣本可得到訓(xùn)練集，所述訓(xùn)練集中與某一原始數(shù)據(jù)所對(duì)應(yīng)的元素表示為：( x(i)，y(i));其中，y(i)為賦予給第i個(gè)數(shù)據(jù)的類標(biāo)，即表明該數(shù)據(jù)屬于哪一種協(xié)議；x(i)表示特征值，所述特征值反映了數(shù)據(jù)的某一內(nèi)在特性。
[0038] 由于原始數(shù)據(jù)樣本中的數(shù)據(jù)屬于何種協(xié)議格式是已知的，因此可以得到7(1)的值。而特征值x (i)表的大小可通過如下方式構(gòu)建：
[0039] 首先，根據(jù)原始數(shù)據(jù)樣本構(gòu)建詞典。每一個(gè)原始數(shù)據(jù)都是一串十六進(jìn)制的字符串，將其視為一篇文檔，其中每?jī)蓚€(gè)十六進(jìn)制字符視為一個(gè)詞匯，整個(gè)原始數(shù)據(jù)樣本就能被視為一個(gè)文檔集合。一個(gè)十六進(jìn)制字符值范圍為〇到F，那么由兩個(gè)十六進(jìn)制組成的詞匯取值范圍為[00, 01，···，F(xiàn)E，F(xiàn)F]，這個(gè)取值范圍也被稱為詞典V。詞典中每個(gè)詞匯出現(xiàn)頻率以及其在文檔集合中的分布是不同，或者說，每個(gè)詞匯的重要程度是有區(qū)別的。比如說〇〇在絕大多數(shù)的文檔中都有出現(xiàn)，但是顯然〇〇只是作為一種占位符或者空數(shù)據(jù)出現(xiàn)，對(duì)于識(shí) 別類標(biāo)沒有任何幫助，也就是說，00的區(qū)分能力很低。在本實(shí)施例中，使用Tf-Idf (Term Frequency - Inverse Document Frequency)方法來找出區(qū)分能力高的詞匯，將區(qū)分能力高的詞匯保留在詞典中，將區(qū)分能力低的詞匯從詞典中刪除。
[0040] ] Tf-Idf是一種在信息檢索領(lǐng)域（Information Retrieval)廣泛使用的度量，用于衡量一篇文檔與一個(gè)特定詞匯之間的相關(guān)度，從而在一組文檔集合中發(fā)現(xiàn)與該詞匯相關(guān)的文檔，并可根據(jù)此度量對(duì)這些文檔排序。
[0041] Tf-Idf有多種變種，一種常見的計(jì)算方法為：
[0042] tf (t, d) =f (t, d)
[0043]

【權(quán)利要求】
1. 一種協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法，包括：步驟11)、采集原始數(shù)據(jù)樣本，從中提取出訓(xùn)練集；其中，所述訓(xùn)練集中的一個(gè)元素對(duì)應(yīng)原始數(shù)據(jù)樣本中的一個(gè)數(shù)據(jù)，每一元素表示為： (x(i)，y(i))，其中的y(i)為賦予給第i個(gè)數(shù)據(jù)的類標(biāo)，表明該數(shù)據(jù)屬于哪一種協(xié)議；χ ω表示特征值，反映了數(shù)據(jù)的內(nèi)在特性；步驟12)、利用步驟11)得到的訓(xùn)練集構(gòu)造分類器。
2. 根據(jù)權(quán)利要求1所述的協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法，其特征在于，在所述的步驟11)中，通過Tf-Idf方法求取所述特征值；包括：步驟11-1)、根據(jù)原始數(shù)據(jù)樣本中的數(shù)據(jù)構(gòu)建詞典；所述詞典表示詞匯的取值范圍，所述詞匯表示組成原始數(shù)據(jù)的字符串中若干個(gè)字符的組合；步驟11-2)、將原始數(shù)據(jù)樣本中的各個(gè)數(shù)據(jù)與步驟11-1)所得到的詞典進(jìn)行比較，根據(jù) 比較結(jié)果得到各個(gè)數(shù)據(jù)的特征值。
3. 根據(jù)權(quán)利要求2所述的協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法，其特征在于，在所述的步驟11-1)中還包括：計(jì)算所述詞匯與詞典的關(guān)聯(lián)程度，將關(guān)聯(lián)程度低的詞匯從所述詞典中刪除。
4. 根據(jù)權(quán)利要求1所述的協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法，其特征在于，在所述的步驟12)中，采用k類樸素貝葉斯方法構(gòu)造分類器。
5. -種基于權(quán)利要求1-4之一所述方法所構(gòu)造的分類器實(shí)現(xiàn)協(xié)議自動(dòng)識(shí)別的方法，包括：步驟21)、接收到數(shù)據(jù)后，提取出該數(shù)據(jù)的特征值；步驟22)、將步驟21)所得到的某一數(shù)據(jù)的特征值代入所述分類器中，得到該數(shù)據(jù)所屬協(xié)議的類別。
6. 根據(jù)權(quán)利要求5所述的協(xié)議自動(dòng)識(shí)別方法，其特征在于，所述步驟22)包括：步驟22-1)、將步驟21)所得到的某一數(shù)據(jù)的特征值代入分類器中，得到該特征值屬于各個(gè)協(xié)議的概率值；步驟22-2)、將步驟22-1)所得到的各個(gè)概率值與一用于表示顯著性的閾值進(jìn)行比較，若均小于該閾值，所述數(shù)據(jù)不屬于任何已知協(xié)議，屬于未分類，否則將概率最大值所對(duì)應(yīng)的協(xié)議作為所述數(shù)據(jù)所屬的協(xié)議；步驟22-3)、對(duì)分類后的數(shù)據(jù)做進(jìn)一步分析，將分析結(jié)果與實(shí)際情況較大的數(shù)據(jù)歸為誤分類。
7. 根據(jù)權(quán)利要求6所述的協(xié)議自動(dòng)識(shí)別方法，其特征在于，在所述的步驟22)之后還包括：步驟23)、記錄并保存屬于誤分類或未分類的數(shù)據(jù)，達(dá)到一定量后，將這些數(shù)據(jù)按照權(quán) 利要求1-4之一所述方法提取訓(xùn)練集，并與之前的訓(xùn)練集合并，形成新的訓(xùn)練集，進(jìn)而構(gòu)造另一分類器。
8. 根據(jù)權(quán)利要求6所述的協(xié)議自動(dòng)識(shí)別方法，其特征在于，在所述的步驟22)之后還包括：步驟24)、當(dāng)刪除的協(xié)議達(dá)到一定數(shù)量后，修改之前保存的訓(xùn)練集，從中刪除所有屬于刪除協(xié)議的數(shù)據(jù)條目，得到新的訓(xùn)練集，然后按照權(quán)利要求1-4之一所述方法得到新的分類器。
【文檔編號(hào)】G06F17/30GK104111931SQ201310134121
【公開日】2014年10月22日申請(qǐng)日期:2013年4月17日優(yōu)先權(quán)日:2013年4月17日
【發(fā)明者】楊航, 張宇, 趙志軍, 潘大慶, 楊子堯, 趙汗青申請(qǐng)人:中國科學(xué)院聲學(xué)研究所, 無錫中科智能信息處理研發(fā)中心有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊航;張宇;趙志軍;潘大慶;楊子堯;趙汗青
技術(shù)所有人：中國科學(xué)院聲學(xué)研究所;無錫中科智能信息處理研發(fā)中心有限公司
我是此專利的發(fā)明人

上一篇：一種身份證號(hào)碼的識(shí)別方法及裝置制造方法
上一篇：通信裝置與設(shè)置數(shù)據(jù)傳輸?shù)姆椒?/a>

該領(lǐng)域下的技術(shù)專家

如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

構(gòu)造方法相關(guān)技術(shù)

構(gòu)造方法的作用相關(guān)技術(shù)

java無參構(gòu)造方法相關(guān)技術(shù)

什么是構(gòu)造方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種協(xié)議自動(dòng)識(shí)別方法及其所用分類器的構(gòu)造方法