一種協(xié)議自動(dòng)識(shí)別方法及其所用分類器的構(gòu)造方法
【專利摘要】本發(fā)明涉及一種協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法,包括:采集原始數(shù)據(jù)樣本,從中提取出訓(xùn)練集;其中,訓(xùn)練集中的一個(gè)元素對(duì)應(yīng)原始數(shù)據(jù)樣本中的一個(gè)數(shù)據(jù),每一元素表示為:(x(i),y(i)),其中的y(i)為賦予給第i個(gè)數(shù)據(jù)的類標(biāo),表明該數(shù)據(jù)屬于哪一種協(xié)議;x(i)表示特征值,反映了數(shù)據(jù)的內(nèi)在特性;利用得到的訓(xùn)練集構(gòu)造分類器。本發(fā)明還提供一種基于所述方法所構(gòu)造的分類器實(shí)現(xiàn)協(xié)議自動(dòng)識(shí)別的方法,包括:接收到數(shù)據(jù)后,提取出該數(shù)據(jù)的特征值;將所得到的某一數(shù)據(jù)的特征值代入分類器中,得到該數(shù)據(jù)所屬協(xié)議的類別。
【專利說明】一種協(xié)議自動(dòng)識(shí)別方法及其所用分類器的構(gòu)造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及物聯(lián)網(wǎng)領(lǐng)域,特別涉及一種協(xié)議自動(dòng)識(shí)別方法及其所用分類器的構(gòu)造 方法。
【背景技術(shù)】
[0002] 近年來隨著物聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步,整個(gè)物聯(lián)網(wǎng)產(chǎn)業(yè)進(jìn)入了快速發(fā)展階段,各種 新型的面向物聯(lián)網(wǎng)的傳感設(shè)備大量涌現(xiàn),并出現(xiàn)了很多基于這些終端設(shè)備數(shù)據(jù)的創(chuàng)新應(yīng) 用。所有物聯(lián)網(wǎng)應(yīng)用的基礎(chǔ)都是在傳感網(wǎng)絡(luò)所收集的數(shù)據(jù),因此數(shù)據(jù)獲取是物聯(lián)網(wǎng)的一個(gè) 核心內(nèi)容。
[0003] 物聯(lián)網(wǎng)發(fā)展十分迅速,相比之下其規(guī)范標(biāo)準(zhǔn)則落后很多。直至目前,仍沒有一個(gè)組 織提出的標(biāo)準(zhǔn)能夠被大多數(shù)的從業(yè)人員所認(rèn)同,并且就現(xiàn)下情況來看,這也不是一個(gè)短時(shí) 間內(nèi)能夠解決的問題。由此產(chǎn)生的弊端就是數(shù)據(jù)協(xié)議的多樣化和隨意性。傳感數(shù)據(jù)有著各 式各樣的協(xié)議格式,并且很多的協(xié)議格式是私有協(xié)議,使用范圍非常窄,這就給讀取并理解 傳感數(shù)據(jù)制造了很多的麻煩。
[0004] 現(xiàn)有技術(shù)中的解決方法可以概括為靜態(tài)綁定模板方法。在該方法中,一個(gè)模板能 夠解析一種特定協(xié)議的數(shù)據(jù),將一模板綁定在一個(gè)端口上,則能夠解析該端口接收到的這 種協(xié)議的數(shù)據(jù)。但是這樣做的問題在于:一個(gè)端口可能會(huì)接收到不同協(xié)議的數(shù)據(jù)。以網(wǎng)絡(luò) 端口為例,各種不同的傳感節(jié)點(diǎn)都可以通過網(wǎng)絡(luò)上傳數(shù)據(jù),這樣在網(wǎng)絡(luò)端口接收到的數(shù)據(jù) 往往包含了多種協(xié)議類型。在這種情況下,靜態(tài)綁定的方法不可取。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的靜態(tài)綁定方法無法滿足網(wǎng)絡(luò)數(shù)據(jù)協(xié)議識(shí)別 的需要,從而提供一種更加智能、并能動(dòng)態(tài)調(diào)整的協(xié)議自動(dòng)識(shí)別方法。
[0006] 為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法, 包括:
[0007] 步驟11)、采集原始數(shù)據(jù)樣本,從中提取出訓(xùn)練集;其中,
[0008] 所述訓(xùn)練集中的一個(gè)元素對(duì)應(yīng)原始數(shù)據(jù)樣本中的一個(gè)數(shù)據(jù),每一元素表示為: (x(i),y (i)),其中的y(i)為賦予給第i個(gè)數(shù)據(jù)的類標(biāo),表明該數(shù)據(jù)屬于哪一種協(xié)議;χω表示 特征值,反映了數(shù)據(jù)的內(nèi)在特性;
[0009] 步驟12)、利用步驟11)得到的訓(xùn)練集構(gòu)造分類器。
[0010] 上述技術(shù)方案中,在所述的步驟11)中,通過Tf-Idf方法求取所述特征值;包括:
[0011] 步驟11-1)、根據(jù)原始數(shù)據(jù)樣本中的數(shù)據(jù)構(gòu)建詞典;所述詞典表示詞匯的取值范 圍,所述詞匯表示組成原始數(shù)據(jù)的字符串中若干個(gè)字符的組合;
[0012] 步驟11-2)、將原始數(shù)據(jù)樣本中的各個(gè)數(shù)據(jù)與步驟11-1)所得到的詞典進(jìn)行比較, 根據(jù)比較結(jié)果得到各個(gè)數(shù)據(jù)的特征值。
[0013] 上述技術(shù)方案中,在所述的步驟11-1)中還包括:計(jì)算所述詞匯與詞典的關(guān)聯(lián)程 度,將關(guān)聯(lián)程度低的詞匯從所述詞典中刪除。
[0014] 上述技術(shù)方案中,在所述的步驟12)中,采用k類樸素貝葉斯方法構(gòu)造分類器。
[0015] 本發(fā)明還提供了一種基于所述方法所構(gòu)造的分類器實(shí)現(xiàn)協(xié)議自動(dòng)識(shí)別的方法,包 括:
[0016] 步驟21)、接收到數(shù)據(jù)后,提取出該數(shù)據(jù)的特征值;
[0017] 步驟22)、將步驟21)所得到的某一數(shù)據(jù)的特征值代入所述分類器中,得到該數(shù)據(jù) 所屬協(xié)議的類別。
[0018] 上述技術(shù)方案中,所述步驟22)包括:
[0019] 步驟22-1)、將步驟21)所得到的某一數(shù)據(jù)的特征值代入分類器中,得到該特征值 屬于各個(gè)協(xié)議的概率值;
[0020] 步驟22-2)、將步驟22-1)所得到的各個(gè)概率值與一用于表示顯著性的閾值進(jìn)行 比較,若均小于該閾值,所述數(shù)據(jù)不屬于任何已知協(xié)議,屬于未分類,否則將概率最大值所 對(duì)應(yīng)的協(xié)議作為所述數(shù)據(jù)所屬的協(xié)議;
[0021] 步驟22-3)、對(duì)分類后的數(shù)據(jù)做進(jìn)一步分析,將分析結(jié)果與實(shí)際情況較大的數(shù)據(jù)歸 為誤分類。
[0022] 上述技術(shù)方案中,在所述的步驟22)之后還包括:
[0023] 步驟23)、記錄并保存屬于誤分類或未分類的數(shù)據(jù),達(dá)到一定量后,將這些數(shù)據(jù)按 照權(quán)利要求1-4之一所述方法提取訓(xùn)練集,并與之前的訓(xùn)練集合并,形成新的訓(xùn)練集,進(jìn)而 構(gòu)造另一分類器。
[0024] 上述技術(shù)方案中,在所述的步驟22)之后還包括:
[0025] 步驟24)、當(dāng)刪除的協(xié)議達(dá)到一定數(shù)量后,修改之前保存的訓(xùn)練集,從中刪除所有 屬于刪除協(xié)議的數(shù)據(jù)條目,得到新的訓(xùn)練集,然后按照權(quán)利要求1-4之一所述方法得到新 的分類器。
[0026] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
[0027] 1、不再需要綁定端口和協(xié)議,使得數(shù)據(jù)的處理更加地智能和自動(dòng)化。
[0028] 2、能夠動(dòng)態(tài)地調(diào)整協(xié)議的數(shù)量,方便添加新增協(xié)議,刪除過時(shí)協(xié)議,更適應(yīng)真實(shí)的 物聯(lián)網(wǎng)場(chǎng)景。
【專利附圖】
【附圖說明】
[0029] 圖1是本發(fā)明方法中構(gòu)造分類器過程的流程圖;
[0030] 圖2是本發(fā)明方法中利用分類器對(duì)數(shù)據(jù)做協(xié)議識(shí)別的流程圖。
【具體實(shí)施方式】
[0031] 現(xiàn)結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的描述。
[0032] 本發(fā)明的方法總體上包括兩個(gè)階段,第一階段是訓(xùn)練階段,第二階段是識(shí)別階段, 所述訓(xùn)練階段用于構(gòu)造分類器,而所述的識(shí)別階段則是利用所構(gòu)造的分類器識(shí)別所接收數(shù) 據(jù)的協(xié)議格式。
[0033] 下面就本發(fā)明的方法分階段分別予以說明。
[0034] 一、訓(xùn)練階段
[0035] 如圖1所示,訓(xùn)練階段包括以下步驟:
[0036] 步驟11)、采集原始數(shù)據(jù)樣本,從中提取出訓(xùn)練集。
[0037] 網(wǎng)絡(luò)中所傳輸?shù)臄?shù)據(jù)包采集后可作為原始數(shù)據(jù)樣本,根據(jù)這些原始數(shù)據(jù)樣本可得 到訓(xùn)練集,所述訓(xùn)練集中與某一原始數(shù)據(jù)所對(duì)應(yīng)的元素表示為:( x(i),y(i));其中,y(i)為賦 予給第i個(gè)數(shù)據(jù)的類標(biāo),即表明該數(shù)據(jù)屬于哪一種協(xié)議 ;x(i)表示特征值,所述特征值反映 了數(shù)據(jù)的某一內(nèi)在特性。
[0038] 由于原始數(shù)據(jù)樣本中的數(shù)據(jù)屬于何種協(xié)議格式是已知的,因此可以得到7(1)的值。 而特征值x (i)表的大小可通過如下方式構(gòu)建:
[0039] 首先,根據(jù)原始數(shù)據(jù)樣本構(gòu)建詞典。每一個(gè)原始數(shù)據(jù)都是一串十六進(jìn)制的字符 串,將其視為一篇文檔,其中每?jī)蓚€(gè)十六進(jìn)制字符視為一個(gè)詞匯,整個(gè)原始數(shù)據(jù)樣本就能被 視為一個(gè)文檔集合。一個(gè)十六進(jìn)制字符值范圍為〇到F,那么由兩個(gè)十六進(jìn)制組成的詞匯 取值范圍為[00, 01,···,F(xiàn)E,F(xiàn)F],這個(gè)取值范圍也被稱為詞典V。詞典中每個(gè)詞匯出現(xiàn)頻率 以及其在文檔集合中的分布是不同,或者說,每個(gè)詞匯的重要程度是有區(qū)別的。比如說〇〇 在絕大多數(shù)的文檔中都有出現(xiàn),但是顯然〇〇只是作為一種占位符或者空數(shù)據(jù)出現(xiàn),對(duì)于識(shí) 別類標(biāo)沒有任何幫助,也就是說,00的區(qū)分能力很低。在本實(shí)施例中,使用Tf-Idf (Term Frequency - Inverse Document Frequency)方法來找出區(qū)分能力高的詞匯,將區(qū)分能力高 的詞匯保留在詞典中,將區(qū)分能力低的詞匯從詞典中刪除。
[0040] ] Tf-Idf是一種在信息檢索領(lǐng)域(Information Retrieval)廣泛使用的度量,用于 衡量一篇文檔與一個(gè)特定詞匯之間的相關(guān)度,從而在一組文檔集合中發(fā)現(xiàn)與該詞匯相關(guān)的 文檔,并可根據(jù)此度量對(duì)這些文檔排序。
[0041] Tf-Idf有多種變種,一種常見的計(jì)算方法為:
[0042] tf (t, d) =f (t, d)
[0043]
【權(quán)利要求】
1. 一種協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法,包括: 步驟11)、采集原始數(shù)據(jù)樣本,從中提取出訓(xùn)練集;其中, 所述訓(xùn)練集中的一個(gè)元素對(duì)應(yīng)原始數(shù)據(jù)樣本中的一個(gè)數(shù)據(jù),每一元素表示為: (x(i),y(i)),其中的y(i)為賦予給第i個(gè)數(shù)據(jù)的類標(biāo),表明該數(shù)據(jù)屬于哪一種協(xié)議;χ ω表示 特征值,反映了數(shù)據(jù)的內(nèi)在特性; 步驟12)、利用步驟11)得到的訓(xùn)練集構(gòu)造分類器。
2. 根據(jù)權(quán)利要求1所述的協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法,其特征在于,在所 述的步驟11)中,通過Tf-Idf方法求取所述特征值;包括: 步驟11-1)、根據(jù)原始數(shù)據(jù)樣本中的數(shù)據(jù)構(gòu)建詞典;所述詞典表示詞匯的取值范圍,所 述詞匯表示組成原始數(shù)據(jù)的字符串中若干個(gè)字符的組合; 步驟11-2)、將原始數(shù)據(jù)樣本中的各個(gè)數(shù)據(jù)與步驟11-1)所得到的詞典進(jìn)行比較,根據(jù) 比較結(jié)果得到各個(gè)數(shù)據(jù)的特征值。
3. 根據(jù)權(quán)利要求2所述的協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法,其特征在于,在所 述的步驟11-1)中還包括:計(jì)算所述詞匯與詞典的關(guān)聯(lián)程度,將關(guān)聯(lián)程度低的詞匯從所述 詞典中刪除。
4. 根據(jù)權(quán)利要求1所述的協(xié)議自動(dòng)識(shí)別中所用分類器的構(gòu)造方法,其特征在于,在所 述的步驟12)中,采用k類樸素貝葉斯方法構(gòu)造分類器。
5. -種基于權(quán)利要求1-4之一所述方法所構(gòu)造的分類器實(shí)現(xiàn)協(xié)議自動(dòng)識(shí)別的方法,包 括: 步驟21)、接收到數(shù)據(jù)后,提取出該數(shù)據(jù)的特征值; 步驟22)、將步驟21)所得到的某一數(shù)據(jù)的特征值代入所述分類器中,得到該數(shù)據(jù)所屬 協(xié)議的類別。
6. 根據(jù)權(quán)利要求5所述的協(xié)議自動(dòng)識(shí)別方法,其特征在于,所述步驟22)包括: 步驟22-1)、將步驟21)所得到的某一數(shù)據(jù)的特征值代入分類器中,得到該特征值屬于 各個(gè)協(xié)議的概率值; 步驟22-2)、將步驟22-1)所得到的各個(gè)概率值與一用于表示顯著性的閾值進(jìn)行比較, 若均小于該閾值,所述數(shù)據(jù)不屬于任何已知協(xié)議,屬于未分類,否則將概率最大值所對(duì)應(yīng)的 協(xié)議作為所述數(shù)據(jù)所屬的協(xié)議; 步驟22-3)、對(duì)分類后的數(shù)據(jù)做進(jìn)一步分析,將分析結(jié)果與實(shí)際情況較大的數(shù)據(jù)歸為誤 分類。
7. 根據(jù)權(quán)利要求6所述的協(xié)議自動(dòng)識(shí)別方法,其特征在于,在所述的步驟22)之后還包 括: 步驟23)、記錄并保存屬于誤分類或未分類的數(shù)據(jù),達(dá)到一定量后,將這些數(shù)據(jù)按照權(quán) 利要求1-4之一所述方法提取訓(xùn)練集,并與之前的訓(xùn)練集合并,形成新的訓(xùn)練集,進(jìn)而構(gòu)造 另一分類器。
8. 根據(jù)權(quán)利要求6所述的協(xié)議自動(dòng)識(shí)別方法,其特征在于,在所述的步驟22)之后還包 括: 步驟24)、當(dāng)刪除的協(xié)議達(dá)到一定數(shù)量后,修改之前保存的訓(xùn)練集,從中刪除所有屬于刪 除協(xié)議的數(shù)據(jù)條目,得到新的訓(xùn)練集,然后按照權(quán)利要求1-4之一所述方法得到新的分類器。
【文檔編號(hào)】G06F17/30GK104111931SQ201310134121
【公開日】2014年10月22日 申請(qǐng)日期:2013年4月17日 優(yōu)先權(quán)日:2013年4月17日
【發(fā)明者】楊航, 張宇, 趙志軍, 潘大慶, 楊子堯, 趙汗青 申請(qǐng)人:中國科學(xué)院聲學(xué)研究所, 無錫中科智能信息處理研發(fā)中心有限公司