專利名稱:基于訪問信息挖掘的民航報文相關(guān)性分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及民航信息技術(shù)領(lǐng)域,涉及民航報文相關(guān)性的分析方法。具體講,涉及基于訪問信息挖掘的民航報文相關(guān)性分析方法。
背景技術(shù):
隨著民航運輸流量的增大以及民航信息技術(shù)的發(fā)展,民航報文的使用越來越頻繁,重要性越來越顯著。民航報文種類繁多,總體分為航管飛行動態(tài)AFTN報文、航空公司SITA報文和民航機場氣象報文等。各種報文之間有不同程度的相關(guān)性。比如民航機場氣象報文發(fā)送后,空管員根據(jù)氣象報文分析是否適宜降落,隨后結(jié)果就會被反映到航班的落地報里,這兩種報文的相關(guān)性就非常高。分析報文的相關(guān)性,獲得報文之間直接的或者間接的聯(lián)系,對民航信息技術(shù)領(lǐng)域非常重要。報文相關(guān)性分析采用訪問信息挖掘的技術(shù),主要是priori方法。訪問信息挖掘利用數(shù)據(jù)挖掘技術(shù)從相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及數(shù)據(jù)挖掘、計算機語言學(xué)、信息學(xué)等多個領(lǐng)域,是一項綜合技術(shù)。
發(fā)明內(nèi)容
本發(fā)明旨在克服現(xiàn)有技術(shù)的不足,分析報文的相關(guān)性,獲得報文之間直接的或者間接的聯(lián)系。為達到上述目的,本發(fā)明采取的技術(shù)方案是,基于訪問信息挖掘的民航報文相關(guān)性分析方法,包括如下步驟I)獲取民航報文的訪問記錄;2)基于步驟I)的訪問記錄,分析報文內(nèi)容,將具有一致性信息的報文放至同一集合中;3)設(shè)置最小支持度,報文出現(xiàn)的頻率需大于該支持度;4)基于步驟2)的報文集和步驟3)的最小支持度,統(tǒng)計所有報文出現(xiàn)的頻率,找出大于或等于最小支持度的報文,產(chǎn)生一維頻繁報文集;5)基于步驟3)的最小支持度,基于步驟4)的一維頻繁報文集,對產(chǎn)生的一維頻繁報文集,循環(huán)處理直至未能再產(chǎn)生維數(shù)更高的頻繁報文集;6)基于步驟4),步驟5),得到報文所有維數(shù)的頻繁報文集,分析這些報文集,即可得出報文的相關(guān)性。所述步驟I)的訪問記錄由數(shù)據(jù)庫日志,網(wǎng)站日志等獲取。所述步驟2)中的一致性信息是包括航班號、機場的相同信息,將具有一致性內(nèi)容的報文放在同一集合中,以保證分析結(jié)果的有效性。所述步驟3)的最小支持度范圍為O. 01-0. 99,實際取值由使用者決定。所述步驟5)的多維頻繁報文集解釋為若報文集內(nèi)有k個相關(guān)聯(lián)報文,則為K維頻繁報文集,其頻數(shù)為在記錄中同時出現(xiàn)的次數(shù)。
所述步驟5)的實施應(yīng)滿足如下條件I)所獲得報文頻繁集出現(xiàn)的頻率必須大于最小支持度。2)由K維頻繁報文集產(chǎn)生K+1維頻繁報文集時,必須考慮到k維頻繁報文集中的所有組合。循環(huán)處理過程的第一步是簡單統(tǒng)計所有含一個元素的報文出現(xiàn)的頻率,來決定最大的一維報文項目集,及步驟4)所做工作;在第k步,分兩個階段,首先通過第(k-Ι)步中生成的最大報文集來生成侯選報文項目集.然后搜索數(shù)據(jù)庫計算侯選項目集的支持度.若候選項目集的支持度大于步驟3)設(shè)置的最小支持度,則將該報文項目集放入k維頻繁報文集。所述步驟6)的報文相關(guān)性由頻繁報文集產(chǎn)生,相關(guān)性系數(shù)為頻繁報文集的頻數(shù)。本發(fā)明的技術(shù)特點及效果本發(fā)明充分利用了數(shù)據(jù)挖掘技術(shù)中的現(xiàn)有研究和實現(xiàn)成果,可以方便的對報文的訪問記錄進行分析,計算出報文的相關(guān)性。本發(fā)明的應(yīng)用不依賴于報文的存儲和傳播方式,使用者可以根據(jù)應(yīng)用需求,選擇最合適的報文存儲和傳播方式,以獲得最佳使用效果。處理的數(shù)據(jù)是航班運行的報文數(shù)據(jù),通過本發(fā)明的分類處理,提高了航班報文分析效率和準確性,實現(xiàn)航班運行管理的水平。
圖1是本發(fā)明的系統(tǒng)組成結(jié)構(gòu)具體實施例方式技術(shù)方案采取的步驟如下I)獲取民航報文的訪問記錄。2)基于步驟I)的訪問記錄,分析報文內(nèi)容,將具有一致性信息的報文放至同一集
由
口卞ο3)設(shè)置最小支持度,報文出現(xiàn)的頻率需大于該支持度。4)基于步驟2)的報文集和步驟3)的最小支持度,統(tǒng)計所有報文出現(xiàn)的頻率,找出大于或等于最小支持度的報文,產(chǎn)生一維頻繁報文集。5)基于步驟3)的最小支持度,基于步驟4)的一維頻繁報文集,對產(chǎn)生的一維頻繁報文集,循環(huán)處理直至未能再產(chǎn)生維數(shù)更高的頻繁報文集。6)基于步驟4),步驟5),得到報文所有維數(shù)的頻繁報文集,分析這些報文集,即可得出報文的相關(guān)性。所述步驟I)的訪問記錄可由數(shù)據(jù)庫日志,網(wǎng)站日志等獲取。所述步驟2)中的一致性信息包括航班號、機場等相同信息。將具有一致性內(nèi)容的報文放在同一集合中,以保證分析結(jié)果的有效性。記錄集合如表I所示。所述步驟3)的最小支持度范圍為O. 01-0. 99。實際取值由使用者決定。支持度越大,相關(guān)性分析越準確,但是一些具有隱含關(guān)聯(lián)的報文可能會被遺漏。所述步驟4)中一維頻繁報文集由報文出現(xiàn)的頻率和支持度來決定。一維頻繁集示例如表2所示。
所述步驟5)的多維頻繁報文集解釋為若報文集內(nèi)有k個相關(guān)聯(lián)報文,則為K維頻繁報文集,其頻數(shù)為在記錄中同時出現(xiàn)的次數(shù)。3維頻繁報文集如表3所示。所述步驟5)的實施應(yīng)滿足如下條件I)所獲得報文頻繁集出現(xiàn)的頻率必須大于最小支持度。2)由K維頻繁報文集產(chǎn)生K+1維頻繁報文集時,必須考慮到k維頻繁報文集中的所有組合。所述步驟6)的報文相關(guān)性由頻繁報文集產(chǎn)生,相關(guān)性系數(shù)為頻繁報文集的頻數(shù)?,F(xiàn)結(jié)合附圖和實施例對本發(fā)明做進一步說明。 如表1、表2、表3和附圖所不,本發(fā)明的具體實施過程和工作原理如下I)根據(jù)民航報文的具體應(yīng)用環(huán)境,從數(shù)據(jù)庫日志或網(wǎng)站日志等存儲環(huán)境中獲取訪問記錄。2)根據(jù)報文日志,在同一訪問記錄中,將有相關(guān)性信息的報文放在同一集合中。同一訪問記錄可以生成一個或多個上述報文集合。報文集合如表I所示。3)根據(jù)實際情況,設(shè)置最小支持度。最小支持度越小,獲取的報文相關(guān)性信息越多,但效率越低。反之亦然。4)統(tǒng)計所有報文出現(xiàn)的頻率,找出大于或等于最小支持度的報文,產(chǎn)生一維頻繁報文集。如表2所示。5)對產(chǎn)生的一維頻繁報文集,循環(huán)處理直至未能再產(chǎn)生維數(shù)更高的頻繁報文集。流程圖如附圖所示。循環(huán)處理過程采用了 apriori算法的思想。Apriori算法的第一步是簡單統(tǒng)計所有含一個元素的報文出現(xiàn)的頻率,來決定最大的一維報文項目集,及步驟4)所做工作。在第k步,分兩個階段,首先通過第(k-Ι)步中生成的最大報文集來生成侯選報文項目集.然后搜索數(shù)據(jù)庫計算侯選項目集的支持度.若候選項目集的支持度大于步驟3)設(shè)置的最小支持度,則將該報文項目集放入k維頻繁報文集。循環(huán)處理過程算法描述如下(I)L1 = { 一維頻繁報文集};(2) for (k = 2 !Llrf 幸 Φ ;k++) {(3) Ck = apriori_gen (L^1, min_sup);(4) for each record r e R{(5) Cr = subset (Ck, r);(6) for each candidate c e Cr(7) c. count++ ;(8)}(9) Lk = {c e Ck I c. count ^ min_sup}(10)}(II) return L = U Lk;其中,Lk為k維頻繁報文集,Ck為候選頻繁報文集,min_sup為最小支持度,R為步驟2)生成的報文記錄,(;為記錄r所包含的候選。(2)表示從k-Ι維頻繁報文集生成候選頻繁報文集Ck。(4)表示掃描報文記錄。(5)表示從記錄r中找出在Ck中的候選。(6)、(7)表示若在記錄中找到候選,則對應(yīng)候選的頻數(shù)增加1.其中C屬于Cy為一種報文。c. count表示報文的出現(xiàn)次數(shù)。(9)表示若報文候選集的出現(xiàn)的頻率大于最小支持度,則將其加入K維報文頻繁集合中。(11)表示返回生成的所有維數(shù)的報文頻繁集,即為相關(guān)性大于最小支持度的報文的集合。apriori_gen函數(shù)說明如下Apriori候選產(chǎn)生函數(shù)apriori_gen的參數(shù)Llrf,即所有大型(k_l)項目集的集合。它返回所有大型k項目集的集合的一個超集(Superset)。首先,在Jion (連接)步驟,把Lk^1和Llri相連接以獲得候選的最終集合的一個超集Ck 接著,在Prune (修剪)步驟,我們將刪除所有的項目集c e Ck,如果c的一些k_l子集不在Llri中,為了說明這個產(chǎn)生過程為什么能保持完全性,要注意對于Lk中的任何有最小支持度的項目集,任何大小為k-Ι的子集也必須有最小支持度。因此,如果我們用所有可能的項目擴充Lk-1中的每個項目集,然后刪除所有k-Ι子集不在Llri中的項目集,那么我 們就能得到Lk中項目集的一個超集。經(jīng)過合并運算,Ck > Lk。類似原因在刪除運算中,刪除Ck中其k-Ι子項目集不在Lk^1中的項目集,同樣沒有刪除包含在Lk中的項目集。(I) for 所有項目集 c e Ck do(2) for 所有 c 的(k-Ι)子集 s do(3) if (s Φ L^1) then(4)從Ck中刪除csubset函數(shù)說明如下候選項目集Ck存儲在一棵Hash樹中。Hash樹的一個節(jié)點包含了項集的一個鏈表(一個葉節(jié)點)或包含了一個Hash表(一個內(nèi)節(jié)點)。在內(nèi)節(jié)點中,Hash表的每個Bucket都指向另一個節(jié)點。Hash樹的根的深度定義為I。在深度d的一個內(nèi)節(jié)點指向深度d+Ι的節(jié)點。項目集存儲在葉子中。要加載一個項目集c時,從根開始向下直到一個葉子。在深度為d的一個內(nèi)節(jié)點上,要決定選取哪個分枝,可以對此項目集的第d個項目使用一個Hash函數(shù),然后跟隨相應(yīng)Bucket中的指針。所有的節(jié)點最初都創(chuàng)建成葉節(jié)點。當(dāng)一個葉節(jié)點中項集數(shù)量超過某個指定的閾值時,此葉節(jié)點就轉(zhuǎn)為一個內(nèi)節(jié)點。從根節(jié)點開始,Subset函數(shù)尋找所有包含在某個記錄r中的候選,方法如下若處于一個葉子,就尋找此葉子中的哪些項目集是包括在r中的,并對它們附加引用指向答案集合。若處于一個內(nèi)節(jié)點,而且是通過Hash項目i從而到達此節(jié)點的,那么就對r中i之后的每個項目進行Hash,并對相應(yīng)Bucket中的節(jié)點遞歸地應(yīng)用這個過程。對于根節(jié)點,就對r中的每個項目進行Hash。
權(quán)利要求
1.一種基于訪問信息挖掘的民航報文相關(guān)性分析方法,其特征是,包括如下步驟1)獲取民航報文的訪問記錄;2)基于步驟I)的訪問記錄,分析報文內(nèi)容,將具有一致性信息的報文放至同一集合中;3)設(shè)置最小支持度,報文出現(xiàn)的頻率需大于該支持度;4)基于步驟2)的報文集和步驟3)的最小支持度,統(tǒng)計所有報文出現(xiàn)的頻率,找出大于或等于最小支持度的報文,產(chǎn)生一維頻繁報文集;5)基于步驟3)的最小支持度,基于步驟4)的一維頻繁報文集,對產(chǎn)生的一維頻繁報文集,循環(huán)處理直至未能再產(chǎn)生維數(shù)更高的頻繁報文集;6)基于步驟4),步驟5),得到報文所有維數(shù)的頻繁報文集,分析這些報文集,即可得出報文的相關(guān)性。
2.如權(quán)利要求1所述的一種基于訪問信息挖掘的民航報文相關(guān)性分析方法,其特征是,所述步驟I)的訪問記錄由數(shù)據(jù)庫日志,網(wǎng)站日志等獲取。
3.如權(quán)利要求1所述的一種基于訪問信息挖掘的民航報文相關(guān)性分析方法,其特征是,所述步驟2)中的一致性信息是包括航班號、機場的相同信息,將具有一致性內(nèi)容的報文放在同一集合中,以保證分析結(jié)果的有效性。
4.如權(quán)利要求1所述的一種基于訪問信息挖掘的民航報文相關(guān)性分析方法,其特征是,所述步驟3)的最小支持度范圍為O. 01-0. 99,實際取值由使用者決定。
5.如權(quán)利要求1所述的一種基于訪問信息挖掘的民航報文相關(guān)性分析方法,其特征是,所述步驟5)的多維頻繁報文集解釋為若報文集內(nèi)有k個相關(guān)聯(lián)報文,則為K維頻繁報文集,其頻數(shù)為在記錄中同時出現(xiàn)的次數(shù)。
6.如權(quán)利要求1所述的一種基于訪問信息挖掘的民航報文相關(guān)性分析方法,其特征是,所述步驟5)的實施應(yīng)滿足如下條件1)所獲得報文頻繁集出現(xiàn)的頻率必須大于最小支持度;2)由K維頻繁報文集產(chǎn)生K+1維頻繁報文集時,必須考慮到k維頻繁報文集中的所有組合。
7.如權(quán)利要求1所述的一種基于訪問信息挖掘的民航報文相關(guān)性分析方法,其特征是,循環(huán)處理過程的第一步是簡單統(tǒng)計所有含一個元素的報文出現(xiàn)的頻率,來決定最大的一維報文項目集,及步驟4)所做工作;在第k步,分兩個階段,首先通過第(k I)步中生成的最大報文集來生成侯選報文項目集.然后搜索數(shù)據(jù)庫計算侯選項目集的支持度.若候選項目集的支持度大于步驟3)設(shè)置的最小支持度,則將該報文項目集放入k維頻繁報文集。
8.如權(quán)利要求1所述的一種基于訪問信息挖掘的民航報文相關(guān)性分析方法,其特征是,所述步驟6)的報文相關(guān)性由頻繁報文集產(chǎn)生,相關(guān)性系數(shù)為頻繁報文集的頻數(shù)。
全文摘要
本發(fā)明涉及民航信息技術(shù)領(lǐng)域。分析報文的相關(guān)性,獲得報文之間直接的或者間接的聯(lián)系,本發(fā)明采取的技術(shù)方案是,基于訪問信息挖掘的民航報文相關(guān)性分析方法,包括如下步驟1)獲取民航報文的訪問記錄;2)基于步驟1)的訪問記錄,分析報文內(nèi)容,將具有一致性信息的報文放至同一集合中;3)設(shè)置最小支持度,報文出現(xiàn)的頻率需大于該支持度;4)基于步驟2)的報文集和步驟3)的最小支持度,產(chǎn)生一維頻繁報文集;5)對產(chǎn)生的一維頻繁報文集,循環(huán)處理直至未能再產(chǎn)生維數(shù)更高的頻繁報文集;6)基于步驟4),步驟5),得到報文所有維數(shù)的頻繁報文集,分析這些報文集,即可得出報文的相關(guān)性。本發(fā)明主要應(yīng)用于民航信息處理。
文檔編號G06F17/30GK103020109SQ20121040633
公開日2013年4月3日 申請日期2012年10月22日 優(yōu)先權(quán)日2012年10月22日
發(fā)明者宋雪雁, 黃兆桐, 孫濟洲, 李志增, 于翠玲 申請人:天津大學(xué)