亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于預判篩選的局部掃描關聯(lián)規(guī)則計算機數(shù)據(jù)分析方法與流程

文檔序號:11134026閱讀:374來源:國知局
基于預判篩選的局部掃描關聯(lián)規(guī)則計算機數(shù)據(jù)分析方法與制造工藝

本發(fā)明屬于計算機數(shù)據(jù)挖掘及信息處理技術領域,尤其涉及基于預判篩選的局部掃描關聯(lián)規(guī)則計算機數(shù)據(jù)分析方法。



背景技術:

在大數(shù)據(jù)技術發(fā)展如火如荼的今天,人們逐漸意識到數(shù)據(jù)即是財富,尤其是對商業(yè)數(shù)據(jù)的分析更具有巨大的實用價值。關聯(lián)規(guī)則分析作為數(shù)據(jù)挖掘的主要手段之一,是數(shù)據(jù)挖掘技術中不可或缺的一個重要組成部分,主要用于發(fā)現(xiàn)大型事務數(shù)據(jù)庫中隱含的有價值的令人感興趣的聯(lián)系及規(guī)則。因此,對關聯(lián)規(guī)則算法的研究具有非常重要的意義。

早在1993年,IBM的計算機科學家R.Agrawal等人在顧客交易數(shù)據(jù)庫中發(fā)現(xiàn)了顧客在購買商品時的購買規(guī)律,提出了事務之間的相關性模式,即最初的關聯(lián)規(guī)則。關聯(lián)規(guī)則通常是一種不復雜但實用性卻很高的規(guī)則。通過關聯(lián)規(guī)則分析,可以將事務項集與項集之間的關系挖掘出來。關聯(lián)規(guī)則分析最典型的應用是購物籃數(shù)據(jù)分析,比如經(jīng)典的{啤酒}→{尿布}規(guī)則。除了可以應用于購物籃數(shù)據(jù)之外,關聯(lián)規(guī)則分析在其它領域的應用也十分廣泛,如電子商務個性化推薦,金融服務,廣告策劃,生物信息學及科學數(shù)據(jù)分析等。比如說在電子商務個性化推薦中,關聯(lián)規(guī)則可以幫助電子商務網(wǎng)站向具有相似消費行為的顧客進行一些他們可能感興趣的商品推薦,這樣有助于電子商務網(wǎng)站提升用戶體驗,增加盈利等。

關聯(lián)規(guī)則分析算法較多,其中最經(jīng)典實用性最好的是Apriori算法及其改進算法。Apriori算法[1]是由Agrawal和Swami于1994年提出的第一個關聯(lián)規(guī)則算法,應用廣泛,該算法通過重復循環(huán)執(zhí)行連接、剪枝生成頻繁項目集,從而建立關聯(lián)規(guī)則?;贏priori算法,Yang等人提出了Apriori-TFP算法[2],該算法在關聯(lián)規(guī)則挖掘過程中,將原始數(shù)據(jù)進行預處理并存儲在局部支持樹中,最后生成關聯(lián)規(guī)則。該算法通過有效的預處理,降低了關聯(lián)規(guī)則挖掘的時間,但是需要掃描數(shù)據(jù)庫的次數(shù)仍然較多。Zhang等人提出了GP-Apriori算法[3],GP-Apriori算法采用圖形處理器(Graphical Processing Unit,GPU)進行并行化的支持度計數(shù),并將垂直交易列存儲為線性有序陣列。GPU通過遍歷該有序陣列,并執(zhí)行按位交叉實現(xiàn)支持度計算,并將結果復制回內存。與傳統(tǒng)CPU上運行的Apriori算法相比,GP-Apriori算法由于采用了先進的GPU提高了運行速率,但是復雜性反而有所增長。Delighta等人也提出了Apriori的改進算法(Apriori Mend Algorithm)[4]。該算法使用哈希函數(shù)生成項目集,用戶必須指定最小支持度以刪除不需要的項集。該算法具有比傳統(tǒng)Apriori算法更好的效率,但是執(zhí)行時間有所增加。Ning等基于MapReduce框架實現(xiàn)了樂Apriori算法的并行化[5]。該算法在處理海量數(shù)據(jù)集時具有良好的可擴展性和效率,但是該算起需要強大的計算和存儲能力支撐,通常運行在集群環(huán)境中。Sulianta等人在文獻[6]中嘗試將Apriori算法應用于多維數(shù)據(jù)分析,探討了在多維數(shù)據(jù)中建立關聯(lián)規(guī)則更加具體有效的方法。Sheila等人在文獻[7]中對Apriori算法進行了改進,引入了事務尺寸和事務規(guī)模的概念以消除非重要項目的影響。Feng等人在文獻[8]中提出了一種基于矩陣的Apriori算法,該算法通過矩陣有效的表示數(shù)據(jù)庫的各種操作,并用基于矩陣的AND操作得到最大的頻繁項目集。Zhao等人在文獻[9]中提出了AWP算法,該算法在Apriori算法連接、剪枝的基礎上,添加了預判篩選的步驟,使用先驗概率對候選頻繁k項集集合進行縮減優(yōu)化,并且引入阻尼因子和補償因子對預判篩選產(chǎn)生的誤差進行修正,簡化了挖掘頻繁項集的操作過程。

文獻引用

[1]R.Agrawal,R.Srikant et al..Fast algorithms for mining association rules(挖掘關聯(lián)規(guī)則的快速算法),Proc.20th Int.Conf.Very Large Data Bases,VLDB,vol.1215,pp.487-499,September 1994.

[2]Z.Yang,W.Tang,A.Shintemirov,and Q.Wu.Association rule mining-based dissolved gas analysis for fault diagnosis of power transformers(基于關聯(lián)規(guī)則挖掘的電力變壓器故障診斷溶解氣體分析),Systems,Man,and Cybernetics,Part C:Applications and Reviews,IEEE Transactions on,vol.39,no.6,pp.597-610,2009.

[3]F.Zhang,Y.Zhang,and J.D.Bakos.Gpapriori:Gpu-accelerated frequent itemset mining(基于圖形處理器加速的頻繁項集挖掘),in CLUSTER.IEEE,2011,pp.590-594.

[4]I.S.P.J.D.Magdalene Delighta Angeline.Association rule generation using Apriori mend algorithm for student's placement(基于改進Apriori算法的關聯(lián)規(guī)則生成算法),vol.2,no.1,2012,pp.78-86.

[5]N.Li,L.Zeng,Q.He,and Z.Shi.Parallel implementation of apriori algorithm based on MapReduce(基于MapReduce的Apriori算法的并行實現(xiàn)),in Software Engineering,Artificial Intelligence,Networking and Parallel Distributed Computing(SNPD),2012 13th ACIS International Conference on,2012,pp.236-241.

[6]F.Sulianta,T.H.Liong,and I.Atastina.Mining food industry's multidimensional data to produce association rules using Apriori algorithm as a basis of business strategy(基于Apriori算法的面向食品工業(yè)多維數(shù)據(jù)的企業(yè)戰(zhàn)略關聯(lián)規(guī)則挖掘算法),in Information and Communication Technology(ICoICT),2013International Conference of,2013,pp.176-181.

[7]S.A.Abaya.Association rule mining based on Apriori algorithm in minimizing candidate generation(基于Apriori算法的最小生成候選關聯(lián)規(guī)則挖掘算法),International Journal of Scientific and Engineering Research,vol.3,no.7,pp.1-4,July 2012.

[8]Wang Feng,Li Yong-hua.An Improved Apriori Algorithm Based on the Matrix(一種基于矩陣的改進Apriori算法),fbie,pp.152-155,2008International Seminar on Future BioMedical Information Engineering,2008.

[9]趙學健,孫知信,袁源.基于預判篩選的高效關聯(lián)規(guī)則挖掘算法,電子與信息學報,2016,38(7):1654-1659.



技術實現(xiàn)要素:

針對經(jīng)典Apriori算法的固有缺陷,本發(fā)明提供了基于預判篩選的局部掃描關聯(lián)規(guī)則計算機數(shù)據(jù)分析方法,包括如下步驟:

步驟1,掃描計算機數(shù)據(jù)中的事務數(shù)據(jù)庫D,得到頻繁k-1項集的集合Lk-1

步驟2,將頻繁k-1項集的集合Lk-1與自身連接產(chǎn)生候選k項集的集合,候選頻繁k項集的集合記作CK;

步驟3,利用Apriori性質(任一頻繁項集的所有非空子集也必須是頻繁的,如果某個候選的非空子集不是頻繁的,那么該候選肯定不是頻繁的)對集合CK進行剪枝;

步驟4,計算集合CK中成員的預判支持度,進行預判篩選;

步驟5,對事務數(shù)據(jù)庫D進行局部掃描判斷;

步驟6,重復執(zhí)行上述步驟2~步驟5,直到不能發(fā)現(xiàn)更大的頻繁項目集為止;

步驟7,最終獲得的頻繁項目集集合記為F,則產(chǎn)生關聯(lián)規(guī)則R={X->Y,X和Y為頻繁項目集成員Fi的非空子集,F(xiàn)i為頻繁項目集集合F的成員,即Fi∈F,且X∪Y=Fi}。比如說若{I1,I2,I3}是頻繁項目集的成員,則可產(chǎn)生如下關聯(lián)規(guī)則:{I1}->{I2,I3},{I2}->{I1,I3},{I3}->{I1,I2},{I1,I2}->{I3},{I1,I3}->{I2},{I2,I3}->{I1}。

本發(fā)明步驟1包括:掃描事務數(shù)據(jù)庫D,對包含項目Ei的事務數(shù)進行統(tǒng)計,并將其記為NTEi,Ei表示事務數(shù)據(jù)庫包含的第i個項目,i∈[1,NE],則項目集X={Ei,i∈[1,NE]}的支持度為:

support(X={Si,i∈[1,NS]})=NTEi/|D|,

其中,|D|為數(shù)據(jù)庫D包含的事務數(shù),NE表示事務數(shù)據(jù)庫D中項目的數(shù)量,NT表示數(shù)據(jù)庫包含的事務數(shù),若support(X)大于預設的最小支持度min_support,則將項目集X加入頻繁1-項集L1中,并將包含項目集X的事務編號Ij加入包含項目集X的事務集STX中,j∈[1,NT];反之,不加入;令L1=Lk-1,從而得到頻繁k-1項集的集合Lk-1。

本發(fā)明步驟2中,將頻繁k-1項集的集合Lk-1與自身連接產(chǎn)生候選k項集的集合,連接過程遵循以下規(guī)則:設X1和X2是頻繁k-1項集的集合Lk-1中的成員,記Xi[j]表示Xi中的第j個項目,Xi表示頻繁k-1項集的集合Lk-1中的第i個成員,假設項集中的項目按字典次序排序,即對于任意頻繁k-1項集的集合Lk-1中的成員Xi,Xi[1]<Xi[2]<………<Xi[k-1],將頻繁k-1項集的集合Lk-1與自身連接,當成員X1和X2前k-2個項目相同,且成員X1的第k-1個項目小于X2的第k-1個項目,即當滿足如下條件時:

(X1[1]=X2[1])&&(X1[2]=X2[2])&&…&&(X1[k-2]=X2[k-2])&&(X1[k-1]<X2[k-1]),

則判定X1和X2是可連接的,連接X1和X2產(chǎn)生的結果是{X1[1],X1[2],……,X1[k-1],X2[k-1]}。

本發(fā)明步驟3包括:對集合CK的成員的所有非空子集的支持度進行判斷,若存在非空子集的支持度小于預設的最小支持度min_support(min_support∈[0.03,0.3]),根據(jù)Apriori性質判定該成員不是頻繁項集,將其從CK中刪除;反之,判定該成員為頻繁項集,將該成員保留在候選項集CK中。

本發(fā)明步驟4包括:通過獨立事件概率公式計算集合CK中第i個成員Xi的先驗概率P(Xi),i∈[1,NCk],NCk表示集合CK中成員的個數(shù),若P(Xi)>(1+0.1)min_support,則將該成員直接添加到頻繁k-項集的集合Lk中;若P(Xi)<(1-0.1)min_support,則將該成員從集合CK中刪除;反之,將該成員繼續(xù)保留在集合CK中,其中P(Xi)=P(Xi[1]Xi[2]…Xi[k-1])P(Xi[k])。

本發(fā)明步驟5包括如下步驟:

步驟5-1,對事務數(shù)據(jù)庫D進行局部掃描,以對CK中包含的成員Xi進行驗證,此時僅掃描包含成員Xi中的任意k-1個項目,并且包含的事務數(shù)量最少的事務集合:設X’為成員Xi的子集,包含Xi的前k-1個項目,即X’=Xi[1]Xi[2]…Xi[k-1],同樣地Xi[j],j[1,k-1]表示Xi中的第j個項目,且包含X’的事務集合STX’包含的事務數(shù)量最少,則在事務集合STX’包含的所有事務中進行掃描,若編號為Ij的事務包含Xi[k],則將Ij加入集合STXi,并將包含成員Xi的事務數(shù)NTXi加1,直到事務集合STX’掃描完畢為止;

步驟5-2,令頻繁k-項集的集合Lk為空集,計算成員Xi的支持度,判斷成員Xi的支持度是否大于最小支持度min_support,如果是,則判定該成員Xi是頻繁的,將該成員Xi加入頻繁k-項集的集合Lk中,并記錄STXi和NTXi,否則刪除該成員Xi,其中STXi表示包含成員Xi的事務集合,NTXi表示STXi包含的成員數(shù)量;

步驟5-3,令k=k+1,執(zhí)行步驟6。

本發(fā)明所涉及的變量說明如下:

D:事務數(shù)據(jù)庫;

T:事務數(shù)據(jù)庫包含的事務,Ti表示事務數(shù)據(jù)庫中的第i個事務;

E:事務數(shù)據(jù)庫包含的項目,Ei表示事務數(shù)據(jù)庫包含的第i個項目;

I:事務的編號,Ii表示第I個事務的編號;

X:項目集合;

S:表示通用集合,帶下標時具體說明;

N:表示數(shù)量,帶下標時具體說明;

C:候選頻繁項目集集合,Ck表示k項候選頻繁項目集集合;

L:頻繁項目集集合,Lk表示k項頻繁項目集集合;

本發(fā)明按照掃描->計數(shù)->比較->產(chǎn)生頻繁項集->記錄事務編號->連接->剪枝->預判->局部掃描的步驟逐步產(chǎn)生更大的項集,不斷執(zhí)行直到不能再找到更大的頻繁項目集為止,從而得到極大頻繁項目集。

本發(fā)明遵循如下操作方式:

首先,掃描事務數(shù)據(jù)庫D,但是該掃描數(shù)據(jù)庫D的過程不是掃描數(shù)據(jù)庫D中所有的事務,而是進行局部掃描,僅掃描包含成員Xi的任意k-1個項目,并且包含的事務數(shù)量最少的事務集合。比如假設包含X’=Xi[1]Xi[2]…Xi[k-1]的事務集合STX’包含的事務數(shù)量最少,則在STX’包含的所有事務中進行掃描,若編號為Ij的事務包含Xi[k],則將Ij加入集合STXi,并將包含候選成員Xi的事務數(shù)NTXi加1,直到事務集合STX’掃描完畢為止。接下來,令Lk為空集,計算成員Xi的支持度,從而判斷成員Xi的支持度是否大于最小支持度min_support,如果是,則認為該候選成員Xi是頻繁的,將該候選成員Xi加入頻繁k-項集Lk中,并記錄事務號集合STXi和NTXi,否則刪除。最后,令k=k+1。

有益效果:本發(fā)明針對經(jīng)典Apriori算法的固有缺陷,基于預判篩選的關聯(lián)規(guī)則分析算法,提出一種基于事務號查詢的局部掃描關聯(lián)規(guī)則分析算法-MAWP算法,該算法對包含頻繁k項集的事務號進行記錄,然后在連接、剪枝、預判篩選的基礎上,在對篩選后的候選k項集進行驗證的過程中,不是對數(shù)據(jù)庫中所有事務進行全部掃描,而是進行局部掃描,僅掃描包含某k-1項集并且事務數(shù)最少的事務集合,從而減少確定頻繁項目集所掃描的事務總數(shù),降低算法運算的時間,提高算法的運算效率。

附圖說明

下面結合附圖和具體實施方式對本發(fā)明做更進一步的具體說明,本發(fā)明的上述或其他方面的優(yōu)點將會變得更加清楚。

圖1為事務數(shù)據(jù)庫D。

圖2為候選項集集合C1。

圖3為頻繁1-項集集合L1。

圖4為候選項集集合C21。

圖5為候選項集集合C22。

圖6為頻繁2-項集集合L2。

圖7為候選項集集合C31。

圖8為頻繁3-項集集合L3

圖9為超市銷售數(shù)據(jù)集。

圖10為本發(fā)明流程圖。

具體實施方式

下面將結合附圖對本發(fā)明作詳細說明。

實施例1

如圖10所示,本發(fā)明包括如下步驟:

步驟1,掃描事務數(shù)據(jù)庫D,得到頻繁k-1項集的集合Lk-1;

步驟2,將頻繁k-1項集的集合Lk-1與自身連接產(chǎn)生候選k項集的集合,候選頻繁k項集的集合記作CK;

步驟3,利用Apriori性質(任一頻繁項集的所有非空子集也必須是頻繁的,如果某個候選的非空子集不是頻繁的,那么該候選肯定不是頻繁的)對集合CK進行剪枝;

步驟4,計算集合CK中成員的預判支持度,進行預判篩選;

步驟5,對事務數(shù)據(jù)庫D進行局部掃描判斷;

步驟6,重復執(zhí)行上述步驟2~步驟5,直到不能發(fā)現(xiàn)更大的頻繁項目集為止;

步驟7,最終獲得的頻繁項目集集合記為F,則產(chǎn)生關聯(lián)規(guī)則R={X->Y,X,Y為頻繁項目集成員Fi的非空子集,F(xiàn)i為頻繁項目集集合F的成員,即Fi∈F,且X∪Y=Fi}。比如說若{I1,I2,I3}是頻繁項目集的成員,則可產(chǎn)生如下關聯(lián)規(guī)則:{I1}->{I2,I3},{I2}->{I1,I3},{I3}->{I1,I2},{I1,I2}->{I3},{I1,I3}->{I2},{I2,I3}->{I1}。

本發(fā)明步驟1包括:掃描事務數(shù)據(jù)庫D,對包含項目Ei的事務數(shù)進行統(tǒng)計,并將其記為NTEi,Ei表示事務數(shù)據(jù)庫包含的第i個項目,i∈[1,NE],則項目集X={Ei,i∈[1,NE]}的支持度為:

support(X={Si,i∈[1,NS]})=NTEi/|D|,

其中,|D|為數(shù)據(jù)庫D包含的事務數(shù),NE表示事務數(shù)據(jù)庫D中項目的數(shù)量,NT表示數(shù)據(jù)庫包含的事務數(shù),若support(X)大于預設的最小支持度min_support,則將項目集X加入頻繁1-項集L1中,并將包含項目集X的事務編號Ij加入包含項目集X的事務集STX中,j∈[1,NT];反之,不加入;令L1=Lk-1,從而得到頻繁k-1項集的集合Lk-1。

本發(fā)明步驟2中,將頻繁k-1項集的集合Lk-1與自身連接產(chǎn)生候選k項集的集合,連接過程遵循以下規(guī)則:設X1和X2是頻繁k-1項集的集合Lk-1中的成員,記Xi[j]表示Xi中的第j個項目,Xi表示頻繁k-1項集的集合Lk-1中的第i個成員,假設項集中的項目按字典次序排序,即對于任意頻繁k-1項集的集合Lk-1中的成員Xi,Xi[1]<Xi[2]<………<Xi[k-1],將頻繁k-1項集的集合Lk-1與自身連接,當滿足如下條件時:

(X1[1]=X2[1])&&(X1[2]=X2[2])&&…&&(X1[k-2]=X2[k-2])&&(X1[k-1]<X2[k-1]),

則判定X1和X2是可連接的,連接X1和X2產(chǎn)生的結果是{X1[1],X1[2],……,X1[k-1],X2[k-1]}。

本發(fā)明步驟3包括:對集合CK的成員的所有非空子集的支持度進行判斷,若存在非空子集的支持度小于預設的最小支持度min_support,根據(jù)Apriori性質判定該成員不是頻繁項集,將其從CK中刪除;反之,判定該成員為頻繁項集,將該成員保留在候選項集CK中。

本發(fā)明步驟4包括:通過獨立事件概率公式計算集合CK中第i個成員Xi的先驗概率P(Xi),i∈[1,NCk],NCk表示集合CK中成員的個數(shù),若P(Xi)>(1+0.1)min_support,則將該成員直接添加到頻繁k-項集的集合Lk中;若P(Xi)<(1-0.1)min_support,則將該成員從集合CK中刪除;反之,將該成員繼續(xù)保留在集合CK中,其中P(Xi)=P(Xi[1]Xi[2]…Xi[k-1])P(Xi[k])。

本發(fā)明步驟5包括如下步驟:

步驟5-1,對事務數(shù)據(jù)庫D進行局部掃描,以對CK中包含的成員Xi進行驗證,此時僅掃描包含成員Xi中的任意k-1個項目,并且包含的事務數(shù)量最少的事務集合:不妨設X’為成員Xi的子集,包含Xi的前k-1個項目,即X’=Xi[1]Xi[2]…Xi[k-1],同樣地Xi[j],j[1,k-1]表示Xi中的第j個項目,且包含X’的事務集合STX’包含的事務數(shù)量最少,則在事務集合STX’包含的所有事務中進行掃描,若編號為Ij的事務包含Xi[k],則將Ij加入集合STXi,并將包含成員Xi的事務數(shù)NTXi加1,直到事務集合STX’掃描完畢為止;

步驟5-2,令頻繁k-項集的集合Lk為空集,計算成員Xi的支持度,判斷成員Xi的支持度是否大于最小支持度min_support,如果是,則判定該成員Xi是頻繁的,將該成員Xi加入頻繁k-項集的集合Lk中,并記錄STXi和NTXi,其中STXi表示包含成員Xi的事務集合,NTXi表示STXi包含的成員數(shù)量,否則刪除該成員Xi;

步驟5-3,令k=k+1,執(zhí)行步驟6。

通過對如圖1所示的一個簡單的事務數(shù)據(jù)庫D對MAWP算法的步驟進行描述,并對其性能進行簡單的分析,設置的最小支持度min_support=0.3。

1)根據(jù)MAWP算法,首先對圖1所示的事務數(shù)據(jù)庫進行掃描,產(chǎn)生如圖2所示的候選項集C1。接下來,將C1中各項集的支持度與預設的最小支持度min_support比較,由于項集{F}的支持度小于預設的min_support=0.3,將其刪除,C1中其它項集保留到頻繁1-項集L1中,并對包含項集的所有事務編號進行記錄,產(chǎn)生如圖3所示的頻繁1-項集L1

2)得到頻繁1-項集L1后,根據(jù)MAWP算法的步驟2,對如圖3所示的頻繁1-項集L1進行自連接,得到如圖4所示的候選項集C21,由于C21中各成員的非空1項子集均為頻繁1-項集的成員,因此無需執(zhí)行剪枝,可直接執(zhí)行MAWP算法步驟4對候選項集C21進行預判篩選。由于項目集{A,B},{A,C},{B,C}的預判支持度大于1.1×min_support,因此將項目集{A,B},{A,C},{B,C}直接添加到頻繁2-項集L2中;由于項目集{B,D},{B,E},{C,D},{C,E},{D,E}的預判支持度均小于0.9×min_support,于是將項目集{B,D},{B,E},{C,D},{C,E},{D,E}從候選項集C21中直接刪除。候選項集C21經(jīng)過預判篩選后得到如圖5所示的候選項集集合C22。接下來,執(zhí)行MAWP算法步驟5,比如說對于項目集{A,B},包含項目A的事務集合為{1,2,4,5,6,7,8,9,10},共9條事務,包含項目B的事務集合為{1,2,3,4,6,8,9},共7條事務。由于包含項目B的事務數(shù)量較少,因此將掃描包含項目B的事務集合{1,2,3,4,6,8,9},發(fā)現(xiàn)事務1,2,4,6,8,9中均包含項目A,可知包含項目集{A,B}的事務集合為{1,2,4,6,8,9},共6條事務。項目集{A,B}的支持度為0.6>0.3,因此將項目集{A,B}加入頻繁2項集集合L2中,并對包含項目集{A,B}的事務編號進行記錄。同樣的道理,依次對候選項集集合C22中的各成員進行處理,最終得到頻繁2-項集集合L2,如圖6所示。

3)得到頻繁2-項集集合L2后,同樣的根據(jù)MAWP算法執(zhí)行步驟2,3,4進行自連接,剪枝和預判篩選后得到如圖7所示的候選3項集集合C31。然后,根據(jù)MAWP算法執(zhí)行步驟5進行掃描判斷,最終得到頻繁3-項集集合L3,如圖8所示。由于L3中僅有一個成員,算法運行結束。

性能:該實例中,運行MAWP算法與AWP算法,Apriori算法所獲得的頻繁項集完全相同,但是Apriori算法需要掃描事務數(shù)據(jù)庫17次,而MAWP算法和AWP算法都僅需要掃描數(shù)據(jù)庫12次,比Apriori算法減少了29.41%;Apriori算法掃描事務數(shù)170個,AWP算法掃描事務數(shù)120個,MAWP算法掃描事務數(shù)89個,MAWP相對于Apriori算法和AWP算法掃描事務數(shù)量分別減少47.64%和25.83%,運算效率得到了大幅提高。

實施例2

通過對如圖9所示的超市銷售數(shù)據(jù)集(該數(shù)據(jù)集包含10000條銷售記錄,即10000條事物,112種商品,即112個項目)采用MAWP算法進行關聯(lián)規(guī)則分析,對MAWP 算法的性能進行了驗證,設置的最小支持度min_support=0.05。

該實例中,運行MAWP算法與AWP算法,Apriori算法所獲得的頻繁項集完全相同,但是Apriori算法需要掃描數(shù)據(jù)集967次,而MAWP算法和AWP算法都僅需要掃描數(shù)據(jù)集682次,比Apriori算法減少了29.47%;Apriori算法掃描事務數(shù)9.67×106個,AWP算法掃描事務數(shù)6.82×106個,MAWP算法掃描事務數(shù)4.6992×105個,MAWP相對于Apriori算法和AWP算法掃描事務數(shù)量分別減少95.14%和93.10%,掃描所需要的時間大大降低,運算效率得到了大幅提高。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1