亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于改進(jìn)Apriori算法的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)的制作方法_2

文檔序號(hào):8395993閱讀:來源:國知局
的頻數(shù)除以I^的頻數(shù),輸出置信 度大于最小置信度的規(guī)則。
[0016] 如圖1所示,本系統(tǒng)分?jǐn)?shù)據(jù)預(yù)處理模塊、連接模塊、剪枝模塊、頻繁項(xiàng)統(tǒng)計(jì)模塊和 關(guān)聯(lián)規(guī)則模塊。其中所述數(shù)據(jù)預(yù)處理模塊安裝在操作系統(tǒng)之上,與MySQL數(shù)據(jù)庫直接交互。 所述關(guān)聯(lián)規(guī)則生成模塊與具體應(yīng)用程序或命令行界面交互,輸出具體關(guān)聯(lián)規(guī)則。
[0017] 具體地,所述數(shù)據(jù)預(yù)處理模塊安裝在CentOS6. 5操作系統(tǒng)之上,通過Jdbc與MySQL 數(shù)據(jù)庫連接。其中維護(hù)了二維表(編號(hào),項(xiàng)),為具體項(xiàng)在二進(jìn)制數(shù)中的位編號(hào)。二進(jìn)制數(shù)采 用Java中的int數(shù)組表示,且數(shù)組中按數(shù)組編號(hào)從小到大對(duì)應(yīng)二進(jìn)制位數(shù)中從高到低位, 若最后一個(gè)數(shù)組元素整數(shù)位數(shù)沒有用完,補(bǔ)0。MySQL中的原始數(shù)據(jù)為記錄,每個(gè)記錄包含 若干項(xiàng),每一項(xiàng)內(nèi)容可以為任何字符串內(nèi)容,以空白符分隔。所述關(guān)聯(lián)規(guī)則生成模塊為Java 接口,通過Java靜態(tài)函數(shù)實(shí)現(xiàn),可以在任何Java程序中調(diào)用,生成的關(guān)聯(lián)規(guī)則保存在List 中,System, out輸出。輸出內(nèi)容中編號(hào)會(huì)轉(zhuǎn)換為具體的項(xiàng)的名稱。具體系統(tǒng)工作流程如圖 2所示。
[0018] 本發(fā)明主要對(duì)傳統(tǒng)Apriori算法中的連接、剪枝和頻繁項(xiàng)統(tǒng)計(jì)步驟進(jìn)行了改進(jìn)。 數(shù)據(jù)預(yù)處理過程中將文本內(nèi)容或其他格式的內(nèi)容統(tǒng)一轉(zhuǎn)化為二進(jìn)制數(shù),整個(gè)系統(tǒng)在進(jìn)行頻 繁項(xiàng)挖掘及關(guān)聯(lián)規(guī)則生成過程中的運(yùn)算都采用位運(yùn)算,既降低了內(nèi)存占用率,又提高了執(zhí) 行效率;在連接過程中用二進(jìn)制位編號(hào)代替了傳統(tǒng)Apriori實(shí)現(xiàn)過程中的排序操作;在剪 枝過程中合理利用了 Apriori性質(zhì)和由k-1項(xiàng)集產(chǎn)生k項(xiàng)集過程中數(shù)據(jù)生成的特點(diǎn),只對(duì) 候選項(xiàng)集中包含新加入兩項(xiàng)的k-1項(xiàng)子集進(jìn)行檢驗(yàn),極大地減少了候選項(xiàng)集和k-1項(xiàng)子集 的數(shù)量;在頻繁項(xiàng)統(tǒng)計(jì)過程中,采用了針對(duì)記錄掃描候選項(xiàng)集的方式,從而減少數(shù)據(jù)庫掃描 的次數(shù)??傮w來說,本發(fā)明降低了關(guān)聯(lián)規(guī)則挖掘過程中的內(nèi)存占用率、提高了挖掘過程中的 運(yùn)算速率并減少了數(shù)據(jù)庫掃描次數(shù),為企業(yè)、用戶帶來更高效、方便的關(guān)聯(lián)規(guī)則挖掘服務(wù)。
【主權(quán)項(xiàng)】
1. 一種基于改進(jìn)Apriori算法的關(guān)聯(lián)規(guī)則挖掘系統(tǒng),其特征在于:包括數(shù)據(jù)預(yù)處理模 塊、連接模塊、剪枝模塊、頻繁項(xiàng)統(tǒng)計(jì)模塊和關(guān)聯(lián)規(guī)則生成模塊; 所述數(shù)據(jù)預(yù)處理模塊與數(shù)據(jù)庫交互,負(fù)責(zé)將數(shù)據(jù)庫中的文本數(shù)據(jù)轉(zhuǎn)換為可進(jìn)行位運(yùn)算 的整型格式; 所述連接模塊、剪枝模塊和頻繁項(xiàng)統(tǒng)計(jì)模塊共同構(gòu)成Apriori算法的具體實(shí)現(xiàn),負(fù)責(zé) 頻繁項(xiàng)集的生成; 所述關(guān)聯(lián)規(guī)則生成模塊與頻繁項(xiàng)統(tǒng)計(jì)模塊交互,負(fù)責(zé)將頻繁項(xiàng)統(tǒng)計(jì)模塊生成的頻繁項(xiàng) 轉(zhuǎn)化為具體的關(guān)聯(lián)規(guī)則。
2. 如權(quán)利要求1所述的基于改進(jìn)Apriori算法的關(guān)聯(lián)規(guī)則挖掘系統(tǒng),其特征在于: 所述數(shù)據(jù)預(yù)處理模塊首先掃描數(shù)據(jù)庫,將數(shù)據(jù)庫中所有的項(xiàng)進(jìn)行編號(hào),令所有項(xiàng)組成 的集合為I=U1,i2,in},則用n個(gè)二進(jìn)制位表示各項(xiàng),二進(jìn)制數(shù)從高到低位依次代表 I1,i2,……in,每個(gè)二進(jìn)制位〇代表該項(xiàng)沒有出現(xiàn),1代表出現(xiàn);然后將數(shù)據(jù)庫中的數(shù)據(jù)記 錄TID= {ik,k彡Ink<n}轉(zhuǎn)換為對(duì)應(yīng)的二進(jìn)制整型,重新寫入數(shù)據(jù)庫;并且,該模塊第 一次掃描數(shù)據(jù)庫式統(tǒng)計(jì)了各項(xiàng)ik出現(xiàn)的頻數(shù),將其中頻數(shù)超過最小支持度s的項(xiàng)的集合稱 作頻繁項(xiàng)集Ll; 所述連接模塊用來由頻繁k-1項(xiàng)集!^^生成頻繁k項(xiàng)集Lk;設(shè)IkdPI,2是LH中的項(xiàng) 集,它們均按照約定用二進(jìn)制數(shù)表示:相應(yīng)項(xiàng)編號(hào)對(duì)應(yīng)的二進(jìn)制位值為1,其它位為0,對(duì)Ikl 和Ik2執(zhí)行異或操作后所得結(jié)果,左起前兩個(gè)為1的二進(jìn)制位u和V即為要連接的對(duì)象,設(shè) 從左到右對(duì)應(yīng)二進(jìn)制從高位到低位;接下來從IkJPIk2中查找V位為0的項(xiàng),并將該位置 l,v位以下各位置〇即完成IkJPIk2的連接操作,將其加入候選集Ck;對(duì)Llrt中的任意兩個(gè) 項(xiàng)集執(zhí)行類似操作; 所述剪枝模塊與所述連接模塊相交互,根據(jù)Apriori性質(zhì),頻繁項(xiàng)集的任何子集一定 是頻繁項(xiàng)集,將候選集Ck中,k-1項(xiàng)子集不在LH中的項(xiàng)剪掉;對(duì)任意Ck中的項(xiàng)集Ikl,其對(duì) 應(yīng)二進(jìn)制數(shù),除最右邊兩個(gè)1以外,從左到右依次將位為1的位置〇,然后與Llrt中的每一項(xiàng) 執(zhí)行異或操作,如果掃描完整個(gè)Llrt,沒有出現(xiàn)結(jié)果為0的項(xiàng),則將IklWCk中剪去; 所述頻繁項(xiàng)統(tǒng)計(jì)模塊與數(shù)據(jù)庫相交互,并和所述連接模塊及所述剪枝模塊共同構(gòu)成Apriori算法的主體;頻繁項(xiàng)統(tǒng)計(jì)模塊主要負(fù)責(zé)從數(shù)據(jù)庫中依次讀入每條記錄TID,然后與 Ck中的每一項(xiàng)Ikl,執(zhí)行如下操作(77£?a從1)?從1,若結(jié)果為0則對(duì)Ikl的頻數(shù)統(tǒng)計(jì)加1 ;最 后從Ck中選出頻數(shù)超過最小支持度s的項(xiàng)集組成Lk; 所述關(guān)聯(lián)規(guī)則生成模塊主要用來根據(jù)所述頻繁項(xiàng)統(tǒng)計(jì)模塊的結(jié)果生成相應(yīng)的關(guān)聯(lián)規(guī) 貝IJ,對(duì)Lk中的每一項(xiàng)Ik與LH中的每一項(xiàng)Ih,執(zhí)行如下操作厶aTVpiV1,若結(jié)果不為 〇,則生成的關(guān)聯(lián)規(guī)則為或關(guān)聯(lián)規(guī)則,置f目 度為Ik的頻數(shù)除以IH的頻數(shù),輸出置信度大于最小置信度的規(guī)則。
【專利摘要】本發(fā)明提供一種基于改進(jìn)Apriori算法的關(guān)聯(lián)規(guī)則挖掘系統(tǒng),包括數(shù)據(jù)預(yù)處理模塊、連接模塊、剪枝模塊、頻繁項(xiàng)統(tǒng)計(jì)模塊和關(guān)聯(lián)規(guī)則生成模塊;所述數(shù)據(jù)預(yù)處理模塊與數(shù)據(jù)庫交互,負(fù)責(zé)將數(shù)據(jù)庫中的文本數(shù)據(jù)轉(zhuǎn)換為可進(jìn)行位運(yùn)算的整型格式;所述連接模塊、剪枝模塊和頻繁項(xiàng)統(tǒng)計(jì)模塊共同構(gòu)成Apriori算法的具體實(shí)現(xiàn),負(fù)責(zé)頻繁項(xiàng)集的生成;所述關(guān)聯(lián)規(guī)則生成模塊與頻繁項(xiàng)統(tǒng)計(jì)模塊交互,負(fù)責(zé)將頻繁項(xiàng)統(tǒng)計(jì)模塊生成的頻繁項(xiàng)轉(zhuǎn)化為具體的關(guān)聯(lián)規(guī)則。本發(fā)明采用了基于位運(yùn)算的頻繁項(xiàng)統(tǒng)計(jì)方法,簡化了剪枝操作復(fù)雜度并減少了數(shù)據(jù)庫掃描的次數(shù),從而提高了關(guān)聯(lián)規(guī)則挖掘效率,降低了系統(tǒng)資源的消耗,可以為企業(yè)、商家提供更為高效、方便的關(guān)聯(lián)規(guī)則挖掘業(yè)務(wù),具有較大實(shí)用價(jià)值。
【IPC分類】G06F17-30
【公開號(hào)】CN104715073
【申請(qǐng)?zhí)枴緾N201510158609
【發(fā)明人】管江華, 陳曙東
【申請(qǐng)人】江蘇物聯(lián)網(wǎng)研究發(fā)展中心
【公開日】2015年6月17日
【申請(qǐng)日】2015年4月3日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1