亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng)的制作方法

文檔序號(hào):6624902閱讀:195來(lái)源:國(guó)知局
基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng)的制作方法
【專利摘要】一種基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng),利用文本信息預(yù)處理模塊進(jìn)行預(yù)處理,構(gòu)建文本信息數(shù)據(jù)庫(kù)和特征詞項(xiàng)目庫(kù);利用特征詞頻繁偏序項(xiàng)集實(shí)現(xiàn)模塊挖掘特征詞候選項(xiàng)集,求出候選項(xiàng)集的偏序項(xiàng)集,采用新的項(xiàng)集剪枝方法對(duì)候選偏序項(xiàng)集剪枝,計(jì)算候選偏序項(xiàng)集權(quán)值,采用新的計(jì)算方法計(jì)算候選偏序項(xiàng)集支持度,由此得出頻繁偏序項(xiàng)集;利用完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)模塊挖掘有效的特征詞關(guān)聯(lián)規(guī)則模式;利用關(guān)聯(lián)規(guī)則模式結(jié)果顯示模塊將關(guān)聯(lián)規(guī)則模式輸出給用戶。本發(fā)明具有良好的挖掘效率,得到更接近實(shí)際的文本特征詞關(guān)聯(lián)規(guī)則模式,這些模式運(yùn)用于中文或者英文文本挖掘、信息檢索等領(lǐng)域,運(yùn)用于搜索引擎,可以提高查詢性能。
【專利說(shuō)明】 基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,具體是一種基于偏序項(xiàng)集的中英文文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其挖掘系統(tǒng),適用于中英文文本挖掘中特征詞關(guān)聯(lián)模式發(fā)現(xiàn)以及中英文文本信息檢索查詢擴(kuò)展、中英文文本跨語(yǔ)言信息檢索等領(lǐng)域。

【背景技術(shù)】
[0002]20年多來(lái),關(guān)聯(lián)規(guī)則挖掘研究取得了顯著的技術(shù)成果,主要集中在基于項(xiàng)頻度的挖掘和基于項(xiàng)權(quán)值的挖掘技術(shù)兩個(gè)方面。
[0003]基于項(xiàng)頻度的挖掘也稱無(wú)加權(quán)關(guān)聯(lián)規(guī)則挖掘,其主要特點(diǎn)是按平等一致的原則處理項(xiàng)集,將項(xiàng)集在事務(wù)中出現(xiàn)的概率和條件概率作為其項(xiàng)集的支持度和關(guān)聯(lián)規(guī)則的置信度。最具代表性的經(jīng)典方法是Apr1ri 方法(R.Agrawal, T.1mielinski, A.Swam1.Miningassociat1n rules between sets of items in large database[C]// Proceeding of1993 ACM SIGMOD Internat1nal Conference on Management of Data, WashingtonD.C., 1993, (5): 207-216.),在此基礎(chǔ)上,學(xué)者們采用不同的方法、從不同的角度改進(jìn)了Apr1ri 方法。
[0004]基于頻度的挖掘方法雖然得到廣泛的研究,但還存在如下缺陷:只重視項(xiàng)頻度,忽略存在項(xiàng)目權(quán)值的情況,導(dǎo)致冗余的、無(wú)效的和無(wú)趣的關(guān)聯(lián)模式增多。為了解決上述問(wèn)題,基于項(xiàng)權(quán)值的加權(quán)關(guān)聯(lián)模式挖掘技術(shù)得到廣泛討論和研究,其特點(diǎn)是引入項(xiàng)權(quán)值,以體現(xiàn)項(xiàng)目之間具有不同的重要性和項(xiàng)目在事務(wù)記錄中具有不同的權(quán)值。根據(jù)項(xiàng)權(quán)值的來(lái)源不同,基于項(xiàng)權(quán)值的挖掘分為基于項(xiàng)權(quán)值固定的加權(quán)模式挖掘技術(shù)和基于項(xiàng)權(quán)值變化的完全加權(quán)模式挖掘技術(shù)兩類。
[0005]基于項(xiàng)權(quán)值固定的加權(quán)模式挖掘是早期的基于項(xiàng)權(quán)值挖掘方法,自1998年以來(lái)得到眾多學(xué)者的關(guān)注和深入研究,其特點(diǎn)是:項(xiàng)目權(quán)值來(lái)源于用戶或者領(lǐng)域?qū)<以O(shè)置,在事務(wù)挖掘過(guò)程中固定不變。其典型算法是Cai等提出的加權(quán)關(guān)聯(lián)規(guī)則挖掘算法MINWAL(O)和 MINWAL (W) ( C.H.Cai, A.da, V.C.Fu, et al.Mining Associat1n Rules withWeighted Items [C]//Proceedings of IEEE Internat1nal database Engineering andApplicat1n Symposiums, 1998: 68-77.)。在此基礎(chǔ)上,出現(xiàn)了改進(jìn)的加權(quán)模式挖掘方法,其在挖掘效率和挖掘性能方面均獲得良好的表現(xiàn)。
[0006]基于項(xiàng)權(quán)值固定的加權(quán)關(guān)聯(lián)規(guī)則挖掘方法的局限性是沒(méi)有考慮項(xiàng)目權(quán)值隨著事務(wù)記錄變化而變化的情況,即忽略項(xiàng)權(quán)值變化的情況,不能解決具有項(xiàng)權(quán)值變化特征的數(shù)據(jù)挖掘問(wèn)題。通常將具有項(xiàng)權(quán)值變化特征的數(shù)據(jù)稱為完全加權(quán)數(shù)據(jù),也稱矩陣加權(quán)數(shù)據(jù)。文本信息是典型的完全加權(quán)數(shù)據(jù),海量的文本信息中其特征詞權(quán)值是依賴于各個(gè)文檔,并隨文檔不同而變化。完全加權(quán)關(guān)聯(lián)規(guī)則挖掘技術(shù)克服了基于項(xiàng)權(quán)值固定的加權(quán)模式挖掘的缺陷,用于挖掘具有項(xiàng)權(quán)值變化特征的數(shù)據(jù)中各種關(guān)聯(lián)模式,屬于基于項(xiàng)權(quán)值變化的挖掘技術(shù),主要特點(diǎn)是其項(xiàng)目權(quán)值依賴于事務(wù)而動(dòng)態(tài)變化。典型的完全加權(quán)關(guān)聯(lián)規(guī)則挖掘方法是2003年譚義紅等提出的向量空間模型中完全加權(quán)關(guān)聯(lián)規(guī)則的挖掘算法KWEstimate (譚義紅,林亞平.向量空間模型中完全加權(quán)關(guān)聯(lián)規(guī)則的挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2003(13):208-211.)以及面向查詢擴(kuò)展的矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘算法MWARM(黃名選,嚴(yán)小衛(wèi),張師超.基于矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘的偽相關(guān)反饋查詢擴(kuò)展[J].軟件學(xué)報(bào),2009, 20 (7): 1854-1865.),這些方法在挖掘完全加權(quán)數(shù)據(jù)關(guān)聯(lián)模式均獲得良好的挖掘效果,并且已經(jīng)成功地運(yùn)用于信息檢索查詢擴(kuò)展領(lǐng)域(黃名選,嚴(yán)小衛(wèi),張師超.基于矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘的偽相關(guān)反饋查詢擴(kuò)展[J].軟件學(xué)報(bào),2009, 20 (7): 1854-1865.,黃名選,嚴(yán)小衛(wèi),張師超.完全加權(quán)關(guān)聯(lián)規(guī)則挖掘及其在查詢擴(kuò)展中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2008,25(6): 1724-1727.),獲得了顯著的效果?,F(xiàn)有的基于權(quán)值變化的挖掘方法的缺陷是:其所挖掘的關(guān)聯(lián)模式數(shù)量仍然很龐大,增加用戶選擇所需模式的難度,無(wú)趣的、虛假的和無(wú)效的關(guān)聯(lián)模式還很多,很難將其技術(shù)上升到應(yīng)用層面。
[0007]隨著網(wǎng)絡(luò)技術(shù)和信息技術(shù)的發(fā)展,完全加權(quán)數(shù)據(jù)(如網(wǎng)絡(luò)文本信息數(shù)據(jù))數(shù)量迅猛增多,已經(jīng)成為海量數(shù)據(jù),如何從這些海量完全加權(quán)數(shù)據(jù)中挖掘有用的、更接近實(shí)際情況的關(guān)聯(lián)模式是當(dāng)前亟待解決的問(wèn)題?;陧?xiàng)權(quán)值固定的挖掘算法不適用處理完全加權(quán)數(shù)據(jù),目前多數(shù)仍然采用基于頻度的挖掘方法處理這些數(shù)據(jù),導(dǎo)致大量冗余的、無(wú)效的和無(wú)趣的關(guān)聯(lián)模式產(chǎn)生。針對(duì)上述問(wèn)題,本發(fā)明根據(jù)中英文文檔數(shù)據(jù)的特點(diǎn),提一種新的基于偏序項(xiàng)集的中英文本特征詞關(guān)聯(lián)規(guī)則模式挖掘方法及其挖掘系統(tǒng)。該發(fā)明采用新的偏序項(xiàng)集支持度計(jì)算方法和剪枝技術(shù),避免很多無(wú)效的、虛假的和無(wú)趣的關(guān)聯(lián)模式產(chǎn)生,極大提高中英文文本挖掘效率,所挖掘出的特征詞關(guān)聯(lián)規(guī)則模式更加接近實(shí)際情況。實(shí)驗(yàn)結(jié)果表明,該發(fā)明提出的文本挖掘方法所挖掘的特征詞關(guān)聯(lián)模式數(shù)量以及挖掘時(shí)間均明顯減少,其挖掘性能優(yōu)于現(xiàn)有完全加權(quán)模式挖掘方法和基于頻度的模式挖掘方法的,其特征詞關(guān)聯(lián)模式可為信息檢索提供可靠的查詢擴(kuò)展詞來(lái)源,因此,該發(fā)明方法在文本挖掘、信息檢索等領(lǐng)域具有重要的應(yīng)用價(jià)值和廣闊的應(yīng)用前景。


【發(fā)明內(nèi)容】

[0008]本發(fā)明所要解決的技術(shù)問(wèn)題在于,針對(duì)中英文文文本特征詞關(guān)聯(lián)模式挖掘進(jìn)行深入探索,提出一種基于偏序項(xiàng)集的中英文文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng),提高中英文文本挖掘效率,應(yīng)用于中英文文本信息檢索查詢擴(kuò)展,可以提高檢索性能,應(yīng)用于中英文文本挖掘,能夠發(fā)現(xiàn)更加實(shí)際合理的中英文特征詞關(guān)聯(lián)模式,從而提高文本聚類和分類的精度。在搜索引擎(例如百度、谷歌等)中使用本發(fā)明方法可以獲取高質(zhì)量的擴(kuò)展詞實(shí)現(xiàn)用戶查詢擴(kuò)展,提高查全率和查準(zhǔn)率。
[0009]本發(fā)明解決上述技術(shù)問(wèn)題所采取的技術(shù)方案是:一種基于偏序項(xiàng)集的中英文文本詞間關(guān)聯(lián)規(guī)則挖掘方法,包括如下步驟:
(O中英文文本信息數(shù)據(jù)預(yù)處理:將待處理的中英文文本信息數(shù)據(jù)進(jìn)行預(yù)處理:中文文本分詞,英文文本詞干提取,去除停用詞、提取特征詞及其權(quán)值計(jì)算,構(gòu)建基于向量空間模型的文本信息數(shù)據(jù)庫(kù)和特征詞項(xiàng)目庫(kù)。
[0010]米用 Porter (見(jiàn) http://tartarus.0rg/?martin/PorterStemmer)程序作為英文文檔詞干提取程序,中文分詞程序是中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制開(kāi)發(fā)的ICTCLAS漢語(yǔ)分詞系統(tǒng)(見(jiàn)http:// www.1ctclas.0rg/)。
[0011]文本特征詞權(quán)值計(jì)算公式是=(l+ln(i/i7)) XidfJ,其中,I7為第i個(gè)特征詞在第J篇文檔的權(quán)值,iW/;.為第i個(gè)特征詞的逆向文檔頻度,其值YoTi=1g OVAZfi),#為文檔集中文檔總數(shù),OTi為含有第?個(gè)特征詞的文檔數(shù)量,tfiJ為第i個(gè)特征詞在第J篇文檔的詞頻;
(2)挖掘完全加權(quán)特征詞頻繁偏序項(xiàng)集,包括以下步驟2.1和步驟2.2:
2.1、挖掘完全加權(quán)特征詞頻繁1_項(xiàng)集乙,具體步驟按照2.1.1和2.1.3進(jìn)行:
2.1.1、從特征詞項(xiàng)目庫(kù)中提取特征詞候選1_項(xiàng)集C;,累加文本信息數(shù)據(jù)庫(kù)中所有項(xiàng)目的權(quán)值,得到全部項(xiàng)目權(quán)值總和W,累加C1在文本信息數(shù)據(jù)庫(kù)中的權(quán)值累加總和
,計(jì)算G的支持度(C1)。p1sup (JO1)的公式如下:

【權(quán)利要求】
1.一種基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法,其特征在于,包括如下步驟: (O中英文文本信息數(shù)據(jù)預(yù)處理:將待處理的中英文文本信息數(shù)據(jù)進(jìn)行預(yù)處理:中文文本分詞,英文文本詞干提取,去除停用詞、提取特征詞及其權(quán)值計(jì)算,構(gòu)建基于向量空間模型的文本信息數(shù)據(jù)庫(kù)和特征詞項(xiàng)目庫(kù); (2)挖掘完全加權(quán)特征詞頻繁偏序項(xiàng)集,包括以下步驟2.1和步驟2.2: (2.1)挖掘完全加權(quán)特征詞頻繁1_項(xiàng)集乙,具體步驟按照2.1.1和2.1.3進(jìn)行: (2.1.1)從特征詞項(xiàng)目庫(kù)中提取特征詞候選1_項(xiàng)集C;,累加文本信息數(shù)據(jù)庫(kù)中所有項(xiàng)目的權(quán)值,得到全部項(xiàng)目權(quán)值總和W,累加C1在文本信息數(shù)據(jù)庫(kù)中的權(quán)值累加總和wb;,計(jì)算C1的支持度poison (C1); (2.1.2)將特征詞候選1_項(xiàng)集C11中其支持度piMop (C1) ^ms的頻繁1_項(xiàng)集Z7加入到特征詞頻繁項(xiàng)集集合as為最小支持度閾值; (2.1.3)在文本信息數(shù)據(jù)庫(kù)中累加候選1-項(xiàng)集C1的出現(xiàn)頻度/^,提取& (C1),計(jì)算C1的偏序項(xiàng)集權(quán)值期望/?/勝私,2); (2.2)挖掘完全加權(quán)特征詞頻繁項(xiàng)集4,所述的A彡2,按照步驟2.2.Γ 2.2.12進(jìn)行操作: (2.2.1)對(duì)于候選(A-1) _項(xiàng)集CV1,將w (C^1) <P0IWB (C^1, k)的不可能成為頻繁k_項(xiàng)集的Ck'剪除,得到新的候選項(xiàng)集Ch集合; 其中,為在文本信息數(shù)據(jù)庫(kù)中的權(quán)值累加總和,/?/勝(C;+ k)為包含完全加權(quán)候選認(rèn)-1) _項(xiàng)集G1的左_項(xiàng)集權(quán)值期望; (2.2.2)將其項(xiàng)集頻度不為O的特征詞候選、k -1)_項(xiàng)集進(jìn)行Apr1ri連接,生成特征詞候選項(xiàng)集G ; (2.2.3)如果G為空,則退出2.2步轉(zhuǎn)入(3)步;否則,如果G不空,轉(zhuǎn)入2.2.4步;(2.2.4)對(duì)于候選左_項(xiàng)集C;,考察G的任何認(rèn)_1)_項(xiàng)集子集,如果存在一個(gè)其認(rèn)_1)_項(xiàng)子集的項(xiàng)集權(quán)值小于其對(duì)應(yīng)的偏序項(xiàng)集權(quán)重期望(即?-ι)< POIWBiCk^k)),則該項(xiàng)集G一定是非頻繁項(xiàng)集,從其集合中刪除該項(xiàng)集,得到新的候選偏序項(xiàng)集PoG集合; (2.2.5)在文本信息數(shù)據(jù)庫(kù)中累加候選項(xiàng)集G的出現(xiàn)頻度及其各個(gè)項(xiàng)目權(quán)值W1 {Ck), W2 (C),...,wk (Ca),提取 & (Ca),計(jì)算 Ck 的權(quán)重期望 POIWB {Ck, k+l); (2.2.6)刪除其項(xiàng)集頻度為O的候選項(xiàng)集Ck,得到新的Ck集合; (2.2.7)求出每個(gè)Ck的偏序項(xiàng)集poC;; (2.2.8)考察偏序項(xiàng)集poC i的聞序真子集,若存在poC ^的聞序真子集是非頻繁的,則偏序項(xiàng)集PC^ , 一定是非頻繁的,從其集合中刪除該項(xiàng)集,得到新的候選偏序項(xiàng)集poG集合; (2.2.9)考察偏序項(xiàng)集poC k的高權(quán)項(xiàng)目的項(xiàng)目權(quán)值,若存在poC k的高權(quán)項(xiàng)目的項(xiàng)目權(quán)值小于1_項(xiàng)集的最小權(quán)值閾值則偏序項(xiàng)集PoCr k 一定是非頻繁的,從其集合中刪除該項(xiàng)集,得到新的候選偏序項(xiàng)集poC;集合的計(jì)算公式為-Jninw=WXms ; (2.2.10)考察偏序項(xiàng)集的低權(quán)項(xiàng)目,若存在PoCi的低權(quán)項(xiàng)目的項(xiàng)目權(quán)值不小于minw,則偏序項(xiàng)集poC k 一定是頻繁的,將該項(xiàng)集加入到特征詞頻繁項(xiàng)集集合FIS ; (2.2.11)對(duì)余下的偏序項(xiàng)集i,計(jì)算計(jì)算其支持度p1sopboC〉,若p1supipoCk)彡as.,則該偏序項(xiàng)集/70^ ^是頻繁的,加入到特征詞頻繁項(xiàng)集集合/7Z^ ; (2.2.12)將左的值加1,循環(huán)2.2.Γ2.2.12步驟,直到Ck為空,則退出2.2步轉(zhuǎn)入如下(3)步; (3)從特征詞頻繁項(xiàng)集集合/^?中挖掘有效的完全加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式,包括以下步驟: (3.1)從特征詞頻繁項(xiàng)集集合/取出特征詞頻繁項(xiàng)集Zi,找出Zi的所有真子集; (3.2)從Zi的真子集集合中任意取出兩個(gè)真子集J7和厶,當(dāng)J7 η 0,并且J7 ,JI2=Li,若『12彡(Ml2Zkl) Xw1 Xmc,則挖掘出特征詞強(qiáng)關(guān)聯(lián)規(guī)則J7 —厶;若#12彡O12/k2) Xff2Xffic,則挖掘出特征詞強(qiáng)關(guān)聯(lián)規(guī)則I2 -* I1 ;所述的kr、k2和ki2分別為項(xiàng)集I1' I2和Q1,心)的項(xiàng)目個(gè)數(shù),?6和化分別為、厶和(/,,石)的項(xiàng)集權(quán)值,^為最小置信度閾值; (3.3)繼續(xù)3.2步驟,當(dāng)特征詞頻繁項(xiàng)集Zi的真子集集合中每個(gè)真子集都被取出一次,而且僅能取出一次,則轉(zhuǎn)入步驟3.4 ; (3.4)繼續(xù)3.1步驟,當(dāng)特征詞頻繁項(xiàng)集集合中每個(gè)頻繁項(xiàng)集Zi都被取出一次,而且僅能取出一次,則(3)步運(yùn)行結(jié)束; 至此,完全加權(quán)特征詞關(guān)聯(lián)規(guī)則模式挖掘結(jié)束。
2.一種適用于權(quán)利要求1所述的基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘系統(tǒng),其特征在于,包括以下4個(gè)模塊: 文本信息預(yù)處理模塊:用于將待處理的中英文本數(shù)據(jù)進(jìn)行預(yù)處理,即中文文本分詞、英文文本詞干提取、去除停用詞以及特征詞提取及其權(quán)值計(jì)算等,構(gòu)建基于向量空間模型的文本信息數(shù)據(jù)庫(kù)和特征詞項(xiàng)目庫(kù); 特征詞頻繁偏序項(xiàng)集生成模塊:該模塊用于從文本信息數(shù)據(jù)庫(kù)挖掘完全加權(quán)特征詞候選偏序項(xiàng)集,并采用新的剪枝方法對(duì)候選偏序項(xiàng)集剪枝,得到最終的候選偏序項(xiàng)集,通過(guò)新的偏序項(xiàng)集支持度計(jì)算方法,從候選偏序項(xiàng)集中得出完全加權(quán)特征詞頻繁偏序項(xiàng)集模式; 完全加權(quán)特征詞關(guān)聯(lián)規(guī)則生成模塊:該模塊通過(guò)項(xiàng)集權(quán)重及其維數(shù)的簡(jiǎn)單計(jì)算和比較,從完全加權(quán)特征詞頻繁偏序項(xiàng)集(Λ,I2)中挖掘有效的完全加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式-J1 -* I2 ; 關(guān)聯(lián)規(guī)則模式結(jié)果顯示模塊:將有效的完全加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式以用戶喜歡的形式顯示給用戶,供用戶分析、選擇和使用。
3.根據(jù)權(quán)利要求2所述的挖掘系統(tǒng),其特征在于,所述的文本信息預(yù)處理模塊包括以下2個(gè)模塊: 中英文文本預(yù)處理模塊:該模塊負(fù)責(zé)對(duì)中文文本信息進(jìn)行分詞和去除中文停用詞,對(duì)英文文本信息進(jìn)行詞干提取和去除英文停用詞等中英文語(yǔ)料預(yù)處理工作; 文本數(shù)據(jù)庫(kù)和項(xiàng)目庫(kù)構(gòu)建模塊:該模塊主要進(jìn)行中文和英文特征詞提取及其權(quán)重計(jì)算,構(gòu)建基于向量空間模型的文本信息數(shù)據(jù)庫(kù)和中英文特征詞項(xiàng)目庫(kù)。
4.根據(jù)權(quán)利要求2所述的挖掘系統(tǒng),其特征在于,所述的特征詞頻繁偏序項(xiàng)集生成模塊包括以下3個(gè)模塊: 特征詞候選偏序項(xiàng)集生成模塊:該模塊主要從文本信息數(shù)據(jù)庫(kù)中挖掘特征詞候選偏序項(xiàng)集,具體過(guò)程如下:從特征詞項(xiàng)目庫(kù)中提取候選1-項(xiàng)集,在文本信息數(shù)據(jù)庫(kù)中累加候選1-項(xiàng)集的權(quán)值總和,計(jì)算其支持度,得出完全加權(quán)特征詞頻繁1_項(xiàng)集;然后,通過(guò)Apr1ri連接,由完全加權(quán)特征詞頻繁0-1)_項(xiàng)集生成特征詞候選k_項(xiàng)集;所述的々^ 2 ;累加特征詞候選k_項(xiàng)集的各個(gè)項(xiàng)目在文本信息數(shù)據(jù)庫(kù)中的項(xiàng)目權(quán)值,得出完全加權(quán)特征詞候選偏序k_項(xiàng)集; 特征詞候選偏序項(xiàng)集剪枝模塊:該模塊利用本發(fā)明的剪枝方法對(duì)完全加權(quán)特征詞候選偏序k_項(xiàng)集進(jìn)行剪枝,將不可能頻繁的候選偏序1項(xiàng)集刪除,得到最終有可能頻繁的候選偏序k_項(xiàng)集集合; 特征詞頻繁偏序項(xiàng)集生成模塊:該模塊主要是對(duì)上述模塊剪枝后得到的最終候選偏序k_項(xiàng)集進(jìn)行挖掘,即使用本發(fā)明的支持度計(jì)算方法計(jì)算候選偏序k_項(xiàng)集的支持度,與最小支持度閾值比較,得出完全加權(quán)特征詞頻繁偏序k_項(xiàng)集。
5.根據(jù)權(quán)利要求2所述的挖掘系統(tǒng),其特征在于,所述的完全加權(quán)特征詞關(guān)聯(lián)規(guī)則生成模塊包括以下2個(gè)模塊: 特征詞頻繁偏序項(xiàng)集的子項(xiàng)集生成模塊:該模塊主要生成特征詞頻繁偏序項(xiàng)集所有的真子集,并求出各個(gè)真子集的項(xiàng)集權(quán)值和維數(shù); 完全加權(quán)特征詞關(guān)聯(lián)規(guī)則生成模塊:該模塊通過(guò)項(xiàng)集權(quán)值的簡(jiǎn)單計(jì)算和比較,從特征詞頻繁偏序項(xiàng)集中挖掘有效的完全加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式。
6.根據(jù)權(quán)利要求2-5中任一項(xiàng)所述的挖掘系統(tǒng),其特征在于,所述的挖掘系統(tǒng)中的最小支持度閾值as,最小置信度閾值由用戶輸入。
【文檔編號(hào)】G06F17/30GK104182527SQ201410427491
【公開(kāi)日】2014年12月3日 申請(qǐng)日期:2014年8月27日 優(yōu)先權(quán)日:2014年8月27日
【發(fā)明者】黃名選 申請(qǐng)人:廣西教育學(xué)院
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1