基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng)的制作方法

文檔序號(hào)：6624902閱讀：195來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng)的制作方法
【專利摘要】一種基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng)，利用文本信息預(yù)處理模塊進(jìn)行預(yù)處理，構(gòu)建文本信息數(shù)據(jù)庫(kù)和特征詞項(xiàng)目庫(kù)；利用特征詞頻繁偏序項(xiàng)集實(shí)現(xiàn)模塊挖掘特征詞候選項(xiàng)集，求出候選項(xiàng)集的偏序項(xiàng)集，采用新的項(xiàng)集剪枝方法對(duì)候選偏序項(xiàng)集剪枝，計(jì)算候選偏序項(xiàng)集權(quán)值，采用新的計(jì)算方法計(jì)算候選偏序項(xiàng)集支持度，由此得出頻繁偏序項(xiàng)集；利用完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)模塊挖掘有效的特征詞關(guān)聯(lián)規(guī)則模式；利用關(guān)聯(lián)規(guī)則模式結(jié)果顯示模塊將關(guān)聯(lián)規(guī)則模式輸出給用戶。本發(fā)明具有良好的挖掘效率，得到更接近實(shí)際的文本特征詞關(guān)聯(lián)規(guī)則模式，這些模式運(yùn)用于中文或者英文文本挖掘、信息檢索等領(lǐng)域，運(yùn)用于搜索引擎，可以提高查詢性能。
【專利說(shuō)明】基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域，具體是一種基于偏序項(xiàng)集的中英文文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其挖掘系統(tǒng)，適用于中英文文本挖掘中特征詞關(guān)聯(lián)模式發(fā)現(xiàn)以及中英文文本信息檢索查詢擴(kuò)展、中英文文本跨語(yǔ)言信息檢索等領(lǐng)域。

【背景技術(shù)】
[0002]20年多來(lái)，關(guān)聯(lián)規(guī)則挖掘研究取得了顯著的技術(shù)成果，主要集中在基于項(xiàng)頻度的挖掘和基于項(xiàng)權(quán)值的挖掘技術(shù)兩個(gè)方面。
[0003]基于項(xiàng)頻度的挖掘也稱無(wú)加權(quán)關(guān)聯(lián)規(guī)則挖掘，其主要特點(diǎn)是按平等一致的原則處理項(xiàng)集，將項(xiàng)集在事務(wù)中出現(xiàn)的概率和條件概率作為其項(xiàng)集的支持度和關(guān)聯(lián)規(guī)則的置信度。最具代表性的經(jīng)典方法是Apr1ri 方法(R.Agrawal, T.1mielinski, A.Swam1.Miningassociat1n rules between sets of items in large database[C]// Proceeding of1993 ACM SIGMOD Internat1nal Conference on Management of Data, WashingtonD.C., 1993, (5): 207-216.)，在此基礎(chǔ)上，學(xué)者們采用不同的方法、從不同的角度改進(jìn)了Apr1ri 方法。
[0004]基于頻度的挖掘方法雖然得到廣泛的研究，但還存在如下缺陷:只重視項(xiàng)頻度，忽略存在項(xiàng)目權(quán)值的情況，導(dǎo)致冗余的、無(wú)效的和無(wú)趣的關(guān)聯(lián)模式增多。為了解決上述問(wèn)題，基于項(xiàng)權(quán)值的加權(quán)關(guān)聯(lián)模式挖掘技術(shù)得到廣泛討論和研究，其特點(diǎn)是引入項(xiàng)權(quán)值，以體現(xiàn)項(xiàng)目之間具有不同的重要性和項(xiàng)目在事務(wù)記錄中具有不同的權(quán)值。根據(jù)項(xiàng)權(quán)值的來(lái)源不同，基于項(xiàng)權(quán)值的挖掘分為基于項(xiàng)權(quán)值固定的加權(quán)模式挖掘技術(shù)和基于項(xiàng)權(quán)值變化的完全加權(quán)模式挖掘技術(shù)兩類。
[0005]基于項(xiàng)權(quán)值固定的加權(quán)模式挖掘是早期的基于項(xiàng)權(quán)值挖掘方法，自1998年以來(lái)得到眾多學(xué)者的關(guān)注和深入研究，其特點(diǎn)是:項(xiàng)目權(quán)值來(lái)源于用戶或者領(lǐng)域?qū)＜以O(shè)置，在事務(wù)挖掘過(guò)程中固定不變。其典型算法是Cai等提出的加權(quán)關(guān)聯(lián)規(guī)則挖掘算法MINWAL(O)和 MINWAL (W) ( C.H.Cai, A.da, V.C.Fu, et al.Mining Associat1n Rules withWeighted Items [C]//Proceedings of IEEE Internat1nal database Engineering andApplicat1n Symposiums, 1998: 68-77.)。在此基礎(chǔ)上，出現(xiàn)了改進(jìn)的加權(quán)模式挖掘方法，其在挖掘效率和挖掘性能方面均獲得良好的表現(xiàn)。
[0006]基于項(xiàng)權(quán)值固定的加權(quán)關(guān)聯(lián)規(guī)則挖掘方法的局限性是沒(méi)有考慮項(xiàng)目權(quán)值隨著事務(wù)記錄變化而變化的情況，即忽略項(xiàng)權(quán)值變化的情況，不能解決具有項(xiàng)權(quán)值變化特征的數(shù)據(jù)挖掘問(wèn)題。通常將具有項(xiàng)權(quán)值變化特征的數(shù)據(jù)稱為完全加權(quán)數(shù)據(jù)，也稱矩陣加權(quán)數(shù)據(jù)。文本信息是典型的完全加權(quán)數(shù)據(jù)，海量的文本信息中其特征詞權(quán)值是依賴于各個(gè)文檔，并隨文檔不同而變化。完全加權(quán)關(guān)聯(lián)規(guī)則挖掘技術(shù)克服了基于項(xiàng)權(quán)值固定的加權(quán)模式挖掘的缺陷，用于挖掘具有項(xiàng)權(quán)值變化特征的數(shù)據(jù)中各種關(guān)聯(lián)模式，屬于基于項(xiàng)權(quán)值變化的挖掘技術(shù)，主要特點(diǎn)是其項(xiàng)目權(quán)值依賴于事務(wù)而動(dòng)態(tài)變化。典型的完全加權(quán)關(guān)聯(lián)規(guī)則挖掘方法是2003年譚義紅等提出的向量空間模型中完全加權(quán)關(guān)聯(lián)規(guī)則的挖掘算法KWEstimate (譚義紅，林亞平.向量空間模型中完全加權(quán)關(guān)聯(lián)規(guī)則的挖掘[J].計(jì)算機(jī)工程與應(yīng)用，2003(13):208-211.)以及面向查詢擴(kuò)展的矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘算法MWARM(黃名選，嚴(yán)小衛(wèi)，張師超.基于矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘的偽相關(guān)反饋查詢擴(kuò)展[J].軟件學(xué)報(bào)，2009, 20 (7): 1854-1865.)，這些方法在挖掘完全加權(quán)數(shù)據(jù)關(guān)聯(lián)模式均獲得良好的挖掘效果，并且已經(jīng)成功地運(yùn)用于信息檢索查詢擴(kuò)展領(lǐng)域(黃名選，嚴(yán)小衛(wèi)，張師超.基于矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘的偽相關(guān)反饋查詢擴(kuò)展[J].軟件學(xué)報(bào)，2009, 20 (7): 1854-1865.，黃名選，嚴(yán)小衛(wèi)，張師超.完全加權(quán)關(guān)聯(lián)規(guī)則挖掘及其在查詢擴(kuò)展中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究，2008，25(6): 1724-1727.)，獲得了顯著的效果?，F(xiàn)有的基于權(quán)值變化的挖掘方法的缺陷是:其所挖掘的關(guān)聯(lián)模式數(shù)量仍然很龐大，增加用戶選擇所需模式的難度，無(wú)趣的、虛假的和無(wú)效的關(guān)聯(lián)模式還很多，很難將其技術(shù)上升到應(yīng)用層面。
[0007]隨著網(wǎng)絡(luò)技術(shù)和信息技術(shù)的發(fā)展，完全加權(quán)數(shù)據(jù)(如網(wǎng)絡(luò)文本信息數(shù)據(jù))數(shù)量迅猛增多，已經(jīng)成為海量數(shù)據(jù)，如何從這些海量完全加權(quán)數(shù)據(jù)中挖掘有用的、更接近實(shí)際情況的關(guān)聯(lián)模式是當(dāng)前亟待解決的問(wèn)題?；陧?xiàng)權(quán)值固定的挖掘算法不適用處理完全加權(quán)數(shù)據(jù)，目前多數(shù)仍然采用基于頻度的挖掘方法處理這些數(shù)據(jù)，導(dǎo)致大量冗余的、無(wú)效的和無(wú)趣的關(guān)聯(lián)模式產(chǎn)生。針對(duì)上述問(wèn)題，本發(fā)明根據(jù)中英文文檔數(shù)據(jù)的特點(diǎn)，提一種新的基于偏序項(xiàng)集的中英文本特征詞關(guān)聯(lián)規(guī)則模式挖掘方法及其挖掘系統(tǒng)。該發(fā)明采用新的偏序項(xiàng)集支持度計(jì)算方法和剪枝技術(shù)，避免很多無(wú)效的、虛假的和無(wú)趣的關(guān)聯(lián)模式產(chǎn)生，極大提高中英文文本挖掘效率，所挖掘出的特征詞關(guān)聯(lián)規(guī)則模式更加接近實(shí)際情況。實(shí)驗(yàn)結(jié)果表明，該發(fā)明提出的文本挖掘方法所挖掘的特征詞關(guān)聯(lián)模式數(shù)量以及挖掘時(shí)間均明顯減少，其挖掘性能優(yōu)于現(xiàn)有完全加權(quán)模式挖掘方法和基于頻度的模式挖掘方法的，其特征詞關(guān)聯(lián)模式可為信息檢索提供可靠的查詢擴(kuò)展詞來(lái)源，因此，該發(fā)明方法在文本挖掘、信息檢索等領(lǐng)域具有重要的應(yīng)用價(jià)值和廣闊的應(yīng)用前景。

【發(fā)明內(nèi)容】

[0008]本發(fā)明所要解決的技術(shù)問(wèn)題在于，針對(duì)中英文文文本特征詞關(guān)聯(lián)模式挖掘進(jìn)行深入探索，提出一種基于偏序項(xiàng)集的中英文文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng)，提高中英文文本挖掘效率，應(yīng)用于中英文文本信息檢索查詢擴(kuò)展，可以提高檢索性能，應(yīng)用于中英文文本挖掘，能夠發(fā)現(xiàn)更加實(shí)際合理的中英文特征詞關(guān)聯(lián)模式，從而提高文本聚類和分類的精度。在搜索引擎(例如百度、谷歌等)中使用本發(fā)明方法可以獲取高質(zhì)量的擴(kuò)展詞實(shí)現(xiàn)用戶查詢擴(kuò)展，提高查全率和查準(zhǔn)率。
[0009]本發(fā)明解決上述技術(shù)問(wèn)題所采取的技術(shù)方案是:一種基于偏序項(xiàng)集的中英文文本詞間關(guān)聯(lián)規(guī)則挖掘方法，包括如下步驟:
(O中英文文本信息數(shù)據(jù)預(yù)處理:將待處理的中英文文本信息數(shù)據(jù)進(jìn)行預(yù)處理:中文文本分詞，英文文本詞干提取，去除停用詞、提取特征詞及其權(quán)值計(jì)算，構(gòu)建基于向量空間模型的文本信息數(shù)據(jù)庫(kù)和特征詞項(xiàng)目庫(kù)。
[0010]米用 Porter (見(jiàn) http://tartarus.0rg/?martin/PorterStemmer)程序作為英文文檔詞干提取程序，中文分詞程序是中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制開(kāi)發(fā)的ICTCLAS漢語(yǔ)分詞系統(tǒng)(見(jiàn)http:// www.1ctclas.0rg/)。
[0011]文本特征詞權(quán)值計(jì)算公式是=(l+ln(i/i7)) XidfJ,其中，I7為第i個(gè)特征詞在第J篇文檔的權(quán)值，iW/；.為第i個(gè)特征詞的逆向文檔頻度，其值YoTi=1g OVAZfi)，#為文檔集中文檔總數(shù)，OTi為含有第?個(gè)特征詞的文檔數(shù)量，tfiJ為第i個(gè)特征詞在第J篇文檔的詞頻；
(2)挖掘完全加權(quán)特征詞頻繁偏序項(xiàng)集，包括以下步驟2.1和步驟2.2:
2.1、挖掘完全加權(quán)特征詞頻繁1_項(xiàng)集乙，具體步驟按照2.1.1和2.1.3進(jìn)行:
2.1.1、從特征詞項(xiàng)目庫(kù)中提取特征詞候選1_項(xiàng)集C；，累加文本信息數(shù)據(jù)庫(kù)中所有項(xiàng)目的權(quán)值，得到全部項(xiàng)目權(quán)值總和W，累加C1在文本信息數(shù)據(jù)庫(kù)中的權(quán)值累加總和
,計(jì)算G的支持度(C1)。p1sup (JO1)的公式如下:

【權(quán)利要求】
1.一種基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法，其特征在于，包括如下步驟: (O中英文文本信息數(shù)據(jù)預(yù)處理:將待處理的中英文文本信息數(shù)據(jù)進(jìn)行預(yù)處理:中文文本分詞，英文文本詞干提取，去除停用詞、提取特征詞及其權(quán)值計(jì)算，構(gòu)建基于向量空間模型的文本信息數(shù)據(jù)庫(kù)和特征詞項(xiàng)目庫(kù)； (2)挖掘完全加權(quán)特征詞頻繁偏序項(xiàng)集，包括以下步驟2.1和步驟2.2: (2.1)挖掘完全加權(quán)特征詞頻繁1_項(xiàng)集乙，具體步驟按照2.1.1和2.1.3進(jìn)行: (2.1.1)從特征詞項(xiàng)目庫(kù)中提取特征詞候選1_項(xiàng)集C；，累加文本信息數(shù)據(jù)庫(kù)中所有項(xiàng)目的權(quán)值，得到全部項(xiàng)目權(quán)值總和W，累加C1在文本信息數(shù)據(jù)庫(kù)中的權(quán)值累加總和wb;,計(jì)算C1的支持度poison (C1)； (2.1.2)將特征詞候選1_項(xiàng)集C11中其支持度piMop (C1) ^ms的頻繁1_項(xiàng)集Z7加入到特征詞頻繁項(xiàng)集集合as為最小支持度閾值； (2.1.3)在文本信息數(shù)據(jù)庫(kù)中累加候選1-項(xiàng)集C1的出現(xiàn)頻度/^，提取& (C1)，計(jì)算C1的偏序項(xiàng)集權(quán)值期望/?/勝私，2)； (2.2)挖掘完全加權(quán)特征詞頻繁項(xiàng)集4，所述的A彡2，按照步驟2.2.Γ 2.2.12進(jìn)行操作: (2.2.1)對(duì)于候選(A-1) _項(xiàng)集CV1，將w (C^1) <P0IWB (C^1, k)的不可能成為頻繁k_項(xiàng)集的Ck'剪除，得到新的候選項(xiàng)集Ch集合；其中，為在文本信息數(shù)據(jù)庫(kù)中的權(quán)值累加總和，/?/勝(C；+ k)為包含完全加權(quán)候選認(rèn)-1) _項(xiàng)集G1的左_項(xiàng)集權(quán)值期望； (2.2.2)將其項(xiàng)集頻度不為O的特征詞候選、k -1)_項(xiàng)集進(jìn)行Apr1ri連接，生成特征詞候選項(xiàng)集G ; (2.2.3)如果G為空，則退出2.2步轉(zhuǎn)入(3)步；否則，如果G不空，轉(zhuǎn)入2.2.4步；(2.2.4)對(duì)于候選左_項(xiàng)集C；，考察G的任何認(rèn)_1)_項(xiàng)集子集，如果存在一個(gè)其認(rèn)_1)_項(xiàng)子集的項(xiàng)集權(quán)值小于其對(duì)應(yīng)的偏序項(xiàng)集權(quán)重期望(即?-ι)< POIWBiCk^k))，則該項(xiàng)集G一定是非頻繁項(xiàng)集，從其集合中刪除該項(xiàng)集，得到新的候選偏序項(xiàng)集PoG集合； (2.2.5)在文本信息數(shù)據(jù)庫(kù)中累加候選項(xiàng)集G的出現(xiàn)頻度及其各個(gè)項(xiàng)目權(quán)值W1 {Ck), W2 (C)，...，wk (Ca)，提取 & (Ca)，計(jì)算 Ck 的權(quán)重期望 POIWB {Ck, k+l)； (2.2.6)刪除其項(xiàng)集頻度為O的候選項(xiàng)集Ck,得到新的Ck集合； (2.2.7)求出每個(gè)Ck的偏序項(xiàng)集poC；； (2.2.8)考察偏序項(xiàng)集poC i的聞序真子集，若存在poC ^的聞序真子集是非頻繁的，則偏序項(xiàng)集PC^ , 一定是非頻繁的，從其集合中刪除該項(xiàng)集，得到新的候選偏序項(xiàng)集poG集合； (2.2.9)考察偏序項(xiàng)集poC k的高權(quán)項(xiàng)目的項(xiàng)目權(quán)值，若存在poC k的高權(quán)項(xiàng)目的項(xiàng)目權(quán)值小于1_項(xiàng)集的最小權(quán)值閾值則偏序項(xiàng)集PoCr k 一定是非頻繁的,從其集合中刪除該項(xiàng)集，得到新的候選偏序項(xiàng)集poC；集合的計(jì)算公式為-Jninw=WXms ； (2.2.10)考察偏序項(xiàng)集的低權(quán)項(xiàng)目，若存在PoCi的低權(quán)項(xiàng)目的項(xiàng)目權(quán)值不小于minw,則偏序項(xiàng)集poC k 一定是頻繁的,將該項(xiàng)集加入到特征詞頻繁項(xiàng)集集合FIS ； (2.2.11)對(duì)余下的偏序項(xiàng)集i，計(jì)算計(jì)算其支持度p1sopboC〉,若p1supipoCk)彡as.,則該偏序項(xiàng)集/70^ ^是頻繁的,加入到特征詞頻繁項(xiàng)集集合/7Z^ ; (2.2.12)將左的值加1，循環(huán)2.2.Γ2.2.12步驟，直到Ck為空，則退出2.2步轉(zhuǎn)入如下(3)步； (3)從特征詞頻繁項(xiàng)集集合/^?中挖掘有效的完全加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式，包括以下步驟: (3.1)從特征詞頻繁項(xiàng)集集合/取出特征詞頻繁項(xiàng)集Zi，找出Zi的所有真子集； (3.2)從Zi的真子集集合中任意取出兩個(gè)真子集J7和厶，當(dāng)J7 η 0,并且J7 ,JI2=Li,若『12彡(Ml2Zkl) Xw1 Xmc,則挖掘出特征詞強(qiáng)關(guān)聯(lián)規(guī)則J7 —厶；若#12彡O12/k2) Xff2Xffic,則挖掘出特征詞強(qiáng)關(guān)聯(lián)規(guī)則I2 -* I1 ;所述的kr、k2和ki2分別為項(xiàng)集I1' I2和Q1,心)的項(xiàng)目個(gè)數(shù)，?6和化分別為、厶和(/,，石)的項(xiàng)集權(quán)值，^為最小置信度閾值； (3.3)繼續(xù)3.2步驟，當(dāng)特征詞頻繁項(xiàng)集Zi的真子集集合中每個(gè)真子集都被取出一次，而且僅能取出一次，則轉(zhuǎn)入步驟3.4 ； (3.4)繼續(xù)3.1步驟，當(dāng)特征詞頻繁項(xiàng)集集合中每個(gè)頻繁項(xiàng)集Zi都被取出一次，而且僅能取出一次，則(3)步運(yùn)行結(jié)束；至此，完全加權(quán)特征詞關(guān)聯(lián)規(guī)則模式挖掘結(jié)束。
2.一種適用于權(quán)利要求1所述的基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘系統(tǒng)，其特征在于，包括以下4個(gè)模塊: 文本信息預(yù)處理模塊:用于將待處理的中英文本數(shù)據(jù)進(jìn)行預(yù)處理，即中文文本分詞、英文文本詞干提取、去除停用詞以及特征詞提取及其權(quán)值計(jì)算等，構(gòu)建基于向量空間模型的文本信息數(shù)據(jù)庫(kù)和特征詞項(xiàng)目庫(kù)；特征詞頻繁偏序項(xiàng)集生成模塊:該模塊用于從文本信息數(shù)據(jù)庫(kù)挖掘完全加權(quán)特征詞候選偏序項(xiàng)集，并采用新的剪枝方法對(duì)候選偏序項(xiàng)集剪枝，得到最終的候選偏序項(xiàng)集，通過(guò)新的偏序項(xiàng)集支持度計(jì)算方法，從候選偏序項(xiàng)集中得出完全加權(quán)特征詞頻繁偏序項(xiàng)集模式；完全加權(quán)特征詞關(guān)聯(lián)規(guī)則生成模塊:該模塊通過(guò)項(xiàng)集權(quán)重及其維數(shù)的簡(jiǎn)單計(jì)算和比較，從完全加權(quán)特征詞頻繁偏序項(xiàng)集(Λ，I2)中挖掘有效的完全加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式-J1 -* I2 ；關(guān)聯(lián)規(guī)則模式結(jié)果顯示模塊:將有效的完全加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式以用戶喜歡的形式顯示給用戶，供用戶分析、選擇和使用。
3.根據(jù)權(quán)利要求2所述的挖掘系統(tǒng)，其特征在于，所述的文本信息預(yù)處理模塊包括以下2個(gè)模塊: 中英文文本預(yù)處理模塊:該模塊負(fù)責(zé)對(duì)中文文本信息進(jìn)行分詞和去除中文停用詞，對(duì)英文文本信息進(jìn)行詞干提取和去除英文停用詞等中英文語(yǔ)料預(yù)處理工作；文本數(shù)據(jù)庫(kù)和項(xiàng)目庫(kù)構(gòu)建模塊:該模塊主要進(jìn)行中文和英文特征詞提取及其權(quán)重計(jì)算，構(gòu)建基于向量空間模型的文本信息數(shù)據(jù)庫(kù)和中英文特征詞項(xiàng)目庫(kù)。
4.根據(jù)權(quán)利要求2所述的挖掘系統(tǒng)，其特征在于，所述的特征詞頻繁偏序項(xiàng)集生成模塊包括以下3個(gè)模塊: 特征詞候選偏序項(xiàng)集生成模塊:該模塊主要從文本信息數(shù)據(jù)庫(kù)中挖掘特征詞候選偏序項(xiàng)集，具體過(guò)程如下:從特征詞項(xiàng)目庫(kù)中提取候選1-項(xiàng)集，在文本信息數(shù)據(jù)庫(kù)中累加候選1-項(xiàng)集的權(quán)值總和，計(jì)算其支持度，得出完全加權(quán)特征詞頻繁1_項(xiàng)集；然后，通過(guò)Apr1ri連接，由完全加權(quán)特征詞頻繁0-1)_項(xiàng)集生成特征詞候選k_項(xiàng)集；所述的々^ 2 ;累加特征詞候選k_項(xiàng)集的各個(gè)項(xiàng)目在文本信息數(shù)據(jù)庫(kù)中的項(xiàng)目權(quán)值，得出完全加權(quán)特征詞候選偏序k_項(xiàng)集；特征詞候選偏序項(xiàng)集剪枝模塊:該模塊利用本發(fā)明的剪枝方法對(duì)完全加權(quán)特征詞候選偏序k_項(xiàng)集進(jìn)行剪枝，將不可能頻繁的候選偏序1項(xiàng)集刪除，得到最終有可能頻繁的候選偏序k_項(xiàng)集集合；特征詞頻繁偏序項(xiàng)集生成模塊:該模塊主要是對(duì)上述模塊剪枝后得到的最終候選偏序k_項(xiàng)集進(jìn)行挖掘，即使用本發(fā)明的支持度計(jì)算方法計(jì)算候選偏序k_項(xiàng)集的支持度，與最小支持度閾值比較，得出完全加權(quán)特征詞頻繁偏序k_項(xiàng)集。
5.根據(jù)權(quán)利要求2所述的挖掘系統(tǒng)，其特征在于，所述的完全加權(quán)特征詞關(guān)聯(lián)規(guī)則生成模塊包括以下2個(gè)模塊: 特征詞頻繁偏序項(xiàng)集的子項(xiàng)集生成模塊:該模塊主要生成特征詞頻繁偏序項(xiàng)集所有的真子集，并求出各個(gè)真子集的項(xiàng)集權(quán)值和維數(shù)；完全加權(quán)特征詞關(guān)聯(lián)規(guī)則生成模塊:該模塊通過(guò)項(xiàng)集權(quán)值的簡(jiǎn)單計(jì)算和比較，從特征詞頻繁偏序項(xiàng)集中挖掘有效的完全加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式。
6.根據(jù)權(quán)利要求2-5中任一項(xiàng)所述的挖掘系統(tǒng)，其特征在于，所述的挖掘系統(tǒng)中的最小支持度閾值as,最小置信度閾值由用戶輸入。
【文檔編號(hào)】G06F17/30GK104182527SQ201410427491
【公開(kāi)日】2014年12月3日申請(qǐng)日期:2014年8月27日優(yōu)先權(quán)日:2014年8月27日
【發(fā)明者】黃名選申請(qǐng)人:廣西教育學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃名選
技術(shù)所有人：廣西教育學(xué)院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于偏序項(xiàng)集的中英文本詞間關(guān)聯(lián)規(guī)則挖掘方法及其系統(tǒng)的制作方法