專利名稱:一種應(yīng)用于社區(qū)發(fā)現(xiàn)的可覆蓋聚類算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)信息技術(shù)領(lǐng)域,特別地涉及一種應(yīng)用于社區(qū)發(fā)現(xiàn)基于內(nèi)容性數(shù)據(jù)和相關(guān)性數(shù)據(jù)的可覆蓋聚類算法。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種新型的網(wǎng)絡(luò)應(yīng)用層出不窮,日益豐富了網(wǎng)絡(luò)用戶的虛擬社交行為。進(jìn)而,互聯(lián)網(wǎng)和用戶之間早已不是像信息發(fā)布端和信息接收端這種簡(jiǎn)單而直接的關(guān)系,互聯(lián)網(wǎng)已構(gòu)成了向用戶提供生產(chǎn)生活的密不可分的另一個(gè)世界——“虛擬社會(huì)網(wǎng)絡(luò)”,并且用戶也更加積極和主動(dòng)地融入進(jìn)這個(gè)新的社會(huì)平臺(tái)中。比如,用戶會(huì)提出自己特定的觀點(diǎn),用戶會(huì)自發(fā)形成討論組,而網(wǎng)絡(luò)公司則針對(duì)用戶群體進(jìn)行差異化的營(yíng)銷。為了能有效和深入地研究虛擬社會(huì)網(wǎng)絡(luò)這一新型的互聯(lián)網(wǎng)的表現(xiàn)形式,大量的研究者們對(duì)于網(wǎng)絡(luò)中的“社區(qū)發(fā)現(xiàn)”這一問(wèn)題進(jìn)行了大量的工作?!吧鐓^(qū)發(fā)現(xiàn)”這一名詞中的社區(qū)指的是網(wǎng)絡(luò)中具有相同行為特性的用戶的集合,從微觀上來(lái)看集合內(nèi)的用戶之間,相比于集合外存在大量的信息交互、行為合作;而從宏觀上來(lái)看,集合往往自身具有相似的興趣傾向,并對(duì)社會(huì)事件有相似的觀點(diǎn)或理解。于是,“社區(qū)發(fā)現(xiàn)”具體是指通過(guò)科學(xué)的數(shù)學(xué)建模和高效的大規(guī)模計(jì)算方法從社會(huì)網(wǎng)絡(luò)中找出大量的潛在的社區(qū)或社區(qū)結(jié)構(gòu),即為用戶形成的類?!吧鐓^(qū)發(fā)現(xiàn)”有著廣泛的社會(huì)應(yīng)用,比如發(fā)現(xiàn)不同的用戶群體進(jìn)而實(shí)現(xiàn)差別化的廣告投放,或是依照用戶所在社區(qū)的不同特點(diǎn)對(duì)用戶進(jìn)行相應(yīng)不同的信用評(píng)分。傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法,大多假設(shè)網(wǎng)絡(luò)中的每一個(gè)用戶只能屬于單一的社區(qū);或者認(rèn)為每個(gè)用戶在網(wǎng)絡(luò)中地位或作用是平等的。因此,發(fā)展一種新型的契合目前復(fù)雜數(shù)據(jù)環(huán)境的聚類方法迫在眉睫。目前發(fā)展的可覆蓋的社區(qū)發(fā)現(xiàn)方法,其重視網(wǎng)絡(luò)中的核心用戶的作用,認(rèn)為這些核心用戶可以從屬于多個(gè)社區(qū)。于是,這種可覆蓋的社區(qū)發(fā)現(xiàn)方法就很好的突破傳統(tǒng)方法的局限性,并且可以更有效地展示出社會(huì)網(wǎng)絡(luò)潛在的社區(qū)結(jié)構(gòu)。但目前的可覆蓋社區(qū)發(fā)現(xiàn)方法或聚類方法,存在以下問(wèn)題(1)目前的可覆蓋社區(qū)發(fā)現(xiàn)方法或聚類方法的數(shù)據(jù)應(yīng)用環(huán)境單一,只能處理內(nèi)容性數(shù)據(jù)或只能處理相關(guān)性數(shù)據(jù)。(2) —般來(lái)說(shuō),傳統(tǒng)社區(qū)發(fā)現(xiàn)方法只是僅僅將網(wǎng)絡(luò)中的用戶作為社會(huì)網(wǎng)絡(luò)中的主體,這就潛在的造成了平等的對(duì)待每個(gè)用戶這一假定,因?yàn)檫@時(shí)每個(gè)用戶的權(quán)重值都相等。
發(fā)明內(nèi)容
為解決上述問(wèn)題,本發(fā)明的目的在于提供一種應(yīng)用于社區(qū)發(fā)現(xiàn)的可覆蓋聚類算法,用于同時(shí)處理內(nèi)容性數(shù)據(jù)和相關(guān)性數(shù)據(jù),更好的適應(yīng)真實(shí)網(wǎng)絡(luò)環(huán)境中的社區(qū)發(fā)現(xiàn)需求。為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為—種應(yīng)用于社區(qū)發(fā)現(xiàn)的可覆蓋聚類算法,包括以下步驟步驟1,給出所需要的數(shù)據(jù)輸入,具體包括以下子步驟,步驟11,設(shè)立數(shù)據(jù)環(huán)境中的用戶集合為U = (U1, u2, U3......%},—共有N個(gè);設(shè)
立數(shù)據(jù)環(huán)境中的屬性集合為A= {a1; a2, a3......aM}, —共有M個(gè);用Ui — a」代表第i個(gè)用戶擁有第j個(gè)屬性;步驟12,用屬性矩陣E代表用戶和屬性之間的關(guān)系,即為內(nèi)容性數(shù)據(jù),在數(shù)據(jù)環(huán)境中,定義
權(quán)利要求
1.一種應(yīng)用于社區(qū)發(fā)現(xiàn)的可覆蓋聚類算法,其特征在于,包括以下步驟 步驟1,給出所需要的數(shù)據(jù)輸入,具體包括以下子步驟, 步驟11,設(shè)立數(shù)據(jù)環(huán)境中的用戶集合為U= K, u2, U3,......%},一共有N個(gè);設(shè)立數(shù)據(jù)環(huán)境中的屬性集合為A = {a1; a2, a3,......aM}, 一共有M個(gè);用Ui — a」代表第i個(gè)用戶擁有第j個(gè)屬性; 步驟12,用屬性矩陣E代表用戶和屬性之間的關(guān)系,即為內(nèi)容性數(shù)據(jù),在數(shù)據(jù)環(huán)境中,定義E e Rnxm, eiJ e {O,1},I彡i彡N,I彡j彡M,當(dāng)叫=I時(shí),表示第i個(gè)用戶擁有第j個(gè)屬性,eiJ = O時(shí),表示第i個(gè)用戶不擁有第j個(gè)屬性; 步驟13,用鄰接矩陣W來(lái)代表用戶和用戶之間的關(guān)系,即為相關(guān)性數(shù)據(jù),在數(shù)據(jù)環(huán)境中,定義W e RnxnjWij彡O,I彡i彡N,I彡j彡N7Wij的大小代表了第i個(gè)用戶和第j個(gè)用戶之間的關(guān)系緊密度; 步驟2,建立候選子圖,分為以下子步驟, 步驟21,建立“用戶——屬性圖”,“用戶——屬性圖”是建立同時(shí)具有內(nèi)容性數(shù)據(jù)和相關(guān)性數(shù)據(jù)基礎(chǔ)上的數(shù)據(jù)結(jié)構(gòu),按照所述步驟I的定義可以表示為G= (U,A,W,E),其中U是數(shù)據(jù)環(huán)境中用戶的集合,A是數(shù)據(jù)環(huán)境中屬性的集合,W代表了用戶和用戶之間的相關(guān)性的度量,而E代表了用戶和屬性之間的關(guān)聯(lián)性質(zhì), 步驟22,在給出所述“用戶——屬性圖”的基礎(chǔ)上,一系列候選子圖被定義為Si = (Ui,Ai, Wi, Ei),其中i e {1,2,..., L},每一個(gè)候選子圖實(shí)際上為“用戶——屬性圖”的部分結(jié)構(gòu),并且所有的候選子圖的用戶的總和即是原有數(shù)據(jù)環(huán)境中的所有用戶總和;各個(gè)候選子圖不會(huì)占有同一個(gè)用戶; 步驟3,評(píng)估候選子圖,建立起測(cè)量用戶或?qū)傩院瓦@些候選子圖之間相關(guān)性的準(zhǔn)則, 步驟31,度量屬性和候選子圖之間的相關(guān)性 η( ο\ I “—(々(φ Η/)) f°r ii-pGfar other 在上式中HaiIS1)是一種度量屬性和候選子圖之間相關(guān)性的核心技術(shù);t是一個(gè)門(mén)限參數(shù),它是由所有屬性與候選子圖做相關(guān)性測(cè)量后,再取均值所得到的出是一個(gè)歸一化參數(shù);Xa是一個(gè)控制參數(shù),而Pa是一較小的正常數(shù),如果屬性和該候選子圖的相關(guān)性較高,那么該屬性從屬于該子圖的概率也就很高,并和相關(guān)性成指數(shù)關(guān)系,反之該屬性從屬的概率就很小,并取一個(gè)較小的正常數(shù)P ; 步驟32,度量用戶和候選子圖的相關(guān)性 采用一種馬爾科夫隨機(jī)場(chǎng)的變形來(lái)測(cè)量用戶和候選子圖之間的相關(guān)性,具體的測(cè)量準(zhǔn)則如下所示 ,ι。、I flog% f°r '. Q|S/) = --rx{ Iv ^jJ公式 2Tl. pnfor other 上中H是一個(gè)歸一化參數(shù),Νω是用戶Ui所有鄰居用戶的集合;λ η是一個(gè)控制參數(shù),而Pn是一個(gè)正常數(shù); 步驟33,度量“用戶——屬性”對(duì)和候選子圖的相關(guān)性在分別定義好屬性和用戶與候選子圖的相關(guān)性之后,建立起度量“用戶一屬性”對(duì)和候選子圖之間的相關(guān)性,具體如下所示 P (Ui — Eij I S1) P (Ui I S1) P (aj I S1)公式 3 步驟4,可覆蓋社區(qū)發(fā)現(xiàn) 步驟41,通過(guò)建立概率統(tǒng)計(jì)模型來(lái)求解具有可覆蓋性的社區(qū),先假設(shè)用戶和屬性是已知的變量,而候選子圖是隱藏的變量s =,因此,每一個(gè)“用戶——屬性”對(duì)可以在概率上從屬于多個(gè)候選子圖,于是可以用下面的公式來(lái)描述“用戶——屬性”對(duì),
2.根據(jù)權(quán)利要求I所述的應(yīng)用于社區(qū)發(fā)現(xiàn)的可覆蓋聚類算法,其特征在于,所述步驟31前進(jìn)一步包括以下步驟, 具體定義HailS1)為,
全文摘要
本發(fā)明公開(kāi)了一種應(yīng)用于社區(qū)發(fā)現(xiàn)的可覆蓋聚類算法,首先在得到原始數(shù)據(jù)之后,將其轉(zhuǎn)化為“用戶——屬性圖”。在初始化 候選子圖之后,對(duì)“用戶——屬性圖”中的行為進(jìn)行初步的分類,其次,計(jì)算出每個(gè)候選子圖的占優(yōu)屬性;同時(shí)計(jì)算出每個(gè)用戶和各個(gè)候選子圖之間的相關(guān)性。之后,建立概率統(tǒng)計(jì)模型,計(jì)算每個(gè)“用戶——屬性”對(duì)和候選子圖之間的相關(guān)性。對(duì)候選子圖進(jìn)行迭代構(gòu)造,運(yùn)行到可以得到穩(wěn)定而有效的候選子圖結(jié)構(gòu)為止。最后,根據(jù)數(shù)據(jù)環(huán)境中的這些候選子圖的建立,對(duì)于數(shù)據(jù)中的各個(gè)“用戶——屬性圖”對(duì)進(jìn)行合理的分類,發(fā)現(xiàn)擁有多種屬性的關(guān)鍵用戶。本發(fā)明用于同時(shí)處理內(nèi)容性數(shù)據(jù)和相關(guān)性數(shù)據(jù),更好的適應(yīng)真實(shí)網(wǎng)絡(luò)環(huán)境中的社區(qū)發(fā)現(xiàn)需求。
文檔編號(hào)G06F17/30GK102831219SQ201210300460
公開(kāi)日2012年12月19日 申請(qǐng)日期2012年8月22日 優(yōu)先權(quán)日2012年8月22日
發(fā)明者何周舟, 張仲非, 飛利浦.余 申請(qǐng)人:浙江大學(xué)