亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法

文檔序號(hào):6371664閱讀:559來源:國知局
專利名稱:大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法
技術(shù)領(lǐng)域
本發(fā)明屬于社會(huì)網(wǎng)絡(luò)中信息科學(xué)技術(shù)領(lǐng)域,涉及社會(huì)網(wǎng)絡(luò)所涵蓋數(shù)據(jù)中的異常信息挖掘,尤其涉及一種大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法。
背景技術(shù)
社會(huì)網(wǎng)絡(luò)是由一些個(gè)人或組織以及它們之間的聯(lián)系所構(gòu)成的集合,這種聯(lián)系可能是同事、朋友、親屬等各種關(guān)系。近年來,這種新興的、實(shí)用的交互模式在網(wǎng)絡(luò)活動(dòng)中隨處可見,如國外的MySpace、Facebook,以及國內(nèi)的人人網(wǎng)等。事實(shí)上,除了這些狹義的社交網(wǎng)絡(luò),社會(huì)網(wǎng)絡(luò)還包括合著關(guān)系網(wǎng)、電力網(wǎng)格和經(jīng)濟(jì)關(guān)系等網(wǎng)絡(luò)實(shí)例。 信息科學(xué)中,社會(huì)網(wǎng)絡(luò)可以由圖結(jié)構(gòu)來定義,其中圖的節(jié)點(diǎn)代表社會(huì)網(wǎng)絡(luò)中的實(shí)體,比如SNS中的用戶、合著關(guān)系網(wǎng)中的文獻(xiàn)等,它包含著大量?jī)?nèi)容信息;而圖的邊代表節(jié)點(diǎn)之間的聯(lián)系,如交互關(guān)系、好友關(guān)系等,它承載了大量的結(jié)構(gòu)信息。因此,不同于常規(guī)數(shù)據(jù)集,社會(huì)網(wǎng)絡(luò)同時(shí)包含著內(nèi)容和結(jié)構(gòu)兩方面信息。由于社會(huì)網(wǎng)絡(luò)同時(shí)包含結(jié)構(gòu)與內(nèi)容兩方面信息這一特性,社會(huì)網(wǎng)絡(luò)中通常存在著內(nèi)容信息和結(jié)構(gòu)信息不一致的節(jié)點(diǎn),這些存在于社會(huì)網(wǎng)絡(luò)中的異常點(diǎn)即為本發(fā)明所需檢測(cè)的離群點(diǎn)。這些離群點(diǎn)表現(xiàn)為社會(huì)網(wǎng)絡(luò)劃分社區(qū)后的社區(qū)離群點(diǎn),這些離群點(diǎn)可能隱含了人們事先未知且具有潛在價(jià)值的信息或者知識(shí)。在某些情況下,這些小概率的離群點(diǎn)事件很可能比經(jīng)常發(fā)生的事件更有研究?jī)r(jià)值。比如金融社會(huì)網(wǎng)絡(luò)中的社區(qū)離群點(diǎn)可能意味著金融詐騙事件,氣象社會(huì)網(wǎng)絡(luò)中的社區(qū)離群點(diǎn)可能意味著氣象災(zāi)難,經(jīng)濟(jì)關(guān)系社會(huì)網(wǎng)絡(luò)中的社區(qū)離群點(diǎn)可能代表著黑馬企業(yè)家的出現(xiàn),合著關(guān)系網(wǎng)中的社區(qū)離群點(diǎn)可能代表著新興交叉學(xué)科的出現(xiàn)。因此本發(fā)明所述的社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)與單純只包含內(nèi)容信息的網(wǎng)絡(luò)中的離群點(diǎn)不同,因此,檢測(cè)方法也不同。如專利CN 100535955C所示的已有方法,只適用于只包含內(nèi)容信息的常規(guī)數(shù)據(jù)集,無法適用于社會(huì)網(wǎng)絡(luò)。目前,對(duì)社會(huì)網(wǎng)絡(luò)中社區(qū)離群點(diǎn)的檢測(cè),主要基于統(tǒng)計(jì)學(xué)的方法,該方法的不足之處是需要事先知道數(shù)據(jù)的分布,這在實(shí)際應(yīng)用中是非常困難的,而且大部分現(xiàn)實(shí)數(shù)據(jù)也往往不符合任何一種理想狀態(tài)的數(shù)學(xué)分布。此外,這種基于統(tǒng)計(jì)的社區(qū)離群點(diǎn)檢測(cè)方法,同時(shí)考慮社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)容兩方面信息(請(qǐng)參見文獻(xiàn)Jing Gao, Feng Liang, Wei Fan,Chi Wang, Yizhou Sun, and Jiawei Han 0n Community Outliers and their EfficientDetection in Information Networks. Proceedings of the ACM SIGKDD internationalconference on Knowledge discovery and data mining. 2010),很難在保證較高準(zhǔn)確率的同時(shí)具有快速地處理能力,而社會(huì)網(wǎng)絡(luò)所需處理的信息量又極其龐大,它可能包括上億個(gè)節(jié)點(diǎn)和邊(以Facebook為例,其包含著多于IO8個(gè)節(jié)點(diǎn)以及IO11條邊),這就限制了它的應(yīng)用。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,在檢測(cè)準(zhǔn)確性及檢測(cè)效率上優(yōu)于現(xiàn)有的基于統(tǒng)計(jì)的社會(huì)網(wǎng)絡(luò)離群點(diǎn)檢測(cè)方法。本發(fā)明的大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其步驟包括I、提取待測(cè)社會(huì)網(wǎng)絡(luò)數(shù)據(jù);2、根據(jù)社會(huì)網(wǎng)絡(luò)各節(jié)點(diǎn)的內(nèi)容信息,對(duì)該社會(huì)網(wǎng)絡(luò)的節(jié)點(diǎn)進(jìn)行聚類,形成各社會(huì)網(wǎng)絡(luò)社區(qū)CS ;3、計(jì)算各節(jié)點(diǎn)的社區(qū)離群度因子COF ;4、提取社區(qū)離群度因子COF最大的n個(gè)節(jié)點(diǎn),作為該社會(huì)網(wǎng)絡(luò)的離群點(diǎn),其中n > I。本發(fā)明根據(jù)每個(gè)節(jié)點(diǎn)數(shù)據(jù)t與社區(qū)C的相似性Similarity (C,t)進(jìn)行聚類,將相 似性大于設(shè)定閾值的節(jié)點(diǎn)聚為同一社區(qū)節(jié)點(diǎn),所述每個(gè)節(jié)點(diǎn)數(shù)據(jù)t與社區(qū)C的相似性
Fm,Siiiinarily(C^t) = ^ )二 ) 一 ^ C""""
i — I.其中sup()是度量分類屬性值%頻率的函數(shù),Ci是數(shù)值屬性的均值,m為該社會(huì)網(wǎng)絡(luò)維度,Ai為第i維屬性,該社會(huì)網(wǎng)絡(luò)前p維屬性屬于數(shù)值型屬性,后(m-p)維屬性屬于分類型屬性。所述社會(huì)網(wǎng)絡(luò)社區(qū)CS的數(shù)據(jù)結(jié)構(gòu)為CS = {Community, Summary, C |, SS, SS2}其中,Community為社區(qū)標(biāo)識(shí)號(hào),Summary為該社區(qū)中數(shù)值型屬性均值與分類型屬性頻率的集合,|C|為社區(qū)中的節(jié)點(diǎn)個(gè)數(shù),SS為每個(gè)節(jié)點(diǎn)數(shù)據(jù)與社區(qū)的相似性Similarity之和,SS2為每個(gè)節(jié)點(diǎn)數(shù)據(jù)與社區(qū)的相似性Similarity的平方和。所述閾值S為期望ii,其中p = f|c所述閾值5最好設(shè)為雙標(biāo)準(zhǔn)閾值,其上界為期望U,下界由切比雪夫不等式當(dāng)k取^時(shí)得到,即S. Iower為p-所述切比雪夫不等式是指在任何數(shù)據(jù)集中,與期望ii超過K倍標(biāo)準(zhǔn)差O的數(shù)據(jù)占的比例至多是去,即Pr(|o.Iairer — fi\ > koj <所述社區(qū)離群度因子COF為節(jié)點(diǎn)t相對(duì)于除社區(qū)Ci以外的社區(qū)的連接密度與節(jié)點(diǎn)t相對(duì)于社區(qū)Ci的連接密度之比,即COFft) = —奪廠;一■-:——其中,e彡0,可以為極小正數(shù),如不大于10_6,LD為節(jié)點(diǎn)相對(duì)社區(qū)的連接密度;節(jié)點(diǎn)t相對(duì)于社區(qū)C的連接密度為節(jié)點(diǎn)t與社區(qū)C相連的邊的權(quán)重之和與社區(qū)C中節(jié)點(diǎn)個(gè)數(shù)之比,即LDe(t) =^7
^ 7 ICf其中1<表示連接節(jié)點(diǎn)t和社區(qū)C邊的權(quán)重之和,I C|是社區(qū)C中的節(jié)點(diǎn)數(shù)目。本發(fā)明的方法采用兩階段方法,全面地考慮了社會(huì)網(wǎng)絡(luò)的內(nèi)容信息和結(jié)構(gòu)信息。第一階段,根據(jù)社會(huì)網(wǎng)絡(luò)各節(jié)點(diǎn)的內(nèi)容信息,將社會(huì)網(wǎng)絡(luò)聚類為各個(gè)社區(qū),這些社區(qū)是識(shí)別社區(qū)離群點(diǎn)的上下文環(huán)境。第二階段,計(jì)算每個(gè)節(jié)點(diǎn)的社區(qū)離群度因子(COF),擁有前n個(gè)最大社區(qū)離群度因子的節(jié)點(diǎn)將作為檢測(cè)出的社區(qū)離群點(diǎn)輸出。所述的第一階段在社會(huì)網(wǎng)絡(luò)下基于內(nèi)容信息聚類的方法為,為每個(gè)社區(qū)存儲(chǔ)一個(gè)名為“社區(qū)結(jié)構(gòu)(CS)”的數(shù)據(jù)結(jié)構(gòu),依據(jù)該數(shù)據(jù)結(jié)構(gòu),可以計(jì)算兩個(gè)關(guān)鍵值,即每個(gè)數(shù)據(jù)與社區(qū)的相似性(Similarity)、動(dòng)態(tài)相似性閾值(S),如果相似性大于閾值,則將該數(shù)據(jù)聚類于社區(qū),否則該數(shù)據(jù)不能為社區(qū)接受。社區(qū)結(jié)構(gòu)(CS)的數(shù)據(jù)結(jié)構(gòu)為CS = {Community, Summary, |C|,SS, SS2}其中,Community為社區(qū)標(biāo)識(shí)號(hào),Smnmary為該社區(qū)中數(shù)值型屬性均值與分類型屬性頻率的集合,Icl為社區(qū)中的節(jié)點(diǎn)個(gè)數(shù),SS和SS2分別為每個(gè)數(shù)據(jù)與社區(qū)的相似性(Similarity)之和以及每個(gè)數(shù)據(jù)與社區(qū)的相似性(Similarity)的平方和。假定社會(huì)網(wǎng)絡(luò)包括m維屬性,Ai是第i維屬性,且前p維屬性屬于數(shù)值型屬性,后(m-p)維屬性屬于分類型屬性。分類屬性Ai存在Ti個(gè)不同取值。每個(gè)數(shù)據(jù)t與社區(qū)C的相似性計(jì)算方法為,對(duì)前P維數(shù)值型屬性,計(jì)算其與社區(qū)均值的標(biāo)準(zhǔn)距離,對(duì)后(m-p)維分類型屬性,計(jì)算其取得屬性值的標(biāo)準(zhǔn)頻率,將上述標(biāo)準(zhǔn)聚類及標(biāo)準(zhǔn)頻率相加,即

權(quán)利要求
1.一種大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其步驟包括 1)提取待測(cè)社會(huì)網(wǎng)絡(luò)數(shù)據(jù); 2)根據(jù)社會(huì)網(wǎng)絡(luò)各節(jié)點(diǎn)的內(nèi)容信息,對(duì)該社會(huì)網(wǎng)絡(luò)的節(jié)點(diǎn)進(jìn)行聚類,形成各社會(huì)網(wǎng)絡(luò)社區(qū)CS ; 3)計(jì)算各節(jié)點(diǎn)的社區(qū)離群度因子COF; 4)提取社區(qū)離群度因子COF最大的η個(gè)節(jié)點(diǎn),作為該社會(huì)網(wǎng)絡(luò)的離群點(diǎn),其中η> I。
2.如權(quán)利要求I所述的大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其特征在于,根據(jù)每個(gè)節(jié)點(diǎn)數(shù)據(jù)t與社區(qū)C的相似性Similarity (C, t)進(jìn)行聚類,將相似性大于設(shè)定閾值的節(jié)點(diǎn)聚為同一社區(qū)節(jié)點(diǎn),所述每個(gè)節(jié)點(diǎn)數(shù)據(jù)t與社區(qū)C的相似性
3.如權(quán)利要求I所述的大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其特征在于,所述社會(huì)網(wǎng)絡(luò)社區(qū)CS的數(shù)據(jù)結(jié)構(gòu)為CS = {Community, Summary, |C|,SS,SS2} 其中,Community為社區(qū)標(biāo)識(shí)號(hào),Summary為該社區(qū)中數(shù)值型屬性均值與分類型屬性頻率的集合,|C|為社區(qū)中的數(shù)據(jù)點(diǎn)個(gè)數(shù),SS為每個(gè)節(jié)點(diǎn)數(shù)據(jù)與社區(qū)的相似性Similarity之和,SS2為每個(gè)節(jié)點(diǎn)數(shù)據(jù)與社區(qū)的相似性Similarity的平方和。
4.如權(quán)利要求3所述的大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其特征在于,所述閾值δ為期望μ,其中P =儀。
5.如權(quán)利要求3所述的大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其特征在于,所述閾值δ為雙標(biāo)準(zhǔn)閾值,其上界為期望μ,其中H = f,下界由切比雪夫不等式當(dāng)k取.時(shí)得到,即δ · lower為μ - 所述切比雪夫不等式是指在任何數(shù)據(jù)集中,與期望μ超過K倍標(biāo)準(zhǔn)差σ的數(shù)據(jù)占的比例至多是#,即
6.如權(quán)利要求1-5任一所述的大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其特征在于,所述社區(qū)離群度因子COF為節(jié)點(diǎn)t相對(duì)于除社區(qū)Ci以外的社區(qū)的連接密度與節(jié)點(diǎn)t相對(duì)于社區(qū)Ci的連接密度之比,即
7.如權(quán)利要求6所述的大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其特征在于,所述ε為正數(shù)。
8.如權(quán)利要求6所述的大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其特征在于,所述ε ≤10-6
9.如權(quán)利要求I所述的大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其特征在于,所述η根據(jù)設(shè)定的社會(huì)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)的百分比得出。
10.如權(quán)利要求I所述的大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其特征在于,所述η為設(shè)定的整數(shù)。
全文摘要
本發(fā)明涉及一種大規(guī)模社會(huì)網(wǎng)絡(luò)中的離群點(diǎn)檢測(cè)方法,其步驟包括提取待測(cè)社會(huì)網(wǎng)絡(luò)數(shù)據(jù);根據(jù)社會(huì)網(wǎng)絡(luò)各節(jié)點(diǎn)的內(nèi)容信息,對(duì)該社會(huì)網(wǎng)絡(luò)的節(jié)點(diǎn)進(jìn)行聚類,形成各社會(huì)網(wǎng)絡(luò)社區(qū);計(jì)算各節(jié)點(diǎn)的社區(qū)離群度因子;提取社區(qū)離群度因子最大的n個(gè)節(jié)點(diǎn),作為該社會(huì)網(wǎng)絡(luò)的離群點(diǎn)。本發(fā)明不需要事先知道數(shù)據(jù)屬于何種分布,能夠處理任意分布的社會(huì)網(wǎng)絡(luò)。采用了動(dòng)態(tài)相似性閾值技術(shù),明顯降低了輸入?yún)?shù)的個(gè)數(shù),提升了社區(qū)離群點(diǎn)檢測(cè)的準(zhǔn)確性,能夠很方便地處理大規(guī)模數(shù)據(jù)集,有良好的應(yīng)用價(jià)值。
文檔編號(hào)G06F17/30GK102799616SQ20121020004
公開日2012年11月28日 申請(qǐng)日期2012年6月14日 優(yōu)先權(quán)日2012年6月14日
發(fā)明者紀(jì)騰飛, 楊冬青, 高軍, 王騰蛟, 唐世渭 申請(qǐng)人:北京大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1