亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種圖數(shù)據(jù)分割的方法及裝置的制造方法

文檔序號:9376829閱讀:416來源:國知局
一種圖數(shù)據(jù)分割的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及云計算技術(shù)和圖數(shù)據(jù)分析技術(shù)領(lǐng)域,特別是涉及一種圖數(shù)據(jù)分割的方 法及裝置。
【背景技術(shù)】
[0002] BSP (Bulk Synchronous Parallel,整體同步并行模型),是一種并行算法的設(shè)計模 型。在該模型中,將算法分為若干個超步(super step),每個超步中分為三個過程,即本地 計算、相互通信、階段同步。BSP并行模型適合進行迭代次數(shù)高的計算。圖數(shù)據(jù)分割,圖數(shù)據(jù) 即采用圖結(jié)構(gòu)存儲的數(shù)據(jù)。圖結(jié)構(gòu)是計算機科學(xué)中最常用的一類抽象數(shù)據(jù)結(jié)構(gòu),由有限個 頂點和連接頂點之間的邊組成,具有比線性表結(jié)構(gòu)和樹結(jié)構(gòu)更一般性的表示能力。
[0003] 由于現(xiàn)實場景的應(yīng)用多用圖進行描述,隨著信息的增長,圖數(shù)據(jù)達到了海量規(guī)模。 由于圖數(shù)據(jù)本身固有的連通性和圖計算的強耦合性特點,為了實現(xiàn)高效的并行處理,需要 通過解耦等手段將一個邏輯上完整的大圖分割成若干部分,分別放置到分布式存儲系統(tǒng)的 各個工作節(jié)點上,然后進行并行的分布式處理。
[0004] 現(xiàn)有的圖數(shù)據(jù)分割方案主要有如下幾類方法:啟發(fā)式方法,以Kernighan-Lin算 法為代表。該算法中首先將圖數(shù)據(jù)分成A、B兩個集合,然后分別計算A集合中的每一個 頂點與B集合中每一個頂點交換后對集合權(quán)值的影響,每次交換對集合權(quán)值影響最大的兩 個頂點,直到達到結(jié)束條件。譜分割方法,該算法通過計算圖的拉普拉斯矩陣的特征向量, 提取前k個特征值和它們對應(yīng)的特征向量,獲得每一個頂點在低維空間的表示,然后進行 k-means聚類,獲得圖的劃分。從以上技術(shù)方案可以看出,在現(xiàn)有的圖數(shù)據(jù)分割方案中,存在 以下缺點:
[0005] 計算時間復(fù)雜度較高:如Kemighan-Lin算法,由于需要對兩個集合中的頂點分別 進行比較,計算其交換后對集合的權(quán)值影響,所以其時間復(fù)雜度為0 (π3)。而且,在大數(shù)據(jù)分 割應(yīng)用中,需要將數(shù)據(jù)分為多份,對于Kemighan-Lin算法就需要對第一步的兩個分割結(jié)果 多次運行算法,其時間消耗更多。譜分析方法需要求解η階方陣的特征值分解問題,其時間 復(fù)雜度為〇(η3),對于大規(guī)模圖數(shù)據(jù)構(gòu)成的矩陣計算復(fù)雜。
[0006] 計算空間復(fù)雜度較高:如譜分析方法,需要對圖數(shù)據(jù)中頂點構(gòu)建鄰接矩陣,然后進 行拉普拉斯分解,再進行分割計算。圖的鄰接矩陣規(guī)模為ηXη,其中η為圖中頂點的數(shù)目。 由于大圖數(shù)據(jù)中頂點個數(shù)很多,該矩陣也相當(dāng)龐大,不利于計算和緩存。
[0007] 難以進行并行化:由于算法本身設(shè)計時沒有進行并行化設(shè)計,所以在將其并行化 以提高效率時會遇到問題。如Kemighan-Lin算法中一次只交換一對頂點,譜分析方法中的 如何進行大規(guī)模矩陣并行分解。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明要解決的技術(shù)問題是提供一種圖數(shù)據(jù)分割的方法及裝置,以克服現(xiàn)有圖數(shù) 據(jù)分割技術(shù)中存在的時間復(fù)雜度和空間復(fù)雜度較高問題和難以并行化的缺陷。
[0009] 為了解決上述技術(shù)問題,本發(fā)明提供了一種圖數(shù)據(jù)分割的方法,包括:
[0010] 通過并行的標(biāo)簽傳遞算法將原始圖數(shù)據(jù)轉(zhuǎn)換為局部密集的帶權(quán)超圖;
[0011] 通過劃分算法逐次將所述帶權(quán)超圖均衡劃分為帶權(quán)超圖子圖;
[0012] 將所述帶權(quán)超圖子圖還原為原始圖對應(yīng)的數(shù)據(jù)。
[0013] 進一步地,上述方法還具有下面特點:所述通過并行的標(biāo)簽傳遞算法將原始圖數(shù) 據(jù)轉(zhuǎn)換為局部密集的帶權(quán)超圖,包括:
[0014] 通過并行的標(biāo)簽傳遞算法將原始圖數(shù)據(jù)中具有同樣標(biāo)簽的頂點聚合成一個超點, 所述超點的權(quán)值為該超點所包含的頂點個數(shù);
[0015] 所述超點之間的連邊為超邊,所述超邊的權(quán)值由原始圖中的邊決定;
[0016] 由所述超點和所述超邊構(gòu)所述帶權(quán)超圖。
[0017] 進一步地,上述方法還具有下面特點:所述超邊的權(quán)值由原始圖中的邊決定,包 括:
[0018] 如原始圖中的邊的兩個端點在所述帶權(quán)超圖中屬于不同的超點,則該兩個超點之 間存在一條超邊,該超邊的權(quán)值增加1 ;
[0019] 如原始圖中的邊的兩個端點在所述帶權(quán)超圖中屬于同一下超點,則不產(chǎn)生超邊。
[0020] 進一步地,上述方法還具有下面特點:
[0021] 所述通過劃分算法逐次將所述帶權(quán)超圖均衡劃分為帶權(quán)超圖子圖,包括:
[0022] 以所述帶權(quán)超圖中的超點為起點依次計算最小化局部切分率值,
[0023] 根據(jù)所述最小化局部切分率值將所述帶權(quán)超圖劃分為指定塊數(shù)的帶權(quán)超圖子圖。
[0024] 為了解決上述問題,本發(fā)明還提供了一種圖數(shù)據(jù)分割的裝置,其中,包括:
[0025] 轉(zhuǎn)換模塊,用于通過并行的標(biāo)簽傳遞算法將原始圖數(shù)據(jù)轉(zhuǎn)換為局部密集的帶權(quán)超 圖;
[0026] 劃分模塊,用于通過劃分算法逐次將所述帶權(quán)超圖均衡劃分為帶權(quán)超圖子圖;
[0027] 還原模塊,用于將所述帶權(quán)超圖子圖還原為原始圖對應(yīng)的數(shù)據(jù)。
[0028] 進一步地,上述裝置還具有下面特點:
[0029] 所述轉(zhuǎn)換模塊,具體用于通過并行的標(biāo)簽傳遞算法將原始圖數(shù)據(jù)中具有同樣標(biāo)簽 的頂點聚合成一個超點,所述超點的權(quán)值為該超點所包含的頂點個數(shù);所述超點之間的連 邊為超邊,由原始圖中的邊決定所述超邊的權(quán)值;由所述超點和所述超邊構(gòu)所述帶權(quán)超圖。
[0030] 進一步地,上述裝置還具有下面特點:
[0031] 所述轉(zhuǎn)換模塊,由原始圖中的邊決定所述超邊的權(quán)值包括:如原始圖中的邊的兩 個端點在所述帶權(quán)超圖中屬于不同的超點,則該兩個超點之間存在一條超邊,該超邊的權(quán) 值增加1 ;如原始圖中的邊的兩個端點在所述帶權(quán)超圖中屬于同一下超點,則不產(chǎn)生超邊。
[0032] 進一步地,上述裝置還具有下面特點:
[0033] 所述劃分模塊,具體用于以所述帶權(quán)超圖中的超點為起點依次計算最小化局部切 分率值,根據(jù)所述最小化局部切分率值將所述帶權(quán)超圖劃分為指定塊數(shù)的帶權(quán)超圖子圖。 [0034] 綜上,本發(fā)明提供一種圖數(shù)據(jù)分割的方法及裝置,可以分割速度更快,處理數(shù)據(jù)規(guī) 模更大,分割后的數(shù)據(jù)塊之間耦合度較小,有效降低使用BSP模型的并行計算平臺中個工 作頂點之間的數(shù)據(jù)通信,提高了處理效率。
【附圖說明】
[0035] 圖1為本發(fā)明實施例的一種圖數(shù)據(jù)分割的方法的流程圖;
[0036] 圖2為本發(fā)明實施例的并行的標(biāo)簽傳遞算法的流程圖;
[0037] 圖3為本發(fā)明實施例的一種圖數(shù)據(jù)分割的裝置的示意圖;
[0038] 圖4為本發(fā)明實施例1的數(shù)據(jù)原始圖;
[0039] 圖5為本發(fā)明實施例1的標(biāo)簽傳遞后的效果圖;
[0040] 圖6為本發(fā)明實施例1的帶權(quán)超圖;
[0041] 圖7為本發(fā)明實施例2的數(shù)據(jù)原始圖;
[0042] 圖8為本發(fā)明實施例2的標(biāo)簽傳遞后的效果圖;
[0043] 圖9為本發(fā)明實施例2的帶權(quán)超圖;
[0044] 圖10為本發(fā)明實施例3的數(shù)據(jù)原始圖;
[0045] 圖11為本發(fā)明實施例3的標(biāo)簽傳遞后的效果圖;
[0046] 圖12為本發(fā)明實施例3的帶權(quán)超圖。
【具體實施方式】
[0047] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下文中將結(jié)合附圖對本發(fā)明 的實施例進行詳細(xì)說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中 的特征可以相互任意組合。
[0048] 在實際應(yīng)用中,圖并不是隨機的,局部密集子圖在很多網(wǎng)絡(luò)中都廣泛存在,這些子 圖內(nèi)部的頂點彼此緊密連接,而與外部頂點具有較少的連接。本實施例的分割方法認(rèn)為這 樣的密集子圖不應(yīng)當(dāng)被切分為兩個或多個分塊之間,而是被當(dāng)作是一個獨立不可分的"原 子",這樣對圖劃分就轉(zhuǎn)變成對這些不可分割的"原子"的劃分。
[0049] 本實施例提供的是一種采用自底向上的分割方法。該方法分為兩個階段,聚集階 段和分割階段。在聚集階段,通過一個分布式標(biāo)簽傳播算法將局部密集的子圖聚合到一塊。 這些局部密集的子圖形成最基本的分割單元,這里稱作超點(Super Vertex),超點進一步 組成一個超圖(Super Graph)。在分割階段,通過一個貪心的逐次圖分割算法對聚集階段產(chǎn) 生的超圖進行劃分。每一次從超圖中抽取一個和其余子圖邊割最小的集合,這樣逐次取得 這個超圖的劃分,最后將超點還原為原始的局部密集的子圖,完成圖的分割。
[0050] 本實施例中的符號定義如下:
[0051] 使用G= (V,E)表示一個圖,其中V表示圖中點的集合,l_7 X F是邊的集 合。圖的鄰接矩陣為對=J > 〇表示頂點Vi和Vj相連,權(quán)重為ωΜ, 當(dāng)圖G是無權(quán)圖時,如果點Vi與Vj相鄰,= 1,否則coy = 〇。N(S)表示頂點S的鄰 域,iV(s) =,ε: 3玀 s Sf S, ε、e I β
[0052] 對于任意頂點集合R S [它的補集VW1表示為E15對于任意兩個集合A和B,定 義:
[0053]
[0054] 集合V1的割集為ITi = fe# e ,割集C1的邊割為獄(? s P = V1, v2,…,vk為圖G的k-路劃分,當(dāng)且僅當(dāng):⑴J1V1 = V和⑵、Vi, j: i吝j - Vi n Vr=良 構(gòu)建圖的劃分的最直接方式是解最小邊割問題:選擇一個劃分P = V1, V2. ..,Vk,使以下式
子最小
[0055] £ = S
[0056] 但是最小邊割問題的解通常不能產(chǎn)生圖的一個均衡劃分,將均衡劃分的目標(biāo)函數(shù) 定義如丁
[0057]
[0058] 刈t±U /jTT亦,半頭加 IW tf」一竹團規(guī):KT刀、刮的刀達迅灑以Γ步驟:
[0059] S1、通過并行的標(biāo)簽傳遞算法將原始圖數(shù)據(jù)轉(zhuǎn)換為局部密集的帶權(quán)超圖;
[0060] 并行標(biāo)簽傳播方法中,頂點只需要向其鄰接頂點發(fā)送標(biāo)簽信息,而不需要獲取其 他的頂點信息。該算法線性復(fù)雜,適合并行計算,如圖2所示,具體步驟如下:
[0061] 步驟11、初始化圖
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1