一種圖數(shù)據(jù)分割的方法及裝置的制造方法

文檔序號：9376829閱讀：416來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種圖數(shù)據(jù)分割的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及云計算技術(shù)和圖數(shù)據(jù)分析技術(shù)領(lǐng)域，特別是涉及一種圖數(shù)據(jù)分割的方法及裝置。
【背景技術(shù)】
[0002] BSP (Bulk Synchronous Parallel,整體同步并行模型），是一種并行算法的設(shè)計模型。在該模型中，將算法分為若干個超步（super step)，每個超步中分為三個過程，即本地計算、相互通信、階段同步。BSP并行模型適合進行迭代次數(shù)高的計算。圖數(shù)據(jù)分割，圖數(shù)據(jù) 即采用圖結(jié)構(gòu)存儲的數(shù)據(jù)。圖結(jié)構(gòu)是計算機科學(xué)中最常用的一類抽象數(shù)據(jù)結(jié)構(gòu)，由有限個頂點和連接頂點之間的邊組成，具有比線性表結(jié)構(gòu)和樹結(jié)構(gòu)更一般性的表示能力。
[0003] 由于現(xiàn)實場景的應(yīng)用多用圖進行描述，隨著信息的增長，圖數(shù)據(jù)達到了海量規(guī)模。由于圖數(shù)據(jù)本身固有的連通性和圖計算的強耦合性特點，為了實現(xiàn)高效的并行處理，需要通過解耦等手段將一個邏輯上完整的大圖分割成若干部分，分別放置到分布式存儲系統(tǒng)的各個工作節(jié)點上，然后進行并行的分布式處理。
[0004] 現(xiàn)有的圖數(shù)據(jù)分割方案主要有如下幾類方法：啟發(fā)式方法，以Kernighan-Lin算法為代表。該算法中首先將圖數(shù)據(jù)分成A、B兩個集合，然后分別計算A集合中的每一個頂點與B集合中每一個頂點交換后對集合權(quán)值的影響，每次交換對集合權(quán)值影響最大的兩個頂點，直到達到結(jié)束條件。譜分割方法，該算法通過計算圖的拉普拉斯矩陣的特征向量，提取前k個特征值和它們對應(yīng)的特征向量，獲得每一個頂點在低維空間的表示，然后進行 k-means聚類，獲得圖的劃分。從以上技術(shù)方案可以看出，在現(xiàn)有的圖數(shù)據(jù)分割方案中，存在以下缺點：
[0005] 計算時間復(fù)雜度較高：如Kemighan-Lin算法，由于需要對兩個集合中的頂點分別進行比較，計算其交換后對集合的權(quán)值影響，所以其時間復(fù)雜度為0 (π3)。而且，在大數(shù)據(jù)分割應(yīng)用中，需要將數(shù)據(jù)分為多份，對于Kemighan-Lin算法就需要對第一步的兩個分割結(jié)果多次運行算法，其時間消耗更多。譜分析方法需要求解η階方陣的特征值分解問題，其時間復(fù)雜度為〇(η3)，對于大規(guī)模圖數(shù)據(jù)構(gòu)成的矩陣計算復(fù)雜。
[0006] 計算空間復(fù)雜度較高：如譜分析方法，需要對圖數(shù)據(jù)中頂點構(gòu)建鄰接矩陣，然后進行拉普拉斯分解，再進行分割計算。圖的鄰接矩陣規(guī)模為ηXη，其中η為圖中頂點的數(shù)目。由于大圖數(shù)據(jù)中頂點個數(shù)很多，該矩陣也相當(dāng)龐大，不利于計算和緩存。
[0007] 難以進行并行化：由于算法本身設(shè)計時沒有進行并行化設(shè)計，所以在將其并行化以提高效率時會遇到問題。如Kemighan-Lin算法中一次只交換一對頂點，譜分析方法中的如何進行大規(guī)模矩陣并行分解。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明要解決的技術(shù)問題是提供一種圖數(shù)據(jù)分割的方法及裝置，以克服現(xiàn)有圖數(shù) 據(jù)分割技術(shù)中存在的時間復(fù)雜度和空間復(fù)雜度較高問題和難以并行化的缺陷。
[0009] 為了解決上述技術(shù)問題，本發(fā)明提供了一種圖數(shù)據(jù)分割的方法，包括：
[0010] 通過并行的標(biāo)簽傳遞算法將原始圖數(shù)據(jù)轉(zhuǎn)換為局部密集的帶權(quán)超圖；
[0011] 通過劃分算法逐次將所述帶權(quán)超圖均衡劃分為帶權(quán)超圖子圖；
[0012] 將所述帶權(quán)超圖子圖還原為原始圖對應(yīng)的數(shù)據(jù)。
[0013] 進一步地，上述方法還具有下面特點：所述通過并行的標(biāo)簽傳遞算法將原始圖數(shù) 據(jù)轉(zhuǎn)換為局部密集的帶權(quán)超圖，包括：
[0014] 通過并行的標(biāo)簽傳遞算法將原始圖數(shù)據(jù)中具有同樣標(biāo)簽的頂點聚合成一個超點，所述超點的權(quán)值為該超點所包含的頂點個數(shù)；
[0015] 所述超點之間的連邊為超邊，所述超邊的權(quán)值由原始圖中的邊決定；
[0016] 由所述超點和所述超邊構(gòu)所述帶權(quán)超圖。
[0017] 進一步地，上述方法還具有下面特點：所述超邊的權(quán)值由原始圖中的邊決定，包括：
[0018] 如原始圖中的邊的兩個端點在所述帶權(quán)超圖中屬于不同的超點，則該兩個超點之間存在一條超邊，該超邊的權(quán)值增加1 ;
[0019] 如原始圖中的邊的兩個端點在所述帶權(quán)超圖中屬于同一下超點，則不產(chǎn)生超邊。
[0020] 進一步地,上述方法還具有下面特點：
[0021] 所述通過劃分算法逐次將所述帶權(quán)超圖均衡劃分為帶權(quán)超圖子圖，包括：
[0022] 以所述帶權(quán)超圖中的超點為起點依次計算最小化局部切分率值，
[0023] 根據(jù)所述最小化局部切分率值將所述帶權(quán)超圖劃分為指定塊數(shù)的帶權(quán)超圖子圖。
[0024] 為了解決上述問題，本發(fā)明還提供了一種圖數(shù)據(jù)分割的裝置，其中，包括：
[0025] 轉(zhuǎn)換模塊，用于通過并行的標(biāo)簽傳遞算法將原始圖數(shù)據(jù)轉(zhuǎn)換為局部密集的帶權(quán)超圖；
[0026] 劃分模塊，用于通過劃分算法逐次將所述帶權(quán)超圖均衡劃分為帶權(quán)超圖子圖；
[0027] 還原模塊，用于將所述帶權(quán)超圖子圖還原為原始圖對應(yīng)的數(shù)據(jù)。
[0028] 進一步地，上述裝置還具有下面特點：
[0029] 所述轉(zhuǎn)換模塊，具體用于通過并行的標(biāo)簽傳遞算法將原始圖數(shù)據(jù)中具有同樣標(biāo)簽的頂點聚合成一個超點，所述超點的權(quán)值為該超點所包含的頂點個數(shù)；所述超點之間的連邊為超邊，由原始圖中的邊決定所述超邊的權(quán)值；由所述超點和所述超邊構(gòu)所述帶權(quán)超圖。
[0030] 進一步地，上述裝置還具有下面特點：
[0031] 所述轉(zhuǎn)換模塊，由原始圖中的邊決定所述超邊的權(quán)值包括：如原始圖中的邊的兩個端點在所述帶權(quán)超圖中屬于不同的超點，則該兩個超點之間存在一條超邊，該超邊的權(quán) 值增加1 ;如原始圖中的邊的兩個端點在所述帶權(quán)超圖中屬于同一下超點，則不產(chǎn)生超邊。
[0032] 進一步地，上述裝置還具有下面特點：
[0033] 所述劃分模塊，具體用于以所述帶權(quán)超圖中的超點為起點依次計算最小化局部切分率值，根據(jù)所述最小化局部切分率值將所述帶權(quán)超圖劃分為指定塊數(shù)的帶權(quán)超圖子圖。 [0034] 綜上，本發(fā)明提供一種圖數(shù)據(jù)分割的方法及裝置，可以分割速度更快，處理數(shù)據(jù)規(guī) 模更大，分割后的數(shù)據(jù)塊之間耦合度較小，有效降低使用BSP模型的并行計算平臺中個工作頂點之間的數(shù)據(jù)通信，提高了處理效率。
【附圖說明】
[0035] 圖1為本發(fā)明實施例的一種圖數(shù)據(jù)分割的方法的流程圖；
[0036] 圖2為本發(fā)明實施例的并行的標(biāo)簽傳遞算法的流程圖；
[0037] 圖3為本發(fā)明實施例的一種圖數(shù)據(jù)分割的裝置的示意圖；
[0038] 圖4為本發(fā)明實施例1的數(shù)據(jù)原始圖；
[0039] 圖5為本發(fā)明實施例1的標(biāo)簽傳遞后的效果圖；
[0040] 圖6為本發(fā)明實施例1的帶權(quán)超圖；
[0041] 圖7為本發(fā)明實施例2的數(shù)據(jù)原始圖；
[0042] 圖8為本發(fā)明實施例2的標(biāo)簽傳遞后的效果圖；
[0043] 圖9為本發(fā)明實施例2的帶權(quán)超圖；
[0044] 圖10為本發(fā)明實施例3的數(shù)據(jù)原始圖；
[0045] 圖11為本發(fā)明實施例3的標(biāo)簽傳遞后的效果圖；
[0046] 圖12為本發(fā)明實施例3的帶權(quán)超圖。
【具體實施方式】
[0047] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白，下文中將結(jié)合附圖對本發(fā)明的實施例進行詳細(xì)說明。需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互任意組合。
[0048] 在實際應(yīng)用中，圖并不是隨機的，局部密集子圖在很多網(wǎng)絡(luò)中都廣泛存在，這些子圖內(nèi)部的頂點彼此緊密連接，而與外部頂點具有較少的連接。本實施例的分割方法認(rèn)為這樣的密集子圖不應(yīng)當(dāng)被切分為兩個或多個分塊之間，而是被當(dāng)作是一個獨立不可分的"原子"，這樣對圖劃分就轉(zhuǎn)變成對這些不可分割的"原子"的劃分。
[0049] 本實施例提供的是一種采用自底向上的分割方法。該方法分為兩個階段，聚集階段和分割階段。在聚集階段，通過一個分布式標(biāo)簽傳播算法將局部密集的子圖聚合到一塊。這些局部密集的子圖形成最基本的分割單元，這里稱作超點（Super Vertex),超點進一步組成一個超圖（Super Graph)。在分割階段，通過一個貪心的逐次圖分割算法對聚集階段產(chǎn) 生的超圖進行劃分。每一次從超圖中抽取一個和其余子圖邊割最小的集合，這樣逐次取得這個超圖的劃分，最后將超點還原為原始的局部密集的子圖，完成圖的分割。
[0050] 本實施例中的符號定義如下：
[0051] 使用G= (V，E)表示一個圖，其中V表示圖中點的集合，l_7 X F是邊的集合。圖的鄰接矩陣為對=J > 〇表示頂點Vi和Vj相連,權(quán)重為ωΜ，當(dāng)圖G是無權(quán)圖時，如果點Vi與Vj相鄰，= 1，否則coy = 〇。N(S)表示頂點S的鄰域，iV(s) =，ε: 3玀 s Sf S, ε、e I β
[0052] 對于任意頂點集合R S [它的補集VW1表示為E15對于任意兩個集合A和B，定義：
[0053]
[0054] 集合V1的割集為ITi = fe# e ，割集C1的邊割為獄(? s P = V1, v2,…，vk為圖G的k-路劃分，當(dāng)且僅當(dāng)：⑴J1V1 = V和⑵、Vi, j: i吝j - Vi n Vr=良構(gòu)建圖的劃分的最直接方式是解最小邊割問題：選擇一個劃分P = V1, V2. ..，Vk，使以下式
子最小
[0055] ￡ = S
[0056] 但是最小邊割問題的解通常不能產(chǎn)生圖的一個均衡劃分，將均衡劃分的目標(biāo)函數(shù) 定義如丁
[0057]
[0058] 刈t±U /jTT亦，半頭加 IW tf」一竹團規(guī):KT刀、刮的刀達迅灑以Γ步驟：
[0059] S1、通過并行的標(biāo)簽傳遞算法將原始圖數(shù)據(jù)轉(zhuǎn)換為局部密集的帶權(quán)超圖；
[0060] 并行標(biāo)簽傳播方法中，頂點只需要向其鄰接頂點發(fā)送標(biāo)簽信息，而不需要獲取其他的頂點信息。該算法線性復(fù)雜，適合并行計算，如圖2所示，具體步驟如下：
[0061] 步驟11、初始化圖

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅圣美;曲文武;劉麗霞;
技術(shù)所有人：中興通訊股份有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

圖像分割數(shù)據(jù)集相關(guān)技術(shù)

圖像分割數(shù)據(jù)集制作相關(guān)技術(shù)

圖像分割數(shù)據(jù)庫相關(guān)技術(shù)

圖像語義分割數(shù)據(jù)集相關(guān)技術(shù)

醫(yī)學(xué)圖像分割數(shù)據(jù)庫相關(guān)技術(shù)

醫(yī)學(xué)圖像分割數(shù)據(jù)集相關(guān)技術(shù)

數(shù)據(jù)采集裝置相關(guān)技術(shù)

設(shè)備數(shù)據(jù)接口裝置相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種圖數(shù)據(jù)分割的方法及裝置的制造方法