一種基于社交軟件的數(shù)據(jù)獲取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種基于社交軟件的數(shù)據(jù)獲取方法及
目.ο
【背景技術(shù)】
[0002]隨著計算機網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,用戶在計算機網(wǎng)絡(luò)上產(chǎn)生的數(shù)據(jù)量也越來越大。其中,通過獲取較多用戶在計算機網(wǎng)絡(luò)上產(chǎn)生的數(shù)據(jù)量,可以分析得到用戶的關(guān)注信息,從而可以根據(jù)用戶的關(guān)注信息為未來的網(wǎng)絡(luò)發(fā)展做好準(zhǔn)備。
[0003]現(xiàn)有的數(shù)據(jù)獲取方法是通過網(wǎng)絡(luò)爬蟲來抓取用戶所訪問的網(wǎng)頁數(shù)據(jù)。由于在獲取網(wǎng)頁數(shù)據(jù)量時所針對的目標(biāo)用戶越多,對網(wǎng)頁數(shù)據(jù)的分析結(jié)果就越準(zhǔn)確,因此,如何獲取更多的目標(biāo)用戶的網(wǎng)頁數(shù)據(jù),以提高網(wǎng)頁數(shù)據(jù)分析結(jié)果的準(zhǔn)確率,成為當(dāng)前急需解決的問題。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明提供一種基于社交軟件的數(shù)據(jù)獲取方法及裝置,以獲取更多的目標(biāo)用戶的網(wǎng)頁數(shù)據(jù)。
[0005]本發(fā)明提供了一種基于社交軟件的數(shù)據(jù)獲取方法,包括:
[0006]S1:在目標(biāo)社交軟件中選擇至少一個注冊用戶,并將該至少一個注冊用戶分別對應(yīng)的用戶標(biāo)識添加到爬取隊列中;
[0007]S2:根據(jù)所述爬取隊列中的用戶標(biāo)識,逐個爬取每一個用戶標(biāo)識所對應(yīng)用戶的網(wǎng)頁數(shù)據(jù)和好友列表;
[0008]S3:將爬取到的好友列表中每一個用戶標(biāo)識添加到所述爬取隊列中,并返回執(zhí)行步驟S2,直到滿足設(shè)定條件時結(jié)束。
[0009]優(yōu)選地,進一步包括:
[0010]將爬取到每一個用戶標(biāo)識所對應(yīng)用戶的網(wǎng)頁數(shù)據(jù)存儲到數(shù)據(jù)庫中;
[0011]和/ 或,
[0012]將添加到所述爬取隊列中的每一個用戶標(biāo)識添加到數(shù)據(jù)庫中。
[0013]優(yōu)選地,所述將爬取到的好友列表中每一個用戶標(biāo)識添加到所述爬取隊列中,包括:
[0014]將爬取到的好友列表中的每一個用戶標(biāo)識逐個與添加到數(shù)據(jù)庫中的每一個用戶標(biāo)識進行比對,并將數(shù)據(jù)庫中未存儲的用戶標(biāo)識添加到所述爬取隊列中。
[0015]優(yōu)選地,
[0016]進一步包括:對添加到所述爬取隊列中的用戶標(biāo)識的空間度數(shù)進行標(biāo)記,其中,首次添加到所述爬取隊列中的用戶標(biāo)識所對應(yīng)的空間度數(shù)為1度,對于爬取到目標(biāo)用戶標(biāo)識的好友列表中的每一個用戶標(biāo)識的空間度數(shù)比該目標(biāo)用戶標(biāo)識的空間度數(shù)大1 ;
[0017]所述滿足設(shè)定條件包括:添加到所述爬取隊列中的用戶標(biāo)識所對應(yīng)的空間度數(shù)到達設(shè)定值。
[0018]優(yōu)選地,所述爬取每一個用戶標(biāo)識所對應(yīng)用戶的網(wǎng)頁數(shù)據(jù)和好友列表,包括:
[0019]將所述爬取隊列中的用戶標(biāo)識劃分為多個Map任務(wù),并將劃分的多個Map任務(wù)分配給至少兩臺處理器,所述至少兩臺服務(wù)器并行爬取為其分配的Map任務(wù),并在處理結(jié)束后,對每一臺服務(wù)器處理的數(shù)據(jù)進行Reduce合并。
[0020]本發(fā)明還提供了一種基于社交軟件的數(shù)據(jù)獲取裝置,包括:
[0021]選擇單元,用于在目標(biāo)社交軟件中選擇至少一個注冊用戶;
[0022]添加單元,用于將該至少一個注冊用戶分別對應(yīng)的用戶標(biāo)識添加到爬取隊列中;
[0023]爬取單元,用于根據(jù)所述爬取隊列中的用戶標(biāo)識,逐個爬取每一個用戶標(biāo)識所對應(yīng)用戶的網(wǎng)頁數(shù)據(jù)和好友列表;
[0024]所述添加單元,進一步用于將爬取到的好友列表中每一個用戶標(biāo)識添加到所述爬取隊列中,并觸發(fā)所述爬取單元執(zhí)行相應(yīng)操作,直到滿足設(shè)定條件時結(jié)束對所述爬取單元的觸發(fā)。
[0025]優(yōu)選地,進一步包括:
[0026]發(fā)送單元,用于將爬取到每一個用戶標(biāo)識所對應(yīng)用戶的網(wǎng)頁數(shù)據(jù)存儲到數(shù)據(jù)庫中;
[0027]和/ 或,
[0028]所述發(fā)送單元,用于將添加到所述爬取隊列中的每一個用戶標(biāo)識存儲到數(shù)據(jù)庫中。
[0029]優(yōu)選地,所述添加單元,具體用于將爬取到的好友列表中的每一個用戶標(biāo)識逐個與添加到數(shù)據(jù)庫中的每一個用戶標(biāo)識進行比對,并將數(shù)據(jù)庫中未存儲的用戶標(biāo)識添加到所述爬取隊列中。
[0030]優(yōu)選地,
[0031]進一步包括:標(biāo)記單元,用于對添加到所述爬取隊列中的用戶標(biāo)識的空間度數(shù)進行標(biāo)記,其中,首次添加到所述爬取隊列中的用戶標(biāo)識所對應(yīng)的空間度數(shù)為1度,對于爬取到目標(biāo)用戶標(biāo)識的好友列表中的每一個用戶標(biāo)識的空間度數(shù)比該目標(biāo)用戶標(biāo)識的空間度數(shù)大1 ;
[0032]所述滿足設(shè)定條件包括:添加到所述爬取隊列中的用戶標(biāo)識所對應(yīng)的空間度數(shù)到達設(shè)定值。
[0033]優(yōu)選地,所述爬取單元,具體用于將所述爬取隊列中的用戶標(biāo)識劃分為多個Map任務(wù),并將劃分的多個Map任務(wù)分配給至少兩臺處理器,所述至少兩臺服務(wù)器并行爬取為其分配的Map任務(wù),并在處理結(jié)束后,對每一臺服務(wù)器處理的數(shù)據(jù)進行Reduce合并。
[0034]本發(fā)明實施例提供了一種基于社交軟件的數(shù)據(jù)獲取方法及裝置,通過利用社交軟件中大量的注冊用戶,以及注冊用戶之間的好友關(guān)系,來爬取用戶的網(wǎng)頁數(shù)據(jù),由于社交軟件中注冊用戶的個數(shù)較大,因此,爬取到的網(wǎng)頁數(shù)據(jù)所對應(yīng)用戶的個數(shù)也越多,從而可以提高分析結(jié)果的準(zhǔn)確率。
【附圖說明】
[0035]圖1是本發(fā)明實施例提供的方法流程圖;
[0036]圖2是本發(fā)明另一實施例提供的方法流程圖;
[0037]圖3是本發(fā)明實施例提供的數(shù)據(jù)獲取裝置所在設(shè)備的硬件架構(gòu)圖;
[0038]圖4是本發(fā)明實施例提供的數(shù)據(jù)獲取裝置結(jié)構(gòu)示意圖;
[0039]圖5是本發(fā)明另一實施例提供的數(shù)據(jù)獲取裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0040]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述。顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0041]如圖1所示,本發(fā)明實施例提供了一種基于社交軟件的數(shù)據(jù)獲取方法,該方法可以包括以下步驟:
[0042]步驟101:在目標(biāo)社交軟件中選擇至少一個注冊用戶,并將該至少一個注冊用戶分別對應(yīng)的用戶標(biāo)識添加到爬取隊列中;
[0043]步驟102:根據(jù)所述爬取隊列中的用戶標(biāo)識,逐個爬取每一個用戶標(biāo)識所對應(yīng)用戶的網(wǎng)頁數(shù)據(jù)和好友列表;
[0044]步驟103:將爬取到的好友列表中每一個用戶標(biāo)識添加到所述爬取隊列中,并返回執(zhí)行步驟102,直到滿足設(shè)定條件時結(jié)束。
[0045]在本發(fā)明實施例中,通過利用社交軟件中大量的注冊用戶,以及注冊用戶之間的好友關(guān)系,來爬取用戶的網(wǎng)頁數(shù)據(jù),由于社交軟件中注冊用戶的個數(shù)較大,因此,爬取到的網(wǎng)頁數(shù)據(jù)所對應(yīng)用戶的個數(shù)也越多,從而可以提高分析結(jié)果的準(zhǔn)確率。
[0046]在本發(fā)明一個優(yōu)選實施例中,為了防止對同一個用戶的網(wǎng)頁數(shù)據(jù)的重復(fù)爬取,可以將爬取到的好友列表中的每一個用戶標(biāo)識逐個與添加到數(shù)據(jù)庫中的每一個用戶標(biāo)識進行比對,并將數(shù)據(jù)庫中未存儲的用戶標(biāo)識添加到爬取隊列中。從而可以降低后續(xù)過程中的計算量。
[0047]在本發(fā)明一個優(yōu)選實施例中,對于用戶的網(wǎng)頁數(shù)據(jù)的爬取并不是無止境的,根據(jù)六度分割理論,兩個陌生人之間所間隔的人不會超過六個,也就是說,最多通過五個中間人兩個陌生人之間就能夠認識,這就是六度分割理論,也叫小世界理論。因此,在對添加到爬取隊列中的用戶標(biāo)識的空間度數(shù)進行標(biāo)記,其中