亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種大規(guī)模分布式數(shù)據(jù)管理系統(tǒng)及其方法與流程

文檔序號:12132723閱讀:282來源:國知局
一種大規(guī)模分布式數(shù)據(jù)管理系統(tǒng)及其方法與流程

本發(fā)明涉及一種數(shù)據(jù)管理系統(tǒng),具體涉及大規(guī)模分布式數(shù)據(jù)管理系統(tǒng)及其方法。



背景技術:

隨著網(wǎng)絡技術的大力發(fā)展,通過互聯(lián)網(wǎng)獲取數(shù)據(jù)已成為當前人們獲取信息資源的重要途徑。采用網(wǎng)絡爬蟲獲取數(shù)據(jù)已成為主流的獲取手段,然而,由于多個爬蟲同時爬取數(shù)據(jù),并將爬取的數(shù)據(jù)發(fā)送到一個接口中,如此之大規(guī)模的數(shù)據(jù)量會占用相當大的網(wǎng)絡資源,而且由于爬蟲的身份沒有得到驗證,會導致不必要的網(wǎng)絡污染,這會浪費大量的網(wǎng)絡資源和使得數(shù)據(jù)傳送不安全。



技術實現(xiàn)要素:

針對上述技術問題,本發(fā)明提供一種能有效避免資源浪費和保證數(shù)據(jù)安全傳送的大規(guī)模分布式數(shù)據(jù)管理系統(tǒng)。

本發(fā)明采用的技術方案為:

本發(fā)明的一實施例提供一種大規(guī)模分布式數(shù)據(jù)管理系統(tǒng),包括爬蟲端、數(shù)據(jù)收集服務器、主控制器、分布式存儲服務器和業(yè)務端,所述爬蟲端和所述業(yè)務端分別與所述數(shù)據(jù)收集服務器進行數(shù)據(jù)交互,其中,所述爬蟲端根據(jù)所述主控制器的指令來抓取網(wǎng)頁數(shù)據(jù)并向數(shù)據(jù)收集服務器發(fā)送;所述數(shù)據(jù)收集服務器用于將爬蟲端發(fā)送的數(shù)據(jù)整合之后上傳至所述分布式存儲服務器,并根據(jù)所述業(yè)務端發(fā)送的請求指令將相對應的數(shù)據(jù)發(fā)送給所述業(yè)務端;所述主控制器用于管理所述爬蟲端、業(yè)務端認證以及數(shù)據(jù)收集服務器的負載均衡以及確定所述爬蟲端和所述業(yè)務端的身份合法性,根據(jù)預定的分配規(guī)則為所述爬蟲端分配相適配的數(shù)據(jù)收集服務器,當所述爬蟲端爬取的數(shù)據(jù)達到相適配的數(shù)據(jù)收集服務器的存儲預設值時,所述主控制器控制所述爬蟲端向其他未達存儲預設值的數(shù)據(jù)收集服務器發(fā)送所爬取的數(shù)據(jù)。

可選地,所述數(shù)據(jù)收集服務器設置有數(shù)據(jù)清洗模塊,其中,所述數(shù)據(jù)清理模塊用于對爬取的數(shù)據(jù)進行清理,使得經(jīng)清理后的數(shù)據(jù)形成標準的數(shù)據(jù)包;所述數(shù)據(jù)清理模塊包括:數(shù)據(jù)清洗單元,用于過濾或者修改不符合業(yè)務端要求的數(shù)據(jù);數(shù)據(jù)整理單元,用于根據(jù)業(yè)務端的需求對爬取的網(wǎng)頁數(shù)據(jù)進行重新整合,使得整合后的數(shù)據(jù)與業(yè)務端的需求之間具有更高的相關性。

可選地,所述主控制器在所述爬蟲端獲得其認證授權后,根據(jù)預定的分配規(guī)則為所述爬蟲端分配相適配的數(shù)據(jù)收集服務器;所述爬蟲端在獲得所述數(shù)據(jù)收集服務器的認證授權后,向相適配的數(shù)據(jù)收集服務器發(fā)送所爬取的數(shù)據(jù);以及所述數(shù)據(jù)收集服務器在所述業(yè)務端獲得認證授權后,向所述業(yè)務端發(fā)送響應請求指令的數(shù)據(jù)包。

可選地,當所述爬蟲端爬取的數(shù)據(jù)大小達到預設閾值時,所述主控制器控制所述爬蟲端向相適配的數(shù)據(jù)收集服務器傳送數(shù)據(jù);當所述爬蟲端爬取的數(shù)據(jù)大小未達到預設閾值時,所爬取的數(shù)據(jù)暫時存放在緩存器中。

可選地,所述預定的分配規(guī)則為負載均衡算法;所述不符合業(yè)務端要求的數(shù)據(jù)包括不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)和重復的數(shù)據(jù)。

可選地,所述根據(jù)業(yè)務端的需求對爬取的網(wǎng)頁數(shù)據(jù)進行重新整合包括:將數(shù)據(jù)進行分割以獲取指定行數(shù)的目標數(shù)據(jù)、滿足指定條件的目標數(shù)據(jù)和只包含指定列編號的目標數(shù)據(jù);將數(shù)據(jù)進行聚合以將兩個或多個數(shù)據(jù)表按指定條件關聯(lián)聚合成一張表;以及將數(shù)據(jù)進行格式轉換,以將包括時間的復雜類型從原始字符串格式轉換為目標字符串格式。

可選地,所述分布式存儲服務器包括用于存儲結構化數(shù)據(jù)的結構化數(shù)據(jù)存儲器和用于存儲非結構化數(shù)據(jù)的非結構化數(shù)據(jù)存儲器。

本發(fā)明的另一實施例提供一種大規(guī)模分布式數(shù)據(jù)管理方法,包括:

S100:多個爬蟲端基于主控制器的爬取指令爬取數(shù)據(jù);

S200:主控制器根據(jù)預定的分配規(guī)則為所述爬蟲端爬取的數(shù)據(jù)分配相適配的數(shù)據(jù)收集服務器,并在爬蟲端爬取的數(shù)據(jù)達到數(shù)據(jù)收集服務器的存儲預設值時,控制所述爬蟲端向其他未達存儲預設值的數(shù)據(jù)收集服務器發(fā)送所爬取的數(shù)據(jù);

S300:所述數(shù)據(jù)收集服務器對所接收的數(shù)據(jù)進行清理操作,使得經(jīng)清理后的數(shù)據(jù)形成標準的數(shù)據(jù)包,并根據(jù)業(yè)務端發(fā)送的請求指令將所述數(shù)據(jù)包發(fā)送給所述業(yè)務端。

可選地,步驟S200具體包括:

主控制器根據(jù)負載均衡算法為爬蟲端爬取的數(shù)據(jù)分配相適配的數(shù)據(jù)收集服務器,主控制器根據(jù)負載均衡算法為爬蟲端爬取的數(shù)據(jù)分配相適配的數(shù)據(jù)收集服務器,當所述爬蟲端爬取的數(shù)據(jù)大小未達到預設閾值時,主控制器將所爬取的數(shù)據(jù)暫時存放在緩存器中。

可選地,步驟S300中,對所接收的數(shù)據(jù)進行清理操作包括:過濾或者修改不符合業(yè)務端要求的數(shù)據(jù);根據(jù)業(yè)務端的需求對爬取的網(wǎng)頁數(shù)據(jù)進行重新整合,使得整合后的數(shù)據(jù)與業(yè)務端的需求之間具有更高的相關性。

可選地,在步驟S100中,所述主控制器在所述爬蟲端獲得其認證授權后,根據(jù)預定的分配規(guī)則為所述爬蟲端分配相適配的數(shù)據(jù)收集服務器;在步驟S200中,所述爬蟲端在獲得所述數(shù)據(jù)收集服務器的認證授權后,向相適配的數(shù)據(jù)收集服務器發(fā)送所爬取的數(shù)據(jù);以及在步驟S300中,所述數(shù)據(jù)收集服務器在所述業(yè)務端獲得認證授權后,向所述業(yè)務端發(fā)送響應請求指令的數(shù)據(jù)包。

可選地,所述根據(jù)業(yè)務端的需求對爬取的網(wǎng)頁數(shù)據(jù)進行重新整合包括:將數(shù)據(jù)進行分割以獲取指定行數(shù)的目標數(shù)據(jù)、滿足指定條件的目標數(shù)據(jù)和只包含指定列編號的目標數(shù)據(jù);將數(shù)據(jù)進行聚合以將兩個或多個數(shù)據(jù)表按指定條件關聯(lián)聚合成一張表;以及將數(shù)據(jù)進行格式轉換,以將包括時間的復雜類型從原始字符串格式轉換為目標字符串格式。

本發(fā)明提供的大規(guī)模分布式數(shù)據(jù)管理系統(tǒng),在對爬蟲端和業(yè)務端的身份進行驗證后才允許爬蟲端向數(shù)據(jù)收集服務器發(fā)送數(shù)據(jù),以及允許數(shù)據(jù)收集服務器向業(yè)務端發(fā)送數(shù)據(jù),如此保證了數(shù)據(jù)傳送的安全性,進而保證整個系統(tǒng)數(shù)據(jù)的輸入輸出都是有效的。并且,只有在爬蟲端爬取的數(shù)據(jù)內存達到一定值后才存入數(shù)據(jù)收集服務器中,從而減少了系統(tǒng)的負擔。此外,設置多個數(shù)據(jù)收集服務器,為爬蟲端分配相適配的數(shù)據(jù)接收端口,保證系統(tǒng)的負載均衡,既解決了單點故障問題,又提高了吞吐量。

附圖說明

圖1為本發(fā)明實施例提供的大規(guī)模分布式數(shù)據(jù)管理系統(tǒng)的結構示意圖。

圖2為本發(fā)明實施例提供的大規(guī)模分布式數(shù)據(jù)管理方法的流程示意圖。

具體實施方式

以下結合附圖對本發(fā)明的大規(guī)模分布式數(shù)據(jù)管理系統(tǒng)的具體實施方式進行介紹。

【實施例1】大規(guī)模分布式數(shù)據(jù)管理系統(tǒng)

圖1為本發(fā)明實施例提供的大規(guī)模分布式數(shù)據(jù)管理系統(tǒng)的結構示意圖。如圖1所示,本發(fā)明的實施例提供的一種大規(guī)模分布式數(shù)據(jù)管理系統(tǒng),包括多個爬蟲端1、緩存器2、多個數(shù)據(jù)收集服務器3、分布式存儲服務器4、主控制器5和業(yè)務端6。所述爬蟲端1和所述業(yè)務端6分別與所述數(shù)據(jù)收集服務器3進行數(shù)據(jù)交互。

其中,所有爬蟲端1均受所述主控制器5的控制,在主控制器5的控制下保持同步,并根據(jù)所述主控制器5的指令來抓取網(wǎng)頁數(shù)據(jù)并向數(shù)據(jù)收集服務器3發(fā)送。具體地,爬蟲端1的數(shù)目可根據(jù)具體實際情況來設置,例如,根據(jù)需要可設置約400個爬蟲端來分別向400個網(wǎng)站爬取數(shù)據(jù),每個爬蟲端以公用的Redis內存數(shù)據(jù)庫作為統(tǒng)一的URL調度器,以插件式的形式安裝在爬蟲端上;或者采用實現(xiàn)分布式的部署,直接將相應的程序jar包部署在每臺機器上,啟動運行即可。每個爬蟲端的具體URL調度將會由Redis服務器進行集中式的管理,保證數(shù)據(jù)不重復爬取。這樣的實現(xiàn)能夠保證每個爬蟲之間耦合度低,不相互依賴,部署簡單,爬取速度快。主控制器5可實時控制爬蟲端1的運行狀態(tài)和監(jiān)控爬蟲端1的運行狀況,做到實時監(jiān)測實時報警處理,全方位控制爬蟲,滿足各方面業(yè)務需求。

所述數(shù)據(jù)收集服務器3用于將爬蟲端1發(fā)送的數(shù)據(jù)整合之后周期性地上傳至所述分布式存儲服務器4,供有離線數(shù)據(jù)需求的業(yè)務使用,并根據(jù)所述業(yè)務端6發(fā)送的請求指令將相對應的數(shù)據(jù)發(fā)送給所述業(yè)務端6。數(shù)據(jù)收集服務器3可根據(jù)需要設置多個,既能夠解決采用單一數(shù)據(jù)接口而導致的單點故障問題,又提高了數(shù)據(jù)吞吐量。分布式存儲服務器4可包括用于存儲結構化數(shù)據(jù)的結構化數(shù)據(jù)存儲器和用于存儲非結構化數(shù)據(jù)的非結構化數(shù)據(jù)存儲器。對于結構化數(shù)據(jù),包括傳統(tǒng)的關系數(shù)據(jù)模型、行數(shù)據(jù),存儲于數(shù)據(jù)庫,可用二維表結構表示的數(shù)據(jù)等可采用Hbase進行存儲,對于非結構化數(shù)據(jù),包括辦公文檔、文本、圖片、各類報表、圖像和音頻、視頻信息等沒有固定結構的數(shù)據(jù)等可采用HDFS進行存儲。HDFS是Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System)的縮寫,為分布式計算存儲提供了底層支持。HDFS提供了相當好的擴展性和容錯能力,并且建設成本低廉,使用HDFS彈性存儲可以實現(xiàn)自動控制,靈活地進行存儲空間的釋放和分配,以適應快速變化的需求。

所述主控制器5用于管理所述爬蟲端、業(yè)務端認證以及數(shù)據(jù)收集服務器的負載均衡以及確定所述爬蟲端1和所述業(yè)務端6的身份合法性,根據(jù)預定的分配規(guī)則為所述爬蟲端分布相適配的數(shù)據(jù)收集服務器,當所述爬蟲端1爬取的網(wǎng)頁數(shù)據(jù)大小達到預設值時,所述主控制器5控制所述爬蟲端向相適配的數(shù)據(jù)收集服務器3發(fā)送所爬取的網(wǎng)頁數(shù)據(jù),爬蟲端爬取的小于預設值的網(wǎng)頁數(shù)據(jù)暫時存放在緩存器(未圖示)中,并在爬蟲端爬取的數(shù)據(jù)達到數(shù)據(jù)收集服務器存儲預設值時,主控制器控制爬蟲端向其他未達存儲預設值的數(shù)據(jù)收集服務器發(fā)送所爬取的數(shù)據(jù),以確保負載均衡。爬蟲端1爬取的數(shù)據(jù)以單條(或單個網(wǎng)頁)論都是零碎繁多的小段數(shù)據(jù),如果每產(chǎn)生一點數(shù)據(jù)就進行傳送,必然效率低下,因此,為減輕系統(tǒng)負擔,只有當爬蟲數(shù)據(jù)達到預設值,例如64MB時才進行傳送,小于預設值的網(wǎng)頁數(shù)據(jù)暫時存放在緩存器中。此外,爬蟲端1發(fā)送數(shù)據(jù)和業(yè)務端6拉取數(shù)據(jù)都需要通過身份驗證之后才能進行,以保證數(shù)據(jù)傳送安全性,具體地,所述主控制器在所述爬蟲端獲得其認證授權后,根據(jù)預定的分配規(guī)則為所述爬蟲端分布相適配的數(shù)據(jù)收集服務器;所述爬蟲端在獲得所述數(shù)據(jù)收集服務器的認證授權后,向相適配的數(shù)據(jù)收集服務器發(fā)送所爬取的網(wǎng)頁數(shù)據(jù);以及所述數(shù)據(jù)收集服務器在所述業(yè)務端獲得其認證授權后,向所述業(yè)務端發(fā)送響應請求指令的數(shù)據(jù)。如此,能夠確保數(shù)據(jù)傳送的安全性和合法性。

關于爬蟲端向數(shù)據(jù)收集服務器發(fā)送數(shù)據(jù)以及數(shù)據(jù)收集服務器向業(yè)務端發(fā)送數(shù)據(jù)的主要操作包括以下內容:

(1)認證及數(shù)據(jù)的傳輸。爬蟲端必須先向數(shù)據(jù)收集服務器發(fā)送認證信息,經(jīng)數(shù)據(jù)收集服務器驗證合法后才能開始向數(shù)據(jù)收集服務器傳輸數(shù)據(jù)。

(2)爬蟲端的注冊。爬蟲端必須向主控制器進行注冊,由主控制器根據(jù)預定的分配原則為該爬蟲端分配合適的數(shù)據(jù)收集服務器。預定的分配原則可采用經(jīng)典負載均衡算法中的Least-Busy,將新增設的爬蟲端分配給負載最小的數(shù)據(jù)收集服務器,以保證系統(tǒng)的負載均衡。

(3)業(yè)務端的注冊及分發(fā)。通過業(yè)務端的注冊,為系統(tǒng)的業(yè)務狀態(tài)的獲取和數(shù)據(jù)收集服務器負載計算提供必要信息。

(4)數(shù)據(jù)收集服務器向業(yè)務端的數(shù)據(jù)發(fā)送。業(yè)務端先向數(shù)據(jù)收集服務器發(fā)起認證請求,數(shù)據(jù)收集服務器確認業(yè)務端身份合法后,向其發(fā)起數(shù)據(jù)連接并發(fā)送相對應的數(shù)據(jù)。

(5)每個數(shù)據(jù)收集服務器向主控制器發(fā)送“心跳”,主要是自身負載情況,這是主控制器負載決策的主要信息提供者;此外,數(shù)據(jù)收集服務器必須向主控制器確認爬蟲端或者業(yè)務端的認證是否合法,如果不合法,則拒絕接收或發(fā)送數(shù)據(jù)。

由于爬蟲爬取的數(shù)據(jù)往往有許多存在信息不全、有臟數(shù)據(jù)、數(shù)據(jù)冗余等問題,直接使用將會影響分析結果的可信度和準確性,故而通常還需要經(jīng)過一步數(shù)據(jù)清洗;另一方面,由于數(shù)據(jù)使用者的業(yè)務方向與數(shù)據(jù)來源不可能百分百的完全契合,就會導致圍繞業(yè)務開發(fā)的算法分析如果直接應用在來源數(shù)據(jù)上效果模糊,或無效運算量過大導致效率偏低,因此,需要針對業(yè)務需求進行數(shù)據(jù)整理。為此,可選地,所述數(shù)據(jù)收集服務器3設置有數(shù)據(jù)清洗模塊,其中,所述數(shù)據(jù)清理模塊用于對爬取的網(wǎng)頁數(shù)據(jù)進行清理,包括:數(shù)據(jù)清單元,用于過濾或者修改不符合業(yè)務端要求的數(shù)據(jù);數(shù)據(jù)整理單元,用于根據(jù)業(yè)務端的需求對爬取的網(wǎng)頁數(shù)據(jù)進行重新整合,使得整合后的數(shù)據(jù)與業(yè)務端的需求之間具有更高的相關性。

其中,不符合業(yè)務端要求的數(shù)據(jù)主要包括不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)和重復的數(shù)據(jù),不完整數(shù)據(jù)的特征是一些應該有的信息缺失,如機構名稱、分公司的名稱、區(qū)域信息缺失等。錯誤數(shù)據(jù)產(chǎn)生的原因是業(yè)務系統(tǒng)不夠健全,在接收輸入后沒有進行判斷而直接寫入后臺數(shù)據(jù)庫造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)后有一個回車、日期格式不正確、日期越界等。錯誤值包括輸入錯誤和錯誤數(shù)據(jù),輸入錯誤是由原始數(shù)據(jù)錄入人員疏忽而造成的,而錯誤數(shù)據(jù)大多是由一些客觀原因引起的,例如人員填寫的所屬單位的不同和人員的升遷等。針對不完整數(shù)據(jù)可提供多種策略進行靈活處理,用戶可以自行配置清理策略的細節(jié),主要包括數(shù)據(jù)補全和過分殘缺數(shù)據(jù)的剔除,其中數(shù)據(jù)補全主要通過對字段的缺省值配置策略實現(xiàn),包含的策略主要有:字段均值補全(對數(shù)值型字段以該字段的總體均值對缺失數(shù)據(jù)進行補全)、半監(jiān)督學習補全(通過對數(shù)據(jù)總體以及殘缺數(shù)據(jù)其它字段的分析,運用機器學習算法對缺失字段進行猜測性補全,系統(tǒng)內置的補全算法為Cart分類回歸樹算法。異常數(shù)據(jù)是指所有記錄中如果一個或幾個字段間絕大部分遵循某種模式,其它不遵循該模式的記錄,如年齡字段超過歷史上的最高記錄年齡等。此類數(shù)據(jù)大多可以通過數(shù)據(jù)分析的方法檢測出來,系統(tǒng)內置的異常數(shù)據(jù)檢測算法為基于密度的DBSCAN聚類算法,通過聚類分析確定各點周圍的密度空間,密度過稀的點即為異常點。

根據(jù)業(yè)務端的需求對爬取的網(wǎng)頁數(shù)據(jù)進行重新整合包括:將數(shù)據(jù)進行分割以獲取指定行數(shù)的目標數(shù)據(jù)、滿足滿足指定條件的目標數(shù)據(jù)和只包含指定列編號的目標數(shù)據(jù);將數(shù)據(jù)進行聚合以將兩個或多個數(shù)據(jù)表按指定條件關聯(lián)聚合成一張表;以及將數(shù)據(jù)進行格式轉換,包括基本類型轉換,用以以將時間等復雜類型從原始字符串格式轉換為目標字符串格式,以及元組和列表互轉,多對應關系數(shù)據(jù)大體存在元組和列表兩種格式,改變格式可適應不同算法需求。數(shù)據(jù)整理單元根據(jù)業(yè)務需求對現(xiàn)有數(shù)據(jù)進行重新整合,使整合后的數(shù)據(jù)與目標業(yè)務相關性更高,進而減少無用IO或運算,提高算法效率。

【實施例2】大規(guī)模分布式數(shù)據(jù)管理方法

圖2為本發(fā)明實施例提供的大規(guī)模分布式數(shù)據(jù)管理方法的流程示意圖。如圖2所示,本實施例提供的大規(guī)模分布式數(shù)據(jù)管理方法包括以下步驟:

S100:多個爬蟲端基于主控制器的爬取指令爬取數(shù)據(jù)。

具體地,所有爬蟲端均受所述主控制器的控制,在主控制器的控制下保持同步,并根據(jù)所述主控制器的指令來抓取網(wǎng)頁數(shù)據(jù)并向數(shù)據(jù)收集服務器發(fā)送。

S200:主控制器根據(jù)預定的分配規(guī)則為所述爬蟲端爬取的數(shù)據(jù)分配相適配的數(shù)據(jù)收集服務器,并在爬蟲端爬取的數(shù)據(jù)達到數(shù)據(jù)收集服務器的存儲預設值時,控制所述爬蟲端向其他未達存儲預設值的數(shù)據(jù)收集服務器發(fā)送所爬取的數(shù)據(jù)。

具體地,主控制器可根據(jù)負載均衡算法為爬蟲端爬取的數(shù)據(jù)分配相適配的數(shù)據(jù)收集服務器;當所述爬蟲端爬取的數(shù)據(jù)大小達到預設閾值時,所述主控制器控制所述爬蟲端向相適配的數(shù)據(jù)收集服務器傳送數(shù)據(jù),并在爬蟲端爬取的數(shù)據(jù)達到數(shù)據(jù)收集服務器的存儲預設值時,控制所述爬蟲端向其他未達存儲預設值的數(shù)據(jù)收集服務器發(fā)送所爬取的數(shù)據(jù)。

S300:所述數(shù)據(jù)收集服務器對所接收的數(shù)據(jù)進行清理操作,并將清理后的數(shù)據(jù)形成標準的數(shù)據(jù)包,并將所述數(shù)據(jù)包根據(jù)業(yè)務端發(fā)送的請求指令發(fā)送給所述業(yè)務端。

在步驟S300中,對所接收的數(shù)據(jù)進行清理操作包括:過濾或者修改不符合業(yè)務端要求的數(shù)據(jù);根據(jù)業(yè)務端的需求對爬取的網(wǎng)頁數(shù)據(jù)進行重新整合,使得整合后的數(shù)據(jù)與業(yè)務端的需求之間具有更高的相關性,具體包括:將數(shù)據(jù)進行分割以獲取指定行數(shù)的目標數(shù)據(jù)、滿足指定條件的目標數(shù)據(jù)和只包含指定列編號的目標數(shù)據(jù);將數(shù)據(jù)進行聚合以將兩個或多個數(shù)據(jù)表按指定條件關聯(lián)聚合成一張表;以及將數(shù)據(jù)進行格式轉換,以將時間等復雜類型從原始字符串格式轉換為目標字符串格式。此外,數(shù)據(jù)收集服務器在處理后的數(shù)據(jù)上傳至分布式存儲服務器進行存儲,分布式存儲服務器可包括用于存儲結構化數(shù)據(jù)的結構化數(shù)據(jù)存儲器和用于存儲非結構化數(shù)據(jù)的非結構化數(shù)據(jù)存儲器。

此外,在步驟S100中,所述主控制器在所述爬蟲端獲得其認證授權后,根據(jù)預定的分配規(guī)則為所述爬蟲端分配相適配的數(shù)據(jù)收集服務器;在步驟S200中,所述爬蟲端在獲得所述數(shù)據(jù)收集服務器的認證授權后,向相適配的數(shù)據(jù)收集服務器發(fā)送所爬取的數(shù)據(jù);以及在步驟S300中,所述數(shù)據(jù)收集服務器在所述業(yè)務端獲得認證授權后,向所述業(yè)務端發(fā)送響應請求指令的數(shù)據(jù)包。具體的授權操作和數(shù)據(jù)傳送操作與前述實施例1相同,在此,為避免贅述,省略對它們的詳細介紹。

此外,在本實施例中,沒有描述的所涉及的各部件的結構和功能等均與前述實施例1所描述的相同,在此避免贅述,省略對它們的詳細介紹。

本領域內的技術人員應明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1