一種網(wǎng)絡(luò)資訊的采集和分析方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種網(wǎng)絡(luò)資訊的采集方法及系統(tǒng),所述方法包括以下步驟:S1:為預(yù)設(shè)的抓取節(jié)點(diǎn)分配抓取任務(wù),所述抓取任務(wù)至少對應(yīng)于一個(gè)目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)地址;S2:接收所述抓取節(jié)點(diǎn)發(fā)送的所抓取到的數(shù)據(jù)信息,并根據(jù)所述數(shù)據(jù)信息提取出目標(biāo)數(shù)據(jù)并將所述目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫中,所述目標(biāo)數(shù)據(jù)包括:關(guān)于所述數(shù)據(jù)信息的標(biāo)題、來源、發(fā)布時(shí)間和正文內(nèi)容;S3:判斷當(dāng)前的所述目標(biāo)數(shù)據(jù)與所述目標(biāo)數(shù)據(jù)庫中的其他目標(biāo)數(shù)據(jù)的重復(fù)度。本發(fā)明采取智能的技術(shù)方式采集資訊,極大的突破了人工資訊采集處理的瓶頸,還有程序自動(dòng)建立資訊關(guān)鍵信息索引,為資訊大數(shù)據(jù)應(yīng)用建立堅(jiān)實(shí)基礎(chǔ)。
【專利說明】
一種網(wǎng)絡(luò)資訊的采集和分析方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)爬蟲技術(shù)領(lǐng)域,特別是涉及一種基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)資訊的采集與分析方法及系統(tǒng)。
【背景技術(shù)】
[0002]現(xiàn)有公眾獲取財(cái)經(jīng)資訊的方式已從報(bào)紙、廣播、電視等方式逐漸轉(zhuǎn)變?yōu)橐曰ヂ?lián)網(wǎng)為主流方式。而網(wǎng)絡(luò)資訊透過互聯(lián)網(wǎng)的傳播,通過不同來源使得其產(chǎn)生持續(xù)性的影響力和傳播力。
[0003]目前大部分的網(wǎng)絡(luò)資訊處理都透過人工方式維護(hù)與管理,通過人工方式維護(hù)與管理對于網(wǎng)絡(luò)資訊的及時(shí)性以及網(wǎng)絡(luò)資訊的利用等都會(huì)有諸多的不足。因此,利用人工方式對財(cái)經(jīng)資訊的收集和整理,消耗大量時(shí)間和經(jīng)歷并且效果達(dá)不到預(yù)期的理想。
[0004]在新的互聯(lián)網(wǎng)形勢下面對這些困擾,需要借助互聯(lián)網(wǎng)的技術(shù)手段和方式,快速開展網(wǎng)絡(luò)資訊的傳播時(shí)間和廣度檢測,來提高互聯(lián)網(wǎng)上資訊的情報(bào)指導(dǎo)和內(nèi)容挖掘的能力。
【發(fā)明內(nèi)容】
[0005]本發(fā)明所要解決的問題是提供一種能夠?yàn)榫W(wǎng)絡(luò)資訊的深度挖掘應(yīng)用提供數(shù)據(jù)邏輯支持的網(wǎng)絡(luò)資訊的采集和分析方法及系統(tǒng)。
[0006]為了解決上述技術(shù)問題,本發(fā)明提供了如下的技術(shù)方案:
[0007]—種網(wǎng)絡(luò)資訊的采集和分析方法,包括以下步驟:
[0008]S1:為預(yù)設(shè)的抓取節(jié)點(diǎn)分配抓取任務(wù),所述抓取任務(wù)至少對應(yīng)于一個(gè)目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)地址;
[0009]S2:接收所述抓取節(jié)點(diǎn)發(fā)送的所抓取到的數(shù)據(jù)信息,并根據(jù)所述數(shù)據(jù)信息提取出目標(biāo)數(shù)據(jù)并將所述目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫中,所述目標(biāo)數(shù)據(jù)包括:關(guān)于所述數(shù)據(jù)信息的標(biāo)題、來源、發(fā)布時(shí)間和正文內(nèi)容;
[0010]S3:判斷當(dāng)前的所述目標(biāo)數(shù)據(jù)與所述目標(biāo)數(shù)據(jù)庫中的其他目標(biāo)數(shù)據(jù)的重復(fù)度。
[0011]作為優(yōu)選,所述步驟SI進(jìn)一步配置為,根據(jù)分布在各抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲的狀態(tài),分配所述抓取任務(wù)。
[0012]作為優(yōu)選,所述步驟SI進(jìn)一步包括:
[0013]S10:確定各所述抓取節(jié)點(diǎn)所對應(yīng)的目標(biāo)網(wǎng)站的種子數(shù)量;
[0014]Sll:確定所述抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲所完成的抓取的種子數(shù)量和未完成抓取的種子數(shù)量;
[0015]S12:對所述抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲所完成的種子數(shù)量從高到低進(jìn)行排序;
[0016]S13:將未完成抓取任務(wù)的種子分別按照S12中的順序分配給各所述抓取節(jié)點(diǎn)。
[0017]作為優(yōu)選,步驟S3進(jìn)一步包括:
[0018]S30:對所述目標(biāo)數(shù)據(jù)建立索引,并將所述索引存入索引數(shù)據(jù)庫中;
[0019]S31:比較所述索引數(shù)據(jù)庫中各索引所對應(yīng)的目標(biāo)數(shù)據(jù),判斷各所述目標(biāo)數(shù)據(jù)的重復(fù)度,并將所述重復(fù)度對應(yīng)的寫入所述目標(biāo)數(shù)據(jù)庫中。
[0020]作為優(yōu)選,根據(jù)所述目標(biāo)數(shù)據(jù)的重復(fù)度,建立各存在重復(fù)數(shù)據(jù)的目標(biāo)數(shù)據(jù)與時(shí)間的對應(yīng)關(guān)系。
[0021 ]作為優(yōu)選,所述索引包括所述目標(biāo)數(shù)據(jù)中的關(guān)鍵字和關(guān)鍵詞。
[0022]作為優(yōu)選,所述目標(biāo)數(shù)據(jù)庫中相關(guān)聯(lián)的包括所述索引數(shù)據(jù)庫中的索引信息。
[0023]作為優(yōu)選,所述目標(biāo)網(wǎng)絡(luò)為財(cái)經(jīng)資訊的相關(guān)網(wǎng)絡(luò)。
[0024]本發(fā)明還提供了一種網(wǎng)絡(luò)資訊的采集和分析系統(tǒng),其應(yīng)用如上所述的網(wǎng)絡(luò)資訊的采集和分析方法,且所述系統(tǒng)包括:
[0025]任務(wù)分配模塊,其為預(yù)設(shè)的抓取節(jié)點(diǎn)分配抓取任務(wù),所述抓取任務(wù)至少對應(yīng)于一個(gè)目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)地址;
[0026]抓取模塊,其接收并執(zhí)行所述抓取任務(wù);
[0027]提取模塊,其接收所述抓取模塊中的各抓取節(jié)點(diǎn)所抓取到的數(shù)據(jù)信息,并根據(jù)所述數(shù)據(jù)信息提取出目標(biāo)數(shù)據(jù),并將所述目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫中,所述目標(biāo)數(shù)據(jù)包括:關(guān)于所述數(shù)據(jù)信息的標(biāo)題、來源、發(fā)布時(shí)間和正文內(nèi)容;
[0028]分析模塊,其根據(jù)所述提取模塊提取的數(shù)據(jù)信息判斷當(dāng)前的所述目標(biāo)數(shù)據(jù)與所述目標(biāo)數(shù)據(jù)庫中的其他目標(biāo)數(shù)據(jù)的重復(fù)度。
[0029 ]作為優(yōu)選,所述分析模塊,進(jìn)一步包括:
[0030]索引建立單元,其對所述目標(biāo)數(shù)據(jù)建立索引,并將所述索引存入索引數(shù)據(jù)庫中;
[0031]重復(fù)度判斷單元,其基于建立的所述索引所對應(yīng)的目標(biāo)數(shù)據(jù),判斷各所述目標(biāo)數(shù)據(jù)的重復(fù)度,并將所述重復(fù)度對應(yīng)的寫入所述目標(biāo)數(shù)據(jù)庫中。
[0032]本發(fā)明的有益效果在于:本發(fā)明采取智能的技術(shù)方式采集資訊,極大的突破了人工資訊采集處理的瓶頸,還有程序自動(dòng)建立資訊關(guān)鍵信息索引,為資訊大數(shù)據(jù)應(yīng)用建立堅(jiān)實(shí)基礎(chǔ)。
【附圖說明】
[0033]圖1為本發(fā)明實(shí)施例中的網(wǎng)絡(luò)資訊的采集和分析方法的流程圖;
[0034]圖2為本發(fā)明實(shí)施例中的網(wǎng)絡(luò)資訊的采集和分析系統(tǒng)的原理框圖。
[0035]附圖標(biāo)記說明
[0036]1-任務(wù)分配模塊2-抓取模塊
[0037]3-提取模塊 4-分析模塊
【具體實(shí)施方式】
[0038]下面,結(jié)合附圖對本發(fā)明的實(shí)施例進(jìn)行更加詳細(xì)的說明,但不作為本發(fā)明的限定。
[0039]本發(fā)明提供了一種網(wǎng)絡(luò)資訊的采集和分析方法和系統(tǒng),本發(fā)明的方法可以實(shí)現(xiàn)自動(dòng)的對網(wǎng)絡(luò)中的抓取節(jié)點(diǎn)所抓取的數(shù)據(jù)進(jìn)行分析,并建立相關(guān)的索引,并可以分析出該索引所對應(yīng)的數(shù)據(jù)的重復(fù)度以及時(shí)間之間的關(guān)系,為數(shù)據(jù)的挖掘提供了強(qiáng)大的背景支持。
[0040]如圖1所示,為本發(fā)明實(shí)施例中的一種網(wǎng)絡(luò)資訊的采集和分析方法的流程圖,其中包括以下步驟:
[0041]S1:通過工具設(shè)置平臺,為預(yù)設(shè)的抓取節(jié)點(diǎn)分配抓取任務(wù),所述抓取任務(wù)至少對應(yīng)于一個(gè)目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)地址;該網(wǎng)絡(luò)地址可以是關(guān)于財(cái)經(jīng)信息的網(wǎng)站地址。
[0042]S2:接收各抓取節(jié)點(diǎn)發(fā)送的所抓取到的數(shù)據(jù)信息,并根據(jù)該數(shù)據(jù)信息提取出目標(biāo)數(shù)據(jù),并將所述目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫中,所述目標(biāo)數(shù)據(jù)包括:關(guān)于數(shù)據(jù)信息的標(biāo)題、來源、發(fā)布時(shí)間和正文內(nèi)容;同時(shí)該數(shù)據(jù)信息中還可以包括所抓取的網(wǎng)站的種子以及未完成抓取任務(wù)的網(wǎng)站種子信息。
[0043]S3:判斷當(dāng)前的目標(biāo)數(shù)據(jù)與所述目標(biāo)數(shù)據(jù)庫中的其他目標(biāo)數(shù)據(jù)的重復(fù)度。該重復(fù)度可以包括關(guān)于標(biāo)題的重復(fù)、網(wǎng)站內(nèi)容的重復(fù),或者是來源的重復(fù),而且該重復(fù)度可以將上述多種情況下的重復(fù)進(jìn)行綜合的運(yùn)算以得到體現(xiàn)上述所有的重復(fù)內(nèi)容的重復(fù)度。
[0044]通過上述配置,本發(fā)明的實(shí)施例可以通過統(tǒng)計(jì)各相關(guān)網(wǎng)站中所發(fā)布的信息的相關(guān)性,并能夠總結(jié)出重復(fù)度內(nèi)容,以分析內(nèi)容的熱點(diǎn)或熱度。
[0045]另外,步驟SI還可以進(jìn)一步配置為,根據(jù)分布在各抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲的狀態(tài),分配所述抓取任務(wù)。也就是說,可以根據(jù)各網(wǎng)絡(luò)節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲的任務(wù)完成狀態(tài)或空閑狀態(tài)來分配抓取任務(wù),以均衡各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的工作狀態(tài)。具體的,本發(fā)明實(shí)施例中的步驟SI可以進(jìn)一步包括:
[0046]S10:確定各抓取節(jié)點(diǎn)所對應(yīng)的目標(biāo)網(wǎng)站的種子數(shù)量,即確定各抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲的總?cè)蝿?wù)量;
[0047]Sll:確定所述抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲所完成的抓取的種子數(shù)量和未完成抓取的種子數(shù)量;
[0048]S12:對所述抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲所完成的種子數(shù)量從高到低進(jìn)行排序;
[0049]S13:將未完成抓取任務(wù)的種子分別按照S12中的順序分配給各所述抓取節(jié)點(diǎn)。
[0050]通過上述配置,可以自動(dòng)的計(jì)算出網(wǎng)絡(luò)節(jié)點(diǎn)中各網(wǎng)絡(luò)爬蟲的抓取任務(wù)的完成量,并根據(jù)該完成量的高低順序再次分配任務(wù),可以提高任務(wù)抓取的效率,還可以提高各網(wǎng)絡(luò)節(jié)點(diǎn)的相互配合作用,以有效快速的完成抓取任務(wù)。
[0051 ]另外,本實(shí)施例中的步驟S3還可以進(jìn)一步包括:
[0052]S30:對所述目標(biāo)數(shù)據(jù)建立索引,并將所述索引存入索引數(shù)據(jù)庫中;
[0053]S31:比較所述索引數(shù)據(jù)庫中各索引所對應(yīng)的目標(biāo)數(shù)據(jù),判斷各所述目標(biāo)數(shù)據(jù)的重復(fù)度,并將所述重復(fù)度對應(yīng)的寫入所述目標(biāo)數(shù)據(jù)庫中。
[0054]也就是說通過建立索引的方式來更加有效快速的查找到重復(fù)內(nèi)容或關(guān)鍵內(nèi)容的重復(fù)度,還可以方便數(shù)據(jù)信息的調(diào)取和讀取。
[0055]其中,本實(shí)施例中根據(jù)所述目標(biāo)數(shù)據(jù)的重復(fù)度,建立各存在重復(fù)數(shù)據(jù)的目標(biāo)數(shù)據(jù)與時(shí)間的對應(yīng)關(guān)系。即可以建立具有重復(fù)信息的各數(shù)據(jù)信息或目標(biāo)數(shù)據(jù)以及各自的發(fā)布時(shí)間的時(shí)間軸關(guān)系,并可以將該關(guān)系存入到目標(biāo)數(shù)據(jù)庫中。本實(shí)施例中的索引可以包括所述目標(biāo)數(shù)據(jù)中的關(guān)鍵字和關(guān)鍵詞,并且所述目標(biāo)數(shù)據(jù)庫中相關(guān)聯(lián)的包括所述索引數(shù)據(jù)庫中的索引信息。通過目標(biāo)數(shù)據(jù)庫和索引數(shù)據(jù)庫的關(guān)聯(lián)性,可以快速的對應(yīng)查找到相關(guān)的數(shù)據(jù)信息,以快速實(shí)現(xiàn)信息的讀取和查找以及對比。
[0056]本發(fā)明還提供了一種網(wǎng)絡(luò)資訊的采集和分析系統(tǒng),該系統(tǒng)應(yīng)用了如上實(shí)施例中所描述的網(wǎng)絡(luò)資訊的采集和分析的方法,且如圖2所示,為本發(fā)明實(shí)施中的網(wǎng)絡(luò)資訊的采集和分析系統(tǒng)可以包括:任務(wù)分配模塊1、抓取模塊2、提取模塊3和分析模塊4,其中,任務(wù)分配模塊I可以為預(yù)設(shè)的抓取節(jié)點(diǎn)分配抓取任務(wù),所述抓取任務(wù)至少對應(yīng)于一個(gè)目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)地址;抓取模塊2可以接收并執(zhí)行所述抓取任務(wù),該抓取模塊2包括設(shè)置在各網(wǎng)絡(luò)節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲。提取模塊3可以接收抓取模塊2中的各抓取節(jié)點(diǎn)所抓取到的數(shù)據(jù)信息,并根據(jù)該數(shù)據(jù)信息提取出目標(biāo)數(shù)據(jù),并將該目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫中,所述目標(biāo)數(shù)據(jù)包括:關(guān)于所述數(shù)據(jù)信息的標(biāo)題、來源、發(fā)布時(shí)間和正文內(nèi)容。另外,分析模塊4可以根據(jù)提取模塊3提取的數(shù)據(jù)信息判斷當(dāng)前的目標(biāo)數(shù)據(jù)與目標(biāo)數(shù)據(jù)庫中的其他目標(biāo)數(shù)據(jù)的重復(fù)度。
[0057]基于上述配置,本實(shí)施例的系統(tǒng)可以通過統(tǒng)計(jì)各相關(guān)網(wǎng)站中所發(fā)布的信息的相關(guān)性,并能夠總結(jié)出重復(fù)度內(nèi)容,以分析內(nèi)容的熱點(diǎn)或熱度。
[0058]另外,本實(shí)施例中還可以包括計(jì)算模塊和排序模塊,該計(jì)算模塊用于計(jì)算出各抓取節(jié)點(diǎn)所對應(yīng)的目標(biāo)網(wǎng)站的種子數(shù)量,即確定各抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲的總?cè)蝿?wù)量;排序模塊用于確定抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲所完成的抓取的種子數(shù)量和未完成抓取的種子數(shù)量,同時(shí)任務(wù)分配模塊則將未完成抓取任務(wù)的種子分別按照排序模塊所排列的順序分配給各所述抓取節(jié)點(diǎn)。
[0059]通過上述配置,可以自動(dòng)的計(jì)算出網(wǎng)絡(luò)節(jié)點(diǎn)中各網(wǎng)絡(luò)爬蟲的抓取任務(wù)的完成量,并根據(jù)該完成量的高低順序再次分配任務(wù),可以提高任務(wù)抓取的效率,還可以提高各網(wǎng)絡(luò)節(jié)點(diǎn)的相互配合作用,以有效快速的完成抓取任務(wù)。
[0060]另外,本實(shí)施例中的分析模塊4還可以進(jìn)一步包括:索引建立單元41和重復(fù)度判斷單元42,該索引建立單元41可以針對目標(biāo)數(shù)據(jù)建立索引,并將該索引存入索引數(shù)據(jù)庫中;
[0061]重復(fù)度判斷單元42可以基于建立的所述索引所對應(yīng)的目標(biāo)數(shù)據(jù),判斷各所述目標(biāo)數(shù)據(jù)的重復(fù)度,并將所述重復(fù)度對應(yīng)的寫入所述目標(biāo)數(shù)據(jù)庫中。也就是說通過建立索引的方式來更加有效快速的查找到重復(fù)內(nèi)容或關(guān)鍵內(nèi)容的重復(fù)度,還可以方便數(shù)據(jù)信息的調(diào)取和讀取。
[0062]以上實(shí)施例僅為本發(fā)明的示例性實(shí)施例,不用于限制本發(fā)明,本發(fā)明的保護(hù)范圍由權(quán)利要求書限定。本領(lǐng)域技術(shù)人員可以在本發(fā)明的實(shí)質(zhì)和保護(hù)范圍內(nèi),對本發(fā)明做出各種修改或等同替換,這種修改或等同替換也應(yīng)視為落在本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種網(wǎng)絡(luò)資訊的采集和分析方法,其特征在于,包括以下步驟: S1:為預(yù)設(shè)的抓取節(jié)點(diǎn)分配抓取任務(wù),所述抓取任務(wù)至少對應(yīng)于一個(gè)目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)地址; S2:接收所述抓取節(jié)點(diǎn)發(fā)送的所抓取到的數(shù)據(jù)信息,并根據(jù)所述數(shù)據(jù)信息提取出目標(biāo)數(shù)據(jù)并將所述目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫中,所述目標(biāo)數(shù)據(jù)包括:關(guān)于所述數(shù)據(jù)信息的標(biāo)題、來源、發(fā)布時(shí)間和正文內(nèi)容; S3:判斷當(dāng)前的所述目標(biāo)數(shù)據(jù)與所述目標(biāo)數(shù)據(jù)庫中的其他目標(biāo)數(shù)據(jù)的重復(fù)度。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI進(jìn)一步配置為,根據(jù)分布在各抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲的狀態(tài),分配所述抓取任務(wù)。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟SI進(jìn)一步包括: SlO:確定各所述抓取節(jié)點(diǎn)所對應(yīng)的目標(biāo)網(wǎng)站的種子數(shù)量; Sll:確定所述抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲所完成的抓取的種子數(shù)量和未完成抓取的種子數(shù)量; S12:對所述抓取節(jié)點(diǎn)的網(wǎng)絡(luò)爬蟲所完成的種子數(shù)量從高到低進(jìn)行排序; S13:將未完成抓取任務(wù)的種子分別按照S12中的順序分配給各所述抓取節(jié)點(diǎn)。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S3進(jìn)一步包括: S30:對所述目標(biāo)數(shù)據(jù)建立索引,并將所述索引存入索引數(shù)據(jù)庫中; S31:比較所述索引數(shù)據(jù)庫中各索引所對應(yīng)的目標(biāo)數(shù)據(jù),判斷各所述目標(biāo)數(shù)據(jù)的重復(fù)度,并將所述重復(fù)度對應(yīng)的寫入所述目標(biāo)數(shù)據(jù)庫中。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述目標(biāo)數(shù)據(jù)的重復(fù)度,建立各存在重復(fù)數(shù)據(jù)的目標(biāo)數(shù)據(jù)與時(shí)間的對應(yīng)關(guān)系。6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述索引包括所述目標(biāo)數(shù)據(jù)中的關(guān)鍵字和關(guān)鍵詞。7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述目標(biāo)數(shù)據(jù)庫中相關(guān)聯(lián)的包括所述索引數(shù)據(jù)庫中的索引信息。8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)網(wǎng)絡(luò)為財(cái)經(jīng)資訊的相關(guān)網(wǎng)絡(luò)。9.一種網(wǎng)絡(luò)資訊的采集和分析系統(tǒng),其應(yīng)用如權(quán)利要求1-8中任意一項(xiàng)所述的網(wǎng)絡(luò)資訊的采集和分析方法,且所述系統(tǒng)包括: 任務(wù)分配模塊,其為預(yù)設(shè)的抓取節(jié)點(diǎn)分配抓取任務(wù),所述抓取任務(wù)至少對應(yīng)于一個(gè)目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)地址; 抓取模塊,其接收并執(zhí)行所述抓取任務(wù); 提取模塊,其接收所述抓取模塊中的各抓取節(jié)點(diǎn)所抓取到的數(shù)據(jù)信息,并根據(jù)所述數(shù)據(jù)信息提取出目標(biāo)數(shù)據(jù),并將所述目標(biāo)數(shù)據(jù)存入目標(biāo)數(shù)據(jù)庫中,所述目標(biāo)數(shù)據(jù)包括:關(guān)于所述數(shù)據(jù)信息的標(biāo)題、來源、發(fā)布時(shí)間和正文內(nèi)容; 分析模塊,其根據(jù)所述提取模塊提取的數(shù)據(jù)信息判斷當(dāng)前的所述目標(biāo)數(shù)據(jù)與所述目標(biāo)數(shù)據(jù)庫中的其他目標(biāo)數(shù)據(jù)的重復(fù)度。10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述分析模塊,進(jìn)一步包括: 索引建立單元,其對所述目標(biāo)數(shù)據(jù)建立索弓I,并將所述索引存入索引數(shù)據(jù)庫中; 重復(fù)度判斷單元,其基于建立的所述索引所對應(yīng)的目標(biāo)數(shù)據(jù),判斷各所述目標(biāo)數(shù)據(jù)的重復(fù)度,并將所述重復(fù)度對應(yīng)的寫入所述目標(biāo)數(shù)據(jù)庫中。
【文檔編號】G06F17/30GK105956069SQ201610277727
【公開日】2016年9月21日
【申請日】2016年4月28日
【發(fā)明人】吳斌, 謝曉勇, 黃 俊, 胡春華, 陳志雄, 胡浩
【申請人】優(yōu)品財(cái)富管理有限公司