專利名稱:基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息采集領(lǐng)域,尤其涉及一種基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的信息資源日益強(qiáng)大并呈快速增長的趨勢,越來越多的人喜歡從網(wǎng)絡(luò)上獲取信息。傳統(tǒng)的搜索引擎信息采集方法都是基于爬蟲 (Spider, Crawl等)程序?qū)崿F(xiàn)的,在一定的時(shí)期內(nèi)取得了一定的成績。但是隨著網(wǎng)絡(luò)服務(wù)的日益更新,特別是Web2. 0,ffeb3. 0, Twitter, Facebook,微博等新型網(wǎng)絡(luò)服務(wù)的推出,傳統(tǒng)的信息采集方法已經(jīng)不能滿足時(shí)代的需求。
經(jīng)過對現(xiàn)有技術(shù)文獻(xiàn)的檢索發(fā)現(xiàn),中國專利文獻(xiàn)號CN100501746C的專利,公告日期為2009年6月17日,記載了一種“網(wǎng)頁抓取方法和網(wǎng)頁抓取服務(wù)器”,該技術(shù)包括首先接收網(wǎng)頁請求;其次判斷所請求網(wǎng)頁是否抓取過;如果沒抓取過,則直接抓??;如果抓取過,則根據(jù)兩次時(shí)間間隔是否達(dá)到一定閾值來決定是否重新嘗試抓取,達(dá)到了則去抓取 ’最后,根據(jù)網(wǎng)頁是否更新,決定是否重新抓取。該發(fā)明專利技術(shù)仍然以傳統(tǒng)搜索引擎采集方法為主,主要存在以下
1、浪費(fèi)網(wǎng)絡(luò)資源
傳統(tǒng)的信息采集方法需要重復(fù)試探或重復(fù)采集網(wǎng)絡(luò)上的信息,以判斷網(wǎng)絡(luò)上的信息是否已經(jīng)被更新。盡管現(xiàn)在也有技術(shù)能夠通過時(shí)間戳來判斷是否更新,以實(shí)現(xiàn)查新下載, 但大量的網(wǎng)絡(luò)服務(wù)根本不支持這種基于時(shí)間戳判斷的技術(shù),因此還只能采取復(fù)試探或重復(fù)采集網(wǎng)絡(luò)上的信息,造成了網(wǎng)絡(luò)資源的浪費(fèi)。
2、實(shí)效性差
在面對數(shù)量龐大的網(wǎng)絡(luò)信息時(shí),傳統(tǒng)采集技術(shù)只能采用輪詢的方法訪問某個(gè)特定采集點(diǎn),因此,經(jīng)常需要至少1周以上的時(shí)間間隔才能輪詢到某些網(wǎng)站的最新信息,因此時(shí)效性較差。
3、采集信息不全面
由于動(dòng)態(tài)網(wǎng)頁、用戶登錄等訪問權(quán)限限制,傳統(tǒng)的信息采集技術(shù)很難解決信息采集的全面性,因此大量的網(wǎng)絡(luò)信息無法被采集到。
4、動(dòng)態(tài)數(shù)據(jù)無法采集
對于論壇、微博、Twitter等新型網(wǎng)絡(luò)服務(wù),它們的回復(fù)數(shù)、瀏覽數(shù)等數(shù)據(jù)可能瞬息變化,因此通過傳統(tǒng)的網(wǎng)絡(luò)采集方法根本不可能采集到這些信息變化過程。發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)網(wǎng)絡(luò)信息采集不及時(shí)以及采集不全面的問題,本發(fā)明實(shí)施例提供了一種基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置。
一種基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集方法,包括
數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商數(shù)據(jù)采集協(xié)議;
所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動(dòng)推送到所述數(shù)據(jù)采集方;
所述數(shù)據(jù)采集方接收所述特定數(shù)據(jù),并且將所述特定數(shù)據(jù)進(jìn)行存儲;
其中所述數(shù)據(jù)采集協(xié)議是指所述數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則,所述數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述特定數(shù)據(jù)是指在兩次采集間隔內(nèi)在數(shù)據(jù)被采集方上更新過的數(shù)據(jù)。
一種基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集裝置,包括數(shù)據(jù)采集方和數(shù)據(jù)被采集方, 其中
所述數(shù)據(jù)被采集方,用于和所述數(shù)據(jù)采集方協(xié)商數(shù)據(jù)采集協(xié)議,并按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動(dòng)推送到所述數(shù)據(jù)采集方;
所述數(shù)據(jù)采集方,用于和所述數(shù)據(jù)被采集方協(xié)商所述數(shù)據(jù)采集協(xié)議,并接收所述數(shù)據(jù)被采集方推送的特定數(shù)據(jù),并且將所述特定數(shù)據(jù)進(jìn)行存儲;
其中所述數(shù)據(jù)采集協(xié)議是指所述數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則,所述數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述特定數(shù)據(jù)是指在兩次采集間隔內(nèi)在數(shù)據(jù)被采集方上更新過的數(shù)據(jù)。
本發(fā)明實(shí)施例所提供的基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置中,數(shù)據(jù)被采集方可以主動(dòng)將特定數(shù)據(jù)按照協(xié)商的數(shù)據(jù)采集協(xié)議推送給數(shù)據(jù)采集方,實(shí)現(xiàn)一個(gè)基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集新方法,該方法可以實(shí)現(xiàn)在采集網(wǎng)絡(luò)信息時(shí)不浪費(fèi)帶寬資源, 并且信息采集比較全面,及時(shí),同時(shí)也能采集到特殊數(shù)據(jù)。
應(yīng)用本發(fā)明實(shí)施例所提供網(wǎng)絡(luò)信息的采集方法裝置,數(shù)據(jù)被采集方可以主動(dòng)將特定數(shù)據(jù)按照協(xié)商的數(shù)據(jù)采集協(xié)議推送給數(shù)據(jù)采集方,實(shí)現(xiàn)一個(gè)基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集新方法,該方法和裝置可以保證網(wǎng)絡(luò)信息采集的及時(shí)性和全面性,同時(shí)也能采集到特殊數(shù)據(jù)。
圖1是本發(fā)明實(shí)施例網(wǎng)絡(luò)信息的采集方法的第一流程示意圖2是本發(fā)明實(shí)施例網(wǎng)絡(luò)信息的采集方法的第二流程示意圖3是本發(fā)明實(shí)施例網(wǎng)絡(luò)信息的采集方法中數(shù)據(jù)交互示意圖4是本發(fā)明實(shí)施例網(wǎng)絡(luò)信息的采集裝置的結(jié)構(gòu)圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明實(shí)施例所提供的方法和裝置進(jìn)行詳細(xì)的描述。
實(shí)施例一
本發(fā)明實(shí)施例提供了一種基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集方法,參照附圖1,包括
S10,數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商數(shù)據(jù)采集協(xié)議,其中
所述的數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,如系統(tǒng)的信息匯聚中心等;數(shù)據(jù)采集方被動(dòng)地接收被采集方按協(xié)商的協(xié)議提交的數(shù)據(jù)信息,并存儲到相應(yīng)的存儲介質(zhì)中,如信息存儲器等設(shè)備中。
所述的數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,主要包括門戶網(wǎng)站、論壇、博客、社交網(wǎng)絡(luò)、微博、交友網(wǎng)站等各類提供互聯(lián)網(wǎng)信息發(fā)布服務(wù)的實(shí)體,數(shù)據(jù)被采集方按照協(xié)商的數(shù)據(jù)采集協(xié)議,主動(dòng)推送并更新到數(shù)據(jù)采集方。
所述的數(shù)據(jù)采集協(xié)議,即數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則, 其中數(shù)據(jù)被采集方按這些規(guī)則把數(shù)據(jù)以結(jié)構(gòu)化的形式提交到數(shù)據(jù)采集方。其中,數(shù)據(jù)采集協(xié)議的具體規(guī)則包括采集方標(biāo)示、推送頻率、采集頻道、主帖數(shù)據(jù)(例如,信息標(biāo)示、標(biāo)題、 主體內(nèi)容、發(fā)布者、發(fā)布時(shí)間、回復(fù)數(shù)、瀏覽數(shù)等)、評論數(shù)據(jù)(例如,評論內(nèi)容、評論者、樓層關(guān)系、評論時(shí)間、評論屬性)、同步時(shí)序等。
S20,數(shù)據(jù)被采集方把數(shù)據(jù)被采集方的特定數(shù)據(jù)主動(dòng)推送到數(shù)據(jù)采集方,
具體的,數(shù)據(jù)被采集方通過同步引擎,將所述特定數(shù)據(jù)主動(dòng)推送到數(shù)據(jù)采集方。
所述的同步引擎,其功能是能夠獲得數(shù)據(jù)被采集端的特定數(shù)據(jù),并按雙方協(xié)商的數(shù)據(jù)采集協(xié)議,把這些數(shù)據(jù)信息主動(dòng)推送到數(shù)據(jù)采集方,具體的,該同步引擎可以是一個(gè)硬件或者軟件或者二者的結(jié)合。
所述的特定數(shù)據(jù),具體指在兩次采集間隔內(nèi),數(shù)據(jù)被采集方上更新過的數(shù)據(jù),如最新發(fā)布的數(shù)據(jù)、帖子瀏覽數(shù)、帖子回復(fù)數(shù)等規(guī)定的數(shù)據(jù)信息。
需要說明的是在本發(fā)明實(shí)施例以及后續(xù)的實(shí)施例中,主動(dòng)推送是指在滿足數(shù)據(jù)采集協(xié)議所設(shè)定的規(guī)則時(shí),數(shù)據(jù)被采集方主動(dòng)將特定數(shù)據(jù)發(fā)送給數(shù)據(jù)采集方。
S30,數(shù)據(jù)采集方接收數(shù)據(jù)被采集方發(fā)送的特定數(shù)據(jù),并將所述特定數(shù)據(jù)進(jìn)行存儲,包括
數(shù)據(jù)采集方的信息匯集服務(wù)接收同步引擎推送的數(shù)據(jù),并且通過存儲引擎把采集到的數(shù)據(jù)進(jìn)行存儲;其中
數(shù)據(jù)采集方可以將接收到的數(shù)據(jù)存儲在大容量存儲介質(zhì)中。
所述的信息匯集服務(wù),其功能是并行地接收同步引擎主動(dòng)推送的數(shù)據(jù)。在外圍設(shè)備配合下,可以實(shí)現(xiàn)負(fù)載均衡、容量擴(kuò)展等,可以是一個(gè)硬件或軟件或二者的結(jié)合。
所述的存儲引擎,其功能是把采集的數(shù)據(jù)按類別結(jié)構(gòu)化地存儲在采集方的大容量存儲介質(zhì)上。可以是一個(gè)裝置或軟件或二者的結(jié)合。
所述的大容量存儲介質(zhì),具體為,能夠大量存儲數(shù)據(jù)信息的存儲設(shè)備。
本發(fā)明實(shí)施例所提供的基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集方法中,數(shù)據(jù)被采集方可以主動(dòng)將特定數(shù)據(jù)按照協(xié)商的數(shù)據(jù)采集協(xié)議發(fā)送給數(shù)據(jù)采集方,實(shí)現(xiàn)一個(gè)基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集新方法,該方法可以實(shí)現(xiàn)在采集網(wǎng)絡(luò)信息時(shí)不浪費(fèi)帶寬資源,并且信息采集比較全面,及時(shí),同時(shí)也能采集到特殊數(shù)據(jù)。
實(shí)施例二
本發(fā)明實(shí)施例提供了一種基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集方法,其中被采集方以典型的論壇為例,具體實(shí)施例包括以下步驟
101、數(shù)據(jù)被采集方和數(shù)據(jù)采集方制定數(shù)據(jù)采集協(xié)議,如圖2所示,其中,數(shù)據(jù)被采集方為論壇,數(shù)據(jù)匯集中心即為數(shù)據(jù)采集方。在本發(fā)明實(shí)施例中,針對典型論壇的信息發(fā)布特征,論壇和數(shù)據(jù)匯集中心協(xié)商形成具體數(shù)據(jù)采集協(xié)議為
論壇的標(biāo)示、論壇主動(dòng)推送數(shù)據(jù)的頻率、采集論壇的板塊、論壇的主帖數(shù)據(jù)(例如,主帖的標(biāo)示、主帖標(biāo)題、主帖的內(nèi)容、主帖的發(fā)布者、發(fā)布時(shí)間、回復(fù)數(shù)、瀏覽數(shù)等)、針對該主帖的評論或回復(fù)數(shù)據(jù)(例如,對該帖子的評論內(nèi)容、評論者、樓層關(guān)系、評論時(shí)間、評論屬性等)、同步的時(shí)間戳等協(xié)商指定其他的數(shù)據(jù)采集協(xié)議。
103,通過同步引擎把論壇的特定數(shù)據(jù)主動(dòng)推送到數(shù)據(jù)采集方,參見附圖3,該過程具體包括
(1)論壇主動(dòng)查詢數(shù)據(jù)
論壇提交論壇標(biāo)示(論壇統(tǒng)一資源定位符(URL)地址)到信息匯集服務(wù),主動(dòng)查詢配置數(shù)據(jù)。具體的配置數(shù)據(jù)包括推送頻率、采集板塊列表,具體為,
REQ(Request,請求)(URL)
ACK(回應(yīng))(5M;國際觀察,休閑娛樂,…,股票市場)
(2)新創(chuàng)建主帖的提交
論壇每5分鐘檢查采集板塊中有沒有出現(xiàn)新的主帖,如果出現(xiàn)新的主帖,則把新主帖的相關(guān)信息主動(dòng)推送到采集方。推送的主帖數(shù)據(jù)包括主帖的標(biāo)示、主帖標(biāo)題、主帖的內(nèi)容、主帖的發(fā)布者、發(fā)布時(shí)間、同步時(shí)間戳等,具體為,
REQ(Request,請求)(主帖URL ;祝祖國生日快樂;國慶節(jié)馬上到了,預(yù)祝祖國繁榮昌盛…;samOOl ;20110929 ;20110929080500)
ACK (回應(yīng))OK
(3)評論或回復(fù)帖子的提交
主帖的內(nèi)容基本不會變化,但時(shí)刻都有可能產(chǎn)生對主帖的新評論和回復(fù)數(shù)據(jù)。對于一個(gè)熱門主帖,針對其評論或回復(fù)時(shí)刻都會發(fā)生。被采集方也會每5分鐘查看是否有新的回復(fù)數(shù)據(jù)出現(xiàn)或者新的瀏覽行為出現(xiàn),如果有則按主帖標(biāo)示歸類,并推送到采集方。推送的數(shù)據(jù)包括主帖標(biāo)示、回復(fù)數(shù)、瀏覽數(shù)、評論記錄(評論內(nèi)容、評論者、評論時(shí)間、樓層、回復(fù)樓層、評論屬性)、同步時(shí)間戳等。
REQ(Request,請求)(主帖 URL ; 1024 ;3231 ;(同祝、user01、x、0、20110929、+l ; 路過、user02、x+l、0、20110929、0) ;20110929080500)
ACK (回應(yīng))OK
105、數(shù)據(jù)采集方的信息匯集服務(wù)接收同步引擎推送的數(shù)據(jù),以結(jié)構(gòu)化的形式存儲在大容量存儲介質(zhì)。
針對本實(shí)施例,采集方會把論壇推送過來的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化存儲,為后期的挖掘、 檢索、分析等提供數(shù)據(jù)支持。針對論壇,需要存儲3個(gè)數(shù)據(jù)表主帖、回復(fù)(評論)、動(dòng)態(tài)數(shù)據(jù)等。
其中主貼存儲如表1所示,回復(fù)(含評論)存儲如表2所示,動(dòng)態(tài)數(shù)據(jù)存儲如表3 所示,
表 權(quán)利要求
1.一種基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集方法方法,其特征在于,包括數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商數(shù)據(jù)采集協(xié)議;所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動(dòng)推送到所述數(shù)據(jù)采集方;所述數(shù)據(jù)采集方接收所述特定數(shù)據(jù),并且將所述特定數(shù)據(jù)進(jìn)行存儲;其中所述數(shù)據(jù)采集協(xié)議是指所述數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則,所述數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述特定數(shù)據(jù)是指在兩次采集間隔內(nèi)在數(shù)據(jù)被采集方上更新過的數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動(dòng)推送到所述數(shù)據(jù)采集方,包括通過同步引擎,所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述特定數(shù)據(jù)主動(dòng)推送到所述數(shù)據(jù)采集方,其中所述同步引擎能夠獲得數(shù)據(jù)被采集方的特定數(shù)據(jù),并按雙方協(xié)商的數(shù)據(jù)采集協(xié)議,將所述特定數(shù)據(jù)主動(dòng)推送到所述數(shù)據(jù)采集方。
3.如權(quán)利要求2所述的方法,其特征在于,所述數(shù)據(jù)采集方接收所述特定數(shù)據(jù),并且所述特定數(shù)據(jù)進(jìn)行存儲,包括數(shù)據(jù)采集方的信息匯集服務(wù)接收同步引擎發(fā)送的所述特定數(shù)據(jù),并且通過存儲引擎將所述特定數(shù)據(jù)進(jìn)行存儲,其中,所述信息匯集服務(wù)接收所述同步引擎發(fā)送所述的特定數(shù)據(jù), 所述存儲引擎將所述特定數(shù)據(jù)按類別結(jié)構(gòu)化地進(jìn)行存儲。
4.如權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動(dòng)推送到所述數(shù)據(jù)采集方,包括所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議,將所述數(shù)據(jù)被采集方的特定數(shù)據(jù)以結(jié)構(gòu)化的形式主動(dòng)推送到所述數(shù)據(jù)采集方。
5.如權(quán)利要求1至4任一所述的方法,其特征在于,所述數(shù)據(jù)采集協(xié)議的具體規(guī)則包括數(shù)據(jù)采集方標(biāo)示、推送頻率、采集頻道、主帖數(shù)據(jù)、評論數(shù)據(jù)、同步時(shí)序中的至少一個(gè)。
6.一種基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集裝置裝置,其特征在于,包括數(shù)據(jù)采集方和數(shù)據(jù)被采集方,其中所述數(shù)據(jù)被采集方,用于和所述數(shù)據(jù)采集方協(xié)商數(shù)據(jù)采集協(xié)議,并按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動(dòng)推送到所述數(shù)據(jù)采集方;所述數(shù)據(jù)采集方,用于和所述數(shù)據(jù)被采集方協(xié)商所述數(shù)據(jù)采集協(xié)議,并接收所述數(shù)據(jù)被采集方發(fā)送的特定數(shù)據(jù),并且將所述特定數(shù)據(jù)進(jìn)行存儲;其中所述數(shù)據(jù)采集協(xié)議是指所述數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則,所述數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述特定數(shù)據(jù)是指在兩次采集間隔內(nèi)在數(shù)據(jù)被采集方上更新過的數(shù)據(jù)。
7.如權(quán)利要求6所述的裝置,其特征在于,還包括同步引擎,用于獲得數(shù)據(jù)被采集方的特定數(shù)據(jù),并按雙方協(xié)商的數(shù)據(jù)采集協(xié)議,將所述特定數(shù)據(jù)主動(dòng)推送到所述數(shù)據(jù)采集方。
8.如權(quán)利要求7所述的裝置,其特征在于,還包括信息匯集服務(wù)和存儲引擎,其中所述信息匯集服務(wù),用于接收所述同步引擎發(fā)送的所述特定數(shù)據(jù),并且通過所述存儲引擎將所述特定數(shù)據(jù)進(jìn)行存儲;所述存儲引擎,用于將接收到的特定數(shù)據(jù)按類別結(jié)構(gòu)化地進(jìn)行存儲。
9.如權(quán)利要求7所述的裝置,其特征在于,所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議,將所述數(shù)據(jù)被采集方的特定數(shù)據(jù)以結(jié)構(gòu)化的形式主動(dòng)推送到所述數(shù)據(jù)采集方。
10.如權(quán)利要求6至9任一所述的裝置,其特征在于,所述數(shù)據(jù)采集協(xié)議的具體規(guī)則包括數(shù)據(jù)采集方標(biāo)示、推送頻率、采集頻道、主帖數(shù)據(jù)、評論數(shù)據(jù)、同步時(shí)序中的至少一個(gè)。
全文摘要
本發(fā)明實(shí)施例提供了一種基于主動(dòng)推技術(shù)的互聯(lián)網(wǎng)信息采集方法和裝置,其中該方法包括數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商數(shù)據(jù)采集協(xié)議;所述數(shù)據(jù)被采集方按照所述數(shù)據(jù)采集協(xié)議把所述數(shù)據(jù)被采集方的特定數(shù)據(jù)主動(dòng)推送到所述數(shù)據(jù)采集方;所述數(shù)據(jù)采集方接收所述特定數(shù)據(jù),并且將所述特定數(shù)據(jù)進(jìn)行存儲;其中所述數(shù)據(jù)采集協(xié)議是指所述數(shù)據(jù)采集方和數(shù)據(jù)被采集方協(xié)商制定的數(shù)據(jù)提交規(guī)則,所述數(shù)據(jù)采集方是指采集網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述數(shù)據(jù)被采集方是指提供網(wǎng)絡(luò)信息數(shù)據(jù)的一方,所述特定數(shù)據(jù)是指在兩次采集間隔內(nèi)在數(shù)據(jù)被采集方上更新過的數(shù)據(jù)。本發(fā)明實(shí)施例所提供的方法和裝置可以實(shí)現(xiàn)網(wǎng)絡(luò)信息采集的及時(shí)性和全面性,能為搜索引擎、網(wǎng)絡(luò)信息分析應(yīng)用提供新型的采集技術(shù)。
文檔編號G06F17/30GK102521379SQ20111042875
公開日2012年6月27日 申請日期2011年12月19日 優(yōu)先權(quán)日2011年12月19日
發(fā)明者劉功申, 李建華, 李生紅, 王士林, 胡佩華, 許陽 申請人:上海交通大學(xué)