亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種人工干預校準的自動化數(shù)據(jù)采集方法

文檔序號:9200427閱讀:582來源:國知局
一種人工干預校準的自動化數(shù)據(jù)采集方法
【技術領域】
[0001]本發(fā)明涉及網(wǎng)絡數(shù)據(jù)采集技術領域,尤其涉及一種能夠讓非技術人員直接自定義數(shù)據(jù)采集及分類的方法及工具。
【背景技術】
[0002]數(shù)據(jù)采集是一種網(wǎng)絡常見的數(shù)據(jù)搜集方法。用戶通過對數(shù)據(jù)開放網(wǎng)站的站點分析,數(shù)據(jù)篩選,進行定向數(shù)據(jù)搜集,該數(shù)據(jù)搜集后能夠進行整合加工,為其他領域所使用。
[0003]現(xiàn)有技術中,數(shù)據(jù)采集一般由技術人員進行機械性海量數(shù)據(jù)采集,在數(shù)據(jù)的精度、采集過程中的應變能力上都無法提供保證,大部分數(shù)據(jù)采集過來后還面臨著大量的深度加工工作。大部分情況下由于技術采集人員對數(shù)據(jù)本身的需求和應用場合不了解,會造成包括但不限于如下的問題:無法保證數(shù)據(jù)與數(shù)據(jù)需求是一一匹配的;當數(shù)據(jù)源格式發(fā)生變化后無法進行及時的干預,最終輸出是才發(fā)現(xiàn)數(shù)據(jù)問題,耽誤采集時間;無法提供通用采集工具,小規(guī)模數(shù)據(jù)采集時成本過高;真正數(shù)據(jù)使用人員不能參與到模型設計及數(shù)據(jù)校驗過程中去。
[0004]因此,針對上述現(xiàn)有技術中存在的技術問題,就亟需提出一種人工干預校準的自動化數(shù)據(jù)采集方法。

【發(fā)明內(nèi)容】

[0005]本發(fā)明提供一種可供非技術人員直接操作的數(shù)據(jù)采集方法,用以解決現(xiàn)有技術中不能由數(shù)據(jù)使用人員設計采集模型和數(shù)據(jù)準確度無法實時進行校準的問題。本發(fā)明杜絕了過往數(shù)據(jù)采集顆粒度過高、無效信息參雜和提交規(guī)格不合理的問題。
[0006]本發(fā)明的技術方案是這樣實現(xiàn)的:一種人工干預校準的自動化數(shù)據(jù)采集方法,包括以下步驟:
A、提供簡單直觀的數(shù)據(jù)采集建模工具;
B、根據(jù)數(shù)據(jù)使用人員提供的模型進行小規(guī)模數(shù)據(jù)預采集;
C、對采集數(shù)據(jù)中的id和class進行人工校準;
D、利用人工校準后的最終數(shù)據(jù)采集模型進行大規(guī)模數(shù)據(jù)抓取。
[0007]優(yōu)選地,所述步驟A包括提供直觀簡潔的后臺界面,以表格的方式向目標用戶提供數(shù)據(jù)采集建模工具,用戶能夠根據(jù)示范,進行標的數(shù)據(jù)源地址的錄入,采集數(shù)據(jù)規(guī)格描述以及分類數(shù)據(jù)庫定義。
[0008]優(yōu)選地,所述步驟B包括以下步驟:
1)根據(jù)數(shù)據(jù)采集人員提供的地址,分析標的網(wǎng)址類型,獲取網(wǎng)頁上的鏈接并根據(jù)鏈接地址的相似度進行歸類;
2)數(shù)據(jù)采集人員根據(jù)歸類地址進行數(shù)據(jù)采集建模,對歸類地址進行定義,此時操作界面提供相對的分類名稱,創(chuàng)建數(shù)據(jù)源地址和數(shù)據(jù)采集庫類目的一一對應關系,創(chuàng)建數(shù)據(jù)采集第一原始模型; 3)本數(shù)據(jù)采集建模工具根據(jù)數(shù)據(jù)采集人員提供的原始數(shù)據(jù)采集模型,進行小規(guī)模數(shù)據(jù)預采集,本數(shù)據(jù)采集建模工具將隨機抽取指定類目下的數(shù)據(jù)信息,由用戶指定對應值到對應內(nèi)容框中,由此創(chuàng)建數(shù)據(jù)采集第二原始模型。
[0009]優(yōu)選地,所述步驟C包括以下步驟:
1)當小規(guī)模數(shù)據(jù)采集完成之后,根據(jù)用戶填寫的內(nèi)容生成匹配算法,具體操作為:找到最靠近該地址的id或class,建立一一匹配規(guī)則;
2)對于具備id的數(shù)據(jù)源,由于id具備唯一對應的特征,所以能夠完成數(shù)據(jù)源與數(shù)據(jù)庫模型的直接對應關系,即時獲得最終采集模型;
3)對于不具備class的數(shù)據(jù)源,可將該class涉及的所有數(shù)據(jù)均采集過來,此時進行人工校準,選取正確的數(shù)據(jù)地址與數(shù)據(jù)庫模型進行匹配,通過該匹配算法進行對應頁面的數(shù)據(jù)采集并輸出結果,用戶將對該數(shù)據(jù)進行最終的判斷及確認,正式生成最終采集模型。
[0010]優(yōu)選地,所述步驟D包括利用最終采集模型對數(shù)據(jù)源實現(xiàn)批量定向數(shù)據(jù)抓取,實現(xiàn)精準數(shù)據(jù)的大規(guī)模輸出。
[0011]本發(fā)明具有以下有益效果:
(I)本發(fā)明為缺乏技術背景的人員提供一種簡單有效但精度很高的數(shù)據(jù)采集方法,本發(fā)明僅需數(shù)據(jù)采集人員按照工具提供的格式和要求列明數(shù)據(jù)來源的地址及數(shù)據(jù)采集需求,在數(shù)據(jù)采集過程中進行直觀的數(shù)據(jù)校驗,主要是通過對多個采集結果進行勾選的方式實現(xiàn)數(shù)據(jù)的定位校準。該方法對數(shù)據(jù)采集人員的要求較低,數(shù)據(jù)反饋及時直觀,避免了傳統(tǒng)的文本或表格形式的數(shù)據(jù)返回模式,能夠比較輕松的實現(xiàn)數(shù)據(jù)校驗,尤其在圖片類與文字類有匹配需求的應用場景中,交互簡單體驗良好。
[0012](2)本發(fā)明數(shù)據(jù)采集成本相對較低,能夠在小規(guī)模數(shù)據(jù)采集中發(fā)揮優(yōu)勢。本發(fā)明對技術人員的開發(fā)工作進行了拆分和限定,技術人員僅會在絕對需要技術參與的環(huán)節(jié)進行開發(fā)。在未采用本工具進行數(shù)據(jù)采集的情況下,技術人員往往會在一些簡單的環(huán)節(jié)進行重復的開發(fā),同時由于技術人員并非最終數(shù)據(jù)使用人員,往往在進行標的數(shù)據(jù)的理解上耗費不必要的精力和時間。而采用該工具,技術人員無需理解數(shù)據(jù)采集的具體內(nèi)容即可模塊化的展開工作,同時因為數(shù)據(jù)使用人員的人工干預,數(shù)據(jù)最終的有效性也得到了保障,因此可以說該工具的能夠有效的提高技術人員的效率、降低數(shù)據(jù)采集成本
(3)本發(fā)明數(shù)據(jù)采集方法靈活,能夠應用于各種不同規(guī)格的數(shù)據(jù)來源之下。當前垂直化網(wǎng)站數(shù)量龐大,站點規(guī)格千差萬別,數(shù)據(jù)規(guī)格形式多樣。本工具初步建模、小批量采集、校準、最終模型確定、大規(guī)模數(shù)據(jù)采集的流程,能夠適應絕大部分特殊結構的數(shù)據(jù)來源,實現(xiàn)對多樣性數(shù)據(jù)來源的有效采集
(4)本發(fā)明采取數(shù)據(jù)精度高,格式規(guī)范,能夠直接投入到正式的數(shù)據(jù)研宄中或者產(chǎn)品應用中取。本發(fā)明工具在建模的過程中就已經(jīng)約定了最終規(guī)范化數(shù)據(jù)輸出格式,用戶能夠根據(jù)自己最終輸出的需要,進行數(shù)據(jù)建模,最終數(shù)據(jù)將按數(shù)據(jù)采集者前期約定的格式批量輸出,能夠快速投入到數(shù)據(jù)分析或商品應用中去。
[0013](5)本發(fā)明在大數(shù)據(jù)分析及電子商務領域擁有廣泛應用前景。
【附圖說明】
[0014]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0015]圖1為本發(fā)明操作原理示意圖。
【具體實施方式】
[0016]下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0017]實施例1:
參照圖1,本實施例提供一種人工干預校準的自動化數(shù)據(jù)采集方法,其包括以下步驟:
A、提供簡單直觀的數(shù)據(jù)采集建模工具;
B、根據(jù)數(shù)據(jù)使用人員提供的模型進行小規(guī)模數(shù)據(jù)預采集;
C、對采集數(shù)據(jù)中的id和class進行人工校準;
D、利用人工校準后的最終數(shù)據(jù)采集模型進行大規(guī)模數(shù)據(jù)抓取。
[0018
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1