一種水質(zhì)基準計算的數(shù)據(jù)提取方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)庫中相關性數(shù)據(jù)、共享性數(shù)據(jù)提取的方法,具體而言,涉及到一種 水質(zhì)基準計算的數(shù)據(jù)提取方法,為水質(zhì)基準研究提供數(shù)據(jù)支持的技術。
【背景技術】
[0002] 水質(zhì)基準研究是我國當前環(huán)境管理工作的重大科技需求,也是環(huán)境科學研究領域 的熱點問題。發(fā)達國家的環(huán)境基準研究已有上百年的歷史,至今已經(jīng)建立了較為完善的環(huán) 境基準體系,特別是美國,發(fā)布了眾多的環(huán)境基準文件和技術指南以及龐大的基準相關數(shù) 據(jù)庫,為世界各國研究和建立自己國家的環(huán)境基準體系提供了重要參考。
[0003]水環(huán)境基準相關的數(shù)據(jù)結構復雜,包括環(huán)境基本數(shù)據(jù)、物種分布數(shù)據(jù)、環(huán)境暴露數(shù) 據(jù)、水生生物毒性數(shù)據(jù)、沉積物毒性數(shù)據(jù)、水生態(tài)數(shù)據(jù)、人體健康數(shù)據(jù)。無論是USEPA-SSD 法、EU-SSD法還是RIVM-SSD等各種基于不同擬合函數(shù)的基準推算方法,均是以大量規(guī)范化 數(shù)據(jù)為前提進行推導分析的。所以我們發(fā)明了一種基于水質(zhì)基準計算的數(shù)據(jù)提取方法,可 以方便有效的提取目標數(shù)據(jù),為研究、應用、標準化提供數(shù)據(jù)支撐。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明旨在提供一種水質(zhì)基準計算的數(shù)據(jù)提取方法,通過數(shù)據(jù)提取解決計算中參 與計算數(shù)據(jù)的有效性及準確性。
[0005] 本發(fā)明的技術主案如下:
[0006]-種水質(zhì)基準計算的數(shù)據(jù)提取方法,包括水質(zhì)基準計算:
[0007] (1)水質(zhì)基準計算的數(shù)據(jù)提取方法包括如下步驟:
[0008] (1-1)組建數(shù)據(jù)提取系統(tǒng)框架,系統(tǒng)框架由數(shù)據(jù)庫服務器、應用服務器、用戶終端、 路由器、網(wǎng)線組成。數(shù)據(jù)庫服務器作為數(shù)據(jù)倉庫存儲數(shù)據(jù);應用服務器部署中間件,執(zhí)行數(shù) 據(jù)提取操作的應用程序;用戶終端提供給用戶/管理員上傳數(shù)據(jù)、計算數(shù)據(jù)、下載數(shù)據(jù)等; 路由器和網(wǎng)線用于連接數(shù)據(jù)庫服務器、應用服務器、用戶終端;
[0009] (1-2)數(shù)據(jù)庫服務器的數(shù)據(jù)來源于用戶終端的傳遞,用戶終端可以是管理員或者 科研用戶等。用戶終端把數(shù)據(jù)提交給應用服務器,應用服務器根據(jù)驗證邏輯進行數(shù)據(jù)檢驗, 并將數(shù)據(jù)提取進入數(shù)據(jù)篩選單元,應用程序根據(jù)數(shù)據(jù)類別、數(shù)據(jù)格式、數(shù)據(jù)范值、數(shù)據(jù)精度 進行對比,加工成符合規(guī)范的模式數(shù)據(jù);
[0010] (1-3)應用服務器將經(jīng)過規(guī)范化處理的數(shù)據(jù)導入數(shù)據(jù)庫服務器;
[0011] (1-4)應用服務器根據(jù)水生生物、沉積物、毒性數(shù)據(jù)、人體健康等業(yè)務關系邏輯,建 立關聯(lián)模型表。并將數(shù)據(jù)存儲轉換為列式存儲,方便SQL查詢與提?。?br>[0012] (1-5)水質(zhì)環(huán)境數(shù)據(jù)應用目前面向與開放的是各高校、科研單位的用戶,管理員對 邀請、主動申請、主動授權的用戶進行檢驗。系統(tǒng)根據(jù)用戶分類情況,自動評分,并存儲于用 戶分類系數(shù)表;
[0013] (1-6)用戶通過用戶終端確定計算目的,在水質(zhì)基準計算時,可使用三種方法進行 數(shù)據(jù)提?。喝斯z索提取、半自動檢索提取、全自動檢索提?。?br>[0014] (1-7)人工檢索提取,是用戶根據(jù)自身的學術經(jīng)驗、科研目的或其它情況,手工選 擇參與計算的數(shù)據(jù)源。系統(tǒng)根據(jù)用戶的選擇確定四個維度:用戶常用于計算的數(shù)據(jù),用戶計 算方向的類別,用戶選擇數(shù)據(jù)的等級,用戶計算結果的使用率,將用戶的維度映射到分類體 系結構中。系統(tǒng)根據(jù)用戶維度,進行權重調(diào)節(jié)并計算,把結果存儲至用戶數(shù)據(jù)細節(jié)層;
[0015] (1-8)半自動檢索提取,用戶手工選擇部分參與計算的數(shù)據(jù)源后;系統(tǒng)根據(jù)本次 計算目的,對人工選擇的記錄集,進行自動驗證,屏蔽或剔除類型不符合、目的不符合、來源 不符合、層次不符合的數(shù)據(jù)源;系統(tǒng)啟用提取方法;提取數(shù)據(jù)與用戶數(shù)據(jù)匯集后進行計算;
[0016] (1-9)全自動檢索提取,系統(tǒng)根據(jù)本次計算目的,系統(tǒng)啟用提取方法,提取數(shù)據(jù)自 動進行計算;
[0017] (1-10)提取算法
[0018] 首先根據(jù)水質(zhì)環(huán)境數(shù)據(jù)中已定義的主外鍵關聯(lián)、動態(tài)屬性關聯(lián)、級別識別關聯(lián),采 用SQL傳統(tǒng)模式進行查詢提取。
[0019] 然后在表關聯(lián)提取的基礎上,增加用戶維度比擬,并實時更新用戶數(shù)據(jù)細節(jié)層。
[0020] 最后將SQL模式查詢出的記錄,維度比擬度較高的記錄存儲于臨時表中,分別賦 予相同的初始正負系數(shù)值,進行兩輪計算,一輪正數(shù)計算,一輪負數(shù)計算,然后正負相減能 到F值,根據(jù)F判斷記錄的可信度,記錄的初始可信參數(shù)是0. 85,然后給每條記錄賦維度比 擬值R(用戶1,用戶2,……)組成的組合權重。每條記錄都有獨立的權重,通過疊加計 算,生成新的權重調(diào)節(jié),并對每條記錄進行更新,然后再進行新一輪大迭代,針對本次計算 目的,得到新的可信參數(shù)。對可信參數(shù)進行排序,采用數(shù)量函數(shù)提取可信度高的數(shù)據(jù)集。
[0021] (1-11)每當有用戶使用新的提取、更新、驗證,這些操作就作為新記錄進入用戶數(shù) 據(jù)細節(jié)隊列。
【附圖說明】
[0022] 圖1是系統(tǒng)提取方法的整體結構圖
[0023] 圖2是系統(tǒng)數(shù)據(jù)的業(yè)務關系邏輯圖,分成圖2(a),圖2(b),圖2(c),圖2(d),圖 2(e)
【具體實施方式】
[0024] 下面結合附圖對本發(fā)明的【具體實施方式】做進一步說明。
[0025] 首先,本發(fā)明提供一種基于水質(zhì)基準計算的數(shù)據(jù)提取方法,包括如下步驟:
[0026] (1)組建數(shù)據(jù)提取系統(tǒng)框架,系統(tǒng)框架由數(shù)據(jù)庫服務器、應用服務器、用戶終端、路 由器、網(wǎng)線組成。數(shù)據(jù)庫服務器作為數(shù)據(jù)倉庫存儲數(shù)據(jù);應用服務器部署中間件,執(zhí)行數(shù)據(jù) 提取操作的應用程序;用戶終端提供給用戶/管理員上傳數(shù)據(jù)、計算數(shù)據(jù)、下載數(shù)據(jù)等;路 由器和網(wǎng)線用于連接數(shù)據(jù)庫服務器、應用服務器、用戶終端。
[0027] (2)數(shù)據(jù)庫服務器的數(shù)據(jù)來源于用戶終端的傳遞,用戶終端可以是管理員或者科 研用戶。用戶終端把數(shù)據(jù)提交給應用服務器,應用服務器根據(jù)驗證邏輯進行數(shù)據(jù)檢驗,并將 數(shù)據(jù)提取進入數(shù)據(jù)篩選單元,應用根據(jù)數(shù)據(jù)類別、數(shù)據(jù)格式、數(shù)據(jù)范值、數(shù)據(jù)精度進行對比, 加工成符合規(guī)范的等級數(shù)據(jù)。數(shù)據(jù)類別例如國內(nèi)的、國外的、實驗的、一類、二級等,對數(shù)據(jù) 的等級與關聯(lián)進行檢索,并完成量化工作。
[0028] (3)應用服務器將經(jīng)過規(guī)范化處理的數(shù)據(jù)導入數(shù)據(jù)庫服務器。
[0029] (4)應用服務器根據(jù)水生生物、沉積物、毒性數(shù)據(jù)、人體健康等業(yè)務關系邏輯,建立 關聯(lián)模型表,如圖2所示。并將數(shù)據(jù)存儲轉換為列式存儲,方便SQL查詢與提??;應用服務 器將數(shù)據(jù)存儲轉換為列式存儲,它只需要讀出應用需要的列,而再要像行存儲讀出當前行 的所有列,從而減少緩存數(shù)據(jù)量,有效的利用數(shù)據(jù)庫服務緩存,同時減少網(wǎng)絡傳輸,并且由 于是數(shù)據(jù)類型相同的的數(shù)據(jù)連續(xù)存儲,能夠利用序列化和壓縮減少空間的占用。
[0030] (5)水質(zhì)環(huán)境數(shù)據(jù)應用目前面向與開放的是各高校、科研單位的用戶,管理員對邀 請、主動申請、主動授權的用戶進行檢驗。系統(tǒng)根據(jù)用戶分類情況,自動評分,并存儲于用戶