估計(jì)數(shù)據(jù)更新時刻的方法和設(shè)備、數(shù)據(jù)集成方法和設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明一般地涉及信息處理領(lǐng)域。具體而言,本發(fā)明涉及一種在數(shù)據(jù)集成中估計(jì) 數(shù)據(jù)更新時刻的方法和設(shè)備、W及相應(yīng)的數(shù)據(jù)集成方法和設(shè)備。
【背景技術(shù)】
[0002] 在許多大型或者中型的機(jī)構(gòu),如組織、公司等中,有很多獨(dú)立的、分隔開的系統(tǒng),送 些系統(tǒng)之間不能彼此交流數(shù)據(jù)。重構(gòu)現(xiàn)有系統(tǒng)的代價通常是很高的,不同的系統(tǒng)又存在交 流數(shù)據(jù)的需要。
[0003] 因此,為了解決送一問題,提出了數(shù)據(jù)集成技術(shù)。如圖1所示,數(shù)據(jù)倉庫被利用來 存儲數(shù)據(jù),作為數(shù)據(jù)中必。基于數(shù)據(jù)倉庫中的數(shù)據(jù),可W進(jìn)行數(shù)據(jù)呈現(xiàn)和數(shù)據(jù)挖掘等。數(shù)據(jù) 倉庫中的數(shù)據(jù)是通過數(shù)據(jù)導(dǎo)入從數(shù)據(jù)源獲得的。數(shù)據(jù)源例如是數(shù)據(jù)庫管理系統(tǒng)、Excel表 格、網(wǎng)絡(luò)APP(應(yīng)用)等。當(dāng)然,希望數(shù)據(jù)倉庫中的數(shù)據(jù)與原始的數(shù)據(jù)源盡可能地保持一致。 但是,何時更新在數(shù)據(jù)倉庫中的數(shù)據(jù)是很難把握的。如果更新得不及時,則數(shù)據(jù)倉庫中的數(shù) 據(jù)不是最新的。如果更新得過于頻繁,又產(chǎn)生了過多的資源消耗。
[0004] 此外,如下兩種情況更是增加了數(shù)據(jù)集成的困難。一種情況是作為數(shù)據(jù)源的系 統(tǒng)是一個黑盒子型服務(wù)器。送種服務(wù)器除了應(yīng)用程序接口(Application Programming Intedace,API)之外,沒有提供任何接口幫助判斷數(shù)據(jù)更新時刻。另一種情況是系統(tǒng)部署 在局域網(wǎng)中,無法接觸到應(yīng)用,但是可W接觸到服務(wù)器,即,可訪問服務(wù)器,但不能訪問駐留 在服務(wù)器上的應(yīng)用。
[0005] 因此,期望一種針對如上所述的兩種情況能夠W較小的資源、較準(zhǔn)確地估計(jì)數(shù)據(jù) 更新時刻的方法和設(shè)備、W及相應(yīng)的數(shù)據(jù)集成方法和設(shè)備。
【發(fā)明內(nèi)容】
[0006] 在下文中給出了關(guān)于本發(fā)明的簡要概述,W便提供關(guān)于本發(fā)明的某些方面的基本 理解。應(yīng)當(dāng)理解,送個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的 關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是W簡化的形式給出某些概 念,W此作為稍后論述的更詳細(xì)描述的前序。
[0007] 本發(fā)明的目的是針對現(xiàn)有技術(shù)的上述問題,提出了一種針對如上所述的兩種情況 能夠W較小的資源消耗為代價相對準(zhǔn)確地估計(jì)數(shù)據(jù)更新時刻的方法和設(shè)備、W及相應(yīng)的數(shù) 據(jù)集成方法和設(shè)備。
[0008] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種估計(jì)數(shù)據(jù)更新時刻的方 法,該方法包括:對于僅公開應(yīng)用程序接口 API的黑盒子型服務(wù)器,利用隱馬爾可夫模型, W第一預(yù)定頻率,判斷當(dāng)前時刻與API相關(guān)聯(lián)的數(shù)據(jù)是否已更新,所述隱馬爾可夫模型的 顯式狀態(tài)是當(dāng)前時刻數(shù)據(jù)是否已更新,所述隱馬爾可夫模型的隱式狀態(tài)是距離上一次數(shù)據(jù) 更新的時間;對于可訪問服務(wù)器,捕獲超文本傳輸協(xié)議HTTP請求的出現(xiàn)及其時刻;根據(jù)與 可訪問服務(wù)器相關(guān)聯(lián)的數(shù)據(jù)的更新和HTTP請求的相關(guān)性,W第二預(yù)定頻率,判斷當(dāng)前時刻 數(shù)據(jù)是否已更新。
[0009] 相應(yīng)地,根據(jù)本發(fā)明的再一方面,提供了一種數(shù)據(jù)集成方法,該方法包括;根據(jù)如 上所述的估計(jì)數(shù)據(jù)更新時刻的方法,估計(jì)所述僅公開應(yīng)用程序接口的黑盒子型服務(wù)器或可 訪問服務(wù)器的數(shù)據(jù)是否已更新;W及如果判斷為數(shù)據(jù)已更新,則從相應(yīng)服務(wù)器獲取相應(yīng)的 數(shù)據(jù)并存儲到數(shù)據(jù)中必。
[0010] 根據(jù)本發(fā)明的另一個方面,提供了一種估計(jì)數(shù)據(jù)更新時刻的設(shè)備,該設(shè)備包括:第 一判斷裝置,對于僅公開應(yīng)用程序接口 API的黑盒子型服務(wù)器,利用隱馬爾可夫模型,W第 一預(yù)定頻率,判斷當(dāng)前時刻與API相關(guān)聯(lián)的數(shù)據(jù)是否已更新,所述隱馬爾可夫模型的顯式 狀態(tài)是當(dāng)前時刻數(shù)據(jù)是否已更新,所述隱馬爾可夫模型的隱式狀態(tài)是距離上一次數(shù)據(jù)更新 的時間;第二判斷裝置,對于可訪問服務(wù)器,捕獲超文本傳輸協(xié)議HTTP請求的出現(xiàn)及其時 亥IJ ;根據(jù)與可訪問服務(wù)器相關(guān)聯(lián)的數(shù)據(jù)的更新和HTTP請求的相關(guān)性,W第二預(yù)定頻率,判 斷當(dāng)前時刻數(shù)據(jù)是否已更新。
[0011] 相應(yīng)地,根據(jù)本發(fā)明的再一方面,提供了一種數(shù)據(jù)集成設(shè)備,其包括;如上所述的 估計(jì)數(shù)據(jù)更新時刻的設(shè)備,用于估計(jì)所述僅公開應(yīng)用程序接口的黑盒子型服務(wù)器或可訪問 服務(wù)器的數(shù)據(jù)是否已更新;W及獲取裝置,在判斷為數(shù)據(jù)已更新的情況下從相應(yīng)服務(wù)器獲 取相應(yīng)的數(shù)據(jù)并存儲到數(shù)據(jù)中必。
[0012] 另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲介質(zhì)。所述存儲介質(zhì)包括機(jī)器可 讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處 理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
[0013] 此外,根據(jù)本發(fā)明的再一方面,還提供了 一種程序產(chǎn)品。所述程序產(chǎn)品包括機(jī)器可 執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時,所述指令使得所述信息處理設(shè)備執(zhí)行 根據(jù)本發(fā)明的上述方法。
【附圖說明】
[0014] 參照下面結(jié)合附圖對本發(fā)明實(shí)施例的說明,會更加容易地理解本發(fā)明的W上和其 它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似 的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。附圖中:
[0015] 圖1示出了數(shù)據(jù)集成系統(tǒng)的示意圖;
[0016] 圖2示出了根據(jù)本發(fā)明的實(shí)施例的估計(jì)數(shù)據(jù)更新時刻的方法的流程圖;
[0017] 圖3示出了根據(jù)本發(fā)明的實(shí)施例的隱馬爾可夫模型的訓(xùn)練方法的流程圖;
[0018] 圖4示出了根據(jù)本發(fā)明的實(shí)施例的計(jì)算相關(guān)性的方法的流程圖;
[0019] 圖5示出了監(jiān)測結(jié)果的示例;
[0020] 圖6示出了根據(jù)本發(fā)明實(shí)施例的估計(jì)數(shù)據(jù)更新時刻的設(shè)備的結(jié)構(gòu)方框圖;
[0021] 圖7示出了根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)集成設(shè)備的結(jié)構(gòu)方框圖;W及
[0022] 圖8示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。
【具體實(shí)施方式】
[0023] 在下文中將結(jié)合附圖對本發(fā)明的示范性實(shí)施例進(jìn)行詳細(xì)描述。為了清楚和簡明起 見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何送種實(shí)際 實(shí)施方式的過程中必須做出很多特定于實(shí)施方式的決定,w便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo), 例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的郝些限制條件,并且送些限制條件可能會隨著實(shí)施方式的 不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時的,但對得益 于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,送種開發(fā)工作僅僅是例行的任務(wù)。
[0024] 在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中 僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明 關(guān)系不大的其他細(xì)節(jié)。另外,還需要指出的是,在本發(fā)明的一個附圖或一種實(shí)施方式中描述 的元素和特征可W與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。
[00巧]下面將參照圖2描述根據(jù)本發(fā)明的實(shí)施例的估計(jì)數(shù)據(jù)更新時刻的方法的流程。
[0026] 圖2示出了根據(jù)本發(fā)明的實(shí)施例的估計(jì)數(shù)據(jù)更新時刻的方法的流程圖。如圖2所 示,根據(jù)本發(fā)明的估計(jì)數(shù)據(jù)更新時刻的方法包括如下步驟:對于僅公開應(yīng)用程序接口 API 的黑盒子型服務(wù)器,利用隱馬爾可夫模型,W第一預(yù)定頻率,判斷當(dāng)前時刻與API相關(guān)聯(lián)的 數(shù)據(jù)是否已更新,所述隱馬爾可夫模型的顯式狀態(tài)是當(dāng)前時刻數(shù)據(jù)是否已更新,所述隱馬 爾可夫模型的隱式狀態(tài)是距離上一次數(shù)據(jù)更新的時間(步驟S1)。另外,根據(jù)本發(fā)明的估計(jì) 數(shù)據(jù)更新時刻的方法,對于可訪問服務(wù)器,首先捕獲超文本傳輸協(xié)議HTTP請求的出現(xiàn)及其 時刻(步驟S21);然后根據(jù)與可訪問服務(wù)器相關(guān)聯(lián)的數(shù)據(jù)的更新和HTTP請求的相關(guān)性,W 第二預(yù)定頻率,判斷當(dāng)前時刻數(shù)據(jù)是否已更新(步驟S22)。
[0027] 步驟S1針對僅公開應(yīng)用程序接口的黑盒子型服務(wù)器進(jìn)行處理。
[0028] 由于黑盒子型服務(wù)器僅公開應(yīng)用程序接口,所W只能觀測數(shù)據(jù)是否已更新的歷 史,根據(jù)觀測的結(jié)果,預(yù)測將來數(shù)據(jù)的更新時刻。送樣的觀測和預(yù)測通過隱馬爾可夫模型來 實(shí)現(xiàn)。
[0029] 具體地,將隱馬爾可夫模型的顯式狀態(tài)設(shè)定為當(dāng)前時刻數(shù)據(jù)是否已更新,將隱馬 爾可夫模型的隱式狀態(tài)設(shè)定為距離上一次數(shù)據(jù)更新的時間。通過對隱馬爾可夫模型進(jìn)行上 述設(shè)定,并利用歷史數(shù)據(jù)對隱馬爾可夫模型進(jìn)行訓(xùn)練,就能夠利用隱馬爾可夫模型進(jìn)行關(guān) 于數(shù)據(jù)更新時刻的判斷。
[0030] 在實(shí)際應(yīng)用時,利用隱馬爾可夫模型,W第一預(yù)定頻率,判斷當(dāng)前時刻與應(yīng)用程序 接口相關(guān)聯(lián)的數(shù)據(jù)是否已更新。
[0031] 此處的第一預(yù)定頻率可W由本領(lǐng)域技術(shù)人員靈活設(shè)計(jì),在設(shè)計(jì)時,可考慮系統(tǒng)資 源、判斷和更新的及時性等因素。
[0032] 第一預(yù)定頻率如果過于頻繁,則會增加很多無謂的探測和判斷,增加系統(tǒng)資源的 消耗。第一預(yù)定頻率如果過于稀疏,則會不利于及時更新數(shù)據(jù)。
[0033] 應(yīng)注意,應(yīng)用時的頻率與訓(xùn)練時的頻率相同,均為第一預(yù)定頻率。
[0034] 舉例來說,第一預(yù)定頻率可W被設(shè)計(jì)為每小時一次。
[0035] 由于黑盒子型服務(wù)器僅公開了應(yīng)用程序接口,所W無論訓(xùn)練還是應(yīng)用時,隱馬爾 可夫模型只能判斷與應(yīng)用程序接口相關(guān)聯(lián)的數(shù)據(jù)是否已更新。
當(dāng)前第1頁
1 
2 
3 
4