一種樣本數(shù)據(jù)的整合系統(tǒng)及方法
【專利摘要】本發(fā)明公開(kāi)了一種樣本數(shù)據(jù)的整合系統(tǒng)及方法,該方法包括:處理器將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在所述內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行;所述處理器檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),在內(nèi)存中對(duì)所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,將內(nèi)存中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。本發(fā)明能夠提高了預(yù)測(cè)模型的樣本建立過(guò)程的準(zhǔn)確性和及時(shí)性。
【專利說(shuō)明】一種樣本數(shù)據(jù)的整合系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)屬于數(shù)據(jù)預(yù)測(cè)模型領(lǐng)域,具體地說(shuō),涉及一種樣本數(shù)據(jù)的整合系統(tǒng)及方法?!颈尘凹夹g(shù)】
[0002]現(xiàn)有技術(shù)中的數(shù)據(jù)預(yù)測(cè)一般均采用數(shù)據(jù)預(yù)測(cè)模型方式。通過(guò)從簡(jiǎn)化的數(shù)學(xué)公式上:Y=BX+e ;其中Y就是要預(yù)測(cè)的事件(自變量),通常為一個(gè)固定的時(shí)間窗口。這里X是影響Y的因子,而B(niǎo)就是要估計(jì)的參數(shù);e為誤差。而現(xiàn)有的數(shù)據(jù)預(yù)測(cè)模型對(duì)于其中的Y (自變量)通常都有一個(gè)固定的N天或者月的預(yù)測(cè)窗口 X。
[0003]比如:預(yù)測(cè)風(fēng)險(xiǎn)時(shí),銀行要預(yù)測(cè)一個(gè)客戶從現(xiàn)在這個(gè)時(shí)點(diǎn)算起,在未來(lái)12個(gè)月的出險(xiǎn)概率。在市場(chǎng)營(yíng)銷上,企業(yè)會(huì)預(yù)測(cè),在實(shí)施一個(gè)促銷活動(dòng)后的3個(gè)月內(nèi),顧客會(huì)來(lái)光顧或使用產(chǎn)品的概率。
[0004]上述所有的這些數(shù)據(jù)預(yù)測(cè)模型在預(yù)測(cè)的時(shí)間窗口(Y)上都是必須固定的。這是因?yàn)橹挥泄潭ǖ臅r(shí)間窗口,在不同的實(shí)施時(shí)間點(diǎn)(比如實(shí)施在I月,或者2月)實(shí)行的促銷活動(dòng)才是可比的。理論上,事件發(fā)生的概率是服從一定時(shí)間分布的(有一個(gè)⑶F(累計(jì)分布函數(shù),cumulative distribution function))累計(jì)的概念),觀測(cè)時(shí)間窗口越長(zhǎng),發(fā)生概率也越大。所以,只有固定預(yù)測(cè)時(shí)間窗口,才可以把不同時(shí)間點(diǎn)實(shí)行的樣本聯(lián)合起來(lái)建模,從而得出穩(wěn)定和準(zhǔn)確的預(yù)測(cè)。
[0005]然而,(如圖1所示)固定的時(shí)間窗口的數(shù)據(jù)預(yù)測(cè)模型有一個(gè)巨大的缺陷,就是所有可以拿來(lái)建模的樣本必須保留固定的時(shí)間窗口的表現(xiàn)期,而比較新的樣本,由于其表現(xiàn)期較短,無(wú)法滿足預(yù)定的時(shí)間窗口的話,這些樣本通常都被浪費(fèi)而舍棄了。如圖1所示為例:站在現(xiàn)在2012年6月的這個(gè)點(diǎn)上,如果想建立一個(gè)10個(gè)月的固定的時(shí)間窗口的數(shù)據(jù)預(yù)測(cè)模型,所用的數(shù)據(jù)則可以是2011年I月到2011年10月,2011年2月到2011年11月,以此類推,則最近的可用數(shù)據(jù)是2011年9月。所有能夠拿來(lái)用來(lái)建模的數(shù)據(jù)樣本就只有黑色線條圍成的平行四邊形黑色部分。顯然,2011年10月以后的數(shù)據(jù)即下面的白色三角部分(觀測(cè)窗口不足10個(gè)月)就只能被舍棄;同樣上面的黑色線條圍成的三角形白色部分(觀測(cè)窗口大于12個(gè)月)通常也是被忽略的。
[0006]對(duì)于上述這2塊三角形區(qū)域,目前業(yè)界普遍的做法是忽略。但實(shí)際上很多人都想利用這塊數(shù)據(jù),但沒(méi)有合適的方法。因?yàn)槿绻苯訉⒉蛔阌^測(cè)窗口的數(shù)據(jù)應(yīng)用進(jìn)來(lái)的話,會(huì)產(chǎn)生很大的一個(gè)偏差。其原因在于,預(yù)測(cè)的事件概率會(huì)隨著時(shí)間窗口的變化呈非線性的上升趨勢(shì)(這個(gè)趨勢(shì)通常是某種統(tǒng)計(jì)分布的累計(jì)分布函數(shù)(⑶F, cumulative distributionfunction)。
[0007]如圖2所示,如果原先設(shè)定的預(yù)測(cè)的固定的時(shí)間窗口是10個(gè)月的話,事件在10個(gè)月內(nèi)的發(fā)生概率在65%左右,但在6個(gè)月時(shí),其實(shí)際發(fā)生概率可能只有15%左右。如果直接把15%發(fā)生概率的數(shù)據(jù)混合在平均65%的發(fā)生率樣本中,產(chǎn)生的數(shù)據(jù)偏差將會(huì)是非常大的。
[0008]可以看出,如果不加調(diào)整,直接使用不足觀測(cè)的時(shí)間窗口的新數(shù)據(jù)會(huì)造成預(yù)測(cè)的偏差(進(jìn)行低估的價(jià)值),但現(xiàn)有技術(shù)方案中還沒(méi)有一種方式可以調(diào)整這些新數(shù)據(jù),從而使這部分新數(shù)據(jù)可以被利用。
【發(fā)明內(nèi)容】
[0009]有鑒于此,本申請(qǐng)所要解決的技術(shù)問(wèn)題是提供了一種樣本數(shù)據(jù)的整合系統(tǒng)及方法,通過(guò)對(duì)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行有效的調(diào)整,來(lái)解決固定時(shí)間窗口的預(yù)測(cè)模型中無(wú)法使用和必須舍棄無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的缺點(diǎn)問(wèn)題。
[0010]為了解決上述技術(shù)問(wèn)題,本申請(qǐng)公開(kāi)了一種樣本數(shù)據(jù)的整合方法,包括:處理器將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在所述內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行;所述處理器檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),在內(nèi)存中對(duì)所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,將內(nèi)存中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。
[0011]進(jìn)一步包括:所述處理器調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的權(quán)重值。
[0012]進(jìn)一步地,所述時(shí)間,包括以月、日或年為單位的時(shí)間中的一種或多種的組合。
[0013]進(jìn)一步還包括:所述處理器將數(shù)據(jù)庫(kù)中出現(xiàn)具有多個(gè)固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在所述內(nèi)存中分別對(duì)每個(gè)需要制作成固定時(shí)間窗口預(yù)測(cè)模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個(gè)整體的樣本的概率信息。
[0014]進(jìn)一步地,所述合并構(gòu)建一個(gè)整體的樣本的概率信息的方法,包括以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
[0015]為了解決上述技術(shù)問(wèn)題,本申請(qǐng)還公開(kāi)了一種樣本數(shù)據(jù)的整合系統(tǒng),包括:構(gòu)造模塊、調(diào)整模塊以及合并模塊,其中,所述構(gòu)造模塊,用于將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行;所述調(diào)整模塊,用于當(dāng)檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),在內(nèi)存中對(duì)所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整;
[0016]所述合并模塊,用于將內(nèi)存中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。
[0017]進(jìn)一步包括:所述調(diào)整模塊調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的權(quán)重值。
[0018]進(jìn)一步地,所述時(shí)間,包括以月、日或年為單位的時(shí)間中的一種或多種的組合。
[0019]進(jìn)一步地,所述構(gòu)造模塊,還用于將數(shù)據(jù)庫(kù)中出現(xiàn)具有多個(gè)固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在所述內(nèi)存中分別對(duì)每個(gè)需要制作成固定時(shí)間窗口預(yù)測(cè)模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個(gè)整體的樣本的概率信息。
[0020]進(jìn)一步地,所述構(gòu)造模塊,合并構(gòu)建一個(gè)整體的樣本的概率信息時(shí),采用以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
[0021]為了解決上述技術(shù)問(wèn)題,本申請(qǐng)還公開(kāi)了一種樣本數(shù)據(jù)的整合方法,包括:處理器將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行;所述處理器檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),在內(nèi)存中對(duì)所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,將內(nèi)存中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理;所述處理器未檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),則直接對(duì)構(gòu)造完成的樣本的概率信息進(jìn)行建模處理。
[0022]進(jìn)一步包括:所述處理器調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的權(quán)重值。
[0023]進(jìn)一步地,所述時(shí)間,包括以月、日或年為單位的時(shí)間中的一種或多種的組合。
[0024]進(jìn)一步還包括:所述處理器將數(shù)據(jù)庫(kù)中出現(xiàn)具有多個(gè)固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在內(nèi)存中分別對(duì)每個(gè)需要制作成固定時(shí)間窗口預(yù)測(cè)模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個(gè)整體的樣本的概率信息。
[0025]進(jìn)一步地,所述合并構(gòu)建一個(gè)整體的樣本的概率信息的方法,包括以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
[0026]與現(xiàn)有的方案相比,本申請(qǐng)所獲得的技術(shù)效果:
[0027]第一,能夠?qū)υ诠潭〞r(shí)間窗口內(nèi)進(jìn)行預(yù)測(cè)模型的樣本的建立過(guò)程中對(duì)其中的所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,使其既能反映出最新的信息,又不會(huì)在數(shù)值上對(duì)原始數(shù)據(jù)造成偏差,從而能夠進(jìn)行更加合理的使用;
[0028]第二,能大大的提高了預(yù)測(cè)模型的樣本建立過(guò)程的準(zhǔn)確性,及時(shí)性。
[0029]當(dāng)然,實(shí)施本申請(qǐng)的任一產(chǎn)品必不一定需要同時(shí)達(dá)到以上所述的所有技術(shù)效果。
【專利附圖】
【附圖說(shuō)明】
[0030]此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
[0031]圖1是現(xiàn)有技術(shù)中的一個(gè)10個(gè)月的固定的時(shí)間窗口的數(shù)據(jù)預(yù)測(cè)模型的示意圖;
[0032]圖2是圖1所示內(nèi)容中樣本的發(fā)生概率變化的對(duì)應(yīng)曲線圖;
[0033]圖3是本申請(qǐng)實(shí)施例所述的一種樣本數(shù)據(jù)的整合方法流程框圖;
[0034]圖4是為本申請(qǐng)實(shí)施例所述的一種樣本數(shù)據(jù)的整合系統(tǒng)方框示意圖;
[0035]圖5是采用步驟301的本申請(qǐng)另一個(gè)實(shí)施例以10個(gè)月為固定時(shí)間窗口預(yù)測(cè)模型的樣本進(jìn)行樣本的發(fā)生概率曲線的構(gòu)造,然后在合并構(gòu)建一條整體的樣本的發(fā)生概率曲線圖;
[0036]圖6是采用步驟302的本申請(qǐng)另一個(gè)實(shí)施例以10個(gè)月為固定時(shí)間窗口的預(yù)測(cè)模型的樣本情況下,所有樣本的列表的分布權(quán)重調(diào)整圖。
[0037]圖7是本申請(qǐng)另一個(gè)實(shí)施例所述的一種樣本數(shù)據(jù)的整合方法流程框圖。
【具體實(shí)施方式】
[0038]以下將配合圖式及實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)的實(shí)施方式,藉此對(duì)本申請(qǐng)如何應(yīng)用技術(shù)手段來(lái)解決技術(shù)問(wèn)題并達(dá)成技術(shù)功效的實(shí)現(xiàn)過(guò)程能充分理解并據(jù)以實(shí)施。
[0039]本申請(qǐng)的應(yīng)用場(chǎng)景
[0040]上述本申請(qǐng)實(shí)施例所述的方法,主要是應(yīng)用于具有處理器、數(shù)據(jù)庫(kù)、內(nèi)存和緩存的系統(tǒng)對(duì)產(chǎn)品概率統(tǒng)計(jì)領(lǐng)域,這里具體應(yīng)用可以包括:
[0041]I)票據(jù)、期貨、證券分析員對(duì)大盤進(jìn)行市值匯總分析及對(duì)個(gè)股進(jìn)行業(yè)績(jī)等績(jī)優(yōu)股評(píng)定時(shí),需要有一整套的產(chǎn)品概率的統(tǒng)計(jì)才能進(jìn)行分析。股市信息往往是使用數(shù)據(jù)表的形式存儲(chǔ)整理,這里通過(guò)概率信息(所屬概率信息包括但不限于發(fā)生概率曲線)進(jìn)行統(tǒng)計(jì)分析。
[0042]2)銀行的數(shù)據(jù)分析人員向個(gè)人用戶或單位用戶提供年終賬單時(shí)進(jìn)行帳目分析時(shí),需要有一整套的數(shù)據(jù)信息的統(tǒng)計(jì)才能進(jìn)行分析。所以這里也適用本申請(qǐng)的技術(shù)方案。
[0043]3)信貸機(jī)構(gòu)對(duì)申請(qǐng)貸款的客戶進(jìn)行客戶審批信息的分析時(shí),客戶審批信息往往包括用戶的信用記錄和交易記錄,此時(shí)也是需要有一整套的數(shù)據(jù)信息的統(tǒng)計(jì)才能進(jìn)行分析。所以這里也適用本申請(qǐng)的技術(shù)方案。
[0044]總之,本申請(qǐng)并不限于以上應(yīng)用場(chǎng)景,還存在其他適用于涉及數(shù)據(jù)信息的統(tǒng)計(jì)并進(jìn)行分析以及具體地概率信息的統(tǒng)計(jì)分析的場(chǎng)景。
[0045]實(shí)施例描沭
[0046]如圖3所示,本申請(qǐng)實(shí)施例所述的一種樣本數(shù)據(jù)的整合方法,主要是應(yīng)用于具有處理器、數(shù)據(jù)庫(kù)(一般位于云端或者本地的數(shù)據(jù)硬盤)、內(nèi)存和緩存的系統(tǒng),具體步驟包括:
[0047]步驟301,處理器將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在所述內(nèi)存中構(gòu)造所述樣本的概率信息(所述概率信息包括但不限于發(fā)生概率曲線)并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行。
[0048]在本實(shí)施例中所述時(shí)間是以月為單位進(jìn)行的操作,當(dāng)然這里所述的時(shí)間還可以是月、日、年為單位的時(shí)間,也可以是它們中多種的組合,對(duì)所述時(shí)間這個(gè)單位的概念這里不做具體限定。
[0049]其中,步驟301具體地為:處理器將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,實(shí)際上是處理器向數(shù)據(jù)庫(kù)(一般位于云端或者本地的數(shù)據(jù)硬盤)、內(nèi)存發(fā)送控制信息,通知將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,之后數(shù)據(jù)庫(kù)按控制信息把該樣本發(fā)給內(nèi)存,然后處理器再發(fā)送控制信息給內(nèi)存和緩存,指示在內(nèi)存中構(gòu)造所述樣本的概率信息并將所述概率信息保存到緩存中。
[0050]步驟302,處理器檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),在內(nèi)存中對(duì)所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重
進(jìn)行調(diào)整。
[0051]其中,對(duì)于步驟302中進(jìn)一步包括:所述處理器調(diào)高在內(nèi)存的所述樣本中出現(xiàn)的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的權(quán)重值。
[0052]其中,步驟302具體地為:當(dāng)處理器檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),發(fā)送控制信息對(duì)加載到內(nèi)存的所述樣本中所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,即調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的權(quán)重值。[0053]步驟303,處理器將內(nèi)存中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。
[0054]其中,步驟303具體地為:處理器發(fā)送控制信息將調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率從內(nèi)存調(diào)到緩存中,并指示緩存中已有的所述概率信息與調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行合并,然后在緩存中進(jìn)行建模處理;當(dāng)然,也可以由處理器發(fā)送控制信息,將緩存中已有的所述概率信息加載回內(nèi)存,與內(nèi)存中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行合并,然后在內(nèi)存中進(jìn)行建模處理。
[0055]步驟303中所述的建模處理,實(shí)際上是現(xiàn)有技術(shù)中常用的所謂的建模處理,由于該建模處理屬于本領(lǐng)域技術(shù)人員都知悉的現(xiàn)有技術(shù)的手段,因此這里不再贅述。
[0056]如以圖6所示為具體一實(shí)施例,具體說(shuō)明下在以10個(gè)月為固定時(shí)間窗口的預(yù)測(cè)模型的樣本(包括但不限于財(cái)務(wù)數(shù)據(jù))情況下,當(dāng)樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)時(shí),處理器則需要在內(nèi)存中對(duì)無(wú)觀測(cè)值的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,調(diào)整方法為:所述處理器調(diào)高在內(nèi)存的所述樣本中出現(xiàn)的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的權(quán)重值。
[0057]這里處理器之所以采用調(diào)高權(quán)重值的做法,是因?yàn)闄?quán)重在評(píng)價(jià)過(guò)程中,是被評(píng)價(jià)對(duì)象的不同側(cè)面的重要程度的定量分配,對(duì)各評(píng)價(jià)因子在總體評(píng)價(jià)中的作用進(jìn)行區(qū)別對(duì)待。這里僅以如下實(shí)施例進(jìn)行說(shuō)明具體調(diào)高權(quán)重值的過(guò)程,但對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),并不局限于以下的方式,還可以采取其他方式以達(dá)到調(diào)高權(quán)重值的目的。
[0058]以2011年11月至2012年6月為止的數(shù)據(jù)為例,月度數(shù)據(jù)只有8個(gè)月的觀測(cè)期(不足10個(gè)月的固定時(shí)間窗口);其中,好樣本1、2在8個(gè)月內(nèi)都為‘好’,則第9個(gè)月和第10個(gè)月這兩個(gè)月的無(wú)觀測(cè)值的時(shí)間點(diǎn)上的分布權(quán)重?zé)o調(diào)整,為I。對(duì)于壞樣本1、2則看其出現(xiàn)在哪個(gè)月,如果出現(xiàn)在第7個(gè)月(壞樣本1),則根據(jù)整體概率分布線,按照第7個(gè)月和第10個(gè)月的的概率值,將其第9個(gè)月和第10個(gè)月這兩個(gè)月的無(wú)觀測(cè)值的時(shí)間點(diǎn)上的分布權(quán)重調(diào)高為 72.6%/27.4%=2.65。
[0059]這里處理器之所以采用第7個(gè)月,而不按照第8個(gè)月的概率值進(jìn)行計(jì)算(即72.6%/42.1%=1.72),是因?yàn)?.72這個(gè)值比2.65這個(gè)值要小,所以調(diào)整幅度相對(duì)來(lái)說(shuō)就小,因此這里采用2.65進(jìn)行分布調(diào)整;
[0060]同時(shí)需要說(shuō)明的是這里采用10個(gè)月的概率進(jìn)行計(jì)算,是因?yàn)樵诒緦?shí)施例這種情況下所有其他樣本都是以固定的10個(gè)月為觀測(cè)窗口的。所以以10個(gè)月為固定時(shí)間窗口的預(yù)測(cè)模型的樣本情況下,當(dāng)樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)時(shí),也必須按照10個(gè)月的概率值進(jìn)行返還,這樣才能保證當(dāng)樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)時(shí),總體的實(shí)際事件發(fā)生率仍然保持在72.6%。
[0061]顯然,壞得早的樣本,在具體現(xiàn)實(shí)中,其壞的程度要超過(guò)壞的晚的樣本,這也就是為什么給予其的權(quán)重要相對(duì)較高的原因,調(diào)整完后,該樣本在總體樣本中,將可以體現(xiàn)原樣本72.6%的實(shí)際發(fā)生率。同樣,以此類推,壞樣本2出現(xiàn)在第5個(gè)月,則將第9個(gè)月和第10個(gè)月這兩個(gè)月的無(wú)觀測(cè)值的時(shí)間點(diǎn)上的分布權(quán)重調(diào)高為72.6%/8.1%=8.96。
[0062]另外,還需要進(jìn)一步說(shuō)明下,該實(shí)施例采取了選擇最后一個(gè)第10個(gè)月即該時(shí)間點(diǎn)沒(méi)有對(duì)應(yīng)樣本的情況,用這個(gè)第10個(gè)月的概率值除以第7個(gè)月的概率作為調(diào)整后的權(quán)重值,但這并不是限定必須要用第10個(gè)月來(lái)進(jìn)行操作,之所以選擇第10個(gè)月就是為了與之前第一次出現(xiàn)壞樣本的時(shí)間點(diǎn)拉大距離,以增大權(quán)重值的調(diào)整幅度。即處理器是運(yùn)用所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)與壞樣本出現(xiàn)的時(shí)間點(diǎn)之間跨度最大的兩者的概率值計(jì)算得到調(diào)整后的權(quán)重值。
[0063]上述實(shí)施例是以10個(gè)月為例。如果實(shí)際情況是要24個(gè)月(或者其他任何X個(gè)月的窗口)的話,那權(quán)重調(diào)整也必須以24個(gè)月(或X個(gè)月)的實(shí)際事件發(fā)生率,來(lái)除以不足觀測(cè)期樣本在概率曲線上對(duì)應(yīng)的實(shí)際發(fā)生值,從而得出調(diào)整權(quán)重。
[0064]對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),采用何種具體手段調(diào)整權(quán)重值在本申請(qǐng)中并不做具體限定,是因?yàn)楸绢I(lǐng)域技術(shù)人員只要得知是通過(guò)調(diào)整權(quán)重值這個(gè)技術(shù)啟示,就可以得出多種方式來(lái)實(shí)現(xiàn)調(diào)整權(quán)重值,因此這對(duì)本領(lǐng)域來(lái)說(shuō)是顯而易見(jiàn)的。
[0065]此外,對(duì)于該實(shí)施例中壞樣本以及好樣本的判斷并不是本申請(qǐng)所要解決的問(wèn)題,對(duì)于好壞或者優(yōu)劣的觀測(cè)值來(lái)說(shuō),是事先已經(jīng)通過(guò)判斷確定的內(nèi)容。本申請(qǐng)是通過(guò)對(duì)現(xiàn)有已經(jīng)明確的觀測(cè)值進(jìn)行處理,以達(dá)到解決固定時(shí)間窗口的預(yù)測(cè)模型中無(wú)法使用和必須舍棄無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的缺點(diǎn)問(wèn)題。
[0066]對(duì)應(yīng)于上述實(shí)施例來(lái)說(shuō),也就是將調(diào)整后的權(quán)重值2.65乘以壞樣本出現(xiàn)的時(shí)間點(diǎn)即第7、8兩個(gè)月份的概率,從而得到調(diào)整分布權(quán)重后的第7、8兩個(gè)月份的對(duì)應(yīng)的概率(t匕如第7個(gè)月調(diào)整為:2.65*27.4%=72.6% ;第8個(gè)月調(diào)整為:2.65*42.1%=111.57%),在將其合并到之前產(chǎn)生的所述樣本的發(fā)生概率曲線中,并進(jìn)行建模處理。當(dāng)然,利用調(diào)整后的權(quán)重值對(duì)數(shù)據(jù)樣本進(jìn)行修正,本申請(qǐng)不限于上述方式,本領(lǐng)域技術(shù)人員在獲得調(diào)整后的權(quán)重值及數(shù)據(jù)樣本的情況下,有能力利用任何熟知的方式進(jìn)行修正。
[0067]如圖4所示,本申請(qǐng)實(shí)施例所述的一種樣本數(shù)據(jù)的整合系統(tǒng),該系統(tǒng)作為處理器41的一部分,主要是應(yīng)用于具有數(shù)據(jù)庫(kù)42 (—般位于云端或者本地的數(shù)據(jù)硬盤)內(nèi)存43和緩存44的系統(tǒng),該系統(tǒng)包括:構(gòu)造模塊401、調(diào)整模塊402以及合并模塊403,其中,細(xì)連接線表示控制信息(包括各硬件設(shè)備間交互的控制指令)連接,箭頭線表示業(yè)務(wù)數(shù)據(jù)(包括但不限于概率信息、樣本等)連接;
[0068]構(gòu)造模塊401,與所述調(diào)整模塊402相耦接,用于將數(shù)據(jù)庫(kù)42中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存43中,在內(nèi)存43中構(gòu)造所述樣本的概率信息(所述概率信息包括但不限于發(fā)生概率曲線)并在緩存44中緩存所述概率信息,通知所述調(diào)整模塊402樣本已加載到內(nèi)存43、所述概率信息已緩存,其中,構(gòu)造所述概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行;在實(shí)際操作中,構(gòu)造模塊401分別向數(shù)據(jù)庫(kù)42、內(nèi)存43發(fā)送控制信息,通知數(shù)據(jù)庫(kù)42將保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存43,之后數(shù)據(jù)庫(kù)42按控制信息把該樣本發(fā)給內(nèi)存43 ;然后構(gòu)造模塊401再發(fā)送控制信息給內(nèi)存43和緩存44,在內(nèi)存43中構(gòu)造所述樣本的概率信息,將所述概率信息由內(nèi)存43傳輸?shù)骄彺?4中保存;
[0069]調(diào)整模塊402,分別與所述構(gòu)造模塊401和合并模塊403相耦接,用于接收所述構(gòu)造模塊401的通知,當(dāng)檢測(cè)出加載到內(nèi)存43的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),在內(nèi)存43中對(duì)所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,通知所述合并模塊403權(quán)重值已調(diào)整完畢;
[0070]合并模塊403,與所述調(diào)整模塊402相耦接,用于接收所述調(diào)整模塊402的通知,將內(nèi)存43中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率合并到緩存44中所保存的所述概率信息中,并進(jìn)行建模處理;在實(shí)際操作中,合并模塊403分別向內(nèi)存43、緩存44發(fā)送控制信息,內(nèi)存43將調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率傳輸?shù)骄彺?4中,并與緩存44中已有的所述概率信息進(jìn)行合并,然后在緩存44中進(jìn)行建模處理;當(dāng)然,合并模塊403也可以分別向內(nèi)存43、緩存44發(fā)送控制信息,將緩存44中已有的所述概率信息加載回內(nèi)存43,與內(nèi)存43中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行合并,然后在內(nèi)存43中進(jìn)行建模處理。
[0071]其中合并模塊403中所述的建模處理,實(shí)際上是現(xiàn)有技術(shù)中常用的所謂的建模處理,由于該建模處理屬于本領(lǐng)域技術(shù)人員都知悉的現(xiàn)有技術(shù)的手段,因此這里不再贅述。
[0072]如圖4所示的方法與上述圖3所示的實(shí)施例的方法的具體操作內(nèi)容一致,本領(lǐng)域技術(shù)人員根據(jù)上述內(nèi)容便可以得到圖4所示實(shí)施方式的具體操作過(guò)程,這里不再贅述。
[0073]下面為對(duì)上述方法中步驟301,另一個(gè)實(shí)施例方式的進(jìn)一步詳細(xì)描述,(如圖5所示)具體內(nèi)容為:
[0074]針對(duì)步驟301,所述處理器將數(shù)據(jù)庫(kù)中當(dāng)出現(xiàn)多個(gè)固定時(shí)間窗口預(yù)測(cè)模型的樣本時(shí)候,在所述內(nèi)存中分別對(duì)每個(gè)需要制作成固定時(shí)間窗口預(yù)測(cè)模型的樣本(所述樣本也可以是數(shù)據(jù))進(jìn)行所述樣本的概率信息(所述概率信息包括但不限于發(fā)生概率曲線)的構(gòu)造,其中,構(gòu)造每個(gè)所述樣本的概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行,然后再將樣本的概率信息合并構(gòu)建一個(gè)整體的樣本的概率信息。
[0075]這里將圖1里面的每個(gè)月的月度數(shù)據(jù)2011年I月,2011年2月……,2012年4月的數(shù)據(jù)按照固定時(shí)間窗口的長(zhǎng)短排列在一起進(jìn)行觀測(cè)。這樣2011年10月以前的數(shù)據(jù)會(huì)有10月的充分觀測(cè)期(在圖5中表示為細(xì)的實(shí)線部分501);而2011年10月以后的數(shù)據(jù),則不足10月(從2011年11月至2012年4月),而只有部分觀測(cè)到的部分(在圖5中表示為粗的虛線502)。
[0076]根據(jù)這些不同長(zhǎng)短的線,構(gòu)建一個(gè)整體的樣本的概率信息(本實(shí)施例中所述概率信息使用發(fā)生概率曲線進(jìn)行描述,`在圖5中表示為黑色粗實(shí)線503)作為整體的樣本在不同固定時(shí)間窗口觀測(cè)期下的樣本的發(fā)生概率曲線。而這條整體的樣本的發(fā)生概率曲線是做為后續(xù)步驟302中所述處理器檢測(cè)出加載到內(nèi)存的所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整的基礎(chǔ)。
[0077]這里處理器或者服務(wù)器針對(duì)合并構(gòu)建一個(gè)整體的樣本的概率信息所采用的方法不做限定,其既可以采用比較簡(jiǎn)單近似的直接用平均方法進(jìn)行操作,還可以采用比較復(fù)雜精確一點(diǎn)的可以用每條時(shí)間(月度線)樣本數(shù)作為權(quán)重的加權(quán)平均值方法,也可以更加精準(zhǔn)的通過(guò)季節(jié)性分解或外生變量分解來(lái)提取總趨勢(shì)線的方法進(jìn)行制作,這里提到的采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法都屬于現(xiàn)有技術(shù)中的方式方法,因此這里不在詳細(xì)贅述。
[0078]如圖7所示,為本申請(qǐng)另一個(gè)實(shí)施例所述的一種樣本數(shù)據(jù)的整合方法流程圖,主要是應(yīng)用于具有處理器、數(shù)據(jù)庫(kù)(一般位于云端或者本地的數(shù)據(jù)硬盤)、內(nèi)存和緩存的系統(tǒng),具體步驟包括:
[0079]步驟701,處理器將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在所述內(nèi)存中構(gòu)造所述樣本的概率信息(所述概率信息包括但不限于發(fā)生概率曲線)并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行。
[0080]步驟702,所述處理器檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),在內(nèi)存中對(duì)所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布
權(quán)重進(jìn)行調(diào)整。
[0081]步驟703,處理器將內(nèi)存中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率合并到步驟701中所緩存的所述概率信息中,并進(jìn)行建模處理。
[0082]步驟704,處理器檢測(cè)加載到內(nèi)存的所述樣本中不存在無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),則直接在內(nèi)存中對(duì)構(gòu)造完成的樣本的概率信息進(jìn)行建模處理。
[0083]如圖7所示的方法與上述圖3所示的方法的具體操作內(nèi)容一致,本領(lǐng)域技術(shù)人員根據(jù)上述內(nèi)容便可以得到圖7所示實(shí)施方式的具體操作過(guò)程,這里不再贅述。
[0084]另外,在另一實(shí)施例中,還包括一種與本方法對(duì)應(yīng)的樣本數(shù)據(jù)的整合系統(tǒng),與附圖4所示的系統(tǒng)結(jié)構(gòu)相同,不同之處在于,調(diào)整模塊402檢測(cè)到加載到內(nèi)存43的所述樣本中不存在無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),通知合并模塊403直接在內(nèi)存43中對(duì)構(gòu)造完成的樣本的概率信息進(jìn)行建模處理。
[0085]與現(xiàn)有的方案相比,本申請(qǐng)所獲得的技術(shù)效果:
[0086]第一,能夠?qū)υ诠潭〞r(shí)間窗口內(nèi)進(jìn)行預(yù)測(cè)模型的樣本的建立過(guò)程中對(duì)其中的所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,使其既能反映出最新的信息,又不會(huì)在數(shù)值上對(duì)原始數(shù)據(jù)造成偏差,從而能夠進(jìn)行更加合理的使用;
[0087]第二,能大大的提高了預(yù)測(cè)模型的樣本建立過(guò)程的準(zhǔn)確性,及時(shí)性。
[0088]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0089]上述說(shuō)明示出并描述了本申請(qǐng)的若干優(yōu)選實(shí)施例,但如前所述,應(yīng)當(dāng)理解本申請(qǐng)并非局限于本文所披露的形式,不應(yīng)看作是對(duì)其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi),通過(guò)上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本申請(qǐng)的精神和范圍,則都應(yīng)在本申請(qǐng)所附權(quán)利要求的保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種樣本數(shù)據(jù)的整合方法,其特征在于,包括: 處理器將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在所述內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行; 所述處理器檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),在內(nèi)存中對(duì)所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,將內(nèi)存中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。
2.如權(quán)利要求1所述的樣本數(shù)據(jù)的整合方法,其特征在于,進(jìn)一步包括:所述處理器調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的權(quán)重值。
3.如權(quán)利要求1所述的樣本數(shù)據(jù)的整合方法,其特征在于,所述時(shí)間,包括以月、日或年為單位的時(shí)間中的一種或多種的組合。
4.如權(quán)利要求1所述的樣本數(shù)據(jù)的整合方法,其特征在于,進(jìn)一步還包括: 所述處理器將數(shù)據(jù)庫(kù)中出現(xiàn)具有多個(gè)固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在所述內(nèi)存中分別對(duì)每個(gè)需要制作成固定時(shí)間窗口預(yù)測(cè)模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個(gè)整體的樣本的概率信息。
5.如權(quán)利要求4所述的 樣本數(shù)據(jù)的整合方法,其特征在于,所述合并構(gòu)建一個(gè)整體的樣本的概率信息的方法,包括以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
6.一種樣本數(shù)據(jù)的整合系統(tǒng),其特征在于,包括:構(gòu)造模塊、調(diào)整模塊以及合并模塊,其中, 所述構(gòu)造模塊,用于將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行; 所述調(diào)整模塊,用于當(dāng)檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),在內(nèi)存中對(duì)所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整; 所述合并模塊,用于將內(nèi)存中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。
7.如權(quán)利要求6所述的樣本數(shù)據(jù)的整合系統(tǒng),其特征在于,進(jìn)一步包括:所述調(diào)整模塊調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的權(quán)重值。
8.如權(quán)利要求6所述的樣本數(shù)據(jù)的整合系統(tǒng),其特征在于,所述時(shí)間,包括以月、日或年為單位的時(shí)間中的一種或多種的組合。
9.如權(quán)利要求6所述的樣本數(shù)據(jù)的整合系統(tǒng),其特征在于, 所述構(gòu)造模塊,進(jìn)一步還用于將數(shù)據(jù)庫(kù)中出現(xiàn)具有多個(gè)固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在所述內(nèi)存中分別對(duì)每個(gè)需要制作成固定時(shí)間窗口預(yù)測(cè)模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個(gè)整體的樣本的概率信息。
10.如權(quán)利要求9所述的樣本數(shù)據(jù)的整合系統(tǒng),其特征在于,所述構(gòu)造模塊,合并構(gòu)建一個(gè)整體的樣本的概率信息時(shí),采用以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
11.一種樣本數(shù)據(jù)的整合方法,其特征在于,包括: 處理器將數(shù)據(jù)庫(kù)中保存的固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時(shí)間順序根據(jù)所述樣本中包含的時(shí)間點(diǎn)對(duì)應(yīng)的概率進(jìn)行; 所述處理器檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),在內(nèi)存中對(duì)所述無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,將內(nèi)存中調(diào)整分布權(quán)重后的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)對(duì)應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理; 所述處理器未檢測(cè)出加載到內(nèi)存的所述樣本中出現(xiàn)無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)時(shí),則直接對(duì)構(gòu)造完成的樣本的概率信息進(jìn)行建模處理。
12.如權(quán)利要求11所述的樣本數(shù)據(jù)的整合方法,其特征在于,進(jìn)一步包括:所述處理器調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無(wú)觀測(cè)值的時(shí)間點(diǎn)和/或新加入的時(shí)間點(diǎn)的權(quán)重值。
13.如權(quán)利要求11所述的樣本數(shù)據(jù)的整合方法,其特征在于,所述時(shí)間,包括以月、日或年為單位的時(shí)間中的一種或多種的組合。
14.如權(quán)利要求11所述的樣本數(shù)據(jù)的整合方法,其特征在于,進(jìn)一步還包括: 所述處理器將數(shù)據(jù)庫(kù)中出現(xiàn)具有多個(gè)固定時(shí)間窗口預(yù)測(cè)模型的樣本加載到內(nèi)存,在內(nèi)存中分別對(duì)每個(gè)需要制作成固定時(shí)間窗口預(yù)測(cè)模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個(gè)整體的樣本的概率信息。
15.如權(quán)利要求14所述的樣本數(shù)據(jù)的整合方法,其特征在于,所述合并構(gòu)建一個(gè)整體的樣本的概率信息的方法,包括以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
【文檔編號(hào)】G06F17/30GK103678322SQ201210322181
【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2012年9月3日 優(yōu)先權(quán)日:2012年9月3日
【發(fā)明者】盛子夏 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司