1.一種用于大數(shù)據(jù)分析的數(shù)據(jù)預測方法,其特征在于,包括:
為每個數(shù)據(jù)集建立索引;
提取每個數(shù)據(jù)集中的數(shù)據(jù)元素;
確定每個數(shù)據(jù)集中數(shù)據(jù)元素之間的關(guān)聯(lián)關(guān)系,根據(jù)所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)預測規(guī)則;
利用所述數(shù)據(jù)預測規(guī)則對目標數(shù)據(jù)進行預測,并根據(jù)預測結(jié)果準確性的反饋來改進數(shù)據(jù)預測規(guī)則。
2.如權(quán)利要求1所述的方法,其特征在于,
所述提取每個數(shù)據(jù)集中的數(shù)據(jù)元素,包括:
判斷當前數(shù)據(jù)集的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù);
如果當前數(shù)據(jù)集的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),則將當前數(shù)據(jù)集的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);
從當前數(shù)據(jù)集的結(jié)構(gòu)化數(shù)據(jù)中提取數(shù)據(jù)元素,并為每個數(shù)據(jù)元素設(shè)置唯一標識。
3.如權(quán)利要求1所述的方法,其特征在于,
所述確定每個數(shù)據(jù)集中數(shù)據(jù)元素之間的關(guān)聯(lián)關(guān)系,根據(jù)所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)預測規(guī)則,包括:
針對每個數(shù)據(jù)集:按照計算公式計算當前數(shù)據(jù)集中每兩個數(shù)據(jù)元素同時出現(xiàn)的概率;根據(jù)所述當前數(shù)據(jù)集中每兩個數(shù)據(jù)元素同時出現(xiàn)的概率,確定所述當前數(shù)據(jù)集的頻繁數(shù)據(jù)元素集,所述頻繁數(shù)據(jù)元素集中包括至少兩個數(shù)據(jù)元素;根據(jù)所述當前數(shù)據(jù)集的頻繁數(shù)據(jù)元素集,確定數(shù)據(jù)預測規(guī)則;
所述計算公式為:
或者,
P(A,B)表示數(shù)據(jù)元素A和數(shù)據(jù)元素B在當前數(shù)據(jù)集中同時出現(xiàn)的概率,C(A∩B)表示數(shù)據(jù)元素A和數(shù)據(jù)元素B在當前數(shù)據(jù)集中同時出現(xiàn)的次數(shù),C(A)表示數(shù)據(jù)元素A在當前數(shù)據(jù)集中出現(xiàn)的次數(shù),C(B)表示數(shù)據(jù)元素B在當前數(shù)據(jù)集中出現(xiàn)的次數(shù),T為當前數(shù)據(jù)集中所有數(shù)據(jù)元素的集合,∑X∈T C(X)為當前數(shù)據(jù)集中所有數(shù)據(jù)元素出現(xiàn)的次數(shù),α和β為可調(diào)節(jié)的修正系數(shù),用于使特殊情況計算得到的P(A,B)所受數(shù)據(jù)偏差的影響更小,n1和n2為可調(diào)節(jié)系數(shù),用于更精細的調(diào)節(jié),其值大于0。
4.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述當前數(shù)據(jù)集中每兩個數(shù)據(jù)元素同時出現(xiàn)的概率,確定所述當前數(shù)據(jù)集的頻繁數(shù)據(jù)元素集,包括:
當兩個數(shù)據(jù)元素同時出現(xiàn)的概率達到預設(shè)概率閾值時,確定該兩個數(shù)據(jù)元素構(gòu)成了一頻繁數(shù)據(jù)元素集;
當兩個頻繁數(shù)據(jù)元素集具有相同的數(shù)據(jù)元素時,提取該兩個頻繁數(shù)據(jù)元素集中不同的數(shù)據(jù)元素,計算不同的數(shù)據(jù)元素在當前數(shù)據(jù)集中出現(xiàn)的概率;當不同的數(shù)據(jù)元素在當前數(shù)據(jù)集中出現(xiàn)的概率達到預設(shè)概率閾值時,確定不同的數(shù)據(jù)元素構(gòu)成了一頻繁數(shù)據(jù)元素集。
5.如權(quán)利要求1所述的方法,其特征在于,所述利用所述數(shù)據(jù)預測規(guī)則對目標數(shù)據(jù)進行預測,包括:
根據(jù)已被規(guī)則引擎解析過的數(shù)據(jù)預測規(guī)則對目標數(shù)據(jù)進行預測。
6.如權(quán)利要求1所述的方法,其特征在于,還包括:
根據(jù)預測結(jié)果準確性的反饋,對所述數(shù)據(jù)預測規(guī)則及其形成機制進行修正改進。
7.一種用于大數(shù)據(jù)分析的數(shù)據(jù)預測裝置,其特征在于,包括:
索引建立模塊,用于為每個數(shù)據(jù)集建立索引;
數(shù)據(jù)元素提取模塊,用于提取每個數(shù)據(jù)集中的數(shù)據(jù)元素;
預測規(guī)則建立模塊,用于確定每個數(shù)據(jù)集中數(shù)據(jù)元素之間的關(guān)聯(lián)關(guān)系,根據(jù)所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)預測規(guī)則;
預測模塊,用于利用所述數(shù)據(jù)預測規(guī)則對目標數(shù)據(jù)進行預測,并根據(jù)預測結(jié)果準確性的反饋來改進數(shù)據(jù)預測規(guī)則。
8.如權(quán)利要求7所述的裝置,其特征在于:
數(shù)據(jù)元素提取模塊,用于判斷當前數(shù)據(jù)集的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),如果當前數(shù)據(jù)集的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),則將當前數(shù)據(jù)集的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并從當前數(shù)據(jù)集的結(jié)構(gòu)化數(shù)據(jù)中提取數(shù)據(jù)元素,并為每個數(shù)據(jù)元素設(shè)置唯一標識。
9.如權(quán)利要求7所述的裝置,其特征在于:
預測規(guī)則建立模塊,用于針對每個數(shù)據(jù)集:按照計算公式計算當前數(shù)據(jù)集中每兩個數(shù)據(jù)元素同時出現(xiàn)的概率;根據(jù)所述當前數(shù)據(jù)集中每兩個數(shù)據(jù)元素同時出現(xiàn)的概率,確定所述當前數(shù)據(jù)集的頻繁數(shù)據(jù)元素集,所述頻繁數(shù)據(jù)元素集中包括至少兩個數(shù)據(jù)元素;根據(jù)所述當前數(shù)據(jù)集的頻繁數(shù)據(jù)元素集,確定數(shù)據(jù)預測規(guī)則;
所述計算公式為:
或者,
其中,P(A,B)表示數(shù)據(jù)元素A和數(shù)據(jù)元素B在當前數(shù)據(jù)集中同時出現(xiàn)的概率,C(A∩B)表示數(shù)據(jù)元素A和數(shù)據(jù)元素B在當前數(shù)據(jù)集中同時出現(xiàn)的次數(shù),C(A)表示數(shù)據(jù)元素A在當前數(shù)據(jù)集中出現(xiàn)的次數(shù),C(B)表示數(shù)據(jù)元素B在當前數(shù)據(jù)集中出現(xiàn)的次數(shù),T為當前數(shù)據(jù)集中所有數(shù)據(jù)元素的集合,ΣX∈T C(X)為當前數(shù)據(jù)集中所有數(shù)據(jù)元素出現(xiàn)的次數(shù),α和β為可調(diào)節(jié)的修正系數(shù),用于使特殊情況計算得到的P(A,B)所受數(shù)據(jù)偏差的影響更小,n1和n2為可調(diào)節(jié)系數(shù),用于更精細的調(diào)節(jié),其值大于0。
10.如權(quán)利要求7所述的裝置,其特征在于,還包括:
修正模塊,用于根據(jù)預測結(jié)果準確性的反饋,對所述數(shù)據(jù)預測規(guī)則及其形成機制進行修正改進。