一種基于符號特征獲取事件大數(shù)據(jù)信息的算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種基于符號特征獲取事件大數(shù)據(jù)信息的算法。
【背景技術(shù)】
[0002] 對于"大數(shù)據(jù)"度igdata)研究機構(gòu)Gartner給出了運樣的定義:"大數(shù)據(jù)"是需 要新處理模式才能具有更強的決策力、桐察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多 樣化的信息資產(chǎn)。
[0003] 對于如圖1所示描述某一廣義事件的十進制時間序列,其大數(shù)據(jù)特征是怎樣的? 如果存在大數(shù)據(jù)特征,則如何得到該大數(shù)據(jù)特征?現(xiàn)有技術(shù)中獲得大數(shù)據(jù)的方法并不唯 一,本專利提出一種基于符號特征獲取事件大數(shù)據(jù)信息的算法。
【發(fā)明內(nèi)容】
[0004] 針對上述問題,本發(fā)明提供一種基于符號特征獲取事件大數(shù)據(jù)信息的算法,實現(xiàn) 了大數(shù)據(jù)特征的顯性化,便于判定對應(yīng)于某一符號碼S。的特定事件是否具有大數(shù)據(jù)特征; 進一步地,便于判定對應(yīng)于符號碼序列怯。}(也即對應(yīng)于十進制時間序列l(wèi)x。})的某一廣義 事件是否具有隨機性或確定性。 陽〇化]為實現(xiàn)上述技術(shù)目的,達到上述技術(shù)效果,本發(fā)明通過W下技術(shù)方案實現(xiàn):
[0006] 一種基于符號特征獲取事件大數(shù)據(jù)信息的算法,其特征在于,包括如下步驟:
[0007] 步驟1 :獲取事件的十進制時間序列{X。}并設(shè)置采樣總長度;
[0008] 步驟2 :設(shè)置待編碼的二進制符號長度L和取樣時延I;
[0009] 步驟3 :計算十進制時間序列{X。}的均值y ;
[0010] 步驟4 :Wy作為0和1兩個符號域的劃分線P。,設(shè)置闊值函數(shù)
[0011] 步驟5 :對{X。}遍施闊值函數(shù),按照二進制符號長度L和取樣時延I將十進制時 間序列l(wèi)x。}的元素X。變換為二進制符號序列{s。}中的元素S。,構(gòu)建二進制符號序列{s。};
[0012] 步驟6 :對{s。}進行十進制編碼,將其轉(zhuǎn)換為十進制符號碼序列怯。};
[001引步驟7 :統(tǒng)計怯。}中每個符號碼S。出現(xiàn)的頻度P。,形成符號碼S。-頻度P。直方圖 形。
[0014] 優(yōu)選,還包括步驟8:根據(jù)符號碼S。-頻度P。直方圖形計算改進賭Hg(L)。
[0015] 本發(fā)明的有益效果是:
[0016] 對該時間序列{X。}施行"粗粒化"一一符號化,使原來數(shù)值變化多端的時間序列 轉(zhuǎn)換成為僅有幾個數(shù)值的符號序列。通過"粗?;?加工,得到符號碼S。-頻度P。圖形,其 中,大頻度的符號碼對應(yīng)著強烈信息,小頻度的符號碼對應(yīng)著微弱信息,從而實現(xiàn)了大數(shù)據(jù) 特征的顯性化。
[0017] 進一步地,可對符號碼S。-頻度P。直方圖計算改進賭化),隨機性事件的 &化)>0.9,確定性事件的&(L)《0.1,從而可判定對應(yīng)于符號碼序列怯。}(也即對應(yīng)于 十進制時間序列l(wèi)x。})的某一廣義事件是否具有隨機性或確定性。
【附圖說明】
[001引圖1是某一廣義事件的十進制時間序列l(wèi)x。};
[0019] 圖2是十進制時間序列{x。}轉(zhuǎn)換為二進制符號序列{s。}的示意圖;
[0020] 圖3是某股指變化{X。}周度圖形及將其轉(zhuǎn)換為二進制符號序列{s。}的示意圖;
[0021] 圖4是二進制符號長度1 = 3時,某股指變化{X。}周度圖形的符號碼S。-頻度P。 直方圖;
[0022] 圖5是某四缸柴油機機身振動{X。}的示意圖;
[002引圖6是二進制符號長度L= 6時,某四缸柴油機機身振動{X。}的符號碼S。-頻度P。直方圖。
【具體實施方式】
[0024] 下面結(jié)合附圖和具體的實施例對本發(fā)明技術(shù)方案作進一步的詳細(xì)描述,W使本領(lǐng) 域的技術(shù)人員可W更好的理解本發(fā)明并能予W實施,但所舉實施例不作為對本發(fā)明的限 定。
[00巧]一種基于符號特征獲取事件大數(shù)據(jù)信息的算法,包括如下步驟:
[0026] 步驟1 :獲取事件的十進制時間序列{X。}并設(shè)置采樣總長度;
[0027] 步驟2:設(shè)置待編碼的二進制符號長度L和取樣時延I;
[002引步驟3 :計算十進制時間序列{x。}的均值y;
[0029] 步驟4 :Wy作為0和1兩個符號域的劃分線P。,設(shè)置闊值函曼
[0030] 步驟5 :對{X。}遍施闊值函數(shù),按照二進制符號長度L和取樣時延I將十進制時 間序列l(wèi)x。}的元素X。變換為二進制符號序列{s。}中的元素S。,構(gòu)建二進制符號序列{s。};
[0031] 步驟6 :對{s。}進行十進制編碼,將其轉(zhuǎn)換為十進制符號碼序列怯。}; 陽03引步驟7 :統(tǒng)計怯。}中每個符號碼S。出現(xiàn)的頻度P。,形成符號碼S。-頻度P。直方圖 形。在符號碼S。-頻度P。圖形中,某個符號碼S。表征某一特定事件,其對應(yīng)的頻度P。是該 特定事件出現(xiàn)的強度。其中,大頻度的符號碼對應(yīng)著強烈信息,小頻度的符號碼對應(yīng)著微弱 信息,如果該頻度P。數(shù)值相對其他符號碼更大,則可判定該特定事件具有大數(shù)據(jù)特征,從而 實現(xiàn)了大數(shù)據(jù)特征的顯性化。通過對應(yīng)于某一特定事件(即"個體事件")的某個符號碼S。 出現(xiàn)的頻度P。,便可判定該特定事件是否具有經(jīng)常性的大數(shù)據(jù)特征。
[0033] 可W根據(jù)經(jīng)驗設(shè)置一個闊值,當(dāng)某個符號碼S。的頻度P。大于設(shè)定的闊值時,判定 該特定事件具有大數(shù)據(jù)特征。
[0034] 進一步的,可W根據(jù)符號碼S。-頻度P。直方圖形計算"改進賭H, (L)",其計算公式 如式(1): 陽0對
烘
[0036]式(1)中:Nseq是具有非零頻度的符號碼總個數(shù);i為符號碼的個數(shù)序號;P1,L是長 度為L的第i個符號碼的頻度。
[0037] 由于隨機性事件的&(L)>0. 9,確定性事件的&(L)《0. 1,從而可判定對應(yīng)于符 號碼序列怯。}(也即對應(yīng)于十進制時間序列l(wèi)x。})的某一廣義事件(即"整體事件")是否 具有隨機性或確定性。
[003引通過確定二進制符號序列{s。}的長度L和時延X、確定十進制時間序列{X。}的均 值y、設(shè)置闊值函數(shù),能夠?qū)⑹M制時間序列l(wèi)x。}變換為二進制符號序列{s。},繼而對{s。} 作十進制編碼將其轉(zhuǎn)換為十進制符號碼序列怯。}。其中,各參數(shù)優(yōu)選為:采樣總長度>50 點,L的取值范圍是3~6,T的取值范圍是1~3,需說明的是,T的取值范圍1~3,是 指在符號域?qū)。每間隔1~3位數(shù)據(jù)取下一個元素。圖2是對圖1中對應(yīng)某一廣義事件 的十進制時間序列l(wèi)x。},將其轉(zhuǎn)換為二進制符號序列{s。}的過程,為表達簡單清晰起見,取 符號長度L= 3、時延X= 1。
[0039] 對經(jīng)濟領(lǐng)域的股市指數(shù)變化規(guī)律進行分析,探尋多空兩方之間的關(guān)系。圖3是經(jīng) 濟領(lǐng)域某股市指數(shù)變化lx。}周度巧天)圖形,W及將其轉(zhuǎn)換為二進制符號序列{s。}的過 程,為表達圖3股指變動的密集性,取符號長度1 = 3、時延X=1,其對應(yīng)的股市指數(shù)變化 lx。}的符號碼S。-頻度P。直方圖如圖4所示。 W40] 由圖4可見,符號碼"101"出現(xiàn)的頻度最大化次),符號碼"010"出現(xiàn)的頻度次之 (4次)。在圖3中,"101"表征股指深V反彈,"010"表征股指大A下跌。在一周中股市多 空雙方博弈的激烈程度,盡由周度股指變化圖形的符號碼X。-頻度P。直方圖定量表達,多 方較之空方占有上風(fēng)。而圖4的改進賭Hg化)=0.68,說明周度股指變化過程中同時受到 確定性因素和隨機性因素的作用。
[0041] 對工程領(lǐng)域的柴油機振動進行分析,探尋有關(guān)影響因素的作用效果。圖5是工程 領(lǐng)域某四缸柴油機機身振動lx。}的圖形,為表達圖5短暫大振動及其之間小振動大間隔的 特點,取符號長度L= 6、時延X= 3,其對應(yīng)的四缸柴油機機身振動{X。}的符號碼S。-頻 度P。直方圖如圖6所示。
[0042] 由圖5可見,機身振動時間歷程{X。}有幾次短暫的大振動,運分別是在點火上死 點和下死點附近、排氣上死點和下死點附近活塞受激勵撞擊缸套的結(jié)果,與柴油機負(fù)荷、活 塞-缸套間隙、活塞環(huán)膠結(jié)狀態(tài)等均有關(guān)。在圖6中,運些可能的影響因素可由機身振動的 符號碼S。-頻度P。直方圖定量表達,其中有幾個頻度較大的十進制符號碼??蓪⑵滢D(zhuǎn)換為 符號長度L= 6的二進制符號,在圖5中觀察并找到其出現(xiàn)的時機,便可判定是哪個因素引 發(fā)柴油機機身振動最甚。而圖6的改進賭&化)= 0.9754,說明柴油機機身振動整體上具 有隨機性事件的屬性。
[0043]W上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā) 明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或者等效流程變換,或者直接或間接運用在其他相關(guān) 的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。
【主權(quán)項】
1. 一種基于符號特征獲取事件大數(shù)據(jù)信息的算法,其特征在于,包括如下步驟: 步驟1 :獲取事件的十進制時間序列Ιχη}并設(shè)置采樣總長度; 步驟2:設(shè)置待編碼的二進制符號長度L和取樣時延τ ;步驟3:計算十進制時間序列{χη}的均值μ ; 步驟4 :以μ作為O和1兩個符號域的劃分線Ρ。,設(shè)置閾值函數(shù) 步驟5:對{χη}遍施閾值函數(shù),按照二進制符號長度L和取樣時延τ將十進制 時間序列IxJ的元素 x/變換為二進制符號序列{s J中的元素 Sn,構(gòu)建二進制符號序 列{sn}; 步驟6 :對{sn}進行十進制編碼,將其轉(zhuǎn)換為十進制符號碼序列{SJ ; 步驟7 :統(tǒng)計{Sn}中每個符號碼Sn出現(xiàn)的頻度P n,形成符號碼Sn -頻度Pn直方圖形。2. 根據(jù)權(quán)利要求1所述的一種基于符號特征獲取事件大數(shù)據(jù)信息的算法,其特征在 于,采樣總長度彡50點。3. 根據(jù)權(quán)利要求1所述的一種基于符號特征獲取事件大數(shù)據(jù)信息的算法,其特征在 于,L的取值范圍是3~6。4. 根據(jù)權(quán)利要求1所述的一種基于符號特征獲取事件大數(shù)據(jù)信息的算法,其特征在 于,τ的取值范圍是1~3。5. 根據(jù)權(quán)利要求1所述的一種基于符號特征獲取事件大數(shù)據(jù)信息的算法,其特征在 于,當(dāng)某個符號碼Sn的頻度P η大于設(shè)定的閾值時,判定對應(yīng)著該符號碼的某一特定事件具 有大數(shù)據(jù)特征。6. 根據(jù)權(quán)利要求1所述的一種基于符號特征獲取事件大數(shù)據(jù)信息的算法,其特征在 于,根據(jù)符號碼Sn -頻度Pn直方圖形計算改進熵H s (L),當(dāng)Hs (L)多0. 9時,判定對應(yīng)于符號 碼序列{Sn}的廣義事件具有隨機性;當(dāng)Hs(L) < 0. 1時,判定對應(yīng)于符號碼序列{Sn}的廣 義事件具有確定性;當(dāng)〇. KHs(L)〈0. 9時,判定對應(yīng)于符號碼序列{Sn}的廣義事件同時受到 確定性因素和隨機性因素的作用。
【專利摘要】本發(fā)明公開了一種基于符號特征獲取事件大數(shù)據(jù)信息的算法,包括如下步驟:步驟1:獲取事件的十進制時間序列{xn}并設(shè)置采樣總長度;步驟2:設(shè)置待編碼的二進制符號長度L和取樣時延τ;步驟3:計算十進制時間序列{xn}的均值μ;步驟4:以μ作為0和1兩個符號域的劃分線P0,設(shè)置閾值函數(shù);步驟5:對{xn}遍施閾值函數(shù),按照二進制符號長度L和取樣時延τ將十進制時間序列{xn}的元素xn變換為二進制符號序列{sn}中的元素sn,構(gòu)建二進制符號序列{sn};步驟6:對{sn}進行十進制編碼,將其轉(zhuǎn)換為十進制符號碼序列{Sn};步驟7:統(tǒng)計{Sn}中每個符號碼Sn出現(xiàn)的頻度Pn,形成符號碼Sn‐頻度Pn直方圖形。實現(xiàn)了大數(shù)據(jù)特征的顯性化,便于判定代表事件的十進制時間序列{xn}是否具有大數(shù)據(jù)特征。
【IPC分類】G06F17/30
【公開號】CN105183836
【申請?zhí)枴緾N201510553189
【發(fā)明人】張雨, 張弛
【申請人】南京工程學(xué)院
【公開日】2015年12月23日
【申請日】2015年9月1日