亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

數(shù)據(jù)源數(shù)據(jù)自動(dòng)建模方法

文檔序號(hào):9375822閱讀:377來(lái)源:國(guó)知局
數(shù)據(jù)源數(shù)據(jù)自動(dòng)建模方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種數(shù)據(jù)源數(shù)據(jù)自動(dòng)建模方法,具體地涉及一種對(duì)復(fù)雜數(shù)據(jù)源數(shù)據(jù)進(jìn) 行自動(dòng)建模并展示的方法。
【背景技術(shù)】
[0002] 很多存儲(chǔ)復(fù)雜數(shù)據(jù)的數(shù)據(jù)源,例如從社交數(shù)據(jù)庫(kù)、電商數(shù)據(jù)庫(kù),到人類(lèi)基因數(shù)據(jù) 庫(kù),都是基于復(fù)雜的多維、大數(shù)據(jù)量存儲(chǔ)的數(shù)據(jù)集。針對(duì)這種數(shù)據(jù)集進(jìn)行處理,存在一個(gè)巨 大的挑戰(zhàn)是如何從海量的數(shù)據(jù)中發(fā)現(xiàn)隱含的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)關(guān)聯(lián)關(guān)系、并最終提取出有意 義的數(shù)據(jù)。通常來(lái)說(shuō),分析師想不借助任何工具,從如此巨量的數(shù)據(jù)中提取出有意義的數(shù)據(jù) 來(lái)是不太現(xiàn)實(shí)的。通常分析師會(huì)借助各種分析工具來(lái)幫助提取部分有意義的數(shù)據(jù)。但是依 賴(lài)現(xiàn)有分析工具對(duì)復(fù)雜數(shù)據(jù)源數(shù)據(jù)進(jìn)行建模并展示必須要持續(xù)的人機(jī)交互。用戶需要很熟 悉復(fù)雜數(shù)據(jù)集的特性,必須給計(jì)算機(jī)明確的指令來(lái)讓計(jì)算機(jī)調(diào)用相應(yīng)的算法來(lái)完成建模。 在很多情況下,這種人機(jī)交互需要重復(fù)進(jìn)行多次。當(dāng)用戶處理的數(shù)據(jù)是以萬(wàn)億計(jì)時(shí),這樣的 數(shù)據(jù)處理方式非常復(fù)雜和繁瑣。因此需要一種高級(jí)數(shù)據(jù)自動(dòng)建模以及可視化方式。

【發(fā)明內(nèi)容】

[0003] 針對(duì)上述技術(shù)問(wèn)題,本發(fā)明目的是:提供一種數(shù)據(jù)源數(shù)據(jù)自動(dòng)建模方法,在海量數(shù) 據(jù)中建立分析模型,可以方便地為業(yè)務(wù)人員進(jìn)行數(shù)據(jù)建模,可以更快更好的分析用戶海量 數(shù)據(jù)。
[0004] 本發(fā)明的技術(shù)方案是: 一種數(shù)據(jù)源數(shù)據(jù)自動(dòng)建模方法,包括如下步驟: SOl:多數(shù)據(jù)源接入及表結(jié)構(gòu)解析:接入不同的數(shù)據(jù)源中的數(shù)據(jù),解析各數(shù)據(jù)源中所有 表的表結(jié)構(gòu); S02:為數(shù)據(jù)源表中表結(jié)構(gòu)標(biāo)識(shí)業(yè)務(wù)對(duì)象:遍歷數(shù)據(jù)源中所有表,提取需要建模的屬 性列表,為每個(gè)屬性列表中的屬性設(shè)置業(yè)務(wù)對(duì)象名稱(chēng)、業(yè)務(wù)對(duì)象類(lèi)型以及業(yè)務(wù)對(duì)象聚集方 式; S03:歸并同類(lèi)項(xiàng)業(yè)務(wù)對(duì)象以及來(lái)源:對(duì)所有設(shè)置業(yè)務(wù)對(duì)象的屬性進(jìn)行匯總并歸并同 類(lèi)項(xiàng); S04:解析業(yè)務(wù)對(duì)象并建模生成建模結(jié)構(gòu)集:對(duì)設(shè)置業(yè)務(wù)對(duì)象的屬性按照設(shè)置參數(shù)進(jìn) 行建模,對(duì)未設(shè)置業(yè)務(wù)對(duì)象的屬性按照建模規(guī)則進(jìn)行建模,所述建模規(guī)則包括數(shù)值型屬性 標(biāo)記為度量,非數(shù)值型屬性標(biāo)記為維度,并歸并同類(lèi)項(xiàng)業(yè)務(wù)對(duì)象。
[0005] 優(yōu)選的,所述步驟SOl中的表結(jié)構(gòu)包括表中的字段以及字段類(lèi)型。
[0006] 優(yōu)選的,所述步驟SOl包括以下步驟: 獲取表連接及表結(jié)構(gòu)的元數(shù)據(jù); 獲取表的表結(jié)構(gòu)屬性列表; 記錄表結(jié)構(gòu)屬性列表,并與步驟S02中生成的業(yè)務(wù)對(duì)象映射匹配。
[0007] 與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)是: 1.該方法可以幫助用戶基于數(shù)據(jù)源中數(shù)據(jù)快速有效的建立起業(yè)務(wù)模型,還可以幫助用 戶發(fā)現(xiàn)數(shù)據(jù)源中隱藏的數(shù)據(jù)之間的深層次關(guān)聯(lián)關(guān)系,比如基于用戶身份信息時(shí)可以挖掘用 戶的年齡段以及對(duì)應(yīng)的消費(fèi)量、消費(fèi)習(xí)慣的關(guān)聯(lián)信息。
[0008] 該方法為用戶在海量數(shù)據(jù)中建立分析模型提供了可行的基礎(chǔ),可以嵌在魔鏡數(shù)據(jù) 分析平臺(tái)中,可以方便的為業(yè)務(wù)人員進(jìn)行數(shù)據(jù)建模,可以更快更好的分析用戶海量數(shù)據(jù)。
【附圖說(shuō)明】
[0009] 下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述: 圖1為本發(fā)明數(shù)據(jù)源數(shù)據(jù)自動(dòng)建模方法的流程圖。
【具體實(shí)施方式】
[0010] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明了,下面結(jié)合【具體實(shí)施方式】并參 照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。應(yīng)該理解,這些描述只是示例性的,而并非要限制本發(fā) 明的范圍。此外,在以下說(shuō)明中,省略了對(duì)公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本 發(fā)明的概念。
[0011] 實(shí)施例: 如圖1所示,一種對(duì)復(fù)雜數(shù)據(jù)源數(shù)據(jù)進(jìn)行自動(dòng)建模并展示的方法,具體步驟如下: A.多數(shù)據(jù)源接入及表結(jié)構(gòu)解析 對(duì)用戶的不同數(shù)據(jù)源中數(shù)據(jù)進(jìn)行接入,分析并解析出各數(shù)據(jù)源中所有表的表結(jié)構(gòu)。數(shù) 據(jù)源可以是mysql、oracle、DB2等關(guān)系型數(shù)據(jù)庫(kù),比如說(shuō)用戶有個(gè)mysql數(shù)據(jù)庫(kù),庫(kù)中含有 △、8兩張表,4表包含41、4233..^10,10個(gè)字段,8表包含81、82、83三個(gè)字段。該步驟 可以對(duì)mysql數(shù)據(jù)庫(kù)中A、B兩張表,以及每張表中所有的字段(包括字段類(lèi)型),使用SQL 語(yǔ)法獲取數(shù)據(jù)源元數(shù)據(jù)的方法解析出A、B兩張表表結(jié)構(gòu)。A表包含A1、A2、A3. . . A10,10個(gè) 字段,B表包含B1、B2、B3三個(gè)字段,以及每個(gè)字段的類(lèi)型,類(lèi)型可以為字符型,文本型,數(shù)值 型,邏輯型和日期型。記錄上述結(jié)果為后續(xù)建模做準(zhǔn)備。
[0012] 語(yǔ)法獲取數(shù)據(jù)源元數(shù)據(jù)的部分偽代碼如下: L/iN 丄η ^ * *w 〇/ ?
獲取的每個(gè)步驟都是由數(shù)據(jù)庫(kù)管理系統(tǒng)本身提供的接口提供的。
[0013] 為數(shù)據(jù)源表中每個(gè)字段標(biāo)識(shí)一個(gè)業(yè)務(wù)對(duì)象 遍歷數(shù)據(jù)源中所有表,提取所有需要建模的屬性列表,為每個(gè)屬性設(shè)置業(yè)務(wù)對(duì)象名稱(chēng)、 業(yè)務(wù)對(duì)象類(lèi)型、業(yè)務(wù)對(duì)象聚集方式。
[0014] 例如,如果用戶從業(yè)務(wù)角度,對(duì)A表中A2、A3字段比較感興趣,那么用戶可以對(duì)應(yīng) 的建立業(yè)務(wù)對(duì)象YWA2、YWA3,為每個(gè)屬性設(shè)置業(yè)務(wù)對(duì)象名稱(chēng)YWA2、YWA3,YWA2的業(yè)務(wù)對(duì)象類(lèi) 型是數(shù)值型,YWA3是時(shí)間類(lèi)型,YWA2業(yè)務(wù)對(duì)象聚集方式可以是匯總、平均、最大值、最小值 等等,YWA3聚集方式可以是計(jì)數(shù)。
[0015] -般的,數(shù)值型的業(yè)務(wù)對(duì)象的聚集方式可以是匯總、平均、最大值、最小值等等,字 符類(lèi)型的業(yè)務(wù)對(duì)象的聚集方式可以是計(jì)數(shù)。
[0016] 歸并同類(lèi)項(xiàng)業(yè)務(wù)對(duì)象以及來(lái)源 對(duì)所有設(shè)置業(yè)務(wù)對(duì)象的屬性進(jìn)行匯總,歸并同類(lèi)項(xiàng)。
[0017] 例如,在電商系統(tǒng)數(shù)據(jù)庫(kù)中可能包含用戶表以及交易表,用戶表中包含了用戶的 身份證信息(實(shí)名制),即每個(gè)用戶都記錄了唯一的身份證信息,交易表中也包含了用戶信 息,即每個(gè)交易記錄都包含了用戶的身份證信息和交易信息。在這種業(yè)務(wù)場(chǎng)景中,分析該數(shù) 據(jù)庫(kù)的業(yè)務(wù)人員可以建立一個(gè)用戶身份證的業(yè)務(wù)對(duì)象。用戶表以及交易表中都包含用戶身 份證信息,將業(yè)務(wù)人員建立的用戶身份證業(yè)務(wù)對(duì)象關(guān)聯(lián)到用戶表中的身份證信息,以及交 易表中的身份證信息。當(dāng)用戶希望查詢身份證以及其他業(yè)務(wù)對(duì)象的關(guān)聯(lián)關(guān)系時(shí),系統(tǒng)知道 可以從兩個(gè)表(兩個(gè)路徑)中分析并得出最優(yōu)的結(jié)果。
[0018] 自動(dòng)解析業(yè)務(wù)對(duì)象并進(jìn)行建模 對(duì)設(shè)置業(yè)務(wù)對(duì)象的屬性按照設(shè)置參數(shù)進(jìn)行建模,對(duì)未設(shè)置業(yè)務(wù)對(duì)象的屬性按照建模規(guī) 則進(jìn)行建模。該建模規(guī)則包括數(shù)值型屬性標(biāo)記為度量,非數(shù)值型屬性標(biāo)記為維度,并歸并同 類(lèi)項(xiàng)業(yè)務(wù)對(duì)象。
[0019] 例如,交易金額標(biāo)識(shí)為度量,用戶所在省份標(biāo)識(shí)為維度,同時(shí)歸并同類(lèi)項(xiàng)業(yè)務(wù)對(duì) 象。例如步驟C中例子,用戶表以及交易表都包含用戶身份證信息,則業(yè)務(wù)人員只需要一個(gè) 業(yè)務(wù)對(duì)象"用戶身份",把該業(yè)務(wù)對(duì)象同時(shí)關(guān)聯(lián)到用戶表中身份信息列以及交易表中身份信 息列。
[0020] 用戶可以對(duì)建模后的模型進(jìn)行手工設(shè)置,最終呈現(xiàn)出用戶想要的業(yè)務(wù)模型以及數(shù) 據(jù)庫(kù)中表字段的映射,可以減少業(yè)務(wù)人員對(duì)龐大的數(shù)據(jù)庫(kù)中所有字段進(jìn)行手工配置。
[0021] 應(yīng)當(dāng)理解的是,本發(fā)明的上述【具體實(shí)施方式】?jī)H僅用于示例性說(shuō)明或解釋本發(fā)明的 原理,而不構(gòu)成對(duì)本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何 修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨 在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修 改例。
【主權(quán)項(xiàng)】
1. 一種數(shù)據(jù)源數(shù)據(jù)自動(dòng)建模方法,其特征在于,包括如下步驟: 501 :多數(shù)據(jù)源表結(jié)構(gòu)解析:解析數(shù)據(jù)源中所有表的表結(jié)構(gòu); 502 :為數(shù)據(jù)源表中表結(jié)構(gòu)標(biāo)識(shí)業(yè)務(wù)對(duì)象:遍歷數(shù)據(jù)源中所有表,提取需要建模的屬性 列表,為屬性列表中的屬性設(shè)置業(yè)務(wù)對(duì)象名稱(chēng)、業(yè)務(wù)對(duì)象類(lèi)型以及業(yè)務(wù)對(duì)象聚集方式; 503 :歸并同類(lèi)項(xiàng)業(yè)務(wù)對(duì)象:對(duì)所有設(shè)置業(yè)務(wù)對(duì)象的屬性進(jìn)行匯總并歸并同類(lèi)項(xiàng); 504 :解析業(yè)務(wù)對(duì)象并建模生成建模結(jié)構(gòu)集:對(duì)設(shè)置業(yè)務(wù)對(duì)象的屬性按照設(shè)置參數(shù)進(jìn) 行建模,對(duì)未設(shè)置業(yè)務(wù)對(duì)象的屬性按照建模規(guī)則進(jìn)行建模,所述建模規(guī)則包括數(shù)值型屬性 標(biāo)記為度量,非數(shù)值型屬性標(biāo)記為維度,并歸并同類(lèi)項(xiàng)業(yè)務(wù)對(duì)象。2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)源數(shù)據(jù)自動(dòng)建模方法,其特征在于,所述步驟SOl中的表 結(jié)構(gòu)包括表中的字段、字段類(lèi)型以及默認(rèn)值。3. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)源數(shù)據(jù)自動(dòng)建模方法,其特征在于,所述步驟SOl包括以 下步驟: 獲取表連接及表結(jié)構(gòu)的元數(shù)據(jù); 獲取表的表結(jié)構(gòu)屬性列表; 記錄表結(jié)構(gòu)屬性列表,并與步驟S02中生成的業(yè)務(wù)對(duì)象映射匹配。
【專(zhuān)利摘要】<b>本發(fā)明公開(kāi)了一種數(shù)據(jù)源數(shù)據(jù)自動(dòng)建模方法,包括如下步驟:多數(shù)據(jù)源接入及表結(jié)構(gòu)解析:接入不同的數(shù)據(jù)源中的數(shù)據(jù),解析各數(shù)據(jù)源中所有表的表結(jié)構(gòu);為數(shù)據(jù)源表中表結(jié)構(gòu)標(biāo)識(shí)業(yè)務(wù)對(duì)象:遍歷數(shù)據(jù)源中所有表,提取需要建模的屬性列表,為每個(gè)屬性列表中的屬性設(shè)置業(yè)務(wù)對(duì)象名稱(chēng)、業(yè)務(wù)對(duì)象類(lèi)型以及業(yè)務(wù)對(duì)象聚集方式;歸并同類(lèi)項(xiàng)業(yè)務(wù)對(duì)象:對(duì)所有設(shè)置業(yè)務(wù)對(duì)象的屬性進(jìn)行匯總并歸并同類(lèi)項(xiàng);解析業(yè)務(wù)對(duì)象并建模生成建模結(jié)構(gòu)集:對(duì)設(shè)置業(yè)務(wù)對(duì)象的屬性按照設(shè)置參數(shù)進(jìn)行建模,對(duì)未設(shè)置業(yè)務(wù)對(duì)象的屬性按照建模規(guī)則進(jìn)行建模,建模規(guī)則包括數(shù)值型屬性標(biāo)記為度量,非數(shù)值型屬性標(biāo)記為維度,并歸并同類(lèi)項(xiàng)業(yè)務(wù)對(duì)象??梢苑奖愕剡M(jìn)行數(shù)據(jù)建模,有利于分析用戶海量數(shù)據(jù)。</b>
【IPC分類(lèi)】G06F17/30
【公開(kāi)號(hào)】CN105095436
【申請(qǐng)?zhí)枴緾N201510436270
【發(fā)明人】馬曉東, 馬小東, 謝曉芳, 王鵬
【申請(qǐng)人】蘇州國(guó)云數(shù)據(jù)科技有限公司
【公開(kāi)日】2015年11月25日
【申請(qǐng)日】2015年7月23日
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1