多維度數(shù)據(jù)分析模型動(dòng)態(tài)擴(kuò)展方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明設(shè)計(jì)數(shù)據(jù)分析領(lǐng)域,且特別涉及一種多維度數(shù)據(jù)分析模型動(dòng)態(tài)擴(kuò)展方法和系統(tǒng)。
【背景技術(shù)】
[0002]數(shù)據(jù)分析系統(tǒng)需要將其代表的業(yè)務(wù)場(chǎng)景表示成計(jì)算機(jī)能夠處理的形式,這就是分析的數(shù)據(jù)模型。同時(shí),用戶也通過(guò)數(shù)據(jù)模型去理解數(shù)據(jù),并與系統(tǒng)交互。
[0003]目前主要有兩種方法來(lái)實(shí)現(xiàn)數(shù)據(jù)分析:一是為某個(gè)場(chǎng)景定制一個(gè)應(yīng)用,這樣可以比較貼切地描述分析對(duì)象,理論上可以達(dá)到理想的效果,但是開發(fā)資源要求高,受開發(fā)者水平限制大。
[0004]另一種方法是在一個(gè)分析系統(tǒng)中,建立能夠描述不同數(shù)據(jù)模型的語(yǔ)言或工具。這種方法使數(shù)據(jù)分析系統(tǒng)能適用于不同業(yè)務(wù)場(chǎng)景,具有很大優(yōu)勢(shì)。在這種系統(tǒng)中,數(shù)值分析最有效的方法是利用維度的概念。但是現(xiàn)有的多維度分析系統(tǒng)建立模型的靈活度有限,一般來(lái)說(shuō),模型描述的是一個(gè)靜態(tài)的數(shù)據(jù)集,而且都要求先建立完整的模型,才能開始分析。數(shù)據(jù)模型一旦建立,變動(dòng)的代價(jià)將很大,當(dāng)用戶面對(duì)預(yù)定義維度以外的數(shù)據(jù)時(shí),數(shù)據(jù)分析就不能有效進(jìn)行。這樣的多維度模型不適合多數(shù)據(jù)來(lái)源,或半結(jié)構(gòu)化,非結(jié)構(gòu)化數(shù)據(jù)的分析
【發(fā)明內(nèi)容】
[0005]本發(fā)明為了克服現(xiàn)有分析系統(tǒng)開發(fā)成本高且擴(kuò)展困難的問(wèn)題,提供一種多維度數(shù)據(jù)分析模型動(dòng)態(tài)擴(kuò)展方法和系統(tǒng)。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種多維度數(shù)據(jù)分析模型動(dòng)態(tài)擴(kuò)展方法包括:
[0007]導(dǎo)入數(shù)據(jù)集,檢測(cè)數(shù)據(jù)集獲得檢測(cè)信息;
[0008]根據(jù)檢測(cè)信息將數(shù)據(jù)集內(nèi)的屬性字段映射到預(yù)先設(shè)定的維度模型或建立新的維度,形成動(dòng)態(tài)擴(kuò)展后的維度模型;
[0009]根據(jù)動(dòng)態(tài)擴(kuò)展后的維度模型建立表征屬性字段和屬性字段所對(duì)應(yīng)的元素之間關(guān)系的元素表和表征屬性字段和所屬維度模型內(nèi)層級(jí)之間關(guān)系的關(guān)系表。
[0010]于本發(fā)明一實(shí)施例中,根據(jù)檢測(cè)信息將數(shù)據(jù)內(nèi)的屬性字段映射到預(yù)先設(shè)定的維度模型的方法包括直接映射和間接映射。
[0011 ] 于本發(fā)明一實(shí)施例中,當(dāng)數(shù)據(jù)集內(nèi)的某一屬性字段與其所屬的維度模型內(nèi)某一層級(jí)之間滿足設(shè)定規(guī)則時(shí),屬性字段直接映射到其所屬的維度模型內(nèi),形成層級(jí)的子節(jié)點(diǎn)或父節(jié)點(diǎn)。
[0012]于本發(fā)明一實(shí)施例中,當(dāng)數(shù)據(jù)集內(nèi)的某一屬性字段的元素與維度模型內(nèi)某一層級(jí)的元素之間存在多對(duì)一或一對(duì)多的關(guān)系時(shí),將屬性字段動(dòng)態(tài)增加到其所屬的維度模型內(nèi),且屬性字段為層級(jí)的父節(jié)點(diǎn)或子節(jié)點(diǎn)。
[0013]于本發(fā)明一實(shí)施例中,導(dǎo)入數(shù)據(jù)集后,采用抽樣檢測(cè)或全樣本檢測(cè)來(lái)獲得檢測(cè)信息。
[0014]于本發(fā)明一實(shí)施例中,檢測(cè)信息包括:數(shù)據(jù)類型、數(shù)據(jù)內(nèi)容和數(shù)據(jù)范圍,數(shù)據(jù)類型由屬性字段表征,數(shù)據(jù)內(nèi)容由元素表征,數(shù)據(jù)范圍為屬性字段所對(duì)應(yīng)的元素的一致程度。
[0015]于本發(fā)明一實(shí)施例中,根據(jù)檢測(cè)信息將數(shù)據(jù)內(nèi)的屬性字段映射到預(yù)先設(shè)定的維度模型的步驟包括:
[0016]將數(shù)據(jù)范圍與設(shè)定閾值進(jìn)行比較;
[0017]當(dāng)數(shù)據(jù)范圍大于或等于設(shè)定閾值時(shí),匹配數(shù)據(jù)類型和預(yù)先設(shè)定的維度模型;
[0018]當(dāng)數(shù)據(jù)類型與預(yù)先設(shè)定的維度模型匹配時(shí),將數(shù)據(jù)集內(nèi)的屬性字段映射到預(yù)先設(shè)定的維度模型;否則,建立新的維度。
[0019]本發(fā)明的另一方面還提供一種多維度數(shù)據(jù)分析模型動(dòng)態(tài)擴(kuò)展系統(tǒng)包括檢測(cè)模塊、動(dòng)態(tài)擴(kuò)展模塊和表組建模塊。檢測(cè)模塊導(dǎo)入數(shù)據(jù)集,檢測(cè)數(shù)據(jù)集獲得檢測(cè)信息。動(dòng)態(tài)擴(kuò)展模塊根據(jù)檢測(cè)信息將數(shù)據(jù)集內(nèi)的屬性字段映射到預(yù)先設(shè)定的維度模型或建立新的維度,形成動(dòng)態(tài)擴(kuò)展后的維度模型。表組建模塊根據(jù)動(dòng)態(tài)擴(kuò)展后的維度模型建立表征屬性字段和屬性字段所對(duì)應(yīng)的元素之間關(guān)系的元素表和表征屬性字段和所屬維度模型內(nèi)層級(jí)之間關(guān)系的關(guān)系表。
[0020]于本發(fā)明一實(shí)施例中,當(dāng)數(shù)據(jù)集內(nèi)的某一屬性字段與其所屬的維度模型內(nèi)某一層級(jí)之間滿足設(shè)定規(guī)則時(shí),屬性字段直接映射到其所屬的維度模型內(nèi),形成層級(jí)的子節(jié)點(diǎn)或父節(jié)點(diǎn)。
[0021]于本發(fā)明一實(shí)施例中,當(dāng)數(shù)據(jù)集內(nèi)的某一屬性字段的元素與維度模型內(nèi)某一層級(jí)的元素之間存在多對(duì)一或一對(duì)多的關(guān)系時(shí),將屬性字段動(dòng)態(tài)增加到其所屬的維度模型內(nèi),且屬性字段為層級(jí)的父節(jié)點(diǎn)或子節(jié)點(diǎn)。
[0022]經(jīng)由上述的技術(shù)方案可知,在本發(fā)明實(shí)施例中,用戶導(dǎo)入數(shù)據(jù)集,檢測(cè)模塊檢測(cè)數(shù)據(jù)集獲得檢測(cè)信息。動(dòng)態(tài)擴(kuò)展模塊根據(jù)檢測(cè)信息將數(shù)據(jù)映射到預(yù)先設(shè)定的維度模型上或者建立新的維度。即以預(yù)先設(shè)定的維度模型為基礎(chǔ)維度模型,在基礎(chǔ)維度模型上動(dòng)態(tài)擴(kuò)展數(shù)據(jù)集內(nèi)所包含的屬性字段。數(shù)據(jù)集內(nèi)的屬性字段可以動(dòng)態(tài)擴(kuò)展為基礎(chǔ)維度模型內(nèi)某一層級(jí)的父節(jié)點(diǎn)或子節(jié)點(diǎn),擴(kuò)展方式非常靈活且不同的用戶只共用基礎(chǔ)維度模型,動(dòng)態(tài)擴(kuò)展后的維度模型不會(huì)相互影響。本發(fā)明提供的多維度數(shù)據(jù)分析模型動(dòng)態(tài)擴(kuò)展方法和系統(tǒng)支持維度的動(dòng)態(tài)擴(kuò)展,可以處理動(dòng)態(tài)、多樣的數(shù)據(jù),使得數(shù)據(jù)集之間通過(guò)模型進(jìn)行的復(fù)雜關(guān)聯(lián)成為可能,符合大數(shù)據(jù)時(shí)代的需求。
[0023]進(jìn)一步的,為方便模型的動(dòng)態(tài)擴(kuò)展,設(shè)置數(shù)據(jù)集內(nèi)的屬性字段映射包括直接映射和間接映射。針對(duì)不同的數(shù)據(jù)采用不同的映射方式,提高數(shù)據(jù)的分析和處理速度,滿足大數(shù)據(jù)的處理。
[0024]為讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合附圖,作詳細(xì)說(shuō)明如下。
【附圖說(shuō)明】
[0025]圖1所示為本發(fā)明一實(shí)施例提供的多維度數(shù)據(jù)分析模型動(dòng)態(tài)擴(kuò)展方法的流程圖。
[0026]圖2所示為圖1中步驟S20所包含的步驟的流程圖。
[0027]圖3所示為本發(fā)明一實(shí)施例提供的多維度數(shù)據(jù)分析模型動(dòng)態(tài)擴(kuò)展方法的實(shí)現(xiàn)示意圖。
[0028]圖4所示為本發(fā)明一實(shí)施例提供的預(yù)先設(shè)定的一種維度模型。
[0029]圖5所示為本發(fā)明一實(shí)施例提供的在圖4所示的維度模型上動(dòng)態(tài)擴(kuò)展后的維度模型。
[0030]圖6所示為本發(fā)明一實(shí)施例提供的在圖4所示的維度模型上動(dòng)態(tài)擴(kuò)展后的另一維度模型。
[0031]圖7所示為本發(fā)明一實(shí)施例提供的多維度數(shù)據(jù)分析模型動(dòng)態(tài)擴(kuò)展系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0032]如圖1、圖2和圖3所示,本實(shí)施例提供的多維度數(shù)據(jù)分析模型動(dòng)態(tài)擴(kuò)展方法包括:
[0033]步驟S10、導(dǎo)入數(shù)據(jù)集,檢測(cè)數(shù)據(jù)集獲得檢測(cè)信息。于本實(shí)施例中,通過(guò)抽樣檢測(cè)的方式獲取數(shù)據(jù)集的檢測(cè)信息,抽樣的量可以為數(shù)據(jù)量的百分比或采用其它的方式進(jìn)行設(shè)定。采用抽樣檢測(cè)的方式可以大大提高對(duì)數(shù)據(jù)集的檢測(cè)速度。然而,本發(fā)明對(duì)檢測(cè)的方式不作任何限定。于其它實(shí)施例中,可以采用全樣本檢測(cè)的方式來(lái)獲得數(shù)據(jù)集的檢測(cè)信息。
[0034]于本實(shí)施例中,數(shù)據(jù)集經(jīng)檢測(cè)后所形成的檢測(cè)信息包括數(shù)據(jù)類型、數(shù)據(jù)內(nèi)容和數(shù)據(jù)范圍,所述檢測(cè)包括維度的抽取和數(shù)據(jù)范圍的計(jì)算。數(shù)據(jù)類型是由屬性字段進(jìn)行表征,如屬性字段為年、月、日或時(shí)間戳中的一個(gè)或多個(gè)時(shí),則數(shù)據(jù)類型為時(shí)間類型的數(shù)據(jù);當(dāng)屬性字段為城市、縣市、街道、詳細(xì)地址等時(shí),則數(shù)據(jù)類型為地理類型。數(shù)據(jù)內(nèi)容由元素表征,如具體的2012年、2013年、2014年等數(shù)據(jù)。數(shù)據(jù)范圍為屬性字段所對(duì)應(yīng)的元素一致性的程度。具體而言,在有些數(shù)據(jù)集內(nèi)會(huì)包括兩個(gè)或兩個(gè)以上表征不同數(shù)據(jù)類型的屬性字段,檢測(cè)模塊計(jì)算每一屬性字段所對(duì)應(yīng)的元素的一致程度形成數(shù)據(jù)范圍。
[0035]步驟S20、根據(jù)檢測(cè)信息將數(shù)據(jù)集內(nèi)的屬性字段映射到預(yù)先設(shè)定的維度模型或建立新的維度,形成動(dòng)態(tài)擴(kuò)展后的維度模型。具體包括:
[0036]步驟S21、將數(shù)據(jù)范圍與設(shè)定閾值進(jìn)行比較;
[0037]步驟S22、當(dāng)數(shù)據(jù)范圍大于或等于設(shè)定閾值時(shí),匹配數(shù)據(jù)類型和預(yù)先設(shè)定的維度模型;
[0038]步驟S23、當(dāng)數(shù)據(jù)類型與預(yù)先設(shè)定的維度模型匹配時(shí),將數(shù)據(jù)集內(nèi)的屬性字段映射到預(yù)先設(shè)定的維度模型;否則,建立新的維度。
[0039]具體而言,當(dāng)數(shù)據(jù)集內(nèi)包括時(shí)間類型(“年”這一屬性字段)和地理類型(“城市”這一屬性字段)的數(shù)據(jù)時(shí),檢測(cè)模塊計(jì)算“年”這一屬性字段所對(duì)應(yīng)的所有元素的一致程度。譬如,“年”這一屬性字段下包括100個(gè)元素,這100個(gè)元素中有95個(gè)是符合“年”這一屬性字段的標(biāo)準(zhǔn)格式(如XXXX年),則此時(shí)“年”這一屬性字段的數(shù)據(jù)范圍為95%。當(dāng)數(shù)據(jù)范圍大于或等于設(shè)定閾值(如90% )時(shí),將“年”這一屬性字段映射到預(yù)先設(shè)定的維度模型內(nèi)的時(shí)間維度上。同樣的,檢測(cè)模塊計(jì)算“城市”這一屬性字段的數(shù)據(jù)范圍,當(dāng)該數(shù)據(jù)范圍大于或等于設(shè)定閾值時(shí),將“城市”這一屬性字段映射到預(yù)先設(shè)定的維度模型內(nèi)的地理維度上。然而,本發(fā)明對(duì)設(shè)定閾值的具體數(shù)值不作任何限定。用戶可以根據(jù)數(shù)據(jù)集的情況來(lái)自行設(shè)定其它閾值。
[0040]于本實(shí)施例中,將數(shù)據(jù)集內(nèi)的屬性字段映射到預(yù)先設(shè)定的維度模型的方法包括直接映射和間接映射。根據(jù)數(shù)據(jù)集內(nèi)數(shù)據(jù)與其所屬的維度模型內(nèi)某一層級(jí)之間的關(guān)系來(lái)選擇映射方法,該設(shè)置可大大增加數(shù)據(jù)擴(kuò)展的速度,可滿足大數(shù)據(jù)處理的要求。然而,本發(fā)明對(duì)此不作任何限定。于其它實(shí)施例中,可只采用間接映射的方式。以下對(duì)直接映射和間接映射作詳細(xì)介紹。
[0041]圖4所示為預(yù)先設(shè)定的維度模型內(nèi)的地理維度。對(duì)于直接映射,當(dāng)用戶導(dǎo)入的數(shù)據(jù)集中,某一屬性字段與其所屬的維度模型內(nèi)某一層級(jí)之間滿足設(shè)定規(guī)則時(shí),屬性字段直接映射到該維度模型內(nèi),形成某一