專利名稱:電信行業(yè)基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的構(gòu)造方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種電信行業(yè)基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的構(gòu)造方法。
背景技術(shù):
當(dāng)前國內(nèi)的分析系統(tǒng)基本上是建立在各個(gè)不同生產(chǎn)環(huán)節(jié)上,輔以一些常用、簡便的工具,如數(shù)據(jù)庫、報(bào)表工具,甚至Excel(數(shù)據(jù)表格工具)等,直接對生產(chǎn)數(shù)據(jù)進(jìn)行分析,來了解企業(yè)的經(jīng)營運(yùn)行情況。其不可避免的問題在于,企業(yè)中的數(shù)據(jù)源是分散的,在此基礎(chǔ)上建立的分析系統(tǒng)必然是孤立的。而在這一個(gè)個(gè)“信息孤島”之間缺乏有效的關(guān)聯(lián)和綜合分析,無法形成企業(yè)數(shù)據(jù)的統(tǒng)一視圖。在分析角度和深度,以及關(guān)聯(lián)分析和預(yù)測分析方面比較薄弱。
隨著企業(yè)信息化建設(shè)的推進(jìn),各大企業(yè)紛紛建立各自的業(yè)務(wù)運(yùn)營系統(tǒng),以電信行業(yè)為例,各運(yùn)營商都有自己的營業(yè)系統(tǒng)、網(wǎng)管系統(tǒng)、計(jì)費(fèi)系統(tǒng)、帳務(wù)系統(tǒng)、客服系統(tǒng)等,各大系統(tǒng)各自發(fā)展,彼此缺乏相關(guān)性,給企業(yè)的決策者的決策帶來很大的困難,各系統(tǒng)中統(tǒng)計(jì)的數(shù)字各不相同,難以取信,在這種情況下,數(shù)據(jù)倉庫技術(shù)應(yīng)運(yùn)而生。
數(shù)據(jù)倉庫技術(shù)整合企業(yè)各大系統(tǒng)中的數(shù)據(jù),形成企業(yè)“統(tǒng)一數(shù)據(jù)視圖”,為企業(yè)決策提供全面、統(tǒng)一、準(zhǔn)確的數(shù)據(jù)。數(shù)據(jù)倉庫技術(shù)在20世紀(jì)90年代,開始出現(xiàn)。到21世紀(jì)初進(jìn)入中國開始應(yīng)用,在國內(nèi)的應(yīng)用最先出現(xiàn)在金融、航空與電信領(lǐng)域。隨著幾年的建設(shè)已初具規(guī)模。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于避免上述現(xiàn)有技術(shù)中的不足,而提出一種電信行業(yè)基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的構(gòu)造方法,該方法是利用數(shù)據(jù)倉庫系統(tǒng)將分散在企業(yè)中的各個(gè)“信息孤島”,有效、完整的集合在一起,建立統(tǒng)一的企業(yè)數(shù)據(jù)視圖,并在此基礎(chǔ)之上,將企業(yè)各個(gè)生產(chǎn)環(huán)節(jié)的數(shù)據(jù)綜合在一起進(jìn)行分析,并利用數(shù)據(jù)挖掘、OLAP分析等技術(shù),形成各種關(guān)聯(lián)分析和預(yù)測分析,為企業(yè)的決策提供更為可靠且全面的支持。
本發(fā)明所提供的技術(shù)方案是一種電信行業(yè)基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的構(gòu)造方法,利用業(yè)務(wù)支撐系統(tǒng)產(chǎn)生的信息資源,結(jié)合相關(guān)支撐系統(tǒng)提供的信息,采用數(shù)據(jù)倉庫技術(shù)、數(shù)據(jù)挖掘技術(shù)、多維分析技術(shù)構(gòu)造所述決策支持系統(tǒng),構(gòu)造步驟如下步驟1、構(gòu)建符合電信業(yè)務(wù)特點(diǎn)的數(shù)據(jù)倉庫模型根據(jù)電信行業(yè)的具體特點(diǎn),將整個(gè)數(shù)據(jù)倉庫模型設(shè)計(jì)為如下八個(gè)主題域客戶、服務(wù)使用、客服、營銷、服務(wù)、結(jié)算、資源、賬務(wù),數(shù)據(jù)倉庫模型包括邏輯數(shù)據(jù)模型和物理數(shù)據(jù)模型,高層邏輯數(shù)據(jù)模型切實(shí)反映電信行業(yè)的業(yè)務(wù)關(guān)系,包括所有主題和主要實(shí)體以及相互之間的關(guān)系;物理模型是數(shù)據(jù)的存儲方式;步驟2、對源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一的分析在構(gòu)建好數(shù)據(jù)倉庫模型后,對源業(yè)務(wù)系統(tǒng),也就是數(shù)據(jù)倉庫的數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行統(tǒng)一的分析,就中國目前的電信運(yùn)營商來說,無論是電信、網(wǎng)通、移動還是聯(lián)通,其業(yè)務(wù)系統(tǒng)基本都會包括,營業(yè)系統(tǒng)、計(jì)費(fèi)系統(tǒng)、帳務(wù)系統(tǒng)、網(wǎng)管系統(tǒng)、客服系統(tǒng);源數(shù)據(jù)分析包括如下內(nèi)容數(shù)據(jù)的業(yè)務(wù)范圍及業(yè)務(wù)含義、數(shù)據(jù)所在平臺,包括系統(tǒng)平臺和數(shù)據(jù)庫平臺、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)更新周期、數(shù)據(jù)更新方式和數(shù)據(jù)量,分析這些系統(tǒng)中的數(shù)據(jù),根據(jù)數(shù)據(jù)倉庫系統(tǒng)物理數(shù)據(jù)模型的需要,將源數(shù)據(jù)同目的數(shù)據(jù)進(jìn)行匹配,即源數(shù)據(jù)映射;步驟3、將源系統(tǒng)中的數(shù)據(jù)進(jìn)行抽取轉(zhuǎn)換加載ETL即數(shù)據(jù)抽取、轉(zhuǎn)換和加載,是數(shù)據(jù)倉庫實(shí)現(xiàn)過程中,進(jìn)行數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)倉庫加載的主要過程;步驟4、對數(shù)據(jù)倉庫中的數(shù)據(jù)按分析需要進(jìn)行不同粒度的匯總在中央數(shù)據(jù)倉庫的基礎(chǔ)之上根據(jù)分析需求會創(chuàng)建相應(yīng)的從屬的數(shù)據(jù)集市,從屬數(shù)據(jù)集市的數(shù)據(jù)直接來自于中央數(shù)據(jù)倉庫;步驟5、通過各種訪問方式展現(xiàn)分析結(jié)果數(shù)據(jù)訪問層提供多種數(shù)據(jù)加工展現(xiàn)方法,包括預(yù)定義報(bào)表、即席查詢、多維動態(tài)分析和數(shù)據(jù)挖掘,并提供一個(gè)統(tǒng)一的門戶入口和界面,實(shí)現(xiàn)預(yù)定義報(bào)表、即席查詢和多維動態(tài)分析的無縫連接,并提供集成化的認(rèn)證、信息發(fā)布和管理環(huán)境;步驟6、為確保系統(tǒng)的正常運(yùn)行設(shè)定各種流程化的控制自動作業(yè)調(diào)度監(jiān)控,管理平臺包括自動作業(yè)調(diào)度系統(tǒng),該系統(tǒng)可按指定的時(shí)間周期自動執(zhí)行相應(yīng)的作業(yè),調(diào)度的作業(yè)包括對關(guān)系數(shù)據(jù)庫、多維數(shù)據(jù)庫和操作系統(tǒng)進(jìn)行的各種操作,系統(tǒng)監(jiān)控的事件被觸發(fā)時(shí),可自動調(diào)度指定的作業(yè)進(jìn)行處理,增加對自動調(diào)度事件執(zhí)行情況的監(jiān)控;網(wǎng)絡(luò)安全管理;系統(tǒng)備份恢復(fù)管理,根據(jù)電信行業(yè)數(shù)據(jù)的特點(diǎn),制定備份策略和恢復(fù)計(jì)劃,構(gòu)建系統(tǒng)備份恢復(fù)系統(tǒng)。
步驟1中所述的八個(gè)主題域,其中客戶包括所有對電信業(yè)服務(wù)有現(xiàn)實(shí)或潛在需求的機(jī)構(gòu)或個(gè)人,客戶因?yàn)橘徺I電信業(yè)的產(chǎn)品或享受其服務(wù)而成為電信業(yè)用戶,客戶主題包含所有有關(guān)客戶的基本信息和擴(kuò)展信息,也包括開戶、銷戶等信息;服務(wù)使用指電信公司對客戶訂購、使用產(chǎn)品和服務(wù)的過程的記錄,其中主要包含用戶、標(biāo)準(zhǔn)服務(wù)使用記錄、清單等;客服即客戶服務(wù),描述了電信公司及合作商為客戶提供服務(wù)的所有信息,包括傳統(tǒng)的客戶服務(wù)和業(yè)務(wù)受理,服務(wù)部門和服務(wù)渠道,以及相關(guān)的行為記錄;營銷指電信公司為了拓展業(yè)務(wù)、發(fā)展用戶,針對一定的市場及特定的客戶群體所進(jìn)行的市場宣傳、促銷等活動,包括一系列的營銷戰(zhàn)略以及相應(yīng)的戰(zhàn)術(shù);服務(wù)即電信公司廣義上的產(chǎn)品,包括電信公司向客戶銷售的所有產(chǎn)品以及服務(wù);結(jié)算是指電信公司同合作服務(wù)方之間的費(fèi)用清算及劃割關(guān)系;資源是電信公司擁有,為客戶提供服務(wù)的所有載體,包括號碼資源、終端資源、網(wǎng)絡(luò)資源,以及相應(yīng)的產(chǎn)品供應(yīng)商等;帳務(wù)主題主要反映客戶與帳戶之間的關(guān)系,包括費(fèi)用發(fā)生、費(fèi)用交付等。
步驟1中所述的數(shù)據(jù)模型采用星型模式,星型模式由事實(shí)表和維表構(gòu)成,事實(shí)表存放需要分析的細(xì)節(jié)數(shù)據(jù),維表存放各分析維度的屬性;物理模型以星型模式存放在關(guān)系型數(shù)據(jù)庫中或構(gòu)建Cube。
步驟2中所述的源業(yè)務(wù)系統(tǒng)包括營業(yè)系統(tǒng)、計(jì)費(fèi)系統(tǒng)、帳務(wù)系統(tǒng)、網(wǎng)管系統(tǒng)和客服系統(tǒng)。
步驟3中所述的數(shù)據(jù)抽取,是針對電信行業(yè)源數(shù)據(jù)的特點(diǎn),對于不同數(shù)據(jù)平臺、不同源數(shù)據(jù)形式、不同性能要求和業(yè)務(wù)量的業(yè)務(wù)系統(tǒng)以及不同數(shù)據(jù)量的源數(shù)據(jù),將采取不同的數(shù)據(jù)抽取接口,制定相應(yīng)的策略,包括抽取方式、抽取時(shí)機(jī)、抽取周期;數(shù)據(jù)轉(zhuǎn)換是指對從業(yè)務(wù)系統(tǒng)中抽取的源數(shù)據(jù)根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型的要求,進(jìn)行數(shù)據(jù)的轉(zhuǎn)換、清洗、拆分、匯總等處理,保證來自不同系統(tǒng)、不同格式的數(shù)據(jù)的一致性和完整性,并按要求裝入數(shù)據(jù)倉庫,根據(jù)實(shí)際情況確定數(shù)據(jù)轉(zhuǎn)換技術(shù)和策略;數(shù)據(jù)加載是將從數(shù)據(jù)源系統(tǒng)中抽取、轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫系統(tǒng)中,根據(jù)業(yè)務(wù)分析需求和系統(tǒng)加載的代價(jià),對不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期,同時(shí)又可以保持同一時(shí)間業(yè)務(wù)數(shù)據(jù)的完整性,根據(jù)數(shù)據(jù)的抽取策略以及業(yè)務(wù)規(guī)則確定數(shù)據(jù)的追加策略;所述的抽取方式包括增量抽取和完全抽取,其中流水型增長且數(shù)據(jù)量大的數(shù)據(jù)適合采用增量抽取的方式,最為典型的是清單、帳單類數(shù)據(jù);變化更新的數(shù)據(jù)適合采用完全抽取的方式,最為典型的是反映當(dāng)前狀態(tài)的資源配置類數(shù)據(jù);對于兩者結(jié)合的數(shù)據(jù),如果能提取增量信息,則進(jìn)行增量抽取,否則采用完全抽取的方式進(jìn)行,最為典型的是客戶資料變更數(shù)據(jù)或其他的客戶服務(wù)記錄數(shù)據(jù)。
所述的追加策略,包括三種類型直接追加、全部覆蓋和更新追加,其中,直接追加是指每次加載時(shí)直接將數(shù)據(jù)追加到目的表中,對于典型的流水?dāng)?shù)據(jù),一般采用此方法,清單、帳務(wù)等數(shù)據(jù)可以采用直接追加的方式;全部覆蓋對于抽取數(shù)據(jù)本身已包括了數(shù)據(jù)的當(dāng)前和所有歷史狀況,對目標(biāo)表采用全部覆蓋方式。典型情況是資費(fèi)規(guī)則定義的數(shù)據(jù)可以全部覆蓋的方式;更新追加對于需要連續(xù)記錄業(yè)務(wù)的狀態(tài)變化,用當(dāng)前的最新狀態(tài)同歷史狀態(tài)數(shù)據(jù)進(jìn)行比對的情況采用更新追加的方式。典型情況是客服記錄數(shù)據(jù)的加載。
步驟5中所述的預(yù)定義報(bào)表,是一種經(jīng)營分析人員在使用系統(tǒng)的過程中,根據(jù)需求和有關(guān)分析結(jié)果進(jìn)行預(yù)定義后、格式內(nèi)容相對固定的報(bào)表;即席查詢的內(nèi)容可由經(jīng)營分析系統(tǒng)使用人員自由定義,允許使用者控制數(shù)據(jù)的訪問方法,并對查詢結(jié)果提供多種可選擇的展現(xiàn)方式;多維動態(tài)分析是基于多維數(shù)據(jù)模型的分析方法,用于支持復(fù)雜的分析和預(yù)測,包括趨勢分析、What-if(與原因和影響分析不同,what if分析是觀察在人為指定改變條件時(shí),結(jié)果的變化情況,以便預(yù)測為了達(dá)到目標(biāo),最佳條件組合是什么)分析等;數(shù)據(jù)挖掘是根據(jù)企業(yè)的既定業(yè)務(wù)目標(biāo)和存在的問題,對大量的業(yè)務(wù)數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律,并將其模型化,指導(dǎo)并應(yīng)用于實(shí)際的企業(yè)經(jīng)營中,在經(jīng)營分析系統(tǒng)中,不同的實(shí)際問題所采用的數(shù)據(jù)挖掘方法不同,數(shù)據(jù)挖掘的方法一般分為預(yù)測型和描述型,其中,預(yù)測型(Predictive)方法包括分類(Classification)/決策樹算法(Decision Tree)、回歸分析、時(shí)間序列分析(Time Series);描述型(Descriptive)方法包括關(guān)聯(lián)分析(Association Analysis)、序列關(guān)聯(lián)分析(Sequential Analysis)、聚類分析(Clustering)。數(shù)據(jù)挖掘與OLAP分析、預(yù)定義報(bào)表和即席查詢等有很大的區(qū)別。后三者通常是用戶對所關(guān)心的業(yè)務(wù)指標(biāo),按照已知的角度進(jìn)行分析;而前者則是在業(yè)務(wù)問題和目標(biāo)明確,但考察的角度不清楚時(shí),對數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律性,進(jìn)而將其模型化。
本發(fā)明意義如下本發(fā)明采用了目前領(lǐng)先的數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、OLAP分析等技術(shù),創(chuàng)造性的將企業(yè)數(shù)據(jù)融合在一起,為企業(yè)的經(jīng)營生產(chǎn)提供全方位的決策支持。與同類系統(tǒng)相比有更強(qiáng)的優(yōu)勢。本發(fā)明利用數(shù)據(jù)倉庫系統(tǒng)將分散在企業(yè)中的各個(gè)“信息孤島”,有效、完整的集合在一起。建立統(tǒng)一的企業(yè)數(shù)據(jù)視圖,并在此基礎(chǔ)之上,將企業(yè)各個(gè)生產(chǎn)環(huán)節(jié)的數(shù)據(jù)綜合在一起進(jìn)行分析。并利用數(shù)據(jù)挖掘、OLAP分析等技術(shù),形成各種關(guān)聯(lián)分析和預(yù)測分析,并最終為各級市場決策管理者提供及時(shí)、準(zhǔn)確、科學(xué)的輔助決策依據(jù),為企業(yè)的決策提供更為可靠且全面的支持。
圖1為本發(fā)明的決策支持系統(tǒng)的架構(gòu)圖;圖2為ETL實(shí)現(xiàn)過程的簡單流程圖;圖3為本發(fā)明的決策支持系統(tǒng)的系統(tǒng)服務(wù)器構(gòu)成圖。
圖4為即席查詢體系結(jié)構(gòu)圖;圖5為系統(tǒng)OLAP的結(jié)構(gòu)圖;圖6為數(shù)據(jù)挖掘體系結(jié)構(gòu)7為數(shù)據(jù)挖掘過程圖。
具體實(shí)施例方式
下面結(jié)合
本發(fā)明的具體實(shí)施方式
。
電信行業(yè)基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的構(gòu)造方法,該方法利用業(yè)務(wù)支撐系統(tǒng)產(chǎn)生的信息資源,結(jié)合相關(guān)支撐系統(tǒng)提供的信息,采用網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)倉庫技術(shù)、數(shù)據(jù)挖掘技術(shù)、多維分析技術(shù)構(gòu)造所述決策支持系統(tǒng),構(gòu)造步驟如下1、如圖1中(3)所示,構(gòu)建符合電信業(yè)務(wù)特點(diǎn)的數(shù)據(jù)倉庫模型數(shù)據(jù)倉庫模型的設(shè)計(jì)是整個(gè)系統(tǒng)構(gòu)建的核心,它的高層邏輯數(shù)據(jù)模型要切實(shí)反映電信行業(yè)的業(yè)務(wù)關(guān)系,包括所有主題和主要實(shí)體以及相互之間的關(guān)系。數(shù)據(jù)倉庫模型包括邏輯數(shù)據(jù)模型和物理數(shù)據(jù)模型,高層邏輯數(shù)據(jù)模型切實(shí)反映電信行業(yè)的業(yè)務(wù)關(guān)系,包括所有主題和主要實(shí)體以及相互之間的關(guān)系,數(shù)據(jù)模型采用星型模式,星型模式由事實(shí)表和維表構(gòu)成;事實(shí)表存放需要分析的細(xì)節(jié)數(shù)據(jù),維表存放各分析維度的屬性;物理模型是數(shù)據(jù)的存儲方式,物理模型以星型模式存放在關(guān)系型數(shù)據(jù)庫中或構(gòu)建Cube。
中央數(shù)據(jù)倉庫存儲模型應(yīng)結(jié)合經(jīng)營分析系統(tǒng)應(yīng)用需求并結(jié)合現(xiàn)有的業(yè)務(wù)系統(tǒng)進(jìn)行設(shè)計(jì)。數(shù)據(jù)倉庫的粒度是設(shè)計(jì)數(shù)據(jù)倉庫的一個(gè)重要方面。粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別。細(xì)化程度越高,粒度級就越小;相反,細(xì)化程度越低,粒度級就越大。
參考費(fèi)用、效率、訪問便利和能夠回答查詢問題的能力,因此數(shù)據(jù)倉庫的細(xì)節(jié)級上創(chuàng)建兩種粒度級。大部分的分析、查詢是針對被壓縮的、存取效率高的輕度綜合級數(shù)據(jù)進(jìn)行的。如果需要分析更低的細(xì)節(jié)級,可以到數(shù)據(jù)的真實(shí)檔案層。
數(shù)據(jù)存儲模型的設(shè)計(jì),具有以下特點(diǎn)1)能靈活滿足各種分析性業(yè)務(wù)的需求(包括典型的四種前端訪問方式);2)快速的響應(yīng)性能;3)數(shù)據(jù)集中管理;4)具有靈活的擴(kuò)展能力;5)全盤考慮與分步實(shí)施。
系統(tǒng)建設(shè)能做到全盤考慮、統(tǒng)籌規(guī)劃,能考慮到今后擴(kuò)展數(shù)據(jù)倉庫系統(tǒng)多方面功能的需要,為今后建立完善的數(shù)據(jù)倉庫系統(tǒng)打下良好基礎(chǔ)。
在本次設(shè)計(jì)中,發(fā)明人考慮到電信行業(yè)的具體特點(diǎn),將整個(gè)數(shù)據(jù)倉庫模型設(shè)計(jì)為如下八個(gè)主題域客戶、服務(wù)使用、客服、營銷、服務(wù)、結(jié)算、資源、賬務(wù)。其中客戶包括所有對電信業(yè)服務(wù)有現(xiàn)實(shí)或潛在需求的機(jī)構(gòu)或個(gè)人,客戶因?yàn)橘徺I電信業(yè)的產(chǎn)品或享受其服務(wù)而成為電信業(yè)用戶,客戶主題包含所有有關(guān)客戶的基本信息和擴(kuò)展信息,也包括開戶、銷戶等信息;服務(wù)使用指電信公司對客戶訂購、使用產(chǎn)品和服務(wù)的過程的記錄,其中主要包含用戶、標(biāo)準(zhǔn)服務(wù)使用記錄、清單等;客服即客戶服務(wù),描述了電信公司及合作商為客戶提供服務(wù)的所有信息,包括傳統(tǒng)的客戶服務(wù)和業(yè)務(wù)受理,服務(wù)部門和服務(wù)渠道,以及相關(guān)的行為記錄;營銷指電信公司為了拓展業(yè)務(wù)、發(fā)展用戶,針對一定的市場及特定的客戶群體所進(jìn)行的市場宣傳、促銷等活動,包括一系列的營銷戰(zhàn)略以及相應(yīng)的戰(zhàn)術(shù);服務(wù)即電信公司廣義上的產(chǎn)品,包括電信公司向客戶銷售的所有產(chǎn)品以及服務(wù);結(jié)算是指電信公司同合作服務(wù)方之間的費(fèi)用清算及劃割關(guān)系;資源是電信公司擁有,為客戶提供服務(wù)的所有載體,包括號碼資源、終端資源、網(wǎng)絡(luò)資源,以及相應(yīng)的產(chǎn)品供應(yīng)商等;帳務(wù)主題主要反映客戶與帳戶之間的關(guān)系,包括費(fèi)用發(fā)生、費(fèi)用交付等。
2、如圖1中(1)所示,對源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一的分析。
在構(gòu)建好數(shù)據(jù)倉庫模型后,就是要對業(yè)務(wù)系統(tǒng),也就是數(shù)據(jù)倉庫的數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行統(tǒng)一的分析,就中國目前的電信運(yùn)營商來說,無論是電信、網(wǎng)通、移動還是聯(lián)通,其業(yè)務(wù)系統(tǒng)基本都會包括,營業(yè)系統(tǒng)、計(jì)費(fèi)系統(tǒng)、帳務(wù)系統(tǒng)、網(wǎng)管系統(tǒng)、客服系統(tǒng)等等。源數(shù)據(jù)分析包括如下內(nèi)容數(shù)據(jù)的業(yè)務(wù)范圍及業(yè)務(wù)含義、數(shù)據(jù)所在平臺,包括系統(tǒng)平臺和數(shù)據(jù)庫平臺、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)更新周期、數(shù)據(jù)更新方式和數(shù)據(jù)量。
這一步要做的就是分析這些系統(tǒng)中的數(shù)據(jù),根據(jù)數(shù)據(jù)倉庫系統(tǒng)物理數(shù)據(jù)模型的需要,將源數(shù)據(jù)同目的數(shù)據(jù)進(jìn)行匹配,即源數(shù)據(jù)映射。
3、如圖1中(2)所示,將源系統(tǒng)中的數(shù)據(jù)進(jìn)行抽取轉(zhuǎn)換加載。
這一步驟完成的功能是將數(shù)據(jù)從數(shù)據(jù)源經(jīng)過必要的處理后加載到數(shù)據(jù)倉庫系統(tǒng)中。
ETL即數(shù)據(jù)抽取、轉(zhuǎn)換和加載,是數(shù)據(jù)倉庫實(shí)現(xiàn)過程中,進(jìn)行數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)倉庫加載的主要過程。BOSS系統(tǒng)數(shù)據(jù)源中的實(shí)體與數(shù)據(jù)倉庫主題域中的實(shí)體并不是簡單的一對一映射關(guān)系,而是比較復(fù)雜的多對多關(guān)系,這種映射關(guān)系構(gòu)成了經(jīng)營分析系統(tǒng)ETL過程的主要內(nèi)容。ETL實(shí)現(xiàn)過程的流程如圖2所示。
1)數(shù)據(jù)抽取a)數(shù)據(jù)抽取接口典型的數(shù)據(jù)抽取接口包括數(shù)據(jù)庫接口和文件接口,對于不同數(shù)據(jù)平臺、不同源數(shù)據(jù)形式、不同性能要求和業(yè)務(wù)量的業(yè)務(wù)系統(tǒng)以及不同數(shù)據(jù)量的源數(shù)據(jù),將采取不同的數(shù)據(jù)抽取接口。在數(shù)據(jù)抽取時(shí)需要重點(diǎn)考慮數(shù)據(jù)抽取的效率,以及對現(xiàn)有業(yè)務(wù)系統(tǒng)性能及安全的影響。電信行業(yè)的源數(shù)據(jù)具有如下特點(diǎn)數(shù)據(jù)量特別大;業(yè)務(wù)系統(tǒng)工作負(fù)荷重,7×24工作;業(yè)務(wù)系統(tǒng)性能、實(shí)時(shí)性的要求較高。
鑒于以上特點(diǎn),對于移動數(shù)據(jù)抽取接口一般情況下采用專用數(shù)據(jù)庫驅(qū)動接口,必要的時(shí)候采用API接口編程實(shí)現(xiàn)數(shù)據(jù)的抽取,以提高數(shù)據(jù)抽取效率同時(shí)減少對業(yè)務(wù)系統(tǒng)的性能的影響。
b)數(shù)據(jù)抽取策略數(shù)據(jù)的抽取能夠充分滿足數(shù)據(jù)倉庫系統(tǒng)分析及決策支持的需要,同時(shí)又能保證不會影響業(yè)務(wù)系統(tǒng)的性能,所以進(jìn)行數(shù)據(jù)抽取時(shí)必須充分考慮到了這些因素,制定相應(yīng)的策略,包括抽取方式、抽取時(shí)機(jī)、抽取周期等內(nèi)容。
抽取方式增量抽取、完全抽取等。
抽取時(shí)機(jī)盡可能避開業(yè)務(wù)系統(tǒng)的高峰時(shí)段,比如在夜間業(yè)務(wù)系統(tǒng)比較閑時(shí)。
抽取周期對不同類型的數(shù)據(jù)源,應(yīng)綜合考慮業(yè)務(wù)需求和系統(tǒng)代價(jià),制定合理的抽取周期。
對移動源數(shù)據(jù)的抽取,必須充分滿足經(jīng)營分析系統(tǒng)的需要,同時(shí)必須保證不能影響數(shù)據(jù)源系統(tǒng)的性能,所以進(jìn)行數(shù)據(jù)抽取時(shí)必須充分考慮以下因素,制定出了相應(yīng)的策略滿足對多種不同的數(shù)據(jù)來源的抽取處理。數(shù)據(jù)源包括河北移動相應(yīng)業(yè)務(wù)系統(tǒng)、企業(yè)外部數(shù)據(jù)源,能夠提供某些數(shù)據(jù)的人工輸入功能,如促銷活動信息、社會調(diào)查信息等。
支持多種不同系統(tǒng)平臺和數(shù)據(jù)類型的數(shù)據(jù)抽取。包括各種關(guān)系型數(shù)據(jù)庫系統(tǒng)、各種文件方式的源數(shù)據(jù)等。
充分考慮數(shù)據(jù)源系統(tǒng)的性能要求。根據(jù)業(yè)務(wù)量大小和數(shù)據(jù)量大小,盡量減少對數(shù)據(jù)源系統(tǒng)的影響。
在制定抽取策略時(shí),需要對以上各項(xiàng)因素綜合考慮。通常情況下,流水型增長且數(shù)據(jù)量大的數(shù)據(jù)適合采用增量抽取的方式,最為典型的是清單、帳單類數(shù)據(jù);變化更新的數(shù)據(jù)適合采用完全抽取的方式,最為典型的是反映當(dāng)前狀態(tài)的資源配置類數(shù)據(jù);對于兩者結(jié)合的數(shù)據(jù),如果能提取增量信息,則進(jìn)行增量抽取,否則采用完全抽取的方式進(jìn)行,最為典型的是客戶資料變更數(shù)據(jù)或其他的客戶服務(wù)記錄數(shù)據(jù)。此外,對于抽取周期要考慮實(shí)際業(yè)務(wù)的需求和抽取進(jìn)行的系統(tǒng)代價(jià),在可能的情況下,盡量縮短抽取周期,源數(shù)據(jù)抽取策略說明如下表所示。
2)數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是指對從業(yè)務(wù)系統(tǒng)中抽取的源數(shù)據(jù)根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型的要求,進(jìn)行數(shù)據(jù)的轉(zhuǎn)換、清洗、拆分、匯總等處理,保證來自不同系統(tǒng)、不同格式的數(shù)據(jù)的一致性和完整性,并按要求裝入數(shù)據(jù)倉庫。
a)轉(zhuǎn)換的主要功能數(shù)據(jù)轉(zhuǎn)換主要完成由于以下原因造成的數(shù)據(jù)不一致性問題源數(shù)據(jù)系統(tǒng)同數(shù)據(jù)倉庫系統(tǒng)在模型上的差異性;源數(shù)據(jù)系統(tǒng)平臺不一致數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)源可能包括基于不同平臺的數(shù)據(jù)庫的數(shù)據(jù);源數(shù)據(jù)結(jié)構(gòu)的不一致有些數(shù)據(jù)源由于歷史的原因,導(dǎo)致同一個(gè)表在不同的時(shí)期數(shù)據(jù)結(jié)構(gòu)不一致;源數(shù)據(jù)定義不規(guī)范導(dǎo)致錯誤數(shù)據(jù);對數(shù)據(jù)的約束不嚴(yán)格,導(dǎo)致無意義數(shù)據(jù);存在重復(fù)記錄;由于平臺系統(tǒng)的不同,可能會存在大量的轉(zhuǎn)碼工作。
b)數(shù)據(jù)轉(zhuǎn)換技術(shù)和策略根據(jù)實(shí)際情況,數(shù)據(jù)轉(zhuǎn)換工作一般會在以下幾個(gè)環(huán)節(jié)中具體實(shí)現(xiàn)在抽取過程中進(jìn)行數(shù)據(jù)處理;使用異步數(shù)據(jù)加載,以文件的方式處理;在數(shù)據(jù)加載過程中進(jìn)行數(shù)據(jù)處理;進(jìn)入數(shù)據(jù)倉庫以后再進(jìn)行數(shù)據(jù)處理。
采用在數(shù)據(jù)抽取過程中進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí),必須考慮抽取的性能以及對業(yè)務(wù)系統(tǒng)性能的影響;采用異步數(shù)據(jù)加載需要以文件方式處理時(shí),必須充分考慮中間磁盤的存儲量以及ETL整個(gè)流程的協(xié)調(diào)性工作,以及大量的非SQL語句的編程;采用在數(shù)據(jù)加載過程中進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí),必須考慮加載性能;采用先將數(shù)據(jù)裝載到數(shù)據(jù)倉庫后再處理時(shí),必須考慮數(shù)據(jù)倉庫引擎的海量數(shù)據(jù)處理能力。
3)數(shù)據(jù)加載a)數(shù)據(jù)加載主要功能數(shù)據(jù)加載就是將從數(shù)據(jù)源系統(tǒng)中抽取、轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫系統(tǒng)中。要求數(shù)據(jù)加載工具必須具有高效的加載性能。
b)數(shù)據(jù)加載技術(shù)及策略主要加載技術(shù)使用數(shù)據(jù)倉庫引擎廠商提供的數(shù)據(jù)加載工具進(jìn)行數(shù)據(jù)加載;通過數(shù)據(jù)倉庫引擎廠商提供的API編程進(jìn)行數(shù)據(jù)加載;數(shù)據(jù)加載策略要考慮加載周期及數(shù)據(jù)追加策略兩方面的內(nèi)容。
根據(jù)移動業(yè)務(wù)數(shù)據(jù)的實(shí)際情況,加載周期綜合考慮了業(yè)務(wù)分析需求和系統(tǒng)加載的代價(jià),對不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期,同時(shí)又可以保持同一時(shí)間業(yè)務(wù)數(shù)據(jù)的完整性。
數(shù)據(jù)的追加策略根據(jù)數(shù)據(jù)的抽取策略以及業(yè)務(wù)規(guī)則確定,一般有以下三種類型直接追加、全部覆蓋、更新追加。
直接追加是指每次加載時(shí)直接將數(shù)據(jù)追加到目的表中。對于典型的流水?dāng)?shù)據(jù),一般采用此方法,清單、帳務(wù)等數(shù)據(jù)可以采用直接追加的方式;全部覆蓋對于抽取數(shù)據(jù)本身已包括了數(shù)據(jù)的當(dāng)前和所有歷史狀況,對目標(biāo)表采用全部覆蓋方式。典型情況是資費(fèi)規(guī)則定義的數(shù)據(jù)可以全部覆蓋的方式;更新追加對于需要連續(xù)記錄業(yè)務(wù)的狀態(tài)變化,用當(dāng)前的最新狀態(tài)同歷史狀態(tài)數(shù)據(jù)進(jìn)行比對的情況采用更新追加的方式。典型情況是客服記錄數(shù)據(jù)的加載。
具體采取何種方式,要綜合考慮效率、業(yè)務(wù)實(shí)現(xiàn)等諸多因素。
4、如圖1中(4)所示,對數(shù)據(jù)倉庫中的數(shù)據(jù)按分析需要進(jìn)行不同粒度的匯總。
中央數(shù)據(jù)倉庫是按照企業(yè)整體的信息模型、盡可能以最小的業(yè)務(wù)單元來組織并存儲數(shù)據(jù)。這樣既能保證數(shù)據(jù)訪問的靈活性,又可保證最少量的數(shù)據(jù)冗余。
在數(shù)據(jù)倉庫的實(shí)施過程中,對于某些主題的業(yè)務(wù)分析問題,可能會按照主題采用數(shù)據(jù)集市的方式對數(shù)據(jù)進(jìn)行進(jìn)一步的組織。所以在中央數(shù)據(jù)倉庫的基礎(chǔ)之上根據(jù)分析需求會創(chuàng)建相應(yīng)的從屬的數(shù)據(jù)集市。從屬數(shù)據(jù)集市的數(shù)據(jù)直接來自于中央數(shù)據(jù)倉庫。采用這種方式,可以保持整體數(shù)據(jù)的一致性。為一些訪問數(shù)據(jù)倉庫十分頻繁的關(guān)鍵業(yè)務(wù)部門建立從屬數(shù)據(jù)集市,可以較好的提高查詢的反映速度。
數(shù)據(jù)集市的設(shè)計(jì)原則一般會考慮業(yè)務(wù)部門的使用需要,建立的數(shù)據(jù)技術(shù)也是部門級的。
5、如圖1中(5)所示,通過各種訪問方式展現(xiàn)分析結(jié)果。
經(jīng)營分析系統(tǒng)的數(shù)據(jù)訪問層的主要功能是使操作使用人員通過報(bào)表和圖形的方式,簡便、快捷地訪問經(jīng)營分析系統(tǒng)中的各種數(shù)據(jù)并進(jìn)行各種分析預(yù)測操作。數(shù)據(jù)訪問層提供多種數(shù)據(jù)加工展現(xiàn)方法,包括預(yù)定義報(bào)表、即席查詢、多維動態(tài)分析和數(shù)據(jù)挖掘。
預(yù)定義報(bào)表,是一種經(jīng)營分析人員在使用系統(tǒng)的過程中,根據(jù)需求和有關(guān)分析結(jié)果進(jìn)行預(yù)定義后、格式內(nèi)容相對固定的報(bào)表。
即席查詢的內(nèi)容可由經(jīng)營分析系統(tǒng)使用人員自由定義,允許使用者控制數(shù)據(jù)的訪問方法,并對查詢結(jié)果提供多種可選擇的展現(xiàn)方式。即席查詢提供一個(gè)基于服務(wù)器的業(yè)務(wù)邏輯和數(shù)據(jù)庫結(jié)構(gòu)的映射層,使經(jīng)營分析系統(tǒng)使用人員透過該映射層實(shí)現(xiàn)對數(shù)據(jù)的即席查詢和分析,映射層管理模塊完成查詢管理工作,即席查詢體系結(jié)構(gòu)如圖4所示。
多維動態(tài)分析是基于多維數(shù)據(jù)模型的分析方法,用于支持復(fù)雜的分析和預(yù)測,包括趨勢分析、What-if(與原因和影響分析不同,what if分析是觀察在人為指定改變條件時(shí),結(jié)果的變化情況,以便預(yù)測為了達(dá)到目標(biāo),最佳條件組合是什么)分析等。
OLAP(On-Line Analytical Processing-聯(lián)機(jī)分析處理)是經(jīng)營分析系統(tǒng)本階段建設(shè)的主要目標(biāo)之一。
聯(lián)機(jī)分析處理是針對特定的分析主題,設(shè)計(jì)多種可能的觀察形式,設(shè)計(jì)相應(yīng)的分析主題結(jié)構(gòu)(即進(jìn)行事實(shí)表和維表的設(shè)計(jì)),使管理決策人員在多維數(shù)據(jù)模型的基礎(chǔ)上進(jìn)行快速、穩(wěn)定和交互性的訪問,并進(jìn)行各種復(fù)雜的分析和預(yù)測工作。
OLAP的分類按照存儲方式來分,OLAP可以分成MOLAP以及ROLAPMOLAP(Multi-Dimension OLAP-多維聯(lián)機(jī)分析處理)將OLAP分析所需的數(shù)據(jù)存放在多維數(shù)據(jù)庫中。一個(gè)分析主題的數(shù)據(jù)形成一個(gè)或多個(gè)多維立方體。
ROLAP(Relational OLAP-關(guān)系聯(lián)機(jī)分析處理)將OLAP分析所需的數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫中。一個(gè)分析主題的數(shù)據(jù)以“事實(shí)表-維表”的星型模式組織。
經(jīng)營分析系統(tǒng)可以采用MOLAP與ROLAP兩種方式,實(shí)施時(shí)根據(jù)具體應(yīng)用的數(shù)據(jù)量規(guī)模、相應(yīng)要求、數(shù)據(jù)組織特點(diǎn)來決定。
OLAP的基本分析方式包括如下幾種切片在某個(gè)維度上取固定點(diǎn),分析其他維度;鉆取在某個(gè)維度的層次結(jié)構(gòu)中,進(jìn)入下一細(xì)節(jié)級做分析;旋轉(zhuǎn)掉換OLAP分析的維度。
系統(tǒng)OLAP的結(jié)構(gòu)如圖5所示,在經(jīng)營分析系統(tǒng)的數(shù)據(jù)倉庫內(nèi),數(shù)據(jù)以“數(shù)據(jù)倉庫主題”的形式進(jìn)行組織。根據(jù)河北移動業(yè)務(wù)的需求,數(shù)據(jù)可以分成8大主題客戶主題,資源主題,賬務(wù)主題,營銷主題,服務(wù)使用主題,結(jié)算主題,客服主題,服務(wù)主題。每個(gè)主題由多個(gè)實(shí)體組成,例如,服務(wù)主題有服務(wù)實(shí)體、產(chǎn)品實(shí)體、資費(fèi)和優(yōu)惠政策實(shí)體等等。這些實(shí)體根據(jù)業(yè)務(wù)規(guī)則和業(yè)務(wù)結(jié)構(gòu)相互聯(lián)系。
OLAP分析一盤包括3個(gè)步驟確定分析的目標(biāo)和維度→構(gòu)造分析模型→前端分析與展現(xiàn)第一步,確定分析的目標(biāo)和維度對業(yè)務(wù)進(jìn)行OLAP分析,首先應(yīng)確定分析的目標(biāo),然后提出分析的維度和指標(biāo)。
以收益分析中的收入總量分析為例,目標(biāo)定為“分析不同的地區(qū)、時(shí)間、移動業(yè)務(wù)種類對業(yè)務(wù)收入總量的影響”。在確定分析的目標(biāo)之后,分析的指標(biāo)以及分析的維度基本確定。在上一例中,分析的指標(biāo)就是收入總量;分析的維度有三個(gè),分別是地區(qū),時(shí)間,移動業(yè)務(wù)種類。分析的維度需要根據(jù)實(shí)際需求進(jìn)行細(xì)分。
第二步,構(gòu)造分析模型OLAP的分析模型可以分為邏輯模型和物理模型。
邏輯模型主要采用星型模式。星型模式由事實(shí)表和維表構(gòu)成。事實(shí)表存放了需要分析的細(xì)節(jié)數(shù)據(jù),維表存放了各分析維度的屬性。
物理模型指的是OLAP的存儲方式,以星型模式存放在關(guān)系型數(shù)據(jù)庫中或構(gòu)建Cube(多維立方體數(shù)據(jù)集)等。
第三步,前端分析與展現(xiàn)針對一個(gè)具體的OLAP分析應(yīng)用,在完成分析模型的構(gòu)造之后,應(yīng)相應(yīng)地配置前端展現(xiàn)工具。
對于Web訪問方式,根據(jù)需要將有關(guān)內(nèi)容加入OLAP Server中,另外對WebServer作相應(yīng)的配置;對于傳統(tǒng)客戶端訪問方式,需要對客戶端軟件作相應(yīng)的配置。
完成配置工作后,用戶可以針對相應(yīng)主題進(jìn)行各種分析操作。前端工具應(yīng)提供多種圖形、表格的展示方式。
數(shù)據(jù)挖掘是根據(jù)企業(yè)的既定業(yè)務(wù)目標(biāo)和存在的問題,對大量的業(yè)務(wù)數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律,并將其模型化,指導(dǎo)并應(yīng)用于實(shí)際的企業(yè)經(jīng)營中。數(shù)據(jù)挖掘體系結(jié)構(gòu)如圖6所示。數(shù)據(jù)挖掘同數(shù)據(jù)倉庫和數(shù)據(jù)集市及其應(yīng)用結(jié)合的流程,可以首先基于確定的業(yè)務(wù)問題和目標(biāo),由專業(yè)的數(shù)據(jù)挖掘分析人員通過數(shù)據(jù)挖掘工具對數(shù)據(jù)倉庫(或在由此進(jìn)行數(shù)據(jù)再組織而生成的數(shù)據(jù)集市)挖掘找出規(guī)律,生成模型,再把這個(gè)模型應(yīng)用于相關(guān)數(shù)據(jù)倉庫(或數(shù)據(jù)集市)中的數(shù)據(jù),進(jìn)而生成報(bào)表等,供數(shù)據(jù)挖掘結(jié)果應(yīng)用人員訪問和應(yīng)用數(shù)據(jù)挖掘所產(chǎn)生的各類結(jié)果,以了解業(yè)務(wù)和客戶狀況。在經(jīng)營分析系統(tǒng)中,不同的實(shí)際問題所采用的數(shù)據(jù)挖掘方法不同,數(shù)據(jù)挖掘的方法一般分為預(yù)測型和描述型,其中,預(yù)測型(Predictive)方法包括分類(Classification)/決策樹算法(Decision Tree)、回歸分析、時(shí)間序列分析(Time Series);描述型(Descriptive)方法包括關(guān)聯(lián)分析(Association Analysis)、序列關(guān)聯(lián)分析(Sequential Analysis)、聚類分析(Clustering)。數(shù)據(jù)挖掘與OLAP分析、預(yù)定義報(bào)表和即席查詢等有很大的區(qū)別。后三者通常是用戶對所關(guān)心的業(yè)務(wù)指標(biāo),按照已知的角度進(jìn)行分析;而前者則是在業(yè)務(wù)問題和目標(biāo)明確,但考察的角度不清楚時(shí),對數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律性,進(jìn)而將其模型化。數(shù)據(jù)挖掘是一個(gè)循環(huán)往復(fù)的過程,通常涉及數(shù)據(jù)的選擇、數(shù)據(jù)的變換,建立模型,評估、解釋模型,運(yùn)用和鞏固模型等步驟。數(shù)據(jù)挖掘過程如圖7所示。
數(shù)據(jù)訪問層應(yīng)提供一個(gè)統(tǒng)一的門戶入口和界面,實(shí)現(xiàn)預(yù)定義報(bào)表、即席查詢和多維動態(tài)分析的無縫連接,并提供集成化的認(rèn)證、信息發(fā)布和管理環(huán)境,使經(jīng)營分析系統(tǒng)使用人員無需關(guān)心具體的技術(shù)實(shí)現(xiàn)途徑,即可實(shí)現(xiàn)對經(jīng)營分析系統(tǒng)數(shù)據(jù)的訪問和分析。同時(shí)門戶站點(diǎn)還可根據(jù)不同分析和決策人員的需求,對所需的訪問和分析內(nèi)容進(jìn)行方便、簡捷的定制,以滿足個(gè)性化信息服務(wù)的需求。
6、為確保系統(tǒng)的正常運(yùn)行設(shè)定各種流程化的控制。
1)自動作業(yè)調(diào)度監(jiān)控經(jīng)營分析系統(tǒng)的管理工作會包括大量周期性、需自動完成的工作。管理平臺應(yīng)包括自動作業(yè)調(diào)度系統(tǒng),系統(tǒng)可按指定的時(shí)間周期自動執(zhí)行相應(yīng)的作業(yè),以減輕系統(tǒng)管理員的工作負(fù)擔(dān)。
調(diào)度的作業(yè)包括對關(guān)系數(shù)據(jù)庫、多維數(shù)據(jù)庫和操作系統(tǒng)進(jìn)行的各種操作,如數(shù)據(jù)抽取/轉(zhuǎn)換/裝載、數(shù)據(jù)備份等。系統(tǒng)監(jiān)控的事件被觸發(fā)時(shí),可自動調(diào)度指定的作業(yè)進(jìn)行處理。增加對自動調(diào)度事件執(zhí)行情況的監(jiān)控。
經(jīng)營分析系統(tǒng)的規(guī)模龐大,需要一個(gè)全面的安全管理,要考慮網(wǎng)絡(luò)中所有安全薄弱環(huán)節(jié)的保護(hù),同時(shí)要顧及安全策略的集中實(shí)現(xiàn)。
2)網(wǎng)絡(luò)安全管理經(jīng)營分析系統(tǒng)滿足如下安全功能a)通過防火墻等措施對進(jìn)入內(nèi)部網(wǎng)絡(luò)的數(shù)據(jù)包進(jìn)行掃描過濾,能夠根據(jù)用戶、IP地址、訪問類型等方式進(jìn)行訪問規(guī)則限制,能夠?qū)ΤR姷娜肭中袨檫M(jìn)行判斷并阻止。
B)提供地址翻譯功能,屏蔽網(wǎng)絡(luò)內(nèi)部細(xì)節(jié),防止外部黑客利用IP探測技術(shù)發(fā)現(xiàn)內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)和服務(wù)器真實(shí)地址,從而實(shí)現(xiàn)有針對性的攻擊。
C)能夠?qū)W(wǎng)絡(luò)通訊進(jìn)行監(jiān)控,及時(shí)發(fā)現(xiàn)任何來自于網(wǎng)絡(luò)內(nèi)部或外部的黑客入侵或可疑的訪問行為,并做到及時(shí)報(bào)警與阻斷。
D)做到對各子網(wǎng)間或遠(yuǎn)程用戶傳輸中的數(shù)據(jù)進(jìn)行安全保護(hù),利用加密等方式保證數(shù)據(jù)不被非法截獲,并提供用戶身份認(rèn)證、授權(quán)等功能。
3)系統(tǒng)備份恢復(fù)管理在一個(gè)大型數(shù)據(jù)倉庫系統(tǒng)中,除了需要功能強(qiáng)大的服務(wù)器和可靠的磁盤存儲系統(tǒng)外,往往還需要大容量的磁帶庫設(shè)備,以便定期地對系統(tǒng)進(jìn)行備份。
對于備份/恢復(fù)系統(tǒng)主要考慮以下方面制定完備的備份和恢復(fù)策略;充分了解數(shù)據(jù)倉庫系統(tǒng)中業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)容量;充分了解數(shù)據(jù)更新的頻度和流程;選擇高性能、高可靠性的備份和恢復(fù)系統(tǒng)。
a)備份策略在進(jìn)行備份之前,首先要選擇備份策略,這將決定何時(shí)需要進(jìn)行備份,以及出現(xiàn)故障時(shí)恢復(fù)的方式。通常使用的備份方式有三種完全備份、增量備份和更新備份。
完全備份每隔一定時(shí)間就對系統(tǒng)進(jìn)行一次全面的備份,這樣在備份間隔期間出現(xiàn)數(shù)據(jù)丟失等問題,可以使用上一次的備份數(shù)據(jù)恢復(fù)到前次備份時(shí)情況。這是最基本的備份方式,但是每次都需要備份所有的數(shù)據(jù),并且每次備份的工作量也很大,需要太多的備份介質(zhì),因此這種備份不能進(jìn)行的太頻繁,只能每隔一段較長時(shí)間才進(jìn)行一次完整的備份。
增量備份首先進(jìn)行一次完全備份,然后每隔一個(gè)較短時(shí)間進(jìn)行一次備份,但僅僅備份在這個(gè)期間更改的內(nèi)容。當(dāng)經(jīng)過一個(gè)較長的時(shí)間后再重新進(jìn)行一次完全備份,開始前面的循環(huán)過程。由于只有每個(gè)備份周期的第一次進(jìn)行完全備份,其他只進(jìn)行改變的文件的備份,因此工作量小,就能夠進(jìn)行更頻繁的備份。
更新備份這種備份方法與增量備份相似,首先每月進(jìn)行一次完全備份,然后每天進(jìn)行一次更新數(shù)據(jù)的備份。但不同在于,增量備份是備份該天更改的數(shù)據(jù),而更新備份是備份從上次進(jìn)行完全備份后更改的全部數(shù)據(jù)文件。一旦發(fā)生數(shù)據(jù)丟失,可以使用前一個(gè)完全備份恢復(fù)到前一個(gè)月的狀態(tài),再使用前一個(gè)更新備份恢復(fù)到前一天的情況。這樣做的缺點(diǎn)是每次作小備份工作的任務(wù)比增量備份的工作量要大,但好處在于,增量備份每天都有備份,因此要保存數(shù)據(jù)備份數(shù)量太多,而更新備份則不然,只需保存一個(gè)完全備份和一個(gè)更新備份就可以恢復(fù)故障以前的狀態(tài)。另外在進(jìn)行恢復(fù)工作時(shí),增量備份要順序進(jìn)行多次備份的恢復(fù),而更新備份只需兩次恢復(fù),因此它的恢復(fù)工作相對簡單。
系統(tǒng)應(yīng)有良好的備份策略和恢復(fù)計(jì)劃。系統(tǒng)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)可聯(lián)機(jī)備份、聯(lián)機(jī)恢復(fù),恢復(fù)的數(shù)據(jù)必須保持其完整性和一致性。
b)數(shù)據(jù)級備份數(shù)據(jù)級備份主要指數(shù)據(jù)倉庫系統(tǒng)中河北移動的業(yè)務(wù)數(shù)據(jù)的備份。移動的主要數(shù)據(jù)包括客戶資料、詳單信息、綜合帳單信息、客戶服務(wù)信息、市場營銷信息、繳費(fèi)/欠費(fèi)信息、網(wǎng)管信息等。
數(shù)據(jù)級備份是數(shù)據(jù)備份和恢復(fù)系統(tǒng)中需要重點(diǎn)規(guī)劃的部分。河北移動的數(shù)據(jù)量非常巨大,幾個(gè)月的詳單信息就可能上TB級,以此在選擇數(shù)據(jù)備份策略的過程中,充分考慮數(shù)據(jù)量的因素,保證數(shù)據(jù)備份的速度和頻度可以在規(guī)定的要求上順利完成。
c)系統(tǒng)級備份系統(tǒng)級備份可以避免意想不到的系統(tǒng)數(shù)據(jù)丟失,尤其在系統(tǒng)數(shù)據(jù)非常重要的時(shí)候。經(jīng)常進(jìn)行數(shù)據(jù)備份能夠減少偶然破壞造成的損失,保證系統(tǒng)能夠從錯誤中恢復(fù)正常運(yùn)行。
系統(tǒng)備份主要包括數(shù)據(jù)庫備份、應(yīng)用程序備份,ETL數(shù)據(jù)加載系統(tǒng)程序以及其他相關(guān)數(shù)據(jù)的備份。
如圖3所示,本決策支持系統(tǒng)的硬件組成如下數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)倉庫服務(wù)器硬件配置為5350×12節(jié)點(diǎn),每節(jié)點(diǎn)4GB內(nèi)存,84×36GB硬盤(6841-2456),共63AMPs。操作系統(tǒng)為NCR UNIX MP-RAS 3.02,數(shù)據(jù)庫為Teradata V2R5.1,6466帶庫,20×LTO帶機(jī),500slots。
數(shù)據(jù)倉庫系統(tǒng)管理工作站這部服務(wù)器帶有2個(gè)Pentium 4 1.26GHz的IntelCPU,帶有2G內(nèi)存,這部服務(wù)器連接內(nèi)部磁盤子系統(tǒng),硬盤子系統(tǒng)具有2個(gè)18GB磁盤驅(qū)動器,合計(jì)磁盤原始容量是36GB。
該服務(wù)器運(yùn)行Windows 2000 server操作系統(tǒng)和AWS Console Software管理工作站軟件,執(zhí)行對中央數(shù)據(jù)倉庫系統(tǒng)(數(shù)據(jù)倉庫服務(wù)器和磁盤陣列系統(tǒng))的管理功能。
ETL服務(wù)器ETL服務(wù)器一共有兩臺,這兩臺服務(wù)器均是IBM xSeries 360,每臺服務(wù)器帶有4個(gè)Intel Xeon 1.5G CPU,4G內(nèi)存,硬盤子系統(tǒng)具備2*36G硬盤,合計(jì)硬盤原始容量是72G。
由于與計(jì)費(fèi)系統(tǒng)連接的需要,特設(shè)置二臺接口機(jī)。采用IBM xSeries 345,帶有1CPU/512M RAM。
ETL服務(wù)器上運(yùn)行Microsoft Windows 2000 Advanced Server操作系統(tǒng)和ETLAutomation數(shù)據(jù)加載管理軟件。負(fù)責(zé)加載來自計(jì)費(fèi)話單、營帳數(shù)據(jù)、大客戶數(shù)據(jù)、1860客服數(shù)據(jù)的數(shù)據(jù)OLAP服務(wù)器OLAP服務(wù)器一共有兩臺,這兩臺服務(wù)器均是IBM xSeries 360,每臺服務(wù)器帶有4個(gè)Intel Xeon 1.5G CPU,4G內(nèi)存,硬盤子系統(tǒng)具備2*36G硬盤,合計(jì)硬盤原始容量是72G。
兩臺服務(wù)器均安裝Microsoft Windows 2000 Advanced Server操作系統(tǒng)和Microsoft Analysis Server多維分析服務(wù)器軟件,還安裝了ETL Automation數(shù)據(jù)加載管理軟件。這兩臺服務(wù)器主要是負(fù)責(zé)Microsoft OLAP Server應(yīng)用的CUBE的每日更新工作,管理從數(shù)據(jù)倉庫中的數(shù)據(jù)生成的多維分析立方體文件。同時(shí)運(yùn)行ETL Automation,用ETL Automation負(fù)責(zé)自動調(diào)度運(yùn)行Microsoft OLAP Server的更新作業(yè),維護(hù)Microsoft OLAP Server作業(yè)的調(diào)度。
WEB服務(wù)器這部服務(wù)器是IBM xSeries 360,服務(wù)器帶有4個(gè)Intel Xeon 1.5GCPU,4G內(nèi)存,硬盤子系統(tǒng)具備2*36G硬盤,合計(jì)每臺硬盤原始容量是72G。
服務(wù)器安裝Microsoft Windows 2000 Server操作系統(tǒng)和Cognos多維分析服務(wù)器Upfront Web Server軟件和BEA Weblogic,服務(wù)器主要是負(fù)責(zé)Microsoft OLAP應(yīng)用的前臺展現(xiàn)和河北移動業(yè)務(wù)人員的WEB瀏覽。
DM數(shù)據(jù)挖掘服務(wù)器數(shù)據(jù)挖掘服務(wù)器是IBM pSeries 630 Unix小型機(jī),服務(wù)器帶有2-Way/Power4/1.0GHz,4G內(nèi)存,硬盤子系統(tǒng)具備2*36G硬盤,合計(jì)每臺硬盤原始容量是72G。
服務(wù)器安裝AIX 5.1操作系統(tǒng)和SAS Data Mining數(shù)據(jù)挖掘軟件。服務(wù)器主要是負(fù)責(zé)數(shù)據(jù)挖掘應(yīng)用。
應(yīng)用服務(wù)器存儲存儲內(nèi)容包括ETL存儲、OLAP存儲、和數(shù)據(jù)挖掘存儲,這三部分存儲共享3T容量的EMC C400磁盤陣列,通過SAN方式連接。存儲采用的RAID5方式進(jìn)行磁盤容錯管理,則ETL存儲實(shí)有容量800G,OLAP存儲實(shí)有容量800G,數(shù)據(jù)挖掘690G。
系統(tǒng)安全及管理服務(wù)器這兩部服務(wù)器都是IBM xSeries 345,服務(wù)器帶有1個(gè)Intel Xeon 2.4G CPU,1G內(nèi)存,硬盤子系統(tǒng)具備2*36G硬盤,合計(jì)每臺硬盤原始容量是72G。
服務(wù)器安裝Microsoft Windows 2000 Server操作系統(tǒng)和系統(tǒng)安全管理軟件,提供對經(jīng)營分析系統(tǒng)的綜合安全保護(hù)。包括病毒和惡意代碼防護(hù)、訪問控制、用戶集中管理、入侵檢測、綜合目錄管理等全面的主機(jī)保護(hù)。
如圖3所示,系統(tǒng)硬件之間的物理連接如下在電信業(yè)的數(shù)據(jù)倉庫系統(tǒng)中,它的數(shù)據(jù)流量巨大,可靠性要求高,在此發(fā)明中,采用了先進(jìn)的局域網(wǎng)技術(shù),以兩臺千兆以太網(wǎng)交換機(jī)作為核心,組建一個(gè)以IP技術(shù)為核心的高速的、無阻塞的、全交換的高速數(shù)據(jù)傳輸網(wǎng)絡(luò),并利用冗余的物理連接提供高可靠的網(wǎng)絡(luò)環(huán)境。
在數(shù)據(jù)倉庫系統(tǒng)和其他源系統(tǒng)之間通過MDCN網(wǎng)絡(luò)進(jìn)行連接。
以河北移動目前的數(shù)據(jù)倉庫系統(tǒng)為例,共有12個(gè)數(shù)據(jù)倉庫節(jié)點(diǎn),13臺配套應(yīng)用服務(wù)器,各個(gè)應(yīng)用服務(wù)器和數(shù)據(jù)倉庫系統(tǒng)通過到交換機(jī)的雙星形結(jié)構(gòu)進(jìn)行連接,其中任何一條鏈路斷開和任何一臺中心交換機(jī)故障都不會影響系統(tǒng)的正常工作。
這12個(gè)數(shù)據(jù)倉庫節(jié)點(diǎn)運(yùn)行數(shù)據(jù)倉庫服務(wù)器,以MPP(大規(guī)模并行處理技術(shù))的方式組織起來,每個(gè)節(jié)點(diǎn)分別用千兆光纖和千兆6類雙絞線連接到兩臺CISCO4506交換機(jī);兩臺ETL加載服務(wù)器是IBM x360和x445,向數(shù)據(jù)倉庫加載源系統(tǒng)提供的數(shù)據(jù),一臺數(shù)據(jù)導(dǎo)出和上傳服務(wù)器是IBM x360,它們都運(yùn)行ETL(數(shù)據(jù)抽取、轉(zhuǎn)換、加載)服務(wù),通過千兆光纖連接到交換機(jī);兩臺OLAP(在線聯(lián)機(jī)分析)服務(wù)器是IBM x445,運(yùn)行多維分析服務(wù),通過千兆光纖連接到交換機(jī);兩臺WEB服務(wù)器是IBM x360,組成集群,提供頁面和報(bào)表展示,運(yùn)行WEB服務(wù)和展示服務(wù),通過千兆光纖連接到交換機(jī);一臺PORTAL(門戶)服務(wù)器是IBM x360,提供頁面相關(guān)數(shù)據(jù)的存儲,運(yùn)行門戶相關(guān)的數(shù)據(jù)庫服務(wù),通過千兆光纖連接到交換機(jī);一臺數(shù)據(jù)挖掘主機(jī)IBM p630,運(yùn)行數(shù)據(jù)挖掘分析軟件,通過千兆光纖連接到交換機(jī);另外還有域服務(wù)器和安全管理服務(wù)器,它們都通過百兆雙絞線連接到交換機(jī)。
系統(tǒng)的軟件組成如下數(shù)據(jù)倉庫服務(wù)器操作系統(tǒng)NCR UNIX MP-RAS 3.02;數(shù)據(jù)庫系統(tǒng)NCR Teradata海量并行處理數(shù)據(jù)庫系統(tǒng)。
系統(tǒng)管理工作站工作站類型NCR 4470數(shù)據(jù)倉庫系統(tǒng)管理工作站;操作系統(tǒng)Windows 2000 Server;工作站管理軟件。
ETL服務(wù)器操作系統(tǒng)Windows 2000 Advanced Server;數(shù)據(jù)庫系統(tǒng)NCRTeradata海量并行處理數(shù)據(jù)庫管理系統(tǒng);工具NCR Teradata公用程序。
OLAP服務(wù)器操作系統(tǒng)Windows 2000 Advanced Server;工具M(jìn)icrosoftAnalysis server;工具ETL Automation數(shù)據(jù)加載服務(wù)器版本。
WEB服務(wù)器操作系統(tǒng)Windows 2000 Advanced Server;工具Cognos的Web版本與BEA Weblogic(Web Server);工具ETL Automation數(shù)據(jù)加載服務(wù)器版本DM數(shù)據(jù)挖掘服務(wù)器操作系統(tǒng)AIX 5.1;工具SAS Data Mining數(shù)據(jù)挖掘軟件。
系統(tǒng)安全及管理服務(wù)器操作系統(tǒng)Windows 2000 Advanced Server;工具系統(tǒng)安全管理軟件。
其它客戶端軟件NCR Teradata Manager數(shù)據(jù)庫管理工具;CA ERWin建模工具,這些工具能從任何Windows 95/98/NT/2000工作站來執(zhí)行。
權(quán)利要求
1.一種電信行業(yè)基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的構(gòu)造方法,其特征是,利用業(yè)務(wù)支撐系統(tǒng)產(chǎn)生的信息資源,結(jié)合相關(guān)支撐系統(tǒng)提供的信息,采用數(shù)據(jù)倉庫技術(shù)、數(shù)據(jù)挖掘技術(shù)、多維分析技術(shù)構(gòu)造所述決策支持系統(tǒng),構(gòu)造步驟如下步驟1、構(gòu)建符合電信業(yè)務(wù)特點(diǎn)的數(shù)據(jù)倉庫模型根據(jù)電信行業(yè)的具體特點(diǎn),將整個(gè)數(shù)據(jù)倉庫模型設(shè)計(jì)為如下八個(gè)主題域客戶、服務(wù)使用、客服、營銷、服務(wù)、結(jié)算、資源、賬務(wù),數(shù)據(jù)倉庫模型包括邏輯數(shù)據(jù)模型和物理數(shù)據(jù)模型,高層邏輯數(shù)據(jù)模型切實(shí)反映電信行業(yè)的業(yè)務(wù)關(guān)系,包括所有主題和主要實(shí)體以及相互之間的關(guān)系;物理模型是數(shù)據(jù)的存儲方式;步驟2、對源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一的分析在構(gòu)建好數(shù)據(jù)倉庫模型后,對源業(yè)務(wù)系統(tǒng),也就是數(shù)據(jù)倉庫的數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行統(tǒng)一的分析;源數(shù)據(jù)分析包括如下內(nèi)容數(shù)據(jù)的業(yè)務(wù)范圍及業(yè)務(wù)含義、數(shù)據(jù)所在平臺,包括系統(tǒng)平臺和數(shù)據(jù)庫平臺、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)更新周期、數(shù)據(jù)更新方式和數(shù)據(jù)量,分析這些系統(tǒng)中的數(shù)據(jù),根據(jù)數(shù)據(jù)倉庫系統(tǒng)物理數(shù)據(jù)模型的需要,將源數(shù)據(jù)同目的數(shù)據(jù)進(jìn)行匹配,即源數(shù)據(jù)映射;步驟3、將源系統(tǒng)中的數(shù)據(jù)進(jìn)行抽取轉(zhuǎn)換加載ETL即數(shù)據(jù)抽取、轉(zhuǎn)換和加載,是數(shù)據(jù)倉庫實(shí)現(xiàn)過程中,進(jìn)行數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)倉庫加載的主要過程;步驟4、對數(shù)據(jù)倉庫中的數(shù)據(jù)按分析需要進(jìn)行不同粒度的匯總在中央數(shù)據(jù)倉庫的基礎(chǔ)之上根據(jù)分析需求會創(chuàng)建相應(yīng)的從屬的數(shù)據(jù)集市,從屬數(shù)據(jù)集市的數(shù)據(jù)直接來自于中央數(shù)據(jù)倉庫;步驟5、通過各種訪問方式展現(xiàn)分析結(jié)果數(shù)據(jù)訪問層提供多種數(shù)據(jù)加工展現(xiàn)方法,包括預(yù)定義報(bào)表、即席查詢、多維動態(tài)分析和數(shù)據(jù)挖掘,并提供一個(gè)統(tǒng)一的門戶入口和界面,實(shí)現(xiàn)預(yù)定義報(bào)表、即席查詢和多維動態(tài)分析的無縫連接,并提供集成化的認(rèn)證、信息發(fā)布和管理環(huán)境;步驟6、為確保系統(tǒng)的正常運(yùn)行設(shè)定各種流程化的控制自動作業(yè)調(diào)度監(jiān)控,管理平臺包括自動作業(yè)調(diào)度系統(tǒng),該系統(tǒng)可按指定的時(shí)間周期自動執(zhí)行相應(yīng)的作業(yè),調(diào)度的作業(yè)包括對關(guān)系數(shù)據(jù)庫、多維數(shù)據(jù)庫和操作系統(tǒng)進(jìn)行的各種操作,系統(tǒng)監(jiān)控的事件被觸發(fā)時(shí),可自動調(diào)度指定的作業(yè)進(jìn)行處理,增加對自動調(diào)度事件執(zhí)行情況的監(jiān)控;網(wǎng)絡(luò)安全管理;系統(tǒng)備份恢復(fù)管理,根據(jù)電信行業(yè)數(shù)據(jù)的特點(diǎn),制定備份策略和恢復(fù)計(jì)劃,構(gòu)建系統(tǒng)備份恢復(fù)系統(tǒng)。
2.根據(jù)權(quán)利要求1所述的構(gòu)造方法,其特征在于步驟1中所述的八個(gè)主題域,其中客戶包括所有對電信業(yè)服務(wù)有現(xiàn)實(shí)或潛在需求的機(jī)構(gòu)或個(gè)人,客戶因?yàn)橘徺I電信業(yè)的產(chǎn)品或享受其服務(wù)而成為電信業(yè)用戶,客戶主題包含所有有關(guān)客戶的基本信息和擴(kuò)展信息,也包括開戶、銷戶信息;服務(wù)使用指電信公司對客戶訂購、使用產(chǎn)品和服務(wù)的過程的記錄,其中主要包含用戶、標(biāo)準(zhǔn)服務(wù)使用記錄、清單;客服即客戶服務(wù),描述了電信公司及合作商為客戶提供服務(wù)的所有信息,包括傳統(tǒng)的客戶服務(wù)和業(yè)務(wù)受理,服務(wù)部門和服務(wù)渠道,以及相關(guān)的行為記錄;營銷指電信公司為了拓展業(yè)務(wù)、發(fā)展用戶,針對一定的市場及特定的客戶群體所進(jìn)行的市場宣傳、促銷活動,包括一系列的營銷戰(zhàn)略以及相應(yīng)的戰(zhàn)術(shù);服務(wù)即電信公司廣義上的產(chǎn)品,包括電信公司向客戶銷售的所有產(chǎn)品以及服務(wù);結(jié)算是指電信公司同合作服務(wù)方之間的費(fèi)用清算及劃割關(guān)系;資源是電信公司擁有,為客戶提供服務(wù)的所有載體,包括號碼資源、終端資源、網(wǎng)絡(luò)資源,以及相應(yīng)的產(chǎn)品供應(yīng)商;帳務(wù)主題主要反映客戶與帳戶之間的關(guān)系,包括費(fèi)用發(fā)生、費(fèi)用交付。
3.根據(jù)權(quán)利要求1所述的構(gòu)造方法,其特征在于步驟1中所述的數(shù)據(jù)模型采用星型模式,星型模式由事實(shí)表和維表構(gòu)成,事實(shí)表存放需要分析的細(xì)節(jié)數(shù)據(jù),維表存放各分析維度的屬性;物理模型以星型模式存放在關(guān)系型數(shù)據(jù)庫中或構(gòu)建Cube。
4.根據(jù)權(quán)利要求1所述的構(gòu)造方法,其特征在于步驟2中所述的源業(yè)務(wù)系統(tǒng)包括營業(yè)系統(tǒng)、計(jì)費(fèi)系統(tǒng)、帳務(wù)系統(tǒng)、網(wǎng)管系統(tǒng)和客服系統(tǒng)。
5.根據(jù)權(quán)利要求1所述的構(gòu)造方法,其特征在于步驟3中所述的數(shù)據(jù)抽取,是針對電信行業(yè)源數(shù)據(jù)的特點(diǎn),對于不同數(shù)據(jù)平臺、不同源數(shù)據(jù)形式、不同性能要求和業(yè)務(wù)量的業(yè)務(wù)系統(tǒng)以及不同數(shù)據(jù)量的源數(shù)據(jù),將采取不同的數(shù)據(jù)抽取接口,制定相應(yīng)的策略,包括抽取方式、抽取時(shí)機(jī)、抽取周期;數(shù)據(jù)轉(zhuǎn)換是指對從業(yè)務(wù)系統(tǒng)中抽取的源數(shù)據(jù)根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型的要求,進(jìn)行數(shù)據(jù)的轉(zhuǎn)換、清洗、拆分、匯總處理,保證來自不同系統(tǒng)、不同格式的數(shù)據(jù)的一致性和完整性,并按要求裝入數(shù)據(jù)倉庫,根據(jù)實(shí)際情況確定數(shù)據(jù)轉(zhuǎn)換技術(shù)和策略;數(shù)據(jù)加載是將從數(shù)據(jù)源系統(tǒng)中抽取、轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫系統(tǒng)中,根據(jù)業(yè)務(wù)分析需求和系統(tǒng)加載的代價(jià),對不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期,同時(shí)又可以保持同一時(shí)間業(yè)務(wù)數(shù)據(jù)的完整性,根據(jù)數(shù)據(jù)的抽取策略以及業(yè)務(wù)規(guī)則確定數(shù)據(jù)的追加策略;
6.根據(jù)權(quán)利要求4所述的構(gòu)造方法,其特征在于所述的抽取方式包括增量抽取和完全抽取,其中流水型增長且數(shù)據(jù)量大的數(shù)據(jù)適合采用增量抽取的方式;變化更新的數(shù)據(jù)適合采用完全抽取的方式;對于兩者結(jié)合的數(shù)據(jù),如果能提取增量信息,則進(jìn)行增量抽取,否則采用完全抽取的方式進(jìn)行。
7.根據(jù)權(quán)利要求4所述的構(gòu)造方法,其特征在于所述的追加策略,包括三種類型直接追加、全部覆蓋和更新追加,其中,直接追加是指每次加載時(shí)直接將數(shù)據(jù)追加到目的表中,對于典型的流水?dāng)?shù)據(jù)采用此方法;全部覆蓋對于抽取數(shù)據(jù)本身已包括了數(shù)據(jù)的當(dāng)前和所有歷史狀況,對目標(biāo)表采用全部覆蓋方式;更新追加對于需要連續(xù)記錄業(yè)務(wù)的狀態(tài)變化,用當(dāng)前的最新狀態(tài)同歷史狀態(tài)數(shù)據(jù)進(jìn)行比對的情況采用更新追加的方式。
全文摘要
本發(fā)明公開了一種電信行業(yè)基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的構(gòu)造方法,其特征是,利用業(yè)務(wù)支撐系統(tǒng)產(chǎn)生的信息資源,結(jié)合相關(guān)支撐系統(tǒng)提供的信息,采用數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、多維分析等技術(shù)構(gòu)造所述決策支持系統(tǒng),構(gòu)造步驟是構(gòu)建符合電信業(yè)務(wù)特點(diǎn)的數(shù)據(jù)倉庫模型;對源業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)一的分析;將源系統(tǒng)中的數(shù)據(jù)進(jìn)行抽取轉(zhuǎn)換加載;對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行不同粒度的匯總;通過各種訪問方式展現(xiàn)分析結(jié)果;設(shè)定各種流程化的控制。本發(fā)明采用了目前領(lǐng)先的數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、OLAP分析等技術(shù),創(chuàng)造性的將企業(yè)數(shù)據(jù)融合在一起,為企業(yè)的經(jīng)營生產(chǎn)提供全方位的決策支持。本發(fā)明屬于數(shù)據(jù)倉庫領(lǐng)域,應(yīng)用于電信行業(yè)。
文檔編號G06Q50/30GK101075304SQ20061001272
公開日2007年11月21日 申請日期2006年5月18日 優(yōu)先權(quán)日2006年5月18日
發(fā)明者郭永宏, 賈殿承, 喬輝, 武海斌, 龐詠, 李祎, 張文杰, 易劍光, 劉鵬 申請人:河北全通通信有限公司