亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于主成分分析多變量決策樹(shù)的接線方式識(shí)別方法

文檔序號(hào):9579639閱讀:399來(lái)源:國(guó)知局
一種基于主成分分析多變量決策樹(shù)的接線方式識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電力系統(tǒng)中的接線方式識(shí)別檢測(cè)技術(shù),具體涉及一種基于主成分分析多變量決策樹(shù)的接線方式識(shí)別方法。
【背景技術(shù)】
[0002]目前,電力系統(tǒng)中接線方式的識(shí)別主要是通過(guò)人工識(shí)別和程序判據(jù)條件兩種方式實(shí)現(xiàn)的。人工識(shí)別的缺點(diǎn)在于:當(dāng)面對(duì)大量的一次接線圖時(shí),效率十分低下;程序判據(jù)條件方式主要是根據(jù)接線方式的電網(wǎng)模型特征來(lái)設(shè)置判定條件,通過(guò)逐步判斷條件來(lái)識(shí)別接線方式,其缺點(diǎn)在于:判定條件固定,理論上合理,但是與現(xiàn)實(shí)的各種作圖和數(shù)據(jù)模型存在偏差,識(shí)別判據(jù)十分不靈活,沒(méi)有很好的歸類和反饋,接線方式識(shí)別的魯棒性不好,容易出現(xiàn)無(wú)法識(shí)別,甚至是誤判和漏判,針對(duì)重復(fù)出現(xiàn)的問(wèn)題圖形和特殊圖形,往往涉及到修改程序擴(kuò)充和修改判據(jù)條件,這種方式對(duì)于一些特殊接線或新的接線無(wú)法識(shí)別,并且后期維護(hù)成本較高。

【發(fā)明內(nèi)容】

[0003]本發(fā)明針對(duì)現(xiàn)有技術(shù)下存在的上述問(wèn)題,研發(fā)了一種基于主成分分析多變量決策樹(shù)的接線方式識(shí)別方法。
[0004]本發(fā)明是通過(guò)如下技術(shù)方案實(shí)現(xiàn)的:
一種基于主成分分析多變量決策樹(shù)的接線方式識(shí)別方法,其主要包括如下步驟:
51、數(shù)據(jù)準(zhǔn)備階段:獲取電網(wǎng)數(shù)據(jù)建立基礎(chǔ)電網(wǎng)模型,根據(jù)電網(wǎng)模型建立設(shè)備臺(tái)賬;
52、決策分析階段:即構(gòu)建決策樹(shù)、修剪決策樹(shù);
53、決策預(yù)測(cè)階段:即模型學(xué)習(xí)并生成分類器;
54、模型解釋和校驗(yàn)階段:即進(jìn)行決策樹(shù)模型效果驗(yàn)證。
[0005]其中,在數(shù)據(jù)準(zhǔn)備階段具體包括如下:
a、構(gòu)建接線方式基礎(chǔ)特征電網(wǎng)模型:首先根據(jù)CIME電網(wǎng)模型文件構(gòu)建電網(wǎng)模型,建立結(jié)構(gòu)化設(shè)備樹(shù)形臺(tái)賬,然后從設(shè)備臺(tái)賬中查找連接關(guān)系設(shè)備集合API實(shí)現(xiàn)重要設(shè)備的統(tǒng)計(jì),并搜索統(tǒng)計(jì)電網(wǎng)特征的接口,構(gòu)建接線方式基礎(chǔ)特征電網(wǎng)模型;
b、建立原始數(shù)據(jù)集的屬性特征:在建立的模型基礎(chǔ)上,訓(xùn)練樣本抽樣,對(duì)于抽樣之后的電網(wǎng)模型進(jìn)行校驗(yàn),校驗(yàn)屬性處理,采用數(shù)據(jù)清洗規(guī)則處理缺失數(shù)據(jù)、去除重復(fù)數(shù)據(jù)、去除噪聲數(shù)據(jù)、處理異常的數(shù)據(jù),從而保證數(shù)據(jù)的完整性、唯一性、精確性;對(duì)標(biāo)準(zhǔn)抽樣模型導(dǎo)出相應(yīng)的原始數(shù)據(jù)集的屬性特征模型;樣本數(shù)據(jù)中包含常見(jiàn)的樣本模型,樣本過(guò)少則補(bǔ)充相關(guān)樣本,補(bǔ)充樣本采用直接構(gòu)造的方式實(shí)現(xiàn);
C、原始數(shù)據(jù)集的屬性特征轉(zhuǎn)換:獲取原始數(shù)據(jù)集的屬性特征,考察已有原始數(shù)據(jù)集的屬性特征中必要的信息,自動(dòng)地進(jìn)行模型數(shù)據(jù)集屬性特征構(gòu)造,通過(guò)設(shè)置特征條件、設(shè)置設(shè)備特征配比、設(shè)置設(shè)備連接特征條件構(gòu)造接線方式屬性特征,進(jìn)行新舊屬性特征轉(zhuǎn)換;
d、模型數(shù)據(jù)集屬性特征主成分分析優(yōu)化:本步驟主要訓(xùn)練模型優(yōu)化,建立模型維度。在模型維度選取的時(shí)候,維度的選取分析過(guò)程采用特征向量,正交矩陣等分析方法,利用主成分分析法的思想,將η維特征映射到k維上(k〈n),這k維是全新的正交特征,這k維特征稱為主元,是重新構(gòu)造出來(lái)的k維特征,簡(jiǎn)單地從η維特征中去除其余n-k維特征,找到最大方差理論、最小錯(cuò)誤理論和坐標(biāo)軸相關(guān)度理論,尋找出各維度因素線性無(wú)關(guān)的標(biāo)準(zhǔn)正交特征向量,選取最優(yōu)特征,優(yōu)化接線方式特征模型;
e、模型數(shù)據(jù)集屬性特征分類:在篩選模型特征的時(shí)候,主成分分析會(huì)形成數(shù)據(jù)模型標(biāo)準(zhǔn)化與歸一化,會(huì)形成連續(xù)數(shù)據(jù)區(qū)間(O,I)和無(wú)量綱的數(shù)據(jù)。但是由于決策樹(shù)采用二分離散化的方法處理連續(xù)屬性的,在現(xiàn)實(shí)中假定分類與屬性取值存在幾何分布概率的情況并不通用,會(huì)大大降低分類精度,為了更好的反映數(shù)據(jù)分類與屬性值的關(guān)系,本方案利用基于屬性變換的多區(qū)間離散化方法將連續(xù)數(shù)值屬性轉(zhuǎn)換為類別的概率屬性,把決策樹(shù)環(huán)節(jié)按照信息增益率劃分的指標(biāo)轉(zhuǎn)換成尋找最大概率的指標(biāo),在一個(gè)變化的區(qū)間之內(nèi)尋找最大的概率的指標(biāo),實(shí)現(xiàn)模型特征多區(qū)間離散化。
[0006]在決策分析階段具體如下:
f、構(gòu)建決策樹(shù):針對(duì)以上步驟建立的模型,新增”接線名稱”一列并將其設(shè)置為結(jié)果標(biāo)簽列,標(biāo)簽列用作決策樹(shù)分類時(shí)的最終離散輸出值,此列在訓(xùn)練時(shí)作為預(yù)測(cè)變量列,在樣本訓(xùn)練環(huán)節(jié)按照經(jīng)驗(yàn)錄入,其余屬性或者維度特征設(shè)置常規(guī)列。所有的常規(guī)列及其屬性值劃分是決策樹(shù)的決策和預(yù)測(cè)依據(jù)實(shí)現(xiàn)的方式,作為決策樹(shù)節(jié)點(diǎn);
g、決策樹(shù)修剪:決策樹(shù)構(gòu)造過(guò)程中,需要對(duì)決策樹(shù)進(jìn)行修剪,以提高未知樣本數(shù)據(jù)集其預(yù)測(cè)能力,主要采用兩種方法,預(yù)修剪和后修剪。
[0007]在決策預(yù)測(cè)階段具體如下:
h、模型學(xué)習(xí):通過(guò)決策樹(shù)模型學(xué)習(xí)相關(guān)信息,輸入預(yù)測(cè)模型,根據(jù)模型中樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),并將其記錄,反復(fù)學(xué)習(xí),構(gòu)建決策模式;
1、生成分類器:根據(jù)模型學(xué)習(xí)構(gòu)建的決策模式和接線方式?jīng)Q策樹(shù)模型以IF— Then形式形成分類規(guī)則,組成規(guī)則集,并沿著給定路徑上的每個(gè)“屬性一一值”形成IF部分的一個(gè)合取項(xiàng),葉節(jié)點(diǎn)包含的類預(yù)測(cè),形成Then后的部分,將規(guī)則存入規(guī)則庫(kù),生成接線方式模型特征分類器,實(shí)現(xiàn)決策預(yù)測(cè)。
[0008]在模型解釋與校驗(yàn)階段具體如下:
j、模型解釋和校驗(yàn):決策樹(shù)算法的執(zhí)行結(jié)果是一棵表明哪些因素影響接線方式流失的決策樹(shù)。為了得到最有價(jià)值的結(jié)果,本方案采用K 一折交叉確認(rèn)方法進(jìn)行模型解釋和校驗(yàn),K 一折交叉確認(rèn)方法將數(shù)據(jù)分成K份,然后用K-1份(訓(xùn)練集)去訓(xùn)練模型,剩下的一份(測(cè)試集)去測(cè)試模型的效果;
k、決策樹(shù)模型效果驗(yàn)證:由訓(xùn)練數(shù)據(jù)集生成決策樹(shù)模型后,使用測(cè)試數(shù)據(jù)集進(jìn)行驗(yàn)證。
[0009]本發(fā)明的有益效果在于:其基于主成分分析的多變量構(gòu)建接線方式特征模型,并采用決策樹(shù)的思想訓(xùn)練接線方式特征模型樣本,生成分類器,實(shí)現(xiàn)了未知情況下的接線方式識(shí)別;其能夠不斷進(jìn)行接線方式特征模型學(xué)習(xí),對(duì)新出現(xiàn)的接線方式給出恰當(dāng)、正確的分類,具有維護(hù)成本低、魯棒性好的優(yōu)勢(shì)。
【附圖說(shuō)明】
[0010]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的說(shuō)明。[0011 ] 圖1為本發(fā)明的流程示意圖。
[0012]圖2為決策樹(shù)正確識(shí)別率統(tǒng)計(jì)表。
【具體實(shí)施方式】
[0013]下面結(jié)合具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步地說(shuō)明。
[0014]本發(fā)明如圖1所述,其包括如下步驟:
51、數(shù)據(jù)準(zhǔn)備階段:獲取電網(wǎng)數(shù)據(jù)建立基礎(chǔ)電網(wǎng)模型,根據(jù)電網(wǎng)模型建立設(shè)備臺(tái)賬;
52、決策分析階段:即構(gòu)建決策樹(shù)、修剪決策樹(shù);
53、決策預(yù)測(cè)階段:即模型學(xué)習(xí)并生成分類器;
54、模型解釋和校驗(yàn)階段:即進(jìn)行決策樹(shù)模型效果驗(yàn)證。
[0015]進(jìn)一步,在Si中,所述數(shù)據(jù)準(zhǔn)備階段具體包括如下:
a、構(gòu)建接線方式基礎(chǔ)特征電網(wǎng)模型:首先根據(jù)CIME電網(wǎng)模型文件構(gòu)建電網(wǎng)模型,建立結(jié)構(gòu)化設(shè)備樹(shù)形臺(tái)賬,然后從設(shè)備臺(tái)賬中查找連接關(guān)系設(shè)備集合API實(shí)現(xiàn)重要設(shè)備的統(tǒng)計(jì),并搜索統(tǒng)計(jì)電網(wǎng)特征的接口,構(gòu)建接線方式基礎(chǔ)特征電網(wǎng)模型;
b、建立原始數(shù)據(jù)集的屬性特征:在建立的模型基礎(chǔ)上,訓(xùn)練樣本抽樣,對(duì)于抽樣之后的電網(wǎng)模型進(jìn)行校驗(yàn),校驗(yàn)屬性處理,采用數(shù)據(jù)清洗規(guī)則處理缺失數(shù)據(jù)、去除重復(fù)數(shù)據(jù)、去除噪聲數(shù)據(jù)、處理異常的數(shù)據(jù),從而保證數(shù)據(jù)的完整性、唯一性、精確性。對(duì)標(biāo)準(zhǔn)抽樣模型導(dǎo)出相應(yīng)的原始數(shù)據(jù)集的屬性特征模型。樣本數(shù)據(jù)中包含常見(jiàn)的樣本模型,樣本過(guò)少則補(bǔ)充相關(guān)樣本,補(bǔ)充樣本采用直接構(gòu)造的方式實(shí)現(xiàn);
C、原始數(shù)據(jù)集的屬性特征轉(zhuǎn)換:獲取原始數(shù)據(jù)集的屬性特征,考察已有原始數(shù)據(jù)集的屬性特征中必要的信息,自動(dòng)地進(jìn)行模型數(shù)據(jù)集屬性特征構(gòu)造,通過(guò)設(shè)置特征條件、設(shè)置設(shè)備特征配比、設(shè)置設(shè)備連接特征條件構(gòu)造接線方式屬性特征,進(jìn)行新舊屬性特征轉(zhuǎn)換;
d、模型數(shù)據(jù)集屬性特征主成分分析優(yōu)化:本步驟主要訓(xùn)練模型優(yōu)化,建立模型維度;在模型維度選取的時(shí)候,維度的選取分析過(guò)程采用特征向量,正交矩陣等分析方法,利用主成分分析法的思想,將η維特征映射到k維上(k〈n),這k維是全新的正交特征,這k維特征稱為主元,是重新構(gòu)造出來(lái)的k維特征,簡(jiǎn)單地從η維特征中去除其余n-k維特征,找到最大方差理論、最小錯(cuò)誤理論和坐標(biāo)軸相關(guān)度理論,尋找出各維度因素線性無(wú)關(guān)的標(biāo)準(zhǔn)正交特征向量,選取最優(yōu)特征,優(yōu)化接線方式特征模型;
e、模型數(shù)據(jù)集屬性特征分類:在篩選模型特征的時(shí)候,主成分分析會(huì)形成數(shù)據(jù)模型標(biāo)準(zhǔn)化與歸一化,會(huì)形成連續(xù)數(shù)據(jù)區(qū)間(0,1)和無(wú)量綱的數(shù)據(jù)。但是由于決策樹(shù)采用二分離散化的方法處理連續(xù)屬性的,在現(xiàn)實(shí)中假定分類與屬性取值存在幾何分布概率的情況并不通用,會(huì)大大降低分類精度,為了更好的反映數(shù)據(jù)分類與屬性值的關(guān)系,本方案利用基于屬性變換的多區(qū)間離散化方法將連續(xù)數(shù)值屬性轉(zhuǎn)換為類別的概率屬性,把決策樹(shù)環(huán)節(jié)按照信息增益率劃分的指標(biāo)轉(zhuǎn)換成尋找最大概率的指標(biāo),在一個(gè)變化的區(qū)間之內(nèi)尋找最大的概率的指標(biāo),實(shí)現(xiàn)模型特征多區(qū)間離散化。
[0016]更進(jìn)一步,d中,在主成分分析時(shí),采用接線方式協(xié)方差矩陣計(jì)算不同維度之間中每一維度與平均值的偏離程度,確定接線方式對(duì)屬性之間支持程度,具體步驟如下:
1、根據(jù)模型樣例特征數(shù)據(jù)構(gòu)建矩陣,求取模型樣例均值及模型特征的標(biāo)準(zhǔn)差;
I1、對(duì)接線方式協(xié)方差矩陣進(jìn)行特征值分解,得到的前k大特征值對(duì)應(yīng)的特征向量就是最佳的k維新特征,而且這k維新特征是正交的,得到前k個(gè)樣例均值,通過(guò)變換得到新的樣本;
II1、通過(guò)降維簡(jiǎn)化模型,選取最大的k個(gè)樣例均值,使得方差較小的特征被丟棄。
[0017]進(jìn)一步,在s2中,所述決策分析階段具體如下:
f、構(gòu)建決策樹(shù):針對(duì)以上步驟建立的模型,新增”接線名稱”一列并將其設(shè)置為結(jié)果標(biāo)簽列,標(biāo)簽列用作決策樹(shù)分類時(shí)的最終離散輸出值,此列在訓(xùn)練時(shí)作為預(yù)測(cè)變量列,在樣本訓(xùn)練環(huán)節(jié)按照經(jīng)驗(yàn)錄入,其余屬性或者維度特征設(shè)置常規(guī)列;所有的常規(guī)列及其屬性值劃分是決策樹(shù)的決策和預(yù)測(cè)依據(jù)實(shí)現(xiàn)的方式,作為決策樹(shù)節(jié)點(diǎn);
g、決策樹(shù)修剪:決策樹(shù)構(gòu)造過(guò)程中,需要對(duì)決策樹(shù)進(jìn)行修剪,以提高未知樣本數(shù)據(jù)集其預(yù)測(cè)能力,主要采用兩種方法,預(yù)修剪和后修剪。
[0018]更進(jìn)一步,在f中,決策樹(shù)采用算法C4.5建立,其根據(jù)能夠提供最大信息增益的字段劃分樣本,對(duì)第一次劃分出來(lái)的子樣本遞歸的劃分,直到不能再分為止,最后重新檢查最底層的劃分,去掉那些貢獻(xiàn)不大的分支,得到最終的模型,決策樹(shù)由算法劃分樣本直接產(chǎn)生,每個(gè)葉子節(jié)點(diǎn)表示一個(gè)特定的訓(xùn)練數(shù)據(jù)子集,訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本只屬于一個(gè)葉子節(jié)點(diǎn);其中,所述C4.5算法的具體運(yùn)算步驟如下:
1、輸入:訓(xùn)練數(shù)據(jù)
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1