亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種數(shù)據(jù)分析中獲取因變量與自變量回歸關(guān)系的方法與流程

文檔序號:11143347閱讀:4564來源:國知局
一種數(shù)據(jù)分析中獲取因變量與自變量回歸關(guān)系的方法與制造工藝

本發(fā)明涉及數(shù)據(jù)分析處理技術(shù)領(lǐng)域,尤其是一種一種數(shù)據(jù)分析中獲取因變量與自變量回歸關(guān)系的方法。



背景技術(shù):

數(shù)據(jù)分析的過程,回歸分析是經(jīng)常使用的一種方法。傳統(tǒng)的回歸過程,需要用戶按相關(guān)的某個模型的關(guān)系,選取自變量與因變量,通過手工的方法進行數(shù)據(jù)的輸入并逐個分析最終的結(jié)果,再對得出的結(jié)果進行檢查回歸系數(shù)、自變量與實際因變量的準確率。對于無法很明確地查看出多個自變量與因變量的關(guān)系時,需由用戶自行逐個過程進行操作。整個過程費時費力效率低,而且輸入的數(shù)據(jù)量,對于全部數(shù)據(jù)來說因變量與自變量又有可能有不同的因果關(guān)系,直接使用傳統(tǒng)的方法無法進行數(shù)據(jù)區(qū)域的區(qū)別分析,比較難達到準確的分析效率。



技術(shù)實現(xiàn)要素:

本發(fā)明解決的技術(shù)問題在于提供一種數(shù)據(jù)分析中獲取因變量與自變量回歸關(guān)系的方法;可以高效地獲取輸入的因變量與自變量的最優(yōu)對應關(guān)系,用于以后的數(shù)據(jù)預測。

本發(fā)明解決上述技術(shù)問題的技術(shù)方案是:

所述的方法包括以下幾個步驟:

步驟1:對用戶輸入的因變量與自變量,進行數(shù)據(jù)標準化處理,并保存該結(jié)果備用;

步驟2:對數(shù)據(jù)進行回歸分析,分析出類似的數(shù)據(jù)特征,從類似的數(shù)據(jù)特征中進行縱向的自變量選取,通過調(diào)用相關(guān)的線性分析算法,得出因果關(guān)系;

步驟3:對比計算分析出來的結(jié)果與實際的結(jié)果,獲得自變量與因變量的最優(yōu)關(guān)系,將最終的最優(yōu)結(jié)果展示給用戶用于最終的選擇。

所述數(shù)據(jù)標準化具體步驟為:

步驟一、獲取因變量及各自變量,分別求各自因變量、自變量的平均值,作為基準數(shù)據(jù)β;

步驟二、分別求各自因變量的標準差α,作為擴大系數(shù),擴大系數(shù)通過標準差的方式求出,公式為:

公式中數(shù)值x1,x2,x3,......xN是各自變量的值,其中μ為各自變量的算術(shù)平均值;

步驟三、對因變量及各自變量,分別通過公式Z′=αZ+β求出標準化后的值,Z′為標準數(shù)據(jù),β為基準數(shù)據(jù),α是擴大系數(shù)。

所述數(shù)據(jù)回歸分析具體步驟為:

步驟一、對輸入的自變量數(shù)據(jù)按不同聚類數(shù)量,多次進行聚類分析,得出多個按不同聚類數(shù)量的分析結(jié)果;

步驟二、對某一特定聚類數(shù)量的分析結(jié)果,按不同的類別,從中選取自變量,分析選取的自變量與因變量的關(guān)系,得出回歸系數(shù);再通過回測的方法,計算出準確率,選取準確率最高的自變量與因變量的回歸關(guān)系;對不同的數(shù)據(jù)類別采用相同的方法獲取準確率最高的回歸關(guān)系;

步驟三、對分類出來的不同的類別的回歸關(guān)系進行分析,合并自變量一樣、回歸系數(shù)相差不大的類別,形成統(tǒng)一的回歸關(guān)系;自變量不同或回歸系數(shù)相差太大的,形成各數(shù)據(jù)區(qū)域獨立的回歸關(guān)系;

步驟四、重復步驟二、步驟三,對不同數(shù)據(jù)聚類數(shù)量的回歸關(guān)系進行分析,得出各聚類數(shù)據(jù)下的最優(yōu)回歸關(guān)系和回歸系數(shù)。

所述的聚類分析可采用K-Means聚類算法,計算聚類的距離可使用歐氏距離計算方法,計算公式如下:

歐氏距離dij表示兩個n維向量a(x11,x12,...,x1n)與b(x21,x22,...,x2n)間的距離。

所述的回歸關(guān)系可采用最小二乘法多項式曲線擬合,擬合的過程可通過自實現(xiàn)的方式進行,或是通過調(diào)用相關(guān)通用的擬合工具,直接獲取擬合結(jié)果,擬合公式為:

假設(shè)給定數(shù)據(jù)點(xi,yi)(其中i=0,1,2,…,m),為所有次數(shù)不超過n(n≤m)的多項式構(gòu)成的函數(shù)類,現(xiàn)求使得滿足min公式的Pn(xi)稱為最小二乘擬合多項式,通過代入相關(guān)的(xi,yi)值并假設(shè)min為最小0,可得出n條關(guān)于a0,a1,a2,…,an的多項式,求解出以上的a0,a1,a2,…,an的多元函數(shù),得出a0,a1,a2,…,an的具體的值。

所述獲取自變量與因變量的最優(yōu)關(guān)系具體步驟為:

步驟一、對各不同的聚類數(shù)量分析出來的最優(yōu)回歸關(guān)系、回歸系數(shù),分析得出最優(yōu)的準確率,或是最優(yōu)的前幾個的準確率;把分析結(jié)果展示給用戶,為用戶的最終選擇提供數(shù)據(jù)依據(jù);

步驟二、對用戶選擇的最優(yōu)結(jié)果,提供自變量與因變量的標準化轉(zhuǎn)換公式,各聚類的中心及分析的回歸自變量、回歸系數(shù),用于最終的數(shù)據(jù)預測;

步驟三、用戶通過提供的自變量與因變量的標準化轉(zhuǎn)換公式,各聚類的中心及分析的回歸自變量、回歸系數(shù);在輸入新的預測數(shù)據(jù)時,先進行自變量的標準化,再與各聚類中心進行對比,選取距離最近的數(shù)據(jù)區(qū)域,應用該區(qū)域的自變量及回歸系數(shù),從而預測出標準化的預測值;再通過標準化公式反推預測的原始值。

本發(fā)明的有益效果是:

本發(fā)明方法是通過利用計算機可不斷計算、并且可進行預測結(jié)果的回測的優(yōu)勢,通過對數(shù)據(jù)的標準化,提高數(shù)據(jù)的準確性,按聚類的方式使數(shù)據(jù)在橫向上進行區(qū)域回歸區(qū)分,再從自動選取自變量上進行縱向的計算,從而得出數(shù)據(jù)分析的最優(yōu)回歸結(jié)果,并形成數(shù)據(jù)分析預測的最終結(jié)果,用于最后的數(shù)據(jù)預測。在此方法中為用戶快速直接分析出最優(yōu)的因果關(guān)系,極大提高獲取因變量與自變量回歸關(guān)系的效率,形成一種高效獲取多個自變量與因變量的關(guān)系的最優(yōu)方法;從而提高數(shù)據(jù)回歸分析過程中對因變量與多個自變量的主要成份的分析,簡化了數(shù)據(jù)回歸分析的過程,提高了因變量與自變量獲取的效率。

附圖說明

下面結(jié)合附圖對本發(fā)明進一步說明:

附圖1是本發(fā)明獲取最優(yōu)因變量與自變量關(guān)系流程圖。

具體實施方式

本發(fā)明通過分析用戶輸入的因變量與多個自變量,對數(shù)據(jù)進行標準化處理,同時保存各因變量與自變量的數(shù)據(jù)標準化結(jié)果用于后續(xù)的數(shù)據(jù)預測;后先對數(shù)據(jù)從橫向的角度進行分類,從而分析出類似的數(shù)據(jù)特征,再從類似的數(shù)據(jù)特征中進行縱向的自變量選取,通過調(diào)用相關(guān)的線性分析算法,得出因果關(guān)系,通過計算分析出來的結(jié)果與實際的結(jié)果進行對比,分析出某些自變量與因變量的最優(yōu)關(guān)系,把最終的最優(yōu)結(jié)果展示給用戶用于最終的選擇,使用此方法可為用戶從多個自變量中高效獲取與因變量的最優(yōu)因果關(guān)系,可極大提高獲取因變量與自變量回歸關(guān)系的效率,作為優(yōu)化數(shù)據(jù)分析過程獲取主要因果成份關(guān)系的一種方法。

對輸入的因變量及多個自變量,需進行各輸入數(shù)據(jù)的數(shù)據(jù)標準化處理,就是將輸入的所有變量包括因變量都先轉(zhuǎn)化為標準數(shù)據(jù),再進行線性回歸分析,使標準化后的數(shù)據(jù)此時得到的回歸系數(shù)更能反映對應自變量的重要程度;數(shù)據(jù)標準化可采用如下轉(zhuǎn)換通式:Z′=αZ+β,式中,Z′為標準數(shù)據(jù),β為基準數(shù)據(jù),一般等于原始數(shù)據(jù)的平均值X_bar,α是擴大系數(shù),一般等于原始數(shù)據(jù)的標準差S。

在因變量與自變量都進行了數(shù)據(jù)標準化后的基礎(chǔ)上,按各自變量的數(shù)據(jù)進行多類別的聚類分析,聚類分析的目的,是為了發(fā)現(xiàn)不同數(shù)據(jù)在各個類別上的特征,從而可以從特征明顯的數(shù)據(jù)上,獲取明確的回歸系數(shù)關(guān)系;如果進行分類后得出的回歸系數(shù)關(guān)系相差不大,那可看作分析的結(jié)果數(shù)據(jù)是一致的,可作為統(tǒng)一的回歸因果關(guān)系;對于進行分類后的回歸系統(tǒng)相關(guān)比較大,則說明不同的類別數(shù)據(jù)在各區(qū)域上有不同的回歸因果關(guān)系,在后續(xù)使用回歸結(jié)果時可從計算出來的各聚類中心進行比對,選取與各聚類中心最近的回歸因果關(guān)系進行數(shù)據(jù)的預測。

在對自變量進行某個類別的聚類分析后,按分析的結(jié)果,循環(huán)在種個分類類別上選取某幾類自變量與因變量形成回歸關(guān)系,得出回歸系數(shù),再把特定類別的自變量數(shù)據(jù)用于回歸測試,計算出準確率,這樣從多個自變量中,選取出最優(yōu)的自變量與因變量的因果關(guān)系、回歸系數(shù);不同的類別使用這種方法,從而使所有類別的數(shù)據(jù)都形成一定的回歸關(guān)系。

在使所有類別的數(shù)據(jù)都形成了最優(yōu)回歸關(guān)系后,分析各類別所選取的自變量及各自變量的回歸系數(shù),如果所選取的自變量是一樣的,及各自變量的回歸系統(tǒng)相關(guān)不大的,則可把回歸系數(shù)進行合并,從而形成統(tǒng)一的回歸關(guān)系,也說明數(shù)據(jù)符合統(tǒng)一的回歸關(guān)系,回歸過程選擇出了最優(yōu)的自變量與因變量的最優(yōu)關(guān)系;如果各分類類別所選取的最優(yōu)回歸自變量與各自變量的回歸系數(shù)是不一樣的或相差很大,則說明輸入的自變量與因變量的回歸關(guān)系在各個區(qū)域是不同的,需使用不同的回歸關(guān)系,則需保存各類別的數(shù)據(jù)中心點及各類別的回歸自變量及系統(tǒng),用于后續(xù)對各區(qū)域的回歸關(guān)系的計算。

對輸入的多個自變量的數(shù)據(jù)的聚類、選取自變量與因變量的回歸分析,可通過程序的方式調(diào)用R語言或自實現(xiàn)程序進行實現(xiàn),通過調(diào)用已實現(xiàn)的方法以提高進行自變量與因變量關(guān)系進行選擇分析的效率。

對于輸入的數(shù)據(jù)量比較多的情況,需對數(shù)據(jù)進行更多類別的分類,從而區(qū)分出各個區(qū)域數(shù)據(jù)的特征,更加詳細地對各個區(qū)域的自變量與因變量的最優(yōu)因果關(guān)系的回歸分析,得出回歸系數(shù),而最重要的是在得出各區(qū)域的回歸關(guān)系回歸系數(shù)后,需對回歸結(jié)果進行歸納總結(jié),全部統(tǒng)一的回歸關(guān)系,從而優(yōu)化最終的回歸關(guān)系的計算。

通過多次按不同的聚類數(shù)量進行橫向、縱向的數(shù)據(jù)計算,最終得出各聚類數(shù)量下的最優(yōu)回歸關(guān)系及回歸系數(shù),對比各聚類數(shù)量的最優(yōu)結(jié)果,最終給用戶最優(yōu)的聚類分類下的各區(qū)域的中心數(shù)據(jù)、回歸自變量、回歸系數(shù),顯示最優(yōu)的因變量與自變量的關(guān)系。

在得出最優(yōu)的聚類分類下的各區(qū)域的中心數(shù)據(jù)、回歸自變量、回歸系數(shù),結(jié)合各自變量的標準化指標,輸入新的預測數(shù)據(jù),首先通過與各類別的中心數(shù)據(jù)進行對比選取距離最近的區(qū)域,套用距離最近的回歸變量及回歸系統(tǒng),從而得出最終的預測結(jié)果。

按照流程而言,如圖1所示,本發(fā)明的實現(xiàn)主要包括三部分,數(shù)據(jù)標準化、數(shù)據(jù)橫向縱向回歸分析、獲取最優(yōu)對應關(guān)系,三部分的具體步驟如下:

一、數(shù)據(jù)標準化:

步驟一、分別獲取因變量及各自變量,分別求各自因變量、自變量的平均值X_bar,作為基準數(shù)據(jù)β;

步驟二、分別求各自因變量的標準差,作為擴大系數(shù)α,擴大系數(shù)通過標準差的方式求出,公式為:

公式說明:

公式中數(shù)值x1,x2,x3,......xN(皆為各自變量的值),其中μ為各自變量的平均值(算術(shù)平均值),標準差為α。

步驟三、對因變量及各自變量,分別通過公式Z′=αZ+β求出標準化后的值,Z′為標準數(shù)據(jù),β為基準數(shù)據(jù),α是擴大系數(shù);

步驟四、保存因變量及各自變量的基準數(shù)據(jù)及擴大系數(shù),用于后續(xù)進行新數(shù)據(jù)預測時的標準化計算;

通過以上方法把因變量及自變量進行重新計算,從而使最終得出的回歸系數(shù)更能反映對應因變量與自變量的重要程度;

二、數(shù)據(jù)橫向縱向回歸分析

步驟一、按輸入的自變量數(shù)據(jù)按不同聚類數(shù)量,多次進行聚類分析,得出多個按不同聚類數(shù)量的分析結(jié)果;聚類分析可采用K-Means聚類算法,計算聚類的距離可使用Euclidean Distance(歐氏距離)計算方法,公式:

公式說明:

歐氏距離表示兩個n維向量a(x11,x12,...,x1n)與b(x21,x22,...,x2n)間的距離,例如二維平面上兩點a(x1,y1)與b(x2,y2)間的歐氏距離:

三維空間兩點a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距離:

步驟二、對某一特定聚類數(shù)量的分析結(jié)果,按不同的類別,從中選取自變量,分析選取的自變量與因變量的關(guān)系,得出回歸系數(shù),再通過回測的方法,計算出準確率,選取準確率最高的自變量與因變量的回歸關(guān)系;對不同的數(shù)據(jù)類別采用相同的方法獲取準確率最高的回歸關(guān)系;回歸關(guān)系可采用最小二乘法多項式曲線擬合,擬合的過程可通過自實現(xiàn)的方式進行,或是通過調(diào)用相關(guān)通用的擬合工具,直接獲取擬合結(jié)果,擬合公式為:

公式說明:

假設(shè)給定數(shù)據(jù)點(xi,yi)(其中i=0,1,2,…,m),為所有次數(shù)不超過n(n≤m)的多項式構(gòu)成的函數(shù)類,現(xiàn)求使得滿足min公式的Pn(xi)稱為最小二乘擬合多項式,通過代入相關(guān)的(xi,yi)值并假設(shè)min為最小0,可得出n條關(guān)于a0,a1,a2,…,an的多項式,求解出以上的a0,a1,a2,…,an的多元函數(shù),得出a0,a1,a2,…,an的具體的值。

步驟三、對分類出來的不同的類別的回歸關(guān)系進行分析,合并自變量一樣、回歸系統(tǒng)相差不大的類別,形成統(tǒng)一的回歸關(guān)系;自變量不同或回歸系數(shù)相差太大的,形成各數(shù)據(jù)區(qū)域獨立的回歸關(guān)系;

步驟四、重復步驟二、步驟三,從而對不同的數(shù)據(jù)聚類數(shù)量的回歸關(guān)系的分析,得出各聚類數(shù)據(jù)下的最優(yōu)回歸關(guān)系,回歸系數(shù);

三、獲取最優(yōu)對應關(guān)系:

步驟一、對各不同的聚類數(shù)量分析出來的最優(yōu)回歸關(guān)系、回歸系統(tǒng),分析得出最優(yōu)的準確率,或是最優(yōu)的前幾個的準確率,把分析結(jié)果展示給用戶,為用戶的最終選擇提供數(shù)據(jù)依據(jù);

步驟二、對用戶選擇的最優(yōu)結(jié)果,需提供自變量與因變量的標準化轉(zhuǎn)換公式,各聚類的中心及分析的回歸自變量、回歸系數(shù),用于最終的數(shù)據(jù)預測;

步驟三、用戶通過提供的自變量與因變量的標準化轉(zhuǎn)換公式,各聚類的中心及分析的回歸自變量、回歸系數(shù),在輸入新的預測數(shù)據(jù)時,先進行自變量的標準化,再與各聚類中心進行對比,選取距離最近的數(shù)據(jù)區(qū)域,應用該區(qū)域的自變量及回歸系統(tǒng),從而預測出標準化的預測值,再通過標準化公式反推預測的原始值。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1