一種數(shù)據(jù)分析中獲取因變量與自變量回歸關(guān)系的方法與流程

文檔序號：11143347閱讀：4564來源：國知局

一種數(shù)據(jù)分析中獲取因變量與自變量回歸關(guān)系的方法與制造工藝

本發(fā)明涉及數(shù)據(jù)分析處理技術(shù)領(lǐng)域，尤其是一種一種數(shù)據(jù)分析中獲取因變量與自變量回歸關(guān)系的方法。

背景技術(shù)：

數(shù)據(jù)分析的過程，回歸分析是經(jīng)常使用的一種方法。傳統(tǒng)的回歸過程，需要用戶按相關(guān)的某個模型的關(guān)系，選取自變量與因變量，通過手工的方法進行數(shù)據(jù)的輸入并逐個分析最終的結(jié)果，再對得出的結(jié)果進行檢查回歸系數(shù)、自變量與實際因變量的準確率。對于無法很明確地查看出多個自變量與因變量的關(guān)系時，需由用戶自行逐個過程進行操作。整個過程費時費力效率低，而且輸入的數(shù)據(jù)量，對于全部數(shù)據(jù)來說因變量與自變量又有可能有不同的因果關(guān)系，直接使用傳統(tǒng)的方法無法進行數(shù)據(jù)區(qū)域的區(qū)別分析，比較難達到準確的分析效率。

技術(shù)實現(xiàn)要素：

本發(fā)明解決的技術(shù)問題在于提供一種數(shù)據(jù)分析中獲取因變量與自變量回歸關(guān)系的方法；可以高效地獲取輸入的因變量與自變量的最優(yōu)對應關(guān)系，用于以后的數(shù)據(jù)預測。

本發(fā)明解決上述技術(shù)問題的技術(shù)方案是：

所述的方法包括以下幾個步驟：

步驟1：對用戶輸入的因變量與自變量，進行數(shù)據(jù)標準化處理，并保存該結(jié)果備用；

步驟2：對數(shù)據(jù)進行回歸分析，分析出類似的數(shù)據(jù)特征，從類似的數(shù)據(jù)特征中進行縱向的自變量選取，通過調(diào)用相關(guān)的線性分析算法，得出因果關(guān)系；

步驟3：對比計算分析出來的結(jié)果與實際的結(jié)果，獲得自變量與因變量的最優(yōu)關(guān)系，將最終的最優(yōu)結(jié)果展示給用戶用于最終的選擇。

所述數(shù)據(jù)標準化具體步驟為：

步驟一、獲取因變量及各自變量，分別求各自因變量、自變量的平均值，作為基準數(shù)據(jù)β；

步驟二、分別求各自因變量的標準差α，作為擴大系數(shù)，擴大系數(shù)通過標準差的方式求出，公式為：

公式中數(shù)值x₁，x₂，x₃，......x_N是各自變量的值，其中μ為各自變量的算術(shù)平均值；

步驟三、對因變量及各自變量，分別通過公式Z′＝αZ+β求出標準化后的值，Z′為標準數(shù)據(jù)，β為基準數(shù)據(jù)，α是擴大系數(shù)。

所述數(shù)據(jù)回歸分析具體步驟為：

步驟一、對輸入的自變量數(shù)據(jù)按不同聚類數(shù)量，多次進行聚類分析，得出多個按不同聚類數(shù)量的分析結(jié)果；

步驟二、對某一特定聚類數(shù)量的分析結(jié)果，按不同的類別，從中選取自變量，分析選取的自變量與因變量的關(guān)系，得出回歸系數(shù)；再通過回測的方法，計算出準確率，選取準確率最高的自變量與因變量的回歸關(guān)系；對不同的數(shù)據(jù)類別采用相同的方法獲取準確率最高的回歸關(guān)系；

步驟三、對分類出來的不同的類別的回歸關(guān)系進行分析，合并自變量一樣、回歸系數(shù)相差不大的類別，形成統(tǒng)一的回歸關(guān)系；自變量不同或回歸系數(shù)相差太大的，形成各數(shù)據(jù)區(qū)域獨立的回歸關(guān)系；

步驟四、重復步驟二、步驟三，對不同數(shù)據(jù)聚類數(shù)量的回歸關(guān)系進行分析，得出各聚類數(shù)據(jù)下的最優(yōu)回歸關(guān)系和回歸系數(shù)。

所述的聚類分析可采用K-Means聚類算法，計算聚類的距離可使用歐氏距離計算方法，計算公式如下：

歐氏距離d_ij表示兩個n維向量a(x11，x12，...，x1n)與b(x21，x22，...，x2n)間的距離。

所述的回歸關(guān)系可采用最小二乘法多項式曲線擬合，擬合的過程可通過自實現(xiàn)的方式進行，或是通過調(diào)用相關(guān)通用的擬合工具，直接獲取擬合結(jié)果，擬合公式為：

假設(shè)給定數(shù)據(jù)點(x_i，y_i)(其中i＝0，1，2，…，m)，為所有次數(shù)不超過n(n≤m)的多項式構(gòu)成的函數(shù)類，現(xiàn)求使得滿足min公式的P_n(x_i)稱為最小二乘擬合多項式，通過代入相關(guān)的(x_i，y_i)值并假設(shè)min為最小0，可得出n條關(guān)于a₀，a₁，a₂，…，a_n的多項式，求解出以上的a₀，a₁，a₂，…，a_n的多元函數(shù)，得出a₀，a₁，a₂，…，a_n的具體的值。

所述獲取自變量與因變量的最優(yōu)關(guān)系具體步驟為：

步驟一、對各不同的聚類數(shù)量分析出來的最優(yōu)回歸關(guān)系、回歸系數(shù)，分析得出最優(yōu)的準確率，或是最優(yōu)的前幾個的準確率；把分析結(jié)果展示給用戶，為用戶的最終選擇提供數(shù)據(jù)依據(jù)；

步驟二、對用戶選擇的最優(yōu)結(jié)果，提供自變量與因變量的標準化轉(zhuǎn)換公式，各聚類的中心及分析的回歸自變量、回歸系數(shù)，用于最終的數(shù)據(jù)預測；

步驟三、用戶通過提供的自變量與因變量的標準化轉(zhuǎn)換公式，各聚類的中心及分析的回歸自變量、回歸系數(shù)；在輸入新的預測數(shù)據(jù)時，先進行自變量的標準化，再與各聚類中心進行對比，選取距離最近的數(shù)據(jù)區(qū)域，應用該區(qū)域的自變量及回歸系數(shù)，從而預測出標準化的預測值；再通過標準化公式反推預測的原始值。

本發(fā)明的有益效果是：

本發(fā)明方法是通過利用計算機可不斷計算、并且可進行預測結(jié)果的回測的優(yōu)勢，通過對數(shù)據(jù)的標準化，提高數(shù)據(jù)的準確性，按聚類的方式使數(shù)據(jù)在橫向上進行區(qū)域回歸區(qū)分，再從自動選取自變量上進行縱向的計算，從而得出數(shù)據(jù)分析的最優(yōu)回歸結(jié)果，并形成數(shù)據(jù)分析預測的最終結(jié)果，用于最后的數(shù)據(jù)預測。在此方法中為用戶快速直接分析出最優(yōu)的因果關(guān)系，極大提高獲取因變量與自變量回歸關(guān)系的效率，形成一種高效獲取多個自變量與因變量的關(guān)系的最優(yōu)方法；從而提高數(shù)據(jù)回歸分析過程中對因變量與多個自變量的主要成份的分析，簡化了數(shù)據(jù)回歸分析的過程，提高了因變量與自變量獲取的效率。

附圖說明

下面結(jié)合附圖對本發(fā)明進一步說明：

附圖1是本發(fā)明獲取最優(yōu)因變量與自變量關(guān)系流程圖。

具體實施方式

本發(fā)明通過分析用戶輸入的因變量與多個自變量，對數(shù)據(jù)進行標準化處理，同時保存各因變量與自變量的數(shù)據(jù)標準化結(jié)果用于后續(xù)的數(shù)據(jù)預測；后先對數(shù)據(jù)從橫向的角度進行分類，從而分析出類似的數(shù)據(jù)特征，再從類似的數(shù)據(jù)特征中進行縱向的自變量選取，通過調(diào)用相關(guān)的線性分析算法，得出因果關(guān)系，通過計算分析出來的結(jié)果與實際的結(jié)果進行對比，分析出某些自變量與因變量的最優(yōu)關(guān)系，把最終的最優(yōu)結(jié)果展示給用戶用于最終的選擇，使用此方法可為用戶從多個自變量中高效獲取與因變量的最優(yōu)因果關(guān)系，可極大提高獲取因變量與自變量回歸關(guān)系的效率，作為優(yōu)化數(shù)據(jù)分析過程獲取主要因果成份關(guān)系的一種方法。

對輸入的因變量及多個自變量，需進行各輸入數(shù)據(jù)的數(shù)據(jù)標準化處理，就是將輸入的所有變量包括因變量都先轉(zhuǎn)化為標準數(shù)據(jù)，再進行線性回歸分析，使標準化后的數(shù)據(jù)此時得到的回歸系數(shù)更能反映對應自變量的重要程度；數(shù)據(jù)標準化可采用如下轉(zhuǎn)換通式：Z′＝αZ+β，式中，Z′為標準數(shù)據(jù)，β為基準數(shù)據(jù)，一般等于原始數(shù)據(jù)的平均值X_bar，α是擴大系數(shù)，一般等于原始數(shù)據(jù)的標準差S。

在因變量與自變量都進行了數(shù)據(jù)標準化后的基礎(chǔ)上，按各自變量的數(shù)據(jù)進行多類別的聚類分析，聚類分析的目的，是為了發(fā)現(xiàn)不同數(shù)據(jù)在各個類別上的特征，從而可以從特征明顯的數(shù)據(jù)上，獲取明確的回歸系數(shù)關(guān)系；如果進行分類后得出的回歸系數(shù)關(guān)系相差不大，那可看作分析的結(jié)果數(shù)據(jù)是一致的，可作為統(tǒng)一的回歸因果關(guān)系；對于進行分類后的回歸系統(tǒng)相關(guān)比較大，則說明不同的類別數(shù)據(jù)在各區(qū)域上有不同的回歸因果關(guān)系，在后續(xù)使用回歸結(jié)果時可從計算出來的各聚類中心進行比對，選取與各聚類中心最近的回歸因果關(guān)系進行數(shù)據(jù)的預測。

在對自變量進行某個類別的聚類分析后，按分析的結(jié)果，循環(huán)在種個分類類別上選取某幾類自變量與因變量形成回歸關(guān)系，得出回歸系數(shù)，再把特定類別的自變量數(shù)據(jù)用于回歸測試，計算出準確率，這樣從多個自變量中，選取出最優(yōu)的自變量與因變量的因果關(guān)系、回歸系數(shù)；不同的類別使用這種方法，從而使所有類別的數(shù)據(jù)都形成一定的回歸關(guān)系。

在使所有類別的數(shù)據(jù)都形成了最優(yōu)回歸關(guān)系后，分析各類別所選取的自變量及各自變量的回歸系數(shù)，如果所選取的自變量是一樣的，及各自變量的回歸系統(tǒng)相關(guān)不大的，則可把回歸系數(shù)進行合并，從而形成統(tǒng)一的回歸關(guān)系，也說明數(shù)據(jù)符合統(tǒng)一的回歸關(guān)系，回歸過程選擇出了最優(yōu)的自變量與因變量的最優(yōu)關(guān)系；如果各分類類別所選取的最優(yōu)回歸自變量與各自變量的回歸系數(shù)是不一樣的或相差很大，則說明輸入的自變量與因變量的回歸關(guān)系在各個區(qū)域是不同的，需使用不同的回歸關(guān)系，則需保存各類別的數(shù)據(jù)中心點及各類別的回歸自變量及系統(tǒng)，用于后續(xù)對各區(qū)域的回歸關(guān)系的計算。

對輸入的多個自變量的數(shù)據(jù)的聚類、選取自變量與因變量的回歸分析，可通過程序的方式調(diào)用R語言或自實現(xiàn)程序進行實現(xiàn)，通過調(diào)用已實現(xiàn)的方法以提高進行自變量與因變量關(guān)系進行選擇分析的效率。

對于輸入的數(shù)據(jù)量比較多的情況，需對數(shù)據(jù)進行更多類別的分類，從而區(qū)分出各個區(qū)域數(shù)據(jù)的特征，更加詳細地對各個區(qū)域的自變量與因變量的最優(yōu)因果關(guān)系的回歸分析，得出回歸系數(shù)，而最重要的是在得出各區(qū)域的回歸關(guān)系回歸系數(shù)后，需對回歸結(jié)果進行歸納總結(jié)，全部統(tǒng)一的回歸關(guān)系，從而優(yōu)化最終的回歸關(guān)系的計算。

通過多次按不同的聚類數(shù)量進行橫向、縱向的數(shù)據(jù)計算，最終得出各聚類數(shù)量下的最優(yōu)回歸關(guān)系及回歸系數(shù)，對比各聚類數(shù)量的最優(yōu)結(jié)果，最終給用戶最優(yōu)的聚類分類下的各區(qū)域的中心數(shù)據(jù)、回歸自變量、回歸系數(shù)，顯示最優(yōu)的因變量與自變量的關(guān)系。

在得出最優(yōu)的聚類分類下的各區(qū)域的中心數(shù)據(jù)、回歸自變量、回歸系數(shù)，結(jié)合各自變量的標準化指標，輸入新的預測數(shù)據(jù)，首先通過與各類別的中心數(shù)據(jù)進行對比選取距離最近的區(qū)域，套用距離最近的回歸變量及回歸系統(tǒng)，從而得出最終的預測結(jié)果。

按照流程而言，如圖1所示，本發(fā)明的實現(xiàn)主要包括三部分，數(shù)據(jù)標準化、數(shù)據(jù)橫向縱向回歸分析、獲取最優(yōu)對應關(guān)系，三部分的具體步驟如下：

一、數(shù)據(jù)標準化：

步驟一、分別獲取因變量及各自變量，分別求各自因變量、自變量的平均值X_bar，作為基準數(shù)據(jù)β；

步驟二、分別求各自因變量的標準差，作為擴大系數(shù)α，擴大系數(shù)通過標準差的方式求出，公式為：

公式說明：

公式中數(shù)值x1，x2，x3，......xN(皆為各自變量的值)，其中μ為各自變量的平均值(算術(shù)平均值)，標準差為α。

步驟三、對因變量及各自變量，分別通過公式Z′＝αZ+β求出標準化后的值，Z′為標準數(shù)據(jù)，β為基準數(shù)據(jù)，α是擴大系數(shù)；

步驟四、保存因變量及各自變量的基準數(shù)據(jù)及擴大系數(shù)，用于后續(xù)進行新數(shù)據(jù)預測時的標準化計算；

通過以上方法把因變量及自變量進行重新計算，從而使最終得出的回歸系數(shù)更能反映對應因變量與自變量的重要程度；

二、數(shù)據(jù)橫向縱向回歸分析

步驟一、按輸入的自變量數(shù)據(jù)按不同聚類數(shù)量，多次進行聚類分析，得出多個按不同聚類數(shù)量的分析結(jié)果；聚類分析可采用K-Means聚類算法，計算聚類的距離可使用Euclidean Distance(歐氏距離)計算方法，公式：

公式說明：

歐氏距離表示兩個n維向量a(x11，x12，...，x1n)與b(x21，x22，...，x2n)間的距離，例如二維平面上兩點a(x1，y1)與b(x2，y2)間的歐氏距離：

三維空間兩點a(x1，y1，z1)與b(x2，y2，z2)間的歐氏距離：

步驟二、對某一特定聚類數(shù)量的分析結(jié)果，按不同的類別，從中選取自變量，分析選取的自變量與因變量的關(guān)系，得出回歸系數(shù)，再通過回測的方法，計算出準確率，選取準確率最高的自變量與因變量的回歸關(guān)系；對不同的數(shù)據(jù)類別采用相同的方法獲取準確率最高的回歸關(guān)系；回歸關(guān)系可采用最小二乘法多項式曲線擬合，擬合的過程可通過自實現(xiàn)的方式進行，或是通過調(diào)用相關(guān)通用的擬合工具，直接獲取擬合結(jié)果，擬合公式為：

公式說明：

步驟三、對分類出來的不同的類別的回歸關(guān)系進行分析，合并自變量一樣、回歸系統(tǒng)相差不大的類別，形成統(tǒng)一的回歸關(guān)系；自變量不同或回歸系數(shù)相差太大的，形成各數(shù)據(jù)區(qū)域獨立的回歸關(guān)系；

步驟四、重復步驟二、步驟三，從而對不同的數(shù)據(jù)聚類數(shù)量的回歸關(guān)系的分析，得出各聚類數(shù)據(jù)下的最優(yōu)回歸關(guān)系，回歸系數(shù)；

三、獲取最優(yōu)對應關(guān)系：

步驟一、對各不同的聚類數(shù)量分析出來的最優(yōu)回歸關(guān)系、回歸系統(tǒng)，分析得出最優(yōu)的準確率，或是最優(yōu)的前幾個的準確率，把分析結(jié)果展示給用戶，為用戶的最終選擇提供數(shù)據(jù)依據(jù)；

步驟二、對用戶選擇的最優(yōu)結(jié)果，需提供自變量與因變量的標準化轉(zhuǎn)換公式，各聚類的中心及分析的回歸自變量、回歸系數(shù)，用于最終的數(shù)據(jù)預測；

步驟三、用戶通過提供的自變量與因變量的標準化轉(zhuǎn)換公式，各聚類的中心及分析的回歸自變量、回歸系數(shù)，在輸入新的預測數(shù)據(jù)時，先進行自變量的標準化，再與各聚類中心進行對比，選取距離最近的數(shù)據(jù)區(qū)域，應用該區(qū)域的自變量及回歸系統(tǒng)，從而預測出標準化的預測值，再通過標準化公式反推預測的原始值。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭銳韜;李勇波;孫傲冰;季統(tǒng)凱
技術(shù)所有人：國云科技股份有限公司
我是此專利的發(fā)明人

上一篇：可同時挖掘視覺和語義相似性的圖像標注方法與制造工藝
上一篇：一種基于SVM?AdaBoost算法的行人檢測方法與制造工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

自變量和因變量相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種數(shù)據(jù)分析中獲取因變量與自變量回歸關(guān)系的方法與流程