基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法

文檔序號：10535470閱讀：347來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法
【專利摘要】本發(fā)明公開了一種基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法，采集所有在校學(xué)生的數(shù)據(jù)，包括成績數(shù)據(jù)和行為數(shù)據(jù)，對學(xué)生數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗，并對非時間數(shù)據(jù)項(xiàng)進(jìn)行數(shù)據(jù)規(guī)范，從處理后的數(shù)據(jù)提取出每個學(xué)生的行為特征向量，行為特征包括成績特征、努力程度特征和生活規(guī)律特征，然后對行為特征向量進(jìn)行降維，每個學(xué)生采用其降維后的行為特征向量減去其他每個學(xué)生的行為特征向量，求得差異特征向量，輸入分類器中得到對應(yīng)的標(biāo)簽值，將標(biāo)簽值求和得到學(xué)生的得分，將所有學(xué)生的得分進(jìn)行排序，即可得到每個學(xué)生的排名預(yù)測值。本發(fā)明通過對學(xué)生的校園數(shù)據(jù)進(jìn)行分析，用數(shù)據(jù)來描述學(xué)生的學(xué)習(xí)習(xí)慣和行為特征，預(yù)測得到學(xué)生排名，作為學(xué)生教育的參考。
【專利說明】
基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明屬于大數(shù)據(jù)分析挖掘技術(shù)領(lǐng)域，更為具體地講，涉及一種基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法。
【背景技術(shù)】
[0002] 如何了解學(xué)生心理、掌握學(xué)生異常行為、預(yù)測學(xué)生學(xué)習(xí)狀況和提供個性化輔導(dǎo)，已經(jīng)成為不少高校面臨的問題與挑戰(zhàn)。近年來，伴隨著以"數(shù)據(jù)和計算"為驅(qū)動的科技革命，大數(shù)據(jù)成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的重要影響因素。如何將大數(shù)據(jù)引入教育領(lǐng)域，作為推動教育變革、引領(lǐng)教育創(chuàng)新的強(qiáng)勁助力，成為新的研究方向。但是目前，由于學(xué)生行為難以量化等問題，在教育領(lǐng)域進(jìn)行大數(shù)據(jù)的應(yīng)用還處在研究階段，尚未出現(xiàn)有效的應(yīng)用方式。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法，通過對學(xué)生的校園數(shù)據(jù)進(jìn)行分析，用數(shù)據(jù)來描述學(xué)生的學(xué)習(xí)習(xí)慣和行為特征，預(yù)測得到學(xué)生排名，作為學(xué)生教育的參考。
[0004] 為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法包括以下步驟：
[0005] S1:采集所有在校學(xué)生的數(shù)據(jù)，包括成績數(shù)據(jù)和行為數(shù)據(jù)，其中成績數(shù)據(jù)包括學(xué)生的所有課程的課程類型、學(xué)分?jǐn)?shù)、成績，行為數(shù)據(jù)包括學(xué)生在校園內(nèi)各個地點(diǎn)使用校園一卡通的記錄；
[0006] S2:對采集到的學(xué)生數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗；
[0007] S3:對清洗完成的學(xué)生數(shù)據(jù)中的非時間數(shù)據(jù)項(xiàng)，采用以下方法進(jìn)行數(shù)據(jù)規(guī)范：
[0008] 記第i個學(xué)生的第j項(xiàng)非時間數(shù)據(jù)為Xij，i = 1，2，…，N，N表示學(xué)生數(shù)量，j = 1，2，…， M，M表示非時間數(shù)據(jù)項(xiàng)數(shù)量;求取每個數(shù)據(jù)xij的線性變換值x'j，計算公式為：
[0010]其中，max」表示第j項(xiàng)數(shù)據(jù)序列中的最大值，min」表示第j項(xiàng)數(shù)據(jù)序列中的最小值， L_max表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的上限，表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的下限；
[0011]對線性變換后的數(shù)據(jù)V u，根據(jù)以下公式計算規(guī)范數(shù)據(jù)值:
[0013] 其中為表示第j項(xiàng)數(shù)據(jù)序列的平均值，s謙示第j項(xiàng)數(shù)據(jù)序列的方差；
[0014] S4:從學(xué)生數(shù)據(jù)中提取每個學(xué)生的行為特征向量，行為特征包括成績特征、努力程度特征和生活規(guī)律特征，其中成績特征包括學(xué)生所有課程的課程類型、學(xué)分?jǐn)?shù)、成績，努力程度特征是學(xué)生進(jìn)入學(xué)習(xí)相關(guān)地點(diǎn)的頻次，生活規(guī)律特征是學(xué)生的生活規(guī)律度量值，由以上數(shù)據(jù)項(xiàng)構(gòu)成學(xué)生的行為特征向量；
[0015] S5:對步驟S4提取到的行為特征向量進(jìn)行降維，得到降維后每個學(xué)生的行為特征向量；
[0016] S6:對第i個學(xué)生，采用其行為特征向量減去其他每個學(xué)生的行為特征向量，得到 N-1個差異特征向量，將差異特征向量輸入預(yù)先訓(xùn)練好的分類器，得到對應(yīng)的N-1個標(biāo)簽，標(biāo) 簽值為1或-1，將學(xué)生的所有標(biāo)簽值求和，得到該學(xué)生的得分，將所有學(xué)生的得分進(jìn)行排序，從而得到學(xué)生的排名預(yù)測值；
[0017] 其中，分類器的訓(xùn)練方法為:對具有歷史排名的學(xué)生，搜集得到這些學(xué)生的數(shù)據(jù)，根據(jù)步驟S1至步驟S5的方法得到這些學(xué)生的行為特征向量，然后兩兩求得學(xué)生之間的差異特征向量;對于一個差異特征向量，如果被減特征向量所對應(yīng)的學(xué)生排名較前，則該差異特征向量所對應(yīng)的標(biāo)簽為1，否則為-1;將這些差異特征向量作為分類器的輸入，對應(yīng)的標(biāo)簽作為輸出，對分類器進(jìn)行訓(xùn)練。
[0018] 本發(fā)明基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法，采集所有在校學(xué)生的數(shù)據(jù)，包括成績數(shù)據(jù)和行為數(shù)據(jù)，對學(xué)生數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗，并對非時間數(shù)據(jù)項(xiàng)進(jìn)行數(shù)據(jù)規(guī)范，從處理后的數(shù)據(jù)提取出每個學(xué)生的行為特征向量，行為特征包括成績特征、努力程度特征和生活規(guī)律特征，然后對行為特征向量進(jìn)行降維，每個學(xué)生采用其降維后的行為特征向量減去其他每個學(xué)生的行為特征向量，求得差異特征向量，輸入分類器中得到對應(yīng)的標(biāo)簽值，將標(biāo)簽值求和得到學(xué)生的得分，將所有學(xué)生的得分進(jìn)行排序，即可得到每個學(xué)生的排名預(yù)測值。
[0019] 本發(fā)明針對學(xué)生在校園中的學(xué)習(xí)行為數(shù)據(jù)進(jìn)行深度分析，對學(xué)生個體的基本信息、學(xué)習(xí)、生活情況進(jìn)行精準(zhǔn)的量化描述，預(yù)測學(xué)生個體的排名，為相關(guān)職能部門的，為相關(guān) 職能部門教學(xué)管理以及日常輔導(dǎo)工作提供定量化決策依據(jù)，從而有效釋放學(xué)生數(shù)據(jù)的價值。
【附圖說明】
[0020] 圖1是本發(fā)明基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法的流程圖；
[0021] 圖2是行為特征數(shù)據(jù)降維的流程圖。
【具體實(shí)施方式】
[0022] 下面結(jié)合附圖對本發(fā)明的【具體實(shí)施方式】進(jìn)行描述，以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是，在以下的描述中，當(dāng)已知功能和設(shè)計的詳細(xì)描述也許會淡化本發(fā)明的主要內(nèi)容時，這些描述在這里將被忽略。
[0023] 實(shí)施例
[0024]圖1是本發(fā)明基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法的流程圖。如圖1所示，本發(fā)明基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法包括以下步驟：
[0025] S101:學(xué)生數(shù)據(jù)采集：
[0026]首先要采集所有在校學(xué)生的數(shù)據(jù)，學(xué)生數(shù)據(jù)源自于學(xué)校的各個職能部門，具有異質(zhì)的結(jié)構(gòu)，包含了從結(jié)構(gòu)化的學(xué)生基本信息數(shù)據(jù)到時間序列化的學(xué)生校園生活軌跡。學(xué)生數(shù)據(jù)包括成績數(shù)據(jù)和行為數(shù)據(jù)，其中成績數(shù)據(jù)包括學(xué)生的所有課程的課程類型、學(xué)分?jǐn)?shù)和成績，及成績各個組成部分的情況(如平時成績、期中成績等），行為數(shù)據(jù)包括學(xué)生在校園內(nèi) 各個地點(diǎn)使用校園一卡通的記錄，例如學(xué)生在超市、食堂以及教室打水的消費(fèi)記錄，包括消費(fèi)時間和金額；出入圖書館、宿舍門禁的記錄;借書記錄，包括圖書信息和借閱時間。表1是學(xué)生數(shù)據(jù)的來源與內(nèi)容示例。
[0028] 表 1
[0029] S102:數(shù)據(jù)清洗：
[0030] 在采集到所有學(xué)生數(shù)據(jù)后，需要對采集到的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。本發(fā)明中由于學(xué)生數(shù)據(jù)來自多個業(yè)務(wù)系統(tǒng)而且包含大量歷史數(shù)據(jù)，常常會出現(xiàn)重復(fù)值、缺失值等，因此需要進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù)，修正之后再寫入數(shù)據(jù) 倉庫。清洗的對象主要包括數(shù)據(jù)中的重復(fù)值、缺失值、不一致數(shù)據(jù)等等，數(shù)據(jù)清洗是大數(shù)據(jù) 領(lǐng)域的常用手段，其具體過程在此不再贅述。
[0031] S103:數(shù)據(jù)規(guī)范化：
[0032] 對于清洗完成的學(xué)生數(shù)據(jù)，由于每項(xiàng)數(shù)據(jù)的屬性不同，通常具有不同的量綱和數(shù) 量級。一般而言，用較小的單位表示屬性將導(dǎo)致該屬性具有較大值域，因此趨向于使這樣的屬性具有較大的影響或較高的"權(quán)重"。為了避免對度量單位選擇的依賴性，保證結(jié)果的可靠性，需要對原始數(shù)據(jù)中除了時間數(shù)據(jù)以外其他數(shù)據(jù)項(xiàng)進(jìn)行規(guī)范化處理。
[0033]數(shù)據(jù)規(guī)范化指的是將數(shù)據(jù)按比例縮放，使之落入一個小的特定區(qū)間。這種方式在某些比較和評價的指標(biāo)處理中經(jīng)常會用到，去除數(shù)據(jù)的單位限制，將其轉(zhuǎn)化為無量綱的純數(shù)值，便于不同單位或量級的指標(biāo)能夠進(jìn)行比較和加權(quán)。本發(fā)明中，數(shù)據(jù)規(guī)范化的包括以下兩個步驟：
[0034] ?線性變換：
[0035]記第i個學(xué)生的第j項(xiàng)非時間數(shù)據(jù)為xij，i = 1，2，…，N，N表示學(xué)生數(shù)量，j = 1，2，…， M，M表示非時間數(shù)據(jù)項(xiàng)數(shù)量。對每個數(shù)據(jù)，分別按照以下公式求取線性變換值
[0037]其中，max」表示第j項(xiàng)數(shù)據(jù)序列中的最大值，min」表示第j項(xiàng)數(shù)據(jù)序列中的最小值， Tj_max表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的上限，表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的下限。第j 項(xiàng)數(shù)據(jù)序列就是所有學(xué)生的第j項(xiàng)數(shù)據(jù)組成的序列。可見，通過上式，將第j項(xiàng)數(shù)據(jù)序列中原本在區(qū)間[m i nj，maxj ]的值統(tǒng)一映射到了 [ Tj_min，Tj_max ]上。
[0038]假設(shè)第j項(xiàng)數(shù)據(jù)序列為[1，2，1，4,3,2,5,6,2,7]，取值區(qū)間為[1，7]，其限定區(qū)間為 [0，1]，那么線性變換后的數(shù)據(jù)序列為[0,0.16,0,0.5,0.33,0.16,0.66,0.83,0.16，1]。 [0039] ?數(shù)值規(guī)范：
[0040]將線性變換后的數(shù)據(jù)基于數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行數(shù)值規(guī)范化。對線性變換后的數(shù)據(jù)V &根據(jù)以下公式計算規(guī)范數(shù)據(jù)值:
[0042]其中，％表示第j項(xiàng)數(shù)據(jù)序列的平均值
，&表示第j項(xiàng)數(shù)據(jù)序列的方差
[0043]數(shù)值規(guī)范化后的每項(xiàng)數(shù)據(jù)序列均值為0,方差為1，且無量綱，序列中的字段值圍繞〇上下波動，大于〇說明高于平均水平，小于〇說明低于平均水平。
[0044] 通過以上兩個步驟不僅能夠?qū)?shù)據(jù)映射到統(tǒng)一的區(qū)間，并且有效地消除了超出取值范圍的離群數(shù)據(jù)對數(shù)據(jù)整體分布的影響。
[0045] S104:提取行為特征向量：
[0046] 完成數(shù)據(jù)規(guī)范化的工作之后，需要數(shù)據(jù)中提取學(xué)習(xí)行為特征。本發(fā)明中所需要每個學(xué)生的行為特征分為三部分:成績特征、努力程度特征和生活規(guī)律特征。成績特征包括學(xué) 生所有課程的課程類型、學(xué)分?jǐn)?shù)、成績。努力程度特征統(tǒng)計了進(jìn)入學(xué)習(xí)相關(guān)地點(diǎn)的頻次，包括進(jìn)入圖書館次數(shù)、教室打卡次數(shù)、打印次數(shù)、借書次數(shù)等，以此來描述學(xué)生的學(xué)習(xí)努力程度和主動學(xué)習(xí)意愿。生活規(guī)律特征是學(xué)生的生活規(guī)律度量值，是通過分析學(xué)生在不同地點(diǎn) 的刷卡時間來刻畫其生活作息的規(guī)律性。
[0047]本實(shí)施例中，生活規(guī)律度量值的計算方法為:首先根據(jù)每個學(xué)生的學(xué)生數(shù)據(jù)中對預(yù)設(shè)的若干個地點(diǎn)(一般為食堂、宿舍、教室）的訪問情況，計算得到預(yù)定時間段內(nèi)該學(xué)生對這些地點(diǎn)的訪問概率，然后根據(jù)訪問概率計算得到香農(nóng)熵，該香農(nóng)熵即為學(xué)生的生活規(guī)律度量值。
[0048]香農(nóng)熵（Shannon Entropy)表達(dá)了一個離散型變量所帶來的平均信息量，可以用于表征生活規(guī)律性，其計算公式為：
[0049] Mi{z) = -YJPl,(z)\〇g2P：r{z)
[0050] 其中，IMz)表示第i個學(xué)生的香農(nóng)熵，Plf(z)表示第i個學(xué)生訪問第f個地點(diǎn)的訪問概率，f = 1，2,…，F(xiàn)，F(xiàn)表示地點(diǎn)數(shù)量。
[0051]例如，當(dāng)計算得到一個學(xué)生分別在食堂、宿舍、教室這三個地點(diǎn)的訪問概率分別是 0.3、0.3、0.4時，計算得到香農(nóng)熵Hi (Z) = 1.572。另一個學(xué)生訪問三個地點(diǎn)的概率分別是 0.1、0.6、0.2時，計算得到出（2) = 1.24。后者的香農(nóng)熵更小，體現(xiàn)出了更強(qiáng)的行為規(guī)律性 (出入宿舍的概率更高）。對于一個概率分布，當(dāng)概率集中于較少的某幾個取值時(絕大多數(shù) 情況下變量會取少數(shù)的幾個值之一），香農(nóng)熵的值會較低，相反地，如果概率在各種取值上比較平均(幾乎無法判斷變量會取哪個值），那么香農(nóng)熵會較高。因此可以看出，學(xué)生對地點(diǎn) 訪問的時間越集中，那么熵就會越小，生活規(guī)律性就越強(qiáng)。
[0052] 計算對各個地點(diǎn)的訪問概率可以采用學(xué)生數(shù)據(jù)進(jìn)行統(tǒng)計，也可以采用密度估計的方式來得到，具體方法可以根據(jù)需要來設(shè)置。針對本發(fā)明中學(xué)生數(shù)據(jù)量大的特點(diǎn)，提出了一種訪問概率計算方法，其具體過程如下：
[0053] 對預(yù)定時間段進(jìn)行時間區(qū)間細(xì)分，從學(xué)生數(shù)據(jù)中抽取學(xué)生對每類地點(diǎn)的訪問時間，投影到細(xì)分時間區(qū)間，統(tǒng)計每類地點(diǎn)在每個細(xì)分時間區(qū)間內(nèi)的訪問次數(shù)，然后采用密度估計函數(shù)估計得到每個細(xì)分時間區(qū)間內(nèi)對該類地點(diǎn)的訪問概率，然后積分得到預(yù)設(shè)時間段對該類地點(diǎn)的訪問概率。密度估計函數(shù)可以根據(jù)實(shí)際需要進(jìn)行選擇，本實(shí)施例中所采用的密度估計函數(shù)表達(dá)式為：
[0055]其中，Plfv(z)表示第i個學(xué)生在第v個細(xì)分時間區(qū)間內(nèi)訪問第f個地點(diǎn)的訪問概率， v=l，2,…，V，V表示細(xì)分時間區(qū)間的數(shù)量。zlfv表示第i個學(xué)生在第v個細(xì)分時間區(qū)間內(nèi)訪問第f個地點(diǎn)的訪問次數(shù)。G lf表示第i個學(xué)生在預(yù)定時間段內(nèi)訪問第f個地點(diǎn)的總訪問次數(shù)，即 %. =H1%V jlf表示第i個學(xué)生在訪問第f?個地點(diǎn)對應(yīng)的密度估計帶寬值，其其經(jīng)驗(yàn)公式為：
[0057] 其中〇if表示V個訪問次數(shù)zifv的標(biāo)準(zhǔn)差。
[0058]然后對Vfplfv(z)進(jìn)行積分，就可以得到預(yù)定時間段內(nèi)第i個學(xué)生訪問第f個地點(diǎn) 的訪問概率Pif(z)。
[0059] S105:行為特征數(shù)據(jù)降維：
[0060]在提取學(xué)生特征之后，由于特征項(xiàng)較多，因此需要對數(shù)據(jù)進(jìn)行降維處理，，數(shù)據(jù)降維可以降低計算的復(fù)雜性，減少相關(guān)性導(dǎo)致的信息量的缺失，對于海量數(shù)據(jù)的特征提取有著重要的意義。數(shù)據(jù)降維的方法有許多，可以根據(jù)實(shí)際需要來選擇，本實(shí)施例中針對本發(fā)明的應(yīng)用場景的特征，設(shè)計出了一種降維方法，通過降維把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個綜合指標(biāo)，從而使降維后的特征數(shù)據(jù)所涵蓋的信息更為全面。
[0061]圖2是行為特征數(shù)據(jù)降維的流程圖。如圖2所示，特征數(shù)據(jù)降維包括以下步驟：
[0062] S201:構(gòu)建行為特征矩陣：
[0063]記第i個學(xué)生的行為特征向量為，…，blD}T，D表示特征項(xiàng)數(shù)，將所有學(xué) 生的行為特征數(shù)據(jù)組成大小為DXN的行為特征矩陣U，顯然矩陣U中，第i列即為m，上標(biāo)T表示轉(zhuǎn)置。
[0064] S202:求取協(xié)方差矩陣：
[0065] 求取行為特征矩陣U的協(xié)方差矩陣C。
[0066] S203:求取協(xié)方差矩陣的特征矩陣：
[0067]求取協(xié)方差矩陣C的特征值以及對應(yīng)的特征向量，然后按照對應(yīng)特征值從大到小將特征向量從上到下按行排列成矩陣，取前K行組成特征向量矩陣P，K的數(shù)值根據(jù)實(shí)際需要進(jìn)行設(shè)置。
[0068] S204:計算降維后行為特征矩陣：
[0069]計算降維后學(xué)生的行為特征矩陣Q = PU，矩陣Q中第i列即為經(jīng)過降維后第i個學(xué)生的行為特征向量V i。
[0070] 顯然矩陣Q的行數(shù)即為K，步驟S203中K越大，得到的矩陣Q越能體現(xiàn)行為特征，但是后續(xù)計算的復(fù)雜度也會增大。一般設(shè)置K的取值范圍關(guān)
[0071] 假設(shè)10個學(xué)生的行為特征向量所構(gòu)建的行為特征矩陣H如下： "2.5 0.5 2.2 1.9 3.1 2.3 2 1 1.5 1.1"
[0072] H = 2.4 0.7 2.9 2.2 3 2,1 1.6 1,1 1.6 0,9
[0073] 可見，每個學(xué)生的行為特征向量中包含兩個特征項(xiàng)。
[0074]求得協(xié)方差矩陣C如下： "0.616555556 0.615444444'
[0075] C = 0.615444444 0.716555556_
[0076] 求得協(xié)方差矩陣C的特征值A(chǔ)和對應(yīng)的特征向量a分別為：
[0077] Ai = 0.490833989, ax = [-0. 735178656,0.677873399]
[0078] 人 2= 1 ? 28402771，a2= [-0 ? 677873399，-0 ? 735178656]
[0079] 然后選擇最大的1個特征值人2對應(yīng)的特征向量作為列向量組成特征向量矩陣，那么特征向量矩陣P= [-0.677873399,-0.735178656]。計算得到降維后學(xué)生的行為特征矩陣 Q = PU,BP：
[0080] Q=[-0.8280,1.7776,-0.9922,-0.2742,-1.6758,-0.9129,0.0991,1.1446, 0.4380,1.2238]
[0081] 矩陣Q中每個數(shù)值都取小數(shù)點(diǎn)后四位。
[0082] S106:學(xué)生排名預(yù)測：
[0083]通過步驟S101至S105,從海量的學(xué)生數(shù)據(jù)中提取出了每個學(xué)生的行為特征向量，就可以通過學(xué)生的行為特征向量來進(jìn)行排名預(yù)測了。本發(fā)明中排名預(yù)測的具體方法為：
[0084] 對第i個學(xué)生，采用其行為特征向量減去其他每個學(xué)生的行為特征向量，得到N-1 個差異特征向量，將差異特征向量輸入預(yù)先訓(xùn)練好的分類器，得到對應(yīng)的N-1個標(biāo)簽，標(biāo)簽值為1或-1，將學(xué)生的所有標(biāo)簽值求和，得到該學(xué)生的得分，將所有學(xué)生的得分進(jìn)行排序，從而得到學(xué)生的排名預(yù)測值。
[0085] 其中，分類器是通過具有歷史排名的學(xué)生數(shù)據(jù)來訓(xùn)練得到的，訓(xùn)練方法為:對具有歷史排名的學(xué)生，搜集這些學(xué)生的數(shù)據(jù)，根據(jù)步驟S101至步驟S105的方法得到這些學(xué)生的行為特征向量，然后兩兩求得學(xué)生之間的差異特征向量。對于一個差異特征向量，如果被減特征向量所對應(yīng)的學(xué)生排名較前，則該差異特征向量所對應(yīng)的標(biāo)簽為1，否則為-1;將這些差異特征向量作為分類器的輸入，對應(yīng)的標(biāo)簽作為輸出，對分類器進(jìn)行訓(xùn)練。
[0086] 根據(jù)以上描述可以看出，本發(fā)明是采用了兩兩比較的方法來刻畫兩個人的差異。把任意兩個人的每個行為特征向量進(jìn)行相減，作為一個新的特征向量。例如，學(xué)生A的排名為5,行為特征向量為六=(3,2,5,7,9,6,8，1，4,7)7，學(xué)生8的排名為12，行為特征向量為8 =
[0087] 假定訓(xùn)練樣本中有W個學(xué)生，每兩個學(xué)生計算得到一個差異特征向量，所得到的差異特征向量就有W(W_l)/2,那么分類器的訓(xùn)練樣本有W(W_l)/2個。因?yàn)闃?biāo)簽只有兩類(1和_ 1)，所以預(yù)測的就是這個標(biāo)簽。也就是說，本發(fā)明將學(xué)生之間的排名預(yù)測轉(zhuǎn)換為了先預(yù)測得到每兩個學(xué)生的相對排名順序，而后再根據(jù)這些相對排名順序轉(zhuǎn)化為真實(shí)的排名，將排名預(yù)測問題就轉(zhuǎn)化為了一個排序?qū)W習(xí)問題，從而有效地解決了學(xué)生的排名預(yù)測問題。如果學(xué) 生A的排名越高，他和別人比較所產(chǎn)生的標(biāo)簽中出現(xiàn)1的次數(shù)越多，-1的次數(shù)越少，那么通過計算學(xué)生A和其他學(xué)生所產(chǎn)生的標(biāo)簽之和可以得到一個得分，根據(jù)所有學(xué)生的得分進(jìn)行排序就可以得到當(dāng)前學(xué)生A的排名預(yù)測值。例如，學(xué)生A與其他學(xué)生相比較得到的標(biāo)簽集合為 (1， _1，_1，1，1，1，_1，1，_1，_1，1)，學(xué)生B和其他學(xué)生比較得到的標(biāo)簽集合為( -1，1廠1，-1， 1，1，-1，-1，-1，1，1)，可得學(xué)生A的得分為1，學(xué)生B的得分為-1，那么學(xué)生A會比學(xué)生B的排名更靠前。
[0088] 盡管上面對本發(fā)明說明性的【具體實(shí)施方式】進(jìn)行了描述，以便于本技術(shù)領(lǐng)域的技術(shù) 人員理解本發(fā)明，但應(yīng)該清楚，本發(fā)明不限于【具體實(shí)施方式】的范圍，對本技術(shù)領(lǐng)域的普通技術(shù)人員來講，只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi)，這些變化是顯而易見的，一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
【主權(quán)項(xiàng)】
1. 一種基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法，其特征在于，包括以下步驟： Si:采集所有在校學(xué)生的數(shù)據(jù)，包括成績數(shù)據(jù)和行為數(shù)據(jù)，其中成績數(shù)據(jù)包括學(xué)生的所有課程的課程類型、學(xué)分?jǐn)?shù)、成績，行為數(shù)據(jù)包括學(xué)生在校園內(nèi)各個地點(diǎn)使用校園一卡通的記錄； S2:對采集到的學(xué)生數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗； S3:對清洗完成的學(xué)生數(shù)據(jù)中的非時間數(shù)據(jù)項(xiàng)，采用以下方法進(jìn)行數(shù)據(jù)規(guī)范：記第i個學(xué)生的第j項(xiàng)非時間數(shù)據(jù)為xij，i = 1，2，…，N，N表示學(xué)生數(shù)量，j = 1，2，…，M，M 表示數(shù)據(jù)項(xiàng)數(shù)量;求取每個數(shù)據(jù)XU的線性變換值Y U，計算公式為：其中，Hiaxj表示第j項(xiàng)數(shù)據(jù)序列中的最大值，Hiinj表示第j項(xiàng)數(shù)據(jù)序列中的最小值，Τ」_· χ 表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的上限，L_min表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的下限；對線性變換后的數(shù)據(jù)Y&根據(jù)以下公式計算規(guī)范數(shù)據(jù)值yu:其中，巧表示第j項(xiàng)數(shù)據(jù)序列的平均值表示第j項(xiàng)數(shù)據(jù)序列的方差； S4:從學(xué)生數(shù)據(jù)中提取每個學(xué)生的行為特征向量，行為特征包括成績特征、努力程度特征和生活規(guī)律特征，其中成績特征包括學(xué)生所有課程的課程類型、學(xué)分?jǐn)?shù)、成績，努力程度特征是學(xué)生進(jìn)入學(xué)習(xí)相關(guān)地點(diǎn)的頻次，生活規(guī)律特征是學(xué)生的生活規(guī)律度量值，由以上數(shù) 據(jù)項(xiàng)構(gòu)成學(xué)生的行為特征向量； S5:對步驟S4提取到的行為特征向量進(jìn)行降維，得到降維后每個學(xué)生的行為特征向量； S6:對第i個學(xué)生，采用其降維后的行為特征向量減去其他每個學(xué)生的行為特征向量，得到N-I個差異特征向量，將差異特征向量輸入預(yù)先訓(xùn)練好的分類器，得到對應(yīng)的N-I個標(biāo) 簽，標(biāo)簽值為1或-1，將該學(xué)生的所有標(biāo)簽值求和，得到該學(xué)生的得分，將所有學(xué)生的得分進(jìn) 行排序，從而得到學(xué)生的排名預(yù)測值；其中，分類器的訓(xùn)練方法為:對具有歷史排名的學(xué)生，搜集得到這些學(xué)生的數(shù)據(jù)，根據(jù) 步驟Sl至步驟S5的方法得到這些學(xué)生的行為特征向量，然后兩兩求得學(xué)生之間的差異特征向量;對于一個差異特征向量，如果被減特征向量所對應(yīng)的學(xué)生排名較前，則該差異特征向量所對應(yīng)的標(biāo)簽為1，否則為-1;將這些差異特征向量作為分類器的輸入，對應(yīng)的標(biāo)簽作為輸出，對分類器進(jìn)行訓(xùn)練。2. 根據(jù)權(quán)利要求1所述的學(xué)生排名預(yù)測方法，其特征在于，所述步驟S4中生活規(guī)律度量值的計算方法為:根據(jù)每個學(xué)生的學(xué)生數(shù)據(jù)中對預(yù)設(shè)的若干個地點(diǎn)的訪問情況，計算得到預(yù)定時間段內(nèi)該學(xué)生對這些地點(diǎn)的訪問概率，然后根據(jù)訪問概率計算得到香農(nóng)熵，該香農(nóng) 熵即為該學(xué)生的生活規(guī)律度量值。3. 根據(jù)權(quán)利要求2所述的學(xué)生排名預(yù)測方法，其特征在于，所述訪問概率的計算方法為：對預(yù)定時間段進(jìn)行時間區(qū)間細(xì)分，從學(xué)生數(shù)據(jù)中抽取學(xué)生對每類地點(diǎn)的訪問時間，投影到細(xì)分時間區(qū)間，統(tǒng)計每類地點(diǎn)在每個細(xì)分時間區(qū)間內(nèi)的訪問次數(shù)，采用密度估計函數(shù) 估計得到每個細(xì)分時間區(qū)間內(nèi)對該類地點(diǎn)的訪問概率，然后積分得到預(yù)設(shè)時間段對該類地點(diǎn)的訪問概率。4. 根據(jù)權(quán)利要求1所述的學(xué)生排名預(yù)測排名方法，其特征在于，所述步驟S5中，行為特征向量降維的方法為： S5.1 :記第i個學(xué)生的行為特征向量為Bi= {bu，bi2,···，biD}T，D表示特征項(xiàng)數(shù)，將所有學(xué) 生的行為特征數(shù)據(jù)組成大小為DXN的行為特征矩陣U; S5.2:求取行為特征矩陣U的協(xié)方差矩陣C; S5.3:求取協(xié)方差矩陣C的特征值以及對應(yīng)的特征向量，然后按照對應(yīng)特征值從大到小將特征向量從上到下按行排列成矩陣，取前K行組成特征向量矩陣P，K的數(shù)值根據(jù)實(shí)際需要進(jìn)行設(shè)置； S5.4:計算降維后學(xué)生的行為特征矩陣Q = PU，矩陣Q中第i列即為經(jīng)過降維后第i個學(xué) 生的行為特征向量V i。5. 根據(jù)權(quán)利要求4所述的學(xué)生排名預(yù)測排名方法，其特征在于，所述步驟參數(shù)K的取值范圍
【文檔編號】G06Q10/04GK105894119SQ201610207978
【公開日】2016年8月24日
【申請日】2016年4月5日
【發(fā)明人】楊磊, 聶敏, 夏虎
【申請人】成都尋道科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊磊;聶敏;夏虎;
技術(shù)所有人：成都尋道科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法