基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法
【專利摘要】本發(fā)明公開了一種基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法,采集所有在校學(xué)生的數(shù)據(jù),包括成績數(shù)據(jù)和行為數(shù)據(jù),對學(xué)生數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,并對非時間數(shù)據(jù)項(xiàng)進(jìn)行數(shù)據(jù)規(guī)范,從處理后的數(shù)據(jù)提取出每個學(xué)生的行為特征向量,行為特征包括成績特征、努力程度特征和生活規(guī)律特征,然后對行為特征向量進(jìn)行降維,每個學(xué)生采用其降維后的行為特征向量減去其他每個學(xué)生的行為特征向量,求得差異特征向量,輸入分類器中得到對應(yīng)的標(biāo)簽值,將標(biāo)簽值求和得到學(xué)生的得分,將所有學(xué)生的得分進(jìn)行排序,即可得到每個學(xué)生的排名預(yù)測值。本發(fā)明通過對學(xué)生的校園數(shù)據(jù)進(jìn)行分析,用數(shù)據(jù)來描述學(xué)生的學(xué)習(xí)習(xí)慣和行為特征,預(yù)測得到學(xué)生排名,作為學(xué)生教育的參考。
【專利說明】
基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明屬于大數(shù)據(jù)分析挖掘技術(shù)領(lǐng)域,更為具體地講,涉及一種基于校園數(shù)據(jù)的 學(xué)生排名預(yù)測方法。
【背景技術(shù)】
[0002] 如何了解學(xué)生心理、掌握學(xué)生異常行為、預(yù)測學(xué)生學(xué)習(xí)狀況和提供個性化輔導(dǎo),已 經(jīng)成為不少高校面臨的問題與挑戰(zhàn)。近年來,伴隨著以"數(shù)據(jù)和計算"為驅(qū)動的科技革命,大 數(shù)據(jù)成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的重要影響因素。如何將大數(shù)據(jù)引入教育領(lǐng)域,作為推動教 育變革、引領(lǐng)教育創(chuàng)新的強(qiáng)勁助力,成為新的研究方向。但是目前,由于學(xué)生行為難以量化 等問題,在教育領(lǐng)域進(jìn)行大數(shù)據(jù)的應(yīng)用還處在研究階段,尚未出現(xiàn)有效的應(yīng)用方式。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于校園數(shù)據(jù)的學(xué)生排名預(yù)測 方法,通過對學(xué)生的校園數(shù)據(jù)進(jìn)行分析,用數(shù)據(jù)來描述學(xué)生的學(xué)習(xí)習(xí)慣和行為特征,預(yù)測得 到學(xué)生排名,作為學(xué)生教育的參考。
[0004] 為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法包括以下步驟:
[0005] S1:采集所有在校學(xué)生的數(shù)據(jù),包括成績數(shù)據(jù)和行為數(shù)據(jù),其中成績數(shù)據(jù)包括學(xué)生 的所有課程的課程類型、學(xué)分?jǐn)?shù)、成績,行為數(shù)據(jù)包括學(xué)生在校園內(nèi)各個地點(diǎn)使用校園一卡 通的記錄;
[0006] S2:對采集到的學(xué)生數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;
[0007] S3:對清洗完成的學(xué)生數(shù)據(jù)中的非時間數(shù)據(jù)項(xiàng),采用以下方法進(jìn)行數(shù)據(jù)規(guī)范:
[0008] 記第i個學(xué)生的第j項(xiàng)非時間數(shù)據(jù)為Xij,i = 1,2,…,N,N表示學(xué)生數(shù)量,j = 1,2,…, M,M表示非時間數(shù)據(jù)項(xiàng)數(shù)量;求取每個數(shù)據(jù)xij的線性變換值x'j,計算公式為:
[0010]其中,max」表示第j項(xiàng)數(shù)據(jù)序列中的最大值,min」表示第j項(xiàng)數(shù)據(jù)序列中的最小值, L_max表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的上限,表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的下限;
[0011]對線性變換后的數(shù)據(jù)V u,根據(jù)以下公式計算規(guī)范數(shù)據(jù)值:
[0013] 其中為表示第j項(xiàng)數(shù)據(jù)序列的平均值,s謙示第j項(xiàng)數(shù)據(jù)序列的方差;
[0014] S4:從學(xué)生數(shù)據(jù)中提取每個學(xué)生的行為特征向量,行為特征包括成績特征、努力程 度特征和生活規(guī)律特征,其中成績特征包括學(xué)生所有課程的課程類型、學(xué)分?jǐn)?shù)、成績,努力 程度特征是學(xué)生進(jìn)入學(xué)習(xí)相關(guān)地點(diǎn)的頻次,生活規(guī)律特征是學(xué)生的生活規(guī)律度量值,由以 上數(shù)據(jù)項(xiàng)構(gòu)成學(xué)生的行為特征向量;
[0015] S5:對步驟S4提取到的行為特征向量進(jìn)行降維,得到降維后每個學(xué)生的行為特征 向量;
[0016] S6:對第i個學(xué)生,采用其行為特征向量減去其他每個學(xué)生的行為特征向量,得到 N-1個差異特征向量,將差異特征向量輸入預(yù)先訓(xùn)練好的分類器,得到對應(yīng)的N-1個標(biāo)簽,標(biāo) 簽值為1或-1,將學(xué)生的所有標(biāo)簽值求和,得到該學(xué)生的得分,將所有學(xué)生的得分進(jìn)行排序, 從而得到學(xué)生的排名預(yù)測值;
[0017] 其中,分類器的訓(xùn)練方法為:對具有歷史排名的學(xué)生,搜集得到這些學(xué)生的數(shù)據(jù), 根據(jù)步驟S1至步驟S5的方法得到這些學(xué)生的行為特征向量,然后兩兩求得學(xué)生之間的差異 特征向量;對于一個差異特征向量,如果被減特征向量所對應(yīng)的學(xué)生排名較前,則該差異特 征向量所對應(yīng)的標(biāo)簽為1,否則為-1;將這些差異特征向量作為分類器的輸入,對應(yīng)的標(biāo)簽 作為輸出,對分類器進(jìn)行訓(xùn)練。
[0018] 本發(fā)明基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法,采集所有在校學(xué)生的數(shù)據(jù),包括成績 數(shù)據(jù)和行為數(shù)據(jù),對學(xué)生數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,并對非時間數(shù)據(jù)項(xiàng)進(jìn)行數(shù)據(jù)規(guī)范,從處理后的 數(shù)據(jù)提取出每個學(xué)生的行為特征向量,行為特征包括成績特征、努力程度特征和生活規(guī)律 特征,然后對行為特征向量進(jìn)行降維,每個學(xué)生采用其降維后的行為特征向量減去其他每 個學(xué)生的行為特征向量,求得差異特征向量,輸入分類器中得到對應(yīng)的標(biāo)簽值,將標(biāo)簽值求 和得到學(xué)生的得分,將所有學(xué)生的得分進(jìn)行排序,即可得到每個學(xué)生的排名預(yù)測值。
[0019] 本發(fā)明針對學(xué)生在校園中的學(xué)習(xí)行為數(shù)據(jù)進(jìn)行深度分析,對學(xué)生個體的基本信 息、學(xué)習(xí)、生活情況進(jìn)行精準(zhǔn)的量化描述,預(yù)測學(xué)生個體的排名,為相關(guān)職能部門的,為相關(guān) 職能部門教學(xué)管理以及日常輔導(dǎo)工作提供定量化決策依據(jù),從而有效釋放學(xué)生數(shù)據(jù)的價 值。
【附圖說明】
[0020] 圖1是本發(fā)明基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法的流程圖;
[0021] 圖2是行為特征數(shù)據(jù)降維的流程圖。
【具體實(shí)施方式】
[0022] 下面結(jié)合附圖對本發(fā)明的【具體實(shí)施方式】進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地 理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計的詳細(xì)描述也許 會淡化本發(fā)明的主要內(nèi)容時,這些描述在這里將被忽略。
[0023] 實(shí)施例
[0024]圖1是本發(fā)明基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法的流程圖。如圖1所示,本發(fā)明基 于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法包括以下步驟:
[0025] S101:學(xué)生數(shù)據(jù)采集:
[0026]首先要采集所有在校學(xué)生的數(shù)據(jù),學(xué)生數(shù)據(jù)源自于學(xué)校的各個職能部門,具有異 質(zhì)的結(jié)構(gòu),包含了從結(jié)構(gòu)化的學(xué)生基本信息數(shù)據(jù)到時間序列化的學(xué)生校園生活軌跡。學(xué)生 數(shù)據(jù)包括成績數(shù)據(jù)和行為數(shù)據(jù),其中成績數(shù)據(jù)包括學(xué)生的所有課程的課程類型、學(xué)分?jǐn)?shù)和 成績,及成績各個組成部分的情況(如平時成績、期中成績等),行為數(shù)據(jù)包括學(xué)生在校園內(nèi) 各個地點(diǎn)使用校園一卡通的記錄,例如學(xué)生在超市、食堂以及教室打水的消費(fèi)記錄,包括消 費(fèi)時間和金額;出入圖書館、宿舍門禁的記錄;借書記錄,包括圖書信息和借閱時間。表1是 學(xué)生數(shù)據(jù)的來源與內(nèi)容示例。
[0028] 表 1
[0029] S102:數(shù)據(jù)清洗:
[0030] 在采集到所有學(xué)生數(shù)據(jù)后,需要對采集到的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。本發(fā)明中由 于學(xué)生數(shù)據(jù)來自多個業(yè)務(wù)系統(tǒng)而且包含大量歷史數(shù)據(jù),常常會出現(xiàn)重復(fù)值、缺失值等,因此 需要進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),修正之后再寫入數(shù)據(jù) 倉庫。清洗的對象主要包括數(shù)據(jù)中的重復(fù)值、缺失值、不一致數(shù)據(jù)等等,數(shù)據(jù)清洗是大數(shù)據(jù) 領(lǐng)域的常用手段,其具體過程在此不再贅述。
[0031] S103:數(shù)據(jù)規(guī)范化:
[0032] 對于清洗完成的學(xué)生數(shù)據(jù),由于每項(xiàng)數(shù)據(jù)的屬性不同,通常具有不同的量綱和數(shù) 量級。一般而言,用較小的單位表示屬性將導(dǎo)致該屬性具有較大值域,因此趨向于使這樣的 屬性具有較大的影響或較高的"權(quán)重"。為了避免對度量單位選擇的依賴性,保證結(jié)果的可 靠性,需要對原始數(shù)據(jù)中除了時間數(shù)據(jù)以外其他數(shù)據(jù)項(xiàng)進(jìn)行規(guī)范化處理。
[0033]數(shù)據(jù)規(guī)范化指的是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。這種方式在 某些比較和評價的指標(biāo)處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純 數(shù)值,便于不同單位或量級的指標(biāo)能夠進(jìn)行比較和加權(quán)。本發(fā)明中,數(shù)據(jù)規(guī)范化的包括以下 兩個步驟:
[0034] ?線性變換:
[0035]記第i個學(xué)生的第j項(xiàng)非時間數(shù)據(jù)為xij,i = 1,2,…,N,N表示學(xué)生數(shù)量,j = 1,2,…, M,M表示非時間數(shù)據(jù)項(xiàng)數(shù)量。對每個數(shù)據(jù),分別按照以下公式求取線性變換值
[0037]其中,max」表示第j項(xiàng)數(shù)據(jù)序列中的最大值,min」表示第j項(xiàng)數(shù)據(jù)序列中的最小值, Tj_max表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的上限,表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的下限。第j 項(xiàng)數(shù)據(jù)序列就是所有學(xué)生的第j項(xiàng)數(shù)據(jù)組成的序列。可見,通過上式,將第j項(xiàng)數(shù)據(jù)序列中原 本在區(qū)間[m i nj,maxj ]的值統(tǒng)一映射到了 [ Tj_min,Tj_max ]上。
[0038]假設(shè)第j項(xiàng)數(shù)據(jù)序列為[1,2,1,4,3,2,5,6,2,7],取值區(qū)間為[1,7],其限定區(qū)間為 [0,1],那么線性變換后的數(shù)據(jù)序列為[0,0.16,0,0.5,0.33,0.16,0.66,0.83,0.16,1]。 [0039] ?數(shù)值規(guī)范:
[0040]將線性變換后的數(shù)據(jù)基于數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行數(shù)值規(guī)范化。對線性變換后的 數(shù)據(jù)V &根據(jù)以下公式計算規(guī)范數(shù)據(jù)值:
[0042]其中,%表示第j項(xiàng)數(shù)據(jù)序列的平均值
,&表示第j項(xiàng)數(shù)據(jù)序列的方 差
[0043]數(shù)值規(guī)范化后的每項(xiàng)數(shù)據(jù)序列均值為0,方差為1,且無量綱,序列中的字段值圍繞 〇上下波動,大于〇說明高于平均水平,小于〇說明低于平均水平。
[0044] 通過以上兩個步驟不僅能夠?qū)?shù)據(jù)映射到統(tǒng)一的區(qū)間,并且有效地消除了超出取 值范圍的離群數(shù)據(jù)對數(shù)據(jù)整體分布的影響。
[0045] S104:提取行為特征向量:
[0046] 完成數(shù)據(jù)規(guī)范化的工作之后,需要數(shù)據(jù)中提取學(xué)習(xí)行為特征。本發(fā)明中所需要每 個學(xué)生的行為特征分為三部分:成績特征、努力程度特征和生活規(guī)律特征。成績特征包括學(xué) 生所有課程的課程類型、學(xué)分?jǐn)?shù)、成績。努力程度特征統(tǒng)計了進(jìn)入學(xué)習(xí)相關(guān)地點(diǎn)的頻次,包 括進(jìn)入圖書館次數(shù)、教室打卡次數(shù)、打印次數(shù)、借書次數(shù)等,以此來描述學(xué)生的學(xué)習(xí)努力程 度和主動學(xué)習(xí)意愿。生活規(guī)律特征是學(xué)生的生活規(guī)律度量值,是通過分析學(xué)生在不同地點(diǎn) 的刷卡時間來刻畫其生活作息的規(guī)律性。
[0047]本實(shí)施例中,生活規(guī)律度量值的計算方法為:首先根據(jù)每個學(xué)生的學(xué)生數(shù)據(jù)中對 預(yù)設(shè)的若干個地點(diǎn)(一般為食堂、宿舍、教室)的訪問情況,計算得到預(yù)定時間段內(nèi)該學(xué)生對 這些地點(diǎn)的訪問概率,然后根據(jù)訪問概率計算得到香農(nóng)熵,該香農(nóng)熵即為學(xué)生的生活規(guī)律 度量值。
[0048]香農(nóng)熵(Shannon Entropy)表達(dá)了一個離散型變量所帶來的平均信息量,可以用 于表征生活規(guī)律性,其計算公式為:
[0049] Mi{z) = -YJPl,(z)\〇g2P:r{z)
[0050] 其中,IMz)表示第i個學(xué)生的香農(nóng)熵,Plf(z)表示第i個學(xué)生訪問第f個地點(diǎn)的訪問 概率,f = 1,2,…,F(xiàn),F(xiàn)表示地點(diǎn)數(shù)量。
[0051]例如,當(dāng)計算得到一個學(xué)生分別在食堂、宿舍、教室這三個地點(diǎn)的訪問概率分別是 0.3、0.3、0.4時,計算得到香農(nóng)熵Hi (Z) = 1.572。另一個學(xué)生訪問三個地點(diǎn)的概率分別是 0.1、0.6、0.2時,計算得到出(2) = 1.24。后者的香農(nóng)熵更小,體現(xiàn)出了更強(qiáng)的行為規(guī)律性 (出入宿舍的概率更高)。對于一個概率分布,當(dāng)概率集中于較少的某幾個取值時(絕大多數(shù) 情況下變量會取少數(shù)的幾個值之一),香農(nóng)熵的值會較低,相反地,如果概率在各種取值上 比較平均(幾乎無法判斷變量會取哪個值),那么香農(nóng)熵會較高。因此可以看出,學(xué)生對地點(diǎn) 訪問的時間越集中,那么熵就會越小,生活規(guī)律性就越強(qiáng)。
[0052] 計算對各個地點(diǎn)的訪問概率可以采用學(xué)生數(shù)據(jù)進(jìn)行統(tǒng)計,也可以采用密度估計的 方式來得到,具體方法可以根據(jù)需要來設(shè)置。針對本發(fā)明中學(xué)生數(shù)據(jù)量大的特點(diǎn),提出了一 種訪問概率計算方法,其具體過程如下:
[0053] 對預(yù)定時間段進(jìn)行時間區(qū)間細(xì)分,從學(xué)生數(shù)據(jù)中抽取學(xué)生對每類地點(diǎn)的訪問時 間,投影到細(xì)分時間區(qū)間,統(tǒng)計每類地點(diǎn)在每個細(xì)分時間區(qū)間內(nèi)的訪問次數(shù),然后采用密度 估計函數(shù)估計得到每個細(xì)分時間區(qū)間內(nèi)對該類地點(diǎn)的訪問概率,然后積分得到預(yù)設(shè)時間段 對該類地點(diǎn)的訪問概率。密度估計函數(shù)可以根據(jù)實(shí)際需要進(jìn)行選擇,本實(shí)施例中所采用的 密度估計函數(shù)表達(dá)式為:
[0055]其中,Plfv(z)表示第i個學(xué)生在第v個細(xì)分時間區(qū)間內(nèi)訪問第f個地點(diǎn)的訪問概率, v=l,2,…,V,V表示細(xì)分時間區(qū)間的數(shù)量。zlfv表示第i個學(xué)生在第v個細(xì)分時間區(qū)間內(nèi)訪問 第f個地點(diǎn)的訪問次數(shù)。G lf表示第i個學(xué)生在預(yù)定時間段內(nèi)訪問第f個地點(diǎn)的總訪問次數(shù),即 %. =H1%V jlf表示第i個學(xué)生在訪問第f?個地點(diǎn)對應(yīng)的密度估計帶寬值,其其經(jīng)驗(yàn)公式 為:
[0057] 其中〇if表示V個訪問次數(shù)zifv的標(biāo)準(zhǔn)差。
[0058]然后對Vfplfv(z)進(jìn)行積分,就可以得到預(yù)定時間段內(nèi)第i個學(xué)生訪問第f個地點(diǎn) 的訪問概率Pif(z)。
[0059] S105:行為特征數(shù)據(jù)降維:
[0060]在提取學(xué)生特征之后,由于特征項(xiàng)較多,因此需要對數(shù)據(jù)進(jìn)行降維處理,,數(shù)據(jù)降 維可以降低計算的復(fù)雜性,減少相關(guān)性導(dǎo)致的信息量的缺失,對于海量數(shù)據(jù)的特征提取有 著重要的意義。數(shù)據(jù)降維的方法有許多,可以根據(jù)實(shí)際需要來選擇,本實(shí)施例中針對本發(fā)明 的應(yīng)用場景的特征,設(shè)計出了一種降維方法,通過降維把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個綜合指標(biāo), 從而使降維后的特征數(shù)據(jù)所涵蓋的信息更為全面。
[0061]圖2是行為特征數(shù)據(jù)降維的流程圖。如圖2所示,特征數(shù)據(jù)降維包括以下步驟:
[0062] S201:構(gòu)建行為特征矩陣:
[0063]記第i個學(xué)生的行為特征向量為,…,blD}T,D表示特征項(xiàng)數(shù),將所有學(xué) 生的行為特征數(shù)據(jù)組成大小為DXN的行為特征矩陣U,顯然矩陣U中,第i列即為m,上標(biāo)T表 示轉(zhuǎn)置。
[0064] S202:求取協(xié)方差矩陣:
[0065] 求取行為特征矩陣U的協(xié)方差矩陣C。
[0066] S203:求取協(xié)方差矩陣的特征矩陣:
[0067]求取協(xié)方差矩陣C的特征值以及對應(yīng)的特征向量,然后按照對應(yīng)特征值從大到小 將特征向量從上到下按行排列成矩陣,取前K行組成特征向量矩陣P,K的數(shù)值根據(jù)實(shí)際需要 進(jìn)行設(shè)置。
[0068] S204:計算降維后行為特征矩陣:
[0069]計算降維后學(xué)生的行為特征矩陣Q = PU,矩陣Q中第i列即為經(jīng)過降維后第i個學(xué)生 的行為特征向量V i。
[0070] 顯然矩陣Q的行數(shù)即為K,步驟S203中K越大,得到的矩陣Q越能體現(xiàn)行為特征,但是 后續(xù)計算的復(fù)雜度也會增大。一般設(shè)置K的取值范圍關(guān)
[0071] 假設(shè)10個學(xué)生的行為特征向量所構(gòu)建的行為特征矩陣H如下: "2.5 0.5 2.2 1.9 3.1 2.3 2 1 1.5 1.1"
[0072] H = 2.4 0.7 2.9 2.2 3 2,1 1.6 1,1 1.6 0,9
[0073] 可見,每個學(xué)生的行為特征向量中包含兩個特征項(xiàng)。
[0074]求得協(xié)方差矩陣C如下: "0.616555556 0.615444444'
[0075] C = 0.615444444 0.716555556_
[0076] 求得協(xié)方差矩陣C的特征值A(chǔ)和對應(yīng)的特征向量a分別為:
[0077] Ai = 0.490833989, ax = [-0. 735178656,0.677873399]
[0078] 人 2= 1 ? 28402771,a2= [-0 ? 677873399,-0 ? 735178656]
[0079] 然后選擇最大的1個特征值人2對應(yīng)的特征向量作為列向量組成特征向量矩陣,那 么特征向量矩陣P= [-0.677873399,-0.735178656]。計算得到降維后學(xué)生的行為特征矩陣 Q = PU,BP:
[0080] Q=[-0.8280,1.7776,-0.9922,-0.2742,-1.6758,-0.9129,0.0991,1.1446, 0.4380,1.2238]
[0081] 矩陣Q中每個數(shù)值都取小數(shù)點(diǎn)后四位。
[0082] S106:學(xué)生排名預(yù)測:
[0083]通過步驟S101至S105,從海量的學(xué)生數(shù)據(jù)中提取出了每個學(xué)生的行為特征向量, 就可以通過學(xué)生的行為特征向量來進(jìn)行排名預(yù)測了。本發(fā)明中排名預(yù)測的具體方法為:
[0084] 對第i個學(xué)生,采用其行為特征向量減去其他每個學(xué)生的行為特征向量,得到N-1 個差異特征向量,將差異特征向量輸入預(yù)先訓(xùn)練好的分類器,得到對應(yīng)的N-1個標(biāo)簽,標(biāo)簽 值為1或-1,將學(xué)生的所有標(biāo)簽值求和,得到該學(xué)生的得分,將所有學(xué)生的得分進(jìn)行排序,從 而得到學(xué)生的排名預(yù)測值。
[0085] 其中,分類器是通過具有歷史排名的學(xué)生數(shù)據(jù)來訓(xùn)練得到的,訓(xùn)練方法為:對具有 歷史排名的學(xué)生,搜集這些學(xué)生的數(shù)據(jù),根據(jù)步驟S101至步驟S105的方法得到這些學(xué)生的 行為特征向量,然后兩兩求得學(xué)生之間的差異特征向量。對于一個差異特征向量,如果被減 特征向量所對應(yīng)的學(xué)生排名較前,則該差異特征向量所對應(yīng)的標(biāo)簽為1,否則為-1;將這些 差異特征向量作為分類器的輸入,對應(yīng)的標(biāo)簽作為輸出,對分類器進(jìn)行訓(xùn)練。
[0086] 根據(jù)以上描述可以看出,本發(fā)明是采用了兩兩比較的方法來刻畫兩個人的差異。 把任意兩個人的每個行為特征向量進(jìn)行相減,作為一個新的特征向量。例如,學(xué)生A的排名 為5,行為特征向量為六=(3,2,5,7,9,6,8,1,4,7)7,學(xué)生8的排名為12,行為特征向量為8 =
[0087] 假定訓(xùn)練樣本中有W個學(xué)生,每兩個學(xué)生計算得到一個差異特征向量,所得到的差 異特征向量就有W(W_l)/2,那么分類器的訓(xùn)練樣本有W(W_l)/2個。因?yàn)闃?biāo)簽只有兩類(1和_ 1),所以預(yù)測的就是這個標(biāo)簽。也就是說,本發(fā)明將學(xué)生之間的排名預(yù)測轉(zhuǎn)換為了先預(yù)測得 到每兩個學(xué)生的相對排名順序,而后再根據(jù)這些相對排名順序轉(zhuǎn)化為真實(shí)的排名,將排名 預(yù)測問題就轉(zhuǎn)化為了一個排序?qū)W習(xí)問題,從而有效地解決了學(xué)生的排名預(yù)測問題。如果學(xué) 生A的排名越高,他和別人比較所產(chǎn)生的標(biāo)簽中出現(xiàn)1的次數(shù)越多,-1的次數(shù)越少,那么通過 計算學(xué)生A和其他學(xué)生所產(chǎn)生的標(biāo)簽之和可以得到一個得分,根據(jù)所有學(xué)生的得分進(jìn)行排 序就可以得到當(dāng)前學(xué)生A的排名預(yù)測值。例如,學(xué)生A與其他學(xué)生相比較得到的標(biāo)簽集合為 (1, _1,_1,1,1,1,_1,1,_1,_1,1),學(xué)生B和其他學(xué)生比較得到的標(biāo)簽集合為( -1,1廠1,-1, 1,1,-1,-1,-1,1,1),可得學(xué)生A的得分為1,學(xué)生B的得分為-1,那么學(xué)生A會比學(xué)生B的排名 更靠前。
[0088] 盡管上面對本發(fā)明說明性的【具體實(shí)施方式】進(jìn)行了描述,以便于本技術(shù)領(lǐng)域的技術(shù) 人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于【具體實(shí)施方式】的范圍,對本技術(shù)領(lǐng)域的普通技 術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些 變化是顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
【主權(quán)項(xiàng)】
1. 一種基于校園數(shù)據(jù)的學(xué)生排名預(yù)測方法,其特征在于,包括以下步驟: Si:采集所有在校學(xué)生的數(shù)據(jù),包括成績數(shù)據(jù)和行為數(shù)據(jù),其中成績數(shù)據(jù)包括學(xué)生的所 有課程的課程類型、學(xué)分?jǐn)?shù)、成績,行為數(shù)據(jù)包括學(xué)生在校園內(nèi)各個地點(diǎn)使用校園一卡通的 記錄; S2:對采集到的學(xué)生數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗; S3:對清洗完成的學(xué)生數(shù)據(jù)中的非時間數(shù)據(jù)項(xiàng),采用以下方法進(jìn)行數(shù)據(jù)規(guī)范: 記第i個學(xué)生的第j項(xiàng)非時間數(shù)據(jù)為xij,i = 1,2,…,N,N表示學(xué)生數(shù)量,j = 1,2,…,M,M 表示數(shù)據(jù)項(xiàng)數(shù)量;求取每個數(shù)據(jù)XU的線性變換值Y U,計算公式為:其中,Hiaxj表示第j項(xiàng)數(shù)據(jù)序列中的最大值,Hiinj表示第j項(xiàng)數(shù)據(jù)序列中的最小值,Τ」_· χ 表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的上限,L_min表示第j項(xiàng)數(shù)據(jù)序列限定區(qū)間的下限; 對線性變換后的數(shù)據(jù)Y&根據(jù)以下公式計算規(guī)范數(shù)據(jù)值yu:其中,巧表示第j項(xiàng)數(shù)據(jù)序列的平均值表示第j項(xiàng)數(shù)據(jù)序列的方差; S4:從學(xué)生數(shù)據(jù)中提取每個學(xué)生的行為特征向量,行為特征包括成績特征、努力程度特 征和生活規(guī)律特征,其中成績特征包括學(xué)生所有課程的課程類型、學(xué)分?jǐn)?shù)、成績,努力程度 特征是學(xué)生進(jìn)入學(xué)習(xí)相關(guān)地點(diǎn)的頻次,生活規(guī)律特征是學(xué)生的生活規(guī)律度量值,由以上數(shù) 據(jù)項(xiàng)構(gòu)成學(xué)生的行為特征向量; S5:對步驟S4提取到的行為特征向量進(jìn)行降維,得到降維后每個學(xué)生的行為特征向量; S6:對第i個學(xué)生,采用其降維后的行為特征向量減去其他每個學(xué)生的行為特征向量, 得到N-I個差異特征向量,將差異特征向量輸入預(yù)先訓(xùn)練好的分類器,得到對應(yīng)的N-I個標(biāo) 簽,標(biāo)簽值為1或-1,將該學(xué)生的所有標(biāo)簽值求和,得到該學(xué)生的得分,將所有學(xué)生的得分進(jìn) 行排序,從而得到學(xué)生的排名預(yù)測值; 其中,分類器的訓(xùn)練方法為:對具有歷史排名的學(xué)生,搜集得到這些學(xué)生的數(shù)據(jù),根據(jù) 步驟Sl至步驟S5的方法得到這些學(xué)生的行為特征向量,然后兩兩求得學(xué)生之間的差異特征 向量;對于一個差異特征向量,如果被減特征向量所對應(yīng)的學(xué)生排名較前,則該差異特征向 量所對應(yīng)的標(biāo)簽為1,否則為-1;將這些差異特征向量作為分類器的輸入,對應(yīng)的標(biāo)簽作為 輸出,對分類器進(jìn)行訓(xùn)練。2. 根據(jù)權(quán)利要求1所述的學(xué)生排名預(yù)測方法,其特征在于,所述步驟S4中生活規(guī)律度量 值的計算方法為:根據(jù)每個學(xué)生的學(xué)生數(shù)據(jù)中對預(yù)設(shè)的若干個地點(diǎn)的訪問情況,計算得到 預(yù)定時間段內(nèi)該學(xué)生對這些地點(diǎn)的訪問概率,然后根據(jù)訪問概率計算得到香農(nóng)熵,該香農(nóng) 熵即為該學(xué)生的生活規(guī)律度量值。3. 根據(jù)權(quán)利要求2所述的學(xué)生排名預(yù)測方法,其特征在于,所述訪問概率的計算方法 為: 對預(yù)定時間段進(jìn)行時間區(qū)間細(xì)分,從學(xué)生數(shù)據(jù)中抽取學(xué)生對每類地點(diǎn)的訪問時間,投 影到細(xì)分時間區(qū)間,統(tǒng)計每類地點(diǎn)在每個細(xì)分時間區(qū)間內(nèi)的訪問次數(shù),采用密度估計函數(shù) 估計得到每個細(xì)分時間區(qū)間內(nèi)對該類地點(diǎn)的訪問概率,然后積分得到預(yù)設(shè)時間段對該類地 點(diǎn)的訪問概率。4. 根據(jù)權(quán)利要求1所述的學(xué)生排名預(yù)測排名方法,其特征在于,所述步驟S5中,行為特 征向量降維的方法為: S5.1 :記第i個學(xué)生的行為特征向量為Bi= {bu,bi2,···,biD}T,D表示特征項(xiàng)數(shù),將所有學(xué) 生的行為特征數(shù)據(jù)組成大小為DXN的行為特征矩陣U; S5.2:求取行為特征矩陣U的協(xié)方差矩陣C; S5.3:求取協(xié)方差矩陣C的特征值以及對應(yīng)的特征向量,然后按照對應(yīng)特征值從大到小 將特征向量從上到下按行排列成矩陣,取前K行組成特征向量矩陣P,K的數(shù)值根據(jù)實(shí)際需要 進(jìn)行設(shè)置; S5.4:計算降維后學(xué)生的行為特征矩陣Q = PU,矩陣Q中第i列即為經(jīng)過降維后第i個學(xué) 生的行為特征向量V i。5. 根據(jù)權(quán)利要求4所述的學(xué)生排名預(yù)測排名方法,其特征在于,所述步驟參數(shù)K的取值 范圍
【文檔編號】G06Q10/04GK105894119SQ201610207978
【公開日】2016年8月24日
【申請日】2016年4月5日
【發(fā)明人】楊磊, 聶敏, 夏虎
【申請人】成都尋道科技有限公司