一種基于特征提取算法的數(shù)據(jù)特征分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于臨床數(shù)據(jù)檢測和數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體涉及是一種基于特征提取算 法的數(shù)據(jù)特征分類方法。
【背景技術(shù)】
[0002] 在現(xiàn)代任何一家醫(yī)院,重癥監(jiān)護(hù)病房(I⑶,IntensiveCareUnit)都是死亡率最 高的部分(8-19%)。因此,實(shí)時檢測重癥監(jiān)護(hù)病房中病人的生命體征,并對其生命體征中 的心率和血氧飽和濃度進(jìn)行特征提取和分析,在防止ICU病人的病情突然惡化甚至是死亡 方面起著重要作用。
[0003] 研宄發(fā)現(xiàn),由于生物系統(tǒng)的特質(zhì),實(shí)時臨床數(shù)據(jù)具有一些獨(dú)特的功能。現(xiàn)有技術(shù)中 對臨床數(shù)據(jù)進(jìn)行分析時存在兩個主要問題:首先,在建立模型時往往只考慮病人的一個重 要體征,而這難以對多個時間序列進(jìn)行分析;其次,時間序列數(shù)據(jù)中包含著豐富的信息,對 單一時間序列來講,有一階,二階時間序列特征,還有一些復(fù)雜的特征,如趨勢波動分析,頻 譜分析,近似熵等,然而這些特征沒有被充分利用。
[0004] 針對這種情況,本發(fā)明提供了一種基于特征提取算法的數(shù)據(jù)特征分類方法,包括 以下步驟:首先,收集正常人的生命體征數(shù)據(jù),并構(gòu)建成數(shù)據(jù)庫N存儲;其次,收集病人的生 命體征數(shù)據(jù)S-I;然后,從數(shù)據(jù)庫N中選取與收集的病人生命體征數(shù)據(jù)S-I相匹配的正常人 的生命體征數(shù)據(jù)N-1,引入特征提取算法,從病人生命體征數(shù)據(jù)S-I的時間特征序列中提取 出呼吸、心率、血氧飽和度、血壓這四種最有鑒別能力的特征;再次,從提取的全部特征中選 取相應(yīng)的特征子集;最后,用數(shù)據(jù)挖掘算法將選取的特征子集進(jìn)行分類。通過挖掘無線醫(yī)療 設(shè)備檢測的實(shí)時的、高頻率的病人生命體征數(shù)據(jù),在防止病人臨床惡化以及為可能出現(xiàn)的 死亡提供早期預(yù)警方面起了重要作用,適用性強(qiáng),提高了工作效率。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是克服現(xiàn)有技術(shù)中的不足,充分利用時間序列數(shù)據(jù)中的信息,同時 對多個特征數(shù)據(jù)進(jìn)行提取和分類,使診斷更加準(zhǔn)確有效。
[0006] 為此,本發(fā)明提供了一種基于特征提取算法的數(shù)據(jù)特征分類方法,包括如下步 驟:
[0007] 步驟一、收集正常人的生命體征數(shù)據(jù),并構(gòu)建成數(shù)據(jù)庫N存儲,通過無線醫(yī)療監(jiān)控 系統(tǒng)收集實(shí)時的、高頻率的正常人的生命體征數(shù)據(jù);
[0008] 步驟二、收集病人的生命體征數(shù)據(jù)S-1,通過無線醫(yī)療監(jiān)控系統(tǒng)收集實(shí)時的、高頻 率的病人的生命體征數(shù)據(jù);
[0009] 步驟三、從數(shù)據(jù)庫N中選取與收集的病人的生命體征數(shù)據(jù)S-I相匹配的正常人的 生命體征數(shù)據(jù)N-1,引入特征提取算法,從病人的生命體征數(shù)據(jù)S-I的時間特征序列中提取 出呼吸、心率、血氧飽和度、血壓這四種最具有鑒別能力的特征;
[0010] 步驟四、從提取的全部特征中選取相應(yīng)的組合特征子集;
[0011] 步驟五、用數(shù)據(jù)挖掘算法將選擇出的特征子集進(jìn)行分類。
[0012] 上述一種基于特征提取算法的數(shù)據(jù)特征分類方法,所述步驟三的特征提取算法包 括如下步驟:
[0013] (3. 1)用趨勢波動分析算法獲取病人的生命體征數(shù)據(jù)S-I與正常人的生命體征數(shù) 據(jù)N-I的線性擬合特征數(shù)據(jù);
[0014] 設(shè)時間序列為{x(i)},1彡i彡N,定標(biāo)指數(shù)的計算過程如下:
[0015] (3.L1)構(gòu)造去均值的和序列:
【主權(quán)項(xiàng)】
1. 一種基于特征提取算法的數(shù)據(jù)特征分類方法,其特征在于,包括如下步驟: 步驟一、收集正常人的生命體征數(shù)據(jù),并構(gòu)建成數(shù)據(jù)庫N存儲; 步驟二、收集病人的生命體征數(shù)據(jù)S-I; 步驟三、從數(shù)據(jù)庫N中選取與收集的病人的生命體征數(shù)據(jù)S-I相匹配的正常人的生命 體征數(shù)據(jù)N-1,引入特征提取算法,從病人的生命體征數(shù)據(jù)S-I的時間特征序列中提取出呼 吸、心率、血氧飽和度、血壓這四種最有鑒別能力的特征; 步驟四、從提取的全部特征中選取相應(yīng)的組合特征子集; 步驟五、用數(shù)據(jù)挖掘算法將選擇出的特征子集進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的一種基于特征提取算法的數(shù)據(jù)特征分類方法,其特征在于: 所述步驟三的特征提取算法包括如下步驟: (3. 1)用趨勢波動分析算法獲取病人的生命體征數(shù)據(jù)S-I與正常人的生命體征數(shù)據(jù)N-I的線性擬合特征數(shù)據(jù); (3. 2)用近似熵算法描述數(shù)據(jù)的復(fù)雜度特征; (3. 3)用頻譜分析算法提取數(shù)據(jù)的能量普特征; (3.4) 用分析數(shù)據(jù)的一階特征算法提取數(shù)據(jù)的均值、標(biāo)準(zhǔn)差、偏度、和峰度特征; (3.5) 用分析數(shù)據(jù)的二階特征算法提取時間序列內(nèi)部的共生關(guān)系特征:熵、慣性系數(shù)、 相關(guān)系數(shù)和局部同質(zhì)性; (3. 6)用時間序列間的特征算法提取數(shù)據(jù)的線性相關(guān)系數(shù)和互相關(guān)系數(shù)。
3. 根據(jù)權(quán)利要求1所述的一種基于特征提取算法的數(shù)據(jù)特征分類方法,其特征在于: 所述步驟四的特征子集的選取包括如下步驟: (4. 1)用完全搜索(Complete),啟 發(fā)式搜索(Heuristic),隨機(jī)搜索(Random) 3大類搜索算法從步驟三獲得的特征全集 中產(chǎn)生出一個特征子集; (4.2)用篩選器(Filter)、封裝器(Wrapper)兩大類評價函數(shù)對該特征子集進(jìn)行評 價; (4. 3)將評價的結(jié)果與特征選擇的評價標(biāo)準(zhǔn)(停止準(zhǔn)則)AUC,F(xiàn)-score進(jìn)行比較,若 評價結(jié)果符合停止準(zhǔn)則就停止,否則就繼續(xù)產(chǎn)生下一組特征子集,繼續(xù)對特征子集進(jìn)行評 價; (4.4)驗(yàn)證選出來的特征子集的有效性。
4. 根據(jù)權(quán)利要求1所述的一種基于特征提取算法的數(shù)據(jù)特征分類方法,其特征在于: 所述步驟五、用數(shù)據(jù)挖掘算法對選擇出的特征子集進(jìn)行分類,包括如下步驟: (5. 1)將邏輯回歸模型準(zhǔn)確度、敏感度和AUC作為評價系統(tǒng)分類性能的準(zhǔn)則; (5. 2)引入特征選擇和探索性下采樣,對選出的特征子集進(jìn)行分類。 (5. 3)考慮到數(shù)據(jù)類間的不平衡性,再將探索性下采樣引入系統(tǒng)中來提高分類效果。
【專利摘要】本發(fā)明屬于臨床數(shù)據(jù)檢測和數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體涉及是一種基于特征提取算法的數(shù)據(jù)特征分類方法,包括以下步驟:首先,收集并構(gòu)建正常人的生命體征數(shù)據(jù)庫N;其次,收集病人的生命體征數(shù)據(jù)S-1;然后,從數(shù)據(jù)庫N中選取與收集的病人生命體征數(shù)據(jù)S-1相匹配的正常人的生命體征數(shù)據(jù)N-1,引入特征提取算法,從病人生命體征數(shù)據(jù)S-1的時間特征序列中提取出最有鑒別能力的特征;再次,從提取的全部特征中選取相應(yīng)的特征子集;最后,用數(shù)據(jù)挖掘算法將選取的特征子集進(jìn)行分類。該方法,通過挖掘無線醫(yī)療設(shè)備檢測的實(shí)時的、高頻率的病人生命體征數(shù)據(jù),防止病人臨床惡化的同時為出現(xiàn)的死亡提供早期預(yù)警,適用性強(qiáng),提高了工作效率。
【IPC分類】G06F17-30
【公開號】CN104765846
【申請?zhí)枴緾N201510184753
【發(fā)明人】閆允一, 閆長虎, 郭寶龍, 孟繁杰
【申請人】西安電子科技大學(xué)
【公開日】2015年7月8日
【申請日】2015年4月17日