Ii型糖尿病發(fā)病概率分層預(yù)測(cè)方法

文檔序號(hào)：6588275閱讀：619來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：Ii型糖尿病發(fā)病概率分層預(yù)測(cè)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種II型糖尿病發(fā)病概率分層預(yù)測(cè)方法，屬于生物信息處理技術(shù)領(lǐng)域。
背景技術(shù)：
II型糖尿病是由遺傳因素和環(huán)境因素長(zhǎng)期相互作用而引起的臨床綜合征，可導(dǎo)致心臟、腦血管、腎功能、眼睛下肢等多器官并發(fā)癥發(fā)生，具有很高的致殘率，甚至很多在確診糖尿病之前就已經(jīng)出現(xiàn)了并發(fā)癥。因此，對(duì)于II型糖尿病控制，關(guān)鍵是預(yù)防，即在糖尿病發(fā)生以前通過(guò)生活方式和飲食等干預(yù)，從而避免或者延緩糖尿病的發(fā)生，也是目前控制II型糖尿病最有效、最經(jīng)濟(jì)的方法。II型糖尿病發(fā)病概率分層預(yù)測(cè)需要解決2個(gè)基本問(wèn)題:1.如何提取與II型糖尿病發(fā)病緊密相關(guān)的關(guān)鍵屬性，提高發(fā)病概率預(yù)測(cè)的準(zhǔn)確性；2.如何根據(jù)關(guān)鍵屬性合理的預(yù)測(cè)個(gè)體發(fā)病概率。綜觀現(xiàn)有II型糖尿病發(fā)病概率預(yù)測(cè)方法，通常使用的方法有:1.在關(guān)鍵屬性提取方面:根據(jù)算法原理一般分為過(guò)濾法和包裝法，過(guò)濾法一般包括以下方法:(I)Relief方法:該方法是根據(jù)統(tǒng)計(jì)相關(guān)性標(biāo)準(zhǔn)提取關(guān)鍵屬性，根據(jù)特征值的區(qū)分能力來(lái)評(píng)價(jià)特征的相關(guān)度，即關(guān)鍵屬性應(yīng)該使同類的樣本接近,而使不同類的樣本之間遠(yuǎn)離，基本思想是:對(duì)樣本進(jìn)行抽樣，在根據(jù)抽取的樣本與同類、不同類的兩個(gè)最接近樣本的差異計(jì)算相關(guān)度，從而確定每個(gè)屬性的不同權(quán)重。Relief方法選擇的關(guān)鍵屬性相關(guān)性較強(qiáng)，且能夠處理離散和連續(xù)屬性，但該方法不能消除冗余屬性，且由于計(jì)算樣本間距離將產(chǎn)生較大的時(shí)間開(kāi)銷，無(wú)法滿足高維數(shù)據(jù)關(guān)鍵屬性提取的時(shí)間性能要求。(2)主成分分析方法:該方法研究各個(gè)屬性之間的相關(guān)關(guān)系，將原來(lái)一組具有一定相關(guān)性的屬性，通過(guò)變換成為一組新的屬性集合作為關(guān)鍵屬性，通過(guò)這種變換達(dá)到用較少的新屬性代替原來(lái)較多屬性的目的，并且使新屬性盡可能多保留原來(lái)較多屬性反映的信息。但是主成分分析法涉及到特征方程等矩陣運(yùn)算，算法的時(shí)間消耗不能滿足高維數(shù)據(jù)關(guān)鍵屬性提取的要求。(3)粗糙集方法:該方法是在保持屬性的分類能力下，不斷篩除冗余屬性從而獲得關(guān)鍵屬性集合。粗糙集方法一般根據(jù)差別矩陣、屬性重要度或JOHNSON約簡(jiǎn)方法，通過(guò)屬性依賴程度的不同消除對(duì)分類結(jié)果影響較低的屬性，達(dá)到提取關(guān)鍵屬性的目的。雖然該方法可以有效地刪除不相關(guān)屬性，但沒(méi)有考慮噪聲數(shù)據(jù)的影響，并且計(jì)算效率低。(4)信息熵方法:該方法主要用于信息理論中分析信息不確定度，也可用作屬性作用度的評(píng)價(jià)，即關(guān)鍵屬性提取。其基本思想是根據(jù)計(jì)算信息增益等方法劃分?jǐn)?shù)據(jù)，并從新計(jì)算劃分后的數(shù)據(jù)增益，典型方法有ID3和C4.5，但該方法時(shí)間復(fù)雜度高。(5)遺傳算法:該方法將解表示為以二進(jìn)制串編碼的“染色體”，在執(zhí)行算法前，給出假設(shè)解的“染色體”，然后把這些假設(shè)解置于具體問(wèn)題也即“環(huán)境”中，按照一定原則從中選擇出較適應(yīng)環(huán)境的編碼串模擬生物遺傳過(guò)程的復(fù)制、交叉、變異產(chǎn)生更適應(yīng)環(huán)境的新一代。依此進(jìn)化，最后就會(huì)逐漸收斂到最適應(yīng)環(huán)境的一個(gè)編碼串上，也即最優(yōu)解。通過(guò)該過(guò)程即可提取關(guān)鍵屬性。但該方法需要不停迭代計(jì)算，算法時(shí)間復(fù)雜度高，在關(guān)鍵屬性提取中很少應(yīng)用。包裝法:該方法將學(xué)習(xí)算法作為測(cè)試用的黑盒子，利用相關(guān)的學(xué)習(xí)算法對(duì)屬性子集進(jìn)行評(píng)價(jià)，其主要思想是用訓(xùn)練數(shù)據(jù)和相應(yīng)的學(xué)習(xí)算法訓(xùn)練一個(gè)分類模型，然后用測(cè)試數(shù)據(jù)來(lái)評(píng)估這個(gè)分類器的分類準(zhǔn)確率，通過(guò)迭代提取關(guān)鍵屬性，同時(shí)能夠發(fā)現(xiàn)比較適合的學(xué)習(xí)算法以及算法的相關(guān)參數(shù)設(shè)定值。包裝法優(yōu)點(diǎn)是對(duì)學(xué)習(xí)算法的支持度高，缺點(diǎn)是該模型需要耗費(fèi)大量的時(shí)間進(jìn)行學(xué)習(xí)和訓(xùn)練，時(shí)間復(fù)雜度高，效率低，不適用于學(xué)習(xí)算法經(jīng)常變動(dòng)的情況。2.在發(fā)病概率預(yù)測(cè)方面:(I)多元回歸多元回歸模型是應(yīng)用較廣泛的一種建模方法，既可以橫斷面資料用于群體水平糖尿病危險(xiǎn)因素的探索，也可以隊(duì)列資料用于個(gè)體水平糖尿病的發(fā)病風(fēng)險(xiǎn)的預(yù)測(cè)上。利用logistic回歸建立糖尿病個(gè)體水平預(yù)測(cè)模型對(duì)資料的要求比較寬松。模型因變量是發(fā)生糖尿病和不發(fā)生糖尿病概率之比的自然對(duì)數(shù)，很容易獲得未來(lái)一定時(shí)間發(fā)生糖尿病或者某種并發(fā)癥的概率；自變量可以是分類資料也可以是連續(xù)變量。⑵決策樹(shù)決策樹(shù)模型是對(duì)偶然事件或者按照時(shí)間順序列出所有由此引發(fā)的不同結(jié)果繪制成圖形，由于這個(gè)圖形就像一棵樹(shù)干，故稱為決策樹(shù)。每一個(gè)偶然事件都分配一個(gè)概率，這種概率是靜態(tài)概率，也是決策樹(shù)的缺點(diǎn)所在。所以決策樹(shù)只是一種決策方法，或者說(shuō)是一種建模思路，一般并不單獨(dú)用于模型的建立，而是用其他建模方法，按照決策樹(shù)的思路建立一個(gè)混合模型。⑶Cox比例風(fēng)險(xiǎn)在糖尿病相關(guān)預(yù)測(cè)模型中，Cox比例風(fēng)險(xiǎn)模型應(yīng)用于糖尿病發(fā)病風(fēng)險(xiǎn)評(píng)估，糖尿病并發(fā)癥風(fēng)險(xiǎn)評(píng)估和糖尿病死亡率評(píng)估等。Cox比例風(fēng)險(xiǎn)模型能有效利用結(jié)局變量所經(jīng)歷的時(shí)間信息，可以分析刪失數(shù)據(jù)，比較符合隊(duì)列研究的實(shí)際情況。利用Cox比例風(fēng)險(xiǎn)模型獲得相關(guān)變量的RR值后，轉(zhuǎn)化形成危險(xiǎn)評(píng)分，避免了數(shù)學(xué)公式推廣應(yīng)用的局限性，任何一個(gè)人用評(píng)分規(guī)則對(duì)模型變量進(jìn)行評(píng)分，就可以獲得今后若干年的糖尿病發(fā)病概率。無(wú)論是普通居民還是專業(yè)人士均可以輕松做出自己未來(lái)患糖尿病的概率，進(jìn)而采取相應(yīng)措施。在用Cox比例風(fēng)險(xiǎn)模型建立糖尿病發(fā)病概率、糖尿病并發(fā)癥發(fā)病概率或者是成本效益分析時(shí)，要求連續(xù)觀察，確定每一觀測(cè)對(duì)象的結(jié)局，并計(jì)算相應(yīng)的人年數(shù)，應(yīng)用該法建立模型，對(duì)數(shù)據(jù)要求高，追蹤時(shí)間不宜過(guò)短，成本較高。(4)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是20世紀(jì)80年代中期基于大腦和神經(jīng)系統(tǒng)研究而建立的一種計(jì)算模型，由許多并行計(jì)算、功能簡(jiǎn)單的單元按照一定的層次排列組成，具有很強(qiáng)的自組織、自適應(yīng)和容錯(cuò)能力等特征，在處理非線性問(wèn)題上，具有獨(dú)特的優(yōu)越性，廣泛應(yīng)用于糖尿病等慢性病的預(yù)測(cè)，但是人工神經(jīng)網(wǎng)絡(luò)建模復(fù)雜，且規(guī)則不易理解。(5)阿基米德預(yù)測(cè)法阿基米德模型是一個(gè)通過(guò)模擬生物器官來(lái)對(duì)“人”進(jìn)行模擬。人的模型是利用一組方程，可以表征人類的所有相關(guān)的生理系統(tǒng)活動(dòng)；并且阿基米德模型還可以模擬個(gè)體生理、疾病、干預(yù)和衛(wèi)生保健，它用一組方程去描述疾病和相關(guān)并發(fā)癥的生理工作方式。阿基米德模型可以預(yù)測(cè)糖尿病、冠心病、心肌收縮等13種疾病的發(fā)病概率，并且經(jīng)過(guò)驗(yàn)證，達(dá)到很好的預(yù)測(cè)效果。阿基米德模型與其他預(yù)測(cè)模型的不同之處:1)它是一個(gè)針對(duì)個(gè)體的模擬方法，而不是所有的人用同一個(gè)模型；2)它需要很多的生物細(xì)節(jié)，包括:治療過(guò)程、資源和治療開(kāi)銷等；3)它在時(shí)間上面是連續(xù)的，而不是離散化的；4)它能模擬很多的疾病，包括II型糖尿病和它的并發(fā)癥。雖然阿基米德模型可以預(yù)測(cè)多年以后糖尿病的發(fā)病概率，但是需要大量的臨床數(shù)據(jù)去建立模型。在公開(kāi)的21個(gè)方程中涉及的變量就超過(guò)30個(gè)，并且許多變量都是領(lǐng)域性比較強(qiáng)的屬性，一般人很難獲取。由于醫(yī)學(xué)數(shù)據(jù)中同一個(gè)人長(zhǎng)期的跟蹤數(shù)據(jù)是比較少的，如果能夠根據(jù)小數(shù)據(jù)集的跟蹤數(shù)據(jù)就可以預(yù)測(cè)多年的糖尿病發(fā)病概率，則對(duì)糖尿病的干預(yù)和控制有重要實(shí)際應(yīng)用價(jià)值。糖尿病相關(guān)預(yù)測(cè)模型的建立方法較多，除了上述幾種主要方法外，也有人用可加模型、Gompertzm模型和模糊模型建立了糖尿病、糖尿病并發(fā)癥發(fā)生概率的預(yù)測(cè)模型。甚至在缺乏隊(duì)列數(shù)據(jù)的情況下有人采用文獻(xiàn)查閱和專家經(jīng)驗(yàn)相結(jié)合，根據(jù)哈佛癌癥風(fēng)險(xiǎn)評(píng)估方
法建立。綜上所述，對(duì)于II型糖尿病的預(yù)測(cè)這一應(yīng)用場(chǎng)景，現(xiàn)有的預(yù)測(cè)方法都是將人群初始時(shí)刻視為相同健康狀況，但是不同人群初始風(fēng)險(xiǎn)等級(jí)是不同的。而且現(xiàn)有預(yù)測(cè)技術(shù)的預(yù)測(cè)準(zhǔn)確率不夠理想，模型過(guò)于復(fù)雜，解釋性較差。

發(fā)明內(nèi)容
本發(fā)明的目的是解決預(yù)測(cè)個(gè)體和人群N年以后II型糖尿病發(fā)病概率的問(wèn)題，提出一種基于馬爾科夫鏈的II型糖尿病發(fā)病概率分層預(yù)測(cè)方法。本發(fā)明的設(shè)計(jì)原理為根據(jù)II型糖尿病風(fēng)險(xiǎn)等級(jí)判定標(biāo)準(zhǔn)，將人群分層處理；再對(duì)不同風(fēng)險(xiǎn)等級(jí)人群采用包裝法進(jìn)行屬性選擇，選擇出與II型糖尿病發(fā)病密切相關(guān)的8維發(fā)病危險(xiǎn)屬性；然后利用樸素貝葉斯算法，根據(jù)8維發(fā)病危險(xiǎn)屬性計(jì)算出個(gè)體初始發(fā)病概率；個(gè)體初始發(fā)病概率與單步轉(zhuǎn)移矩陣構(gòu)建馬爾可夫鏈，從而建立針對(duì)不同風(fēng)險(xiǎn)等級(jí)人群的II型糖尿病發(fā)病概率預(yù)測(cè)系統(tǒng)。本發(fā)明在進(jìn)一步提升II型糖尿病發(fā)病概率預(yù)測(cè)準(zhǔn)確率的同時(shí)，可以根據(jù)不同個(gè)體輸入的數(shù)據(jù)選擇對(duì)應(yīng)風(fēng)險(xiǎn)等級(jí)的預(yù)測(cè)模型，預(yù)測(cè)N年內(nèi)的發(fā)病概率。本發(fā)明的技術(shù)方案是通過(guò)如下步驟實(shí)現(xiàn)的:步驟1，發(fā)病風(fēng)險(xiǎn)狀態(tài)判定。具體方法如下:為了實(shí)現(xiàn)對(duì)未患病人群S進(jìn)行發(fā)病概率預(yù)測(cè)，本發(fā)明首先對(duì)未患II型糖尿病的人群進(jìn)行發(fā)病風(fēng)險(xiǎn)狀態(tài)的判定，將人群劃分為無(wú)風(fēng)險(xiǎn)、低中風(fēng)險(xiǎn)、和高風(fēng)險(xiǎn)3個(gè)風(fēng)險(xiǎn)等級(jí)。并且無(wú)風(fēng)險(xiǎn)、低中風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)作為數(shù)據(jù)的分類的類別變量，在本文中分別使用0，I和2表
/Jn ο步驟2，在步驟I的基礎(chǔ)上，求解初始狀態(tài)向量。具體過(guò)程如下:步驟2.1，首先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行屬性選擇，具體方法為:輸入經(jīng)過(guò)RSD處理以后的數(shù)據(jù)，運(yùn)用包裝法作為屬性選擇算法，采用樸素貝葉斯算法作為包裝法中的學(xué)習(xí)算法，選擇出N維關(guān)鍵屬性。步驟2.2，在步驟2.1的基礎(chǔ)上，將屬性選擇輸出的N維屬性作為求解初始狀態(tài)向量的輸入，采用樸素貝葉斯算法，求解初始狀態(tài)向量。基于樸素貝葉斯求解初始狀態(tài)向量的具體方法為:首先設(shè)初始狀態(tài)空間為:0，1，2分別代表無(wú)風(fēng)險(xiǎn)、低中風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)狀態(tài)。步驟2.2.1，計(jì)算先驗(yàn)概率
權(quán)利要求
1.一種II型糖尿病發(fā)概率分層預(yù)測(cè)方法，其特征在于，包括如下步驟: 步驟1，將N個(gè)被評(píng)估對(duì)象作為樣本集S，其中每個(gè)對(duì)象包含M個(gè)影響2型糖尿病發(fā)病的關(guān)鍵屬性；將關(guān)鍵屬性作為列，不同樣本對(duì)應(yīng)的屬性值作為行，建立樣本集S的矩陣表示[s(a+c)b];采用包裝法中樸素貝葉斯學(xué)習(xí)算法對(duì)樣本集進(jìn)行屬性選擇，選擇出影響II型糖尿病發(fā)病的J維屬性。
步驟2，求解初始狀態(tài)向量。具體過(guò)程如下: 步驟2.1，利用風(fēng)險(xiǎn)狀態(tài)判定系統(tǒng)對(duì)人群進(jìn)行風(fēng)險(xiǎn)狀態(tài)判定，判定為無(wú)風(fēng)險(xiǎn)、低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)或高風(fēng)險(xiǎn)4個(gè)風(fēng)險(xiǎn)等級(jí)中的一種?；谀Ｐ蛷?fù)雜程度的考慮，將低風(fēng)險(xiǎn)和中風(fēng)險(xiǎn)人群合并，統(tǒng)稱為低中風(fēng)險(xiǎn)人群，并且無(wú)風(fēng)險(xiǎn)、低中風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)作為數(shù)據(jù)的分類的類別變量，在本文中分別使用類別Ci(0、1、2)表示。
步驟2.2，在步驟2.1的基礎(chǔ)上，將屬性選擇輸出的J維屬性作為求解初始狀態(tài)向量的輸入，基于樸素貝葉斯算法，求解初始狀態(tài)向量。具體方法為: 步驟2.2.1，計(jì)算先驗(yàn)概率
2.根據(jù)權(quán)利要求1所述的II型糖尿病發(fā)病概率分層預(yù)測(cè)方法，其特征在于:步驟2.2.4,計(jì)算初始狀態(tài)向量P (Ci IX)。
樸素貝葉斯分類算法，把記錄X分到它所作用總的程度最大的類別中去。也就是分到P(CiIX)最大的類別Ci中去。具體計(jì)算公式如下所示:
3.根據(jù)權(quán)利要求1所述的II型糖尿病發(fā)病概率分層預(yù)測(cè)方法，其特征在于:步驟3，求解一步狀態(tài)轉(zhuǎn)移矩陣。
認(rèn)為馬爾科夫鏈中的一個(gè)吸收態(tài)。結(jié)合算法原理和狀態(tài)轉(zhuǎn)移兩部分的介紹，我們可以得到以下結(jié)論，經(jīng)過(guò)風(fēng)險(xiǎn)狀態(tài)判定以后經(jīng)過(guò)統(tǒng)計(jì)分析可以得到各個(gè)風(fēng)險(xiǎn)等級(jí)的m步轉(zhuǎn)移矩陣如下式所示:
4.根據(jù)權(quán)利要求1所述的II型糖尿病發(fā)病概率分層預(yù)測(cè)方法，其特征在于:在步驟2和3的基礎(chǔ)上，即在已知初始狀態(tài)向量和一步狀態(tài)轉(zhuǎn)移矩陣的情況下構(gòu)建馬爾科夫鏈?zhǔn)剑錁?gòu)建的公式如下式所示。Pn = P0XQn 式中，Ptl是初始狀態(tài)向量，Q是一步狀態(tài)轉(zhuǎn)移矩陣，η表示轉(zhuǎn)移的次數(shù)。
全文摘要
本發(fā)明涉及一種II型糖尿病發(fā)病概率分層預(yù)測(cè)方法，屬于生物信息處理技術(shù)領(lǐng)域。本發(fā)明首先對(duì)Ⅱ型糖尿病人群進(jìn)行風(fēng)險(xiǎn)等級(jí)判定，然后對(duì)不同風(fēng)險(xiǎn)等級(jí)人群采用包裝法進(jìn)行屬性選擇，選擇出關(guān)鍵發(fā)病危險(xiǎn)屬性；然后利用樸素貝葉斯算法，計(jì)算出個(gè)體初始發(fā)病概率；個(gè)體初始發(fā)病概率與單步轉(zhuǎn)移矩陣構(gòu)建馬爾可夫鏈，從而建立針對(duì)不同風(fēng)險(xiǎn)等級(jí)人群的Ⅱ型糖尿病發(fā)病概率預(yù)測(cè)系統(tǒng)。與現(xiàn)有技術(shù)相比，本發(fā)明在進(jìn)一步提升II型糖尿病發(fā)病概率預(yù)測(cè)準(zhǔn)確率的同時(shí)，可以根據(jù)不同個(gè)體輸入的數(shù)據(jù)選擇對(duì)應(yīng)風(fēng)險(xiǎn)等級(jí)的預(yù)測(cè)模型，預(yù)測(cè)多年內(nèi)的發(fā)病概率，處理速度快。能夠達(dá)到對(duì)Ⅱ型糖尿病早發(fā)現(xiàn)、早重視、提前干預(yù)，降低(或延緩)Ⅱ型糖尿病發(fā)生的目的。
文檔編號(hào)G06Q10/04GK103150611SQ20131007385
公開(kāi)日2013年6月12日申請(qǐng)日期2013年3月8日優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 趙海秀, 潘麗敏, 郭偉東, 張鐵梅申請(qǐng)人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅森林;趙海秀;潘麗敏;郭偉東;張鐵梅
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

治療糖尿病最好方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

Ii型糖尿病發(fā)病概率分層預(yù)測(cè)方法