描述的基于歐洲人群組的MGC模型對中國人T2D 受試者的分類具有〇. 58的AUC,而基于中國人群組的模型對歐洲人T2D受試者的分類具有 0. 66的AUC。這些AUC值相比使用特異于和來自特定群體的MGCs時0. 82和0. 83的值要 低得多。
[0037] 因而,本發(fā)明人的工作顯示了在用作T2D宏基因組預測工具的鑒別性宏基因組標 志物方面不同的群體具有差異,例如,就精確度而言,對研究中的不同群體使用不同的標志 物是有益的。另一方面,T2D的預測性宏基因組工具和標志物(例如,在此描述的MGCs)應 當特異于所研究的群體。
[0038] 因而,本發(fā)明提供利用宏基因組簇(MGCs)來鑒定患有或有風險發(fā)生2型糖尿病 (T2D)的個體的模型,其中所述模型的特征在于的不同的人群組使用不同的宏基因組簇。
[0039] 本發(fā)明的模型也可以被當作統(tǒng)計模型、數學模型或算法,本發(fā)明還提供了產生宏 基因組模型的方法,用于鑒定患有或有風險發(fā)生2型糖尿?。═2D)的個體。優(yōu)選地,所述模 型和方法是計算機實現的。
[0040] 優(yōu)選的模型基于MGCs的分析,例如,以MGC分值的形式。然而,對于本發(fā)明的所有 實施方式,模型和方法等等,也可以根據細菌物種的分析來進行,與MGCs的分析相對。
[0041] 本發(fā)明的人群組可以是個體的任何方便的亞群體,就此來說示范性的是年齡、地 理位置、種族/族群、環(huán)境因素例如飲食習慣、以及性別,或其組合。特別優(yōu)選的人群組是基 于年齡、或地理位置、或年齡與地理位置組合、或年齡與種族/族群組合,或年齡與地理位 置和種族/人種組組合。雖然人群組將含有患有T2D的個體,本發(fā)明中使用的人群組在總 體上是一般的和代表性的人群組,因而也含有健康個體。
[0042] 基于年齡的適當的人群組(亞群體)可以由本領域的技術人員適當地選擇。例如, 相關的人群組可以是相對年輕的組,例如,20到39歲或20到44歲的那些(或例如,20到 40、41、42或43歲)。其他相關的人群組是中年組,例如,年齡40歲到59歲或45歲到64 歲(或例如,40或45歲到59、60、61、62、63或64歲)。其他相關的人群組是老年組,例如, 年齡60歲到79歲,65歲到79歲,或60歲及以上(至少60歲),或65歲及以上(至少65 歲)。對本發(fā)明來說,優(yōu)選的人群組是年齡60歲及以上,65歲及以上,68歲及以上,70歲及 以上,或75歲及以上(至少60、65、70或75歲)。作為選擇,可以選定關閉端范圍,例如, 60或65歲到90歲(或89歲),60或65歲到85歲(或84歲),60或65歲到80歲(或 79歲),或60或65歲到75歲(或74歲)年齡的人群組。65歲及以上,以及65歲到90歲 (或89歲),65歲到85歲(或84歲),65歲到80歲(或79歲),或65歲到75歲(或74 歲)的組是優(yōu)選的。作為選擇,優(yōu)選的群體是大于60歲或65歲,等等,任選地有高于其設 置的年齡上限。
[0043] 可以在國家級別(例如,中國,美國,等等)或在大陸級別(例如,亞洲、大洋洲、美 洲、歐洲和非洲)或次級(例如,北方、南方、東方、西方或中部大陸)方便地選擇基于地理 位置的適當的人群組(亞群體)。非限制性實例可以是中國(或一般地,亞洲)或歐洲(例 如,北歐或南歐),等等。
[0044] 適當的人群組(亞群體)也可以根據種族/民族/族群組來劃分。例如,在此描 述的特異性研究的群體全部來自白種人。然而,任何其他種族/民族/族群組可以被選作 人群組(亞群體)用于本發(fā)明。
[0045] 適當的人群組(亞群體)也可以根據環(huán)境因素來選擇。示范性的環(huán)境因素包括但 不限于,飲食習慣,例如,高鹽或低鹽,高糖或低糖,高脂肪或低脂肪,高纖維或低纖維,食物 攝取或膳食。
[0046] 適當的人群組(亞群體)還可以根據性別來選擇,例如,可以是男性亞群體(男 人)或雌性亞群體(女人)。根據性別選擇的人群組形成了本發(fā)明的優(yōu)選的實施方式。在 某些實施方式中例示的人群組和優(yōu)選的人群組由女性/女人組成。
[0047] 適當的人群組(亞群體)還可以根據兩種或更多種上述組的組合來選擇。例如, 優(yōu)選的人群組是基于年齡與地理位置組合、或年齡與種族組合,或年齡與地理位置和種族 組合。其他優(yōu)選的人群組是年齡65歲及以上的,更優(yōu)選的年齡65歲及以上的歐洲人或白 種人群體,最優(yōu)選的年齡65歲及以上的歐洲白種人群體。年齡68歲及以上的群體也是優(yōu) 選的。任選的,所有上述優(yōu)選的組也根據性別的選擇來表征,例如,女性/女人。
[0048] 本發(fā)明的優(yōu)選的和例示的群體(亞群體)是年齡65歲及以上或68歲及以上的歐 洲白種女人。
[0049] 另一個優(yōu)選的群體(亞群體)是年齡40到59歲(或上文給出的可選擇的中年群 體)的亞洲人群體。
[0050] 另一個優(yōu)選的群體(亞群體)是年齡60到79歲(或上文給出的可選擇的老年群 體)的歐洲人群體。
[0051] 另一個優(yōu)選的群體(亞群體)是年齡45到64歲(或上文給出的可選擇的中年群 體)或年齡20到44歲(或上文給出的可選擇的相對年輕的群體)美洲人(例如,美國) 群體。
[0052] 用于輸入預測樽銦的牛物標iP,物的分析
[0053] 對于每個要研究的人群組進行一種或更多種以下分析來產生用于以下模型中的 數據,來測定人(屬于該群體的)發(fā)生T2D或相關代謝狀況或疾病的風險。
[0054] 研究T2D中的腸微牛物群的宏基閔組簇
[0055] 為了鑒定參考基因組的微生物物種獨立性以及完全地利用宏基因組數據中含有 的信息,人們可以進行過濾的序列數據的從頭組裝,首先對每個個體單獨進行,然后在一個 另外的組合件中使用所有未組合的讀取結果來鑒定也為稀有的基因。記錄組合件的總長 度,以及可以用長于例如l〇〇bp的長度來預計的基因的數目。通?;?5%的序列相似性 來將基因聚簇,以創(chuàng)建非冗余的基因目錄,產生群體中的許多微生物基因。
[0056] 這些基因例如MetaHIT基因(II)可以組合到新的基因目錄中,來比對閱讀結果。 假定屬于一個微生物物種的基因將在發(fā)現該物種的樣品中共同發(fā)生,我們通過計算相關系 數分析了至少10個個體中存在的基因(290萬個基因)的共同發(fā)生,然后將它們之中有高 度相關性(Pearsonrho> 0.85)的基因的集合進行聚簇。我們將這些高度相關的基因的 集合定義為宏基因組簇(MGCs)。
[0057] 為了確定MGCs的系統(tǒng)發(fā)生來源,每個簇中的基因相對于NCBInr目錄進行blast, 通過要求通常至少50%的基因具有對同一系統(tǒng)發(fā)生群的最佳命中來確定最低的共同祖先 (LCA)。然后在已知的NGT和T2D樣品中測試最大MGCs(例如,η= 800)的豐度,來尋找在 兩個組之間豐度有差異的一定數量的簇(Adj.Ρ< 0. 05)。
[0058] T2D中的腸微牛物群物種組成
[0059] 為了表征與T2D相關的腸微生物群的組成,分析選定群體的糞便微生物群。利用 分層隨機方法從基于群體的篩選樣品中選擇群組(1^,垃),產生亞群體:患有T2D、IGT或 健康(正常的葡萄糖耐受,NTG)的人。以標準過程(11)提取基因組DNA并測序,優(yōu)選地在 IlluminaHiSeq2000 上測序。
[0060] 為了確定腸微生物群的組成,過濾的Illumina閱讀結果與獲自例如NCBI和HMP 數據庫(hmpdacc.org)的多個非冗余參考基因組進行比對。計算并比較亞群體之間在群組 中最豐富的屬、物種和基因組。
[0061] T2D狀杰可以通討微牛物群來辨別
[0062] 為了使用微生物群組成來鑒定糖尿病狀態(tài),隨機森林(RF)模型(Breiman, Leo(2001). "RandomForests".MachineLearning45(1) :5-32.doi:10)或類似的模型 需要在NGT和T2D受試者的測試集中訓練。在來自同一組的未見過的樣品上評估它的性能, 在接受者操作特性(R0C)分析中對預測能力計分。
[0063] 利用來自上文的宏基因組簇的數據,以及可能地也上文的來自腸微生物群物種組 成的數據,RF模型對于每個物種和MGC產生了代表預測能力的可變的重要性分值。重要性 分值被用于排列物種和MGCs,最重要的那些被用于預測T2D的模型中。物種和MGCs的判別 能力被計算為R0C曲線下的面積(AUC)。
[0064] 因而,本發(fā)明進一步提供利用在此描述的宏基因組簇(MGCs)來鑒定患有或有風 險發(fā)生2型糖尿?。═2D)的個體的模型,其中所述模型的特征在于對在此描述的不同的人 群組使用不同的MGCs,其中模型的構建包括:(i)選擇要研究的人群組;(ii)從所述群體獲 得腸宏基因組序列數據;和(iii)從來自所述群體的全部宏基因組序列數據中鑒定MGCs。
[0065] 步驟⑴到(iii)可以對選定的不同人群組重復進行,其可以對不同的人群組產 生不同的MGCs。
[0066] 與MGCs相對的,相同的步驟同樣可以基于細菌物種的鑒定和分析來進行。
[0067] 一旦根據本發(fā)明鑒定了MGCs(或物種),則來自相關人群組的已知的正常和T2D樣 品可以進行分析和測試,來確定那些MGCs(或物種)在兩個組之間(S卩,正常和T2D樣品之 間)是豐度差異的。進行這一點的適當的和優(yōu)選的方式是使用隨機森林(或類似的)模型, 例如上文描述的。因而,本發(fā)明的再進一步的實施方式提供了在此描述的模型,其中(a)使 用隨機森林或類似模型在正常和T2D樣品的測試集上訓練來產生T2D的預測模型;(b)使 用或產生模型中一系列所述MGCs的重要性分值;以及(c)使用模型中頂端分值的MGCs來 預測T2D。
[0068] 與MGCs相對的,相同的步驟同樣可以基于細菌物種的鑒定和分析來進行。
[0069] 頂端分值的MGCs或物種是在正常和T2D樣品之間最具辨別性的那些(參見,例 如,圖3b和圖3c)。這些步驟可以對研究的不同人群組重復進行,其可以對不同的人群組產 生不同的MGCs(或物種)。
[0070] 本發(fā)明預測T2D的模型中使用的適當數量的頂端分值MGCs(或物種)可以由本領 域技術人員容易地確定,并且將被選擇從而使得T2D的預測模型可以以期望的精確性水平 或預測能力鑒定T2D患者。預測能力優(yōu)選地通過ROCAUC來測量,在這種情況下,期望的 預測能力水平將是處在或約(atorabout)0.60或更高,處在或約0.65或更高,處在或約 0. 70或更高,處在或約0. 75或更高,或處在或約0. 80或更高的ROCAUC值。作為選擇,這 樣的ROCAUC值將是從處在或約0. 60或更高到處在或約0. 80或更高,更優(yōu)選的從處在或 約0. 65或0. 70或更高到處在或約0. 80或更高(例如,當分析MGCs時),或ROCAUC值從 處在或約0. 60或0. 65或更高到處在或約0. 70或0. 75或更高(例如,當在物種水平分析 時)。
[0071] 作為選擇,優(yōu)選的準確性水平將是處在或約60 %到處在或約80 %或更高,更優(yōu)選 的處在或約70 %到處在或約80 %或更高(例如,當分析MGCs時),或處在或約60 %到處在 或約70%或更高(例如,當在物種水平分析時),或其他與上文給出的ROCAUC值相當的值。
[0072] 在圖3a(和表3)中說明了評估要使用的合適數量的MGCs(或物種)的方便的方 法,其中對各種數量的頂端分值MGCs或物種標繪了AUC值,可以看出,對于特定的例舉的群 體,當使用頂端的50個MGCs(0. 83)或使用頂端的238個物種時(AUC= 0. 71)獲得了最高 的AUC值。因而,在本發(fā)明的模型和方法中使用的合適數量的MGCs(或物種)可以容易地 評估,來實現合適的和期望的AUC值(或精確度% )。如實施例中證明的,與已知的風險因 素BMI(AUC= 0· 58)、WHR(AUC= 0· 60)和WC(AUC= 0· 70)相比,根據本發(fā)明通過MGCs確 定的微生物群的組成與T2D更好地相關。重要地,根據MGCs獲得的T2D分值類似于組合了 幾種已知的糖尿病發(fā)生風險因素的其他公開的分值(例如,在幾個國家驗證的FINDRISC分 值⑵)。
[0073] 對每個選定的人群組的MGCs(如在此描述的)可以通過任何適合的方法來鑒定。 然而,在本發(fā)明的優(yōu)選的實施方式中,對每個所述人群組的MGCs通過以下來提供:
[0074] ⑴進行來自腸宏基因組的序列數據(例如,過濾的序列數據)的從頭組裝,首先 對群體的每個個體單獨地進行,然后在一個另外的組合件中使用所有未組合的讀取結果來 鑒定也為稀有的基因;
[0075] (ii)基于序列相似性來將基因聚簇,以創(chuàng)建非冗余的基因目錄,產生群體中的許 多微生物基因;
[0076] (iii)通過計算受試者間的相關系數來分析至少2個個體中存在的基因的共同發(fā) 生,然后將他們之中具有高相關度的基因的集合進行聚簇來提供MGCs。
[0077] 在可選擇的實施方式中,步驟(iii)可以根據至少5、10或20個個體中的共同發(fā) 生來進行。在優(yōu)選的實施方式中,步驟(ii)中的序列相似性是95%,和/或步驟(iii)中 的高相關性是Pearsonrho值> 0. 85。在其他可選擇的實施方式中,可以使用腸數據之外 的宏基因組序列數據(例如,來自口腔宏基因組樣品的序列數據)。
[0078] 在上文的優(yōu)選的實施方式中,研究了MGCs。
[0079] 在T2D的情境下,適合的正常受試者/正常樣品是來自具有NGT的個體的那些 (即,具有正常的葡萄糖耐受),在此也稱為健康的或對照個體或受試者。
[0080] 本發(fā)明的模型可以與任何其他適合的測量或與T2D的鑒定相關的風險因素組合 使用。示范性的其他測量是體重指數(BMI)、腰臀比(WHR)和/或腰圍。其他可能的風險因 素包括年齡、家族史、膳食、固定的生活方式或肥胖,這些的一種或更多種可以同時測量。此 外,顯示了與T2D相關的其他特定的生物標記物可以與本發(fā)明的模型和方法組合地測量或 分析。
[0081] 用于本發(fā)明的宏基因組序列數據可以來自或獲得自任何適當的來源。例如,可以 獲得來自人群組的含有合適宏基因組的樣品,例如糞便(適合于腸宏基因組)或口腔樣品, 之后可以提取基因組DNA,測序,