聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因選擇方法

文檔序號：9489642閱讀：347來源：國知局

聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因選擇方法
【技術領域】
[0001] 本發(fā)明屬于生物醫(yī)學數(shù)據(jù)分析技術領域，涉及一種聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因選擇方法。
【背景技術】
[0002] 目前快速發(fā)展的基因芯片技術具有高通量的優(yōu)勢，它為腫瘤研究提供了一種系統(tǒng) 性的研究手段。腫瘤的病因復雜，涉及基因組水平、基因調控水平和表觀遺傳水平的改變，利用傳統(tǒng)的方法難以全面展開研究，基因芯片技術可以用來區(qū)別多種常見腫瘤的分類標志，用于幫助發(fā)現(xiàn)腫瘤的新分型以及與腫瘤相關的新的疾病生物標記，因此采用基因芯片技術有明顯的優(yōu)勢。
[0003]mRNA表達譜芯片能一次檢測成千上萬個基因的表達值，是最早用于腫瘤研究的基因芯片產品。1999年，Golub等人[1]率先采用mRNA表達譜芯片對白血病的兩種亞型AML 與ALL的分類問題進行了研究。Van't等人[2]將mRNA基因表達譜用于乳腺癌的診斷中，利用包含70個基因的表達譜，區(qū)分預后好和預后差的亞型，效果好于臨床參數(shù)。
[0004] 繼mRNA表達譜芯片之后，microRNA表達譜芯片成為腫瘤新的研究熱點。microRNA 是在真核生物中發(fā)現(xiàn)的一類內源性的具有調控功能的非編碼RNA，其大小長約20~25個核苷酸，microRNA通過阻斷翻譯或誘導靶mRNA降解，在轉錄后水平調芐基因表達，從而精細地調節(jié)多種生物學過程，包括生長發(fā)育、信號轉導、免疫調節(jié)、細胞死亡、細胞凋亡、細胞周期、細胞增殖及腫瘤發(fā)生等。多數(shù)microRNA還具有高度保守性、時序性和組織特異性。人類腫瘤microRNA表達模式與腫瘤診斷、分期、進展、預后及對治療的反應密切相關[3]。
[0005] 在基因芯片技術中，一個眾所周知的問題是其基因的數(shù)目遠遠大于樣品數(shù)量?；?因芯片數(shù)據(jù)具有數(shù)據(jù)量大，樣本數(shù)小（一般小于100)，基因數(shù)量多（一般多于10000)的特點，給后期的數(shù)據(jù)分析和處理帶來很大的挑戰(zhàn)。特征基因選擇是基于基因芯片數(shù)據(jù)分類中的關鍵技術[4-9]?；蜻x擇的目的是消除噪聲基因，將基因數(shù)量減至最小，減少后續(xù)的分類任務中的計算負擔，并提高學習模型的預測性能[7]。此外，一個較小的最優(yōu)基因子集可能包含著腫瘤生物標志物，且它們與某些腫瘤的表型間的生物學關系可以更方便地在后續(xù) 的分子生物學實驗中進行驗證，從而更好地理解腫瘤發(fā)生發(fā)展的分子機制[4, 8]。
[0006] 常見的特征選擇算法有三種[10]，即過濾（Filter)法、纏繞（Wrapper)法和嵌入 (embedded)法。過濾法的評估函數(shù)與分類器無關，過濾法的評價函數(shù)又可以分為距離測度 [11]、信息測度[12]、相關性測度[13]等。盡管使用過濾器的基因選擇方法簡單快速，但它也有幾個不足之處：首先，過濾法中的基因選擇的標準不一定與分類器直接相關；其次，過濾法并沒有考慮到基因之間的相關性，從而降低了所選定的基因在分類器中的有效性；最后，過濾法對于最終確定選擇多少基因并無有力的理論支持，所選擇的基因數(shù)量往往是隨意的。
[0007] 纏繞法[14, 15]采用分類器的分類錯誤率或正確率作為評價函數(shù)，纏繞法模式的基因選擇方法在某種程度上可以克服過濾法的上述問題。在纏繞法模式的基因選擇方法中，基因逐個順序選擇，并以優(yōu)化分類器準確度的方式進行。也就是說，首先使用單個基因訓練分類器，并逐個加入新的基因到訓練分類器；該過程持續(xù)進行，直到分類器具有足夠高的準確度。與過濾器模式相反，纏繞法模式的基因選擇方法采取為特定分類器"量身訂做" 的方式。此外，該方法確保新加入的基因與已經(jīng)選擇的基因是互補的，而不是相關的。該方法還提供了一個停止條件，當選擇的基因數(shù)量達到所需的準確度時，計算終止。然而，該方法的一個主要缺點是，其對計算的要求是比較高，特別是當原始的基因集所含基因數(shù)目比較大的情況下。
[0008] 嵌入法[5]考慮到分類器的內部特征（比如支持向量機分類器里的支持向量），能與分類器較好地耦合，從而具有較高的精確度，但同對參與特征選擇的分類器依賴性大，選擇結果適應性差，需要檢驗選擇基因對其他分類器的有效性。
[0009] 盡管研究人員大量采用包括mRNA和microRNA表達譜芯片等多種基因芯片工具，試圖揭示腫瘤發(fā)生發(fā)展的分子機制，但為數(shù)眾多的研究往往只是考慮一個平臺的數(shù)據(jù)。比如說，單獨采用mRNA表達譜芯片進行特征基因的選擇，并對腫瘤進行分子分類。然而研究結果顯示，腫瘤相關基因不但相互之間存在調控，構成網(wǎng)絡，而且也受到包括microRNA等非編碼基因的調控。

【發(fā)明內容】

[0010] 本發(fā)明提供了一種聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因選擇方法，解決了現(xiàn)有技術往往只是考慮一個平臺的數(shù)據(jù)，難以從多層面、多角度揭示腫瘤相關的分子生物學改變的缺陷，以及單一平臺對理解腫瘤的發(fā)生、發(fā)展機制以及研發(fā)診斷、判斷預后的分子標志物和治療靶標，難以充分發(fā)揮有效的作用的問題。
[0011] 本發(fā)明的技術方案是，一種聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因選擇方法，按照以下步驟具體實施：
[0012] 步驟1、通過mRNA和microRNA表達譜芯片檢測到大量基因的表達值，采用過濾式特征基因選擇方法對所有基因的相關性進行排序，去除大量的低相關度基因，留下少量與腫瘤分類密切相關的基因，
[0013] 通過過濾式特征基因選擇方法的選擇實施，分別去除mRNA和microRNA表達譜芯片中大量的低相關度基因，留下少量與腫瘤分類密切相關的基因，分別在mRNA和microRNA 表達譜中選取得分最高的η個基因；
[0014] 步驟2、將采用過濾式特征基因選擇方法獲取的mRNA和microRNA特征基因進行合并，形成基因池U;
[0015] 步驟3、通過遺傳算法，對基因池進一步選擇基因，消除冗余基因，搜索獲得一個最優(yōu)特征的最優(yōu)基因集S，使其具有更少的基因數(shù)量和更好的分類性能。
[0016] 本發(fā)明的有益效果是，本發(fā)明提出了一個聯(lián)合mRNA和microRNA表達譜芯片的混合模型，希望能從多層面、多角度揭示腫瘤相關的分子生物學改變，為理解腫瘤的發(fā)生、發(fā) 展機制以及研發(fā)診斷、判斷預后的分子標志物和治療靶標奠定基礎，具體包括：
[0017] 1)聯(lián)合mRNA和microRNA表達譜芯片各自的優(yōu)勢，獲得了分類準確度更高的基因集；2)獲得的基因集既包含mRNA基因，又包含microRNA基因，便于更進一步分析它們之間的調控關系；3)該方法最終選擇的基因可以被認為是更魯棒性，并且更有資格作為可靠的生物標志物；4)該混合模型已經(jīng)包含過濾法和纏繞法，可以綜合各類基因選擇方法的優(yōu) 勢。
【附圖說明】
[0018] 圖1是本發(fā)明方法的工作原理示意圖。
【具體實施方式】
[0019] 下面結合附圖和【具體實施方式】對本發(fā)明進行詳細說明。
[0020] 參照圖1，本發(fā)明的方法基于聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因選擇混合模型，該模型的設置是，首先，分別使用多重過濾器在mRNA和microRNA表達譜芯片中選擇各自的特征基因，使用多個過濾器的過濾指標，確保在初始過濾階段不會排除掉有用的生物標志物。其次，將獲取的mRNA和microRNA特征基因進行合并，形成基因池。最后，采用遺傳算法，進一步選擇基因，目的是消除冗余基因，搜索一個最佳的子集，使其具有更少的基因數(shù)量和更好的分類性能。
[0021] 該（腫瘤特征基因選擇混合模型）的設置特征是，
[0022] 首先是過濾法選擇，設定η=每個過濾器選擇的基因數(shù)目：
[0023] 采用不同過濾器R，分別計算mRNA和microRNA表達譜芯片原始基因集中所有基因的得分并排序，選取得分最高的η個基因。
[0024] 其次、將不同過濾器獲得的基因進行合并，得到合并基因集U。
[0025] 最后、采用遺傳算法，對合并基因集U進一步選擇。
[0026] 輸入：將合并基因集U作為訓練數(shù)據(jù)集，該訓練數(shù)據(jù)集中包含特征數(shù)ηι，采用遺傳算法訓練包含特征數(shù)&的訓練數(shù)據(jù)集，遺傳算法的具體過程如下：
[0027] 1)編碼方案。每個個體都是由叫位二進制字符串編碼，其中"1"代表選擇相應的基因，而表示未選擇。
[0028] 2)適應度函數(shù)。適應度函數(shù)用來最大限度地減少分類錯誤率，由一個SVM分類器評估一個群體中每個個體的分類錯誤率。
[0029] 3)遺傳算子，以輪盤賭選擇算子為選擇算子，采用一點交叉算子作為交叉算子，并用位點變異算子作為變異算子。
[0030] 輸出最優(yōu)基因

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：李小波;
技術所有人：麗水學院;
我是此專利的發(fā)明人

上一篇：一種參考基因組上基因序列片段的快速比對定位方法
上一篇：一種用于預測癌癥病人預后相關的蛋白質對的方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因選擇方法