聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因選擇方法
【技術領域】
[0001] 本發(fā)明屬于生物醫(yī)學數(shù)據(jù)分析技術領域,涉及一種聯(lián)合mRNA和microRNA表達譜 芯片的腫瘤特征基因選擇方法。
【背景技術】
[0002] 目前快速發(fā)展的基因芯片技術具有高通量的優(yōu)勢,它為腫瘤研究提供了一種系統(tǒng) 性的研究手段。腫瘤的病因復雜,涉及基因組水平、基因調控水平和表觀遺傳水平的改變, 利用傳統(tǒng)的方法難以全面展開研究,基因芯片技術可以用來區(qū)別多種常見腫瘤的分類標 志,用于幫助發(fā)現(xiàn)腫瘤的新分型以及與腫瘤相關的新的疾病生物標記,因此采用基因芯片 技術有明顯的優(yōu)勢。
[0003]mRNA表達譜芯片能一次檢測成千上萬個基因的表達值,是最早用于腫瘤研究的基 因芯片產品。1999年,Golub等人[1]率先采用mRNA表達譜芯片對白血病的兩種亞型AML 與ALL的分類問題進行了研究。Van't等人[2]將mRNA基因表達譜用于乳腺癌的診斷中, 利用包含70個基因的表達譜,區(qū)分預后好和預后差的亞型,效果好于臨床參數(shù)。
[0004] 繼mRNA表達譜芯片之后,microRNA表達譜芯片成為腫瘤新的研究熱點。microRNA 是在真核生物中發(fā)現(xiàn)的一類內源性的具有調控功能的非編碼RNA,其大小長約20~25個核 苷酸,microRNA通過阻斷翻譯或誘導靶mRNA降解,在轉錄后水平調芐基因表達,從而精細 地調節(jié)多種生物學過程,包括生長發(fā)育、信號轉導、免疫調節(jié)、細胞死亡、細胞凋亡、細胞周 期、細胞增殖及腫瘤發(fā)生等。多數(shù)microRNA還具有高度保守性、時序性和組織特異性。人 類腫瘤microRNA表達模式與腫瘤診斷、分期、進展、預后及對治療的反應密切相關[3]。
[0005] 在基因芯片技術中,一個眾所周知的問題是其基因的數(shù)目遠遠大于樣品數(shù)量?;?因芯片數(shù)據(jù)具有數(shù)據(jù)量大,樣本數(shù)小(一般小于100),基因數(shù)量多(一般多于10000)的特 點,給后期的數(shù)據(jù)分析和處理帶來很大的挑戰(zhàn)。特征基因選擇是基于基因芯片數(shù)據(jù)分類中 的關鍵技術[4-9]?;蜻x擇的目的是消除噪聲基因,將基因數(shù)量減至最小,減少后續(xù)的分 類任務中的計算負擔,并提高學習模型的預測性能[7]。此外,一個較小的最優(yōu)基因子集可 能包含著腫瘤生物標志物,且它們與某些腫瘤的表型間的生物學關系可以更方便地在后續(xù) 的分子生物學實驗中進行驗證,從而更好地理解腫瘤發(fā)生發(fā)展的分子機制[4, 8]。
[0006] 常見的特征選擇算法有三種[10],即過濾(Filter)法、纏繞(Wrapper)法和嵌入 (embedded)法。過濾法的評估函數(shù)與分類器無關,過濾法的評價函數(shù)又可以分為距離測度 [11]、信息測度[12]、相關性測度[13]等。盡管使用過濾器的基因選擇方法簡單快速,但它 也有幾個不足之處:首先,過濾法中的基因選擇的標準不一定與分類器直接相關;其次,過 濾法并沒有考慮到基因之間的相關性,從而降低了所選定的基因在分類器中的有效性;最 后,過濾法對于最終確定選擇多少基因并無有力的理論支持,所選擇的基因數(shù)量往往是隨 意的。
[0007] 纏繞法[14, 15]采用分類器的分類錯誤率或正確率作為評價函數(shù),纏繞法模式的 基因選擇方法在某種程度上可以克服過濾法的上述問題。在纏繞法模式的基因選擇方法 中,基因逐個順序選擇,并以優(yōu)化分類器準確度的方式進行。也就是說,首先使用單個基因 訓練分類器,并逐個加入新的基因到訓練分類器;該過程持續(xù)進行,直到分類器具有足夠高 的準確度。與過濾器模式相反,纏繞法模式的基因選擇方法采取為特定分類器"量身訂做" 的方式。此外,該方法確保新加入的基因與已經(jīng)選擇的基因是互補的,而不是相關的。該方 法還提供了一個停止條件,當選擇的基因數(shù)量達到所需的準確度時,計算終止。然而,該方 法的一個主要缺點是,其對計算的要求是比較高,特別是當原始的基因集所含基因數(shù)目比 較大的情況下。
[0008] 嵌入法[5]考慮到分類器的內部特征(比如支持向量機分類器里的支持向量),能 與分類器較好地耦合,從而具有較高的精確度,但同對參與特征選擇的分類器依賴性大,選 擇結果適應性差,需要檢驗選擇基因對其他分類器的有效性。
[0009] 盡管研究人員大量采用包括mRNA和microRNA表達譜芯片等多種基因芯片工具, 試圖揭示腫瘤發(fā)生發(fā)展的分子機制,但為數(shù)眾多的研究往往只是考慮一個平臺的數(shù)據(jù)。比 如說,單獨采用mRNA表達譜芯片進行特征基因的選擇,并對腫瘤進行分子分類。然而研究 結果顯示,腫瘤相關基因不但相互之間存在調控,構成網(wǎng)絡,而且也受到包括microRNA等 非編碼基因的調控。
【發(fā)明內容】
[0010] 本發(fā)明提供了一種聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因選擇方法, 解決了現(xiàn)有技術往往只是考慮一個平臺的數(shù)據(jù),難以從多層面、多角度揭示腫瘤相關的分 子生物學改變的缺陷,以及單一平臺對理解腫瘤的發(fā)生、發(fā)展機制以及研發(fā)診斷、判斷預后 的分子標志物和治療靶標,難以充分發(fā)揮有效的作用的問題。
[0011] 本發(fā)明的技術方案是,一種聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因選 擇方法,按照以下步驟具體實施:
[0012] 步驟1、通過mRNA和microRNA表達譜芯片檢測到大量基因的表達值,采用過濾式 特征基因選擇方法對所有基因的相關性進行排序,去除大量的低相關度基因,留下少量與 腫瘤分類密切相關的基因,
[0013] 通過過濾式特征基因選擇方法的選擇實施,分別去除mRNA和microRNA表達譜芯 片中大量的低相關度基因,留下少量與腫瘤分類密切相關的基因,分別在mRNA和microRNA 表達譜中選取得分最高的η個基因;
[0014] 步驟2、將采用過濾式特征基因選擇方法獲取的mRNA和microRNA特征基因進行合 并,形成基因池U;
[0015] 步驟3、通過遺傳算法,對基因池進一步選擇基因,消除冗余基因,搜索獲得一個最 優(yōu)特征的最優(yōu)基因集S,使其具有更少的基因數(shù)量和更好的分類性能。
[0016] 本發(fā)明的有益效果是,本發(fā)明提出了一個聯(lián)合mRNA和microRNA表達譜芯片的混 合模型,希望能從多層面、多角度揭示腫瘤相關的分子生物學改變,為理解腫瘤的發(fā)生、發(fā) 展機制以及研發(fā)診斷、判斷預后的分子標志物和治療靶標奠定基礎,具體包括:
[0017] 1)聯(lián)合mRNA和microRNA表達譜芯片各自的優(yōu)勢,獲得了分類準確度更高的基因 集;2)獲得的基因集既包含mRNA基因,又包含microRNA基因,便于更進一步分析它們之 間的調控關系;3)該方法最終選擇的基因可以被認為是更魯棒性,并且更有資格作為可靠 的生物標志物;4)該混合模型已經(jīng)包含過濾法和纏繞法,可以綜合各類基因選擇方法的優(yōu) 勢。
【附圖說明】
[0018] 圖1是本發(fā)明方法的工作原理示意圖。
【具體實施方式】
[0019] 下面結合附圖和【具體實施方式】對本發(fā)明進行詳細說明。
[0020] 參照圖1,本發(fā)明的方法基于聯(lián)合mRNA和microRNA表達譜芯片的腫瘤特征基因 選擇混合模型,該模型的設置是,首先,分別使用多重過濾器在mRNA和microRNA表達譜芯 片中選擇各自的特征基因,使用多個過濾器的過濾指標,確保在初始過濾階段不會排除掉 有用的生物標志物。其次,將獲取的mRNA和microRNA特征基因進行合并,形成基因池。最 后,采用遺傳算法,進一步選擇基因,目的是消除冗余基因,搜索一個最佳的子集,使其具有 更少的基因數(shù)量和更好的分類性能。
[0021] 該(腫瘤特征基因選擇混合模型)的設置特征是,
[0022] 首先是過濾法選擇,設定η=每個過濾器選擇的基因數(shù)目:
[0023] 采用不同過濾器R,分別計算mRNA和microRNA表達譜芯片原始基因集中所有基 因的得分并排序,選取得分最高的η個基因。
[0024] 其次、將不同過濾器獲得的基因進行合并,得到合并基因集U。
[0025] 最后、采用遺傳算法,對合并基因集U進一步選擇。
[0026] 輸入:將合并基因集U作為訓練數(shù)據(jù)集,該訓練數(shù)據(jù)集中包含特征數(shù)ηι,采用遺傳 算法訓練包含特征數(shù)&的訓練數(shù)據(jù)集,遺傳算法的具體過程如下:
[0027] 1)編碼方案。每個個體都是由叫位二進制字符串編碼,其中"1"代表選擇相應的 基因,而表示未選擇。
[0028] 2)適應度函數(shù)。適應度函數(shù)用來最大限度地減少分類錯誤率,由一個SVM分類器 評估一個群體中每個個體的分類錯誤率。
[0029] 3)遺傳算子,以輪盤賭選擇算子為選擇算子,采用一點交叉算子作為交叉算子,并 用位點變異算子作為變異算子。
[0030] 輸出最優(yōu)基因