一種癌癥腫瘤抑制基因簇(tsg)的檢測(cè)方法
【專利摘要】為了能快速準(zhǔn)確的得到對(duì)癌癥發(fā)生起共同作用的腫瘤抑制基因,發(fā)明人設(shè)計(jì)了一套新的方法:首先,通過(guò)模擬隨機(jī)抽樣的方法對(duì)同一區(qū)域內(nèi)的所有基因進(jìn)行兩兩之間的關(guān)系尋找;其次,挑選出有共同發(fā)生關(guān)系的基因;然后,將這些兩兩共同發(fā)生的基因鏈接起來(lái),形成一條鏈,鏈里的基因必須兩兩具有共發(fā)生關(guān)系;最后,結(jié)合樣本的臨床信息及表達(dá)數(shù)據(jù),驗(yàn)證一條鏈中的基因是否對(duì)癌癥的發(fā)生起到了共同的作用,這種共同的作用是否強(qiáng)于單個(gè)基因。
【專利說(shuō)明】
一種癌癥腫瘤抑制基因簇(TSG)的檢測(cè)方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及生物信息領(lǐng)域。更具體而言,本發(fā)明涉及癌癥腫瘤抑制基因簇的檢測(cè)。 【背景技術(shù)】
[0002]—直以來(lái)癌癥發(fā)生的基因突變學(xué)說(shuō)始終占據(jù)癌癥發(fā)生機(jī)制學(xué)說(shuō)的主流。從1982 年鑒定出第一個(gè)可能導(dǎo)致癌癥發(fā)生的人類基因HRAS突變開(kāi)始,癌癥的研究進(jìn)入癌基因跟抑癌基因的探索和鑒定時(shí)代。早期研究主要集中于基因組區(qū)域上的單個(gè)基因突變?cè)谀[瘤發(fā)生過(guò)程起“驅(qū)動(dòng)(Driver) ”的作用,然而近期的研究發(fā)現(xiàn),在基因組上出現(xiàn)大量頻繁發(fā)生缺失突變的腫瘤抑制基因,這些與雜合缺失相關(guān)的缺失突變也會(huì)導(dǎo)致該腫瘤抑制基因周圍基因的活性降低。研究證明基因組上大量頻繁發(fā)生大片段缺失的基因,這些基因傾向于以簇 (cluster)的形式存在(多種基因?qū)Π┌Y的發(fā)生起共同的作用),這種共同的生物調(diào)控作用比單個(gè)基因的作用還要強(qiáng)。大規(guī)?;蚪M上的損傷可以通過(guò)共發(fā)生的癌癥基因的共同作用而起作用,而不是通過(guò)單個(gè)獨(dú)立基因發(fā)生損傷來(lái)起作用,成為癌癥發(fā)生的一種可能的機(jī)制。
[0003]分析得到候選腫瘤抑制基因的過(guò)程并不復(fù)雜,目前的分析方案也較為一致。但是怎樣從大量的候選基因中得到有共同作用的基因是現(xiàn)階段分析的一個(gè)難點(diǎn)。目前的方法主要有兩種,1)通過(guò)使用癌癥的大鼠模型系統(tǒng)和體內(nèi)RNAi等的實(shí)驗(yàn)方法,這種方法耗時(shí)較長(zhǎng),費(fèi)用較高。2)選取已有文獻(xiàn)報(bào)道過(guò)的腫瘤抑制基因,由于人自身存在一定的局限性,篩選出來(lái)的結(jié)果帶有一定的主觀性,而且可能不完整,同時(shí)也需要較多的人力和時(shí)間。
[0004]綜上所述,已有的研究腫瘤抑制基因的方法在前期都會(huì)得到較多的候選基因,從這些基因中挑出真正對(duì)癌癥的發(fā)生具有單一或者共同作用的基因是非常困難的。按照之前文章中報(bào)道過(guò)的方法,需要耗費(fèi)大量的人力物力。因此,本領(lǐng)域急需從大量的候選基因中得到對(duì)癌癥發(fā)生起共同作用的腫瘤抑制基因的方法。
【發(fā)明內(nèi)容】
[0005]為了能快速準(zhǔn)確的得到對(duì)癌癥發(fā)生起共同作用的腫瘤抑制基因,發(fā)明人設(shè)計(jì)了一套新的方法:
[0006]首先,通過(guò)模擬隨機(jī)抽樣的方法對(duì)同一區(qū)域內(nèi)的所有基因進(jìn)行兩兩之間的關(guān)系尋找;
[0007]其次,挑選出有共同發(fā)生關(guān)系的基因;
[0008]然后,將這些兩兩共同發(fā)生的基因鏈接起來(lái),形成一條鏈,鏈里的基因必須兩兩具有共發(fā)生關(guān)系;
[0009]最后,結(jié)合樣本的臨床信息及表達(dá)數(shù)據(jù),驗(yàn)證一條鏈中的基因是否對(duì)癌癥的發(fā)生起到了共同的作用,這種共同的作用是否強(qiáng)于單個(gè)基因。
[0010]本發(fā)明基于全基因組成對(duì)腫瘤樣本的體細(xì)胞CNV(拷貝數(shù)變異)[1]檢測(cè)結(jié)果及轉(zhuǎn)錄組表達(dá)量分析結(jié)果(FPKM)[1]進(jìn)行下游分析。
[0011]因此,本發(fā)明提供了一種獲得對(duì)癌癥發(fā)生起共同作用的腫瘤抑制基因的方法,所述方法包括步驟:
[0012]I)對(duì)于多個(gè)腫瘤患者的腫瘤組織樣本和正常組織樣本,獲得全基因測(cè)序數(shù)據(jù)、轉(zhuǎn)錄組表達(dá)量數(shù)據(jù),以及包括患者生存時(shí)間的臨床信息和基因在所述樣本中的表達(dá)量;
[0013]2)將基因組劃分成多個(gè)子區(qū)域(例如所述子區(qū)域長(zhǎng)度為10K-10M,優(yōu)選10K-1M,更優(yōu)選100K-1M),對(duì)于所述每個(gè)子區(qū)域,用上述全基因組測(cè)序數(shù)據(jù)的CNV檢測(cè)結(jié)果計(jì)算所述多個(gè)樣本中的CNV顯著性(例如采用Gscore值[2]進(jìn)行計(jì)算);
[0014]3)對(duì)CNV顯著變化(例如,對(duì)于采用Gscore值進(jìn)行計(jì)算,Gscore〉= 0.1)的子區(qū)域進(jìn)行延展,挑選出基因組上CNV顯著變化的連續(xù)子區(qū)域,作為缺失區(qū)域;
[0015]4)對(duì)每個(gè)缺失區(qū)域內(nèi)的所有基因,利用所述腫瘤組織樣本和正常組織樣本的轉(zhuǎn)錄組表達(dá)量數(shù)據(jù),挑選出轉(zhuǎn)錄組表達(dá)量在正常組織樣本和腫瘤組織樣本之間有顯著差異(例如成對(duì)秩和檢驗(yàn)P〈0.05)并且下調(diào)的基因,這些基因?yàn)楹蜻x的腫瘤抑制基因;
[0016]5)對(duì)于每個(gè)缺失區(qū)域,判斷兩兩基因是否同時(shí)發(fā)生缺失突變,例如按如下方式進(jìn)行:假設(shè)同時(shí)發(fā)生兩種基因丟失突變是一個(gè)隨機(jī)過(guò)程,那么進(jìn)行大量(例如I萬(wàn)次以上,10
萬(wàn)次以上,......,1000000萬(wàn)次以上)隨機(jī)抽樣,對(duì)于每一次抽樣,個(gè)基因會(huì)在多個(gè)樣本中發(fā)生cnv,每次抽樣都會(huì)針對(duì)任意的兩兩基因,每次抽取的次數(shù)與該基因發(fā)生的次數(shù)相關(guān),每次抽取都會(huì)記錄這兩個(gè)基因共同發(fā)生(即在同一個(gè)樣本中)的次數(shù),將這個(gè)次數(shù)與實(shí)際結(jié)果相比較,將兩個(gè)基因同時(shí)出現(xiàn)的次數(shù)大于實(shí)際兩個(gè)基因共同發(fā)生的次數(shù)的結(jié)果記錄下來(lái),將上述結(jié)果進(jìn)行累加,然后除以總的抽樣數(shù),得到最終的P值,P值越小,說(shuō)明兩個(gè)基因同時(shí)發(fā)生突變的隨機(jī)性越小,一般認(rèn)為當(dāng)P〈0.05時(shí),認(rèn)為兩個(gè)基因是同時(shí)發(fā)生了缺失突變;
[0017]6)將每個(gè)區(qū)域內(nèi)同時(shí)發(fā)生缺失突變的基因進(jìn)行鏈接,要求在一條鏈中的基因必須是兩兩互相共發(fā)生的;
[0018]7)利用所述臨床信息和表達(dá)量的信息得到在癌癥的發(fā)生過(guò)程某個(gè)基因的表達(dá)差異(圖2中的高表達(dá)和低表達(dá))在癌癥的生存率上有顯著的差異[3],分析上述鏈中的基因的表達(dá)與癌癥患者的生存時(shí)間的關(guān)系,如果基因共同對(duì)癌癥患者的預(yù)后有顯著的影響(例如利用基因表達(dá)的數(shù)據(jù)將癌癥患者分為高表達(dá)和低表達(dá)兩類(基因在該樣本中的表達(dá)量大于基因在所有樣本中的表達(dá)量的均值,則該基因在該樣本中為高表達(dá),否則為低表達(dá)),計(jì)算每類患者在某個(gè)時(shí)間節(jié)點(diǎn)的生存率(生存/死亡)如圖2,如果該基因高表達(dá)對(duì)于癌癥患者有更高的生存率,則驗(yàn)證了該基因有對(duì)癌癥患者的預(yù)后有顯著的影響),那么它們確實(shí)是有共同的作用,如此得到所有對(duì)癌癥發(fā)生起共同作用的腫瘤抑制基因。
[0019]已有的研究腫瘤抑制基因的方法在前期都會(huì)得到較多的候選基因,從這些基因中挑出真正對(duì)癌癥的發(fā)生具有單一或者共同作用的基因是非常困難的。按照之前文章中報(bào)道過(guò)的方法,需要耗費(fèi)大量的人力物力。本研究方法,巧妙的運(yùn)用數(shù)學(xué)及生物信息方法,準(zhǔn)確快速的得到共同作用的腫瘤抑制基因,并且結(jié)合臨床信息,對(duì)于腫瘤的后續(xù)治療起到了很好的指引。
【附圖說(shuō)明】
[0020]附圖中的兩幅圖示例性示出了整個(gè)研究的最終結(jié)果。
[0021]圖1.以13號(hào)染色體為例,說(shuō)明染色體上發(fā)生大片段丟失突變的基因,這些基因之間存在共發(fā)生的關(guān)系。該圖展示了人類基因組13號(hào)染色體上發(fā)生的大規(guī)模的片段丟失,與這一丟失突變相關(guān)的基因之間形成了一個(gè)簇(cluster),它們之間的共發(fā)生關(guān)系可以通過(guò)圖2展示的結(jié)果來(lái)驗(yàn)證。
[0022]圖2.單個(gè)基因的生存曲線以及它們共同作用的生存曲線。表明本研究得到的成簇的基因之間確實(shí)具有共發(fā)生的關(guān)系,它們整體對(duì)于該種癌癥發(fā)生的促進(jìn)作用明顯大于單個(gè)基因所起的作用。而圖中的基因也都是近來(lái)發(fā)現(xiàn)的跟該中癌癥發(fā)生高度相關(guān)的一些基因?!揪唧w實(shí)施方式】
[0023]本具體實(shí)施例是對(duì)本發(fā)明的進(jìn)一步解釋,并不是對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員閱讀完本說(shuō)明書(shū),可根據(jù)具體需要,對(duì)本實(shí)施例進(jìn)行無(wú)創(chuàng)造性貢獻(xiàn)的修改,但只要在本發(fā)明的權(quán)利要求的范圍內(nèi),均受到專利法的保護(hù)。
[0024]1)樣本、數(shù)據(jù)來(lái)源:65例前列腺癌患者的腫瘤組織樣本和正常組織樣本的全基因測(cè)序據(jù)以及轉(zhuǎn)錄組表達(dá)數(shù)據(jù),例如采用華大自主研發(fā)的cnv檢測(cè)流程[1]的數(shù)據(jù)產(chǎn)出以及 cuff links[1]軟件得到的基因的FPKM(每1百萬(wàn)個(gè)比對(duì)上參考基因組的序列中,比對(duì)到外顯子的每1K個(gè)堿基上的片段的個(gè)數(shù))作為本實(shí)施例的數(shù)據(jù)輸入;
[0025]2)將人類參考基因組(UCSC hgl9, http://hgdownload.soe.ucsc.edu/ goldenPath/hgl9/bigZips/chromFa.tar.gz)各個(gè)染色體劃分為1M的窗口,計(jì)算得到每1M 窗口內(nèi)的CNV顯著性(用GsC〇re[2]值代表);
[0026]3)對(duì)第二步得到的窗口按照位置先后順序進(jìn)行掃描,將CNV顯著變化(Gscore〉= 〇.1)的相鄰的窗口進(jìn)行合并,得到整個(gè)基因組上頻繁發(fā)生大規(guī)模丟失的區(qū)域;
[0027]4)利用 ANNOVAR(http://www.0penb1informatics.0rg/annovar/)軟件對(duì)第三步得到的cnv區(qū)域進(jìn)行注釋,得到這些區(qū)域內(nèi)的基因列表;
[0028]5)對(duì)每個(gè)區(qū)域內(nèi)的基因在正常組織和腫瘤組織中的FPKM值進(jìn)行成對(duì)秩和檢驗(yàn), 挑選出表達(dá)量在正常組織樣本和腫瘤組織樣本中有顯著差異(P〈〇.05)的基因列表;
[0029]6)對(duì)得到的基因列表進(jìn)行過(guò)濾:首先去除發(fā)生了常見(jiàn)的和癌癥相關(guān)的點(diǎn)突變(體細(xì)胞單核苷酸突變和體細(xì)胞插入缺失突變)的基因(例如,COSMIC數(shù)據(jù)庫(kù)中的癌癥相關(guān)的基因列表,http://cancer.sanger.ac.uk/cancergenome/projects/cosmic/download),其次挑選出表達(dá)量變化跟cnv變異一致的基因,即發(fā)生了缺失的基因,表達(dá)量在腫瘤組織當(dāng)中是下調(diào)的基因;
[0030]7)經(jīng)過(guò)篩選后得到的基因,按照不同的簇區(qū)域,分別對(duì)各個(gè)區(qū)域內(nèi)的基因兩兩之間進(jìn)行共發(fā)生關(guān)系的研究:模擬1000000萬(wàn)次隨機(jī)抽樣,對(duì)于每一次抽樣的結(jié)果,每個(gè)基因會(huì)在多個(gè)樣本中發(fā)生cnv,每次抽樣都會(huì)針對(duì)任意的兩兩基因,每次抽取的次數(shù)與該基因發(fā)生的次數(shù)相關(guān),每次抽取都會(huì)記錄這兩個(gè)基因共同發(fā)生(在同一個(gè)樣本中)的次數(shù),將這個(gè)次數(shù)與實(shí)際結(jié)果相比較,將兩個(gè)基因同時(shí)出現(xiàn)的次數(shù)大于實(shí)際兩個(gè)基因共同發(fā)生的次數(shù)的結(jié)果記錄下來(lái),將上述結(jié)果進(jìn)行累加,然后除以總的抽樣數(shù),得到最終的P值,當(dāng)P〈〇.05時(shí), 認(rèn)為兩個(gè)基因是同時(shí)發(fā)生了缺失突變;
[0031]8)基于上一步得到的關(guān)系列表,將兩兩共發(fā)生的基因連接起來(lái),得到完全互連的基因列表。
[0032]9)繪制人類13號(hào)染色體上的cnv區(qū)域,如圖1所示,橫坐標(biāo)表示人類基因組13號(hào)染色體的位置,縱坐標(biāo)表示Gscore值,紅色區(qū)域代表擴(kuò)增的區(qū)域,藍(lán)色的區(qū)域代表缺失的區(qū)域,圖中標(biāo)注的基因?yàn)樯鲜稣业降膬蓛苫ハ喙舶l(fā)生的基因列表的示例。
[0033]10)下載已發(fā)表的前列腺癌樣本的對(duì)應(yīng)患者臨床信息(需包含患者生存時(shí)間)和基因在樣本當(dāng)中的表達(dá)[3],利用R軟件中做生存曲線的軟件包(survival),繪制出每個(gè)基因以及所有基因的生存曲線圖,mfit = survfit (Surv (time, status)?group),其中,關(guān)于group的定義:對(duì)于單個(gè)基因,將基因在癌癥樣本中的表達(dá)量值與該基因在整體樣本中的表達(dá)量的均值進(jìn)行比較,大于均值的樣本group = 2 (高表達(dá)),小于均值的樣本group =I (低表達(dá)),對(duì)于鏈表中的所有基因,如果所有基因在該樣本中都是低表達(dá)的,那么整個(gè)鏈表的 group = I,否貝Ij group = 2。
[0034]由上一步的方法繪制出圖1中的基因的生存曲線,如圖2所示,橫坐標(biāo)表示復(fù)發(fā)時(shí)間,縱坐標(biāo)代表生存概率,上面的曲線代表高表達(dá),下面的曲線代表低表達(dá),P值代表該基因的高表達(dá)和低表達(dá)對(duì)與前列腺癌患者的生存率的影響是否存在顯著差異(P〈0.05作為顯著的閾值)。如圖所示,本發(fā)明得到的抑癌基因在高表達(dá)的時(shí)候會(huì)有較好的預(yù)后效果,并且所有基因共同作用的顯著程度大于單個(gè)基因。
[0035]參考文獻(xiàn)
[0036][I]Chiang D Y, Getz G, Jaffe D B, et al.High-resolut1n mapping ofcopy-number alterat1ns with massively parallel sequencing[J].Naturemethods, 2008, 6 (I): 99-103.
[0037][2]Trapnell C, Roberts A, Goff L, et al.Differential gene and transcriptexpress1n analysis of RNA-seq experiments with TopHat and CuffI inks[J].Natureprotocols, 2012, 7(3):562-578.
[0038][3]Mermel C H, Schumacher S E, Hill B, et al.GISTIC2.0 facilitatessensitive and confident localizat1n of the targets of focal somaticcopy-number alterat1n in human cancers[J].Genome B1l, 2011, 12(4):R41.
[0039][4]Glinsky G V, Glinskii A B, Stephenson A J, et al.Gene express1nprofiling predicts clinical outcome of prostate cancer[J].The Journal ofclinical investigat1n, 2004, 113(6):913-923.
[0040][5] Xue W, Kitzing T, Roessler S, et al.A cluster of cooperatingtumor-suppressor gene candidates in chromosomal delet1ns[J].Proceedings of theNat1nal Academy of Sciences, 2012, 109(21):8212-8217.
[0041][6]J.Clin.1nvest.113:913 - 923(2004).do1:10.1172/JCI200420032.
【主權(quán)項(xiàng)】
1.一種獲得對(duì)癌癥發(fā)生起共同作用的腫瘤抑制基因的方法,所述方法包括步驟: 1)對(duì)于多個(gè)腫瘤患者的腫瘤組織樣本和正常組織樣本,獲得全基因測(cè)序數(shù)據(jù)、轉(zhuǎn)錄組表達(dá)量數(shù)據(jù),以及包括患者生存時(shí)間的臨床信息和基因在所述樣本中的表達(dá)量; 2)將基因組劃分成多個(gè)子區(qū)域,對(duì)于所述每個(gè)子區(qū)域,用上述全基因組測(cè)序數(shù)據(jù)的CNV檢測(cè)結(jié)果計(jì)算所述多個(gè)樣本中的CNV顯著性; 3)對(duì)CNV顯著變化的子區(qū)域進(jìn)行延展,挑選出基因組上CNV顯著變化的連續(xù)子區(qū)域,作為缺失區(qū)域; 4)對(duì)每個(gè)缺失區(qū)域內(nèi)的所有基因,利用所述腫瘤組織樣本和正常組織樣本的轉(zhuǎn)錄組表達(dá)量數(shù)據(jù),挑選出轉(zhuǎn)錄組表達(dá)量在正常組織樣本和腫瘤組織樣本之間有顯著差異并且下調(diào)的基因,這些基因?yàn)楹蜻x的腫瘤抑制基因; 5)對(duì)于每個(gè)缺失區(qū)域,判斷兩兩基因是否同時(shí)發(fā)生缺失突變; 6)將每個(gè)區(qū)域內(nèi)同時(shí)發(fā)生缺失突變的基因進(jìn)行鏈接,要求在一條鏈中的基因必須是兩兩互相共發(fā)生的; 7)利用所述臨床信息和表達(dá)量的信息得到在癌癥的發(fā)生過(guò)程某個(gè)基因的表達(dá)差異在癌癥的生存率上有顯著的差異,分析上述鏈中的基因的表達(dá)與癌癥患者的生存時(shí)間的關(guān)系,如果基因共同對(duì)癌癥患者的預(yù)后有顯著的影響,那么它們確實(shí)有共同的作用,如此得到所有對(duì)癌癥發(fā)生起共同作用的腫瘤抑制基因。2.權(quán)利要求1的方法,所述子區(qū)域長(zhǎng)度為10K-10M,優(yōu)選10K-1M,更優(yōu)選100K-1M。3.權(quán)利要求1的方法,所述CNV顯著性采用Gscore值進(jìn)行計(jì)算。4.權(quán)利要求3的方法,所述CNV顯著變化是Gscore〉=0.1。5.權(quán)利要求1的方法,所述轉(zhuǎn)錄組表達(dá)量在正常組織樣本和腫瘤組織樣本之間有顯著差異為成對(duì)秩和檢驗(yàn)P〈0.05。6.權(quán)利要求1的方法,判斷兩兩基因是否同時(shí)發(fā)生缺失突變按如下方式進(jìn)行:假設(shè)同時(shí)發(fā)生兩種基因丟失突變是一個(gè)隨機(jī)過(guò)程,那么進(jìn)行大量隨機(jī)抽樣,優(yōu)選I萬(wàn)次以上,10萬(wàn)次以上,......,最優(yōu)選1000000萬(wàn)次以上,對(duì)于每一次抽樣,個(gè)基因會(huì)在多個(gè)樣本中發(fā)生crw,每次抽樣都會(huì)針對(duì)任意的兩兩基因,每次抽取的次數(shù)與該基因發(fā)生的次數(shù)相關(guān),每次抽取都會(huì)記錄這兩個(gè)基因共同發(fā)生的次數(shù),將這個(gè)次數(shù)與實(shí)際結(jié)果相比較,將兩個(gè)基因同時(shí)出現(xiàn)的次數(shù)大于實(shí)際兩個(gè)基因共同發(fā)生的次數(shù)的結(jié)果記錄下來(lái),將上述結(jié)果進(jìn)行累加,然后除以總的抽樣數(shù),得到最兩個(gè)基因同時(shí)發(fā)生突變的隨機(jī)性P,如果P〈0.05,則兩個(gè)基因是同時(shí)發(fā)生了缺失突變。7.權(quán)利要求1的方法,基因?qū)Π┌Y患者的預(yù)后有顯著的影響通過(guò)如下方式確認(rèn):利用基因表達(dá)的數(shù)據(jù)將癌癥患者分為高表達(dá)和低表達(dá)兩類,計(jì)算每類患者在某個(gè)時(shí)間節(jié)點(diǎn)的生存率,如果該基因高表達(dá)對(duì)于癌癥患者有更高的生存率,則驗(yàn)證了該基因?qū)Π┌Y患者的預(yù)后有顯著的影響。8.權(quán)利要求1的方法,對(duì)于高表達(dá)和低表達(dá)兩類,基因在該樣本中的表達(dá)量大于基因在所有樣本中的表達(dá)量的均值,則該基因在該樣本中為高表達(dá),否則為低表達(dá)。
【文檔編號(hào)】C12Q1/68GK105986007SQ201410508691
【公開(kāi)日】2016年10月5日
【申請(qǐng)日】2015年2月11日
【發(fā)明人】蘇紅, 劉棟兵, 彭麗花
【申請(qǐng)人】深圳華大基因股份有限公司