一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng),包括質(zhì)控模塊,用于通過對(duì)原始測(cè)序數(shù)據(jù)文件中單堿基質(zhì)量,以及read質(zhì)量的評(píng)估;基因組映射模塊:用于利用BWA的aln算法完成read到基因組的映射過程;基因組變異模塊:用于利用GATK包的UnifiedGenotyper方法找基因組上的變異位點(diǎn);變異位點(diǎn)注釋模塊:用于對(duì)變異的候選位點(diǎn)或基因組區(qū)間做注釋。本發(fā)明通過簡(jiǎn)單的參數(shù)提交完成大規(guī)模數(shù)據(jù)的分析,包括原始數(shù)據(jù)的質(zhì)量檢測(cè)、數(shù)據(jù)去噪、測(cè)序read的基因組映射上游承接下機(jī)的原始測(cè)序數(shù)據(jù),通過參數(shù)自動(dòng)化提交分析模塊,完成測(cè)序數(shù)據(jù)的分析,輸出候選的致病突變位點(diǎn)和相關(guān)基因,為后期的實(shí)驗(yàn)驗(yàn)證提供依據(jù)。
【專利說明】
-種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于基因信息數(shù)據(jù)處理領(lǐng)域,特別是設(shè)及到一種全外顯子組測(cè)序數(shù)據(jù)分析 系統(tǒng)。
【背景技術(shù)】
[0002] 隨著人類基因組計(jì)劃和國(guó)際人類單體型圖譜構(gòu)建的完成,快速推動(dòng)了通過解析基 因組信息研究疾病易感位點(diǎn)的預(yù)測(cè)和功能研究。運(yùn)類研究主要是基于生物忍片的基因分型 技術(shù),利用全基因組關(guān)聯(lián)分析研究(GWAS)方法來尋找與復(fù)雜疾病相關(guān)的遺傳因素。隨著生 物忍片中探針越來越密集,特別是疊瓦式探針的設(shè)計(jì),對(duì)于疾病風(fēng)險(xiǎn)位點(diǎn)的挖掘也越來越 全面。然而,GWAS的局限在于:識(shí)別的多數(shù)關(guān)聯(lián)位點(diǎn)位于基因組的基因間區(qū)、內(nèi)含子、調(diào)控 區(qū);其次,忍片的探針都是基于目前已知的(絕大多數(shù)是常見SNP)設(shè)計(jì)的,不能識(shí)別低頻的 致病變異和新的致病突變。
[0003] 短短幾年內(nèi),新一代技術(shù)的迅猛發(fā)展在數(shù)據(jù)通量和成本上都顯示出巨大的優(yōu)勢(shì)。 特別是全外顯子組捕獲測(cè)序技術(shù),通過特異性探針富集到具有編碼功能的外顯子區(qū),針對(duì) 運(yùn)些功能區(qū)域進(jìn)行深度測(cè)序,不僅可W更全面的檢測(cè)編碼區(qū)域的變異,且能夠識(shí)別低頻的 和新的變異位點(diǎn)。全外顯子測(cè)序包含目標(biāo)區(qū)間的捕獲、文庫構(gòu)建和上機(jī)測(cè)序,W及生物信息 學(xué)分析S個(gè)過程。目前最流行的S種外顯子捕獲試劑分別來自羅氏NimbleGen、
[0004] Illumina和安捷倫。技術(shù)的不斷推廣,涌現(xiàn)出海量的基因組測(cè)序數(shù)據(jù),如何快速、 且系統(tǒng)性地挖掘運(yùn)些大數(shù)據(jù)中的信息,W更全面的解析疾病,服務(wù)于生物醫(yī)學(xué),為數(shù)據(jù)分析 團(tuán)隊(duì)提出了更高的要求和新的挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明提出一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng),便于更快速、準(zhǔn)確地挖 掘測(cè)序數(shù)據(jù)中的信息。
[0006] 為達(dá)到上述目的,本發(fā)明的技術(shù)方案是運(yùn)樣實(shí)現(xiàn)的:一種全外顯子組測(cè)序數(shù)據(jù)分 析系統(tǒng),包括:
[0007] 質(zhì)控模塊:用于通過對(duì)原始測(cè)序數(shù)據(jù)文件中單堿基質(zhì)量,W及read質(zhì)量的評(píng)估,判 斷測(cè)序數(shù)據(jù)是否可用于后續(xù)分析,同時(shí),篩選去除測(cè)序因素產(chǎn)生的數(shù)據(jù)噪音;
[000引基因組映射模塊:用于利用BWA的aln算法完成read到基因組的映射過程,通過多 線程運(yùn)算達(dá)到快速比對(duì)的結(jié)果;
[0009] 基因組變異模塊:用于利用GATK包的化ifiedGenotyper方法找基因組上的變異位 點(diǎn),包括SNV和小片段的IN呢L;
[0010] 變異位點(diǎn)注釋模塊:用于對(duì)變異的候選位點(diǎn)或基因組區(qū)間做注釋,包含運(yùn)些變異 在基因組的位置、是否影響氨基酸編碼、人群頻率、對(duì)于蛋白質(zhì)功能是否有害;
[0011] 所述質(zhì)控模塊、基因組映射模塊、基因組變異模塊、變異位點(diǎn)注釋模塊依次連接。
[0012] 進(jìn)一步的,所述質(zhì)控模塊包括fastqc單元和化imming單元;所述fastqc單元用于 對(duì)原始測(cè)序文件進(jìn)行質(zhì)控,輸出為數(shù)據(jù)質(zhì)量的統(tǒng)計(jì)結(jié)果W及評(píng)估報(bào)告;所述trimming單元 用于在質(zhì)控基礎(chǔ)上,針對(duì)數(shù)據(jù)進(jìn)行修剪,包括去除低質(zhì)量的read片段、去除測(cè)序異常的 read、去除測(cè)序過程中添加的適配器,輸出高質(zhì)量的read用于后續(xù)信息挖掘。
[0013] 更進(jìn)一步的,所述質(zhì)控模塊還包括BaseQualStat單元,用于對(duì)原始測(cè)序文件中每 個(gè)堿基的Ascn質(zhì)量值做轉(zhuǎn)換。
[0014] 進(jìn)一步的,所述基因組映射模塊包括映射單元和格式單元,所述映射單元用于利 用BWA的aln算法完成read到基因組的映射過程,通過多線程運(yùn)算達(dá)到快速比對(duì)的結(jié)果;所 述格式單元用于整合pi card、samtool和GATK多種方法對(duì)比對(duì)結(jié)果進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換、排 序、質(zhì)量校正,輸出準(zhǔn)確比對(duì)到基因組上的read信息。
[0015] 進(jìn)一步的,所述基因組變異模塊包括gatk-snv單元、varscan-Somatic單元和CNV 單元,所述gatk-snv單元用于尋找每個(gè)樣本中的基因組變異,所述var scan-Somat i C單元通 過對(duì)配對(duì)的組織找變異位點(diǎn),然后二者之間比較W及相應(yīng)的統(tǒng)計(jì)學(xué)檢驗(yàn),區(qū)分出該例樣本 的生殖細(xì)胞突變和體細(xì)胞突變;所述CNV單元用于外顯子組測(cè)序數(shù)據(jù)找基因組的拷貝數(shù)改 變。
[0016] 相對(duì)于現(xiàn)有技術(shù),本發(fā)明所述的一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)具有W下優(yōu) 勢(shì):
[0017] 本發(fā)明針對(duì)外顯子組捕獲測(cè)序數(shù)據(jù)進(jìn)行分析,包括從下機(jī)的測(cè)序數(shù)據(jù)一〉數(shù)據(jù)的 質(zhì)量控制一〉數(shù)據(jù)的基本處理一〉測(cè)序read的基因組映射一〉找基因組變異一〉計(jì)算基因組 拷貝數(shù)一〉注釋變異位點(diǎn)的功能整個(gè)分析過程,本發(fā)明集成了全面的數(shù)據(jù)質(zhì)量報(bào)告、結(jié)果統(tǒng) 計(jì)和展示,通過簡(jiǎn)單的參數(shù)提交完成大規(guī)模數(shù)據(jù)的分析,包括原始數(shù)據(jù)的質(zhì)量檢測(cè)、數(shù)據(jù)去 噪、測(cè)序read的基因組映射上游承接下機(jī)的原始測(cè)序數(shù)據(jù),通過參數(shù)自動(dòng)化提交分析模塊, 完成測(cè)序數(shù)據(jù)的分析,輸出候選的致病突變位點(diǎn)和相關(guān)基因,為后期的實(shí)驗(yàn)驗(yàn)證提供依據(jù)。
【附圖說明】
[0018] 構(gòu)成本發(fā)明的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0019] 圖1為本發(fā)明的流程示意圖。
【具體實(shí)施方式】
[0020] 需要說明的是,在不沖突的情況下,本發(fā)明的實(shí)施例及實(shí)施例中的特征可W相互 組合。
[0021 ]下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0022] 如圖1所示,本發(fā)明的軟件系統(tǒng)用于系統(tǒng)性分析全外顯子組測(cè)序數(shù)據(jù)(適用于單樣 本或者配對(duì)的組織樣本),輸入為原始的測(cè)序數(shù)據(jù)(fq.gz文件),輸出為基因組變異位點(diǎn)和 相關(guān)突變基因,W及圖形化結(jié)果展示。分析內(nèi)容主要包含測(cè)序數(shù)據(jù)質(zhì)控、測(cè)序read比對(duì)基因 組、尋找基因組變異、變異信息注釋和圖形展示。
[0023] 詳細(xì)說明
[0024] 1、測(cè)序數(shù)據(jù)的質(zhì)控
[0025] 相比先前的基因忍片數(shù)據(jù),二代測(cè)序技術(shù)凸顯其明顯的優(yōu)勢(shì)是高通量,然而,運(yùn)一 優(yōu)勢(shì)也給研究者們帶來了新的挑戰(zhàn)一檢測(cè)數(shù)據(jù)質(zhì)量。除了數(shù)據(jù)的規(guī)模,數(shù)據(jù)質(zhì)量同樣是影 響結(jié)果的重要因素之一。本發(fā)明系統(tǒng)中質(zhì)控模塊的化Stqc和trimming兩個(gè)單元可W完成對(duì) 測(cè)序數(shù)據(jù)的嚴(yán)格質(zhì)量檢測(cè)和控制,通過對(duì)單堿基質(zhì)量,W及read質(zhì)量的評(píng)估,判斷測(cè)序數(shù)據(jù) 是否可用于后續(xù)分析,同時(shí),篩選去除測(cè)序因素產(chǎn)生的數(shù)據(jù)噪音。
[0026] 化Stqc單元的輸入是原始的fq.gz文件(單/雙末端測(cè)序數(shù)據(jù)都適用)。輸出為數(shù)據(jù) 質(zhì)量的統(tǒng)計(jì)結(jié)果W及網(wǎng)頁式的評(píng)估報(bào)告,內(nèi)容包括:堿基質(zhì)量分布、GC含量統(tǒng)計(jì)、A/T/G/C堿 基分布、read長(zhǎng)度統(tǒng)計(jì)、顯著富集的段序列檢測(cè)等。
[0027] Trimming單元的輸入與化Stqc單元輸入相同,區(qū)別在于化Stqc只針對(duì)數(shù)據(jù)的質(zhì)量 進(jìn)行統(tǒng)計(jì),而trimming是在質(zhì)控基礎(chǔ)上,針對(duì)數(shù)據(jù)進(jìn)行"去偽存真"的修剪,包括去除低質(zhì)量 的read片段、去除測(cè)序異常的read(如高比例的N)、去除測(cè)序過程中添加的適配器等,輸出 高質(zhì)量的read用于后續(xù)信息挖掘。輸出結(jié)果中會(huì)統(tǒng)計(jì)修剪掉的低質(zhì)量read比例,W評(píng)估數(shù) 據(jù)的整體質(zhì)量。
[00%]另外,還設(shè)有Base如alStat單元是對(duì)fq.gz文件中每個(gè)堿基的ASCII質(zhì)量值做轉(zhuǎn)換 (根據(jù)測(cè)序版本選擇33或者64),將Ascn字符碼轉(zhuǎn)換成化red值,然后可便于統(tǒng)計(jì)Q20、Q30等 信息。
[0029] 2、測(cè)序數(shù)據(jù)的基因組映射
[0030] 二代測(cè)序數(shù)據(jù)分析中重要的一個(gè)內(nèi)容是如何將短序列映射到基因上,然后解析基 因組的信息。本發(fā)明的系統(tǒng)中mapping模塊(基因組映射模塊)包括映射單元,利用BWA的aln 算法完成read到基因組的映射過程,通過多線程運(yùn)算達(dá)到快速比對(duì)的結(jié)果(sam文件)。還包 括格式單元,整合了 picard、samtoo巧日GATK多種方法對(duì)比對(duì)結(jié)果進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換、排序、 質(zhì)量校正等過程,輸出準(zhǔn)確比對(duì)到基因組上的read信息(bam文件)。其中,a In的參數(shù)-n控制 read比對(duì)到基因組上的方式(完全匹配、允許錯(cuò)配的部分匹配)。每一步數(shù)據(jù)處理中,都可W 利用samtools工具對(duì)當(dāng)前步驟中分析的read進(jìn)行統(tǒng)計(jì),如總的read數(shù)、比對(duì)率、重復(fù)read比 例,read對(duì)的分布等。
[0031] bam文件是sam的二進(jìn)制格式,也是測(cè)序數(shù)據(jù)中推薦的數(shù)據(jù)存儲(chǔ)格式,具體說明:
[0032] 每一行表示一條read的信息,每列分別代表
[0033] Uread 編號(hào)
[0034] 2、Flag信息:用于統(tǒng)計(jì)read信息的綜合得分,如73表示該read和其配對(duì)的read (mate)都在bam文件中,但是mate是unmapp的read
[0035] 3、染色體名稱
[0036] 4、堿基位置:l_based定義的基因組位置
[0037] 5、比對(duì)打分:P虹e d-s cale的質(zhì)量分?jǐn)?shù)
[003引 6、CIARG:該read的比對(duì)詳細(xì)信息,如IOOM表示100個(gè)堿基完全比對(duì)到基因組
[0039] 7、Mate read:配對(duì)的read的比對(duì)情況
[0040] 8、Mate read的基因組位置:配對(duì)read起始?jí)A基位置 [0041 ] 9、read 的長(zhǎng)度
[0042] 10、read的序列信息
[0043] IUread 的質(zhì)量
[0044] 12、read的各種tag描述,如醒是read和參考基因組的編輯距離(即差異),XT記錄 read是唯一比對(duì)或者基因組多定位。
[0045] 3、測(cè)序數(shù)據(jù)找高置信的基因組變異
[0046] 本發(fā)明中基因組變異模塊中的gatk-snv單元利用GATK包的Unif iedGenotyper方 法找基因組上的變異,包括SNV和小片段的IN呢UUnif iedGenotyper集成了多種基因組變 異檢測(cè)方法,基于貝葉斯最大似然模型來估計(jì)基因分型和基因頻率,同時(shí)對(duì)每個(gè)位點(diǎn)的變 異都會(huì)計(jì)算一個(gè)后驗(yàn)概率。Unif iedGenotyper是基于檢測(cè)樣本基因組和參考基因組的比 較,因此既適用于單個(gè)樣本的變異位點(diǎn)檢測(cè),也可做群體的變異檢測(cè)。gatk-snv的輸入是比 對(duì)后的bam文件,輸出是VCf文件,包含每個(gè)位點(diǎn)的基因型和該位點(diǎn)詳細(xì)的比對(duì)、統(tǒng)計(jì)信息。 運(yùn)里的變異位點(diǎn)結(jié)果中包含很多假陽性的結(jié)果(特別是IND化),為了得到高置信的變異位 點(diǎn),需要對(duì)IN呢L區(qū)域重新設(shè)計(jì)比對(duì)、W及堿基質(zhì)量的矯正(化riantFiltration)。在滿足變 異數(shù)據(jù)量的條件下,推薦使用VQSR對(duì)變異位點(diǎn)進(jìn)行過濾。VQSR過濾變異位點(diǎn)的原理:根據(jù)已 知的變異位點(diǎn)(包括真的變異化PMap和Omni 2.5M SNP忍片中的位點(diǎn))訓(xùn)練高斯模型,此外, 算法會(huì)輸出一組圖形化結(jié)果可W形象地了解模型中注釋信息對(duì)于變異位點(diǎn)分組的效能。然 后將該模型用于化if iedGenotyper找到的變異位點(diǎn),并計(jì)算每個(gè)位點(diǎn)的變異概率,并得到 該位點(diǎn)是真的變異位點(diǎn)與假陽性位點(diǎn)的比值(VQSLOD),記錄在INFO信息中,運(yùn)個(gè)值越大說 明該位點(diǎn)是真的基因組變異的可能性越大。由于變異位點(diǎn)假陽性過濾依賴于高斯模型的構(gòu) 建,SNV和IN呢L需要分開進(jìn)行。
[0047] gatk-snv單元用于尋找每個(gè)樣本中的基因組變異(包含遺傳獲得的生殖細(xì)胞變異 和后天產(chǎn)生的體細(xì)胞變異)。二代測(cè)序技術(shù)在生物醫(yī)學(xué)中一個(gè)重要的應(yīng)用是疾病發(fā)病機(jī)理 的研究,如癌癥。目前報(bào)道的大多數(shù)復(fù)雜疾病和癌癥都是由于體細(xì)胞突變導(dǎo)致功能失調(diào),進(jìn) 而誘發(fā)疾病產(chǎn)生。而運(yùn)類研究的實(shí)驗(yàn)設(shè)計(jì)通常包含有配對(duì)的樣本DNA,例如癌癥患者的癌組 織和血樣、或者癌組織和癌旁的正常組織。針對(duì)運(yùn)一類問題,本發(fā)明的系統(tǒng)軟件中, varscan-Somatic單元通過對(duì)配對(duì)的組織找變異位點(diǎn),然后二者之間比較W及相應(yīng)的統(tǒng)計(jì) 學(xué)檢驗(yàn),區(qū)分出該例樣本的生殖細(xì)胞突變和體細(xì)胞突變,其中,體細(xì)胞突變可用于后續(xù)解析 無遺傳背景的疾病的發(fā)生過程和分子機(jī)理。
[004引此外,CNV單元可用于外顯子組測(cè)序數(shù)據(jù)找基因組的拷貝數(shù)改變。然而,由于外顯 子組測(cè)序中通過特異性探針捕獲了基因組的片段,因此,運(yùn)種數(shù)據(jù)統(tǒng)計(jì)基因組的fragment 和斷裂點(diǎn)時(shí)不如全基因組測(cè)序數(shù)據(jù)精準(zhǔn)。
[0049] 4、變異位點(diǎn)的注釋
[0050] annotation模塊(變異位點(diǎn)注釋模塊)是對(duì)比變異位點(diǎn)的注釋工具。為了進(jìn)一步解 釋變異位點(diǎn)的功能,需要將其定位到基因組、基因,分析堿基改變是否影響氨基酸編碼、閱 讀框結(jié)構(gòu);其次,通過公開的健康人群頻率過濾常見的SNP;此外,利用化Iy化en、CADD、SIFT 等方法預(yù)測(cè)氨基酸改變對(duì)蛋白質(zhì)功能的影響;結(jié)合現(xiàn)有的疾病數(shù)據(jù)庫(COSMIC, ClinVar、 OMIM等)篩查目前已報(bào)到的疾病突變和新的突變位點(diǎn),提供候選的致病突變和基因。
[0051] 本發(fā)明具體運(yùn)行實(shí)例:
[00對(duì) 1、數(shù)據(jù)簡(jiǎn)介
[0化3] 數(shù)據(jù)類型:全外顯子組測(cè)序
[0化4] 組織來源:DNA來自同一例患者的癌組織和外周血
[0055]實(shí)驗(yàn)設(shè)計(jì):外顯子捕獲測(cè)序
[0化6] 測(cè)序平臺(tái):Illumina Hiseq 2000,雙末端測(cè)序
[0化7] read平均長(zhǎng)度:IOObp
[0058] 原始測(cè)序數(shù)據(jù)質(zhì)量統(tǒng)計(jì)如表*。
[0059] 表4.1全外顯子組測(cè)序數(shù)據(jù)質(zhì)量統(tǒng)計(jì)
[0060]
[0061] 2、系統(tǒng)使用
[0062] 全外顯子組測(cè)序數(shù)據(jù)分析流程包含:測(cè)序數(shù)據(jù)質(zhì)量評(píng)估和控制、高質(zhì)量read篩選、 read比對(duì)到參考基因組、尋找基因組變異、配對(duì)樣本尋找體細(xì)胞突變、計(jì)算拷貝數(shù)變異、功 能注釋等過程。下面,將利用軟件集成的功能模塊逐步實(shí)現(xiàn)每一個(gè)分析步驟。
[0063] (1)原始測(cè)序數(shù)據(jù)的質(zhì)量控制。本示例包含兩個(gè)全外顯子組數(shù)據(jù),利用fastQC分別 對(duì)兩套測(cè)序進(jìn)行質(zhì)量評(píng)估。
[0064] (2)利用trimming,基于滑窗方法計(jì)算堿基質(zhì)量,過濾低質(zhì)量的read。方法原理是: 輸入測(cè)序的fq文件(包含read標(biāo)號(hào)、序列、堿基質(zhì)量)。
[00 化]
[0066] (3)利用mapping,將高質(zhì)量的read比對(duì)到人類參考基因組化gl9)上。比對(duì)方法采 用BWA,步驟包括read的基因組定位-〉bam生產(chǎn)-〉根據(jù)位置排序-〉標(biāo)記由于PCR產(chǎn)生的重復(fù) 片段-Mndel周圍的重新比對(duì),W去除假陽性變異信息-〉堿基質(zhì)量的矯正-〉提取唯一比對(duì) 到基因組上的raed做后續(xù)分析。
[0067] (4)利用gatk-snv,分別找癌組織和外周血DNA中的SNV和INDEL。通過癌組織基因 組和參考基因組比較識(shí)別了49707個(gè)SNV和5386個(gè)IND化。在外周血中發(fā)現(xiàn)了49655個(gè)SNP和 5263個(gè)
[0068] (5)利用var S can-Soma t i C比較配對(duì)的癌組織和外周血,識(shí)別癌細(xì)胞中的突變?;?于P值0.05,最少5個(gè)read覆蓋,共獲得237個(gè)體細(xì)胞突變和340個(gè)L0H。
[0069] (6)利用CNV模塊分析癌組織中DNA拷貝數(shù)的改變。
[0070] (7)利用annotation對(duì)SNVJND化和CNV的候選位點(diǎn)或基因組區(qū)間做注釋,包含運(yùn) 些變異在基因組的位置、是否影響氨基酸編碼、人群頻率、對(duì)于蛋白質(zhì)功能是否有害等。
[0071] W上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用W限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng),其特征在于,包括: 質(zhì)控模塊:用于通過對(duì)原始測(cè)序數(shù)據(jù)文件中單堿基質(zhì)量,以及read質(zhì)量的評(píng)估,判斷測(cè) 序數(shù)據(jù)是否可用于后續(xù)分析,同時(shí),篩選去除測(cè)序因素產(chǎn)生的數(shù)據(jù)噪音; 基因組映射模塊:用于利用BWA的aln算法完成read到基因組的映射過程,通過多線程 運(yùn)算達(dá)到快速比對(duì)的結(jié)果; 基因組變異模塊:用于利用GATK包的UnifiedGenotyper方法找基因組上的變異位點(diǎn), 包括SNV和小片段的INDEL; 變異位點(diǎn)注釋模塊:用于對(duì)變異的候選位點(diǎn)或基因組區(qū)間做注釋,包含這些變異在基 因組的位置、是否影響氨基酸編碼、人群頻率、對(duì)于蛋白質(zhì)功能是否有害; 所述質(zhì)控模塊、基因組映射模塊、基因組變異模塊、變異位點(diǎn)注釋模塊依次連接。2. 根據(jù)權(quán)利要求1所述的一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng),其特征在于,所述質(zhì)控模 塊包括fastqc單元和trimming單元;所述fastqc單元用于對(duì)原始測(cè)序文件進(jìn)行質(zhì)控,輸出 為數(shù)據(jù)質(zhì)量的統(tǒng)計(jì)結(jié)果以及評(píng)估報(bào)告;所述trimming單元用于在質(zhì)控基礎(chǔ)上,針對(duì)數(shù)據(jù)進(jìn) 行修剪,包括去除低質(zhì)量的read片段、去除測(cè)序異常的read、去除測(cè)序過程中添加的適配 器,輸出高質(zhì)量的read用于后續(xù)信息挖掘。3. 根據(jù)權(quán)利要求2所述的一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng),其特征在于,所述質(zhì)控模 塊還包括BaseQualStat單元,用于對(duì)原始測(cè)序文件中每個(gè)堿基的ASCII質(zhì)量值做轉(zhuǎn)換。4. 根據(jù)權(quán)利要求1所述的一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng),其特征在于,所述基因組 映射模塊包括映射單元和格式單元,所述映射單元用于利用BWA的aln算法完成read到基因 組的映射過程,通過多線程運(yùn)算達(dá)到快速比對(duì)的結(jié)果;所述格式單元用于整合Picard、 samtool和GATK多種方法對(duì)比對(duì)結(jié)果進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換、排序、質(zhì)量校正,輸出準(zhǔn)確比對(duì)到 基因組上的read信息。5. 根據(jù)權(quán)利要求1所述的一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng),其特征在于,所述基因組 變異模塊包括gatk-snv單元、varscan-Somatic單元和CNV單元,所述gatk-snv單元用于尋 找每個(gè)樣本中的基因組變異,所述varscan-Somatic單元通過對(duì)配對(duì)的組織找變異位點(diǎn),然 后二者之間比較以及相應(yīng)的統(tǒng)計(jì)學(xué)檢驗(yàn),區(qū)分出該例樣本的生殖細(xì)胞突變和體細(xì)胞突變; 所述CNV單元用于外顯子組測(cè)序數(shù)據(jù)找基因組的拷貝數(shù)改變。
【文檔編號(hào)】G06F19/18GK106021984SQ201610319413
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】薛成海, 呂艷玲, 鄭文輝
【申請(qǐng)人】萬康源(天津)基因科技有限公司