一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)的制作方法

文檔序號(hào)：10655793閱讀：745來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)，包括質(zhì)控模塊，用于通過對(duì)原始測(cè)序數(shù)據(jù)文件中單堿基質(zhì)量，以及read質(zhì)量的評(píng)估；基因組映射模塊：用于利用BWA的aln算法完成read到基因組的映射過程；基因組變異模塊：用于利用GATK包的UnifiedGenotyper方法找基因組上的變異位點(diǎn)；變異位點(diǎn)注釋模塊：用于對(duì)變異的候選位點(diǎn)或基因組區(qū)間做注釋。本發(fā)明通過簡(jiǎn)單的參數(shù)提交完成大規(guī)模數(shù)據(jù)的分析，包括原始數(shù)據(jù)的質(zhì)量檢測(cè)、數(shù)據(jù)去噪、測(cè)序read的基因組映射上游承接下機(jī)的原始測(cè)序數(shù)據(jù)，通過參數(shù)自動(dòng)化提交分析模塊，完成測(cè)序數(shù)據(jù)的分析,輸出候選的致病突變位點(diǎn)和相關(guān)基因，為后期的實(shí)驗(yàn)驗(yàn)證提供依據(jù)。
【專利說明】
-種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于基因信息數(shù)據(jù)處理領(lǐng)域，特別是設(shè)及到一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)。
【背景技術(shù)】
[0002] 隨著人類基因組計(jì)劃和國(guó)際人類單體型圖譜構(gòu)建的完成，快速推動(dòng)了通過解析基因組信息研究疾病易感位點(diǎn)的預(yù)測(cè)和功能研究。運(yùn)類研究主要是基于生物忍片的基因分型技術(shù)，利用全基因組關(guān)聯(lián)分析研究(GWAS)方法來尋找與復(fù)雜疾病相關(guān)的遺傳因素。隨著生物忍片中探針越來越密集，特別是疊瓦式探針的設(shè)計(jì)，對(duì)于疾病風(fēng)險(xiǎn)位點(diǎn)的挖掘也越來越全面。然而，GWAS的局限在于：識(shí)別的多數(shù)關(guān)聯(lián)位點(diǎn)位于基因組的基因間區(qū)、內(nèi)含子、調(diào)控區(qū)；其次，忍片的探針都是基于目前已知的（絕大多數(shù)是常見SNP)設(shè)計(jì)的，不能識(shí)別低頻的致病變異和新的致病突變。
[0003] 短短幾年內(nèi)，新一代技術(shù)的迅猛發(fā)展在數(shù)據(jù)通量和成本上都顯示出巨大的優(yōu)勢(shì)。特別是全外顯子組捕獲測(cè)序技術(shù)，通過特異性探針富集到具有編碼功能的外顯子區(qū)，針對(duì) 運(yùn)些功能區(qū)域進(jìn)行深度測(cè)序，不僅可W更全面的檢測(cè)編碼區(qū)域的變異，且能夠識(shí)別低頻的和新的變異位點(diǎn)。全外顯子測(cè)序包含目標(biāo)區(qū)間的捕獲、文庫構(gòu)建和上機(jī)測(cè)序，W及生物信息學(xué)分析S個(gè)過程。目前最流行的S種外顯子捕獲試劑分別來自羅氏NimbleGen、
[0004] Illumina和安捷倫。技術(shù)的不斷推廣，涌現(xiàn)出海量的基因組測(cè)序數(shù)據(jù)，如何快速、且系統(tǒng)性地挖掘運(yùn)些大數(shù)據(jù)中的信息，W更全面的解析疾病，服務(wù)于生物醫(yī)學(xué)，為數(shù)據(jù)分析團(tuán)隊(duì)提出了更高的要求和新的挑戰(zhàn)。

【發(fā)明內(nèi)容】

[0005] 有鑒于此，本發(fā)明提出一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)，便于更快速、準(zhǔn)確地挖掘測(cè)序數(shù)據(jù)中的信息。
[0006] 為達(dá)到上述目的，本發(fā)明的技術(shù)方案是運(yùn)樣實(shí)現(xiàn)的：一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)，包括：
[0007] 質(zhì)控模塊:用于通過對(duì)原始測(cè)序數(shù)據(jù)文件中單堿基質(zhì)量，W及read質(zhì)量的評(píng)估，判斷測(cè)序數(shù)據(jù)是否可用于后續(xù)分析，同時(shí)，篩選去除測(cè)序因素產(chǎn)生的數(shù)據(jù)噪音；
[000引基因組映射模塊：用于利用BWA的aln算法完成read到基因組的映射過程，通過多線程運(yùn)算達(dá)到快速比對(duì)的結(jié)果；
[0009] 基因組變異模塊:用于利用GATK包的化ifiedGenotyper方法找基因組上的變異位點(diǎn)，包括SNV和小片段的IN呢L;
[0010] 變異位點(diǎn)注釋模塊：用于對(duì)變異的候選位點(diǎn)或基因組區(qū)間做注釋，包含運(yùn)些變異在基因組的位置、是否影響氨基酸編碼、人群頻率、對(duì)于蛋白質(zhì)功能是否有害；
[0011] 所述質(zhì)控模塊、基因組映射模塊、基因組變異模塊、變異位點(diǎn)注釋模塊依次連接。
[0012] 進(jìn)一步的，所述質(zhì)控模塊包括fastqc單元和化imming單元;所述fastqc單元用于對(duì)原始測(cè)序文件進(jìn)行質(zhì)控，輸出為數(shù)據(jù)質(zhì)量的統(tǒng)計(jì)結(jié)果W及評(píng)估報(bào)告；所述trimming單元用于在質(zhì)控基礎(chǔ)上，針對(duì)數(shù)據(jù)進(jìn)行修剪，包括去除低質(zhì)量的read片段、去除測(cè)序異常的 read、去除測(cè)序過程中添加的適配器，輸出高質(zhì)量的read用于后續(xù)信息挖掘。
[0013] 更進(jìn)一步的，所述質(zhì)控模塊還包括BaseQualStat單元，用于對(duì)原始測(cè)序文件中每個(gè)堿基的Ascn質(zhì)量值做轉(zhuǎn)換。
[0014] 進(jìn)一步的，所述基因組映射模塊包括映射單元和格式單元，所述映射單元用于利用BWA的aln算法完成read到基因組的映射過程，通過多線程運(yùn)算達(dá)到快速比對(duì)的結(jié)果;所述格式單元用于整合pi card、samtool和GATK多種方法對(duì)比對(duì)結(jié)果進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換、排序、質(zhì)量校正，輸出準(zhǔn)確比對(duì)到基因組上的read信息。
[0015] 進(jìn)一步的，所述基因組變異模塊包括gatk-snv單元、varscan-Somatic單元和CNV 單元，所述gatk-snv單元用于尋找每個(gè)樣本中的基因組變異，所述var scan-Somat i C單元通過對(duì)配對(duì)的組織找變異位點(diǎn)，然后二者之間比較W及相應(yīng)的統(tǒng)計(jì)學(xué)檢驗(yàn)，區(qū)分出該例樣本的生殖細(xì)胞突變和體細(xì)胞突變;所述CNV單元用于外顯子組測(cè)序數(shù)據(jù)找基因組的拷貝數(shù)改變。
[0016] 相對(duì)于現(xiàn)有技術(shù)，本發(fā)明所述的一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)具有W下優(yōu) 勢(shì)：
[0017] 本發(fā)明針對(duì)外顯子組捕獲測(cè)序數(shù)據(jù)進(jìn)行分析，包括從下機(jī)的測(cè)序數(shù)據(jù)一〉數(shù)據(jù)的質(zhì)量控制一〉數(shù)據(jù)的基本處理一〉測(cè)序read的基因組映射一〉找基因組變異一〉計(jì)算基因組拷貝數(shù)一〉注釋變異位點(diǎn)的功能整個(gè)分析過程，本發(fā)明集成了全面的數(shù)據(jù)質(zhì)量報(bào)告、結(jié)果統(tǒng) 計(jì)和展示，通過簡(jiǎn)單的參數(shù)提交完成大規(guī)模數(shù)據(jù)的分析，包括原始數(shù)據(jù)的質(zhì)量檢測(cè)、數(shù)據(jù)去噪、測(cè)序read的基因組映射上游承接下機(jī)的原始測(cè)序數(shù)據(jù)，通過參數(shù)自動(dòng)化提交分析模塊，完成測(cè)序數(shù)據(jù)的分析，輸出候選的致病突變位點(diǎn)和相關(guān)基因，為后期的實(shí)驗(yàn)驗(yàn)證提供依據(jù)。
【附圖說明】
[0018] 構(gòu)成本發(fā)明的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解，本發(fā)明的示意性實(shí) 施例及其說明用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中：
[0019] 圖1為本發(fā)明的流程示意圖。
【具體實(shí)施方式】
[0020] 需要說明的是，在不沖突的情況下，本發(fā)明的實(shí)施例及實(shí)施例中的特征可W相互組合。
[0021 ]下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0022] 如圖1所示，本發(fā)明的軟件系統(tǒng)用于系統(tǒng)性分析全外顯子組測(cè)序數(shù)據(jù)(適用于單樣本或者配對(duì)的組織樣本），輸入為原始的測(cè)序數(shù)據(jù)(fq.gz文件），輸出為基因組變異位點(diǎn)和相關(guān)突變基因，W及圖形化結(jié)果展示。分析內(nèi)容主要包含測(cè)序數(shù)據(jù)質(zhì)控、測(cè)序read比對(duì)基因組、尋找基因組變異、變異信息注釋和圖形展示。
[0023] 詳細(xì)說明
[0024] 1、測(cè)序數(shù)據(jù)的質(zhì)控
[0025] 相比先前的基因忍片數(shù)據(jù)，二代測(cè)序技術(shù)凸顯其明顯的優(yōu)勢(shì)是高通量，然而，運(yùn)一優(yōu)勢(shì)也給研究者們帶來了新的挑戰(zhàn)一檢測(cè)數(shù)據(jù)質(zhì)量。除了數(shù)據(jù)的規(guī)模，數(shù)據(jù)質(zhì)量同樣是影響結(jié)果的重要因素之一。本發(fā)明系統(tǒng)中質(zhì)控模塊的化Stqc和trimming兩個(gè)單元可W完成對(duì) 測(cè)序數(shù)據(jù)的嚴(yán)格質(zhì)量檢測(cè)和控制，通過對(duì)單堿基質(zhì)量，W及read質(zhì)量的評(píng)估，判斷測(cè)序數(shù)據(jù) 是否可用于后續(xù)分析，同時(shí)，篩選去除測(cè)序因素產(chǎn)生的數(shù)據(jù)噪音。
[0026] 化Stqc單元的輸入是原始的fq.gz文件(單/雙末端測(cè)序數(shù)據(jù)都適用）。輸出為數(shù)據(jù) 質(zhì)量的統(tǒng)計(jì)結(jié)果W及網(wǎng)頁式的評(píng)估報(bào)告，內(nèi)容包括:堿基質(zhì)量分布、GC含量統(tǒng)計(jì)、A/T/G/C堿基分布、read長(zhǎng)度統(tǒng)計(jì)、顯著富集的段序列檢測(cè)等。
[0027] Trimming單元的輸入與化Stqc單元輸入相同，區(qū)別在于化Stqc只針對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行統(tǒng)計(jì)，而trimming是在質(zhì)控基礎(chǔ)上，針對(duì)數(shù)據(jù)進(jìn)行"去偽存真"的修剪，包括去除低質(zhì)量的read片段、去除測(cè)序異常的read(如高比例的N)、去除測(cè)序過程中添加的適配器等，輸出高質(zhì)量的read用于后續(xù)信息挖掘。輸出結(jié)果中會(huì)統(tǒng)計(jì)修剪掉的低質(zhì)量read比例，W評(píng)估數(shù) 據(jù)的整體質(zhì)量。
[00%]另外，還設(shè)有Base如alStat單元是對(duì)fq.gz文件中每個(gè)堿基的ASCII質(zhì)量值做轉(zhuǎn)換 (根據(jù)測(cè)序版本選擇33或者64)，將Ascn字符碼轉(zhuǎn)換成化red值，然后可便于統(tǒng)計(jì)Q20、Q30等信息。
[0029] 2、測(cè)序數(shù)據(jù)的基因組映射
[0030] 二代測(cè)序數(shù)據(jù)分析中重要的一個(gè)內(nèi)容是如何將短序列映射到基因上，然后解析基因組的信息。本發(fā)明的系統(tǒng)中mapping模塊(基因組映射模塊)包括映射單元，利用BWA的aln 算法完成read到基因組的映射過程，通過多線程運(yùn)算達(dá)到快速比對(duì)的結(jié)果(sam文件）。還包括格式單元，整合了 picard、samtoo巧日GATK多種方法對(duì)比對(duì)結(jié)果進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換、排序、質(zhì)量校正等過程，輸出準(zhǔn)確比對(duì)到基因組上的read信息(bam文件）。其中，a In的參數(shù)-n控制 read比對(duì)到基因組上的方式(完全匹配、允許錯(cuò)配的部分匹配）。每一步數(shù)據(jù)處理中，都可W 利用samtools工具對(duì)當(dāng)前步驟中分析的read進(jìn)行統(tǒng)計(jì)，如總的read數(shù)、比對(duì)率、重復(fù)read比例，read對(duì)的分布等。
[0031] bam文件是sam的二進(jìn)制格式，也是測(cè)序數(shù)據(jù)中推薦的數(shù)據(jù)存儲(chǔ)格式，具體說明：
[0032] 每一行表示一條read的信息，每列分別代表
[0033] Uread 編號(hào)
[0034] 2、Flag信息：用于統(tǒng)計(jì)read信息的綜合得分，如73表示該read和其配對(duì)的read (mate)都在bam文件中，但是mate是unmapp的read
[0035] 3、染色體名稱
[0036] 4、堿基位置：l_based定義的基因組位置
[0037] 5、比對(duì)打分:P虹e d-s cale的質(zhì)量分?jǐn)?shù)
[003引 6、CIARG:該read的比對(duì)詳細(xì)信息，如IOOM表示100個(gè)堿基完全比對(duì)到基因組
[0039] 7、Mate read:配對(duì)的read的比對(duì)情況
[0040] 8、Mate read的基因組位置:配對(duì)read起始?jí)A基位置 [0041 ] 9、read 的長(zhǎng)度
[0042] 10、read的序列信息
[0043] IUread 的質(zhì)量
[0044] 12、read的各種tag描述，如醒是read和參考基因組的編輯距離（即差異），XT記錄 read是唯一比對(duì)或者基因組多定位。
[0045] 3、測(cè)序數(shù)據(jù)找高置信的基因組變異
[0046] 本發(fā)明中基因組變異模塊中的gatk-snv單元利用GATK包的Unif iedGenotyper方法找基因組上的變異，包括SNV和小片段的IN呢UUnif iedGenotyper集成了多種基因組變異檢測(cè)方法，基于貝葉斯最大似然模型來估計(jì)基因分型和基因頻率，同時(shí)對(duì)每個(gè)位點(diǎn)的變異都會(huì)計(jì)算一個(gè)后驗(yàn)概率。Unif iedGenotyper是基于檢測(cè)樣本基因組和參考基因組的比較，因此既適用于單個(gè)樣本的變異位點(diǎn)檢測(cè)，也可做群體的變異檢測(cè)。gatk-snv的輸入是比對(duì)后的bam文件，輸出是VCf文件，包含每個(gè)位點(diǎn)的基因型和該位點(diǎn)詳細(xì)的比對(duì)、統(tǒng)計(jì)信息。運(yùn)里的變異位點(diǎn)結(jié)果中包含很多假陽性的結(jié)果(特別是IND化），為了得到高置信的變異位點(diǎn)，需要對(duì)IN呢L區(qū)域重新設(shè)計(jì)比對(duì)、W及堿基質(zhì)量的矯正(化riantFiltration)。在滿足變異數(shù)據(jù)量的條件下，推薦使用VQSR對(duì)變異位點(diǎn)進(jìn)行過濾。VQSR過濾變異位點(diǎn)的原理:根據(jù)已知的變異位點(diǎn)(包括真的變異化PMap和Omni 2.5M SNP忍片中的位點(diǎn)）訓(xùn)練高斯模型，此外，算法會(huì)輸出一組圖形化結(jié)果可W形象地了解模型中注釋信息對(duì)于變異位點(diǎn)分組的效能。然后將該模型用于化if iedGenotyper找到的變異位點(diǎn)，并計(jì)算每個(gè)位點(diǎn)的變異概率，并得到該位點(diǎn)是真的變異位點(diǎn)與假陽性位點(diǎn)的比值(VQSLOD)，記錄在INFO信息中，運(yùn)個(gè)值越大說明該位點(diǎn)是真的基因組變異的可能性越大。由于變異位點(diǎn)假陽性過濾依賴于高斯模型的構(gòu) 建，SNV和IN呢L需要分開進(jìn)行。
[0047] gatk-snv單元用于尋找每個(gè)樣本中的基因組變異(包含遺傳獲得的生殖細(xì)胞變異和后天產(chǎn)生的體細(xì)胞變異）。二代測(cè)序技術(shù)在生物醫(yī)學(xué)中一個(gè)重要的應(yīng)用是疾病發(fā)病機(jī)理的研究，如癌癥。目前報(bào)道的大多數(shù)復(fù)雜疾病和癌癥都是由于體細(xì)胞突變導(dǎo)致功能失調(diào)，進(jìn) 而誘發(fā)疾病產(chǎn)生。而運(yùn)類研究的實(shí)驗(yàn)設(shè)計(jì)通常包含有配對(duì)的樣本DNA，例如癌癥患者的癌組織和血樣、或者癌組織和癌旁的正常組織。針對(duì)運(yùn)一類問題，本發(fā)明的系統(tǒng)軟件中， varscan-Somatic單元通過對(duì)配對(duì)的組織找變異位點(diǎn)，然后二者之間比較W及相應(yīng)的統(tǒng)計(jì) 學(xué)檢驗(yàn)，區(qū)分出該例樣本的生殖細(xì)胞突變和體細(xì)胞突變，其中，體細(xì)胞突變可用于后續(xù)解析無遺傳背景的疾病的發(fā)生過程和分子機(jī)理。
[004引此外，CNV單元可用于外顯子組測(cè)序數(shù)據(jù)找基因組的拷貝數(shù)改變。然而，由于外顯子組測(cè)序中通過特異性探針捕獲了基因組的片段，因此，運(yùn)種數(shù)據(jù)統(tǒng)計(jì)基因組的fragment 和斷裂點(diǎn)時(shí)不如全基因組測(cè)序數(shù)據(jù)精準(zhǔn)。
[0049] 4、變異位點(diǎn)的注釋
[0050] annotation模塊(變異位點(diǎn)注釋模塊)是對(duì)比變異位點(diǎn)的注釋工具。為了進(jìn)一步解釋變異位點(diǎn)的功能，需要將其定位到基因組、基因，分析堿基改變是否影響氨基酸編碼、閱讀框結(jié)構(gòu);其次，通過公開的健康人群頻率過濾常見的SNP;此外，利用化Iy化en、CADD、SIFT 等方法預(yù)測(cè)氨基酸改變對(duì)蛋白質(zhì)功能的影響；結(jié)合現(xiàn)有的疾病數(shù)據(jù)庫(COSMIC, ClinVar、 OMIM等)篩查目前已報(bào)到的疾病突變和新的突變位點(diǎn)，提供候選的致病突變和基因。
[0051] 本發(fā)明具體運(yùn)行實(shí)例：
[00對(duì) 1、數(shù)據(jù)簡(jiǎn)介
[0化3] 數(shù)據(jù)類型:全外顯子組測(cè)序
[0化4] 組織來源:DNA來自同一例患者的癌組織和外周血
[0055]實(shí)驗(yàn)設(shè)計(jì):外顯子捕獲測(cè)序
[0化6] 測(cè)序平臺(tái)：Illumina Hiseq 2000,雙末端測(cè)序
[0化7] read平均長(zhǎng)度：IOObp
[0058] 原始測(cè)序數(shù)據(jù)質(zhì)量統(tǒng)計(jì)如表*。
[0059] 表4.1全外顯子組測(cè)序數(shù)據(jù)質(zhì)量統(tǒng)計(jì)
[0060]
[0061] 2、系統(tǒng)使用
[0062] 全外顯子組測(cè)序數(shù)據(jù)分析流程包含:測(cè)序數(shù)據(jù)質(zhì)量評(píng)估和控制、高質(zhì)量read篩選、 read比對(duì)到參考基因組、尋找基因組變異、配對(duì)樣本尋找體細(xì)胞突變、計(jì)算拷貝數(shù)變異、功能注釋等過程。下面，將利用軟件集成的功能模塊逐步實(shí)現(xiàn)每一個(gè)分析步驟。
[0063] (1)原始測(cè)序數(shù)據(jù)的質(zhì)量控制。本示例包含兩個(gè)全外顯子組數(shù)據(jù)，利用fastQC分別對(duì)兩套測(cè)序進(jìn)行質(zhì)量評(píng)估。
[0064] (2)利用trimming,基于滑窗方法計(jì)算堿基質(zhì)量，過濾低質(zhì)量的read。方法原理是：輸入測(cè)序的fq文件(包含read標(biāo)號(hào)、序列、堿基質(zhì)量）。
[00 化]
[0066] (3)利用mapping,將高質(zhì)量的read比對(duì)到人類參考基因組化gl9)上。比對(duì)方法采用BWA，步驟包括read的基因組定位-〉bam生產(chǎn)-〉根據(jù)位置排序-〉標(biāo)記由于PCR產(chǎn)生的重復(fù) 片段-Mndel周圍的重新比對(duì)，W去除假陽性變異信息-〉堿基質(zhì)量的矯正-〉提取唯一比對(duì) 到基因組上的raed做后續(xù)分析。
[0067] (4)利用gatk-snv，分別找癌組織和外周血DNA中的SNV和INDEL。通過癌組織基因組和參考基因組比較識(shí)別了49707個(gè)SNV和5386個(gè)IND化。在外周血中發(fā)現(xiàn)了49655個(gè)SNP和 5263個(gè)
[0068] (5)利用var S can-Soma t i C比較配對(duì)的癌組織和外周血，識(shí)別癌細(xì)胞中的突變?；?于P值0.05，最少5個(gè)read覆蓋，共獲得237個(gè)體細(xì)胞突變和340個(gè)L0H。
[0069] (6)利用CNV模塊分析癌組織中DNA拷貝數(shù)的改變。
[0070] (7)利用annotation對(duì)SNVJND化和CNV的候選位點(diǎn)或基因組區(qū)間做注釋，包含運(yùn) 些變異在基因組的位置、是否影響氨基酸編碼、人群頻率、對(duì)于蛋白質(zhì)功能是否有害等。
[0071] W上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用W限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)，其特征在于，包括：質(zhì)控模塊:用于通過對(duì)原始測(cè)序數(shù)據(jù)文件中單堿基質(zhì)量，以及read質(zhì)量的評(píng)估，判斷測(cè) 序數(shù)據(jù)是否可用于后續(xù)分析，同時(shí)，篩選去除測(cè)序因素產(chǎn)生的數(shù)據(jù)噪音；基因組映射模塊：用于利用BWA的aln算法完成read到基因組的映射過程，通過多線程運(yùn)算達(dá)到快速比對(duì)的結(jié)果；基因組變異模塊：用于利用GATK包的UnifiedGenotyper方法找基因組上的變異位點(diǎn)，包括SNV和小片段的INDEL; 變異位點(diǎn)注釋模塊：用于對(duì)變異的候選位點(diǎn)或基因組區(qū)間做注釋，包含這些變異在基因組的位置、是否影響氨基酸編碼、人群頻率、對(duì)于蛋白質(zhì)功能是否有害；所述質(zhì)控模塊、基因組映射模塊、基因組變異模塊、變異位點(diǎn)注釋模塊依次連接。2. 根據(jù)權(quán)利要求1所述的一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)，其特征在于，所述質(zhì)控模塊包括fastqc單元和trimming單元;所述fastqc單元用于對(duì)原始測(cè)序文件進(jìn)行質(zhì)控，輸出為數(shù)據(jù)質(zhì)量的統(tǒng)計(jì)結(jié)果以及評(píng)估報(bào)告;所述trimming單元用于在質(zhì)控基礎(chǔ)上，針對(duì)數(shù)據(jù)進(jìn) 行修剪，包括去除低質(zhì)量的read片段、去除測(cè)序異常的read、去除測(cè)序過程中添加的適配器，輸出高質(zhì)量的read用于后續(xù)信息挖掘。3. 根據(jù)權(quán)利要求2所述的一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)，其特征在于，所述質(zhì)控模塊還包括BaseQualStat單元，用于對(duì)原始測(cè)序文件中每個(gè)堿基的ASCII質(zhì)量值做轉(zhuǎn)換。4. 根據(jù)權(quán)利要求1所述的一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)，其特征在于，所述基因組映射模塊包括映射單元和格式單元，所述映射單元用于利用BWA的aln算法完成read到基因組的映射過程，通過多線程運(yùn)算達(dá)到快速比對(duì)的結(jié)果；所述格式單元用于整合Picard、 samtool和GATK多種方法對(duì)比對(duì)結(jié)果進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換、排序、質(zhì)量校正，輸出準(zhǔn)確比對(duì)到基因組上的read信息。5. 根據(jù)權(quán)利要求1所述的一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)，其特征在于，所述基因組變異模塊包括gatk-snv單元、varscan-Somatic單元和CNV單元，所述gatk-snv單元用于尋找每個(gè)樣本中的基因組變異，所述varscan-Somatic單元通過對(duì)配對(duì)的組織找變異位點(diǎn)，然后二者之間比較以及相應(yīng)的統(tǒng)計(jì)學(xué)檢驗(yàn)，區(qū)分出該例樣本的生殖細(xì)胞突變和體細(xì)胞突變；所述CNV單元用于外顯子組測(cè)序數(shù)據(jù)找基因組的拷貝數(shù)改變。
【文檔編號(hào)】G06F19/18GK106021984SQ201610319413
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】薛成海, 呂艷玲, 鄭文輝
【申請(qǐng)人】萬康源(天津)基因科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：薛成海;呂艷玲;鄭文輝;
技術(shù)所有人：萬康源(天津)基因科技有限公司;
我是此專利的發(fā)明人

上一篇：一種基因組數(shù)據(jù)壓縮方法
上一篇：一種dna及蛋白質(zhì)水平突變分析方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

外顯子組測(cè)序相關(guān)技術(shù)

全外顯子組測(cè)序相關(guān)技術(shù)

全基因組外顯子測(cè)序相關(guān)技術(shù)

轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種全外顯子組測(cè)序數(shù)據(jù)分析系統(tǒng)的制作方法