一種檢測(cè)cnv的精確斷點(diǎn)及斷點(diǎn)周圍特征的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及CNV斷點(diǎn)檢測(cè)領(lǐng)域,尤其涉及一種檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的方法及裝置。
【背景技術(shù)】
[0002]目前,有很多方法被用來(lái)檢測(cè)CNV,比如split-read的方法(AGE, Pindel,ClipCrop),paired-end 的方法(BreakDancer,PEMer),read-depth 的方法(ReadDepth,CNVnator,CNV-seq), sequence assembly的方法,及綜合方法(DELLY:),這些方法中很多可以達(dá)到單堿基水平的精度,并且具有很高的精確度和靈敏度。但是,受到很多因素的影響,比如mapping error,測(cè)序錯(cuò)誤及存在microhomology的情況等,這些方法檢測(cè)出來(lái)的斷點(diǎn)與真實(shí)的精確斷點(diǎn)還是具有幾十bp的差異的。同時(shí),很多檢測(cè)CNV的方法都是針對(duì)檢測(cè)全基因組的CNV來(lái)設(shè)計(jì)的,因此一般功能比較受局限,細(xì)節(jié)部分不能完善,不能同時(shí)檢測(cè)斷點(diǎn)周圍特征(micro—mutat1ns,insert sequence and microhomology 等),只會(huì)^檢測(cè)部分特征,比如Breakseq軟件可以檢測(cè)microhomology。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的之一是克服現(xiàn)有技術(shù)的不足而提供了一種檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的方法。
[0004]本發(fā)明采用的技術(shù)方案為:一種檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的方法,包括以下步驟:
[0005]使用已知的CNV檢測(cè)軟件檢測(cè)模糊的CNV斷點(diǎn);
[0006]提取模糊的CNV斷點(diǎn)周圍異常的read pairs ;
[0007]找出一端比對(duì)上而另一端被截?cái)嗟膔ead pairs,當(dāng)這樣的read pairs位于斷點(diǎn)附近且有超過(guò)3個(gè)被截?cái)喑^(guò)1bp的高質(zhì)量reads時(shí),通過(guò)計(jì)算高質(zhì)量reads的mapping部分及被剪切部分,即可得到兩個(gè)精確的CNV斷點(diǎn);
[0008]根據(jù)異常的insert size的read pairs來(lái)驗(yàn)證兩個(gè)精確的CNV斷點(diǎn)是否是目標(biāo)CNV的兩個(gè)斷點(diǎn),若驗(yàn)證是,則進(jìn)入下一步;
[0009]提取5’端上游及3’端下游,各2000bp的參考基因組序列,構(gòu)建成4000bp的新序列,同時(shí)把5’端上游2000bp、CNV以及3’端下游2000bp這段區(qū)間內(nèi)的參考基因組序列提取出來(lái)作為第二個(gè)新序列;
[0010]提取精確的CNV斷點(diǎn)周圍所有的read pairs,把read pairs比對(duì)到這兩條新序列上面來(lái)重新檢測(cè)變異,對(duì)于重新檢測(cè)的變異,結(jié)合新序列的在染色體的物理坐標(biāo),得到斷點(diǎn)周圍特征;對(duì)于精確的CNV斷點(diǎn)連接處的插入,用blast在這條染色體上進(jìn)行搜索,并將精確的CNV斷點(diǎn)附近的匹配結(jié)果提取出來(lái),用于后續(xù)CNV產(chǎn)生及DNA修復(fù)機(jī)制的分析。
[0011]作為對(duì)上述技術(shù)方案的進(jìn)一步改進(jìn),所述步驟I)中,CNV檢測(cè)軟件為Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq 中的至少兩種。使用多個(gè) CNV檢測(cè)軟件,尋找出幾乎一樣或者離得極盡的CNV斷點(diǎn),即認(rèn)為此斷點(diǎn)為模糊的CNV斷點(diǎn),這樣可以提高精確的CNV斷點(diǎn)檢測(cè)的準(zhǔn)確率。
[0012]作為對(duì)上述技術(shù)方案的更進(jìn)一步改進(jìn),所述步驟I)中,CNV檢測(cè)軟件為Breakdancer、DELLY 和 CNVnator0
[0013]作為對(duì)上述技術(shù)方案的進(jìn)一步改進(jìn),所述斷點(diǎn)周圍特征包括微同源(microhomologies)、插入(insert1ns)和微突變(micro-mutat1ns)。
[0014]本發(fā)明的目的之二是提供了一種檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的裝置。
[0015]本發(fā)明采用的技術(shù)方案為:一種檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的裝置,包括:
[0016]模糊CNV斷點(diǎn)檢測(cè)模塊,用于使用已知的CNV檢測(cè)軟件檢測(cè)模糊的CNV斷點(diǎn);
[0017]異常read pairs提取模塊,與所述模糊CNV斷點(diǎn)檢測(cè)模塊相連,用于提取模糊的CNV斷點(diǎn)周圍異常的read pairs ;
[0018]精確CNV斷點(diǎn)獲取模塊,與所述異常read pairs提取模塊相連,用于找出一端比對(duì)上而另一端被截?cái)嗟?read pairs,當(dāng)這樣的read pairs位于斷點(diǎn)附近且有超過(guò)3個(gè)被截?cái)喑^(guò)1bp的高質(zhì)量reads時(shí),通過(guò)計(jì)算高質(zhì)量reads的mapping部分及被剪切部分,即可得到兩個(gè)精確的CNV斷點(diǎn);
[0019]精確CNV斷點(diǎn)驗(yàn)證模塊,與所述精確CNV斷點(diǎn)獲取模塊相連,用于根據(jù)異常的insert size的read pairs來(lái)驗(yàn)證兩個(gè)精確的CNV斷點(diǎn)是否是目標(biāo)CNV的兩個(gè)斷點(diǎn);
[0020]新序列建立模塊,與所述精確CNV斷點(diǎn)驗(yàn)證模塊相連,用于提取5’端上游及3’端下游,各2000bp的參考基因組序列,構(gòu)建成4000bp的新序列,同時(shí)把5’端上游2000bp、CNV以及3’端下游2000bp這段區(qū)間內(nèi)的參考基因組序列提取出來(lái)作為第二個(gè)新序列;
[0021]斷點(diǎn)周圍特征獲取模塊,與所述新序列建立模塊相連,用于提取精確的CNV斷點(diǎn)周圍所有的read pairs JGread pairs比對(duì)到這兩條新序列上面來(lái)重新檢測(cè)變異,對(duì)于重新檢測(cè)的變異,結(jié)合新序列的在染色體的物理坐標(biāo),得到斷點(diǎn)周圍特征;對(duì)于精確的CNV斷點(diǎn)連接處的insert1ns,用blast在這條染色體上進(jìn)行搜索,并將精確的CNV斷點(diǎn)附近的匹配結(jié)果提取出來(lái),用于后續(xù)CNV產(chǎn)生及DNA修復(fù)機(jī)制的分析。
[0022]作為對(duì)上述技術(shù)方案的進(jìn)一步改進(jìn),所述CNV檢測(cè)軟件為Breakdancer、DELLY、CNVnator、CrestSV、Pindel、Breakseq中的至少兩種。使用多個(gè)CNV檢測(cè)軟件,尋找出幾乎一樣或者離得極盡的CNV斷點(diǎn),即認(rèn)為此斷點(diǎn)為模糊的CNV斷點(diǎn),這樣可以提高精確的CNV斷點(diǎn)檢測(cè)的準(zhǔn)確率。
[0023]作為對(duì)上述技術(shù)方案的更進(jìn)一步改進(jìn),所述CNV檢測(cè)軟件為Breakdancer、DELLY和 CNVnator。
[0024]作為對(duì)上述技術(shù)方案的進(jìn)一步改進(jìn),所述斷點(diǎn)周圍特征包括微同源(microhomologies)、插入(insert1ns)和微突變(micro-mutat1ns)。
[0025]相對(duì)于現(xiàn)有技術(shù),本發(fā)明的有益效果為:
[0026]本發(fā)明的檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的方法重點(diǎn)考慮到比對(duì)錯(cuò)誤,測(cè)序錯(cuò)誤及相似序列的存在等多種因素,幫助檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征(microhomologies, insert1ns和micro-mutat1ns)。這些詳細(xì)的信息可幫助研究者進(jìn)行臨床診斷及驗(yàn)證,幫助病人知道詳細(xì)的CNV的變異信息,同時(shí)可幫助科學(xué)家研究CNV的發(fā)生機(jī)制及DNA的修復(fù)機(jī)制。
【附圖說(shuō)明】
[0027]圖1是本發(fā)明檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的方法的流程示意圖;
[0028]圖2是本發(fā)明實(shí)施例中使用breakdancer、delly和cnvnator軟件確定模糊CNV斷點(diǎn)的過(guò)程示意圖;
[0029]圖3是本發(fā)明實(shí)施例中確定精確的CNV斷點(diǎn)的過(guò)程示意圖;
[0030]圖4是本發(fā)明實(shí)施例中驗(yàn)證樣本兩端CNV斷點(diǎn)是否正常的過(guò)程示意圖;
[0031]圖5是本發(fā)明實(shí)施例中獲取斷點(diǎn)周圍特征的過(guò)程示意圖;
[0032]圖6是本發(fā)明檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0033]本發(fā)明的目的是提供檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的方法和裝置,本發(fā)明重點(diǎn)考慮到比對(duì)錯(cuò)誤,測(cè)序錯(cuò)誤及相似序列的存在等多種因素,幫助檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征(microhomologies, insert1ns 和 micro-mutat1ns)。
[0034]圖1是本發(fā)明檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的方法的流程示意圖。
[0035]如圖1所示,本發(fā)明檢測(cè)CNV的精確斷點(diǎn)及斷點(diǎn)周圍特征的方法包括以下步驟:
[0036]S102、使用已知的CNV檢測(cè)軟件檢測(cè)模糊的CNV斷點(diǎn);
[0037]已知的CNV檢測(cè)軟件均可在此使用,CNV檢測(cè)軟件軟件可為Breakdancer、DELLY,CNVnator、CrestSV、PindeU Breakseq,但不限于以上幾種;此步驟中得到斷點(diǎn)是比較模糊的斷點(diǎn),一般與精確斷點(diǎn)相差O-1OObp左右;
[0038]S104、提取模糊的CNV斷點(diǎn)周圍異常的read pairs ;
[0039]異常的read pairs指的是異常的insert size,一端比對(duì)上同時(shí)一端被截?cái)嗟膔ead pairs,一端比對(duì)到另外一條染色體上的read pairs,一端比對(duì)上同時(shí)一端比對(duì)不上的read pairs,異常正負(fù)鏈等;
[0040]S106、找出一端比對(duì)上而另一端被截?cái)嗟膔ead pairs,當(dāng)這樣的read pairs位于斷點(diǎn)附近且有超過(guò)3個(gè)被截?cái)喑^(guò)1bp的高質(zhì)量reads時(shí),通過(guò)計(jì)算高質(zhì)量reads的mapping部分及被剪切部分,即可得到兩個(gè)精確的CNV斷點(diǎn);
[0041]S108、根據(jù)異常的insert size的read pairs來(lái)驗(yàn)證兩個(gè)精確的CNV斷點(diǎn)是否是目標(biāo)CNV的兩個(gè)斷點(diǎn),若驗(yàn)證是,則進(jìn)入下一步;由于斷點(diǎn)那里容易出現(xiàn)比對(duì)異常,會(huì)出現(xiàn)mapping error及microhomologies,還需要進(jìn)行以下步驟的微調(diào);
[0042]S110、提取5’端上游及3’端下游,各2000bp的參考基因組序列,構(gòu)建成4000bp的新序列,同時(shí)把5’端上游2000bp,CNV,及3’端下游2000bp這段區(qū)間內(nèi)的參考基因組序列提取出來(lái)作為第二個(gè)新序列;
[0043]S112、提取精確的CNV斷點(diǎn)周圍所有的read pairs JGread pairs比對(duì)到這兩條新序列上面來(lái)重新檢測(cè)變異,對(duì)于重新檢測(cè)的變異,結(jié)合新序列的在染色體的物理坐標(biāo),得到斷點(diǎn)周圍特征;對(duì)于精確的CNV斷點(diǎn)連接處的插入,用blast在這條染色體上進(jìn)行搜索,并將精確的CNV斷點(diǎn)附近的匹配結(jié)果提取出來(lái),用于后續(xù)CNV產(chǎn)生及DNA修復(fù)機(jī)制的分析。
[0044]在本發(fā)明的步驟S110,通過(guò)構(gòu)建兩