二次dna片段化的基因組單倍型高通量測(cè)序方法
【專利摘要】本發(fā)明公開了一種二次DNA片段化的基因組單倍型高通量測(cè)序方法,分兩次對(duì)基因組DNA進(jìn)行片段化后測(cè)序以獲得單倍型信息:第一次DNA片段化將基因組DNA分割成為一系列較長(zhǎng)的核酸片段,在較長(zhǎng)的核酸片段中構(gòu)建一組片段文庫(kù),對(duì)每個(gè)片段文庫(kù)進(jìn)行擴(kuò)增;將擴(kuò)增后的較長(zhǎng)的核酸片段進(jìn)行第二次DNA片段化,第二次DNA片段化后得到較短的核酸片段,每個(gè)片段文庫(kù)獨(dú)立構(gòu)建測(cè)序文庫(kù)并分別進(jìn)行高通量測(cè)序,測(cè)序的結(jié)果首先在每個(gè)片段文庫(kù)內(nèi)部進(jìn)行序列比對(duì)或拼接,獲得較長(zhǎng)的核酸序列后進(jìn)行跨片段文庫(kù)的序列比對(duì)和拼接,從而實(shí)現(xiàn)利用高通量測(cè)序獲得基因組單倍型信息。本發(fā)明方法實(shí)現(xiàn)了利用高通量測(cè)序獲得基因組單倍型信息,且簡(jiǎn)單、效率高。
【專利說明】二次DNA片段化的基因組單倍型高通量測(cè)序方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于生物【技術(shù)領(lǐng)域】,是一種實(shí)現(xiàn)對(duì)基因組進(jìn)行單倍型測(cè)定的高通量測(cè)序方法,具體涉及一種對(duì)基因組DNA的兩次片段化后編碼、解碼及核酸序列組裝的測(cè)序方法。
【背景技術(shù)】
[0002]人類基因組計(jì)劃和各種生物基因組計(jì)劃的開展和完成,使人類步入了后基因組時(shí)代,對(duì)當(dāng)代的生命科學(xué)研究產(chǎn)生了巨大而深遠(yuǎn)的影響,分子生物學(xué)等相關(guān)學(xué)科獲得迅猛發(fā)展,從基因水平上認(rèn)識(shí)生命的差異,疾病發(fā)生、發(fā)展的規(guī)律,藥物與生命體的相互作用,不同物種之間的遺傳差異以及同一物種內(nèi)部不同個(gè)體間的遺傳差異成為可能。就基因序列分析而言,后基因組時(shí)代的重點(diǎn)已由全基因組序列測(cè)定轉(zhuǎn)移到了對(duì)基因組中個(gè)體遺傳差異及物種間遺傳差異的比較。
[0003]單倍體基因型,簡(jiǎn)稱單倍型,指在同一染色體上進(jìn)行共同遺傳的多個(gè)基因座上等位基因的組合,單倍型有時(shí)可指同一條染色體上所有基因組上等位基因組的組合,單倍型是上述遺傳差異的直接體現(xiàn)。由于大量的真核生物的基因組是雙倍體或多倍體,在同一生物個(gè)體內(nèi)存在兩條或多條同源染色體,這些同源染色體間核苷酸鏈的長(zhǎng)度、堿基的位置和排列順序相近。根據(jù)物種的不同,這些同源染色體間平均數(shù)百至數(shù)千堿基存在一個(gè)堿基的差別。由于以上這些特點(diǎn),盡管存在通量低和價(jià)格高的問題,傳統(tǒng)的Sanger DNA測(cè)序法依然是進(jìn)行單倍型研究的有用但并不高效的方法。Sanger DNA測(cè)序法進(jìn)行單倍型研究時(shí),首先需要利用各種克隆載體,比如BAC細(xì)菌人工染色體、YAC酵母人工染色體等,將所需研究的基因組分割成一定長(zhǎng)度的片段并進(jìn)行克隆,隨后對(duì)逐段逐步地測(cè)定其中的核酸序列以獲得較大長(zhǎng)度的單倍型信息。第一個(gè)人類基因組序列測(cè)定即采用的這一方案,花費(fèi)了大約為10億美元,雖然目前這一費(fèi)用已經(jīng)有所降低,但單倍型的研究仍然受限于DNA測(cè)序技術(shù)。高通量DNA測(cè)序技術(shù),具有通量高、速度快、成本低等特點(diǎn),在近十年得到了飛速的發(fā)展,并成為國(guó)際上一個(gè)競(jìng)爭(zhēng)十分激烈的研究領(lǐng)域,多家公司均有成熟的商品化儀器上市,如Roche公司的焦磷酸測(cè)序技術(shù),Illumina公司的延伸測(cè)序技術(shù),Life Technology公司的連接測(cè)序技術(shù)和PH敏感場(chǎng)效應(yīng)管測(cè)序技術(shù)等。然而這些高通量DNA測(cè)序技術(shù)均無法高效地進(jìn)行基因組單倍型的分析,其原因是高通量DNA測(cè)序之前需要將基因組DNA打斷成一定長(zhǎng)度的核酸片段,對(duì)每個(gè)片段進(jìn)行并行測(cè)序后再與參考序列比較以確定每個(gè)片段在基因組的中位置,受制于高通量測(cè)序的測(cè)序讀長(zhǎng),每條連續(xù)測(cè)序片段的長(zhǎng)度一般為幾十到幾百個(gè)堿基,這一長(zhǎng)度的核酸片段無法在兩條或多條同源染色體之間定位。因此一種方法簡(jiǎn)單、效率高的高通量測(cè)定基因組單倍型序列信息的方法的開發(fā)很有必要。
【發(fā)明內(nèi)容】
[0004]發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是提供一種對(duì)基因組進(jìn)行兩次片段化以實(shí)現(xiàn)高通量測(cè)定基因組單倍型序列信息的方法,本發(fā)明的方法不僅有助于高通量測(cè)序在基因組單倍型研究中的應(yīng)用,而且還能夠大幅度降低基因組單倍型分析的成本,其具有方法簡(jiǎn)單、效率高的優(yōu)點(diǎn)。
[0005]
【發(fā)明內(nèi)容】
:為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)手段為:
[0006]一種二次DNA片段化的基因組單倍型高通量測(cè)序方法,分兩次對(duì)基因組DNA進(jìn)行片段化后測(cè)序以獲得單倍型信息:第一次DNA片段化將基因組DNA分割成為一系列較長(zhǎng)的核酸片段,在較長(zhǎng)的核酸片段中構(gòu)建一組片段文庫(kù),對(duì)每個(gè)片段文庫(kù)進(jìn)行擴(kuò)增;將擴(kuò)增后的較長(zhǎng)的核酸片段進(jìn)行第二次DNA片段化,第二次DNA片段化后得到較短的核酸片段,每個(gè)片段文庫(kù)獨(dú)立構(gòu)建測(cè)序文庫(kù)并分別進(jìn)行高通量測(cè)序,測(cè)序的結(jié)果首先在每個(gè)片段文庫(kù)內(nèi)部進(jìn)行序列比對(duì)或拼接,獲得較長(zhǎng)的核酸序列后進(jìn)行跨片段文庫(kù)的序列比對(duì)和拼接,從而實(shí)現(xiàn)利用高通量測(cè)序獲得基因組單倍型信息。
[0007]其中,所述高通量測(cè)序是指通過核酸鏈的合成反應(yīng)、核酸的連接反應(yīng)、核酸的降解反應(yīng)或核酸鏈通過納米孔道大規(guī)模并行測(cè)定核酸序列信息。
[0008]其中,所述DNA片段化是指通過超聲打斷、機(jī)械拉斷、剪切力拉斷、核酸酶酶切、自然降解或化學(xué)降解方法使DNA由長(zhǎng)片段斷裂成為短片段。
[0009]其中,所述基因組DNA是由一個(gè)完整基因組構(gòu)成或者一個(gè)完整基因組的一部分構(gòu)成,所述基因組DNA的含量是I個(gè)拷貝或者是多個(gè)拷貝。
[0010]其中,所述單倍型信息是一條完整的染色體或核酸鏈的單倍型信息或者是一段較長(zhǎng)的核酸鏈的單倍型信息。
[0011]其中,所述較長(zhǎng)的核酸片段的長(zhǎng)度在1000堿基到10億堿基之間,所述較短的核酸片段的長(zhǎng)度在35堿基到10萬堿基之間。
[0012]其中,所述擴(kuò)增是指在基因組水平進(jìn)行的非特異性擴(kuò)增,所述擴(kuò)增為采用聚合酶鏈?zhǔn)椒磻?yīng)擴(kuò)增或采用聚合酶等溫?cái)U(kuò)增。
[0013]其中,每個(gè)所述片段文庫(kù)中核酸片段的總長(zhǎng)度小于單倍體基因組DNA全長(zhǎng),每個(gè)所述片段文庫(kù)中一半以上的核酸片段彼此之間不包含等位區(qū)域。
[0014]其中,所述每個(gè)片段文庫(kù)獨(dú)立構(gòu)建測(cè)序文庫(kù)并分別進(jìn)行高通量測(cè)序是指每個(gè)片段文庫(kù)獨(dú)立構(gòu)建完全獨(dú)立的文庫(kù)并分別進(jìn)行測(cè)序或者使用條碼技術(shù)基于多個(gè)片段文庫(kù)構(gòu)建編碼文庫(kù)進(jìn)行高通量測(cè)序。
[0015]其中,所述序列比對(duì)和拼接是在有參考序列的幫助下進(jìn)行或者在沒有參考序列的幫助下進(jìn)行。
[0016]本發(fā)明的技術(shù)原理如下:
[0017]來自多個(gè)拷貝的雙倍型或多倍型生物的基因組在第一次片段化后,被打斷成一組長(zhǎng)度較長(zhǎng)的核酸片段,根據(jù)研究需要和片段化方法的不同,片段的長(zhǎng)度從數(shù)千堿基至數(shù)百兆堿基不等,但在同一次反應(yīng)中所得到的核酸片段長(zhǎng)度相當(dāng)。隨后將這一組含有多個(gè)基因組拷貝不同片段的混合片段分為一組片段文庫(kù),每個(gè)片段文庫(kù)內(nèi)的核酸片段數(shù)量根據(jù)基因組倍型數(shù)量、基因組大小、核酸片段長(zhǎng)度、等位基因片段出現(xiàn)概率確定,以保證在同一片段文庫(kù)中,多數(shù)片段之間不含有等位基因或等位序列。一個(gè)片段文庫(kù)中片段數(shù)量與片段平均長(zhǎng)度的乘積,即堿基數(shù)目總和,小于或等于該樣本單倍型基因組堿基數(shù)的一半。通過這一分組,將雙倍型或多倍型的基因組人工分隔成為一系列單倍型亞基因組規(guī)模文庫(kù)的組合,即片段文庫(kù)的組合。隨后每個(gè)片段文庫(kù)經(jīng)擴(kuò)增后獨(dú)立構(gòu)建測(cè)序文庫(kù),片段文庫(kù)內(nèi)的核酸片段被二次打斷成幾十至數(shù)百個(gè)堿基的小片段,用于構(gòu)建測(cè)序文庫(kù),之后通過高通量測(cè)序平臺(tái)中對(duì)各個(gè)小片段進(jìn)行測(cè)序。測(cè)序完成后,每個(gè)片段文庫(kù)內(nèi)的小片段的測(cè)序結(jié)果與參考基因組序列進(jìn)行比對(duì)。由于每個(gè)片段文庫(kù)內(nèi)的小片段來源于一系列長(zhǎng)核酸片段文庫(kù),因此比對(duì)后可以獲得一組長(zhǎng)度較長(zhǎng)的單倍型片段。將不同的片段文庫(kù)內(nèi)比對(duì)得出的較長(zhǎng)的單倍型片段進(jìn)行組裝,即可獲得完整的單倍型基因組。
[0018]有益效果:相比于現(xiàn)有技術(shù),本發(fā)明的基因組單倍型高通量測(cè)序方法簡(jiǎn)單、效率高,大幅度降低了基因組單倍型分析的成本,并且實(shí)現(xiàn)了利用高通量測(cè)序獲得基因組單倍型信息,即通過兩次片段化的過程,利用較短片段的高通量測(cè)序?qū)崿F(xiàn)長(zhǎng)片段基因組單倍型信息的判讀;另外,本發(fā)明的方法適用面廣,既適用于雜合度較低的雙倍型人類基因組的單倍型分析,又適用于其他雜合度高或者多倍型的基因組的單倍型分析。
【專利附圖】
【附圖說明】
[0019]圖1是本發(fā)明的總體流程示意圖,完整的基因組或者長(zhǎng)的核酸鏈經(jīng)過第一次片段化過程后,形成一組較長(zhǎng)的核酸片段,隨后將由一個(gè)或多個(gè)核酸鏈片段化得到的較長(zhǎng)的核酸片段分為多個(gè)片段文庫(kù),每個(gè)片段文庫(kù)內(nèi)的較長(zhǎng)的核酸片段經(jīng)過二次片段化形成較短的核酸片段。每個(gè)片段文庫(kù)內(nèi)較短的核酸片段獨(dú)立構(gòu)建測(cè)序文庫(kù)并分別測(cè)序,通過第一次比對(duì)和拼接獲得較長(zhǎng)的核酸片段,通過第二次比對(duì)和拼接獲得單倍型信息;
[0020]圖2是本發(fā)明的詳細(xì)過程示意圖:①是本發(fā)明測(cè)序的基因組DNA樣本,為3個(gè)拷貝的雙倍型基因組,用白色和黑色分別表示一對(duì)同源染色體基因組DNA被第一次片段化為長(zhǎng)度較長(zhǎng)的核酸片段,每條完整的核酸鏈被片段化為10條長(zhǎng)度較長(zhǎng)的核酸片段,共60條片段;③是將全部60條較長(zhǎng)的核酸片段分為10個(gè)片段文庫(kù),每個(gè)片段文庫(kù)包含6條核酸片段;④每個(gè)片段文庫(kù)中的較長(zhǎng)的核酸片段被再次打斷成較短的核酸片段,構(gòu)建高通量測(cè)序文庫(kù),每個(gè)片段文庫(kù)中每個(gè)較長(zhǎng)的核酸片段被再次打碎成5條較短的核酸片段,隨后每個(gè)片段文庫(kù)被獨(dú)立的測(cè)序并進(jìn)行生物信息分析,最終獲得基因組單倍型信息。
【具體實(shí)施方式】
[0021]以下結(jié)合附圖對(duì)本發(fā)明進(jìn)行進(jìn)一步說明。
[0022]本發(fā)明通過對(duì)基因組DNA的兩次片段化實(shí)現(xiàn)單倍體基因組的高通量測(cè)序,第一次片段化過程,將基因組DNA打斷成一組序列長(zhǎng)度較長(zhǎng)的核酸片段,分別吸取一定數(shù)量的核酸片段作為片段文庫(kù)1、片段文庫(kù)2……片段文庫(kù)N,每個(gè)片段文庫(kù)內(nèi)的核酸片段數(shù)量根據(jù)基因組大小、片段長(zhǎng)度、等位片段出現(xiàn)概率確定,N個(gè)片段文庫(kù)總片段數(shù)量滿足高通量測(cè)序深度的需要;對(duì)每個(gè)片段文庫(kù)內(nèi)較長(zhǎng)的核酸片段進(jìn)行二次打斷,二次打斷后的片段長(zhǎng)度滿足測(cè)序平臺(tái)的要求,隨后構(gòu)建高通量測(cè)序文庫(kù)進(jìn)行獨(dú)立測(cè)序或編碼混合測(cè)序;如采用獨(dú)立測(cè)序方式,在測(cè)序完成后,直接將測(cè)序片段與參考序列進(jìn)行比對(duì);如采用編碼混合測(cè)序方式,在測(cè)序完成后首先進(jìn)行條碼的解碼以確定每個(gè)測(cè)序片段的片段文庫(kù)歸屬,再與參考序列比對(duì);根據(jù)本發(fā)明的設(shè)計(jì),在同一片段文庫(kù)內(nèi),多數(shù)片段均沒有另外一條或多條含有相同等位基因的片段存在,因此每個(gè)獨(dú)立混合庫(kù)內(nèi)可以比對(duì)、拼接出含有多個(gè)SNP位點(diǎn)較長(zhǎng)的單倍型片段;最后利用這些含有較長(zhǎng)SNP位點(diǎn)的單倍型片段進(jìn)行拼接,獲得長(zhǎng)度更長(zhǎng)的單倍型乃至單條染色體的完整序列。
[0023]如圖1?2所示,本發(fā)明的二次片段化的基因組單倍型高通量測(cè)序方法,步驟1,選取待測(cè)序的基因組DNA樣本,基因組DNA可以是雙倍型,也可以是多倍型,基因組DNA的拷貝數(shù)量可以是I個(gè),也可以是多個(gè);步驟2,將基因組DNA第一次片段化分割成為一系列較長(zhǎng)的核酸片段;步驟3,在較長(zhǎng)的核酸片段中構(gòu)建一組片段文庫(kù)(每個(gè)片段文庫(kù)內(nèi)的核酸片段總長(zhǎng)小于一個(gè)基因組的大小,步驟2中第一次片段化所得較長(zhǎng)的核酸片段可以在步驟3被全部使用,也可以不被全部使用);步驟4,對(duì)每個(gè)片段文庫(kù)進(jìn)行擴(kuò)增,擴(kuò)增后較長(zhǎng)的核酸片段被再次片段化為較短的核酸片段,每個(gè)片段文庫(kù)獨(dú)立構(gòu)建測(cè)序文庫(kù)并分別進(jìn)行高通量測(cè)序,測(cè)序的結(jié)果首先在每個(gè)片段文庫(kù)內(nèi)部進(jìn)行序列比對(duì)或拼接,獲得較長(zhǎng)的核酸序列后進(jìn)行跨片段文庫(kù)的序列比對(duì)和拼接,從而實(shí)現(xiàn)利用高通量測(cè)序獲得基因組單倍型信息。
[0024]實(shí)施例1:
[0025]一種二次DNA片段化的基因組單倍型高通量測(cè)序方法,分兩次對(duì)基因組DNA進(jìn)行片段化后測(cè)序以獲得單倍型信息:第一次DNA片段化將基因組DNA分割成為一系列較長(zhǎng)的核酸片段,在較長(zhǎng)的核酸片段中構(gòu)建一組片段文庫(kù),對(duì)每個(gè)片段文庫(kù)進(jìn)行擴(kuò)增;將擴(kuò)增后的較長(zhǎng)的核酸片段進(jìn)行第二次DNA片段化,第二次DNA片段化后得到較短的核酸片段,每個(gè)片段文庫(kù)獨(dú)立構(gòu)建測(cè)序文庫(kù)并分別進(jìn)行高通量測(cè)序,測(cè)序的結(jié)果首先在每個(gè)片段文庫(kù)內(nèi)部進(jìn)行序列比對(duì)或拼接,獲得較長(zhǎng)的核酸序列后進(jìn)行跨片段文庫(kù)的序列比對(duì)和拼接,從而實(shí)現(xiàn)利用高通量測(cè)序獲得基因組單倍型信息。
[0026]其中,所述高通量測(cè)序是指通過核酸鏈的合成反應(yīng)、核酸的連接反應(yīng)、核酸的降解反應(yīng)或核酸鏈通過納米孔道大規(guī)模并行測(cè)定核酸序列信息。
[0027]其中,所述DNA片段化是指通過超聲打斷、機(jī)械拉斷、剪切力拉斷、核酸酶酶切、自然降解或化學(xué)降解方法使DNA由長(zhǎng)片段斷裂成為短片段。
[0028]其中,所述基因組DNA是由一個(gè)完整基因組構(gòu)成或者一個(gè)完整基因組的一部分構(gòu)成,所述基因組DNA的含量是I個(gè)拷貝或者是多個(gè)拷貝。
[0029]其中,所述單倍型信息是一條完整的染色體或核酸鏈的單倍型信息或者是一段較長(zhǎng)的核酸鏈的單倍型信息。
[0030]其中,所述較長(zhǎng)的核酸片段的長(zhǎng)度在1000堿基到10億堿基之間,所述較短的核酸片段的長(zhǎng)度在35堿基到10萬堿基之間。
[0031]其中,所述擴(kuò)增是指在基因組水平進(jìn)行的非特異性擴(kuò)增,所述擴(kuò)增為采用聚合酶鏈?zhǔn)椒磻?yīng)擴(kuò)增或采用聚合酶等溫?cái)U(kuò)增。
[0032]其中,每個(gè)所述片段文庫(kù)中核酸片段的總長(zhǎng)度小于單倍體基因組DNA全長(zhǎng),每個(gè)所述片段文庫(kù)中一半以上的核酸片段彼此之間不包含等位區(qū)域。
[0033]其中,所述每個(gè)片段文庫(kù)獨(dú)立構(gòu)建測(cè)序文庫(kù)并分別進(jìn)行高通量測(cè)序是指每個(gè)片段文庫(kù)獨(dú)立構(gòu)建完全獨(dú)立的文庫(kù)并分別進(jìn)行測(cè)序或者使用條碼技術(shù)基于多個(gè)片段文庫(kù)構(gòu)建編碼文庫(kù)進(jìn)行高通量測(cè)序。
[0034]其中,所述序列比對(duì)和拼接是在有參考序列的幫助下進(jìn)行或者在沒有參考序列的幫助下進(jìn)行。
[0035]實(shí)施例2:
[0036]二次片段化的基因組單倍型高通量測(cè)序方法進(jìn)行人類全基因組單倍型分析:
[0037]采用酚氯仿法提取人類全基因組DNA,由于酚氯仿法自身的特性,人類基因組會(huì)斷裂成為長(zhǎng)度約為30Kbp的較長(zhǎng)的核酸片段。
[0038]人類全基因組DNA的總長(zhǎng)度約為3Gbp,因此一個(gè)拷貝的人類基因組包含約10萬個(gè)上述長(zhǎng)約為30Kbp的片段。每個(gè)堿基對(duì)的平均分子量為650,因此通過計(jì)算可知3Gbp核酸的絕對(duì)質(zhì)量約為3.24皮克(I皮克=10_12克),每I萬個(gè)30Kbp的片段的絕對(duì)質(zhì)量為0.324皮克。
[0039]利用紫外分光光度計(jì)對(duì)提取的基因組DNA進(jìn)行定量,定量進(jìn)行梯度稀釋,隨后吸取100組核酸片段,每組核酸片段的質(zhì)量為0.324皮克,由上述計(jì)算可知每組核酸片段包含I萬個(gè)30Kbp的片段,這樣一組核酸片段稱為一個(gè)片段文庫(kù)。100組核酸片段共構(gòu)建100個(gè)片段文庫(kù)。利用基于Phi 29DNA聚合酶及隨機(jī)引物的多重鏈替換方法對(duì)每個(gè)片段文庫(kù)進(jìn)行獨(dú)立全基因組擴(kuò)增,以提高每個(gè)片段文庫(kù)中DNA鏈的數(shù)量及核酸的總質(zhì)量。之后,將每個(gè)片段文庫(kù)中的擴(kuò)增產(chǎn)物采用超聲的辦法打斷成為長(zhǎng)約200bp的短片段,在短片段兩端連接上測(cè)序所需的通用接頭,隨后在高通量DNA測(cè)序儀上進(jìn)行隨機(jī)片段文庫(kù)測(cè)序,每個(gè)獨(dú)立的片段文庫(kù)至少獲得4000萬條長(zhǎng)度150bp的核酸序列。
[0040]將這4000萬條長(zhǎng)度為150bp的核酸序列與人類基因組的參考序列進(jìn)行比對(duì),由于這4000萬條150bp的序列來源于I萬條30Kbp的片段,因此比對(duì)過程中在基因組的大約I萬個(gè)區(qū)域出現(xiàn)密集匹配,平均每個(gè)區(qū)域的覆蓋深度為20倍。經(jīng)過這一輪比對(duì),可以獲得大約I萬條30Kbp左右的核酸序列。尤為重要的是,I萬條30Kbp僅能覆蓋人類基因組1/10的區(qū)域,雖然人是雙倍體,在第一次片段化后取得的I萬條片段彼此之間包含等位基因的平均概率小于1/10。因此這I萬條30Kbp左右的核酸序列中的90%的序列彼此之間不重疊,是單倍型片段。
[0041]隨后將全部100個(gè)片段文庫(kù)中的共1000萬條30Kbp左右的核酸序列在人類參考基因組的幫助下進(jìn)行單倍型的拼接。人的基因組中平均約600-1000bp就會(huì)出現(xiàn)一個(gè)SNP,因此雖然一個(gè)個(gè)體的兩套染色體相似程度很高,但來源于兩套染色體的長(zhǎng)度為30Kbp的同源片段之間,也會(huì)存在至少30個(gè)堿基的差異。因此拼接過程中可以基于兩套染色體進(jìn)行獨(dú)立的單倍型拼接,100個(gè)片段文庫(kù)中可覆蓋整個(gè)單倍型基因組10倍,由此獲得兩套獨(dú)立的基因組單倍型。
【權(quán)利要求】
1.二次DNA片段化的基因組單倍型高通量測(cè)序方法,其特征在于:分兩次對(duì)基因組DNA進(jìn)行片段化后測(cè)序以獲得單倍型信息:第一次DNA片段化將基因組DNA分割成為一系列較長(zhǎng)的核酸片段,在較長(zhǎng)的核酸片段中構(gòu)建一組片段文庫(kù),對(duì)每個(gè)片段文庫(kù)進(jìn)行擴(kuò)增;將擴(kuò)增后的較長(zhǎng)的核酸片段進(jìn)行第二次DNA片段化,第二次DNA片段化后得到較短的核酸片段,每個(gè)片段文庫(kù)獨(dú)立構(gòu)建測(cè)序文庫(kù)并分別進(jìn)行高通量測(cè)序,測(cè)序的結(jié)果首先在每個(gè)片段文庫(kù)內(nèi)部進(jìn)行序列比對(duì)或拼接,獲得較長(zhǎng)的核酸序列后進(jìn)行跨片段文庫(kù)的序列比對(duì)和拼接,從而實(shí)現(xiàn)利用高通量測(cè)序獲得基因組單倍型信息。
2.根據(jù)權(quán)利要求1所述的二次DNA片段化的基因組單倍型高通量測(cè)序方法,其特征在于:所述高通量測(cè)序是指通過核酸鏈的合成反應(yīng)、核酸的連接反應(yīng)、核酸的降解反應(yīng)或核酸鏈通過納米孔道大規(guī)模并行測(cè)定核酸序列信息。
3.根據(jù)權(quán)利要求1所述的二次DNA片段化的基因組單倍型高通量測(cè)序方法,其特征在于:所述DNA片段化是指通過超聲打斷、機(jī)械拉斷、剪切力拉斷、核酸酶酶切、自然降解或化學(xué)降解方法使DNA由長(zhǎng)片段斷裂成為短片段。
4.根據(jù)權(quán)利要求1所述的二次DNA片段化的基因組單倍型高通量測(cè)序方法,其特征在于:所述基因組DNA是由一個(gè)完整基因組構(gòu)成或者一個(gè)完整基因組的一部分構(gòu)成,所述基因組DNA的含量是I個(gè)拷貝或者是多個(gè)拷貝。
5.根據(jù)權(quán)利要求1所述的二次DNA片段化的基因組單倍型高通量測(cè)序方法,其特征在于:所述單倍型信息是一條完整的染色體或核酸鏈的單倍型信息或者是一段較長(zhǎng)的核酸鏈的單倍型信息。
6.根據(jù)權(quán)利要求1所述的二次DNA片段化的基因組單倍型高通量測(cè)序方法,其特征在于:所述較長(zhǎng)的核酸片段的長(zhǎng)度在1000堿基到10億堿基之間,所述較短的核酸片段的長(zhǎng)度在35堿基到10萬堿基之間。
7.根據(jù)權(quán)利要求1所述的二次DNA片段化的基因組單倍型高通量測(cè)序方法,其特征在于:所述擴(kuò)增是指在基因組水平進(jìn)行的非特異性擴(kuò)增,所述擴(kuò)增為采用聚合酶鏈?zhǔn)椒磻?yīng)擴(kuò)增或采用聚合酶等溫?cái)U(kuò)增。
8.根據(jù)權(quán)利要求1所述的二次DNA片段化的基因組單倍型高通量測(cè)序方法,其特征在于:每個(gè)所述片段文庫(kù)中核酸片段的總長(zhǎng)度小于單倍體基因組DNA全長(zhǎng),每個(gè)所述片段文庫(kù)中一半以上的核酸片段彼此之間不包含等位區(qū)域。
9.根據(jù)權(quán)利要求1所述的二次DNA片段化的基因組單倍型高通量測(cè)序方法,其特征在于:所述每個(gè)片段文庫(kù)獨(dú)立構(gòu)建測(cè)序文庫(kù)并分別進(jìn)行高通量測(cè)序是指每個(gè)片段文庫(kù)獨(dú)立構(gòu)建完全獨(dú)立的文庫(kù)并分別進(jìn)行測(cè)序或者使用條碼技術(shù)基于多個(gè)片段文庫(kù)構(gòu)建編碼文庫(kù)進(jìn)行高通量測(cè)序。
10.根據(jù)權(quán)利要求1所述的二次DNA片段化的基因組單倍型高通量測(cè)序方法,其特征在于:所述序列比對(duì)和拼接是在有參考序列的幫助下進(jìn)行或者在沒有參考序列的幫助下進(jìn)行。
【文檔編號(hào)】C12Q1/68GK104357563SQ201410606732
【公開日】2015年2月18日 申請(qǐng)日期:2014年10月30日 優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】涂景, 陸祖宏, 高珅, 郭靖, 段夢(mèng)沁, 喬祎 申請(qǐng)人:東南大學(xué)