基因組預(yù)定區(qū)域核酸測(cè)序文庫(kù)的構(gòu)建方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物技術(shù)領(lǐng)域,特別是測(cè)序技術(shù)領(lǐng)域,具體地涉及基因組預(yù)定區(qū)域核 酸測(cè)序文庫(kù)的構(gòu)建方法及裝置,更具體地,涉及構(gòu)建基因組預(yù)定區(qū)域核酸測(cè)序文庫(kù)的方法、 確定基因組預(yù)定區(qū)域核酸序列的方法、用于構(gòu)建基因組預(yù)定區(qū)域核酸測(cè)序文庫(kù)的裝置以及 用于確定基因組預(yù)定區(qū)域核酸序列的系統(tǒng)。
【背景技術(shù)】
[0002] SNP (Single Nucleotide Polymorphism),B卩單核苷酸多態(tài)性標(biāo)記,又稱(chēng)單核苷酸 多態(tài)性,指DNA序列中單個(gè)堿基的差別。一個(gè)SNP的含義是給定的一個(gè)群體中,超過(guò)1%的 個(gè)體在給定的遺傳區(qū)域內(nèi)發(fā)生一次核苷酸改變,是一個(gè)物種中不同個(gè)體表型的主要遺傳來(lái) 源。SNP具有數(shù)量多、分布廣泛、適于快速規(guī)?;Y查、易于基因分型等優(yōu)點(diǎn),因此,SNP標(biāo)記 成為目前最常用的第三代遺傳標(biāo)記。近些年來(lái),SNP在疾病的基因診斷、制作生物高密度遺 傳連鎖圖譜、分子標(biāo)記輔助育種、數(shù)量性狀位點(diǎn)定位等方面得到了廣泛的應(yīng)用。
[0003] 然而,目前的SNP檢測(cè)分型方法仍有待改進(jìn)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一。為此,本發(fā)明的一個(gè)目的 在于提出一種能夠?qū)NP位點(diǎn)進(jìn)行快速、準(zhǔn)確、有效的檢測(cè)分型,且檢測(cè)特異性好、靈敏度 和覆蓋度高、重復(fù)性好,成本低、操作簡(jiǎn)單、易推廣的方法。
[0005] 需要說(shuō)明的是,本發(fā)明是基于發(fā)明人的下列發(fā)現(xiàn)而完成的:
[0006] 發(fā)明人對(duì)目前常用的SNP位點(diǎn)檢測(cè)分型技術(shù)進(jìn)行了深入分析,分析結(jié)果如下:
[0007] 基因分型芯片技術(shù)具有快速和高效的優(yōu)點(diǎn),得到了研究人員和育種者的大量應(yīng) 用。但該方法也存在一些缺點(diǎn),如只能針對(duì)已知的SNP位點(diǎn)進(jìn)行分型,儀器復(fù)雜、不易推廣。 Illumina和Affymetrix等公司以及各個(gè)國(guó)家相繼開(kāi)發(fā)了幾種重要畜牧物種的覆蓋全基因 組范圍的不同密度的基因芯片。
[0008] 直接測(cè)序得到SNP是檢測(cè)SNP最直觀(guān)的方法。特別是最近幾年高通量測(cè)序技術(shù)的 發(fā)展,使得大量、快速地尋找SNP有了可能。其中重測(cè)序是最全面,密度最高的方法,能夠在 全基因組范圍內(nèi)挖掘到SNP,indel,SV等,但成本較高,且需要有基因組信息;最近幾年發(fā) 展出幾種RAD的方法,在酶切位點(diǎn)附近尋找SNP位點(diǎn),降低了測(cè)序量與成本,且對(duì)于無(wú)基因 組信息的物種也可以進(jìn)行基因分型,并且可以利用不同的限制性?xún)?nèi)切酶的組合得到不同密 度的SNP位點(diǎn),可以滿(mǎn)足科研與育種工作的要求,如RAD,ddRAD,2bRAD等。
[0009] 目標(biāo)區(qū)域捕獲技術(shù)(Target - enrichment method)可以在樣品的基因組測(cè)序之 前對(duì)目標(biāo)區(qū)域進(jìn)行捕獲,對(duì)捕獲的區(qū)域進(jìn)行測(cè)序,能夠降低測(cè)序的總量,從而減少費(fèi)用和時(shí) 間,同時(shí)降低了后續(xù)分析的難度??梢杂媚繕?biāo)區(qū)域捕獲的技術(shù)對(duì)SNP位點(diǎn)附近的區(qū)域進(jìn)行 捕獲,然后將捕獲的片段進(jìn)行建庫(kù),而后用測(cè)序的方法得到目標(biāo)SNP位點(diǎn)的基因型。目前已 經(jīng)發(fā)展了幾種目標(biāo)區(qū)域捕獲技術(shù),例如PCR、MIP、固相芯片和液相芯片,可以根據(jù)研究的需 要選擇合適的技術(shù),主要的技術(shù)指標(biāo)是特異性、靈敏度、覆蓋度、重復(fù)性、費(fèi)用和操作性。其 中液相芯片技術(shù)具有高度的靈活性,研究者可以根據(jù)自己的需要選擇位點(diǎn),特異性、靈敏度 是幾個(gè)方法中最高的,而且操作簡(jiǎn)便,不需要昂貴的硬件支持,成為很多研究者進(jìn)行目標(biāo)區(qū) 域捕獲的首選。
[0010] 針對(duì)目標(biāo)區(qū)域捕獲進(jìn)行探針設(shè)計(jì)時(shí),通用的原則為疊瓦式,即確定一段區(qū)域后, 用探針間有overlap的方法設(shè)計(jì)探針,此方法適用于對(duì)一段區(qū)域進(jìn)行捕獲,或用hiseq, proton等平臺(tái)對(duì)目標(biāo)SNP進(jìn)行捕獲分型。但是當(dāng)應(yīng)用探針進(jìn)行目標(biāo)SNP捕獲并應(yīng)用CG平 臺(tái)進(jìn)行測(cè)序時(shí),由于CG測(cè)序讀長(zhǎng)比較短(28bp+28bp),經(jīng)常出現(xiàn)目標(biāo)SNP位點(diǎn)被捕獲但不能 被測(cè)到的情況,大大浪費(fèi)了數(shù)據(jù)量。具體地:針對(duì)目標(biāo)區(qū)域捕獲時(shí),如圖la所示,探針設(shè)計(jì) 的方法一般如下:確定目標(biāo)區(qū)域,對(duì)區(qū)域進(jìn)行延伸,確定探針的長(zhǎng)度和覆蓋乘數(shù),當(dāng)乘數(shù)>1 時(shí),設(shè)計(jì)為疊瓦式。其它考慮的重要參數(shù)包括:探針的熔解溫度,探針是否含有發(fā)夾結(jié)構(gòu),探 針與參考基因組比對(duì)時(shí)可以比對(duì)到幾個(gè)位置,探針的最大GC含量,重復(fù)區(qū)過(guò)濾。目前的方 法中,進(jìn)行目標(biāo)SNP的捕獲與測(cè)序時(shí),將目標(biāo)SNP位點(diǎn)向兩端延伸,將延伸后的片段看作目 標(biāo)區(qū)域,運(yùn)用與區(qū)域捕獲相似的方法進(jìn)行后期的捕獲以及建庫(kù)測(cè)序流程。但是,如圖lb所 示,發(fā)明人發(fā)現(xiàn),當(dāng)運(yùn)用相同的探針設(shè)計(jì)方案時(shí),雖然在IIlumina的Hiseq平臺(tái),以及Ion Proton平臺(tái),打斷片段為150bp~250bp,測(cè)序讀長(zhǎng)為100bp以上時(shí),目標(biāo)SNP位點(diǎn)大多可 被檢測(cè)到,但當(dāng)運(yùn)用CG平臺(tái)進(jìn)行2-adapter建庫(kù)測(cè)序時(shí),該方案存在的問(wèn)題是:目標(biāo)SNP所 在的延伸區(qū)域被捕獲到,由于CG平臺(tái)讀長(zhǎng)較短,導(dǎo)致目標(biāo)SNP位點(diǎn)未被測(cè)到,延伸區(qū)域的測(cè) 序深度呈雙峰型,而目標(biāo)SNP位點(diǎn)的測(cè)序深度低(如圖3所示),因而造成了數(shù)據(jù)的浪費(fèi)。 [0011] 因而,發(fā)明人根據(jù)CG測(cè)序平臺(tái)及探針捕獲的特點(diǎn),進(jìn)行了不同的探針設(shè)計(jì)探索, 以期提高目標(biāo)SNP位點(diǎn)被捕獲后測(cè)到的概率。例如,發(fā)明人多次調(diào)整了探針與目標(biāo)SNP位 點(diǎn)的距離,探針乘數(shù)等參數(shù)。通過(guò)多次的設(shè)計(jì)探索以及實(shí)驗(yàn)驗(yàn)證,發(fā)明人最終確定了 SNP位 點(diǎn)捕獲檢測(cè)的特異性探針的最佳的參數(shù)條件:運(yùn)用標(biāo)準(zhǔn)2-adapter建庫(kù)方式,打斷片段為 200~400bp,探針中點(diǎn)跟目標(biāo)SNP位點(diǎn)的最佳距離為100bp,目標(biāo)SNP位點(diǎn)左右各設(shè)計(jì)1條 探針,針對(duì)CG含量高于60%以及低于30%的探針,增加探針的條數(shù)。探針設(shè)計(jì)原理示意圖 如圖2所示。其中,利用本發(fā)明中對(duì)探針設(shè)計(jì)的改進(jìn),將目標(biāo)SNP左右各設(shè)計(jì)1條探針時(shí), 目標(biāo)SNP的測(cè)序深度提高,顯著提高了數(shù)據(jù)利用率(對(duì)比圖3和圖4)。
[0012] 本發(fā)明針對(duì)CG測(cè)序平臺(tái)的特征,對(duì)目前的目標(biāo)區(qū)域捕獲檢測(cè)SNP的方法尤其是探 針設(shè)計(jì)方面進(jìn)行了重大改進(jìn),得到了適合于高通量測(cè)序技術(shù)尤其是CG測(cè)序平臺(tái)的應(yīng)用于 目標(biāo)SNP捕獲分型的方法。
[0013] 從而,根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供了一種構(gòu)建基因組預(yù)定區(qū)域核酸測(cè)序 文庫(kù)的方法。根據(jù)本發(fā)明的實(shí)施例,該方法包括以下步驟:
[0014] 將基因組DNA進(jìn)行片段化處理,以便獲得DNA片段;
[0015] 將所述DNA片段進(jìn)行片段選擇,以便獲得200-400bp的DNA片段;
[0016] 將所述經(jīng)過(guò)片段選擇的DNA片段依次進(jìn)行去磷酸化和第一末端修復(fù),以便獲得經(jīng) 過(guò)第一末端修復(fù)的DNA片段;
[0017] 將所述經(jīng)過(guò)第一末端修復(fù)的DNA片段與第一測(cè)序接頭相連,以便獲得第一連接產(chǎn) 物;
[0018] 利用探針對(duì)所述第一連接產(chǎn)物進(jìn)行篩選,以便獲得目的片段,其中所述探針特異 性識(shí)別所述基因組預(yù)定區(qū)域的至少一部分,所述基因組預(yù)定區(qū)域包含至少一個(gè)SNP位點(diǎn);
[0019] 將所述目的片段進(jìn)行雙鏈環(huán)化處理,以便獲得環(huán)狀雙鏈DNA ;
[0020] 將所述環(huán)狀雙鏈DNA進(jìn)行酶切處理,以便獲得酶切產(chǎn)物;
[0021] 將所述酶切產(chǎn)物進(jìn)行第二末端修復(fù),以便獲得第二末端修復(fù)產(chǎn)物;
[0022] 將所述第二末端修復(fù)產(chǎn)物與第二測(cè)序接頭相連,以便獲得第二連接產(chǎn)物;
[0023] 將所述第二連接產(chǎn)物進(jìn)行DNA雙鏈分離處理,以便獲得單鏈DNA,所述單鏈DNA構(gòu) 成所述基因組預(yù)定區(qū)域測(cè)序文庫(kù),
[0024] 其中,所述探針滿(mǎn)足選自下列條件的至少之一:
[0025] (1)所述探針乘數(shù)為2,且針對(duì)一個(gè)SNP位點(diǎn),兩條探針?lè)謩e特異性識(shí)別所述SNP 位點(diǎn)的上游序列和下游序列;
[0026] (2)兩條探針?lè)謩e特異性識(shí)別所述SNP位點(diǎn)的上游50bp~150bp和下游50bp~ 150bp之間的序列;
[0027] (3)所述探針的長(zhǎng)度為80~100bp ;
[0028] (4)所述基因組預(yù)定區(qū)域?yàn)榉侵貜?fù)序列;
[0029] (5)特異性識(shí)別GC含量高于0.6及低于0.3的基因組預(yù)定區(qū)域的探針,乘數(shù)大于 2 ;
[0030] (6)所述探針與目標(biāo)序列的熔解溫度為60-100攝氏度,優(yōu)選80攝氏度;
[0031] (7)所述探針不包含發(fā)夾結(jié)構(gòu);
[0032] (8)所述探針與所述參考基因組上的至多2個(gè)位點(diǎn)匹配;
[0033] (9)所述探針選擇時(shí)的窗口滑動(dòng)大小為10bp。
[0034] 發(fā)明人驚奇地發(fā)現(xiàn),該方法中篩選步驟所采用的滿(mǎn)足上述條件的探針,對(duì)預(yù)定區(qū) 域SNP位點(diǎn)的捕獲特異性好、靈敏度和覆蓋度非常高,進(jìn)而利用本發(fā)明的方法能夠準(zhǔn)確有 效地捕獲探針特異性識(shí)別的目標(biāo)序列--基因組預(yù)定區(qū)域核酸序列,從而能夠有效構(gòu)建獲 得基因組預(yù)定區(qū)域核酸測(cè)序文庫(kù),進(jìn)一步,將該核酸測(cè)序文庫(kù)用于高通量測(cè)序文庫(kù)尤其是 CG測(cè)序平臺(tái)后,能夠有效確定基因組預(yù)定區(qū)域的核酸序列尤其是基因組預(yù)定區(qū)域所包含的 所有SNP位點(diǎn)的信息,并且,目標(biāo)SNP的測(cè)序深度高,數(shù)據(jù)利用率高,進(jìn)而能夠?qū)崿F(xiàn)對(duì)基因組 預(yù)定區(qū)域SNP位點(diǎn)的檢測(cè)和分型。并且,利用本發(fā)明的方法構(gòu)建基因組預(yù)定區(qū)域核酸測(cè)序 文庫(kù),并進(jìn)而用于檢測(cè)基因組預(yù)定區(qū)域核酸序列以及SNP位點(diǎn)的基因型,特異性好、靈敏度 和覆蓋度高,重復(fù)性好,且該方法成本低、操作簡(jiǎn)單、易推廣。
[0035] 另外,根據(jù)本發(fā)明上述實(shí)施例的構(gòu)建基因組預(yù)定區(qū)域核酸測(cè)序文庫(kù)的方法還可以 具有如下附加的技術(shù)特征:
[0036] 根據(jù)本發(fā)明的實(shí)施例,在利用探針對(duì)所述第一連接產(chǎn)物進(jìn)行篩選之前,進(jìn)一步包 括對(duì)所述第一連接產(chǎn)物進(jìn)行PCR擴(kuò)增。由此,有利于富集目標(biāo)序列即包含SNP位點(diǎn)的基因 組預(yù)定區(qū)域的核酸序列。
[0037] 根據(jù)本發(fā)明的實(shí)施例,在將所述目的片段進(jìn)行雙鏈環(huán)化處理之前,進(jìn)一步包括將 所述目的片段進(jìn)行PCR擴(kuò)增。由此,有利于目的片段的擴(kuò)繁、富集,進(jìn)而有利于獲得的核酸 測(cè)序文庫(kù)的后續(xù)測(cè)序及基因分型。
[0038] 根據(jù)本發(fā)明的實(shí)施例,在將所述第二連接產(chǎn)物進(jìn)行DNA雙鏈分離處理之前,進(jìn)一 步包括將所述第二連接產(chǎn)物進(jìn)行PCR擴(kuò)增。由此,有利于目標(biāo)序列的擴(kuò)繁、富集,進(jìn)而有利 于獲得的核酸測(cè)序文庫(kù)的后續(xù)測(cè)序及基因分型。
[0039] 根據(jù)本發(fā)明的實(shí)施例,利用Ecopl5I酶進(jìn)行所述酶切處理。由此,酶切效果好,有 利于后續(xù)步驟的進(jìn)行。
[0040] 根據(jù)本發(fā)明的實(shí)施例,進(jìn)一步包括:將所述單鏈DNA依次進(jìn)行環(huán)化和滾環(huán)復(fù)制處 理。由此,獲得的核酸測(cè)序文庫(kù)尤其適于利用CG測(cè)序平臺(tái)進(jìn)行測(cè)序和基因分型。
[0041] 根據(jù)本發(fā)明的實(shí)施例,所述基因組預(yù)定區(qū)域核酸測(cè)序文庫(kù)適于利用高通量測(cè)序技 術(shù)優(yōu)選CG測(cè)序平臺(tái)進(jìn)行測(cè)序。
[0042] 根據(jù)本發(fā)明的實(shí)施例,利用液相芯片雜交捕獲技術(shù)進(jìn)行所述篩選。由此,篩選效果 好,對(duì)目的片段的富集準(zhǔn)確、高效。
[0043] 根據(jù)本發(fā)明的又一方面,本發(fā)明還提供了一種確定基因組預(yù)定區(qū)域核酸序列的方 法。根據(jù)本發(fā)明的實(shí)施例,該方法包括以下步驟:
[0044] 根據(jù)前面所述的構(gòu)建基因組預(yù)定區(qū)域核酸測(cè)序文庫(kù)方法,構(gòu)建待測(cè)樣品的基因組 預(yù)定區(qū)域核酸測(cè)序文庫(kù),其中所述基因組預(yù)定區(qū)域包含至少一個(gè)SNP位點(diǎn);
[0045] 對(duì)所述待測(cè)樣品的基因組預(yù)定區(qū)域核酸測(cè)序文庫(kù)進(jìn)行測(cè)序,以便獲得測(cè)序結(jié)果; 以及
[0046] 基于所述測(cè)序結(jié)果,確定所述待測(cè)樣品基因組預(yù)定區(qū)域的核酸序列。
[0047] 發(fā)明人發(fā)現(xiàn),本發(fā)明所采用的探針,對(duì)預(yù)定區(qū)域SNP位點(diǎn)的捕獲特異性好、靈敏度 和覆蓋度非常高,進(jìn)而利用本發(fā)明的方法能夠準(zhǔn)確有效地捕獲探針特異性識(shí)別的目標(biāo)序 列--基因組預(yù)定區(qū)域核酸序列、構(gòu)建獲得基因組預(yù)定區(qū)域核酸測(cè)序文庫(kù),并基于高通量 測(cè)序技術(shù)例如CG測(cè)序平臺(tái)進(jìn)行測(cè)序,確定待測(cè)樣品基因組預(yù)定區(qū)域核酸序列以及SNP位點(diǎn) 的基因型。根據(jù)本發(fā)明的實(shí)施例,利用本發(fā)明的方法進(jìn)行SNP捕獲檢測(cè),目標(biāo)SNP的測(cè)序深 度高,數(shù)據(jù)利用率高。此外,該方法對(duì)基因組預(yù)定區(qū)域核酸序列及其包含的所有SNP位點(diǎn)的 捕獲檢測(cè)的特異性好、靈敏度和覆蓋度高,重復(fù)性好,且該方法成本低、操作簡(jiǎn)單、易推廣。 也即,本發(fā)明的方法能夠?qū)NP位點(diǎn)進(jìn)行快速、準(zhǔn)確、有效的捕獲檢測(cè)分型。
[0048] 根據(jù)本發(fā)明的實(shí)施例,利用高通量測(cè)序技術(shù)優(yōu)選CG測(cè)序平臺(tái)進(jìn)行所述測(cè)序。
[0049] 根據(jù)本發(fā)明的實(shí)施例,進(jìn)一步包括:基于所述待測(cè)樣品基因組預(yù)定區(qū)域的核酸序 列,確定所述SNP位點(diǎn)的基因型。由此,能夠準(zhǔn)確有效地實(shí)現(xiàn)對(duì)基因組預(yù)定區(qū)域核酸序列包 含的所有SNP位點(diǎn)的基因分型。
[0050] 根據(jù)本發(fā)明的另一方面,本發(fā)明還提供了一種用于構(gòu)建基因組預(yù)定區(qū)域核酸測(cè)序 文庫(kù)的裝置。根據(jù)本發(fā)明的實(shí)施例,該裝置包括:
[0051] 片段化處理單元,所述片段化處理單元用于將基因組DNA進(jìn)行片段化處理,以便 獲得DNA片段;
[0052] 片段選擇單元,所述片段選擇單元與所述片段化處理單元相連,用于將所述DNA 片段進(jìn)行片段選擇,以便獲得200-400bp的DNA片段;
[0053] 去磷酸化和第一末端修復(fù)單元,所述去磷酸