背景技術(shù):
本公開一般涉及對核酸測序,并且更具體地涉及對從核酸獲得的序列信息進行定相(phasing)、差錯糾正和組裝。
人類基因組計劃的努力為人類遺傳密碼打開了更廣闊的窗口。進一步解開人類基因組的工作正在進行,例如采用高通量測序技術(shù)。HapMap(單體型圖譜)計劃為全球性科學工作,旨在通過比較來自患有以及沒有疾病的人的基因組信息發(fā)現(xiàn)引起所述疾病的遺傳變異。作為特定基因座的DNA序列的變異形式,等位基因可含有一個或更多個不同的遺傳變異,對特定染色體上的單體型或者不同位置或基因座處的等位基因組合的識別為該HapMap計劃的重點。所識別的在兩組人群中有區(qū)別的單體型可能與導致所評估的疾病的遺傳異常的位置相關。由此,HapMap結(jié)果將幫助描述人類遺傳變異的共同模式,以及這些變異是否潛在地與疾病相關。
從這些工作獲得的信息預期將提供有價值的工具來幫助破譯很多疾病和病癥的病因或療法。遺憾的是,進行這種大規(guī)模測序仍是非常昂貴的,并且提供更多深入信息如單染色體單體型分析、等位基因或靶序列定相的技術(shù)是難以獲得的。因此,仍亟需其他的工具和技術(shù)來從人類基因組解開更多信息。本公開致力于這種需要,同時提供其他的優(yōu)點。
技術(shù)實現(xiàn)要素:
本申請闡述的方法可用于確定序列片段相對于產(chǎn)生這些片段的較大的靶核酸的接近度(proximity)。例如,當各個序列讀長短于所評估的靶核酸的長度時,這些方法可用于為相對長的靶核酸序列確定相位和識別單體型。
本公開提供一種對靶核酸聚合物測序的方法。該方法可包括以下步驟:(a)修飾靶核酸聚合物以生成被修飾的核酸聚合物,其中所述被修飾的核酸聚合物包括多個來自所述靶核酸聚合物的序列區(qū);(b)在具有固體支持物表面的容器中生成所述被修飾的核酸聚合物的片段,每個片段包括所述序列區(qū)之一;(c)將所述片段隨機捕獲在固體支持物表面的區(qū)域內(nèi)的位置處;(d)通過在所述位置處檢測所述片段確定所述序列區(qū)的核苷酸序列;以及(e)基于來自所述片段的所述核苷酸序列和固體支持物表面上的所述位置之間的相對距離生成對所述靶核酸聚合物的核苷酸序列表征。
還提供一種對靶核酸聚合物測序的方法,包括以下步驟:(a)將插入物添加至靶核酸聚合物中,以形成包括多個內(nèi)部插入物的被修飾的核酸聚合物;(b)在與固體支持物表面接觸的流體中生成所述被修飾的核酸聚合物的片段,從而釋放片段,所述片段每個包括所述插入物的至少一部分;(c)將來自所述流體的片段隨機捕獲在固體支持物表面上的位置處;(d)通過檢測所述位置處的片段確定來自所述片段的核苷酸序列;以及(e)基于來自所述片段的所述核苷酸序列和所述固體支持物表面上的所述位置之間的相對距離生成對所述靶核酸聚合物的核苷酸序列表征。
本公開還提供一種對靶核酸聚合物測序的方法,包括以下步驟:(a)修飾靶核酸聚合物以生成被修飾的核酸聚合物,其中所述被修飾的核酸聚合物包括多個來自所述靶核酸聚合物的序列區(qū)域;(b)將所述被修飾的核酸聚合物附著至固體支持物表面上的區(qū)域;(c)生成被附著至所述固體支持物表面的所述被修飾的核酸聚合物的片段,其中所述片段被附著至所述固體支持物表面 的所述區(qū)域處的位置;(d)通過在所述位置處檢測所述片段確定來自所述片段的核苷酸序列;以及(e)基于來自所述片段的所述核苷酸序列和固體支持物表面上的所述位置之間的相對距離生成對所述靶核酸聚合物的核苷酸序列表征。
還提供一種對靶核酸聚合物測序的方法,包括以下步驟:(a)將插入物添加至靶核酸聚合物中,以形成包括多個內(nèi)部插入物的被修飾的核酸聚合物;(b)將所述被修飾的核酸聚合物附著至固體支持物表面;(c)生成被附著至所述固體支持物表面的所述被修飾的核酸聚合物的片段,其中所述片段被附著至所述固體支持物表面上的位置并且其中所述片段每個包括所述插入物的至少一部分;(d)通過檢測所述位置處的所述片段確定來自所述片段的核苷酸序列;以及(e)基于來自所述片段的所述核苷酸序列和所述固體支持物表面上的所述位置之間的相對距離生成對所述靶核酸聚合物的核苷酸序列表征。
本公開闡述的方法還可用于為混合的樣品確定所獲得的序列讀長(sequence reads)的源頭。例如,當來自多個生物體的靶核酸的混合物作為混合物處理時,這些方法可用于識別源自共同生物體的序列片段。因此,這些方法可用于識別宏基因組樣品中的各個生物體。也可使用含有來自不同來源的靶核酸的混合物的其他樣品。
本公開提供一種為來自不同來源的序列的混合物中的各個序列確定來源的方法。該方法可包括以下步驟:(a)提供來自多個不同來源的靶核酸聚合物的混合物;(b)修飾所述靶核酸聚合物的混合物以生成被修飾的核酸聚合物的混合物,其中所述被修飾的核酸聚合物的混合物包括多個來自所述不同來源的序列區(qū);(c)在具有固體支持物表面的容器中生成所述被修飾的核酸聚合物的片段,每個片段包括來自所述不同來源中的一個的序列區(qū)域;(d)在來自共同靶核酸聚合物的片段優(yōu)先定位在所述固體支持物表面上的臨近位置的條件下,將所述片段隨機捕獲在所述固體支持物表面上的位置處;(e)確定所述位置處的所述片段的核苷酸序列;以及(f)基于來自所述片段的所述核苷 酸序列和固體支持物表面上的所述位置之間的相對距離識別源自多個不同來源中的共同來源的核苷酸序列。
還提供一種為來自不同來源的序列的混合物中的各個序列確定來源的方法,其中該方法包括以下步驟:(a)提供來自多個不同來源的靶核酸聚合物的混合物;(b)將插入物添加至所述混合物中的所述靶核酸聚合物中以形成被修飾的核酸聚合物的混合物,每個聚合物包括多個內(nèi)部插入物;(c)在與固體支持物表面接觸的流體中生成所述被修飾的核酸聚合物的片段,從而釋放片段,每個片段包括所述插入物中的每個的至少一部分;(d)將來自所述流體的所述片段隨機捕獲在固體支持物表面上的位置處;(e)通過檢測所述位置處的所述片段確定來自所述片段的核苷酸序列;以及(f)基于來自所述片段的所述核苷酸序列和固體支持物表面上的所述位置之間的相對距離識別源自多個不同來源中的共同來源的核苷酸序列。
本公開還提供一種為來自不同來源的序列的混合物中的各個序列確定來源的方法,其中該方法包括以下步驟:(a)提供來自多個不同來源的靶核酸聚合物的混合物;(b)修飾所述靶核酸聚合物的混合物以生成被修飾的核酸聚合物的混合物,其中所述被修飾的核酸聚合物的混合物包括多個來自所述不同來源的序列區(qū)域;(c)將所述被修飾的核酸聚合物附著至固體支持物表面;(d)生成被附著至所述固體支持物表面的所述被修飾的核酸聚合物的片段,其中來自所述多個來源中的共同來源的片段被附著至所述固體支持物表面上的鄰近的位置;(e)確定所述位置處的所述片段的核苷酸序列;以及(f)基于來自所述片段的所述核苷酸序列和所述固體支持物表面上的所述位置之間的相對距離識別源自所述多個不同來源中的共同來源的核苷酸序列。
還提供一種為來自不同來源的序列的混合物中的各個序列確定來源的方法,其中該方法包括以下步驟:(a)提供來自多個不同來源的靶核酸聚合物的混合物;(b)將插入物添加至所述混合物中的所述靶核酸聚合物中以形成被修飾的核酸聚合物的混合物,每個聚合物包括多個內(nèi)部插入物;(c)將所述被修飾的核酸聚合物附著至固體支持物表面;(d)生成被附著至所述固體 支持物表面的所述被修飾的核酸聚合物的片段,其中來自所述多個來源中的共同來源的片段被附著至所述固體支持物表面上的鄰近的位置;(e)通過檢測所述位置處的所述片段確定來自所述片段的核苷酸序列;以及(f)基于來自所述片段的所述核苷酸序列和所述固體支持物表面上的所述位置之間的相對距離識別源自所述多個不同來源中的共同來源的核苷酸序列。
附圖簡要說明
圖1顯示具有通過接頭連接的兩個轉(zhuǎn)座子元件的插入物(插圖(Panel)A);被結(jié)合至核酸聚合物的轉(zhuǎn)座酶和連接的轉(zhuǎn)座子元件之間的環(huán)狀復合物的形成(插圖B);以及包括含有連接的轉(zhuǎn)座子元件的插入物的被修飾形式的核酸聚合物的示意圖。
圖2顯示已在三個分開的區(qū)域捕獲插入物修飾的核酸聚合物的流動池(左側(cè)插圖),以及在切割和變性插入物修飾的核酸聚合物后的流動池(右側(cè)插圖)的示意圖。
圖3顯示產(chǎn)生自被捕獲在圖2的流動池上的核酸片段的簇云狀物(cluster clouds)和隨后的被捕獲片段的橋式擴增的示意圖。
圖4顯示在對簇接近度信息缺乏了解的情況下與50kb的參考序列比對的序列讀長(插圖A);與50kb的參考基因組序列比對的序列讀長,其中讀長來自兩個不同的基因組DNA分子(插圖B);以及與50kb的參考基因組序列比對的來自基因組DNA分子之一的片段的序列讀長(插圖C)的示意圖。
圖5顯示靶核酸附著至珠(bead),接著靶核酸在珠上片段化。
圖6顯示被修飾的核酸附著至珠,接著靶核酸在珠上片段化。
圖7顯示靶核酸在固體支持物表面上的修飾以及將片段從該表面釋放到溶液中。
圖8顯示單末端轉(zhuǎn)座以產(chǎn)生具有若干個插入物的被修飾的核酸。
圖9顯示從在流動池上的由宏基因組樣品捕獲的核酸片段以及隨后的橋式擴增產(chǎn)生的簇云狀物的示意圖。
圖10顯示測序簇在流動池內(nèi)的空間分布。對照通道(A)是未采用所建議的方法制備的,顯示在簇空間位置上沒有相關性;它們在流動池的整個面積上均勻分布。采用所建議方法制備的通道(B)顯示測序簇形成空間上共定位的組,它們通過自動化算法識別并分配至集合(C),用于基于接近度定相或組裝。單位都為納米。X軸和Y軸以nm為單位。
圖11顯示從兩序列讀長A和B進行差錯糾正的示例。測序讀長A和B在相同位置與參考基因組有區(qū)別(C置換A)。生成讀長A和B的簇在流動池上彼此距離350um,這遠超測序人為因素造成的距離,盡管在接近組的平均半徑(200-300um)內(nèi)。
具體實施方式
傳統(tǒng)的核酸測序方法以及所謂的新一代測序方法采用以鳥槍法為特征的方法。具體地,是將被天然包裝成稱為染色體的較大連續(xù)聚合物的基因組DNA片段化為在測序方法中易于操作和檢測的較小碎片。這種鳥槍法的一個難點在于,等到已讀長了各個片段的序列時,它們在染色體中的連接和彼此接近度的信息已經(jīng)丟失。對片段排序以獲得染色體序列的過程通常稱為“組裝”。組裝過程一般是耗時的,并且需要相對較大的計算資源。序列和組裝差錯可能是個問題,這取決于所用的測序方法學以及所評價的基因組DNA樣品的質(zhì)量。
此外,很多目的基因組含有每個染色體的不止一個版本。例如,人基因組為雙倍體,具有兩套染色體——一套繼承自一個親本。一些生物體具有多倍體基因組,不止兩套染色體。多倍體生物體的示例包括動物,如鮭魚,以及很多植物物種,如小麥、蘋果、燕麥和甘蔗。當片段化雙倍體和多倍體基因組并以 典型的鳥槍法測序時,涉及哪個片段來自哪套染色體的身份的定相(phasing)信息丟失了。采用典型的鳥槍法,難以或者不可能重建這種定相信息。
當評價混合樣品時,可出現(xiàn)有點類似但是通常更加復雜的困難?;旌蠘悠房珊衼碜詢蓚€或更多個生物體的核酸分子,如染色體、mRNA轉(zhuǎn)錄物、質(zhì)粒等。具有多種生物體的混合樣品通常稱為宏基因組樣品。其他的混合樣品的示例為不同的細胞或者組織,盡管它們源自相同的生物體,但具有不同的特征。示例包括:可能包括健康細胞和癌細胞的混合物的癌組織,可能包括癌前細胞和癌細胞的組織,可能包括兩種或更多種不同類型癌細胞的組織。實際上,可能有多種不同類型的癌癥細胞,具有鑲嵌性(mosaicity)的癌癥樣品情況就是如此。源自單一生物體的不同細胞的另一示例為從懷孕女性獲得的母體和胎兒細胞的混合物(例如,來自血液或來自組織)。當片段化混合的核酸樣品并以典型的鳥槍法測序時,涉及哪個片段來自哪個細胞、生物體或其他來源的身份的信息丟失了。采用典型的鳥槍法,難以或者不可能重建這種源頭信息。
本公開提供靶核酸的被修飾的版本,它們保留了存在于源頭靶核酸(它們由此生成)中的序列區(qū)域的連接信息。采用本文闡述的方法,被修飾的核酸的片段可被生成并捕獲在固體支持物表面的局部區(qū)域上。在使用不同的被修飾的核酸的混合物的情況中,從每個核酸分子生成的片段可被定位在該表面的相應區(qū)域(盡管每一片段將最終隨機地處于非預先確定的位置)。由此,在該表面上的不同片段的接近度可用于確定哪些片段源自共同的靶核酸分子。這種信息繼而可用于對源自較長分子的片段進行定相以及單體型分析,或者用于識別源自共同細胞、生物體或其他來源的兩個或更多個片段。
本公開的方法可提供幫助組裝、改進差錯糾正、識別混合樣品中的核酸源頭以及確定定相信息的益處。具體的實施方案在排列或組合中提供基因組DNA(或其他靶核酸)的片段,該排列或者組合與片段序列在具體染色體(或其他核酸)中的接近度相關。對片段的測序以及對它們在該排列或組合中的相對位置的評估可用于幫助組裝、識別并改進組裝序列中的差錯,以及確定用于單體型的相位(phase)或其他序列特征。序列和相對接近度信息也可用于 識別源自共同來源的序列,甚至這些序列是從由來源的混合物獲得的很多片段來識別的。
通過更具體的例子,提供處理長靶核酸聚合物以引入將該聚合物細分為連接段的插入元件的方法。該插入元件可提供各種能力,例如用于擴增和/或測序處理的引物位點、用于捕獲至表面的配體,和/或用于片段化聚合物的切割位點。可將該具有插入元件的聚合物引入到具有用于捕獲和檢測核酸片段的表面的流動池或其他容器中。然后,可在表面處或附近生成聚合物的片段,以致來自聚合物的接近部分的片段最終處于表面上彼此接近的位點??梢钥蛇x地在該位點擴增片段,接著以測序技術(shù)檢測。在距彼此給定距離之內(nèi)的片段將具有很大概率來自相同靶核酸聚合物,并且這種信息可用于幫助組裝、差錯糾正、識別混合樣品中的源頭以及定相。
如下文更具體闡述的,本文闡述的方法可用作鳥槍測序法(例如在商業(yè)上被認可為新一代測序法的那些方法,或者本文引用文獻中闡述的那些方法)的改進。
除非另有說明,本文中使用的術(shù)語將采用它們在相關領域內(nèi)的普通含義。以下闡述本文中使用的若干個術(shù)語以及它們的含義。
用在本文時,術(shù)語“主動運輸”指由于施加在分子上的非擴散力而導致的分子朝向或遠離某位置的移動。該位置可以為固體支持物表面上(例如,在陣列上)的位置。非擴散力可通過外部來源提供,例如產(chǎn)生電場或磁場、流體流動、或化學梯度的那些來源。主動運輸?shù)姆肿涌裳厮鼈兊臐舛忍荻然蚰嬷鼈兊臐舛忍荻纫苿?。因此,主動運輸可包括應用能量來在期望方向上移動一個或更多個分子或者將它們移動至固體支持物上的期望位置。
用在本文時,術(shù)語“陣列”指位點群體,它們可按照相對位置而相互區(qū)分。在陣列的不同位點處的不同分子可按照陣列中位點的位置相互區(qū)分。陣列的各個位點可包括一個或更多個具體類型的分子。例如,位點可包括具有特定序列的單個靶核酸分子,或者位點可包括具有相同序列(和/或其互補序列)的 若干個核酸分子。陣列的位點可以為相同基底上的不同特征物或位點。示例性位點包括但不限于,基底上的孔、基底內(nèi)或上的珠(或其他顆粒)、從基底的凸起、基底上的脊或基底內(nèi)的槽。陣列的位點可為每個承載不同分子的分開的基底。被附著至分開的基底的不同分子可根據(jù)表面(基底與其相關聯(lián))上基底的位置或者根據(jù)基底在液體或凝膠內(nèi)的位置來識別。其中分開的基底位于表面上的示例性陣列包括但不限于在孔中具有珠的陣列。
用在本文時,術(shù)語“附著(attached)”指兩者彼此接合、緊固、粘附、連接或結(jié)合的狀態(tài)。例如,如核酸的分析物可通過共價鍵或非共價鍵被結(jié)合至某材料(如固體支持物表面)。共價鍵以原子間的共用電子對為特征。非共價鍵為不涉及共用電子對的化學鍵,并且其可包括例如氫鍵、離子鍵、范德華力、親水相互作用和疏水相互作用。在一些實施方案中,該附著通過一個或更多個共價鍵發(fā)生,由此該附著不是通過任何非共價鍵介導的。
用在本文時,術(shù)語“切割位點”旨在指分子中的一部分(moiety)(如接頭),它們可被修飾或者去除以在物理上將分子的兩個其他部分分開。切割位點可易于通過生物化學、化學、物理或其他手段修飾或去除。
用在本文時,當提及兩個轉(zhuǎn)座子元件使用時,術(shù)語“鄰接的”旨在指兩個轉(zhuǎn)座子元件通過接頭彼此共價結(jié)合。接頭可附著在兩個轉(zhuǎn)座子元件的5'末端處或附近(示例參見圖1),在兩個轉(zhuǎn)座子的3'末端處或附近,或者在一個轉(zhuǎn)座子中的一個的3'末端處或附近以及在另一個轉(zhuǎn)座子的5'末端處或附近??捎玫泥徑拥霓D(zhuǎn)座子元件的示例在PCT公開號WO 2012/061832、美國專利申請公開號2012/0208724、美國專利申請公開號2012/0208705以及PCT申請序列號PCT/US2013/031023中被描述,所述每篇參考文件均通過引用被并入本文。
用在本文時,當提及核酸使用時,術(shù)語“不同的”指核酸具有彼此不同的核苷酸序列。兩種或更多種核酸可具有沿它們?nèi)L都不同的核苷酸序列?;蛘?,兩種或更多種核酸可具有沿它們長度的主要部分不同的核苷酸序列。例如,兩種或更多種不同的核酸可具有彼此不同的靶核苷酸序列部分,同時還具有對該兩種或更多種不同的核酸而言相同的共有序列區(qū)。
用在本文時,當提及項目集合使用時,術(shù)語“每個”旨在識別集合中的單獨項目,但不必然指集合中的每一個項目。如果明確的公開或上下文清楚地另有說明,可有例外。
用在本文時,當提及引物使用時,術(shù)語“延伸”旨在包括這樣的過程,其中一個或更多個核苷酸被添加至引物(例如通過聚合酶活性),或者其中一個或更多個寡核苷酸被添加至引物(例如通過連接酶活性)。
用在本文時,術(shù)語“流動池”旨在指具有一種或更多種流體試劑可流經(jīng)的表面的室。通常,流動池將具有進口和出口以幫助流體流動??扇菀椎赜迷诒竟_的方法中的流動池和相關流體系統(tǒng)以及檢測平臺的示例在,例如,Bentley等人的Nature 456:53-59(2008)中,在WO 04/018497;US 7,057,026;WO 91/06678;WO 07/123744;US 7,329,492;US 7,211,414;US 7,315,019;US 7,405,281,以及US2008/0108082中被描述,所述每篇參考文件均通過引用被并入本文。
用在本文時,術(shù)語“叉形銜接物(forked adapter)”旨在指這樣的雙鏈核酸分子,其具有兩條鏈彼此退火的第一末端,以及兩條鏈未彼此退火的第二末端。叉形或Y形銜接物的示例在,例如,美國專利號7,741,463中被描述,所述專利通過引用被并入本文。
用在本文時,當提及第一核酸使用時,術(shù)語“片段”旨在指具有該第一核酸的序列的一段或一部分的第二核酸。通常,該片段和第一核酸為不同的分子。該片段可源于,例如,從較大核酸的物理去除、該較大核酸的區(qū)域的復制或擴增、該較大核酸的其他部分的降解,或者它們的組合等。該術(shù)語可類似地用于描述核酸的序列數(shù)據(jù)或其他表征。
用在本文時,術(shù)語“單體型”指一個以上基因座處的由個體自其父母之一繼承的一套等位基因。單體型可包括來自全部或部分染色體的兩個或更多個基因座。等位基因包括,例如,單核苷酸多態(tài)性(SNPs)、短串聯(lián)重復(STRs)、基因序列、染色體插入、染色體缺失等。術(shù)語“定相的等位基因” 指來自特定染色體或其部分的特定等位基因的分布。相應地,兩個等位基因的“相位”可指兩個或更多個等位基因在一個或更多個染色體上的相對位置的特征或表征。
用在本文時,當提及聚合物使用時,術(shù)語“插入物”旨在指已經(jīng)或者將被附著至該聚合物的分子。該聚合物可為,例如,如DNA、RNA的核酸或其類似物。該分子可為,例如,核酸、其類似物,或具有核酸部分或其類似物的分子。
用在本文時,當提及具有兩個末端的聚合物使用時,術(shù)語“內(nèi)部的”旨在指介于該聚合物的兩個末端之間的聚合物中的位置。例如,在聚合物內(nèi)部的插入物可位于距聚合物末端至少1、2、3、4、5、10、100、200、500或1000個單體亞單元的位置處。
用在本文時,術(shù)語“配體”和“受體”旨在指彼此特異結(jié)合以形成復合物的組分。配體和受體的示例包括,但不限于,聚組氨酸(例如,五聚組氨酸和六聚組氨酸)和鎳;親和素(或其類似物,如鏈霉親和素)和生物素(或其類似物,如2-亞氨基生物素,脫硫生物素,NeutrAvidin(俄勒岡州尤金市的分子探針公司(Molecular Probes,Eugene,Oreg.)),CaptAvidin(分子探針公司(Molecular Probes)),等);結(jié)合蛋白和它們的底物(例如,麥芽糖和麥芽糖結(jié)合蛋白(MBP),鈣和鈣結(jié)合蛋白/肽(CBP);抗體和抗原如c-MYC、HA、VSV-G、HSV、V5、以及FLAG TagTM);適體和它們對應的靶;熒光團和抗熒光團抗體;核酸和它們的互補物等。出于本公開的目的,術(shù)語“配體”和“受體”可互換使用,除非上下文或明確的公開另有說明。因此,例如,抗體可以相對于抗原被認為是受體或者配體。
用在本文時,術(shù)語“接頭”旨在指共價橋聯(lián)兩個其他部分的化學鍵或部分。接頭可為,例如,在核酸部分中連接核苷酸的糖-磷酸骨架。接頭可包括,例如,核苷酸部分、核酸部分、非核苷酸化學部分、核苷酸類似物部分、氨基酸部分、多肽部分或蛋白部分的一種或更多種。接頭可為不可擴增的,例如,由于含有非核酸部分。示例性接頭在下文以及在PCT公開號WO 2012/061832、美國專利申請公開號2012/0208724、美國專利申請公開號2012/0208705以及PCT申請序列號PCT/US2013/031023中被更詳細地闡述,所述每篇參考文件均通過引用被并入本文。
用在本文時,術(shù)語“核酸”可指連接在一起的至少兩個核苷酸單體。示例包括但不限于DNA,如基因組的或cDNA;RNA,如mRNA、sRNA或rRNA;或DNA和RNA的雜交體。從下文的示例和本文其他處顯而易見的是,核酸可具有天然出現(xiàn)的核酸結(jié)構(gòu)或者非天然出現(xiàn)的核酸類似物結(jié)構(gòu)。核酸可含有磷酸二酯鍵;但是,在一些實施方案中,核酸可以具有其他類型的骨架,包括,例如,磷酰胺、硫代磷酸酯、二硫代磷酸酯、O-甲基磷酰胺以及肽核酸骨架和鍵合。核酸可具有陽性骨架、非離子骨架、以及非核糖基骨架。核酸還可以含有一個或更多個碳環(huán)糖。用在本文方法或組合物中的核酸可以為單鏈的,或作為替代選擇為雙鏈的,如所指出的。在一些實施方案中,核酸可同時含有雙鏈和單鏈序列部分,例如,通過叉形銜接物所展示的。核酸可含有脫氧核糖核苷酸和核糖核苷酸的任何組合,以及堿基(包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鳥嘌呤、肌苷、黃嘌呤、次黃嘌呤、異胞嘧啶、異鳥嘌呤)和堿基類似物(如硝基吡咯(包括3-硝基吡咯)和硝基吲哚(包括5-硝基吲哚))的任何組合等。在一些實施方案中,核酸可包括至少一個混雜堿基(promiscuous base)?;祀s堿基可與不止一個不同類型的堿基配對,并且,例如,當被包括在用于在復雜核酸樣品(如基因組DNA樣品)中隨機雜交的寡核苷酸引物或插入物中時,所述混雜堿基可能是有用的。混雜堿基的示例包括可以與腺嘌呤、胸腺嘧啶或胞嘧啶配對的肌苷。其他的示例包括次黃嘌呤、5-硝基吲哚、非環(huán)狀5-硝基吲哚、4-硝基吡唑、4-硝基咪唑和3-硝基吡咯??墒褂每膳c至少2個、3個、4個或更多個類型的堿基進行堿基配對的混雜堿基。
用在本文時,術(shù)語“核苷酸序列”旨在指核苷酸單體在核酸聚合物中的順序和類型。核苷酸序列為核酸分子的特征,并且可以多種形式中的任一種來表示,包括,例如,描述、圖像、電子媒介、符號系列、數(shù)字系列、字母系列、顏色系列等。該信息可,例如,以單個核苷酸分辨率、較高分辨率(例如,表明核苷酸亞單元的分子結(jié)構(gòu)的)、或較低分辨率(例如,表明染色體區(qū)域如單 體型域的)表示?!癆”、“T”、“G”和“C”字母系列為用于DNA的公知的序列表征,其可以單個核苷酸分辨率與DNA分子的實際序列相關。類似的表征用于RNA,只是在該系列中“T”被“U”替換。
用在本文時,術(shù)語“被動擴散”旨在指分子沿它們的濃度梯度的移動。
用在本文時,術(shù)語“隨機”可用于指表面上位置的空間排列或組合。例如,有至少兩種類型的順序用于本文描述的陣列,第一種涉及特征物(也稱為“位點”)的間距和相對位置,第二種涉及存在于特定特征物處的具體分子種類的身份或預定知識。因此,陣列的特征物可隨機定位,使得最接近的特征物彼此間具有隨機的間距。作為替代選擇,特征物之間的間距可為有序的,例如,形成規(guī)則圖案,例如直線網(wǎng)格或六邊形網(wǎng)格。在另一方面,陣列的特征物可相對于占據(jù)每個特征物的分析物的種類(例如,特定序列的核酸)的身份或預定知識是隨機的,而與間距是產(chǎn)生隨機圖案還是規(guī)則圖案無關。本文闡述的陣列可以在一方面是有序的,而在另一方面是隨機的。例如,在本文闡述的一些實施方案中,在一群核酸附著在某些位點處這一條件下,表面與所述一群核酸接觸,所述位點就位點的相對位置而言為有序的,但是就存在于任何特定位點的核酸種類的序列的知識而言為隨機的。提及將不同核酸“隨機”捕獲在表面上的位置處旨在指就哪個核酸將被捕獲在哪個位置而言缺乏了解或缺乏預定(而與位置是否排列為有序圖案無關)。
用在本文時,當提及表面使用時,術(shù)語“區(qū)域”指小于整個表面范圍的表面范圍。區(qū)域可為小于暴露于或可接近于流體的整個表面范圍的范圍。一般而言,術(shù)語“區(qū)域”用于指表面的連續(xù)的、未中斷的范圍,無論該區(qū)域是否涵蓋表面特征物、位點、輪廓等。區(qū)域可涵蓋一個或更多個核酸所附著或?qū)⒏街奈恢谩?/p>
用在本文時,術(shù)語“單一種類”旨在指特定大類中的基本上一個且僅一個種類。該術(shù)語不必然是旨在限制所存在的單一種類的表征數(shù)量。例如,每個分子具有相同的核苷酸序列的一群核酸分子包括單一種類的核酸。在該上下文中術(shù)語“單一”無意排除不在該相關大類內(nèi)的其他物質(zhì)的存在。例如,含有來自 文庫的單一種類的核酸的表面的位置可包括具有相同序列的多個核酸,將排除來自該文庫的其他靶核酸,但是不必排除任何其他的非核酸組分。要理解的是,表觀單一種類群體可具有以一定水平存在的少量的另一種類,所述水平被本領域技術(shù)人員是認為對于該群體的具體使用而言可忽略的雜質(zhì)或人為因素的水平。例如,如果任何具有第二序列的核酸分子的量足夠低以至于在檢測第一序列時其不能被檢測到或者可忽略,那么源自具有第一序列的單一模板的核酸簇將被認為具有表觀單一種類。作為替代選擇,絕對單一種類群體將具有一個且僅一個種類。
用在本文時,術(shù)語“固體支持物”指在水性液體中不溶的剛性基底。該基底可為無孔的或多孔的。該基底可以可選地能夠吸收液體(例如由于多孔性),但典型地是有足夠剛性,以致在吸收液體時所述基底不明顯膨脹,并且在干燥除去液體時所述基底不明顯收縮。無孔固體支持物一般對液體和氣體是不通透的。示例性固體支持物包括,但不限于,玻璃和改性或功能化玻璃、塑料(包括丙烯酸塑料、聚苯乙烯以及苯乙烯和其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、鐵氟龍(TeflonTM)、環(huán)烯烴、聚酰亞胺等)、尼龍、陶瓷、樹脂、Zeonor、硅石或包括硅和改性硅的硅石基材料、碳、金屬、無機玻璃、光纖束,以及聚合物。對于一些實施方案,特別有用的固體支持物位于流動池裝置內(nèi)。示例性流動池在下文更詳細地闡述。
用在本文時,術(shù)語“來源(source)”旨在包括核酸分子的源頭(origin),如組織、細胞、細胞器、區(qū)室或生物體。該術(shù)語可用于為包括若干種其他核酸源頭的混合物中的特定核酸識別或區(qū)分源頭。來源可為具有若干種不同種類的生物體的宏基因組樣品中的特定生物體。在一些實施方案中,該來源將識別為單個源頭(例如單個細胞或生物體)?;蛘?,該來源可識別為涵蓋樣品中相同類型的若干個體的種類(例如,在具有該種類的若干個單個成員以及其他種類的成員的宏基因組樣品中的細菌或其他生物體種類)。
用在本文時,當提及材料使用時,術(shù)語“表面”旨在指該材料的外部部分或者外部層。該表面可與另一材料接觸,例如氣體、液體、凝膠、聚合物、有 機聚合物、類似或不同材料的第二表面、金屬或涂層。該表面或其區(qū)域可基本上是平的。該表面可具有表面特征物,如孔、凹陷、槽、脊、凸起區(qū)域、樁、柱等。該材料可為,例如,固體支持物、凝膠等。
用在本文時,當提及核酸聚合物使用時,術(shù)語“靶”旨在在語言上將該核酸,例如,與其他核酸、被修飾形式的核酸、核酸的片段等區(qū)分開。本文闡述的各種核酸中的任一種都可被識別為靶核酸,其示例包括基因組DNA(gDNA)、信使RNA(mRNA)、副本DNA(cDNA),以及這些核酸的衍生物或類似物。
用在本文時,術(shù)語“轉(zhuǎn)座酶”旨在指能夠與含有轉(zhuǎn)座子元件的組合物(例如,轉(zhuǎn)座子、轉(zhuǎn)座子末端、轉(zhuǎn)座子末端組合物)形成功能性復合物并且,例如,在體外轉(zhuǎn)座反應中催化該含有轉(zhuǎn)座子元件的組合物插入或轉(zhuǎn)座至與其一起溫育的靶DNA中的酶。該術(shù)語還可包括來自反轉(zhuǎn)錄轉(zhuǎn)座子和逆轉(zhuǎn)錄病毒的整合酶。轉(zhuǎn)座酶、轉(zhuǎn)座體和轉(zhuǎn)座體復合物對本領域技術(shù)人員是公知的,如美國專利申請公開號2010/0120098的公開所例示的,所述公開通過引用被并入本文。盡管本文描述的很多實施方案都提及Tn5轉(zhuǎn)座酶和/或高活性Tn5轉(zhuǎn)座酶,但是要理解,能夠以足夠效率插入轉(zhuǎn)座子元件以標記靶核酸的任何轉(zhuǎn)座系統(tǒng)都是可用的。在具體實施方案中,優(yōu)選的轉(zhuǎn)座系統(tǒng)能夠以隨機方式或以接近隨機的方式插入轉(zhuǎn)座子元件以標記靶核酸。
用在本文時,術(shù)語“轉(zhuǎn)座體”旨在指被結(jié)合至核酸的轉(zhuǎn)座酶。通常該核酸為雙鏈的。例如,該復合物可為轉(zhuǎn)座酶與雙鏈轉(zhuǎn)座子DNA在支持非共價復合物形成的條件下溫育的產(chǎn)物。轉(zhuǎn)座子DNA可包括但不限于,Tn5DNA、Tn5DNA的一部分、轉(zhuǎn)座子元件組合物、轉(zhuǎn)座子元件組合物的混合物或者能夠與轉(zhuǎn)座酶(如高活性Tn5轉(zhuǎn)座酶)相互作用的其他核酸。
用在本文時,術(shù)語“轉(zhuǎn)座子元件”旨在指包括與轉(zhuǎn)座酶或整合酶形成轉(zhuǎn)座體的核苷酸序列的核酸分子或其一部分。通常,該核酸分子為雙鏈DNA分子。在一些實施方案中,轉(zhuǎn)座子元件能夠在轉(zhuǎn)座反應中與轉(zhuǎn)座酶形成功能性復合物。作為非限制性示例,轉(zhuǎn)座子元件可包括由野生型或突變Tn5轉(zhuǎn)座酶識別 的19-bp的外末端(“OE”)轉(zhuǎn)座子末端、內(nèi)末端(“IE”)轉(zhuǎn)座子末端或“鑲嵌末端”(“ME”)轉(zhuǎn)座子末端,或者在美國專利申請公開號2010/0120098中闡述的R1和R2轉(zhuǎn)座子末端,所述公開通過引用被并入本文。轉(zhuǎn)座子元件可包括適合于在體外轉(zhuǎn)座反應中與轉(zhuǎn)座酶或整合酶形成功能性復合物的任何核酸或核酸類似物。例如,轉(zhuǎn)座子末端可包括DNA、RNA、修飾堿基、非天然堿基、修飾骨架,并且可在一條或兩條鏈中包括缺口。
用在本文時,術(shù)語“通用序列”指兩種或更多種核酸分子共有的序列區(qū),其中這些分子還具有彼此不同的序列區(qū)。存在于分子集合的不同成員中的通用序列可以允許使用一群互補于通用序列的通用捕獲核酸來捕獲多種不同核酸。類似地,存在于分子集合的不同成員中的通用序列可以允許使用一群互補于通用序列的通用引物來復制、擴增或序列分析多種不同核酸。因此,通用捕獲核酸或通用引物包括可與通用序列特異雜交的序列。
下文闡述的和權(quán)利要求書中列出的實施方案可參考以上定義來理解。
本公開提供對靶核酸聚合物測序的方法。該方法可包括以下步驟:(a)修飾靶核酸聚合物以生成被修飾的核酸聚合物,其中所述被修飾的核酸聚合物包括多個來自所述靶核酸聚合物的序列區(qū);(b)在具有固體支持物表面的容器中生成所述被修飾的核酸聚合物的片段,每個片段包括所述序列區(qū)之一;(c)將所述片段隨機捕獲在所述固體支持物表面的區(qū)域內(nèi)的位置處;(d)通過檢測所述位置處的所述片段確定所述序列區(qū)的核苷酸序列;以及(e)基于來自所述片段的所述核苷酸序列和所述固體支持物表面上的所述位置之間的相對距離生成對所述靶核酸聚合物的核苷酸序列表征。
本公開還提供對靶核酸聚合物測序的方法,包括以下步驟:(a)修飾靶核酸聚合物以生成被修飾的核酸聚合物,其中所述被修飾的核酸聚合物包括多個來自所述靶核酸聚合物的序列區(qū);(b)將所述被修飾的核酸聚合物附著至固體支持物表面上的區(qū)域;(c)生成被附著至所述固體支持物表面的所述被修飾的核酸聚合物的片段,其中所述片段被附著至所述固體支持物表面的所述區(qū)域處的位置;(d)通過檢測所述位置處的所述片段確定來自所述片段的核 苷酸序列;以及(e)基于來自所述片段的所述核苷酸序列和所述固體支持物表面上的所述位置之間的相對距離生成對所述靶核酸聚合物的核苷酸序列表征。
本公開提供為來自不同來源的序列的混合物中的各個序列確定來源的方法。該方法可包括以下步驟:(a)提供來自多個不同來源的靶核酸聚合物的混合物;(b)修飾所述靶核酸聚合物的混合物以生成被修飾的核酸聚合物的混合物,其中所述被修飾的核酸聚合物的混合物包括多個來自所述不同來源的序列區(qū);(c)在具有固體支持物表面的容器中生成所述被修飾的核酸聚合物的片段,每個片段包括來自所述不同來源中的一個的序列區(qū);(d)在來自共同靶核酸聚合物的片段優(yōu)先定位在所述固體支持物表面上的臨近位置條件下,將所述片段隨機捕獲在所述固體支持物表面上的位置處;(e)確定所述位置處的所述片段的核苷酸序列;以及(f)基于來自所述片段的所述核苷酸序列和所述固體支持物表面上的所述位置之間的相對距離識別源自所述多個不同來源中的共同來源的核苷酸序列。
還提供為來自不同來源的序列的混合物中的各個序列確定來源的方法,其中該方法包括以下步驟:(a)提供來自多個不同來源的靶核酸聚合物的混合物;(b)將插入物添加至所述混合物中的靶核酸聚合物中以形成被修飾的核酸聚合物的混合物,每個聚合物包括多個內(nèi)部插入物;(c)在與固體支持物表面接觸的流體中生成所述被修飾的核酸聚合物的片段,從而釋放片段,每個片段包括所述插入物中的每個的至少一部分;(d)將來自所述流體的片段隨機捕獲在所述固體支持物表面上的位置處;(e)通過檢測所述位置處的所述片段確定來自所述片段的核苷酸序列;以及(f)基于來自所述片段的所述核苷酸序列和所述固體支持物表面上的所述位置之間的相對距離識別源自所述多個不同來源中的共同來源的核苷酸序列。
可用在本文的方法或組合物中的靶核酸可具有本文中其他處闡述的結(jié)構(gòu)和/或源頭。本文中可為靶的示例性核酸種類包括,但不限于,DNA、RNA、肽核酸、嗎啉代核酸、鎖核酸、乙二醇核酸、蘇糖核酸、它們的混合物,以及它們 的雜交體。在優(yōu)選的實施方案中,將基因組DNA片段或其被擴增的拷貝用作靶核酸。在另一優(yōu)選實施方案中,使用線粒體或葉綠體DNA。再一些其他實施方案靶向RNA或其衍生物,如mRNA或cDNA。在一些實施方案中,靶核酸可來自單個細胞。在一些實施方案中,靶核酸可來自非細胞體液,例如,無細胞的血漿或痰。在一些實施方案中,靶核酸可來自循環(huán)腫瘤細胞。
在一些實施方案中,靶核酸可包括核糖體RNA(rRNA)或來源于它的序列。例如,rRNA序列可尤其用于區(qū)分宏基因組樣品中的不同生物體。
靶核酸可具有各種核苷酸序列中的任一種。在一些實施方案中,靶核酸包括均聚物序列。靶核酸還可包括重復序列。該重復單位可為,例如,至少2、5、10、20、30、40、50、100、250、500、1000個核苷酸或更多。重復序列可以連續(xù)地或者不連續(xù)地方式重復多個次數(shù)中的任一個,包括,例如,至少2、3、4、5、6、7、8、9、10、15、20次或更多。本文闡述的方法尤其可用于分析和評估具有均聚物和/或重復序列的靶核酸,因為這些序列區(qū)的實際長度可從序列組裝確定,而序列組裝至少部分地源自從這些方法獲得的接近度信息。
本文中描述的一些實施方案可利用以一個拷貝存在(即單個分子)或作為替代選擇以多個拷貝存在(即具有相同序列的核酸分子全體)的單一靶核酸種類。其他實施方案可利用多個不同的靶核酸種類(即存在多個具有不同核苷酸種類的核酸分子)。因此,多個靶核酸可包括多個相同的靶核酸,其中一些靶核酸相同的多個不同的靶核酸,或者其中所有靶核酸都不同的多個靶核酸。
利用多個靶核酸的實施方案可以多重方式進行,以致同時向多個靶核酸遞送試劑,或者多個靶核酸被同時操作(例如,本文闡述的方法的一個或更多個步驟可在多個靶核酸上同時進行)。靶核酸或靶核酸的衍生物(例如片段和/或擴增子)可被提供在一個或更多個室中,或者被提供在陣列表面上,以方便多重操作和/或評估。
在一些實施方案中,多個靶核酸可包括特定生物體的基本上全部基因組。該多個靶核酸可包括特定生物體的基因組的至少一部分,包括,例如,基因組 的至少1%、5%、10%、25%、50%、75%、80%、85%、90%、95%或99%。在具體實施方案中,該部分可具有的上限為基因組的至多約1%、5%、10%、25%、50%、75%、80%、85%、90%、95%或99%??蓮钠浍@得靶核酸的示例性基因組包括但不限于原核生物(例如埃希氏桿菌屬(Escherichia)、芽孢桿菌屬(Bacillus)、沙雷氏菌屬(Serratia)、沙門氏菌屬(Salmonella)、葡萄球菌屬(Staphylococcus)、鏈球菌屬(Streptococcus)、梭菌屬(Clostridium)、衣原體屬(Chlamydia)、奈瑟氏球菌屬(Neisseria)、密螺旋體屬(Treponema)、支原體屬(Mycoplasma)、包柔氏螺旋體屬(Borrelia)、軍團菌屬(Legionella)、假單胞菌屬(Pseudomonas)、分支桿菌屬(Mycobacterium)、螺桿菌屬(Helicobacter)、歐文氏菌屬(Erwinia)、土壤桿菌屬(Agrobacterium)、根瘤菌屬(Rhizobium),以及鏈霉菌屬(Streptomyces);古生菌,如泉古菌門(crenarchaeota)、納古菌門(nanoarchaeota)或廣古菌門(euryarchaeotia);或者真核生物,如真菌(例如,酵母)、植物、原生動物、以及動物(包括昆蟲(例如,果蠅屬(Drosophila spp.))、線蟲類(例如,秀麗隱桿線蟲(Caenorhabditis elegans)),以及哺乳動物(例如,大鼠、小鼠、猴、非人靈長類和人))。
多個靶核酸可具有等于至少約3千兆堿基(單倍體人基因組的大小)、至少約2千兆堿基(代表人基因組的至少約60%),或至少約1千兆堿基(代表人基因組的至少約30%)的復雜度。多個靶核酸的復雜度可大于或小于人基因組,而為,例如,至少約0.1千兆堿基、0.2千兆堿基、0.5千兆堿基、0.8千兆堿基、1千兆堿基、1.5千兆堿基、2千兆堿基、2.5千兆堿基、3千兆堿基、3.5千兆堿基、4千兆堿基、4.5千兆堿基、5千兆堿基或更多。作為替代選擇或者此外,用在本文實施方案中的多個核酸的復雜度可不超過約5千兆堿基、4千兆堿基、3千兆堿基、2千兆堿基、1千兆堿基、0.5千兆堿基、0.1千兆堿基或更少。
在一些實施方案中,多個靶核酸包括來自期望生物體的RNA,其示例包括但不限于上文列出的那些。靶核酸樣品可包括存在于該生物體中的RNA的完全互補物的基本上所有或一部分。該多個靶核酸可包括特定生物體的轉(zhuǎn)錄物 組的至少一部分,包括,例如,轉(zhuǎn)錄物組的至少1%、5%、10%、25%、50%、75%、80%、85%、90%、95%或99%。作為替代選擇或此外,該部分可具有的上限為轉(zhuǎn)錄物組的至多約1%、5%、10%、25%、50%、75%、80%、85%、90%、95%或99%。
在一些實施方案中,靶核酸或通過將插入物整合到靶核酸中而生成的被修飾的核酸可具有至少0.1kb、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、55kb、60kb、65kb、70kb、75kb、80kb、85kb、90kb、95kb、100kb、150kb、200kb、250kb、300kb、350kb、400kb、450kb、500kb、550kb、600kb、650kb、700kb、750kb、800kb、850kb、900kb、950kb、1000kb、5000kb、10000kb、20000kb、30000kb或至少50000kb的長度。作為替代選擇或此外,靶核酸或被修飾的核酸長度不超過0.1kb、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、l0kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、55kb、60kb、65kb、70kb、75kb、80kb、85kb、90kb、95kb、l00kb、150kb、200kb、250kb、300kb、350kb、400kb、450kb、500kb、550kb、600kb、650kb、700kb、750kb、800kb、850kb、900kb、950kb或不超過1000kb。
靶核酸可以由從單個生物體獲得的核酸分子或者由從包括不止一個生物體的天然來源獲得的核酸分子群體制備。靶核酸可來自單個細胞;來自單個生物體的多個細胞、一個或多個組織或體液;來自相同物種的若干個生物體的細胞、組織或體液;或者來自多個物種,如同宏基因組樣品,如來自環(huán)境樣品。核酸分子的來源包括,但不限于,細胞器、細胞、組織、器官或生物體。
在一些實施方案中,可在添加插入物之前或者在進行本文闡述的其他修飾之前對靶核酸樣品進行處理。例如,可在添加插入物之前,在附著至珠之前,在附著至固體支持物的表面之前,或者在結(jié)合至轉(zhuǎn)座酶之前擴增靶核酸樣品。當樣品為低豐度時或者當提供少量的靶核酸時,擴增是特別有用的。擴增基因組內(nèi)的絕大多數(shù)序列的方法稱為“全基因組擴增”法。這些方法的示例包括多重置換擴增(MDA)、鏈置換擴增(SDA)或超支化鏈置換擴增,它們中的 每個都采用簡并引物來進行。特別有用的方法為全基因組測序平臺的提供商(例如圣地亞哥市的Illumina公司(Illumina Inc.,San Diego)和卡爾斯巴德市的生命技術(shù)公司(Life Technologies Inc.,Carlsbad))建議的在樣品制備方法期間使用的那些。其他有用的方法在美國專利號7,670,810中有闡述,所述專利通過引用被并入本文。
靶向擴增可用于選擇性擴增僅一部分核酸,無論其是靶核酸,被修飾的核酸、核酸片段,還是本文闡述的其他核酸。靶向擴增技術(shù)的示例包括,但不限于,多重PCR、GoldenGate測定法(Illumina Inc.,San Diego)、滾環(huán)擴增和其他本領域已知的方法,如美國專利號7,670,810、美國專利號6,355,431或美國專利號7,582,420中描述的方法,所述每篇專利均通過引用被并入本文。其他可用于基因組的靶區(qū)域的選擇性富集以及可選地擴增的方法包括靶向探針拔出技術(shù),如Illumina公司(Illumina Inc.)(TruSeqTM品牌)、NimbleGen公司(NimbleGen Inc.)(SeqCap EZTM品牌)、或安捷倫公司(Agilent,Inc.)(SureSelectTM品牌)所商品化的那些技術(shù)。
在一些實施方案中,可在添加插入物之前或者在進行本文闡述的其他修飾之前片段化靶核酸樣品。在一些實施方案中,片段化由擴增固有地產(chǎn)生,例如,在模板中出現(xiàn)在側(cè)翼引物雜交位點之間的部分被選擇性拷貝的情況中。在另一些情況下,片段化可采用本領域內(nèi)已知的化學、酶學或物理技術(shù)來實現(xiàn)。期望大小范圍內(nèi)的片段可采用本領域已知的分離方法如凝膠電泳或者采用珠(馬薩諸塞州貝弗利市的AgenCourt公司(AgenCourt,Beverly MA))純化來獲得。相應地,可在添加插入物之前進行片段化以獲得長度至多約10kb、5kb、4kb、3kb、2kb、1kb、0.8kb、0.6kb、0.5kb、0.4kb、0.2kb或0.1kb或更短的靶DNA聚合物。作為替代選擇或者此外,尺寸選擇可用于獲得最大尺寸選自上文例舉的那些而最小尺寸為長度至少約0.1kb、0.5kb、1kb、2kb、3kb、4kb、5kb、10kb或更長的靶核酸聚合物。
本公開的方法可包括修飾靶核酸聚合物以生成被修飾的核酸聚合物的步驟,其中該被修飾的核酸聚合物包括多個來自靶核酸聚合物的序列區(qū)。示例性 修飾包括但不限于,將轉(zhuǎn)座酶結(jié)合至靶核酸以形成轉(zhuǎn)座體,將插入物添加至靶核酸中,將靶核酸附著至珠或其他載體,或者將靶核酸附著至基底表面,隨后在這里捕獲片段。
在具體實施方案中,可通過將一個或更多個插入物添加至該聚合物中來修飾靶核酸聚合物。因此,本公開的方法可包括將插入物添加至靶核酸聚合物中的步驟,由此制備被修飾的核酸。一些插入方法包括使具有轉(zhuǎn)座子元件的插入物在酶(如轉(zhuǎn)座酶或整合酶)的存在下,在足以使插入物整合到靶核酸中的條件下與靶核酸接觸。在一些實施方案中,將插入物添加至靶核酸中可為非隨機的。在一些實施方案中,具有轉(zhuǎn)座子元件的插入物可與靶核酸在抑制在某些位點的整合的一種或更多種蛋白的存在下與靶核酸接觸。例如,可抑制插入物整合到包括蛋白的基因組DNA、包括染色質(zhì)的基因組DNA、包括核小體的基因組DNA或包括組蛋白的基因組DNA中。
可對,例如,溶液中的靶核酸進行將插入物添加至靶核酸中的步驟,如圖1所顯示的。如下文更詳細地闡述的,該溶液相靶核酸可用于生成隨后將結(jié)合至固體支持物的表面的片段。在作為替代選擇的實施方案中,可將靶核酸捕獲在珠或其他固相載體上,以便在靶核酸被附著至固相載體時將插入物添加至其中。圖5顯示具有被附著的轉(zhuǎn)座酶的珠100,有溶液相靶核酸存在的類似珠110以及靶核酸已結(jié)合至珠表面上的轉(zhuǎn)座酶的珠120??稍谥榈谋砻嫔蠈υ摪泻怂徇M行標簽式片段化(tagmented)。固相載體可由固體支持物材料(即為剛性的)制備,或者由其他不溶性材料制備,無論該材料是剛性的還是可壓縮的(例如水凝膠珠)。
可用于將插入物添加至固相上的靶核酸中的另一實施方案被顯示在圖6中。在本示例中,珠200具有被附著的核酸探針,它們互補于被添加至被修飾的核酸中的插入物。該插入物已通過轉(zhuǎn)座酶被添加至被修飾的核酸中,該被修的飾核酸通過探針與插入物的退火被結(jié)合至珠210,以形成固相的、被修飾的核酸。當被結(jié)合至珠時,轉(zhuǎn)座體可存在于被修飾的核酸上(如圖6中所顯示 的),或者轉(zhuǎn)座體可在這種結(jié)合之前被去除??蓪⒃摴滔嗟?、被修飾的核酸在珠上片段化以生成具有固相的核酸片段的珠220。
本文闡述的各種靶核酸或被修飾的核酸中的任一種都可被附著至珠或其他固相載體。因此,本文闡述的制備和使用靶核酸、被修飾的核酸或核酸片段的步驟可在固相附著之前或之后進行。例如,可將靶核酸附著至珠或其他固相載體,然后以轉(zhuǎn)座酶、整合酶或引入插入物的其他試劑處理該附著的靶核酸。此外,插入物不必被添加至固相靶核酸中,相反可在沒有插入物的添加的情況下片段化固相靶核酸。可將被結(jié)合至靶核酸、被修飾的核酸或其片段的珠或其他固相載體遞送至一容器,該容器具有核酸片段將在此被測序或以其他方式檢測的表面。
另外的將插入物添加至固相靶核酸中的示例被顯示在圖7中。如插圖A所示,靶核酸通過靶核酸末端處或其附近的鍵合被附著至表面。如果需要,該附著可出現(xiàn)在靶核酸上的其他點處。在插圖B中,轉(zhuǎn)座酶被結(jié)合至該固相靶核酸以形成多個固相轉(zhuǎn)座體。該靶核酸可被標簽式片段化,以致多個不同的片段從該表面被釋放,如插圖C所顯示的。然后將釋放的片段再次捕獲至該表面的區(qū)域上,臨近該靶核酸已被捕獲的位點。被捕獲的片段可進一步采用本文闡述的方法被操作和檢測。
無論采用溶液相還是固相靶核酸,插入物都可具有各種基團或部分中的任一種。在具體實施方案中,插入物可與親和標簽相關聯(lián)以便將插入物的轉(zhuǎn)座子元件整合到靶核酸中的特定序列處。例如,插入物可以與靶向特異核酸序列的蛋白相關聯(lián),例如組蛋白、染色質(zhì)結(jié)合蛋白、轉(zhuǎn)錄因子、啟動因子等,并且與結(jié)合特定的序列特異性核酸結(jié)合蛋白的抗體或抗體片段相關聯(lián)。在示例性實施方案中,插入物可與親和標簽(如生物素)相關聯(lián);并且該親和性標簽與核酸結(jié)合蛋白相關聯(lián)。
要理解的是,在承載轉(zhuǎn)座子元件的一些插入物整合期間,靶核酸整合位點處的若干個連續(xù)核苷酸在整合產(chǎn)物中被復制。因此,該整合產(chǎn)物可在所得的被修飾的核酸中的插入?yún)^(qū)域的每個末端處包括重復序列,例如在PCT公開號WO 2012/061832、美國專利申請公開號2012/0208724、美國專利申請公開號2012/0208705以及PCT申請序列號PCT/US2013/031023中描述的,所述每篇參考文件均通過引用被并入本文。該重復序列可用作宿主標簽。例如,Tn5轉(zhuǎn)座酶結(jié)合靶核酸并在DNA骨架中產(chǎn)生兩個缺口,每條鏈中一個,相隔9個堿基。該9個堿基區(qū)域提供了宿主標簽,其將存在于相鄰的片段中。這種標簽可用于確認在表面上接近并且也具有相同標簽序列的片段確實來自相同的靶核酸。因此,該標簽可用于差錯檢查、幫助組裝片段序列或確定單體型相位。
在一些實施例中,將本文提供的多個插入物添加至特定的靶核酸聚合物中。一些實施例包括選擇足以實現(xiàn)將多個轉(zhuǎn)座子序列整合到靶核酸聚合物中的條件,以至于在聚合物中每個被整合的轉(zhuǎn)座子序列之間的平均距離為靶核酸中特定數(shù)量的連續(xù)核苷酸。在一些實施例中,可以選擇條件以讓靶核酸中插入物之間的距離或平均距離為至少約5、10、20、30、40、50、60、70、80、90、100或更多個連續(xù)核苷酸。在一些實施例中,靶核酸中插入物之間的距離或平均距離為至少約100、200、300、400、500、600、700、800、900、1000或更多個連續(xù)核苷酸。在一些實施例中,靶核酸中插入物之間的距離或平均距離為至少約1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、90kb、100kb或更多個連續(xù)核苷酸。在一些實施例中,靶核酸中插入物之間的距離或平均距離為至少約100kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1000kb或更多個連續(xù)核苷酸。作為以上闡述的閾值的替代選擇或另外,靶核酸中插入物之間的距離或平均距離可為至多約1000kb、500kb、100kb、10kb、5kb、1kb、500個堿基、100個堿基、50個堿基或10個堿基。
一些實施例可包括拷貝核酸中的全部或部分序列。例如,一些實施例包括將引物雜交至被整合到被修飾的核酸或其片段中的插入物的引物位點。在一些這種實施例中,該引物可被雜交至引物位點并延伸。該被拷貝的序列可包括靶核酸的至少一部分或其片段。在一些實施例中,該引物可為測序引物。在一些實施例中,采用該測序引物來獲得測序數(shù)據(jù)。本文闡述方法的一些實施例可包括擴增包括一個或更多個插入物的至少一部分和靶核酸的至少一部分或其片段 的序列。在一些實施例中,采用雜交至被整合到靶核酸聚合物中的插入物的引物位點的引物來擴增靶核酸的至少一部分(或其片段)。
在具體實施例中,插入物通過轉(zhuǎn)座酶被添加至靶核酸聚合物中。轉(zhuǎn)座酶可與包括轉(zhuǎn)座子元件的插入物形成功能性復合物,由此形成轉(zhuǎn)座體。這種方式形成的轉(zhuǎn)座體能夠催化轉(zhuǎn)座反應以將插入物整合到靶核酸聚合物中。在一些這種插入事件中,轉(zhuǎn)座酶識別位點的一條鏈可以被轉(zhuǎn)移到靶核酸中。
一些實施例可包括使用高活性Tn5轉(zhuǎn)座酶和Tn5類型的轉(zhuǎn)座酶元件(參見,例如,Goryshin和Reznikoff,J.Biol.Chem.(《生物化學雜志》),273:7367(1998),所述參考文件通過引用被并入本文),或者MuA轉(zhuǎn)座酶和包括R1和R2末端序列的Mu轉(zhuǎn)座酶元件(參見,例如,Mizuuchi,Cell(《細胞》),35:785,(1983)和Savilahti等人,EMBO J.(《歐洲分子生物學組織雜志》),14:4893,(1995),所述每篇參考文件均通過引用被并入本文)。與高活性Tn5轉(zhuǎn)座酶(例如,威斯康星州麥迪遜市的Epicentre生物技術(shù)公司(Epicentre Biotechnologies,Madison,Wisconsin)的EZ-Tn5TM轉(zhuǎn)座酶)形成復合物的示例性轉(zhuǎn)座酶元件在PCT公開號WO 2012/061832、美國專利申請公開號2012/0208724、美國專利申請公開號2012/0208705以及PCT申請序列號PCT/US2013/031023中有闡述,所述每篇參考文件均通過引用被并入本文。
可與本文提供的某些實施例一起使用的轉(zhuǎn)座系統(tǒng)的更多示例包括金黃色葡萄球菌(Staphylococcus aureus)Tn552(Colegio等人,J.Bacteriol.(《細菌學雜志》),183:2384-8(2001);Kirby等人,Mol.Microbiol.(《分子微生物學》),43:173-86(2002)),Tyl(Devine&Boeke,Nucleic Acids Res.(《核酸研究》),22:3765-72(1994)和PCT公開號WO 95/23875),轉(zhuǎn)座子Tn7(Craig,Science(《科學》)271:1512(1996);Craig,Curr Top Microbiol Immunol.(《微生物學和免疫學專題》),204:27-48(1996)),Tn/O和IS10(Kleckner等人,Curr Top Microbiol Immunol.(《微生物學和免疫學專題》),204:49-82(1996)),Mariner轉(zhuǎn)座酶(Lampe等人,EMBO J.(《歐洲分子生物學組織雜志》),15:5470-9,(1996)),Tcl(Plasterk,Curr.Topics Microbiol. Immunol.(《微生物學和免疫學專題》),204:125-43,(1996)),P Element(Gloor,Methods Mol.Biol.(《分子生物學方法》),260:97-114,(2004)),Tn3(Ichikawa&Ohtsubo,J Biol.Chem.(《生物化學雜志》)265:18829-32,(1990)),細菌插入序列(Ohtsubo&Sekine,Curr.Top.Microbiol.Immunol.(《微生物學和免疫學專題》)204:1-26,(1996)),逆轉(zhuǎn)錄病毒(Brown等人,Proc Natl Acad Sci USA(《美國國家科學院院報》),86:2525-9,(1989)),以及酵母的反轉(zhuǎn)錄轉(zhuǎn)座子(Boeke&Corces,Annu Rev Microbiol.(《微生物學年度評論》)43:403-34,(1989))。更多的示例包括IS5、Tn10、Tn903、IS911,以及轉(zhuǎn)座酶家族酶的工程化版本(Zhang等人,PLoS Genet.(《公共科學圖書館·遺傳學》)5:el000689.Epub 2009Oct 16;和Wilson等人,J.Microbiol.Methods(《微生物學方法雜志》)71:332-5(2007))。本段列出的文獻中的每一篇均通過引用被并入本文。
本文提供的一些實施例包括具有轉(zhuǎn)座子元件的插入物、具有轉(zhuǎn)座子元件的被修飾的核酸聚合物或具有轉(zhuǎn)座子元件的核酸片段。在一些實施例中,轉(zhuǎn)座子元件連同本文闡述的其他部分一起存在于插入物中,該其他部分為如與第二轉(zhuǎn)座子元件的接頭,用于擴增的引物位點,用于基于引物延伸的檢測(例如SBS檢測)的引物位點,結(jié)合部分和/或切割位點。圖1描述包括轉(zhuǎn)座子元件以及其他部分的插入物的示意圖。
轉(zhuǎn)座子元件可包括包含用于轉(zhuǎn)座酶或整合酶的特異結(jié)合位點的兩條核酸鏈。這些鏈可以沿它們的長度完全互補(例如,雙鏈核酸),或者沿它們長度的至少一部分互補(例如,叉形銜接物,具有非互補突出物的銜接物等)。具有退火部分中的互補鏈和形成非退火部分的非互補鏈的雙鏈轉(zhuǎn)座子元件的示例性實施例被顯示在圖1中。
在具體實施例中,插入物可包括彼此連接的兩個轉(zhuǎn)座子元件。接頭可被包括在插入物中以便第一轉(zhuǎn)座子元件與第二轉(zhuǎn)座子元件為連續(xù)的。特別有用的插入物為形成“環(huán)狀”復合物的插入物,如在PCT公開號WO 2012/061832、美國專利申請公開號2012/0208724、美國專利申請公開號2012/0208705以及 PCT申請序列號PCT/US2013/031023中闡述的,所述每篇參考文件通過引用被并入本文。在這些結(jié)構(gòu)中,具有連續(xù)轉(zhuǎn)座子元件的單個插入物結(jié)合至兩個轉(zhuǎn)座酶亞基以形成“環(huán)狀”復合物。該環(huán)狀復合物可用于將插入物置于靶核酸中,同時保持原始靶核酸的順序信息,并且未片段化所得到的被修飾的核酸聚合物。環(huán)狀轉(zhuǎn)座子元件的插入提供了將插入物添加至靶核酸中而不必片段化靶核酸的方法。如將在下文更詳細地闡述的,所得到的被修飾的核酸可在隨后的步驟中被片段化。
有用的接頭可具有這樣的部分,所述部分包括但不限于,一個或更多個核苷酸、核酸、含有非核苷酸的化學部分、核苷酸類似物、氨基酸、多肽或蛋白。在優(yōu)選的實施例中,接頭包括核酸部分。該接頭可包括至少約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多個核苷酸。作為替代選擇或另外,接頭可包括至多約100、50、20、10、9、8、7、6、5、4、3、2或1個核苷酸。在優(yōu)選的實施例中,接頭為雙鏈ME末端之間的單鏈,例如,以防止自身插入。
接頭可為,例如,由于含有一個或更多個非核酸部分而不可擴增的。在一些情況下,接頭將不包括任何核酸材料,為完全沒有核苷酸。不可擴增的接頭的示例包括合成接頭,如具有選自烷基、丙基、PEG的部分的接頭;具有非天然堿基(如IsoC、isoG)的接頭;或者具有不在基于DNA的擴增方案中擴增的任何基團的接頭。例如,含有isoC、isoG對的轉(zhuǎn)座子可用缺乏互補的isoG和isoC的dNTP混合物擴增,保證不發(fā)生跨過插入的轉(zhuǎn)座子的擴增。
在具體實施例中,可在鑲嵌末端(ME)區(qū)域之間引入不可擴增的接頭。例如,插入物可具有以下配置:ME-引物位點-接頭-引物位點-ME。該引物位點可相同或不同。例如,如圖1例舉的結(jié)構(gòu)中所顯示的,引物位點可都為P5引物位點。但是,應該理解,圖1的結(jié)構(gòu)可進行修改,使得兩個P7引物位點通過接頭連接,或者使得在一個叉形銜接物上的P5引物位點被連接至另一叉形銜接物上的P7引物位點。P5和P7引物位點在美國專利號8,563,477中有描述,所述專利通過引用被并入本文。
用于將插入物添加至靶核酸中而不必片段化靶核酸的另一種方法為單末端轉(zhuǎn)座(one-ended transposition)。單末端轉(zhuǎn)座可用于在轉(zhuǎn)座位點制造缺口并直接將插入物連接至靶DNA的僅一條鏈。圖8中顯示示意性示例。包括轉(zhuǎn)座酶在內(nèi)的各種酶可用于單末端轉(zhuǎn)座。例如,Mu、Tn5和Rag樣轉(zhuǎn)座酶已被證實表現(xiàn)出單末端轉(zhuǎn)座。Mu的某些突變體(例如,Mu E392Q)顯示出相對于雙末端轉(zhuǎn)座而言對單末端轉(zhuǎn)座的偏好(參見Haapa等人,Nucl.Acids Res(《核酸研究》)27:2777(1999),所述參考文件通過引用被并入本文)。
用于實現(xiàn)單末端轉(zhuǎn)座的示例性方法為采用作為混合有活性和無活性轉(zhuǎn)座子單體的產(chǎn)物的轉(zhuǎn)座子二聚體。無活性單體可通過誘變、化學修飾或二者來產(chǎn)生。可基于統(tǒng)計學評估(例如泊松分布)和/或滴定測定法來確定用于獲得適當?shù)膯文┒宿D(zhuǎn)座水平的有活性和無活性單體的適當比例。在具體實施例中,轉(zhuǎn)座酶二聚體可由有活性和無活性單體的混合物形成,該混合物含有至多50%、25%、10%、5%、1%、0.1%或0.01%的有活性單體。
用于獲得單末端轉(zhuǎn)座的另一種方法為采用反應性和非反應性轉(zhuǎn)座子元件的混合物以及有活性轉(zhuǎn)座酶二聚體。示例性非反應性轉(zhuǎn)座子元件包括在3'末端被阻斷的那些(例如,通過3'末端處的雙脫氧核苷酸或者3'末端處的延伸阻斷部分)。在具體實施例中,轉(zhuǎn)座子二聚體可從反應性和無反應性轉(zhuǎn)座子元件的混合物形成,該混合物含有至多50%、25%、10%、5%、1%、0.1%或0.01%的反應性元件。
所考慮的用于獲得單末端轉(zhuǎn)座的另一種方法為采用單體轉(zhuǎn)座體。設想單體轉(zhuǎn)座體由改動或去除轉(zhuǎn)座酶蛋白上的二聚作用接觸產(chǎn)生。去除可通過誘變單體以刪除形成二聚體接觸的一部分蛋白結(jié)構(gòu)和/或通過點突變以改動參與二聚作用的氨基酸來實現(xiàn)。作為替代選擇或另外,二聚體接觸的點可通過化學修飾來改動(例如,在存在于二聚體接觸區(qū)域中的天然氨基酸處或者在被引入二聚體接觸區(qū)域內(nèi)的突變氨基酸處,例如反應性半胱氨酸或賴氨酸)。
用在本文的方法或組合物中的插入物可包括一個或更多個引物位點。在一些實施例中,插入物含有單一類型的引物位點。作為替代選擇,插入物可包括 至少一個、兩個或更多個引物位點。這些實施例中的引物位點的方向可使得雜交至第一引物位點的引物和雜交至第二引物位點的引物在相同方向或不同方向上。在一個實施例中,插入物中的引物位點序列可互補于用于擴增的引物。作為替代選擇或另外,引物位點序列互補于用于測序或其他基于引物延伸的檢測技術(shù)的引物。在其他實施例中,兩歌引物位點可存在于插入物中,第一引物位點互補于擴增引物,第二引物位點互補于用于測序或其他基于引物延伸的檢測技術(shù)的引物。
在一些實施例中,插入物包括第一引物位點和第二引物位點,其中一個或更多個其他部分置于所述引物位點之間,例如切割位點、結(jié)合部分、接頭或下文或本文其他地方闡述的其他部分。一些實施例可采用可用于直接測序的叉形或Y形銜接物設計,例如在美國專利號7,741,463中所描述的。圖1中顯示了示例。
在一些實施例中,有利地是采用具有通用引物位點的插入物。例如,可將靶核酸進行修飾以包括包含成對的通用引物位點(一條鏈上一個)的插入物。通用引物位點可具有各種應用,如用作用在擴增、測序和/或識別靶核酸中的引物的雜交位點。當采用兩個引物位點時,第一和第二通用引物位點可為相同、基本上類似、類似或不同的。在一些實施例中,為了制備包括第一通用引物位點(互補于第一引物)和第二通用引物位點(互補于第二引物)的靶核酸,插入物的轉(zhuǎn)座子元件將包括由接頭分開的第一轉(zhuǎn)座酶識別位點和第二轉(zhuǎn)座酶識別位點。該第一引物位點可包括為第二引物內(nèi)的序列的反向互補的序列。在一些實施例中,該第一引物位點包括與第二引物內(nèi)的序列二重對稱的序列。在一些實施例中,該第一引物位點包括與第二引物內(nèi)的序列C2對稱的序列。在轉(zhuǎn)座酶存在下可以通過轉(zhuǎn)座將多個插入物插入到靶核酸中。可以切割被摻入的序列以產(chǎn)生多個靶核酸片段,每個包括第一引物位點和第二引物位點。
第一通用引物位點和第二通用引物位點可通過各種方法被摻入到每個靶核酸中。例如,可采用第一引物位點和第二引物位點利用帶尾寡核苷酸(tailed-oligonucleotide)來擴增靶核酸。如本領域所知的,帶尾寡核苷酸可包括互補于 引物位點的序列和額外序列。在示例性實施例中,第一帶尾寡核苷酸包括互補于第一引物位點的序列和用于第一通用引物位點的序列,第二帶尾寡核苷酸包括互補于第二引物位點的序列和用于第二通用引物位點的序列。更多的示例在PCT公開號WO 2012/061832、美國專利申請公開號2012/0208724、美國專利申請公開號2012/0208705以及PCT申請序列號PCT/US2013/031023中有闡述,所述每篇參考文件均通過引用被并入本文。要理解的是,包括第一通用引物位點和第二通用引物位點的核酸序列可以用在另外的測序方法中。
用在本公開的方法或組合物中的插入物可包括一個或更多個切割位點。然后,可在切割位點處切割包括插入物的被修飾的核酸聚合物以生成被修飾的核酸聚合物的片段??墒褂脤ι锘瘜W、化學、物理或其他切割機制敏感的切割位點。在一些實施例中,片段化位點可包括可以通過各種手段片段化的核苷酸或核苷酸序列。例如,片段化位點可以為酶(如核酸酶)的底物。具有對相應的限制性內(nèi)切核酸酶尤其敏感的核苷酸序列的限制性內(nèi)切核酸酶位點可以是特別有用的。
在另一個實施例中,片段化位點可在本來包括脫氧核糖核苷酸的核酸中含有至少一個核糖核苷酸,并且可以用RNAse切割。可采用能夠選擇性切割脫氧核糖核苷酸和核糖核苷酸之間的磷酸二酯鍵的化學切割試劑,包括,例如,金屬離子如稀土金屬離子(例如,La3+、特別是Tm3+、Yb3+或Lu3+、Fe(3)或Cu(3)),或者暴露于升高的pH。
在另一示例中,切割位點可包括用于切口酶(即斷開雙鏈核酸中的一條鏈的切口內(nèi)切核酸酶)的一個或更多個識別序列。因此,片段化位點可包括第一切口酶識別序列,以及可選地第二切口酶識別序列。第一和第二切口酶識別序列可彼此相同或彼此不同。
在另一示例中,切割位點可包括一個或更多個包括脫堿基位點的核苷酸類似物,并允許在某些化學試劑(如聚胺、N,N'-二甲基乙二胺(DMED))的存在下在片段化位點切割(參見,例如,美國專利申請公開號2010/0022403,所述公開通過引用被并入本文)。在一些實施例中,脫堿基位點可以通過例如采 用尿嘧啶DNA糖基化酶(UDG)修飾切割位點內(nèi)的尿嘧啶核苷酸來產(chǎn)生。然后,包括脫堿基位點的多核苷酸鏈可以通過內(nèi)切核酸酶(例如Endo IV內(nèi)切核酸酶、AP裂解酶、FPG糖基化酶/AP裂解酶、Endo VIII糖基化酶/AP裂解酶)、加熱或堿處理在該脫堿基位點被切割。脫堿基位點也可以在不同于脫氧尿苷的核苷酸類似物處產(chǎn)生,并且通過內(nèi)切核酸酶、加熱或堿處理以類似方式切割。例如,通過暴露于FPG糖基化酶,8-氧鳥嘌呤可被轉(zhuǎn)化為脫堿基位點。通過暴露于AlkA糖基化酶,脫氧肌苷可被轉(zhuǎn)化為脫堿基位點。由此產(chǎn)生的脫堿基位點可以典型地通過適當?shù)膬?nèi)切核酸酶(如Endo IV或AP裂解酶)處理而被切割(參見,例如,美國專利公開號2011/0014657,所述專利通過引用被并入本文)。
在另一個示例中,片段化位點可以包括二醇鍵合,其允許通過高碘酸鹽(例如,高碘酸鈉)處理來切割。在另一個示例中,片段化位點可以包括二硫鍵基團,其允許以化學還原劑切割,例如三(2-羧乙基)磷酸酯鹽酸鹽(TCEP)。
在一些實施例中,片段化位點可以包括光切割部分??赏ㄟ^利用光能量斷開共價鍵的各種方法中的任一種來進行光化學切割。光化學切割的位點可通過核酸中的非核苷酸化學部分來提供,如亞磷酰胺[4-(4,4'-二甲氧基三苯甲氧基)丁酰胺基甲基)-1-(2-硝基苯基)-乙基]-2-氰乙基-(N,N-二異丙基)-亞磷酰胺)(美國弗吉尼亞州斯特林市的Glen Research公司(Glen Research,Sterling,Va.,USA),Cat No.10-4913-XX)。
在一些實施例中,片段化位點可包括肽,例如,其中肽分子被連接至核酸的偶聯(lián)結(jié)構(gòu)。肽分子隨后可通過具有適當?shù)奶禺愋缘碾拿富蛘咄ㄟ^適合的非酶化學或光化學切割手段來切割。在一些實施例中,肽和核酸之間的偶聯(lián)將通過使肽共價連接至核酸(例如,雙鏈核酸的一條鏈)來形成??刹捎帽绢I域公知的技術(shù)制備肽和核酸之間的偶聯(lián)。在一種這樣的技術(shù)中,期望的氨基酸和核苷酸序列的肽和核酸組分可,例如,通過標準自動化化學合成技術(shù)分別合成,然 后在水性/有機溶液中偶聯(lián)。舉例而言,可從Glen Research購得的OPeCTM系統(tǒng)是基于N末端硫酯-功能化的肽與5'-半胱氨酰寡核苷酸的自然連接。
在具體實施例中,被修飾的核酸聚合物的片段可通過擴增聚合物的不連續(xù)部分產(chǎn)生。例如,在一些實施例中,將引物位點插入到被修飾的核酸聚合物中,被引物位點夾在其間的區(qū)可,例如,以PCR擴增操作或類似的擴增方法采用雜交至引物位點的引物擴增。要理解的是,在一些實施例中,如通過擴增技術(shù)生成片段的實施例中,被修飾的核酸聚合物不必包括切割位點。
在被修飾的核酸附著至珠或其他固相載體的情況中,可通過破壞珠來生成片段。例如凝膠珠可被融解或溶解以釋放被附著至珠的片段。
插入物可包括一個或更多個配體。存在于插入物中的配體可為特異于特定受體的結(jié)合伴侶。例如,配體可特異于存在于固體支持物表面上的受體。由此,該受體-配體結(jié)合可促進表面捕獲含有具有該配體的插入物的一部分的被修飾的核酸或核酸片段。配體和受體的示例包括可分別結(jié)合鏈霉親和素或鎳的生物素或聚組氨酸。其他示例包括本領域中已知的成對的配體和它們的受體,例如,親和素-生物素,鏈霉親和素-生物素,以及生物素、鏈霉親和素或親和素的衍生物,包括但不限于,2-亞氨基生物素、脫硫生物素、NeutrAvidin(俄勒岡州尤金市的分子探針公司(Molecular Probes,Eugene,Oreg.))、CaptAvidin(分子探針公司(Molecular Probes))等;結(jié)合蛋白/肽,包括麥芽糖-麥芽糖結(jié)合蛋白(MBP),鈣-鈣結(jié)合蛋白/肽(CBP);抗原-抗體,包括表位標簽(包括c-MYC、HA、VSV-G、HSV、V5以及FLAG TagTM)以及它們對應的抗表位抗體;半抗原(例如,二硝基苯基和地高辛)以及它們對應的抗體;適體和它們對應的靶;聚組氨酸標簽(例如,五聚組氨酸和六聚組氨酸)以及它們的結(jié)合伴侶,包括對應的固定化金屬離子親和層析(IMAC)材料以及抗聚組氨酸抗體;熒光團和抗熒光團抗體;核酸鏈和它們的互補鏈;等等。
在一些實施例中,插入物可包括報告部分。有用的報告部分包括各種可識別標簽、標記物或本領域已知的基團中的任一種。在某些實施例中,報告部分可發(fā)出信號。信號的示例包括為熒光、化學發(fā)光、生物發(fā)光、發(fā)磷光、放射 性、測熱或電化學發(fā)光的那些信號。示例性報告部分包括熒光團、放射性同位素、色原、酶、包括表位標簽的抗原、半導體納米晶體(如量子點)、重金屬、染料、磷光基團、化學發(fā)光基團、電化學檢測部分、結(jié)合蛋白、磷光體、稀土螯合物、過渡金屬螯合物、近紅外染料、電化學發(fā)光標記物,以及質(zhì)譜相容的報告部分,如質(zhì)量標簽、電荷標簽和同位素??梢耘c本文描述的方法和組合物一起使用的更多報告部分包括光譜標記物,如熒光染料(例如,異硫氰酸熒光素、德克薩斯紅、若丹明等);放射性標記物(例如,3H、125I、35S、14C、32P、33P等);酶(例如,辣根過氧化物酶、堿性磷酸酶等);光譜比色標記物,如膠體金、彩色玻璃或塑料(例如,聚苯乙烯、聚丙烯、乳膠等);珠;磁性標記物;電標記物;熱標記物;以及質(zhì)量標簽。
在一些實施例中,可以使用多個不同的插入物,其中各個插入物可以通過唯一條形碼序列(barcode sequence)的存在來區(qū)分。因此,可將多個含條形碼的插入物添加至靶核酸中以生成自始至終具有多個唯一條形碼的被修飾的核酸聚合物。示例性條形碼及其制備和使用方法在PCT公開號WO 2012/061832、美國專利申請公開號2012/0208724、美國專利申請公開號2012/0208705以及PCT申請序列號PCT/US2013/031023中有闡述,所述每篇參考文件均通過引用被并入本文。在作為替代選擇的實施例中,要理解的是不必使用這些條形碼。例如,當通過本文闡述的方法保留的連接或接近度信息足以獲得對靶核酸聚合物的準確的核苷酸序列表征,而無需以上文獻中闡述的表形碼方法時,這是可能的。因此,在具體實施例中,用在本文闡述的方法中的多個插入物將不包括彼此比較起來為唯一的序列(例如條形碼)。相反,用在本文闡述的方法中的、存在于本公開的被修飾的核酸聚合物中的,或存在于本公開的多個核酸片段中的全部插入物可具有相同的序列(即,通用系列)。因此,本文闡述的方法中的一些實施例將在不區(qū)分各個插入物(即將一個插入物與另一個插入物區(qū)分開)的序列的情況下進行,這些插入物可以存在于或不存在于被修飾的核酸聚合物或其片段中。
本公開的方法可包括將被修飾的核酸聚合物的片段釋放到流體中的步驟。在一些實施例中,片段中的每個將包括之前被添加至核酸聚合物中的插入物的 至少一部分。在具體實施例中,該步驟可包括(i)使被修飾的核酸聚合物與固體支持物表面接觸,以及(ii)將被修飾的核酸聚合物的片段釋放到流體中。當多個不同的被修飾的核酸聚合物與固體支持物表面接觸時,在各個被修飾的核酸聚合物在空間上彼此分開的條件下如此進行通常是有利的。例如,可將該聚合物以相對稀釋的濃度遞送至具有一表面的容器(例如,該容器可為具有檢測表面的流動池),使得容器中或表面上最接近的相鄰聚合物之間的平均距離與被捕獲在該表面上時最接近的相鄰片段所期望的平均距離在相同的相對范圍內(nèi)??赏ㄟ^遞送被附著至珠的被修飾的核酸聚合物來實現(xiàn)類似的空間分離。在將釋放的片段用作擴增的模板以在該表面上形成簇(或克隆)的情況中,一旦所述片段在該表面上被擴增,最接近的相鄰聚合物之間的距離可在所期望的簇的平均間距范圍內(nèi)。
在具體實施例中,將多個不同的被修飾的核酸聚合物遞送至流動池(或其他容器),并允許它們穿過與(隨后片段將被附著的)表面接觸的流體(主動或被動地)擴散。因此,可以在停止流動條件下遞送該聚合物,其中該載有聚合物的溶液首先流動到流動池中,然后停止流動以允許擴散。圖2中顯示一實施例的圖解示例,其中三個不同的被修飾的核酸聚合物被允許擴散到沿流動池表面的位置。如圖上所例舉的,固體支持物表面可以可選地包括將結(jié)合至存在于聚合物上的結(jié)合伴侶的捕獲部分。為本目的可使用本文闡述的或其他本領域已知的各種受體和配體中的任一種。因此,插入物可包括配體,并且固體支持物表面可包括該配體的受體,以致被修飾的核酸聚合物與固體支持物表面的接觸將被修飾的核酸聚合物附著至該表面。
可將被修飾的核酸附著至固相載體(如珠),并將該珠遞送至具有固相表面的容器。圖5顯示珠上的示例性的被修飾的靶核酸。圖6顯示珠上的被修飾的靶核酸的另一示例。具有靶核酸、被修飾的核酸或其片段的固相載體可被允許與固體支持物表面接觸(例如,通過重力沉降),并且在一些情況下可采用本文闡述的受體和配體或者其他手段將被附著至該表面。
一旦一個或更多個不同的被修飾的核酸存在于固體支持物表面的相應的區(qū)域處或附近,則可生成被修飾的核酸的片段。在一些實施例中,可切割該不同的被修飾的核酸聚合物,以便生成該聚合物的片段。切割可發(fā)生在已被整合到被修飾的核酸聚合物中的插入物中存在的切割位點。作為替代選擇或另外,可通過擴增被修飾的核酸的序列區(qū)來生成片段。例如,可采用退火至已被添加至被修飾的核酸中的插入物上的引物位點的引物來進行擴增。可以可選地進行變性以產(chǎn)生片段的單鏈版本。從一個或更多個被修飾的核酸聚合物生成的片段可被隨機捕獲在固體支持物表面上的位置處,如下文更詳細地闡述的。
作為被修飾的核酸聚合物或其片段的被動擴散的替代選擇,可使用主動運輸技術(shù)來將分子移動至期望位置,或者影響分子的空間配置。尤其有用的主動運輸技術(shù)為電場輔助(e場輔助)運輸。例如,陣列的一個或更多個區(qū)域可電連接至電源以產(chǎn)生吸引靶核酸聚合物或其片段的電荷。在一些配置中,正電荷可通過帶負電荷的糖-磷酸酯骨架吸引核酸。用于采用e場輔助來吸引核酸至表面的示例性方法和裝置在美國專利申請公開號2009/0032401A1或美國專利申請序列號13/783,043中被描述,所述每篇專利申請均通過引用被并入本文??捎糜谥鲃舆\輸核酸的其他技術(shù)包括,但不限于,正壓或負壓下的流體流動、由離心引起的重力、沿化學或溫度梯度的移動,等等。
可以本文闡述的方法調(diào)控被修飾的核酸聚合物的空間配置。在具體實施例中,可,例如,采用化學、溫度或電學條件誘導該聚合物折疊為相對緊湊的構(gòu)型。用于產(chǎn)生緊湊結(jié)構(gòu)的示例性條件包括用于產(chǎn)生DNA納米球的那些條件,如在美國專利申請公開號2008/0242560 A1或美國專利申請公開2008/0234136 A1中描述的,所述每篇專利申請均通過引用被并入本文。作為替代選擇,一個或更多個被修飾的核酸聚合物可被伸展或以其他方式被配置為細長的構(gòu)型。例如,該聚合物可被附著在表面上(例如在聚合物的末端處或附近)并沿該表面的區(qū)域拉長。按照本文闡述的方法,源自該聚合物的片段最終可被附著至該表面的區(qū)域。用于拉長核酸聚合物的示例性技術(shù)包括,但不限于,流體流動拉伸,弱力拉伸、e場輔助拉伸或本領域已知的其他方法,如美國專利申請公開號2012/0129704 Al中描述的那些,所述申請通過引用被并入本文。因此,本 發(fā)明的方法可包括步驟(i)將被修飾的核酸聚合物沿固體支持物表面拉伸,以及(ii)將被修飾的核酸聚合物的片段釋放到流體中。
可選擇本公開的方法中的條件以獲得期望長度的片段。例如,該長度可受用于將插入物附著至靶核酸聚合物中的條件的影響。在插入物含有切割位點的情況中,切割所產(chǎn)生的片段的長度將與聚合物中插入物之間的平均距離有關。片段的平均大小也可受所允許進行的切割反應的完成程度的影響。運行至基本上完成的切割反應將生成與被修飾的核酸聚合物中的切割位點之間的平均距離相關的片段,而運行至部分完成的切割反應將生成具有大于切割位點之間的平均距離的平均長度的片段。
在一些實施例中,絕對或平均片段長度可為至少約5、10、20、30、40、50、60、70、80、90、100或更多個核苷酸。在一些實施例中,絕對或平均片段長度可為至少約100、200、300、400、500、600、700、800、900、1000或更多個核苷酸。在一些實施例中,絕對或平均片段長度可為至少約1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、90kb、100kb,或更多個核苷酸。在一些實施例中,絕對或平均片段長度可為至少約100kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1000kb,或更多個核苷酸。作為以上闡述的閾值的替代選擇或另外,絕對或平均片段長度可為至多約1000kb、500kb、100kb、10kb、5kb、1kb、500個堿基、100個堿基、50個堿基或10個堿基或更少。
在一些實施例中,可將靶核酸、被修飾的核酸或核酸片段附著至固體支持物的表面。固體支持物可為二維或三維的,并且可為平坦表面(例如,載玻片)或者可為有形狀的。有用的材料包括玻璃(例如,可控孔徑玻璃(CPG))、石英、塑料(如聚苯乙烯(低交聯(lián)和高交聯(lián)聚苯乙烯)、聚碳酸酯、聚丙烯和聚(甲基丙烯酸甲酯))、丙烯酸共聚物、聚酰胺、硅、金屬(例如,烷基硫醇衍生化的金)、纖維素、尼龍、乳膠、葡聚糖、凝膠基質(zhì)(例如,硅膠)、聚丙烯醛,或復合物。適合的三維固體支持物包括,例如,球 體、微粒、珠、膜、玻片、板、微機械處理芯片、管狀物(例如,毛細管)、微孔、微流體裝置、槽、過濾器,或任何其他的適合錨定核酸的結(jié)構(gòu)。固體支持物可包括能夠具有包括核酸或引物群的區(qū)域的平面微陣列或基質(zhì)。示例包括核苷衍生CPG和聚苯乙烯玻片;衍生磁性玻片;與聚乙二醇接枝的聚苯乙烯,等等。
各種方法可用于將核酸附著、錨定或固定至固體支持物的表面。該附著可通過直接或間接結(jié)合至表面實現(xiàn)。該結(jié)合可以是通過共價鍵的。參見Joos等人(1997)Analytical Biochemistry(《分析生物化學》),247:96-101;Oroskar等人(1996)Clin.Chem.(《臨床化學》),42:1547-1555;以及Khandjian(1986)Mol.Bio.Rep.(《分子生物學研究》),11:107-11,所述每篇參考文件均通過引用被并入本文。優(yōu)選的附著為核酸的末端核苷酸與被整合在表面上的環(huán)氧化物的直接胺鍵合。該鍵合也可以是通過非共價鍵的。例如,生物素-鏈霉親和素(Taylor等人(1991)J.Phys.D:Appl.Phys.(《應用物理學》),24:1443,所述參考文件通過引用被并入本文)以及地高辛與抗地高辛(Smith等人,Science(《科學》),253:1122(1992),所述參考文件通過引用被并入本文)為將核酸錨定至表面的常用工具。
可通過如珠、顆?;蚰z的中間物結(jié)構(gòu)將核酸附著至表面。通過凝膠將核酸附著至陣列的例子為可從Illumina公司(Illumina Inc.)(加利福尼亞州圣地亞哥市(San Diego,CA))購得的流動池,或者在美國專利申請公開號2010/0111768 A1或2012-0270305 A1;或WO 05/065814中被描述,所述每篇參考文件均通過引用被并入本文??捎迷诒疚年U述的方法和裝置中的示例性凝膠包括,但不限于,具有膠體結(jié)構(gòu)的那些凝膠,如瓊脂糖;具有聚合物網(wǎng)狀結(jié)構(gòu)的那些凝膠,如明膠;或具有交聯(lián)聚合物結(jié)構(gòu)的那些凝膠,如聚丙烯酰胺、SFA(參見,例如,美國專利申請公開號2011/0059865 A1,所述專利申請通過引用被并入本文)或PAZAM(參見,例如,美國臨時專利申請序列號61/753,833和WIPO申請序列號PCT/US2013/044305,所述每篇參考文件均通過引用被并入本文)。
盡管本公開闡述了在被附著至固體支持物表面之前修飾靶核酸的若干個實施例,但應該理解,不必在被附著之前修飾靶核酸。例如,可在通過本文闡述的方法修飾前將靶核酸附著至固體支持物。轉(zhuǎn)座酶處理可發(fā)生在靶核酸已被附著至固體支持物表面之后。示例性實施例被圖示在圖7中,其中靶核酸被附著至表面(插圖A),通過標簽式片段化用轉(zhuǎn)座酶處理以生成多個片段(插圖B),導致若干個含有插入物的片段釋放到溶液中(插圖C)。這些片段可被隨機捕獲在固體支持物表面的區(qū)域內(nèi)的位點處。在多個不同的靶核酸被附著至表面的不同區(qū)域的實施例中,在來自每個靶核酸的片段最終隨機處于相應的區(qū)域內(nèi)的不同位置處的條件下,片段可以被釋放和捕獲。如本文更詳細地闡述的,所捕獲的片段可以可選地被擴增和/或檢測。
對于利用轉(zhuǎn)座酶將插入物連接至靶核酸聚合物的實施例,該轉(zhuǎn)座酶可在被插入物修飾的核酸聚合物與基底表面接觸時存在,或者可在進行該接觸之前將該轉(zhuǎn)座酶從被插入物修飾的核酸聚合物中去除。在具體實施例中,該轉(zhuǎn)座酶可包括受體或配體,它們結(jié)合固體支持物表面上相應的配體或受體。作為替代選擇或另外,該介導與固體支持物結(jié)合的配體或受體可存在于被修飾的核酸聚合物的插入物中。因此,插入物可介導與表面的結(jié)合,無論轉(zhuǎn)座酶是否被附著至被修飾的核酸聚合物??刹捎帽绢I域已知的方法將轉(zhuǎn)座酶從核酸去除,如熱變性、化學變性(例如表面活性劑處理),或者用一種或更多種蛋白酶處理。
在很多實施例中,在本文闡述的方法中附著有核酸的固體支持物將具有連續(xù)的或單片式表面。因此,片段可附著在空間上隨機的位置處,其中最接近的相鄰片段(或者源自片段的最接近的相鄰簇)之間的距離是可變的。所得到的陣列將具有可變的或隨機的特征物空間模式。作為替代選擇,用在本文闡述的方法中的固體支持物可包括存在于重復圖案中的特征物陣列。在這些實施例中,特征物提供被修飾的核酸聚合物或其片段可附著的位置。尤其有用的重復圖案為六邊形圖案、直線圖案、網(wǎng)格圖案、具有反射對稱的圖案、具有旋轉(zhuǎn)對稱的圖案等。被修飾的核酸聚合物或其片段附著的特征物可每個具有小于約1mm2、500μm2、100μm2、25μm2、10μm2、5μm2、1μm2、500nm2或100nm2的面積。作為替代選擇或另外,每個特征物可具有大于約100nm2、250nm2、 500nm2、1μm2、2.5μm2、5μm2、10μm2、100μm2或500μm2的面積。陣列(無論有模式的或者空間隨機的)上的由片段擴增產(chǎn)生的簇或克隆可類似地具有在大于或者介于選自以上例舉的上限和下限之間的范圍內(nèi)的面積。
對于在表面上包括特征物陣列的實施例,特征物可為離散的,即被空隙區(qū)域分開的。作為替代選擇,表面上的一些或全部特征物可為鄰接的(即,沒有被空隙區(qū)域分開的)。無論特征物是離散的還是鄰接的,特征物的平均尺寸和/或特征物之間的平均距離可變動,以致該陣列可為高密度、中密度或低密度的。高密度陣列以具有平均間距小于約15μm的特征物為特征。中密度陣列具有約15至30μm的平均特征物間距,而低密度陣列具有大于30μm的平均特征物間距??捎迷诒景l(fā)明中的陣列可具有,例如,小于100μm、50μm、10μm、5μm、1μm或0.5μm的特征物間距。作為替代選擇或另外,該特征物間距可為,例如,大于0.1μm、0.5μm、1μm、5μm、10μm、50μm或100μm。
若干種市售的測序平臺依賴于具有孔的基底,這些孔在序列檢測步驟期間提供針對檢測試劑(例如可從454LifeScience(瑞士巴塞爾市的羅氏公司(Roche,Basel Switzerland)的子公司)獲得的平臺中的焦磷酸鹽,或者可從Ion Torrent(加利福尼亞州卡爾斯巴德市的生命技術(shù)公司(Life Technologies,Carlsbad California)的子公司)獲得的平臺中的質(zhì)子)的擴散屏障。本文闡述的方法可有利地用于將被修飾的核酸的片段以保留定相或接近度信息的方式遞送至孔。
本公開的方法可包括將來自被修飾的核酸聚合物的片段捕獲在固體支持物表面上的步驟。通常,事先將片段從聚合物釋放到流體中,接著從流體捕獲,使得片段最終隨機處于表面上的特定位置處。這些位置可在單片或連續(xù)表面上,或作為替代選擇,這些位置可為圖案陣列上的預制特征物。由此,就任一具體片段將附著在哪里(即何種核酸序列將存在于特定位置)的可預測性或知識而言,片段所附著的位置可為隨機的,無論特征物的空間圖案是否為隨機的。
通過被動擴散或主動運輸,流體中的片段可被隨機運輸至表面上的位置。可用于這種運輸?shù)氖纠詶l件和技術(shù)為本領域已知的,或者在本文中關于運輸被修飾的核酸至表面的上下文中有例舉。
本公開的方法還可包括在表面上的位置處擴增片段以生成被擴增的片段的步驟。例如,可通過下文闡述的核酸測序技術(shù)檢測被擴增的片段。在具體實施例中,可采用至少一個被附著至表面的引物擴增這些片段。用于擴增的引物至少在一些構(gòu)型中可與插入物上的引物位點雜交。可延伸的引物以生成被附著在表面(例如,特定位置處)的被擴增片段??墒褂霉滔嘌由旆椒?,如下文更詳細地闡述的。
本公開的方法可包括擴增靶核酸、被修飾的核酸或它們片段的部分的步驟??刹捎帽绢I域已知的任何適合的擴增方法學。在一些實施例中,在固體支持物上擴增核酸片段。例如,在一些實施例中,采用橋式擴增方法學擴增核酸片段,如美國專利號5,641,658;美國專利公開號2002/0055100;美國專利號7,115,400;美國專利公開號2004/0096853;美國專利公開號2004/0002090;美國專利公開號2007/0128624;以及美國專利公開號2008/0009420中舉例說明的,所述每篇專利均通過應用被都并入本文。橋式擴增方法允許擴增產(chǎn)物被固定在固體支持物上,以便形成包括被固定的核酸分子簇(或“克隆”)的陣列。這種陣列上的每個簇或克隆由多個相同的被固定的多核苷酸鏈和多個相同的被固定的互補多核苷酸鏈形成。如此形成的陣列在本文中可稱為“簇式陣列”。當通過被固定的多核苷酸鏈和被固定的互補鏈的退火配對形成時,兩條鏈在5'末端處均被固定在固體支持物上,優(yōu)選通過共價連接,固相擴增反應的產(chǎn)物為所謂的“橋式”結(jié)構(gòu)。橋式擴增方法學為將被固定的核酸模板用于生成被固定的擴增子的方法的例子。其他適合的方法學也可用于從根據(jù)本文提供的方法生成的被固定的核酸片段來生成被固定的擴增子。例如,可通過固相PCR、固相MDA、固相RCA等形成一個或更多個簇或克隆,無論每對擴增引物中的一個還是兩個引物是被固定的。
在其他實施例中,在溶液中擴增靶核酸、被修飾的核酸或它們的片段。例如,在一些實施例中,擴增引物在溶液中被雜交至插入物的引物位點。在其他實施例中,當被修飾的核酸或其片段被附著至固體支持物時,擴增引物被雜交至該插入物。
要理解的是,本文描述的或本領域公知的任何擴增方法學都可以和通用或靶特異引物一起用來擴增被固定的DNA片段。用于擴增的適合的方法包括,但不限于,聚合酶鏈式反應(PCR)、鏈置換擴增(SDA)、轉(zhuǎn)錄介導的擴增(TMA)以及依賴核酸序列的擴增(NASBA),例如美國專利號8,003,354中所描述的,所述專利通過引用被并入本文。以上的擴增方法可用于擴增一個或更多個目的核酸。例如,PCR、多重PCR、SDA、TMA、NASBA等可用于擴增被固定的核酸片段。在一些實施例中,特異針對目的核酸的引物被包括在該擴增反應中。
其他適合的用于擴增核酸的方法可包括寡核苷酸延伸和連接、滾環(huán)擴增(RCA)(Lizardi等人,Nat.Genet.(《自然·遺傳學》)19:225-232(1998)),所述參考文件通過引用被并入本文)以及寡核苷酸鏈接檢測法(OLA)(通常參見美國專利號7,582,420、5,185,243、5,679,524和5,573,907;EP 0 320 308 B1;EP 0 336 731 B1;EP 0 439 182 B1;WO 90/01069;WO 89/12696;以及WO 89/09835,所述每篇參考文件均通過引用被并入本文)。要理解的是,可對這些擴增方法學進行設計以擴增被固定的核酸片段。例如,在一些實施例中,該擴增方法可包括鏈接探針擴增或寡核苷酸鏈接檢測法(OLA)反應,該反應含有特異針對目的核酸的引物。在一些實施例中,該擴增方法可包括引物延伸-鏈接反應,該反應含有特異針對目的核酸的引物。作為可被特異設計來擴增目的核酸的引物延伸和鏈接引物的非限制性示例,該擴增可包括用于測定法(加利福尼亞州圣地亞哥市的Illumina公司(Illumina,Inc.,San Diego,CA))的引物,如美國專利號7,582,420和7,611,869舉例說明的,所述每篇專利均通過引用被全文并入本文。
可將等溫擴增技術(shù)用在本公開的方法中。示例性等溫擴增方法包括,但不限于,例如Dean等人,Proc.Natl.Acad.Sci.USA(《美國國家科學院院報》)99:5261-66(2002)所舉例說明的多重置換擴增(MDA),或例如美國專利號6,214,587所舉例說明的等溫鏈置換核酸擴增,所述每篇參考文件均通過引用被并入本文??捎迷诒竟_中的其他非基于PCR的方法包括,例如,鏈置換擴增(SDA),其在例如Walker等人,Molecular Methods for Virus Detection(《病毒檢測的分子生物學方法》),Academic Press(學術(shù)出版社),Inc.,1995;美國專利號5,455,166和5,130,238,以及Walker等人,Nucl.Acids Res.(《核酸研究》)20:1691-96(1992)中被描述;或超支化鏈置換擴增,其在例如Lage等人,Genome Research(《基因組研究》)13:294-307(2003)中被描述,所述每篇參考文件均通過引用被并入本文。擴增反應、條件和組分的其他描述在美國專利號7,670,810中有闡述,所述專利通過引用被并入本文。其他有用的等溫擴增技術(shù)包括重組酶輔助的擴增技術(shù),如由TwistDx公司(TwistDx)(英國劍橋市(Cambridge,UK))以TwistAmpTM試劑盒商業(yè)銷售的那些。重組酶輔助擴增試劑的有用組分以及反應條件在US 5,223,414和US 7,399,590中有闡述,所述每篇參考文件均通過引用被并入本文。也可使用解螺旋酶依賴的擴增,例如,如在Xu等人EMBO Rep(《歐洲分子生物學組織報道》)5:795-800(2004)中描述的,所述參考文件通過引用被并入本文。
在一些實施例中,可能希望進行再次接種(re-seeding)步驟。例如,可在一表面區(qū)域內(nèi)的位置處捕獲核酸片段,在擴增方法的一個或更多個循環(huán)上復制,原始片段和/或其復制子可從該位置被釋放,可在相同區(qū)域內(nèi)的其他位置處捕獲所釋放的核酸,并且擴增該新被捕獲的核酸。在特定的示例中,可對接種在表面上的片段進行單個循環(huán)的橋式擴增,并且在從表面釋放后不是洗去該原始模板片段,而是將該模板片段再次接種在表面上接近其原始接種位置處的新位置處。隨后的多輪橋式擴增將允許簇在原始接種位置處和再次接種位置處生長。采用這些方法,可在表面區(qū)域處產(chǎn)生復制克隆,以提供技術(shù)性重復。對技術(shù)性重復進行的序列分析可提供差錯檢查的益處。例如,所觀察到的僅出現(xiàn)在 臨近簇的子集(被識別為是技術(shù)性重復)中的序列變異可被識別為擴增差錯,而在被識別為技術(shù)性重復的全部簇中出現(xiàn)的序列變異則更可能是真正的變異。
本文描述的方法可包括對源自靶核酸的片段進行測序的步驟。一個示例是邊合成邊測序(SBS)。在SBS中,監(jiān)測核酸引物沿核酸模板(例如靶核酸的片段或其復制子)的延伸以確定模板中的核苷酸序列。該引物可雜交至存在于插入物中的引物位點,如上文闡述的。基礎化學過程可為聚合反應(例如,如通過聚合酶催化的)。在具體的基于聚合酶的SBS實施例中,將熒光標記的核苷酸以模板依賴方式添加至引物中(由此延伸引物),以致檢測被添加至引物的核苷酸的順序和類型就可用來確定模板的序列。在不同模板上發(fā)生的事件可以根據(jù)它們在陣列中的位置來區(qū)分的條件下,可對在采用本文闡述步驟已經(jīng)被附著至陣列不同位置處的多個不同的核酸片段進行SBS技術(shù)。
流動池為容納核酸片段的陣列提供了方便的形式,該陣列以本公開的方法生成并且對其進行SBS或其他涉及在循環(huán)中重復遞送試劑的檢測技術(shù)。例如,為了發(fā)起第一輪SBS循環(huán),一個或更多個標記的核苷酸、DNA聚合酶等可以流進和/或流經(jīng)容納有核酸片段的陣列的流動池。可檢測陣列的那些位點,在所述位點處引物延伸(例如通過引物與位于被連接至核酸片段的插入物上的引物位點的雜交)導致標記的核苷酸被摻入。可選地,這些核苷酸可進一步包括可逆的終止性能,一旦核苷酸已經(jīng)被添加至引物中,就終止進一步的引物延伸。例如,具有可逆的終止部分的核苷酸類似物可被添加至引物中,以致隨后的延伸不能發(fā)生,直至遞送去阻斷劑以去除該部分。因此,對于使用可逆終止的實施例,可(在檢測發(fā)生之前或之后)向流動池遞送去阻斷試劑??稍诟鬟f送步驟之間進行洗滌。然后,該循環(huán)可重復n次以用n個核苷酸延伸引物,由此檢測長度n的序列。例如,在Bentley等人,Nature(《自然》)456:53-59(2008),WO 04/018497;US 7,057,026;WO 91/06678;WO 07/123744;US 7,329,492;US 7,211,414;US 7,315,019;US 7,405,281,以及US2008/0108082中描述了示例性SBS操作、流體系統(tǒng)和檢測平臺,可容易地對它們進行改動以用于本公開的方法生成的陣列,所述每篇參考文件均通過引用被并入本文。
可使用其他的采用循環(huán)反應的測序操作,如焦磷酸測序。焦磷酸測序檢測在特定的核苷酸被摻入到新生核酸鏈時無機焦磷酸鹽(PPi)的釋放(Ronaghi等人,Analytical Biochemistry(《分析生物化學》)242(1),84-9(1996);Ronaghi,Genome Res.(《基因組研究》)11(1),3-11(2001);Ronaghi等人,Science(《科學》)281(5375),363(1998);US 6,210,891;US 6,258,568以及US.6,274,320,所述每篇參考文件均通過引用被并入本文)。在焦磷酸測序中,所釋放的PPi通過被ATP硫酸化酶轉(zhuǎn)化為三磷酸腺苷(ATP)而被檢測到,并且所產(chǎn)生的ATP的水平可通過熒光素酶產(chǎn)生的光子來檢測。因此,可通過發(fā)光檢測系統(tǒng)監(jiān)測測序反應。基于熒光的檢測系統(tǒng)所使用的激發(fā)輻射源對于焦磷酸測序操作不是必要的??捎糜趯⒔沽姿釡y序應用于本公開的方法的有用的流體系統(tǒng)、檢測器和操作在,例如,WIPO專利申請序列號PCT/US11/57111、US 2005/0191698A1、US 7,595,883和US 7,244,559中被描述,所述每篇專利申請均通過引用被并入本文。
邊連接邊測序反應也是有用的,包括,例如,在Shendure等人,Science(《科學》)309:1728-1732(2005);US 5,599,675;以及US 5,750,341中描述的那些,所述每篇參考文件均通過引用被并入本文。一些實施例可包括邊雜交邊測序操作,例如,在Bains等人,Journal of Theoretical Biology(《理論生物學雜志》)135(3)303-7(1988);Drmanac等人,Nature Biotechnology(《自然生物技術(shù)》)16,54-58(1998);Fodor等人,Science 251(4995),767-773(1995);以及WO 1989/10977中所描述的,所述每篇參考文件均通過引用被并入本文。在邊連接邊測序和邊雜交邊測序操作二者的操作中,存在于陣列位點處的靶核酸片段(或其擴增子)接受寡核苷酸遞送和檢測的重復循環(huán)??扇菀椎馗膭佑糜谌绫疚年U述的SBS方法的或者本文引用文獻中的流體系統(tǒng),以用于遞送邊連接邊測序或邊雜交邊測序操作的試劑。典型地,將寡核苷酸熒光標記,并可采用熒光檢測器檢測,這些熒光檢測器類似于本文提及SBS操作時所描述的或者本文引用的文獻中的那些。
一些實施例可利用涉及實時監(jiān)測DNA聚合酶活性的方法。例如,核苷酸摻入可通過帶熒光團的聚合酶與γ-磷酸酯標記的核苷酸之間的熒光共振能量轉(zhuǎn) 移(FRET)相互作用來檢測,或者通過零模式波導(ZMWs)檢測。用于基于FRET的測序的方法和試劑在,例如,F(xiàn)evene等人,Science(《科學》)299,682-686(2003);Fundquist等人,Opt.Lett.(《光學快報》)33,1026-1028(2008);以及Korlach等人Proc.Natl.Acad.Sci.USA(《美國國家科學院院報》)105,1176-1181(2008)中被描述,所述每篇參考文件均通過引用被并入本文。
一些SBS實施例包括檢測在核苷酸摻入到延伸產(chǎn)物中時釋放的質(zhì)子。例如,基于檢測所釋放的質(zhì)子的測序可采用可從Ion Torrent(康涅狄格州吉爾福德市(Guilford,CT),生命技術(shù)公司的子公司(a Life Technologies subsidiary))購得的電檢測器和相關技術(shù)或者在US 2009/0026082A1;US 2009/0127589 A1;US 2010/0137143 Al;或US 2010/0282617 A1中描述的測序方法和系統(tǒng),所述每篇參考文件均通過引用被并入本文。
本方法的測序步驟可包括納米孔測序技術(shù),例如Deamer&Akeson Trends Biotechnol.(《生物技術(shù)趨勢》)18,147-151(2000);Deamer&Branton,Acc.Chem.Res.(《化學研究評述》)35:817-825(2002);以及Li等人,Nat.Mater.(《自然材料》)2:611-615(2003)中描述的那些,所述每篇參考文件均通過引用被并入本文。在這些實施例中,靶核酸片段穿過納米孔。納米孔可為合成的孔或者生物膜蛋白,如α-溶血素。當靶核酸穿過納米孔時,可通過測量孔的電導波動識別每個堿基對。(美國專利號7,001,792;Soni&Meller Clin.Chem.(《臨床化學》)53,1996-2001(2007);Healy,Nanomed.(《納米醫(yī)學》)2:459-481(2007);以及Cockroft等人,J.Am.Chem.Soc.(《美國化學會志》)130:818-820(2008),所述每篇參考文件均通過引用被并入本文)。在一些實施例中,各個納米孔的位置類似于本文舉例說明的陣列上的位點或特征物。納米孔的彼此接近度可與它們讀長的片段序列的接近度相關,以便,例如,促進將這些片段組裝成較大的序列(所述片段源自該較大的序列)。
本文描述的測序步驟可有利地以多重形式進行,以致可同時操作多個不同的靶核酸。在特定實施例中,可在共同的反應容器中或者在特定基底的表面上 處理不同的靶核酸。這允許以多重方式方便地遞送測序試劑、去除未反應的試劑并檢測摻入事件。在采用表面結(jié)合的靶核酸或其片段的實施例中,靶核酸或其片段可為陣列形式。在陣列形式中,靶核酸的片段可典型地以空間上可區(qū)分的方式被結(jié)合至表面,例如,采用本文闡述的附著技術(shù)。陣列可在每個位點(也稱為特征物)包括單個拷貝的靶核酸片段,或者具有相同序列的多個拷貝可存在于每個位點或特征物處。多個拷貝可通過擴增方法產(chǎn)生,如本文中更詳細地描述的橋式擴增或者乳液PCR。
本文闡述的方法可采用具有特征物的陣列,這些特征物的密度為各種密度中的任一種,所述密度包括,例如,至少約10個特征物/cm2、100個特征物/cm2、500個特征物/cm2、1,000個特征物/cm2、5,000個特征物/cm2、10,000個特征物/cm2、50,000個特征物/cm2、100,000個特征物/cm2、1,000,000個特征物/cm2、5,000,000個特征物/cm2、107個特征物/cm2、5x107個特征物/cm2、108個特征物/cm2、5x108個特征物/cm2、109個特征物/cm2、5x109個特征物/cm2,或更高。
本公開的方法可包括為在由被修飾的核酸聚合物釋放的不同片段的核苷酸序列中出現(xiàn)的多態(tài)性確定單體型相位的步驟。因此,對靶核酸聚合物的核苷酸序列表征可包括對在由被修飾的核酸聚合物釋放的至少兩個不同的片段的核苷酸序列中出現(xiàn)的等位基因的單體型相位表征。
本公開的方法可包括將對固體支持物表面上鄰近位置確定的互補序列進行比較以識別序列差錯的步驟。
根據(jù)本文闡述的方法,固體支持物上的任意兩個片段種類的相對接近度可為從兩個片段獲得的的序列信息的比對提供有用信息。具體地,固體支持物上源自任意兩個給定片段的簇之間的距離可與該兩個簇來自相同靶多核苷酸分子的概率正相關,如WO 2012/025250中更詳細描述的,所述參考文件通過引用被并入本文。類似地,固體支持物上源自任意兩個給定片段的簇之間的距離可與該兩個簇來自共同來源的概率正相關(由于特定靶多核苷酸的全部片段將會來自該靶多核苷酸的來源)。
舉例而言,在一些實施例中,源自被捕獲在流動池表面處的長核酸分子的片段出現(xiàn)在跨流動池表面的直線內(nèi)(例如,如果該核酸在片段化或擴增之前被拉伸),或者出現(xiàn)在表面上的云狀物內(nèi)(例如,如果該核酸按圖2所示成團)。另外,接著可生成被固定的核酸的物理圖譜。因而該物理圖譜與被固定的核酸被擴增后的簇的物理關系相關。具體地,物理圖譜是用于計算從任意兩個簇獲得的序列數(shù)據(jù)連鎖的概率,如被并入的WO 2012/025250材料中所描述的。作為替代選擇或另外,該物理圖譜可指示宏基因組樣品中的特定生物體的基因組。在后一種情況下,該物理圖譜可指示序列片段在生物體基因組中的順序;但是,不必要指定該順序,并且相反,對于表征混合樣品和其中的一個或更多個生物體的物理圖譜而言,僅僅兩個或更多個片段存在于共同生物體(或其他來源或源頭)中就可以成為充分的基礎。
在一些實施例中,通過對固體支持物成像以建立被固定的核酸分子跨表面的位置來產(chǎn)生該物理圖譜。在一些實施例中,通過將成像劑添加至固體支持物中并檢測來自成像劑的信號,來對被固定的核酸成像。在一些實施例中,該成像劑為可檢測標記物。適合的可檢測標記物包括,但不限于,質(zhì)子、半抗原、放射性核、酶、熒光標記物、化學發(fā)光標記物和/或顯色劑。例如,在一些實施例中,成像劑為嵌入染料或非嵌入性DNA結(jié)合劑。可使用本領域已知的任何適合的嵌入染料或非嵌入性DNA結(jié)合劑,包括但不限于U.S.2012/0282617中所闡述的那些,所述參考文件通過引用被并入本文。
在某些實施例中,多個被修飾的核酸分子流進包括多個納米槽的流動池。用在本文時,術(shù)語納米槽指長線性核酸分子拉伸到其中的窄槽。在一些實施例中,不超過1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或不超過1000個單個的長鏈核酸沿每個納米槽被拉伸。在一些實施例中,各個納米槽通過物理屏障隔開,該物理屏障防止單個的長鏈靶核酸與多個納米槽相互作用。在一些實施例中,固體支持物包括至少10、50、100、200、500、1000、3000、5000、10000、30000、50000、80000或至少100000個納米槽。
在一些實施例中,將核酸進行修飾以包括具有切割位點的插入物,并且一旦核酸沿納米槽延伸后切割切割位點。所得到的片段可以可選地被擴增以沿槽表面形成簇。然后,例如,可通過簇沿這些槽中的一個的長度方向進行鄰接作圖。舉例而言,具有1000或更多個納米槽(在納米槽中具有已繪圖的被固定的片段產(chǎn)物)的流動池可用于以短的“定位的”讀長來對生物體基因組測序。在一些實施例中,納米槽中已繪圖的被固定的片段產(chǎn)物可用于解析單體型。在一些實施例中,納米槽中已繪圖的被固定的片段產(chǎn)物可用于解析定相問題。
在一些實施例中,本發(fā)明以上方面的方法可用于測序讀長的差錯糾正。圖11顯示了這種差錯糾正的示例。兩個測序讀長A和B在相同位置與參考基因組有區(qū)別(C置換A)。產(chǎn)生讀長A和B的簇在流動池上彼此距離350um。這種距離遠超測序人為因素造成引起的距離,盡管在接近組的平均半徑(200-300um)內(nèi)。由此,結(jié)合兩個讀長具有相同的起始-終止位置以及它們的方向相反的事實,可推斷它們從互補片段起始,以及這里顯示的C突變不是樣品制備或測序的人為痕跡。
在一些實施例中,本發(fā)明以上方面的方法可用于基因表達分析。在一些實施例中,靶mRNA來自單個細胞。在一些實施例中,可以將mRNA捕獲在包括寡聚d(T)探針的珠上。
以上就示例性反應混合物和反應方法而闡述的組分的各種組合可以試劑盒形式提供。這種試劑盒可包括彼此分開的各個組分,例如,裝載在分開的容器或包裝中。試劑盒可包括本文闡述組分的一個或更多個子組合,該一個或更多個子組合與試劑盒的其他組分分開。該子組合是可結(jié)合以產(chǎn)生本文闡述的反應混合物的(或者進行組合以實施本文闡述的方法)。在特定實施例中,存在于各個容器或包裝中的組分的子組合不足以進行本文闡述的方法的所有步驟。但是,試劑盒作為整體可包括容器或包裝集合,它們的內(nèi)容物可進行組合以實施本文闡述的方法。
試劑盒可包括適合的包裝材料以容納試劑盒的內(nèi)容物。該包裝材料可通過公知的方法構(gòu)建,優(yōu)選地以便提供無菌、無污染的環(huán)境。本文采用的包裝材料 可包括,例如,通常用在銷售來與核酸測序系統(tǒng)一起使用的商品試劑盒中的那些材料。示例性包裝材料包括,但不限于,能夠在固定范圍內(nèi)容納本文闡述組分的玻璃、塑料、紙、紙板、箔等。
該包裝材料可包括標簽,其表明該組分的特定用途。由標簽表明的試劑盒的用途可為本文闡述的一個或更多個方法,視試劑盒中存在的組分的特定組合而定。例如,標簽可表明該試劑盒可用于將插入物添加至核酸聚合物中、切割被修飾的核酸聚合物以生成片段或者確定核酸的序列。
使用包裝的試劑或組分的說明書也可包括在試劑盒內(nèi)。該說明書通常包括描述反應參數(shù)的具體表述,如試劑盒組分與待混合樣品的相對量,試劑/樣品混合物的保持時間,溫度,緩沖條件等。
要理解的是,并非特定反應所需的全部組分都需要存在于特定試劑盒中。相反,一種或更多種額外組分可從其他來源提供。與試劑盒一起提供的說明書可指出待提供的一種或多種額外組分以及它們可從哪里獲得。
以下的實施例旨在闡釋而不是限制本發(fā)明。
實施例I
采用連接的轉(zhuǎn)座子將插入物整合到基因組DNA中以在簇陣列中保留連接信息
兩個轉(zhuǎn)座子元件被連接在一起,如圖1A中所示。每個轉(zhuǎn)座子元件都形成叉形銜接物結(jié)構(gòu),具有形成退火的雙鏈部分和非退火部分的雙鏈。該退火部分包括每條鏈的互補部分,所述互補部分形成鑲嵌元件(ME)。該非退火部分在一條鏈的5'末端附近包括P5引物位點,在另一條鏈的3'末端附近包括P7引物位點。該兩個轉(zhuǎn)座子是相同的,并通過非退火部分的5'末端(即,含有P5引物位點的鏈的5'末端)連接在一起。連接的轉(zhuǎn)座子元件結(jié)合至相應的轉(zhuǎn)座酶亞基以形成環(huán)狀復合物形式的轉(zhuǎn)座體復合物,并且若干個環(huán)狀復合物結(jié)合至靶基因組DNA聚合物(圖1B)。該接頭防止靶DNA在轉(zhuǎn)座時片段化(即抑制 了“標簽式片段化”,盡管有連接的轉(zhuǎn)座子元件的插入,如圖1C所示)。作為該5'至5'連接的結(jié)果,該被修飾的核酸聚合物將包括來自靶核酸聚合物的交替鏈的序列部分,它們被連接(concatenated)為單一聚合物鏈。該插入物包括存在于接頭中的切割位點,并可選地在接頭中還存在結(jié)合部分。
然后將經(jīng)修飾以包括插入物的靶核酸聚合物裝入流動池,并通過特異于結(jié)合部分的受體將它們捕獲在流動池的表面上。例如,在接頭含有特異核酸序列的情況中,該流動池可包括具有與該特異序列互補的序列的捕獲探針,或者作為替代選擇該接頭可包括生物素類似物,它們結(jié)合至被附著在流動池表面的鏈霉親和素。將該插入物修飾的基因組DNA以雙鏈形式附著至流動池表面,如圖2所示。在非流動條件下,各個插入物修飾的基因組DNA聚合物將結(jié)合在該表面上的局部區(qū)域中。然后,可切割接頭,并使鏈變性,以允許(例如,200b至100kb的范圍內(nèi)的)各個片段彼此擴散分離開并接種在流動池上,如圖2的右手邊插圖所顯示的。選擇擴散條件以允許這些片段接種在接近插入物修飾基因組DNA聚合物所附著的局部區(qū)域的位置。選擇擴散條件,以允許這種定位,同時防止這些片段間隔太近,相反,接種為可在隨后的橋式擴增步驟中形成微米大小的單克隆簇的模板。模板一旦接種并經(jīng)橋式擴增,如圖3所示,則可采用常規(guī)程序在HiSeq或MiSeq平臺(加利福尼亞州圣地亞哥市的Illumina公司(Illumina Inc.,San Diego,CA))上進行測序。
如將圖3中的三個群簇的位置與圖2中的結(jié)合至流動池表面的三個插入物修飾的基因組DNA聚合物所在的區(qū)域進行比較所舉例說明的,來自臨近或重疊的基因組區(qū)域的簇形成了簇云狀物。一些簇云狀物可以與其他簇云狀物區(qū)別開,例如云狀物α,其區(qū)別于云狀物β和云狀物γ。簇云狀物可混在一起而沒有問題,例如云狀物β和云狀物γ。因此,流動池可以相當高的密度成簇。
然后進行序列分析。在組裝過程中,相鄰的讀長基于距離度量而分組(例如,流動池中簇之間的歸一化物理間距),以評估兩個讀長是否應組裝在一起、認為是定相的,或者用于糾正彼此的差錯。附近的讀長可以甚至跨過相應 的區(qū)域來組裝和定相,并且彼此緊鄰的互補讀長可相互比較,用于穩(wěn)健的差錯糾正。
通常,不知道流動池上各個簇獲得的哪些序列讀長來自共同的原始分子。舉例說明,在圖4A中,將片段讀長20的單色集(monochromatic collection)與50kb的參考序列10比對。但是,采用上文方法產(chǎn)生的流動池上的距離信息,可將讀長分組為集合,它們的距離或者與來自第一基因組DNA分子(圖4B中淺灰片段21)一致,或者與來自第二基因組DNA分子一致(圖4B中深灰片段22)。因此,來自第二基因組DNA分子的片段22的集合可組裝成定相重疊群,如圖4C所示。
采用以上例舉說明的方法,可將集合間的同源和異源位點用于組裝定相重疊群;通過匹配來自相同分子的讀長的重疊幫助從零組裝;并且來自相同分子的互補讀長可用于讀長的差錯糾正并確認稀有變異。
實施例II
用于確定經(jīng)測序的片段的相位的算法
可對靶核酸進行處理以產(chǎn)生片段陣列,其中片段在陣列上彼此間的接近度與這些片段由相同的靶核酸分子生成的概率直接相關。該處理可如實施例I或者本文其他地方闡述的來進行。
在一個實施例中,該處理從分離自生物來源的靶核酸開始,所述分離采用溫和制備方法以將對基因組DNA(gDNA)的損傷降至最低,以便最大可能的保留靶g(shù)DNA分子的長度。將每個靶g(shù)DNA進行修飾以添加插入物。將被修飾的gDNA聚合物的文庫遞送至MiSeq流動池(加利福尼亞州圣地亞哥市的Illumina公司(Illumina,Inc.San Diego,CA)),并允許其擴散以實現(xiàn)文庫成員之間的分離。將被修飾的gDNA在流動池中片段化,使得每個被修飾的gDNA聚合物產(chǎn)生被隨機捕獲在流動池表面上的位置處的gDNA片段的子文 庫。采用這樣的條件以允許來自每個被修飾的gDNA的片段被捕獲在彼此接近的范圍內(nèi)。簇從相應的位置處的每個片段生長。采用標準MiSeq程序(加利福尼亞州圣地亞哥市的Illumina公司(Illumina,Inc,San Diego,CA))對簇測序。
存在于gDNA片段子文庫中的序列的總量可構(gòu)成所述生物來源的gDNA序列的一定比例,或者其可以至少1x覆蓋整個gDNA序列。典型地,gDNA片段的全部組將以,例如,至少10x或更多的倍數(shù)覆蓋整個gDNA序列。當與整個gDNA序列比對時,全部組中的gDNA片段的序列可為鄰接、重疊或有缺口的。
表面附著的片段(或源自片段的簇)的接近度可被處理為對子文庫成員之間物理距離的表征。盡管接近度為對“接近程度”的衡量,但是表面附著的片段(或簇)應該相隔足夠遠,使得它們能夠被測序平臺檢測器分辨。這種分辨率對于來自不同的gDNA片段子文庫的片段(即之間)和來自相同子文庫的片段(即之內(nèi))都是需要的。
出于分析的目的,如果成員間的空間距離遠小于與最接近的來自相鄰基因組區(qū)域的子文庫的空間距離,則可認為給定子文庫的成員在表面上是“接近的”。例如,參見圖3,γ子文庫的簇被認為是彼此“接近的”,盡管γ子文庫中的一些簇(與它們和它們自己子文庫中的簇的距離相比)與附近的β子文庫中的簇更近。γ子文庫中的簇被認為是“接近的”是因為,盡管看起來在表面上與γ子文庫物理上是接近的,但是β子文庫可通過序列分析被識別為源自遠處的gDNA序列的區(qū)(即α和γ子文庫源自靶基因組中彼此相隔較遠的區(qū))。
用于確定靶g(shù)DNA中連接的片段的序列的算法可包括以下步驟:
(a)為表面上的簇獲得序列讀長;
(b)將這些序列讀長與參考基因組比對并識別變異;
(c)采用沿基因組的滑動窗口(例如100kb)來減少待分析的讀長數(shù)量;
(d)將基于密度的空間成簇算法用于識別“接近的”簇的云狀物(即區(qū)域);
(e)為云狀物中的每一個分配虛擬條形碼(即源自相同云狀物的讀長具有相同的條形碼,并且不同云狀物之間的條形碼是唯一的);以及
(f)通過ReFHap軟件(Duitama等人,Proceeding of the First ACM International Conference on Bioinformatics and Computational Biology(《第一屆關于生物信息學和計算生物學的美國計算機協(xié)會國際會議記錄》),第160-169頁(2010),所述參考文件通過引用被并入本文)對將這些帶條形碼的讀長進行分析,以確定所識別的變異的相位。
確定連接性的替代算法可包括以上算法的步驟(a)和(b),接著使用經(jīng)改動以采用距離度量的ReFHap軟件。示例性的距離度量,與彼此遠離的SNP相比,給予彼此距離更短的(即接近的)兩個SNP更大的權(quán)重。
實施例III
宏基因組應用
在本實施例中,將接近度作圖用于將序列讀長歸屬于各種生物體的混和樣品中的單個生物體。因此,混合的樣品可認為是類似于在單體型分析或定相應用中有區(qū)別的母本和父本單體型的混合物。
工作流程如下進行:
(a)從混合樣品中的生物體提取DNA。
(b)可選地,富集期望的靶或?qū)ⅰ耙阎?或非目的”生物體從樣品排除。這可以例如采用靶向擴增方法來選擇性擴增核酸樣品的僅一部分來完成,如本文前面所闡述的。
(c)按實施例I或本文其他地方所闡述的,以轉(zhuǎn)座體復合物制備DNA。
(d)按實施例I或本文其他地方所闡述的,將步驟(c)中所制備的DNA接種到流動池中。
(e)彼此接近的簇/序列讀長將具有某一概率來自相同的起始生物體。
(f)可選地,過濾掉與“已知和非目的”生物體匹配(align)的讀長(即在第二次序列分析期間),由此減少圍繞接近片段的云狀物的噪聲的有效“密度”。
(g)然后,這種信息可輔助構(gòu)建樣品中每個生物體的基因組的組裝骨架。
一種替代形式的工作流程可用于在流動池的一位置處捕獲生物體,然后在原位進行步驟(b)至(d)中描述的樣品制備。以此方式,基本上來自一生物體的所有可回收DNA都被定位在流動池內(nèi)的一給定空間位置,而不僅是來自其的長節(jié)段。
可得到的結(jié)果的示意圖顯示在圖9中。顯示了源自宏基因組樣品中的3中不同生物體的3個不同簇云狀物。這些云狀物被標識為α、β或γ。就α和β云狀物舉例而言,當這兩個云狀物重疊時,可從分析中減去或去除與已知生物體(例如,β生物體)匹配的片段,以便更明確地識別源自α生物體的序列。
實施例IV
在流動池上生成接近讀長
采用10μl緩沖液中具有50ng基因組DNA來生成流動池上的接近讀長。向DNA添加轉(zhuǎn)座混合組分(Tn5復合物,MgCl,Tris緩沖液)得到最終的20ul反應混合物,并加熱到55℃10分鐘。將DNA稀釋到50pM的濃度(基于平均片段大小),并且將仍結(jié)合至轉(zhuǎn)座體的DNA加載到流動池上。采用SDS從DNA去除轉(zhuǎn)座酶,并采用聚合酶/連接酶混合物修復缺口。片段被允許接種到與最初捕獲位點接近的流動池表面。進行橋式擴增以在原位擴增片段形成克隆簇。對擴增的DNA進行測序。分析測序數(shù)據(jù)以識別簇的接近組,以指出哪些片段源自相同的DNA起始分子。然后將該信息用于確定樣品中SNP的相位,并顯示在圖10中。
采用建議的方法制備人基因組DNA(Coriell樣品NA12878),并在Illumina HiSeq平臺上測序。向樣品制備中添加12個標記體(indices)以允許更高密度的成簇和更精確的識別接近組。在與參考基因組(HG19)比對后,對來自2或3個通道的數(shù)據(jù)進行組合并分析簇的接近組。然后將來自接近組的信息用于確定樣品中異質(zhì)SNP的相位。在以下表1中顯示定相數(shù)據(jù)。
表1:定相數(shù)據(jù)
樣品:人DNA,Coriell NA12878
遍及本申請,引用了各種出版物、專利或?qū)@暾?。這些出版物的公開內(nèi)容在此通過引用以其全部被并入本申請,以便更全面地描述與本發(fā)明相關的現(xiàn)有技術(shù)水平。
術(shù)語“包括”在本文中旨在是開放式的,不僅包括列出的元素,還涵蓋任何額外的元素。
盡管已參照以上提供的實施例描述了本發(fā)明,但應該理解,可進行各種修改,而不脫離本發(fā)明。因此,本發(fā)明僅由權(quán)利要求書所限定。