專利名稱:核酸序列失衡的確定的制作方法
技術領域:
本發(fā)明一般地涉及通過確定兩個不同核酸序列之間的失衡對基因型和疾病進行 的診斷檢測,更具體地,涉及通過檢測母體血液樣品對胎兒的唐氏綜合征、其它染色體非整 倍性、突變和基因型的鑒定。本發(fā)明還涉及癌癥的檢測、移植的監(jiān)測和傳染病監(jiān)測。
背景技術:
遺傳疾病、癌癥和其它病況通常由兩個對應的染色體或等位基因或其它核酸序列 中的失衡導致或產生兩個對應的染色體或等位基因或其它核酸序列中的失衡。也就是說, 一個序列相對于另一序列的量大于或小于正常值。通常地,正常比率恰好是50/50的比率。 唐氏綜合征(21三體性)是具有額外的染色體21失衡的這類疾病。21三體性的常規(guī)產前診斷方法包括通過諸如羊膜穿刺取樣或絨毛膜絨毛取樣的 侵入性操作的胎兒物質的取樣,這引起胎兒丟失的有限風險。諸如通過超聲波掃描術和生 化標記物的篩查的無創(chuàng)性方法已經用于在確定性的侵入性診斷方法前對孕婦進行風險分 級(risk-stratify)。然而,這些篩查方法通常測量與21三體性有關的附帶現(xiàn)象,而不是核 心染色體異常,因此該篩查方法的診斷準確性不是最佳的,并且具有其它劣勢,例如受孕齡 影響大。1997年發(fā)現(xiàn)的母體血漿中循環(huán)的無細胞胎兒DNA為無創(chuàng)產前診斷提供了新的可 能性(Lo,YMD and Chiu,RWK 2007 Nat Rev Genet 8,71-77)。盡管這種方法已經容易地應 用于性連鎖(Costa,JM et al. 2002 NEngl J Med 346,1502)和某些單基因病癥(Lo, YMD et al. 1998 N Engl JMed 339,1734-1738)的產前診斷,但是該方法在胎兒染色體非整倍性 的產前檢測的應用表現(xiàn)出相當?shù)奶魬?zhàn)(Lo,YMD and Chiu, RffK 2007,見上文)。首先,胎兒 核酸與經常能夠干擾分析的母體來源的核酸的高背景共同存在于母體血漿中(Lo,YMD et al. 1998 Am J Hum Genet 62, 768-775) 0其次,胎兒核酸主要以無細胞形式在母體血漿中 循環(huán),這使得難以獲得胎兒基因組中的基因或染色體的劑量信息。最近實現(xiàn)了克服這些挑戰(zhàn)的明顯發(fā)展(Benachi,A & Costa,JM2007 Lancet 369, 440-442)。一種方法檢測母體血漿中的胎兒特異性核酸,從而克服了母體背景干擾的問題 (Lo,YMD and Chiu, RffK 2007,見上文)。從源自胎盤的DNA/RNA分子中的多態(tài)性等位基因 的比率來推斷染色體21的劑量。然而,當樣品含有較低量的靶向的基因時,這種方法較不
5準確,并且只能應用于對靶向的多態(tài)性是雜合的胎兒,如果使用了一種多態(tài)性,則該靶向的 多態(tài)性只是群體的子集。Dhallan 等人(Dhallan, R, et al. 2007,見上文,Dhallan, R, et al. 2007 Lancet 369,474-481)描述了通過向母體血漿中添加甲醛來富集循環(huán)的胎兒DNA比例的替代策略。 通過評價對于染色體21上的單核苷酸多態(tài)性(SNP)遺傳自父親的胎兒特異性等位基因比 非胎兒特異性等位基因的比率,來確定由母體血漿中胎兒貢獻的染色體21序列的比例。類 似地計算參考染色體的SNP比率。然后通過檢測染色體21的SNP比率與參考染色體的SNP 比率之間統(tǒng)計學的顯著差異來推斷胎兒染色體21的失衡,其中使用確定的小于0. 05的ρ 值來定義顯著。為了保證高群體覆蓋,靶向每個染色體多于500個的SNP。然而,對富集高 比例的甲醛的有效性仍有爭議(Chung, GTY, et al. 2005 Clin Chem51,655-658),因此,該 方法的可重復性需要進一步的評價。此外,由于每個胎兒和母親將提供每個染色體的不同 數(shù)目的SNP的信息,所以SNP比率比較的統(tǒng)計學檢驗的效能在不同個例之間是可變的(Lo, YMD & Chiu,RWK. 2007 Lancet 369,1997)。而且,由于這些方法依賴于遺傳多態(tài)性的檢測, 所以它們局限于對這些多態(tài)性是雜合的胎兒。利用聚合酶鏈式反應(PCR)以及從21三體性胎兒和整倍體胎兒獲得的羊膜細胞 (amniocyte)培養(yǎng)物中的染色體21基因座和參考基因座的DNA定量,基于21三體性胎兒中 染色體 21 的 DNA 序列的 1. 5 倍的增加,Zimmermann 等人(2002 Clin Chem 48,362-363)能 夠區(qū)分這兩組胎兒。由于DNA模板濃度的2倍差異組成了只有一個閥值循環(huán)的差別(Ct), 所以1.5倍差異的鑒別已經是常規(guī)實時PCR的極限。為了實現(xiàn)更精細程度的定量鑒別,亟 需替代的策略。因此,出于這一目的,本發(fā)明的某些實施方案使用數(shù)字PClUVogelstein,B et al. 1999 ProcNatl Acad Sci USA 96,9236-9241)。已經開發(fā)了數(shù)字PCR來檢測核酸樣品中偏移的等位基因比率(Chang,HW et al. 2002 J Natl Cancer Inst 94,1697-1703)。數(shù)字PCR在臨床上已經被證實對于檢測腫 瘤 DNA 樣品中的雜合性丟失(LOH)是有用的(Zhou,W. et al. 2002 Lancet 359,219-225)。 對于數(shù)字PCR結果分析,以前的研究采用了序貫概率比檢驗(SPRT)來將實驗結果分類為提 示樣品中存在 LOH 或不存在 LOH(El Karoui et al. 2006 Stat Med 25,3124-3133)。在以 前的研究所用的方法中,確定LOH的截止值(cutoffvalue)使用了 DNA中兩個等位基因的 固定參考比率,該比率為2/3。由于母體血漿中胎兒核酸的量、比例和濃度是可變的,所以這 些方法對于使用母體血漿中的母體核酸背景中的胎兒核酸來檢測21三體性是不合適的。期望具有基于循環(huán)的胎兒核酸分析的胎兒21三體性(和其它失衡)檢測的無創(chuàng) 檢測,特別是不依賴于遺傳多態(tài)性和/或胎兒特異性標記物的使用的無創(chuàng)檢測。還期望具 有截止值和序列記數(shù)的準確測定,這能夠減少準確性所需的數(shù)據(jù)孔的數(shù)目和/或母體血漿 核酸分子的量,從而提供了增加的效率和成本效益。還期望該無創(chuàng)檢測具有高靈敏度和特 異性以將誤診斷降至最低。母體血漿中胎兒DNA檢測的另一應用是單基因病癥的產前診斷,例如β-地中海 貧血癥。然而,由于胎兒DNA只組成了母體血漿DNA的一小部分,所以這種方法被認為只 能夠檢測胎兒從其父親遺傳但是其母親沒有的突變。這種突變的實例包括導致地中 海貧血癥的β-球蛋白基因的密碼子41/42的4bp缺失(Chiu RffK et al. 2002 Lancet, 360,998-1000)和導致囊性纖維化的囊性纖維化跨膜傳導調節(jié)因子基因的Q890X突變(Gonzalez-Gonzalez et al. 2002 Prenat Diagn,22,946-8)。然而,由于 β-地中海貧血 癥和囊性纖維化都是常染色體隱性條件的,其中在該疾病自身顯現(xiàn)前,胎兒需要繼承來自 雙親中每個的突變,所以只檢測遺傳自父親的突變只會使得胎兒患有該疾病的風險從25% 增加至50%。這在診斷上不是理想的。因此,當胎兒能夠被排除具有純合疾病狀態(tài)時,現(xiàn) 有方法的主要診斷應用是用于在母體血漿中不能檢測到遺傳自父親的胎兒突變的情況。然 而,這種方法在診斷上的劣勢是,結論是基于父親突變的陰性檢測做出的。因此,允許從母 體血漿中確定完整的胎兒基因型(純合正常、純合突變體或雜合)而沒有上文的限制的方 法是非常理想的。發(fā)明簡述本發(fā)明的實施方案提供了用于確定在生物樣品中是否存在核酸序列失衡(例如, 等位基因失衡、突變失衡或染色體失衡)的方法、系統(tǒng)和裝置。例如,選擇了用于確定兩個 序列(或兩組序列)的量的比率的失衡的一個或多個截止值。在一實施方案中,至少部分地基于諸如母體血漿或血清或尿的含有母體核酸序列 背景的生物樣品中的胎兒(臨床相關的核酸)序列的百分比來確定所述截止值。在另一實 施方案中,基于多個反應中的序列的平均濃度來確定所述截止值。在一方面,從估計含有特 定核酸序列的信息孔的比例來確定所述截止值,其中該比例是基于上文所述的百分比和/ 或平均濃度來確定的??梢允褂迷S多不同類型的方法來確定所述截止值,例如SPRT、假發(fā)現(xiàn)(false discovery)、置信區(qū)間、接收器工作特性(receiver operatingcharacteristic) (ROC)。這 種策略還在能夠做出置信分類(confidentclassification)前將檢測所要求的量降至最 少。這種策略與模板的量通常是有限的血漿核酸分析是特別相關的。根據(jù)一示例性實施方案,提供了用于確定生物樣品中是否存在核酸序列失衡的方 法,該方法包括接收來自多個反應的數(shù)據(jù),其中該數(shù)據(jù)包括(1)表明臨床相關的核酸序 列的第一量的第一組定量數(shù)據(jù);和(2)表明不同于所述臨床相關的核酸序列的背景核酸序 列的第二量的第二組定量數(shù)據(jù);從這兩個數(shù)據(jù)組來確定參數(shù);從多個反應的每一個中的參 考核酸序列的平均濃度導出第一截止值,其中該參考核酸序列是所述臨床相關的核酸序列 或所述背景核酸序列;將所述參數(shù)與所述第一截止值比較;并且,基于該比較來確定是否 存在核酸序列失衡的分類。根據(jù)另一示例性實施方案,提供了用于確定生物樣品中是否存在核酸序列失衡的 方法,該方法包括接收來自多個反應的數(shù)據(jù),其中該數(shù)據(jù)包括(1)表明臨床相關的核酸 序列的第一量的第一組定量數(shù)據(jù);和(2)表明不同于所述臨床相關的核酸序列的背景核酸 序列的第二量的第二組定量數(shù)據(jù),其中,所述臨床相關的核酸序列和所述背景核酸序列來 自第一類型的細胞和來自一種或多種第二類型的細胞;從這兩個數(shù)據(jù)集來確定參數(shù);從得 自核酸序列的量的測量的第一百分比導出第一截止值,該核酸序列來自生物樣品中所述第 一類型的細胞;將所述參數(shù)與所述截止值比較;并且,基于該比較來確定是否存在核酸序 列失衡的分類。本發(fā)明的其它實施方案涉及與本文所述的方法相關的系統(tǒng)和計算機可讀取的介 質。參照下文的發(fā)明詳述和附圖將更好地理解本發(fā)明的特性和優(yōu)勢。
7
附圖簡述
圖1是示出數(shù)字PCR實驗的流程圖。圖2A示出本發(fā)明實施方案的數(shù)字RNA-SNP和RCD方法。圖2B顯示了在癌癥中可頻繁檢測到的染色體畸變的實例的表格。圖3示出按照本發(fā)明的實施方案用于確定唐氏綜合征的具有SPRT曲線的圖。圖4顯示了按照本發(fā)明的實施方案利用胎兒細胞百分比來確定疾病狀態(tài)的方法。圖5顯示了按照本發(fā)明的實施方案利用平均濃度來確定疾病狀態(tài)的方法。圖6顯示的表格的列出了按照本發(fā)明的實施方案對于表示為每孔的平均參考模 板濃度(m,)的一系列模板濃度而言,21三體性樣品的預期數(shù)字RNA-SNP等位基因比率和
Pj, O圖7顯示的表格列出了按照本發(fā)明的實施方案對于表示為每孔的平均參考模板 濃度(m,)的一系列模板濃度而言,21三體性樣品中的10%、25%、50%和100%的部分胎兒 DNA濃度的預期已。圖8顯示的圖示出了按照本發(fā)明的實施方案,數(shù)字RNA-SNP分析的0. 1、0.5和1.0 的!TV值的SPRT曲線的差異程度。圖9A顯示了按照本發(fā)明的實施方案在96孔數(shù)字RNA-SNP分析中比較用于分類整 倍體和21三體性實例的新和舊SPRT算法的有效性的表格。圖9B顯示了按照本發(fā)明的實施方案在384孔數(shù)字RNA-SNP分析中比較用于分類 整倍體和21三體性實例的新和舊SPRT算法的有效性的表格。圖10的表格顯示了按照本發(fā)明的實施方案,對于給定的信息計數(shù),被正確或錯誤 分類為整倍體或非整倍體以及那些不可分類的胎兒的百分比。圖11是表格1100,顯示了按照本發(fā)明的實施方案,純(100% )胎兒DNA樣品的數(shù) 字RCD分析的計算機模擬。圖12是表格1200,顯示了按照本發(fā)明的實施方案,m, = 0. 5的數(shù)字RCD分析的準 確性的計算機模擬的結果,該數(shù)字RCD分析用于對來自具有不同部分濃度的胎兒DNA的整 倍體或21三體性胎兒的樣品進行分類。圖13A顯示了按照本發(fā)明的實施方案,整倍體妊娠和21三體性妊娠的胎盤組織的 數(shù)字RNA-SNP分析的表格1300。圖13B顯示了按照本發(fā)明的實施方案,來自整倍體妊娠和21三體性妊娠的母體血 漿的數(shù)字RNA-SNP分析的表格1350。圖14A-14C顯示的圖示例了按照本發(fā)明實施方案得自RCD分析的截止曲線。圖15A顯示了按照本發(fā)明的實施方案,整倍體妊娠和21三體性妊娠的胎盤組織中 的數(shù)字RNA-SNP分析的表格。圖15B顯示了按照本發(fā)明的實施方案,來自一個母體血漿樣品的12個反應板的數(shù) 字RNA-SNP數(shù)據(jù)的表格。圖15C顯示了按照本發(fā)明的實施方案,來自整倍體妊娠和21三體性妊娠的母體血 漿的數(shù)字RNA-SNP分析的表格。圖16A顯示了按照本發(fā)明的實施方案,整倍體胎盤和18三體性胎盤的數(shù)字 RNA-SNP分析的表格。
8
圖16B顯示了按照本發(fā)明的實施方案,整倍體胎盤和18三體性胎盤的數(shù)字 RNA-SNP數(shù)據(jù)的SPRT解釋。圖17顯示了按照本發(fā)明的實施方案,整倍體妊娠和21三體性妊娠的50%胎盤/ 母體血液細胞DNA混合物的數(shù)字RCD分析的表格。圖18顯示的SPRT曲線示例了按照本發(fā)明的實施方案,用于正確分類的判定邊界 (decision boundary)0圖19顯示了按照本發(fā)明的實施方案,來自整倍體妊娠和21三體性妊娠的羊水樣 品的數(shù)字RCD分析的表格。圖20顯示了按照本發(fā)明的實施方案,來自整倍體妊娠和18三體性妊娠的胎盤DNA 樣品的數(shù)字RCD分析的表格(E =整倍體;T18 = 18三體性)。圖21顯示了按照本發(fā)明的實施方案,整倍體妊娠和21三體性妊娠的50%胎盤/ 母體血液細胞DNA混合物的多重數(shù)字RCD分析的表格(E =整倍體;T21 = 21三體性;U = 未分類的)。圖22A和22B顯示按照本發(fā)明的實施方案,50%整倍體或21三體性胎盤基因組 DNA/50%母體血沉棕黃色層(buffy coat) DNA混合物的多重數(shù)字RCD分析的表格。Unclass 表示不可分類的并且T21表示21三體性。圖23顯示了雄性和雌性配偶都攜帶相同突變的情況。圖24A顯示按照本發(fā)明的實施方案,雌性/雄性和雄性/雄性DNA混合物的數(shù)字 RMD分析的表格。圖24B顯示了按照本發(fā)明的實施方案,25%雌性與75%雄性DNA混合物的數(shù)字 RMD分析的表格。圖25顯示了按照本發(fā)明的實施方案,模擬母體血漿樣品HbE突變的15% -50% DNA混合物的數(shù)字RMD分析的表格。圖26A顯示了按照本發(fā)明的實施方案,模擬母體血漿樣品⑶41/42突變的 5% -50%的DNA混合物的數(shù)字RMD分析的表格。圖26B顯示了按照本發(fā)明的實施方案,模擬母體血漿樣品⑶41/42突變的20%的 DNA混合物的數(shù)字RMD分析的表格。圖27顯示了可用于本發(fā)明的實施方案的系統(tǒng)和方法的示例性計算機裝置的方框 圖。定義本文所用的術語“生物樣品”意指取自個體(例如,諸如孕婦的人)并含有一種或 多種感興趣的核酸分子的任何樣品。術語“核酸”或“多核苷酸”意指脫氧核糖核酸(DNA)或核糖核酸(RNA)及其單 鏈或雙鏈形式的聚合物。除非特別地限定,該術語包括含有天然核苷酸的已知類似物的核 酸,其具有與參考核酸類似的結合特性,并且以與天然存在的核苷酸類似的方式進行代謝。 除非另外指明,特定的核酸序列還隱含地包括其保守地修飾的變體(例如,簡并密碼子取 代)、等位基因、直向同源物、SNP和互補序列以及明確地指出的序列。具體地,簡并密碼子 取代可以通過產生如下的序列實現(xiàn)其中一個或多個選擇的(或全部)密碼子的第三位被 混合堿基和/或脫氧次黃苷殘基取代(Batzer et al. ,Nucleic Acid Res. 19 =5081(1991);Ohtsuka et al.,J. Biol. Chem. 260 :2605_2608 (1985)和 Rossolini et al. , Mol. Cell. Probes 8 :91_98 (1994))。術語核酸與基因、cDNA、mRNA、小非編碼 RNA、微 RNA(miRNA)、 Piwi-相互作用RNA以及基因或基因座編碼的短發(fā)夾RNA(shRNA)可交換使用。術語“基因”表示與產生多肽鏈有關的DNA的片段。其可以包括編碼區(qū)之前和之 后的區(qū)域(前導區(qū)和非轉錄尾區(qū))以及單獨的編碼片段(外顯子)之間的間插序列(內含 子)。本文所用的術語“反應”意指與表示感興趣的特定多核苷酸序列的存在或不存在 的化學、酶或物理作用有關的任何過程。“反應”的實例是諸如聚合酶鏈式反應(PCR)的擴 增反應?!胺磻钡牧硪粚嵗峭ㄟ^合成或通過連接的測序反應?!靶畔⒎磻笔潜砻饕环N 或多種感興趣的特定多核苷酸序列的存在的反應,并且在一種情況下,只存在一種感興趣 的序列。本文所用的術語“孔”意指在有限的結構內的預定位置的反應,例如,PCR陣列中的 孔狀小管、單元或室。本文所用的術語“臨床相關的核酸序列”能夠指對應于更大的基因組序列的片段 的多核苷酸序列或者指更大的基因組序列自身,該多核苷酸序列的潛在失衡被檢測。一個 實例是染色體21的序列。其它實例包括染色體18、13、X和Y。仍然其它的實例包括胎兒 遺傳自其雙親中一個或兩個的突變的遺傳序列或遺傳多態(tài)性或拷貝數(shù)變異。仍然其它的 實例包括在惡性腫瘤中突變、缺失或擴增的序列,例如,發(fā)生了雜合性丟失或基因重復的序 列。在某些實施方案中,多個臨床相關的核酸序列或該臨床相關的核酸序列等同的多個標 記物能夠用于提供檢測失衡的數(shù)據(jù)。例如,來自染色體21上的5個不連續(xù)序列的數(shù)據(jù)能夠 以累加的方式用于確定可能的染色體21失衡,從而將所需的樣品體積有效地減少至1/5。本文所用的術語“背景核酸序列”意指與所述臨床相關的核酸序列的正常比率是 已知的核酸序列,例如,1比1的比率。作為一個實例,所述背景核酸序列和所述臨床相關的 核酸序列是來自相同的染色體并且由于雜合性而不同的兩個等位基因。在另一實例中,所 述背景核酸序列是與另一等位基因雜合的一個等位基因,所述另一等位基因是所述臨床相 關的核酸序列。而且,某些背景核酸序列和臨床相關的核酸序列的每一個可以來自不同的 個體。本文所用的術語“參考核酸序列,,意指每個反應的平均濃度是已知的或者已經被 等同地測量過的核酸序列。本文所用的術語“過度表現(xiàn)的(overr印resented)核酸序列”意指在生物樣品中 的兩個感興趣的序列(例如,臨床相關的序列和背景序列)之中豐度比另一序列更高的的 核酸序列。本文所用的術語“基于”表示“至少部分地基于”,并且意指在確定另一值時所用的 一個值(或結果),例如,發(fā)生在方法的輸入和該方法的輸出的聯(lián)系中。本文所用的術語“導 出”也意指方法的輸入和該方法的輸出的聯(lián)系,例如,當導出是公式的計算時發(fā)生。本文所用的術語“定量數(shù)據(jù)”表示從一個或多個反應獲得并且提供一個或多個數(shù) 值的數(shù)據(jù)。例如,顯示特定序列的熒光標記物的孔的數(shù)目是定量數(shù)據(jù)。本文所用的術語“參數(shù)”表示表征定量數(shù)據(jù)組和/或定量數(shù)據(jù)組之間的數(shù)值聯(lián)系 的數(shù)值。例如,第一核酸序列的第一量與第二核酸序列的第二量之間的比率(或比率的函 數(shù))是參數(shù)。
本文所用的術語“截止值”表示用于在生物樣品的兩個或更多個類別狀態(tài)(例如, 患病和未患病)之間進行裁定(arbitrate)的數(shù)值。例如,如果參數(shù)大于截止值,將定量數(shù) 據(jù)分為第一類(例如,患病狀態(tài)),或者如果該參數(shù)小于該截止值,則將定量數(shù)據(jù)分為另一 類(例如,未患病狀態(tài))。本文所用的術語“失衡”表示由臨床相關的核酸序列的量中至少一個截止值所定 義的與參考量的任何顯著偏差。例如,該參考量能夠是3/5的比率,因此如果測量的比率是 1 1,則發(fā)生了失衡。發(fā)明詳述本發(fā)明提供了方法、系統(tǒng)和裝置,用于確定在生物樣品中,與臨床相關的核酸序列 相對于其它非臨床相關的序列的參考(例如,未患病)量比較,是否存在增加或減少(例 如,染色體或等位基因失衡)。選擇一個或多個截止值來確定與參考量相比是否存在變化 (即,失衡),例如,關于兩個序列(或兩組序列)的量的比率。檢測到的參考量變化可以是 臨床相關的核酸序列與其它非臨床相關的序列的關系的任何偏差(上升或下降)。因此,參 考狀態(tài)可以是任何比率或其它量(例如,除了 1-1的對應),并且表示變化的測量狀態(tài)可以 是任何比率或不同于由一個或多個截止值所確定的參考量的其它量。所述臨床相關的核酸序列和所述背景核酸序列可以來自第一類型的細胞和來自 一種或多種第二類型的細胞。例如,源自胎兒/胎盤細胞的胎兒核酸序列存在于諸如母體 血漿的生物樣品中,該生物樣品包含源自母體細胞的母體核酸序列的背景。因此,在一實施 方案中,至少部分地基于生物樣品中所述第一類型的細胞的百分比來確定截止值。注意,可 以通過任何源自胎兒的基因座來測定樣品中胎兒序列的百分比,并且不限于測量所述臨床 相關的核酸序列。在另一實施方案中,至少部分地基于諸如血漿、血清、唾液或尿的生物樣 品中腫瘤序列的百分比來確定截止值,該生物樣品包含源自體內的非惡性細胞的核酸序列 的背景。仍然在另一實施方案中,基于多個反應中序列的平均濃度來確定截止值。在一方 面,從估計含有特定核酸序列的信息孔的比例來確定所述截止值,其中該比例是基于上文 所述的百分比和/或平均濃度來確定的。可以使用許多不同類型的方法來確定截止值,例 如,SPRT、假發(fā)現(xiàn)、置信區(qū)間、接收器工作特性(ROC)。這種策略還能夠在做出確信的分類前 將檢測所要求的量降至最少。這與模板的量通常有限的血漿核酸分析是特別相關的。盡管 通過數(shù)字PCR來表現(xiàn)這種策略,但是也可以使用其它方法。數(shù)字PCR包括極端稀釋的核酸的多個PCR分析,從而大部分陽性擴增反映了來自 單個模板分子的信號。由此數(shù)字PCR允許計數(shù)單獨的模板分子。分析的PCR總數(shù)中的陽性 擴增的比例允許估計原始或未稀釋的樣品中的模板濃度。這種技術被認為允許檢測各種遺 傳現(xiàn)象(Vogelstein, B et al. 1999,見上文),并且最近被用于檢測腫瘤樣品(Zhou, W. et al. 2002,見上文)和癌癥患者血漿(Chang,HW et al. 2002,見上文)中的雜合性丟失。由 于通過數(shù)字PCR的模板分子定量不依賴于報道染料與核酸濃度之間的劑量反應關系,所以 理論上數(shù)字PCR分析的精度應當高于實時PCR的精度。因此,數(shù)字PCR潛在地能夠允許鑒 別靶基因座與參考基因座之間更精細程度的定量差異。為了對此進行檢測,我們首先評價數(shù)字PCR是否能夠測定母體血漿中來自染色體 21 的胎盤轉錄物,PLAC4mRNA 的等位基因比率(Lo,YMD,et al. 2007 Nat Med 13,218-223),從而區(qū)分21三體性胎兒和整倍體胎兒。這種方法被稱為數(shù)字RNA-SNP方法。我們然后評 價數(shù)字PCR增加的精度是否能夠允許檢測胎兒的染色體非整倍性而不依賴于遺傳多態(tài)性。 我們將這種方法稱為數(shù)字相關的染色體劑量(RCD)分析。數(shù)字RNA-SNP方法依賴于多態(tài) 性,但是在定量鑒別中要求較低的精度,而數(shù)字相關的染色體劑量(RCD)分析不依賴于多 態(tài)性,但是對于定量鑒別要求較高的精度。I.數(shù)字 RNA-SNPA.概述數(shù)字PCR能夠檢測DNA樣品中兩個等位基因的等位基因比率偏移的存在。例如, 數(shù)字PCR已經用于檢測腫瘤DNA樣品中的雜合性丟失(LOH)。假定在DNA樣品中有兩個等 位基因,即A和G,并且A等位基因將在細胞中隨著LOH而丟失。當在腫瘤樣品的50%的細 胞中存在LOH時,該DNA樣品中G A的等位基因比率將是2 1。然而,如果在該腫瘤樣 品中不存在LOHJUG A的等位基因比率的比率將是1 1。圖1是示出數(shù)字PCR實驗的流程圖。在步驟110中,將DNA樣品稀釋,然后分配至 單獨的孔中。注意,發(fā)明人已經確定在原始樣品中,某些血漿核酸種類已經被充分地稀釋。 因此,如果某些模板已經以需要的濃度存在,則不需將它們稀釋。在以前的研究中(例如, Zhouet al. 2002,見上文),將DNA樣品稀釋至特定的“模板DNA”的平均濃度約是每孔的兩 個模板中的一個模板0. 5分子的程度。注意,術語“模板DNA”看起來意指A等位基因或G 等位基因,并且沒有為這種具體的濃度提供原理闡述。在步驟120中,在每個孔中進行PCR過程來同時檢測A等位基因和/或G等位基 因。在步驟130中,在每個孔中鑒定了標記物(例如,通過熒光),例如,A、G、A和G或者A 和G都不是。在沒有LOH的情況下,DNA樣品中的A等位基因與G等位基因的豐度將是相同 的(每孔一個拷貝)。因此,孔對該A等位基因與對該G等位基因是陽性的概率是相同的。 這通過對該A等位基因或對該G等位基因是陽性的孔的數(shù)目相似反映出。然而,當在腫瘤 樣品的50%或更多的細胞中存在LOH時,G等位基因和A等位基因的等位基因比率將至少 是2 1。以前的方法簡單地假定,樣品是至少50%癌性的。因此,孔對G等位基因是陽性 的概率將高于對A等位基因是陽性的概率。因此,對G等位基因是陽性的孔的數(shù)目將大于 對A等位基因是陽性的孔的數(shù)目。在步驟140中,為了分類數(shù)字PCR的結果,計數(shù)對每個等位基因是陽性的,但是對 另一等位基因不是陽性的孔。在上文的實例中,計數(shù)了對A等位基因是陽性,但對G等位基 因是陰性的孔的數(shù)目和對G等位基因是陽性,但對A等位基因是陰性的孔的數(shù)目。在一實 施方案中,表現(xiàn)出較少的陽性孔的等位基因被視為參考等位基因。在步驟150中,信息孔的總數(shù)被確定為對所述兩個等位基因的任一個是陽性的孔 的數(shù)目的總和。在步驟160中,計算了由具有較多的陽性孔的等位基因貢獻的信息孔的比 例(Pr)(參數(shù)的實例)。Pr =只對具有較多陽性孔的等位基因是陽性的孔的數(shù)目/只對一 個等位基因(A或G)是陽性的孔的總數(shù)。其它實施方案能夠使用具有一個等位基因的全部 孔除以具有至少一個等位基因的全部孔。在步驟170中,確定&的值是否表示等位基因失衡。由于期望準確度和效能,所 以這一任務并非簡單的。確定失衡的一種方法使用了 Bayesian類似然方法,序貫概率比檢 驗(SPRT)。SPRT是允許隨著數(shù)據(jù)的積累比較兩種概率假設的方法。換言之,SPRT是將數(shù)字PCR結果分類為表示等位基因偏移存在或不存在的統(tǒng)計學方法。該方法具有將獲得特定 統(tǒng)計功效和準確度所需要分析的孔的數(shù)目減至最小的優(yōu)勢。在示例性的SPRT分析中,將針對無效假設和備選假設來檢驗實驗結果。當在樣品 中有等位基因比率偏移時,則接受備選假設。當在樣品中沒有等位基因比率偏移時,則接受 無效假設。將該Pr值與兩個截止值比較以接受無效假設或備選假設。如果沒有接受任何 一個假設,則將該樣品標記為未分類的,這表示觀察到的數(shù)字PCR結果不足以以期望的統(tǒng) 計學可信度將該樣品進行分類。通?;谠诩僭O中給出的假定下的己固定值來計算接受無效假設或備選假設的 截止值。在所述無效假設中,假定樣品沒有表現(xiàn)出等位基因比率偏移。因此,對A等位基因 和G等位基因是陽性的每個孔的概率將是相同的,因此,&的預期值將是1/2。在所述備選 假設中,Pr的預期值是2/3,或者大約是0. 5與2/3的中間值,例如0. 585。并且,由于有限 的實驗數(shù)目,能夠選擇上限(.585+3/N)和表示為(.585-3/N)的下限。B.唐氏綜合征的檢測在本發(fā)明的一實施方案中,數(shù)字SNP用于從孕婦血漿中檢測胎兒唐氏綜合征。使 用對胎兒/胎盤細胞特異性的標記物可以測量染色體21中的等位基因比率。例如,為了確 定觀察到的PLAC4等位基因的過度表現(xiàn)的程度是否是統(tǒng)計學顯著的,使用SPRT。根據(jù)一示例性的實施方案,數(shù)字RNA-SNP確定了位于PLAC4mRNA的A/G SNP, rs8130833的多態(tài)性等位基因比率的失衡,該mRNA是從染色體21轉錄并被胎盤表達的。對 于雜合的整倍體胎兒,A等位基因和G等位基因應當在胎兒基因組中被相等地表現(xiàn)(1 1 基因組比率);而在21三體性中,三體的染色體21將與胎兒基因組中的一個SNP等位基 因的額外拷貝有關,從而獲得2 1的比率。數(shù)字PCR的目的是確定分析的樣品中的兩個 PLAC4等位基因的量是否相等。因此,A PLAC4等位基因和G PLAC4等位基因都是靶模板。 設計了實時PCR測定來擴增PLAC4 mRNA,并且通過TaqMan熒光探針來鑒別這兩個SNP等位 基因。分析步驟的示意圖示于圖2A中。圖2A示出本發(fā)明實施方案的數(shù)字RNA-SNP方法200。在步驟210中,接收樣品。 在步驟220中,在提取的RNA樣品中將諸如PLAC4mRNA的核酸序列定量。在一實施方案中, 通過PLAC4 mRNA的實時PCR來進行這種定量。在一方面,這個步驟為操作者提供在靶標達 到數(shù)字PCR分析的“范圍”前所需的稀釋程度的概念。在步驟230中,將樣品稀釋。在步驟240中,測量稀釋的樣品的濃度。稀釋的樣品 濃度可以被證實為約1個模板/孔(即,參考序列或非參考序列或任何一個等位基因)。某 些實施方案使用第IV部分所述的技術來進行這一測量。例如,我們將稀釋的樣品分配至實 時PCR分析的96個孔中來保證實現(xiàn)了可用的稀釋。如在后文中將解釋的,稀釋濃度也可以 是未知的,從而省略這一步驟。在步驟250中,在陣列的每個孔中進行數(shù)字PCR。例如,將相同的稀釋的樣品分配 至實時PCR分析的384個孔中。從PCR結果中鑒定了每個核酸序列的標記物的量和信息孔 的數(shù)目。信息孔被定義為僅對A等位基因或G等位基因是陽性,而不是對兩個等位基因都 是陽性的孔。在步驟260中,計算&的預期值。在后文中將更詳細地討論這些步驟。所述 計算包括從步驟250所測定的值來確定參數(shù)。例如,可以計算每孔的實際平均模板濃度。在步驟270中,可以進行SPRT或其它似然比率檢驗來確定是否存在失衡。對于整倍體情況,我們預期相等數(shù)目的A陽性孔和G陽性孔。然而,當分析來自21三體性胎兒的 模板分子時,只含有一個等位基因的孔的數(shù)目將大于只含有另一等位基因的孔的數(shù)目。簡 而言之,等位基因失衡對21三體性是預期的。如上文所述的,SPRT 是 Bayesian 類似然方法(Bayesian-typelikelihood method),該方法允許隨數(shù)據(jù)的積累比較兩個概率假設。在21三體性檢測的數(shù)字PCR分析 中,當存在等位基因失衡時(即,檢測到21三體性),則接受備選假設;當沒有等位基因失 衡時(即,沒有檢測到21三體性),則接受無效假設。更多數(shù)目計數(shù)的等位基因被稱為潛在 地過度表現(xiàn)的等位基因,并且將計算該等位基因在全部信息孔中的比例(P》。如果該已表 明了足夠程度的對21三體性樣品預期的等位基因失衡,則應用SPRT來進行確定。可操作地,能夠通過使用具有一對SPRT曲線的圖來應用和解釋SPRT,構建該SPRT 曲線來定義接受或拒絕任何一個假設的概率邊界。圖3示出按照本發(fā)明的實施方案用于確 定唐氏綜合征的SPRT曲線的圖。當能做出確信的分類時,SPRT曲線將對潛在過度表現(xiàn)的等 位基因是陽性的信息孔的所需比例已(y-軸)對信息孔的給定的總數(shù)(χ-軸)作圖。如圖3 所示,上部曲線設定接受備選假設的概率邊界,而下部曲線設定接受無效假設的概率邊界。將實驗推導出的&值與預期&值相比較以便接受或拒絕任一假設。如果接受無 效假設,則將該樣品分類為從懷有整倍體胎兒的孕婦獲得的樣品。如果接受備選假設,則將 該樣品分類為從懷有21三體性胎兒的孕婦獲得的樣品??蛇x擇地,如果給定數(shù)目的信息計 數(shù)的&沒有達到疾病分類所要求的統(tǒng)計學可信度,則不能接受任何一個假設。在有更多的 可用數(shù)據(jù)以前,這些情況被視為不可分類的。如果疾病分類是不可能的,則可以進行額外的 384孔板直到累積的數(shù)據(jù)可以通過SPRT來分類。因此,對于給定水平的可信度,SPRT比其它統(tǒng)計學方法提供了更少的所需檢測量 的優(yōu)勢。在實踐中,只要積累了所需量的數(shù)據(jù),SPRT就允許接受或拒絕任何一個假設,從而 將不需要的額外分析降至最低。這種特性與通常以低濃度存在的血漿核酸的分析特別相 關,其中可用的模板的數(shù)目是有限的。除了嚴格的分類以外,所述分類還可以包括百分比準 確度。例如,來自與截止值比較的分類可以提供表現(xiàn)出具有某一百分比的核酸序列失衡的 可能性的樣品,或者,等效地提供準確至某一百分比或其它值的確定失衡。利用母體血漿或血清中的胎兒核酸,可以應用類似的方法來確定關于突變或遺傳 多態(tài)性的胎兒基因型。應當記得的是,胎兒將從其母親遺傳胎兒一半的基因組。作為示例, 考慮具有兩個等位基因A和B的特定遺傳基因座。如果母親是基因型為AB的雜合子,則胎 兒理論上能夠具有AA、BB或AB的基因型。如果胎兒的基因型為AB,即,與母親相同,則母 體血漿中將只有AB基因型的核酸(既來自母親又來自胎兒)。因此,在母體血漿中觀察到 了核酸或等位基因的平衡。在另一方面,如果胎兒的基因型為AA或BB,則在母體血漿中將 分別有過度表現(xiàn)的A等位基因或B等位基因的等位基因失衡。這種考慮還適用于導致疾病 的突變(例如,導致囊性纖維化、β -地中海貧血癥或脊髓型肌萎縮的那些突變),在這種情 況下,A能夠被考慮為野生型等位基因,而B能夠被考慮為突變體等位基因。II.數(shù)字 RCD數(shù)字RNA-SNP的劣勢是,其只能應用于被分析的SNP是雜合的個例。一個改進是, 基于循環(huán)的胎兒核酸分析的檢測胎兒21三體性或其它胎兒染色體非整倍性(例如,18三體 性、13三體性和性染色體非整倍性)的無創(chuàng)檢測與遺傳多態(tài)性的使用無關將是理想的。因此,在一實施方案中,通過相對于位于參考染色體,即本研究中的染色體1上的基因座的非 多態(tài)性的染色體21基因座的數(shù)字PCR分析來測定染色體劑量。從21三體性個例中區(qū)分整 倍體胎兒基因組中染色體21比染色體1的比率偏離2 2的變化。在21三體性檢測的數(shù) 字PCR分析中,要比較的兩個假設將是沒有染色體失衡(即,沒有檢測到21三體性)的無 效假設和存在染色體失衡(即,檢測到了 21三體性)的備選假設。這種方法能夠被推廣至與其它染色體非整倍性有關的其它染色體,例如,18三體 性中的染色體18、13三體性中的染色體13、特納綜合征中的染色體X。另外,除了染色體1, 與非整倍性無關的其它染色體也能夠用作參考染色體。通過分析在癌癥中通常部分地缺失 的染色體比參考染色體的比率的變化,能夠將類似的方法應用于檢測癌癥。通常部分地缺 失的染色體的實例包括直結腸癌中的染色體5q、肺癌中的染色體3p和鼻咽癌中的染色體 9p。圖2B列出了某些導致序列失衡的某些常見的與癌癥有關的染色體畸變。圖2A還示出本發(fā)明實施方案的數(shù)字RCD方法205。在步驟220-230的一實施方案 中,例如,通過Nanodrop技術,將提取的DNA定量,并稀釋至每孔大約一個靶模板的濃度,所 述靶模板來自染色體21或標準化的染色體(例如,染色體1)的。在步驟240的一實施方 案中,在384孔板中使用兩個TaqMan探針進行數(shù)字RCD分析前,可以進行如下證實通過分 析稀釋的DNA樣品來證實約37%的水平的孔是否是陰性的,該分析只通過使用96孔格式的 染色體1探針的測定來進行。37%的顯著性將在后面的第IV部分中進行討論。步驟240的檢測和步驟250的結果可以用設計成擴增存在于兩條染色體上的種內 同源序列(paralogous sequence) (Deutsch,S. et al. 2004J Med Genet 41,908-915)的實 時PCR測定來完成,所述染色體被通過一對TaqMan探針鑒別的平行同源序列變化所區(qū)分。 在本文中,信息孔被定義為對任一染色體21或染色體1基因座是陽性的,而對這兩條染色 體不都是陽性的孔。對于整倍體胎兒,對任一基因座是陽性的信息孔的數(shù)目應當大致相等。 對于21三體性胎兒,應當有與染色體1陽性孔相比,染色體21陽性孔的過度表現(xiàn)。在下文 的部分中描述了過度表現(xiàn)的確切比例。III.并入胎兒序列的百分比上文所述的方法200和205的實施方案的劣勢在于胎兒特異性的標記物是必需 的。因此,在本發(fā)明的一實施方案中使用了非胎兒特異性的標記物。為了使用這種非胎兒 特異性的標記物,本發(fā)明的實施方案測量了母體血漿(即,生物樣品)中胎兒DNA的部分濃 度(fractionalconcentration)。通過這些信息,可以按照如下步驟來計算更有用的^值。即便對于母體血漿中胎兒DNA的小的部分百分比,21三體性胎兒將通過釋放至母 體血漿中的胎兒DNA的基因組當量(genome-equivalent) (GE)貢獻額外劑量的染色體21 序列。例如,含有50GE/ml總DNA和5GE/ml胎兒貢獻的DNA(即,10%胎兒DNA部分濃度) 的來自整倍體妊娠的母體血漿樣品將會含有每毫升母體血漿總共100個拷貝(90個母體拷 貝+10個胎兒拷貝)的染色體21序列。對于21三體性妊娠,每個胎兒GE將貢獻3個拷貝 的染色體21,這導致母體血漿中總共105個拷貝/ml (90個母體拷貝+15個胎兒拷貝)的染 色體21序列。因此,在10%的胎兒DNA濃度時,三體妊娠母體血漿中源自染色體21的序列 的量將是整倍體情況的1.05倍。因此,如果能夠開發(fā)測定這種小程度的定量差異的分析方 法,將實現(xiàn)不依賴于多態(tài)性的胎兒21三體性的無創(chuàng)產前診斷檢測。因此,過度表現(xiàn)的程度將取決于分析的DNA樣品中部分胎兒DNA濃度。例如,當分析胎盤DNA時,胎兒基因組中的理論RCD比率應當是3 2,即,1.5倍的差異。然而,如上 文所述的,當分析含有10%的胎兒母體血漿時,該理論RCD比率將降至1. 05。通過將只對 染色體21基因座是陽性的孔的數(shù)目除以信息孔的總數(shù)來計算實驗導出的Pp用計算的已 和理論RCD比率來對實驗導出的P,進行SPRT分析。圖4表示按照本發(fā)明的實施方案,利用胎兒核酸百分比來確定疾病狀態(tài)的方法 400。在步驟410中,測量了胎兒物質的部分百分比。在一實施方案中,通過測量相對于非 胎兒特異性標記物(即,在母親和胎兒中都存在的基因序列)的胎兒特異性標記物(例如, Y染色體,遺傳多態(tài)性標記物(例如,SNP)、胎盤外遺傳特征(印igenetic signature))的 量來確定所述部分百分比。通過實時PCR、數(shù)字PCR、測序反應(包括大規(guī)模平行基因組測 序)或任何其它定量方法來進行實際的測量。在一方面,優(yōu)選地不使用對于本測量能夠潛 在地處于等位基因失衡的基因靶標。在步驟420中,進行了數(shù)字PCR或其它測量方法,包括將樣品稀釋,將該稀釋的樣 品置于孔中并測量每孔中的反應。在步驟430中,將PCR結果用于鑒定不同參考核酸序列 (例如染色體或等位基因)的標記物。在步驟440中,計算了過度表現(xiàn)的序列的實際比率 (Pr)。在步驟450中,利用樣品中胎兒物質的百分比來計算用于確定疾病狀態(tài)的截止值。在 步驟460中,從該實際&和該截止值來確定是否存在失衡。在一實施方案中,將參考核酸序列的部分百分比并入數(shù)字RNA-SNP方法中。因此, 當研究由于癌細胞的LOH時,能夠用少于50%癌細胞的腫瘤樣品來進行這一步驟。還可以 將這一步驟用于多于50%的癌細胞的樣品以獲得更準確的已,并因此減少將導致錯誤診斷 的假陽性的數(shù)目。在另一實施方案中,將胎兒核酸百分比并入數(shù)字PCR方法中以確定胎兒 是否已遺傳了父母的基因突變(例如,導致囊性纖維化或地中海貧血癥或脊髓型肌萎 縮的突變)或確定來自母體血漿核酸分析的多態(tài)性。IV.并入每孔的平均濃度以前的方法(例如,Zhou, W. et al. 2002,見上文)的另一個劣勢是要求每孔的平 均模板濃度(m)是每孔1個??紤]到難以獲得確切的濃度,這能夠導致誤差。而且,甚至對 于每孔1個模板的確切濃度,以前的方法忽略了孔中的模板的統(tǒng)計學分布。在以前的方法, 即,老的算法中,假定接受備選假設的&的預期值是等位基因比率,因此,該&的預期值與 每孔中的模板DNA的平均濃度無關。然而,由于稀釋樣品中模板的天然統(tǒng)計變異(statistical variation),將不會有 確切的每孔1個模板。本發(fā)明的實施方案測量至少一種序列的平均濃度,然后將該平均濃 度用于計算截止值,即預期的Pp在一方面,這種計算包括了統(tǒng)計學分布以確定含有不同核 酸序列的孔的概率,然后將該概率用于確定預期的已。在一實施方案中,獲取了一種參考核酸序列的平均濃度,其在一實例中是DNA樣 品中較低濃度的核酸序列。在樣品不具有失衡的情況下,樣品中兩種序列的濃度將是相同 的,并且任何一種都能夠被視為參考等位基因。在樣品具有,例如,LOH的情況下,在癌細胞 中缺失的等位基因將被視為參考等位基因。將該參考等位基因的平均濃度表示為Α。在另 一實施方案中,濃度較高的序列可以被視作參考序列。Α.數(shù)字SNP 使用SPRT和數(shù)字PCR的實例圖5顯示了按照本發(fā)明的實施方案,使用平均模板濃度來確定疾病狀態(tài)的方法500。在步驟510中,測量了不同序列的量。例如,可以通過計數(shù)如上文所解釋的數(shù)字PCR 實驗中的標記物來進行這一步驟。然而,可以通過其它方法來進行這一步驟,該方法不包括 擴增步驟或者不使用熒光標記物,但是能夠使用其它屬性,例如如同質量的物理屬性、比旋 光屬性或堿基配對屬性。在步驟520中,測定了過度表現(xiàn)的序列的實際比例。如上文所述的,可以通過 獲取只表現(xiàn)出過度表現(xiàn)的序列的孔的數(shù)目,然后將該數(shù)目除以信息孔的數(shù)目來完成這 個步驟。在步驟530中,測量了至少一種序列(參考序列)的平均濃度。在一實施方 案中,所述參考序列是過度表現(xiàn)的序列。在另一實施方案中,所述參考序列是過少表現(xiàn) (underrepresented)的序列??梢酝ㄟ^計數(shù)在數(shù)字PCR實驗中對參考序列是陰性的孔的數(shù) 目來進行測量。如在下個分段中所述的,通過泊松分布(Poisson distribution)來描述陰 性孔的比例與平均目標濃度之間的關系。在步驟540中,例如,使用泊松分布來計算對不同的序列是陽性的孔的預期量。該 預期量可以是每孔的序列的概率、每孔的平均序列、含有序列的孔的數(shù)目或其它合適的量。 在步驟550中,從該預期的量計算預期的P,。在步驟560中,例如,通過使用SPRT,從預期 的已計算截止值。在步驟570中,確定了核酸序列失衡的分類?,F(xiàn)在將描述方法500的具 體方面。1.確定序列的預期量一旦從步驟530知道了每孔的平均濃度(反應或反應混合物),就可以在步驟540 中計算表現(xiàn)出該序列的孔的預期數(shù)目。這種量可以表示為%、分數(shù)值或整數(shù)值。利用具體 的實例進行說明,假定每孔的參考模板的平均濃度OiO是每孔0.5個,并且21三體性胎兒 在PLAC4SNP,rs8130833的基因型是AGG。因此,參考模板是A等位基因,并且過度表現(xiàn)的 模板是G等位基因。在一實施方案中,假定A等位基因在諸如數(shù)字PCR的測量方法的孔的反應混合物 中的分布是泊松分布。在其它實施方案中,使用了其它分布函數(shù),例如二項分布。泊松方程式是腫^^,其中,η =每孔的模板分子的數(shù)目;Ρ(η) = η個模板分子 在特定的孔中的概率;并且m =特定的數(shù)字PCR實驗中一個孔中的模板分子的平均數(shù)目。因此,在0. 5的平均A等位基因的濃度下,不含A等位基因的任何分子的任何孔的 概率是P(O) == e^·5 = 0.6065
0*因此,含有A等位基因的至少一個分子的任何孔的概率是1_0.6065 = 0.3935。 因此,預期約39%的孔將含有A等位基因的至少一個分子。關于非參考核酸序列,對于21三體性胎兒的每個細胞,A比G的基因組比率將是 1 2。假定在提取的RNA或DNA樣品中的A比G的比率保持不變,則每孔的G等位基因的 平均濃度將是A等位基因的平均濃度的2倍,S卩,2X0.5 = 1。因此,在平均的G等位基因濃度為1的情況下,不含G等位基因的任何分子的任何 孔的概率是
ιΟ -1 P(O) = =--— = e~{ = 0.3679 W
因此,含有G等位基因的至少一個分子的任何孔的概率是1_0.3679 = 0.6321。 因此預期約63%的孔會含有G等位基因的至少一個分子。2.確定過度表現(xiàn)的序列的比例計算了預期量后,可以_過度表現(xiàn)的核酸序列的比例。假定用A等位基因和G 等位基因填充孔是獨立的,則含有兩個等位基因的孔的概率是0. 3935X0. 6321 = 0. 2487。 因此,預期約25%的孔將含有兩個等位基因。預期含有A等位基因,但是不含有G等位基因的孔的比例將是含有至少一個A等 位基因的孔的數(shù)目減去既含有A等位基因又含有G等位基因的孔的數(shù)目0. 3935-0. 2487 =0. 1448。類似地,預期含有G等位基因,但是不含有A等位基因的孔的比例將是 0. 6321-0. 2487 = 0.3834。信息孔被定義為對A等位基因或G等位基因是陽性,但是不對 兩個等位基因都是陽性的孔。因此,在數(shù)字RNA-SNP分析中,含有A等位基因的孔相對于G等位基因的孔的預期 比率是0. 1448/0. 3834。換言之,只對G等位基因是陽性的孔的比例是只對A等位基因是陽 性的孔的比例的2. 65倍。這與胎兒基因組比率形成對比,其中過度表現(xiàn)的等位基因是另一 等位基因的2倍。對于SPRT分析,計算了對過度表現(xiàn)的等位基因是陽性的信息孔的比例((P』,并利 用SPRT曲線對該比例進行解釋。在本實例中,信息孔的比例是0. 1448+0. 3834 = 0. 5282。 因此,在叫為0. 5時,21三體性病例的預期Pr是0. 3834/0. 5282 = 0. 73。由于平均模板濃度(m)是泊松方程式中的關鍵參數(shù),所以已將隨m而變化。圖6 顯示了本發(fā)明實施方案的表600,該表列出了對于表示為每孔的平均參考模板濃度(πΟ的 一系列模板濃度,21三體性樣品的預期的數(shù)字RNA-SNP等位基因比率和P,。表600顯示了 對于一系列每孔的平均參考模板濃度(πν),預期的等位基因比率和對過度表現(xiàn)的等位基因 是陽性的信息孔的比例(P》。Pr的預期值以非線性的方式隨每孔的參考等位基因的平均濃度(πν)而變化。如 表600所示,接受備選假設的Pr的預期值隨Hlr而增加。由于接受無效假設的Pr的預期值 固定為0. 5,所以當&增加時,具有或不具有等位基因失衡的樣品就&值而言將分得更開。 注意,在其它實施方案中,接受無效假設的值可以不同于0.5。當正常比率不同于1 1,例 如5 3時,可能發(fā)生這種情況,因此,當比率偏離5 3時,將發(fā)生失衡。將基于具體情況 來確定兩種不同核酸序列的量的差異。然而,由于以前的方法(例如,Zhou,W. et al. 2002,見上文)使用了 LOH樣品的固 定的已預期值,所以這些方法低估了具有LOH的那些樣品的已值(接受備選假設)。低估 的程度將隨m,而增加。換言之,DNA樣品中參考等位基因的平均濃度越高,舊方法就越不準 確。這種接受備選假設的&的低估將導致既接受無效假設又接受備選假設的截止值的不 準確的計算。3.基于預期P:計算截Ih倌對于使用SPRT的實施方案,可以使用來自El Karoui等人(2006)的計算SPRT曲 線的上限和下限的方程式。而且,優(yōu)選接受無效假設或備選假設的統(tǒng)計學可信度能夠通過 調整方程式中的閥值似然比率而變化。在這個研究中,使用的閥值似然比率是8,因為這個 值已經被證實在癌癥檢測的環(huán)境下提供了鑒別包含或不包含等位基因失衡的樣品的令人滿意的性能。因此,在一實施方案中,計算SPRT曲線的上限和下限的方程式是上限=[(1η8)/Ν-1ηδ]/1ηγ下限=(In1/8)/N-In δ ]/In γ其中,δ = (1-θ ^/(Ι-θο)y = -(Θ^Ι-Θ^/Θ^Ι-Θ^θ ^ =如果無效假設是真實的,含有非參考等位基因的信息孔的比例= 0.5 (參見下文)θ工=如果備選假設是真實的,含有非參考(即,過度表現(xiàn)的)等位基因的信息孔 的比例N=信息孔的數(shù)目=只對任何一個等位基因是陽性的孔的數(shù)目(In是表示自然對數(shù)的數(shù)學符號,S卩Ioge)對于接受無效假設的θ ^的測定,假定從懷有整倍體胎兒的孕婦獲得樣品。在這 一假定下,對任一個模板是陽性的孔的預期數(shù)目將是1 1,因此含有非參考等位基因的信 息孔的預期比例將是0.5。對于接受備選假設的θ工的測定,假定從懷有21三體性胎兒的孕婦獲得樣品。數(shù) 字RNA-SNP分析的21三體性情況的預期P,的計算細節(jié)列于表600中。因此,數(shù)字RNA-SNP 分析的Q1意指表600最后一列所示的數(shù)據(jù)。4.平均濃度的測量可以通過對本領域技術人員公知或將公知的多種方法來測量m,。在一實施方案 中,在數(shù)字PCR分析的實驗過程期間確定HV的值。由于HV值與對參考等位基因是陽性的孔 的總數(shù)的關系能夠被分布所控制(例如,泊松分布),所以能夠利用下述公式,從對參考等 位基因是陽性的孔的數(shù)目來計算HV mr = -ln(l-對參考等位基因是陽性的孔的比例)。注意,In是自然對數(shù),即loge。這種方法提供了用于數(shù)字PCR實驗的DNA樣品中 m,直接和精確的估計。這種方法可以用于獲得期望的濃度。例如,如方法200的步驟240中所做的,可以 將樣品中提取的核酸稀釋至具體的濃度,例如,每一反應孔一個模板分子。在使用泊松分 布的實施方案中,不含模板的孔的預期比例可以計算為e_m,其中m是每孔的模板分子的平 均濃度。例如,在每孔一個模板分子的平均濃度下,不含模板分子的孔的預期比例是e—1,即 0.37(37%)。剩下的63%的孔將含有一個或多個模板分子。通常,然后將計數(shù)數(shù)字PCR運 行(rim)中陽性孔和信息孔的數(shù)目。信息孔的定義和解釋數(shù)字PCR數(shù)據(jù)的方式取決于應用。
在其它實施方案中,每孔的平均濃度πν通過其它定量方法來測量,例如,定量實時 PCR、半定量競爭PCR、利用質譜方法的實時競爭PCR(real-competitive PCR)等。B.數(shù)字 RCD可以以與上文所述的數(shù)字SNP方法類似的方式進行使用平均濃度的數(shù)字RCD。能 夠通過數(shù)字PCR來確定對參考染色體(非染色體21)標記物是陽性、對染色體21標記物是 陽性以及對兩種標記物都是陽性的孔的數(shù)目。根據(jù)數(shù)字SNP分析的πν計算中的泊松概率函數(shù),能夠從對參考標記物是陰性的孔的總數(shù)來計算每孔的參考標記物的平均濃度OiO, 而不管染色體21標記物的陽性。然后可以將SPRT分析用于將血漿樣品分類為獲自懷有整倍體胎兒的孕婦或者獲 自懷有21三體性胎兒的孕婦。當胎兒是整倍體時,接受無效假設。在這種情況下,對參考 標記物和染色體21標記物是陽性的孔的預期比率將是1 1,因此,具有對染色體21標記 物陽性信號的信息孔的預期比率將是0. 5。當胎兒是染色體21三體時,將接受備選假設。 在這種情況下,如果樣品DNA只來自胎兒,則每個孔中的染色體21標記物的平均濃度將是 參考標記物的平均濃度OiO的3/2倍。當將數(shù)字RCD用于通過檢測諸如胎盤的外遺傳特征的胎兒特異性標記物來測定 染色體劑量時(Chim,SSC. et al. 2005 Proc Natl AcadSci USA 102,14753-14758),數(shù) 字RCD分析的實施方案使用非胎兒特異性的標記物。因此,當使用非胎兒特異性標記物 時,將進行測量胎兒物質百分比的額外步驟。因此,每孔的染色體21標記物的平均濃度 將取決于樣品中胎兒DNA的比例,并且能夠使用下式進行計算m,[ (200% +胎兒DNA百分 It)/200% ]。再次利用具體實例進行說明,假定每孔的參考模板、染色體1的平均濃度OiO是 0. 5,并且假定50%的DNA源自胎兒,樣品中50%的DNA源自母親。因此,利用泊松分布,當染色體1的平均濃度是每孔0. 5時,不含染色體1基因座 的任何分子的任何孔的概率將是P(O) = ‘ = e~°·5 = 0.6065因此,含有染色體1基因座的至少一個分子的任何孔的概率將是1_0.6065 = 0. 3935。因此,預期約39%的孔將含有該基因座的至少一個分子。對于這種三體性胎兒的每個細胞,染色體21比染色體1的基因組比率將是3 2。 DNA樣品中染色體21與染色體1之間的比率將取決于部分胎兒DNA濃度(胎兒DNA% ), 并且是:3X胎兒DNA% +2(1-胎兒DNA% ) :2X胎兒DNA% +2X (1_胎兒DNA% )。因此, 在這種情況下,當部分胎兒DNA濃度是50%時,該比率是(3X50% +2X50% )/(2X50% +2X50%) = 1.25。如果數(shù)字SNP方法沒有使用胎兒特異性標記物,則這種計算還能夠用 于計算非參考序列的平均濃度。因此,當每孔的染色體1基因座的平均濃度是0. 5時,每孔的染色體21基因座的 平均濃度是1. 25X0. 5 = 0. 625。因此,不含染色體21基因座的任何分子的任何孔的概率 在染色體21基因座平均濃度為每孔0. 625時將是
_0.6256嚴=嚴 0.5353Ol因此,含有染色體21基因座的至少一個分子的任何孔的概率將是1-0. 5353 = 0.4647。因此,預期約46%的孔將含有該基因座的至少一個分子。假定用任一個基因座填 充孔是獨立的,則含有兩個基因座的孔的概率將是0. 3935X0. 4647 = 0. 1829。因此,預期 約18%的孔將含有兩個基因座。預期含有染色體1基因座,但是不含有染色體21基因座的孔的比例將是含有至
20少一個染色體1基因座的孔的數(shù)目減去含有兩個基因座的孔的數(shù)目0. 3935-0. 1829 = 0.2106。類似地,預期含有染色體21基因座而不是兩個基因座都含有的孔的比例將是
0.4647-0. 1829 = 0. 2818。信息孔被定義為對染色體1基因座或染色體21基因座是陽性, 但是不對兩個基因座都是陽性的孔。因此,數(shù)字RCD分析中預期的染色體21比染色體1的比率是0.2818/0. 2106 =
1.34。換言之,只對染色體21基因座是陽性的孔的比例是只對染色體1基因座是陽性的孔 的比例的1. 34倍。這與DNA樣品中1. 25的比率形成對比。對于SPRT分析,需要計算對染色體21基因座是陽性的信息孔的比例(P,),并使用 SPRT曲線來解釋該比例。在本實例中,信息孔的比例將是0. 2106+0. 2818 = 0. 4924。因此, 在0. 5的mr下,具有50%胎兒DNA的21三體性個例的預期Pr是0. 2818/0. 4924 = 0. 57。由于平均模板濃度(m)是泊松方程式中的關鍵參數(shù),所以已將隨m而變化。圖7 顯示了按照本發(fā)明實施方案的表700,其列出了在表示為每孔的平均參考模板濃度(πΟ的 一系列模板濃度下,21三體性樣品中10%、25%、50%和100%的部分胎兒DNA濃度的預期 P,。對于數(shù)字RCD分析,21三體性個例的預期P,的運算詳細列于表700中。因此,能夠從表 700中表示對應的預期已值的列獲得胎兒DNA部分濃度變化的樣品的數(shù)字RCD分析的θ 10C.結果1.不同πι:的比較等位基因或染色體失衡的理論程度(胎兒基因組中)和實驗預期程度之間的差異 的基礎以及確定針對一系列πν值的實驗預期程度的計算結果示于表600和700中。在21 三體性樣品的數(shù)字RNA-SNP分析中,當πν = 0. 5時,只含有過度表現(xiàn)的等位基因的孔比只 含有參考等位基因的孔,即數(shù)字RNA-SNP比率是2.65 (表600)。在由100%的胎兒DNA組 成的樣品的數(shù)字RCD分析中,當πν = 0. 5時,只對染色體21基因座是陽性的孔比只對染色 體1基因座是陽性的孔,即數(shù)字RCD比率,是1. 7 (表700) (Pr = 0. 63,因此,數(shù)字RCD比率 是0.63/(1-0. 63) = 1.7)。隨著部分胎兒DNA濃度下降,數(shù)字RCD對相同的叫下降。 如表600和700所示,等位基因或染色體的過度表現(xiàn)的程度隨著Hir而增加。然而, 信息孔的百分比在m, = 0. 5附近時達到其最大值,并且隨著m,的進一步增加而逐漸下降。 在實踐中,如果不限制樣品的模板分子的量,則信息孔比例的下降能夠通過增加分析的孔 的總數(shù)來補償,但是額外的孔需要增加試劑成本。因此,最優(yōu)的數(shù)字PCR性能是模板濃度和 每個樣品測試的孔的總數(shù)之間的權衡。2.使用SPRT曲線的實例如上文所討論的,數(shù)字PCR實驗的等位基因或染色體失衡的預期程度取決于每個 反應混合物(例如,孔)的實際模板濃度。我們描述了基于參考等位基因的模板濃度,即每 孔的平均參考模板濃度(m,)。如在上文的方程式中所示,預期的P,能夠用于確定上部SPRT 曲線和下部SPRT曲線的作圖。由于預期的已相應地依賴于&的值,所以SPRT曲線的作圖 基本上取決于m,的值。因此,在實踐中,需要使用與數(shù)字PCR數(shù)據(jù)集的實際m,相關的一組 SPRT曲線來解釋來自該特定運行(rim)的P,。圖8顯示了圖800,示例了按照本發(fā)明的實施方案,對于用于數(shù)字RNA-SNP分析的 0. 1,0. 5和1. 0的m,值的SPRT曲線中的差異程度。每組數(shù)字PCR結果應當用與該特定運 行的確切A值相關的具體曲線來解釋。注意,由于對于數(shù)字RNA-SNP和數(shù)字RCD方法而言,等位基因或染色體失衡的預期程度是不同的(對于數(shù)字RNA-SNP為2 1,對于數(shù)字RCD為 3 2),所以兩個數(shù)字PCR系統(tǒng)需要不同組的SPRT曲線。用通過數(shù)字PCR運行的對應m, 選擇的相關SPRT曲線來解釋實驗導出的已。這與以前報道的將SPRT用于通過數(shù)字PCR的 LOH的分子檢測形成對比,該以前報道中使用了一組固定的曲線。利用假設的數(shù)字RNA-SNP運行,下文示例了使用SPRT解釋數(shù)字PCR數(shù)據(jù)的實施方 式。每個實例的數(shù)字RNA-SNP分析后,計數(shù)了只對A等位基因是陽性的孔的數(shù)目、只對G等 位基因是陽性的孔的數(shù)目或者對這兩個等位基因都是陽性的孔的數(shù)目。參考等位基因被定 義為具有較少數(shù)目的陽性孔的等位基因。根據(jù)泊松概率密度函數(shù),使用對參考等位基因是 陰性的孔的總數(shù)來計算A值,而不管其它等位基因是否是陽性。我們假設的實例的數(shù)據(jù)如 下所述在96孔反應中,20個孔只對A等位基因是陽性的,24個孔只對G等位基因是陽性 的,并且33個孔對這兩個等位基因都是陽性的。將A等位基因視為參考等位基因,因為A 陽性的孔少于G陽性的孔。對參考等位等位基因是陰性的孔的數(shù)目是96-20-33 = 43。因 此,能夠使用泊松方程式來計算m,:-ln (43/96) = 0.80。這種情況的實驗確定的P,是24/ (20+24) = 0. 55。根據(jù)表600,πν = 0. 8時的21三體性樣品的預期^是0. 76。因此,這種情況的θ 是0. 76。將基于θ i = 0. 76的SPRT曲線用于解釋這種情況的實驗導出的&,0. 55。當將 Pr = 0. 55擬合至相關的SPRT曲線時,數(shù)據(jù)點落在下部曲線下。因此,將這種情況分類為整 倍體,參見圖3。3.與舊方法的比較圖9A顯示了表900,其比較了用于分類96孔數(shù)字RNA-SNP分析中整倍體和21三 體性實例的新和舊SPRT算法的有效性。圖9B顯示了表950,其比較了用于分類384孔數(shù)字 RNA-SNP分析中整倍體和21三體性實例的新和舊SPRT算法的有效性。新的算法指選擇對 源自數(shù)字PCR數(shù)據(jù)的m,特異性的SPRT曲線。舊的算法指對全部數(shù)字PCR運行使用固定組 的SPRT曲線。通過如表900所示的模擬分析揭示了截止值的錯誤計算對分類準確度的影 響。如表900和950所示,與以前的研究中使用固定組的SPRT曲線相比,我們的研究 中不可分類的數(shù)據(jù)的比例低得多。例如,使用我們的方法,在& = 0. 5時,14%和0%的三體 性樣品分別對96孔和384孔數(shù)字RNA-SNP分析是不可分類的,但是使用固定曲線時,62% 和10%的樣品分別是不可分類的(表900)。因此,我們的方法允許用較少數(shù)目的信息孔對 疾病分類。如表900所示,對于0. 1至2. 0的全部π^值,新的算法在將樣品分類為具有或不 具有等位基因比率偏移上更準確。例如,當m,等于1. 0并且進行了 96孔數(shù)字RNA-SNP運 行時,新的算法分別正確地分類了 88%和92%的具有或不具有等位基因比率偏移的樣品, 而使用舊的算法,具有或不具有等位基因比率偏移的樣品的正確分類的百分比分別是19% 和 36%。使用新的算法,具有或不具有等位基因比率偏移的樣品的分離將隨&而增加。因 此,分類準確度將隨m,而增加。當m,增加至大于2. 0時,由于信息孔百分比的下降,兩組樣 品分離的增加對分類準確度影響將降低。相比之下,使用舊的算法,當&增加時,由于預期的P值與其真實值偏離的增加,分類準確度明顯地下降。我們的實驗和模擬數(shù)據(jù)表明對于21三體性檢測,數(shù)字RNA-SNP是有效和準確的方 法。由于母體血漿中的PLAC4mRNA完全源自胎兒,所以對于13個檢測的母體血漿樣品中 的12個,只需要一個384孔數(shù)字PCR來進行正確的分類(圖13B的表1350)。因此,這種 均一的基于實時數(shù)字PCR的方法為RNA-SNP分析的基于質譜的方法提供了替代選擇(Lo, YMD, et al. 2007 Nat Med,見上文)。除了胎盤特異性轉錄物以外,我們還展望,母體血漿 中其它類型的胎兒特異性核酸種類能夠用于基于數(shù)字PCR的胎兒染色體非整倍性檢測。 一個實例是胎兒外遺傳標記物(Chim,SSC et al. (2005) Proc Natl Acad Sci USA 102, 14753-14758 ;Chan, KCA et al. (2006) Clin Chem 52,2211-2218),其最近被用于使用外 遺傳等位基因比率(EAR)方法的18三體性的無創(chuàng)產前檢測(Tong, YK et al. (2006)Clin Chem 52,2194-2202)。因此,我們,預測數(shù)字EAR將是可能的分析技術。V.漸增的百分比、多個標記物和PCR替代詵擇如上文所述,當胎兒DNA只組成母體血漿DNA的一小部分,并且妊娠的11周至17 周之間的平均部分濃度為約3 %時,本發(fā)明的實施方案應用于從母體血漿提取的DNA是復 雜的。然而,如本文所示,甚至當非整倍體DNA以較少的群體存在時,數(shù)字RCD允許非整倍 性檢測。隨著胎兒DNA部分濃度的下降,例如可以存在于早期妊娠期間,數(shù)字RCD需要較大 數(shù)目的信息計數(shù)。如圖12的表1200所總結的,本工作的意義是我們提供了可以在其上建 立診斷測定的一組基準參數(shù),例如所需的部分胎兒DNA和總模板分子。我們認為,對于25% 的部分胎兒DNA濃度,7680的反應總數(shù)是特別有吸引力的一組基準參數(shù)。如表1200所示, 這些參數(shù)應當允許正確地分類當前97%的整倍體樣品和21三體性樣品。存在于單位體積的母體血漿中的血漿DNA分子的數(shù)目是有限的(Lo,YMD. et al. 1998 Am J Hum Genet 62,768-7758)。例如,在早期妊娠中,常染色體基因座,β _球蛋 白基因的中間母體血漿濃度被證實是986個拷貝/毫升,這既有來自胎兒的貢獻又有來自 母親的貢獻(Lo, YMD. et al. 1998 Am J Hum Genet 62,768-7758)。為 了捕獲 7,680 個分 子,需要提取約8mL的母體血漿的DNA??梢詮募s15mL母體血液獲得的這個體積的血漿是 常規(guī)實踐的極限。然而,我們預測對于數(shù)字RCD分析可以組合多組染色體21和參考染色體 靶標。對于5對染色體21和參考染色體靶標,只需要1. 6mL的母體血漿來提供分析所需的 模板分子的數(shù)目。能夠進行多重單分子PCR。對于單分子單體型分析,以前已經證明了這種 多重單分子分析的穩(wěn)健度(Ding, C. and Cantor, CR. 2003 Proc Natl Acad Sci USA 100, 7449-7453)??蛇x擇地,為了實現(xiàn)25%的部分胎兒DNA濃度,方法可以允許選擇性地富集母體 血漿中的胎兒的DNA(Li,Y. et al. 2004 Clin Chem50,1002-1011)或抑制母體血漿中的母 體DNA背景(Dhallan, R et al. 2004 JAMA 291,1114-1119)或者既富集母體血漿中的胎 兒DNA又抑制母體血漿中的母體DNA背景。除了富集胎兒DNA和抑制母體DNA的物理方法 以外,還可能使用分子富集策略,例如通過靶向表現(xiàn)出特定DNA甲基化方式的胎兒DNA分 子(Chim,SSC et al. 2005 Proc NatlAcad Sci USA 102,14753-14758,Chan,KCA et al. 2006 Clin Chem 52,2211-2218 ;Chiu, RffK et al. 2007 Am J Pathol 170,941-950)。另外,如進行數(shù)字PCR的目前的研究所用的,現(xiàn)在有許多人工進行數(shù)字實時PCR分 析的替代方法。這些替代方法包括微流體數(shù)字PCR芯片(Warren,L et al. 2006 Proc NatlAcad Sci USA 103,17807-17812 ;Ottesen, EA et al.2006 Science 314,1464-1467)、 乳液 PCR(Dressman,D et al. 2003 Proc Natl Acad Sci USA 100,8817-8822)和使用 例如 Roche454 平臺、Illumina Solexa 平臺和 Applied Biosystems 的 SOLiD 系統(tǒng)等的 大規(guī)模平行基因組測序(Margulies,M. et al. 2005 Nature 437,376-380)。對于后者, 我們的方法也適用于單個DNA分子的大規(guī)模平行測序方法,該方法不要求擴增步驟,例 如 Helicos True 單分子 DNA 測序技術(Harris TD et al. 2008 Science,320,106-109)、 PacificBiosciences的單分子實時(SMRT )技術和納米孔測序(Soni GV andMeller A. 2007 Clin Chem 53,1996-2001)。通過使用這些方法,能夠在大量樣品上快速地進行數(shù) 字RNA-SNP和數(shù)字RCD,從而增強了本文提出的方法用于無創(chuàng)產前診斷的臨床可行性。
實施例提供下文的實施例來示例而不是不限制要求保護的發(fā)明。I.計算機樽擬 進行計算機模擬來估計使用SPRT方法的21三體性診斷的準確性。使用Microsoft Excel 2003 軟件(Microsoft Corp. ,USA)和 Windows 軟件 SAS 9. 1 (SAS Institute Inc., NC, USA)來進行計算機模擬。數(shù)字PCR的性能是參考模板濃度OiO、信息計數(shù)的數(shù)目和等 位基因或染色體失衡的預期程度(P》之間的相互作用。對一系列這些變量的每個進行了 單獨的模擬。由于數(shù)字RNA-SNP和數(shù)字RCD的SPRT曲線的判定邊界是不同的,所以分別進 行這兩個系統(tǒng)的模擬分析。對模擬的每個數(shù)字PCR條件(S卩,m,、胎兒DNA部分濃度、總孔數(shù)),進行了兩輪模 擬。第一輪模擬的情情境是檢測的樣品獲得自懷有整倍體胎兒的孕婦。第二輪模擬的情境 是檢測的樣品獲得自懷有21三體性胎兒的孕婦。每輪模擬檢測了 5000個胎兒。A. RNA-SNP對于數(shù)字RNA-SNP,進行了 mr = 0. 1至mr = 2. 0的384孔實驗的模擬。在每個mr 值,我們模擬了檢測5000個整倍體胎兒和5000個21三體性胎兒的情境。使用對給定的m, 合適的SPRT曲線來分類所述10,000個胎兒。圖10是本發(fā)明實施方案的表1000,該表1000 表示正確或錯誤地分類為整倍體或非整倍體的胎兒,以及對于給定的信息計數(shù)不可分類的 胎兒的百分比。對于0.5至2.0的%,診斷整倍體和非整倍體情況的準確度都是100%。當 mr = 0. 1時,384孔分析后,只有57%的整倍體胎兒和88%的21三體性胎兒能夠被準確地 分類。按下述步驟生成模擬數(shù)據(jù)在步驟1中,對每個孔,利用SAS程序的隨機(泊松)函數(shù)(驟w. sas. com/ technoloRies/analytics/statistics/index. html)生成兩個隨機數(shù)來分別表示 A 等位基 因和G等位基因。該隨機(泊松)函數(shù)將生成從0開始的正整數(shù)(8卩,0、1、2、3...),對于 表示每孔的等位基因的平均濃度的給定的平均值,生成每個整數(shù)的概率取決于這個數(shù)根據(jù) 泊松概率密度函數(shù)的概率。如果表示A等位基因的隨機數(shù)大于0,則孔被視為對A等位基因 是陽性的,即含有A等位基因的一個或多個分子。類似地,如果表示G等位基因的隨機數(shù)大 于0,則孔被視為對G等位基因是陽性的。為了模擬懷有整倍體胎兒的孕婦的情境,使用相同的平均值來生成對于A等位基
24因和G等位基因的隨機數(shù)。例如,在模擬πν = 0. 5的數(shù)字RNA-SNP分析的分析中,將對于 A等位基因或G等位基因的平均值相同地設為0.5,這表示任何一個等位基因的平均濃度是 每孔0. 5個分子。利用泊松方程式,在0. 5的平均濃度下,對A等位基因或G等位基因是陽 性的孔的比例將是相同的,并且是0. 3935,參見表600。當模擬& = 0. 5的懷有21三體性胎兒的孕婦的數(shù)字RNA-SNP分析時,預期每孔 的過度表現(xiàn)的等位基因的平均濃度將是參考等位基因的平均濃度即1的2倍。在這種情況 下,對過度表現(xiàn)的等位基因是陽性的孔的概率是0. 6321,參見表600。生成數(shù)字PCR孔的隨機數(shù)后,該孔能夠被分類為以下情況的一種a.對A等位基因和G等位基因都是陰性b.對A等位基因和G等位基因都是陽性c.對A等位基因是陽性,但是對G等位基因是陰性d.對G等位基因是陽性,但是對A等位基因是陰性在步驟2中,重復步驟1至生成了期望數(shù)目的孔,對當前的模擬是384個孔。計數(shù) 了只對A等位基因是陽性的孔的數(shù)目和只對G等位基因是陽性的孔的數(shù)目。將具有較少陽 性孔的等位基因視為參考等位基因,并且將具有較多陽性孔的等位基因視為潛在地過度表 現(xiàn)的等位基因。信息孔的數(shù)目是對任何一個等位基因是陽性,但是不對兩個等位基因都是 陽性的孔的總數(shù)。然后計算了含有潛在地過度表現(xiàn)的等位基因的信息孔的比例(Pr)。根據(jù) 本發(fā)明的實施方案,計算了接受無效假設或備選假設的相關SPRT曲線的上限和下限。在步驟3中,對懷有整倍體胎兒或21三體性胎兒的孕婦的兩種情境的每一種進行 了 5000個模擬。每個模擬能夠被視為從孕婦獲得的獨立生物樣品。在表1000中,正確分類 的整倍體個例指接受了無效假設的那些整倍體個例,而錯誤分類的整倍體例指接受了備選 假設的那些整倍體個例。類似地,接受備選假設的那些21三體性個例被視為正確的分類, 而接受無效假設的那些21三體性個例被視為錯誤的分類。對于兩個組,在模擬了預先指定 的總數(shù)的孔后,那些既沒有接受無效假設又沒有接受備選假設的個例被視為不可分類的。在步驟4中,對以0. 1的增量增加的0. 1至2. 0的m,,進行步驟1至步驟3。B. RCD圖11是本發(fā)明實施方案的表1100,該表1000顯示了對于從0. 1至2. 0的叫,純 (100%)胎兒DNA樣品的數(shù)字RCD分析的計算機模擬。隨著部分胎兒DNA濃度變小,過度 表現(xiàn)的染色體21的程度降低,因此需要用于準確的疾病分類的更多數(shù)目的信息孔。因此, 還對在m, = 0. 5時,384孔至7680孔的總孔數(shù)的50%、25%和10%的胎兒DNA濃度進行了 模擬。圖12是本發(fā)明實施方案的表1200,該表1200顯示了對于來自具有不同胎兒DNA 部分濃度的整倍體胎兒或21三體性胎兒的樣品的分類,在& = 0. 5時,數(shù)字RCD分析的準 確度的計算機模擬的結果。數(shù)字RCD的效能對于胎兒DNA部分濃度較高的個例更好。在胎 兒DNA濃度為25%并且PCR分析的總數(shù)為7680時,97%的整倍體和非整倍體個例都是可以 分類的,并且沒有錯誤的分類。剩下的3%個例在能夠實現(xiàn)分類前,需要進一步的分析。模擬數(shù)字RCD分析的過程類似于對數(shù)字RNA-SNP所述的那些過程。模擬的步驟如 下所述在步驟1中,在泊松概率密度函數(shù)下產生兩個隨機數(shù)來表示參考等位基因座,染
25色體1基因座和染色體21基因座。對于懷有整倍體胎兒的個體,染色體1基因座和染色體 21基因座的平均濃度是相同的。在一模擬分析中,使用了每個基因座每孔0. 5的平均模板 濃度。如表700所示,對于懷有21三體性胎兒的個體,這一模擬中的πν是0. 5,但是每孔的 染色體21基因座的平均濃度將取決于檢測樣品中部分胎兒DNA濃度。通過代表各自的基 因座的隨機數(shù)來確定參考基因座和/或染色體21基因座向孔的分布,所述隨機數(shù)是根據(jù)泊 松概率密度函數(shù),用每孔的基因座的合適的平均濃度產生的。在步驟2中,重復步驟1至生成了期望數(shù)目的孔,例如,384孔板實驗的384個孔。 計數(shù)了只對染色體1是陽性的孔的數(shù)目和只對染色體21是陽性的孔的數(shù)目。信息孔的總 數(shù)是對上述染色體任一條是陽性而不對兩條染色體都是陽性的孔的總數(shù)。然后計算了對染 色體21是陽性的信息孔的比例(P》。如上文關于SPRT分析的部分所述,計算了接受無效 假設或備選假設的相關SPRT曲線的上限和下限。在步驟3中,對懷有整倍體胎兒或21三體性胎兒的孕婦的兩種情境的每一種進行 了 5000個模擬。每個模擬能夠被視為從孕婦獲得的獨立生物樣品。在表1100中,正確分 類的整倍體個例指接受了無效假設的那些整倍體個例,而錯誤分類的整倍體個例指接受了 備選假設的那些整倍體個例。類似地,接受備選假設的那些21三體性個例被視為正確分類 的,而接受無效假設的那些21三體性個例被視為錯誤分類的。對于兩個組,在模擬了預先 指定的總數(shù)的孔后,那些既沒接受無效假設又沒接收備選假設的個例被視為不可分類的。在步驟4中,在384至7680的總孔數(shù)下,對10%、25%、50%和100%的胎兒DNA 的樣品重復步驟1至步驟3。II. 21三體性檢測的驗證A. PLAC4 的 RNA-SNP利用染色體21上的PLAC4基因的rs8130833 SNP來證明數(shù)字RNA-SNP的實際可 行性(Lo, YMD et al. 2007 Nat Med 13,218-223)。分析了來自兩個整倍體雜合胎盤和兩 個21三體性雜合胎盤的胎盤DNA和RNA樣品。用數(shù)字RNA-SNP方法來分析胎盤DNA樣品, 但是省略了逆轉錄步驟,因此基本上將該方法轉變成數(shù)字DNA-SNP分析。為了達到正確的 個例分類的可能性與信息孔的比例之間的平衡,我們將樣品稀釋旨在實現(xiàn)每孔一個任何類 型的等位基因,并且通過96孔數(shù)字PCR分析來證實。然后,進行384孔數(shù)字RNA-SNP實驗。 計算了 P,和m,,并將這個m,值的SPRT曲線用于數(shù)據(jù)解釋。圖13A顯示了按照本發(fā)明的實施方案,整倍體妊娠和21三體性妊娠的胎盤組織的 數(shù)字RNA-SNP分析的表1300。通過質譜測定來確定基因型。當實驗獲得的己低于不可分 類的區(qū)域時,指定為“整倍體”;當實驗獲得的已高于不可分類的區(qū)域時,指定為表示21三 體性的“T21”。T21即21三體性。通過一個384孔實驗,既利用DNA樣品又利用RNA樣品 正確地分類了這些個例每一個。我們還檢測了來自9個懷有整倍體胎兒的婦女和4個懷有21三體性胎兒的婦女 的血漿RNA樣品。圖13B顯示了按照本發(fā)明的實施方案,來自整倍體妊娠和21三體性妊 娠的母體血漿的數(shù)字RNA-SNP分析的表1350。正確分類了全部個例。一個21三體性實例 (M2272P)在一個384孔實驗后,的初始結果落在SPRT曲線之間的不可分類區(qū)域中。因此, 進行了另外的384孔實驗。從總共768個孔匯集的數(shù)據(jù)計算了新的m,和P,值,并且使用基 于這個m,值選擇的新的一組SPRT曲線進行了分類。然后,該個例被正確地評分為非整倍體。我們的實驗和模擬數(shù)據(jù)表明數(shù)字RNA-SNP對21三體性檢測是有效且準確的方法。 由于母體血漿中的PLAC4 mRNA全部源自胎兒,所以對于13個檢測的母體血漿樣品中的12 個,正確的分類只要求一個384孔數(shù)字PCR實驗。因此,這種均一的基于實時數(shù)字PCR的方 法提供了用于RNA-SNP分析的基于質譜的方法的替代選擇。除了胎盤特異性mRNA轉錄物 以外,我們還預測母體血漿中的其它類型的胎兒特異性核酸種類能夠用于胎兒染色體非整 倍性的基于數(shù)字PCR的檢測。一個實例是胎兒外遺傳標記物,其最近被用于利用外遺傳等 位基因比率(EAR)方法的18三體性的無創(chuàng)產前檢測(Tong YK et al. 2006 ClinChern, 52, 2194-2202)。因此,我們預測數(shù)字EAR將是可能的分析技術。B. RCD還利用靶向染色體21和染色體1上的種內同源序列的PCR測定來研究用于檢測 21三體性的數(shù)字RCD的實際可行性。作為示例,本文使用了種內同源基因座(paralogous loci)。染色體21和其它參考染色體上的非種內同源序列也能夠用于RCD。將來自兩個整 倍體胎盤和兩個21三體性胎盤的胎盤DNA樣品稀釋至約每孔來自任何一條染色體的一個 靶模板,并且通過96孔數(shù)字PCR分析來證實。通過384孔數(shù)字RCD實驗來分析每個證實的 樣品,并且計算了己和叫的值。對于數(shù)字RCD,染色體1種內同源基因(paralog)是參考 模板。將這個m,值用于選擇解釋數(shù)據(jù)的一組對應的SPRT曲線。如圖14A所示,正確地分 類了全部胎盤樣品。為了證明數(shù)字RCD方法能夠用于檢測與過量的整倍體DNA混合的21三體性DNA, 例如母體血漿中的胎兒DNA的情境,在整倍體母體血液細胞DNA的背景下,分析了含有50% 和25%的21三體性胎盤DNA的混合物。將來自10個21三體性個例和10個整倍體個例的 胎盤DNA分別與等量的整倍體母體血液細胞DNA混合,從而獲得20個50%的DNA混合物。 圖14B顯示按照本發(fā)明的實施方案,示出50%胎兒DNA混合物的RCD分析的SPRT解釋的圖 1440。類似地,將來自5個21三體性個例和5個整倍體個例的胎盤DNA分別與超出3倍的 整倍體母體血液細胞DNA混合,從而獲得10個25%的DNA混合物。圖14C顯示了示出25% 胎兒DNA混合物的RCD分析的SPRT解釋的圖1470。如圖14B和14C所示,正確地分類了全 部的整倍體和非整倍體DNA混合物。如圖14B和14C所表示的,多個384孔數(shù)字PCR分析后,每個樣品達到了可以分類 的點。50%的DNA混合物所要求的384孔板的數(shù)目是1至5。25%的DNA混合物所要求的 384孔板的數(shù)目是1至7。通過如表1200所示的計算機模擬,預測了隨每個384數(shù)字PCR 分析的增加,正確分類的個例的累積比例。III.數(shù)字 PCR 方法A.數(shù)字 RNA-SNP首先使用ThermoScript逆轉錄酶(Invitrogen),利用基因特異性的逆轉錄引 物,將全部RNA樣品進行逆轉錄。逆轉錄引物的序列是5’ -AGTATATAGAACCATGTTTAGGCCAG A-3,(Integrated DNATechnologies, Coralville, ΙΑ)。用于數(shù)字 RNA-SNP 的逆轉錄 RNA 樣品(即,cDNA)隨后的處理與DNA樣品(例如,胎盤DNA)基本上相同。在數(shù)字PCR分 析前,首先利用針對PLAC4的實時PCR測定,將DNA樣品和cDNA樣品定量,該測定由引物 5,-CCGCTAGGGTGTCTTTTAAGC-3,、5,-GTGTTGCAATACAAAATGAGTTTCT-3,和熒光探針 5,- (FAM)
27ATTGGAGCAAATTC(MGBNFQ)-3,(Applied Biosystems, Foster City, CA)組成,其中 FAM 是 6-羧基熒光素并且MGBNFQ是小溝結合非熒光猝滅劑。通過指定擴增子的HPLC純化的單鏈合成的DNA寡核苷酸(Proligo,Singapore) 的連續(xù)稀釋來制備校準曲線。序列是 5 ’ -CGCCGCTAGGGTGTCTTTTAAGCTATTGGAGCAAATTCAAATT TGGCTTAAAGAAMAGMACTCATTTTGTATTGCAACACCAGGAGTATCCCAAGGGACTCG-3,。使用 2X TaqMan Universal PCR MasterMix (Applied Biosystems)β ^,β Φ Κ^ 25 μ L。
應中使用400nM的每種引物和80nM的探針。在50°C下開始反應持續(xù)2min,然后95°C、IOmin 以及95°C、15s與60°C、lmin的45個循環(huán),在ABI PRISM 7900HT序列檢測系統(tǒng)(Applied Biosystems)中進行上述反應。然后將DNA或cDNA樣品進行連續(xù)稀釋,從而隨后的數(shù)字 PCR擴增能夠在約每孔1個模板分子下進行。在這種濃度下,預期約37%的反應孔將表現(xiàn) 出陰性擴增,并且首先通過進行96孔數(shù)字實時PCR分析來證實。然后使用一組非內含子跨 越引物(non-intron spanningprimer)在384孔板中進行數(shù)字RNA-SNP分析正向引物是 5’ -TTTGTATTGCAACACCATTTGG-3’,基因特異性逆轉錄引物如上文所述。設計了靶向PLAC4序列上的rs8130833SNP的兩個等位基因的每一個的兩個等 位基因特異性TaqMan探針。它們對于G等位基因和A等位基因的序列分別是5’ -(FAM) TCGTCGTCTAACTTG(MGBNFQ)-3,和 5, -(VIC)ATTCGTCATCTAACTTG(MGBNFQ)。使用 2X TaqManUniversal PCR Master Mix (Applied Biosystems)進行反應,反應體積為 5 μ L0 每 個反應含有IX TaqMan Universal PCR Master Mix、572nM的每種引物、107nM的等位基 因-G-特異性探針和357nM等位基因-A-特異性探針。在ABI PRISM 7900ΗΤ序列檢測系統(tǒng) 中進行反應。在50°C下開始反應持續(xù)2min,然后95°C、10min以及95°C、15s與57°C、Imin 的45個循環(huán)。在反應期間,通過SDS 2. 2. 2軟件(AppliedBiosystems)的“絕對定量”應 用來收集熒光數(shù)據(jù)。該軟件自動地計算基線和閥值。記錄了對A等位基因或G等位基因是 陽性的孔的數(shù)目,并對其進行SPRT分析。B.數(shù)字RCD分析首先通過 NanoDrop 分光光度計(NanoDrop Technology,Wilmington,DE),將在本 研究中所用的全部胎盤和母體血沉棕黃色層DNA樣品進行定量。利用6. 6pg/細胞的換算, 將DNA濃度轉換成拷貝/ μ L。通過將DNA樣品連續(xù)稀釋來確定對應于約每孔一個模板的 DNA的量,并通過96孔格式的實時PCR測定來證實,其中我們預期約37%的孔表現(xiàn)出陰性 擴增。除了只添加了參考染色體的探針以外,確認板(confirmatory plate)的PCR設置和 下文所述的相同。在數(shù)字R⑶分析中,首先通過正向引物5’-GTTGTTCTGCAAAAAACCTTCGA-3, 和反向引物5,-CTTGGCCAGAAATACTTCATTACCATAT-3,,將染色體21和染色體1上的種 內同源基因座(Deutsch,S. et al. 2004 J MedGenet 41,908-915)進行共擴增。設 計了兩個染色體特異性TaqMan探針來靶向染色體21和染色體1種內同源基因,并 且它們的序列分別是 5 ‘,- (FAM) TACCTCCATAATGAGTAAA (MGBNFQ)-3,和 5,-(VIC) CGTACCTCTGTAATGTGTAA(MGBNFQ)-3,。每個反應含有 IX TaqMan Universal PCR Master Mix、450nM的每種引物和125nM的每種探針??偡磻w積是5 μ L/孔。在50°C下開始反 應持續(xù) 2min,然后 95°C、10min 以及 95°C、15s 與 60°C、lmin 的 50 個循環(huán)。在 ABI PRISM 7900HT序列檢測系統(tǒng)(Applied Biosystems)中進行全部實時PCR實驗,并通過SDS 2.2.2 軟件(Applied Biosystems)的“絕對定量”應用來收集熒光數(shù)據(jù)。使用了默認的基線和手
28動閥值(marumlthreshold)。記錄了對染色體21或染色體1是陽性的孔的數(shù)目,并對其進 行SPRT分析。將分析一個或多個384孔板直至疾病通過SPRT進行分類是可能的。IV.使用基于微流體的數(shù)字PCRA.數(shù)字 RNA-SNP本實施例證明了使用基于微流體的數(shù)字PCR的數(shù)字PCR分析的性能。本文示例了 這種方法的一個變體,為了示例而不是為了限制,使用Fluidigm BioMark 系統(tǒng)。這個系統(tǒng) 每個運行能夠進行超過9000個數(shù)字PCR。從懷有整倍體胎兒或21三體性胎兒的孕婦獲得胎盤組織樣品和母體外周血液樣 品。通過引物延伸及隨后的質譜來進行胎盤DNA樣品中的PLAC4基因上的rs8130833SNP 的基因型分型。從胎盤樣品和母體血漿樣品中提取RNA。使用ThermoScript逆轉錄酶(Invitrogen),利用基因特異性逆轉錄引物(5’_AGT ATATAGAACCATGTTTAGGCCAGA-3,),將全部RNA樣品逆轉錄。對胎盤cDNA樣品,進行連續(xù)稀 釋,從而隨后的數(shù)字PCR擴增能夠在約每孔一個模板分子下進行。在具有12. 765 數(shù)字陣列(Fluidigm)的 BioMark System (Fluidigm)上進行數(shù) 字PCR。每個數(shù)字陣列由用于容納12個樣品-測定混合物的12個板組成。每個板還分成 進行7nL反應/孔的765個孔。通過正向引物(5’ -TTTGTATTGCAACACCATTTGG-3’ )和上 文所述的基因特異性逆轉錄引物來擴增PLAC4基因上的rs8130833SNP區(qū)域。設計了靶向 rs8130833SNP的兩個等位基因的每一個的兩個等位基因特異性TaqMan探針。它們對G等 位基因和A等位基因的序列分別是5,-(FAM) TCGTCGTCTAACTTG(MGBNFQ)-3,和5,-(VIC) ATTCGTCATCTAACTTG (MGBNFQ)-3,。利用 2X TaqManUniversal PCR Master Mix 來進行一個 陣列板的反應,反應體積為10 μ L。每個反應含有IX TaqMan Universal PCR Master Mix、 572nM的每種引物、53. 5nM的等位基因-G-特異性探針、178. 5nM的等位基因-A-特異性探 針和3. 5 μ L的cDNA樣品。對每個胎盤cDNA樣品使用一個反應板,而對每個母體血漿樣品 使用12個板。通過NanoFlex IFC控制器(Fluidigm),將樣品-測定混合物加載至數(shù)字 陣列中。在BioMark 系統(tǒng)中進行反應。在50°C下開始反應持續(xù)2min,然后95°C、IOmin以 及 95°C、15s 與 57°C、lmin 的 40 個循環(huán)。在765孔反應板中分析來自一個整倍體雜合胎盤和兩個T21雜合胎盤的胎盤RNA 樣品。對于每個樣品,計數(shù)了包括對A等位基因或G等位基因是陽性(但是不對這兩個等 位基因都是陽性)的孔的信息孔的數(shù)目。確定了在全部信息孔中過度表現(xiàn)的等位基因的比 例(P,)。應用對這些運行的每孔確切的平均參考模板濃度(m,)合適的SPRT曲線來確定實 驗獲得的已是否表示了整倍體樣品或T21樣品。如圖15A所示,利用這種方法,正確地分 類了全部RNA樣品。我們還檢測了來自4個懷有整倍體胎兒的婦女和1個懷有21三體性胎兒的婦女 的血漿RNA樣品。在12個765孔反應板中分析每個樣品,即每個血漿RNA樣品9180個反 應。圖15B表示這個血漿RNA樣品的12個板的每一個的信息孔的數(shù)目。如該表中所示,血 漿樣品中的模板濃度被稀釋至任一反應板中的信息孔的數(shù)目不足以進行SPRT分類。在將 樣品分類為整倍體樣品前,必須將來自三個反應板的信息孔合并(圖15C)。圖15C表明,利 用從2至12個板匯集的數(shù)據(jù),全部血漿個例能夠被正確地分類。與進行數(shù)字PCR的手動方法相比,這種基于微流體的方法快的多,并且勞動強度小得多。能夠在2個半小時內完成全部過程。
B.用于18三體性產前檢測的數(shù)字RNA-SNP在本實施例中,我們在染色體18上的胎盤表達的轉錄物,即絲氨酸蛋白酶抑制 劑肽酶抑制劑進化枝(Clade)B(卵清蛋白)成員2 (SERPINB2)mRNA上進行基于數(shù)字PCR 的等位基因鑒別測定,來檢測18三體性胎兒的多態(tài)性等位基因比率的失衡。如生產商的 說明書所述,分別使用 QIAamp DNA Mini 試劑盒(Qiagen,Hilden,Germany)和 TRIzol 試 劑(Invitrogen,Carlsbad, CA)從胎盤組織樣品中提取DNA和RNA。提取的胎盤RNA樣品 進行DNase I (Invitrogen)處理以除去污染的基因組DNA。如上文所述,利用MassARRAY Compact (Sequenom, San Diego),使用同類 MassEXTEND (hME)測定(homogenousMassEXTEND assay),在胎盤組織DNA樣品中進行SERPINB2基因上的rs6098SNP的基因型分型。使用基因特異性引物5,-CGCAGACTTCTCACCAAACA-3,(Integrated DNA Technologies, Coralville, IA),利用 ThermoScript 逆轉錄酶(Invitrogen),在胎盤組織 RNA樣品上進行SERPINB2轉錄物的逆轉錄。全部cDNA樣品稀釋的濃度使得隨后的數(shù)字 PCR擴增能夠在每個反應孔一個模板分子的平均濃度下進行。使用TaqMan Universal PCR Master Mix(AppliedBiosystems, Foster City, CA)禾口 BiomarkTM PCRi式劑(Fluidigm, SanFrancisco)進行數(shù)字 PCR。所用的正向引物 5,-CTCAGCTCTGCAATCAATGC-3,(Integra ted DNA Technologies)和反向引物(與用于逆轉錄的基因特異性引物相同)的濃度是 600nM。靶向SERPINB2序列上的rs6098SNP的A等位基因或G等位基因的兩個TaqMan探 針是 5,- (FAM) CCACAGGGAATTATTT (MGBNFQ) -3,和 5,- (FAM) CCACAGGGGATTATTT (MGBNFQ) -3 ’ (AppliedBiosystems)。FAM是6_羧基熒光素,MGBNFQ是小溝結合非熒光猝滅劑,并且FAM 和MGBNFQ的使用濃度分別是300nM和500nM。利用NanoflexTM IFC控制器(Fluidigm), 將每個樣品_試劑混合物分配至BiomarkTM 12. 765數(shù)字陣列上的765個反應孔。分配后, 將該陣列置于BiomarkTM實時PCR系統(tǒng)(Fluidigm)中進行熱擴增和熒光檢測。在50°C下 開始反應持續(xù)2min,在95°C下繼續(xù)5min,然后進行95°C、15sec與59°C、Imin的45個循環(huán)。 擴增后,計數(shù)信息孔的數(shù)目(只對A等位基因或G等位基因是陽性的孔)和對兩個等位基 因都是陽性的孔的數(shù)目,并對它們進行序貫概率比檢驗(SPRT)分析。對于雜合的整倍體胎兒,A等位基因和G等位基因應當在胎兒基因組中相等地表 現(xiàn)(1 1),而對于18三體性,將有一個等位基因的額外拷貝,從而在胎兒基因組中表現(xiàn)出 2 1的比率。對不同樣品的解釋產生一系列SPRT曲線。這些曲線示出了對于分類所需的 給定的信息孔總數(shù)(χ軸),對過度表現(xiàn)的等位基因是陽性的信息孔的預期比例& (y軸)。 對于每個樣品,將實驗導出的已與預期的已值進行比較。將高于上部曲線的樣品分類為18 三體性,而將低于底部曲線的樣品分類為整倍體。兩個曲線之間的面積是不可分類的區(qū)域。通過利用SERPINB2基因上的rs6098 SNP來證明用于檢測胎兒18三體性的數(shù)字 RNA-SNP分析的可行性。首先通過質譜對來自具有整倍體胎兒和18三體性胎兒的個體的胎 盤組織DNA樣品進行基因型分型,以鑒定雜合個例。發(fā)現(xiàn)了 9個整倍體雜合胎盤和3個18 三體性雜合胎盤,并對它們進行數(shù)字RNA-SNP分析。對于每個樣品,計算了 P,和m,,并且將 這個m,值的SPRT曲線用于疾病分類。如圖16A所示,正確地分類了全部樣品。18三體性 胎盤的&值高于不可分類的區(qū)域,而整倍體胎盤的已值則低于這個區(qū)域。具有基于叫=0. 1,0. 2和0. 3的SPRT曲線的樣品示于圖16B中。這些數(shù)據(jù)表明
30數(shù)字RNA-SNP方法對18三體性妊娠是有價值的診斷工具。兩個曲線描繪出不可分類區(qū)域 的界限。將數(shù)據(jù)點高于上部曲線的樣品分類為非整倍體,而將數(shù)據(jù)點低于底部曲線的樣品 分類為整倍體。C.數(shù)字RCD分析本實施例證明了利用基于微流體的數(shù)字PCR的數(shù)字RCD分析的效能。作為示例但 不作為限制,利用Fluidigm BioMark 系統(tǒng),在此處示例了這種方法的一個變體。這種系統(tǒng) 的每個運行能進行超過9000個數(shù)字PCR。從懷有整倍體胎兒或21三體性(T21)胎兒的孕婦獲得胎盤組織、母體血液細胞和 羊水樣品。將來個10個T21個例和10個整倍體個例的胎盤DNA分別與等量的整倍體母體 血液細胞DNA混合,從而獲得20個50%的DNA混合物。為了保證該混合物樣品中準確的胎 兒比例,首先通過260nm下的光密度(OD)測量來定量提取的DNA。然后利用12. 765數(shù)字陣 列(Fluidigm),通過BioMark 系統(tǒng)(Fluidigm)來數(shù)字地定量該提取的DNA。除了只使用 參考染色體的探針以外,用于定量樣品的測定與下文所述的相同。通過數(shù)字PCR對相對于位于染色體1的基因座的非多態(tài)性染色體21基因 座進行分析來測定50%的DNA混合物和羊水樣品中的染色體劑量。首先通過正向 引物 5, -GTTGTTCTGCAAAAAACCTTCGA-3,和反向弓丨物 5, -CTTGGCCAGAAATACTTCATTACC ATAT-3’來共擴增染色體21和染色體1上的一對種內同源基因座的101-bp的擴增 子。設計了兩個染色體特異性TaqMan探針來區(qū)分染色體21和染色體1的種內同源 基因,且探針的序列分別是 5,- (FAM) TACCTCCATAATGAGTAAA (MGBNFQ) -3,和 5,- (VIC) CGTACCTCTGTAATGTGTAA (MGBNFQ)-3,。僅作為示例在此處使用種內同源基因座。換言之,非 種內同源基因座也能夠用于這種分析。為了證明數(shù)字RCD方法用于檢測18三體性(T18)的,設計了靶向 染色體21和染色體18上的種內同源序列的另一測定。首先通過正向引物 5,-GTACAGAAACCACAAACTGATCGG-3,和反向引物 5,-GTCCAGGCTGTGGGCCT-3,來共擴增染 色體21和染色體18上的種內同源基因座的128-bp的擴增子。設計了兩個染色體特異性 TaqMan探針來區(qū)分染色體21和染色體18的種內同源基因,且探針的序列分別是5’-(FAM) AAGAGGCGAGGCAA (MGBNFQ) -3,和 5,- (VIC) AAGAGGACAGGCAAC (MGBNFQ) -3,。僅作為示例在此 處使用種內同源基因座。換言之,非種內同源基因座也能夠用于這種分析。利用12. 765數(shù)字陣列(Fluidigm),在BioMark 系統(tǒng)(Fluidigm)上進行全部實 驗。禾Ij用 2X TaqMan Universal PCR Master Mix(AppliedBiosystems)在 10 μ L 的反應體 積下進行一個板的反應。每個反應含有IX TaqMan Universal PCR Master Mix、900nM的每 種引物、125nM的每種探針和3. 5 μ L的50%胎盤/母體血液細胞DNA樣品。通過NanoFlex IFC控制器(Fluidigm)將樣品/測定混合物加載至數(shù)字陣列。在50°C下開始反應持續(xù) 2min,然后 95°C、IOmin 以及 95°C、15s 和 57°C、lmin 的 40 個循環(huán)。通過染色體21/染色體1 (chr21/chrl)測定,在數(shù)字陣列上分析整倍體和T2150% 胎盤/母體血液細胞DNA樣品。對于每個樣品,計數(shù)了包括只對染色體21標記物或染色體 1標記物是陽性(但不對這兩個標記物都是陽性)的孔的信息孔的數(shù)目。確定了在全部信 息孔中過度表現(xiàn)的標記物的比例(P》。將對任一數(shù)字PCR板的每孔的確切平均參考模板濃 度(m,)合適的SPRT曲線用于確定實驗獲得的P,是否表示整倍體樣品或T21樣品。對尚未分類的樣品,從額外的板匯集數(shù)據(jù)直至能夠做出判定。如圖17所示,利用這種方法和所需 的1個到4個板的數(shù)據(jù),正確地分類了全部50%胎盤/母體血液細胞DNA樣品。如圖18所 示,還將SPRT曲線作圖來顯示用于正確分類的判定邊界(decisionboundaries)。我們還將RCD分析應用于從23個懷有整倍體胎兒的婦女和6個懷有T21胎兒的 婦女獲得的羊水樣品。使用染色體21/染色體1測定,在單個765孔反應板中分析了每個 樣品。圖19顯示了 SPRT分類的匯總。如圖19所示,正確地分類了全部29個樣品。因 此,數(shù)字RCD方法是在諸如羊水和絨毛膜絨毛活組織檢查的用于產前診斷的多種樣品類型 中,禾lJfflitHlMt示i己· (Levett LJ, et al. A large-scale evaluation ofamnio-PCR for the rapid prenatal diagnosis of fetal trisomy (用于胎兒三體性快速產前診斷的羊 膜PCR的大規(guī)模評價).Ultrasound ObstetGynecol 2001;17:115-8)或單核苷酸多態(tài)性 (SNP)(Tsui NB,et al. Detection of 21 trisomy by quantitative mass spectrometric analysis ofsingle-nucleotide polymorphisms ( Mjt^M^M^^'li^ij^mJ^lm7MRW 測 21 三體性).Clin Chem 2005 ;51 :2358_62)標記物或實時非數(shù)字 PCR(Zimmermann B,et al. Novel realtime quantitative PCR test for 21trisomy (21 三體性的新實時定量PCR 檢測)· Clin Chem 2002 ;48 :362_3)檢測三體性的替代方法。
在檢測T18個例的嘗試中,我們將染色體21/染色體18 (chr21/chrl8)測定應用 于3個整倍體胎盤DNA樣品和5個T18胎盤DNA樣品。計算了全部信息孔中過度表現(xiàn)的標 記物的比例(P》。除了一個T18個例被錯誤地分類為整倍體以外,正確地分類了全部樣品。 結果匯總于圖20中。V.在ilH普平臺卜.#用多重數(shù)字RCDlI除每單位體積的母體血漿存在的血漿DNA分子的數(shù)目是有限的(LoYMD. et al. 1998 Am J Hum Genet 62,768-7758)。例如,在早期妊娠中,常染色體基因座,S卩β-球蛋白基因 的母體血漿濃度中位數(shù)被證實是986個拷貝/mL,這既有來自胎兒的貢獻又有來自母親的 貢獻(LoYMD. et al. 1998 Am J Hum Genet 62,768-7758)。為 了捕獲 7,680 個分子,需要從 約SmL母體血漿提取的DNA??梢詮募s15mL母體血液獲得的這個體積的血漿是常規(guī)實踐的 極限。然而,我們預測對于數(shù)字RCD分析,可以組合多組染色體21和參考染色體靶標。對于 5對染色體21和參考染色體靶標,只需要1. 6mL的母體血漿來提供分析所需的模板分子的 數(shù)目。能夠進行多重單分子PCR。以前已經證明了這種多重單分子分析對于單分子單體型 分析的穩(wěn)健度(Ding,C. andCantor,CR. 2003 Proc Natl Acad Sci USA 100,7449-7453)。在一實施例中,從懷有整倍體胎兒或21三體性(T21)胎兒的孕婦獲得胎盤組織和 母體血液細胞樣品。將5個整倍體胎盤DNA樣品和5個T21胎盤DNA樣品分別與等比例的 母體血液細胞DNA混合,以獲得10個模擬50%胎兒DNA的血漿樣品的DNA混合物。為了保 證混合物樣品中準確的胎兒比例,首先通過260nm下的光密度(OD)測量來定量提取的DNA。 然后通過384孔格式的實時PCR對提取的DNA進行數(shù)字定量。用于定量樣品的測定與上文 的數(shù)字RCD分析的實施例中所述的相同。通過相對于位于染色體1上的基因座的非多態(tài)性染色體21基因座的數(shù)字PCR分 析來確定50%的混合物中的染色體劑量。這種方法被稱為數(shù)字相對染色體劑量(Digital Relative Chromosome Dosage, RCD)分析。通過正向引物 5,-ACGTTGGATGGTTGTTCTGCAAA AAACCTTCGA-3,和反向引物 5,-ACGTTGGATGCTTGGCCAGAAATACTTCATTACCATAT-3,來共擴增
32染色體21和染色體1上的一對種內同源基因座的121-bp的擴增子(包括每種引物上的 10-mer)。設計了靶向染色體21和染色體1之間的堿基差異的延伸引物,該延伸引物的序 列是 5’ -CTCATCCTCACTTCGTACCTC-3,。為了證明多重數(shù)字PCR測定檢測T21個例的用途,設計了靶向染色體21和染色 體18上的種內同源序列的另一數(shù)字R⑶測定。通過正向引物5’ -ACGTTGGATGGTACAGAAAC CACAAACTGATCGG-3,和反向引物 5,-ACGTTGGATGGTCCAGGCTGTGGGCCT-3,來共擴增染色體 21和染色體18上的種內同源基因座的148-bp的擴增子(包括每種引物上的10-mer)。 設計了靶向染色體21和染色體18之間的堿基差異的延伸引物,該延伸引物的序列是 5, -ACAAAAGGGGGAAGAGG-3,。利用延伸引物方案來進行多重數(shù)字RCD分析。利用GeneAmpPCR Core試劑盒 (Applied Biosystems)來進行PCR反應,并且反應體積為5 μ L。每個反應含有IX Buffer II、2mM 的 MgCl2、200yM 的 dNTP 混合物、0. 2U 的 AmpliTaq Gold、4 種引物各 200nM 以及 50% DNA混合物。將測定/樣品混合物分配至384孔PCR板,在50°C下開始反應持續(xù)2min, 然后95°C進行IOmin以及進行95°C、15s和57°C、lmin的40個循環(huán)。將PCR產物用蝦堿性磷酸酶(SAP)處理以除去未并入的dNTP。將該混合物在37°C 下孵育40min,然后在85°C下孵育5min。然后進行引物延伸反應。簡而言之,向SAP處理的 PCR產物中添加771nm來自染色體21/染色體1測定的延伸引物、1. 54 μ M來自染色體21/ 染色體18測定的延伸引物、0. 67U熱測序酶(Thermosequenase) (Sequenom)以及延伸混合 物(extension cocktail)中的 ddCTP、ddGTP、dATP 和 dTTP 各 64 μ Μ。反應條件是 94°C、 2min,然后94°C、5s,50°C、5s以及72°C、5s進行80個循環(huán)。向該延伸產物中添加16 μ L水 和3mg純凈樹脂(Clean Resin) (Sequenom)來進行最后的清理。將該混合物在旋轉器中混 合20min至30min,然后在361g下離心5min。通過MassARRAY納米分配器(Nanodispenser) S (Sequenom)將 15nL 至 25nL 終產物分配至 SpectroCHIP 中。在 MassARRAY Analyzer 緊 湊型質譜儀(MassARRAY Analyzer Compact Mass Spectrometer) (Sequenom)進行來自 SpectroCHIP的數(shù)據(jù)獲取。將質譜數(shù)據(jù)輸入MassARRAYTyper (Sequenom)軟件進行分析。用雙重RCD測定來分析5個整倍體和5個T2150%胎盤/母體DNA樣品。對于每 個樣品,計數(shù)了來自單獨測定的信息孔的數(shù)目,該信息孔包括只對染色體21標記物或染色 體1標記物或染色體18標記物是陽性的孔。對每個RCD測定,單獨計算了全部信息孔中染 色體21標記物的比例(P,)。然后應用序貫概率比檢驗(SPRT)來確定該P,是否表示整倍 體樣品或Τ21樣品。通過進行這個步驟,由于將每個板計數(shù)了兩次,所以減少了所需的孔的 數(shù)目。通常首先應用染色體21/染色體1測定。如果樣品尚未分類,則加入來自染色體 21/染色體18測定的值來進行進一步的計算。,對尚未分類的樣品使用額外的板直至能夠 進行判定。如圖21所示,利用單個384孔板正確地分類了全部整倍體50%混合物樣品。某 些Τ21個例需要2個或更多個板來進行正確的分類。如果只使用一個測定,則需要更多數(shù) 目的板來獲得實現(xiàn)分類所要求的信息孔的數(shù)目。例如,當只使用任何一個RCR測定時,個例 Ν0230的數(shù)據(jù)是不可分類的。然而,當合并來自兩個測定的數(shù)據(jù)時,實現(xiàn)了正確的分類。如 果不使用二重RCD測定,則需要額外板的分析。我們預期更高水平的多重測定將進一步減 少孔的數(shù)目。
33
在另一實施例中,我們開發(fā)了靶向染色體21上的4個不同擴增子以及和它們位于 其它非染色體21的常染色體上的對應種內同源伴侶的4重(4-plex)測定。在數(shù)字RCD分 析中使用這種4重測定,然后進行來自整倍體妊娠和21三體性妊娠的樣品的SPRT分類。利 用QIAamp組織試劑盒(Qiagen,Hilden,Germany)從胎盤樣品提取DNA。首先通過NanoDrop 分光光度計(NanoDrop Technology, Wilmington, DE)來定量 本研究中所用的全部胎盤和母體血沉棕黃色層DNA樣品。利用6. 6pg/細胞的換算將DNA 濃度轉換成基因組當量(GE)/μ L。通過將DNA樣品連續(xù)稀釋來確定對應于約每孔一個模 板的DNA的量。在這種條件下,我們預期約37%的孔將表現(xiàn)出陰性擴增。在多重數(shù)字RCD 分析中,選擇了 4組種內同源序列靶標通過正向引物5’ -ACGTTGGATGTTGATGAAGTCTCATC TCTACTTCG-3,和反向引物 5,-ACGTTGGATGCAATAAGCTTGGCCAGAAATACT-3,來共擴增染色體 21和染色體1上的種內同源基因座,從而獲得Slbp的擴增子。通過正向引物5’ -ACGTTG GATGGAATTTAAGCTAAATCAGCCTGAACTG-3,和反向引物 5,-ACGTTGGATGGTTTCTCATAGTTCATCGT AGGCTTAT-3’來共擴增染色體21和染色體7上的種內同源基因座,從而獲得82bp的擴增 子。通過正向引物 5,-ACGTTGGATGTCAGGCAGGGTTCTATGCAG-3,和反向引物 5,-ACGTTGGATG AGGCGGCTTCCTGGCTCTTG-3’來共擴增染色體21和染色體2上的種內同源基因座,從而獲得 IOlbp的擴增子。通過正向引物5,-ACGTTGGATGGCTCGTCTCAGGCTCGTAGTT-3,和反向引物 5,-ACGTTGGATGTTTCTTCGAGCCCTTCTTGG-3,來共擴增染色體21和染色體6上的種內同源 基因座,從而獲得102bp的擴增子。每個反應含有IOX緩沖液II (Applied Biosystems)、 MgCl2和IOOnM的每種引物??偡磻w積是5 μ L/孔。在95°C下開始反應持續(xù)5min,然后 95°C、30sec,62°C、30sec和72°C、30sec進行45個循環(huán),最后在72°C下最終延伸7min。在 GeneAmp PCR系統(tǒng)9700 (AppliedBiosystems)上進行全部常規(guī)PCR擴增。通過蝦堿性磷 酸酶(SAP)處理來滅活未被并入的核苷酸。每個反應含有IOX SAP緩沖液(Sequenom)和 SAP酶(Sequenom)。向每一 PCR中添加2 μ L的SAP混合物。將該SAP反應在37°C下孵 育40min,以及在85°C下孵育5min。SAP處理后,利用iPLEX Gold試劑盒(Sequenom)在 PCR產物上進行引物延伸反應。通過延伸引物5,-GTCTCATCTCTACTTCGTACCTC-3,來詢問 染色體21和染色體1上的種內同源基因座上的種內同源序列錯配(PSM)。通過延伸引物 5’ -TTTTACGCTGTCCCCATTT-3’來詢問染色體21和染色體7上的種內同源基因座上的PSM。 通過延伸引物5’ -GGTCTATGCAGGAGCCGAC-3’來詢問染色體21和染色體2上的種內同源基 因座上的PSM。通過延伸引物5,-TGGGCGCGGGAGCGGACTTCGCTGG-3,來詢問染色體21和染色 體6上的種內同源基因座上的PSM。除了用于染色體21和染色體6上的PSM的延伸引物是 1. 03 μ M以外,每個反應含有IOX iPLEX緩沖液(Sequenom)、iPLEX終止混合物(Sequenom)、 iPLEX酶(Sequenom)和343nM的每種延伸引物。向5 μ L的PCR產物中添加2 μ L的iPLEX 混合物。根據(jù)200-短-循環(huán)程序來循環(huán)iPLEX反應。簡而言之,將樣品首先在94°C下變性 35sec,然后在52°C下退火5sec,并在80°C下延伸5sec。將退火和延伸循環(huán)再重復4次,總 共5個循環(huán),然后返回94°C的變性步驟保持5sec,然后再進行5個循環(huán)的退火和延伸循環(huán)。 將5個退火和延伸循環(huán)與單次變性步驟重復39次,總共是40次。問在72°C下進行最終延 伸3min。然后將每個PCR的iPLEX反應產物用16 μ L水稀釋,并用6mg樹脂脫鹽。在分配至 SpectroCHIP(Sequenom)和基質輔助激光解吸/電離飛行時間質譜法MS分析(Sequenom) 前,將384孔板在1600g下離心3min。
獨立地記錄了 4個測定的每一個的只對染色體21是陽性或只對參考染色體是陽 性的孔的數(shù)目。對于每個測定,計算了染色體21和參考染色體的分子的泊松(Poisson)修 正數(shù)目。計算來自全部4個測定的染色體21的泊松修正分子數(shù)目的總和及參考染色體的 泊松修正分子數(shù)目的總和,并將這兩個總和視為4重測定的信息計數(shù)。己值是4重測定的 染色體21計數(shù)除以4重測定的染色體21計數(shù)與參考染色體計數(shù)的總和。將實驗導出的已 進行SPRT分析。分析一個或多個384孔板直至通過SPRT進行疾病分類是可能的。分析了 總共兩個50%整倍體胎盤基因組DNA/50%母體血沉棕黃色層DNA混合物和兩個50% 21三 體性胎盤基因組DNA/50%母體血沉棕黃色層DNA混合物。將實驗導出的&值與&的預期值進行比較來檢驗無效假設或備選假設??蛇x擇 地,如果給定數(shù)目的信息計數(shù)的&仍然未能達到疾病分類的統(tǒng)計學置信度,則既不接受無 效假設也不接受備選假設。在有更多的可用數(shù)據(jù)前,將這些個例視為不可分類的。每個樣品的結果和SPRT分類列于表22k和22B中。在實現(xiàn)SPRT分類前,兩個整 倍體樣品需要2個和5個384孔多重數(shù)字RCD分析。沒有來自4重測定的單獨成員的數(shù)據(jù) 允許通過SPRT進行疾病分類。只通過一個384孔多重數(shù)字RCD分析分別正確地分類了兩 個21三體性樣品。類似地,沒有來自4重測定的單獨成員的數(shù)據(jù)允許通過SPRT進行疾病 分類。然而,來自4重測定的綜合計數(shù)允許正確的SPRT分類。這些數(shù)據(jù)表明,通過使用多 重數(shù)字RCD,與使用單重(single-plex)數(shù)字RCD測定相比,對于給定數(shù)目的數(shù)字PCR分析, 信息計數(shù)的有效數(shù)目明顯增加。VI.使用數(shù)字外遺傳相對染餼體劑量在此處,我們概述了稱為數(shù)字外遺傳相對染色體劑量(digitalepigenetic relative chromosome dosage)(數(shù)字ERCD)的方法,其中對在與染色體非整倍性有關的染 色體(例如,21三體性中的染色體21)和參考染色體上表現(xiàn)出胎兒特異性的DNA甲基化方 式或其它外遺傳變化的外遺傳標記物進行數(shù)字PCR分析。在從懷有正常胎兒的孕婦提取的 血漿DNA中,對染色體21外遺傳標記物是陽性的孔的數(shù)目與對參考染色體外遺傳標記物是 陽性的孔的數(shù)目的比率將為我們提供參考范圍。如果胎兒具有21三體性,則預期該比率將 增加。對本領域的技術人員顯而易見的是,在這個分析中能夠使用多于一個的染色體21標 記物和多于一個的參考染色體標記物。表現(xiàn)出胎兒(胎盤)特異性甲基化方式的染色體21上的基因的一個實例是羧化 全酶合成酶(HLCS)基因。HLCS在胎盤中是高度甲基化的,但是在母體血液細胞中是低甲基 化的,并且被第11/784499號美國專利申請所包括,該申請在此處通過引用的方式被并入。 表現(xiàn)出胎兒(胎盤)特異性甲基化方式的參考染色體上的基因的一個實例是染色體3上的 RASSF1A基因[10]。RASSF1A在胎盤中是高度甲基化的,但是在母體血液細胞中是低甲基化 的,參見第11/784501號美國專利申請,該申請在此處通過引用的方式被并入。在高度甲基化的HLCS和高度甲基化的RASSF1A在利用母體血漿來檢測胎兒21 三體性的數(shù)字PCR的應用中,首先收集母體外周血液。然后將該血液離心并收集血漿。然 后利用本領域技術人員公知的技術來從該血漿中提取DNA,例如使用QIAamp血液試劑盒 (Qiagen)。然后用一種或多種甲基化敏感的限制性內切酶來消化該血漿DNA,例如HpaII和 BstUI0這些甲基化敏感的限制性內切酶將切割這些基因的母體的未甲基化的形式,而留 下完整的胎兒高度甲基化的序列。然后將該消化的血漿DNA樣品稀釋至某種程度,即每個
35反應孔將檢測到平均約0. 2至1個分子的任何一種經限制性內切酶處理但完整的HLCS或 RASSF1A序列。使用兩種實時PCR系統(tǒng)來擴增稀釋的DNA,一種系統(tǒng)具有兩種引物和一種對 HLCS基因特異性的TaqMan探針,HLCS基因包含如果序列是未甲基化的,則被限制性內切酶 切割的區(qū)域;另一種系統(tǒng)針對RASSF1A基因,該系統(tǒng)類似地具有兩種引物和一種TaqMan探 針。對于后一種 RASSF1A 引物 / 探針組,Chan et al. 2006,ClinChem 52,2211-2218 已經 描述了一個實例。針對HLCS和RASSF1A靶標的TaqMan探針具有不同的熒光報道分子,例 如分別為FAM和VIC。然后使用384孔板來進行數(shù)字PCR實驗。計數(shù)只對HLCS是陽性的孔 的數(shù)目和只對RASSF1A是陽性的孔的數(shù)目,并計算這些計數(shù)的比率。與懷有正常的整倍體 胎兒的孕婦相比,預期取自懷有21三體性胎兒的孕婦的母體血漿的HLCS RASSF1A比率 將更高。過度表現(xiàn)的程度將取決于數(shù)字PCR運行中每孔的平均參考模板濃度。評分這些結果的其它方法將是可能的,例如,計數(shù)對HLCS是陽性的孔的數(shù)目,而 不論同時存在的對RASSF1A的陽性;反之對RASSF1A也是這樣,而不論同時存在的對HLCS 的陽性。而且,代替計算比率,HLCS和RASSF1A計數(shù)的總數(shù)或差異能夠用于表示胎兒的21 三體性狀態(tài)。除了在板中進行數(shù)字PCR以外,對本領域技術人員顯而易見的是,能夠使用數(shù)字 PCR的其它變體,例如,微流體芯片、納升PCR微板系統(tǒng)、乳液PCR、polony PCR和滾動循環(huán) 擴增、引物延伸以及質譜等。作為示例而不作為限制來描述這些數(shù)字PCR的變體。除了實時PCR以外,對本領域技術人員還顯而易見的是,諸如質譜的方法能夠用 于評分數(shù)字PCR的結果。除了利用甲基化敏感性限制性內切酶來區(qū)分HLCS和RASSF1A的胎兒與母體形式 以外,對本領域技術人員顯而易見的是,確定甲基化狀態(tài)的其它方法也是可用的,例如,亞 硫酸氫鹽修飾、甲基化特異性PCR、利用甲基化的胞嘧啶的抗體的免疫沉淀、質譜等。對本領域技術人員還顯而易見的是,本實施例和本專利申請中的其它實施例中所 示的方法能夠用于可以發(fā)現(xiàn)胎兒DNA的其它體液,包括母體尿、羊水、宮頸灌洗、絨毛膜絨 毛、母體唾液等。VII.利用乳液PCR和其它策略的大規(guī)模平行基因組測序此處,我們將描述能夠將核酸分子的數(shù)字讀取用于檢測母體血漿中的諸如21三 體性的胎兒染色體非整倍性的另一實施例。胎兒染色體非整倍性由染色體或染色體區(qū)域的 異常劑量導致。無創(chuàng)檢測具有高靈敏度和特異性以將誤診降至最低是理想的。然而,在母體 血漿和血清中,胎兒DNA以低的絕對濃度存在,并表現(xiàn)出全部DNA序列的一小部分。因此, 靶向具體基因座的數(shù)字PCR取樣的數(shù)目不能在相同的生物樣品中無限地增加。因此,多組 具體靶基因座的分析可以用于增加從樣品中獲得的數(shù)據(jù)的量,而不增加進行的數(shù)字PCR取 樣的數(shù)目。因此,實施方案允許通過將遺傳信息的量最大化來進行胎兒染色體非整倍性的無 創(chuàng)檢測,所述遺傳信息能夠從在含有母體背景核酸的生物樣品中以小群體存在的有限量的 胎兒核酸推斷出。在一方面,獲得的遺傳信息的量足以進行準確的診斷,但是不過度地過 量,從而控制所需的輸入生物樣品的成本和量。諸如可在454 平臺(Roche) (Margulies, Μ. et al. 2005 Nature 437,376-380)、 Illumina 基因組分析儀(或 Solexa 平臺)或 SOLiD 系統(tǒng)(AppliedBiosystems)或Helicos True 單分子 DNA 測序技術(Harris TD et al. 2008Science,320,106-109)、 Pacific Biosciences的單分子實時(SMRT )技術以及納米孔測序(Soni GV and Meller Α. 2007 Clin Chem 53 1996-2001)上實現(xiàn)的大規(guī)模平行測序允許在平行模式下,以高階的 倍增來測序分離自樣品的許多核酸分子(Dear Brief Funct GenomicProteomic 2003 ; 1 397-416)。這些平臺的每個測序了克隆擴增的或者甚至未擴增的單分子核酸片段。由于在每個運行中,從每個樣品產生了十萬至百萬或者甚至可能億至十億級的大 量測序讀數(shù),得到的測序的讀數(shù)形成了原始樣品中核酸種類的混合物的代表性譜。例如, 測序讀數(shù)的單元型、轉錄物組、甲基化譜與原始樣品的那些(Brenner et al. Nat Biotech 2000 ;18 630-634 ;Taylor et al. Cancer Res 2007 ;67 :8511_8518)類似。由于每個樣品 的序列的大量取樣,相同序列的數(shù)目,諸如以幾倍的覆蓋率或高冗余度從核酸池的測序產 生的那些,也是原始樣品中特定核酸種類或基因座的計數(shù)的好的定量表現(xiàn)方式。在一實施方案中,對存在于孕婦血漿中的DNA片段進行隨機測序,并獲得最初來 自胎兒或母親的基因組序列。隨機測序包括存在于生物樣品中的核酸分子的隨機部分的取 樣(測序)。由于測序是隨機的,所以可以在每個分析中測序核酸分子的不同子集(部分) (并且因此基因組)。甚至當這個子集隨樣品變化和隨分析變化時,這甚至可以在使用相同 的樣品時發(fā)生,實施方案也起作用。該部分的實例是基因組的約0. 1%、0.5%或1%。在其 它實施方案中,所述部分是這些值的至少任意一個。然后可以用生物信息學方法將這些DNA序列的每一個定位于人基因組上??赡?地,將從隨后的分析中排除這些序列的比例,因為它們存在于人基因組的重復區(qū)域中,或存 在于發(fā)生了個體間變異(inter-individual variation)的區(qū)域中,例如拷貝數(shù)變異。因此, 可以測定感興趣的染色體的量和一個或多個其它染色體的量。在一實施方案中,則能夠由生物信息學方法的結果來計算潛在地涉及諸如染色體 21或染色體18或染色體13的染色體非整倍性的染色體參數(shù)(例如,部分表現(xiàn)(fractional !^presentation))??梢曰谌啃蛄?例如,全部染色體的某些測量)或染色體的特定 子集(例如,除了被檢測的染色體之外的僅一個其它染色體)的量來獲得部分表現(xiàn)。然后將該部分表現(xiàn)與在涉及正常(即,整倍體)胎兒的妊娠中建立的參考范圍進 行比較??赡艿?,在所述方法某些變體中,根據(jù)特定的母體血漿樣本中的胎兒DNA的部分濃 度(f)來調整該參考范圍。能夠從測序數(shù)據(jù)集來確定f的值,例如,如果胎兒是男性,則使 用可被定位到Y染色體的序列。還可以在單獨的分析中確定f的值,例如,使用胎兒外遺傳 標記物(Chan KCA et al. 2006 Clin Chem 52,2211-8)的分析或通過單核苷酸多態(tài)性的分 析。在一方面,甚至當樣品中的核酸池以小于100%的基因組覆蓋率進行測序,并且捕 獲的核酸分子的比例中,大部分的每個核酸種類只測序了一次時,也能夠定量地確定特定 基因座或染色體的劑量失衡。換言之,從所述基因座在樣品的全部可被定位的(mappable) 測序的標簽中的表現(xiàn)百分比來推斷該基因座或染色體的劑量失衡。在大規(guī)模平行基因組測序方法的一方面,可以同時生成全部染色體的代表性數(shù) 據(jù)。不提前選擇特定片段的來源。隨機地進行測序,然后進行數(shù)據(jù)庫檢索來發(fā)現(xiàn)特定片段 的出處。這與擴增來自染色體21的一個具體片段和來自染色體1的另一具體片段的情況 形成對比。
37
在一實施例中,這種序列的比例將來自與非整倍性有關的染色體,例如示例性實 施例中的染色體21。這種測序應用的其它的序列將源自其它染色體??紤]到染色體21與 其它染色體的相對大小,能夠獲得來自這種測序應用的染色體21特異性序列的參考范圍 內的標準化頻率(normalized frequency)。如果胎兒具有21三體性,則來自這種測序應用 的源自染色體21的序列的標準化頻率將增加,從而能夠檢測出21三體性。標準化化頻率 的變化程度將取決于分析的樣品中胎兒核酸的部分濃度。在一實施方案中,我們使用了用于人基因組DNA樣品和人血漿DNA樣品的單末端 測序的Illumina基因組分析儀。該Illumina基因組分析儀測序了被捕捉在稱為流動池 (flow cell)的固體表面的克隆擴增的單個DNA分子。每個流動池具有用于測序8個單獨 樣品或樣品池的8條道。每條道能夠生成約200Mb的序列,這只是人基因組序列的30億個 堿基對的一部分。利用流動池的一條道來測序每個基因組DNA樣品或血漿DNA樣品。將生 成的短序列標簽與人參考基因組進行比對,并且記錄染色體來源。將與每條染色體比對的 單獨測序的標簽的總數(shù)列成表,并將其與預期來自參考人基因組或非疾病代表性樣品的每 條染色體的相對大小進行比較。然后鑒定了染色體增加或減少。所述方法只是目前描述的基因/染色體劑量策略的一個示例??蛇x擇地,能夠進 行配對末端測序。不是如Campbell等人所述(Nat Genet2008 ;40 :722_729)將測序的片段 長度與參考基因組中預期的片段長度進行比較,而是根據(jù)染色體位置計數(shù)和分類比對的測 序的標簽的數(shù)目。通過將標簽計數(shù)與參考基因組中的預期染色體大小或與非疾病代表性樣 品中的預期染色體大小進行比較來確定染色體區(qū)域或完整染色體的增加或減少。在另一實施方案中,將運行中測序的核酸池部分進行另外的子選擇(subselect), 然后進行測序。例如,能夠將諸如寡核苷酸陣列的基于雜交的技術用于首先從某些染色 體對核酸序列進行子選擇,例如,潛在的非整倍體染色體和與檢測的非整倍性無關的其它 染色體。另一實例是,在測序前,將來自樣品池的核酸序列的某些亞群進行子選擇或富集。 例如,據(jù)報道母體血漿中的胎兒DNA分子由比母體背景DNA分子短的片段組成(Chan et al.Clin Chem 2004;50:88-92)。因此,根據(jù)分子大小,可以使用對本領域技術人員公知的 一種或多種方法來將樣品中的核酸序列分級,例如,通過凝膠電泳或尺寸排除柱,或者通過 基于微流體的方法。仍然,可選擇地,在分析母體血漿中無細胞胎兒DNA的實例中,能夠通 過抑制母體背景的方法來富集胎兒核酸部分,例如,通過添加甲醛(Dhallan et a 1. JAMA 2004 ;291 1114-9)。能夠在這種應用中類似地使用其它單分子測序策略,例如,Roche454平 臺、Applied Biosystems SOLiD 平臺、Helicos True 單分子 DNA 測序技術、Pacific Biosciences的單分子實時(SMRT )技術以及納米孔測序。可以在同時提交的申請“DIAGNOSINGFETALCHR0M0S0MAL ANEUPLOIDY USING GENOMIC SEQUENCING(利用基因組測序來診斷胎兒染色體非整倍性)”中找到結果的實例和 進一步的討論(例如,對于測序和計算參數(shù))(代理公司案卷號016285-005220US),該申請 通過引用的方式被并入。注意,當反應是例如本部分所述的測序時,可以實施用于確定截止 值的本文所述的方法。還能夠與測序運行分開地進行母體血漿中胎兒DNA的部分濃度的確定。例如,能 夠利用實時PCR、微流體PCR或質譜來預確定Y染色體DNA濃度。實際上,能夠利用Y染色體以外的基因座來測定胎兒DNA濃度,并且適用于女性胎兒。例如,Chan等人表明源自胎 兒的甲基化的RASSF1A序列會在源自母體的未甲基化的RASSF1A序列的背景下的孕婦血漿 中檢測出(Chan et al. Clin Chem2006 ;52 :2211_8)。因此,能夠通過用甲基化的RASSF1A 序列的量除以總RASSF1A(甲基化的和未甲基化的)序列的量來確定部分胎兒DNA濃度。對于實施我們的發(fā)明,預期母體血漿比母體血清優(yōu)選,因為在血液凝固中,從母體 血液細胞中釋放了 DNA。因此,如果使用血清,預期母體血漿中的胎兒DNA的部分濃度將低 于母體血清中的濃度。換言之,如果使用母體血清,與同時從相同孕婦獲得的血漿樣品相 比,預期將需要生成更多的序列來診斷胎兒染色體非整倍性。測定胎兒DNA的部分濃度的仍然另一替代方法是通過孕婦與胎兒之間的多態(tài)性 差異的定量(Dhallan R,et al. 2007 Lancet,369,474-481)。這種方法的實例是靶向孕婦 是純合而胎兒是雜合的多態(tài)性位點。能夠將胎兒特異性等位基因的量與共同等位基因的量 進行比較以確定胎兒DNA的部分濃度。與檢測染色體畸變的現(xiàn)有技術相比,大規(guī)模平行測序不依賴于預定或預定義的組 的DNA序列的檢測或分析,所述現(xiàn)有技術包括比較基因組雜交、微陣列比較基因組雜交、檢 測并定量一種或多種特異性序列的定量實時聚合酶鏈式反應,。測序了來自樣品池的DNA 分子的隨機代表性部分。在含有或不含有腫瘤DNA的樣品之間比較與各種染色體區(qū)域比對 的不同序列標簽的數(shù)目。通過與樣品中任何給定的染色體區(qū)域比對的序列的數(shù)目(或百分 比)的差異來揭示染色體畸變。在另一實施例中,可以使用血漿無細胞DNA的測序技術來檢測血漿DNA中的染色 體畸變,以檢測具體的癌癥。不同的癌癥具有一組典型的染色體畸變。可以使用多個染色體 區(qū)域的變化(擴增和缺失)。因此,將有增加比例的與擴增區(qū)域比對的序列,和降低比例的 與減少的區(qū)域比對的序列。能夠將每條染色體的百分比表現(xiàn)與表示為相對于全基因組的任 何給定的染色體的基因組表現(xiàn)的百分比的參考基因組中每條對應染色體的大小進行比較。 還可以使用與參考染色體的直接比較或比較。VIII.突變檢測母體血漿中的胎兒DNA以較小的群體存在,并且母體血漿DNA由胎兒貢獻的平均 為3%至6%。由于這一原因,本領域中以前的大部分工作集中于檢測胎兒從父親遺傳的 DNA靶標,其可以與母體血漿中的占多數(shù)的母體DNA背景區(qū)分開。這種以前檢測的靶標的實 例包括 Y 染色體上的 SRF 基因(Lo YMD et al. 1998 Am J Hum Genet,62,768-775)和當母 親是 RhD 陰性時的 RHD 基因(Lo YMD et al. 1998 NEngl J Med,339,1734-1738)。對于胎兒突變檢測,利用母體血漿的以前的策略局限于父親是攜帶者的常染色體 顯性狀態(tài),當父親和母親攜帶不同的突變時,通過直接突變檢測來排除常染色體隱性疾病, 或者通過連鎖分析來排除常染色體隱性疾病(Ding C. et al. 2004 Proc Natl Acad Sci USA 101,10762-10767)。這些以前的策略具有明顯的局限性。例如,對于雄性和雌性配偶 都攜帶相同突變的情況,則不可能通過母體血漿中的直接突變檢測來進行有意義的產前診 斷。這種情境示于圖23中。在該情境中,有3個可能的胎兒基因型NN、匪和匪,其 中N表示正常等位基因,M表示突變體等位基因。突變體等位基因的實例包括那些導致囊性 纖維化、β-地中海貧血癥、α-地中海貧血癥、鐮形細胞貧血、脊髓型肌萎縮、先天性腎上腺增生等的突變體等位基因。能夠在在線人類孟德爾遺傳(OMIM) www.ncbi.nlm.nih. gov/ sites/entrez ? db = OMIM&itool = toolbar找到這勝病癥的其它實例。在母體血漿中, 大部分DNA來自母親,并且是匪的。對于3種胎兒基因型的任一種,將不會有允許在母體 血漿中被獨特地檢測出的任何獨特的胎兒等位基因。因此,不能在此處應用常規(guī)策略。本文所述的實施方案允許處理這種情境。在母親和胎兒都是NM的情境下,N等位 基因和M等位基因將是等位基因平衡的。然而,如果母親是NM而胎兒是NN,則將在母體血 漿中有等位基因失衡,并且N等位基因是過度表現(xiàn)的。在另一方面,如果母親是NM而胎兒 是MM,則將在母體血漿中有等位基因失衡,并且M等位基因是過度表現(xiàn)的。因此,對于胎兒 突變檢測,無效假設指當胎兒的基因型是匪時,沒有等位基因失衡。備選假設指存在等位 基因失衡,并且取決于N等位基因或M等位基因是否是過度表現(xiàn)的,胎兒的基因型能夠是NN 或匪。能夠通過利用本文所述的實施方案的數(shù)字PCR來確定存在或不存在等位基因失 衡。在第一種情境下,特定體積的母體血漿含有從100個細胞釋放的DNA,其中50個細胞 來自母親,50個細胞來自胎兒。因此,在這個體積的血漿中的胎兒DNA的部分濃度是50%。 當母親的基因型是NM時,則母親將貢獻50個N等位基因和50個M等位基因。如果胎兒的 基因型是匪,則胎兒將貢獻50個N等位基因和50個M等位基因。因此,N等位基因和M等 位基因之間沒有等位基因失衡,并且每個等位基因總共各100個拷貝。在另一方面,如果胎 兒的基因型是NN,則在這個體積的血漿中將有100個源自胎兒的N等位基因。因此,總共 有150個N等位基因和50個M等位基因。換言之,在N與M之間存在等位基因失衡,并且 N是過度表現(xiàn)的,N與M的比率為3 1。在相反的情況下,如果胎兒的基因型是匪,則在這個體積的血漿中將有100個源 自胎兒的M等位基因。因此,將有150個M等位基因和50個N等位基因。換言之,在N等 位基因與M等位基因之間存在等位基因失衡,并且M是過度表現(xiàn)的,M與N的比率是3 1。 能夠通過數(shù)字PCR來測量這種等位基因失衡。將具有較少數(shù)目的陽性孔的等位基因視為參 考模板。與數(shù)字RNA-SNP和數(shù)字RCD分析類似,數(shù)字PCR實驗中等位基因的實際分布將受 泊松概率密度函數(shù)控制。因此,由于本情境中等位基因失衡的理論程度是3 1,所以等位 基因失衡的預期程度將取決于數(shù)字PCR分析中每孔的平均模板濃度。因此,需要將對每孔 的平均參考模板濃度(πι,)適合的諸如用于SPRT分析的解釋截止值用于對個例進行分類。而且,需要測量的等位基因失衡的程度取決于部分胎兒DNA濃度。與上文的實施 例對比,讓我們考慮含有從100個細胞中釋放的DNA的特定體積的母體血漿,其中90個細 胞來自母親而10個細胞來自胎兒。因此,這個體積的血漿中的胎兒DNA的部分濃度是10 %。 當母親的基因型是NM時,則母親將貢獻90個N等位基因和90個M等位基因。如果胎兒的 基因型是匪,則胎兒將貢獻10個N等位基因和10個M等位基因。因此,在N等位基因與M 等位基因之間不存在等位基因失衡,并且每個等位基因總共各100個拷貝。在另一方面,如 果胎兒的基因型是NN,則在這個體積的血漿中將有20個源自胎兒的N等位基因。因此,總 共有110個N等位基因和90個M等位基因。換言之,N等位基因與M等位基因之間存在等位基因失衡,并且N等位基因是過度 表現(xiàn)的。在相反的情況下,如果胎兒的基因是匪,則在這個體積的血漿中將有20個源自胎 兒的M等位基因。因此,將有110個M等位基因和90個N等位基因。換言之,N等位基因
40與M等位基因之間存在等位基因失衡,并且M是過度表現(xiàn)的。當胎兒DNA部分濃度是10% 時,等位基因失衡的理論程度是110 90,這不同于上文的實施例所示的,有50%的胎兒 DNA時的比率3 1。因此,需要將對胎兒DNA部分濃度適合的解釋截止值用于對個例進行 分類,例如,用于SPRT分析的解釋截止值。 因此,提取血漿DNA。定量血漿樣品中母體DNA和胎兒DNA的量,例如,通過以前建 立的實時PCR測定(Lo, et al. 1998 Am J HumGenet 62,768-775)或對本領域技術人員公 知的其它類型的量標(quantifier),例如SNP標記物(Dhallan R et al. 2007 Lancet,369, 474-481)和胎兒外遺傳標記物(Chan KCA et al. 2006 Clin Chem,52,2211-2218)。將計 算胎兒DNA百分比。然后制備定量的血漿DNA樣品(例如,稀釋的或濃縮的),從而在數(shù)字 PCR分析中,每個反應孔平均含有1個模板分子(能夠是N等位基因或M等位基因)。利用 一對引物加兩個TaqMan探針來進行數(shù)字PCR分析,其中一個TaqMan探針對N等位基因是 特異性的,而另一個TaqMan探針對M等位基因是特異性的。計數(shù)只對M等位基因是陽性的 孔的數(shù)目和只對N等位基因是陽性的孔的數(shù)目。將這些孔的比率用于確定是否有等位基因 失衡的證據(jù)。能夠通過對本領域技術人員公知的方法來尋找等位基因失衡的統(tǒng)計證據(jù),例 如利用SPRT。在該分析的一個變體中,還可能計數(shù)只對M等位基因是陽性的孔的數(shù)目或對 M等位基因和N等位基因是陽性的孔的數(shù)目;并計數(shù)只對N等位基因是陽性的孔的數(shù)目或 對M等位基因和N等位基因是陽性的孔的數(shù)目,并導出這些計數(shù)的比率。再次地,能夠通過 對本領域技術人員公知的方法來尋找等位基因失衡的統(tǒng)計證據(jù),例如利用SPRT。
利用雌性/雄性(XX/XY) DNA混合物來驗證稱為數(shù)字相對突變體劑量(RMD)的胎 兒基因突變的劑量測定。如圖24A所示,將來自雄性和雌性的血液細胞DNA分別與雄性DNA 混合,從而分別在部分濃度為25%和50%時獲得XY的背景下的XX基因型或XY基因型的 樣品,部分濃度分別為25%和50%的。另外,還從12個雄性個體和12個雌性個體獲得血液細胞樣品。將雌性血液細胞 DNA(基因型XX)分別與3倍的過量雄性血液細胞DNA (基因型XY)混合,從而獲得75%XY 基因型的DNA背景下的25% XX基因型的DNA的12個DNA混合物,并且結果示于圖24Β中。SPRT的目的在于確定背景DNA中存在的少數(shù)基因型。在75%的XY DNA的背景下 的25%的XX DNA的DNA混合物中,少數(shù)等位基因是源自75%的DNA的Y。由于該樣品中 25%的DNA的基因型是XX,因此如果在該樣品中共有200個分子的DNA,則150個分子將源 自XY個體。因此,預期Y等位基因的數(shù)目是75。雄性部分DNA(基因型XY)貢獻的X等位 基因的數(shù)目也是75。雌性(基因型XX)貢獻的X等位基因的數(shù)目是50(2乘以25)。因此, X 比 Y 的比率是 125/75 = (1+25% )/(1~25% ) = 5/3。對于這個研究的第二部分,從在β-球蛋白基因,即血紅蛋白,β (HBB)基因上攜 帶HbE(G —Α)和CD41/42(CTTT/_)突變的雄性和雌性個體獲得血液細胞樣品。為了模擬從 懷有具有全部可能的基因型(MM、麗或NN)的雄性胎兒的雜合母親(MN,其中M=突變體并 且N=野生型)獲得的母體血漿樣品,將來自對野生型等位基因是純合(NN),或對兩個突變 中的一個是雜合(MN)的雄性的血液細胞DNA分別與從對相同的突變是雜合(MN)的雌性收 集的血液細胞DNA樣品混合。從而獲得各種部分雄性/突變體DNA濃度的DNA混合物。還 將來自對⑶41/42缺失是純合(MM)的雌性的血液細胞DNA樣品用于制備DNA混合物。為 了保證用于SPRT分類的準確雄性比例,利用ZFY/X測定來確定每種DNA混合物的部分雄性
41DNA濃度。將數(shù)字ZFY/X測定用于驗證SPRT,以及用于確定DNA混合物中部分雄性DNA濃度。 通過數(shù)字PCR分析來測定染色體X(ZFX)和染色體Y(ZFY)上的鋅指蛋白序列的劑量。首先 通過正向引物 5,-CAAGTGCTGGACTCAGATGTAACTG-3,和反向引物 5,-TGAAGTAATGTCAGAAGCTA AAACATCA-3’來共擴增ZFX基因座和ZFY基因座的87_bp的擴增子。設計了兩個染色體特異 性TaqMan探針來區(qū)分染色體X和染色體Y種內同源基因,且探針的序列分別是5’ -(VIC) TCTTTAGCACATTGCA(MGBNFQ)-3,和 5,- (FAM)TCTTTACCACACTGCAC(MGBNFQ)-3,。通過正常等位基因相對于突變體等位基因的數(shù)字PCR分析來確定DNA混合物中的 突變體劑量。對于HbE突變,首先通過正向引物5’-GGGCAAGGTGAACGTGGAT-3’和反向引物5 ,-CTATTGGTCTCCTTAAACCTGTCTTGTAA-3,來共擴增正常等位基因和突變體等位基因的87_bp 的擴增子。設計了兩個等位基因特異性TaqMan探針來區(qū)分正常(G)等位基因和突變體 (A)等位基因,且探針的序列分別是 5',-(VIC)TTGGTGGTGAGGCC(MGBNFQ)-3,和 5,-(FAM) TTGGTGGTAAGGCC (MGBNFQ)-3,。HbE 突變的結果示于圖 25 中。對于CD41/42缺失突變,首先通過正向引物5,-TTTTCCCACCCTTAGGCTGC-3,和 反向引物5 ’ -ACAGCATCAGGAGTGGACAGATC-3 ’來分別共擴增正常等位基因和突變體等位 基因的87-bp和83-bp的擴增子。設計了兩個等位基因特異性TaqMan探針來區(qū)分正 常(無缺失)等位基因和突變體(有缺失)等位基因,且探針的序列分別是5’ -(VIC) CAGAGGTTCTTTGAGTCCT (MGBNFQ)-3,和 5’ -(FAM) AGAGGTTGAGTCCTT (MGBNFQ)-3,。HbE 突變 的結果示于圖26A和26B中。利用12. 765數(shù)字陣列(Fluidigm),在BioMark 系統(tǒng)(Fluidigm)上進行這些實 驗。利用 2X TaqMan Universal PCR Master Mix (AppliedBiosystems)進行一個板的反應, 并且反應體積是10 μ L0對于CD41/42和ZFY/X測定,每個反應含有IX TaqMan Universal PCR Master Mix、900nM的每種引物、125nM的每種探針和3. 5 μ L lng/ μ L的DNA混合物。 對于HbE測定,添加分別靶向正常(G)等位基因和突變體(A)等位基因的250ηΜ和125ηΜ 的探針。通過NanoFlex IFC控制器(Fluidigm)將樣品/測定混合物加載至數(shù)字陣列。 在用于信號檢測的BioMark 系統(tǒng)上進行反應。在50°C下開始反應持續(xù)2min,然后95°C、 IOmin,以及 95°C、15s 和 57°C (對于 ZFY/X 和 CD41/42)或 56°C (對 HbE)、Imin 的進行 50 個循環(huán)。每一個例至少使用一個反應板,對尚未可分類的樣品從額外的板匯集數(shù)據(jù)直至能 夠做出判定。對本領域技術人員還顯而易見的是,能夠利用對本領域技術人員公知的方法來進 行數(shù)字PCR,例如,微流體芯片、納升PCR微板系統(tǒng)、乳液PCR、polony PCR和滾動循環(huán)擴增、 引物延伸以及質譜。IX.癌癥的實施例在一實施方案中,可以進行本發(fā)明來將樣品分類為具有或不具有在腫瘤中可能發(fā) 生的等位基因比率偏移。在一方面,對于每一個例,通過數(shù)字PCR來確定只對A等位基因、 只對G等位基因和對兩個等位基因都是陽性信號的孔的數(shù)目。參考等位基因定義為具有較 少數(shù)目陽性孔的等位基因。(在不大可能的情況下,即兩個等位基因都具有相同數(shù)目的陽性 孔,則任何一個等位基因都能夠用作參考等位基因)。根據(jù)泊松概率密度函數(shù),利用對參考 等位基因是陰性的孔的數(shù)目來計算每孔的參考等位基因的推斷的平均濃度(πν),而不論其
42它等位基因是否是陽性的。我們使用假設的實例來對計算進行說明。在96孔反應中,20個孔對A等位基因是陽性的,24個孔對G等位基因是陽性的, 并且28個孔對兩個等位基因都是陽性的。將A等位基因視為參考等位基因,因為對這個等 位基因是陽性的孔較少。對參考等位基因是陰性的孔的數(shù)目是96-20-28 = 48。因此,能夠 利用泊松分布來計算mr,并且mr是-In (48/96) = 0. 693。在LOH檢測的情況下,無效假設指假定沒有由存在一個等位基因缺失導致的等位 基因比率偏移的樣品。在這個假定下,兩個等位基因的陽性孔數(shù)目的預期比率將是1 1, 因此,含有潛在地過度表現(xiàn)的等位基因的信息孔(只對一個等位基因是陽性的孔)的預期 比例將是0.5。在LOH檢測的情況下,備選假設指假定具有由樣品的50%的細胞中存在一個等位 基因缺失而導致的等位基因比率偏移的樣品。由于過度表現(xiàn)的等位基因與參考等位基因之 間的等位基因比率是2 1,所以每孔過度表現(xiàn)的等位基因的平均濃度將是參考等位基因 的平均濃度的2倍。然而,對該過度表現(xiàn)的等位基因是陽性的孔的數(shù)目并不簡單地是對該 參考等位基因是陽性的孔的數(shù)目的2倍,而是服從泊松分布。信息孔被定為對A或G等位基因是陽性的,但對A和G不都是陽性的孔。對于具 有等位基因比率偏移的樣品,含有過度表現(xiàn)的等位基因的孔的數(shù)目的預期比例的計算與表 600所示的相同。在上文的實施例中,如果在50%的腫瘤細胞中存在L0H,則每孔的G等位 基因的平均濃度將是2X0. 693 = 1.386。如果在多于50%的腫瘤細胞中存在L0H,則每孔 的G等位基因的平均濃度將根據(jù)下述公式來計算1/[1_(L0H的比例)]Χπν。對G等位基因是陽性的孔的預期比例將是l-e_1 386 = 0. 75 (即75%或72個孔)。 假定對于A等位基因或G等位基因,孔的陽性是獨立的,則0. 5X0. 75 = 0. 375的孔將對 A等位基因和G等位基因都是陽性的。因此,0.5-0. 375 = 0. 125的孔只對A等位基因是 陽性的,而0. 75-0. 375 = 0. 375的孔只對G等位基因是陽性的。因此,信息孔的比例是 0. 125+0. 375 = 0. 5。攜帶G等位基因的信息孔的預期比例是0. 375/0. 5 = 0. 75。然后將 Pr的這個預期值用于構建合適的SPRT曲線來確定樣品中是否存在等位基因比率偏移(即, 這種情況下的L0H)。然后將通過數(shù)字PCR分析實驗確定的攜帶非參考等位基因的信息孔的實際比例 用于確定是否接受無效假設或備選假設,或者確定是否需要更多孔的進一步分析?;?閥值似然比率8來計算接受無效假設或備選假設的&的判定邊界,因為這個值已經被證 實在癌癥檢測的情況下提供了鑒別具有或不具有等位基因失衡的樣品的令人滿意的性能 (Zhou,ff,et al. (2001) Nat Biotechnol 19,78-81 ;Zhou et al. 2002,見上文)。在上文的 實施例中,信息孔的數(shù)目是20+24 = 44,而實驗獲得的已是24/44 = 0. 5455。接受無效假 設的判定邊界是< 0. 5879而接受備選假設的判定邊界是> 0. 6739。因此,將這個實施例中 的樣品分類為不具有等位基因比率偏移。綜上所述,我們描述了在樣品中檢測序列失衡的方法。在一實施方案中,本發(fā)明 能夠通過分析母體血漿中的胎兒核酸用于諸如21三體性的胎兒染色體非整倍性的無創(chuàng)檢 測。這種方法還能夠應用于其它含有胎兒核酸的生物材料,包括羊水、絨毛膜絨毛樣品、母 體尿、宮頸樣品、母體唾液等。首先,我們證明了本發(fā)明在懷有21三體性胎兒的婦女的母體 血漿中,用于確定PLAC4 mRNA即染色體21上的胎盤表達的轉錄物上的SNP的等位基因失衡的用途。其次,我們證明,通過相對染色體劑量(RCD)分析,我們的發(fā)明能夠用作用于21 三體性的無創(chuàng)產前檢測的基于非多態(tài)性的方法。這種基于數(shù)字RCD的方法包括直接評價含 有胎兒DNA樣品中的染色體21的總拷貝數(shù)相對于參考染色體是否是過度表達的。甚至不 需要復雜的儀器,數(shù)字RCD允許在含有25%胎兒DNA的樣品中檢測21三體性。我們應用序 貫概率比檢驗(SPRT)來解釋數(shù)字PCR數(shù)據(jù)。計算機模擬分析證實了疾病分類算法的高準 確性。我們還描述了能夠用于確定染色體非整倍性以外的其它形式的核酸序列失衡的 方法,例如,用于胎兒突變檢測的方法,或用于母體血漿中多態(tài)性檢測的方法,以及通過血 漿中源自腫瘤的核酸的分析來檢測惡性腫瘤細胞基因組中的區(qū)域增加或減少的方法。本申請中所述的任何軟件組分或函數(shù)可以作為通過使用任何合適的計算機語言 的處理器運行的軟件代碼來執(zhí)行,所述計算機語言諸如例如Java、C++或使用例如常規(guī)或 面向對象技術的Perl。所述軟件代碼可以保存為用于儲存和/或傳送的計算機可讀取的介 質上的一系列的指令或命令,合適的介質包括隨機存取存儲器(RAM)、只讀存儲器(ROM)、 諸如硬盤或軟盤的磁性介質、諸如光盤(CD)或DVD(數(shù)字多用光盤)的光學介質、閃速存儲 器等。計算機可讀取的介質可以是這些儲存或傳送裝置的任何組合。還可以利用適合通過有線、光和/無線網(wǎng)絡傳送的載波信號來編碼和傳送這些程 序,所述網(wǎng)絡符合包括因特網(wǎng)在內的各種協(xié)議。這樣,可以利用這些程序編碼的數(shù)據(jù)信號來 產生本發(fā)明實施方案的計算機可讀取的介質。用所述程序代碼編碼的計算機可讀取的介質 可以用兼容的裝置來包裝或與其它裝置分開提供(例如,通過因特網(wǎng)下載)。任何這種計算 機可讀取的介質可以位于單個計算機程序產品(例如,硬盤或整個計算機系統(tǒng))上或在產 品內,并且可以存在于系統(tǒng)或網(wǎng)絡內的不同計算機程序產品上或在產品內。計算機系統(tǒng)可 以包括監(jiān)視器、打印機或用于向使用者提供本文所述的任何結果的其他合適的顯示器。計算機系統(tǒng)的實例示于圖27中。圖27所示的子系統(tǒng)通過系統(tǒng)總線2775互相連 接。顯示了另外的子系統(tǒng),例如打印機2774、鍵盤2778、固定磁盤2779、與顯示適配器2782 連接的監(jiān)視器2776等。與I/O控制器2771連接的外設和輸入/輸出(I/O)裝置能夠通過 本領域已知的多種方式來與該計算機系統(tǒng)連接,諸如串行端口 2777。例如,能夠使用串行端 口 2777或外部界面2781來將所述計算機設備與諸如因特網(wǎng)的廣域網(wǎng)絡、鼠標輸入裝置或 掃描儀相連接。通過系統(tǒng)總線的相互連接允許中央處理器2773與每個子系統(tǒng)通訊并控制 來自系統(tǒng)內存2772或固定磁盤2779的指令的執(zhí)行,以及子系統(tǒng)之間的信息交換。系統(tǒng)內 存2772和/或固定磁盤2779可以包括計算機可讀取的介質。出于示例和說明的目的,上文描述了本發(fā)明的示例性的實施方案。并不意圖窮盡 本發(fā)明或將本發(fā)明局限于所述的精確形式,并且根據(jù)上文的教導,許多修飾和變化是可能 的。選擇并描述實施方案以最好地解釋本發(fā)明的原理和及其實踐應用,從而允許本領域其 他技術人員在各種實施方案中最好地利用本發(fā)明,并且可以作出適用于所包括的特定用途 的各種修飾。本文引用的全部出版物、專利和專利申請的全部內容通過引用的方式并入本文用 于所有目的。
權利要求
用于確定生物樣品中是否存在核酸序列失衡的方法,所述方法包括接收來自多個反應的數(shù)據(jù),其中所述數(shù)據(jù)包括(1)表示臨床相關的核酸序列的第一量的第一組定量數(shù)據(jù);和(2)表示不同于所述臨床相關的核酸序列的背景核酸序列的第二量的第二組定量數(shù)據(jù);從所述兩個數(shù)據(jù)組確定參數(shù);從所述多個反應的每一個中的參考核酸序列的平均濃度導出第一截止值,其中所述參考核酸序列是所述臨床相關的核酸序列或所述背景核酸序列;將所述參數(shù)與所述第一截止值比較;以及基于所述比較,確定是否存在核酸序列失衡的分類。
2.如權利要求1所述的方法,其中從一個或多個第一標記物獲得所述第一組數(shù)據(jù),并 且其中從一個或多個第二標記物獲得所述第二組數(shù)據(jù),所述第一標記物的每個檢測一部分 所述臨床相關的核酸序列在反應中存在,所述第二標記物的每個檢測一部分所述背景核酸 序列在反應中存在。
3.如權利要求1所述的方法,其還包括利用將從所述參考核酸序列的數(shù)據(jù)導出的值作為輸入的概率分布的逆函數(shù),來確定所 述多個反應的每一個中的所述參考核酸序列的平均濃度。
4.如權利要求1所述的方法,其中所述臨床相關的核酸序列來自染色體21,并且所述 背景核酸序列來自染色體21以外的染色體。
5.如權利要求1所述的方法,其中所述臨床相關的核酸序列來自染色體18或染色體 13,并且所述背景核酸序列分別來自染色體18以外的或染色體13以外的染色體。
6.如權利要求1所述的方法,其中所述臨床相關的核酸序列是遺傳多態(tài)性的等位基 因,并且所述背景核酸序列是所述遺傳多態(tài)性的另一等位基因。
7.如權利要求1所述的方法,其中所述臨床相關的核酸序列是囊性纖維化跨膜傳導調 節(jié)因子(CFTR)基因、球蛋白基因或α-球蛋白基因的突變拷貝,并且所述背景核酸序 列來自相應基因的野生型拷貝。
8.如權利要求1所述的方法,其中所述生物樣品是來自孕婦的血漿或血清。
9.如權利要求1所述的方法,其中反應是擴增反應。
10.如權利要求9所述的方法,其中反應是數(shù)字PCR方法的一部分。
11.如權利要求1所述的方法,其中反應是測序反應。
12.如權利要求1所述的方法,其中所述臨床相關的核酸序列的第一部分和所述背景 核酸序列的第一部分來自第一個體,并且所述臨床相關的核酸序列的第二部分和所述背景 核酸序列的第二部分來自第二個體。
13.如權利要求12所述的方法,其中所述截止值基于所述第一部分的一個的測量或基 于所述第二部分的一個的測量。
14.如權利要求1所述的方法,其還包括將所述參數(shù)與第二截止值比較。
15.如權利要求14所述的方法,其中所述分類包括疾病狀態(tài)、非疾病狀態(tài)和不可分類的。
16.如權利要求14所述的方法,其中所述分類包括純合的、雜合的和不可分類的。
17.如權利要求14所述的方法,其中所述第二截止值基于非疾病狀態(tài)中所述臨床相關 的核酸序列的第一量相對于所述背景核酸序列的第二量的比率。
18.如權利要求1所述的方法,其中所述參數(shù)是所述臨床相關的核酸序列的第一量相 對于所述背景核酸序列的第二量的比率。
19.如權利要求1所述的方法,其中計算所述第一截止值包括使用序貫概率比檢驗、假 發(fā)現(xiàn)率、置信區(qū)間和接收器工作特性曲線中的至少一種。
20.如權利要求1所述的方法,其中導出所述第一截止值包括確定含有過度表現(xiàn)的核酸序列的信息反應的比例Pl,所述過度表現(xiàn)的核酸序列是所述 參考核酸序列或非參考核酸序列;以及 從第一比例Pl計算所述第一截止值。
21.如權利要求20所述的方法,其中確定所述比例Pl包括確定含有至少一種所述過度表現(xiàn)的(overr印resented)核酸序列的反應的第一概率; 計算反應是信息反應的第二概率;以及 利用所述第一概率和所述第二概率來計算所述比例P1。
22.如權利要求21所述的方法,其中所述第一概率是通過將所述參考核酸序列的平均 濃度乘以相對于所述非參考核酸序列的預期比率來確定的。
23.如權利要求21所述的方法,其中所述第一概率是利用泊松分布來確定的,所述泊 松分布將所述多個反應的每一個中的過度表現(xiàn)的核酸序列的平均濃度作為輸入。
24.如權利要求21所述的方法,其還包括確定含有至少一種過少表現(xiàn)的核酸序列的反應的第三概率,其中所述反應是信息反應 的第二概率的計算包括假定所述第一概率和所述第二概率是獨立的。
25.用于確定生物樣品中是否存在核酸序列失衡的方法,所述方法包括 接收來自多個反應的數(shù)據(jù),其中所述數(shù)據(jù)包括(1)表示臨床相關的核酸序列的第一量的第一組定量數(shù)據(jù);和(2)表示不同于所述臨床相關的核酸序列的背景核酸序列的第二量的第二組定量數(shù) 據(jù);其中所述臨床相關的核酸序列和所述背景核酸序列來自第一類型的細胞和來自一種或 多種第二類型的細胞;從所述兩個數(shù)據(jù)組確定參數(shù);從由核酸序列的量的測量產生的第一百分比導出第一截止值,所述核酸序列來自所述 生物樣品中的所述第一類型的細胞;將所述參數(shù)與所述第一截止值比較;以及 基于所述比較,確定是否存在核酸序列失衡的分類。
26.如權利要求25所述的方法,其中所述第一類型的細胞來自第一有機體,并且所述 第二類型的細胞來自第二有機體。
27.如權利要求25所述的方法,其中導出所述第一截止值包括確定每個反應的參考核酸序列的第一平均濃度,其中所述參考核酸序列是過少表現(xiàn)的 (underrepresented)所述臨床相關的核酸序列或所述背景核酸序列;以及將所述第一平均濃度乘以從所述第一百分比導出的因子來獲得不是所述參考核酸序 列的所述核酸序列的第二平均濃度。
28.如權利要求27所述的方法,其還包括利用將從所述參考核酸序列的數(shù)據(jù)導出的值作為輸入的概率分布的逆函數(shù),來確定所 述多個反應的每一個中的所述參考核酸序列的平均濃度。
29.如權利要求28所述的方法,其中所述概率分布是泊松分布。
30.如權利要求25所述的方法,其中利用定量實時PCR、數(shù)字PCR、半定量競爭PCR、實 時競爭PCR或質譜,通過測定胎兒特異性標記物的量來測量所述百分比。
31.計算機程序產品,其包括被編碼的具有多個指令的計算機可讀取的介質,所述指令 用于控制計算系統(tǒng)以執(zhí)行確定生物樣品中是否存在核酸序列失衡的操作,所述操作包括下 述步驟接收來自多個反應的數(shù)據(jù),其中所述數(shù)據(jù)包括(1)表示臨床相關的核酸序列的第一量的第一組定量數(shù)據(jù);和(2)表示不同于所述臨床相關的核酸序列的背景核酸序列的第二量的第二組定量數(shù)據(jù);從所述兩個數(shù)據(jù)組確定參數(shù);從所述多個反應的每一個中的參考核酸序列的平均濃度導出第一截止值,其中所述參 考核酸序列是所述臨床相關的核酸序列或所述背景核酸序列; 將所述參數(shù)與所述第一截止值比較;以及 基于所述比較,確定是否存在核酸序列失衡的分類。
全文摘要
本發(fā)明提供了用于確定生物樣品中是否存在核酸序列失衡的方法、系統(tǒng)和裝置。選取了用于確定,例如,兩個序列(或兩組序列)的比率的失衡的一個或多個截止值??梢灾辽俨糠值鼗诤心阁w核酸序列背景的諸如母體血漿的樣品中胎兒DNA的百分比來確定所述截止值。還可以基于每一反應的序列的平均濃度來確定該截止值。在一方面,從估計含有特定核酸序列的信息孔的比例來確定該截止值,其中該比例基于上文所述的百分比和/或平均濃度來確定。可以利用諸如序貫概率比檢驗(SPRT)的許多不同類型的方法來確定該截止值。
文檔編號C12Q1/68GK101971178SQ200880108126
公開日2011年2月9日 申請日期2008年7月23日 優(yōu)先權日2007年7月23日
發(fā)明者盧煜明, 莊家俊, 徐仲锳, 趙慧君, 陳君賜 申請人:香港中文大學