超低頻突變分子一致性序列簡(jiǎn)并算法
【專利摘要】本發(fā)明公開(kāi)了一種確定測(cè)序讀段群共有序列的方法,該方法包括:(1)將所述測(cè)序讀段群根據(jù)基本的比對(duì)情況進(jìn)行第一過(guò)濾,以便獲得經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群,(2)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè),確定該測(cè)序讀段群的共有序列,(3)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè),類似(2)所述的步驟確定該測(cè)序讀段群的共有標(biāo)簽序列。通過(guò)該方法能夠有效確定來(lái)源于同一DNA分子經(jīng)多次重復(fù)測(cè)序而得到的測(cè)序讀段群的共有序列,從而實(shí)現(xiàn)對(duì)DNA分子和突變精確的定量,同時(shí)消除測(cè)序錯(cuò)誤等對(duì)結(jié)果的影響,保障結(jié)果的準(zhǔn)確性。
【專利說(shuō)明】
超低頻突變分子一致性序列簡(jiǎn)并算法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及測(cè)序技術(shù)領(lǐng)域,特別是超低頻突變分子一致性序列簡(jiǎn)并算法,具體地, 本發(fā)明設(shè)及確定測(cè)序讀段群共有序列的方法。
【背景技術(shù)】
[0002] 隨著二代測(cè)序的迅速發(fā)展,測(cè)序費(fèi)用的降低,二代測(cè)序在各個(gè)方面的檢測(cè)研究中 得到了越來(lái)越廣泛的應(yīng)用。而相對(duì)于全基因組測(cè)序,目標(biāo)區(qū)間測(cè)序能大幅度降低測(cè)序成本 和數(shù)據(jù)的復(fù)雜性,使我們感興趣的目標(biāo)區(qū)間在較低的成本的同時(shí)達(dá)到很高的測(cè)序覆蓋度, 運(yùn)使得檢測(cè)癌癥突變中的低頻突變成為了可能。
[0003] 目標(biāo)區(qū)間測(cè)序方法中,采用特異性引物對(duì)目標(biāo)區(qū)間進(jìn)行PCR擴(kuò)增的方法由于其操 作簡(jiǎn)單、快速,且只需少量DNA等優(yōu)點(diǎn),已被人們廣泛應(yīng)用。然而,特異性引物擴(kuò)增測(cè)序中,不 可避免會(huì)存在嚴(yán)重的擴(kuò)增偏好性,同時(shí)也存在擴(kuò)增測(cè)序引入的各種錯(cuò)誤。運(yùn)些問(wèn)題一方面 直接影響定量的準(zhǔn)確性,因?yàn)闇y(cè)序數(shù)據(jù)中的數(shù)量已不能代表原始DNA片段的數(shù)量;另一方面 會(huì)影響分析結(jié)果的準(zhǔn)確性,引入大量的假陽(yáng)性。而在腫瘤突變研究中,由于腫瘤的高異質(zhì) 性,存在大量的低頻突變,使得運(yùn)些問(wèn)題尤為突出。
[0004] 因而,目前的特異性引物擴(kuò)增測(cè)序仍有待改進(jìn)。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一。為此,本發(fā)明的一個(gè)目的 在于提出一種確定測(cè)序讀段群共有序列的方法,從而實(shí)現(xiàn)對(duì)DNA分子和突變精確的定量,同 時(shí)消除測(cè)序錯(cuò)誤等對(duì)結(jié)果的影響,保障結(jié)果的準(zhǔn)確性。
[0006] 需要說(shuō)明的是,本發(fā)明是基于發(fā)明人的下列工作而完成的:
[0007] 現(xiàn)階段,針對(duì)特異性引物擴(kuò)增測(cè)序的上述問(wèn)題,研究者引入了分子標(biāo)簽,在原始 DNA分子上連接一段能代表該DNA分子的unique標(biāo)簽序列。不同的DNA分子連接不同的分子 標(biāo)簽,通過(guò)分子標(biāo)簽序列可W準(zhǔn)確的識(shí)另化NA分子。分子標(biāo)簽的引入,可W對(duì)DNA分子和突變 進(jìn)行準(zhǔn)確的定量,同時(shí)也可W降低甚至消除由擴(kuò)增和測(cè)序等造成的錯(cuò)誤。
[000引針對(duì)添加分子標(biāo)簽的二代測(cè)序數(shù)據(jù),在數(shù)據(jù)處理時(shí),需要根據(jù)其分子標(biāo)簽將reads 進(jìn)行分群,將reads起止位置一樣,且分子標(biāo)簽也一樣的reads分為一群,認(rèn)為運(yùn)是由同一個(gè) DNA分子片段通過(guò)PCR擴(kuò)增生成的多個(gè)復(fù)本。然后針對(duì)每個(gè)群,找到其最終的一致性序列(在 本文中,也將"一致性序列"稱為"共有序列"),即是該群所對(duì)應(yīng)的原始DNA分子的序列。最 后,再利用運(yùn)些一致性序列進(jìn)行后續(xù)的突變檢測(cè)等分析。
[0009]然而,由于實(shí)驗(yàn)中對(duì)添加分子標(biāo)簽后的分子模板進(jìn)行PCR擴(kuò)增,同一個(gè)分子模板會(huì) 產(chǎn)生一群一模一樣的子分子;但在實(shí)驗(yàn)測(cè)序過(guò)程中,又不可避免引入一些錯(cuò)誤,最后得到一 些含有少量錯(cuò)誤的分子模板被多次重復(fù)測(cè)序的化S化數(shù)據(jù)。發(fā)明人針對(duì)運(yùn)種情況,致力于根 據(jù)分子標(biāo)簽和read(測(cè)序讀段)的自身序列(與基因組的比對(duì)位置),在考慮測(cè)序錯(cuò)誤的前提 下,把來(lái)源于同一個(gè)分子模板的reads進(jìn)行聚類分群,從而得到測(cè)序讀段群;進(jìn)一步,針對(duì)聚 類分群后的測(cè)序讀段群,獲得各測(cè)序讀段群的共有序列(Consensus序列)。
[0010] 進(jìn)而,在本發(fā)明的第一方面,本發(fā)明提供了一種確定測(cè)序讀段群共有序列的方法。 根據(jù)本發(fā)明的實(shí)施例,所述方法包括:
[0011] (1)將所述測(cè)序讀段群根據(jù)基本的比對(duì)情況進(jìn)行第一過(guò)濾,W便獲得經(jīng)過(guò)第一過(guò) 濾的測(cè)序讀段群,所述第一過(guò)濾的標(biāo)準(zhǔn)如下列:
[0012] (a)排除雙末端分別與參考序列的不同染色體匹配的測(cè)序讀段群;
[0013] (b)排除插入片段在預(yù)定范圍之外的測(cè)序讀段群;W及
[0014] (C)排除測(cè)序讀段的起始位置與擴(kuò)增引物起始位置不同的測(cè)序讀段群;
[0015] (2)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè),按照下列步驟確定該測(cè)序讀 段群的共有序列:
[0016] (i)在預(yù)定位置,遍歷群內(nèi)每一個(gè)測(cè)序讀段,統(tǒng)計(jì)ATCG四種堿基的各自深度;
[0017] (ii)選擇具有顯著深度優(yōu)勢(shì)的堿基作為所述預(yù)定位置的堿基類型,并根據(jù)該堿基 類型的深度等得到所述預(yù)定位置的質(zhì)量值;
[0018] (i i i)針對(duì)所有位置,重復(fù)步驟(i)和(i i),W便確定所述共有序列,
[0019] (3)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè),按照類似(2)所述的步驟確定 該測(cè)序讀段群的共有標(biāo)簽序列:
[0020] (A)遍歷群內(nèi)每一個(gè)測(cè)序讀段的標(biāo)簽序列,統(tǒng)計(jì)各標(biāo)簽序列的深度;W及
[0021] (B)選擇具有顯著深度優(yōu)勢(shì)的標(biāo)簽序列作為該測(cè)序讀段群的共有標(biāo)簽序列。
[0022] 通過(guò)本發(fā)明的方法能夠有效確定來(lái)源于同一 DNA分子經(jīng)多次重復(fù)測(cè)序而得到的測(cè) 序讀段群的共有序列,從而實(shí)現(xiàn)對(duì)DNA分子和突變精確的定量,同時(shí)消除測(cè)序錯(cuò)誤等對(duì)結(jié)果 的影響,保障結(jié)果的準(zhǔn)確性。
[0023] 根據(jù)本發(fā)明的實(shí)施例,所述測(cè)序讀段群是通過(guò)對(duì)測(cè)序獲得的測(cè)序讀段進(jìn)行聚類而 獲得的,且所述測(cè)序讀段群是具有相似序列、相似分子標(biāo)簽的讀段群,很有可能是同一分子 模板通過(guò)擴(kuò)增產(chǎn)生的多個(gè)副本(即duplicate)。
[0024] 根據(jù)本發(fā)明的實(shí)施例,所述相似序列是指與基因組匹配到相同起止位置。
[0025] 根據(jù)本發(fā)明的一些具體示例,(b)中的所述預(yù)定范圍是30~40化P。
[0026] 根據(jù)本發(fā)明的實(shí)施例,(i i)中進(jìn)一步包括:
[0027] (A')在預(yù)定位置,將ATCG四種堿基按深度進(jìn)行排序,W便獲得最大深度和第二深 度,W及其所對(duì)應(yīng)的堿基類型;
[0028] (B')基于所述最大深度和第二深度,確定所述預(yù)定位置的共有序列堿基類型和對(duì) 應(yīng)的質(zhì)量值。
[0029] 根據(jù)本發(fā)明的實(shí)施例,在(B')中,包括:
[0030] 確定參數(shù)C,其中參數(shù)C =(最大深度-第二深度)/最大深度;
[0031] 如果參數(shù)C不低于指定闊值,則選擇所述最大深度的堿基作為所述預(yù)定位置的共 有序列堿基類型,且該堿基的質(zhì)量值Q = 20+(ma巧C~2)/2,當(dāng)QMO時(shí),取40;如果所述參數(shù)C 小于指定闊值,則確定所述預(yù)定位置的共有序列堿基類型為不確定堿基N,相應(yīng)質(zhì)量值Q = 2。
[0032] 根據(jù)本發(fā)明的一些具體示例,所述指定闊值是0.65。
[0033] 根據(jù)本發(fā)明的實(shí)施例,所述共有序列中不確定堿基N的數(shù)目超過(guò)5個(gè),則獲得共有 序列失敗,過(guò)濾所述測(cè)序讀段群。
[0034] 根據(jù)本發(fā)明的實(shí)施例,(B)中進(jìn)一步包括通過(guò)下列步驟確定共有標(biāo)簽序列:
[0035] (A")將標(biāo)簽序列按深度進(jìn)行排序,W便獲得最大深度和第二深度;
[0036] (B")確定參數(shù)C,其中參數(shù)C=(最大深度-第二深度)/最大深度;
[0037] 如果參數(shù)C不低于指定闊值,則選擇所述最大深度的標(biāo)簽序列作為所述測(cè)序讀段 群的共有標(biāo)簽序列;如果所述參數(shù)小于指定闊值,則獲得共有標(biāo)簽序列失敗,過(guò)濾所述測(cè)序 讀段群。由此,能夠有效確定共有標(biāo)簽序列或過(guò)濾所述測(cè)序讀段群。
[0038] 本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0039] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得 明顯和容易理解,其中:
[0040] 圖1顯示了根據(jù)本發(fā)明實(shí)施例的確定測(cè)序讀段群共有序列的方法的流程示意圖。
【具體實(shí)施方式】
[0041] 下面詳細(xì)描述本發(fā)明的實(shí)施例。下面描述的實(shí)施例是示例性的,僅用于解釋本發(fā) 明,而不能理解為對(duì)本發(fā)明的限制。
[0042] 確定測(cè)序讀段群共有序列的方法
[0043] 在本發(fā)明的第一方面,本發(fā)明提供了一種確定測(cè)序讀段群共有序列的方法。根據(jù) 本發(fā)明的實(shí)施例,所述方法包括:
[0044] (1)將所述測(cè)序讀段群根據(jù)基本的比對(duì)情況進(jìn)行第一過(guò)濾,W便獲得經(jīng)過(guò)第一過(guò) 濾的測(cè)序讀段群,所述第一過(guò)濾的標(biāo)準(zhǔn)如下列:
[0045] (a)排除雙末端分別與參考序列的不同染色體匹配的測(cè)序讀段群;
[0046] (b)排除插入片段在預(yù)定范圍之外的測(cè)序讀段群;W及
[0047] (C)排除測(cè)序讀段的起始位置與擴(kuò)增引物起始位置不同的測(cè)序讀段群;
[0048] (2)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè),按照下列步驟確定該測(cè)序讀 段群的共有序列:
[0049] (i)在預(yù)定位置,遍歷群內(nèi)每一個(gè)測(cè)序讀段,統(tǒng)計(jì)ATCG四種堿基的各自深度;
[0050] (ii)選擇具有顯著深度優(yōu)勢(shì)的堿基作為所述預(yù)定位置的堿基類型,并根據(jù)該堿基 類型的深度等得到所述預(yù)定位置的質(zhì)量值;
[0051] (iii)針對(duì)所有位置,重復(fù)步驟(i)和(ii),W便確定所述共有序列,
[0052] (3)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè),按照類似(2)所述的步驟確定 該測(cè)序讀段群的共有標(biāo)簽序列:
[0053] (A)遍歷群內(nèi)每一個(gè)測(cè)序讀段的標(biāo)簽序列,統(tǒng)計(jì)各標(biāo)簽序列的深度;W及
[0054] (B)選擇具有顯著深度優(yōu)勢(shì)的標(biāo)簽序列作為該測(cè)序讀段群的共有標(biāo)簽序列。
[0055] 由此,通過(guò)本發(fā)明的方法能夠有效確定來(lái)源于同一 DNA分子經(jīng)多次重復(fù)測(cè)序而得 到的測(cè)序讀段群的共有序列,從而實(shí)現(xiàn)對(duì)DNA分子和突變精確的定量,同時(shí)消除測(cè)序錯(cuò)誤等 對(duì)結(jié)果的影響,保障結(jié)果的準(zhǔn)確性。
[0056] 根據(jù)本發(fā)明的實(shí)施例,所述測(cè)序讀段群是通過(guò)對(duì)測(cè)序獲得的測(cè)序讀段進(jìn)行聚類而 獲得的,且所述測(cè)序讀段群是具有相似序列、相似分子標(biāo)簽的讀段群,是同一分子模板通過(guò) 擴(kuò)增被重復(fù)測(cè)序產(chǎn)生。
[0057] 根據(jù)本發(fā)明的實(shí)施例,所述相似序列是指與基因組匹配到相同起止位置。
[0058] 根據(jù)本發(fā)明的實(shí)施例,可W根據(jù)實(shí)際的目標(biāo)測(cè)序區(qū)域范圍確定預(yù)定范圍。根據(jù)本 發(fā)明的一些具體示例,(b)中的所述預(yù)定范圍是30~40化P。
[0059] 根據(jù)本發(fā)明的實(shí)施例,(ii)中進(jìn)一步包括:
[0060] (A')在預(yù)定位置,將ATCG四種堿基按深度進(jìn)行排序,W便獲得最大深度和第二深 度,W及其所對(duì)應(yīng)的堿基類型;
[0061] (B')基于所述最大深度和第二深度,確定所述預(yù)定位置的共有序列堿基類型和對(duì) 應(yīng)的質(zhì)量值。
[0062] 根據(jù)本發(fā)明的實(shí)施例,在(B')中,包括:
[0063] 確定參數(shù)C,其中參數(shù)C=(最大深度-第二深度)/最大深度;
[0064] 如果參數(shù)C不低于指定闊值,則選擇所述最大深度的堿基作為所述預(yù)定位置的共 有序列堿基類型,且該堿基的質(zhì)量值Q = 20+(ma巧C~2)/2,當(dāng)QMO時(shí),取40;如果所述參數(shù)C 小于指定闊值,則確定所述預(yù)定位置的共有序列堿基類型為不確定堿基N,相應(yīng)質(zhì)量值Q = 2。
[0065] 根據(jù)本發(fā)明的實(shí)施例,可W根據(jù)實(shí)際操作需求,確定指定闊值。根據(jù)本發(fā)明的一些 具體示例,所述指定闊值是0.65。
[0066] 根據(jù)本發(fā)明的實(shí)施例,所述共有序列中不確定堿基N的數(shù)目超過(guò)5個(gè),則獲得共有 序列失敗,過(guò)濾所述測(cè)序讀段群。
[0067] 根據(jù)本發(fā)明的實(shí)施例,(B)中進(jìn)一步包括通過(guò)下列步驟確定共有標(biāo)簽序列:
[0068] (A")將標(biāo)簽序列按深度進(jìn)行排序,W便獲得最大深度和第二深度;
[0069] (B")確定參數(shù)C,其中參數(shù)C=(最大深度-第二深度)/最大深度;
[0070] 如果參數(shù)C不低于指定闊值,則選擇所述最大深度的標(biāo)簽序列作為所述測(cè)序讀段 群的共有標(biāo)簽序列;如果所述參數(shù)小于指定闊值,則獲得共有標(biāo)簽序列失敗,過(guò)濾所述測(cè)序 讀段群。由此,能夠有效確定共有標(biāo)簽序列或過(guò)濾所述測(cè)序讀段群。
[0071] 根據(jù)本發(fā)明的另一些實(shí)施例,參照?qǐng)D1,本發(fā)明的確定測(cè)序讀段群共有序列的方法 包括W下步驟:
[0072] 1、過(guò)濾;
[0073] 測(cè)序讀段(read)聚類分群得到測(cè)序讀段群(reads groups)后,對(duì)運(yùn)些測(cè)序讀段群 按照W下條件進(jìn)行過(guò)濾:
[0074] a)對(duì)雙端比到不同染色體的read groups進(jìn)行過(guò)濾;
[00"75] b)對(duì)插入片段大小<30,或MOO的read groups進(jìn)行過(guò)濾;
[0076] 由于CfDNA的片段大小主要在16化P和330bp左右,所W插入片段大小最大不應(yīng)超 過(guò)4(K)bp;而擴(kuò)增引物的長(zhǎng)度一般為20多bp,故插入片段大小最小不應(yīng)小于30bp。
[0077] C)對(duì)read的起始位置不在擴(kuò)增引物起始位置的read groups進(jìn)行過(guò)濾;
[0078] 由于是擴(kuò)增引物的擴(kuò)增產(chǎn)物,read的起始位置應(yīng)該是引物的起始位置。
[00巧]2、確定共有序列(Consensus序列)
[0080] 基本原理;
[0081] 每個(gè)測(cè)序讀段群中的reads是同一個(gè)分子模板產(chǎn)生的,所W原則上同一個(gè)group中 的reads應(yīng)該序列一樣,且barcode-樣;但是由于在實(shí)驗(yàn)和測(cè)序過(guò)程中,不可避免存在一些 錯(cuò)誤,group中的reads會(huì)有一些錯(cuò)誤。而確定Consensus序列的過(guò)程,就是排除運(yùn)些錯(cuò)誤,得 到分子模板的真實(shí)序列。
[0082] 處理步驟:
[0083] a)針對(duì)read各個(gè)位置,進(jìn)行W下操作:
[0084] i.統(tǒng)計(jì)ATCG 4種堿基各自的深度;
[0085] ii .對(duì)ATCG4種堿基的深度從高到低排序,得到max、sec、third、fou;rth
[0086] iii .計(jì)算系數(shù)C= (max-sec)/max,若該系數(shù)0 = 0.65,貝認(rèn)為max深度的堿基即為 該位置Consensus堿基,而該Consensus堿基的質(zhì)量為Q = 20+(ma巧C~ 2)/2,當(dāng)QMO時(shí),取40; 若C<0.65,貝認(rèn)為read運(yùn)個(gè)位置的堿基不確定,Consensus序列該位置為N,相應(yīng)質(zhì)量值Q = 2。
[0087] 對(duì)read各個(gè)堿基進(jìn)行運(yùn)些操作后,得到該group的Consensus序列W及對(duì)應(yīng)的質(zhì)量 值;但Consensus序列中可能有一些堿基不確定,為N。
[0088] b)若整個(gè)read中不確定的堿基數(shù)超過(guò)5,則過(guò)濾該group;若不超過(guò)5,則進(jìn)行下一 步(C)判斷;
[0089] C)統(tǒng)計(jì)該gro叫中barcode (分子標(biāo)簽)的深度,同上方法,判斷該group中barcode 是否能確定;若不確定,則過(guò)濾該group;若確定,該group保留,且最終的Consensus序列、相 應(yīng)質(zhì)量值,W及其barcode序列都已獲得。
[0090] 測(cè)序讀段群
[0091] 如前所述,本發(fā)明的測(cè)序讀段群是對(duì)測(cè)序讀段進(jìn)行聚類而獲得的,所述測(cè)序讀段 攜帶標(biāo)簽序列。為了方便理解,下面列舉一種對(duì)測(cè)序讀段進(jìn)行聚類的方法。
[0092] 根據(jù)本發(fā)明的實(shí)施例,可W通過(guò)W下步驟對(duì)測(cè)序讀段進(jìn)行聚類,獲得測(cè)序讀段群:
[0093] (1)將多個(gè)測(cè)序讀段與參考序列進(jìn)行比對(duì),并確定各測(cè)序讀段的兩端位置,將兩端 位置一致的測(cè)序讀段歸類至相同的一級(jí)群;
[0094] (2)對(duì)屬于同一個(gè)一級(jí)群的測(cè)序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級(jí)群,將分子標(biāo) 簽序列相似的測(cè)序讀段分為同一個(gè)二級(jí)群。
[00M]根據(jù)本發(fā)明的實(shí)施例,所述步驟(2)的詳細(xì)步驟包括:
[0096] (a)確定所述一級(jí)群內(nèi)的各標(biāo)簽的深度;
[0097] (b)將所述各標(biāo)簽按深度從高到低進(jìn)行排序;
[0098] (C)針對(duì)深度由高至低的標(biāo)簽依次實(shí)施下列步驟:
[0099] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配不超過(guò)指定錯(cuò)配數(shù),則將具有所述標(biāo) 簽的測(cè)序讀段分配至所述種子標(biāo)簽子群中;
[0100] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過(guò)指定錯(cuò)配數(shù),則選擇所述標(biāo)簽為 新的種子標(biāo)簽,并將具有所述標(biāo)簽的測(cè)序讀段分配至相應(yīng)的種子標(biāo)簽子群中;
[0101] 經(jīng)過(guò)上述二級(jí)群處理后,所有的測(cè)序讀段都分成了若干個(gè)二級(jí)群,運(yùn)些二級(jí)群即 最后的分群結(jié)果。
[0102] 由此,測(cè)序讀段的聚類分群結(jié)果可靠,從而實(shí)現(xiàn)對(duì)DNA分子精確的定量,同時(shí)為后 期利用一致性序列進(jìn)行精確的超低頻突變檢測(cè)奠定堅(jiān)實(shí)的基礎(chǔ)。
[0103] 根據(jù)本發(fā)明的實(shí)施例,(C)中所述種子標(biāo)簽是指該二級(jí)群的深度最高的標(biāo)簽序列, 認(rèn)為是該群的真實(shí)的標(biāo)簽序列,同時(shí)該群中存在一些深度較低的含有錯(cuò)誤的標(biāo)簽序列。由 此,測(cè)序讀段的聚類分群結(jié)果可靠,后續(xù)測(cè)序分析結(jié)果準(zhǔn)確。
[0104] 根據(jù)本發(fā)明的實(shí)施例,在(C)中,依據(jù)所采用的測(cè)序平臺(tái)確定指定錯(cuò)配數(shù),其中,當(dāng) 采用Il Iumina測(cè)序平臺(tái)時(shí),由于Illumina測(cè)序平臺(tái)主要^mismatch (錯(cuò)配數(shù))為主要的測(cè)序 錯(cuò)誤,所WSbp的分子標(biāo)簽容1個(gè)mismatch,也即所述指定錯(cuò)配數(shù)為1。由此,聚類分群結(jié)果可 靠,后續(xù)測(cè)序分析結(jié)果準(zhǔn)確。
[0105] 下面將結(jié)合實(shí)施例對(duì)本發(fā)明的方案進(jìn)行解釋。本領(lǐng)域技術(shù)人員將會(huì)理解,下面的 實(shí)施例僅用于說(shuō)明本發(fā)明,而不應(yīng)視為限定本發(fā)明的范圍。實(shí)施例中未注明具體技術(shù)或條 件的,按照本領(lǐng)域內(nèi)的文獻(xiàn)所描述的技術(shù)或條件或者按照產(chǎn)品說(shuō)明書進(jìn)行。所用試劑或儀 器未注明生產(chǎn)廠商者,均為可W通過(guò)市購(gòu)獲得的常規(guī)產(chǎn)品,例如可W采購(gòu)自Ilhimina公司。
[0106] 實(shí)施例1:
[0107] 本實(shí)施例針對(duì)已知8個(gè)突變位點(diǎn)(如下表3所示)的突變頻率為1%和0.1%的兩個(gè) 樣本(人類),采用Sbp隨機(jī)分子標(biāo)簽對(duì)DNA分子進(jìn)行標(biāo)記,然后,采用AmpIiTaqGold貨 360Master Mix對(duì)各樣本進(jìn)行針對(duì)各已知突變位點(diǎn)的特異性引物擴(kuò)增,最后利用Illumina NS500測(cè)序平臺(tái)對(duì)各擴(kuò)增產(chǎn)物進(jìn)行75PE測(cè)序。
[0108] 然后,根據(jù)前面所述的對(duì)測(cè)序讀段進(jìn)行聚類的方法,對(duì)獲得的測(cè)序讀段進(jìn)行聚類, 獲得測(cè)序讀段群,并根據(jù)本發(fā)明的確定測(cè)序讀段群共有序列的方法,按照W下步驟,確定運(yùn) 些測(cè)序讀段群的共有序列:
[0109] 1、過(guò)濾;
[0110] 測(cè)序讀段(read)聚類分群得到測(cè)序讀段群(reads groups)后,按照W下條件對(duì)運(yùn) 些測(cè)序讀段群進(jìn)行過(guò)濾:
[0111] a)對(duì)雙端比到不同染色體的read groups進(jìn)行過(guò)濾;
[0112] b)對(duì)插入片段大小<30,或MOO的read groups進(jìn)行過(guò)濾;
[0113]由于CfDNA的片段大小主要在16化P和330bp左右,所W插入片段大小最大不應(yīng)超 過(guò)4(K)bp;而擴(kuò)增引物的長(zhǎng)度一般為20多bp,故插入片段大小最小不應(yīng)小于30bp。
[0114] C)對(duì)read的起始位置不在擴(kuò)增引物起始位置的read groups進(jìn)行過(guò)濾;
[0115] 由于是擴(kuò)增引物的擴(kuò)增產(chǎn)物,read的起始位置應(yīng)該是引物的起始位置。
[0116] 2、確定共有序列(即Consensus序列)
[0117] 基本原理;
[0118] 每個(gè)測(cè)序讀段群中的reads是同一個(gè)分子模板產(chǎn)生的,所W原則上同一個(gè)group中 的reads應(yīng)該序列一樣,且barcode-樣;但是由于在實(shí)驗(yàn)和測(cè)序過(guò)程中,不可避免存在一些 錯(cuò)誤,group中的reads會(huì)有一些錯(cuò)誤。而確定Consensus序列的過(guò)程,就是排除運(yùn)些錯(cuò)誤,得 到分子模板的真實(shí)序列。
[0119] 處理步驟:
[0120] a)針對(duì)read各個(gè)位置,進(jìn)行W下操作:
[0121] i.統(tǒng)計(jì)ATCG 4種堿基各自的深度;
[0122] ii .對(duì)ATCG4種堿基的深度從高到低排序,得到max、sec、third、fou;rth
[0123] iii .計(jì)算系數(shù)C= (max-sec)/max,若該系數(shù)0 = 0.65,則認(rèn)為max深度的堿基即為 該位置Consensus堿基,而該Consensus堿基的質(zhì)量為Q = 20+(ma巧C~ 2)/2,當(dāng)QMO時(shí),取40; 若C<0.65,貝認(rèn)為read運(yùn)個(gè)位置的堿基不確定,Consensus序列該位置為N,相應(yīng)質(zhì)量值Q = 2。
[0124] 對(duì)read各個(gè)堿基進(jìn)行運(yùn)些操作后,得到該group的Consensus序列W及對(duì)應(yīng)的質(zhì)量 值;但Consensus序列中可能有一些堿基不確定,為N。
[0125] b)若整個(gè)read中不確定的堿基數(shù)超過(guò)5,則過(guò)濾該group;若不超過(guò)5,則進(jìn)行下一 步(C)判斷;
[01%] C)統(tǒng)計(jì)該gro叩中barcode (即分子標(biāo)簽)的深度,同上方法,判斷該gro叩中 barcode是否能確定;若不確定,則過(guò)濾該group;若確定,該group保留,且最終的Consensus 序列、相應(yīng)質(zhì)量值,W及其barcode序列都已獲得。
[0127]同時(shí),統(tǒng)計(jì)各個(gè)類別過(guò)濾情況如下表1:
[012引表1
[0129]
[0131] 表1中第一列是樣本名稱,PlanASOl是突變頻率為0.1%的樣本,PlanASl是突變頻 率為1%的樣本;第二列是總reads數(shù);第S列是比對(duì)在不同染色體的reads所占的比例;第 四列是插入片段大小不在預(yù)定范圍內(nèi)的reads所占的比例;第五列是起始位置不在引物位 置的reads所占的比例;第六列是不確定堿基數(shù)大于5或者barcode序列不確定的讀段群中 reads所占的比例;第屯列是正常的能獲得一致性序列和一致性barcode序列的讀段群中 reads所占的比例。
[0132] 進(jìn)一步,統(tǒng)計(jì)讀段群數(shù)目(即一致性序列數(shù))和讀段群中的reads情況如下:
[0133] 表2 r〇134l
[0135] 表2中,第一列是樣本名稱,PlanASOl是突變頻率為0.1%的樣本,PlanASl是突變 頻率為1%的樣本;第二列是一致性序列數(shù);第S列是讀段群中的reads數(shù)。
[0136] 獲得一致性序列后,將一致性序列與人類參考基因組化gl9)進(jìn)行比對(duì),根據(jù)比對(duì) 結(jié)果進(jìn)行突變檢測(cè),檢測(cè)結(jié)果如下表3:
[0137] 表3
[01381
[0139] 表3中第一列是染色體編號(hào),第二列是突變位點(diǎn)在染色體上的位置,第=列是基因 名,第四列是基因在染色體上的方向,第五列是具體的CDS和蛋白突變信息,第六列是突變 頻率為0.1 %樣本的檢測(cè)結(jié)果,第屯列是突變頻率為1 %樣本的檢測(cè)結(jié)果(YES是檢測(cè)到,NO 是未檢測(cè)到)。
[0140] 綜上,本實(shí)施案例采用添加分子標(biāo)簽的技術(shù),結(jié)合分子標(biāo)簽聚類分群,并獲得讀段 群的一致性序列,在僅約5M reads的測(cè)序情況下,成功精確地檢測(cè)到了所有的突變頻率僅 1 %的突變,W及6個(gè)突變頻率低至0.1 %的突變,另2個(gè)0.1 %突變?cè)谔岣邷y(cè)序數(shù)據(jù)量的情況 下也能檢測(cè)到。
[0141] 目前檢測(cè)低頻突變的技術(shù),例如ARMS和Digi化1 PCR等技術(shù)才能檢測(cè)到低至0.1% 的突變,但運(yùn)些技術(shù)存在通量低,成本高,且只能檢測(cè)已知突變位點(diǎn)的缺點(diǎn),而普通的二代 測(cè)序技術(shù)只能檢測(cè)2%的突變頻率。而由本實(shí)施例的上述結(jié)果可知,本發(fā)明在添加分子標(biāo)簽 的技術(shù)基礎(chǔ)上,結(jié)合分子標(biāo)簽聚類分群,并獲得讀段群的一致性序列,即克服了ARMS和 Digital PCR等技術(shù)的缺點(diǎn),同時(shí)又成功檢測(cè)到了突變頻率低至0.1%的突變。
[0142] 在本說(shuō)明書的描述中,參考術(shù)語(yǔ)"一個(gè)實(shí)施例"、"一些實(shí)施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不 一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可W在任何 的一個(gè)或多個(gè)實(shí)施例或示例中W合適的方式結(jié)合。
[0143] 盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可W理解:在不 脫離本發(fā)明的原理和宗旨的情況下可W對(duì)運(yùn)些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本 發(fā)明的范圍由權(quán)利要求及其等同物限定。
【主權(quán)項(xiàng)】
1. 一種確定測(cè)序讀段群共有序列的方法,所述方法包括: (1) 將所述測(cè)序讀段群根據(jù)基本的比對(duì)情況進(jìn)行第一過(guò)濾,以便獲得經(jīng)過(guò)第一過(guò)濾的 測(cè)序讀段群,所述第一過(guò)濾的標(biāo)準(zhǔn)如下列: (a) 排除雙末端分別與參考序列的不同染色體匹配的測(cè)序讀段群; (b) 排除插入片段在預(yù)定范圍之外的測(cè)序讀段群;以及 (c) 排除測(cè)序讀段的起始位置與擴(kuò)增引物起始位置不同的測(cè)序讀段群; (2) 針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè),按照下列步驟確定該測(cè)序讀段群 的共有序列: (i) 在預(yù)定位置,遍歷群內(nèi)每一個(gè)測(cè)序讀段,統(tǒng)計(jì)ATCG四種堿基的各自深度; (ii) 選擇具有顯著深度優(yōu)勢(shì)的堿基作為所述預(yù)定位置的堿基類型,并根據(jù)該堿基類型 的深度等得到所述預(yù)定位置的質(zhì)量值; (iii) 針對(duì)所有位置,重復(fù)步驟(i)和(ii),以便確定所述共有序列, (3) 針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè),按照類似(2)所述的步驟確定該測(cè) 序讀段群的共有標(biāo)簽序列: (A) 遍歷群內(nèi)每一個(gè)測(cè)序讀段的標(biāo)簽序列,統(tǒng)計(jì)各標(biāo)簽序列的深度;以及 (B) 選擇具有顯著深度優(yōu)勢(shì)的標(biāo)簽序列作為該測(cè)序讀段群的共有標(biāo)簽序列。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述測(cè)序讀段群是通過(guò)對(duì)測(cè)序獲得的測(cè)序 讀段進(jìn)行聚類而獲得的,且所述測(cè)序讀段群是具有相似序列、相似分子標(biāo)簽的讀段群,很有 可能是同一分子模板通過(guò)擴(kuò)增產(chǎn)生的多個(gè)副本。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述相似序列是指與基因組匹配到相同起 止位置。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,(b)中的所述預(yù)定范圍是30~400bp。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,(ii)中進(jìn)一步包括: (A ')在預(yù)定位置,將ATCG四種堿基按深度進(jìn)行排序,以便獲得最大深度和第二深度,以 及其所對(duì)應(yīng)的堿基類型; (B')基于所述最大深度和第二深度,確定所述預(yù)定位置的共有序列堿基類型和對(duì)應(yīng)的 質(zhì)量值。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,在(B')中,包括: 確定參數(shù)C,其中參數(shù)C=(最大深度-第二深度)/最大深度; 如果參數(shù)C不低于指定閾值,則選擇所述最大深度的堿基作為所述預(yù)定位置的共有序 列堿基類型,且該堿基的質(zhì)量值0 = 20+(11^1*(:~2)/2,當(dāng)9>40時(shí),取40;如果所述參數(shù)(:小于 指定閾值,則確定所述預(yù)定位置的共有序列堿基類型為不確定堿基N,相應(yīng)質(zhì)量值Q = 2。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述指定閾值是0.65。8. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述共有序列中不確定堿基N的數(shù)目超過(guò)5 個(gè),則獲得共有序列失敗,過(guò)濾所述測(cè)序讀段群。9. 根據(jù)權(quán)利要求1所述的方法,其特征在于,(B)中進(jìn)一步包括通過(guò)下列步驟確定共有 標(biāo)簽序列: (A")將標(biāo)簽序列按深度進(jìn)行排序,以便獲得最大深度和第二深度; (B")確定參數(shù)C,其中參數(shù)C=(最大深度-第二深度)/最大深度;
【文檔編號(hào)】G06F19/18GK106021986SQ201610348484
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年5月24日
【發(fā)明人】曾華萍, 宋卓, 袁夢(mèng)兮
【申請(qǐng)人】人和未來(lái)生物科技(長(zhǎng)沙)有限公司