超低頻突變分子一致性序列簡(jiǎn)并算法

文檔序號(hào)：10655795閱讀：355來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

超低頻突變分子一致性序列簡(jiǎn)并算法
【專利摘要】本發(fā)明公開(kāi)了一種確定測(cè)序讀段群共有序列的方法，該方法包括：(1)將所述測(cè)序讀段群根據(jù)基本的比對(duì)情況進(jìn)行第一過(guò)濾，以便獲得經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群，(2)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè)，確定該測(cè)序讀段群的共有序列，(3)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè)，類似(2)所述的步驟確定該測(cè)序讀段群的共有標(biāo)簽序列。通過(guò)該方法能夠有效確定來(lái)源于同一DNA分子經(jīng)多次重復(fù)測(cè)序而得到的測(cè)序讀段群的共有序列，從而實(shí)現(xiàn)對(duì)DNA分子和突變精確的定量，同時(shí)消除測(cè)序錯(cuò)誤等對(duì)結(jié)果的影響，保障結(jié)果的準(zhǔn)確性。
【專利說(shuō)明】
超低頻突變分子一致性序列簡(jiǎn)并算法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及測(cè)序技術(shù)領(lǐng)域，特別是超低頻突變分子一致性序列簡(jiǎn)并算法，具體地，本發(fā)明設(shè)及確定測(cè)序讀段群共有序列的方法。
【背景技術(shù)】
[0002] 隨著二代測(cè)序的迅速發(fā)展，測(cè)序費(fèi)用的降低，二代測(cè)序在各個(gè)方面的檢測(cè)研究中得到了越來(lái)越廣泛的應(yīng)用。而相對(duì)于全基因組測(cè)序，目標(biāo)區(qū)間測(cè)序能大幅度降低測(cè)序成本和數(shù)據(jù)的復(fù)雜性，使我們感興趣的目標(biāo)區(qū)間在較低的成本的同時(shí)達(dá)到很高的測(cè)序覆蓋度，運(yùn)使得檢測(cè)癌癥突變中的低頻突變成為了可能。
[0003] 目標(biāo)區(qū)間測(cè)序方法中，采用特異性引物對(duì)目標(biāo)區(qū)間進(jìn)行PCR擴(kuò)增的方法由于其操作簡(jiǎn)單、快速，且只需少量DNA等優(yōu)點(diǎn)，已被人們廣泛應(yīng)用。然而，特異性引物擴(kuò)增測(cè)序中，不可避免會(huì)存在嚴(yán)重的擴(kuò)增偏好性，同時(shí)也存在擴(kuò)增測(cè)序引入的各種錯(cuò)誤。運(yùn)些問(wèn)題一方面直接影響定量的準(zhǔn)確性，因?yàn)闇y(cè)序數(shù)據(jù)中的數(shù)量已不能代表原始DNA片段的數(shù)量;另一方面會(huì)影響分析結(jié)果的準(zhǔn)確性，引入大量的假陽(yáng)性。而在腫瘤突變研究中，由于腫瘤的高異質(zhì) 性，存在大量的低頻突變，使得運(yùn)些問(wèn)題尤為突出。
[0004] 因而，目前的特異性引物擴(kuò)增測(cè)序仍有待改進(jìn)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一。為此，本發(fā)明的一個(gè)目的在于提出一種確定測(cè)序讀段群共有序列的方法，從而實(shí)現(xiàn)對(duì)DNA分子和突變精確的定量，同時(shí)消除測(cè)序錯(cuò)誤等對(duì)結(jié)果的影響，保障結(jié)果的準(zhǔn)確性。
[0006] 需要說(shuō)明的是，本發(fā)明是基于發(fā)明人的下列工作而完成的：
[0007] 現(xiàn)階段，針對(duì)特異性引物擴(kuò)增測(cè)序的上述問(wèn)題，研究者引入了分子標(biāo)簽，在原始 DNA分子上連接一段能代表該DNA分子的unique標(biāo)簽序列。不同的DNA分子連接不同的分子標(biāo)簽，通過(guò)分子標(biāo)簽序列可W準(zhǔn)確的識(shí)另化NA分子。分子標(biāo)簽的引入，可W對(duì)DNA分子和突變進(jìn)行準(zhǔn)確的定量，同時(shí)也可W降低甚至消除由擴(kuò)增和測(cè)序等造成的錯(cuò)誤。
[000引針對(duì)添加分子標(biāo)簽的二代測(cè)序數(shù)據(jù)，在數(shù)據(jù)處理時(shí)，需要根據(jù)其分子標(biāo)簽將reads 進(jìn)行分群，將reads起止位置一樣，且分子標(biāo)簽也一樣的reads分為一群，認(rèn)為運(yùn)是由同一個(gè) DNA分子片段通過(guò)PCR擴(kuò)增生成的多個(gè)復(fù)本。然后針對(duì)每個(gè)群，找到其最終的一致性序列(在本文中，也將"一致性序列"稱為"共有序列"），即是該群所對(duì)應(yīng)的原始DNA分子的序列。最后，再利用運(yùn)些一致性序列進(jìn)行后續(xù)的突變檢測(cè)等分析。
[0009]然而，由于實(shí)驗(yàn)中對(duì)添加分子標(biāo)簽后的分子模板進(jìn)行PCR擴(kuò)增，同一個(gè)分子模板會(huì) 產(chǎn)生一群一模一樣的子分子;但在實(shí)驗(yàn)測(cè)序過(guò)程中，又不可避免引入一些錯(cuò)誤，最后得到一些含有少量錯(cuò)誤的分子模板被多次重復(fù)測(cè)序的化S化數(shù)據(jù)。發(fā)明人針對(duì)運(yùn)種情況，致力于根據(jù)分子標(biāo)簽和read(測(cè)序讀段)的自身序列（與基因組的比對(duì)位置），在考慮測(cè)序錯(cuò)誤的前提下，把來(lái)源于同一個(gè)分子模板的reads進(jìn)行聚類分群，從而得到測(cè)序讀段群;進(jìn)一步，針對(duì)聚類分群后的測(cè)序讀段群，獲得各測(cè)序讀段群的共有序列(Consensus序列）。
[0010] 進(jìn)而，在本發(fā)明的第一方面，本發(fā)明提供了一種確定測(cè)序讀段群共有序列的方法。根據(jù)本發(fā)明的實(shí)施例，所述方法包括：
[0011] (1)將所述測(cè)序讀段群根據(jù)基本的比對(duì)情況進(jìn)行第一過(guò)濾，W便獲得經(jīng)過(guò)第一過(guò) 濾的測(cè)序讀段群，所述第一過(guò)濾的標(biāo)準(zhǔn)如下列：
[0012] (a)排除雙末端分別與參考序列的不同染色體匹配的測(cè)序讀段群；
[0013] (b)排除插入片段在預(yù)定范圍之外的測(cè)序讀段群；W及
[0014] (C)排除測(cè)序讀段的起始位置與擴(kuò)增引物起始位置不同的測(cè)序讀段群；
[0015] (2)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè)，按照下列步驟確定該測(cè)序讀段群的共有序列：
[0016] (i)在預(yù)定位置，遍歷群內(nèi)每一個(gè)測(cè)序讀段，統(tǒng)計(jì)ATCG四種堿基的各自深度；
[0017] (ii)選擇具有顯著深度優(yōu)勢(shì)的堿基作為所述預(yù)定位置的堿基類型，并根據(jù)該堿基類型的深度等得到所述預(yù)定位置的質(zhì)量值；
[0018] (i i i)針對(duì)所有位置，重復(fù)步驟(i)和(i i)，W便確定所述共有序列，
[0019] (3)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè)，按照類似(2)所述的步驟確定該測(cè)序讀段群的共有標(biāo)簽序列：
[0020] (A)遍歷群內(nèi)每一個(gè)測(cè)序讀段的標(biāo)簽序列，統(tǒng)計(jì)各標(biāo)簽序列的深度；W及
[0021] (B)選擇具有顯著深度優(yōu)勢(shì)的標(biāo)簽序列作為該測(cè)序讀段群的共有標(biāo)簽序列。
[0022] 通過(guò)本發(fā)明的方法能夠有效確定來(lái)源于同一 DNA分子經(jīng)多次重復(fù)測(cè)序而得到的測(cè) 序讀段群的共有序列，從而實(shí)現(xiàn)對(duì)DNA分子和突變精確的定量，同時(shí)消除測(cè)序錯(cuò)誤等對(duì)結(jié)果的影響，保障結(jié)果的準(zhǔn)確性。
[0023] 根據(jù)本發(fā)明的實(shí)施例，所述測(cè)序讀段群是通過(guò)對(duì)測(cè)序獲得的測(cè)序讀段進(jìn)行聚類而獲得的，且所述測(cè)序讀段群是具有相似序列、相似分子標(biāo)簽的讀段群，很有可能是同一分子模板通過(guò)擴(kuò)增產(chǎn)生的多個(gè)副本(即duplicate)。
[0024] 根據(jù)本發(fā)明的實(shí)施例，所述相似序列是指與基因組匹配到相同起止位置。
[0025] 根據(jù)本發(fā)明的一些具體示例，（b)中的所述預(yù)定范圍是30~40化P。
[0026] 根據(jù)本發(fā)明的實(shí)施例，（i i)中進(jìn)一步包括：
[0027] (A'）在預(yù)定位置，將ATCG四種堿基按深度進(jìn)行排序，W便獲得最大深度和第二深度，W及其所對(duì)應(yīng)的堿基類型；
[0028] (B'）基于所述最大深度和第二深度，確定所述預(yù)定位置的共有序列堿基類型和對(duì) 應(yīng)的質(zhì)量值。
[0029] 根據(jù)本發(fā)明的實(shí)施例，在(B'）中，包括：
[0030] 確定參數(shù)C，其中參數(shù)C =(最大深度-第二深度)/最大深度；
[0031] 如果參數(shù)C不低于指定闊值，則選擇所述最大深度的堿基作為所述預(yù)定位置的共有序列堿基類型，且該堿基的質(zhì)量值Q = 20+(ma巧C~2)/2,當(dāng)QMO時(shí)，取40;如果所述參數(shù)C 小于指定闊值，則確定所述預(yù)定位置的共有序列堿基類型為不確定堿基N，相應(yīng)質(zhì)量值Q = 2。
[0032] 根據(jù)本發(fā)明的一些具體示例，所述指定闊值是0.65。
[0033] 根據(jù)本發(fā)明的實(shí)施例，所述共有序列中不確定堿基N的數(shù)目超過(guò)5個(gè)，則獲得共有序列失敗，過(guò)濾所述測(cè)序讀段群。
[0034] 根據(jù)本發(fā)明的實(shí)施例，（B)中進(jìn)一步包括通過(guò)下列步驟確定共有標(biāo)簽序列：
[0035] (A")將標(biāo)簽序列按深度進(jìn)行排序，W便獲得最大深度和第二深度；
[0036] (B")確定參數(shù)C，其中參數(shù)C=(最大深度-第二深度)/最大深度；
[0037] 如果參數(shù)C不低于指定闊值，則選擇所述最大深度的標(biāo)簽序列作為所述測(cè)序讀段群的共有標(biāo)簽序列；如果所述參數(shù)小于指定闊值，則獲得共有標(biāo)簽序列失敗，過(guò)濾所述測(cè)序讀段群。由此，能夠有效確定共有標(biāo)簽序列或過(guò)濾所述測(cè)序讀段群。
[0038] 本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0039] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中：
[0040] 圖1顯示了根據(jù)本發(fā)明實(shí)施例的確定測(cè)序讀段群共有序列的方法的流程示意圖。
【具體實(shí)施方式】
[0041] 下面詳細(xì)描述本發(fā)明的實(shí)施例。下面描述的實(shí)施例是示例性的，僅用于解釋本發(fā) 明，而不能理解為對(duì)本發(fā)明的限制。
[0042] 確定測(cè)序讀段群共有序列的方法
[0043] 在本發(fā)明的第一方面，本發(fā)明提供了一種確定測(cè)序讀段群共有序列的方法。根據(jù) 本發(fā)明的實(shí)施例，所述方法包括：
[0044] (1)將所述測(cè)序讀段群根據(jù)基本的比對(duì)情況進(jìn)行第一過(guò)濾，W便獲得經(jīng)過(guò)第一過(guò) 濾的測(cè)序讀段群，所述第一過(guò)濾的標(biāo)準(zhǔn)如下列：
[0045] (a)排除雙末端分別與參考序列的不同染色體匹配的測(cè)序讀段群；
[0046] (b)排除插入片段在預(yù)定范圍之外的測(cè)序讀段群；W及
[0047] (C)排除測(cè)序讀段的起始位置與擴(kuò)增引物起始位置不同的測(cè)序讀段群；
[0048] (2)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè)，按照下列步驟確定該測(cè)序讀段群的共有序列：
[0049] (i)在預(yù)定位置，遍歷群內(nèi)每一個(gè)測(cè)序讀段，統(tǒng)計(jì)ATCG四種堿基的各自深度；
[0050] (ii)選擇具有顯著深度優(yōu)勢(shì)的堿基作為所述預(yù)定位置的堿基類型，并根據(jù)該堿基類型的深度等得到所述預(yù)定位置的質(zhì)量值；
[0051] (iii)針對(duì)所有位置，重復(fù)步驟(i)和(ii)，W便確定所述共有序列，
[0052] (3)針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè)，按照類似(2)所述的步驟確定該測(cè)序讀段群的共有標(biāo)簽序列：
[0053] (A)遍歷群內(nèi)每一個(gè)測(cè)序讀段的標(biāo)簽序列，統(tǒng)計(jì)各標(biāo)簽序列的深度；W及
[0054] (B)選擇具有顯著深度優(yōu)勢(shì)的標(biāo)簽序列作為該測(cè)序讀段群的共有標(biāo)簽序列。
[0055] 由此，通過(guò)本發(fā)明的方法能夠有效確定來(lái)源于同一 DNA分子經(jīng)多次重復(fù)測(cè)序而得到的測(cè)序讀段群的共有序列，從而實(shí)現(xiàn)對(duì)DNA分子和突變精確的定量，同時(shí)消除測(cè)序錯(cuò)誤等對(duì)結(jié)果的影響，保障結(jié)果的準(zhǔn)確性。
[0056] 根據(jù)本發(fā)明的實(shí)施例，所述測(cè)序讀段群是通過(guò)對(duì)測(cè)序獲得的測(cè)序讀段進(jìn)行聚類而獲得的，且所述測(cè)序讀段群是具有相似序列、相似分子標(biāo)簽的讀段群，是同一分子模板通過(guò) 擴(kuò)增被重復(fù)測(cè)序產(chǎn)生。
[0057] 根據(jù)本發(fā)明的實(shí)施例，所述相似序列是指與基因組匹配到相同起止位置。
[0058] 根據(jù)本發(fā)明的實(shí)施例，可W根據(jù)實(shí)際的目標(biāo)測(cè)序區(qū)域范圍確定預(yù)定范圍。根據(jù)本發(fā)明的一些具體示例，（b)中的所述預(yù)定范圍是30~40化P。
[0059] 根據(jù)本發(fā)明的實(shí)施例，（ii)中進(jìn)一步包括：
[0060] (A'）在預(yù)定位置，將ATCG四種堿基按深度進(jìn)行排序，W便獲得最大深度和第二深度，W及其所對(duì)應(yīng)的堿基類型；
[0061] (B'）基于所述最大深度和第二深度，確定所述預(yù)定位置的共有序列堿基類型和對(duì) 應(yīng)的質(zhì)量值。
[0062] 根據(jù)本發(fā)明的實(shí)施例，在(B'）中，包括：
[0063] 確定參數(shù)C，其中參數(shù)C=(最大深度-第二深度)/最大深度；
[0064] 如果參數(shù)C不低于指定闊值，則選擇所述最大深度的堿基作為所述預(yù)定位置的共有序列堿基類型，且該堿基的質(zhì)量值Q = 20+(ma巧C~2)/2,當(dāng)QMO時(shí)，取40;如果所述參數(shù)C 小于指定闊值，則確定所述預(yù)定位置的共有序列堿基類型為不確定堿基N，相應(yīng)質(zhì)量值Q = 2。
[0065] 根據(jù)本發(fā)明的實(shí)施例，可W根據(jù)實(shí)際操作需求，確定指定闊值。根據(jù)本發(fā)明的一些具體示例，所述指定闊值是0.65。
[0066] 根據(jù)本發(fā)明的實(shí)施例，所述共有序列中不確定堿基N的數(shù)目超過(guò)5個(gè)，則獲得共有序列失敗，過(guò)濾所述測(cè)序讀段群。
[0067] 根據(jù)本發(fā)明的實(shí)施例，（B)中進(jìn)一步包括通過(guò)下列步驟確定共有標(biāo)簽序列：
[0068] (A")將標(biāo)簽序列按深度進(jìn)行排序，W便獲得最大深度和第二深度；
[0069] (B")確定參數(shù)C，其中參數(shù)C=(最大深度-第二深度)/最大深度；
[0070] 如果參數(shù)C不低于指定闊值，則選擇所述最大深度的標(biāo)簽序列作為所述測(cè)序讀段群的共有標(biāo)簽序列；如果所述參數(shù)小于指定闊值，則獲得共有標(biāo)簽序列失敗，過(guò)濾所述測(cè)序讀段群。由此，能夠有效確定共有標(biāo)簽序列或過(guò)濾所述測(cè)序讀段群。
[0071] 根據(jù)本發(fā)明的另一些實(shí)施例，參照?qǐng)D1，本發(fā)明的確定測(cè)序讀段群共有序列的方法包括W下步驟：
[0072] 1、過(guò)濾；
[0073] 測(cè)序讀段(read)聚類分群得到測(cè)序讀段群(reads groups)后，對(duì)運(yùn)些測(cè)序讀段群按照W下條件進(jìn)行過(guò)濾：
[0074] a)對(duì)雙端比到不同染色體的read groups進(jìn)行過(guò)濾；
[00"75] b)對(duì)插入片段大小<30,或MOO的read groups進(jìn)行過(guò)濾；
[0076] 由于CfDNA的片段大小主要在16化P和330bp左右，所W插入片段大小最大不應(yīng)超過(guò)4(K)bp;而擴(kuò)增引物的長(zhǎng)度一般為20多bp，故插入片段大小最小不應(yīng)小于30bp。
[0077] C)對(duì)read的起始位置不在擴(kuò)增引物起始位置的read groups進(jìn)行過(guò)濾；
[0078] 由于是擴(kuò)增引物的擴(kuò)增產(chǎn)物，read的起始位置應(yīng)該是引物的起始位置。
[00巧]2、確定共有序列（Consensus序列）
[0080] 基本原理；
[0081] 每個(gè)測(cè)序讀段群中的reads是同一個(gè)分子模板產(chǎn)生的，所W原則上同一個(gè)group中的reads應(yīng)該序列一樣，且barcode-樣;但是由于在實(shí)驗(yàn)和測(cè)序過(guò)程中，不可避免存在一些錯(cuò)誤，group中的reads會(huì)有一些錯(cuò)誤。而確定Consensus序列的過(guò)程，就是排除運(yùn)些錯(cuò)誤，得到分子模板的真實(shí)序列。
[0082] 處理步驟：
[0083] a)針對(duì)read各個(gè)位置，進(jìn)行W下操作：
[0084] i.統(tǒng)計(jì)ATCG 4種堿基各自的深度；
[0085] ii .對(duì)ATCG4種堿基的深度從高到低排序，得到max、sec、third、fou;rth
[0086] iii .計(jì)算系數(shù)C= (max-sec)/max,若該系數(shù)0 = 0.65,貝認(rèn)為max深度的堿基即為該位置Consensus堿基，而該Consensus堿基的質(zhì)量為Q = 20+(ma巧C~ 2)/2，當(dāng)QMO時(shí)，取40; 若C<0.65，貝認(rèn)為read運(yùn)個(gè)位置的堿基不確定，Consensus序列該位置為N，相應(yīng)質(zhì)量值Q = 2。
[0087] 對(duì)read各個(gè)堿基進(jìn)行運(yùn)些操作后，得到該group的Consensus序列W及對(duì)應(yīng)的質(zhì)量值;但Consensus序列中可能有一些堿基不確定，為N。
[0088] b)若整個(gè)read中不確定的堿基數(shù)超過(guò)5，則過(guò)濾該group;若不超過(guò)5，則進(jìn)行下一步(C)判斷；
[0089] C)統(tǒng)計(jì)該gro叫中barcode (分子標(biāo)簽）的深度，同上方法，判斷該group中barcode 是否能確定;若不確定，則過(guò)濾該group;若確定，該group保留，且最終的Consensus序列、相應(yīng)質(zhì)量值，W及其barcode序列都已獲得。
[0090] 測(cè)序讀段群
[0091] 如前所述，本發(fā)明的測(cè)序讀段群是對(duì)測(cè)序讀段進(jìn)行聚類而獲得的，所述測(cè)序讀段攜帶標(biāo)簽序列。為了方便理解，下面列舉一種對(duì)測(cè)序讀段進(jìn)行聚類的方法。
[0092] 根據(jù)本發(fā)明的實(shí)施例，可W通過(guò)W下步驟對(duì)測(cè)序讀段進(jìn)行聚類，獲得測(cè)序讀段群：
[0093] (1)將多個(gè)測(cè)序讀段與參考序列進(jìn)行比對(duì)，并確定各測(cè)序讀段的兩端位置，將兩端位置一致的測(cè)序讀段歸類至相同的一級(jí)群；
[0094] (2)對(duì)屬于同一個(gè)一級(jí)群的測(cè)序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級(jí)群，將分子標(biāo) 簽序列相似的測(cè)序讀段分為同一個(gè)二級(jí)群。
[00M]根據(jù)本發(fā)明的實(shí)施例，所述步驟(2)的詳細(xì)步驟包括：
[0096] (a)確定所述一級(jí)群內(nèi)的各標(biāo)簽的深度；
[0097] (b)將所述各標(biāo)簽按深度從高到低進(jìn)行排序；
[0098] (C)針對(duì)深度由高至低的標(biāo)簽依次實(shí)施下列步驟：
[0099] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配不超過(guò)指定錯(cuò)配數(shù)，則將具有所述標(biāo) 簽的測(cè)序讀段分配至所述種子標(biāo)簽子群中；
[0100] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過(guò)指定錯(cuò)配數(shù)，則選擇所述標(biāo)簽為新的種子標(biāo)簽，并將具有所述標(biāo)簽的測(cè)序讀段分配至相應(yīng)的種子標(biāo)簽子群中；
[0101] 經(jīng)過(guò)上述二級(jí)群處理后，所有的測(cè)序讀段都分成了若干個(gè)二級(jí)群，運(yùn)些二級(jí)群即最后的分群結(jié)果。
[0102] 由此，測(cè)序讀段的聚類分群結(jié)果可靠，從而實(shí)現(xiàn)對(duì)DNA分子精確的定量，同時(shí)為后期利用一致性序列進(jìn)行精確的超低頻突變檢測(cè)奠定堅(jiān)實(shí)的基礎(chǔ)。
[0103] 根據(jù)本發(fā)明的實(shí)施例，（C)中所述種子標(biāo)簽是指該二級(jí)群的深度最高的標(biāo)簽序列，認(rèn)為是該群的真實(shí)的標(biāo)簽序列，同時(shí)該群中存在一些深度較低的含有錯(cuò)誤的標(biāo)簽序列。由此，測(cè)序讀段的聚類分群結(jié)果可靠，后續(xù)測(cè)序分析結(jié)果準(zhǔn)確。
[0104] 根據(jù)本發(fā)明的實(shí)施例，在(C)中，依據(jù)所采用的測(cè)序平臺(tái)確定指定錯(cuò)配數(shù)，其中，當(dāng) 采用Il Iumina測(cè)序平臺(tái)時(shí)，由于Illumina測(cè)序平臺(tái)主要^mismatch (錯(cuò)配數(shù))為主要的測(cè)序錯(cuò)誤，所WSbp的分子標(biāo)簽容1個(gè)mismatch,也即所述指定錯(cuò)配數(shù)為1。由此，聚類分群結(jié)果可靠，后續(xù)測(cè)序分析結(jié)果準(zhǔn)確。
[0105] 下面將結(jié)合實(shí)施例對(duì)本發(fā)明的方案進(jìn)行解釋。本領(lǐng)域技術(shù)人員將會(huì)理解，下面的實(shí)施例僅用于說(shuō)明本發(fā)明，而不應(yīng)視為限定本發(fā)明的范圍。實(shí)施例中未注明具體技術(shù)或條件的，按照本領(lǐng)域內(nèi)的文獻(xiàn)所描述的技術(shù)或條件或者按照產(chǎn)品說(shuō)明書進(jìn)行。所用試劑或儀器未注明生產(chǎn)廠商者，均為可W通過(guò)市購(gòu)獲得的常規(guī)產(chǎn)品，例如可W采購(gòu)自Ilhimina公司。
[0106] 實(shí)施例1:
[0107] 本實(shí)施例針對(duì)已知8個(gè)突變位點(diǎn)（如下表3所示）的突變頻率為1%和0.1%的兩個(gè) 樣本（人類），采用Sbp隨機(jī)分子標(biāo)簽對(duì)DNA分子進(jìn)行標(biāo)記，然后，采用AmpIiTaqGold貨 360Master Mix對(duì)各樣本進(jìn)行針對(duì)各已知突變位點(diǎn)的特異性引物擴(kuò)增，最后利用Illumina NS500測(cè)序平臺(tái)對(duì)各擴(kuò)增產(chǎn)物進(jìn)行75PE測(cè)序。
[0108] 然后，根據(jù)前面所述的對(duì)測(cè)序讀段進(jìn)行聚類的方法，對(duì)獲得的測(cè)序讀段進(jìn)行聚類，獲得測(cè)序讀段群，并根據(jù)本發(fā)明的確定測(cè)序讀段群共有序列的方法，按照W下步驟，確定運(yùn) 些測(cè)序讀段群的共有序列：
[0109] 1、過(guò)濾；
[0110] 測(cè)序讀段(read)聚類分群得到測(cè)序讀段群(reads groups)后，按照W下條件對(duì)運(yùn) 些測(cè)序讀段群進(jìn)行過(guò)濾：
[0111] a)對(duì)雙端比到不同染色體的read groups進(jìn)行過(guò)濾；
[0112] b)對(duì)插入片段大小<30,或MOO的read groups進(jìn)行過(guò)濾；
[0113]由于CfDNA的片段大小主要在16化P和330bp左右，所W插入片段大小最大不應(yīng)超過(guò)4(K)bp;而擴(kuò)增引物的長(zhǎng)度一般為20多bp，故插入片段大小最小不應(yīng)小于30bp。
[0114] C)對(duì)read的起始位置不在擴(kuò)增引物起始位置的read groups進(jìn)行過(guò)濾；
[0115] 由于是擴(kuò)增引物的擴(kuò)增產(chǎn)物，read的起始位置應(yīng)該是引物的起始位置。
[0116] 2、確定共有序列（即Consensus序列）
[0117] 基本原理；
[0118] 每個(gè)測(cè)序讀段群中的reads是同一個(gè)分子模板產(chǎn)生的，所W原則上同一個(gè)group中的reads應(yīng)該序列一樣，且barcode-樣;但是由于在實(shí)驗(yàn)和測(cè)序過(guò)程中，不可避免存在一些錯(cuò)誤，group中的reads會(huì)有一些錯(cuò)誤。而確定Consensus序列的過(guò)程，就是排除運(yùn)些錯(cuò)誤，得到分子模板的真實(shí)序列。
[0119] 處理步驟：
[0120] a)針對(duì)read各個(gè)位置，進(jìn)行W下操作：
[0121] i.統(tǒng)計(jì)ATCG 4種堿基各自的深度；
[0122] ii .對(duì)ATCG4種堿基的深度從高到低排序，得到max、sec、third、fou;rth
[0123] iii .計(jì)算系數(shù)C= (max-sec)/max,若該系數(shù)0 = 0.65,則認(rèn)為max深度的堿基即為該位置Consensus堿基，而該Consensus堿基的質(zhì)量為Q = 20+(ma巧C~ 2)/2，當(dāng)QMO時(shí)，取40; 若C<0.65，貝認(rèn)為read運(yùn)個(gè)位置的堿基不確定，Consensus序列該位置為N，相應(yīng)質(zhì)量值Q = 2。
[0124] 對(duì)read各個(gè)堿基進(jìn)行運(yùn)些操作后，得到該group的Consensus序列W及對(duì)應(yīng)的質(zhì)量值;但Consensus序列中可能有一些堿基不確定，為N。
[0125] b)若整個(gè)read中不確定的堿基數(shù)超過(guò)5，則過(guò)濾該group;若不超過(guò)5，則進(jìn)行下一步(C)判斷；
[01%] C)統(tǒng)計(jì)該gro叩中barcode (即分子標(biāo)簽）的深度，同上方法，判斷該gro叩中 barcode是否能確定；若不確定，則過(guò)濾該group;若確定，該group保留，且最終的Consensus 序列、相應(yīng)質(zhì)量值，W及其barcode序列都已獲得。
[0127]同時(shí)，統(tǒng)計(jì)各個(gè)類別過(guò)濾情況如下表1:
[012引表1
[0129]
[0131] 表1中第一列是樣本名稱，PlanASOl是突變頻率為0.1%的樣本，PlanASl是突變頻率為1%的樣本;第二列是總reads數(shù);第S列是比對(duì)在不同染色體的reads所占的比例；第四列是插入片段大小不在預(yù)定范圍內(nèi)的reads所占的比例；第五列是起始位置不在引物位置的reads所占的比例；第六列是不確定堿基數(shù)大于5或者barcode序列不確定的讀段群中 reads所占的比例；第屯列是正常的能獲得一致性序列和一致性barcode序列的讀段群中 reads所占的比例。
[0132] 進(jìn)一步，統(tǒng)計(jì)讀段群數(shù)目（即一致性序列數(shù))和讀段群中的reads情況如下：
[0133] 表2 r〇134l
[0135] 表2中，第一列是樣本名稱，PlanASOl是突變頻率為0.1%的樣本，PlanASl是突變頻率為1%的樣本;第二列是一致性序列數(shù);第S列是讀段群中的reads數(shù)。
[0136] 獲得一致性序列后，將一致性序列與人類參考基因組化gl9)進(jìn)行比對(duì)，根據(jù)比對(duì) 結(jié)果進(jìn)行突變檢測(cè)，檢測(cè)結(jié)果如下表3:
[0137] 表3
[01381
[0139] 表3中第一列是染色體編號(hào)，第二列是突變位點(diǎn)在染色體上的位置，第=列是基因名，第四列是基因在染色體上的方向，第五列是具體的CDS和蛋白突變信息，第六列是突變頻率為0.1 %樣本的檢測(cè)結(jié)果，第屯列是突變頻率為1 %樣本的檢測(cè)結(jié)果(YES是檢測(cè)到，NO 是未檢測(cè)到）。
[0140] 綜上，本實(shí)施案例采用添加分子標(biāo)簽的技術(shù)，結(jié)合分子標(biāo)簽聚類分群，并獲得讀段群的一致性序列，在僅約5M reads的測(cè)序情況下，成功精確地檢測(cè)到了所有的突變頻率僅 1 %的突變，W及6個(gè)突變頻率低至0.1 %的突變，另2個(gè)0.1 %突變?cè)谔岣邷y(cè)序數(shù)據(jù)量的情況下也能檢測(cè)到。
[0141] 目前檢測(cè)低頻突變的技術(shù)，例如ARMS和Digi化1 PCR等技術(shù)才能檢測(cè)到低至0.1% 的突變，但運(yùn)些技術(shù)存在通量低，成本高，且只能檢測(cè)已知突變位點(diǎn)的缺點(diǎn)，而普通的二代測(cè)序技術(shù)只能檢測(cè)2%的突變頻率。而由本實(shí)施例的上述結(jié)果可知，本發(fā)明在添加分子標(biāo)簽的技術(shù)基礎(chǔ)上，結(jié)合分子標(biāo)簽聚類分群，并獲得讀段群的一致性序列，即克服了ARMS和 Digital PCR等技術(shù)的缺點(diǎn)，同時(shí)又成功檢測(cè)到了突變頻率低至0.1%的突變。
[0142] 在本說(shuō)明書的描述中，參考術(shù)語(yǔ)"一個(gè)實(shí)施例"、"一些實(shí)施例"、"示例"、"具體示例"、或"一些示例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書中，對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且，描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可W在任何的一個(gè)或多個(gè)實(shí)施例或示例中W合適的方式結(jié)合。
[0143] 盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例，本領(lǐng)域的普通技術(shù)人員可W理解:在不脫離本發(fā)明的原理和宗旨的情況下可W對(duì)運(yùn)些實(shí)施例進(jìn)行多種變化、修改、替換和變型，本發(fā)明的范圍由權(quán)利要求及其等同物限定。
【主權(quán)項(xiàng)】
1. 一種確定測(cè)序讀段群共有序列的方法，所述方法包括： (1) 將所述測(cè)序讀段群根據(jù)基本的比對(duì)情況進(jìn)行第一過(guò)濾，以便獲得經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群，所述第一過(guò)濾的標(biāo)準(zhǔn)如下列： (a) 排除雙末端分別與參考序列的不同染色體匹配的測(cè)序讀段群； (b) 排除插入片段在預(yù)定范圍之外的測(cè)序讀段群；以及 (c) 排除測(cè)序讀段的起始位置與擴(kuò)增引物起始位置不同的測(cè)序讀段群； (2) 針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè)，按照下列步驟確定該測(cè)序讀段群的共有序列： (i) 在預(yù)定位置，遍歷群內(nèi)每一個(gè)測(cè)序讀段，統(tǒng)計(jì)ATCG四種堿基的各自深度； (ii) 選擇具有顯著深度優(yōu)勢(shì)的堿基作為所述預(yù)定位置的堿基類型，并根據(jù)該堿基類型的深度等得到所述預(yù)定位置的質(zhì)量值； (iii) 針對(duì)所有位置，重復(fù)步驟(i)和(ii)，以便確定所述共有序列， (3) 針對(duì)所述經(jīng)過(guò)第一過(guò)濾的測(cè)序讀段群的每一個(gè)，按照類似(2)所述的步驟確定該測(cè) 序讀段群的共有標(biāo)簽序列： (A) 遍歷群內(nèi)每一個(gè)測(cè)序讀段的標(biāo)簽序列，統(tǒng)計(jì)各標(biāo)簽序列的深度；以及 (B) 選擇具有顯著深度優(yōu)勢(shì)的標(biāo)簽序列作為該測(cè)序讀段群的共有標(biāo)簽序列。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述測(cè)序讀段群是通過(guò)對(duì)測(cè)序獲得的測(cè)序讀段進(jìn)行聚類而獲得的，且所述測(cè)序讀段群是具有相似序列、相似分子標(biāo)簽的讀段群，很有可能是同一分子模板通過(guò)擴(kuò)增產(chǎn)生的多個(gè)副本。3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述相似序列是指與基因組匹配到相同起止位置。4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，（b)中的所述預(yù)定范圍是30~400bp。5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，（ii)中進(jìn)一步包括： (A '）在預(yù)定位置，將ATCG四種堿基按深度進(jìn)行排序，以便獲得最大深度和第二深度，以及其所對(duì)應(yīng)的堿基類型； (B'）基于所述最大深度和第二深度，確定所述預(yù)定位置的共有序列堿基類型和對(duì)應(yīng)的質(zhì)量值。6. 根據(jù)權(quán)利要求5所述的方法，其特征在于，在(B'）中，包括：確定參數(shù)C，其中參數(shù)C=(最大深度-第二深度)/最大深度；如果參數(shù)C不低于指定閾值，則選擇所述最大深度的堿基作為所述預(yù)定位置的共有序列堿基類型，且該堿基的質(zhì)量值0 = 20+(11^1*(：~2)/2，當(dāng)9>40時(shí)，取40;如果所述參數(shù)(：小于指定閾值，則確定所述預(yù)定位置的共有序列堿基類型為不確定堿基N，相應(yīng)質(zhì)量值Q = 2。7. 根據(jù)權(quán)利要求6所述的方法，其特征在于，所述指定閾值是0.65。8. 根據(jù)權(quán)利要求6所述的方法，其特征在于，所述共有序列中不確定堿基N的數(shù)目超過(guò)5 個(gè)，則獲得共有序列失敗，過(guò)濾所述測(cè)序讀段群。9. 根據(jù)權(quán)利要求1所述的方法，其特征在于，（B)中進(jìn)一步包括通過(guò)下列步驟確定共有標(biāo)簽序列： (A"）將標(biāo)簽序列按深度進(jìn)行排序，以便獲得最大深度和第二深度； (B"）確定參數(shù)C，其中參數(shù)C=(最大深度-第二深度)/最大深度；
【文檔編號(hào)】G06F19/18GK106021986SQ201610348484
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年5月24日
【發(fā)明人】曾華萍, 宋卓, 袁夢(mèng)兮
【申請(qǐng)人】人和未來(lái)生物科技（長(zhǎng)沙）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曾華萍;宋卓;袁夢(mèng)兮;
技術(shù)所有人：人和未來(lái)生物科技（長(zhǎng)沙）有限公司;
我是此專利的發(fā)明人

上一篇：超低頻突變分子標(biāo)簽聚類分群算法
上一篇：一種基因組數(shù)據(jù)壓縮方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

低頻突變相關(guān)技術(shù)

序列一致性相關(guān)技術(shù)

時(shí)間序列突變點(diǎn)檢測(cè)相關(guān)技術(shù)

簡(jiǎn)并堿基相關(guān)技術(shù)

簡(jiǎn)并相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

超低頻突變分子一致性序列簡(jiǎn)并算法