超低頻突變分子標(biāo)簽聚類分群算法

文檔序號：10655796閱讀：495來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

超低頻突變分子標(biāo)簽聚類分群算法
【專利摘要】本發(fā)明公開了一種對測序讀段進(jìn)行聚類的方法，所述測序讀段攜帶標(biāo)簽序列，該方法包括：(1)將多個(gè)測序讀段與參考序列進(jìn)行比對，并確定各測序讀段的兩端位置，將兩端位置一致的測序讀段歸類至相同的一級群；(2)對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群，將分子標(biāo)簽序列相似的測序讀段分為同一個(gè)二級群。通過該方法能準(zhǔn)確有效地對測序讀段進(jìn)行聚類分群，為后期通過各個(gè)群的一致性序列來精確檢測低頻突變奠定堅(jiān)實(shí)的基礎(chǔ)。
【專利說明】
超低頻突變分子標(biāo)簽聚類分群算法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及測序技術(shù)領(lǐng)域，特別是超低頻突變分子標(biāo)簽聚類分群算法，具體地，本發(fā)明設(shè)及對測序讀段進(jìn)行聚類的方法。
【背景技術(shù)】
[0002] 隨著二代測序的迅速發(fā)展，測序費(fèi)用的降低，二代測序在各個(gè)方面的檢測研究中得到了越來越廣泛的應(yīng)用。而相對于全基因組測序，目標(biāo)區(qū)間測序能大幅度降低測序成本和數(shù)據(jù)的復(fù)雜性，使我們感興趣的目標(biāo)區(qū)間在較低的成本的同時(shí)達(dá)到很高的測序覆蓋度，運(yùn)使得檢測癌癥突變中的低頻突變成為了可能。
[0003] 目標(biāo)區(qū)間測序方法中，采用特異性引物對目標(biāo)區(qū)間進(jìn)行PCR擴(kuò)增的方法由于其操作簡單、快速，且只需少量DNA等優(yōu)點(diǎn)，已被人們廣泛應(yīng)用。然而，特異性引物擴(kuò)增測序中，不可避免會存在嚴(yán)重的擴(kuò)增偏好性，同時(shí)也存在擴(kuò)增測序引入的各種錯(cuò)誤。運(yùn)些問題一方面直接影響定量的準(zhǔn)確性，因?yàn)闇y序數(shù)據(jù)中的數(shù)量已不能代表原始DNA片段的數(shù)量;另一方面會影響分析結(jié)果的準(zhǔn)確性，引入大量的假陽性。而在腫瘤突變研究中，由于腫瘤的高異質(zhì) 性，存在大量的低頻突變，使得運(yùn)些問題尤為突出。
[0004] 因而，目前的特異性引物擴(kuò)增測序仍有待改進(jìn)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一。為此，本發(fā)明的一個(gè)目的在于提出一種對測序讀段進(jìn)行聚類的方法，從而實(shí)現(xiàn)對DNA分子精確的定量，同時(shí)為后期利用一致性序列進(jìn)行精確的超低頻突變檢測奠定堅(jiān)實(shí)的基礎(chǔ)。
[0006] 需要說明的是，本發(fā)明是基于發(fā)明人的下列工作而完成的：
[0007] 現(xiàn)階段，針對特異性引物擴(kuò)增測序的上述問題，研究者引入了分子標(biāo)簽，在原始 DNA分子上連接一段能代表該DNA分子的unique標(biāo)簽序列。不同的DNA分子連接不同的分子標(biāo)簽，通過分子標(biāo)簽序列可W準(zhǔn)確的識另化NA分子。分子標(biāo)簽的引入，可W對DNA分子和突變進(jìn)行準(zhǔn)確的定量，同時(shí)也可W降低甚至消除由擴(kuò)增和測序等造成的錯(cuò)誤。
[000引針對添加分子標(biāo)簽的二代測序數(shù)據(jù)，在數(shù)據(jù)處理時(shí)，需要根據(jù)其分子標(biāo)簽將reads 進(jìn)行分群，將reads起止位置一樣，且分子標(biāo)簽也一樣的reads分為一群，認(rèn)為運(yùn)是由同一個(gè) DNA分子片段通過PCR擴(kuò)增生成的多個(gè)復(fù)本。然后針對每個(gè)群，找到其最終的一致性序列(在本文中，有時(shí)也將"一致性序列"稱為"共有序列"），即是該群所對應(yīng)的原始DNA分子的序列。最后，再利用運(yùn)些一致性序列進(jìn)行后續(xù)的突變檢測等分析。
[0009]然而，由于實(shí)驗(yàn)中對添加分子標(biāo)簽后的分子模板進(jìn)行PCR擴(kuò)增，同一個(gè)分子模板會產(chǎn)生一群一模一樣的子分子;但在實(shí)驗(yàn)測序過程中，又不可避免引入一些錯(cuò)誤，最后得到一些含有少量錯(cuò)誤的分子模板被多次重復(fù)測序的化S化數(shù)據(jù)。本發(fā)明即是針對運(yùn)種情況，致力于根據(jù)分子標(biāo)簽和read(測序讀段）的自身序列（與基因組的比對位置），在考慮測序錯(cuò)誤的前提下，把來源于同一個(gè)分子模板的reads進(jìn)行聚類分群，W便后續(xù)分析。
[0010] 進(jìn)而，在本發(fā)明的第一方面，本發(fā)明提供了一種對測序讀段進(jìn)行聚類的方法，所述測序讀段攜帶標(biāo)簽序列。根據(jù)本發(fā)明的實(shí)施例，所述方法包括：
[0011] (1)將多個(gè)測序讀段與參考序列進(jìn)行比對，并確定各測序讀段兩端的位置，將兩端位置一致的測序讀段歸類至相同的一級群；
[0012] (2)對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群，將分子標(biāo) 簽序列相似的測序讀段分為同一個(gè)二級群。
[0013] 根據(jù)本發(fā)明的實(shí)施例，所述步驟(2)的詳細(xì)步驟包括：
[0014] (a)確定所述一級群內(nèi)的各標(biāo)簽的深度；
[0015] (b)將所述各標(biāo)簽按深度從高到低進(jìn)行排序；
[0016] (C)針對深度由高至低的標(biāo)簽依次實(shí)施下列步驟：
[0017] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配不超過指定錯(cuò)配數(shù)，則將具有所述標(biāo) 簽的測序讀段分配至所述種子標(biāo)簽子群中；
[0018] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過指定錯(cuò)配數(shù)，則選擇所述標(biāo)簽為新的種子標(biāo)簽，并將具有所述標(biāo)簽的測序讀段分配至相應(yīng)的種子標(biāo)簽子群中；
[0019] 經(jīng)過上述二級群處理后，所有的測序讀段都分成了若干個(gè)二級群，運(yùn)些二級群即最后的分群結(jié)果。
[0020] 發(fā)明人驚奇地發(fā)現(xiàn)，通過該方法能準(zhǔn)確有效地對測序讀段進(jìn)行聚類分群，為后期通過各個(gè)群的一致性序列來精確檢測低頻突變奠定堅(jiān)實(shí)的基礎(chǔ)。
[0021] 根據(jù)本發(fā)明的實(shí)施例，（C)中所述種子標(biāo)簽是指該二級群的深度最高的標(biāo)簽序列，可W認(rèn)為是該群的真實(shí)的標(biāo)簽序列，同時(shí)該群中存在一些深度較低的含有錯(cuò)誤的標(biāo)簽序列。由此，測序讀段的聚類分群結(jié)果可靠，后續(xù)測序分析結(jié)果準(zhǔn)確。
[0022] 根據(jù)本發(fā)明的實(shí)施例，在(C)中，依據(jù)所采用的測序平臺確定指定錯(cuò)配數(shù)，其中，當(dāng) 采用Il Iumina測序平臺時(shí)，由于Illumina測序平臺主要^mismatch (錯(cuò)配數(shù))為主要的測序錯(cuò)誤，所WSbp的分子標(biāo)簽容1個(gè)mismatch,也即所述指定錯(cuò)配數(shù)為1。由此，聚類分群結(jié)果可靠，后續(xù)測序分析結(jié)果準(zhǔn)確。
[0023] 本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0024] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施例的描述中將變得明顯和容易理解，其中：
[0025] 圖1顯示了根據(jù)本發(fā)明實(shí)施例的對測序讀段進(jìn)行聚類的方法的流程示意圖。
【具體實(shí)施方式】
[0026] 下面詳細(xì)描述本發(fā)明的實(shí)施例。下面描述的實(shí)施例是示例性的，僅用于解釋本發(fā) 明，而不能理解為對本發(fā)明的限制。
[0027] 在本發(fā)明的第一方面，本發(fā)明提供了一種對測序讀段進(jìn)行聚類的方法，所述測序讀段攜帶標(biāo)簽序列。
[0028] 根據(jù)本發(fā)明的實(shí)施例，參照圖1，所述方法包括：
[0029] (I)將多個(gè)測序讀段與參考序列進(jìn)行比對，并確定各測序讀段的兩端位置，將兩端位置一致的測序讀段歸類至相同的一級群；
[0030] (2)對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群，將分子標(biāo) 簽序列相似的測序讀段分為同一個(gè)二級群，其具體步驟為：
[0031] (a)確定所述一級群內(nèi)的各標(biāo)簽的深度；
[0032] (b)將所述各標(biāo)簽按深度從高到低進(jìn)行排序；
[0033] (C)針對深度由高至低的標(biāo)簽依次實(shí)施下列步驟：
[0034] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配不超過指定錯(cuò)配數(shù)，則將具有所述標(biāo) 簽的測序讀段分配至所述種子標(biāo)簽子群中；
[0035] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過指定錯(cuò)配數(shù)，則選擇所述標(biāo)簽為新的種子標(biāo)簽，并將具有所述標(biāo)簽的測序讀段分配至相應(yīng)的種子標(biāo)簽子群中；
[0036] 經(jīng)過上述二級群處理后，所有的測序讀段都分成了若干個(gè)二級群，運(yùn)些二級群即最后的分群結(jié)果。
[0037] 根據(jù)本發(fā)明的實(shí)施例，（C)中所述種子標(biāo)簽是指該二級群的深度最高的標(biāo)簽序列，認(rèn)為是該群的真實(shí)的標(biāo)簽序列，同時(shí)該群中存在一些深度較低的含有錯(cuò)誤的標(biāo)簽序列。由此，測序讀段的聚類分群結(jié)果可靠，后續(xù)測序分析結(jié)果準(zhǔn)確。
[0038] 根據(jù)本發(fā)明的實(shí)施例，在(C)中，依據(jù)所采用的測序平臺確定指定錯(cuò)配數(shù)，其中，當(dāng) 采用Il Iumina測序平臺時(shí)，由于Illumina測序平臺主要^mismatch (錯(cuò)配數(shù))為主要的測序錯(cuò)誤，所WSbp的分子標(biāo)簽容1個(gè)mismatch,也即所述指定錯(cuò)配數(shù)為1。由此，聚類分群結(jié)果可靠，后續(xù)測序分析結(jié)果準(zhǔn)確。
[0039] 由此，測序讀段的聚類分群結(jié)果可靠，從而實(shí)現(xiàn)對DNA分子精確的定量，同時(shí)為后期利用一致性序列進(jìn)行精確的超低頻突變檢測奠定堅(jiān)實(shí)的基礎(chǔ)。
[0040] 下面將結(jié)合實(shí)施例對本發(fā)明的方案進(jìn)行解釋。本領(lǐng)域技術(shù)人員將會理解，下面的實(shí)施例僅用于說明本發(fā)明，而不應(yīng)視為限定本發(fā)明的范圍。實(shí)施例中未注明具體技術(shù)或條件的，按照本領(lǐng)域內(nèi)的文獻(xiàn)所描述的技術(shù)或條件或者按照產(chǎn)品說明書進(jìn)行。所用試劑或儀器未注明生產(chǎn)廠商者，均為可W通過市購獲得的常規(guī)產(chǎn)品，例如可W采購自Ilhimina公司。 [0041 ] 實(shí)施例1:
[0042] 本實(shí)施例針對已知8個(gè)突變位點(diǎn)（如下表1所示）的突變頻率為1%的樣本(人類），采用Sbp隨機(jī)分子標(biāo)簽對DNA分子進(jìn)行標(biāo)記，然后，采用Ampli化q(;ol(峽360Master Mix對樣本進(jìn)行針對各已知突變位點(diǎn)的特異性引物擴(kuò)增，最后利用11 Iumina NS500測序平臺對各擴(kuò) 增產(chǎn)物進(jìn)行75PE測序。
[0043] 然后，根據(jù)本發(fā)明的對測序讀段進(jìn)行聚類的方法，參照圖1，按照W下步驟對獲得的測序讀段進(jìn)行聚類，獲得測序讀段群：
[0044] (1)將5,475,216個(gè)測序讀段與UCSC數(shù)據(jù)庫中人類參考基因組化gl9)進(jìn)行比對，并確定各測序讀段的兩端位置，將兩端位置一致的測序讀段歸類至相同的一級群，得到共 25540個(gè)一級群。
[0045] (2)對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群，將分子標(biāo) 簽序列相似的測序讀段分為同一個(gè)二級群，具體步驟如下：
[0046] (a)確定所述一級群內(nèi)的各標(biāo)簽的深度；
[0047] (b)將所述各標(biāo)簽按深度從高到低進(jìn)行排序；
[0048] (C)針對深度由高至低的標(biāo)簽依次實(shí)施下列步驟：
[0049] 如果所述分子標(biāo)簽(Sbp)與已有的種子標(biāo)簽序列的錯(cuò)配不超過1個(gè)，則將具有所述標(biāo)簽的測序讀段分配至所述種子標(biāo)簽子群中；
[0050] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過1個(gè)，則選擇所述標(biāo)簽為新的種子標(biāo)簽，并將具有所述標(biāo)簽的測序讀段分配至相應(yīng)的種子標(biāo)簽子群中；
[0051] 經(jīng)過上述二級群處理后，所有的測序讀段都分成了 71187個(gè)二級群，運(yùn)些二級群即最后的分群結(jié)果。
[0052] 其中，本實(shí)施例中所用參考基因組來源于UCSC數(shù)據(jù)庫的人類基因組化gl9版本），網(wǎng)址：http: / Agdownload. cse. UCSC. edu/goldenPath/hgl9/chromosomes/。
[0053] 本實(shí)施例中分子標(biāo)簽序列為8bp，標(biāo)簽與種子標(biāo)簽序列的錯(cuò)配數(shù)選為1，也可W根據(jù)情況調(diào)整。
[0054] 獲得71187個(gè)二級群后，對運(yùn)些二級群進(jìn)行過濾和處理，W分別確定各測序讀段群的共有序列的方法，具體步驟如下：
[0化5] 1、過濾；
[0056] 測序讀段(read)聚類分群得到測序讀段群(reads groups)后，對運(yùn)些測序讀段群按照W下條件進(jìn)行過濾：
[0057] a)對雙端比到不同染色體的read groups進(jìn)行過濾；
[005引 b)對插入片段大小<30,或MOO的read groups進(jìn)行過濾；
[0化9]由于CfDNA的片段大小主要在16化P和330bp左右，所W插入片段大小最大不應(yīng)超過4(K)bp;而擴(kuò)增引物的長度一般為20多bp，故插入片段大小最小不應(yīng)小于30bp。
[0060] C)對read的起始位置不在擴(kuò)增引物起始位置的read groups進(jìn)行過濾；
[0061] 由于是擴(kuò)增引物的擴(kuò)增產(chǎn)物，read的起始位置應(yīng)該是引物的起始位置。
[0062] 2、確定共有序列(有時(shí)也稱為乂 onsensus序列"）
[0063] 基本原理：
[0064] 每個(gè)測序讀段群中的reads是同一個(gè)分子模板產(chǎn)生的，所W原則上同一個(gè)group中的reads應(yīng)該序列一樣，且barcode-樣;但是由于在實(shí)驗(yàn)和測序過程中，不可避免存在一些錯(cuò)誤，group中的reads會有一些錯(cuò)誤。而確定Consensus序列的過程，就是排除運(yùn)些錯(cuò)誤，得到分子模板的真實(shí)序列。
[00化]處理步驟：
[0066] a)針對read各個(gè)位置，進(jìn)行W下操作：
[0067] i.統(tǒng)計(jì)ATCG 4種堿基各自的深度；
[006引 ii .對ATCG4種堿基的深度從高到低排序，得到max、sec、third、fou;rth
[0069] iii .計(jì)算系數(shù)C= (max-sec)/max,若該系數(shù)0 = 0.65,貝認(rèn)為max深度的堿基即為該位置Consensus堿基，而該Consensus堿基的質(zhì)量為Q = 20+(ma巧C~ 2)/2，當(dāng)QMO時(shí)，取40; 若C<0.65，貝認(rèn)為read運(yùn)個(gè)位置的堿基不確定，Consensus序列該位置為N，相應(yīng)質(zhì)量值Q = 2。
[0070] 對read各個(gè)堿基進(jìn)行運(yùn)些操作后，得到該group的Consensus序列W及對應(yīng)的質(zhì)量值;但Consensus序列中可能有一些堿基不確定，為N。
[0071] b)若整個(gè)read中不確定的堿基數(shù)超過5，則過濾該group;若不超過5，則進(jìn)行下一步(C)判斷；
[0072] C)統(tǒng)計(jì)該gro叩中barcode (即分子標(biāo)簽）的深度，同上方法，判斷該gro叩中 barcode是否能確定；若不確定，則過濾該group;若確定，該group保留，且最終的Consensus 序列、相應(yīng)質(zhì)量值，W及其barcode序列都已獲得。
[0073] 由此，最終得到10970條一致性序列。
[0074] 然后利用獲得的一致性序列進(jìn)行突變檢測，檢測結(jié)果如下表1:
[0075] 表 1 [00761
[0077] 表1中第一列是染色體編號，第二列是突變位點(diǎn)在染色體上的位置，第=列是基因名，第四列是基因在染色體上的方向，第五列是具體的CDS和蛋白突變信息，第六列是突變頻率，第屯列是該實(shí)驗(yàn)的檢測結(jié)果(YES是檢測到，NO是未檢測到）。
[0078] 由上述結(jié)果可知，本實(shí)施案例采用添加分子標(biāo)簽的技術(shù)，結(jié)合分子標(biāo)簽聚類分群，在僅約5M reads的測序情況下，成功精確地檢測到了所有的突變頻率僅1 %的突變。
[0079] 實(shí)施例2:
[0080] 本實(shí)施例針對已知8個(gè)突變位點(diǎn)（如下表2所示）的突變頻率為0.1 %的樣本（人類），采用Sbp隨機(jī)分子標(biāo)簽對DNA分子進(jìn)行標(biāo)記，然后，采用Amplihq.如Id壞360Master Mix 對樣本進(jìn)行針對各已知突變位點(diǎn)的特異性引物擴(kuò)增，最后利用11 Iumina NS500測序平臺對各擴(kuò)增產(chǎn)物進(jìn)行75PE測序。
[0081] 然后，根據(jù)本發(fā)明的對測序讀段進(jìn)行聚類的方法，參照圖1，按照W下步驟對獲得的測序讀段進(jìn)行聚類，獲得測序讀段群：
[0082] (1)將5,328,887個(gè)測序讀段與UCSC數(shù)據(jù)庫中人類參考基因組化gl9)進(jìn)行比對，并確定各測序讀段的兩端位置，將兩端位置一致的測序讀段歸類至相同的一級群，得到共 25634個(gè)一級群。
[0083] (2)對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群，將分子標(biāo) 簽序列相似的測序讀段分為同一個(gè)二級群，具體步驟如下：
[0084] (a)確定所述一級群內(nèi)的各標(biāo)簽的深度；
[0085] (b)將所述各標(biāo)簽按深度從高到低進(jìn)行排序；
[0086] (C)針對深度由高至低的標(biāo)簽依次實(shí)施下列步驟：
[0087] 如果所述分子標(biāo)簽(8bp)與已有的種子標(biāo)簽序列的錯(cuò)配不超過I個(gè)，則將具有所述標(biāo)簽的測序讀段分配至所述種子標(biāo)簽子群中；
[0088] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過1個(gè)，則選擇所述標(biāo)簽為新的種子標(biāo)簽，并將具有所述標(biāo)簽的測序讀段分配至相應(yīng)的種子標(biāo)簽子群中；
[0089] 經(jīng)過上述二級群處理后，所有的測序讀段都分成了 61557個(gè)二級群。
[0090] 其中，本實(shí)施例中所用參考基因組來源于UCSC數(shù)據(jù)庫的人類基因組化gl9版本），網(wǎng)址：http: / Agdownload. cse. UCSC. edu/goldenPath/hgl9/chromosomes/。
[0091] 本實(shí)施例中分子標(biāo)簽序列為8bp，標(biāo)簽與種子標(biāo)簽序列的錯(cuò)配數(shù)選為1，也可W根據(jù)情況調(diào)整。
[0092] 獲得61557個(gè)二級群后，對運(yùn)些二級群進(jìn)行過濾和處理，W確定各測序讀段群的共有序列，具體方法步驟如實(shí)施例1。由此，最終得到10584條一致性序列。
[0093] 然后利用獲得的一致性序列進(jìn)行突變檢測，檢測結(jié)果如下表2:
[0094] 表 2
[0095]
[0
[0097] 表2中第一列是染色體編號，第二列是突變位點(diǎn)在染色體上的位置，第=列是基因名，第四列是基因在染色體上的方向，第五列是具體的CDS和蛋白突變信息，第六列是突變頻率，第屯列是該實(shí)驗(yàn)的檢測結(jié)果(YES是檢測到，NO是未檢測到）。
[0098] 由上述結(jié)果可知，本實(shí)施案例采用添加分子標(biāo)簽的技術(shù)，結(jié)合分子標(biāo)簽聚類分群，在僅約5化eads的測序數(shù)據(jù)量下，成功精確地檢測到了6個(gè)突變頻率低至0.1 %的突變，另2 個(gè)突變在提高測序數(shù)據(jù)量的情況下也能檢測到。
[0099] 目前檢測低頻突變的技術(shù)，例如ARMS和Digi化1 PCR等技術(shù)才能檢測到低至0.1% 的突變，但運(yùn)些技術(shù)存在通量低，成本高，且只能檢測已知突變位點(diǎn)的缺點(diǎn)，而普通的二代測序技術(shù)只能檢測2%的突變頻率。而由上述實(shí)施例的結(jié)果可知，本發(fā)明在添加分子標(biāo)簽的技術(shù)基礎(chǔ)上，結(jié)合分子標(biāo)簽聚類分群方法，對測序數(shù)據(jù)進(jìn)行分析，即克服了 ARMS和Digital PCR等技術(shù)的缺點(diǎn)，同時(shí)又成功檢測到了突變頻率低至0.1 %的突變。
[0100] 在本說明書的描述中，參考術(shù)語"一個(gè)實(shí)施例"、"一些實(shí)施例"、"示例"、"具體示例"、或"一些示例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中，對上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或示例。而且，描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可W在任何的一個(gè)或多個(gè)實(shí)施例或示例中W合適的方式結(jié)合。
[0101]盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例，本領(lǐng)域的普通技術(shù)人員可W理解:在不脫離本發(fā)明的原理和宗旨的情況下可W對運(yùn)些實(shí)施例進(jìn)行多種變化、修改、替換和變型，本發(fā)明的范圍由權(quán)利要求及其等同物限定。
【主權(quán)項(xiàng)】
1. 一種對測序讀段進(jìn)行聚類的方法，所述測序讀段攜帶標(biāo)簽序列，其特征在于，所述方法包括： (1) 將多個(gè)測序讀段與參考序列進(jìn)行比對，并確定各測序讀段兩端的位置，將兩端位置一致的測序讀段歸類至相同的一級群； (2) 對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群，將分子標(biāo)簽序列相似的測序讀段分為同一個(gè)二級群。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟(2)的詳細(xì)步驟包括： (a) 確定所述一級群內(nèi)的各標(biāo)簽的深度； (b) 將所述各標(biāo)簽按深度從高到低進(jìn)行排序； (c) 針對深度由高至低的標(biāo)簽依次實(shí)施下列步驟：如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配不超過指定錯(cuò)配數(shù)，則將具有所述標(biāo)簽的測序讀段分配至所述種子標(biāo)簽子群中；如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過指定錯(cuò)配數(shù)，則選擇所述標(biāo)簽為新的種子標(biāo)簽，并將具有所述標(biāo)簽的測序讀段分配至相應(yīng)的種子標(biāo)簽子群中；經(jīng)過上述二級群處理后，所有的測序讀段都分成了若干個(gè)二級群，這些二級群即最后的分群結(jié)果。3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，（c)中所述種子標(biāo)簽是指該二級群的深度最高的標(biāo)簽序列，認(rèn)為是該群的真實(shí)的標(biāo)簽序列，同時(shí)該群中存在一些深度較低的含有錯(cuò) 誤的標(biāo)簽序列。
【文檔編號】G06F19/24GK106021987SQ201610350317
【公開日】2016年10月12日
【申請日】2016年5月24日
【發(fā)明人】曾華萍, 宋卓, 袁夢兮
【申請人】人和未來生物科技（長沙）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曾華萍;宋卓;袁夢兮;
技術(shù)所有人：人和未來生物科技（長沙）有限公司;
我是此專利的發(fā)明人

上一篇：蛋白質(zhì)復(fù)合物的識別方法
上一篇：超低頻突變分子一致性序列簡并算法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

低頻突變相關(guān)技術(shù)

聚類算法相關(guān)技術(shù)

kmeans聚類算法相關(guān)技術(shù)

k均值聚類算法相關(guān)技術(shù)

dbscan聚類算法相關(guān)技術(shù)

層次聚類算法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

超低頻突變分子標(biāo)簽聚類分群算法