超低頻突變分子標(biāo)簽聚類分群算法
【專利摘要】本發(fā)明公開了一種對測序讀段進(jìn)行聚類的方法,所述測序讀段攜帶標(biāo)簽序列,該方法包括:(1)將多個(gè)測序讀段與參考序列進(jìn)行比對,并確定各測序讀段的兩端位置,將兩端位置一致的測序讀段歸類至相同的一級群;(2)對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群,將分子標(biāo)簽序列相似的測序讀段分為同一個(gè)二級群。通過該方法能準(zhǔn)確有效地對測序讀段進(jìn)行聚類分群,為后期通過各個(gè)群的一致性序列來精確檢測低頻突變奠定堅(jiān)實(shí)的基礎(chǔ)。
【專利說明】
超低頻突變分子標(biāo)簽聚類分群算法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及測序技術(shù)領(lǐng)域,特別是超低頻突變分子標(biāo)簽聚類分群算法,具體地,本 發(fā)明設(shè)及對測序讀段進(jìn)行聚類的方法。
【背景技術(shù)】
[0002] 隨著二代測序的迅速發(fā)展,測序費(fèi)用的降低,二代測序在各個(gè)方面的檢測研究中 得到了越來越廣泛的應(yīng)用。而相對于全基因組測序,目標(biāo)區(qū)間測序能大幅度降低測序成本 和數(shù)據(jù)的復(fù)雜性,使我們感興趣的目標(biāo)區(qū)間在較低的成本的同時(shí)達(dá)到很高的測序覆蓋度, 運(yùn)使得檢測癌癥突變中的低頻突變成為了可能。
[0003] 目標(biāo)區(qū)間測序方法中,采用特異性引物對目標(biāo)區(qū)間進(jìn)行PCR擴(kuò)增的方法由于其操 作簡單、快速,且只需少量DNA等優(yōu)點(diǎn),已被人們廣泛應(yīng)用。然而,特異性引物擴(kuò)增測序中,不 可避免會存在嚴(yán)重的擴(kuò)增偏好性,同時(shí)也存在擴(kuò)增測序引入的各種錯(cuò)誤。運(yùn)些問題一方面 直接影響定量的準(zhǔn)確性,因?yàn)闇y序數(shù)據(jù)中的數(shù)量已不能代表原始DNA片段的數(shù)量;另一方面 會影響分析結(jié)果的準(zhǔn)確性,引入大量的假陽性。而在腫瘤突變研究中,由于腫瘤的高異質(zhì) 性,存在大量的低頻突變,使得運(yùn)些問題尤為突出。
[0004] 因而,目前的特異性引物擴(kuò)增測序仍有待改進(jìn)。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一。為此,本發(fā)明的一個(gè)目的 在于提出一種對測序讀段進(jìn)行聚類的方法,從而實(shí)現(xiàn)對DNA分子精確的定量,同時(shí)為后期利 用一致性序列進(jìn)行精確的超低頻突變檢測奠定堅(jiān)實(shí)的基礎(chǔ)。
[0006] 需要說明的是,本發(fā)明是基于發(fā)明人的下列工作而完成的:
[0007] 現(xiàn)階段,針對特異性引物擴(kuò)增測序的上述問題,研究者引入了分子標(biāo)簽,在原始 DNA分子上連接一段能代表該DNA分子的unique標(biāo)簽序列。不同的DNA分子連接不同的分子 標(biāo)簽,通過分子標(biāo)簽序列可W準(zhǔn)確的識另化NA分子。分子標(biāo)簽的引入,可W對DNA分子和突變 進(jìn)行準(zhǔn)確的定量,同時(shí)也可W降低甚至消除由擴(kuò)增和測序等造成的錯(cuò)誤。
[000引針對添加分子標(biāo)簽的二代測序數(shù)據(jù),在數(shù)據(jù)處理時(shí),需要根據(jù)其分子標(biāo)簽將reads 進(jìn)行分群,將reads起止位置一樣,且分子標(biāo)簽也一樣的reads分為一群,認(rèn)為運(yùn)是由同一個(gè) DNA分子片段通過PCR擴(kuò)增生成的多個(gè)復(fù)本。然后針對每個(gè)群,找到其最終的一致性序列(在 本文中,有時(shí)也將"一致性序列"稱為"共有序列"),即是該群所對應(yīng)的原始DNA分子的序列。 最后,再利用運(yùn)些一致性序列進(jìn)行后續(xù)的突變檢測等分析。
[0009]然而,由于實(shí)驗(yàn)中對添加分子標(biāo)簽后的分子模板進(jìn)行PCR擴(kuò)增,同一個(gè)分子模板會 產(chǎn)生一群一模一樣的子分子;但在實(shí)驗(yàn)測序過程中,又不可避免引入一些錯(cuò)誤,最后得到一 些含有少量錯(cuò)誤的分子模板被多次重復(fù)測序的化S化數(shù)據(jù)。本發(fā)明即是針對運(yùn)種情況,致力 于根據(jù)分子標(biāo)簽和read(測序讀段)的自身序列(與基因組的比對位置),在考慮測序錯(cuò)誤的 前提下,把來源于同一個(gè)分子模板的reads進(jìn)行聚類分群,W便后續(xù)分析。
[0010] 進(jìn)而,在本發(fā)明的第一方面,本發(fā)明提供了一種對測序讀段進(jìn)行聚類的方法,所述 測序讀段攜帶標(biāo)簽序列。根據(jù)本發(fā)明的實(shí)施例,所述方法包括:
[0011] (1)將多個(gè)測序讀段與參考序列進(jìn)行比對,并確定各測序讀段兩端的位置,將兩端 位置一致的測序讀段歸類至相同的一級群;
[0012] (2)對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群,將分子標(biāo) 簽序列相似的測序讀段分為同一個(gè)二級群。
[0013] 根據(jù)本發(fā)明的實(shí)施例,所述步驟(2)的詳細(xì)步驟包括:
[0014] (a)確定所述一級群內(nèi)的各標(biāo)簽的深度;
[0015] (b)將所述各標(biāo)簽按深度從高到低進(jìn)行排序;
[0016] (C)針對深度由高至低的標(biāo)簽依次實(shí)施下列步驟:
[0017] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配不超過指定錯(cuò)配數(shù),則將具有所述標(biāo) 簽的測序讀段分配至所述種子標(biāo)簽子群中;
[0018] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過指定錯(cuò)配數(shù),則選擇所述標(biāo)簽為 新的種子標(biāo)簽,并將具有所述標(biāo)簽的測序讀段分配至相應(yīng)的種子標(biāo)簽子群中;
[0019] 經(jīng)過上述二級群處理后,所有的測序讀段都分成了若干個(gè)二級群,運(yùn)些二級群即 最后的分群結(jié)果。
[0020] 發(fā)明人驚奇地發(fā)現(xiàn),通過該方法能準(zhǔn)確有效地對測序讀段進(jìn)行聚類分群,為后期 通過各個(gè)群的一致性序列來精確檢測低頻突變奠定堅(jiān)實(shí)的基礎(chǔ)。
[0021] 根據(jù)本發(fā)明的實(shí)施例,(C)中所述種子標(biāo)簽是指該二級群的深度最高的標(biāo)簽序列, 可W認(rèn)為是該群的真實(shí)的標(biāo)簽序列,同時(shí)該群中存在一些深度較低的含有錯(cuò)誤的標(biāo)簽序 列。由此,測序讀段的聚類分群結(jié)果可靠,后續(xù)測序分析結(jié)果準(zhǔn)確。
[0022] 根據(jù)本發(fā)明的實(shí)施例,在(C)中,依據(jù)所采用的測序平臺確定指定錯(cuò)配數(shù),其中,當(dāng) 采用Il Iumina測序平臺時(shí),由于Illumina測序平臺主要^mismatch (錯(cuò)配數(shù))為主要的測序 錯(cuò)誤,所WSbp的分子標(biāo)簽容1個(gè)mismatch,也即所述指定錯(cuò)配數(shù)為1。由此,聚類分群結(jié)果可 靠,后續(xù)測序分析結(jié)果準(zhǔn)確。
[0023] 本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0024] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施例的描述中將變得 明顯和容易理解,其中:
[0025] 圖1顯示了根據(jù)本發(fā)明實(shí)施例的對測序讀段進(jìn)行聚類的方法的流程示意圖。
【具體實(shí)施方式】
[0026] 下面詳細(xì)描述本發(fā)明的實(shí)施例。下面描述的實(shí)施例是示例性的,僅用于解釋本發(fā) 明,而不能理解為對本發(fā)明的限制。
[0027] 在本發(fā)明的第一方面,本發(fā)明提供了一種對測序讀段進(jìn)行聚類的方法,所述測序 讀段攜帶標(biāo)簽序列。
[0028] 根據(jù)本發(fā)明的實(shí)施例,參照圖1,所述方法包括:
[0029] (I)將多個(gè)測序讀段與參考序列進(jìn)行比對,并確定各測序讀段的兩端位置,將兩端 位置一致的測序讀段歸類至相同的一級群;
[0030] (2)對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群,將分子標(biāo) 簽序列相似的測序讀段分為同一個(gè)二級群,其具體步驟為:
[0031] (a)確定所述一級群內(nèi)的各標(biāo)簽的深度;
[0032] (b)將所述各標(biāo)簽按深度從高到低進(jìn)行排序;
[0033] (C)針對深度由高至低的標(biāo)簽依次實(shí)施下列步驟:
[0034] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配不超過指定錯(cuò)配數(shù),則將具有所述標(biāo) 簽的測序讀段分配至所述種子標(biāo)簽子群中;
[0035] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過指定錯(cuò)配數(shù),則選擇所述標(biāo)簽為 新的種子標(biāo)簽,并將具有所述標(biāo)簽的測序讀段分配至相應(yīng)的種子標(biāo)簽子群中;
[0036] 經(jīng)過上述二級群處理后,所有的測序讀段都分成了若干個(gè)二級群,運(yùn)些二級群即 最后的分群結(jié)果。
[0037] 根據(jù)本發(fā)明的實(shí)施例,(C)中所述種子標(biāo)簽是指該二級群的深度最高的標(biāo)簽序列, 認(rèn)為是該群的真實(shí)的標(biāo)簽序列,同時(shí)該群中存在一些深度較低的含有錯(cuò)誤的標(biāo)簽序列。由 此,測序讀段的聚類分群結(jié)果可靠,后續(xù)測序分析結(jié)果準(zhǔn)確。
[0038] 根據(jù)本發(fā)明的實(shí)施例,在(C)中,依據(jù)所采用的測序平臺確定指定錯(cuò)配數(shù),其中,當(dāng) 采用Il Iumina測序平臺時(shí),由于Illumina測序平臺主要^mismatch (錯(cuò)配數(shù))為主要的測序 錯(cuò)誤,所WSbp的分子標(biāo)簽容1個(gè)mismatch,也即所述指定錯(cuò)配數(shù)為1。由此,聚類分群結(jié)果可 靠,后續(xù)測序分析結(jié)果準(zhǔn)確。
[0039] 由此,測序讀段的聚類分群結(jié)果可靠,從而實(shí)現(xiàn)對DNA分子精確的定量,同時(shí)為后 期利用一致性序列進(jìn)行精確的超低頻突變檢測奠定堅(jiān)實(shí)的基礎(chǔ)。
[0040] 下面將結(jié)合實(shí)施例對本發(fā)明的方案進(jìn)行解釋。本領(lǐng)域技術(shù)人員將會理解,下面的 實(shí)施例僅用于說明本發(fā)明,而不應(yīng)視為限定本發(fā)明的范圍。實(shí)施例中未注明具體技術(shù)或條 件的,按照本領(lǐng)域內(nèi)的文獻(xiàn)所描述的技術(shù)或條件或者按照產(chǎn)品說明書進(jìn)行。所用試劑或儀 器未注明生產(chǎn)廠商者,均為可W通過市購獲得的常規(guī)產(chǎn)品,例如可W采購自Ilhimina公司。 [0041 ] 實(shí)施例1:
[0042] 本實(shí)施例針對已知8個(gè)突變位點(diǎn)(如下表1所示)的突變頻率為1%的樣本(人類), 采用Sbp隨機(jī)分子標(biāo)簽對DNA分子進(jìn)行標(biāo)記,然后,采用Ampli化q(;ol(峽360Master Mix對樣 本進(jìn)行針對各已知突變位點(diǎn)的特異性引物擴(kuò)增,最后利用11 Iumina NS500測序平臺對各擴(kuò) 增產(chǎn)物進(jìn)行75PE測序。
[0043] 然后,根據(jù)本發(fā)明的對測序讀段進(jìn)行聚類的方法,參照圖1,按照W下步驟對獲得 的測序讀段進(jìn)行聚類,獲得測序讀段群:
[0044] (1)將5,475,216個(gè)測序讀段與UCSC數(shù)據(jù)庫中人類參考基因組化gl9)進(jìn)行比對,并 確定各測序讀段的兩端位置,將兩端位置一致的測序讀段歸類至相同的一級群,得到共 25540個(gè)一級群。
[0045] (2)對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群,將分子標(biāo) 簽序列相似的測序讀段分為同一個(gè)二級群,具體步驟如下:
[0046] (a)確定所述一級群內(nèi)的各標(biāo)簽的深度;
[0047] (b)將所述各標(biāo)簽按深度從高到低進(jìn)行排序;
[0048] (C)針對深度由高至低的標(biāo)簽依次實(shí)施下列步驟:
[0049] 如果所述分子標(biāo)簽(Sbp)與已有的種子標(biāo)簽序列的錯(cuò)配不超過1個(gè),則將具有所述 標(biāo)簽的測序讀段分配至所述種子標(biāo)簽子群中;
[0050] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過1個(gè),則選擇所述標(biāo)簽為新的種 子標(biāo)簽,并將具有所述標(biāo)簽的測序讀段分配至相應(yīng)的種子標(biāo)簽子群中;
[0051] 經(jīng)過上述二級群處理后,所有的測序讀段都分成了 71187個(gè)二級群,運(yùn)些二級群即 最后的分群結(jié)果。
[0052] 其中,本實(shí)施例中所用參考基因組來源于UCSC數(shù)據(jù)庫的人類基因組化gl9版本), 網(wǎng)址:http: / Agdownload. cse. UCSC. edu/goldenPath/hgl9/chromosomes/。
[0053] 本實(shí)施例中分子標(biāo)簽序列為8bp,標(biāo)簽與種子標(biāo)簽序列的錯(cuò)配數(shù)選為1,也可W根 據(jù)情況調(diào)整。
[0054] 獲得71187個(gè)二級群后,對運(yùn)些二級群進(jìn)行過濾和處理,W分別確定各測序讀段群 的共有序列的方法,具體步驟如下:
[0化5] 1、過濾;
[0056] 測序讀段(read)聚類分群得到測序讀段群(reads groups)后,對運(yùn)些測序讀段群 按照W下條件進(jìn)行過濾:
[0057] a)對雙端比到不同染色體的read groups進(jìn)行過濾;
[005引 b)對插入片段大小<30,或MOO的read groups進(jìn)行過濾;
[0化9]由于CfDNA的片段大小主要在16化P和330bp左右,所W插入片段大小最大不應(yīng)超 過4(K)bp;而擴(kuò)增引物的長度一般為20多bp,故插入片段大小最小不應(yīng)小于30bp。
[0060] C)對read的起始位置不在擴(kuò)增引物起始位置的read groups進(jìn)行過濾;
[0061] 由于是擴(kuò)增引物的擴(kuò)增產(chǎn)物,read的起始位置應(yīng)該是引物的起始位置。
[0062] 2、確定共有序列(有時(shí)也稱為乂 onsensus序列")
[0063] 基本原理:
[0064] 每個(gè)測序讀段群中的reads是同一個(gè)分子模板產(chǎn)生的,所W原則上同一個(gè)group中 的reads應(yīng)該序列一樣,且barcode-樣;但是由于在實(shí)驗(yàn)和測序過程中,不可避免存在一些 錯(cuò)誤,group中的reads會有一些錯(cuò)誤。而確定Consensus序列的過程,就是排除運(yùn)些錯(cuò)誤,得 到分子模板的真實(shí)序列。
[00化]處理步驟:
[0066] a)針對read各個(gè)位置,進(jìn)行W下操作:
[0067] i.統(tǒng)計(jì)ATCG 4種堿基各自的深度;
[006引 ii .對ATCG4種堿基的深度從高到低排序,得到max、sec、third、fou;rth
[0069] iii .計(jì)算系數(shù)C= (max-sec)/max,若該系數(shù)0 = 0.65,貝認(rèn)為max深度的堿基即為 該位置Consensus堿基,而該Consensus堿基的質(zhì)量為Q = 20+(ma巧C~ 2)/2,當(dāng)QMO時(shí),取40; 若C<0.65,貝認(rèn)為read運(yùn)個(gè)位置的堿基不確定,Consensus序列該位置為N,相應(yīng)質(zhì)量值Q = 2。
[0070] 對read各個(gè)堿基進(jìn)行運(yùn)些操作后,得到該group的Consensus序列W及對應(yīng)的質(zhì)量 值;但Consensus序列中可能有一些堿基不確定,為N。
[0071] b)若整個(gè)read中不確定的堿基數(shù)超過5,則過濾該group;若不超過5,則進(jìn)行下一 步(C)判斷;
[0072] C)統(tǒng)計(jì)該gro叩中barcode (即分子標(biāo)簽)的深度,同上方法,判斷該gro叩中 barcode是否能確定;若不確定,則過濾該group;若確定,該group保留,且最終的Consensus 序列、相應(yīng)質(zhì)量值,W及其barcode序列都已獲得。
[0073] 由此,最終得到10970條一致性序列。
[0074] 然后利用獲得的一致性序列進(jìn)行突變檢測,檢測結(jié)果如下表1:
[0075] 表 1 [00761
[0077] 表1中第一列是染色體編號,第二列是突變位點(diǎn)在染色體上的位置,第=列是基因 名,第四列是基因在染色體上的方向,第五列是具體的CDS和蛋白突變信息,第六列是突變 頻率,第屯列是該實(shí)驗(yàn)的檢測結(jié)果(YES是檢測到,NO是未檢測到)。
[0078] 由上述結(jié)果可知,本實(shí)施案例采用添加分子標(biāo)簽的技術(shù),結(jié)合分子標(biāo)簽聚類分群, 在僅約5M reads的測序情況下,成功精確地檢測到了所有的突變頻率僅1 %的突變。
[0079] 實(shí)施例2:
[0080] 本實(shí)施例針對已知8個(gè)突變位點(diǎn)(如下表2所示)的突變頻率為0.1 %的樣本(人 類),采用Sbp隨機(jī)分子標(biāo)簽對DNA分子進(jìn)行標(biāo)記,然后,采用Amplihq.如Id壞360Master Mix 對樣本進(jìn)行針對各已知突變位點(diǎn)的特異性引物擴(kuò)增,最后利用11 Iumina NS500測序平臺對 各擴(kuò)增產(chǎn)物進(jìn)行75PE測序。
[0081] 然后,根據(jù)本發(fā)明的對測序讀段進(jìn)行聚類的方法,參照圖1,按照W下步驟對獲得 的測序讀段進(jìn)行聚類,獲得測序讀段群:
[0082] (1)將5,328,887個(gè)測序讀段與UCSC數(shù)據(jù)庫中人類參考基因組化gl9)進(jìn)行比對,并 確定各測序讀段的兩端位置,將兩端位置一致的測序讀段歸類至相同的一級群,得到共 25634個(gè)一級群。
[0083] (2)對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群,將分子標(biāo) 簽序列相似的測序讀段分為同一個(gè)二級群,具體步驟如下:
[0084] (a)確定所述一級群內(nèi)的各標(biāo)簽的深度;
[0085] (b)將所述各標(biāo)簽按深度從高到低進(jìn)行排序;
[0086] (C)針對深度由高至低的標(biāo)簽依次實(shí)施下列步驟:
[0087] 如果所述分子標(biāo)簽(8bp)與已有的種子標(biāo)簽序列的錯(cuò)配不超過I個(gè),則將具有所述 標(biāo)簽的測序讀段分配至所述種子標(biāo)簽子群中;
[0088] 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過1個(gè),則選擇所述標(biāo)簽為新的種 子標(biāo)簽,并將具有所述標(biāo)簽的測序讀段分配至相應(yīng)的種子標(biāo)簽子群中;
[0089] 經(jīng)過上述二級群處理后,所有的測序讀段都分成了 61557個(gè)二級群。
[0090] 其中,本實(shí)施例中所用參考基因組來源于UCSC數(shù)據(jù)庫的人類基因組化gl9版本), 網(wǎng)址:http: / Agdownload. cse. UCSC. edu/goldenPath/hgl9/chromosomes/。
[0091] 本實(shí)施例中分子標(biāo)簽序列為8bp,標(biāo)簽與種子標(biāo)簽序列的錯(cuò)配數(shù)選為1,也可W根 據(jù)情況調(diào)整。
[0092] 獲得61557個(gè)二級群后,對運(yùn)些二級群進(jìn)行過濾和處理,W確定各測序讀段群的共 有序列,具體方法步驟如實(shí)施例1。由此,最終得到10584條一致性序列。
[0093] 然后利用獲得的一致性序列進(jìn)行突變檢測,檢測結(jié)果如下表2:
[0094] 表 2
[0095]
[0
[0097] 表2中第一列是染色體編號,第二列是突變位點(diǎn)在染色體上的位置,第=列是基因 名,第四列是基因在染色體上的方向,第五列是具體的CDS和蛋白突變信息,第六列是突變 頻率,第屯列是該實(shí)驗(yàn)的檢測結(jié)果(YES是檢測到,NO是未檢測到)。
[0098] 由上述結(jié)果可知,本實(shí)施案例采用添加分子標(biāo)簽的技術(shù),結(jié)合分子標(biāo)簽聚類分群, 在僅約5化eads的測序數(shù)據(jù)量下,成功精確地檢測到了6個(gè)突變頻率低至0.1 %的突變,另2 個(gè)突變在提高測序數(shù)據(jù)量的情況下也能檢測到。
[0099] 目前檢測低頻突變的技術(shù),例如ARMS和Digi化1 PCR等技術(shù)才能檢測到低至0.1% 的突變,但運(yùn)些技術(shù)存在通量低,成本高,且只能檢測已知突變位點(diǎn)的缺點(diǎn),而普通的二代 測序技術(shù)只能檢測2%的突變頻率。而由上述實(shí)施例的結(jié)果可知,本發(fā)明在添加分子標(biāo)簽的 技術(shù)基礎(chǔ)上,結(jié)合分子標(biāo)簽聚類分群方法,對測序數(shù)據(jù)進(jìn)行分析,即克服了 ARMS和Digital PCR等技術(shù)的缺點(diǎn),同時(shí)又成功檢測到了突變頻率低至0.1 %的突變。
[0100] 在本說明書的描述中,參考術(shù)語"一個(gè)實(shí)施例"、"一些實(shí)施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不 一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可W在任何 的一個(gè)或多個(gè)實(shí)施例或示例中W合適的方式結(jié)合。
[0101]盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可W理解:在不 脫離本發(fā)明的原理和宗旨的情況下可W對運(yùn)些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本 發(fā)明的范圍由權(quán)利要求及其等同物限定。
【主權(quán)項(xiàng)】
1. 一種對測序讀段進(jìn)行聚類的方法,所述測序讀段攜帶標(biāo)簽序列,其特征在于,所述方 法包括: (1) 將多個(gè)測序讀段與參考序列進(jìn)行比對,并確定各測序讀段兩端的位置,將兩端位置 一致的測序讀段歸類至相同的一級群; (2) 對屬于同一個(gè)一級群的測序讀段根據(jù)其標(biāo)簽序列進(jìn)一步分二級群,將分子標(biāo)簽序 列相似的測序讀段分為同一個(gè)二級群。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(2)的詳細(xì)步驟包括: (a) 確定所述一級群內(nèi)的各標(biāo)簽的深度; (b) 將所述各標(biāo)簽按深度從高到低進(jìn)行排序; (c) 針對深度由高至低的標(biāo)簽依次實(shí)施下列步驟: 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配不超過指定錯(cuò)配數(shù),則將具有所述標(biāo)簽的 測序讀段分配至所述種子標(biāo)簽子群中; 如果所述標(biāo)簽與已有的種子標(biāo)簽序列的錯(cuò)配超過指定錯(cuò)配數(shù),則選擇所述標(biāo)簽為新的 種子標(biāo)簽,并將具有所述標(biāo)簽的測序讀段分配至相應(yīng)的種子標(biāo)簽子群中; 經(jīng)過上述二級群處理后,所有的測序讀段都分成了若干個(gè)二級群,這些二級群即最后 的分群結(jié)果。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,(c)中所述種子標(biāo)簽是指該二級群的深度 最高的標(biāo)簽序列,認(rèn)為是該群的真實(shí)的標(biāo)簽序列,同時(shí)該群中存在一些深度較低的含有錯(cuò) 誤的標(biāo)簽序列。
【文檔編號】G06F19/24GK106021987SQ201610350317
【公開日】2016年10月12日
【申請日】2016年5月24日
【發(fā)明人】曾華萍, 宋卓, 袁夢兮
【申請人】人和未來生物科技(長沙)有限公司