用于比對序列的方法和系統(tǒng)的制作方法
【專利說明】
[0001 ] 相關申請案
[0002] 本申請案主張2013年9月3日提交的第14/016,833號和2013年8月21日提交的第 61/868,249號美國專利申請案的優(yōu)先權(quán),所述兩個申請案的全部內(nèi)容以引用的方式并入本 文中。
技術(shù)領域
[0003] 本發(fā)明涉及用于對序列(例如,核酸序列、氨基酸序列)彼此比對以產(chǎn)生對應于樣 本(例如,遺傳樣本、蛋白質(zhì)樣本)的連續(xù)序列讀數(shù)的方法和系統(tǒng)。本發(fā)明另外涉及用于識別 樣本中的變異的方法。
【背景技術(shù)】
[0004] 遺傳學已經(jīng)從分析科學演變?yōu)樾畔⒖茖W。然而,科學家此前一直努力研究如何提 取和識別核酸,此類技術(shù)現(xiàn)在看來并非那么重要。下一代測序(例如,全轉(zhuǎn)錄組鳥槍測序、焦 磷酸測序、離子半導體測序、使用合成法測序)可以在僅幾天內(nèi)產(chǎn)生覆蓋全基因組的數(shù)百萬 讀數(shù)。為了實現(xiàn)此產(chǎn)出量,NGS測序在較小核酸序列上使用大規(guī)模并行計算,其一起組成大 量遺傳信息,例如,染色體或基因組。從遺傳樣本開始,核酸(例如,DNA)被分裂、擴增、并以 極快速度讀取??紤]到這些能力,科學家現(xiàn)在努力研究如何(以低成本)比對讀數(shù)以識別序 列中指示疾病或疾病風險的基因座。
[0005] 當前技術(shù)發(fā)展水平的比對方法使用大量計算能力來比對重疊讀數(shù)與參考以產(chǎn)生 可探測用于重要遺傳信息或結(jié)構(gòu)信息(例如,用于疾病的生物標志物)的序列。最終,序列比 對的目標是組合由定序器產(chǎn)生的核酸讀數(shù)集以實現(xiàn)較長讀數(shù)(即,重疊群)或甚至基于來自 受試者的遺傳樣本的該受試者的全基因組。因為來自下一代定序器的序列數(shù)據(jù)通常包括一 起表示目標序列的總數(shù)的數(shù)百萬短序列,所以比對讀數(shù)復雜且在計算上昂貴。另外,為了使 由隨機測序誤差(即,不正確的測序儀輸出)引起的序列失真減到最少,對探測的序列的每 個部分多次(例如,2次到100次或更多)測序,以使任何隨機測序誤差對所產(chǎn)生的最終比對 和輸出序列的影響減到最少。最后,一旦收集了對應于所有核酸讀數(shù)的所有數(shù)據(jù),就比對該 讀數(shù)與單個參考序列(例如,GRCh37),以便確定所有(或一部分)受試者序列。在許多情況 下,實際上不顯示個別讀數(shù),而是將比對序列組裝為一個序列,并作為數(shù)據(jù)文件提供該序 列。
[0006] 通常,通過聚集序列信息的兩個線性字符串之間的成對比對來構(gòu)建序列比對。作 為比對的實例,可以將兩個字符串S1 (序列編號12:AGCTACGTACACTACC)和S2(序列編號13: AGCTATCGTACTAGC)與彼此進行比對。S1通常對應于讀數(shù),而S2對應于參考序列的一部分。S1 和S2可關于彼此通過替代、刪除和插入構(gòu)成。通常,相對于將字符串S1轉(zhuǎn)換為字符串S2來定 義這些術(shù)語:當用S1中相同長度的不同字母或序列替代S2中的字母或序列時發(fā)生替代,當 在S1的對應區(qū)段中"跳過"S2中的字母或序列時發(fā)生刪除,并且當在S1中的兩個位置(這兩 個位置在S2中為相鄰位置)之間出現(xiàn)字母或序列時發(fā)生插入。例如,可以對兩個序列S1和S2 比對如下。以下比對指出有十三處匹配,一處刪除長度一,一處插入長度二以及一處替代:
[0007] (S1) AGCTA-CGTACACTACC (序列編號 12)
[0008] (S2) AGCTATCGTAC-TAGC (序列編號 13)
[0009] 本領域的技術(shù)人員將了解,存在序列比對的精確算法和近似算法。精確算法將找 出最高得分的比對,但是在計算上會昂貴。兩個最著名的精確算法是尼德曼-翁施 (Needleman-Wunsch)算法(分子生物學雜志(J Mol Biol)48(3) :443_453,1970)和史密斯-沃特曼(Smith-Waterman)算法(分子生物學雜志(J Mol Biol)147(l): 195-197,1981;數(shù)學 進展(Adv. in Math. )20(3),367-387,1976)。后藤(Gotoh)對史密斯-沃特曼算法的進一步 改進(分子生物學雜志(JMol 8丨〇1)162(3),705-708,1982)減少了從0(111211)到0(11111)的計算 時間,其中m和η比較的序列大小,該改進更能改善并行處理。在生物信息學領域,正是后藤 的改良算法通常被稱為史密斯-沃特曼算法。史密斯-沃特曼方法用于比對較大序列集與較 大參考序列,因為可更普遍且更便宜地獲得并行計算資源。參考例如,在http:// aws · amazon · com可獲得的Amazon · com的云計算資源。所有上述期刊論文的全部內(nèi)容以引入 的方式并入本文中。
[0010] 史密斯-沃特曼(SW)算法通過獎勵序列中的堿基之間的重疊并處罰序列之間的空 位來比對線性序列。史密斯-沃特曼算法還與尼德曼-翁施算法不同,不同之處在于SW不要 求短序列跨越描述長序列的字母組成的字符串。也就是說,SW不假定一個序列是另一個序 列的全部內(nèi)容的讀數(shù)。此外,因為SW并不一定找出橫跨字符串的全長的比對,所以局部比對 可以在兩個序列內(nèi)的任何地方開始和結(jié)束。
[0011] 根據(jù)以下方程式(1),對于表示長度η和m的兩個字符串的n Xm矩陣H,易于表示SW 算法:
[0012] Hk〇 = H〇i = 0(X^0 < k < n^.0 < 1 < m) (1)
[0013] Hij=max{Hi-1, j-i+s(ai,bj),Hi-1, j-Win,Hi, j-i_Wdei,0}
[0014] (對于1 < i 且1 < j <m)
[0015] 在以上方程式中,表示匹配獎勵值(當ai = h時)或不匹配罰分(當&1矣匕 時),并且對插入和刪除分別給出罰分WidPWdd。在大多數(shù)例子中,所得矩陣具有許多為零的 單元。這種表示使得更容易在矩陣中從高到低、從右到左回溯,因此識別比對。
[0016] 一旦已經(jīng)用得分完全填充矩陣,SW算法就執(zhí)行回溯以確定比對。開始于矩陣中的 最大值,算法將基于三個值中的哪個(Hi-mdi-u或Hi,H)曾用來計算每個細胞的最終最 大值來進行回溯。當達到零時回溯停止。見例如圖3(B),其不表示現(xiàn)有技術(shù),而是示出回溯 的概念以及在讀取回溯時的對應局部比對。因此,如通過算法確定的"最佳比對"可以含有 超過最小可能數(shù)目的插入和刪除,但是將含有遠少于最大可能數(shù)目的替代。
[0017] 當作為SW或SW-后藤應用時,該技術(shù)使用動態(tài)規(guī)劃算法來執(zhí)行分別具有大小m和η 的兩個字符串S和Α的局部序列比對。此動態(tài)規(guī)劃技術(shù)采用表或矩陣來保存匹配得分并避免 對于連續(xù)細胞的重新計算??梢韵鄬τ谛蛄械淖帜笧樽址拿總€單元編索引,也就是說, 如果S是字符串ATCGAA,那么5[1]=六、5[4]=6等。替代將最優(yōu)比對表示為出,」(上文),可以 將最優(yōu)比對表示為以下方程式(2)中的B[j,k] :
[0018] B[ j,k]=max(p[ j,k],i[ j,k],d[ j,k],0)(對于0〈j <m、0〈k<n) (2)
[0019] 在以下方程式(3)到(5)中概述最大值函數(shù)B[ j,k]的變量參數(shù),其中MISMATCH_ PENALTY、MATCH_BONUS、INSERTION_PENALTY、DELETION_PENALTY 和 OPENING_PENALTY 都是常 數(shù),并且除MATCH_BONUS以外均為負數(shù)。匹配變量參數(shù)p[j,k]由以下方程式(3)得出:
[0020] 若S[ j ]關A[k],則p[ j,k] = max(p[ j-1,k-l ],i [ j-1,k-l ],d[ j-1,k-l ]) + MISMATCH_PENALTY
[0021] 若S[ j]=A[k],貝ljp[ j,k] = =max(p[ j-l,k-l],i[ j-l,k-l],d[j-l,k-l])+MATCH_ BONUS (3)
[0022] 插入變量參數(shù)i[j,k]由以下方程式(4)得出:
[0023] i[j,k]=max(p[j-1,k]+OPENING_PENALTY,i[j-1,k],d[j-1,k]+0PENING_ PENALTY)+INSERTI0N_PENALTY (4)
[0024] 且刪除變量參數(shù)d[j,k]由以下方程式(5)得出:
[0025] d[j,k]= max(p[j,k-1]+0ΡΕΝΙNG_PENALTY,i[j,k-1]+0ΡΕΝΙNG_PENALTY,d[j,k-1])+DELETI0N_PENALTY (5)
[0026] 對于所有三個變量參數(shù),將[0,0]單元設置為零以確?;厮萃瓿桑?,p[0,0] = i
[0,0] =d[0,0] =0〇
[0027] 得分參數(shù)在一定程度上是任意的,并可經(jīng)調(diào)整以實現(xiàn)計算的性能。對于DNA的得分 參數(shù)設置的一個實例(Huang,第3章:生物序列比較和比對(Bio-Sequence Comparison and Alignment),Curr Top Comp Mol Biol.叢書,馬薩諸塞州劍橋市:麻省理工學院出版社 (The MIT Press),2002年)將為:
[0028] MATCH_B〇NUS:10
[0029] MISMATCH_PENALTY:-20
[0030] INSERTI0N_PENALTY:-40
[0031] PENING_PENALTY:-10
[0032] DELETI0N_PENALTY:-5
[0033] 以上空位罰分(INSERTI0N_PENALTY、0PENING_PENALTY)之間的關系有助于限制空 位開放的數(shù)目,即,支持通過設置高于空位開放成本的空位插入罰分來歸并空位。當然, MISMATCH_PENALTY、MATCH_BONUS、INSERTI0N_PENALTY、0PENING_PENALTY和DELETI0N_ PENALTY之間可能存在替代關系。
[0034] 一旦完成比對,可以組裝比對后的序列以產(chǎn)生可與參考(即,遺傳標準)相比以識 別變異的序列。變異可以提供關于疾病、疾病期、復發(fā)等的洞察。在氨基酸比對的情況下,可 以比較組裝后的氨基酸序列與標準以確定關于蛋白質(zhì)的進化信息或關于蛋白質(zhì)的功能信 息。然而,疾病比較的此標準方法是費時的,因為許多變異不一定與疾病相關。例如,當遺傳 標準來自具有與樣本不同的血統(tǒng)的人群時,許多所謂的變異是歸因于像毛色、膚色等的事 物的差別。
【發(fā)明內(nèi)容】
[0035] 本發(fā)明提供算法和方法,該算法和方法的實施將線性的局部序列比對方法(例如, 史密斯-沃特曼-后藤方法)轉(zhuǎn)換成多維比對算法,該算法和方法提高并行計算、提高速度、 提高精確度并且能夠貫穿全基因組比對讀數(shù)。本發(fā)明的算法提供(如史密斯-沃特曼算法中 的)序列信息的"回顧"類型分析,然而,與已知線性方法對比,本發(fā)明的回顧貫穿包含多個 通路和多個節(jié)點的多維空間而進行,以便提供對復雜和冗長序列讀數(shù)的更精確比對,同時 實現(xiàn)更低的總錯配率、刪除率和插入率。
[0036]在實踐中,通過比對序列讀數(shù)與跨越分歧點的一系列有向非循環(huán)序列來實施本發(fā) 明,其考慮比對中的所有或幾乎所有可能的序列變異,包括插入、刪除和替代。通常表示為 有向非循環(huán)圖(DAG)的此類構(gòu)建物可易于從可用的序列數(shù)據(jù)庫來組裝,可用的序列數(shù)據(jù)庫 包含"接受"參考序列和變異識別格式(VCF)條目。當結(jié)合DAG或其它有向構(gòu)建物時,所公開 的算法因此提供針對序列比對的多維方法,其大大改進比對精確度并提供通過傳統(tǒng)算法不 可能實現(xiàn)的序列分辨率。該技術(shù)可以與任何序列信息一起使用,然而實際上,如本文中所論 述,該技術(shù)最適用于比對核酸序列和氨基酸序列。
[0037]本發(fā)明另外提供使用參考序列構(gòu)建物(例如,表不基因組的每個基因座處的已知 變異的DAG)在特定基因座處進行特定堿基響應的方法。因為在比對期間對序列讀數(shù)與DAG 進行比對,所以可以排除比較關于參考基因組的突變與已知突變的表的后續(xù)步驟。使用所 公開的方法,需要做的僅僅是識別如位于DAG上表示的已知突變處的核酸讀數(shù)并且響應該 突變。替代地,當突變并非已知(即,未在參考序列構(gòu)建物中表示)時,將找出比對并且將變 異識別為新突變。該方法還使得有可能將例如特定疾病風險或疾病進展的另外的信息與并 入到參考序列構(gòu)建物中的已知突變相關聯(lián)。此外,除了能夠在比對期間找出所有基因相關 的結(jié)果之外,所公開的方法還減少進行比對所需的計算資源,同時允許與多個參考序列的 同步比較。
[0038] 本發(fā)明另外包含用于構(gòu)建表示生物體的序列內(nèi)的位置處的已知變異的有向非循 環(huán)圖數(shù)據(jù)結(jié)構(gòu)(DAG)的方法。DAG可以包含數(shù)千個位置處的多個序列,并且可以包含每個位 置處的多個變異,包含刪除、插入、平移、倒置和單核苷酸多態(tài)性(SNP)。還可能給DAG中的每 個變異標記相關診斷信息,例如"乳腺癌",由此減少識別針對提供樣本的患者的風險所需 的步驟。在一些實施例中,將對變異評分、加權(quán)或使其與其它變異相關以反映該變異作為疾 病標志的發(fā)生率。
[0039] 本發(fā)明另外包含用于執(zhí)行本發(fā)明的方法的系統(tǒng)。在一個實施例中,系統(tǒng)包括處理 器和存儲裝置的分布式網(wǎng)絡,能夠比較多個序列(即,核酸序列、氨基酸序列)與表示基因組 或基因組區(qū)中觀察到的變異的參考序列構(gòu)建物(例如,DAG)。該系統(tǒng)另外能夠使用高效比對 算法來比對核酸讀數(shù)以產(chǎn)生連續(xù)序列。因為參考序列構(gòu)建物壓縮大量冗余信息,并且因為 比對算法如此高效,所以可以使用市售資源在全基因組上標記和組裝該讀數(shù)。該系統(tǒng)包括 多個處理器,多個處理器同時執(zhí)行多個讀數(shù)與參考序列構(gòu)建物之間的多個比較??梢岳塾?比較數(shù)據(jù)并提供給醫(yī)療服務人員。因為該比較在計算上易處理,所以分析序列讀數(shù)將不再 表示在NGS測序與患者遺傳風險的有意義的探討之間形成瓶頸。
【附圖說明】
[0040] 圖1描繪表示參考序列中的遺傳變異的有向非循環(huán)圖(DAG)的構(gòu)建物。圖1(A)示出 開始參考序列和刪除的添加。圖1(B)示出插入和SNP的添加,因此得出用于比對的最終DAG;
[0041] 圖2描繪表示為有向非循環(huán)圖的三個變異識別格式(VCF)條目;
[0042] 圖3(A)示出將核酸序列讀數(shù)與解釋插入情況的構(gòu)建物以及參考序列進行比對的 圖形表示;
[0043] 圖3(B)示出用以識別核酸序列讀數(shù)"ATCGAA"的適當位置的矩陣和回溯;
[0044] 圖4描繪用于并行處理的關聯(lián)計算模型;
[0045]圖5描繪用于并行計算的體系構(gòu)建物。
【具體實施方式】
[0046]本發(fā)明包含用于