將已知等位基因用于讀數(shù)映射中的系統(tǒng)和方法【專利摘要】本發(fā)明大體上涉及基因組研究,且具體涉及使用已知位置處的所鑒別核苷酸用于讀數(shù)映射的改進(jìn)方法。本發(fā)明提供通過排除與所鑒別核苷酸不一致的潛在映射或組合,使用基因組中的已知位置處的所鑒別核苷酸引導(dǎo)來自該基因組的序列讀數(shù)的分析的方法。將關(guān)于受檢者的基因組中的多個(gè)SNP的信息用于鑒別穿過基因組有向非循環(huán)圖(DAG)的候選路徑。將序列讀數(shù)映射到候選路徑?!緦@f明】將已知等位基因用于讀數(shù)映射中的系統(tǒng)和方法[0001]相關(guān)申請(qǐng)的交叉引用[0002]本申請(qǐng)要求2014年1月10日提交的美國臨時(shí)專利申請(qǐng)序號(hào)61/925,892的權(quán)益和優(yōu)先權(quán),其內(nèi)容以引用的方式并入。[0003]序列表[0004]本申請(qǐng)含有一個(gè)序列表,其已經(jīng)由EFS-Web以ASCII格式提交并且以全文引用的方式并入本文中。ASCII格式的序列表創(chuàng)建于2015年1月8日,命名為SBG-010-01W0-seq_ST25,且大小為2,031字節(jié)。
技術(shù)領(lǐng)域:
[0005]本發(fā)明大體上涉及基因組研究,且具體涉及使用已知位置處的所鑒別核苷酸用于讀數(shù)映射的改進(jìn)方法?!?br>背景技術(shù):
】[0006]個(gè)人基因信息有可能揭示關(guān)于其健康和壽命的許多信息。癌癥或遺傳疾病的風(fēng)險(xiǎn)以及個(gè)人的孩子遺傳基因病癥的可能性可通過該個(gè)人的基因序列揭示。多種技術(shù)可提供大量個(gè)人基因數(shù)據(jù),但將數(shù)據(jù)用于醫(yī)療保健存在障礙。[0007]舉例來說,單核苷酸多態(tài)性(SNP)陣列-在各種習(xí)慣下也稱為SNP芯片、基因芯片或微陣列-可給出個(gè)人的基因組中的多種不同基因中的許多不同核苷酸堿基的標(biāo)識(shí)。這些陣列可鑒別疾病相關(guān)的SNP、檢測(cè)雜合性丟失和癌細(xì)胞中的其它體細(xì)胞變化且定向單體型。參見例如拉弗朗布瓦茲(LaFramboise),2009,單核苷酸多態(tài)性陣列:十年間的生物、計(jì)算和技術(shù)進(jìn)展(Singlenucleotidepolymorphismarrays:adecadeofbiological,computationalandtechnologicaladvance),核酸研究(NucleicAcidsRes)37(13):4181-4193。然而,SNP芯片具有限制。其并非始終為發(fā)現(xiàn)新突變的正確工具,且其缺乏基因組上下文。來自SNP芯片的結(jié)果類似于被告知呈現(xiàn)于書籍的每頁上的第一個(gè)字母-數(shù)據(jù)點(diǎn)可展示某些錯(cuò)誤或模式,但其不會(huì)給出原委。[0008]相當(dāng)大部分的基因組可通過下一代測(cè)序(NGS)技術(shù)測(cè)序以產(chǎn)生極大量的短序列讀數(shù)。分析那些讀數(shù)是一項(xiàng)重大挑戰(zhàn)?,F(xiàn)有方法通常涉及將讀數(shù)映射到參考基因組或進(jìn)行重新組裝。由于數(shù)據(jù)量,比對(duì)和組裝必須用走數(shù)學(xué)捷徑的啟發(fā)式算法進(jìn)行以完成工作。然而,那些缺陷為容許的,因?yàn)閿?shù)學(xué)上徹底的算法為計(jì)算上禁止的。不僅數(shù)學(xué)精確度在分析NGS讀數(shù)中被犧牲,而且當(dāng)前方法有限地利用可用的信息。NGS讀數(shù)通常映射到略為任意的參考且被調(diào)用為匹配該參考或不-因此具有參考是否為適用標(biāo)準(zhǔn)的問題?!?br/>發(fā)明內(nèi)容】[0009]本發(fā)明提供通過利用基因組中的已知位置處的所鑒別核苷酸排除與所鑒別核苷酸不一致的潛在映射或組合,來引導(dǎo)來自該基因組的序列讀數(shù)的分析的方法。當(dāng)讀數(shù)映射到表示多個(gè)位置處的每一位置的多個(gè)替代序列的有向非循環(huán)圖(DAG)時(shí),經(jīng)由不包括所鑒別核苷酸的DAG的路徑可從讀數(shù)映射排除,結(jié)果為不必徒勞地耗費(fèi)計(jì)算機(jī)處理時(shí)間以把讀數(shù)與參考物的無關(guān)區(qū)域作出比較。計(jì)算資源的節(jié)約可應(yīng)用于映射和組裝算法,允許例如使用數(shù)學(xué)魯棒(robust)算法,如發(fā)現(xiàn)最佳比對(duì)的基于史密斯-沃特曼(Smith-Waterman)的比對(duì)算法使讀數(shù)比對(duì)到DAG中的路徑。提供的方法允許映射或組裝極大量的NGS讀數(shù),以使得基因組測(cè)序計(jì)劃可以先前不可能的步調(diào)、覆蓋深度和通量進(jìn)行。[0010]參考DAG可表示多個(gè)基因座處的任何或所有已知或推測(cè)的基因型。因此,序列讀數(shù)相比于大于僅一個(gè)有限、線性參考。序列讀數(shù)相比于多個(gè)已知變型,避免通過與單一參考比對(duì)作出的誤導(dǎo)性推斷。多個(gè)已知變型可記錄在DAG內(nèi)且讀數(shù)映射可包括以另外不可能的方式發(fā)現(xiàn)與已知變型的匹配物。DAG可包括為特定受檢者的自然合理的參考的路徑,如來自相同群體或種族的其它成員的序列。映射到DAG使得讀數(shù)組合更成功,因?yàn)榻?jīng)由DAG的路徑將為比線性參考更適合且還使得結(jié)果更有意義,因?yàn)槭軝z者的基因組可理解為其與群體的許多其它成員有關(guān)。[0011]使用如通過例如SNP芯片提供的受檢者的基因組中的所鑒別核苷酸限制DAG搜索空間,即過濾DAG使得讀數(shù)映射快速且徹底,伴以較好結(jié)果和高通量。因此,個(gè)人基因組研究更可接近且此類研究可展示的醫(yī)療上重要信息將用于承擔(dān)改善人們的生活。[0012]另外,使用鑒別的核苷酸(例如來自SNP芯片)可改進(jìn)來自比對(duì)的結(jié)果??色@得與基因組中的其它核苷酸相關(guān)的所鑒別核苷酸的數(shù)據(jù)。舉例來說,許多基因座彼此間連鎖不平衡。當(dāng)基因組中的基因座經(jīng)鑒別(例如通過SNP芯片)時(shí),與鑒別的基因座連鎖不平衡的另一基因座可能因此具有該基因組中的某一等位基因的一定概率。映射讀數(shù)到連接基因座可包括將概率并入比對(duì)算法中,因此通過增加所得比對(duì)顯示受檢者的基因組與DAG內(nèi)表示的其它基因組之間的自然關(guān)系的概率而改進(jìn)所得比對(duì)。[0013]在某些方面中,本發(fā)明提供一種測(cè)定基因組序列的計(jì)算機(jī)系統(tǒng)。計(jì)算機(jī)系統(tǒng)使用耦接到存儲(chǔ)器的處理器接收受檢者基因組上的已知位置處的多個(gè)核苷酸的標(biāo)識(shí),從多個(gè)基因組序列選擇一個(gè)或多個(gè)基因組序列-其中所選序列包括已知位置處的核苷酸,且從來自受檢者的樣品接收序列讀數(shù)。系統(tǒng)可將序列讀數(shù)映射到一個(gè)或多個(gè)所選基因組序列,進(jìn)而鑒別基因組的至少一部分的序列。在優(yōu)選實(shí)施例中,多個(gè)基因組序列以包含多個(gè)節(jié)點(diǎn)和邊緣對(duì)象中的一個(gè)的DAG形式存儲(chǔ)在存儲(chǔ)器中,該多個(gè)節(jié)點(diǎn)和邊緣對(duì)象各自存儲(chǔ)一列指針,該指針指向這些節(jié)點(diǎn)和邊緣對(duì)象的鄰接節(jié)點(diǎn)和邊緣對(duì)象在存儲(chǔ)器中的位置。所選基因組序列中的每一個(gè)界定穿過DAG的所選路徑且系統(tǒng)通過找出序列讀數(shù)與所選路徑之間的最優(yōu)比對(duì)而映射序列讀數(shù)。找出最優(yōu)比對(duì)可通過找出貫穿DAG的最高評(píng)分跡線進(jìn)行。此最高評(píng)分跡線可通過計(jì)算讀數(shù)與DAG中的節(jié)點(diǎn)和邊緣對(duì)象中的至少一些之間的匹配評(píng)分和解引用指針中的至少一些以從DAG中的前趨對(duì)象在存儲(chǔ)器中的引用位置讀取這些前驅(qū)對(duì)象而找出。具有最大匹配評(píng)分總和的穿過前趨對(duì)象的路徑為貫穿DAG的最高評(píng)分跡線。[0014]在一些實(shí)施例中,系統(tǒng)通過找出每一序列讀數(shù)與每一所選路徑之間的最優(yōu)比對(duì)而映射序列讀數(shù)。找出最優(yōu)比對(duì)可包括找出貫穿多維矩陣的最高評(píng)分跡線。其系統(tǒng)可經(jīng)操作以基于已知位置處的多個(gè)核苷酸的標(biāo)識(shí)獲得關(guān)于額外核苷酸的標(biāo)識(shí)的概率且將獲得的概率用于找出最優(yōu)比對(duì)。概率可獲自額外核苷酸中的一個(gè)與已知位置處的多個(gè)核苷酸中的一個(gè)之間的連鎖不平衡的測(cè)量值。[0015]在某些實(shí)施例中,多個(gè)基因組序列以包含多個(gè)節(jié)點(diǎn)和邊緣對(duì)象的DAG形式存儲(chǔ)在存儲(chǔ)器中,該多個(gè)節(jié)點(diǎn)和邊緣對(duì)象各自存儲(chǔ)一列指針,這些指針指向這些節(jié)點(diǎn)和邊緣對(duì)象的鄰接節(jié)點(diǎn)和邊緣對(duì)象在存儲(chǔ)器中的位置,其中所選基因組序列中的每一個(gè)界定穿過DAG的所選路徑且其中系統(tǒng)可經(jīng)操作以通過找出序列讀數(shù)與所選路徑之間的最優(yōu)比對(duì)而映射序列讀數(shù)。找出最優(yōu)比對(duì)可通過計(jì)算讀數(shù)與DAG中的節(jié)點(diǎn)和邊緣對(duì)象中的至少一些之間的匹配評(píng)分和解引用指針中的至少一些以從DAG中的前趨對(duì)象在存儲(chǔ)器中的引用位置讀取這些前驅(qū)對(duì)象而進(jìn)行,其中具有最大匹配評(píng)分總和的穿過前趨對(duì)象的路徑為貫穿DAG的最高評(píng)分跡線。[0016]在某些實(shí)施例中,多個(gè)基因組序列以包含多個(gè)節(jié)點(diǎn)和邊緣對(duì)象的DAG形式存儲(chǔ)于存儲(chǔ)器中,其中多個(gè)核苷酸的標(biāo)識(shí)包含受檢者的基因組中的多個(gè)SNP且系統(tǒng)通過鑒別包括多個(gè)SNP的貫穿DAG的候選路徑而選擇一個(gè)或多個(gè)包括SNP的基因組序列。在一些實(shí)施例中,DAG表示在每一等位基因具有單一對(duì)象的多個(gè)基因組之間同源的至少一個(gè)基因座。DAG可經(jīng)注釋以列舉非可共存節(jié)點(diǎn)對(duì),且系統(tǒng)另外可經(jīng)操作以從多個(gè)SNP中的一個(gè)鑒別非可共存節(jié)點(diǎn)對(duì)的列表中的節(jié)點(diǎn),鑒別與非可共存節(jié)點(diǎn)對(duì)的列表中的鑒別節(jié)點(diǎn)配對(duì)的第二節(jié)點(diǎn),且在映射序列讀數(shù)時(shí)排除含有第二節(jié)點(diǎn)的路徑。[0017]在系統(tǒng)中,表示多個(gè)基因組序列的數(shù)據(jù)可包括表示核苷酸序列的節(jié)點(diǎn)和連接節(jié)點(diǎn)對(duì)的邊緣,其中節(jié)點(diǎn)和邊緣界定有向非循環(huán)圖,另外,其中所選基因組序列中的每一個(gè)界定穿過有向非循環(huán)圖的所選路徑。優(yōu)選地,有向非循環(huán)圖表示多個(gè)位置處的每一位置的至少兩個(gè)替代序列。[0018]在一些方面中,本發(fā)明提供一種通過獲得關(guān)于受檢者的基因組中的多個(gè)SNP的信息測(cè)定受檢者的基因信息和在包含表示基因序列的節(jié)點(diǎn)和連接節(jié)點(diǎn)對(duì)的邊緣的有向非循環(huán)數(shù)據(jù)結(jié)構(gòu)(或DAG)內(nèi)鑒別包括多個(gè)SNP的候選路徑的方法。序列讀數(shù)獲自受檢者的基因組且映射到候選路徑。DAG可表示在每一等位基因具有單一節(jié)點(diǎn)的多個(gè)基因組之間同源的至少一個(gè)基因座。DAG可經(jīng)注釋以列舉非可共存節(jié)點(diǎn)對(duì),且該方法可包括從多個(gè)SNP中的一個(gè)鑒別非可共存節(jié)點(diǎn)對(duì)的列表中的節(jié)點(diǎn),鑒別與非可共存節(jié)點(diǎn)對(duì)的列表中的鑒別節(jié)點(diǎn)配對(duì)的第二節(jié)點(diǎn),且從映射步驟排除含有第二節(jié)點(diǎn)的路徑。[0019]本發(fā)明的方面提供一種通過在計(jì)算機(jī)系統(tǒng)接收受檢者的基因組上的已知位置處的多個(gè)核苷酸的標(biāo)識(shí)(例如來自微陣列或SNP芯片)和從存儲(chǔ)在計(jì)算機(jī)系統(tǒng)中的多個(gè)基因組序列選擇一種或多種基因組序列(其中所選序列包括已知位置處的核苷酸)而測(cè)定基因組序列的方法。方法包括從來自受檢者的樣品接收序列讀數(shù)和將序列讀數(shù)映射到所選基因組序列,進(jìn)而測(cè)定基因組的至少一部分的序列。[0020]表示多個(gè)基因組序列的數(shù)據(jù)可為具有表示核苷酸序列的節(jié)點(diǎn)和連接節(jié)點(diǎn)對(duì)的邊緣的DAG。所選基因組序列中的每一個(gè)界定穿過DAG的所選路徑。映射序列讀數(shù)可通過找出序列讀數(shù)與所選路徑之間的最優(yōu)比對(duì)進(jìn)行。[0021]方法可另外包括基于已知位置處的多個(gè)核苷酸的標(biāo)識(shí)獲得關(guān)于額外核苷酸的標(biāo)識(shí)的概率且將獲得的概率用于找出最優(yōu)比對(duì)。概率可獲自額外核苷酸中的一個(gè)與已知位置處的多個(gè)核苷酸中的一個(gè)之間的連鎖不平衡的測(cè)量值。[0022]DAG可為任何適合標(biāo)度,包括基因組標(biāo)度或經(jīng)縮放以表示基因或區(qū)域。在一些實(shí)施例中,DAG可為基因組標(biāo)度DAG且可包括至少一個(gè)給出至少一個(gè)人類染色體大體上整個(gè)序列的穿過DAG的路徑。在某些實(shí)施例中,DAG為表示小于染色體的區(qū)域,例如基因;基因周圍的區(qū)域;操縱子;來自細(xì)胞器、細(xì)菌病毒或質(zhì)體的染色體;大SV要素等的標(biāo)度。DAG表示多個(gè)位置處的每一位置的至少兩個(gè)替代序列。一旦映射到DAG(或經(jīng)由映射),讀數(shù)可經(jīng)組裝。[0023]在相關(guān)方面中,本發(fā)明提供一種用于測(cè)定基因組序列的系統(tǒng)。系統(tǒng)包括耦接到存儲(chǔ)器的處理器且可經(jīng)操作以接收受檢者的基因組上的已知位置處的多個(gè)核苷酸的標(biāo)識(shí)且從多個(gè)基因組序列(例如在DAG內(nèi))選擇一個(gè)或多個(gè)基因組序列,其中所選序列包括已知位置處的核苷酸。系統(tǒng)可用于從來自受檢者的樣品接收序列讀數(shù)且將序列讀數(shù)映射到一個(gè)或多個(gè)基因組序列,進(jìn)而鑒別基因組的至少一部分的序列。其系統(tǒng)另外可經(jīng)操作以基于已知位置處的多個(gè)核苷酸的標(biāo)識(shí)獲得關(guān)于額外核苷酸的標(biāo)識(shí)的概率且將獲得的概率用于找出最優(yōu)比對(duì)。概率可獲自額外核苷酸中的一個(gè)與已知位置處的多個(gè)核苷酸中的一個(gè)之間的連鎖不平衡的測(cè)量值。【附圖說明】[0024]圖1說明使用DAG表示和操縱生物信息學(xué)數(shù)據(jù)。[0025]圖2顯示基因組DAG的一種可能的格式。[0026]圖3給出假設(shè)的基因組區(qū)域中的若干位置的DAG。[0027]圖4顯示有很多關(guān)于共存性的信息的DAG。[0028]圖5描述將序列讀數(shù)映射到DAG。[0029]圖6顯示用于將序列比對(duì)到DAG的矩陣。[0030]圖7顯示經(jīng)產(chǎn)生以包括概率信息的DAG。[0031]圖8顯示來自圖7的DAG的減小版本。[0032]圖9說明DAG的減小的結(jié)果。[0033]圖10圖解本發(fā)明的方法。[0034]圖11說明基因組標(biāo)度DAG的極小部分的實(shí)例。[0035]圖12通過核苷酸信息顯示DAG。[0036]圖13顯示過濾之后的DAG。[0037]圖14說明本發(fā)明的系統(tǒng)。【具體實(shí)施方式】[0038]-般來說,本發(fā)明提供測(cè)定受檢者的基因信息的系統(tǒng)和方法。獲得關(guān)于受檢者的基因組中的多個(gè)單核苷酸多態(tài)性(SNP)的信息且用于鑒別包括SNP的穿過基因組DAG的候選路徑。NGS讀數(shù)可接著映射到候選路徑,獲得相當(dāng)大的計(jì)算節(jié)約資源,因?yàn)椴粚で髮⒛切┳x數(shù)同與SNP信息不一致的路徑比對(duì)而耗費(fèi)那些資源。[0039]單核苷酸多態(tài)性(SNP),DNA中的單一位點(diǎn)處的變異,為一種類型的遺傳變異。已在人類基因組中鑒別數(shù)百萬SNPJNP在科學(xué)、醫(yī)藥和農(nóng)業(yè)中具有許多用途且在全基因組關(guān)聯(lián)性研究中充當(dāng)有價(jià)值的標(biāo)記物。參見例如馬諾利奧(Manolio)等人,2010,全基因組關(guān)聯(lián)性研究和疾病風(fēng)險(xiǎn)評(píng)估(Genomewideassociationstudiesandassessmentoftheriskofdisease),新英格蘭醫(yī)學(xué)雜志(NEJM)363(2):166-76。尤其地,SNP陣列用于測(cè)定疾病易感性且用于測(cè)量專門設(shè)計(jì)用于個(gè)體的藥物療法的功效。每一個(gè)體具有多個(gè)SNP。基于SNP的遺傳連鎖分析可用于映射疾病基因座和測(cè)定個(gè)體中的疾病易感性基因。SNP映射和高密度SNP芯片的組合允許SNP用作具有復(fù)雜特性的遺傳疾病的標(biāo)記物。舉例來說,全基因組遺傳連鎖分析顯示如類風(fēng)濕性關(guān)節(jié)炎、前列腺癌和新生兒糖尿病的疾病的連鎖。由于SNP的重要性,國際單體型圖計(jì)劃協(xié)作組(InternationalHapMapConsortium)等為鑒別SNP基因座、在各種祖先的個(gè)體中對(duì)其基因分型且揭示其在基因組中的相關(guān)結(jié)構(gòu)的進(jìn)行中的努力的一部分。政府計(jì)劃dbSNP為以對(duì)所有SNP全面地編目錄為目標(biāo)的公共努力。[0040]SNP芯片(在各種習(xí)慣下也稱為微陣列、基因芯片、DNA芯片或其它)為結(jié)合大量寡核苷酸的小芯片。寡核苷酸僅選擇性地雜交到互補(bǔ)序列。寡核苷酸經(jīng)設(shè)計(jì)為用于SNP的探針。[0041]本發(fā)明實(shí)施例的方法包括經(jīng)由SNP芯片鑒別存在于受檢者中的等位基因。舉例來說,SNP芯片可測(cè)定多個(gè)不同已知位置處的核苷酸的標(biāo)識(shí)。為了測(cè)定哪些等位基因存在于受檢者中,來自受檢者的基因組DNA經(jīng)分離、片段化、用熒光染料標(biāo)記且涂覆到芯片?;蚪MDNA片段僅結(jié)合到與其互補(bǔ)的那些寡核苷酸。當(dāng)互補(bǔ)DNA結(jié)合到寡核苷酸探針時(shí),可經(jīng)由成像儀器檢測(cè)熒光報(bào)告子。因此,SNP芯片可用于鑒別非均質(zhì)樣品中的特異性DNA序列。舉例來說,SNP芯片可針對(duì)受檢者的基因組DNA的背景檢測(cè)特定等位基因的存在。計(jì)算機(jī)讀取熒光標(biāo)簽的位置且鑒別通過寡核苷酸探測(cè)的特定已知位置處的核苷酸。[0042]SNP芯片可容納數(shù)十萬寡核苷酸。為了實(shí)現(xiàn)相對(duì)濃度獨(dú)立性和最小交叉雜交,多個(gè)數(shù)據(jù)庫的原始序列和SNP經(jīng)掃描以設(shè)計(jì)探針。陣列上的每一SNP用不同探針詢問。[0043]另外,SNP也可用于研究癌癥中的基因異常。舉例來說,SNP陣列可用于研究雜合性丟失(Lossofheterozygosity;LOH),其中突變導(dǎo)致正常功能的等位基因的丟失。腫瘤抑制基因的L0H與癌癥相關(guān)。[0044]SNP陣列能夠檢測(cè)病理學(xué)拷貝中性L0H(也被稱為單親二體性或基因轉(zhuǎn)化)??截愔行訪0H為一種形式的等位基因不平衡。在拷貝中性L0H中,來自親代的一個(gè)等位基因或全染色體缺失。此問題導(dǎo)致另一親代等位基因的復(fù)制。由于L0H在許多人類癌癥中如此常見,SNP芯片對(duì)于癌癥診斷學(xué)有潛在價(jià)值。[0045]在高密度SNP陣列中,數(shù)十萬探針排列于小芯片上,允許同時(shí)詢問多個(gè)SNP。商業(yè)陣列平臺(tái)現(xiàn)在可在一個(gè)分析中對(duì)個(gè)體中的約一百萬個(gè)SNP基因分型。[0046]盡管如昂飛(Affymetrix)和伊路米那(Illumina)SNP陣列的產(chǎn)品使用不同化學(xué)反應(yīng)操作,其通常具有共同的方面。一般來說,高密度SNP芯片將片段化單鏈DNA的雜交用于含有數(shù)十萬獨(dú)特核苷酸探針序列的陣列。對(duì)于昂飛和伊路米那陣列兩者,專門化設(shè)備測(cè)量與每一探針和其在雜交之后的標(biāo)靶相關(guān)的信號(hào)強(qiáng)度。這些原始強(qiáng)度測(cè)量值的分析產(chǎn)生SNP基因型推斷。[0047]昂飛人類SNP5.0基因芯片進(jìn)行可對(duì)超過500,000個(gè)人類SNP基因分型的全基因組分析。每一SNP位點(diǎn)通過各自為25nt長的一組探針詢問。探針經(jīng)設(shè)計(jì)以與含有SNP位點(diǎn)的DNA序列的一部分互補(bǔ)或極近似互補(bǔ)。人類SNP陣列6.0上的每一SNP通過六個(gè)或八個(gè)完美匹配的探針詢問-兩個(gè)等位基因中的每一個(gè)的相同探針的三或四個(gè)拷貝。因此,每一SNP的強(qiáng)度數(shù)據(jù)由兩組重復(fù)測(cè)量結(jié)果組成。此外,SNP探針組用接近1百萬拷貝數(shù)的探針強(qiáng)化,其意圖詢問不具有SNP,而是在拷貝數(shù)方面可為多晶型的基因組區(qū)域。[0048]來自昂飛的6.0陣列可用稱作伯德錫德(Birdseed)的來自昂飛的算法分析。從原始、標(biāo)準(zhǔn)化探針強(qiáng)度,伯德錫德獲得信號(hào)對(duì)。伯德錫德使用產(chǎn)生每一SNP的基因型的最大期望(EM)程序?qū)碜詼y(cè)試樣品的信號(hào)擬合到二維高斯(Gaussian)混合模型,基于調(diào)用與其叢集的接近性得到每一基因型的置信度評(píng)分。[0049]伊路米那微球陣列(其最新版本)詢問1百萬個(gè)基因座。來自單一HumanHap1M陣列的原始文件由大約兩百萬個(gè)數(shù)據(jù)點(diǎn)組成,概念上為一些一百萬對(duì)(XI,Yl),(X2,Y2),......,(XN,YN)。伊路米那軟件使用捕獲用于平移、縮放和旋轉(zhuǎn)X和Y坐標(biāo)的適當(dāng)因數(shù)且在離群值去除之后使用這些對(duì)本身推斷的參數(shù),在不依賴于多個(gè)陣列的情況下個(gè)別地對(duì)每一樣品進(jìn)行內(nèi)部標(biāo)準(zhǔn)化。目標(biāo)為在每一SNP處產(chǎn)生一對(duì)原始等位基因特異性拷貝測(cè)量結(jié)果。另外,如同當(dāng)前版本的昂飛陣列,HumanHap1M也包括意圖詢問非SNP人類遺傳變異的拷貝數(shù)探針。[0050]在一些實(shí)施例中,本發(fā)明的方法包括收集來自受檢者的樣品且對(duì)樣品使用SNP芯片以鑒別核苷酸。一般來說,SNP芯片可以用于變型或突變發(fā)現(xiàn)重要的情形下,且SNP芯片自身產(chǎn)生關(guān)于變型的信息。在一些方面中,SNP芯片如同(復(fù)雜、異常的)黑匣子,從其獲得一些關(guān)于變型的事實(shí)。鑒于這些事實(shí),可得出一些結(jié)論,包括關(guān)于可能存在或可能不存在的其它變型的結(jié)論。盡管本發(fā)明的方法一般來說可在任何形式的突變檢測(cè)下操作,SNP芯片提供一種獲得突變信息的方式。獲得突變信息的其它方法包括限制性片段長度多態(tài)性和類似研究、多重接合探針依賴性擴(kuò)增、基于非芯片的雜交分析或其它。SNP芯片和其它此類分析提供用于突變檢測(cè)和鑒別的工具。那些分析可用于測(cè)定基因組中的已知位置處的某些等位基因或核苷酸的標(biāo)識(shí)。本發(fā)明提供使用受檢者的基因組中的已知位置處的核苷酸的標(biāo)識(shí)來幫助映射、組裝或分析NGS讀數(shù)的方法。[0051]在某些實(shí)施例中,通過對(duì)來自受檢者的樣品進(jìn)行測(cè)序獲得NGS讀數(shù)??梢酝ㄟ^所屬領(lǐng)域中已知的任何方法測(cè)序。一般參見凱威爾(Quai1)等人,2012,三種下一代測(cè)序平臺(tái)的記述:離子激流、太平洋生物科學(xué)和伊路米那MiSeq測(cè)序儀的比較(Ataleofthreenextgenerationsequencingplatforms:comparisonofIonTorrent,PacificBiosciencesandIlluminaMiSeqsequencers),BMC基因組學(xué)(BMCGenomics)13:341dDNA測(cè)序技術(shù)包括使用標(biāo)記終止子或引物和板條或毛細(xì)管中的凝膠分離的經(jīng)典雙脫氧測(cè)序反應(yīng)(桑格法(Sangermethod))、使用可逆封端的標(biāo)記核苷酸的合成測(cè)序、焦磷酸測(cè)序、454測(cè)序、伊路米那/索萊薩(Solexa)測(cè)序、針對(duì)標(biāo)記寡核苷酸探針庫的等位基因特異性雜交、使用針對(duì)標(biāo)記克隆株庫的等位基因特異性雜交后跟接合的合成測(cè)序、在聚合步驟期間并入標(biāo)記核苷酸的實(shí)時(shí)監(jiān)視、聚合酶克隆測(cè)序(polonysequencing)和SOLiD測(cè)序。分離的分子可通過使用聚合酶或連接酶的連續(xù)或單次延伸反應(yīng)以及通過用探針庫的單一或連續(xù)差異雜交測(cè)序。應(yīng)注意,已發(fā)現(xiàn)NGS技術(shù)在直接檢測(cè)疾病相關(guān)的SNP中表現(xiàn)糟糕。[0052]參見例如王(Wang)等人,2011,下一代測(cè)序在調(diào)節(jié)區(qū)域中具有較低序列覆蓋度和車交差SNP檢測(cè)會(huì)泛力(NextgenerationsequencinghaslowersequencecoverageandpoorerSNP-detectioncapabilityintheregulatoryregions),科學(xué)報(bào)導(dǎo)(ScientificReports)1:55。[0053]可使用的測(cè)序技術(shù)包括例如使用合成測(cè)序系統(tǒng),其以羅氏(Roche)公司454生命科學(xué)(454LifeSciences)(康涅狄格州布蘭福德(Branford,CT))以商標(biāo)GSJUNI0R、GSFLX+和454SEQUENCING銷售,且由馬古利斯,M(Margulies,M.)等人,微制造高密度picotiter反應(yīng)器中的基因組測(cè)序(Genomesequencinginmicro-fabricatedhigh-densitypicotiterreactors),自然(Nature),437:376-380(2005);美國專利5,583,024;美國專利5,674,713;和美國專利5,700,673描述,這些參考文獻(xiàn)的內(nèi)容以全文引用的方式并入本文中。454測(cè)序包含兩個(gè)步驟。在那些系統(tǒng)的第一步中,DNA剪切為大致300-800個(gè)堿基對(duì)的片段,且片段為鈍端的。隨后將寡核苷酸銜接子連接到片段的末端。銜接子充當(dāng)用于片段的擴(kuò)增和測(cè)序的引物。片段可使用例如含有5生物素標(biāo)簽的銜接子B附接到DNA捕獲珠粒,例如抗生蛋白鏈菌素涂布珠粒。附接到珠粒的片段在油-水乳液的液滴內(nèi)PCR擴(kuò)增。結(jié)果是在每個(gè)珠粒上克隆擴(kuò)增的DNA片段的多個(gè)拷貝。在第二步中,在孔(皮升大?。┲胁东@珠粒。并行對(duì)每個(gè)DNA片段執(zhí)行焦磷酸測(cè)序。一個(gè)或多個(gè)核苷酸的添加產(chǎn)生了通過測(cè)序儀器中的CCD相機(jī)記錄的光信號(hào)。信號(hào)強(qiáng)度與并入的核苷酸的數(shù)目成正比。焦磷酸測(cè)序利用在核苷酸添加后釋放的焦磷酸(PPi)。在腺苷5'磷酰硫酸存在下PPi通過ATP硫酸化酶轉(zhuǎn)化為ATP。熒光素酶使用ATP將熒光素轉(zhuǎn)化為氧化熒光素,并且此反應(yīng)產(chǎn)生被檢測(cè)和分析的光。[0054]可使用的DNA測(cè)序技術(shù)的另一實(shí)例為來自生命技術(shù)公司(LifeTechnologiesCorporation)(加利福尼亞州卡爾斯巴德(Carlsbad,CA))的應(yīng)用生物系統(tǒng)(AppliedBiosystems)的SOLiD技術(shù)。在SOLiD測(cè)序中,基因組DNA被剪切成片段,并且銜接子連接到片段的5'和3'末端以產(chǎn)生片段庫?;蛘撸梢酝ㄟ^將銜接子連接到片段的5'和3'末端、使片段環(huán)化、消化環(huán)化的片段以產(chǎn)生內(nèi)部銜接子以及將銜接子連接到所得片段的5'和3'末端以產(chǎn)生配對(duì)庫來引入內(nèi)部銜接子。接著,在含有珠粒、引物、模板以及PCR組分的微反應(yīng)器中制備克隆珠粒群。在PCR之后,使模板變性并且使珠粒富集以分離珠粒與擴(kuò)展的模板。所選珠粒上的模板經(jīng)歷3'修飾以允許結(jié)合到玻璃載片。可以通過部分隨機(jī)的寡核苷酸與由特定熒光團(tuán)鑒別的確定中心的堿基(或堿基對(duì))的連續(xù)雜交和連接來確定序列。在記錄顏色之后,去除連接的寡核苷酸且接著重復(fù)該方法。[0055]可使用的DNA測(cè)序技術(shù)的另一實(shí)例為離子半導(dǎo)體測(cè)序,其使用例如生命技術(shù)(LifeTechnologies)(加利福尼亞州南舊金山(SouthSanFrancisco,CA))的離子激流(IonTorrent)以商標(biāo)離子激流銷售的系統(tǒng)。離子半導(dǎo)體測(cè)序描述于例如羅斯伯格(Rothberg)等人,實(shí)現(xiàn)非光學(xué)基因組測(cè)序的集成半導(dǎo)體裝置(Anintegratedsemiconductordeviceenablingnon-opticalgenomesequencing),自然475:348-352(2011);美國公開2009/0026082、2009/0127589、2010/0035252、2010/0137143、2010/0188073、2010/0197507、2010/0282617、2010/0300559、2010/0300895、2010/0301398和2010/0304982,其中的每一者的內(nèi)容以全文引用的方式并入本文中。在離子半導(dǎo)體測(cè)序中,DNA被剪切成大致300-800個(gè)堿基對(duì)的片段,并且這些片段是鈍端的。隨后將寡核苷酸銜接子連接到片段的末端。銜接子充當(dāng)用于片段的擴(kuò)增和測(cè)序的引物。片段可以連接到表面,并且以使得這些片段可個(gè)別地分辨的分辨率附接。一個(gè)或多個(gè)核苷酸的添加釋放了質(zhì)子(H+),在測(cè)序儀器中檢測(cè)并記錄該信號(hào)。信號(hào)強(qiáng)度與并入的核苷酸的數(shù)目成正比。[0056]可使用的測(cè)序技術(shù)的另一實(shí)例為伊路米那測(cè)序。伊路米那測(cè)序是基于使用折回PCR和錨定引物擴(kuò)增固體表面上的DNA。將基因組DNA片段化,并且在片段的5'和3'末端添加銜接子。附接到流式槽通道的表面的DNA片段被擴(kuò)展和橋式擴(kuò)增。片段變?yōu)殡p鏈,并且雙鏈分子經(jīng)變性。先固相擴(kuò)增后變性的多個(gè)循環(huán)可以在流式槽的每個(gè)通道中形成數(shù)百萬簇的相同模板的單鏈DNA分子的大致1,000個(gè)拷貝。使用引物、DNA聚合酶和四熒光團(tuán)標(biāo)記的可逆終止核苷酸來執(zhí)行連續(xù)測(cè)序。在并入核苷酸之后,使用激光來激發(fā)熒光團(tuán),并且捕捉圖像且記錄第一堿基的標(biāo)識(shí)。從每個(gè)并入的堿基中去除3'終止子和熒光團(tuán),并且重復(fù)并入、檢測(cè)和鑒別的步驟。根據(jù)此技術(shù)的測(cè)序描述于美國公開2011/0009278、美國公開2007/0114362、美國公開2006/0024681、美國公開2006/0292611、美國專利7,960,120、美國專利7,835,871、美國專利7,232,656、美國專利7,598,035、美國專利6,306,597、美國專利6,210,891、美國專利6,828,100、美國專利6,833,246和美國專利6,911,345中,其中的每一者以全文引用的方式并入本文中。[0057]可使用的測(cè)序技術(shù)的另一實(shí)例包括太平洋生物科學(xué)(加利福尼亞州門洛帕克(Men1〇Park,CA))的單分子實(shí)時(shí)(SMRT)技術(shù)。在SMRT中,四種DNA堿基中的每一個(gè)可附接到四種不同熒光染料之一。這些染料是磷酸相連的。單個(gè)DNA聚合酶與模板單鏈DNA單分子一起固定在零模式波導(dǎo)(Z麗)底部。Z麗是能夠針對(duì)快速擴(kuò)散進(jìn)和出ZMW(以微秒為單位)的熒光核苷酸背景觀測(cè)單核苷酸通過DNA聚合酶并入的限制結(jié)構(gòu)。核苷酸并入到生長鏈中耗時(shí)若干毫秒。在此時(shí)間期間,熒光標(biāo)記被激發(fā)并且產(chǎn)生熒光信號(hào),并且熒光標(biāo)簽裂解開。檢測(cè)染料的對(duì)應(yīng)熒光可指示并入了哪種堿基。重復(fù)該過程。[0058]可使用的測(cè)序技術(shù)的另一實(shí)例為納米孔測(cè)序。參見索尼(Soni)和梅勒(Meller),2007臨床化學(xué)(ClinChem)53:1996-2001。納米孔是直徑約為1納米的小孔。納米孔浸沒在導(dǎo)電流體中以及跨納米孔施加電勢(shì)會(huì)由于通過納米孔的離子傳導(dǎo)而導(dǎo)致輕微的電流。流動(dòng)的電流量對(duì)納米孔的大小敏感。隨著DNA分子穿過納米孔,DNA分子上的每個(gè)核苷酸會(huì)不同程度地阻礙納米孔。因此,DNA分子穿過納米孔時(shí)穿過納米孔的電流的變化表示DNA序列的讀數(shù)。[0059]測(cè)序產(chǎn)生多個(gè)讀數(shù)。讀數(shù)一般包括長度小于約600或700個(gè)堿基的核苷酸數(shù)據(jù)的序列且本發(fā)明的方法可適用于任何長度的讀數(shù)或序列信息,包括例如長度〈150個(gè)堿基或甚至小于50,以及大于700,例如數(shù)千個(gè)堿基的讀數(shù)。通常,NGS讀數(shù)映射到參考或重新組裝且分析。本發(fā)明的方法包括將NGS讀數(shù)映射到為基因組有向非循環(huán)圖(DAG)或類似數(shù)據(jù)結(jié)構(gòu)的參考?;蚪MDAG可表示參考數(shù)據(jù)以及引入的序列讀數(shù)。在此類數(shù)據(jù)結(jié)構(gòu)中,來自人類基因組的特征(例如序列和子序列)表示為節(jié)點(diǎn),其通過邊緣連接。[0060]本發(fā)明的方面涉及產(chǎn)生包括來自一個(gè)或多個(gè)已知參考的序列的DAG。在所屬領(lǐng)域中理解DAG是指可以被呈現(xiàn)為圖的數(shù)據(jù)以及呈現(xiàn)這些數(shù)據(jù)的圖。本發(fā)明提供用于將DAG存儲(chǔ)為可以由計(jì)算機(jī)系統(tǒng)讀取以用于生物信息學(xué)處理或用于呈現(xiàn)為圖的數(shù)據(jù)的方法??梢园绻?jié)點(diǎn)和邊緣的列表、矩陣或表示矩陣的表、一組陣列或類似的表示矩陣的變量結(jié)構(gòu)的任何合適的格式,以內(nèi)置有用于圖的語法的語言,以用于圖表目的的通用標(biāo)記語言或其它保存DAG。[0061]在一些實(shí)施例中,DAG存儲(chǔ)為節(jié)點(diǎn)和邊緣的列表。一種此類方式為創(chuàng)建文本文件,其包括所有節(jié)點(diǎn),具有分配到每一節(jié)點(diǎn)的序號(hào),和所有邊緣,各自具有起始和結(jié)束節(jié)點(diǎn)的節(jié)點(diǎn)序號(hào)。因此,舉例來說,如果關(guān)于兩種語句"SeeJanerun"和"Run,Janerun"創(chuàng)建DAG,可以創(chuàng)建不分大小寫的文本文件。可使用任何適合格式。舉例來說,文本文件可包括逗號(hào)分隔值。命名此DAG為"Jane"用于將來參考,以此格式,DAG"Jane"可讀取如下:1see,2run,3加1^,4^!11,1-3,2-3,3-4。所屬領(lǐng)域的技術(shù)人員將了解此結(jié)構(gòu)易于適用于基因組序列,和下文的伴隨論述。[0062]在某些實(shí)施例中,DAG被存儲(chǔ)為表示矩陣(或一組陣列或表示矩陣的類似的變量結(jié)構(gòu))的表,其中NXN矩陣中的(i,j)項(xiàng)指示節(jié)點(diǎn)i和節(jié)點(diǎn)j經(jīng)連接(其中N是含有基因順序的節(jié)點(diǎn)的矢量)。為使DAG為非循環(huán)的,僅需要所有的非零項(xiàng)在對(duì)角線以上(假定節(jié)點(diǎn)以基因組順序表示)。在二元案例中,0項(xiàng)表示從節(jié)點(diǎn)i到節(jié)點(diǎn)j不存在邊緣,并且1項(xiàng)表示從i到j(luò)的一個(gè)邊緣。所屬領(lǐng)域的技術(shù)人員將理解矩陣結(jié)構(gòu)使得除〇到1之外的值與邊緣相關(guān)聯(lián)。舉例來說,任何項(xiàng)可以是指示權(quán)重或所使用的次數(shù),反映世界中所觀測(cè)的數(shù)據(jù)的一些固有質(zhì)量的數(shù)值。矩陣可以作為表或一系列線性的行(例如,首先是行1,緊接著是分隔符等)寫入文本文件,因此提供簡單的串行化結(jié)構(gòu)。[0063]在定義節(jié)點(diǎn)之后,用于使矩陣DAG串行化的一種適用方式將是對(duì)于項(xiàng)使用逗號(hào)分隔值。使用此格式,DAG"Jane"將包括與關(guān)于上文相同的節(jié)點(diǎn)定義,緊接著是矩陣項(xiàng)。此格式可讀取為:[0064]lsee,2run,3jane,4run[0065],,1Λ,,1Λ,,,1\,,,[0066]其中簡單地省略了零(0)的項(xiàng),并且'V是換行符。[0067]本發(fā)明的實(shí)施例包括以內(nèi)置有用于圖的生物語法的語言存儲(chǔ)DAG。舉例來說,具備稱為Graphviz的曲線可視化軟件包的DOT語言提供了可以被用于存儲(chǔ)具有輔助信息且可以使用從Graphviz網(wǎng)站商購獲得的多個(gè)工具被轉(zhuǎn)化成圖形檔案格式的數(shù)據(jù)結(jié)構(gòu)。Graphviz為開放源圖形可視化軟件。圖形可視化為將結(jié)構(gòu)信息表示為抽象圖和網(wǎng)絡(luò)的圖表的方式。其具有網(wǎng)絡(luò)化、生物信息學(xué)、軟件工程、數(shù)據(jù)庫和萬維網(wǎng)設(shè)計(jì)、機(jī)器學(xué)習(xí)中的應(yīng)用,以及在用于其它
技術(shù)領(lǐng)域:
的可視界面中的應(yīng)用。Graphviz布局程序以簡單文本語言對(duì)圖進(jìn)行描述,且以適用格式制作圖表,如用于網(wǎng)頁的圖像和可縮放矢量圖形;包含于其它文獻(xiàn)中的TOF或附言(Postscript);或顯示于交互式圖形瀏覽器中。[0068]在相關(guān)實(shí)施例中,DAG以用于圖表目的的通用標(biāo)記語言存儲(chǔ)。根據(jù)上文線性文本文件或逗號(hào)分隔矩陣的描述,所屬領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,如XML語言可以用于(擴(kuò)展用于)倉|J建定義節(jié)點(diǎn)和其標(biāo)頭或ID、邊緣、權(quán)重等的標(biāo)簽(標(biāo)記)。然而,DAG經(jīng)結(jié)構(gòu)化和存儲(chǔ),本發(fā)明的實(shí)施例涉及使用節(jié)點(diǎn)表示具有連接節(jié)點(diǎn)的邊緣的基因組序列以創(chuàng)建表示基因組標(biāo)度基因組序列的穿過DAG的路徑。[0069]在優(yōu)選實(shí)施例中,開發(fā)提供基因組圖形表示以及操縱常式的核心元素的庫。舉例來說,庫元素可以提供用于低層級(jí)存儲(chǔ)器操縱的語言(如C++)開發(fā)且經(jīng)編譯以提供二元元素?;蚪MDAG可表示為彼此連接的一組邊緣和頂點(diǎn)對(duì)象。[0070]為了表示圖形,可使用鄰接列表,其中頂點(diǎn)和邊緣存儲(chǔ)為物理對(duì)象。頂點(diǎn)或邊緣存儲(chǔ)其鄰接的邊緣/頂點(diǎn)的列表。在某些實(shí)施例中,核苷酸序列和元數(shù)據(jù)存儲(chǔ)在邊緣對(duì)象中。使用鄰接列表簡化局部圖遍歷。鄰接列表證實(shí)為表示基因組DAG的極有效方式?;蚪M標(biāo)度參考DAG當(dāng)使用計(jì)算機(jī)可執(zhí)行指令建構(gòu)時(shí),可有效地充分利用硬件存儲(chǔ)器定址的特殊性以產(chǎn)生高效鄰接列表。舉例來說,基因組標(biāo)度基因組參考DAG的實(shí)施可實(shí)際上將天然指針調(diào)用到來自硬件級(jí)的相鄰邊緣/頂點(diǎn)對(duì)象。庫元素可包括哈希表(hashtable)和搜索算法,用于有效搜索聽中的k-mers(序列片段),同時(shí)維持極小存儲(chǔ)器占用。經(jīng)由使用哈希表,可使查詢的平均成本獨(dú)立于存儲(chǔ)在表中的元素的數(shù)目。另外,可建構(gòu)哈希表以允許項(xiàng)的任意插入或缺失。使用指針顯著改進(jìn)穿越通過基因組DAG的路徑檢索序列串或進(jìn)行比對(duì)的操作(該遍歷操作具有共同的特性)。[0071]在優(yōu)選實(shí)施例中,指針或天然指針可操縱為存儲(chǔ)器地址,因?yàn)槠渲赶虼鎯?chǔ)器上的物理位置,另外解引用指針也存取預(yù)期數(shù)據(jù)。也就是說,指針為存儲(chǔ)在存儲(chǔ)器中的某處的數(shù)據(jù)的參考;以獲得該數(shù)據(jù)欲解引用指針。分離指針與其它種類的參考的特征為指針的值被解釋為低層級(jí)或硬件級(jí)的存儲(chǔ)器地址。描述的圖形基因組引擎的速度和效率允許使用可商購的、現(xiàn)成的桌上型系統(tǒng)對(duì)含有來自數(shù)千樣品的變型數(shù)據(jù)的基因組標(biāo)度基因組參考DAG進(jìn)行全基因組短讀數(shù)比對(duì)。此類圖形表示提供快速隨機(jī)存取、修改和數(shù)據(jù)檢索的方法。庫也可包括且支持通用圖形基因組坐標(biāo)系。圖形表示的緊密性允許全人類基因組連同來自典型變型數(shù)據(jù)庫(如dbSNP)的變型保持和使用于現(xiàn)代消費(fèi)級(jí)計(jì)算機(jī)系統(tǒng)的限制內(nèi)。[0072]在一些實(shí)施例中,支持快速隨機(jī)存取且用無索引鄰接建構(gòu)圖形對(duì)象存儲(chǔ),其中每一元素含有指向其鄰接元素的直接指針(例如如以引用的方式并入的美國公開2014/0280360和美國公開2014/0278590中所述),其避免索引查詢的需要,允許遍歷(例如如在本文所述的改進(jìn)SW比對(duì)算法中進(jìn)行)極快速。無索引鄰接為關(guān)于數(shù)據(jù)檢索的低層級(jí)或硬件級(jí)存儲(chǔ)器引用的另一實(shí)例(如比對(duì)中所要求,且尤其就本文所述的改進(jìn)多維史密斯-沃特曼比對(duì)中的速度增加來說有回報(bào))。確切地說,可建構(gòu)無索引鄰接以使得元素內(nèi)含有的指針事實(shí)上為存儲(chǔ)器中的物理位置的參考。[0073]由于使用物理存儲(chǔ)器定址(如天然指針)的技術(shù)實(shí)施方案可以此類輕量方式存取和使用數(shù)據(jù)而不要求分離索引表或其它介入查詢步驟,給定計(jì)算機(jī)(例如任何現(xiàn)代消費(fèi)級(jí)桌上型計(jì)算機(jī))的能力經(jīng)擴(kuò)展以允許基因組標(biāo)度DAG的完全操作(即不僅包括全人類基因組并且還包括如dbSNP的數(shù)據(jù)庫中表示的該基因組中的所有變化形式或通過再測(cè)序一種或多種全基因組發(fā)現(xiàn)的所有變化形式的參考結(jié)構(gòu))。因此,使用具有天然指針或提供無索引鄰接的其它實(shí)施方案的對(duì)象庫(即數(shù)據(jù)通過將指針解引用到存儲(chǔ)器中的物理位置檢索的實(shí)施例)存儲(chǔ)圖形元素(例如節(jié)點(diǎn)和邊緣)實(shí)際上改進(jìn)該技術(shù)提供基因組信息的存儲(chǔ)、檢索和比對(duì)的能力,因?yàn)槠湟蕴囟ǚ绞绞褂糜?jì)算機(jī)的物理存儲(chǔ)器。[0074]盡管DAG的存儲(chǔ)不需要特定格式,但是呈現(xiàn)圖1和圖2以說明一種適用于說明的方便且緊湊的格式(記住在優(yōu)選實(shí)施例中,圖形對(duì)象以無索引鄰接存儲(chǔ),分開存儲(chǔ)元數(shù)據(jù)以加速遍歷和比對(duì))。在以下說明中,呈現(xiàn)例示性DAG且論述為圖形,但應(yīng)了解,作為圖形的DAG可直接轉(zhuǎn)譯為計(jì)算機(jī)存儲(chǔ)器中的數(shù)據(jù)結(jié)構(gòu)或文本文件且返回。[0075]圖1說明使用DAG101表示和操縱生物信息學(xué)數(shù)據(jù)。序列。為了揭示DAG101的內(nèi)容,圖1也包括一組假設(shè)序列的線性列表,其中的每一個(gè)為穿過DAG101的路徑。包括假設(shè)的公開參考(此可例如為貢獻(xiàn)到"人類基因組"的來自紐約布法羅(BufTalo,NY)的個(gè)人的實(shí)際基因組DNA)且表示等位基因1:[0076]5'-CCCAGAACGTTGCATCGTAGACGAGTTTCAGC-3,(SEQTDN0.1)[0077]包括第二等位基因(等位基因2),其與等位基因1的不同之處在于15bp插入缺失:[0078]5'-CCCAGAACGTTGCTATGCAACAAGGGACATCGTAGACGAGTTTCAGC-3,[0079](SEQIDNO2)[0080]也包括第三等位基因(等位基因3),其匹配等位基因2,但就假設(shè)來自等位基因2的AC與等位基因3中的GG同源的插入缺失中間的多態(tài)性來說:[0081]5'-CCCAGAACGTTGCTATGCAGGAAGGGACATCGTAGACGAGTTTCAGC-3,[0082](SEQIDNO3)[0083]包括來自受檢者的假設(shè)的序列讀數(shù):[0084]5'-TTGCTATGCAGGAAGGGACATCG-3'(SEQIDN04)[0085]在所描繪的情境中,受檢者具有GG多態(tài)性。如果序列讀數(shù)比對(duì)到公開的參考基因組,那么將不會(huì)發(fā)現(xiàn)GG多態(tài)性表示相對(duì)于等位基因2的兩個(gè)連續(xù)取代。取而代之,許多現(xiàn)有比對(duì)或組裝算法將發(fā)現(xiàn)序列讀數(shù)與公開的參考之間的不佳比對(duì)且可能甚至由于未能滿足質(zhì)量標(biāo)準(zhǔn)而拋棄該讀數(shù)。[0086]在本發(fā)明的方法下,構(gòu)建DAG101。節(jié)點(diǎn)1具現(xiàn)化為Y-CCCAGAACGTTGUSEQIDNO5)。節(jié)點(diǎn)2創(chuàng)建為S'-CATCGTAGACGAGTTTCAGCAmlSEQIDNO6)。節(jié)點(diǎn)3為CTATGCA。節(jié)點(diǎn)4為AAGGGA。節(jié)點(diǎn)5為AC且節(jié)點(diǎn)6為GG。值得注意的是在一些實(shí)施例中,將讀數(shù)映射到DAG涉及產(chǎn)生新節(jié)點(diǎn)以表示尚未處于DAG中的讀數(shù)中的數(shù)據(jù)。[0087]舉例來說,在讀數(shù)映射之前,DAG101可能尚未包括節(jié)點(diǎn)6(GG)。比對(duì)算法(下文論述)發(fā)現(xiàn)序列讀數(shù)最佳匹配連接節(jié)點(diǎn)143-5-4-2的等位基因2的路徑,如圖1中所描繪。為了恰當(dāng)?shù)乇硎拘蛄凶x數(shù),產(chǎn)生新節(jié)點(diǎn)6,且序列讀數(shù)因此通過連接節(jié)點(diǎn)1-346-4-2的路徑表示在DAG101內(nèi)。應(yīng)了解,在此映射之前,節(jié)點(diǎn)3、5和4未必以分離節(jié)點(diǎn)形式存在。映射讀數(shù)且產(chǎn)生新節(jié)點(diǎn)6可包括將(3+5+4)的先前節(jié)點(diǎn)破碎為節(jié)點(diǎn)3、5和4。其為使用DAG作為參考的強(qiáng)力益處中的一個(gè)-讀數(shù)映射并非相比于參考的簡單運(yùn)行,但可包括構(gòu)建參考以表示包括僅通過新序列讀數(shù)記錄的新基因型的所有已知基因型。[0088]圖2顯示適合于計(jì)算存儲(chǔ)和檢索的DAG101的一種可能格式。如圖2中表示的DAG101與圖1中所描繪的圖形版本呈現(xiàn)相同拓?fù)浜晚樞?。此處,所描繪的格式適用,因?yàn)楣?jié)點(diǎn)存儲(chǔ)為FASTA文件,其在生物信息領(lǐng)域中為熟悉的(且可正好容易地為FASTQ文件)。邊緣可存儲(chǔ)在文本文件中,此處以簡單列表形式。[0089]穿過DAG101的路徑表示如圖1和圖2中所描繪的馬爾可夫過程(Markovprocess),其中任何節(jié)點(diǎn)的上游節(jié)點(diǎn)獨(dú)立于下游節(jié)點(diǎn)。然而,由于基因保守、連鎖不平衡、非均一GC含量和其它生物現(xiàn)象,按照穿過基因組DAG的節(jié)點(diǎn)到節(jié)點(diǎn)路徑表示實(shí)際基因組可能實(shí)際上為非馬爾可夫過程。為了表示此類生物現(xiàn)象,可包括條件信息。本發(fā)明提供使用受檢者的基因組中的已知位置處的核苷酸的標(biāo)識(shí)過濾基因組DAG的方法。[0090]出于當(dāng)前目的,尤其注意基因組DAG可不僅解釋為(有效表示的)序列組或比對(duì)對(duì)象,而且還解釋為關(guān)于所討論的基因組或基因組區(qū)域的條件信息的儲(chǔ)存庫。此外,在此類有價(jià)值的條件信息不存在于DAG自身中的程度上,我們可用此類信息對(duì)其進(jìn)行補(bǔ)充。[0091]此條件信息可為二元或概率性的。在一些情形下,令人滿意的是僅記錄由各種節(jié)點(diǎn)對(duì)表示的序列是否可共存。在其它情形下,適用的是知道在存在另一序列的條件下的一個(gè)序列的條件概率。舉例來說,可已知觀測(cè)某一SNP給出某些其它SNP存在于相同基因組中的概率。這通常出現(xiàn)于SNP呈連鎖不平衡時(shí)。[0092]高密度SNP芯片(例如每分析百萬個(gè)基因座)幫助了以發(fā)現(xiàn)與人類疾病相關(guān)的遺傳性基因組變型為目標(biāo)的研究。通過并入連鎖不平衡,可比陣列可直接測(cè)定研究更大數(shù)目的基因座。[0093]連鎖不平衡(LD)和定相LD出現(xiàn)于兩個(gè)或大于兩個(gè)基因座處的等位基因比偶然預(yù)期將更頻繁地一起呈現(xiàn)于相同個(gè)體中的情況下。人類中的LD主要在彼此間具有有限歷史重組的相同染色體上的基因座中顯示其自身。在數(shù)學(xué)上,相同染色體上的兩個(gè)SNP之間的LD可定量為跨越群體染色體的等位基因之間的相關(guān)性。此相關(guān)性的測(cè)量包括表示單倍基因型D的兩個(gè)二元隨機(jī)變量的統(tǒng)計(jì)協(xié)方差和統(tǒng)計(jì)相關(guān)系數(shù)的平方r2。當(dāng)兩個(gè)SNP相關(guān)且顯示顯著r2時(shí),對(duì)SNP中的一個(gè)基因分型給出關(guān)于另一SNP的基因型的信息。因此,對(duì)1百萬個(gè)SNP基因分型的SNP陣列有效地分析比陣列上所表示更大比例的人類遺傳變異。[0094]陣列制造商設(shè)計(jì)陣列以查詢與人類基因組中的大量其它SNP相關(guān),或'標(biāo)記'這些SNP的SNP?;蚪M中的LD結(jié)構(gòu)的有用知識(shí)已通過國際單體型圖計(jì)劃提供。參見例如國際單體型圖計(jì)劃協(xié)作組,2005,人類基因組的單體型圖(Ahaplotypemapofthehumangenome)自然437:1299-1320。單體型圖不僅包括多種SNP的等位基因,而且包括出現(xiàn)于每一染色體上的連續(xù)SNP等位基因的序列。如果基因組在兩個(gè)連續(xù)SNP處雜合,那么將等位基因分配到其對(duì)應(yīng)染色體為定相的。定相幫助測(cè)定來自群體基因型的LD結(jié)構(gòu),其轉(zhuǎn)而必需估計(jì)通過每一SNP捕獲的人類遺傳變異的量。定相的例示性方法論述于斯蒂芬斯(Stephens)等人,2001,自群體數(shù)據(jù)的單體型重構(gòu)的新統(tǒng)計(jì)方法(Anewstatisticalmethodforhaplotypereconstructionfrompopulationdata),美國人類遺傳學(xué)雜志(AmJHumGenet)68:978-989中。定相提供LD結(jié)構(gòu)。[0095]如昂飛和伊路米那的制造商已將單體型圖信息和LD結(jié)構(gòu)并入芯片設(shè)計(jì)中,基本上排除與芯片上表示的SNP具有可靠的LD的SNP。因此,使用例如基于LD結(jié)構(gòu)設(shè)計(jì)的芯片,通過SNP芯片在已知位置鑒別的核苷酸可用于確立其它位置的核苷酸的標(biāo)識(shí)的概率。[0096]測(cè)量陣列捕獲常用人類遺傳變異的能力的一個(gè)量度為根據(jù)陣列SNP的固定r閾值以上的所捕獲已知人類SNP的比例。研究指示多達(dá)80%的人類SNP通過昂飛500K和伊路米那HumanHap300陣列捕獲。參見例如皮爾(Pe'er)等人,2006,使用固定標(biāo)記物組評(píng)估和改進(jìn)全基因組關(guān)聯(lián)性研究的能力(Evaluatingandimprovingpowerinwhole-genomeassociationstudiesusingfixedmarkersets)自然?遺傳學(xué),38,663-667。[0097]此類研究涉及獲得多個(gè)受檢者的SNP芯片數(shù)據(jù)且挖掘所得數(shù)據(jù)的組間等位基因頻率中的統(tǒng)計(jì)顯著差異。大量LD結(jié)構(gòu)組為可用的且適用于本發(fā)明的方法中。參見例如威康托拉斯病例控制協(xié)會(huì)(WellcomeTrustCaseControlConsortium),2007,七種常見疾病的14,000個(gè)病例和3,000個(gè)共用對(duì)照的全基因組關(guān)聯(lián)性研究(Genome-wideassociationstudyof14,000casesofsevencommondiseasesand3,000sharedcontrols),自然447:661-678。[0098]無論是否記錄概率信息或精確二元信息,該信息可存儲(chǔ)在DAG自身中或與其一起存儲(chǔ)且用于通過DAG的分析中。數(shù)據(jù)可存儲(chǔ)為DAG內(nèi)的注釋或補(bǔ)充信息的文件。[0099]圖3給出假設(shè)的基因組區(qū)域中的位置1-20的假設(shè)的DAG301AAG301表示以下四種可能的序列:[0100]5'-AATGCATTGGTCGATACCTG-3'(SEQIDN07)[0101]5,-AATGCAAAGGTCGATACCTG-3,(SEQIDNO8)[0102]5,-AATGCATrGGTCCATACCTG-3,(SEQIDNO9)[0103]5'-AATGCAAACGTCCATACCTG-3'(SEQIDNO10)[0104]應(yīng)了解,SEQIDNO.7-10中的任一者可讀取自如圖3中所示的DAG301。如圖3中所表示,穿過DAG301的所有路徑為同等的且假設(shè)馬爾可夫獨(dú)立性。如上文所論述,可發(fā)現(xiàn)出于多種天然和統(tǒng)計(jì)原因,盡管并非所有穿過DAG的替代路徑同等地獨(dú)立于上游或下游節(jié)點(diǎn)。也就是說,一個(gè)節(jié)點(diǎn)的路徑選擇可對(duì)于上游(或下游)節(jié)點(diǎn)處的特定路徑為條件性的。將此表示在DAG中,其中DAG表示自然現(xiàn)象,假定自然的條件關(guān)系。條件關(guān)系可為二元(如果A,那么B)或概率(如果A,那么更可能為B,但可能為C)的。[0105]將DAG視為條件信息的儲(chǔ)存庫,含有TT和AA的節(jié)點(diǎn)各自為在首節(jié)點(diǎn)(即以序列AATGCA)開始的序列的可能延拓。此信息為有價(jià)值的且可直接從DAG讀取。[0106]可另外得知在位置7和8具有TT的序列在位置13處始終具有G,且從不具有C,然而已發(fā)現(xiàn)在位置7和8具有AA的實(shí)例序列在位置13處具有兩個(gè)替代方案各一個(gè)。此信息可以任何數(shù)目的方式存儲(chǔ),例如通過用節(jié)點(diǎn)ID富集DAG301和產(chǎn)生給出關(guān)于共存性的信息的制表符定界文本文件:[0107]圖4顯示有很多關(guān)于共存性的信息的DAG301。在DAG301下方為共存性的表。共存性也可如下地表示為逗號(hào)分隔值:[0108]節(jié)點(diǎn)1,節(jié)點(diǎn)2,可共存?[0109]2,5,Y[0110]2,6,Ν[0111]3,5,Υ[0112]3,6,Υ[0113]應(yīng)注意,以上數(shù)據(jù)可容易地壓縮,例如通過僅含有不可共存的節(jié)點(diǎn)對(duì)(因此消除第二列和許多行),使得'是(yes)'為暗不的默認(rèn)回答:[0114][非可共存節(jié)點(diǎn)的列表:][0115]節(jié)點(diǎn)1,節(jié)點(diǎn)2[0116]2,6[0117]共存性數(shù)據(jù)的使用將更詳細(xì)地論述于下文以說明這些數(shù)據(jù)如何在將序列讀數(shù)比對(duì)到基因組DAG時(shí)提供幫助。[0118]本發(fā)明提供將序列讀數(shù)比對(duì)到DAG的方法和系統(tǒng)。使用本發(fā)明的比對(duì)算法,讀數(shù)可不管其大數(shù)目而快速映射。通過使用DAG作為參考獲得許多益處。舉例來說,與相對(duì)于一個(gè)參考相比,相對(duì)于DAG比對(duì)更精確,并且然后試圖根據(jù)帶其它外部信息調(diào)整一者的結(jié)果。這主要因?yàn)楹笠环N方法用于初始比對(duì)的序列與其它信息之間強(qiáng)制執(zhí)行非天然不對(duì)稱性。與試圖相對(duì)于用于每個(gè)物理可能性(在接合點(diǎn)的數(shù)量方面,這樣的可能性的數(shù)量將總體上將迅速增長)的線性序列比對(duì)相比,相對(duì)于潛在地表示所有的相關(guān)物理可能性的目標(biāo)比對(duì)是更計(jì)算上有效的。[0119]本發(fā)明的實(shí)施例包括相對(duì)于DAG比對(duì)一個(gè)或多個(gè)讀數(shù)。[0120]逐對(duì)比對(duì)總體上包含沿目標(biāo)的一部分放置一個(gè)序列,根據(jù)算法引入間隙,對(duì)兩個(gè)序列匹配的程度評(píng)分,和優(yōu)選地沿著參考對(duì)不同的位置重復(fù)進(jìn)行。最佳評(píng)分匹配被認(rèn)為是對(duì)準(zhǔn),并且表示關(guān)于序列數(shù)據(jù)表示的內(nèi)容的推斷。在一些實(shí)施例中,對(duì)一對(duì)核酸序列的比對(duì)評(píng)分包含為取代和插入缺失的概率設(shè)置值。當(dāng)單獨(dú)堿基被比對(duì),匹配或不匹配通過取代概率有助于比對(duì)評(píng)分,匹配或不匹配可以是例如匹配為1以及不匹配為-0.33。插入缺失通過空隙處罰扣除比對(duì)評(píng)分,空隙處罰可以是例如-1。間隙處罰和取代概率可以是基于關(guān)于序列演化的經(jīng)驗(yàn)知識(shí)或推理假設(shè)。其值影響所得比對(duì)。確切地說,間隙處罰與取代概率之間的關(guān)系影響取代或插入缺失是否將在所得比對(duì)中有利。[0121]正式地陳述的,比對(duì)表示兩個(gè)序列x與y之間的推斷關(guān)系。例如,在一些實(shí)施例中,序列X和y的比對(duì)A將X和y分別映射到可以包含空隙的另外兩個(gè)串X'和y',使得:(i)lx'1=ly'l;(ii)從χ'和y'移除空隙應(yīng)該分別回到χ和y;以及(III)對(duì)于任何i,x'[i]和y'[i]無法兩個(gè)都有間隙。[0122]間隙是χ'或y'中任一個(gè)中的連續(xù)空隙中的最大子串。比對(duì)A可以包含以下三種區(qū)域:(i)匹配的對(duì)(例如,^[1]=7'[1]);(^)不匹配的對(duì),(例如4'[1]辛7'[1],并且兩者沒有空隙);或(III)間隙(例如,或或y'[i..j]是間隙)。在某些實(shí)施例中,僅匹配的對(duì)具有較高的正評(píng)分a。在一些實(shí)施例中,不匹配的對(duì)總體上具有負(fù)評(píng)分b,并且長度r的間隙具有負(fù)評(píng)分g+rs,其中g(shù),s〈0。對(duì)于DNA,一個(gè)通用評(píng)分方案(例如,由BLAST所使用的)使得評(píng)分a=l、評(píng)分b=-3、g=-5且s=-2。比對(duì)A的評(píng)分是所有的匹配的對(duì)、不匹配的對(duì)和間隙的評(píng)分的總和。χ和y的比對(duì)評(píng)分可以被定義為在χ和y的所有可能的比對(duì)之中的最大評(píng)分。[0123]在一些實(shí)施例中,任何對(duì)具有由取代概率的4X4矩陣B定義的評(píng)分。例如,B(i,i)=1和0〈8(1,」)^>」〈1是一個(gè)可能的評(píng)分系統(tǒng)。例如,在與顛換相比變換被認(rèn)為是更加生物學(xué)上可能的情況下,矩陣B可包含B(C,T)=7和B(A,T)=3,或者期望的或由所屬領(lǐng)域中已知的方法確定的任何另一組值。[0124]根據(jù)本發(fā)明的一些實(shí)施例的比對(duì)包含逐對(duì)比對(duì)。一般來說,逐對(duì)比對(duì)涉及具有m字符的序列Q(查詢)和η字符的參考基因組T(目標(biāo))找到和評(píng)估Q和T之間的可能的本地的比對(duì)。對(duì)于任何l〈i〈n和l〈j〈m,計(jì)算T[h..i]和Q[k..j]的最大可能的比對(duì)評(píng)分(即,在位置i處結(jié)束的T的任何子串和在位置j處結(jié)束的Q的任何子串的最佳比對(duì)評(píng)分),其中h〈i且k〈j。這可以包括檢查所有的具有cm字符的子串,其中c根據(jù)相似模型是常量,并且單獨(dú)將每個(gè)子串與Q比對(duì)。每個(gè)比對(duì)被評(píng)分,并且具有優(yōu)選的評(píng)分的比對(duì)被接受為比對(duì)。所屬領(lǐng)域的技術(shù)人員將了解,存在序列比對(duì)的精確算法和近似算法。精確算法將尋找最高評(píng)分的比對(duì),但是在計(jì)算上會(huì)昂貴。兩種眾所周知的精確算法是尼德曼-翁施算法(Needleman-Wunsch)(分子生物學(xué)雜志(JMolBiol),48(3):443-453,1970)和史密斯-沃特曼算法(Smith-Waterman)(分子生物學(xué)雜志,147(1):195-197,1981;數(shù)學(xué)進(jìn)展(Adv.inMath.)20(3),367-387,1976)。后藤(Gotoh)(分子生物學(xué)雜志,162(3),705-708,1982)對(duì)史密斯-沃特曼法的進(jìn)一步改進(jìn)將計(jì)算時(shí)間從〇(m2n)減少到0(mn),其中m和η是比較的序列大小且更能改正并行處理。在生物信息學(xué)領(lǐng)域,正是后藤的改進(jìn)算法通常被稱為史密斯-沃特曼算法。史密斯-沃特曼方法用以針對(duì)較大參考序列比對(duì)較大序列集,因?yàn)榭筛毡椴⑶腋阋说孬@得并行計(jì)算資源。參見例如亞馬遜(Amazon)的云計(jì)算資源。本文所參考的所有期刊文章以其全文引用的方式并入。[0125]史密斯-沃特曼(SW)算法通過獎(jiǎng)勵(lì)序列中的堿基之間的重疊并且處罰序列之間的間隙來比對(duì)線性序列。史密斯-沃特曼算法還與尼德曼-翁施算法不同,不同之處在于SWF要求短序列跨越描述長序列的字母組成的字符串。也就是說,SW不假定一個(gè)序列是另一個(gè)序列的全部內(nèi)容的讀數(shù)。此外,因?yàn)镾W并不一定找到橫跨字符串的全長的比對(duì),所以局部比對(duì)可以在兩個(gè)序列內(nèi)的任何地方開始和結(jié)束。[0126]在一些實(shí)施例中,根據(jù)點(diǎn)矩陣法、動(dòng)態(tài)規(guī)劃法或整詞教學(xué)法,逐對(duì)比對(duì)繼續(xù)進(jìn)行。動(dòng)態(tài)規(guī)劃法一般實(shí)施史密斯-沃特曼(SW)算法或尼德曼-翁施算法(NW)算法。根據(jù)NW算法的比對(duì)總體上根據(jù)具有線性間隙處罰d的相似矩陣S(a,b)(例如,諸如前述矩陣B)對(duì)比對(duì)的字符評(píng)分。矩陣S(a,b)總體上供應(yīng)取代概率。SW算法類似于NW算法,但是任何負(fù)評(píng)分矩陣網(wǎng)格被設(shè)置為0。在美國專利5,701,256和美國公開2009/0119313中更詳細(xì)地描述了SW算法和NW算法及其實(shí)施方式,兩者以其全文引用方式并入本文。[0127]實(shí)施史密斯-沃特曼算法的版本的比對(duì)程序是MUMmer,MUMmer可以從由Geeknet(Fairfax,弗吉尼亞州(Fairfax,V))維護(hù)的SourceForge網(wǎng)站商購獲得。MUMmer是用于快速比對(duì)基因組范圍序列的系統(tǒng)(Kurtz,S等人,基因組生物學(xué)(GenomeBiology),5:R12(2004);〇61(^61八丄.等人,核酸研究(_(:1^(^(181^8.),27:11(1999))。舉例來說,MUMmer3.0可以在2.4GHzLinux桌上型計(jì)算機(jī)上使用78MB存儲(chǔ)器以13.7秒在一對(duì)5-巨堿基基因組之間找到所有20-堿基對(duì)或更長的精確匹配。MUMmer可以處理來自鳥槍法測(cè)序計(jì)劃的100或1000重疊群,并且將使用系統(tǒng)包含的NUCmer程序?qū)⑵渑c另一組重疊群或參考比對(duì)。如果對(duì)于DNA序列比對(duì)來說物質(zhì)太相異而不能檢測(cè)相似性,則PROmer程序可以根據(jù)兩者輸入序列的六框翻譯生成比對(duì)。[0128]其它示例性比對(duì)程序包含:高效的大規(guī)模核苷酸數(shù)據(jù)庫的比對(duì)(EfficientLarge-ScaleAlignmentofNucleotideDatabases(ELAND))或序列和變體的共識(shí)評(píng)估的ELANDv2部件(ELANDv2componentoftheConsensusAssessmentofSequenceandVariation(CASAVA))軟件(加州,圣迭戈,伊路米那(Illumina,SanDiego,CA));實(shí)時(shí)基因組學(xué)RTG研究者公司(RTGInvestigatorfromRealTimeGenomics,Inc.)(加州,舊金山(SanFrancisco,CA));來自Novocraft(馬來西亞,雪蘭莪州(Selangor,Malaysia))的Novoalign;Exonerate,歐洲生物信息研究所(EuropeanBioinformaticsInstitute)(英國,辛克斯頓(財(cái)1^1:〇11,1]1〇)(斯雷特(313七61'),6.,和伯尼(13;[1'1167)3.,1^[(:生物信息學(xué)(BMCBioinformatics)6:31(2005)),ClustalOmega,來自都柏林大學(xué)(fromUniversityCollegeDublin)(愛爾蘭,都柏林(Dublin,Ireland))(西弗斯(Sievers)F等人,MolSystBiol7,article539(2011));來自都柏林大學(xué)的ClustalW或ClustalX(ClustalWorClustalXfromUniversityCollegeDublin)(都柏林,愛爾蘭(Dublin,Ireland))(拉金(Larkin)M.A等人,生物信息學(xué)(Bioinformatics),23,2947-2948(2007);和FASTA,歐洲生物信息研究所(EuropeanBioinformaticsInstitute)(英國,辛克斯頓(Hinxton,UK))(皮爾遜(Pearson)W.R等人,美國國家科學(xué)院院刊(PNAS)85(8):2444-8(1988);利普曼(Lipman),D.J.,科學(xué)227(4693):1435-41(1985))。[0129]如上文所論述的,當(dāng)將序列與直接非循環(huán)注釋的參考基因組比對(duì)時(shí),實(shí)施SW比對(duì)算法或(下面進(jìn)一步更詳細(xì)地論述的)的改進(jìn)的版本可以是優(yōu)選的或期望的。[0130]根據(jù)以下方程式(1),對(duì)于呈現(xiàn)長度η和m的兩個(gè)字符串的nXm矩陣H,易于表示SW算法:[0131]HkQ=Hoi=0(對(duì)于CKkSn且CKKm)(1)[0132]Hij=max{Hi-1,j-i+s(ai,bj),Hi-1,j-Win,Hi,j-i_Wdei,0}(對(duì)于且Kj<m)[0133]在以上方程式中,s(ai,bj)呈現(xiàn)匹配獎(jiǎng)分(當(dāng)ai=bj時(shí))或錯(cuò)配罰分(當(dāng)ai辛bj時(shí)),并且對(duì)插入和缺失分別給出罰分Win和Wdd。在大多數(shù)例子中,所得矩陣具有為零的許多元素。這種表示使得更容易在矩陣中從高到低、從右到左回溯,因此識(shí)別比對(duì)。[0134]一旦已用分?jǐn)?shù)完全填充矩陣,SW算法執(zhí)行回溯以確定比對(duì)。以矩陣中的最大值開始,算法將基于三個(gè)值中的哪個(gè)(出-1|1、出-1^或!11|1)曾用于計(jì)算每個(gè)單元格的最終最大值來進(jìn)行回溯。當(dāng)達(dá)到零時(shí)回溯停止。最佳評(píng)分比對(duì)可以包含比插入和缺失的最小可能數(shù)量更大的可能數(shù)量,同時(shí)包含遠(yuǎn)遠(yuǎn)小于取代的最大可能數(shù)量的可能數(shù)量。[0135]當(dāng)以SW或SW-后藤形式應(yīng)用時(shí),這些技術(shù)使用動(dòng)態(tài)規(guī)劃算法來執(zhí)行分別具有大小m和η的兩個(gè)字符串S和A的局部序列比對(duì)。此動(dòng)態(tài)規(guī)劃技術(shù)采用表或矩陣來保存匹配得分并避免對(duì)于連續(xù)單元格的重新計(jì)算??梢愿鶕?jù)序列的字母索引字符串的每個(gè)元素,也就是說,如果S是字符串ATCGAA,則S[1]=A。[0136]替代將最佳比對(duì)表示為Hij(上文),最佳比對(duì)可表示為下文方程式(2)中的B[j,k]:[0137]8[」,1^]=1]1&叉(口[」,1^]4[」,1^],(1[」,1^],0)(對(duì)于0〈」彡111,0〈1^彡11)(2)[0138]最大函數(shù)的變量參數(shù)B[j,k]概述于下文方程式(3)-(5)中,其中MISMATCH_PEN、MATCH_B0NUS、INSERTION_PEN、DELETION_PEN和0PENING_PEN全部為常量,且除了MATCH_BONUS全部為負(fù)數(shù)(PEN為罰分的簡稱)。通過以下方程式(3)給出匹配變量參數(shù)p[j,k]:[0139]p[j,k]=max(p[j_l,k_l],i[j_l,k_l],d[j_l,k_l])+MISMATCH_PEN,如果S[j]辛A[k](3)[0140]=max(p[j_l,k_l],i[j_l,k_l],d[j_l,k_l])+MATCH_B0NUS,如果S[j]=A[k]通過以下方程式(4)給出插入變量參數(shù)i[j,k]:[0141]i[j,k]=max(p[j-1,k]+0PENING_PEN,i[j-1,k],d[j-1,k]+(4)[0142]〇PENING_PEN)+INSERTION_PEN[0143]并且通過以下方程式(5)給出缺失變量參數(shù)d[j,k]:[0144]d[j,k]=max(p[j,k_l]+0PENING_PEN,i[j,k_l]+(5)[0145]〇PENING_PEN,d[j,k-l])+DELETI0N_PEN[0146]對(duì)于所有三個(gè)變量參數(shù),將[0,0]元素設(shè)置為零以確?;厮萃瓿?,即,p[0,0]=i[0,0]=d[0,0]=0〇[0147]評(píng)分參數(shù)在某種程度上是任意的,并且可以經(jīng)調(diào)整以實(shí)現(xiàn)計(jì)算的特性。黃(對(duì)于DNA的得分參數(shù)設(shè)置的一個(gè)實(shí)例(Huang),第3章:生物序列比較和比對(duì)(Bio-SequenceComparisonandAlignment),CurrTopCompMolBiol.叢書,馬薩諸塞州劍橋市:麻省理工學(xué)院出版社(TheMITPress),2002年)將為:[0148]MATCH_B〇NUS:10[0149]MISMATCH_PEN:-20[0150]INSERTI0N_PEN:-40[0151]0PENING_PEN:-10[0152]DELETI0N_PEN:-5[0153]以上間隙罰分(INSERTI0N_PENALTY、0PENING_PENALTY)之間的關(guān)系有助于限制間隙開放的數(shù)目,即促進(jìn)通過設(shè)置高于間隙開放成本的間隙插入罰分來歸并間隙。當(dāng)然,MISMATCH_PEN、MATCH_B0NUS、INSERTΙ0Ν_ΡΕΝ、0ΡΕΝΙNG_PEN與DELETΙ0Ν_ΡΕΝ之間的替代關(guān)系是可能的。[0154]在一些實(shí)施例中,本發(fā)明的方法和系統(tǒng)并入多維比對(duì)算法。本發(fā)明的多維算法提供了序列信息的"回看(look-back)"類型分析(如在史密斯-沃特曼法中),其中通過包含多個(gè)路徑和多個(gè)節(jié)點(diǎn)的多維空間進(jìn)行回看。多維算法可以被用于比對(duì)序列讀數(shù)與DAG類型參考。該比對(duì)算法關(guān)于包含在DAG(例如,參考序列結(jié)構(gòu))上位置處的每個(gè)序列通過識(shí)別最大評(píng)分為識(shí)別最大值。實(shí)際上,通過在先前位置處"回"看,有可能跨越多個(gè)可能的路徑鑒別最優(yōu)比對(duì)。[0155]本文描述的改進(jìn)史密斯-沃特曼比對(duì)(也稱為多維比對(duì))當(dāng)在采用物理存儲(chǔ)器定址(例如經(jīng)由使用如上文所論述的天然指針或無索引鄰接)的基因組DAG系統(tǒng)中進(jìn)行時(shí)提供優(yōu)越的速度。針對(duì)參考基因組DAG的多維比對(duì)與使用空間存儲(chǔ)地址(例如天然指針或無索引鄰接)檢索來自參考基因組DAG中的對(duì)象的數(shù)據(jù)的組合改進(jìn)計(jì)算機(jī)系統(tǒng)的能力,促進(jìn)使用本文所述的已知等位基因進(jìn)行的全基因組標(biāo)度分析和讀數(shù)組裝。[0156]對(duì)上文所述的讀數(shù)(也稱為"字符串")和有向非循環(huán)圖(DAG)進(jìn)行本發(fā)明的算法。出于定義該算法的目的,假設(shè)S是要比對(duì)的字符串,并且假設(shè)D是將與S比對(duì)的有向非循環(huán)圖。以從1開始的索引對(duì)字符串S的元素加括號(hào)。因此,如果S是字符串ATCGAA,那么S[1]=A、S[4]=G等。[0157]在某些實(shí)施例中,對(duì)于DAG,節(jié)點(diǎn)的序列的每個(gè)字母將被表示為獨(dú)立元素cLd的前趨被定義為:[0158](i)如果d不是其節(jié)點(diǎn)的序列的首字母,那么其節(jié)點(diǎn)中在d之前的字母是其(唯一)前驅(qū);[0159](ii)如果d是其節(jié)點(diǎn)的序列的首字母,則為d的節(jié)點(diǎn)的父節(jié)點(diǎn)的任何節(jié)點(diǎn)的序列的最后一個(gè)字母是d的前趨。[0160]所有前驅(qū)集繼而表示為P[d]。[0161]為了發(fā)現(xiàn)"最佳"比對(duì),算法尋求M[j,d](S的第一j元素與在(且包括)d之前的DAG的一部分的最優(yōu)比對(duì)的評(píng)分)的值。此步驟類似于在以上的方程式1中發(fā)現(xiàn)Η^。確切地說,確定M[j,d]包括找到a、i、e以及0的最大值,如下文所定義:[0162]M[j,d]=max{a,i,e,0}(6)[0163]其中[0164]e=max{M[j,p*]+DELETE_PEN},其中p*屬于P[d]中[0165]i=M[j-l,d]+INSERT_PEN[0166]如果5[」]=(1,那么3=11^{]\1[」-1,?*]+]\^丁01_50)1^},其中?*屬于?[(1]中;[0167]如果S[j]乒d,那么max{M[j-l,p*]+MISMATCH_PEN},其中p*屬于P[d]中[0168]如上文所描述,e是S的前j個(gè)字符的比對(duì)的最高值,其中DAG的部分至多是(但不包含)d加上額外的DELETE_PEN。因此,如果d不是節(jié)點(diǎn)的序列的首字母,那么僅存在一個(gè)前趨P,并且S的前j個(gè)字符與DAG的比對(duì)分?jǐn)?shù)(至多是并且包含p)等效于M[j,p]+DELETE_PEN。在其中d是節(jié)點(diǎn)的序列的首字母的實(shí)例中,可以存在多個(gè)可能的前趨,并且因?yàn)镈ELETE_PEN是恒定的,所以求[M[j,p*]+DELETE_PEN]的最大值就相同于選擇與S的第一j個(gè)字符比對(duì)而具有最高比對(duì)得分的前趨。[0169]在方程式(6)中,i是字符串S的前j-Ι個(gè)字符與DAG的比對(duì),DAG至多是并且包含d加上INSERT_PEN,其類似于SW中的插入變量參數(shù)的定義(參看方程式1)。[0170]另外,a是S的前j個(gè)字符與DAG的直到但不包括d的部分比對(duì)的最高值,加上或MATCH_SC0RE(如果S的第個(gè)字符與字符d相同)或MISMATCH_PEN(如果S的第j個(gè)字符與字符d不同)。如同e-樣,這意味著如果d不是其節(jié)點(diǎn)的序列的首字母,那么僅存在一個(gè)前驅(qū),gPp。這意味著a是S的前j-1個(gè)字符與DAG(直到并且包括p)的比對(duì)分?jǐn)?shù),即M[j-l,p],取決于d與S的第j個(gè)字符是否匹配,再加上MISMATCH_PEN或MATCH_SCORE。在其中d是節(jié)點(diǎn)的序列的首字母的實(shí)例中,可以存在多個(gè)可能的前趨。在此情況下,求{M[j,p*]+MISMATCH_PEN或MATCH_SCORE}的最大值與選擇與S的前j-1個(gè)字符具有最高比對(duì)分?jǐn)?shù)(即,候選M[j-1,p*]變量參數(shù)的最高值)并且取決于d與S的第j個(gè)字符是否匹配而加上MISMATCH_PEN或MATCH_SCORE的前驅(qū)相同。[0171]再次,如在SW算法中,罰分,例如DELETE_PEN、INSERT_PEN、MATCH_SCORE和MISMATCH_PEN可以被調(diào)整以促進(jìn)與較少間隙等的比對(duì)。[0172]如以上方程式中所描述,該算法通過不僅計(jì)算該元素的插入、缺失和匹配分?jǐn)?shù),而且回看(逆著DAG的方向)到DAG上的任何先前節(jié)點(diǎn)以找出最大分?jǐn)?shù),來找出每個(gè)讀數(shù)的最大值。因此,該算法能夠穿越含有已知突變的貫穿DAG的不同路徑。因?yàn)閳D是有向的,所以逆著圖的方向移動(dòng)的回溯遵循朝向圖的起點(diǎn)的優(yōu)選變異序列,并且最大比對(duì)分?jǐn)?shù)鑒別高度確定性的最可能比對(duì)。[0173]圖5描述將序列讀數(shù)映射到DAG501且?guī)椭f明將序列比對(duì)到DAG。在圖5的頂部部分中,假設(shè)的序列讀數(shù)"ATCGAA"連同以下兩個(gè)假設(shè)的序列一起呈現(xiàn):[0174]TTGGATATGGG(SEQIDNO.11)[0175]TTGGATCGAATTATGGG(SEQIDNO.12)[0176]繪制圖5的中間部分以說明SEQIDNO.11和12通過六個(gè)特征插入缺失相關(guān),其中假裝存在假設(shè)的讀數(shù)比對(duì)到SEQIDN0.12,延伸到插入缺失中的先驗(yàn)知識(shí)。在圖5的中間部分中,描述經(jīng)線性化和簡化以幫助可視化。[0177]圖5的底部部分說明假設(shè)的序列讀數(shù)比對(duì)的DAG501的創(chuàng)建。在所描繪的DAG501中,盡管沿不同路徑,但可以通過從DAG501的5'端到DAG的3'端讀來讀取SEQIDN0.11和12兩者。如所描繪的,序列讀數(shù)被示出為與上部路徑比對(duì)。[0178]圖6顯示對(duì)應(yīng)于比較的實(shí)際矩陣。如同史密斯-沃特曼技術(shù),本發(fā)明的所說明算法鑒別最高評(píng)分,并且進(jìn)行回溯以鑒別讀數(shù)的恰當(dāng)位置。圖5和圖6還強(qiáng)調(diào)本發(fā)明產(chǎn)生字符串與該建構(gòu)的實(shí)際匹配。在序列讀數(shù)包括未包括在DAG中的變型的情況下,將通過間隙、插入等報(bào)告比對(duì)的序列。[0179]如上文所論述,概率信息可表示于DAG中,其可對(duì)于對(duì)準(zhǔn)具有益處。這可以通過將每一邊緣與鑒于第一節(jié)點(diǎn)指示第二節(jié)點(diǎn)的概率的"權(quán)重"關(guān)聯(lián)而進(jìn)行。[0180]圖7顯示經(jīng)產(chǎn)生以包括概率信息的DAG301。沿DAG301的邊緣的數(shù)字指示60%由DAG301表示的序列含有節(jié)點(diǎn)2且40%含有節(jié)點(diǎn)3。另外,70%的序列含有節(jié)點(diǎn)5且30%的表示序列含有節(jié)點(diǎn)6。不存在其它信息,將通常自然地假定這些變換概率為獨(dú)立(例如馬爾可夫型)。也就是說,無論序列包括節(jié)點(diǎn)2或節(jié)點(diǎn)3,從節(jié)點(diǎn)4到節(jié)點(diǎn)5的變換出現(xiàn)70%的時(shí)間。然而,DAG301可補(bǔ)充有關(guān)于節(jié)點(diǎn)之間的從屬性的信息。舉例來說,繼續(xù)參考圖7,如果檢查所有穿過節(jié)點(diǎn)2的序列,且發(fā)現(xiàn)那些序列中的90%穿過節(jié)點(diǎn)5,那么此信息可用DAG301存儲(chǔ),例如存儲(chǔ)如下:[0181]節(jié)點(diǎn)1,節(jié)點(diǎn)2,節(jié)點(diǎn)3,概率[0182]2,4,5,0.9[0183]2,4,6,0.1[0184]再次,這可以任何數(shù)目的方式壓縮-例如通過消除第二行,其可從第一個(gè)推論。[0185]本發(fā)明的實(shí)施例包括使用已知位置處的所鑒別核苷酸或任何其它基因型信息來將穿過基因組DAG的多個(gè)路徑減少到將尋求映射的候選序列讀數(shù)。舉例來說,來自受檢者的SNP芯片的結(jié)果可過濾DAG且與SNP芯片不一致的穿過DAG的路徑可從來自受檢者的序列讀數(shù)的組裝中的考慮因素排除。[0186]表示基因組中的所有已知變型的DAG可較大且包括許多不同的穿過DAG的路徑。[0187]本發(fā)明提供將較大DAG減小為與情境相關(guān)的較小DAG的方法。SNP芯片和條件信息的組合提供進(jìn)行此類減小的自然方式。SNP芯片的結(jié)果得出關(guān)于DAG中的哪些節(jié)點(diǎn)由給定序列穿越的信息,且條件信息可接著用于鑒于穿越的節(jié)點(diǎn)推導(dǎo)關(guān)于其它節(jié)點(diǎn)的相關(guān)性的事實(shí)。[0188]舉例來說,假如我們非概率性地工作且我們經(jīng)由SNP芯片獲悉受檢者的序列穿過圖7的DAG301的節(jié)點(diǎn)2。單獨(dú)從DAG中的信息,我訶實(shí)現(xiàn)圖形尺寸的較小減小。[0189]圖8顯示DAG301的減小版本。如圖8中所示的DAG301表示基于獲得已知位置中的至少一個(gè)核苷酸的標(biāo)識(shí)的可能路徑的減小。也就是說,位置7或位置8測(cè)定為胸腺嘧啶。接著,節(jié)點(diǎn)id=3可出于另外的考慮因素排除。可通過使用如上文所述的條件信息獲得另外的益處。查閱以上列出的簡單文本文件,我們可以看出節(jié)點(diǎn)2和6不可共存,且因此進(jìn)一步減小圖形。[0190]圖9說明經(jīng)過濾(例如通過SNP芯片數(shù)據(jù))并且通過條件信息(例如節(jié)點(diǎn)2和6的非共存性)進(jìn)一步減小的DAG301的此進(jìn)一步減小的結(jié)果。從這兩個(gè)步驟(通過已知位置處的核苷酸過濾、通過概率連鎖核苷酸過濾),穿過DAG301的候選路徑已減少到一個(gè)路徑。在實(shí)際基因組數(shù)據(jù)的情況下,此類減少可能不導(dǎo)致僅具有一個(gè)路徑的DAG,但減少數(shù)目的路徑(相比于未過濾的DAG)將通過例如改進(jìn)多維史密斯沃特曼法允許讀數(shù)與那些路徑的全面比對(duì)。[0191]應(yīng)注意,這些減少可通常為非顯然的??纱嬖诓淮┻^節(jié)點(diǎn)2是我節(jié)點(diǎn)1到節(jié)點(diǎn)4是我許多路徑,且這些路徑可為任意長、復(fù)雜和巢式的。所有此類路徑可在此步驟消除。[0192]圖10給出根據(jù)某些實(shí)施例的方法(1001)的圖表。一般來說,本發(fā)明提供方法1001,其包括接收(1005)已知位置處的核苷酸的標(biāo)識(shí)(例如自SNP芯片)。該信息應(yīng)用(1009)于DAG且選擇(1〇15)包括已知位置處的核苷酸的DAG中的路徑。另外,NGS讀數(shù)可經(jīng)接收(1019)且映射(1023)到所選路徑。從該映射可進(jìn)行基因分型或類似分析(1029)。[0193]所屬領(lǐng)域中已知的任何開發(fā)環(huán)境、數(shù)據(jù)庫或語言可用于實(shí)施本發(fā)明的實(shí)施例。例示性語言、系統(tǒng)和開發(fā)環(huán)境包括Perl、C++、Python、RubyonRails、JAVA、Groovy、Grails、VisualBasic.NET。適用于本發(fā)明的資源的概述呈現(xiàn)于巴爾內(nèi)斯(Barnes)(編)遺傳學(xué)家的生物信息:用于基因數(shù)據(jù)分析的生物信息引物(BioinformaticsforGeneticists:ABioinformaticsPrimerfortheAnalysisofGeneticData),英格蘭西索塞克斯齊切斯特威立(Wiley,ChiChester,WestSussex,England)(2007)以及達(dá)德利(Dudley)和布特(Butte),開發(fā)有效生物信息編程技能的快速指導(dǎo)(Aquickguidefordevelopingeffectivebioinformaticsprogrammingskills),公共科學(xué)圖書館計(jì)算生物學(xué)(PLoSComputBiol)5(12):e1000589(2009)中。[0194]在一些實(shí)施例中,通過Perl中開發(fā)的計(jì)算機(jī)應(yīng)用(例如任選地使用BioPerl)建構(gòu)方法。參見蒂斯戴爾(Tisdall),掌握Perl用于生物信息學(xué)(MasteringPerlforBioinformatics),奧萊利與合作人公司(O'Reilly&Associates,Inc.),加利福尼亞州塞巴基托波(Sebastopol,CA)2003。在一些實(shí)施例中,使用BioPerl,允許面向?qū)ο箝_發(fā)生物信息應(yīng)用的Perl模塊的集合開發(fā)應(yīng)用。BioPerl可從Perl綜合典藏網(wǎng)(CPAN)網(wǎng)站下載而供使用。還參見德懷爾(Dwyer),基因組Perl(GenomicPerl),劍橋大學(xué)出版社(CambridgeUniversityPress)(2003)和查克(Zak),CGI/Perl,第1版,湯姆森學(xué)習(xí)出版集團(tuán)(ThomsonLearning)(2002)。[0195]在某些實(shí)施例中,使用Java和任選地由馬太博考克(MatthewPocock)和托馬斯唐(ThomasDown)在1998年于EBIVSanger開發(fā)的BioJava對(duì)象集合開發(fā)應(yīng)用。Biojava提供應(yīng)用軟件編程接口(API)且論述于霍蘭德(Holland)等人,Biojava:用于生物信息學(xué)的開放源構(gòu)架(Biojava:anopen-sourceframeworkforbioinformatics),生物信息學(xué)(Bioinformatics)24(18):2096-2097(2008)中。Java中的編程論述于梁(Liang),Java編程介紹綜合版(IntroductiontoJavaProgramming,Comprehensive)(第8版),新澤西州上薩德爾里弗普倫蒂斯霍爾(PrenticeHall,UpperSaddleRiver,NJ)(2011)和普(Poo)等人,面向?qū)ο蟮木幊毯蚸ava(0bject_0rientedProgrammingandJava),新加坡斯普林格出版社(SpringerSingapore),新加坡,第322頁(2008)中。[0196]可使用Ruby編程語言和任選地BioRuby、RubyonRails或其組合開發(fā)應(yīng)用。Ruby或扮〇1?油7可在1^111?、]\&1〇03乂和¥;[11(10¥8中實(shí)施,并且在貝油7的情況下,在如¥3虛擬機(jī)上實(shí)施,且支持面向?qū)ο蟮拈_發(fā)。參見梅茨(Metz),Ruby中實(shí)際的面向?qū)ο蟮脑O(shè)計(jì):阿吉爾初級(jí)讀本(PracticalObject-OrientedDesigninRuby:AnAgilePrimer),愛達(dá)訊-韋斯利(六(1(1丨8011-¥68167)(2012)和戈托(601:0)等人,13;[01?油7:用于紅寶石編程語言的生物信息學(xué)軟件(BioRuby:bioinformaticssoftwarefortheRubyprogramminglanguage),生物信息學(xué)26(20):2617-2619(2010)。[0197]本發(fā)明的系統(tǒng)和方法可使用Groovy編程語言和web開發(fā)框架GraiIs開發(fā)。GraiIs為提供攜有通過視圖顯示的應(yīng)用程序數(shù)據(jù)的域類的開放源模型視圖控制器(MVC)web框架和開發(fā)平臺(tái)。Grails域類可產(chǎn)生底層數(shù)據(jù)庫模式。Grails提供一種開發(fā)平臺(tái),其用于包括web應(yīng)用程序的應(yīng)用,以及數(shù)據(jù)庫和稱作Grails對(duì)象關(guān)系映射(G0RM)的對(duì)象關(guān)系映射框架。G0RM可將對(duì)象映射到關(guān)系數(shù)據(jù)庫且表示那些對(duì)象之間的關(guān)系。G0RM依賴于Hibernate對(duì)象關(guān)系持久性構(gòu)架以將復(fù)雜域類映射到關(guān)系型數(shù)據(jù)庫表單。GraiIs進(jìn)一步包括Jettyweb容器和服務(wù)器以及網(wǎng)頁布局框架(SiteMesh)以創(chuàng)建web組件。Groovy和GraiIs論述于賈得(Judd)等人,開始Groovy和Grails(BeginningGroovyandGrails),Apress,加利福尼亞州伯克利(Berkeley,CA),第414頁(2008);布朗(Brown),Grails權(quán)威指南(TheDefinitiveGuidetoGrails),Apress,加利福尼亞州伯克利,第618頁(2009)。[0198]無論采用哪些編程方法,方法1001可經(jīng)擴(kuò)展以操作概率數(shù)據(jù)。[0199]概率情況與使用關(guān)于非可共存節(jié)點(diǎn)的信息的方法類似。但在概率數(shù)據(jù)的情況下,另外可能不僅從DAG過濾不可能的節(jié)點(diǎn),而且還過濾低于某一閾值,例如0.01的節(jié)點(diǎn)。這表明一種算法:[0200](i)檢索加權(quán)參考DAG的一個(gè)區(qū)域。[0201](ii)檢索節(jié)點(diǎn)與邊緣權(quán)重之間的相關(guān)性的補(bǔ)充文件。[0202](iii)查詢SNP芯片的結(jié)果以辨別受檢者中的已知位置處的核苷酸的標(biāo)識(shí)以查看實(shí)現(xiàn)哪些節(jié)點(diǎn)。[0203](iv)鑒于DAG結(jié)構(gòu)和實(shí)現(xiàn)給定節(jié)點(diǎn)的事實(shí)濾出不可能的路徑上的節(jié)點(diǎn)(如同在上文圖8中的節(jié)點(diǎn)3的消除中)。[0204](v)鑒于補(bǔ)充文件中的信息更新其它邊緣權(quán)重。[0205](vi)消除具有低于ε的邊緣權(quán)重的所有路徑,其中此參數(shù)根據(jù)計(jì)算資源、關(guān)于DAG的背景知識(shí)等選擇。ε=.01可為合理的選擇。[0206]本發(fā)明的方法在使用基因組參考中提供重大益處和改進(jìn)。舉例來說,當(dāng)DAG用作參考時(shí),通過過濾DAG,所有后續(xù)分析將較快。尤其,這允許進(jìn)行更復(fù)雜數(shù)學(xué)算法,給出例如較好比對(duì)。因此,如果不存在(或幾乎無)較大到較小DAG的相關(guān)信息交換損失,那么增加效率且也可得到精確性。實(shí)際上,從事于減小的DAG將通常預(yù)防可避免的錯(cuò)誤。[0207]圖11說明極小部分的基因組標(biāo)度DAG1101的實(shí)例。使用方法1001,核苷酸信息應(yīng)用(1009)于DAG1101。[0208]圖12顯示具有實(shí)心方形的DAG1101,這些實(shí)心方形通過核苷酸信息顯示為在受檢者的基因組中。不含這些等位基因的路徑出于映射來自受檢者的序列讀數(shù)的目的從DAG1101消除,意思是含有那些等位基因的為進(jìn)一步包含的所選1015。因此,已知位置處的所鑒別核苷酸(由圖12中的變暗方形表示)從DAG1101內(nèi)有效地選擇某些基因組序列。[0209]圖13顯示使用核苷酸信息選擇的基因組序列。通過比較圖13與圖11可以看出本發(fā)明的方法提供搜索空間的相當(dāng)大的減小以用于分析序列讀數(shù)。[0210]值得注意的是等位基因不必預(yù)先存在于DAG內(nèi)。實(shí)際上,基因組DAG尤其適用于發(fā)現(xiàn)仍新穎的SNP,因?yàn)樗兄車蚪M信息將映射到具有極佳評(píng)分的路徑且比對(duì)算法將展示創(chuàng)建新節(jié)點(diǎn)以表示實(shí)際上通過進(jìn)行比對(duì)發(fā)現(xiàn)的SNP的需要。容納新發(fā)現(xiàn)的SNP為容易地,因?yàn)镈AG僅接著借助于用于比對(duì)而將其包含。也就是說,在一些實(shí)施例中,外源性參考基因組數(shù)據(jù)與受檢者基因組序列之間的區(qū)別為消失的區(qū)別且分析NGS讀數(shù)以對(duì)受檢者基因分型的每一實(shí)例也為產(chǎn)生參考的實(shí)例。[0211]由于通過本發(fā)明的方法提供的改進(jìn),獲得多種益處。[0212]⑴比對(duì)將較快。正如同針對(duì)短序列比針對(duì)較長序列比對(duì)快,針對(duì)較小DAG比針對(duì)較大DAG比對(duì)快。[0213](ii)相比于通常用于鑒于其它變型的存在確定存在哪些變型,描述的方法可表示且容易地檢索更相關(guān)信息。遵循現(xiàn)有技術(shù)范式的方法一般正好使一些變型與其它變型相關(guān)。本發(fā)明的方法從較豐富信息體得出。[0214](iii)描述的方法提供序列分析的精確性的改進(jìn)。改進(jìn)的精確性通過消除可能性(即通過具有一些已通過SNP芯片數(shù)據(jù)"填充"的節(jié)點(diǎn))提供,其使得更精確地完成圖像,因?yàn)楸苊夂蜻x物與類似但不同源區(qū)域比對(duì)。[0215]在概率情況下,以下算法為可能的。[0216]為了確定節(jié)點(diǎn)N實(shí)現(xiàn)的概率:[0217](a)搜索關(guān)于N(和N的替代方案)與其它節(jié)點(diǎn)之間的相關(guān)性的補(bǔ)充文件。(如果文件呈一些格式,如上文的加權(quán)DAG下方所列,那么發(fā)現(xiàn)第2列或第3列中的項(xiàng)為N的行。應(yīng)注意,此類搜索操作可通過許多方法極快速地進(jìn)行,例如由關(guān)系數(shù)據(jù)庫采用的那些方法。)[0218](b)過濾那些行以僅包括我們具有足夠使用所列概率的信息的那些行(也就是說,我們已知第1列中的節(jié)點(diǎn)的似然性的那些行)。[0219](c)聚集一組如下節(jié)點(diǎn):(1)我們不具有關(guān)于鑒于那些節(jié)點(diǎn)的N和N的替代方案的相對(duì)概率的特殊信息,和(2)我們鑒于SNP芯片的結(jié)果或通過一些其它方法已知關(guān)于那些節(jié)點(diǎn)的概率的一些情況。聚集此組節(jié)點(diǎn)的自然方式為尋找充分接近N和N的替代方案的節(jié)點(diǎn),接著根據(jù)以上標(biāo)準(zhǔn)(1)濾出所有節(jié)點(diǎn)。[0220]假設(shè)大部分變換概率大致獨(dú)立,鑒于那些節(jié)點(diǎn)中的每一個(gè)估計(jì)N和N的替代方案的概率。[0221](d)通過添加所討論的節(jié)點(diǎn)(其中的一個(gè)將來自(c)中描述的組且其中的另一個(gè)將為N或N的替代方案)之間的所有路徑的概率估計(jì)N和N的替代方案的概率。那些路徑的概率中的每一個(gè)通過乘以包含于路徑中的所有邊緣的權(quán)重估計(jì)。[0222](e)通過根據(jù)這些概率中的每一個(gè)更新且正規(guī)化來更新N和N的替代方案的概率。使用本發(fā)明的方法和系統(tǒng),可鑒于關(guān)于其它變型的一些信息(例如條件或概率信息)精確地確定一些變型。因此,當(dāng)SNP芯片或類似"直接"分析給出一些核苷酸的標(biāo)識(shí)時(shí),LD研究或類似研究給出基因組中的某些位置處的其它核苷酸的概率。[0223]本文所述的方法可使用包括硬件以及軟件和任選地固件的系統(tǒng)進(jìn)行。[0224]圖14說明適用于進(jìn)行本文所述的方法的系統(tǒng)1401。在計(jì)算機(jī)處接收來自芯片1405的關(guān)于所鑒別核苷酸的信息。從測(cè)序儀1455接收序列讀數(shù),從該儀器直接接收或經(jīng)由用于初步收集和序列讀數(shù)的任何處理的計(jì)算機(jī)1451。網(wǎng)絡(luò)1415在不同計(jì)算機(jī)間中繼數(shù)據(jù)和信息。本文所述的方法的步驟可通過服務(wù)器計(jì)算機(jī)1409或通過個(gè)人計(jì)算裝置1433(例如膝上型計(jì)算機(jī)、桌面計(jì)算機(jī)、平板電腦等)進(jìn)行。計(jì)算裝置1433可用于與服務(wù)器1409交互以起始方法步驟或獲得結(jié)果。總體上,計(jì)算機(jī)包括耦接到存儲(chǔ)器的處理器和至少一個(gè)輸入/輸出裝置。[0225]處理器可以是任何合適的處理器,如由英特爾(加利福尼亞州圣克拉拉(SantaClara,CA))以商標(biāo)ΧΕΟΝE7出售的微處理器,或由AMD(加利福尼亞州桑尼維爾(Sunnyvale,CA))以商標(biāo)0PTER0N6200出售的微處理器。[0226]存儲(chǔ)器一般包括有形、非瞬時(shí)性計(jì)算機(jī)可讀存儲(chǔ)裝置且可包括任何機(jī)器可讀媒體或介質(zhì),在其上或其中存儲(chǔ)有指令(一種或多種軟件應(yīng)用)、數(shù)據(jù)或這兩者。指令當(dāng)經(jīng)執(zhí)行時(shí)可實(shí)施本文所述的功能性中的任一者或全部。術(shù)語"計(jì)算機(jī)可讀存儲(chǔ)裝置"應(yīng)理解為包括(但不限于)一種或多種磁盤驅(qū)動(dòng)器、磁帶機(jī)、閃存盤、固態(tài)驅(qū)動(dòng)器(SSD)、存儲(chǔ)器裝置(如RAM、R0M、EPR0M等)、光學(xué)存儲(chǔ)裝置和/或任何其它非瞬時(shí)性和有形存儲(chǔ)媒體或介質(zhì)。[0227]根據(jù)本發(fā)明的輸入/輸出裝置可以包括視頻顯示單元(例如,液晶顯示器(IXD)或陰極射線管(CRT)監(jiān)視器)、字母數(shù)字輸入裝置(例如,鍵盤)、光標(biāo)控制裝置(例如,鼠標(biāo)或觸控板)、磁盤驅(qū)動(dòng)器單元、信號(hào)生成裝置(例如,揚(yáng)聲器)、觸摸屏、加速計(jì)、麥克風(fēng)、蜂窩無線電頻率天線、以及網(wǎng)絡(luò)接口裝置,網(wǎng)絡(luò)接口裝置可以是例如網(wǎng)絡(luò)接口卡(NIC)、Wi-Fi卡或蜂窩調(diào)制解調(diào)器。[0228]以引用的方式并入[0229]貫穿本發(fā)明已經(jīng)參考并且引用了其它文獻(xiàn),例如專利、專利申請(qǐng)、專利公開、期刊、書籍、論文、網(wǎng)絡(luò)內(nèi)容。所有此類文檔在此以全文引用的方式并入本文中用于所有目的。[0230]等效物[0231]除本文展示且描述的之外,所屬領(lǐng)域的技術(shù)人員將從本文獻(xiàn)的完整內(nèi)容對(duì)本發(fā)明的各種修改及許多其它實(shí)施例顯而易見,包含對(duì)在本文中引用的科學(xué)和專利文獻(xiàn)的參考。本文中的標(biāo)的物含有重要信息、范例和指南,其可適于本發(fā)明在其各種實(shí)施例及其等效內(nèi)容中的實(shí)踐?!局鳈?quán)項(xiàng)】1.一種用于測(cè)定基因組序列的系統(tǒng),所述系統(tǒng)包含:計(jì)算機(jī)系統(tǒng),其包含耦接到存儲(chǔ)器的處理器且可經(jīng)操作以:接收受檢者的基因組上的已知位置處的多個(gè)核苷酸的標(biāo)識(shí);從多個(gè)基因組序列選擇一個(gè)或多個(gè)基因組序列,其中所選序列包括所述已知位置處的核苷酸;從來自所述受檢者的樣品接收序列讀數(shù);以及將所述序列讀數(shù)映射到所述一個(gè)或多個(gè)所選基因組序列,進(jìn)而鑒別所述基因組的至少一部分的序列。2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中表示所述多個(gè)基因組序列的數(shù)據(jù)包含表示核苷酸序列的節(jié)點(diǎn)和連接節(jié)點(diǎn)對(duì)的邊緣,其中所述節(jié)點(diǎn)和邊緣界定有向非循環(huán)圖,另外,其中所述所選基因組序列中的每一個(gè)界定穿過所述有向非循環(huán)圖的所選路徑。3.根據(jù)權(quán)利要求2所述的系統(tǒng),其中所述有向非循環(huán)圖表示多個(gè)位置處的每個(gè)位置的至少兩個(gè)替代序列。4.根據(jù)權(quán)利要求3所述的系統(tǒng),其中映射所述序列讀數(shù)包含找出每一序列讀數(shù)與每一所選路徑之間的最優(yōu)比對(duì)。5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中找出最優(yōu)比對(duì)包含找出貫穿多維矩陣的最高評(píng)分跡線。6.根據(jù)權(quán)利要求4所述的系統(tǒng),其另外可經(jīng)操作以:基于所述已知位置處的所述多個(gè)核苷酸的標(biāo)識(shí)獲得關(guān)于額外核苷酸的標(biāo)識(shí)的概率;和將獲得的概率用于找出所述最優(yōu)比對(duì)。7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中所述概率獲自所述額外核苷酸中的一個(gè)與所述已知位置處的所述多個(gè)核苷酸中的一個(gè)之間的連鎖不平衡的測(cè)量值。8.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述多個(gè)基因組序列以包含多個(gè)節(jié)點(diǎn)和邊緣對(duì)象的DAG形式存儲(chǔ)在存儲(chǔ)器中,所述多個(gè)節(jié)點(diǎn)和邊緣對(duì)象各自存儲(chǔ)一列指針,所述指針指向所述節(jié)點(diǎn)和邊緣對(duì)象的鄰接節(jié)點(diǎn)和邊緣對(duì)象在存儲(chǔ)器中的位置,其中所述所選基因組序列中的每一個(gè)界定穿過所述DAG的所選路徑且其中所述系統(tǒng)可經(jīng)操作以通過找出所述序列讀數(shù)與所述所選路徑之間的最優(yōu)比對(duì)而映射所述序列讀數(shù)。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中找出最優(yōu)比對(duì)包含通過以下步驟找出貫穿所述DAG的最高評(píng)分跡線:計(jì)算所述讀數(shù)與所述DAG中的所述節(jié)點(diǎn)和邊緣對(duì)象中的至少一些之間的匹配評(píng)分;解引用所述指針中的至少一些以從所述DAG中的前趨對(duì)象在存儲(chǔ)器中的引用位置讀取所述前驅(qū)對(duì)象,其中具有最大匹配評(píng)分總和的穿過前趨對(duì)象的路徑為貫穿所述DAG的最高評(píng)分跡線。10.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述多個(gè)基因組序列以包含多個(gè)節(jié)點(diǎn)和邊緣對(duì)象的DAG形式存儲(chǔ)于所述存儲(chǔ)器中,其中多個(gè)核苷酸的標(biāo)識(shí)包含所述受檢者的基因組中的多個(gè)SNP;且所述系統(tǒng)通過鑒別包括所述多個(gè)SNP的穿過所述DAG的候選路徑來選擇包括所述SNP的所述一個(gè)或多個(gè)基因組序列。11.根據(jù)權(quán)利要求10所述的系統(tǒng),其中所述DAG表示在每一等位基因具有單一對(duì)象的多個(gè)基因組之間同源的至少一個(gè)基因座。12.根據(jù)權(quán)利要求10所述的系統(tǒng),其中所述DAG經(jīng)注釋以列舉非可共存節(jié)點(diǎn)對(duì),且其中所述系統(tǒng)另外可經(jīng)操作以:從所述多個(gè)SNP中的一個(gè)鑒別非可共存節(jié)點(diǎn)對(duì)的列表中的節(jié)點(diǎn);鑒別與所述非可共存節(jié)點(diǎn)對(duì)的列表中的所鑒別節(jié)點(diǎn)配對(duì)的第二節(jié)點(diǎn);和在映射所述序列讀數(shù)時(shí)排除含有所述第二節(jié)點(diǎn)的路徑。13.-種測(cè)定受檢者的基因信息的方法,所述方法包含:獲得關(guān)于所述受檢者的基因組中的多個(gè)SNP的信息;在包含表示基因序列的節(jié)點(diǎn)和連接節(jié)點(diǎn)對(duì)的邊緣的有向非循環(huán)數(shù)據(jù)結(jié)構(gòu)內(nèi)鑒別包括所述多個(gè)SNP的候選路徑;從所述受檢者的基因組獲得序列讀數(shù);和將所述序列讀數(shù)映射到所述候選路徑。14.根據(jù)權(quán)利要求13所述的方法,其中所述有向非循環(huán)數(shù)據(jù)結(jié)構(gòu)表示在每一等位基因具有單一節(jié)點(diǎn)的多個(gè)基因組之間同源的至少一個(gè)基因座。15.根據(jù)權(quán)利要求13所述的方法,其中所述有向非循環(huán)數(shù)據(jù)結(jié)構(gòu)經(jīng)注釋以列舉非可共存節(jié)點(diǎn)對(duì),其中所述方法進(jìn)一步包含:從所述多個(gè)SNP中的一個(gè)鑒別非可共存節(jié)點(diǎn)對(duì)的列表中的節(jié)點(diǎn);鑒別與所述非可共存節(jié)點(diǎn)對(duì)的列表中的所鑒別節(jié)點(diǎn)配對(duì)的第二節(jié)點(diǎn);和從映射步驟排除含有所述第二節(jié)點(diǎn)的路徑。16.-種測(cè)定基因組序列的方法,所述方法包含:在計(jì)算機(jī)系統(tǒng)上接收受檢者的基因組上的已知位置處的多個(gè)核苷酸的標(biāo)識(shí);從存儲(chǔ)在所述計(jì)算機(jī)系統(tǒng)中的多個(gè)基因組序列選擇一個(gè)或多個(gè)基因組序列,其中所選序列包括所述已知位置處的所述核苷酸;從來自所述受檢者的樣品接收序列讀數(shù);和將所述序列讀數(shù)映射到所述所選基因組序列,進(jìn)而測(cè)定所述基因組的至少一部分的序列。17.根據(jù)權(quán)利要求16所述的方法,其中表示所述多個(gè)基因組序列的數(shù)據(jù)為包含多個(gè)節(jié)點(diǎn)和邊緣對(duì)象的DAG,所述邊緣對(duì)象各自存儲(chǔ)其鄰接的對(duì)象的列表,其中所述所選基因組序列中的每一個(gè)界定穿過所述DAG的所選路徑。18.根據(jù)權(quán)利要求16所述的方法,其中每一節(jié)點(diǎn)和邊緣對(duì)象存儲(chǔ)一個(gè)或多個(gè)鄰接對(duì)象的列表,且其中映射所述序列讀數(shù)包含找出所述序列讀數(shù)與所述所選路徑之間的最優(yōu)比對(duì)。19.根據(jù)權(quán)利要求18所述的方法,其中每一列表包含指向所述鄰接對(duì)象在存儲(chǔ)器中的位置的指針,且其中找出最優(yōu)比對(duì)包含找出貫穿多維矩陣的最高評(píng)分跡線。20.根據(jù)權(quán)利要求19所述的方法,其中找出所述最高評(píng)分跡線包含使用所述計(jì)算機(jī)系統(tǒng)計(jì)算所述讀數(shù)與所述DAG中的所述節(jié)點(diǎn)和邊緣對(duì)象中的至少一些之間的匹配評(píng)分,且回看所述DAG中的前趨對(duì)象以鑒別具有最優(yōu)評(píng)分的回溯(back-trace)。21.根據(jù)權(quán)利要求18所述的方法,其進(jìn)一步包含:基于所述已知位置處的所述多個(gè)核苷酸的標(biāo)識(shí)獲得關(guān)于額外核苷酸的標(biāo)識(shí)的概率,其中所述概率獲自所述額外核苷酸中的一個(gè)與所述已知位置處的所述多個(gè)核苷酸中的一個(gè)之間的連鎖不平衡的測(cè)量值;和將獲得的概率用于找出所述最優(yōu)比對(duì)。22.根據(jù)權(quán)利要求17所述的方法,其中至少一個(gè)穿過所述有向非循環(huán)圖的路徑給出至少一個(gè)人類染色體的大體上整個(gè)序列。23.根據(jù)權(quán)利要求17所述的方法,其中所述有向非循環(huán)圖表示多個(gè)位置處的每個(gè)位置的至少兩個(gè)替代序列。24.根據(jù)權(quán)利要求11所述的方法,其進(jìn)一步包含組裝映射的序列讀數(shù)。25.根據(jù)權(quán)利要求16所述的方法,其中所述已知位置處的所述多個(gè)核苷酸的標(biāo)識(shí)作為來自微陣列分析的結(jié)果而被接收?!疚臋n編號(hào)】C12Q1/68GK106068330SQ201580007711【公開日】2016年11月2日【申請(qǐng)日】2015年1月8日公開號(hào)201580007711.4,CN106068330A,CN106068330A,CN201580007711,CN-A-106068330,CN106068330A,CN106068330A,CN201580007711,CN201580007711.4,PCT/2015/10604,PCT/US/15/010604,PCT/US/15/10604,PCT/US/2015/010604,PCT/US/2015/10604,PCT/US15/010604,PCT/US15/10604,PCT/US15010604,PCT/US1510604,PCT/US2015/010604,PCT/US2015/10604,PCT/US2015010604,PCT/US201510604【發(fā)明人】丹尼斯·庫拉爾【申請(qǐng)人】七橋基因公司