亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

數(shù)據(jù)解析裝置及其方法

文檔序號:9221664閱讀:616來源:國知局
數(shù)據(jù)解析裝置及其方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種DNA序列的數(shù)據(jù)解析裝置,尤其涉及一種從大規(guī)模并行型DNA序列裝置得到的DNA序列數(shù)據(jù)的解析技術(shù)。
【背景技術(shù)】
[0002]對于癌、生活習(xí)慣病或遺傳病等,作為所謂的個別化醫(yī)療,需要選擇適于患者個人的治療方法,或為了進行恢復(fù)后的預(yù)測而調(diào)查患者個人的遺傳性背景。因此,進行染色體組或轉(zhuǎn)錄物組(轉(zhuǎn)寫產(chǎn)物)等的DNA (deoxyribonucleic acid,脫氧核糖核酸)序列解析。在此時所使用的DNA序列裝置中,只能得到被片段化的較短的DNA序列。因此,與較長的參照染色體組序列相比,需要調(diào)查得到的片段序列是染色體組的哪個部分,并且進行用于調(diào)查這里所包含的單核苷酸變異(SNP,Single Nucleotide Polymorphism)或插入/缺失等變異的數(shù)據(jù)處理。一般,將這樣的數(shù)據(jù)處理稱為匹配處理。
[0003]在所謂的被稱為下一代型DNA測序器的大規(guī)模并行型DNA測序器中,在I次的測量中能夠得到數(shù)億個以上的較短的100堿基程度的較長的片段序列(前導(dǎo))。此外,人的情況下,參照染色體組序列的長度約為3千兆堿基(30億堿基)。在匹配處理中,將這些前導(dǎo)序列與參照染色體組序列一個一個進行比較來確定對應(yīng)的位置,確定這里包含的變異。這些需要非常大的計算成本,因此開發(fā)并利用專用的高效的算法。代表性的方法是將參照染色體組序列通過 Burrows-Wheeler 變換(BWT, Burrows-Wheeler Transformat1n)(非專利文獻I)進行數(shù)據(jù)庫化,將前導(dǎo)序列內(nèi)的較短堿基序列作為檢索關(guān)鍵詞進行檢索,在匹配的區(qū)域的前后考慮序列錯誤或變異的可能性而進行比對(非專利文獻2)。
[0004]一般,在下一代型DNA測序器中產(chǎn)生I %程度的讀取錯誤,此外,在較大的染色體組區(qū)域中,分散存在多個類似的序列。因此,在每一個前導(dǎo)的匹配結(jié)果中存在產(chǎn)生錯誤的可能性。例如,對于某前導(dǎo)序列,在參照染色體組序列內(nèi)沒有完全一致的區(qū)域,但假設(shè)少數(shù)序列錯誤時,有時能夠發(fā)現(xiàn)多處對應(yīng)的染色體組區(qū)域。該情況下,選擇哪個區(qū)域存在任意性,且該判斷依賴匹配處理的探索方法。因此,為了準(zhǔn)確地進行變異解析,在后續(xù)的處理,即下游的處理中,進行比較多個前導(dǎo)的匹配結(jié)果而采用多數(shù)決定的再匹配處理(非專利文獻3)。因此,在進行所有染色體組解析的情況下,通常,對能夠覆蓋染色體組整體數(shù)十倍的序列量(數(shù)十千兆堿基以上)進行排序。此外,在匹配目的地存在任意性時可能產(chǎn)生依存于匹配處理的偏差,因此比較多個種類的匹配工具的結(jié)果,還要確認沒有產(chǎn)生這樣的偏差。另夕卜,作為與以上的技術(shù)關(guān)聯(lián)的專利文獻,例如有專利文獻I。
[0005]現(xiàn)有技術(shù)文獻
[0006]專利文獻
[0007]專利文獻1:日本特開2003 - 330934號公報
[0008]非專利文獻
[0009]非專利文獻1:M.Burrows and D.Wheeler:A block-sorting lossless datacompress1n algorithm.Technical Report 124,Digital Equipment Corporat1n, 1994.
[0010]非專利文獻2:Li H.and Durbin R.(2009) Fast and accurate short readalignment with Burrows-WheeIer Transform.B1informatics, 25:1754-60.
[0011]非專利文獻3:McKenna A,Hanna M,Banks Ej Sivachenko A,CibulskisKj Kernytsky A, Garimella Kj Altshuler Dj Gabriel S,Daly Mj DePristo MA(2010).TheGenome Analysis Toolkit:a MapReduce framework for analyzing next-generat1n DNAsequencing data.Genome Res.20:1297-303.
[0012]非專利文獻4:Mantaci,S.,Restivo,A.;Sc1rtino, M: “An extens1n ofthe Burrows Wheeler transform to k words.,,Data Compress1n Conference, 2005.Proceedings.DCC 2005.
[0013]非專利文獻5:Markus J.Bauer, Anthony J.Coxj Gi ovannaRosone: “Light-weight BWT Construct1n for Very Large StringCollect1ns, ^ Combinatorial Pattern Matching, Lecture Notes in ComputerScienceVolume 6661,2011,pp 219-231
[0014]非專利文獻6:Paolo Ferraginaj Travis Gagiej G1vanniManzin1: “Light-weight Data Indexing and Compress1n in ExternalMemory, ^Algorithmicaj July 2012,Volume 63,Issue 3,pp 707-730.
[0015]非專利文獻7:Kimura Kj Suzuki Y,Sugano S,Koike A: “Computat1n of rankand select funct1ns on hierarchical binary string and its applicat1n togenome mapping problems for short-read DNA sequences,,,J Comput B1l.2009Nov ;16(11):1601-13.
[0016]非專利文獻8:Ge Nong ;Sen Zhang ;Wai Hong Chan ;,"Linear Suffix ArrayConstruct1n by Almost Pure Induced-Sortingj〃Data Compress1n Conference, 2009.DCC ^09.,vol.,n0.,pp.193-202,16-18March 2009

【發(fā)明內(nèi)容】

[0017]發(fā)明要解決的課題
[0018]在上述的下游處理中,為了得到較高的精度需要較大的計算成本,因此不能一并處理從DNA測序器得到的所有前導(dǎo)。因此,利用采用了高效的算法的匹配處理的結(jié)果,在要關(guān)注的基因區(qū)域選擇出認為區(qū)域引起的可能性較高的前導(dǎo)序列,而對這些進行下游解析。
[0019]此外,在另一方面,已知的有:將通過前導(dǎo)長度較長(500堿基程度以上)、前導(dǎo)數(shù)量較少的(100個程度)的毛細管型DNA測序器進行多次解析而得到的前導(dǎo)序列數(shù)據(jù)數(shù)據(jù)庫化,將染色體組內(nèi)所關(guān)注的基因區(qū)域的序列作為查詢進行同源性檢索,對得到的前導(dǎo)序列進行多重比對而進行細菌的識別的方法(專利文獻I)。然而,將人染色體組通過下一代型DNA測序器進行解析時的數(shù)據(jù)量巨大,達到幾十千兆堿基以上,因此在實際運用所能承受的計算時間內(nèi)不能進行同源性檢索。
[0020]在進行人的所有染色體組解析的情況下,前導(dǎo)序列數(shù)據(jù)量多得總序列量達到幾十千兆堿基,因此盡管采用高效的算法,匹配處理的計算成本也較大,從而存在降低該計算成本的問題。
[0021]此外,通過序列錯誤的處理方法在匹配目的地中存在任意性的情況下,在匹配處理中使用探索方法從其中選擇匹配目的地表示產(chǎn)生依存于匹配處理的偏差。存在如下的問題:提供一種避免這樣的探索方法的判斷,無論哪個匹配目的地都能夠等價使用的中立的處理方法。
[0022]當(dāng)前,人的參照染色體組序列除了人白血球抗原(Human LeukocyteAntigen:HLA)區(qū)域等特殊的區(qū)域外,只有一種。但是,如果準(zhǔn)備多種參照染色體組序列,則能夠從中選擇適于患者所屬的人種群的序列而進行更精密的變異解析。對所有前導(dǎo)序列和參照染色體組序列的組合進行匹配處理,因此變更參照染色體組表示重新進行所有的匹配處理。因此,存在如下的問題:分別獨立處理所有前導(dǎo)序列和參照染色體組序列,能夠抑制變換其組合來進行解析時的計算成本的增加。
[0023]本發(fā)明的目的是提供一種至少解決一個上述課題,而能夠降低匹配處理的計算成本或能夠進行中立的處理的數(shù)據(jù)解析裝置及其方法。
[0024]用于解決問題的手段
[0025]為了實現(xiàn)上述目的,在本發(fā)明的具備處理部和存儲部的數(shù)據(jù)解析裝置中,存儲部存儲將染色體組序列數(shù)據(jù)數(shù)據(jù)庫化后的染色體組序列數(shù)據(jù)庫和將前導(dǎo)序列數(shù)據(jù)數(shù)據(jù)庫化后的前導(dǎo)序列數(shù)據(jù)庫,處理部根據(jù)特定的解析對象的染色體組區(qū)域的序列來選擇檢索用堿基序列即關(guān)鍵序列;求出位于如導(dǎo)序列數(shù)據(jù)庫中的關(guān)鍵序列的株度;提取包含位于如導(dǎo)序列數(shù)據(jù)庫中的關(guān)鍵序列的前導(dǎo)序列數(shù)據(jù),比較提取出的前導(dǎo)序列數(shù)據(jù)與染色體組區(qū)域的序列來進行數(shù)據(jù)解析。
[0026]此外,為了實現(xiàn)上述目的,在本發(fā)明的數(shù)據(jù)解析裝置的處理部的數(shù)據(jù)解析方法中,使用將染色體組序列數(shù)據(jù)以能夠檢索的形式數(shù)據(jù)庫化后的染色體組序列數(shù)據(jù)庫和將前導(dǎo)序列數(shù)據(jù)以能夠檢索的形式數(shù)據(jù)庫化后的前導(dǎo)序列數(shù)據(jù)庫;根據(jù)特定的解析對象的染色體組區(qū)域的序列來選擇檢索用堿基序列即關(guān)鍵序列;求出位于前導(dǎo)序列數(shù)據(jù)庫中的關(guān)鍵序列的深度;提取包含位于前導(dǎo)序列數(shù)據(jù)庫中的關(guān)鍵序列的前導(dǎo)序列數(shù)據(jù),比較提取出的前導(dǎo)序列數(shù)據(jù)與染色體組區(qū)域的序列來進行數(shù)據(jù)解析。
[0027]發(fā)明效果
[0028]根據(jù)本發(fā)明的解析裝置及其方法,能夠抑制計算成本。此外,不會發(fā)生依存于處理方法的偏差,而能夠進行中立的處理。
【附圖說明】
[0029]圖1是表示實施例1的用于進行變異解析的處理順序的流程圖。
[0030]圖2是用于說明實施例1的通過序列比較來判定有無變異的方法的說明圖。
[0031]圖3是表示實施例1的根據(jù)MLU和深度來推定有無變異的方法的流程圖。
[0032]圖4是對實施例1的由長度不一的多個前導(dǎo)序列構(gòu)成的數(shù)據(jù)定義被一般化的Burrows-Wheeler 變換(BWT)的說明圖。
[0033]圖5 是表不實施例1 的使用 SLCP (sorted list of cyclic permutat1ns,循環(huán)序列分類表)來計算字符串w的深度D(w)的方法的說明圖。
[0034]圖6是說明實施例1的利用BWT時所使用的輔助函數(shù)的說明圖。
[0035]圖7是實施例1的計算針對檢索關(guān)鍵序列的深度的流程圖。
[0036]圖8是表不實施例1的將包含關(guān)鍵序列的所有如導(dǎo)序列根據(jù)位于關(guān)鍵序列的左方的堿基進行分類來求出相應(yīng)的前導(dǎo)序列的數(shù)量的方法的流程圖。
[0037]圖9是表示實施例1的BWT的計算方法的流程圖。
[0038]圖10是表示實施例1的從舊字符串向新字符串的轉(zhuǎn)記方法的說明圖。
[0039]圖11是表示實施例1的染色體組序列DB和前導(dǎo)序列DB的結(jié)構(gòu)的說明圖。
[0040]圖12是表示實施例1的染色體組坐標(biāo)X處的MLU值L (x)的計算方法的流程圖。
[0041]圖13是表示實施例2的從所關(guān)注的基因區(qū)域中,根據(jù)MLU和深度來
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1