亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種系統(tǒng)進化樹的重建方法

文檔序號:6399316閱讀:1396來源:國知局
專利名稱:一種系統(tǒng)進化樹的重建方法
技術(shù)領(lǐng)域
本發(fā)明屬于應(yīng)用生物信息學技術(shù)領(lǐng)域,具體涉及一種系統(tǒng)進化樹的重建方法,主要應(yīng)用于生物系統(tǒng)發(fā)育、生物條形碼、生物物種鑒定等相關(guān)領(lǐng)域的針對大數(shù)據(jù)的系統(tǒng)發(fā)育樹重建并可視化。
背景技術(shù)
系統(tǒng)發(fā)育樹也稱系統(tǒng)進化樹(phylogenetic tree),它是用類似樹狀分支的圖來表示各種(類)生物之間的親緣關(guān)系,通過對生物序列的研究來推測物種的進化歷史。主要是通過DNA序列、蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu)等來構(gòu)建系統(tǒng)發(fā)育樹,或者通過蛋白質(zhì)結(jié)構(gòu)比較包括剛體結(jié)構(gòu)疊合和多結(jié)構(gòu)特征比較等方法建立結(jié)構(gòu)進化樹。研究系統(tǒng)發(fā)育樹的目的可以重建祖先序列P性狀;估計來自于同一個祖先的不同生物之間的分歧時間;識別和疾病關(guān)聯(lián)的突變等?;诜肿拥倪M化研究已經(jīng)應(yīng)用到許多方面,如基因進化、物群劃分、交配系統(tǒng)、物種鑒定、父親身份測 試,環(huán)境監(jiān)視以及已經(jīng)轉(zhuǎn)移物種的疾病源的研究等(Francesca
D.Ciccarellij et al.,"Toward Automatic Reconstruction of a Highly Resolved Treeof Life, "SCIENCE,vol.311,p.1283,2006.;1.Wapinskij et al.,"Automatic genome-widereconstruction of phylogenetic gene trees, ^Bioinformaticsj vol.23,pp.1549-1558,2007.;Zhen Mengjet al.,^Construction of the Platform forPhylogenetic Analysis, ^Data Driven e-Science,pp.507-514,2011.)。以生物材料樣本快速鑒定為目的的DNA條形碼技術(shù)(Schindel,D.andS.E.Miller, DNA barcoding a useful tool for taxonomists.Nature, 2005.)的發(fā)展業(yè)已積累了豐富的數(shù)據(jù),如按照 BOLD system (Schindel, D.and S.E.Miller, DNA barcodinga useful tool for taxonomists.Nature,2005.) 2012 年 11 月份的數(shù)據(jù),以動物為例,如選用COI片段,其樣本測序序列的量為247,479,是其在傳統(tǒng)的描述的動物物種120,612的2倍多,差不多每個動物物種有2條甚至更多的序列信息;其從國際核算序列數(shù)據(jù)庫聯(lián)盟(International Nucleotide Sequence Database Collaboration, INSDC)成員之一的 GenBank (Michael Y.Galperin.The Molecular Biology DatabaseCollection: 201lupdate [J].Nuc1.Acids Res.2011,35:D3_D4)提取檢索的初始相關(guān)序列也達625,341之多,并且每天也有將近200條的釋放量。數(shù)據(jù)的積累為包含所有生物物種的系統(tǒng)進化樹的構(gòu)建做好了數(shù)據(jù)上的準備,也為怎樣快速確定樣本序列在系統(tǒng)發(fā)育樹上的位置提出了需求。然而,現(xiàn)在的系統(tǒng)進化樹的重建方法往往受到數(shù)據(jù)數(shù)量的限制,在兆的數(shù)量級上進行計算時,甚至有些方法根本不能完成,即使有些方法用上并行的方法、在集群式計算機上進行計算也需要幾天甚至上月的時間才能完成(S.Guindon,et al.,〃New Algorithms and Methodsto Estimate Maximum-Likelihood Phylogenies:Assessing the Performance ofPhyML3.0,"Systematic Biology, vol.59,pp.307-321,2010.;A.Stamatakisj"RAxML-V1-HPC:maximum likelihood-based phylogenetic analyses with thousandsof taxa and mixed models, ^Bioinformatics,vol.22,pp.2688-2690,2006.;Μ.N.Price, et al.,〃FastTree2〃Capproximately maximum-1ikelihood trees for largealignments, ^PLoS One, vol.5, p.e9490, 2010.)。這與系統(tǒng)發(fā)育樹的快速重建及可視化的需求相去甚遠,遠不能滿足在web交互的可忍受時間范圍內(nèi)去快速確定自測的樣本序列在以目標mark (Barcode)為度量標準的大樹上的位置并可視化。所以就需要提供一種針對大數(shù)據(jù)(兆以上的)的系統(tǒng)發(fā)育樹重建方法,在web交互環(huán)境下,滿足物種快速鑒定、系統(tǒng)發(fā)育樹的自動增長等的需要。

發(fā)明內(nèi)容
從上面的分析可以看出,隨著數(shù)據(jù)量的積累,特別是DNA條形碼技術(shù)的發(fā)展,數(shù)據(jù)量的不斷攀升,以兆級以上單位序列進行系統(tǒng)發(fā)育樹重建的要求越來越普遍,并且基于Web交互的要求去快速重建系統(tǒng)發(fā)育樹以確定自測的樣本序列在以目標mark (Barcode)為度量標準的大樹上的位置并可視化的需求也越來越突出。本發(fā)明提供一種基于初始大樹構(gòu)建和同源相似性比對的算法相結(jié)合的快速系統(tǒng)進化樹重建方法。本發(fā)明的系統(tǒng)進化樹的重建方法,其步驟包括:A、基礎(chǔ)數(shù)據(jù)集組織:選定特定的序列標記片段(Mark)進行檢索并篩選相關(guān)的序列數(shù)據(jù)并組織成.fasta格式文件,接下來執(zhí)行步驟B、C ;B、基礎(chǔ)系統(tǒng)發(fā)育樹構(gòu)建:對步驟A所述.fasta文件進行基礎(chǔ)系統(tǒng)發(fā)育樹的構(gòu)建并生成.XML系統(tǒng)發(fā)育樹文件,接下來執(zhí)行步驟D ;C、基礎(chǔ) BLAST (Basic Local Alignment Search Tool)庫構(gòu)建:對步驟 A 所述.fasta文件進行格式化并構(gòu)建BLAST庫,接下來執(zhí)行步驟D ;
D、系統(tǒng)發(fā)育樹重 建:對綜合基礎(chǔ)數(shù)據(jù)集和新輸入的自測序列數(shù)據(jù)進行系統(tǒng)發(fā)育樹的重建并生成.XML文件,接下來執(zhí)行步驟E ;E、系統(tǒng)發(fā)育樹的可視化:對步驟D重構(gòu)的系統(tǒng)發(fā)育樹進行可視化。上述步驟A中基礎(chǔ)數(shù)據(jù)集的組織是針對特定序列片段標記(Mark)的數(shù)據(jù)組織;其Mark可以是核酸序列片段,也可以是蛋白序列片段;在D中新輸入的序列片段也是相對應(yīng)的同種標記的序列。上述步驟B中基礎(chǔ)系統(tǒng)發(fā)育樹的構(gòu)建方法為:(I)對步驟A所述的.fasta文件進行多重序列比對(Multiple sequence alignment)并生成.aln文件;(2)對所述的.aln文件進行系統(tǒng)發(fā)育樹的構(gòu)建(Phylogenetic tree construction)并生成.tree文件;(3)對所述的.tree文件進行格式轉(zhuǎn)換(Format conversion)并生成XML格式文件。在第(2)步系統(tǒng)發(fā)育樹的構(gòu)建之前,如選用的步驟A所述生成的.fasta數(shù)據(jù)集中的序列長度差異較大,需要進行比對后文件的修剪(trim)。上述步驟C中基礎(chǔ)BLAST庫的構(gòu)建是針對A所述的.fasta文件進行格式化并生成BLAST算法的庫文件。上述步驟D中系統(tǒng)發(fā)育樹的重建方法為:⑴由自測序列數(shù)據(jù)作為輸入,由步驟C所述的BLAST庫作為比對的標準庫,進行BLAST同源相似性比對,得到比對報告;(2)對比對報告進行分析并提取物種學名(Scientifc name)相關(guān)信息;(3)生成自測序列數(shù)據(jù)代表的樣本物種的插入節(jié)點數(shù)據(jù);(4)檢索步驟B中所述的.XML文件,確定插入位置并插入(3)中所述的節(jié)點數(shù)據(jù),從而重建完成系統(tǒng)發(fā)育樹文件。本發(fā)明中的自測序列數(shù)據(jù)是.fasta格式;自測序列數(shù)據(jù)代表的樣本物種的插入節(jié)點數(shù)據(jù)是.XML格式;重建完成的系統(tǒng)發(fā)育樹文件為XML格式。上述步驟E所述的系統(tǒng)發(fā)育樹的可視化,是針對步驟D中所述系統(tǒng)發(fā)育樹重建的XML進行可視化,并標注自測序列數(shù)據(jù)代表的樣本物種在整棵大樹中的位置信息。本發(fā)明的基于初始大樹構(gòu)建和同源相似性比對的算法相結(jié)合的快速系統(tǒng)進化樹重建方法,可以針對大數(shù)據(jù)(兆以上的)的單位序列進行系統(tǒng)發(fā)育樹的重建,并基于Web交互的要求去快速重建系統(tǒng)發(fā)育樹以確定自測的樣本序列在以目標mark (Barcode)為度量標準的大樹上的位置,能夠在web交互環(huán)境下,滿足物種快速鑒定、系統(tǒng)發(fā)育樹的自動增長等的需要。


圖1是實施例中系統(tǒng)進化樹的重建方法的工作流程圖;圖2是實施例中針對陸地植物系統(tǒng)發(fā)育分析所需MatK基因(rbcL)進行系統(tǒng)發(fā)育樹重建的處理流程圖。
具體實施例方式
下面通過具體實施例,并配合附圖,對本發(fā)明做進一步的說明。參見附圖1,本實施例所述的系統(tǒng)進化樹的重建方法的具體過程為:A、基礎(chǔ)數(shù)據(jù)集組織:本實施例選定特定的序列標記為rbcL的核酸序列片段序列數(shù)據(jù)并組織成.fasta格式文件,接下來執(zhí)行步驟B、C ;B、基礎(chǔ)系統(tǒng)發(fā)育樹構(gòu)建:對步驟A所述.fasta文件進行基礎(chǔ)系統(tǒng)發(fā)育樹的構(gòu)建生成.XML系統(tǒng)發(fā)育樹文件,接下來執(zhí)行步驟D ;C、基礎(chǔ)BLAST庫構(gòu)建:對步驟A所述.fasta文件進行格式化構(gòu)建BLAST庫,接下來執(zhí)行步驟D ;D、系統(tǒng)發(fā)育樹重建:對綜合基礎(chǔ)數(shù)據(jù)集和新輸入的自測序列數(shù)據(jù)進行系統(tǒng)發(fā)育樹的重建并生成.XML文件,接下來執(zhí)行步驟E ;E、系統(tǒng)發(fā)育樹的可視化:對步驟D重構(gòu)的系統(tǒng)發(fā)育樹進行可視化。本實施例所述步驟A的具體過程為:首先,其初始數(shù)據(jù)檢索通過調(diào)用NCBI (National Center for BiotechnologyInformation)的 API 得到,其檢索詞是:(rbcL[Gene Name]AND^Embryophyta" [Organism])AND〃ddbj embl genbank〃 [Filter],得到相關(guān)的數(shù)據(jù)集;隨后,通過GSQCT (Zhen Meng, Jianhui Li, Yunchun Zhou, Wei Cao, XiaoXiao, Jing Zhao, Hui Dong and Shouzhou Zhang, 〃GSQCT:A solution to screening genesequences for phylogenetics analysis, ^20129th International Conference on FuzzySystems and Knowledge Discovery, vol.6,pp.2941-2945,2012.)的方法進行篩選,參數(shù)設(shè)置是:(1)目標序列?丨〈0.01(丨=隊1 ,1^,5,¥,吣;并且(2)目標基因序列6個閱讀框檢測不含有“TAG”、“TAA”、“TGA”任一字符串;并且(3)blap的Identities>93% ;設(shè)定閥值evalue<l.0X 10 10 ;
最后,調(diào)整相應(yīng)的基礎(chǔ)數(shù)據(jù)集為fasta格式,其fasta格式的文件頭如表I所示。本實施例所述步驟B的具體過程為:(I)對A所述的.fasta文件應(yīng)用muscle3.8.31(Edgar, R.C.,“MUSCLE:a multiplesequence alignment method with reduced time and space complexity,,,BMC Bioinformatics, vol.5, pp.113, 2004.)進行多重序列比對(Multiple sequence alignment)并生成.aln文件,其.aln文件格式示例如表2所示;(2)對所述的.aln 文件應(yīng)用 FastTree2 (Μ.N.Price, e tal.,〃FastTree2〃Capproximately maximum-1ikelihood trees for largealignments, ^PLoS One, vol.5, p.e9490, 2010.)進行系統(tǒng)發(fā)育樹的構(gòu)建(Phylogenetictree construction)并生成.tree文件,其.tree文件格式示例如表3所示;(3)通過調(diào)用 Archaeopteryx0.954beta (Μ.V.Han andC.M.Zmasek, "phy1XML:XML for evolutionary biology and comparativegenomics, "BMC Bioinformatics, vol.10, 0ct272009.)中的格式轉(zhuǎn)換模塊對所述的.tree文件進行格式轉(zhuǎn)換(Format conversion)并生成XML格式文件,其XML文件格式示例如表4所示。本實施例在第(2)步選用的A所述生成的.fasta數(shù)據(jù)集中的序列長度差異不大,不再進行比對后文件的修剪(trim);本實施例所述的步驟C的具體過程為:針對A所述的.fasta文件進行應(yīng)用Megablast包中formatdb命令進行格式化并生成BLAST算法的庫文件(Altschul,StephenF., Thomas L.Madden, Alejandro A.Schaffer, JinghuiZhang, Zheng Zhang, Webb Miller, and David J.Lipman (1997),"Gapped BLAST andPS1-BLAST: a new generation of protein database searchprograms〃,Nucleic AcidsRes.25:3389-3402.)。本實施例所述步驟D的具體過程為:(I)以自測序列數(shù)據(jù)作為輸入,以C所述的BLAST庫作為比對的標準庫,應(yīng)用Megablast進行BLAST同源相似性比對;(2)對比對報告進行分析并提取物種學名(Scientific name)相關(guān)信息;(3)生成自測序列數(shù)據(jù)代表的樣本物種的插入節(jié)點數(shù)據(jù),其示例格式如表5所示;(4)檢索步驟B中所述的.XML文件確定插入位置并插入(3)中所述的節(jié)點數(shù)據(jù)而重建完成系統(tǒng)發(fā)育樹文件。本實施例中的自測序列是.fasta格式;自測序列數(shù)據(jù)代表的樣本物種的插入節(jié)點數(shù)據(jù)是.XML格式;重建完成的系統(tǒng)發(fā)育樹文件為XML格式。本實施例所述步驟E的具體過程為:應(yīng)用Archaeopteryx0.954beta針對D中所述系統(tǒng)發(fā)育樹重建的XML進行可視化并標注自測序列數(shù)據(jù)代表的樣本物種在整棵大樹中位置等信息。表1.fasta格式的文件頭示例文件:.fasta
說明:其fasta文件名字的規(guī)定格式為:“々ACCESSION Scientific Name ”
示例:
>J0592631 Marsilea defiexa
atcgattgacctattacactcccgactatcaggtctcagaccatgatatcttggcagcgtttagaatgaccccgcaacccggagtaccagctgaggaagctgg
agctgcaglagclgcagaaicllctacagglacUggactaccglatggacggacggactlaccaglcllgaccgciacaaaggiagatgclacgalatcgaacccgttgccggagaggaaaaee 紐 tacattgcatotgtagcttacccettggatetatttg 浦 gagggttctgttaecaacatgttcac 攸atttggtttcaaggctctacgtgctcttcgactagaagatcttcgaatccctcctgcttattccaaaactttccttggaccccctcacggtatccaggttgaaagggataaactgaacaaatatggacgtcctttatiaggatgtaccatcaagccaaaactaggcttatctgctaaaaactaiggtagagcigtttacgaatgtctt>JQ594499 Zamia neuiOphyliidia
ggcagcgttccgagtaactcctcaacctggggtgcccgctgaggaagcgggggctgcagtagctgctgaatcttccactggtacatggaccactgtttggac
cgatgggcttaccagtcttgatcgttacaaggggcgatgctatgacatcgagcccgttcctggggaagagactcaatttattgcctatgtagcctaccctttaga
cctctttgaagaaggltctgttactaacatgttcacttccattgtaggtaatgtatttggattcaaagccctacgagctaiBcgcctagaagatttgcgaattcctcct
gcttattccaaaactttccaaggtccacctcatggtatccaagttgaaagagataagttaaacaaatatggccgtcccctattgggatgtaccattaaaccaaaat
tgggtttatctgccaaaaactatggtagagcagttlacgaagtcctt
>JQ592397 Limnocharis laforestii
Ggtgttggattccaagcaggtgtaaaagattacaaattaacttattatactcctgaatatcaaacaaaagatactgatatcttggcagcattccgagtaaccccgc
aacccggggttccacctgaggaagctggggccgcagtagccgccgaatcctcgaccggtacatggacaactgtgtggactgatggacttactagtctggat
c 講 acaaaggacgatgctaccacatcgagcctgttattggagaggaaaatcaata 籠 tgftatgtagctetcctttggacctttttgaagaag
aacatgtttacttccattgtgggtaatgtatttggctttaaagctctacgagctctacgtttagaggatttgcgaattccttcttcttattccaaaactticcaaggccca
cctcacggtaUcaagttgaaagagataaattgaataaataeggacgtcceetattgggatgtaetattaaaccgaaattgggattatcegegaaaaaetaeggt
cgggcggtttatgaatgtct
t......(其它序列數(shù)據(jù))表2..aln文件格式示例
權(quán)利要求
1.一種系統(tǒng)進化樹的重建方法,其步驟包括: A、選定特定的序列標記片段進行檢索,并篩選相關(guān)的序列數(shù)據(jù)組織成.fasta格式文件; B、對步驟A所述.fasta文件進行基礎(chǔ)系統(tǒng)發(fā)育樹的構(gòu)建并生成.XML系統(tǒng)發(fā)育樹文件; C、對步驟A所述.fasta文件進行格式化并構(gòu)建BLAST庫; D、根據(jù)所述.XML系統(tǒng)發(fā)育樹文件和所述BLAST庫,對綜合基礎(chǔ)數(shù)據(jù)集和新輸入的自測序列數(shù)據(jù)進行系統(tǒng)發(fā)育樹的重建并生成.XML文件; E、對重建的系統(tǒng)發(fā)育樹進行可視化。
2.按權(quán)利要求1所述的方法,其特征在于:所述序列標記片段是核酸序列片段或者蛋白序列片段。
3.按權(quán)利要求1所述的方法,其特征在于,步驟B所述基礎(chǔ)系統(tǒng)發(fā)育樹的構(gòu)建方法為: (1)對步驟A所述.fasta文件進行多重序列比對并生成.aln文件; (2)對所述.aln文件進行系統(tǒng)發(fā)育樹的構(gòu)建并生成.tree文件; (3)對所述.tree文件進行格式轉(zhuǎn)換并生成XML格式文件。
4.按權(quán)利要求3所述的方法,其特征在于:對于序列長度差異較大的.fasta數(shù)據(jù)集,在所述多重序列比對后進行文件的修剪。
5.按權(quán)利要求1所述的方法,其特征在于:步驟C所述構(gòu)建BLAST庫是對所述.fasta文件進行格式化并生成BLAST算法的庫文件。
6.按權(quán)利要求1所述的方法,其特征在于,步驟D所述系統(tǒng)發(fā)育樹的重建方法為: (1)以所述自測序列數(shù)據(jù)作為輸入,以所述BLAST庫作為比對的標準庫,進行BLAST同源相似性比對,得到比對報告; (2)對比對報告進行分析并提取物種學名相關(guān)信息; (3)生成自測序列數(shù)據(jù)代表的樣本物種的插入節(jié)點數(shù)據(jù); (4)檢索步驟B中所述的.XML文件,確定插入位置并插入所述節(jié)點數(shù)據(jù),從而重建完成系統(tǒng)發(fā)育樹文件。
7.按權(quán)利要求6所述的方法,其特征在于:所述自測序列數(shù)據(jù)是.fasta格式,所述樣本物種的插入節(jié)點數(shù)據(jù)是.XML格式,重建完成的系統(tǒng)發(fā)育樹文件為XML格式。
8.按權(quán)利要求6所述的方法,其特征在于:應(yīng)用Megablast進行BLAST同源相似性比對。
9.按權(quán)利要求1所述的方法,其特征在于:在所述可視化時標注所述自測序列數(shù)據(jù)代表的樣本物種在整棵大樹中位置信息。
10.按權(quán)利要求1所述的方法,其特征在于:應(yīng)用Archaeopteryx軟件進行所述可視化。
全文摘要
本發(fā)明屬于應(yīng)用生物信息學技術(shù)領(lǐng)域,涉及一種系統(tǒng)進化樹的重建方法。該方法首先選定特定的序列標記片段進行檢索并篩選相關(guān)的序列數(shù)據(jù)并組織成.fasta格式文件作為基礎(chǔ)數(shù)據(jù)集;隨后對基礎(chǔ)數(shù)據(jù)集進行基礎(chǔ)系統(tǒng)發(fā)育樹的構(gòu)建并生成.XML系統(tǒng)發(fā)育樹文件,同時構(gòu)建基礎(chǔ)BLAST庫;然后綜合基礎(chǔ)數(shù)據(jù)集和新輸入的自測序列數(shù)據(jù)進行系統(tǒng)發(fā)育樹的重建并生成.XML文件,然后可視化和標注自測序列數(shù)據(jù)代表的樣本物種在整棵大樹中的位置等信息。該方法是一種基于初始大樹構(gòu)建和同源相似性比對的快速算法相結(jié)合的方法,可以用于生物系統(tǒng)發(fā)育、生物條形碼、生物物種鑒定等相關(guān)領(lǐng)域的大系統(tǒng)發(fā)育樹重建和web應(yīng)用。
文檔編號G06F19/14GK103093118SQ20131004951
公開日2013年5月8日 申請日期2013年2月7日 優(yōu)先權(quán)日2013年2月7日
發(fā)明者黎建輝, 孟珍, 周園春, 邵靖, 曹巍 申請人:中國科學院計算機網(wǎng)絡(luò)信息中心
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1