亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種蛋白質(zhì)亞葉綠體多位置預(yù)測方法

文檔序號:9687801閱讀:924來源:國知局
一種蛋白質(zhì)亞葉綠體多位置預(yù)測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于蛋白質(zhì)亞細胞位置定位預(yù)測領(lǐng)域,尤其設(shè)及一種融合位置間關(guān)系與位 置相關(guān)特征的蛋白質(zhì)亞葉綠體多位置預(yù)測方法。
【背景技術(shù)】
[0002] 葉綠體(Chloroplast)是大部分綠色植物細胞中的細胞器,也存在于某些真核生 物體中,如海藻。葉綠體的主要功能是執(zhí)行光合作用,吸收存儲太陽的光能,轉(zhuǎn)化成化學能, 并且釋放氧氣。除了光合作用外,它們也負責合成植物所需的幾乎所有脂肪酸和參與植物 的免疫反應(yīng)。位于葉綠體中的蛋白質(zhì)在運些生物過程中起到十分重要的作用,并且在不同 的生物過程中扮演不同的角色,具有不同的功能。由于運些葉綠體蛋白質(zhì)的功能和它們的 亞葉綠體位置有十分密切的關(guān)系,因此首先識別出它們的亞葉綠體位置對于了解它們的功 能很有幫助。
[0003] 過去,研究人員主要專注于在細胞級別預(yù)測蛋白質(zhì)的位置,提出了大量的方法。運 些方法分別從W下4個方面推進了該領(lǐng)域的發(fā)展:
[0004] (1)不斷拓寬了細胞位置的覆蓋范圍,使亞細胞位置預(yù)測工具的實用性大大增強。 最早的一些工作僅覆蓋很少的位置信息。例如,化kashima等人(Nakashima,H. ,Nishikawa, Κ.Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies. Journal of Molecular Biology,1994, 238(1): 54-61)的研究僅僅覆蓋了2個位置信息,Cedano等人(Cedano,J.,Aloy,P.,P' erez-Pons,J.A.,et al.Relation between amino acid composition and cellular location of proteins.Journal of Molecular Biology, 1997,266:594-600)的工作覆蓋了5個位置 信息。隨著越來越多的蛋白質(zhì)數(shù)據(jù)可用,位置數(shù)量已經(jīng)增加到了 22個。
[0005] (2)大大提高了預(yù)測的準確率。研究人員主要從兩個方面入手,一是從蛋白質(zhì)序列 中提取具有高度判別能力的特征,二是選用和開發(fā)泛化能力強大的分類器。對于特征提取, 首先采用的是氨基酸組成,然后畑〇u(Chou,K.C.Prediction of protein cellular attributes using pseudo-amino acid composition.Proteins: Structure.Function, and Bioinformatics,2001,43(3): 246-255)又提出了偽氨基酸組成,加入了序列順序影 響。此后,基于畑OU的偽氨基酸組成概念,大量的變體被開發(fā)出來,比如,考慮序列進化信 息,功能域組成,基因本體信息。除了提取特征W外,大量的機器學習方法被應(yīng)用到該領(lǐng)域, 最常用的有kNN及其變體,SVM等。
[0006] (3)由于不同物種間蛋白質(zhì)序列和細胞位置間的差異,比如,葉綠體只存在于植物 細胞中,而人類等其他動物細胞中卻沒有,因此,有必要為不同的物種開發(fā)專口的預(yù)測器, W避免得到無意義的預(yù)測結(jié)果。目前,已經(jīng)出現(xiàn)不少的物種專有的預(yù)測器,W化OU和化en開 ^^tlCel l-Ploc(Chou ,Κ. C. , Shen ,Η. B . Cel 1-PLoc : a package of Web servers for predicting subcellular localization of proteins in various organisms.Nature Protocols ,2008,3(2) :153-162)最為著名。
[0007] (4)研究表明,有大量的蛋白質(zhì)定位于多個細胞位置,參與執(zhí)行不同的生物功能, 運些蛋白質(zhì)對于制藥工程和基礎(chǔ)研究有很重要的意義。因此,開發(fā)出能夠預(yù)測多個細胞位 置的方法將十分必要。已經(jīng)有一些方法可W用于預(yù)測蛋白質(zhì)的多亞細胞位置。
[0008] 隨著對細胞中細胞器研究的深入,研究人員發(fā)現(xiàn)了大量的細胞器亞結(jié)構(gòu),比如,細 胞核中包含核染色質(zhì)(chromatin)、異染色質(zhì)化eterochromatin),核被膜(nuclear envelope)、核仁(nucleolus)等亞結(jié)構(gòu);線粒體中包含內(nèi)膜(inner membrane)、外膜(outer membrane)等亞結(jié)構(gòu);葉綠體中包含基質(zhì)(shoma)、類囊體(Thylakoid)等亞結(jié)構(gòu)。為了更加 深入了解蛋白質(zhì)的功能,很有必要確定蛋白質(zhì)在細胞器級別的具體位置。從最近發(fā)布的 化1口'〇1邸/5*133斗'〇1數(shù)據(jù)庫(的16日36 2013_05)了解到,共有14,408個葉綠體蛋白質(zhì),標 注有亞葉綠體位置的蛋白質(zhì)有7,367個,占到總?cè)~綠體蛋白質(zhì)的7,367/14,408 = 51.1 %,而 運些亞葉綠體位置標注中,經(jīng)過實驗驗證的共有6,955個,占到總?cè)~綠體蛋白質(zhì)的6,955/ 14,408 = 48.3%,也就是說,大概一半W上的葉綠體蛋白質(zhì)都沒有明確的亞結(jié)構(gòu)信息標注。 細胞器是相對于細胞來說更微觀的結(jié)構(gòu)單位,因而實驗確定蛋白質(zhì)的亞細胞器位置將更加 困難和耗時。隨著葉綠體蛋白組項目的快速發(fā)展,葉綠體蛋白質(zhì)的數(shù)量和它們的功能之間 的差距將越來越大。為了彌補運一差距,同時由于實驗測定亞細胞器級的位置更加困難,十 分有必要開發(fā)計算預(yù)測方法來預(yù)測蛋白質(zhì)的亞葉綠體位置。
[0009] 近年來,已經(jīng)有一些預(yù)測方法可W預(yù)測蛋白質(zhì)的亞-亞細胞位置,比如,亞細胞核 位置的預(yù)測(Shen,H.B. ,Chou,K.C.Predicting protein subnuclear location with optimized evidence-theoretic K-nearest classifier and pseudo amino acid composition.Biochemical and Biophysical Research Communications,2005,337(3): 752-756 ),亞線粒體位置的識別(Zeng,Y.H.,加 o,Y.Z.,Xiao, R.Q.,et al. Using the augmented chou's pseudo amino acid composition for predicting protein submitochondria locations based on auto covariance 曰ppro曰ch.Journ曰1 of Theoretical Biology,2009,259(2):366-372)。具體到亞葉綠體位置預(yù)測,第一個工作由 Du等人(Du,P. ,C曰o,S. ,Li,Y.SubChlo:predictin邑 protein subchloropl曰st locations with pseudo-amino acid composition and the evidence-theoretic K-nearest nei曲bo;r(ET-K順)algorithm. Journal of Theoretical Biology,2009,261(2) :330-335) 于2009年完成。他們開發(fā)了一個基于偽氨基酸組成和ET-K順算法的亞葉綠體位置預(yù)測器。 此后,又有一些其他的研究人員在該領(lǐng)域做了一定的工作。但是,現(xiàn)有的工作都存在W下一 個重大的缺點,即已有工作的預(yù)測方法只能對僅包含單亞葉綠體位置的蛋白質(zhì)數(shù)據(jù)集進行 建模,無法對同時包含單亞葉綠體位置的蛋白質(zhì)和多亞葉綠體位置的蛋白質(zhì)數(shù)據(jù)集進行有 效地建模,進而導致已有工作的預(yù)測模型只能對待測蛋白質(zhì)預(yù)測出一個亞葉綠體位置,而 目前已知存在大量的蛋白質(zhì)同時有多個亞葉綠體位置,因此,迫切需要設(shè)計出能夠同時預(yù) 測出蛋白質(zhì)的多個亞葉綠體位置的預(yù)測方法。

【發(fā)明內(nèi)容】

[0010] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的無法同時預(yù)測蛋白質(zhì)的多個亞葉綠體位置 的缺點,提出一種融合位置間關(guān)系與位置相關(guān)特征的蛋白質(zhì)亞葉綠體多位置預(yù)測方法。
[0011] 本發(fā)明是運樣實現(xiàn)的,一種融合位置間關(guān)系與位置相關(guān)特征的蛋白質(zhì)亞葉綠體多 位置預(yù)測方法,包括w下步驟:
[0012] 步驟1、對于待預(yù)測的蛋白質(zhì)序列和訓練數(shù)據(jù)集,基于蛋白質(zhì)的氨基酸序列信息, 采用偽氨基酸組成(PseAAC)方法,抽取出待預(yù)測的蛋白質(zhì)序列和訓練數(shù)據(jù)集中所有蛋白質(zhì) 序列的特征向量,從而構(gòu)成待預(yù)測樣本集和訓練樣本集;
[0013] 步驟2、基于步驟1所構(gòu)建的原始訓練樣本集,分別為每個亞葉綠體位置構(gòu)建新的 訓練樣本集。在每個亞葉綠體位置所對應(yīng)的新訓練樣本集中,把屬于該亞葉綠體位置的蛋 白質(zhì)標記為正樣本,不屬于該亞葉綠體位置的蛋白質(zhì)標記為負樣本;
[0014] 步驟3、基于步驟2所構(gòu)建的針對每個亞葉綠體位置的新訓練樣本集,分別訓練一 個支持向量機(SVM)預(yù)測器;
[0015] 步驟4、對于步驟2構(gòu)建的每個亞葉綠體位置所對應(yīng)的新訓練樣本集的每個蛋白質(zhì) 樣本,除了該新訓練樣本集所對應(yīng)的亞葉綠體位置W外,把其他亞葉綠體位置對于該蛋白 質(zhì)樣本的歸屬值追加到該蛋白質(zhì)樣本的特征向量中,蛋白質(zhì)樣本屬于某亞葉綠體位置,歸 屬值設(shè)為1,否則設(shè)為-1,W擴展蛋白質(zhì)樣本的特征空間,基于此規(guī)則,分別更新每個亞葉綠 體位
當前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1