結(jié)合二級質(zhì)譜和機器學習算法的蛋白質(zhì)組無標記定量方法
【專利摘要】本發(fā)明涉及一種結(jié)合二級質(zhì)譜強度和機器學習算法的蛋白質(zhì)組無標記定量方法,用于蛋白質(zhì)組水平的絕對和相對定量分析。該方法首先需要在液相色譜-串級質(zhì)譜系統(tǒng)上分析用于建立訓練數(shù)據(jù)集的蛋白質(zhì)組實際樣品的酶解肽段混合物以及待分析的蛋白質(zhì)組樣品的酶解肽段混合物。樣品總量可以通過細胞計數(shù)或測定蛋白濃度得知,根據(jù)上一步算得的百分比和樣品總量即可以計算每一個蛋白的絕對量。將同一個蛋白在不同樣品中的絕對量進行比較即可以獲得該蛋白在不同樣品中的相對定量信息。該方法無論是在絕對定量還是相對定量上都具有良好的準確度。
【專利說明】結(jié)合二級質(zhì)譜和機器學習算法的蛋白質(zhì)組無標記定量方法
【技術領域】
[0001]本發(fā)明屬于基于質(zhì)譜技術的蛋白質(zhì)組學定量方法,具體地涉及了一種結(jié)合二級質(zhì)譜強度和機器學習算法的蛋白質(zhì)組無標記絕對和相對定量方法。
【背景技術】
[0002]基于質(zhì)譜的蛋白質(zhì)組學技術已逐漸由定性轉(zhuǎn)為定量。定量蛋白質(zhì)組學對于疾病生物標志物的發(fā)現(xiàn)等具有重要作用。組學規(guī)模的絕對定量可以讓我們動態(tài)監(jiān)測樣品中的蛋白質(zhì)在時空中的變化情況。目前單個或幾個蛋白質(zhì)的量可以通過加入已知量同位素標記的肽段或蛋白獲得,但蛋白質(zhì)組學規(guī)模的絕對定量仍然只能由無標記的實驗策略結(jié)合新型的計算方法來實現(xiàn)。
[0003]絕對定量的計算方法經(jīng)歷了幾個階段的發(fā)展:從最初基于序列覆蓋率的emPAI方法到基于二級質(zhì)譜圖計數(shù)(SC)的NSAF方法,再到后來基于二級質(zhì)譜中匹配上理論碎片的離子強度加和的SIn方法。但這些方法都沒有考慮到不同性質(zhì)的肽段在液質(zhì)聯(lián)用系統(tǒng)上響應不同的問題。Lu等在2007年發(fā)表了 APEX方法(Lu Peng, Vogel Christine, WangRong, Yao Xin, and Marcotte Edward M, Nat.Biotechnol.,2007,1,117-124),第一次將肽段在液質(zhì)聯(lián)用系統(tǒng)上的響應概率引入到蛋白質(zhì)組絕對定量中。他首先根據(jù)肽段的序列計算每條肽段的不同理化性質(zhì),再結(jié)合肽段在質(zhì)譜上是否被檢測到,利用這些信息構(gòu)建訓練數(shù)據(jù)集,然后用機器學習算法對訓練數(shù)據(jù)集進行訓練并生成預測模型用以預測定量數(shù)據(jù)集中的理論肽段在同一系統(tǒng)上的響應概率,然后將一個蛋白所有理論肽段的響應概率累加作為該蛋白的校正因子。最后采用SC作為定量依據(jù),結(jié)合校正因子、蛋白的鑒定概率和樣品中的蛋白總量計算每個蛋白的絕對量。目前該方法已由Braisted等用 Java 編程語言封裝成軟件,稱之為 APEX Quantitative Proteomics Tool (BraistedJohn, Kuntumalla Srilatha, Vogel Christine, Marcotte Edward, Rodrigues Alan, WangRong, Huang Shih—Ting, Ferlanti Erik, Saeed Alexander, Fleischmann Robert, PetersonScott, Pieper Rembert, BMC Bioinformatics, 2008, 9:529do1:10.1186/1471-2105-9-529)。但是,基于SC的方法存在著各種缺點例如準確度不高、對計數(shù)過小的蛋白難以定量等。Asara(Asara John M, Christofk Heather R,Freimark Lisa M and Cantley LewisC,Proteomics,2008,5,994-999)等發(fā)現(xiàn)采用歸屬于一個蛋白的所有二級質(zhì)譜圖中的全部碎片離子強度加和再除以此蛋白的SC比單純使用SC作為定量依據(jù)能增大定量的線性范圍。但是這種方法沒有考慮肽段在液質(zhì)聯(lián)用系統(tǒng)上的響應差異問題,導致相同量的不同蛋白的計算值差異較大,即定量結(jié)果不夠準確。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是結(jié)合現(xiàn)有方法的優(yōu)點并克服它們各自的缺點,進一步提高定量的準確度。本發(fā)明提供了一種采用二級質(zhì)譜強度作為定量依據(jù)并引入機器學習算法校正不同性質(zhì)的肽段在液質(zhì)聯(lián)用系統(tǒng)上響應差異問題的新方法用于蛋白質(zhì)組水平的絕對和相對定量。相比已有方法,該方法能明顯提高定量的準確度。
[0005]本發(fā)明中的方法包括如下步驟(圖1):
[0006](I)將用于構(gòu)建訓練數(shù)據(jù)集的已知蛋白質(zhì)實際樣品的酶解肽段混合物在液相色譜-串級質(zhì)譜系統(tǒng)上運行獲得原始質(zhì)譜數(shù)據(jù)文件(采用不同廠商的質(zhì)譜儀器所產(chǎn)生的原始數(shù)據(jù)文件格式不一致,例如Thermo公司的RAW文件,Agilent公司的d文件夾等),原始數(shù)據(jù)文件經(jīng)過Mascot數(shù)據(jù)庫搜索(數(shù)據(jù)庫搜索時加入反庫、隨機庫或偽庫序列以控制假陽性率)后獲得樣品中的蛋白列表,以及歸屬于每個蛋白的肽段列表和歸屬于每個肽段的二級質(zhì)譜圖列表,再經(jīng)過Trans Proteomic Pipeline (TPP)處理得到存儲鑒定列表和蛋白鑒定概率的 XML 文件,然后用 SINQ 軟件(Trudgian David C,Ridlova Gabriela, FischerRoman, Mackeen Mukram M, Ternette Nicola, Acuto Oreste, Kessler Benedikt M, ThomasBenjamin, Proteomics, 2011, 14, 2790-2797)中用于計算 PSM 的 q 值的 Perl 源代碼處理XML文件將鑒定結(jié)果的假陽性率(q值即假陽性率)控制到合理范圍內(nèi)即獲得篩選后的蛋白列表及其鑒定概率,同時也包含篩選后的歸屬于每個蛋白的肽段列表和篩選后的歸屬于每個肽段的二級質(zhì)譜圖列表。以篩選后的所有肽段的序列為起點,采用APEX QuantitativeProteomics Tool中用于構(gòu)建訓練數(shù)據(jù)集的Java代碼計算每條肽段的若干個物理化學性質(zhì)并以數(shù)字表示,然后在理化性質(zhì)的后面附上肽段在質(zhì)譜上是否被檢測到(檢測到為Obs,未檢測到為Not),這樣一個包含肽段序列、理化性質(zhì)以及在質(zhì)譜上檢測到與否的列表即是訓練數(shù)據(jù)集(arff文件)。在同一個液相色譜-串級質(zhì)譜系統(tǒng)上運行待分析樣品的酶解肽段混合物,所采用的酶和構(gòu)建訓練數(shù)據(jù)集時使用的酶一致。原始數(shù)據(jù)文件同樣經(jīng)過上述的Mascot數(shù)據(jù)庫搜索、TPP處理和假陽性率控制后獲得篩選后的蛋白質(zhì)鑒定列表,同樣也包括篩選后的歸屬于每個蛋白的肽段序列列表和篩選后的歸屬于每個肽段的二級質(zhì)譜圖列表;
[0007](2)將步驟(I)中獲得的訓練數(shù)據(jù)集arff文件導入機器學習算法Weka工具包中進行預測并生成預測模型(model文件);
[0008](3)米用 APEX Quantitative Proteomics Tool 中用于計算蛋白校正因子的 Java代碼對待分析樣品的蛋白質(zhì)序列數(shù)據(jù)庫fasta文件按照步驟(I)中所采用酶的特異性進行理論酶切獲得理論肽段列表并計算它們的若干個理化性質(zhì),將它們導入步驟(2)中生成的預測模型即可輸出每條理論肽段在該液相色譜-串級質(zhì)譜系統(tǒng)上的響應概率(為一個O到I之間的數(shù)),將一個蛋白所有理論肽段在此液相色譜-串級質(zhì)譜系統(tǒng)上的響應概率累加作為該蛋白的校正因子;
[0009](4)采用Xcalibur軟件(Thermo Fisher公司)將歸屬于每個鑒定到蛋白的所有二級質(zhì)譜中的全部碎片離子強度加和作為定量依據(jù),除以步驟(3)中獲得的校正因子后再乘以蛋白的鑒定概率,然后以其對待分析樣品中的全部鑒定蛋白做歸一化,得到每個蛋白相對于樣品總量的百分比;通過細胞計數(shù)或蛋白濃度測定獲知樣品中的蛋白質(zhì)總量,乘以該百分比即可以算得每個蛋白的絕對量;
[0010](5)對于兩個及以上樣品做蛋白含量的差異分析時,首先需要將每個樣品均進行兩次及以上平行的液相色譜-串級質(zhì)譜分析,采用步驟(1)-(4)描述的方法計算每次平行分析中每個樣品中所有蛋白的絕對量。然后采用Power Law Global Error Model (PLGEM)統(tǒng)計學模型的R工具包在合理的P值(0〈p ( 0.1)下進行差異蛋白的檢測;輸入所有鑒定到的蛋白在多份樣品中多次進樣計算得到的絕對量,PLGEM模型即可判斷哪些蛋白具有顯著性差異,且該顯著性差異正確的概率為(1-P)。
[0011]本發(fā)明具有如下優(yōu)點:
[0012]1.結(jié)合了作為定量依據(jù)的二級質(zhì)譜強度動態(tài)范圍寬和采用機器學習算法校正定量依據(jù)后減小不同肽段在液質(zhì)聯(lián)用系統(tǒng)上響應差異這兩方面的優(yōu)點,獲得更準確的定量結(jié)果O
[0013]2.在搜庫結(jié)果的后處理步驟中加入了采用反庫、隨機庫或偽庫序列控制假陽性率的方法,可以獲得更可靠的鑒定結(jié)果。
[0014]3.此方法不僅可以用于絕對定量,也可結(jié)合PLGEM統(tǒng)計學工具進行差異蛋白檢測即相對定量的分析。
【專利附圖】
【附圖說明】
[0015]圖1為該方法的流程示意圖。
[0016]圖2為UPS2蛋白在LTQ XL和Orbitrap Velos上采用酵母和鼠腦兩個訓練數(shù)據(jù)集訓練得到的定量結(jié)果圖。
[0017]圖3為UPSl蛋白在相對定量的測試樣品D和E中比值的密度分布曲線。
【具體實施方式】
[0018]下面通過實施例對本發(fā)明進行具體描述,有必要在此指出的是本實施例只用于對本發(fā)明進行進一步說明,不能理解為對本發(fā)明保護范圍的限制,該領域的技術熟練人員可以根據(jù)上述發(fā)明的內(nèi)容做出一些非本質(zhì)的改進和調(diào)整。
[0019]實施例1
[0020]1.采用酵母和鼠腦提取蛋白的胰蛋白酶酶解產(chǎn)物作為訓練數(shù)據(jù)集的數(shù)據(jù)來源,分別在一維nano-RPLC-MS/MS系統(tǒng)上運行5次。質(zhì)譜儀為Thermo公司的LTQ XL和OrbitrapVelos。采用購自Sigma公司的UPS2標準蛋白混合物作為定量數(shù)據(jù)集測試方法的效果。UPS2標準蛋白混合物由48個來源于人的標準蛋白混合而成,其濃度跨越6個數(shù)量級,在每個數(shù)量級上有8個性質(zhì)各異的蛋白。將UPS2的胰蛋白酶酶解產(chǎn)物在相同的系統(tǒng)上運行5次。UPS2在柱上的絕對量從5amol到500fmol,跨越6個數(shù)量級。
[0021 ] 將原始數(shù)據(jù)RAW文件用TPP (version4.6)中的msconvert.exe組件轉(zhuǎn)換成mgf格式,再采用Mascot (version2.3.02)數(shù)據(jù)庫搜索引擎對mgf文件進行搜索。搜索三個樣品采用的數(shù)據(jù)庫分別是:(I)酵母:2012年8月31日從Swissprot數(shù)據(jù)庫中下載的酵母序列加上它們的反序列;(2)鼠腦:RAT的IPI數(shù)據(jù)庫3.87版加上它們的反序列;(3)UPS2:48個UPS2蛋白序列加上前述酵母的反序列。對于兩種質(zhì)譜儀的其他搜庫參數(shù)相同的部分還有:只考慮+2、+3及+4價的母離子;固定修飾為C(Carbamidomethylation),可變修飾為M(Oxidation)。針對LTQ XL的母離子質(zhì)量容忍度為2Da而子離子質(zhì)量容忍度為IDa ;針對Orbitrap Velos的質(zhì)量容忍度分別是:母離子IOppm而子離子0.5Da0
[0022]將酵母和鼠腦蛋白5次進樣的搜庫結(jié)果合并,依次經(jīng)過TPP的組件P印tideProphet和ProteinProphet處理,得到未經(jīng)篩選的鑒定結(jié)果;再利用SINQ軟件中的Perl源代碼篩選鑒定結(jié)果,使得搜庫結(jié)果中來源于反序列PSM的q值小于等于1%,即假陽性率小于等于1%。采用APEX Quantitative Proteomics Tool中的源代碼將搜索酵母或鼠腦數(shù)據(jù)時使用的數(shù)據(jù)庫中的全部蛋白序列理論酶切,再選取鑒定結(jié)果中蛋白概率為I且SC >50 (LTQXL)或70 (Orbitrap Velos)酶解產(chǎn)生的理論肽段計算它們的35個物理化學性質(zhì),并結(jié)合它們的鑒定信息構(gòu)建出兩個訓練數(shù)據(jù)集。
[0023]對于UPS2蛋白5次進樣的搜庫結(jié)果,分別進行PeptideProphet和ProteinProphet處理以及采用SINQ軟件的Perl源代碼控制假陽性率后,從最終的導出結(jié)果文件.pep.xml和.prot.xml中獲得歸屬于每個鑒定到蛋白的肽段列表和歸屬于每個肽段的二級質(zhì)譜圖列表。同一個UPS2蛋白至少在3次進樣中被鑒定到則認為是可靠鑒定。鑒定結(jié)果如下:在LTQ XL上共鑒定到22個UPS2蛋白,分布在3個數(shù)量級上,500fmol8個,50fmol8個,5fmol6個;在Orbitrap Velos上共鑒定到30個UPS2蛋白,分布在4個數(shù)量級上:500fmol8 個,50fmol8 個,5fmol8 個,500amol6 個。
[0024]2.采用 Weka Machine Learning Software 的 Java 源代碼對剛才獲得的兩個訓練數(shù)據(jù)集進行訓練,所采用的機器學習算法用weka代碼表示具體是:weka.classifiers, meta.CostSensitiveClassifier-cost-matrix " [cost matrix] " -Sl-ff
weka.classifiers, meta.Bagging---PlOO-Sl-110-ff weka.classifiers, trees.RandomForest---110-K5-S1。得到由酵母和鼠腦分別生成的兩個預測模型。
[0025]3.采用Weka Machine Learning Software的Java源代碼對搜索定量數(shù)據(jù)的數(shù)據(jù)庫進行理論胰蛋白酶酶切,采用上一步中生成的兩個預測模型分別預測每條肽段在該液相色譜-串級質(zhì)譜系統(tǒng)上的響應概率,將每個UPS2蛋白所有理論肽段在系統(tǒng)上的響應概率累加作為該蛋白的校正因子。每個蛋白的校正因子有兩個,分別來源于酵母和鼠腦產(chǎn)生的預測模型。
[0026]4.采用Xcalibur軟件,從UPS2蛋白5次進樣的詳細鑒定列表以及它們對應的二級質(zhì)譜mgf文件中提取二級質(zhì)譜碎片離子強度計算歸屬于每個UPS2蛋白所有二級質(zhì)譜中的全部碎片離子強度加和作為定量依據(jù),規(guī)定蛋白總量C為1,再按照公式(a)所示的方法計算每個蛋白的APEX-SMT。將每個可靠鑒定蛋白(至少在3次進樣中被鑒定到)的APEX-SMT求平均(不管鑒定到幾次,都除以5)則算得此蛋白的最終絕對量。每個蛋白的最終絕對量的計算值有四個,分別來源于兩種質(zhì)譜儀器以及兩種預測模型的組合。將同一摩爾量級上的多個蛋白的最終計算絕對量按照不同儀器和預測模型對應求平均值和標準偏差,以實際進樣量的1glO為X軸,計算值的1glO為y軸,以及標準偏差為y的誤差棒作圖,如圖2所示。從圖中可以看到,無論在哪種儀器上計算值與實際進樣量都保持著高度一致(最低摩爾量級的一致性稍差,這主要是由質(zhì)譜本身的檢測動態(tài)范圍所限制),且誤差棒的大小也在合理的范圍內(nèi);通過比較圖2A與圖2B以及圖2C與圖2D可以看到,采用不同物種構(gòu)建的訓練數(shù)據(jù)集對定量結(jié)果幾乎沒有影響。
[0027]實施例2
[0028]1.相對定量的測試數(shù)據(jù)集來源于 Clinical Proteomic Technology Assessmentfor Cancer (CPTAC),從 http: //www.proteomecommons.0rg/ 網(wǎng)站下載得至丨J (hash:NGX3cBUAZXSffvc+6XFNIdVhpLPJT0871zAxUQmwwR2KHUwffDrdFwVldso3bvxf7H eXZ4C/juqwEUIz4boC9H3HcLrxEAAAAAAAAmDw==),數(shù)據(jù)集的名稱為 Study60rbitrap@086。該數(shù)據(jù)集中含有5個樣品A-E,每個樣品中含等量的酵母提取蛋白^Ong/yL),并依次含有0.24,0.74,2.2,6.7,20fmol/μ L的UPSl標準蛋白混合物,使得每兩個相鄰樣品中的UPSl蛋白的變化倍數(shù)為3倍而酵母蛋白含量不變。UPSl與UPS2相似,只是48個標準蛋白是等摩爾混合。每個樣品在Orbitrap XL質(zhì)譜儀上重復進樣3次。由于樣品A和B中的UPSl蛋白含量極低,故將它們中的酵母蛋白作為訓練數(shù)據(jù)集的數(shù)據(jù)來源;以樣品D和E中的UPSl蛋白作為定量數(shù)據(jù)集。數(shù)據(jù)庫檢索以及后處理的流程和實施例1絕大部分相同,不同之處有3點:
[0029](I)搜索定量數(shù)據(jù)時采用的數(shù)據(jù)庫,為48個UPSl蛋白序列加上酵母蛋白的序列再加上它們兩者的反序列。
[0030](2)選取酵母鑒定結(jié)果中鑒定概率為I且SC≤30的蛋白的理論肽段構(gòu)建訓練數(shù)據(jù)集。
[0031](3)對于樣品D和Ε,蛋白被任一次進樣鑒定到都算作有效鑒定,共鑒定到44個UPSl蛋白和1074個酵母蛋白。
[0032]2.采用和實施例1中一樣的weka代碼對訓練數(shù)據(jù)集進行訓練并生成預測模型。
[0033]3.對搜索定量數(shù)據(jù)的數(shù)據(jù)庫進行理論酶切,采用上一步中生成的預測模型預測每條肽段在該液相色譜-串級質(zhì)譜系統(tǒng)上的響應概率,將每個UPSl蛋白所有理論肽段在系統(tǒng)上的響應概率累加作為該蛋白的校正因子。
[0034]4.從樣品D和E各3次進樣的鑒定結(jié)果和它們對應的二級譜圖mgf文件中提取二級質(zhì)譜碎片離子強度計算歸屬于每個鑒定到的蛋白所有二級質(zhì)譜中的全部碎片離子強度加和作為定量依據(jù),規(guī)定蛋白總量C為1,再按照公式(a)所示的方法計算每個蛋白的APEX-SMT。
[0035]采用窮盡式的計算 方法計算UPSl蛋白在樣品D和E之間的變化倍數(shù):將兩樣品各3次進樣的定量結(jié)果命名為Dl,D2,D3和El,E2,E3。對同一個UPSl蛋白計算所有9組定量比值 El/Dl, E2/D1, E3 /D1, E1/D2, E2/D2, E3/D2, E1/D3, E2/D3, E3/D3。將所有的定量比值經(jīng)過I og2轉(zhuǎn)換成用Matlab (version R2010b)的ksdensity函數(shù)(參數(shù)均默認)畫密度分布曲線,如圖3所示。圖中的豎虛線表示理論的變化倍數(shù),可以看到概率密度基本上平均分布在理論值的兩側(cè),說明該方法在計算蛋白的變化倍數(shù)上具有較高的準確性。
[0036]將同一個蛋白在兩樣品中3次進樣的APEX-SMT數(shù)據(jù)做成PLGEM要求的expression data的形式傳入PLGEMR package來檢測差異蛋白信息。PLGEM的具體參數(shù)設置如下:P = 0.1 ;trimAlIZeroRows=TRUE ;zeroMeanOrSD= " trim " ;number ofiterations of the permutation=2000。最終計算得到共239個差異蛋白,其中30個是UPSl蛋白,209個是酵母蛋白。根據(jù)前面的闡述,UPSl蛋白的確是差異蛋白而酵母蛋白則不是,說明在P = 0.1的情況下方法的靈敏度為30/44=68.2%,而方法的錯誤率為209/1074=19.5%,且上述結(jié)論正確 的概率為90%,顯示出該方法在差異蛋白檢測方面的優(yōu)良性能。
【權(quán)利要求】
1.結(jié)合二級質(zhì)譜和機器學習算法的蛋白質(zhì)組無標記定量方法,其特征在于,包括以下步驟: (1)將用于構(gòu)建訓練數(shù)據(jù)集的已知蛋白質(zhì)實際樣品的酶解肽段混合物在液相色譜-串級質(zhì)譜系統(tǒng)上運行獲得原始質(zhì)譜數(shù)據(jù)文件,原始數(shù)據(jù)文件經(jīng)過Mascot數(shù)據(jù)庫搜索后獲得樣品中的蛋白列表,以及歸屬于每個蛋白的肽段列表和歸屬于每個肽段的二級質(zhì)譜圖列表,再經(jīng)過Trans Proteomic Pipeline (TPP)處理得到存儲鑒定列表和蛋白鑒定概率的XML文件,將它們導入SINQ軟件中用于計算肽段與譜圖匹配(PSM)q值的Perl源代碼計算每個PSM的q值將假陽性率控制到合理范圍內(nèi)(q值即是假陽性率)即獲得篩選后的蛋白列表及其鑒定概率,同時也包含篩選后的歸屬于每個蛋白的肽段列表和篩選后的歸屬于每個肽段的二級質(zhì)譜圖列表;以篩選后的所有肽段的序列為起點,采用APEX QuantitativeProteomics Tool中用于構(gòu)建訓練數(shù)據(jù)集的Java代碼計算每條肽段的1_35個物理化學性質(zhì)并以數(shù)字表示,然后在理化性質(zhì)的后面附上肽段在質(zhì)譜上是否被檢測到(檢測到為Obs,未檢測到為Not),這樣一個包含肽段序列、理化性質(zhì)以及在質(zhì)譜上檢測到與否的列表即是訓練數(shù)據(jù)集(arff文件); 在同一個液相色譜-串級質(zhì)譜系統(tǒng)上運行待分析樣品的酶解肽段混合物,所采用的酶和構(gòu)建訓練數(shù)據(jù)集時使用的酶一致;原始數(shù)據(jù)文件同樣經(jīng)過上述的Mascot數(shù)據(jù)庫搜索、TPP處理和假陽性率控制后獲得篩選后的蛋白質(zhì)鑒定列表,同樣也包括篩選后的歸屬于每個蛋白的肽段序列列表和篩選后的歸屬于每個肽段的二級質(zhì)譜圖列表; (2)將步驟(1)中獲得的訓練數(shù)據(jù)集arff文件導入機器學習算法Weka軟件中進行預測并生成數(shù)學預測模型(model文件); (3)采用APEXQuantitative Proteomics Tool中用于計算蛋白校正因子的Java代碼對待分析 樣品的蛋白質(zhì)序列數(shù)據(jù)庫fasta文件按照步驟(1)中所采用酶的特異性進行理論酶切獲得理論肽段列表并計算它們的1-35個物理化學性質(zhì),性質(zhì)的種類和構(gòu)建訓練數(shù)據(jù)集時相同;將肽段及它們的物理化學性質(zhì)導入步驟(2)中生成的數(shù)學預測模型(model文件)即可輸出每條理論肽段在該液相色譜-串級質(zhì)譜系統(tǒng)上的響應概率(為一個O到I之間的數(shù)),將歸屬于每個蛋白的所有理論肽段在此液相色譜-串級質(zhì)譜系統(tǒng)上的響應概率累加作為該蛋白的校正因子; (4)采用Xcalibur軟件將歸屬于待分析樣品中鑒定到的每個蛋白所有二級質(zhì)譜圖中的全部碎片離子強度加和作為定量依據(jù),除以步驟(3)中獲得的蛋白校正因子再乘以TPP給出的蛋白鑒定概率得到對該蛋白含量的表征值;對所有蛋白均計算該表征值,每個蛋白的表征值除以所有蛋白表征值的總和即是該蛋白相對于樣品中所有蛋白含量的百分比,乘以樣品中的蛋白總量即可以算得每個蛋白的絕對量。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于: (5)對于兩個及以上樣品做蛋白含量的差異分析時,首先需要將每個樣品均進行兩次及以上平行的液相色譜-串級質(zhì)譜分析,采用步驟(1)-(4)描述的方法計算每次平行分析中每個樣品中所有蛋白的絕對量; 然后采用統(tǒng)計學方法判斷在兩份或多份樣品中哪些蛋白存在顯著性差異。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟(1)中用于建立訓練數(shù)據(jù)集的實際樣品不能是待分析樣品本身;MaSCot數(shù)據(jù)庫搜索時加入反庫、隨機庫或偽庫序列以控制鑒定結(jié)果的假陽性率,假陽性率是指來源于反庫、隨機庫或偽庫序列的PSM與來源于正庫序列的PSM的比值,假陽性率的合理范圍是指在0-10%之間;肽段的35個物理化學性質(zhì)包括:分子量、氨基酸個數(shù)、丙氨酸的出現(xiàn)頻率、半胱氨酸的出現(xiàn)頻率、天冬氨酸的出現(xiàn)頻率、谷氨酸的出現(xiàn)頻率、苯丙氨酸的出現(xiàn)頻率、甘氨酸的出現(xiàn)頻率、組氨酸的出現(xiàn)頻率、異亮氨酸的出現(xiàn)頻率、賴氨酸的出現(xiàn)頻率、亮氨酸的出現(xiàn)頻率、甲硫氨酸的出現(xiàn)頻率、天冬酰胺的出現(xiàn)頻率、脯氨酸的出現(xiàn)頻率、谷氨酰胺的出現(xiàn)頻率、精氨酸的出現(xiàn)頻率、絲氨酸的出現(xiàn)頻率、蘇氨酸的出現(xiàn)頻率、纈氨酸的出現(xiàn)頻率、色氨酸的出現(xiàn)頻率、酪氨酸的出現(xiàn)頻率、被包埋在蛋白質(zhì)內(nèi)部的氨基酸個數(shù)、疏水性、等電點、pH=7時的凈電荷、平均凈電荷、總的正電荷、平均正電荷、α螺旋的總歸一化頻率、α螺旋的平均歸一化頻率、β卷曲的總歸一化頻率、β卷曲的平均歸一化頻率、β折疊的總歸一化頻率、β折疊的平均歸一化頻率; 訓練樣品和待分析樣品的最終鑒定結(jié)果列表都是通過對原始數(shù)據(jù)文件依次經(jīng)過數(shù)據(jù)庫檢索、檢索結(jié)果后處理以及假陽性率控制這三步產(chǎn)生。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟(4)的四個參數(shù)的具體結(jié)合方式為:將歸屬于每個鑒定到蛋白的所有二級質(zhì)譜中的全部碎片離子強度加和作為定量依據(jù),除以步驟(3)中獲得的校正因子后再乘以蛋白的鑒定概率,然后以其對待分析樣品中的全部鑒定蛋白做歸一化,得到每個蛋白相對于樣品總量的百分比;通過細胞計數(shù)或蛋白濃度測定獲知樣品中的蛋白質(zhì)總量,乘以該百分比即可以算得每個蛋白的絕對量,可用公式(a)表示為:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于:步驟(5)的顯著性差異蛋白的檢測采用Power Law Global Error Model (PLGEM)統(tǒng)計學模型的R工具包在合理的p值(0〈p < 0.I)下進行;Wexpression data的格式(PLGEM的固定輸入格式)輸入所有鑒定到的蛋白在多份樣品中多次進樣計算得到的絕對量,PLGEM模型即可判斷哪些蛋白具有顯著性差異,且該顯著性差異正確的概率為(1-P)。
【文檔編號】G01N30/86GK103884806SQ201210563271
【公開日】2014年6月25日 申請日期:2012年12月21日 優(yōu)先權(quán)日:2012年12月21日
【發(fā)明者】張麗華, 吳琪, 梁振, 曲焱焱, 蔣好, 張玉奎 申請人:中國科學院大連化學物理研究所