基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法
【專利摘要】本發(fā)明公開了一種基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法,該方法首先虛擬酶解蛋白質(zhì)數(shù)據(jù)庫序列,并根據(jù)肽段的質(zhì)量數(shù)對酶解后的肽段建立肽段數(shù)據(jù)庫和肽段數(shù)據(jù)庫索引,接著根據(jù)待分析實驗圖譜中母離子去電荷后的質(zhì)量數(shù)在建立的肽段數(shù)據(jù)庫中找出符合要求的候選肽段,再對待分析實驗圖譜進行去同位素峰和選取有效峰,產(chǎn)生符合要求的候選肽段的理論圖譜,統(tǒng)計不同離子的峰強度信息,并計算出不同離子類型在不同區(qū)間內(nèi)峰強度識別能力,對每個候選肽段基于峰強度識別能力進行打分,選擇最高得分的肽段作為此實驗圖譜鑒定結(jié)果,最后對鑒定結(jié)果進行質(zhì)量控制。該方法鑒定有效質(zhì)譜的數(shù)量和蛋白質(zhì)肽段數(shù)量均高于目前現(xiàn)有算法,且可動態(tài)選峰,運行速度快。
【專利說明】基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法
【技術領域】
[0001]本發(fā)明涉及蛋白質(zhì)二級質(zhì)譜鑒定領域,特別是涉及一種基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法。
【背景技術】
[0002]多維色譜與質(zhì)譜技術聯(lián)用構成的生物質(zhì)譜技術大規(guī)模應用于蛋白質(zhì)組學,尤其基質(zhì)輔助激光解吸 (matrix-assisted laser desorpt1n 1nizat1n, MALDI)和電噴霧(Electrospray 1nizat1n, ESI)兩種軟電離技術的出現(xiàn),使生物質(zhì)譜能較少的引入雜質(zhì)并保持肽段分子的完整性,為蛋白質(zhì)的質(zhì)量信息和結(jié)構信息的研究開啟了新的一頁。質(zhì)譜數(shù)據(jù)處理技術對蛋白質(zhì)組的研究具有重要的作用,其主要任務是從帶有復雜噪聲或者部分信息缺失的數(shù)據(jù)中推斷樣品的蛋白質(zhì)組成。數(shù)據(jù)庫搜索是質(zhì)譜數(shù)據(jù)處理的主要方法,其基本過程如圖1所示,即將實驗圖譜和數(shù)據(jù)庫中產(chǎn)生的理論圖譜進行比對、打分,選擇分值最高的匹配作為搜索結(jié)果的候選肽段。
[0003]蛋白質(zhì)二級質(zhì)譜鑒定涉及諸多方面的內(nèi)容,其主要包括母離子價態(tài)的確定、有效質(zhì)譜峰的選取、匹配打分模型構建以及整體鑒定結(jié)果的假陽性率控制。目前隨機數(shù)據(jù)庫方法是針對整體鑒定結(jié)果假陽性率控制的主要方法?;舅枷胧?先給定的蛋白質(zhì)數(shù)據(jù)庫和實驗數(shù)據(jù)集構建一個隨機數(shù)據(jù)庫,然后同時或者分別搜索真實蛋白質(zhì)數(shù)據(jù)庫和新構建的隨機數(shù)據(jù)庫,進而通過隨機數(shù)據(jù)庫肽段匹配來模擬正常數(shù)據(jù)庫中的隨機匹配,最終估計正常數(shù)據(jù)庫中隨機匹配的特征分布,確定不同過濾標準。目前求取整體數(shù)據(jù)集假陽性率(FalsePositive Rate, FPR)的方法多樣。其中Kail’ s在Proteome上公開的計算假陽性率的方法被廣泛采用,計算公式如下:
【權利要求】
1.一種基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于,包括如下步驟: (1)虛擬酶解蛋白質(zhì)數(shù)據(jù)庫序列,并根據(jù)肽段的質(zhì)量數(shù)對酶解后的肽段建立肽段數(shù)據(jù)庫和肽段數(shù)據(jù)庫索引; (2)根據(jù)待分析實驗圖譜中母離子去電荷后的質(zhì)量數(shù)在步驟(1)所述的肽段數(shù)據(jù)庫中找出符合要求的候選肽段; (3)對待分析實驗圖譜進行去同位素峰和選取有效峰; (4)產(chǎn)生符合要求的候選肽段的理論圖譜; (5)統(tǒng)計不同離子的峰強度信息,并計算出不同離子類型在不同區(qū)間內(nèi)峰強度識別能力; (6)對每個候選肽段基于峰強度識別能力進行打分,選擇最高得分的肽段作為此實驗圖譜鑒定結(jié)果,并對鑒定結(jié)果進行質(zhì)量控制。
2.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于,步驟(3)所述的 去同位素峰過程具體包括如下步驟: 1.D進行初始化,三個比較峰的m/z值及其強度,全部設為O,設三個峰m/z值分別是:m/z_l = O, m/z_2 = O, m/z_3 = O,其峰強對應是 m/z_l_in = O, m/z_2_in = O, m/z_3_in=0,并設置保留峰的容器,已知測量質(zhì)量誤差m ; 1.2)讀取一個峰的信息,把目前的峰放入第三個峰的位置,即m/z_3,m/z_3_in,把第三個峰與第一個峰和第二個峰比較,判斷是否是前兩個峰的同位素峰, 1.2.1)如果以下三個條件的任意一個條件成立,則認為是同位素峰,
a.1 m/z_3_m/z_2_l < = m 并且 m/z_2_in>m/z_3_in ;
b.1 m/z_3_m/z_l_l < = m 并且 m/z_l_in>m/z_3_in ; c.1 m/z_2-m/z_l I〈 = m并且m/z_2_in>m/z_3_in,此為相同峰信息,記錄誤差,執(zhí)行三個峰向前平移一位,空出第三個峰的位置,即:
m/z_l = m/z_2, m/z_l_in = m/z_2_in ;
m/z_2 = m/z_3, m/z_2_in = m/z_3_in ; 1.2.2)如果步驟1.2.1)中的三個條件均不成立,則認為目前進入第三位置的峰不是同位素峰,將其作為保留峰存入保留峰容器中,并把三個峰向前平移一位,空出第三個峰的位置,BP:m/z_l = m/z_2, m/z_l_in = m/z_2_in ; 1.3)逐個讀取下一個峰的信息,重復步驟1.2)直到處理完一張二級質(zhì)譜圖所用峰信息,其保留峰容器中的峰即為去同位素峰之后的非同位素峰。
3.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于,步驟(4)具體包括如下步驟: 1)產(chǎn)生候選肽段可能產(chǎn)生的理論碎片b、y離子; 2)如果步驟I)產(chǎn)生b、y離子中包含S、T、E和D四種氨基酸中的一種,則產(chǎn)生對應的丟水碎片離子b-H20和y-H20 ; 3)如果步驟I)產(chǎn)生b、y離子中包含R、K、Q和N四種氨基酸中的一種,則產(chǎn)生對應的丟氨碎片離子b-NH3和y-NH3 ; 4)待分析二級質(zhì)譜母離子價態(tài)是I價,則考慮產(chǎn)生一價碎片離子;5)若待分析二級質(zhì)譜母離子價態(tài)大于等于2,并且對應的碎片離子中包含R,K和H三種氨基酸其中一種時,則考慮二價碎片離子峰; 根據(jù)步驟I)~5)產(chǎn)生所有理論碎片離子的方法規(guī)則,得到候選肽段的理論圖譜。
4.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于,步驟(5)具體包括如下步驟: 1)將峰強度歸一化,并將歸一化后峰強度所在區(qū)域根據(jù)不同離子類型劃分為12個區(qū)間,僅考慮b、b_H20、b_NH3、y、y-H20> y-NH3六種尚子類型; 2)統(tǒng)計每一實驗質(zhì)譜峰不同離子類型在不同的強度區(qū)間內(nèi)正確匹配與錯誤匹配上候選肽段的數(shù)量,并定義該離子類型在該區(qū)間上的強度識別能力。計算公式如下:
其中,j代表第j個區(qū)間(j e [I, 12], j e Z+) ;i代表第i種離子類型(i e {b, b-H20,b-NH3, y, y-H20, y-NH3}) ;TU代表離子類型i在區(qū)間j中的強度識別能力;N(ru)代表離子類型i在區(qū)間j中正確匹配峰的數(shù)目;N(eu)代表離子類型i在區(qū)間j中錯匹配峰的數(shù)目。
5.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于,步驟(6)所述的打分過程包括:基于強度識別能力匹配打分,基于強度識別能力連續(xù)匹配打分以及基于強度識別能力b,y離子匹配打分,具體如下: 1)基于強度識別能力離子匹配打分:
其中,1?是實驗圖譜與理論圖譜匹配峰的數(shù)目;%是理論圖譜峰數(shù)目C是匹配峰離子強度識別能力之和;0.1811為隨機匹配概率值,等于隨機肽段實驗圖譜匹配峰數(shù)目除以理論圖譜峰數(shù)目; 2)基于強度識別能力連續(xù)匹配打分:
其中,多個離子的連續(xù)匹配將轉(zhuǎn)化成多個兩個離子的連續(xù)匹配屯是實驗圖譜連續(xù)匹配峰數(shù)目卟是理論圖譜連續(xù)匹配峰數(shù)目,D是第m和P個峰構成了一個連續(xù)匹配,兩個連續(xù)匹配峰強度識別能力之和;0.0828為隨機匹配概率值,隨機肽段實驗圖譜連續(xù)匹配峰數(shù)目除以理論連續(xù)峰數(shù)目; 3)基于強度識別能力b,y離子匹配打分:
其中,!^是比y離子實驗圖譜與理論圖譜匹配峰數(shù)目;n2是理論圖譜b,y峰數(shù)目;
是匹配b,y離子峰對應的強度識別能力之和;0.0604是隨機匹配概率值,等于隨機肽段b、y離子匹配峰數(shù)目除以其理論b、y離子峰數(shù)目 4)基于強度識別能力總分函數(shù): Sp = 0.0MSfS^S2)。
6.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于,步驟(6)所述的鑒定結(jié)果采用F DR〈〈0.01進行質(zhì)量控制,得出最終鑒定結(jié)果。
7.根據(jù)權利要求6所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于,所述質(zhì)量控制具體包括如下步驟: 1)統(tǒng)計待分析圖譜所有二級圖譜中的鑒定結(jié)果肽段得分最小值和最大值; 2)統(tǒng)計在最小值和最大值之間,其中大于每個分值的鑒定結(jié)果中真實庫和隨機庫肽段的個數(shù),并計算每個分值為閥值時的FDR的值; 3)按得分值從小到大尋找每個分值,直到找到FDR〈= 0.01時,此分值為待分析圖譜的整體閥值; 4)根據(jù)步驟3)找到整體閥值,以此閥值過濾待分析圖譜的鑒定結(jié)果,也就是說小于此閥值的結(jié)果被過濾掉,其結(jié)果作為待分析圖譜的最終鑒定結(jié)果。
8.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于,步驟(2)所述的候選肽段的篩選方法如下步驟: 1)加載database,index文件信息到內(nèi)存數(shù)組index,讀取待分析二級質(zhì)譜的母離子的m/z值和電荷信息,并計算其母離子去電荷后的質(zhì)量數(shù); 2)根據(jù)容許的質(zhì)量誤差查找index數(shù)組記錄并讀取相應肽段信息,查找index數(shù)組找到其在文件database, ind中的開始位置和行數(shù),由此位置開始順序讀取相應的行數(shù)加入內(nèi)存中,即加載了此區(qū)間內(nèi)的所有肽段信息; 3)對內(nèi)存加載肽段進行逐步的精細篩選,作為此待分析二級質(zhì)譜的候選肽段。
9.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法,其特征在于,步驟(3)所述的選取有效峰的方法如下步驟: 1)尋找實驗圖譜m/z的最大值和最小值分別為maxm/z和minm/z,以及峰強度的最大值max_intensity和對應的m/z值; 2)將實驗圖譜劃分為k 個窗口,其中 k = max (round ([ (maxm/z-m/z) /50, (m/z-minm/z)/50]+0.5)); 3)以max_intensity對應的m/z為基準,并向左右延伸,每次分別開啟50Da的窗口,直到窗口數(shù)等于k結(jié)束; 4)對每一窗口的峰進行歸一化,也即用每個峰除以該窗口的最強峰,并選擇該窗口下最強的6個峰作為有效峰。
【文檔編號】G01N30/86GK104076115SQ201410299214
【公開日】2014年10月1日 申請日期:2014年6月26日 優(yōu)先權日:2014年6月26日
【發(fā)明者】陳曉舟, 肖傳樂, 鄭凱, 李華梅, 李慧敏 申請人:云南民族大學