基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法

文檔序號：6232253閱讀：1159來源：國知局

基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法
【專利摘要】本發(fā)明公開了一種基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法，該方法首先虛擬酶解蛋白質(zhì)數(shù)據(jù)庫序列，并根據(jù)肽段的質(zhì)量數(shù)對酶解后的肽段建立肽段數(shù)據(jù)庫和肽段數(shù)據(jù)庫索引，接著根據(jù)待分析實驗圖譜中母離子去電荷后的質(zhì)量數(shù)在建立的肽段數(shù)據(jù)庫中找出符合要求的候選肽段，再對待分析實驗圖譜進行去同位素峰和選取有效峰，產(chǎn)生符合要求的候選肽段的理論圖譜，統(tǒng)計不同離子的峰強度信息，并計算出不同離子類型在不同區(qū)間內(nèi)峰強度識別能力，對每個候選肽段基于峰強度識別能力進行打分，選擇最高得分的肽段作為此實驗圖譜鑒定結(jié)果，最后對鑒定結(jié)果進行質(zhì)量控制。該方法鑒定有效質(zhì)譜的數(shù)量和蛋白質(zhì)肽段數(shù)量均高于目前現(xiàn)有算法，且可動態(tài)選峰，運行速度快。
【專利說明】基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法

【技術領域】
[0001]本發(fā)明涉及蛋白質(zhì)二級質(zhì)譜鑒定領域，特別是涉及一種基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法。

【背景技術】
[0002]多維色譜與質(zhì)譜技術聯(lián)用構成的生物質(zhì)譜技術大規(guī)模應用于蛋白質(zhì)組學，尤其基質(zhì)輔助激光解吸 (matrix-assisted laser desorpt1n 1nizat1n, MALDI)和電噴霧(Electrospray 1nizat1n, ESI)兩種軟電離技術的出現(xiàn),使生物質(zhì)譜能較少的引入雜質(zhì)并保持肽段分子的完整性，為蛋白質(zhì)的質(zhì)量信息和結(jié)構信息的研究開啟了新的一頁。質(zhì)譜數(shù)據(jù)處理技術對蛋白質(zhì)組的研究具有重要的作用，其主要任務是從帶有復雜噪聲或者部分信息缺失的數(shù)據(jù)中推斷樣品的蛋白質(zhì)組成。數(shù)據(jù)庫搜索是質(zhì)譜數(shù)據(jù)處理的主要方法，其基本過程如圖1所示，即將實驗圖譜和數(shù)據(jù)庫中產(chǎn)生的理論圖譜進行比對、打分，選擇分值最高的匹配作為搜索結(jié)果的候選肽段。
[0003]蛋白質(zhì)二級質(zhì)譜鑒定涉及諸多方面的內(nèi)容，其主要包括母離子價態(tài)的確定、有效質(zhì)譜峰的選取、匹配打分模型構建以及整體鑒定結(jié)果的假陽性率控制。目前隨機數(shù)據(jù)庫方法是針對整體鑒定結(jié)果假陽性率控制的主要方法?；舅枷胧?先給定的蛋白質(zhì)數(shù)據(jù)庫和實驗數(shù)據(jù)集構建一個隨機數(shù)據(jù)庫，然后同時或者分別搜索真實蛋白質(zhì)數(shù)據(jù)庫和新構建的隨機數(shù)據(jù)庫，進而通過隨機數(shù)據(jù)庫肽段匹配來模擬正常數(shù)據(jù)庫中的隨機匹配，最終估計正常數(shù)據(jù)庫中隨機匹配的特征分布，確定不同過濾標準。目前求取整體數(shù)據(jù)集假陽性率(FalsePositive Rate, FPR)的方法多樣。其中Kail’ s在Proteome上公開的計算假陽性率的方法被廣泛采用，計算公式如下:

【權利要求】
1.一種基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法，其特征在于，包括如下步驟: (1)虛擬酶解蛋白質(zhì)數(shù)據(jù)庫序列，并根據(jù)肽段的質(zhì)量數(shù)對酶解后的肽段建立肽段數(shù)據(jù)庫和肽段數(shù)據(jù)庫索引； (2)根據(jù)待分析實驗圖譜中母離子去電荷后的質(zhì)量數(shù)在步驟(1)所述的肽段數(shù)據(jù)庫中找出符合要求的候選肽段； (3)對待分析實驗圖譜進行去同位素峰和選取有效峰； (4)產(chǎn)生符合要求的候選肽段的理論圖譜； (5)統(tǒng)計不同離子的峰強度信息，并計算出不同離子類型在不同區(qū)間內(nèi)峰強度識別能力； (6)對每個候選肽段基于峰強度識別能力進行打分，選擇最高得分的肽段作為此實驗圖譜鑒定結(jié)果，并對鑒定結(jié)果進行質(zhì)量控制。
2.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法，其特征在于，步驟(3)所述的去同位素峰過程具體包括如下步驟: 1.D進行初始化，三個比較峰的m/z值及其強度，全部設為O，設三個峰m/z值分別是:m/z_l = O, m/z_2 = O, m/z_3 = O,其峰強對應是 m/z_l_in = O, m/z_2_in = O, m/z_3_in=0，并設置保留峰的容器，已知測量質(zhì)量誤差m ； 1.2)讀取一個峰的信息,把目前的峰放入第三個峰的位置，即m/z_3,m/z_3_in,把第三個峰與第一個峰和第二個峰比較，判斷是否是前兩個峰的同位素峰， 1.2.1)如果以下三個條件的任意一個條件成立，則認為是同位素峰，
a.1 m/z_3_m/z_2_l < = m 并且 m/z_2_in>m/z_3_in ；
b.1 m/z_3_m/z_l_l < = m 并且 m/z_l_in>m/z_3_in ； c.1 m/z_2-m/z_l I〈 = m并且m/z_2_in>m/z_3_in,此為相同峰信息,記錄誤差,執(zhí)行三個峰向前平移一位，空出第三個峰的位置，即:
m/z_l = m/z_2, m/z_l_in = m/z_2_in ；
m/z_2 = m/z_3, m/z_2_in = m/z_3_in ； 1.2.2)如果步驟1.2.1)中的三個條件均不成立，則認為目前進入第三位置的峰不是同位素峰，將其作為保留峰存入保留峰容器中，并把三個峰向前平移一位，空出第三個峰的位置，BP:m/z_l = m/z_2, m/z_l_in = m/z_2_in ； 1.3)逐個讀取下一個峰的信息，重復步驟1.2)直到處理完一張二級質(zhì)譜圖所用峰信息，其保留峰容器中的峰即為去同位素峰之后的非同位素峰。
3.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法，其特征在于，步驟(4)具體包括如下步驟: 1)產(chǎn)生候選肽段可能產(chǎn)生的理論碎片b、y離子； 2)如果步驟I)產(chǎn)生b、y離子中包含S、T、E和D四種氨基酸中的一種，則產(chǎn)生對應的丟水碎片離子b-H20和y-H20 ； 3)如果步驟I)產(chǎn)生b、y離子中包含R、K、Q和N四種氨基酸中的一種，則產(chǎn)生對應的丟氨碎片離子b-NH3和y-NH3 ； 4)待分析二級質(zhì)譜母離子價態(tài)是I價，則考慮產(chǎn)生一價碎片離子；5)若待分析二級質(zhì)譜母離子價態(tài)大于等于2，并且對應的碎片離子中包含R，K和H三種氨基酸其中一種時，則考慮二價碎片離子峰；根據(jù)步驟I)~5)產(chǎn)生所有理論碎片離子的方法規(guī)則，得到候選肽段的理論圖譜。
4.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法，其特征在于，步驟(5)具體包括如下步驟: 1)將峰強度歸一化，并將歸一化后峰強度所在區(qū)域根據(jù)不同離子類型劃分為12個區(qū)間，僅考慮b、b_H20、b_NH3、y、y-H20> y-NH3六種尚子類型； 2)統(tǒng)計每一實驗質(zhì)譜峰不同離子類型在不同的強度區(qū)間內(nèi)正確匹配與錯誤匹配上候選肽段的數(shù)量，并定義該離子類型在該區(qū)間上的強度識別能力。計算公式如下:
其中，j代表第j個區(qū)間(j e [I, 12], j e Z+) ；i代表第i種離子類型(i e {b, b-H20,b-NH3, y, y-H20, y-NH3}) ;TU代表離子類型i在區(qū)間j中的強度識別能力；N(ru)代表離子類型i在區(qū)間j中正確匹配峰的數(shù)目；N(eu)代表離子類型i在區(qū)間j中錯匹配峰的數(shù)目。
5.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法，其特征在于，步驟(6)所述的打分過程包括:基于強度識別能力匹配打分，基于強度識別能力連續(xù)匹配打分以及基于強度識別能力b，y離子匹配打分，具體如下: 1)基于強度識別能力離子匹配打分:
其中，1?是實驗圖譜與理論圖譜匹配峰的數(shù)目；％是理論圖譜峰數(shù)目C是匹配峰離子強度識別能力之和；0.1811為隨機匹配概率值，等于隨機肽段實驗圖譜匹配峰數(shù)目除以理論圖譜峰數(shù)目； 2)基于強度識別能力連續(xù)匹配打分:
其中，多個離子的連續(xù)匹配將轉(zhuǎn)化成多個兩個離子的連續(xù)匹配屯是實驗圖譜連續(xù)匹配峰數(shù)目卟是理論圖譜連續(xù)匹配峰數(shù)目，D是第m和P個峰構成了一個連續(xù)匹配，兩個連續(xù)匹配峰強度識別能力之和；0.0828為隨機匹配概率值，隨機肽段實驗圖譜連續(xù)匹配峰數(shù)目除以理論連續(xù)峰數(shù)目； 3)基于強度識別能力b，y離子匹配打分:
其中，！^是比y離子實驗圖譜與理論圖譜匹配峰數(shù)目；n2是理論圖譜b，y峰數(shù)目；
是匹配b，y離子峰對應的強度識別能力之和；0.0604是隨機匹配概率值，等于隨機肽段b、y離子匹配峰數(shù)目除以其理論b、y離子峰數(shù)目 4)基于強度識別能力總分函數(shù): Sp = 0.0MSfS^S2)。
6.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法，其特征在于，步驟(6)所述的鑒定結(jié)果采用F DR〈〈0.01進行質(zhì)量控制，得出最終鑒定結(jié)果。
7.根據(jù)權利要求6所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法，其特征在于，所述質(zhì)量控制具體包括如下步驟: 1)統(tǒng)計待分析圖譜所有二級圖譜中的鑒定結(jié)果肽段得分最小值和最大值； 2)統(tǒng)計在最小值和最大值之間,其中大于每個分值的鑒定結(jié)果中真實庫和隨機庫肽段的個數(shù)，并計算每個分值為閥值時的FDR的值； 3)按得分值從小到大尋找每個分值，直到找到FDR〈= 0.01時，此分值為待分析圖譜的整體閥值； 4)根據(jù)步驟3)找到整體閥值，以此閥值過濾待分析圖譜的鑒定結(jié)果，也就是說小于此閥值的結(jié)果被過濾掉，其結(jié)果作為待分析圖譜的最終鑒定結(jié)果。
8.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法，其特征在于，步驟(2)所述的候選肽段的篩選方法如下步驟: 1)加載database,index文件信息到內(nèi)存數(shù)組index,讀取待分析二級質(zhì)譜的母離子的m/z值和電荷信息，并計算其母離子去電荷后的質(zhì)量數(shù)； 2)根據(jù)容許的質(zhì)量誤差查找index數(shù)組記錄并讀取相應肽段信息，查找index數(shù)組找到其在文件database, ind中的開始位置和行數(shù)，由此位置開始順序讀取相應的行數(shù)加入內(nèi)存中，即加載了此區(qū)間內(nèi)的所有肽段信息； 3)對內(nèi)存加載肽段進行逐步的精細篩選，作為此待分析二級質(zhì)譜的候選肽段。
9.根據(jù)權利要求1所述的基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法，其特征在于，步驟(3)所述的選取有效峰的方法如下步驟: 1)尋找實驗圖譜m/z的最大值和最小值分別為maxm/z和minm/z,以及峰強度的最大值max_intensity和對應的m/z值； 2)將實驗圖譜劃分為k 個窗口，其中 k = max (round ([ (maxm/z-m/z) /50, (m/z-minm/z)/50]+0.5))； 3)以max_intensity對應的m/z為基準,并向左右延伸，每次分別開啟50Da的窗口，直到窗口數(shù)等于k結(jié)束； 4)對每一窗口的峰進行歸一化，也即用每個峰除以該窗口的最強峰，并選擇該窗口下最強的6個峰作為有效峰。
【文檔編號】G01N30/86GK104076115SQ201410299214
【公開日】2014年10月1日申請日期:2014年6月26日優(yōu)先權日:2014年6月26日
【發(fā)明者】陳曉舟, 肖傳樂, 鄭凱, 李華梅, 李慧敏申請人:云南民族大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：陳曉舟;肖傳樂;鄭凱;李華梅;李慧敏
技術所有人：云南民族大學
我是此專利的發(fā)明人

上一篇：煙氣總粒相物中苯并[α]芘含量的測定方法
上一篇：倒走安全監(jiān)測方法及監(jiān)測器的制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、邢老師：1.機械設計及理論 2.生物醫(yī)學材料及器械 3.聲發(fā)射檢測技術。
2、王老師：1.數(shù)字信號處理 2.傳感器技術及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術 5.逆向工程技術研究
3、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機械設計的應力分析、強度校核的計算機仿真 2.生物反應器研制 3.生物力學
5、趙老師：檢測與控制技術、機器人技術、機電一體化技術
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

蛋白質(zhì)質(zhì)譜分析相關技術

蛋白質(zhì)質(zhì)譜相關技術

蛋白質(zhì)質(zhì)譜分析步驟相關技術

蛋白質(zhì)質(zhì)譜鑒定相關技術

蛋白質(zhì)質(zhì)譜鑒定步驟相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于峰強度識別能力的蛋白質(zhì)二級質(zhì)譜鑒定方法