一種建立蛋白樣品swath離子庫(kù)的方法
【專利摘要】本發(fā)明提供一種新的離子庫(kù)建立方法,該方法可以整合多針DDA質(zhì)譜鑒定的結(jié)果,通過非標(biāo)定量的肽段保留時(shí)間(SWATH?RT)反矯正多針DDA中肽段保留時(shí)間的技術(shù)可以得到保留時(shí)間歸一化后的多針DDA鑒定的數(shù)據(jù),然后將這些多針DDA數(shù)據(jù)的肽段信息整合并建立新的離子庫(kù)。在通過DDA鑒定可信度對(duì)離子庫(kù)容量進(jìn)行優(yōu)化,最終可得到最優(yōu)的庫(kù)容量的離子庫(kù)。
【專利說(shuō)明】—種建立蛋白樣品SWATH離子庫(kù)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及蛋白質(zhì)組學(xué)研究中的質(zhì)譜方法領(lǐng)域,更具體地涉及在蛋白質(zhì)組學(xué)研究的質(zhì)譜方法中的一種建立蛋白樣品SWATH離子庫(kù)的方法。
【背景技術(shù)】
[0002]定量蛋白質(zhì)組學(xué)研究可從蛋白質(zhì)組層面闡釋某種生物現(xiàn)象的發(fā)生發(fā)展原因與規(guī)律,對(duì)生命科學(xué)以及人類自身疾病診療有重大意義。如對(duì)于抗旱性好的作物與抗旱性差的作物的定量蛋白質(zhì)組研究,可能發(fā)現(xiàn)潛在利于作物抗旱的關(guān)鍵蛋白或蛋白組,用以指導(dǎo)分子育種。對(duì)于腫瘤組織與非腫瘤組織的定量蛋白質(zhì)組研究,則可能發(fā)現(xiàn)某種腫瘤特異的蛋白質(zhì)作為疾病的標(biāo)志物,用以腫瘤的早期診斷、確診與分型,知道臨床治療方案的確定。
[0003]目前,有多種成熟的定量蛋白質(zhì)組技術(shù)被廣泛應(yīng)用,如基于標(biāo)記的定量蛋白質(zhì)組技術(shù)(iTRAQ,SILAC等),基于非標(biāo)記的定量蛋白質(zhì)組技術(shù)。這些技術(shù)主要基于數(shù)據(jù)依賴性采集質(zhì)譜技術(shù)(Data dependent acquisition, DDA)。近些年,數(shù)據(jù)非依賴性采集(Dataindependent acquisition, DIA)技術(shù)逐漸得以在蛋白質(zhì)組研究領(lǐng)域應(yīng)用。由于其可以對(duì)所有質(zhì)譜檢測(cè)到信號(hào)的離子進(jìn)行二級(jí)碎裂與信息捕捉,獲得更全面的樣本電子化信息,所以基于DIA的定量蛋白質(zhì)研究技術(shù)也得到了進(jìn)一步發(fā)展。連續(xù)窗口采集所有理論碎片離子(sequential window acquisition of all the theoretical fragment-1on spectra,SWATH)技術(shù)是ABSCIEX公司針對(duì)5600質(zhì)譜儀發(fā)展的一種新的基于DIA的定量蛋白質(zhì)組技術(shù)。該技術(shù)需要首先建立目標(biāo)蛋白的離子庫(kù)(Spectra library, 1n library,也稱為“譜圖庫(kù)”、“參考譜圖庫(kù)”等),然后運(yùn)用目標(biāo)蛋白離子庫(kù)對(duì)SWATH所采集的數(shù)據(jù)進(jìn)行信息提取,結(jié)合定量軟件進(jìn)行定量蛋白質(zhì)組的分析。所以說(shuō),SWATH技術(shù)中,離子庫(kù)的建立是非常重要的一步,其容量、質(zhì)量直接影響到SWATH技術(shù)定量蛋白質(zhì)的數(shù)量與質(zhì)量。
[0004]瑞士分子系統(tǒng)生物學(xué)研究所的如德教授(Ruedi Aebersold)研究團(tuán)隊(duì)利用DDA鑒定化學(xué)合成的目標(biāo)蛋白的肽段,然后通過搜索引擎搜索之后,從中提取肽段的離子信息與保留時(shí)間用以構(gòu)建離子庫(kù)。加州大學(xué)舊金山分校的博拉特福德教授(Bradford ff.Gibson)團(tuán)隊(duì)用DDA鑒定與SWATH分析完全一樣的樣本,然后根據(jù)DDA數(shù)據(jù)搜索結(jié)果,構(gòu)建目標(biāo)蛋白的離子庫(kù)。這些方法的共同特點(diǎn)及只有一種SWATH的離子庫(kù)的建立方法:對(duì)一個(gè)真實(shí)樣品或者合成肽段進(jìn)行一針DDA質(zhì)譜分析,之后用搜索軟件(如mascot、protein pilot等)搜索,對(duì)鑒定到的肽段的電荷數(shù),m/z,碎片離子強(qiáng)度,保留時(shí)間等信息進(jìn)行提取生成離子庫(kù)。對(duì)于一個(gè)SWATH數(shù)據(jù)挖掘而言,使用僅來(lái)自于I針DDA鑒定的數(shù)據(jù)所建立的離子庫(kù)。
[0005]然而僅來(lái)自于一針DDA所建立的離子庫(kù)庫(kù)容量有限,對(duì)SWATH質(zhì)譜數(shù)據(jù)挖掘的能力有限。因此本領(lǐng)域中需要可以整合多針DDA離子庫(kù)的離子庫(kù)建庫(kù)方法。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于通過構(gòu)建SWATH RT,用一定質(zhì)量的SWATH RT反矯正多個(gè)來(lái)源DDA結(jié)果的肽段RT,最后歸一化多個(gè)DDA結(jié)果的RT,從而可以整合多個(gè)DDA數(shù)據(jù),建立庫(kù)容量更大的離子庫(kù)。再通過離子庫(kù)大小優(yōu)化得到最佳離子庫(kù)。
[0007]為了實(shí)現(xiàn)本發(fā)明的目的,
[0008]在一個(gè)方面中,本發(fā)明提供了一種建立蛋白樣品SWATH離子庫(kù)的方法,其特征在于,所述方法包括:
[0009](a)獲取所述蛋白樣品的SWATH RT和所述蛋白樣品的η個(gè)DDA數(shù)據(jù);
[0010](b)將所述η個(gè)DDA數(shù)據(jù)進(jìn)行檢索以獲取η種來(lái)源的DDA數(shù)據(jù)的保留時(shí)間(DDART-n);
[0011](C)將所述SWATH RT與每個(gè)所述DDA RT_n進(jìn)行回歸分析,得到η個(gè)不同的回歸公式y(tǒng)l=f (xl),……,yn=f (xn),其中y代表DDA RT-n, x代表SWATH RT,并獲得矯正后的DDA RT,記錄為)DDA RT-C-1,......,DDA RT-C-n ;
[0012](d)用所述DDA RT-C構(gòu)建得到η個(gè)矯正后的離子庫(kù):離子庫(kù)_1,......,離子庫(kù)_η ;
和
[0013](e)將所獲得η個(gè)矯正后的離子庫(kù)合并,并且用鑒定得分標(biāo)準(zhǔn)優(yōu)化擴(kuò)容后離子庫(kù),得到不同容量的子庫(kù);
[0014]其中η為大于等于I的整數(shù),
[0015]其中任選地,步驟(b)中的檢索獲得碎片離子質(zhì)荷比、保留時(shí)間、可信度和或相對(duì)強(qiáng)度信息,并且將這些信息包含在所述步驟(d)中所獲得的矯正后的離子庫(kù)中。
[0016]在本發(fā)明的建立蛋白樣品SWATH離子庫(kù)的方法中,所述步驟(e)中將離子庫(kù)合并后過濾擴(kuò)容前對(duì)合并后的離子庫(kù)進(jìn)行去冗余處理。
[0017]在本發(fā)明的建立蛋白樣品SWATH離子庫(kù)的方法中,通過對(duì)所述蛋白樣品進(jìn)行η次DDA分析來(lái)獲取所述蛋白樣品的η個(gè)DDA數(shù)據(jù)。
[0018]在本發(fā)明的建立蛋白樣品SWATH離子庫(kù)的方法中,η在范圍內(nèi)。
[0019]在本發(fā)明的建立蛋白樣品SWATH離子庫(kù)的方法中,所述回歸分析為線性回歸分析或非線性回歸分析。
[0020]在本發(fā)明的建立蛋白樣品SWATH離子庫(kù)的方法中,所述去冗余處理包括對(duì)于具有m行記錄肽段計(jì)算m行記錄中所述肽段保留時(shí)間的中位數(shù)作為最終保留的肽段保留時(shí)間,并刪除其余記錄,以使得最終得到離子庫(kù)中每條肽段只有一行記錄。
[0021]在本發(fā)明的建立蛋白樣品SWATH離子庫(kù)的方法中,步驟(e)中可通過去除離子庫(kù)-expanded中搜索引擎鑒定的可信度小于X分的所有肽段來(lái)過濾擴(kuò)容后離子庫(kù),其中X可以為 90、80、70、60 或 50。
[0022]在第二方面,本發(fā)明提供了根據(jù)第一方面所述的方法在蛋白質(zhì)組學(xué)相關(guān)研究中的
定量應(yīng)用。
[0023]在第三方面,本發(fā)明提供了一種校對(duì)蛋白樣品SWATH離子庫(kù)的方法,其特征在于,所述方法包括:
[0024](a)建立待測(cè)蛋白樣品的SWATH RT ;
[0025](b)將步驟(a)所述SWATH RT與已有SWATH離子庫(kù)的每個(gè)DDA RT-η進(jìn)行回歸 分析,得到η個(gè)不同的回歸公式y(tǒng)l=f (xl),......,yn=f (xn),其中y代表DDA RT_n, x代表
SWATH RT,并獲得矯正后的 DDA RT,記錄為)DDA RT-C-1,......,DDA RT-C-n ;
[0026](c)將所述SWATH RT與每個(gè)所述DDA RT_n進(jìn)行回歸分析,得到η個(gè)不同的回歸公式y(tǒng)l=f (xl),……,yn=f (xn),其中y代表DDA RT-n, x代表SWATH RT,并獲得矯正后的DDA RT,記錄為 DDA RT-C-1,......,DDA RT-C-n ;
[0027](d)用所述DDA RT-C構(gòu)建得到η個(gè)矯正后的離子庫(kù):離子庫(kù)_1,......,離子庫(kù)_η ;
和
[0028](e)將所獲得η個(gè)矯正后的離子庫(kù)合并,并且用鑒定得分標(biāo)準(zhǔn)優(yōu)化擴(kuò)容后離子庫(kù),得到不同容量的子庫(kù);
[0029]其中η為大于等于I的整數(shù),
[0030]其中任選地,步驟(b)中的檢索獲得碎片離子質(zhì)荷比、保留時(shí)間、可信度和或相對(duì)強(qiáng)度信息,并且將這些信息包含在所述步驟(d)中所獲得的矯正后的離子庫(kù)中。
[0031]本文中,“相同來(lái)源的蛋白樣品”是指蛋白質(zhì)組研究分析過程中所用蛋白樣品為同一初始樣品的等份。
[0032]本文中,“不同來(lái)源的蛋白樣品”是指蛋白質(zhì)組研究分析過程中所用蛋白樣品來(lái)自于同一物種的不同個(gè)體、同一個(gè)體的不同發(fā)育階段、同一個(gè)體的不同器官、以及初始相同但經(jīng)過不同處理方法處理的蛋白樣品等。
[0033]在本發(fā)明的實(shí)施方案中,SWATH RT的提取可以為:首先使用ABSCIEX公司四級(jí)桿串聯(lián)TOF類質(zhì)譜儀(如5600,4600等)對(duì)擬定量樣品用SWATH模式和DDA模式各做一次完全相同液相梯度串聯(lián)質(zhì)譜的 數(shù)據(jù)采集,得到一個(gè)DDA的數(shù)據(jù)與一個(gè)SWATH數(shù)據(jù)。利用ABSCIEX的ProteinPi lot軟件處理DDA數(shù)據(jù),得到搜索結(jié)果的GROUP文件。利用ABSCIEX的PeakView軟件的SWATH插件,導(dǎo)入GROUP文件與SWATH采集的數(shù)據(jù)文件,運(yùn)用默認(rèn)參數(shù)進(jìn)行分析處理,得到結(jié)果文件SWATH-R。解壓該文件,從其中的1nlibrary文件中提取肽段與對(duì)應(yīng)保留時(shí)間信息作為SWATH RT (如圖1所示)。
[0034]在本發(fā)明的實(shí)施方案中,多種來(lái)源的樣品的DDA數(shù)據(jù)的保留時(shí)間(DDART)提取可以為:用DDA-1到DDA-n代表η種不同來(lái)源的DDA數(shù)據(jù)。首先用任意一種蛋白質(zhì)搜索引擎軟件(如Mascot, ProteinPilot等)分別搜索DDA-1到DDA-η的每一個(gè)數(shù)據(jù),得到η個(gè)DDA數(shù)據(jù)的鑒定結(jié)果,從鑒定結(jié)果中提取肽段以及與肽段對(duì)應(yīng)的保留時(shí)間信息,可以得到η個(gè)DDA數(shù)據(jù)各自的保留時(shí)間列表,用DDA RT-1到DDA RT-n代表第I個(gè)到第η個(gè)DDA RT (如圖2所示)。
[0035]在本發(fā)明的實(shí)施方案中,SWATH RT矯正多種來(lái)源的DDA RT:如上所述,該發(fā)明首先建立一個(gè)SWATH RT,然后建立η種來(lái)源數(shù)據(jù)各自的DDA RT。用SWATH RT與每個(gè)DDA RT做
回歸分析(可以是線性或非線性),得到η個(gè)不同的回歸公式y(tǒng)l=f (xl),......,yn=f (xn),其
中I代表DDA RT, X代表SWATH RT。根據(jù)回歸公式計(jì)算經(jīng)過SWATH RT矯正后的DDA RT,記錄為 DDA RT-C0 η 個(gè)矯正后 DDA RT 記錄為 DDA RT-C-1,......,DDA RT-C-n ?
[0036]在本發(fā)明的實(shí)施方案中,建立多種DDA來(lái)源RT矯正后擴(kuò)增的離子庫(kù)可以為:從上述多種來(lái)源的DDA數(shù)據(jù)的保留時(shí)間(DDA RT)提取中的每個(gè)DDA搜索結(jié)果中提取肽段的碎片離子強(qiáng)度等信息,結(jié)合SWATH RT矯正多種來(lái)源的DDA RT中得到的對(duì)應(yīng)DDA數(shù)據(jù)的肽段RT共同構(gòu)建得到η個(gè)矯正后的離子庫(kù),用離子庫(kù)-1,……,離子庫(kù)-η代表。將η個(gè)離子庫(kù)用文本編輯器合并到一個(gè)文件中,遇到重復(fù)肽段的情況只保留一個(gè)離子庫(kù)中的記錄,其他記錄均刪除,其中肽段RT取所有共有離子庫(kù)中RT的中位數(shù)即可。這樣得到的離子庫(kù)記錄為離子庫(kù)-expanded。[0037]在本發(fā)明的實(shí)施方案中,擴(kuò)增后離子庫(kù)優(yōu)化可以為:用若干種不同的鑒定得分的標(biāo)準(zhǔn)(例如ProteinPilot軟件的可信度,Mascot軟件的肽段得分等本領(lǐng)域技術(shù)人員所熟知的各種參數(shù))過濾擴(kuò)容后離子庫(kù),可以得到不同容量的子庫(kù)。如去除離子庫(kù)-expanded中搜索引擎鑒定的可信度小于90分的所有肽段得到子庫(kù)1,去除離子庫(kù)-expanded中搜索引擎鑒定的可信度小于80分的所有肽段得到子庫(kù)2,……子庫(kù)η。然后運(yùn)用PeakView軟件的SWATH插件,分別用各種子庫(kù)對(duì)要定量的SWATH數(shù)據(jù)進(jìn)行肽段的提取(提取設(shè)定SWATHFDR〈0.01),η種子庫(kù)會(huì)得到η個(gè)提取肽段的數(shù)目,最高數(shù)目所對(duì)應(yīng)的子庫(kù)即為優(yōu)化后的離子庫(kù)。
[0038]3、有益效果
[0039]I)本發(fā)明的方法提取SWATH RT與多個(gè)來(lái)源DDA數(shù)據(jù)各自的RT,然后運(yùn)用SWATHRT矯正DDA RT使得原本無(wú)法整合的多種來(lái)源的DDA數(shù)據(jù)可以得到整合,用于擴(kuò)增離子庫(kù)的
庫(kù)容量;
[0040]2)通過鑒定不同可信度的肽段可以(或得分)得到多個(gè)子庫(kù),進(jìn)而對(duì)子庫(kù)的比較優(yōu)化,有效規(guī)避了庫(kù)容量增加帶來(lái)的冗余信息的增加,進(jìn)而提高了擴(kuò)增后離子庫(kù)的利用率以及軟件處理時(shí)間。
[0041]附圖簡(jiǎn)述
[0042]圖1為SWATH RT提取流程;
[0043]圖2為多種來(lái)源DDA RT提取流程;
[0044]圖3為本發(fā)明方法和傳統(tǒng)方法所建離子庫(kù)在SWATH數(shù)據(jù)中挖掘蛋白數(shù)、肽段數(shù)的比較圖;
[0045]圖4為使用本發(fā)明方法與傳統(tǒng)方法所建離子庫(kù)挖掘肽段的SWATH得分比較
[0046]圖5為使用本發(fā)明方法與傳統(tǒng)方法所建離子庫(kù)的定量重復(fù)性比較
【具體實(shí)施方式】
[0047]實(shí)施例1:利用SDS-PAGE分離騰沖嗜熱菌蛋白擴(kuò)增離子庫(kù)
[0048]1.1材料樣本準(zhǔn)備
[0049]根據(jù)王敬強(qiáng)等人報(bào)道(Wang,J.; Zhao, C.;Meng, B.;Xie, J.; Zhou, C.; Chen,X.; Zhao, K.; Shao,J.; Xue,Y.; Xuj N.; Maj Y.; Liu,S.,The proteomic alterationsof Thermoanaerobacter tengcongensis cultured at different temperatures.Proteomics2007, 7(9), 1409-19.),用MB培養(yǎng)基培養(yǎng)騰沖嗜熱菌MB4T品系。根據(jù)陳真報(bào)道方法分別提取細(xì)菌的蛋白質(zhì)2,使用ImM巰基乙醇56攝氏度還原蛋白質(zhì)45分鐘,之后加入45mM碘代乙酰胺避光室溫孵育I小時(shí),得到巰基被封閉的蛋白樣品。用Bradford蛋白定量方法定量蛋白質(zhì),100微克每管分裝凍于零下八十度冰箱保存。
[0050]取100微克蛋白,加入2微克胰酶(Promega,質(zhì)譜級(jí))37攝氏度孵育12小時(shí)后,加入終濃度為0.1%三氟乙酸終止反應(yīng),稱為樣品I。
[0051]再取100微克蛋白使用SDS-PAGE分離技術(shù)電泳分離,之后凝膠切為15份,分別做膠內(nèi)酶解,稱為樣品2。此部分肽段用以擴(kuò)增離子庫(kù)的構(gòu)建。
[0052]1.2利用SDS-PAGE分離蛋白質(zhì)結(jié)合質(zhì)譜多針DDA鑒定分析擴(kuò)增離子庫(kù):
[0053]質(zhì)譜儀分析樣品:[0054]取5微克樣品1,用ABSCIEX Triple-T0F5600的IDA模式進(jìn)行掃描得到數(shù)據(jù),記為IDA-U ;再取5微克樣品I用5600的SWATH模式掃描得到數(shù)據(jù),記為SWATH-U ;樣品2的15個(gè)肽段組分分別用5600的IDA模式進(jìn)行掃描,得到數(shù)據(jù)分別記為IDA-1,……,IDA_15。質(zhì)譜儀主要參數(shù)如下:
[0055]IDA模式:先進(jìn)行250毫秒一級(jí)掃描,之后選取一級(jí)譜中最高的、多電荷的30個(gè)離子分別進(jìn)行隔離與二級(jí)碎裂得到二級(jí)譜。SWATH模式:先進(jìn)行250毫秒的一級(jí)掃描,之后以25道爾頓為窗口從400到1200荷質(zhì)比范圍依次隔離并碎裂32次得到32張混合二級(jí)譜。二級(jí)分辨率設(shè)為一萬(wàn)五千。
[0056]用ProteinPilot (默認(rèn)參數(shù))軟件分別搜索IDA-1到IDA-15的數(shù)據(jù),得到數(shù)據(jù)分別記為GR0UP-1到GR0UP-15。同“SWATH RT提取”一節(jié)的操作一樣,可以得到15個(gè)IDA數(shù)據(jù)對(duì)應(yīng)的15個(gè)離子庫(kù)(記為離子庫(kù)-1到離子庫(kù)-15),以及對(duì)應(yīng)的保留時(shí)間列表,記為DDART-1 到 DDA RT-15。
[0057]SWATH RT 提取
[0058]用ProteinPilot的默認(rèn)參數(shù)軟件搜索IDA-U,得到數(shù)據(jù)記為GR0UP-U。將數(shù)據(jù)GROUP-U與SWATH-U先后導(dǎo)入PeakView,選取可信度參數(shù)大于99,SWATH FDR小于0.01,其他參數(shù)使用默認(rèn)參數(shù),然后點(diǎn)擊處理按鈕(Process),得到結(jié)果文件記為SWATH-R。使用Excel打開SWATH-R中的離子庫(kù)(1nlibrary),該離子庫(kù)記為離子庫(kù)-U。根據(jù)離子庫(kù)-U中的可信度(Confidence)信息,將可信度小于99的所有行全部刪除。之后刪除除肽段(Peptide)與保留時(shí)間(Updated RT)兩列外所有列的信息。保存剩余兩列為Excel格式文件,命名SWATH RT。
[0059]SWATH RT矯正15針DDA RT得到矯正后離子庫(kù):
[0060]以DDA RT-1為例,將SWATH RT與DDA RT-1拷貝到一個(gè)excel中,找到兩個(gè)文件中共有的肽段,以及這些肽段對(duì)應(yīng)的SWATH RT與DDA RT。選取SWATH RT與DDA RT兩列數(shù)據(jù)做散點(diǎn)圖,并得到兩列數(shù)據(jù)的擬合公式(如y=ax+b, y=ax2+bx+c等各種擬合方程)。將離子庫(kù)-1中所有肽段的保留時(shí)間代入公式中,可以得到每個(gè)肽段對(duì)應(yīng)的新的保留時(shí)間,用每個(gè)肽段新的保留時(shí)間替代原來(lái)的保留時(shí)間,并加入GR0UP-1數(shù)據(jù)中的碎片離子強(qiáng)度等信息,即得到矯正后的離子庫(kù)-1,記錄為離子庫(kù)-1-矯正。同法可以得到其他14個(gè)離子庫(kù)對(duì)應(yīng)的矯正后的離子庫(kù)。
[0061]用記事本打開15個(gè)矯正后離子庫(kù),并合并到一起,成為一個(gè)大的離子庫(kù),記錄為“離子庫(kù)-合并”。將離子庫(kù)-合并用Excel打開,按照肽段序列排序,如出現(xiàn)某個(gè)肽段有η行記錄,則計(jì)算η行記錄中該肽段保留時(shí)間的中位數(shù),填寫到第一行,其他行刪除。同法可以將所有重復(fù)肽段進(jìn)行去冗余,最終得到離子庫(kù)中每條肽段只有一行記錄,記為“離子庫(kù)-expanded,,。
[0062]離子庫(kù)容量?jī)?yōu)化
[0063]用Excel打開離子庫(kù)-去冗余文件,根據(jù)可信度排序,刪除其中可信度小于99的所有肽段,剩余部分文件保存為一個(gè)字離子庫(kù),命名為離子庫(kù)-99。同法可以得到離子庫(kù)80,離子庫(kù)30與離子庫(kù)-O。用PeakView軟件分別這四個(gè)離子庫(kù)與SWATH-U進(jìn)行肽段挖掘,結(jié)果表一所示。表一顯示離子庫(kù)-99所得到的肽段最多,所以該離子庫(kù)即為該發(fā)明最終建立并優(yōu)化得到的離子庫(kù)。[0064]1.3擴(kuò)增離子庫(kù)質(zhì)量評(píng)估
[0065]本發(fā)明擴(kuò)增后離子庫(kù)記為離子庫(kù)-99。目前已知公開的離子庫(kù)建立僅限于I針DDA數(shù)據(jù),與本發(fā)明建立過程中的離子庫(kù)-U相同。所以比較離子庫(kù)-99與離子庫(kù)-U,可以實(shí)現(xiàn)比較本發(fā)明方法與傳統(tǒng)方法的目的。
[0066]運(yùn)用1.2中所述的質(zhì)譜儀的SWATH模式(以及相同的參數(shù))對(duì)5微克樣品I再次進(jìn)行掃描,共做四次重復(fù)上機(jī)。使用PeakView軟件,分別用傳統(tǒng)方法與本發(fā)明方法的離子庫(kù)對(duì)這四次重復(fù)上機(jī)的SWATH數(shù)據(jù)進(jìn)行質(zhì)譜信號(hào)的挖掘與解析,我們從鑒定肽段數(shù)目、鑒定肽段質(zhì)量、鑒定質(zhì)譜信號(hào)重復(fù)性三個(gè)角度進(jìn)行本發(fā)明方法與傳統(tǒng)方法的比較。
[0067]肽段數(shù)目比較:
[0068]如圖3所示,運(yùn)用本發(fā)明方法在四次SWATH數(shù)據(jù)中進(jìn)行肽段和蛋白的挖掘提取,不論肽段數(shù)還是蛋白數(shù),本發(fā)明方法均顯著高于傳統(tǒng)方法。所以本發(fā)明可以鑒定到更多肽段和的蛋白質(zhì)。
[0069]鑒定肽段質(zhì)量
[0070]上述結(jié)果表明,本發(fā)明所建立的離子庫(kù)可以提取到更多的肽段與蛋白質(zhì)。此外,我們比較了本發(fā)明個(gè)所建離子庫(kù)挖掘到肽段的鑒定質(zhì)量與傳統(tǒng)方法的離子庫(kù)挖掘得到肽段的鑒定質(zhì)量。SWATH得分代表了離子庫(kù)中的信息與SWATH數(shù)據(jù)譜圖的匹配程度,所以在此用SWATH得分代表鑒定肽段的質(zhì)量。如圖4所示,本發(fā)明所建立離子庫(kù)提取得到肽段的得分分布(實(shí)擬合曲線)比傳統(tǒng)方法提取得到肽段的得分分布(虛擬合曲線)偏高。即表明,與傳統(tǒng)的離子庫(kù)建立方法向比較,本發(fā)明所建立離子庫(kù),可以提取到不但更多,而且肽段質(zhì)量仍然很好的肽段。
[0071]鑒定質(zhì)譜信號(hào)重復(fù)性比較:
[0072]SWATH采集數(shù)據(jù)的肽段碎片離子的色譜峰面積是用于蛋白定量的基本信息來(lái)源,所以我們用傳統(tǒng)方法與本發(fā)明方法離子庫(kù)對(duì)SWATH數(shù)據(jù)的肽段的碎片離子的面積進(jìn)行提取,統(tǒng)計(jì)所提取到碎片離子在四次SWATH重復(fù)后的變異系數(shù)(Coefficient Varies, CV)0此變異系數(shù)的高低直接關(guān)系到所建立離子庫(kù)用于定量分析的重復(fù)性。如圖5所示,可以看出本發(fā)明方法與傳統(tǒng)方法所建立離子庫(kù)提取到的質(zhì)譜信號(hào)的變異系數(shù)分布趨勢(shì)基本一致,沒有明顯差異。表明兩種方法提取得到的質(zhì)譜信號(hào)都可以較好用于定量蛋白質(zhì)組研究。
【權(quán)利要求】
1.一種建立蛋白樣品SWATH離子庫(kù)的方法,其特征在于,所述方法包括: Ca)獲取所述蛋白樣品的SWATH RT和所述蛋白樣品的η個(gè)DDA數(shù)據(jù); (b)將所述η個(gè)DDA數(shù)據(jù)進(jìn)行檢索以獲取η種來(lái)源的DDA數(shù)據(jù)的保留時(shí)間(DDART-n); (c)將所述SWATHRT與每個(gè)所述DDA RT_n進(jìn)行回歸分析,得到η個(gè)不同的回歸公式y(tǒng)l=f(xl),……,yn=f(xn),其中y代表DDA RT_n,x代表SWATH RT,并獲得矯正后的DDART,記錄為 DDA RT-C-1,......,DDA RT_C_n ; (d)用所述DDART-C構(gòu)建得到η個(gè)矯正后的離子庫(kù):離子庫(kù)-1,……,離子庫(kù)-η;和 Ce)將所獲得η個(gè)矯正后的離子庫(kù)合并,并且用鑒定得分標(biāo)準(zhǔn)優(yōu)化擴(kuò)容后離子庫(kù),得到不同容量的子庫(kù); 其中η為大于等于I的整數(shù), 其中任選地,步驟(b)中的檢索獲得碎片離子質(zhì)荷比、保留時(shí)間、可信度和或相對(duì)強(qiáng)度信息,并且將這些信息包含在所述步驟(d)中所獲得的矯正后的離子庫(kù)中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(e)中將離子庫(kù)合并后優(yōu)化擴(kuò)容前對(duì)合并后的離子庫(kù)進(jìn)行去冗余處理。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,其中通過對(duì)所述蛋白樣品進(jìn)行η次DDA分析來(lái)獲取所述蛋白樣品的η個(gè)DDA數(shù)據(jù)。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,其中η在1-100之間。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,其中用于獲取SWATHRT和每一個(gè)DDA數(shù)據(jù)的所述蛋白樣品是相同或不同來(lái)源的蛋白樣品。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法,其特征在于,其中所述回歸分析為線性回歸分析或非線性回歸分析。
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,其中所述去冗余處理包括對(duì)于具有m行記錄肽段計(jì)算m行記錄中所述肽段保留時(shí)間的中位數(shù)作為最終保留的肽段保留時(shí)間,并刪除其余記錄,以使得最終得到離子庫(kù)中每條肽段只有一行記錄,其中0〈m ( η。
8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法,其中步驟(e)中通過去除離子庫(kù)-expanded中搜索引擎鑒定的可信度小于X分的所有肽段來(lái)過濾擴(kuò)容后離子庫(kù),其中X為 90、80、70、60 或 50。
9.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法在蛋白質(zhì)組學(xué)相關(guān)研究中的定量應(yīng)用。
10.一種蛋白樣品離子庫(kù),其特征在于采用如權(quán)利要求1至7中任一項(xiàng)所述的方法建立。
11.一種校對(duì)蛋白樣品SWATH離子庫(kù)的方法,其特征在于,所述方法包括: Ca)建立待測(cè)蛋白樣品的SWATH RT ; (b)將步驟(a)所述SWATHRT與已有SWATH離子庫(kù)的每個(gè)DDA RT-n進(jìn)行回歸分析,得到η個(gè)不同的回歸公式y(tǒng)l=f (xl),......,yn=f (xn),其中y代表DDA RT-n, x代表SWATHRT,并獲得矯正后的DDA RT,記錄為)DDA RT-C-1,……,DDA RT-C-n ; (c)將所述SWATHRT與每個(gè)所述DDA RT_n進(jìn)行回歸分析,得到η個(gè)不同的回歸公式y(tǒng)l=f(xl),……,yn=f (xn),其中y代表DDA RT-n, x代表SWATH RT,并獲得矯正后的DDART,記錄為 DDA RT-C-1,......,DDA RT-C-n ; (d)用所述DDART-C構(gòu)建得到η個(gè)矯正后的離子庫(kù):離子庫(kù)-1,……,離子庫(kù)-η;和(e)將所獲得η個(gè)矯正后的離子庫(kù)合并,并且用鑒定得分標(biāo)準(zhǔn)優(yōu)化擴(kuò)容后離子庫(kù),得到不同容量的子庫(kù); 其中η為大于等于I的整數(shù), 其中任選地,步驟(b)中的檢索獲得碎片離子質(zhì)荷比、保留時(shí)間、可信度和或相對(duì)強(qiáng)度信息,并且將這些 信息包含在所述步驟(d)中所獲得的矯正后的離子庫(kù)中。
【文檔編號(hào)】G01N27/62GK103995042SQ201410121349
【公開日】2014年8月20日 申請(qǐng)日期:2014年3月28日 優(yōu)先權(quán)日:2014年3月28日
【發(fā)明者】訾金, 林梁, 劉斯奇, 章申燕 申請(qǐng)人:深圳華大基因研究院