一種用于利用測序數(shù)據(jù)將肽映射到蛋白質的計算方法
【專利摘要】本發(fā)明公開了一種用于生物樣本的蛋白質組分析的方法,該方法包括獲取目標列表中的蛋白質的肽序列;以及通過將所獲取的肽序列映射到蛋白質組數(shù)據(jù)庫中的蛋白質上來識別鑒定生物樣本中的蛋白質,其中所述目標列表利用生物樣本中的RNA轉錄物的信息而被確定所述目標列表,并且/或者所述目標列表利用所述生物樣本中的RNA轉錄物的信息而被確定所述目標列表。所述肽序列利用質譜儀而被確定所述肽序列。所述映射基于RNA轉錄物的信息在蛋白質子集上被執(zhí)行所述映射。
【專利說明】一種用于利用測序數(shù)據(jù)將肽映射到蛋白質的計算方法
【技術領域】
[0001]本發(fā)明涉及蛋白質組學,尤其涉及用于利用質譜儀數(shù)據(jù)進行蛋白質分析的工作流程。
【背景技術】
[0002]近來對個性化醫(yī)療的推進需要對個體中的各種生物分子進行更高效的分析。這通常涉及分析病人的蛋白質組。蛋白質組可以被定義為用由基因組表達的蛋白質。蛋白質表達(既而蛋白質組)可能例如隨著個體生理條件的變化或者隨著病理或藥物治療的進行而因時而異。
[0003]蛋白質組分析通常利用液相色譜法(LC)結合串聯(lián)質譜法(MS/MS)而被執(zhí)行進行。這些技術已經成為用于蛋白質識別鑒定的重要工具,因為它們可以快速且地以高敏感度地識別鑒定復雜的蛋白質混合物。在典型的方法中,一種將蛋白質混合物被消化(通常利用胰蛋白酶)為肽,被分離分級(例如利用LC)并且通過質譜法(MS/MS)被分析。得到的胰蛋白酶片段的MS數(shù)據(jù)隨后被用于推斷或識別鑒定父親本蛋白質,這可以通過自動數(shù)據(jù)庫搜索來實現(xiàn)。
[0004]圖1示出了圖示蛋白質組分析的一般過程的流程圖。如圖所示,方法10開始于準備用于分析的樣本(步驟11),該步驟可以包括蛋白質的消化(通常利用胰蛋白酶)和片段的分離。然后,對消化后的肽片段被進行質譜儀分析(步驟12),該步驟通常包括對所有肽片段的全面掃描(或者調查全譜掃描)。一些肽片段(例如,更多冗余豐度較高的片段)被進行串聯(lián)質譜儀(MS/MS)分析以闡釋肽序列(步驟13)。然后,使用肽序列被用于搜索數(shù)據(jù)庫以識別父鑒定親本蛋白質(步驟14)。
[0005]這種方法理論上可以實現(xiàn)對樣本中的所有蛋白質的識別鑒定。這種方法可以被稱為鳥槍法。然而,利用這種“鳥槍”法的蛋白質識別鑒定非常有難度并且需要很多資源。一種替代方法是被稱為針對性蛋白質組分析的方法,在該方法中只分析目標列表中的蛋白質。
[0006]對于針對性蛋白質組分析,對質譜數(shù)據(jù)的處理通常涉及兩個主要步驟:識別鑒定目標蛋白質和對目標蛋白質的質譜儀分析,如圖2中所示,圖2示出了方法20,該方法包括生成用于分析的目標蛋白質的列表的步驟(步驟21),接著利用質譜法(例如MS/MS)和肽到蛋白質的映射(即利用肽序列搜索數(shù)據(jù)庫)進行蛋白質分析(例如利用肽序列搜索數(shù)據(jù)庫;步驟22) ο
[0007]目標蛋白質列表的生成(步驟21)通常基于調查全譜質譜儀分析來根據(jù)相對豐度或其它差異特性識別鑒定感興趣的蛋白質或肽。利用MS/MS和肽映射所進行的定向肽測量(步驟22)可以包括與圖1中所示的過程相同的過程,只是步驟22不同之處在于將對列表中的蛋白質執(zhí)行MS/MS測量。
[0008]鳥槍蛋白質組分析方法(圖1)和針對性蛋白質組分析方法(圖2)都是通過利用測得的肽序列搜索數(shù)據(jù)庫來識別鑒定蛋白質并且通過測得的肽豐度的集合推斷蛋白質豐度。這些過程通常涉及龐大的數(shù)據(jù)庫,通過該數(shù)據(jù)庫經消化的肽被映射到可能的蛋白質。這種方法受到以下問題的困擾:假陽性映射和大量可能異構體的混合存在,這些可能的異構體難以僅僅根據(jù)蛋白質數(shù)據(jù)庫進行辨別。因此,根據(jù)肽數(shù)據(jù)的被預測蛋白質的錯誤集合包含假陽性。這可能導致大量的推定的蛋白質預測,這可能是很難在生物環(huán)境中進行分析的。此外,在針對性質譜蛋白質組分析方法中,目標肽識別鑒定傳統(tǒng)上是基于相關豐度測量的,這可能導致目標特異性的缺失。這會導致被錯認為目標的肽,進而使得在MS/MS階段的肽到蛋白質的映射變得復雜。
【發(fā)明內容】
[0009]本發(fā)明的一個方面涉及用于生物樣本中的蛋白質組分析的方法。根據(jù)本發(fā)明的一個實施例的方法包括獲取目標列表中的蛋白質的肽序列;以及通過將所獲取的肽序列映射到蛋白質組數(shù)據(jù)庫中的蛋白質上來識別鑒定所述生物樣本中的蛋白質,其中所述目標列表利用所述生物樣本中的RNA轉錄物的信息而被確定,并且/或者所述目標列表利用所述生物樣本中的RNA轉錄物的信息而被確定。
[0010]根據(jù)一些實施例,肽序列可以利用質譜儀而被確定肽序列。目標列表可以利用RNA轉錄物的信息而被確定目標列表。
[0011]根據(jù)本發(fā)明的一些實施例,映射可以在蛋白質組數(shù)據(jù)庫中的蛋白質子集上被執(zhí)行映射,其中所述蛋白質子集基于生物樣本中的RNA轉錄物的信息而被來選擇所述蛋白質子集。所述被識別可以將鑒定的蛋白質可以被與所述RNA轉錄物的信息進行比對檢查,以去除與所述RNA轉錄物中的任何信息都不相對應的蛋白質。
[0012]根據(jù)本發(fā)明的一些實施例,可以將所述被識別鑒定的蛋白質可以被與所述RNA轉錄物的可信指數(shù)進行比對檢查。所述可信指數(shù)通過包括以下步驟的過程被獲取所述可信指數(shù):(i)將所述RNA轉錄物中的每一個種與根據(jù)所述RNA轉錄物預測的蛋白質聚集集合體表達水平相關;(ii)將所述RNA轉錄物中的每一個種與從蛋白質組測量結果得到的聚集集合體蛋白質相關;以及(iii)基于對來自步驟(i)的相關結果和來自步驟(ii)的相關結果的比較,得到針對所述RNA轉錄物的可信指數(shù)。
[0013]在以上實施例中的任一實施例中,生物樣本中的RNA轉錄物的信息可以被用于確定蛋白質的目標列表。該目標列表可以基于生物系統(tǒng)的更多信息而被確定該目標列表。所述更多信息可以包括在兩種或更多種條件下蛋白質的差異表達。所述蛋白質的差異表達可以利用質譜儀或2D凝膠電泳而被確定。
[0014]以上實施例中的任一實施例中的RNA轉錄物可以是信使RNA (mRNA)。以上實施例中的映射可以在蛋白質組數(shù)據(jù)庫中的蛋白質子集上被執(zhí)行,其中所述蛋白質子集基于生物樣本中的mRNA轉錄物的信息而被選擇。
[0015]本發(fā)明的另一方面涉及用于生物樣本的轉錄組分析的方法。根據(jù)本發(fā)明的一個實施例的方法包括:執(zhí)行蛋白質組分析以獲取包括生物樣本中的蛋白質的身份和相對豐度的蛋白質組數(shù)據(jù);以及利用所述蛋白質組數(shù)據(jù)設計轉錄組或基因組研究,其中所述蛋白質組數(shù)據(jù)被用于根據(jù)DNA文庫設計序列富集或者設計DNA微陣列。
[0016]本發(fā)明的其它方面和優(yōu)點將通過以下描述和所附權利要求而變得更清楚?!緦@綀D】
【附圖說明】
[0017]圖1示出了說明傳統(tǒng)蛋白質組分析方法的過程的示意圖。
[0018]圖2示出了針對性蛋白質組分析方法的工作流程。
[0019]圖3示出了根據(jù)本發(fā)明的一個實施例的方法的工作流程,其中轉錄物序列信息被用于輔助蛋白質目標列表的確定并且/或者輔助利用映射到數(shù)據(jù)庫中的蛋白質上的肽序列進行的蛋白質識別鑒定。
[0020]圖4示出了根據(jù)本發(fā)明的一個實施例的方法的工作流程,其中mRNA信息被用于輔助蛋白質目標列表的確定并且/或者輔助利用映射到數(shù)據(jù)庫中的蛋白質上的肽序列進行的蛋白質識別鑒定。
[0021]圖5示出了說明根據(jù)本發(fā)明的一個實施例的將轉錄物與蛋白質相關的方法的流程圖。
[0022]圖6示出了可以結合本發(fā)明的實施例被使用的通用計算機。
具體實施例
[0023]如上所述,傳統(tǒng)的蛋白質組分析方法可能具有假陽性和假陰性識別鑒定的問題。本發(fā)明的實施例涉及針對具有改進的準確性的新穎蛋白質組分析方法的方法。本發(fā)明的方法利用包括針對性蛋白質組分析方法和轉錄組測序方法的新的聯(lián)合分析工作流程。根據(jù)本發(fā)明的實施例,來自轉錄組的信息(或者“轉錄組數(shù)據(jù)”)可以被用于輔助實現(xiàn)在針對性蛋白質組研究學中的目標蛋白質的選擇,或者被用于利用數(shù)據(jù)庫搜索中的肽序列提高蛋白質識別鑒定的準確性。轉錄組數(shù)據(jù)可以包括例如占主導的轉錄物異構體同種型、相對豐度信息、主要基因組序列身份、單個或和多個多態(tài)性、插入、缺失和移框移碼(frame shifts)。
[0024]根據(jù)本發(fā)明的實施例,為了提高用于針對性蛋白質組研究學的肽映射和肽識別鑒定的準確性,本發(fā)明的方法使用聯(lián)合分析工作流程,該工作流程利用樣本專用特異性的轉錄物序列信息結合同時測量的序列豐度測量結果。
[0025]這里所使用的“轉錄物序列信息”或“RNA轉錄物的信息”指細胞中的轉錄組的序列信息。如本領域中所公知的,轉錄組可以指代細胞中的所有RNA分子(包括mRNA、rRNA、tRNA和其它未編碼的RNA產物)或者細胞中的RNA分子的子集,例如mRNA分子。
[0026]轉錄物序列信息可以利用本領域中已知的任何測序和/或量化技術,例如DNA微陣列或者下一代測序(NGS)技術(包括RNA-seq)獲得。為了對RNA進行排序測序,通常的方法是對樣本進行反轉錄以生成cDNA分子,cDNA分子隨后可以利用DNA測序技術被排序,所述DNA測序技術可以是傳統(tǒng)測序技術或者下一代測序(NGS)技術。
[0027]RNA-seq指使用NGS高吞吐量高通量測序技術來對cDNA進行排序測序以得到關于樣本中的RNA含量的信息。RNA-seq為研究者提供了高效的方式以測量轉錄組數(shù)據(jù)(例如關于基因的等位基因的表達上有多么不同的信息),檢測突變或者識別鑒定基因融合物。
[0028]一旦RNA-seq NGS數(shù)據(jù)可用,人們就可以利用各種商業(yè)可用的程序(例如來自Agilent Technologies的GeneSpring?)來分析這些數(shù)據(jù)以得到諸如占主導的轉錄物異構體同種型、相對豐度信息和主要基因組序列身份之類的信息。這些所得到的數(shù)據(jù)又可以被用在任何合適的蛋白質組分析學程序(例如Agilent的Mass Qual?、Mass Hunter?、MassProfiler?Professional軟件產品)以進行蛋白質組分析,例如設計目標蛋白質列表和/或證實肽到蛋白質的映射。
[0029]根據(jù)本發(fā)明的實施例,來自轉錄物測序的信息可以被用在兩種分析方法中:
[0030]I該信息可以被用于增加肽水平處上的差分豐度信息,提高要在MS/MS分析中包括的目標肽的準確性。這可以利用任何合適的蛋白質組分析學程序來實現(xiàn),例如MassProfiler Professional?和 Mass Qual?(可從 Agilent Technologies 得到);并且 / 或者
[0031]2.在MS/MS分析之后,序列信息可以與蛋白質預測結果(例如利用AgilentTechnologies的Mass Hunter? Qualitative軟件預測的蛋白質)進行比較以縮減蛋白質候選者的列表。這將通過將蛋白質序列與NGS轉錄物異構體同種型測得的數(shù)據(jù)進行之間的匹配將增加高可信度的蛋白質推定結果。
[0032]根據(jù)本發(fā)明的實施例,轉錄物信息可以被用在上述步驟之一中或者用在這兩個步驟中(即,在初始蛋白質目標列表設計和/或后續(xù)的序列確認中)。在目標列表設計中,該軟件方法可以確保用于MS/MS分析的精確目標列表生成,而在后續(xù)對所預測的蛋白質的序列確認中,該方法可以提供有力的濾波器過濾以防止用于MS/MS研究的假陰性肽目標列表囊括在MS/MS研究中,和在并減少蛋白質預測算法中的假陽性減少。在后續(xù)序列確認中,對轉錄物序列信息的使用也可以被應用在鳥槍式蛋白質組分析方法中。
[0033]在所針對的定向蛋白質組分析方法中使用轉錄組信息的本發(fā)明的方法在圖3中被示出。如圖3中所示,方法30包括獲取RNA轉錄物序列信息(步驟31)。轉錄物序列信息可以包括例如占主導的轉錄物異構體同種型、相對豐度信息、主要基因組序列身份、單個或和多個多態(tài)性、插入、缺失和移框移碼。轉錄物序列信息隨后被用在針對性蛋白質分析方法中(步驟32),以輔助實現(xiàn)用于MS/MS測量的目標蛋白質列表的生成以及/或者根據(jù)MS/MS數(shù)據(jù)(即利用肽序列數(shù)據(jù))輔助實現(xiàn)肽到蛋白質的映射(即數(shù)據(jù)庫搜索)。
[0034]可被用于搜索的蛋白質數(shù)據(jù)庫可以是被用于傳統(tǒng)蛋白質組研究學的那些數(shù)據(jù)庫中的任意數(shù)據(jù)庫,例如人體蛋白質參考數(shù)據(jù)庫、國家生物技術信息中心(NCBI)、蛋白質數(shù)據(jù)銀行(PDB)、蛋白質信息資源(PIR)、蛋白質組學識別鑒定數(shù)據(jù)庫(PRIDE)、Swi ss-Prot或者UniProt0這些數(shù)據(jù)庫是本領域技術人員所熟知的。
[0035]根據(jù)本發(fā)明的一些實施例,轉錄組信息可以僅包括生物樣本中的RNA分子的子集,例如mRNA。只包括mRNA分子的轉錄組可能具有與生物樣本中的蛋白質組更直接的關系O
[0036]圖4示出了根據(jù)本發(fā)明的實施例的方法,該方法使用mRNA轉錄組信息結合蛋白質組信息。如圖4中所示,方法40可以包括從感興趣的樣本中對mRNA和蛋白質進行提純純化(步驟41)。提純純化可以利用本領域中已知的技術來實現(xiàn),包括使用商業(yè)上可用的試劑盒。
[0037]然后,mRNA分子被分析以識別鑒定出存在于樣本中的所有轉錄物的列表,而不管表達水平如何(步驟42)。對mRNA的分析可以利用本領域中已知的任何技術來執(zhí)行,例如DNA微陣列?;谒修D錄物的列表,由所有被表達的蛋白質構成的蛋白質數(shù)據(jù)庫可以被建立(步驟43)。
[0038]從樣本中提純純化的蛋白質可以利用質譜儀(例如MS/MS)被分析以產生蛋白質組信息(步驟44)。質譜儀分析可以利用樣本中的所有蛋白質或者利用目標列表中的蛋白質而被執(zhí)行,所述目標列表在mRNA信息的輔助下被建立。最后,蛋白質組信息(例如肽序列)隨后針對蛋白質數(shù)據(jù)庫而被搜索蛋白質組信息(例如肽序列)以識別鑒定蛋白質(步驟45),所述蛋白質數(shù)據(jù)庫已經利用mRNA轉錄物信息而被建立(見步驟43)。
[0039]如上所述,轉錄物信息可以被用于檢查或確認根據(jù)肽到蛋白質的映射(搜索數(shù)據(jù)庫)而被識別鑒定的蛋白質。轉錄物信息可以定性地被使用以幫助減少假陽性,不管特定蛋白質存在還是不是否存在于生物樣本中?;蛘?,轉錄物信息可以以更加定性定量的意義被使用以指示蛋白質識別鑒定的相對可信度。
[0040]例如,為了更好的理解轉錄組與蛋白質組的關系,可以執(zhí)行用于針對轉錄與翻譯的相關相互關系的分析方法可以被實現(xiàn)。然后,轉錄與翻譯的相關相互關系可以被用于增加所預測的蛋白質數(shù)據(jù)的列表。在這種方法中,例如來自轉錄組技術(例如RNA-seq)的測量數(shù)據(jù)和來自MS/MS實驗的肽數(shù)據(jù)例如可以在圖5中所示的過程50中被相關。
[0041]首先,每個每種轉錄物與從轉錄組分析得到的所預測的蛋白質聚集集合體表達水平進行相關(步驟51),并且每個每種轉錄物還與從蛋白質組分析得到的聚集集合體蛋白質的列表進行相關(步驟52)。然后,通過比較這些相關結果,轉錄物可信度可以針對聚集集合體蛋白質的列表中的每個每種蛋白質而被報告轉錄物可信度(步驟53)。根據(jù)本發(fā)明的實施例,這些轉錄物可信度指數(shù)可以被用于確認或評估在數(shù)據(jù)庫搜索中的肽到蛋白質映射的可靠性(可信度)。
[0042]此外,這些被相關的值的映射而非原始或標準化的值可以被應用在生物網(wǎng)絡或路徑層以說明針對轉錄組和蛋白質組兩者的細胞響應的機制。
[0043]雖然上述方法所需要的轉錄組和蛋白質組數(shù)據(jù)可以利用針對轉錄組數(shù)據(jù)的RNA-seq或NGS以及針對蛋白質組數(shù)據(jù)的MS技術而被得到獲得,但是應當注意本發(fā)明實施例所需要的轉錄組和蛋白質組數(shù)據(jù)可以利用任何合適的技術而被得到。換言之,本發(fā)明的實施例基于通用方法,所述通用方法依賴于來自轉錄組的序列水平數(shù)據(jù)和來自蛋白質組的肽水平數(shù)據(jù)的通用方法。該通用方法可以結合各種測量技術來使用。例如,對于蛋白質組數(shù)據(jù),可以使用其它肽測序技術(例如Edman降解)或蛋白質識別鑒定技術(例如抗體或ELISA (酶聯(lián)免疫吸附實驗)),并且對于轉錄組數(shù)據(jù),可以使用微陣列技術。
[0044]上述本發(fā)明的實施例基于先驗(a priori)轉錄組數(shù)據(jù)來輔助對蛋白質組數(shù)據(jù)的分析。這些方法基于轉錄組數(shù)據(jù)與蛋白質組數(shù)據(jù)之間的關系。按照類似的方式,該關系可以被反方向使用。因而,本發(fā)明的一些實施例涉及使用先驗蛋白質組數(shù)據(jù)(例如來自MS分析)來輔助對轉錄組數(shù)據(jù)的分析的方法,例如用以提高來自微陣列和/或下一代測序實驗的測量數(shù)據(jù)的質量。在該方法中,轉錄組蛋白質組數(shù)據(jù)可以被用作先驗知識,用于利用作為目標的針對性的基因組富集或定制的微陣列來設計匹配的實驗。這種對實驗方法的計算設計將在生物標志物發(fā)現(xiàn)、癌病癌癥研究和毒理基因組學研究中發(fā)現(xiàn)價值。
[0045]例如,根據(jù)本發(fā)明的實施例,蛋白質組數(shù)據(jù)可以被用于幫助設計豐富經富集的基因組文庫或者設計定制的微陣列。基因組文庫富集系統(tǒng)的示例如可得自AgilentTechnologies, Inc.(Santa Clara, CA)的 SureSelect? 系統(tǒng)。該 SureSelect? 系統(tǒng)利用基于生物素-親和素的選擇技術(即生物素化的誘餌序列和鏈霉親和素包被的磁珠吸附)來豐富富集感興趣的序列。該系統(tǒng)可以大大改善測序工作流程的成本和處理效率。根據(jù)本發(fā)明的實施例,蛋白質組數(shù)據(jù)可以被用于幫助設計富集序列(餌序列)以豐富從而富集文庫。
[0046]本發(fā)明的方法可以被包括在可用于基因組、蛋白質組或多組學數(shù)據(jù)分析的現(xiàn)有軟件中。具體而言,轉錄組數(shù)據(jù)與蛋白質組數(shù)據(jù)之間的相關相互關系可以利用多組學(基因組學、蛋白質組學、基因組學等)軟件而被方便地執(zhí)行??梢越Y合本發(fā)明的方法被使用的多組學軟件的一個示例如來自Agilent Technologies的GeneSpring?分析平臺。GeneSpring?分析平臺是一種用于將來自不同知識領域的細胞測量數(shù)據(jù)進行實際整合的多組學軟件解決方案。這種多組學分析方法可以結合本發(fā)明的方法被使用,以提高來自利用下一代測序數(shù)據(jù)(轉錄組數(shù)據(jù))的質譜蛋白質組實驗的測量數(shù)據(jù)的質量,或者提高來自利用蛋白質組數(shù)據(jù)的微陣列和/或下一代測序實驗的測量數(shù)據(jù)的質量。
[0047]本發(fā)明的實施例實際上可以在任何類型的計算機上被實現(xiàn),不管所使用何種的平臺是什么。例如,如圖6中所示,計算機系統(tǒng)(600)包括一個或多個處理器(602)、相關聯(lián)的存儲器(604)(例如隨機訪問存儲器(RAM)、緩存存儲器、閃存存儲器等)、存儲設備(606)(例如硬盤、諸如緊致盤驅動或數(shù)字視頻盤(DVD)驅動之類的光驅動、閃存存儲棒等)以及各種當今計算機典型的其它元件和功能(未示出)。計算機(600)還可以包括輸入裝置,例如鍵盤(608)、鼠標(610)或麥克風(未示出)。此外,計算機(600)可以包括輸出裝置,例如監(jiān)視器(612)(例如液晶顯示器(LCD)、等離子顯示器或者陰極射線管(CRT)監(jiān)視器)。計算機系統(tǒng)(600)可以經由網(wǎng)絡接口連接(未示出)被連接到網(wǎng)絡(614)(例如局域網(wǎng)(LAN)、諸如互聯(lián)網(wǎng)之類的廣域網(wǎng)(WAN)或者任何其它類似類型的網(wǎng)絡)。本領域技術人員將理解有很多不同類型的計算機存在,并且前述輸入和輸出裝置可以采用其它形式。更一般地說,計算機系統(tǒng)(600)至少包括實現(xiàn)本發(fā)明的實施例所需要的最少的處理、輸入和/或輸出裝置。
[0048]此外,本領域技術人員將理解前述計算機系統(tǒng)(600)的一個或多個元件可以位于遠程位置并且通過網(wǎng)絡連接到其它元件。此外,本發(fā)明的實施例可以在具有多個節(jié)點的分布式系統(tǒng)上被實現(xiàn),其中本發(fā)明的每個部分(例如顯示器、格式數(shù)據(jù)、分析設備等)可以位于分布式系統(tǒng)內的不同節(jié)點上。在本發(fā)明的一個實施例中,節(jié)點對應于計算機系統(tǒng)?;蛘?,節(jié)點可以對應于具有相關聯(lián)的物理存儲器的處理器。節(jié)點還可以對應于具有共享存儲器和/或資源的處理器。此外,執(zhí)行本發(fā)明的實施例的軟件指令可以被存儲在諸如緊致盤(CD)、軟盤、磁帶、文件或者任何其 它計算機可讀存儲設備之類的計算機可讀介質上。
[0049]本發(fā)明的實施例的優(yōu)點可能包括以下優(yōu)點中的一個或多個。本發(fā)明的實施例利用多組學方法來幫助提高蛋白質組分析的準確性。本發(fā)明的方法利用轉錄組數(shù)據(jù)來輔助目標蛋白質列表的生成并且/或者利用肽到蛋白質的映射來改善蛋白質的識別鑒定。本發(fā)明的方法利用基于轉錄組水平數(shù)據(jù)和蛋白質組水平數(shù)據(jù)的通用方法,而不管什么使用何種技術被用來獲取這些數(shù)據(jù)。因此,本發(fā)明的方法可以結合各種技術被使用。
[0050]雖然已針對有限個實施例對本發(fā)明進行了描述,但是本領域技術人員在考慮了本公開的情況下將理解不脫離這里所公開的本發(fā)明的范圍的其它實施例也可以被設計。因此,本發(fā)明的范圍應當僅由所附權利要求限定。
【權利要求】
1.一種用于生物樣本的蛋白質組分析的方法,包括: 獲取目標列表中的蛋白質的妝序列;以及 通過將所獲取的肽序列映射到蛋白質組數(shù)據(jù)庫中的蛋白質上來識別鑒定所述生物樣本中的蛋白質, 其中所述目標列表利用所述生物樣本中的RNA轉錄物的信息而被確定所述目標列表,并且/或者所述目標列表利用所述生物樣本中的RNA轉錄物的信息而被確定所述目標列表。
2.根據(jù)權利要求1所述的方法,其中所述肽序列利用質譜儀而被確定所述肽序列。
3. 根據(jù)權利要求1所述的方法,其中所述映射在所述蛋白質組數(shù)據(jù)庫中的蛋白質子集上被執(zhí)行所述映射,其中所述蛋白質子集基于所述生物樣本中的所述RNA轉錄物的信息而被選擇所述蛋白質子集。
4.根據(jù)權利要求1所述的方法,其中將所述被識別鑒定的蛋白質被與所述RNA轉錄物的信息進行比對檢查,以去除與所述RNA轉錄物中的任何信息都不相對應的蛋白質。
5.根據(jù)權利要求1所述的方法,其中將所述被識別鑒定的蛋白質被與所述RNA轉錄物的可信指數(shù)進行比對檢查。
6.根據(jù)權利要求15所述的方法,其中所述可信指數(shù)通過包括以下步驟的過程被獲取所述可信指數(shù): (i)將所述RNA轉錄物中的每一個種與根據(jù)所述RNA轉錄物預測的蛋白質聚集集合體表達水平相關; (?)將所述RNA轉錄物中的每一個種與從蛋白質組測量結果得到的聚集集合體蛋白質相關;以及 (iii)基于對來自步驟⑴的相關結果和來自步驟(ii)的相關結果的比較,得到針對所述RNA轉錄物的可信指數(shù)。
7.根據(jù)權利要求1所述的方法,其中使用所述生物樣本中的所述RNA轉錄物的信息被用于確定所述目標列表,并且所述目標列表還基于生物系統(tǒng)的信息而被確定所述目標列表。
8.根據(jù)權利要求7所述的方法,其中所述生物系統(tǒng)的信息包括在兩種條件下蛋白質的差分差異表達的信息。
9.根據(jù)權利要求8所述的方法,其中所述蛋白質的差分表達通過二維凝膠電泳或者通過質譜儀分析而被識別鑒定所述蛋白質的差分表達。
10.根據(jù)權利要求1所述的方法,其中所述RNA轉錄物的信息包括信使RNA(mRNA)轉錄物的信息。
11.根據(jù)權利要求10所述的方法,其中所述映射在所述蛋白質組數(shù)據(jù)庫中的蛋白質子集上被執(zhí)行所述映射,其中所述蛋白質子集基于所述生物樣本中的所述mRNA轉錄物的信息而被選擇。
12.一種用于生物樣本的轉錄組分析的方法,包括: 執(zhí)行蛋白質組分析以獲取包括所述生物樣本中的蛋白質的身份和相對豐度的蛋白質組數(shù)據(jù);以及 利用所述蛋白質組數(shù)據(jù)設計轉錄組或基因組研究,其中所述蛋白質組數(shù)據(jù)被用于根據(jù)DNA文庫設計序列富集或者`設計DNA微陣列。
【文檔編號】G06F19/22GK103488913SQ201310174311
【公開日】2014年1月1日 申請日期:2013年5月13日 優(yōu)先權日:2012年6月13日
【發(fā)明者】邁克爾·詹尼斯, 于岡海瑞·銳迪 申請人:安捷倫科技有限公司