一種蛋白質結構指紋數(shù)據(jù)庫的制作方法
【技術領域】
[0001] 本發(fā)明涉及一種蛋白質結構指紋數(shù)據(jù)庫,屬于生物信息學領域。
【背景技術】
[0002] 從1940年確定蛋白質結構中含有有規(guī)則的螺旋和片狀結構以來,結構生物化學 家一直在繼續(xù)努力解讀蛋白質三維折疊結構。到目前為止(2015年),全球共享的蛋白質數(shù) 據(jù)庫(PDB)已經(jīng)積累了將近十二萬以上的蛋白質三維結構數(shù)據(jù)^目前對蛋白質空間三維 構象的解析只局限于二級結構和一些簡單鏈接^^'^^^''對于大約仙^左右的 無不規(guī)則的三級結構的解析基本上處于空白 14'15'16。目前全球蛋白質數(shù)據(jù)庫對已知蛋白結 構的解析只局限到二級結構,對無規(guī)則的三級結構只能用直線段表示。完全解讀蛋白質結 構,包括了解蛋白質的三級結構,對于蛋白質的生物功能和活性,以及生物醫(yī)藥研究和藥物 設計具有重要意義。
[0003] 蛋白質的三維空間結構可以通過X射線晶體學或者核磁共振技術來測定的。如何 直接從一個蛋白質三維圖像或者原始數(shù)據(jù)提取信息是十分困難的問題。如何從蛋白質數(shù)據(jù) 庫已經(jīng)積累的大量數(shù)據(jù)中提取信息就是一個更困難的問題。蛋白結構生物化學家所面臨的 關鍵問題之一是如何完整地描述蛋白質的折疊構象。另外,蛋白質的氨基酸序列和空間構 象和其生物功能密切相關。如何將蛋白質的氨基酸序列和空間構象和其生物功能相關起 來,也是一個很有意義的課題。由于蛋白結構的復雜性,完全理解某個蛋白結構已經(jīng)不是容 易的課題。目前蛋白質數(shù)據(jù)庫(PDB)已經(jīng)積累了豐富的數(shù)據(jù),如何從大量的蛋白數(shù)據(jù)中提 取和發(fā)現(xiàn)有意義的信息支持生物醫(yī)藥研究面臨巨大的挑戰(zhàn)。為了解決這些問題,發(fā)明人在 專利ZL200880003164. 2中用27個蛋白質折疊形狀碼來描述蛋白質中連續(xù)的五個氨基酸的 結構。在此基礎上,依據(jù)全球蛋白數(shù)據(jù)庫(PDB)的全部數(shù)據(jù),本發(fā)明建立了一個全新的蛋白 質結構指紋數(shù)據(jù)庫(PSF-PDB)。
【發(fā)明內容】
[0004] 本發(fā)明提供的蛋白質結構指紋數(shù)據(jù)庫,包含四條蛋白結構指紋。蛋白質結構的指 紋(PSF)是將蛋白質的結構信息轉化為由字符串組成的指紋表示。主要有四條指紋:氨基 酸序列,蛋白質折疊形狀碼,物理化學性質和向量偶合組成。
[0005] 1.氨基酸序列
[0006] 蛋白質是由20個氨基酸的不同排序組成的多肽生物分子。蛋白質由幾十個甚至 到上千個氨基酸排序組成。蛋白質的每個殘基可以由單字母的氨基酸表示。構成指紋代表 其一級結構。
[0007] 2.蛋白質折疊形狀碼(PFSC)
[0008] 在專利ZL200880003164. 2中,發(fā)明人開發(fā)的蛋白質折疊形狀碼(PFSC),為描述蛋 白結構指紋創(chuàng)立了基礎。通過數(shù)學推導得到一組27向量,這組向量能夠覆蓋任何五個連續(xù) 氨基酸殘基所有可能的折疊形狀。用26英文字母加上符號形成27蛋白質折疊形狀碼 (PFSC),與27個向量一一對應。因此,任何已知具有三維結構的蛋白質可以轉化為一維的PFSC字母表示。對于蛋白質結構,PFSC碼的表達可以從N-端開始至C-端結束,涵蓋每5 個氨基酸的折疊構象,沒有任何遺漏和缺失,包括二級結構片段和三級結構片段。最重要的 特點是,所有27PFSC向量具有相關性,可以對蛋白質構象的相似性進行定量評價。
[0009] 3.物理化學性質
[0010] 每一個氨基酸殘基的主要性能取決于側鏈的功能。側鏈的性質大致分為七類,如 疏水性,酸性或堿性和其他特殊功能基團,并且每個屬性由單字母代表其功能。物理化性質 用7個字符分別表示。極性用N表示,電性S,酸性A,堿性B,芳香性0,親水性H,憎水性P。
[0011] 4.向量偶合
[0012] 每5個氨基酸的肽段形成折疊構象。每個肽段的兩端可以分別具有不同的折疊特 征,螺旋折疊用a表示,片狀折疊用b表示,無規(guī)則折疊用*表示。因此可定義9種向量:a- >a,b->b,a->b,b一>a, *->a,a一>*, *一>b,b一>*,*一>*。相鄰的兩個向量共用四個 氨基酸形成向量親合。例如,V折疊碼的向量是b-〉a,A折疊碼的向量是a-〉a。a表示螺 旋特征,b表示片狀特征。VA兩個向量偶合即b-〉aa-〉a。這個向量偶合說明V向量的C 端是螺旋特征,A向量的N端也是螺旋特征,這兩個向量很好的共用之間的4個氨基酸。再 舉例說明,BVA折疊碼的連接,用向量表示為b->bb一>aa一>a。
[0013] 本發(fā)明的蛋白質結構指紋數(shù)據(jù)庫,還可以包括一條指紋:支鏈幾何空間。每一個氨 基酸殘基的側鏈空間大小不相同,而且空間旋轉柔性不相同。采用單字母代表氨基酸殘基 的側鏈空間的性質。大的側鏈用L表示,小側鏈S,非常小側鏈T,不能旋轉H。
[0014] 所述蛋白質折疊形狀碼,為27個,對應27個描述五個連續(xù)氨基酸殘基的折疊形狀 的向量。
[0015] 在蛋白質結構的指紋(PSF)基礎上,我們將全球共享蛋白數(shù)據(jù)庫(PDB)中超過 十一萬蛋白質結構數(shù)據(jù)全部轉化為蛋白質結構的指紋(PSF),構建了全球唯一蛋白結構指 紋數(shù)據(jù)庫(PSF-PDB)。
[0016] 對于每一個蛋白質結構,全球共享蛋白數(shù)據(jù)庫(PDB)中通常需要數(shù)千行的數(shù)據(jù)來 表示,到目前(2015年7月)為止,11萬蛋白結構在計算機需要大約63兆(G)的儲存空間, 數(shù)據(jù)量大,檢索困難。在本發(fā)明提供的蛋白結構指紋數(shù)據(jù)庫中,每一個蛋白只有要四行或五 行文字描述,計算機總共只需要大約0.325兆(G)的儲存空間,儲存空間壓縮到二百分之 一。因此,大大減少了數(shù)據(jù)儲存量,加快了檢索速度,擺脫必須依賴超級大型計算機或者大 量計算機組合資源的局面,可以實現(xiàn)個人電腦運作。
【附圖說明】
[0017] 圖1,蛋白質結構指紋數(shù)據(jù)庫格式:只有五行的數(shù)據(jù)。
[0018] 圖2,舒尼替尼藥物蛋白結合靶點區(qū):高通量篩選過程中,對蛋白指紋相似性的定 量評分。
[0019] 圖3,舒尼替尼藥物蛋白結合靶點區(qū):依據(jù)蛋白指紋對比評分實現(xiàn)高通量篩選。
【具體實施方式】
[0020] 本發(fā)明提供的蛋白質結構指紋數(shù)據(jù)庫,包含四條表示蛋白結構指紋的字符串,由 氨基酸序列,蛋白質折疊形狀碼,物理化學性質和向量偶合組成。
[0021] 1)氨基酸序列,由表示組成蛋白質的氨基酸的字母串組成,代表其一級結構;
[0022] 2)蛋白質折疊形狀碼
[0023] 所述蛋白質折疊形狀碼,為27個,由26英文字母加上"$"符號組成,對應27個描 述五個連續(xù)氨基酸殘基的折疊形狀的向量;
[0024] 3)物理化學性質
[0025] 表示每一個氨基酸殘基側鏈的物理化性質,用7個字符分別表示,極性用N表示, 電性S,酸性A,堿性B,芳香性0,親水性H,憎水性P;
[0026] 4)向量偶合
[0027] 每5個連續(xù)氨基酸形成的肽段的兩端分別具有不同的折疊特征,螺旋折疊用a表 示,片狀折疊用b表示,無規(guī)則折疊用*表示,定義9種向量:a->a,b->b,a->b,b- >a,*一〉a,a- >*,*一〉b,b- >*,*一>*來描述每個肽段的折疊特征,相鄰的兩個肽段共用 四個氨基酸形成向量耦合。
[0028] 還可以包括一條結構指紋:支鏈幾何空間。表示每一個氨基酸殘基的側鏈空間大 小,大的側鏈用L表示,小側鏈S,非常小側鏈T,不能旋轉Η;
[0029] 2)中的蛋白質折疊形狀碼,對應27個描述五個連續(xù)氨基酸殘基的折疊形狀的向 量。如同在專利ZL200880003164. 2中描述,所述向量通過以下方法構建:
[0030]Α)取蛋白質中每五個連續(xù)的氨基酸作為一個基本單元;
[0031]Β)計算每個基本單元中的第一個二面角,該二面角是第一,第二,第三個氨基酸決 定的平面與第二、第三、第四個氨基酸決定的平面的夾角;該二面角為al,a2,a3所確定的 范圍之一;
[0032] C)計算每個基本單元中的第二個二面角,該二面角是第二、第三、第四個氨基酸決 定的平面與第三、第四、第五個氨基酸決定的平面的夾角,該二面角為bl,b2,b3所確定的 范圍之一;
[0033] D)計算每個基本單元中的第一與第五個氨基酸之間的伸張距離,所述伸張距離為 cl,c2,c3所確定的范圍之一;
[0034]E)依據(jù)步驟B,C,D得到的數(shù)值確定每個基本單元的向量。
[0035]所述al從 0。~130。,a2 從 130。~-130。,a3 從-130。~0。;bl從 0。~ 130°,b2 從 130° ~-130°,b3 從-130° ~0°;cl從 0 ~7.0 埃,c2 從 4.0 ~17 埃,c3 大于12埃。
[0036] 蛋白質三維空間結構原始數(shù)據(jù)需要數(shù)百行到千行的數(shù)據(jù)描述一個蛋白結構。而采 用本發(fā)明蛋白質結構指紋數(shù)據(jù)庫只需要5行指紋數(shù)據(jù)就描述蛋白結構特征。如圖1所示。 因此,對數(shù)十萬個蛋白結構,蛋白質結構指紋數(shù)據(jù)庫儲存空間得到減少,更重要的是可以大 大節(jié)省時間,對蛋白大數(shù)據(jù)實現(xiàn)高通量檢索。
[0037] 另外一個例子說明如何運用蛋白質結構指紋數(shù)據(jù)庫對蛋白大數(shù)據(jù)實現(xiàn)高通量篩 選,可以通過指紋相似性分數(shù),對蛋白空間結構進行歸一化的定量評估。這些依據(jù)蛋白原始 數(shù)據(jù)或者圖像分析根本做不到。圖2顯示高通量篩選過程中,對舒尼替尼藥物蛋白結合靶 點區(qū)的蛋白指紋相似性進行定量評分。圖3顯示依據(jù)蛋白指紋相似性評分,實現(xiàn)藥物靶標 的高通量篩選。
[0038] 本發(fā)明將全球共享蛋白