一種蛋白質結構指紋數(shù)據(jù)庫的制作方法

文檔序號：9489639閱讀：1253來源：國知局

一種蛋白質結構指紋數(shù)據(jù)庫的制作方法
【技術領域】
[0001] 本發(fā)明涉及一種蛋白質結構指紋數(shù)據(jù)庫，屬于生物信息學領域。
【背景技術】
[0002] 從1940年確定蛋白質結構中含有有規(guī)則的螺旋和片狀結構以來，結構生物化學家一直在繼續(xù)努力解讀蛋白質三維折疊結構。到目前為止（2015年），全球共享的蛋白質數(shù) 據(jù)庫（PDB)已經(jīng)積累了將近十二萬以上的蛋白質三維結構數(shù)據(jù)^目前對蛋白質空間三維構象的解析只局限于二級結構和一些簡單鏈接^^'^^^''對于大約仙^左右的無不規(guī)則的三級結構的解析基本上處于空白 14'15'16。目前全球蛋白質數(shù)據(jù)庫對已知蛋白結構的解析只局限到二級結構，對無規(guī)則的三級結構只能用直線段表示。完全解讀蛋白質結構，包括了解蛋白質的三級結構，對于蛋白質的生物功能和活性，以及生物醫(yī)藥研究和藥物設計具有重要意義。
[0003] 蛋白質的三維空間結構可以通過X射線晶體學或者核磁共振技術來測定的。如何直接從一個蛋白質三維圖像或者原始數(shù)據(jù)提取信息是十分困難的問題。如何從蛋白質數(shù)據(jù) 庫已經(jīng)積累的大量數(shù)據(jù)中提取信息就是一個更困難的問題。蛋白結構生物化學家所面臨的關鍵問題之一是如何完整地描述蛋白質的折疊構象。另外，蛋白質的氨基酸序列和空間構象和其生物功能密切相關。如何將蛋白質的氨基酸序列和空間構象和其生物功能相關起來，也是一個很有意義的課題。由于蛋白結構的復雜性，完全理解某個蛋白結構已經(jīng)不是容易的課題。目前蛋白質數(shù)據(jù)庫（PDB)已經(jīng)積累了豐富的數(shù)據(jù)，如何從大量的蛋白數(shù)據(jù)中提取和發(fā)現(xiàn)有意義的信息支持生物醫(yī)藥研究面臨巨大的挑戰(zhàn)。為了解決這些問題，發(fā)明人在專利ZL200880003164. 2中用27個蛋白質折疊形狀碼來描述蛋白質中連續(xù)的五個氨基酸的結構。在此基礎上，依據(jù)全球蛋白數(shù)據(jù)庫（PDB)的全部數(shù)據(jù)，本發(fā)明建立了一個全新的蛋白質結構指紋數(shù)據(jù)庫（PSF-PDB)。

【發(fā)明內容】

[0004] 本發(fā)明提供的蛋白質結構指紋數(shù)據(jù)庫，包含四條蛋白結構指紋。蛋白質結構的指紋（PSF)是將蛋白質的結構信息轉化為由字符串組成的指紋表示。主要有四條指紋：氨基酸序列，蛋白質折疊形狀碼，物理化學性質和向量偶合組成。
[0005] 1.氨基酸序列
[0006] 蛋白質是由20個氨基酸的不同排序組成的多肽生物分子。蛋白質由幾十個甚至到上千個氨基酸排序組成。蛋白質的每個殘基可以由單字母的氨基酸表示。構成指紋代表其一級結構。
[0007] 2.蛋白質折疊形狀碼（PFSC)
[0008] 在專利ZL200880003164. 2中，發(fā)明人開發(fā)的蛋白質折疊形狀碼（PFSC)，為描述蛋白結構指紋創(chuàng)立了基礎。通過數(shù)學推導得到一組27向量，這組向量能夠覆蓋任何五個連續(xù) 氨基酸殘基所有可能的折疊形狀。用26英文字母加上符號形成27蛋白質折疊形狀碼 (PFSC)，與27個向量一一對應。因此，任何已知具有三維結構的蛋白質可以轉化為一維的PFSC字母表示。對于蛋白質結構，PFSC碼的表達可以從N-端開始至C-端結束，涵蓋每5 個氨基酸的折疊構象，沒有任何遺漏和缺失，包括二級結構片段和三級結構片段。最重要的特點是，所有27PFSC向量具有相關性，可以對蛋白質構象的相似性進行定量評價。
[0009] 3.物理化學性質
[0010] 每一個氨基酸殘基的主要性能取決于側鏈的功能。側鏈的性質大致分為七類，如疏水性，酸性或堿性和其他特殊功能基團，并且每個屬性由單字母代表其功能。物理化性質用7個字符分別表示。極性用N表示，電性S，酸性A，堿性B，芳香性0,親水性H，憎水性P。
[0011] 4.向量偶合
[0012] 每5個氨基酸的肽段形成折疊構象。每個肽段的兩端可以分別具有不同的折疊特征，螺旋折疊用a表示，片狀折疊用b表示，無規(guī)則折疊用*表示。因此可定義9種向量：a- >a，b->b，a->b,b一>a, *->a,a一>*, *一>b,b一>*，*一>*。相鄰的兩個向量共用四個氨基酸形成向量親合。例如，V折疊碼的向量是b-〉a，A折疊碼的向量是a-〉a。a表示螺旋特征，b表示片狀特征。VA兩個向量偶合即b-〉aa-〉a。這個向量偶合說明V向量的C 端是螺旋特征，A向量的N端也是螺旋特征，這兩個向量很好的共用之間的4個氨基酸。再舉例說明，BVA折疊碼的連接，用向量表示為b->bb一>aa一>a。
[0013] 本發(fā)明的蛋白質結構指紋數(shù)據(jù)庫，還可以包括一條指紋：支鏈幾何空間。每一個氨基酸殘基的側鏈空間大小不相同，而且空間旋轉柔性不相同。采用單字母代表氨基酸殘基的側鏈空間的性質。大的側鏈用L表示，小側鏈S，非常小側鏈T，不能旋轉H。
[0014] 所述蛋白質折疊形狀碼，為27個，對應27個描述五個連續(xù)氨基酸殘基的折疊形狀的向量。
[0015] 在蛋白質結構的指紋（PSF)基礎上，我們將全球共享蛋白數(shù)據(jù)庫（PDB)中超過十一萬蛋白質結構數(shù)據(jù)全部轉化為蛋白質結構的指紋（PSF)，構建了全球唯一蛋白結構指紋數(shù)據(jù)庫（PSF-PDB)。
[0016] 對于每一個蛋白質結構，全球共享蛋白數(shù)據(jù)庫（PDB)中通常需要數(shù)千行的數(shù)據(jù)來表示，到目前（2015年7月）為止，11萬蛋白結構在計算機需要大約63兆（G)的儲存空間，數(shù)據(jù)量大，檢索困難。在本發(fā)明提供的蛋白結構指紋數(shù)據(jù)庫中，每一個蛋白只有要四行或五行文字描述，計算機總共只需要大約0.325兆（G)的儲存空間，儲存空間壓縮到二百分之一。因此，大大減少了數(shù)據(jù)儲存量，加快了檢索速度，擺脫必須依賴超級大型計算機或者大量計算機組合資源的局面，可以實現(xiàn)個人電腦運作。
【附圖說明】
[0017] 圖1，蛋白質結構指紋數(shù)據(jù)庫格式：只有五行的數(shù)據(jù)。
[0018] 圖2,舒尼替尼藥物蛋白結合靶點區(qū)：高通量篩選過程中，對蛋白指紋相似性的定量評分。
[0019] 圖3,舒尼替尼藥物蛋白結合靶點區(qū)：依據(jù)蛋白指紋對比評分實現(xiàn)高通量篩選。
【具體實施方式】
[0020] 本發(fā)明提供的蛋白質結構指紋數(shù)據(jù)庫，包含四條表示蛋白結構指紋的字符串，由氨基酸序列，蛋白質折疊形狀碼，物理化學性質和向量偶合組成。
[0021] 1)氨基酸序列，由表示組成蛋白質的氨基酸的字母串組成，代表其一級結構；
[0022] 2)蛋白質折疊形狀碼
[0023] 所述蛋白質折疊形狀碼，為27個，由26英文字母加上"$"符號組成，對應27個描述五個連續(xù)氨基酸殘基的折疊形狀的向量；
[0024] 3)物理化學性質
[0025] 表示每一個氨基酸殘基側鏈的物理化性質，用7個字符分別表示，極性用N表示，電性S，酸性A，堿性B，芳香性0,親水性H，憎水性P;
[0026] 4)向量偶合
[0027] 每5個連續(xù)氨基酸形成的肽段的兩端分別具有不同的折疊特征，螺旋折疊用a表示，片狀折疊用b表示，無規(guī)則折疊用*表示，定義9種向量：a->a，b->b，a->b,b- >a，*一〉a，a- >*，*一〉b，b- >*，*一>*來描述每個肽段的折疊特征，相鄰的兩個肽段共用四個氨基酸形成向量耦合。
[0028] 還可以包括一條結構指紋：支鏈幾何空間。表示每一個氨基酸殘基的側鏈空間大小，大的側鏈用L表示，小側鏈S，非常小側鏈T，不能旋轉Η;
[0029] 2)中的蛋白質折疊形狀碼，對應27個描述五個連續(xù)氨基酸殘基的折疊形狀的向量。如同在專利ZL200880003164. 2中描述，所述向量通過以下方法構建：
[0030]Α)取蛋白質中每五個連續(xù)的氨基酸作為一個基本單元；
[0031]Β)計算每個基本單元中的第一個二面角，該二面角是第一，第二，第三個氨基酸決定的平面與第二、第三、第四個氨基酸決定的平面的夾角；該二面角為al，a2,a3所確定的范圍之一；
[0032] C)計算每個基本單元中的第二個二面角，該二面角是第二、第三、第四個氨基酸決定的平面與第三、第四、第五個氨基酸決定的平面的夾角，該二面角為bl，b2,b3所確定的范圍之一；
[0033] D)計算每個基本單元中的第一與第五個氨基酸之間的伸張距離，所述伸張距離為 cl,c2,c3所確定的范圍之一；
[0034]E)依據(jù)步驟B，C，D得到的數(shù)值確定每個基本單元的向量。
[0035]所述al從 0。~130。，a2 從 130。~-130。，a3 從-130。~0。；bl從 0。~ 130°，b2 從 130° ~-130°，b3 從-130° ~0°;cl從 0 ~7.0 埃，c2 從 4.0 ~17 埃，c3 大于12埃。
[0036] 蛋白質三維空間結構原始數(shù)據(jù)需要數(shù)百行到千行的數(shù)據(jù)描述一個蛋白結構。而采用本發(fā)明蛋白質結構指紋數(shù)據(jù)庫只需要5行指紋數(shù)據(jù)就描述蛋白結構特征。如圖1所示。因此，對數(shù)十萬個蛋白結構，蛋白質結構指紋數(shù)據(jù)庫儲存空間得到減少，更重要的是可以大大節(jié)省時間，對蛋白大數(shù)據(jù)實現(xiàn)高通量檢索。
[0037] 另外一個例子說明如何運用蛋白質結構指紋數(shù)據(jù)庫對蛋白大數(shù)據(jù)實現(xiàn)高通量篩選，可以通過指紋相似性分數(shù)，對蛋白空間結構進行歸一化的定量評估。這些依據(jù)蛋白原始數(shù)據(jù)或者圖像分析根本做不到。圖2顯示高通量篩選過程中，對舒尼替尼藥物蛋白結合靶點區(qū)的蛋白指紋相似性進行定量評分。圖3顯示依據(jù)蛋白指紋相似性評分，實現(xiàn)藥物靶標的高通量篩選。
[0038] 本發(fā)明將全球共享蛋白

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：楊家安;
技術所有人：麥科羅醫(yī)藥科技（武漢）有限公司;
我是此專利的發(fā)明人

上一篇：前列腺相關癌基因信息收集及分析方法
上一篇：多參數(shù)生命體征工作站的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

蛋白質晶體結構數(shù)據(jù)庫相關技術

蛋白質指紋圖譜相關技術

蛋白質指紋圖譜技術相關技術

蛋白質數(shù)據(jù)庫相關技術

蛋白質序列數(shù)據(jù)庫相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種蛋白質結構指紋數(shù)據(jù)庫的制作方法