專利名稱:制備肽文庫的方法及其用途的制作方法
技術領域:
本發(fā)明涉及計算生物化學和生物活性肽的計算機輔助設計領域。使用 監(jiān)督學習,本發(fā)明將生物序列分析、生物信息學數(shù)據(jù)挖掘、信息表現(xiàn)和分 類算法中所用的方法相結合。此外,本發(fā)明還涉及肽文庫的設計,以及生 物活性肽在生物醫(yī)學研究中的應用。
背景技術:
當前藥物發(fā)現(xiàn)的主要目標是鑒定具有實際臨床效用的生物活性分子。 通過生長刺激作用、生長抑制作用或關鍵代謝途徑的調控,許多(若非全 部)生物活性肽(例如肽類激素)在健康和疾病中都有深遠的影響。
肽類激素以前體產(chǎn)生于不同細胞類型和器官中,如腺體、神經(jīng)元、腸、 腦等。肽類激素最初以較大的前體或激素原合成,可以在轉運通過內質網(wǎng) 和高爾基體疊層中獲得許多翻譯后修飾。它們經(jīng)加工并轉運至其最終目的 地作為活性物質(第一信使)起作用,通過結合細胞表面受體引發(fā)細胞應 答。
肽類激素在許多生理過程中是關鍵信使,所述生理過程包括生產(chǎn)調節(jié); 生長;水和鹽代謝;溫度控制;心血管、胃腸和呼吸控制;行為;記憶和 激動狀態(tài)。
肽類激素在與生物醫(yī)學研究的許多領域相關的生理過程中起關鍵作 用,所述領域如糖尿病(胰島素)、血壓調控(血管緊張素)、貧血癥(a 促紅細胞生成素)、多發(fā)性硬化(p干擾素)、肥胖癥(瘦蛋白)等。
因此,新的生物活性肽具有作為治療性多肽、藥物介入靶點、發(fā)現(xiàn)相 關靼點的配體(例如GPCR破解(deorphaning ))或監(jiān)測疾病的生物標記使用的潛能。
肽文庫已成功用于鑒定生物活性肽,包括抗孩吏生物肽、受體興奮劑和
拮抗劑、細胞表面受體的配體、蛋白激酶抑制劑和底物、T細胞表位、與 MHC分子及受體結合部位的肽模擬表位結合的肽。肽文庫可根據(jù)其來源 分為基于基因和基于合成的文庫(Falciani等人,2005)。
在基于基因的文庫中,為了引入多樣性,在編碼目的多肽序列的DNA 水平引入多肽內的組合位點(combinatorial position )。與基于基因的文庫 相反,合成文庫在化學合成水平實現(xiàn)其多樣性。
許多肽文庫以一種支架結構為基礎,或通過隨才幾組合的方法生成不同 的多肽一級結構。
這兩種方法的缺點均是20種天然存在的氮基酸的組合可構建具有最 大可變性和數(shù)量巨大的不同結構的多肽。舉個例子說明可以獲得多少種不 同結構,試想僅包含4個氨基酸的肽就有160,000種不同的一級結構可能 性。
需要提供一種準確的和高流量的方法,來大幅減少肽文庫中結構的可 能數(shù)量,以便于對大量的數(shù)據(jù)進行處理,并區(qū)分有體內活性和無體內活性 的肽。
本發(fā)明的目的是解決現(xiàn)有技術的問題。本發(fā)明涉及應用生物信息學策 略,構建新的生物活性肽類激素文庫的方法。用支持向量機(SVM)算法 鑒定生物活性肽。該方法利用存在于肽類激素前體中的保守蛋白質特征和 短基序,通過計算機才莫擬搜索人類蛋白質組,可發(fā)現(xiàn)潛在的生物活性肽類 激素。盡管這些特征為肽類激素所共有,并負責其成熟,但令人驚訝的是, 可在蛋白質序列水平單獨進行數(shù)據(jù)庫搜索(例如BLAST, FASTA)的肽 類激素前體之間的序列相似性很小。但是,將多肽類激素前體中共有的蛋 白質特征和翻譯后修飾基序(例如前體的短蛋白質序列、信號肽、二硫鍵、
酰胺化位點、硫酸鹽化作用位點、糖基化位點等)相結合,可高特異性地 發(fā)現(xiàn)新的多肽類激素。發(fā)明概述
本發(fā)明的一個主題涉及鑒定生物活性肽的方法,其在基于計算機的系
統(tǒng)中使用基于二元支持向量機(SVM)的算法,其中
a) 訓練SVM算法學會區(qū)分生物活性和非生物活性肽,所述訓練包含 步驟
ai)為一組帶標簽的已知生物活性肽和非生物活性肽生成49維度 向量(vector),每一維度(dimension)源于對分子描述符值的計算,其中標簽 分別表明肽是生物活性的或非生物活性的;
a2)將步驟a,)生成的向量數(shù)據(jù)轉入基于SVM的算法,所述算法 計算出最優(yōu)超平面,其將分別對應于生物活性肽和非生物活性肽的向量分 開;
b) 從公開可用的人類蛋白質數(shù)據(jù)庫提供蛋白質序列;
c) 用計算法預測步驟b)提供的蛋白質序列的二級結構和切割位點;根 據(jù)所述預測步驟,計算一組7個分子描述符(descriptor),導致肽片段生成;
d) 計算對應于步驟c)生成的肽片段理化性質的一組42個分子描述
符;
e) 將來自步驟c)的計算值轉化為0至1之間的標度值(scaled value ), 為每一肽片段生成49維度向量的1至7維度,將來自步驟d)的計算值轉 化為0到1之間的標度值,為每一肽片段生成所述向量的8至49維度;
f) 將步驟e)生成的向量提交至在步驟a)中經(jīng)過訓練的SVM算法,測 量每一向量到步驟a2)中計算出的超平面的距離;并
g) 才艮據(jù)步驟f)中測量的距離,將每一肽片段分類為生物活性肽或非生 物活性肽。
通常,步驟e)中生成的維度l至7如下維度l: N端ProP評分;維 度2: N端Hmcut評分;維度3: N端片段;維度4: C端ProP評分;維 度5: C端Hmcut評分;維度6: C端Hamid評分;維度7: C端片段; 步驟e)中生成的8至42維度如下維度8:每一多肽中酸性氨基酸(E、 N、 Q)的百分比;維度9:每一多肽中正電荷氨基酸(R、 H)的百分比;維度10:每一多肽中芳香族氨基酸(F、 Y、 W)的百分比;維度11:每 一多肽中脂肪族氨基酸(G、 V、 A、 I)的百分比;維度12:每一多肽中 脯氨酸的百分比;維度13:每一多肽中反應性氨基酸(S、 T)的百分比; 維度14:每一多肽中丙氨酸的百分比;維度15:每一多肽中半胱氨酸的百 分比;維度16:每一多肽中谷氨酸的百分比;維度17:每一多肽中苯丙氨 酸的百分比;維度18:每一多肽中甘氨酸的百分比;維度19:每一多肽中 組氨酸的百分比;維度20:每一多肽中異亮氨酸的百分比;維度21:每一 多肽中天冬酰胺的百分比;維度22:每一多肽中谷氨酰胺的百分比;維度 23:每一多肽中精氨酸的百分比;維度24:每一多肽中絲氨酸的百分比; 維度25:每一多肽中蘇氨酸的百分比;維度26:每一多肽非經(jīng)典氨基酸的 百分比;維度27:每一多肽中纈氨酸的百分比;維度28:每一多肽中色氨 酸的百分比;維度29:每一多肽中酪氨酸的百分比;維度30:半胱氨酸含 量;維度31:每一多肽中巻曲二級結構的百分比;維度32:每一多肽中螺 旋二級結構的百分比;維度33:每一多肽中隨機二級結構的百分比;維度 34: N端切割位點附近結構的評分;維度35: C端切割位點附近結構的評 分;維度36:每一多肽中螺旋區(qū)段的數(shù)目;維度37:多肽的等電點;維度 38:多肽的平均分子量;維度39:多肽內每一氮基酸的范德瓦爾斯力之和; 維度40:多肽中每一氨基酸的疏水性值之和;維度41-48:根據(jù)每一多肽 的疏水性質、空間性質和電性質的主要組分評分向量計算的平均值;維度 49:多肽的長度。
在本發(fā)明方法的優(yōu)選實施方案中,來自步驟b)的蛋白質序列僅為在人 類分泌組(secretome)中發(fā)現(xiàn)的天然存在的蛋白質序列。
在另一優(yōu)選實施方案中,生物活性肽為來源于前體激素的生物活性肽 類激素。
本發(fā)明的另 一主題涉及4吏用本發(fā)明的方法^A類分泌組中選擇的生物 活性肽。
在優(yōu)選實施方案中,生物活性肽為生物活性肽類激素。在更優(yōu)選實施 方案中,生物活性肽類激素來源于前體蛋白質。在另一優(yōu)選實施方案中,生物活性肽具有選自以下氨基酸序列的序列:
SEQ ID NO: 1、2、3、 4、 5、 6、 7、8、9、 10、 11、12、13、
14、15、16、17、18、 19、 20、 21、22、23、 24、 25、26、27、
28、29、30、31、32、 33、 34、 35、36、37、 38.39、40、41、
42、43、44、45、46、 47、 48、 49、50、51、 52、 53、54、55、
56、57、58、59、60、 61、 62、 63、64、65、 66、 67、68、69、
70、71、72、73、74、 75、 76、 77、78、79、 80、 81、82、83、
84、85、86、87、88、 89、 90、 91、92、93、 94、 95、96、97、
98、99、100、101、102、 103、 104、105、106、 107、108、109、
110、111、112、 113、 114、 115、 116、117、118、 119、120、121、
122、 123、 124、 125、 126、 127、 128、 129、 130、 131、 132、 133、 134、 135、 136、 137、 138、 139、 140、 141、 142、 143、 144、 145、 146、 147、 148、 149、 150、 151、 152、 153、 154、 155、 156、 157、 158、 159、 160、 161、 162、 163、 164、 165、 166、 167、 168、 169、 170、 171、 172、 173、 174、 175、 176、 177、 178、 179、 180、 181、 182、 183、 184、 185。
本發(fā)明還涉及肽文庫,其包含通過本發(fā)明的方法鑒定出的生物活性肽。 在優(yōu)選實施方案中,肽文庫包含生物活性肽,所述生物活性肽具有從 以上引用的SEQ ID NO 1-185氨基斷列中選擇的序列。
在進一步優(yōu)選的實施方案中,肽文庫包含生物活性肽類激素。 在另一進一步優(yōu)選的實施方案中,肽文庫包含來源于前體蛋白質的生 物活性肽類激素。
本發(fā)明的另一主題涉及配置用于通過基于二元支持向量機(SVM)的 方法鑒定生物活性肽的計算設備,其中
a)訓練SVM算法學會區(qū)分生物活性和非生物活性肽,所述訓練包含 步驟
ai)為一組帶標簽的已知生物活性肽和非生物活性肽生成49維度 向量,每一維度源于對分子描述符值的計算,其中標簽分別表明肽是生物活性的或非生物活性的;
a2)將步驟aO生成的向量數(shù)據(jù)轉入基于SVM的算法,所述算法 計算出最優(yōu)超平面,其將分別對應于生物活性肽和非生物活性肽的向量分
開;
b) 從公開可用的人類蛋白質數(shù)據(jù)庫提供蛋白質序列;
c) 用計算法預測步驟b)提供的蛋白質序列的二級結構和切割位點;根 據(jù)所述預測步驟,計算一組7個分子描述符,導致肽片段生成;
d) 計算對應于步驟c)生成的肽片段理化性質的一組42個分子描述
符;
e) 將來自步驟c)的計算值轉化為O至l之間的標度值,為每一肽片段 生成49維度向量的1至7維度,將來自步驟d)的計算值轉化為0到1之 間的標度值,為每一肽片段生成所述向量的8至49維度;
f) 將步驟e)生成的向量提交至在步驟a)中經(jīng)過訓練的SVM算法,測 量每一向量到步驟a2)中計算出的超平面的距離;并
g) 根據(jù)步驟f)中測量的距離,將每一肽片段分類為生物活性肽或非生 物活性肽。
本發(fā)明還涉及本發(fā)明的方法在鑒定治療性多肽、藥物介入靶點、發(fā)現(xiàn) 相關靶點的配體或監(jiān)測疾病的生物標記鑒定中的用途。
本發(fā)明還涉及本發(fā)明的肽文庫在篩選方法中的用途,所述篩選方法用 于研究細胞內信號通路、產(chǎn)生試劑深化對通路的了解、產(chǎn)生新的治療形式 及鑒定藥物活性化合物、藥物介入靶點、發(fā)現(xiàn)相關靶點的配體或監(jiān)測疾病 的生物標i己。
本發(fā)明還涉及包含生物活性肽作為生物活性劑的藥物組組合物,所述 生物活性肽具有選自SEQ ID NO 1-185氨基酸序列的序列。
發(fā)明詳述
本發(fā)明涉及新的生物活性多肽及鑒定這種生物活性多肽的計算機模擬 方法。在本發(fā)明中,若多肽與人體內的任一細胞組織有相互作用或對其有影
響,則i/w為該多肽是生物活性的。生物活性肽具有用作治療性多肽、藥物 介入耙點、發(fā)現(xiàn)相關靼點的配體(例如GPCR破解)或檢測疾病的生物 標記的潛能。除其他外,生物活性肽包括生物活性肽類激素。肽類激素的 特征在于其高特異性,以及極低的作用濃度。肽類激素最初以更大的前體 或激素原合成。
前體是這樣的物質,其可形成通常更具活性或更成熟的物質。蛋白質 前體是無活性的蛋白質(或肽),可通過翻譯后修飾轉變?yōu)榛钚孕问健?一些 切割位點參與了產(chǎn)生成熟蛋白質的前體修飾信號序列切割位點、蛋白酶 切割位點、酰胺化位點等。
蛋白質前體的名稱通常以前(pro或pre )為字首。當某種蛋白質具有 潛在的危害,但又需要在短時間內和/或大量獲得時,生物體常采用前體。
術語"多肽"、"肽"和"蛋白質"在此可互換使用,意指通過共價鍵 連接的M酸殘基組成的聚合物。這些術語包括全長蛋白質的部分或片段, 如肽、寡肽和由至少2個氨基酸組成的更短的肽序列、特別是由4-45個氨 基酸組成的肽序列。
此外,這些術語包括經(jīng)修飾氨基酸(包括經(jīng)翻譯后修飾的氨基酸)的 聚合物,如經(jīng)化學修飾,其包括但不限于酰胺化、糖基化、磷酸化、乙酰 化和/或硫酸化反應,這些反應有效地改變了基本的肽骨架。因此,可通過 化學或酶切割從天然存在的蛋白質獲得肽(特別是可從全長蛋白質獲得), 可使用如CNBr的試劑等,或如胰蛋白酶或胰凝乳蛋白酶的蛋白酶。另夕卜, 可用眾所周知的肽合成方法,通過化學合成獲得此類多肽。
M酸是任何包含氨和羧酸官能團的分子。氨基酸殘基是在肽鍵形成 中失去一分子水(來自含氮側的H+和來自氯基側的OIT )后氨基酸的剩余 部分,肽鍵是蛋白質鏈中連接M酸單體的化學鍵。
每一蛋白質都有其自身獨特的M酸序列,稱之為一級結構。 一級結 構是比較筒單的,指的是蛋白質或多肽鏈中M酸的數(shù)目和順序。在蛋白 質結構的這一水平上,共價肽鍵是唯一的結合類型。蛋白質中的#^#列由DNA中的遺傳信息決定,DNA轉錄為RNA, RNA再翻譯為蛋白質。 所以蛋白質結構是遺傳決定的。
蛋白質結構的下一水平通常指多肽鏈采用的結構規(guī)律性或形狀的數(shù) 量。天然多肽鏈自動折疊為規(guī)則而確定的形狀。已在蛋白質中發(fā)現(xiàn)兩種主 要的二級結構,即oc螺旋和P折疊片。
多肽鏈的三級結構是其鏈的a螺旋或P折疊片采用的構象或形狀的下 一水平。大部分蛋白質趨向于折疊為在排列上可大體上歸類為球狀的形狀, 一些蛋白質,特別是結構蛋白質則形成長纖維形狀。這些是總體三級結構 的主要形式。結構域是常用術語,其意指多肽鏈中球狀結構的緊密單位。
每種蛋白質的獨特形狀決定了其在體內的功能。 "多肽,,定義的范圍還包括氨基酸序列變體。這些變體可以在天然存 在的氨基酸序列中包含一個或多個優(yōu)選的保守性氨基酸替換、缺失或插入, 而不改變所述多肽的至少一種基本性質,例如其生物學活性??赏ㄟ^化學 多肽合成法合成這種多肽。保守性氨基酸替換為本領域公知。例如,可按 此處所述,用具有相似電荷、大小或極性的氨基酸殘基對天然蛋白質中的 一個或多個氨基酸殘基進行保守性替換,得到的多肽還保有其功能。進行 這種替換的規(guī)則是眾所周知的。
更具體地,保守性氨基酸替換一般發(fā)生于側鏈相關的同 一氨基酸家族內。
基因編碼的氨基酸一般分為四組(1)酸性氨基酸=天冬氨酸、谷氨 酸;(2)堿性^酸=賴氨酸、精氨酸和組氨酸;(3)非極性#^酸=丙氨 酸、纈氨酸、亮氨酸、異亮氨酸、脯氨酸、苯丙氨酸、蛋氨酸和色氨酸; (4)不帶電荷的極性#^酸=甘氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、 絲氨酸、蘇氨酸和酪氨酸。苯丙氨酸、酪氨酸和色氨酸還共同分類為芳香 族氨基酸。任一特定組內的 一個或多個替換對所產(chǎn)生的多肽功能一般沒有 明顯影響,如可選擇用異亮氨酸或纈氨酸替換亮氨酸、用谷氨酸替換天冬 氨酸或用絲氨酸替換蘇氨酸、或用結構相關的氨基酸殘基替換其他任一種 氨基酸殘基。術語"多肽"定義的范圍包括由于其氨基酸序列對應于功能結構域, 其生物學活性可預測的肽。術語"多肽"還包括不能通過對其氨基酸序列 的分^f斤預測其生物學活性的肽。
在本發(fā)明中,支持向量機(SVM)用于區(qū)分具有體內活性的多肽和不 具有體內活性的多肽。
支持向量機(SVM):
支持向量機(SVM)是在訓練階段確定決定表面或"超平面"的通用 學習機。通過一組選自向量訓練群體的支持向量和一組對應的乘數(shù) (multiplier)確定決定超平面。決定超平面還通過核函數(shù)表征。
John Shawe Taylor和腿o Cristianini在書中(劍橋大學出版社, 2000, 題為 "Support Vector Machines and other kernel-based learning methods" )、Chih-Chimg Chang和Chih畫Jen Lin在文章中(題為 "LIBSVM - A Library for Support Vector Machines" , 2001 )解釋了 SVM
的數(shù)學^i^出。
訓練階段之后,SVM在測試階段運轉,在此階段,根據(jù)之前在訓練階 段確定的決定超平面,用它來分類測試向量(Noble, 2006)。
支持向量機在多種不同的領域找到應用。例如,在H. Kim和H. Park
題為"Prediction of protein relative solvent accessibility with support vector
machines and long-range interaction 3d local descriptor"的文章中,為了
研究大分子對接,將SVM用于預測高分辨率3D結構的問題。
在本發(fā)明中,支持向量機算法(SVM)用于區(qū)分具有體內活性的多肽 和不具有體內活性的多肽。
出于實踐的觀點,在本發(fā)明中利用如個人計算機的計算設備執(zhí)行 SVM。
如實施例部分(l.l.)所述,計算設備包括一個或多個執(zhí)行一系列不同 軟件的處理器,所述軟件包含執(zhí)行本發(fā)明方法的指令。
14SVM訓練和模型生成
為了訓練SVM模型,用實^P分(1.1,)中常規(guī)描述并概略示意于圖 l中的程序,生成49維度向量。
對SVM訓練組,關于已知生物活性肽的信息可以從任一公開可用的 人類蛋白質數(shù)據(jù)庫提取,如Swissprot。根據(jù)其在Swissprot中的注釋,從 其前體提取長度在4至55個氨基酸的優(yōu)選生物活性肽,并標記為用于SVM 算法訓練的陽性實例。生成的所有其他來源于同一已知肽類激素前體,長 度在4-55個M酸之間,不具有指定功能的片段用作SVM訓練的陰性訓 練組。由于SVM是二元系統(tǒng),將生物活性肽標記為+1,并將非生物活性 肽標記為-1。
類似地,用長度在56至300個氨基酸的生物活性和非生物活性肽訓練 第二個模型,以預測更長的多肽。為了不過度表現(xiàn)陰性實例,通過隨;feM^ 所有陰性肽中選擇相同數(shù)量的陰性(實例),校正分別用于短序列(4-55 個氨基酸)和長序列(56-300個氨基酸)的最終SVM訓練組,至與陽性 和陰性訓練數(shù)據(jù)數(shù)目相等。
為轉化生物活性和非生物活性肽隱藏的信息,定義了一組49個描述 符,并用于SVM訓練。SVM模型的表現(xiàn)強烈地依賴于選擇用于描述肽的 描述符質量。
在本發(fā)明中,前7個描述符反映多肽由人體產(chǎn)生的可能性。對肽類激 素前體序列使用一組蛋白酶預測位點工具來計算這7個維度(
圖1 )。將每 一程序輸出的產(chǎn)生評分直接用作描述符。其余42個描述符反映產(chǎn)生的每一 片段的重要理化性質(即生物活性或非生物活性肽)。實施例部分的第3 點中列出了本發(fā)明所使用的49個描述符。
每一肽對應于49個描述符的獨特組合。不同肽可以表示為多維空間中 的點,其中每一維度對應一個描述符。SVM嘗試找出一個界限,該界限最 優(yōu)地將對應于生物活性和非生物活性肽的兩組點分開。此界限稱為最優(yōu)超 平面,它能在n維空間中最優(yōu)地將兩類對象分開,即分別對應于生物活性 肽和非生物活性肽的向量。所得到的SVM模型學會區(qū)分生物活性和非生物活性肽。 選擇了最好的模型,根據(jù)生物活性和非生物活性肽的一個獨立測試組 的排序,該模型具有最佳的表現(xiàn)。為測試模型,測試了所有生成的模型的 表現(xiàn),選擇了分別用于短肽(4-55個氨基酸)和較長多肽(56-300個M 酸)的兩個最優(yōu)模型。
鑒定生物活性肽
訓練后,得到的經(jīng)訓練的SVM模型能夠鑒定生物活性尚未被束征過 的生物活性肽。
圖l給出了本發(fā)明所公開的方法的概要示意圖,解釋肽文庫生成所涉 及的步驟。提供自公開可用人類蛋白質數(shù)據(jù)庫(如Swissprot)的蛋白質序 列作為輸入值使用。在步驟1中,所有潛在的蛋白酶切割位點通過使用一 組預測這些事件的工具預測。保存每一前體序列的各切割位點位置。此夕卜, 推測了整個蛋白質前體序列的二級結構。根據(jù)預測的前體序列中的切割位 點,生成所有潛在的片段(步驟2),并用作步驟3的輸入量。
步驟3包含對每一肽片段理化性質的計算(在實施例部分的第3點列 出)。通常,考慮關于每一片段內M酸的頻率、每一片段的二級結構、每 一片段的等電點、每一片段的平均分子量、每一片段的疏水性、片段內每 一氨基酸的所有范德瓦爾斯力之和、片段內每一氨基酸的所有常用氨基酸 描述符(即根據(jù)Mei等人,2005的每一氨基酸的VHSE值)之和及片段 長度的信息,將生物學信息轉化為數(shù)值。步驟1和3的計算值分別在步驟 4a和4b中轉化產(chǎn)生0至1之間的標度值,生成每一片段的49維度向量。 步驟5中將向量提交至經(jīng)訓練的SVM模型,測量每一向量到超平面的距 離。然后在步驟6中使用SVM輸出,決定該肽是否可能是生物活性的。 圖3列出了對應于通過本發(fā)明的方法鑒定的生物活性肽的49維度向量。
為了大幅減少肽文庫中結構的潛在數(shù)量,在本發(fā)明中,僅將發(fā)現(xiàn)于人 類分泌組的天然存在的蛋白質序列用作一級結構,來生成肽文庫。人類分 泌組是對應于所有經(jīng)細胞分泌的人類蛋白質的DNA所編碼的全部信息。實施例部分l.l.點歹。出了從公開可用的序列數(shù)據(jù)庫中提取的潛在的分 泌型人類蛋白質,其用作前體序列尋找新的生物活性肽。
將分泌蛋白質一級序列(即蛋白質前體)的不同部分用作模板,推測
新的生物活性肽。限制肽長度為4-45個氨基酸,以便于化學合成該肽。
通過本發(fā)明的方法鑒定出新的生物活性肽之后,進行抗微生物試驗測 試該肽的生物活性。實施例部分的第6點詳述了這些試驗。
本發(fā)明還涉及肽文庫,所述肽文庫包含通過上述SVM模型方法鑒定 出的生物活性肽。圖2列出了通過本發(fā)明的方法鑒定出、并包含于本發(fā)明 的肽文庫的185條生物活性肽的氨基酸序列。
肽文庫是新M的用于蛋白質相關研究的技術。肽文庫包含具有系統(tǒng) 氨基酸組合的大量肽。通常,將肽文庫合成于可制成平表面或球珠的固相 上(大部分是樹脂上)。肽文庫為藥物設計、蛋白質-蛋白質相互作用和其 他生化及制藥應用提供了強有力的工具。
本發(fā)明的肽文庫可以用于篩選方法,所述篩選方法用于研究細胞間信 號通路、產(chǎn)生試劑深化對通路的了解、產(chǎn)生新的治療形式及鑒定有藥物活 性的化合物、藥物介入靼點、發(fā)現(xiàn)相關耙點的配體或監(jiān)測疾病的生物標記。
本發(fā)明的多肽具有激素活性。因此,本發(fā)明的多肽可用作藥物(如治 療性多肽)、發(fā)現(xiàn)相關靶點的配體(如GPCR)、藥物介入靶點(如單克隆 抗體、受體片段的靶點)、監(jiān)測疾病的生物標記(與工具抗體聯(lián)用來檢測體 液中的肽片段)、蛋白激酶抑制劑及底物、T細胞表位、受體結合位點的肽 模擬表位等。
編碼本發(fā)明的肽或前體的DNA是有用的,例如作為基因治療劑,治 療或預防心血管疾病、產(chǎn)生激素的腫瘤、糖尿病、胃潰瘍等;作為激素分 泌抑制劑、腫瘤生長抑制劑、神經(jīng)活性劑等。此外,本發(fā)明的DNA可用 作疾病的基因診斷劑,所述疾病如心血管疾病、產(chǎn)生激素的腫瘤、糖尿病、 胃潰瘍等。
實施例參考以下實施例可更容易地理解一般性描述的本發(fā)明,納入此實施例 的目的只是說明本發(fā)明的某些方面及實施方案,并非旨在限定本發(fā)明。 1.數(shù)據(jù)庫和計算機程序
1.1. 數(shù)據(jù)庫
以下7>開可用的序列數(shù)據(jù)庫用于提取潛在的分泌型人類蛋白質,這些
蛋白質用作前體序列來尋找新的生物活性肽
翻譯為蛋白質的人類基因組(NCBI 33匯編,2003年7月1日),亞
組;
國際蛋白質索引,Swissprot(版本50.3,2006年7月11日)和TrEMBL (版本2003年8月—2006年3月);
對基于SVM算法的訓練,有關已知生物活性肽的信息提取自 Swissprot。
1.2. 計算4/L程序
1.1. 2.0版Signal P (Nielsen等人,1997)
目的此程序用于檢測潛在的信號序列和確定潛在的人類分泌組。使 用的劃界(cutoff)評分為0.98。 2.0版Signal P預測來自不同生物的氨基酸 序列中信號肽切割位點的存在和位置此方法基于幾種人工神經(jīng)網(wǎng)絡和隱 馬爾科夫模型(hidden Markov model)的組合,將切割位點預測與信號J^ 非信號肽預測相結合。
1.2.1.0版ProP(Duckert等人,2004)
目的此程序用于檢測蛋白質序列中潛在的切割位點。所用劃界評分 設至O.ll。此程序使用神經(jīng)網(wǎng)絡總體,預測真核蛋白質序列中的精氨酸及 賴氨酸前肽切割位點。默認設置是弗林蛋白酶特異的預測。其還可進行一 般的前蛋白質(proprotein)轉化酶(PC)預測。
1.3. 酰胺化位點預測和蛋白酶切割位點預測(Rohrer, 2004)目的Hamid程序預測蛋白質序列中的酰胺化位點。Hmcut程序預測 蛋白質序列中的蛋白酶切割位點,這種切割發(fā)生在堿性氨基酸殘基(賴氨 酸,精氨酸)之前。這兩種程序都基于隱馬爾科夫模型,使用Hmnier 2.3.2 軟件版本(Durbin等人,1998 )。
1.4. 支持向量機(Chang和Lin, 2001)
LIBSVM是進行支持向量分類、(C-SVC, nu-SVC)、回歸 (epsilon-SVR, nu-SVR)和分布估計(單值SVM)的集成軟件。
使用了以下SVM規(guī)范SVM類型,nu-SVC;核函數(shù)類型,徑向基 函數(shù)。
1.5. 2.45版本PsiPred (Jone, 1999) 進4亍蛋白質二級結構預測的工具。該方法如Jones, 1999所述^f吏用。
1.6. 等電點的計算
目的多肽等電點的計算。按Gasteiger等,2005進行。
1.7. Perl-實際提取和才艮告語言
目的Perl是Larry Wall發(fā)明的一種動態(tài)編程語言,1987年首次發(fā)布。
2. SVM的訓練
對監(jiān)督學習過程,使用以下SRS (www.expasy.org上的序列查詢系統(tǒng)) 請求指令,從諸如Swissprot的常用公共數(shù)據(jù)庫提取已知生物活性肽前體 生物=脊推動物;序列長度=30:300;特征關鍵詞=信號;關鍵詞=細胞因子 或激素或鈴蟾肽或緩激肽或胰高血糖素或生長因子或胰島素或神經(jīng)肽或阿 片樣肽或速激肽或甲狀腺激素或血管收縮劑或血管舒張劑。此請求產(chǎn)生一 組已知肽類激素前體,其中的生物活性肽易于通過Swissprot數(shù)據(jù)庫的注
19釋獲取。因此,這些序列可用來推測一組生物活性和非生物活性肽,進行
基于SVM的模型的訓練。
3.用于建立向量的分子描述符
SVM模型的表現(xiàn)主要依賴于所選用于描述肽的描述符的質量。 在本發(fā)明中,選擇了以下描述符
維度1-7表示肽產(chǎn)生于人體的可能性,通過不同的蛋白酶切割位點預 測工具的組合來計算。這些工具的結果表示向量的前7個維度。 維度l: N端ProP評分; 維度2: N端Hmcut評分; 維度3: N端片段(固定值0.2); 維度4: C端ProP評分; 維度5: C端Hmcut評分; 維度6: C端Hamid評分; 維度7: C端片段(固定值2.0); 計算多肽的理化性質,表示向量的以下42個維度。 維度8:每一多肽酸性M酸(E, N, Q)的百分比; 維度9:每一多肽正電荷M酸(R, H)的百分比; 維度10:每一多肽芳香族氨基酸(F, Y, W)的百分比; 維度ll:每一多肽脂肪族氨基酸(G, V, A, I)的百分比; 維度12:每一多肽脯氨酸的百分比; 維度13:每一多肽反應性氨基酸(S, T)的百分比; 維度14:每一多肽丙氨酸的百分比; 維度15:每一多肽半胱氨酸的百分比; 維度16:每一多肽谷氨酸的百分比; 維度17:每一多肽苯丙氨酸的百分比; 維度18:每一多肽甘氨酸的百分比; 維度19:每一多肽組氨酸的百分比;維度20:每一-多肽異亮氨酸的百分比;
維度21:每一'多肽天冬酰胺的百分比;
在 平義",每一-多莊乂各磁.
維度23:每一-多肽精氨酸的百分比;
維度24:每一'多肽絲氨酸的百分比;
維度25:每一-多肽蘇氨酸的百分比;
維度26:每一-多肽非經(jīng)典氨基酸(未定義)的百分比;
(請注意此維度不包含除0外的任何值作為輸入) 維度27:每一多肽纈氨酸的百分比; 維度28:每一多肽色氨酸的百分比; 維度29:每一多肽酪氨酸的百分比;
維度30:半胱氨酸含量(O、偶數(shù)或奇數(shù)分別設為0.5、 l或0);
維度31:每一多肽巻曲二級結構的百分比;
維度32:每一多肽螺旋二級結構的百分比;
維度33:每一多肽隨機二級結構的百分比;
維度34: N端切割位點附近結構的評分;
維度35: C端切割位點附近結構的評分;
維度36:每一多肽螺旋區(qū)段的數(shù)目;
維度37:多肽的等電點;
維度38:多肽的平均分子量;
維度39:多肽內每一氨基酸的范德瓦爾斯力之和;
維度40:多肽內每一氨基酸的疏水性值之和;
維度41-48:根據(jù)每一多肽疏水性質、空間性質和電性質的主要成分 評分向量計算的平均值(Mei等人,2005); 維度49,多肽的長度。
在任何適用的地方,將維度1-49的值換算至0至1之間的范圍。 用于訓練和預測的輸入向量包含49個維度,但是由于所有片段的維度 26 (每一片段非經(jīng)典氨基酸的百分比)都設為0,本版本中僅使用了 48個
21維度。這是由于缺少包含非經(jīng)典氨基酸的訓練數(shù)據(jù),但可在后續(xù)模型中納 入。
4. 模型的測試
選擇最優(yōu)的模型,根據(jù)生物活性和非生物活性肽的獨立測試組的排序, 該模型具有最佳的表現(xiàn)。為測試模型,測試了所有生成的模型的表現(xiàn),選 擇了分別用于短肽(4-55個氨基酸)和較長多肽(56-300個氨基酸)的兩 個最優(yōu)才莫型。結果,對短肽的總體預測準確度達到90.7%,對較長的肽達 到94%。 4吏用獨立的測試組,所公開的方法正確鑒定出約93%的生物活性 肽和約91%的非生物活性肽。
5. 生物活性肽的鑒定
在排序步驟中(步驟6,圖1),選^^每一前體長度短于46個氨基酸、 評分最高的肽。在此排序過程中,即使其是每一蛋白質前體的評分最高的 肽,也將所有經(jīng)SVM分類后距離大于|0,65|,且處于于陰性訓練數(shù)據(jù)組(即 評分為-0.65或更低)的片段舍棄。
6. 抗孩t生物試驗測試通過本發(fā)明方法鑒定的肽的生物活性
6.1. 試驗技術
微量稀釋測試是確定培養(yǎng)物中存活細菌或酵母細胞數(shù)目的均相方法。 它依賴于活細菌或酵母在培養(yǎng)物中是渾濁的這一事實。濁度可用光度計測 量為光吸收,它與樣品中細胞的數(shù)目相關。
6.2. 材料和方法 細菌和酵母菌抹
本實驗過程中使用的菌林為大腸桿菌(五sc/^Wd^Vi E co// ATCC 25922)、 金黃色葡萄球菌0S似/7/^/ococc"s , 51. ATCC 29213)
和白色念珠菌(CVwi力V/fl a/6/oms1 , C. "/6/c朋s FH 2173)。所有測試菌株的預培養(yǎng)
菌株的培養(yǎng)起始于建立凍存貯存物(eryostoek),它可用于進行預培 養(yǎng)物的多次接種。
1. 用接種環(huán)將細菌劃線接種于Mueller Hilton (MH)瓊脂板上,并 將瓊脂板于37 "C孵育3天。對酵母采用同樣的程序,但使用Sabouraud dextrose ( SD )瓊脂。
2. 在裝有30 ml MH培養(yǎng)液的100 ml搖瓶中接種入一接種環(huán)的細菌, 并將搖瓶于37 °C 、 180轉/分鐘孵育1天。在SD培養(yǎng)液中對酵母應用同 樣的條件。
3. 用無菌吸頭從Cryobank (CRYO/G)塑料管中移去高滲的凍存液, 每個塑料管含有25個綠色玻璃小珠。
4. 每管中裝入2ml細菌/酵母懸液,蓋上管蓋,仔細混合。
5. 盡可能多地從管中去除細菌/酵母培養(yǎng)物上清。此時小珠表面為細 菌/酵母覆蓋。殘留于管內的液體應盡可能少,以防止小珠凝聚。 一個小珠 可用于接種一瓶預培養(yǎng)物(30 ml MH/SD培養(yǎng)液于100 ml搖瓶內)。
6. 將Cryobank (CRYO/G)管保存于-80 °C。
7. 質量/無菌檢驗從水箱取出一個Cryobank ( CRYO/G )管,置于 Cryoblock (CRYO/Z)內。打開管蓋,取出一個小珠,并立即用小珠在 MH/SBD瓊脂板上劃線。平板于37 °C孵育3天。通過檢查克隆形態(tài),驗 證只有測試菌林生長。
用MH培養(yǎng)液制備測試培養(yǎng)物
從Cryobank中取出測試菌林管。用無菌吸頭取出一個小珠,接種于 100 ml錐形瓶內,瓶內裝有30ml分別用于細菌和酵母的MH和SD培養(yǎng) 液。培養(yǎng)物于37。C、 180轉/分鐘生長18小時。用MH培養(yǎng)液調節(jié)所有測 試菌林的光密度至細胞密度對應于108細胞/毫升。將進行此試驗的標準接 種培養(yǎng)物1: 100稀釋至終濃度為106 CFU/ml (克隆形成單位/毫升)。肽稀釋
將化合物從125 nM的標準初始濃度連續(xù)稀釋(10個稀釋步驟),至終 濃度為0.24 pM。所有樣品和對照中的初始DMSO濃度為1.4%。
進行劑量反應曲線實驗的標準抗生素稀釋
用MH培養(yǎng)液將化合物連續(xù)稀釋(16個稀釋步驟),進行劑量反應實 驗?;衔锝K濃度范圍在64照/ml和0.002照/ml之間。所有樣品和對照 中的初始DMSO濃度為1.4%。
供應商目錄號功能
Mueller Hinton (MH)培養(yǎng)液Becton Dickinson275730培養(yǎng)基
Sabouraud dextrose (SD)培養(yǎng) 液Becton Dickinson238230培養(yǎng)基
DMSOMerck102 931溶劑
制霉菌素 Cyprobay 100Calbiochem Bayer475914抗生素
Greiner, 384Greincr781182試驗用板
SPECTRAFl雨PlusTecsiii-吸光度讀數(shù)器
試驗方案
*在30 ml MH培養(yǎng)液中,于37。C預培養(yǎng)細菌18小時(100 ml錐形
瓶)
*在30 ml SD培養(yǎng)液中,于37。C預培養(yǎng)酵母18小時(100 ml錐形
瓶)
*用MH培養(yǎng)液調節(jié)細胞懸液至106 CFU/ml (測試培養(yǎng)物) 試驗*在第一個管中加入10jUDMSO中的化合物和30^UMH培養(yǎng)液 *從第一個管中轉移20 pl至第二個裝有20 |nl MH培養(yǎng)液的管中 *將最后一步重復8次(肽,10個稀釋步驟)或14次(抗生素,16 個稀釋步驟)
*向每一管中加入10 pl測試培養(yǎng)物懸液(肽為10管,抗生素為16
管)
起始細胞接種物 5xl05CFU
起始DMSO濃度 12.5 %
起始/最^f匕合物濃度 125 pM - 0.24 pM => 起始/最終抗生素濃度64照/ml — 0.002照/ml *5%相對濕度,5%C02, 37。C孵育18小時 *在590 nm讀取光吸收5次
對照
*高對照有細菌的MH培養(yǎng)液(生長對照,高信號) *低對照無細菌的MH培養(yǎng)液(無菌對照,低信號)
6.3. 抗生素敏感性測試 為了評估此試驗對潛在藥物鑒定的適合性,用"材料和方法"下所述
的條件,測試了許多抗生素的劑量依賴效應。預期Cyprofloxacin對大腸 桿菌和金黃色葡萄球菌有活性,制霉菌素對白色念珠菌有活性。圖4中以 pg/ml為單位給出了這些抗生素的計算IC50值。
6.4. 試驗結果
針對測試菌林大腸桿菌(ATCC 25922 )、金黃色葡萄球菌(ATCC 29213 )和白色念珠菌(FH 2173 )對多肽進行了測試。多肽A003500589和 A003500548對大腸桿菌顯示的IC50值分別為7.25 pg/ml和6.79 pg/ml。 未發(fā)現(xiàn)針對金黃色葡萄球菌和白色念珠菌的活性。參考文獻
Chih-Chung Chang和Chih-Jen Lin; "LIBSVM: a library for support vector machines"; 2001
Peter Duckert, S0ren Brunak和Nikolaj Blom; "Prediction of proprotein convertase cleavage sites"; Protein Engineering, Design and Selection, 17:107-112, 2004
Durbin R, Eddy S, Krogh A和Mitchison G; "The theory behind profile HMMs: Biological sequence analysis: probabilistic models of proteins and nucleic acids"; Cambridge University Press, 1998.
C. Falciani, L Lozzi, A. Pini, L Bracci; "Bioactive Peptides from Libraries"; Chemistry & Biology,第12巻,第4期,第417-426頁,2005 Gasteiger E., Hoogland C., Gattiker A., Duvaud S., Wilkins M.R., Appel R.D., Bairoch A.; "Protein Identification and Analysis Tools on the ExPASy Server"; (In) John M. Walker (編)The Proteomics Protocols Handbook, Humana Press, 2005
Jones, D.T.; "Protein secondary structure prediction based on position-specific scoring matrices"; J. Mol. Biol. 292:195-202,1999 H. Kim和H. Park; "Prediction of protein relative solvent accessibility with support vector machines and long-range interaction 3d local descriptor"; Proteins, 54(3): 557-62, 2004
Md, H., Liao, T.H., Zhou, Y.,和Li, S.Z.; "A new set of amino acid descriptors and its application in peptide QSARs"; Biopolymers第80巻, 775-786, 2005
Henrik Nielsen, Jacob Engelbrecht, S0ren Brunak和Gunnar von Heijne; "Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites"; Protein Engineering, 10:1-6, 1997 Noble WS.; "What is a support vector machine "; Nat. Biotechnol.24(12):1565-7, 2006
Rohrer, S.; "Prediction of post-translational processing sites in peptide hormone precursors"; Diplomarbeit, UniversitSt Wiirzburg, 2004 John Shawe Taylor和Nello Cristianini; "Support Vector Machines and other kernel-based learning methods"; Cambridge University Press, 2000
附圖描述 圖1:
圖l給出了本發(fā)明所公開的方法的概要示意圖,以解釋肽文庫生成所 涉及的步驟。 圖2:
圖2顯示了根據(jù)共有理化性質選擇的185條生物活性肽的J^,列。 圖3:
圖3顯示了通過經(jīng)訓練的SVM算法鑒定出的185條生物活性肽的輸 入向量。 圖4:
圖4以照/ml為單位顯示了抗生素的計算IC50值。
權利要求
1.在基于計算機的系統(tǒng)中鑒定生物活性肽的方法,其使用基于二元支持向量機(SVM)的算法,所述方法包含步驟a)訓練SVM算法學會區(qū)分生物活性和非生物活性肽,所述訓練包含步驟a1)為一組帶標簽的已知生物活性肽和非生物活性肽生成49維度向量,每一維度源于對分子描述符值的計算,其中標簽分別表明肽是生物活性的或非生物活性的;a2)將步驟a1)生成的向量數(shù)據(jù)轉入基于SVM的算法,所述算法計算出最優(yōu)超平面,其將分別對應于生物活性肽和非生物活性肽的向量分開;b)從公開可用的人類蛋白質數(shù)據(jù)庫提供蛋白質序列;c)用計算法預測步驟b)提供的蛋白質序列的二級結構和切割位點;根據(jù)所述預測步驟,計算一組7個分子描述符,導致肽片段的生成;d)計算對應于步驟c)生成的肽片段理化性質的一組42個分子描述符;e)將來自步驟c)的計算值轉化為0至1之間的標度值,為每一肽片段生成49維度向量的1至7維度,將來自步驟d)的計算值轉化為0到1之間的標度值,為每一肽片段生成所述向量的8至49維度;f)將步驟e)生成的向量提交至在步驟a)中經(jīng)過訓練的SVM算法,測量每一向量到步驟a2)中計算出的超平面的距離;并g)根據(jù)步驟f)中測量的距離,將每一肽片段分類為生物活性肽或非生物活性肽。
2. 權利要求l的方法,其中步驟e)中生成的維度l至7如下維度l: N端ProP評分;維度2: N端Hmcut評分;維度3: N端片段;維度4: C端ProP評分;維度5: C端Hmcut評分;維度6: C端Hamid評分; 維度7: C端片段;步驟e)中生成的8至42維度如下維度8:每一多肽中酸性氨基酸(E、 N、 Q)的百分比;維度9:每一多肽中正電荷氨基酸 (R、 H)的百分比;維度10:每一多肽中芳香族氨基酸(F、 Y、 W)的 百分比;維度 :每一多肽中脂肪族氨基酸(G、 V、 A、 I)的百分比; 維度12:每一多肽中脯氨酸的百分比;維度13:每一多肽中反應性^酸 (S、 T)的百分比;維度14:每一多肽中丙氨酸的百分比;維度15:每 一多肽中半胱氨酸的百分比;維度16:每一多肽中谷氨酸的百分比;維度 17:每一多肽中苯丙氨酸的百分比;維度18:每一多肽中甘氨酸的百分比; 維度19:每一多肽中組氨酸的百分比;維度20:每一多肽中異亮氨酸的百 分比;維度21:每一多肽中天冬酰胺的百分比;維度22:每一多肽中谷氨 酰胺的百分比;維度23:每一多肽中精氨酸的百分比;維度24:每一多肽 中絲氨酸的百分比;維度25:每一多肽中蘇氨酸的百分比;維度26:每一 多肽非經(jīng)典氨基酸的百分比;維度27:每一多肽中纈氨酸的百分比;維度 28:每一多肽中色氨酸的百分比;維度29:每一多肽中酪氨酸的百分比; 維度30:半胱氨酸含量;維度31:每一多肽中巻曲二級結構的百分比;維 度32:每一多肽中螺旋二級結構的百分比;維度33:每一多肽中隨機二級 結構的百分比;34: N端切割位點附近結構的評分;維度35: C端 切割位點附近結構的評分;維度36:每一多肽中螺旋區(qū)段的數(shù)目;維度37: 多肽的等電點;維度38:多肽的平均分子量;維度39:多肽中每一M酸 的范德瓦爾斯力之和;維度40:多肽中每一氨基酸的疏水性值之和;維度 41-48:根據(jù)每一多肽疏水性質、空間性質和電性質的主要組分評分向量計 算的平均值;維度49:多肽的長度。
3. 權利要求1和2的方法,其中來自步驟b)的蛋白質序列是只發(fā)現(xiàn) 于人類分泌組的天然存在的蛋白質序列。
4. 權利要求1至3的方法,其中所述生物活性肽是來源于前體激素的 生物活性肽類激素。
5. 生物活性肽,其通過使用權利要求1和2的方法選自人類分泌組。
6. 權利要求5的生物活性肽,其中所述生物活性肽是生物活性肽類激素。
7. ;f又利要求6的生物活性肽,其中所述生物活性肽類激素來源于前體 蛋白質。
8. 權利要求5至7的生物活性肽,其具有選自以下氨基酸序列的序列SEQIDNO: 1、2、3、 4、 5、6、 7、8、9、 10、 11、12、13、14、15、16、17、18、 19、 20、21、22、23、 24、 25、26、27、28、29、30、31、32、 33、 34、 35、 36、 37、 38、39、40、41、42、43、44、45、 46、 47、48、49、50、 51、 52、53、54、55、56、57、58、59、 60、 61、62、63、64、 65、 66、67、68、69、70、71、72、73、 74、 75、76、77、78、 79、 80、81、82、83、84、85、86、87、 88、 89、90、91、92、 93、 94、95、96、97、98、99、100、101、 102、103、104、105、 106、107、108、109、110、111、 112、 113、 114、115、116、117、 118、119、120、121、 122、 123、 124、 125、 126、 127、 128、 129、 130、 131、 132、 133、 134、 135、 136、 137、 138、 139、 140、 141、 142、 143、 144、 145、 146、 147、 148、 149、 150、 151、 152、 153、 154、 155、 156、 157、 158、 159、 160、 161、 162、 163、 164、 165、 166、 167、 168、 169、 170、 171、 172、 173、 174、 175、 176、 177、 178、 179、 180、 181、 182、 183、 184、 185。
9. 肽文庫,其包含通過權利要求1至3的方法鑒定出的生物活性肽。
10. 權利要求9的肽文庫,其中所述肽文庫包含權利要求8的生物活 性肽。
11. 權利要求9的肽文庫,其中所述生物活性肽是生物活性肽類激素。
12. 權利要求ll的肽文庫,其中所述生物活性肽類激素來源于前體蛋 白質。
13. 計算設備,其配置為通過使用基于二元支持向量機(SVM)的方 法鑒定生物活性肽,所述方法包含步驟a)訓練SVM算法學會區(qū)分生物活性和非生物活性肽,所述訓練 包含步驟ai)為一組帶標簽的已知生物活性肽和非生物活性肽生成49 維度向量,每一維度源于對分子描述符值的計算,其中標簽分別表明肽是 生物活性的或非生物活性的;a2)將步驟a,)生成的向量數(shù)據(jù)轉入基于SVM的算法,所述 算法計算出最優(yōu)超平面,其將分別對應于生物活性肽和非生物活性肽的向 量分開;b) 從公開可用的人類蛋白質數(shù)據(jù)庫提供蛋白質序列;c) 用計算法預測步驟b)提供的蛋白質序列的二級結構和切割位 點;根據(jù)所述預測步驟,計算一組7個分子描述符,導致肽片段的生成;d) 計算對應于步驟c)生成的肽片段理化性質的一組42個分子描述符;e) 將來自步驟c)的計算值轉化為0至1之間的標度值,為每一肽 片段生成49維度向量的1至7維度,將來自步驟d)的計算值轉化為0到1 之間的標度值,為每一肽片段生成所述向量的8至49維度;f) 將步驟e)生成的向量提交至在步驟a)中經(jīng)過訓練的SVM算法, 測量每一向量到步驟a2)中計算出的超平面的距離;并g) 根據(jù)步驟f)中測量的距離,將每一肽片段分類為生物活性肽或 非生物活性肽。
14. 權利要求1至4的方法的用途,所述用途為鑒定治療性多肽、藥 物介入靶點、發(fā)現(xiàn)相關靶點的配體或監(jiān)測疾病的生物標記。
15. ^5L利要求9至12的肽文庫在篩選方法中的用途,所述篩選方法用 于研究細胞內信號通路、產(chǎn)生試劑深化對通路的了解、產(chǎn)生新的治療形式 及鑒定藥物活性化合物、藥物介入靶點、發(fā)現(xiàn)相關靶點的配體或監(jiān)測疾病 的生物標記。
16. 藥物組合物,其包含生物活性肽作為生物活性劑,所述生物活性 肽具有選自SEQIDN01-185的^J^酸序列的序列。
全文摘要
在不同試驗中篩選肽文庫提供了同時研究細胞內信號通路、產(chǎn)生試劑深化對通路的了解和產(chǎn)生治療的新形式的可能性。通過生長刺激作用、生長抑制作用或關鍵代謝通路的調節(jié),多數(shù)(若非全部)生物活性肽(如肽類激素)在健康和疾病中都具有深遠的影響。本發(fā)明涉及新的生物活性肽、鑒定這些肽的計算機模擬方法及包含這些肽的肽文庫。
文檔編號G06F19/16GK101663668SQ200880008365
公開日2010年3月3日 申請日期2008年3月4日 優(yōu)先權日2007年3月13日
發(fā)明者E·容, M·亨德里奇 申請人:塞諾菲-安萬特股份有限公司