專利名稱:基于分子描述符的蛋白質-配體親和力預測方法
技術領域:
本發(fā)明涉及計算機輔助藥物分子設計領域,特別涉及一種基于分子描述符的蛋白質-配體親和力預測方法。
背景技術:
在基于結構的藥物設計中,例如分子對接和從頭設計,預測蛋白質靶標與其配體之間的結合親和力通常采用打分函數打分的方法。迄今為止,打分函數大致可以分為三類基于力場、基于知識和基于經驗,而其中以基于經驗的打分函數打分最受青睞。基于經驗的打分函數通常是由多種蛋白質和配體相互作用相關的物理化學項組成,如范德華力、氫鍵、靜電以及金屬-配體鍵能等。這些項的系數往往通過多重線性回歸擬合而來??梢?,基于經驗的打分函數原理簡單且計算高效。然而,目前采用基于經驗的打分函數打分的方法仍存在一些不足,如預測值與實驗值相關性不佳、靶點依賴性大和對同系物敏感性差等。諸多因素可導致這些問題,其中至少包括以下三個方面。第一,用于擬合打分函數各項系數的訓練集中蛋白質和配體晶體結構復合物的數目以及多樣性不夠,這可能導致構建的打分函數對不同蛋白質靶標的預測能力差異較大。第二,打分函數所包含的蛋白質和配體相互作用的項數十分有限,通常少于20項,不足以全面反映蛋白質和配體相互作用。第三,打分函數各項系數通常是由線性回歸獲得,而線性回歸要求各項必須獨立,但事實上打分函數各項會相互影響。因此,目前仍然需要發(fā)展新的蛋白質-配體親和力預測方法,以克服當前打分函數存在的問題,從而促進基于結構的藥物設計方法在新藥研發(fā)中的應用,并進而推動創(chuàng)新藥物的研發(fā)。
發(fā)明內容
本發(fā)明的目的是提供一種全新的蛋白質-配體親和力預測方法。這種方法屬于一種基于經驗的打分函數打分方法,是基于蛋白質和配體之間相互作用的分子描述符,采 用支持向量回歸的方法來建立描述符與蛋白質-配體親和力的關系。該方法克服了現有技術中預測值與實驗值相關性不佳、靶點依賴性大和對同系物敏感性差等不足。本發(fā)明的基本思路是收集大量的多樣化的蛋白質-配體復合物晶體結構(簡稱復合物)及其結合親和力(簡稱親和力)實驗值作為訓練集,構建完善而系統(tǒng)的分子描述符,藉以完整地反映蛋白質-配體相互作用,計算訓練集中所有蛋白質-配體相互作用分子描述符,采用支持向量回歸(SVR, Supporting Vector Regression)的方法來擬合描述符與親和力之間的關系,從而用于預測給定復合物的親和力。這種思路的基本理論是基于
(I)訓練集的大小、質量以及多樣性直接影響著基于經驗的打分函數的預測能力。因此,收集大量且多樣的復合物結構是至關重要的,這樣可以更全面反映多種復合物結構的相互作用特征,從而使打分函數適合更多生物類型的復合物親和力預測,減少對不同類型的復合物預測能力差異較大的現象。(2)構建若干分子描述符,藉以全面反映蛋白質-配體相互作用。一方面,對于非常重要的相互作用,如范德華力和氫鍵,分別構建不同原子類型之間的分子描述符;另一方面,充分考慮與蛋白質-配體相互作用密切相關的因素,如疏水效應、熵效應、形狀匹配以及表面匹配。這樣不僅可以提高打分函數的預測能力,而且可以提高對結構差異小的同系物預測的敏感度。(3)利用支持向量回歸的方法來擬合描述符與復合物親和力的關系,支持向量回歸是一種優(yōu)秀的機器學習方法,可以解決線性回歸無法處理相互作用耦合項的關鍵技術問題,從根本上提高打分函數對復合物親和力的預測能力。
本發(fā)明的目的是這樣達到的一種基于分子描述符的蛋白質-配體親和力全新預測方法,其特征在于收集大量的多樣化的蛋白質和配體復合物晶體結構及其結合親和力實驗值,構建全面綜合的分子描述符藉以反映復合物親和力,并采用支持向量回歸的方法建立描述符與親和力的關系,從而用于預測給定復合物的親和力的方法。包括如下四個步驟(1)訓練集的準備訓練集的準備采用同時包含復合物及其親和力的數據,每個復合物中蛋白質結構和配體結構分別保存在同一個文件夾,蛋白質結構以PDB格式保存,而配體以mol2格式保存。(2)描述符的計算;構建若干蛋白質和配體相互作用相關的分子描述符,這些描述符分別屬于九種不同的類型范德華相互作用、靜電相互作用、氫鍵相互作用、η鍵相互作用、金屬鍵相互作用、去溶劑效應、熵效應、表面匹配和形狀匹配。不同類型的描述符對應不同的計算公式或計算方法,描述符的計算通過編寫程序完成。(3)回歸模型的建立;采用支持向量回歸的方法來建立描述符與親和力之間的回歸模型,在回歸過程中引入共軛梯度法來優(yōu)化支持向量回歸中兩個重要的參數,即懲罰因子C和核函數Y。(4)基于回歸模型建立新型的打分函數,預測復合物的親和力。在步驟(I)訓練集的準備中,訓練集總共包含2278個復合物結構及其親和力數據;在步驟(2)描述符的構建中,共構建50種蛋白質-配體相互作用相關的描述符。用于計算描述符的程序簡要步驟如下I)讀入訓練集復合物名單,并依次調用復合物;2)分別讀入復合物中蛋白質結構和配體結構;3)調用力場參數文件,并為蛋白質結構和配體結構賦力場參數;4)定義蛋白質結構活性中心和網格;5)計算出50種與蛋白質和配體相互作用的描述符;6)若訓練集復合物名單未循環(huán)完畢,則返回第一步;7)輸出訓練集所有復合物對應的50種描述符具體值。在步驟(3)回歸模型的建立中,引入了共軛梯度法優(yōu)化懲罰因子C和核函數Y的值的程序是I)將訓練集中復合物的親和力實驗值與對應的50種描述符值作為輸入文件;2)重新標度描述符值至-I到+1這個區(qū)間;3)初始化懲罰因子C和核函數Y的值;4)調用支持向量回歸SVR程序,建立回歸模型,并計算得到一組親和力預測值;5)計算訓練集中復合物的親和力實驗值與預測值之間的相關系數;6)根據相關系數值,通過共軛梯度法優(yōu)化懲罰因子C和核函數Y的值,得到一組新的C和Y值,返回第五步;7)符合條件時,循環(huán)終止;8 )輸出最優(yōu)的回歸模型;
在步驟(4)建立新型的打分函數,預測復合物的親和力的程序如下I)分別讀入給定復合物中蛋白質結構和配體結構;2)調用力場參數文件,并為蛋白質結構和配體結構賦力場參數;
3)定義蛋白質結構活性中心和網格;4)計算出50種與蛋白質和配體相互作用的描述符,5)將描述符值重新標度至-I到+1這個區(qū)間;6)輸入最佳懲罰因子C和核函數Y的值,并讀入最佳支持向量回歸模型;7)調用支持向量回歸SVR程序;8)輸出給定復合物親和力的預測值。本發(fā)明的積極效果是本發(fā)明的方法屬于基于經驗打分函數打分的方法,其基本功能是預測蛋白質和配體之間親和力大小。相對以前的經驗打分函數打分方法,本發(fā)明具有三方面的優(yōu)勢。第一,該方法對蛋白質-配體親和力預測能力較強;第二,該方法對不同生物類型的蛋白質-配體親和力的預測差異較小,即生物蛋白靶點依賴性較小,適用于大多數類型的蛋白質-配體親和力預測;第三,該方法能較好地區(qū)分結構差異小的同系物與其靶點的親和力大小,特別適用于先導化合物優(yōu)化中。
四
圖I分子描述符計算的工作流程圖。圖2回歸模型建立的工作流程圖。圖3打分函數進行打分預測的工作流程圖。
五具體實施例方式本發(fā)明方法屬于基于經驗打分函數打分的方法,通過收集2278個多樣化的蛋白質和配體復合物晶體結構及其結合親和力實驗值,構建50個完善而系統(tǒng)的蛋白質和配體相互作用相關的分子描述符來反映復合物親和力,并采用支持向量回歸的方法建立描述符與復合物親和力的關系,從而構建經驗打分函數用于預測給定復合物的親和力。具體步驟如下(I)訓練集的準備訓練集總共包含2278個復合物結構及其親和力數據。每個復合物中蛋白質結構和配體結構分別以TOB ID號命名并保存在同一個文件夾,其中蛋白質結構以PDB格式保存,而配體以格式保存,以便后續(xù)程序調用。(2)描述符的構建與計算構建并計算全面綜合的蛋白質和配體相互作用相關描述符是本發(fā)明打分函數的核心部分。本發(fā)明總共構建了 50種與蛋白質-配體相互作用相關的描述符(詳見表一),這些描述符分屬于九種類型范德華相互作用、靜電相互作用、氫鍵相互作用、η鍵相互作用、金屬鍵相互作用、熵效應、去溶劑效應、表面匹配和形狀匹配。描述符的分類如表一。表一
權利要求
1.一種基于分子描述符的蛋白質-配體親和力預測方法,其特征在于收集大量的多樣化的蛋白質-配體復合物晶體結構及其結合親和力數據,構建完善而系統(tǒng)的分子描述符藉以全面反映蛋白質-配體親和力,并采用支持向量回歸的方法建立分子描述符與親和力的關系,從而用于預測給定復合物的親和力,包括如下四個步驟(1)訓練集的準備訓練集的準備采用同時包含復合物及其親和力的數據,每個復合物中蛋白質結構和小分子配體結構分別保存在同一個文件夾,蛋白質結構以PDB格式保存,而配體以格式保存;(2)分子描述符的分類構建與計算;構建若干蛋白質-配體相互作用相關的分子描述符,這些描述符分別屬于九種不同的類型范德華相互作用、靜電相互作用、氫鍵相互作用、η鍵相互作用、金屬鍵相互作用、去溶劑效應、熵效應、表面匹配和形狀匹配,不同類型的分子描述符對應不同的計算公式或計算方法,描述符的計算通過編寫程序完成;(3)回歸模型的建立;采用支持向量回歸方法來擬合描述符與親和力之間的關系,即建立回歸模型;在回歸模型建立過程中,引入共軛梯度法來優(yōu)化懲罰因子C和核函數參數Y的值(4)在描述符計算和回歸模型的基礎之上,組建新型的打分函數,預測復合物的親和力。
2.如權利要求I所述的方法,其特征在于在步驟(I)訓練集的準備中,訓練集總共包含2278個復合物結構及其親和力數據;在步驟(2)描述符的構建與分類計算中,構建50種蛋白質-配體相互作用相關的分子描述符,描述符的計算程序如下1)讀入訓練集復合物名單,并依次調用復合物;2)分別讀入復合物中蛋白質結構和小分子配體結構;3)調用力場參數文件,并為蛋白質結構和配體結構賦力場參數;4)定義蛋白質結構活性中心和網格;5)計算出50種與蛋白質-配體相互作用的分子描述符;6)若訓練集復合物名單未循環(huán)完畢,則返回第一步;7)輸出訓練集所有復合物對應的50種描述符具體值;在步驟(3)回歸模型的建立中,引入共軛梯度法優(yōu)化懲罰因子C和核參數Y的值的程序是1)將訓練集中復合物的親和力實驗值與對應的50種描述符值作為輸入文件;2)重新標度描述符值至-I到+1這個區(qū)間;3)初始化懲罰因子C和核函數Y的值;4)調用支持向量回歸SVR程序,得到一組親和力預測值;5)計算訓練集中復合物的親和力實驗值與預測值之間的相關系數;6)根據相關系數值,通過共軛梯度法優(yōu)化懲罰因子C和核函數Y的值,得到一組新的C和Y值,返回第五步;7)符合條件時,循環(huán)終止;8)輸出最優(yōu)的回歸模型;在步驟(4)建立新型的打分函數,預測復合物的親和力的程序如下1)分別讀入給定復合物中蛋白質結構和小分子配體結構;2)調用力場參數文件,并為蛋白質結構和小分子配體結構賦力場參數;3)定義蛋白質結構活性中心和網格;4)計算出50種與蛋白質-配體相互作用的分子描述符,5)將描述符值重新標度至-I到+1這個區(qū)間;6)輸入最佳懲罰因子C和核函數Y的值,并讀入最佳回歸模型;7)調用支持向量回歸SVR程序;8)輸出給定復合物親和力的預測值。
3.如權利要求I所述的方法,其特征在于所述分子描述符分屬于九種類型,其每一類描述符的具體計算公式或計算方法如下第一類,范德華力相互作用描述符的計算,由公式(I)得到,公式(I)為
全文摘要
基于分子描述符的蛋白質-配體親和力預測方法。構建完善而系統(tǒng)的分子描述符反映蛋白質-配體親和力,采用支持向量回歸的方法建立描述符與親和力的關系。步驟是a、訓練集的準備準備大量同時包含蛋白質-配體復合物晶體結構及其親和力數據。b、分子描述符的構建與計算構建50種九類不同的分子描述符,計算出訓練集中所有復合物描述符的具體值。c、回歸模型的建立;采用支持向量回歸方法擬合描述符與親和力之間的關系,引入共軛梯度法來優(yōu)化其懲罰因子C和核函數參數。d、組建新型的打分函數,用于預測復合物的親和力。本發(fā)明具有預測能力強、靶點依賴性小、對同系物敏感性高等優(yōu)點。
文檔編號G06F19/16GK102930181SQ201210440910
公開日2013年2月13日 申請日期2012年11月7日 優(yōu)先權日2012年11月7日
發(fā)明者楊勝勇, 李國菠, 李琳麗, 楊羚羚, 魏于全 申請人:四川大學