本發(fā)明涉及一種生物學信息學、智能優(yōu)化、計算機應用領域,尤其涉及的是,一種基于局部抽象凸支撐面的多策略群體蛋白質結構預測方法。
背景技術:
生物細胞中包含許多由20多種氨基酸所形成的長鏈折疊而成的蛋白質,蛋白質結構預測問題是當今計算生物學領域中的研究熱點,不僅具有非常重要的理論機制,而且對新蛋白的設計、蛋白質之間相互作用建模、藥物標靶蛋白的設計具有十分重要的指導意義。目前,最常用的蛋白質結構實驗測定方法包括X-晶體衍射和核磁共振,但是上述兩種蛋白質結構測定方法存在一定的缺陷,無法滿足所有蛋白質結構預測的需求。例如,對于一些不易結晶的蛋白,無法使用X-晶體衍射方法進行測定;使用核磁共振房產測定一個蛋白的結構費用較大(大約15萬美元),并且極其費時(大約需要半年)。因此,如何以計算機為工具,運用適當的算法,從氨基酸序列出發(fā)直接預測蛋白質的三維結構,成為當前生物信息學中一種重要的研究課題。
1965年,Anfinsen等提出了蛋白質的一級結構完全決定了其三維空間結構的著名論斷,這一論斷使得根據蛋白質得氨基酸序列從理論上預測其相應的空間結構成為了現實。從熱力學角度來看,也就是說蛋白質的天然態(tài)結構通常對應著能量最低的構象。因此,從氨基酸序列出發(fā),以能量函數來衡量構象的質量,采用適當的算法搜索能量模型中最小能量構象,從而預測蛋白質的天然態(tài)結構,已成為計算生物信息學中重要的研究課題之一。目前,最常用的預測方法可以劃分為以下三類:針對高相似序列的同源建模方法;針對較低相似性序列的折疊識別方法;以及不依賴模板的從頭預測方法(ab initio或de novo)。經過20多年的發(fā)展歷程表明,對于序列相似度較高的情況(>50%),TBM預測精度能夠達到左右;然而,序列相似度<30%的情況下并不理想;對于序列相似度<20%或寡肽(<10個殘基的小蛋白)來說,從頭預測方法是唯一的選擇。
從頭預測方法直接基于Anfinsen假說建立蛋白質物理或知識能量模型,然后設計適當優(yōu)化算法求解最小能量構象??梢钥闯觯瑥念^預測方法必須考慮以下兩個因素:(1)知識能量的構建;(2)構象空間搜索方法。第一個因素本質上屬于分子力學問題,主要是為了能夠計算得到每個蛋白質結構對應的能量值。第二個因素本質上屬于全局優(yōu)化問題,通過選擇一種合適的優(yōu)化方法,對構象空間進行快速搜索,得到能量最低構象。其中,蛋白質構象空間優(yōu)化屬于一類非常難解的NP-Hard問題。群體進化類算法是研究蛋白質分子構象優(yōu)化的重要方法,主要包括差分進化算法(DE)、遺傳算法(GA)、粒子群算法(PSO),這些算法不僅結構簡單,易于實現,而且魯棒性強,因此,經常被用于從頭預測方法中的全局最小能量構象搜索。然而,對于上述群體算法,新構象生成策略的選擇至關重要,不恰當的策略會導致算法搜索效率低、收斂速度慢,甚至陷入局部最優(yōu),出現早熟收斂現象,從而影響預測精度。
因此,現有的構象空間優(yōu)化方法在搜索效率和預測精度方面存在著缺陷,需要改進。
技術實現要素:
為了克服現有的群體蛋白質結構預測方法在預測精度和搜索效率方面的不足,本發(fā)明提出一種預測精度高、搜索效率高的基于局部抽象凸支撐面的多策略群體蛋白質結構預測方法。
本發(fā)明解決其技術問題所采用的技術方案是:
一種基于局部抽象凸支撐面的多策略群體蛋白質結構預測方法,所述方法包括以下步驟:
1)選取蛋白質力場模型,即能量函數E(X),并輸入待測蛋白質的序列信息;
2)初始化:設置種群規(guī)模NP,交叉概率CR,增益常數F,支撐面斜率控制因子M和最大迭代次數Gmax;根據輸入的序列信息生成初始構象種群并計算每個構象個體的能量值f(Xi)=E(Xi),i=1,2,…,NP,其中,N表示維數,表示第i個構象個體Xi的第N維元素,并初始化迭代次數G=0;
3)對種群中的每個構象Xi,i∈{1,2,…,NP}作如下處理:
3.1)從當前種群中隨機選取四個互不相同的構象個體Xa,Xb,Xc,Xd,其中a≠b≠c≠d≠i;
3.2)根據變異操作V1i=Xa+F(Xb-Xc)生成變異構象個體V1i;
3.3)根據變異操作生成變異構象個體
3.4)根據能量值對當前種群中的構象個體進行升序排列,找出能量最低的構象個體Xbest;
3.5)根據變異操作生成變異構象個體
3.6)分別對變異構象個體V1i、和執(zhí)行交叉操作生成新構象個體和其中m=1,2,3,j=1,2,…,N,表示新構象個體的第j維元素,表示變異構象個體的第j維元素,表示目標構象個體Xi的第j維元素,R1表示0和1之間的隨機小數,R2表示1和N之間的隨機整數;
3.7)根據如下操作分別計算新構象個體和的能量估計值:
3.7.1)計算當前種群中每個構象個體到新構象個體之間的距離表示第i個構象個體到第1個新構象個體之間的距離;
3.7.2)根據距離對所有構象個體進行升序排列,選取距離最小的兩個構象個體并記為并計算其抽象凸下界估計支撐面:
其中,為所選構象個體的能量函數值,n=1,2,…,N+1為所選構象個體的第n維元素,為輔助變量,M為支撐面斜率控制因子;
3.7.3)計算新構象個體的能量估計值其中max表示求最大值,min表示求最小值,為支
撐向量lt的第j維元素;
3.7.4)根據步驟3.7.1)-3.7.3)計算新構象個體的能量估計值
3.7.5)根據步驟3.7.1)-3.7.3)計算新構象個體的能量估計值
3.8)比較新構象個體和的能量估計值,并選出能量估計值最小的新構象個體,并記為Umin;
3.9)計算構象Umin的能量函數值f(Umin)=E(Umin),如果f(Umin)小于當前目標構象個體Xi的能量函數值f(Xi),則構象Umin替換構象Xi;
4)判斷是否滿足終止條件,若滿足則輸出結果并退出,否則返回步驟3)。
進一步,所述步驟4)中,對種群中的每個構象個體都執(zhí)行完步驟3)以后,迭代次數G=G+1,終止條件為迭代次數G達到預設最大迭代次數Gmax。
本發(fā)明的技術構思為:首先,根據隨機選擇的構象個體、當前目標構象個體和能量值最低的構象構體生成三個不同的新構象個體;然后,分別計算當前種群中各構象個體到各新構象個體的距離,并根據距離進行升序排列;其次,計算離各新構象個體最近的部分構象個體的抽象凸支撐面,從而計算各新構象個體的能量估計值;最后,比較各新構象個體能量估計值,從而選取能量估計值最低的新構象個體進行能量函數評價。
本發(fā)明的有益效果表現在:一方面,根據不同的策略生成多個不同的新構象個體,避免因策略選擇不恰當而引起的早熟收斂,從而提高預測精度;另一方面,根據新構象個體的抽象凸能量估計值選擇新構象構體,減少能量函數平均,從而降低計算代價,提高搜索效率。
附圖說明
圖1是基于局部抽象凸支撐面的多策略群體蛋白質結構預測方法的流程圖。
圖2是基于局部抽象凸支撐面的多策略群體蛋白質結構預測方法對蛋白質1AIL進行結構預測時的構象更新示意圖。
圖3是基于局部抽象凸支撐面的多策略群體蛋白質結構預測方法對蛋白質1AIL進行結構預測時得到的構象分布圖。
圖4是基于局部抽象凸支撐面的多策略群體蛋白質結構預測方法對蛋白質1AIL進行結構預測得到的三維結構圖。
具體實施方式
下面結合附圖對本發(fā)明作進一步描述。
參照圖1~圖4,一種基于局部抽象凸支撐面的多策略群體蛋白質結構預測方法,包括以下步驟:
1)選取蛋白質力場模型,即能量函數E(X),并輸入待測蛋白質的序列信息;
2)初始化:設置種群規(guī)模NP,交叉概率CR,增益常數F,支撐面斜率控制因子M和最大迭代次數Gmax;根據輸入的序列信息生成初始構象種群并計算每個構象個體的能量值f(Xi)=E(Xi),i=1,2,…,NP,其中,N表示維數,表示第i個構象個體Xi的第N維元素,并初始化迭代次數G=0;
3)對種群中的每個構象Xi,i∈{1,2,…,NP}作如下處理:
3.1)從當前種群中隨機選取四個互不相同的構象個體Xa,Xb,Xc,Xd,其中a≠b≠c≠d≠i;
3.2)根據變異操作V1i=Xa+F(Xb-Xc)生成變異構象個體V1i;
3.3)根據變異操作生成變異構象個體
3.4)根據能量值對當前種群中的構象個體進行升序排列,找出能量最低的構象個體Xbest;
3.5)根據變異操作生成變異構象個體
3.6)分別對變異構象個體V1i、和執(zhí)行交叉操作生成新構象個體和其中m=1,2,3,j=1,2,…,N,表示新構象個體的第j維元素,表示變異構象個體的第j維元素,表示目標構象個體Xi的第j維元素,R1表示0和1之間的隨機小數,R2表示1和N之間的隨機整數;
3.7)根據如下操作分別計算新構象個體和的能量估計值:
3.7.1)計算當前種群中每個構象個體到新構象個體之間的距離表示第i個構象個體到第1個新構象個體之間的距離;
3.7.2)根據距離對所有構象個體進行升序排列,選取距離最小的兩個構象個體并記為并計算其抽象凸下界估計支撐面:
其中,為所選構象個體的能量函數值,n=1,2,…,N+1為所選構象個體的第n維元素,為輔助變量,M為支撐面斜率控制因子;
3.7.3)計算新構象個體的能量估計值其中max表示求最大值,min表示求最小值,為支撐向量lt的第j維元素;
3.7.4)根據步驟3.7.1)-3.7.3)計算新構象個體的能量估計值
3.7.5)根據步驟3.7.1)-3.7.3)計算新構象個體的能量估計值
3.8)比較新構象個體和的能量估計值,并選出能量估計值最小的新構象個體,并記為Umin;
3.9)計算構象Umin的能量函數值f(Umin)=E(Umin),如果f(Umin)小于當前目標構象個體Xi的能量函數值f(Xi),則構象Umin替換構象Xi;
4)判斷是否滿足終止條件,若滿足則輸出結果并退出,否則返回步驟3)。
進一步,所述步驟4)中,對種群中的每個構象個體都執(zhí)行完步驟3)以后,迭代次數G=G+1,終止條件為迭代次數G達到預設最大迭代次數Gmax。
本實施例序列長度為73的α折疊蛋白質1AIL為實施例,一種基于局部抽象凸支撐面的多策略群體蛋白質結構預測方法,其中包含以下步驟:
1)選取蛋白質Rosetta Score3力場模型,即Rosetta Score3能量函數E(X),并輸入待測蛋白質的序列信息;
2)初始化:設置種群規(guī)模NP=50,交叉概率CR=0.5,增益常數F=0.5,支撐面斜率控制因子M=1000,最大迭代次數Gmax=10000;根據輸入的序列信息生成初始構象種群并計算每個構象個體的能量值f(Xi)=E(Xi),i=1,2,…,NP,其中,N表示維數,表示第i個構象個體Xi的第N維元素,并初始化迭代次數G=0;
3)對種群中的每個構象Xi,i∈{1,2,…,NP}作如下處理:
3.1)從當前種群中隨機選取四個互不相同的構象個體Xa,Xb,Xc,Xd,其中a≠b≠c≠d≠i;
3.2)根據變異操作V1i=Xa+F(Xb-Xc)生成變異構象個體V1i;
3.3)根據變異操作生成變異構象個體
3.4)根據能量值對當前種群中的構象個體進行升序排列,找出能量最低的構象個體Xbest;
3.5)根據變異操作生成變異構象個體
3.6)分別對變異構象個體V1i、和執(zhí)行交叉操作生成新構象個體和其中m=1,2,3,j=1,2,…,N,表示新構象個體的第j維元素,表示變異構象個體的第j維元素,表示目標構象個體Xi的第j維元素,R1表示0和1之間的隨機小數,R2表示1和N之間的隨機整數;
3.7)根據如下操作分別計算新構象個體和的能量估計值:
3.7.1)計算當前種群中每個構象個體到新構象個體之間的距離表示第i個構象個體到第1個新構象個體之間的距離;
3.7.2)根據距離對所有構象個體進行升序排列,選取距離最小的兩個構象個體并記為并計算其抽象凸下界估計支撐面:
其中,為所選構象個體的能量函數值,n=1,2,…,N+1為所選構象個體的第n維元素,為輔助變量,M為支撐面斜率控制因子;
3.7.3)計算新構象個體的能量估計值其中max表示求最大值,min表示求最小值,為支撐向量lt的第j維元素;
3.7.4)根據步驟3.7.1)-3.7.3)計算新構象個體的能量估計值
3.7.5)根據步驟3.7.1)-3.7.3)計算新構象個體的能量估計值
3.8)比較新構象個體和的能量估計值,并選出能量估計值最小的新構象個體,并記為Umin;
3.9)計算構象Umin的能量函數值f(Umin)=E(Umin),如果f(Umin)小于當前目標構象個體Xi的能量函數值f(Xi),則構象Umin替換構象Xi;
4)對種群中的每個構象個體都執(zhí)行完步驟3)以后,迭代次數G=G+1,判斷迭代次數G是否大于最大迭代次數Gmax,若G大于Gmax,則輸出預測結果并退出,否則返回步驟3)。
以序列長度為73的α折疊蛋白質1AIL為實施例,運用以上方法得到了該蛋白質的近天然態(tài)構象,最小均方根偏差為平均均方根偏差為預測結構如圖4所示。
以上說明是本發(fā)明以1AIL蛋白質為實例所得出的優(yōu)化效果,并非限定本發(fā)明的實施范圍,在不偏離本發(fā)明基本內容所涉及范圍的的前提下對其做各種變形和改進,不應排除在本發(fā)明的保護范圍之外。