基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法
【專利摘要】本發(fā)明提供一種基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法,包括:特征抽取與特征組合:分別利用PSI-BLAST、PSIPRED和蛋白質(zhì)-維他命綁定位點(diǎn)傾向表抽取蛋白質(zhì)的進(jìn)化信息、二級結(jié)構(gòu)信息以及綁定傾向性信息,使用滑動窗口與串行組合將蛋白質(zhì)序列中的氨基酸殘基轉(zhuǎn)換為向量形式表示;使用多種特征選擇算法分別對原始特征空間進(jìn)行多次特征選擇;每次特征選擇得到的特征子集構(gòu)成一個(gè)特征子空間,構(gòu)建多個(gè)特征子空間;對所得的每個(gè)特征子空間,訓(xùn)練一個(gè)SVM分類器;使用加權(quán)平均的分類器融合方式對訓(xùn)練完畢的多個(gè)SVM分類器進(jìn)行融合;基于融合后的SVM預(yù)測器對待預(yù)測蛋白質(zhì)進(jìn)行蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測。本發(fā)明的預(yù)測方法預(yù)測速度快、預(yù)測精度高。
【專利說明】基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及生物信息學(xué)蛋白質(zhì)-維他命相互作用領(lǐng)域,具體而言涉及一種基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法。
【背景技術(shù)】
[0002]蛋白質(zhì)與維他命之間的相互作用在新陳代謝中起到了至關(guān)重要的作用,是生命活動中普遍存在且不可或缺的。通過生物實(shí)驗(yàn)的方法來確定蛋白質(zhì)與維他命之間的綁定位點(diǎn)需要耗費(fèi)大量的時(shí)間和資金,并且效率較低。隨著測序技術(shù)的飛速發(fā)展和人類結(jié)構(gòu)基因組的不斷推進(jìn),蛋白質(zhì)組學(xué)中已經(jīng)累積了大量未進(jìn)行與維他命綁定位點(diǎn)標(biāo)定的蛋白質(zhì)序列。因此應(yīng)用生物信息學(xué)的相關(guān)知識,研發(fā)能夠直接從蛋白質(zhì)序列出發(fā)進(jìn)行蛋白質(zhì)-維他命綁定位點(diǎn)快速且準(zhǔn)確的智能預(yù)測方法有著迫切需求,且對于發(fā)現(xiàn)和認(rèn)識蛋白質(zhì)結(jié)構(gòu)和生理功能有著重要的意義。
[0003]目前,針對預(yù)測蛋白質(zhì)-維他命綁定位點(diǎn)的計(jì)算模型還很欠缺。目前僅僅發(fā)現(xiàn)一種專門設(shè)計(jì)用來進(jìn)行蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測的計(jì)算模型,即VitaPred。VitaPred是世界上第一個(gè)專門設(shè)計(jì)用來進(jìn)行蛋白質(zhì)-維他命綁定位點(diǎn)定位的預(yù)測器(B.Panwar, S.Gupta, and G.P.S.Raghava, “Prediction of vitamin interacting residues in avitamin binding protein using evolutionary information,,,BMC Bioinformatics, vo1.14, Feb7, 2013)。VitaPred是一種可以預(yù)測蛋白質(zhì)與不同種類維他命(維他命A、維他命B、維他命B6等)的預(yù)測器。由于不同的維他命種類之間存在著差異性,所以VitaPred構(gòu)造了 4個(gè)非冗余的數(shù)據(jù)集合,分別是:含有187條與維他命有綁定關(guān)系的蛋白質(zhì)(這個(gè)數(shù)據(jù)集合沒有區(qū)分維他命的種類)、含有31條與維他命A有綁定關(guān)系的蛋白質(zhì)、含有141條與維他命B有綁定關(guān)系的蛋白質(zhì)、以及含有71條與維他命B6有綁定關(guān)系的蛋白質(zhì)。VitaPred通過抽取氨基酸殘基的位置特異性得分矩陣所表示的進(jìn)化信息特征,然后輸入SVM分類模型來判定一個(gè)氨基酸殘基是否屬于蛋白質(zhì)維他命綁定位點(diǎn)。此外在,VitaPred所對應(yīng)的論文中還嘗試其他的特征及其組合與SVM結(jié)合的方法去預(yù)測蛋白質(zhì)-維他命綁定位點(diǎn),但是其預(yù)測精度以及其擴(kuò)展性都沒有進(jìn)化信息特征與SVM結(jié)合的方法好,所以VitaPred的方法就代表進(jìn)化信息特征與SVM結(jié)合的預(yù)測方法。
[0004]然而,綜合分析這個(gè)僅有的預(yù)測模型,其對蛋白質(zhì)與不同種類維他命綁定位點(diǎn)預(yù)測問題都是用同一個(gè)特征子空間下的相同方法,從而導(dǎo)致的可解釋性較差的問題有待克服;且可以發(fā)現(xiàn)預(yù)測精度距離實(shí)際應(yīng)用還有較大差距,迫切需要進(jìn)一步提高。
【發(fā)明內(nèi)容】
[0005]為解決上述單個(gè)多維度特征空間中有互斥特征而導(dǎo)致預(yù)測精度距離實(shí)際應(yīng)用差距較大且可解釋性較差的缺點(diǎn),本發(fā)明的目的在于提出一種預(yù)測速度快、預(yù)測精度高的基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法。
[0006]為達(dá)成上述目的,本發(fā)明所采用的技術(shù)方案如下:[0007]—種基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法,包括以下步驟:
[0008]步驟1、特征抽取與特征組合,即分別利用PS1-BLAST算法、PSIPRED算法抽取蛋白質(zhì)的進(jìn)化信息特征與二級結(jié)構(gòu)信息特征,以及根據(jù)蛋白質(zhì)-維他命綁定位點(diǎn)傾向表抽取蛋白質(zhì)的綁定傾向性信息特征,前述三種特征組成原始特征空間;然后使用滑動窗口與串行組合方式將蛋白質(zhì)序列中的氨基酸殘基轉(zhuǎn)換為向量形式表示;
[0009]步驟2、使用特征選擇算法即 Joint Laplacian Feature Weights Learning算法、Fisher Score算法以及Laplacian Score算法,分別對原始特征空間進(jìn)行多次特征選擇;每次特征選擇得到的特征子集構(gòu)成一個(gè)特征子空間,從而構(gòu)建多個(gè)特征子空間;
[0010]步驟3、對步驟2所得的每個(gè)特征子空間,訓(xùn)練一個(gè)SVM分類器;
[0011]步驟4:使用加權(quán)平均的分類器融合方式對訓(xùn)練完畢的多個(gè)SVM分類器進(jìn)行融合;以及
[0012]步驟5、基于融合后的SVM預(yù)測器對待預(yù)測蛋白質(zhì)進(jìn)行蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測。
[0013]進(jìn)一步的實(shí)施例中,所述步驟I中,對于訓(xùn)練蛋白質(zhì)的特征抽取和串行組合包括以下步驟:
[0014]步驟1-1、對于一個(gè)由I個(gè)氨基酸殘基組成的蛋白質(zhì),通過PS1-BLAST算法獲取其位置特異性得分矩陣,該矩陣為一個(gè)I行20列的矩陣,從而將蛋白質(zhì)一級結(jié)構(gòu)信息(即進(jìn)化信息)轉(zhuǎn)換為矩陣形式表示:
[0015]
【權(quán)利要求】
1.一種基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法,其特征在于,包括以下步驟: 步驟1、特征抽取與特征組合,即分別利用PS1-BLAST算法、PSIPRED算法抽取蛋白質(zhì)的進(jìn)化信息特征與二級結(jié)構(gòu)信息特征,以及根據(jù)蛋白質(zhì)-維他命綁定位點(diǎn)傾向表抽取蛋白質(zhì)的綁定傾向性信息特征,前述三種特征組成原始特征空間;然后使用滑動窗口與串行組合方式將蛋白質(zhì)序列中的氨基酸殘基轉(zhuǎn)換為向量形式表示; 步驟2、使用特征選擇算法即Joint Laplacian Feature Weights Learning算法、Fisher Score算法以及Laplacian Score算法,分別對原始特征空間進(jìn)行多次特征選擇;每次特征選擇得到的特征子集構(gòu)成一個(gè)特征子空間,從而構(gòu)建多個(gè)特征子空間; 步驟3、對步驟2所得的每個(gè)特征子空間,訓(xùn)練一個(gè)SVM分類器; 步驟4:使用加權(quán)平均的分類器融合方式對訓(xùn)練完畢的多個(gè)SVM分類器進(jìn)行融合;以及 步驟5、基于融合后的SVM預(yù)測器對待預(yù)測蛋白質(zhì)進(jìn)行蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測。
2.根據(jù)權(quán)利要求1所述的基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法,其特征在于,所述步驟I中,對于訓(xùn)練蛋白質(zhì)的特征抽取和串行組合包括以下步驟: 步驟1-1、對于一個(gè)由I個(gè)氨基酸殘基組成的蛋白質(zhì),通過PS1-BLAST算法獲取其位置特異性得分矩陣,該矩陣為一個(gè)I行20列的矩陣,從而將蛋白質(zhì)一級結(jié)構(gòu)信息轉(zhuǎn)換為矩陣形式表示:
3.根據(jù)權(quán)利要求1所述的基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法,其特征在于,所述步驟2中,使用所述三種特征選擇算法構(gòu)建多個(gè)特征子空間的具體實(shí)現(xiàn)包括以下步驟: 步驟 2-1、利用 Joint Laplacian Feature Weights Learning 算法對步驟 I 產(chǎn)生的原始特征空間進(jìn)行特征選擇,其包括: 1)對于原始特征空間中的數(shù)據(jù)X=[X1, X2,-,xM] e Rnxm,使用下述式(10)和式(11)構(gòu)造Laplacian矩陣Hmxm與對角矩陣Dmxm如下:
4.根據(jù)權(quán)利要求1所述的基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法,其特征在于,在所述步驟3,根據(jù)前述原始樣本在每一個(gè)特征子空間中的分布情況,分別使用LIBSVM中的SVC分類算法訓(xùn)練一個(gè)子空間SVM預(yù)測器;最終在三個(gè)特征子空間訓(xùn)練出了三個(gè)不同的SVM預(yù)測器。
5.根據(jù)權(quán)利要求1所述的基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法,其特征在于,在所述步驟4中,使用加權(quán)平均方法對步驟3所訓(xùn)練得到的三個(gè)不同特征子空間的SVM預(yù)測器進(jìn)行融合,其包括:令Co1和ω2分別表示綁定位點(diǎn)類和非綁定位點(diǎn)類,Sp S2和S3分別表示三個(gè)不同特征子空間下的SVM預(yù)測器,Dem=Ixi^yi匕表示評估樣本集合,用于確定子空間對應(yīng)的SVM模型的權(quán)重,其中評估樣本集合的氨基酸殘基是已知其類別的;對于每一個(gè)Xi所表示的樣本特征,Sp &和S3將會輸出三個(gè)2維的向量(Su(Xi)isiJ(Xi))' (Su(Xi)is^2(Xi))IP每個(gè)2維向量的兩個(gè)元素分別表示Xi屬于0^和《2的程度且兩個(gè)元素和為1,故對于評估樣本集合Ara =汰4 Kr分別可以得到在SpS2和S3上的預(yù)測結(jié)果矩陣:
6.根據(jù)權(quán)利要求1所述的基于子空間融合的蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測方法,其特征在于,在步驟5中,使用融合后的SVM預(yù)測器對待預(yù)測的蛋白質(zhì)進(jìn)行蛋白質(zhì)-維他命綁定位點(diǎn)預(yù)測: 對于待預(yù)測蛋白質(zhì)中的每一個(gè)氨基酸殘基,根據(jù)步驟I產(chǎn)生氨基酸殘基在原始特征空間中的特征;然后對氨基酸殘基的原始特征分別使用步驟2所述的三個(gè)特征選擇算法產(chǎn)生三個(gè)子空間特征;再將三個(gè)子空間特征輸入到步驟3所對應(yīng)的三個(gè)SVM預(yù)測器Sp S2和S3得到三個(gè)以綁定維他命概率形式給出的預(yù)測結(jié)果,將這三個(gè)預(yù)測結(jié)果輸入按照步驟4的加權(quán)平均方法集成后的SVM預(yù)測器中,輸出氨基酸殘基綁定或不綁定維他命的概率;最后以最大化馬修斯相關(guān)性系數(shù)的閾值T作為判斷基準(zhǔn)進(jìn)行綁定判斷:所有綁定概率大于等于T的氨基酸殘基預(yù)測為綁定殘基;其他氨基酸殘基即綁定概率小于閾值T的氨基酸殘基則預(yù)測為非綁定殘基 ,其中T e [O,I]。
【文檔編號】G06F19/10GK103955628SQ201410164632
【公開日】2014年7月30日 申請日期:2014年4月22日 優(yōu)先權(quán)日:2014年4月22日
【發(fā)明者】胡俊, 於東軍, 何雪, 李陽, 沈紅斌, 楊靜宇 申請人:南京理工大學(xué)