亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法

文檔序號(hào):6567231閱讀:500來源:國知局
專利名稱:一種借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法
技術(shù)領(lǐng)域
本發(fā)明屬于生物信息學(xué)技術(shù)領(lǐng)域,更確切的是涉及一種借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法。
背景技術(shù)
近年來,隨著一些農(nóng)藝性狀得到遺傳改良的食物增多及基因工程藥物的應(yīng)用增加,一些對(duì)人類具有潛在過敏的蛋白可能引入這些食品和藥品中,由此將導(dǎo)致過敏性體質(zhì)人群的生活壓力和整個(gè)社會(huì)的生活成本增加。在這些新蛋白基因遺傳轉(zhuǎn)化之前及與人體的產(chǎn)生接觸之前,先期進(jìn)行過敏原性評(píng)價(jià),顯得十分迫切。而應(yīng)用軟件對(duì)蛋白的過敏原性進(jìn)行精確預(yù)測(cè)是過敏原性評(píng)價(jià)的最經(jīng)濟(jì)有效的首選方案。過敏原性的精確評(píng)估,既可避免高過敏原性蛋白基因的應(yīng)用所帶來的前期巨額投入,又可避免這類蛋白對(duì)人體的傷害,使風(fēng)險(xiǎn)成本得到降低。目前,國內(nèi)尚沒有一款可以評(píng)價(jià)過敏原的軟件,而國際上,過敏原性預(yù)測(cè)軟件可以概括為如下幾類方法進(jìn)行過敏原檢測(cè),包話(1)通常的序列比對(duì);(2)基于滑動(dòng)肽窗口原理的過敏原IgE表位和基序的檢測(cè);(3)以支持向量機(jī)(Support Vector Machine, SVM)為支持算法的分類器來區(qū)分過敏原和非過敏原;(4)基于過敏原代表肽段(Allergen Representative Peptides, ARPs)或經(jīng)過長度調(diào)整后的過敏原肽段構(gòu)建的描述器 (Detection based on Filtered Length-adjusted Allergen Peptides, DFLAPs)。當(dāng)待查詢序列或其片段與已知過敏原完全相同、或者同源、或者具有匹配的基序時(shí),這些軟件就非常有效,而對(duì)于那些跟已知過敏原相似性低的新型蛋白質(zhì),這些軟件的預(yù)測(cè)準(zhǔn)確性就不佳了。因此,為了從隨機(jī)的序列數(shù)據(jù)、特別是從那些農(nóng)藝性狀優(yōu)良而尚未開發(fā)的外源基因里甄別過敏原,以避免將從未被人類作為食物的外源基因通過遺傳工程等方法引入食品中, 需要在準(zhǔn)確性、特異性和敏感性等方面對(duì)過敏原預(yù)測(cè)軟件進(jìn)行大幅度的改良提高。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的不足而提供一種能提高過敏原預(yù)測(cè)的敏感性、特異性和精確性的基于支持向量機(jī)的過敏原的預(yù)測(cè)方法。為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案是一種借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法,包括以下步驟
步驟1:數(shù)據(jù)庫的建立,
從各過敏原數(shù)據(jù)庫經(jīng)過篩選得到的過敏原序列和非過敏原序列作為數(shù)據(jù)庫; 步驟2:過敏原家族特征肽的提取,
針對(duì)過敏原序列進(jìn)行聚類分析,在形成的每一過敏原家族中,過敏原序列按照每相隔 1-10個(gè)堿基用滑動(dòng)窗口分成6-32個(gè)堿基長度的肽段,然后用所得肽段和非過敏原序列進(jìn)行BLAST (Basic Local Alignment Search Tool,序列基本對(duì)齊本地搜索工具)比對(duì)后,剔除那些與非過敏原相同或相似的片段,而那些和非過敏原序列沒配對(duì)的肽段,并且E值低于10〃 IiT1時(shí),即是過敏原特征肽(Allergen Featured Peptides, AFPs),而落在同一過敏原上且相鄰的過敏原特征肽拼接后形成由2-30個(gè)小的特征肽構(gòu)成的過敏原家族特征肽 (Allergen Family Featured Peptides, AFFPs); 步驟3:建立支持向量機(jī)模型,
對(duì)于一個(gè)查詢蛋白X建立特征向量FX = fxl, fx2,…,fxn,η代表過敏原家族特征肽庫的片段數(shù)量,fxi為蛋白X和第i個(gè)AFFP進(jìn)行BLAST (Basic Local Alignment Search Tool,序列基本對(duì)齊本地搜索工具)后E值均一化的值作為矢量,并轉(zhuǎn)換為徑向基函數(shù)(Radial Basis Function, RBF); 步驟4:支持向量機(jī)模型的性能測(cè)定,
采用交叉驗(yàn)證方法進(jìn)行測(cè)定,即將訓(xùn)練集隨機(jī)均分成η個(gè)互不相交的子集,利用η-1個(gè)訓(xùn)練子集,對(duì)給定的一組參數(shù)建立模型,利用剩下一個(gè)子集做測(cè)試評(píng)估參數(shù)性能,即為η倍的內(nèi)在交叉效度。進(jìn)一步的,上述方案中步驟 3 所述對(duì) BLAST (Basic Local Alignment Search Tool,序列基本對(duì)齊本地搜索工具)比對(duì)所得的E值χ進(jìn)行均一化,均一化的公式如下
權(quán)利要求
1.一種借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法,其特征在于包括以下步驟步驟1:數(shù)據(jù)庫的建立,從各過敏原數(shù)據(jù)庫經(jīng)過篩選得到的過敏原序列和非過敏原序列作為數(shù)據(jù)庫;步驟2:過敏原家族特征肽的提取,針對(duì)過敏原序列進(jìn)行聚類分析,在形成的每一過敏原家族中,過敏原序列按照每相隔 1-10個(gè)堿基用滑動(dòng)窗口分成6-32個(gè)堿基長度的肽段,然后用所得肽段和非過敏原序列進(jìn)行BLAST (Basic Local Alignment Search Tool,序列基本對(duì)齊本地搜索工具),剔除那些與非過敏原相同或相似的片段,而那些和非過敏原序列沒配對(duì)的肽段,并且采用BLAST 所得的E值低于10,KT1時(shí),即是過敏原特征肽(Allergen Featured Peptides, AFPs), 而落在同一過敏原上且相鄰的過敏原特征肽拼接后形成由2-30個(gè)小的特征肽構(gòu)成的過敏原家族特征肽(Allergen Family Featured Peptides, AFFPs);步驟3:建立支持向量機(jī)模型,對(duì)于一個(gè)查詢蛋白X建立特征向量FX = fxl,fx2,…,fxn , η代表過敏原家族特征肽庫的片段數(shù)量,fxi為蛋白X和第i個(gè)AFFP進(jìn)行BLAST后E值均一化的值作為矢量, 并轉(zhuǎn)換為徑向基函數(shù)(Radial Basis Function, RBF);步驟4:支持向量機(jī)模型的性能測(cè)定,采用交叉驗(yàn)證方法進(jìn)行測(cè)定,即將訓(xùn)練集隨機(jī)均分成η個(gè)互不相交的子集,利用η-1個(gè)訓(xùn)練子集,對(duì)給定的一組參數(shù)建立模型,利用剩下一個(gè)子集做測(cè)試評(píng)估參數(shù)性能,即為η倍的內(nèi)在交叉效度。
2.根據(jù)權(quán)利要求1所述的借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法步驟3所述對(duì)BLAST比對(duì)所得的E值χ進(jìn)行均一化,均一化的公式如下
3.根據(jù)權(quán)利要求1所述的借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法,其特征在于步驟3所述支持向量機(jī)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的統(tǒng)計(jì),其使用核函數(shù)將輸進(jìn)去的矢量投射到高維特征空間,在空間形成一個(gè)超平面,使過敏原和非過敏原得以在超平面兩邊分開,支持向量機(jī)的核函數(shù)首先經(jīng)過標(biāo)準(zhǔn)化,以使每個(gè)向量在特征空間擁有長度單位1,核函數(shù)標(biāo)準(zhǔn)化的公式如下
4.根據(jù)權(quán)利要求3所述的借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法,其特征在于所述核函數(shù)y (X,Y)轉(zhuǎn)換為徑向基函數(shù)RBF (Radial Basis Function)以使形成的平面通過原點(diǎn),由核函數(shù)轉(zhuǎn)換為徑向基函數(shù)RBF的公式如下
5.根據(jù)權(quán)利要求1所述的借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法,其特征在于步驟4所述支持向量機(jī)模型的性能測(cè)定采用十倍的內(nèi)在的交叉效度方法進(jìn)行測(cè)定,計(jì)算模型的敏感性(SE)、特異性(SP)、精確度(ACC),馬太相關(guān)系數(shù)(MCC),而這四個(gè)參數(shù)的計(jì)算公式如下
6.根據(jù)權(quán)利要求1所述的借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法,其特征在于步驟1所述數(shù)據(jù)庫的建立中過敏原序列是從各過敏原數(shù)據(jù)庫收集過敏原序列,并移除序列同源性達(dá)到80-90%的過敏原后得到的;非過敏原序列是以大米,蘋果,胡蘿卜和人類自身蛋白并經(jīng)過過敏原篩選后得到的。
全文摘要
本發(fā)明屬于生物信息學(xué)技術(shù)領(lǐng)域,更確切的是涉及一種借助支持向量機(jī)建立過敏原家族特征肽的過敏原的預(yù)測(cè)方法。該預(yù)測(cè)方法包括建立過敏原數(shù)據(jù)庫;形成過敏原聚類與家族;提取過敏原家族代表肽;建立支持向量機(jī)模型;模型性能參數(shù)的優(yōu)化訓(xùn)練及大規(guī)模過敏原數(shù)據(jù)的測(cè)試。本發(fā)明優(yōu)點(diǎn)是建立在優(yōu)先淘選過敏原家族特征肽基礎(chǔ)上,該特征肽不僅對(duì)過敏原的典型特征作了精細(xì)描述,而且將過敏原與非過敏原做了嚴(yán)格區(qū)分,避免了過敏原判別過程中假陽性和假陰性的產(chǎn)生,從而在過敏原判別的準(zhǔn)確性與靈敏度上取得了高水平的平衡而具有明顯優(yōu)勢(shì)。在蛋白序列過敏原性的生物信息學(xué)分析方面具有廣闊的應(yīng)用前景。
文檔編號(hào)G06F19/24GK102346817SQ20111030253
公開日2012年2月8日 申請(qǐng)日期2011年10月9日 優(yōu)先權(quán)日2011年10月9日
發(fā)明者張利達(dá), 鄒澤紅, 陶愛林, 黃于藝 申請(qǐng)人:廣州醫(yī)學(xué)院第二附屬醫(yī)院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1