基于預(yù)測加權(quán)整合的農(nóng)作物潛在過敏原檢測實現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及的是一種基因檢測領(lǐng)域的技術(shù),具體是一種基于預(yù)測加權(quán)整合的農(nóng)作 物潛在過敏原檢測實現(xiàn)方法,用于為轉(zhuǎn)基因作物進入食物鏈前的致敏性風險評估提供一個 可靠的參考。
【背景技術(shù)】
[0002] 食品過敏是指食物中的某些物質(zhì)(多為蛋白質(zhì))進入了體內(nèi),被體內(nèi)的免疫系統(tǒng) 當成入侵的有害物,引發(fā)機體免疫,對人體造成一系列復雜的反應(yīng)。全世界約有25 %的人口 受此困擾。目前,我國政府把生物技術(shù)作為未來解決中國糧食安全的重要途徑之一,加強轉(zhuǎn) 基因作物進入食物鏈前的致敏性風險評估非常有必要。
[0003] 目前,基于計算生物學來進行過敏原預(yù)測的方法主要有三種:
[0004] 第一種是于2001年由聯(lián)合國糧食與農(nóng)業(yè)組織/世界衛(wèi)生組織(FA0/WH0)提出的 基于序列的預(yù)測方法,即FA0/WH0規(guī)則1,其包括兩條規(guī)則:1)與已知過敏原有連續(xù)六個氨 基酸相同;2)與已知過敏原在80個氨基酸范圍內(nèi)相似度達到35%及以上。只要滿足其中 一則就被預(yù)測為過敏原蛋白。FA0/WH0方法的優(yōu)點在于敏感度高,而缺點在于假陽性高,大 概每200個被它預(yù)測為過敏原的蛋白中只有1個是真的過敏蛋白。第二種是于2003年提 出的基于motif(模體)的預(yù)測方法,即FA0/WH0規(guī)則2,它利用的是比較待測蛋白與過敏原 特征motifs,該方法同基于序列的方法相比,一定程度上提高了特異性,減少了假陽性率, 但由于已知過敏原的motif有限,所以該類方法的使用受到限制。第三種是于2006年提出 的基于SVM(支持向量機)的預(yù)測方法,即PREAL(PREdictionofALlergenicprotein,蛋 白質(zhì)過敏原預(yù)測)方法,采用線性分類器,通過根據(jù)樣本調(diào)整線性分類面函數(shù)的系數(shù),所有 訓練樣本被正確劃分即完成迭代,這類算法通過訓練過敏原和非過敏原的各種特征,獲得 分類函數(shù),從而達到過敏原預(yù)測的目的。該方法大大提高了準確率,但無法得知過敏原特征 信息。
[0005] 經(jīng)過對現(xiàn)有技術(shù)的檢索發(fā)現(xiàn),中國專利文獻號CN103049679A公開(公告)日 2013.04. 17,公開了一種蛋白質(zhì)潛在致敏性的預(yù)測方法,包括以下步驟:步驟一,制作訓練 正集和訓練負集;步驟二,對蛋白質(zhì)的各類屬性進行編碼,構(gòu)建特征向量;步驟三,引用最 大相關(guān)最小冗余方法進行特征排序,引用遞增式的特征選擇方法進行最優(yōu)特征選擇;步驟 四,通過對選擇出的特征進行統(tǒng)計分析,給出與蛋白質(zhì)致敏特性顯著相關(guān)的特征結(jié)果報告。 該PREAL0技術(shù)采用的是基于SVM的預(yù)測方法,它囊括了蛋白的128維向量特征,在整體 準確率與特異性方面比以往的算法有明顯優(yōu)勢,并且提供與蛋白質(zhì)致敏特性顯著相關(guān)的特 征。但該算法的檢測敏感度低于FA0/WH0預(yù)測方法。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提出一種基于預(yù)測加權(quán)整合的農(nóng)作物潛在 過敏原檢測實現(xiàn)方法,克服FA0/WH0預(yù)測方法的假陽性高的不足,以及如果訓練集內(nèi)沒有 與待測樣本特征相似的已知樣本,PREAL的預(yù)測準確率會下降的不足。本發(fā)明利用規(guī)范化的 加權(quán)平均分(WAS,weightedaverageofthenormalizedscores)整合基于序列的FAO/ WHO預(yù)測方法和基于SVM的PREAL算法,增加預(yù)測的性能和覆蓋范圍,通過把序列、二級結(jié)構(gòu) 等層面信息盡可能全面地引入我們的模型,我們可以更清楚地將過敏原與非過敏原區(qū)別開 來,從而達到提高預(yù)測精確度的效果。
[0007] 本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
[0008] 本發(fā)明包括以下步驟:
[0009] 步驟一,構(gòu)建過敏原蛋白作為訓練正集、非過敏原蛋白作為訓練負集。
[0010] 步驟二,使用FA0/WH0預(yù)測方法和PREAL算法對訓練正負集的蛋白進行潛在致敏 性預(yù)測。
[0011] 所述的預(yù)測是指:針對每個蛋白評估其在FA0/WH0規(guī)則1、FA0/WH0規(guī)則2以及 PREAL規(guī)則下的過敏判斷結(jié)果,當FA0/WH0規(guī)則1預(yù)測該蛋白為過敏原時則評價為1,非過 敏原打分為0 ;FA0/WH0規(guī)則2的打分標準與FA0/WH0規(guī)則1相同;在PREAL規(guī)則下的打分 區(qū)間為(0,1)且分值越接近1表示越可能是過敏原。
[0012] 步驟三,對步驟二所得到的預(yù)測結(jié)果根據(jù)不同的預(yù)測方法賦予權(quán)重,并計算加權(quán) 預(yù)測結(jié)果值。
[0013] 所述的權(quán)重是指:當Ci=1時,Wi=1-Pni;iCi=0時,Wi=l_Ppi,其中:i為預(yù) 測方法的編號,且i為1、2、3巧是當前蛋白用第i個方法時獲得的打分;Ci表示當前蛋白 是過敏原還是非過敏原,過敏原為1,非過敏原為0。
[0014] 所述的綜合預(yù)測結(jié)果是指:= 計算每個蛋白的加權(quán)預(yù)測結(jié)果值 (WAS)。
[0015] 步驟四,根據(jù)步驟三得到的訓練正集和訓練負集蛋白的WAS值進行預(yù)測測試,然 后計算其10 _折疊交叉驗證的性能參數(shù),并通過繪制準確率_敏感度曲線確定建議閾值。
[0016] 所述的10-折疊交叉驗證性能參數(shù)包括:敏感度、特異性和準確率。
[0017] 所述的建議閾值,通過繪制準確率-敏感度曲線,根據(jù)曲線頂點確定,該準確率-敏感度曲線的縱坐標為WAS值,橫坐標為敏感度。
[0018] 步驟五,對待測蛋白采用步驟二至步驟四的計算得到其加權(quán)預(yù)測結(jié)果值,當高于 所述建議閾值,則認為該蛋白更可能為過敏原蛋白。 技術(shù)效果
[0019] 與現(xiàn)有技術(shù)相比,本發(fā)明通過加權(quán)整合保留了PREAL準確率與特異性高的優(yōu)勢, 同時也彌補了PREAL檢測敏感度低于FA0/WH0預(yù)測方法的不足。本發(fā)明首次利用加權(quán)方式 整合已有預(yù)測方法,可以更為準確地判斷出過敏原蛋白。
【附圖說明】
[0020] 圖1為FA0/WH0預(yù)測方法打分示意圖。
[0021] 圖2為實施例PREAL算法的打分權(quán)重Wi依據(jù)累積分布圖。
[0022] 圖3為實施例準確率-敏感度曲線示意圖。
[0023] 圖4為本發(fā)明實施例的流程示意圖。
[0024] 圖5為本發(fā)明實施例提供的預(yù)測方法與現(xiàn)有預(yù)測方法的性能比較圖。
【具體實施方式】
[0025] 下面對本發(fā)明的實施例作詳細說明,本實施例在以本發(fā)明技術(shù)方案為前提下進行 實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施 例。 實施例1
[0026] 如圖4所示,本實施例包括以下步驟:
[0027]步驟1、訓練正集(過敏原蛋白)和訓練負集(非過敏原蛋白):
[0028] 過敏原蛋白數(shù)據(jù)集構(gòu)建:其數(shù)據(jù)來源包括IUISAllergenNomenclature(國際免 疫學會聯(lián)盟-過敏原命名表);Allergome(過敏蛋白的分子數(shù)據(jù)庫),AllergenOnline(為 風險評估提供某一蛋白質(zhì)與已知過敏原及腹腔蛋白的比對服務(wù)的數(shù)據(jù)庫),Allfam(過敏 原蛋白家族信息的數(shù)據(jù)庫),從中提取水稻、小麥、玉米、大豆四個物種的過敏原蛋白,去冗 余后共得到957條過敏原蛋白信息,這些蛋白將作為訓練模型時的正集;
[0029] 非過敏原蛋白數(shù)據(jù)集構(gòu)建:為構(gòu)建一個可行的負集,采用如下步驟實現(xiàn):
[0030] 1?下載NCBI上Genpept和Refseq庫中所有植物蛋白序列,從中提取水稻、小麥、 玉米、大豆四個物種的全部蛋白序列298827條,移除所有同已知過敏原相似度> =30%的 序列;
[0031] 2.移除所有長度小于80個氨基酸的序列;
[0032] 3.從2的結(jié)果中隨機選取同正集相同數(shù)目的蛋白序列作為負集。
[0033]表1訓練正集(過敏原蛋白)和訓練負集(非過敏原蛋白)
【主權(quán)項】
1. 一種基于預(yù)測加權(quán)整合的農(nóng)作物潛在過敏原檢測實現(xiàn)方法,其特征在于,包括以下 步驟: 步驟一,構(gòu)建過敏原蛋白作為訓練正集、非過敏原蛋白作為訓練負集; 步驟二,使用FAO/WHO預(yù)測方法和PREAL算法對訓練正負集的蛋白進行潛在致敏性預(yù) 測; 步驟三,對步驟二所得到的預(yù)測結(jié)果根據(jù)不同的預(yù)測方法賦予權(quán)重,并計算加權(quán)預(yù)測 結(jié)果值; 步驟四,根據(jù)步驟三得到的訓練正集和訓練負集蛋白的WAS值進行預(yù)測測試,然后計 算其10-折疊交叉驗證的性能參數(shù),并通過繪制準確率_敏感度曲線確定建議閾值; 步驟五,對待測蛋白采用步驟二至步驟四的計算得到其加權(quán)預(yù)測結(jié)果值,當高于所述 建議閾值,則認為該蛋白更可能為過敏原蛋白。
2. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的預(yù)測是指:針對每個蛋白評估其在 FAO/WHO規(guī)則UFAO/WHO規(guī)則2以及PREAL規(guī)則下的過敏判斷結(jié)果,當規(guī)則1預(yù)測該蛋白為 過敏原時則評價為1,非過敏原打分為0 ;FAO/WHO規(guī)則2的打分標準與FAO/WHO規(guī)則1相 同;在PREAL規(guī)則下的打分區(qū)間為(0,1)且分值越接近1表示越可能是過敏原。
3. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的權(quán)重是指:當Ci= 1時,Wi=I-Pni; 當(;=0時,Wi=I-Ppi,其中:i為預(yù)測方法的編號,且i為1、2、3巧是當前蛋白用第i個 方法時獲得的打分;(^表示當前蛋白是過敏原還是非過敏原,過敏原為1,非過敏原為0。
4. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的綜合預(yù)測結(jié)果是指:
計算每個蛋白的加權(quán)預(yù)測結(jié)果值。
5. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的10-折疊交叉驗證性能參數(shù)包括:敏 感度、特異性和準確率。
6. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的建議閾值,通過繪制準確率-敏感度 曲線,根據(jù)曲線頂點確定,該準確率-敏感度曲線的縱坐標為WAS值,橫坐標為敏感度。
【專利摘要】一種基于預(yù)測加權(quán)整合的農(nóng)作物潛在過敏原檢測實現(xiàn)方法,利用規(guī)范化的加權(quán)平均分(WAS,weighted average of the normalized scores)整合基于序列相似性的FAO/WHO規(guī)則1、規(guī)則2預(yù)測方法和基于SVM的PREAL算法,增加預(yù)測的性能和覆蓋范圍,通過把序列、二級結(jié)構(gòu)等層面信息盡可能全面地引入我們的模型,我們可以更清楚地將過敏原與非過敏原區(qū)別開來,從而達到提高預(yù)測精確度的效果。
【IPC分類】G06F19-18
【公開號】CN104715166
【申請?zhí)枴緾N201510096519
【發(fā)明人】李婧
【申請人】上海交通大學
【公開日】2015年6月17日
【申請日】2015年3月4日