基于預(yù)測加權(quán)整合的農(nóng)作物潛在過敏原檢測實現(xiàn)方法

文檔序號：8396086閱讀：404來源：國知局

基于預(yù)測加權(quán)整合的農(nóng)作物潛在過敏原檢測實現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及的是一種基因檢測領(lǐng)域的技術(shù)，具體是一種基于預(yù)測加權(quán)整合的農(nóng)作物潛在過敏原檢測實現(xiàn)方法，用于為轉(zhuǎn)基因作物進入食物鏈前的致敏性風險評估提供一個可靠的參考。
【背景技術(shù)】
[0002] 食品過敏是指食物中的某些物質(zhì)（多為蛋白質(zhì)）進入了體內(nèi)，被體內(nèi)的免疫系統(tǒng) 當成入侵的有害物，引發(fā)機體免疫，對人體造成一系列復雜的反應(yīng)。全世界約有25 %的人口受此困擾。目前，我國政府把生物技術(shù)作為未來解決中國糧食安全的重要途徑之一，加強轉(zhuǎn) 基因作物進入食物鏈前的致敏性風險評估非常有必要。
[0003] 目前，基于計算生物學來進行過敏原預(yù)測的方法主要有三種：
[0004] 第一種是于2001年由聯(lián)合國糧食與農(nóng)業(yè)組織/世界衛(wèi)生組織（FA0/WH0)提出的基于序列的預(yù)測方法，即FA0/WH0規(guī)則1，其包括兩條規(guī)則：1)與已知過敏原有連續(xù)六個氨基酸相同；2)與已知過敏原在80個氨基酸范圍內(nèi)相似度達到35%及以上。只要滿足其中一則就被預(yù)測為過敏原蛋白。FA0/WH0方法的優(yōu)點在于敏感度高，而缺點在于假陽性高，大概每200個被它預(yù)測為過敏原的蛋白中只有1個是真的過敏蛋白。第二種是于2003年提出的基于motif(模體）的預(yù)測方法，即FA0/WH0規(guī)則2,它利用的是比較待測蛋白與過敏原特征motifs，該方法同基于序列的方法相比，一定程度上提高了特異性，減少了假陽性率，但由于已知過敏原的motif有限，所以該類方法的使用受到限制。第三種是于2006年提出的基于SVM(支持向量機）的預(yù)測方法，即PREAL(PREdictionofALlergenicprotein，蛋白質(zhì)過敏原預(yù)測）方法，采用線性分類器，通過根據(jù)樣本調(diào)整線性分類面函數(shù)的系數(shù)，所有訓練樣本被正確劃分即完成迭代，這類算法通過訓練過敏原和非過敏原的各種特征，獲得分類函數(shù)，從而達到過敏原預(yù)測的目的。該方法大大提高了準確率，但無法得知過敏原特征信息。
[0005] 經(jīng)過對現(xiàn)有技術(shù)的檢索發(fā)現(xiàn)，中國專利文獻號CN103049679A公開（公告）日 2013.04. 17,公開了一種蛋白質(zhì)潛在致敏性的預(yù)測方法，包括以下步驟：步驟一，制作訓練正集和訓練負集；步驟二，對蛋白質(zhì)的各類屬性進行編碼，構(gòu)建特征向量；步驟三，引用最大相關(guān)最小冗余方法進行特征排序，引用遞增式的特征選擇方法進行最優(yōu)特征選擇；步驟四，通過對選擇出的特征進行統(tǒng)計分析，給出與蛋白質(zhì)致敏特性顯著相關(guān)的特征結(jié)果報告。該PREAL0技術(shù)采用的是基于SVM的預(yù)測方法，它囊括了蛋白的128維向量特征，在整體準確率與特異性方面比以往的算法有明顯優(yōu)勢，并且提供與蛋白質(zhì)致敏特性顯著相關(guān)的特征。但該算法的檢測敏感度低于FA0/WH0預(yù)測方法。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足，提出一種基于預(yù)測加權(quán)整合的農(nóng)作物潛在過敏原檢測實現(xiàn)方法，克服FA0/WH0預(yù)測方法的假陽性高的不足，以及如果訓練集內(nèi)沒有與待測樣本特征相似的已知樣本，PREAL的預(yù)測準確率會下降的不足。本發(fā)明利用規(guī)范化的加權(quán)平均分（WAS，weightedaverageofthenormalizedscores)整合基于序列的FAO/ WHO預(yù)測方法和基于SVM的PREAL算法，增加預(yù)測的性能和覆蓋范圍，通過把序列、二級結(jié)構(gòu) 等層面信息盡可能全面地引入我們的模型，我們可以更清楚地將過敏原與非過敏原區(qū)別開來，從而達到提高預(yù)測精確度的效果。
[0007] 本發(fā)明是通過以下技術(shù)方案實現(xiàn)的：
[0008] 本發(fā)明包括以下步驟：
[0009] 步驟一，構(gòu)建過敏原蛋白作為訓練正集、非過敏原蛋白作為訓練負集。
[0010] 步驟二，使用FA0/WH0預(yù)測方法和PREAL算法對訓練正負集的蛋白進行潛在致敏性預(yù)測。
[0011] 所述的預(yù)測是指：針對每個蛋白評估其在FA0/WH0規(guī)則1、FA0/WH0規(guī)則2以及 PREAL規(guī)則下的過敏判斷結(jié)果，當FA0/WH0規(guī)則1預(yù)測該蛋白為過敏原時則評價為1，非過敏原打分為0 ;FA0/WH0規(guī)則2的打分標準與FA0/WH0規(guī)則1相同；在PREAL規(guī)則下的打分區(qū)間為（0,1)且分值越接近1表示越可能是過敏原。
[0012] 步驟三，對步驟二所得到的預(yù)測結(jié)果根據(jù)不同的預(yù)測方法賦予權(quán)重，并計算加權(quán) 預(yù)測結(jié)果值。
[0013] 所述的權(quán)重是指：當Ci=1時，Wi=1-Pni;iCi=0時，Wi=l_Ppi,其中：i為預(yù) 測方法的編號，且i為1、2、3巧是當前蛋白用第i個方法時獲得的打分；Ci表示當前蛋白是過敏原還是非過敏原，過敏原為1，非過敏原為0。
[0014] 所述的綜合預(yù)測結(jié)果是指：= 計算每個蛋白的加權(quán)預(yù)測結(jié)果值 (WAS)。
[0015] 步驟四，根據(jù)步驟三得到的訓練正集和訓練負集蛋白的WAS值進行預(yù)測測試，然后計算其10 _折疊交叉驗證的性能參數(shù)，并通過繪制準確率_敏感度曲線確定建議閾值。
[0016] 所述的10-折疊交叉驗證性能參數(shù)包括：敏感度、特異性和準確率。
[0017] 所述的建議閾值，通過繪制準確率-敏感度曲線，根據(jù)曲線頂點確定，該準確率-敏感度曲線的縱坐標為WAS值，橫坐標為敏感度。
[0018] 步驟五，對待測蛋白采用步驟二至步驟四的計算得到其加權(quán)預(yù)測結(jié)果值，當高于所述建議閾值，則認為該蛋白更可能為過敏原蛋白。技術(shù)效果
[0019] 與現(xiàn)有技術(shù)相比，本發(fā)明通過加權(quán)整合保留了PREAL準確率與特異性高的優(yōu)勢，同時也彌補了PREAL檢測敏感度低于FA0/WH0預(yù)測方法的不足。本發(fā)明首次利用加權(quán)方式整合已有預(yù)測方法，可以更為準確地判斷出過敏原蛋白。
【附圖說明】
[0020] 圖1為FA0/WH0預(yù)測方法打分示意圖。
[0021] 圖2為實施例PREAL算法的打分權(quán)重Wi依據(jù)累積分布圖。
[0022] 圖3為實施例準確率-敏感度曲線示意圖。
[0023] 圖4為本發(fā)明實施例的流程示意圖。
[0024] 圖5為本發(fā)明實施例提供的預(yù)測方法與現(xiàn)有預(yù)測方法的性能比較圖。
【具體實施方式】
[0025] 下面對本發(fā)明的實施例作詳細說明，本實施例在以本發(fā)明技術(shù)方案為前提下進行實施，給出了詳細的實施方式和具體的操作過程，但本發(fā)明的保護范圍不限于下述的實施例。實施例1
[0026] 如圖4所示，本實施例包括以下步驟：
[0027]步驟1、訓練正集（過敏原蛋白）和訓練負集（非過敏原蛋白）：
[0028] 過敏原蛋白數(shù)據(jù)集構(gòu)建：其數(shù)據(jù)來源包括IUISAllergenNomenclature(國際免疫學會聯(lián)盟-過敏原命名表）；Allergome(過敏蛋白的分子數(shù)據(jù)庫），AllergenOnline(為風險評估提供某一蛋白質(zhì)與已知過敏原及腹腔蛋白的比對服務(wù)的數(shù)據(jù)庫），Allfam(過敏原蛋白家族信息的數(shù)據(jù)庫），從中提取水稻、小麥、玉米、大豆四個物種的過敏原蛋白，去冗余后共得到957條過敏原蛋白信息，這些蛋白將作為訓練模型時的正集；
[0029] 非過敏原蛋白數(shù)據(jù)集構(gòu)建：為構(gòu)建一個可行的負集，采用如下步驟實現(xiàn)：
[0030] 1?下載NCBI上Genpept和Refseq庫中所有植物蛋白序列，從中提取水稻、小麥、玉米、大豆四個物種的全部蛋白序列298827條，移除所有同已知過敏原相似度> =30%的序列；
[0031] 2.移除所有長度小于80個氨基酸的序列；
[0032] 3.從2的結(jié)果中隨機選取同正集相同數(shù)目的蛋白序列作為負集。
[0033]表1訓練正集（過敏原蛋白）和訓練負集（非過敏原蛋白）
【主權(quán)項】
1. 一種基于預(yù)測加權(quán)整合的農(nóng)作物潛在過敏原檢測實現(xiàn)方法，其特征在于，包括以下步驟：步驟一，構(gòu)建過敏原蛋白作為訓練正集、非過敏原蛋白作為訓練負集；步驟二，使用FAO/WHO預(yù)測方法和PREAL算法對訓練正負集的蛋白進行潛在致敏性預(yù) 測；步驟三，對步驟二所得到的預(yù)測結(jié)果根據(jù)不同的預(yù)測方法賦予權(quán)重，并計算加權(quán)預(yù)測結(jié)果值；步驟四，根據(jù)步驟三得到的訓練正集和訓練負集蛋白的WAS值進行預(yù)測測試，然后計算其10-折疊交叉驗證的性能參數(shù)，并通過繪制準確率_敏感度曲線確定建議閾值；步驟五，對待測蛋白采用步驟二至步驟四的計算得到其加權(quán)預(yù)測結(jié)果值，當高于所述建議閾值，則認為該蛋白更可能為過敏原蛋白。
2. 根據(jù)權(quán)利要求1所述的方法，其特征是，所述的預(yù)測是指：針對每個蛋白評估其在 FAO/WHO規(guī)則UFAO/WHO規(guī)則2以及PREAL規(guī)則下的過敏判斷結(jié)果，當規(guī)則1預(yù)測該蛋白為過敏原時則評價為1，非過敏原打分為0 ;FAO/WHO規(guī)則2的打分標準與FAO/WHO規(guī)則1相同；在PREAL規(guī)則下的打分區(qū)間為（0,1)且分值越接近1表示越可能是過敏原。
3. 根據(jù)權(quán)利要求1所述的方法，其特征是，所述的權(quán)重是指：當Ci= 1時，Wi=I-Pni; 當(；=0時，Wi=I-Ppi，其中：i為預(yù)測方法的編號，且i為1、2、3巧是當前蛋白用第i個方法時獲得的打分；(^表示當前蛋白是過敏原還是非過敏原，過敏原為1，非過敏原為0。
4. 根據(jù)權(quán)利要求1所述的方法，其特征是，所述的綜合預(yù)測結(jié)果是指：
計算每個蛋白的加權(quán)預(yù)測結(jié)果值。
5. 根據(jù)權(quán)利要求1所述的方法，其特征是，所述的10-折疊交叉驗證性能參數(shù)包括：敏感度、特異性和準確率。
6. 根據(jù)權(quán)利要求1所述的方法，其特征是，所述的建議閾值，通過繪制準確率-敏感度曲線，根據(jù)曲線頂點確定，該準確率-敏感度曲線的縱坐標為WAS值，橫坐標為敏感度。
【專利摘要】一種基于預(yù)測加權(quán)整合的農(nóng)作物潛在過敏原檢測實現(xiàn)方法，利用規(guī)范化的加權(quán)平均分(WAS，weighted average of the normalized scores)整合基于序列相似性的FAO/WHO規(guī)則1、規(guī)則2預(yù)測方法和基于SVM的PREAL算法，增加預(yù)測的性能和覆蓋范圍，通過把序列、二級結(jié)構(gòu)等層面信息盡可能全面地引入我們的模型，我們可以更清楚地將過敏原與非過敏原區(qū)別開來，從而達到提高預(yù)測精確度的效果。
【IPC分類】G06F19-18
【公開號】CN104715166
【申請?zhí)枴緾N201510096519
【發(fā)明人】李婧
【申請人】上海交通大學
【公開日】2015年6月17日
【申請日】2015年3月4日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李婧;李婧;
技術(shù)所有人：上海交通大學;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

過敏原檢測相關(guān)技術(shù)

過敏原相關(guān)技術(shù)

過敏原測試費用相關(guān)技術(shù)

過敏原檢測方法相關(guān)技術(shù)

過敏原檢測報告單相關(guān)技術(shù)

過敏原測試相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于預(yù)測加權(quán)整合的農(nóng)作物潛在過敏原檢測實現(xiàn)方法