亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法

文檔序號(hào):10656252閱讀:348來源:國知局
一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法
【專利摘要】一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法,包括構(gòu)建樣本集;數(shù)據(jù)預(yù)處理以及參數(shù)設(shè)置;利用粒子群算法對(duì)特征進(jìn)行選擇,設(shè)置每個(gè)粒子的個(gè)體極值和全局極值;計(jì)算特征子集的適應(yīng)度并排序;對(duì)排序在預(yù)設(shè)概率之前的粒子使用粒子群算法進(jìn)行位置和速度更新;對(duì)排序在預(yù)設(shè)概率之后的粒子利用遺傳算法的交叉和變異操作進(jìn)行更新;對(duì)粒子的個(gè)體極值和全局極值進(jìn)行更新;判斷是否滿足迭代要求,不滿足則轉(zhuǎn)向S4,否則輸出全局最優(yōu)粒子;根據(jù)全局最優(yōu)粒子所選擇的特征對(duì)支持向量機(jī)進(jìn)行訓(xùn)練構(gòu)建基因調(diào)控網(wǎng)絡(luò)模型;使用構(gòu)建的基因調(diào)控網(wǎng)絡(luò)模型對(duì)驗(yàn)證集進(jìn)行實(shí)驗(yàn),得到預(yù)測(cè)的基因調(diào)控網(wǎng)絡(luò)。本發(fā)明可與現(xiàn)有的優(yōu)化方法配合使用,具有更廣闊的應(yīng)用前景。
【專利說明】
-種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及生物信息學(xué)和數(shù)據(jù)挖掘領(lǐng)域。尤其是針對(duì)于序列數(shù)據(jù)的一種融合粒子 群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法。
【背景技術(shù)】
[0002] MicroRNAs(miRNAs)是一類非常重要的非編碼RNA分子,通過觸發(fā)祀基因降解,從 而廣泛地參與到基因的轉(zhuǎn)錄后調(diào)控,或者通過抑制基因的轉(zhuǎn)錄,對(duì)基因在轉(zhuǎn)錄水平上進(jìn)行 調(diào)控。miRNA通過與祀mRNA匹配結(jié)合實(shí)現(xiàn)對(duì)生物學(xué)功能的調(diào)控,因此,研究miRNA與其祀基因 的調(diào)控關(guān)系成為生物界廣泛關(guān)注的問題。傳統(tǒng)的實(shí)驗(yàn)驗(yàn)證方法耗費(fèi)巨大,利用現(xiàn)有的序列 數(shù)據(jù)、基因表達(dá)數(shù)據(jù)或其它生物信息學(xué)數(shù)據(jù),通過統(tǒng)計(jì)學(xué)模型或機(jī)器學(xué)習(xí)的方法構(gòu)建基因 調(diào)控網(wǎng)絡(luò)來發(fā)現(xiàn)基因之間的關(guān)系,能夠有效的減少實(shí)驗(yàn)花費(fèi),對(duì)生物學(xué)研究者有一定的指 導(dǎo)作用。
[0003] 識(shí)別miRNA與其祀基因之間的關(guān)系的方法主要有兩類:基于序列的miRNA祀基因識(shí) 別和基于機(jī)器學(xué)習(xí)的miRNA祀基因識(shí)別。
[0004] 從機(jī)器學(xué)習(xí)的角度來看,基因調(diào)控網(wǎng)絡(luò)構(gòu)建可W分為非監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)。非 監(jiān)督學(xué)習(xí)不需要已知的調(diào)控關(guān)系,只是利用一些生物數(shù)據(jù)來進(jìn)行調(diào)控網(wǎng)絡(luò)的構(gòu)建。監(jiān)督學(xué) 習(xí)則需要已知的調(diào)控關(guān)系,可W看出監(jiān)督學(xué)習(xí)需要的數(shù)據(jù)信息多于非監(jiān)督學(xué)習(xí),具有更強(qiáng) 的發(fā)現(xiàn)能力。有研究表明,在網(wǎng)絡(luò)推斷方面,監(jiān)督學(xué)習(xí)優(yōu)于非監(jiān)督學(xué)習(xí)。
[0005] 監(jiān)督學(xué)習(xí)需要利用已有的調(diào)控關(guān)系數(shù)據(jù),通過學(xué)習(xí)調(diào)控關(guān)系的判別模型,對(duì)未知 的調(diào)控關(guān)系進(jìn)行判別,需要處理特征生成和分類器選擇問題。miRNA與其祀基因的交互的特 征包括自由能特征,結(jié)構(gòu)序列特征和基于綁定位置特征,收集運(yùn)些特征并進(jìn)行計(jì)算,然后使 用分類器進(jìn)行模型的構(gòu)建。由于支持向量機(jī)(Suppod Vector Machine,SVM)在解決小樣 本、非線性W及高維問題中表現(xiàn)出的優(yōu)勢(shì),使得它在基因網(wǎng)絡(luò)構(gòu)建方面獨(dú)具一格,已成為近 期的研究熱點(diǎn)。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是提供一種能夠有效預(yù)測(cè)miRNA與其祀基因之間的調(diào)控關(guān)系的融合 粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法。
[0007] 本發(fā)明解決現(xiàn)有技術(shù)問題所采用的技術(shù)方案:一種融合粒子群和遺傳算法的基因 調(diào)控網(wǎng)絡(luò)構(gòu)建方法,包括W下步驟:
[000引Sl、構(gòu)建樣本集:所述樣本集包括正樣本和負(fù)樣本,所述正樣本捜集來自文獻(xiàn)中的 具有調(diào)控關(guān)系的miRNA: mRNA交互信息對(duì);負(fù)樣本通過人工生成的假陽性miRNA: mRNA交互信 息對(duì)組成,使用祀基因預(yù)測(cè)工具用來生成假陽性miRNA的祀基因作為訓(xùn)練集的負(fù)樣本;使用 祀基因預(yù)測(cè)工具對(duì)miRNA進(jìn)行預(yù)測(cè),得到的所有miRNA:mRNA交互信息對(duì)作為驗(yàn)證集;提取正 樣本和負(fù)樣本的腺隹特征,所述特征包括位點(diǎn)結(jié)合特征、結(jié)構(gòu)特征和熱力學(xué)特征;
[0009] S2、數(shù)據(jù)預(yù)處理及參數(shù)設(shè)置:利用SMOTE方法使正樣本與負(fù)樣本的比例平衡;對(duì)所 提取的特征進(jìn)行離散化和標(biāo)準(zhǔn)化處理;
[0010] S3、利用粒子群算法對(duì)粒子的特征進(jìn)行選擇,設(shè)置粒子群中每個(gè)粒子的個(gè)體極值 和全局極值:將每一個(gè)粒子表示為N維向量,每一維對(duì)應(yīng)一個(gè)特征,每一維的值為1或0;1表 示對(duì)應(yīng)的特征被選擇了,0表示對(duì)應(yīng)的特征沒有被選擇;每個(gè)粒子所選中的特征構(gòu)成每個(gè)粒 子的特征子集;個(gè)體極值為粒子在整個(gè)迭代過程中的最優(yōu)位置,初始化為粒子的初始化 值;全局極值為所有粒子的最優(yōu)位置,初始化為整個(gè)粒子群的最優(yōu)值;
[0011] S4、計(jì)算每個(gè)粒子的特征子集的適應(yīng)度,根據(jù)適應(yīng)度進(jìn)行排序:包括下面幾個(gè)步 驟:
[0012] Al:計(jì)算每個(gè)粒子的特征子集的等價(jià)類:
[0013] T= (U,CUD,V,f)表示一個(gè)決策表,其中U是一個(gè)非空且有限的樣本集合,稱為論 域;C是條件屬性集合,D是決策屬性集合;如果Q = CUD,任意屬性qEQ是一個(gè)全映射fq:U^ Vq,其中Vq表示屬性q所有取值,稱為q的值域,且V= U qeQVq,f = U qeQf q ;每一個(gè)屬性子集 SgC,它的不可分辨關(guān)系表示為:
[0014]
[001引令XEU,帥所有與X滿足不可分辨關(guān)系IND(B)的對(duì)象構(gòu)成X的一個(gè)基于屬性集B的 等價(jià)類[x]B={y IyGU, (x,y) G IND(B)K
[0016] A2:任意對(duì)象子集A臺(tái)(/,屬性子集公過二X的上近似集為:
[0017]
[001引 A3:任意條件屬性子集及eC,U/D是由等價(jià)關(guān)系IND(D)誘導(dǎo)出的所有相異的等價(jià) 類的集合:相對(duì)干決策屬忡隹D的B正域定義為:
[0019]
[0020] A4: B是一個(gè)條件屬性集合,D是決策屬性,D對(duì)于B的依賴度定義為:
[0021]
[0022] 通常0《k《l。當(dāng)k=l,時(shí),稱D完全依賴于B;0<k<l時(shí),D部分依賴于B;當(dāng)k = 0時(shí),D 完全獨(dú)立于B;
[0023] A5:計(jì)算每個(gè)粒子的適應(yīng)度,適應(yīng)度公式如下:
[0024]
[0025] 其中丫 B(D)是條件屬性集B相對(duì)于決策屬性集D的依賴度,Icl是總的特征數(shù),Ib 是選擇的特征數(shù)。在運(yùn)里,a的取值為0.9,0的取值為0.1;
[0026] A6:根據(jù)適應(yīng)度的大小對(duì)粒子進(jìn)行排序;
[0027] S5、對(duì)排序在預(yù)設(shè)概率之前的粒子繼續(xù)使用粒子群算法進(jìn)行位置和速度更新:
[002引Al:速度更新公式如下:
[0029] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandO X (Pgd-Xid),
[0030] Al:位置更新公式如下:
[0031] Xid = Xid+Vid,
[0032] 其中第i個(gè)粒子表示為Xi= (Xii,Xi2, . . .,xid),它的飛行速度為Vi= (Vii,Vi2,..., Vid ),在每次迭代中,粒子根據(jù)兩個(gè)極值來對(duì)自己進(jìn)行更新;第一個(gè)極值就是粒子本身找到 的最優(yōu)解Pbest,第i個(gè)粒子本身的最優(yōu)解可W表示為Pi= (Pil,Pi2, ...,pid).第二個(gè)極值是整 個(gè)種群目前找到的最優(yōu)解,運(yùn)個(gè)極值是全局極值gbset;
[0033] S6、對(duì)排序在預(yù)設(shè)概率之后的粒子利用遺傳算法的交叉和變異操作進(jìn)行更新:
[0034] S7、對(duì)粒子的個(gè)體極值和全局極值進(jìn)行更新:
[0035] S8、判斷是否滿足迭代要求,不滿足的話轉(zhuǎn)向S4,否則的話,輸出全局最優(yōu)粒子:
[0036] S9、根據(jù)全局最優(yōu)粒子所選擇的特征進(jìn)行對(duì)支持向量機(jī)進(jìn)行訓(xùn)練構(gòu)建基因調(diào)控網(wǎng) 絡(luò)模型:
[0037] S10、使用構(gòu)建的基因調(diào)控網(wǎng)絡(luò)模型對(duì)驗(yàn)證集進(jìn)行實(shí)驗(yàn),得到預(yù)測(cè)的基因調(diào)控網(wǎng) 絡(luò)。
[0038] SMOTE算法是通過合成的方法產(chǎn)生新的少數(shù)樣本;所述合成的方法是對(duì)每一個(gè)少 數(shù)類樣本a,計(jì)算a與少數(shù)類樣本之間的歐式距離,選取k個(gè)最短的距離作為其最近鄰;然后 從它的最近鄰中隨機(jī)選擇樣本b,然后在a和b之間的連線上隨機(jī)選一點(diǎn)作為新合成的少數(shù) 類樣本M,公式如下所示,其中U是一個(gè)介于0和1之間的隨機(jī)數(shù);最后將屬性值進(jìn)行離散化到 [0,1]之間;
[0039] M = a+u ? (b-a)
[0040] 對(duì)粒子群算法的種群規(guī)模設(shè)置為特征個(gè)數(shù)N,迭代次數(shù)為100。
[0041 ] k為5。
[0042] 本發(fā)明的有益效果在于:
[0043] 1、發(fā)明能夠與現(xiàn)有的優(yōu)化方法配合使用,具有更廣闊的運(yùn)用前景;
[0044] 2、采用依賴度和特征個(gè)數(shù)為關(guān)聯(lián)準(zhǔn)則利用粒子群算法和遺傳算法對(duì)特征進(jìn)行選 擇,依賴度是基于粗糖集進(jìn)行計(jì)算的,從而可W獲得個(gè)數(shù)較少,分類性能較好的特征;
[0045] 3、利用支持向量機(jī)對(duì)降維后的樣本進(jìn)行訓(xùn)練,本發(fā)明的方法能夠比較準(zhǔn)確的預(yù)測(cè) miRNA與其祀基因之間的調(diào)控關(guān)系。
【附圖說明】
[0046] 圖1為本方明的總體流程圖。
[0047] 圖2是本發(fā)明所預(yù)測(cè)的部分調(diào)控網(wǎng)絡(luò)示意圖。
【具體實(shí)施方式】
[0048] W下結(jié)合附圖及【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行說明:
[0049] 如圖1所示,本發(fā)明的總體設(shè)計(jì)思路為:首先捜集來自文獻(xiàn)中的被實(shí)驗(yàn)證實(shí)的具有 調(diào)控關(guān)系的miRNA:mRNA交互信息對(duì)作為正樣本,負(fù)樣本是通過人工生成的方式進(jìn)行創(chuàng)建, 提取運(yùn)些樣本的特征,構(gòu)建訓(xùn)練集合,驗(yàn)證集由祀基因預(yù)測(cè)工具進(jìn)行生成,帶有精確的祀位 點(diǎn);由于樣本存在不平衡問題,會(huì)造成假陽性過高,因此需要對(duì)樣本進(jìn)行平衡化處理,在特 征選擇時(shí)需要用到粗糖集,需要對(duì)特征進(jìn)行標(biāo)準(zhǔn)歸一化處理;利用粒子群算法隨機(jī)選擇一 些特征子集。其中,特征是判斷miRNA與其祀基因是否有關(guān)系的一些依據(jù),而將每個(gè)粒子所 選擇的特征提取出來作為特征子集即為位點(diǎn)結(jié)合特征,結(jié)構(gòu)特征比如A:U,C:G,G:UW及錯(cuò) 誤匹配的個(gè)數(shù),例如20個(gè)位點(diǎn)結(jié)合特征,24個(gè)結(jié)構(gòu)特征和4個(gè)熱力學(xué)特征;20個(gè)位點(diǎn)結(jié)合特 征是miRNA前20位與祀基因的4:11,。6,6:1]和錯(cuò)配,其中4:1],。6屬于完全匹配,賦值分別為 1和2,G: U屬于不完全匹配賦值為3,錯(cuò)配為4; 24個(gè)結(jié)構(gòu)特征是將整個(gè)miRNA序列分為種子區(qū) 域2-8位,中屯、區(qū)域9-11位,其它區(qū)域W及整個(gè)區(qū)域四部分,每個(gè)分別計(jì)算CG配對(duì),AU配對(duì), CG+AU匹配,GU不完全匹配,錯(cuò)配,GU+錯(cuò)配6種,所W有4*6 = 24個(gè)特征,另外4個(gè)能量相關(guān)的 特征使用Vienna RNA包中的RNAup和RNAfold計(jì)算獲得選擇的特征子集就是運(yùn)48維特征中 的一部分。
[0050] 使用適應(yīng)度函數(shù)評(píng)價(jià)運(yùn)些特征子集的優(yōu)劣,對(duì)于含有較優(yōu)的特征子集的粒子繼續(xù) 使用粒子群算法進(jìn)行速度和位置更新,對(duì)于不太優(yōu)的粒子使用遺傳算法的交叉變異算子形 成新的粒子;最后得到最優(yōu)的特征集合,對(duì)運(yùn)個(gè)特征子集使用支持向量機(jī)進(jìn)行構(gòu)建模型,在 驗(yàn)證集上進(jìn)行實(shí)驗(yàn),最后得到預(yù)測(cè)的基因調(diào)控網(wǎng)絡(luò)關(guān)系;具體步驟如下;
[0051] 如圖1所示,一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法,包括W下步 驟:
[0052] Sl、構(gòu)建樣本集:樣本集包括正樣本和負(fù)樣本,正樣本捜集來自文獻(xiàn)中的具有調(diào)控 關(guān)系的miRNA:mRNA交互信息對(duì);負(fù)樣本通過人工生成的假陽性miRNA:mRNA交互信息對(duì)組 成,使用祀基因預(yù)測(cè)工具用來生成假陽性miRNA的祀基因作為訓(xùn)練集的負(fù)樣本;在運(yùn)里,使 用人工生成的方法生成假的miRNA,通過統(tǒng)計(jì)擬南芥的miRNA中堿基A、U、C、G的比例,按照比 例生成300個(gè)miRNA,使用祀基因預(yù)測(cè)工具psRNA化巧et用來生成運(yùn)些miRNA的祀基因作為訓(xùn) 練集的負(fù)樣本;最后,生成1311條負(fù)樣本。因?yàn)閷?shí)驗(yàn)中需要精確的祀位點(diǎn),因此使用祀基因 預(yù)測(cè)工具對(duì)miRNA進(jìn)行預(yù)測(cè),得到的所有miRNA :mRNA交互信息對(duì)作為驗(yàn)證集;提取正樣本和 負(fù)樣本的N維特征,所述特征包括位點(diǎn)結(jié)合特征、結(jié)構(gòu)特征和熱力學(xué)特征。本發(fā)明依次提取 了 48維特征,本發(fā)明提取的特征可分為=類:位點(diǎn)結(jié)合特征、結(jié)構(gòu)特征和熱力學(xué)特征;
[0053] S2、數(shù)據(jù)預(yù)處理及參數(shù)設(shè)置:實(shí)驗(yàn)中,正負(fù)樣本的比例存在不平衡,負(fù)樣本的比例 大于正樣本的比例,因此結(jié)果會(huì)出現(xiàn)較高的假陰性;利用經(jīng)典的SMOTE方法對(duì)樣本的不平衡 進(jìn)行處理;SMOTE算法是一種過采樣算法,基本思想是通過合成的方法產(chǎn)生新的少數(shù)樣本。 合成的方法是對(duì)每一個(gè)少數(shù)類樣本a,計(jì)算a與少數(shù)類樣本之間的歐式距離,選取k個(gè)最短的 距離作為其最近鄰,其中,k值為5;然后從它的最近鄰中隨機(jī)選擇樣本b,然后在a和b之間的 連線上隨機(jī)選一點(diǎn)作為新合成的少數(shù)類樣本M,公式如下所示,其中U是一個(gè)介于0和1之間 的隨機(jī)數(shù)。而不是簡(jiǎn)單的進(jìn)行復(fù)制;最后將屬性值進(jìn)行離散標(biāo)準(zhǔn)化到[0,1]之間;
[0054] M = a+u ? (b-a)
[0055] 對(duì)粒子群算法的種群規(guī)模設(shè)置為特征個(gè)數(shù)48,迭代次數(shù)為100,遺傳算法的概率 〇.2(就是對(duì)粒子群算法中排序往后的80%粒子進(jìn)行遺傳算法的交叉和變異操作,運(yùn)個(gè)是通 過對(duì)擬南芥進(jìn)行實(shí)驗(yàn),將遺傳概率從0.1到0.9 W步長(zhǎng)0.1進(jìn)行增長(zhǎng),結(jié)果最好的是0.2),交 叉速率為0.7,變異速率為0.1;
[0056] S3、利用粒子群算法對(duì)特征進(jìn)行選擇,設(shè)置每個(gè)粒子的個(gè)體極值和全局極值:每 一個(gè)粒子是一個(gè)48維的向量,每一維對(duì)應(yīng)一個(gè)特征,每一維的值為1或者0,; 1代表對(duì)應(yīng)的特 征被選擇了,0代表對(duì)應(yīng)的特征沒有被選擇;個(gè)體極值代表的是運(yùn)個(gè)粒子在整個(gè)迭代過程中 的最優(yōu)位置,初始化為運(yùn)個(gè)粒子的初始化值;全局極值是所有粒子的最優(yōu)位置,初始化為整 個(gè)粒子群的最優(yōu)值;
[0057] S4、計(jì)算每個(gè)粒子選擇的適應(yīng)度值,根據(jù)運(yùn)個(gè)適應(yīng)度值對(duì)粒子進(jìn)行排序;包括下面 幾個(gè)步驟:
[005引Al:計(jì)算特征子集的等價(jià)類:
[0059] T= (U,CUD,V,f)表示一個(gè)決策表,其中U是一個(gè)非空且有限的樣本集合,稱為論 域;C是條件屬性集合,D是決策屬性集合;如果Q = CUD,任意屬性qEQ是一個(gè)全映射fq:U^ Vq,其中Vq表示屬性q所有取值,稱為q的值域,且V= U qeQVq,f = U qeQf q ;每一個(gè)屬性子集 及cC,它的不可分辨關(guān)系表示為:
[0060]
[0061] 令XGU,U中所有與X滿足不可分辨關(guān)系IND(B)的對(duì)象構(gòu)成X的一個(gè)基于屬性集B的 等價(jià)類[x]B={y|yGU,(x,y)ElND(B)};
[0062] A2:任意對(duì)象子集義巨隊(duì)屬性子集盈臣C,X的上近似集定義為:
[0063]
[0064] A3:任意條件屬性子集及£巴,11/0是由等價(jià)關(guān)系IND(D)誘導(dǎo)出的所有相異的等價(jià) 類的集合;相對(duì)于決策屬性集D的B正域定義為:
[00 化]
[0066] A4: B是一個(gè)條件屬性集合,D是決策屬性,D對(duì)于B的依賴度定義為:
[0067]
[0068] 通常0《k《l;當(dāng)k=l,時(shí),稱D完全依賴于B;0<k<l時(shí),D部分依賴于B;當(dāng)k = 0時(shí),D 完全獨(dú)立于B;
[0069] A5:計(jì)算每個(gè)粒子的適應(yīng)度,適應(yīng)度公式如下:
[0070]
[0071] 其中丫 B(D)是條件屬性集B相對(duì)于決策屬性集D的依賴度,Icl是總的特征數(shù),Ib 是選擇的特征數(shù);在運(yùn)里,a的取值為0.9,0的取值為0.1;
[0072] A6:根據(jù)適應(yīng)度的大小對(duì)粒子進(jìn)行排序;
[0073] S5、對(duì)排序往前的那些粒子(在擬南芥數(shù)據(jù)集上是20%)繼續(xù)使用粒子群算法進(jìn)行 位置和速度更新;
[0074] Al:速度更新公式如下:
[0075] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandQ X (Pgd-Xid),
[0076] Al:位置更新公式如下:
[0077] Xid = Xid+Vid,
[007引其中第i個(gè)粒子表示為Xi=Uil, Xi2, ...,Xid),它的飛行速度為Vi= (Vil,Vi2, ..., Vid),在每次迭代中,粒子會(huì)根據(jù)兩個(gè)極值來對(duì)自己進(jìn)行更新;第一個(gè)極值就是粒子本身找 到的最優(yōu)解Pbest,第i個(gè)粒子本身的最優(yōu)解可W表示為Pi= (Pil,Pi2, ...,pid).第二個(gè)極值是 整個(gè)種群目前找到的最優(yōu)解,運(yùn)個(gè)極值是全局極值gbset;
[0079] S6、對(duì)排序往后的那些粒子(后80%的粒子)利用遺傳算法的交叉和變異操作進(jìn)行 更新:
[0080] 隨機(jī)產(chǎn)生一個(gè)(0,1)之間的隨機(jī)數(shù)a,當(dāng)a小于交叉概率時(shí),進(jìn)行交叉操作;比如運(yùn) 個(gè)粒子的長(zhǎng)度是18,生成一個(gè)1到18之間的隨機(jī)樹作為交叉點(diǎn),下面粒子的交叉點(diǎn)為8,將父 個(gè)體1的8后面的幾位與父?jìng)€(gè)體2進(jìn)行交換:
[0081] Al:交叉操作:
[0082] 父?jìng)€(gè)體 1 011111110000000000
[0083] 父?jìng)€(gè)體2 000000001111111111
[0084] 如粗體前邊位置為所選擇的交叉點(diǎn),那么生成的子個(gè)體為:
[0085] 子個(gè)體 1 011111111111111111 [00化]子個(gè)體2 000000000000000000
[0087] Al:變異操作:
[0088] 比如一個(gè)粒子用W下碼串表示,碼長(zhǎng)是8:
[0089] 10100110
[0090] 隨機(jī)產(chǎn)生一個(gè)巧化之間的隨機(jī)數(shù)k,假設(shè)k = 5,將第5位的1變成0或?qū)?變成1,得到 碼串:10101110
[0091 ] S7、對(duì)粒子的全局極值和個(gè)體極值進(jìn)行更新;
[0092] S8、判斷是否滿足迭代要求,不滿足的話轉(zhuǎn)向S4,否則的話,輸出全局最優(yōu)粒子;
[0093] S9、根據(jù)全局最優(yōu)粒子所選擇的特征進(jìn)行對(duì)支持向量機(jī)進(jìn)行訓(xùn)練構(gòu)建基因調(diào)控網(wǎng) 絡(luò)模型;
[0094] S10、使用構(gòu)建的分類模型對(duì)驗(yàn)證集進(jìn)行實(shí)驗(yàn),得到預(yù)測(cè)的基因調(diào)控網(wǎng)絡(luò)。
[0095] 將本發(fā)明所述方法應(yīng)用于表1中擬南芥數(shù)據(jù)集和表2中水稻數(shù)據(jù)集,本發(fā)明的準(zhǔn)確 率,F(xiàn)值和ROC面積明顯高于現(xiàn)有方法。構(gòu)建的調(diào)控網(wǎng)絡(luò)如圖2所示。
[0096] 表1擬南芥數(shù)據(jù)集的實(shí)驗(yàn)效果對(duì)比表
[0097]
[009引
[0099]
[0100] 實(shí)施例
[0101] 為使本發(fā)明的目的、技術(shù)方案和有益效果更加清晰和更易于實(shí)驗(yàn),W下結(jié)合具體 實(shí)施例,并參照附圖,對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。
[0102] 為了更好的說明本方法的過程,使用了 W下運(yùn)份簡(jiǎn)單的數(shù)據(jù)來輔助。
[0103] 表3文獻(xiàn)中捜集的正樣本集合
[0104]
[0105] 運(yùn)是從文獻(xiàn)中捜集的正樣本的幾個(gè),格式如上面所示,第一列是代表miRNA名稱, 第二列代表的是HiiRNA的祀基因 mRNA名稱,第S列是miRNA作用于mRNA的祀位點(diǎn),第四列是 miRNA的序列,第五列是祀基因序列,第六列是祀基因序列兩翼序列,第屯列是類標(biāo)簽,類標(biāo) 簽為1說明miRNA與對(duì)應(yīng)的mRNA之間有調(diào)控作用,0表示沒有調(diào)控作用;運(yùn)個(gè)表是文獻(xiàn)中捜集 的具有調(diào)控關(guān)系的m i RNA: mRNA對(duì),因此運(yùn)個(gè)表中的類標(biāo)簽都為1;
[0106] 表4數(shù)據(jù)庫中5個(gè)miRNA序列 Tnmvl L0108J 巧日數(shù)據(jù)巧甲mKM的斤夕y

[0110]
[0111] 表4提取的是miRNA數(shù)據(jù)庫中5個(gè)miRNA的序列,表5摘取了3個(gè)mRNA的序列,有了運(yùn) 些信息,就可W開始下面的實(shí)驗(yàn)了:
[0112] 步驟1、生成樣本集:從文獻(xiàn)中捜集實(shí)驗(yàn)驗(yàn)證的帶有精確祀位點(diǎn)的(即具有調(diào)控關(guān) 系的)miRNA: mRNA交互信息對(duì),如表3所示;人工生成的miRNA是根據(jù)數(shù)據(jù)庫中的miRNA中A、 U、C、G所占的比例,例如表4中運(yùn)些mi RNA的堿基比例,統(tǒng)計(jì)出運(yùn)些序列中A共34個(gè),C共18個(gè), G共27個(gè),U共26個(gè),總共105個(gè),那么A占總個(gè)數(shù)的大約32%,C占17%,G占26%,U占25%,因 此人工的miRNA序列就按照運(yùn)種比例進(jìn)行生成;因?yàn)檫\(yùn)個(gè)實(shí)驗(yàn)中需要miRNA:mRNA結(jié)合的祀 位點(diǎn),所W使用一個(gè)祀基因預(yù)測(cè)工具psRNA化巧et預(yù)測(cè)運(yùn)些生成的miRNA祀基因及對(duì)應(yīng)的祀 位點(diǎn)信息,表示成表3運(yùn)樣的形式,最后的類標(biāo)簽都改為-1;因?yàn)閷?shí)驗(yàn)中需要精確的祀位點(diǎn), 因此使用祀基因預(yù)測(cè)工具對(duì)mi RNA進(jìn)行預(yù)測(cè),得到的所有miRNA: mRNA交互信息對(duì)作為驗(yàn)證 集;提取的特征分別為20個(gè)位點(diǎn)結(jié)合特征,24個(gè)結(jié)構(gòu)特征和4個(gè)熱力學(xué)特征;20個(gè)位點(diǎn)結(jié)合 特征是miRNA前20位與祀基因的A:U,C:G,G:U和錯(cuò)配,其中A:U,C:G屬于完全匹配,賦值分別 為1和2,G:U屬于不完全匹配賦值為3,錯(cuò)配為4;24個(gè)結(jié)構(gòu)特征是將整個(gè)miRNA序列分為種子 區(qū)域2-8位,中屯、區(qū)域9-11位,其它區(qū)域W及整個(gè)區(qū)域四部分,每個(gè)分別計(jì)算CG配對(duì),AU配 對(duì),CG+AU匹配,GU不完全匹配,錯(cuò)配,GU+錯(cuò)配6種,所W有4*6 = 24個(gè)特征,另外4個(gè)能量相 關(guān)的特征使用Vienna RNA包中的RNAup和RNAfold計(jì)算獲得;
[0113] 步驟2、數(shù)據(jù)預(yù)處理及參數(shù)設(shè)置:實(shí)驗(yàn)中,正負(fù)樣本的比例存在不平衡,負(fù)樣本的比 例大于正樣本的比例,因此結(jié)果會(huì)出現(xiàn)較高的假陰性。利用經(jīng)典的SMOTE方法對(duì)樣本的不平 衡進(jìn)行處理。SMOTE算法是一種過采樣算法,基本思想是通過合成的方法產(chǎn)生新的少數(shù)樣 本。合成的方法是對(duì)每一個(gè)少數(shù)類樣本a,計(jì)算a與少數(shù)類樣本之間的歐式距離,選取k個(gè)最 短的距離作為其最近鄰,文中的k值為5。然后從它的最近鄰中隨機(jī)選擇樣本b,然后在a和b 之間的連線上隨機(jī)選一點(diǎn)作為新合成的少數(shù)類樣本M,公式如下所示,其中U是一個(gè)介于0和 1之間的隨機(jī)數(shù),而不是簡(jiǎn)單的進(jìn)行復(fù)制。最后將屬性值進(jìn)行離散化到[0,1]之間;
[0114] M = a+u ? (b-a)
[0115] 對(duì)粒子群算法的種群規(guī)模設(shè)置為特征個(gè)數(shù)48,迭代次數(shù)為100,遺傳算法的概率 〇.2(就是對(duì)粒子群算法中排序往后的80%粒子進(jìn)行遺傳算法的交叉和變異操作,運(yùn)個(gè)是通 過對(duì)擬南芥進(jìn)行實(shí)驗(yàn),將遺傳概率從0.1到0.9 W步長(zhǎng)0.1進(jìn)行增長(zhǎng),結(jié)果最好的是0.2),交 叉速率為0.7,變異速率為0.1。
[0116] 步驟3、利用粒子群算法對(duì)特征進(jìn)行選擇,設(shè)置每個(gè)粒子的個(gè)體極值和全局極值: 每一個(gè)粒子是一個(gè)48維的向量,每一維對(duì)應(yīng)一個(gè)特征,每一維的值要么是1,要么是0。1表示 對(duì)應(yīng)的特征被選擇了,0表示對(duì)應(yīng)的特征沒有被選擇;個(gè)體極值代表的是運(yùn)個(gè)粒子在整個(gè)迭 代過程中的最優(yōu)位置,初始化為運(yùn)個(gè)粒子的初始化值。全局極值是所有粒子的最優(yōu)位置,初 始化為整個(gè)粒子群的最優(yōu)值。
[0117] 步驟4、計(jì)算每個(gè)粒子選擇的適應(yīng)度值,根據(jù)運(yùn)個(gè)適應(yīng)度值對(duì)粒子進(jìn)行排序;包括 下面幾個(gè)步驟:
[0118] Al:計(jì)算特征子集的等價(jià)類:
[0119] T= (U,CUD,V,f)表示一個(gè)決策表,其中U是一個(gè)非空且有限的樣本集合,稱為論 域;C是條件屬性集合,D是決策屬性集合;如果Q = CUD,任意屬性qEQ是一個(gè)全映射fq:U^ Vq,其中Vq表示屬性q所有取值,稱為q的值域,且V= U qeQVq,f = U qeQf q ;每一個(gè)屬性子集 公cC,它的不可分辨關(guān)系表示為:
[0120]
[0121] 令XGU,U中所有與X滿足不可分辨關(guān)系IND(B)的對(duì)象構(gòu)成X的一個(gè)基于屬性集B的 等價(jià)類[x]B={y IyGU, (x,y) G IND(B)K
[0122] A2:任意對(duì)象子集乂空1/,屬性子集度£仁,乂的上近似集定義為:
[0123]
[0124] A3:任意條件屬性子集盈cC,U/D是由等價(jià)關(guān)系IND(D)誘導(dǎo)出的所有相異的等價(jià) 類的集合;相對(duì)于決策屬性集D的B正域定義為:
[0125]
[0126] A4:B是一個(gè)條件屬性集合,D是決策屬性,D對(duì)于B的依賴度定義為:
[0127]
[012引通常0《k《l。當(dāng)k=l,時(shí),稱D完全依賴于B;0<k<l時(shí),D部分依賴于B;當(dāng)k = 0時(shí),D 完全獨(dú)立于B;
[0129] A5:計(jì)算每個(gè)粒子的適應(yīng)度,適應(yīng)度公式如下:
[0130]
[0131] 共T y BW巧巧化牌化采M日刈T決策屬性集D的依賴度,I C I是總的特征數(shù),I B 是選擇的特征數(shù)。在運(yùn)里,a的取值為0.9,0的取值為0.1;
[0132] A6:根據(jù)適應(yīng)度的大小對(duì)粒子進(jìn)行排序;
[0133] 步驟5、對(duì)排序往前的那些粒子(在擬南芥數(shù)據(jù)集上是20%)繼續(xù)使用粒子群算法 進(jìn)行位置和速度更新;
[0134] Al:速度更新公式如下:
[0135] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandQ X (Pgd-Xid),
[0136] Al:位置更新公式如下:
[0137] Xid = Xid+Vid,
[013引其中第i個(gè)粒子表示為Xi=Uil, Xi2, ...,Xid),它的飛行速度為Vi= (Vil,Vi2, ..., Vid),在每次迭代中,粒子會(huì)根據(jù)兩個(gè)極值來對(duì)自己進(jìn)行更新;第一個(gè)極值就是粒子本身找 到的最優(yōu)解Pbest,第i個(gè)粒子本身的最優(yōu)解可W表示為Pi=(Pil,Pi2, . . .,Pid).第二個(gè)極值是 整個(gè)種群目前找到的最優(yōu)解,運(yùn)個(gè)極值是全局極值gbset。
[0139] 步驟6、對(duì)排序往后的那些粒子(后80%的粒子)利用遺傳算法的交叉和變異操作 進(jìn)行更新:
[0140] 隨機(jī)產(chǎn)生一個(gè)(0,1)之間的隨機(jī)數(shù)a,當(dāng)a小于交叉概率時(shí),進(jìn)行交叉操作;比如運(yùn) 個(gè)粒子的長(zhǎng)度是18,生成一個(gè)1到18之間的隨機(jī)樹作為交叉點(diǎn),下面粒子的交叉點(diǎn)為8,將父 個(gè)體1的8后面的幾位與父?jìng)€(gè)體2進(jìn)行交換:
[0141] Al:交叉操作:
[0142] 父?jìng)€(gè)體 1 011111110000000000
[0143] 父?jìng)€(gè)體2 000000001111111111
[0144] 如粗體前邊位置為所選擇的交叉點(diǎn),那么生成的子個(gè)體為:
[0145] 子個(gè)體 1 011111111111111111
[0146] 子個(gè)體2 000000000000000000
[0147] Al:變異操作:
[0148] 比如一個(gè)粒子用下列式子表示,碼長(zhǎng)是8:
[0149] 10100110
[0150] 隨機(jī)產(chǎn)生一個(gè)巧化之間的隨機(jī)數(shù)k,假設(shè)k = 5,將第5位的1變成0或?qū)?變成1,得到 碼串:10101110
[0151 ]步驟7、對(duì)粒子的全局極值和個(gè)體極值進(jìn)行更新。
[0152] 步驟8、判斷是否滿足迭代要求,不滿足的話轉(zhuǎn)向S4,否則的話,輸出全局最優(yōu)粒 子。
[0153] 步驟9、根據(jù)全局最優(yōu)粒子所選擇的特征進(jìn)行對(duì)支持向量機(jī)進(jìn)行訓(xùn)練構(gòu)建基因調(diào) 控網(wǎng)絡(luò)模型。
[0154] 步驟10、使用構(gòu)建的分類模型對(duì)驗(yàn)證集進(jìn)行實(shí)驗(yàn),得到預(yù)測(cè)的基因調(diào)控網(wǎng)絡(luò)。
[0155] W上內(nèi)容是結(jié)合具體的優(yōu)選技術(shù)方案對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說明,不能認(rèn)定 本發(fā)明的具體實(shí)施只局限于運(yùn)些說明。對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說,在 不脫離本發(fā)明構(gòu)思的前提下,還可W做出若干簡(jiǎn)單推演或替換,都應(yīng)當(dāng)視為屬于本發(fā)明的 保護(hù)化圍。
【主權(quán)項(xiàng)】
1. 一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法,其特征在于,包括以下步驟: 51、 構(gòu)建樣本集:所述樣本集包括正樣本和負(fù)樣本,所述正樣本搜集來自文獻(xiàn)中的具有 調(diào)控關(guān)系的miRNA:mRNA交互信息對(duì);負(fù)樣本通過人工生成的假陽性miRNA:mRNA交互信息對(duì) 組成,使用靶基因預(yù)測(cè)工具用來生成假陽性miRNA的靶基因作為訓(xùn)練集的負(fù)樣本;使用靶基 因預(yù)測(cè)工具對(duì)miRNA進(jìn)行預(yù)測(cè),得到的所有miRNA:mRNA交互信息對(duì)作為驗(yàn)證集;提取正樣本 和負(fù)樣本的N維特征,所述特征包括位點(diǎn)結(jié)合特征、結(jié)構(gòu)特征和熱力學(xué)特征; 52、 數(shù)據(jù)預(yù)處理及參數(shù)設(shè)置:利用SMOTE方法使正樣本與負(fù)樣本的比例平衡;對(duì)所提取 的特征進(jìn)行離散化和標(biāo)準(zhǔn)化處理; 53、 利用粒子群算法對(duì)粒子的特征進(jìn)行選擇,設(shè)置粒子群中每個(gè)粒子的個(gè)體極值和全 局極值:將每一個(gè)粒子表不為N維向量,每一維對(duì)應(yīng)一個(gè)特征,每一維的值為1或0; 1表不對(duì) 應(yīng)的特征被選擇了,〇表示對(duì)應(yīng)的特征沒有被選擇;每個(gè)粒子所選中的特征構(gòu)成每個(gè)粒子的 特征子集;個(gè)體極值為粒子在整個(gè)迭代過程中的最優(yōu)位置,初始化為粒子的初始化值;全局 極值為所有粒子的最優(yōu)位置,初始化為整個(gè)粒子群的最優(yōu)值; 54、 計(jì)算每個(gè)粒子的特征子集的適應(yīng)度,根據(jù)適應(yīng)度進(jìn)行排序:包括下面幾個(gè)步驟: Al:計(jì)算每個(gè)粒子的特征子集的等價(jià)類: T= (U,CUD,V,f)表示一個(gè)決策表,其中U是一個(gè)非空且有限的樣本集合,稱為論域;C 是條件屬性集合,D是決策屬性集合;如果Q = C U D,任意屬性q e Q是一個(gè)全映射fq: U^Vq,其 中Vq表示屬性q所有取值,稱為q的值域,且V= U qeQVq,f = U qeQfq;每一個(gè)屬性子集 它的不可分辨關(guān)系表TK為:令xeu,u中所有與X滿足不可分辨關(guān)系IND(B)的對(duì)象構(gòu)成X的一個(gè)基于屬性集B的等價(jià) 類[x]b= {y |yeu,(x,y) e IND(B)}。 A2:任意對(duì)象子集屬性子集谷czC-X的上近似集為:A3:任意條件屬性子集谷gC,U/D是由等價(jià)關(guān)系IND(D)誘導(dǎo)出的所有相異的等價(jià)類的集 合.*日姑豐it銪屆.《:隹nfrftRTP+或定義為:A4: B是一個(gè)條件屬性集合,D是決策屬性,D對(duì)于B的依賴度定義為:通常0彡k彡1。當(dāng)k=l,時(shí),稱D完全依賴于B;0〈k〈l時(shí),D部分依賴于B;當(dāng)k = 0時(shí),D完全 獨(dú)立于B; A5:計(jì)算每個(gè)粒子的適應(yīng)度,適應(yīng)度公式如下:其中Yb(D)是條仵屬性集B相對(duì)t決策屬性集D的依賴度,|C|是總的特征數(shù),|B|是選擇 的特征數(shù)。在這里,α的取值為0.9,β的取值為O. I; A6:根據(jù)適應(yīng)度的大小對(duì)粒子進(jìn)行排序; 55、 對(duì)排序在預(yù)設(shè)概率之前的粒子繼續(xù)使用粒子群算法進(jìn)行位置和速度更新: Al:速度更新公式如下: vid = wX vid+ci XrandO X (pid~xid)+C2 Xrand() X (Pgd-Xid), Al:位置更新公式如下: Xid - Xid+Vid , 其中第i個(gè)粒子表示為Xi=(Xil,Xi2,…,Xid),它的飛行速度為Vi=(Vil,Vi2,…,Vid), 在每次迭代中,粒子根據(jù)兩個(gè)極值來對(duì)自己進(jìn)行更新;第一個(gè)極值就是粒子本身找到的最 優(yōu)解Pbest,第i個(gè)粒子本身的最優(yōu)解可以表示為 Pl=(pu,pl2, . . .,pld).第二個(gè)極值是整個(gè)種 群目前找到的最優(yōu)解,這個(gè)極值是全局極值gbset; 56、 對(duì)排序在預(yù)設(shè)概率之后的粒子利用遺傳算法的交叉和變異操作進(jìn)行更新: 57、 對(duì)粒子的個(gè)體極值和全局極值進(jìn)行更新: 58、 判斷是否滿足迭代要求,不滿足的話轉(zhuǎn)向S4,否則的話,輸出全局最優(yōu)粒子: 59、 根據(jù)全局最優(yōu)粒子所選擇的特征進(jìn)行對(duì)支持向量機(jī)進(jìn)行訓(xùn)練構(gòu)建基因調(diào)控網(wǎng)絡(luò)模 型: S10、使用構(gòu)建的基因調(diào)控網(wǎng)絡(luò)模型對(duì)驗(yàn)證集進(jìn)行實(shí)驗(yàn),得到預(yù)測(cè)的基因調(diào)控網(wǎng)絡(luò)。2. 根據(jù)權(quán)利要求1所述的一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法,其特 征在于,SMOTE算法是通過合成的方法產(chǎn)生新的少數(shù)樣本;所述合成的方法是對(duì)每一個(gè)少數(shù) 類樣本a,計(jì)算a與少數(shù)類樣本之間的歐式距離,選取k個(gè)最短的距離作為其最近鄰;然后從 它的最近鄰中隨機(jī)選擇樣本b,然后在a和b之間的連線上隨機(jī)選一點(diǎn)作為新合成的少數(shù)類 樣本M,公式如下所示,其中u是一個(gè)介于0和1之間的隨機(jī)數(shù);最后將屬性值進(jìn)行離散化到 [〇,1]之間; M=a+u · (b_a) 〇3. 根據(jù)權(quán)利要求1所述的一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法,其特 征在于,對(duì)粒子群算法的種群規(guī)模設(shè)置為特征個(gè)數(shù)N,迭代次數(shù)為100。4. 根據(jù)權(quán)利要求1所述的一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法,其特 征在于,k為5。
【文檔編號(hào)】G06K9/62GK106022473SQ201610346242
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月23日
【發(fā)明人】孟軍, 郝涵
【申請(qǐng)人】大連理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1