一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法

文檔序號(hào)：10656252閱讀：348來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法
【專利摘要】一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法，包括構(gòu)建樣本集；數(shù)據(jù)預(yù)處理以及參數(shù)設(shè)置；利用粒子群算法對(duì)特征進(jìn)行選擇，設(shè)置每個(gè)粒子的個(gè)體極值和全局極值；計(jì)算特征子集的適應(yīng)度并排序；對(duì)排序在預(yù)設(shè)概率之前的粒子使用粒子群算法進(jìn)行位置和速度更新；對(duì)排序在預(yù)設(shè)概率之后的粒子利用遺傳算法的交叉和變異操作進(jìn)行更新；對(duì)粒子的個(gè)體極值和全局極值進(jìn)行更新；判斷是否滿足迭代要求，不滿足則轉(zhuǎn)向S4，否則輸出全局最優(yōu)粒子；根據(jù)全局最優(yōu)粒子所選擇的特征對(duì)支持向量機(jī)進(jìn)行訓(xùn)練構(gòu)建基因調(diào)控網(wǎng)絡(luò)模型；使用構(gòu)建的基因調(diào)控網(wǎng)絡(luò)模型對(duì)驗(yàn)證集進(jìn)行實(shí)驗(yàn)，得到預(yù)測(cè)的基因調(diào)控網(wǎng)絡(luò)。本發(fā)明可與現(xiàn)有的優(yōu)化方法配合使用，具有更廣闊的應(yīng)用前景。
【專利說明】
-種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及生物信息學(xué)和數(shù)據(jù)挖掘領(lǐng)域。尤其是針對(duì)于序列數(shù)據(jù)的一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法。
【背景技術(shù)】
[0002] MicroRNAs(miRNAs)是一類非常重要的非編碼RNA分子，通過觸發(fā)祀基因降解，從而廣泛地參與到基因的轉(zhuǎn)錄后調(diào)控，或者通過抑制基因的轉(zhuǎn)錄，對(duì)基因在轉(zhuǎn)錄水平上進(jìn)行調(diào)控。miRNA通過與祀mRNA匹配結(jié)合實(shí)現(xiàn)對(duì)生物學(xué)功能的調(diào)控，因此，研究miRNA與其祀基因的調(diào)控關(guān)系成為生物界廣泛關(guān)注的問題。傳統(tǒng)的實(shí)驗(yàn)驗(yàn)證方法耗費(fèi)巨大，利用現(xiàn)有的序列數(shù)據(jù)、基因表達(dá)數(shù)據(jù)或其它生物信息學(xué)數(shù)據(jù)，通過統(tǒng)計(jì)學(xué)模型或機(jī)器學(xué)習(xí)的方法構(gòu)建基因調(diào)控網(wǎng)絡(luò)來發(fā)現(xiàn)基因之間的關(guān)系，能夠有效的減少實(shí)驗(yàn)花費(fèi)，對(duì)生物學(xué)研究者有一定的指導(dǎo)作用。
[0003] 識(shí)別miRNA與其祀基因之間的關(guān)系的方法主要有兩類:基于序列的miRNA祀基因識(shí) 別和基于機(jī)器學(xué)習(xí)的miRNA祀基因識(shí)別。
[0004] 從機(jī)器學(xué)習(xí)的角度來看，基因調(diào)控網(wǎng)絡(luò)構(gòu)建可W分為非監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)。非監(jiān)督學(xué)習(xí)不需要已知的調(diào)控關(guān)系，只是利用一些生物數(shù)據(jù)來進(jìn)行調(diào)控網(wǎng)絡(luò)的構(gòu)建。監(jiān)督學(xué) 習(xí)則需要已知的調(diào)控關(guān)系，可W看出監(jiān)督學(xué)習(xí)需要的數(shù)據(jù)信息多于非監(jiān)督學(xué)習(xí)，具有更強(qiáng) 的發(fā)現(xiàn)能力。有研究表明，在網(wǎng)絡(luò)推斷方面，監(jiān)督學(xué)習(xí)優(yōu)于非監(jiān)督學(xué)習(xí)。
[0005] 監(jiān)督學(xué)習(xí)需要利用已有的調(diào)控關(guān)系數(shù)據(jù)，通過學(xué)習(xí)調(diào)控關(guān)系的判別模型，對(duì)未知的調(diào)控關(guān)系進(jìn)行判別，需要處理特征生成和分類器選擇問題。miRNA與其祀基因的交互的特征包括自由能特征，結(jié)構(gòu)序列特征和基于綁定位置特征，收集運(yùn)些特征并進(jìn)行計(jì)算，然后使用分類器進(jìn)行模型的構(gòu)建。由于支持向量機(jī)（Suppod Vector Machine，SVM)在解決小樣本、非線性W及高維問題中表現(xiàn)出的優(yōu)勢(shì)，使得它在基因網(wǎng)絡(luò)構(gòu)建方面獨(dú)具一格，已成為近期的研究熱點(diǎn)。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是提供一種能夠有效預(yù)測(cè)miRNA與其祀基因之間的調(diào)控關(guān)系的融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法。
[0007] 本發(fā)明解決現(xiàn)有技術(shù)問題所采用的技術(shù)方案:一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法，包括W下步驟：
[000引Sl、構(gòu)建樣本集:所述樣本集包括正樣本和負(fù)樣本，所述正樣本捜集來自文獻(xiàn)中的具有調(diào)控關(guān)系的miRNA: mRNA交互信息對(duì);負(fù)樣本通過人工生成的假陽性miRNA: mRNA交互信息對(duì)組成，使用祀基因預(yù)測(cè)工具用來生成假陽性miRNA的祀基因作為訓(xùn)練集的負(fù)樣本;使用祀基因預(yù)測(cè)工具對(duì)miRNA進(jìn)行預(yù)測(cè)，得到的所有miRNA:mRNA交互信息對(duì)作為驗(yàn)證集;提取正樣本和負(fù)樣本的腺隹特征，所述特征包括位點(diǎn)結(jié)合特征、結(jié)構(gòu)特征和熱力學(xué)特征；
[0009] S2、數(shù)據(jù)預(yù)處理及參數(shù)設(shè)置:利用SMOTE方法使正樣本與負(fù)樣本的比例平衡;對(duì)所提取的特征進(jìn)行離散化和標(biāo)準(zhǔn)化處理；
[0010] S3、利用粒子群算法對(duì)粒子的特征進(jìn)行選擇，設(shè)置粒子群中每個(gè)粒子的個(gè)體極值和全局極值:將每一個(gè)粒子表示為N維向量，每一維對(duì)應(yīng)一個(gè)特征，每一維的值為1或0;1表示對(duì)應(yīng)的特征被選擇了，0表示對(duì)應(yīng)的特征沒有被選擇;每個(gè)粒子所選中的特征構(gòu)成每個(gè)粒子的特征子集;個(gè)體極值為粒子在整個(gè)迭代過程中的最優(yōu)位置，初始化為粒子的初始化值;全局極值為所有粒子的最優(yōu)位置，初始化為整個(gè)粒子群的最優(yōu)值；
[0011] S4、計(jì)算每個(gè)粒子的特征子集的適應(yīng)度，根據(jù)適應(yīng)度進(jìn)行排序：包括下面幾個(gè)步驟：
[0012] Al:計(jì)算每個(gè)粒子的特征子集的等價(jià)類：
[0013] T= (U，CUD，V，f)表示一個(gè)決策表，其中U是一個(gè)非空且有限的樣本集合，稱為論域;C是條件屬性集合，D是決策屬性集合;如果Q = CUD,任意屬性qEQ是一個(gè)全映射fq:U^ Vq，其中Vq表示屬性q所有取值，稱為q的值域，且V= U qeQVq，f = U qeQf q ;每一個(gè)屬性子集 SgC，它的不可分辨關(guān)系表示為：
[0014]
[001引令XEU，帥所有與X滿足不可分辨關(guān)系IND(B)的對(duì)象構(gòu)成X的一個(gè)基于屬性集B的等價(jià)類[x]B={y IyGU, (x，y) G IND(B)K
[0016] A2:任意對(duì)象子集A臺(tái)(/，屬性子集公過二X的上近似集為：
[0017]
[001引 A3:任意條件屬性子集及eC，U/D是由等價(jià)關(guān)系IND(D)誘導(dǎo)出的所有相異的等價(jià) 類的集合:相對(duì)干決策屬忡隹D的B正域定義為：
[0019]
[0020] A4: B是一個(gè)條件屬性集合，D是決策屬性，D對(duì)于B的依賴度定義為：
[0021]
[0022] 通常0《k《l。當(dāng)k=l，時(shí)，稱D完全依賴于B;0<k<l時(shí)，D部分依賴于B;當(dāng)k = 0時(shí)，D 完全獨(dú)立于B;
[0023] A5:計(jì)算每個(gè)粒子的適應(yīng)度，適應(yīng)度公式如下：
[0024]
[0025] 其中丫 B(D)是條件屬性集B相對(duì)于決策屬性集D的依賴度，Icl是總的特征數(shù)，Ib 是選擇的特征數(shù)。在運(yùn)里，a的取值為0.9，0的取值為0.1;
[0026] A6:根據(jù)適應(yīng)度的大小對(duì)粒子進(jìn)行排序；
[0027] S5、對(duì)排序在預(yù)設(shè)概率之前的粒子繼續(xù)使用粒子群算法進(jìn)行位置和速度更新：
[002引Al:速度更新公式如下：
[0029] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandO X (Pgd-Xid)，
[0030] Al:位置更新公式如下：
[0031] Xid = Xid+Vid,
[0032] 其中第i個(gè)粒子表示為Xi= (Xii，Xi2, . . .，xid)，它的飛行速度為Vi= (Vii，Vi2,...， Vid )，在每次迭代中，粒子根據(jù)兩個(gè)極值來對(duì)自己進(jìn)行更新;第一個(gè)極值就是粒子本身找到的最優(yōu)解Pbest,第i個(gè)粒子本身的最優(yōu)解可W表示為Pi= (Pil，Pi2, ...，pid).第二個(gè)極值是整個(gè)種群目前找到的最優(yōu)解，運(yùn)個(gè)極值是全局極值gbset;
[0033] S6、對(duì)排序在預(yù)設(shè)概率之后的粒子利用遺傳算法的交叉和變異操作進(jìn)行更新：
[0034] S7、對(duì)粒子的個(gè)體極值和全局極值進(jìn)行更新：
[0035] S8、判斷是否滿足迭代要求，不滿足的話轉(zhuǎn)向S4,否則的話，輸出全局最優(yōu)粒子：
[0036] S9、根據(jù)全局最優(yōu)粒子所選擇的特征進(jìn)行對(duì)支持向量機(jī)進(jìn)行訓(xùn)練構(gòu)建基因調(diào)控網(wǎng) 絡(luò)模型：
[0037] S10、使用構(gòu)建的基因調(diào)控網(wǎng)絡(luò)模型對(duì)驗(yàn)證集進(jìn)行實(shí)驗(yàn)，得到預(yù)測(cè)的基因調(diào)控網(wǎng) 絡(luò)。
[0038] SMOTE算法是通過合成的方法產(chǎn)生新的少數(shù)樣本;所述合成的方法是對(duì)每一個(gè)少數(shù)類樣本a,計(jì)算a與少數(shù)類樣本之間的歐式距離，選取k個(gè)最短的距離作為其最近鄰;然后從它的最近鄰中隨機(jī)選擇樣本b，然后在a和b之間的連線上隨機(jī)選一點(diǎn)作為新合成的少數(shù) 類樣本M，公式如下所示，其中U是一個(gè)介于0和1之間的隨機(jī)數(shù);最后將屬性值進(jìn)行離散化到 [0，1]之間；
[0039] M = a+u ? (b-a)
[0040] 對(duì)粒子群算法的種群規(guī)模設(shè)置為特征個(gè)數(shù)N，迭代次數(shù)為100。
[0041 ] k為5。
[0042] 本發(fā)明的有益效果在于：
[0043] 1、發(fā)明能夠與現(xiàn)有的優(yōu)化方法配合使用，具有更廣闊的運(yùn)用前景；
[0044] 2、采用依賴度和特征個(gè)數(shù)為關(guān)聯(lián)準(zhǔn)則利用粒子群算法和遺傳算法對(duì)特征進(jìn)行選擇，依賴度是基于粗糖集進(jìn)行計(jì)算的，從而可W獲得個(gè)數(shù)較少，分類性能較好的特征；
[0045] 3、利用支持向量機(jī)對(duì)降維后的樣本進(jìn)行訓(xùn)練，本發(fā)明的方法能夠比較準(zhǔn)確的預(yù)測(cè) miRNA與其祀基因之間的調(diào)控關(guān)系。
【附圖說明】
[0046] 圖1為本方明的總體流程圖。
[0047] 圖2是本發(fā)明所預(yù)測(cè)的部分調(diào)控網(wǎng)絡(luò)示意圖。
【具體實(shí)施方式】
[0048] W下結(jié)合附圖及【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行說明：
[0049] 如圖1所示，本發(fā)明的總體設(shè)計(jì)思路為:首先捜集來自文獻(xiàn)中的被實(shí)驗(yàn)證實(shí)的具有調(diào)控關(guān)系的miRNA:mRNA交互信息對(duì)作為正樣本，負(fù)樣本是通過人工生成的方式進(jìn)行創(chuàng)建，提取運(yùn)些樣本的特征，構(gòu)建訓(xùn)練集合，驗(yàn)證集由祀基因預(yù)測(cè)工具進(jìn)行生成，帶有精確的祀位點(diǎn)；由于樣本存在不平衡問題，會(huì)造成假陽性過高，因此需要對(duì)樣本進(jìn)行平衡化處理，在特征選擇時(shí)需要用到粗糖集，需要對(duì)特征進(jìn)行標(biāo)準(zhǔn)歸一化處理;利用粒子群算法隨機(jī)選擇一些特征子集。其中，特征是判斷miRNA與其祀基因是否有關(guān)系的一些依據(jù)，而將每個(gè)粒子所選擇的特征提取出來作為特征子集即為位點(diǎn)結(jié)合特征，結(jié)構(gòu)特征比如A:U，C:G，G:UW及錯(cuò) 誤匹配的個(gè)數(shù)，例如20個(gè)位點(diǎn)結(jié)合特征，24個(gè)結(jié)構(gòu)特征和4個(gè)熱力學(xué)特征;20個(gè)位點(diǎn)結(jié)合特征是miRNA前20位與祀基因的4:11，。6,6:1]和錯(cuò)配，其中4:1]，。6屬于完全匹配，賦值分別為 1和2，G: U屬于不完全匹配賦值為3，錯(cuò)配為4; 24個(gè)結(jié)構(gòu)特征是將整個(gè)miRNA序列分為種子區(qū) 域2-8位，中屯、區(qū)域9-11位，其它區(qū)域W及整個(gè)區(qū)域四部分，每個(gè)分別計(jì)算CG配對(duì)，AU配對(duì)， CG+AU匹配，GU不完全匹配，錯(cuò)配，GU+錯(cuò)配6種，所W有4*6 = 24個(gè)特征，另外4個(gè)能量相關(guān)的特征使用Vienna RNA包中的RNAup和RNAfold計(jì)算獲得選擇的特征子集就是運(yùn)48維特征中的一部分。
[0050] 使用適應(yīng)度函數(shù)評(píng)價(jià)運(yùn)些特征子集的優(yōu)劣，對(duì)于含有較優(yōu)的特征子集的粒子繼續(xù) 使用粒子群算法進(jìn)行速度和位置更新，對(duì)于不太優(yōu)的粒子使用遺傳算法的交叉變異算子形成新的粒子;最后得到最優(yōu)的特征集合，對(duì)運(yùn)個(gè)特征子集使用支持向量機(jī)進(jìn)行構(gòu)建模型，在驗(yàn)證集上進(jìn)行實(shí)驗(yàn)，最后得到預(yù)測(cè)的基因調(diào)控網(wǎng)絡(luò)關(guān)系;具體步驟如下；
[0051] 如圖1所示，一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法，包括W下步驟：
[0052] Sl、構(gòu)建樣本集:樣本集包括正樣本和負(fù)樣本，正樣本捜集來自文獻(xiàn)中的具有調(diào)控關(guān)系的miRNA:mRNA交互信息對(duì)；負(fù)樣本通過人工生成的假陽性miRNA:mRNA交互信息對(duì)組成，使用祀基因預(yù)測(cè)工具用來生成假陽性miRNA的祀基因作為訓(xùn)練集的負(fù)樣本;在運(yùn)里，使用人工生成的方法生成假的miRNA,通過統(tǒng)計(jì)擬南芥的miRNA中堿基A、U、C、G的比例，按照比例生成300個(gè)miRNA,使用祀基因預(yù)測(cè)工具psRNA化巧et用來生成運(yùn)些miRNA的祀基因作為訓(xùn) 練集的負(fù)樣本;最后，生成1311條負(fù)樣本。因?yàn)閷?shí)驗(yàn)中需要精確的祀位點(diǎn)，因此使用祀基因預(yù)測(cè)工具對(duì)miRNA進(jìn)行預(yù)測(cè)，得到的所有miRNA :mRNA交互信息對(duì)作為驗(yàn)證集;提取正樣本和負(fù)樣本的N維特征，所述特征包括位點(diǎn)結(jié)合特征、結(jié)構(gòu)特征和熱力學(xué)特征。本發(fā)明依次提取了 48維特征，本發(fā)明提取的特征可分為=類:位點(diǎn)結(jié)合特征、結(jié)構(gòu)特征和熱力學(xué)特征；
[0053] S2、數(shù)據(jù)預(yù)處理及參數(shù)設(shè)置:實(shí)驗(yàn)中，正負(fù)樣本的比例存在不平衡，負(fù)樣本的比例大于正樣本的比例，因此結(jié)果會(huì)出現(xiàn)較高的假陰性;利用經(jīng)典的SMOTE方法對(duì)樣本的不平衡進(jìn)行處理；SMOTE算法是一種過采樣算法，基本思想是通過合成的方法產(chǎn)生新的少數(shù)樣本。合成的方法是對(duì)每一個(gè)少數(shù)類樣本a,計(jì)算a與少數(shù)類樣本之間的歐式距離，選取k個(gè)最短的距離作為其最近鄰，其中，k值為5;然后從它的最近鄰中隨機(jī)選擇樣本b，然后在a和b之間的連線上隨機(jī)選一點(diǎn)作為新合成的少數(shù)類樣本M，公式如下所示，其中U是一個(gè)介于0和1之間的隨機(jī)數(shù)。而不是簡(jiǎn)單的進(jìn)行復(fù)制;最后將屬性值進(jìn)行離散標(biāo)準(zhǔn)化到[0，1]之間；
[0054] M = a+u ? (b-a)
[0055] 對(duì)粒子群算法的種群規(guī)模設(shè)置為特征個(gè)數(shù)48,迭代次數(shù)為100,遺傳算法的概率〇.2(就是對(duì)粒子群算法中排序往后的80%粒子進(jìn)行遺傳算法的交叉和變異操作，運(yùn)個(gè)是通過對(duì)擬南芥進(jìn)行實(shí)驗(yàn)，將遺傳概率從0.1到0.9 W步長(zhǎng)0.1進(jìn)行增長(zhǎng)，結(jié)果最好的是0.2)，交叉速率為0.7，變異速率為0.1;
[0056] S3、利用粒子群算法對(duì)特征進(jìn)行選擇，設(shè)置每個(gè)粒子的個(gè)體極值和全局極值：每一個(gè)粒子是一個(gè)48維的向量，每一維對(duì)應(yīng)一個(gè)特征，每一維的值為1或者0，； 1代表對(duì)應(yīng)的特征被選擇了，0代表對(duì)應(yīng)的特征沒有被選擇;個(gè)體極值代表的是運(yùn)個(gè)粒子在整個(gè)迭代過程中的最優(yōu)位置，初始化為運(yùn)個(gè)粒子的初始化值;全局極值是所有粒子的最優(yōu)位置，初始化為整個(gè)粒子群的最優(yōu)值；
[0057] S4、計(jì)算每個(gè)粒子選擇的適應(yīng)度值，根據(jù)運(yùn)個(gè)適應(yīng)度值對(duì)粒子進(jìn)行排序;包括下面幾個(gè)步驟：
[005引Al:計(jì)算特征子集的等價(jià)類：
[0059] T= (U，CUD，V，f)表示一個(gè)決策表，其中U是一個(gè)非空且有限的樣本集合，稱為論域;C是條件屬性集合，D是決策屬性集合;如果Q = CUD,任意屬性qEQ是一個(gè)全映射fq:U^ Vq，其中Vq表示屬性q所有取值，稱為q的值域，且V= U qeQVq，f = U qeQf q ;每一個(gè)屬性子集及cC，它的不可分辨關(guān)系表示為：
[0060]
[0061] 令XGU，U中所有與X滿足不可分辨關(guān)系IND(B)的對(duì)象構(gòu)成X的一個(gè)基于屬性集B的等價(jià)類[x]B={y|yGU，（x，y)ElND(B)};
[0062] A2:任意對(duì)象子集義巨隊(duì)屬性子集盈臣C，X的上近似集定義為：
[0063]
[0064] A3:任意條件屬性子集及￡巴，11/0是由等價(jià)關(guān)系IND(D)誘導(dǎo)出的所有相異的等價(jià) 類的集合;相對(duì)于決策屬性集D的B正域定義為：
[00 化]
[0066] A4: B是一個(gè)條件屬性集合，D是決策屬性，D對(duì)于B的依賴度定義為：
[0067]
[0068] 通常0《k《l;當(dāng)k=l，時(shí)，稱D完全依賴于B;0<k<l時(shí)，D部分依賴于B;當(dāng)k = 0時(shí)，D 完全獨(dú)立于B;
[0069] A5:計(jì)算每個(gè)粒子的適應(yīng)度，適應(yīng)度公式如下：
[0070]
[0071] 其中丫 B(D)是條件屬性集B相對(duì)于決策屬性集D的依賴度，Icl是總的特征數(shù)，Ib 是選擇的特征數(shù);在運(yùn)里，a的取值為0.9，0的取值為0.1;
[0072] A6:根據(jù)適應(yīng)度的大小對(duì)粒子進(jìn)行排序；
[0073] S5、對(duì)排序往前的那些粒子(在擬南芥數(shù)據(jù)集上是20%)繼續(xù)使用粒子群算法進(jìn)行位置和速度更新；
[0074] Al:速度更新公式如下：
[0075] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandQ X (Pgd-Xid)，
[0076] Al:位置更新公式如下：
[0077] Xid = Xid+Vid,
[007引其中第i個(gè)粒子表示為Xi=Uil, Xi2, ...，Xid)，它的飛行速度為Vi= (Vil，Vi2, ...， Vid)，在每次迭代中，粒子會(huì)根據(jù)兩個(gè)極值來對(duì)自己進(jìn)行更新;第一個(gè)極值就是粒子本身找到的最優(yōu)解Pbest,第i個(gè)粒子本身的最優(yōu)解可W表示為Pi= (Pil，Pi2, ...，pid).第二個(gè)極值是整個(gè)種群目前找到的最優(yōu)解，運(yùn)個(gè)極值是全局極值gbset;
[0079] S6、對(duì)排序往后的那些粒子(后80%的粒子)利用遺傳算法的交叉和變異操作進(jìn)行更新：
[0080] 隨機(jī)產(chǎn)生一個(gè)(0，1)之間的隨機(jī)數(shù)a,當(dāng)a小于交叉概率時(shí)，進(jìn)行交叉操作；比如運(yùn) 個(gè)粒子的長(zhǎng)度是18,生成一個(gè)1到18之間的隨機(jī)樹作為交叉點(diǎn)，下面粒子的交叉點(diǎn)為8,將父個(gè)體1的8后面的幾位與父?jìng)€(gè)體2進(jìn)行交換：
[0081] Al:交叉操作：
[0082] 父?jìng)€(gè)體 1 011111110000000000
[0083] 父?jìng)€(gè)體2 000000001111111111
[0084] 如粗體前邊位置為所選擇的交叉點(diǎn)，那么生成的子個(gè)體為：
[0085] 子個(gè)體 1 011111111111111111 [00化]子個(gè)體2 000000000000000000
[0087] Al:變異操作：
[0088] 比如一個(gè)粒子用W下碼串表示，碼長(zhǎng)是8:
[0089] 10100110
[0090] 隨機(jī)產(chǎn)生一個(gè)巧化之間的隨機(jī)數(shù)k，假設(shè)k = 5,將第5位的1變成0或?qū)?變成1，得到碼串：10101110
[0091 ] S7、對(duì)粒子的全局極值和個(gè)體極值進(jìn)行更新；
[0092] S8、判斷是否滿足迭代要求，不滿足的話轉(zhuǎn)向S4,否則的話，輸出全局最優(yōu)粒子；
[0093] S9、根據(jù)全局最優(yōu)粒子所選擇的特征進(jìn)行對(duì)支持向量機(jī)進(jìn)行訓(xùn)練構(gòu)建基因調(diào)控網(wǎng) 絡(luò)模型；
[0094] S10、使用構(gòu)建的分類模型對(duì)驗(yàn)證集進(jìn)行實(shí)驗(yàn)，得到預(yù)測(cè)的基因調(diào)控網(wǎng)絡(luò)。
[0095] 將本發(fā)明所述方法應(yīng)用于表1中擬南芥數(shù)據(jù)集和表2中水稻數(shù)據(jù)集，本發(fā)明的準(zhǔn)確率，F(xiàn)值和ROC面積明顯高于現(xiàn)有方法。構(gòu)建的調(diào)控網(wǎng)絡(luò)如圖2所示。
[0096] 表1擬南芥數(shù)據(jù)集的實(shí)驗(yàn)效果對(duì)比表
[0097]
[009引
[0099]
[0100] 實(shí)施例
[0101] 為使本發(fā)明的目的、技術(shù)方案和有益效果更加清晰和更易于實(shí)驗(yàn)，W下結(jié)合具體實(shí)施例，并參照附圖，對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。
[0102] 為了更好的說明本方法的過程，使用了 W下運(yùn)份簡(jiǎn)單的數(shù)據(jù)來輔助。
[0103] 表3文獻(xiàn)中捜集的正樣本集合
[0104]
[0105] 運(yùn)是從文獻(xiàn)中捜集的正樣本的幾個(gè)，格式如上面所示，第一列是代表miRNA名稱，第二列代表的是HiiRNA的祀基因 mRNA名稱，第S列是miRNA作用于mRNA的祀位點(diǎn)，第四列是 miRNA的序列，第五列是祀基因序列，第六列是祀基因序列兩翼序列，第屯列是類標(biāo)簽，類標(biāo) 簽為1說明miRNA與對(duì)應(yīng)的mRNA之間有調(diào)控作用，0表示沒有調(diào)控作用;運(yùn)個(gè)表是文獻(xiàn)中捜集的具有調(diào)控關(guān)系的m i RNA: mRNA對(duì)，因此運(yùn)個(gè)表中的類標(biāo)簽都為1;
[0106] 表4數(shù)據(jù)庫中5個(gè)miRNA序列 Tnmvl L0108J 巧日數(shù)據(jù)巧甲mKM的斤夕y

[0110]
[0111] 表4提取的是miRNA數(shù)據(jù)庫中5個(gè)miRNA的序列，表5摘取了3個(gè)mRNA的序列，有了運(yùn) 些信息，就可W開始下面的實(shí)驗(yàn)了：
[0112] 步驟1、生成樣本集:從文獻(xiàn)中捜集實(shí)驗(yàn)驗(yàn)證的帶有精確祀位點(diǎn)的（即具有調(diào)控關(guān) 系的)miRNA: mRNA交互信息對(duì)，如表3所示;人工生成的miRNA是根據(jù)數(shù)據(jù)庫中的miRNA中A、 U、C、G所占的比例，例如表4中運(yùn)些mi RNA的堿基比例，統(tǒng)計(jì)出運(yùn)些序列中A共34個(gè)，C共18個(gè)， G共27個(gè)，U共26個(gè)，總共105個(gè)，那么A占總個(gè)數(shù)的大約32%，C占17%，G占26%，U占25%，因此人工的miRNA序列就按照運(yùn)種比例進(jìn)行生成；因?yàn)檫\(yùn)個(gè)實(shí)驗(yàn)中需要miRNA:mRNA結(jié)合的祀位點(diǎn)，所W使用一個(gè)祀基因預(yù)測(cè)工具psRNA化巧et預(yù)測(cè)運(yùn)些生成的miRNA祀基因及對(duì)應(yīng)的祀位點(diǎn)信息，表示成表3運(yùn)樣的形式，最后的類標(biāo)簽都改為-1;因?yàn)閷?shí)驗(yàn)中需要精確的祀位點(diǎn)，因此使用祀基因預(yù)測(cè)工具對(duì)mi RNA進(jìn)行預(yù)測(cè)，得到的所有miRNA: mRNA交互信息對(duì)作為驗(yàn)證集;提取的特征分別為20個(gè)位點(diǎn)結(jié)合特征，24個(gè)結(jié)構(gòu)特征和4個(gè)熱力學(xué)特征;20個(gè)位點(diǎn)結(jié)合特征是miRNA前20位與祀基因的A:U，C:G，G:U和錯(cuò)配，其中A:U，C:G屬于完全匹配，賦值分別為1和2，G:U屬于不完全匹配賦值為3,錯(cuò)配為4;24個(gè)結(jié)構(gòu)特征是將整個(gè)miRNA序列分為種子區(qū)域2-8位，中屯、區(qū)域9-11位，其它區(qū)域W及整個(gè)區(qū)域四部分，每個(gè)分別計(jì)算CG配對(duì)，AU配對(duì)，CG+AU匹配，GU不完全匹配，錯(cuò)配，GU+錯(cuò)配6種，所W有4*6 = 24個(gè)特征，另外4個(gè)能量相關(guān)的特征使用Vienna RNA包中的RNAup和RNAfold計(jì)算獲得；
[0113] 步驟2、數(shù)據(jù)預(yù)處理及參數(shù)設(shè)置:實(shí)驗(yàn)中，正負(fù)樣本的比例存在不平衡，負(fù)樣本的比例大于正樣本的比例，因此結(jié)果會(huì)出現(xiàn)較高的假陰性。利用經(jīng)典的SMOTE方法對(duì)樣本的不平衡進(jìn)行處理。SMOTE算法是一種過采樣算法，基本思想是通過合成的方法產(chǎn)生新的少數(shù)樣本。合成的方法是對(duì)每一個(gè)少數(shù)類樣本a,計(jì)算a與少數(shù)類樣本之間的歐式距離，選取k個(gè)最短的距離作為其最近鄰，文中的k值為5。然后從它的最近鄰中隨機(jī)選擇樣本b，然后在a和b 之間的連線上隨機(jī)選一點(diǎn)作為新合成的少數(shù)類樣本M，公式如下所示，其中U是一個(gè)介于0和 1之間的隨機(jī)數(shù)，而不是簡(jiǎn)單的進(jìn)行復(fù)制。最后將屬性值進(jìn)行離散化到[0，1]之間；
[0114] M = a+u ? (b-a)
[0115] 對(duì)粒子群算法的種群規(guī)模設(shè)置為特征個(gè)數(shù)48,迭代次數(shù)為100,遺傳算法的概率〇.2(就是對(duì)粒子群算法中排序往后的80%粒子進(jìn)行遺傳算法的交叉和變異操作，運(yùn)個(gè)是通過對(duì)擬南芥進(jìn)行實(shí)驗(yàn)，將遺傳概率從0.1到0.9 W步長(zhǎng)0.1進(jìn)行增長(zhǎng)，結(jié)果最好的是0.2)，交叉速率為0.7，變異速率為0.1。
[0116] 步驟3、利用粒子群算法對(duì)特征進(jìn)行選擇，設(shè)置每個(gè)粒子的個(gè)體極值和全局極值：每一個(gè)粒子是一個(gè)48維的向量，每一維對(duì)應(yīng)一個(gè)特征，每一維的值要么是1，要么是0。1表示對(duì)應(yīng)的特征被選擇了，0表示對(duì)應(yīng)的特征沒有被選擇;個(gè)體極值代表的是運(yùn)個(gè)粒子在整個(gè)迭代過程中的最優(yōu)位置，初始化為運(yùn)個(gè)粒子的初始化值。全局極值是所有粒子的最優(yōu)位置，初始化為整個(gè)粒子群的最優(yōu)值。
[0117] 步驟4、計(jì)算每個(gè)粒子選擇的適應(yīng)度值，根據(jù)運(yùn)個(gè)適應(yīng)度值對(duì)粒子進(jìn)行排序;包括下面幾個(gè)步驟：
[0118] Al:計(jì)算特征子集的等價(jià)類：
[0119] T= (U，CUD，V，f)表示一個(gè)決策表，其中U是一個(gè)非空且有限的樣本集合，稱為論域;C是條件屬性集合，D是決策屬性集合;如果Q = CUD,任意屬性qEQ是一個(gè)全映射fq:U^ Vq，其中Vq表示屬性q所有取值，稱為q的值域，且V= U qeQVq，f = U qeQf q ;每一個(gè)屬性子集公cC，它的不可分辨關(guān)系表示為：
[0120]
[0121] 令XGU，U中所有與X滿足不可分辨關(guān)系IND(B)的對(duì)象構(gòu)成X的一個(gè)基于屬性集B的等價(jià)類[x]B={y IyGU, (x，y) G IND(B)K
[0122] A2:任意對(duì)象子集乂空1/，屬性子集度￡仁，乂的上近似集定義為：
[0123]
[0124] A3:任意條件屬性子集盈cC，U/D是由等價(jià)關(guān)系IND(D)誘導(dǎo)出的所有相異的等價(jià) 類的集合;相對(duì)于決策屬性集D的B正域定義為：
[0125]
[0126] A4:B是一個(gè)條件屬性集合，D是決策屬性，D對(duì)于B的依賴度定義為：
[0127]
[012引通常0《k《l。當(dāng)k=l，時(shí)，稱D完全依賴于B;0<k<l時(shí)，D部分依賴于B;當(dāng)k = 0時(shí)，D 完全獨(dú)立于B;
[0129] A5:計(jì)算每個(gè)粒子的適應(yīng)度，適應(yīng)度公式如下：
[0130]
[0131] 共T y BW巧巧化牌化采M日刈T決策屬性集D的依賴度，I C I是總的特征數(shù)，I B 是選擇的特征數(shù)。在運(yùn)里，a的取值為0.9，0的取值為0.1;
[0132] A6:根據(jù)適應(yīng)度的大小對(duì)粒子進(jìn)行排序；
[0133] 步驟5、對(duì)排序往前的那些粒子(在擬南芥數(shù)據(jù)集上是20%)繼續(xù)使用粒子群算法進(jìn)行位置和速度更新；
[0134] Al:速度更新公式如下：
[0135] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandQ X (Pgd-Xid)，
[0136] Al:位置更新公式如下：
[0137] Xid = Xid+Vid,
[013引其中第i個(gè)粒子表示為Xi=Uil, Xi2, ...，Xid)，它的飛行速度為Vi= (Vil，Vi2, ...， Vid)，在每次迭代中，粒子會(huì)根據(jù)兩個(gè)極值來對(duì)自己進(jìn)行更新;第一個(gè)極值就是粒子本身找到的最優(yōu)解Pbest，第i個(gè)粒子本身的最優(yōu)解可W表示為Pi=(Pil，Pi2, . . .，Pid).第二個(gè)極值是整個(gè)種群目前找到的最優(yōu)解，運(yùn)個(gè)極值是全局極值gbset。
[0139] 步驟6、對(duì)排序往后的那些粒子(后80%的粒子)利用遺傳算法的交叉和變異操作進(jìn)行更新：
[0140] 隨機(jī)產(chǎn)生一個(gè)(0，1)之間的隨機(jī)數(shù)a,當(dāng)a小于交叉概率時(shí)，進(jìn)行交叉操作；比如運(yùn) 個(gè)粒子的長(zhǎng)度是18,生成一個(gè)1到18之間的隨機(jī)樹作為交叉點(diǎn)，下面粒子的交叉點(diǎn)為8,將父個(gè)體1的8后面的幾位與父?jìng)€(gè)體2進(jìn)行交換：
[0141] Al:交叉操作：
[0142] 父?jìng)€(gè)體 1 011111110000000000
[0143] 父?jìng)€(gè)體2 000000001111111111
[0144] 如粗體前邊位置為所選擇的交叉點(diǎn)，那么生成的子個(gè)體為：
[0145] 子個(gè)體 1 011111111111111111
[0146] 子個(gè)體2 000000000000000000
[0147] Al:變異操作：
[0148] 比如一個(gè)粒子用下列式子表示，碼長(zhǎng)是8:
[0149] 10100110
[0150] 隨機(jī)產(chǎn)生一個(gè)巧化之間的隨機(jī)數(shù)k，假設(shè)k = 5,將第5位的1變成0或?qū)?變成1，得到碼串：10101110
[0151 ]步驟7、對(duì)粒子的全局極值和個(gè)體極值進(jìn)行更新。
[0152] 步驟8、判斷是否滿足迭代要求，不滿足的話轉(zhuǎn)向S4,否則的話，輸出全局最優(yōu)粒子。
[0153] 步驟9、根據(jù)全局最優(yōu)粒子所選擇的特征進(jìn)行對(duì)支持向量機(jī)進(jìn)行訓(xùn)練構(gòu)建基因調(diào) 控網(wǎng)絡(luò)模型。
[0154] 步驟10、使用構(gòu)建的分類模型對(duì)驗(yàn)證集進(jìn)行實(shí)驗(yàn)，得到預(yù)測(cè)的基因調(diào)控網(wǎng)絡(luò)。
[0155] W上內(nèi)容是結(jié)合具體的優(yōu)選技術(shù)方案對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說明，不能認(rèn)定本發(fā)明的具體實(shí)施只局限于運(yùn)些說明。對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可W做出若干簡(jiǎn)單推演或替換，都應(yīng)當(dāng)視為屬于本發(fā)明的保護(hù)化圍。
【主權(quán)項(xiàng)】
1. 一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法，其特征在于，包括以下步驟： 51、構(gòu)建樣本集:所述樣本集包括正樣本和負(fù)樣本，所述正樣本搜集來自文獻(xiàn)中的具有調(diào)控關(guān)系的miRNA:mRNA交互信息對(duì);負(fù)樣本通過人工生成的假陽性miRNA:mRNA交互信息對(duì) 組成，使用靶基因預(yù)測(cè)工具用來生成假陽性miRNA的靶基因作為訓(xùn)練集的負(fù)樣本;使用靶基因預(yù)測(cè)工具對(duì)miRNA進(jìn)行預(yù)測(cè)，得到的所有miRNA:mRNA交互信息對(duì)作為驗(yàn)證集;提取正樣本和負(fù)樣本的N維特征，所述特征包括位點(diǎn)結(jié)合特征、結(jié)構(gòu)特征和熱力學(xué)特征； 52、數(shù)據(jù)預(yù)處理及參數(shù)設(shè)置:利用SMOTE方法使正樣本與負(fù)樣本的比例平衡;對(duì)所提取的特征進(jìn)行離散化和標(biāo)準(zhǔn)化處理； 53、利用粒子群算法對(duì)粒子的特征進(jìn)行選擇，設(shè)置粒子群中每個(gè)粒子的個(gè)體極值和全局極值:將每一個(gè)粒子表不為N維向量，每一維對(duì)應(yīng)一個(gè)特征，每一維的值為1或0; 1表不對(duì) 應(yīng)的特征被選擇了，〇表示對(duì)應(yīng)的特征沒有被選擇;每個(gè)粒子所選中的特征構(gòu)成每個(gè)粒子的特征子集;個(gè)體極值為粒子在整個(gè)迭代過程中的最優(yōu)位置，初始化為粒子的初始化值;全局極值為所有粒子的最優(yōu)位置，初始化為整個(gè)粒子群的最優(yōu)值； 54、計(jì)算每個(gè)粒子的特征子集的適應(yīng)度，根據(jù)適應(yīng)度進(jìn)行排序:包括下面幾個(gè)步驟： Al:計(jì)算每個(gè)粒子的特征子集的等價(jià)類： T= (U，CUD，V，f)表示一個(gè)決策表，其中U是一個(gè)非空且有限的樣本集合，稱為論域;C 是條件屬性集合，D是決策屬性集合;如果Q = C U D，任意屬性q e Q是一個(gè)全映射fq: U^Vq，其中Vq表示屬性q所有取值，稱為q的值域，且V= U qeQVq，f = U qeQfq;每一個(gè)屬性子集它的不可分辨關(guān)系表TK為：令xeu，u中所有與X滿足不可分辨關(guān)系IND(B)的對(duì)象構(gòu)成X的一個(gè)基于屬性集B的等價(jià) 類[x]b= {y |yeu，（x，y) e IND(B)}。 A2:任意對(duì)象子集屬性子集谷czC-X的上近似集為：A3:任意條件屬性子集谷gC，U/D是由等價(jià)關(guān)系IND(D)誘導(dǎo)出的所有相異的等價(jià)類的集合.*日姑豐it銪屆.《：隹nfrftRTP+或定義為：A4: B是一個(gè)條件屬性集合，D是決策屬性，D對(duì)于B的依賴度定義為：通常0彡k彡1。當(dāng)k=l，時(shí)，稱D完全依賴于B;0〈k〈l時(shí)，D部分依賴于B;當(dāng)k = 0時(shí)，D完全獨(dú)立于B; A5:計(jì)算每個(gè)粒子的適應(yīng)度，適應(yīng)度公式如下：其中Yb(D)是條仵屬性集B相對(duì)t決策屬性集D的依賴度，|C|是總的特征數(shù)，|B|是選擇的特征數(shù)。在這里，α的取值為0.9，β的取值為O. I; A6:根據(jù)適應(yīng)度的大小對(duì)粒子進(jìn)行排序； 55、對(duì)排序在預(yù)設(shè)概率之前的粒子繼續(xù)使用粒子群算法進(jìn)行位置和速度更新： Al:速度更新公式如下： vid = wX vid+ci XrandO X (pid~xid)+C2 Xrand() X (Pgd-Xid)， Al:位置更新公式如下： Xid - Xid+Vid , 其中第i個(gè)粒子表示為Xi=(Xil，Xi2,…，Xid),它的飛行速度為Vi=(Vil，Vi2,…，Vid), 在每次迭代中，粒子根據(jù)兩個(gè)極值來對(duì)自己進(jìn)行更新;第一個(gè)極值就是粒子本身找到的最優(yōu)解Pbest,第i個(gè)粒子本身的最優(yōu)解可以表示為 Pl=(pu，pl2, . . .，pld).第二個(gè)極值是整個(gè)種群目前找到的最優(yōu)解，這個(gè)極值是全局極值gbset; 56、對(duì)排序在預(yù)設(shè)概率之后的粒子利用遺傳算法的交叉和變異操作進(jìn)行更新： 57、對(duì)粒子的個(gè)體極值和全局極值進(jìn)行更新： 58、判斷是否滿足迭代要求，不滿足的話轉(zhuǎn)向S4,否則的話，輸出全局最優(yōu)粒子： 59、根據(jù)全局最優(yōu)粒子所選擇的特征進(jìn)行對(duì)支持向量機(jī)進(jìn)行訓(xùn)練構(gòu)建基因調(diào)控網(wǎng)絡(luò)模型： S10、使用構(gòu)建的基因調(diào)控網(wǎng)絡(luò)模型對(duì)驗(yàn)證集進(jìn)行實(shí)驗(yàn)，得到預(yù)測(cè)的基因調(diào)控網(wǎng)絡(luò)。2. 根據(jù)權(quán)利要求1所述的一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法，其特征在于，SMOTE算法是通過合成的方法產(chǎn)生新的少數(shù)樣本;所述合成的方法是對(duì)每一個(gè)少數(shù) 類樣本a，計(jì)算a與少數(shù)類樣本之間的歐式距離，選取k個(gè)最短的距離作為其最近鄰;然后從它的最近鄰中隨機(jī)選擇樣本b，然后在a和b之間的連線上隨機(jī)選一點(diǎn)作為新合成的少數(shù)類樣本M，公式如下所示，其中u是一個(gè)介于0和1之間的隨機(jī)數(shù)；最后將屬性值進(jìn)行離散化到 [〇，1]之間； M=a+u · (b_a) 〇3. 根據(jù)權(quán)利要求1所述的一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法，其特征在于，對(duì)粒子群算法的種群規(guī)模設(shè)置為特征個(gè)數(shù)N，迭代次數(shù)為100。4. 根據(jù)權(quán)利要求1所述的一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法，其特征在于，k為5。
【文檔編號(hào)】G06K9/62GK106022473SQ201610346242
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月23日
【發(fā)明人】孟軍, 郝涵
【申請(qǐng)人】大連理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孟軍;郝涵;
技術(shù)所有人：大連理工大學(xué);
我是此專利的發(fā)明人

上一篇：一種可重構(gòu)裝配線平衡優(yōu)化方法
上一篇：一種嵌入式深度學(xué)習(xí)處理器的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

基因遺傳算法相關(guān)技術(shù)

基因調(diào)控網(wǎng)絡(luò)相關(guān)技術(shù)

真核生物基因表達(dá)調(diào)控相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種融合粒子群和遺傳算法的基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法