一種基于組和圖稀疏化的基因序列分類方法

文檔序號(hào)：6514609閱讀：511來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于組和圖稀疏化的基因序列分類方法
【專利摘要】本發(fā)明提出了一種基于組和圖稀疏化的基因序列分類方法，包括以下步驟：按照基因序列的特征，把特征空間內(nèi)的特征分成不重疊的組。在組與組之間建立一個(gè)有向無環(huán)圖。利用基于組和圖稀疏化的分類模型為基因序列分類。本發(fā)明對(duì)現(xiàn)有的基于組稀疏化的基因序列分類方法進(jìn)行改善和提高，能夠避免組與組之間相互獨(dú)立以及組與組之間規(guī)模差距大導(dǎo)致的分類精度下降問題。組與組之間建立有向無環(huán)圖的方式，能夠很好地避免上述兩個(gè)問題，提高學(xué)習(xí)效率。基于組和圖稀疏化邏輯回歸分類器可以很好的根據(jù)建立的有向無環(huán)圖選擇出有用的組，提高分類的精度的同時(shí)，還加強(qiáng)了分類模型的可解釋性。
【專利說明】 —種基于組和圖稀疏化的基因序列分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種計(jì)算機(jī)生物信息處理領(lǐng)域，特別是一種基于組和圖稀疏化的基因序列分類方法。
【背景技術(shù)】
[0002]隨著當(dāng)今世界科學(xué)技術(shù)的飛速發(fā)展，大量的生物學(xué)問題需要進(jìn)行處理。然而，隨著數(shù)據(jù)量變的越來越大，用人力進(jìn)行處理已經(jīng)無法滿足要求。隨著計(jì)算機(jī)技術(shù)迅速普及和發(fā)展，利用計(jì)算機(jī)對(duì)生物學(xué)數(shù)據(jù)進(jìn)行自動(dòng)的處理在科研領(lǐng)域和應(yīng)用領(lǐng)域都變得十分重要。這其中，對(duì)基因序列的分類就是一個(gè)非常重要的任務(wù)?；蛐蛄蟹诸惥褪歉鶕?jù)具體的堿基序列，利用計(jì)算機(jī)給一個(gè)序列安排一個(gè)類別(正類和負(fù)類)。比如在基因序列的分類任務(wù)中，判斷一個(gè)基因序列是否是一個(gè)剪接位點(diǎn)。如果一個(gè)基因序列是剪接位點(diǎn)，就是正類。不是剪接位點(diǎn)就是負(fù)類°(Yeo, G.W.and Burge, C.B.Maximum entropy modeling of short sequencemotifs with applications to rna splicing signals.Journal of ComputationalBiology, 11 (2/3):377 - 394，2004.)對(duì)于一個(gè)基因序列分類任務(wù)，首先把每一個(gè)堿基序列都映射到一個(gè)高維歐幾里得空間，然后利用機(jī)器學(xué)習(xí)里的分類器，從大量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出分類器模型，最后用這個(gè)分類器模型對(duì)未知類別的基因序列進(jìn)行分類。近年來，隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展，基因序列的分類方法取得了一系列重要的進(jìn)展。而在基因序列的表示步驟中，稀疏表示的方法有著廣泛的應(yīng)用。但是這種表示方法會(huì)導(dǎo)致稀疏性比較嚴(yán)重，同時(shí)，基因序列分類問題本身也有稀疏性，能夠影響分類的關(guān)鍵特征只在特征空間中占有一小部分。這樣就需要使用稀疏化的方法從大量的特征中訓(xùn)練出有用的特征?；诮M稀疏化的方法就被大量用于這類問題。但是這個(gè)方法也有缺陷，在面對(duì)大規(guī)模問題的時(shí)候不能很好的表示出基因序列的結(jié)構(gòu)特征。比如對(duì)于一個(gè)基因序列長(zhǎng)度為90的數(shù)據(jù)集進(jìn)行分類，如果用全部1，2，3階模板的稀疏化表示，那么特征空間的維度大約是七百五十萬維。這樣大的特征空間用計(jì)算機(jī)處理就會(huì)比較吃力。更進(jìn)一步，對(duì)于一個(gè)長(zhǎng)度是90的基因序列，使用3階模板并不夠，想要表示更多的基因序列的結(jié)構(gòu)信息，需要4階，5階，甚至更高的模板。但就這個(gè)問題來說，使用1，2，3，4階模板會(huì)讓特征空間增大到大約六億六千萬,這就很難使用甚至不能使用計(jì)算機(jī)來處理了。在組與組之間建立有向無環(huán)圖可以讓大的模板通過小的模板來表示，大的模板的結(jié)構(gòu)信息可以通過小模板與小模板(組與組)之間的關(guān)系圖結(jié)構(gòu)來表示，比如把兩個(gè)2階的模板用一條邊連接起來，就可以代替一個(gè)4階的大模板。這樣可以大大降低表達(dá)相似結(jié)構(gòu)特征所需要的維度。同時(shí)，組與組之間規(guī)模差距大導(dǎo)致的分類精度降低的問題也可以通過建立組之間的有向無環(huán)圖來解決。

【發(fā)明內(nèi)容】

[0003]發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足，提供一種基于組和圖稀疏化的基因序列分類方法。
[0004]為了解決上述技術(shù)問題，本發(fā)明公開了一種基于組和圖稀疏化的基因序列分類方法，包括以下步驟:
[0005]步驟一，對(duì)基因序列的特征空間進(jìn)行分組:用稀疏表示的方法把訓(xùn)練集中每一個(gè)基因序列表示為向量構(gòu)成特征空間，向量的每一維代表特征空間中的一個(gè)特征，并且把整個(gè)特征空間劃分成互不相交的兩個(gè)以上的組，每一個(gè)基因序列包括一個(gè)類標(biāo)；
[0006]步驟二，在兩個(gè)以上的組之間建立一個(gè)有向無環(huán)圖，并且為有向無環(huán)圖上的每一條邊給定一個(gè)代價(jià)值；
[0007]步驟三，利用基于組和圖稀疏化的邏輯回歸分類器模型為基因序列分類。
[0008]步驟一包括以下步驟:
[0009]對(duì)于訓(xùn)練集中的基因序列Clj=C1, C2,…Cjj...，ck，其中Cjj e {A, C，G, T}為基因序列dj中的第j j個(gè)堿基，A為腺嘌呤、G為鳥嘌呤、T為胸腺嘧啶、C為胞嘧啶，jj=l, 2，…k，k表示基因序列4的總長(zhǎng)度；例如，一個(gè)長(zhǎng)度為7的序列AAGATTG，這里k=7?；蛐蛄械南∈璞硎痉椒ㄊ歉鶕?jù)堿基的模板的實(shí)例來表示的，。堿基的模板是由堿基的位置{1，2，…，k}組成的。根據(jù)組成模板的位置的個(gè)數(shù)，模板分為不同的階數(shù)。一個(gè)η階的模板是由{l，2，一，k}中η個(gè)不同的位置組成的，所以對(duì)于長(zhǎng)度為k的序列，η階模板的個(gè)數(shù)就是從k個(gè)里面選擇η個(gè)的組合數(shù)。模板的實(shí)例是該模板下可能的堿基序列。每一個(gè)實(shí)例表示一個(gè)特征，所有模板的所有實(shí)例組成整個(gè)特征空間。比如對(duì)于一個(gè)2階模板{1，3}，指的就是基因序列中第一個(gè)位置和第三個(gè)位置，根據(jù)上面的敘述，每一個(gè)位置有四種可能的堿基(Α，C，G，T)。所以，對(duì)于這個(gè) 2 階模板的實(shí)例，總共有 42=16 個(gè)(AA，AC，AG，AT，CA，CC, CG, CT, GA, GC, GG, GT, TA，TC，TG, TT)，也就是特征空間中的16個(gè)特征。對(duì)于基因序列dp特征空間中的一個(gè)特征如果出現(xiàn)在基因序列4中，則將這個(gè)特征對(duì)應(yīng)的向量中的維度記為1，否則為O ;由此基因序列dj的稀疏表示的向量形式Xj為:
[0010]Xj= (w1；J, w2； j,..., wm；J)，
[0011]m表示特征空間的總數(shù)，Wi，j表示特征的值，i e {1,2,……m}，i表示特征的序號(hào)，wi；J表示對(duì)應(yīng)的特征是否存在于基因序列中。
[0012]步驟一包括以下步驟:
[0013]根據(jù)模板來對(duì)特征空間中的特征進(jìn)行分組，把特征空間劃分成互不相交的組；
[0014]所述模板是由堿基的位置組成的，也就是集合{1，2，...Λ}中的元素組成的；根據(jù)組成模板的位置的個(gè)數(shù)，模板分為對(duì)應(yīng)的階數(shù)；一個(gè)η階的模板是由{l，2，一，k}中η個(gè)不同的位置組成的，η的取值范圍是KnSk的整數(shù)，對(duì)于長(zhǎng)度為k的基因序列，η階模板的個(gè)數(shù)就是從k個(gè)里面選擇η個(gè)的組合數(shù)；模板的實(shí)例是該模板下所有可能組合的堿基序列；每一個(gè)實(shí)例表示一個(gè)特征，所有模板的所有實(shí)例組成整個(gè)特征空間；模板的個(gè)數(shù)由下面的公式來計(jì)算:
[0015]0 + 0+…+ Cf`[0016]其中nt表示一個(gè)正整數(shù)，表示使用的模板中的最大的階數(shù)，nt的取值范圍是
[0017]I ^ nt ^ k的整數(shù)；比如對(duì)于一個(gè)長(zhǎng)度為7的基因序列，用所有的1，2，3階模板的實(shí)例來作為特征，m=7 X 4+21 X 16+35 X 64=2604。
[0018]一個(gè)模板下的全部實(shí)例對(duì)應(yīng)的特征組成一個(gè)組，把特征空間劃分為互不相交的兩個(gè)以上組，組的數(shù)目與模板數(shù)目相同。[0019]特征空間中的劃分記為Ji=^1，…，Bi1...，Β,}，π表示所有組的集合，q表示組的個(gè)數(shù)，ii表示組號(hào)，Bii表示特征空間I= {1，2,..., m}上的一個(gè)子集,也就是一個(gè)組，I表示
特征空間上的特征的序號(hào)的集合，并且滿足條件J = IJA表示所有組的并集組成全部特
征空間，5其0, V5 E ；，表示每個(gè)組都是非空集合，
【權(quán)利要求】
1.一種基于組和圖稀疏化的基因序列分類方法，其特征在于，包括以下步驟: 步驟一，對(duì)基因序列的特征空間進(jìn)行分組:用稀疏表示的方法把訓(xùn)練集中每一個(gè)基因序列表示為向量構(gòu)成特征空間，向量的每一維代表特征空間中的一個(gè)特征，并且把整個(gè)特征空間劃分成互不相交的兩個(gè)以上的組，每一個(gè)基因序列包括一個(gè)類標(biāo)；步驟二，在兩個(gè)以上的組之間建立一個(gè)有向無環(huán)圖，并且為有向無環(huán)圖上的每一條邊給定一個(gè)代價(jià)值；步驟三，利用基于組和圖稀疏化的邏輯回歸分類器模型為基因序列分類。
2.根據(jù)權(quán)利要求1中所述的方法，其特征在于，步驟一包括以下步驟: 對(duì)于訓(xùn)練集中的基因序列Clj=C1, C2,…Cjj...，ck，其中Cjj=)A，C，G, T}為基因序列Clj中的第jj個(gè)堿基，A為腺嘌呤、G為鳥嘌呤、T為胸腺嘧啶、C為胞嘧啶，jj=l, 2，…k，k表示基因序列4的總長(zhǎng)度；對(duì)于基因序列dp特征空間中的一個(gè)特征如果出現(xiàn)在基因序列4中，則將這個(gè)特征對(duì)應(yīng)的向量中的維度記為1，否則為O ;由此基因序列4的稀疏表示的向量形式Xj為:
Xj- (W1, P W2, P..., wm’ j)， m表示特征空間的總數(shù),Wu表示特征的值,i e {I, 2,......m}, i表示特征的序號(hào),Wi,」表示對(duì)應(yīng)的特征是否存在于基因序列中。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，步驟一包括以下步驟: 根據(jù)模板來對(duì)特征空間中的特征進(jìn)行分組，把特征空間劃分成互不相交的組；所述模板是由堿基的位置組成的，也就是集合U，2，...，k}中的元素組成的；根據(jù)組成模板的位置的個(gè)數(shù)，模板分為對(duì)應(yīng)的階數(shù)；一個(gè)η階的模板是由{l，2，一，k}中η個(gè)不同的位置組成的，η的取值范圍是KnSk的整數(shù)，對(duì)于長(zhǎng)度為k的基因序列，η階模板的個(gè)數(shù)就是從k個(gè)里面選擇η個(gè)的組合數(shù)；模板的實(shí)例是該模板下所有可能組合的堿基序列；每一個(gè)實(shí)例表示一個(gè)特征，所有模板的所有實(shí)例組成整個(gè)特征空間；模板的個(gè)數(shù)由下面的公式來計(jì)算: CK+…+ Cf 其中nt表示一個(gè)正整數(shù)，表示使用的模板中的最大的階數(shù)，nt的取值范圍是I ^ nt ^ k的整數(shù)；一個(gè)模板下的全部實(shí)例對(duì)應(yīng)的特征組成一個(gè)組，把特征空間劃分為互不相交的兩個(gè)以上組，組的數(shù)目與模板數(shù)目相同；特征空間中的劃分記為Ji=^1，…，Bi1..., B,}，π表示所有組的集合，q表示組的個(gè)數(shù)，ii表示組號(hào)，Bii表示特征空間1={1，2，...，m}上的一個(gè)子集，也就是一個(gè)組，I表示特征空間上的特征的序號(hào)的集合，并且滿足條件:7= U ^，BHB' = 0,yB,B'B',
4.根據(jù)權(quán)利要求1中所述的方法，其特征在于，步驟二包括以下步驟: 在組與組之間建立一個(gè)有向無環(huán)圖G=(V，E)，V表示圖的節(jié)點(diǎn)集合，圖上的每一個(gè)節(jié)點(diǎn)代表一個(gè)組，E表不圖的邊集。
5.根據(jù)權(quán)利要求4中所述的方法，其特征在于，步驟三包括以下步驟:根據(jù)基于組和圖稀疏化邏輯回歸分類器的目標(biāo)函數(shù):
6.根據(jù)權(quán)利要求5中所述的方法，其特征在于，步驟三包括以下步驟: 對(duì)于一個(gè)輸入基因序列d，根據(jù)步驟一轉(zhuǎn)化為向量形式X后，根據(jù)分類器模型y= V τχ判斷基因序列的類別；如果y>0，則為正類；如果y〈0，則為負(fù)類。
【文檔編號(hào)】G06F19/24GK103473484SQ201310464401
【公開日】2013年12月25日申請(qǐng)日期:2013年9月30日優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】戴新宇, 付強(qiáng) 申請(qǐng)人:南京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：戴新宇;付強(qiáng)
技術(shù)所有人：南京大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

全基因組甲基化測(cè)序相關(guān)技術(shù)

簡(jiǎn)化基因組測(cè)序相關(guān)技術(shù)

簡(jiǎn)化基因組相關(guān)技術(shù)

免疫組化和基因檢測(cè)相關(guān)技術(shù)

全基因組甲基化相關(guān)技術(shù)

簡(jiǎn)化基因組測(cè)序技術(shù)相關(guān)技術(shù)

全基因組甲基化分析相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于組和圖稀疏化的基因序列分類方法