一種基于組和圖稀疏化的基因序列分類方法
【專利摘要】本發(fā)明提出了一種基于組和圖稀疏化的基因序列分類方法,包括以下步驟:按照基因序列的特征,把特征空間內(nèi)的特征分成不重疊的組。在組與組之間建立一個(gè)有向無環(huán)圖。利用基于組和圖稀疏化的分類模型為基因序列分類。本發(fā)明對(duì)現(xiàn)有的基于組稀疏化的基因序列分類方法進(jìn)行改善和提高,能夠避免組與組之間相互獨(dú)立以及組與組之間規(guī)模差距大導(dǎo)致的分類精度下降問題。組與組之間建立有向無環(huán)圖的方式,能夠很好地避免上述兩個(gè)問題,提高學(xué)習(xí)效率。基于組和圖稀疏化邏輯回歸分類器可以很好的根據(jù)建立的有向無環(huán)圖選擇出有用的組,提高分類的精度的同時(shí),還加強(qiáng)了分類模型的可解釋性。
【專利說明】 —種基于組和圖稀疏化的基因序列分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種計(jì)算機(jī)生物信息處理領(lǐng)域,特別是一種基于組和圖稀疏化的基因序列分類方法。
【背景技術(shù)】
[0002]隨著當(dāng)今世界科學(xué)技術(shù)的飛速發(fā)展,大量的生物學(xué)問題需要進(jìn)行處理。然而,隨著數(shù)據(jù)量變的越來越大,用人力進(jìn)行處理已經(jīng)無法滿足要求。隨著計(jì)算機(jī)技術(shù)迅速普及和發(fā)展,利用計(jì)算機(jī)對(duì)生物學(xué)數(shù)據(jù)進(jìn)行自動(dòng)的處理在科研領(lǐng)域和應(yīng)用領(lǐng)域都變得十分重要。這其中,對(duì)基因序列的分類就是一個(gè)非常重要的任務(wù)?;蛐蛄蟹诸惥褪歉鶕?jù)具體的堿基序列,利用計(jì)算機(jī)給一個(gè)序列安排一個(gè)類別(正類和負(fù)類)。比如在基因序列的分類任務(wù)中,判斷一個(gè)基因序列是否是一個(gè)剪接位點(diǎn)。如果一個(gè)基因序列是剪接位點(diǎn),就是正類。不是剪接位點(diǎn)就是負(fù)類°(Yeo, G.W.and Burge, C.B.Maximum entropy modeling of short sequencemotifs with applications to rna splicing signals.Journal of ComputationalBiology, 11 (2/3):377 - 394,2004.)對(duì)于一個(gè)基因序列分類任務(wù),首先把每一個(gè)堿基序列都映射到一個(gè)高維歐幾里得空間,然后利用機(jī)器學(xué)習(xí)里的分類器,從大量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出分類器模型,最后用這個(gè)分類器模型對(duì)未知類別的基因序列進(jìn)行分類。近年來,隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,基因序列的分類方法取得了一系列重要的進(jìn)展。而在基因序列的表示步驟中,稀疏表示的方法有著廣泛的應(yīng)用。但是這種表示方法會(huì)導(dǎo)致稀疏性比較嚴(yán)重,同時(shí),基因序列分類問題本身也有稀疏性,能夠影響分類的關(guān)鍵特征只在特征空間中占有一小部分。這樣就需要使用稀疏化的方法從大量的特征中訓(xùn)練出有用的特征?;诮M稀疏化的方法就被大量用于這類問題。但是這個(gè)方法也有缺陷,在面對(duì)大規(guī)模問題的時(shí)候不能很好的表示出基因序列的結(jié)構(gòu)特征。比如對(duì)于一個(gè)基因序列長(zhǎng)度為90的數(shù)據(jù)集進(jìn)行分類,如果用全部1,2,3階模板的稀疏化表示,那么特征空間的維度大約是七百五十萬維。這樣大的特征空間用計(jì)算機(jī)處理就會(huì)比較吃力。更進(jìn)一步,對(duì)于一個(gè)長(zhǎng)度是90的基因序列,使用3階模板并不夠,想要表示更多的基因序列的結(jié)構(gòu)信息,需要4階,5階,甚至更高的模板。但就這個(gè)問題來說,使用1,2,3,4階模板會(huì)讓特征空間增大到大約六億六千萬,這就很難使用甚至不能使用計(jì)算機(jī)來處理了。在組與組之間建立有向無環(huán)圖可以讓大的模板通過小的模板來表示,大的模板的結(jié)構(gòu)信息可以通過小模板與小模板(組與組)之間的關(guān)系圖結(jié)構(gòu)來表示,比如把兩個(gè)2階的模板用一條邊連接起來,就可以代替一個(gè)4階的大模板。這樣可以大大降低表達(dá)相似結(jié)構(gòu)特征所需要的維度。同時(shí),組與組之間規(guī)模差距大導(dǎo)致的分類精度降低的問題也可以通過建立組之間的有向無環(huán)圖來解決。
【發(fā)明內(nèi)容】
[0003]發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于組和圖稀疏化的基因序列分類方法。
[0004]為了解決上述技術(shù)問題,本發(fā)明公開了一種基于組和圖稀疏化的基因序列分類方法,包括以下步驟:
[0005]步驟一,對(duì)基因序列的特征空間進(jìn)行分組:用稀疏表示的方法把訓(xùn)練集中每一個(gè)基因序列表示為向量構(gòu)成特征空間,向量的每一維代表特征空間中的一個(gè)特征,并且把整個(gè)特征空間劃分成互不相交的兩個(gè)以上的組,每一個(gè)基因序列包括一個(gè)類標(biāo);
[0006]步驟二,在兩個(gè)以上的組之間建立一個(gè)有向無環(huán)圖,并且為有向無環(huán)圖上的每一條邊給定一個(gè)代價(jià)值;
[0007]步驟三,利用基于組和圖稀疏化的邏輯回歸分類器模型為基因序列分類。
[0008]步驟一包括以下步驟:
[0009]對(duì)于訓(xùn)練集中的基因序列Clj=C1, C2,…Cjj...,ck,其中Cjj e {A, C,G, T}為基因序列dj中的第j j個(gè)堿基,A為腺嘌呤、G為鳥嘌呤、T為胸腺嘧啶、C為胞嘧啶,jj=l, 2,…k,k表示基因序列4的總長(zhǎng)度;例如,一個(gè)長(zhǎng)度為7的序列AAGATTG,這里k=7?;蛐蛄械南∈璞硎痉椒ㄊ歉鶕?jù)堿基的模板的實(shí)例來表示的,。堿基的模板是由堿基的位置{1,2,…,k}組成的。根據(jù)組成模板的位置的個(gè)數(shù),模板分為不同的階數(shù)。一個(gè)η階的模板是由{l,2,一,k}中η個(gè)不同的位置組成的,所以對(duì)于長(zhǎng)度為k的序列,η階模板的個(gè)數(shù)就是從k個(gè)里面選擇η個(gè)的組合數(shù)。模板的實(shí)例是該模板下可能的堿基序列。每一個(gè)實(shí)例表示一個(gè)特征,所有模板的所有實(shí)例組成整個(gè)特征空間。比如對(duì)于一個(gè)2階模板{1,3},指的就是基因序列中第一個(gè)位置和第三個(gè)位置,根據(jù)上面的敘述,每一個(gè)位置有四種可能的堿基(Α,C,G,T)。所以,對(duì)于這個(gè) 2 階模板的實(shí)例,總共有 42=16 個(gè)(AA,AC,AG,AT,CA,CC, CG, CT, GA, GC, GG, GT, TA,TC,TG, TT),也就是特征空間中的16個(gè)特征。對(duì)于基因序列dp特征空間中的一個(gè)特征如果出現(xiàn)在基因序列4中,則將這個(gè)特征對(duì)應(yīng)的向量中的維度記為1,否則為O ;由此基因序列dj的稀疏表示的向量形式Xj為:
[0010]Xj= (w1;J, w2; j,..., wm;J),
[0011]m表示特征空間的總數(shù),Wi,j表示特征的值,i e {1,2,……m},i表示特征的序號(hào),wi;J表示對(duì)應(yīng)的特征是否存在于基因序列中。
[0012]步驟一包括以下步驟:
[0013]根據(jù)模板來對(duì)特征空間中的特征進(jìn)行分組,把特征空間劃分成互不相交的組;
[0014]所述模板是由堿基的位置組成的,也就是集合{1,2,...Λ}中的元素組成的;根據(jù)組成模板的位置的個(gè)數(shù),模板分為對(duì)應(yīng)的階數(shù);一個(gè)η階的模板是由{l,2,一,k}中η個(gè)不同的位置組成的,η的取值范圍是KnSk的整數(shù),對(duì)于長(zhǎng)度為k的基因序列,η階模板的個(gè)數(shù)就是從k個(gè)里面選擇η個(gè)的組合數(shù);模板的實(shí)例是該模板下所有可能組合的堿基序列;每一個(gè)實(shí)例表示一個(gè)特征,所有模板的所有實(shí)例組成整個(gè)特征空間;模板的個(gè)數(shù)由下面的公式來計(jì)算:
[0015]0 + 0+…+ Cf`[0016]其中nt表示一個(gè)正整數(shù),表示使用的模板中的最大的階數(shù),nt的取值范圍是
[0017]I ^ nt ^ k的整數(shù);比如對(duì)于一個(gè)長(zhǎng)度為7的基因序列,用所有的1,2,3階模板的實(shí)例來作為特征,m=7 X 4+21 X 16+35 X 64=2604。
[0018]一個(gè)模板下的全部實(shí)例對(duì)應(yīng)的特征組成一個(gè)組,把特征空間劃分為互不相交的兩個(gè)以上組,組的數(shù)目與模板數(shù)目相同。[0019]特征空間中的劃分記為Ji=^1,…,Bi1...,Β,},π表示所有組的集合,q表示組的個(gè)數(shù),ii表示組號(hào),Bii表示特征空間I= {1,2,..., m}上的一個(gè)子集,也就是一個(gè)組,I表示
特征空間上的特征的序號(hào)的集合,并且滿足條件J = IJA表示所有組的并集組成全部特
征空間,5其0, V5 E ; ,表示每個(gè)組都是非空集合,
【權(quán)利要求】
1.一種基于組和圖稀疏化的基因序列分類方法,其特征在于,包括以下步驟: 步驟一,對(duì)基因序列的特征空間進(jìn)行分組:用稀疏表示的方法把訓(xùn)練集中每一個(gè)基因序列表示為向量構(gòu)成特征空間,向量的每一維代表特征空間中的一個(gè)特征,并且把整個(gè)特征空間劃分成互不相交的兩個(gè)以上的組,每一個(gè)基因序列包括一個(gè)類標(biāo); 步驟二,在兩個(gè)以上的組之間建立一個(gè)有向無環(huán)圖,并且為有向無環(huán)圖上的每一條邊給定一個(gè)代價(jià)值; 步驟三,利用基于組和圖稀疏化的邏輯回歸分類器模型為基因序列分類。
2.根據(jù)權(quán)利要求1中所述的方法,其特征在于,步驟一包括以下步驟: 對(duì)于訓(xùn)練集中的基因序列Clj=C1, C2,…Cjj...,ck,其中Cjj=)A,C,G, T}為基因序列Clj中的第jj個(gè)堿基,A為腺嘌呤、G為鳥嘌呤、T為胸腺嘧啶、C為胞嘧啶,jj=l, 2,…k,k表示基因序列4的總長(zhǎng)度;對(duì)于基因序列dp特征空間中的一個(gè)特征如果出現(xiàn)在基因序列4中,則將這個(gè)特征對(duì)應(yīng)的向量中的維度記為1,否則為O ;由此基因序列4的稀疏表示的向量形式Xj為:
Xj- (W1, P W2, P..., wm’ j), m表示特征空間的總數(shù),Wu表示特征的值,i e {I, 2,......m}, i表示特征的序號(hào),Wi,」表示對(duì)應(yīng)的特征是否存在于基因序列中。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟一包括以下步驟: 根據(jù)模板來對(duì)特征空間中的特征進(jìn)行分組,把特征空間劃分成互不相交的組; 所述模板是由堿基的位置組成的,也就是集合U,2,...,k}中的元素組成的;根據(jù)組成模板的位置的個(gè)數(shù),模板分為對(duì)應(yīng)的階數(shù);一個(gè)η階的模板是由{l,2,一,k}中η個(gè)不同的位置組成的,η的取值范圍是KnSk的整數(shù),對(duì)于長(zhǎng)度為k的基因序列,η階模板的個(gè)數(shù)就是從k個(gè)里面選擇η個(gè)的組合數(shù);模板的實(shí)例是該模板下所有可能組合的堿基序列;每一個(gè)實(shí)例表示一個(gè)特征,所有模板的所有實(shí)例組成整個(gè)特征空間;模板的個(gè)數(shù)由下面的公式來計(jì)算: CK+…+ Cf 其中nt表示一個(gè)正整數(shù),表示使用的模板中的最大的階數(shù),nt的取值范圍是I ^ nt ^ k的整數(shù); 一個(gè)模板下的全部實(shí)例對(duì)應(yīng)的特征組成一個(gè)組,把特征空間劃分為互不相交的兩個(gè)以上組,組的數(shù)目與模板數(shù)目相同; 特征空間中的劃分記為Ji=^1,…,Bi1..., B,},π表示所有組的集合,q表示組的個(gè)數(shù),ii表示組號(hào),Bii表示特征空間1={1,2,...,m}上的一個(gè)子集,也就是一個(gè)組,I表示特征空間上的特征的序號(hào)的集合,并且滿足條件:7= U ^,BHB' = 0,yB,B'B',
4.根據(jù)權(quán)利要求1中所述的方法,其特征在于,步驟二包括以下步驟: 在組與組之間建立一個(gè)有向無環(huán)圖G=(V,E),V表示圖的節(jié)點(diǎn)集合,圖上的每一個(gè)節(jié)點(diǎn)代表一個(gè)組,E表不圖的邊集。
5.根據(jù)權(quán)利要求4中所述的方法,其特征在于,步驟三包括以下步驟:根據(jù)基于組和圖稀疏化邏輯回歸分類器的目標(biāo)函數(shù):
6.根據(jù)權(quán)利要求5中所述的方法,其特征在于,步驟三包括以下步驟: 對(duì)于一個(gè)輸入基因序列d,根據(jù)步驟一轉(zhuǎn)化為向量形式X后,根據(jù)分類器模型y= V τχ判斷基因序列的類別; 如果y>0,則為正類; 如果y〈0,則為負(fù)類。
【文檔編號(hào)】G06F19/24GK103473484SQ201310464401
【公開日】2013年12月25日 申請(qǐng)日期:2013年9月30日 優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】戴新宇, 付強(qiáng) 申請(qǐng)人:南京大學(xué)