專利名稱:基因聚類程序、基因聚類方法及基因聚類分析裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及基因聚類程序、基因聚類方法及基因聚類分析裝置。更具體地,本發(fā)明涉及能夠基于基因表達(dá)量隨時(shí)間變化的相似性將每個(gè)基因歸類為特定簇的基因聚類程序等。
背景技術(shù):
在系統(tǒng)生物學(xué)的領(lǐng)域中,已經(jīng)開(kāi)始嘗試基于基因表達(dá)量、基因定位和基因活性隨時(shí)間變化的測(cè)量數(shù)據(jù)對(duì)由基因形成的細(xì)胞內(nèi)信號(hào)網(wǎng)絡(luò)進(jìn)行解釋。細(xì)胞內(nèi)信號(hào)網(wǎng)絡(luò)由動(dòng)態(tài)變化的層次網(wǎng)絡(luò)體系結(jié)構(gòu)構(gòu)成。近來(lái)已經(jīng)有人提出了將 “蝴蝶結(jié)信號(hào)網(wǎng)絡(luò)”作為構(gòu)成細(xì)胞內(nèi)信號(hào)網(wǎng)絡(luò)的一種基本網(wǎng)絡(luò)體系結(jié)構(gòu)(非專利文獻(xiàn)1和非專利文獻(xiàn)2)。蝴蝶結(jié)信號(hào)網(wǎng)絡(luò)(以下簡(jiǎn)稱為“蝴蝶結(jié)網(wǎng)絡(luò)”)具有好比蝴蝶結(jié)的網(wǎng)絡(luò)體系結(jié)構(gòu), 蝴蝶結(jié)的結(jié)被想象成作為分類器的核分子,用于調(diào)節(jié)細(xì)胞對(duì)刺激物的免疫反應(yīng)。也就是說(shuō), 在蝴蝶結(jié)網(wǎng)絡(luò)中,細(xì)胞內(nèi)和細(xì)胞間信號(hào)轉(zhuǎn)導(dǎo)的各種輸入聚集到置于結(jié)中的核分子中。于是, 核分子的細(xì)胞內(nèi)濃度隨著輸入而發(fā)生改變,以根據(jù)濃度而激活位于信號(hào)下游的特定基因簇,從而表達(dá)特定的輸出。已經(jīng)報(bào)道了蝴蝶結(jié)網(wǎng)絡(luò)可用于免疫細(xì)胞之間的信號(hào)轉(zhuǎn)導(dǎo)、代謝信號(hào)轉(zhuǎn)導(dǎo)(非專利文獻(xiàn)1)、toll樣受體信號(hào)轉(zhuǎn)導(dǎo)(非專利文獻(xiàn)i)和上皮生長(zhǎng)因子信號(hào)轉(zhuǎn)導(dǎo)(非專利文獻(xiàn) 3)。已經(jīng)研究了,蝴蝶結(jié)網(wǎng)絡(luò)是一種卓越的網(wǎng)絡(luò)體系結(jié)構(gòu),其堅(jiān)固且具有用于進(jìn)化的靈活性 (非專利文獻(xiàn)4和非專利文獻(xiàn)5)。在蝴蝶結(jié)網(wǎng)絡(luò)中,位于信號(hào)下游的基因基于預(yù)定的核分子的濃度聚類成基因簇。 為了基于基因表達(dá)量、基因定位和基因活性隨時(shí)間變化的測(cè)量數(shù)據(jù)來(lái)辨別各個(gè)基因所屬于的簇并分析蝴蝶結(jié)網(wǎng)絡(luò),需要一種出色幾何工具來(lái)解釋整個(gè)網(wǎng)絡(luò)體系結(jié)構(gòu)從而預(yù)測(cè)簇間的關(guān)系。迄今,已基于k_均值法(非專利文獻(xiàn)6)、層次聚類(非專利文獻(xiàn)7)和自組織映射 (非專利文獻(xiàn)8)研究了這樣的工具。然而,這幾種工具都有只能以一個(gè)步驟進(jìn)行算術(shù)處理的缺點(diǎn)。S卩,由于簇被重疊以形成各數(shù)據(jù)要素的層級(jí),所以層次聚類只作成不可改變的樹(shù)狀圖。此外,層次聚類基于一對(duì)一的相似性來(lái)聚類基因,因此最終歸到一個(gè)簇的基因可能互相不具有生物學(xué)關(guān)聯(lián)?;谧越M織映射(SOM)的工具(例如“基因簇(GENECLUSTER) ”)在數(shù)據(jù)的初步分析方面尤其出色,但需要為簇?cái)?shù)量的預(yù)測(cè)初始值提前設(shè)定網(wǎng)格大小。傳統(tǒng)的k-均值法同樣需要提前設(shè)定簇?cái)?shù)量,而且可能提供在生物學(xué)上沒(méi)有意義的結(jié)果,因?yàn)榫垲惤Y(jié)果取決于所設(shè)定的數(shù)量?!癎ENEI^attern”(非專利文獻(xiàn)9)通過(guò)橫向整合這些傳統(tǒng)工具而獲得,是目前可用的最有效的工具。但是,它還不具備足夠的性能來(lái)基于例如用來(lái)解釋蝴蝶結(jié)網(wǎng)絡(luò)的基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)正確地對(duì)每個(gè)基因進(jìn)行聚類。
__專禾1J文獻(xiàn) 1 :"The Edinburghhuman metabolic network reconstruction and its functional analysis,,,Molecular System Biology, 2007 ;3 :135。非專利文獻(xiàn) 2:“A comprehensive map of the toll-like receptor signaling network",Molecular System Biology, 2006 ;2 :2006. 0015。非專利文獻(xiàn) 3:“A comprehensive pathway map of epidermal growth factor receptor signaling,,,Molecular System Biology, 2005 ; 1 :2005. 0010。非專利文獻(xiàn) 4 :"Bow ties, metabolism and disease,,,Trends in Biotechnology, 2004 ;22 (9) 446-50 # # ^lJ i K 5 :"Biological robustness", Nature Reviews Genetics, 2004 ; 5(11) :826-37o非專利文獻(xiàn) 6 "‘Systematic determination of genetic network architecture", Nature Genetics,1999 ;22(3) :281_285。__專禾U文獻(xiàn) 7 !"Cluster analysis and display of genome-wide expression patterns,,, Proceeding of National Academy of Sciences, 1998 ;95 (25) : 14863-14868。非專禾丨J 文獻(xiàn) 8 ‘‘ Interpreting patterns of gene expression with self-organizing maps :Methods and application to hematopoietic differentiation", Proceeding of National Academy of Sciences,1999 ;96 (6) 2907-2912。非專利文獻(xiàn) 9 :"GenePattern 2. 0”,Nature Genetics, 2006 ;38 :500_501。
發(fā)明內(nèi)容
本發(fā)明要解決的問(wèn)題因此,本發(fā)明的主要目的是提供基因聚類工具,其無(wú)需先驗(yàn)數(shù)據(jù)預(yù)測(cè),就能夠基于基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)進(jìn)行高精度的基因聚類。解決問(wèn)題的方法鑒于上述問(wèn)題,本發(fā)明提供了一種基因聚類程序,用于至少執(zhí)行以下步驟步驟 (1),基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值;步驟0), 基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量;步驟(3),在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ;以及步驟(4),基于布爾矩陣N聚類數(shù)據(jù)。在該基因聚類程序中,在步驟中,通過(guò)線性回歸分析或小波變換基于數(shù)據(jù)計(jì)算特征值。在步驟O)中,用核方法或余弦相似性基于特征值計(jì)算本征向量。此外,在步驟(3)中,用對(duì)稱最近鄰濾波(FSNN)算法將相似性矩陣M轉(zhuǎn)換成布爾矩陣N。而且,在步驟(3)中,在用FSNN算法進(jìn)行轉(zhuǎn)換后,通過(guò)圖形拉普拉斯(graph Laplacian)、馬爾科夫鏈(Markov chain)、雙隨機(jī)近似(DSA)算法或雙隨機(jī)尺度(DSQ算法中的任一種將矩陣標(biāo)準(zhǔn)化。在該基因聚類程序中,在步驟中,通過(guò)最大期望(EM)算法和完全正分解(CP)算法進(jìn)行軟聚類。而且,在步驟(4)中,在軟聚類后用布萊格曼-亞瑟-瓦斯?fàn)柧S斯基初始化(Breg man-Arthur-Vassilvitskiiinitialization, BAV)算法進(jìn)行硬聚類。本發(fā)明還提供了一種記錄計(jì)算機(jī)可讀的基因聚類程序的記錄介質(zhì)。本發(fā)明還提供了一種基因聚類方法,至少包括以下步驟步驟(1),基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值;步驟O),基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量;步驟(3),在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ;以及步驟(4),基于布爾矩陣N聚類數(shù)據(jù)。此外,本發(fā)明還提供了一種基因聚類分析裝置,至少包括裝置(1),用于基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值;裝置O),用于基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量;裝置(3),用于在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ;以及裝置(4),用于基于布爾矩陣N聚類數(shù)據(jù)。本發(fā)明的效果本發(fā)明提供了基因聚類工具,其無(wú)需先驗(yàn)數(shù)據(jù)預(yù)測(cè),就能夠基于基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)進(jìn)行高精度的基因聚類。
圖1是示出了根據(jù)本發(fā)明的基因聚類程序中的處理步驟的流程圖。圖2是示出了表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)實(shí)例的示圖,該數(shù)據(jù)由根據(jù)本發(fā)明的基因聚類程序進(jìn)行處理。圖3是示出了通過(guò)小波變換進(jìn)行數(shù)據(jù)處理的概念圖。圖4是示出了用于創(chuàng)建基因表達(dá)量隨時(shí)間變化的直方圖的方法的概念圖。圖5是示出了計(jì)算特征值的步驟前后數(shù)據(jù)維數(shù)變化的概念圖。圖6是示出了基因i的對(duì)稱最近鄰的概念圖。圖7是示出了從相似性矩陣M到布爾矩陣N的轉(zhuǎn)換過(guò)程的概念圖。圖8是示出了布爾矩陣和DSS矩陣的概念圖。圖9是示出了直到在根據(jù)本發(fā)明的基因聚類程序中獲得最終聚類結(jié)果的過(guò)程中的數(shù)據(jù)處理的概念圖。圖10是示出了根據(jù)本發(fā)明的基因聚類分析裝置的構(gòu)造實(shí)例的框圖。
具體實(shí)施例方式根據(jù)本發(fā)明的基因聚類方法至少執(zhí)行以下步驟步驟(1),基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值;步驟O),基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量;步驟(3),在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N;以及步驟G),基于布爾矩陣N聚類數(shù)據(jù)。以下將對(duì)每個(gè)步驟逐一進(jìn)行描述。1.特征值的計(jì)算該步驟相當(dāng)于“基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值”的步驟⑴(見(jiàn)圖1中的Si)首先,通過(guò)線性回歸分析或小波變換(哈爾小波變換(Haar wavelet transform) 或多貝西小波變換(Daubechies wavelet transform)),利用D4-20尺度函數(shù)系數(shù)基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值。圖2示出了表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)的實(shí)例。所示數(shù)據(jù)是對(duì)三個(gè)基因a、b、c在四個(gè)時(shí)間點(diǎn)1、2、3、4測(cè)量到的表達(dá)量。線性回歸分析是用于對(duì)表示表達(dá)量變化的變化曲線進(jìn)行比較的簡(jiǎn)單方法。而小波變換能夠收集一定時(shí)間內(nèi)變化曲線的所有信息。因此,小波變換甚至能夠分析只在某個(gè)時(shí)間點(diǎn)提供表達(dá)數(shù)據(jù)的基因,而這在傳統(tǒng)分析方法中會(huì)因?yàn)闇y(cè)量數(shù)據(jù)不完整從分析中被排除。圖3示出了通過(guò)小波(哈爾小波變換)變換進(jìn)行數(shù)據(jù)處理的概念圖。在該小波變換中,利用直方圖代替變化曲線對(duì)基因表達(dá)量隨時(shí)間的變化數(shù)據(jù)(在這里,數(shù)據(jù)隨時(shí)間從9、7、3到幻進(jìn)行處理,該直方圖被分解成例如一組四個(gè)的哈爾小波分量(見(jiàn)圖3A)。數(shù)據(jù)用四維形式的平均數(shù)[9,7,3,5]、二維形式的平均數(shù)[8,4]和系數(shù)[1,_1]、一維形式的平均數(shù)[6]和系數(shù)[2]來(lái)表示。因此,通過(guò)一維小波轉(zhuǎn)換數(shù)據(jù)被處理為[6(基), 2,1,_1(系數(shù))](見(jiàn)圖;3)。小波轉(zhuǎn)換利用直方圖以這種方式對(duì)基因表達(dá)量的變化數(shù)據(jù)進(jìn)行處理,從而能夠用與使用變化曲線處理相比明顯數(shù)量更少的系數(shù)進(jìn)行最恰當(dāng)?shù)臄M合。圖4示出了基于圖1所示表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)創(chuàng)建直方圖的方法的概念圖。圖4A中實(shí)線或虛線所示的表達(dá)量變化可以轉(zhuǎn)換成圖4B所示直方圖。在本步驟中,基因表達(dá)量隨時(shí)間的變化數(shù)據(jù)被處理為以該方式轉(zhuǎn)換成的直方圖, 而特征值被計(jì)算為如上所述的一組系數(shù)以減少數(shù)據(jù)維數(shù)。圖5示出了本步驟前后數(shù)據(jù)維數(shù)變化的示意圖。2.相似性矩陣本征向量的計(jì)算接著,基于所算出的特征值通過(guò)核(熱核)方法或余弦相似性對(duì)所有基因組合計(jì)算相似性矩陣M(半正定矩陣M)的本征向量。以下,相似性矩陣M簡(jiǎn)稱為“矩陣M”。本步驟相當(dāng)于根據(jù)本發(fā)明的基因聚類程序中“基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量”的步驟O)(見(jiàn)圖1中S2)。(2-1)基于核方法的矩陣M當(dāng)兩個(gè)基因?yàn)閕和j (i和j均是1以上的整數(shù)),通過(guò)核方法在矩陣M中的行i和列j的輸入被定義為式(1)。輸入表示基因i和基因j之間的相似性。[數(shù)學(xué)式1]
權(quán)利要求
1.一種基因聚類程序,用于至少執(zhí)行以下步驟步驟(1),基于表示基因表達(dá)量隨時(shí)間的變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值;步驟O),基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量; 步驟( ,在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ;以及步驟G),基于布爾矩陣N聚類數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的基因聚類程序,其中,在所述步驟(1)中,通過(guò)線性回歸分析或小波變換基于所述數(shù)據(jù)計(jì)算所述特征值。
3.根據(jù)權(quán)利要求2所述的基因聚類程序,其中,在所述步驟O)中,利用核方法或余弦相似性基于所述特征值計(jì)算所述本征向量。
4.根據(jù)權(quán)利要求3所述的基因聚類程序,其中,在所述步驟(3)中,通過(guò)對(duì)稱最近鄰濾波(FSNN)算法將相似性矩陣M轉(zhuǎn)換成布爾矩陣N。
5.根據(jù)權(quán)利要求4所述的基因聚類程序,其中,在所述步驟(3)中,在用對(duì)稱最近鄰濾波算法進(jìn)行轉(zhuǎn)換后,通過(guò)圖形拉普拉斯、馬爾科夫鏈、雙隨機(jī)近似(DSA)算法或雙隨機(jī)尺度 (DSS)算法中的任一種將矩陣標(biāo)準(zhǔn)化。
6.根據(jù)權(quán)利要求5所述的基因聚類程序中,其中,在所述步驟中,通過(guò)最大期望 (EM)算法和完全正分解(CP)算法進(jìn)行軟聚類。
7.根據(jù)權(quán)利要求6所述的基因聚類程序中,其中,在所述步驟(4)中,在軟聚類后通過(guò)布萊格曼-亞瑟-瓦斯?fàn)柧S斯基初始化(BAV)算法進(jìn)行硬聚類。
8.—種記錄介質(zhì),記錄計(jì)算機(jī)可讀的、根據(jù)權(quán)利要求1所述的基因聚類程序。
9.一種基因聚類方法,至少包括以下步驟步驟(1),基于表示基因表達(dá)量隨時(shí)間的變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值;步驟( ,基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量; 步驟( ,在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ;以及步驟G),基于布爾矩陣N聚類數(shù)據(jù)。
10.一種基因聚類分析裝置,至少包括裝置(1),用于基于表示基因表達(dá)量隨時(shí)間的變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值;裝置O),用于基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量; 裝置(3),用于在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ;以及裝置G),用于基于布爾矩陣N聚類數(shù)據(jù)。
全文摘要
本發(fā)明要提供一種基因聚類工具,其無(wú)需先驗(yàn)數(shù)據(jù)預(yù)測(cè),就能夠基于基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)進(jìn)行高精度的基因聚類。本發(fā)明提供了一種基因聚類程序,用于至少執(zhí)行以下步驟步驟S1,基于表示基因表達(dá)量隨時(shí)間的變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值;步驟S2,基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量;步驟S3,在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N;以及步驟S4,基于布爾矩陣N聚類數(shù)據(jù)。
文檔編號(hào)G06F19/20GK102227731SQ200980147398
公開(kāi)日2011年10月26日 申請(qǐng)日期2009年12月1日 優(yōu)先權(quán)日2008年12月2日
發(fā)明者北野宏明, 弗蘭克·尼爾森, 理查德·諾克, 納塔利婭·波盧利亞赫 申請(qǐng)人:索尼公司