基因聚類程序、基因聚類方法及基因聚類分析裝置的制作方法

文檔序號(hào)：6595612閱讀：287來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基因聚類程序、基因聚類方法及基因聚類分析裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及基因聚類程序、基因聚類方法及基因聚類分析裝置。更具體地，本發(fā)明涉及能夠基于基因表達(dá)量隨時(shí)間變化的相似性將每個(gè)基因歸類為特定簇的基因聚類程序等。
背景技術(shù)：
在系統(tǒng)生物學(xué)的領(lǐng)域中，已經(jīng)開(kāi)始嘗試基于基因表達(dá)量、基因定位和基因活性隨時(shí)間變化的測(cè)量數(shù)據(jù)對(duì)由基因形成的細(xì)胞內(nèi)信號(hào)網(wǎng)絡(luò)進(jìn)行解釋。細(xì)胞內(nèi)信號(hào)網(wǎng)絡(luò)由動(dòng)態(tài)變化的層次網(wǎng)絡(luò)體系結(jié)構(gòu)構(gòu)成。近來(lái)已經(jīng)有人提出了將 “蝴蝶結(jié)信號(hào)網(wǎng)絡(luò)”作為構(gòu)成細(xì)胞內(nèi)信號(hào)網(wǎng)絡(luò)的一種基本網(wǎng)絡(luò)體系結(jié)構(gòu)(非專利文獻(xiàn)1和非專利文獻(xiàn)2)。蝴蝶結(jié)信號(hào)網(wǎng)絡(luò)(以下簡(jiǎn)稱為“蝴蝶結(jié)網(wǎng)絡(luò)”)具有好比蝴蝶結(jié)的網(wǎng)絡(luò)體系結(jié)構(gòu)，蝴蝶結(jié)的結(jié)被想象成作為分類器的核分子，用于調(diào)節(jié)細(xì)胞對(duì)刺激物的免疫反應(yīng)。也就是說(shuō)，在蝴蝶結(jié)網(wǎng)絡(luò)中，細(xì)胞內(nèi)和細(xì)胞間信號(hào)轉(zhuǎn)導(dǎo)的各種輸入聚集到置于結(jié)中的核分子中。于是，核分子的細(xì)胞內(nèi)濃度隨著輸入而發(fā)生改變，以根據(jù)濃度而激活位于信號(hào)下游的特定基因簇，從而表達(dá)特定的輸出。已經(jīng)報(bào)道了蝴蝶結(jié)網(wǎng)絡(luò)可用于免疫細(xì)胞之間的信號(hào)轉(zhuǎn)導(dǎo)、代謝信號(hào)轉(zhuǎn)導(dǎo)(非專利文獻(xiàn)1)、toll樣受體信號(hào)轉(zhuǎn)導(dǎo)(非專利文獻(xiàn)i)和上皮生長(zhǎng)因子信號(hào)轉(zhuǎn)導(dǎo)(非專利文獻(xiàn) 3)。已經(jīng)研究了，蝴蝶結(jié)網(wǎng)絡(luò)是一種卓越的網(wǎng)絡(luò)體系結(jié)構(gòu)，其堅(jiān)固且具有用于進(jìn)化的靈活性 (非專利文獻(xiàn)4和非專利文獻(xiàn)5)。在蝴蝶結(jié)網(wǎng)絡(luò)中，位于信號(hào)下游的基因基于預(yù)定的核分子的濃度聚類成基因簇。為了基于基因表達(dá)量、基因定位和基因活性隨時(shí)間變化的測(cè)量數(shù)據(jù)來(lái)辨別各個(gè)基因所屬于的簇并分析蝴蝶結(jié)網(wǎng)絡(luò)，需要一種出色幾何工具來(lái)解釋整個(gè)網(wǎng)絡(luò)體系結(jié)構(gòu)從而預(yù)測(cè)簇間的關(guān)系。迄今，已基于k_均值法(非專利文獻(xiàn)6)、層次聚類(非專利文獻(xiàn)7)和自組織映射 (非專利文獻(xiàn)8)研究了這樣的工具。然而，這幾種工具都有只能以一個(gè)步驟進(jìn)行算術(shù)處理的缺點(diǎn)。S卩，由于簇被重疊以形成各數(shù)據(jù)要素的層級(jí)，所以層次聚類只作成不可改變的樹(shù)狀圖。此外，層次聚類基于一對(duì)一的相似性來(lái)聚類基因，因此最終歸到一個(gè)簇的基因可能互相不具有生物學(xué)關(guān)聯(lián)?；谧越M織映射(SOM)的工具(例如“基因簇(GENECLUSTER) ”)在數(shù)據(jù)的初步分析方面尤其出色，但需要為簇?cái)?shù)量的預(yù)測(cè)初始值提前設(shè)定網(wǎng)格大小。傳統(tǒng)的k-均值法同樣需要提前設(shè)定簇?cái)?shù)量，而且可能提供在生物學(xué)上沒(méi)有意義的結(jié)果，因?yàn)榫垲惤Y(jié)果取決于所設(shè)定的數(shù)量?！癎ENEI^attern”(非專利文獻(xiàn)9)通過(guò)橫向整合這些傳統(tǒng)工具而獲得，是目前可用的最有效的工具。但是，它還不具備足夠的性能來(lái)基于例如用來(lái)解釋蝴蝶結(jié)網(wǎng)絡(luò)的基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)正確地對(duì)每個(gè)基因進(jìn)行聚類。
__專禾1J文獻(xiàn) 1 :"The Edinburghhuman metabolic network reconstruction and its functional analysis，，，Molecular System Biology, 2007 ;3 :135。非專利文獻(xiàn) 2:“A comprehensive map of the toll-like receptor signaling network",Molecular System Biology, 2006 ；2 :2006. 0015。非專利文獻(xiàn) 3:“A comprehensive pathway map of epidermal growth factor receptor signaling，，，Molecular System Biology, 2005 ； 1 :2005. 0010。非專利文獻(xiàn) 4 :"Bow ties, metabolism and disease，，，Trends in Biotechnology, 2004 ；22 (9) 446-50 # # ^lJ i K 5 :"Biological robustness", Nature Reviews Genetics, 2004 ； 5(11) :826-37o非專利文獻(xiàn) 6 "‘Systematic determination of genetic network architecture", Nature Genetics,1999 ；22(3) :281_285。__專禾U文獻(xiàn) 7 !"Cluster analysis and display of genome-wide expression patterns，，, Proceeding of National Academy of Sciences, 1998 ；95 (25) : 14863-14868。非專禾丨J 文獻(xiàn) 8 ‘‘ Interpreting patterns of gene expression with self-organizing maps :Methods and application to hematopoietic differentiation", Proceeding of National Academy of Sciences,1999 ；96 (6) 2907-2912。非專利文獻(xiàn) 9 :"GenePattern 2. 0”，Nature Genetics, 2006 ；38 :500_501。

發(fā)明內(nèi)容
本發(fā)明要解決的問(wèn)題因此，本發(fā)明的主要目的是提供基因聚類工具，其無(wú)需先驗(yàn)數(shù)據(jù)預(yù)測(cè)，就能夠基于基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)進(jìn)行高精度的基因聚類。解決問(wèn)題的方法鑒于上述問(wèn)題，本發(fā)明提供了一種基因聚類程序，用于至少執(zhí)行以下步驟步驟 (1)，基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值；步驟0)，基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量；步驟(3)，在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ；以及步驟(4)，基于布爾矩陣N聚類數(shù)據(jù)。在該基因聚類程序中，在步驟中，通過(guò)線性回歸分析或小波變換基于數(shù)據(jù)計(jì)算特征值。在步驟O)中，用核方法或余弦相似性基于特征值計(jì)算本征向量。此外，在步驟(3)中，用對(duì)稱最近鄰濾波(FSNN)算法將相似性矩陣M轉(zhuǎn)換成布爾矩陣N。而且，在步驟(3)中，在用FSNN算法進(jìn)行轉(zhuǎn)換后，通過(guò)圖形拉普拉斯(graph Laplacian)、馬爾科夫鏈(Markov chain)、雙隨機(jī)近似(DSA)算法或雙隨機(jī)尺度(DSQ算法中的任一種將矩陣標(biāo)準(zhǔn)化。在該基因聚類程序中，在步驟中，通過(guò)最大期望(EM)算法和完全正分解(CP)算法進(jìn)行軟聚類。而且，在步驟(4)中，在軟聚類后用布萊格曼-亞瑟-瓦斯?fàn)柧S斯基初始化(Breg man-Arthur-Vassilvitskiiinitialization, BAV)算法進(jìn)行硬聚類。本發(fā)明還提供了一種記錄計(jì)算機(jī)可讀的基因聚類程序的記錄介質(zhì)。本發(fā)明還提供了一種基因聚類方法，至少包括以下步驟步驟(1)，基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值；步驟O)，基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量；步驟(3)，在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ；以及步驟(4)，基于布爾矩陣N聚類數(shù)據(jù)。此外，本發(fā)明還提供了一種基因聚類分析裝置，至少包括裝置(1)，用于基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值；裝置O)，用于基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量；裝置(3)，用于在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ；以及裝置(4)，用于基于布爾矩陣N聚類數(shù)據(jù)。本發(fā)明的效果本發(fā)明提供了基因聚類工具，其無(wú)需先驗(yàn)數(shù)據(jù)預(yù)測(cè)，就能夠基于基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)進(jìn)行高精度的基因聚類。

圖1是示出了根據(jù)本發(fā)明的基因聚類程序中的處理步驟的流程圖。圖2是示出了表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)實(shí)例的示圖，該數(shù)據(jù)由根據(jù)本發(fā)明的基因聚類程序進(jìn)行處理。圖3是示出了通過(guò)小波變換進(jìn)行數(shù)據(jù)處理的概念圖。圖4是示出了用于創(chuàng)建基因表達(dá)量隨時(shí)間變化的直方圖的方法的概念圖。圖5是示出了計(jì)算特征值的步驟前后數(shù)據(jù)維數(shù)變化的概念圖。圖6是示出了基因i的對(duì)稱最近鄰的概念圖。圖7是示出了從相似性矩陣M到布爾矩陣N的轉(zhuǎn)換過(guò)程的概念圖。圖8是示出了布爾矩陣和DSS矩陣的概念圖。圖9是示出了直到在根據(jù)本發(fā)明的基因聚類程序中獲得最終聚類結(jié)果的過(guò)程中的數(shù)據(jù)處理的概念圖。圖10是示出了根據(jù)本發(fā)明的基因聚類分析裝置的構(gòu)造實(shí)例的框圖。
具體實(shí)施例方式根據(jù)本發(fā)明的基因聚類方法至少執(zhí)行以下步驟步驟(1)，基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值；步驟O)，基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量；步驟(3)，在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N;以及步驟G)，基于布爾矩陣N聚類數(shù)據(jù)。以下將對(duì)每個(gè)步驟逐一進(jìn)行描述。1.特征值的計(jì)算該步驟相當(dāng)于“基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值”的步驟⑴(見(jiàn)圖1中的Si)首先，通過(guò)線性回歸分析或小波變換(哈爾小波變換(Haar wavelet transform) 或多貝西小波變換(Daubechies wavelet transform))，利用D4-20尺度函數(shù)系數(shù)基于表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值。圖2示出了表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)的實(shí)例。所示數(shù)據(jù)是對(duì)三個(gè)基因a、b、c在四個(gè)時(shí)間點(diǎn)1、2、3、4測(cè)量到的表達(dá)量。線性回歸分析是用于對(duì)表示表達(dá)量變化的變化曲線進(jìn)行比較的簡(jiǎn)單方法。而小波變換能夠收集一定時(shí)間內(nèi)變化曲線的所有信息。因此，小波變換甚至能夠分析只在某個(gè)時(shí)間點(diǎn)提供表達(dá)數(shù)據(jù)的基因，而這在傳統(tǒng)分析方法中會(huì)因?yàn)闇y(cè)量數(shù)據(jù)不完整從分析中被排除。圖3示出了通過(guò)小波(哈爾小波變換)變換進(jìn)行數(shù)據(jù)處理的概念圖。在該小波變換中，利用直方圖代替變化曲線對(duì)基因表達(dá)量隨時(shí)間的變化數(shù)據(jù)(在這里，數(shù)據(jù)隨時(shí)間從9、7、3到幻進(jìn)行處理，該直方圖被分解成例如一組四個(gè)的哈爾小波分量(見(jiàn)圖3A)。數(shù)據(jù)用四維形式的平均數(shù)[9，7，3，5]、二維形式的平均數(shù)[8，4]和系數(shù)[1，_1]、一維形式的平均數(shù)[6]和系數(shù)[2]來(lái)表示。因此，通過(guò)一維小波轉(zhuǎn)換數(shù)據(jù)被處理為[6(基)， 2，1，_1(系數(shù))](見(jiàn)圖；3)。小波轉(zhuǎn)換利用直方圖以這種方式對(duì)基因表達(dá)量的變化數(shù)據(jù)進(jìn)行處理，從而能夠用與使用變化曲線處理相比明顯數(shù)量更少的系數(shù)進(jìn)行最恰當(dāng)?shù)臄M合。圖4示出了基于圖1所示表示基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)創(chuàng)建直方圖的方法的概念圖。圖4A中實(shí)線或虛線所示的表達(dá)量變化可以轉(zhuǎn)換成圖4B所示直方圖。在本步驟中，基因表達(dá)量隨時(shí)間的變化數(shù)據(jù)被處理為以該方式轉(zhuǎn)換成的直方圖，而特征值被計(jì)算為如上所述的一組系數(shù)以減少數(shù)據(jù)維數(shù)。圖5示出了本步驟前后數(shù)據(jù)維數(shù)變化的示意圖。2.相似性矩陣本征向量的計(jì)算接著，基于所算出的特征值通過(guò)核(熱核)方法或余弦相似性對(duì)所有基因組合計(jì)算相似性矩陣M(半正定矩陣M)的本征向量。以下，相似性矩陣M簡(jiǎn)稱為“矩陣M”。本步驟相當(dāng)于根據(jù)本發(fā)明的基因聚類程序中“基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量”的步驟O)(見(jiàn)圖1中S2)。(2-1)基于核方法的矩陣M當(dāng)兩個(gè)基因?yàn)閕和j (i和j均是1以上的整數(shù))，通過(guò)核方法在矩陣M中的行i和列j的輸入被定義為式(1)。輸入表示基因i和基因j之間的相似性。[數(shù)學(xué)式1]
權(quán)利要求
1.一種基因聚類程序，用于至少執(zhí)行以下步驟步驟(1)，基于表示基因表達(dá)量隨時(shí)間的變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值；步驟O)，基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量；步驟( ，在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ；以及步驟G)，基于布爾矩陣N聚類數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的基因聚類程序，其中，在所述步驟(1)中，通過(guò)線性回歸分析或小波變換基于所述數(shù)據(jù)計(jì)算所述特征值。
3.根據(jù)權(quán)利要求2所述的基因聚類程序，其中，在所述步驟O)中，利用核方法或余弦相似性基于所述特征值計(jì)算所述本征向量。
4.根據(jù)權(quán)利要求3所述的基因聚類程序，其中，在所述步驟(3)中，通過(guò)對(duì)稱最近鄰濾波(FSNN)算法將相似性矩陣M轉(zhuǎn)換成布爾矩陣N。
5.根據(jù)權(quán)利要求4所述的基因聚類程序，其中，在所述步驟(3)中，在用對(duì)稱最近鄰濾波算法進(jìn)行轉(zhuǎn)換后，通過(guò)圖形拉普拉斯、馬爾科夫鏈、雙隨機(jī)近似(DSA)算法或雙隨機(jī)尺度 (DSS)算法中的任一種將矩陣標(biāo)準(zhǔn)化。
6.根據(jù)權(quán)利要求5所述的基因聚類程序中，其中，在所述步驟中，通過(guò)最大期望 (EM)算法和完全正分解(CP)算法進(jìn)行軟聚類。
7.根據(jù)權(quán)利要求6所述的基因聚類程序中，其中，在所述步驟(4)中，在軟聚類后通過(guò)布萊格曼-亞瑟-瓦斯?fàn)柧S斯基初始化(BAV)算法進(jìn)行硬聚類。
8.—種記錄介質(zhì)，記錄計(jì)算機(jī)可讀的、根據(jù)權(quán)利要求1所述的基因聚類程序。
9.一種基因聚類方法，至少包括以下步驟步驟(1)，基于表示基因表達(dá)量隨時(shí)間的變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值；步驟( ，基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量；步驟( ，在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ；以及步驟G)，基于布爾矩陣N聚類數(shù)據(jù)。
10.一種基因聚類分析裝置，至少包括裝置(1)，用于基于表示基因表達(dá)量隨時(shí)間的變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值；裝置O)，用于基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量；裝置(3)，用于在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N ；以及裝置G)，用于基于布爾矩陣N聚類數(shù)據(jù)。
全文摘要
本發(fā)明要提供一種基因聚類工具，其無(wú)需先驗(yàn)數(shù)據(jù)預(yù)測(cè)，就能夠基于基因表達(dá)量隨時(shí)間變化的數(shù)據(jù)進(jìn)行高精度的基因聚類。本發(fā)明提供了一種基因聚類程序，用于至少執(zhí)行以下步驟步驟S1，基于表示基因表達(dá)量隨時(shí)間的變化的數(shù)據(jù)計(jì)算反映數(shù)據(jù)間相似性的特征值；步驟S2，基于算出的特征值對(duì)所有基因組合計(jì)算相似性矩陣M的本征向量；步驟S3，在保持本征向量的本征值的同時(shí)將相似性矩陣M轉(zhuǎn)換成布爾矩陣N；以及步驟S4，基于布爾矩陣N聚類數(shù)據(jù)。
文檔編號(hào)G06F19/20GK102227731SQ200980147398
公開(kāi)日2011年10月26日申請(qǐng)日期2009年12月1日優(yōu)先權(quán)日2008年12月2日
發(fā)明者北野宏明, 弗蘭克·尼爾森, 理查德·諾克, 納塔利婭·波盧利亞赫申請(qǐng)人:索尼公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：納塔利婭·波盧利亞赫
技術(shù)所有人：索尼公司
我是此專利的發(fā)明人

上一篇：廣告系統(tǒng)和方法
上一篇：成像領(lǐng)域中的改進(jìn)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

差異表達(dá)基因聚類分析相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基因聚類程序、基因聚類方法及基因聚類分析裝置的制作方法

基因聚類程序、基因聚類方法及基因聚類分析裝置的制作方法