專利名稱:進化聚類算法的制作方法
技術領域:
本發(fā)明涉及從基因庫中選擇候選基因集合,具體地涉及使用聚類和進化計算選擇候選基因。
背景技術:
從微陣列基因表達數據進行聚類和基因選擇已經獲得巨大重要性,因為它們有助于鑒別在導致病態(tài)的特定生物狀況中起關鍵作用的基因。在微陣列取樣中,使RNA樣品與在陣列上的已知的cDNA/寡物探針雜交。通常,使用印跡的微陣列或寡核苷酸微陣列,且使用者可以根據具體實驗需要選擇要印跡的探針。 在寡核苷酸微陣列中,將匹配已知mRNA序列的部分的短DNA寡核苷酸印跡到陣列上。它們產生基因表達的絕對值的估測。在微陣列基因表達數據上運行的聚類算法可以輔助鑒別在某些特定狀況下共調節(jié)的和共表達的基因。由此輔助鑒別可以將實驗樣品分類成患病和正常類別的基因。已經開發(fā)了許多聚類算法,包括κ-均值算法、自組織圖(SOM)算法、分級簇算法、雙簇算法等。聚類算法使用基因表達值的差異來聚類基因。以距離量度(常規(guī)地,Eucledian距離)的方式表達差異,并使用Pearson氏相關系數來計算2個基因之間的相似性。但是,這些類型的距離量度具有一些與特性形狀(profile shape)中的相似性、對異常值的敏感度有關的限制, 此外,必須在最初指定簇的數目。Au 等人在 IEEE/ACM Transactions on Computational Biology and Bioinformatics 2(2), p. 83-101 (2005)中公開的稱作特質聚類算法(ACA)的方法,解決了至少一些這樣的限制。ACA主要使用K-均值算法概念。但是,采用的距離量度是信息理論量度,作為所謂的相互依賴性冗余量度,其考慮了基因之間的相互依賴性。在生物信息學中使用的另一類算法是遺傳算法(GA),它是用于查找對最優(yōu)化問題的真實或近似解決方案的搜索技術。該遺傳算法從一群隨機產生的個體(即可能的解決方案)開始,在查找更好解決方案的過程中進行連續(xù)世代。在每個世代中,群體中的每個個體被修飾,形成新的個體。該算法是一種迭代算法,其在最大世代數目之后結束,或在世代滿足給定的適合度標準時結束。盡管已經發(fā)現許多方法有助于鑒別可以用作給定生物狀況的分類器的候選基因, 本領域仍然需要發(fā)現替代解決方案,以進一步獲得對基于基因數據來理解生物狀況的復雜性的洞察。
發(fā)明內容
本發(fā)明涉及基于基因數據從用于受試者分類的基因庫鑒別候選基因的方法和系統(tǒng)。具體地,本發(fā)明的一個目的是,提供相對于已知解決方案的替代或改進解決方案。為此目的,可以將提供優(yōu)于已知解決方案的鑒別候選基因以將基因數據正確分類成患病和正常類別的解決方案視作本發(fā)明的一個目的。
3
根據本發(fā)明的第一個方面,提供了從基因庫選擇候選基因集合的方法,所述方法包括
-接受基因數據集;
-使用聚類(clustering)算法,將基因數據集安排成具有類似特性的簇(cluster)集合;和
-將所述簇集合輸入遺傳算法,以從簇集合選擇候選基因集合。該方法涉及通過聚類計算進行選擇和通過進化計算進行選擇之間的雜種。該雜種也稱作進化聚類算法(ECA)。由此提供了一種有效的方法,其組合聚類方法和進化方法的長處,以促進含有用于醫(yī)學診斷的最多信息的候選基因的搜索,并從而改善查找在某些狀況下共調節(jié)和共表達的基因的搜索。由此提供了一種替代和改進算法,其可以用于將實驗樣品分類成患病和正常類別。在實施方案中,所述聚類算法采用相互依賴性冗余量度作為距離量度。已經發(fā)現, 該距離量度遇到傳統(tǒng)距離量度的一些限制和問題,例如基于Eucledian/Pearsons氏的距離量度,諸如與簇中基因的偏倚初始分布所產生的限制有關的問題。在實施方案中,將個體集合輸入遺傳算法中,其中每個個體包含個體基因集合,所述個體基因集合如下產生通過將來自基因數據的對應基因分配給索引,并將每個索引的值分配給為該基因所指定的簇。個體基因因而是遺傳算法的傳統(tǒng)基因的延伸,因為簇的層已經添加到基因中。在實施方案中,將最高多相互依賴性冗余的概念用于簇的重分配、適合度評價、突變和候選物選擇。已經證實,遺傳算法的不同元素以最高多相互依賴性冗余的概念為基礎是一個非常有力的概念。根據本發(fā)明的第二個方面,提供了計算機程序產品,當用于計算機上時,其會造成系統(tǒng)執(zhí)行本發(fā)明第一個方面的方法。根據本發(fā)明的第二個方面,提供了用于從基因庫選擇候選基因集合的系統(tǒng),所述系統(tǒng)包括
計算單元,其安排成 -接受基因數據集;
-使用聚類算法,將基因數據集聚類成具有類似特性的簇集合;和 -通過遺傳算法,進化簇集合,以從簇集合選擇候選基因集合。一般而言,可以以在本發(fā)明范圍內可行的任意方式,組合和偶聯(lián)本發(fā)明的不同方面。參考在下文中描述的實施方案闡述了本發(fā)明的這些和其它方面、特征和/或優(yōu)點,且從所述實施方案可以明白后者。
僅作為實施例,參考附圖描述了本發(fā)明的實施方案,在附圖中 圖1解釋了進化聚類算法(ECA)的總流程圖2示意地圖解了突變過程的流程圖3示意地圖解了用于選擇下一代的個體的輪盤(roulette wheel)的實施方案;且圖4A至4C顯示了許多樣品的基因表達值。
實施方式描述
在下面,結合從寡核苷酸微陣列數據得到的基因表達,描述了實施方案。但是,將描述泛化至從任意類型的實驗得到的基因表達,是在技術人員的能力范圍內。在實施例實施方案中,可以從一般的微陣列數據、基于DNA的陣列、有差別的DNA甲基化陣列、在芯片上的染色質免疫沉淀法(ChIP)或甲基化和基因數目變化,得到基因數據。首先,結合圖1-3,在總水平上描述了所述方法,其次,提供了其中將所述方法已經應用于基因數據的實施例。微陣列中的基因表達值通常是連續(xù)的,它們需要離散成適當區(qū)間,用于計算信息量度。通常,所述數據含有來自測量誤差或值錯誤輸入的噪音。噪音可以在離散化結果中產生大量區(qū)間。因為更多的區(qū)間導致更大的信息損失,在數據的離散化中需要考慮這些問題。在一個實施方案中,使用最佳的類依賴性的離散化(OCDD)算法來離散連續(xù)的數據,因為它產生接近總體上最佳的解決方案。Wong等人,“A global optimal algorithm for class dependent discretization of continuous data", Intelligent Data Analysis 8(2),第151-170頁,2004,公開了 0⑶D算法。0⑶D考慮了類和基因表達值之間的相互依賴性,且使信息損失最小化。將類定義為每個樣品所屬的分類。在該背景下,存在2個類——正常的和患病的。為了在處理真實數據過程中防止問題,進行數據的平滑化和統(tǒng)計檢驗,例如卡方檢驗。進行平滑化來去除離散化之前的噪音,進行卡方檢驗來減少區(qū)間的數目。平滑化、卡方檢驗和使用的參數值基本上與在OCDD算法中所述的相同。圖1解釋了本發(fā)明的一個實施方案的總流程圖。本發(fā)明的實施方案的一般算法稱作進化聚類算法(ECA)。在ECA中,接受基因數據集10,用于進一步處理。作為一個預處理步驟,去除在疾病類和非疾病類或正常類方面相似的基因表達數據,以便減少基因表達的數目。步驟1:得到第一代。通過使用聚類算法,將基因表達數據集安排成具有類似表達特性的簇集合,得到第一代。在一個實施方案中,所述聚類算法采用相互依賴性冗余量度作為距離量度。作為合適的聚類算法的一個實例,使用Au等人“Attribute Clustering for Grouping, Selection and Classification of Gene Expression Data" , IEEE/ACM Transactions on Computational and Bioinformatics 2(2) : ρ 83-101,2005 公開的通過互信息聚類 (CMI)的模型。也可以使用其它算法,諸如分級的、萎縮的形心等。采用的遺傳距離量度是稱作相互依賴性冗余量度的信息理論量度。該量度考慮了基因之間的相互依賴性。下式給出了具有η個特質的2個基因χ和y之間的相互依賴性冗余量度
權利要求
1.一種計算機執(zhí)行的從基因庫選擇候選基因集合的方法,所述方法包括-接受(10)基因數據集;-使用聚類算法,將基因數據集安排(1)成具有類似特性的簇集合,其中所述聚類算法使用相互依賴性冗余量度作為距離量度;和-將所述簇集合輸入(11)遺傳算法,以從簇集合選擇候選基因集合,其中在遺傳算法的每個進化中,通過首先確定每個簇中具有最高多相互依賴性冗余的基因,將基因重新分配給簇,并根據具有最高相互依賴性冗余的基因,分配簇的其它基因。
2.根據權利要求1的方法,其中所述基因數據集合包含與疾病狀況和非疾病狀況有關的子集,且其中基因數據集已經經過預處理,以去除在疾病狀況子集中和在非疾病狀況子集中類似的基因數據。
3.根據權利要求1的方法,其中將個體集合輸入遺傳算法,且其中每個個體包含個體基因集合,所述個體基因集合如下產生通過將來自基因數據的對應基因分配給索引,并將每個索引的值分配給為該基因所指定的簇。
4.根據權利要求3的方法,其中基于簇的多相互依賴性冗余,確定個體的適合度。
5.根據權利要求4的方法,其中基于輪盤選擇程序,選擇下一代的個體,其中從每個個體的相對適合度構建輪盤。
6.根據權利要求5的方法,其中選擇候選基因集合作為具有最高適合度的個體。
7.根據權利要求6的方法,其中根據最高多相互依賴性冗余,進一步排序個體的基因。
8.根據權利要求1的計算機執(zhí)行的方法,其中從微陣列數據、基于DNA的陣列、有差別的DNA甲基化陣列、在芯片上的染色質免疫沉淀法(ChIP)或甲基化和基因數目變化,得到基因數據。
9.根據權利要求1的方法,其中所述候選基因是癌癥疾病的生物標記,所述生物標記選自 TGIFl、X90840、IGFBP4、HMHAl、CUL5、QSCN6 (QSOXl)、C0PS5.UBE4A, L0C440345、CCL4、 ACAT1,或所述生物標記的任意組合。
10.一種計算機程序產品,其用于計算機上時,會使系統(tǒng)執(zhí)行權利要求1的方法。
11.一種用于從基因庫選擇候選基因集合的系統(tǒng),所述系統(tǒng)包括計算單元,其安排成-接受基因數據集;-使用聚類算法,將基因數據集聚類成具有類似特性的簇集合;和-通過遺傳算法,進化簇集合,以從簇集合選擇候選基因集合。
全文摘要
該方法涉及從基因庫選擇候選基因集合。所述方法包括,接受基因數據集;使用聚類算法,將基因數據集安排成具有類似特性的簇集合;和將所述簇集合輸入遺傳算法,以從簇集合選擇候選基因集合。所述方法因而涉及通過聚類計算進行選擇和通過進化計算進行選擇之間的雜種。該雜種也稱作進化聚類算法(ECA)。
文檔編號G06F19/24GK102272764SQ200980153966
公開日2011年12月7日 申請日期2009年12月23日 優(yōu)先權日2009年1月6日
發(fā)明者格安斯 A., 貝赫拉 N., 迪米特羅瓦 N., 古普塔 R., 辛哈 S. 申請人:皇家飛利浦電子股份有限公司