特征分級(jí)的制作方法

文檔序號(hào)：6456708閱讀：232來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：特征分級(jí)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及模式發(fā)現(xiàn)(pattern discovery),特別地，涉及包括在所述模式中的測(cè)量的分級(jí)(rating)。本發(fā)明找到了在生物信息學(xué)分類器評(píng)估方面的特殊應(yīng)用。
背景技術(shù)：
最近，在關(guān)于人類基因組細(xì)節(jié)和基因如何在健康和患病對(duì)象中找到它們的基因表達(dá)(expression)的可獲得信息量巨大爆發(fā)?，F(xiàn)在有實(shí)驗(yàn)室技術(shù)能夠迅速地獲取大量的以DNA、 RNA、蛋白質(zhì)和其他有機(jī)大分子在生物
學(xué)對(duì)象中的濃度為特征的測(cè)量組。
例如，微陣列(microarray)包括載玻片或載玻板，在其上放置c-DNA 或另一個(gè)結(jié)合物(binder)的微小樣本"點(diǎn)，，的陣列。每個(gè)點(diǎn)包括特定的 c-DNA或其他與感興趣的特定大分子綁定的結(jié)合物，單個(gè)的微陣列可包括成百、成千或更多的這樣的點(diǎn)。從病人提取組織樣本，感興趣的分子種
(molecular species)(例如，DNA、 RNA等)被提取，用發(fā)光信號(hào)劑或其他標(biāo)記(marker )處理，并在微陣列上被清洗。在被稱為雜交的過程中，組織中特別類型的大分子在具有連接那些特別的大分子的結(jié)合物的點(diǎn)上聚集。典型地，使用不同標(biāo)記(例如不同顏色的發(fā)光劑)處理的對(duì)比或參考樣本也被應(yīng)用于微陣列。例如使用激光束激活標(biāo)記以致產(chǎn)生光致發(fā)光
(photoluminescence )，并且檢測(cè)反應(yīng)強(qiáng)度以便表征與各種點(diǎn)關(guān)聯(lián)的大分子濃度。這樣，包含在生物樣本中大量的有機(jī)大分子(例如成百、成千或更多)的化驗(yàn)(assay)得以迅速和定量地完成。
質(zhì)鐠分析是快速化驗(yàn)在從病人獲取的樣本中大量大分子濃度的另一種方法。在該方法中，樣本在真空環(huán)境中通過激光或其他機(jī)制被電離，電
離的分子碎片的分子量分布/電荷比率通過離子計(jì)數(shù)器得以測(cè)量。基于各種大分子的已知裂化譜圖(cracking pattern),各種大分子的濃度可從質(zhì)譜推導(dǎo)得出?？商鎿Q地，質(zhì)譜的峰值可用作生物信息學(xué)測(cè)量數(shù)據(jù)，而不
將質(zhì)語圖與特定的大分子相關(guān)。
生物信息學(xué)使用數(shù)學(xué)方法從微陣列測(cè)量、質(zhì)i普或者其他基因組或有機(jī)大分子化驗(yàn)提取有用的生物信息。例如，如果微陣列或質(zhì)鐠中的特定才莫式能夠與特定類型的癌癥強(qiáng)烈地聯(lián)系，則該模式能夠被用作檢測(cè)這種癌癥的
分類器。這使得能夠通過相對(duì)非入侵的技術(shù)，例如提:pL血液或腦脊液、獲取唾液、小便、大便等樣本或者獲取液體或組織樣本，來早期檢測(cè)癌癥和其他感興趣的病理。
然而，由于可獲得用于開發(fā)這種診斷醫(yī)療測(cè)試的大量信息，因而出現(xiàn)
了一個(gè)問題。例如，如果想開發(fā)使用2500個(gè)測(cè)量(例如使用5t)x50點(diǎn)陣列的微陣列)中的五個(gè)測(cè)量(例如微陣列點(diǎn)、質(zhì)i普峰值等)的癌癥篩選測(cè) 試，則可用于診斷測(cè)試的、可能的五個(gè)樣本測(cè)量子集的搜索空間為
、，、^Us.ixio'4，這太大了以至于不能通過窮盡技術(shù)來搜索。并且，
L 5 J 2495!5！
該估計(jì)假設(shè)五個(gè)測(cè)量的子集是用于正在開發(fā)的癌癥篩選測(cè)試的最佳選擇，這也許不正確。測(cè)量的最佳子集可能是四個(gè)測(cè)量、六個(gè)測(cè)量等，并且通常是未知的。
開發(fā)基因組診斷醫(yī)療測(cè)試的另一個(gè)問題是測(cè)量的總數(shù)很大，而從其提
取這些測(cè)量的病人數(shù)通常小很多。例如，通常的研究可使用50 x 50的微陣列和40個(gè)測(cè)試對(duì)象的測(cè)試組，在測(cè)試組中20個(gè)對(duì)象患有感興趣的癌癥， 20個(gè)對(duì)象是沒有癌癥的對(duì)照標(biāo)準(zhǔn)(control )。生成了 100， 000個(gè)測(cè)量的大集合；然而，與很小的測(cè)試對(duì)象組大小相結(jié)合引起了這樣的關(guān)注在測(cè) 量數(shù)據(jù)中也許存在許多錯(cuò)誤的關(guān)聯(lián)，這些關(guān)聯(lián)與在普通人群中與感興趣的癌癥沒有關(guān)系。
從少數(shù)對(duì)象提取大量測(cè)量是為什么不能獲取基于每個(gè)測(cè)量評(píng)估的有用的測(cè)量分級(jí)的原因。為每個(gè)測(cè)量能獲得的等級(jí)數(shù)受限于對(duì)象的數(shù)量，因此少到不能評(píng)估每個(gè)測(cè)量。
因此，取代對(duì)每個(gè)測(cè)量進(jìn)行分級(jí)，遺傳算法已被用于計(jì)算對(duì)分類對(duì)象有用的測(cè)量子集。在遺傳算法中，生成初始一代染色體總體(initial generation chromosome population),其中每個(gè)染色體具有一纟且指示測(cè) 量組子集的基因。例如，使用由50 x 50的微陣列生成的測(cè)量組，相應(yīng)于由微陣列的2500個(gè)點(diǎn)提供的2500個(gè)測(cè)量的索引，每個(gè)基因具有在1和 2500之間的值。在單一染色體中的五個(gè)這樣的基因適合地指定2500個(gè)測(cè) 量的5個(gè)測(cè)量的特定子集。分類器使用由染色體指定的基因來將對(duì)象分類為兩個(gè)或更多類別(例如癌癥類別和非癌癥類別)。優(yōu)質(zhì)系數(shù)(figure of merit)測(cè)量分類器在病人群中識(shí)別癌癥的精確度，并且被用于選擇染色體池中的最適合染色體以傳播給下一代。類似于生物變異過程，通過基因
值隨機(jī)或偽隨機(jī)的改變，后代(offspring)染色體隨后被變異。在許多這樣的變異和偽隨機(jī)改變之后，染色體在它們將對(duì)象分類為兩個(gè)或更多類
別(例如癌癥類別和非癌癥類別)的能力方面得以最優(yōu)化。

發(fā)明內(nèi)容
一種生成染色體的優(yōu)化組的遺傳算法或者任何其他合適的算法，每個(gè) 染色體包含基因。下文中，基因被稱為特征，染色體被稱為特征子集。表示測(cè)量組的基因組此后被稱為特征池。來自特征池的特征子集作為分類器對(duì)于將對(duì)象分類為兩個(gè)或更多類別是有用的，此后對(duì)象(例如病人或組織樣本)被稱為研究對(duì)象，在該研究對(duì)象上進(jìn)行測(cè)量。原則上，由遺傳算法生成的特征最優(yōu)化子集當(dāng)涉及到它們將研究對(duì)象劃分為兩個(gè)或更多類別的有效性時(shí)具有類似的性能。然而，遺傳算法不根據(jù)特征在將研究對(duì)象分類方面的有效性將來自特征池的特征分級(jí)。
具有一種將來自特征池的特征分級(jí)的方法將是有益的，該方法能夠解決涉及特征與數(shù)據(jù)的錯(cuò)誤相關(guān)性的問題，該問題出現(xiàn)在當(dāng)在特征池中的特征數(shù)量遠(yuǎn)大于(例如一個(gè)或多個(gè)數(shù)量級(jí))可獲得用于評(píng)估這些特征的研究對(duì)象的數(shù)量時(shí)。
為了解決該問題，在本發(fā)明的一個(gè)方面中，提供了一種計(jì)算來自特征池至少一個(gè)特征的等級(jí)的方法，該方法包括
- 獲取多個(gè)特征子集，其中每個(gè)特征子集包括來自特征池的特征；和
- 基于在特征子集中至少一個(gè)特征的出現(xiàn)，計(jì)算來自特征池至少一個(gè)特征的等級(jí)。
來自特征池的特征的多個(gè)特征子集可通過任何合適的方法來獲取，例如基于遺傳算法的方法。獲得的多個(gè)特征子集包括適合用于將研究對(duì)象分類的特征子集。典型地，來自多個(gè)特征子集的特征子集當(dāng)涉及到它們?cè)趯?br> 研究對(duì)象分類方面的有效性時(shí)具有突出地高性能。因此，包括在所獲得的特征子集中的特征可被認(rèn)為在將研究對(duì)象分類的方面是有用的?？蛇x地，多個(gè)特征子集可以被獲得以便，例如研究對(duì)象組的至少一半分類器具有大于50%的基于研究對(duì)象組的性能分級(jí)(performance rating),基于來自多個(gè)特征子集的特征子集定義每個(gè)分類器。來自特征池的特征的等級(jí)將取決于所述特征出現(xiàn)在其中的特征子集的數(shù)量。在本發(fā)明的核心存在一種推測(cè)在來自多個(gè)特征子集的許多特征子集中出現(xiàn)的特征典型地比在來自多個(gè)特征子集的較少特征子集中出現(xiàn)的特征在分類研究對(duì)象方面更有用。這個(gè)推測(cè)已在大量實(shí)驗(yàn)中得以證實(shí)。因此，該方法被有利地應(yīng)用于來自特征
池的特征的分級(jí)?；谟?jì)算的特征等級(jí)，包括了一流(top-rank)特征的新的特征子集將得以創(chuàng)建，該一流特征潛在地在分類研究對(duì)象方面比來自特征池的特征子集更有用。對(duì)于來自特征池的分級(jí)特征這樣的列表，可能
有許多其他有利用途。
此外，來自特征池的每個(gè)特征結(jié)合其他特征內(nèi)在地考慮其分類能力是本發(fā)明的一個(gè)優(yōu)點(diǎn)。對(duì)于每個(gè)特征子集，包括在所述特征子集中的各個(gè)特征關(guān)于它們?cè)谘芯繉?duì)象分類方面的性能是內(nèi)在互補(bǔ)的。
建立用于獲取多個(gè)特征子集的選擇標(biāo)準(zhǔn)和建立計(jì)算特征等級(jí)的方法的過程打開了一條通向找到有用特征的有力道路?？蛇x地，一流的特征將被并入不太可能是假的的新的特征子集。因此，本發(fā)明提供了一種找到與研究對(duì)象分類中類別更可能真正關(guān)聯(lián)的重要特征和特征子集的方法，例如找到在對(duì)病人臨床情況分類方面描述生物標(biāo)志物有用的重要特征和特征子集的方法。
在本方法的實(shí)現(xiàn)中，根據(jù)進(jìn)化計(jì)算算法獲取多個(gè)特征子集。對(duì)于很大的特征池，所有特征子集的數(shù)量很大。因此評(píng)估特征池的每個(gè)特征子集是不可行的。進(jìn)化計(jì)算算法能夠生成基于它們的能力被最優(yōu)化的特征子集來分類研究對(duì)象組。有利地，進(jìn)化計(jì)算算法考慮包括在特征子集中多個(gè)特征的結(jié)合能力來獲取研究對(duì)象的有用分類。
在本方法的實(shí)現(xiàn)中，獲取多個(gè)特征子集包括基于選擇標(biāo)準(zhǔn)從多個(gè)候選特征子集中選擇多個(gè)特征子集。這使得從例如通過進(jìn)化計(jì)算算法產(chǎn)生的多個(gè)候選特征子集中選擇最佳的多個(gè)特征子集成為可能。
在本方法的實(shí)現(xiàn)中，來自多個(gè)候選特征子集的每個(gè)候選特征子集與各個(gè)候選特征子集的特性相關(guān)聯(lián)，并且選擇標(biāo)準(zhǔn)基于所述各個(gè)候選特征子集的特性評(píng)估。使用候選特征子集的特性有助于從多個(gè)候選特征子集選擇最優(yōu)的多個(gè)特征子集。
在本方法的實(shí)現(xiàn)中，計(jì)算來自特征池的至少一個(gè)特征的等級(jí)進(jìn)一步基于該至少一個(gè)特征在多個(gè)特征子集中出現(xiàn)的頻率。具有相對(duì)較高出現(xiàn)頻率的特征(即在許多特征子集中出現(xiàn)的特征)獲得比具有相對(duì)較低出現(xiàn)頻率的特征(即在較少特征子集中出現(xiàn)的特征)更高的等級(jí)。
在本方法的實(shí)現(xiàn)中，來自多個(gè)特征子集的每個(gè)特征子集與各個(gè)特征子集的特性相關(guān)聯(lián)。特征子集的特性將被有利地用于根據(jù)特征子集在計(jì)算包括在特征子集中特征的等級(jí)的有效性來評(píng)估該特征子集。例如，基于特征特性的權(quán)重將被分配給來自多個(gè)特征子集的每個(gè)特征子集。
在本方法的實(shí)現(xiàn)中，計(jì)算來自特征池的至少一個(gè)特征的等級(jí)進(jìn)一步基
于與來自多個(gè)特征子集的各個(gè)特征子集相關(guān)聯(lián)的特性。特征子集對(duì)至少一個(gè)特征的等級(jí)的貢獻(xiàn)可由基于與所迷特征子集相關(guān)聯(lián)的特性的權(quán)重給出。
在本方法的實(shí)現(xiàn)中，來自特征池的至少一個(gè)特征的等級(jí)是4艮據(jù)來自特征池的兩個(gè)或更多特征在來自多個(gè)特征子集的特征子集中的同時(shí)出現(xiàn)而計(jì)算的。例如，在特征子集中總是一起出現(xiàn)的兩個(gè)特征將獲得更高的等級(jí)，這樣考慮了在分類研究對(duì)象方面的它們的結(jié)合能力。
在本方法的實(shí)現(xiàn)中，該方法進(jìn)一步包括基于至少一個(gè)特征的計(jì)算等級(jí) 創(chuàng)建分級(jí)特征的列表。該分級(jí)特征的列表在創(chuàng)建用于分類研究對(duì)象的最優(yōu) 特征子集方面將非常有用。
在本發(fā)明的另一個(gè)方面中，提供了一種用于計(jì)算來自特征池至少一個(gè)
特征的等級(jí)的模塊，該模塊包括
- 用于獲取多個(gè)特征子集的獲取單元，其中每個(gè)特征子集包括來自特征池的特征；和
- 用于基于至少一個(gè)特征在特征子集中的出現(xiàn)，計(jì)算來自特征池的至少一個(gè)特征的等級(jí)的計(jì)算單元。
在本發(fā)明的另一個(gè)方面中，提供了一種計(jì)算機(jī)程序產(chǎn)品，用于當(dāng)所述計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí)指令處理單元執(zhí)行權(quán)利要求1的方法。
總的來說，本發(fā)明的各種實(shí)現(xiàn)、實(shí)施例和方面可以任何可能的方式在本發(fā)明的范圍中被組合和結(jié)合。參考以下描述的實(shí)施例，本發(fā)明的這些和其他方面、特征和/或優(yōu)點(diǎn)將變得顯而易見和得以闡明。
在本說明書的J^出上，與本方法的所描述的修改和它的變形對(duì)應(yīng)的模塊和/或計(jì)算機(jī)程序產(chǎn)品的修改和它的變形能夠由本領(lǐng)域技術(shù)人員實(shí)現(xiàn)。
附圖概述
將參考附圖，僅以示例的方式描述本發(fā)明的實(shí)施例和實(shí)現(xiàn)，其中圖l是計(jì)算來自特征池至少一個(gè)特征等級(jí)的方法的實(shí)現(xiàn)的流程圖；和圖2圖示地解釋了用于計(jì)算來自特征池至少一個(gè)特征等級(jí)的模塊的實(shí)施例。
具體實(shí)施例方式
7

圖1是計(jì)算來自特征池至少一個(gè)特征等級(jí)的方法io的示例實(shí)現(xiàn)的流
程圖。方法10從獲取1多個(gè)特征子集開始，每個(gè)特征子集包括來自特征
池的特征。在獲取l多個(gè)特征子集后，方法基于該至少一個(gè)特征在特征子
集中的出現(xiàn)繼續(xù)計(jì)算2來自特征池的特征的等級(jí)。如果來自特征池的特征在來自多個(gè)特征子集的數(shù)個(gè)特征子集中出現(xiàn)，其中該數(shù)可以是預(yù)定義的或者基于用戶輸入，那么該特征可被分級(jí)為相關(guān)的并獲得例如等級(jí)l。如果來自特征池的特征沒有在來自多個(gè)特征子集的任何特征子集中出現(xiàn)，該特征可被分級(jí)為不相關(guān)的并獲得等級(jí)0。在計(jì)算2特征的等級(jí)后，方法10 可基于另一個(gè)特征在特征子集中的出現(xiàn)，計(jì)算2來自特征池的該另一個(gè)特征的等級(jí)。該方法繼續(xù)計(jì)算2特征等級(jí)，直到終止計(jì)算2特征等級(jí)的條件滿足，例如當(dāng)來自特征池的所有特征都被分級(jí)時(shí)。一旦終止計(jì)算2特征等級(jí)的條件被滿足，方法10終止。
在方法10的實(shí)現(xiàn)中，該方法進(jìn)一步包括基于至少一個(gè)特征的計(jì)算等級(jí)，創(chuàng)建3分級(jí)特征的列表。該分級(jí)特征的列表可被用來確定例如用于分類研究對(duì)象的有用特征子集。
在方法10的實(shí)現(xiàn)中，特征的多個(gè)特征子集根據(jù)進(jìn)化計(jì)算算法得以獲得。進(jìn)化計(jì)算算法的一個(gè)例子是遺傳算法。盡管參考遺傳算法描述本發(fā)明方法10的實(shí)現(xiàn)，但本發(fā)明的范圍并不限制于這類算法。總的來說，任何產(chǎn)生多個(gè)特征子集的算法可由方法10使用。這樣的算法包括，但不限于，進(jìn)化算法、進(jìn)化編程、演進(jìn)策略、遺傳編程、迭代本地搜索和學(xué)習(xí)分類器系統(tǒng)。
遺傳算法運(yùn)行典型地包括幾個(gè)實(shí)驗(yàn)。每個(gè)實(shí)驗(yàn)從特征子集的不同初始整體(initial ensemble)開始。特征子集的這個(gè)整體被稱為特征子集的第一代。來自特征子集初始整體的每個(gè)特征子集可包括從特征池中隨機(jī)選擇的特征。在從研究對(duì)象的學(xué)習(xí)組分類研究對(duì)象方面的有效性方面，評(píng)估來自特征子集整體的每個(gè)特征子集。基于該評(píng)估的性能分級(jí)可^f皮分配給該特征子集。在每個(gè)評(píng)估后，通過變異操作、交換(crossover)操作和/ 或其他操作，包括在特征子集全體中的每個(gè)特征子集可被修改，從而在每個(gè)特征子集中潛在有用的特征被保留，而潛在地沒用的特征從每個(gè)特征子集中被刪除。特征子集的更新整體被稱為下一代，例如特征子集的第二代、第三代等。包括在特征子集更新整體中的每個(gè)被修改的特征子集被再次評(píng) 估。修改-評(píng)估循環(huán)的迭代繼續(xù)，直到終止條件被滿足。終止條件可以基于更新前后特征子集整體的比較。在遺傳算法中，當(dāng)^^改前后特征子集中包括的特征子集類似時(shí)，修改-評(píng)估循環(huán)的迭代被終止。每個(gè)實(shí)驗(yàn)可包括多個(gè)所謂的軟重啟。當(dāng)終止修改-評(píng)估迭代循環(huán)迭代的終止條件發(fā)生時(shí)，可以執(zhí)行軟重啟。在每個(gè)軟重啟時(shí)，包括在特征子集整體中的每個(gè)特征子集被再次隨機(jī)初始化，即從特征子集中移除一些特征并且來自特征池的一些特征被加入特征子集，但是至少一個(gè)特征子集，典型地具有最佳性能分級(jí)的那個(gè)，被保持完整。在已經(jīng)執(zhí)行了預(yù)定次數(shù)的軟重啟之后，可以終止實(shí)驗(yàn)。在名為"一種用于基于染色體的醫(yī)療診斷測(cè)試優(yōu)化的遺傳算法
(Genetic algorithms for optimization of genomics-based medical diagnostic tests)"公開專利申請(qǐng)W02005/078629中描述了一種遺傳算法，通過引用它被結(jié)合于此。遺傳算法的其他方面和它們的應(yīng)用在由 D.Schaffer、 A.Janevski 和M.Simpson在 2005 IEEE Symposicum on Computational Intelligence in Bioinformatics and Computational Biology學(xué)報(bào)(CIBCB 2005， La Jolla， CA， USA, 2005 )中公開的論文
"一種用于在分子測(cè)量數(shù)據(jù)中發(fā)現(xiàn)診斷模式的遺傳算法方法(A Genetic Algorithm Approach for Discovering Diagnostic Patterns in Molecular Measurement Data)"中得以描述，通過引用該論文被結(jié)合于此。
在方法10的實(shí)現(xiàn)中，獲取1多個(gè)特征子集包括通過執(zhí)行遺傳算法創(chuàng) 建特征子集。多個(gè)特征子集可通過運(yùn)行或多次運(yùn)行遺傳算法得以獲取。在運(yùn)行期間生成的多個(gè)特征子集可被存儲(chǔ)在存儲(chǔ)裝置中，以便它們能夠被本發(fā)明的方法IO檢索。
在方法10的實(shí)現(xiàn)中，獲得的多個(gè)特征子集包括所有通過遺傳算法的運(yùn)行生成的子集。因此，多個(gè)特征子集包括所有包括在特征子集初始整體、在遺傳算法每次軟重啟時(shí)特征子集的更新整體和包括在遺傳算法運(yùn)行中每個(gè)實(shí)驗(yàn)中的特征子集。
在方法10的實(shí)現(xiàn)中，獲得1多個(gè)特征子集包括基于選擇標(biāo)準(zhǔn)從多個(gè) 候選特征子集中選擇多個(gè)特征子集。多個(gè)候選特征子集可包括由運(yùn)行遺傳算法生成的所有子集，而多個(gè)特征子集可包括例如在每次軟重啟之后預(yù)定義數(shù)目的修改-評(píng)估循環(huán)迭代中生成的特征子集。例如，在終止標(biāo)準(zhǔn)滿足之前包括在修改-評(píng)估循環(huán)最后100次迭代中的特征子集可被包括在多個(gè)
特征子集中。
在方法10的實(shí)現(xiàn)中，來自多個(gè)候選特征子集的每個(gè)候選特征子集與
各個(gè)候選特征子集的特性相關(guān)聯(lián)，并且選擇標(biāo)準(zhǔn)基于所述各個(gè)候選特征子集特性的評(píng)估。例如，候選特征子集的特性可通過遺傳算法計(jì)算。由遺傳算法計(jì)算的特性的例子包括在評(píng)估期間特征子集的性能分級(jí)、特征子集的大小和特征子集的最大年齡(即包括該特征子集的特征子集的連續(xù)更新整體的最大數(shù)目)。例如，每個(gè)候選特征子集可基于它的性能分級(jí)和/或它的
最大年齡得以評(píng)估。其性能分級(jí)高于分級(jí)閾值的特征子集和/或其最大年齡高于年齡閾值的特征子集可被包括在多個(gè)特征子集中。
在方法10的實(shí)現(xiàn)中，獲取1多個(gè)特征子集包括將來自多個(gè)候選特征子集的特征子集聚合(group)在一起。例如，包括來自特征池中相同特征的、由運(yùn)行遺傳算法生成的所有那些候選特征子集可被認(rèn)為是一個(gè)特征子集，并且只有這個(gè)特征子集可被包括在多個(gè)特征子集中?？蛇x地，一個(gè) 特征子集的特性可根據(jù)包括相同特征的候選特征子集的各個(gè)特性得以計(jì) 算?？蛇x地，一個(gè)特征子集的特性可包括由運(yùn)行遺傳算法生成的、包括相同特征的特征子集的數(shù)量。
本領(lǐng)域的技術(shù)人員將理解描述的獲取多個(gè)特征子集的方法用于解釋本發(fā)明，而不限制權(quán)利要求的范圍。
在方法10的實(shí)現(xiàn)中，計(jì)算2來自特征池至少一個(gè)特征的等級(jí)進(jìn)一步基于該至少一個(gè)特征在多個(gè)特征子集中的出現(xiàn)頻率。特征a的等級(jí)L可等于來自多個(gè)特征子集的子集數(shù)，其中該特征被包括
^ = ，
其中求和在來自多個(gè)特征子集的所有特征子集A上運(yùn)行，并且其中如果 m」，L(。)為l，在其他情況下為0。
在方法10的實(shí)現(xiàn)中，來自特征的多個(gè)特征子集的每個(gè)特征子集與各
個(gè)特征子集的特性相關(guān)聯(lián)。例如，每個(gè)特征子集的特性可由遺傳算法得以計(jì)算。由遺傳算法計(jì)算的特性的例子包括在評(píng)估期間特征子集的性能分級(jí)、特征子集的大小和特征子集的最大年齡(即包括該特征子集的特征子集連續(xù)更新整體的最大數(shù)目)。
在方法10的實(shí)現(xiàn)中，計(jì)算2來自特征池至少一個(gè)特征的等級(jí)進(jìn)一步
基于與來自多個(gè)特征子集的每個(gè)特征子集相關(guān)聯(lián)的特性。例如，與每個(gè)特征子集A相關(guān)聯(lián)的特性可以是特征子集A的性能分級(jí)p (A )。性能分級(jí)p (A )可被定義為來自由特征子集A正確分類的有效研究對(duì)象組的一小部分研究對(duì)象。來自特征池的特征a的等級(jí)ra可被定義為其中求和在來自多個(gè)特征子集的所有特征子集A上運(yùn)行。與每個(gè)特征子集 A關(guān)聯(lián)的特性可以是特征子集的大小s (A)。例如，才艮據(jù)特征子集的大小 s (A)對(duì)特征a的每次出現(xiàn)進(jìn)行加權(quán)f。
/(
在方法10的實(shí)現(xiàn)中，來自特征池至少一個(gè)特征的等級(jí)根據(jù)來自特征池兩個(gè)或更多特征在來自多個(gè)特征子集的特征子集中的同時(shí)出現(xiàn)得以計(jì) 算。在這種情況下，特征的同時(shí)出現(xiàn)，即成對(duì)、三個(gè)一組的出現(xiàn)，將被計(jì) 數(shù)。
在方法10的實(shí)現(xiàn)中，基于由特征池和多個(gè)特征子集定義的類同網(wǎng)絡(luò) (affinity network),來自特征池兩個(gè)或更多特征在來自多個(gè)特征子集的特征子集中的同時(shí)出現(xiàn)被評(píng)估?；谔卣鞒睾投鄠€(gè)特征子集定義的類同網(wǎng)絡(luò)包括節(jié)點(diǎn)。類同網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)相應(yīng)于來自特征池的特征。如果一個(gè) 特征子集存在于多個(gè)特征子集中，類同網(wǎng)絡(luò)的兩個(gè)節(jié)點(diǎn)由邊緣(edge )連接，以便相應(yīng)于這兩個(gè)節(jié)點(diǎn)的特征被包括在所述特征子集中。來自特征池的特征也可以被稱為類同網(wǎng)絡(luò)上下文中的節(jié)點(diǎn)。類同網(wǎng)絡(luò)和它們的參數(shù)可在http: 〃arxiv. org/PS—cache/cond-mat/pdf/0608/0608670. pdf可獲得的、Jari Saramaki等人的名為"加權(quán)復(fù)雜網(wǎng)絡(luò)聚類系數(shù)的概述 (Generalizations of the clustering coefficient to weighted complex networks )，，的論文中得以描述。
類同網(wǎng)絡(luò)可由鄰接矩陣來描述。類同網(wǎng)絡(luò)的鄰接矩陣是包括元素Mab 的矩陣，其中指數(shù)a、 b是類同網(wǎng)絡(luò)的節(jié)點(diǎn)。如果兩個(gè)節(jié)點(diǎn)a和b由邊緣連接，鄰接矩陣元素NL等于1，否則等于O。
描述類同網(wǎng)絡(luò)(尤其是加權(quán)類同網(wǎng)絡(luò))的另一個(gè)矩陣是權(quán)重矩陣。權(quán) 重矩陣包括元素Wab，其中指數(shù)a、 b是類同網(wǎng)絡(luò)的節(jié)點(diǎn)。權(quán)重矩陣元素W" 等于a和b特征對(duì)在多個(gè)特征子集中出現(xiàn)的頻率。權(quán)重矩陣元素W化定義了連接節(jié)點(diǎn)a和b的邊緣的權(quán)重。
提議了用于描述類同網(wǎng)絡(luò)和加權(quán)類同網(wǎng)絡(luò)的節(jié)點(diǎn)的幾個(gè)參數(shù)。例如，節(jié)點(diǎn)a的度(degree) ka被定義為、-ZM。6;節(jié)點(diǎn)a的強(qiáng)度(strength)
33被定義為&=2;^^ ，節(jié)點(diǎn)a的聚類系數(shù)被定義為c^^^，其中ta 是將節(jié)點(diǎn)a作為三角形的頂點(diǎn)(triangle vertex)的三角形的數(shù)目，_^。以上^t定義中的求和在類同網(wǎng)絡(luò)的所有
4 (、 - )) 2
節(jié)點(diǎn)b或b和C上運(yùn)行。類同網(wǎng)絡(luò)和加權(quán)類同網(wǎng)絡(luò)的參數(shù)可被用于計(jì)算在
類同網(wǎng)絡(luò)中節(jié)點(diǎn)(即來自特征池特征)的等級(jí)。例如，節(jié)點(diǎn)a的度或強(qiáng)度被用作出現(xiàn)頻率的權(quán)值，。=、^ )或者^=5。2> ?？商鎿Q地，類同
爿爿
網(wǎng)絡(luò)或加權(quán)類同網(wǎng)絡(luò)的參數(shù)可被用來定義特征的等級(jí)r。 = c?；蛘遰。=《。在方法10的實(shí)現(xiàn)中，來自特征池特征的多個(gè)等級(jí)被計(jì)算。不同的等級(jí)可被結(jié)合以便計(jì)算另一個(gè)等級(jí)?？蛇x地，不同的等級(jí)可被用于創(chuàng)建分級(jí) 特征的不同列表。在特殊應(yīng)用中使用的分級(jí)特征列表的創(chuàng)建和選擇可基于各種因素，例如獲取將由來自特征分級(jí)列表中的特征分類的研究對(duì)象的外部條件(例如溫度、壓力、濕度、污染)，或者從中獲取研究對(duì)象的研究對(duì)象人群(例如農(nóng)民、女人、男人)。
在實(shí)現(xiàn)中，方法10包括獲取1兩個(gè)或更多特征子集。每個(gè)多個(gè)特征子集包括來自特征池的特征。例如，每個(gè)多個(gè)特征子集可從遺傳算法的兩次或多次運(yùn)行獲取。對(duì)于每個(gè)多個(gè)特征子集，來自特征池的特征等級(jí)被計(jì) 算。該實(shí)現(xiàn)使得基于兩個(gè)或更多等級(jí)值將特征分類為三組成為可能對(duì)于每個(gè)多個(gè)特征子集一致具有高等級(jí)的特征——必須具有的 (must-haves )。例如，如果等級(jí)是由在多個(gè)特征子集中特征出現(xiàn)的頻率定義，那么必須具有的是一直出現(xiàn)在每個(gè)多個(gè)特征子集大多數(shù)子集中的特征。
對(duì)于一些多個(gè)特征子集具有高等級(jí)并且對(duì)于來自兩個(gè)或更多多個(gè)特征子集的其他多個(gè)特征子集具有相對(duì)低的等級(jí)的特征一一交換的(swaps )。例如，如果等級(jí)是由在多個(gè)特征子集中特征出現(xiàn)的頻率定義，那么交換是一直出現(xiàn)在來自一些多個(gè)特征子集的大多數(shù)特征子集的、相對(duì)經(jīng)常缺席來自其他多個(gè)特征子集的特征子集的特征，和
對(duì)于來自兩個(gè)或更多多個(gè)特征子集的每個(gè)多個(gè)特征子集一直具有低等級(jí) 的特征——填充的(padders)。
基于特征等級(jí)值統(tǒng)計(jì)分布的參數(shù)計(jì)算，可以實(shí)現(xiàn)將特征分類為三組，必須具有的、交換的和填充的。例如，參數(shù)可以是等級(jí)值的平均和標(biāo)準(zhǔn)差。顯示出大平均和相對(duì)小的標(biāo)準(zhǔn)差的特征是必須具有的。顯示出例如與必須具有的具有相同等級(jí)量級(jí)的類似平均差，但相對(duì)大標(biāo)準(zhǔn)差的特征是交換的。最后，顯示出小平均和小標(biāo)準(zhǔn)差的特征在分類研究對(duì)象方面沒用，是
12填充的。
圖2解釋了用于計(jì)算來自特征池至少一個(gè)特征的等級(jí)的^^莫塊20的示意性實(shí)施例。該模塊的示例實(shí)施例包括
- 用于獲取多個(gè)特征子集的獲取單元21 ，每個(gè)特征子集包括來自特征池的特征；和
- 用于基于至少一個(gè)特征在特征子集中的出現(xiàn)，計(jì)算來自特征池至少一個(gè)特征的等級(jí)的計(jì)算單元22。
模塊20的示例實(shí)施例進(jìn)一步包括
- 用于基于至少一個(gè)特征的計(jì)算等級(jí)，創(chuàng)建分級(jí)特征列表的列表單元 23;
- 用于接收輸入數(shù)據(jù)的輸入連接器27;
- 用于傳輸輸出數(shù)據(jù)的輸出連接器28;
- 用于存儲(chǔ)通過輸入連接器27從外部設(shè)^^接收的輸入數(shù)據(jù)和由模塊20 的單元計(jì)算的數(shù)據(jù)的存儲(chǔ)器單元25;和
醫(yī)用于連接模塊20的單元的存儲(chǔ)器總線26。
該模塊可包括其他的單元，例如用于基于選擇標(biāo)準(zhǔn)從多個(gè)候選特征子集中選擇多個(gè)特征子集的選擇單元。
本發(fā)明可由任何合適的形式實(shí)現(xiàn)，包括硬件、軟件或固件實(shí)現(xiàn)，或者這些的任意組合。本發(fā)明或本發(fā)明的一些特征可被實(shí)現(xiàn)為在一個(gè)或多個(gè)數(shù) 據(jù)處理器和/或數(shù)字信號(hào)處理器上執(zhí)行的計(jì)算機(jī)程序產(chǎn)品。本發(fā)明實(shí)施例的元件或組件可以以任何合適的方式物理地、功能地和邏輯地實(shí)現(xiàn)。模塊 20的功能性可在單一的單元或多個(gè)單元中得以實(shí)現(xiàn)。
雖然結(jié)合特定的實(shí)施例來描述本發(fā)明，但并不意欲將其限制為在此闡述的特定形式。相反的，本發(fā)明的范圍僅由附加的權(quán)利要求書限制。在權(quán) 利要求書中，術(shù)語"包括"不排除其他元件或步驟的存在。此外，雖然單獨(dú)的特征被包括在不同的權(quán)利要求中，但是這些特征可能被有利地組合，且包括在不同的權(quán)利要求中并不意味著特征的組合是不可行的和/或沒有益處的。除此之外，單數(shù)術(shù)語并不排除復(fù)數(shù)。因此，術(shù)語"一個(gè)"、"第一"、 "第二"等并不排除復(fù)數(shù)。并且，在權(quán)利要求書中的附圖標(biāo)記不應(yīng)當(dāng)被解釋為對(duì)它范圍的限制。
權(quán)利要求
1.一種計(jì)算來自特征池的至少一個(gè)特征的等級(jí)的方法，該方法包括-獲取(1)多個(gè)特征子集，每個(gè)特征子集包括來自特征池的特征；和-根據(jù)至少一個(gè)特征在特征子集中的出現(xiàn)，計(jì)算(2)來自特征池的至少一個(gè)特征的等級(jí)。
2. 根據(jù)權(quán)利要求l的方法，其中，多個(gè)特征子集通過進(jìn)化計(jì)算算法得以獲取。
3. 根據(jù)權(quán)利要求1的方法，其中，獲取多個(gè)特征子集包括基于選擇標(biāo)準(zhǔn)從多個(gè)候選特征子集選擇多個(gè)特征子集。
4. 根據(jù)權(quán)利要求3的方法，其中，來自多個(gè)候選特征子集的每個(gè)候選特征子集與相應(yīng)候選特征子集的特性相關(guān)聯(lián)，并且其中選擇標(biāo)準(zhǔn)基于對(duì) 所述相應(yīng)候選特征子集特性的評(píng)估。
5. 根據(jù)權(quán)利要求1的方法，其中，計(jì)算來自特征池的至少一個(gè)特征的等級(jí)進(jìn)一步基于至少一個(gè)特征在多個(gè)特征子集中出現(xiàn)的頻率。
6. 根據(jù)權(quán)利要求l的方法，其中，來自多個(gè)特征子集的每個(gè)特征子集與所述特征子集的特性相關(guān)聯(lián)。
7. 根據(jù)權(quán)利要求6的方法，其中，計(jì)算來自特征池的至少一個(gè)特征的等級(jí)進(jìn)一步基于與來自多個(gè)特征子集的相應(yīng)特征子集相關(guān)聯(lián)的特性。
8. 根據(jù)權(quán)利要求l的方法，其中，基于來自特征池的兩個(gè)或更多特征在來自多個(gè)特征子集的特征子集中的同時(shí)出現(xiàn)，來自特征池的至少一個(gè) 特征的等級(jí)得以計(jì)算。
9. 根據(jù)權(quán)利要求1的方法，進(jìn)一步包括基于至少一個(gè)特征的計(jì)算等級(jí)，創(chuàng)建(3)分級(jí)特征的列表。
10. —種用于計(jì)算來自特征池的至少一個(gè)特征的等級(jí)的模塊(20), 該模塊包括- 用于獲取多個(gè)特征子集的獲取單元(21 )，每個(gè)特征子集包括來自特征池的特征；和- 用于基于至少一個(gè)特征在特征子集中的出現(xiàn)，計(jì)算來自特征池的至少一個(gè)特征的等級(jí)的計(jì)算單元(22 )。
11. 一種計(jì)算機(jī)程序產(chǎn)品，用于當(dāng)所述計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上被運(yùn)行時(shí)，指令處理單元執(zhí)行權(quán)利要求1的方法。
全文摘要
本發(fā)明涉及一種計(jì)算來自特征池的至少一個(gè)特征的等級(jí)的方法，該方法包括獲取(1)多個(gè)特征子集，每個(gè)特征子集包括來自特征池的特征；和基于至少一個(gè)特征在特征子集中的出現(xiàn)，計(jì)算(2)至少一個(gè)特征的等級(jí)。例如，至少一個(gè)特征的等級(jí)可基于該至少一個(gè)特征在多個(gè)特征子集中出現(xiàn)的頻率。因此，該方法可被有利地應(yīng)用于分級(jí)來自特征池的特征。包括一流特征的新的特征子集可根據(jù)計(jì)算的特征等級(jí)值得以創(chuàng)建，一流的特征潛在地比來自特征池的特征子集更有用。對(duì)于這種來自特征池的分級(jí)特征列表，可有許多其他的有益用途。
文檔編號(hào)G06N3/00GK101558419SQ200780046259
公開日2009年10月14日申請(qǐng)日期2007年12月6日優(yōu)先權(quán)日2006年12月13日
發(fā)明者A·A·J·簡夫斯基, J·D·沙弗, M·R·辛普森申請(qǐng)人:皇家飛利浦電子股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：A.A.J.簡夫斯基;J.D.沙弗;M.R.辛普森
技術(shù)所有人：皇家飛利浦電子股份有限公司
我是此專利的發(fā)明人

上一篇：基于pet的觸摸板的制作方法
上一篇：監(jiān)測(cè)設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

分級(jí)基金相關(guān)技術(shù)

分級(jí)診療相關(guān)技術(shù)

心功能分級(jí)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

特征分級(jí)的制作方法