亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

特征分級(jí)的制作方法

文檔序號(hào):6456708閱讀:232來源:國知局
專利名稱:特征分級(jí)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及模式發(fā)現(xiàn)(pattern discovery),特別地,涉及包括在所 述模式中的測(cè)量的分級(jí)(rating)。本發(fā)明找到了在生物信息學(xué)分類器評(píng)估 方面的特殊應(yīng)用。
背景技術(shù)
最近,在關(guān)于人類基因組細(xì)節(jié)和基因如何在健康和患病對(duì)象中找到它 們的基因表達(dá)(expression)的可獲得信息量巨大爆發(fā)?,F(xiàn)在有實(shí)驗(yàn)室技 術(shù)能夠迅速地獲取大量的以DNA、 RNA、蛋白質(zhì)和其他有機(jī)大分子在生物
學(xué)對(duì)象中的濃度為特征的測(cè)量組。
例如,微陣列(microarray)包括載玻片或載玻板,在其上放置c-DNA 或另一個(gè)結(jié)合物(binder)的微小樣本"點(diǎn),,的陣列。每個(gè)點(diǎn)包括特定的 c-DNA或其他與感興趣的特定大分子綁定的結(jié)合物,單個(gè)的微陣列可包括 成百、成千或更多的這樣的點(diǎn)。從病人提取組織樣本,感興趣的分子種
(molecular species)(例如,DNA、 RNA等)被提取,用發(fā)光信號(hào)劑或 其他標(biāo)記(marker )處理,并在微陣列上被清洗。在被稱為雜交的過程中, 組織中特別類型的大分子在具有連接那些特別的大分子的結(jié)合物的點(diǎn)上 聚集。典型地,使用不同標(biāo)記(例如不同顏色的發(fā)光劑)處理的對(duì)比或參 考樣本也被應(yīng)用于微陣列。例如使用激光束激活標(biāo)記以致產(chǎn)生光致發(fā)光
(photoluminescence ),并且檢測(cè)反應(yīng)強(qiáng)度以便表征與各種點(diǎn)關(guān)聯(lián)的大分 子濃度。這樣,包含在生物樣本中大量的有機(jī)大分子(例如成百、成千或 更多)的化驗(yàn)(assay)得以迅速和定量地完成。
質(zhì)鐠分析是快速化驗(yàn)在從病人獲取的樣本中大量大分子濃度的另一 種方法。在該方法中,樣本在真空環(huán)境中通過激光或其他機(jī)制被電離,電
離的分子碎片的分子量分布/電荷比率通過離子計(jì)數(shù)器得以測(cè)量。基于各 種大分子的已知裂化譜圖(cracking pattern),各種大分子的濃度可從 質(zhì)譜推導(dǎo)得出??商鎿Q地,質(zhì)譜的峰值可用作生物信息學(xué)測(cè)量數(shù)據(jù),而不
將質(zhì)語圖與特定的大分子相關(guān)。
生物信息學(xué)使用數(shù)學(xué)方法從微陣列測(cè)量、質(zhì)i普或者其他基因組或有機(jī)大分子化驗(yàn)提取有用的生物信息。例如,如果微陣列或質(zhì)鐠中的特定才莫式 能夠與特定類型的癌癥強(qiáng)烈地聯(lián)系,則該模式能夠被用作檢測(cè)這種癌癥的
分類器。這使得能夠通過相對(duì)非入侵的技術(shù),例如提:pL血液或腦脊液、獲 取唾液、小便、大便等樣本或者獲取液體或組織樣本,來早期檢測(cè)癌癥和 其他感興趣的病理。
然而,由于可獲得用于開發(fā)這種診斷醫(yī)療測(cè)試的大量信息,因而出現(xiàn)
了一個(gè)問題。例如,如果想開發(fā)使用2500個(gè)測(cè)量(例如使用5t)x50點(diǎn)陣 列的微陣列)中的五個(gè)測(cè)量(例如微陣列點(diǎn)、質(zhì)i普峰值等)的癌癥篩選測(cè) 試,則可用于診斷測(cè)試的、可能的五個(gè)樣本測(cè)量子集的搜索空間為
、,、^Us.ixio'4,這太大了以至于不能通過窮盡技術(shù)來搜索。并且,
L 5 J 2495!5!
該估計(jì)假設(shè)五個(gè)測(cè)量的子集是用于正在開發(fā)的癌癥篩選測(cè)試的最佳選擇, 這也許不正確。測(cè)量的最佳子集可能是四個(gè)測(cè)量、六個(gè)測(cè)量等,并且通常 是未知的。
開發(fā)基因組診斷醫(yī)療測(cè)試的另 一個(gè)問題是測(cè)量的總數(shù)很大,而從其提
取這些測(cè)量的病人數(shù)通常小很多。例如,通常的研究可使用50 x 50的微 陣列和40個(gè)測(cè)試對(duì)象的測(cè)試組,在測(cè)試組中20個(gè)對(duì)象患有感興趣的癌癥, 20個(gè)對(duì)象是沒有癌癥的對(duì)照標(biāo)準(zhǔn)(control )。生成了 100, 000個(gè)測(cè)量的 大集合;然而,與很小的測(cè)試對(duì)象組大小相結(jié)合引起了這樣的關(guān)注在測(cè) 量數(shù)據(jù)中也許存在許多錯(cuò)誤的關(guān)聯(lián),這些關(guān)聯(lián)與在普通人群中與感興趣的 癌癥沒有關(guān)系。
從少數(shù)對(duì)象提取大量測(cè)量是為什么不能獲取基于每個(gè)測(cè)量評(píng)估的有 用的測(cè)量分級(jí)的原因。為每個(gè)測(cè)量能獲得的等級(jí)數(shù)受限于對(duì)象的數(shù)量,因 此少到不能評(píng)估每個(gè)測(cè)量。
因此,取代對(duì)每個(gè)測(cè)量進(jìn)行分級(jí),遺傳算法已被用于計(jì)算對(duì)分類對(duì)象 有用的測(cè)量子集。在遺傳算法中,生成初始一代染色體總體(initial generation chromosome population),其中每個(gè)染色體具有一纟且指示測(cè) 量組子集的基因。例如,使用由50 x 50的微陣列生成的測(cè)量組,相應(yīng)于 由微陣列的2500個(gè)點(diǎn)提供的2500個(gè)測(cè)量的索引,每個(gè)基因具有在1和 2500之間的值。在單一染色體中的五個(gè)這樣的基因適合地指定2500個(gè)測(cè) 量的5個(gè)測(cè)量的特定子集。分類器使用由染色體指定的基因來將對(duì)象分類 為兩個(gè)或更多類別(例如癌癥類別和非癌癥類別)。優(yōu)質(zhì)系數(shù)(figure of merit)測(cè)量分類器在病人群中識(shí)別癌癥的精確度,并且被用于選擇染色體池中的最適合染色體以傳播給下一代。類似于生物變異過程,通過基因
值隨機(jī)或偽隨機(jī)的改變,后代(offspring)染色體隨后被變異。在許多 這樣的變異和偽隨機(jī)改變之后,染色體在它們將對(duì)象分類為兩個(gè)或更多類
別(例如癌癥類別和非癌癥類別)的能力方面得以最優(yōu)化。

發(fā)明內(nèi)容
一種生成染色體的優(yōu)化組的遺傳算法或者任何其他合適的算法,每個(gè) 染色體包含基因。下文中,基因被稱為特征,染色體被稱為特征子集。表 示測(cè)量組的基因組此后被稱為特征池。來自特征池的特征子集作為分類器 對(duì)于將對(duì)象分類為兩個(gè)或更多類別是有用的,此后對(duì)象(例如病人或組織 樣本)被稱為研究對(duì)象,在該研究對(duì)象上進(jìn)行測(cè)量。原則上,由遺傳算法 生成的特征最優(yōu)化子集當(dāng)涉及到它們將研究對(duì)象劃分為兩個(gè)或更多類別 的有效性時(shí)具有類似的性能。然而,遺傳算法不根據(jù)特征在將研究對(duì)象分 類方面的有效性將來自特征池的特征分級(jí)。
具有一種將來自特征池的特征分級(jí)的方法將是有益的,該方法能夠解 決涉及特征與數(shù)據(jù)的錯(cuò)誤相關(guān)性的問題,該問題出現(xiàn)在當(dāng)在特征池中的特 征數(shù)量遠(yuǎn)大于(例如一個(gè)或多個(gè)數(shù)量級(jí))可獲得用于評(píng)估這些特征的研究 對(duì)象的數(shù)量時(shí)。
為了解決該問題,在本發(fā)明的一個(gè)方面中,提供了一種計(jì)算來自特征 池至少一個(gè)特征的等級(jí)的方法,該方法包括
- 獲取多個(gè)特征子集,其中每個(gè)特征子集包括來自特征池的特征;和
- 基于在特征子集中至少一個(gè)特征的出現(xiàn),計(jì)算來自特征池至少一個(gè)特 征的等級(jí)。
來自特征池的特征的多個(gè)特征子集可通過任何合適的方法來獲取,例 如基于遺傳算法的方法。獲得的多個(gè)特征子集包括適合用于將研究對(duì)象分 類的特征子集。典型地,來自多個(gè)特征子集的特征子集當(dāng)涉及到它們?cè)趯?br> 研究對(duì)象分類方面的有效性時(shí)具有突出地高性能。因此,包括在所獲得的 特征子集中的特征可被認(rèn)為在將研究對(duì)象分類的方面是有用的??蛇x地, 多個(gè)特征子集可以被獲得以便,例如研究對(duì)象組的至少 一半分類器具有大 于50%的基于研究對(duì)象組的性能分級(jí)(performance rating),基于來自 多個(gè)特征子集的特征子集定義每個(gè)分類器。來自特征池的特征的等級(jí)將取 決于所述特征出現(xiàn)在其中的特征子集的數(shù)量。在本發(fā)明的核心存在一種推 測(cè)在來自多個(gè)特征子集的許多特征子集中出現(xiàn)的特征典型地比在來自多個(gè)特征子集的較少特征子集中出現(xiàn)的特征在分類研究對(duì)象方面更有用。這 個(gè)推測(cè)已在大量實(shí)驗(yàn)中得以證實(shí)。因此,該方法被有利地應(yīng)用于來自特征
池的特征的分級(jí)?;谟?jì)算的特征等級(jí),包括了一流(top-rank)特征的 新的特征子集將得以創(chuàng)建,該一流特征潛在地在分類研究對(duì)象方面比來自 特征池的特征子集更有用。對(duì)于來自特征池的分級(jí)特征這樣的列表,可能
有許多其他有利用途。
此外,來自特征池的每個(gè)特征結(jié)合其他特征內(nèi)在地考慮其分類能力是 本發(fā)明的一個(gè)優(yōu)點(diǎn)。對(duì)于每個(gè)特征子集,包括在所述特征子集中的各個(gè)特 征關(guān)于它們?cè)谘芯繉?duì)象分類方面的性能是內(nèi)在互補(bǔ)的。
建立用于獲取多個(gè)特征子集的選擇標(biāo)準(zhǔn)和建立計(jì)算特征等級(jí)的方法 的過程打開了一條通向找到有用特征的有力道路??蛇x地, 一流的特征將 被并入不太可能是假的的新的特征子集。因此,本發(fā)明提供了一種找到與 研究對(duì)象分類中類別更可能真正關(guān)聯(lián)的重要特征和特征子集的方法,例如 找到在對(duì)病人臨床情況分類方面描述生物標(biāo)志物有用的重要特征和特征 子集的方法。
在本方法的實(shí)現(xiàn)中,根據(jù)進(jìn)化計(jì)算算法獲取多個(gè)特征子集。對(duì)于很大 的特征池,所有特征子集的數(shù)量很大。因此評(píng)估特征池的每個(gè)特征子集是 不可行的。進(jìn)化計(jì)算算法能夠生成基于它們的能力被最優(yōu)化的特征子集來 分類研究對(duì)象組。有利地,進(jìn)化計(jì)算算法考慮包括在特征子集中多個(gè)特征 的結(jié)合能力來獲取研究對(duì)象的有用分類。
在本方法的實(shí)現(xiàn)中,獲取多個(gè)特征子集包括基于選擇標(biāo)準(zhǔn)從多個(gè)候選 特征子集中選擇多個(gè)特征子集。這使得從例如通過進(jìn)化計(jì)算算法產(chǎn)生的多 個(gè)候選特征子集中選擇最佳的多個(gè)特征子集成為可能。
在本方法的實(shí)現(xiàn)中,來自多個(gè)候選特征子集的每個(gè)候選特征子集與各 個(gè)候選特征子集的特性相關(guān)聯(lián),并且選擇標(biāo)準(zhǔn)基于所述各個(gè)候選特征子集 的特性評(píng)估。使用候選特征子集的特性有助于從多個(gè)候選特征子集選擇最 優(yōu)的多個(gè)特征子集。
在本方法的實(shí)現(xiàn)中,計(jì)算來自特征池的至少一個(gè)特征的等級(jí)進(jìn)一步基 于該至少一個(gè)特征在多個(gè)特征子集中出現(xiàn)的頻率。具有相對(duì)較高出現(xiàn)頻率 的特征(即在許多特征子集中出現(xiàn)的特征)獲得比具有相對(duì)較低出現(xiàn)頻率 的特征(即在較少特征子集中出現(xiàn)的特征)更高的等級(jí)。
在本方法的實(shí)現(xiàn)中,來自多個(gè)特征子集的每個(gè)特征子集與各個(gè)特征子 集的特性相關(guān)聯(lián)。特征子集的特性將被有利地用于根據(jù)特征子集在計(jì)算包括在特征子集中特征的等級(jí)的有效性來評(píng)估該特征子集。例如,基于特征 特性的權(quán)重將被分配給來自多個(gè)特征子集的每個(gè)特征子集。
在本方法的實(shí)現(xiàn)中,計(jì)算來自特征池的至少一個(gè)特征的等級(jí)進(jìn)一步基
于與來自多個(gè)特征子集的各個(gè)特征子集相關(guān)聯(lián)的特性。特征子集對(duì)至少一 個(gè)特征的等級(jí)的貢獻(xiàn)可由基于與所迷特征子集相關(guān)聯(lián)的特性的權(quán)重給出。
在本方法的實(shí)現(xiàn)中,來自特征池的至少一個(gè)特征的等級(jí)是4艮據(jù)來自特 征池的兩個(gè)或更多特征在來自多個(gè)特征子集的特征子集中的同時(shí)出現(xiàn)而 計(jì)算的。例如,在特征子集中總是一起出現(xiàn)的兩個(gè)特征將獲得更高的等級(jí), 這樣考慮了在分類研究對(duì)象方面的它們的結(jié)合能力。
在本方法的實(shí)現(xiàn)中,該方法進(jìn)一步包括基于至少一個(gè)特征的計(jì)算等級(jí) 創(chuàng)建分級(jí)特征的列表。該分級(jí)特征的列表在創(chuàng)建用于分類研究對(duì)象的最優(yōu) 特征子集方面將非常有用。
在本發(fā)明的另 一個(gè)方面中,提供了 一種用于計(jì)算來自特征池至少一個(gè)
特征的等級(jí)的模塊,該模塊包括
- 用于獲取多個(gè)特征子集的獲取單元,其中每個(gè)特征子集包括來自特 征池的特征;和
- 用于基于至少一個(gè)特征在特征子集中的出現(xiàn),計(jì)算來自特征池的至 少一個(gè)特征的等級(jí)的計(jì)算單元。
在本發(fā)明的另一個(gè)方面中,提供了一種計(jì)算機(jī)程序產(chǎn)品,用于當(dāng)所述 計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí)指令處理單元執(zhí)行權(quán)利要求1的方法。
總的來說,本發(fā)明的各種實(shí)現(xiàn)、實(shí)施例和方面可以任何可能的方式在 本發(fā)明的范圍中被組合和結(jié)合。參考以下描述的實(shí)施例,本發(fā)明的這些和 其他方面、特征和/或優(yōu)點(diǎn)將變得顯而易見和得以闡明。
在本說明書的J^出上,與本方法的所描述的修改和它的變形對(duì)應(yīng)的模 塊和/或計(jì)算機(jī)程序產(chǎn)品的修改和它的變形能夠由本領(lǐng)域技術(shù)人員實(shí)現(xiàn)。
附圖概述
將參考附圖,僅以示例的方式描述本發(fā)明的實(shí)施例和實(shí)現(xiàn),其中 圖l是計(jì)算來自特征池至少一個(gè)特征等級(jí)的方法的實(shí)現(xiàn)的流程圖;和 圖2圖示地解釋了用于計(jì)算來自特征池至少一個(gè)特征等級(jí)的模塊的 實(shí)施例。
具體實(shí)施例方式
7

圖1是計(jì)算來自特征池至少一個(gè)特征等級(jí)的方法io的示例實(shí)現(xiàn)的流
程圖。方法10從獲取1多個(gè)特征子集開始,每個(gè)特征子集包括來自特征
池的特征。在獲取l多個(gè)特征子集后,方法基于該至少一個(gè)特征在特征子
集中的出現(xiàn)繼續(xù)計(jì)算2來自特征池的特征的等級(jí)。如果來自特征池的特征 在來自多個(gè)特征子集的數(shù)個(gè)特征子集中出現(xiàn),其中該數(shù)可以是預(yù)定義的或 者基于用戶輸入,那么該特征可被分級(jí)為相關(guān)的并獲得例如等級(jí)l。如果 來自特征池的特征沒有在來自多個(gè)特征子集的任何特征子集中出現(xiàn),該特 征可被分級(jí)為不相關(guān)的并獲得等級(jí)0。在計(jì)算2特征的等級(jí)后,方法10 可基于另一個(gè)特征在特征子集中的出現(xiàn),計(jì)算2來自特征池的該另一個(gè)特 征的等級(jí)。該方法繼續(xù)計(jì)算2特征等級(jí),直到終止計(jì)算2特征等級(jí)的條件 滿足,例如當(dāng)來自特征池的所有特征都被分級(jí)時(shí)。 一旦終止計(jì)算2特征等 級(jí)的條件被滿足,方法10終止。
在方法10的實(shí)現(xiàn)中,該方法進(jìn)一步包括基于至少一個(gè)特征的計(jì)算等 級(jí),創(chuàng)建3分級(jí)特征的列表。該分級(jí)特征的列表可被用來確定例如用于分 類研究對(duì)象的有用特征子集。
在方法10的實(shí)現(xiàn)中,特征的多個(gè)特征子集根據(jù)進(jìn)化計(jì)算算法得以獲 得。進(jìn)化計(jì)算算法的一個(gè)例子是遺傳算法。盡管參考遺傳算法描述本發(fā)明 方法10的實(shí)現(xiàn),但本發(fā)明的范圍并不限制于這類算法。總的來說,任何 產(chǎn)生多個(gè)特征子集的算法可由方法10使用。這樣的算法包括,但不限于, 進(jìn)化算法、進(jìn)化編程、演進(jìn)策略、遺傳編程、迭代本地搜索和學(xué)習(xí)分類器 系統(tǒng)。
遺傳算法運(yùn)行典型地包括幾個(gè)實(shí)驗(yàn)。每個(gè)實(shí)驗(yàn)從特征子集的不同初始 整體(initial ensemble)開始。特征子集的這個(gè)整體被稱為特征子集的 第一代。來自特征子集初始整體的每個(gè)特征子集可包括從特征池中隨機(jī)選 擇的特征。在從研究對(duì)象的學(xué)習(xí)組分類研究對(duì)象方面的有效性方面,評(píng)估 來自特征子集整體的每個(gè)特征子集。基于該評(píng)估的性能分級(jí)可^f皮分配給該 特征子集。在每個(gè)評(píng)估后,通過變異操作、交換(crossover)操作和/ 或其他操作,包括在特征子集全體中的每個(gè)特征子集可被修改,從而在每 個(gè)特征子集中潛在有用的特征被保留,而潛在地沒用的特征從每個(gè)特征子 集中被刪除。特征子集的更新整體被稱為下一代,例如特征子集的第二代、 第三代等。包括在特征子集更新整體中的每個(gè)被修改的特征子集被再次評(píng) 估。修改-評(píng)估循環(huán)的迭代繼續(xù),直到終止條件被滿足。終止條件可以基 于更新前后特征子集整體的比較。在遺傳算法中,當(dāng)^^改前后特征子集中包括的特征子集類似時(shí),修改-評(píng)估循環(huán)的迭代被終止。每個(gè)實(shí)驗(yàn)可包括 多個(gè)所謂的軟重啟。當(dāng)終止修改-評(píng)估迭代循環(huán)迭代的終止條件發(fā)生時(shí), 可以執(zhí)行軟重啟。在每個(gè)軟重啟時(shí),包括在特征子集整體中的每個(gè)特征子 集被再次隨機(jī)初始化,即從特征子集中移除一些特征并且來自特征池的一 些特征被加入特征子集,但是至少一個(gè)特征子集,典型地具有最佳性能分 級(jí)的那個(gè),被保持完整。在已經(jīng)執(zhí)行了預(yù)定次數(shù)的軟重啟之后,可以終止 實(shí)驗(yàn)。在名為"一種用于基于染色體的醫(yī)療診斷測(cè)試優(yōu)化的遺傳算法
(Genetic algorithms for optimization of genomics-based medical diagnostic tests)"公開專利申請(qǐng)W02005/078629中描述了一種遺傳算 法,通過引用它被結(jié)合于此。遺傳算法的其他方面和它們的應(yīng)用在由 D.Schaffer、 A.Janevski 和M.Simpson在 2005 IEEE Symposicum on Computational Intelligence in Bioinformatics and Computational Biology學(xué)報(bào)(CIBCB 2005, La Jolla, CA, USA, 2005 )中公開的論文
"一種用于在分子測(cè)量數(shù)據(jù)中發(fā)現(xiàn)診斷模式的遺傳算法方法(A Genetic Algorithm Approach for Discovering Diagnostic Patterns in Molecular Measurement Data)"中得以描述,通過引用該論文被結(jié)合于 此。
在方法10的實(shí)現(xiàn)中,獲取1多個(gè)特征子集包括通過執(zhí)行遺傳算法創(chuàng) 建特征子集。多個(gè)特征子集可通過運(yùn)行或多次運(yùn)行遺傳算法得以獲取。在 運(yùn)行期間生成的多個(gè)特征子集可被存儲(chǔ)在存儲(chǔ)裝置中,以便它們能夠被本 發(fā)明的方法IO檢索。
在方法10的實(shí)現(xiàn)中,獲得的多個(gè)特征子集包括所有通過遺傳算法的 運(yùn)行生成的子集。因此,多個(gè)特征子集包括所有包括在特征子集初始整體、 在遺傳算法每次軟重啟時(shí)特征子集的更新整體和包括在遺傳算法運(yùn)行中 每個(gè)實(shí)驗(yàn)中的特征子集。
在方法10的實(shí)現(xiàn)中,獲得1多個(gè)特征子集包括基于選擇標(biāo)準(zhǔn)從多個(gè) 候選特征子集中選擇多個(gè)特征子集。多個(gè)候選特征子集可包括由運(yùn)行遺傳 算法生成的所有子集,而多個(gè)特征子集可包括例如在每次軟重啟之后預(yù)定 義數(shù)目的修改-評(píng)估循環(huán)迭代中生成的特征子集。例如,在終止標(biāo)準(zhǔn)滿足 之前包括在修改-評(píng)估循環(huán)最后100次迭代中的特征子集可被包括在多個(gè)
特征子集中。
在方法10的實(shí)現(xiàn)中,來自多個(gè)候選特征子集的每個(gè)候選特征子集與
各個(gè)候選特征子集的特性相關(guān)聯(lián),并且選擇標(biāo)準(zhǔn)基于所述各個(gè)候選特征子集特性的評(píng)估。例如,候選特征子集的特性可通過遺傳算法計(jì)算。由遺傳 算法計(jì)算的特性的例子包括在評(píng)估期間特征子集的性能分級(jí)、特征子集的 大小和特征子集的最大年齡(即包括該特征子集的特征子集的連續(xù)更新整 體的最大數(shù)目)。例如,每個(gè)候選特征子集可基于它的性能分級(jí)和/或它的
最大年齡得以評(píng)估。其性能分級(jí)高于分級(jí)閾值的特征子集和/或其最大年 齡高于年齡閾值的特征子集可被包括在多個(gè)特征子集中。
在方法10的實(shí)現(xiàn)中,獲取1多個(gè)特征子集包括將來自多個(gè)候選特征 子集的特征子集聚合(group)在一起。例如,包括來自特征池中相同特 征的、由運(yùn)行遺傳算法生成的所有那些候選特征子集可被認(rèn)為是一個(gè)特征 子集,并且只有這個(gè)特征子集可被包括在多個(gè)特征子集中??蛇x地, 一個(gè) 特征子集的特性可根據(jù)包括相同特征的候選特征子集的各個(gè)特性得以計(jì) 算??蛇x地, 一個(gè)特征子集的特性可包括由運(yùn)行遺傳算法生成的、包括相 同特征的特征子集的數(shù)量。
本領(lǐng)域的技術(shù)人員將理解描述的獲取多個(gè)特征子集的方法用于解釋 本發(fā)明,而不限制權(quán)利要求的范圍。
在方法10的實(shí)現(xiàn)中,計(jì)算2來自特征池至少一個(gè)特征的等級(jí)進(jìn)一步 基于該至少一個(gè)特征在多個(gè)特征子集中的出現(xiàn)頻率。特征a的等級(jí)L可等 于來自多個(gè)特征子集的子集數(shù),其中該特征被包括
^ = ,
其中求和在來自多個(gè)特征子集的所有特征子集A上運(yùn)行,并且其中如果 m」,L(。)為l,在其他情況下為0。
在方法10的實(shí)現(xiàn)中,來自特征的多個(gè)特征子集的每個(gè)特征子集與各
個(gè)特征子集的特性相關(guān)聯(lián)。例如,每個(gè)特征子集的特性可由遺傳算法得以 計(jì)算。由遺傳算法計(jì)算的特性的例子包括在評(píng)估期間特征子集的性能分 級(jí)、特征子集的大小和特征子集的最大年齡(即包括該特征子集的特征子 集連續(xù)更新整體的最大數(shù)目)。
在方法10的實(shí)現(xiàn)中,計(jì)算2來自特征池至少一個(gè)特征的等級(jí)進(jìn)一步
基于與來自多個(gè)特征子集的每個(gè)特征子集相關(guān)聯(lián)的特性。例如,與每個(gè)特 征子集A相關(guān)聯(lián)的特性可以是特征子集A的性能分級(jí)p (A )。性能分級(jí)p (A )可被定義為來自由特征子集A正確分類的有效研究對(duì)象組的一小部 分研究對(duì)象。來自特征池的特征a的等級(jí)ra可被定義為其中求和在來自多個(gè)特征子集的所有特征子集A上運(yùn)行。與每個(gè)特征子集 A關(guān)聯(lián)的特性可以是特征子集的大小s (A)。例如,才艮據(jù)特征子集的大小 s (A)對(duì)特征a的每次出現(xiàn)進(jìn)行加權(quán)f。
/(
在方法10的實(shí)現(xiàn)中,來自特征池至少一個(gè)特征的等級(jí)根據(jù)來自特征 池兩個(gè)或更多特征在來自多個(gè)特征子集的特征子集中的同時(shí)出現(xiàn)得以計(jì) 算。在這種情況下,特征的同時(shí)出現(xiàn),即成對(duì)、三個(gè)一組的出現(xiàn),將被計(jì) 數(shù)。
在方法10的實(shí)現(xiàn)中,基于由特征池和多個(gè)特征子集定義的類同網(wǎng)絡(luò) (affinity network),來自特征池兩個(gè)或更多特征在來自多個(gè)特征子集 的特征子集中的同時(shí)出現(xiàn)被評(píng)估?;谔卣鞒睾投鄠€(gè)特征子集定義的類同 網(wǎng)絡(luò)包括節(jié)點(diǎn)。類同網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)相應(yīng)于來自特征池的特征。如果一個(gè) 特征子集存在于多個(gè)特征子集中,類同網(wǎng)絡(luò)的兩個(gè)節(jié)點(diǎn)由邊緣(edge )連 接,以便相應(yīng)于這兩個(gè)節(jié)點(diǎn)的特征被包括在所述特征子集中。來自特征池 的特征也可以被稱為類同網(wǎng)絡(luò)上下文中的節(jié)點(diǎn)。類同網(wǎng)絡(luò)和它們的參數(shù)可 在http: 〃arxiv. org/PS—cache/cond-mat/pdf/0608/0608670. pdf可獲得 的、Jari Saramaki等人的名為"加權(quán)復(fù)雜網(wǎng)絡(luò)聚類系數(shù)的概述 (Generalizations of the clustering coefficient to weighted complex networks ),,的論文中得以描述。
類同網(wǎng)絡(luò)可由鄰接矩陣來描述。類同網(wǎng)絡(luò)的鄰接矩陣是包括元素Mab 的矩陣,其中指數(shù)a、 b是類同網(wǎng)絡(luò)的節(jié)點(diǎn)。如果兩個(gè)節(jié)點(diǎn)a和b由邊緣 連接,鄰接矩陣元素NL等于1,否則等于O。
描述類同網(wǎng)絡(luò)(尤其是加權(quán)類同網(wǎng)絡(luò))的另一個(gè)矩陣是權(quán)重矩陣。權(quán) 重矩陣包括元素Wab,其中指數(shù)a、 b是類同網(wǎng)絡(luò)的節(jié)點(diǎn)。權(quán)重矩陣元素W" 等于a和b特征對(duì)在多個(gè)特征子集中出現(xiàn)的頻率。權(quán)重矩陣元素W化定義 了連接節(jié)點(diǎn)a和b的邊緣的權(quán)重。
提議了用于描述類同網(wǎng)絡(luò)和加權(quán)類同網(wǎng)絡(luò)的節(jié)點(diǎn)的幾個(gè)參數(shù)。例如, 節(jié)點(diǎn)a的度(degree) ka被定義為、-ZM。6;節(jié)點(diǎn)a的強(qiáng)度(strength)
33被定義為&=2;^^ ,節(jié)點(diǎn)a的聚類系數(shù)被定義為c^^^,其中ta 是將節(jié)點(diǎn)a作為三角形的頂點(diǎn)(triangle vertex)的三角形的數(shù)目,_^。以上^t定義中的求和在類同網(wǎng)絡(luò)的所有
4 (、 - )) 2
節(jié)點(diǎn)b或b和C上運(yùn)行。類同網(wǎng)絡(luò)和加權(quán)類同網(wǎng)絡(luò)的參數(shù)可被用于計(jì)算在
類同網(wǎng)絡(luò)中節(jié)點(diǎn)(即來自特征池特征)的等級(jí)。例如,節(jié)點(diǎn)a的度或強(qiáng)度 被用作出現(xiàn)頻率的權(quán)值,。=、^ )或者^=5。2> ??商鎿Q地,類同
爿 爿
網(wǎng)絡(luò)或加權(quán)類同網(wǎng)絡(luò)的參數(shù)可被用來定義特征的等級(jí)r。 = c?;蛘遰。=《。 在方法10的實(shí)現(xiàn)中,來自特征池特征的多個(gè)等級(jí)被計(jì)算。不同的等 級(jí)可被結(jié)合以便計(jì)算另一個(gè)等級(jí)??蛇x地,不同的等級(jí)可被用于創(chuàng)建分級(jí) 特征的不同列表。在特殊應(yīng)用中使用的分級(jí)特征列表的創(chuàng)建和選擇可基于 各種因素,例如獲取將由來自特征分級(jí)列表中的特征分類的研究對(duì)象的外 部條件(例如溫度、壓力、濕度、污染),或者從中獲取研究對(duì)象的研究 對(duì)象人群(例如農(nóng)民、女人、男人)。
在實(shí)現(xiàn)中,方法10包括獲取1兩個(gè)或更多特征子集。每個(gè)多個(gè)特征 子集包括來自特征池的特征。例如,每個(gè)多個(gè)特征子集可從遺傳算法的兩 次或多次運(yùn)行獲取。對(duì)于每個(gè)多個(gè)特征子集,來自特征池的特征等級(jí)被計(jì) 算。該實(shí)現(xiàn)使得基于兩個(gè)或更多等級(jí)值將特征分類為三組成為可能 對(duì)于每個(gè)多個(gè)特征子集一致具有高等級(jí)的特征——必須具有的 (must-haves )。例如,如果等級(jí)是由在多個(gè)特征子集中特征出現(xiàn)的頻率 定義,那么必須具有的是一直出現(xiàn)在每個(gè)多個(gè)特征子集大多數(shù)子集中的特 征。
對(duì)于一些多個(gè)特征子集具有高等級(jí)并且對(duì)于來自兩個(gè)或更多多個(gè)特征子 集的其他多個(gè)特征子集具有相對(duì)低的等級(jí)的特征一一交換的(swaps )。例 如,如果等級(jí)是由在多個(gè)特征子集中特征出現(xiàn)的頻率定義,那么交換是一 直出現(xiàn)在來自 一些多個(gè)特征子集的大多數(shù)特征子集的、相對(duì)經(jīng)常缺席來自 其他多個(gè)特征子集的特征子集的特征,和
對(duì)于來自兩個(gè)或更多多個(gè)特征子集的每個(gè)多個(gè)特征子集一直具有低等級(jí) 的特征——填充的(padders)。
基于特征等級(jí)值統(tǒng)計(jì)分布的參數(shù)計(jì)算,可以實(shí)現(xiàn)將特征分類為三組, 必須具有的、交換的和填充的。例如,參數(shù)可以是等級(jí)值的平均和標(biāo)準(zhǔn)差。 顯示出大平均和相對(duì)小的標(biāo)準(zhǔn)差的特征是必須具有的。顯示出例如與必須 具有的具有相同等級(jí)量級(jí)的類似平均差,但相對(duì)大標(biāo)準(zhǔn)差的特征是交換 的。最后,顯示出小平均和小標(biāo)準(zhǔn)差的特征在分類研究對(duì)象方面沒用,是
12填充的。
圖2解釋了用于計(jì)算來自特征池至少一個(gè)特征的等級(jí)的^^莫塊20的示 意性實(shí)施例。該模塊的示例實(shí)施例包括
- 用于獲取多個(gè)特征子集的獲取單元21 ,每個(gè)特征子集包括來自特征池 的特征;和
- 用于基于至少一個(gè)特征在特征子集中的出現(xiàn),計(jì)算來自特征池至少一 個(gè)特征的等級(jí)的計(jì)算單元22。
模塊20的示例實(shí)施例進(jìn)一步包括
- 用于基于至少一個(gè)特征的計(jì)算等級(jí),創(chuàng)建分級(jí)特征列表的列表單元 23;
- 用于接收輸入數(shù)據(jù)的輸入連接器27;
- 用于傳輸輸出數(shù)據(jù)的輸出連接器28;
- 用于存儲(chǔ)通過輸入連接器27從外部設(shè)^^接收的輸入數(shù)據(jù)和由模塊20 的單元計(jì)算的數(shù)據(jù)的存儲(chǔ)器單元25;和
醫(yī)用于連接模塊20的單元的存儲(chǔ)器總線26。
該模塊可包括其他的單元,例如用于基于選擇標(biāo)準(zhǔn)從多個(gè)候選特征子 集中選擇多個(gè)特征子集的選擇單元。
本發(fā)明可由任何合適的形式實(shí)現(xiàn),包括硬件、軟件或固件實(shí)現(xiàn),或者 這些的任意組合。本發(fā)明或本發(fā)明的一些特征可被實(shí)現(xiàn)為在一個(gè)或多個(gè)數(shù) 據(jù)處理器和/或數(shù)字信號(hào)處理器上執(zhí)行的計(jì)算機(jī)程序產(chǎn)品。本發(fā)明實(shí)施例 的元件或組件可以以任何合適的方式物理地、功能地和邏輯地實(shí)現(xiàn)。模塊 20的功能性可在單一的單元或多個(gè)單元中得以實(shí)現(xiàn)。
雖然結(jié)合特定的實(shí)施例來描述本發(fā)明,但并不意欲將其限制為在此闡 述的特定形式。相反的,本發(fā)明的范圍僅由附加的權(quán)利要求書限制。在權(quán) 利要求書中,術(shù)語"包括"不排除其他元件或步驟的存在。此外,雖然單 獨(dú)的特征被包括在不同的權(quán)利要求中,但是這些特征可能被有利地組合, 且包括在不同的權(quán)利要求中并不意味著特征的組合是不可行的和/或沒有 益處的。除此之外,單數(shù)術(shù)語并不排除復(fù)數(shù)。因此,術(shù)語"一個(gè)"、"第一"、 "第二"等并不排除復(fù)數(shù)。并且,在權(quán)利要求書中的附圖標(biāo)記不應(yīng)當(dāng)被解 釋為對(duì)它范圍的限制。
權(quán)利要求
1.一種計(jì)算來自特征池的至少一個(gè)特征的等級(jí)的方法,該方法包括-獲取(1)多個(gè)特征子集,每個(gè)特征子集包括來自特征池的特征;和-根據(jù)至少一個(gè)特征在特征子集中的出現(xiàn),計(jì)算(2)來自特征池的至少一個(gè)特征的等級(jí)。
2. 根據(jù)權(quán)利要求l的方法,其中,多個(gè)特征子集通過進(jìn)化計(jì)算算法 得以獲取。
3. 根據(jù)權(quán)利要求1的方法,其中,獲取多個(gè)特征子集包括基于選擇 標(biāo)準(zhǔn)從多個(gè)候選特征子集選擇多個(gè)特征子集。
4. 根據(jù)權(quán)利要求3的方法,其中,來自多個(gè)候選特征子集的每個(gè)候 選特征子集與相應(yīng)候選特征子集的特性相關(guān)聯(lián),并且其中選擇標(biāo)準(zhǔn)基于對(duì) 所述相應(yīng)候選特征子集特性的評(píng)估。
5. 根據(jù)權(quán)利要求1的方法,其中,計(jì)算來自特征池的至少一個(gè)特征 的等級(jí)進(jìn)一步基于至少 一個(gè)特征在多個(gè)特征子集中出現(xiàn)的頻率。
6. 根據(jù)權(quán)利要求l的方法,其中,來自多個(gè)特征子集的每個(gè)特征子 集與所述特征子集的特性相關(guān)聯(lián)。
7. 根據(jù)權(quán)利要求6的方法,其中,計(jì)算來自特征池的至少一個(gè)特征 的等級(jí)進(jìn)一步基于與來自多個(gè)特征子集的相應(yīng)特征子集相關(guān)聯(lián)的特性。
8. 根據(jù)權(quán)利要求l的方法,其中,基于來自特征池的兩個(gè)或更多特 征在來自多個(gè)特征子集的特征子集中的同時(shí)出現(xiàn),來自特征池的至少一個(gè) 特征的等級(jí)得以計(jì)算。
9. 根據(jù)權(quán)利要求1的方法,進(jìn)一步包括基于至少一個(gè)特征的計(jì)算等 級(jí),創(chuàng)建(3)分級(jí)特征的列表。
10. —種用于計(jì)算來自特征池的至少一個(gè)特征的等級(jí)的模塊(20), 該模塊包括- 用于獲取多個(gè)特征子集的獲取單元(21 ),每個(gè)特征子集包括來自特 征池的特征;和- 用于基于至少一個(gè)特征在特征子集中的出現(xiàn),計(jì)算來自特征池的至少 一個(gè)特征的等級(jí)的計(jì)算單元(22 )。
11. 一種計(jì)算機(jī)程序產(chǎn)品,用于當(dāng)所述計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上 被運(yùn)行時(shí),指令處理單元執(zhí)行權(quán)利要求1的方法。
全文摘要
本發(fā)明涉及一種計(jì)算來自特征池的至少一個(gè)特征的等級(jí)的方法,該方法包括獲取(1)多個(gè)特征子集,每個(gè)特征子集包括來自特征池的特征;和基于至少一個(gè)特征在特征子集中的出現(xiàn),計(jì)算(2)至少一個(gè)特征的等級(jí)。例如,至少一個(gè)特征的等級(jí)可基于該至少一個(gè)特征在多個(gè)特征子集中出現(xiàn)的頻率。因此,該方法可被有利地應(yīng)用于分級(jí)來自特征池的特征。包括一流特征的新的特征子集可根據(jù)計(jì)算的特征等級(jí)值得以創(chuàng)建,一流的特征潛在地比來自特征池的特征子集更有用。對(duì)于這種來自特征池的分級(jí)特征列表,可有許多其他的有益用途。
文檔編號(hào)G06N3/00GK101558419SQ200780046259
公開日2009年10月14日 申請(qǐng)日期2007年12月6日 優(yōu)先權(quán)日2006年12月13日
發(fā)明者A·A·J·簡夫斯基, J·D·沙弗, M·R·辛普森 申請(qǐng)人:皇家飛利浦電子股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1