專利名稱:用于使用支持向量機分析流式細胞術數(shù)據(jù)的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及用于使用支持向量機自動分析分布式數(shù)據(jù)特別是流式細胞術數(shù)據(jù)的 方法。
背景技術:
流式細胞術是懸浮在流動的液流中的微小顆粒的特征的測量。聚焦的激光光束 照亮每一個移動的顆粒,并且光在所有的方向散射。放置在交點前面或垂直于激光光束的 檢測器接收散射光的脈沖,產(chǎn)生被輸入到計算機分析器中用于解釋的信號。所檢測的前向 散射光的總量取決于顆粒尺寸和折射率,但與如激光器所看見的顆粒的橫截面面積緊密相 關,而側向散射光的量可指示形狀或粒度。流式細胞術的最廣泛使用的應用之一是用于醫(yī)療診斷學的細胞分析,其中,所 關注的顆粒是懸浮在含鹽溶液中的細胞。如果所關注的細胞標志可以用熒光染料標 記,那么細胞的另外的性質(zhì)例如表面分子或細胞內(nèi)組分也可以被準確地定量;例如,抗 體-熒光染料結合物可用來連接到特定的表面或細胞內(nèi)受體。通過借助于靠著表面標 志的熒光標記的單克隆抗體的使用來描述在不同的發(fā)展階段的細胞的特征的免疫分型 (Immunophenotyping)是流式細胞術的最普遍的應用之一。已發(fā)展了連接到特定的結構 (例如DNA、線粒體)或對局部的化學性質(zhì)(例如Ca++濃度、pH等)敏感的其它染料。雖然流式細胞術在醫(yī)療診斷學中被廣泛地使用,它在非醫(yī)療應用例如水分析或其 它液體分析中也是有用的。例如,可分析海水以識別細菌或其它有機體的存在或類型,可以 分析牛奶以檢驗微生物,以及可以對粒狀污染物或添加劑檢驗燃料。所使用的激光光束具有合適的顏色,以激發(fā)選定的一種或多種熒色物。所發(fā)射 的熒光的量可與正在討論的細胞標志的表達相關聯(lián)。每一種流式細胞儀通常能夠根據(jù)其 配置同時檢測許多不同的熒色物。在一些儀器中,通過使用以不同波長發(fā)射的激光器, 可以同時分析多種熒色物。例如,可從Becton Dickinson (Franklin Lakes, NJ)獲得的 FACSCalibur 流式細胞術系統(tǒng)是多色流式細胞儀,此多色流式細胞儀配置成用于四色操 作。一系列光電倍增管收集來自每一個細胞的熒光發(fā)射,并且在計算機上收集和分析隨后 的電事件,計算機將熒光強度值分配到在流式細胞術標準(FCS)數(shù)據(jù)文件中的每一個信 號。數(shù)據(jù)的分析涉及識別在多維空間中的多邊形區(qū)域的交集或并集,其用來過濾數(shù)據(jù)或對 數(shù)據(jù)“設門(gating) ”,并且限定事件的分組的子集用于進一步的分析或分類。國際分析細胞協(xié)會(ISAC)已采納了對FCM數(shù)據(jù)的一般表示的FCS數(shù)據(jù)文件標準。 記錄貫穿細胞儀的樣本的測量的所有主要分析儀器都支持這個標準,允許研究者和臨床醫(yī) 生在很多市場上可買到的儀器和軟件中間選擇而不會遇到主要的數(shù)據(jù)兼容性問題。然而, 這個標準沒有描述用于計算的后處理和數(shù)據(jù)分析的協(xié)議。
5
由于存在于流式細胞術分析中的大量的數(shù)據(jù),通過人工過程充分利用數(shù)據(jù)常常很 難。數(shù)據(jù)的高維數(shù)也使得使用傳統(tǒng)的統(tǒng)計方法和學習技術例如人工神經(jīng)網(wǎng)絡不可行。支持 向量機是能夠處理高維數(shù)據(jù)的基于內(nèi)核的機器學習技術。它在使用適當?shù)卦O計的內(nèi)核處理 流式數(shù)據(jù)中可能是有效的工具。內(nèi)核在現(xiàn)代機器學習技術例如支持向量機(SVM)中起著關鍵的作用。用于分類的 支持向量機被定義為在特征空間中的最佳超平面,此特征空間通常是高維的(甚至無限維 的)內(nèi)積空間。在特征空間中,最佳超平面的構造需要被映射的輸入向量的內(nèi)積。定義在 輸入空間上的核函數(shù)提供計算內(nèi)積的有效方法,而事實上不將輸入映射到特征空間。內(nèi)核 定義了在兩個向量之間的相似性測量。SVM方法的優(yōu)勢是其僅基于內(nèi)核的自然的相似性測 量來獲得隱含模式而不使用顯式特征提取的能力。在許多應用例如圖像識別和流式細胞術數(shù)據(jù)分析中,輸入數(shù)據(jù)通常是高維數(shù)的并 且是大量的。這種數(shù)據(jù)的重要特征通常在于某些空間中點的分布,而不是個別的點的孤立 的值。標準內(nèi)核(例如多項式內(nèi)核和高斯內(nèi)核)對這種類型的數(shù)據(jù)通常是無效的,因為標 準內(nèi)核同等地處理所有的向量分量,使得大的輸入量趨向于使內(nèi)核對特定問題的基本結構 和分布特征不敏感。作為結果,它們并不非常適合于分布式數(shù)據(jù)。例如,已報導了使用徑 向基函數(shù)(RBF)內(nèi)核的流式細胞術數(shù)據(jù)的SVM分析,徑向基函數(shù)內(nèi)核的例子是高斯內(nèi)核 和 B-樣條函數(shù)內(nèi)核。(見 Rajwa,B.等人的 “AutomatedClassif ication of Bacterial Particles in Flow by Multiangle ScatterMeasurement and Support Vector Machine Classifier”,Cytometry Part A,73A =369-379(2008)。)所描述的方法需要使用“增強型散 射-檢測系統(tǒng)”以獲得所報導的高分類準確性。此外,作者得出結論,如果問題的維數(shù)高于 2,那么可能不容易解釋SVM結果。這種限制最小化了這種技術的實際應用。Toedling等人 在“Automated in-silico detection of cell populations inflow cytometry readouts and its application to leukemia disease monitoring”,BMC Bioinformatics,7 :282, June 2006中描述了通過將單一的細胞分配到預先定義的組中使用徑向基函數(shù)內(nèi)核來檢測 白血病細胞的流式細胞術數(shù)據(jù)的SVM分析。事實上,SVM分析取代了手工設門,但是沒有考 慮數(shù)據(jù)的任何式分布特征。因此,仍需要一種用于分析流式細胞術數(shù)據(jù)和其它類型的分布式數(shù)據(jù)的方法,這 些分布式數(shù)據(jù)包括基本結構內(nèi)的重要信息和分布,并能夠用于更高維數(shù)。本發(fā)明目的在于 這樣的方法。發(fā)明的簡要概述根據(jù)本發(fā)明,使用SVM內(nèi)核來分析流式細胞術數(shù)據(jù),SVM內(nèi)核是特別為具有分布 性質(zhì)的數(shù)據(jù)創(chuàng)建的。輸入數(shù)據(jù)P集是在空間中的大量點的集合。例如,圖像可被看作是在 2-維空間中的點的集合。在適當?shù)臉藴驶螅芽杀豢醋魇歉怕史植?。為了定義關于兩個 這種輸入數(shù)據(jù)P和q的內(nèi)核以捕獲分布趨勢,定義關于P和q的函數(shù),以測量兩個完整的分 布之間的相似性,而不僅是在分布中的單獨的點。支持向量機的實例通常在美國專利第6,760,715號、第7,117,188號和第 6,996,549號中公開,這些專利連同其它專利一起在此通過引用被并入,支撐向量機用來分 析流式細胞術數(shù)據(jù),所述流式細胞術數(shù)據(jù)由常規(guī)的商業(yè)流式細胞術裝置產(chǎn)生。用于實施流 式細胞術測量的示例性的系統(tǒng)在美國專利第5,872,627號和第4,284,412號中被描述,以上專利在此通過引用被并入。在此描述的特定的實施例中,數(shù)據(jù)涉及醫(yī)療診斷學的應用,特 別是用于檢測血液疾病,例如骨髓增生異常綜合癥(MDS)。流式細胞術免疫分型已被證明是 用于造血細胞中定量和定性異常的檢測的精確和高度敏感的方法,甚至在組合的形態(tài)學和 細胞遺傳學是非診斷的時。根據(jù)本發(fā)明,提供了用于接收流式細胞術數(shù)據(jù)的輸入并使用一個或多個支持向量 機分析所述數(shù)據(jù)以產(chǎn)生輸出的自動方法和系統(tǒng),其中,所述流式細胞術數(shù)據(jù)被分類成兩種 或多種類別。所述一個或多個支持向量機使用捕獲輸入數(shù)據(jù)內(nèi)的分布式數(shù)據(jù)的內(nèi)核。這 種分布式內(nèi)核通過使用兩個分布之間的距離函數(shù)(散度)來構造。測量兩個概率分布之 間的差異的適當?shù)木嚯x函數(shù)的實例包括Ku 1 Iback-Leibler散度、Bhattacharya親和性、 Jeffrey的散度、Mahalanobis距離、Kolmogorov變分距離和期望的條件熵。在優(yōu)選的實施 方案中,使用Bhattacharya親和性。所述分布式內(nèi)核直接應用在SVM或其它學習機器中, 以產(chǎn)生分類器和其它預測系統(tǒng)。附圖的簡要說明
圖1是根據(jù)本發(fā)明的用于自動收集和分析流式細胞術數(shù)據(jù)的系統(tǒng)的簡圖。圖2是在對MDS的流式細胞術分析中所關注的群體的分布的示例性的雙對數(shù)顯示。圖3是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的流程圖。圖4是顯示從本發(fā)明方法對用于MDS檢驗的流式細胞術數(shù)據(jù)的分析的應用產(chǎn)生的 接受者操作特征(ROC)曲線的圖。示例性實施方案的詳述根據(jù)本發(fā)明,提供了用于分析流式細胞術數(shù)據(jù)的方法和系統(tǒng)。特別地,本發(fā)明方法 包括在分析具有分布式性質(zhì)的數(shù)據(jù)中使用的內(nèi)核的產(chǎn)生。在流式細胞術應用中的輸入數(shù)據(jù) P是在空間中的大量點的集合。例如,圖像可以被看作是在2-維空間中的點的集合。在適 當?shù)臉藴驶?,P可被看作是概率分布。為了定義關于兩個這種輸入數(shù)據(jù)P和q的內(nèi)核 以捕獲分布趨勢,必須定義關于P和q的函數(shù),以測量在兩個完整的分布之間的相似性,而 不僅僅是在分布中的單獨的點。構造這種“分布式內(nèi)核”的一種方式是使用這兩個分布之間的距離函數(shù)(散度)。 如果P (P,q)是距離函數(shù),那么下列項是內(nèi)核k(p,P) = e-p(p,p)。存在測量兩個概率分布之間的差異的許多距離函數(shù)。Kullback-Leibler散度、 Bhattacharya親禾口性、Jeffrey的散度、Mahalanobis距離、Kolmogorov變分距離禾口期望的 條件熵都是這種距離的例子。給定一個距離函數(shù),可以基于上面的公式構造內(nèi)核。例如,可以基于Bhattacharya親和性構造特定的定制內(nèi)核。對于具有平均值M和 協(xié)方差矩陣Σ的正常分布,Bhattacharya親和性具有以下形式
權利要求
一種用于流式細胞術數(shù)據(jù)的分析和分類的方法,其中,所述流式細胞術數(shù)據(jù)包括描述所述數(shù)據(jù)的多個特征,所述方法包括將包括流式細胞術數(shù)據(jù)的輸入數(shù)據(jù)集下載到包括處理器和存儲設備的計算機系統(tǒng)中,其中,所述處理器被編程以執(zhí)行至少一個支持向量機,并執(zhí)行以下步驟使用一個或多個特征選擇算法來預處理所述輸入數(shù)據(jù)集的第一部分,以選擇所述多個特征的特征子集;使用所選擇的特征子集,使用所述輸入數(shù)據(jù)集的所述第一部分來訓練包括分布式內(nèi)核的支持向量機;使用所選擇的特征子集以所述輸入數(shù)據(jù)集的第二部分檢驗所訓練的支持向量機,以確定是否實現(xiàn)了最優(yōu)解;如果未實現(xiàn)最優(yōu)解,重復訓練和檢驗的步驟直至達到最優(yōu)解;一旦達到最優(yōu)解,就將實時數(shù)據(jù)集輸入到所述計算機系統(tǒng)中;使用所訓練和所檢驗的支持向量機,使用所選擇的特征子集來處理所述實時數(shù)據(jù)集,以產(chǎn)生包括所述流式細胞術數(shù)據(jù)到兩個不同種類之一的分類的結果;以及在顯示設備處產(chǎn)生具有流式細胞術數(shù)據(jù)分類的識別的輸出顯示。
2.如權利要求1所述的方法,其中,所述分布式內(nèi)核包括Bhattacharya親和性,所述 Bhattacharya親和性具有以下形式恤和一秘=,I平—Μ其中,P和q是輸入數(shù)據(jù)點,M是正態(tài)分布的平均值,并且Σ是協(xié)方差矩陣。
3.如權利要求1所述的方法,其中,所述一個或多個特征選擇算法包括留一法誤差率 分析。
4.如權利要求1所述的方法,其中,所述一個或多個特征選擇算法包括內(nèi)核對準。
5.如權利要求1所述的方法,其中,所述一個或多個特征選擇算法包括兩個特征選擇 算法,所述兩個特征選擇算法包括留一法誤差率分析和內(nèi)核對準。
6.如權利要求1所述的方法,其中,所述流式細胞術數(shù)據(jù)包括從對骨髓增生異常綜合 癥篩選的患者吸出的脊髓樣本的檢驗的結果,并且其中,所述流式細胞術數(shù)據(jù)分類包括所 述綜合癥的存在或不存在。
7.如權利要求1所述的方法,還包括下載對應于一個或多個樣本的數(shù)字圖像數(shù)據(jù)集,所述流式細胞術數(shù)據(jù)從所述一個或多 個樣本獲得;將所述數(shù)字圖像數(shù)據(jù)集分成圖像訓練集和圖像檢驗集; 預處理所述圖像訓練集,以識別并提取在所述圖像訓練集內(nèi)的所關注的特征; 訓練至少一個第二支持向量機,以對在所述圖像訓練集內(nèi)的所關注的特征分類; 檢驗所述至少一個第二支持向量機,以確定是否實現(xiàn)了最優(yōu)解,并且如果未實現(xiàn),重復 訓練和檢驗的步驟直至實現(xiàn)最優(yōu)解;輸入對應于所述實時數(shù)據(jù)集的實時圖像數(shù)據(jù)集,所述流式細胞術數(shù)據(jù)從所述實時數(shù)據(jù) 集獲得;處理所述實時圖像數(shù)據(jù),以對在所述實時圖像數(shù)據(jù)內(nèi)的所關注的特征分類,以產(chǎn)生圖 像分類;將所述圖像分類和所述流式細胞術數(shù)據(jù)分類輸入到第二級支持向量機中,用于數(shù)據(jù)組 合的分類;產(chǎn)生包括所述圖像分類和所述流式細胞術數(shù)據(jù)分類的組合結果的輸出分類。
8.如權利要求7所述的方法,其中,所述輸入數(shù)字圖像數(shù)據(jù)集和所述實時數(shù)字圖像數(shù) 據(jù)集是來自對骨髓增生異常綜合癥篩選的患者的細胞遺傳學圖像。
9.如權利要求8所述的方法,其中,所述輸出分類包括所述綜合癥的存在或不存在。
10.一種計算機程序產(chǎn)品,其體現(xiàn)在計算機可讀介質(zhì)上,用于流式細胞術數(shù)據(jù)的分析和 分類,其中,所述流式細胞術數(shù)據(jù)包括描述所述數(shù)據(jù)的多個特征,所述計算機程序產(chǎn)品包括 用于執(zhí)行支持向量機分類器并且還用于使計算機處理器執(zhí)行下列操作的指令接收輸入數(shù)據(jù)集;使用一個或多個特征選擇算法來預處理所述輸入數(shù)據(jù)集的第一部分,以選擇所述多個 特征的特征子集;使用所選擇的特征子集,使用所述輸入數(shù)據(jù)集的所述第一部分來訓練包括分布式內(nèi)核 的至少第一支持向量機;使用所選擇的特征子集以所述輸入數(shù)據(jù)集的第二部分來檢驗所訓練的支持向量機,以 確定是否實現(xiàn)了最優(yōu)解;如果未實現(xiàn)最優(yōu)解,重復訓練和檢驗的步驟直至達到最優(yōu)解;一旦達到最優(yōu)解,就將實時數(shù)據(jù)集接收到所述計算機系統(tǒng)中;使用所訓練和所檢驗的支持向量機,使用所選擇的特征子集來處理所述實時數(shù)據(jù)集, 以產(chǎn)生包括所述流式細胞術數(shù)據(jù)到兩個不同種類之一的分類的結果;以及在顯示設備處產(chǎn)生具有所述流式細胞術數(shù)據(jù)的分類的識別的輸出顯示。
11.如權利要求10所述的計算機程序產(chǎn)品,其中,所述分布式內(nèi)核包括Bhattacharya 親和性,所述Bhattacharya親和性具有以下形式
12.如權利要求10所述的計算機程序產(chǎn)品,其中,所述一個或多個特征選擇算法包括留一法誤差率分析。
13.如權利要求10所述的計算機程序產(chǎn)品,其中,所述一個或多個特征選擇算法包括 內(nèi)核對準。
14.如權利要求10所述的計算機程序產(chǎn)品,其中,所述一個或多個特征選擇算法包括 兩個特征選擇算法,所述兩個特征選擇算法包括留一法誤差率分析和內(nèi)核對準。
15.如權利要求10所述的計算機程序產(chǎn)品,其中,所述流式細胞術數(shù)據(jù)包括從對骨髓 增生異常綜合癥篩選的患者吸出的脊髓樣本的檢驗的結果,并且其中,所述結果包括所述 綜合癥的存在或不存在的指示。
16.如權利要求10所述的計算機程序產(chǎn)品,還包括用于使所述計算機處理器執(zhí)行以下 操作的指令接收對應于一個或多個樣本的數(shù)字圖像數(shù)據(jù)集,所述流式細胞術數(shù)據(jù)從所述一個或多 個樣本獲得;將所述數(shù)字圖像數(shù)據(jù)集分成圖像訓練集和圖像檢驗集;預處理所述圖像訓練集,以識別并提取在所述圖像訓練集內(nèi)的所關注的特征;訓練至少一個第二支持向量機,以對在所述圖像訓練集內(nèi)的所關注的特征分類;檢驗所述至少一個第二支持向量機,以確定是否已實現(xiàn)最優(yōu)解,并且如果未實現(xiàn),重復 訓練和檢驗的步驟直至實現(xiàn)最優(yōu)解;接收對應于所述實時數(shù)據(jù)集的實時圖像數(shù)據(jù)集,所述流式細胞術數(shù)據(jù)從所述實時數(shù)據(jù) 集獲得;處理所述實時圖像數(shù)據(jù),以對在所述實時圖像數(shù)據(jù)內(nèi)的所關注的特征分類,以產(chǎn)生圖 像分類;將所述圖像分類和所述流式細胞術數(shù)據(jù)分類輸入到第二級支持向量機中,用于數(shù)據(jù)組 合的分類;以及產(chǎn)生包括所述圖像分類和所述流式細胞術數(shù)據(jù)分類的組合結果的輸出分類。
17.如權利要求16所述的計算機程序產(chǎn)品,其中,所述輸入數(shù)字圖像數(shù)據(jù)集和所述實 時數(shù)字圖像數(shù)據(jù)集是來自對骨髓增生異常綜合癥篩選的患者的細胞遺傳學圖像。
18.如權利要求17所述的計算機程序產(chǎn)品,其中,所述輸出分類包括所述綜合癥的存 在或不存在。
全文摘要
提供了一種用于接收流式細胞術數(shù)據(jù)的輸入并使用一個或多個支持向量機分析所述數(shù)據(jù)以產(chǎn)生輸出的自動方法和系統(tǒng),其中,所述流式細胞術數(shù)據(jù)被分類成兩種或多種類別。所述一個或多個支持向量機使用捕獲輸入數(shù)據(jù)內(nèi)的分布式數(shù)據(jù)的內(nèi)核。這種分布式內(nèi)核通過使用兩個分布之間的距離函數(shù)(散度)來構造。在優(yōu)選的實施方案中,使用了基于Bhattacharya親和性的內(nèi)核。所述分布式內(nèi)核應用于從被懷疑有骨髓增生異常綜合癥的患者獲得的流式細胞術數(shù)據(jù)的分類。
文檔編號G06F17/50GK101981446SQ200980110847
公開日2011年2月23日 申請日期2009年2月8日 優(yōu)先權日2008年2月8日
發(fā)明者宏·章 申請人:醫(yī)療探索公司