專利名稱:一種仿射傳播聚類的細(xì)胞分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理、生物醫(yī)學(xué)、計算機(jī)視覺、計算方法,尤其是一種針對細(xì)胞圖 像分割后的細(xì)胞分類方法。
背景技術(shù):
細(xì)胞圖像的分割目的是提取出細(xì)胞體,在成功分割出細(xì)胞體后,可以將圖像信息 轉(zhuǎn)換成數(shù)值量,也就是本文第四章完成的工作。盡管不同的分割方法分割效果大相徑庭,但 都能獲得細(xì)胞單體,之后完成細(xì)胞單體轉(zhuǎn)換成數(shù)字統(tǒng)計量,也就是形態(tài)參數(shù)。大部分研究成 果只提出了分割的思想或統(tǒng)計形態(tài)參數(shù),致使研究學(xué)者必須面對海量的數(shù)據(jù),增加了研究 難度和分析時間。商業(yè)細(xì)胞形態(tài)分析軟件——IMT組織形態(tài)學(xué)分析軟件,對于細(xì)胞形態(tài)參數(shù)的分析 也僅停留在參數(shù)統(tǒng)計階段。首先該軟件對于分割效果來說并不理想,沒有分割出全部的目 標(biāo)體。其次,更沒有給出如何分類細(xì)胞。在此錯誤結(jié)果上完成的細(xì)胞統(tǒng)計,對于研究者來說 的意義聊勝于無。傳統(tǒng)的細(xì)胞形態(tài)分析方法存在的缺陷1、面對海量數(shù)據(jù),實時性差、計算復(fù)雜度 高;2、無法進(jìn)行細(xì)胞分類。
發(fā)明內(nèi)容
為了克服已有的細(xì)胞形態(tài)分析方法的計算復(fù)雜度高、實時性差、無法進(jìn)行細(xì)胞分 類的不足,本發(fā)明提供一種適合于處理海量數(shù)據(jù)、實時性良好、能有效進(jìn)行細(xì)胞分類的仿射 傳播聚類的細(xì)胞分類方法。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是—種仿射傳播聚類的細(xì)胞分類方法,所述細(xì)胞分類方法包括以下步驟1)、選取細(xì)胞圖像的圓形度參數(shù)C和矩形度參數(shù)R,設(shè)計樣本坐標(biāo)Xsample = 入 c+(l-x) *R,其中入代表先驗輸入值;選取細(xì)胞圖像的面積參數(shù)Area作為另一樣本 坐標(biāo)Ysample,選取細(xì)胞圖像的核質(zhì)比參數(shù)prop作為再一樣本坐標(biāo)Zsample ;2)、以所述三維的樣本坐標(biāo)的歐式距離作為樣本距離,對于樣本點(diǎn)Xi和xk,i興k, S(i,k) = -| Xi-Xk| |2,仿射傳播聚類的S矩陣的對角線取值為各個樣本間距離的平均值;3)、初始情況下,設(shè)置歸屬度矩陣A(i,k) = 0,更新矩陣R,R(i,k) = S(i, k)-max{A(i, k ' )+S(i,k' )},其中 k'乒 k ;更新矩陣 A, A(i,k) = min{0,R(k, k)+Emax{0, R(i',k)}},其中i'興i,k ;(注R(i,k)描述數(shù)據(jù)點(diǎn)k適合作為樣本點(diǎn)i 的聚類中心的程度;A(i,k)描述樣本點(diǎn)i選擇樣本點(diǎn)k作為其聚類中心的適合程度;i'為 更新的樣本點(diǎn),k'為競爭聚類中心);4)、在迭代設(shè)定次數(shù)后停止,從分類結(jié)果得到不同類型的細(xì)胞。進(jìn)一步,所述步驟4)中,在同一類型的細(xì)胞中選出聚類中心,所述聚類中心對應(yīng) 的細(xì)胞為具有代表性的形態(tài)參數(shù)的典型細(xì)胞。
本發(fā)明的技術(shù)構(gòu)思為仿射傳播(Affinity Propagation)是近期提出的一種先 進(jìn)快速的聚類算法。仿射傳播將各個樣本間的相似度用實數(shù)表示,N個樣本的相似度矩陣S 為NXN,其中元素S(i,k)表示點(diǎn)k被選擇作為點(diǎn)i的聚類點(diǎn)的傾向度。對于樣本點(diǎn),S(i, k)的取值理解為樣本距離,在歐式空間中,對于空間內(nèi)的兩點(diǎn),歐氏距離可以當(dāng)作兩樣本間 的樣本距離。由于聚類的目的是使方差最小化,因此對于點(diǎn)xjPxk,s(i,k) =-| Xi-Xk| |2。將負(fù)的兩個點(diǎn)之間距離設(shè)想為吸引度或歸屬度,則點(diǎn)k對較近的點(diǎn)i吸引力比較 大,同樣點(diǎn)i認(rèn)同點(diǎn)k為其聚類中心的歸屬度也較大。這樣,處于聚類中心處的數(shù)據(jù)點(diǎn)k對 其他數(shù)據(jù)點(diǎn)的吸引力之和較大,成為聚類中心的可能性也越大;反之,處于聚類邊緣處的數(shù) 據(jù)點(diǎn)對其他數(shù)據(jù)點(diǎn)的吸引力之和比較小,成為聚類中心的可能性也越小。由此可知,仿射聚類算法為選出合適的聚類中心而不斷從樣本數(shù)據(jù)中搜集累積的 證據(jù)為候選聚類中心點(diǎn)k從每個樣本點(diǎn)i搜集證據(jù)R(i,k)來描述數(shù)據(jù)點(diǎn)k適合作為樣 本點(diǎn)i的聚類中心的程度,也為樣本點(diǎn)i從候選聚類中心點(diǎn)k搜集證據(jù)A(i,k)(稱為點(diǎn)i 對點(diǎn)k的歸屬度)來描述樣本點(diǎn)i選擇樣本點(diǎn)k作為其聚類中心的適合程度。累積證據(jù)越 強(qiáng),即R(i,k)與A(i,k)越大,樣本點(diǎn)k作為最終聚類中心的可能性就越大。仿射聚類算法流程如下 1、設(shè)置相似度矩陣S,對角線上的值代表該點(diǎn)作為潛在聚類中心的可能性,該值越 大,說明該點(diǎn)被選擇聚類中心的傾向度越大。2、初始情況下,設(shè)置歸屬度矩陣A(i,k) = 0。3、更新矩陣
其中 k'乒 k。4、更新矩陣 A,
后,停止。各個樣本點(diǎn)發(fā)送的信息如圖1所示。為了直觀地驗證仿射傳播聚類在處理大類數(shù)據(jù)時良好的分類能力。對于100個落 在區(qū)間x G
和y G
的隨機(jī)數(shù),如圖2所示。對于這空間中的100個數(shù)據(jù),空間坐標(biāo)是唯一可以作為樣本距離的參數(shù)。定義 s(i, k) =-| Xi-Xk| |2,其中\(zhòng)和 分別為點(diǎn)i和點(diǎn)k的空間坐標(biāo)。S矩陣的對角線坐標(biāo) 各個s(i,k)的均值,其中i興k。圖3為輸出樣本及聚類中心的示意圖。輸出結(jié)果的耗時 和迭代次數(shù) 該仿射傳播聚類對處理大量無規(guī)則數(shù)據(jù)時分類效果較好且耗時少,符合系統(tǒng)實時 性的要求。本發(fā)明的有益效果主要表現(xiàn)在適合于處理海量數(shù)據(jù)、實時性良好、能有效進(jìn)行細(xì) 胞分類。
圖1是仿射傳播聚類的樣本間發(fā)送信息的示意圖。圖2是100各隨機(jī)數(shù)的示意圖。
4
圖3是聚類中心的示意圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明作進(jìn)一步描述。參照圖1 圖3,一種仿射傳播聚類的細(xì)胞分類方法,所述細(xì)胞分類方法包括以下 步驟1)、選取細(xì)胞圖像的圓形度參數(shù)C和矩形度參數(shù)R,設(shè)計樣本坐標(biāo)Xsample = 入 c+(l-x) *R,其中入代表先驗輸入值;選取細(xì)胞圖像的面積參數(shù)Area作為另一樣本 坐標(biāo)Ysample,選取細(xì)胞圖像的核質(zhì)比參數(shù)prop作為再一樣本坐標(biāo)Zsample ;2)、以所述三維的樣本坐標(biāo)的歐式距離作為樣本距離,對于樣本點(diǎn)Xi和xk,i興k, S(i,k) = -| Xi-Xk| |2,仿射傳播聚類的S矩陣的對角線取值為各個樣本間距離的平均值;3)、初始情況下,設(shè)置歸屬度矩陣A(i,k) = 0,更新矩陣R,R(i,k) = S(i, k)-max{A(i, k ' )+S(i,k' )},其中k'乒 k ;更新矩陣 A, A(i,k) = min{0,R(k, k)+Emax{0, R(i',k)}},其中i'興i,k ;(注R(i,k)描述數(shù)據(jù)點(diǎn)k適合作為樣本點(diǎn)i 的聚類中心的程度;A(i,k)描述樣本點(diǎn)i選擇樣本點(diǎn)k作為其聚類中心的適合程度;i'為 更新的樣本點(diǎn),k'為競爭聚類中心);4)、在迭代設(shè)定次數(shù)后停止,從分類結(jié)果得到不同類型的細(xì)胞。所述步驟4)中,在同一類型的細(xì)胞中選出聚類中心,所述聚類中心對應(yīng)的細(xì)胞為 具有代表性的形態(tài)參數(shù)的典型細(xì)胞。本實施例中,作為樣本的多個參數(shù),細(xì)胞圖像的形態(tài)參數(shù)周長、面積、高度、寬度 分別為絕對數(shù)值,圓形度、矩形度、伸長度、核質(zhì)比分別為相對參數(shù)。如果要區(qū)分細(xì)胞的種 類,相對參數(shù)比絕對參數(shù)更具有代表性,更能體現(xiàn)出細(xì)胞的整體輪廓特征,但是在某些情況 下,如果細(xì)胞大小是重要參考參數(shù)的時候,絕對參數(shù)就比相對參數(shù)更有區(qū)分度。綜上所述, 由于本文的分割模型側(cè)重分割細(xì)節(jié),絕對參數(shù)對于本文來說具有重要參考意義。同時,本文 提出的核質(zhì)比參數(shù)也是研究細(xì)胞生理狀態(tài)的重要參數(shù),因此本節(jié)給出的細(xì)胞分類策略結(jié)合 絕對參數(shù)和相對參數(shù),設(shè)計樣本間的距離如下對于相對參數(shù),選取圓形度參數(shù)C和矩形度參數(shù)R,設(shè)計樣本坐標(biāo)Xsample = 入 c+(l-x) *R,其中入代表先驗輸入值,如果圖像中細(xì)胞常態(tài)下顯示為圓形,那么圓形 度的參數(shù)就相對重要,本文、=0.9。對于絕對參數(shù),選取面積參數(shù)Area作為另一樣本坐標(biāo),Ysample。選取核質(zhì)比參數(shù)prop作為樣本坐標(biāo)Zsample。對于prop列,由于混合主動輪廓模型 沒有分割出細(xì)胞核致使該列中存在參數(shù)NaN,在此統(tǒng)一賦值為0. 1,即該細(xì)胞的細(xì)胞核部分 占細(xì)胞面積的10%。由于考慮到三個樣本坐標(biāo)的精度對齊問題,將Ysample中的值除以1000,使Xsample、 Ysafflple> Zsafflple的數(shù)值處于同一數(shù)量級上。至此,對于三維的樣本坐標(biāo),以它們的歐式距離作為樣本距離。初始情況下沒有主 觀選擇的傾向性,即仿射傳播聚類的S矩陣的對角線取值為各個樣本間距離的平均,S矩陣 如表1所示。 表 1選取固定的迭代次數(shù),100次迭代運(yùn)算后,結(jié)果如表2所示。其中細(xì)胞序號和圖4-9 中的圖像序號一致,歸屬序號代表樣本的聚類中心。從表中可以看出在圖4-9中,圖像序號 為1、2、6、7、8的圖的聚類中心是1號圖像,圖像序號為3、4、5、9、10、12的圖的聚類中心是 5號圖像,圖11為單獨(dú)的一個聚類中心,只有自己這個樣本。
表 2直接從分類結(jié)果可以得出該圖中存在三種類型的細(xì)胞,至于聚類中心的圖像1和 圖像5之所以劃分為兩類,是因為圖像顯示時某些細(xì)胞為部分顯示,因此像圖像序號為1、 2、6的細(xì)胞只顯示了部分,圖像序號為7的細(xì)胞為破損的細(xì)胞,仿射傳播聚類將這些細(xì)胞區(qū) 別于正常態(tài)的細(xì)胞。對于細(xì)胞11這樣的樣本坐標(biāo)Zsample和其他細(xì)胞存在明顯差異的細(xì)胞, 在迭代計算后,也能成功的將其劃分為一類。在完成分類后,實質(zhì)上是從眾多的樣本中選出了最具代表性的聚類中心。對于圖 像中眾多的細(xì)胞體,將其分類對生物醫(yī)學(xué)研究的意義是明顯的。根據(jù)選出的樣本中心可以 得到該類細(xì)胞具有代表性的形態(tài)參數(shù),由于圖像采集過程中的不確定性和分割處理時可能 存在信息丟失,得到的某一種類的細(xì)胞形態(tài)參數(shù)需要確定一個能代表若干個相差不大的樣 本中心。參考表2,樣本3,4,5,9,10,12幾個類似樣本可選用樣本5的形態(tài)參數(shù)作為參考, 判別該類細(xì)胞形態(tài)參數(shù)是否屬于正常范圍內(nèi)。而對于樣本11,其形態(tài)參數(shù)顯著異于其他樣 本,本章引入的分類器能將其從其他細(xì)胞中分離出來。此處再對形態(tài)參數(shù)計樣本坐標(biāo)如下Xsample = λ ·。+(1_λ) .R,λ =0.9。Ysample = Α/1000。Zsample = prop,對于未計算出數(shù)值解得prop,此處統(tǒng)一賦值為0.05。計算出的各個樣本坐標(biāo)如表3所示。其中序號代表了各個單體細(xì)胞的序號。 表 3由表3建立的相似度矩陣S,分類結(jié)果如表4所示。 表 4結(jié)合形體參數(shù)可知,23個單體細(xì)胞選擇了同一個樣本16作為代表。眾多細(xì)胞在形 態(tài)上都表現(xiàn)為同一類紅細(xì)胞,對于細(xì)胞切片采樣時的擠壓和重疊,采用本文第四章算法計 算得到的形態(tài)參數(shù)在仿射傳播聚類分類后也將各樣本點(diǎn)歸為一類。
在處理細(xì)胞圖像中大量樣本時,由于細(xì)胞數(shù)目眾多且不同種類的細(xì)胞混雜在一起,該方法能夠方便研究者提取具有代表性的形態(tài)參數(shù),重點(diǎn)研究某些顯著異于其他細(xì)胞 的單體,這對于檢測正在發(fā)生畸變的細(xì)胞體具有顯著意義。在臨床醫(yī)學(xué)上,病變時的細(xì)胞表現(xiàn)作者將其歸納為兩類——驟時突變和持久突 變。例如,人在發(fā)熱時,伴有白細(xì)胞增高或中性粒細(xì)胞增高及“核左移”現(xiàn)象,這是化膿性細(xì) 胞感染的顯著特點(diǎn)。在此表現(xiàn)的驟時突變是血細(xì)胞中某類細(xì)胞在短時間內(nèi)的形態(tài)及數(shù)目變 化。此時仿射傳播聚類方法分類時,將能直接反應(yīng)病變狀況的中性粒細(xì)胞的核質(zhì)變化即核 質(zhì)比參數(shù)作為樣本坐標(biāo),而該參數(shù)和其他紅細(xì)胞的樣本具有較大的樣本距離,在分類結(jié)果 表2中也體現(xiàn)出來。對于另一種突變——持久突變,表現(xiàn)為組織發(fā)生癌變時部分區(qū)域組織 持續(xù)性病變表現(xiàn)。此時細(xì)胞在形態(tài)上的表現(xiàn)有異于正常細(xì)胞,但彼此間卻十分相似。表4 就是此類情況,根據(jù)選取的樣本點(diǎn)形態(tài)參數(shù),并參考正常參數(shù),判斷其參數(shù)是否在正常范疇 內(nèi)。若是則該類細(xì)胞均為正常細(xì)胞,否則均為病變細(xì)胞。
權(quán)利要求
一種仿射傳播聚類的細(xì)胞分類方法,其特征在于所述細(xì)胞分類方法包括以下步驟1)、選取細(xì)胞圖像的圓形度參數(shù)C和矩形度參數(shù)R,設(shè)計樣本坐標(biāo)Xsample=λ·C+(1-λ)·R,其中λ代表先驗輸入值;選取細(xì)胞圖像的面積參數(shù)Area作為另一樣本坐標(biāo)Ysample,選取細(xì)胞圖像的核質(zhì)比參數(shù)prop作為再一樣本坐標(biāo)Zsample;2)、以所述三維的樣本坐標(biāo)的歐式距離作為樣本距離,對于樣本點(diǎn)xi和xk,S(i,k)=-||xi-xk||2,仿射傳播聚類的S矩陣的對角線取值為各個樣本間距離的平均值;3)、初始情況下,設(shè)置歸屬度矩陣A(i,k)=0,更新矩陣R,R(i,k)=S(i,k)-max{A(i,k′)+S(i,k′)},其中k′≠k;更新矩陣A,A(i,k)=min{0,R(k,k)+∑max{0,R(i′,k)}},其中i′≠i,k,注R(i,k)描述數(shù)據(jù)點(diǎn)k適合作為樣本點(diǎn)i的聚類中心的程度;A(i,k)描述樣本點(diǎn)i選擇樣本點(diǎn)k作為其聚類中心的適合程度;i′為更新的樣本點(diǎn),k′為競爭聚類中心)4)、在迭代設(shè)定次數(shù)后停止,從分類結(jié)果得到不同類型的細(xì)胞。
2.如權(quán)利要求1所述的一種仿射傳播聚類的細(xì)胞分類方法,其特征在于所述步驟4) 中,在同一類型的細(xì)胞中選出聚類中心,所述聚類中心對應(yīng)的細(xì)胞為具有代表性的形態(tài)參 數(shù)的典型細(xì)胞。
全文摘要
一種仿射傳播聚類的細(xì)胞分類方法,包括以下步驟1)選取細(xì)胞圖像的圓形度參數(shù)C和矩形度參數(shù)R,設(shè)計樣本坐標(biāo)Xsample=λ·C+(1-λ)·R,其中λ代表先驗輸入值;選取細(xì)胞圖像的面積參數(shù)Area作為另一樣本坐標(biāo)Ysample,選取細(xì)胞圖像的核質(zhì)比參數(shù)prop作為再一樣本坐標(biāo)Zsample;2)以所述三維的樣本坐標(biāo)的歐式距離作為樣本距離,仿射傳播聚類的S矩陣的對角線取值為各個樣本間距離的平均;3)初始情況下,設(shè)置歸屬度矩陣A(i,k)=0,更新矩陣R,更新矩陣A;4)在迭代設(shè)定次數(shù)后停止,從分類結(jié)果得到不同類型的細(xì)胞。本發(fā)明提供一種適合于處理海量數(shù)據(jù)、實時性良好、能有效進(jìn)行細(xì)胞分類的仿射傳播聚類的細(xì)胞分類方法。
文檔編號G06T7/00GK101853507SQ20101019133
公開日2010年10月6日 申請日期2010年6月3日 優(yōu)先權(quán)日2010年6月3日
發(fā)明者姚春燕, 張厚祥, 張建偉, 柳剛鋒, 趙明珠, 陳敏, 陳勝勇 申請人:浙江工業(yè)大學(xué)