本發(fā)明的一些實施例涉及用于確定受試者中的醫(yī)療狀況的存在的方法和裝置。具體地,盡管不是排他地,但本發(fā)明的一些實施例涉及用于確定受試者中癌癥(包括前列腺癌)的存在的方法和裝置。本發(fā)明的一些實施例涉及用于創(chuàng)建指示受試者中的醫(yī)療狀況的存在的分類器的方法和裝置。
背景
前列腺癌是全世界男性的第二大常見疾病,每年約有1,111,000例新發(fā)病例。當(dāng)許多患有膀胱流出癥狀的男性被發(fā)現(xiàn)有升高的血清psa水平時,經(jīng)常針對前列腺癌對他們進行研究。然而,psa水平缺乏特異性,因此,這些男性必須經(jīng)受侵入性測試以確認或反駁前列腺癌的診斷。在許多情況下,沒有發(fā)現(xiàn)癌癥。這往往使人擔(dān)心,而不是放心,并且可能會跟進重復(fù)的psa水平測量的無休止的循環(huán)。當(dāng)前,psa在大多數(shù)國家并不被認為是診斷標(biāo)志物并且尚未被批準(zhǔn)用于篩查項目。膀胱癌是全世界第9大常見癌癥,并且治理是最昂貴的。沒有生物標(biāo)志物被批準(zhǔn)用于隨訪,并且進行的重復(fù)的膀胱鏡檢查是侵入性的、昂貴的并且并不是沒有風(fēng)險。炎癥性腸疾病(ibd)是由腸道中的異常免疫應(yīng)答引起的慢性胃腸疾病,而腸易激綜合征(ibs)是沒有已知原因的消化道疾病。對于可用于診斷和篩查包括前列腺癌、前列腺癌、ibd和ibs在內(nèi)的醫(yī)療狀況的更好的生物標(biāo)志物存在迫切的臨床需求。這樣將節(jié)省健康護理提供者的錢,減輕患者痛苦,并還將加快患者急需的治療。
本發(fā)明的實施例的目的在于至少緩解現(xiàn)有技術(shù)的一個或更多個問題。
發(fā)明陳述
根據(jù)本發(fā)明的方面,提供了如所附權(quán)利要求中所闡述的方法和裝置。
根據(jù)本發(fā)明的方面,提供了確定受試者中的醫(yī)療狀況的存在的方法,包括:接收指示來自受試者的樣本中的揮發(fā)性有機化合物的概況的色譜數(shù)據(jù);將色譜數(shù)據(jù)與參考色譜數(shù)據(jù)匹配;使用一個或更多個預(yù)定尺度的墨西哥帽小波變換從色譜數(shù)據(jù)中提取一個或更多個預(yù)定特征;以及使用分類器確定所提取的特征是否指示受試者中的醫(yī)療狀況的存在。
附圖簡述
現(xiàn)在將參考附圖僅通過示例對本發(fā)明的實施例進行描述,其中:
圖1示出了根據(jù)本發(fā)明的實施例的方法;
圖2示出了根據(jù)本發(fā)明的實施例的系統(tǒng);
圖3示出了色譜數(shù)據(jù)的圖示;
圖4示出了根據(jù)本發(fā)明的實施例的反演的色譜數(shù)據(jù)的圖示;
圖5示出了根據(jù)本發(fā)明的實施例的預(yù)處理的色譜數(shù)據(jù);
圖6示出了根據(jù)本發(fā)明的實施例的歸一化的色譜數(shù)據(jù);
圖7示出了根據(jù)本發(fā)明的實施例的對齊的色譜數(shù)據(jù);
圖8示出了根據(jù)本發(fā)明的實施例的選擇用于數(shù)據(jù)對齊的參考色譜樣本的方法;
圖9示出了根據(jù)本發(fā)明的實施例的對齊色譜數(shù)據(jù)的方法;
圖10示出了根據(jù)本發(fā)明的實施例的對于色譜數(shù)據(jù)確定的小波系數(shù);
圖11示出了根據(jù)本發(fā)明的實施例的變換的色譜數(shù)據(jù);
圖12示出了根據(jù)本發(fā)明的實施例的確定受試者中的醫(yī)療狀況的存在的方法;以及
圖13示出了根據(jù)本發(fā)明的實施例的對齊所接收的色譜數(shù)據(jù)的方法。
發(fā)明的實施例的具體描述
圖1圖示了根據(jù)本發(fā)明的實施例的方法100。方法100是創(chuàng)建指示受試者是否具有一種或更多種醫(yī)療狀況的分類器的方法。醫(yī)療狀況可包括一種或更多種癌癥(包括膀胱癌和/或前列腺癌)、腸易激疾病(ibd)、腸易激綜合征(ibs)、一種或更多種預(yù)定細菌(諸如,艱難梭菌(c-dif))的存在、一種或更多種預(yù)定寄生蟲的存在、一種或多種預(yù)定真菌的存在。方法100是用于創(chuàng)建分類器并將分類器儲存在計算機可讀介質(zhì)(諸如,非暫時性計算機可讀介質(zhì))中的基于計算機的方法。
該方法可由根據(jù)如圖2中所圖示的本發(fā)明的實施例的裝置200執(zhí)行。裝置200包括控制單元210,該控制單元包括處理單元220和存儲器單元230。裝置210被布置為從感測單元240接收色譜數(shù)據(jù)。色譜數(shù)據(jù)指示從受試者采集或獲取的樣本中的揮發(fā)性化合物的存在。樣本可以是來自受試者的呼吸、尿液或糞便的樣本,但是將意識到該列表并不詳盡。
感測單元可包括一個或更多個金屬氧化物(mo)傳感器。感測單元240可以與諸如wo/2011/061308中所述的裝置相關(guān)聯(lián),其通過引用并入本文以用于所有目的。裝置200可包括耦合到一個或更多個傳感器的氣相色譜柱。該柱可以與用于根據(jù)預(yù)定方案加熱柱的爐相關(guān)聯(lián)。
色譜數(shù)據(jù)可借助于專用通信信道(即,直接電連接)或借助于在一個或更多個計算機網(wǎng)絡(luò)上形成的通信信道,在感測單元240和控制單元210之間傳送。色譜數(shù)據(jù)可在控制單元210處以一個或更多個文件的形式被接收,每個文件都包括對于相應(yīng)樣本的色譜數(shù)據(jù)。
為了產(chǎn)生色譜數(shù)據(jù),樣本可根據(jù)預(yù)定方案來加熱。方案可在從樣本采樣預(yù)定體積的氣體之前定義在一個或更多個預(yù)定溫度下加熱樣本的一段時間。
爐的初始溫度可保持在40℃13.4分鐘,以5℃/分鐘的速率升溫至100℃,保持30分鐘,并使用10℃/分鐘的溫度斜坡冷卻至40℃。將意識到可使用用于爐加熱的其它方案。
mo傳感器的電阻在一段時間內(nèi)被確定。色譜數(shù)據(jù)可包括指示一個或更多個mo傳感器在預(yù)定間隔(諸如,0.5秒)處的電阻的數(shù)據(jù),但是將意識到可使用其它間隔。
圖3圖示了根據(jù)本發(fā)明的實施例的色譜數(shù)據(jù)。圖3包括來自相應(yīng)樣本的色譜數(shù)據(jù)的多個項的曲線圖。色譜數(shù)據(jù)是隨著時間(x軸)繪制的,并指示傳感器在每個相應(yīng)的采樣時間處的電阻(y軸)。在步驟105中,色譜數(shù)據(jù)由控制單元210接收。色譜數(shù)據(jù)可被儲存在控制單元210的存儲器單元230中。
為了創(chuàng)建指示受試者是否具有一個或更多個醫(yī)療狀況的分類器,來自多個樣本的色譜數(shù)據(jù)由具有相應(yīng)的一個或更多個醫(yī)療狀況的受試者提供。如將解釋的,分類器基于來自這些受試者的色譜數(shù)據(jù)。因此,來自具有一個或更多個醫(yī)療狀況的多個樣本的一組色譜數(shù)據(jù)在步驟105中被接收。另一組色譜數(shù)據(jù)由不具有一個或更多個醫(yī)療狀況的多個樣本提供,該另一組色譜數(shù)據(jù)可被稱為對照組色譜數(shù)據(jù)。
在步驟110中,在步驟105中接收的色譜數(shù)據(jù)的電阻信號被反演,以便于使用代謝組學(xué)工具對它們進行處理。該反演使用以下數(shù)學(xué)方程式對每個樣本單獨執(zhí)行:
x=|x-(max(x)+1)|
其中,x包含為單個樣本登記的電阻值。圖4包括反演的色譜數(shù)據(jù)的曲線圖。
在步驟120中,所接收的色譜數(shù)據(jù)被處理。步驟120包括基線移除過程?;€是色譜數(shù)據(jù)的基線電阻水平。基線可作為多數(shù)或僅由流動相發(fā)揮作用。流動相是通過氣相色譜柱攜帶代謝物的氣體。在一些實施例中,氣體可以是合成氣體。閾值也可在步驟120中被確定。在一些實施例中,色譜數(shù)據(jù)的基線通過最小二乘擬合過程被移除。
在一些實施例中,步驟120還包括確定電阻閾值。電阻閾值被定義為來自樣本的色譜數(shù)據(jù)的平均電阻值減去其電阻值的標(biāo)準(zhǔn)偏差。然后,低于電阻閾值的任何電阻值被設(shè)置為可以為零的預(yù)定值。圖5圖示了根據(jù)步驟120的實施例處理的色譜數(shù)據(jù)。
在步驟130中,對于每個樣本的色譜數(shù)據(jù)的值被歸一化。在一個實施例中,樣本的電阻值通過將它們的值除以為特定樣本登記的最高電阻值來被歸一化。圖6圖示了根據(jù)步驟130的實施例處理的色譜數(shù)據(jù)。
在步驟140中,參考色譜樣本被選擇用于數(shù)據(jù)對齊。步驟140包括從通過步驟130提供的色譜數(shù)據(jù)中選擇參考色譜數(shù)據(jù)。在一些實施例中,選擇參考色譜數(shù)據(jù)包括確定指示每對色譜數(shù)據(jù)之間的相關(guān)性的系數(shù)。如本領(lǐng)域技術(shù)人員將認識到的,該系數(shù)可以是皮爾森積矩相關(guān)系數(shù),通常被稱為皮爾森系數(shù)。
圖8中圖示了根據(jù)本發(fā)明的實施例選擇用于對齊色譜數(shù)據(jù)的參考色譜的方法700。
參照圖8,在步驟705中,創(chuàng)建了包含實驗狀況1中的所有樣本(例如,癌癥樣本)的兩個列表。這些列表中的一個可被命名為樣本列表參考(samplelistref),而第二列表可被命名為樣本列表測試(samplelisttest)。
在步驟710中,樣本可從樣本列表參考中隨機選擇,加載到存儲器中并從樣本列表參考中移除。為了清楚起見,該樣本將在此被描述為樣本參考(sampleref)。
在步驟715中,樣本可從樣本列表測試中隨機選擇,加載到存儲器中并從樣本列表測試中移除。為了清楚起見,該樣本將在此被描述為樣本測試(sampletest)。在步驟710和715的第一迭代中,選擇的樣本可以是數(shù)據(jù)集中的第一色譜。例如,在色譜數(shù)據(jù)是全部被分配id的情況下,可在步驟710和715的第一迭代中選擇具有最低id值的色譜。
在步驟720和725中,樣本參考和樣本測試之間的皮爾森相關(guān)系數(shù)被確定,并被儲存在可被命名為r的矩陣中。
在步驟730至765中,樣本參考被移位預(yù)定數(shù)量的采樣點,其中相關(guān)系數(shù)在每次采樣點移位之后用樣本測試來計算,并且得到的相關(guān)系數(shù)被儲存在矩陣r中。將認識到的是,在一些實施例中,樣本參考將相對于樣本測試在正的和負的時間點方向二者上移位。在一個實施例中,移位窗口是±15個采樣點,但將意識到的是,可選擇其它尺寸的移位窗口。
當(dāng)樣本參考移位升至移位窗口的一個或更多個極端時,方法移動到步驟775。將認識到的是,當(dāng)?shù)竭_步驟775時,在一些實施例中,每個色譜與p系數(shù)如下相關(guān)聯(lián):
p=(2s+1)×(n-1)
其中,s是移位窗口的幅度,諸如15(因此,2s計算從負到正的移位的極差),以及n是實驗狀況1中的樣本數(shù)量。因此,在一個實施例中,每個色譜數(shù)據(jù)與實驗狀況1中的其余色譜數(shù)據(jù)中的每個的31個相關(guān)系數(shù)相關(guān)聯(lián)。
在步驟775中,獲取矩陣r中的最大值,其被儲存在命名為m的新矩陣中,并且r的內(nèi)容被清除或復(fù)位。重復(fù)步驟715至775,直到樣本列表測試為空,并且方法移動到步驟785。
在步驟785中,計算儲存在m中的所有值的平均值,并將其連同識別參考樣本的信息(諸如,樣本參考的id)一起儲存在命名為c的矩陣中,并且m的內(nèi)容被清除。重復(fù)步驟710至785,直到樣本列表參考為空,并且方法移動到步驟795。在步驟795中,與矩陣c中的最高正值相關(guān)聯(lián)的樣本被確定為用于色譜對齊的參考樣本。如將要解釋的,步驟795可包括將與被選擇為參考色譜樣本的色譜相關(guān)聯(lián)的id,以允許其它色譜數(shù)據(jù)在稍后的時間對齊。
返回到圖1,在步驟150中,色譜數(shù)據(jù)被對齊。對齊旨在確保相同特征在來自不同數(shù)據(jù)類別或分析中的不同醫(yī)療狀況的樣本中進行比較。步驟150包括將色譜數(shù)據(jù)相對于在步驟140處選擇的參考色譜樣本對齊。圖9中圖示了根據(jù)本發(fā)明的實施例的對齊色譜數(shù)據(jù)的方法800。
參照圖9,在方法800中,每個色譜數(shù)據(jù)相對于在圖1的方法100的步驟140處選擇的參考色譜對齊。
在步驟805中,在步驟140處選擇的參考色譜樣本被加載到存儲器中。為了清楚起見,參考色譜樣本將在此被描述為參考樣本。在步驟810中,創(chuàng)建了包含分析中的一個或更多個數(shù)據(jù)集中的所有樣本(例如,癌癥樣本和對照樣本)的列表。為了清楚起見,該列表將在此被描述為對齊的樣本。
在步驟815中,來自對齊的樣本的隨機樣本被加載。為了清楚起見,該樣本將在此被描述為樣本對齊。在步驟820至870中,樣本對齊被移位預(yù)定數(shù)量的采樣點,其中在每個采樣點被移位之后單個相關(guān)系數(shù)在參考樣本和樣本對齊之間進行計算,并且所得到的相關(guān)系數(shù)存儲在矩陣r中。在一個實施例中,移位窗口是±15個采樣點,但是將意識到的是,可選擇其他數(shù)量的時間點。將認識到的是,在一些實施例中,樣本對齊將相對于參考樣本在正的和負的時間點方向上移位。當(dāng)樣本對齊移位升至移位窗口的一個或更多個極端時,方法移動到步驟875。將認識到的是,當(dāng)?shù)竭_步驟875時,在一些實施例中,樣本對齊與p系數(shù)如下相關(guān)聯(lián):
p=2s+1
其中,s是時間移位窗口的幅度,諸如15(因此,2s計算從負到正的時間移位的極差)。因此,在一個實施例中,樣本對齊與31個相關(guān)系數(shù)相關(guān)聯(lián)。在步驟875中,與r中的最高值相關(guān)聯(lián)的移位采樣點被確定,并被儲存為移位的采樣點。在步驟880中,樣本對齊被移位在移位的采樣點中定義的采樣點的數(shù)量,并且矩陣r的內(nèi)容被清除。重復(fù)步驟815到880,直到對齊的樣本列表為空。圖7圖示了根據(jù)步驟150的實施例對齊的色譜數(shù)據(jù)。
返回到圖1,在步驟160中,對齊的色譜數(shù)據(jù)的值使用墨西哥帽母小波(其也可被稱為ricker小波)變換成小波系數(shù)。可使用其他母小波。在一個實施例中,小波系數(shù)可使用墨西哥帽母小波的多個尺度來確定。多個尺度可以是介于下限和上限之間的尺度。在一個實施例中,上限和下限可分別為100和1。在一個實施例中,系數(shù)可在下限和上限之間的每個整數(shù)尺度處被確定。系數(shù)可被確定為計算出的系數(shù)的模數(shù)。也就是說,盡管可使用由墨西哥帽母小波提取的原始值,但對于每個樣本的色譜數(shù)據(jù)的值使用墨西哥帽母小波的尺度被轉(zhuǎn)換為它們的小波系數(shù)的模數(shù)。然后,如將要解釋的,小波系數(shù)被儲存以供將來使用。小波尺度值中的一個被選擇為對于色譜數(shù)據(jù)的最佳匹配。如將要解釋的,最佳匹配可以是具有最高分類準(zhǔn)確度的小波尺度。每個小波尺度的準(zhǔn)確度可基于驗證過程的最小、中值、平均和最大準(zhǔn)確度中的一個或更多個來確定。圖10圖示了根據(jù)步驟160的實施例的被變換為小波系數(shù)的色譜數(shù)據(jù)。
在步驟170中,對數(shù)、極差和空間符號(spatialsign)的變換過程中的一個或更多個應(yīng)用于色譜數(shù)據(jù)。在一個實施例中,在對數(shù)、極差和空間符號的變換過程之前,色譜數(shù)據(jù)的每個值都具有預(yù)定值,諸如添加到其的值1。然后,色譜數(shù)據(jù)可使用自然對數(shù)為基準(zhǔn)進行對數(shù)變換,盡管將意識到其他基值可用于對數(shù)變換。在一個實施例中,然后應(yīng)用極差變換,以將色譜數(shù)據(jù)的值設(shè)置在預(yù)定極差內(nèi),諸如介于0和1之間的極差。極差變換可確定在色譜數(shù)據(jù)的每個時間點處的變換的值xt,其中,x是色譜數(shù)據(jù)的數(shù)據(jù)值,min(x)和max(x)分別是色譜數(shù)據(jù)的最小值和最大值。極差變換可使用以下方程來執(zhí)行:
在一些實施例中,可應(yīng)用進一步的變換,其可被稱為如在由s.serneels、e.denolf、p.j.vanespen于2006年在journalofchemicalinformationandmodeling46的第1402-1409頁發(fā)表的spatialsignpreprocessing:asimplewaytoimpartmoderaterobustnesstomultivariateestimators中所描述的空間符號變換,其通過引用并入本文。圖11圖示了根據(jù)步驟170的實施例變換的色譜數(shù)據(jù)。
在步驟180中,選擇色譜數(shù)據(jù)的一個或更多個特征。選擇一個或更多個特征來指示一個或更多個醫(yī)療狀況的存在。在本發(fā)明的實施例中,一個或更多個特征通過使用隨機森林的特征選擇算法來選擇。在該算法中,決策樹是基于不同的樣本組來開發(fā)的,并且當(dāng)特征的值被隨機排列在樣本組之間時,隨機森林用于計算分類準(zhǔn)確度的損失。然后,選擇與分類準(zhǔn)確度的損失相關(guān)聯(lián)的一個或更多個特征。
在本發(fā)明的一些實施例中,在步驟180中應(yīng)用了基于隨機森林的被稱為boruta和rfe的兩種不同算法中的一種,以便選擇待使用的特征。boruta算法涉及基于不同樣本組的決策樹的開發(fā)。然后,當(dāng)特征的值被隨機排列在樣本組之間時,應(yīng)用隨機森林來計算分類準(zhǔn)確度的損失。然后,選擇與準(zhǔn)確度的損失相關(guān)聯(lián)的特征作為指示特征。rfe算法運作類似于boruta,但它消除了不產(chǎn)生準(zhǔn)確度水平的變化的特征,而不是選擇產(chǎn)生準(zhǔn)確度的損失的特征。boruta和rfe算法在journalofstatisticalsoftware36(11)的第1-13頁公開的“featureselectionwiththeborutapackage”,以及由anderssen,e.、k.dyrstad、f.westad和h.martens于2006年在chemometricsandintelligentlaboratorysystems84(1-2)的第69-74頁發(fā)表的“reducingover-optimisminvariableselectionbycross-modelvalidation”中進行了描述。這些參考通過引用并入本文。在步驟180中,一個或更多個選擇的特征被儲存以供稍后使用。
在步驟190中,分類器被確定。分類器用于將樣本分類為來自具有一個或更多個醫(yī)療狀況的受試者的樣本或不具有一個或更多個醫(yī)療狀況的樣本。分類器可根據(jù)以下之一來確定:線性判別分析(lda);偏最小二乘法(pls);隨機森林;k最近鄰(knn);具有徑向基核函數(shù)的支持向量機(svm)(svm徑向);具有線性基核函數(shù)的svm(svm線性);以及具有多項式基核函數(shù)的svm(svm多項式)。分類器可使用例如諸如r包脫字符(kuhn,m.于2014年公開的caret:classificationandregressiontraining)的軟件包來確定。
在同一數(shù)據(jù)集上建立和測試分類器可能會由于潛在的過度擬合而產(chǎn)生偏置和過于樂觀的結(jié)果。因此,在步驟190中,驗證過程可用于防止這樣的過度擬合。驗證過程可以是重復(fù)的k重交叉驗證和重復(fù)的雙交叉驗證中的一種。特別地,在本發(fā)明的示例性實施例中,使用兩個驗證過程:30次重復(fù)的10重交叉驗證和30次重復(fù)的3重雙交叉驗證,其中,重復(fù)5次10重的內(nèi)循環(huán)。另外,這兩個交叉驗證過程在相同的數(shù)據(jù)集上重復(fù),但在每次重復(fù)中應(yīng)用類別標(biāo)簽的蒙特卡羅隨機排列。
如在步驟160的以上描述中所述,方法100針對多個小波尺度重復(fù)。然后選擇產(chǎn)生最高分類準(zhǔn)確度的標(biāo)度作為對于處理的色譜數(shù)據(jù)的最佳匹配。作為圖1中所圖示的方法100的實施例的結(jié)果,產(chǎn)生分類器,其能夠?qū)⑸V數(shù)據(jù)分類為源自具有一個或更多個醫(yī)療狀況或不具有一個或更多個醫(yī)療狀況的樣本。
圖12圖示了根據(jù)本發(fā)明的實施例的確定受試者中的醫(yī)療狀況的存在的方法1000。該方法基于取自受試者的樣本來執(zhí)行。色譜數(shù)據(jù)可由如上參照圖2所述的裝置提供。相同的可以是從受試者排出的物質(zhì)。樣本可以是來自受試者的呼吸、尿液或糞便的樣本,盡管將意識到該列表并不詳盡。如上所述,醫(yī)療狀況可包括一種或更多種癌癥(包括膀胱癌和/或前列腺癌)、腸易激疾病(ibd)、腸易激綜合征(ibs)、一種或更多種預(yù)定細菌(諸如艱難梭菌(c-dif))的存在、一種或更多種預(yù)定寄生蟲的存在、一種或多種預(yù)定真菌的存在。
方法1000的多個步驟結(jié)合圖1中所圖示的方法100進行描述。因此,將省略對這些步驟的重復(fù)描述,并且讀者參考與圖1中的等效步驟相關(guān)聯(lián)的描述。
在步驟1050中,色譜數(shù)據(jù)被接收。為了清楚起見,接收的色譜數(shù)據(jù)將在此被描述為新樣本。在本發(fā)明的一些實施例中,如前所述,在步驟1100中,新樣本將其基線移除,并且其數(shù)據(jù)值在步驟1150中被歸一化。在步驟1200中,新樣本隨后被對齊。在圖13中圖示了根據(jù)本發(fā)明的實施例的對齊新樣本的方法2000。
參照圖13,在步驟2050中,在方法100的步驟140處選擇的參考色譜樣本被加載到存儲器中。為了清楚起見,參考色譜數(shù)據(jù)將在此被描述為參考樣本。在步驟2100中,新樣本色譜數(shù)據(jù)被加載到存儲器中。
在步驟2150至2650中,新樣本的保留時間被移位預(yù)定數(shù)量的采樣點,其中在每個采樣點被移位之后單個相關(guān)系數(shù)在參考樣本和新樣本之間被計算并且得到的相關(guān)系數(shù)被儲存在矩陣r中。在一個實施例中,移位窗口是±15個采樣點,但是將意識到的是,可選擇其他數(shù)量的移位點。應(yīng)認識到的是,在一些實施例中,新樣本色譜數(shù)據(jù)將相對于參考樣本在正的和負的時間點方向上移位。當(dāng)新樣本色譜數(shù)據(jù)移位升至移位窗口的一個或更多個極端時,方法移動到步驟2700。將認識到的是,在到達步驟2700時,在一些實施例中,新樣本色譜數(shù)據(jù)與p系數(shù)如下相關(guān)聯(lián):
p=2s+1
其中,s是時間移位窗口的幅度,諸如15(因此,2s計算從負到正的時間移位的極差)。因此,在一個實施例中,新樣本色譜數(shù)據(jù)與31個相關(guān)系數(shù)相關(guān)聯(lián)。在步驟2700中,與r中的系數(shù)相關(guān)聯(lián)的采樣點被確定,并被儲存為移位的采樣點。在步驟2750中,新樣本色譜數(shù)據(jù)被移位在移位的采樣點中定義的采樣點的數(shù)量,以根據(jù)圖1中所圖示的方法將新樣本色譜數(shù)據(jù)與參考色譜數(shù)據(jù)對齊。
返回到圖12,在步驟1250中,新樣本色譜數(shù)據(jù)使用墨西哥帽小波和預(yù)定尺度被變換為小波系數(shù)。如上所述,預(yù)定尺度可以是在參照圖1所描述的方法100中被確定產(chǎn)生了最高準(zhǔn)確度的那個尺度。
在步驟1300中,由預(yù)定小波尺度產(chǎn)生的小波系數(shù)被加載,該預(yù)定小波尺度可以是與最高準(zhǔn)確度相關(guān)聯(lián)并在方法100的步驟160中被儲存的小波尺度。方法100的步驟160中使用的小波尺度的值與方法1000的步驟1250中使用的小波尺度的值相同。為了清楚起見,在方法100的步驟160中產(chǎn)生的小波系數(shù)將在此被描述為預(yù)處理的數(shù)據(jù)。在步驟1350中,新樣本與命名為變換數(shù)據(jù)的單個數(shù)據(jù)集中的預(yù)處理的數(shù)據(jù)組合。
然后,在步驟1400中,變換數(shù)據(jù)如方法100的步驟170中所描述的被變換。然后,在方法100的步驟180中定義的特征從變換數(shù)據(jù)中被選擇。新樣本與變換數(shù)據(jù)隔離,并通過在方法100的步驟190中確定的模型進行預(yù)測或分類。
上述方法應(yīng)用于兩個不同的數(shù)據(jù)集。首先,它們應(yīng)用于對來自患有前列腺癌、膀胱癌的患者的尿樣和患有泌尿癥狀混合(血尿和前列腺癥狀(對照))的患者的尿樣進行分類。表1示出了對于建立的七個分類器的30次重復(fù)的雙交叉驗證的結(jié)果。svm徑向能夠分別以89.6%和96.2%的準(zhǔn)確度對前列腺癌樣本和膀胱癌樣本進行分類。前列腺癌樣本和膀胱癌樣本以93.5%的準(zhǔn)確度進行區(qū)分。然后,上述方法應(yīng)用于對來自患有炎癥性腸病(ibd)、腸易激綜合征(ibs)的患者和健康供體(對照)的糞便樣本進行分類。表2和表3示出了對于建立的七個分類器的30次重復(fù)的雙交叉驗證的結(jié)果。ibd和ibs分別以88.9%和94.4%與對照樣本進行區(qū)分。ibd樣本以85.2%的準(zhǔn)確度與ibs樣本區(qū)分。ibd樣本以84.9%的準(zhǔn)確度與非ibd樣本區(qū)分。ibs樣本以92.1%的準(zhǔn)確度與非ibs樣本區(qū)分。最后,對照樣本以86.8%的準(zhǔn)確度與非對照樣本區(qū)分。因此,可認識到的是,本發(fā)明的實施例能夠準(zhǔn)確地確定樣本是否來自具有預(yù)定狀況的人。
形成本發(fā)明的實施例的方法可以是計算機實現(xiàn)的。
將認識到的是,本發(fā)明的實施例可以以硬件、軟件或硬件和軟件的組合的形式來實現(xiàn)。任何這樣的軟件可以以易失性或非易失性儲存器的形式儲存,諸如例如,像rom的儲存設(shè)備,不管是否可擦除或是否可重寫;或者以存儲器的形式儲存,諸如例如,ram、存儲器芯片、器件或集成電路;或者儲存在光學(xué)或磁性可讀介質(zhì)上,諸如例如,cd、dvd、磁盤或磁帶。將認識到的是,儲存設(shè)備和儲存介質(zhì)是適于儲存一個或更多個程序的機器可讀儲存器的實施例,該一個或更多個程序在執(zhí)行時實現(xiàn)本發(fā)明的實施例。因此,實施例提供了程序,其包括用于實現(xiàn)如任一前述權(quán)利要求中所要求保護的系統(tǒng)或方法的代碼和儲存這樣的程序的機器可讀儲存器。此外,本發(fā)明的實施例可經(jīng)由任何介質(zhì)(諸如,通過有線或無線連接運載的通信信號)被電子地傳輸,并且實施例適當(dāng)?shù)匕鼈儭?/p>
本說明書(包括任何所附權(quán)利要求、摘要和附圖)中公開的所有特征,和/或如此公開的任何方法或過程的所有步驟可以以任何組合來進行組合,除了其中這樣的特征和/或步驟中的至少一些是互斥的組合之外。
除非另有明確說明,否則本說明書(包括任何所附權(quán)利要求、摘要和附圖)中公開的每個特征可由服務(wù)于相同、等效或類似目的的可替代特征來代替。因此,除非另有明確說明,否則所公開的每個特征僅僅是等效或類似特征的通用系列的一個示例。
本發(fā)明并不限于任何前述實施例的細節(jié)。本發(fā)明擴展至在本說明書(包括任何所附權(quán)利要求、摘要和附圖)中公開的特征中的任何新穎的一個特征或任何新穎的組合,或擴展至如此公開的任何方法或過程中的步驟中的任何新穎的一個步驟或任何新穎的組合。權(quán)利要求不應(yīng)被解釋為僅僅涵蓋前述實施例,而是也包括落在權(quán)利要求范圍內(nèi)的任何實施例。
前列腺vs對照
膀胱vs對照
膀胱vs前列腺
表1
ibdvs對照
ibsvs對照
ibdvsibs
表2
ibdvs非ibd
ibsvs非ibs
控制vs非控制
表3