專利名稱:分析選定的多組分樣品的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對(duì)數(shù)據(jù)、特別是對(duì)從包含多個(gè)組分的系統(tǒng)(例如含有多個(gè)未經(jīng)鑒定的化合物的組合物)中得到的數(shù)據(jù)進(jìn)行分析的方法,以及用于實(shí)施這種分析的程序和計(jì)算機(jī)。
在環(huán)境監(jiān)測(cè)和醫(yī)療診斷分析中,分析人員可得到含有多個(gè)未經(jīng)鑒定的化學(xué)或生物組分的樣品(例如體液、廢液或廢氣樣品),比方說包含幾百種化合物,分析人員需要確定出抽樣分析的物質(zhì)是否會(huì)造成環(huán)境危險(xiǎn)或含有病狀跡象。目前使用的一種典型技術(shù)是所謂的埃米斯(Ames)測(cè)試,這種技術(shù)是使一種細(xì)菌的選定突變菌株暴露在樣品中,并通過測(cè)定細(xì)菌的突變程度來評(píng)估環(huán)境樣品的毒性(致突變性),其中細(xì)菌由于發(fā)生突變,因此具有自然(野生)菌株中存在而選定的突變系中缺乏的特性。
我們可以看到,這樣的測(cè)試僅僅表明特定的樣品具有毒性,而并沒有指出產(chǎn)生毒性的特定化合物或一組化合物,也沒有給出預(yù)測(cè)其他樣品毒性的基準(zhǔn)。
同樣,大多數(shù)診斷分析僅僅檢測(cè)出一種單一化合物的存在或過量,但卻沒有指出還可表征特定病狀或其他病狀的其他化合物的存在或過量。
可以用色譜技術(shù)(例如用液相色譜或氣相色譜)分離多組分混合物中的各個(gè)組分,也可以用光譜技術(shù)(例如質(zhì)譜、IR、UV、拉曼、ESR和NMR光譜)來測(cè)定各個(gè)組分的光譜特征;然而,色譜分離一般無法分離出由幾百種化合物組成的混合物中的每一種組分,而且色譜分離很昂貴、耗時(shí),一般來說,對(duì)一個(gè)多組分樣品的所有餾分或組分進(jìn)行毒性分離或其他檢測(cè)是不切實(shí)際的。
因此,人們需要一種對(duì)多組分混合物進(jìn)行分析的方法,這種方法能夠整體預(yù)測(cè)混合物的效應(yīng)(例如毒性),而且可以集中并有可能鑒定出對(duì)這種效應(yīng)起主要作用的組分。
現(xiàn)在,我們已經(jīng)找到了這樣的方法,它能夠?qū)崿F(xiàn)這樣的功能,即對(duì)大多數(shù)相似的樣品來說,我們可以得到樣品效應(yīng)的數(shù)據(jù),也可以得到樣品的分離餾分(例如樣品的色譜分離餾分)的特征光譜數(shù)據(jù)。
因此,從一方面來看,本發(fā)明提供了一種用于分析選定的多組分樣品的方法,以便預(yù)測(cè)樣品的某種本征值(property value),這種方法包括i)確定多個(gè)相似的多組分樣品的所述本征值;ii)對(duì)每一種所述相似樣品來說,a)沿一個(gè)分離量度(dimension)分離樣品的組分,b)在沿以所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,c)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì),d)為所述分離量度的各個(gè)部分選擇幾組所述圖形(pattern),并且從其中確定所述部分的各個(gè)組分的特征圖形和分離量度分布曲線;iii)將沿分離量度的確定圖形與其分布曲線的位置進(jìn)行比較,由此可以鑒定出所述相似樣品中的類似組分;iv)將所述相似樣品中的組分的所述本征值和所確定的分布曲線強(qiáng)度進(jìn)行比較,由此產(chǎn)生一個(gè)預(yù)測(cè)樣品的所述本征值的模型;v)對(duì)所述的選定樣品來說,A)沿一個(gè)分離量度分離其組分,B)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,C)確定每一部分的圖形,該圖形可以表征該部分的單一或者多組分的性質(zhì),D)為所述分離量度的各個(gè)部分選擇幾組所述圖形,并且從其中確定出這些部分的各個(gè)組分的特征圖形和分離量度分布曲線,E)將所述模型施加到所述選定樣品中各個(gè)組分的已確定分布曲線的強(qiáng)度上,由此對(duì)所述選定樣品的所述本征值進(jìn)行估算。
“本征(property)”指的是任何能夠被指定數(shù)值的性質(zhì);然而它也可能是例如零或者一,其中間級(jí)度(gradation)是不可能或不需要的,例如生或死、感染或未感染等等。
本發(fā)明的方法涉及到根據(jù)對(duì)相似樣品的分析來構(gòu)建一種預(yù)測(cè)模型,對(duì)于這樣的相似樣品來說,其本征值已經(jīng)確定,然后將這種模型施加到無需確定本征的樣品的分析結(jié)果中。由于相似性意味著樣品是相同的類型,或具有相同或相似類型的來源,例如,樣品都是來自于相同工藝或操作的廢氣或廢液,或者是從相同物種的成員中的相同體液、組織、滲出液等中取得,例如血液、血清、血漿、尿液、粘液、唾液、糞便、汗液、體內(nèi)氣體等等。因此,“相似”的樣品將共同含有“選定”樣品中存在的多個(gè)、優(yōu)選的是全部或絕大部分組分。
本發(fā)明的方法涉及對(duì)多組分樣品的各個(gè)組分進(jìn)行分離。這樣的分離可以是但并不需要是完全的,而目每個(gè)取樣部分(例如對(duì)于質(zhì)譜分析來說)可以因此含有一種或多種成分。所以,如果借助于氣相或液相色譜法進(jìn)行分離,那么同樣的組分可存在于沿分離量度(例如洗脫時(shí)間)的幾個(gè)相鄰部分中。因此,在用氣相色譜-質(zhì)譜(GC-MS)法時(shí),這種方法涉及對(duì)相鄰部分的質(zhì)譜圖譜的研究,以便鑒定出各個(gè)組分的MS特征峰,并且計(jì)算出各個(gè)組分沿洗脫時(shí)間的GC分布曲線。如果需要的話,可以排除分離量度的無用部分的數(shù)據(jù),這樣,需要確定分布曲線的組分可以僅僅需要包括所存在的全部組分的一個(gè)子集。那些已確定的分布曲線的強(qiáng)度(例如,峰高、峰的面積或簡(jiǎn)單的是/否的值)可用于預(yù)測(cè)模型的構(gòu)建和應(yīng)用。通過對(duì)不同樣品的數(shù)據(jù)進(jìn)行比較可精確制定出預(yù)測(cè)模型,這樣就可以識(shí)別出在分布曲線(例如保留時(shí)間或調(diào)整保留時(shí)間)和圖形(例如質(zhì)譜)方面相同或非常相似的類似組分。
對(duì)許多樣品的分析來說,一個(gè)供應(yīng)商可以向用戶提供預(yù)先計(jì)算好的預(yù)測(cè)模型,因此,從這一方面來看,本發(fā)明提供了一種用于預(yù)測(cè)多組分樣品的本征值的預(yù)測(cè)模型的產(chǎn)生方法,這種方法包括i)確定出多個(gè)相似的多組分樣品的所述本征值;ii)對(duì)每一種所述的相似樣品來說,a)沿一分離量度分離它的組分,b)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,c)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì),
d)為所述分離量度的各個(gè)部分選擇幾組所述圖形,并且從其中確定所述部分的各個(gè)組分的特征圖形和分離量度分布曲線;iii)將沿分離量度的確定圖形與其分布曲線的位置進(jìn)行比較,由此鑒定出所述相似樣品中的類似組分;iv)將所述相似樣品中各個(gè)組分的所述本征值和確定的分布曲線強(qiáng)度進(jìn)行比較,由此產(chǎn)生一個(gè)預(yù)測(cè)樣品的所述本征值的模型。
從另一方面看,本發(fā)明提供了一種對(duì)選定多組分樣品進(jìn)行分析的方法,以預(yù)測(cè)它的本征值。這種方法包括A)沿一分離量度分離樣品的組分,B)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,C)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì),D)為所述分離量度的各個(gè)部分選擇幾組所述圖形,并且從其中確定出該部分的各個(gè)組分的特征圖形和分離量度分布曲線,E)將所述模型施加到所述選定樣品中各個(gè)組分的已確定分布曲線的強(qiáng)度上,由此對(duì)所述選定樣品的所述本征值進(jìn)行估算。
同時(shí),正如下面將要進(jìn)一步討論的,本發(fā)明的方法可以更廣泛地應(yīng)用于多組分樣品,以下將進(jìn)一步詳細(xì)描述的這個(gè)方法,涉及到利用產(chǎn)生各個(gè)部分的色譜分離和產(chǎn)生圖形的光譜分析對(duì)包含大量化合物的樣品進(jìn)行分析,以得到定量性質(zhì)例如物理、化學(xué)性質(zhì),特別是生物學(xué)性質(zhì)(例如毒性、致突變性、病狀、基因型、治療效果等等)。
雖然如上所述,我們可以使用許多不同的光譜分析方法,但光譜的波峰(或波谷)尖銳的技術(shù)是特別優(yōu)選的,例如NMR,尤其是質(zhì)譜(MS)。同樣,優(yōu)選的是采用液相色譜或更好的氣相色譜進(jìn)行分離。
可以利用能產(chǎn)生樣品的色譜分離光譜數(shù)據(jù)的設(shè)備,例如GC-MS設(shè)備。
因此,用于按照本發(fā)明的分析方法的起始數(shù)據(jù)可以認(rèn)為是一個(gè)二維矩陣(即色譜部分的數(shù)據(jù)和每一個(gè)色譜部分的光譜數(shù)據(jù)),再加上用于產(chǎn)生預(yù)測(cè)模型的每一樣品的確定本征值和用于產(chǎn)生選定樣品的預(yù)測(cè)值的二維矩陣(即色譜部分的數(shù)據(jù)和每一個(gè)色譜部分的光譜數(shù)據(jù))。同樣,色譜和光譜數(shù)據(jù)將包括強(qiáng)度和位置(例如洗脫時(shí)間或質(zhì)量數(shù)或質(zhì)荷比)數(shù)據(jù)。
為了減少所需的計(jì)算時(shí)間,這一點(diǎn)在樣品含有幾百種化合物的時(shí)候特別重要,我們可以通過去掉峰高低于預(yù)設(shè)最小值(例如,在餾分中樣品的化合物的量為零或非常低,或者光譜的波峰處于噪聲級(jí))的數(shù)據(jù),或者去掉與已知或認(rèn)為對(duì)本征無影響的化合物相對(duì)應(yīng)部分的數(shù)據(jù)(例如較低分子量、快速洗脫的化合物),來限制輸入數(shù)據(jù)。
一般來說,數(shù)據(jù)矩陣可以首先通過去除在洗脫時(shí)間沒有組分流出(即色譜信號(hào)(高度)低于預(yù)設(shè)界限)的洗脫時(shí)間數(shù)據(jù)而加以簡(jiǎn)化。然而,這種刪除最好是在沿時(shí)間方向的位置上進(jìn)行,在這個(gè)位置上信號(hào)與峰高的關(guān)聯(lián)很小。
可以通過以下方式實(shí)現(xiàn)這一點(diǎn)設(shè)定一個(gè)相鄰波峰比值(,例如比值為0.1到0.4,優(yōu)選的是0.3,并且只有在波峰的信號(hào)比率低于這個(gè)值時(shí)才去掉這個(gè)數(shù)據(jù),而不是在信號(hào)達(dá)到跟隨波峰分最小值的時(shí)間位置上或者在信號(hào)低于預(yù)設(shè)清除極限的時(shí)間位置上清除這個(gè)數(shù)據(jù)。清除極限本身一般根據(jù)用戶的需要進(jìn)行設(shè)置——一個(gè)更高的值會(huì)去掉更多的數(shù)據(jù),因而會(huì)忽略更多的次要組分,反之也是如此。清除界限一般設(shè)定為最小可區(qū)分信號(hào)高度的5%-10%。很明顯,清除極限越低,就會(huì)保留更多的數(shù)據(jù),這樣就會(huì)分析更多的組分。
2D GC-MS數(shù)據(jù)能夠包括由各種原因產(chǎn)生的背景噪聲。檢測(cè)器性能方面的變化能夠?qū)е律V基線的偏移和漂移,而且柱流失能夠?qū)е卤尘肮庾V的存在。這就需要我們?cè)谌コ阈盘?hào)或噪聲信號(hào)保留時(shí)間之后,對(duì)剩余的色譜峰進(jìn)行背景校正。這一點(diǎn)可以通過對(duì)一次(即線性)估算基線進(jìn)行計(jì)算來實(shí)現(xiàn),這條基線具有的斜率與峰簇任一側(cè)的零組分區(qū)域的外推直線的斜率近似。
這樣,對(duì)于以這種方式選定的每一色譜峰簇來說,都可以對(duì)單獨(dú)的光譜數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化,例如,設(shè)定最大的譜峰高度為1或總的譜峰面積為1,或者也可以把最大譜峰高度設(shè)定為與選定色譜峰簇的峰面積成比例的值。
優(yōu)選的是,以這種方式選定的色譜峰簇延續(xù)至少20個(gè)分辨時(shí)間閥值(valves),即與它們關(guān)聯(lián)的至少有20ms譜項(xiàng)。
隨后,光譜數(shù)據(jù)的數(shù)據(jù)簡(jiǎn)化可以同樣進(jìn)行。因此,對(duì)MS來說,如果同時(shí)考慮整個(gè)洗脫時(shí)間,那么在可記錄范圍內(nèi)的大多數(shù),甚至全部質(zhì)量數(shù)都包含至少一個(gè)組分的信號(hào)。然而,在色譜部分的質(zhì)譜圖中,許多質(zhì)量數(shù)并不包含信號(hào)或者所包含的信號(hào)僅僅是由于噪聲引起的。這種質(zhì)量數(shù)的存在降低了解析過程的質(zhì)量,所以,最好在解析之前就把它們從譜項(xiàng)中消除。
當(dāng)然,檢測(cè)出零信號(hào)的質(zhì)量數(shù)是沒有價(jià)值的,可以用形態(tài)學(xué)標(biāo)準(zhǔn)和F測(cè)試(參看Shen et al.Chemomem.Intell.Lab.Syst.5137-47(2000))相結(jié)合來檢測(cè)由于隨機(jī)噪聲造成的信號(hào)的質(zhì)量數(shù),F(xiàn)測(cè)試?yán)昧诉@樣一個(gè)事實(shí),即噪聲的頻率比一種化學(xué)組分發(fā)出的信號(hào)的頻率更高。這樣,在解析之前,就消除了高達(dá)約90%的質(zhì)譜數(shù)據(jù)。
隨后,調(diào)整的光譜數(shù)據(jù)就可以解析為單波峰。這實(shí)際上涉及到求解方程X=CST+E (1)對(duì)C和S來說,X是被記錄的數(shù)據(jù),C是色譜分布曲線,S是質(zhì)譜,T表示矩陣位移,E是剩余矩陣。
這個(gè)方程可以用多種方法求解。然而,優(yōu)選的方法是Manne et al in Chemom.Intell.Lab.Syst.5035-46(2000)中描述的GENTLE方法,該文獻(xiàn)的內(nèi)容在此作為參考并入本文。
首先,例如用簡(jiǎn)化的Borgen方法(參見Grande et al.,Chemom.Intell.Lab.Syst.5019-33(2000),該文獻(xiàn)的內(nèi)容在此作為參考并入本文)找出A的關(guān)鍵譜項(xiàng)S。(“A”在這里是化學(xué)等級(jí))。在峰簇中,關(guān)鍵譜項(xiàng)是最純的譜項(xiàng)??梢酝ㄟ^把數(shù)據(jù)標(biāo)準(zhǔn)化為數(shù)據(jù)的第一個(gè)奇異(singular)向量上的常數(shù)投影而找到關(guān)鍵譜項(xiàng)。(術(shù)語“奇異”是指該向量是一個(gè)奇異值解析(SVD)的結(jié)果,SVD是一種標(biāo)準(zhǔn)的數(shù)值計(jì)算方法。在矩陣式中X=U∑VT,U的第一個(gè)列向量有時(shí)被稱為第一左奇異向量,它被用來進(jìn)行投影。隨后,可以在凸邊上的極值點(diǎn)處發(fā)現(xiàn)關(guān)鍵譜項(xiàng),并且該關(guān)鍵譜項(xiàng)被界定為如此出現(xiàn)的數(shù)據(jù)的表示。關(guān)鍵譜項(xiàng)S0表示真實(shí)譜項(xiàng)S的初始估計(jì)值。真實(shí)色譜分布曲線C0的初始估計(jì)值C0可以隨后通過求解關(guān)于C的方程(1)得到,因此,C0=XS0(S0TS0)-1(2)為了由初始估計(jì)值C0和S0得到真實(shí)分布曲線和譜項(xiàng)的估計(jì)值C和S,需要借助于迭代過程??梢酝ㄟ^確定方程(3)和(4)的變換矩陣T實(shí)現(xiàn)這一步C=C0T (3)ST=T1S0T(4)T是幾個(gè)初等矩陣的乘積,可以用迭代方法生成T,通過在C和S的中間解(intermediate solution)上設(shè)定某些限制可以使迭代方法變得易解。因此,對(duì)S和C來說,我們假定峰值(無論是在色譜中還是在質(zhì)譜中)必須為正,而對(duì)C來說,我們假定一個(gè)純的色譜峰應(yīng)該是單峰。例如,下面的標(biāo)準(zhǔn)可用于實(shí)現(xiàn)解析和對(duì)解析進(jìn)行評(píng)估組分窗口可用線性回歸使一個(gè)組分在色譜區(qū)域之外的非零偏差最小,這個(gè)區(qū)域在噪聲極限之上。
平滑度可以假定一個(gè)化合物的色譜峰是連續(xù)的(這樣就可以把它和噪聲區(qū)分開)。
顯著性一個(gè)組分的色譜峰的頂點(diǎn)強(qiáng)度一般應(yīng)該明顯高于數(shù)據(jù)的決定極限(即前面指出的消除極限或最小可區(qū)分信號(hào)高度);一般來說,只有頂點(diǎn)強(qiáng)度至少是決定極限兩倍的峰值才可能被接受。
完全性在選定的色譜峰簇完成之前,優(yōu)選的是檢查一下解析峰是否降低到噪聲水平;如果沒有,那么應(yīng)該用一個(gè)更大的峰簇重復(fù)這個(gè)過程。
可以用一個(gè)相對(duì)大的數(shù)目(例如8到12,優(yōu)選的是10)啟動(dòng),從而逐階得到化學(xué)等級(jí)或關(guān)鍵譜項(xiàng)的數(shù)目。在根據(jù)關(guān)鍵譜項(xiàng)的特定數(shù)目對(duì)計(jì)算出解(solution)之后,可根據(jù)上面的標(biāo)準(zhǔn)對(duì)解進(jìn)行評(píng)估。如果分布曲線的解析質(zhì)量很差,那么就應(yīng)該用更大數(shù)目的關(guān)鍵譜項(xiàng)重復(fù)解析過程,更一般的做法是,用更小數(shù)目的關(guān)鍵譜項(xiàng)重復(fù)解析過程。
在解析之后,可以對(duì)解析的質(zhì)譜S標(biāo)準(zhǔn)化,這樣最大的強(qiáng)度為1.0,而色譜分布曲線C可用以下方程重新計(jì)算C=XS(STS)-1(5)然后,在光譜中就會(huì)給出定性信息,與此同時(shí),在色譜分布曲線中會(huì)給出定量信息(該色譜分布曲線可積分,以便得到面積)。
實(shí)際上,解析過程涉及到比較一個(gè)樣品的選定質(zhì)譜圖,以便鑒定出樣品中各個(gè)化學(xué)組分的特征譜線組,并且解析過程還涉及到這些組分的特征色譜分布曲線的確定。隨后,可把各個(gè)組分的列表做為一個(gè)樣品的輸出數(shù)據(jù),這些組分可用質(zhì)譜譜線和它們的色譜分布曲線的位置(即洗脫時(shí)間)和面積進(jìn)行表征。對(duì)多個(gè)樣品進(jìn)行這樣的操作,就可以產(chǎn)生一個(gè)預(yù)測(cè)值矩陣,而這個(gè)矩陣就可用于產(chǎn)生預(yù)測(cè)值模型。舉例來說,Y=Xb,在這里,X是預(yù)測(cè)值矩陣,b是回歸系數(shù)(預(yù)測(cè)值模型),Y是樣品本征的預(yù)測(cè)值。
因此,在生成預(yù)測(cè)值矩陣的過程中,可對(duì)不同樣品的輸出數(shù)據(jù)進(jìn)行比較,并測(cè)定相似組分(即化合物)的存在。隨后,可用回歸分析確定每一個(gè)組分對(duì)樣品總的測(cè)定本征(例如致癌性)的貢獻(xiàn)的相對(duì)大小和負(fù)面或正面性質(zhì)。然后,這些貢獻(xiàn)值就可以表達(dá)為每一個(gè)組分貢獻(xiàn)的預(yù)測(cè)值模型。通過把這個(gè)預(yù)測(cè)值模型應(yīng)用到另一個(gè)樣品的已確定組分濃度的分布曲線中,就可以簡(jiǎn)單估算另一樣品的本征值。
一般來說,預(yù)測(cè)值矩陣的產(chǎn)生包括如下幾個(gè)步驟i)載荷已測(cè)定本征值的樣品的解析分布曲線,每一個(gè)樣品的分布曲線一般包括面積(色譜峰面積)、保留時(shí)間和每一個(gè)解析組分的標(biāo)準(zhǔn)化質(zhì)譜圖;ii)使各個(gè)解析的分布曲線按照保留時(shí)間遞增的順序排列;iii)將保留時(shí)間在特定范圍內(nèi)(1到8分鐘,典型為4分鐘)的不同組分的質(zhì)譜進(jìn)行比較,以便鑒定出兩種或兩種以上樣品中共有的組分,從而就可以減少隨后的回歸分析的變量數(shù)目;iv)為樣品的解析組分建立回歸模型,該模型把已測(cè)定的本征值與幾組保留時(shí)間和面積值聯(lián)系起來。
比較步驟(iii)一般涉及到有相似保留時(shí)間的不同樣品中i和j組分的質(zhì)譜Si和Sj之間的光譜相似指數(shù)Sij的測(cè)定。Sij可表示為Sij=SiTSj(6)而且,如果存在預(yù)置極限(例如0.9)之上的數(shù)值,那么組分i和j就可以分類為類似物。
當(dāng)預(yù)測(cè)值矩陣已經(jīng)建立時(shí),可把本征的測(cè)定值與所計(jì)算的樣品的解析組分的幾組面積聯(lián)系起來,從而對(duì)分類模型或回歸模型進(jìn)行評(píng)估。利用商業(yè)上購得的多元分類/回歸分析計(jì)算機(jī)程序(例如從挪威卑爾根的模式識(shí)別系統(tǒng)公司購得的天狼星程序),可由預(yù)測(cè)值矩陣對(duì)模型進(jìn)行計(jì)算。
在附圖的
圖1中,示意性地給出了一個(gè)典型預(yù)測(cè)模型的例子。在這個(gè)圖中,x軸是組分的保留時(shí)間,y軸是需要測(cè)定本征的樣品中解析的每一種組分的回歸系數(shù)值。在該情形中,所測(cè)定的本征是致突變性(用埃米斯測(cè)試測(cè)量),而樣品是環(huán)境污水樣品。
對(duì)具有更大回歸系數(shù)的組分的生物學(xué)影響更大,而且,正如我們看到的,對(duì)具有更長(zhǎng)保留時(shí)間的組分的生物學(xué)影響也更大。
如果需要的話,通過在GC-MS分析之前將具有已知質(zhì)譜而樣品中不存在的化合物摻入樣品中,可使比較步驟容易實(shí)施。這些化合物的保留時(shí)間中的任何變化都可用來決定保留時(shí)間的選擇范圍的大小,這樣就可以確定相似化合物。不過,那些摻加化合物的分布曲線不會(huì)用在預(yù)測(cè)值矩陣的生成過程中,因?yàn)檫@些化合物在未摻合的樣品中并不存在,它們無疑對(duì)本征值并沒有貢獻(xiàn)。此外,在注入到GC-MS的樣品的定量中,這種摻加化合物可用于校正樣品之間的變化,也就是說,可以相對(duì)于摻加劑的峰面積來使這些峰面積標(biāo)準(zhǔn)化。
當(dāng)然,上面的討論主要是把多組分化學(xué)樣品的GC-MS譜項(xiàng)與生物學(xué)影響的可測(cè)定數(shù)值聯(lián)系起來,而本發(fā)明中的方法可適用于更一般的情況。舉例來說,這些方法可用于檢測(cè)食物樣品的生物學(xué)或化學(xué)污染,例如被諸如DSP、PSP、ASP、黃曲霉毒素和肉毒桿菌毒素之類的毒素污染;或用于醫(yī)學(xué)樣品(例如淋巴液、血液、血清、血漿、尿液、粘液、精液、唾液、糞便或組織樣品)的分析,以檢測(cè)出各種情況例如細(xì)菌和病毒感染、與蛋白感染素關(guān)聯(lián)的疾病、諸如阿爾茨海默病、馬鞭式創(chuàng)傷(whiplash)等生理狀況,或者濫用藥品的情況(例如運(yùn)動(dòng)員使用違禁藥品或物質(zhì))。然而,這些方法一般用于可測(cè)定本征與多個(gè)組分的一組“特征”信號(hào)聯(lián)系起來的任何系統(tǒng)。
本發(fā)明的方法尤其可用于醫(yī)學(xué)和法醫(yī)診斷。因此在一個(gè)實(shí)施例中,如果用身體組織或液體(例如血液、血漿或血清)做樣品,“本征”可以是正常/健康或不正常/不健康,并且如果它們出現(xiàn)在特定的濃度范圍之外,那么就可以鑒定出與異常或健康不佳的狀況相聯(lián)系的組分。同樣,可以鑒定出與特定的異?;虿钕嚓P(guān)聯(lián)的組分或幾組組分。在另一個(gè)實(shí)施例中,在人死后可對(duì)體液、組織或氣體進(jìn)行分析,并且生成的預(yù)測(cè)值模型可用于確定死亡時(shí)間,例如謀殺的受害者的死亡時(shí)間。
同樣,這些方法也特別適用于對(duì)食品(例如奶酪)進(jìn)行檢驗(yàn),以檢測(cè)出異常情況或污染(化學(xué)或生物學(xué))。
如果需要的話,本發(fā)明的方法可以擴(kuò)展到用于鑒定樣品的一種或多種解析組分,這可以通過把組分的特征數(shù)據(jù)(例如色譜分布曲線和/或質(zhì)譜)與已知化合物(或其他組分)的相似特征數(shù)據(jù)進(jìn)行比較而得以實(shí)現(xiàn),例如可參考化學(xué)品資料庫的計(jì)算機(jī)化數(shù)據(jù)庫。舉例來說,本發(fā)明的方法可用作一個(gè)粗過濾器,來鑒定可用于一個(gè)樣品(或者個(gè)人或試驗(yàn)場(chǎng)地的多個(gè)樣品)的更特殊或更精確的診斷測(cè)試。這樣,無需進(jìn)行全部有價(jià)值的診斷測(cè)試就可以發(fā)現(xiàn)問題。
從又一方面看,本發(fā)明還提供了一種計(jì)算機(jī)軟件產(chǎn)品(例如磁盤、磁帶、導(dǎo)線、存儲(chǔ)器或其他載體),這種產(chǎn)品帶有一個(gè)用于執(zhí)行本發(fā)明方法的計(jì)算機(jī)程序。
從另一方面看,本發(fā)明提供了一種設(shè)置有用于實(shí)施本發(fā)明方法的程序的計(jì)算機(jī)。
在附圖的圖2和圖3的流程圖中,示意性地圖解說明了按照本發(fā)明的程序操作。
參照?qǐng)D2,其圖解說明了預(yù)測(cè)模型的構(gòu)建過程。數(shù)據(jù)輸入(步驟I)包括載荷多個(gè)樣品的GC-MS數(shù)據(jù)和已測(cè)定的本征值。數(shù)據(jù)簡(jiǎn)化(步驟II)包括消除空白保留時(shí)間和消除背景(即鑒定出GC峰簇),消除空白質(zhì)量數(shù)和消除MS背景(即從每個(gè)GC峰簇的質(zhì)譜中鑒定出幾組質(zhì)譜峰)。分布曲線解析(步驟III)包括在這樣的GC峰簇中鑒定出各個(gè)組分的質(zhì)譜,并且為每一個(gè)解析組分確定出GC分布曲線(峰保留時(shí)間和峰的面積)。預(yù)測(cè)模型制作(步驟IV)包括在不同樣品之間將解析組分的分布曲線進(jìn)行比較,以鑒定出兩種或兩種以上樣品中共有的組分,并且進(jìn)行回歸分析,為每一種解析組分提供表示該組分對(duì)測(cè)定本征的影響的回歸系數(shù),然后由所產(chǎn)生的預(yù)測(cè)值矩陣制作預(yù)測(cè)值模型。
參照?qǐng)D3,其圖解說明了預(yù)測(cè)值模型的應(yīng)用。數(shù)據(jù)輸入(步驟I)包括載荷樣品的GC-MS數(shù)據(jù)。數(shù)據(jù)簡(jiǎn)化(步驟II)和分布曲線解析(步驟III)與在圖2中描述的一樣。數(shù)值預(yù)測(cè)(步驟IV)包括將預(yù)先計(jì)算好的預(yù)測(cè)模型應(yīng)用到解析分布曲線中。很明顯,確定估算的本征值時(shí)只會(huì)考慮那些在構(gòu)建預(yù)測(cè)模型時(shí)用到的組分。
正如前面所提到的,預(yù)測(cè)模型不需要根據(jù)表示組分對(duì)本征的貢獻(xiàn)的回歸系數(shù)進(jìn)行推導(dǎo),但預(yù)測(cè)模型可以反映出一種分類,即生/死、健康/不健康,所以,應(yīng)用這個(gè)模型可以給出樣品來源的相應(yīng)分類作為所估計(jì)的本征值。
我們還可以看到,預(yù)測(cè)值矩陣可以用于在產(chǎn)生樣品預(yù)測(cè)值時(shí)進(jìn)行的數(shù)據(jù)簡(jiǎn)化;例如,在計(jì)算預(yù)測(cè)值矩陣時(shí),可以把與已確定的低回歸系數(shù)值相對(duì)應(yīng)的GC保留時(shí)間去掉。
我們可以看到,可用位于遠(yuǎn)處的數(shù)據(jù)處理裝置來完成本發(fā)明的分析測(cè)試。因此,從另一方面來看,本發(fā)明提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,該指令在數(shù)據(jù)處理裝置上實(shí)施時(shí)將預(yù)測(cè)選定多組分樣品的本征值,其中計(jì)算機(jī)程序接收的數(shù)據(jù)是通過以下方式得到的A)沿一個(gè)分離量度分離樣品的多個(gè)組分;B)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,在這里,計(jì)算機(jī)程序執(zhí)行如下步驟a)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì);b)為所述分離量度的各個(gè)部分選擇幾組所述圖形,并且從其中確定出這些部分中的各個(gè)組分的特征圖形和分類量度分布曲線;以及c)將預(yù)測(cè)模型施加到所述選定樣品中已確定的各個(gè)組分的分布曲線強(qiáng)度上,并由此對(duì)所述樣品的所述本征值進(jìn)行估算。
另一方面,本發(fā)明提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,該指令在數(shù)據(jù)處理裝置上實(shí)施時(shí),將分析選定的多組分樣品,以預(yù)測(cè)樣品的本征值,其中計(jì)算機(jī)程序接收的數(shù)據(jù)是通過以下方式得到的
i)為多個(gè)相似的多組分樣品確定所述本征值;ii)對(duì)每一種所述相似的樣品來說,a)沿一個(gè)分離量度分離樣品的各個(gè)組分,b)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,iii)對(duì)所述選定的樣品來說,A)沿一個(gè)分離量度分離樣品的各個(gè)組分,B)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣在這里,計(jì)算機(jī)程序執(zhí)行如下步驟i)對(duì)每一種所述相似的樣品來說,a)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì);b)為所述分離量度的各個(gè)部分選擇幾組所述圖形,并且從其中確定出所述部分中各個(gè)組分的特征圖形和分離量度分布曲線;ii)將沿分離量度的確定圖形與其分布曲線的位置的進(jìn)行比較,并由此鑒定出所述相似樣品中的類似組分;iii)將所述相似樣品中的組分的所述本征值和確定分布曲線的強(qiáng)度進(jìn)行比較,并由此生成預(yù)測(cè)樣品的所述本征值的模型;iv)對(duì)所述選定樣品來說,A)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì);B)為所述分離量度的各個(gè)部分選擇幾組所述圖形,并且從其中確定出這些部分中各個(gè)組分的特征圖形和分離量度分布曲線;C)把所述模型施加到所述選定樣品中已確定的各個(gè)組分的分布曲線強(qiáng)度上,并由此對(duì)所述樣品的所述本征值進(jìn)行估算。
從另一方面看,本發(fā)明提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,該指令在數(shù)據(jù)處理裝置上實(shí)施時(shí),將產(chǎn)生用于預(yù)測(cè)多組分樣品的本征值的預(yù)測(cè)模型,其中計(jì)算機(jī)程序接收的數(shù)據(jù)是通過以下方式得到的
i)為多個(gè)相似的多組分樣品確定所述本征值;ii)對(duì)每一所述相似的樣品來說,a)沿一個(gè)分離量度分離樣品的各個(gè)組分,b)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,在這里,計(jì)算機(jī)程序執(zhí)行如下步驟i)對(duì)每一種所述相似的樣品來說,A)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì);B)為所述分離量度的各個(gè)部分選擇幾組所述圖形,并且從其中確定出所述部分中各個(gè)組分的特征圖形和分離量度分布曲線;ii)將沿分離量度的確定圖與其分布曲線的位置進(jìn)行比較,并由此鑒定出所述相似樣品中的類似組分;iii)將所述相似樣品中的組分的所述本征值和確定的分布曲線強(qiáng)度進(jìn)行比較,并由此產(chǎn)生預(yù)測(cè)樣品的所述本征值的模型。
本發(fā)明可進(jìn)一步擴(kuò)展成一種包含指令的計(jì)算機(jī)程序產(chǎn)品,該指令在數(shù)據(jù)處理裝置上實(shí)施時(shí)將創(chuàng)建如上所述的計(jì)算機(jī)程序產(chǎn)品。
權(quán)利要求
1.一種分析選定的多組分樣品的方法,以預(yù)測(cè)其本征值,該方法包括i)確定多個(gè)類似的多組分樣品的所述本征值;ii)對(duì)每一種所述的相似樣品來說,a)沿一分離量度分離樣品的組分,b)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,c)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì),d)為所述分離量度的各個(gè)部分選擇多組所述圖形,并且從其中確定出所述部分的各個(gè)組分的特征圖形和分離量度分布曲線;iii)將沿分離量度所確定的圖形與其分布曲線的位置進(jìn)行比較,由此鑒定出所述相似樣品中的類似組分;iv)將所述類似樣品中的各個(gè)組分的所述本征值與已確定的分布曲線強(qiáng)度進(jìn)行比較,由此產(chǎn)生一個(gè)預(yù)測(cè)樣品的所述本征值的模型;v)對(duì)所述的選定樣品來說,A)沿一分離量度分離樣品的組分,B)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,C)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì),D)為所述分離量度的各個(gè)部分選擇多組所述圖形,并且從其中確定出這些部分的各個(gè)組分的特征圖形和分離量度分布曲線,E)將所述模型施加到所述選定樣品中的各個(gè)組分的已確定分布曲線的強(qiáng)度上,由此對(duì)所述選定樣品的所述本征值進(jìn)行估算。
2.一種產(chǎn)生用于預(yù)測(cè)多組分樣品的本征值的預(yù)測(cè)模型的方法,該方法包括i)確定出多個(gè)相似多組分樣品的所述本征值;ii)對(duì)每一種所述的相似樣品來說,a)沿一分離量度分離樣品的組分,b)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,c)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì),d)為所述分離量度的各個(gè)部分選擇多組所述圖形,并且從其中確定出所述部分的各個(gè)組分的特征圖形和分離量度分布曲線;iii)將沿分離量度所確定的圖形與其分布曲線的位置進(jìn)行比較,由此鑒定出所述相似樣品中的類似組分;iv)將所述相似樣品中的各個(gè)組分的所述本征值與已確定的分布曲線強(qiáng)度進(jìn)行比較,由此產(chǎn)生一個(gè)預(yù)測(cè)樣品的所述本征值的模型。
3.一種分析選定的多組分樣品的方法,以便預(yù)測(cè)其本征值,該方法包括A)沿一分離量度分離樣品的組分,B)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,C)為每一部分確定一個(gè)圖形,該圖形表征該部分的單一或多組分的性質(zhì),D)為所述分離量度的各個(gè)部分選擇多組所述圖形,并且從其中確定出這些部分中的各個(gè)組分的特征圖形和分離量度分布曲線,E)將所述模型施加到所述選定樣品中各個(gè)組分的已確定的分布曲線的強(qiáng)度上,由此對(duì)所述選定樣品的所述本征值進(jìn)行估算。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其中所述樣品是包含多種不同化學(xué)或生物組分的組合物,所述樣品的分離應(yīng)用色譜法是有效的。
5.根據(jù)權(quán)利要求4所述的方法,其中所述圖形為光譜圖。
6.根據(jù)權(quán)利要求4或5所述的方法,其中所述樣品是或取自體內(nèi)組織或體液或分泌液,或者取自環(huán)境流體,其分離應(yīng)用氣相色譜或液相色譜是有效的。
7.根據(jù)權(quán)利要求4、5或6所述的方法,其中所述圖形為質(zhì)譜圖。
8.根據(jù)前述任一項(xiàng)權(quán)利要求所述方法,其中選擇所述圖形組,以便排除所述分離量度的獲得的采樣信號(hào)在預(yù)定水平之下的部分。
9.根據(jù)權(quán)利要求8所述的方法,其中只有所述分離量度的某些部分被排除,這些部分的采樣部分的信號(hào)級(jí)與沿分離量度的最接近峰的信號(hào)級(jí)之比小于0.1-0.4這個(gè)范圍。
10.根據(jù)權(quán)利要求9所述的方法,其中只有所述分離量度的某些部分被排除,這些部分的采樣部分的信號(hào)級(jí)與沿分離量度的接近峰值的信號(hào)級(jí)之比小于0.3。
11.根據(jù)前述任一項(xiàng)權(quán)利要求所述的方法,其中選擇所述圖形組,以便排除所述分離量度的某些部分,這些部分與已知或認(rèn)為對(duì)所述本征幾乎沒有或沒有任何影響的組分有關(guān)。
12.根據(jù)前述任一項(xiàng)權(quán)利要求所述的方法,其中對(duì)所述分離量度的所述選定的圖形組進(jìn)行背景噪聲的校正。
13.根據(jù)權(quán)利要求5-12任一項(xiàng)所述的方法,其中排除所選定的這些圖形中的那些沒有包含任何信號(hào)或僅包含由于噪聲而產(chǎn)生的信號(hào)的光譜數(shù)據(jù)。
14.根據(jù)權(quán)利要求5-13任一項(xiàng)所述的方法,其中利用Gentle方法將獲得的光譜圖形解析成單波峰。
15.一種用于實(shí)施權(quán)利要求1-14任一項(xiàng)所述方法的計(jì)算機(jī)軟件產(chǎn)品。
16.一個(gè)為了實(shí)施權(quán)利要求1-14任一項(xiàng)所述的方法而編程的計(jì)算機(jī)。
17.一種包含指令的計(jì)算機(jī)程序產(chǎn)品,所述指令在數(shù)據(jù)處理裝置上實(shí)施時(shí),將預(yù)測(cè)出選定的多組分樣品的本征值,其中計(jì)算機(jī)程序接收的數(shù)據(jù)是通過以下方式得到的A)沿一個(gè)分離量度分離樣品的組分;B)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,并且計(jì)算機(jī)程序執(zhí)行以下步驟a)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì);b)為所述分離量度的各個(gè)部分選擇多組所述圖形,并且從其中確定出這些部分中各個(gè)組分的特征圖形和分離量度分布曲線;c)將預(yù)測(cè)模型施加到所述選定樣品中組分的已確定分布曲線強(qiáng)度上,并由此對(duì)所述樣品的所述本征值進(jìn)行估算。
18.一種包含指令的計(jì)算機(jī)程序產(chǎn)品,所述指令在數(shù)據(jù)處理裝置上實(shí)施時(shí),將分析選定的多組分,以預(yù)測(cè)選定的多組分樣品的本征值,其中計(jì)算機(jī)程序接收的數(shù)據(jù)是通過以下方式得到的i)確定多個(gè)相似的多組分樣品的所述本征值;ii)對(duì)每一種所述相似的樣品來說,a)沿一個(gè)分離量度分離樣品的組分,b)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,iii)對(duì)所述選定的樣品來說,A)沿一個(gè)分離量度分離樣品的組分,B)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣其中計(jì)算機(jī)程序執(zhí)行如下步驟i)對(duì)每一個(gè)所述相似的樣品來說,a)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì),b)為所述分離量度的各個(gè)部分選擇多組所述圖形,并且從其中確定出所述部分中各個(gè)組分的特征圖形和分離量度分布曲線;ii)將沿分離量度的確定圖形與其分布曲線的位置進(jìn)行比較,由此鑒定出所述相似樣品中的類似組分;iii)將所述相似樣品中的組分的所述本征值和確定的分布曲線強(qiáng)度進(jìn)行比較,由此產(chǎn)生一個(gè)預(yù)測(cè)樣品的所述本征值的模型;iv)對(duì)所述選定的樣品來說,A)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì),B)為所述分離量度的各個(gè)部分選擇多組所述圖形,并且從其中確定出這些部分中各個(gè)組分的特征圖形和分離量度分布曲線;C)將預(yù)測(cè)模型施加到所述選定樣品中的組分的已確定分布曲線的強(qiáng)度上,由此對(duì)所述樣品的所述本征值進(jìn)行估算。
19.一種包含指令的計(jì)算機(jī)程序產(chǎn)品,所述指令在數(shù)據(jù)處理裝置上實(shí)施時(shí),將產(chǎn)生一個(gè)用于預(yù)測(cè)多組分樣品的本征值的預(yù)測(cè)模型,其中計(jì)算機(jī)程序接收的數(shù)據(jù)是通過以下方式得到的i)確定多個(gè)相似的多組分樣品的所述本征值;ii)對(duì)每一種所述相似的樣品來說,a)沿一個(gè)分離量度分離樣品的組分,b)在沿所述分離量度的多個(gè)位置上對(duì)樣品的多個(gè)部分進(jìn)行采樣,其中計(jì)算機(jī)程序執(zhí)行如下步驟i)對(duì)每一所述相似的樣品來說,A)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質(zhì),B)為所述分離量度的各個(gè)部分選擇多組所述圖形,并且從其中確定出所述部分中各個(gè)組分的特征圖形和分離量度分布曲線;ii)將沿分離量度的確定圖形與其分布曲線的位置進(jìn)行比較,由此鑒定出所述相似樣品中的類似組分;iii)將所述相似樣品中的組分的所述本征值與已確定的分布曲線強(qiáng)度進(jìn)行比較,由此產(chǎn)生一個(gè)預(yù)測(cè)樣品的所述本征值的模型。
20.一種包含指令的計(jì)算機(jī)程序產(chǎn)品,所述指令在數(shù)據(jù)處理裝置上實(shí)施時(shí),將創(chuàng)建一個(gè)如權(quán)利要求15或17-19任一項(xiàng)所述的計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)軟件產(chǎn)品。
全文摘要
本申請(qǐng)描述了一種由二維(2D)分離數(shù)據(jù)(GC-MS)對(duì)復(fù)雜的多組分混合物的化學(xué)或生物學(xué)性質(zhì)(諸如毒性、致突變性)進(jìn)行預(yù)測(cè)的方法。利用自動(dòng)曲線解析程序(GENTLE)把數(shù)據(jù)解析成各個(gè)組分的譜峰(C)和譜項(xiàng)(S)。隨后將已解析的峰值進(jìn)行積分,并且把特征面積、分離參數(shù)和締合譜圖合并成一個(gè)預(yù)測(cè)值矩陣(X),這個(gè)矩陣可用作多元回歸模型的輸入項(xiàng)。利用部分最小二乘法(PLS)將一組測(cè)試集的2D分離數(shù)據(jù)與已測(cè)過的性質(zhì)聯(lián)系起來。隨后,就可以用回歸模型預(yù)測(cè)其他樣品的性質(zhì)。
文檔編號(hào)G06Q10/00GK1423749SQ0180697
公開日2003年6月11日 申請(qǐng)日期2001年7月4日 優(yōu)先權(quán)日2000年7月4日
發(fā)明者奧拉夫·夸爾海姆, 比約·格龍 申請(qǐng)人:模式識(shí)別系統(tǒng)控股有限公司