專利名稱:一種通過定量構(gòu)效關(guān)系模型預(yù)測有機(jī)物液相蒸氣壓的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種通過建立定量構(gòu)效關(guān)系模型OiSAR)預(yù)測有機(jī)化學(xué)品液相蒸氣壓的方法,屬于生態(tài)風(fēng)險(xiǎn)評價(jià)測試策略領(lǐng)域。
背景技術(shù):
蒸氣壓是在一定溫度下,與固態(tài)或液態(tài)純物質(zhì)達(dá)到平衡時(shí),該物質(zhì)在蒸氣相或空氣中所能達(dá)到的最大的量,是表征有機(jī)污染物進(jìn)入環(huán)境后發(fā)生遷移、轉(zhuǎn)化等環(huán)境行為的一個(gè)重要的基本參數(shù)。它決定了有機(jī)污染物的揮發(fā)性,影響著有機(jī)污染物在氣相和環(huán)境其它相之間的遷移和分配行為、在大氣中的停留時(shí)間、以及遠(yuǎn)距離遷移能力等。根據(jù)與氣相平衡的純物質(zhì)的狀態(tài),蒸氣壓分為固相蒸氣壓(Ps)和液相蒸氣壓(PJ。在實(shí)際的應(yīng)用中,Pl比 Ps更受到環(huán)境界的關(guān)注。這是由于環(huán)境中的有機(jī)污染物常以分子的形式分散于各個(gè)環(huán)境介質(zhì)中,彼此之間的距離較大,難以聚集而形成晶體,因此它們在實(shí)際環(huán)境中的行為與溶液中的行為比較相似,故&比Ps更能表現(xiàn)出有機(jī)污染物在環(huán)境中的揮發(fā)性。
最初,化合物蒸氣壓數(shù)據(jù)是通過實(shí)驗(yàn)方法獲得。但是僅通過實(shí)驗(yàn)方法獲取以每年上萬種速度增長的化合物的蒸氣壓數(shù)據(jù),不僅工作量大,而且在時(shí)間上也是滯后的。這可能導(dǎo)致化學(xué)品未經(jīng)評價(jià)而進(jìn)入環(huán)境,對環(huán)境造成不可逆轉(zhuǎn)的污染和破壞。因此,前人通過發(fā)展計(jì)算的方法來預(yù)測化合物的蒸氣壓,取得了有效的進(jìn)展。其中,QSAR模型是一個(gè)很重要的應(yīng)用。
QSAR是指關(guān)聯(lián)有機(jī)污染物的分子結(jié)構(gòu)與其理化性質(zhì)、環(huán)境行為和毒理學(xué)參數(shù)(統(tǒng)稱為活性)的定量預(yù)測模型?;诜肿咏Y(jié)構(gòu)是決定其理化性質(zhì)、在環(huán)境中的遷移轉(zhuǎn)化行為和生態(tài)毒理學(xué)效應(yīng)的內(nèi)因,分子結(jié)構(gòu)與有機(jī)化合物理化性質(zhì)、環(huán)境行為參數(shù)和生態(tài)毒理學(xué)效應(yīng)參數(shù)之間的(定量)關(guān)系是可以被認(rèn)識、表征和應(yīng)用的,所以通過QSAR模型估測化合物的蒸氣壓是可行的。
2004年經(jīng)濟(jì)合作與發(fā)展組織(0E⑶)提出了 QSAR模型構(gòu)建和使用的導(dǎo)則。該導(dǎo)則規(guī)定,具有如下5個(gè)標(biāo)準(zhǔn)的QSAR模型,可以應(yīng)用于化學(xué)品的管理與風(fēng)險(xiǎn)評價(jià)(1)具有明確定義的環(huán)境指標(biāo);( 具有明確的算法;C3)定義了模型的應(yīng)用域;(4)模型具有適當(dāng)?shù)臄M合度、穩(wěn)定性和預(yù)測能力;( 最好能夠進(jìn)行機(jī)理解釋。目前,已有許多研究者應(yīng)用QSAR方法成功地建立了多種化合物蒸氣壓的預(yù)測模型。如文獻(xiàn)“SAR QSAR Environ. Res. 2003,14 97-111”利用量子化學(xué)描述符,應(yīng)用PLS方法建立了新興污染物-多溴代聯(lián)苯醚(PBDEs)的蒸氣壓預(yù)測模型,具有很好的預(yù)測能力和穩(wěn)健性;文獻(xiàn)Chemosphere. 2007,66 :1998-2010 和Chemosphere. 2010,80 :65-670應(yīng)用8種靜電描述符和線性回歸方法分別建立了 107種多氯聯(lián)苯醚(POTEs)和22種多溴聯(lián)苯醚(PBDEs)在^SK溫度下的蒸氣壓預(yù)測模型,其相關(guān)系數(shù)均達(dá)到0. 99以上。但是上述模型只適用于某種單一結(jié)構(gòu)類型的化合物,即模型的應(yīng)用域小。文獻(xiàn)“Atmospheric Environment. 2010,44 1似8_1436”則采用量子化學(xué)參數(shù), 通過PLS方法建立了 341種鹵代芳香族化合物的蒸氣壓預(yù)測模型,得到了良好的線性關(guān)系(r2 = 0.97),并提出了氯代芳香族和溴代芳香族化合物其蒸氣壓之間的線性關(guān)系;文獻(xiàn)"J. Chem. Inf. Comput. Sci. 1998,38 :321_324”采用結(jié)構(gòu)、幾何、靜電、拓?fù)浜土孔踊瘜W(xué)描述符,通過主成分分析和線性回歸結(jié)合的方法,成功建立了 479種不同種類化合物的蒸氣壓 QSAR模型(r2 = 0. 96)。上述研究建立的蒸氣壓QSAR模型,雖然應(yīng)用域較廣,但是只能預(yù)測 T = ^SK溫度下的蒸氣壓。然而在評價(jià)污染物在不同相中分布的實(shí)際應(yīng)用中,由于不同國家和地區(qū)所處的緯度和海拔各不相同,所關(guān)注的環(huán)境溫度也互不相同。蒸氣壓具有較強(qiáng)的溫度依附性,為了研究污染物在不同地區(qū)乃至全球的環(huán)境行為,僅僅考慮單一溫度下的蒸氣壓尚不滿足要求。因此,有必要建立一個(gè)應(yīng)用域覆蓋多種不同種類化合物的QSAR模型, 并將溫度作為一個(gè)變量加入模型。同時(shí),應(yīng)OECD的要求,基于機(jī)理分析建立模型后,對模型進(jìn)行應(yīng)用域的表征及機(jī)理解釋。發(fā)明內(nèi)容
本發(fā)明的目的是發(fā)展一種簡便、快捷、高效預(yù)測有機(jī)化合物液相蒸氣壓的方法。該方法可以根據(jù)化合物結(jié)構(gòu)預(yù)測出其液相蒸氣壓,進(jìn)而對目標(biāo)化合物的在環(huán)境中不同相的遷移轉(zhuǎn)化進(jìn)行預(yù)測和評價(jià),為化學(xué)品風(fēng)險(xiǎn)評價(jià)和環(huán)境監(jiān)管提供必要的基礎(chǔ)數(shù)據(jù)。
本發(fā)明為保證用于建模數(shù)據(jù)的準(zhǔn)確性,所收集數(shù)據(jù)均為已發(fā)表文獻(xiàn)中的實(shí)驗(yàn)測定值。最終得到661化合物在不同溫度下的10396個(gè)液相蒸氣壓數(shù)據(jù)。
在建立模型之前,根據(jù)影響有機(jī)化合物液相蒸氣壓大小的因素,選取相應(yīng)描述符分別表征分子的體積,電荷分布,氫鍵作用,色散力,極性-非極性表面積比,分子形狀和電子信息,包括14個(gè)量子化學(xué)描述符,31個(gè)Discovery Studio描述符,17個(gè)Dragon描述符。
依據(jù)蒸氣壓數(shù)據(jù)值的大小排序后,每隔3個(gè)蒸氣壓數(shù)據(jù)選取1個(gè)進(jìn)入驗(yàn)證集,其余數(shù)據(jù)進(jìn)入驗(yàn)證集,即按照3 1的比例分成訓(xùn)練集和驗(yàn)證集。訓(xùn)練集用來建立模型,驗(yàn)證集用于模型建立后的外部驗(yàn)證。建模過程中,將1/T作為一個(gè)描述符,對訓(xùn)練集中的蒸氣壓數(shù)據(jù)和上述63個(gè)描述符進(jìn)行PLS回歸分析。篩選出的最優(yōu)模型共包含8個(gè)描述符,線性關(guān)系式如下
logPL = 9. 417-2. 625 X 1031/T_8. 692Χ 10_2μ -5. 843 X KT1NHD-L 907 X KT1MFP
+1. 424JRNCG+4. 023Χ0Α-5· 012X 10_1Xlsol+3. 157GATSlv
其中,1/T表示溫度的倒數(shù),μ表示偶極距,NHD表示氫鍵供體數(shù)目,MFP表示極性表面積比,JRNCG表示最負(fù)電荷比,XOA表示平均連接性指數(shù)chi-0,Xlsol表示溶劑連接性指數(shù)chi-1,GATSlv表示范德華體積加權(quán)的Geary自相關(guān)指數(shù)。
在最優(yōu)模型中,訓(xùn)練集數(shù)據(jù)個(gè)數(shù)η = 7797。模型的擬合能力由R2和均方根誤差 (RMSEts)表征,R2 = 0. 923, RMSEts = 0. 447,表明該模型具有良好的擬合能力。模型的穩(wěn)健性由內(nèi)部驗(yàn)證的交叉驗(yàn)證系數(shù)(Q2cv)評價(jià),Q2ct = 0.921,R2和Q2ct之差遠(yuǎn)小于0.3,可認(rèn)為該模型不存在過擬合現(xiàn)象,具有良好的穩(wěn)健性。在模型的外部驗(yàn)證過程中,驗(yàn)證集數(shù)據(jù)個(gè)數(shù) nEXT = 2687,外部預(yù)測相關(guān)系數(shù)的平方Q2ext = 0. 919,RMSEext = 0. 455,表面該模型具有良好的外部預(yù)測能力。模型的應(yīng)用域表征采用歐幾里德距離方法,結(jié)果表明該模型可以有效預(yù)測烷烴類、醇類、酮類、羧酸類及取代物、苯、聯(lián)苯、苯酚、多環(huán)芳烴及取代物等有機(jī)化合物的蒸氣壓。
本發(fā)明的有益效果是采用本發(fā)明方法可以快速,便捷,有效地預(yù)測不同環(huán)境溫度下多種類有機(jī)化合物的液相蒸氣壓。該發(fā)明涉及的預(yù)測方法的建立和驗(yàn)證嚴(yán)格依照OECD規(guī)定的QSAR模型發(fā)展和使用的導(dǎo)則,因此使用該發(fā)明專利的&預(yù)測結(jié)果,可以為化學(xué)品監(jiān)管工作提供重要的基礎(chǔ)數(shù)據(jù),并對生態(tài)風(fēng)險(xiǎn)評價(jià)具有重要的指導(dǎo)意義。
本發(fā)明提供的方法具有如下特點(diǎn)
1.按照OECD關(guān)于QSAR模型構(gòu)建和使用的導(dǎo)則,建立的模型具有良好的擬合能力, 穩(wěn)健性和預(yù)測能力。
2.模型的應(yīng)用域涵蓋脂肪族和芳香族類多種結(jié)構(gòu)的有機(jī)化合物,可用于預(yù)測多種不同種類化合物,在不同溫度下的液相蒸氣壓,且溫度覆蓋范圍廣泛,可為有機(jī)化學(xué)品生態(tài)風(fēng)險(xiǎn)評價(jià)及在不同地區(qū)乃至全球的環(huán)境行為提供基礎(chǔ)數(shù)據(jù)。
3.建模過程中描述符的選取是基于機(jī)理分析進(jìn)行的,故易于進(jìn)行機(jī)理解釋。建模后機(jī)理解釋是針對模型中包含的描述符分析其對蒸氣壓的影響,使建立的模型可信度更尚ο
圖1為訓(xùn)練集log Pl的實(shí)測值與預(yù)測值的擬合圖。
圖2為驗(yàn)證集log Pl的實(shí)測值與預(yù)測值的擬合圖。
圖3為建立模型的應(yīng)用域表征圖。
具體實(shí)施方式
實(shí)施例1
給定一個(gè)化合物肉桂酸甲酯,含有苯環(huán)結(jié)構(gòu)和氧原子。要預(yù)測其在270K,285K, ^8Κ,310Κ,330Κ溫度下的蒸氣壓。首先需要根據(jù)肉桂酸甲酯的結(jié)構(gòu)信息,使用M0PAC2009 軟件對其進(jìn)行結(jié)構(gòu)優(yōu)化后,即可進(jìn)行計(jì)算得出μ的值為5. 574;通過Draogon軟件計(jì)算出 Χ0Α, Xlsol 和 GATSlv,其值分別為 0. 734,5. 826 和 2. 156 ;通過 Discovery Studio 軟件計(jì)算NHD,MFP和JRNCG,其值分別為0,0. 155和0. 334。然后通過得到的應(yīng)用域表征圖,可以得出該化合物落在應(yīng)用域范圍內(nèi),故可以利用本模型進(jìn)行預(yù)測。將T = 270K,285K,298K, 310Κ,330Κ 和 μ = 5. 574,XOA = 0. 734,Xlsol = 5. 826, GATSlv = 2. 156,NHD = O,MFP =0.155,JRNCG = 0. 334分別代入已得到的線性關(guān)系式
logPL = 9. 417-2. 625 X 1031/Τ_8· 692 X 1(Γ2 μ _5· 843 X KT1NHD-L 907 X KT1MFP
+1. 424JRNCG+4. 023Χ0Α-5· 012X 10_1Xlsol+3. 157GATSlv
即可得出 logPL在 T = 270K, 285K, 298K, 310K, 330K 時(shí)分別為 0. 102,0. 614,1. 016,1.357,1. 870。與其在 T = 409K, 444K, 459K, 471K, 510K 的 logPL 實(shí)驗(yàn)數(shù)據(jù) 3. 303,3. 902, 4. 125,4. 299,4. 762進(jìn)行擬合,得出二者相關(guān)性系數(shù)R2 = 0. 9992,預(yù)測值與實(shí)驗(yàn)數(shù)據(jù)十分相符。
實(shí)施例2
給定一個(gè)實(shí)驗(yàn)數(shù)據(jù)較多的化合物丙醇。預(yù)測其在四81(,3031(,3081(,3131(,3181(, 321溫度下的蒸氣壓并與實(shí)驗(yàn)值進(jìn)行對比。根據(jù)丙醇的結(jié)構(gòu)信息,使用M0PAC2009、Dragon 和 Discovery Studio 軟件計(jì)算得出其 μ , NHD, MFP, JRNCG, XOA, Xlsol 和 GATSlv 的值分別為2. 177,1,0. 229,0. 805,0. 854,1. 914,1. 333。通過應(yīng)用域表征圖,可以得出丙醇落在應(yīng)用域范圍內(nèi),可以利用本模型進(jìn)行預(yù)測。將T = 298K, 303K, 308K, 313K, 318K,323K和上述描述符數(shù)據(jù)代入建模已得線性關(guān)系式,即可得出IogPL在T = 298K, 303K, 308K, 313K, 318K,323K 時(shí)分別為3. 307,3. 453,3. 593,3. 730,3. 861,3. 989。與其在對應(yīng)溫度下的logPL實(shí)驗(yàn)數(shù)據(jù)值 3. 459,3. 602,3. 730,3. 857,3. 981,4. 094 進(jìn)行比較,差值在 0. 120 0. 152 之間。預(yù)測值與實(shí)驗(yàn)值十分相近,說明其預(yù)測性良好。
實(shí)施例3
給定化合物正二十七烷。預(yù)測其在較高溫度401,423K, 432K, 452K, 462K下的液相蒸氣壓。根據(jù)正二十七烷的結(jié)構(gòu)信息,分別使用M0PAC2009、Dragon和Discovery Studio 軟件計(jì)算得出其 μ,NHD, MFP,JRNCG, Χ0Α, Xlsol 和 GATSlv 的值分別為 0. 063,0,0,0. 045, 0.729,13. 414 和 3.074。將 T = 40Ι,423Κ,43Ι,452Κ,46^(和計(jì)算所得描述符值代入建模已得線性關(guān)系式,即可得出正二十七烷在T = 40Ι,423Κ,43Ι,452Κ,46^(溫度下的 IogPL值分別為0. 125,0. 449,0. 579,0. 847和0. 973。但是與其對應(yīng)溫度下的logPL實(shí)驗(yàn)值-0. 228,0. 430,0. 745,1. 330,1. 603相比較,差值比較大。但通過已表征的應(yīng)用域,可以發(fā)現(xiàn)該化合物Xlsol的值(13.414)超出應(yīng)用域表征值的范圍,說明正二十七烷不在模型的應(yīng)用域內(nèi)。由此可見,盡管模型在預(yù)測較長碳鏈烷烴化合物時(shí)性能較差,但是已經(jīng)明確鑒定出該類化合物在模型應(yīng)用域之外。
權(quán)利要求
1.一種通過定量構(gòu)效關(guān)系模型預(yù)測有機(jī)物液相蒸氣壓的方法,其特征在于,首先,根據(jù)影響有機(jī)化合物液相蒸氣壓大小的因素,選取相應(yīng)描述符分別表征分子的體積,電荷分布,氫鍵作用,色散力,極性-非極性表面積比,分子形狀和電子信息,包括14 個(gè)量子化學(xué)描述符,31個(gè)Discovery Studio描述符,17個(gè)Dragon描述符;依據(jù)蒸氣壓數(shù)據(jù)值的大小排序后,每隔3個(gè)蒸氣壓數(shù)據(jù)選取1個(gè)數(shù)據(jù)進(jìn)入驗(yàn)證集,其余數(shù)據(jù)進(jìn)入訓(xùn)練集,即按照3 1的比例分成訓(xùn)練集和驗(yàn)證集;訓(xùn)練集用來建立模型,驗(yàn)證集用于模型建立后的外部驗(yàn)證;建模過程中,將1/T作為一個(gè)描述符,對訓(xùn)練集中的蒸氣壓數(shù)據(jù)和上述描述符進(jìn)行PLS回歸分析;篩選出的最優(yōu)模型共包含8個(gè)描述符,線性關(guān)系式如下logPL = 9. 417-2. 625 X 1031/Τ_8· 692 X 1(Γ2 μ _5· 843 X KT1NHD-L 907 X KT1MFP +1. 424JRNCG+4. 023Χ0Α-5. 012X 10_1Xlsol+3. 157GATSlv其中,1/Τ表示溫度的倒數(shù),μ表示偶極距,NHD表示氫鍵供體數(shù)目,MFP表示極性表面積比,JRNCG表示最負(fù)電荷比,XOA表示平均連接性指數(shù)chi-0,Xlsol表示溶劑連接性指數(shù) chi-1, GATSlv表示范德華體積加權(quán)的Geary自相關(guān)指數(shù)。
2.根據(jù)權(quán)利要求1所述的的方法,其特征在于,有機(jī)化合物包括烷烴類、醇類、酮類、羧酸類及取代物、苯、聯(lián)苯、苯酚、多環(huán)芳烴及其取代化合物。
全文摘要
本發(fā)明涉及一種通過定量構(gòu)效關(guān)系模型高效預(yù)測有機(jī)化合物液相蒸氣壓的方法。本發(fā)明在得知的化合物結(jié)構(gòu)基礎(chǔ)上,計(jì)算表征其結(jié)構(gòu)的分子結(jié)構(gòu)描述符,應(yīng)用所建立的分子結(jié)構(gòu)和蒸氣壓之間的定量關(guān)系,可以快捷、有效地預(yù)測有機(jī)化合物的液相蒸氣壓。該方法可用于多種類的有機(jī)化合物,并且能夠預(yù)測在不同溫度下的蒸氣壓值,可適用于緯度和海拔各不相同的國家和地區(qū)蒸氣壓數(shù)據(jù)的獲取,并為化學(xué)品的風(fēng)險(xiǎn)評價(jià)和監(jiān)管提供必要的基礎(chǔ)數(shù)據(jù)。
文檔編號G06F19/00GK102521507SQ201110410088
公開日2012年6月27日 申請日期2011年12月9日 優(yōu)先權(quán)日2011年12月9日
發(fā)明者張洪亮, 李雪花, 陳景文 申請人:大連理工大學(xué)