用于近紅外光譜分析的化學(xué)計量的制作方法
【專利摘要】本發(fā)明涉及用于鑒定和選擇更準(zhǔn)確的化學(xué)計量模型以經(jīng)由近紅外光譜測量學(xué)來分析特定植物樣品的系統(tǒng)和方法。本公開還涉及使用這類系統(tǒng)和方法來鑒定植物和植物樣品中感興趣的特征和性狀,例如從而協(xié)助選擇性育種、質(zhì)量控制和/或存量控制。
【專利說明】用于近紅外光譜分析的化學(xué)計量
[0001]優(yōu)先權(quán)聲明
[0002]本申請要求2011年9月23日提交的美國臨時專利申請系列號61/538,662的權(quán).、
Mo
發(fā)明領(lǐng)域
[0003]本公開涉及用于分析對應(yīng)于植物性狀和特征的近紅外光譜數(shù)據(jù)的系統(tǒng)和方法。本公開的各方面涉及用于開發(fā)和鑒定特別適用于從近紅外光譜數(shù)據(jù)辨識感興趣植物性狀的化學(xué)計量分析的方法。本公開的一些方面涉及使用全局的、自動化的系統(tǒng)和方法,例如但不限于,從獲自多種植物的近紅外光譜數(shù)據(jù)選擇包含感興趣的性狀或特征的植物。
[0004]發(fā)明背景
[0005]近紅外光譜學(xué)(NIRS)采用光子能量來從化學(xué)或生物學(xué)樣品收集能量范圍為約 650 至 2500nm 的信息(Bokobza(2002) “Origin of near infrared absorptionbands, ” 于:Near-1nfrared Spectroscopy!Principles, Instruments, Applications, Siesler 等編,Weinheim, Germany:Wiley-VCH Verlag GmbH ;Pasquini (2003)J.BrazilianChem.Soc.14:198-219)。來自生物學(xué)樣品的NIRS數(shù)據(jù)以透射(transmission)或反射計數(shù)的形式獲得,它是通過樣品中0-H、C-H、N-H和S-H化學(xué)鍵的拉伸和彎曲振動測定的。Miller(2001 ) “Chemical principles of near infrared technology,,,于:Near Infared Technology in the Agricultural and Food Industries, Norris 和Williams 編,St.Paul, MN, U.S.A.:American Association of Cereal Chemists, Inc.;Siesler(2002) “Introduction,,,于:Near Infared Spectroscopy:Principles, Instruments, Applications,見上。
[0006]在NIRS中,將要測量的樣品用近紅外(NIR)輻射照射。當(dāng)NIR輻射穿透樣品時,入射光的光譜學(xué)屬性由于波長依賴性散射和吸收過程而變化,這是由樣品的化學(xué)組成所決定的(例如,前述0-H、C-H、N-H和S-H化學(xué)鍵的數(shù)目和環(huán)境)。光譜學(xué)屬性中的這些變化還取決于光散射屬性。例如,近紅外反射比光譜學(xué)對于顆粒大小和顆粒大小分布中的變化敏感。磨碎谷物谷粒(cereal grain)的顆粒大小隨著硬度增加而增加,因此硬谷物面粉比軟面粉具有更高的表觀吸收值。還有,顆粒大小中的變化導(dǎo)致樣品中分散的NIR輻射量中的變化,由此導(dǎo)致所得吸收光譜中的移位。另外,較大的顆粒吸收更多的輻射,如此,較大顆粒的吸收光譜將含有比較小顆粒的吸收光譜更高的值。Pomeranz和Williams (1990) “Wheathardness:1ts genetic, structural, and biochemical background, measurement, andsignificance, ” 于!Advances in Cereal Science and Technology, Pomeranzj Ed.,St.Paul,MN,IL S.A.:American Association of Cereal Chemists, Inc., pp.471-529.;Hruschka (2001) “Data analysis:wavelength selection methods,,,于:Near-1nfraredtechnology in the agriculture and food industries,見上,pp.39-58。
[0007]NIRS已用于對農(nóng)業(yè)產(chǎn)物中的組成進行定量測定。參見例如,Williams等(1982)Cereal Chem.59:473-7 ;Williams 等(1985)J.Agric.Food Chem.33:239-44 ;WiIIiams 和Sobering (1993) J.Near Infared Spectrosc.1:25-32。在谷物中,NIRS 已應(yīng)用于測定質(zhì)量,包括:玉米的種子組成(參見例如,Eyherabide等(1996)Cereal Chem.73:775-8 ;Baye等
(2006)J.Cereal Sc1.43:236-43),例如,種子樣品的油、蛋白質(zhì)、纖維、葉綠素和芥子油苷含量;谷物硬度(Downey 等(1986) J.Sc1.Food Agric.37:762-6 ;Norris 等(1989) CerealFoods World34:696-705 ;0sborne(1991)Postharvest News Inform.2:331-4 ;Manley 等(2002) J.Near Infared Spectrosc.10:71-6);和成熟期間谷物糖類和蛋白質(zhì)含量中的變化(Gergely 和 Salgo (2005) J.Near Infared Spectrosc.13:9-17 ;Gergely 和 Salgo (2007)J.Near Infared Spectrosc.15:49-58)。
[0008]最近一些年中,將NIRS用于別的應(yīng)用,如例如,檢測食物產(chǎn)品中的動物廢料(Liu 等(2007) J.Food Eng.81:412-8);測定烘焙咖啡中的脂質(zhì)(Pizarro 等(2004)Anal.Chim.Acta509:217-27);驗證含酒精飲料中的慘假(Pontes 等(2006)Food Res.1nter.39:182-9);監(jiān)測聚合物擠壓工藝(Rohe 等(1999)Talanta50:283-90);藥學(xué)應(yīng)用(Quaresima 等(2003)J.Sports Med.Phys.Fitness43:1-13 ;Zhou 等(2003)J.Pharm.Sc1.92:1058-65 ;Colon 等(2005)J.Process Anal.Tech.2:8-15 ;Blanco 和 Alcala (2006)Eur0.J.Pharm.Sc1.27:280-6 ;Sakudo 等(2006)Biochem.Biophys.Commun.341:279-84);和食品分析(Osborne(2OOO) “Near-1nfrared spectroscopy in food analysis,,,于:Encyclopedia of Analytical Chemistry,Meyers, Ed., Chichester:Johnffiley&Sons,pp.4069-81),以及通常不相關(guān)領(lǐng)域中的眾多其他應(yīng)用,如例如石油化學(xué)品分析(Davidson等(1992) Proc.S.P.1.E.1681:231-5 ;Macho和 Larrechi (2002) Trends Anal.Chem.21:799-806)。
[0009]農(nóng)業(yè)產(chǎn)物樣品的NIR光譜基本由一大組諧波或組合譜帶組成。由于大多數(shù)農(nóng)業(yè)樣品的復(fù)雜性,這些光譜極其難以解譯。一般地,食品成分的NIR光譜顯示含有重疊吸收的包絡(luò)線(envelope)的寬條帶。Osborne 等(1993)Practical NIR Spectroscopywith Applications in Food and Beverage Analysis,Harlow, England: LongmanScientific&Technical。農(nóng)業(yè)產(chǎn)品樣品的光譜可能由波長依賴性的散射效應(yīng)、儀器噪音、溫度影響和/或樣品異質(zhì)性進一步復(fù)雜化。Nieola’i等(2007)Postharvest Biol.Tech.46:99-118。這些影響使得難以將特定的吸收帶歸屬于特定的樣品組分和官能團。因此,需要使用特定化學(xué)計量技術(shù)的多變量數(shù)據(jù)分析來提取掩藏在自NIR測量得到的光譜數(shù)據(jù)中的相關(guān)信息。
[0010]化學(xué)計量學(xué)是通過數(shù)據(jù)驅(qū)動的方法從化學(xué)系統(tǒng)提取信息的科學(xué)。Beebe等(1998)Chemometrics:a Practical Guide, NY, U.S.A.: John ffiley&Sons, Inc., pp.1-8 和 26-55。多變量化學(xué)計量分析牽涉提取關(guān)于分析的樣品和感興趣變量的相關(guān)信息,由此能將該信息簡化為更少數(shù)量的項,和基本由噪音組成的殘余量,因而可以更容易地分析該信息。Geladi (2003) Spectrochimica Acta Part B58:767_82。簡化數(shù)量的項將具有增加的穩(wěn)定性,這是由于從數(shù)據(jù)除去噪音或更少的有用信息的緣故,且因此可以導(dǎo)致更一致的結(jié)果解譯。同上。
[0011]使用化學(xué)計量校正模型,對基于植物的樣品的快速多變量、化學(xué)計量NIRS分析以確定一種或多種特征呈現(xiàn)了一項獨特的挑戰(zhàn),其基于例如NIR吸收波長和光譜數(shù)據(jù)與表型之間關(guān)系的性質(zhì)(線性或非線性等)。該分析因而依賴于化學(xué)計量校正模型的開發(fā),其基于訓(xùn)練樣品的參照化學(xué)分析。由于對每種樣品類型和每種特征的獨特考慮,單一的化學(xué)計量分析不適用于所有性狀。
[0012]如此,必須以應(yīng)用依賴性方式從通用化學(xué)計量軟件程序包如GRAMS-PLSPLUS?(Galactic Industries Corp.)或 OPUS QUANT2?(Bruker)開發(fā)有用的校正模型。這些NIRS校正模型的開發(fā)對于準(zhǔn)確分析種子樣品從而能生成按需的、時間關(guān)鍵性數(shù)據(jù)是關(guān)鍵的。此外,對NIRS數(shù)據(jù)的評估通常需要對光譜的直接視覺審查以確定獲得NIRS數(shù)據(jù)的樣品中生物學(xué)性狀或表型的存在。Mgller等“Near infrared reflectance spectroscopyand computer graphics visualises unique genotype specific physical-chemicalpatterns from barley endosperms,,,于 Cereal science and technology for feedingten billion people:genomics era and beyond.(Options Mediterraneennes:SerieA.Seminaires Mediterraneens81.Meeting of the Eucarpia Cereal Section, 2006/11/13-17,Lleida(Spain))Molina Cano 等(編),Zaragoza:CIHEAM_IAMZ/IRTA(2008)pp.253-9。
[0013]在典型的NIRS平臺中,將用于獲得NIRS數(shù)據(jù)的同一儀器還用于實施化學(xué)計量分析。然而,這些儀器不含有足以存放所需復(fù)雜校正模型還有實施數(shù)據(jù)分析的存儲器。如此,這些平臺在實施對基于植物的復(fù)雜樣品的數(shù)據(jù)分析時經(jīng)歷嚴(yán)重的效率降低。存放在儀器中的校正模型另外需要連續(xù)的監(jiān)測和在可獲得新的參照化學(xué)數(shù)據(jù)時進行更新。如前述的限制對于執(zhí)行更復(fù)雜和成熟的平臺和分析施加實際性的阻礙,因為在維持適宜的性能和改進分析之間有所取舍。
[0014]發(fā)明概述
[0015]本文中描述了用于NIRS數(shù)據(jù)分析的自動化平臺的開發(fā),在一些實施方案中,針對與增加基于植物的樣品的NIRS分析的通量和鑒定用于分析特定植物或樣品特征的改進的化學(xué)計量模型有關(guān)的某些挑戰(zhàn)。在具體的實施方案中,可將對基于植物的樣品的NIRS數(shù)據(jù)分析(例如,種子樣品的種子組成分析)用于進行涉及確定樣品特征的一種或多種性狀或表型的育種選擇(例如種子樣品中的脂肪酸概貌、蛋白質(zhì)含量、纖維含量、葉綠素含量等)。在這些和別的實施方案中,本發(fā)明提供一種全局NIRS分析系統(tǒng),其可在不同的儀器類型和環(huán)境中執(zhí)行用于多種作物和多種性狀,其中所述分析系統(tǒng)可以為每種作物和性狀提供特定的優(yōu)選分析。
[0016]依照前述內(nèi)容,本文中描述的是用于分析從植物樣品獲得的NIRS數(shù)據(jù)的系統(tǒng)和方法。這類系統(tǒng)和方法可用于,例如且無限制地,確定NIRS數(shù)據(jù)的化學(xué)計量模型以鑒定感興趣的植物性狀;確定從植物獲得的植物樣品中的至少一種特征;確定植物材料中的感興趣的特征;確定植物中的感興趣的性狀;和/或選擇包含感興趣性狀的植物(例如用于植物育種程序中的增殖)。
[0017]在一些實施方案中,依照本發(fā)明的系統(tǒng)可以包含以下一種或多種:近紅外(NIR)分光計;處理器,例如含有數(shù)據(jù)庫,所述數(shù)據(jù)庫包含對應(yīng)于一種或多種感興趣特征的來自植物樣品的NIR光譜學(xué)(NIRS)數(shù)據(jù)的多種化學(xué)計量模型;和分析性編程,例如用于利用所述多種化學(xué)計量模型來確定NIRS數(shù)據(jù)與感興趣特征之間的關(guān)系。在具體的實施方案中,處理器利用所述多種化學(xué)計量模型中的每一種來確定NIRS數(shù)據(jù)與感興趣特征之間的關(guān)系,其中所述處理器鑒定將NIRS數(shù)據(jù)與感興趣特征緊密相關(guān)的化學(xué)計量模型。在具體的實施方案中,所述處理器利用化學(xué)計量模型(例如將NIRS數(shù)據(jù)與感興趣特征緊密相關(guān)的化學(xué)計量模型)來確定獲得NIRS數(shù)據(jù)的植物樣品中的感興趣特征。在一些例子中,本發(fā)明的系統(tǒng)可以包含NIR分光計和處理器,其中所述分光計和處理器不是物理相連的。
[0018]在一些實施方案中,依照本發(fā)明的方法可以包含以下一種或多種:要分析的植物樣品;從所述植物樣品獲得的NIRS數(shù)據(jù);計算機可讀的存儲介質(zhì),例如含有數(shù)據(jù)庫,所述數(shù)據(jù)庫包含用于分析NIRS數(shù)據(jù)以確定樣品特征的多種化學(xué)計量模型;計算機,例如,包含用于利用化學(xué)計量模型來確定NIRS數(shù)據(jù)與樣品特征之間的關(guān)系的分析性編程;選擇用于每一種化學(xué)計量模型的參數(shù);利用每一種化學(xué)計量模型來確定從所述植物樣品獲得的NIRS數(shù)據(jù)與樣品特征之間的關(guān)系;和確定將從所述植物樣品獲得的NIRS數(shù)據(jù)與樣品特征最緊密相關(guān)的化學(xué)計量模型。在具體的例子中,將從所述植物樣品獲得的NIRS數(shù)據(jù)與樣品特征最緊密相關(guān)的化學(xué)計量模型鑒定樣品的特征。在具體的例子中,樣品的特征是感興趣的植物性狀,或者是涉及或指示感興趣植物性狀的特征。
[0019]在一些方面,本發(fā)明的方法和/或系統(tǒng)可以包含用戶界面(例如基于網(wǎng)絡(luò)的界面)。在具體的例子中,用戶界面允許用戶指定獲得植物樣品的植物和感興趣的植物性狀用于分析。本發(fā)明的方法或系統(tǒng)可以包含用于鑒定異常數(shù)據(jù)并將這類數(shù)據(jù)從分析排除的手段。在一些例子中,本發(fā)明的方法或系統(tǒng)可以包含用于標(biāo)準(zhǔn)化NIR數(shù)據(jù)的手段,其依照獲得該數(shù)據(jù)的NIR儀器。在具體的實施方案中,方法可以包括傳播電子信息,該信息包含NIR數(shù)據(jù)與感興趣的植物性狀之間的關(guān)系,如由鑒定所述感興趣的植物性狀的化學(xué)計量模型確定的。
[0020]在一些方面,依照本發(fā)明的方法以全自動方式進行(例如,利用可以全自動方式運行的本發(fā)明的系統(tǒng)),其可以降低分析來自植物樣品的NIRS數(shù)據(jù)以確定植物樣品或獲得該樣品的植物材料中的至少一種特征或性狀所需的勞動力。在具體的例子中,可利用植物樣品中特征或性狀的確定來確定獲得該樣品的植物中的性狀。
[0021]前述和其它特征將從以下幾個實施方案的詳細描述變?yōu)楦用黠@的,該描述參照伴隨附圖進行。
[0022]附圖簡述
[0023]圖1 (a-h)包括依照一些實施方案的例示性網(wǎng)絡(luò)界面的PYTHON?代碼的例子。
[0024]圖2 (a-g)包括依照一些實施方案的MATLAB? (Math Works?, Natick, MA)代碼的
例子,有對自動化NIRS數(shù)據(jù)分析程序的注釋。
[0025]圖3包括對總飽和脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0026]圖4包括用于捕捉總飽和脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0027]圖5包括對C18: lcis9脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0028]圖6包括用于捕捉C18:lcis9脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0029]圖7包括對C18:1cisll脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0030]圖8包括用于捕捉C18:1cisll脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0031]圖9包括對C18:1脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。[0032]圖10包括用于捕捉C18:1脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0033]圖11包括對C18:2脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0034]圖12包括用于捕捉C18:2脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0035]圖13包括對C18:3脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0036]圖14包括用于捕捉C18:3脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0037]圖15包括對C16:0脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0038]圖16包括用于捕捉C16:0脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0039]圖17包括對C18:0脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0040]圖18包括用于捕捉C18:0脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0041]圖19包括對C20:0脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0042]圖20包括用于捕捉C20:0脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0043]圖21包括對C24:0脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0044]圖22包括用于捕捉C24:0脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0045]圖23包括對C12:0脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述,和用于捕捉C12:0脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種模型的比較。
[0046]圖24包括對C16:1脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0047]圖25包括用于捕捉C16:1脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0048]圖26包括對C20:1脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0049]圖27包括用于捕捉C20:1脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0050]圖28包括對C20:2脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0051]圖29包括用于捕捉C20:2脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0052]圖30包括對C22:0脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0053]圖31包括用于捕捉C22:0脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0054]圖32包括對C24:1脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0055]圖33包括用于捕捉C24:1脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0056]圖34包括對C14:0脂肪酸含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0057]圖35包括用于捕捉C14:0脂肪酸含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0058]圖36包括對水分含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0059]圖37包括用于捕捉水分含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0060]圖38包括對總油含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0061]圖39包括用于捕捉總油含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0062]圖40包括對蛋白質(zhì)含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0063]圖41包括用于捕捉蛋白質(zhì)含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0064]圖42包括對芥子油苷(glucosinolate)含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0065]圖43包括用于捕捉芥子油苷含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0066]圖44包括對葉綠素含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0067]圖45包括用于捕捉葉綠素含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0068]圖46包括對酸性洗滌劑纖維(ADF)含量的訓(xùn)練數(shù)據(jù)分布的描述。
[0069]圖47包括用于捕捉ADF含量性狀的光譜和實際值之間關(guān)系的幾種方法的比較。X軸代表初始值。Y軸代表由特定模型預(yù)測的值。
[0070]圖48包括描述依照一些實施方案用于光譜分析的網(wǎng)絡(luò)界面的屏幕截圖。
[0071]發(fā)明詳述
[0072]1.幾個實施方案的概覽
[0073]由于使用已經(jīng)過增強的作物,農(nóng)業(yè)植物產(chǎn)物越來越多地納入產(chǎn)物質(zhì)量和可獲性中的改進。經(jīng)過增強的作物可以通過遺傳工程(例如,重組遺傳技術(shù))或通過選擇性育種程序產(chǎn)生。甚至傳統(tǒng)的作物改進實踐也可以產(chǎn)生具有改變的遺傳學(xué)和歸因于此的增強特性的植物。例如,增強的玉米品種可以提供改變的脂肪酸概貌(例如增加的油含量、降低的反式脂肪酸含量、增加的油酸含量和降低的亞麻酸含量),或者增加從玉米粒淀粉有效產(chǎn)生乙醇的機會。經(jīng)改進的作物植物的物理和遺傳組成不同于同一物種的相應(yīng)的常規(guī)作物植物。例如,高油玉米、高鹿糖大豆和低亞麻酸蕓苔(canola)均可通過其特征性化學(xué)組成來區(qū)分。這些作物植物還可以通過特征性基因型(如能傳遞給從相同種質(zhì)創(chuàng)造的后代植物的)來區(qū)分。
[0074]能夠確定產(chǎn)生植物產(chǎn)物的植物的特征性化學(xué)組成和/或基因型是重要的。例如,經(jīng)遺傳工程化的作物和從其生產(chǎn)的植物產(chǎn)物的銷售日益成為商業(yè)調(diào)控的焦點,且即使當(dāng)其銷售未受調(diào)控時,顧客也經(jīng)常期望能夠肯定地確定哪種植物產(chǎn)物是從經(jīng)遺傳工程化的植物生產(chǎn)的。此外,種植者及其供應(yīng)商需要確定田野中作物的來源或構(gòu)成的能力,例如,以控制所專有的技術(shù)的分配和避免其未授權(quán)的使用。對于植物分型的其他要求存在于直接育種或遺傳工程策略的設(shè)計和執(zhí)行中。這類策略一般產(chǎn)生極大量的植物,必須分析其中感興趣的性狀的存在,例如,以進行期望植物的選擇用于進一步使用和/或繁殖。
[0075]與使用常規(guī)規(guī)程來確定植物產(chǎn)物是否從經(jīng)過遺傳增強的作物產(chǎn)生,或定量測定經(jīng)遺傳修飾的物質(zhì)在植物材料中的百分數(shù)有關(guān)的一個問題是,這類規(guī)程通常牽涉直接遺傳分析(例如通過PCR和/或DNA指紋識別),或者更罕見地,可能牽涉對由特定基因或等位基因產(chǎn)生的特定蛋白質(zhì)的檢測和化學(xué)分析。這些規(guī)程是費時和/或昂貴的,而且它們可能僅得到定性或半定量的結(jié)果。另外,且對于植物育種程序尤其具有重要性的是,遺傳分析不確定特定等位基因在修飾或創(chuàng)建期望的輸出性狀中的有效性。經(jīng)典的遺傳分析聚焦于單個的基因和性狀,假定為有些接近自由分布。然而,植物中的大多數(shù)基因、性狀和質(zhì)量復(fù)合物彼此強烈依賴。
[0076]用于評估遺傳修飾或育種努力的結(jié)果的方法應(yīng)能夠以非常小的樣品大小使用。例如,在種子作物中,該評估在單一種子基礎(chǔ)上最佳實施,因為僅有種子可就期望的性狀分離。例如,在玉米中,特定的轉(zhuǎn)基因事件或常規(guī)育種雜交可能僅產(chǎn)生具有分離的粒(kernel)的單個穗。相比之下,足以用于大量化學(xué)分析的種子供應(yīng)可能需要多個世代的種子生產(chǎn)或在單個世代中增加的重復(fù)測量。
[0077]本公開至少部分解決了常規(guī)規(guī)程的這些不足,其通過提供用于分析小植物樣品(例如,種子、營養(yǎng)性植物材料和根材料)來鑒定和量化獲得該植物樣品的植物中一種或多種性狀的經(jīng)濟和有效的方法和系統(tǒng)。另外,本公開提供了改進的化學(xué)計量多變量分析方法來從植物樣品的可測量特性中預(yù)測和確定性狀,其利用特定的經(jīng)改進的化學(xué)計量模型。
[0078]本文中描述的是一種快速和魯棒的方法學(xué),其比較針對多種性狀的現(xiàn)有技術(shù)中的多種化學(xué)計量模型,并基于交叉驗證結(jié)果選擇和改進更準(zhǔn)確的模型?;瘜W(xué)計量數(shù)據(jù)分析技術(shù)的準(zhǔn)確性隨具體性狀而變化。因此,本發(fā)明的實施方案具有使用不同算法來比較針對每種性狀的校正模型的準(zhǔn)確性,并挑出對NIRS數(shù)據(jù)與性狀之間的關(guān)系最佳建模的模型的能力。該方法學(xué)允許盡可能準(zhǔn)確地將每種性狀建模,而且它還允許更深地理解NIR光譜與建模的性狀之間的關(guān)系。
[0079]在一些實施方案中,鑒定正確的參數(shù)用于每種模型可以是自動化的,從而對更準(zhǔn)確模型的選擇和改進可以不用耗費手動實施這些任務(wù)所需的有價值的資源而進行。另外,校正模型的準(zhǔn)確性較大程度上受到數(shù)據(jù)中存在的異常值(outliers)的影響。這些異常值能代表性狀中的真實變異或者是不正確的樣品處理或較差質(zhì)量樣品的結(jié)果。由于這些異常值能很大地影響數(shù)據(jù)的分布,因此需要在校正模型開發(fā)之前鑒定出異常值。
[0080]本發(fā)明的方法和/或系統(tǒng)還可以包括自動化的樣品處理。與服務(wù)器上基于時間的工作調(diào)度程序(例如,Cron任務(wù))組合的網(wǎng)上網(wǎng)絡(luò)界面可以確保數(shù)據(jù)文件在經(jīng)由網(wǎng)上界面提交時,由服務(wù)器自動分析,而不需要人工干預(yù)。網(wǎng)上界面可以自動化地鑒定收集光譜數(shù)據(jù)的儀器的分辨力,并校正儀器的數(shù)據(jù),如此使得化學(xué)計量分析全局可達并能夠在各種儀器類型中執(zhí)行。
[0081]本文中已顯示了本發(fā)明的廣泛效用和實用性,其使用為農(nóng)業(yè)中NIR分析的公認應(yīng)用的詳細工作例子。例如,使用3種不同的分光鏡儀器(Bruker、Foss和NIR),從2種不同作物(蕓苔和向日葵)的種子樣品獲得NIRS數(shù)據(jù)。本發(fā)明的系統(tǒng)和方法用于分析該NIRS數(shù)據(jù),并確定例如樣品中的種子組成性狀,由此通過例子顯示本發(fā)明實施方案的優(yōu)點。在一些實施方案中,本發(fā)明的系統(tǒng)和方法可用于分析從任何可獲得NIRS數(shù)據(jù)的植物材料(例如液體、固體和粒狀材料)獲得的光譜數(shù)據(jù)。
[0082]I1.縮寫[0083]ADF 酸洗漆劑纖維(acid detergent fiber)
[0084]ANN 人工神經(jīng)網(wǎng)絡(luò)
[0085]AOTF 聲光可調(diào)濾光器(acousto-optic tunable filter)
[0086]CR 連續(xù)回歸(continuum regression)
[0087]LCTF 液晶可調(diào)濾光器(liquid crystal tunable filter)
[0088]LRR 特征根回歸(latent root regression)
[0089]LffR 局部加權(quán)回歸
[0090]MLR 多元線性回歸
[0091]MSC 多兀散射校正(multiplicative scatter correction)
[0092]NIR 近紅外
[0093]NIRS 近紅外光譜學(xué)
[0094]ODIN 基于鄰域計算的圖論辦法
[0095]OLS 普通最小 二乘法
[0096]OSC 正交信號校正
[0097]PCA 主成分分析
[0098]PCovR 主協(xié)變量回歸(principal covariates regression)
[0099]PCR 主成分回歸
[0100]PGP 棱鏡-光柵-棱鏡濾光器
[0101]PLS 偏最小二乘法
[0102]PLS-DA偏最小二乘法判別分析
[0103]RR嶺回歸(ridge regression)
[0104]SIR 分段逆回歸(sliced inverse regression)
[0105]SNV 標(biāo)準(zhǔn)正態(tài)變量
[0106]SVM 支持向量機
[0107]YSC 黃色種子包被
[0108]II1.術(shù)語
[0109]自動化:如本文中使用的,術(shù)語“自動化”指遵循來自用戶的起始指令自己執(zhí)行的方法。舉例而言,在具體的實施方案中,用戶鑒定植物樣品和要在植物樣品中確定的感興趣的性狀,并啟動本發(fā)明的自動化分析方法。在這些具體的實施方案中,用戶接著接收鑒定出針對感興趣性狀的可用化學(xué)計量分析模型的方法輸出和該植物樣品中感興趣性狀的確定,而不需要用戶方面的其它行為。
[0110]化學(xué)計量:如本文中使用的,術(shù)語“化學(xué)計量”指使用統(tǒng)計學(xué)和數(shù)學(xué)技術(shù)來分析化學(xué)數(shù)據(jù),以及據(jù)此將數(shù)據(jù)轉(zhuǎn)化成用于決策制定目的的信息的整個過程。Geladi (2003),見上。化學(xué)計量使得能將大量數(shù)據(jù)矩陣中含有的信息簡化為更容易理解的信息和殘余的噪音組分。同上。關(guān)于化學(xué)計量和化學(xué)計量分析技術(shù)的一般信息可見于,例如Beebe等(1998)Chemometrics:a Practical Guide, NY, U.S.A.: John Wiley&Sons, Inc。對于關(guān)于 NIRS 數(shù)據(jù)的化學(xué)計量分析技術(shù)的特定信息,參見例如Heise和Winzen (2002) “Chemometrics innear-1nfrared spectroscopy,,,于:Near_Infrared Spectroscopy:Principles, Instruments, Applications,見上,pp.125-61。[0111]在多變量化學(xué)計量數(shù)據(jù)分析過程中,將化學(xué)計量分析應(yīng)用于數(shù)據(jù)矩陣以從矩陣提取相關(guān)信息。對每個對象的分析結(jié)果可以以多種方式表示,例如且不限于,吸光度、濃度、峰高、積分和顆粒計數(shù)。描述這些表示的一般性術(shù)語是“變量”。在本發(fā)明的一些實施方案中,NIRS數(shù)據(jù)包含包括在特定波長處NIR輻射的透射或吸收的變量。當(dāng)對I對象測量K變量時,所得數(shù)據(jù)形成大小為MK的數(shù)據(jù)矩陣?;瘜W(xué)計量牽涉取所得數(shù)據(jù)矩陣并提取關(guān)于對象和變量的隱藏和有意義的信息,這通過許多變量之間的相關(guān)成為可能。
[0112]變量可以是“同質(zhì)”或“異質(zhì)”的。以相同單位測量且能排序的變量是同質(zhì)的。例如,當(dāng)變量是在不同波長處測量的吸光度(或透光度)時,它們是同質(zhì)的,因為它們是以相同單位測量且可通過遞增波長排序的。當(dāng)變量來自不同的儀器時,它們可能是異質(zhì)的。例如,包括溫度、壓力、PH和粘度在內(nèi)的變量集合是異質(zhì)的,因為這些變量為不同的單位且其順序無關(guān)。還可以有混合的變量(即同質(zhì)變量如NIRS光譜可以與異質(zhì)變量混合)。
[0113]化學(xué)計量分析按照數(shù)據(jù)矩陣含有可以簡化的冗余信息的原理來操作。簡化的項更易于解譯和理解,具有更高的穩(wěn)定性,并且與含有噪音和/或不那么有用信息的殘余分開。簡化的項有時也稱為“特征變量(latent variable)”。
[0114]不同形式的數(shù)據(jù)分析(例如分析是否包括數(shù)據(jù)探索、分類或曲線解析)需要利用不同的化學(xué)計量技術(shù)。將數(shù)據(jù)分類成不同的組可以經(jīng)由不受監(jiān)督的分類技術(shù)如主成分分析(PCA)來進行,如果關(guān)于樣品沒有已知信息的話,或者經(jīng)由監(jiān)督分類技術(shù)(例如偏最小二乘法判別分析(PLS-DA)),如果關(guān)于樣品已知足夠的信息時。
[0115]全局:本發(fā)明的方法或系統(tǒng)可稱為“全局”的。如本文中使用的,術(shù)語“全局”指可用于分析在不同的地理位置(該位置可以包含不同的作物環(huán)境)且使用不同的分光鏡儀器獲得的數(shù)據(jù)的方法或系統(tǒng)。
[0116]提供:如在本文方法的描述中使用的,術(shù)語“提供”指使得特定物品可獲得。例如,IRS數(shù)據(jù)可通過多種行為提供,例如且無限制地,從分光計收集數(shù)據(jù),和在從分光計收集的情況下從某來源獲得數(shù)據(jù)。
[0117]遠程:如本文中使用的,術(shù)語“遠程”僅指NIRS儀器和處理器之間的物理間隔的存在?!斑b遠(Remoteness) ”并不表示第一儀器或物品的位置與第二儀器或物品在地理或技術(shù)上分離。
[0118]樣品:如本文中使用的,術(shù)語“樣品”指分析技術(shù)的對象。例如,一些實施方案包括對植物樣品的NIRS表征和/或分析,其中樣品是植物部分或從植物部分制備的對象。然而,在一些實施方案中,可以使用本發(fā)明的方法來表征和/或分析全植物(例如通過表型和/或基因型)。如此就本公開目的而言,分析的全植物可以納入術(shù)語“樣品”的含義中。
[0119]電信聯(lián)系:“電信聯(lián)系”指可在某裝置(例如NIR分光計)和處理器之間產(chǎn)生聯(lián)系的任何手段,例如,以交換信息或數(shù)據(jù)或單向流通信息。在一些例子中,所述聯(lián)系是經(jīng)由互聯(lián)網(wǎng)的,但也可以包括硬線連接、無線連接、基于塔或基于衛(wèi)星的無線連接、或前述的任意組合。
[0120]性狀:如本文中使用的,術(shù)語“性狀”指個體的可測量的特征。術(shù)語“性狀”和“表型”在本文中可交換使用。在本發(fā)明一些實施方案中特別感興趣的是可從NIRS數(shù)據(jù)鑒定的性狀。例如,感興趣的性狀可以是種子組成性狀,其可從自種子樣品獲得的NIRS數(shù)據(jù)中鑒定。[0121]IV.用于NIR光譜分析的系統(tǒng)
[0122]在分析植物產(chǎn)物時,獲得該產(chǎn)物的作物的特征必須以最小時間延遲確定。此外,在一個位置處的植物產(chǎn)物的特征應(yīng)當(dāng)能夠與在另一個位置處的相同植物產(chǎn)物的特征進行比較。這些位置經(jīng)??梢杂蓪嵸|(zhì)性地理距離分開。在一些實施方案中,本發(fā)明的系統(tǒng)可以具有的優(yōu)點在于,它能夠分析來自植物產(chǎn)物的NIRS數(shù)據(jù)以確定多個位置處(不管是不是地理上較遠的)的特征,并分離關(guān)于來自不同儀器或儀器類型產(chǎn)生的噪音和/或?qū)IRS數(shù)據(jù)的影響的特征的信息。如此,本發(fā)明的實施方案提供用于NIRS數(shù)據(jù)分析的全局系統(tǒng)。
[0123]一些實施方案包括處理器??梢允褂萌魏芜m宜的能夠存放化學(xué)計量模型的電子裝置或裝置組合(例如一個或多個服務(wù)器),將模型應(yīng)用于NIRS數(shù)據(jù),并生成和輸出結(jié)果來執(zhí)行處理器。多種化學(xué)計量模型可以存放于處理器中作為化學(xué)計量模型的庫。存儲于處理器上的化學(xué)計量模型的庫可修改為納入校正更新,添加新的校正模型,刪除不想要的校正模型,和/或擴展分析新性狀或作物的能力。在具體的實施方案中,對化學(xué)計量校正模型的庫的修改可以不對執(zhí)行處理器的裝置的硬件或軟件進行改變而完成。在實施方案中,校正模型的庫從NIRS數(shù)據(jù)開發(fā),該數(shù)據(jù)含有關(guān)于模型意圖確定的性狀或特征的信息??梢詫熘械牟煌P蛻?yīng)用于NIRS數(shù)據(jù),比較其性能,從而確定庫的模型中更準(zhǔn)確的模型。然后,將該更準(zhǔn)確的模型用于從NIRS數(shù)據(jù)計算性狀的值。
[0124]在一些實施方案中,可將用于NIR光譜分析的系統(tǒng)用來確定位于遠位置中的植物樣品的一種或多種特征(例如性狀),其利用針對每種特征的單一化學(xué)計量模型。NIRS數(shù)據(jù)可使用在一個位置處的分光計獲得,并使用遠程處理器分析。例如且無限制地,所述分光計可以位于離執(zhí)行處理器的電子裝置至少約100米、約I英里(1.60km)、約10英里(16.09km)、約 100 英里(160.9km)、約 200 英里(321.8km)、約 400 英里(643.7km)、約 600英里(965.6km)、約 1000 英里(1609.3km)、約 2000 英里(3218.6km)遠或更遠。
[0125]一些實施方案包括專門的計算機,其包含處理器和特定的分析性編程。所述處理器可以是計算機系統(tǒng),其可用于存儲和操作化學(xué)計量模型的庫,執(zhí)行分析性編程以實施化學(xué)計量分析,和/或流通分析結(jié)果。在具體的實施方案中,處理器可以是單個裝置。然而,在別的實施方案中,處理器不是單個裝置,例如,處理器可以位于多個計算機服務(wù)器上,其中可提供一些副本用于冗余性,而可提供其他副本以建立服務(wù)器鏡像。如此,如本文中使用的,術(shù)語“處理器”可以指一組單一處理器。
[0126]在一些實施方案中,一個或多個分析程序可以利用系統(tǒng)鑒定為更準(zhǔn)確地確定NIRS樣品數(shù)據(jù)與感興趣的特征之間關(guān)系的化學(xué)計量模型,并輸出包含該關(guān)系的結(jié)果。此外,在具體的實施方案中,分析程序可以運行為展示分析性編程的結(jié)果(例如,針對感興趣特征的更準(zhǔn)確的化學(xué)計量模型,應(yīng)答新數(shù)據(jù)進行的模型改變,和/或由模型確定的關(guān)系)。
[0127]網(wǎng)絡(luò)界面
[0128]在一些實施方案中,本發(fā)明的系統(tǒng)可以包括在NIR分光計上運行的軟件,或與其附接的電子裝置(例如經(jīng)由電信連接),其裝配從植物樣品獲得的NIRS數(shù)據(jù)并將NIRS數(shù)據(jù)傳達至網(wǎng)絡(luò)界面。所述網(wǎng)絡(luò)界面可以配置為例示NIR分光計與啟動器之間的界面,將NIRS數(shù)據(jù)移動到目錄中,并例示一種或多種開始讀取目錄中NIRS數(shù)據(jù)的分析程序。這些步驟均可出現(xiàn)在網(wǎng)絡(luò)界面上。
[0129]在一些實施方案中,網(wǎng)絡(luò)界面可以允許實踐者容易地上載NIRS數(shù)據(jù)(例如,實踐者獲得的數(shù)據(jù),和存儲于數(shù)據(jù)庫中的先前獲得的數(shù)據(jù)),并指示信息,其包括例如但不限于,要通過化學(xué)計量分析確定的感興趣的特征,獲得植物樣品的植物,和/或分光計儀器類型。在具體的實施方案中,可以通過軟件從文件中的光譜數(shù)據(jù)自動鑒定出儀器類型。然后,界面可用于將上載的NIRS數(shù)據(jù)和選擇的不同選項的值提交至處理器。在這些實施方案中,由于NIRS數(shù)據(jù)經(jīng)由網(wǎng)絡(luò)界面網(wǎng)上提交,因而系統(tǒng)的允許部分依賴于維持因特網(wǎng)連通性。然而,如果發(fā)生因特網(wǎng)連通性的中斷,那么可將NIRS數(shù)據(jù)存儲于儀器上并在連接恢復(fù)時經(jīng)由網(wǎng)絡(luò)界面提交。
[0130]在一些實施方案中,實踐者不需要將NIRS數(shù)據(jù)上載到服務(wù)器。在這些和別的實施方案中,基于時間的工作調(diào)度程序(例如,Cron任務(wù))可以規(guī)律地監(jiān)測存儲每個儀器上NIRS數(shù)據(jù)的目錄,并自動上載存儲的數(shù)據(jù)。在這些實施方案中,不管何時獲得因特網(wǎng)連通性,均以指定的時間間隔上載NIRS數(shù)據(jù)。例如,工作調(diào)度程序可以以約24小時、約12小時、約6小時、約4小時、約2小時、約I小時、約45分鐘、約30分鐘、約20分鐘、約10分鐘、約7分鐘、約5分鐘、約3分鐘、約2分鐘、約I分鐘或更短的時間間隔搜索新的NIRS數(shù)據(jù)。在具體的實施方案中,基于時間的工作調(diào)度程序可以以自動化方式開始上載數(shù)據(jù)的分析和更準(zhǔn)確化學(xué)計量模型的確定,由此允許在實踐者不在時(例如,在晚間休息期間和進行其他任務(wù)期間)進行數(shù)據(jù)分析。
[0131]網(wǎng)絡(luò)界面可以改進植物樣品的NIRS分析的通量,例如,通過將NIRS數(shù)據(jù)集從數(shù)據(jù)分析解偶聯(lián)。將NIRS數(shù)據(jù)集從數(shù)據(jù)分析解偶聯(lián)可以允許化學(xué)計量模型存放于與分光計相同且不在較遠位置處的設(shè)施中(如可能在某些常規(guī)規(guī)程中需要以優(yōu)化性能的),由此使得更容易基于最新可獲的化學(xué)計量技術(shù)和濕化學(xué)數(shù)據(jù)持續(xù)改進校正模型。在一些實施方案中,在與分光計相同的設(shè)施或儀器中存放化學(xué)計量模型還可以從存儲器和處理器瓶頸(在使用遠程儀器時典型的)解脫化學(xué)計量分析?,F(xiàn)場(on-site)處理器功能可以增加NIRS數(shù)據(jù)分析的計算速度,由此給予實踐者制定時間關(guān)鍵性的決策的能力。該配置還允許實踐者能更多地訪問分析的每種樣品的存儲和保留內(nèi)容,而且還供應(yīng)在光譜分析期間觀察到的任何新表型的更快的納入。
[0132]因此,依照前述內(nèi)容,在一些實施方案中,可使用在一個位置處的分光計獲得NIRS數(shù)據(jù),并使用附近的處理器分析。例如且無限制地,所述分光計可以位于離執(zhí)行存放模型的處理器的電子裝置少于約100米、約50米、約10米、約5米、或約I米或更短。例如,容納處理器的電子裝置可以與分光計物理相連。
[0133]在一些實施方案中,在已上載NIRS數(shù)據(jù)(不管是自動還是實踐者手動的)后,可以自動化選擇用于分析獲得NIRS數(shù)據(jù)的植物樣品中感興趣特征的更準(zhǔn)確的化學(xué)計量模型。在具體的實施方案中,還可以使用選定的化學(xué)計量分析自動化生成針對由選定模型預(yù)測的感興趣特征的一組值。隨后,電子信息可送達實踐者和/或別的指定的接受者,該信息含有選定的模型和/或分析的結(jié)果,或具有到達含有該信息的文件或文檔的信息。
[0134]NIRS 儀器
[0135]NIRS成像儀可以包含以下組件:光照源;照相機;攝譜儀;和檢測器,其均可以偶聯(lián)至計算機。對于關(guān)于NIRS系統(tǒng)及其組件的一般信息,參見例如Reich (2005) Adv.DrugDelivery Rev.57:1109-43 ;Grahn 和 Geladi(2007)Techniques and Applications ofHyperspectral Image Analysis,Chichester, England:John ffiley&Sons Ltd.,pp.1-15和313-34.;和 Gowen 等(2008)Eur.J.Pharm.Biopharm.69:10-22? 對于肉眼可見或顯微鏡圖像,還可以使用聚焦鏡或顯微鏡物鏡(microscope objective)。
[0136]包含在NIRS成像儀中的光照源可以包括,例如但不限于,鹵鎢燈和氙氣等離子燈。使用濾光器(filter)來選擇要測量的波長。例如且無限制地,NIRS成像儀可以包含液晶可調(diào)濾光器(LCTF);聲光可調(diào)濾光器(AOTF);或棱鏡-光柵-棱鏡濾光器(PGP)。NIRS成像儀的照相機單元可以包括,例如且無限制地,銦鎵砷化物檢測器;硫化鉛檢測器,或汞-鎘-碲化物檢測器。
[0137]除了光譜信息外,還可以獲得樣品的空間信息,其通過采用“高光譜成像(hyperspectral imaging) ” (有時也稱為“化學(xué)成像”或“分光鏡成像”),一種將常規(guī)數(shù)字成像和NIR光譜學(xué)的物理學(xué)組合的先進的分析技術(shù)。參見例如,Koehler IV等(2002)Spect.Eur.14:12-9 ;Burger 和Geladi (2006) Analystl31:1152-60 ;Gowen等(2007) TrendsFood Sc1.Technol.18:590-8。高光譜成像已顯現(xiàn)為農(nóng)業(yè)中的一種強大的分析工具。Kazemi等(2005)CIGR J.VI1:1-12 ;Fernandez Pierna 等(2006)Chemometrics Intel.Lab.Systems84:114-8 ;Gorretta 等(2006)J.Near Infared Spectrosc.14:231-9;ffeinstock等(2006)Appl.Spec.60:9-16 ;Baeten等(2007)^Hyperspectral imaging techniques: anattractive solution for the analysis of biological and agricultural materials, ”于:Techniques and applications of hyperspectral image analysis, Grahn&Geladi, Eds., Chichester, England:John ffiley&Sons, Ltd., pp.289-311 ;Mahesh 等(2008)Biosys.Eng.101:50-7 ;Shahin 和 Symons(2008)NIR Newsl9:16_8。 [0138]高光譜圖像普遍稱為超立方體。超立方體是一種三維的數(shù)據(jù)塊,其由X和y方向的像素構(gòu)成的二維圖像,和z方向的波長維度限定。超立方體由針對樣品的每個空間位置的成百個臨近波帶組成。高光譜圖像中的每個像素由針對樣品該特定位置的完整的NIR光譜組成,由此提供該位置的指紋。高光譜圖像可通過在特定NIRS安裝中可獲的幾種成像配置,例如點掃描、焦平面掃描和線掃描成像配置獲得。
[0139]在一些實施方案中,本發(fā)明的系統(tǒng)可以配置為采集要從中獲得空間信息的樣品的高光譜圖像,且可包含用于利用多種化學(xué)計量模型來確定在由高光譜圖像中的像素限定的位置處NIRS數(shù)據(jù)與樣品特征之間關(guān)系的分析性編程。
[0140]V.用于確定針對NIRS數(shù)據(jù)分析的更準(zhǔn)確的化學(xué)計量模型,和利用這類模型來表征植物樣品的方法
[0141]植物樣品和數(shù)據(jù)收集
[0142]在一些實施方案中,依照本發(fā)明的方法包括一種植物樣品,其中所述植物樣品可由NIRS成像儀掃描來獲得NIRS數(shù)據(jù)。任何能通過這類儀器掃描的植物樣品均可用于依照一些實施方案的方法中。例如且無限制地,在具體的實施方案中可以分析固體樣品、粒狀樣品和/或液體樣品。某些例子涉及分析植物種子樣品。在這些實施方案中,植物樣品可以包含全種子、磨碎的種子材料、或種子的部分(例如,胚乳、胚等)。
[0143]可通過用NIRS成像儀在NIR范圍中的一定范圍的波長內(nèi)掃描植物樣品來收集NIRS數(shù)據(jù)。例如,在具體的實施方案中,可在從約650nm至約2500nm的范圍內(nèi)掃描樣品。對于單個樣品可重復(fù)掃描規(guī)程以測量平均吸光度。在具體的實施方案中,可以將約5至50次掃描平均(例如,5、6、7、8、9、10、12、14、16、18、20、22、24、26、28、30、35、40、45 或 50 次掃描)。如此收集的平均吸光度可以形成NIRS數(shù)據(jù),然后對其分析以確定更準(zhǔn)確地預(yù)測或鑒定掃描的植物樣品中特定的感興趣特征的化學(xué)計量模型。為了確保儀器性能在整個數(shù)據(jù)采集過程中是一致的,可以在掃描樣品之前、期間和之后掃描內(nèi)部標(biāo)準(zhǔn)。
[0144]使用化學(xué)計量模型的多變量數(shù)據(jù)分析
[0145]本發(fā)明的實施方案利用多種化學(xué)計量模型來實施NIRS數(shù)據(jù)的多變量分析,從而選出更準(zhǔn)確地預(yù)測或鑒定植物樣品中感興趣特征的模型。一般地,多變量數(shù)據(jù)分析牽涉從數(shù)據(jù)矩陣提取信息。根據(jù)要實施的分析的類型(例如,數(shù)據(jù)探索、監(jiān)督分類、不受監(jiān)督的分類、和曲線解析)和要分析的特征和樣品類型,不同的化學(xué)計量模型給出顯著不同的結(jié)果。就特定特征而言不適用于特定樣品類型分類的一種模型可能是對于不同情況下不同分析的最適宜的模型,而且一般地實踐者無法先驗性知曉幾種模型中哪種模型會得到最佳結(jié)果。關(guān)于使用化學(xué)計量模型(包括人工神經(jīng)網(wǎng)絡(luò))的多變量分析的一般信息可見于,例如Massart 和 Kaufman(1983)The Interpretation of Analytical Chemical Data by theUse of Cluster Analysis, New York, NY:Wiley.Varmuza(1980)Pattern Recognition inChemistry, Berlin, Germany: Springer。 [0146]預(yù)處理
[0147]在校正前可將信號處理用于轉(zhuǎn)化光譜數(shù)據(jù),該處理有時稱為數(shù)據(jù)“預(yù)處理”。參見例如,Brereton(1990) “Pattern recognition,,,于:Chemometrics:Applicationsof Mathematics and Statistics to Laboratory Systems,Chichester, WestSussex, England:Ellis Horwood Ltd., pp.239-95.;Bro 和 Heimdal(1996)ChemometricsInt.Lab.Sys.34:85-102。預(yù)處理方法可以增加NIRS數(shù)據(jù)中的信噪比,其通過降低光譜中的噪音,例如通過減少隨機噪音、減少基線影響、和/或減少光譜干擾。Beebe等(1998),見上;Heise&WinZen (2002),見上。NIRS數(shù)據(jù)中的噪音源包括,例如且無限制地,化合物的相互作用、光散射效應(yīng)、光路徑長度變化、和/或由儀器硬件導(dǎo)致的光譜失真(distortion)。
[0148]如此,在一些實施方案中可采用預(yù)處理方法來減少、消除、或標(biāo)準(zhǔn)化NIRS數(shù)據(jù)中的信噪比問題,而不顯著地減少分光鏡信息。通常使用的預(yù)處理方法包括,例如且無限制地,標(biāo)準(zhǔn)化(standardizing)、歸一化(normalization)、樣品加權(quán)、平滑、局部濾波、Savitzky-Golay平滑、傅里葉濾波、導(dǎo)數(shù)、基線校正方法、多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量(SNV)、正交信號校正(OSC)、均值中心化和變量加權(quán)。Beebe等(1998),見上;Heise和Winzen (2002),見上;Feudale 等(2002) Chemometrics Int.Lab.Sys.84:114-8 ; Ni CO Iai ^
(2007),見上。為了將預(yù)處理方法應(yīng)用于NIRS數(shù)據(jù),依照實踐者的判斷來選擇和提供優(yōu)化和預(yù)處理參數(shù)。
[0149]在已采用一種或多種預(yù)處理方法來提高NIRS數(shù)據(jù)中的信噪比后,可對數(shù)據(jù)應(yīng)用回歸和校正技術(shù)。例如,回歸技術(shù)可能是提取包含在NIR光譜的諧波和譜帶組合中的信息,和/或提取超立方體中捕獲的信息所需要的。
[0150]多變量矩陣分析
[0151]在一些實施方案中可使用許多適宜的基于特征向量的多變量化學(xué)計量分析之一來分析來自植物樣品的NIRS數(shù)據(jù)矩陣。在具體的例子中,任何適宜的多變量化學(xué)計量分析技術(shù)均可用于從大小為IxK的NIRS數(shù)據(jù)矩陣提取有用信息,其中I為對象,K為變量。在具體的例子中,“對象”可以是單個植物樣品,而“變量”可以是樣品在NIR波長處的吸光度。[0152]化學(xué)計量分析通常利用線性代數(shù),依照以下符號:
[0153]x、y為標(biāo)量值;
[0154]x、y為列向量;
[0155]X、Y 為矩陣;
[0156]X’是X的轉(zhuǎn)置,如此是行向量;
[0157]X4是矩陣的逆;
[0158]X+是廣義逆;
[0159]X和I是三維陣列;且
[0160]對于陣列,指標(biāo)為i = 1、…、I ;j = 1、…、J ;和k = 1、…、K,對于組分數(shù)目a=1、...、L.[0161]盡管許多多變量化學(xué)計量分析是本領(lǐng)域技術(shù)人員可獲的,且本發(fā)明的實施方案利用多種這類分析(例如,以選擇更準(zhǔn)確的分析方法),但在本文中詳細描述了主成分分析(PCA)的特定技術(shù),以例示具體實施方案的某些特征。當(dāng)然會理解,通過具體描述PCA,本發(fā)明不限于PCA的使用或包括PCA的實施方案。而實際上,考慮到解釋所有已知的多變量化學(xué)計量分析所需的范圍,為了簡潔目的,僅舉例詳細描述了 PCA。此外,就本公開目的而言,“實施NIRS數(shù)據(jù)的多變量化學(xué)計量分析的手段”指本領(lǐng)域技術(shù)人員已知的用于將數(shù)據(jù)矩陣簡化為有意義信息的多變量化學(xué)計量分析/模型。 [0162]一般地,PCA轉(zhuǎn)化對象變量為數(shù)據(jù)集以最佳解釋數(shù)據(jù)中的變化。PCA采用正交轉(zhuǎn)化以將關(guān)于可能相關(guān)的對象變量的數(shù)據(jù)轉(zhuǎn)化為一組不相關(guān)變量的值的集,其為在PCA中稱為“主成分”的特征變量。盡管是有用的,但主成分不天然對應(yīng)于獲得數(shù)據(jù)矩陣的樣品的化學(xué)組成。集中主成分的數(shù)目低于或等于初始變量的數(shù)目。正交轉(zhuǎn)化為使得集中的第一主成分具有盡可能高的方差。如此,第一主成分在初始數(shù)據(jù)中占有盡可能高的變異性。由轉(zhuǎn)化生成的每個后續(xù)組分具有可能的最高方差,盡管它必須滿足以下限制,即后續(xù)組分對于集中的所有在前組分是正交的。因此,每個主成分代表初始數(shù)據(jù)中的一個獨立的變化源。
[0163]依照前述內(nèi)容,可通過使用頭幾個主成分來轉(zhuǎn)化多變量數(shù)據(jù)集,其包含I個軸每變量的數(shù)據(jù)空間中的一組坐標(biāo),從而經(jīng)轉(zhuǎn)化數(shù)據(jù)的維度被簡化以提供可更容易檢查的更低維度空間的多變量數(shù)據(jù)集。在以下等式中:
[0164]X = I^p1, +t2p2,+ …+tApA,+E (I)
[0165]其中X是(IXK)矩陣,ta是ath組分的得分值,Pa是ath組分的加載值,而E是(IXK)剩余矩陣。PCA試圖使用最少的主成分盡可能多地解釋X的平方之和。為了實現(xiàn)該目的,使tA為正交的而Pa為標(biāo)準(zhǔn)正交的:
[0166]t/ tj = O (i> j), Pi' Pj = O (i> j), Pi' Pj = I (i> j) (2)
[0167]得分值和加載值用于線圖或散點圖,其允許有效解譯整個數(shù)據(jù)空間,其中噪音大部分留在殘差中。兩個主成分的得分圖可以包含以下一種或多種:密集的得分簇,不那么密集的得分簇,異常得分,和得分簇之間的梯度。密集簇指示更小的變化,而不那么密集的簇指示更大的變化??赡艽嬖诿芗睾筒荒敲疵芗氐募冾?,但經(jīng)常在其之間具有梯度。還鑒定了異常值并且可以解釋。異常數(shù)據(jù)的可能來源包括,例如且無限制地,取樣誤差、分析誤差、數(shù)據(jù)操作誤差、和數(shù)字圓整?;蛘?,異常值可能基于未知對象類的真實存在。
[0168]主成分的各種組合通常在得分圖中針對彼此繪制,并檢查得分的簇。通過研究得分圖,可以確定哪些組分最有助于獨特地分離簇。對你的樣品中獨特種類的數(shù)目的了解可以指示預(yù)期數(shù)目的簇。例如,如果分析來自具有獨特油酸含量的兩種類型種子的種子材料,那么會預(yù)期兩個簇在得分圖中是明顯的。
[0169]數(shù)據(jù)經(jīng)常通過許多可獲方法中的任一種在試圖分析之前轉(zhuǎn)化。在一些例子中可以使用變量的分別的線性、對數(shù)或指數(shù)比例調(diào)整。對于一個數(shù)據(jù)集最佳的特定的比例調(diào)整方法不會是最適用于另一個數(shù)據(jù)集的。如此,必須對要分析的每個數(shù)據(jù)集確定比例調(diào)整方法,通常通過費時的試錯進行。
[0170]化學(xué)計量校正模型
[0171]在實施方案中,可以提供化學(xué)計量校正模型的數(shù)據(jù)庫,并且可以從分光鏡數(shù)據(jù)的分析中選出最佳的數(shù)據(jù)庫模型來確定植物樣品中感興趣的一種或多種特性。例如,感興趣的特性可以是與獲得樣品的植物物種中感興趣的性狀有關(guān)的特性。
[0172]校正被用于分析化學(xué)和生物學(xué)中許多問題的化學(xué)計量解決方案中。校正被用于開發(fā)一種從測量的化學(xué)系統(tǒng)屬性如NIR吸光度預(yù)測感興趣的特性的模型。已獨立或與光譜數(shù)據(jù)組合地使用許多多變量校正分析。對于關(guān)于特定多變量校正模型使用的更詳細的信息,參見例如,Martens 和Niecs (1989)Multivariate Calibration, Chichester, U.K.:ffiley ;Beebe 等(1998) Chemometrics: a Practical Guide,見上;Brown (1993)Measurement, Regression and Calibration, Oxford, U.K.:Clarendon Press ;Martens 和Martens(2000)Multivariate Analysis of Quality, an Introduction, Chichester, U.K.:Wiley ;NasS等(2002)A User-friendly Guide to Multivariate Calibration andClassification, Chichester, U.K.:NIR Publications。
[0173]校正需要訓(xùn)練數(shù)據(jù)集,其包括感興趣特性的參照值和認為對應(yīng)于該特性的測量屬性。例如,訓(xùn)練數(shù)據(jù)可以獲自許多參照樣品,包括感興趣分析物的已知濃度和每種樣品的相應(yīng)NIR光譜。然后,將本領(lǐng)域技術(shù)人員已知的許多多變量校正技術(shù)之一(例如,偏最小二乘法回歸、主成分回歸等)用于構(gòu)建化學(xué)計量校正模型,其將一組測量的屬性(例如,NIRS數(shù)據(jù))與例如樣品中感興趣分析物的濃度相關(guān)。所得化學(xué)計量校正模型可隨后用于有效預(yù)測新樣品中分析物的濃度。隨著收集新數(shù)據(jù)并添加到訓(xùn)練參照集中,模型可以通過“學(xué)習(xí)”改進。
[0174]多變量校正技術(shù)可以允許快速、廉價且非破壞性地測定樣品特性,甚至是從含有許多其他特性的非常復(fù)雜的樣品中(例如相似的化學(xué)物種類)。數(shù)學(xué)校正提供與分析測量形式一樣多的建模過程的選擇性。例如,NIR光譜學(xué)相比于其他分析技術(shù)(如IR和Raman光譜學(xué))是極其廣泛和非選擇性的。然而,在一些實施方案中,使用經(jīng)選擇的多變量校正模型來分析來自復(fù)雜植物樣品的NIRS數(shù)據(jù)提供對樣品中化學(xué)物種類或特性(例如,水分、硬度等)的非常好的確定(例如,鑒定、分類和定量測量)。
[0175]用于分析分光鏡數(shù)據(jù)的化學(xué)計量模型的校正牽涉建立期望的樣品的化學(xué)、生物學(xué)或物理特性與其光譜之間的回歸關(guān)系。所述回歸關(guān)系為:
[0176]y = f (x) (3)
[0177]其中y是樣品中期望的濃度(或其他特性),而向量X是光譜。如此,從函數(shù)f,可從特定樣品的測量光譜計算濃度。在本發(fā)明的一些實施方案中,多變量校正可能牽涉以下一種或多種:發(fā)現(xiàn)函數(shù)f ;選擇用于發(fā)現(xiàn)f的校正標(biāo)準(zhǔn);產(chǎn)生針對f質(zhì)量的診斷法;使用f來從光譜測定未知的濃度/特性;和該測定的診斷測試。
[0178]確定形式y(tǒng) = f(x)的確切關(guān)系被數(shù)據(jù)中的噪音復(fù)雜化。因此,回歸關(guān)系經(jīng)常以線性形式表示:
[0179]y = Xb+f (4)
[0180]其中y是對I個對象的測量應(yīng)答的向量;X是對I個對象的測量光譜的(IxK)矩陣;b是回歸系數(shù)的向量;而f是殘差向量(不要與函數(shù)f混淆)。等式(3)代表硬模型,其中等式f必須是預(yù)先已知的或精確確定的。等式(4)是軟等式,其中b的一些運行值必須在沒有許多系統(tǒng)背景知識的情況下發(fā)現(xiàn)。
[0181]在化學(xué)計量中,當(dāng)經(jīng)??色@得比對象更多的變量時,b的計算可通過本領(lǐng)域技術(shù)人員已知的許多特征變量方法中的任一種來進行(例如,主成分回歸(PCR);偏最小二乘回歸(PLS)回歸;機器學(xué)習(xí)技術(shù),人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(SVM);等)。參見例如,Ka rjalainen 和 Karjalainen(1996)Data Analysis for HyphenatedTechniques, Amsterdam, The Netherlands:Elsevier。因此,
[0182]y = Tq+f (5)
[0183]其中T是特征變量(例如,來自PCA的主成分)的矩陣而q包含T中列的回歸系數(shù)。
[0184]等式⑷和(5)具有以下b類型的標(biāo)準(zhǔn)解法:
[0185]b = (X' X) ^1X' y (6)
[0186]和
[0187]b = (TjT)^ry, (7)
[0188]或通過定義廣義逆1:
[0189]b = X^y (8)
[0190]用于修改等式(6)-(8)以改進b的計算的許多方法是本領(lǐng)域中已知的。這些方法包括,例如且無限制地:普通最小二乘法(OLS)/多元線性回歸(MLR) (Draper和 Smith(1981)Applied Regression Analysis,第 2 版,New York, U.S.A.:ffiley);嶺回歸(RR)(Hoerl 和 Kennard(1970)Technometrics8:27-51);主成分回歸(PCR)(Massy(1965)J.Am.Stat.Assoc.60:234-56);特征根回歸(LRR)(Webster 等(1974)Technometricsl6:513-22);偏最小二乘回歸(PLS)(Helland(1988)Commun.Stat.B, Simulations Comput.17:581-607 ; Hoskuidssori (1988) J.Chemometrics2:211-28);分段逆回歸(SIR) (Li (1991) J.Am.Stat.Assoc.86:316-42);連續(xù)回歸(CR) (Stone
Brooks (1990) J.Royal Stat.Soc.B52:237-69);局部加權(quán)回歸(LffR) ( N?CS 和Isaksson (1989) Appl.Spectrosc.43:328 - 35);和主協(xié)變量回歸(PCovR) (de Jong 和Kiers(1992)Chemometrics Intelligent Lab.Syst.14:155-64)。
[0191]等式(4)和(5)中的模型是線性的。然而,回歸系數(shù)與測量之間的關(guān)系可能是非線性的。有許多改進模型以用于非線性關(guān)系的方式,其中任一種均均可用于本發(fā)明的一些實施方案中。非線性關(guān)系的模型可以例如通過經(jīng)由X和/或y的轉(zhuǎn)化來改進(Geladi和 Dabakk(1995)J.NIR Spectrosc.3:119-32 ;Geladi(2001)Chemometrics IntelligentLab.Syst.60:211-24),或通過修改模型以納入特定的分光鏡知識來改進(Barnes等(1989) Appl.Spectrosc.43:772 - 7 ;Svensson 等(2002) J.Chemometricsl6:176-88)。[0192]目前,化學(xué)計量分析方法學(xué)受限于那些經(jīng)由Unity、GRAMS和MATLAB工具箱可獲的,從而限制了該方法學(xué)的使用以及分析的速度?;诖罅康奈墨I綜述,最普遍用于NIRS分析的四種算法鑒定為主成分回歸(PCR)、偏最小二乘(PLS)回歸和機器學(xué)習(xí)技術(shù)人工神經(jīng)網(wǎng)絡(luò)(ANN)以及支持向量機(SVM)。針對 PLS (Cao (2008)Partial Least-Squares andDiscriminant Analysis (和輔導(dǎo)一起在因特網(wǎng)上于 www.mathworks.com/matlabcentral/fileexchange/18760-partial-least-squares-and-discriminant-analysis 可得至丨J ))和ANN (Artificial Neural Networks: ANN DTU MATLAB 工具箱(在因特網(wǎng)上于 bsp.teithe.gr/members/downloads/DTUToolbox.html 可得到))的 MATLAB 算法以 Mathworks 程序包獲得。還獲得LIBSVM,一種強大的SVM執(zhí)行工具的MATLAB代碼。Chang和Lin (2001) LIBSVM: alibrary for support vector machines (在因特網(wǎng)上于 www.csie.ntu.edu.tw/?cjlin/libsvm可得到)。PCR的MATLAB代碼內(nèi)部(in-house)開發(fā)。
[0193]校正轉(zhuǎn)移
[0194]在一些實施方案中,本發(fā)明的方法包括以獨立于其上收集NIRS數(shù)據(jù)的儀器和/或儀器類型的方式對樣品特征的化學(xué)計量測定。在具體的實施方案中,選擇對一個儀器上的感興趣特征提供更準(zhǔn)確測定的化學(xué)計量模型,隨后將該模型轉(zhuǎn)移用于分析在另一儀器上收集的NIRS數(shù)據(jù),而不用再開發(fā)模型。在一些實施方案中,本發(fā)明的系統(tǒng)和方法轉(zhuǎn)移校正模型的能力允許在不同儀器上生成的數(shù)據(jù)合并到一起成為單個、更有力的訓(xùn)練集用于開發(fā)更優(yōu)化的模型。關(guān)于化學(xué)計量模型轉(zhuǎn)移的信息可見于,例如Feam(2001) J.Near InfaredSpectrosc.9:229-44 中。
[0195]異常值檢測
[0196]化學(xué)計量分析的一個重要組分是檢測進行分析的數(shù)據(jù),例如用于開發(fā)校正模型的訓(xùn)練數(shù)據(jù)中的異常值。如本文中使用的,術(shù)語“異常值”指具有異常光譜概貌或參照化學(xué)值的樣品。例如,存在污染、降解或較差的樣品質(zhì)量,和/或不一致的樣品制備可能導(dǎo)致異常值。在一些實施方案中,可鑒定這類異常值并在模型開發(fā)前從訓(xùn)練數(shù)據(jù)集除去,由此提供模型參數(shù)不受這些異常存在的影響。當(dāng)然會注意到樣品品種和特征中的真實變化對于開發(fā)準(zhǔn)確且有力的模型是重要的。因此,這些變化應(yīng)與異常值區(qū)分從而將其鑒定并在模型開發(fā)期間保留它們。在具體的實施方案中,本發(fā)明的方法中包括至少一個異常值檢測技術(shù)。可用的異常值檢測技術(shù)包括,例如:Mahalanobis距離;樣品杠桿作用(sample leverage);和圖
論測量(graph theoretic measure) (ODIN)。這些技術(shù)可以例如以MATLAB代碼執(zhí)行。
在一些例子中,一種投票規(guī)程將樣品標(biāo)記為異常值,如果兩種或更多種技術(shù)將其分類為異常值的話,并指定這些樣品進行進一步審查。
[0197]V1.針對NIR光譜分析的系統(tǒng)和方法用于進行植物選擇和/或育種決策的用途
[0198]使用納入如前文所述的用于NIR光譜分析的機器學(xué)習(xí)和統(tǒng)計學(xué)的平臺,可以提供對植物樣品中一定范圍內(nèi)的化學(xué)組分和物理特征的方便且即時的分析。依照本發(fā)明的一些實施方案,針對特定化學(xué)物篩選對NIR光譜的測量可以用來探索全植物樣品或基因型的化學(xué)-物理表征。例如,實施從植物樣品獲得的NIR數(shù)據(jù)中感興趣性狀的分析的化學(xué)計量校正模型的鑒定和選擇,以及如此生成的更優(yōu)越的分析,可以幫助選擇性或直接育種程序中的育種決策。
[0199]在具體的實施方案中,選定的化學(xué)計量模型可用于從植物樣品的NIR數(shù)據(jù)生成選定的模型對感興趣的性狀或特征在一定范圍內(nèi)的可能確定中的確定。隨后,可將這類確定與從其他樣品獲得的確定相比較,并且可以鑒定出如通過選定模型確定的具有期望性狀或特征的一種或多種樣品。獲得鑒定樣品的植物可選擇為包含或很可能包含感興趣的性狀或特征,且可以進一步選擇用于繁殖或育種以產(chǎn)生包含感興趣性狀的近交植物,或?qū)⒏信d趣的性狀基因滲入到種質(zhì)中。
[0200]提供以下實施例以例示某些具體的特征和/或?qū)嵤┓桨?。實施例不?yīng)理解為將公開限制為例示的具體特征或?qū)嵤┓桨浮?br>
實施例
[0201]實施例1:使用自動化的機器學(xué)習(xí)和統(tǒng)計學(xué)平臺來分析蕓苔種子的特征
[0202]材料和方法
[0203]蕓苔種子樣品從Natreon蕓苔,或具有黃色種子包被(YSC)性狀的蕓苔制備。訓(xùn)練數(shù)據(jù)通過掃描在SpectraStar?2500x NIR分光計(Unity Scientific, Inc.)上大槽杯(large spout cup)中的全蕓苔種子在650_2500nm波長內(nèi)收集。將4個步驟的逆時針方向步驟的24次掃描平均以獲得吸光度測量。將這些掃描用于形成訓(xùn)練NIR光譜。為了確保儀器性能在整個過程中一致,在掃描訓(xùn)練集之前、期間和之后掃描內(nèi)部標(biāo)準(zhǔn)。
[0204]校正模型
[0205]開發(fā)PCR、PLS、ANN和SVM化學(xué)計量校正模型用于NIR光譜分析,其使用
MATLABes技術(shù)編程語言。開發(fā)交叉驗證路徑,并驗證每種校正模型對于每種種子組成性
狀在感興趣的NIR光譜范圍內(nèi)為魯棒而準(zhǔn)確的。然后,用開發(fā)的4種化學(xué)計量校正模型中的每一種來分析訓(xùn)練數(shù)據(jù),并對于每種種子組成性狀將每次分析的結(jié)果進行比較。
[0206]對于每種性狀,將4種校正模型的表現(xiàn)(R2)比較以發(fā)現(xiàn)最適宜捕捉性狀的光譜與實際值之間關(guān)系的模型。在每一情況中,將10倍的交叉驗證用于確定回歸準(zhǔn)確性的可靠估測,由此確保在訓(xùn)練期間觀察到的準(zhǔn)確性是未來測試樣品的回歸準(zhǔn)確性的無偏見估測。
[0207]例如,圖4顯示針對總飽和脂肪酸含量(Total Sats)的這類比較,其從圖3中顯示的總飽和脂肪酸訓(xùn)練數(shù)據(jù)的分析而獲得。圖4顯示對于該性狀A(yù)NN算法優(yōu)于其他3種算法,且在所有訓(xùn)練樣品上對于性狀的實際值最緊密地建模。在Unity機器上對于15種不同的種子組成性狀進行類似的分析,且發(fā)現(xiàn)從相同訓(xùn)練數(shù)據(jù)開發(fā)的不同校正模型對于不同性狀的分析是更優(yōu)越的。圖3-47。
[0208]感興趣的幾種特定性狀中每一種的數(shù)據(jù)分布在表I中列表,且這11種性狀中每一種的R2值比較在表2中列表。機器學(xué)習(xí)模型(ANN和SVM)在72%的時間內(nèi)(8/11)優(yōu)于傳統(tǒng)的統(tǒng)計學(xué)辦法(PCR和PLS),因此傳統(tǒng)的統(tǒng)計學(xué)辦法在27%的時間內(nèi)優(yōu)于機器學(xué)習(xí)模型。如果研究者僅檢查了例如C18:1、C18: 2、C18:3和C16:0性狀,那么該研究者可能合理地得出結(jié)論,即ANN模型至少在所有種子組成性狀上是優(yōu)選的,但顯然不是這樣的情況。
[0209]表1.15種組成性狀的數(shù)據(jù)分布
[0210]
【權(quán)利要求】
1.一種用于確定近紅外分光鏡(NIRS)數(shù)據(jù)的化學(xué)計量模型來鑒定植物樣品中感興趣的特征的方法,所述方法包括: 提供要分析的植物樣品; 從所述植物樣品獲得NIRS數(shù)據(jù); 提供包含數(shù)據(jù)庫的計算機可讀的存儲介質(zhì),所述數(shù)據(jù)庫包含NIRS數(shù)據(jù)的多種化學(xué)計量模型,其中 所述NIRS數(shù)據(jù)包含關(guān)于所述感興趣特征的信息; 提供包含用于利用所述多種化學(xué)計量模型來確定所述NIRS數(shù)據(jù)與所述感興趣特征之間的關(guān)系的分析性編程的計算機; 選擇用于所述多種化學(xué)計量模型中每一種的參數(shù); 利用所述多種化學(xué)計量模型中的每一種來確定從所述植物樣品獲得的NIRS數(shù)據(jù)與所述感興趣特征之間的關(guān)系;并 確定將從所述植物樣品獲得的NIRS數(shù)據(jù)與所述感興趣特征最緊密相關(guān)的化學(xué)計量模型,其中將從所述植物樣品獲得的NIRS數(shù)據(jù)與所述感興趣特征最緊密相關(guān)的化學(xué)計量模型鑒定所述感興趣的特征。
2.依照權(quán)利要求1的方法,其中所述方法是自動化的。
3.依照權(quán)利要求1的方法,其中所述計算機包含用于鑒定NIR數(shù)據(jù)中的異常數(shù)據(jù)的分析性編程,而且在利用所述多種化學(xué)計量模型中的每一種來確定所述NIR數(shù)據(jù)與所述感興趣的植物性狀之間的關(guān)系之前將所述異常數(shù)據(jù)從所述NIR數(shù)據(jù)移出。
4.依照權(quán)利要求1的方法,其中所述計算機包含用于標(biāo)準(zhǔn)化所述NIR數(shù)據(jù),從而除去來自用于獲得所述NIR數(shù)據(jù)的NIR分光計對所述NIR數(shù)據(jù)的影響的分析性編程。
5.依照權(quán)利要求1的方法,所述方法還包括用戶界面,其中指明獲得所述植物樣品的植物和所述感興趣的植物性狀。
6.依照權(quán)利要求1的方法,所述方法還包括傳播電子信息,該信息包含所述NIR數(shù)據(jù)與所述感興趣的植物性狀之間的關(guān)系,如由鑒定所述感興趣的植物性狀的化學(xué)計量模型測定的。
7.依照權(quán)利要求1的方法,其中所述感興趣的特征指示獲得所述植物樣品的植物中感興趣的植物性狀。
8.一種用于在從植物獲得的植物樣品中確定至少一種感興趣特征的系統(tǒng),所述系統(tǒng)包含: 近紅外(NIR)分光計;和 含有數(shù)據(jù)庫的處理器,所述數(shù)據(jù)庫包含來自所述植物樣品的NIR光譜學(xué)(NIRS)數(shù)據(jù)的多種化學(xué)計量模型,其中所述NIRS數(shù)據(jù)包含關(guān)于所述感興趣特征的信息,還含有用于利用所述多種化學(xué)計量模型來確定所述NIRS數(shù)據(jù)與所述感興趣特征之間的關(guān)系的分析性編程, 其中所述處理器利用所述多種化學(xué)計量模型中的每一種來確定NIRS數(shù)據(jù)與所述感興趣特征之間的關(guān)系,其中所述處理器鑒定將所述NIRS數(shù)據(jù)與所述感興趣特征最緊密相關(guān)的化學(xué)計量模型,且其中所述處理器利用將所述NIRS數(shù)據(jù)與所述感興趣的植物性狀最緊密相關(guān)的化學(xué)計量模型來確定所述植物樣品中感興趣的特征。
9.權(quán)利要求8的系統(tǒng),其中所述植物樣品中感興趣的特征指示獲得所述植物樣品的植物中感興趣的植物性狀。
10.權(quán)利要求8的系統(tǒng),其中所述NIR分光計和所述處理器不是物理附接的。
11.權(quán)利要求10的系統(tǒng),其中所述NIR分光計和所述處理器相隔至少約100英里(160.9km)的距離。
12.一種用于確定近紅外分光鏡(NIRS)數(shù)據(jù)的化學(xué)計量模型來鑒定植物樣品中感興趣的特征的方法,所述方法包括: 提供要分析的植物樣品; 從所述植物樣品獲得NIRS數(shù)據(jù); 提供包含數(shù)據(jù)庫的計算機可讀的存儲介質(zhì),所述數(shù)據(jù)庫包含用于實施NIRS數(shù)據(jù)的多變量化學(xué)計量分析的多種手段,其中所述NIRS數(shù)據(jù)包含關(guān)于所述感興趣特征的信息; 提供包含用于利用所述多種手段來實施NIRS數(shù)據(jù)的多變量化學(xué)計量分析,從而確定所述NIRS數(shù)據(jù)與所述感興趣特征之間的關(guān)系的分析性編程的計算機; 選擇用于所述多種化學(xué)計量模型中每一種的參數(shù); 利用所述多種手段中的每一種來實施NIRS數(shù)據(jù)的多變量化學(xué)計量分析以確定從所述植物樣品獲得的NIRS數(shù)據(jù)與所述感興趣特征之間的關(guān)系;并 確定將從所述植物樣品獲得的NIRS數(shù)據(jù)與所述感興趣特征最緊密相關(guān)的用于實施NIRS數(shù)據(jù)的多變量化學(xué)計量分析的手段,其中將從所述植物樣品獲得的NIRS數(shù)據(jù)與所述感興趣特征最緊密相關(guān)的用于實施NIRS數(shù)據(jù)的多變量化學(xué)計量分析的手段包含鑒定所述感興趣特征的化學(xué)計量模型。
13.一種確定植物材料中的感興趣特征的方法,所述方法包括: 提供所述植物材料的樣品; 利用權(quán)利要求8的系統(tǒng)來確定所述樣品中的感興趣特征;并 (a)如果確定所述樣品為包含所述感興趣的特征,那么將所述感興趣的特征歸屬于所述植物材料,或 (b)如果確定所述樣品為不包含所述感興趣的特征,那么不將所述感興趣的特征歸屬于所述植物材料, 由此確定所述植物材料中的感興趣的特征。
14.一種用于確定植物中的感興趣性狀的方法,所述方法包括: 提供從所述植物獲得的樣品; 利用權(quán)利要求8的系統(tǒng)來確定所述樣品中的特征,其中所述特征指示所述植物中感興趣的性狀;并 (a)如果確定所述樣品為包含所述特征,那么將所述感興趣的性狀歸屬于所述植物,或 (b)如果確定所述樣品為不包含所述特征,那么不將所述感興趣的性狀歸屬于所述植物, 由此確定所述植物中的感興趣的性狀。
15.依照權(quán)利要求14的方法,其中所述感興趣的性狀是種子組成性狀。
16.—種向植物中引入至少一種期望性狀的方法,所述方法包括: 提供從第一植物獲得的樣品; 利用權(quán)利要求8的系統(tǒng)來確定所述樣品中特征的存在,其中所述特征指示所述第一植物中感興趣的性狀,由此確定所述第一植物中感興趣的性狀; 將所述第一植物與同一物種的第二植物雜交以產(chǎn)生F1后代植物; 選擇具有所述感興趣性狀的一種或多種后代植物來廣生選定的后代植物; 將所述選定的后代植物與所述第一植物回交以產(chǎn)生回交后代植物; 選擇具有所述第二植物的生理學(xué)和形態(tài)學(xué)特征和所述感興趣性狀的回交后代植物以產(chǎn)生選定的回交后代植物;并 重復(fù)所述回交和選擇步驟3次以上以產(chǎn)生包含所述感興趣性狀的近交選擇的第四代或更高世代的回交后代植物。
17.依照權(quán)利要求16的方法,其中在回交步驟后利用權(quán)利要求7的系統(tǒng)來確定從所述回交后代植物獲得的樣品中指示所述感興趣性狀的所述特征的存在。
18.依照權(quán)利要求17的方法,其中在每個回交步驟后利用權(quán)利要求7的系統(tǒng)來確定從所述回交后代植物獲得的樣品中指示所述感興趣性狀的所述特征的存在。
19.依照權(quán)利要求16的方法,其中所述感興趣的性狀是種子組成性狀。
【文檔編號】G01N21/35GK103959292SQ201280057729
【公開日】2014年7月30日 申請日期:2012年9月21日 優(yōu)先權(quán)日:2011年9月23日
【發(fā)明者】R.派, D.Z.卡拉維洛, C.卡爾, D.加西亞 申請人:陶氏益農(nóng)公司