基于近紅外光譜波數(shù)k均值聚類的煙草化學(xué)值定量方法

文檔序號(hào)：9417666閱讀：441來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于近紅外光譜波數(shù)k均值聚類的煙草化學(xué)值定量方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及煙草的理化檢測(cè)技術(shù)領(lǐng)域，具體涉及一種基于近紅外光譜波數(shù)K均值聚類的煙草化學(xué)值定量方法。
【背景技術(shù)】
[0002] 煙草中的主要化學(xué)成分如總糖、煙堿、還原糖、總氮等對(duì)煙葉品質(zhì)具有重要影響，是決定煙氣勁頭，醇和度等的主要因素。在煙草工業(yè)中，常規(guī)化學(xué)成分的分析測(cè)定對(duì)卷煙成品質(zhì)量的控制具有重要的意義。
[0003] 近紅外光譜能夠表征待測(cè)物中多種含氫基團(tuán)信息，具有采樣方便、無(wú)損傷、無(wú)污染、能夠在線檢測(cè)等優(yōu)點(diǎn)，非常適合用于各種復(fù)雜混合物的檢測(cè)。近紅外光譜檢測(cè)技術(shù)目前已廣泛應(yīng)用于煙草領(lǐng)域，例如打葉復(fù)烤中基于煙堿含量的均質(zhì)化加工及卷煙生產(chǎn)中的質(zhì)量監(jiān)測(cè)等。應(yīng)用近紅外分析技術(shù)，可以較好的預(yù)測(cè)煙葉中煙堿，總糖，總氮等主要化學(xué)成分含量，對(duì)煙葉質(zhì)量進(jìn)行快速初步的評(píng)價(jià)有極大地幫助。
[0004] 目前基于近紅外的煙葉主要化學(xué)成分建模主要是通過(guò)偏最小二乘算法 (PartialLeastSquares，PLS)來(lái)實(shí)現(xiàn)，PLS是為了彌補(bǔ)最小二乘在計(jì)算強(qiáng)共線性數(shù)據(jù)時(shí) 的缺陷而提出的（參見文獻(xiàn) H. Martens, S. A. Jensen, and P. Geladi, "Multivariate linearity transformations for near infrared reflectance spectroscopy, '，in Proc. Nordic Symp. Applied Statistics, 1983, pp.205 - 234.)〇
[0005] 考慮一組因變量Y= {yi，y2，…，yq}和一組自變量X= {Xl，x2, ···，&}，在X存在嚴(yán) 重多重相關(guān)性或者樣本數(shù)量少于變量個(gè)數(shù)時(shí)，對(duì)矩陣XtX求逆將會(huì)失效。PLS采用成分提取的辦法解決這個(gè)問(wèn)題，通過(guò)在X和Y中依次提取出成分分量，保證X中分量與Y中分量的協(xié) 方差最大，從而實(shí)現(xiàn)回歸建模、數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)化以及分析兩組變量之間的相關(guān)性，能夠有效地處理多變量和共線性問(wèn)題，非常適合應(yīng)用于近紅外光譜的定量分析。
[0006] 然而，針對(duì)煙草等復(fù)雜的天然產(chǎn)品，PLS方法在算法執(zhí)行中對(duì)所有波數(shù)信息統(tǒng)一進(jìn) 行處理，對(duì)感興趣物質(zhì)含量相關(guān)區(qū)域、無(wú)信息區(qū)域以及噪聲區(qū)域等沒有進(jìn)行甄別，致使模型的預(yù)測(cè)精度和解釋能力沒有達(dá)到最優(yōu)。同時(shí)，由于近紅外光譜定量分析屬于二次分析方法，即在標(biāo)準(zhǔn)分析方法（如流動(dòng)分析等）的基礎(chǔ)上進(jìn)行建模，其模型誤差對(duì)后續(xù)應(yīng)用有較大影響。
[0007] 例如，打葉復(fù)烤中根據(jù)化學(xué)值對(duì)煙葉進(jìn)行調(diào)配，保證復(fù)烤煙葉質(zhì)量均一穩(wěn)定，又如，在煙葉醇化過(guò)程中，監(jiān)測(cè)不同種類煙葉隨醇化時(shí)間的煙葉化學(xué)值和品質(zhì)變化過(guò)程，優(yōu)選最佳的醇化時(shí)間等。在上述應(yīng)用中，都需利用近紅外光譜快速大量的獲取分析數(shù)據(jù)，同時(shí)，由于其預(yù)測(cè)精度對(duì)后續(xù)的調(diào)配，加工等至關(guān)重要，因此，需優(yōu)化定量分析模型以提供精準(zhǔn)的化學(xué)值預(yù)測(cè)。
[0008] 現(xiàn)有的基于近紅外的煙草化學(xué)值的建模方法為單一 PLS算法，該算法執(zhí)行中對(duì)光譜的各局部信息沒有進(jìn)行篩選或處理，導(dǎo)致部分高噪聲變量同時(shí)進(jìn)入到建模過(guò)程中，對(duì)于與待測(cè)化學(xué)值關(guān)聯(lián)性較強(qiáng)的譜段沒有進(jìn)行適當(dāng)?shù)脑鰪?qiáng)，致使模型的預(yù)測(cè)精度和解釋能力沒有達(dá)到最優(yōu)。
[0009] 由于現(xiàn)有的基于近紅外的煙草化學(xué)值的建模方法為單一 PLS算法，對(duì)近紅外光譜中的各個(gè)波段統(tǒng)一處理，存在對(duì)光譜噪聲的抑制能力不強(qiáng)，對(duì)光譜中的有效信息挖掘能力不夠的缺點(diǎn)。

【發(fā)明內(nèi)容】

[0010] 本發(fā)明提供了一種基于近紅外光譜波數(shù)K均值聚類的煙草化學(xué)值定量方法，利用近紅外光譜的波數(shù)K均值聚類和模型集成，建立煙草中化學(xué)成分的定量模型，降低近紅外光譜信號(hào)中的干擾因素，提高定量模型的預(yù)測(cè)精度。
[0011] -種基于近紅外光譜波數(shù)K均值聚類的煙草化學(xué)值定量方法，包括如下步驟：
[0012] (1)建立訓(xùn)練集和測(cè)試集，采集訓(xùn)練集中所有煙草樣本的近紅外光譜，并測(cè)量訓(xùn)練集中各煙草樣本的目標(biāo)成分含量；
[0013] (2)采用K均值聚類對(duì)訓(xùn)練集中各煙草樣本的近紅外光譜的波數(shù)進(jìn)行聚類；
[0014] (3)每一次聚類完成后，利用偏最小二乘法分別建立各子類譜段與目標(biāo)成分含量的關(guān)系模型，并計(jì)算各關(guān)系模型的交叉驗(yàn)證均方根誤差（即Root Mean Square Error for Cross-Validation, RMSECV)；
[0015] (4)以各關(guān)系模型對(duì)應(yīng)的交叉驗(yàn)證均方根誤差之和最小的聚類數(shù)作為最優(yōu)聚類數(shù)，并將最優(yōu)聚類數(shù)對(duì)應(yīng)的各關(guān)系模型進(jìn)行加權(quán)求和，得到全譜模型；
[0016] (5)采集測(cè)試集中各煙草樣本的近紅外光譜，并依據(jù)全譜模型，得到測(cè)試集中各煙草樣本的目標(biāo)成分含量。
[0017] 本發(fā)明中利用近紅外光譜波數(shù)K均值聚類和模型集成的建模方法分為三步：首先，通過(guò)K均值聚類和子類建模，對(duì)近紅外光譜的局部信息進(jìn)行提取，其次，通過(guò)對(duì)子類進(jìn) 行比較和加權(quán)，確定各局部信息在全譜模型中的權(quán)重，最終得到全譜模型，最后，利用交叉驗(yàn)證的方法，對(duì)不同的聚類和建模效果進(jìn)行比較，確定最優(yōu)的聚類類別數(shù)和相應(yīng)的模型回歸系數(shù)，利用模型回歸系數(shù)對(duì)測(cè)試集中各煙草樣本的目標(biāo)成分進(jìn)行預(yù)測(cè)。本發(fā)明將局部信息提取和模型相融合，提高了模型的預(yù)測(cè)精度和解釋能力。
[0018] 步驟（1)中利用現(xiàn)有技術(shù)中的國(guó)際國(guó)內(nèi)標(biāo)準(zhǔn)或其他已經(jīng)成熟的測(cè)試方法測(cè)量訓(xùn) 練集中各煙草樣本的目標(biāo)成分含量，目標(biāo)成分根據(jù)需要進(jìn)行選擇，優(yōu)選地，步驟（1)中的目標(biāo)成分為總糖、煙堿、還原糖或總氮。
[0019] 步驟（2)中聚類的最大聚類數(shù)為2~10。最大聚類數(shù)依據(jù)近紅外光譜所含變量的數(shù)目確定，優(yōu)選地，步驟（2)中聚類的最大聚類數(shù)為2~5。
[0020] 本發(fā)明中，為了獲得更好的精度以及計(jì)算效率，優(yōu)選地，偏最小二乘法采用非線性迭代偏最小二乘法。交叉驗(yàn)證均方根誤差采用五折交叉驗(yàn)證算法。
[0021] 作為優(yōu)選，步驟（4)中各關(guān)系模型的權(quán)重Wk計(jì)算公式如下：
[0022]
[0023] 式中：ek為第k個(gè)子類的交叉驗(yàn)證均方根誤差；
[0024] η為子類的個(gè)數(shù)。
[0025] 將各關(guān)系模型加權(quán)求和，得到全譜模型，全譜模型中各回歸系數(shù)β的計(jì)算公式如下：
[0026]
[0027] 式中，wk，β 別為第k個(gè)關(guān)系模型的權(quán)重和回歸系數(shù)。
[0028] 為了獲得理想的近紅外光譜，需要對(duì)煙草樣本進(jìn)行預(yù)處理，預(yù)處理過(guò)程如下：
[0029] 煙草樣本烘干后，磨碎至40目，密封平衡24~36h后，進(jìn)行近紅外光譜測(cè)量。
[0030] 本發(fā)明提供的基于近紅外光譜波數(shù)K均值聚類的煙草化學(xué)值定量方法，與現(xiàn)有的 PLS方法相比，能夠顯著降低模型的預(yù)測(cè)誤差，適用于近紅外光譜中對(duì)煙草樣本化學(xué)值的準(zhǔn) 確定量。
【附圖說(shuō)明】
[0031]

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：畢一鳴;儲(chǔ)國(guó)海;周國(guó)俊;夏琛;吳繼忠;袁凱龍;史春云;夏駿;
技術(shù)所有人：浙江中煙工業(yè)有限責(zé)任公司;
我是此專利的發(fā)明人

上一篇：基于生理信息熵的人體體成分預(yù)測(cè)方法
上一篇：醫(yī)療點(diǎn)的藥物分配的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

k均值聚類算法相關(guān)技術(shù)

k均值聚類相關(guān)技術(shù)

模糊c均值聚類相關(guān)技術(shù)

k均值聚類分析相關(guān)技術(shù)

c均值聚類算法相關(guān)技術(shù)

k均值聚類算法實(shí)例相關(guān)技術(shù)

模糊c均值聚類算法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于近紅外光譜波數(shù)k均值聚類的煙草化學(xué)值定量方法