EN

基于高光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)方法的茶多酚無損檢測(cè)模型

發(fā)布者：發(fā)布時(shí)間：2023-08-04

背景

茶多酚是茶葉的重要組成部分，也是生物活性化學(xué)物質(zhì)的重要來源，具有抗氧化、抗癌、抗菌、抗炎和抗動(dòng)脈硬化的能力，在醫(yī)藥和食品工業(yè)中發(fā)揮著重要作用。高光譜成像技術(shù)是基于大量窄波段的圖像數(shù)據(jù)技術(shù)。它將成像技術(shù)與光譜技術(shù)相結(jié)合，檢測(cè)目標(biāo)的二維幾何空間和一維光譜信息，已被廣泛應(yīng)用于農(nóng)產(chǎn)品質(zhì)量檢測(cè)。

基于高光譜技術(shù)建立的模型結(jié)果受多種因素的影響。特征數(shù)據(jù)預(yù)處理方法是影響分析結(jié)果的主要因素。常見的光譜數(shù)據(jù)預(yù)處理方法包括正交信號(hào)校正（OSC）、一階導(dǎo)數(shù)（FD）、二階導(dǎo)數(shù)（SD）、多元散射校正（MSC）、標(biāo)準(zhǔn)正態(tài)變量變換（SNVT）、Savitzky-Gola濾波（SG）。結(jié)果表明，這些方法可以減少外界因素的影響，在一定程度上提高檢測(cè)的準(zhǔn)確性。

光譜特征波段的選擇是影響模型結(jié)果的另一個(gè)重要因素。有效地選擇特征波段可以節(jié)省計(jì)算資源，提高模型性能。近年來，研究人員提出了許多特征波段選擇方法，如區(qū)間偏最小二乘（iPLS）、協(xié)同區(qū)間偏最小二乘（siPLS）、后向區(qū)間偏最小二乘（biPLS）。這些特征選擇算法將所有特征劃分為若干個(gè)區(qū)間，然后通過迭代選取區(qū)間中效果較好的一小部分作為特征集合。然而，通過這種“捆綁”方法選擇的光譜特征可能會(huì)遺漏一些重要特征。

為了避免手動(dòng)數(shù)據(jù)分割引起的偏差，有許多計(jì)算方法可用于樣本選擇，如隨機(jī)選擇（RS），Kennard-Stone（KS）或基于聯(lián)合x-y距離（SPXY）的樣本集分割算法。

本研究旨在探討基于高光譜圖像技術(shù)的茶多酚含量快速無損在線檢測(cè)的可行性。采用不同的數(shù)據(jù)預(yù)處理方法對(duì)采集到的茶葉高光譜數(shù)據(jù)進(jìn)行處理。本文通過建立模型并對(duì)建模結(jié)果進(jìn)行分析，選擇了*佳的預(yù)處理方法。

試驗(yàn)設(shè)計(jì)

四川農(nóng)業(yè)大學(xué)康志亮團(tuán)隊(duì)共選出三個(gè)級(jí)別的雅安藏茶，獲取其茶多酚含量后，用SPXY算法對(duì)數(shù)據(jù)集進(jìn)行劃分（表1）。利用江蘇雙利合譜公司研制的GaiaSorter高光譜分選儀獲得了藏茶的高光譜數(shù)據(jù)，其有效光譜范圍為387 ~ 1035nm，光譜分辨率為2.8 nm，光譜通道為256條。把茶葉均勻地鋪在一個(gè)容器里（大約65厘米 × 65厘米）。高光譜采集系統(tǒng)如圖1所示。由于暗電流的影響，最終420 ~ 1010 nm波段被保留作為原始光譜數(shù)據(jù)。

表1 基于 SPXY 算法的茶多酚含量統(tǒng)計(jì)及樣品分配結(jié)果

圖1 高光譜成像系統(tǒng)示意圖

隨機(jī)噪聲通常是在獲取光譜時(shí)由外界環(huán)境、儀器響應(yīng)和其他與被測(cè)樣品性質(zhì)無關(guān)的因素產(chǎn)生的，并且光譜數(shù)據(jù)出現(xiàn)無序波動(dòng)。因此，本文采用了SG、MSC、SNVT、FD、SD和Z分?jǐn)?shù)標(biāo)準(zhǔn)化（ZSS）六種預(yù)處理算法來消除原始光譜數(shù)據(jù)中的噪聲。

本研究使用的SPXY算法是由KS（Kennard-Stone）算法發(fā)展而來。KS算法將所有樣本看作校準(zhǔn)集的候選樣本，并選擇進(jìn)入校準(zhǔn)集的歐幾里得度量最大的兩個(gè)樣本。然后，通過計(jì)算剩余樣本與校準(zhǔn)集中已知樣本之間的歐幾里得度量，選擇最接近選定樣本的兩個(gè)樣本并將其放入校準(zhǔn)集中，重復(fù)上述步驟，直到樣本數(shù)達(dá)到設(shè)定值。在SPXY計(jì)算樣本距離時(shí)，同時(shí)考慮了樣本標(biāo)號(hào)（Y）和樣本特征（X）。

所獲得的高光譜數(shù)據(jù)往往包含大量冗余信息，這將對(duì)最終建模的準(zhǔn)確性和效率產(chǎn)生一定的影響。本研究使用六種方法，梯度提升（GB）、自適應(yīng)提升（AdaBoost）、隨機(jī)森林（RF）、分類提升（CatBoost）、LightGBM和XgBoost來選擇高光譜特征波段。模型中使用了隨機(jī)森林回歸（RFR）、分類提升回歸（CatBoostR）、LightGBM回歸（LightGBMR）、XGBoost回歸（XGBoostR）和模型集成策略用于預(yù)測(cè)茶多酚。

結(jié)論

梯度提升回歸（GBR）用于建模和預(yù)測(cè)原始數(shù)據(jù)和預(yù)處理的光譜數(shù)據(jù)。基于不同預(yù)處理算法和不同樣本劃分算法的建模結(jié)果如圖2所示。如圖2a所示，校準(zhǔn)集的R2均大于0.96。RAW-KS-GBR模型效果*好。FD-KS-GBR模型校準(zhǔn)集R2*大的，為0.9857，但測(cè)試集R2最小，僅為0.6490，表明FD-KS-GBR模型存在嚴(yán)重的過擬合問題。圖2b是基于SPXY劃分?jǐn)?shù)據(jù)集的建模結(jié)果。通過FD和SD預(yù)處理光譜數(shù)據(jù)建立的模型校準(zhǔn)集在0.98以上，但測(cè)試集R2不超過0.88。

圖2 不同輸入下GBR模型的預(yù)測(cè)結(jié)果?；贙S劃分?jǐn)?shù)據(jù)集的建模結(jié)果（a）、基于SPXY劃分?jǐn)?shù)據(jù)集的建模結(jié)果（b）。

KS算法比SPXY算法建立的模型更容易出現(xiàn)過擬合，因此SPXY-GBR模型總體上優(yōu)于KS-GBR模型?；趫D2，比較兩種不同的數(shù)據(jù)集劃分方法和六種不同的預(yù)處理算法建模結(jié)果，效果較好的模型是RAW-KS-GBR、SG-SPXY-GBR和SNVT-SPXY-GBR。SG-SPXY-GBR具有最高的測(cè)試集R2，為0.9365，其校準(zhǔn)集R2也達(dá)到0.9563。這表明，以SG為預(yù)處理算法，SPXY為樣本分割法建立的模型不僅精度高，而且具有更好的魯棒性。綜上所述，最終選擇SG算法對(duì)藏茶原始高光譜數(shù)據(jù)進(jìn)行預(yù)處理。原始光譜曲線RAW和SG預(yù)處理后的光譜曲線如圖3所示。

圖3 藏茶光譜曲線。原始數(shù)據(jù)（a）；通過SG算法預(yù)處理的數(shù)據(jù)（b）；（c）圖為（a）中紅框的放大視圖；（d）圖為（b）中紅框的放大視圖。

SG算法預(yù)處理后的數(shù)據(jù)噪聲有了一定程度的改善，但數(shù)據(jù)中仍有大量與茶多酚含量預(yù)測(cè)無關(guān)的信息。如果不進(jìn)一步提取特征，高維數(shù)據(jù)無疑會(huì)影響模型的準(zhǔn)確性和魯棒性。本研究采用GB、AdaBoost、RF、CatBoost、LightGBM和XGBoost這六種算法選擇前30個(gè)最重要光譜特征（圖4）。RF和CatBoost以522.66 nm波長(zhǎng)為第二重要特征，而XGBoost以564.55 nm波長(zhǎng)為*一重要特征，在GB中僅排名第五，在AdaBoost中排名第四，在RF中排名第七。不同算法提取的特征波長(zhǎng)大多分布在420 ~ 700 nm之間。試驗(yàn)結(jié)果表明，不同算法提取的特征波長(zhǎng)不同，但也有一定的共性。上述六種算法提取的特征將作為后續(xù)回歸預(yù)測(cè)算法的輸入。

表2展示了不同模型的全波段預(yù)測(cè)結(jié)果。CatBoostR模型具有最高的準(zhǔn)確度，在校準(zhǔn)和測(cè)試集上的R2分別為0.9578和0.9493。RFR模型預(yù)測(cè)效果較差，校準(zhǔn)R2僅為0.9040。

本研究以RFR、LightGBM和XGBoostR為三個(gè)基礎(chǔ)學(xué)習(xí)模型，以CatBoostR為元學(xué)習(xí)模型，建立了一個(gè)新的stacking預(yù)測(cè)模型（圖5）。表3展示了不同模型的預(yù)測(cè)結(jié)果。與全波段建模結(jié)果相比，即使特征維數(shù)降低，模型性能也沒有相應(yīng)降低。優(yōu)選特征在一定程度上提高了建模精度，并進(jìn)一步提高了模型魯棒性。CatBoostR模型的預(yù)測(cè)精度普遍可以接受，RMSEC小于0.35，RMSEP小于0.45。CatBoost + CatBoostR模型的RMSEC和RMSEP值最接近。因此，該模型被認(rèn)為是四個(gè)獨(dú)立模型中*好的。本文建立的stacking模型中以CatBoost算法提取的特征作為輸入的模型效果*優(yōu)。圖6a是CatBoost + stacking模型對(duì)藏茶茶多酚含量的預(yù)測(cè)結(jié)果。由于茶多酚含量在7%左右的樣本數(shù)量較少，SPXY沒有在該值附近分配測(cè)試集。因此，在SPXY劃分的數(shù)據(jù)集中，選擇對(duì)應(yīng)于校準(zhǔn)集中茶多酚含量為7.2671%的樣品作為測(cè)試樣本之一，選擇對(duì)應(yīng)于測(cè)試集中茶多酚含量為8.7892%的樣品作為校準(zhǔn)樣本之一。如果替換的數(shù)據(jù)被輸入到CatBoost + stacking模型中，校準(zhǔn)集R2為0.9686，RMSEC為0.2833，測(cè)試集R2為0.9577，RMSEP為0.3703。

綜上結(jié)果表明，新建立的stacking預(yù)測(cè)模型比個(gè)體回歸模型性能更優(yōu)，可實(shí)現(xiàn)藏茶茶多酚含量的準(zhǔn)確預(yù)測(cè)。

圖4 由不同算法選擇的特征波段。GB（a）；AdaBoost（b）；RF（c）；CatBoost（d）；LightGBM（e）和XGBoost（f）。

表2 基于全波段的預(yù)測(cè)結(jié)果

圖5 用于茶多酚預(yù)測(cè)的stacking回歸模型流程

圖6 基于CatBoost + stacking模型的茶多酚預(yù)測(cè)結(jié)果。更換樣本前的預(yù)測(cè)結(jié)果（a）和更換樣本后的預(yù)測(cè)結(jié)果（b）。

作者信息

康志亮，博士，四川農(nóng)業(yè)大學(xué)機(jī)電學(xué)院教授，博士生導(dǎo)師。

主要研究方向：信號(hào)與信息處理、傳感器與檢測(cè)技術(shù)、自動(dòng)控制。

參考文獻(xiàn)：

Luo, X., Xu, L.j., Huang, P., Wang, Y.c., Liu, J., Hu, Y., Wang, P., & Kang, Z.l. (2021). Nondestructive Testing Model of Tea Polyphenols Based on Hyperspectral Technology Combined with Chemometric Methods. Agriculture, 11:673-687.

https://doi.org/10.3390/agriculture11070673

上一條基于高光譜影像的植被指數(shù)：一種新的城市生態(tài)研究植被指數(shù)

下一條基于微高光譜和微流控技術(shù)的水稻真菌孢子檢測(cè)

快速導(dǎo)航

新聞

服務(wù)網(wǎng)絡(luò)

江蘇雙利合譜科技有限公司

地址：無錫市梁溪區(qū)南湖大道飛宏路58-1-108

電話：13810664973

郵箱：info@dualix.com.cn
北京辦事處

地址：北京市海淀區(qū)中關(guān)村大街19號(hào)

電話：13810664973

郵箱：info@dualix.com.cn
西安辦事處

地址：陜西省西安市高新區(qū)科技一路40號(hào)盛方科技園B座三層?xùn)|區(qū)

電話：13810664973

郵箱：info@dualix.com.cn
成都

地址：成都市青羊區(qū)順城大街206號(hào)四川國(guó)際大廈七樓G座

電話：13810664973

郵箱：info@dualix.com.cn
深圳辦事處

地址：深圳市龍華區(qū)民治梅龍路

電話：13810664973

郵箱：info@dualix.com.cn

高光譜成像儀/高光譜相機(jī)/高光譜解決方案-江蘇雙利合譜科技有限公司無錫市梁溪區(qū)南湖大道飛宏路58-1-108 13810664973 ICP備案號(hào)：蘇ICP備2021046114號(hào)-1

基于高光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)方法的茶多酚無損檢測(cè)模型

快速導(dǎo)航

新聞

服務(wù)網(wǎng)絡(luò)

江蘇雙利合譜科技有限公司

北京辦事處

西安辦事處

成都

深圳辦事處