背景
高光譜遙感可獲得窄波段的連續(xù)光譜信息,可提供大量關(guān)于作物理化參數(shù)的豐富信息。但是使用全波段作為輸入變量會帶來較大的噪聲和冗余信息,同時必然會增加數(shù)據(jù)處理負(fù)荷、儀器成本和應(yīng)用的復(fù)雜性。因此現(xiàn)有研究中通常選擇一小組傳達(dá)數(shù)據(jù)主要信息的敏感特征來反演作物目標(biāo)參數(shù)。
目前,協(xié)同區(qū)間偏最小二乘(SIPLS)或連續(xù)投影算法(SPA)已被成功應(yīng)用于*優(yōu)特征的選擇。SIPLS可以保證所選波長的連續(xù)性,使模型性能穩(wěn)定。然而,研究中發(fā)現(xiàn)SIPLS選擇的區(qū)間位置和長度都是固定的,這表明優(yōu)選特征中存在無用信息和共線性。而SPA是建立在凸幾何端元搜索算法上的。因此,該方法可以降低對離群像素的敏感性,并生成真實(shí)的端元。同時,SPA的目標(biāo)是在所有數(shù)據(jù)中選擇共線性最小的變量,這比其他算法提供的結(jié)果更具可重復(fù)性,但其所選擇的變量也可能存在信噪比低或共線性較小的現(xiàn)象。
為了克服這些缺點(diǎn)并促進(jìn)高光譜數(shù)據(jù)的特征選擇,本研究提出了一種新的混合的特征選擇方法,命名為SIPLS-SPA,并將選取的*優(yōu)光譜特征用于建立更準(zhǔn)確、穩(wěn)定的小麥葉片生物量監(jiān)測模型。
試驗(yàn)設(shè)計
南京農(nóng)業(yè)大學(xué)姚霞教授團(tuán)隊(duì)利用江蘇雙利合譜公司的可見/近紅外高光譜成像系統(tǒng)Gaiafield-V10E,獲取了小麥不同生育期的冠層高光譜影像,并對影像進(jìn)行預(yù)處理從而獲得平均光譜(圖1)。
圖1 小麥冠層高光譜影像預(yù)處理流程
利用SIPLS-SPA進(jìn)行特征優(yōu)選的主要步驟:(1)全波段(400-1000 nm)被分成P個區(qū)間(25-50);(2)結(jié)合Q(Q = 2,3,4)與相應(yīng)葉片生物量建立PLSR模型;(3)重復(fù)步驟(1)和(2),選擇使PLSR模型的RMSE最小時的P和Q的值;(4)根據(jù)確定的P和Q,得到敏感特征的光譜矩陣,設(shè)為X(N*J,N為樣本數(shù),J為光譜變量數(shù));(5)隨機(jī)選取一列為Xj,其余定義為S;(6)分別計算Xj對S的投影。S的*大投影表示最小相關(guān)性,其對應(yīng)的列定義為Xi;(7)設(shè)置Xi而不是Xj,并重復(fù)步驟(5)和(6),直到所選變量的數(shù)量達(dá)到預(yù)設(shè)值M。M的值是通過多次數(shù)據(jù)計算確定的。在本研究中,M = 20;(8)將選擇的變量與相應(yīng)生物量擬合多元線性回歸(MLR)模型。最后,選擇使MLR的RMSE最小的變量。
結(jié)論
通過步驟(1)-(4),成功獲得了每個PLSR模型的RMSEcv。結(jié)果表明,在P = 37和Q = 4條件下獲得了RMSEcv最低的*佳PLSR模型(圖2)。這意味著當(dāng)整個光譜區(qū)域平均劃分為37個區(qū)間時,用4個區(qū)間(22、24、30和37)構(gòu)建的PLSR模型表現(xiàn)*好。運(yùn)行步驟(5)-(8),確定*佳高光譜變量為706、724、734、806、808、810、812和816 nm。
圖2 不同P和Q值下SIPLS模型的RMSEcv
利用SIPLS-SPA選擇的輸入變量,建立了小麥葉片生物量在五個生長階段的校準(zhǔn)模型(圖3)。
圖3 SIPLS-SPA在校準(zhǔn)(A)和驗(yàn)證(B)中估算的小麥葉片生物量的實(shí)測值與預(yù)測值之間的1:1擬合關(guān)系
通過對比SIPLS、SPA和SIPLS-SPA選擇的敏感特征(表1)。結(jié)果表明,SIPLS對小麥葉片生物量的敏感特征分別為694-706、722-734、806-816和890-900 nm,而SPA的敏感特征分別為726、744、758、816和830 nm。簡而言之,SIPLS選擇的敏感特征比SPA和SIPLS-SPA多。以SPA、SIPLS和SPA-SIPLS選擇的敏感特征為輸入變量,構(gòu)建小麥葉片生物量PLSR模型。結(jié)果表明,SIPLS模型和全波段模型的Rc2*大(0.84),其次是SPA模型和SIPLS-SPA模型。而采用SIPLS-SPA模型得到的Rv2*大(Rv2 = 0.67),采用SIPLS模型得到的Rv2最小。利用SIPLS-SPA選擇的敏感特征建立的模型RMSEv最小(0.059 kg/m2),RRMSEv最?。?8.55%)。
使用三個指標(biāo)對PLSR模型的實(shí)用性進(jìn)行評價(表2)。結(jié)果表明,SPA模型運(yùn)行時間最短,其次是SIPLS-SPA模型,而全波段模型運(yùn)行時間最長。SPA模型和SIPLS-SPA模型的矩陣復(fù)雜度和計算復(fù)雜度相似且較低,但全波段模型的矩陣復(fù)雜度和計算復(fù)雜度最高。
表1 SIPLS、SPA和SIPLS-SPA選擇的敏感特征
表2 利用SIPLS、SPA和SIPLS-SPA方法提取敏感變量建立PLSR模型的實(shí)用性
作者信息
姚霞,博士,南京農(nóng)業(yè)大學(xué)國家信息農(nóng)業(yè)工程技術(shù)中心教授,博士生導(dǎo)師。
主要研究方向:基于高光譜/日光誘導(dǎo)葉綠素?zé)晒?激光雷達(dá)的星-機(jī)-地作物生長監(jiān)測;作物表型高通量獲取等。
參考文獻(xiàn):
Jia, M., Li, W., Wang, K., Zhou, C., Cheng, T., Tian, Y., Zhu, Y., Cao, W., & Yao, X. (2019). A newly developed method to extract the optimal hyperspectral feature for monitoring leaf biomass in wheat. Computers and Electronics in Agriculture, 165. https://www.sciencedirect.com/science/article/pii/S0168169918313528
地址:無錫市梁溪區(qū)南湖大道飛宏路58-1-108
電話:13810664973
郵箱:info@dualix.com.cn
地址:北京市海淀區(qū)中關(guān)村大街19號
電話:13810664973
郵箱:info@dualix.com.cn
地址:陜西省西安市高新區(qū)科技一路40號盛方科技園B座三層?xùn)|區(qū)
電話:13810664973
郵箱:info@dualix.com.cn
地址:成都市青羊區(qū)順城大街206號四川國際大廈七樓G座
電話:13810664973
郵箱:info@dualix.com.cn