—— 摘要 ——
研究人員對檢測馬鈴薯晚疫病(Phytophthora infestans)的高光譜成像越來越感興趣。由于在野外條件下,尤其是在疾病早期,很難獲得疾病發(fā)展的準(zhǔn)確光譜特征,以前的工作主要集中在受控條件下的實驗室測量。然而,試驗結(jié)果從實驗室外推到田間環(huán)境被證明是困難的。本試驗評估了實驗室高光譜數(shù)據(jù)在馬鈴薯晚疫病田間檢測模型中的應(yīng)用。試驗是從六個分離的葉盤構(gòu)建了一個高光譜訓(xùn)練庫,其中包含8585個光譜,標(biāo)記為健康類別和疾病發(fā)展的五個進(jìn)展階段。經(jīng)過平滑和歸一化處理后,70.0%的數(shù)據(jù)接受了邏輯回歸模型的訓(xùn)練,30.0%的數(shù)據(jù)留作驗證。然后,在高和低染病壓力下,對田間條件下兩個馬鈴薯品種(對晚疫病敏感和抗性)拍攝的12幅高光譜圖像進(jìn)行分類。實驗室數(shù)據(jù)的分類準(zhǔn)確率為94.1%,這不足以使用實驗室收集的數(shù)據(jù)集檢測田間癥狀。當(dāng)通過包含一階導(dǎo)數(shù)和采用新的歸一化策略改變光譜預(yù)處理時,新模型導(dǎo)致80.8%的較低分類準(zhǔn)確率,在標(biāo)記的實驗室光譜上得到驗證,但能夠在田間條件下檢測癥狀。視覺疾病評分與田間疾病模型分類結(jié)果之間的相關(guān)性得出R2值為0.985。可以得出的結(jié)論是,訓(xùn)練一個實驗室數(shù)據(jù)模型用于田間疾病檢測是可行的。
—— 引言 ——
作物病害仍然是馬鈴薯生產(chǎn)中的主要產(chǎn)量限制因素。致病疫霉菌(Phytophthora infestans (Mont.) de Bary)引起馬鈴薯晚疫病,是最臭名昭著的病原體之一。為了減少與該疾病相關(guān)的巨大社會經(jīng)濟(jì)消耗和環(huán)境成本,科學(xué)家們正在尋求精確施用農(nóng)藥,這需要關(guān)于整個田間作物病害狀況的高質(zhì)量、高分辨率數(shù)據(jù)支撐。
本研究的目的是評估基于實驗室數(shù)據(jù)訓(xùn)練的機器學(xué)習(xí)模型在田間疾病檢測中的適用性。實現(xiàn)這一目的的目標(biāo)是:(a)基于實驗室測量構(gòu)建標(biāo)記的高光譜訓(xùn)練庫,(b)基于該數(shù)據(jù)集訓(xùn)練機器學(xué)習(xí)疾病檢測模型;(c)在野外條件下拍攝的全新、未標(biāo)記的高光譜圖像上驗證該模型;(d)實施替代特征選擇和預(yù)處理,以提高模型在野外疾病檢測中的性能。
—— 材料和方法 ——
實驗室測量
圖1顯示了實驗室條件下高光譜測量的實驗裝置。一臺推掃式高光譜相機,能夠在400-1000 nm光譜范圍內(nèi)測量224個波段的反射率(FX10e相機,芬蘭,奧盧),相機放置在一個帶有透明蓋子的保護(hù)性塑料盒內(nèi)。傳感器的位置應(yīng)與移動方向垂直,從天頂?shù)慕嵌戎苯酉蛳聹y量。傳感器盒兩側(cè)安裝了兩個500 W鹵鎢燈,為高光譜相機提供額外照明。
從Bintje品種的不同馬鈴薯植株上收獲六片分離的葉片,使用釘書釘(不刺穿植物組織)將其連接到泡沫塑料托盤上。其中三片葉子接種了一種致病疫霉菌孢子溶液(isolate EU36),另外三片作為對照。這些托盤在100.0%濕度和19°C溫度下培養(yǎng)3天,然后將每個托盤放在傳送帶上對葉片進(jìn)行高光譜掃描。
病原體在3天后達(dá)到活體營養(yǎng)階段,可見病變剛剛開始形成,但沒有壞死營養(yǎng)或孢子形成。在理想條件下,這個階段距離新孢子形成大概有1-4天。此時,葉片相對較大面積沒有受到影響。在每次測量之前,獲取白色參考掃描(100.0%反射率瓷磚)和暗參考值(通過關(guān)閉相機快門實現(xiàn))。白色參考用于補償照明條件的變化,而暗參考用于補償傳感器的背景信號。
圖1 實驗室條件下用于離體葉片實驗的高光譜傳感器實驗裝置
田間測量
田間數(shù)據(jù)在位于比利時Kruishoutem的跨省馬鈴薯栽培研究中心(PCA)/國際馬鈴薯栽培研究中心進(jìn)行收集,遵循Appeltans等人(Appeltans et al., 2020)描述的方法。使用一個長為3m的可移動鋁制測量架從研究中心的致病疫霉菌品種試驗中進(jìn)行了 12 次掃描。測量架位于作物上方,測量高度為作物冠層上方300mm。掃描是通過使用電動機和傳動帶將移動到作物冠層上進(jìn)行的,使用與實驗室測量相同的方法進(jìn)行白色和暗參考測量。這些掃描對應(yīng)于兩個馬鈴薯品種:Agria,抗晚疫病品種;Fontane,易感晚疫病品種。
對于每個品種,在晚熟生長階段選擇感染程度高和低的地塊,然后于2020年7月30日在每個地塊的三個位置進(jìn)行掃描,四個地塊總共進(jìn)行12次掃描(表1)。表1顯示了四個測量地塊中每個地塊的葉面積感染百分比。注意,Agria-A的葉面積感染率在2020年7月20日時為2.5%,而Agria-B為32.5%,但在7月30日測量時它們是相同的。值得注意的是,測量是在盛夏進(jìn)行的,平均最高氣溫為30°C,幾乎沒有降水,這會使受感染的葉片迅速干燥,并限制感染的傳播。
表1 2020年測量的田間小區(qū)中感染葉面積的百分比
四個地塊各進(jìn)行三次掃描,其中兩個是Agria品種(Agria-A和Agria-B),兩個是Fontane品種(Fontane-A和Fontane-B)。附錄'-A'和'-B'分別對應(yīng)于較低的感染和較高的感染
高光譜庫
訓(xùn)練數(shù)據(jù)集是通過選擇一個感興趣的區(qū)域獲得的,該區(qū)域覆蓋一片葉子的7張小葉,包含健康和染病組織。高光譜訓(xùn)練數(shù)據(jù)集的光譜屬于健康和染病組織,根據(jù)近紅外區(qū)域的反射率情況在疾病進(jìn)展過程中自動標(biāo)記,“健康”對應(yīng)于高光譜庫中的668 nm波段的反射率介于0和0.17之間;疾病分五個階段,第一階段0.17-0.19,第二階段0.19-.21,第三階段0.21-0.23,第四階段0.23-0.25,第五階段高于0.25。這個過程產(chǎn)生了8585個光譜的訓(xùn)練庫。對應(yīng)于健康和疾病五個階段的每個訓(xùn)練集占整個訓(xùn)練集的百分比分別為86.2%、4.7%、3.3%、2.00%、2.1%和1.7%。
建模
圖2顯示了用于實現(xiàn)實驗室疾病檢測模型和田間疾病檢測模型的建模過程。實驗室疾病檢測模型是一種經(jīng)過微調(diào)的模型,用于在實驗室條件下拍攝的高光譜圖像上檢測疾病。對田間疾病檢測模型進(jìn)行了微調(diào),以便在田間條件下拍攝的高光譜圖像上檢測癥狀。兩個模型都在實驗室條件下采集的同一數(shù)據(jù)集上進(jìn)行訓(xùn)練。第一個預(yù)處理步驟是使用白色參考值和暗參考值校正實驗室原始光譜數(shù)據(jù)。然后,去除411nm以下和990nm以上的譜帶,因為它們含有太多的噪聲。503 nm及以下波段附近的噪聲和反射輕微升高是由于接種用藍(lán)色聚苯乙烯泡沫塑料托盤產(chǎn)生的高“藍(lán)色”反射。使用scikit-learn軟件包中的Savitzky-Golay平滑函數(shù)對數(shù)據(jù)進(jìn)行平滑,然后通過將光譜除以850和900 nm之間的平均反射率進(jìn)行歸一化。
圖2 疾病檢測建模圖,顯示最終工作流程以及實現(xiàn)此最終工作流程所需的步驟
使用scikit-learn Python軟件包的train_test_split算法將該數(shù)據(jù)集分開,70.0%(6006個光譜)用于訓(xùn)練,30.0%(2579個光譜)用于模型驗證。這70.0%用于使用scikit-learn Python軟件包的LogisticRegressionCV函數(shù)來訓(xùn)練邏輯回歸模型,從而產(chǎn)生一個有監(jiān)督的機器學(xué)習(xí)分類器,該分類器能夠?qū)⒚總€圖像像素分為六個類別之一:健康、階段1、階段2、階段3、階段4和階段5。LogisticRegressionCV函數(shù)有12個可能的C參數(shù)值作為輸入(0.1,0.5,1,1.5,2,4,10,15,20,30,50,100),算法從中自動選擇最佳C值。在這種情況下,算法保留了10的C值。這個經(jīng)過訓(xùn)練的模型被稱為實驗室疾病檢測模型。
使用實驗室模型對實驗室數(shù)據(jù)進(jìn)行分類后,進(jìn)行模型調(diào)整使模型更適合田間數(shù)據(jù)的分類。從現(xiàn)在起,這種新的、經(jīng)過調(diào)整的模型被稱為“田間疾病檢測模型”。為了開發(fā)這種田間疾病檢測模型,通過將光譜除以850-900 nm的平均反射率進(jìn)行歸一化,并進(jìn)行Savitzky-Golay平滑,計算一階導(dǎo)數(shù)以消除陰影效應(yīng)。測試了一系列波段組合、植被指數(shù)、特征選擇和光譜預(yù)處理步驟(包括1-3階導(dǎo)數(shù))。一階導(dǎo)數(shù)被證明是消除陰影影響的唯一可行的預(yù)處理策略。因此,最終模型在第一次推導(dǎo)后使用了整個光譜范圍。
—— 結(jié)果 ——
這項工作的主要結(jié)果是發(fā)現(xiàn),基于實驗室尺度的訓(xùn)練數(shù)據(jù)集,可以訓(xùn)練一種機器學(xué)習(xí)算法來檢測田間下的晚疫病癥狀。然而,建模過程并不簡單,需要進(jìn)行修改,使最終模型僅在田間條件下可用(但不再在實驗室條件下可用)。
圖3顯示了馬鈴薯晚疫病菌感染期間(歸一化和平滑后)高光譜輪廓的發(fā)展。圖3A顯示了健康馬鈴薯組織的光譜輪廓。在680 nm處,葉綠素吸收導(dǎo)致反射率的典型下降是顯而易見的。紅邊區(qū)域(700到780 nm之間)的形狀非常清晰,在從可見光區(qū)域到近紅外區(qū)域的過渡過程中,反射率急劇上升。在可見光區(qū)域,綠色波段(近550nm)的高反射率清晰可見。圖3B顯示了馬鈴薯晚疫病病變的光譜輪廓。紅邊區(qū)域的形狀更不明確,呈現(xiàn)出更為平緩的傾斜。與正常光譜相比,綠色區(qū)域的反射率降低。圖3C顯示了馬鈴薯晚疫病病變的橫截面相對應(yīng)的光譜。在這里,可以看到光譜特征從健康組織到疾病組織的轉(zhuǎn)變。比較圖3A-C中不同感染階段的光譜,可見光區(qū)域的反射率在綠色區(qū)域降低,在紅色和藍(lán)色區(qū)域增加,在近紅外區(qū)域增加,這表明隨著晚疫病病變的發(fā)展,875 nm之前的反射率值降低,875 nm之后的反射率增加。
圖4更為明顯和詳細(xì)地描述了這一發(fā)展,圖4描繪了本研究中開發(fā)的馬鈴薯晚疫病預(yù)測模型的每個類別訓(xùn)練集的光譜。通過計算混淆矩陣來評估建模精度和分類錯誤。實驗室模型實現(xiàn)了94.1%的建模精度,在更改模型特征以用于田間疾病檢測后,該精度降至80.8%。
圖5顯示了在高光譜庫上訓(xùn)練的實驗室邏輯回歸疾病檢測模型的混淆矩陣。由于訓(xùn)練數(shù)據(jù)是從單個感興趣的區(qū)域中選擇的,然后自動標(biāo)記,因此相對較多的訓(xùn)練樣本對應(yīng)于“健康”類。在評估整體模型準(zhǔn)確性時,這一點很重要,因為可能存在對健康標(biāo)簽分類的偏見。然而,從混淆矩陣來看,很明顯,無論類別如何,幾乎沒有錯誤分類。
圖3 疾病進(jìn)展過程中高光譜特征的發(fā)展。A健康馬鈴薯組織的高光譜特征,B馬鈴薯晚疫病病變的高光譜特征,C馬鈴薯晚疫病病變橫截面像素對應(yīng)的高光譜曲線
圖4 高光譜訓(xùn)練庫中每個疾病進(jìn)展等級的馬鈴薯葉片光譜圖,平均光譜以粗體顯示。
圖5 根據(jù)全譜實驗室數(shù)據(jù)訓(xùn)練的邏輯回歸疾病檢測模型對應(yīng)的混淆矩陣。階段1至5代表基于668 nm波段的侵染性支原體疾病進(jìn)展階段
表2 從混淆矩陣得出的感染性支原體實驗室疾病檢測模型的診斷(以比率給出)
TPR真陽性率、TNR真陰性率、PPV精密度/陽性預(yù)測值、NPV陰性預(yù)測值、FPR假陽性率、FNR假陰性率、FDR假發(fā)現(xiàn)率、ACC準(zhǔn)確度
實驗室模型的整體模型精度為94.1%。表2顯示了從混淆矩陣(圖5)得出的每類實驗室疾病檢測模型的診斷結(jié)果。每個類別的檢測準(zhǔn)確率為95.0%或更高。第2階段和第3階段的假陰性率(FNR)最高,分別為15.0%和12.0%,表明這一數(shù)量的群體被錯誤分類。注意,錯誤分類是模型錯誤標(biāo)記特定光譜的結(jié)果。
為了進(jìn)一步評估分類性能,通過對用于高光譜庫建設(shè)的高光譜圖像的每個像素進(jìn)行分類來生成分類圖像。研究并檢查了該圖是否存在異常,還研究了疾病在整個葉片中的傳播。圖6顯示了實驗室模型對藍(lán)色泡沫塑料托盤的高光譜圖像進(jìn)行的分類,托盤中含有接種了馬鈴薯晚疫病菌的馬鈴薯植株的分離葉片。圖6A顯示了完全分類的圖像,而圖6B顯示了單個感染性瘧原蟲病變的特寫。圖6C顯示了分離葉片托盤的正常RGB圖像,僅疊加了階段1和階段2像素。圖6D顯示了病變的特寫RGB圖像,再次與1期和2期疾病像素疊加,以可視化高光譜相機檢測到的病變(1至5期)覆蓋的區(qū)域大于RGB圖像中肉眼可見的深棕色斑點。
為了評估在實驗室條件下訓(xùn)練的疾病檢測模型在野外條件下的性能,為野外條件下測量的所有高光譜圖像構(gòu)建了分類圖像,通過檢查田間高光譜圖像上可見的晚疫病癥狀分類來評估模型性能。圖7顯示了在野外條件下測量的12幅高光譜圖像的代表性圖像的logistic回歸實驗室疾病檢測模型分類(表1)。圖7A顯示了從高光譜數(shù)據(jù)立方體中獲取的RGB圖像。請注意,RGB圖像中的白色區(qū)域代表土壤像素,由于這些區(qū)域的低反射率和大量噪聲,這些像素看起來很亮。在歸一化步驟中,該低反射率被轉(zhuǎn)換為高反射率(未顯示數(shù)據(jù))。盡管視覺疾病評估(表1)證實了癥狀的存在,但實驗室模型并未成功識別疾病。
圖6 實驗室條件下,在感染馬鈴薯晚疫病菌3天后測量的托盤分離馬鈴薯葉片的高光譜圖像分類。A分類圖像,B感染支原體病變特寫,C階段1和階段2疊加在超立方體的正常RGB圖像上,顯示可見的深棕色病變,周圍有疾病檢測模型分類的紅色和黃色區(qū)域
圖7 使用實驗室檢測模型對田間采集的12次掃描的代表性高光譜圖像進(jìn)行分類。A為RGB圖像,B分類圖像
在調(diào)整建模和預(yù)處理策略以開發(fā)田間疾病檢測模型后,再次生成田間掃描的分類圖像,以重新評估模型性能。圖8顯示了在野外條件下進(jìn)行的12次掃描的代表性高光譜圖像(表1),按照改進(jìn)的田間疾病檢測模型進(jìn)行分類。田間疾病檢測模型的分類精度降低(從94.1%降至80.8%),但提高了田間測量的分類性能。圖8A顯示了從超立方體導(dǎo)出的RGB圖像。圖8B顯示了分類結(jié)果。很難區(qū)分第一階段、第三階段和第五階段之間的疾病,但第四階段的分類似乎準(zhǔn)確地涵蓋了田間視覺上存在的癥狀。
結(jié)果表明,盡管調(diào)整后的疾病檢測模型在田間條件下表現(xiàn)合理(圖8),但它無法對原始實驗室數(shù)據(jù)集進(jìn)行分類(圖9)。圖9顯示了通過田間疾病檢測模型對離體葉片數(shù)據(jù)集(在實驗室獲得)的分類。
為了表明該模型在田間條件下繪制疾病圖譜的有效性,由訓(xùn)練有素的技術(shù)人員將分類圖像與傳統(tǒng)的視覺評分進(jìn)行比較。圖10將田間疾病檢測模型的分類與田間技術(shù)人員確定的疾病評分進(jìn)行了比較。技術(shù)人員的結(jié)果與方程式1的模型結(jié)果之間存在線性回歸,R2值為0.985。
y = 0.7894x ? 1.8175 (方程式1)
y為模型結(jié)果,x為技術(shù)人員的結(jié)果。這表明技術(shù)人員獲得的結(jié)果高估了作物的病害嚴(yán)重程度,或者模型低估了病害嚴(yán)重程度。注意,由于僅包括4個圖(對應(yīng)于12個高光譜圖像),且只有3個不同的疾病嚴(yán)重程度,該R2值僅指示模型輸出和視覺評分結(jié)果之間的相關(guān)性,還需要進(jìn)一步確認(rèn)。
圖8 使用田間采集的12次掃描的代表性高光譜圖像的經(jīng)調(diào)整的田間邏輯回歸檢測模型對高光譜圖像進(jìn)行分類。A超立方體獲得的RGB圖像,B分類圖像
圖9 使用改進(jìn)的田間邏輯回歸疾病檢測模型對實驗室數(shù)據(jù)進(jìn)行分類。A分離的土豆葉的托盤,B病損特寫
圖10 技術(shù)人員和田間疾病檢測模型測量的四個地塊的平均疾病嚴(yán)重程度的比較。
—— 結(jié)論 ——
當(dāng)前工作的結(jié)果強調(diào)了利用實驗室數(shù)據(jù)訓(xùn)練馬鈴薯晚疫病菌田間疾病檢測模型的困難性。期間開發(fā)了兩個模型,一個模型能夠?qū)嶒炇覕?shù)據(jù)進(jìn)行分類,準(zhǔn)確率為94.1%,但無法對田間條件下拍攝的圖像進(jìn)行分類,另一個模型經(jīng)過調(diào)整,在田間條件下表現(xiàn)更好,但準(zhǔn)確率降低了80.8%,并高估了實驗室掃描的癥狀。經(jīng)過實驗室訓(xùn)練的模型在實驗室數(shù)據(jù)方面表現(xiàn)良好,能夠在實驗室檢測到早期的、可見的癥狀。然而,該模型無法對田間數(shù)據(jù)進(jìn)行分類。經(jīng)過調(diào)整的田間檢測模型(也根據(jù)實驗室數(shù)據(jù)進(jìn)行了訓(xùn)練)能夠在田間條件下對感染后期進(jìn)行分類,但在實驗室數(shù)據(jù)上表現(xiàn)不佳,突出了兩種數(shù)據(jù)類型之間的差異??梢缘贸鼋Y(jié)論,根據(jù)實驗室數(shù)據(jù)開發(fā)一個在一定程度上適用于田間條件的模型是困難的,但并非不可能。作者建議考慮創(chuàng)建一個高光譜訓(xùn)練庫,將田間數(shù)據(jù)或至少溫室和實驗室數(shù)據(jù)融合在一起。這種混合模型結(jié)合了實驗室條件下收集早期疾病發(fā)展信息的優(yōu)勢,以及獲得田間數(shù)據(jù)的噪聲和干擾因素信息的優(yōu)勢。
原文信息:
Appeltans, S., Pieters, J.G. & Mouazen, A.M. Potential of laboratory hyperspectral data for in-field detection of Phytophthora infestans on potato. Precision Agriculture, 2021: 1-18.
擴展閱讀: