Американские учёные улучшили восстановление длинных пробелов в данных по турбулентному потоку CO₂ с помощью XGBoost

Дайджест исследований

Пульсационные измерения часто сопровождаются отсутствием значений или пробелами в записях данных. Методы заполнения коротких пробелов хорошо известны, но надежное заполнение пробелов длительностью более нескольких недель остается сложной задачей. Выборка с маргинальным распределением (MDS) - стандартный метод заполнения пробелов, но его эффективность для длинных пробелов (> 30 дней) ограничена. Мы сравнили эффективность алгоритма машинного обучения eXtreme Gradient Boosting (XGB) с MDS, используя различные искусственные сценарии длины и расположения пробелов. Мы заполнили пробелами получасовые потоки CO2 из лиственного леса умеренного пояса, экспериментального леса Бартлетт, с 2010 по 2022 год. В то время как стандартная реализация MDS использует узкий набор предикторных переменных, в XGB мы смогли включить дополнительные переменные. Зеленая хроматическая координата (GCC), полученная из снимков PhenoCam, и диффузная плотность фотосинтетического фотонного потока оказались двумя из трех наиболее важных переменных-предикторов. По сравнению с MDS среднеквадратичная ошибка (RMSE) XGB уменьшилась на 9,5 %, а R2 увеличился на 2,7 % в ходе рандомизированного 10-кратного теста с перекрестной валидацией. XGB превзошел MDS как для дневного, так и для ночного времени в разные сезоны. Однако годовые интегральная интенсивность чистого экосистемного обмена для разных методов различались, при этом годовое чистое поглощение углерода было слабее -110 ± 74 гС м-2 год-1 для XGB по сравнению с MDS (214 ± 11 гС м-2 год-1). В экспериментах с искусственными разрывами при обучении на 13-летних данных XGB надежно заполнял разрывы, демонстрируя незначительное изменение RMSE для разрывов до 240 дней. В отличие от этого, производительность MDS неуклонно снижалась по мере увеличения длины пробелов. MDS не смогла заполнить пробелы длительностью более 2 месяцев. Таким образом, XGB демонстрирует отличную производительность в качестве альтернативного метода MDS, обеспечивая надежные прогнозы потоков углерода в лиственных лесах умеренной зоны при различных длинах разрывов и сценариях местоположения. Внедрение XGB облегчается благодаря простым в использовании пакетам.

Исследование опубликовано в журнале Agricultural and Forest Meteorology.

https://www.sciencedirect.com/science/article/abs/pii/S0168192325000589?via%3Dihub