Aquisição e processamento dos dados de XCO2 (JPL Virtual Science Data Environment)


Panosso, A. R.; Costa, L. M.; Lima, L. R. ; Crispim, V. S.

Financiamento: CNPq (311981/2020-8); CNPq (301606/2017-0); Fapesp (2016/03861-5)

Resumo do Trabalho

Aquisição dos dados de CO2 atmosférico (xCO2)

A aquisição de dados de Xco2 e SIF, e seus processamentos iniciais pode ser encontrados no link:

Para facilitar o acesso, os dodos foram adquiridos por meio do pacote {fco2}.

## Instalando pacotes (se necessário)
# install.packages("devtools")
# Sys.getenv("GITHUB_PAT")
# Sys.unsetenv("GITHUB_PAT")
# Sys.getenv("GITHUB_PAT")
# devtools::install_github("arpanosso/fco2r")

# Definindo o plano de multisession

Carregando os dados meteorológicos

dados_estacao <- read_excel("data-raw/xlsx/estacao_meteorologia_ilha_solteira.xlsx", na = "NA") 
Conhecendo a base de dados de CO2 atmosférico

Inicialmente devemos transformar os dados de concentração de CO2, variável xco2_moles_mole_1 para ppm em seguida devemos criar as variáveis de data a partir da variável time_yyyymmddhhmmss.

oco2<-oco2_br  %>% 
           xco2 = xco2_moles_mole_1*1e06,
           data = ymd_hms(time_yyyymmddhhmmss),
           ano = year(data),
           mes = month(data),
           dia = day(data),
           dia_semana = wday(data))

Existe uma tendência de aumento monotônica mundial da concentração de CO2 na atmosfera, assim, ela deve ser retirada para podermos observar as tendências regionais.

oco2  %>%  
  ggplot(aes(x=data,y=xco2)) +
  geom_point(color="blue") +

Agora devemos retirar a tendência ao longo do tempo, para isso, dentro do período específico, faremos a retirada por meio de um ajuste linear:

oco2  %>%  
  mutate(x= 1:nrow(oco2))  %>%  
  ggplot(aes(x=data,y=xco2)) +
  geom_point(shape=21,color="black",fill="gray") +
  geom_smooth(method = "lm") +
  label =  paste(..eq.label.., ..rr.label.., sep = "*plain(\",\")~~")))

Extrair os coeficientes $\alpha$ e $\beta$ da análise de regressão linear $(y=\alpha+\beta x)$.

modelo_linear_tendencia <- lm(xco2~data,
          data = oco2)
coefs <- modelo_linear_tendencia$coefficients

Criando a variável xco2_est a partir da retirada da tendência.

oco2 |> 
    xco2_est = coefs[1] + coefs[2] * as.numeric(data),
    delta = xco2_est - xco2,
    XCO2 = (coefs[1]-delta) - (mean(xco2) - coefs[1])
oco2  %>%  
  ggplot(aes(x=data,y=XCO2)) +
  geom_point(shape=21,color="black",fill="gray") +
  geom_smooth(method = "lm") +
  label =  paste(..eq.label.., ..rr.label.., sep = "*plain(\",\")~~")))

Alguns gráficos

# oco2 %>% 
#   sample_n(1000) %>% 
#   ggplot(aes(x = longitude, y = latitude)) + 
#   geom_point(color = "blue")

Carregando o contorno do território

# br <- geobr::read_country(showProgress = FALSE)

Construindo o mapa com os pontos

# br %>% 
#   ggplot() +
#   geom_sf(fill = "white") +
#     geom_point(data=oco2 %>% 
#                  sample_n(1000),
#              aes(x=longitude,y=latitude),
#              shape=3,
#              col="red",
#              alpha=0.2)

Observe que utilizamos dplyr::sample_n() para retirar apenas $1000$ amostras do total do banco de dados $37387$.

Estatísticas descritivas

# skim(oco2_br)

Conhecendo a base de dados de emissão de CO2 do solo

# help(data_fco2)
Visualização de dados

data_fco2 %>% 
  group_by(experimento, cultura, data) %>% 
  summarise(FCO2 = mean(FCO2, na.rm=TRUE)) %>% 
  ggplot(aes(y=FCO2, x=data)) +
  geom_line() +
   facet_wrap(~experimento + cultura, scale="free")

Construindo o mapa com os pontos

# br %>% 
#   ggplot() +
#   geom_sf(fill = "white") +
#     geom_point(data=oco2 %>% sample_n(1000),
#              aes(x=longitude,y=latitude),
#              shape=3,
#              col="red",
#              alpha=0.2)

Observe que utilizamos dplyr::sample_n() para retirar apenas $1000$ amostras do total do banco de dados $146,646$.

Estatísticas descritivas

# skim(data_fco2)
visdat::vis_miss(data_fco2 %>% 

Estatísticas descritivas

# skim(dados_estacao)
dados_estacao <- dados_estacao %>% 

# Lista do xCO2
# 01 passar as datas que estão em ano-mes-dia-horas-min-segundos
# para uma outra coluna denominada 'data' como ano-mes-dia
# Fazer em pipeline, usar o mutate do pacote dplyr e provavelmente
# a funçoes do pacote lubridate
oco2 <- oco2  %>% 
  mutate (
    ano = time_yyyymmddhhmmss%/%1e10,
    mês = time_yyyymmddhhmmss%/%1e8 %%100,
    dia = time_yyyymmddhhmmss%/%1e6 %%100,
    data = as.Date(stringr::str_c(ano,mês,dia,sep="-"))
  ) %>% 
dados_estacao <- dados_estacao %>% 
    ano = lubridate::year(data),
    mês = lubridate::month(data),
    dia = lubridate::day(data),
    data = as.Date(stringr::str_c(ano,mês,dia,sep="-"))

Manipulação dos bancos de dados Fco2 e de estação.

# atributos <- data_fco2
atributos <- left_join(data_fco2, dados_estacao, by = "data")

Listando as datas em ambos os bancos de dados

# Lista das datas de FCO2 
lista_data_fco2 <- unique(atributos$data)
lista_data_oco2 <- unique(oco2$data)
lista_data_estacao <- unique(dados_estacao$data)
datas_fco2 <- paste0(lubridate::year(lista_data_fco2),"-",lubridate::month(lista_data_fco2)) %>% unique()

datas_oco2 <- paste0(lubridate::year(lista_data_oco2),"-",lubridate::month(lista_data_oco2)) %>% unique()
datas <- datas_fco2[datas_fco2 %in% datas_oco2]

Criação as listas de datas, que é chave para a mesclagem dos arquivos.

fco2 <- atributos %>% 
  mutate(ano_mes = paste0(lubridate::year(data),"-",lubridate::month(data))) %>% 
  dplyr::filter(ano_mes %in% datas)

xco2 <- oco2 %>%   
  mutate(ano_mes=paste0(ano,"-",mês)) %>% 
  dplyr::filter(ano_mes %in% datas)

Coordenadas das cidades

unique(xco2$ano_mes)[unique(xco2$ano_mes) %>% order()] == 
unique(fco2$ano_mes)[unique(fco2$ano_mes) %>% order()]

Abordagem usando o join do {dplyr}

#> [1] 10001
data_set <- left_join(fco2 %>% 
            mutate(ano = lubridate::year(data),
                   mes = lubridate::month(data)
                   ) %>% 
            select(ID, data, cultura, ano, mes, x,y, FCO2, Ts,
                   Us, MO, Macro, VTP, ARG, ano_mes,Tmed,Tmax, Tmin, Umed,
                   Umax, Umin, PkPa, Rad, Eto, Velmax, Velmin, Dir_vel,
                   chuva, inso), 
          xco2 %>% 
            select(data,mês,dia,longitude,latitude,XCO2,fluorescence_radiance_757nm_idp_ph_sec_1_m_2_sr_1_um_1,fluorescence_radiance_771nm_idp_ph_sec_1_m_2_sr_1_um_1, ano_mes), by = "ano_mes") %>% 
  mutate(dist = sqrt((longitude-(-51.423519))^2+(latitude-(-20.362911))^2),
         SIF = (fluorescence_radiance_757nm_idp_ph_sec_1_m_2_sr_1_um_1*2.6250912*10^(-19)  + 1.5*fluorescence_radiance_771nm_idp_ph_sec_1_m_2_sr_1_um_1* 2.57743*10^(-19))/2)

data_set<-data_set %>%
  select(-fluorescence_radiance_757nm_idp_ph_sec_1_m_2_sr_1_um_1, -fluorescence_radiance_771nm_idp_ph_sec_1_m_2_sr_1_um_1 )  %>% 
  filter(dist <= .16, FCO2 <= 20 ) 

visdat::vis_miss(data_set %>% 

# head(data_set)
# fco2$ano_mes %>% unique()
# xco2$ano_mes %>% unique()
# data_set$ano_mes %>% unique()
tab_medias <- data_set %>% 
  # mutate(SIF = ifelse(SIF <=0, mean(data_set$SIF, na.rm=TRUE),SIF)) %>% 
  group_by(ano_mes, cultura) %>% 
  summarise(FCO2 = mean(FCO2, na.rm=TRUE),
            XCO2 = mean(XCO2, na.rm=TRUE),
            SIF = mean(SIF, na.rm=TRUE))

tab_medias %>% 
  ggplot(aes(x=XCO2, y=SIF)) +
  geom_smooth(method = "lm")+

tab_medias %>% 
  ggplot(aes(x=XCO2, y=FCO2)) +
  geom_smooth(method = "lm")+

tab_medias %>% 
  ggplot(aes(x=FCO2, y=SIF)) +
  geom_smooth(method = "lm") +

Estatística Descritiva

Completar posteriormente.

Abordagem de Parendizado de Máquina

Definindo a base de treino e a base de teste

Definindo a semente aleatória mais o conjunto de dados para teste e treino dos modelos

data_set_ml <- data_set #%>%
#   select(cultura, FCO2, Ts,
#                    Us, MO, Tmed,Tmax, Tmin, Umed,
#                    Umax, Umin, PkPa, Rad, Eto, Velmax, Velmin, Dir_vel,
#                    chuva, inso, SIF, xco2) %>% 
#   drop_na(FCO2, Ts,Us,Tmed:inso)
# visdat::vis_miss(data_set_ml)
# set.seed(1235)
fco2_initial_split <- initial_split(data_set_ml, prop = 0.75)
fco2_train <- training(fco2_initial_split)
# fco2_test <- testing(fco2_initial_split)
# visdat::vis_miss(fco2_test)
fco2_train  %>% 
  ggplot(aes(x=FCO2, y=..density..))+
  geom_histogram(bins = 30, color="black",  fill="lightgray")+
  theme_bw() +
  labs(x="FCO2", y = "Densidade")

fco2_train  %>% 
  ggplot(aes(x=SIF, y=..density..))+
  geom_histogram(bins = 11, color="black",  fill="lightgray")+
  theme_bw() +
  labs(x="SIF", y = "Densidade")

fco2_train  %>% 
  ggplot(aes(x=XCO2, y=..density..))+
  geom_histogram(bins = 15, color="black",  fill="lightgray")+
  theme_bw() +
  labs(x="XCO2", y = "Densidade")


fco2_train   %>%    select(-c(ID,ano,mes,x,y,latitude,longitude,dist,mês,dia)) %>% 
  select(where(is.numeric)) %>%
  drop_na() %>% 
  cor()  %>%  


fco2_recipe <- recipe(FCO2 ~ ., data = fco2_train %>% 
) %>%  
  step_normalize(all_numeric_predictors())  %>% 
  step_novel(all_nominal_predictors()) %>% 
  step_zv(all_predictors()) %>%
  #step_naomit(c(Ts, Us)) %>% 
  #step_impute_mean(c(Us,Ts)) %>% 
  #step_poly(c(Us,Ts), degree = 2)  %>%  
bake(prep(fco2_recipe), new_data = NULL)
visdat::vis_miss(bake(prep(fco2_recipe), new_data = NULL))


fco2_resamples <- vfold_cv(fco2_train, v = 10)
grid <- grid_regular(
  penalty(range = c(-8, 0)),
  levels = 20

ÁRVORE DE DECISÃO (decision tree - dt)

fco2_dt_model <- decision_tree(
  cost_complexity = tune(),
  tree_depth = tune(),
  min_n = tune()
)  %>%  
  set_mode("regression")  %>%  


fco2_dt_wf <- workflow()   %>%  
  add_model(fco2_dt_model) %>% 

Criando a matriz (grid) com os valores de hiperparâmetros a serem testados

grid_dt <- grid_random(
  cost_complexity(c(-6, -4)),
  tree_depth(range = c(8, 18)),
  min_n(range = c(42, 52)),
  size = 2
Desempenho dos modelos finais

fco2_dt_best_params <- select_best(fco2_dt_tune_grid, "rmse")
fco2_dt_wf <- fco2_dt_wf %>% finalize_workflow(fco2_dt_best_params)
fco2_dt_last_fit <- last_fit(fco2_dt_wf, fco2_initial_split)

Criar os preditos

fco2_test_preds <- bind_rows(
  collect_predictions(fco2_dt_last_fit)  %>%   mutate(modelo = "dt")

fco2_test <- testing(fco2_initial_split)

fco2_test_preds %>% 
  ggplot(aes(x=.pred, y=FCO2)) +
  theme_bw() +
  geom_smooth(method = "lm") +
  label =  paste(..eq.label.., ..rr.label.., sep = "*plain(\",\")~~"))) 

Variáveis importantes

fco2_dt_last_fit_model <-fco2_dt_last_fit$.workflow[[1]]$fit$fit


da <- fco2_test_preds %>% 
  filter(FCO2 > 0, .pred>0 )

my_rmse <- Metrics::rmse(da$FCO2,
my_mape <- Metrics::mape(da$FCO2,da$.pred)*100

fco2_test_preds %>% 
  geom_smooth(method = "lm")+
    label =  paste(..eq.label.., ..rr.label.., sep = "*plain(\",\")~~")),size=5)+
  ggplot2::annotate('text',x=10.4,y=16.7,label=paste0('RMSE = ',round(my_rmse,2),', MAPE = '

Random Forest (rf)

Corrigindo os NAs no teste.


data_set_ml <- data_set_ml %>%
  select(cultura, FCO2, Ts, XCO2, SIF, 
                   Us, MO, Tmed,Tmax, Tmin, Umed,
                   Umax, Umin, PkPa, Rad, Eto, Velmax, Velmin, Dir_vel,
                   chuva, inso) %>%
  drop_na(FCO2, Ts,Us,Tmed:inso)

fco2_initial_split <- initial_split(data_set_ml, prop = 0.75)
fco2_test <- testing(fco2_initial_split)

fco2_train <- training(fco2_initial_split)

fco2_resamples_rf <- vfold_cv(fco2_train, v = 5)

Data prep

fco2_rf_recipe <- recipe(FCO2 ~ ., data = fco2_train) %>% 
  step_string2factor(all_nominal(), skip = TRUE) %>% 
  step_normalize(all_numeric_predictors())  %>% 
  step_novel(all_nominal_predictors()) %>% 
  step_zv(all_predictors()) %>%
  # step_naomit(all_predictors()) #%>% 
  # step_impute_mean(c(Ts,Us)) %>% 
  # step_poly(c(Ts, Us), degree = 2)  %>%  
bake(prep(fco2_rf_recipe), new_data = NULL)
visdat::vis_miss(bake(prep(fco2_rf_recipe), new_data = NULL))


fco2_rf_model <- rand_forest(
  min_n = tune(),
  mtry = tune(),
  trees = tune()
)   %>%  
  set_mode("regression")  %>% 


fco2_rf_wf <- workflow()   %>%  
  add_model(fco2_rf_model) %>%  


mtry trees min_n .config 10 769 21 Preprocessor1_Model39

grid_rf <- grid_random(
  min_n(range = c(20, 30)),
  mtry(range = c(10,20)),
  trees(range = c(769,1500) ),
  size = 20
fco2_rf_tune_grid <- tune_grid(
  resamples = fco2_resamples_rf,
  grid = grid_rf,
  metrics = metric_set(rmse)

Desempenho dos modelos finais

fco2_rf_best_params <- select_best(fco2_rf_tune_grid, "rmse")
fco2_rf_wf <- fco2_rf_wf %>% finalize_workflow(fco2_rf_best_params)
fco2_rf_last_fit <- last_fit(fco2_rf_wf, fco2_initial_split)

Criar os preditos

fco2_test_preds <- bind_rows(
  collect_predictions(fco2_rf_last_fit)  %>%   mutate(modelo = "rf")
fco2_test_preds %>% 
  ggplot(aes(x=.pred, y=FCO2)) +
  theme_bw() +
  geom_smooth(method = "lm") +
  label =  paste(..eq.label.., ..rr.label.., sep = "*plain(\",\")~~"))) 

Variáveis importantes

fco2_rf_last_fit_model <-fco2_rf_last_fit$.workflow[[1]]$fit$fit


da <- fco2_test_preds %>% 
  filter(FCO2 > 0, .pred> 0 )

my_rmse <- Metrics::rmse(da$FCO2,
my_mape <- Metrics::mape(da$FCO2,da$.pred)*100

fco2_test_preds %>% 
  geom_smooth(method = "lm")+
    label =  paste(..eq.label.., ..rr.label.., sep = "*plain(\",\")~~")),size=5)+
  ggplot2::annotate('text',x=10.4,y=16.7,label=paste0('RMSE = ',round(my_rmse,2),', MAPE = '

Boosting gradient tree (xgb)

Data prep

fco2_xgb_recipe <- recipe(FCO2 ~ ., data = fco2_train) %>% 
  step_string2factor(all_nominal(), skip = TRUE) %>% 
  step_normalize(all_numeric_predictors())  %>% 
  step_novel(all_nominal_predictors()) %>% 
  # step_zv(all_predictors()) %>%
  # step_naomit(all_predictors()) #%>% 
  #step_poly(c(Ts, Us), degree = 3)  %>%  
bake(prep(fco2_xgb_recipe), new_data = NULL)
visdat::vis_miss(bake(prep(fco2_xgb_recipe), new_data = NULL))

Estratégia de Tunagem de Hiperparâmetros

Passo 1:

Achar uma combinação learning_rate e trees que funciona relativamente bem.

  • learn_rate - 0.05, 0.1, 0.3

  • trees - 100, 500, 1000, 1500


cores = 4
fco2_xgb_model <- boost_tree(
  mtry = 0.8, 
  trees = tune(), # <---------------
  min_n = 5, 
  tree_depth = 4,
  loss_reduction = 0, # lambda
  learn_rate = tune(), # epsilon
  sample_size = 0.8
)  %>%   
  set_mode("regression")  %>% 
  set_engine("xgboost", nthread = cores, counts = FALSE)


fco2_xgb_wf <- workflow()  %>%  
  add_model(fco2_xgb_model) %>%  


grid_xgb <- expand.grid(
  learn_rate =  c(0.05, 0.3),
  trees = c(2, 250, 500)
fco2_xgb_tune_grid <- tune_grid(
  resamples = fco2_resamples,
  grid = grid_xgb,
  metrics = metric_set(rmse)

fco2_xgb_tune_grid   %>%   show_best(metric = "rmse", n = 6)
Passo 2:

São bons valores inciais. Agora, podemos tunar os parâmetros relacionados à árvore.

  • tree_depth: vamos deixar ele variar entre 3 e 10.
  • min_n: vamos deixar variar entre 5 e 90.
fco2_xgb_model <- boost_tree(
  mtry = 0.8,
  trees = fco2_xgb_select_best_passo1$trees,
  min_n = tune(),
  tree_depth = tune(), 
  loss_reduction = 0, 
  learn_rate = fco2_xgb_select_best_passo1$learn_rate, 
  sample_size = 0.8
) %>% 
  set_mode("regression")  %>% 
  set_engine("xgboost", nthread = cores, counts = FALSE)

#### Workflow
fco2_xgb_wf <- workflow() %>%  
    add_model(fco2_xgb_model)   %>%   

#### Grid
fco2_xgb_grid <- expand.grid(
  tree_depth = c(1, 3, 4), 
  min_n = c(5, 30, 60)

fco2_xgb_tune_grid <- fco2_xgb_wf   %>%   
    resamples =fco2_resamples,
    grid = fco2_xgb_grid,
    control = control_grid(save_pred = TRUE, verbose = FALSE, allow_par = TRUE),
    metrics = metric_set(rmse)

#### Melhores hiperparâmetros

fco2_xgb_tune_grid  %>%   show_best(metric = "rmse", n = 5)
Passo 3

Vamos tunar o loss_reduction

fco2_xgb_model <- boost_tree(
  mtry = 0.8,
  trees = fco2_xgb_select_best_passo1$trees,
  min_n = fco2_xgb_select_best_passo2$min_n,
  tree_depth = fco2_xgb_select_best_passo2$tree_depth, 
  loss_reduction =tune(), 
  learn_rate = fco2_xgb_select_best_passo1$learn_rate, 
  sample_size = 0.8
)  %>%  
  set_mode("regression")  %>%  
  set_engine("xgboost", nthread = cores, counts = FALSE)

#### Workflow
fco2_xgb_wf <- workflow()  %>%   
    add_model(fco2_xgb_model)  %>%   

#### Grid
fco2_xgb_grid <- expand.grid(
  loss_reduction = c(0.01, 0.05, 1, 2, 4, 8)

fco2_xgb_tune_grid <- fco2_xgb_wf   %>%   
    resamples = fco2_resamples,
    grid = fco2_xgb_grid,
    control = control_grid(save_pred = TRUE, verbose = FALSE, allow_par = TRUE),
    metrics = metric_set(rmse)

#### Melhores hiperparâmetros

fco2_xgb_tune_grid   %>%   show_best(metric = "rmse", n = 5)
Passo 4:

Vamos então tunar o mtry e o sample_size:

fco2_xgb_model <- boost_tree(
  mtry = tune(),
  trees = fco2_xgb_select_best_passo1$trees,
  min_n = fco2_xgb_select_best_passo2$min_n,
  tree_depth = fco2_xgb_select_best_passo2$tree_depth, 
  loss_reduction = fco2_xgb_select_best_passo3$loss_reduction, 
  learn_rate = fco2_xgb_select_best_passo1$learn_rate, 
  sample_size = tune()
  set_mode("regression")  |> 
  set_engine("xgboost", nthread = cores, counts = FALSE)
#### Workflow
fco2_xgb_wf <- workflow()  %>%   
    add_model(fco2_xgb_model)  %>%   
#### Grid
fco2_xgb_grid <- expand.grid(
    sample_size = seq(0.5, 1.0, length.out = 2), ## <---
    mtry = seq(0.1, 1.0, length.out = 2) ## <---
fco2_xgb_tune_grid <- fco2_xgb_wf   %>%   
    resamples = fco2_resamples,
    grid = fco2_xgb_grid,
    control = control_grid(save_pred = TRUE, verbose = FALSE, allow_par = TRUE),
    metrics = metric_set(rmse)
#### Melhores hiperparâmetros

fco2_xgb_tune_grid  |>  show_best(metric = "rmse", n = 5)
Passo 5

Agora vamos tunar o learn_rate e o trees de novo, mas deixando o learn_rate assumir valores menores.

fco2_xgb_model <- boost_tree(
  mtry = fco2_xgb_select_best_passo4$mtry,
  trees = tune(),
  min_n = fco2_xgb_select_best_passo2$min_n,
  tree_depth = fco2_xgb_select_best_passo2$tree_depth, 
  loss_reduction = fco2_xgb_select_best_passo3$loss_reduction, 
  learn_rate = tune(), 
  sample_size = fco2_xgb_select_best_passo4$sample_size
) |> 
  set_mode("regression")  %>%  
  set_engine("xgboost", nthread = cores, counts = FALSE)

#### Workflow
fco2_xgb_wf <- workflow() %>%   
    add_model(fco2_xgb_model)  %>%   

#### Grid
fco2_xgb_grid <- expand.grid(
    learn_rate = c(0.05, 0.10, 0.15, 0.25),
    trees = c(100, 250, 500)

fco2_xgb_tune_grid <- fco2_xgb_wf   %>%   
    resamples = fco2_resamples,
    grid = fco2_xgb_grid,
    control = control_grid(save_pred = TRUE, verbose = FALSE, allow_par = TRUE),
    metrics = metric_set(rmse)

#### Melhores hiperparâmetros

fco2_xgb_tune_grid  %>%   show_best(metric = "rmse", n = 5)
Desempenho dos modelos finais

fco2_xgb_model <- boost_tree(
  mtry = fco2_xgb_select_best_passo4$mtry,
  trees = fco2_xgb_select_best_passo5$trees,
  min_n = fco2_xgb_select_best_passo2$min_n,
  tree_depth = fco2_xgb_select_best_passo2$tree_depth, 
  loss_reduction = fco2_xgb_select_best_passo3$loss_reduction, 
  learn_rate = fco2_xgb_select_best_passo5$learn_rate, 
  sample_size = fco2_xgb_select_best_passo4$sample_size
) %>%  
  set_mode("regression")  %>%  
  set_engine("xgboost", nthread = cores, counts = FALSE)

Desempenho dos modelos finais

# fco2_xgb_best_params <- select_best(fco2_xgb_tune_grid, "rmse")
df <- data.frame(
  mtry = fco2_xgb_select_best_passo4$mtry,
  trees = fco2_xgb_select_best_passo5$trees,
  min_n = fco2_xgb_select_best_passo2$min_n,
  tree_depth = fco2_xgb_select_best_passo2$tree_depth, 
  loss_reduction = fco2_xgb_select_best_passo3$loss_reduction, 
  learn_rate = fco2_xgb_select_best_passo5$learn_rate, 
  sample_size = fco2_xgb_select_best_passo4$sample_size
fco2_xgb_wf <- fco2_xgb_wf %>% finalize_workflow(df) # <------
fco2_xgb_last_fit <- last_fit(fco2_xgb_wf, fco2_initial_split) # <--------

Criar os preditos

fco2_test_preds <- bind_rows(
  collect_predictions(fco2_xgb_last_fit)  %>%   mutate(modelo = "xgb")
fco2_test_preds %>% 
  ggplot(aes(x=.pred, y=FCO2)) +
  theme_bw() +
  geom_smooth(method = "lm") +
  label =  paste(..eq.label.., ..rr.label.., sep = "*plain(\",\")~~"))) 

Variáveis importantes

fco2_xgb_last_fit_model <-fco2_xgb_last_fit$.workflow[[1]]$fit$fit


da <- fco2_test_preds %>% 
  filter(FCO2 > 0, .pred> 0 )

my_rmse <- Metrics::rmse(da$FCO2,
my_mape <- Metrics::mape(da$FCO2,da$.pred)*100

fco2_test_preds %>% 
  geom_smooth(method = "lm")+
    label =  paste(..eq.label.., ..rr.label.., sep = "*plain(\",\")~~")),size=5)+
  ggplot2::annotate('text',x=10.4,y=16.7,label=paste0('RMSE = ',round(my_rmse,2),', MAPE = '


