SlideShare uma empresa Scribd logo
1 de 21
1
Usando Machine Learning
para prever a área plantada de soja nos EUA
Demoday
Data Science & Machine Learning
Paulo Brigatti Rodrigo Tofoli Nicholas Gimenes
2
ARTIGO COMPLETO NO MEDIUM
Usando Machine Learning para Previsão da área plantada de soja
nos Estados Unidos
https://medium.com/@nicholasgimenes/usando-machine-learning-para-previs%C3%A3o-da-
%C3%A1rea-plantada-de-soja-nos-estados-unidos-9de8edc7aeb3
3
AGENDA
Contexto Modelagem &
Produção
ConclusãoFontes & Análise
Exploratória
4
AGENDA
Contexto Modelagem &
Produção
ConclusãoFontes & Análise
Exploratória
5
Mercado de
Soja
+362 +125 +140
Em números
6
a perspectiva de área
plantada de soja.
Área
plantada
Porque projetar área plantada dos
Estados Unidos?
1) A produção brasileira e americana
caminham lado a lado.
2) Pela riqueza de informações de
domínio público em portais do governo
norte americano (USDA - Departamento
de Agricultura do Governo Americano).
?
Qual a utilidade desta projeção?
A própria USDA divulga sua projeção para
os próximos 10 anos.
Mas áreas de inteligência de mercado de
empresas que atuam no ramo, seus clientes
(produtores, consumidores, investidores,
comerciantes, vendedores de insumos e
implementos) e até outros governos
precisam de suas próprias projeções
independentes e complementares, pois as
premissas e modelos utilizados pela USDA
não são divulgados.
7
AGENDA
Contexto Fontes & Análise
Exploratória
Modelagem &
Produção
Conclusão
8
Dados macroeconômicos
DADOS FONTE
●
●
●
●
●
●
Dados da indústria de soja
dos EUA
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Fonte: USDA Departamento de Agricultura dos EUA
Projeção de área plantada
da USDA até 2029
9
Dados macroeconômicos
DADOS FONTE
●
●
●
●
●
●
Fonte: USDA Departamento de Agricultura dos EUA
Armadilha de dataleak:
● Indicador calculado retroativamente
utilizando o ano de 2010 como base.
● Os anos anteriores são a variação %
com relação ao ano de 2010.
10
SÉRIES TEMPORAIS: E AGORA?
Time Serious
?
Etapas extras no EDA e na preparação do
dados:
● Estacionariedade
● Diferenciação
● Separação Train x Test
Modelos estatísticos e algoritmos diferentes
dos vistos em aula (multivariados):
● VAR
● Prophet
● LSTM
11
APENAS DUAS FEATURES COM DADOS NULOS ENTRE 1994 E 2018
Calculado a partir de outras features.
Como temos mudança de patamar no
tempo seria ruim completar com média
geral. Utilizada média dos últimos 4
anos.
12
VISUALMENTE POUCAS SÉRIES PARECERAM ESTACIONÁRIAS (NORMALIZADAS)
Nas séries estacionárias os pontos variam em torno da
mesma média e variância.
Alguns métodos precisam que as séries sejam
estacionárias (como o VAR).
13
DIVERSAS FEATURES CORRELACIONADAS INDICARAM OPORTUNIDADE DE REDUÇÃO
14
TESTE DE AUTOCORRELAÇÃO: 2 A 3 ANOS DE LAG PARECERAM SUFICIENTES
Aplicado teste ACF disponível na statsmodels:
● Permite analisar o lag: quantos anos passados
influenciam o ano seguinte.
● Entre dois e três anos de lag se mostraram
suficientes.
● Exemplo: o ano de 2018 é influenciado pelos anos 2016 e 2017.
Os anos 2015 pra trás tem uma correlação aleatória com 2018,
ou seja, nao ajudam a predizer o ano 2018.
ACFACF
Lags (valores passados da feature)
Auto Correlation
Function:
Mede a correlação
(de -1 a +1) entre
pontos da série
temporal e seus
valores passados.
Precisamos examinar os pontos em cada lag
para determinar se há correlação significante.
Se for significativa, estará fora dos limites de
significância (em azul). Caso contrário, a
correlação é aleatória.
Obs: No lag = 0 é sempre = 1.
15
AGENDA
Contexto Fontes & Análise
Exploratória
Modelagem &
Produção
Conclusão
16
PREPARAÇÃO
Treino x Teste
Com time series não podemos fazer seleção
aleatória de treino e teste para nao termos
data leakage. É necessário separar por
períodos:
● Treino: Dados de 1994 a 2013
● Teste: Dados de 2014 a 2018
Normalização
A normalização foi aplicada após a separação
de treino e teste para evitar data leakage.
Teste de estacionariedade e
diferenciação
Para aplicação do VAR um teste estatístico
indica se a série é estacionária (ADFuller,
disponível na statsmodels). Algumas features
foram diferenciadas até 3 vezes para se
tornarem estacionárias.
Redução de dimensionalidade
As features foram ordenadas pela
correlação com a variável resposta para
inclusão nos modelos (testando o resultado
com conjuntos de features pequenos, médios
e grandes).
17
MODELAGEM: PROPHET COM MELHOR RESULTADO QUE O BASELINE (VAR)
VAR (Vector Autoregression) Prophet
● Modelo que considera a relação das variáveis entre si e entre
seus valores passados.
● Não performa para conjuntos grandes de features. Foram
testados diferentes conjuntos de features e lags (número de
períodos passados).
● Utilizadas 15 features com lag order = 2.
MAE: 18.749
● Exige pouca preparação dos dados: as séries sequer precisam
ser estacionárias ou normalizadas.
● Todavia, requer a projeção de cada feature de modo univariado
usando o próprio Prophet e retroalimenta-lo para fazer a
projeção multivariada.
● Utilizadas 14 features.
● Multivariado teve MAE um pouco maior, mas refletiu melhor a
tendência da série
MAE Univariado: 9.481
MAE Multivariado: 11.128
MAE = Mean Absolute Error
18
PRODUÇÃO: SELEÇÃO DE ANOS A SEREM PROJETADOS COM PROPHET MULTIVARIADO
https://soy-planted-area.herokuapp.com/
19
AGENDA
Contexto Fontes & Análise
Exploratória
Modelagem &
Produção
Conclusão
20
CONCLUSÃO
Projeção: Prophet versus USDA● VAR se mostrou bastante trabalhoso na preparação dos dados e
transformação das séries.
● Outro problema no VAR é a quantidade de features versus o lag
order: a complexidade do algoritmo explode conforme estes
aumentam, sendo necessários testes e calibragem.
● Prophet foi muito mais simples de utilizar, apesar de requerer certo
trabalho extra para modelagem multivariada. Ainda assim mostrou
melhores resultados que o VAR.
● LSTM apresentou complexidade na preparação do input para o
algoritmo e no trabalho com os hiperparâmetros. Dado o prazo do
projeto, optamos por focar na otimização do VAR e Prophet, mas
avançar no LSTM seria um próximo passo para desafiar os
resultados do Prophet.
Atingidos os objetivos de:
1) Chegar em uma projeção independente
para confrontar com a divulgada pela USDA;
2) Obter maior conhecimento sobre as
features utilizadas e quanto influenciam na
curva esperada para os próximos anos.
OBRIGADO!

Mais conteúdo relacionado

Semelhante a Usando Machine Learning para prever a área plantada de soja nos EUA

02 Cep VariáVeis
02 Cep VariáVeis02 Cep VariáVeis
02 Cep VariáVeisguestf4d212
 
TDC2016SP - SparkMLlib Machine Learning na Prática
TDC2016SP -  SparkMLlib Machine Learning na PráticaTDC2016SP -  SparkMLlib Machine Learning na Prática
TDC2016SP - SparkMLlib Machine Learning na Práticatdc-globalcode
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningDevCamp Campinas
 
Treinamento Qlik - Desenvolvedores - Dia 02.pptx
Treinamento Qlik - Desenvolvedores - Dia 02.pptxTreinamento Qlik - Desenvolvedores - Dia 02.pptx
Treinamento Qlik - Desenvolvedores - Dia 02.pptxRodrigo Borges
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
 
CONTROLE MPC MULTIVARIÁVEL COM RESTRIÇÕES USANDO FUNÇÕES DE LAGUERRE
CONTROLE MPC MULTIVARIÁVEL COM RESTRIÇÕES USANDO FUNÇÕES DE LAGUERRECONTROLE MPC MULTIVARIÁVEL COM RESTRIÇÕES USANDO FUNÇÕES DE LAGUERRE
CONTROLE MPC MULTIVARIÁVEL COM RESTRIÇÕES USANDO FUNÇÕES DE LAGUERREUFPA
 
Administração da Produção - Previsão de Demanda
Administração da Produção - Previsão de DemandaAdministração da Produção - Previsão de Demanda
Administração da Produção - Previsão de Demandadouglas
 
AUBR_22-Aplicacao do REVIT em estudos de Viabilidade-1.pdf
AUBR_22-Aplicacao do REVIT em estudos de Viabilidade-1.pdfAUBR_22-Aplicacao do REVIT em estudos de Viabilidade-1.pdf
AUBR_22-Aplicacao do REVIT em estudos de Viabilidade-1.pdfcesarcarlos20
 
Arquitetura de Software
Arquitetura de SoftwareArquitetura de Software
Arquitetura de SoftwareSaulo Arruda
 
Agile Brazil 2016 - Workshop de Release Planning
Agile Brazil 2016 - Workshop de Release PlanningAgile Brazil 2016 - Workshop de Release Planning
Agile Brazil 2016 - Workshop de Release PlanningAdriano Campestrini
 
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Elaine Cecília Gatto
 

Semelhante a Usando Machine Learning para prever a área plantada de soja nos EUA (14)

02 Cep VariáVeis
02 Cep VariáVeis02 Cep VariáVeis
02 Cep VariáVeis
 
Plano do Projeto
Plano do ProjetoPlano do Projeto
Plano do Projeto
 
TDC2016SP - SparkMLlib Machine Learning na Prática
TDC2016SP -  SparkMLlib Machine Learning na PráticaTDC2016SP -  SparkMLlib Machine Learning na Prática
TDC2016SP - SparkMLlib Machine Learning na Prática
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
 
Estimativas Ágeis
Estimativas ÁgeisEstimativas Ágeis
Estimativas Ágeis
 
Treinamento Qlik - Desenvolvedores - Dia 02.pptx
Treinamento Qlik - Desenvolvedores - Dia 02.pptxTreinamento Qlik - Desenvolvedores - Dia 02.pptx
Treinamento Qlik - Desenvolvedores - Dia 02.pptx
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
 
CONTROLE MPC MULTIVARIÁVEL COM RESTRIÇÕES USANDO FUNÇÕES DE LAGUERRE
CONTROLE MPC MULTIVARIÁVEL COM RESTRIÇÕES USANDO FUNÇÕES DE LAGUERRECONTROLE MPC MULTIVARIÁVEL COM RESTRIÇÕES USANDO FUNÇÕES DE LAGUERRE
CONTROLE MPC MULTIVARIÁVEL COM RESTRIÇÕES USANDO FUNÇÕES DE LAGUERRE
 
Administração da Produção - Previsão de Demanda
Administração da Produção - Previsão de DemandaAdministração da Produção - Previsão de Demanda
Administração da Produção - Previsão de Demanda
 
Pi raciocinio lógico
Pi   raciocinio lógicoPi   raciocinio lógico
Pi raciocinio lógico
 
AUBR_22-Aplicacao do REVIT em estudos de Viabilidade-1.pdf
AUBR_22-Aplicacao do REVIT em estudos de Viabilidade-1.pdfAUBR_22-Aplicacao do REVIT em estudos de Viabilidade-1.pdf
AUBR_22-Aplicacao do REVIT em estudos de Viabilidade-1.pdf
 
Arquitetura de Software
Arquitetura de SoftwareArquitetura de Software
Arquitetura de Software
 
Agile Brazil 2016 - Workshop de Release Planning
Agile Brazil 2016 - Workshop de Release PlanningAgile Brazil 2016 - Workshop de Release Planning
Agile Brazil 2016 - Workshop de Release Planning
 
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
 

Mais de Nicholas Gimenes

30 Erros Comuns em Análise de Dados
30 Erros Comuns em Análise de Dados30 Erros Comuns em Análise de Dados
30 Erros Comuns em Análise de DadosNicholas Gimenes
 
Guia de referência para copywriting em B2B
Guia de referência para copywriting em B2BGuia de referência para copywriting em B2B
Guia de referência para copywriting em B2BNicholas Gimenes
 
Nicholas Gimenes - O MERCADO DOS FABRICANTES DE REDES ÓPTICAS NA ERA DA CONVE...
Nicholas Gimenes - O MERCADO DOS FABRICANTES DE REDES ÓPTICAS NA ERA DA CONVE...Nicholas Gimenes - O MERCADO DOS FABRICANTES DE REDES ÓPTICAS NA ERA DA CONVE...
Nicholas Gimenes - O MERCADO DOS FABRICANTES DE REDES ÓPTICAS NA ERA DA CONVE...Nicholas Gimenes
 
Impactos da convergência e da virtualização nos fabricantes de redes ópticas
Impactos da convergência e da virtualização nos fabricantes de redes ópticasImpactos da convergência e da virtualização nos fabricantes de redes ópticas
Impactos da convergência e da virtualização nos fabricantes de redes ópticasNicholas Gimenes
 
Smart Cities - Tecnologia nas Cidades Inteligentes
Smart Cities - Tecnologia nas Cidades InteligentesSmart Cities - Tecnologia nas Cidades Inteligentes
Smart Cities - Tecnologia nas Cidades InteligentesNicholas Gimenes
 
Case Zappos - Resumo do Livro Satisfação Garantida - Tony Hsieh (Delivering H...
Case Zappos - Resumo do Livro Satisfação Garantida - Tony Hsieh (Delivering H...Case Zappos - Resumo do Livro Satisfação Garantida - Tony Hsieh (Delivering H...
Case Zappos - Resumo do Livro Satisfação Garantida - Tony Hsieh (Delivering H...Nicholas Gimenes
 
Responsabilidade Social e Ética no Marketing
Responsabilidade Social e Ética no MarketingResponsabilidade Social e Ética no Marketing
Responsabilidade Social e Ética no MarketingNicholas Gimenes
 
PSICOLOGIA AMBIENTAL: Por quê não agimos?
PSICOLOGIA AMBIENTAL: Por quê não agimos?PSICOLOGIA AMBIENTAL: Por quê não agimos?
PSICOLOGIA AMBIENTAL: Por quê não agimos?Nicholas Gimenes
 
Estudo de Caso: Gillette Mach3
Estudo de Caso: Gillette Mach3Estudo de Caso: Gillette Mach3
Estudo de Caso: Gillette Mach3Nicholas Gimenes
 

Mais de Nicholas Gimenes (12)

30 Erros Comuns em Análise de Dados
30 Erros Comuns em Análise de Dados30 Erros Comuns em Análise de Dados
30 Erros Comuns em Análise de Dados
 
Guia de referência para copywriting em B2B
Guia de referência para copywriting em B2BGuia de referência para copywriting em B2B
Guia de referência para copywriting em B2B
 
Nicholas Gimenes - O MERCADO DOS FABRICANTES DE REDES ÓPTICAS NA ERA DA CONVE...
Nicholas Gimenes - O MERCADO DOS FABRICANTES DE REDES ÓPTICAS NA ERA DA CONVE...Nicholas Gimenes - O MERCADO DOS FABRICANTES DE REDES ÓPTICAS NA ERA DA CONVE...
Nicholas Gimenes - O MERCADO DOS FABRICANTES DE REDES ÓPTICAS NA ERA DA CONVE...
 
Impactos da convergência e da virtualização nos fabricantes de redes ópticas
Impactos da convergência e da virtualização nos fabricantes de redes ópticasImpactos da convergência e da virtualização nos fabricantes de redes ópticas
Impactos da convergência e da virtualização nos fabricantes de redes ópticas
 
Smart Cities - Tecnologia nas Cidades Inteligentes
Smart Cities - Tecnologia nas Cidades InteligentesSmart Cities - Tecnologia nas Cidades Inteligentes
Smart Cities - Tecnologia nas Cidades Inteligentes
 
Case Zappos - Resumo do Livro Satisfação Garantida - Tony Hsieh (Delivering H...
Case Zappos - Resumo do Livro Satisfação Garantida - Tony Hsieh (Delivering H...Case Zappos - Resumo do Livro Satisfação Garantida - Tony Hsieh (Delivering H...
Case Zappos - Resumo do Livro Satisfação Garantida - Tony Hsieh (Delivering H...
 
Marketing para ONGs
Marketing para ONGsMarketing para ONGs
Marketing para ONGs
 
Responsabilidade Social e Ética no Marketing
Responsabilidade Social e Ética no MarketingResponsabilidade Social e Ética no Marketing
Responsabilidade Social e Ética no Marketing
 
PSICOLOGIA AMBIENTAL: Por quê não agimos?
PSICOLOGIA AMBIENTAL: Por quê não agimos?PSICOLOGIA AMBIENTAL: Por quê não agimos?
PSICOLOGIA AMBIENTAL: Por quê não agimos?
 
Estudo de Caso: Gillette Mach3
Estudo de Caso: Gillette Mach3Estudo de Caso: Gillette Mach3
Estudo de Caso: Gillette Mach3
 
Mix de Marketing
Mix de MarketingMix de Marketing
Mix de Marketing
 
Sistemas de Marketing
Sistemas de MarketingSistemas de Marketing
Sistemas de Marketing
 

Último

Conferência SC 24 | Social commerce e recursos interativos: como aplicar no s...
Conferência SC 24 | Social commerce e recursos interativos: como aplicar no s...Conferência SC 24 | Social commerce e recursos interativos: como aplicar no s...
Conferência SC 24 | Social commerce e recursos interativos: como aplicar no s...E-Commerce Brasil
 
Conferência SC 24 | A força da geolocalização impulsionada em ADS e Fullcomme...
Conferência SC 24 | A força da geolocalização impulsionada em ADS e Fullcomme...Conferência SC 24 | A força da geolocalização impulsionada em ADS e Fullcomme...
Conferência SC 24 | A força da geolocalização impulsionada em ADS e Fullcomme...E-Commerce Brasil
 
EP GRUPO - Mídia Kit 2024 - conexão de marcas e personagens
EP GRUPO - Mídia Kit 2024 - conexão de marcas e personagensEP GRUPO - Mídia Kit 2024 - conexão de marcas e personagens
EP GRUPO - Mídia Kit 2024 - conexão de marcas e personagensLuizPauloFerreira11
 
Conferência SC 2024 | Tendências e oportunidades de vender mais em 2024
Conferência SC 2024 | Tendências e oportunidades de vender mais em 2024Conferência SC 2024 | Tendências e oportunidades de vender mais em 2024
Conferência SC 2024 | Tendências e oportunidades de vender mais em 2024E-Commerce Brasil
 
Analise Ergonomica FisioPrev aula de ergonomia
Analise Ergonomica FisioPrev aula de ergonomiaAnalise Ergonomica FisioPrev aula de ergonomia
Analise Ergonomica FisioPrev aula de ergonomiaGabrielPasquinelli1
 
Conferência SC 24 | O custo real de uma operação
Conferência SC 24 | O custo real de uma operaçãoConferência SC 24 | O custo real de uma operação
Conferência SC 24 | O custo real de uma operaçãoE-Commerce Brasil
 
Conferência SC 24 | Inteligência artificial no checkout: como a automatização...
Conferência SC 24 | Inteligência artificial no checkout: como a automatização...Conferência SC 24 | Inteligência artificial no checkout: como a automatização...
Conferência SC 24 | Inteligência artificial no checkout: como a automatização...E-Commerce Brasil
 
Conferência SC 2024 | De vilão a herói: como o frete vai salvar as suas vendas
Conferência SC 2024 |  De vilão a herói: como o frete vai salvar as suas vendasConferência SC 2024 |  De vilão a herói: como o frete vai salvar as suas vendas
Conferência SC 2024 | De vilão a herói: como o frete vai salvar as suas vendasE-Commerce Brasil
 
Conferência SC 24 | Data Analytics e IA: o futuro do e-commerce?
Conferência SC 24 | Data Analytics e IA: o futuro do e-commerce?Conferência SC 24 | Data Analytics e IA: o futuro do e-commerce?
Conferência SC 24 | Data Analytics e IA: o futuro do e-commerce?E-Commerce Brasil
 
Conferência SC 24 | Omnichannel: uma cultura ou apenas um recurso comercial?
Conferência SC 24 | Omnichannel: uma cultura ou apenas um recurso comercial?Conferência SC 24 | Omnichannel: uma cultura ou apenas um recurso comercial?
Conferência SC 24 | Omnichannel: uma cultura ou apenas um recurso comercial?E-Commerce Brasil
 
Ética NO AMBIENTE DE TRABALHO, fundamentosdas relações.pdf
Ética NO AMBIENTE DE TRABALHO,  fundamentosdas relações.pdfÉtica NO AMBIENTE DE TRABALHO,  fundamentosdas relações.pdf
Ética NO AMBIENTE DE TRABALHO, fundamentosdas relações.pdfInsttLcioEvangelista
 
Conferência SC 24 | Estratégias de diversificação de investimento em mídias d...
Conferência SC 24 | Estratégias de diversificação de investimento em mídias d...Conferência SC 24 | Estratégias de diversificação de investimento em mídias d...
Conferência SC 24 | Estratégias de diversificação de investimento em mídias d...E-Commerce Brasil
 
Products Catalogue-01-Electronics thin wall heat shrink tubing wire and cable...
Products Catalogue-01-Electronics thin wall heat shrink tubing wire and cable...Products Catalogue-01-Electronics thin wall heat shrink tubing wire and cable...
Products Catalogue-01-Electronics thin wall heat shrink tubing wire and cable...Welldonelily Skype
 
Conferência SC 24 | Estratégias de precificação para múltiplos canais de venda
Conferência SC 24 | Estratégias de precificação para múltiplos canais de vendaConferência SC 24 | Estratégias de precificação para múltiplos canais de venda
Conferência SC 24 | Estratégias de precificação para múltiplos canais de vendaE-Commerce Brasil
 
Conferência SC 24 | Gestão logística para redução de custos e fidelização
Conferência SC 24 | Gestão logística para redução de custos e fidelizaçãoConferência SC 24 | Gestão logística para redução de custos e fidelização
Conferência SC 24 | Gestão logística para redução de custos e fidelizaçãoE-Commerce Brasil
 
Conferência SC 24 | Estratégias omnicanal: transformando a logística em exper...
Conferência SC 24 | Estratégias omnicanal: transformando a logística em exper...Conferência SC 24 | Estratégias omnicanal: transformando a logística em exper...
Conferência SC 24 | Estratégias omnicanal: transformando a logística em exper...E-Commerce Brasil
 
Questionárionnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
QuestionárionnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnQuestionárionnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
QuestionárionnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnGustavo144776
 
Conferência SC 24 | Estratégias de precificação: loja própria e marketplace
Conferência SC 24 | Estratégias de precificação: loja própria e marketplaceConferência SC 24 | Estratégias de precificação: loja própria e marketplace
Conferência SC 24 | Estratégias de precificação: loja própria e marketplaceE-Commerce Brasil
 
Conferência SC 24 | Otimize sua logística reversa com opções OOH (out of home)
Conferência SC 24 | Otimize sua logística reversa com opções OOH (out of home)Conferência SC 24 | Otimize sua logística reversa com opções OOH (out of home)
Conferência SC 24 | Otimize sua logística reversa com opções OOH (out of home)E-Commerce Brasil
 
A LOGÍSTICA ESTÁ PREPARADA PARA O DECRESCIMENTO?
A LOGÍSTICA ESTÁ PREPARADA PARA O DECRESCIMENTO?A LOGÍSTICA ESTÁ PREPARADA PARA O DECRESCIMENTO?
A LOGÍSTICA ESTÁ PREPARADA PARA O DECRESCIMENTO?Michael Rada
 

Último (20)

Conferência SC 24 | Social commerce e recursos interativos: como aplicar no s...
Conferência SC 24 | Social commerce e recursos interativos: como aplicar no s...Conferência SC 24 | Social commerce e recursos interativos: como aplicar no s...
Conferência SC 24 | Social commerce e recursos interativos: como aplicar no s...
 
Conferência SC 24 | A força da geolocalização impulsionada em ADS e Fullcomme...
Conferência SC 24 | A força da geolocalização impulsionada em ADS e Fullcomme...Conferência SC 24 | A força da geolocalização impulsionada em ADS e Fullcomme...
Conferência SC 24 | A força da geolocalização impulsionada em ADS e Fullcomme...
 
EP GRUPO - Mídia Kit 2024 - conexão de marcas e personagens
EP GRUPO - Mídia Kit 2024 - conexão de marcas e personagensEP GRUPO - Mídia Kit 2024 - conexão de marcas e personagens
EP GRUPO - Mídia Kit 2024 - conexão de marcas e personagens
 
Conferência SC 2024 | Tendências e oportunidades de vender mais em 2024
Conferência SC 2024 | Tendências e oportunidades de vender mais em 2024Conferência SC 2024 | Tendências e oportunidades de vender mais em 2024
Conferência SC 2024 | Tendências e oportunidades de vender mais em 2024
 
Analise Ergonomica FisioPrev aula de ergonomia
Analise Ergonomica FisioPrev aula de ergonomiaAnalise Ergonomica FisioPrev aula de ergonomia
Analise Ergonomica FisioPrev aula de ergonomia
 
Conferência SC 24 | O custo real de uma operação
Conferência SC 24 | O custo real de uma operaçãoConferência SC 24 | O custo real de uma operação
Conferência SC 24 | O custo real de uma operação
 
Conferência SC 24 | Inteligência artificial no checkout: como a automatização...
Conferência SC 24 | Inteligência artificial no checkout: como a automatização...Conferência SC 24 | Inteligência artificial no checkout: como a automatização...
Conferência SC 24 | Inteligência artificial no checkout: como a automatização...
 
Conferência SC 2024 | De vilão a herói: como o frete vai salvar as suas vendas
Conferência SC 2024 |  De vilão a herói: como o frete vai salvar as suas vendasConferência SC 2024 |  De vilão a herói: como o frete vai salvar as suas vendas
Conferência SC 2024 | De vilão a herói: como o frete vai salvar as suas vendas
 
Conferência SC 24 | Data Analytics e IA: o futuro do e-commerce?
Conferência SC 24 | Data Analytics e IA: o futuro do e-commerce?Conferência SC 24 | Data Analytics e IA: o futuro do e-commerce?
Conferência SC 24 | Data Analytics e IA: o futuro do e-commerce?
 
Conferência SC 24 | Omnichannel: uma cultura ou apenas um recurso comercial?
Conferência SC 24 | Omnichannel: uma cultura ou apenas um recurso comercial?Conferência SC 24 | Omnichannel: uma cultura ou apenas um recurso comercial?
Conferência SC 24 | Omnichannel: uma cultura ou apenas um recurso comercial?
 
Ética NO AMBIENTE DE TRABALHO, fundamentosdas relações.pdf
Ética NO AMBIENTE DE TRABALHO,  fundamentosdas relações.pdfÉtica NO AMBIENTE DE TRABALHO,  fundamentosdas relações.pdf
Ética NO AMBIENTE DE TRABALHO, fundamentosdas relações.pdf
 
Conferência SC 24 | Estratégias de diversificação de investimento em mídias d...
Conferência SC 24 | Estratégias de diversificação de investimento em mídias d...Conferência SC 24 | Estratégias de diversificação de investimento em mídias d...
Conferência SC 24 | Estratégias de diversificação de investimento em mídias d...
 
Products Catalogue-01-Electronics thin wall heat shrink tubing wire and cable...
Products Catalogue-01-Electronics thin wall heat shrink tubing wire and cable...Products Catalogue-01-Electronics thin wall heat shrink tubing wire and cable...
Products Catalogue-01-Electronics thin wall heat shrink tubing wire and cable...
 
Conferência SC 24 | Estratégias de precificação para múltiplos canais de venda
Conferência SC 24 | Estratégias de precificação para múltiplos canais de vendaConferência SC 24 | Estratégias de precificação para múltiplos canais de venda
Conferência SC 24 | Estratégias de precificação para múltiplos canais de venda
 
Conferência SC 24 | Gestão logística para redução de custos e fidelização
Conferência SC 24 | Gestão logística para redução de custos e fidelizaçãoConferência SC 24 | Gestão logística para redução de custos e fidelização
Conferência SC 24 | Gestão logística para redução de custos e fidelização
 
Conferência SC 24 | Estratégias omnicanal: transformando a logística em exper...
Conferência SC 24 | Estratégias omnicanal: transformando a logística em exper...Conferência SC 24 | Estratégias omnicanal: transformando a logística em exper...
Conferência SC 24 | Estratégias omnicanal: transformando a logística em exper...
 
Questionárionnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
QuestionárionnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnQuestionárionnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
Questionárionnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
 
Conferência SC 24 | Estratégias de precificação: loja própria e marketplace
Conferência SC 24 | Estratégias de precificação: loja própria e marketplaceConferência SC 24 | Estratégias de precificação: loja própria e marketplace
Conferência SC 24 | Estratégias de precificação: loja própria e marketplace
 
Conferência SC 24 | Otimize sua logística reversa com opções OOH (out of home)
Conferência SC 24 | Otimize sua logística reversa com opções OOH (out of home)Conferência SC 24 | Otimize sua logística reversa com opções OOH (out of home)
Conferência SC 24 | Otimize sua logística reversa com opções OOH (out of home)
 
A LOGÍSTICA ESTÁ PREPARADA PARA O DECRESCIMENTO?
A LOGÍSTICA ESTÁ PREPARADA PARA O DECRESCIMENTO?A LOGÍSTICA ESTÁ PREPARADA PARA O DECRESCIMENTO?
A LOGÍSTICA ESTÁ PREPARADA PARA O DECRESCIMENTO?
 

Usando Machine Learning para prever a área plantada de soja nos EUA

  • 1. 1 Usando Machine Learning para prever a área plantada de soja nos EUA Demoday Data Science & Machine Learning Paulo Brigatti Rodrigo Tofoli Nicholas Gimenes
  • 2. 2 ARTIGO COMPLETO NO MEDIUM Usando Machine Learning para Previsão da área plantada de soja nos Estados Unidos https://medium.com/@nicholasgimenes/usando-machine-learning-para-previs%C3%A3o-da- %C3%A1rea-plantada-de-soja-nos-estados-unidos-9de8edc7aeb3
  • 5. 5 Mercado de Soja +362 +125 +140 Em números
  • 6. 6 a perspectiva de área plantada de soja. Área plantada Porque projetar área plantada dos Estados Unidos? 1) A produção brasileira e americana caminham lado a lado. 2) Pela riqueza de informações de domínio público em portais do governo norte americano (USDA - Departamento de Agricultura do Governo Americano). ? Qual a utilidade desta projeção? A própria USDA divulga sua projeção para os próximos 10 anos. Mas áreas de inteligência de mercado de empresas que atuam no ramo, seus clientes (produtores, consumidores, investidores, comerciantes, vendedores de insumos e implementos) e até outros governos precisam de suas próprias projeções independentes e complementares, pois as premissas e modelos utilizados pela USDA não são divulgados.
  • 7. 7 AGENDA Contexto Fontes & Análise Exploratória Modelagem & Produção Conclusão
  • 8. 8 Dados macroeconômicos DADOS FONTE ● ● ● ● ● ● Dados da indústria de soja dos EUA ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Fonte: USDA Departamento de Agricultura dos EUA Projeção de área plantada da USDA até 2029
  • 9. 9 Dados macroeconômicos DADOS FONTE ● ● ● ● ● ● Fonte: USDA Departamento de Agricultura dos EUA Armadilha de dataleak: ● Indicador calculado retroativamente utilizando o ano de 2010 como base. ● Os anos anteriores são a variação % com relação ao ano de 2010.
  • 10. 10 SÉRIES TEMPORAIS: E AGORA? Time Serious ? Etapas extras no EDA e na preparação do dados: ● Estacionariedade ● Diferenciação ● Separação Train x Test Modelos estatísticos e algoritmos diferentes dos vistos em aula (multivariados): ● VAR ● Prophet ● LSTM
  • 11. 11 APENAS DUAS FEATURES COM DADOS NULOS ENTRE 1994 E 2018 Calculado a partir de outras features. Como temos mudança de patamar no tempo seria ruim completar com média geral. Utilizada média dos últimos 4 anos.
  • 12. 12 VISUALMENTE POUCAS SÉRIES PARECERAM ESTACIONÁRIAS (NORMALIZADAS) Nas séries estacionárias os pontos variam em torno da mesma média e variância. Alguns métodos precisam que as séries sejam estacionárias (como o VAR).
  • 13. 13 DIVERSAS FEATURES CORRELACIONADAS INDICARAM OPORTUNIDADE DE REDUÇÃO
  • 14. 14 TESTE DE AUTOCORRELAÇÃO: 2 A 3 ANOS DE LAG PARECERAM SUFICIENTES Aplicado teste ACF disponível na statsmodels: ● Permite analisar o lag: quantos anos passados influenciam o ano seguinte. ● Entre dois e três anos de lag se mostraram suficientes. ● Exemplo: o ano de 2018 é influenciado pelos anos 2016 e 2017. Os anos 2015 pra trás tem uma correlação aleatória com 2018, ou seja, nao ajudam a predizer o ano 2018. ACFACF Lags (valores passados da feature) Auto Correlation Function: Mede a correlação (de -1 a +1) entre pontos da série temporal e seus valores passados. Precisamos examinar os pontos em cada lag para determinar se há correlação significante. Se for significativa, estará fora dos limites de significância (em azul). Caso contrário, a correlação é aleatória. Obs: No lag = 0 é sempre = 1.
  • 15. 15 AGENDA Contexto Fontes & Análise Exploratória Modelagem & Produção Conclusão
  • 16. 16 PREPARAÇÃO Treino x Teste Com time series não podemos fazer seleção aleatória de treino e teste para nao termos data leakage. É necessário separar por períodos: ● Treino: Dados de 1994 a 2013 ● Teste: Dados de 2014 a 2018 Normalização A normalização foi aplicada após a separação de treino e teste para evitar data leakage. Teste de estacionariedade e diferenciação Para aplicação do VAR um teste estatístico indica se a série é estacionária (ADFuller, disponível na statsmodels). Algumas features foram diferenciadas até 3 vezes para se tornarem estacionárias. Redução de dimensionalidade As features foram ordenadas pela correlação com a variável resposta para inclusão nos modelos (testando o resultado com conjuntos de features pequenos, médios e grandes).
  • 17. 17 MODELAGEM: PROPHET COM MELHOR RESULTADO QUE O BASELINE (VAR) VAR (Vector Autoregression) Prophet ● Modelo que considera a relação das variáveis entre si e entre seus valores passados. ● Não performa para conjuntos grandes de features. Foram testados diferentes conjuntos de features e lags (número de períodos passados). ● Utilizadas 15 features com lag order = 2. MAE: 18.749 ● Exige pouca preparação dos dados: as séries sequer precisam ser estacionárias ou normalizadas. ● Todavia, requer a projeção de cada feature de modo univariado usando o próprio Prophet e retroalimenta-lo para fazer a projeção multivariada. ● Utilizadas 14 features. ● Multivariado teve MAE um pouco maior, mas refletiu melhor a tendência da série MAE Univariado: 9.481 MAE Multivariado: 11.128 MAE = Mean Absolute Error
  • 18. 18 PRODUÇÃO: SELEÇÃO DE ANOS A SEREM PROJETADOS COM PROPHET MULTIVARIADO https://soy-planted-area.herokuapp.com/
  • 19. 19 AGENDA Contexto Fontes & Análise Exploratória Modelagem & Produção Conclusão
  • 20. 20 CONCLUSÃO Projeção: Prophet versus USDA● VAR se mostrou bastante trabalhoso na preparação dos dados e transformação das séries. ● Outro problema no VAR é a quantidade de features versus o lag order: a complexidade do algoritmo explode conforme estes aumentam, sendo necessários testes e calibragem. ● Prophet foi muito mais simples de utilizar, apesar de requerer certo trabalho extra para modelagem multivariada. Ainda assim mostrou melhores resultados que o VAR. ● LSTM apresentou complexidade na preparação do input para o algoritmo e no trabalho com os hiperparâmetros. Dado o prazo do projeto, optamos por focar na otimização do VAR e Prophet, mas avançar no LSTM seria um próximo passo para desafiar os resultados do Prophet. Atingidos os objetivos de: 1) Chegar em uma projeção independente para confrontar com a divulgada pela USDA; 2) Obter maior conhecimento sobre as features utilizadas e quanto influenciam na curva esperada para os próximos anos.