SlideShare uma empresa Scribd logo
1 de 91
Baixar para ler offline
Estatística Vs. Aprendizado de Máquina
Afinal, qual é a diferença? E quando usar qual?
Vinícius M. de Sousa1
1vinisousa04@gmail.com
Economista pela ESAG/UDESC
Mestrando no PGCIn/UFSC
Cientista de Dados na Meantrix
17 de Maio de 2019
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 1 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Sumário
1 Introdução
Prólogo
Objetivos
2 Modelos Estatísticos e Aprendizado de Máquina
Diferenças Conceituais
Exemplo: IPCA Previsão e Causalidade
3 Aplicações/Ferramentas
Estatística no Esporte
ML na compra de Roupas
Ferramentas
4 Considerações Finais
Conclusões
Bibliografia
Q & A e Contato
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 2 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Sumário
1 Introdução
Prólogo
Objetivos
2 Modelos Estatísticos e Aprendizado de Máquina
Diferenças Conceituais
Exemplo: IPCA Previsão e Causalidade
3 Aplicações/Ferramentas
Estatística no Esporte
ML na compra de Roupas
Ferramentas
4 Considerações Finais
Conclusões
Bibliografia
Q & A e Contato
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 3 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Motivação: O Meme
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 4 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Motivação: O Meme
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 4 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Motivação: O Meme
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 4 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Machine Learning, o que é novo?
Existe há algumas décadas:
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Machine Learning, o que é novo?
Existe há algumas décadas:
1 Ridge regression [HK70] - Análise de regressões com multicolinearidade;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Machine Learning, o que é novo?
Existe há algumas décadas:
1 Ridge regression [HK70] - Análise de regressões com multicolinearidade;
2 Classification and Regression Trees [BFOS83] - Mistura de variáveis categóricas
e contínuas;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Machine Learning, o que é novo?
Existe há algumas décadas:
1 Ridge regression [HK70] - Análise de regressões com multicolinearidade;
2 Classification and Regression Trees [BFOS83] - Mistura de variáveis categóricas
e contínuas;
3 Thin-plate splines [Boo89] - Interpolação e suavização de dados;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Machine Learning, o que é novo?
Existe há algumas décadas:
1 Ridge regression [HK70] - Análise de regressões com multicolinearidade;
2 Classification and Regression Trees [BFOS83] - Mistura de variáveis categóricas
e contínuas;
3 Thin-plate splines [Boo89] - Interpolação e suavização de dados;
4 Support vector machine [BGV92] - Classificação.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Machine Learning, o que é novo?
Existe há algumas décadas:
1 Ridge regression [HK70] - Análise de regressões com multicolinearidade;
2 Classification and Regression Trees [BFOS83] - Mistura de variáveis categóricas
e contínuas;
3 Thin-plate splines [Boo89] - Interpolação e suavização de dados;
4 Support vector machine [BGV92] - Classificação.
Portanto, o que é novo é a aplicação dos algoritmos em computadores pessoais.
E se estatística e machine learning são a mesma coisa, por que não vemos os
departamentos de estatística mudando o nome?
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Explicação Comum
A principal diferença entre Machine Learning e Estatística é o propósito de
cada um. Algoritmos de Machine Learning tem como objetivo fazer
predições com a maior acurácia possível. Já modelos estatísticos tem como
objetivo fazer inferência sobre a relação entre as variáveis.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Explicação Comum
A principal diferença entre Machine Learning e Estatística é o propósito de
cada um. Algoritmos de Machine Learning tem como objetivo fazer
predições com a maior acurácia possível. Já modelos estatísticos tem como
objetivo fazer inferência sobre a relação entre as variáveis.
Perguntas:
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Explicação Comum
A principal diferença entre Machine Learning e Estatística é o propósito de
cada um. Algoritmos de Machine Learning tem como objetivo fazer
predições com a maior acurácia possível. Já modelos estatísticos tem como
objetivo fazer inferência sobre a relação entre as variáveis.
Perguntas:
1 ML e Estatística/Modelos Estatísticos tem a mesma origem?
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Explicação Comum
A principal diferença entre Machine Learning e Estatística é o propósito de
cada um. Algoritmos de Machine Learning tem como objetivo fazer
predições com a maior acurácia possível. Já modelos estatísticos tem como
objetivo fazer inferência sobre a relação entre as variáveis.
Perguntas:
1 ML e Estatística/Modelos Estatísticos tem a mesma origem?
Não. Estatística é um sub-campo da matemática e Machine Learning da
computação [JWHT13].
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Explicação Comum
A principal diferença entre Machine Learning e Estatística é o propósito de
cada um. Algoritmos de Machine Learning tem como objetivo fazer
predições com a maior acurácia possível. Já modelos estatísticos tem como
objetivo fazer inferência sobre a relação entre as variáveis.
Perguntas:
1 ML e Estatística/Modelos Estatísticos tem a mesma origem?
Não. Estatística é um sub-campo da matemática e Machine Learning da
computação [JWHT13].
2 Estatística e Modelos Estatísticos são a mesma coisa?
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Explicação Comum
A principal diferença entre Machine Learning e Estatística é o propósito de
cada um. Algoritmos de Machine Learning tem como objetivo fazer
predições com a maior acurácia possível. Já modelos estatísticos tem como
objetivo fazer inferência sobre a relação entre as variáveis.
Perguntas:
1 ML e Estatística/Modelos Estatísticos tem a mesma origem?
Não. Estatística é um sub-campo da matemática e Machine Learning da
computação [JWHT13].
2 Estatística e Modelos Estatísticos são a mesma coisa?
Não. Estatística é o estudo matemático de dados. Modelos estatísticos são
modelos que permitem fazer inferência sobre variáves dados um conjunto de
dados [JWHT13].
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Explicação Comum
A principal diferença entre Machine Learning e Estatística é o propósito de
cada um. Algoritmos de Machine Learning tem como objetivo fazer
predições com a maior acurácia possível. Já modelos estatísticos tem como
objetivo fazer inferência sobre a relação entre as variáveis.
Perguntas:
1 ML e Estatística/Modelos Estatísticos tem a mesma origem?
Não. Estatística é um sub-campo da matemática e Machine Learning da
computação [JWHT13].
2 Estatística e Modelos Estatísticos são a mesma coisa?
Não. Estatística é o estudo matemático de dados. Modelos estatísticos são
modelos que permitem fazer inferência sobre variáves dados um conjunto de
dados [JWHT13].
3 Quais métodos são de qual campo?
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Prólogo
Explicação Comum
A principal diferença entre Machine Learning e Estatística é o propósito de
cada um. Algoritmos de Machine Learning tem como objetivo fazer
predições com a maior acurácia possível. Já modelos estatísticos tem como
objetivo fazer inferência sobre a relação entre as variáveis.
Perguntas:
1 ML e Estatística/Modelos Estatísticos tem a mesma origem?
Não. Estatística é um sub-campo da matemática e Machine Learning da
computação [JWHT13].
2 Estatística e Modelos Estatísticos são a mesma coisa?
Não. Estatística é o estudo matemático de dados. Modelos estatísticos são
modelos que permitem fazer inferência sobre variáves dados um conjunto de
dados [JWHT13].
3 Quais métodos são de qual campo?
Há uma intersecção entre a utilização dos métodos (Isso eu que estou
afirmando).
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Objetivos
Objetivos da Apresentação
1 Apresentar diferenças conceituais e prática entre modelos estatísticos e machine
learning;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 7 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Objetivos
Objetivos da Apresentação
1 Apresentar diferenças conceituais e prática entre modelos estatísticos e machine
learning;
2 Comparar modelagem estatística e machine learning em um exemplo prático;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 7 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Objetivos
Objetivos da Apresentação
1 Apresentar diferenças conceituais e prática entre modelos estatísticos e machine
learning;
2 Comparar modelagem estatística e machine learning em um exemplo prático;
3 Mostrar casos de aplicações de modelos estatísticos e ML;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 7 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Objetivos
Objetivos da Apresentação
1 Apresentar diferenças conceituais e prática entre modelos estatísticos e machine
learning;
2 Comparar modelagem estatística e machine learning em um exemplo prático;
3 Mostrar casos de aplicações de modelos estatísticos e ML;
4 Apresentar ferramentas para se fazer modelos estatísticos e machine learning.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 7 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Sumário
1 Introdução
Prólogo
Objetivos
2 Modelos Estatísticos e Aprendizado de Máquina
Diferenças Conceituais
Exemplo: IPCA Previsão e Causalidade
3 Aplicações/Ferramentas
Estatística no Esporte
ML na compra de Roupas
Ferramentas
4 Considerações Finais
Conclusões
Bibliografia
Q & A e Contato
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 8 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Diferenças Conceituais
Origem da Confusão e Diferenças Importantes
Origem da Confusão:
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Diferenças Conceituais
Origem da Confusão e Diferenças Importantes
Origem da Confusão:
Métodos estatísticos e de ML podem ser usados tanto para previsão quanto
inferência, e.g., regressão linear [BAK18];
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Diferenças Conceituais
Origem da Confusão e Diferenças Importantes
Origem da Confusão:
Métodos estatísticos e de ML podem ser usados tanto para previsão quanto
inferência, e.g., regressão linear [BAK18];
Modelos Estatísticos [Woo10]:
Machine Learning [SSBD14]:
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Diferenças Conceituais
Origem da Confusão e Diferenças Importantes
Origem da Confusão:
Métodos estatísticos e de ML podem ser usados tanto para previsão quanto
inferência, e.g., regressão linear [BAK18];
Modelos Estatísticos [Woo10]:
1 Usam todos os dados disponíveis
para fazer inferência;
Machine Learning [SSBD14]:
1 Divide os dados em uma parte para
treino e outra para teste;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Diferenças Conceituais
Origem da Confusão e Diferenças Importantes
Origem da Confusão:
Métodos estatísticos e de ML podem ser usados tanto para previsão quanto
inferência, e.g., regressão linear [BAK18];
Modelos Estatísticos [Woo10]:
1 Usam todos os dados disponíveis
para fazer inferência;
2 Têm hipóteses sobre como os dados
são gerados, para poder testar as
relações de causalidade;
Machine Learning [SSBD14]:
1 Divide os dados em uma parte para
treino e outra para teste;
2 Não tem hipóteses sobre os dados,
dando flexibilidade para encontrar
padrões complexos;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Diferenças Conceituais
Origem da Confusão e Diferenças Importantes
Origem da Confusão:
Métodos estatísticos e de ML podem ser usados tanto para previsão quanto
inferência, e.g., regressão linear [BAK18];
Modelos Estatísticos [Woo10]:
1 Usam todos os dados disponíveis
para fazer inferência;
2 Têm hipóteses sobre como os dados
são gerados, para poder testar as
relações de causalidade;
3 Quando as hipóteses são válidas, tem
estimadores não viesados e
consistentes.
Machine Learning [SSBD14]:
1 Divide os dados em uma parte para
treino e outra para teste;
2 Não tem hipóteses sobre os dados,
dando flexibilidade para encontrar
padrões complexos;
3 Viés é estimado de maneira
data-driven.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Diferenças Conceituais
Origem da Confusão e Diferenças Importantes
Origem da Confusão:
Métodos estatísticos e de ML podem ser usados tanto para previsão quanto
inferência, e.g., regressão linear [BAK18];
Modelos Estatísticos [Woo10]:
1 Usam todos os dados disponíveis
para fazer inferência;
2 Têm hipóteses sobre como os dados
são gerados, para poder testar as
relações de causalidade;
3 Quando as hipóteses são válidas, tem
estimadores não viesados e
consistentes.
Machine Learning [SSBD14]:
1 Divide os dados em uma parte para
treino e outra para teste;
2 Não tem hipóteses sobre os dados,
dando flexibilidade para encontrar
padrões complexos;
3 Viés é estimado de maneira
data-driven.
E como isso fica na prática?
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
IPCA
O que é o IPCA:
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 10 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
IPCA
O que é o IPCA:
Mede o custo de vida para famílias com renda mensal de 1 a 40 salários-mínimos;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 10 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
IPCA
O que é o IPCA:
Mede o custo de vida para famílias com renda mensal de 1 a 40 salários-mínimos;
Feita nas cidades de São Paulo, Rio de Janeiro, Belo Horizonte, Porto Alegre,
Recife, Belém, Fortaleza, Salvador, Curitiba, Goiânia e Brasília;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 10 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
IPCA
O que é o IPCA:
Mede o custo de vida para famílias com renda mensal de 1 a 40 salários-mínimos;
Feita nas cidades de São Paulo, Rio de Janeiro, Belo Horizonte, Porto Alegre,
Recife, Belém, Fortaleza, Salvador, Curitiba, Goiânia e Brasília;
É o índice utilizado pelo Banco Central como alvo das metas de inflacão.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 10 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
IPCA
O que é o IPCA:
Mede o custo de vida para famílias com renda mensal de 1 a 40 salários-mínimos;
Feita nas cidades de São Paulo, Rio de Janeiro, Belo Horizonte, Porto Alegre,
Recife, Belém, Fortaleza, Salvador, Curitiba, Goiânia e Brasília;
É o índice utilizado pelo Banco Central como alvo das metas de inflacão.
É composto pelos subgrupos: Alimentação e Bebidas, Habitação, Artigos de
Residência, Vestuário, Transportes, Comunicação, Saúde e Cuidades Pessoais,
Despesas Pessoais, Educação, Bens Comercializáveis, Bens não COmercializáveis,
Índice de Preços Monitorados, Água e Esgoto, Gás e Butijão, Energia, Ônibus Urbano,
Ônibus Intermunicipal, Metro, Gasolina, Diesel, Plano de Saúde, Telefone Fixo.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 10 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Problema: Conheça João
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 11 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Problema: Conheça João
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 11 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Problema: Conheça João
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 11 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Problema: Conheça João
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 11 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Definindo o Problema: Perguntas que João se fez
1 o IPCA é o índice que mede o custo de vida das famílias;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 12 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Definindo o Problema: Perguntas que João se fez
1 o IPCA é o índice que mede o custo de vida das famílias;
2 Será que o subgrupo Vestuário é afetado pelo IPCA?;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 12 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Definindo o Problema: Perguntas que João se fez
1 o IPCA é o índice que mede o custo de vida das famílias;
2 Será que o subgrupo Vestuário é afetado pelo IPCA?;
3 Como eu posso prever qual será o valor do IPCA?
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 12 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Definindo o Problema: Perguntas que João se fez
1 o IPCA é o índice que mede o custo de vida das famílias;
2 Será que o subgrupo Vestuário é afetado pelo IPCA?;
3 Como eu posso prever qual será o valor do IPCA?
Como podemos ajudar João, o gerente?
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 12 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Resolvendo: O Plano
Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de
vestuário e ML para prever o IPCA.
Especificamente:
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Resolvendo: O Plano
Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de
vestuário e ML para prever o IPCA.
Especificamente:
Para testar causalidade: método de [Pfa08] (cointegração de séries temporais);
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Resolvendo: O Plano
Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de
vestuário e ML para prever o IPCA.
Especificamente:
Para testar causalidade: método de [Pfa08] (cointegração de séries temporais);
Para fazer a predição: método de [CK10] (rede neural perceptron multiplas
camadas);
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Resolvendo: O Plano
Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de
vestuário e ML para prever o IPCA.
Especificamente:
Para testar causalidade: método de [Pfa08] (cointegração de séries temporais);
Para fazer a predição: método de [CK10] (rede neural perceptron multiplas
camadas);
Rede Neural não permite fazer análise de causalidade;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Resolvendo: O Plano
Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de
vestuário e ML para prever o IPCA.
Especificamente:
Para testar causalidade: método de [Pfa08] (cointegração de séries temporais);
Para fazer a predição: método de [CK10] (rede neural perceptron multiplas
camadas);
Rede Neural não permite fazer análise de causalidade;
Vamos comparar o resultado da previsão das diferentes abordagens.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Resolvendo: O Plano
Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de
vestuário e ML para prever o IPCA.
Especificamente:
Para testar causalidade: método de [Pfa08] (cointegração de séries temporais);
Para fazer a predição: método de [CK10] (rede neural perceptron multiplas
camadas);
Rede Neural não permite fazer análise de causalidade;
Vamos comparar o resultado da previsão das diferentes abordagens.
Para isso usamos [CSC18] para pegar as variações mensais percentuais de
Jan/2000 à Mar/2019.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Cointegração de Séries Temporais
Figura 1: Teste de Cointegração dos resíduos. [Pfa08, p. 63]
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 14 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Configuração da Rede Neural
Figura 2: Representação visual da rede neural. Elabo-
rado pelo autor.
Rede Neural Perceptron Múltiplas
camadas;
Com elemente de tendência temporal;
5 Camadas escondidas;
20 repetições.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 15 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Resultados: Teste de Cointegração
Tabela 1: Subgrupos que são causados pelo IPCA
Hipótese Nula Estatística F p-valor Diagnóstico Defasagens
IPCA do not cause Alimentacao Bebidas 2.214 0.02041 Reject H0 9
IPCA do not cause Artigos Residencia 7.58 0.0005794 Reject H0 2
IPCA do not cause Vestuário 1.818 0.02207 Reject H0 18
IPCA do not cause Comunicação 4.463 1.014e-06 Reject H0 12
IPCA do not cause Saude Cuidados Pessoais 6.347 2.701e-10 Reject H0 12
IPCA do not cause Despesas Pessoais 8.796 0.003179 Reject H0 1
IPCA do not cause Educação 4.498 8.698e-07 Reject H0 12
IPCA do not cause Não Comercializáveis 2.62 0.002259 Reject H0 12
IPCA do not cause Água Esgoto 5.889 0.0001272 Reject H0 4
IPCA do not cause Ônibus Urbano 15.66 8.813e-05 Reject H0 1
IPCA do not cause Ônibus Intermun 2.855 0.0006119 Reject H0 13
IPCA do not cause Metro 7.337 1.004e-05 Reject H0 4
IPCA do not cause Plano Saúde 2.469 0.03202 Reject H0 5
IPCA do not cause Telefone Fixo 4.099 2.372e-06 Reject H0 13
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 16 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Exemplo: IPCA Previsão e Causalidade
Resultados: Previsão
Figura 3: Valores Observados e estimados do IPCA
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 17 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Sumário
1 Introdução
Prólogo
Objetivos
2 Modelos Estatísticos e Aprendizado de Máquina
Diferenças Conceituais
Exemplo: IPCA Previsão e Causalidade
3 Aplicações/Ferramentas
Estatística no Esporte
ML na compra de Roupas
Ferramentas
4 Considerações Finais
Conclusões
Bibliografia
Q & A e Contato
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 18 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
Vocês Conhcem Paul DePodesta?
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 19 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
E o filme Money Ball?
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
E o filme Money Ball?
Conta a história de Billy Beane (GM
do Oakland Athletics) e Paul DePosta
(Estudante de Economis em Yale);
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
E o filme Money Ball?
Conta a história de Billy Beane (GM
do Oakland Athletics) e Paul DePosta
(Estudante de Economis em Yale);
Montaram em 2002 um time de
beisebol com estatística;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
E o filme Money Ball?
Conta a história de Billy Beane (GM
do Oakland Athletics) e Paul DePosta
(Estudante de Economis em Yale);
Montaram em 2002 um time de
beisebol com estatística;
Ideia: buscaram encontrar habilidade
subvalorizadas no mercado;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
E o filme Money Ball?
Conta a história de Billy Beane (GM
do Oakland Athletics) e Paul DePosta
(Estudante de Economis em Yale);
Montaram em 2002 um time de
beisebol com estatística;
Ideia: buscaram encontrar habilidade
subvalorizadas no mercado;
Teoria de Preços 101: Salário é
correspondente à produtividade
[Fri17].
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
E o filme Money Ball?
Conta a história de Billy Beane (GM
do Oakland Athletics) e Paul DePosta
(Estudante de Economis em Yale);
Montaram em 2002 um time de
beisebol com estatística;
Ideia: buscaram encontrar habilidade
subvalorizadas no mercado;
Teoria de Preços 101: Salário é
correspondente à produtividade
[Fri17].
E qual foi o resultado?
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
Resultados Moneyball
Para o Oakland Athletics:
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
Resultados Moneyball
Para o Oakland Athletics:
Há resistência, pois no início não teve resultados bons;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
Resultados Moneyball
Para o Oakland Athletics:
Há resistência, pois no início não teve resultados bons;
Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de
vitórias seguidas;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
Resultados Moneyball
Para o Oakland Athletics:
Há resistência, pois no início não teve resultados bons;
Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de
vitórias seguidas;
Resultou em uma das temporadas com maior lucro da franquia [Fri17].
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
Resultados Moneyball
Para o Oakland Athletics:
Há resistência, pois no início não teve resultados bons;
Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de
vitórias seguidas;
Resultou em uma das temporadas com maior lucro da franquia [Fri17].
O caso inspirou estudos acadêmicos, especificamente [Fri17], que conclui:
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
Resultados Moneyball
Para o Oakland Athletics:
Há resistência, pois no início não teve resultados bons;
Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de
vitórias seguidas;
Resultou em uma das temporadas com maior lucro da franquia [Fri17].
O caso inspirou estudos acadêmicos, especificamente [Fri17], que conclui:
O mercado de trabalho do beisebol era ineficiente no período;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
Resultados Moneyball
Para o Oakland Athletics:
Há resistência, pois no início não teve resultados bons;
Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de
vitórias seguidas;
Resultou em uma das temporadas com maior lucro da franquia [Fri17].
O caso inspirou estudos acadêmicos, especificamente [Fri17], que conclui:
O mercado de trabalho do beisebol era ineficiente no período;
Por exemplo, não havia prêmio salarial para os rebatedores que eram bons em
roubar bases;
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Estatística no Esporte
Resultados Moneyball
Para o Oakland Athletics:
Há resistência, pois no início não teve resultados bons;
Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de
vitórias seguidas;
Resultou em uma das temporadas com maior lucro da franquia [Fri17].
O caso inspirou estudos acadêmicos, especificamente [Fri17], que conclui:
O mercado de trabalho do beisebol era ineficiente no período;
Por exemplo, não havia prêmio salarial para os rebatedores que eram bons em
roubar bases;
E a lista segue...
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
ML na compra de Roupas
João está de volta!
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 22 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
ML na compra de Roupas
João está de volta!
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 22 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
ML na compra de Roupas
O caso Stitch Fix
Figura 4: Link para o Algoritmhs Tour
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 23 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Ferramentas
Talvez as mais conhecidas
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Sumário
1 Introdução
Prólogo
Objetivos
2 Modelos Estatísticos e Aprendizado de Máquina
Diferenças Conceituais
Exemplo: IPCA Previsão e Causalidade
3 Aplicações/Ferramentas
Estatística no Esporte
ML na compra de Roupas
Ferramentas
4 Considerações Finais
Conclusões
Bibliografia
Q & A e Contato
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 25 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Conclusões
Por hoje é só pessoal!
Espera-se aqui ter dado um primeiro passo em direção ao esclarecimento das
diferenças entre modelagem estatística e aprendizado de máquina. Mostrado
exemplos compreensíveis e algumas (das várias) ferramentas.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 26 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Bibliografia
Referências I
Danilo Bzdok, Naomi Altman, and Martin Krzywinski, Statistics versus machine
learning, Nature methods 15 (2018), no. 4, 233.
L Friedman Breiman, JH Friedman, RA Olshen, and C Stone, Cj, 1984.
classification and regression trees, Pacific Grove, Kalifornien (1983).
Bernhard E. Boser, Isabelle M. Guyon, and Vladimir N. Vapnik, A training
algorithm for optimal margin classifiers, Proceedings of the Fifth Annual
Workshop on Computational Learning Theory (New York, NY, USA), COLT ’92,
ACM, 1992, pp. 144–152.
Fred L. Bookstein, Principal warps: Thin-plate splines and the decomposition
of deformations, IEEE Transactions on pattern analysis and machine intelligence
11 (1989), no. 6, 567–585.
Sven F Crone and Nikolaos Kourentzes, Feature selection for time series
prediction–a combined filter and wrapper approach for neural networks,
Neurocomputing 73 (2010), no. 10-12, 1923–1936.
Pedro Costa Ferreira, Talitha Speranza, and Jonatha Costa, Bets: Brazilian
economic time series, 2018, R package version 0.4.9.
Milton Friedman, Price theory, Routledge, 2017.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 27 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Bibliografia
Referências II
Arthur E Hoerl and Robert W Kennard, Ridge regression: Biased estimation
for nonorthogonal problems, Technometrics 12 (1970), no. 1, 55–67.
Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani, An
introduction to statistical learning, vol. 112, Springer, 2013.
Bernhard Pfaff, Analysis of integrated series with r and cointegrated time,
Springer, 2008.
Shai Shalev-Shwartz and Shai Ben-David, Understanding machine learning:
From theory to algorithms, Cambridge university press, 2014.
Jeffrey M Wooldridge, Econometric analysis of cross section and panel data,
MIT press, 2010.
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 28 / 29
Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais
Q & A e Contato
Obrigado!
Vinícius Melquíades de Sousa
Economista e Cientista de Dados
in/viniciusmsousa/
github.com/viniciusmsousa
E-mail: vinisousa04@gmail.com
Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 29 / 29

Mais conteúdo relacionado

Semelhante a Estatística VS. Machine Learning

Banner tcc
Banner tccBanner tcc
Banner tccarfeta
 
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃORISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃOBruno Henrique Nunes
 
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados Empresariais
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados EmpresariaisGestão e Engenharia do Conhecimento: Perspectivas e Resultados Empresariais
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados EmpresariaisRoberto C. S. Pacheco
 
Influência do PMBOK no sucesso dos Projetos de Sistemas de Informação
Influência do PMBOK no sucesso dos Projetos de Sistemas de InformaçãoInfluência do PMBOK no sucesso dos Projetos de Sistemas de Informação
Influência do PMBOK no sucesso dos Projetos de Sistemas de InformaçãoLuisEspe
 

Semelhante a Estatística VS. Machine Learning (7)

Banner tcc
Banner tccBanner tcc
Banner tcc
 
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃORISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
 
DATA SCIENCE.pptx
DATA SCIENCE.pptxDATA SCIENCE.pptx
DATA SCIENCE.pptx
 
Dutra (2)
Dutra (2)Dutra (2)
Dutra (2)
 
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados Empresariais
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados EmpresariaisGestão e Engenharia do Conhecimento: Perspectivas e Resultados Empresariais
Gestão e Engenharia do Conhecimento: Perspectivas e Resultados Empresariais
 
BI & BigData
BI & BigDataBI & BigData
BI & BigData
 
Influência do PMBOK no sucesso dos Projetos de Sistemas de Informação
Influência do PMBOK no sucesso dos Projetos de Sistemas de InformaçãoInfluência do PMBOK no sucesso dos Projetos de Sistemas de Informação
Influência do PMBOK no sucesso dos Projetos de Sistemas de Informação
 

Estatística VS. Machine Learning

  • 1. Estatística Vs. Aprendizado de Máquina Afinal, qual é a diferença? E quando usar qual? Vinícius M. de Sousa1 1vinisousa04@gmail.com Economista pela ESAG/UDESC Mestrando no PGCIn/UFSC Cientista de Dados na Meantrix 17 de Maio de 2019 Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 1 / 29
  • 2. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Sumário 1 Introdução Prólogo Objetivos 2 Modelos Estatísticos e Aprendizado de Máquina Diferenças Conceituais Exemplo: IPCA Previsão e Causalidade 3 Aplicações/Ferramentas Estatística no Esporte ML na compra de Roupas Ferramentas 4 Considerações Finais Conclusões Bibliografia Q & A e Contato Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 2 / 29
  • 3. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Sumário 1 Introdução Prólogo Objetivos 2 Modelos Estatísticos e Aprendizado de Máquina Diferenças Conceituais Exemplo: IPCA Previsão e Causalidade 3 Aplicações/Ferramentas Estatística no Esporte ML na compra de Roupas Ferramentas 4 Considerações Finais Conclusões Bibliografia Q & A e Contato Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 3 / 29
  • 4. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Motivação: O Meme Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 4 / 29
  • 5. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Motivação: O Meme Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 4 / 29
  • 6. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Motivação: O Meme Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 4 / 29
  • 7. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Machine Learning, o que é novo? Existe há algumas décadas: Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
  • 8. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Machine Learning, o que é novo? Existe há algumas décadas: 1 Ridge regression [HK70] - Análise de regressões com multicolinearidade; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
  • 9. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Machine Learning, o que é novo? Existe há algumas décadas: 1 Ridge regression [HK70] - Análise de regressões com multicolinearidade; 2 Classification and Regression Trees [BFOS83] - Mistura de variáveis categóricas e contínuas; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
  • 10. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Machine Learning, o que é novo? Existe há algumas décadas: 1 Ridge regression [HK70] - Análise de regressões com multicolinearidade; 2 Classification and Regression Trees [BFOS83] - Mistura de variáveis categóricas e contínuas; 3 Thin-plate splines [Boo89] - Interpolação e suavização de dados; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
  • 11. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Machine Learning, o que é novo? Existe há algumas décadas: 1 Ridge regression [HK70] - Análise de regressões com multicolinearidade; 2 Classification and Regression Trees [BFOS83] - Mistura de variáveis categóricas e contínuas; 3 Thin-plate splines [Boo89] - Interpolação e suavização de dados; 4 Support vector machine [BGV92] - Classificação. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
  • 12. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Machine Learning, o que é novo? Existe há algumas décadas: 1 Ridge regression [HK70] - Análise de regressões com multicolinearidade; 2 Classification and Regression Trees [BFOS83] - Mistura de variáveis categóricas e contínuas; 3 Thin-plate splines [Boo89] - Interpolação e suavização de dados; 4 Support vector machine [BGV92] - Classificação. Portanto, o que é novo é a aplicação dos algoritmos em computadores pessoais. E se estatística e machine learning são a mesma coisa, por que não vemos os departamentos de estatística mudando o nome? Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 5 / 29
  • 13. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Explicação Comum A principal diferença entre Machine Learning e Estatística é o propósito de cada um. Algoritmos de Machine Learning tem como objetivo fazer predições com a maior acurácia possível. Já modelos estatísticos tem como objetivo fazer inferência sobre a relação entre as variáveis. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
  • 14. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Explicação Comum A principal diferença entre Machine Learning e Estatística é o propósito de cada um. Algoritmos de Machine Learning tem como objetivo fazer predições com a maior acurácia possível. Já modelos estatísticos tem como objetivo fazer inferência sobre a relação entre as variáveis. Perguntas: Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
  • 15. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Explicação Comum A principal diferença entre Machine Learning e Estatística é o propósito de cada um. Algoritmos de Machine Learning tem como objetivo fazer predições com a maior acurácia possível. Já modelos estatísticos tem como objetivo fazer inferência sobre a relação entre as variáveis. Perguntas: 1 ML e Estatística/Modelos Estatísticos tem a mesma origem? Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
  • 16. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Explicação Comum A principal diferença entre Machine Learning e Estatística é o propósito de cada um. Algoritmos de Machine Learning tem como objetivo fazer predições com a maior acurácia possível. Já modelos estatísticos tem como objetivo fazer inferência sobre a relação entre as variáveis. Perguntas: 1 ML e Estatística/Modelos Estatísticos tem a mesma origem? Não. Estatística é um sub-campo da matemática e Machine Learning da computação [JWHT13]. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
  • 17. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Explicação Comum A principal diferença entre Machine Learning e Estatística é o propósito de cada um. Algoritmos de Machine Learning tem como objetivo fazer predições com a maior acurácia possível. Já modelos estatísticos tem como objetivo fazer inferência sobre a relação entre as variáveis. Perguntas: 1 ML e Estatística/Modelos Estatísticos tem a mesma origem? Não. Estatística é um sub-campo da matemática e Machine Learning da computação [JWHT13]. 2 Estatística e Modelos Estatísticos são a mesma coisa? Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
  • 18. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Explicação Comum A principal diferença entre Machine Learning e Estatística é o propósito de cada um. Algoritmos de Machine Learning tem como objetivo fazer predições com a maior acurácia possível. Já modelos estatísticos tem como objetivo fazer inferência sobre a relação entre as variáveis. Perguntas: 1 ML e Estatística/Modelos Estatísticos tem a mesma origem? Não. Estatística é um sub-campo da matemática e Machine Learning da computação [JWHT13]. 2 Estatística e Modelos Estatísticos são a mesma coisa? Não. Estatística é o estudo matemático de dados. Modelos estatísticos são modelos que permitem fazer inferência sobre variáves dados um conjunto de dados [JWHT13]. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
  • 19. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Explicação Comum A principal diferença entre Machine Learning e Estatística é o propósito de cada um. Algoritmos de Machine Learning tem como objetivo fazer predições com a maior acurácia possível. Já modelos estatísticos tem como objetivo fazer inferência sobre a relação entre as variáveis. Perguntas: 1 ML e Estatística/Modelos Estatísticos tem a mesma origem? Não. Estatística é um sub-campo da matemática e Machine Learning da computação [JWHT13]. 2 Estatística e Modelos Estatísticos são a mesma coisa? Não. Estatística é o estudo matemático de dados. Modelos estatísticos são modelos que permitem fazer inferência sobre variáves dados um conjunto de dados [JWHT13]. 3 Quais métodos são de qual campo? Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
  • 20. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Prólogo Explicação Comum A principal diferença entre Machine Learning e Estatística é o propósito de cada um. Algoritmos de Machine Learning tem como objetivo fazer predições com a maior acurácia possível. Já modelos estatísticos tem como objetivo fazer inferência sobre a relação entre as variáveis. Perguntas: 1 ML e Estatística/Modelos Estatísticos tem a mesma origem? Não. Estatística é um sub-campo da matemática e Machine Learning da computação [JWHT13]. 2 Estatística e Modelos Estatísticos são a mesma coisa? Não. Estatística é o estudo matemático de dados. Modelos estatísticos são modelos que permitem fazer inferência sobre variáves dados um conjunto de dados [JWHT13]. 3 Quais métodos são de qual campo? Há uma intersecção entre a utilização dos métodos (Isso eu que estou afirmando). Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 6 / 29
  • 21. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Objetivos Objetivos da Apresentação 1 Apresentar diferenças conceituais e prática entre modelos estatísticos e machine learning; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 7 / 29
  • 22. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Objetivos Objetivos da Apresentação 1 Apresentar diferenças conceituais e prática entre modelos estatísticos e machine learning; 2 Comparar modelagem estatística e machine learning em um exemplo prático; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 7 / 29
  • 23. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Objetivos Objetivos da Apresentação 1 Apresentar diferenças conceituais e prática entre modelos estatísticos e machine learning; 2 Comparar modelagem estatística e machine learning em um exemplo prático; 3 Mostrar casos de aplicações de modelos estatísticos e ML; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 7 / 29
  • 24. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Objetivos Objetivos da Apresentação 1 Apresentar diferenças conceituais e prática entre modelos estatísticos e machine learning; 2 Comparar modelagem estatística e machine learning em um exemplo prático; 3 Mostrar casos de aplicações de modelos estatísticos e ML; 4 Apresentar ferramentas para se fazer modelos estatísticos e machine learning. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 7 / 29
  • 25. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Sumário 1 Introdução Prólogo Objetivos 2 Modelos Estatísticos e Aprendizado de Máquina Diferenças Conceituais Exemplo: IPCA Previsão e Causalidade 3 Aplicações/Ferramentas Estatística no Esporte ML na compra de Roupas Ferramentas 4 Considerações Finais Conclusões Bibliografia Q & A e Contato Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 8 / 29
  • 26. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Diferenças Conceituais Origem da Confusão e Diferenças Importantes Origem da Confusão: Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
  • 27. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Diferenças Conceituais Origem da Confusão e Diferenças Importantes Origem da Confusão: Métodos estatísticos e de ML podem ser usados tanto para previsão quanto inferência, e.g., regressão linear [BAK18]; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
  • 28. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Diferenças Conceituais Origem da Confusão e Diferenças Importantes Origem da Confusão: Métodos estatísticos e de ML podem ser usados tanto para previsão quanto inferência, e.g., regressão linear [BAK18]; Modelos Estatísticos [Woo10]: Machine Learning [SSBD14]: Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
  • 29. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Diferenças Conceituais Origem da Confusão e Diferenças Importantes Origem da Confusão: Métodos estatísticos e de ML podem ser usados tanto para previsão quanto inferência, e.g., regressão linear [BAK18]; Modelos Estatísticos [Woo10]: 1 Usam todos os dados disponíveis para fazer inferência; Machine Learning [SSBD14]: 1 Divide os dados em uma parte para treino e outra para teste; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
  • 30. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Diferenças Conceituais Origem da Confusão e Diferenças Importantes Origem da Confusão: Métodos estatísticos e de ML podem ser usados tanto para previsão quanto inferência, e.g., regressão linear [BAK18]; Modelos Estatísticos [Woo10]: 1 Usam todos os dados disponíveis para fazer inferência; 2 Têm hipóteses sobre como os dados são gerados, para poder testar as relações de causalidade; Machine Learning [SSBD14]: 1 Divide os dados em uma parte para treino e outra para teste; 2 Não tem hipóteses sobre os dados, dando flexibilidade para encontrar padrões complexos; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
  • 31. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Diferenças Conceituais Origem da Confusão e Diferenças Importantes Origem da Confusão: Métodos estatísticos e de ML podem ser usados tanto para previsão quanto inferência, e.g., regressão linear [BAK18]; Modelos Estatísticos [Woo10]: 1 Usam todos os dados disponíveis para fazer inferência; 2 Têm hipóteses sobre como os dados são gerados, para poder testar as relações de causalidade; 3 Quando as hipóteses são válidas, tem estimadores não viesados e consistentes. Machine Learning [SSBD14]: 1 Divide os dados em uma parte para treino e outra para teste; 2 Não tem hipóteses sobre os dados, dando flexibilidade para encontrar padrões complexos; 3 Viés é estimado de maneira data-driven. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
  • 32. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Diferenças Conceituais Origem da Confusão e Diferenças Importantes Origem da Confusão: Métodos estatísticos e de ML podem ser usados tanto para previsão quanto inferência, e.g., regressão linear [BAK18]; Modelos Estatísticos [Woo10]: 1 Usam todos os dados disponíveis para fazer inferência; 2 Têm hipóteses sobre como os dados são gerados, para poder testar as relações de causalidade; 3 Quando as hipóteses são válidas, tem estimadores não viesados e consistentes. Machine Learning [SSBD14]: 1 Divide os dados em uma parte para treino e outra para teste; 2 Não tem hipóteses sobre os dados, dando flexibilidade para encontrar padrões complexos; 3 Viés é estimado de maneira data-driven. E como isso fica na prática? Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 9 / 29
  • 33. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade IPCA O que é o IPCA: Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 10 / 29
  • 34. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade IPCA O que é o IPCA: Mede o custo de vida para famílias com renda mensal de 1 a 40 salários-mínimos; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 10 / 29
  • 35. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade IPCA O que é o IPCA: Mede o custo de vida para famílias com renda mensal de 1 a 40 salários-mínimos; Feita nas cidades de São Paulo, Rio de Janeiro, Belo Horizonte, Porto Alegre, Recife, Belém, Fortaleza, Salvador, Curitiba, Goiânia e Brasília; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 10 / 29
  • 36. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade IPCA O que é o IPCA: Mede o custo de vida para famílias com renda mensal de 1 a 40 salários-mínimos; Feita nas cidades de São Paulo, Rio de Janeiro, Belo Horizonte, Porto Alegre, Recife, Belém, Fortaleza, Salvador, Curitiba, Goiânia e Brasília; É o índice utilizado pelo Banco Central como alvo das metas de inflacão. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 10 / 29
  • 37. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade IPCA O que é o IPCA: Mede o custo de vida para famílias com renda mensal de 1 a 40 salários-mínimos; Feita nas cidades de São Paulo, Rio de Janeiro, Belo Horizonte, Porto Alegre, Recife, Belém, Fortaleza, Salvador, Curitiba, Goiânia e Brasília; É o índice utilizado pelo Banco Central como alvo das metas de inflacão. É composto pelos subgrupos: Alimentação e Bebidas, Habitação, Artigos de Residência, Vestuário, Transportes, Comunicação, Saúde e Cuidades Pessoais, Despesas Pessoais, Educação, Bens Comercializáveis, Bens não COmercializáveis, Índice de Preços Monitorados, Água e Esgoto, Gás e Butijão, Energia, Ônibus Urbano, Ônibus Intermunicipal, Metro, Gasolina, Diesel, Plano de Saúde, Telefone Fixo. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 10 / 29
  • 38. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Problema: Conheça João Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 11 / 29
  • 39. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Problema: Conheça João Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 11 / 29
  • 40. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Problema: Conheça João Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 11 / 29
  • 41. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Problema: Conheça João Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 11 / 29
  • 42. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Definindo o Problema: Perguntas que João se fez 1 o IPCA é o índice que mede o custo de vida das famílias; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 12 / 29
  • 43. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Definindo o Problema: Perguntas que João se fez 1 o IPCA é o índice que mede o custo de vida das famílias; 2 Será que o subgrupo Vestuário é afetado pelo IPCA?; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 12 / 29
  • 44. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Definindo o Problema: Perguntas que João se fez 1 o IPCA é o índice que mede o custo de vida das famílias; 2 Será que o subgrupo Vestuário é afetado pelo IPCA?; 3 Como eu posso prever qual será o valor do IPCA? Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 12 / 29
  • 45. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Definindo o Problema: Perguntas que João se fez 1 o IPCA é o índice que mede o custo de vida das famílias; 2 Será que o subgrupo Vestuário é afetado pelo IPCA?; 3 Como eu posso prever qual será o valor do IPCA? Como podemos ajudar João, o gerente? Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 12 / 29
  • 46. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Resolvendo: O Plano Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de vestuário e ML para prever o IPCA. Especificamente: Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
  • 47. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Resolvendo: O Plano Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de vestuário e ML para prever o IPCA. Especificamente: Para testar causalidade: método de [Pfa08] (cointegração de séries temporais); Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
  • 48. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Resolvendo: O Plano Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de vestuário e ML para prever o IPCA. Especificamente: Para testar causalidade: método de [Pfa08] (cointegração de séries temporais); Para fazer a predição: método de [CK10] (rede neural perceptron multiplas camadas); Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
  • 49. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Resolvendo: O Plano Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de vestuário e ML para prever o IPCA. Especificamente: Para testar causalidade: método de [Pfa08] (cointegração de séries temporais); Para fazer a predição: método de [CK10] (rede neural perceptron multiplas camadas); Rede Neural não permite fazer análise de causalidade; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
  • 50. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Resolvendo: O Plano Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de vestuário e ML para prever o IPCA. Especificamente: Para testar causalidade: método de [Pfa08] (cointegração de séries temporais); Para fazer a predição: método de [CK10] (rede neural perceptron multiplas camadas); Rede Neural não permite fazer análise de causalidade; Vamos comparar o resultado da previsão das diferentes abordagens. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
  • 51. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Resolvendo: O Plano Vamos utilizar modelagem estatística para verificar se o IPCA afeta o índice de vestuário e ML para prever o IPCA. Especificamente: Para testar causalidade: método de [Pfa08] (cointegração de séries temporais); Para fazer a predição: método de [CK10] (rede neural perceptron multiplas camadas); Rede Neural não permite fazer análise de causalidade; Vamos comparar o resultado da previsão das diferentes abordagens. Para isso usamos [CSC18] para pegar as variações mensais percentuais de Jan/2000 à Mar/2019. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 13 / 29
  • 52. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Cointegração de Séries Temporais Figura 1: Teste de Cointegração dos resíduos. [Pfa08, p. 63] Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 14 / 29
  • 53. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Configuração da Rede Neural Figura 2: Representação visual da rede neural. Elabo- rado pelo autor. Rede Neural Perceptron Múltiplas camadas; Com elemente de tendência temporal; 5 Camadas escondidas; 20 repetições. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 15 / 29
  • 54. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Resultados: Teste de Cointegração Tabela 1: Subgrupos que são causados pelo IPCA Hipótese Nula Estatística F p-valor Diagnóstico Defasagens IPCA do not cause Alimentacao Bebidas 2.214 0.02041 Reject H0 9 IPCA do not cause Artigos Residencia 7.58 0.0005794 Reject H0 2 IPCA do not cause Vestuário 1.818 0.02207 Reject H0 18 IPCA do not cause Comunicação 4.463 1.014e-06 Reject H0 12 IPCA do not cause Saude Cuidados Pessoais 6.347 2.701e-10 Reject H0 12 IPCA do not cause Despesas Pessoais 8.796 0.003179 Reject H0 1 IPCA do not cause Educação 4.498 8.698e-07 Reject H0 12 IPCA do not cause Não Comercializáveis 2.62 0.002259 Reject H0 12 IPCA do not cause Água Esgoto 5.889 0.0001272 Reject H0 4 IPCA do not cause Ônibus Urbano 15.66 8.813e-05 Reject H0 1 IPCA do not cause Ônibus Intermun 2.855 0.0006119 Reject H0 13 IPCA do not cause Metro 7.337 1.004e-05 Reject H0 4 IPCA do not cause Plano Saúde 2.469 0.03202 Reject H0 5 IPCA do not cause Telefone Fixo 4.099 2.372e-06 Reject H0 13 Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 16 / 29
  • 55. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Exemplo: IPCA Previsão e Causalidade Resultados: Previsão Figura 3: Valores Observados e estimados do IPCA Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 17 / 29
  • 56. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Sumário 1 Introdução Prólogo Objetivos 2 Modelos Estatísticos e Aprendizado de Máquina Diferenças Conceituais Exemplo: IPCA Previsão e Causalidade 3 Aplicações/Ferramentas Estatística no Esporte ML na compra de Roupas Ferramentas 4 Considerações Finais Conclusões Bibliografia Q & A e Contato Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 18 / 29
  • 57. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte Vocês Conhcem Paul DePodesta? Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 19 / 29
  • 58. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte E o filme Money Ball? Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
  • 59. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte E o filme Money Ball? Conta a história de Billy Beane (GM do Oakland Athletics) e Paul DePosta (Estudante de Economis em Yale); Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
  • 60. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte E o filme Money Ball? Conta a história de Billy Beane (GM do Oakland Athletics) e Paul DePosta (Estudante de Economis em Yale); Montaram em 2002 um time de beisebol com estatística; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
  • 61. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte E o filme Money Ball? Conta a história de Billy Beane (GM do Oakland Athletics) e Paul DePosta (Estudante de Economis em Yale); Montaram em 2002 um time de beisebol com estatística; Ideia: buscaram encontrar habilidade subvalorizadas no mercado; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
  • 62. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte E o filme Money Ball? Conta a história de Billy Beane (GM do Oakland Athletics) e Paul DePosta (Estudante de Economis em Yale); Montaram em 2002 um time de beisebol com estatística; Ideia: buscaram encontrar habilidade subvalorizadas no mercado; Teoria de Preços 101: Salário é correspondente à produtividade [Fri17]. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
  • 63. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte E o filme Money Ball? Conta a história de Billy Beane (GM do Oakland Athletics) e Paul DePosta (Estudante de Economis em Yale); Montaram em 2002 um time de beisebol com estatística; Ideia: buscaram encontrar habilidade subvalorizadas no mercado; Teoria de Preços 101: Salário é correspondente à produtividade [Fri17]. E qual foi o resultado? Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 20 / 29
  • 64. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte Resultados Moneyball Para o Oakland Athletics: Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
  • 65. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte Resultados Moneyball Para o Oakland Athletics: Há resistência, pois no início não teve resultados bons; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
  • 66. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte Resultados Moneyball Para o Oakland Athletics: Há resistência, pois no início não teve resultados bons; Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de vitórias seguidas; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
  • 67. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte Resultados Moneyball Para o Oakland Athletics: Há resistência, pois no início não teve resultados bons; Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de vitórias seguidas; Resultou em uma das temporadas com maior lucro da franquia [Fri17]. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
  • 68. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte Resultados Moneyball Para o Oakland Athletics: Há resistência, pois no início não teve resultados bons; Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de vitórias seguidas; Resultou em uma das temporadas com maior lucro da franquia [Fri17]. O caso inspirou estudos acadêmicos, especificamente [Fri17], que conclui: Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
  • 69. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte Resultados Moneyball Para o Oakland Athletics: Há resistência, pois no início não teve resultados bons; Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de vitórias seguidas; Resultou em uma das temporadas com maior lucro da franquia [Fri17]. O caso inspirou estudos acadêmicos, especificamente [Fri17], que conclui: O mercado de trabalho do beisebol era ineficiente no período; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
  • 70. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte Resultados Moneyball Para o Oakland Athletics: Há resistência, pois no início não teve resultados bons; Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de vitórias seguidas; Resultou em uma das temporadas com maior lucro da franquia [Fri17]. O caso inspirou estudos acadêmicos, especificamente [Fri17], que conclui: O mercado de trabalho do beisebol era ineficiente no período; Por exemplo, não havia prêmio salarial para os rebatedores que eram bons em roubar bases; Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
  • 71. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Estatística no Esporte Resultados Moneyball Para o Oakland Athletics: Há resistência, pois no início não teve resultados bons; Perderam nas finais de Divisão, porém atualmente detêm o 5olugar no recorde de vitórias seguidas; Resultou em uma das temporadas com maior lucro da franquia [Fri17]. O caso inspirou estudos acadêmicos, especificamente [Fri17], que conclui: O mercado de trabalho do beisebol era ineficiente no período; Por exemplo, não havia prêmio salarial para os rebatedores que eram bons em roubar bases; E a lista segue... Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 21 / 29
  • 72. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais ML na compra de Roupas João está de volta! Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 22 / 29
  • 73. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais ML na compra de Roupas João está de volta! Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 22 / 29
  • 74. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais ML na compra de Roupas O caso Stitch Fix Figura 4: Link para o Algoritmhs Tour Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 23 / 29
  • 75. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 76. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 77. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 78. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 79. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 80. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 81. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 82. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 83. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 84. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 85. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 86. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Ferramentas Talvez as mais conhecidas Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 24 / 29
  • 87. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Sumário 1 Introdução Prólogo Objetivos 2 Modelos Estatísticos e Aprendizado de Máquina Diferenças Conceituais Exemplo: IPCA Previsão e Causalidade 3 Aplicações/Ferramentas Estatística no Esporte ML na compra de Roupas Ferramentas 4 Considerações Finais Conclusões Bibliografia Q & A e Contato Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 25 / 29
  • 88. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Conclusões Por hoje é só pessoal! Espera-se aqui ter dado um primeiro passo em direção ao esclarecimento das diferenças entre modelagem estatística e aprendizado de máquina. Mostrado exemplos compreensíveis e algumas (das várias) ferramentas. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 26 / 29
  • 89. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Bibliografia Referências I Danilo Bzdok, Naomi Altman, and Martin Krzywinski, Statistics versus machine learning, Nature methods 15 (2018), no. 4, 233. L Friedman Breiman, JH Friedman, RA Olshen, and C Stone, Cj, 1984. classification and regression trees, Pacific Grove, Kalifornien (1983). Bernhard E. Boser, Isabelle M. Guyon, and Vladimir N. Vapnik, A training algorithm for optimal margin classifiers, Proceedings of the Fifth Annual Workshop on Computational Learning Theory (New York, NY, USA), COLT ’92, ACM, 1992, pp. 144–152. Fred L. Bookstein, Principal warps: Thin-plate splines and the decomposition of deformations, IEEE Transactions on pattern analysis and machine intelligence 11 (1989), no. 6, 567–585. Sven F Crone and Nikolaos Kourentzes, Feature selection for time series prediction–a combined filter and wrapper approach for neural networks, Neurocomputing 73 (2010), no. 10-12, 1923–1936. Pedro Costa Ferreira, Talitha Speranza, and Jonatha Costa, Bets: Brazilian economic time series, 2018, R package version 0.4.9. Milton Friedman, Price theory, Routledge, 2017. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 27 / 29
  • 90. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Bibliografia Referências II Arthur E Hoerl and Robert W Kennard, Ridge regression: Biased estimation for nonorthogonal problems, Technometrics 12 (1970), no. 1, 55–67. Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani, An introduction to statistical learning, vol. 112, Springer, 2013. Bernhard Pfaff, Analysis of integrated series with r and cointegrated time, Springer, 2008. Shai Shalev-Shwartz and Shai Ben-David, Understanding machine learning: From theory to algorithms, Cambridge university press, 2014. Jeffrey M Wooldridge, Econometric analysis of cross section and panel data, MIT press, 2010. Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 28 / 29
  • 91. Introdução Modelos Estatísticos e Aprendizado de Máquina Aplicações/Ferramentas Considerações Finais Q & A e Contato Obrigado! Vinícius Melquíades de Sousa Economista e Cientista de Dados in/viniciusmsousa/ github.com/viniciusmsousa E-mail: vinisousa04@gmail.com Vinícius M. de Sousa (PGCIn/UFSC) PCI410045 (Big Data e Web Semântica) 17 de Maio de 2019 29 / 29