Análise de Regressão: aspectos teóricos e computacionais

313 visualizações

Publicada em

Análise de Regressão: aspectos teóricos e computacionais

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
313
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
13
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Análise de Regressão: aspectos teóricos e computacionais

  1. 1. Rodrigo Lins Rodrigues
  2. 2. Quem sou?  Professor da UFRPE do curso de Licenciatura em Computação  Estudante de doutorado em Ciência da Computação  Pesquiso sobre Mineração de Dados Educacionais;  Contatos:  Email: rlr@ded.ufrpe.br  Facebook: /rodrigomuribec 2
  3. 3. Agenda  Entendimento sobre estatística;  Natureza das variáveis;  Correlação x Regressão;  Pressupostos do modelo de regressão;  Softwares Estatísticos/Data Mining;  Exemplo prática no software R;  Conhecendo o Rcommander 3 Material: https://goo.gl/uf5bwe
  4. 4. ...Vamos entender um pouco sobre o que é a estatística ? 4
  5. 5. Introdução a Estatística • A estatística lida com o planejamento, coleta, análise e interpretação dos dados como ferramentas auxiliares na tomada de decisões e resolução de problemas;
  6. 6. Introdução a Estatística • Algumas áreas e técnicas da estatística... ▫ Estatística descritiva; ▫ Planejamento de experimentos; ▫ Análise multivariada; ▫ Estatística não-paramétrica; ▫ Análise de regressão; ▫ Modelos lineares; ▫ Séries temporais; ▫ Tecnologia da amostragem; ▫ Controle de qualidade; ▫ ...Etc.
  7. 7. • Primeiro vamos entender tipos de dados 7 Natureza das variáveis Categóricas Numéricas Nominal (classificação) Ordinal (classificação) Discreta (contagem) Contínua (mensuração) sexo, raça, região, grupo sangüíneo pressão sangüínea (baixa, normal, alta) Número de acidentes, número de filhos Peso, altura, pressão sangüínea
  8. 8. 8 ...O que é Regressão e Correlação ?
  9. 9. 9 ...olhe pra essa imagem e pense um pouco mais!
  10. 10. 10 Análise de Correlação e Regressão • Correlação: medida descritiva que mede força da relação entre duas variáveis quantitativas; • Regressão: A finalidade é estimar valores de uma variável, com base em valores conhecidos da outra;
  11. 11. 11 Correlação de Pearson • Mede o grau da correlação (positiva ou negativa) entre duas variáveis de escala métrica; P > 0,4 Significa uma correlação positiva entre as duas variáveis. -0,4 < 0 > 0,4 : Significa que as duas variáveis não dependem linearmente uma da outra. P < -0,4 Significa uma correlação negativa entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui.
  12. 12. Análise de Regressão
  13. 13. 13 Análise de Regressão Linear 1. Determinar como duas variáveis se relacionam; 2. Estimar a função que determina a relação entre as variáveis; 3. Usar a equação ajustada para prever valores da variável dependente. i i iY X     Modelo de Regressão Linear Simples
  14. 14. Inclinação populacional Intercepto populacional Erro Aleatório Variável Independente Variável Dependente X Y  Coeficiente angular  i i iY X     i} ( ) iE Y x   Análise de Regressão Linear
  15. 15. 15 Análise de Regressão Linear • Em um modelo estatístico, geralmente a variável resposta é afetada por várias variáveis; • Então, analisamos Y como função apenas das K primeiras variáveis, sendo que permanece um erro (ou resíduo), devido a não utilização das outras m variáveis. 50 55 60 65 70 75 80 85 90 95 100 150 160 170 180 190 Altura (cm) Peso(kg) 1 2 1( , ,..., , ,..., )k k k mY f X X X X X 
  16. 16. • A relação entre X e Y é Linear; • Os valores de X são fixos, isto é, X não é uma variável aleatória; • A média dos erros é nula, isto é: ( ) 0iE   1,2,...,i n 2 2 2 ( ) ( ) [ ( )] ( )i i i iVar E E E        • O erro em uma observação é não correlacionado com o erro em qualquer outra observação; • Os erros têm distribuição normal. Pressupostos do modelo de regressão
  17. 17. 17 Análise de Regressão O coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. 2 R Definimos o coeficiente de determinação ou explicação do modelo, que é dado por: 2 SQreg bSxy R SQtot Syy   O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste. 2 0 1R 2 R
  18. 18. • Muitas vezes, podemos encontrar problemas na especificação da função que relaciona as variáveis (não linearidade); • Pode ser verificado através de um gráfico de dispersão entre X e Y; • Existem funções que podem ser transformadas em modelos lineares; • Existem vários tipos de funções que podemos transformar, tais como: Ajuste do modelo de regressão  Função Potência;  Função Exponencial;  Função Hiperbólica.
  19. 19. Softwares utilizados na estatística • Existem diversas ferramentas que dão suporte a análise dos dados quantitativos, dentre elas:
  20. 20. Trabalhando com a base de dados • Geralmente as bases de dados são digitadas em Excel; • Todos os softwares estatísticos importam bases em formatos: xls, xlsx, csv, txt,etc; • É aconselhável que a base seja transformada pra CSV; • Quando existem diferentes bases de dados e queremos fazer integração pra análises, utilizamos alguns softwares:
  21. 21. 22 Software Estatístico R • É um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e visualização gráfica; • É uma ferramenta com uma grande quantidade de pacotes para atender diversas áreas; • Possui uma linguagem de fácil entendimento; • É software livre !!!
  22. 22. 23 Software Estatístico R • O R possui mais de 3.500 pacotes disponíveis; • Foi uma evolução do S-plus; • Começou em 1993; • Em 1995 adotou a licença GPL
  23. 23. 24 Software Estatístico R http://www.r-bloggers.com/
  24. 24. • http://www.r-project.org/ 25 Repositório para download
  25. 25. ...Chegou a hora de botarmos a mão na massa! 26 Material: https://goo.gl/uf5bwe
  26. 26. 27 Conhecendo a interface do R
  27. 27. 28 Importando a base de dados
  28. 28. 29 Aplicando estatísticas descritivas
  29. 29. 30 Gráficos • Estatística descritiva (Gráficos – Histograma)
  30. 30. 31 • Estatística descritiva (Gráfico de barras) Gráficos
  31. 31. 32 • Estatística descritiva (Gráfico de dispersão) Gráficos
  32. 32. 33 Trabalhando na prática • Tirar a média, mediana, máximo e minimo para cada uma das variáveis quantitativas; • Plote gráficos de dispersão para as variáveis quantitativas contínuas; • Plote gráficos de histograma para variáveis quantitativas contínuas; • Faça correlações entre as variáveis quantitativas; • Analise a normalidade dos dados;
  33. 33. ...Vamos praticar agora com Regressão Linear 34
  34. 34. 35 Regressão linear • Plotando as duas variáveis em um gráfico de dispersão.
  35. 35. 36 Regressão linear • Testando a normalidade
  36. 36. 37 Regressão linear • Vamos construir um modelo linear
  37. 37. 38 Regressão linear • Temos o modelo Linear Inclinação Populacional: 95,29873Intercepto Populacional: -89,22419 Variável Independente Variável Dependente: Peso Y  Coeficiente angular  i i iY X     i}
  38. 38. ...Vamos facilitar nossas vidas ? 39
  39. 39. • O que é o Rcmdr? ▫ Um pacote do R para manipulação gráfica; ▫ Facilita as análises básicas; ▫ Não precisa utilizar linha de comando; ▫ Disponibiliza uma saída de script; ▫ É leve e pode ser instalado em qualquer versão do R; 40 Pacote Rcomander
  40. 40. 41 Instalando o pacote Rcommander Depois de instalado digite: require(Rcmdr)
  41. 41. 42 Conhecendo a interface
  42. 42. 43 Criando e carregando banco de dados
  43. 43. 44 Vamos para a prática na ferramenta....
  44. 44. 45 Dúvidas ? Contatos: Email: rlr@ded.ufrpe.br; Cel: 9874-6647 Facebook: facebook.com/rodrigomuribec

×