Successfully reported this slideshow.

Prática de Regressão no SPSS

1.245 visualizações

Publicada em

Aula de Métodos e Técnicas de Análise da Informação para Planejamento, julho de 2017, UFABC
Apresentação disponível em: https://youtu.be/cQ8ZfzL3SfI
Bases de dados disponíveis em:https://app.box.com/s/4yl70hj73c9mqyh1jb0l8skics4xf8i1

Publicada em: Educação
  • Seja o primeiro a comentar

Prática de Regressão no SPSS

  1. 1. REGRESSÃO LINEAR Prática no SPSS Vitor Vieira Vasconcelos Flávia da Fonseca Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2017
  2. 2. Executando uma Regressão Múltipla no SPSS Arquivo: Agua_Rede2010_SNIS.sav
  3. 3. Arquivo: Agua_Rede2010_SNIS.sav Variáveis Y  CONSUMO 1: Consumo Residencial de Água per Capita (M3/hab/ano), SNIS 2010 X1  RENDAPIT: Renda per Capita (reais), IBGE 2010 X2  PROPREDE: Proporção de domicílios servidos por rede de água, IBGE 2010 SELECIONAR VARIÁVEIS
  4. 4. ANÁLISE EXPLORATÓRIA Verificar Correlações e Diagramas de Dispersão
  5. 5. Diagramas de Dispersão: Por que são tão importantes? Quarteto de Anscombe: Esses quatro conjuntos de dados possuem as mesmas propriedades estatísticas... I II III IV x y x y x y x y 10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58 8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76 13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71 9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84 11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47 14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04 6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25 4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50 12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56 7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91 5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89 Propriedade Valor Média de x 9,00 Variância de x 10,00 Média de y 7,50 Variância de y 3,75 Correlação 0,898 Regressão linear y = 2,50 + 0,500x Slides: Marcos Pó F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 (February 1973), 17-21.
  6. 6. Diagramas de Dispersão: Por que são tão importantes? Slides: Marcos Pó ... mas são bem diferentes graficamente.
  7. 7. ANÁLISE EXPLORATÓRIA Verificar Correlações e Diagramas de Dispersão Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples Faça um gráfico para o par Consumo1 (Y) vs Rendapit (X) e outro para Consumo1 (Y) X Proprede (X)
  8. 8. ANÁLISE EXPLORATÓRIA Verificar Correlações e Diagramas de Dispersão Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples Faça um gráfico para o par Consumo1 X Rendapit e outro para Consumo1 X Proprede As relações parecem lineares? Se não, transformações podem ser necessárias
  9. 9. ANÁLISE EXPLORATÓRIA Verificar Correlações e Diagramas de Dispersão Lembrando as transformações: XX XX = = ' log10 ' )exp(' 2' XX XX = =
  10. 10. ANÁLISE EXPLORATÓRIA Transformando a variável “PROPREDE”: Transformar > Calcular… Crie novas variáveis: “EXP_REDE” e “SQ_REDE” (REDE ** 2)
  11. 11. ANÁLISE EXPLORATÓRIA Verificar Correlações e Diagramas de Dispersão Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples Faça um gráfico para o par Consumo1 (Y) vs EXP_REDE (X) e outro para Consumo1 (Y) X SQ_REDE (X)
  12. 12. ANÁLISE EXPLORATÓRIA Gráficos de Dispersão PROPREDE (original) (PROPREDE)2 EXP(PROPREDE)
  13. 13. ANÁLISE EXPLORATÓRIA ANÁLISES DE CORRELAÇÃO Analisar -> Correlacionar -> Bivariada
  14. 14. ANÁLISE EXPLORATÓRIA ANÁLISES DE CORRELAÇÃO Analisar -> Correlacionar -> Bivariada
  15. 15. Variáveis Y  CONSUMO 1: Consumo Residencial de Água per Capita (M3/hab/ano), SNIS 2010 X1  RENDAPIT: Renda per Capita, IBGE 2010 X2  SQ_REDE: Quadrado da Proporção de domicílios servidos por rede de água, IBGE 2010 VARIÁVEIS SELECIONADAS
  16. 16. Analisar > Regressão > Linear MODELO 1  Inclusão da variável “RENDAPIT” Regressão Múltipla
  17. 17. Regressão Múltipla Analisar > Regressão > Linear MODELO 1  Inclusão “RENDAPIT” e “SQ_REDE”
  18. 18. Se estiver executando um trabalho mais exploratório, pode escolher um método passo-a-passo: Stepwise, Remove, Backward e Forward Método Neste exemplo usamos um método hierárquico, selecionando as variáveis do primeiro bloco da hierarquia e do segundo bloco. Para cada modelo da nossa “hierarquia”, utilizaremos o método “Enter”
  19. 19. Estatísticas
  20. 20. Estatísticas Estimativas: [Default] Fornece os coeficientes estimados do modelo de regressão (betas). A estatística teste e sua significância são fornecidas para cada coeficiente. Intervalos de Confiança: Mostra os intervalos de confiança para os coeficientes. Matriz de covariância: Mostra a matriz de covariância, os coeficientes de correlação e as variâncias entre os coeficientes de regressão para cada variável do modelo.
  21. 21. Estatísticas Ajuste do Modelo: Teste F, R (ou R múltiplo), R2, R2 ajustado. Alterações no R2: Mostra alterações que ocorrem no R2 resultantes da inclusão de um novo previsor Descritivas: Tabela com média, desvio padrão e número de observações de todas as variáveis incluídas na análise. Também apresenta a matriz de correlações
  22. 22. Estatísticas Correlação Parcial e Por Partes: Mostram estatísticas que medem o relacionamento único entre um previsor e a saída (controlado por todos os outros previsores no modelo) Diagnóstico de Colinearidade: Mostra as estatísticas de multicolinearidade (FIV, etc.)
  23. 23. Estatísticas RESÍDUOS Durbin-Watson: Estatística teste de Durbin-Watson, que testa a suposição de independência dos erros. Diagnósticos por casos : Lista os valores de saída observados, valores de saída previstos e a diferença entre os dois (resíduos). Podem ser listados para todos os casos, ou apenas para os casos onde o resíduo padronizado for maior do que n (no exemplo, 3).
  24. 24. Gráficos
  25. 25. Gráficos Permite especificar vários gráficos que auxiliam na verificação da validade de algumas premissas da regressão. Variáveis: DEPENDNT: Variável de Saída (Y) *ZPRED: Valores previstos padronizados da variável Y com base no modelo *ZRESID: Resíduos (erros) padronizados *SRESID: Resíduos estudentizados *DRESID: Resíduos excluídos *ADJPRED: Valores previstos ajustados *SDRESID: Resíduos estudentizados excluídos
  26. 26. Gráficos “Produzir todos os diagramas parciais” Diagrama de dispersão dos resíduos e cada um dos previsores (X) quando ambas as variáveis são analisadas separamente com os previsores restantes. Histograma dos resíduos padronizados (ajuda a verificar a hipótese de normalidade dos erros) Diagrama de probabilidade normal (também ajuda a verificar a hipótese de normalidade dos erros) Ao final, clique em “Continuar”
  27. 27. Salvando os Diagnósticos da Regressão no Editor de Dados Selecione as versões padronizadas das estatísticas de influência (é mais fácil interpretar)
  28. 28. Salvando os Diagnósticos da Regressão no Editor de Dados NOME DAS VARIÁVEIS NO EDITOR DE DADOS
  29. 29. INTERPRETANDO A REGRESSÃO MÚLTIPLA
  30. 30. Estatísticas Correlação Significativa
  31. 31. Estatísticas Atenção aqui, pois X1 (renda per capita) e X2 (Quad. proporção de domicílios com rede de água) também apresentam correlação significativa (COLINEARIDADE).
  32. 32. Resumo do Modelo R  Coeficiente de Correlação Múltipla R2  Coeficiente de Determinação: Medida do quanto a variabilidade do Y pode ser explicada pelo modelo com as variáveis X. No modelo 1, que considera apenas a variável “renda”, 36% da variabilidade do consumo de água per capita pode ser explicada pelo modelo. Já no modelo 2, que inclui também PROPREDE, este valor aumentou para 52,5% !!! Assim, a inclusão da segunda variável parece ter melhorado o poder explicativo do modelo!
  33. 33. Resumo do Modelo R2 ajustado Medida alternativa ao R2, que penaliza a inclusão de variáveis independentes (X) pouco explicativas. É importante considerá-la em modelos de regressão múltiplos, visto que a inclusão de inúmeras variáveis independentes tendem a aumentar o valor de R2, mesmo que estas variáveis tenham muito pouco poder explicativo.
  34. 34. Resumo do Modelo Durbin-Watson  Estatística que nos informa se a hipótese de INDEPENDÊNCIA DOS ERROS é satisfeita. Regra “Conservadora”: Valores menores do que 1 ou maiores do que 3 devem ser motivo de preocupação. Quanto mais próximo de 2, melhor.
  35. 35. ANOVA ANÁLISE DE VARIÂNCIA Testa se o modelo é significativamente melhor para prever a saída do que utilizar a média como um “bom palpite” F representa a razão de melhoria na previsão que resulta do ajuste do modelo em comparação com a imprecisão que ainda existe no modelo. Se a melhoria devido ao ajuste do modelo de regressão for muito maior do a variação no interior do modelo, então o valor de F será maior do que 1. Em ambos os modelos, os valores de F são significativos. Note que a razão de F é muito parecida em ambos os modelos.
  36. 36. PARÂMETROS DO MODELO COEFICIENTES NÃO PADRONIZADOS NO MODELO Modelo 1  CONSUMO = 4,252 + 0,041.RENDA Modelo 2  CONSUMO = -6.037 + 0,027.RENDA + 31,886.REDE2 Nos informam como cada previsor afeta a saída se todos os demais previsores permanecem constantes No Modelo 2, por exemplo, o b= 0,027 indica que um incremento de uma unidade (R$ 1,00) na renda per capita do município está associado a um aumento do consumo de água de 0,027 m3/hab./ano (27 litros/hab/ano). Esta interpretação só é verdadeira se a variável “quadrado da proporção de domicílios servidos por rede de água” (SQ_REDE) for mantida constante.
  37. 37. PARÂMETROS DO MODELO ERRO PADRÃO Cada um dos valores “b” está associado um erro padrão indicando até que ponto esses valores podem variar entre amostras, e esses erros são utilizados para determinar se os valores b diferem significativamente de zero. ESTATÍSTICA t Um valor significativo de t revela que a inclinação da linha de regressão é significativamente diferente de uma linha horizontal. Ou seja, que b é significativamente diferente de zero. Se o valor rotulado como “Sig” for menor do que 0,05; então o previsor X está fazendo uma contribuição significativa para o modelo.
  38. 38. PARÂMETROS DO MODELO COEFICIENTES PADRONIZADOS São mais fáceis de interpretar, pois não são dependentes das unidades de medida das variáveis. Representam o número de desvios padrão que o Y irá mudar como resultado de uma alteração de 1 desvio padrão de X Como são mensurados em termos de unidades desvios padrão, os valores de beta padronizados são comparáveis diretamente. No modelo 2, observamos que as duas variáveis apresentam um grau de importância comparável no modelo.
  39. 39. PARÂMETROS DO MODELO INTERVALOS DE CONFIANÇA PARA B Imagine que coletamos 100 amostras de dados Os intervalos de confiança para beta são limites construídos tais que em 95% dessas amostras esses limites irão conter os verdadeiros valores de beta. Temos, portanto, uma confiança de 95% de que esses intervalos conterão os verdadeiros valores dos coeficientes b. Um bom modelo apresentará IC pequenos, indicando que os valores de b nessa amostra estão próximos do verdadeiro valor de beta na população. O sinal de beta nos revela se o relacionamento entre X e Y é negativo/positivo.
  40. 40. COLINEARIDADE FIV (Fator de Inflação da Variância)  Se o FIV for maior do que 10, há motivos para preocupação.  Idealmente, deve ficar próximo de 1 Tolerância (1 dividido pelo FIV): deve ficar acima de 0,2 Como temos um FIV próximo de 1, podemos assumir que a colinearidade não é um problema neste modelo.
  41. 41. VARIÁVEIS EXCLUÍDAS No modelo hierárquico, este resumo apresenta detalhes das variáveis que foram especificadas para entrar no modelo em passos subsequentes, no caso, a variável “PROPREDE” (foi excluída no modelo 1). Podemos observar o estimador beta do previsor se ele entrar na equação, um teste t para este valor, correlação parcial e as estatísticas de colinearidade.
  42. 42. DIAGNÓSTICOS POR CASOS Tabela mostra casos com resíduo padronizado menor que -3 e maior do que +3 Estes casos merecem atenção! Como pedimos para que o SPSS salve esta estatística ( e outras!), podemos checá-las individualmente. É esperado que 95% dos casos tenham resíduos padronizados entre -1,96 e +1,96
  43. 43. ESTATÍSTICAS SALVAS Valores previstos não-padronizados  valores previstos para Y (CONSUMO) Valores previstos ajustados  valores previstos para Y, caso esta observação fosse excluída (o ideal é que a diferença não seja grande. Se for grande, assumimos que estamos diante de um caso influente)
  44. 44. ESTATÍSTICAS SALVAS Valores previstos padronizados  valores previstos padronizados para Y (CONSUMO) – ou seja, em unidades de desvio padrão Resíduos padronizados  (em unidades de desvio padrão). Somente 5% das observações devem ter resíduos padronizados mais extremos que -1,96/+1,96
  45. 45. ESTATÍSTICAS DE INFLUÊNCIA Distância de Cook  Não Deve ser Maior do que 1! (Métrica: Casos Influentes)
  46. 46. ESTATÍSTICAS DE INFLUÊNCIA Distância de Cook  Se organizarmos os dados em ordem decrescente na tabela, observaremos que não temos nenhuma distância superior a 1.
  47. 47. ESTATÍSTICAS DE INFLUÊNCIA Valor Leverage  Considera o nr. de observações/casos Influência média esperada -- (nr. de parâmetros + 1)/n = (2 + 1)/4417 = 0,0007 Procuraremos casos com valores 2X (0,0014) ou 3X (0,0021) maiores do que isto.
  48. 48. ESTATÍSTICAS DE INFLUÊNCIA Valor Leverage  Influência média esperada -- (nr. de parametros + 1)/n = (2 + 1)/4417 = 0,0007 Procuraremos casos com valores 2X (0,0014) ou 3X (0,0021) maiores do que isto. No exemplo, temos 161 casos com valores maiores que 0,0021 Entre eles: Niterói, Vitória, Brasília, Florianópolis, Porto Alegre TOP da lista? São Caetano do Sul!!!
  49. 49. ESTATÍSTICAS DE INFLUÊNCIA DFFIT [padronizado] Diferença entre valor previsto ajustado e valor previsto original DFBETA [padronizado]  Calculado para cada beta. Diferença entre 1 parâmetro estimado utilizando todos os casos e estimado quando um caso é excluído. Valor absoluto maior do que 1 será um problema.
  50. 50. CONFERINDO AS HIPÓTESES JÁ CHECAMOS: - COLINEARIDADE (FIV, Tolerância): Ok! - Independência dos Resíduos – Teste de Durbin-Watson: Ok! Vamos checar agora os gráficos!
  51. 51. CONFERINDO AS HIPÓTESES NORMALIDADE DOS RESÍDUOS: HISTOGRAMA DOS RESÍDUOS PADRONIZADOS Podemos, depois, realizar um teste formal (Shapiro-Wilk, Kolmogorov-Smirnov)
  52. 52. CONFERINDO AS HIPÓTESES NORMALIDADE DOS RESÍDUOS: P-P Plot DOS RESÍDUOS PADRONIZADOS Podemos, depois, realizar um teste formal (Shapiro-Wilk, Kolmogorov-Smirnov)
  53. 53. CONFERINDO AS HIPÓTESES PARA REFERÊNCIA:
  54. 54. Análise dos Resíduos Quais dessas plotagens mostram normalidade dos resíduos? Quais os problemas das outras? Bussab;Morettin,2002:456 Slide: Marcos Pó
  55. 55. CONFERINDO AS HIPÓTESES RESÍDUOS PADRONIZADOS VS. VALORES PREVISTOS PADRONIZADOS
  56. 56. CONFERINDO AS HIPÓTESES PARA REFERÊNCIA:
  57. 57. CONFERINDO AS HIPÓTESES RESÍDUOS PADRONIZADOS VS. RENDAPITA (X1)
  58. 58. CONFERINDO AS HIPÓTESES RESÍDUOS PADRONIZADOS VS. SQ_REDE (X2)
  59. 59. Exercício • Em Grupo • Realize uma regressão múltipla no SPSS com ao menos 3 variáveis do seu trabalho de curso • Faça diagramas de dispersão e análise de correlação para cada par de variáveis • Avalie a necessidade de transformar variáveis para que a variável predita (Y) adquira uma distribuição mais próxima de uma distribuição normal, e para “linearizar” a relação entre os preditores (X) e a variável predita (Y) • Rode uma regressão múltipla pelo método hierárquico • Interprete os coeficientes, R2, e os testes F e t • Analise os valores atípicos (por diagramas e estatísticas teste) • Analise as suposições de generalização • Analise o diagrama de resíduos e o teste Durbin-Watson

×