SlideShare uma empresa Scribd logo
1 de 59
Baixar para ler offline
REGRESSÃO LINEAR
Prática no SPSS
Vitor Vieira Vasconcelos
Flávia da Fonseca Feitosa
BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento
Julho de 2017
Executando uma Regressão
Múltipla no SPSS
Arquivo: Agua_Rede2010_SNIS.sav
Arquivo: Agua_Rede2010_SNIS.sav
Variáveis
Y  CONSUMO 1: Consumo Residencial de Água per Capita
(M3/hab/ano), SNIS 2010
X1  RENDAPIT: Renda per Capita (reais), IBGE 2010
X2  PROPREDE: Proporção de domicílios servidos por rede de
água, IBGE 2010
SELECIONAR VARIÁVEIS
ANÁLISE EXPLORATÓRIA
Verificar Correlações e Diagramas de Dispersão
Diagramas de Dispersão:
Por que são tão importantes?
Quarteto de Anscombe: Esses quatro conjuntos de dados
possuem as mesmas propriedades estatísticas...
I II III IV
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89
Propriedade Valor
Média de x 9,00
Variância de x 10,00
Média de y 7,50
Variância de y 3,75
Correlação 0,898
Regressão
linear
y = 2,50 + 0,500x
Slides: Marcos Pó
F.J. Anscombe, "Graphs in Statistical Analysis,"
American Statistician, 27 (February 1973), 17-21.
Diagramas de Dispersão:
Por que são tão importantes?
Slides:
Marcos Pó
... mas são bem diferentes graficamente.
ANÁLISE EXPLORATÓRIA
Verificar Correlações e Diagramas de Dispersão
Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples
Faça um gráfico para o par Consumo1 (Y) vs Rendapit (X)
e outro para Consumo1 (Y) X Proprede (X)
ANÁLISE EXPLORATÓRIA
Verificar Correlações e Diagramas de Dispersão
Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples
Faça um gráfico para o par Consumo1 X Rendapit
e outro para Consumo1 X Proprede
As relações parecem lineares?
Se não, transformações podem ser necessárias
ANÁLISE EXPLORATÓRIA
Verificar Correlações e Diagramas de Dispersão
Lembrando as transformações:
XX
XX
=
=
'
log10
'
)exp('
2'
XX
XX
=
=
ANÁLISE EXPLORATÓRIA
Transformando a variável “PROPREDE”: Transformar > Calcular…
Crie novas variáveis: “EXP_REDE” e “SQ_REDE” (REDE ** 2)
ANÁLISE EXPLORATÓRIA
Verificar Correlações e Diagramas de Dispersão
Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples
Faça um gráfico para o par Consumo1 (Y) vs EXP_REDE (X)
e outro para Consumo1 (Y) X SQ_REDE (X)
ANÁLISE EXPLORATÓRIA
Gráficos de Dispersão PROPREDE (original)
(PROPREDE)2 EXP(PROPREDE)
ANÁLISE EXPLORATÓRIA
ANÁLISES DE CORRELAÇÃO
Analisar -> Correlacionar -> Bivariada
ANÁLISE EXPLORATÓRIA
ANÁLISES DE CORRELAÇÃO
Analisar -> Correlacionar -> Bivariada
Variáveis
Y  CONSUMO 1: Consumo Residencial de Água per Capita
(M3/hab/ano), SNIS 2010
X1  RENDAPIT: Renda per Capita, IBGE 2010
X2  SQ_REDE: Quadrado da Proporção de domicílios servidos
por rede de água, IBGE 2010
VARIÁVEIS SELECIONADAS
Analisar > Regressão > Linear
MODELO 1  Inclusão da variável “RENDAPIT”
Regressão Múltipla
Regressão Múltipla
Analisar > Regressão > Linear
MODELO 1  Inclusão “RENDAPIT” e “SQ_REDE”
Se estiver executando um
trabalho mais exploratório,
pode escolher um método
passo-a-passo: Stepwise,
Remove, Backward e
Forward
Método
Neste exemplo usamos um método hierárquico, selecionando as
variáveis do primeiro bloco da hierarquia e do segundo bloco. Para
cada modelo da nossa “hierarquia”, utilizaremos o método “Enter”
Estatísticas
Estatísticas
Estimativas: [Default] Fornece os
coeficientes estimados do modelo
de regressão (betas). A estatística
teste e sua significância são
fornecidas para cada coeficiente.
Intervalos de Confiança: Mostra os
intervalos de confiança para os
coeficientes.
Matriz de covariância: Mostra a matriz de covariância, os
coeficientes de correlação e as variâncias entre os coeficientes de
regressão para cada variável do modelo.
Estatísticas
Ajuste do Modelo: Teste F, R
(ou R múltiplo), R2, R2 ajustado.
Alterações no R2: Mostra
alterações que ocorrem no R2
resultantes da inclusão de um
novo previsor
Descritivas: Tabela com média, desvio padrão e número de
observações de todas as variáveis incluídas na análise. Também
apresenta a matriz de correlações
Estatísticas
Correlação Parcial e Por Partes:
Mostram estatísticas que
medem o relacionamento único
entre um previsor e a saída
(controlado por todos os outros
previsores no modelo)
Diagnóstico de Colinearidade:
Mostra as estatísticas de multicolinearidade (FIV, etc.)
Estatísticas
RESÍDUOS
Durbin-Watson: Estatística teste de
Durbin-Watson, que testa a
suposição de independência dos
erros.
Diagnósticos por casos : Lista os
valores de saída observados, valores
de saída previstos e a diferença
entre os dois (resíduos).
Podem ser listados para todos os casos, ou apenas para os casos
onde o resíduo padronizado for maior do que n (no exemplo, 3).
Gráficos
Gráficos
Permite especificar vários gráficos
que auxiliam na verificação da
validade de algumas premissas da
regressão.
Variáveis:
DEPENDNT: Variável de Saída (Y)
*ZPRED: Valores previstos padronizados da variável Y com base no modelo
*ZRESID: Resíduos (erros) padronizados
*SRESID: Resíduos estudentizados
*DRESID: Resíduos excluídos
*ADJPRED: Valores previstos ajustados
*SDRESID: Resíduos estudentizados excluídos
Gráficos
“Produzir todos os diagramas parciais”
Diagrama de dispersão dos resíduos e
cada um dos previsores (X) quando
ambas as variáveis são analisadas
separamente com os previsores
restantes.
Histograma dos resíduos padronizados
(ajuda a verificar a hipótese de
normalidade dos erros)
Diagrama de probabilidade normal
(também ajuda a verificar a hipótese de
normalidade dos erros)
Ao final, clique em “Continuar”
Salvando os Diagnósticos da Regressão no
Editor de Dados
Selecione as versões padronizadas das estatísticas
de influência (é mais fácil interpretar)
Salvando os Diagnósticos da Regressão no
Editor de Dados
NOME DAS VARIÁVEIS NO
EDITOR DE DADOS
INTERPRETANDO A
REGRESSÃO MÚLTIPLA
Estatísticas
Correlação Significativa
Estatísticas
Atenção aqui, pois X1 (renda per capita) e X2 (Quad. proporção de domicílios
com rede de água) também apresentam correlação significativa
(COLINEARIDADE).
Resumo do Modelo
R  Coeficiente de Correlação Múltipla
R2  Coeficiente de Determinação: Medida do quanto a variabilidade do Y pode
ser explicada pelo modelo com as variáveis X. No modelo 1, que considera
apenas a variável “renda”, 36% da variabilidade do consumo de água per capita
pode ser explicada pelo modelo. Já no modelo 2, que inclui também PROPREDE,
este valor aumentou para 52,5% !!! Assim, a inclusão da segunda variável parece
ter melhorado o poder explicativo do modelo!
Resumo do Modelo
R2 ajustado Medida alternativa ao R2, que penaliza a inclusão de variáveis
independentes (X) pouco explicativas. É importante considerá-la em modelos de
regressão múltiplos, visto que a inclusão de inúmeras variáveis independentes
tendem a aumentar o valor de R2, mesmo que estas variáveis tenham muito pouco
poder explicativo.
Resumo do Modelo
Durbin-Watson  Estatística que nos informa se a hipótese de INDEPENDÊNCIA
DOS ERROS é satisfeita.
Regra “Conservadora”: Valores menores do que 1 ou maiores do que 3 devem
ser motivo de preocupação. Quanto mais próximo de 2, melhor.
ANOVA
ANÁLISE DE VARIÂNCIA
Testa se o modelo é significativamente melhor para prever a saída do que utilizar a
média como um “bom palpite”
F representa a razão de melhoria na previsão que resulta do ajuste do modelo em
comparação com a imprecisão que ainda existe no modelo. Se a melhoria devido ao
ajuste do modelo de regressão for muito maior do a variação no interior do modelo,
então o valor de F será maior do que 1.
Em ambos os modelos, os valores de F são significativos. Note que a razão de F é
muito parecida em ambos os modelos.
PARÂMETROS DO MODELO
COEFICIENTES NÃO PADRONIZADOS NO MODELO
Modelo 1  CONSUMO = 4,252 + 0,041.RENDA
Modelo 2  CONSUMO = -6.037 + 0,027.RENDA + 31,886.REDE2
Nos informam como cada previsor afeta a saída se todos os demais
previsores permanecem constantes
No Modelo 2, por exemplo, o b= 0,027 indica que um incremento de uma
unidade (R$ 1,00) na renda per capita do município está associado a um
aumento do consumo de água de 0,027 m3/hab./ano (27 litros/hab/ano).
Esta interpretação só é verdadeira se a variável “quadrado da proporção de
domicílios servidos por rede de água” (SQ_REDE) for mantida constante.
PARÂMETROS DO MODELO
ERRO PADRÃO
Cada um dos valores “b” está associado um erro padrão indicando até que ponto
esses valores podem variar entre amostras, e esses erros são utilizados para
determinar se os valores b diferem significativamente de zero.
ESTATÍSTICA t
Um valor significativo de t revela que a inclinação da linha de regressão é
significativamente diferente de uma linha horizontal. Ou seja, que b é
significativamente diferente de zero.
Se o valor rotulado como “Sig” for menor do que 0,05; então o previsor X está
fazendo uma contribuição significativa para o modelo.
PARÂMETROS DO MODELO
COEFICIENTES PADRONIZADOS
São mais fáceis de interpretar, pois não são dependentes das unidades de medida
das variáveis.
Representam o número de desvios padrão que o Y irá mudar como resultado de
uma alteração de 1 desvio padrão de X
Como são mensurados em termos de unidades desvios padrão, os valores de beta
padronizados são comparáveis diretamente.
No modelo 2, observamos que as duas variáveis apresentam um grau de
importância comparável no modelo.
PARÂMETROS DO MODELO
INTERVALOS DE CONFIANÇA PARA B
Imagine que coletamos 100 amostras de dados
Os intervalos de confiança para beta são limites construídos tais que em 95%
dessas amostras esses limites irão conter os verdadeiros valores de beta.
Temos, portanto, uma confiança de 95% de que esses intervalos conterão os
verdadeiros valores dos coeficientes b.
Um bom modelo apresentará IC pequenos, indicando que os valores de b nessa
amostra estão próximos do verdadeiro valor de beta na população.
O sinal de beta nos revela se o relacionamento entre X e Y é negativo/positivo.
COLINEARIDADE
FIV (Fator de Inflação da Variância)
 Se o FIV for maior do que 10, há motivos para preocupação.
 Idealmente, deve ficar próximo de 1
Tolerância (1 dividido pelo FIV): deve ficar acima de 0,2
Como temos um FIV próximo de 1, podemos assumir que a colinearidade não
é um problema neste modelo.
VARIÁVEIS EXCLUÍDAS
No modelo hierárquico, este resumo apresenta detalhes das variáveis que
foram especificadas para entrar no modelo em passos subsequentes, no caso,
a variável “PROPREDE” (foi excluída no modelo 1).
Podemos observar o estimador beta do previsor se ele entrar na equação, um
teste t para este valor, correlação parcial e as estatísticas de colinearidade.
DIAGNÓSTICOS POR CASOS
Tabela mostra casos com
resíduo padronizado menor
que -3 e maior do que +3
Estes casos merecem
atenção! Como pedimos para
que o SPSS salve esta
estatística ( e outras!),
podemos checá-las
individualmente.
É esperado que 95% dos casos
tenham resíduos padronizados
entre -1,96 e +1,96
ESTATÍSTICAS SALVAS
Valores previstos não-padronizados  valores previstos para Y (CONSUMO)
Valores previstos ajustados  valores previstos para Y, caso esta observação
fosse excluída (o ideal é que a diferença não seja grande. Se for grande,
assumimos que estamos diante de um caso influente)
ESTATÍSTICAS SALVAS
Valores previstos padronizados  valores previstos padronizados para Y
(CONSUMO) – ou seja, em unidades de desvio padrão
Resíduos padronizados  (em unidades de desvio padrão). Somente 5% das
observações devem ter resíduos padronizados mais extremos que -1,96/+1,96
ESTATÍSTICAS DE INFLUÊNCIA
Distância de Cook  Não Deve ser Maior do que 1! (Métrica: Casos Influentes)
ESTATÍSTICAS DE INFLUÊNCIA
Distância de Cook 
Se organizarmos os dados em ordem decrescente na tabela,
observaremos que não temos nenhuma distância superior a 1.
ESTATÍSTICAS DE INFLUÊNCIA
Valor Leverage  Considera o nr. de observações/casos
Influência média esperada -- (nr. de parâmetros + 1)/n = (2 + 1)/4417 = 0,0007
Procuraremos casos com valores 2X (0,0014) ou 3X (0,0021) maiores do que isto.
ESTATÍSTICAS DE INFLUÊNCIA
Valor Leverage 
Influência média esperada -- (nr. de
parametros + 1)/n = (2 + 1)/4417 =
0,0007
Procuraremos casos com valores 2X
(0,0014) ou 3X (0,0021) maiores do
que isto.
No exemplo, temos 161 casos com
valores maiores que 0,0021
Entre eles: Niterói, Vitória, Brasília,
Florianópolis, Porto Alegre
TOP da lista? São Caetano do Sul!!!
ESTATÍSTICAS DE INFLUÊNCIA
DFFIT [padronizado] Diferença entre valor previsto ajustado e valor previsto
original
DFBETA [padronizado]  Calculado para cada beta. Diferença entre 1
parâmetro estimado utilizando todos os casos e estimado quando um caso é
excluído. Valor absoluto maior do que 1 será um problema.
CONFERINDO AS HIPÓTESES
JÁ CHECAMOS:
- COLINEARIDADE (FIV, Tolerância): Ok!
- Independência dos Resíduos – Teste de Durbin-Watson: Ok!
Vamos checar agora os gráficos!
CONFERINDO AS HIPÓTESES
NORMALIDADE DOS RESÍDUOS:
HISTOGRAMA DOS RESÍDUOS PADRONIZADOS
Podemos, depois, realizar um
teste formal (Shapiro-Wilk,
Kolmogorov-Smirnov)
CONFERINDO AS HIPÓTESES
NORMALIDADE DOS RESÍDUOS:
P-P Plot DOS RESÍDUOS PADRONIZADOS
Podemos, depois, realizar um
teste formal (Shapiro-Wilk,
Kolmogorov-Smirnov)
CONFERINDO AS HIPÓTESES
PARA REFERÊNCIA:
Análise dos Resíduos
Quais dessas plotagens mostram normalidade dos resíduos?
Quais os problemas das outras?
Bussab;Morettin,2002:456
Slide: Marcos Pó
CONFERINDO AS HIPÓTESES
RESÍDUOS PADRONIZADOS VS. VALORES PREVISTOS PADRONIZADOS
CONFERINDO AS HIPÓTESES
PARA REFERÊNCIA:
CONFERINDO AS HIPÓTESES
RESÍDUOS PADRONIZADOS VS. RENDAPITA (X1)
CONFERINDO AS HIPÓTESES
RESÍDUOS PADRONIZADOS VS. SQ_REDE (X2)
Exercício
• Em Grupo
• Realize uma regressão múltipla no SPSS com ao menos 3 variáveis do seu
trabalho de curso
• Faça diagramas de dispersão e análise de correlação para cada par de
variáveis
• Avalie a necessidade de transformar variáveis para que a variável predita
(Y) adquira uma distribuição mais próxima de uma distribuição normal, e
para “linearizar” a relação entre os preditores (X) e a variável predita (Y)
• Rode uma regressão múltipla pelo método hierárquico
• Interprete os coeficientes, R2, e os testes F e t
• Analise os valores atípicos (por diagramas e estatísticas teste)
• Analise as suposições de generalização
• Analise o diagrama de resíduos e o teste Durbin-Watson

Mais conteúdo relacionado

Mais procurados

Fórmulas estatística - medidas - central e dispersão
Fórmulas   estatística - medidas - central e dispersãoFórmulas   estatística - medidas - central e dispersão
Fórmulas estatística - medidas - central e dispersão
marioferreiraneto
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatistica
AleNiv
 
Lista de exercicios algoritmos resolvida-
Lista de exercicios   algoritmos  resolvida-Lista de exercicios   algoritmos  resolvida-
Lista de exercicios algoritmos resolvida-
Mauro Pereira
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
Antonio Mankumbani Chora
 

Mais procurados (20)

Regressão Linear I
Regressão Linear IRegressão Linear I
Regressão Linear I
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 
Conceitos Básicos de Estatística I
Conceitos Básicos de Estatística IConceitos Básicos de Estatística I
Conceitos Básicos de Estatística I
 
Fórmulas estatística - medidas - central e dispersão
Fórmulas   estatística - medidas - central e dispersãoFórmulas   estatística - medidas - central e dispersão
Fórmulas estatística - medidas - central e dispersão
 
Conceitos Básicos de Estatística II
Conceitos Básicos de Estatística IIConceitos Básicos de Estatística II
Conceitos Básicos de Estatística II
 
Tabelas do teste f, 10, 5, 1%
Tabelas do teste f, 10, 5, 1%Tabelas do teste f, 10, 5, 1%
Tabelas do teste f, 10, 5, 1%
 
Estatistica descritiva
Estatistica descritiva Estatistica descritiva
Estatistica descritiva
 
Aula 30 testes de hipóteses
Aula 30   testes de hipótesesAula 30   testes de hipóteses
Aula 30 testes de hipóteses
 
Análise de regressão linear
Análise de regressão linearAnálise de regressão linear
Análise de regressão linear
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatistica
 
Probabilidade e Estatística - Aula 02
Probabilidade e Estatística - Aula 02Probabilidade e Estatística - Aula 02
Probabilidade e Estatística - Aula 02
 
Estatistica resumo
Estatistica   resumoEstatistica   resumo
Estatistica resumo
 
Análise de Componentes Principais
Análise de Componentes PrincipaisAnálise de Componentes Principais
Análise de Componentes Principais
 
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
 
Correlação
CorrelaçãoCorrelação
Correlação
 
Bioestatística
 Bioestatística Bioestatística
Bioestatística
 
Lista de exercicios algoritmos resolvida-
Lista de exercicios   algoritmos  resolvida-Lista de exercicios   algoritmos  resolvida-
Lista de exercicios algoritmos resolvida-
 
Aula 7 análise fatorial
Aula 7  análise fatorialAula 7  análise fatorial
Aula 7 análise fatorial
 
Análise exploratória de dados no SPSS
Análise exploratória de dados no SPSSAnálise exploratória de dados no SPSS
Análise exploratória de dados no SPSS
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 

Destaque

Regressão Linear Simples
Regressão Linear SimplesRegressão Linear Simples
Regressão Linear Simples
monica_lima
 

Destaque (20)

Regressão Espacial
Regressão EspacialRegressão Espacial
Regressão Espacial
 
Regressão Linear Simples
Regressão Linear SimplesRegressão Linear Simples
Regressão Linear Simples
 
Regressão Linear Simples
Regressão Linear SimplesRegressão Linear Simples
Regressão Linear Simples
 
Regressão Multipla - Análise Multivariada
Regressão Multipla - Análise MultivariadaRegressão Multipla - Análise Multivariada
Regressão Multipla - Análise Multivariada
 
Regressão Logística
Regressão LogísticaRegressão Logística
Regressão Logística
 
Georreferenciamento de fotos (geotagging) no Geosetter
Georreferenciamento de fotos (geotagging) no GeosetterGeorreferenciamento de fotos (geotagging) no Geosetter
Georreferenciamento de fotos (geotagging) no Geosetter
 
Religião e Sociologia
Religião e SociologiaReligião e Sociologia
Religião e Sociologia
 
Geovisualização Multivariada, Temporal e de Incerteza
Geovisualização Multivariada, Temporal e de IncertezaGeovisualização Multivariada, Temporal e de Incerteza
Geovisualização Multivariada, Temporal e de Incerteza
 
Autocorrelação espacial - Prática no GEODA
Autocorrelação espacial - Prática no GEODAAutocorrelação espacial - Prática no GEODA
Autocorrelação espacial - Prática no GEODA
 
Autocorrelação espacial
Autocorrelação espacialAutocorrelação espacial
Autocorrelação espacial
 
Prática de Regressão Espacial
Prática de Regressão EspacialPrática de Regressão Espacial
Prática de Regressão Espacial
 
Escalas: Conceitos e Aplicações
Escalas: Conceitos e AplicaçõesEscalas: Conceitos e Aplicações
Escalas: Conceitos e Aplicações
 
Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e Regionalização
 
Elaboração de Mapas no QGIS
Elaboração de Mapas no QGISElaboração de Mapas no QGIS
Elaboração de Mapas no QGIS
 
Prática com Infraworks 360 Autodesk
Prática com Infraworks 360 AutodeskPrática com Infraworks 360 Autodesk
Prática com Infraworks 360 Autodesk
 
Aprendizes e Feiticeiros - A Era dos Extremos - Eric Hobsbawn
Aprendizes e Feiticeiros - A Era dos Extremos - Eric HobsbawnAprendizes e Feiticeiros - A Era dos Extremos - Eric Hobsbawn
Aprendizes e Feiticeiros - A Era dos Extremos - Eric Hobsbawn
 
Robert Merton - Cência, Tecnologia e Sociedade
Robert Merton - Cência, Tecnologia e SociedadeRobert Merton - Cência, Tecnologia e Sociedade
Robert Merton - Cência, Tecnologia e Sociedade
 
Ciência, Tecnologia e Sociedade - CTS
Ciência, Tecnologia e Sociedade - CTSCiência, Tecnologia e Sociedade - CTS
Ciência, Tecnologia e Sociedade - CTS
 
Análise (SPSS)
Análise (SPSS)Análise (SPSS)
Análise (SPSS)
 
Estatística multivariada
Estatística multivariadaEstatística multivariada
Estatística multivariada
 

Semelhante a Prática de Regressão no SPSS

AMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptxAMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptx
NunoSilva599593
 
Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais
Rodrigo Rodrigues
 
AMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxAMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptx
NunoSilva599593
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
ssuser2b53fe
 
Apostila regressao linear
Apostila regressao linearApostila regressao linear
Apostila regressao linear
coelhojmm
 
5 expressoes logicas - operadores - base binaria - operadores de bits
5   expressoes logicas - operadores - base binaria - operadores de bits5   expressoes logicas - operadores - base binaria - operadores de bits
5 expressoes logicas - operadores - base binaria - operadores de bits
Ricardo Bolanho
 

Semelhante a Prática de Regressão no SPSS (20)

AMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptxAMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptx
 
Lista de Exercícios Econometria I - UFES
Lista de Exercícios Econometria I - UFESLista de Exercícios Econometria I - UFES
Lista de Exercícios Econometria I - UFES
 
Estatística básica
Estatística básicaEstatística básica
Estatística básica
 
Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais
 
AMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxAMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptx
 
Módulo4 regressao no spss
Módulo4 regressao no spssMódulo4 regressao no spss
Módulo4 regressao no spss
 
Analise exploratório de dados
Analise exploratório de dadosAnalise exploratório de dados
Analise exploratório de dados
 
Aula13-15.pdf
Aula13-15.pdfAula13-15.pdf
Aula13-15.pdf
 
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
 
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 GujaratiMonica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
 
analise estatistica: Correlacao canonica
analise estatistica: Correlacao canonicaanalise estatistica: Correlacao canonica
analise estatistica: Correlacao canonica
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
 
Regressao linear
Regressao linearRegressao linear
Regressao linear
 
Análise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoAnálise Espacial Baseada em Localização
Análise Espacial Baseada em Localização
 
Atividade Prática Supervisionada - Engenharia Básica - Modelagem Matemática (...
Atividade Prática Supervisionada - Engenharia Básica - Modelagem Matemática (...Atividade Prática Supervisionada - Engenharia Básica - Modelagem Matemática (...
Atividade Prática Supervisionada - Engenharia Básica - Modelagem Matemática (...
 
Diagnósticos do Modelo Clássico de Regressão Linear
Diagnósticos do Modelo Clássico de Regressão LinearDiagnósticos do Modelo Clássico de Regressão Linear
Diagnósticos do Modelo Clássico de Regressão Linear
 
Unidade 5 - estastitica
Unidade 5 - estastiticaUnidade 5 - estastitica
Unidade 5 - estastitica
 
Apostila física exp ii
Apostila física exp iiApostila física exp ii
Apostila física exp ii
 
Apostila regressao linear
Apostila regressao linearApostila regressao linear
Apostila regressao linear
 
5 expressoes logicas - operadores - base binaria - operadores de bits
5   expressoes logicas - operadores - base binaria - operadores de bits5   expressoes logicas - operadores - base binaria - operadores de bits
5 expressoes logicas - operadores - base binaria - operadores de bits
 

Mais de Vitor Vieira Vasconcelos

Relationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversityRelationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversity
Vitor Vieira Vasconcelos
 

Mais de Vitor Vieira Vasconcelos (20)

Relationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversityRelationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversity
 
Análise espacial de doenças transmissíveis
Análise espacial de doenças transmissíveisAnálise espacial de doenças transmissíveis
Análise espacial de doenças transmissíveis
 
Fishbanks! Jogo de simulação de gestão de recursos renováveis
Fishbanks! Jogo de simulação de gestão de recursos renováveisFishbanks! Jogo de simulação de gestão de recursos renováveis
Fishbanks! Jogo de simulação de gestão de recursos renováveis
 
Regimes de Apropriação de Recursos Naturais
Regimes de Apropriação de Recursos NaturaisRegimes de Apropriação de Recursos Naturais
Regimes de Apropriação de Recursos Naturais
 
Recursos Comuns e Tragédia dos Comuns
Recursos Comuns e Tragédia dos ComunsRecursos Comuns e Tragédia dos Comuns
Recursos Comuns e Tragédia dos Comuns
 
Relações entre sistemas naturais e sociais
Relações entre sistemas naturais e sociaisRelações entre sistemas naturais e sociais
Relações entre sistemas naturais e sociais
 
Valoração de Serviços Ecossistêmicos
Valoração de Serviços EcossistêmicosValoração de Serviços Ecossistêmicos
Valoração de Serviços Ecossistêmicos
 
Recursos Naturais e Serviços Ecossistêmicos
Recursos Naturais e Serviços EcossistêmicosRecursos Naturais e Serviços Ecossistêmicos
Recursos Naturais e Serviços Ecossistêmicos
 
Bases teóricas e conceituais do Planejamento e da Política Ambiental
Bases teóricas e conceituais do Planejamento e da Política AmbientalBases teóricas e conceituais do Planejamento e da Política Ambiental
Bases teóricas e conceituais do Planejamento e da Política Ambiental
 
Planejamento territorial
Planejamento territorialPlanejamento territorial
Planejamento territorial
 
Coremática e Mapeamento Participativo
Coremática e Mapeamento ParticipativoCoremática e Mapeamento Participativo
Coremática e Mapeamento Participativo
 
Cartografia Social
Cartografia SocialCartografia Social
Cartografia Social
 
MIgrações
MIgraçõesMIgrações
MIgrações
 
Conflitos fundiários
Conflitos fundiáriosConflitos fundiários
Conflitos fundiários
 
Conflitos Territoriais
Conflitos TerritoriaisConflitos Territoriais
Conflitos Territoriais
 
Chácara Baronesa - Haras São Bernardo
Chácara Baronesa - Haras São BernardoChácara Baronesa - Haras São Bernardo
Chácara Baronesa - Haras São Bernardo
 
Governo e Território
Governo e TerritórioGoverno e Território
Governo e Território
 
Segregação e Interação Territorial
Segregação e Interação TerritorialSegregação e Interação Territorial
Segregação e Interação Territorial
 
Território e Poder
Território e PoderTerritório e Poder
Território e Poder
 
Operações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em ROperações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em R
 

Último

Último (20)

Alemanha vs União Soviética - Livro de Adolf Hitler
Alemanha vs União Soviética - Livro de Adolf HitlerAlemanha vs União Soviética - Livro de Adolf Hitler
Alemanha vs União Soviética - Livro de Adolf Hitler
 
HISTORIA DA XILOGRAVURA A SUA IMPORTANCIA
HISTORIA DA XILOGRAVURA A SUA IMPORTANCIAHISTORIA DA XILOGRAVURA A SUA IMPORTANCIA
HISTORIA DA XILOGRAVURA A SUA IMPORTANCIA
 
Conteúdo sobre a formação e expansão persa
Conteúdo sobre a formação e expansão persaConteúdo sobre a formação e expansão persa
Conteúdo sobre a formação e expansão persa
 
o-homem-que-calculava-malba-tahan-1_123516.pdf
o-homem-que-calculava-malba-tahan-1_123516.pdfo-homem-que-calculava-malba-tahan-1_123516.pdf
o-homem-que-calculava-malba-tahan-1_123516.pdf
 
Sismologia_7ºano_causas e consequencias.pptx
Sismologia_7ºano_causas e consequencias.pptxSismologia_7ºano_causas e consequencias.pptx
Sismologia_7ºano_causas e consequencias.pptx
 
ROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdf
ROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdfROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdf
ROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdf
 
bem estar animal em proteção integrada componente animal
bem estar animal em proteção integrada componente animalbem estar animal em proteção integrada componente animal
bem estar animal em proteção integrada componente animal
 
APH- Avaliação de cena , analise geral do ambiente e paciente.
APH- Avaliação de cena , analise geral do ambiente e paciente.APH- Avaliação de cena , analise geral do ambiente e paciente.
APH- Avaliação de cena , analise geral do ambiente e paciente.
 
análise obra Nós matamos o cão Tinhoso.pdf
análise obra Nós matamos o cão Tinhoso.pdfanálise obra Nós matamos o cão Tinhoso.pdf
análise obra Nós matamos o cão Tinhoso.pdf
 
Meu corpo - Ruth Rocha e Anna Flora livro
Meu corpo - Ruth Rocha e Anna Flora livroMeu corpo - Ruth Rocha e Anna Flora livro
Meu corpo - Ruth Rocha e Anna Flora livro
 
Descrever e planear atividades imersivas estruturadamente
Descrever e planear atividades imersivas estruturadamenteDescrever e planear atividades imersivas estruturadamente
Descrever e planear atividades imersivas estruturadamente
 
Slides Lição 07, Central Gospel, As Duas Testemunhas Do Final Dos Tempos.pptx
Slides Lição 07, Central Gospel, As Duas Testemunhas Do Final Dos Tempos.pptxSlides Lição 07, Central Gospel, As Duas Testemunhas Do Final Dos Tempos.pptx
Slides Lição 07, Central Gospel, As Duas Testemunhas Do Final Dos Tempos.pptx
 
UFCD_9184_Saúde, nutrição, higiene, segurança, repouso e conforto da criança ...
UFCD_9184_Saúde, nutrição, higiene, segurança, repouso e conforto da criança ...UFCD_9184_Saúde, nutrição, higiene, segurança, repouso e conforto da criança ...
UFCD_9184_Saúde, nutrição, higiene, segurança, repouso e conforto da criança ...
 
prova do exame nacional Port. 2008 - 2ª fase - Criterios.pdf
prova do exame nacional Port. 2008 - 2ª fase - Criterios.pdfprova do exame nacional Port. 2008 - 2ª fase - Criterios.pdf
prova do exame nacional Port. 2008 - 2ª fase - Criterios.pdf
 
Planejamento 2024 - 1º ano - Matemática 38 a 62.pdf
Planejamento 2024 - 1º ano - Matemática  38 a 62.pdfPlanejamento 2024 - 1º ano - Matemática  38 a 62.pdf
Planejamento 2024 - 1º ano - Matemática 38 a 62.pdf
 
Campanha 18 de. Maio laranja dds.pptx
Campanha 18 de.    Maio laranja dds.pptxCampanha 18 de.    Maio laranja dds.pptx
Campanha 18 de. Maio laranja dds.pptx
 
CONCORDÂNCIA NOMINAL atividade ensino médio ead.pptx
CONCORDÂNCIA NOMINAL atividade ensino médio  ead.pptxCONCORDÂNCIA NOMINAL atividade ensino médio  ead.pptx
CONCORDÂNCIA NOMINAL atividade ensino médio ead.pptx
 
Nós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
Nós Propomos! Canil/Gatil na Sertã - Amigos dos AnimaisNós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
Nós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
 
Unidade 4 (Texto poético) (Teste sem correção) (2).docx
Unidade 4 (Texto poético) (Teste sem correção) (2).docxUnidade 4 (Texto poético) (Teste sem correção) (2).docx
Unidade 4 (Texto poético) (Teste sem correção) (2).docx
 
Atividade do poema sobre mãe de mário quintana.pdf
Atividade do poema sobre mãe de mário quintana.pdfAtividade do poema sobre mãe de mário quintana.pdf
Atividade do poema sobre mãe de mário quintana.pdf
 

Prática de Regressão no SPSS

  • 1. REGRESSÃO LINEAR Prática no SPSS Vitor Vieira Vasconcelos Flávia da Fonseca Feitosa BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2017
  • 2. Executando uma Regressão Múltipla no SPSS Arquivo: Agua_Rede2010_SNIS.sav
  • 3. Arquivo: Agua_Rede2010_SNIS.sav Variáveis Y  CONSUMO 1: Consumo Residencial de Água per Capita (M3/hab/ano), SNIS 2010 X1  RENDAPIT: Renda per Capita (reais), IBGE 2010 X2  PROPREDE: Proporção de domicílios servidos por rede de água, IBGE 2010 SELECIONAR VARIÁVEIS
  • 5. Diagramas de Dispersão: Por que são tão importantes? Quarteto de Anscombe: Esses quatro conjuntos de dados possuem as mesmas propriedades estatísticas... I II III IV x y x y x y x y 10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58 8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76 13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71 9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84 11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47 14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04 6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25 4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50 12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56 7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91 5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89 Propriedade Valor Média de x 9,00 Variância de x 10,00 Média de y 7,50 Variância de y 3,75 Correlação 0,898 Regressão linear y = 2,50 + 0,500x Slides: Marcos Pó F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 (February 1973), 17-21.
  • 6. Diagramas de Dispersão: Por que são tão importantes? Slides: Marcos Pó ... mas são bem diferentes graficamente.
  • 7. ANÁLISE EXPLORATÓRIA Verificar Correlações e Diagramas de Dispersão Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples Faça um gráfico para o par Consumo1 (Y) vs Rendapit (X) e outro para Consumo1 (Y) X Proprede (X)
  • 8. ANÁLISE EXPLORATÓRIA Verificar Correlações e Diagramas de Dispersão Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples Faça um gráfico para o par Consumo1 X Rendapit e outro para Consumo1 X Proprede As relações parecem lineares? Se não, transformações podem ser necessárias
  • 9. ANÁLISE EXPLORATÓRIA Verificar Correlações e Diagramas de Dispersão Lembrando as transformações: XX XX = = ' log10 ' )exp(' 2' XX XX = =
  • 10. ANÁLISE EXPLORATÓRIA Transformando a variável “PROPREDE”: Transformar > Calcular… Crie novas variáveis: “EXP_REDE” e “SQ_REDE” (REDE ** 2)
  • 11. ANÁLISE EXPLORATÓRIA Verificar Correlações e Diagramas de Dispersão Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples Faça um gráfico para o par Consumo1 (Y) vs EXP_REDE (X) e outro para Consumo1 (Y) X SQ_REDE (X)
  • 12. ANÁLISE EXPLORATÓRIA Gráficos de Dispersão PROPREDE (original) (PROPREDE)2 EXP(PROPREDE)
  • 13. ANÁLISE EXPLORATÓRIA ANÁLISES DE CORRELAÇÃO Analisar -> Correlacionar -> Bivariada
  • 14. ANÁLISE EXPLORATÓRIA ANÁLISES DE CORRELAÇÃO Analisar -> Correlacionar -> Bivariada
  • 15. Variáveis Y  CONSUMO 1: Consumo Residencial de Água per Capita (M3/hab/ano), SNIS 2010 X1  RENDAPIT: Renda per Capita, IBGE 2010 X2  SQ_REDE: Quadrado da Proporção de domicílios servidos por rede de água, IBGE 2010 VARIÁVEIS SELECIONADAS
  • 16. Analisar > Regressão > Linear MODELO 1  Inclusão da variável “RENDAPIT” Regressão Múltipla
  • 17. Regressão Múltipla Analisar > Regressão > Linear MODELO 1  Inclusão “RENDAPIT” e “SQ_REDE”
  • 18. Se estiver executando um trabalho mais exploratório, pode escolher um método passo-a-passo: Stepwise, Remove, Backward e Forward Método Neste exemplo usamos um método hierárquico, selecionando as variáveis do primeiro bloco da hierarquia e do segundo bloco. Para cada modelo da nossa “hierarquia”, utilizaremos o método “Enter”
  • 20. Estatísticas Estimativas: [Default] Fornece os coeficientes estimados do modelo de regressão (betas). A estatística teste e sua significância são fornecidas para cada coeficiente. Intervalos de Confiança: Mostra os intervalos de confiança para os coeficientes. Matriz de covariância: Mostra a matriz de covariância, os coeficientes de correlação e as variâncias entre os coeficientes de regressão para cada variável do modelo.
  • 21. Estatísticas Ajuste do Modelo: Teste F, R (ou R múltiplo), R2, R2 ajustado. Alterações no R2: Mostra alterações que ocorrem no R2 resultantes da inclusão de um novo previsor Descritivas: Tabela com média, desvio padrão e número de observações de todas as variáveis incluídas na análise. Também apresenta a matriz de correlações
  • 22. Estatísticas Correlação Parcial e Por Partes: Mostram estatísticas que medem o relacionamento único entre um previsor e a saída (controlado por todos os outros previsores no modelo) Diagnóstico de Colinearidade: Mostra as estatísticas de multicolinearidade (FIV, etc.)
  • 23. Estatísticas RESÍDUOS Durbin-Watson: Estatística teste de Durbin-Watson, que testa a suposição de independência dos erros. Diagnósticos por casos : Lista os valores de saída observados, valores de saída previstos e a diferença entre os dois (resíduos). Podem ser listados para todos os casos, ou apenas para os casos onde o resíduo padronizado for maior do que n (no exemplo, 3).
  • 25. Gráficos Permite especificar vários gráficos que auxiliam na verificação da validade de algumas premissas da regressão. Variáveis: DEPENDNT: Variável de Saída (Y) *ZPRED: Valores previstos padronizados da variável Y com base no modelo *ZRESID: Resíduos (erros) padronizados *SRESID: Resíduos estudentizados *DRESID: Resíduos excluídos *ADJPRED: Valores previstos ajustados *SDRESID: Resíduos estudentizados excluídos
  • 26. Gráficos “Produzir todos os diagramas parciais” Diagrama de dispersão dos resíduos e cada um dos previsores (X) quando ambas as variáveis são analisadas separamente com os previsores restantes. Histograma dos resíduos padronizados (ajuda a verificar a hipótese de normalidade dos erros) Diagrama de probabilidade normal (também ajuda a verificar a hipótese de normalidade dos erros) Ao final, clique em “Continuar”
  • 27. Salvando os Diagnósticos da Regressão no Editor de Dados Selecione as versões padronizadas das estatísticas de influência (é mais fácil interpretar)
  • 28. Salvando os Diagnósticos da Regressão no Editor de Dados NOME DAS VARIÁVEIS NO EDITOR DE DADOS
  • 31. Estatísticas Atenção aqui, pois X1 (renda per capita) e X2 (Quad. proporção de domicílios com rede de água) também apresentam correlação significativa (COLINEARIDADE).
  • 32. Resumo do Modelo R  Coeficiente de Correlação Múltipla R2  Coeficiente de Determinação: Medida do quanto a variabilidade do Y pode ser explicada pelo modelo com as variáveis X. No modelo 1, que considera apenas a variável “renda”, 36% da variabilidade do consumo de água per capita pode ser explicada pelo modelo. Já no modelo 2, que inclui também PROPREDE, este valor aumentou para 52,5% !!! Assim, a inclusão da segunda variável parece ter melhorado o poder explicativo do modelo!
  • 33. Resumo do Modelo R2 ajustado Medida alternativa ao R2, que penaliza a inclusão de variáveis independentes (X) pouco explicativas. É importante considerá-la em modelos de regressão múltiplos, visto que a inclusão de inúmeras variáveis independentes tendem a aumentar o valor de R2, mesmo que estas variáveis tenham muito pouco poder explicativo.
  • 34. Resumo do Modelo Durbin-Watson  Estatística que nos informa se a hipótese de INDEPENDÊNCIA DOS ERROS é satisfeita. Regra “Conservadora”: Valores menores do que 1 ou maiores do que 3 devem ser motivo de preocupação. Quanto mais próximo de 2, melhor.
  • 35. ANOVA ANÁLISE DE VARIÂNCIA Testa se o modelo é significativamente melhor para prever a saída do que utilizar a média como um “bom palpite” F representa a razão de melhoria na previsão que resulta do ajuste do modelo em comparação com a imprecisão que ainda existe no modelo. Se a melhoria devido ao ajuste do modelo de regressão for muito maior do a variação no interior do modelo, então o valor de F será maior do que 1. Em ambos os modelos, os valores de F são significativos. Note que a razão de F é muito parecida em ambos os modelos.
  • 36. PARÂMETROS DO MODELO COEFICIENTES NÃO PADRONIZADOS NO MODELO Modelo 1  CONSUMO = 4,252 + 0,041.RENDA Modelo 2  CONSUMO = -6.037 + 0,027.RENDA + 31,886.REDE2 Nos informam como cada previsor afeta a saída se todos os demais previsores permanecem constantes No Modelo 2, por exemplo, o b= 0,027 indica que um incremento de uma unidade (R$ 1,00) na renda per capita do município está associado a um aumento do consumo de água de 0,027 m3/hab./ano (27 litros/hab/ano). Esta interpretação só é verdadeira se a variável “quadrado da proporção de domicílios servidos por rede de água” (SQ_REDE) for mantida constante.
  • 37. PARÂMETROS DO MODELO ERRO PADRÃO Cada um dos valores “b” está associado um erro padrão indicando até que ponto esses valores podem variar entre amostras, e esses erros são utilizados para determinar se os valores b diferem significativamente de zero. ESTATÍSTICA t Um valor significativo de t revela que a inclinação da linha de regressão é significativamente diferente de uma linha horizontal. Ou seja, que b é significativamente diferente de zero. Se o valor rotulado como “Sig” for menor do que 0,05; então o previsor X está fazendo uma contribuição significativa para o modelo.
  • 38. PARÂMETROS DO MODELO COEFICIENTES PADRONIZADOS São mais fáceis de interpretar, pois não são dependentes das unidades de medida das variáveis. Representam o número de desvios padrão que o Y irá mudar como resultado de uma alteração de 1 desvio padrão de X Como são mensurados em termos de unidades desvios padrão, os valores de beta padronizados são comparáveis diretamente. No modelo 2, observamos que as duas variáveis apresentam um grau de importância comparável no modelo.
  • 39. PARÂMETROS DO MODELO INTERVALOS DE CONFIANÇA PARA B Imagine que coletamos 100 amostras de dados Os intervalos de confiança para beta são limites construídos tais que em 95% dessas amostras esses limites irão conter os verdadeiros valores de beta. Temos, portanto, uma confiança de 95% de que esses intervalos conterão os verdadeiros valores dos coeficientes b. Um bom modelo apresentará IC pequenos, indicando que os valores de b nessa amostra estão próximos do verdadeiro valor de beta na população. O sinal de beta nos revela se o relacionamento entre X e Y é negativo/positivo.
  • 40. COLINEARIDADE FIV (Fator de Inflação da Variância)  Se o FIV for maior do que 10, há motivos para preocupação.  Idealmente, deve ficar próximo de 1 Tolerância (1 dividido pelo FIV): deve ficar acima de 0,2 Como temos um FIV próximo de 1, podemos assumir que a colinearidade não é um problema neste modelo.
  • 41. VARIÁVEIS EXCLUÍDAS No modelo hierárquico, este resumo apresenta detalhes das variáveis que foram especificadas para entrar no modelo em passos subsequentes, no caso, a variável “PROPREDE” (foi excluída no modelo 1). Podemos observar o estimador beta do previsor se ele entrar na equação, um teste t para este valor, correlação parcial e as estatísticas de colinearidade.
  • 42. DIAGNÓSTICOS POR CASOS Tabela mostra casos com resíduo padronizado menor que -3 e maior do que +3 Estes casos merecem atenção! Como pedimos para que o SPSS salve esta estatística ( e outras!), podemos checá-las individualmente. É esperado que 95% dos casos tenham resíduos padronizados entre -1,96 e +1,96
  • 43. ESTATÍSTICAS SALVAS Valores previstos não-padronizados  valores previstos para Y (CONSUMO) Valores previstos ajustados  valores previstos para Y, caso esta observação fosse excluída (o ideal é que a diferença não seja grande. Se for grande, assumimos que estamos diante de um caso influente)
  • 44. ESTATÍSTICAS SALVAS Valores previstos padronizados  valores previstos padronizados para Y (CONSUMO) – ou seja, em unidades de desvio padrão Resíduos padronizados  (em unidades de desvio padrão). Somente 5% das observações devem ter resíduos padronizados mais extremos que -1,96/+1,96
  • 45. ESTATÍSTICAS DE INFLUÊNCIA Distância de Cook  Não Deve ser Maior do que 1! (Métrica: Casos Influentes)
  • 46. ESTATÍSTICAS DE INFLUÊNCIA Distância de Cook  Se organizarmos os dados em ordem decrescente na tabela, observaremos que não temos nenhuma distância superior a 1.
  • 47. ESTATÍSTICAS DE INFLUÊNCIA Valor Leverage  Considera o nr. de observações/casos Influência média esperada -- (nr. de parâmetros + 1)/n = (2 + 1)/4417 = 0,0007 Procuraremos casos com valores 2X (0,0014) ou 3X (0,0021) maiores do que isto.
  • 48. ESTATÍSTICAS DE INFLUÊNCIA Valor Leverage  Influência média esperada -- (nr. de parametros + 1)/n = (2 + 1)/4417 = 0,0007 Procuraremos casos com valores 2X (0,0014) ou 3X (0,0021) maiores do que isto. No exemplo, temos 161 casos com valores maiores que 0,0021 Entre eles: Niterói, Vitória, Brasília, Florianópolis, Porto Alegre TOP da lista? São Caetano do Sul!!!
  • 49. ESTATÍSTICAS DE INFLUÊNCIA DFFIT [padronizado] Diferença entre valor previsto ajustado e valor previsto original DFBETA [padronizado]  Calculado para cada beta. Diferença entre 1 parâmetro estimado utilizando todos os casos e estimado quando um caso é excluído. Valor absoluto maior do que 1 será um problema.
  • 50. CONFERINDO AS HIPÓTESES JÁ CHECAMOS: - COLINEARIDADE (FIV, Tolerância): Ok! - Independência dos Resíduos – Teste de Durbin-Watson: Ok! Vamos checar agora os gráficos!
  • 51. CONFERINDO AS HIPÓTESES NORMALIDADE DOS RESÍDUOS: HISTOGRAMA DOS RESÍDUOS PADRONIZADOS Podemos, depois, realizar um teste formal (Shapiro-Wilk, Kolmogorov-Smirnov)
  • 52. CONFERINDO AS HIPÓTESES NORMALIDADE DOS RESÍDUOS: P-P Plot DOS RESÍDUOS PADRONIZADOS Podemos, depois, realizar um teste formal (Shapiro-Wilk, Kolmogorov-Smirnov)
  • 54. Análise dos Resíduos Quais dessas plotagens mostram normalidade dos resíduos? Quais os problemas das outras? Bussab;Morettin,2002:456 Slide: Marcos Pó
  • 55. CONFERINDO AS HIPÓTESES RESÍDUOS PADRONIZADOS VS. VALORES PREVISTOS PADRONIZADOS
  • 57. CONFERINDO AS HIPÓTESES RESÍDUOS PADRONIZADOS VS. RENDAPITA (X1)
  • 58. CONFERINDO AS HIPÓTESES RESÍDUOS PADRONIZADOS VS. SQ_REDE (X2)
  • 59. Exercício • Em Grupo • Realize uma regressão múltipla no SPSS com ao menos 3 variáveis do seu trabalho de curso • Faça diagramas de dispersão e análise de correlação para cada par de variáveis • Avalie a necessidade de transformar variáveis para que a variável predita (Y) adquira uma distribuição mais próxima de uma distribuição normal, e para “linearizar” a relação entre os preditores (X) e a variável predita (Y) • Rode uma regressão múltipla pelo método hierárquico • Interprete os coeficientes, R2, e os testes F e t • Analise os valores atípicos (por diagramas e estatísticas teste) • Analise as suposições de generalização • Analise o diagrama de resíduos e o teste Durbin-Watson