SlideShare uma empresa Scribd logo
1 de 24
ANÁLISE MULTIVARIADA DE DADOS
CURSO DE GESTÃO DE MARKETING
DOCENTE: CARLA OLIVEIRA SILVA
DADOS MULTIVARIADOS
Vimos já que os dados bivariados eram pares de dados relativos a duas
variáveis, em que uma delas era independente, e a segunda dependia
da primeira.
Em inúmeras situações do cotidiano é necessário considerar
simultaneamente o efeito de mais do que uma variável independente,
para a explicação de um fenómeno.
Vejam-se os exemplos seguintes:
Ex1: situação empresa = f (n.º empregados, capital social, volume de vendas) 
variável aleatória tridimensional
Ex2: Situação económica familiar = f(rendimento, poupanças, investimento,
número de filhos)  variável aleatória quadridimensional
MODELO DE REGRESSÃO LINEAR MÚLTIPLA
A análise da regressão linear múltipla permite que vários factores
observados afetem y.
Ex: Salários: semanas de treino de trabalho, anos de permanência no
atual empregador, medidas de aptidão, variáveis sociodemográficas
(n.º de irmãos, educação da mãe, localização da empresa)
u
x
x
x
y k
k 




 


 ...
2
2
1
1
0
b0 e 0 – interseção
b1, b2, …bk, 1 , 2 , …, k – parâmetros de
inclinação
x1, x2, …, xk – variáveis explicativas
e, u – termo erro ou perturbação
Modelo populacional:
Não interessa quantas variáveis
explicativas são incluídas no
modelo, pois os fatores não
incluídos estarão contidos
coletivamente em u.
Modelo amostral: 𝑦 = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 + ⋯ + 𝑏𝑘𝑥𝑘 + 𝑒
MODELO PARA A REGRESSÃO LINEAR MÚLTIPLA
y X1, x2, …xk
Variável Dependente Variáveis Independentes
Variável Explicada Variáveis Explicativas
Variável de Resposta Variáveis de Controle
Variável Prevista Variáveis Previsoras
Regressando Regressores
u
x
x
x
y k
k 




 


 ˆ
...
ˆ
ˆ
ˆ
ˆ 2
2
1
1
0
Estimativa do Modelo com Variáveis Independentes
As k+1 estimativas de MQO (mínimos quadrados ordinários) são
escolhidas para minimizar a soma dos resíduos quadrados
 2
^
2
2
^
1
1
^
0
^
... ik
k
i
i x
x
x
yi 


 





Nota: o modelo de
regressão linear
simples é um modelo
simplificado do
modelo de regressão
linear múltipla, em
que existe apenas uma
variável independente.
MODELO DE REGRESSÃO LINEAR MÚLTIPLA
 Nos modelos de regressão do tipo I assume-se que apenas a variável
dependente pode conter erros de medição, ou que os erros das variáveis
independentes são desprezáveis face à amplitude de variação dos xi.
 É ainda necessário que as variáveis independentes sejam ortogonais, ou seja não
apresentem correlações entre si, ou essas correlações sejam fracas.
 Os coeficientes do modelo de regressão 1, 2, …k, são estimados a partir de
uma amostra representativa da população sob estudo, sendo com esta obtidos
os respetivos b1, b2, …bk.
 À semelhança do que foi visto para o modelo de regressão linear simples, na
regressão linear múltipla os coeficientes são estimados de modo a minimizar os
erros aleatórios das medições de y. O poder da análise de regressão múltipla é
que ela proporciona uma interpretação
“ceteris paribus” mesmo que os dados não
sejam recolhidos de maneira “ceteris
paribus”.
Ceteris paribus: outros fatores
relevantes permanecem iguais.
REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
Em muitos estudos os investigadores têm definidas as variáveis
independentes que querem considerar no seu modelo.
Contudo nas fases exploratórias podem ser consideradas várias
possibilidades. Convém referir que não há o ‘Modelo Ideal’ mas alguns
modelos que podem ser interessantes para o cumprimento de um
dado objetivo. Cabe ao investigador definir qual ou quais modelos
pretende considerar.
Uma forma de validar o modelo é desenvolvê-lo com 60% dos dados e
usar os restantes 40% na sua validação.
A avaliação da qualidade do modelo é sempre obtida pelo R2
aj
(coeficiente de determinação ajustado).
REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
 A melhor forma de identificar as variáveis independentes que um
modelo pode ou deve incluir é através de uma matriz de
correlações.
 Para o efeito seleciona-se a variável dependente (quantitativa) e
todas as variáveis independentes (quantitativas) que possam
eventualmente vir a constar do modelo.
 O grande objetivo é identificar, por ordem decrescente de
intensidade, a(s) variável(eis) que têm correlação com a variável
dependente. A que apresentar maior correlação é a primeira a
entrar no modelo.
 Numa 2.ª fase é preciso garantir que não existem no mesmo modelo
duas variáveis quantitativas com correlação significativa entre si.
REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
Analisar
Analise
Correlacionar
Correlate
Bivariável
Bivariate
Existem 5
variáveis
independentes
com potencial
para entrar no
modelo. A 1.ª é a
área útil que
apresenta >
correlação. A 2.ª
é divisões, mas
como é
fortemente
relacionada com
área útil tem que
Considere o ficheiro casas: quais os preditores mais
indicados para explicar o preço anunciado?
REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
A 2.ª variável a entrar no modelo seria divisões (r=0,654), contudo para esta
variável entrar não pode haver forte correlação (r>0,7) com a 1.ª variável
independente inserida. Vamos então experimentar as variáveis área útil e
quartos
𝑦 𝑝𝑟𝑒ç𝑜 𝑎𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 = 𝑏0 + 𝑏1 ∗ 𝑥1(á𝑟𝑒𝑎 ú𝑡𝑖𝑙)
A 1.ª variável a entrar no modelo é a área útil, porque é a aquela que
apresenta maior correlação com a variável dependente (r=0,809).
𝑦 𝑝𝑟𝑒ç𝑜 𝑎𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 = 𝑏0 + 𝑏1 ∗ 𝑥1 á𝑟𝑒𝑎 ú𝑡𝑖𝑙 + 𝑏2 ∗ 𝑥2(𝑞𝑢𝑎𝑟𝑡𝑜𝑠)
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Considere o ficheiro casas: pretende-se criar um modelo explicativo do
preço anunciado das casas. Vamos por exemplo considerar a área útil e
quartos.
Analisar
Regressão
Linear
Existem vários métodos que podem ser aplicados. O mais simples é o ‘Enter’ ou ‘Inserir’, em
que cabe ao utilizador definir quais as variáveis que integram o modelo!
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Para comparar modelos recorre-se ao
R2
aj, que representa o coeficiente de
determinação ajustado ao número de
variáveis independentes consideradas
no modelo.
Modelo 1 – através da “área útil” é possível explicar 64,5% da variação do preço
anunciado
Modelo 2 – através das variáveis “área útil” e “quartos” é possível explicar 64,2% do
preço anunciado.
O modelo 1 é melhor do que o modelo 2, porque
explica uma maior % com menos variáveis
MODELO DE REGRESSÃO LINEAR MÚLTIPLA
MÉTODOS ALTERNATIVOS AO INSERIR
Método Forward:
A 1.ª variável independente a ser
adicionada é a que apresenta uma
maior correlação, em valor
absoluto, com a variável
dependente - está nestas
condições a variável que no teste
Anova produzir o maior valor da
estatística do teste F e
consequentemente o menor p-
valor.
A 2.ª variável independente é a
que apresentar a maior correlação
com Y depois de ajustados os
efeitos da primeira variável
introduzida no modelo, e assim
sucessivamente.
O procedimento continua até que
na Anova o p-valor > a.
Método Backward:
O modelo é iniciado com todas as
variáveis independentes
selecionadas. No passo seguinte é
calculada uma estatística F parcial
para cada variável, como se esta
fosse a última a entrar no modelo.
O p-valor é comparado com o
nível de significância e quando
este o igualar ou exceder a
variável é removida do modelo.
No passo seguinte é apresentado
um modelo com k-1 variáveis
independentes, que é ajustado e
o seu p-valor comparado com o
nível de significância.
O procedimento continua até não
existirem variáveis no modelo ou
até que todas as variáveis
presentes possuam um p-valor
superior ao nível de significância.
Método Stepwise:
Este método é uma conjugação
dos métodos anteriores
No primeiro passo inicia-se com
uma única variável independente,
mas a significância da adição de
cada variável independente é
testada como no método
backward.
A vantagem do método é que
permite a remoção de uma
variável de importância reduzida,
por novas variáveis de
comprovada importância.
O procedimento termina quando
nenhuma das variáveis
independentes ainda de fora,
consegue entrar no modelo, e
nenhuma das variáveis nele
incluídas é forçada a sair.
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Comparando os modelos 1 a 4, pode-se
verificar a inclusão sucessiva de novas
variáveis não provoca melhorias
significativas no modelo.
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Vamos ainda selecionar as seguintes opções:
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
R2 ajustado
porquê?
Na informação relativa às variáveis
verifica-se que no 1.º modelo
entrou a variável “Área Útil”. No 2.º
modelo, para além da área útil foi
integrada a variável “idade”.
A entrada da 2.ª variável
pouco melhorou o
modelo
MODELO DE REGRESSÃO LINEAR MÚLTIPLA
COEFICIENTE DE DETERMINAÇÃO AJUSTADO
• Em alternativa ao coeficiente de determinação, deve-se utilizar o
coeficiente de determinação ajustado:
• Trata-se de uma correção para eliminar as diferenças produzidas
pela existência de um número distinto de variáveis independentes.
• A adição de uma variável ao modelo produz um aumento de r2, no
entanto, devido à correção introduzida, o valor de ra
2 só aumenta se
de facto o novo modelo conduzir a um melhor ajustamento.
𝑟𝑎
2 = 𝑟2 −
𝑘(1 − 𝑟2
)
𝑛 − 𝑘 − 1
Do ponto de vista inferencial pode-se dizer que ra
2 é um melhor estimador para
r2 do que r2.
K representa o n.º de variáveis
independentes consideradas no
modelo.
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Note-se que quando se encontram os coeficientes bi do modelo de regressão linear, estes resultam da
utilização de uma amostra (que se pretende que seja tão aproximada quanto possível da população), mas
não de toda a população, pelo que é necessário verificar, ou testar, se no modelo populacional os
correspondentes i são diferentes de Zero.
Para o efeito recorre-se ao teste Anova:
H0: 1 = 2 = …= k = 0
H1: pelo menos um i ≠ 0
DW avalia se os
resíduos são
independentes. Se
1,5<DW<2,5 considera-
se aceitável
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Note-se que rejeitar H0 da Anova supõe que pelo menos um i é diferente de zero.
Torna-se por isso fundamental saber qual ou quais o são, sendo para o efeito
necessário proceder a vários testes de i.
O teste utilizado é o T-Student e as hipóteses são:
• H0: i = 0
• H1: i ≠ 0
As variáveis cujos H0 se rejeitarem têm
então coeficientes diferentes de Zero.
Note-se que havendo k variáveis
independentes, a comparação do p-
valor deve ser feita com a significância
a/k e não com a.
VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO
DE REGRESSÃO LINEAR: MULTICOLINEARIDADE
No SPSS devemos selecionar os diagnósticos de colinearidade, através da
Tolerância e da VIF (variance inflation factor).
VIF - Quando os VIF são elevados, considera-se que existe colinearidade entre
variáveis, pelo que não devem ser todas incluídas no modelo. Valores de VIF
superiores a 5 (há autores que consideram o 10) evidenciam problemas de
colinearidade.
Tolerância – quando T é próximo de Zero há evidências de multicolinearidade.
𝑇 = 1/𝑉𝐼𝐹
Nenhum dos valores de VIF>5, logo confirma-se não haver colinearidade
VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO DE
REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS
Se o gráfico dos resíduos não revela qualquer padrão, a equação de regressão é
uma boa representação da associação das variáveis
Na situação ideal os erros dos resíduos devem distribuir-se de forma aleatória à
volta do valor “Zero”.
VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO
DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS
O pressuposto da
normalidade poder ser
avaliado através do gráfico
dos quantis normais.
Se a distribuição dos resíduos
for aproximadamente normal
os dados distribuem-se pela
diagonal principal.
VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO
DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS
Como se pode verificar pela
análise do histograma um
dos resíduos assume um
valor superior a 3, mais
especificamente 3,264.
O SPSS identifica-o no
diagnóstico dos casos.
Desta forma recomenda-se
que se elimine o caso 39 e se
refaça o modelo para
melhorar o ajuste.
REGRESSÃO LINEAR MÚLTIPLA COM VARIÁVEIS
CATEGÓRICAS
 Vimos até agora que as variáveis independentes que são
consideradas na regressão linear múltipla são sempre variáveis
quantitativas.
 Mas não é possível usar variáveis categóricas nos modelos de
regressão múltipla?
 As variáveis categóricas (nominais ou ordinais) só podem ser
utilizadas em regressão múltipla depois de convertidas em
variáveis dummy, que são variáveis dicotómicas 0/1, em que 0
representa o insucesso e 1 o sucesso.
REGRESSÃO LINEAR MÚLTIPLA COM VARIÁVEIS
CATEGÓRICAS: VARIÁVEIS DUMMY
• Uma variável dicotómica com dois
valores possíveis 0 e 1, em que 0
representa fracasso e 1 representa
sucesso é designada por ‘VARIÁVEL
DUMMY’.
• Considere o ficheiro ‘Jornalistas TV’.
A variável ‘Género’ (0 para homem
e 1 para mulher) é uma variável
dummy.
• A equação da reta de regressão é
dada por:
𝑦 = 469,535 + 62,916 𝑒𝑥𝑝𝑒𝑟𝑖ê𝑛𝑐𝑖𝑎 + 84,459𝑔é𝑛𝑒𝑟𝑜
Os resultados revelam que as
mulheres (género=1) recebem
mensalmente mais 84,459 € do
que os homens.

Mais conteúdo relacionado

Semelhante a AMD - Aula n.º 9 - regressão linear múltipla.pptx

Cap9 - Parte 5 - Teste De Coeficientes
Cap9 - Parte 5 - Teste De CoeficientesCap9 - Parte 5 - Teste De Coeficientes
Cap9 - Parte 5 - Teste De CoeficientesRegis Andrade
 
E4 análise de regressão simples
E4   análise de regressão simplesE4   análise de regressão simples
E4 análise de regressão simplesThyago Borba
 
Universidade_Federal_de_Sao_Paulo.pptx
Universidade_Federal_de_Sao_Paulo.pptxUniversidade_Federal_de_Sao_Paulo.pptx
Universidade_Federal_de_Sao_Paulo.pptxDanielAssuno27
 
Módulo4 regressao no spss
Módulo4 regressao no spssMódulo4 regressao no spss
Módulo4 regressao no spssBruna Ventorim
 
Analise de Sensibilidade
Analise de SensibilidadeAnalise de Sensibilidade
Analise de SensibilidadeVivi Basilio
 
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 GujaratiMonica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 GujaratiMonica Barros
 
Lista de Exercícios Econometria I - UFES
Lista de Exercícios Econometria I - UFESLista de Exercícios Econometria I - UFES
Lista de Exercícios Econometria I - UFESRamon Cristian
 
Variáveis avaliação de imóvel show
Variáveis avaliação de imóvel showVariáveis avaliação de imóvel show
Variáveis avaliação de imóvel showmaurocesarpaesalmeid
 
Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2Samuel Orlando Nhantumbo
 
Apresentação contabilometria 6
Apresentação contabilometria 6Apresentação contabilometria 6
Apresentação contabilometria 6Ingrid M
 
Gustavo bhering anotacoes-matematicas-sobre-teoria-dos-precos--distribuicao
Gustavo bhering anotacoes-matematicas-sobre-teoria-dos-precos--distribuicaoGustavo bhering anotacoes-matematicas-sobre-teoria-dos-precos--distribuicao
Gustavo bhering anotacoes-matematicas-sobre-teoria-dos-precos--distribuicaoGrupo de Economia Política IE-UFRJ
 
Apresentacao econometria
Apresentacao econometriaApresentacao econometria
Apresentacao econometriaFernando Amaral
 

Semelhante a AMD - Aula n.º 9 - regressão linear múltipla.pptx (20)

Cap9 - Parte 5 - Teste De Coeficientes
Cap9 - Parte 5 - Teste De CoeficientesCap9 - Parte 5 - Teste De Coeficientes
Cap9 - Parte 5 - Teste De Coeficientes
 
E4 análise de regressão simples
E4   análise de regressão simplesE4   análise de regressão simples
E4 análise de regressão simples
 
Regressão Linear I
Regressão Linear IRegressão Linear I
Regressão Linear I
 
04 tópico 3 - regressão multipla
04   tópico 3 - regressão multipla04   tópico 3 - regressão multipla
04 tópico 3 - regressão multipla
 
07 tópico 6 - autocorrelação
07   tópico 6 - autocorrelação07   tópico 6 - autocorrelação
07 tópico 6 - autocorrelação
 
Universidade_Federal_de_Sao_Paulo.pptx
Universidade_Federal_de_Sao_Paulo.pptxUniversidade_Federal_de_Sao_Paulo.pptx
Universidade_Federal_de_Sao_Paulo.pptx
 
Aula13-15.pdf
Aula13-15.pdfAula13-15.pdf
Aula13-15.pdf
 
Módulo4 regressao no spss
Módulo4 regressao no spssMódulo4 regressao no spss
Módulo4 regressao no spss
 
Analise de Sensibilidade
Analise de SensibilidadeAnalise de Sensibilidade
Analise de Sensibilidade
 
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 GujaratiMonica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
 
Regressão Espacial
Regressão EspacialRegressão Espacial
Regressão Espacial
 
Lista de Exercícios Econometria I - UFES
Lista de Exercícios Econometria I - UFESLista de Exercícios Econometria I - UFES
Lista de Exercícios Econometria I - UFES
 
Variáveis avaliação de imóvel show
Variáveis avaliação de imóvel showVariáveis avaliação de imóvel show
Variáveis avaliação de imóvel show
 
Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2
 
Apresentação contabilometria 6
Apresentação contabilometria 6Apresentação contabilometria 6
Apresentação contabilometria 6
 
Trabalho serie temporai sss
Trabalho serie temporai sssTrabalho serie temporai sss
Trabalho serie temporai sss
 
Analise exploratório de dados
Analise exploratório de dadosAnalise exploratório de dados
Analise exploratório de dados
 
Gustavo bhering anotacoes-matematicas-sobre-teoria-dos-precos--distribuicao
Gustavo bhering anotacoes-matematicas-sobre-teoria-dos-precos--distribuicaoGustavo bhering anotacoes-matematicas-sobre-teoria-dos-precos--distribuicao
Gustavo bhering anotacoes-matematicas-sobre-teoria-dos-precos--distribuicao
 
Manual lindo 6.1
Manual lindo 6.1Manual lindo 6.1
Manual lindo 6.1
 
Apresentacao econometria
Apresentacao econometriaApresentacao econometria
Apresentacao econometria
 

Mais de NunoSilva599593

AMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptxAMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptxNunoSilva599593
 
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxAMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxNunoSilva599593
 
AMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptxAMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptxNunoSilva599593
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxNunoSilva599593
 
AMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxAMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxNunoSilva599593
 
AMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptxAMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptxNunoSilva599593
 
AMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptxAMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptxNunoSilva599593
 
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxAMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxNunoSilva599593
 
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxAMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxNunoSilva599593
 

Mais de NunoSilva599593 (9)

AMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptxAMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptx
 
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxAMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
 
AMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptxAMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptx
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
 
AMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxAMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptx
 
AMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptxAMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptx
 
AMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptxAMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptx
 
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxAMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
 
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxAMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
 

AMD - Aula n.º 9 - regressão linear múltipla.pptx

  • 1. ANÁLISE MULTIVARIADA DE DADOS CURSO DE GESTÃO DE MARKETING DOCENTE: CARLA OLIVEIRA SILVA
  • 2. DADOS MULTIVARIADOS Vimos já que os dados bivariados eram pares de dados relativos a duas variáveis, em que uma delas era independente, e a segunda dependia da primeira. Em inúmeras situações do cotidiano é necessário considerar simultaneamente o efeito de mais do que uma variável independente, para a explicação de um fenómeno. Vejam-se os exemplos seguintes: Ex1: situação empresa = f (n.º empregados, capital social, volume de vendas)  variável aleatória tridimensional Ex2: Situação económica familiar = f(rendimento, poupanças, investimento, número de filhos)  variável aleatória quadridimensional
  • 3. MODELO DE REGRESSÃO LINEAR MÚLTIPLA A análise da regressão linear múltipla permite que vários factores observados afetem y. Ex: Salários: semanas de treino de trabalho, anos de permanência no atual empregador, medidas de aptidão, variáveis sociodemográficas (n.º de irmãos, educação da mãe, localização da empresa) u x x x y k k           ... 2 2 1 1 0 b0 e 0 – interseção b1, b2, …bk, 1 , 2 , …, k – parâmetros de inclinação x1, x2, …, xk – variáveis explicativas e, u – termo erro ou perturbação Modelo populacional: Não interessa quantas variáveis explicativas são incluídas no modelo, pois os fatores não incluídos estarão contidos coletivamente em u. Modelo amostral: 𝑦 = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 + ⋯ + 𝑏𝑘𝑥𝑘 + 𝑒
  • 4. MODELO PARA A REGRESSÃO LINEAR MÚLTIPLA y X1, x2, …xk Variável Dependente Variáveis Independentes Variável Explicada Variáveis Explicativas Variável de Resposta Variáveis de Controle Variável Prevista Variáveis Previsoras Regressando Regressores u x x x y k k           ˆ ... ˆ ˆ ˆ ˆ 2 2 1 1 0 Estimativa do Modelo com Variáveis Independentes As k+1 estimativas de MQO (mínimos quadrados ordinários) são escolhidas para minimizar a soma dos resíduos quadrados  2 ^ 2 2 ^ 1 1 ^ 0 ^ ... ik k i i x x x yi           Nota: o modelo de regressão linear simples é um modelo simplificado do modelo de regressão linear múltipla, em que existe apenas uma variável independente.
  • 5. MODELO DE REGRESSÃO LINEAR MÚLTIPLA  Nos modelos de regressão do tipo I assume-se que apenas a variável dependente pode conter erros de medição, ou que os erros das variáveis independentes são desprezáveis face à amplitude de variação dos xi.  É ainda necessário que as variáveis independentes sejam ortogonais, ou seja não apresentem correlações entre si, ou essas correlações sejam fracas.  Os coeficientes do modelo de regressão 1, 2, …k, são estimados a partir de uma amostra representativa da população sob estudo, sendo com esta obtidos os respetivos b1, b2, …bk.  À semelhança do que foi visto para o modelo de regressão linear simples, na regressão linear múltipla os coeficientes são estimados de modo a minimizar os erros aleatórios das medições de y. O poder da análise de regressão múltipla é que ela proporciona uma interpretação “ceteris paribus” mesmo que os dados não sejam recolhidos de maneira “ceteris paribus”. Ceteris paribus: outros fatores relevantes permanecem iguais.
  • 6. REGRESSÃO LINEAR MÚLTIPLA SELEÇÃO DOS PREDITORES Em muitos estudos os investigadores têm definidas as variáveis independentes que querem considerar no seu modelo. Contudo nas fases exploratórias podem ser consideradas várias possibilidades. Convém referir que não há o ‘Modelo Ideal’ mas alguns modelos que podem ser interessantes para o cumprimento de um dado objetivo. Cabe ao investigador definir qual ou quais modelos pretende considerar. Uma forma de validar o modelo é desenvolvê-lo com 60% dos dados e usar os restantes 40% na sua validação. A avaliação da qualidade do modelo é sempre obtida pelo R2 aj (coeficiente de determinação ajustado).
  • 7. REGRESSÃO LINEAR MÚLTIPLA SELEÇÃO DOS PREDITORES  A melhor forma de identificar as variáveis independentes que um modelo pode ou deve incluir é através de uma matriz de correlações.  Para o efeito seleciona-se a variável dependente (quantitativa) e todas as variáveis independentes (quantitativas) que possam eventualmente vir a constar do modelo.  O grande objetivo é identificar, por ordem decrescente de intensidade, a(s) variável(eis) que têm correlação com a variável dependente. A que apresentar maior correlação é a primeira a entrar no modelo.  Numa 2.ª fase é preciso garantir que não existem no mesmo modelo duas variáveis quantitativas com correlação significativa entre si.
  • 8. REGRESSÃO LINEAR MÚLTIPLA SELEÇÃO DOS PREDITORES Analisar Analise Correlacionar Correlate Bivariável Bivariate Existem 5 variáveis independentes com potencial para entrar no modelo. A 1.ª é a área útil que apresenta > correlação. A 2.ª é divisões, mas como é fortemente relacionada com área útil tem que Considere o ficheiro casas: quais os preditores mais indicados para explicar o preço anunciado?
  • 9. REGRESSÃO LINEAR MÚLTIPLA SELEÇÃO DOS PREDITORES A 2.ª variável a entrar no modelo seria divisões (r=0,654), contudo para esta variável entrar não pode haver forte correlação (r>0,7) com a 1.ª variável independente inserida. Vamos então experimentar as variáveis área útil e quartos 𝑦 𝑝𝑟𝑒ç𝑜 𝑎𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 = 𝑏0 + 𝑏1 ∗ 𝑥1(á𝑟𝑒𝑎 ú𝑡𝑖𝑙) A 1.ª variável a entrar no modelo é a área útil, porque é a aquela que apresenta maior correlação com a variável dependente (r=0,809). 𝑦 𝑝𝑟𝑒ç𝑜 𝑎𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 = 𝑏0 + 𝑏1 ∗ 𝑥1 á𝑟𝑒𝑎 ú𝑡𝑖𝑙 + 𝑏2 ∗ 𝑥2(𝑞𝑢𝑎𝑟𝑡𝑜𝑠)
  • 10. REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃO DE MODELOS Considere o ficheiro casas: pretende-se criar um modelo explicativo do preço anunciado das casas. Vamos por exemplo considerar a área útil e quartos. Analisar Regressão Linear Existem vários métodos que podem ser aplicados. O mais simples é o ‘Enter’ ou ‘Inserir’, em que cabe ao utilizador definir quais as variáveis que integram o modelo!
  • 11. REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃO DE MODELOS Para comparar modelos recorre-se ao R2 aj, que representa o coeficiente de determinação ajustado ao número de variáveis independentes consideradas no modelo. Modelo 1 – através da “área útil” é possível explicar 64,5% da variação do preço anunciado Modelo 2 – através das variáveis “área útil” e “quartos” é possível explicar 64,2% do preço anunciado. O modelo 1 é melhor do que o modelo 2, porque explica uma maior % com menos variáveis
  • 12. MODELO DE REGRESSÃO LINEAR MÚLTIPLA MÉTODOS ALTERNATIVOS AO INSERIR Método Forward: A 1.ª variável independente a ser adicionada é a que apresenta uma maior correlação, em valor absoluto, com a variável dependente - está nestas condições a variável que no teste Anova produzir o maior valor da estatística do teste F e consequentemente o menor p- valor. A 2.ª variável independente é a que apresentar a maior correlação com Y depois de ajustados os efeitos da primeira variável introduzida no modelo, e assim sucessivamente. O procedimento continua até que na Anova o p-valor > a. Método Backward: O modelo é iniciado com todas as variáveis independentes selecionadas. No passo seguinte é calculada uma estatística F parcial para cada variável, como se esta fosse a última a entrar no modelo. O p-valor é comparado com o nível de significância e quando este o igualar ou exceder a variável é removida do modelo. No passo seguinte é apresentado um modelo com k-1 variáveis independentes, que é ajustado e o seu p-valor comparado com o nível de significância. O procedimento continua até não existirem variáveis no modelo ou até que todas as variáveis presentes possuam um p-valor superior ao nível de significância. Método Stepwise: Este método é uma conjugação dos métodos anteriores No primeiro passo inicia-se com uma única variável independente, mas a significância da adição de cada variável independente é testada como no método backward. A vantagem do método é que permite a remoção de uma variável de importância reduzida, por novas variáveis de comprovada importância. O procedimento termina quando nenhuma das variáveis independentes ainda de fora, consegue entrar no modelo, e nenhuma das variáveis nele incluídas é forçada a sair.
  • 13. REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃO DE MODELOS Comparando os modelos 1 a 4, pode-se verificar a inclusão sucessiva de novas variáveis não provoca melhorias significativas no modelo.
  • 14. REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃO DE MODELOS Vamos ainda selecionar as seguintes opções:
  • 15. REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃO DE MODELOS R2 ajustado porquê? Na informação relativa às variáveis verifica-se que no 1.º modelo entrou a variável “Área Útil”. No 2.º modelo, para além da área útil foi integrada a variável “idade”. A entrada da 2.ª variável pouco melhorou o modelo
  • 16. MODELO DE REGRESSÃO LINEAR MÚLTIPLA COEFICIENTE DE DETERMINAÇÃO AJUSTADO • Em alternativa ao coeficiente de determinação, deve-se utilizar o coeficiente de determinação ajustado: • Trata-se de uma correção para eliminar as diferenças produzidas pela existência de um número distinto de variáveis independentes. • A adição de uma variável ao modelo produz um aumento de r2, no entanto, devido à correção introduzida, o valor de ra 2 só aumenta se de facto o novo modelo conduzir a um melhor ajustamento. 𝑟𝑎 2 = 𝑟2 − 𝑘(1 − 𝑟2 ) 𝑛 − 𝑘 − 1 Do ponto de vista inferencial pode-se dizer que ra 2 é um melhor estimador para r2 do que r2. K representa o n.º de variáveis independentes consideradas no modelo.
  • 17. REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃO DE MODELOS Note-se que quando se encontram os coeficientes bi do modelo de regressão linear, estes resultam da utilização de uma amostra (que se pretende que seja tão aproximada quanto possível da população), mas não de toda a população, pelo que é necessário verificar, ou testar, se no modelo populacional os correspondentes i são diferentes de Zero. Para o efeito recorre-se ao teste Anova: H0: 1 = 2 = …= k = 0 H1: pelo menos um i ≠ 0 DW avalia se os resíduos são independentes. Se 1,5<DW<2,5 considera- se aceitável
  • 18. REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃO DE MODELOS Note-se que rejeitar H0 da Anova supõe que pelo menos um i é diferente de zero. Torna-se por isso fundamental saber qual ou quais o são, sendo para o efeito necessário proceder a vários testes de i. O teste utilizado é o T-Student e as hipóteses são: • H0: i = 0 • H1: i ≠ 0 As variáveis cujos H0 se rejeitarem têm então coeficientes diferentes de Zero. Note-se que havendo k variáveis independentes, a comparação do p- valor deve ser feita com a significância a/k e não com a.
  • 19. VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO DE REGRESSÃO LINEAR: MULTICOLINEARIDADE No SPSS devemos selecionar os diagnósticos de colinearidade, através da Tolerância e da VIF (variance inflation factor). VIF - Quando os VIF são elevados, considera-se que existe colinearidade entre variáveis, pelo que não devem ser todas incluídas no modelo. Valores de VIF superiores a 5 (há autores que consideram o 10) evidenciam problemas de colinearidade. Tolerância – quando T é próximo de Zero há evidências de multicolinearidade. 𝑇 = 1/𝑉𝐼𝐹 Nenhum dos valores de VIF>5, logo confirma-se não haver colinearidade
  • 20. VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS Se o gráfico dos resíduos não revela qualquer padrão, a equação de regressão é uma boa representação da associação das variáveis Na situação ideal os erros dos resíduos devem distribuir-se de forma aleatória à volta do valor “Zero”.
  • 21. VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS O pressuposto da normalidade poder ser avaliado através do gráfico dos quantis normais. Se a distribuição dos resíduos for aproximadamente normal os dados distribuem-se pela diagonal principal.
  • 22. VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS Como se pode verificar pela análise do histograma um dos resíduos assume um valor superior a 3, mais especificamente 3,264. O SPSS identifica-o no diagnóstico dos casos. Desta forma recomenda-se que se elimine o caso 39 e se refaça o modelo para melhorar o ajuste.
  • 23. REGRESSÃO LINEAR MÚLTIPLA COM VARIÁVEIS CATEGÓRICAS  Vimos até agora que as variáveis independentes que são consideradas na regressão linear múltipla são sempre variáveis quantitativas.  Mas não é possível usar variáveis categóricas nos modelos de regressão múltipla?  As variáveis categóricas (nominais ou ordinais) só podem ser utilizadas em regressão múltipla depois de convertidas em variáveis dummy, que são variáveis dicotómicas 0/1, em que 0 representa o insucesso e 1 o sucesso.
  • 24. REGRESSÃO LINEAR MÚLTIPLA COM VARIÁVEIS CATEGÓRICAS: VARIÁVEIS DUMMY • Uma variável dicotómica com dois valores possíveis 0 e 1, em que 0 representa fracasso e 1 representa sucesso é designada por ‘VARIÁVEL DUMMY’. • Considere o ficheiro ‘Jornalistas TV’. A variável ‘Género’ (0 para homem e 1 para mulher) é uma variável dummy. • A equação da reta de regressão é dada por: 𝑦 = 469,535 + 62,916 𝑒𝑥𝑝𝑒𝑟𝑖ê𝑛𝑐𝑖𝑎 + 84,459𝑔é𝑛𝑒𝑟𝑜 Os resultados revelam que as mulheres (género=1) recebem mensalmente mais 84,459 € do que os homens.