O documento discute análise multivariada de dados e regressão linear múltipla. Apresenta modelos de regressão linear múltipla e discute métodos para seleção de variáveis preditoras e comparação de modelos. Também aborda pressupostos como multicolinearidade.
2. DADOS MULTIVARIADOS
Vimos já que os dados bivariados eram pares de dados relativos a duas
variáveis, em que uma delas era independente, e a segunda dependia
da primeira.
Em inúmeras situações do cotidiano é necessário considerar
simultaneamente o efeito de mais do que uma variável independente,
para a explicação de um fenómeno.
Vejam-se os exemplos seguintes:
Ex1: situação empresa = f (n.º empregados, capital social, volume de vendas)
variável aleatória tridimensional
Ex2: Situação económica familiar = f(rendimento, poupanças, investimento,
número de filhos) variável aleatória quadridimensional
3. MODELO DE REGRESSÃO LINEAR MÚLTIPLA
A análise da regressão linear múltipla permite que vários factores
observados afetem y.
Ex: Salários: semanas de treino de trabalho, anos de permanência no
atual empregador, medidas de aptidão, variáveis sociodemográficas
(n.º de irmãos, educação da mãe, localização da empresa)
u
x
x
x
y k
k
...
2
2
1
1
0
b0 e 0 – interseção
b1, b2, …bk, 1 , 2 , …, k – parâmetros de
inclinação
x1, x2, …, xk – variáveis explicativas
e, u – termo erro ou perturbação
Modelo populacional:
Não interessa quantas variáveis
explicativas são incluídas no
modelo, pois os fatores não
incluídos estarão contidos
coletivamente em u.
Modelo amostral: 𝑦 = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 + ⋯ + 𝑏𝑘𝑥𝑘 + 𝑒
4. MODELO PARA A REGRESSÃO LINEAR MÚLTIPLA
y X1, x2, …xk
Variável Dependente Variáveis Independentes
Variável Explicada Variáveis Explicativas
Variável de Resposta Variáveis de Controle
Variável Prevista Variáveis Previsoras
Regressando Regressores
u
x
x
x
y k
k
ˆ
...
ˆ
ˆ
ˆ
ˆ 2
2
1
1
0
Estimativa do Modelo com Variáveis Independentes
As k+1 estimativas de MQO (mínimos quadrados ordinários) são
escolhidas para minimizar a soma dos resíduos quadrados
2
^
2
2
^
1
1
^
0
^
... ik
k
i
i x
x
x
yi
Nota: o modelo de
regressão linear
simples é um modelo
simplificado do
modelo de regressão
linear múltipla, em
que existe apenas uma
variável independente.
5. MODELO DE REGRESSÃO LINEAR MÚLTIPLA
Nos modelos de regressão do tipo I assume-se que apenas a variável
dependente pode conter erros de medição, ou que os erros das variáveis
independentes são desprezáveis face à amplitude de variação dos xi.
É ainda necessário que as variáveis independentes sejam ortogonais, ou seja não
apresentem correlações entre si, ou essas correlações sejam fracas.
Os coeficientes do modelo de regressão 1, 2, …k, são estimados a partir de
uma amostra representativa da população sob estudo, sendo com esta obtidos
os respetivos b1, b2, …bk.
À semelhança do que foi visto para o modelo de regressão linear simples, na
regressão linear múltipla os coeficientes são estimados de modo a minimizar os
erros aleatórios das medições de y. O poder da análise de regressão múltipla é
que ela proporciona uma interpretação
“ceteris paribus” mesmo que os dados não
sejam recolhidos de maneira “ceteris
paribus”.
Ceteris paribus: outros fatores
relevantes permanecem iguais.
6. REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
Em muitos estudos os investigadores têm definidas as variáveis
independentes que querem considerar no seu modelo.
Contudo nas fases exploratórias podem ser consideradas várias
possibilidades. Convém referir que não há o ‘Modelo Ideal’ mas alguns
modelos que podem ser interessantes para o cumprimento de um
dado objetivo. Cabe ao investigador definir qual ou quais modelos
pretende considerar.
Uma forma de validar o modelo é desenvolvê-lo com 60% dos dados e
usar os restantes 40% na sua validação.
A avaliação da qualidade do modelo é sempre obtida pelo R2
aj
(coeficiente de determinação ajustado).
7. REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
A melhor forma de identificar as variáveis independentes que um
modelo pode ou deve incluir é através de uma matriz de
correlações.
Para o efeito seleciona-se a variável dependente (quantitativa) e
todas as variáveis independentes (quantitativas) que possam
eventualmente vir a constar do modelo.
O grande objetivo é identificar, por ordem decrescente de
intensidade, a(s) variável(eis) que têm correlação com a variável
dependente. A que apresentar maior correlação é a primeira a
entrar no modelo.
Numa 2.ª fase é preciso garantir que não existem no mesmo modelo
duas variáveis quantitativas com correlação significativa entre si.
8. REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
Analisar
Analise
Correlacionar
Correlate
Bivariável
Bivariate
Existem 5
variáveis
independentes
com potencial
para entrar no
modelo. A 1.ª é a
área útil que
apresenta >
correlação. A 2.ª
é divisões, mas
como é
fortemente
relacionada com
área útil tem que
Considere o ficheiro casas: quais os preditores mais
indicados para explicar o preço anunciado?
9. REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
A 2.ª variável a entrar no modelo seria divisões (r=0,654), contudo para esta
variável entrar não pode haver forte correlação (r>0,7) com a 1.ª variável
independente inserida. Vamos então experimentar as variáveis área útil e
quartos
𝑦 𝑝𝑟𝑒ç𝑜 𝑎𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 = 𝑏0 + 𝑏1 ∗ 𝑥1(á𝑟𝑒𝑎 ú𝑡𝑖𝑙)
A 1.ª variável a entrar no modelo é a área útil, porque é a aquela que
apresenta maior correlação com a variável dependente (r=0,809).
𝑦 𝑝𝑟𝑒ç𝑜 𝑎𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 = 𝑏0 + 𝑏1 ∗ 𝑥1 á𝑟𝑒𝑎 ú𝑡𝑖𝑙 + 𝑏2 ∗ 𝑥2(𝑞𝑢𝑎𝑟𝑡𝑜𝑠)
10. REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Considere o ficheiro casas: pretende-se criar um modelo explicativo do
preço anunciado das casas. Vamos por exemplo considerar a área útil e
quartos.
Analisar
Regressão
Linear
Existem vários métodos que podem ser aplicados. O mais simples é o ‘Enter’ ou ‘Inserir’, em
que cabe ao utilizador definir quais as variáveis que integram o modelo!
11. REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Para comparar modelos recorre-se ao
R2
aj, que representa o coeficiente de
determinação ajustado ao número de
variáveis independentes consideradas
no modelo.
Modelo 1 – através da “área útil” é possível explicar 64,5% da variação do preço
anunciado
Modelo 2 – através das variáveis “área útil” e “quartos” é possível explicar 64,2% do
preço anunciado.
O modelo 1 é melhor do que o modelo 2, porque
explica uma maior % com menos variáveis
12. MODELO DE REGRESSÃO LINEAR MÚLTIPLA
MÉTODOS ALTERNATIVOS AO INSERIR
Método Forward:
A 1.ª variável independente a ser
adicionada é a que apresenta uma
maior correlação, em valor
absoluto, com a variável
dependente - está nestas
condições a variável que no teste
Anova produzir o maior valor da
estatística do teste F e
consequentemente o menor p-
valor.
A 2.ª variável independente é a
que apresentar a maior correlação
com Y depois de ajustados os
efeitos da primeira variável
introduzida no modelo, e assim
sucessivamente.
O procedimento continua até que
na Anova o p-valor > a.
Método Backward:
O modelo é iniciado com todas as
variáveis independentes
selecionadas. No passo seguinte é
calculada uma estatística F parcial
para cada variável, como se esta
fosse a última a entrar no modelo.
O p-valor é comparado com o
nível de significância e quando
este o igualar ou exceder a
variável é removida do modelo.
No passo seguinte é apresentado
um modelo com k-1 variáveis
independentes, que é ajustado e
o seu p-valor comparado com o
nível de significância.
O procedimento continua até não
existirem variáveis no modelo ou
até que todas as variáveis
presentes possuam um p-valor
superior ao nível de significância.
Método Stepwise:
Este método é uma conjugação
dos métodos anteriores
No primeiro passo inicia-se com
uma única variável independente,
mas a significância da adição de
cada variável independente é
testada como no método
backward.
A vantagem do método é que
permite a remoção de uma
variável de importância reduzida,
por novas variáveis de
comprovada importância.
O procedimento termina quando
nenhuma das variáveis
independentes ainda de fora,
consegue entrar no modelo, e
nenhuma das variáveis nele
incluídas é forçada a sair.
13. REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Comparando os modelos 1 a 4, pode-se
verificar a inclusão sucessiva de novas
variáveis não provoca melhorias
significativas no modelo.
15. REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
R2 ajustado
porquê?
Na informação relativa às variáveis
verifica-se que no 1.º modelo
entrou a variável “Área Útil”. No 2.º
modelo, para além da área útil foi
integrada a variável “idade”.
A entrada da 2.ª variável
pouco melhorou o
modelo
16. MODELO DE REGRESSÃO LINEAR MÚLTIPLA
COEFICIENTE DE DETERMINAÇÃO AJUSTADO
• Em alternativa ao coeficiente de determinação, deve-se utilizar o
coeficiente de determinação ajustado:
• Trata-se de uma correção para eliminar as diferenças produzidas
pela existência de um número distinto de variáveis independentes.
• A adição de uma variável ao modelo produz um aumento de r2, no
entanto, devido à correção introduzida, o valor de ra
2 só aumenta se
de facto o novo modelo conduzir a um melhor ajustamento.
𝑟𝑎
2 = 𝑟2 −
𝑘(1 − 𝑟2
)
𝑛 − 𝑘 − 1
Do ponto de vista inferencial pode-se dizer que ra
2 é um melhor estimador para
r2 do que r2.
K representa o n.º de variáveis
independentes consideradas no
modelo.
17. REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Note-se que quando se encontram os coeficientes bi do modelo de regressão linear, estes resultam da
utilização de uma amostra (que se pretende que seja tão aproximada quanto possível da população), mas
não de toda a população, pelo que é necessário verificar, ou testar, se no modelo populacional os
correspondentes i são diferentes de Zero.
Para o efeito recorre-se ao teste Anova:
H0: 1 = 2 = …= k = 0
H1: pelo menos um i ≠ 0
DW avalia se os
resíduos são
independentes. Se
1,5<DW<2,5 considera-
se aceitável
18. REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Note-se que rejeitar H0 da Anova supõe que pelo menos um i é diferente de zero.
Torna-se por isso fundamental saber qual ou quais o são, sendo para o efeito
necessário proceder a vários testes de i.
O teste utilizado é o T-Student e as hipóteses são:
• H0: i = 0
• H1: i ≠ 0
As variáveis cujos H0 se rejeitarem têm
então coeficientes diferentes de Zero.
Note-se que havendo k variáveis
independentes, a comparação do p-
valor deve ser feita com a significância
a/k e não com a.
19. VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO
DE REGRESSÃO LINEAR: MULTICOLINEARIDADE
No SPSS devemos selecionar os diagnósticos de colinearidade, através da
Tolerância e da VIF (variance inflation factor).
VIF - Quando os VIF são elevados, considera-se que existe colinearidade entre
variáveis, pelo que não devem ser todas incluídas no modelo. Valores de VIF
superiores a 5 (há autores que consideram o 10) evidenciam problemas de
colinearidade.
Tolerância – quando T é próximo de Zero há evidências de multicolinearidade.
𝑇 = 1/𝑉𝐼𝐹
Nenhum dos valores de VIF>5, logo confirma-se não haver colinearidade
20. VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO DE
REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS
Se o gráfico dos resíduos não revela qualquer padrão, a equação de regressão é
uma boa representação da associação das variáveis
Na situação ideal os erros dos resíduos devem distribuir-se de forma aleatória à
volta do valor “Zero”.
21. VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO
DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS
O pressuposto da
normalidade poder ser
avaliado através do gráfico
dos quantis normais.
Se a distribuição dos resíduos
for aproximadamente normal
os dados distribuem-se pela
diagonal principal.
22. VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO
DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS
Como se pode verificar pela
análise do histograma um
dos resíduos assume um
valor superior a 3, mais
especificamente 3,264.
O SPSS identifica-o no
diagnóstico dos casos.
Desta forma recomenda-se
que se elimine o caso 39 e se
refaça o modelo para
melhorar o ajuste.
23. REGRESSÃO LINEAR MÚLTIPLA COM VARIÁVEIS
CATEGÓRICAS
Vimos até agora que as variáveis independentes que são
consideradas na regressão linear múltipla são sempre variáveis
quantitativas.
Mas não é possível usar variáveis categóricas nos modelos de
regressão múltipla?
As variáveis categóricas (nominais ou ordinais) só podem ser
utilizadas em regressão múltipla depois de convertidas em
variáveis dummy, que são variáveis dicotómicas 0/1, em que 0
representa o insucesso e 1 o sucesso.
24. REGRESSÃO LINEAR MÚLTIPLA COM VARIÁVEIS
CATEGÓRICAS: VARIÁVEIS DUMMY
• Uma variável dicotómica com dois
valores possíveis 0 e 1, em que 0
representa fracasso e 1 representa
sucesso é designada por ‘VARIÁVEL
DUMMY’.
• Considere o ficheiro ‘Jornalistas TV’.
A variável ‘Género’ (0 para homem
e 1 para mulher) é uma variável
dummy.
• A equação da reta de regressão é
dada por:
𝑦 = 469,535 + 62,916 𝑒𝑥𝑝𝑒𝑟𝑖ê𝑛𝑐𝑖𝑎 + 84,459𝑔é𝑛𝑒𝑟𝑜
Os resultados revelam que as
mulheres (género=1) recebem
mensalmente mais 84,459 € do
que os homens.