ANÁLISE MULTIVARIADA DE DADOS
CURSO DE GESTÃO DE MARKETING
DOCENTE: CARLA OLIVEIRA SILVA
DADOS MULTIVARIADOS
Vimos já que os dados bivariados eram pares de dados relativos a duas
variáveis, em que uma delas era independente, e a segunda dependia
da primeira.
Em inúmeras situações do cotidiano é necessário considerar
simultaneamente o efeito de mais do que uma variável independente,
para a explicação de um fenómeno.
Vejam-se os exemplos seguintes:
Ex1: situação empresa = f (n.º empregados, capital social, volume de vendas) 
variável aleatória tridimensional
Ex2: Situação económica familiar = f(rendimento, poupanças, investimento,
número de filhos)  variável aleatória quadridimensional
MODELO DE REGRESSÃO LINEAR MÚLTIPLA
A análise da regressão linear múltipla permite que vários factores
observados afetem y.
Ex: Salários: semanas de treino de trabalho, anos de permanência no
atual empregador, medidas de aptidão, variáveis sociodemográficas
(n.º de irmãos, educação da mãe, localização da empresa)
u
x
x
x
y k
k 




 


 ...
2
2
1
1
0
b0 e 0 – interseção
b1, b2, …bk, 1 , 2 , …, k – parâmetros de
inclinação
x1, x2, …, xk – variáveis explicativas
e, u – termo erro ou perturbação
Modelo populacional:
Não interessa quantas variáveis
explicativas são incluídas no
modelo, pois os fatores não
incluídos estarão contidos
coletivamente em u.
Modelo amostral: 𝑦 = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 + ⋯ + 𝑏𝑘𝑥𝑘 + 𝑒
MODELO PARA A REGRESSÃO LINEAR MÚLTIPLA
y X1, x2, …xk
Variável Dependente Variáveis Independentes
Variável Explicada Variáveis Explicativas
Variável de Resposta Variáveis de Controle
Variável Prevista Variáveis Previsoras
Regressando Regressores
u
x
x
x
y k
k 




 


 ˆ
...
ˆ
ˆ
ˆ
ˆ 2
2
1
1
0
Estimativa do Modelo com Variáveis Independentes
As k+1 estimativas de MQO (mínimos quadrados ordinários) são
escolhidas para minimizar a soma dos resíduos quadrados
 2
^
2
2
^
1
1
^
0
^
... ik
k
i
i x
x
x
yi 


 





Nota: o modelo de
regressão linear
simples é um modelo
simplificado do
modelo de regressão
linear múltipla, em
que existe apenas uma
variável independente.
MODELO DE REGRESSÃO LINEAR MÚLTIPLA
 Nos modelos de regressão do tipo I assume-se que apenas a variável
dependente pode conter erros de medição, ou que os erros das variáveis
independentes são desprezáveis face à amplitude de variação dos xi.
 É ainda necessário que as variáveis independentes sejam ortogonais, ou seja não
apresentem correlações entre si, ou essas correlações sejam fracas.
 Os coeficientes do modelo de regressão 1, 2, …k, são estimados a partir de
uma amostra representativa da população sob estudo, sendo com esta obtidos
os respetivos b1, b2, …bk.
 À semelhança do que foi visto para o modelo de regressão linear simples, na
regressão linear múltipla os coeficientes são estimados de modo a minimizar os
erros aleatórios das medições de y. O poder da análise de regressão múltipla é
que ela proporciona uma interpretação
“ceteris paribus” mesmo que os dados não
sejam recolhidos de maneira “ceteris
paribus”.
Ceteris paribus: outros fatores
relevantes permanecem iguais.
REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
Em muitos estudos os investigadores têm definidas as variáveis
independentes que querem considerar no seu modelo.
Contudo nas fases exploratórias podem ser consideradas várias
possibilidades. Convém referir que não há o ‘Modelo Ideal’ mas alguns
modelos que podem ser interessantes para o cumprimento de um
dado objetivo. Cabe ao investigador definir qual ou quais modelos
pretende considerar.
Uma forma de validar o modelo é desenvolvê-lo com 60% dos dados e
usar os restantes 40% na sua validação.
A avaliação da qualidade do modelo é sempre obtida pelo R2
aj
(coeficiente de determinação ajustado).
REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
 A melhor forma de identificar as variáveis independentes que um
modelo pode ou deve incluir é através de uma matriz de
correlações.
 Para o efeito seleciona-se a variável dependente (quantitativa) e
todas as variáveis independentes (quantitativas) que possam
eventualmente vir a constar do modelo.
 O grande objetivo é identificar, por ordem decrescente de
intensidade, a(s) variável(eis) que têm correlação com a variável
dependente. A que apresentar maior correlação é a primeira a
entrar no modelo.
 Numa 2.ª fase é preciso garantir que não existem no mesmo modelo
duas variáveis quantitativas com correlação significativa entre si.
REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
Analisar
Analise
Correlacionar
Correlate
Bivariável
Bivariate
Existem 5
variáveis
independentes
com potencial
para entrar no
modelo. A 1.ª é a
área útil que
apresenta >
correlação. A 2.ª
é divisões, mas
como é
fortemente
relacionada com
área útil tem que
Considere o ficheiro casas: quais os preditores mais
indicados para explicar o preço anunciado?
REGRESSÃO LINEAR MÚLTIPLA
SELEÇÃO DOS PREDITORES
A 2.ª variável a entrar no modelo seria divisões (r=0,654), contudo para esta
variável entrar não pode haver forte correlação (r>0,7) com a 1.ª variável
independente inserida. Vamos então experimentar as variáveis área útil e
quartos
𝑦 𝑝𝑟𝑒ç𝑜 𝑎𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 = 𝑏0 + 𝑏1 ∗ 𝑥1(á𝑟𝑒𝑎 ú𝑡𝑖𝑙)
A 1.ª variável a entrar no modelo é a área útil, porque é a aquela que
apresenta maior correlação com a variável dependente (r=0,809).
𝑦 𝑝𝑟𝑒ç𝑜 𝑎𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 = 𝑏0 + 𝑏1 ∗ 𝑥1 á𝑟𝑒𝑎 ú𝑡𝑖𝑙 + 𝑏2 ∗ 𝑥2(𝑞𝑢𝑎𝑟𝑡𝑜𝑠)
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Considere o ficheiro casas: pretende-se criar um modelo explicativo do
preço anunciado das casas. Vamos por exemplo considerar a área útil e
quartos.
Analisar
Regressão
Linear
Existem vários métodos que podem ser aplicados. O mais simples é o ‘Enter’ ou ‘Inserir’, em
que cabe ao utilizador definir quais as variáveis que integram o modelo!
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Para comparar modelos recorre-se ao
R2
aj, que representa o coeficiente de
determinação ajustado ao número de
variáveis independentes consideradas
no modelo.
Modelo 1 – através da “área útil” é possível explicar 64,5% da variação do preço
anunciado
Modelo 2 – através das variáveis “área útil” e “quartos” é possível explicar 64,2% do
preço anunciado.
O modelo 1 é melhor do que o modelo 2, porque
explica uma maior % com menos variáveis
MODELO DE REGRESSÃO LINEAR MÚLTIPLA
MÉTODOS ALTERNATIVOS AO INSERIR
Método Forward:
A 1.ª variável independente a ser
adicionada é a que apresenta uma
maior correlação, em valor
absoluto, com a variável
dependente - está nestas
condições a variável que no teste
Anova produzir o maior valor da
estatística do teste F e
consequentemente o menor p-
valor.
A 2.ª variável independente é a
que apresentar a maior correlação
com Y depois de ajustados os
efeitos da primeira variável
introduzida no modelo, e assim
sucessivamente.
O procedimento continua até que
na Anova o p-valor > a.
Método Backward:
O modelo é iniciado com todas as
variáveis independentes
selecionadas. No passo seguinte é
calculada uma estatística F parcial
para cada variável, como se esta
fosse a última a entrar no modelo.
O p-valor é comparado com o
nível de significância e quando
este o igualar ou exceder a
variável é removida do modelo.
No passo seguinte é apresentado
um modelo com k-1 variáveis
independentes, que é ajustado e
o seu p-valor comparado com o
nível de significância.
O procedimento continua até não
existirem variáveis no modelo ou
até que todas as variáveis
presentes possuam um p-valor
superior ao nível de significância.
Método Stepwise:
Este método é uma conjugação
dos métodos anteriores
No primeiro passo inicia-se com
uma única variável independente,
mas a significância da adição de
cada variável independente é
testada como no método
backward.
A vantagem do método é que
permite a remoção de uma
variável de importância reduzida,
por novas variáveis de
comprovada importância.
O procedimento termina quando
nenhuma das variáveis
independentes ainda de fora,
consegue entrar no modelo, e
nenhuma das variáveis nele
incluídas é forçada a sair.
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Comparando os modelos 1 a 4, pode-se
verificar a inclusão sucessiva de novas
variáveis não provoca melhorias
significativas no modelo.
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Vamos ainda selecionar as seguintes opções:
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
R2 ajustado
porquê?
Na informação relativa às variáveis
verifica-se que no 1.º modelo
entrou a variável “Área Útil”. No 2.º
modelo, para além da área útil foi
integrada a variável “idade”.
A entrada da 2.ª variável
pouco melhorou o
modelo
MODELO DE REGRESSÃO LINEAR MÚLTIPLA
COEFICIENTE DE DETERMINAÇÃO AJUSTADO
• Em alternativa ao coeficiente de determinação, deve-se utilizar o
coeficiente de determinação ajustado:
• Trata-se de uma correção para eliminar as diferenças produzidas
pela existência de um número distinto de variáveis independentes.
• A adição de uma variável ao modelo produz um aumento de r2, no
entanto, devido à correção introduzida, o valor de ra
2 só aumenta se
de facto o novo modelo conduzir a um melhor ajustamento.
𝑟𝑎
2 = 𝑟2 −
𝑘(1 − 𝑟2
)
𝑛 − 𝑘 − 1
Do ponto de vista inferencial pode-se dizer que ra
2 é um melhor estimador para
r2 do que r2.
K representa o n.º de variáveis
independentes consideradas no
modelo.
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Note-se que quando se encontram os coeficientes bi do modelo de regressão linear, estes resultam da
utilização de uma amostra (que se pretende que seja tão aproximada quanto possível da população), mas
não de toda a população, pelo que é necessário verificar, ou testar, se no modelo populacional os
correspondentes i são diferentes de Zero.
Para o efeito recorre-se ao teste Anova:
H0: 1 = 2 = …= k = 0
H1: pelo menos um i ≠ 0
DW avalia se os
resíduos são
independentes. Se
1,5<DW<2,5 considera-
se aceitável
REGRESSÃO LINEAR MÚLTIPLA
COMPARAÇÃO DE MODELOS
Note-se que rejeitar H0 da Anova supõe que pelo menos um i é diferente de zero.
Torna-se por isso fundamental saber qual ou quais o são, sendo para o efeito
necessário proceder a vários testes de i.
O teste utilizado é o T-Student e as hipóteses são:
• H0: i = 0
• H1: i ≠ 0
As variáveis cujos H0 se rejeitarem têm
então coeficientes diferentes de Zero.
Note-se que havendo k variáveis
independentes, a comparação do p-
valor deve ser feita com a significância
a/k e não com a.
VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO
DE REGRESSÃO LINEAR: MULTICOLINEARIDADE
No SPSS devemos selecionar os diagnósticos de colinearidade, através da
Tolerância e da VIF (variance inflation factor).
VIF - Quando os VIF são elevados, considera-se que existe colinearidade entre
variáveis, pelo que não devem ser todas incluídas no modelo. Valores de VIF
superiores a 5 (há autores que consideram o 10) evidenciam problemas de
colinearidade.
Tolerância – quando T é próximo de Zero há evidências de multicolinearidade.
𝑇 = 1/𝑉𝐼𝐹
Nenhum dos valores de VIF>5, logo confirma-se não haver colinearidade
VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO DE
REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS
Se o gráfico dos resíduos não revela qualquer padrão, a equação de regressão é
uma boa representação da associação das variáveis
Na situação ideal os erros dos resíduos devem distribuir-se de forma aleatória à
volta do valor “Zero”.
VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO
DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS
O pressuposto da
normalidade poder ser
avaliado através do gráfico
dos quantis normais.
Se a distribuição dos resíduos
for aproximadamente normal
os dados distribuem-se pela
diagonal principal.
VALIDAÇÃO DOS PRESSUPOSTOS DO MODELO
DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS
Como se pode verificar pela
análise do histograma um
dos resíduos assume um
valor superior a 3, mais
especificamente 3,264.
O SPSS identifica-o no
diagnóstico dos casos.
Desta forma recomenda-se
que se elimine o caso 39 e se
refaça o modelo para
melhorar o ajuste.
REGRESSÃO LINEAR MÚLTIPLA COM VARIÁVEIS
CATEGÓRICAS
 Vimos até agora que as variáveis independentes que são
consideradas na regressão linear múltipla são sempre variáveis
quantitativas.
 Mas não é possível usar variáveis categóricas nos modelos de
regressão múltipla?
 As variáveis categóricas (nominais ou ordinais) só podem ser
utilizadas em regressão múltipla depois de convertidas em
variáveis dummy, que são variáveis dicotómicas 0/1, em que 0
representa o insucesso e 1 o sucesso.
REGRESSÃO LINEAR MÚLTIPLA COM VARIÁVEIS
CATEGÓRICAS: VARIÁVEIS DUMMY
• Uma variável dicotómica com dois
valores possíveis 0 e 1, em que 0
representa fracasso e 1 representa
sucesso é designada por ‘VARIÁVEL
DUMMY’.
• Considere o ficheiro ‘Jornalistas TV’.
A variável ‘Género’ (0 para homem
e 1 para mulher) é uma variável
dummy.
• A equação da reta de regressão é
dada por:
𝑦 = 469,535 + 62,916 𝑒𝑥𝑝𝑒𝑟𝑖ê𝑛𝑐𝑖𝑎 + 84,459𝑔é𝑛𝑒𝑟𝑜
Os resultados revelam que as
mulheres (género=1) recebem
mensalmente mais 84,459 € do
que os homens.

AMD - Aula n.º 9 - regressão linear múltipla.pptx

  • 1.
    ANÁLISE MULTIVARIADA DEDADOS CURSO DE GESTÃO DE MARKETING DOCENTE: CARLA OLIVEIRA SILVA
  • 2.
    DADOS MULTIVARIADOS Vimos jáque os dados bivariados eram pares de dados relativos a duas variáveis, em que uma delas era independente, e a segunda dependia da primeira. Em inúmeras situações do cotidiano é necessário considerar simultaneamente o efeito de mais do que uma variável independente, para a explicação de um fenómeno. Vejam-se os exemplos seguintes: Ex1: situação empresa = f (n.º empregados, capital social, volume de vendas)  variável aleatória tridimensional Ex2: Situação económica familiar = f(rendimento, poupanças, investimento, número de filhos)  variável aleatória quadridimensional
  • 3.
    MODELO DE REGRESSÃOLINEAR MÚLTIPLA A análise da regressão linear múltipla permite que vários factores observados afetem y. Ex: Salários: semanas de treino de trabalho, anos de permanência no atual empregador, medidas de aptidão, variáveis sociodemográficas (n.º de irmãos, educação da mãe, localização da empresa) u x x x y k k           ... 2 2 1 1 0 b0 e 0 – interseção b1, b2, …bk, 1 , 2 , …, k – parâmetros de inclinação x1, x2, …, xk – variáveis explicativas e, u – termo erro ou perturbação Modelo populacional: Não interessa quantas variáveis explicativas são incluídas no modelo, pois os fatores não incluídos estarão contidos coletivamente em u. Modelo amostral: 𝑦 = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 + ⋯ + 𝑏𝑘𝑥𝑘 + 𝑒
  • 4.
    MODELO PARA AREGRESSÃO LINEAR MÚLTIPLA y X1, x2, …xk Variável Dependente Variáveis Independentes Variável Explicada Variáveis Explicativas Variável de Resposta Variáveis de Controle Variável Prevista Variáveis Previsoras Regressando Regressores u x x x y k k           ˆ ... ˆ ˆ ˆ ˆ 2 2 1 1 0 Estimativa do Modelo com Variáveis Independentes As k+1 estimativas de MQO (mínimos quadrados ordinários) são escolhidas para minimizar a soma dos resíduos quadrados  2 ^ 2 2 ^ 1 1 ^ 0 ^ ... ik k i i x x x yi           Nota: o modelo de regressão linear simples é um modelo simplificado do modelo de regressão linear múltipla, em que existe apenas uma variável independente.
  • 5.
    MODELO DE REGRESSÃOLINEAR MÚLTIPLA  Nos modelos de regressão do tipo I assume-se que apenas a variável dependente pode conter erros de medição, ou que os erros das variáveis independentes são desprezáveis face à amplitude de variação dos xi.  É ainda necessário que as variáveis independentes sejam ortogonais, ou seja não apresentem correlações entre si, ou essas correlações sejam fracas.  Os coeficientes do modelo de regressão 1, 2, …k, são estimados a partir de uma amostra representativa da população sob estudo, sendo com esta obtidos os respetivos b1, b2, …bk.  À semelhança do que foi visto para o modelo de regressão linear simples, na regressão linear múltipla os coeficientes são estimados de modo a minimizar os erros aleatórios das medições de y. O poder da análise de regressão múltipla é que ela proporciona uma interpretação “ceteris paribus” mesmo que os dados não sejam recolhidos de maneira “ceteris paribus”. Ceteris paribus: outros fatores relevantes permanecem iguais.
  • 6.
    REGRESSÃO LINEAR MÚLTIPLA SELEÇÃODOS PREDITORES Em muitos estudos os investigadores têm definidas as variáveis independentes que querem considerar no seu modelo. Contudo nas fases exploratórias podem ser consideradas várias possibilidades. Convém referir que não há o ‘Modelo Ideal’ mas alguns modelos que podem ser interessantes para o cumprimento de um dado objetivo. Cabe ao investigador definir qual ou quais modelos pretende considerar. Uma forma de validar o modelo é desenvolvê-lo com 60% dos dados e usar os restantes 40% na sua validação. A avaliação da qualidade do modelo é sempre obtida pelo R2 aj (coeficiente de determinação ajustado).
  • 7.
    REGRESSÃO LINEAR MÚLTIPLA SELEÇÃODOS PREDITORES  A melhor forma de identificar as variáveis independentes que um modelo pode ou deve incluir é através de uma matriz de correlações.  Para o efeito seleciona-se a variável dependente (quantitativa) e todas as variáveis independentes (quantitativas) que possam eventualmente vir a constar do modelo.  O grande objetivo é identificar, por ordem decrescente de intensidade, a(s) variável(eis) que têm correlação com a variável dependente. A que apresentar maior correlação é a primeira a entrar no modelo.  Numa 2.ª fase é preciso garantir que não existem no mesmo modelo duas variáveis quantitativas com correlação significativa entre si.
  • 8.
    REGRESSÃO LINEAR MÚLTIPLA SELEÇÃODOS PREDITORES Analisar Analise Correlacionar Correlate Bivariável Bivariate Existem 5 variáveis independentes com potencial para entrar no modelo. A 1.ª é a área útil que apresenta > correlação. A 2.ª é divisões, mas como é fortemente relacionada com área útil tem que Considere o ficheiro casas: quais os preditores mais indicados para explicar o preço anunciado?
  • 9.
    REGRESSÃO LINEAR MÚLTIPLA SELEÇÃODOS PREDITORES A 2.ª variável a entrar no modelo seria divisões (r=0,654), contudo para esta variável entrar não pode haver forte correlação (r>0,7) com a 1.ª variável independente inserida. Vamos então experimentar as variáveis área útil e quartos 𝑦 𝑝𝑟𝑒ç𝑜 𝑎𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 = 𝑏0 + 𝑏1 ∗ 𝑥1(á𝑟𝑒𝑎 ú𝑡𝑖𝑙) A 1.ª variável a entrar no modelo é a área útil, porque é a aquela que apresenta maior correlação com a variável dependente (r=0,809). 𝑦 𝑝𝑟𝑒ç𝑜 𝑎𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 = 𝑏0 + 𝑏1 ∗ 𝑥1 á𝑟𝑒𝑎 ú𝑡𝑖𝑙 + 𝑏2 ∗ 𝑥2(𝑞𝑢𝑎𝑟𝑡𝑜𝑠)
  • 10.
    REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃODE MODELOS Considere o ficheiro casas: pretende-se criar um modelo explicativo do preço anunciado das casas. Vamos por exemplo considerar a área útil e quartos. Analisar Regressão Linear Existem vários métodos que podem ser aplicados. O mais simples é o ‘Enter’ ou ‘Inserir’, em que cabe ao utilizador definir quais as variáveis que integram o modelo!
  • 11.
    REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃODE MODELOS Para comparar modelos recorre-se ao R2 aj, que representa o coeficiente de determinação ajustado ao número de variáveis independentes consideradas no modelo. Modelo 1 – através da “área útil” é possível explicar 64,5% da variação do preço anunciado Modelo 2 – através das variáveis “área útil” e “quartos” é possível explicar 64,2% do preço anunciado. O modelo 1 é melhor do que o modelo 2, porque explica uma maior % com menos variáveis
  • 12.
    MODELO DE REGRESSÃOLINEAR MÚLTIPLA MÉTODOS ALTERNATIVOS AO INSERIR Método Forward: A 1.ª variável independente a ser adicionada é a que apresenta uma maior correlação, em valor absoluto, com a variável dependente - está nestas condições a variável que no teste Anova produzir o maior valor da estatística do teste F e consequentemente o menor p- valor. A 2.ª variável independente é a que apresentar a maior correlação com Y depois de ajustados os efeitos da primeira variável introduzida no modelo, e assim sucessivamente. O procedimento continua até que na Anova o p-valor > a. Método Backward: O modelo é iniciado com todas as variáveis independentes selecionadas. No passo seguinte é calculada uma estatística F parcial para cada variável, como se esta fosse a última a entrar no modelo. O p-valor é comparado com o nível de significância e quando este o igualar ou exceder a variável é removida do modelo. No passo seguinte é apresentado um modelo com k-1 variáveis independentes, que é ajustado e o seu p-valor comparado com o nível de significância. O procedimento continua até não existirem variáveis no modelo ou até que todas as variáveis presentes possuam um p-valor superior ao nível de significância. Método Stepwise: Este método é uma conjugação dos métodos anteriores No primeiro passo inicia-se com uma única variável independente, mas a significância da adição de cada variável independente é testada como no método backward. A vantagem do método é que permite a remoção de uma variável de importância reduzida, por novas variáveis de comprovada importância. O procedimento termina quando nenhuma das variáveis independentes ainda de fora, consegue entrar no modelo, e nenhuma das variáveis nele incluídas é forçada a sair.
  • 13.
    REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃODE MODELOS Comparando os modelos 1 a 4, pode-se verificar a inclusão sucessiva de novas variáveis não provoca melhorias significativas no modelo.
  • 14.
    REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃODE MODELOS Vamos ainda selecionar as seguintes opções:
  • 15.
    REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃODE MODELOS R2 ajustado porquê? Na informação relativa às variáveis verifica-se que no 1.º modelo entrou a variável “Área Útil”. No 2.º modelo, para além da área útil foi integrada a variável “idade”. A entrada da 2.ª variável pouco melhorou o modelo
  • 16.
    MODELO DE REGRESSÃOLINEAR MÚLTIPLA COEFICIENTE DE DETERMINAÇÃO AJUSTADO • Em alternativa ao coeficiente de determinação, deve-se utilizar o coeficiente de determinação ajustado: • Trata-se de uma correção para eliminar as diferenças produzidas pela existência de um número distinto de variáveis independentes. • A adição de uma variável ao modelo produz um aumento de r2, no entanto, devido à correção introduzida, o valor de ra 2 só aumenta se de facto o novo modelo conduzir a um melhor ajustamento. 𝑟𝑎 2 = 𝑟2 − 𝑘(1 − 𝑟2 ) 𝑛 − 𝑘 − 1 Do ponto de vista inferencial pode-se dizer que ra 2 é um melhor estimador para r2 do que r2. K representa o n.º de variáveis independentes consideradas no modelo.
  • 17.
    REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃODE MODELOS Note-se que quando se encontram os coeficientes bi do modelo de regressão linear, estes resultam da utilização de uma amostra (que se pretende que seja tão aproximada quanto possível da população), mas não de toda a população, pelo que é necessário verificar, ou testar, se no modelo populacional os correspondentes i são diferentes de Zero. Para o efeito recorre-se ao teste Anova: H0: 1 = 2 = …= k = 0 H1: pelo menos um i ≠ 0 DW avalia se os resíduos são independentes. Se 1,5<DW<2,5 considera- se aceitável
  • 18.
    REGRESSÃO LINEAR MÚLTIPLA COMPARAÇÃODE MODELOS Note-se que rejeitar H0 da Anova supõe que pelo menos um i é diferente de zero. Torna-se por isso fundamental saber qual ou quais o são, sendo para o efeito necessário proceder a vários testes de i. O teste utilizado é o T-Student e as hipóteses são: • H0: i = 0 • H1: i ≠ 0 As variáveis cujos H0 se rejeitarem têm então coeficientes diferentes de Zero. Note-se que havendo k variáveis independentes, a comparação do p- valor deve ser feita com a significância a/k e não com a.
  • 19.
    VALIDAÇÃO DOS PRESSUPOSTOSDO MODELO DE REGRESSÃO LINEAR: MULTICOLINEARIDADE No SPSS devemos selecionar os diagnósticos de colinearidade, através da Tolerância e da VIF (variance inflation factor). VIF - Quando os VIF são elevados, considera-se que existe colinearidade entre variáveis, pelo que não devem ser todas incluídas no modelo. Valores de VIF superiores a 5 (há autores que consideram o 10) evidenciam problemas de colinearidade. Tolerância – quando T é próximo de Zero há evidências de multicolinearidade. 𝑇 = 1/𝑉𝐼𝐹 Nenhum dos valores de VIF>5, logo confirma-se não haver colinearidade
  • 20.
    VALIDAÇÃO DOS PRESSUPOSTOSDO MODELO DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS Se o gráfico dos resíduos não revela qualquer padrão, a equação de regressão é uma boa representação da associação das variáveis Na situação ideal os erros dos resíduos devem distribuir-se de forma aleatória à volta do valor “Zero”.
  • 21.
    VALIDAÇÃO DOS PRESSUPOSTOSDO MODELO DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS O pressuposto da normalidade poder ser avaliado através do gráfico dos quantis normais. Se a distribuição dos resíduos for aproximadamente normal os dados distribuem-se pela diagonal principal.
  • 22.
    VALIDAÇÃO DOS PRESSUPOSTOSDO MODELO DE REGRESSÃO LINEAR: ANÁLISE DE RESÍDUOS Como se pode verificar pela análise do histograma um dos resíduos assume um valor superior a 3, mais especificamente 3,264. O SPSS identifica-o no diagnóstico dos casos. Desta forma recomenda-se que se elimine o caso 39 e se refaça o modelo para melhorar o ajuste.
  • 23.
    REGRESSÃO LINEAR MÚLTIPLACOM VARIÁVEIS CATEGÓRICAS  Vimos até agora que as variáveis independentes que são consideradas na regressão linear múltipla são sempre variáveis quantitativas.  Mas não é possível usar variáveis categóricas nos modelos de regressão múltipla?  As variáveis categóricas (nominais ou ordinais) só podem ser utilizadas em regressão múltipla depois de convertidas em variáveis dummy, que são variáveis dicotómicas 0/1, em que 0 representa o insucesso e 1 o sucesso.
  • 24.
    REGRESSÃO LINEAR MÚLTIPLACOM VARIÁVEIS CATEGÓRICAS: VARIÁVEIS DUMMY • Uma variável dicotómica com dois valores possíveis 0 e 1, em que 0 representa fracasso e 1 representa sucesso é designada por ‘VARIÁVEL DUMMY’. • Considere o ficheiro ‘Jornalistas TV’. A variável ‘Género’ (0 para homem e 1 para mulher) é uma variável dummy. • A equação da reta de regressão é dada por: 𝑦 = 469,535 + 62,916 𝑒𝑥𝑝𝑒𝑟𝑖ê𝑛𝑐𝑖𝑎 + 84,459𝑔é𝑛𝑒𝑟𝑜 Os resultados revelam que as mulheres (género=1) recebem mensalmente mais 84,459 € do que os homens.