Este documento fornece uma introdução à análise estatística multivariada. Resume os principais conceitos da área e apresenta as principais técnicas, incluindo análise fatorial, regressão múltipla, análise discriminante múltipla e análise de clusters.
2. Conteúdos
Análise de dados multivariada
Definição
Revisão de conceitos básicos
Classificação
Panorama geral das principais técnicas:
Análise Factorial
Regressão Múltipla
Análise Discriminante Múltipla
Análise de Clusters
2 Célia M. D. Sales - UAL
3. Definição
Análise Estatística Multivariada
Qualquer análise simultânea de mais do que duas variáveis
(Hair et al, 2010)
Utiliza-se quando temos várias variáveis independentes (VIs)
e/ou várias variáveis dependentes (VDs), todas correlacionadas
entre si (Tabachnick & Fidell, 2007)
Permite realizar uma única análise, em vez de séries de análises
univariadas e bivariadas
3 Célia M. D. Sales - UAL
4. Conceitos básicos
Variáveis dependentes (ou criterion, ou Y) e Variáveis
independentes (ou preditores, ou X)
Relação causal?
Investigação experimental v.s. Investigação não-experimental
Utilização da nomenclatura por conveniência:
Para identificar as variáveis que estão num lado ou noutro da
equação
Não expressa necessariamente uma relação causal
Expressa que uma variável (VD) é calculada em função de
outras (VIs)
4 Célia M. D. Sales - UAL
5. Conceitos básicos
Variate
Modelo estatístico que se pretende criar para explicar
como se relacionam as VI para explicar a VD
Combinação linear de variáveis, cada variável com uma
certa força ou peso.
Ex: Puxar a rede.
5 Célia M. D. Sales - UAL
6. Variate
O objectivo da análise multivariada é determinar a força de
cada uma das variáveis (VI) que, em conjunto, explicam melhor
o comportamento da VD
No puxar da rede, seria determinar a contribuição de diversas
variáveis que, no seu conjunto, são importantes para a tarefa:
Tamanho dos bíceps, (VI1), experiência a puxar à corda (VI2), estado
de saúde (VI3). É escolhida a combinação das contribuições que
melhor permite prever, por exemplo o tempo que vai demorar a
retirar a rede da água (VD)
Essas forças (ou pesos) das variáveis independentes são
determinados empiricamente, i.e., a partir dos nossos dados
No exemplo, usaríamos uma base de dados com registos anteriores
sobre o tempo de retirada da rede e o tamanho dos bíceps de quem
puxa a rede, a experiência e a saúde
A forma como são calculados os pesos das variáveis difere em cada
técnica multivariada
6 Célia M. D. Sales - UAL
7. Variate
Do ponto de vista matemático, o variate é um modelo
linear:
Corresponde a uma combinação linear de variáveis
Soma de todas as variáveis, cada uma multiplicada pelo seu
peso
Valor estimado de Y = b1X1 + b2X2 + b3X3 +…..+ bnXn
Onde,
Xn é o valor da variável
bn é o peso da variável, determinado pela técnica multivariada
7 Célia M. D. Sales - UAL
8. Conceitos básicos
Notação nos modelos estatísticos
Letras gregas
parâmetros, i.e., valores « verdadeiros » na população, que não
conhecemos e que pretendemos estimar com o modelo
Ex: β
Letras minúsculas
estimativas dos parâmetros, que são calculadas a partir dos dados e
que fazem parte da equação linear do modelo
Ex: b
Letras maiúsculas
variáveis (ex :Y, X1)
Y é sempre a variável que o modelo procura estimar (VD)
X são sempre os preditores (VI) de Y
O « chapéu » do Y indica que é uma estimativa do valor de Y
8 Célia M. D. Sales - UAL
9. Perguntas de investigação e técnicas de
análise (Tabachnick & Fidell, 2007)
Grau de relação entre
variáveis
Significância das diferenças
entre grupos
Predição da pertença a um
Qual o objectivo?
grupo
Conhecer a estrutura
Seguir acontecimentos no
tempo
9 Célia M. D. Sales - UAL
10. Objectivo: Grau de relação das variáveis
Quando pretendemos analisar as associações entre duas
ou mais variáveis
Correlação
Bivariate r
Regressão
simples
Principais Correlação múltipla
opções Multiple r
Regressão múltipla
Multilevel
Correlação canónica
modeling
10 Célia M. D. Sales - UAL
11. Relação entre variáveis
Bivariate r
Avalia o grau de relação entre 2 variáveis contínuas
Correlação Regressão simples
Mede a associação Prediz um valor de uma
Não distingue entre variável (VD) a partir do
VI e VD valor de outra variável (VI)
11 Célia M. D. Sales - UAL
12. Relação entre variáveis
Multiple r
3 ou mais variáveis
Correlação múltipla
Grau de associação entre 1 VD contínua e um conjunto de VI contínuas,
que foram combinadas para criar uma nova variável compósita
Exemplo: Qual o grau de relação entre a altura do adulto e um conjunto
de variáveis como a quantidade de leite bebido na infância, anos de
exercício físico e horas de exposição diária ao sol?
Regressão múltipla
Serve para estimar, ou predizer, o resultado de 1 VD a partir dos
resultados de várias VIs
Exemplo: Qual será a altura de uma pessoa que beba X1 litros de leite,
com X2 anos de exercício físico e com X3 horas de exposição ao sol?
12 Célia M. D. Sales - UAL
13. Relação entre variáveis
Multiple r
Correlação canónica
Analisa a relação entre dois conjuntos de variáveis
Será que os dois conjuntos de variáveis estão relacionados? E como?
Exemplo:
Há relação entre adesão terapêutica (assiduidade nas consultas, toma de
medicamentos, alteração de níveis de actividade física) e variáveis socio-
demográficas (educação, religião, nível económico, seguro de saúde)?
Mann, M. P. (2004). The adverse influence of narcissistic injury and
perfectionism on college students’ institutional attachment. Personality
and Individual Differences, 36(8), 1797-1806.
Mais detalhes, consultar:
Tabachnick & Fidell, 2007, Cap. 12
13 Célia M. D. Sales - UAL
14. Relação entre variáveis
Multiple r
Multilevel Linear Modeling
Estratégia de análise quando os casos estão “aninhados” (nested) em
vários grupos, que por sua vez estão aninhados em grupos de nível
superior
Exemplo
Alunos agregados em turmas, por sua vez em escolas. Os alunos da
mesma turma provavelmente têm resultados mais correlacionados, do
que os alunos em geral (porque são amigos, partilham os mesmos
horários, professores, espaços físicos, etc). Isto provoca problemas
quando se analisam todos os alunos, ignorando a turma ou a escola
Rowen, B., Raudenbush, S., & Kang, S. J. (1991). Organizational design in
high schools: A multilevel analysis, 99, 238-266.
Mais detalhes, consultar: Field, 2009, cap. 19
14 Célia M. D. Sales - UAL
15. Perguntas de investigação e técnicas de
análise (Tabachnick & Fidell, 2007)
Grau de relação entre
variáveis
Significância das diferenças
entre grupos
Predição da pertença a um
Qual o objectivo?
grupo
Conhecer a estrutura
Seguir acontecimentos no
tempo
15 Célia M. D. Sales - UAL
16. Significância das diferenças entre
grupos
Desenhos experimentais
Distribuição aleatória pelas condições experimentais (níveis da
VI)
Há diferenças significativas entre as condições experimentais,
quanto aos valores médios da VD?
Diferentes técnicas, dependendo essencialmente do nº de
variáveis e do seu nível de medição
16 Célia M. D. Sales - UAL
17. Significância da diferença entre grupos
T-Test
1-way
ANOVA
Factorial
Principais
opções 1-way
ANCOVA
Factorial
1-way
MANOVA
MANCOVA
17 Célia M. D. Sales - UAL
18. ANCOVA
Análise de covariância
Mede o efeito da VI sobre a VD depois de remover o efeito de
1 ou mais covariates
covariate (CV) = variável que tem, ou pode ter, uma relação com a VD
Exemplo:
Qual efeito de diferentes terapias para a dislexia?
VI = tipo de terapia (3 condições: Terapia A, Terapia B, Controle)
VD = fluência de leitura, medida após 1 ano
No entanto, a idade da criança e a sua capacidade de leitura antes de
iniciar o tratamento influenciam a VD
Até que ponto há diferenças médias nos resultados de cada tratamento,
depois de remover as diferenças devido à idade e à capacidade de leitura
inicial?
18 Célia M. D. Sales - UAL
19. ANCOVA
3 aplicações (Tabachnick & Fidell, 2007)
1. Em desenhos experimentais:
Remover da variância de erro, a variância explicada pelo CV.
Numa análise de variância, faz diminuir o erro estimado do
modelo, aumentando o poder estatístico
Exemplo:
Copeland, L. A., Blow, F. C., & Barry, K. L. (2003). Health care
utilization by older alchool-using veterans: Effects of a brief
intervention to reduce at-risk drinking. Health Education &
Behavior, 30(3), 305-321.
19 Célia M. D. Sales - UAL
20. ANCOVA
Aplicações (cont.)
2. Ajudar a interpretar os resultados da MANOVA
MANOVA: 1 VI e várias VD
ANCOVA usada para testar a relação entre a VI e uma VD,
removendo o efeito das restantes VDs (que são tratadas
como CVs) – Stepdown analysis
3. Desenhos quasi-experimentais ou descritivos
Ajustar as diferenças entre grupos naturais, ou quando
não é possível a distribuição aleatória nas condições
experimentais
20 Célia M. D. Sales - UAL
21. ANCOVA
Aplicações ANCOVA (cont.)
Exemplo:
Até que ponto a atitude em relação ao aborto (VD) varia com a afiliação
religiosa (VI)?
Não pode haver distribuição aleatória nos grupos de afiliação religiosa
Pode haver uma diferença sistemática entre os grupos, por exemplo, um
deles ter pessoas com mais habilitações literárias
Até que ponto as diferenças na atitude se devem à afiliação religiosa ou
às habilitações literárias (covariate)?
Exemplos publicados:
Brambilla, P. , et al (2003). MRI investigation of temporal lobe structures
in bipolar patients. Journal of Psychiatric Research, 37(4), 287-295.
Vevera, J., et al (2003). Cholestrol concentrations in violent and non-
violent women suicide attempters. European Psychiatry, 18, 23-27.
21 Célia M. D. Sales - UAL
22. MANOVA
Multiple Analysis of Variance
Extensão da ANOVA
Avalia diferenças de 3 ou mais grupos (3 ou mais níveis de uma VI),
quanto a 2 ou mais variáveis dependentes combinadas entre si
Exemplo
Qual o efeito de diferentes tratamentos em diferentes tipos de
ansiedade?
VI = tratamento (3 níveis: desensibilização, treino de relaxamento,
controle por lista de espera)
3 VD: ansiedade geral, ansiedade face a acontecimentos stressantes,
ansiedade face à avaliação
A ansiedade, dada pela combinação das três medidas, varia em função do
tratamento?
22 Célia M. D. Sales - UAL
23. Anova vs. Manova
ANOVA
testa se as diferenças entre as médias de grupos numa VD se
devem, provavelmente ao acaso
MANOVA
testa se as diferenças entre grupos, numa combinação de VDs
se devem, provavelmente ao acaso
Lógica do cálculo:
A partir do conjunto de VDs, é criada uma nova VD que maximiza as
diferenças entre os grupos
A nova VD é a combinação linear das VDs iniciais, relacionadas entre si
de maneira a separar os grupos o mais possível
É realizada uma ANOVA com a nova variável VD
23 Célia M. D. Sales - UAL
25. MANOVA e MANCOVA
Exemplos
MANOVA
Mason, l. (2003). High school students’ beliefs about
maths, mathematical problem solving, and their
achievements in maths: A cross-sectional study.
Educational Psychology, 23(1), 73-85.
MANCOVA
Hay, P. (2003). Quality of life and bulimic eating disorder
behaviors: Findings from a community-based sample.
International Journal of Eating Disorders, 33(4), 434-442.
25 Célia M. D. Sales - UAL
26. Perguntas de investigação e técnicas de
análise (Tabachnick & Fidell, 2007)
Grau de relação entre
variáveis
Significância das diferenças
entre grupos
Predição da pertença a um
Qual o objectivo?
grupo
Conhecer a estrutura
Seguir acontecimentos no
tempo
26 Célia M. D. Sales - UAL
27. Predição da pertença a um grupo
1 way
Discriminant
analysis
Factorial
Multiway
Principais
Frequency
opções
Analysis (Logit)
Logistic
Regression
27 Célia M. D. Sales - UAL
28. Análise Discriminante Múltipla (ADM)
Compreender diferenças de grupo e predizer a
probabilidade de uma entidade (por exemplo, uma
pessoa) pertencer a um certo grupo, com base em várias
variáveis métricas
Condições de aplicação:
A amostra total pode dividir-se em grupos, com base em
variáveis não-métricas (Ex: Sexo, jogador vs não-jogador)
28 Célia M. D. Sales - UAL
29. ADM: Exemplos de perguntas de
investigação
Principais variáveis que distinguem entre alunos que
terminam o curso dos alunos que não terminam o curso
Comparação de participantes em programas de cessação
tabágica que sofrem recaída, com os que não sofrem
recaída
(Betz, 1987)
29 Célia M. D. Sales - UAL
30. Exemplo: Abstract
A MULTIPLE DISCRIMINANT ANALYSIS OF SMOKING STATUS AND
HEALTH-RELATED ATTITUDES AND BEHAVIORS
Using multiple discriminant analysis, we examined several health-related
attitudes and behaviors (HABs) simultaneously across groups of university
students differing by smoking status (n = 1,077). Nine HABs were
considered: health responsibility, exercise, nutrition, interpersonal support,
stress management, alcohol consumption, drug use, caffeine consumption,
and safety practices. Overall, the findings indicated that HABs, particularly
those involving substance use, differed among the smoking and
nonsmoking groups. Furthermore, current smokers, former smokers, and
nonsmokers represented a continuum of less healthful to more healthful
attitudes and behaviors. In general, compared to men, women exhibited
more positive HABs with respect to interpersonal support, health
responsibility, alcohol consumption, and drug use, but less positive HABs
with respect to stress management. More complex relationships emerged
in comparisons of occasional and regular smokers, light and heavy
smokers, and consonant and dissonant smokers. We discuss implications
of the findings for smoking intervention programs.
Am J Prev Med. 1990, 6(6),323-9
30 Célia M. D. Sales - UAL
31. Função Discriminante
Variável Dependente
Categorial
Define pertença a grupos
Os grupos podem ser formados com base em características demográficas
(Ex: género), características pessoais (Ex: Tipo de vinculação) ou de
comportamento (Ex: Jogador patológico vs. Jogador não-patológico)
Variáveis independentes ou Discriminantes
V. métricas (em alguns casos, categoriais)
Definidas pelo investigador como potencialmente importantes para
compreender a natureza da diferença dos grupos
Podem ser usadas como preditoras da pertença a um grupo
Função Discriminante
Equação linear que maximiza as diferenças entre os grupos
(Betz, 1987)
31 Célia M. D. Sales - UAL
32. ADM: Exemplos de aplicação de resultados
Compreender a natureza e a extensão de diferenças
entre grupos
Resulta numa equação “função discriminante”, através da
qual a pertença a um grupo pode ser predita
Identificar indivíduos em risco elevado de um certo
comportamento (ex: recaída após programa de cessação
tabágica)
(Betz, 1987)
32 Célia M. D. Sales - UAL
33. Regressão múltipla (RM) vs. Análise
Discriminante Múltipla (ADM)
Semelhanças
Ambos resultam numa equação linear com pesos beta,
que indicam a importância relativa de cada variável na
predição da variável dependente
Diferenças
RM:Variável dependente métrica
ADM:Variável dependente categorial (define a pertença
ao grupo)
33 Célia M. D. Sales - UAL
34. Perguntas de investigação e técnicas de
análise (Tabachnick & Fidell, 2007)
Grau de relação entre
variáveis
Significância das diferenças
entre grupos
Predição da pertença a um
Qual o objectivo?
grupo
Conhecer a estrutura
Seguir acontecimentos no
tempo
34 Célia M. D. Sales - UAL
35. Conhecer a estrutura
Principal
Components
Principais
Factor Analysis
opções
Structural
Equation
Modeling
35 Célia M. D. Sales - UAL
36. Análise de Componentes Principais (ACP)
Analisa as inter-relações entre um grande nº de variáveis
Procura estimar a estrutura dessas variáveis, as dimensões
que têm em comum (factores)
Exemplo de utilização: Condensar a informação presente
num grande nº de variáveis originais num conjunto mais
reduzido de variates (factores), com o mínimo de perda
de informação
36 Célia M. D. Sales - UAL
37. ACP
Exemplo de redução de variáveis
Parinet, B., Lhote, A., & Legube, B. (2004). Principal component
analysis: an appropriate tool for water quality evaluation and
management-application to a tropical lake system. Ecological
Modeling, 178(3-4), 295-311.
Exemplo de análise da estrutura de um questionário
Mudrack, P. E. (2004). An outcomes-based approach to just world
beliefs. Personality and Individual Differences, 38(7), 380-384.
Exemplo de exploração da natureza de um constructo
Collins, R. P., Litman, J.A., & Spielberger, C.D. (2004). The
measurement of perceptual curiosity. Personality and Individual
Differences, 36(5), 1127-1141.
37 Célia M. D. Sales - UAL
38. Modelos de Equações Estruturais (SEM)
Structural Equation Modeling
Combina análise factorial, correlação canónica e regressão
múltipla
Variáveis latentes e/ou variáveis directamente observáveis
Várias VI e VD
O principal objectivo é estudar a relação entre as variáveis
38 Célia M. D. Sales - UAL
39. SEM
Exemplos
Feldman, P., Ullman, J. B., & Dunkel-Schetter, C. (1998).
Women’s reactions to rape victims: Motivational processes
associated with blame and social support. Journal of Applied
Social Psychology, 6, 469-503.
Aiken, L.S., Stein, J. A., & Bentler, P.M. (1994). Structural
equation analysis of clinical subpopulation differences and
comparative treatment outcomes: Characterizing the daily
lives of drug addicts. Journal of Consulting and Clinical
Psychology, 62(3), 488-499.
39 Célia M. D. Sales - UAL
40. Perguntas de investigação e técnicas de
análise (Tabachnick & Fidell, 2007)
Grau de relação entre
variáveis
Significância das diferenças
entre grupos
Predição da pertença a um
Qual o objectivo?
grupo
Conhecer a estrutura
Seguir acontecimentos no
tempo
40 Célia M. D. Sales - UAL
41. Seguir acontecimentos no tempo
Survival/Failure
analysis
Principais
opções
Time series
analysis
41 Célia M. D. Sales - UAL
42. Survival/failure Analysis
Técnicas que estimam o tempo que algo demora a
acontecer (ex: cura, avaria, recaída, esperança de vida, etc)
Exemplos de aplicação:
Descrever o tempo de sobrevivência de um ou mais grupos de
casos (exemplo: duração sem avarias de leitores de CD e de
DVD)
Determinar se o tempo de sobrevivência é influenciado
algumas variáveis de um conjunto de variáveis medidas
Exemplos:
Mayo(1991)
Nolan (1991)
42 Célia M. D. Sales - UAL
43. Time-series Analysis
VD medida pelo menos 50 vezes
A variável tempo é a principal
Exemplos de aplicações:
Prever acontecimentos com base em longas séries de
acontecimentos passados
Avaliar efeito de uma intervenção, observando a VD
durante longos períodos antes e depois da intervenção
43 Célia M. D. Sales - UAL
44. Referências
Leituras básicas:
Tabachnick., B. & Fidell, L. (2007). Using Multivariate
Statistics (5th ed.) (Cap. 2). NY: Pearson Allyn & Baccon
Capítulo no qual se baseia esta apresentação
Field, A. (2009). Discovering Statistics using SPSS (3rd Ed.).
London: Sage.
Manual mais claro, para entender a técnica e para a realizar
com SPSS. Não tem todas as técnicas referidas nesta
apresentação
Betz, N. E. (1987). Use of Discriminant Analysis in
Counseling Psychology Research. Journal of Counseling
Psychology, 34(4), 393-403.
44 Célia M. D. Sales - UAL