Análise de Componentes Principais

16.190 visualizações

Publicada em

Análise de Componentes Principais

Publicada em: Educação
1 comentário
14 gostaram
Estatísticas
Notas
Sem downloads
Visualizações
Visualizações totais
16.190
No SlideShare
0
A partir de incorporações
0
Número de incorporações
18
Ações
Compartilhamentos
0
Downloads
0
Comentários
1
Gostaram
14
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Análise de Componentes Principais

  1. 1. Análise de Componentes Principais Célia M. D. Sales - UAL Com base em materiais de Andy Field (2009) e Hair (2010)
  2. 2. Análise factorial Conjunto de técnicas estatísticas para condensar/resumir a informação contida num certo número de variáveis originais Obter um menor número de novas dimensões ou factores, com perda mínima de informação “A análise factorial dá instrumentos para analisar a estrutura das inter-relações (correlações) entre um elevado número de variáveis (ex., resultados de testes, items, respostas a questionários), definindo conjuntos de variáveis que estão altamente correlacionadas (factores). Estes grupos de variáveis (factores) representam dimensões subjacentes nos dados” (Hair et al, 2010, p. 94)2 Célia M. D. Sales - UAL
  3. 3. Análise factorial Se um conjunto de variáveis mede a mesma coisa, deverão ter elevada correlação entre si (formando um grupo) e baixa correlação com variáveis fora desse grupo (Field, 2010)3 Célia M. D. Sales - UAL
  4. 4. Exemplo (Field, 2010) Estudo que pretende compreender aspectos implicados na popularidade das pessoas Variáveis medidas: Aptidões sociais (Social Skills) Egoísmo (Selfish) Quanto os outros acham a pessoa interessante (Interest) Tempo que a pessoa fala sobre o outro, numa conversa (Talk 1) Tempo que a pessoa fala sobre si mesma, numa conversa (Talk 2) Tendência para mentir (Liar)4 Célia M. D. Sales - UAL
  5. 5. Matriz R (Matriz de correlações originais) -Variáveis que estão correlacionadas entre si (e pouco relacionadas com as restantes), provavelmente medem a mesma “coisa” -Factor 1: Sociabilidade da pessoa -Factor 2: Consideração pelos outros -Será que podemos reduzir esta matriz num conjunto menor de dimensões (ou factores) NÃO CORRELACIONADAS? (neste caso, 2?)5 Célia M. D. Sales - UAL
  6. 6. O que são Factores Se algumas variáveis têm correlação elevada, podem estar a medir aspectos de uma mesma dimensão (ou factor) que lhes está subjacente Na Análise de Componentes Principais (ACP), essas dimensões (ou factores) chamam-se componentes6 Célia M. D. Sales - UAL
  7. 7. Representação gráfica de factoresGraficamente, os factores são eixos de classificação, nos quais asvariáveis originais podem ser projectadas 7 Célia M. D. Sales - UAL
  8. 8. Representação gráfica de factores Cada variável projecta-se no gráfico, através de coordenadas As coordenadas de cada variável representam-se na Matriz A: - Factores em colunas - Variáveis em linha Talk 1  0.87 0.01     0.96 − 0.03  Social Coordenadas = Factor Loadings = Valores próprios  0.92 0.04  Skills Correlação A=  entre a variável e o factor  0.00 0.82   − 0.10 0.75 Quanto maior o loading das variáveis num factor, mais  esse factor explica a relação entre essas variáveis  0.09 0.70    8 Célia M. D. Sales - UAL
  9. 9. Representação algébrica dos factores Os factores são rectas Combinação linear das diferentes variáveis em análise Ordenada na origem = zero Y = b1 X 1 + b2 X 2 K bn X n Factori = b1Variable1 + b2Variable2 K bnVariablen Cada variável tem um peso diferente (b) em cada um dos factores Correspondem à coordenada na presentação gráfica Correspondem aos Factor Loadings Armazenam-se na Matriz A9 Célia M. D. Sales - UAL
  10. 10. Representação algébrica de factores  0.87 0.01     0.96 − 0.03   0.92 0.04  A=   0.00 0.82     − 0.10 0.75   0.09 0.70    Y = b1 X 1 + b2 X 2 K bn X n Sociability = 0.87Talk1 + 0.96Social Skills + 0.92Interest + 0.00Talk2 − 0.10Selfish + 0.09LiarConsideration = 0.01Talk1 − 0.03Social Skills + 0.04Interest + 0.82Talk2 + 0.75Selfish + 0.09Liar10 Célia M. D. Sales - UAL
  11. 11. Como descobrir os Factores?Implica duas decisões:1) Escolher método de extracção dos factores, a partir dos dados Há vários métodos Vamos abordar a Análise de Componentes Principais (ACP)2) Decidir o número de factores 11 Célia M. D. Sales - UAL
  12. 12. Extracção dos factores Procurar combinações lineares (rectas) de todas as variáveis que descrevam grande parte da variância dos dados Cada uma dessas combinações é um componente ou factor 1º componente: explica o máximo possível da variância dos dados originais; 2ª explica o máximo possível da variância ainda não explicada, etc.. No limite, para explicar toda a variância, teremos tantos factores como variáveis Quanta variância dos dados é explicada pelo factor? = eigenvalue12 Célia M. D. Sales - UAL
  13. 13. Eigenvalues Andy Field (2010, p. 243, Jane Superbrain 7.2) define intuitivamente: Imaginemos 2 variáveis Scatterplot, mancha de pontos, num plano Eigenvectors = linhas, perpendiculares, que medem a nuvem de pontos, em comprimento e em largura Se acrescentássemos uma 3ª variável Scatterplot teria uma 3ª dimensão, como uma bola de rugby, etc Eigenvalue Comprimento de cada eigenvector (de uma ponta à outra) Olhando para todos os eigenvalues de todos os dados, conhecemos as dimensões, ficamos a conhecer a distribuição das variâncias da matriz R13 Célia M. D. Sales - UAL
  14. 14. Eigenvalues Eigenvalue Eigenvalue de um factor mede quanto da variância de todas as variáveis iniciais é descrita por esse factor Se o factor tem um eigenvalue baixo, contribui pouco para explicar as variâncias na amostra - pode ser ignorado Objectivo na análise: Reter apenas os factores com os eigenvalues mais elevados Quantos?14 Célia M. D. Sales - UAL
  15. 15. Requisitos metodológicos e Pressupostos da análise factorial15 Célia M. D. Sales - UAL
  16. 16. Desenho metodológico da Análise FactorialA. Variáveis métricas Escalas de Likert são também admitidasB. Pelo menos 5 variáveis por factor (se o estudo pretende compreender a estrutura dos factores)C. Tamanho da amostra Ter mais observações do que variáveis Mínimo de 50 observações Idealmente, ter 5 observações por variável (Hair et al, 2010) Nota: Field (2010, p. 647) aponta diferentes requisitos qt ao tamanho da amostra 16 Célia M. D. Sales - UAL
  17. 17. Pressupostos Relevância conceptual Correlação Essencialmente, a análise dos pressupostos pretende avaliar se existem correlações (matriz inicial de correlações R) que justifiquem a aplicação da análise factorial Inspeccionar matriz Teste de Índice KMO de correlação R Esfericidade de Bartlett17 Célia M. D. Sales - UAL
  18. 18. Pressupostos da Análise Factorial Inspecção preliminar da matriz de correlação R (Field, 2010): De uma maneira geral, as variáveis devem estar correlacionadas (r>0.3) Não deve haver multicolinearidade: Variáveis com elevada correlação (r>0.90) Não deve haver singularidade:Variáveis com correlação perfeita (r=1) Excluir da análise variáveis que possam causar problemas. Se uma variável tem várias correlações <0.3, considerar excluí-la da análise factorial18 Célia M. D. Sales - UAL
  19. 19. Pressupostos da Análise FactorialTeste de esfericidade de Bartlett Teste de hipóteses H0: A Matriz R é uma matriz de identidade (todos os coeficientes de correlação são zero) Teste significativo (p < .05) indica que, globalmente, há correlação entre as variáveis, logo, faz sentido realizar uma análise factorial Decisão Teste significativo (p < .05), prosseguir a análise19 Célia M. D. Sales - UAL
  20. 20. Pressupostos da Análise FactorialKaiser-Meyer-Olkin measure of sampling adequacy (KMO) Índice (entre 0 e 1) Representa proporção da variância entre as variáveis que corresponde a variância comum (i.e., indicativo da existência de factores latentes comuns) Deve ser maior ou igual a 0,5 Há 1 estatística KMO para cada variável; a sua soma é o KMO globalDecisão KMO global e KMO de cada variável >= 0.5 prosseguir Análise Factorial KMO < 0.5 Eliminar da análise a variável com KMO menor (<0.5) Calcular novamente o KMO, com as restantes variáveis Repetir até atingir resultados KMO global > 0.5 20 Célia M. D. Sales - UAL
  21. 21. No SPSS Analyse - Dimension Reduction - Factor Seleccionar as variáveis a incluir na análise21 Célia M. D. Sales - UAL
  22. 22. No SPSS Teste de esfericidade de Bartlett e KMO global22 Célia M. D. Sales - UAL
  23. 23. No SPSSKMO para cada variável individual 23 Célia M. D. Sales - UAL
  24. 24. Extrair os factores Após especificar as variáveis, preparar a matriz de correlação (matriz R) e verificar os pressupostos, o passo seguinte é identificar os factores24 Célia M. D. Sales - UAL
  25. 25. Método de extracção dos factores Escolha depende dos objectivos do estudo Estudo Estudo exploratório confirmatório Descritivo (das características da amostra) Inferencial Para informar sobre a População é necessário analisar várias amostras Análise de Componentes Principais (ACP)25 Célia M. D. Sales - UAL
  26. 26. Nº de factores a reter Dois critérios Scree plot Escolher o nº de factores acima do ponto de inflexão Usar apenas se n > 200 Critério de Kaiser Reter todos os factores com eigenvalue >1 Decidir de acordo com o conteúdos substantivo das variáveis26 Célia M. D. Sales - UAL
  27. 27. Scree Plot Projecta os eigenvalues (y) para cada factor (x) Identificar ponto de inflexão: Traçar linha que resume o eixo vertical; depois linha para eixo horizontal; o ponto de inflexão é onde ambas se cruzam Escolher o nº de factores acima do ponto de inflexão No exemplo, 227 Célia M. D. Sales - UAL
  28. 28. No SPSSCritério de Kaiser: Dois factores comeigenvalue superior a 1 28 Célia M. D. Sales - UAL
  29. 29. Escolha do nº de factores (Hair et al. 2010) Conjugar vários critérios Eigenvalues > 1 Factores sugeridos pelo scree plot (acima do ponto de inflexão) Conteúdo substantivo/teórico dos factores Factores suficientes para explicar 60% (ou mais) da variância dos dados Mais factores quando há heterogeneidade em subgrupos da amostra Testar várias soluções alternativas (mais 1 factor e menos 1 factor do que a solução inicial) para ter a certeza de que é identificada a melhor estrutura29 Célia M. D. Sales - UAL
  30. 30. Para testar diferentes nºs de factores no SPSS Por defeito o SPSS usa o critério de Kaiser. No entanto, podem-se pedir soluções com um nº determinado de factores30 Célia M. D. Sales - UAL
  31. 31. Interpretação dos factores Para compreender/interpretar um factor, é necessário identificar as variáveis que mais se correlacionam com ele (com base nos factor loadings) e analisar qualitativamente que dimensão comum estão a medir31 Célia M. D. Sales - UAL
  32. 32. Factor loadings e Component Matrix Factor loadings Correlação entre o factor e cada variável Apresenta-se na Matriz de Componentes A32 Célia M. D. Sales - UAL
  33. 33. Passos na interpretação dos factores1) Rotação de Factores2) Análise dos factor loadings 33 Célia M. D. Sales - UAL
  34. 34. Rotação de Factores Ajuda a interpretar os loadings Maximiza o loading de uma variável num factor e minimiza os loadings nos restantes factores Graficamente, implica rodar os eixos Dois tipos Rotação ortogonal mantém os factores perpendiculares, i.e., não- correlacionados A mais recomendada:VARIMAX Rotação oblíqua Quando os factores estão inter-relacionados Mais próximo de situação real/natural34 Célia M. D. Sales - UAL
  35. 35. Ortogonal Oblíqua Fonte: Field (2009)35 Célia M. D. Sales - UAL
  36. 36. Antes da Rotação Após Rotação36 Célia M. D. Sales - UAL
  37. 37. Análise da significância dos factor loadings Para a interpretação dos componentes (o que medem), usamos a matriz de componentes após a rotação Loading = r (correlação entre a variável e o factor) r quadrado = quanto da variância dessa variável é explicada pelo factor Para que o factor explique mais do que 49%, o loading deve ser superior a 0.7 Quanto maior o valor absoluto do factor loading, mais importante para interpretar o factor37 Célia M. D. Sales - UAL
  38. 38. Regras de análise dos factor loadings (Field,2010; Hair et al., 2010) Em geral, apenas interpretar factor loadings superiores a 0.3 Explicam apenas 9% da variável Valor maior do que 0,7 é o ideal Ter em conta a dimensão da amostra (Stevens, 2002) Dimensão amostra Loading aceitável maior do que: 50 0.722 100 0.512 200 0.364 300 0.298 600 0.210 1000 0.162 Loadings baixos aceites também com muitas variáveis em análise Usar loadings mais elevados quando a solução tem muitos factores Usar loadings mais elevados nos últimos factores38 Célia M. D. Sales - UAL
  39. 39. Reportar Descrever a amostra com detalhe Descrição das variáveis, média e desvio-padrão Tipos de correlações analisadas (Ex: Pearson…) Método de extracção de factores (ACP, …) Initial communality estimates used (e.g., squared multiplecorrelations). 39 Célia M. D. Sales - UAL
  40. 40. Exemplo para realizar na aula (Tabachnick& Fidell) A 5 pessoas que compravam botas de ski, perguntou-se qual a importância de cada uma de 4 variáveis, na escolha de uma estância de ski: Custo de ingresso (COST) Velocidade do teleférico (LIFT) Profundidade da neve (DEPTH) Consistência da neve (POWDER) Pretende-se investigar o padrão de relações entre as variáveis, para compreender as dimensões que estão na base da escolha da área de ski.40 Célia M. D. Sales - UAL
  41. 41. Exemplo: Dados Skiers COST LIFT DEPTH POWDER A 32 64 65 67 B 61 37 62 65 C 59 40 45 43 D 36 62 34 35 E 62 46 43 4041 Célia M. D. Sales - UAL
  42. 42. Exemplos de utilização da Análise FactorialA. Compreender a estrutura subjacente a um conjunto de variáveis Ex: Spearman e Thurstone usaram Análise Factorial para compreender a estrutura da variável latente “inteligência”B. Para construir questionários destinados à medição de uma variável latente Ex: Saúde Mental (Clinical Outcome in Routine Evaluation, CORE-OM)C. Redução da base de dados, mantendo ao máximo as características da informação original Criação de variáveis compósitas (usando scores factoriais) 42 Célia M. D. Sales - UAL
  43. 43. Scores Factoriais Pode-se criar uma nova variável que corresponde à pontuação de cada participante na dimensão Em vez de se analisar os resultados nas variáveis originais uma a uma, analisa-se a pontuação na dimensão (ex: a pontuação em Sociabilidade e Consideração) Para cada pessoa, basta substituir, na equação do factor, os resultados das variáveis originais Ex: Um participante com os seguintes resultados nas variáveis originais, terá a seguinte pontuação em Sociabilidade e em Consideração Talk 1=4 Social Skills=9 Sociability = (0.87 x 4) + (0.96 x 9) + (0.92 x 8) Interest=8 + (0.00 x 6) − (0.10 x 8) + (0.09 x 6) Talk 2=6 Consideration = (0.01 x 4) − (0.03 x 9) + (0.04 x 8) Selfish=8 Liar=6 + (0.82 x 6) + (0.75 x 8) + (0.09 x 6)43 Célia M. D. Sales - UAL
  44. 44. Scores factoriais Método de cálculo (Andy Field, pp. 634-635): Para que os scores factoriais não dependam da escala de medição, o método de cálculo não é exactamente aquele que acabámos de descrever44 Célia M. D. Sales - UAL
  45. 45. Ex. de artigos que usam esta análise Mudrack, P. E. (2004). An outcomes-based approach to just world beliefs. Personality and Individual Differences, 38(7), 380-384. Collins, R. P., Littman, J.A., & Spielberger, C.D. (2004). The measurement of perceptual curiosity. Personality and Individual Differences, 36(5), 1127-1141.45 Célia M. D. Sales - UAL

×