Correlação             Baseado (parcialmente) em:       Statistical methods for psychology,                    3rd Edition...
Correlação                                            3          Pontos Principais--cont.                 Principais--cont...
Correlação                                                                  5                 O coeficiente de correlação ...
Correlação                                                  7       Diagramas de Dispersão• Exemplos    Q Ver os próximos ...
Correlação                             9Diagramas de Dispersão e r’s                          Fonte:                      ...
Correlação                                                                                            11                  ...
Correlação                                                                                     13                         ...
Correlação                                               15         Exames e Laboratórios• Note que a relação é fraca, mas...
Correlação                                                                17                           Os dadosCigarette C...
Correlação                                                                                 19                             ...
Correlação                                         21        Coeficiente de Correlação• Uma medida do grau de relação.• O ...
Correlação                                              23      Coeficiente de Correlação• Simbolizado por r• Covariância ...
Correlação                                     25                    Cálculo• CovXY = 11.13• sX = 2.33• sY = 6.69         ...
Correlação                                                                27                      Correlação--cont.       ...
Correlação                                                 29                  Correlação--cont.                  Correlaç...
Correlação                                                                                                31    Países com...
Correlação                                                                        33Assunções (http://www2.chass.ncsu.edu/...
Correlação                                                                35•   Assume-    Assume-se que as distribuições ...
Correlação                                                                      37               Computer Printout• O “Pri...
Correlação                                                  39      Matriz de Intercorrelações• Matriz com as correlações ...
Correlação                                        41    Matriz de Intercorrelações• Descreva a tabela.• O que podemos dize...
Correlação                                                  43  Questões para Revisão--cont.                Revisão--cont....
Correlação           45             AnexoCorrelação           46             Anexo                          23
Correlação                                             47                 AnexoCorrelação                                 ...
Correlação                                              49Exercício      (http://www.texasoft.com/winkpear.html) Correlaçã...
Correlação                                                               51   Resolução (usando a calculadora http://wessa...
Correlação                                                            53      Coeficiente ró de Spearman, rso A correlação...
Correlação                                                        55           Coeficiente ró de Spearman, rsConsidere o s...
Correlação                       57Coeficiente ró de Spearman, rs                                      29
Próximos SlideShares
Carregando em…5
×

Correlacao

1.202 visualizações

Publicada em

Publicada em: Educação
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.202
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
36
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Correlacao

  1. 1. Correlação Baseado (parcialmente) em: Statistical methods for psychology, 3rd Edition David C. Howell© 2004/2006 Tradução e adaptação de Tomás da SilvaCorrelação 2 Pontos Principais• O problema• Diagramas de dispersão• Um exemplo• O coeficiente de correlação Q Correlações com ordens• Factores que afectam as correlações Cont. 1
  2. 2. Correlação 3 Pontos Principais--cont. Principais--cont. • Testar a significância • Matrizes de intercorrelações • Outros tipos de correlações • Questões para revisão Correlação 4 O Problema• Estarão duas variáveis relacionadas? Q Será que uma aumenta quando a outra aumenta? • v.g. competências profissionais e rendimento económico Q Será que uma diminui quando a outra aumenta? • v.g. problemas de saúde e nutrição• Como poderemos obter uma medida numérica do grau de relação? 2
  3. 3. Correlação 5 O coeficiente de correlação (http://www.stats.gla.ac.uk/steps/glossary) • O coeficiente de correlação é um número entre -1 and 1 o qual mede o grau em que duas variáveis estão linearmente correlacionadas. Se existe uma relação linear perfeita com um declive positivo entre as duas variávesi, temos um coeficiente de correlação de 1; se existir uma correlação positiva, sempre que uma variável tiver um valor elevado (baixo), também a outra o terá. Se existir uma relação linear perfeita com um declive negativo entre as duas variáveis, teremos um coeficiente de correlação de -1; se existir uma correlação negativa, sempre que uma variável tiver um valor elevado (baixo), a outra tem um valor baixo (elevado). Um coeficiente de correlação de 0 significa que não existe relação linear entre as variáveis. • Existem diferentes coeficientes de correlação que podem ser apropriados dependendo das espécies de variáveis que estão a ser estudadas (ver próximo slide) Correlação 6 Tipos de coeficientes de correlação/associação Coeficiente Símbolo CaracterísticasProduto-Produto-Momento de r X e Y quantitativas, relação linearPearsonEta quadrado η2 X e Y quantitativa, relação curvilinearCoeficiente de Spearman ρ ou rs X e Y ordens, relação monotónicaTau de Kendall τ X e Y ordens, relação monotónicaPonto biserial rpb Uma variável quantitativa e outra dicotómicaBiserial rb X e Y quantitaivas mas uma das variáveis forçada a uma dicotomiaTetracórico rt X e Y quantitativas, mas ambas forçadas a dicotomiasCoeficiente fi φ X e Y ambas dicotómicas 3
  4. 4. Correlação 7 Diagramas de Dispersão• Exemplos Q Ver os próximos slides • Diagramas representando diferentes magitudes de relação • Matriz combinando Diagramas de dispersão e r’s • Relação entre auto-estima e altura auto- • Expectativa de vida e gastos em cuidadados de saúdeCorrelação 8 4
  5. 5. Correlação 9Diagramas de Dispersão e r’s Fonte: WikipediaCorrelação 10 5
  6. 6. Correlação 11 Figure 9.2 Life Expectancy and Health Care Costs 74 73 Life Expectancy (Males) 72 71 70 69 68 67 66 200 400 600 800 1000 1200 1400 1600 Health Care Expenditures Correlação 12Um applet para ver coeficientes de correlação(http://www.duxbury.com/authors/mcclellandg/tiein/johnson/correlation.htm) 6
  7. 7. Correlação 13 Um Exemplo• Suponha que uma disciplina tem dois componentes - trabalhos laboratoriais e exame - ambos contribuindo para a nota final. Será que ambos estão correlacionados?• Representar graficamente a relação entre as duas variáveis (diagrama de dispersão) • O que observamos? Q Uma relação francamente pequena Q A relação é positiva Correlação 14 140 120 Total Points on Exams 100 80 60 Rsq = 0.1368 80 100 120 140 160 180 200 Total Points in Lab 7
  8. 8. Correlação 15 Exames e Laboratórios• Note que a relação é fraca, mas real.• Note que a maioria dos dados se concentram na direita.• Porque nos preocupamos com o estudo da relação? Q O que concluiriam os alunos se não existisse uma relação? Q E se a relação fosse praticamente perfeita? Q E se a relação fosse negativa?Correlação 16 Exemplo aplicado Doença coronária e Tabagismo• Landwehr & Watkins relataram dados sobre doença coronária e tabagismo em 21 países desenvolvidos• Os dados foram arredondados por conveniência de cálculo. Q Tenha em nota que isso não afectou as conclusões originais. 8
  9. 9. Correlação 17 Os dadosCigarette Consumption and Coronary Heart Disease Mortality for 21 CountriesCig. 11 9 9 9 8 8 8 6 6 5 5CHD 26 21 24 21 19 13 19 11 23 15 13Cig. 5 5 5 5 4 4 4 3 3 3CHD 4 18 12 3 11 15 6 13 4 14Cig. = Cigarettes per adult per dayCHD = Cornary Heart Disease Mortality per 10,000 populationOs EUA são o primeiro país na lista—o país com maior taxa de consumoe a maior taxa de mortalidade. Correlação 18 Diagrama de dispersão dos dados • Mortalidade por CHD é colocada na ordenada Q Porquê? • Consumo de cigarros na abcissa Q Porquê? • O que representa cada ponto? • A linha de melhor aderência foi colocada para percebermos melhor a relação 9
  10. 10. Correlação 19 30 CHD Mortality per 10,000 20 10 {X = 6, Y = 11} 0 2 4 6 8 10 12 Cigarette Consumption per Adult per DayCorrelação 20 O que mostra o Diagrama de dispersão?• Quando aumenta o tabagismo, também aumenta a mortalidade por doença coronária.• A relação parece forte• Nem todos os pontos se encontram sobre a linha. Q Essa discrepância (ou desvio) dá-nos os “resíduos” dá- ou “erros de predição” • A discutir posteriormente 10
  11. 11. Correlação 21 Coeficiente de Correlação• Uma medida do grau de relação.• O sinal revela a direcção.• Baseado na covariância Q Mede o grau em que os resultados mais altos numa variável acompanham os resultados altos na outra, e os resultados mais pequenos vão com os outros mais pequenos. Correlação 22 Covariância • A fórmula Σ( X − X )(Y − Y ) Cov XY = N −1 • Como funciona, e porquê • Quando deve a covXY ser grande e positiva? • Quando deve a covXY ser grande e negativa? 11
  12. 12. Correlação 23 Coeficiente de Correlação• Simbolizado por r• Covariância ÷ (produto dos desvios padrão de cada uma das variáveis) Cov XY r= s X sYNota: existem vários coeficientes de associação e de correlação (vide próximo slide), a fórmula acima diz respeito ao coeficiente produto momento de Pearson Correlação 24 Coeficiente de correlação• Outra fórmula frequentemente usada no cálculo: 12
  13. 13. Correlação 25 Cálculo• CovXY = 11.13• sX = 2.33• sY = 6.69 cov XY 11.13 11.13r= = = = .71 s X sY (2.33)(6.69) 15.59Correlação 26 Correlação--cont. Correlação--cont.• Correlação, r = .71• O sinal é positivo Q Porquê?• E se o sinal fôsse negativo Q O que poderia tal significar? Q Não alteraria o grau da relação. 13
  14. 14. Correlação 27 Correlação--cont. Correlação--cont.Como interpretar o r?• Utilize uma classificação convencional• Calcule o coeficiente de determinação: r2 e r2%• Calcule a significância estatística do r (ver slide sobre como testar o r) Correlação 28 Correlação--cont. Correlação--cont.• Utilize um esquema de classificação convencional: r = 0.5 é um efeito grande, 0.3 é moderado, e 0.1 ispequeno (Cohen, 1988) Uma escala completa (Will G. Hopkins, 2002)http://www.sportsci.org/resource/stats/effectmag.html trivial pequena moderada grande muito quase perfeita grande perfeita 0.0 0.1 0.3 0.5 0.7 0.9 1 14
  15. 15. Correlação 29 Correlação--cont. Correlação--cont.•Calcule o coeficiente de determinação:r2 e r2%:Aplicando ao exemplo de Landwehr & Watkins: r = .71,logo, r2 = (.71)2 = .504;r2% = (.71)2 x100% = 50.4%, ou seja, aproximadamente, 50,4% da variabilidade na mortalidade CHD é explicada pelo nº de cigarros consumidos por dia (e vice-versa). vice-Correlação 30 Factores que Afectam o r• Restrições na amplitude Q Ver o próximo slide • Dados apenas para os países baixo consumo• Não linearidade Q V.g. idade e tamanho do vocabulário• Sub-amostras heterogéneas Sub- Q Relação entre peso e altura (combinando ambos os géneros) 15
  16. 16. Correlação 31 Países com Consumos Baixos Data With Restricted Range Truncated at 5 Cigarettes Per Day 20 18 CHD Mortality per 10,000 16 14 12 10 8 6 4 2 2.5 3.0 3.5 4.0 4.5 5.0 5.5 Cigarette Consumption per Adult per Day Correlação 32 Testar o r• Parâmetro populacional = ρ• Hipótese nula H0: ρ = 0 Q Teste da independência linear Q O que é que significaria uma hipótese nula verdadeira aqui? Q O que é que significaria uma falsa hipótese nula?• Hipótese alternativa (H1) ρ ≠ 0 Q Bi-lateral Bi- 16
  17. 17. Correlação 33Assunções (http://www2.chass.ncsu.edu/garson/PA765/correl.htm)• Dados ao nível de escalas de intervalos (para a correlação de Pearson).• Relações lineares. Assume-se que os pontos x-y no diagrama de Assume- x- dispersão para as duas variáveis que estão em análise serão melhor descritos por uma linha recta do que por uma outra qualquer função curvilínea. No caso em que uma função curvilinear teria um melhor ajuste, então o r de Pearson e os outros coeficientes lineares de correlação irão subestimar a correlação verdadeira, por vezes a um ponto que torna a sua utilização inútil e enganosa. A linearidade pode ser verificada visualmente através de um gráfico dos dados.• Homoscedasticidade é assumida. Isto é, assume-se que a variância assume- dos erros seja a mesma para qualquer ponto ao longo da relação linear. De outro modo o coeficiente de correlação será uma medida enganadora da média dos pontos mais elevados e mais baixos de correlação.• Sem outliers. Casos outliers podem atenuar os coeficientes de correlação. Os scatterplots podem ser usados para identificar visualmente outliers (ver acima). Uma diferença grande entre o r de Pearson e o rho de Spearman também pode indicar a presença de outliers. Correlação 34• Um Erro de medida mínimo é assumido uma vez que a baixa garantia atenua o coeficiente de correlação. Por definição, a correlação mede a covariância sistemática de duas variáveis. O erro de medida usualmente reduz a covariância sistemática e diminui o coeficiente de correlação. Esta diminuição chama-se atenuação. A restrição da variância, chama- discutida abaixo, também conduz à atenuação. Q Correcção para a atenuação: A garantia pode ser pensada como a correlação da variável com ela própria. A correcção da atenuação de uma correlação, rxy é uma função das garantias das duas variáveis, rxx and ryy: rxy (corrigido) = rxy / [Raiz quadrada{rxxryy}]• Variância não restringida Se a variância for truncada ou restringida numa ou em ambas as variáveis, por exemplo, uma amostragem deficiente, tal pode também levar à atenuação do coeficiente de correlação. Isso também acontece com a truncagem da amplitude das variáveis quando dicotomizamos dados contínuos, ou quando reduzimos uma escala de7-pontos a uma escala de 3-pontos. de7- 3- 17
  18. 18. Correlação 35• Assume- Assume-se que as distribuições subjacentes são similares com o objectivo de avaliar a força da correlação. I.e., se duas variáveis provêm de distribuições dissimilares, a sua correlação pode ser inferior a +1 mesmo quando os pontos observados estão tão perfeitamente emparelhados quanto é possível permanecendo conformes às distribuições subjacentes. Portanto, quanto maior a diferença na forma da distribuição das duas variáveis, maior a atenuação no coeficiente de correlação e mais o investigador deve considerar alternativas como a correlação por postos. Esta assunção poderá ser violada quando correlacionamos uma variável intervalar com uma dicotomia ou mesmo com uma variável ordinal.• Distribuições normais subjacentes, com o propósito de testar a significância da correlação. O teorema do limite central demonstra, contudo, que para grandes amostras, os índices usados no teste de significância estarão normalmente distribuídosmesmo quando as variáveis em si mesmas não estão distribuídas normalmente, e portanto o teste de hipóteses pode ser empregue. O investigador pode desejar usar o Spearman ou outros tipos de correlações por postos não paramétricas quando existirem violações marcadas desta assunção, embora esta estratégia tenha o perigo de atenuar a correlação.• Termos de erro distribuídos normalmente. Mais uma vez, aplica-se o teorema do limite central. aplica- Correlação 36 Tabelas de Significância • Tabelas (ver anexo) • For N - 2 = 19 df, rcrit = .433 • A correlação observada > .433 • Rejeitar H0 Q Correlação é significante. Q Maior consumo de cigarros está associado com maior mortalidade por CHD. 18
  19. 19. Correlação 37 Computer Printout• O “Printout” dá-nos o teste de dá- significância.• Ver o próximo slide. Q Os duplos asteriscos com a nota de rodapé indicam p < .01.Correlação 38 Printout do SPSS Correlations Cigarette CHD Consumption Mortali per Adult per ty per Day 10,000 Cigarette Pearson Consumption per Correlation Adult per Day Sig. (2-tailed) N CHD Mortality Pearson .713** per 10,000 Correlation Sig. .000 (2-tailed) N 21 **. Correlation is significant at the 0.01 level (2-tailed). 19
  20. 20. Correlação 39 Matriz de Intercorrelações• Matriz com as correlações entre várias variáveis todas representadas de uma só vez.• Exemplo de Kliewer et al (1998) JCCP Q Amostra: 99 crianças muito novas Q Mediu-se o nível de: Mediu- • Violência presenciada, Pensamentos Intrusivos, Suporte Social, e Sintomas de Internalização Correlação 40 Wit Intrus Social Internal ness Support izing Witness 1.00 .37 .08 .20 Intrus .37 1.00 -.08 .39 SocSup .08 -.08 1.00 -.17 Internal .20 .39 -.17 1.00 Cont. 20
  21. 21. Correlação 41 Matriz de Intercorrelações• Descreva a tabela.• O que podemos dizer acerca dos efeitos de se ter presenciado actos de violência?• Qual o papel desempenhado pelo suporte social?Correlação 42 Questões para Revisão• O que ajuda a determinar quais as variáveis que são representadas em cada um dos eixos do diagrama de dispersão?• O que nos diria uma correlação de 0 acerca da relação entre as notas nos trabalhos laboratoriais e os resultados nos exames?• Que factores podem afectar a relação entre tabagismo e a mortalidade por CHD? 21
  22. 22. Correlação 43 Questões para Revisão--cont. Revisão--cont.• Indique o nível (alto, médio, ou baixo) e o sinal da correlação para: Q Número de armas na comunidade e número de mortes por armas de fogo Q Roubos e incidência de abuso de drogas Q Sexo protegido e incidência de SIDA Q Nível educacional da comunidade e taxa de criminalidade Q Número de explosões solares e taxa de suicídio Cont. Correlação 44 Questões para Revisão--cont. Revisão--cont. • Porque deve o tamanho da correlação requerido para haver significância decrescer com o N (i.e., o número de efectivos da amostra)? 22
  23. 23. Correlação 45 AnexoCorrelação 46 Anexo 23
  24. 24. Correlação 47 AnexoCorrelação 48Exercício (http://www.texasoft.com/winkpear.html) 24
  25. 25. Correlação 49Exercício (http://www.texasoft.com/winkpear.html) Correlação 50Resolução (usando a calculadora http://wessa.net) 25
  26. 26. Correlação 51 Resolução (usando a calculadora http://wessa.net) Correlação 52Wessa, P. (2006), Free Statistics Software, Office for Research Development and Education, version 1.1.18, URL http://www.wessa.net/ 26
  27. 27. Correlação 53 Coeficiente ró de Spearman, rso A correlação de Spearman é uma técnica usada paratestar a direcção e a força da relação entre duas variáveis.É um utensílio para avaliar se um conjunto qualquer denúmeros se relaciona com outro conjunto qualquer denúmeros. É um teste não-paramétrico e deve ser utilizadoquando os dados são medidos numa escala ordinal ouquando os dados não se enquadram nos outrospressupostos dos testes paramétricoso Usa a estatística rs que se localiza num intervalo entre-1 e +1. Correlação 54 Coeficiente ró de Spearman, rs Procedimento para usar o coeficiente ró de Spearman1. Estabeleça a hipótese nula, i.e., “Não existe relação entre os dois conjuntos de dados.”2. Ordene ambos os conjuntos de dados atribuindo ao resultado mais baixo a ordem 1 e assim consecutivamente (Faça a ordenação em separado para cada variável e tenha em conta os empates).3. Subtraia os dois conjuntos de ordens para obter a diferença d.4. Calcule o quadrado dos valores de d.5. Adicione o quadrado dos valores de d para obter o sigma d2.6. Use a fórmula rs = 1-(6*Sigma d2/n3-n) onde n é o número de ordens do seu problema. 27
  28. 28. Correlação 55 Coeficiente ró de Spearman, rsConsidere o seguinte problema, extraído de Green & Oliveira (1989,p.190), acerca da avaliação da participação das crianças em jogos norecreio (X) e frequência de constipações (Y). Sujeito X Y Ordem 1 Ordem 2 d d2 1 5 2 5 3.5 1.5 2.25 2 3 2 2.5 3.5 -1 1 3 7 4 7 7.5 -0.5 0.25 4 10 5 11.5 11 0.5 0.25 5 9 4 9.5 7.5 3 4 6 9 5 9.5 11 -1.5 2.25 7 2 4 1 7.5 -6.5 42.25 8 6 3 6 5 1 1 9 3 1 2.5 1.5 1 1 10 4 1 4 1.5 2.5 6.25 11 8 4 8 7.5 0.5 0.25 12 10 5 11.5 11 0.5 0.25 Correlação 56 Coeficiente ró de Spearman, rs 6∑ d 2 6 × 61 rs = 1 − = 1− = 0.79 n3 − n 1716 28
  29. 29. Correlação 57Coeficiente ró de Spearman, rs 29

×