2. Mostrar a importância dos conceitos de associação e
correlação para o entendimentos dos fatos sociais.
Apresentar as medidas de associação e correlação mais
utilizadas.
OBJETIVOS
3. população amostra
uma variável
aleatória: ex.
peso
Estatísticas:
média,
variância
desvio padrão,
etc.
população amostra
duas variáveis
aleatórias:
peso e altura,
etc
4. Análise de dados estatísticos na engenharia é a busca
de relações entre duas variáveis de uma mesma
população.
CONSIDERAÇÕES
5. Regressão e Correlação são duas técnicas
estreitamente relacionadas, que envolvem uma forma
de estimação.
Correlação: Mede a força e direção de
relacionamento (linear) entre duas variáveis.
Regressão: Estabelece uma equação que descreve o
relacionamento em termos matemáticos.
CONCEITOS
6. Comprimento (variável X) e largura (variável Y) de crânios de pessoas da
população;
Altura (variável X) do pai e altura (variável Y) da filha;
Idade (variável X) e a resistência física (variável Y);
Comprimento (variável X) e peso dos ursos (variável Y);
Gastos em publicidade (variável X) e o faturamento da empresa (variável Y);
Idade (variável X) e altura (variável Y) das crianças;
Tempo de prática de esportes e ritmo cardíaco;
Tempo de estudo e nota na prova;
Taxa de desemprego e taxa de criminalidade;
Expectativa de vida e taxa de analfabetismo.
A esta relação é dado o nome de correlação
Qual a relação entre:
7. Dados quantitativos
- contínuos
- discretos
Coeficiente de
correlação de
Pearson
Dados qualitativos
- ordinais - nominais
(categorias)
Coeficiente de
Spearman
Coeficiente de
contingência
( qui-quadrado)
Coeficientes de correlação
COEFICIENTES
8. Relação entre duas ou mais variáveis aleatórias -
correlação
Gráfico de dispersão Medida de correlação
(coeficiente de correlação)
+
Correlação
entre duas variáveis
aleatórias
Linear (uma reta)
Não linear (parábola, exponencial
{
Estudaremo
s apenas a
correlação
linear
Estudaremos apenas
correlação de duas
variáveis
9. Comprimento X (polegadas) 53,0 67,5 75,0 73,5 68,5 73,0 37,0
Peso Y (libras) 80 344 416 416 262 360 34
Comprimento e peso de ursos machos
Os dados acima, casados em conjunto são conhecidos como dados
emparelhados ou bivariados ( no mesmo instante);
Existe correlação entre duas variáveis quando uma delas está, de
alguma forma, relacionada com a outra;
A correlação é uma técnica estatística que tem por objetivo investigar
se há ou não correlação linear entre duas ou mais variáveis;
EXEMPLO
10. Pré requisitos para o estudo de correlação
A amostra de dados emparelhados (x, y) deve ser
aleatória.
Os pares de dados (x, y) deve ter uma distribuição normal
bivariada.
Os dados devem provir de observações emparelhadas em
condições semelhantes
altura e peso de um grupo de crianças, por exemplo, o peso de
uma criança deve ser medido e registrado no mesmo instante em
que é medida e registrada a altura.
PRÉ REQUISITOS
11. CORRELAÇÃO LINEAR
Coeficiente de correlação (produto-momento) de
Pearson (r).
O coeficiente de Pearson avalia o quanto duas séries
numéricas repousam sobre uma linha reta, indicando
assim o grau de sua associação linear.
12. se existe ou não alguma associação (relação) entre as
variáveis em estudo;
a direção da correlação (como valores de Y aumenta ou diminui em
função do aumento ou redução de X)
a força da correlação (em que “taxa” os valores de Y aumentam ou
diminuem em função de X)
e a natureza da correlação (reta, parábola, exponencial,
etc.)
y
x
...
.
.
. .
Não há correlação entre x e y
. .
. .
.
.
.
. ..
y
x
..
Correlação não linear entre x e y
...
.....
....
.. .....
.
correlação não
linear – não será
estudado
MÉTODO GRÁFICO QUE AJUDA A AVALIAR:
13. y
x
.........
...
.
.
.
Correlação positiva entre x e y
y
x
.........
...
.
.... ..
.
.
.
Forte Correlação positiva entre x e y
y
x
Correlação positiva perfeita entre x e y
............
.
Correlação positiva:
x cresce y cresce
x diminui y diminui
Correlação linear:
uma reta pode ajustar aos
dados
r = 1
Admite-se r > 0,7
CONSIDERAÇÕES
14. y
x
..
Correlação negativa entre x e y
. .
. .. .. ..
.
y
x
..
Forte Correlação negativa entre x e y
.. .. ...
..
..
.
.
.
y
x
Correlação negativa perfeita entre x e y
.........
.
...
.
Correlação negativa:
x cresce y diminui
x diminui y cresce
Correlação linear:
uma reta pode ajustar aos
dados
r = -1
Admite-se r < - 0,7
15. É conhecido como coeficiente de correlação linear de Pearson
ou coeficiente momento- produto de Pearson (em homenagem a Karl
Pearson, 1857 – 1936)
yx
n
i
ii
yx ss
n
yyxx
ss
YXCov
r
.
1
))((
.
),(
1
−
−−
==
∑=
xi = valores de x
yi = valores de y
x barra = média dos valores xi
y barra = média dos valores yi
n = número de pares de dados
presentes
sx = desvio padrão dos valores xi
sy = desvio padrão dos valores yi
Cov(x,y) = covariância dos valores de
x e y
COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON R:
16. ∑ ∑∑ ∑
∑ ∑ ∑
−−
−
=
2222
)()(*)()(
))((
yynxxn
yxxyn
r
Notação para o coeficiente de correlação linear
n representa o número de pares de dados presentes;
∑ denota a adição dos itens indicados;
∑x denota a soma de todos os valores de x;
∑x2
indica que devemos elevar ao quadrado cada valor de x e soma os
resultados;
(∑x)2
indica que devemos somar os valores de x e elevar o total ao
quadrado. Não confundir ∑x2
com (∑x)2
;
∑xy indicar que devemos multiplicar cada valor de x pelo valor
correspondente de y e somar então todos esses produtos
r representa o coeficiente de correlação linear para uma amostra
ρ representa o coeficiente de correlação linear para uma população
Arredondamento no meios dos
cálculos pode causar erros
sérios. Use a memória de sua
calculadora para armazenar os
resultados intermediários,
fazendo o arredondamento
somente no final.
Cálculo do coeficiente de correlação linear
18. -1 0 +1
r = -1
há correlação linear
negativa perfeita entre
as variáveis x e y.
r = +1
há correlação linear
positiva perfeita entre
as variáveis x e y.
r =0
não há correlação linear
entre as variáveis x e y.
O coeficiente de PEARSON varia de -1 a +1.
INTERPRETAÇÃO DO COEFICIENTE DE CORRELAÇÃO
19. Exemplo: Calcule o coeficiente de correlação linear para os dados
emparelhados de pesos e comprimentos dos ursos.
Comprimento X (polegadas) 53,0 67,5 72,0 72,0 73,5 68,5 73,0 37,0
Peso Y (libras) 80 344 416 348 262 360 332 34
Comprimento (in) peso (lb)
x y x.y x2
y2
53,0 80 4240 2809,00 6400
67,5 344 23220 4556,25 118336
72,0 416 29952 5184,00 173056
72,0 348 25056 5184,00 121104
73,5 262 19257 5402,25 68644
68,5 360 24660 4692,25 129600
73,0 332 24236 5329,00 110224
37,0 34 1258 1369,00 1156
total 516,5 2176 151879 34525,75 728520
∑x ∑y ∑xy ∑x2
∑y2
22. Avalie a correlação entre as médias de 15 estudantes no 2º grau
(ensino médio), relacionando com os índices dos mesmos estudantes
no seus cursos universitários. As médias no 2º grau podem variar de 0
a 100, e os índices universitários de 0 a 4. Construa o diagrama de
dispersão e calcule o coeficiente de correlação de Pearson.
Média no 2º
grau
Índice na
Universidade
Média no 2º
grau
Índice na
Universidade
80 1,0 90 3,1
82 1,0 91 2,4
84 2,1 91 2,7
85 1,4 92 3,0
87 2,1 94 3,9
88 1,7 96 3,6
88 2,0 98 4,0
89 3,5
EXEMPLO
26. Quando se constatam correlações entre variáveis, podem ocorrer
resultados interessantes, surpreendentes e úteis. Vários estudos
científicos sugerem a existência de uma correlação entre a exposição a
campos eletromagnéticos e a incidência de câncer. Os epidemiologistas
do Instituto Korolisnka da Suécia pesquisaram 500.000 suecos que
viviam a 300 metros de uma linha de alta tensão, por um período de 25
anos, e constataram que as crianças apresentavam maior incidência de
leucemia. Essas conclusões levaram o governo da Suécia a elaborar
regulamentos que reduzissem o número de residências nas
proximidades das linhas de energia de alta tensão. Em um artigo sobre
esse estudo, a revista “Times” escreveu: “Embora a pesquisa não prove
a relação de causa e efeito, mostra uma correlação indiscutível entre o
grau de exposição e o risco de leucemia infantil”.
Interessante
CORRELAÇÃO ENTRE LINHAS DE ENERGIA E CÂNCER
27. 1 – o valor de r está sempre entre -1 e 1. Isto é -1≤ r ≤ 1.
2 – o valor de r não varia se todos os valores de qualquer
uma das variáveis são convertidos para uma escala
diferente. Por exemplo, se os pesos dos ursos são dados
em quilogramas em vez de libras, o valor de r não se
modificará.
3 – o valor de r não é afetado pela escolha de x ou y.
Permutando todos os valores de x e y, r permanecerá
inalterado.
4 – r mede a intensidade, ou grau, de um relacionamento
linear. Não se serve para medir a intensidade de um
relacionamento não-linear.
PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO LINEAR R
28. 1 – Devemos evitar a conclusão de que a correlação implica a
causalidade. Um estudo mostrou uma correlação entre os salários dos professores
de estatística e o consumo individual de cerveja; mas essas duas variáveis são afetadas
pelas condições econômicas, uma terceira variável oculta. (Defini-se formalmente uma
variável oculta como uma variável que afeta as variáveis em estudo, mas não está
incluída no estudo.)
2 – Surge outra fonte potencial de erros quando os dados são
baseados em taxas ou médias. Quando utilizamos taxas ou médias para os
dados, suprimimos a variação entre os indivíduos ou elementos, e isto pode levar a um
coeficiente de correlação inflacionado.Um estudo acusou um coeficiente de correlação
linear de 0,4 para dados emparelhados relativos a renda e educação entre indivíduos,
mas aquele coeficiente passou para 0,7 quando foram consideradas médias regionais.
3 – Um terceiro erro diz respeito à propriedade de linearidade. A
conclusão de que não há correlação linear significativa, não quer dizer que x e y não
estejam correlacionados de alguma forma. Pode ocorrer casos onde r = 0 indicando
ausência total de correlação linear entre as duas variáveis, mas elas podem estar
fortemente relacionados por uma correlação não-linear.
ERROS COMUNS QUE ENVOLVEM A CORRELAÇÃO
29. 4 - Quantidade insuficiente de dados podem levar a
conclusões errôneas.
- Podemos descartar a correlação entre as variáveis embora ela realmente
exista, porque os dados foram insuficientes para mostrá-la;
- Podemos concluir que exista correlação, que na realidade não é significativa,
porque os dados mostraram apenas uma pequena parte do conjunto total,
talvez por acaso a correlação exista.
∙∙
∙ ∙∙
∙
∙
∙ ∙∙ ∙
∙
∙∙
∙
∙
∙ ∙
∙ ∙
∙
∙
∙
∙
∙
∙∙
∙
∙
∙∙ ∙ ∙
∙ ∙
∙
∙ ∙∙
∙∙
∙∙
∙
∙
∙
∙
∙
∙
∙ ∙∙
∙
amostra
∙
∙ ∙
∙
∙
∙
∙
∙∙∙ ∙
Erros comuns que envolvem a correlação
31. Dados preferenciais (ordinais) são muito comuns em
áreas de teste de alimentos, eventos competitivos
(concursos de beleza, exibições artísticas, competições
atléticas) e estudos de atitudes
O objetivo do cálculo de um coeficiente de correlação
nesses casos é determinar até que ponto dois conjuntos
de dados ordinais concordam ou discordam
)1(
6
1 2
2
−
−=
∑
nn
d
rsp
n = nº de observações
d = diferença entre os julgamentos ou ordens
COEFICIENTE DE CORRELAÇÃO R DE SPEARMAN (DADOS ORDINAIS)
34. INTERPRETAÇÃO DO COEFICIENTE DE CORRELAÇÃO
-1 0 +1
rsp próximo de -1
os julgamentos
não são
semelhantes, são
discordantes ou
bastante
diferentes
rsp próximo de +1
os julgamentos
são semelhantes,
concordantes
rsp próximo de 0
Sugere
ausência de
relacionamento
entre os dois
conjuntos
O coeficiente de SPEARMAN varia de -1 a +1.