Aula_21_Correlaçãomachine-learnas2ee.ppt

CMIP- Centro de Metrologia e Inovação em Processos
Profª Andréa
Análise Bidimensional

Muitas vezes queremos verificar se há uma relação de causa
e efeito entre as duas variáveis (se as variáveis são
dependentes ou não), se é possível estudar uma das
variáveis através da outra (que é mais fácil de medir)- prever
os valores de uma através dos valores da outra, ou calcular
uma medida de correlação ou de dependência entre as
variáveis.
Através da Análise Bidimensional, podemos tentar responder
as perguntas do parágrafo anterior. As duas variáveis
abordadas podem ser qualitativas ou quantitativas, e para
cada tipo haverá técnicas apropriadas.

Variáveis quantitativas: Diagramas de dispersão,
Correlação, Regressão linear simples
Variáveis qualitativas: Tabelas de contingência, Estatística
Qui-Quadrado

Análise Bidimensional de
Variáveis Quantitativas

Muitas vezes também estamos interessados em avaliar o relacionamento entre variáveis
QUANTITATIVAS, sejam elas discretas ou contínuas. Basicamente dois tipos de
análise podem ser realizados: Análise de Correlação e Análise de Regressão.
• Na análise de correlação e regressão há interesse em, a partir de dados de uma
amostra aleatória, verificar SE e COMO duas ou mais variáveis quantitativas
relacionam-se entre si em uma população
Análise Bidimensional de Variáveis Quantitativas

A Análise de Correlação fornece um número que resume o relacionamento entre
as variáveis, indicando a força e a direção do relacionamento.
A Análise de Regressão fornece uma equação matemática que descreve a
natureza do relacionamento entre as duas variáveis, permitindo inclusive que
sejam feitas previsões dos valores de uma delas em função dos valores das
outras.
Análise Bidimensional de Variáveis Quantitativas

Objetivo
Estamos estudando um problema em que queremos:
– Avaliar o efeito que uma ou mais variáveis independentes
(explicativas) causam em uma ÚNICA variável dependente
(resposta).
Exemplo:
– Peso e alturas das crianças
– Tempo de prática de esporte e ritmo cardíaco
– Tempo de estudo e nota na prova
– Taxa de desemprego e taxa de criminalidade
– Expectativa de vida e taxa de analfabetismo
– Vendas e Gasto com publicidade
– Número de clientes nas vendas de uma empresa.

Pressupostos básicos
• Os dados provêm de observações emparelhadas:
– Peso e altura das mesmas crianças, medidas na mesma
época (pares de medidas para cada criança).
– Número de clientes e vendas de uma empresa no mesmo
mês (pares de medidas para cada mês).

Pressupostos básicos
• Variáveis QUANTITATIVAS (ou tornadas quantitativas).
• Há apenas UMA variável dependente (de resposta).
• Supõe-se que os dados são oriundos de uma amostra aleatória
• Espera-se que a quantidade de dados coletada seja suficiente
para garantir a confiabilidade das conclusões obtidas

Análise de
Correlação
Análise de
Regressão
Regressão
Linear Simples
Regressão
Linear Múltipla
Regressão Não
Linear
Exponencial Logística
Classificação dos modelos

Diagrama de Dispersão
Quando há apenas DUAS variáveis:
– Diagrama cartesiano dos pares de valores.
– Identificar padrões que possibilitem identificar:
• Se há evidência de correlação entre as variáveis;
• Se houver correlação, qual é a sua força e direção;
• Possível ajustar uma curva aos dados, de maneira a
descrever o relacionamento entre as variáveis;
– Ajustar um modelo de regressão.

Diagrama de Dispersão
Correlação Linear
Positiva
Correlação Linear
Negativa
SEM correlação

Correlação linear simples
A correlação será positiva
- se os valores crescentes de X estiverem associados a valores crescentes de Y, ou
valores decrescente de X estiverem associados a valores decrescentes da variável Y.
A correlação será negativa
- quando valores crescentes da variável X estiverem associados a valores
decrescentes da variável Y, ou valores decrescentes de X associados a valores
crescentes da variável Y.
Correlação nula
-quando não houver relação entre as variáveis X e Y, ou seja, quando as variações de X
e Y ocorrerem independentemente não existe correlação entre elas.

Variável independente é o número
de horas estudadas.
A nota do aluno é a var.
dependente.
A nota do aluno depende do nº de
horas que ele estuda?
Essas variáveis se relacionam?
Por convenção, a variável
independente é considerada
no eixo horizontal x.
A dependente é considerada no
eixo vertical y.
Pares de observação (Xi;Yi)
Tempo Nota
3,0 4,5
7,0 6,5
2,0 3,7
1,5 4,0
12,0 9,3
Diagrama de dispersão
0
2
4
6
8
10
0 5 10 15
Tempo
Nota
Exemplo : nota da prova e tempo de estudo

Exemplo :Vendas e gasto com publicidade de loja de
confecções
X: Gasto com publicidade(em $
mil)
Y: Venda (em $ mil)
Pares de observação (Xi;Yi)
Gasto Venda
3 7
4 14
8 15
12 28
14 32
Diagrama de dispersão
0
5
10
15
20
25
30
35
0 5 10 15
Gasto com publicidade
Vendas

Diagrama de dispersão indica a possibilidade de correlação
linear.
Coeficiente de correlação linear de Pearson: medir a força e a
direção do relacionamento LINEAR entre as duas variáveis:
 para dados populacionais;
r para dados amostrais.

Equação:
r – coeficiente de correlação linear de Pearson;
n – número de pares de observações;
x – variável independente;
y – variável dependente.
 
   




















































2
n
1
i
i
n
1
i
2
i
2
n
1
i
i
n
1
i
2
i
n
1
i
i
n
1
i
i
n
1
i
i
i
y
y
n
x
x
n
y
x
y
x
n
r

- 1  r  +1
r = - 1: correlação linear negativa perfeita (reta decrescente).
r = +1: correlação linear positiva perfeita (reta crescente).
r = 0: não há correlação LINEAR.
• 0,00 < | r | ≤ 0,25 - correlação muito fraca;
• 0,25 < | r | ≤ 0,50 – correlação fraca;
• 0,50 < | r | ≤ 0,75 – correlação forte;
• 0,75 < | r | ≤ 1,00 – correlação muito forte.

Exemplo 1
Relação entre o número de clientes e as vendas semanais (em
milhares de reais) para uma amostra de 20 empresas de
remessa de cargas.
Empresa Clientes Vendas Empresa Clientes Vendas
1 907 11,2 11 679 7,63
2 926 11,05 12 872 9,43
3 506 6,84 13 924 9,46
4 741 9,21 14 607 7,64
5 789 9,42 15 452 6,92
6 889 10,08 16 729 8,95
7 874 9,45 17 794 9,33
8 510 6,73 18 844 10,23
9 529 7,24 19 1010 11,77
10 420 6,12 20 621 7,41

Exemplo
0
2
4
6
8
10
12
14
300 400 500 600 700 800 900 1000 1100
Número de clientes
Vendas

Exemplo
14623
x
20
1
i
i 


11
,
176
y
20
1
i
i 


  11306209
20
1
2



i
i
x   1602,097
y
20
1
i
2
i 


  134127,9
y
x
20
1
i
i
i 



20
n 
       
0,954913
11
,
176
097
,
1602
20
14623
11306209
20
)
11
,
176
14623
(
9
,
134127
20
r
2
2










FORTE CORRELAÇÃO LINEAR POSITIVA!

Exemplo 2
Estamos avaliando as médias de 15
estudantes no ensino médio,
relacionando-as com os índices
dos mesmos estudantes no seus
cursos universitários.
As médias no ensino médio podem
variar de 0 a 100, e os índices na
universidade de 0 a 4.
Construa um diagrama de dispersão
e calcule o coeficiente de
correlação linear de Pearson para
os dados a seguir. Interprete os
resultados encontrados.

Exemplo 2
Nosso primeiro passo é definir qual variável é independente (X) e qual é a
dependente (Y).
Quem pode ter influenciado quem?
É razoável imaginar que a média no ensino médio dos estudantes tenha
influenciado de algum modo o índice por eles obtidos na universidade,
simplesmente pelo fato de que é preciso cursar o ensino médio antes
da universidade.

Exemplo 2
Assim sendo, X será a média no ensino médio (variável independente) e
Y será o índice na universidade (variável dependente).
Como será o relacionamento entre estas variáveis?
Novamente, o bom senso nos indica que a valores altos de médias no
ensino médio devem corresponder índices altos na universidade:
esperamos uma correlação positiva.

Exemplo 2
Construindo o diagrama de dispersão (há várias planilhas
eletrônicas e programas estatísticos que podem fazer isso)
obtemos:

Exemplo 2
A correlação linear é forte? Quanto mais os pontos estiverem
próximos da reta hipotética ajustada aos dados mais forte será a
correlação.
No diagrama da figura anterior os pontos estão próximos uns dos
outros, estariam a pouca distância de uma reta que passasse entre
eles. Concluímos então que a correlação linear deve ser forte, o
que resultará em um coeficiente de correlação linear de Pearson
próximo de 1.

Exemplo 2
Vamos calcular o coeficiente, obtendo os somatórios necessários

Exemplo 2
Sabe-se que n = 15 (há 15 alunos).
Confirmando nossas conclusões anteriores, o coeficiente de correlação
linear de Pearson teve resultado positivo, e próximo de 1, indicando forte
correlação linear positiva entre a média no ensino médio e o índice na
universidade ao menos para estes estudantes.

Exemplo R-COMANDER- ALTURA E PESO
Altura Peso
1,87 75,2
1,82 81,2
1,94 85,9
1,69 68,5
1,67 72,1
1,8 77,3
1,78 71,1
1,75 70,5
1,73 65,6
1,71 65,6

Gráfico de Dispersão
Para verificar o
comportamento das
variáveis

1.70 1.75 1.80 1.85 1.90 1.95
65
70
75
80
85
Altura
Peso

Próximo passo, realizar a
análise de correlação
Pearson's product-moment correlation
data: Altura and Peso
t = 4.1219, df = 8, p-value = 0.003336
alternative hypothesis: true correlation is not
equal to 0
95 percent confidence interval:
0.4053595 0.9572229
sample estimates:
cor 0.8245421
Logo existe correlação entre altura e peso = cor=0.8245421

1)Verifique se existe correlação entre as variáveis
Velocidade (variável dependente) e
Tempo de treinamento diário (min.) (variável
independente) – Exercicio_Velocidade
2)Verifique se existe correlação entre :
Variável dependente: IMC ; Variável independente: TR
(dobra cutânea triciptal);
- Exercicio_IMC
Exercício

Aula_21_Correlaçãomachine-learnas2ee.ppt

Mais conteúdo relacionado

Semelhante a Aula_21_Correlaçãomachine-learnas2ee.ppt

Mais de testepro286

Aula_21_Correlaçãomachine-learnas2ee.ppt