CMIP- Centro de Metrologia e Inovação em Processos
Profª Andréa
Análise Bidimensional
Análise Bidimensional
Análise Bidimensional
Muitas vezes queremos verificar se há uma relação de causa
e efeito entre as duas variáveis (se as variáveis são
dependentes ou não), se é possível estudar uma das
variáveis através da outra (que é mais fácil de medir)- prever
os valores de uma através dos valores da outra, ou calcular
uma medida de correlação ou de dependência entre as
variáveis.
Através da Análise Bidimensional, podemos tentar responder
as perguntas do parágrafo anterior. As duas variáveis
abordadas podem ser qualitativas ou quantitativas, e para
cada tipo haverá técnicas apropriadas.
Análise Bidimensional
Variáveis quantitativas: Diagramas de dispersão,
Correlação, Regressão linear simples
Variáveis qualitativas: Tabelas de contingência, Estatística
Qui-Quadrado
Análise Bidimensional de
Variáveis Quantitativas
Muitas vezes também estamos interessados em avaliar o relacionamento entre variáveis
QUANTITATIVAS, sejam elas discretas ou contínuas. Basicamente dois tipos de
análise podem ser realizados: Análise de Correlação e Análise de Regressão.
• Na análise de correlação e regressão há interesse em, a partir de dados de uma
amostra aleatória, verificar SE e COMO duas ou mais variáveis quantitativas
relacionam-se entre si em uma população
Análise Bidimensional de Variáveis Quantitativas
A Análise de Correlação fornece um número que resume o relacionamento entre
as variáveis, indicando a força e a direção do relacionamento.
A Análise de Regressão fornece uma equação matemática que descreve a
natureza do relacionamento entre as duas variáveis, permitindo inclusive que
sejam feitas previsões dos valores de uma delas em função dos valores das
outras.
Análise Bidimensional de Variáveis Quantitativas
Objetivo
Estamos estudando um problema em que queremos:
– Avaliar o efeito que uma ou mais variáveis independentes
(explicativas) causam em uma ÚNICA variável dependente
(resposta).
Exemplo:
– Peso e alturas das crianças
– Tempo de prática de esporte e ritmo cardíaco
– Tempo de estudo e nota na prova
– Taxa de desemprego e taxa de criminalidade
– Expectativa de vida e taxa de analfabetismo
– Vendas e Gasto com publicidade
– Número de clientes nas vendas de uma empresa.
Pressupostos básicos
• Os dados provêm de observações emparelhadas:
– Peso e altura das mesmas crianças, medidas na mesma
época (pares de medidas para cada criança).
– Número de clientes e vendas de uma empresa no mesmo
mês (pares de medidas para cada mês).
Pressupostos básicos
• Variáveis QUANTITATIVAS (ou tornadas quantitativas).
• Há apenas UMA variável dependente (de resposta).
• Supõe-se que os dados são oriundos de uma amostra aleatória
• Espera-se que a quantidade de dados coletada seja suficiente
para garantir a confiabilidade das conclusões obtidas
Análise de
Correlação
Análise de
Regressão
Regressão
Linear Simples
Regressão
Linear Múltipla
Regressão Não
Linear
Exponencial Logística
Classificação dos modelos
Diagrama de Dispersão
Quando há apenas DUAS variáveis:
– Diagrama cartesiano dos pares de valores.
– Identificar padrões que possibilitem identificar:
• Se há evidência de correlação entre as variáveis;
• Se houver correlação, qual é a sua força e direção;
• Possível ajustar uma curva aos dados, de maneira a
descrever o relacionamento entre as variáveis;
– Ajustar um modelo de regressão.
Diagrama de Dispersão
Correlação Linear
Positiva
Correlação Linear
Negativa
SEM correlação
Correlação linear simples
A correlação será positiva
- se os valores crescentes de X estiverem associados a valores crescentes de Y, ou
valores decrescente de X estiverem associados a valores decrescentes da variável Y.
A correlação será negativa
- quando valores crescentes da variável X estiverem associados a valores
decrescentes da variável Y, ou valores decrescentes de X associados a valores
crescentes da variável Y.
Correlação nula
-quando não houver relação entre as variáveis X e Y, ou seja, quando as variações de X
e Y ocorrerem independentemente não existe correlação entre elas.
Variável independente é o número
de horas estudadas.
A nota do aluno é a var.
dependente.
A nota do aluno depende do nº de
horas que ele estuda?
Essas variáveis se relacionam?
Por convenção, a variável
independente é considerada
no eixo horizontal x.
A dependente é considerada no
eixo vertical y.
Pares de observação (Xi;Yi)
Tempo Nota
3,0 4,5
7,0 6,5
2,0 3,7
1,5 4,0
12,0 9,3
Diagrama de dispersão
0
2
4
6
8
10
0 5 10 15
Tempo
Nota
Exemplo : nota da prova e tempo de estudo
Exemplo :Vendas e gasto com publicidade de loja de
confecções
X: Gasto com publicidade(em $
mil)
Y: Venda (em $ mil)
Pares de observação (Xi;Yi)
Gasto Venda
3 7
4 14
8 15
12 28
14 32
Diagrama de dispersão
0
5
10
15
20
25
30
35
0 5 10 15
Gasto com publicidade
Vendas
Correlação linear simples
Diagrama de dispersão indica a possibilidade de correlação
linear.
Coeficiente de correlação linear de Pearson: medir a força e a
direção do relacionamento LINEAR entre as duas variáveis:
 para dados populacionais;
r para dados amostrais.
Correlação linear simples
Equação:
r – coeficiente de correlação linear de Pearson;
n – número de pares de observações;
x – variável independente;
y – variável dependente.
 
   




















































2
n
1
i
i
n
1
i
2
i
2
n
1
i
i
n
1
i
2
i
n
1
i
i
n
1
i
i
n
1
i
i
i
y
y
n
x
x
n
y
x
y
x
n
r
Correlação linear simples
- 1  r  +1
r = - 1: correlação linear negativa perfeita (reta decrescente).
r = +1: correlação linear positiva perfeita (reta crescente).
r = 0: não há correlação LINEAR.
• 0,00 < | r | ≤ 0,25 - correlação muito fraca;
• 0,25 < | r | ≤ 0,50 – correlação fraca;
• 0,50 < | r | ≤ 0,75 – correlação forte;
• 0,75 < | r | ≤ 1,00 – correlação muito forte.
Exemplo 1
Relação entre o número de clientes e as vendas semanais (em
milhares de reais) para uma amostra de 20 empresas de
remessa de cargas.
Empresa Clientes Vendas Empresa Clientes Vendas
1 907 11,2 11 679 7,63
2 926 11,05 12 872 9,43
3 506 6,84 13 924 9,46
4 741 9,21 14 607 7,64
5 789 9,42 15 452 6,92
6 889 10,08 16 729 8,95
7 874 9,45 17 794 9,33
8 510 6,73 18 844 10,23
9 529 7,24 19 1010 11,77
10 420 6,12 20 621 7,41
Exemplo
0
2
4
6
8
10
12
14
300 400 500 600 700 800 900 1000 1100
Número de clientes
Vendas
Exemplo
14623
x
20
1
i
i 


11
,
176
y
20
1
i
i 


  11306209
20
1
2



i
i
x   1602,097
y
20
1
i
2
i 


  134127,9
y
x
20
1
i
i
i 



20
n 
       
0,954913
11
,
176
097
,
1602
20
14623
11306209
20
)
11
,
176
14623
(
9
,
134127
20
r
2
2










FORTE CORRELAÇÃO LINEAR POSITIVA!
Exemplo 2
Estamos avaliando as médias de 15
estudantes no ensino médio,
relacionando-as com os índices
dos mesmos estudantes no seus
cursos universitários.
As médias no ensino médio podem
variar de 0 a 100, e os índices na
universidade de 0 a 4.
Construa um diagrama de dispersão
e calcule o coeficiente de
correlação linear de Pearson para
os dados a seguir. Interprete os
resultados encontrados.
Exemplo 2
Nosso primeiro passo é definir qual variável é independente (X) e qual é a
dependente (Y).
Quem pode ter influenciado quem?
É razoável imaginar que a média no ensino médio dos estudantes tenha
influenciado de algum modo o índice por eles obtidos na universidade,
simplesmente pelo fato de que é preciso cursar o ensino médio antes
da universidade.
Exemplo 2
Assim sendo, X será a média no ensino médio (variável independente) e
Y será o índice na universidade (variável dependente).
Como será o relacionamento entre estas variáveis?
Novamente, o bom senso nos indica que a valores altos de médias no
ensino médio devem corresponder índices altos na universidade:
esperamos uma correlação positiva.
Exemplo 2
Construindo o diagrama de dispersão (há várias planilhas
eletrônicas e programas estatísticos que podem fazer isso)
obtemos:
Exemplo 2
A correlação linear é forte? Quanto mais os pontos estiverem
próximos da reta hipotética ajustada aos dados mais forte será a
correlação.
No diagrama da figura anterior os pontos estão próximos uns dos
outros, estariam a pouca distância de uma reta que passasse entre
eles. Concluímos então que a correlação linear deve ser forte, o
que resultará em um coeficiente de correlação linear de Pearson
próximo de 1.
Exemplo 2
Vamos calcular o coeficiente, obtendo os somatórios necessários
Exemplo 2
Sabe-se que n = 15 (há 15 alunos).
Confirmando nossas conclusões anteriores, o coeficiente de correlação
linear de Pearson teve resultado positivo, e próximo de 1, indicando forte
correlação linear positiva entre a média no ensino médio e o índice na
universidade ao menos para estes estudantes.
Exemplo R-COMANDER- ALTURA E PESO
Altura Peso
1,87 75,2
1,82 81,2
1,94 85,9
1,69 68,5
1,67 72,1
1,8 77,3
1,78 71,1
1,75 70,5
1,73 65,6
1,71 65,6
Exemplo R-COMANDER- ALTURA E PESO
Gráfico de Dispersão
Para verificar o
comportamento das
variáveis
Exemplo R-COMANDER- ALTURA E PESO
1.70 1.75 1.80 1.85 1.90 1.95
65
70
75
80
85
Altura
Peso
Exemplo R-COMANDER- ALTURA E PESO
Próximo passo, realizar a
análise de correlação
Pearson's product-moment correlation
data: Altura and Peso
t = 4.1219, df = 8, p-value = 0.003336
alternative hypothesis: true correlation is not
equal to 0
95 percent confidence interval:
0.4053595 0.9572229
sample estimates:
cor 0.8245421
Logo existe correlação entre altura e peso = cor=0.8245421
1)Verifique se existe correlação entre as variáveis
Velocidade (variável dependente) e
Tempo de treinamento diário (min.) (variável
independente) – Exercicio_Velocidade
2)Verifique se existe correlação entre :
Variável dependente: IMC ; Variável independente: TR
(dobra cutânea triciptal);
- Exercicio_IMC
Exercício

Aula_21_Correlaçãomachine-learnas2ee.ppt

  • 1.
    CMIP- Centro deMetrologia e Inovação em Processos Profª Andréa Análise Bidimensional Análise Bidimensional
  • 2.
    Análise Bidimensional Muitas vezesqueremos verificar se há uma relação de causa e efeito entre as duas variáveis (se as variáveis são dependentes ou não), se é possível estudar uma das variáveis através da outra (que é mais fácil de medir)- prever os valores de uma através dos valores da outra, ou calcular uma medida de correlação ou de dependência entre as variáveis. Através da Análise Bidimensional, podemos tentar responder as perguntas do parágrafo anterior. As duas variáveis abordadas podem ser qualitativas ou quantitativas, e para cada tipo haverá técnicas apropriadas.
  • 3.
    Análise Bidimensional Variáveis quantitativas:Diagramas de dispersão, Correlação, Regressão linear simples Variáveis qualitativas: Tabelas de contingência, Estatística Qui-Quadrado
  • 4.
  • 5.
    Muitas vezes tambémestamos interessados em avaliar o relacionamento entre variáveis QUANTITATIVAS, sejam elas discretas ou contínuas. Basicamente dois tipos de análise podem ser realizados: Análise de Correlação e Análise de Regressão. • Na análise de correlação e regressão há interesse em, a partir de dados de uma amostra aleatória, verificar SE e COMO duas ou mais variáveis quantitativas relacionam-se entre si em uma população Análise Bidimensional de Variáveis Quantitativas
  • 6.
    A Análise deCorrelação fornece um número que resume o relacionamento entre as variáveis, indicando a força e a direção do relacionamento. A Análise de Regressão fornece uma equação matemática que descreve a natureza do relacionamento entre as duas variáveis, permitindo inclusive que sejam feitas previsões dos valores de uma delas em função dos valores das outras. Análise Bidimensional de Variáveis Quantitativas
  • 7.
    Objetivo Estamos estudando umproblema em que queremos: – Avaliar o efeito que uma ou mais variáveis independentes (explicativas) causam em uma ÚNICA variável dependente (resposta). Exemplo: – Peso e alturas das crianças – Tempo de prática de esporte e ritmo cardíaco – Tempo de estudo e nota na prova – Taxa de desemprego e taxa de criminalidade – Expectativa de vida e taxa de analfabetismo – Vendas e Gasto com publicidade – Número de clientes nas vendas de uma empresa.
  • 8.
    Pressupostos básicos • Osdados provêm de observações emparelhadas: – Peso e altura das mesmas crianças, medidas na mesma época (pares de medidas para cada criança). – Número de clientes e vendas de uma empresa no mesmo mês (pares de medidas para cada mês).
  • 9.
    Pressupostos básicos • VariáveisQUANTITATIVAS (ou tornadas quantitativas). • Há apenas UMA variável dependente (de resposta). • Supõe-se que os dados são oriundos de uma amostra aleatória • Espera-se que a quantidade de dados coletada seja suficiente para garantir a confiabilidade das conclusões obtidas
  • 10.
    Análise de Correlação Análise de Regressão Regressão LinearSimples Regressão Linear Múltipla Regressão Não Linear Exponencial Logística Classificação dos modelos
  • 11.
    Diagrama de Dispersão Quandohá apenas DUAS variáveis: – Diagrama cartesiano dos pares de valores. – Identificar padrões que possibilitem identificar: • Se há evidência de correlação entre as variáveis; • Se houver correlação, qual é a sua força e direção; • Possível ajustar uma curva aos dados, de maneira a descrever o relacionamento entre as variáveis; – Ajustar um modelo de regressão.
  • 12.
    Diagrama de Dispersão CorrelaçãoLinear Positiva Correlação Linear Negativa SEM correlação
  • 13.
    Correlação linear simples Acorrelação será positiva - se os valores crescentes de X estiverem associados a valores crescentes de Y, ou valores decrescente de X estiverem associados a valores decrescentes da variável Y. A correlação será negativa - quando valores crescentes da variável X estiverem associados a valores decrescentes da variável Y, ou valores decrescentes de X associados a valores crescentes da variável Y. Correlação nula -quando não houver relação entre as variáveis X e Y, ou seja, quando as variações de X e Y ocorrerem independentemente não existe correlação entre elas.
  • 14.
    Variável independente éo número de horas estudadas. A nota do aluno é a var. dependente. A nota do aluno depende do nº de horas que ele estuda? Essas variáveis se relacionam? Por convenção, a variável independente é considerada no eixo horizontal x. A dependente é considerada no eixo vertical y. Pares de observação (Xi;Yi) Tempo Nota 3,0 4,5 7,0 6,5 2,0 3,7 1,5 4,0 12,0 9,3 Diagrama de dispersão 0 2 4 6 8 10 0 5 10 15 Tempo Nota Exemplo : nota da prova e tempo de estudo
  • 15.
    Exemplo :Vendas egasto com publicidade de loja de confecções X: Gasto com publicidade(em $ mil) Y: Venda (em $ mil) Pares de observação (Xi;Yi) Gasto Venda 3 7 4 14 8 15 12 28 14 32 Diagrama de dispersão 0 5 10 15 20 25 30 35 0 5 10 15 Gasto com publicidade Vendas
  • 16.
    Correlação linear simples Diagramade dispersão indica a possibilidade de correlação linear. Coeficiente de correlação linear de Pearson: medir a força e a direção do relacionamento LINEAR entre as duas variáveis:  para dados populacionais; r para dados amostrais.
  • 17.
    Correlação linear simples Equação: r– coeficiente de correlação linear de Pearson; n – número de pares de observações; x – variável independente; y – variável dependente.                                                           2 n 1 i i n 1 i 2 i 2 n 1 i i n 1 i 2 i n 1 i i n 1 i i n 1 i i i y y n x x n y x y x n r
  • 18.
    Correlação linear simples -1  r  +1 r = - 1: correlação linear negativa perfeita (reta decrescente). r = +1: correlação linear positiva perfeita (reta crescente). r = 0: não há correlação LINEAR. • 0,00 < | r | ≤ 0,25 - correlação muito fraca; • 0,25 < | r | ≤ 0,50 – correlação fraca; • 0,50 < | r | ≤ 0,75 – correlação forte; • 0,75 < | r | ≤ 1,00 – correlação muito forte.
  • 19.
    Exemplo 1 Relação entreo número de clientes e as vendas semanais (em milhares de reais) para uma amostra de 20 empresas de remessa de cargas. Empresa Clientes Vendas Empresa Clientes Vendas 1 907 11,2 11 679 7,63 2 926 11,05 12 872 9,43 3 506 6,84 13 924 9,46 4 741 9,21 14 607 7,64 5 789 9,42 15 452 6,92 6 889 10,08 16 729 8,95 7 874 9,45 17 794 9,33 8 510 6,73 18 844 10,23 9 529 7,24 19 1010 11,77 10 420 6,12 20 621 7,41
  • 20.
    Exemplo 0 2 4 6 8 10 12 14 300 400 500600 700 800 900 1000 1100 Número de clientes Vendas
  • 21.
    Exemplo 14623 x 20 1 i i    11 , 176 y 20 1 i i     11306209 20 1 2    i i x   1602,097 y 20 1 i 2 i      134127,9 y x 20 1 i i i     20 n          0,954913 11 , 176 097 , 1602 20 14623 11306209 20 ) 11 , 176 14623 ( 9 , 134127 20 r 2 2           FORTE CORRELAÇÃO LINEAR POSITIVA!
  • 22.
    Exemplo 2 Estamos avaliandoas médias de 15 estudantes no ensino médio, relacionando-as com os índices dos mesmos estudantes no seus cursos universitários. As médias no ensino médio podem variar de 0 a 100, e os índices na universidade de 0 a 4. Construa um diagrama de dispersão e calcule o coeficiente de correlação linear de Pearson para os dados a seguir. Interprete os resultados encontrados.
  • 23.
    Exemplo 2 Nosso primeiropasso é definir qual variável é independente (X) e qual é a dependente (Y). Quem pode ter influenciado quem? É razoável imaginar que a média no ensino médio dos estudantes tenha influenciado de algum modo o índice por eles obtidos na universidade, simplesmente pelo fato de que é preciso cursar o ensino médio antes da universidade.
  • 24.
    Exemplo 2 Assim sendo,X será a média no ensino médio (variável independente) e Y será o índice na universidade (variável dependente). Como será o relacionamento entre estas variáveis? Novamente, o bom senso nos indica que a valores altos de médias no ensino médio devem corresponder índices altos na universidade: esperamos uma correlação positiva.
  • 25.
    Exemplo 2 Construindo odiagrama de dispersão (há várias planilhas eletrônicas e programas estatísticos que podem fazer isso) obtemos:
  • 26.
    Exemplo 2 A correlaçãolinear é forte? Quanto mais os pontos estiverem próximos da reta hipotética ajustada aos dados mais forte será a correlação. No diagrama da figura anterior os pontos estão próximos uns dos outros, estariam a pouca distância de uma reta que passasse entre eles. Concluímos então que a correlação linear deve ser forte, o que resultará em um coeficiente de correlação linear de Pearson próximo de 1.
  • 27.
    Exemplo 2 Vamos calcularo coeficiente, obtendo os somatórios necessários
  • 28.
    Exemplo 2 Sabe-se quen = 15 (há 15 alunos). Confirmando nossas conclusões anteriores, o coeficiente de correlação linear de Pearson teve resultado positivo, e próximo de 1, indicando forte correlação linear positiva entre a média no ensino médio e o índice na universidade ao menos para estes estudantes.
  • 29.
    Exemplo R-COMANDER- ALTURAE PESO Altura Peso 1,87 75,2 1,82 81,2 1,94 85,9 1,69 68,5 1,67 72,1 1,8 77,3 1,78 71,1 1,75 70,5 1,73 65,6 1,71 65,6
  • 30.
    Exemplo R-COMANDER- ALTURAE PESO Gráfico de Dispersão Para verificar o comportamento das variáveis
  • 31.
    Exemplo R-COMANDER- ALTURAE PESO 1.70 1.75 1.80 1.85 1.90 1.95 65 70 75 80 85 Altura Peso
  • 32.
    Exemplo R-COMANDER- ALTURAE PESO Próximo passo, realizar a análise de correlação Pearson's product-moment correlation data: Altura and Peso t = 4.1219, df = 8, p-value = 0.003336 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.4053595 0.9572229 sample estimates: cor 0.8245421 Logo existe correlação entre altura e peso = cor=0.8245421
  • 33.
    1)Verifique se existecorrelação entre as variáveis Velocidade (variável dependente) e Tempo de treinamento diário (min.) (variável independente) – Exercicio_Velocidade 2)Verifique se existe correlação entre : Variável dependente: IMC ; Variável independente: TR (dobra cutânea triciptal); - Exercicio_IMC Exercício