CORRELAÇÃO E
REGRESSÃO LINEAR
CORRELAÇÃO E REGRESSÃO
São duas técnicas estreitamente relacionadas, que
visa estimar uma relação que possa existir entre duas
variáveis na população.
Correlação: resume o grau de relacionamento entre
duas variáveis (X e Y, por exemplo).
Regressão: tem como resultado uma equação
matemática que descreve o relacionamento entre
variáveis.
CORRELAÇÃO LINEAR
Permite verificar se duas variáveis independentes estão
associadas uma com a outra (CAUSA X EFEITO).
Por exemplo:
§ Horas extras x defeitos de produção
§ Preço de um produto x aumento da oferta
§ Variação cambial x custo de material
§ Preço combustivel x preço frete
§ Horas de treinamento x eficiência
§ Horas extras x acidentes de trabalhos
§ Satisfação do cliente x vendas
§ Ansiedade x frequência de comportamentos compulsivos
§ Pressão arterial x risco de doenças cardiovasculares
CORRELAÇÃO LINEAR
Um diagrama de dispersão mostra a relação entre duas
variáveis quantitativas, medidas sobre os mesmos indivíduos.
Os valores de uma variável aparecem no eixo horizontal, e os da
outra, no eixo vertical.
Cada indivíduo aparece como o ponto do gráfico definido pelos
valores de ambas as variáveis para aquele indivíduo.
Duas variáveis estão relacionadas se a mudança de uma
provoca a mudança na outra.
• Ex.: Preço e Demanda.
A Correlação linear pode ser classificada como: positiva (forte
ou fraca), negativa (forte ou fraca) e nula
CORRELAÇÃO POSITIVA
Quando há uma aglomeração dos pontos em tendência
crescente, significa que conforme uma variável
aumenta, a outra variável também aumenta.
Exemplo: relação entre temperatura e número de
sorvetes vendidos.
CORRELAÇÃO NEGATIVA
É quando há uma clara aglomeração dos pontos em
tendência decrescente nos dados, significa que
conforme uma variável aumenta, a outra variável
diminui.
Exemplo: quanto mais pessoas vacinadas contra o
vírus da gripe, menor a taxa de pessoas infectadas.
CORRELAÇÃO NULA
Ocorre quando os pontos não seguem uma tendência positiva
nem negativa, há uma dispersão entre os pontos. Isso significa
que não há correlação aparente entre as variáveis.
Exemplo: a relação entre a idade dos colaboradores e suas
metas de vendas. Pode ser que não haja um padrão aí, o que
demonstra que a idade não influencia na capacidade de um
vendedor.
COEFICIENTE DE CORRELAÇÃO LINEAR
Uma medida do grau e do sinal da correlação linear entre duas
variáveis (X,Y) é dado pelo Coeficiente de Correlação Linear de
Pearson, definido por:
� = �=1
�
(�� − �)(�� − �)
�=1
�
(�� − �)2
�=1
�
(�� − �)2
onde � e � são as médias amostrais e � é o tamanho da
amostra.
COEFICIENTE DE CORRELAÇÃO LINEAR
Um guia prático comumente utilizado para interpretar o
coeficiente de correlação de Pearson é o que se segue:
0,9 ≤ � ≤ 1 indica correlação positiva muito forte
0,7 ≤ � < 0,9 indica correlação positiva forte
0,5 ≤ � < 0,7 indica correlação positiva moderada
0,3 ≤ � < 0,5 indica correlação positiva fraca
−0,3 ≤ � ≤ 0,3 indica correlação desprezível ou nula
−0,3 ≤ � <− 0,5 indica correlação negativa fraca
−0,5 ≤ � <− 0,7 indica correlação negativa moderada
−0,7 ≤ � <− 0,9 indica correlação negativa forte
−0,9 ≤ � ≤− 1 indica correlação negativa muito forte
COEFICIENTE DE CORRELAÇÃO LINEAR
Propriedades:
§ -1 ≤ r ≤ +1
§ O valor de r não varia se todos os valores de qualquer
uma das variáveis são convertidos para uma escala
diferente.
§ O valor de r não é afetado pela escolha de x ou y.
Permutando x e y, r permanece inalterado.
§ r só mede a intensidade ou grau de relacionamentos
lineares. Não serve para medir intensidade de
relacionamentos não-lineares.
EXEMPLO
A tabela a seguir apresenta as notas de dois alunos.
Calcule o coeficiente de correlação linear entre eles.
EXEMPLO
Calculando as médias: � =
(6,50 + 7,50 + 8,00 + 8,50 + 9,50)
5
=
8 e � =
(7,00 + 8,00 + 8,00 + 9,00 + 10,00)
5
= 8,4
EXEMPLO
Assim,
Logo, � = �=1
�
(�� − �)(�� − �)
�=1
�
(�� − �)2
�=1
�
(�� − �)2
=
5
5∗5,2
=
5
26
=
5
5,1
=
0,98
REGRESSÃO LINEAR
q A Regressão Linear Simples busca explicar a relação de
uma variável (dependente – Y) com outra variável
(independente – X) através da equação de uma reta.
q Nenhuma reta passará exatamente por todos os pontos (se
a correlação não for máxima)
q Precisamos encontrar uma reta que esteja tão próxima dos
pontos quanto possível
q Os erros de predição para a reta são erros em y (direção
vertical)
REGRESSÃO LINEAR
Dada uma coleção de dados amostrais emparelhados, a
seguinte equação de regressão descreve a relação entre as
duas variáveis (x,y):
� = � + ��
onde � (intercepto) e � (coeficiente angular) é:
� =
� ���� − �� ��
� ��
2
− ( ��)2
� =
�� − � ��
�
O gráfico da equação é chamado reta de regressão (ou reta de
melhor ajuste, ou reta de mínimos quadrados)
EXEMPLO
Considere um experimento em que se analisa a octanagem da
gasolina (Y) em função da adição de um aditivo (X). Para isto,
foram realizados ensaios com os percentuais de 1, 2, 3, 4, 5 e
6% de aditivo. Os resultados seguem.
EXEMPLO
Calculando a equação de regressão...
� =
� ���� − �� ��
� ��
2
− ( ��)2
=
6 ∗ 1754,3 − 21 ∗ 496,8
6 ∗ 91 − (21)2 =
93
105
= 0,886
� =
�� − � ��
=
496,8 − 0,886 ∗ 21
= 79,7
EXEMPLO
Portanto,
� = 79,7 + 0,886�
EXERCÍCIOS
1. Existe correlação entre o número de faltas e a nota
final? De que forma?
EXERCÍCIOS
2. A quantidade de procaína hidrolisada, em 10 moles/litro, no plasma
humano, em função do tempo decorrido após sua administração.
a) Existe uma relação linear entre a quantidade de procaína e o tempo
decorrido após sua administração? Qual o grau dessa relação?
b) Determine a reta de regressão que explica a quantidade de procaína
em função do tempo.
c) Qual a quantidade de procaína hidrolisada após 6 minutos de sua
administração? E após 13 minutos?
EXERCÍCIOS
3. Para verificar se existe relação linear entre umidade relativa
(UR) do ar de secagem de sementes e a germinação das mesmas,
um pesquisador realizou um experimento com 4 valores diferentes
para a %UR do ar, obtendo-se os seguintes dados (dados
hipotéticos)
a) Existe uma relação linear entre umidade relativa (UR) do ar de
secagem de sementes e a germinação das mesmas? Qual o grau
dessa relação?
b) Encontre a equação da reta de regressão linear que explica a
porcentagem de germinação em função da umidade relativa (UR)
do ar.
c) Qual seria a (%) de germinação esperada quando UR = 45%?
EXERCÍCIOS
4. Foi realizado uma análise de regressão para investigar a existência de
relação linear simples entre a temperatura superficial de uma estrada (X)
medida em graus F e a deformação da pavimentação (Y) medida segundo
uma técnica especial. Baseado nas seguintes informações pede-se:
a) Calcule as estimativas dos parâmetros da regressão. Apresente a equação
de regressão linear;
b) Use a equação para estimar qual deformação haveria na pavimentação
quando a temperatura superficial fosse de 85°F.
c) Qual seria a mudança esperada na deformação da pavimentação para
uma mudança de 1°F na temperatura superficial?
d) Suponha que a temperatura seja medida em graus C ao invés de graus F.
Qual seria a nova equação de regressão? Lembre-se: C = 5(F – 32)/9.
e) Qual seria a mudança esperada na deformação da pavimentação para
uma mudança de 1°C na temperatura superficial?
EXERCÍCIOS
5. Uma pesquisa foi realizada com o objetivo de verificar se existe
associação entre a falta de sono e a capacidade de as pessoas
resolverem problemas simples. Foram testadas 10 pessoas, mantendo-
se sem dormir por um determinado número de horas. Após cada um
destes períodos, cada pessoa teve de resolver um teste com adições
simples, anotando-se então os erros cometidos. Os dados resultantes
são os seguintes:
a) Existe uma relação linear entre a falta de sono e a capacidade de as
pessoas resolverem problemas simples? Qual o grau dessa relação?
b) Encontre a equação da reta de regressão linear para os dados acima.

ESTATÍSTICA - REGRESSÃO E CORRELAÇÃO.pdf

  • 1.
  • 2.
    CORRELAÇÃO E REGRESSÃO Sãoduas técnicas estreitamente relacionadas, que visa estimar uma relação que possa existir entre duas variáveis na população. Correlação: resume o grau de relacionamento entre duas variáveis (X e Y, por exemplo). Regressão: tem como resultado uma equação matemática que descreve o relacionamento entre variáveis.
  • 3.
    CORRELAÇÃO LINEAR Permite verificarse duas variáveis independentes estão associadas uma com a outra (CAUSA X EFEITO). Por exemplo: § Horas extras x defeitos de produção § Preço de um produto x aumento da oferta § Variação cambial x custo de material § Preço combustivel x preço frete § Horas de treinamento x eficiência § Horas extras x acidentes de trabalhos § Satisfação do cliente x vendas § Ansiedade x frequência de comportamentos compulsivos § Pressão arterial x risco de doenças cardiovasculares
  • 4.
    CORRELAÇÃO LINEAR Um diagramade dispersão mostra a relação entre duas variáveis quantitativas, medidas sobre os mesmos indivíduos. Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo vertical. Cada indivíduo aparece como o ponto do gráfico definido pelos valores de ambas as variáveis para aquele indivíduo. Duas variáveis estão relacionadas se a mudança de uma provoca a mudança na outra. • Ex.: Preço e Demanda. A Correlação linear pode ser classificada como: positiva (forte ou fraca), negativa (forte ou fraca) e nula
  • 5.
    CORRELAÇÃO POSITIVA Quando háuma aglomeração dos pontos em tendência crescente, significa que conforme uma variável aumenta, a outra variável também aumenta. Exemplo: relação entre temperatura e número de sorvetes vendidos.
  • 6.
    CORRELAÇÃO NEGATIVA É quandohá uma clara aglomeração dos pontos em tendência decrescente nos dados, significa que conforme uma variável aumenta, a outra variável diminui. Exemplo: quanto mais pessoas vacinadas contra o vírus da gripe, menor a taxa de pessoas infectadas.
  • 7.
    CORRELAÇÃO NULA Ocorre quandoos pontos não seguem uma tendência positiva nem negativa, há uma dispersão entre os pontos. Isso significa que não há correlação aparente entre as variáveis. Exemplo: a relação entre a idade dos colaboradores e suas metas de vendas. Pode ser que não haja um padrão aí, o que demonstra que a idade não influencia na capacidade de um vendedor.
  • 8.
    COEFICIENTE DE CORRELAÇÃOLINEAR Uma medida do grau e do sinal da correlação linear entre duas variáveis (X,Y) é dado pelo Coeficiente de Correlação Linear de Pearson, definido por: � = �=1 � (�� − �)(�� − �) �=1 � (�� − �)2 �=1 � (�� − �)2 onde � e � são as médias amostrais e � é o tamanho da amostra.
  • 9.
    COEFICIENTE DE CORRELAÇÃOLINEAR Um guia prático comumente utilizado para interpretar o coeficiente de correlação de Pearson é o que se segue: 0,9 ≤ � ≤ 1 indica correlação positiva muito forte 0,7 ≤ � < 0,9 indica correlação positiva forte 0,5 ≤ � < 0,7 indica correlação positiva moderada 0,3 ≤ � < 0,5 indica correlação positiva fraca −0,3 ≤ � ≤ 0,3 indica correlação desprezível ou nula −0,3 ≤ � <− 0,5 indica correlação negativa fraca −0,5 ≤ � <− 0,7 indica correlação negativa moderada −0,7 ≤ � <− 0,9 indica correlação negativa forte −0,9 ≤ � ≤− 1 indica correlação negativa muito forte
  • 10.
    COEFICIENTE DE CORRELAÇÃOLINEAR Propriedades: § -1 ≤ r ≤ +1 § O valor de r não varia se todos os valores de qualquer uma das variáveis são convertidos para uma escala diferente. § O valor de r não é afetado pela escolha de x ou y. Permutando x e y, r permanece inalterado. § r só mede a intensidade ou grau de relacionamentos lineares. Não serve para medir intensidade de relacionamentos não-lineares.
  • 11.
    EXEMPLO A tabela aseguir apresenta as notas de dois alunos. Calcule o coeficiente de correlação linear entre eles.
  • 12.
    EXEMPLO Calculando as médias:� = (6,50 + 7,50 + 8,00 + 8,50 + 9,50) 5 = 8 e � = (7,00 + 8,00 + 8,00 + 9,00 + 10,00) 5 = 8,4
  • 13.
    EXEMPLO Assim, Logo, � =�=1 � (�� − �)(�� − �) �=1 � (�� − �)2 �=1 � (�� − �)2 = 5 5∗5,2 = 5 26 = 5 5,1 = 0,98
  • 14.
    REGRESSÃO LINEAR q ARegressão Linear Simples busca explicar a relação de uma variável (dependente – Y) com outra variável (independente – X) através da equação de uma reta. q Nenhuma reta passará exatamente por todos os pontos (se a correlação não for máxima) q Precisamos encontrar uma reta que esteja tão próxima dos pontos quanto possível q Os erros de predição para a reta são erros em y (direção vertical)
  • 15.
    REGRESSÃO LINEAR Dada umacoleção de dados amostrais emparelhados, a seguinte equação de regressão descreve a relação entre as duas variáveis (x,y): � = � + �� onde � (intercepto) e � (coeficiente angular) é: � = � ���� − �� �� � �� 2 − ( ��)2 � = �� − � �� � O gráfico da equação é chamado reta de regressão (ou reta de melhor ajuste, ou reta de mínimos quadrados)
  • 16.
    EXEMPLO Considere um experimentoem que se analisa a octanagem da gasolina (Y) em função da adição de um aditivo (X). Para isto, foram realizados ensaios com os percentuais de 1, 2, 3, 4, 5 e 6% de aditivo. Os resultados seguem.
  • 17.
    EXEMPLO Calculando a equaçãode regressão... � = � ���� − �� �� � �� 2 − ( ��)2 = 6 ∗ 1754,3 − 21 ∗ 496,8 6 ∗ 91 − (21)2 = 93 105 = 0,886 � = �� − � �� = 496,8 − 0,886 ∗ 21 = 79,7
  • 18.
  • 19.
    EXERCÍCIOS 1. Existe correlaçãoentre o número de faltas e a nota final? De que forma?
  • 20.
    EXERCÍCIOS 2. A quantidadede procaína hidrolisada, em 10 moles/litro, no plasma humano, em função do tempo decorrido após sua administração. a) Existe uma relação linear entre a quantidade de procaína e o tempo decorrido após sua administração? Qual o grau dessa relação? b) Determine a reta de regressão que explica a quantidade de procaína em função do tempo. c) Qual a quantidade de procaína hidrolisada após 6 minutos de sua administração? E após 13 minutos?
  • 21.
    EXERCÍCIOS 3. Para verificarse existe relação linear entre umidade relativa (UR) do ar de secagem de sementes e a germinação das mesmas, um pesquisador realizou um experimento com 4 valores diferentes para a %UR do ar, obtendo-se os seguintes dados (dados hipotéticos) a) Existe uma relação linear entre umidade relativa (UR) do ar de secagem de sementes e a germinação das mesmas? Qual o grau dessa relação? b) Encontre a equação da reta de regressão linear que explica a porcentagem de germinação em função da umidade relativa (UR) do ar. c) Qual seria a (%) de germinação esperada quando UR = 45%?
  • 22.
    EXERCÍCIOS 4. Foi realizadouma análise de regressão para investigar a existência de relação linear simples entre a temperatura superficial de uma estrada (X) medida em graus F e a deformação da pavimentação (Y) medida segundo uma técnica especial. Baseado nas seguintes informações pede-se: a) Calcule as estimativas dos parâmetros da regressão. Apresente a equação de regressão linear; b) Use a equação para estimar qual deformação haveria na pavimentação quando a temperatura superficial fosse de 85°F. c) Qual seria a mudança esperada na deformação da pavimentação para uma mudança de 1°F na temperatura superficial? d) Suponha que a temperatura seja medida em graus C ao invés de graus F. Qual seria a nova equação de regressão? Lembre-se: C = 5(F – 32)/9. e) Qual seria a mudança esperada na deformação da pavimentação para uma mudança de 1°C na temperatura superficial?
  • 23.
    EXERCÍCIOS 5. Uma pesquisafoi realizada com o objetivo de verificar se existe associação entre a falta de sono e a capacidade de as pessoas resolverem problemas simples. Foram testadas 10 pessoas, mantendo- se sem dormir por um determinado número de horas. Após cada um destes períodos, cada pessoa teve de resolver um teste com adições simples, anotando-se então os erros cometidos. Os dados resultantes são os seguintes: a) Existe uma relação linear entre a falta de sono e a capacidade de as pessoas resolverem problemas simples? Qual o grau dessa relação? b) Encontre a equação da reta de regressão linear para os dados acima.