1. O documento discute regressão linear e correlação linear, com o objetivo de prever uma variável dependente (Y) a partir de uma ou mais variáveis independentes (X).
2. A regressão linear simples usa uma única variável X para prever Y, enquanto a regressão linear múltipla usa múltiplas variáveis X.
3. A correlação de Pearson mede o grau de relacionamento entre variáveis X e Y, usando o coeficiente de correlação r, que varia de -1 a 1 indicando uma relação negativa ou positiva.
1. PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL
FACULDADE DE MATEMÁTICA – DEPTº DE ESTATÍSTICA
DISCIPLINA: ESTATÍSITCA APLICADA Á ADM II
ANÁLISE DE REGRESÃO LINEAR E CORRELAÇÃO LINEAR
REGRESSÃO LINEAR
1. Objetivos e hipóteses da Análise de Regressão
O objetivo principal da análise de regressão é predizer o valor da variável
dependente Y dado que seja conhecido o valor da variável independente X.
A equação de regressão é a fórmula algébrica pela qual se determina Y.
A Análise de Regressão Simples diz respeito à predição de Y por uma única
variável X.
A Análise de Regressão Múltipla diz respeito à predição de Y por mais de uma
variável X ( x1, x2, ....).
As hipóteses gerais são:
1. Y é uma variável aleatória obtida de uma amostra;
2. Y e X estão associadas linearmente;
3. homocedasticidade – as variâncias das distribuições condicionais de Y dado X são todas
iguais.
Se em conjunto com a análise de regressão, utiliza-se a estimação por
intervalo, é necessária a hipótese de que as distribuições condicionais de Y dado X são
todas distribuídas normalmente para os valores da população.
2. Diagrama de dispersão
É um gráfico no qual cada ponto representa um par de valores (x;y). Os
valores de X são colocados no eixo horizontal e Y no vertical.
Transformação Linear – se a relação ente X e Y for curvilínea, usa-se logaritmos para
transforma-la em linear e aplicar a Análise de Regessão Linear. Para voltar à escala original
usa-se o antilogarítmo.
Se o diagrama indica uma relação linear, então ajusta-se aos dados uma linha
que seja a melhor função ajustante.
A localização precisa desta linha é determinada pelo Método dos Mínimos
Quadrados (MMQ).
Exemplos de diagramas de dispersão:
2. 3. Método dos Mínimos Quadrados (MMQ)
A fórmula geral na população é
uxY ++= βα
onde
=α coeficiente linear ou intercepto-Y;
=β coeficiente angular;
u = variações aleatórias.
A fórmula geral na amostra é
bxaYˆ +=
onde a= estimador do coeficiente linear;
b= estimador do coeficiente angular;
Pelo MMQ, a reta resultante tem duas características importantes:
1. A soma dos desvios verticais dos pontos em relação a reta é zero.
2. A soma dos quadrados desses desvios é mínima.
As fórmulas de cálculo para a e b são:
( )
( )
n
y
ysyy
n
x
xsxx
n
y.x
xysxy
x.bya
sxx
sxy
b
2
2
2
2
∑
∑
∑
∑
∑ ∑
∑
−=
−=
−=
−=
=
A estimação de Y deve ser feita apenas dentro do intervalo de variação de X originalmente
amostrado. A equação fornece a base de uma estimativa por ponto.
3. CORRELAÇÃO LINEAR DE PEARSON
1.Objetivos e Hipóteses
A análise de correlação mede o grau de relacionamento entre as variáveis.
Estudaremos a Análise de Correlação Simples, a qual diz respeito à medida entre X e Y.
Hipóteses:
a. a relação entre X e Y é linear;
b. ambas são variáveis aleatórias;
c. homocedasticidade;
d. as distribuições condicionais de Y dado X têm distribuição Normal;
e. as duas distribuições, de X e de Y, têm distribuição Normal na população.
2.O coeficiente de Determinação
2
ρ - coeficiente de determinação na população
r2 - coeficiente de determinação na amostra
O coeficiente de determinação para a amostra é:
Amostra:
∑
∑ ∑
−
−+
= 22
2
2
)(
)(
yny
ynxybya
r
Tem uma leve tendenciosidade positiva.
Interpretação: é a proporção da variância de Y explicada pelo conhecimento da
variação de X ( e vice-versa).
3. O coeficiente de correlação
Muito embora o coeficiente de determinação seja relativamente fácil de
interpretar, ele não pode ser testado estatisticamente. Contudo, a raiz quadrada do
coeficiente de determinação, que é o coeficiente de correlação (r), pode ser testada
estatisticamente, pois está incluída em uma estatística de teste que é distribuída
segundo uma distribuição t, quando a correlação populacional ρ =0.
Além disso, o sinal aritmético associado com o coeficiente de correlação, que é
sempre o mesmo sinal associado com β na equação de regressão, indica a direção da
relação X e Y (positivo=direta; negativo=inversa). Por tais razões o coeficiente de
correlação é mais freqüentemente usado como medida de relação entre as variáveis.
O coeficiente de correlação para dados populacionais é:
População:
2
ρρ =
O coeficiente de correlação para dados amostrais é:
4. Amostra:
2
rr =
Pode-se elevar o coeficiente de correlação ao quadrado para se obter o coeficiente
de determinação.
Fórmula Alternativa para o coeficiente de correlação amostral,
syy.sxx
sxy
r =
que não requer o conhecimento dos coeficientes a e b da equação de regressão. O
sinal do coeficiente é obtido diretamente, sem necessidade de observar ou calcular a
declividade da linha de regressão.
O coeficiente amostral de correlação r tem uma leve tendenciosidade como um
estimador de ρ .
4. Significância do coeficiente de correlação
Hipóteses:
0:
0:
1
0
≠
=
ρ
ρ
H
H
ou
0:
0:
1
0
<
≥
ρ
ρ
H
H
ou
0:
0:
1
0
>
≤
ρ
ρ
H
H
Se a hipótese nula, ao nível de significância α , for rejeitada podemos concluir que
efetivamente existe uma relação entre as variáveis.
A estatística de teste é
2
1
2
r
nr
tc
−
−
=
com n-2 graus de liberdade na tabela t