Regressão Linear Simples

Programa de Pós-Graduação em Ciências da Saúde
Disciplina de Bioestatística
Professor: Paulo N Rocha
paulonrocha@ufba.br
Créditos: Bioestatística: Princípios e Aplicações. Sidia M. Callegari-Jacques.

Introdução
 Termo regressão à média: Francis Galton 1886
 estatura dos filhos em relação à dos pais
 Estudo da regressão aplica-se àquelas situações em
que há razões para supor uma relação de causa x
efeito entre duas variáveis quantitativas e se deseja
expressar matematicamente essa relação
 Y = variável dependente (resposta)
 X = variável independente (explicativa ou preditiva)

Diferentes notações
 Livro de Sidia M. Callegari-Jacques
 Y = A + Bx (população)
 Ŷ = a + bx (amostra, estimativa)
 Outros autores
 Y = α + βx (população)
 Ŷ = β0 + βx (amostra, estimativa)
 μY|X = β0 + βx (amostra, estimativa)

Reta que ilustra a equação
y = 10 – 2x
X y
0 10
1 8
2 6
3 4
4 2
5 0
1
B = -2

Gráfico de dispersão
Quantidade
de poluente
(ug/ml)
Escore de dano
ecológico
1 3
2 6
3 7
4 10
5 10
6 12
A regressão linear simples é um procedimento que fornece equações de linhas
retas que descrevem fenômenos em que há uma variável independente apenas

Os pontos experimentais
 É comum haver variação na variável dependente quando
ela é medida para um certo valor da variável
independente
 Pontos obtidos por um experimentador dificilmente se
colocam exatamente em uma linha
 Os desalinhamentos são interpretados como desvios, ao
acaso, do comportamento geral do fenômeno
 É por isso que se pensa em ajustar uma linha reta a
pontos que não estão perfeitamente alinhados
 A reta vai representar o comportamento médio dos
valores de y à medida que x aumenta de valor

Modelo proposto
 Linha reta: Y = A + Bx
 Regressão: Y = A + Bx + ε, onde:
 ε representa a diferença (desvio) entre o valor
observado de y e o esperado pela reta
 A linha reta representa o comportamento
de valores de y médios esperados para
distintos valores de x

Representação gráfica
Note que a variação é a mesma nas 4 subpopulações

Como traçar a reta da
regressão?
 Como obter a melhor reta?
 Mão livre: sujeito a erros de julgamento...
 Método analítico
 Como fazer previsões para y a partir de
valores conhecidos de x?
 Processo gráfico: sujeito a erros
 Equação da regressão

Obtenção da reta de regressão
 Reta de regressão verdadeira: seria obtida
se fossem conhecidos os valores de x e y
para todos os indivíduos da população
 Altura verdadeira da reta: parâmetro A
 Inclinação verdadeira da reta: coeficiente de
regressão B
 O mais comum é estudar a regressão
entre x e y utilizando uma amostra da
população de pontos
 a e b são as estimativas dos parâmetros A e B

Método dos mínimos
quadrados
 Assim chamado porque garante que a reta
obtida é aquela para a qual se tem as
menores distâncias (ao quadrado) entre os
valores observados (y) e a própria reta
b =
SPxy
SQx
=
(x - x)(y- y)å
(x - x)2
ou b =
xy -
x yåå
n
å
x2
å -
( xå )2
n
a = y - bx, onde y e x são as médias para y e x, respectivamente.
ˆy = a+ bx, onde ˆy é o valor esperado de y para cada valor de x.

Determinação das quantidades necessárias
para obtenção dos coeficientes da reta de
regressão
X(μg/ml) Y(dano) XY X2 Y2 Ŷ
1 3 3 1 9 3,72
2 6 12 4 36 5,43
3 7 21 9 49 7,14
4 10 40 16 100 8,86
5 10 50 25 100 10,57
6 12 72 36 144 12,28
Σ 21 48 198 91 438 48,00
b =
xy -
x yåå
n
å
x2
å -
( xå )2
n
=
198-
(21´ 48)
6
91-
(21)2
6
=
30
17,5
=1,71
a = y - bx = (48 / 6)-1,71(21/ 6) = 8-1,71(3,5) = 2,02
ˆy = 2,02+1,71x

Teste de significância da
regressão

Etapas do teste de hipóteses
da regressão
 Elaboração das hipóteses estatísticas
 H0 : B = 0
 HA : B ≠ 0
 Nível de significância
 α = 0,01
 Determinação do valor crítico do teste
 gl = n – 2
 t0,01;4 = 4,604
 Determinação do valor calculado do
teste

Determinação do valor calculado do teste, decisão e conclusão
unidades.1,71aumenteecológico
danooquese-esperapoluente,doconc.nag/L1deacréscimocadaPara
0,01).(xsobreyderegressãoexistequeadmitimosLogo,
zero.serdevenão(B)alpopulacionregressãodeecoeficiento:Conclusão
.0,604,4144,9Como
padrão)-erros9aprox.deézeroebentredistância(a144,9
187,0
71,1
187,00351,0
70
46,2
6
)21(
91)26(
)19871,1()4802,2(438
)(
)2(
abaixoaalternativfórmulaa,
)()2(
)ˆ(
4;01,0
2
2
2
2
2
2

 





























 
  


Hrejeita-sett
t
EP
n
x
xn
xybyay
EP
ou
xxn
yy
EP
EP
b
EP
Bb
t
calc
calc
b
b
b
bb
calc

y = 8
Desvio explicado
(ŷi – y)
Desvio não-explicado
(yi – ŷi)
Desvio total
(yi – y)

Desvio total = (yi – y)
Desvio explicado = (ŷi – y)
Desvio não explicado = (yi – ŷi)
Créditos: Neto, AS

 (yi – y)2 =  (ŷi – y)2 +  (yi – ŷi)2
Soma total
dos
quadrados
SST = SSR + SSE
Se medirmos estes desvios para
cada yi e ŷi , elevarmos ao
quadrado cada desvio, e
somarmos os desvios
quadrados, teremos
Soma dos
quadrados
explicada
Soma dos
quadrados não
explicada
Créditos: Neto, AS

SSR
k MSR
F = =
SSE MSE
n – k – 1
Teste estatístico
Créditos: Neto, AS

Fonte de
variação
SS GL MS F
Regressão
linear
SSR k MSR=SSR/k MSR/MSE
Residual SSE n-k-1 MSE=SSE/n-k-1
Total SST n-1
Tabela de análise de
variância
Créditos: Neto, AS

COEFICIENTE DE
DETERMINAÇÃO
SSR
SST
 (ŷi – y) 2
 (yi – y) 2
r 2 = =
Créditos: Neto, AS

Utilidades da reta de regressão
 Representar a dependência de uma
variável quantitativa em relação à outra por
meio de uma equação simples
 Prever valores para a variável dependente
y de acordo com valores determinados
(inclusive não-observados) da variável
independente x.

Pressupostos da regressão
linear
1. A variável y deve ter distribuição normal (ou
aproximadamente normal)
2. Homocedasticidade (a variação de y deve ser a
mesma para cada valor de x)
3. Os pontos no gráfico devem representar uma
tendência linear
4. Amostragem independente e aleatória
5. Variável x medida sem erro

Análise de resíduos
 Os resíduos representam a diferença entre aquilo que foi
observado e o que foi predito pelo modelo de regressão.
 Resíduo = E = (y - ˆy)
 Calculam-se os resíduos para cada valor de y
 Desenha-se um gráfico no qual os resíduos são
colocados no eixo vertical e os valores esperados de y
(ˆy), no horizontal.
 Os pontos devem se distribuir de forma equilibrada acima
e abaixo da linha imaginária paralela ao eixo x na altura
do resíduo zero, formando uma faixa aproximadamente
retangular

Residual versus Predicted (RVP)
Plot

Gráficos de resíduos
Faixas em forma de curva
Violação ao pressuposto #2
Não existe homocedasticidade
Faixas curvas
Violação ao pressuposto #3
A reta não é o modelo adequado

Regressão Linear Simples

Mais conteúdo relacionado

Mais procurados

Semelhante a Regressão Linear Simples

Mais de Federal University of Bahia

Regressão Linear Simples