SlideShare uma empresa Scribd logo
Análise de Regressão
Notas de Aula
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo
Estatística Aplicada
2
Modelos de Regressão
Modelos de regressão são modelos matemáticos que relacionam o comportamento de uma
variável Y com outra X. Quando a função f que relaciona duas variáveis é do tipo f (X) = a + b X
temos o modelo de regressão simples. A variável X é a variável independente da equação
enquanto Y = f (X) é a variável dependente das variações de X. O modelo de regressão é
chamado de simples quando envolve uma relação causal entre duas variáveis. O modelo de
regressão é multivado quando envolve uma relação causal com mais de duas variáveis. Isto é,
quando o comportamento de Y é explicado por mais de uma variável independe X1, X2, ....Xn.
Os modelos acima (simples ou multivariados) simulam relacionamentos entre as variáveis. Esse
relacionamento poderá ser do tipo linear (equação da reta ou do plano) ou não linear (equação
exponencial, geométrica, etc.). A análise de regressão compreende, portanto quatro tipos básicos
de modelos;
- linear simples;
- linear multivariado;
- não linear simples;
- não linear multivariado.
Para que serve determinar a relação entre duas variáveis?
1 - Para realizar previsões sobre o comportamento futuro de algum fenômeno da realidade. Neste
caso extrapola-se para o futuro as relações de causa-efeito – já observadas no passado – entre as
variáveis. Pode-se, por exemplo, prever a população futura de uma cidade simulando a
tendência de crescimento da população no passado.
2 - Pesquisadores interessados em simular os efeitos sobre uma variável Y em decorrência de
alterações introduzidas nos valores de uma variável X também usam este modelo. Por exemplo:
de que modo a produtividade (Y) de uma área agrícola é alterada quando se aplica certa
quantidade (X) de fertilizante sobre a terra. No exemplo acima o pesquisador seleciona “n”
pedaços de terra x1, x2, x3,....xn, aos quais são aplicadas quantidades definidas de fertilizante. Em
seguida, medem-se as quantidades colhidas em cada pedaço de terra y1, y2, y3, ....yn, obtendo
assim pares de valores (x1,y1) (x2,y2), ......(xn, yn) que podem ser plotados em um gráfico
cartesiano chamado de diagrama de dispersão.
Diagrama de Dispersão
Ao se plotar num gráfico cartesiano os pares de informação referente a cada observação obtemos
uma “nuvem” de pontos definidos pelas coordenadas x e y de cada ponto. Essa nuvem, por sua
vez, definirá um eixo ou direção que caracterizará o padrão de relacionamento entre X e Y. A
regressão será linear se observada uma tendência ou eixo linear na nuvem de pontos cartesianos.
A relação entre as variáveis será direta (ou positiva) quando os valores de Y aumentarem em
decorrência da elevação dos valores de X . Será inversa (ou negativa) quando os valores de Y
variarem inversamente em relação aos de X. A figura 1 mostra o diagrama de dispersão
referente as variáveis X e Y. O diagrama mostra uma relação direta entre as variáveis, ou seja: o
crescimento de Y está diretamente ligado ao crescimento de X.
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo
Estatística Aplicada
3
Figura 1
x y
____________
30 430
21 335
35 520
42 490
37 470
20 210
8 195
17 270
35 400
25 480
Modelos de Regressão Linear
Regressão é o processo matemático pelo qual derivamos os parâmetros “a” e “b” de uma função
f (X). Estes parâmetros determinam as características da função que relaciona ‘Y’ com ‘X’que
no caso do modelo linear se representa por uma reta chamada de reta de regressão. Esta reta
explica de forma geral e teoricamente a relação entre X e Y. Isto significa que os valores
observados de X e Y nem sempre serão iguais aos valores de X’e Y’ estimados pela reta de
regressão. Haverá sempre alguma diferença, e essa diferença significa;
(1) que as variações de Y não são perfeitamente explicadas pelas variações de X ou;
(2) que existem outras variáveis das quais Y depende ou;
(3) que os valores de X e Y são obtidos de uma amostra específica que apresenta distorções em
relação a realidade.
Esta diferença em estatística é chamada de erro ou desvio.
O processo de regressão significa, portanto, que os pontos plotados no gráfico são definidos,
modelados ou regredidos, a uma reta que corresponde à menor distância possível entre cada
ponto plotado e a reta. Em outras palavras, busca-se reduzir ao mínimo possível os somatórios
dos desvios entre Y e Y’. Veja a figura 2 abaixo.
Y = α + β X equação da reta a partir dos dados coletados
Y’ = a + b X’ equação da reta a partir das estimativas
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo
Estatística Aplicada
4
Figura 2
x y x.y x
2
Projeção
30 430 12.900 900 409,21
21 335 7.035 441 321,57
35 520 18.200 1.225 457,91
42 490 20.580 1.764 526,07
37 470 17.390 1.369 477,38
20 210 4.200 400 311,83
8 195 1.560 64 194,98
17 270 4.590 289 282,62
35 400 14.000 1.225 457,91
25 480 12.000 625 360,52
Somas 270 3.800 112.455 8.302
b = 9,7381
a = 117,0702 Y = 117,07 + 9,74 x
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo
Estatística Aplicada
5
Método dos Mínimos Quadrados
É o método de computação matemática pelo qual se define a curva de regressão. Esse método
definirá uma reta que minimizará a soma das distâncias ao quadrado entre os pontos plotados (X,
Y) e a reta (X’,Y’). Pelo método dos mínimos quadrados calculam-se os parâmetros “a“ e “b” da
reta que minimiza estas distâncias ou as diferenças (ou o erro) entre Y e Y’. Esta reta é chamada
de curva de regressão.
(1) Erro = E = (Y- Y’) Diferença entre o valor levantado Y (na amostra) e
o estimado Y’(pela reta de regressão)
(2) E1
2
+ E2
2
+ E3
2
+ ..... + En
2
= Mínimo Objetivo do modelo de regressão
(3) Erro Total = Σ (Y-Y’) 2
Hipótese de trabalho
(4) Y’ = a + bX Equação da reta de regressão que minimiza o erro
Substituindo (4) em (3)
(5) Σ (Y- a - bX) 2
Para que a soma dos quadrados dos erros tenha um valor mínimo, devem-se aplicar os conceitos
de cálculo diferencial com derivadas parciais. Como as incógnitas do problema são os
coeficientes "a" e "b" estrutura-se um sistema de duas equações. Assim aplicando os conceitos
acima referidos monta-se o sistema de equações normais que permitirá extrair os valores de a e
b,
∂ e
------ = - 2 Σ (Y- a - bX)
∂ a
- 2 Σ Y + 2 Σ a + 2 Σ bX
Σ Y = Σ a + Σ bX
(6) Σ Y = Na + b Σ X Equação Normal
Σ Y + b Σ X
(7) a = ------------------ N – tamanho da amostra
N
(8) Σ XY = a Σ X + b Σ X2
Equação Normal
N Σ XY - Σ X.Σ Y
(9) b = ---------------------------
a Σ X2
- ﴾ Σ X﴿2
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo
Estatística Aplicada
6
Os valores a e b acima correspondem aos parâmetros da equação de regressão que minimiza as
diferenças entre os valores de Y (levantados) e os de Y’ (estimados pela regressão). Portanto, o
problema de “fitting” (ajustar) uma reta que melhor se adeque à nuvem de dados se reduz em
calcular os parâmetros a e b da equação de regressão.
GRAU DE UTILIDADE DA RETA DE REGRESSÃO
A reta de regressão que se obtém através do método dos mínimos quadrados é apenas uma
aproximação da realidade, ela é um modo útil para indicar a tendência dos dados. Mas até que
ponto a reta de regressão obtida é útil para avaliar a realidade? Duas medidas podem indicar o
quanto útil ou aproximado da realidade é a reta:
▪ erro padrão da estimativa;
▪ coeficiente de determinação
Erro Padrão da Estimativa
O erro padrão da estimativa Se mede o desvio médio entre os valores reais de Y e os valores
estimados Y’. Ele informa de modo aproximado a extensão do erro entre os valores obtidos das
estimativas e os valores de Y fornecidos pela amostra. Se é medido na unidade de Y. O que se
busca é conseguir o menor valor possível de Se.
Pode-se interpretar o Se como um desvio padrão dos resíduos, pois assumindo que estes resíduos
são "normalmente distribuídos", pode-se dizer então que 68% dos pontos (plotados) encontram-
se dentro de 1 desvio padrão:
-1 ≤ Se ≥ 1;
e que 95% dos pontos encontram-se dentro de 2 desvios padrão:
-2 ≤ Se ≥ 2.
Sendo os desvios normalmente distribuídos a fórmula de Se é obtida da definição da variância da
amostra Se
2
, com n-2 graus de liberdade:
Σ (Y – Y’)2
Se
2
= ----------------------- =
N - 2
Σ (Y – Y’)2
Se = N – 2
Ao se ajustar a reta se espera que ela explique o conjunto de dados coletados. Se os dados
estivem todos contidos numa reta teremos uma reta de regressão coincidente com os dados
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo
Estatística Aplicada
7
levantados. Nesse caso a somatória dos desvios ao quadrado será zero e, o ajuste da reta será
completo. A reta de regressão explica perfeitamente a relação entre X e Y.
O erro padrão existirá sempre que o poder de explicação da reta não for completo. O valor do
erro significa então que existem outros fatores que interferem no comportamento de Y além da
variável X.
Coeficiente de Determinação
Ao se analisar a reta de regressão observamos que os pontos (xi, yi) estão distribuídos acima e
abaixo da mesma. Na Figura 3 relacionamos cada ponto (Y), com o seu valor estimado (Y’ - a
reta de regressão) e com o valor médio de Y (Y* -reta paralela ao eixo X). Como podemos
observar a diferença entre o valor de Y e o valor de Y* (valor médio de Y) é o desvio total do
ponto em relação a sua média.
A soma dos desvios ao quadrado de todos os pontos em relação a média de Y é chamada de
Variação Total. Isto é:
Σ (Y – Y*)2
A diferença entre o valor de um ponto Y (xi, yi) e seu valor estimado Y' (xi’,yi’) isto é a
distancia entre o ponto Y e a reta de regressão, é chamada de Variação Não Explicada pela reta
de regressão. Isto é:
Σ (Y – Y’)2
Já a diferença entre o valor Y’ (estimativa de Y) situado sobre a reta de regressão e o valor
médio de Y* (situado sobre a reta paralela ao eixo x) é conhecida como Variação Explicada
pela reta de regressão. Isto é:
Σ (Y’ – Y*)2
Conforme mostra a Figura 3,
Variação Total = Variação Explicada + Variação não Explicada
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo
Estatística Aplicada
8
Figura 3
yi Y
Variação não Explicada
Y’
yi’
Variação Explicada
Y*
y*
Y’= a+ bX’
xi
Conclui-se que:
Σ (Y – Y*)2
= Σ (Y – Y’)2
+ Σ (Y’ – Y*)2
O Coeficiente de Determinação r2
é Definido pela seguinte relação:
Σ (Y’ – Y*)2
Variação Explicada
Σ (Y – Y*)2
= _______________________
= r2
=
Σ (Y – Y*)2
Variação Total
CÁLCULO DO COEFICIENTE DE DETERMINAÇÃO
Variação
x y Projeção Explicada Não explicada Total
30 430 409,21 853,48 432,04 2.500
21 335 321,57 3.413,93 180,33 2.025
35 520 457,91 6.069,21 3.855,77 19.600
42 490 526,07 21.337,07 1.301,20 12.100
37 470 477,38 9.483,14 54,49 8.100
20 210 311,83 4.646,74 10.369,96 28.900
8 195 194,98 34.234,14 0,00 34.225
17 270 282,62 9.483,14 159,23 12.100
35 400 457,91 6.069,21 3.353,01 400
25 480 360,52 379,33 14.274,58 10.000
Média y 380 Soma 95.969,39 33.980,61 129.950
b 9,74
a 117,07 Coeficiente de Determinação 0,7385
F observado 22,5939
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo
Estatística Aplicada
9
O coeficiente de determinação deve ser interpretado como a proporção de variação total da
variável dependente Y que é explicada pela variação da variável independente X. Tomando o
exemplo acima se pode concluir que 73,85 % das variações de Y são explicadas pela variação de
X.
Coeficiente de Correlação
O coeficiente de determinação é igual ao quadrado do coeficiente de correlação. Assim a partir
do valor do coeficiente de determinação podemos obter o valor do coeficiente de correlação. No
exemplo acima para um coeficiente de determinação r2
= 0,738 obtemos o coeficiente de
correlação, r = 0,85.
O coeficiente de determinação é sempre positivo, enquanto que o coeficiente de correlação pode
admitir valores negativos e positivos. Valores de r igual ou próximos de 1 ou –1 indica que exige
uma forte relação entre as variáveis: no primeiro caso a relação é direta, enquanto que no
segundo a relação é inversa. Valores próximos de Zero, significa que existe pouco
relacionamento entre as variáveis.
Portanto,
-1 ≥ r ≤ +1
O coeficiente de determinação indica o quanto a reta de regressão explica o ajuste da reta,
enquanto que o coeficiente de correlação deve ser usado como uma medida de força da relação
entre as variáveis
Resumindo:
- Os valores de r estão limitados entre
-1 ≤ r ≤ +1
- O coeficiente de correlação tem um valor único para a população ou amostra.
- Coeficiente de correlação padroniza dentro dos horizontes acima as variações da covariância
- Por isso o coeficiente de correlação pode ser expresso:
Cov (X,Y)
rX,Y = onde,
σX • σY
σX – desvio padrão da variável X
σY – desvio padrão da variável Y
Cov (X,Y) – Covariância de X e Y
Universidade de São Paulo
Faculdade de Arquitetura e Urbanismo
Estatística Aplicada
10
Erro Padrão do Coeficiente b, (Sb)
O erro padrão do coeficiente b indica o grau de aproximação entre o coeficiente b da equação de
regressão e o coeficiente β da população. Essa variação existe porque embora os dados sejam
retirados da população há sempre variações entre os dados da amostra e os dados da população.
A fórmula abaixo mede a diferença entre b e β:
S2
b Sb
Sb = S2
b = ------------------ = ---------------------
(n-1) x Var (x) (n-1) x Var (x)
Pela fórmula acima se pode concluir que o erro padrão do coeficiente b:
• é diretamente proporcional ao erro padrão da estimativa Se, e;
• e inversamente proporcional ao valor do desvio padrão de x e o tamanho da amostra menos 1.

Mais conteúdo relacionado

Mais procurados

Regressão Linear Múltipla
Regressão Linear MúltiplaRegressão Linear Múltipla
Regressão Linear Múltipla
Vitor Vieira Vasconcelos
 
Análise de Componentes Principais
Análise de Componentes PrincipaisAnálise de Componentes Principais
Análise de Componentes Principais
Célia M. D. Sales
 
Unidade 5 - estastitica
Unidade 5 - estastiticaUnidade 5 - estastitica
Unidade 5 - estastitica
Andreza Cristina Paulo Lamounier
 
Distribuicao continua
Distribuicao continuaDistribuicao continua
Distribuicao continua
carneiro62
 
Doc estatistica _687118434
Doc estatistica _687118434Doc estatistica _687118434
Doc estatistica _687118434
Eliabe Denes
 
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
02   tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA02   tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
Ricardo Bruno - Universidade Federal do Pará
 
Correlação
CorrelaçãoCorrelação
Exercicio de Regressao Linear Simples
Exercicio de Regressao Linear SimplesExercicio de Regressao Linear Simples
Exercicio de Regressao Linear Simples
Gabriela Fronza Zluhan
 
Aula de distribuição de probabilidade[1] cópia
Aula de distribuição de probabilidade[1]   cópiaAula de distribuição de probabilidade[1]   cópia
Aula de distribuição de probabilidade[1] cópia
Tuane Paixão
 
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
Daniel Brandão de Castro
 
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 GujaratiMonica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros
 
Capitulo 8 gujarati resumo
Capitulo 8 gujarati resumoCapitulo 8 gujarati resumo
Capitulo 8 gujarati resumo
Monica Barros
 
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 GujaratiMonica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros
 
Regressão aula
Regressão aulaRegressão aula
Regressão aula
Iverson moya
 
Distribuição normal
Distribuição normalDistribuição normal
Distribuição normal
joseagrosa
 
econometria
 econometria econometria
econometria
Robertta Karoline
 
distribuição-t-student
distribuição-t-studentdistribuição-t-student
distribuição-t-student
Guilherme Marques
 
Análise de correlação
Análise de correlaçãoAnálise de correlação
Análise de correlação
Economia Silva
 
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
Jean Paulo Mendes Alves
 
Regressão Linear Simples
Regressão Linear SimplesRegressão Linear Simples
Regressão Linear Simples
monica_lima
 

Mais procurados (20)

Regressão Linear Múltipla
Regressão Linear MúltiplaRegressão Linear Múltipla
Regressão Linear Múltipla
 
Análise de Componentes Principais
Análise de Componentes PrincipaisAnálise de Componentes Principais
Análise de Componentes Principais
 
Unidade 5 - estastitica
Unidade 5 - estastiticaUnidade 5 - estastitica
Unidade 5 - estastitica
 
Distribuicao continua
Distribuicao continuaDistribuicao continua
Distribuicao continua
 
Doc estatistica _687118434
Doc estatistica _687118434Doc estatistica _687118434
Doc estatistica _687118434
 
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
02   tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA02   tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
 
Correlação
CorrelaçãoCorrelação
Correlação
 
Exercicio de Regressao Linear Simples
Exercicio de Regressao Linear SimplesExercicio de Regressao Linear Simples
Exercicio de Regressao Linear Simples
 
Aula de distribuição de probabilidade[1] cópia
Aula de distribuição de probabilidade[1]   cópiaAula de distribuição de probabilidade[1]   cópia
Aula de distribuição de probabilidade[1] cópia
 
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
A previsão do ibovespa através de um modelo de regressão linear múltipla - Da...
 
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 GujaratiMonica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
 
Capitulo 8 gujarati resumo
Capitulo 8 gujarati resumoCapitulo 8 gujarati resumo
Capitulo 8 gujarati resumo
 
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 GujaratiMonica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
 
Regressão aula
Regressão aulaRegressão aula
Regressão aula
 
Distribuição normal
Distribuição normalDistribuição normal
Distribuição normal
 
econometria
 econometria econometria
econometria
 
distribuição-t-student
distribuição-t-studentdistribuição-t-student
distribuição-t-student
 
Análise de correlação
Análise de correlaçãoAnálise de correlação
Análise de correlação
 
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
Estatística Para Engenharia - Correlação e Regressão Linear - Exercícios.
 
Regressão Linear Simples
Regressão Linear SimplesRegressão Linear Simples
Regressão Linear Simples
 

Destaque

Aula05 webdesign
Aula05 webdesignAula05 webdesign
Humor nas Metodologias de Design
Humor nas Metodologias de DesignHumor nas Metodologias de Design
Humor nas Metodologias de Design
Rodrigo Freese Gonzatto
 
Palestra no auditório do IBGE - Arquitetura de Informação
Palestra no auditório do IBGE - Arquitetura de InformaçãoPalestra no auditório do IBGE - Arquitetura de Informação
Palestra no auditório do IBGE - Arquitetura de Informação
Luiz Agner
 
Javascript testing should be awesome
Javascript testing should be awesomeJavascript testing should be awesome
Javascript testing should be awesome
Abderrazak BOUADMA
 
The Business Case for Accessibility, AbilityNet Webinar 28 Nov 2013
The Business Case for Accessibility, AbilityNet Webinar 28 Nov 2013The Business Case for Accessibility, AbilityNet Webinar 28 Nov 2013
The Business Case for Accessibility, AbilityNet Webinar 28 Nov 2013
AbilityNet
 
O que é Arquitetura de Informação e UX Design: visão de uma bibliotecária inf...
O que é Arquitetura de Informação e UX Design: visão de uma bibliotecária inf...O que é Arquitetura de Informação e UX Design: visão de uma bibliotecária inf...
O que é Arquitetura de Informação e UX Design: visão de uma bibliotecária inf...
Paula Azevedo Macedo
 

Destaque (6)

Aula05 webdesign
Aula05 webdesignAula05 webdesign
Aula05 webdesign
 
Humor nas Metodologias de Design
Humor nas Metodologias de DesignHumor nas Metodologias de Design
Humor nas Metodologias de Design
 
Palestra no auditório do IBGE - Arquitetura de Informação
Palestra no auditório do IBGE - Arquitetura de InformaçãoPalestra no auditório do IBGE - Arquitetura de Informação
Palestra no auditório do IBGE - Arquitetura de Informação
 
Javascript testing should be awesome
Javascript testing should be awesomeJavascript testing should be awesome
Javascript testing should be awesome
 
The Business Case for Accessibility, AbilityNet Webinar 28 Nov 2013
The Business Case for Accessibility, AbilityNet Webinar 28 Nov 2013The Business Case for Accessibility, AbilityNet Webinar 28 Nov 2013
The Business Case for Accessibility, AbilityNet Webinar 28 Nov 2013
 
O que é Arquitetura de Informação e UX Design: visão de uma bibliotecária inf...
O que é Arquitetura de Informação e UX Design: visão de uma bibliotecária inf...O que é Arquitetura de Informação e UX Design: visão de uma bibliotecária inf...
O que é Arquitetura de Informação e UX Design: visão de uma bibliotecária inf...
 

Semelhante a Apostila regressao linear

AMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxAMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptx
NunoSilva599593
 
Geometria analítica2
Geometria analítica2Geometria analítica2
Geometria analítica2
Kaline Andreza
 
Geometria analítica2
Geometria analítica2Geometria analítica2
Geometria analítica2
Kaline Andreza
 
AULA-11-REGRESSAO-LINEAR-pptx.pptx
AULA-11-REGRESSAO-LINEAR-pptx.pptxAULA-11-REGRESSAO-LINEAR-pptx.pptx
AULA-11-REGRESSAO-LINEAR-pptx.pptx
Marcos Boaventura
 
Projeto de Informática Educativa I - NTEM
Projeto de  Informática Educativa I  - NTEMProjeto de  Informática Educativa I  - NTEM
Projeto de Informática Educativa I - NTEM
Valdir Almeida
 
Projeto de Informática Educativa I - NTEM
Projeto de  Informática Educativa I  - NTEMProjeto de  Informática Educativa I  - NTEM
Projeto de Informática Educativa I - NTEM
Valdir Almeida
 
Slide de matemática Geometria analítica
Slide de matemática Geometria analítica Slide de matemática Geometria analítica
Slide de matemática Geometria analítica
DAIANEMARQUESDASILVA1
 
Correlacao
CorrelacaoCorrelacao
Correlacao
jon024
 
Tópico 4 regressão linear simples 01
Tópico 4   regressão linear simples 01Tópico 4   regressão linear simples 01
Tópico 4 regressão linear simples 01
Ricardo Bruno - Universidade Federal do Pará
 
Cursocalc1ead
Cursocalc1eadCursocalc1ead
Cursocalc1ead
Carlos Genesis
 
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
JÚLIO PEIXOTO
 
Apostila de metodos_quantitativos_-_prof._joao_furtado
Apostila de metodos_quantitativos_-_prof._joao_furtadoApostila de metodos_quantitativos_-_prof._joao_furtado
Apostila de metodos_quantitativos_-_prof._joao_furtado
Wannessa Souza
 
Geometria analítica
Geometria analíticaGeometria analítica
Geometria analítica
RobertomonteiroBarata
 
1 ano função afim
1 ano   função afim1 ano   função afim
1 ano função afim
Ariosvaldo Carvalho
 
Regressao simples
Regressao simplesRegressao simples
Regressao simples
Humberto Govoni
 
Trabalho2
Trabalho2Trabalho2
Materia matematica(2003)
Materia matematica(2003)Materia matematica(2003)
Materia matematica(2003)
Gabriel Vasconcelos
 
Aula13-15.pdf
Aula13-15.pdfAula13-15.pdf
Aula13-15.pdf
FabioOliveira791240
 
Texto complementar nº 1 - Gráficos
Texto complementar nº 1 - GráficosTexto complementar nº 1 - Gráficos
Texto complementar nº 1 - Gráficos
Brenno Machado
 
Apostila física exp ii
Apostila física exp iiApostila física exp ii
Apostila física exp ii
Diego dos Santos Vicentin
 

Semelhante a Apostila regressao linear (20)

AMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxAMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptx
 
Geometria analítica2
Geometria analítica2Geometria analítica2
Geometria analítica2
 
Geometria analítica2
Geometria analítica2Geometria analítica2
Geometria analítica2
 
AULA-11-REGRESSAO-LINEAR-pptx.pptx
AULA-11-REGRESSAO-LINEAR-pptx.pptxAULA-11-REGRESSAO-LINEAR-pptx.pptx
AULA-11-REGRESSAO-LINEAR-pptx.pptx
 
Projeto de Informática Educativa I - NTEM
Projeto de  Informática Educativa I  - NTEMProjeto de  Informática Educativa I  - NTEM
Projeto de Informática Educativa I - NTEM
 
Projeto de Informática Educativa I - NTEM
Projeto de  Informática Educativa I  - NTEMProjeto de  Informática Educativa I  - NTEM
Projeto de Informática Educativa I - NTEM
 
Slide de matemática Geometria analítica
Slide de matemática Geometria analítica Slide de matemática Geometria analítica
Slide de matemática Geometria analítica
 
Correlacao
CorrelacaoCorrelacao
Correlacao
 
Tópico 4 regressão linear simples 01
Tópico 4   regressão linear simples 01Tópico 4   regressão linear simples 01
Tópico 4 regressão linear simples 01
 
Cursocalc1ead
Cursocalc1eadCursocalc1ead
Cursocalc1ead
 
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
 
Apostila de metodos_quantitativos_-_prof._joao_furtado
Apostila de metodos_quantitativos_-_prof._joao_furtadoApostila de metodos_quantitativos_-_prof._joao_furtado
Apostila de metodos_quantitativos_-_prof._joao_furtado
 
Geometria analítica
Geometria analíticaGeometria analítica
Geometria analítica
 
1 ano função afim
1 ano   função afim1 ano   função afim
1 ano função afim
 
Regressao simples
Regressao simplesRegressao simples
Regressao simples
 
Trabalho2
Trabalho2Trabalho2
Trabalho2
 
Materia matematica(2003)
Materia matematica(2003)Materia matematica(2003)
Materia matematica(2003)
 
Aula13-15.pdf
Aula13-15.pdfAula13-15.pdf
Aula13-15.pdf
 
Texto complementar nº 1 - Gráficos
Texto complementar nº 1 - GráficosTexto complementar nº 1 - Gráficos
Texto complementar nº 1 - Gráficos
 
Apostila física exp ii
Apostila física exp iiApostila física exp ii
Apostila física exp ii
 

Apostila regressao linear

  • 2. Universidade de São Paulo Faculdade de Arquitetura e Urbanismo Estatística Aplicada 2 Modelos de Regressão Modelos de regressão são modelos matemáticos que relacionam o comportamento de uma variável Y com outra X. Quando a função f que relaciona duas variáveis é do tipo f (X) = a + b X temos o modelo de regressão simples. A variável X é a variável independente da equação enquanto Y = f (X) é a variável dependente das variações de X. O modelo de regressão é chamado de simples quando envolve uma relação causal entre duas variáveis. O modelo de regressão é multivado quando envolve uma relação causal com mais de duas variáveis. Isto é, quando o comportamento de Y é explicado por mais de uma variável independe X1, X2, ....Xn. Os modelos acima (simples ou multivariados) simulam relacionamentos entre as variáveis. Esse relacionamento poderá ser do tipo linear (equação da reta ou do plano) ou não linear (equação exponencial, geométrica, etc.). A análise de regressão compreende, portanto quatro tipos básicos de modelos; - linear simples; - linear multivariado; - não linear simples; - não linear multivariado. Para que serve determinar a relação entre duas variáveis? 1 - Para realizar previsões sobre o comportamento futuro de algum fenômeno da realidade. Neste caso extrapola-se para o futuro as relações de causa-efeito – já observadas no passado – entre as variáveis. Pode-se, por exemplo, prever a população futura de uma cidade simulando a tendência de crescimento da população no passado. 2 - Pesquisadores interessados em simular os efeitos sobre uma variável Y em decorrência de alterações introduzidas nos valores de uma variável X também usam este modelo. Por exemplo: de que modo a produtividade (Y) de uma área agrícola é alterada quando se aplica certa quantidade (X) de fertilizante sobre a terra. No exemplo acima o pesquisador seleciona “n” pedaços de terra x1, x2, x3,....xn, aos quais são aplicadas quantidades definidas de fertilizante. Em seguida, medem-se as quantidades colhidas em cada pedaço de terra y1, y2, y3, ....yn, obtendo assim pares de valores (x1,y1) (x2,y2), ......(xn, yn) que podem ser plotados em um gráfico cartesiano chamado de diagrama de dispersão. Diagrama de Dispersão Ao se plotar num gráfico cartesiano os pares de informação referente a cada observação obtemos uma “nuvem” de pontos definidos pelas coordenadas x e y de cada ponto. Essa nuvem, por sua vez, definirá um eixo ou direção que caracterizará o padrão de relacionamento entre X e Y. A regressão será linear se observada uma tendência ou eixo linear na nuvem de pontos cartesianos. A relação entre as variáveis será direta (ou positiva) quando os valores de Y aumentarem em decorrência da elevação dos valores de X . Será inversa (ou negativa) quando os valores de Y variarem inversamente em relação aos de X. A figura 1 mostra o diagrama de dispersão referente as variáveis X e Y. O diagrama mostra uma relação direta entre as variáveis, ou seja: o crescimento de Y está diretamente ligado ao crescimento de X.
  • 3. Universidade de São Paulo Faculdade de Arquitetura e Urbanismo Estatística Aplicada 3 Figura 1 x y ____________ 30 430 21 335 35 520 42 490 37 470 20 210 8 195 17 270 35 400 25 480 Modelos de Regressão Linear Regressão é o processo matemático pelo qual derivamos os parâmetros “a” e “b” de uma função f (X). Estes parâmetros determinam as características da função que relaciona ‘Y’ com ‘X’que no caso do modelo linear se representa por uma reta chamada de reta de regressão. Esta reta explica de forma geral e teoricamente a relação entre X e Y. Isto significa que os valores observados de X e Y nem sempre serão iguais aos valores de X’e Y’ estimados pela reta de regressão. Haverá sempre alguma diferença, e essa diferença significa; (1) que as variações de Y não são perfeitamente explicadas pelas variações de X ou; (2) que existem outras variáveis das quais Y depende ou; (3) que os valores de X e Y são obtidos de uma amostra específica que apresenta distorções em relação a realidade. Esta diferença em estatística é chamada de erro ou desvio. O processo de regressão significa, portanto, que os pontos plotados no gráfico são definidos, modelados ou regredidos, a uma reta que corresponde à menor distância possível entre cada ponto plotado e a reta. Em outras palavras, busca-se reduzir ao mínimo possível os somatórios dos desvios entre Y e Y’. Veja a figura 2 abaixo. Y = α + β X equação da reta a partir dos dados coletados Y’ = a + b X’ equação da reta a partir das estimativas
  • 4. Universidade de São Paulo Faculdade de Arquitetura e Urbanismo Estatística Aplicada 4 Figura 2 x y x.y x 2 Projeção 30 430 12.900 900 409,21 21 335 7.035 441 321,57 35 520 18.200 1.225 457,91 42 490 20.580 1.764 526,07 37 470 17.390 1.369 477,38 20 210 4.200 400 311,83 8 195 1.560 64 194,98 17 270 4.590 289 282,62 35 400 14.000 1.225 457,91 25 480 12.000 625 360,52 Somas 270 3.800 112.455 8.302 b = 9,7381 a = 117,0702 Y = 117,07 + 9,74 x
  • 5. Universidade de São Paulo Faculdade de Arquitetura e Urbanismo Estatística Aplicada 5 Método dos Mínimos Quadrados É o método de computação matemática pelo qual se define a curva de regressão. Esse método definirá uma reta que minimizará a soma das distâncias ao quadrado entre os pontos plotados (X, Y) e a reta (X’,Y’). Pelo método dos mínimos quadrados calculam-se os parâmetros “a“ e “b” da reta que minimiza estas distâncias ou as diferenças (ou o erro) entre Y e Y’. Esta reta é chamada de curva de regressão. (1) Erro = E = (Y- Y’) Diferença entre o valor levantado Y (na amostra) e o estimado Y’(pela reta de regressão) (2) E1 2 + E2 2 + E3 2 + ..... + En 2 = Mínimo Objetivo do modelo de regressão (3) Erro Total = Σ (Y-Y’) 2 Hipótese de trabalho (4) Y’ = a + bX Equação da reta de regressão que minimiza o erro Substituindo (4) em (3) (5) Σ (Y- a - bX) 2 Para que a soma dos quadrados dos erros tenha um valor mínimo, devem-se aplicar os conceitos de cálculo diferencial com derivadas parciais. Como as incógnitas do problema são os coeficientes "a" e "b" estrutura-se um sistema de duas equações. Assim aplicando os conceitos acima referidos monta-se o sistema de equações normais que permitirá extrair os valores de a e b, ∂ e ------ = - 2 Σ (Y- a - bX) ∂ a - 2 Σ Y + 2 Σ a + 2 Σ bX Σ Y = Σ a + Σ bX (6) Σ Y = Na + b Σ X Equação Normal Σ Y + b Σ X (7) a = ------------------ N – tamanho da amostra N (8) Σ XY = a Σ X + b Σ X2 Equação Normal N Σ XY - Σ X.Σ Y (9) b = --------------------------- a Σ X2 - ﴾ Σ X﴿2
  • 6. Universidade de São Paulo Faculdade de Arquitetura e Urbanismo Estatística Aplicada 6 Os valores a e b acima correspondem aos parâmetros da equação de regressão que minimiza as diferenças entre os valores de Y (levantados) e os de Y’ (estimados pela regressão). Portanto, o problema de “fitting” (ajustar) uma reta que melhor se adeque à nuvem de dados se reduz em calcular os parâmetros a e b da equação de regressão. GRAU DE UTILIDADE DA RETA DE REGRESSÃO A reta de regressão que se obtém através do método dos mínimos quadrados é apenas uma aproximação da realidade, ela é um modo útil para indicar a tendência dos dados. Mas até que ponto a reta de regressão obtida é útil para avaliar a realidade? Duas medidas podem indicar o quanto útil ou aproximado da realidade é a reta: ▪ erro padrão da estimativa; ▪ coeficiente de determinação Erro Padrão da Estimativa O erro padrão da estimativa Se mede o desvio médio entre os valores reais de Y e os valores estimados Y’. Ele informa de modo aproximado a extensão do erro entre os valores obtidos das estimativas e os valores de Y fornecidos pela amostra. Se é medido na unidade de Y. O que se busca é conseguir o menor valor possível de Se. Pode-se interpretar o Se como um desvio padrão dos resíduos, pois assumindo que estes resíduos são "normalmente distribuídos", pode-se dizer então que 68% dos pontos (plotados) encontram- se dentro de 1 desvio padrão: -1 ≤ Se ≥ 1; e que 95% dos pontos encontram-se dentro de 2 desvios padrão: -2 ≤ Se ≥ 2. Sendo os desvios normalmente distribuídos a fórmula de Se é obtida da definição da variância da amostra Se 2 , com n-2 graus de liberdade: Σ (Y – Y’)2 Se 2 = ----------------------- = N - 2 Σ (Y – Y’)2 Se = N – 2 Ao se ajustar a reta se espera que ela explique o conjunto de dados coletados. Se os dados estivem todos contidos numa reta teremos uma reta de regressão coincidente com os dados
  • 7. Universidade de São Paulo Faculdade de Arquitetura e Urbanismo Estatística Aplicada 7 levantados. Nesse caso a somatória dos desvios ao quadrado será zero e, o ajuste da reta será completo. A reta de regressão explica perfeitamente a relação entre X e Y. O erro padrão existirá sempre que o poder de explicação da reta não for completo. O valor do erro significa então que existem outros fatores que interferem no comportamento de Y além da variável X. Coeficiente de Determinação Ao se analisar a reta de regressão observamos que os pontos (xi, yi) estão distribuídos acima e abaixo da mesma. Na Figura 3 relacionamos cada ponto (Y), com o seu valor estimado (Y’ - a reta de regressão) e com o valor médio de Y (Y* -reta paralela ao eixo X). Como podemos observar a diferença entre o valor de Y e o valor de Y* (valor médio de Y) é o desvio total do ponto em relação a sua média. A soma dos desvios ao quadrado de todos os pontos em relação a média de Y é chamada de Variação Total. Isto é: Σ (Y – Y*)2 A diferença entre o valor de um ponto Y (xi, yi) e seu valor estimado Y' (xi’,yi’) isto é a distancia entre o ponto Y e a reta de regressão, é chamada de Variação Não Explicada pela reta de regressão. Isto é: Σ (Y – Y’)2 Já a diferença entre o valor Y’ (estimativa de Y) situado sobre a reta de regressão e o valor médio de Y* (situado sobre a reta paralela ao eixo x) é conhecida como Variação Explicada pela reta de regressão. Isto é: Σ (Y’ – Y*)2 Conforme mostra a Figura 3, Variação Total = Variação Explicada + Variação não Explicada
  • 8. Universidade de São Paulo Faculdade de Arquitetura e Urbanismo Estatística Aplicada 8 Figura 3 yi Y Variação não Explicada Y’ yi’ Variação Explicada Y* y* Y’= a+ bX’ xi Conclui-se que: Σ (Y – Y*)2 = Σ (Y – Y’)2 + Σ (Y’ – Y*)2 O Coeficiente de Determinação r2 é Definido pela seguinte relação: Σ (Y’ – Y*)2 Variação Explicada Σ (Y – Y*)2 = _______________________ = r2 = Σ (Y – Y*)2 Variação Total CÁLCULO DO COEFICIENTE DE DETERMINAÇÃO Variação x y Projeção Explicada Não explicada Total 30 430 409,21 853,48 432,04 2.500 21 335 321,57 3.413,93 180,33 2.025 35 520 457,91 6.069,21 3.855,77 19.600 42 490 526,07 21.337,07 1.301,20 12.100 37 470 477,38 9.483,14 54,49 8.100 20 210 311,83 4.646,74 10.369,96 28.900 8 195 194,98 34.234,14 0,00 34.225 17 270 282,62 9.483,14 159,23 12.100 35 400 457,91 6.069,21 3.353,01 400 25 480 360,52 379,33 14.274,58 10.000 Média y 380 Soma 95.969,39 33.980,61 129.950 b 9,74 a 117,07 Coeficiente de Determinação 0,7385 F observado 22,5939
  • 9. Universidade de São Paulo Faculdade de Arquitetura e Urbanismo Estatística Aplicada 9 O coeficiente de determinação deve ser interpretado como a proporção de variação total da variável dependente Y que é explicada pela variação da variável independente X. Tomando o exemplo acima se pode concluir que 73,85 % das variações de Y são explicadas pela variação de X. Coeficiente de Correlação O coeficiente de determinação é igual ao quadrado do coeficiente de correlação. Assim a partir do valor do coeficiente de determinação podemos obter o valor do coeficiente de correlação. No exemplo acima para um coeficiente de determinação r2 = 0,738 obtemos o coeficiente de correlação, r = 0,85. O coeficiente de determinação é sempre positivo, enquanto que o coeficiente de correlação pode admitir valores negativos e positivos. Valores de r igual ou próximos de 1 ou –1 indica que exige uma forte relação entre as variáveis: no primeiro caso a relação é direta, enquanto que no segundo a relação é inversa. Valores próximos de Zero, significa que existe pouco relacionamento entre as variáveis. Portanto, -1 ≥ r ≤ +1 O coeficiente de determinação indica o quanto a reta de regressão explica o ajuste da reta, enquanto que o coeficiente de correlação deve ser usado como uma medida de força da relação entre as variáveis Resumindo: - Os valores de r estão limitados entre -1 ≤ r ≤ +1 - O coeficiente de correlação tem um valor único para a população ou amostra. - Coeficiente de correlação padroniza dentro dos horizontes acima as variações da covariância - Por isso o coeficiente de correlação pode ser expresso: Cov (X,Y) rX,Y = onde, σX • σY σX – desvio padrão da variável X σY – desvio padrão da variável Y Cov (X,Y) – Covariância de X e Y
  • 10. Universidade de São Paulo Faculdade de Arquitetura e Urbanismo Estatística Aplicada 10 Erro Padrão do Coeficiente b, (Sb) O erro padrão do coeficiente b indica o grau de aproximação entre o coeficiente b da equação de regressão e o coeficiente β da população. Essa variação existe porque embora os dados sejam retirados da população há sempre variações entre os dados da amostra e os dados da população. A fórmula abaixo mede a diferença entre b e β: S2 b Sb Sb = S2 b = ------------------ = --------------------- (n-1) x Var (x) (n-1) x Var (x) Pela fórmula acima se pode concluir que o erro padrão do coeficiente b: • é diretamente proporcional ao erro padrão da estimativa Se, e; • e inversamente proporcional ao valor do desvio padrão de x e o tamanho da amostra menos 1.