SlideShare uma empresa Scribd logo
1 de 23
ANÁLISE MULTIVARIADA DE DADOS
CURSO DE GESTÃO DE MARKETING
DOCENTE: CARLA OLIVEIRA SILVA
DADOS BIVARIADOS - DIAGRAMA DE DISPERSÃO
O diagrama de dispersão é um gráfico
no qual se representam dados
emparelhados na forma (x,y).
Cada par (x,y) é representado num
único ponto.
O diagrama de dispersão ajuda a
determinar se existe alguma relação
entre as variáveis
Correlação positiva: as variáveis xx e yy
variam no mesmo sentido.
Correlação negativa: as variáveis xx e yy
variam em sentidos opostos – maiores
valores de xx correspondem a menores
valores de yy.
DADOS BIVARIADOS QUANTITATIVOS
Considere os dados apresentados na tabela
abaixo. O diagrama de dispersão é:
Matemática Estatística
12 14
13 15
10 10
11 12
18 16
16 15
12 13
14 13
18 16
18 17
Analisar
Analyse
Correlaciona
r
Correlate
Bivariável
Bivariate
Correlação linear
forte e positiva!
DADOS BIVARIADOS
Considere os dados apresentados na tabela ao lado que
traduzem as faltas ao trabalho e a distância (km) a que os
empregados estão de casa.
Distância (km) N.º Faltas
1 8
3 5
4 8
6 7
8 6
10 3
12 5
14 2
16 4
18 2
O diagrama evidencia agora uma associação
de sentido oposto, entre o n.º de faltas e a
distância. Assim quanto maior a distância
menor é a tendência para faltar.
O coeficiente de correlação linear de Pearson é
negativo! A correlação é forte mais negativa.
REGRESSÃO LINEAR SIMPLES
Em alguns casos duas variáveis relacionam-se de forma “determinística”, o
que significa que, dado um valor de uma variável, o valor da outra variável
fica automaticamente determinado sem qualquer erro.
Este é o caso da aplicação do IVA a um determinado produto:
Quando a relação não é determinística, opta-se pela reta que melhor
representa os dados. Esse critério baseia-se nas distâncias verticais entre os
pontos de dados originais e a reta de regressão.
Estas distâncias são designadas por “resíduos”
𝑦 = 1,23. 𝑥
Para uma amostra de dados emparelhados (x, y), um resíduo é a
diferença (y-𝑦) entre um valor amostra y observado e o valor de 𝑦, que é
o valor de y previsto pela reta de regressão
𝑟𝑒𝑠í𝑑𝑢𝑜(𝑒) = 𝑦𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 − 𝑦𝑝𝑟𝑒𝑣𝑖𝑠𝑡𝑜 = 𝑦 − 𝑦
REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
Uma reta satisfaz a propriedade dos
mínimos quadrados quando a soma dos
quadrados dos resíduos é a menor
possível!
Resíduos
(e’s)
𝑦𝑗 = 𝑏0 + 𝑏1𝑥1𝑗 + 𝑒𝑗
No modelo de regressão linear simples
assume-se que y é afectado por um
erro de medição, ou resíduo (ej)
enquanto que xj é um valor sem erro,
ou quando muito o seu erro é
desprezável face à sua amplitude de
variação.
Por outras palavras, a variável
dependente é aleatória enquanto
que as variáveis independentes são
fixas.
Se elevarmos ao quadrado os ej e os
somarmos (j=1, 2, …, n) podemos obter
uma estimativa de quão diferentes são
os valores estimados pela reta.
SQE =
𝑗=1
𝑛
𝑒𝑗
2
SQE – soma dos
quadrados dos erros
ou dos resíduos do
modelo.
REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
Interpretação dos coeficientes b1 e b0:
b0 corresponde à ordenada na origem, ou seja, ao valor da variável
dependente y quando x é igual a 0.
b1 corresponde exactamente ao declive e representa a variação esperada de
y por cada unidade de variação da variável independente x.
Se b1 for positivo significa que um aumento do valor de x produz um
aumento no valor de y.
Se b1 for negativo, um aumento do valor de x produz uma diminuição do
respectivo valor de y.
REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
Variável X Variável Y
1 3
2 5
3 7
4 9
5 11





 2
1
)
(
)
(
)
(
x
xi
y
yi
x
xi
b
0
1 b
x
b
y 

Considere o seguinte exemplo:
Quando se quer determinar a equação
da reta que relaciona os dados é
necessário em 1.º lugar determinar b1
(declive da reta) e em 2.º lugar b0
(ordenada na origem ou por outras
palavras é o valor de y quando x=0).
Assim recorre-se à fórmula:
Determinado b1, calcula-se b0
recorrendo à fórmula:
REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
𝑏1 =
(𝑥𝑖−𝑥)(𝑦𝑖−𝑦)
(𝑥𝑖−𝑥)2 =
20
10
= 2
𝑦 = 𝑏1𝑥 + 𝑏0
Determinado b1, calcula-se a ordenada na origem
(b0):
xi yi xi-xmédio yi-ymédio (xi-xmédio)2
(yi- (xi-xmédio)*(yi-
1 3 -2 -4 4 16 8
2 5 -1 -2 1 4 2
3 7 0 0 0 0 0
4 9 1 2 1 4 2
5 11 2 4 4 16 8
xmédio
ymédi
o
    
3 7 0 0 10 40 20
7= 2 ∗ 3 + 𝑏0
𝑏0 =1
Decline da reta (b1):
𝑦 = 1 + 2𝑥
REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
Ainda com o mesmo exemplo:
Analisar
Analyse
Regressão
Regression
Linear
𝑦 = 1,000 + 2,000 ∗ 𝑥
𝑦 = 𝑏0 + 𝑏1 ∗ 𝑥
REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
Exercício:
Recorrendo ao SPSS, determine a melhor reta
que se adapta aos dados da tabela ao lado.
Matemática Estatística
12 14
13 15
10 10
11 12
18 16
16 15
12 13
14 13
18 16
18 17
𝑦 = 𝑏0 + 𝑏1𝑥 = 5,341 + 0,617 ∗ 𝑥
REGRESSÃO LINEAR SIMPLES
VALORES PREDITOS E RESÍDUOS
Os valores
preditos são os
valores de y
calculados a
partir da equação
da reta.
Os resíduos
correspondem às
diferenças entre
os valores
preditos e os
valores
observados para
y.
REGRESSÃO LINEAR SIMPLES
VALORES PREDITOS E RESÍDUOS
É importante guardar
os valores preditos e
os dos resíduos para
construir os gráficos
respetivos.
REGRESSÃO LINEAR
SIMPLES
CONSTRUÇÃO DO
GRÁFICO DOS
RESÍDUOS
Resíduos padronizados fora
do intervalo -3 e +3, são
considerados outliers dos
valores preditos.
REGRESSÃO LINEAR SIMPLES
GRÁFICO DOS RESÍDUOS
Se o gráfico dos resíduos não revelar qualquer
padrão, a equação de regressão é uma boa
representação da associação entre as variáveis.
Diagrama de Dispersão dos Dados
Diagrama de Dispersão dos Resíduos
Ou Gráfico dos Resíduos
X 0 1 2 3 4 5 7 8 9 10
Y 1 4 8 18 19 24 36 43 42 47
Considere o seguinte exemplo:
Y=0,43 + 4,85 X
Reta de regressão
A reta parece representar adequadamente
os dados.
GRÁFICO DOS RESÍDUOS
Diagrama de Dispersão dos Dados
Diagrama de Dispersão dos Resíduos
Gráfico dos Resíduos
X 0 1 2 3 4 5 7 8 9 10
Y 1 6 9 15 10 35 15 60 75 20
Considere agora o seguinte exemplo:
Y=0,37 + 4,95 X
Reta de regressão
A reta não parece representar
adequadamente os dados!
Se o gráfico dos resíduos apresentar um
padrão sistemático, então a equação não
constitui uma boa representação da
associação entre as variáveis.
TÉCNICAS GRÁFICAS PARA ANÁLISE (INFORMAL)
DE RESÍDUOS
Papel de probabilidade normal: verificar a normalidade dos dados.
Analisar o gráfico dos quantis normais.
TÉCNICAS GRÁFICAS PARA ANÁLISE (INFORMAL)
DE RESÍDUOS
Resíduos vs valores ajustados: verifica a homoscedasticidade do modelo, isto é,
σ2 constante ou se é hommogénea.
Resíduos versus a ordem de recolha dos dados: avalia a hipótese de
independência dos dados.
Resíduos Studentizados versus valores ajustados: verifica se existem outliers em
Y.
Resíduos Padronizados versus valores ajustados: verifica se existem outliers em
Y (são outliers valores com scores fora de [-1,96; +1,96]).
GRÁFICO DOS
RESÍDUOS NO SPSS
Analisar
Analyse
Regressã
o
Regressio
n
Linear
Constrói-se o gráfico de dispersão usando RES_1 =f(X)
VARIAÇÃO ASSOCIADA AO MODELO DE
REGRESSÃO LINEAR SIMPLES
Usando dados emparelhados (x,y), descreve-se a variação que pode ser explicada
pela correlação linear entre x e y e a variação que não é explicada.
Torna-se pois necessário dispor de um método para a previsão, que é uma
estimativa intervalar para o valor previsto de y.
𝑫𝒆𝒔𝒗𝒊𝒐 𝑻𝒐𝒕𝒂𝒍 = 𝒅𝒆𝒔𝒗𝒊𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒐 + 𝒅𝒆𝒔𝒗𝒊𝒐 𝒏ã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒐
(𝐲 − 𝒚) = (𝒚 − 𝒚) + (𝒚 − 𝒚)
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 = 𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 + 𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒏ã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂
(𝐲 − 𝒚)𝟐
= (𝒚 − 𝒚)𝟐
+(𝒚 − 𝒚)𝟐
𝒓𝟐
=
𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂
𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒕𝒐𝒕𝒂𝒍
SQT (soma quadrados total) = SQR (soma quadrados regressão) +SQE (soma quadrados erros)
INTERVALOS DE
CONFIANÇA DOS
COEFICIENTES E
AJUSTE DO
MODELO
Intervalo
de
confiança
dos
coeficiente
s:
Coeficientes
de
ajustamento
AJUSTE DAS POPULAÇÕES DE DADOS AO
MODELO
Como a totalidade da população não está normalmente disponível, a primeira tarefa consiste
em calcular os coeficientes do modelo de regressão a partir de uma amostra representativa.
𝑦𝑗 = 𝑏0 + 𝑏1𝑥1𝑗
Equação da reta para a amostra
yi=b0 + b1x1j
Equação da reta para a
população
Depois de identificar a equação da reta
para os dados amostrais, importa
avaliar se o modelo se aplica ou não à
população.
Fonte de
Variação
SQ gl QM F P-valor
Regressão
𝑌
𝑗 − 𝑌
2 p SQR/p QMR/QME Valor entre
0 e 1
Erros
𝑌
𝑗 − 𝑌
2 n-p-1 SQE/(n-p-1)
Total
𝑌
𝑗 − 𝑌
2 n-1
A aplicação do modelo à
população é avaliada pela
Anova!!!
H0: b0 = b1 = 0
H1: pelo menos um bi ≠ 0
Teste
Anova:
Se p-valor < a rejeita-se H0, logo pelo menos um dos
bi ≠ 0 e assim sendo o modelo aplica-se à
populaçãode dados.
AJUSTE DAS POPULAÇÕES DE DADOS AO
MODELO
H0: b0 = b1 = 0
H1: pelo menos um bi ≠ 0
Teste Anova:
P-valor<0,001.
Como p-valor<a, rejeita-se H0.
Fica assim comprovado que o modelo se aplica à população de
dados!!!

Mais conteúdo relacionado

Semelhante a AMD - Aula n.º 8 - regressão linear simples.pptx

GEOMETRIA ANALÍTICA cap 06
GEOMETRIA ANALÍTICA cap  06GEOMETRIA ANALÍTICA cap  06
GEOMETRIA ANALÍTICA cap 06Andrei Bastos
 
Apresentação geometria analítica
Apresentação geometria analíticaApresentação geometria analítica
Apresentação geometria analíticaprofluizgustavo
 
SISTEMA DE COORDENADAS CARTESIANAS RETANGULARES E A EQUAÇÃO DA CIRCUNFERÊNCIA
SISTEMA DE COORDENADAS CARTESIANAS RETANGULARES E A EQUAÇÃO DA CIRCUNFERÊNCIASISTEMA DE COORDENADAS CARTESIANAS RETANGULARES E A EQUAÇÃO DA CIRCUNFERÊNCIA
SISTEMA DE COORDENADAS CARTESIANAS RETANGULARES E A EQUAÇÃO DA CIRCUNFERÊNCIACarlos Campani
 
Econometria modelos de_regressao_linear
Econometria modelos de_regressao_linearEconometria modelos de_regressao_linear
Econometria modelos de_regressao_linearJoevan Santos
 
Slide de matemática Geometria analítica
Slide de matemática Geometria analítica Slide de matemática Geometria analítica
Slide de matemática Geometria analítica DAIANEMARQUESDASILVA1
 
Matemática - Estudo da reta
Matemática - Estudo da retaMatemática - Estudo da reta
Matemática - Estudo da retaDanielle Siqueira
 
GEOMETRIA ANALÍTICA cap 07
GEOMETRIA ANALÍTICA cap  07GEOMETRIA ANALÍTICA cap  07
GEOMETRIA ANALÍTICA cap 07Andrei Bastos
 
Gacap07 130507191031-phpapp02
Gacap07 130507191031-phpapp02Gacap07 130507191031-phpapp02
Gacap07 130507191031-phpapp02Carlos Andrade
 
Conjuntos NuméRicos
Conjuntos NuméRicosConjuntos NuméRicos
Conjuntos NuméRicoseducacao f
 
Proporcionalidade inversa9ano
Proporcionalidade inversa9anoProporcionalidade inversa9ano
Proporcionalidade inversa9anocarlapiresblog
 
Qq plot
Qq plotQq plot
Qq plotweneca
 
Matemática pga1
Matemática pga1Matemática pga1
Matemática pga1takahico
 
Apostila de metodos_quantitativos_-_prof._joao_furtado
Apostila de metodos_quantitativos_-_prof._joao_furtadoApostila de metodos_quantitativos_-_prof._joao_furtado
Apostila de metodos_quantitativos_-_prof._joao_furtadoWannessa Souza
 
2016 2 oficina matematica - minimos quadrados
2016 2 oficina matematica - minimos quadrados2016 2 oficina matematica - minimos quadrados
2016 2 oficina matematica - minimos quadradosPaulo Cezar Pagnossin
 

Semelhante a AMD - Aula n.º 8 - regressão linear simples.pptx (20)

GEOMETRIA ANALÍTICA cap 06
GEOMETRIA ANALÍTICA cap  06GEOMETRIA ANALÍTICA cap  06
GEOMETRIA ANALÍTICA cap 06
 
Apresentação geometria analítica
Apresentação geometria analíticaApresentação geometria analítica
Apresentação geometria analítica
 
SISTEMA DE COORDENADAS CARTESIANAS RETANGULARES E A EQUAÇÃO DA CIRCUNFERÊNCIA
SISTEMA DE COORDENADAS CARTESIANAS RETANGULARES E A EQUAÇÃO DA CIRCUNFERÊNCIASISTEMA DE COORDENADAS CARTESIANAS RETANGULARES E A EQUAÇÃO DA CIRCUNFERÊNCIA
SISTEMA DE COORDENADAS CARTESIANAS RETANGULARES E A EQUAÇÃO DA CIRCUNFERÊNCIA
 
Econometria modelos de_regressao_linear
Econometria modelos de_regressao_linearEconometria modelos de_regressao_linear
Econometria modelos de_regressao_linear
 
Slide de matemática Geometria analítica
Slide de matemática Geometria analítica Slide de matemática Geometria analítica
Slide de matemática Geometria analítica
 
Matemática - Estudo da reta
Matemática - Estudo da retaMatemática - Estudo da reta
Matemática - Estudo da reta
 
Geometria analítica
Geometria analíticaGeometria analítica
Geometria analítica
 
Materia matematica(2003)
Materia matematica(2003)Materia matematica(2003)
Materia matematica(2003)
 
GEOMETRIA ANALÍTICA cap 07
GEOMETRIA ANALÍTICA cap  07GEOMETRIA ANALÍTICA cap  07
GEOMETRIA ANALÍTICA cap 07
 
Gacap07 130507191031-phpapp02
Gacap07 130507191031-phpapp02Gacap07 130507191031-phpapp02
Gacap07 130507191031-phpapp02
 
Conjuntos NuméRicos
Conjuntos NuméRicosConjuntos NuméRicos
Conjuntos NuméRicos
 
Proporcionalidade inversa9ano
Proporcionalidade inversa9anoProporcionalidade inversa9ano
Proporcionalidade inversa9ano
 
Qq plot
Qq plotQq plot
Qq plot
 
Geometria analítica2
Geometria analítica2Geometria analítica2
Geometria analítica2
 
Geometria analítica2
Geometria analítica2Geometria analítica2
Geometria analítica2
 
Matemática pga1
Matemática pga1Matemática pga1
Matemática pga1
 
Apostila de metodos_quantitativos_-_prof._joao_furtado
Apostila de metodos_quantitativos_-_prof._joao_furtadoApostila de metodos_quantitativos_-_prof._joao_furtado
Apostila de metodos_quantitativos_-_prof._joao_furtado
 
Geometria Analitica.docx
Geometria Analitica.docxGeometria Analitica.docx
Geometria Analitica.docx
 
econometria
 econometria econometria
econometria
 
2016 2 oficina matematica - minimos quadrados
2016 2 oficina matematica - minimos quadrados2016 2 oficina matematica - minimos quadrados
2016 2 oficina matematica - minimos quadrados
 

Mais de NunoSilva599593

AMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptxAMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptxNunoSilva599593
 
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxAMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxNunoSilva599593
 
AMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptxAMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptxNunoSilva599593
 
AMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptxAMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptxNunoSilva599593
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxNunoSilva599593
 
AMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptxAMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptxNunoSilva599593
 
AMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptxAMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptxNunoSilva599593
 
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxAMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxNunoSilva599593
 
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxAMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxNunoSilva599593
 

Mais de NunoSilva599593 (9)

AMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptxAMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptx
 
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxAMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
 
AMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptxAMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptx
 
AMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptxAMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptx
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
 
AMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptxAMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptx
 
AMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptxAMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptx
 
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxAMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
 
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxAMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
 

AMD - Aula n.º 8 - regressão linear simples.pptx

  • 1. ANÁLISE MULTIVARIADA DE DADOS CURSO DE GESTÃO DE MARKETING DOCENTE: CARLA OLIVEIRA SILVA
  • 2. DADOS BIVARIADOS - DIAGRAMA DE DISPERSÃO O diagrama de dispersão é um gráfico no qual se representam dados emparelhados na forma (x,y). Cada par (x,y) é representado num único ponto. O diagrama de dispersão ajuda a determinar se existe alguma relação entre as variáveis Correlação positiva: as variáveis xx e yy variam no mesmo sentido. Correlação negativa: as variáveis xx e yy variam em sentidos opostos – maiores valores de xx correspondem a menores valores de yy.
  • 3. DADOS BIVARIADOS QUANTITATIVOS Considere os dados apresentados na tabela abaixo. O diagrama de dispersão é: Matemática Estatística 12 14 13 15 10 10 11 12 18 16 16 15 12 13 14 13 18 16 18 17 Analisar Analyse Correlaciona r Correlate Bivariável Bivariate Correlação linear forte e positiva!
  • 4. DADOS BIVARIADOS Considere os dados apresentados na tabela ao lado que traduzem as faltas ao trabalho e a distância (km) a que os empregados estão de casa. Distância (km) N.º Faltas 1 8 3 5 4 8 6 7 8 6 10 3 12 5 14 2 16 4 18 2 O diagrama evidencia agora uma associação de sentido oposto, entre o n.º de faltas e a distância. Assim quanto maior a distância menor é a tendência para faltar. O coeficiente de correlação linear de Pearson é negativo! A correlação é forte mais negativa.
  • 5. REGRESSÃO LINEAR SIMPLES Em alguns casos duas variáveis relacionam-se de forma “determinística”, o que significa que, dado um valor de uma variável, o valor da outra variável fica automaticamente determinado sem qualquer erro. Este é o caso da aplicação do IVA a um determinado produto: Quando a relação não é determinística, opta-se pela reta que melhor representa os dados. Esse critério baseia-se nas distâncias verticais entre os pontos de dados originais e a reta de regressão. Estas distâncias são designadas por “resíduos” 𝑦 = 1,23. 𝑥 Para uma amostra de dados emparelhados (x, y), um resíduo é a diferença (y-𝑦) entre um valor amostra y observado e o valor de 𝑦, que é o valor de y previsto pela reta de regressão 𝑟𝑒𝑠í𝑑𝑢𝑜(𝑒) = 𝑦𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 − 𝑦𝑝𝑟𝑒𝑣𝑖𝑠𝑡𝑜 = 𝑦 − 𝑦
  • 6. REGRESSÃO LINEAR SIMPLES MÉTODO DOS MÍNIMOS QUADRADOS Uma reta satisfaz a propriedade dos mínimos quadrados quando a soma dos quadrados dos resíduos é a menor possível! Resíduos (e’s) 𝑦𝑗 = 𝑏0 + 𝑏1𝑥1𝑗 + 𝑒𝑗 No modelo de regressão linear simples assume-se que y é afectado por um erro de medição, ou resíduo (ej) enquanto que xj é um valor sem erro, ou quando muito o seu erro é desprezável face à sua amplitude de variação. Por outras palavras, a variável dependente é aleatória enquanto que as variáveis independentes são fixas. Se elevarmos ao quadrado os ej e os somarmos (j=1, 2, …, n) podemos obter uma estimativa de quão diferentes são os valores estimados pela reta. SQE = 𝑗=1 𝑛 𝑒𝑗 2 SQE – soma dos quadrados dos erros ou dos resíduos do modelo.
  • 7. REGRESSÃO LINEAR SIMPLES MÉTODO DOS MÍNIMOS QUADRADOS Interpretação dos coeficientes b1 e b0: b0 corresponde à ordenada na origem, ou seja, ao valor da variável dependente y quando x é igual a 0. b1 corresponde exactamente ao declive e representa a variação esperada de y por cada unidade de variação da variável independente x. Se b1 for positivo significa que um aumento do valor de x produz um aumento no valor de y. Se b1 for negativo, um aumento do valor de x produz uma diminuição do respectivo valor de y.
  • 8. REGRESSÃO LINEAR SIMPLES MÉTODO DOS MÍNIMOS QUADRADOS Variável X Variável Y 1 3 2 5 3 7 4 9 5 11       2 1 ) ( ) ( ) ( x xi y yi x xi b 0 1 b x b y   Considere o seguinte exemplo: Quando se quer determinar a equação da reta que relaciona os dados é necessário em 1.º lugar determinar b1 (declive da reta) e em 2.º lugar b0 (ordenada na origem ou por outras palavras é o valor de y quando x=0). Assim recorre-se à fórmula: Determinado b1, calcula-se b0 recorrendo à fórmula:
  • 9. REGRESSÃO LINEAR SIMPLES MÉTODO DOS MÍNIMOS QUADRADOS 𝑏1 = (𝑥𝑖−𝑥)(𝑦𝑖−𝑦) (𝑥𝑖−𝑥)2 = 20 10 = 2 𝑦 = 𝑏1𝑥 + 𝑏0 Determinado b1, calcula-se a ordenada na origem (b0): xi yi xi-xmédio yi-ymédio (xi-xmédio)2 (yi- (xi-xmédio)*(yi- 1 3 -2 -4 4 16 8 2 5 -1 -2 1 4 2 3 7 0 0 0 0 0 4 9 1 2 1 4 2 5 11 2 4 4 16 8 xmédio ymédi o      3 7 0 0 10 40 20 7= 2 ∗ 3 + 𝑏0 𝑏0 =1 Decline da reta (b1): 𝑦 = 1 + 2𝑥
  • 10. REGRESSÃO LINEAR SIMPLES MÉTODO DOS MÍNIMOS QUADRADOS Ainda com o mesmo exemplo: Analisar Analyse Regressão Regression Linear 𝑦 = 1,000 + 2,000 ∗ 𝑥 𝑦 = 𝑏0 + 𝑏1 ∗ 𝑥
  • 11. REGRESSÃO LINEAR SIMPLES MÉTODO DOS MÍNIMOS QUADRADOS Exercício: Recorrendo ao SPSS, determine a melhor reta que se adapta aos dados da tabela ao lado. Matemática Estatística 12 14 13 15 10 10 11 12 18 16 16 15 12 13 14 13 18 16 18 17 𝑦 = 𝑏0 + 𝑏1𝑥 = 5,341 + 0,617 ∗ 𝑥
  • 12. REGRESSÃO LINEAR SIMPLES VALORES PREDITOS E RESÍDUOS Os valores preditos são os valores de y calculados a partir da equação da reta. Os resíduos correspondem às diferenças entre os valores preditos e os valores observados para y.
  • 13. REGRESSÃO LINEAR SIMPLES VALORES PREDITOS E RESÍDUOS É importante guardar os valores preditos e os dos resíduos para construir os gráficos respetivos.
  • 14. REGRESSÃO LINEAR SIMPLES CONSTRUÇÃO DO GRÁFICO DOS RESÍDUOS Resíduos padronizados fora do intervalo -3 e +3, são considerados outliers dos valores preditos.
  • 15. REGRESSÃO LINEAR SIMPLES GRÁFICO DOS RESÍDUOS Se o gráfico dos resíduos não revelar qualquer padrão, a equação de regressão é uma boa representação da associação entre as variáveis. Diagrama de Dispersão dos Dados Diagrama de Dispersão dos Resíduos Ou Gráfico dos Resíduos X 0 1 2 3 4 5 7 8 9 10 Y 1 4 8 18 19 24 36 43 42 47 Considere o seguinte exemplo: Y=0,43 + 4,85 X Reta de regressão A reta parece representar adequadamente os dados.
  • 16. GRÁFICO DOS RESÍDUOS Diagrama de Dispersão dos Dados Diagrama de Dispersão dos Resíduos Gráfico dos Resíduos X 0 1 2 3 4 5 7 8 9 10 Y 1 6 9 15 10 35 15 60 75 20 Considere agora o seguinte exemplo: Y=0,37 + 4,95 X Reta de regressão A reta não parece representar adequadamente os dados! Se o gráfico dos resíduos apresentar um padrão sistemático, então a equação não constitui uma boa representação da associação entre as variáveis.
  • 17. TÉCNICAS GRÁFICAS PARA ANÁLISE (INFORMAL) DE RESÍDUOS Papel de probabilidade normal: verificar a normalidade dos dados. Analisar o gráfico dos quantis normais.
  • 18. TÉCNICAS GRÁFICAS PARA ANÁLISE (INFORMAL) DE RESÍDUOS Resíduos vs valores ajustados: verifica a homoscedasticidade do modelo, isto é, σ2 constante ou se é hommogénea. Resíduos versus a ordem de recolha dos dados: avalia a hipótese de independência dos dados. Resíduos Studentizados versus valores ajustados: verifica se existem outliers em Y. Resíduos Padronizados versus valores ajustados: verifica se existem outliers em Y (são outliers valores com scores fora de [-1,96; +1,96]).
  • 19. GRÁFICO DOS RESÍDUOS NO SPSS Analisar Analyse Regressã o Regressio n Linear Constrói-se o gráfico de dispersão usando RES_1 =f(X)
  • 20. VARIAÇÃO ASSOCIADA AO MODELO DE REGRESSÃO LINEAR SIMPLES Usando dados emparelhados (x,y), descreve-se a variação que pode ser explicada pela correlação linear entre x e y e a variação que não é explicada. Torna-se pois necessário dispor de um método para a previsão, que é uma estimativa intervalar para o valor previsto de y. 𝑫𝒆𝒔𝒗𝒊𝒐 𝑻𝒐𝒕𝒂𝒍 = 𝒅𝒆𝒔𝒗𝒊𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒐 + 𝒅𝒆𝒔𝒗𝒊𝒐 𝒏ã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒐 (𝐲 − 𝒚) = (𝒚 − 𝒚) + (𝒚 − 𝒚) 𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 = 𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 + 𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒏ã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 (𝐲 − 𝒚)𝟐 = (𝒚 − 𝒚)𝟐 +(𝒚 − 𝒚)𝟐 𝒓𝟐 = 𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒕𝒐𝒕𝒂𝒍 SQT (soma quadrados total) = SQR (soma quadrados regressão) +SQE (soma quadrados erros)
  • 21. INTERVALOS DE CONFIANÇA DOS COEFICIENTES E AJUSTE DO MODELO Intervalo de confiança dos coeficiente s: Coeficientes de ajustamento
  • 22. AJUSTE DAS POPULAÇÕES DE DADOS AO MODELO Como a totalidade da população não está normalmente disponível, a primeira tarefa consiste em calcular os coeficientes do modelo de regressão a partir de uma amostra representativa. 𝑦𝑗 = 𝑏0 + 𝑏1𝑥1𝑗 Equação da reta para a amostra yi=b0 + b1x1j Equação da reta para a população Depois de identificar a equação da reta para os dados amostrais, importa avaliar se o modelo se aplica ou não à população. Fonte de Variação SQ gl QM F P-valor Regressão 𝑌 𝑗 − 𝑌 2 p SQR/p QMR/QME Valor entre 0 e 1 Erros 𝑌 𝑗 − 𝑌 2 n-p-1 SQE/(n-p-1) Total 𝑌 𝑗 − 𝑌 2 n-1 A aplicação do modelo à população é avaliada pela Anova!!! H0: b0 = b1 = 0 H1: pelo menos um bi ≠ 0 Teste Anova: Se p-valor < a rejeita-se H0, logo pelo menos um dos bi ≠ 0 e assim sendo o modelo aplica-se à populaçãode dados.
  • 23. AJUSTE DAS POPULAÇÕES DE DADOS AO MODELO H0: b0 = b1 = 0 H1: pelo menos um bi ≠ 0 Teste Anova: P-valor<0,001. Como p-valor<a, rejeita-se H0. Fica assim comprovado que o modelo se aplica à população de dados!!!