2. DADOS BIVARIADOS - DIAGRAMA DE DISPERSÃO
O diagrama de dispersão é um gráfico
no qual se representam dados
emparelhados na forma (x,y).
Cada par (x,y) é representado num
único ponto.
O diagrama de dispersão ajuda a
determinar se existe alguma relação
entre as variáveis
Correlação positiva: as variáveis xx e yy
variam no mesmo sentido.
Correlação negativa: as variáveis xx e yy
variam em sentidos opostos – maiores
valores de xx correspondem a menores
valores de yy.
3. DADOS BIVARIADOS QUANTITATIVOS
Considere os dados apresentados na tabela
abaixo. O diagrama de dispersão é:
Matemática Estatística
12 14
13 15
10 10
11 12
18 16
16 15
12 13
14 13
18 16
18 17
Analisar
Analyse
Correlaciona
r
Correlate
Bivariável
Bivariate
Correlação linear
forte e positiva!
4. DADOS BIVARIADOS
Considere os dados apresentados na tabela ao lado que
traduzem as faltas ao trabalho e a distância (km) a que os
empregados estão de casa.
Distância (km) N.º Faltas
1 8
3 5
4 8
6 7
8 6
10 3
12 5
14 2
16 4
18 2
O diagrama evidencia agora uma associação
de sentido oposto, entre o n.º de faltas e a
distância. Assim quanto maior a distância
menor é a tendência para faltar.
O coeficiente de correlação linear de Pearson é
negativo! A correlação é forte mais negativa.
5. REGRESSÃO LINEAR SIMPLES
Em alguns casos duas variáveis relacionam-se de forma “determinística”, o
que significa que, dado um valor de uma variável, o valor da outra variável
fica automaticamente determinado sem qualquer erro.
Este é o caso da aplicação do IVA a um determinado produto:
Quando a relação não é determinística, opta-se pela reta que melhor
representa os dados. Esse critério baseia-se nas distâncias verticais entre os
pontos de dados originais e a reta de regressão.
Estas distâncias são designadas por “resíduos”
𝑦 = 1,23. 𝑥
Para uma amostra de dados emparelhados (x, y), um resíduo é a
diferença (y-𝑦) entre um valor amostra y observado e o valor de 𝑦, que é
o valor de y previsto pela reta de regressão
𝑟𝑒𝑠í𝑑𝑢𝑜(𝑒) = 𝑦𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 − 𝑦𝑝𝑟𝑒𝑣𝑖𝑠𝑡𝑜 = 𝑦 − 𝑦
6. REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
Uma reta satisfaz a propriedade dos
mínimos quadrados quando a soma dos
quadrados dos resíduos é a menor
possível!
Resíduos
(e’s)
𝑦𝑗 = 𝑏0 + 𝑏1𝑥1𝑗 + 𝑒𝑗
No modelo de regressão linear simples
assume-se que y é afectado por um
erro de medição, ou resíduo (ej)
enquanto que xj é um valor sem erro,
ou quando muito o seu erro é
desprezável face à sua amplitude de
variação.
Por outras palavras, a variável
dependente é aleatória enquanto
que as variáveis independentes são
fixas.
Se elevarmos ao quadrado os ej e os
somarmos (j=1, 2, …, n) podemos obter
uma estimativa de quão diferentes são
os valores estimados pela reta.
SQE =
𝑗=1
𝑛
𝑒𝑗
2
SQE – soma dos
quadrados dos erros
ou dos resíduos do
modelo.
7. REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
Interpretação dos coeficientes b1 e b0:
b0 corresponde à ordenada na origem, ou seja, ao valor da variável
dependente y quando x é igual a 0.
b1 corresponde exactamente ao declive e representa a variação esperada de
y por cada unidade de variação da variável independente x.
Se b1 for positivo significa que um aumento do valor de x produz um
aumento no valor de y.
Se b1 for negativo, um aumento do valor de x produz uma diminuição do
respectivo valor de y.
8. REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
Variável X Variável Y
1 3
2 5
3 7
4 9
5 11
2
1
)
(
)
(
)
(
x
xi
y
yi
x
xi
b
0
1 b
x
b
y
Considere o seguinte exemplo:
Quando se quer determinar a equação
da reta que relaciona os dados é
necessário em 1.º lugar determinar b1
(declive da reta) e em 2.º lugar b0
(ordenada na origem ou por outras
palavras é o valor de y quando x=0).
Assim recorre-se à fórmula:
Determinado b1, calcula-se b0
recorrendo à fórmula:
10. REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
Ainda com o mesmo exemplo:
Analisar
Analyse
Regressão
Regression
Linear
𝑦 = 1,000 + 2,000 ∗ 𝑥
𝑦 = 𝑏0 + 𝑏1 ∗ 𝑥
11. REGRESSÃO LINEAR SIMPLES
MÉTODO DOS MÍNIMOS QUADRADOS
Exercício:
Recorrendo ao SPSS, determine a melhor reta
que se adapta aos dados da tabela ao lado.
Matemática Estatística
12 14
13 15
10 10
11 12
18 16
16 15
12 13
14 13
18 16
18 17
𝑦 = 𝑏0 + 𝑏1𝑥 = 5,341 + 0,617 ∗ 𝑥
12. REGRESSÃO LINEAR SIMPLES
VALORES PREDITOS E RESÍDUOS
Os valores
preditos são os
valores de y
calculados a
partir da equação
da reta.
Os resíduos
correspondem às
diferenças entre
os valores
preditos e os
valores
observados para
y.
13. REGRESSÃO LINEAR SIMPLES
VALORES PREDITOS E RESÍDUOS
É importante guardar
os valores preditos e
os dos resíduos para
construir os gráficos
respetivos.
15. REGRESSÃO LINEAR SIMPLES
GRÁFICO DOS RESÍDUOS
Se o gráfico dos resíduos não revelar qualquer
padrão, a equação de regressão é uma boa
representação da associação entre as variáveis.
Diagrama de Dispersão dos Dados
Diagrama de Dispersão dos Resíduos
Ou Gráfico dos Resíduos
X 0 1 2 3 4 5 7 8 9 10
Y 1 4 8 18 19 24 36 43 42 47
Considere o seguinte exemplo:
Y=0,43 + 4,85 X
Reta de regressão
A reta parece representar adequadamente
os dados.
16. GRÁFICO DOS RESÍDUOS
Diagrama de Dispersão dos Dados
Diagrama de Dispersão dos Resíduos
Gráfico dos Resíduos
X 0 1 2 3 4 5 7 8 9 10
Y 1 6 9 15 10 35 15 60 75 20
Considere agora o seguinte exemplo:
Y=0,37 + 4,95 X
Reta de regressão
A reta não parece representar
adequadamente os dados!
Se o gráfico dos resíduos apresentar um
padrão sistemático, então a equação não
constitui uma boa representação da
associação entre as variáveis.
17. TÉCNICAS GRÁFICAS PARA ANÁLISE (INFORMAL)
DE RESÍDUOS
Papel de probabilidade normal: verificar a normalidade dos dados.
Analisar o gráfico dos quantis normais.
18. TÉCNICAS GRÁFICAS PARA ANÁLISE (INFORMAL)
DE RESÍDUOS
Resíduos vs valores ajustados: verifica a homoscedasticidade do modelo, isto é,
σ2 constante ou se é hommogénea.
Resíduos versus a ordem de recolha dos dados: avalia a hipótese de
independência dos dados.
Resíduos Studentizados versus valores ajustados: verifica se existem outliers em
Y.
Resíduos Padronizados versus valores ajustados: verifica se existem outliers em
Y (são outliers valores com scores fora de [-1,96; +1,96]).
19. GRÁFICO DOS
RESÍDUOS NO SPSS
Analisar
Analyse
Regressã
o
Regressio
n
Linear
Constrói-se o gráfico de dispersão usando RES_1 =f(X)
20. VARIAÇÃO ASSOCIADA AO MODELO DE
REGRESSÃO LINEAR SIMPLES
Usando dados emparelhados (x,y), descreve-se a variação que pode ser explicada
pela correlação linear entre x e y e a variação que não é explicada.
Torna-se pois necessário dispor de um método para a previsão, que é uma
estimativa intervalar para o valor previsto de y.
𝑫𝒆𝒔𝒗𝒊𝒐 𝑻𝒐𝒕𝒂𝒍 = 𝒅𝒆𝒔𝒗𝒊𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒐 + 𝒅𝒆𝒔𝒗𝒊𝒐 𝒏ã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒐
(𝐲 − 𝒚) = (𝒚 − 𝒚) + (𝒚 − 𝒚)
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 = 𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 + 𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒏ã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂
(𝐲 − 𝒚)𝟐
= (𝒚 − 𝒚)𝟐
+(𝒚 − 𝒚)𝟐
𝒓𝟐
=
𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒆𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂
𝒗𝒂𝒓𝒊𝒂çã𝒐 𝒕𝒐𝒕𝒂𝒍
SQT (soma quadrados total) = SQR (soma quadrados regressão) +SQE (soma quadrados erros)
22. AJUSTE DAS POPULAÇÕES DE DADOS AO
MODELO
Como a totalidade da população não está normalmente disponível, a primeira tarefa consiste
em calcular os coeficientes do modelo de regressão a partir de uma amostra representativa.
𝑦𝑗 = 𝑏0 + 𝑏1𝑥1𝑗
Equação da reta para a amostra
yi=b0 + b1x1j
Equação da reta para a
população
Depois de identificar a equação da reta
para os dados amostrais, importa
avaliar se o modelo se aplica ou não à
população.
Fonte de
Variação
SQ gl QM F P-valor
Regressão
𝑌
𝑗 − 𝑌
2 p SQR/p QMR/QME Valor entre
0 e 1
Erros
𝑌
𝑗 − 𝑌
2 n-p-1 SQE/(n-p-1)
Total
𝑌
𝑗 − 𝑌
2 n-1
A aplicação do modelo à
população é avaliada pela
Anova!!!
H0: b0 = b1 = 0
H1: pelo menos um bi ≠ 0
Teste
Anova:
Se p-valor < a rejeita-se H0, logo pelo menos um dos
bi ≠ 0 e assim sendo o modelo aplica-se à
populaçãode dados.
23. AJUSTE DAS POPULAÇÕES DE DADOS AO
MODELO
H0: b0 = b1 = 0
H1: pelo menos um bi ≠ 0
Teste Anova:
P-valor<0,001.
Como p-valor<a, rejeita-se H0.
Fica assim comprovado que o modelo se aplica à população de
dados!!!