2. Prof.SauloJardim–saulojardim@id.uff.br
Trataremos agora o conceito de regressão de maneira mais formal.
Regressão simples (com apenas duas variáveis).
A análise de regressão trata, em grande parte, da estimação e/ou
previsão do valor médio (para a população) da variável dependente
com base nos valores conhecidos, ou fixados, da variável
explanatória.
Dados do Exemplo 1: Eles se referem auma população total de 60
famílias de uma comunidade hipotética e sua renda (X) e despesas de
consumo(Y) semanais, ambas medidas em dólares. As 60 famílias foram
divididas em dez grupos de renda(de $ 80 a $ 260) e as despesas
semanais de cada família nos vários grupos são apresentadas na
tabela.
4. Prof.SauloJardim–saulojardim@id.uff.br
É importante distinguir esses valores esperados condicionais dos
valores esperados incondicionais das despesas semanais de consumo,
E(Y).
Se somarmos as despesas de consumo semanais das 60 famílias da
população e dividirmos esse total por 60, obteremos o número $
121,20 ($ 7.272/60), que é a média incondicional, ou esperada, das
despesas de consumo semanais, E(Y);
Perguntas importantes:“Qual o valor esperado das despesas de consumo
semanais médias de uma família?” Mas se perguntarmos: “Qual o valor
esperado das despesas de consumo semanais de uma família cuja renda
mensal é de $ 140?”.
Respostas: 121,20 e 101, respectivamente.
5. Prof.SauloJardim–saulojardim@id.uff.br
Se unirmos os valores médios condicionais obteremos o que é
conhecido como linha de regressão populacional (LRP) ou, de modo
mais geral, a curva de regressão populacional.
6. Prof.SauloJardim–saulojardim@id.uff.br
Conhecer a classe de renda pode nos permitir prever melhor o valor
médio das despesas de consumo do que se não tivermos esse dado.
Esta, é a essência da análise de regressão.
Em termos geométricos, uma curva de regressão populacional é apenas
o local geométrico das médias condicionais da variável dependente
para os valores fixados da(s) variável(is) explanatória(s).
Na figura abaixo, para cada X (isto é, nível de renda), há uma
população de valores de Y (despesas de consumo semanais) que se
espalham em torno da média (condicional) desses valores de Y. Para
simplificarmos, pressupomos que esses valores de Y distribuem-se
simetricamente em torno de seus respectivos valores médios
(condicionais) e que a linha (ou curva) passa por esses valores
médios (condicionais).
8. Prof.SauloJardim–saulojardim@id.uff.br
Relembrando a definição de Regressão:
A análise de regressão diz respeito ao estudo da dependência
de uma variável, a variável dependente, em relação a uma ou
mais variáveis, as variáveis explanatórias, visando estimar
e/ou prever o valor médio (da população) da primeira em
termos dos valores conhecidos ou fixados (em amostragens
repetidas) das segundas.
9. Prof.SauloJardim–saulojardim@id.uff.br
Cada média condicional 𝐸(𝑌|𝑋𝑖) é uma função de 𝑋𝑖, em que 𝑋𝑖 é um dado
valor de X. Simbolicamente,
Conhecida também como a função de esperança condicional (FEC) ou
função de regressão populacional (FRP).
Qual é a forma assumida pela função f(𝑋𝑖)? Supondo que FRP 𝐸(𝑌|𝑋𝑖) é
uma função linear de 𝑋𝑖 do tipo:
CONCEITO DE FUNÇÃO DE REGRESSÃO POPULACIONAL (FRP)
10. Prof.SauloJardim–saulojardim@id.uff.br
𝛽1 e 𝛽2 são parâmetros desconhecidos, mas fixos, chamados de
coeficientes de regressão;
𝛽1 e 𝛽2 também são conhecidos como intercepto e coeficiente angular,
respectivamente.
Nosso interese na Análise de Regreessão, é estimar os valores de
incógnitas como 𝛽1 e 𝛽2com base nas observações de Y e X.
11. Prof.SauloJardim–saulojardim@id.uff.br
Em termos geométricos, a curva de regressão nesse caso é uma reta.
Sob essa interpretação, uma função de regressão como
𝑬 𝒀 𝑿𝒊 = 𝜷 𝟏 + 𝜷 𝟐 𝑿 𝟐
não é uma função linear, porque a variável X aparece com um expoente
ou índice de 2.
O SIGNIFICADO DO TERMO LINEAR
LINEARIDADE NOS PARÂMETROS
Um modelo não linear nos parâmetros: 𝑬 𝒀 𝑿𝒊 = 𝜷 𝟏 + 𝜷 𝟐
𝟐
X
13. Prof.SauloJardim–saulojardim@id.uff.br
Tabela 2.1 e a Figura
2.1 mostram que as
despesas de consumo de
uma família não
aumentam
necessariamente quando
aumenta seu nível de
renda. CERTO ?
ESPECIFICAÇÃO ESTOCÁSTICA DA FRP
14. Prof.SauloJardim–saulojardim@id.uff.br
O que podemos dizer sobre a relação entre as despesas de consumo de
uma família e um nível de renda? Vemos na Figura 2.1 que para um
nível de renda 𝑋𝑖 as despesas médias de consumo de uma família
agrupam-se em torno do consumo médio de todas as famílias deste
nível 𝑋𝑖 , isto é, em torno de sua esperança condicional. Portanto,
podemos expressar o desvio individual de 𝑌𝑖 em torno de seu valor
esperado como a seguir:
em que o desvio 𝑢𝑖 é uma variável aleatória não-observável que assume
valores positivos ou negativos. Tecnicamente, 𝑢𝑖 é conhecida como
distúrbio estocástico ou termo de erro estocástico.
15. Prof.SauloJardim–saulojardim@id.uff.br
Podemos dizer que a despesa de consumo de uma família individual,
dado seu nível de renda, pode ser expressa como a soma de dois
componentes: (1) 𝐸(𝑌|𝑋𝑖) , que é simplesmente o gasto médio em consumo
de todas as famílias com o mesmo nível de renda (esse componente é
conhecido como sistemático ou determinístico); e (2) 𝑢𝑖 , que é o
componente aleatório ou não-sistemático.
Podemos escrever a equação da seguinte maneira:
16. Prof.SauloJardim–saulojardim@id.uff.br
Se tomarmos o valor esperado nos dois lados da equação, obtemos:
em que levamos em consideração o fato de que o valor esperado de uma
constante é a própria constante. Observe que 𝐸 𝑌 𝑋𝑖 , uma vez que o
valor de 𝑋𝑖 é fixo, é uma constante.
Observe atentamente que, na Equação, tomamos a esperança condicional
condicionada a um dado X. Como 𝐸 𝑌𝑖 𝑋𝑖 é o mesmo que 𝐸 𝑌 𝑋𝑖 , a
Equação implica que
17. Prof.SauloJardim–saulojardim@id.uff.br
Assim, a suposição de que a linha de regressão passa pelas médias
condicionais de Y implica que os valores médios condicionais de 𝑢𝑖
(condicionados a um dado X) sejam iguais a zero.
O termo de erro ui representa todas as variáveis omitidas no modelo,
mas que coletivamente afetam Y.
A pergunta óbvia é: por que não introduzir essas variáveis
explicitamente no modelo? Ou seja, por que não formular um modelo de
regressão com o máximo de variáveis possíveis? Há muitas razões:
O SIGNIFICADO DO TERMO “ERRO ESTOCÁSTICO”
18. Prof.SauloJardim–saulojardim@id.uff.br
1- Caráter vago da teoria.
2- Indisponibilidade de dados.
3- Variáveis essenciais versus variáveis periféricas/secundárias.
4- Caráter intrinsecamente aleatório do comportamento humano (mesmo se
conseguirmos incluir todas as variáveis relevantes no modelo, sempre haverá uma aleatoriedade
“intrínseca” nos Y individuais que não pode ser explicada por mais que nos esforcemos para tanto. Os
termos de erro, os u, podem refletir bem a aleatoriedade intrínseca.)
5- Variáveis proxy pouco adequadas.
6- Princípio da parcimônia (de acordo com a navalha de Occam,12 o ideal seria formular
o modelo de regressão mais simples possível.).
7-Forma funcional errada (função linear ou não linear?).
19. Prof.SauloJardim–saulojardim@id.uff.br
Nossa tarefa agora é estimar a função de regressão com base em
informações amostrais.
A pergunta é: com base na amostra da Tabela 2.4, é possível prever
as despesas médias de consumo semanais Y para a população como um
todo correspondentes aos X escolhidos? Em outras palavras, podemos
estimar a FRP com base nos dados da amostra?
Não seremos capazes de estimar “precisamente” a FRP devido a
variações amostrais.
A FUNÇÃO DE REGRESSÃO AMOSTRAL (FRA)
22. Prof.SauloJardim–saulojardim@id.uff.br
Qual das duas linhas de regressão representa a linha de regressão
populacional “real”?
Não há como ter certeza absoluta de qual das linhas de regressão
representa a verdadeira linha (ou curva) de regressão populacional.
Devido às variações amostrais, elas são, no máximo, aproximações da
verdadeira regressão populacional.
Agora, tal como no caso da FRP subjacente à linha de regressão
populacional, podemos formular o conceito de função de regressão
amostral (FRA) para representar a linha de regressão da amostra.
23. Prof.SauloJardim–saulojardim@id.uff.br
Observe que um estimador, também conhecido como estatística
(amostral), é apenas uma regra ou fórmula ou método que nos diz como
estimar o parâmetro da população com base nas informações oferecidas
pela amostra que temos à mão. Um valor numérico em particular obtido
pela aplicação do estimador é conhecido como estimativa.
Podemos expressar a FRA na Equação em sua forma estocástica como a
seguir:
24. Prof.SauloJardim–saulojardim@id.uff.br
Resumindo, então, verificamos que nosso objetivo primordial na
análise de regressão é estimar a FRP:
com base na FRA
Obviamente, 𝑌𝑖 superestima a verdadeira 𝐸 𝑌 𝑋𝑖 para o 𝑋𝑖 nela
mostrado. Da mesma forma, para cada 𝑋𝑖 à esquerda do ponto A, a FRA
subestimará a verdadeira FRP. Contudo, pode ver facilmente que essas
sobre e subestimações são inevitáveis devido às variações amostrais.
26. Prof.SauloJardim–saulojardim@id.uff.br
A pergunta crítica agora é: sabendo que a FRA não é mais do que uma
aproximação da FRP, podemos formular uma regra ou um método que
torne essa aproximação a mais próxima possível? Em outras palavras,
como devemos formular a FRA para que 𝛽1fique o mais próximo possível
do verdadeiro 𝜷 𝟏 e 𝛽2 do verdadeiro 𝜷 𝟐 , mesmo que nunca venhamos a
saber quais são os verdadeiros 𝜷 𝟏 e 𝜷 𝟐?
A resposta para essa pergunta ocupará grande parte de nossa atenção
no Capítulo 3. Aqui destacamos que é possível desenvolver
procedimentos que nos digam como formular a FRA a fim de espelhar
FRP o mais fielmente possível. É fascinante considerar que isso pode
ser feito mesmo que nunca determinemos a FRP real.