Regressão linear com duas variáveis: conceitos básicos

Prof.SauloJardim–saulojardim@id.uff.br
Cap 2. Análise de regressão com
duas variáveis: algumas
ideias básicas
Prof. MSc. Saulo Jardim
Modelagem Estatística

 Trataremos agora o conceito de regressão de maneira mais formal.
 Regressão simples (com apenas duas variáveis).
 A análise de regressão trata, em grande parte, da estimação e/ou
previsão do valor médio (para a população) da variável dependente
com base nos valores conhecidos, ou fixados, da variável
explanatória.
 Dados do Exemplo 1: Eles se referem auma população total de 60
famílias de uma comunidade hipotética e sua renda (X) e despesas de
consumo(Y) semanais, ambas medidas em dólares. As 60 famílias foram
divididas em dez grupos de renda(de $ 80 a $ 260) e as despesas
semanais de cada família nos vários grupos são apresentadas na
tabela.

 É importante distinguir esses valores esperados condicionais dos
valores esperados incondicionais das despesas semanais de consumo,
E(Y).
 Se somarmos as despesas de consumo semanais das 60 famílias da
população e dividirmos esse total por 60, obteremos o número $
121,20 ($ 7.272/60), que é a média incondicional, ou esperada, das
despesas de consumo semanais, E(Y);
 Perguntas importantes:“Qual o valor esperado das despesas de consumo
semanais médias de uma família?” Mas se perguntarmos: “Qual o valor
esperado das despesas de consumo semanais de uma família cuja renda
mensal é de $ 140?”.
 Respostas: 121,20 e 101, respectivamente.

 Se unirmos os valores médios condicionais obteremos o que é
conhecido como linha de regressão populacional (LRP) ou, de modo
mais geral, a curva de regressão populacional.

 Conhecer a classe de renda pode nos permitir prever melhor o valor
médio das despesas de consumo do que se não tivermos esse dado.
Esta, é a essência da análise de regressão.
 Em termos geométricos, uma curva de regressão populacional é apenas
o local geométrico das médias condicionais da variável dependente
para os valores fixados da(s) variável(is) explanatória(s).
 Na figura abaixo, para cada X (isto é, nível de renda), há uma
população de valores de Y (despesas de consumo semanais) que se
espalham em torno da média (condicional) desses valores de Y. Para
simplificarmos, pressupomos que esses valores de Y distribuem-se
simetricamente em torno de seus respectivos valores médios
(condicionais) e que a linha (ou curva) passa por esses valores
médios (condicionais).

 Relembrando a definição de Regressão:
A análise de regressão diz respeito ao estudo da dependência
de uma variável, a variável dependente, em relação a uma ou
mais variáveis, as variáveis explanatórias, visando estimar
e/ou prever o valor médio (da população) da primeira em
termos dos valores conhecidos ou fixados (em amostragens
repetidas) das segundas.

 Cada média condicional 𝐸(𝑌|𝑋𝑖) é uma função de 𝑋𝑖, em que 𝑋𝑖 é um dado
valor de X. Simbolicamente,
 Conhecida também como a função de esperança condicional (FEC) ou
função de regressão populacional (FRP).
 Qual é a forma assumida pela função f(𝑋𝑖)? Supondo que FRP 𝐸(𝑌|𝑋𝑖) é
uma função linear de 𝑋𝑖 do tipo:
CONCEITO DE FUNÇÃO DE REGRESSÃO POPULACIONAL (FRP)

 𝛽1 e 𝛽2 são parâmetros desconhecidos, mas fixos, chamados de
coeficientes de regressão;
 𝛽1 e 𝛽2 também são conhecidos como intercepto e coeficiente angular,
respectivamente.
 Nosso interese na Análise de Regreessão, é estimar os valores de
incógnitas como 𝛽1 e 𝛽2com base nas observações de Y e X.

 Em termos geométricos, a curva de regressão nesse caso é uma reta.
 Sob essa interpretação, uma função de regressão como
𝑬 𝒀 𝑿𝒊 = 𝜷 𝟏 + 𝜷 𝟐 𝑿 𝟐
não é uma função linear, porque a variável X aparece com um expoente
ou índice de 2.
O SIGNIFICADO DO TERMO LINEAR
LINEARIDADE NOS PARÂMETROS
 Um modelo não linear nos parâmetros: 𝑬 𝒀 𝑿𝒊 = 𝜷 𝟏 + 𝜷 𝟐
𝟐
X

 Tabela 2.1 e a Figura
2.1 mostram que as
despesas de consumo de
uma família não
aumentam
necessariamente quando
aumenta seu nível de
renda. CERTO ?
ESPECIFICAÇÃO ESTOCÁSTICA DA FRP

 O que podemos dizer sobre a relação entre as despesas de consumo de
uma família e um nível de renda? Vemos na Figura 2.1 que para um
nível de renda 𝑋𝑖 as despesas médias de consumo de uma família
agrupam-se em torno do consumo médio de todas as famílias deste
nível 𝑋𝑖 , isto é, em torno de sua esperança condicional. Portanto,
podemos expressar o desvio individual de 𝑌𝑖 em torno de seu valor
esperado como a seguir:
 em que o desvio 𝑢𝑖 é uma variável aleatória não-observável que assume
valores positivos ou negativos. Tecnicamente, 𝑢𝑖 é conhecida como
distúrbio estocástico ou termo de erro estocástico.

 Podemos dizer que a despesa de consumo de uma família individual,
dado seu nível de renda, pode ser expressa como a soma de dois
componentes: (1) 𝐸(𝑌|𝑋𝑖) , que é simplesmente o gasto médio em consumo
de todas as famílias com o mesmo nível de renda (esse componente é
conhecido como sistemático ou determinístico); e (2) 𝑢𝑖 , que é o
componente aleatório ou não-sistemático.
 Podemos escrever a equação da seguinte maneira:

 Se tomarmos o valor esperado nos dois lados da equação, obtemos:
 em que levamos em consideração o fato de que o valor esperado de uma
constante é a própria constante. Observe que 𝐸 𝑌 𝑋𝑖 , uma vez que o
valor de 𝑋𝑖 é fixo, é uma constante.
 Observe atentamente que, na Equação, tomamos a esperança condicional
condicionada a um dado X. Como 𝐸 𝑌𝑖 𝑋𝑖 é o mesmo que 𝐸 𝑌 𝑋𝑖 , a
Equação implica que

 Assim, a suposição de que a linha de regressão passa pelas médias
condicionais de Y implica que os valores médios condicionais de 𝑢𝑖
(condicionados a um dado X) sejam iguais a zero.
 O termo de erro ui representa todas as variáveis omitidas no modelo,
mas que coletivamente afetam Y.
 A pergunta óbvia é: por que não introduzir essas variáveis
explicitamente no modelo? Ou seja, por que não formular um modelo de
regressão com o máximo de variáveis possíveis? Há muitas razões:
O SIGNIFICADO DO TERMO “ERRO ESTOCÁSTICO”

 1- Caráter vago da teoria.
 2- Indisponibilidade de dados.
 3- Variáveis essenciais versus variáveis periféricas/secundárias.
 4- Caráter intrinsecamente aleatório do comportamento humano (mesmo se
conseguirmos incluir todas as variáveis relevantes no modelo, sempre haverá uma aleatoriedade
“intrínseca” nos Y individuais que não pode ser explicada por mais que nos esforcemos para tanto. Os
termos de erro, os u, podem refletir bem a aleatoriedade intrínseca.)
 5- Variáveis proxy pouco adequadas.
 6- Princípio da parcimônia (de acordo com a navalha de Occam,12 o ideal seria formular
o modelo de regressão mais simples possível.).
 7-Forma funcional errada (função linear ou não linear?).

 Nossa tarefa agora é estimar a função de regressão com base em
informações amostrais.
 A pergunta é: com base na amostra da Tabela 2.4, é possível prever
as despesas médias de consumo semanais Y para a população como um
todo correspondentes aos X escolhidos? Em outras palavras, podemos
estimar a FRP com base nos dados da amostra?
 Não seremos capazes de estimar “precisamente” a FRP devido a
variações amostrais.
A FUNÇÃO DE REGRESSÃO AMOSTRAL (FRA)

 Exemplo:

 Qual das duas linhas de regressão representa a linha de regressão
populacional “real”?
 Não há como ter certeza absoluta de qual das linhas de regressão
representa a verdadeira linha (ou curva) de regressão populacional.
Devido às variações amostrais, elas são, no máximo, aproximações da
verdadeira regressão populacional.
 Agora, tal como no caso da FRP subjacente à linha de regressão
populacional, podemos formular o conceito de função de regressão
amostral (FRA) para representar a linha de regressão da amostra.

 Observe que um estimador, também conhecido como estatística
(amostral), é apenas uma regra ou fórmula ou método que nos diz como
estimar o parâmetro da população com base nas informações oferecidas
pela amostra que temos à mão. Um valor numérico em particular obtido
pela aplicação do estimador é conhecido como estimativa.
 Podemos expressar a FRA na Equação em sua forma estocástica como a
seguir:

 Resumindo, então, verificamos que nosso objetivo primordial na
análise de regressão é estimar a FRP:
 com base na FRA
 Obviamente, 𝑌𝑖 superestima a verdadeira 𝐸 𝑌 𝑋𝑖 para o 𝑋𝑖 nela
mostrado. Da mesma forma, para cada 𝑋𝑖 à esquerda do ponto A, a FRA
subestimará a verdadeira FRP. Contudo, pode ver facilmente que essas
sobre e subestimações são inevitáveis devido às variações amostrais.

 A pergunta crítica agora é: sabendo que a FRA não é mais do que uma
aproximação da FRP, podemos formular uma regra ou um método que
torne essa aproximação a mais próxima possível? Em outras palavras,
como devemos formular a FRA para que 𝛽1fique o mais próximo possível
do verdadeiro 𝜷 𝟏 e 𝛽2 do verdadeiro 𝜷 𝟐 , mesmo que nunca venhamos a
saber quais são os verdadeiros 𝜷 𝟏 e 𝜷 𝟐?
 A resposta para essa pergunta ocupará grande parte de nossa atenção
no Capítulo 3. Aqui destacamos que é possível desenvolver
procedimentos que nos digam como formular a FRA a fim de espelhar
FRP o mais fielmente possível. É fascinante considerar que isso pode
ser feito mesmo que nunca determinemos a FRP real.

Aplicação no R

Anos de Estudo Salário Médio ($/hora) Número de pessoas
6 4,45 3
7 5,77 5
8 5,97 15
9 7,33 12
10 7,31 17
11 5,58 27
12 7,81 218
13 7,83 37
14 11,02 56
15 10,67 13
16 10,83 70
17 13,61 24
18 13,53 31

Regressão linear com duas variáveis: conceitos básicos

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Regressão linear com duas variáveis: conceitos básicos

Semelhante a Regressão linear com duas variáveis: conceitos básicos (20)

Último

Último (20)

Regressão linear com duas variáveis: conceitos básicos