Modelo de regresion lineal

Apuntes de Econometría EMI – Ingeniería Comercial

MODELO DE REGRESIÓN LINEAL

2.1 Estimación por Mínimos Cuadrados Ordinarios (MCO)

Sea el siguiente modelo lineal simple:

Yi   1   2 X i   i (11)
i  1.. N

En base a una muestra de tamaño N , es posible estimar los parámetros del modelo.

Un criterio muy utilizado es el de Mínimos Cuadrados Ordinaros (MCO).

Este método consiste en la minimización de la suma de los residuos del modelo elevados al
cuadrado.

El programa de Minimización es el siguiente:

N N
Min     (Yi   1   2 X i ) 2  f (  1 ,  2 )
2
i
1 , 2
i 1 i 1

Se eleva al cuadrado de tal manera de ponderar o castigar más a las observaciones más
alejadas a la FRM y menos a las más cercanas.

Asimismo a fin de evitar que los valores positivos se eliminen con los negativos.

Como se verá más adelante, el criterio MCO tiene propiedades estadísticas muy deseables.

Nótese:
Yi   1   2 X i   i
 i  Yi   1   2 X i
 i2  (Yi   1   2 X i ) 2
N N


i 1
2
i   (Yi   1   2 X i ) 2
i 1
(12)

Condición de primer orden:

   i2
 2 (Yi   1   2 X i )  0
ˆ ˆ
 1
 (Y i   1   2 X i )   Yi  N 1   2  X i  0
ˆ ˆ ˆ ˆ
N 1   2  X i   Yi
ˆ ˆ

1


  i2
 2 (Yi  1   2 X i ) X i  0
ˆ ˆ
 2
 (Y  ˆ  ˆ X ) X   Y X
i 1 2 i i i i  1  X i   2  X i2  0
ˆ ˆ
  X    X  Y X
ˆ 1
ˆi 2 i
2
i i

Por tanto, las denominadas ecuaciones normales son:

N 1   2  X i   Yi
ˆ ˆ
 1  X i   2  X i2   Yi X i
ˆ ˆ

Resolviendo el sistema de ecuaciones normales se obtienen las siguientes soluciones:

N

x i yi
ˆ
2  i 1
(13)
N

x
i 1
2
i

ˆ ˆ
1  Y   2 X (14)

Donde:
xi  ( X i  X )
yi  (Yi  Y ) X , Y

X , Y Son las medias muestrales de X i y Y i

2.2Propiedades de la solución MCO

1) Nótese que las estimaciones de los parámetros del modelo están en función de las variables
del modelo, en términos observables.

Si variamos la muestra de datos, tendremos diferentes estimaciones de los parámetros, de la
LRM y de la estimación de los errores del modelo.

2) Obtenemos estimadores puntuales de los parámetros.

Los estimadores por intervalos los veremos más adelante.

3) La LRM se puede escribir como:

2


ˆ ˆ
Yi   1   2 X i
ˆ
ˆ ˆ
Yi  Y   2 X   2 X i
ˆ
ˆ
Yi  Y   2 ( X i  X ) (15)
ˆ
4)
ˆ
Yi  Y
Si :
ˆ
Yi  Y   2 ( X i  X )
ˆ

 Yi   (Y  ˆ2 ( X i  X )) NY  ˆ2  ( X i  X )
ˆ

ˆ
Yi 
Y
ˆ i
Y
N
N
(X i  X )   X i  NX 
N
X i  NX  NX  NX  0

5)La LRM pasa por las medias muestrales:

ˆ ˆ
 1  Y   2 X (16)
ˆ ˆ
Y  1   2 X

6)

ˆ i 0

Al minimizar la ecuación (12) respecto a  1 obtuvimos la condición de primer orden:

   i2
 2 (Yi   1   2 X i )  0
ˆ ˆ
 1
  (Yi   1   2 X i )   ui  0
ˆ ˆ ˆ

7)
 X
ˆ i i 0

Al minimizar la ecuación (2) respecto a  2 obtuvimosque:

   i2
 2 (Yi   1   2 X i ) X i  0
ˆ ˆ
 2
  (Yi   1   2 X i ) X i    i X i  0
ˆ ˆ ˆ

3


8)El modelo en desviaciones a la media

Yi   1   2 X i   i (11)
ˆ ˆ
Yi   1   2 X i   i (10)
ˆ
Yi  
ˆ ˆ 1   2 X i ( 9)
ˆ
ˆ ˆ
Y   1   2 X (16)

Restando a (10), (16), obtenemos:

ˆ ˆ ˆ ˆ ˆ ˆ
Yi  Y   1   1   2 X i   2 X   i  y i   2 x i   i
ˆ (10)

Restando a (9), (16), obtenemos:
ˆ ˆ ˆ
Yi  Y  y i   2 x i (17)

Operando sobre (11) también se puede obtener:

y i   2 x i   i  u   2 x i   i* (18)

9)
 y
ˆ ˆ i i 0
  y   
ˆ ˆ
i iˆ ˆ i 2 xi  2
ˆ   X
ˆ i i  X  i  0
ˆ 

2.3Supuestos de la estimación MCO

Sean los siguientes supuestos de la estimación de MCO-Modelo clásico de regresión lineal:
1. El modelo de regresión es lineal en los parámetros
2. Los valores de X son fijos en muestreo repetido
3. El valor esperado de la perturbación estocástica condicionada en los valores X’s es
igual a cero
4. Homoscedasticidad
5. Ausencia de autocorrelación en los errores
6. El modelo está correctamente especificado
7. Existe suficiente variabilidad en la(s) variable(s) explicativa(s)

1. El modelo de regresión es lineal en los parámetros

Yi   1   2 X i   i (11)

Esto claramente se ve en la ecuación (11).

4


Este supuesto se cumple mientras los parámetros del modelo son lineales en la LRP (es decir
en la esperanza condicional de Y i )

2. Los valores de X son fijos en muestreo repetido: las X’s no son estocásticas

El investigador selecciona las X y en base a los valores de X realiza un muestreo aleatorio de
la variable dependiente.

Por ejemplo, selecciona X=80 y luego selecciona aleatoriamente el valor de Y.

Inicialmente se realiza el análisis de regresión condicionado en las X’s.

3. El valor esperado de la perturbación estocástica es igual a cero

Esto quiere decir que los valores de  i no afectan sistemáticamente a los valores de Y i

Si:
Yi   1   2 X i  ui (11)
E  i / X i   0 i  1...N
Entonces:
E (Yi / X i )  E (  1   2 X i   i / X i )
E (Yi / X i )  E (  1   2 X i / X i )  E (  i / X i )
E (Yi / X i )   1   2 X i

4. Homoscedasticidad o igual varianza de la perturbación estocástica del modelo

Las varianzas condicionales de la perturbación estocástica son iguales.

Bajo este supuesto:


var( i / X i )  E (  i  E (  i ))2 / X i 
var( i / X )  E (  )
i i
2
/ Xi 
var( i / X i )   2 (19)
i  1...N

El supuesto anterior implica que:

5


var(Yi / X i )  var( 1   2 X i   i / X i )
var(Yi / X i )  var( i / X i )   2

Este resultado se obtiene fácilmente, ya sea utilizando las propiedades de la varianza o
mediante la definición de varianza.

LRP

5. No existen problemas de autocorrelación de los errores


cov(  t  t  j / X t , X t  j )  E (  t  E (  t ))(  t  j  E (  t  j )) / X t , X t  j 
cov(  t  t  j / X t , X t  j )  E (  
t t j 
/ X t , X t  j  0 ( 20)
 t  1..T j  1,2,...
El problema de autocorrelación es generalmente un problema de series de tiempo.

La ausencia de autocorrelación implica que Y t depende sistemáticamente y únicamente de X t
.

Si existieran problemas de autocorrelación, también dependería sistemáticamente de los
errores rezagados del modelo.

6


6. No existen problemas de correlación entre la(s) variable(s) explicativa(s) y el término
de error

cov( i X i / X i )  0 (21)
i  1..N

El segundo supuesto garantiza que esto se cumpla. Al ser las X’s determinísticas la covarianza
con el término de error es 0.

Más adelante se levantará el supuesto de no aleatoriedad y se verán las consecuencias.

7. El número de observaciones debe ser por lo menos igual al número de parámetros a
estimar
Nk
k es el número de parámetros a estimar. k  2 en el modelo de regresión simple.

8. Existe suficiente variabilidad en las X’s

Esto se puede comprender mejor utilizando la solución:
N

x i yi
ˆ
2  i 1
N

x
i 1
2
i

Si las X’s no tuvieran variabilidad entonces:
N

x
i 1
2
i 0

7


Ello implicaría que la solución sería indeterminada.

9. El modelo está correctamente especificado

+ Todas las variables importantes están incluidas en el modelo.

+ La forma funcional es la correcta.

+ El modelo está bien definido en términos de las ecuaciones necesarias.

+ Los supuestos probabilisticos sobre Yi, Xi y ui son los correctos.

+ Las variables se miden correctamente.

+ En general, no se ha cometido ningún error de especificación.

De haberlo hecho, dependiendo del tipo de error, ello tendría implicaciones más o menos
serias sobre las propiedades de los estimadores MCO.

10. En un modelo de regresión múltiple, se agrega el supuesto de ausencia de
multicolinealidad

Ninguna de las variables explicativas puede ser escrita como combinación lineal de las otras
variables explicativas del modelo (incluyendo la constante).

2.4Propiedades del estimador de MCO bajo los supuestos del modelo lineal clásico

Bajo los supuestos del modelo lineal clásico, los estimadores MCO son los Mejores
Estimadores Lineales Insesgados (MELI o BLUE)

1) Los estimadores son una función lineal de la variable aleatoria dependiente

ˆ
2 
x y i i
  ki yi
x 2
i
Donde:
xi
ki 
 xi2
Nótese:
x x 2

k  x  0; k x  1
i i

 x
i 2 i i 2
i i
Por tanto:

8


 2   ki (Yi  Y )   kiYi  Y  ki  kiYi
ˆ

2) Los estimadores son insesgados

 x y  k y  k ( x  
ˆ
2     )
i i

x 2 i i i 2 i i
i

   k  x   k    k
ˆ 2 i 2 i i i i

     k  ( 22)
ˆ 2 2 i i

Tomando el valor esperado a la ecuación 22 y sabiendo que las X’s son determinísticas

  
E  2  E  2   ki i
ˆ 
E    E     k E  
ˆ 2 2 i i

E    
ˆ 2 2

3) Estimador MELI.

Para mostrar que los estimadores son MELI, debemos encontrar la varianza de los mismos.
Para  2 :
ˆ
 2   2   ki i
ˆ
 2   2   ki i
ˆ
ˆ ˆ ˆ
Var (  2 )  E (  2  E (  2 ))2  
ˆ ˆ 
Var (  2 )  E (  2   2 ) 2 
ˆ
Var (  2 )  E (  k  )  i i
2

Var (  2 )  (  k i E (  i )) 2
ˆ

ˆ  
Var (  2 )  E k 12  12  ...  k N  N  2 k 1 k , 2  1  2  ...  k N 1 k N  N 1  N
2 2

ˆ 
Var (  2 )  k 12 E ( u1 )  ...  k N E ( u N )  2 k 1 k , 2 E (  1  2 )  ...  k N 1 k N E (  N 1  N )
2 2 2

Utilizando los supuestos de homoscedasticidad y no autocorrelación:

x1  2  ...  x N  2
2 2
2
ˆ
Var (  2 )  
( x i2 ) 2  x i2

Teorema Gauss-Markov

El Estimador MCO es de Mínima Varianza entre los estimadores lineales e insesgados.

9


Sea:
 2   kiYi
ˆ

Definamos un estimador lineal e insesgado alternativo:

 2   wiYi
~

 2   wi ( 1   2 X i  i )
~
~  w (    X   )
E  2   E i 1 2 i i

E     E  w    E  w X   E  w  
~
2 1 i 2 i i i i

E  2    1  w i   2  w i X i
~

E  2    2 Si :  w i  0; w X
~
i i 1

Sea:

Var  2   Var
~  w Y    w Var(Y )    w
i i
2
i i
2 2
i
2 2 2
 xi xi   xi   xi  x i   
 w    wi 
2
     wi    2  w i       xi 
  x i2  x i2    x i2    x i2   x 2    x2 
i
      i   i 
2
 xi  1
 w    wi 
2  
  x i2   x i2
i
 

La expresión se minimiza cuando:
xi
wi 
 xi2
De lo que resulta que:

 2   w i yi 
~ x y i i
ˆ
 2
x 2
i

~ 2
Var (  2 ) 
 xi2
Por tanto, queda demostrado que el estimador lineal e insesgado que minimiza la varianza es
el de MCO.

Posteriormente, con un enfoque matricial se generalizará este resultado.

10


En el modelo lineal simple también se puede demostrar que:

 2  X i2
var  1  
ˆ
N  x i2
ˆ ˆ ˆ
cov(  1  2 )   X var(  2 )

Para tener una estimación de la varianza de los parámetros es necesario contar con una
estimación de la varianza de los errores.

Se plantea el siguiente estimador insesgado:

2 
ˆ

ˆ
2
i

N 2

(En el modelo lineal general, se hará la demostración del insesgamiento de este estimador de
la varianza de los errores).

2.5 Prueba de Bondad de Ajuste: coeficiente de determinación R2

Si:
y i  y i  ui
ˆ ˆ

Al cuadrado y sumando:

y 2
i
  ( y i  ui ) 2
ˆ ˆ

y   y i  2 y i u i   u i
2 2 2
i
ˆ ˆ ˆ ˆ

Pero:

yu
ˆ ˆ i i 0

Entonces:

y   y i   ui
2 2 2
i
ˆ ˆ

STC  SEC  SRC

STC = Suma Total de Cuadrados
SEC = Suma Explicada de Cuadrados
SRC = Suma de Residuos al Cuadrado

La STC es la variación total de la variable dependiente respecto a su media.

11


La SEC es la variación de la variable dependiente respecto a su media explicada por la
regresión estimada.

La SRC es la variación de la variable dependiente respecto a su media que no es explicada por
la regresión estimada.

El R 2 o coeficiente de determinación se define como la proporción de la variación total
explicada por la regresión.

En términos de las ecuaciones vistas:

y
2
ˆ

2 i
R
y 2
i

También puede expresarse como:

y  ( ˆ x )  ˆ  x
2 2
ˆ 2 2

 
2 i 2 i 2 i
R
y 2
i y y 2
i
2
i

  x /( N  1)  S
ˆ ˆ
2 2 2 2
 
2 i
R2 2 X

 y /( N  1)
2
i
S 2
Y

2 2
Donde S X y S Y son las varianzas muestrales de X y Y respectivamente.

Asimismo:

12


 x y   x
 22  x i
ˆ 2 2 2

  
2 i i i
R
y  x   y
2
i
2 2
i
2
i

 x y /( N  1) S
2
2
R2    r2
i i XY

x /( N  1) y i /( N  1)
2 2 2 2
i
SX SX

Donde r es el coeficiente de correlación simple entre X y Y , y S XY es la covarianza muestral
entre X y Y.

El R 2 también se puede escribir como:

u
2
ˆ
1
2 i
R
y 2
i

2
El R implica que:
0  R2  1

Un R 2 próximo a 1 implica un buen ajuste.

Por el contrario, cuando se aproxima a 0 implica un mal ajuste.

2.6Supuesto de Normalidad de los errores

Se agrega un supuesto adicional, donde los errores del modelo se distribuyen normalmente:
 i  N ( 0,  2 )

Sin la necesidad de este nuevo supuesto, los estimadores eran MELI.

Sin embargo, eran estimadores puntuales para los cuales no se podía construir intervalos de
confianza.

El supuesto de normalidad permite, entre otras cosas solucionar este inconveniente.

Dado además el supuesto de ausencia de correlación entre los errores y el de
homoscedasticidad, se puede decir que los errores del modelo están normal idéntica e
independientemente distribuidos (iid).

¿Es razonable este supuesto?

R. Sí lo es en la medida que se considere que la perturbación estocástica en i, mide el efecto
neto de un conjunto grande de variables/factores independientes.

13


Bajo el Teorema del Límite Central si la perturbación estocástica en i es la suma de un
conjunto grande (que tiende a infinito) de variables aleatorias distribuidas independientemente
unas de otras, entonces tendrá una distribución normal.

Incluso si no es un conjunto grandes de variables/factores, la suma podrá aproximarse
mediante una distribución normal.

La utilización de la distribución genera algunas propiedades deseables además de que hace
manejable la utilización de los estimadores (los intervalos de confianza y pruebas de hipótesis
se manejan en función a dos parámetros: la media y la varianza (y covarianzas) de los
estimadores)

¿Cuáles son las Implicaciones?

R. Gracias al supuesto de normalidad, los estimadores tendrán adicionalmente las siguientes
propiedades:

1) Los estimadores son consistentes
2) Los estimadores se distribuyen normalmente
3) Los estimadores son MEI
4) Los estimadores se distribuyen independientemente de la varianza estimada del
modelo.
5) La variable dependiente hereda una distribución normal
6) El siguiente estadístico, hereda la distribución Chi-cuadrado

 N  k   2   k2
2
ˆ


1) Los estimadores son consistentes:

Esta es una propiedad asintótica que establece que a medida que la muestra aumenta de
tamaño los estimadores del modelo convergen a su verdadero valor poblacional, es decir, a
los parámetros del modelo

plim 1  1
ˆ
plim 2  2
ˆ

Donde la probabilidad límite (plim) se define de la siguiente manera:

plim ˆ ˆ
 1  lim P (  1   1   )  1
N 

plim ˆ ˆ
 2  lim P (  2   2   )  1
N 

14


 es un valor arbitrariamente pequeño.

Es decir, a medida que aumenta la muestra, bajo la propiedad de consistencia, la probabilidad
que los estimadores difieran de su verdadero valor poblacional se hace cero.

Gráficamente:

2) Los estimadores se distribuyen normalmente:
1  N (1 , ˆ )
ˆ 2
1

Donde:

 2
 2 X i
2

1
ˆ
N x 2
i

En el caso de  2 :
ˆ

 2  N ( 2 , ˆ )
ˆ 2
2

Donde:

1
 ˆ   2
2
2
 xi2
Cabe notar que la variable Z se distribuye normal estándar:

i  i
ˆ
Z  N (0,1)
 ˆ
i

15


3) Bajo el supuesto de normalidad de los errores, los estimadores son los Mejores
Estimadores Insesgados.

Esto quiere decir que los estimadores son de mínima varianza, no solamente entre los
estimadores lineales sino entre los no lineales que son insesgados.

Bajo el supuesto de normalidad de los errores del modelo, el estimador MCO coincide con el
estimador de Máxima Verosimilitud (MV).

Una de las propiedades de MV es que los estimadores obtenidos por esta metodología son
MEI.

2
4) Los estimadores  1 ,  2 se distribuyen independientemente de ˆ .
ˆ ˆ

Esta es una propiedad estadística muy útil para obtener las distribuciones t-student de los
estimadores (vistas a continuación).

5)La variable dependiente hereda la distribución normal.

Habíamos mostrado que:
 
E Yi / X i   1   2 X i
 
Var Yi / X i   2

Una propiedad deseable de una variable cuya distribución es normal es que otra variable
aleatoria, que es combinación lineal de la misma, también tendrá distribución normal.

Dado que:
Yi   1   2 X i   i
Por tanto:
Yi  N (  1   2 X i , 2 )

6)Estadístico Chi-Cuadrado

El siguiente estadístico hereda la distribución Chi-Cuadrado:

2
 N  k  ˆ 2   k2


16


Junto a las propiedades 2) y 4), esta propiedad permite obtener la distribución t-
studentempíricamenteutilizada en las pruebas de hipótesis y en la construcción de intervalos
de confianza. Veamos cómo.

La primera propiedad establecía que:

i  N (i , ˆ )
ˆ 2
i

Sin embargo, no es posible utilizar directamente esta propiedad para construir intervalos de
confianza o pruebas de hipótesis, en la medida que  ˆ contiene un parámetro poblacional
2
i

desconocido.

Para ello utilicemos él siguiente resultadoestadístico:

i  i
ˆ
Si Z1   N (0,1)
 ˆ
i

Y
2
ˆ
Z2  N  k   k
2

2

Sabiendo además que Z 1 y Z 2 se distribuyen independientemente, entonces:

i  i
ˆ i  i
ˆ
Z1  ˆ  ˆ
t   i
 i
 tN k

Z 2 /( N  k )
N  k  2 /( N  k )
i
ˆ
2
ˆ
 

Para  1 :
ˆ
ˆ
1  1
X 2
i

Z1 N x 2
ˆ
1  1
t     t N k
i
1
Z 2 /( N  k ) ˆ  X i2 ˆ
 N  x i2
Para  2 :
ˆ

17


ˆ
2  2
1

t 
Z1

 xi2 
ˆ
2  2
  t N k
2
Z 2 /( N  k ) ˆ 1
ˆ
  xi2
2.7Intervalo de Confianza-Estimador por intervalos

Intervalo de Confianza para los estimadores

Si:
ˆ
i  i
P (  t / 2  i  t / 2 )  1  
 ˆ
ˆ i

Entonces podemos construir un intervalo de confianza para cada uno de los parámetros del
modelo. En el caso de  1 :
ˆ

ˆ ˆ
 1  t / 2 ˆ   1  t / 2
ˆ
X 2
i
ˆ
1 N x 2
i

En el caso de  2 :
ˆ

ˆ ˆ 1
 2  t / 2 ˆ   2  t / 2
ˆ ˆ
2
 xi2
Donde  es el nivel de significancia y (1   ) es denominado coeficiente de confianza.

En (1   ) * 100 de las veces, el intervalo contendrá el verdadero valor poblacional. 
también es conocida como la probabilidad de cometer el error tipo I o como p-value.

El error tipo I es rechazar la hipótesis nula cuando es verdadera.

Intervalo de Confianza para la varianza

También es posible construir un intervalo para la varianza del modelo:

 ( N  k ) 2
ˆ ( N  k ) 2 
ˆ
P
 2     1
  / 2  1  / 2 

18


2.8Prueba de Hipótesis

Pruebas individuales

Para llevar a cabo alguna prueba de hipótesis para los coeficientes del modelo, se pueden
construir intervalos de confianza o llevar a cabo una prueba de significancia.

En ambos casos es necesario plantear la hipótesis nula y la hipótesis alterna.

En el caso de una prueba de 2 colas:
H 0 :  i   i*
H 1 :  i   i*

Utilizando el intervalo de confianza, se concluye que si  i* está dentro del mismo no se puede
rechazar la hipótesis nula.

Bajo el segundo enfoque, se tiene la siguiente regla de decisión:

Si : t ˆi  t  / 2, N  k  RH 0

Donde:
ˆ
 i   i*
t ˆ i 
 ˆ
ˆ i

Una prueba muy utilizada en nuestro modelo de regresión simple es denominada “prueba de
significancia individual” de X.

¿Explica X a Y?

H0 : 2  0
H1 :  2  0
En este caso:
2ˆ ˆ
t ˆ 2 
 ˆ
ˆ
 2
ˆ
x 2
i
2

Si:
t ˆ2  t  / 2, N  k  RH 0

Para N - k  20 y   0.05 , se puede utilizar la siguiente regla práctica:

19


Si:
t ˆ 2  2  RH 0

En el caso de una prueba de 1 cola:
H 0 :  i   i*
H 1 :  i   i*
Si:
t ˆi   t , N  k  RH 0
Donde:
ˆ
 i   i*
t ˆ i 
 ˆ
ˆ i

Otra prueba de 1 cola es:
H 0 :  i   i*
H 1 :  i   i*
Si:
t ˆi  t , N  k  RH 0

Donde:
ˆ
 i   i*
t ˆ i 
 ˆ
ˆ i

Prueba de significancia global del modelo-Análisis de varianza

Sabíamos que:

y 2
i   y i2    i2
ˆ ˆ
STC  SEC  SRC
y 2
i tieneN - 1 grados de libertad
yˆ 2
i tiene k - 1 grados de libertad

ˆ
2
i tiene N - k grados de libertad

Por tanto, tenemos la siguiente tabla ANOVA:

20


SC gl SPC
 y i2
STC y 2
i N 1
N 1
 y i2
ˆ
SEC y
ˆ 2
i k 1
k 1
  i2
ˆ
SRC 
ˆ
2
i N k
N k

Puede demostrarse que bajo la hipótesis nula de que el modelo no es globalmente
significativo, o que ninguna de las variables explicativas del modelo explica Y i , el siguiente
estadístico:

F
 y /(k  1)  ˆ  x /(k  1)  F
ˆ 2
i
2
2
2
i

  /( N  k )   /( N  k )
2 2 k  1, N  k
ˆ i
ˆ i

ˆ
Nótese que en el modelo de regresión simple, la hipótesis nula equivale a  2  0 .

La regla de decisión es:

Si : F  Fk 1, N k ,  RH0

Para entender esta prueba, debemos tomar en cuenta que:

   i2 
ˆ
E  
2

N k
 

  y i2   
x 
2

E
ˆ
 ˆ  
 E  22  x i2  E   2 
i i
  
x i2 
 k 1 
  
 x 2
i

 
  22  x i2   2

Bajo la hipótesis nula,  2  0 el modelo no tiene poder predictivo.

La variación explicada es en valor esperado igual a la variación no explicada.

No hay explicación adicional porque la variación es explicada por la varianza de la
perturbación estocástica.

El estadístico F tiene la distribuciónJi-cuadrado debido al siguiente conjunto de resultados:

21


Si:
Z 1  N (0,1)
Donde:
ˆ
( 2   2 )
Z1 
 ˆ
2

Entonces:

ˆ
( 2   2 )2
Z 
2

 ˆ
1 2
2

Tiene una distribución Ji-Cuadrado con 1 grado de libertad.

Además habíamos visto que:

Z2 
( N  k ) 2
ˆ


ˆ i
2

  (N-k)
2

2 2
Por tanto, bajo la hipótesis nula, y siguiendo el teorema que establece que si Z 1 y Z 2 son
variables ji-cuadradas independientemente distribuidas, con (k-1) y (N-k) grados de libertad,
respectivamente, entonces:

Z 1 /(k  1)
F  Fk 1, N  k
Z 2 /( N  k )
 
 22  x i2 /  2 /(k  1)  22  x i2 /(k  1)
ˆ ˆ
F   Fk 1, N  k
 
  i2 /  2 /( N  k )   i2 /( N  k )
ˆ ˆ

Para obtener el resultado anterior, también es necesario imponer el supuesto de normalidad de
la perturbación estocástica del modelo.

Prueba de normalidad de Jarque-Bera

Puede demostrarse que bajo la hipótesis nula de normalidad el siguiente estadístico Jarque-
Bera:
 S 2 ( K  3) 2 
JB  N   
 6
 24  

Tiene una distribución asintótica ji-cuadrado con 2 grados de libertad (correspondientes al
coeficiente de asimetría y al coeficiente de curtosis)

22


En una distribución normal S=0 (coeficiente de asimetría) y K=3 (coeficiente de curtosis).
Estos coeficientes se definen de la siguiente manera:

3 4
1   ˆ  1   ˆ  1
S   ˆ
 
 K   ˆ
 
 s 
ˆ 
ˆ
2
i
N  s  N  s  N

2.9Predicción

En función al valor X 0 es posible llevar a cabo la predicción media de la variable
dependiente.

Es decir, se intenta estimar: E (Y0 / X 0 )

E (Y0 / X 0 )   1   2 X 0

Utilizando la regresión la predicción media es:

ˆ ˆ
Y0   1   2 X 0
ˆ

Nótese que el valor esperado de la predicción media coincide con:

E (Y0 / X 0 )
La varianza de predicción es:

ˆ ˆ 
Var(Y0 )  Var  1   2 X 0 
ˆ 
   ˆ ˆ ˆ  ˆ 
Var Y0  Var  1  2Cov  1 ,  2 X 0  Var  2 X 0
ˆ 2
 
Var Y   
ˆ X
2
2
i
 2 XX 0  2
1
 X 0 2
2 1
  xi  x i2
0 2 2
N x i

 X 1 
 
2
1
Var Y0   2
ˆ  2 XX 0  X0
i
 
2

N x  xi  x i2 
2 2
 i 

  X i2 1 
 
ˆ
Var Y0  2

X2

X2
 2 XX 0
1
 X0
2

 N  xi  xi  xi  xi  x i2 
2 2 2 2
 
 ( X  X 0 )2 
Var Y  
ˆ0   2  1  
N
  x i2  
Por tanto,

23


 
E Y0   1   2 X 0
ˆ
 1 ( X  X 0 )2 
ˆ 
Var Y0   
2

N
  x i2  

Al igual que en la construcción de intervalos de confianza para los parámetros del modelo,
resulta sencillo determinar que la predicción tiene una distribución t-student (utilizando el
estimador de la varianza de los errores).

Es decir:

Y0  (  1   2 X 0 )
ˆ
t  t N k
ˆ
ee Y0  
 ( X  X 0 )2 
ee Y 
ˆ0   2  1 
ˆ 
N
  x i2  
ˆ ˆ   ˆ ˆ    1  
Pr  1   2 X 0  t  / 2 ee Y0   1   2 X 0   1   2 X 0  t  / 2 ee Y0
ˆ ˆ

En función al valor X 0 es posible llevar a cabo la predicción individual de la variable
dependiente.

Se intenta predecir:

Y0   1   2 X 0   0
La predicción individual es:

ˆ ˆ
Y0   1   2 X 0
ˆ

Se define el error de predicción como:

ˆ ˆ ˆ
e0  Y0  Y0   1   2 X 0  0   1   2 X 0

El valor esperado del error de predicción es:

   ˆ ˆ
E e0  E ( 1   1 )  ( 2   2 ) X 0   0 
E e   ( 
0 1 
  1 )  ( 2   2 ) X 0  0

La varianza es:

24


   ˆ ˆ
Var e 0  Var (  1   1 )  (  2   2 ) X 0   0 
   ˆ ˆ 
Var e 0  Var   1   2 X 0  Var  0   
 1 ( X  X 0 )2 
 
Var e 0   2
 
2


 N  xi 
2

 1 (X  X0 ) 
 
2

Var e 0   1  2
 

 N  x i2  

De manera similar:
ˆ
Y0  Y0
t  t N k
ee e 0  
 1 (X  X ) 
 
2

ee e 0   1 
ˆ
2
 

 N  x i2  

ˆ ˆ   ˆ ˆ  
Pr  1   2 X 0  t  / 2 ee e 0   1   2 X 0   1   2 X 0  t  / 2 ee e 0  1  

25


II. MODELO DE REGRESIÓN LINEAL GENERAL

2.10 Introducción.-

El modelo de regresión simple (visto anteriormente) puede ser inadecuado, en la medida que
una variable puede estar determinada por más de una variable explicativa.

Es más realista suponer que una variable depende de un conjunto k-1de variables explicativas.
Es decir:
Yi  f ( X 2i , X 3i , X 4i ...., X ki ,  i ) i  1,2,... N (1)

El anterior sistema puede ser escrito alternativamente de la siguiente manera (Asumiendo
linealidad en los parámetros y que el término de error del modelo entra de manera aditiva en el
modelo):
Y1      2 X 21   3 X 31    X 41  ...   k X k 1   1
Y2      2 X 22   3 X 32    X 42  ...   k X k 2   2
(2)
...
Y N      2 X 2 N   3 X 3 N    X 4 N  ...   k X kN   N

O también así:
y  X   (3)

Donde las matrices están conformadas de la siguiente manera:

Y1  1 X 21 ... X k1   1   1 
       
Y 1 X 22 Xk2   
y 2 X    2   2
          
       
YN 
  1 X 2 N ... X kN 
  k 
   N 
 

Donde:

y es una matriz de dimensión N x 1
X es una matriz de dimensión N x k
 es una matriz de dimensión N x 1
 es una matriz de dimensión k x 1
2.11 Supuestos del modelo de regresión clásico

1) El modelo es lineal en los parámetros y la perturbación estocástica entra de manera
aditiva en la ecuación.

2) El valor esperado de la perturbación estocástica es 0.

26


 E (1 )  0
   
E   0  E    E (2 )   0
   
   
 E (  N ) 0
 

3) Homoscedasticidad y ausencia de problemas de autocorrelación

La matriz de varianzas y covarianzas de  :

  1    E ( 12 ) E ( 1 2 ) ... E ( 1  N )
    
 E ( 2 1 ) E (2 ) ... E ( 2  N )
 
2
E '  E   2  1 2 ...  N   
        
    
 N    E (  N 1 ) E (  N 2 ) ... E (  N ) 
2
    

Bajo el supuesto de homoscedasticidad y ausencia de autocorrelación de los errores:

E ( i2 )   2 i  1...N
E ( i  j )  0 i, j  1..N i j
Por tanto:

Var(   E(' )   2 I

X , X , X ...., X ki
4) 2i 3i 4i son variables no estocásticas o determinísticas y, por tanto, no están
correlacionadas con la perturbación estocástica del modelo.

5) No existen problemas de multicolinealidad.

A lo largo de la muestra, ninguna variable explicativa puede escribirse como una combinación
lineal de otra o de otras variables explicativas del modelo.

Asimismo, se supone que rango de X es k (rango completo) y que el número de observaciones
N es mayor o igual a k.

6) El modelo está bien especificado.

7) Se añade el supuesto de normalidad de los errores.

27


 tiene distribución normal multivariada. Es decir,   N (0, 2 I )

2.12Estimación por MCO

La ecuación (3) puede escribirse de la siguiente manera:

  y  X

La cual premultiplicada por  ' resulta en:

 '    y  X '  y  X    i2

Que a su vez, puede escribirse como:

 '    y  X '  y  X   y' y  y' X   ' X ' y   ' X ' X

Debido a que y' X es un escalar que es igual a su transpuesta,  ' X ' y .

Por tanto:
 '   y' y  2 ' X ' y   ' X ' X

El programa de minimización es, por tanto:

Min(  '  )  Min( y ' y  2  ' X ' y   ' X ' X )
 

Bajo la condición de primer orden se deriva respecto a  y se iguala a 0.

 ' 
 2 X ' y  2 X ' X  0
ˆ

Donde se ha hecho uso de los siguientes resultados de la derivación de matrices:

a' x x' ax
a  2ax
x x
Por tanto:
 2 X ' y  2 X ' X  0  X ' y  X ' X
ˆ ˆ

  ( X ' X )1 ( X ' y)
ˆ (4)

Para que la solución exista, la inversa de ( X ' X ) debe existir.

28


Es decir, ( X ' X ) no es una matriz singular.

Bajo la condición de segundo orden obtenemos que:

2 ' 
ˆ ˆ
 X'X
 '
ˆ ˆ

Es una matriz semidefinida positiva lo cual garantiza que sea un mínimo.

2.13 Propiedades de MCO bajo los supuestos del modelo lineal clásico

En el modelo de regresión demostraremos que los estimadores son MELI (MEI añadiendo el
supuesto de normalidad de los errores):

1)   ( X ' X )1 ( X ' y) es un estimador lineal de las observaciones en y.
ˆ

Esto se deduce rápidamente del resultado obtenido:

  ( X ' X )1 ( X ' y)  g ( X ) y
ˆ

2)   ( X ' X )1 ( X ' y) es un estimador insesgado
ˆ

  ( X ' X ) 1 ( X ' y )  ( X ' X ) 1 X ' ( X   )
ˆ
    ( X ' X ) 1 X ' 
ˆ (5)

Tomando el valor esperado de  y utilizando el supuesto de que E ( )  0 y que las X’s son
ˆ
no estocásticas se obtiene:

 
E (  )  E   ( X ' X ) 1 X '   E (  )  E (( X ' X ) 1 X '  )    ( X ' X ) 1 X ' E (  )  
ˆ
E( )  
ˆ

3) La varianza de  es Var( )   2 ( X ' X )1
ˆ ˆ

La definición de la varianza es:

Var (  )  E (   E (  ))(   E (  ))' 
ˆ ˆ ˆ ˆ ˆ

De la ecuación (5) y sabiendo que el estimador es insesgado:

29


Var(  )  E (   E (  ))(  E (  ))'  E (    )(   )'
ˆ ˆ ˆ ˆ ˆ ˆ ˆ
  
Var(  )  E ( X ' X ) 1 X '  (( X ' X ) 1 X '  )'  E ( X ' X ) 1 X '  ' X ( X ' X ) 1
ˆ 
Var(  )  ( X ' X ) 1 X ' E uu 'X ( X ' X ) 1  ( X ' X ) 1 X ' 2 IX ( X ' X ) 1
ˆ
Var(  )   2 ( X ' X ) 1 ( X ' X )( X ' X ) 1   2 ( X ' X ) 1
ˆ
Var(  )   2 ( X ' X ) 1
ˆ (6)
Donde se han utilizado algunos de los supuestos del modelo y otros resultados:

 X’s no estocásticas y por tanto no correlacionadas con 
 E(' )   2 I
  es insesgado
ˆ
 (( X ' X )1 )' ( X ' X )1 dado que ( X ' X )1 es simétrica

3)   ( X ' X )1 ( X ' y) es MELI (Estimador de Mínima Varianza)
ˆ

Es el Teorema de Gauss-Markov
~ ~
Sea   Ay un estimador lineal en y alternativo.

Además, considérese la siguiente definición de A:
~
A  A  ( X ' X )1 X ' de tal manera que si A=0 entonces:
~
A  ( X ' X )1 X '

Desarrollando la expresión, se tiene que:

  A  ( X ' X ) 1 X 'y  A  ( X ' X ) 1 X '( X   )
~
~
  AX  A  ( X ' X ) 1 X ' X  ( X ' X ) 1 X ' 
~
  AX  A    ( X ' X ) 1 X ' 

Manteniendo los supuestos de que:

 X’s no estocásticas
 X’s no correlacionadas con 
 E ( )  0
 E(' )   2 I

~
El estimador  es insesgado sólo si AX  0  ( AX )'  X ' A'  0

30


~
  AX  A    ( X ' X )1 X ' 
~
  A    ( X ' X )1 X ' 
~
E( )  0    0  
~
    A  ( X ' X )1 X '  (7 )

~
La varianza de  es:

Var(  )  E (    )(   )'
~ ~ ~
~  
Var(  )  E ( A  ( X ' X ) 1 X '  )( A  ( X ' X ) 1 X '  )'
 
Var(  )  E A ( A )'  E A (( X ' X ) 1 X '  )' 
~

   
E ( X ' X ) 1 X '  )( A ' )'  E ( X ' X ) 1 X '  )((X ' X ) 1 X '  )'
  
Var(  )  E A ' A'  E A ' X ( X ' X ) 1  E ( X ' X ) 1 X '  )  ' A'
~ 
  2 ( X ' X ) 1
Var(  )   2 ( X ' X ) 1  AE(  ' ) A' AE 'X ( X ' X ) 1 
~

( X ' X ) 1 X ' E  'A'
~
Var(  )   2 ( X ' X ) 1   2 AA' 2 AX ( X ' X ) 1   2 ( X ' X ) 1 ( AX )'
~
Var(  )   2 ( X ' X ) 1   2 AA'

Se puede demostrar que AA’ es una matriz semidefinida positiva por lo que se concluye que el
estimador alternativo tiene una varianza cuando menos igual a la varianza del estimador MCO.

Por tanto, MCO es el estimador de varianza mínima.

2.14 Resultados adicionales de la estimación MCO

a) X '   0
ˆ

X '   X ' ( y  X )  X ' y  ( X ' X )( X ' X )1 X ' y  X ' y  X ' y  0
ˆ ˆ

Donde se ha hecho uso de que la variable dependiente se expresa como combinación lineal de
la línea de regresión muestral y el error estimado:

y  X  
ˆ ˆ

Veamos que significa este resultado

31


 1 1 ... 1   1    i  0
ˆ ˆ
X X 22       X  0
... X 2 N   ˆ 2   ˆ i 2i   
X '    21
ˆ  
           
      
 X k1 X kN ... X kN    N    i X ki  0
ˆ  ˆ 

Establece que la suma de los residuos estimados es igual a cero (siempre que el modelo haya
sido especificado con constante) y que la suma del producto de los residuos estimados por
cada una de las variables explicativas es de la misma manera igual a cero.

En el modelo de regresión simple habíamos obtenido este resultado, el cual simplemente
hemos generalizado para el caso de k  1 variables explicativas.

b) SRC   i2   '   y' y   ' X ' y
ˆ ˆ ˆ ˆ

 '   ( y  X )' ( y  X )  y ' y  y ' X   ' X ' y   ' X ' X
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ
 y ' y  2  ' X ' y   ' X ' X  y ' y  2  ' X ' y   ' X ' y
ˆ ˆ ˆ ˆ ˆ
 y' y   ' X ' y
ˆ

c) SRC   i2   '   y' y  y' y
ˆ ˆ ˆ ˆ ˆ

La línea de regresión muestral es:

y  X
ˆ ˆ

Por tanto,

y' y  ( X )'( X )   ' X ' X   ' X ' X ( X ' X )1 X ' y   ' X ' y
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ

Utilizando el resultado de la propiedad b), se obtiene:

 '   y' y  y' y
ˆ ˆ ˆ ˆ

d)   My  M
ˆ

Donde:

M  I  X ( X ' X ) 1 X '

Es una matriz singular, simétrica e idempotente (MM=M)

  y  X  y  X ( X ' X )1 X ' y  (I  X ( X ' X )1 X ' ) y  My
ˆ ˆ

32


  My  M ( X   )  MX  M  M
ˆ

ya que MX  (I  X ( X ' X )1 X ' ) X  X  X ( X ' X )1 X ' X  X  X  0

e)  '    ' M
ˆ ˆ

 '   (M )' M   ' M ' M   ' M ' 
ˆ ˆ

Ya que M es una matriz idempotente.

Este resultado será muy útil cuando demostremos la propiedad de insesgamiento de la
estimación de la varianza de los errores.

f) STC  SEC  SRC

Esta proposición establece que la variación total de la variable dependiente respecto a su
media (Suma Total de Cuadrados) es igual a la variación explicada (Suma Explicada de
Cuadrados) más la variación no explicada del modelo (Suma de Residuos al Cuadrado)

Se había mostrado que:

y' y  y' y   ' 
ˆ ˆ ˆ ˆ

Donde se puede verificar fácilmente que:

 Y1 
Y 
y' y  Y1 Y2 ... YN  2   Yi 2
 
 
YN 
ˆ
 Y1 
ˆ
y' y  Y1 Y2 ˆN  2   Yi 2
Y
ˆ ˆ ˆ ˆ ... Y ˆ
 
 
ˆ
YN 
Si:

STC   (Yi  Y ) 2   Yi 2  NY 2  y ' y  NY 2
STC  y ' y  NY 2

De manera similar:

33


SEC   (Yi  Y ) 2  Yi 2  NY 2  y ' y  NY 2
ˆ ˆ ˆ ˆ
SEC  y ' y  NY 2
ˆ ˆ

Donde fácilmente se verifica que:


ˆ
Y Y

Yi  Yi  i
ˆ ˆ

 Y   Yˆ   
i ˆ i i

 Y   Yˆ
i i

Y Yˆ

Por tanto,

2 2
y' y  N Y  y' y  N Y   ' 
ˆ ˆ ˆ ˆ
STC  SEC  SRC

2 2 2
g) SEC  y ' y  N Y   ' X ' X  N Y   ' X ' y  N Y
ˆ ˆ ˆ ˆ ˆ

Este resultado es directo de demostraciones anteriores.

Sin embargo, requiere que el modelo tenga constante.

h) Bondad de Ajuste-Coeficiente de determinación

Se define el coeficiente de determinación R 2 , como el porcentaje de la variación total de la
variable dependiente en torno a su media (STC) explicado por la variación explicada por el
modelo (SEC).

Por tanto, de los resultados obtenidos anteriormente:

2 2 2
SEC y' y  N Y
ˆ ˆ 'X' y  NY
ˆ  ' X ' X  N Y
ˆ ˆ
R2    2
  2
 2
STC
y' y  N Y y' y  N Y y' y  N Y
SRC '
ˆ ˆ
R2  1  1
STC 2
y' y  N Y

34

Modelo de regresion lineal

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a Modelo de regresion lineal

Semelhante a Modelo de regresion lineal (19)

Mais de Rodrigo Paniagua

Mais de Rodrigo Paniagua (9)

Último

Último (20)

Modelo de regresion lineal