Presentación Econometría I

ECONOMETRÍA I
EL MODELO LINEAL GENERAL

ÍNDICE
Tema 1. Introducción 4
1.1. Objetivo de la Econometría 5
1.2. Ejemplos de modelos econométricos 6
1.3. Tipos de datos 12
1.4. Transformaciones en los datos de series temporales 16
1.5. Necesidad de la Inferencia estadística 20
Tema 2. Formulación del Modelo Lineal General 21
2.1. Supuestos del Modelo Lineal General 22
2.2. Formulación del Modelo Lineal General 23
2.3. Interpretación de los coeficientes del Modelo Lineal General 26
2.4. Supuestos del Modelo Lineal General y su explicación 30
2.5. Ejemplo de incumplimiento de Ruido Blanco 34
2.6. Importancia de los supuestos del Modelo Lineal General 37
Tema 3. Estimación del Modelo Lineal General 38
3.1. Estimación del Modelo Lineal General por MCO 39
3.2. Propiedades algebraicas del estimador MCO 43
3.3. Coeficiente de determinación 45

ÍNDICE
3.4. Distribución de los coeficientes estimados y sus propiedades 48
Tema 4. Inferencia en el Modelo Lineal General 57
4.1. Derivación del test de Wald 58
4.2. Uso del test de Wald 60
4.3. El estadístico F 63
4.4. Construcción de intervalos de confianza para β 68
4.5. Supuestos del Modelo Lineal General y uso de estadísticos 69
Tema 5. Previsión con el Modelo Lineal General 75
5.1. Cálculo de previsiones puntuales 76
5.2. Error de previsión 77
5.3. Previsión por intervalos 83
Tema 6. Extensiones 85
6.1. Restricciones sobre los parámetros 86
6.2. Mínimos Cuadrados Restringidos (MCR) 89
6.3. Reflexión sobre los parámetros del Modelo Lineal General 98
6.4. Estimación Máximo-Verosímil del Modelo Lineal General 110

TEMA 1
INTRODUCCIÓN
1.1. Objetivo de la Econometría
1.2. Ejemplos de modelos econométricos
1.3. Tipos de datos
1.4. Transformaciones en los datos de series temporales
1.5. Necesidad de la Inferencia estadística

1. INTRODUCCIÓN
1.1. Objetivo de la Econometría

La Econometría tiene, fundamentalmente, tres objetivos:
1. El estudio de relaciones causales entre variables económicas.
2. La previsión de la evolución futura de variables económicas.
3. La validación empírica (utilizando datos) de teorías económicas.
Para este triple objetivo, el instrumento fundamental del que se nutre la Econometría es el
modelo econométrico. Existen muchos tipos de modelos econométricos. Así, nos
podemos encontrar:
1. Modelos econométricos uniecuacionales o multiecuacionales.
2. Modelos econométricos estáticos o dinámicos.
3. Modelos econométricos lineales o no lineales.
4. Modelos econométricos para datos de series temporales.
5. Modelos econométricos para datos de sección cruzada.
6. Modelos econométricos para datos de panel.
7. Modelos econométricos para variables dependientes continuas o discretas.

TEMA 1

ECONOMETRÍA I – EL MODELO LINEAL GENERAL 5

1. INTRODUCCIÓN

Ejemplos de modelos econométricos uniecuacionales

Primer ejemplo: yt = β1 + β2xt,2 + εt, εt ~ N(0; σ²) para todo t, y E(εt εs) = 0, para t ≠ s
La variable yt (o los agentes que la determinan) responde instantáneamente a variaciones
en xt,2 pero, sin embargo, la variable xt,2 no responde a variaciones en yt. La respuesta de yt
se dice que es lineal, porque el modelo que relaciona yt con xt,2 es de carácter lineal (en
los parámetros). Asimismo, se dice que es simétrica, dado que un aumento de una unidad
en xt,2 produce un aumento de la variable yt de β2 unidades (suponiendo que β2 > 0) y, al
mismo tiempo, un descenso de una unidad en xt,2 produce un descenso en la variable yt de
β2 unidades (de nuevo, suponiendo que β2 > 0). Es decir, tanto aumentos como descensos
unitarios en la variable xt,2 provocan aumentos (descensos) en la variable yt de la misma
cuantía. Además, cuando se manejan datos de Series Temporales, se dice que se trata de
un modelo estático, porque un cambio en xt,2 provoca un cambio en yt en un número finito
de periodos, en este caso cero periodos, puesto que la respuesta de yt es instantánea. Por
último, éste es un modelo en el que el valor esperado de la variable yt cuando xt,2 = 0, es
distinto de cero, ya que:
E ( y t xt , 2 0) 1
, puesto que E ( t
) 0 t

TEMA 1


1. INTRODUCCIÓN

Ejemplos de modelos econométricos uniecuacionales (datos de Series Temporales)

Segundo ejemplo: yt = β1 + β2xt–1,2 + εt, para todo t, y εt es Ruido Blanco
Éste es un modelo similar al anterior en todos los aspectos salvo que, ahora, la variable yt
va a responder a variaciones en xt,2 con un retardo de un periodo. Además, yt no responde
de manera instantánea a los cambios que se producen en la variable xt,2, es decir, la
respuesta de yt ante cambios en xt,2 tiene un tiempo muerto de un periodo.
xt , 2 yt

1 2

t t
T T T 1

TEMA 1


1. INTRODUCCIÓN


Tercer ejemplo: yt = β1 + β2xt,2 + β3xt–1,2 + εt, para todo t, y εt es Ruido Blanco
En este modelo, la variable yt responde a variaciones en xt,2 tanto de manera instantánea
como al cabo de un periodo. Es decir, la respuesta no es sólo instantánea, sino también
retardada. Sin embargo, la respuesta de la variable yt ante cambios en xt,2 se agota pasado
un periodo.
xt , 2 yt

2
1
3

t t
T T T 1

TEMA 1


1. INTRODUCCIÓN


Cuarto ejemplo: yt = β1xt,2 + β2yt–1,2 + εt, para todo t, εt es Ruido Blanco, y 0 < β2 < 1
En este caso, la respuesta de la variable yt a cambios en xt,2 es una respuesta dinámica, es
decir, se prolonga por infinitos periodos, como consecuencia de que, en el modelo, figura
un retardo de yt como variable explicativa.
Si xt,2 recibe un impulso unitario en t = T, entonces la respuesta de la variable yt vendrá
dada por el siguiente gráfico:
xt , 2 yt

1
1
1 2
2
1 2
3
1 2

t t
T T T 1 T 2 T 3

TEMA 1


1. INTRODUCCIÓN

Ejemplos de modelos econométricos multiecuacionales:

Primer ejemplo: qtd = β1 + β2pt + εtd, qto= α1 + α2pt + εto, qtd = qto, para todo t.

Éste es un modelo en el que la cantidad demandada de un producto, así como su cantidad
ofrecida (en el caso de que tratemos con datos de Series Temporales), dependen del precio
del mismo, o, alternativamente, es un modelo en el que la cantidad demandada y ofertada
de distintos bienes en un momento determinado del tiempo (en el caso de que tratemos
con datos de Sección Cruzada) dependen de sus respectivos precios. Además, existe
equilibrio en todos los periodos o para todos los bienes, tal y como se indica en la tercera
ecuación del sistema.
El precio y la cantidad de equilibrio se determinan de forma simultánea y resultan de
resolver el siguiente sistema matricial:
d
1 2
qt 1 t
o
Axt = ct
1 2
pt 1 t

Éste es un modelo estático multiecuacional. Operando en el sistema matricial anterior
llegamos a que su solución viene dada por la siguiente expresión:
1
xt A ct

TEMA 1


1. INTRODUCCIÓN

Ejemplos de modelos econométricos multiecuacionales (datos de Series Temporales)

Segundo ejemplo: yt = β1yt–1 + β2xt–1 + εty, xt = α1xt–1 + α2yt–1 + εtx

Se trata de un modelo dinámico multiecuacional. Tanto en la ecuación de comportamiento
de la variable yt como en la de xt aparecen las variables dependientes retardadas (en este
caso un periodo).
Así, un incremento unitario en xt en t = T ocasiona, como se puede ver en la primera de
las ecuaciones, un incremento de β2 unidades en la variable yt en t = T + 1. Pero, al
mismo tiempo, el incremento de yt en t = T + 1 produce, como se puede ver en la segunda
de las ecuaciones, un incremento de α2 unidades en la variable xt en el periodo t = T + 2, y
así sucesivamente, es decir, se tiene el proceso:
xT yT 1
xT 2
yT 3

Este modelo recoge, por lo tanto, el fenómeno de la retroalimentación.

TEMA 1


1. INTRODUCCIÓN
1.3. Tipos de datos

Datos de Series Temporales
Los datos de series temporales analizan la evolución de una variable a lo largo del tiempo.
Dependiendo de la periodicidad con la que se observe la variable, nos podemos encontrar
con Series Temporales de periodicidad diaria, semanal, mensual, trimestral o anual.
La tabla y el gráfico siguiente, que recogen la cotización máxima semanal del valor de las
acciones del Banco Santander durante el año 2011, son un ejemplo de datos de series
temporales.
10
9.5
Fecha Cotización 9
8.5
3/Ene/2011 8,09 € 8
7.5
10/Ene/2011 8,72 € 7
6.5
  6
5.5
19/Dic/2012 5,94 € 5

27/12/2012 5,87 €

TEMA 1


1. INTRODUCCIÓN
1.3. Tipos de datos

Datos de Sección Cruzada
Los datos de sección cruzada, también conocidos como datos de Corte
Transversal, estudian el comportamiento de diversas variables sobre n individuos (ya sean
consumidores, hogares, empresas, países, etc.). Es decir, los datos de Sección Cruzada son
datos de encuestas o de individuos referidos a un periodo de tiempo fijo.
La siguiente tabla presenta un ejemplo de datos de Sección Cruzada o de Corte
Transversal. Recoge una parte de una encuesta realizada en 1978 a un total de 500
individuos.
Individuo Años educación Experiencia Salario/hora
1 10 4 30
2 20 8 40
3 2 0 10


4 10
 
1 
9

TEMA 1


1. INTRODUCCIÓN
1.3. Tipos de datos

Datos de panel
Los datos de Panel combinan las características tanto de los datos de series temporales
como de los datos de sección cruzada. Estudia el comportamiento de n individuos sobre
diversas variables de interés a lo largo de un muestra en k instantes temporales diferentes.
La tabla siguiente muestra un ejemplo de datos de Panel (ficticio). Recoge los años de
educación y el salario por hora (en euros) de tres individuos durante cuatro años
consecutivos.
Número 1 Número 2 Número 3
Año/Individuo
Educ. Salario Educ. Salario Educ. Salario
2004 10 20 5 10 30 40
2005 11 25 6 10 30 45
2006 11 30 7 11 30 50
2007 11 35 8 11 30 55

TEMA 1


1. INTRODUCCIÓN
1.3. Tipos de datos

Los datos de Series Temporales pueden presentar una o varias de las siguientes
características que se enumeran a continuación:
1. Tendencia.
2. Ciclos.
3. Estacionalidad.
4. Valores extremos.
5. Heterocedasticidad.
6. Autocorrelación.
La tendencia, el ciclo y el componente estacional pueden ser estocásticos, en cuyo caso se
convierten en formas particulares de autocorrelación.
Los datos de Sección Cruzada suelen presentar heterocedasticidad y valores extremos.
Por su parte, las características típicas de los datos de Panel están formadas por la unión
de las características de los datos de Series Temporales y de los datos de Sección Cruzada.

TEMA 1


1. INTRODUCCIÓN

Transformación logarítmica

Es habitual que una serie temporal yt se transforme en otra serie temporal zt mediante la
siguiente fórmula:
zt f ( yt ) ln y t
El objetivo de esta transformación es doble: por un lado, persigue inducir normalidad en
la serie temporal; por otro lado, tomar logaritmos neperianos induce homocedasticidad.
El gráfico de la izquierda que se va a presentar7 a continuación muestra la serie temporal
1,000

de consumo mensual de gasolina en España entre 1945 y 1999, la cual presenta mayor
800 6
variabilidad conforme aumenta el nivel de la misma. El gráfico de la derecha muestra la
serie temporal que resulta de tomar logaritmos neperianos sobre la serie anterior. Se puede
600 5

apreciar que esa mayor variabilidad –al aumentar el nivel de la serie– ha desaparecido, es
400 4
decir, la serie original, heterocedástica, se convierte en homocedástica mediante la
aplicación de logaritmos neperianos.
200 3

0 2
45 50 55 60 65 70 75 80 85 90 95 45 50 55 60 65 70 75 80 85 90 95

TEMA 1


1. INTRODUCCIÓN

Operador diferencia regular

Definición:
Definimos el operador de retardo de orden p, Bp, como un operador que, aplicado sobre
una serie temporal yt, nos devuelve, como resultado, esa misma serie temporal retardada
p periodos, es decir:
p
B yt yt p

7 .4
El operador diferencia regular de orden p, definido como:
p veces
6
       .2
p p
1 B 1 B 1 B  1 B
aplicado sobre una serie temporal yt, se utiliza .0
5 para eliminar la tendencia de la misma.
El gráfico de la izquierda que se va a presentar reproduce la serie del consumo de gasolina
4 -.2
presentada antes (en logaritmos neperianos). Es claramente observable que esta serie
muestra una tendencia creciente. Sin embargo, podemos observar en el gráfico de la
3 -.4
derecha, que se ha obtenido al aplicar una diferencia regular a la serie anterior, que la
tendencia ha desaparecido.
2 -.6
45 50 55 60 65 70 75 80 85 90 95 45 50 55 60 65 70 75 80 85 90 95

TEMA 1


1. INTRODUCCIÓN

Operador diferencia estacional

Definición:
Definimos el operador de retardo de orden p, Bp, como un operador que, aplicado sobre
una serie temporal yt, nos devuelve, como resultado, esa misma serie temporal retardada
p periodos, es decir:
p
B yt yt p

El operador diferencia estacional de orden p 400
7 y periodo s, definido como:
p veces
6        
 
p s p s s s 200
s
1 B 1 B 1 B  1 B
aplicado sobre una serie temporal yt, se utiliza para eliminar el componente estacional no
5
estacionario de la misma. 0
4
El gráfico de la izquierda que se va a presentar reproduce la serie del consumo de gasolina
presentada antes (en logaritmos). Es claramente observable que esta serie muestra,
-200
3
además de una tendencia creciente, un componente estacional. Sin embargo, podemos
observar, en el gráfico de la derecha, que se ha obtenido al aplicar una diferencia
2 -400
estacional, que la estacionalidad ha desaparecido. 50 55 60 65 70 75 80 85 90 95
45 50 55 60 65 70 75 80 85 90 95 45

TEMA 1


1. INTRODUCCIÓN

Transformaciones más habituales
Dependiendo de la periodicidad de la serie temporal con la que estemos trabajando, serán
más habituales unas transformaciones u otras a la serie original, con el objetivo de
conseguir estacionariedad. Así, se tiene que:
1. En general, la primera transformación que se realiza es aplicar logaritmos neperianos
a la serie temporal original porque, como vimos anteriormente, induce
homocedasticidad.
2. Si tenemos una serie temporal con periodicidad anual (normalmente en logaritmos),
lo más habitual es aplicar una o dos diferencias regulares.
3. Si tenemos una serie temporal con periodicidad trimestral (normalmente en
logaritmos), las transformaciones más habituales son las siguientes:
2
4
ln y t , ln y t , o ln y t
4. Si tenemos una serie temporal con periodicidad mensual (normalmente en
logaritmos), las transformaciones más habituales son las siguientes:
2 2
12
ln y t , 12
ln y t , 12
ln y t , o ln y t
5. Con datos diarios o semanales, suele ser suficiente una diferencia regular.
TEMA 1


1. INTRODUCCIÓN
1.5. Necesidad de la Inferencia estadística

En Econometría trabajaremos con variables aleatorias y vamos a estar interesados en
determinados parámetros que forman parte de las funciones de densidad de dichas
variables.
Sin embargo, no podremos calcularlas y, debido a ello, vamos a utilizar la Inferencia
estadística, con el objetivo de poder construir intervalos de confianza que nos den
información de los parámetros de cuya información estamos interesados.
En este curso nos vamos a centrar en los modelos econométricos que habitualmente se
emplean cuando se disponen de datos de Sección Cruzada, como puede ser el caso de
datos conseguidos a través de una encuesta, como puede ser la Encuesta de Población
Activa (EPA), la Encuesta de Condiciones de Vida (ECV), o cualquier otra o,
alternativamente, cuando se dispongan de datos de diferentes variables referidos a
distintos agentes (individuos, empresas, regiones, etc.) en un momento determinado del
tiempo, como los que se pueden conseguir a través de bases de datos como SABI o
AMADEUS (que proporciona información contable de empresas), o la base de datos de la
Penn World Table (que contiene, para diferentes años y países, información de índole
macroeconómica), o las bases de datos proporcionada por el IVIE (para el caso de
España), entre otras muchas bases de datos que existen en la actualidad.

TEMA 1


TEMA 2
FORMULACIÓN DEL MODELO LINEAL GENERAL
2.1. Supuestos del Modelo Lineal General
2.2. Formulación del Modelo Lineal General
2.3. Interpretación de los coeficientes del Modelo Lineal General
2.4. Supuestos del Modelo Lineal General y su explicación
2.5. Ejemplo de incumplimiento de Ruido Blanco
2.6. Importancia de los supuestos del Modelo Lineal General

2. FORMULACIÓN DEL MODELO LINEAL GENERAL
2.1. Supuestos del Modelo Lineal General

Estamos interesados en el comportamiento de una variable y. Sabemos que:
1. Su comportamiento puede explicarse adecuadamente por el comportamiento de k
variables que llamaremos explicativas:
x ( x1 , x 2 ,  , x k ).
2. La relación causal es unidireccional, es decir, las variables x = (x1, x2, …, xk) pueden
causar la y, pero la y no causa ninguna de las variables x = (x1, x2, …, xk).
3. La y es una variable aleatoria continua, mientras que las variables x = (x1, x2, …, xk)
son variables deterministas (continuas o discretas).
4. Las variables x = (x1, x2, …, xk) tienen, cada una de ellas, información independiente
sobre la y. Es decir, ninguna xj puede expresarse como combinación lineal del resto:
xj a1 x1 a2 x2  a j 1x j 1
a j 1x j 1
 a k x k , a1 , a 2 ,  , a k
5. Las variables explicativas x = (x1, x2, …, xk) no explican el 100% de la variabilidad
de la variable y, es decir, existen otras variables (desconocidas) que también influyen
en el comportamiento de la variable y. A esas variables desconocidas las llamaremos
ε y, a diferencia de las variables x = (x1, x2, …, xk), éstas serán aleatorias (o, al
menos, así las vamos a considerar).

TEMA 2



La representación algebraica del Modelo Lineal General viene dada por:
yt 1 2
xt , 2 3
xt ,3  k
xt ,k t
, t 1, 2 ,  , N
El subíndice t tiene una lectura distinta dependiendo del tipo de datos con el que nos
encontremos:
1. Si estamos tratando datos de series temporales, t es un subíndice temporal.
2. Si estamos tratando datos de sección cruzada, entonces t es un subíndice individuo
(ya sean consumidores, hogares, empresas, países, etc.).
En el Modelo Lineal General:
1. La variable yt es la variable cuyo comportamiento queremos explicar. Es una
variable estocástica y continua. Se lee: “valor de la variable y para el individuo t, o
valor de la variable y en el periodo t (dependiendo del tipo de datos con el que
estemos trabajando)”.
2. La variable xt,1 (que no aparece explícitamente en la representación algebraica del
Modelo Lineal General) es una variable que toma siempre el valor 1, y está asociada
al parámetro β1.

TEMA 2



3. Las variables xt,j, j = 2, 3, …, k, son las variables explicativas del Modelo Lineal
General asociadas, respectivamente, a los parámetros βj, j = 2, 3, …, k. Se supone
que, conjuntamente, todas las variables independientes explican gran parte del
comportamiento (o variabilidad) de la variable y. Y, además, las variables
explicativas pueden ser continuas o discretas.
4. El parámetro β1 es un parámetro desconocido, que medirá el valor esperado de la
variable yt cuando todas las variables explicativas xt,j, j = 2, 3, …, k, valgan 0, es
decir:
E ( y t xt , 2 xt ,3  xt ,k 0) 1

5. Los parámetros βj, j = 2, 3, …, k, son parámetros desconocidos, y están
asociados, respectivamente, a las variables explicativas xt,j, j = 2, 3, …, k. Miden el
efecto parcial de las variables explicativas xt,j, j = 2, 3, …, k, sobre la yt.
Existen dos interpretaciones diferentes de los parámetros βj en función de si la
variable explicativa es continua o es discreta, tal y como se verá después.
6. La variable εt es una variable aleatoria Ruido Blanco, es decir:
2
t
~ N (0; ), t, y E ( t s
) 0, t s

TEMA 2



Particularizando la expresión del Modelo Lineal General para cada una de las
observaciones de la población, se tiene que:
Para t 1: y1 β1 β 2 x1 , 2 β 3 x1 , 3  β k x1 ,k ε1
Para t 2 : y2 β1 β 2 x 2 ,2 β 3 x 2 ,3  β k x 2 ,k ε2

Para t N : yN β1 β 2 x N, 2 β 3 x N, 3  β k x N,k εN
Utilizando lenguaje matricial, el modelo se puede escribir de forma compacta como:
y1 1 x1 , 2 x1 , 3  x1 , k 1 1

y2 1 x2,2 x 2 ,3  x 2 ,k 2 2

       
yN 1 x N , 2 x N ,3  x N ,k

           k
N

y X β ε
donde, tal y como se puede observar, y es un vector columna de dimensión N 1, X es
una matriz de dimensiones N k, β es un vector columna de dimensión k 1 y, por
último, ε es un vector columna de dimensión N 1.

TEMA 2



Vamos a estudiar cómo se interpretan los coeficientes del Modelo Lineal General en
función de cómo sean las variables independientes y de cómo sea la variable dependiente:
1. Las variables independientes, xt,j, j = 2, 3, …, k, están expresadas en niveles y son
variables continuas, mientras que la variable dependiente está en niveles:
yt f ( xt , 2 , xt ,3 ,  , xt ,k ) 1 2
xt , 2 3
xt ,3  k
xt ,k t
, t 1, 2 ,  , N
Puesto que uno de los supuestos del Modelo Lineal General es que la variable
dependiente, yt, es una variable continua, entonces, se cumple que:
yt f ( xt , 2 , xt ,3 ,  , xt ,k )
j
, j 2 , 3,  , k
xt , j xt , j
es decir, el coeficiente βj, asociado a la variable explicativa xt,j, j = 2, 3, …, k, es el
efecto marginal que la variable explicativa xt,j produce sobre la variable que
queremos explicar, yt.
Dicho de otra manera, caeteris paribus, si la variable xt,j se incrementa en una
unidad, entonces la variable dependiente, yt, varía en βj unidades (incrementa, si el
signo de βj es positivo, y disminuye, si el signo de βj es negativo).

TEMA 2



2. Alguna de las variables explicativas, xt,j, j = 2, 3, …, k, están expresadas en
logaritmos neperianos y son variables continuas, mientras que la variable
dependiente está, también, en logaritmos neperianos:
Por ejemplo, sea el modelo:
ln y t f ( xt , 2 , xt ,3 ,  , xt ,k ) 1 2
ln x t , 2  k
ln x t , k t
, t 1, 2 ,  , N
En este caso, se tiene que:
ln y t f ( xt , 2 , xt ,3 ,  , xt ,k )
j
, j 2 , 3,  , k
ln x t , j ln x t , j

es decir, el coeficiente βj, asociado a la variable explicativa xt,j, j = 2, 3, …, k, es una
elasticidad constante de la variable explicativa xt,j sobre la variable a explicar, yt.
Dicho de otra manera, caeteris paribus, si la variable xt,j se incrementa en un
1%, entonces la variable dependiente, yt, varía en un βj % (incrementa, si el signo de
βj es positivo, y disminuye, si el signo de βj es negativo).

TEMA 2



variables continuas, mientras que la variable dependiente está en logaritmos
neperianos:
ln y t f ( xt , 2 , xt ,3 ,  , xt ,k ) 1 2
xt , 2  k
xt ,k t
, t 1, 2 ,  , N
En este caso, se tiene, por un lado, que:
ln y t f ( xt , 2 , xt ,3 ,  , xt ,k )
j
, j 2 , 3,  , k
xt , j xt , j

es decir, el coeficiente βj, asociado a la variable explicativa xt,j, j = 2, 3, …, k, es una
semielasticidad constante de la variable explicativa xt,j sobre la variable a
explicar, yt.
Dicho de otra manera, caeteris paribus, si la variable xt,j se incrementa en una
unidad, entonces la variable dependiente, yt, varía en (100 βj )% unidades
(incrementa, si el signo de βj es positivo, y disminuye, si el signo de βj es negativo).

TEMA 2



variables dicotómicas, mientras que la variable dependiente está, también, en niveles:
yt f ( xt , 2 , xt ,3 ,  , xt ,k ) 1 2
xt , 2  k
xt ,k t
, t 1, 2 ,  , N
donde si la variable xt,j = 1, j = 2, 3, …, k, indica que dicha variable presenta una
característica determinada, mientras que si xt,j = 0, j = 2, 3, …, k, indica la ausencia
de dicha característica.
Si nos centramos en el efecto de una sola variable explicativa sobre la variable
dependiente, por ejemplo, la variable xt,2, entonces si xt,2 = 1 se tiene que:
E ( y t xt , 2 1) 1 2
 k
xt ,k t
, t 1, 2 ,  , N
mientras que si xt,2 = 0, entonces se tiene que:
E ( y t xt , 2 0) 1
 k
xt ,k t
, t 1, 2 ,  , N
Si restamos las dos expresiones vemos que el coeficiente es, en este caso, la
diferencia de comportamiento entre dos grupos diferentes: aquellos que tienen la
característica y los que no la tienen:
E ( y t xt , 2 1) E ( y t xt , 2 0) 2
, t 1, 2 ,  , N

TEMA 2



Sobre la variable dependiente, y
La variable dependiente, y, tiene que ser una variable continua. Si es una variable
discreta, entonces el Modelo Lineal General no es adecuado porque, entre otras cosas,
sería incompatible con el supuesto de que el término de error, ε, sea ruido blanco, es decir,
con el supuesto de que la perturbación del modelo se distribuye con una distribución
normal, con esperanza nula, varianza constante y ausencia de autocorrelación.
Si, como también se supone, las variables independientes son no estocásticas, entonces
todo el carácter estocástico de la variable dependiente, y, procede del término de
perturbación. Por lo tanto, si el término de perturbación es ruido blanco, eso es
incompatible, en nuestro modelo, con que y sea una variable discreta.
Cuando la variable dependiente y sea discreta se utilizarán otro tipo de modelos
diferentes, llamados de elección discreta, entre los que se encuentran, entre otros, los
modelos lineales de probabilidad, los modelos tobit, o los modelos logit, todos ellos fuera
del alcance de este curso.

TEMA 2



Sobre las variables independientes, x = (x1, x2, …, xk)
Las variables independientes deben cumplir dos propiedades:
1. En primer lugar, tienen que ser no estocásticas.
2. En segundo lugar, tienen que ser independientes.
Se supone que las variables x = (x1, x2, …, xk) deben ser variables deterministas, esto es,
deben ser previsibles con total certidumbre. Este supuesto es bastante irreal en la mayor
parte de los casos prácticos aunque, sin embargo, si las variables x = (x1, x2, …, xk) no
están correlacionadas con el término de error ε, entonces las consecuencias pueden no ser
muy graves.
Además, las variables x = (x1, x2, …, xk) deben ser linealmente independientes, es decir,
ninguna variable independiente ha de poder ser expresada como una combinación lineal
exacta de las restantes.
Si, por ejemplo, tenemos como variables explicativas el nivel de importaciones, el nivel
de exportaciones, y las exportaciones netas, a las que llamaremos x1, x2 y x3,
respectivamente, entonces es claro que se incumpliría este supuesto, dado que x3 ≡ x2 – x1.

TEMA 2



Sobre los parámetros, β = (β1, β2, …, βk)
Los parámetros del modelo deben ser constantes, es decir, no deben cambiar ni el tiempo
(en caso de encontrarnos con datos de series temporales) ni entre individuos (cuando
tratemos con datos de sección cruzada).
Si, por el contrario, los parámetros del modelo sí varían, entonces se dice que la estructura
del modelo cambia o que existe un cambio estructural.
Un ejemplo en el cual se incumple el supuesto de parámetro constante es cuando tenemos
el siguiente modelo econométrico:
yt 1 t ,2
xt , 2 t
, con t
siendo Ruido Blanco
En el modelo econométrico propuesto podemos ver que el parámetro β1 es constante
pero, sin embargo, el parámetro β2 depende o de los individuos o del tiempo (dependiendo
del tipo de datos con el que tratemos). Supongamos que sabemos que su comportamiento
se puede explicar mediante el siguiente modelo econométrico:
t ,2
0 ,7 t 1, 2
a t , con a t siendo Ruido Blanco
es decir, el parámetro poblacional β2 en el presente depende de lo que ocurrió en el
periodo inmediatamente anterior.

TEMA 2



Sobre la perturbación del modelo, ε
Cada perturbación del modelo, εt, t = 1, 2, …, N, ha de seguir una distribución Normal, ha
de tener esperanza matemática nula, es decir, se ha de cumplir que:
E( t) 0, t 1, 2,  , N
supuesto que, si existe un término constante en el modelo econométrico, no es demasiado
restrictivo.
Además, cada perturbación del modelo debe tener la misma varianza, es decir, se tiene
que cumplir que:
2 2 2 2
E ( t
E( t
)) E( t
) , siendo constante, t 1, 2,  , N
Si se cumple este supuesto se dice que las perturbaciones del modelo son homocedásticas.
Sin embargo, si no se cumple, entonces existe un problema de heterocedasticidad.
Por último, las perturbaciones han de estar incorrelacionadas por pares, es decir:
E ( t
E ( t ))( s
E( s
)) E( t s
) 0, t s
Si todos los supuestos sobre las perturbaciones del modelo se cumplen, entonces se dice
que εt sigue un proceso estocástico de Ruido Blanco.

TEMA 2



Primer caso: omisión de variables relevantes
Imaginemos que especificamos el siguiente modelo econométrico:
yt xt , 2 xt ,3 2 .1
1 2 3 t

Sin embargo, supongamos que el verdadero modelo no es éste, sino el siguiente:
yt 1 2
xt , 2 3
xt ,3 4
xt , 4 at 2 .2
que es el mismo que el anterior, salvo por el hecho de que en el primero hemos omitido la
variable explicativa xt,4, que es una variable relevante. En el modelo (2.2) se tiene que at
es Ruido Blanco, mientras que, comparando los modelos (2.1) y (2.2) tendríamos, sin
embargo, que:
t 4
xt , 4 at
Tomando esperanzas en la expresión anterior se tiene que:
E( ) E( xt , 4 at ) E( xt , 4 ) E (at ) xt , 4 0
t 4 4

 4

0
Es decir, un error de especificación del modelo (haber omitido una variable relevante)
llevaría a que la esperanza de la perturbación no fuera nula.

TEMA 2



Segundo caso: autocorrelación del término de perturbación
Consideremos que tenemos el siguiente modelo econométrico:
yt 1 2
xt , 2 t

donde se tiene que:
t
0 ,5 t 1
a t , donde a t es Ruido Blanco
En este caso el término de perturbación εt no es independiente de su pasado, puesto que,
como podemos observar, εt es función de εt–1. Entonces, si calculamos la autocovarianza
entre εt y εt–1 se tendría que:
2
E( t t 1
) E ( 0 ,5 t 1
at ) t 1
0 ,5 E ( t 1
) E (at t 1
)
Demostraremos en Econometría II que:
2
a
1
0 ,5 0
, donde 0 2
1 0 ,5
con lo que la autocovarianza entre εt y εt–1 no es nula y, por lo tanto, no se cumple el
supuesto de ausencia de autocorrelación. En la expresión anterior se tiene que:
2
0
E ( t
E( t
)) y, además, 1
E ( t
E( t
))( t 1
E( t 1
))

TEMA 2



Tercer caso: heterocedasticidad en el término de perturbación
Consideremos que tenemos el siguiente modelo econométrico:
yt 1 2
xt , 2 t

en el cual se cumple que:
2 2
E( t
) t

es decir, que la varianza no es constante, sino que varía o bien entre individuos o bien a lo
largo del tiempo (en función del tipo de datos que estemos manipulando).
Además, sabemos que la varianza de la perturbación se comporta conforme al siguiente
modelo:
2
t 0 1
zt
siendo zt alguna variable que explica el movimiento o variabilidad de la varianza del
término de perturbación, εt.
Si esto ocurre, entonces se incumple el supuesto de homocedasticidad. Se dice entonces
que tenemos un problema de heterocedasticidad en el término de perturbación del modelo
εt.

TEMA 2


2.6. Importancia de los supuestos del Modelo Lineal General

Los supuestos que hemos realizado antes y que hemos dicho que es importante que se
cumplan en el Modelo Lineal General garantizan:
1. En primer lugar, buenas propiedades para los estimadores obtenidos tanto por
Mínimos Cuadrados Ordinarios (MCO) como por Máxima Verosimilitud (MV) que
vamos a usar para estimar los parámetros poblacionales (desconocidos) del Modelo
Lineal General.
2. En segundo lugar, una distribución estándar para el estadístico de contraste
habitualmente utilizado (el estadístico F). La especificación final de un modelo
econométrico requiere de un buen estimador de los parámetros (esto es, un estimador
con buenas propiedades) sobre el que se pueda construir un estadístico de contraste
lo más potente posible.

TEMA 2


TEMA 3
ESTIMACIÓN DEL MODELO LINEAL GENERAL
3.1. Estimación del Modelo Lineal General por MCO
3.2. Propiedades algebraicas del estimador MCO
3.3. Coeficiente de determinación
3.4. Distribución de los coeficientes estimados y sus propiedades

3. ESTIMACIÓN DEL MODELO LINEAL GENERAL

Mínimos Cuadrados Ordinarios (MCO de aquí en adelante) es el método de estimación
más utilizado para la estimación de los parámetros poblacionales del Modelo Lineal
General.
Sea el Modelo Lineal General escrito en forma matricial:
y Xβ ε
donde y es un vector columna de dimensión N 1, X es una matriz de dimensión N k (N
individuos en la población y k variables independientes), β es un vector columna de
dimensión k 1 y, por último, ε es un vector columna de dimensión N 1.
Se define el concepto de residuo como:
~ ~
ε y Xb
es decir, como la diferencia entre los valores observados y los valores estimados, siendo
~
hucualquier estimador del vector paramétrico desconocido β.
b
Si cambiamos el vector de coeficientes estimados, entonces también variará el vector de
residuos:
 ~   ~
Si utilizamos b en vez de b entonces obtendremo s ε y Xb ε

TEMA 3



El método MCO consiste en hallar el estimador de β que minimiza la suma de los
cuadrados de los residuos, es decir, consiste en resolver el siguiente problema de
optimización:
n

m in ε ε
  m in i2

{b } 
{b }
i 1

Teniendo en cuenta la definición de residuo, podemos reescribir el problema anterior de la
siguiente manera:
~ ~
min ~ ~
~
ε ε min ( y
~
X b ) (y Xb)
{b} {b}
~ ~
min ( y
~
b X )( y Xb)
{b}
~ ~ ~ ~
min y y
~
y Xb bXy b X Xb
{b}
~ ~ ~
min y y
~
2y Xb b X Xb
{b}

A partir de ahora a la función objetivo del problema lo vamos a denominar como:
~ ~ ~ ~
S (b ) yy 2y Xb b X Xb

TEMA 3



La condición necesaria de primer orden (CPO) de este problema de optimización es la
siguiente:
~ ~ ~ ~
S (b ) (y y 2y Xb b X Xb)
~ 0 ~ 0
b b
~ ~ ~
(y y ) (y X b ) (b X X b )
~ 2 ~ ~ 0
b b b
~
0 2y X 2b X X 0
Resumiendo, la condición de primer orden del problema es:
~
S (b ) ~
~ 0 2b X X 2y X 0 3 .1
b
La condición (3.1) es conocida como el sistema de ecuaciones normales. Al vector de
coeficientes estimados que cumpla la condición (3.1) se le cambia el nombre. Así, para los
que cumplan la condición (3.1) se tendrá que:
~ ˆ
b β (sólo para el vector que cumpla el sistema de ecuaciones normales)

TEMA 3



Operando en la condición (3.1) de óptimo tenemos que:
ˆ
2β X X 2y X 0 ˆ
2 (β X X y X) 0 ˆ
βXX yX 0
3 .2
ˆ
X Xβ Xy 0 ˆ
( X X )β Xy
Si el rango de la matriz X es completo entonces también lo será el de la matriz X X y, por
lo tanto, existirá la inversa de esta última matriz, por lo que podremos despejar el vector
de coeficientes estimados en la expresión (3.2). Es decir:
1
Si ( X ) es completo ( X X ) es completo (X X ) existe
y, si esto se cumple, entonces operando en la expresión (3.2) llegamos a la manera en
cómo se estiman los parámetros poblacionales del Modelo Lineal General a través del
método MCO:
ˆ
β
1
(X X ) X y
Por otro lado, la condición de segundo orden de nuestro problema de minimizar la suma
de los cuadrados de los residuos es:
2 ~
S (b )
~ ~ 2 X X ( X X es definida positiva, por lo que el óptimo es un mínimo)
b b

TEMA 3



El estimador MCO tiene cinco importantes propiedades. Las tres primeras se cumplen
siempre. Sin embargo, las últimas dos propiedades se cumplen exclusivamente en el caso
de que el Modelo Lineal General tenga término constante.
Las primeras tres propiedades son las siguientes:
1. Las variables explicativas están incorrelacionadas con los residuos del modelo:
n

ˆ
Xε 0 o, en form a algebraica, x t , k ˆt 0, k
t 1

2. Los valores estimados del modelo están incorrelacionados con los residuos:
n

ˆ ˆ
yε 0 o, en form a algebraica, y t ˆt
ˆ 0
t 1

3. La suma de los cuadrados de la variable dependiente se puede descomponer en la
suma de dos componentes: por un lado, la suma de los cuadrados de los valores
estimados de la variable dependiente con el método MCO y; por otro lado, la suma
de los cuadrados de los residuos del modelo:
n n n

yy ˆ ˆ
yy ˆ ˆ
ε ε o, en form a algebraica, y t
2
ˆ
y t
2
ˆt2
t 1 t 1 t 1

TEMA 3



Las últimas dos propiedades del estimador MCO que, recordemos, sólo se cumplen en el
caso de que exista término constante en el Modelo Lineal General, son las siguientes:
4. La suma de los residuos del modelo es nula, es decir:
n

ˆ
ιε 0 o, en form a algebraica, ˆt 0
t 1

donde ι es un vector en el que todos sus elementos son la unidad:
ι (1 1  1)
5. La suma de los cuadrados de las desviaciones respecto de su media de la variable
dependiente se puede descomponer en la suma de dos partes: por un lado, la suma de
los cuadrados de las desviaciones respecto de su media de los valores ajustados por
el método MCO y, por otro, la suma de cuadrados de los residuos, es decir:
(y y ) (y y) ˆ
(y ˆ ˆ
y ) (y y ) (ε ˆ)
ˆ ˆε
o, escrito en forma algebraica:
n n n

( yt y)
2
ˆ
( yt ˆ
y)
2
ˆt2
t 1 t 1 t 1

TEMA 3



A partir de la quinta propiedad algebraica del estimador MCO, si dividimos los dos
miembros de dicha igualdad por el tamaño muestral, n, entonces se tiene que:
1 1 1
(y y ) (y y) ˆ
(y ˆ ˆ
y ) (y ˆ
y) (ε ε )
ˆ ˆ
n n n
o, en forma algebraica:
n n n
1 2 1 1
yt y ˆ
( yt ˆ
y)
2
ˆt2 3 .3
n t 1 n t 1 n t 1

Es decir, la varianza muestral de la variable dependiente se puede descomponer en la
suma de dos partes: en primer lugar, la varianza muestral de los valores estimados por
MCO de la variable dependiente y, por otro lado, la varianza muestral de lo residuos del
modelo.
Si dividimos los dos miembros de la expresión (3.3) por la varianza de la variable
dependiente, entonces se tiene que:
n n n

(1 n ) ( yt y)
2
(1 n ) ˆ
( yt ˆ
y)
2
(1 n ) ˆt2 2 2
t 1 t 1 t 1
sy
ˆ sˆ
n n n
1 2 2
2 2 2 sy sy
(1 n ) ( yt y) (1 n ) ( yt y) (1 n ) ( yt y)
t 1 t 1 t 1

TEMA 3



Definición:
Definimos el coeficiente de determinación o R–cuadrado como el cociente entre la
varianza muestral de la variable dependiente estimada por MCO y la varianza de la
variable dependiente, es decir:
n

(1 n ) ˆ
( yt ˆ 2
y) 2 2
2 t 1
sy
ˆ 2 sˆ
R n 2
o, también, R 1 2
2 sy sy
(1 n ) ( yt y)
t 1

Debido a que las varianzas, por definición, no pueden ser negativas, entonces el
coeficiente de determinación debe ser un número positivo. Además, tal y como se
desprende de la expresión (3.3) de la diapositiva anterior, la varianza muestral de la
variable dependiente tiene que ser mayor o igual que la varianza muestral de la variable
dependiente estimada por el método MCO y, debido a ello, el coeficiente de
determinación es un número comprendido entre cero y uno. Debido a que R² ϵ [0, 1]
entonces, multiplicándolo por 100, el mismo se puede interpretar como un porcentaje,
esto es, como el porcentaje de la variabilidad de la variable dependiente que es explicada
por la variabilidad de las variables independientes x = (x1, x2, …, xk).

TEMA 3



Definición:
Definimos el coeficiente de determinación corregido como una medida de bondad del
ajuste del modelo econométrico que, a diferencia del coeficiente de determinación, tiene
en cuenta los grados de libertad del modelo, penalizando la incorporación de un mayor
número de variables explicativas en el mismo. Se calcula como:
2 n 1 2
R 1 (1 R )
n k

Al aumentar el número de variables explicativas en el Modelo Lineal General
aumentamos la variabilidad de la variable dependiente estimada por el método MCO y,
consecuentemente, provocamos que el R–cuadrado crezca acercándose a la unidad. Pero,
sin embargo, puede que la capacidad explicativa de las nuevas variables independientes
acerca del comportamiento de la variable dependiente sea inexistente. Por ello se calcula
el coeficiente de determinación corregido, que sirve para compararlo con el R²:
1. Si son similares en magnitud se concluye que no hay problemas con los grados de
libertad del modelo y el R² puede interpretarse de manera estándar.
2. Si son muy diferentes, entonces el R² exagera la capacidad explicativa de las
variables independientes.
TEMA 3



En este apartado llegaremos a demostrar que, si se cumplen los supuestos sobre el Modelo
Lineal General vistos en el Tema 2, entonces la distribución del vector de coeficientes
estimados por MCO es:
ˆ
β ~ N (β ;
2
(X X ) )
1

A partir de la distribución del estimador del vector de coeficientes estimados por MCO se
obtendrá el estadístico pivote que nos servirá para construir intervalos de confianza del
verdadero valor de los parámetros poblacionales (desconocidos).
También demostraremos que, si se cumplen determinados supuestos, la matriz de
varianzas y covarianzas (MVC de aquí en adelante) de los coeficientes estimados es la
más pequeña de todas las MVC entre todos los estimadores lineales e insesgados de β.
Así, debido a que:
ˆ
E (β ) β
y, además, se tiene que:
ˆ
M V C (β )
2
(X X )
1
es m ínim a,
entonces se podrá decir que el vector de coeficientes estimados por MCO es el estimador
lineal e insesgado óptimo de β, cuando se dan los supuestos del Modelo Lineal General.

TEMA 3



Primera demostración: el vector de coeficientes estimados tiene distribución Normal
El estimador por MCO del vector de parámetros poblacionales β es:
ˆ
β (X X ) X y
1
Wy
  
W
W es una matriz de dimensión k n y es no estocástica, porque uno de los supuestos del
Modelo Lineal General es que las variables explicativas contenidas en la matriz X son no
estocásticas.
Cada uno de los elementos del vector de coeficientes estimados por MCO es una
combinación lineal del vector y. Así, para j = 1, 2, …, k, se tiene que:
ˆ w j ,1 y 1 w j,2 y2  w j ,n y n
j

donde wj,1, wj,2, …, wj,n son los elementos de la fila j-ésima de la matriz W e y1, y2, …, yn,
son los elementos del vector y.
Puesto que el vector y se distribuye como una Normal (debido a que y = Xβ + ε, donde a ε
se le supone una distribución Normal, y donde Xβ es un término no estocástico de y, por
ser X no estocástica y β un vector de parámetros), entonces cada uno de los coeficientes
estimados por MCO es una combinación lineal de Normales y, por lo tanto, es Normal.
TEMA 3



Segunda demostración: el vector de coeficientes estimados es insesgado
El estimador por MCO del vector de parámetros poblacionales β es:
ˆ
β
1
(X X ) X y
Si operamos en dicha expresión, se tiene que:
ˆ
β
1
(X X ) X y ˆ
β
1
(X X ) X (Xβ ε)
 
 
y
ˆ
β
1
(X X ) X Xβ
1
(X X ) X ε
  
I
ˆ
β β
1
(X X ) X ε
Si tomamos esperanzas en la expresión anterior, se llega a que:
ˆ
E (β ) E (β
1
(X X ) X ε) ˆ
E (β ) E (β )
1
E (( X X ) X ε )
Pero, por un lado, como el vector de parámetros poblacionales β es un vector de
constantes y, por otro, X es una matriz de variables no estocásticas, entonces:
ˆ
E (β ) E (β ) E (( X X ) X ε )
1 ˆ
E (β ) β
1
( X X ) X E (ε ) ˆ
E (β ) β

0

TEMA 3



Tercera demostración: obtención de la MVC del vector de coeficientes estimados
Vamos a demostrar que la MVC del vector de coeficientes estimados por MCO del vector
de parámetros poblacionales β tiene la siguiente expresión:
ˆ
MVC ( β )
2
(X X )
1

y, además, vamos a demostrar (a partir de la diapositiva 53) que es la mínima MVC de
entre todas las MVC de los estimadores lineales e insesgados.
Por definición, la MVC del vector de coeficientes estimados por MCO viene dada por:
ˆ
MVC ( β ) ˆ
E (β ˆ ˆ
E ( β ))( β ˆ
E (β ))
Pero, como hemos visto en la demostración de la insesgadez del vector de coeficientes
estimados, se tiene que:
1. El vector de coeficientes estimados es insesgado, es decir:
ˆ
E (β ) β
2. El vector de coeficientes estimados se puede expresar en función del vector de
parámetros poblacionales de la siguiente manera:
ˆ
β β (X X ) X ε
1 ˆ
β β
1
(X X ) X ε

TEMA 3



Tercera demostración: obtención de la MVC del vector de coeficientes estimados
Si sustituimos estas dos últimas expresiones en la MVC del vector de coeficientes
estimados por MCO, se tiene que:
ˆ
MVC ( β ) ˆ
E (β ˆ ˆ
E ( β ))( β ˆ
E (β )) ˆ
MVC ( β ) ˆ
E (β ˆ
β )( β β)
ˆ
MVC ( β )
1
E ( ( X X ) X ε )(( X X ) X ε )
1

ˆ
MVC ( β )
1
E ( X X ) X εε X ( X X )
1

Además, dado el supuesto de que la matriz de variables independientes X es no
estocástica, entonces:
ˆ
MVC ( β )
1
E ( X X ) X εε X ( X X )
1 ˆ
MVC ( β )
1
( X X ) X E (εε ) X ( X X )
1

Por otro lado, dados los supuestos de no autocorrelación y de homocedasticidad del
vector de perturbaciones del Modelo Lineal General se tiene que E(εε ) = σ²I, por lo que:
ˆ
M V C (β )
1
( X X ) X E ( εε ) X ( X X )
1 ˆ
M V C (β ) (X X ) X
1 2
IX ( X X )
1

ˆ
M V C (β )
2
(X X )
1
X X (X X )
1 ˆ
M V C (β )
2
(X X )
1

  
I

TEMA 3



Cuarta demostración: optimalidad del vector de coeficientes estimados

Teorema de Gauss-Markov:
Si se cumplen los supuestos del Modelo Lineal General, entonces el vector de
coeficientes estimados por MCO es el estimador con menor matriz de varianzas y
covarianzas de entre todos los estimadores lineales e insesgados del vector de
parámetros poblacionales del modelo.
Por un lado, el vector de coeficientes estimados por MCO viene dado por:
ˆ
β Wy con W (X X ) X
1

Sabemos que si la matriz X es no estocástica, entonces se cumple que:
ˆ
E (β ) ˆ
β y MVC ( β )
2
(X X )
1

Por otro lado, sea b = Cy cualquier otro estimador lineal del vector de parámetros β. Para
que b sea insesgado, se tiene que cumplir que CX sea igual a I. Si CX = I, entonces:
E (b ) E ( Cy ) E (b ) E C(Xβ ε) E (b ) CE (Xβ ε)
E (b ) C E (Xβ) C E (ε ) E (b ) CX β
 E (b ) β
 
Xβ 0 I

TEMA 3



La MVC del estimador b es, por definición:
MVC ( b ) E (b E ( b ))( b E (b ))
Pero, suponiendo que efectivamente CX = I, entonces E(b) = β y, además, se tiene que:
b Cy b C(Xβ ε) b CX β
 Cε b β Cε b β Cε
I
Teniendo en cuenta esto, la MVC del estimador b se puede reescribir como:
MVC ( b ) E (b E ( b ))( b E (b )) MVC ( b ) E (b β )( b β)
MVC ( b ) E ( C ε )( C ε ) MVC ( b ) E C εε C
2 2
MVC ( b ) C E (εε )C MVC ( b ) C IC MVC ( b ) CC

2
I
Puesto que C = W + D (esto sucede siempre), entonces se tiene que:
2 2
M V C (b ) (W D )( W D) M V C (b ) (W D )( W D)
2 3 .4
M V C (b ) (W W WD DW DD )

TEMA 3



Vamos a demostrar, analizando cada matriz de la expresión (3.4) que la MVC del
estimador lineal genérico b es mayor que el del vector de coeficientes estimados por
MCO. Así:
1. En primer lugar, puesto que W = (X X)-1X , entonces:
2 2 1 1 2 1 1 2 1
WW [( X X ) X ][( X X ) X ] (X X ) X X (X X ) (X X)
2. En segundo lugar:
2 2 1 2 1
WD (X X ) X D ( X X ) X (C W )
2 1 1
(X X ) X C (X X ) X W
Como hemos supuesto que CX = I, entonces trasponiendo los dos lados de la
igualdad, también se tendrá que X C = I. Además, sabemos que W = (X X)-1X , por
lo que se tiene que:
2 1 1 2 1 1 1
(X X) X C (X X) X W (X X) I ( X X ) X [( X X ) X ]
2 1 1 1 2 1 1
(X X ) (X X) X X(X X) (X X ) (X X ) 0

TEMA 3



3. En tercer lugar, puesto que σ²WD = 0, entonces si trasponemos esta expresión, se
tiene que:
2 2 2
WD 0 ( WD ) 0 DW 0
4. En cuarto lugar:
2 2 2
DD (C W )( C W) (C C CW WC WW )
es una matriz semidefinida positiva.
Así, volviendo a la expresión (3.4) se tiene que:
2 2 2 2
M V C (b ) WW
 WD
 DW
 DD

(X X ) 1 0 0 s .d . p
2 1
M V C (b ) (X X ) M atriz s.d.p
Por lo tanto, podemos concluir que:
MVC ( b ) ˆ
MVC ( β ) Matriz s.d.p ˆ
MVC ( β ) MVC ( b )
es decir, el vector de coeficientes estimados por MCO tiene la menor MVC de los
estimadores lineales e insesgados.

TEMA 3


TEMA 4
INFERENCIA EN EL MODELO LINEAL GENERAL
4.1. Derivación del test de Wald
4.2. Uso del test de Wald
4.3. El estadístico F
4.4. Construcción de intervalos de confianza para β
4.5. Supuestos del Modelo Lineal General y uso de estadísticos

4. INFERENCIA EN EL MODELO LINEAL GENERAL

Por un lado, sea A una matriz de dimensión m k y, por otro lado, sea c un vector de
constantes conocidas de dimensión m 1.
Cualquier hipótesis lineal sobre el vector de parámetros β puede expresarse como Aβ = c.
Si, tal y como derivamos en el Tema 3:
ˆ
β ~ N (β ;
2
(X X ) )
1

entonces se tiene que:
ˆ
A β ~ N (A β;
2 1
A (X X ) A )
puesto que:
1. En primer lugar, la esperanza matemática es:
ˆ
E (Aβ) ˆ
A E (β ) Aβ
2. En segundo lugar, la matriz de varianzas y covarianzas es:
ˆ
MVC ( A β ) ˆ
E (Aβ ˆ ˆ
E ( A β ))( A β ˆ
E ( A β )) ˆ
E (Aβ ˆ
A β )( A β Aβ)
ˆ
E A (β ˆ
β )( β β )A ˆ ˆ
A E ( β β )( β β ) A
2 1
A (X X ) A
    
ˆ
MVC ( β )

TEMA 4



Pero, si efectivamente se tiene que:
ˆ
A β ~ N (A β;
2 1
A (X X ) A )
entonces se puede demostrar que se cumple que:
ˆ
(Aβ Aβ) [
2 1 1 ˆ
A (X X) A ] (Aβ Aβ) ~
2
4 .1
m

donde m es el número de filas de la matriz de coeficientes A o, lo que es lo mismo, es el
número de restricciones incluidas en la hipótesis nula del contraste en el que estamos
interesados.
Por lo tanto, bajo la hipótesis nula del contraste, es decir, si Aβ = c, la expresión (4.1) se
convierte en:
ˆ
(Aβ c) [
2 1 1 ˆ
A (X X) A ] (Aβ c) ~
2
4 .2
m

Es a esta última expresión a la que se la conoce como el test de Wald, y sólo es verdad en
el caso en que la hipótesis nula se cumpla, es decir, si y sólo si:
Aβ c

TEMA 4



Si, en el Modelo Lineal General, se desean contrastar, conjuntamente, m hipótesis lineales
sobre los elementos del vector de parámetros poblacionales desconocidos β, es decir, se
desea contrastar si se cumple la hipótesis nula:
Aβ c
actuaremos de una manera u otra en función de si conocemos o no la varianza del término
de perturbación del modelo. En general, es bastante irreal suponer que conocemos σ². Por
lo tanto, existen dos posibilidades:
1. En primer lugar, cuando conocemos la varianza del término de error del modelo.
2. En segundo lugar, más realista, cuando desconocemos la varianza del término de
error del modelo, teniendo que estimarla.
En este apartado veremos, en primer lugar, cómo contrastar hipótesis lineales cuando la
varianza del error sea conocida para, a continuación, estudiar cómo hacerlo cuando ésta
sea desconocida.

TEMA 4



Primer caso: conocemos la varianza del error del Modelo Lineal General, σ²
Cuando conocemos la varianza del error del Modelo Lineal General, el contraste de
hipótesis se hace como habitualmente.
En primer lugar, calculamos el estadístico de contraste, que viene dado por la expresión:
ˆ
(Aβ
1 1 ˆ
c) [A (X X ) A ] (A β c)
2

En segundo lugar, una vez calculado su valor, éste se compara con el valor crítico de una
chi-cuadrado con m grados de libertad: si el valor del estadístico se encuentra a la
izquierda del valor crítico, entonces no se rechaza la hipótesis nula; si, por el
contrario, cae a la derecha, se rechaza H0 a favor de la hipótesis alternativa.
f x

%
1 %
x
v .c . 2 ( %)
m

Zona de no rechazo de H 0 Zona de rechazo de H 0

TEMA 4



Segundo caso: desconocemos la varianza del error del Modelo Lineal General, σ²
Cuando desconocemos la varianza del error del Modelo Lineal General, un paso previo a
la realización del contraste de hipótesis consiste en estimar σ². Así, en este caso, más
realista, el procedimiento es el siguiente:
1. En primer lugar, estimamos la varianza del error del modelo, a través del siguiente
estimador:
n
ˆt2
ˆ2 t 1

n k
Este estimador de la varianza de la perturbación del modelo está basado en el
método de los momentos. Se divide por el número de grados de libertad para que el
estimador sea insesgado.
2. En segundo lugar, una vez estimado la varianza del error, actuamos como en el caso
de varianza del error conocida, usando el siguiente estadístico de contraste:
ˆ
(Aβ
1 1 ˆ
c) [A (X X ) A ] (A β c)
ˆ2

TEMA 4



Para el caso en el que la varianza del término de error del modelo, σ², es desconocida,
existe un método alternativo al test de Wald expuesto hasta ahora.
Para derivarlo, en primer lugar, tenemos que tener en cuenta (no es difícil de demostrar)
que si el término de perturbación del modelo se distribuye como una Normal, con media
cero, es homocedástica y no presenta problemas de autocorrelación, es decir, si se cumple
que ε ~ N(0; σ²I) , entonces se tiene que:
2
(n k) ˆ 2
2
~ n k

y es independiente de la expresión (4.2) de la diapositiva 59. Dado que las dos
distribuciones chi-cuadrado son independientes, entonces:
ˆ
(Aβ
1 1 ˆ
c) [A (X X ) A ] (A β c)
2

ˆ
(Aβ
1 1 ˆ
c) [A (X X ) A ] (A β c)
m ~ Fm , n k
m ˆ
2
(n k ) ˆ
2

2

(n k)

TEMA 4



El estadístico F se utiliza exactamente de la misma manera que el test de Wald.
Así, para contrastar la hipótesis nula Aβ = c, los pasos que hay que seguir son los
siguientes:
1. En primer lugar, se estima el modelo y = Xβ + ε por MCO, obteniéndose tanto el
vector de coeficientes estimados de los parámetros β como (X X)–1.
2. En segundo lugar, se estima la varianza de la perturbación aleatoria del modelo como
ya dijimos antes, es decir, como:
2 ˆ ˆ
εε
ˆ
n k
3. En tercer lugar, se calcula el estadístico F a través de la expresión obtenida antes:
ˆ
(Aβ
1 1 ˆ
c) [A (X X ) A ] (A β c)
F 4 .3
m ˆ
2

4. En cuarto y último lugar, se compara con el valor crítico de una distribución F con m
grados de libertad en el numerados y n – k grados de libertad en el denominador al
nivel de significatividad deseado y se actúa como siempre: si el estadístico cae a la
derecha del valor crítico se rechaza H0, no rechazándose si cae a la izquierda.

TEMA 4


Presentación Econometría I

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Presentación Econometría I

Similar a Presentación Econometría I (20)

Presentación Econometría I