Repaso de estadistica e inferencia

Apuntes de Econometría EMI – Ingeniería Comercial

1. VARIABLES ALEATORIAS

EXPERIMENTO ALEATORIO, ESPACIO MUESTRAL, PUNTO MUESTRAL Y EVENTOS

EXPERIMENTO ALEATORIO

Experimento: Medio de investigación científica, mediante el cual observamos, estudiamos
o descubrimos las virtudes o propiedades de un fenómeno.

Aleatorio: El fenómeno investigado es de tipo aleatorio es decir los resultados del mismo
son determinados por el azar o la casualidad. Antes de que se ejecute el experimento no
conocemos los resultados.

Ejemplos: Tirar un dado y observar el resultado, tirar dos dados y observar la suma de los
mismos.

Vemos un aspecto relativo a la economía como el resultado de un proceso estocástico, que,
en realidad y en la generalidad de los casos, está fuera de nuestro control.

El mecanismo mediante el cual se generan los resultados del proceso estocástico, se
denomina Proceso Generador de Datos (PGD).

ESPACIO MUESTRAL

Conjunto de todos los resultados posibles de obtener cuando se realiza un experimento
aleatorio.

Espacio muestral del experimento aleatorio de tirar dos dados y observar la suma
D1 D2 D1+D2 D1 D2 D1+D2 D1 D2 D1+D2
1 1 2 3 1 4 5 1 6
1 2 3 3 2 5 5 2 7
1 3 4 3 3 6 5 3 8
1 4 5 3 4 7 5 4 9
1 5 6 3 5 8 5 5 10
1 6 7 3 6 9 5 6 11
2 1 3 4 1 5 6 1 7
2 2 4 4 2 6 6 2 8
2 3 5 4 3 7 6 3 9
2 4 6 4 4 8 6 4 10
2 5 7 4 5 9 6 5 11
2 6 8 4 6 10 6 6 12

1


PUNTO MUESTRAL

Es un resultado posible cuando realizamos un experimento aleatorio. En el ejemplo anterior
es un punto muestral que el primer dado salga 2 y el segundo 5. Notar que otro punto
muestral es que el primer dado salga 5 y el segundo 2.

EVENTO

Un subconjunto del espacio muestral. (en el ejemplo, un evento posible es que la suma sea
igual a 6)

Eventos excluyentes, si la ocurrencia de uno de los eventos impide la ocurrencia del otro al
mismo tiempo, y viceversa.

Eventos exhaustivos, conjunto de todos los eventos que agotan todos los resultados posibles
del experimento aleatorio.

PROBABILIDAD Y VARIABLES ALEATORIAS

PROBABILIDAD

Sea A un evento en un espacio muestral. Sea P ( A) la probabilidad del evento A , es decir,
la proporción de veces (o frecuencia relativa) que el evento A ocurrirá en ensayos repetidos
de un experimento aleatorio.

PROPIEDADES DE LA PROBABILIDAD

1. 0 ≤ P (A) ≤ 1
2. Si A, B, C ... constituye un conjunto de eventos exhaustivo, entonces:
P ( A) + P ( B) + P (C ) + .... = 1
3. Si A, B, C ... son eventos mutuamente excluyentes, entonces:
P ( A ó B ó C ó...) = P ( A) + P ( B) + P (C ) + ...

2


Construcción de estadísticos para el ejemplo de la suma de dados
Evento A Probabilidad(A) 2
xf(x) (x-E(X)) *f(x) F(x)
X=x f(X=x)
2 1/36 0.06 0.69 0.03
3 2/36 0.17 0.89 0.08
4 3/36 0.33 0.75 0.17
5 4/36 0.56 0.44 0.28
6 5/36 0.83 0.14 0.42
7 6/36 1.17 0.00 0.58
8 5/36 1.11 0.14 0.72
9 4/36 1.00 0.44 0.83
10 3/36 0.83 0.75 0.92
11 2/36 0.61 0.89 0.97
12 1/36 0.33 0.69 1.00
E(X) 7.00 5.83 Var(X)
2.42 Desv(X)

VARIABLES ALEATORIAS

Una variable, cuyo valor está determinado por el resultado de un experimento aleatorio se
denomina variable aleatoria (va). Las variables aleatorias se denotan usualmente por las
letras mayúsculas X , Y , Z y así sucesivamente y los valores que ellas toman se escriben con
letras minúsculas x , y, z

Va. Discreta toma un número finito o infinito contable de valores.
Va. Continua puede tomar cualquier valor dentro de un intervalo de valores.

FUNCIÓN DE DENSIDAD DE PROBABILIDAD (FDP)

DE UNA V.A DISCRETA

Sea X una v.a. discreta que toma valores diferentes x1 , x 2 ,... x n . Entonces, la función:
f ( x ) = P ( X = x i ) para i = 1,2....n
f ( x ) = 0 para x ≠ x i
se denomina la función de densidad de probabilidad discreta (FDP) de X donde P ( X = x i )
significa la probabilidad de que la v.a. discreta X tome el valor de x i .

DE UNA V.A CONTÍNUA

Sea X una v.a. contínua. Entonces, se dice que f (x ) es la FDP de X si cumple las
siguientes condiciones:

3


f ( x) ≥ 0
+∞
∫ f ( x)dx = 1
−∞
b
∫ f ( x)dx = P(a ≤ x ≤ b)
a
A diferencia de una v.a discreta, la probabilidad de que X tome un valor específico es cero.
La probabilidad para este tipo de variables solamente se puede medir en un rango.

FUNCIÓN DE DISTRIBUCIÓN ACUMULADA

DE UNA V.A DISCRETA

Sea X una v.a. discreta que toma valores diferentes x1 , x 2 ,... x n . Entonces, F ( x ) es la
función de distribución acumulada:

Nótese que:

DE UNA V.A CONTINUA

Donde:

La función de distribución acumulada, satisface las siguientes propiedades:

1. 0 ≤ F ( x ) ≤ 1
2. Si x > y , entonces F ( x ) ≥ F ( y )
3. F ( +∞ ) = 1
4. F ( −∞ ) = 0
Además obtenemos:

La función de distribución acumulada implica la existencia de la función de densidad de
probabilidad y viceversa.

4


2. CARACTERÍSTICAS DE LAS DISTRIBUCIONES DE PROBABILIDAD

VALOR ESPERADO

El valor esperado de una variable discreta X , denotado por E (X ) , es:

E ( X ) = ∑ xf ( x )
x

El valor esperado de una variable continua X , denotado también por E (X ) , es:

E ( X ) = ∫ xf ( x )dx
x
PROPIEDADES DEL VALOR ESPERADO

1. El valor esperado de una constante (variable determinística) es la misma constante. Si
b es una constante, E (b) = b .
2. Si a, b son constantes, y X una variable aleatoria:
E (a + bX ) = a + bE ( X )
En general, para X 1 , X 2 ,.... X n y constantes a1 , a 2 ,....a n , b1 , b2 ,...bn :
E (a1 + b1 X 1 + a 2 + b2 X 2 ...a n + bn X n ) = a1 + b1 E ( X 1 ) + a 2 + b2 E ( X 2 ) + a n + bn E ( X n ).
3. Si X , Y son variables aleatorias, independientes una de otra:
E ( XY ) = E ( X ) E (Y )
4. Si X es una variable aleatoria con FDP f (x ) y si g ( X ) es cualquier función de X ,
entonces
E ( g( X )) = ∑ g( X ) f ( x) v.a. discreta
x

E ( g ( X )) = ∫ g ( X ) f ( x )dx v.a. continua
x
Otras medidas de tendencia central son la mediana y la moda. m es la mediana de X
si cumple:
1 1
Pr ob( X ≤ m ) = y Pr ob( X ≥ m ) =
2 2
La moda es el valor de x para el cual f ( x ) toma su valor máximo. La mediana
corresponde más que la media al valor medio de la distribución, elimina la influencia de
valores extremos. En el caso discreto, la moda de x corresponde al valor de x que tiene
la mayor probabilidad de ocurrencia.

VARIANZA (DESVIACIÓN ESTÁNDAR)

Sea X una variable aleatoria y sea E ( X ) = µ . La distribución o dispersión de valores de
los valores de X alrededor del valor esperado puede ser medida por la varianza:

5


{
var( X ) = σ x = E ( X − µ ) 2
2
}
La raíz cuadrada positiva de la varianza, es la desviación estándar, σ x . La varianza, se
calcula como:

var(X ) = ∑ ( x − µ ) 2 f ( x) v.a. discreta
x

var( X ) = ∫ ( x − µ ) 2 f ( x )dx v.a. continua
x
Mide el grado de dispersión de una distribución.

PROPIEDADES DE LA VARIANZA (DESVIACIÓN ESTÁNDAR)

1. E ( X − µ ) 2 = E ( X 2 ) − µ 2 → E ( X 2 ) = σ 2 + µ 2
2. La varianza de una constante (variable determinística) es 0.
3. Si a, b son constantes y X es una variable aleatoria:
var(a − bX ) = b 2 var( X )
4. Si X , Y son variables aleatorias (independientes una de otra) y a, b son constantes:
var(aX + bY ) = a 2 var( X ) + b 2 var(Y )
Este resultado se puede generalizar.

COVARIANZA

Sean X , Y v.a. con medias (valores esperados) µ x , µ y . La covarianza entre las dos variables
es:
[ ]
cov( X , Y ) = E ( X − µ x )(Y − µ y ) = E( XY ) − µ x µ y
La varianza es la covarianza de una variable aleatoria consigo misma.

La covarianza se calcula de la siguiente manera:

cov( X ,Y ) = ∑∑ ( X − µ x )(Y − µ y ) f ( x, y) =∑∑ XYf ( x, y) − µ x µ y v.a. discretas
y x y x
f ( x, y ) = P ( X = x, Y = y)

cov( X ,Y ) = ∫ ∫ ( X − µ x )(Y − µ y ) f ( x, y )dxdy = ∫ ∫ XYf ( x, y )dxdy − µ x µ y v.a continuas
y x y x

PROPIEDADES DE LA COVARIANZA

1. Si X , Y son independientes, su covarianza es cero.
2. cov(a + bX , c + dY ) = bd cov( X ,Y )

6


COEFICIENTE DE CORRELACIÓN

El coeficiente de correlación se define de la siguiente manera:
cov( X ,Y )
ρ=
σ xσ y
El coeficiente de correlación mide el grado de asociación entre las variables X , Y y se
encuentra en –1 y +1, donde –1 indica perfecta asociación negativa y +1 perfecta asociación
positiva. Si el coeficiente de correlación es cero la asociación entre las variables es nula.

VARIANZAS DE VARIABLES CORRELACIONADAS

1. Si X , Y v.a. no son independientes:
var( X + Y ) = var( X ) + var(Y ) + 2 cov( X ,Y )
var( X − Y ) = var( X ) + var(Y ) − 2 cov( X ,Y )

2. En general,

var( X 1 + X 2 + ... + X n ) = var( X 1 ) + var( X 2 ) + ... + var( X n ) + 2 cov( X 1 , X 2 ) + 2 cov( X 1 , X .3 ) +
...2 cov( X n−1 X n )

MOMENTOS SUPERIORES DE LAS DISTRIBUCIONES DE PROBABILIDAD

Aunque la media, la varianza y la covarianza son las medidas resumen más utilizadas en una
función de densidad de probabilidades, en ocasiones se deben utilizar momentos superiores.
Por ejemplo, la simetría de la distribución o la curtosis.

La simetría es:
Simetría = E ( X − µ ) 3 { }
Que normalizada es el coeficiente de simetría:

S=
{
E ( X − µ )3 }
3
σ

7


Distribución – Chi Cuadrado (Para diferentes grados de libertad)

K=2

K=5
K=10

0 2 4 6 8 10 12 14 16 18 20 22 24

En una distribución simétrica la simetría es igual a cero y:

La curtosis se define como:
{
Curtosis = E ( X − µ )4 }
Que normalizada es el coeficiente de curtosis:

8


K=
(
E ( X − µ )4 )
4
σ
Distribuciones para diferentes grados de curtosis

Leptocúrtica

Mesocúrtica

Platicúrtica

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

La simetría y la curtosis se normalizan en la medida que la siguiente expresión crece a medida
que r aumenta:

3. ALGUNAS DISTRIBUCIONES DE PROBABILIDAD IMPORTANTES

LA DISTRIBUCIÓN NORMAL

La más conocida de las distribuciones. Su función de distribución de probabilidad tiene
forma de campana.
1 ⎛ 1 ( x − µ ) 2 ⎞
f ( x) = exp⎜ − ⎟
σ 2π ⎜ 2 σ 2 ⎟
⎝ ⎠

Los parámetros de la distribución normal son la media y la varianza. Se dice que X tiene
una distribución normal con media µ y varianza σ 2 adoptando la siguiente notación:
X → N ( µ ,σ 2 )

A partir de cualquier v.a. normal se puede generar una variable Z :
x−µ
Z=
σ

9


Dicha variable se dice que tiene una distribución normal estándar. Esta distribución tiene la
particularidad de que la media es igual a 0 y la varianza es igual a 1. Es decir, Z → N (0,1)

Función de densidad de la distribución normal estandarizada

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
68%

95%

99.7%

En una normal, el coeficiente de simetría es 0 y la curtosis es 3 (es decir, es simétrica y
mesocúrtica).

LA DISTRIBUCIÓN CHI-CUADRADO

K=2

K=5
K=10

0 2 4 6 8 10 12 14 16 18 20 22 24

Es una distribución asimétrica (a la derecha) que se va volviendo simétrica a medida que
aumentan los grados de libertad (el número de observaciones o tamaño de la muestra). Su
dominio corresponde a valores únicamente positivos.

10


LA DISTRIBUCIÓN T-STUDENT

K=150

K=10

K=1

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5

Distribución simétrica (muy parecida a la normal). Más plana que la normal (más
platicúrtica). Converge a una normal a medida que aumentan los grados de libertad K .

LA DISTRIBUCIÓN F DE FISHER

50,50

2,2

10,2

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0

Distribución asimétrica (a la derecha). Los valores de X están definidos en el rango positivo.
Al igual que la chi-cuadrado se vuelve simétrica a medida que aumentan los grados de
libertad.

11


4. INFERENCIA ESTADÍSTICA: ESTIMACIÓN

Con el fin de estimar de estimar los parámetros de un modelo u otro tipo de experimento
aleatorio, necesitaremos dos insumos: una muestra aleatoria de datos y un supuesto sobre
la distribución de probabilidad asociada a dichos parámetros.

Existe la estimación puntual y la estimación por intervalos.

ESTIMACIÓN PUNTUAL

Sea la variable aleatoria X . Se dispone de una muestra aleatoria ( x1 , x2 ... xn ) y se conoce la
función de distribución de probabilidad, f ( x,θ ) . El parámetro a obtener es θ . Para ello se
utiliza la muestra y se genera un estimador que es función de la misma:

θˆ = g ( x1 , x2 ... xn )

θˆ se conoce como el estimador de θ y el valor específico que toma se denomina estimación.

ESTIMACIÓN POR INTERVALOS

En vez de una estimación puntual, se proporciona un intervalo de valores dentro de los cuales
puede encontrarse el verdadero valor del parámetro.

La clave consiste en reconocer que el estimador es una variable aleatoria, con una distribución
de probabilidad. La misma puede ser utilizada para generar un intervalo de confianza para el
estimador (visto más adelante).

MÉTODOS DE ESTIMACIÓN

En el análisis de regresión existen tres métodos de estimación que generalmente son
utilizados: Mínimos Cuadrados Ordinarios (MCO), Método de Máxima Verosimilitud (MV) y
el Método Generalizado de Momentos (MGM).

PROPIEDADES ESTADÍSTICAS EN MUESTRAS PEQUEÑAS

La calidad de un estimador, se mide por las propiedades estadísticas deseables que pueda
tener:

Insesgamiento

Un estimador es insesgado, si el valor esperado del mismo es igual al parámetro poblacional.
Es decir,
ˆ
E (θ ) = θ

12


Distribución del estimador Tita 1
Distribución del estimador Tita 2

Valor esperado del Tita 1 Valor esperado del Tita 2

Parametro tita

El insesgamiento es una propiedad de muestreo repetido. Manteniendo el tamaño de la
muestra, se generan diferentes muestras y en base a cada una de ellas se genera una estimación
del parámetro (y se reproduce la distribución de probabilidades del estimador). Si el estimador
es insesgado, se espera que el valor esperado del mismo coincida con el parámetro
poblacional.

Mínima Varianza

Un estimador es de mínima varianza si tiene la varianza menor entre un conjunto de
estimadores.

Estimador de mínimo error cuadrático medio

El error cuadrático medio se define como:

13


ˆ
ECM = E (θ − θ ) 2

Es decir, es el valor esperado de la diferencia entre el estimador y el verdadero valor
poblacional. Mientras menor el ECM mejor el estimador utilizado (un criterio de selección).

Cuando el estimador es insesgado, el ECM coincide con la varianza del estimador.

PROPIEDADES ESTADÍSTICAS EN MUESTRAS GRANDES

Insesgamiento Asintótico

Un estimador es asintóticamente insesgado si a medida que aumentamos el tamaño de la
muestra, el valor esperado del mismo se acerca al verdadero valor poblacional.

Consistencia

Un estimador es consistente si a medida que aumentamos el tamaño de la muestra la
probabilidad de que el estimador difiera del valor poblacional se hace cero.

n=120

n=60

n=30

Eficiencia asintótica

Un estimador es eficiente cuando asintóticamente tiene la menor varianza entre todos los
estimadores considerados.

14


Normalidad Asintótica

Un estimador es asintóticamente normal cuando a medida que aumenta la muestra la
distribución del mismo converge a una distribución de probabilidad normal.

EL PROBLEMA DE ESTIMACIÓN

Sea una v.a. X con una FDP f ( x,θ ) donde θ es el parámetro de la distribución. Sobre la
ˆ
base de una muestra de tamaño n se halla el estimador puntual θ . La pregunta es: ¿el
ˆ
estimador θ es compatible con algún valor para el parámetro θ * ? ¿Puede la muestra haber
provenido de la FDP f ( x,θ *) ?

Para resolver estas interrogantes se utilizan las pruebas de hipótesis bajo dos modalidades:
intervalos de confianza y pruebas de significancia.

H 0 : θ = θ * se denomina hipótesis nula.
H1 : θ ≠ θ * se denomina hipótesis alterna. (Prueba de dos colas)

Método del Intervalo de Confianza

Este método, básicamente tiene dos pasos:

• Construir un intervalo para el estimador. Es decir, construir un intervalo de confianza
ˆ
para θ .
• Verificar si el valor θ * se encuentra dentro del intervalo. Si se encuentra dentro
dicho intervalo no se rechaza la hipótesis nula. Por el contrario, si no se encuentra
dentro del intervalo, se rechaza la hipótesis nula.

Para construir el intervalo de confianza del estimador, necesitamos dos ingredientes: la
función de distribución de probabilidad del mismo y un nivel de significancia (denotado por
α ).

Veamos cómo se construye un intervalo de confianza para la media poblacional en el caso de
una v.a. que tiene una distribución normal.

Sea X una v.a. con distribución normal N ( µ ,σ 2 ) . Para construir un intervalo de confianza
para µ tomamos una muestra de datos de X de tamaño n y calculamos la media muestral
X . Se puede demostrar fácilmente (utilizando propiedades de valor esperado y varianza, y
sabiendo que la suma de variables normalmente distribuidas tienen una distribución normal)
σ2
que X → N (µ , ) . En términos gráficos:
n

15


En este caso, la hipótesis nula y la hipótesis alterna son:
H0 : µ = µ *
H1 : µ ≠ µ *
Transformando en una distribución normal estándar:

X −µ
Z=
σ/ n
y recordando las propiedades de la distribución normal estándar:

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
68%

95%

99.7%

Sabemos que:

16


P(−1.96 ≤ Z ≤ 1.96) = 0.95

Reemplazando la definición de Z obtenida anteriormente:

X −µ
P ( −1.96 ≤ ≤ 1.96 ) = 0.95
σ/ n
Operando se tiene:
P ( −1.96σ / n ≤ X − µ ≤ 1.96σ / n ) = 0.95
P ( X − 1.96σ / n ≤ µ ≤ X + 1.96σ / n ) = 0.95

Si µ * se encuentra dentro de este intervalo no se rechaza la hipótesis nula. En caso contrario,
se rechaza la hipótesis nula.

El intervalo construido se denomina región de aceptación. Los límites superior e inferior se
denominan valores críticos y las regiones que quedan fuera del intervalo se denominan
regiones críticas o de rechazo.

Cuando se llevan a cabo las pruebas de hipótesis existen dos tipos de errores: el error tipo I
que es consiste en rechazar la hipótesis nula cuando es verdadera y el error tipo II que
consisten en no rechazar la hipótesis nula cuando es falsa. Nos concentraremos en el primero
de estos errores el cual se representa por α . La potencia de una prueba es la probabilidad de
no cometer el error tipo II. Es decir, mide la capacidad de una prueba de rechazar la hipótesis
nula cuando es falsa.

Método de la prueba de significancia

Este método consiste en calcular Z :

17


X −µ*
Z=
σ/ n
Bajo la hipótesis nula y alterna:

H0 : µ = µ *
H1 : µ ≠ µ *

Luego, en la FDP de Z se encuentra la probabilidad asociada el valor obtenido de Z . Si la
probabilidad asociada es baja (frente a un nivel de significancia predeterminado), se rechaza la
hipótesis nula. En caso contrario, no se rechaza la hipótesis nula.

Alternativamente, si el Z ( denominado Z calculado o Zc queda en la región de rechazo con
los límites inferior y superior habiendo sido determinados en función a la distribución de Z y
un nivel de significancia α , se rechaza la hipótesis nula. Es decir, Si Z > Z tablas ,α / 2 entonces
se rechaza la hipótesis nula.

5. DISTRIBUCIONES CONJUNTAS (BIVARIADAS Y MULTIVARIADAS)

FUNCIÓN DE DENSIDAD DE PROBABILIDAD CONJUNTA

Sean X , Y v.a. discretas. Entonces la función de densidad de probabilidad conjunta discreta
de que X tome el valor de x y de que Y tome el valor de y es:
f ( x, y) = P ( X = x,Y = y)
= 0 cuando X ≠ x,Y ≠ y

Ejemplo:
Función de Probabilidad Conjunta P(X=x,Y=y)

18


Y=y
-2 -1 0 1 2
-1 2/24 0 2/24 4/24 0
X=x 0 0 1/24 2/24 0 2/24
2 0 3/24 2/24 0 6/24

En el caso de un rango (y para el caso de v.a. discretas y continuas):

Las propiedades son similares a una función de distribución univariada:

La función de distribución acumulada:

FUNCIÓN DE DENSIDAD DE PROBABILIDAD MARGINAL

En relación con f ( x , y ), f (x) y f ( y ) , se denominan funciones de densidad de
probabilidad individuales o marginales. Estas funciones de densidad de probabilidad
marginales, se obtienen de la siguiente manera (en el caso de una v.a. discreta):

f ( x ) = ∑ f ( x, y )
y

f ( y) = ∑ f ( x, y)
x

19


En el caso de una variable continua, se reemplaza por el integral.

X y Y son estadísticamente independientes sii:

f ( x, y ) = f ( x ) f ( y )

la misma relación se obtiene para la función de distribución conjunta.

F ( x, y) = F ( x) F ( y)

VALOR ESPERADO EN UNA DISTRIBUCIÓN CONJUNTA

El valor esperado, las varianzas y covarianzas y los momentos superiores se definen en
términos son definidos con respecto a las distribuciones marginales. En el caso de una v.a.
discreta, el valor esperado de X , E ( x ) , es:

E ( x ) = ∑ xf ( x ) = ∑∑ xf ( x , y )
x x y
En el caso de una función de una v.a. continua:
E ( x ) = ∫ xf ( x )dx = ∫ ∫ xf ( x , y )dydx
x x y

VARIANZAS

En el caso de una v.a. discreta:
Var( x ) = ∑ ( x − E ( x ))2 f ( x ) = ∑∑ ( x − E ( x ))2 f ( x , y )
x x y
En el caso de una v.a. continua
E ( x ) = ∫ ( x − E ( x ))2 f ( x )dx = ∫ ∫ ( x − E ( x ))2 f ( x , y )dydx
x x y

FUNCIÓN DE DENSIDAD DE PROBABILIDAD CONDICIONAL

Estudiar el comportamiento de una variable aleatoria respecto a los valores de otra u otras
variables. La función de densidad de probabilidad condicional, se define como:

f ( x / y) = f ( X = x / Y = y)

Evalúa la probabilidad de que X = x dado que Y = y . También se puede evaluar la
probabilidad condicional de que Y = y dado que X = x :

f ( y / x ) = f (Y = y / X = x )

20


Las funciones de densidad condicionales se pueden obtener en función de las funciones de
densidad conjunta y marginal, de la siguiente manera:

f ( x, y)
f ( x / y) =
f ( y)
f ( x, y)
f ( y / x) =
f ( x)

INDEPENDENCIA ESTADÍSTICA

Dos variables aleatorias X , Y son estadísticamente independientes sí y solo sí:
f ( x, y) = f ( x ) f ( y )

ESPERANZA Y VARIANZA CONDICIONAL

La esperanza condicional de X, dado que Y = y en el caso de una v.a. discreta es:

E ( X / Y = y) = ∑ xf ( X = x / Y = y)
x
En el caso de una v.a. continua se reemplaza la sumatoria por el integral.

La varianza condicional de una v.a. discreta:

var( X / Y = y ) = ∑ ( X − E( X / Y = y ))2 f ( X = x / Y = y )
x
En el caso de una v.a. continua se reemplaza la sumatoria por el integral.

21

Repaso de estadistica e inferencia

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (18)

Semelhante a Repaso de estadistica e inferencia

Semelhante a Repaso de estadistica e inferencia (20)

Mais de Rodrigo Paniagua

Mais de Rodrigo Paniagua (9)

Último

Último (20)

Repaso de estadistica e inferencia