2. Medidas de Forma.
Momentos, Sesgos y Curtosis.
Introducción
En estadística es una práctica habitual describir una distribución o una
población mediante el valor de un conjunto finito de cantidades, como
son la media, la dispersión, la asimetría, la curtosis, la presencia de
”picos”, etc.
En finanzas, por ejemplo, estas medidas de la distribución aportan
soluciones simples y eficaces a gran cantidad de problemas. Los
estadísticos basados en la kurtosis o en la asimetría aparecen
constantemente en esta materia para estudiar la normalidad de la
distribución correspondiente a unos datos conocidos. Y el momento
muestral de cuarto orden estandarizado constituye la regla más utilizada
actualmente en el estudio del peso de las colas en series financieras.
Hasta ahora los métodos que más se utilizaban sobre estas medidas se
basaban en el estudio de los Momentos de la distribución. Más
precisamente, se basaban en los momentos muestrales, puesto que lo
usual es disponer sólo de una serie de datos de la distribución. El
método de los momentos está aún bastante extendido en el estudio de
tres o cuatro familias de distribuciones paramétricas. Esto se debe a que
proporciona estimadores consistentes y viables computacionalmente,
mientras que otros métodos más avanzados no se muestran eficaces
para estos casos concretos.
Un ejemplo lo constituye la familia de las mixturas de distribuciones
normales. Pero en general estos métodos basados en los momentos
proporcionan resultados insatisfactorios para otras distribuciones,
debido a que son poco eficaces y a que se ven muy influidos por datos
anómalos.
3. Momentos.
Si , … Son los valores que toma la variable X, se define la
cantidad como el momento de orden r.
El momento de primer orden r=1, es la media aritmética .
El momento de orden r con respecto a la media , se define como:
Si r=1, m=0
Si r=2, m=
El momento de orden con respecto a un punto cualquiera A se define
como:
Donde d=X-A son las desviaciones de X de A.
Si A=0, la fórmula 3 queda como la 1ª.
Nota: Por ésta razón (la fórmula 1) se llama también momento de orden r,
con respecto al origen.
4. Momentos para datos agrupados.
Si , … Se presentan con frecuencias , … respectivamente,
los momentos anteriores son dados por:
Entre momentos con respecto a la Media m, y momentos con respecto a
un punto cualquiera se dan las siguientes relaciones:
Nótese que = .
Cálculo de momentos para datos agrupados.
Los métodos clave para el cálculo de la media y la desviación típica,
pueden también utilizarse para suministrar un método corto en el
cálculo de momentos.
Este método parte del hecho de que =A+cu de modo que de la
ecuación 6 se obtiene:
=
Que podemos utilizar para hallar mediante las ecuaciones.
5. Comprobación de Charlier.
En el cálculo de momentos por el método clave utiliza las identidades
siguientes:
Correcciones Sheppard.
Para los momentos son como sigue:
m2corregida = m2– c² -
m4 corregida = m4- +
Los momentos m1 y m3 no necesitan corrección.
Momentos en forma Adimensional.
Para evitar unidades particulares, se pueden definir los momentos
adimensionales respecto a la media.
Donde es la desviación típica, puesto que m1=0 y m2= , se
tiene que a1=0 y a2=1.
6. Sesgos y Curtosis.
Así como contamos con medidas de localización y de dispersión, que nos
describen ciertas características de una distribución de frecuencias,
existen otras medidas que nos pueden ayudar a distinguir cuestiones
como simetría o grado de apuntamiento de una distribución.
El sesgo es el grado de asimetría o falta de simetría de una distribución.
Si la curva de frecuencias de una distribución tiene la cola más larga a la
derecha, tiene sesgo positivo, a la izquierda será negativo.
En las distribuciones sesgadas, la media tiende a situarse con respecto a
la moda, al mismo lado que la cola más larga.
Así, una medida de la simetría, nos viene dada por la diferencia (Media-
Moda). Ésta medida puede adimensionarse, dividiéndola por una medida
de dispersión, tal como la desviación típica, llegando a:
Para evitar el empleo de la Moda, se puede emplear la fórmula empírica:
Las medidas anteriores, se conocen como primero y segundo coeficiente
de sesgo de Pearson respectivamente.
Otras medidas del sesgo, dadas en función de cuartiles y percentiles
son:
7. Una importante medida de éste tipo, emplea el momento de tercer
orden con respecto a la media expresado en forma adimensional y dado
por:
Otra medida del sesgo, viene dada por b1= para curvas simétricas,
tal como y son cero.
Curtosis.
La curtosis mide el grado de agudeza o achatamiento de una
distribución con relación a la distribución normal, es decir, mide cuán
puntiaguda es una distribución.
Existen varios tipos de Curtosis:
La curtosis determina el grado de concentración que presentan los
valores en la región central de la distribución. Así puede ser:
Leptocúrtica.- Existe una gran concentración.
Mesocúrtica.- Existe una concentración normal.
Platicúrtica.- Existe una baja concentración.
8. Medida de Fisher
Para datos sin agrupar se emplea la siguiente fórmula:
Para datos agrupados en tablas de frecuencias se emplea la siguiente
fórmula:
Para datos agrupados en intervalos se emplea la siguiente fórmula:
Donde: = cada uno de los valores; n = número de datos; = media
aritmética; = Cuádruplo de la desviación estándar poblacional; f =
frecuencia absoluta; xm = marca de clase
Nota:
Si a < 3? la distribución es platicúrtica
Si a = 3? la distribución es normal o mesocúrtica
Si a > 3? la distribución es leptocúrtica
Una forma de medir la Curtosis, emplea el momento de cuarto orden
con respecto a la media, expresado en forma adimensional y dado por:
Que se designa por b2 para una distribución normal b2 = a4 = a3. Por ésta
razón, a veces, se define la curtosis como (b2 – 3), que es positiva para
una distribución leptocúrtica, negativa para una platicúrtica y 0 para la
distribución normal.
9. Otra medida de curtosis, está basada en los cuartiles y percentiles y
está dada por:
Donde Q = ½ (Q3 - Q1) es el rango semi-intercuartílico y se conoce
cómo Coeficiente de curtosis percentílico para la distribución normal vale
0.263.
Véase también la siguiente fórmula:
K (Letra griega minúscula kappa) = Coeficiente percentil de curtosis.
k Si < 0,263 ? la distribución es platicúrtica
k Si = 0,263 ? la distribución es normal o mesocúrtica
k Si > 0,263 ? la distribución es leptocúrtica
k Esta medida no es muy utilizada.
Momentos, Sesgo y Curtosis de la Población.
Para una población, se emplearán símbolos griegos.
Para una muestra poblacional, se emplearan símbolos latinos.
EJEMPLOS:
MOMENTOS DE UNA POBLACION: μ1, μ2, ETC.
MOMENTOS DE UNA MUESTRA: m1, m2, ETC.
SIMETRIA DE UNA POBLACION: α3
SIMETRIA DE UNA MUESTRA: a3
CURTOSIS DE UNA POBLACION: α4
CURTOSIS DEUNA MUESTRA: a4
10. Ejemplo ilustrativo: Determinar qué tipo de curtosis tiene la siguiente
distribución: 6, 9, 9, 12, 12, 12, 15 y 17. Emplear la medida de Fisher y
el coeficiente percentil de curtosis.
Solución: Calculando la media aritmética se obtiene
Calculando la desviación estándar poblacional se obtiene:
Calculando la Medida de Fisher se obtiene:
Datos
6 915,0625
9 39,0625
9 39,0625
12 0,0625
12 0,0625
12 0,0625
15 150,0625
17 915,0625
Total 2058,5
11. Para calcular los cuartiles y percentiles se ordena los datos de menor a
mayor:
6 9 9 12 12 12 15 17
Calculando el cuartil uno se obtiene:
Calculando el cuartil tres se obtiene:
Calculando el percentil 90 se tiene:
Calculando el percentil 10 se tiene:
Calculando el coeficiente percentil de curtosis se obtiene:
Como a= 2,23 y la distribución es platicúrtica.
13. Covarianza. Caso de independencia
En el estudio conjunto de dos variables, lo que nos interesa
principalmente es saber si existe algún tipo de relación entre ellas. Esto
se ve gráficamente con el diagrama de dispersión. Veremos ahora una
medida descriptiva que sirve para medir o cuantificar esta relación:
n k ( x i x )( y j y )n ij
S xy
i 1 j 1 n
Si Sxy >0 hay dependencia directa (positiva), es decir a grandes
valores de x corresponden grandes valores de y.
Si Sxy = 0 las variables están incorreladas, es decir no hay
relación lineal.
Si Sxy < 0 hay dependencia inversa o negativa, es decir a grandes
valores de x corresponden grandes valores de y.
PROPIEDADES DE LA COVARIANZA:
1.- Si a todos los valores de la variable x, les sumamos una constante k
y a todos los valores de la variable y les sumamos una constante k’,
la covarianza no varía.
2.- Si a todos los valores de una variable x los multiplicamos por una
constante k y a todos los valores de la variable y los multiplicamos
por una constante k’, su covarianza queda multiplicada por el
producto de las constantes.
3.- A partir de las anteriores: si tenemos dos variables x, y con la
covarianza Sxy, y transformaciones lineales de las variables de la
forma z=ax+b, y t=cy+d, la nueva covarianza se relaciona con la
anterior de la forma: Szt=acSxy.
x i y j n ij
4.- Otra forma de calcular la Covarianza sería: S xy n
XY .
i j
Será la que utilizaremos en la práctica.
14. NOTA: El inconveniente de la covarianza, como medida de asociación es
su dependencia de las unidades. Habrá que definir una nueva medida,
que no está afectada por los cambios en las unidades de medida. Esta
medida será el coeficiente de correlación lineal rxy, con la siguiente
expresión:
S xy
r xy
SxSy
siendo Sx y Sy las desviaciones típicas de x e y. Este coeficiente es
adimensional y siempre estará entre –1 y 1.
Si hay relación lineal positiva, rxy>0 y próximo a 1.
Si hay relación lineal negativa rxy<0 y próximo a –1.
Si no hay relación lineal rxy será próximo a 0.
Nota: Cuando las variables x e y son independientes, Sxy =0, y por
tanto rxy=0. Es decir, si dos variables son independientes su
covarianza vale cero. No podemos asegurar lo mismo en sentido
contrario. Si dos variables tienen covarianza cero, no podemos
decir que son independientes. Sabemos que linealmente no tienen
relación, pero podrían tener otro tipo de relación y no ser
independientes.
Ejemplo: A partir de los siguientes datos, vamos a calcular la Covarianza
y el coeficiente de correlación:
Altura 17 18 16 15 18 17 17 16 16 16
5 0 2 7 0 3 1 8 5 5
Peso 80 82 57 63 78 65 66 67 62 58
Los cálculos que necesitamos:
x 169'6 s x 7'2139
y 67'8 s y 8'7567
175 80 180 82 162 57
s xy 169'6 67'8 52'32
10
15. Ahora se puede calcular el coeficiente de correlación lineal rxy y el
de determinación lineal R2
52'32
rxy 0'8282
7'2139 8'7567
Que nos indica que las variables están relacionadas.
Ejemplo de Aplicación
Para estudiar la dependencia entre la práctica de algún deporte y la
depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes,
con los siguientes resultados:
Sin depresión Con depresión
Deportista 38 9 47
No deportista 31 22 53
69 31 100
L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 –
14,57)2/14,57 + (22 – 16,43)2/16,43
= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla
teórica de Chi Cuadrado para 1 grado de libertad se aprecia L t =
3,84146 < 5,8227 lo que permite rechazar la hipótesis de independencia
de caracteres con un nivel de significación del 5%, admitiendo por tanto
que la práctica deportiva disminuye el riesgo de depresión.
16. Coeficiente de Determinación.
El cambio de la variable Y generalmente depende de muchos factores,
en ocasiones, difíciles de identificar; con el modelo lineal simple, sólo
tenemos presente uno. Por ejemplo, en nuestro caso la mediana del
ingreso depende no sólo del porcentaje de graduados en el nivel
superior, que es, el factor que tenemos presente, pueden entrar a jugar
factores tales como, la distribución de la edad en la población, la
distribución por sexo en la población, la industrialización de la ciudad, el
numero de universidades y muchos otros.
El coeficiente de determinación mide o interpreta la cantidad relativa de
la variación que ha sido explicada por la recta de regresión, es decir, la
proporción de cambio en Y explicado por un cambio en la variable X ( X
es el factor que se utiliza para calcular la recta de ajuste o ecuación de
regresión, en el ejemplo es el porcentaje de graduados en el nivel
superior en cada ciudad).
Para el ejemplo el Coeficiente de determinación va a medir la proporción
del cambio en el ingreso mediano de cada ciudad, debido o explicado
por un cambio en el porcentaje de graduados en el nivel superior.
Veamos algunos componentes de la variabilidad en el análisis de
regresión:
La diferencia entre cada valor de Yー observado y media se denomina
variación de Y.
La diferencia entre estimado y media , es la variación tenida en
cuenta por la ecuación de regresión, razón por la cual se denomina
variación explicada de Y.
17. La diferencia entre Yー observado y estimado, son variaciones
consideradas debidas a factores diferentes al tenido presente por la
ecuación de regresión por eso se llama: variación no explicada de Y.
La diferencia entre Yー observado y estimado, son variaciones
consideradas debidas a factores diferentes al tenido presente por la
ecuación de regresión por eso se llama: variación no explicada de Y.
La sumatoria de las diferencias en cada una de las formas de variación
la podemos representar así:
18. Gráficamente esta relación se puede representar así:
Se dijo anteriormente, que el coeficiente de determinación es la
proporción de cambio explicado en Y, por cambio en X, es decir, la
proporción que representa la variación explicada de la variación total.
Recuerde una proporción es la relación de una parte con el total, por
tanto, el coeficiente de determinación será:
En otras palabras el coeficiente de determinación es la relación entre la
variación explicada y la variación total. Su valor siempre estará
19. Para su cálculo se procede así:
4.2 5.44 -1.24 1.54 4.6 -0.84 0.71 -0.4 0.16
4.9 5.44 -1.24 0.29 4.5 -0.84 0.88 0.4 0.16
7.0 5.44 1.56 2.43 6.6 1.16 1.35 0.4 0.16
6.2 5.44 0.76 0.58 5.7 0.26 0.07 0.5 0.25
3.8 5.44 1.64 2.69 4.4 -1.04 1.08 -0.6 0.36
7.6 5.44 2.16 4.66 8.0 2.56 6.55 -0.4 0.16
4.4 5.44 1.04 1.08 4.4 -1.04 1.08 0.0 0.00
5.4 5.44 0.4 0.001 5.2 -0.24 0.06 0.2 0.04
43.5 13.271 11.78 1.29
Generalmente esta proporción se expresa como porcentaje por tanto
podemos decir que
r² = 88.76%
Como conclusión podemos decir que el 88.76% de la variación en el
ingreso mediano de las ciudades de la muestra está relacionada o
explicada por la variación en el porcentaje de graduados en educación
Superior en cada ciudad.
20. Coeficiente de Correlación
Este Coeficiente como ya se dijo mide la fuerza de la relación entre las
variables. El coeficiente tiene el signo que tiene b y su valor estará
El signo menos en el índice significa una relación negativa y
un signo más una correlación positiva. El coeficiente se obtiene sacando
la raíz cuadrada al coeficiente de determinación y se simboliza con "r".
En este caso el coeficiente r tiene signo positivo ya que toma el valor de
b obtenido con las ecuaciones normales toma valor positivo.
A continuación se da, a modo de orientación, como podrían interpretarse
los valores de r (positivo o negativo)
0.0 a 0.2 Correlación muy débil, despreciable
0.2 a 0.4 Correlación débil. bajo
0.4 a 0.7 Correlación moderada
0.7 a 0.9 Correlación fuerte, alto, importante
0.9 a 1.0 Correlación muy fuerte, muy alto
La correlación entre los valores de dos variables es un hecho. El que lo
consideremos satisfactorio o no, depende de la interpretación. Otro
problema que representa la correlación es cuando se pregunta si una
variable, de algún modo causa o determina a la otra.
La correlación no implica causalidad. Si las variables X e Y están
correlacionadas, esto puede ser porque X causa a Y, o porque Y causa a
X o porque alguna otra variable afecta tanto a X como Y, o por una
combinación de todas estas razones; o puede ser que la relación sea
una coincidencia.
21. CORRELACION.
Hasta este punto hemos supuesto que la variable de regresión
independiente x es una variable física o científica pero no una variable
aleatoria. De hecho, en este contexto, x a menudo se llama variable
matemática, que, en el proceso de muestreo, se mide con un error
insignificante. En muchas aplicaciones de las técnicas de regresión es
mas realista suponer que X y Y son variables aleatorias y que las
mediciones {(Xi, Yi) ; i= 1, 2, ..., n} son observaciones de una
población que tiene la función de densidad conjunta f(x, y).
Consideremos el problema de medir la relación entre las dos variables X
y Y. Por ejemplo, si X y Y representan la longitud y circunferencia de
una clase particular de hueso en el cuerpo de un adulto, podemos
realizar un estudio antropológico para determinar si los valores grandes
de X se asocian con valores grandes de Y, y viceversa. El análisis de
correlación intenta medir la fuerza de tales relaciones entre dos
variables por medio de un solo numero llamado coeficiente de
correlación.
En
teoría a menudo se supone que la distribución condicional f(y x) de Y,
para valores fijos de X, es normal con una media µyןx = + y
varianza ²yןx = ² y X también se distribuye con normalmente con
µx y varianza ²x. La densidad conjunta de X y Y es entonces:
Donde X es ahora una variable aleatoria independiente del error
aleatorio E. Como la media del error aleatorio E es cero, se sigue que:
22. Al sustituir para y ² en la expresión anterior para f( x, y),
obtenemos la distribución normal bivariada:
La constante (rho) se llama coeficiente de correlación poblacional y
juega un papel importante en muchos problemas de análisis de datos de
dos variables. El valor de es 0 cuando = 0 , que resulta cuando en
esencia no hay una regresión lineal; es decir, la línea de regresión es
horizontal y cualquier conocimiento de X no es de utilidad para predecir
Y. Como debemos tener ²y ², y ² 1 por ello -1 1.
Los valores de = 1 solo ocurren cuando ² = 0, en cuyo caso
tenemos una relación lineal perfecta entre las dos variables. de esta
manera un valor de igual a +1 implica una relación lineal perfecta con
una pendiente positiva, mientras que un valor de igual a –1 resulta
de una relación lineal perfecta con pendiente negativa. Se puede decir
entonces que las estimaciones muéstrales de cercanas a la unidad en
magnitud implican una buena correlación o una asociación lineal entre X
y Y, mientras que valores cercanos a cero indican poca o ninguna
correlación.
Se debe señalar que en estudios de correlación, como en problemas de
regresión lineal, los resultados que se obtienen solo son tan buenos
como el modelo que se supone. En las técnicas de correlación que aquí
se estudian se supone una densidad normal bivariada para las variables
X y Y, con el valor medio de Y en cada valor x linealmente relacionado
con x. Para observar la conveniencia de la suposición de linealidad, a
23. menudo es útil una graficación preliminar de los datos experimentales.
Un valor del coeficiente de correlación muestral cercano a cero resultara
de datos que muestren un efecto estrictamente aleatorio como se indica
en la figura a :
en donde se puede observar poca o ninguna relación causal. Es
importante recordar que el coeficiente de correlación entre dos variables
es una media de su relación lineal, y que un valor de r = 0 implica una
falta de linealidad y no una falta de asociación. Por ello, si existe una
fuerte relación cuadrática entre X y Y como se indica en la figura b,
podemos aun obtener una correlación cero que indique una relación no
lineal.
formula del calculo de r
Índice Gini.
El Coeficiente de Gini es una medida de la desigualdad ideada por
el estadístico italiano Corrado Gini.
Normalmente se utiliza para medir la desigualdad en los ingresos, pero
puede utilizarse para medir cualquier forma de distribución desigual.
El coeficiente de Gini es un número entre 0 y 1, en donde 0 se
corresponde con la perfecta igualdad (todos tienen los mismos ingresos)
y donde el valor 1 se corresponde con la perfecta desigualdad (una
persona tiene todos los ingresos y los demás ninguno).
24. El índice de Gini es el coeficiente de Gini expresado en porcentaje, y es
igual al coeficiente de Gini multiplicado por 100.
Aunque el coeficiente de Gini se utiliza sobre todo para medir la
desigualdad en los ingresos, también puede utilizarse para medir la
desigualdad en la riqueza. Este uso requiere que nadie disponga de una
riqueza neta negativa.
Mapa esquemático de países según su nivel de igualdad de ingreso, de acuerdo al coeficiente de Gini.
< 0,25
0,25 ↔ 0,29
0,30 ↔ 0,34
0,35 ↔ 0,39
0,40 ↔ 0,44
0,45 ↔ 0,49
0,50 ↔ 0,54
0,55 ↔ 0,59
≥ 0,60
Sin datos
25. El coeficiente de Gini se calcula como una razón de las áreas en el
diagrama de la curva de Lorenz. Si el área entre la línea de perfecta
igualdad y la curva de Lorenz es a, y el área por debajo de la curva de
Lorenz es b, entonces el coeficiente de Gini es a/(a+b).
Esta razón se expresa como porcentaje o como equivalente numérico de
ese porcentaje, que es siempre un número entre 0 y 1. El coeficiente
de Gini se calcula a menudo con la Fórmula de Brown, que es más
práctica:
Donde:
G: Coeficiente de Gini
X: Proporción acumulada de la variable población
Y: Proporción acumulada de la variable ingresos
De forma resumida, la Curva de Lorenz es una gráfica de concentración
acumulada de la distribución de la riqueza superpuesta a la curva de la
distribución de frecuencias de los individuos que la poseen, y su
expresión en porcentajes es el índice de Gini.
Propiedades:
Todas las curvas de Lorenz pasan por los puntos (0,0) y (1,1). Si dos
curvas de Lorenz no se cortan fuera de esos dos puntos, es posible
comparar la desigualdad que representan sin necesidad de calcular el
índice de Gini. En el caso general, un mayor índice de Gini significa
una mayor desigualdad.
Para determinar el área entre la curva
de Lorenz y la línea de perfecta
equidad, lo ideal es calcular una
integral definida, pero a veces no se
conoce la definición explícita de la curva
de Lorenz, por lo que es interesante
utilizar otras fórmulas con un número
finito de sumandos.
Las propiedades del índice de Gini son
comparables con las del cuadrado del
coeficiente de variación.
26. Ejemplo ilustrado:
Se puede encontrar un mapa mundi coloreado según el coeficiente Gini
de cada país. Europa es una zona muy buena para vivir, puesto que casi
todos los países tienen un índice Gini entre 0,30 y 0,34, aunque hay
países como Italia y Portugal que están entre 0,35 y 0,39. Algunos
países (sobretodo los nórdicos) llegan a tener un índice entre 0,25 y
0,29.
La peor zona del mundo es Sudamérica y África (continente del que
apenas hay datos), en los que no es raro ver muchos países entorno a
0,50. Esto además está unido a que son economías pobres, ya
que no sólo es importante cómo estén distribuidos los ingresos,
sino la riqueza del país (por ejemplo, India tiene un índice Gini
parecido al de España, pero su PIB per cápita es más bajo, se
vive mejor en España).
Y por último una mala noticia para todo el mundo: el índice Gini a nivel
mundial está aumentando. Cada vez la riqueza se reparte peor.
27. La curva de Lorenz es una representación gráfica utilizada
frecuentemente para plasmar la distribución relativa de una variable en
un dominio determinado. El dominio puede ser el conjunto de hogares o
personas de una región o país, por ejemplo. La variable cuya
distribución se estudia puede ser el ingreso de los hogares o las
personas. Utilizando como ejemplo estas variables, la curva se trazaría
considerando en el eje horizontal el porcentaje acumulado de personas
u hogares del dominio en cuestión y en el eje vertical el porcentaje
acumulado del ingreso. Su autoría es de Max O. Lorenz en 1905.
Cada punto de la curva se lee como porcentaje acumulativo de los
hogares o las personas. La curva parte del origen (0,0) y termina en el
punto (100,100). Si el ingreso estuviera distribuido de manera
perfectamente equitativa, la curva coincidiría con la línea de 45 grados
que pasa por el origen (por ejemplo el 30% de los hogares o de la
población percibe el 30% del ingreso). Si existiera desigualdad perfecta,
o sea, si un hogar o persona poseyera todo el ingreso, la curva
coincidiría con el eje horizontal hasta el punto (100,0) donde saltaría el
punto (100,100). En general la curva se encuentra en una situación
intermedia entre estos dos extremos.
Si una curva de Lorenz se encuentra
siempre por encima de otra (y, por lo
tanto, está más cerca de la línea de 45
grados) podemos decir sin ambigüedad
que la primera exhibe menor desigualdad
que la segunda. Esta comparación gráfica
entre distribuciones de distintos dominios
geográficos o temporales es el principal
empleo de las curvas de Lorenz.
El indicador gráfico de bienestar más
usado es la Curva de Lorenz Generalizada
(CLG), que es una derivación de la curva
de Lorenz habitual.
La CLG sólo se diferencia de la de Lorenz en que en la escala vertical no
se representan las cantidades relativas acumuladas sino las cantidades
28. acumuladas (no relativas) divididas por el número N de elementos de la
población. La lógica pretendida es representar qué cantidad absoluta
corresponde a cada porcentaje de individuos. Para clarificar este
aspecto, supóngase que la curva de Lorenz normal de una población nos
dice que el 50% de los menos ricos poseen el 25% de la riqueza total.
Se puede comprender que es muy diferente la situación de bienestar de
este 50% de la población según si la riqueza total es muy pequeña o
muy grande. Es obvio que es peor poseer el 50% de una cantidad
pequeña que poseer el 25% de una cantidad mucho mayor. El dividir las
cantidades acumuladas por el total de elementos N es necesario para
poder comparar riquezas entre poblaciones distintas que tengan un
número diferente de elementos: no es lo mismo una riqueza total de
1.000.000€ en un conjunto de 10 personas que esa misma riqueza total
en un conjunto formado por 1.000 personas.
Ecuación de la curva de Lorenz
Si se conoce la distribución de la renta como densidad de
probabilidad para cada valor de renta, la curva de Lorentz puede
encontrarse analíticamente en función de esta. La proporción de
personas o unidades familiares con una renta inferior a un nivel de
renta r viene dada por:
(1)
Mientras que la proporción de renta acumulada por las personas con
rentas iguales o inferiores a r viene dada por:
(2)
Donde Rm es la renta media. Las ecuaciones (1) y (2) constituyen juntas
las ecuaciones paramétricas de la curva en función del parámetro r.
29. Propiedades
La curva de Lorenz tiene pendiente positiva en todos sus puntos como
se deduce de la siguiente relación:
(3)
En el punto inicial la pendiente será nula (aun en el caso el
límite anterior sigue siendo válido, pero en el resto de puntos será
estrictamente positiva.
Además la curva de Lorenz es cóncava ya que su derivada segunda
siempre es positiva:
(4)
Ejemplo 1
En esta sección calculamos la curva de Lorenz y el índice de Gini para
una disttibución de renta exponencial. Aunque ésta no parece una
distribución adecuada para la renta nacional de ningún país, la sencillez
de las expresiones obtenidas permite entender de modo sencillo la
aplicación de las ecuaciones (1) a (4). Para un país con una renta
nacional media con una distribución exponencial la densidad de
probabilidad de la distribución será:
Esta expresión permite calcular la proporción de personas por debajo de
una cierta renta y la renta acumulada de ese grupo de personas
fácilmente:
30. Despejando de la primera ecuación y substituyendo el resultado en la
segunda se obtiene la curva de Lorenz explícitamente:
El índice de Gini se puede calcular simplemente como:
Este es el valor exacto. Cuando para calcular este valor en lugar de una
distribución continua se usa un cálculo aproximado por decilas en
cambio resulta sólo .
Ejemplo 2
Índice de Gini para diferentes curvas de Lorenz asociadas
a distribuciones gamma . El valor de n corresponde a cada
distribución, mientras que el factor está relacionado con la renta
media y no influye en el índice de Gini.
Una aproximación más verosímil para la renta nacional es usar en lugar
de una simple distribución exponencial, una distribución gamma:
31. Donde el parámetro está relacionado con la renta media mediante
. Después de una cierta cantidad de álgebra trivial pero
engorrosa puede encontrarse que la proporción de personas por debajo
de una cierta renta y la renta acumulada de ese grupo de personas
vienen dadas por:
Donde:
En este caso no es posible despejar explícitamente de la primera
ecuación. Aunque puede calcularse el índice de Gini mediante la
expresión (para entero):
En este caso el coeficiente de Gini tampoco depende de la renta
media. Dado que el índice de Gini de la mayor parte de países está
entre 0,50 y 0,25 la distribución gamma anterior puede usarse de
manera aproximada para reproducir la distribución real de la renta.
32. Numeros Índice
Un número índice es una medida estadística que permite estudiar las
fluctuaciones o variaciones de una magnitud o de más de una en
relación al tiempo o al espacio. Los índices más habituales son los que
realizan las comparaciones en el tiempo, por lo que, como veremos más
adelante, los números índices son en realidad series temporales.
Aproximación
Los números índices nacen de la necesidad de conocer en profundidad la
magnitud de un fenómeno y poder realizar comparaciones del mismo en
distintos territorios o a lo largo del tiempo. Una forma inicial de resolver
el problema es referir cada situación a la anterior, pero esto no hace
viable la posibilidad de comparaciones significativas, al menos
directamente, salvo en lo concerniente a dos de ellas inmediatas. Por
esto es más conveniente escoger una situación determinada como punto
de referencia inicial, para remitir a ella todas las demás observaciones,
esta situación se denomina situación base y las comparaciones que se
realizan vienen establecidas a través de un número índice. Los números
índices, o simplemente índices, proporcionan comparaciones entre datos
correspondientes a diferentes situaciones, escalonadas con arreglo a
algún criterio conocido (por ejemplo, por el transcurso del tiempo).
Si definimos a como el Número Índice de un determinado valor o bien
en el período t, respecto al período base o, entonces
donde xt representa el valor del bien en el período t y xo el valor del
bien en el periodo o.
Las comparaciones, en estadística, entre distintas variables o entre los
valores de una sola variable pueden realizarse de distintas formas. Las
formas más simples son las que se llevan a cabo por diferencia o
aquellas que se realizan por cociente. Estas últimas tienen la ventaja
frente a las primeras que eliminan el problema de las unidades de
medida. En cambio el segundo de los procedimientos, aunque no
33. adolece de ese problema, puede plantear problemas relativos a elegir la
unidad de referencia para realizar las comparaciones.
Propiedades
Uno de los problemas de mayor importancia a la hora de elaborar un
número índice es el conseguir que éste sea adecuadamente
representativo, para ello es preciso que el índice cumpla ciertas
propiedades de carácter matemático y reúna ciertos requisitos en su
definición:
1. Identidad. Cuando el período base y el de comparación coinciden,
el índice debe ser igual a uno.
2. Inversión. Si en un índice se invierten los períodos base y de
comparación, el índice toma el valor recíproco al anterior.
3. Circular. Si se multiplica el índice de un período Z con relación a
un período Y por el índice de Y con relación a X, el producto ha de
ser el índice de Z con relación a X.
4. Existencia. El índice ha de tomar valores reales y finitos para
cualquier valor de la variable observada.
5. Proporcionalidad. El índice elaborado sobre unos determinados
valores de una variable ha de ser proporcional al índice
correspondiente a los valores de esa variable multiplicados por un
mismo número K.
6. Variación proporcional. Si los valores de la variable varían en una
cierta cuantía, el índice varía proporcionalmente.
7. Inalterabilidad. Si se introduce una nueva modalidad en el índice
complejo, de tal manera que el valor de éste coincide con el del
índice simple de aquella, el índice complejo no varía.
8. Homogeneidad. El valor de un índice no ha de ser afectado por
modificaciones de las unidades de medida.
Índices simples y complejos
Cuando se realiza una comparación entre los valores de una sola
magnitud se obtienen índices simples, En cambio, si se trabaja con más
de una magnitud a la vez, se habla de de índices complejos. En los dos
casos se comparan siempre dos situaciones, una de las cuales se
considera como referencia. Cuando se trata de comparaciones
34. temporales, a la situación inicial, se le conoce como periodo base o
referencia, mientras que el periodo objeto de comparación se denomina
corriente o actual. Para elaborar un número índice de carácter simple, se
asigna al periodo que es objeto de referencia el valor 100, de esta
manera los números índices de las distintas observaciones posteriores,
no son otra cosa que porcentajes de cada valor con respecto al de la
referencia. Dentro de los índices complejos se distingue entre índices
ponderados y no ponderados, según el peso que se le de a los distintos
valores
Clases de número índice y formas de cálculo
En economía los índices más utilizados son los que se refieren a precios
(índices de precios), cantidades o producción (índices cuánticos) e
índices de valor (cotizaciones bursátiles).
Índices de precios. En este caso la magnitud a estudiar será el precio de
un bien, un servicio o de un conjunto de ellos.asi tendremos:
Índice simple. Será la comparación del precio de un bien(o servicio) en
dos instantes de tiempo:
Índice de Sauerbeck.
Es un índice compuesto sin ponderar definido como media aritmética de
índices
Simples:
35. Índice de Bradstreet-Dudot.
Es un índice compuesto sin ponderar definido como media agregativa de
índices simples:
Obviamente los índices de precios mas interesantes son los índices
compuestos ponderados ya que reflejan más fielmente la realidad
aunque también son más complejos por el problema de elegir los pesos
o ponderaciones.
Índices compuestos ponderados.
Recordemos que los índices simples de precios de un periodo actual t
respecto de un periodo base 0 los calculábamos como:
Y nuestra expresión general para un índice compuesto ponderado que
era:
Veamos ahora las ponderaciones propuestas tradicionalmente y los
índices ponderados compuestos a los que dan lugar. Estas
ponderaciones son fundamentalmente cuatro:
A) W i = pi0 qi0, donde pi0 es el precio de la magnitud i en el año
base y qi0 la cantidad consumida en el año base. Es decir consideramos
como pesos los valores globales de la cantidad consumida en el periodo
base a precios de ese periodo.
36. Utilizando esta ponderación en una media aritmética de índices simples,
encontramos:
Este es el llamado índice de precios de Laspeyres.
Este es uno de los índices mas utilizados (por ejemplo para la
determinación del i.p.c. En España), teniendo la ventaja de que las
ponderaciones se mantienen fijas en todos los periodos, ventaja que a
su vez se convierte en inconveniente, ya que al alejarnos del periodo
base el índice va perdiendo representatividad.
B) la segunda de las ponderaciones consiste en considerar como pesos
w i = pit qit, es decir los valores globales de la cantidad consumida en
el periodo t a precios de ese periodo. Aquí pit es el precio de la
magnitud i en el periodo actual t y qit la cantidad consumida en el
periodo actual. Esta ponderación no es muy utilizada.
C) la tercera de las ponderaciones consiste en considerar como pesos w
i = pi0 qit, es decir los valores globales de la cantidad consumida en el
periodo t a precios del periodo base. Aquí pi0 es el precio de la
magnitud i en el periodo base y qit la cantidad consumida en el periodo
actual.
Considerando estas ponderaciones en nuestra expresión general de
índice ponderado compuesto:
100 100
37. Que es el llamado índice de precios de Paasche
El inconveniente de este índice es que(a diferencia del de Laspeyres) las
ponderaciones finales son variables, es decir en cada periodo t, para
calcularlo, es necesaria información no solo de los precios del periodo
sino también de las cantidades consumidas. Aunque las ponderaciones
de este índice son representativas de la estructura del momento actual,
también sucede (como al de Laspeyres) que va perdiendo
representatividad a medida que se efectúan comparaciones mas
alejadas del año base.
D) una cuarta ponderación no utilizada es considerar:
w i = pit qi0
Aunque no tan utilizados como los de Laspeyres y Paasche, otros dos
índices de precios importantes son los de Edgeworth y Fisher:
E) el índice de Edgeworth (Marshall-Edgeworth) es una media
agregativa ponderada, utilizando los pesos o ponderaciones:
w i = qit + qi0
Σ pit ( qi0 + qit)
ep = ---------------------- 100
Σ pi0 ( qi0 + qit )
Podemos ver que es un índice media agregativa similar al de Bradstreet,
pero utilizando los pesos w i = qit + qi0.
También podemos verlo como un índice media aritmética ponderada que
toma como pesos las ponderaciones de Laspeyres y Paasche:
Σ pit ( pi0 qi0 + pi0 qit ) Σ pit ( qi0 + qit )
pi0
ep = ----------------------------100 =---------------------- 100
Σ ( pi0 qi0+ pi0 qit ) Σ pi0 ( qi0 + qit )
38. F) Un último índice es el índice de Fisher, que se define como la media
geométrica de los índices de Laspeyres y Paasche:
Fp = √ lp pp
Para estudiar la idoneidad de estos índices, estudiemos que propiedades
de las deseables verifican:
Propiedades verificadas por los índices de Sauerbeck, Bradstreet,
Laspeyres, Paasche, Edgeworth y Fisher.
Propiedad 1.- existencia e identidad: la verifican todos los índices de
precios definidos.
Propiedad 3.- la propiedad de reversión temporal solo la verifican los
índices de Bradstreet, Edgeworth y Fisher. (Si intercambiamos los
periodos base y actual los índices obtenidos son inversos)
Propiedad 5.- la homogeneidad no la verifica ninguno de los índices
compuestos estudiados.
Propiedad 6.- la proporcionalidad se verifica algebraicamente en todos
los índices compuestos estudiados, pero haremos algunas objeciones de
tipo económico para los de Paasche, Edgeworth y Fisher. La
proporcionalidad se cumplirá si al variar los precios p en una proporción
fija k el índice varia en la misma proporción:
Recordemos que los índices simples de precios de un periodo actual t
respecto de un periodo base 0 los calculábamos como:
pit
ii = ----- 100
pi0
Si los precios se incrementan pit + k pit
En nuestra expresión general para un índice compuesto ponderado que
era:
ncc
39. Para el índice de Fisher:
F´p(t,0) = √ (lp(t,0) + lp(t,0) k ) (pp(t,0) + pp(t,0) k )
= √(1+k)2 lp(t,0) pp(t,0) = (1+k) fp(t,0) = fp(t,0) + k fp(t,0)
La objeción económica es que aunque algebraicamente esto siempre
será así, en la realidad un incremento de precios llevara aparejado
consigo (dependiendo de la elasticidad precio de la demanda) una
disminución de las cantidades consumidas, por lo que solo los índices no
ponderados( S p , B-D p) y los ponderados en los que no aparecen las
cantidades consumidas en el periodo actual (Laspeyres) verificaran de
hecho esta propiedad.
Índices cuánticos o de producción
Otra alternativa de los números índices, es considerar como magnitud a
estudiar en lugar de los precios las cantidades físicas. Así surgen los
índices cuánticos o de producción que atenderán a las variaciones
habidas en la producción física de un conjunto de bienes y/o servicios,
para medir su evolución en el tiempo, “no considerando el efecto que
sobre ello haya podido tener la variación de precios.
Solo estudiaremos índices compuestos ponderados, siendo los más
utilizados los siguientes:
A) índice cuántico de Laspeyres:
Σ qit qi0 pi0 Σ qit pi0
qi0
lq = -------------------- 100 = ------------------ 100
Σ pi0 qi0 Σ pi0 qi0
B) índice cuántico de Paasche
Σ qit pit qio Σ qit pit
qi0
pq = -------------------- 100 = ------------------ 100
Σ pit qi0 Σ pit qi0
40. C) índice cuántico de Edgeworth.
Σ qit ( pi0 qi0 + pit qi0 ) Σ qit ( pi0 + pit ) qi0
eq = ---------------------------- 100 = ---------------------- 100
Σ ( pi0 qi0+ pit qi0 ) Σ qi0 ( pi0 + pit )
D) índice cuántico de Fisher.
Fq(t,0) = √ lq(t,0) pq(t,0)
6.4.3.- Índices de valor
El valor de un conjunto de bienes y/o servicios, para dos periodos de
tiempo, el actual t y el base 0, vendrá dado respectivamente por las
siguientes expresiones:
vt = Σ v it = Σ p it q it (valor en el periodo actual)
V0 = Σ v i0 = Σ p i0 q i0 (valor en el periodo base)
Un índice conjunto del valor del periodo actual respecto del periodo base
viene dado por el cociente de las dos expresiones anteriores:
vt
iv = ------
v0
Es evidente que en un índice de valor se reflejan conjuntamente las
variaciones de los precios y las cantidades, ya que la variación entre los
valores es un efecto conjunto de la variación de las cantidades
(producidas, consumidas...) Y de la variación de sus precios entre
ambos periodos.
BASE DE UN NUMERO INDICE
BASE DE UN NUMERO INDICE.- Al definir un numero índice se ha
destacado que se trata de una comparación de dos momentos en el
tiempo o dos puntos en el espacio. El momento o punto con respecto al
que se establece la comparación recibe el nombre de base y se le asigna
el valor de 100 para analizar las variaciones porcentuales.
Hay que tener siempre presente el objetivo que se persigue con el
índice. En personal se estima que el periodo base debe ser normal, es
decir un periodo durante el cual no existen accidentes o cambio
violentos, cuando en los países en desarrollo los cambio son muy
41. frecuentes y la anormalidad es un denominador común no se puede
tomar como periodo base.
Será necesario cambiar la base del índice cuando los supuestos
planteados pierdan validez a medida que pasa el tiempo, es el caso de
los índices de costos de vida. Cuya base debe modificarse toda vez que
la estructura de consumo presente cambios significativos con respecto
de la admitida en el periodo base.
TIPOS DE BASE.- existen 2 tipos. Base fija y variable.
INDICES DE BASE FIJA.- Son aquellas que mantienen como base un
periodo fijo de referencia.
INDICES DE BASE VARIABLE.- so aquellos que tienen como base el
periodo
inmediatamente anterior. Con un índice de base fija puede calcularse el
correspondiente de base variable y viceversa.
Ejemplo.-
Supóngase que el índice de Laspeyres para los precios de los materiales
de construcción sea el siguiente:
Calculando el índice de base variable será:
42. EMPALME.- otra operación que es muy usual al respecto de los índices
de base fija es la del empalme, se trata de empalmar índices con bases
distintas.
Mediante una sencilla regla de tres puede completarse cualesquiera de
las dos series,
para el movimiento del índice durante todo el periodo.
Este tipo de empalme significa solo una aproximación que puede ser
defectuosa.
43. Indexación y Deflación
Deflactación.
Para poder llegar a conclusiones validas acerca del comportamiento de
una variable que representa “valor”, será necesario expresar los montos
monetarios nominales en unidades homogéneas, esta transformación
recibe el nombre de deflactación, y con ella se pretende eliminar,
exclusivamente, el efecto de alteración en los precios. Cuando se desea
transformar unidades monetarias heterogéneas (unidades de cada
periodo), en unidades monetarias homogéneas (unidades del periodo
base), y permitir de este modo la comparación en el tiempo, el primer
recurso al cual se apela, es expresar los montos monetarios nominales
en unidades de moneda extranjera de valor más o menos estable,
dólares, libras, etc.
La mecánica de la deflactación implica dividir los montos monetarios
nominales por el índice de precios elegidos como deflactor adecuado, y
su explicación podrá aplicarse en la siguiente regla de tres. Si en el año
n se tiene un valor nominal VNn y un índice de precios IPn,
¿Cuál sería el valor nominal expresado en unidades monetarias de igual
poder adquisitivo que las del año base? En otros términos. ¿Cual sería
este valor si el índice de precios no hubiera variado?
Por tanto:
Desde otro punto de vista, se justifica la deflactación pensando en los
componentes de un valor: precio por cantidad
44. Es necesario destacar que un proceso de deflactación conduce a valores
reales que pueden tener dos interpretaciones: una expresión física y un
poder de compra. Una variable monetaria está compuesta por una suma
de valores del tipo Pn qn , si esta serie se deflacta por un índice de
precios de los productos considerados en la serie nominal, el resultado
será una expresión física de la serie nominal, el resultado será una
expresión física de la serie. En efecto, utilizando un índice deflactor de
Pasche, se tiene:
El resultado es evidente un quantum, es decir, cantidades del periodo n,
valorizados a precios del periodo base. Si se hubiera deflactado por un
índice de Laspeyres, de tendrá:
Resultado que equivale a proyectar un valor en el periodo base, a través
de un índice de cantidades de Pasche.
45. Cambio de la base
En la práctica es deseable que el período base elegido para la
comparación sea un período de estabilidad económico no muy alejado
en el pasado. De cuando en cuando puede ser necesario, por tanto,
cambiar el período base.
Una posibilidad es recalcular todos los números índice en términos
del nuevo período base. Un método aproximado más simple consiste en
dividir todos los números índice para los diversos años correspondientes
al período base antiguo por los números índice para los diversos años
correspondientes al nuevo período base, expresando los resultados
como porcentajes. Estos resultados representan los nuevos números
índice, siendo el número índice para el nuevo período base 100 (%),
como debe ser.
Matemáticamente hablando, este método es estrictamente
aplicable solo si los números índices satisfacen el criterio circular. Sin
embargo, para muchos tipos de índices el método, afortunadamente, da
resultados que en la práctica son suficientemente próximos a los que se
tendrían teóricamente.
46. REFERENCIAS BIBLIOGRÁFICAS
BENALCÁZAR, Marco, (2002), Unidades para
Producir Medios Instruccionales en Educación, SUÁREZ, Mario Ed.
Graficolor, Ibarra, Ecuador.
DAZA, Jorge, (2006), Estadística Aplicada con Microsoft
Excel, Grupo Editorial Megabyte,
Lima, Perú.
SUÁREZ, Mario, (2004), Interaprendizaje Holístico de Matemática,
Ed. Gráficas Planeta,
Casuso, Rafael L. "Cálculo de probabilidades e inferencia estadística",
UCAB. Caracas. 1996.
Mendenhall, Schaeffer y Wackely. "Estadística matemática con
aplicaciones", Edit. Iberoamérica. México. 1986.
Mendelhall, William y Sincich. "Probabilidad y estadística para ingeniería
y ciencias", Edit. Prentice may. México. 1997.
Miller, Irwin y otros. "Probabilidad y estadísticas para ingenieros", Edit.
Prentice may. 4ta edición. México. 1992.
Ross, Sheldon. "Probabilidad y estadísticas para ingeniería y ciencias",
Edit. Mc Graw Hill. México. 2001.
WALPOLE, Myers y Myers (1998), "Probabilidad y Estadística para
Ingenieros", Edit. Prentice Hall, México.