El documento resume los principales métodos de la estadística descriptiva, incluyendo medidas de tendencia central como la media, mediana y moda, y medidas de dispersión como la varianza y desviación estándar. También describe métodos gráficos como histogramas, diagramas de caja y bigotes, y ojivas para resumir y visualizar datos.
2. La estadística tiene que ver con la recopilación,
presentación, análisis y uso de datos para
tomar decisiones y resolver problemas.
3. Cualquier persona recibe información en forma
de datos a través de los periódicos, la televisión u
otros medios; y a menudo es necesario obtener
alguna conclusión a partir de la información
contenida en los datos.
4. Los métodos empleados para resumir y organizar
datos se denominan estadística descriptiva;
mientras que los métodos para tomar decisiones
se denominan inferencia estadística.
5. 1) MÉTODOS NUMÉRICOS
• Las descripciones numéricas de datos
suelen ser importantes. Dado un conjunto
de n observaciones
x1 , x2 ,..., xn
• La estadística descriptiva nos puede
ayudar mediante resúmenes numéricos,
que son medidas de tendencia central, o
también llamadas de posición y medidas
de dispersión
6. • Las medidas descriptivas más comunes de
tendencia central o localización son: la media
aritmética y la mediana (existen otras medidas de
tendencia central que en ocasiones pueden
resultar de interés: la moda, los cuartiles, los
deciles, los percentiles, la media armónica, la
media geométrica y la media ponderada.)
7. La media aritmética o simplemente promedio
(también llamada media muestral ya que
generalmente se calcula en relación a una
muestra) se calcula de la siguiente forma: si las
observaciones de una muestra de tamaño n son x1,
x2,…,xn entonces
n
∑x
x 1 + x 2 + ... + x n i = 1
i
X= =
n n
8. Característica de la Media
• Es intuitiva y fácil de calcular.
• Su valor puede que no coincida con
ninguno de los valores de la muestra
• La suma de las diferencias de cada
valor de la muestra con la media su
resultado es cero, es decir,
n
∑ (x − x) = 0
i =1
i
9. La mediana se suele definir como el valor “más
intermedio” una vez que los datos han sido
ordenados en forma creciente. Se suele denotar
por Me. La forma más general de calcular la
mediana es la siguiente:
x ( ( n + 1) 2) si n es impar
Me = x + x ( ( n 2) +1)
( n 2)
si n es par
2
10. • La mediana es aquel valor que deja el cincuenta
por ciento de los datos por debajo y otro
cincuenta por encima.
• Cabe destacar que es preferible el uso de la
mediana como medida descriptiva del centro
cuando se quiere reducir o eliminar el efecto de
valores extremos en un conjunto de datos (muy
grandes o muy pequeños).
11. Moda:
Es una medida de tendencia central que se
puede utilizar sea cual sea el tipo de variable a
estudiar. La moda de un conjunto de
observaciones es el valor que más se repite, aquel
cuya frecuencia absoluta es máxima. Puede ser
única, que haya más de una, o que no exista.
12. Media Geométrica:
Se define como la raíz n-ésima del producto
de todos los valores numéricos, es decir,
n
X G = n x1.x2 ....xn = n ∏ ( xi )
i =1
13. La media armónica:
Se define como el número de observaciones
de la muestra dividido por la suma del inverso
de cada una de las observaciones, es decir,
n
XA = n
∑(1 / x )
i =1
i
14. La localización o tendencia central de un
conjunto de datos no necesariamente
proporciona información suficiente para
describirlos adecuadamente. Debido a que no
todos los valores son semejantes, la variación entre
ellos se considera importante.
15. Se puede decir que un conjunto de datos tiene una
dispersión reducida si los mismos se aglomeran
estrechamente en torno a alguna medida de
localización de interés y se dice que tiene una
dispersión grande si se esparcen ampliamente
alrededor de alguna medida de localización de
interés.
16. Las medidas descriptivas más comunes de
dispersión son: el rango, la varianza, la desviación
estándar y el rango intercuartílico.
17. El rango de la muestra es la medida de
variabilidad más sencilla entre todas las
mencionadas; y se define como la diferencia
entre la observación más grande y la más
pequeña :
r = xmax − xmin
18. Aunque es una medida muy fácil de calcular,
ignora toda la información de la muestra entre las
observaciones más grande y más pequeña. Sin
embargo, vale la pena resaltar que el rango se
utiliza mucho en aplicaciones estadísticas al
control de calidad, donde lo común es emplear
muestras con tamaños n = 4 o
n = 5 ya que en estos casos la pérdida de
información no se considera relevante.
19. En general, se desea una medida de variabilidad
que dependa de todas las observaciones y no sólo
de unas pocas; así que parece razonable medir la
variación en términos de las desviaciones relativas
a alguna medida de localización (generalmente
esta medida es la media)
20. Para el conjunto de datos x1,x2,….,xn
Las diferencias
( x1 − x ), ( x2 − x ),....., ( xn − x )
determinan las desviaciones de la media.
Dado que la suma de estas desviaciones es
cero, se utiliza como medida de variabilidad el
promedio de los cuadrados de tales
desviaciones.
22. Esta medida de variabilidad se denomina
varianza. Como S2 no tiene las mismas unidades
que los datos.
Desviación estándar como la raíz cuadrada
(positiva) de la varianza a fin de tener una medida
en las mismas unidades de los datos; La
desviación estándar es útil para comparar
dispersión entre dos poblaciones.
24. El primer cuartil, al que se le llama Q1, es el
valor por debajo del cual se encuentra el 25%
de los datos, y el tercer cuartil usualmente
llamado Q3, es el valor por debajo de el se
encuentra el 75% de los datos. Q2 es la
mediana.
25. Los valores Q1, Q2 y Q3 dividen al
conjunto de datos ordenados en cuatro
partes iguales. Q1 se puede entender
como la mediana de la mitad inferior de
los datos ordenados y Q3 como la
mediana de la mitad superior de los datos
ordenado.
26. Procedimiento para el calculo de los percentiles
Sea Lp la posición del percentil deseado.
p
Entonces
L p = ( n)
100
donde n es el numero de datos y p el percentil
Ejemplo: el percentil 33 P33, el percentil 50 es el
P50, que es también la mediana ó el Q2. El
percentil 25 es el P25=Q1 y el percentil 75 es el
P75=Q3
27. Calculo del p-ésimo percentil
• Paso 1: Ordenar los datos de manera ascendente.
• Paso 2: Calculamos el Lp ( )
• Paso 3: a) Si Lp no es entero, se redondea. El valor p
L = ( n)
entero inmediato mayor que Lp indica lapposición %
del p-ésimo percentil. 100
b) Si Lp es entero, el p-ésimo persentil es el
promedio de los valores de los datos ubicados en
los lugares i e i+1
28. Por Ejemplo:
• Si tenemos 15 datos ordenados y queremos localizar el
primer cuartil (percentil 25) según la formula este
estará ubicado en la posición 4 (por redondeo) y el
tercer cuartil (percentil 75) estará ubicado en la
posición 12 (por redondeo)
• Si tenemos 20 datos ordenados el primer cuartil estará
en la posición intermedia entre el 5° y el 6° dato es
decir si el 5° dato fuese 36 y el 6° 41 el P25=Q1=38,5
29. Coeficientes de Asimetría y
Curtosis
Asimetría
Si los valores de la serie de datos presenta
la misma forma a izquierda y derecha de un
valor central (media aritmética) se dice que
es simétrica de lo contrario será asimétrica.
Para medir el nivel de asimetría se utiliza el
llamado Coeficiente de Asimetría de Fisher,
que viene definido: n
(1 / n)(∑ ( xi − x )
3
g1 = i =1
3
s
30. Los resultados pueden ser los siguientes:
• g1 = 0 (distribución simétrica; existe la
misma concentración de valores a la
derecha y a la izquierda de la media)
• g1 > 0 (distribución asimétrica positiva;
existe mayor concentración de valores a
la derecha de la media que a su
izquierda)
• g1 < 0 (distribución asimétrica negativa;
existe mayor concentración de valores a
la izquierda de la media que a su
31. Curtosis
• El Coeficiente de Curtosis analiza el grado de
concentración que presentan los valores alrededor
de la zona central de la distribución.
• Se definen 3 tipos de distribuciones según su grado
de curtosis:
32. • Distribución mesocúrtica: presenta un grado de
concentración medio alrededor de los valores
centrales de la variable (el mismo que presenta
una distribución normal).
• Distribución leptocúrtica: presenta un elevado
grado de concentración alrededor de los valores
centrales de la variable.
• Distribución platicúrtica: presenta un reducido
grado de concentración alrededor de los valores
centrales de la variable.
33. El Coeficiente de Curtosis viene definido por la
siguiente fórmula:
n
(1 / n)(∑ ( xi − x ) 4
g2 = i =1
4
−3
s
34. Los resultados pueden ser los siguientes:
• g2 = 0 (distribución mesocúrtica).
• g2 > 0 (distribución leptocúrtica).
• g2 < 0 (distribución platicúrtica).
35. 2) MÉTODOS GRÁFICOS
Histogramas
Se utiliza con variables agrupadas en intervalos, representando
en el eje X los intervalos de clase y levantando rectángulos
contiguos de base la longitud de los distintos intervalos y de
altura tal que el área sea proporcional a las frecuencias
representadas. Si son frecuencias acumuladas, serán
proporcionales a las alturas aunque los intervalos sean de
distinta amplitud.
36. Grafico de Áreas
En estos tipos de gráficos se busca mostrar la
tendencia de la información generalmente en
un período de tiempo.
37. Cartogramas
Estos tipos de gráficos se utilizan para mostrar
datos sobre una base geográfica. La densidad
de datos se puede marcar por círculos,
sombreado, rayado o color.
38. Diagrama Pastel
Se divide un círculo en tantas porciones como
clases tenga la variable, de modo que a cada
clase le corresponde un arco de círculo
proporcional a su frecuencia absoluta o
relativa.
39. Dispersograma
Es un gráficos que se construye sobre dos ejes
ortogonales de coordenadas, llamados
cartesianos, a cada punto corresponde a un par
de valores de datos x e y de un mismo elemento
o suceso.
40. Diagrama de Tallo y Hojas
Un diagrama de tallo y hoja permite
analizar la probabilidad de que un
suceso ocurra sin utilizar probabilidad y
estadística concretamente. Proporciona
una información rápida, visual y
relativamente nueva sobre datos no
agrupados.Tallo Hojas
T1 a , b, c,…
T2 a , b, c,…
T3 a , b, c,…
T4 a , b, c,…
41. Diagrama de Caja y Bigote
El diagrama de cajas también llamado boxplot
es la presentación visual que describe al mismo
tiempo varias características importantes de un
conjunto de datos, tales como el centro, la
dispersión, el alejamiento de la simetría, y la
identificación de valores extremos (puntos
atípicos), es decir, de valores que se alejan de
una manera poco usual del resto de los datos.
42. Presenta los tres cuartiles, (y los valores
mínimos y máximos) alineados sobre una
caja vertical u horizontalmente, la mediana,
el valor máximo y valor mínimo.
43. Construcción de los límites y los valores
atípicos
•Límite interior inferior = Límite del bigote inferior
= Q1 - 1,5RI
•Límite interior superior = Límite del bigote superior
= Q3 + 1,5RI
•Límite exterior inferior = Q1 - 3RI (Rango intercuartílico)
•Límite exterior superior = Q3 + 3RI (Rango intercuartílico)
44.
45. Diagrama de frecuencia acumulada u OJIVA
Es un diagrama en donde se representan los intervalos
de una clase versus la frecuencia relativa acumulada. Su
principal ventaja radica en la fácil ubicación de los
cuartiles y percentiles ( calculados a partir del eje y para
obtener su imagen en x). Su gráfica es siempre una
función creciente hasta 1.
46. Diagrama de Series de tiempo
Este diagrama permite graficar una relación en función del
tiempo, así por ejemplo se puede graficar la línea de
producción de un determinado artículo durante el día, además
permite realizar comparaciones entre dos curvas de tiempo
con la finalidad de estimar fluctuaciones, alzas o bajo
rendimiento en un proceso.
47. Diagrama de puntos
Los diagramas de puntos sirven para
presentar gráficamente tablas en las
cuales se consideran únicamente una
variable y una cantidad asociada a
cada valor de la misma.
48. Diagrama de dígitos
Es una combinación entre el diagrama de
tallo y hojas y el diagrama de series de
tiempo. Su objetivo es dar una ampliación
a la información del gráfico pudiendo
hacer notorias ciertas características de
similitud en la curva.