Sostenibilidad y continuidad huamcoli robin-cristian.pptx
Estadística descriptiva e inferencial
1. ESTADÍSTICA
DESCRIPTIVA
E INFERENCIAL
Ing. Pedro López Eiroá
soportedelconocimiento.blogspot.mx
origensobrehumano.blogspot.mx 1
ciudadanosdelreinodeloscielos.blogspot.mx
2. ¿ Qué es la estadística ?
“ La estadística se ocupa de los
métodos científicos para :
recolectar , organizar , resumir ,
presentar y analizar datos ; así como
de sacar conclusiones válidas y tomar
decisiones con base a este análisis “
Murray R. Spiegel & Larry J. Stephens
2
3. Uso de la estadística
No existe actividad humana donde no se involucre :
Personalmente : comparación de alternativas ,
evaluación de servicios , ingresos vs. Pagos, etc.
Cotidianamente : Censos , indices de precios ,
ajustes de tarifas , frecuencia de enfermedades,
preferencia de candidatos políticos.
Empresarialmente : control de proceso y calidad ,
evaluación de productividad, estudios de costos,
nivel de satisfacción de clientes , proyectos de
inversión,etc.
3
4. Importancia de la estadística
• ¿De qué sirve tener datos si no son representativos?
• ¿Qué pasa si tomo decisiones con información incorrecta?
• ¿Es bueno suponer información para su análisis?
• ¿Hay una forma objetiva de mejorar una situación o proceso?
• ¿Hay una forma clara de reducir riesgos y tener certidumbre ?
• ¿Puedo controlar variables sin tener su medición?
Si podemos observar y recolectar información precisa y
relevante , para organizarla de la mejor forma y analizarla de
tal forma que nos permita tener un panorama completo de la
situación u objeto de estudio … estamos entonces haciendo
Estadística .
4
5. Ventajas de la estadística
El empleo correcto de la estadística nos permite :
• Eliminación de incertidumbre
• Visualización de los datos
• Integración de comunicación
• Medición de las variables • Optimización de uso de tiempo
• Apoyo en las decisiones • Mejora de la elección
• Reducción de riesgos • Eficacia de manejo de información
• Estímulo enfocado a resultados
• Organización de información • Documentación de procesos y decisiones
• Certeza • Visualización y control de tendencias
• Reconocimiento • Toma de decisiones racional y objetiva
de alternativas
• Aceptación de soluciones
5
6. Definiciones básicas
Población: Conjunto de elementos que se quiere estudiar.
• Habitantes de una ciudad.
• Televisores fabricados en una factoría.
• Alumnos de primero de bachillerato.
Muestra: Cualquier subconjunto de una población. El
número de elementos de una muestra se llama tamaño.
Variable estadística : Cada uno de los rasgos o
características que se quiere estudiar de los elementos de
la población, susceptible o no de medida.
• Color del pelo: negro, castaño, rubio o pelirrojo
• Sexo: hombre o mujer
• Miembros asalariados de una familia: 0, 1 , 2 , 3 ,4 ,
• Alturas de alumnos:178, 169, 172, 183, …
6
7. Definiciones básicas
Individuo: Cada uno de los elementos que componen una
población y/o muestra .
• Es sinónimo de unidad básica o última del muestreo
Carácter : Propiedad o cualidad que presentan los
elementos de una población que se desea estudiar .
• Cualitativo cuando no puede medirse numéricamente
• Cuantitativo cuando puede medirse numéricamente (Variable)
Estadístico : Es una medida descriptiva de una muestra
• Ingreso promedio de los trabajadores
• Frecuencia de venta de productos
7
8. Tipos de Estadística
• La Estadística descriptiva o deductiva:
– Trata del recuento, ordenación y clasificación de
los datos obtenidos de las observaciones:
• Construcción de tablas, gráficos y cálculo de parámetros.
• La Estadística inferencial o inductiva:
– Utiliza los resultados de la estadística
descriptiva y se apoya en el cálculo de
probabilidades para la obtención de conclusiones
sobre una población a partir de los resultados
obtenidos de una muestra.
8
9. Variables cualitativas y cuantitativas
• Escalas
Ordinales • Etapas
Cualitativ as
(Cualidades ,
• Colores
categorías o
atributos) Nominales • Lugares
• Profesiones
Variables Discretas • Número de hijos
(Unidades • Páginas de un libro
Cuantitati vas completas )
(Aquellas
medibles
numéricamente) • Edad
Continuas
• Peso
(Cualquier • Talla
valor en un • Tiempo
rango) 9
10. Tipos de Variables Cualitativas
• Dicotómicas: Sólo hay dos categoría, que son
excluyentes una de la otra
Ejemplo: enfermo-sano, muerto-vivo, mujer-hombre
• Nominal: tiene mas de dos categorías y no hay orden
entre ellas.
Ejemplo: color de los ojos, grupo sanguíneo
• Ordinal: tiene varias categorías y hay orden entre
ellas.
Ejemplo: grado tumoral, calificación del riesgo en
anestesia.
10
11. Tipos de Variables Cuantitativas
• Continuas: números infinito no numerables de
elementos. Tiene asociado el concepto de
medida, en unidades a veces fraccionarias.
Ejemplo: Presión arterial, Edad, peso.
• Discretas: números finitos o infinitos
numerables de elementos. Se asocia con el
concepto de conteo.
Ejemplo: N° de hijos, N° de casos de
tuberculosis por estado.
11
12. Presentaciones estadísticas y
representaciones gráficas
Son los métodos empleados para organizar y presentar las
observaciones , con el objeto de mostrar la máxima
información con una rápida visualización , manejo de estética
y sencilléz operativa . Pueden ser de dos tipos:
• Tablas:
• Forma sencilla y clara de agrupar la información
• Pueden ser sencillas o complejas según la cantidad de datos
• Es importante el manejo lógico de la disposición
• Gráficos:
• Permiten visualizar la información y sus relaciones
• Es una forma ilustrativa y clara de los datos
• Es una forma creativa y artística de presentación
12
13. Variables : Representación Tabular
VENTAS MENSUALES POR ZONA
Volumen Volúmen Volúmen
Fecha de Volúmen %
Ventas Ventas Ventas Total
Venta Ventas Sur Mensual
Norte Centro Foráneo
Enero $8,691.89 $19,156.00 $57,793.83 $28,688.78 $114,330.50 18.7%
Febrero $1,617.88 $1,076.03 $19,437.13 $19,321.98 $41,453.02 6.8%
Marzo $1,223.00 $6,677.00 $33,278.32 $20,249.31 $61,427.63 10.1%
Abril $9,645.62 $0.00 $21,343.71 $14,846.76 $45,836.09 7.5%
Mayo $1,051.57 $4,354.00 $19,174.22 $16,886.01 $41,465.80 6.8%
Junio $4,387.45 $0.00 $20,529.59 $22,709.82 $47,626.86 7.8%
Julio $3,362.64 $8,899.00 $26,405.06 $21,065.89 $59,732.59 9.8%
Agosto $0.00 $0.00 $0.00 $0.00 $0.00 0.0%
Septiembre $1,681.32 $1,036.16 $26,598.83 $30,541.29 $59,857.60 9.8%
Octubre $7,132.00 $0.00 $25,738.73 $21,813.00 $54,683.73 9.0%
Noviembre $1,051.57 $2,345.00 $18,477.38 $22,846.24 $44,720.19 7.3%
Diciembre $2,334.00 $6,487.00 $14,802.09 $15,639.72 $39,262.81 6.4%
Total $42,178.94 $50,030.19 $283,578.89 $234,608.80 $610,396.82
% por Zona 6.9% 8.2% 46.5% 38.4%
13
15. Variables cuantitativas:
Representación gráfica
Frecuencia por Volúmen de Ventas
Ventas Mensuales por Zona
$120,000.00
$80,000
$70,000 $100,000.00
$60,000
Venta Total
$50,000 $80,000.00
$40,000 Venta $60,000.00
$30,000
$20,000 $40,000.00
$10,000 $20,000.00
$-
$0.00
9
99
9
9
9
9
9
9
9
9
99
99
99
99
99
99
99
99
99
to
il
zo
o
e
e
ro
lio
e
ro
o
re
r
br
ay
br
,9
br
ni
Ab
os
e
re
ub
Ju
ar
4,
1,
2,
3,
5,
6,
7,
8,
9,
Ju
m
m
m
En
10
M
b
Ag
M
ct
ie
ie
ie
Fe
O
a
ov
ic
pt
a
a
a
a
a
a
a
a
a
D
Se
N
0
00
0
0
0
0
0
0
0
0
00
00
00
00
00
00
00
00
00
Mes
,0
4,
2,
3,
5,
7,
8,
9,
1,
6,
10
Volúmen de Ventas Norte Centro Sur Foráneo
Comparativo ventas Josefina vs. Juan
$60,000
$50,000
$40,000
Venta
$30,000
$20,000
$10,000
$0
o
e
zo
o
to
e
ri l
Fe o
O re
lio
o
e
ay
br
er
br
er
ni
N ubr
Ab
Se os
b
ar
Ju
Ju
m
En
br
m
m
M
Ag
M
ct
ie
ie
ie
ov
ic
pt
D
Mes
Josefina Romero García Juan Rodríguez Maldonado 15
16. Diferentes tipos de medidas
• Las descripciones numéricas de datos son
importantes. Dado un conjunto de n
observaciones :
x1 , x2 ,....., xn
• La estadística descriptiva nos ayuda
mediante el manejo de medidas de
tendencia central relativas a la posición
de los datos y medidas de dispersión
relativas a la variabilidad de los datos.
16
17. Medidas de Tendencia Central
• Las medidas descriptivas más comunes de
tendencia central o posición son: la media
aritmética y la mediana
• Existen otras medidas de tendencia central
que en ocasiones pueden resultar de interés
tales como : la moda, los cuartiles, los
deciles, los percentiles, la media armónica,
la media geométrica y la media ponderada.
17
18. Media Aritmética
• La media aritmética es simplemente el
promedio (también llamada media muestral
ya que generalmente se calcula en relación a
una muestra).
• Se calcula de la siguiente forma: si las
observaciones de una muestra de tamaño n
son x1, x2,…,xn entonces:
n
∑x
x 1 + x 2 + ... + x n i = 1
i
X = =
n n
18
19. Características de la media
Ventajas :
• Fácil de calcular e interpretar.
• En su cálculo intervienen todos los datos disponibles.
• Su valor es único para una serie de datos.
• Es el punto de equilibrio de la información.
Desventajas :
• No es representativa con pocos datos
• Se ve afectada por el grado de dispersión
• Es poco útil con datos muy heterogéneos
• No todos los valores contribuyen de igual forma ,los
mayores tienen más peso
19
20. Mediana
• La mediana se suele definir como el valor
“más intermedio o central ” una vez que los
datos han sido ordenados en forma creciente.
Se suele denotar por Me. La forma más
general de calcular la mediana es la siguiente:
x ( ( n + 1) 2) si n es impar
Me = x
( n 2) + x ( ( n 2) +1)
si n es par
2
20
21. Características de la mediana
Ventajas :
• Valor único que no se ve afectado por los extremos por ser
equidistante de ellos.
• Se localiza a la mitad de los datos , dejando el 50 % por arriba y
el 50 % por debajo de su valor.
• Es menos sensible a las variaciones de los datos.
• No se ve afectada por la dispersión de los datos.
Desventajas :
• No se emplea para hacer cálculos
• Utiliza muy poca información de los datos
• Cuanto más grande es la serie de datos , más complicado se
vuelve su determinación.
21
22. Moda
• La moda de un conjunto de observaciones es el
valor que más se repite, aquel cuya frecuencia
absoluta es máxima.
• Puede ser única, que haya más de una, o que
no exista.
• Cuando hay más de una , la distribución de los
datos se denomina acorde : bimodal , trimodal,
polimodal, etc.
22
23. Uso de : Media , Mediana y Moda
Nos brindan una idea muy clara de la “posición” de los
parámetros dentro de una distribución de datos.
• La media tiene el uso más frecuente y sencillo ,
tales como : talla media del mexicano, temperatura
histórica promedio , etc.
• La mediana es representativa en poblaciones
heterogéneas , tales como : distribución de salarios
, peso medio, etc.
• La moda literalmente tiene que ver con “estar de
moda” o lo que más se lleva , tal como: número de
individuos por casa en México, cantidad de
usuarios de ciertos equipos celulares , etc.
23
24. Relación entre : Media,Mediana y Moda
La forma de distribución de las observaciones puede variar ,
causando desviaciones de estas mediciones centrales , por eso
es conveniente el empleo conjunto de la media y la mediana en
una población o muestra.
La media se usa para distribuciones simétricas que no
tienen sesgo , mientras que la mediana es más
representativa cuando se tienen datos de distribución
sesgada.
24
25. Medidas de Dispersión
• Las medidas descriptivas más comunes de
dispersión son: el rango, la varianza y la
desviación estándar .
• Existen otras medidas de dispersión que en
ocasiones pueden resultar de interés tales
como : rango semi-intercuartilar , rango
percentilar y coeficiente de variación.
25
26. Rango
• El rango de la muestra es la medida de
variabilidad más sencilla entre todas las
mencionadas
• Como valor se define como la diferencia entre la
observación más grande y la más pequeña :
r = xmax − xmin
• Indica el ancho, recorrido o amplitud de valores .
Tiene como sus límites el valor mayor y el menor
en la distribución de datos.
26
27. Características del rango
Ventajas :
• Fácil de determinar e interpretar.
• Nos indica los límites de nuestra información.
• Nos permite visualizar la amplitud de dispersión
de los valores de forma sencilla.
Desventajas :
• Ignora toda la información de la muestra
• No mide el grado de dispersión , solo su ancho
• No nos da una idea detallada de la información
de las observaciones.
27
28. Varianza
• Es una medida significativa de la dispersión de
las observaciones alrededor de la media.
• Se define como el promedio de las desviaciones
respecto a su media , elevadas al cuadrado :
n
∑ (x − x)
i
2
s =
2 i =1
n
28
29. Características de la Varianza
Ventajas :
• Fácil de calcular mediante su fórmula.
• Indica el grado y forma de dispersión de los
datos con respecto a la media.
• Depende de todas las mediciones.
Desventajas :
• Es impráctica por ser un término cuadrático de
poco sentido en la realidad.
• Es un número muy grande de referencia
matemática , pero sin valor concreto y de difícil
manejo comparativo.
29
30. Desviación estándar
• Es una medida significativa de la dispersión de
las observaciones alrededor de la media.
• Se define como la raíz cuadrada del promedio de
las desviaciones respecto a su media , elevadas al
cuadrado ; es decir la raíz cuadrada de la
varianza :
n
∑ (x − x)
i
2
σ= i =1
n
30
31. Características de la Desviación Estándar
Ventajas :
• Fácil de calcular mediante su fórmula y particularmente en
hojas de cálculo como Excel que lo hacen de forma
automática.
• Indica el grado y forma de dispersión de los datos con
respecto a la media.
• Depende de todas las mediciones.
• Muy práctica por usar los mismos valores de las unidades
que se analizan.
• Un valor grande indica que los datos se alejan mucho de la
media y un valor pequeño indica que se acercan a la media.
Desventajas :
• Si hacemos el cálculo manual , es complicado.
31
32. Utilidad de las medidas de dispersión
• Las medidas centrales solo nos indican el valor medio
alrededor del cual se agrupan nuestros datos , pero
las de dispersión nos detallan la variación de las
observaciones en cuanto a forma y extensión.
• Nos muestran claramente la distancia entre los
datos y la media aritmética, además de que
dependen de todas las observaciones.
• Son únicas de una serie de datos y por eso se
denominan absolutas , pero pierden sentido de
comparación , para lo cual hay que usar el
coeficiente de variación (desviación estándar sobre
la media en porcentaje) .
32
33. Medidas de Distribución
• Las medidas de distribución nos permiten
identificar la forma en que se separan o
aglomeran los valores de acuerdo a su
representación gráfica. Son : la simetría y la
curtosis.
• Estas medidas describen la manera como los
datos tienden a reunirse de acuerdo con la
frecuencia con que se hallen dentro de la
información.
• Su utilidad radica en la posibilidad de
identificar las características de la
distribución sin necesidad de generar el
gráfico. 33
34. Simetría y Asimetría
• Si los valores de la serie de datos presentan
la misma tendencia (forma) a izquierda y
derecha de un valor central como la media
aritmética, se dice que es simétrica de lo
contrario será asimétrica.
• Para medir el nivel de asimetría se utiliza el
llamado Coeficiente de Asimetría de Fisher,
que viene definido:
n
(1 / n)(∑ ( xi − x ) 3
g1 = i =1
s3
34
35. Simetría y Asimetría
Los resultados pueden ser los siguientes:
• g1 < 0 (distribución asimétrica
negativa; existe mayor
concentración de valores a la
izquierda de la media que a su
derecha)
• g1 = 0 (distribución simétrica;
existe la misma concentración de
valores a la derecha y a la
izquierda de la media)
• g1 > 0 (distribución asimétrica
positiva; existe mayor
concentración de valores a la
derecha de la media que a su
izquierda)
35
36. Curtosis
• El Coeficiente de Curtosis analiza el grado de
concentración que presentan los valores
alrededor de la zona central de la distribución.
• Se calcula con la siguiente fórmula :
n
(1 / n)(∑ ( xi − x ) 4
g2 = i =1
4
−3
s
• Los resultados pueden ser :
g2 = 0 (distribución mesocúrtica).
g2 > 0 (distribución leptocúrtica).
g2 < 0 (distribución platicúrtica).
36
37. Curtosis
• Existen 3 tipos de distribuciones según su grado
de curtosis se observar de la siguiente forma :
37
38. Tipos de Curtosis
• Distribución mesocúrtica: presenta un grado de
concentración medio alrededor de los valores
centrales de la variable (el mismo que presenta
una distribución normal).
• Distribución leptocúrtica: presenta un elevado
grado de concentración alrededor de los valores
centrales de la variable.
• Distribución platicúrtica: presenta un reducido
grado de concentración alrededor de los valores
centrales de la variable.
38
39. Ejemplo práctico de Alfredo Casas
Se tiene información del consumo promedio de agua de
los huéspedes de un hotel según la temporada :
CONSUMO($)
MES PROMEDIO
POR HUESPED
ENERO 30
FEBRERO 45
MARZO 50
ABRIL 58
MAYO 65
JUNIO 110
JULIO 100
AGOSTO 120
SEPTIEMBRE 50
OCTUBRE 60
NOVIEMBRE 45
DICIEMBRE 35
TOTAL 768
39
40. Ejemplo práctico de Alfredo Casas
Ordenando los datos y con base
a las fórmulas y funciones de la CONSUMO PROMEDIO
hoja de Excel obtenemos los POR HUESPED
MES
siguientes resultados de las 30 ENERO
medidas centrales y de 35 DICIEMBRE
dispersión : 45 FEBRERO
Media : 64 45 NOVIEMBRE
Mediana : 54 50 MARZO
Moda : 45 50 SEPTIEMBRE
Rango : 30 – 120
58 ABRIL
Varianza : 809.33
Desviación Estándar : 28.45 60 OCTUBRE
Simetría : 0.98 65 MAYO
Curtosis : -0.32 100 JULIO
110 JUNIO
120 AGOSTO
768 TOTAL
40
41. Ejemplo práctico de Alfredo Casas
Interpretación :
• Cada huesped consume $ 64 en promedio por mes
• Los datos NO son simétricos , se desplazan ligeramente
hacia la derecha con un sesgo positivo , solo con ver que la
mediana es inferior a la media.
• Aunque la fórmula solo indica un dato de moda, tenemos dos
números que se repiten dos veces : 45 y 50 , por lo que la
distribución es de tipo bimodal.
• El rango de consumo es de 90 unidades , entre el límite
inferior de 30 y el superior de 120
• La desviación estándar no es grande comparativamente ,
lo que indica que los datos no se alejan tanto de la
media.
• El valor de simetría g1 > 0 , nos indica una distribución
asimétrica positiva porque existe mayor concentración de
valores a la derecha de la media que a su izquierda.
• En cuanto a la curtosis con valor de de -0.32 (g2 < 0 ) nos
confirma una distribución platicúrtica porque presenta un
reducido grado de concentración alrededor de los
valores centrales de la variable. 41
42. Gráfico del ejemplo de Alfredo
DISPERSION DE CONSUMO
140
120
100
CONSUMIDO
Desviación
MONTO
80
Estándar
Rango
Media
60 Mediana
40 Moda
20
0
1 2 3 4 5 6 7 8 9 10 11 12
MES
CONSUMO PROMEDIO POR HUESPED
Polinómica (CONSUMO PROMEDIO POR HUESPED)
42
43. BIBLIOGRAFÍA
1) Spiegel, Murray R. y Stephens, Larry J. (2001).
Estadística serie Schaum. México: McGraw-Hill, pp. 1 –
124
2) Domínguez, Jorge. (2009). Estadística y probabilidad. El
Mundo de los datos y el azar. México: Oxford University
Press. Unidad 3: Resumen y organización de datos, pp. 76
a 129.
43