3. Introducción
La agrupación de datos
Cuando el número de clases o
categorías en un análisis de datos es
muy grande, digamos mayor a 25, la
tabla de distribución de frecuencias y
las gráficas podrían resultar poco
claras y/o imprácticas.
En este caso se recurre a la agrupación
de datos.
4. Introducción
Por ejemplo:
Si un conjunto de datos tiene valores entre cuarenta
y cien, las clases (xi) serían los números desde el 40
hasta el 100 y la gráfica de barras tendría
demasiadas columnas, dificultando el análisis de la
información.
En estos casos se recomienda agrupar los datos en
intervalos que pueden ser establecidos por diversos
métodos.
5. Introducción
Otro caso:
Si un conjunto de datos es continuo, es
decir, puede tomar valores fraccionarios
dentro de un rango dado, no es sencillo o
incluso no es posible determinar las
categorías.
En estos casos también se recurre a la
agrupación de datos.
7. Presentaciones
En estas cuatro presentaciones se construye una tabla
de distribución de frecuencias para datos agrupados,
paso por paso, mostrando detalladamente las
operaciones aritméticas necesarias para agrupar un
conjunto de datos en cierto número de intervalos.
8. Presentaciones
Las características de los intervalos se mostrarán
mediante un ejemplo. EL resultado final de este proceso
será una tabla similar a la que se muestra en la siguiente
diapositiva (sólo se muestra como ejemplo, no
corresponde a los datos proporcionados).
9.
10. Introducción
Después de
elaborar la tabla
estadística
anterior, se
trazan diversas
gráficas,
resultando
especialmente
importante el
histograma.
11. Presentaciones
Las características de los intervalos se mostrarán
mediante un ejemplo. EL resultado final de este proceso
será una tabla similar a la que se muestra en la siguiente
diapositiva (sólo se muestra como ejemplo, no
corresponde a los datos proporcionados).
12. Ejemplo
Los datos de las siguientes
diapositivas son los
promedios finales de 300
estudiantes de una escuela
de ingeniería.
Elabora la tabla estadística y
traza el histograma
correspondiente.
16. Intervalos Aparentes
El número de intervalos o clases que identificaremos con la
letra “c”, puede determinarse de diversas formas, todas ellas
son reglas empíricas y no leyes matemáticas, de modo que
siempre podemos establecer arbitrariamente el número de
intervalos de acuerdo con nuestras necesidades.
Una de las reglas más conocidas consiste en extraer la raíz
cuadrada del número de datos, en nuestro caso se emplearían
17 ó 18 intervalos:
𝑐 = 300 = 17.32
17. Intervalos Aparentes
Otra forma de obtener el número de intervalos es mediante
una regla empírica como la tabla siguiente:
Tamaño de la muestra o número de
datos
Número de
intervalos (c)
Menos de 50 De 5 a 7
Entre 50 y 99 De 6 a 10
100 a 250 De 7 a 12
250 o más De 10 a 20
18. Intervalos Aparentes
La que tal vez es la forma más conocida para establecer el
número de intervalos se llama “regla de Sturges”, propuesta
por el matemático alemán Herbert Sturges en 1926.
O en su forma simplificada con logaritmos decimales:
𝑐 = 1 + log2 𝑁
𝑐 = 1 + 3.322 log 𝑁
19. Intervalos Aparentes
Como dijimos antes, el número de intervalos o clases en que
agruparemos los datos se determina mediante reglas
empíricas y no leyes matemáticas, de modo que podemos
establecer dicho número de intervalos arbitrariamente.
Para este ejemplo emplearemos 10 clases o intervalos.
𝑐 = 10
20. Intervalos Aparentes
El procedimiento para establecer las clases o intervalos es:
1. Encontrar el valor máximo: 100
2. Encontrar el valor mínimo: 42
3. Calcular el rango: 100 – 42 = 58
4. Establecer la amplitud o ancho del intervalo, a veces
representado con una letra “w” por el nombre en inglés
“width”. A menos que se tenga una muy buena razón, es
importante emplear intervalos de la misma amplitud que
𝑐 = 10
21. Intervalos Aparentes
El procedimiento para establecer las
clases o intervalos es:
1. Encontrar el valor máximo: 100
2. Encontrar el valor mínimo: 42
3. Calcular el rango: 100 – 42 = 58
4. Establecer la amplitud o ancho
del intervalo… (siguientes tres
diapositivas)
22. Intervalos Aparentes
4. Establecer la amplitud o ancho del intervalo a veces
representado con una letra “w” por el nombre en inglés
“width”. A menos que se tenga una muy buena razón, es
importante emplear intervalos de la misma amplitud. Se
calcula sencillamente dividiendo el rango entre el número
de clases o intervalos:
Como los datos son enteros, se toma w entero: ¿5 ó 6?
23. Intervalos Aparentes
Ya disponemos de la información necesaria:
1. Encontrar el valor máximo: 100
2. Encontrar el valor mínimo: 42
3. Calcular el rango: 100 – 42 = 58
4. Determinar la amplitud de los intervalos: 58/10 = 5.8
Ahora podemos comenzar a construir los intervalos aparentes.
Vamos a tomar como amplitud del intervalo w = 5
24. Intervalos Aparentes
Construcción de los 10 intervalos aparentes
Existen muchas formas de llevar a cabo este paso, recuerda
que son solamente reglas empíricas de operaciones
aritméticas muy sencillas por lo que podemos seguir
cualquiera de ellas.
En primer lugar se elige un valor inicial que debe ser menor o
igual al valor mínimo de los datos, en este caso el valor
mínimo es 42, por lo que podemos tomar como valor inicial el
propio 42, pero también 41 ó 40.
Vamos a tomar como valor inicial el 40
25. Intervalos Aparentes
Este primer límite
inferior debe ser
menor o igual al valor
mínimo de los datos,
no existe ninguna
razón para que sea
40, sencillamente se
elige arbitrariamente.
Posteriormente
puede cambiarse si
es necesario.
26. Intervalos Aparentes
A partir de este primer límite inferior se calculan los restantes, sumando
la amplitud del intervalo w = 5 al valor anterior como se muestra:
27. Intervalos Aparentes
Antes de continuar
con el proceso
debemos verificar
que el último límite
inferior sea menor o
igual al valor máximo
de los datos (en este
caso es 100).
Observamos que sí
cumple la condición
ya que: 85 < 100.
Este valor debe
ser menor o
igual al valor
máximo:
94 ≤ 100
28. Intervalos Aparentes
Ahora vamos determinar el primer límite superior, sencillamente
restando una unidad al segundo límite inferior.
En este caso se resta
un entero porque los
datos son enteros,
pero si los datos tienen
una cifra decimal se
resta 0.1, si tienen dos
cifras decimales, 0.01 y
así sucesivamente.
29. Intervalos Aparentes
Este primer límite
superior también
debe cumplir un
requisito: debe ser
mayor o igual al valor
mínimo de los datos,
en nuestro caso 42.
Se cumple la
condición ya que,
efectivamente, 44 es
mayor que 42.
30. Intervalos Aparentes
Al igual que con los
límites inferiores,
vamos a sumar la
amplitud del
intervalo w = 5, a
cada límite superior,
como se muestra en
la tabla.
31. Intervalos Aparentes
Tal como sucedió con los
otros tres valores
extremos: primer límite
inferior, último límite
inferior y primer límite
superior; el último límite
superior también debe
cumplir una condición:
debe ser mayor o igual al
valor máximo de los
datos, y como podemos
observar, no cumple esta
condición, ya que 89 no
es mayor, ni igual a 100.
32. Intervalos Aparentes
Tal como sucedió con los
otros tres valores
extremos: primer límite
inferior, último límite
inferior y primer límite
superior; el último límite
superior también debe
cumplir una condición:
debe ser mayor o igual al
valor máximo de los
datos, y como podemos
observar, no cumple esta
condición, ya que 89 no
es mayor, ni igual a 100.
33. Intervalos Aparentes
Una de las condiciones necesarias para continuar con
el procedimiento no se cumplió, debemos corregir esta
situación cambiando alguno de los siguientes valores:
El primer límite inferior
La amplitud del intervalo w
Ajustando estos valores trataremos de obtener 10
intervalos de modo que se cumplan las 4 condiciones.
En último caso, si no se puede ajustar adecuadamente,
podemos cambiar el número de intervalos.
34. Intervalos Aparentes
Por ser lo más sencillo, probemos a cambiar el primer
límite inferior:
Sólo podemos aumentarlo en dos unidades para
cumplir con la condición de que debe ser menor o
igual al valor mínimo: Tomar como valor inicial 42.
Esto aumentaría el último límite superior en dos
unidades: 89 + 2 = 91
No es suficiente, ya que de cualquier modo, no se
cumple la condición de que el último límite superior
debe ser mayor o igual al máximo.
35. Intervalos Aparentes
Con la finalidad de mantener el número de intervalos
en diez, veamos que pasa si cambiamos la amplitud
del intervalo w:
Necesitamos un tamaño de intervalo más grande para
que el último límite superior aumente lo suficiente y
resulte mayor que el valor máximo.
Vamos a probar con la amplitud del intervalo w = 6
𝑤 =
𝑅
𝑐
𝑤 =
58
10
𝑤 = 5.8
36. Intervalos Aparentes
Vamos a rehacer la tabla de intervalos aparentes tomando
como primer límite inferior el mismo valor de 40, ya que
hemos aumentado la amplitud del intervalo y pensamos que
esto podría ser suficiente. Vamos a probar con la amplitud del
intervalo w = 6
Al elaborar la tabla debemos asegurarnos que se cumplan las
cuatro condiciones de que hemos estado hablando.
37. Intervalos Aparentes
Después de sumar 6
a cada límite inferior
para obtener el
siguiente verificamos
que se cumple la
segunda condición.
Dado que sí se
cumple, continuamos
con el proceso de
construcción de la
tabla.
38. Intervalos Aparentes
Obtenemos el primer
límite superior
restando una unidad
al segundo límite
inferior.
Observamos que
cumple con la
condición de ser
mayor o igual al
mínimo.
39. Intervalos Aparentes
Vamos sumando la
amplitud del
intervalo w = 6 a cada
límite superior para
obtener el siguiente.
Verificamos si el
último límite superior
es mayor o igual al
dato máximo.
40. Intervalos Aparentes
El último límite
superior no es mayor
al valor máximo de
los datos.
Debemos realizar
algún otro ajuste.
En este caso se trata
de algo sencillo;
vamos a aumentar el
primer límite inferior
en una o dos
unidades.
41. Intervalos Aparentes
El último límite
superior no es mayor
al valor máximo de
los datos.
Debemos realizar
algún otro ajuste.
En este caso se trata
de algo sencillo;
vamos a aumentar el
primer límite inferior
en una o dos
unidades.
42. Intervalos Aparentes
El último límite
superior no es mayor
al valor máximo de
los datos.
Debemos realizar
algún otro ajuste.
En este caso se trata
de algo sencillo;
vamos a aumentar el
primer límite inferior
en una o dos
unidades.
43. Intervalos Aparentes
Esta tabla contiene los intervalos
aparentes que cumplen con las 4
condiciones establecidas y será
utilizada como base para la siguiente
presentación:
Datos agrupados 2.