2. El objetivo principal de la Inferencia Estadística consiste en
extraer conclusiones a partir de un conjunto de datos
observados. Por lo general estos datos proceden de una
muestra de individuos de una población, y el objetivo será
utilizar esta muestra para sacar conclusiones sobre la
población total.
Si X1, … , Xn son variables aleatorias independientes
siguiendo una misma distribución de probabilidad, se
dicen que constituyen una muestra procedente de la
misma distribución.
En concreto, los datos de la muestra son variables
aleatorias que tienen una misma distribución de
probabilidad común.
3. En la mayor parte de las aplicaciones, los parámetros
poblacionales no serán completamente conocidas, y se intentará
utilizar la muestra para hacer inferencia sobre ellos
Los valores µ y 2 se denominarán media poblacional y
varianza poblacional.
Sean X1, X2, … , Xn los valores de una muestra extraída
de una población . La media muestral se define como:
X 1 ... X n
X
n
Se puede demostrar que el valor esperado de la media
muestral es igual a la media poblacional, esto es:
E[ X ]
4. También se puede demostrar que la varianza de la distribución de
frecuencias de medias muestrales es:
2
Var ( X )
2
S
n
Estos dos últimos resultados son importantísimos para la
Inferencia Estadística debido a que la distribución de todas las
medias muestrales está centrada en la media poblacional, pero
su dispersión disminuye más y más a medida que el tamaño de
muestra aumenta.
La desviación estándar de la distribución de medias
muestrales es igual a la desviación estándar de la
población dividida por la raíz cuadrada del tamaño de la
muestra
2
S SD ( X )
n n
5. Teorema Central de Límite
Sean X1, X2, … Xn una muestra aleatoria
procedente de una población con media µ y
desviación estándar σ, la suma (y por
consiguiente también la media)
X1 + X2 + … + Xn
Sigue aproximadamente una distribución
normal con:
media µ
y desviación estándar
n
6. El Teorema Central de Límite ayuda a explicar el hecho
observable de que las frecuencias empíricas de un gran
números de poblaciones existentes en la naturaleza exhiben
una forma gaussiana
Francis Galton (1889): "Difícilmente
conozco algo tanto que alimente mi
imaginación como el maravilloso orden
cósmico que se deriva de la LEY DE
FRECUENCIAS DE LOS ERRORES. Si
los griegos hubieran conocido esta ley
seguro que la habrían endiosado. Reina
con seguridad en completa auto-
modestia entre la confusión más
salvaje. Cuando más vigentes están la
ley de la calle y la aparente anarquía,
más perfecto es su balanceo. Es la ley
suprema de la sinrazón".
7. En esta dirección de Internet se puede simular la
distribución de frecuencia de las medias muestrales,
tomado como base una población normal, uniforme o
sesgada. Para 10,000 repeticiones de extracción de
muestras de tamaño 20.
http://onlinestatbook.com/stat_sim/sampling_dist/in
dex.html
11. Si Z1, … , Zn son variables aleatorias normales estándar e
independientes (con media 0 y desviación estándar 1), la
variable aleatoria
n
Z
2
i
i 1
Se dice que es una variable aleatoria Chi-cuadrado con n
grados de libertad
12. Supongamos ahora que se tiene una muestra X1, … , Xn
procedente de una población normal con media µ y desviación
estándar σ.
Consideremos la varianza muestral:
2
n
Xi X
i 1
2
S
n 1
Entonces: 2
n
n 1 S 2 X i X
i 1
2 2
Sigue una distribución Chi-cuadrado con n -1 grados de
libertad
13.
14. Cuando se decide cuantificar sólo una parte de las unidades
de una población y a partir de esta información estimar sus
parámetros, entonces decimos que se ha planteado un
problema de muestreo
15. El muestreo es una herramienta de la investigación
científica, su función básica es determinar qué parte de la
realidad en estudio (población o universo) debe de
examinarse con la finalidad de hacer inferencias sobre el
TODO de la que procede.
Error de muestreo
Es el error que se comete debido al hecho de que se sacan
conclusiones sobre cierta realidad, a partir de la observación
de sólo una parte de ella
16. Se considera que el método de selección de la muestra tiene
un carácter estadísticamente riguroso cuando su diseño
cumplen las siguientes condiciones:
A cada elemento de la población, se le otorgue una
probabilidad conocida de integrar la muestra.
Y por supuesto, esta probabilidad no sea nula.
17. La nociones de muestra representativa y de muestra
probabilística suelen identificarse erróneamente, hay que
tener cuidado pues no son los mismos conceptos.
La noción de representatividad sólo tiene un alcance
intuitivo y se sintetiza de la manera siguiente:
“ lo que debe procurarse es que la muestra exhiba
internamente el mismo grado de diversidad que la
población”
18. Cuando las muestras, habiendo sido planificadas
probabílisticamente, pierden ese carácter en la fase del terreno.
En este caso puede introducirse un fuerte sesgo que descalifique
los resultados.
Situaciones que se presentan cuando se pretende detectar
diferencias, asociaciones, etcétera. En estos casos, el énfasis
debe ponerse en la comparatividad de los grupos, más que en la
representatividad que unos y otros exhiban en relación con las
respetivas poblaciones.
Cuando no se tiene acceso a una población de la cual extraer
la muestra, sino que se trabaja con los datos que se han
podido obtener y el proceso se invierte en cierto sentido: las
inferencias recaen sobre aquella población de la que se
supone que la muestra es representativa.
19. Suponiendo que se tiene una población bien definida de la
que se va a obtener una muestra, pueden mencionarse tres
formas básicas de selección no probabilística:
a) Muestreo semiprobabilístico: Es un procedimiento de tal
manera que el carácter probabilístico se mantiene sólo
hasta un punto del proceso de selección.
b) Muestreo por cuotas: La muestra debe de estar dispersa
por toda la población y ha de contener la misma proporción
de objetos o individuos con ciertas características que en la
población entera se han detectado o seleccionado.
c) Selección según criterio de autoridad: La muestra es
determinada mediante el criterio razonado de autoridades
en la materia que se estudia. En la aplicación de este
método, el investigador sopesa cuidadosamente los
elementos de la población (de los cuales debe de tener
suficiente información) para elegir aquellos que ha su juicio
pueden conformar el modelo de la realidad en estudio
dados los objetivos del trabajo a desarrollar.
20.
21. Se dice que el procedimiento de selección es un muestreo
simple aleatorio si el proceso que se sigue otorga a todo
subconjunto (muestra) de tamaño n de la población la misma
posibilidad de selección; en otras palabras, ninguna
combinación de n elementos tenga mayor probabilidad de ser
elegida que otra del mismo tamaño.
Para seleccionar aletoriamente los objetos que hay que
integrar a la muestra, primero hay que numerar los todos los
objetos de la población en forma secuencial desde 1 hasta N,
y con tablas de números aleatorios o software seleccionar n de
ellos.
22. Supongamos que en la población bajo estudio pueden
identificarse diferentes grupos cuya representación en la
muestra quisiera asegurarse
La manera natural de lograrlo es hacer listados separados para
dichos grupos y proceder a seleccionar submuestras en cada
uno de ellos. Con el marco muestral dividido, dentro de los
subconjuntos se seleccionan aleatoriamente las unidades de
análisis que formarán cada uno de ellos
23.
24. Supongamos que se tiene una población finita de N
elementos (unidades de análisis), la cual se ha dividido en
M subconjuntos (o conglomerados) cuyos tamaños son
De manera que:
25. Una muestra simple aleatoria por conglomerados
monoetápica de tamaño m de los M conglomerados
queda integrada por todas las unidades de análisis
contenidas en esos m subconjuntos. Si llamamos n al
tamaño de la muestra, se tiene que:
26. Conocido también con el nombre de submuestreo. Donde se
trata de seleccionar aleatoriamente un cierto número m de
subconjuntos (o conglomerados) y, dentro de cada uno de
ellos elegir aleatoriamente unidades de análisis.
27. Referencias:
INTRODUCCIÓN A LA ESTADÍSTICA
ROSS, SHELDON M. Editorial REVERTE
ISBN: 978-84-291-5039-1
MUESTREO PARA LA INVESTIGACION EN CIENCIA
DE LA SALUD
LUIS CARLOS SILVA AYÇAGUER, DIAZ DE SANTOS,
1993
ISBN 9788479780982