Minería convencional: datos importantes y conceptos
Estadistica.pptx...exposicion
1. Universidad NorOriental
Gran Mariscal de Ayacucho
Decanato de Postgrado
Maestría en Ingeniería de Mantenimiento
Mención: Gerencia de Seguridad y Confiabilidad Industrial
Cátedra: Estadística Aplicada
Integrantes:
Gineth Velásquez C.I:19.786.574
Yaneth Figuera C.I:19.786.673
Angelica Carreño C.I:19.630.007
Erika Páez C.I:84.248.131
El Tigre, Mayo 2016
Inferencias Referentes a Proporciones y
Análisis de Varianza
Facilitador: Lcda. Esp. MSc. Carlena Astudillo
2. Estadística Inferencial
Estimación de Parámetros
Estimación Bayesiana
Hipótesis Referente a una proporción
Hipótesis Referentes a varias proporciones
Análisis de tablas r x c
Bondad de Ajuste
Diseño completamente aleatorizados
Diseño con bloques aleatorizados
Comparaciones múltiples
Análisis de Covarianza
CONTENIDO
3. ESTADISTICA INFERENCIAL
Es una parte de la estadística que comprende los métodos y procedimientos mediante el
cual una muestra es analizada y con base en su información, se infiere, se deduce o se
concluye sobre lo que está sucediendo en una población.
Toma de muestras
Estimación de Proporciones
Pruebas de Hipótesis
Diseño Experimental
Estimación Bayesiana
Métodos no Paramétricos
Ing. Gineth Velásquez
4. ESTIMACIÓN DE PROPORCIONES
La estimación de una proporción permite identificar, a partir de una muestra, aquellos
elementos que posean alguna característica similar a la de una población.
La estimación de las proporciones poblacionales constituye una parte esencial en
muchos estudios donde se busca calcular la probabilidad de éxito o de fracaso con que
puede ocurrir un evento.
Características
Es un conjunto de técnicas que permiten dar un valor aproximado acerca de la medida de
una población a partir de los datos que nos proporciona previamente una muestra.
Ing. Gineth Velásquez
Aplicaciones
La estimación de proporciones se utiliza en muchos campos relacionados con los
negocios y las ciencias sociales. Un ejemplo donde frecuentemente tiene aplicación: El
departamento de producción de una empresa que fabrica calculadoras desea conocer la
proporción de artículos que saldrán defectuosos en cada proceso de producción.
5. ESTIMACIÓN PUNTUAL DE UNA PROPORCIÓN
En la estimación puntual de una proporción se busca, con base en los datos muestrales, un
único valor estimado para el parámetro. Viene dada por la siguiente formula:
proporción de los éxitos observados en la muestra.
: representa el número de éxitos que se puede obtener en una muestra.
: es el tamaño de la muestra.
Donde:
Si se conoce el valor de 𝑝,es decir, la proporción de éxitos en una muestra, automáticamente
se sabe el porcentaje de fracasos de la muestra. La fórmula para obtener una proporción de
los fracasos que se observa en una muestra es la siguiente:
Ing. Gineth Velásquez
𝑞
6. La proporción de la muestra p =x/n se utilizará como estimador puntual del parámetro P.
Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de 1, se puede establecer un
intervalo de confianza para P al considerar la distribución muestral de proporciones.
Al despejar P de esta ecuación nos queda:
Este despeje podemos observar que se necesita el valor del parámetro P y es precisamente lo que
queremos estimar, por lo que lo sustituiremos por la proporción de la muestra p siempre y cuando el
tamaño de muestra no sea pequeño.
Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el procedimiento del
intervalo de confianza que se establece aquí no es confiable, por tanto, no se debe utilizar. Para estar
seguro, se debe requerir que no ó nq sea mayor o igual a 5.
El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de que
esta diferencia no excederá .
Ing. Gineth Velásquez
ESTIMACIÓN POR INTERVALO DE UNA PROPORCIÓN
7. Solución:
n=500
p = 15/500 = 0.03
z(0.90) = 1.645
Ejemplo
Se sabe con un nivel de confianza del 90% que la proporción de bombillos defectuosos que
no pasan la prueba en esa población esta entre 0.0237 y 0.0376.
El intervalo buscado es 0.0237<P<0.0376
Ing. Gineth Velásquez
Un fabricante de bombillos utiliza un conjunto de pruebas amplias para evaluar la función
eléctrica de su producto. Todos los bombillos deben pasar todas las pruebas antes de
venderse. Una muestra aleatoria de 500 bombillos tiene como resultado 15 que fallan en
una o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los
bombillos de la población que no pasan todas las pruebas.
8. ESTIMACIÓN BAYESIANA
Características
Ing. Gineth Velásquez
La estimación bayesiana se basa en la interpretación subjetiva de la probabilidad, el
cual considera a ésta como un grado de creencia con respecto a la incertidumbre.
La estimación bayesiana utiliza aspectos del método científico, que implica
recolectar evidencia que se considera consistente o inconsistente con una hipótesis.
dada.
Es un tipo de inferencia estadística en la que las evidencias u observaciones se emplean
para actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta.
Aplicaciones
La estimación bayesiana es de progresivo interés y aceptación en distintas áreas,
son numerosas las aplicaciones de la estadística bayesiana que se están realizando,
por ejemplo, en el área financiera, el área de la salud, en el campo de ingeniería.
9. Dada una nueva evidencia, el teorema de Bayes ajusta las probabilidades de la misma de la
siguiente manera:
Definición Formal
Donde:
: representa una hipótesis, llamada hipótesis nula, que ha sido inferida antes de que la nueva
evidencia, E, resultara disponible.
Ing. Gineth Velásquez
ESTIMACIÓN BAYESIANA
: se llama la probabilidad a priori de
: se llama la probabilidad condicional de que se cumpla la evidencia E si la hipótesis es
verdadera. Se llama también la función de verosimilitud cuando se expresa como una
función de E dado
: se llama la probabilidad marginal de E: la probabilidad de observar la nueva evidencia
E bajo todas las hipótesis mutuamente excluyentes. Se la puede calcular como la suma del
producto de todas las hipótesis mutuamente excluyentes por las correspondientes
probabilidades condicionales: .
: se llama la probabilidad a posteriori de dado E.
10. HIPÓTESIS REFERENTE A UNA PROPORCIÓN
Ing. Gineth Velásquez
Las pruebas de hipótesis son necesarias en muchas áreas del conocimiento y en
especial en la administración e ingeniería.
Aplicaciones
Características
La hipótesis referente a una prueba depende de si el número de observaciones de la
muestra es grande o pequeño.
El objetivo de la hipótesis es evaluar las afirmaciones con respecto a una proporción (o
Porcentaje) de población.
Es un proceso que permite tomar una decisión entre dos hipótesis opuestas.
11. Ing. Gineth Velásquez
Se probara que la hipótesis nula es:
HIPÓTESIS REFERENTE A UNA PROPORCIÓN
La hipótesis estadística nula, simbolizada como 𝐻0 , es la hipótesis que se somete a prueba.
Donde:
La información que frecuentemente se utilizará para la estimación de una proporción real
o verdadera (porcentaje o probabilidad) es una proporción muestral.
Que se calcula de la siguiente manera:
De la misma forma muchas compañías podrían estimar las proporciones de muchas
transacciones. La hipótesis alterna puede ser una de las alternativas usuales: unilateral o
bilateral. Tales como:
: es el valor poblacional.
p
12. Ing. Gineth Velásquez
Ejemplo
Un fabricante de semiconductores produce controladores que se emplean en el sistema
eléctrico de vehículos. El cliente requiere que la proporción de controladores defectuosos no
sea mayor de 0.05, y que el fabricante demuestre estas características del proceso de
fabricación con este nivel de calidad, con un nivel de significancia del 5%. El fabricante de
semiconductores toma una muestra aleatoria de 200 dispositivos y encuentra que 4 de ellos
son defectuosos. ¿El fabricante puede demostrar al cliente la calidad exigida? Obtener sus
conclusiones.
Solución:
• Calcular la proporción muestral
• Para resolver el problema hay que plantear una hipótesis alternativa unilateral de una cola por la
izquierda.
• Es decir p< 0.05
• Para calcular el error estándar de la proporción.
p=0.05
q=0.95
Paso 1. Formulación de hipótesis
: p= 0.05 : La proporción de controladores defectuosos es 0.05
: p<0.05 : La proporción de controladores defectuosos es
menor a 0.05
13. Ing. Gineth Velásquez
Paso2. Calcular del Z critico
Paso 3. Calcular el Z de los datos, aplicando
la formula se tiene:
15. El objetivo es comparar la proporción de “éxito” en dos poblaciones independientes
Comparando dos proporciones
Para efectuar esta comparación se requiere
* Una Muestra aleatoria de tamaño n1 extraída de la población 1 con parámetro p1
* Una muestra aleatoria de tamaño n2 extraída de la población 2 con parámetro p2
Comparamos las dos proporciones haciendo inferencia sobre p1 – p2 , las diferencias
entre las dos proporciones poblacionales.
* Si las dos proporciones poblacionales son iguales , entonces p1 – p2 = 0
* El mejor estimador de p1 – p2 es la diferencia entre las dos proporciones
muestrales
Ing. Yaneth Figuera
Nula (Ho): Es aquella en la que se asegura que los dos parámetros
analizados son independientes uno del otro.
Alternativa (H1): Es aquella en donde se asegura que los dos parámetros
analizados si son dependientes
16. Muestras grandes Aleatorias independientes
Existen 3 tipos de muestras
0 por Ho
Ho : P1 = P2
H1 : P1 = P2
Ejemplo
La administración de una gran tienda cree, sobre la base de una investigación que
el porcentaje de hombres que visitan sus tiendas 9 o mas veces al mes (clientes
frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo.
Ing. Yaneth Figuera
17. Para probar esta información se toma una muestra de clientes hombres y se
identifica a 45 que visitan 9 o mas veces al mes la tienda y representan 58% del total,
luego se toma una muestra de mujeres y se encuentra que 71 son las clientes mas
frecuentes y representan el 42% del total .
*Utilice un nivel de significación de 0.05
Con los datos proporcionados probar esta hipótesis .
La información proporcionada es
nH= 45 nM=71
Especifica el nivel de especificación
pH = 0.58 pM= 0.42
pH – pM = 0.58 – 0.42 0.16
1.) Se formula la hipótesis
Ho: Ph- Pm = 0 la proporción de hombres que reportan 9 o mas visitas por mes es
la misma que la proporción de mujeres que hacen lo mismo.
H1 : Ph- Pm > 0 la proporción de hombres que reportan 9 o mas visitas por mes es
mayor a la proporción de mujeres que hacen lo mismo. Ing. Yaneth Figuera
18. 2.) Especifica el nivel de significación
de a= 0.05
el valor critico para la prueba de una
sola cola es de 1.64
Z a= -1,645
3.) Calculo estadístico de la prueba:
a.- Calculamos P (proporción ponderada)
pH= proporción muestral de hombres
pM= proporción muestral mujeres
nH=tamaño de muestra hombres
nM=tamaño muestra mujeres
Ing. Yaneth Figuera
19. b.- se estima el error estándar de la diferencia de las dos proporciones
P= proporción ponderada
nH=tamaño de muestral hombres
nM=tamaño muestral mujeres
P= 0.48
4.) Calculo el Z de la muestra
Z= (diferencia entre proporciones observadas) – (diferencia entre proporciones Ho)
Sph-m
Dif. Entre hipótesis observadas = pH – pM
H= 0.58
M= 0.42
Sph-m=o.01
Ing. Yaneth Figuera
20. 5.) La hipótesis nula no se rechaza, porque el valor de la Z calculada (1.60) es
menor que el valor critico Z (1.64)
Conclusión: La administración no puede concluir con un nivel de significancia del
nivel de 0.05, que la proporción de hombres que visita 9 o mas veces a la gran
tienda es mayor que la proporción de mujeres que hacen lo mismo.
Ing. Yaneth Figuera
21. Tablas de Contingencia: En estadística, se emplean para registrar y analizar la
asociación entre dos o más variables, habitualmente de naturaleza cualitativa
(nominales u ordinales)
Pueden ser usadas para estudios psicológicos, y en nuestro caso para una mejor
comprensión de la estadística.
Ejemplo
Supóngase que se tienen dos variables, la primera el género (hombre o mujer) y la
segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de
variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla
de contingencia para expresar la relación entre estas dos variables:
Ing. Yaneth Figuera
22. Hay situaciones en las que tenemos probabilidades de éxito cercanas
al cero o del uno en donde las proporciones pueden ser poco
representativas sobre el comportamiento dentro de los grupos.
Diestro Zurdo Total
Hombre 43 9 53
Mujer 44 4 48
Total 87 13 100
Frecuencias marginales
Gran Total
La tabla nos permite ver de un vistazo
que la proporción de hombres diestros es
aproximadamente igual a la proporción de
mujeres diestras
El grado de asociación entre dos variables se puede evaluar empleando distintos
coeficientes: el más simple es el coeficiente phi que se define por
X : Se deriva del test de Pearson
N : total de observaciones (cero a infinito)
μ== Estudio de diferencia de proporciones
2
Ing. Yaneth Figuera
23. Describe lo bien que se ajusta un conjunto de observaciones. Las medidas de
bondad en general resumen la discrepancia entre los valores observados y los valores
esperados en el modelo de estudio. Tales medidas se pueden emplear en el contraste
de hipótesis
Estas pruebas permiten verificar que la población de la cual proviene una muestra
tiene una distribución especificada o supuesta.
Permiten determinar si los datos disponibles se ajustan a una determinada distribución
Es posible predecir el comportamiento de la variable en estudio
Ing. Yaneth Figuera
24. Se basa en la comparación entre la frecuencia observada en un intervalo de clase y la
frecuencia esperada en dicho intervalo, calculada de acuerdo con la distribución teórica
considerada. Es decir, se trata de determinar si las frecuencias observadas en la muestra
están lo suficientemente cerca de las frecuencias esperadas bajo la hipótesis nula
formulada. Para aplicar esta prueba se debe agrupar las observaciones de la muestra en
intervalos de clase, preferiblemente del mismo tamaño.
Chi Cuadrado
Kolmogorov Smirnov (K-V)
Es un test no paramétrico que permite establecer si dos muestras se ajustan al
mismo modelo probabilístico, sirve para muestras grandes y muestras pequeñas; es
necesario determinar la frecuencia observada acumulada y la frecuencia teórica
acumulada; una vez determinadas ambas frecuencias, se obtiene el máximo de las
diferencias entre ambas.
Anderson - Darling
Esta Prueba no paramétrica es una modificación del test de Kolmogorov Smirnov,
donde se le da mas peso a las colas de la distribución que la prueba de K-S
Ing. Yaneth Figuera
25. Chi Cuadrado
Pasos
Tabla de contingencia
Genero SI NO
Femenino 50 25
Masculino 40 45
Ejemplo Uso del cinturón de Seguridad
Realizar una Hipótesis
Escribir la hipótesis nula y la
alternativa
Calcular el valor de
Determinar el valor de P y el grado de
libertad
Obtener el valor critico
Realizar una comparación entre el Chi
Cuadrado calculado y el valor critico
Interpretar la comparación
X
2
Ing. Yaneth Figuera
26. Ho: El uso del cinturón de seguridad es independiente del genero
H1: El uso del cinturón de seguridad no es independiente del genero
Tabla de Frecuencias Esperadas
Para calcular todos y cada uno de los valores de la tabla de frecuencia
esperadas se realiza
Realizar una Hipótesis
Escribir la hipótesis nula y la alternativa
Martha supone que el uso del cinturón de seguridad, en los conductores
esta relacionado con el genero.
Ing. Yaneth Figuera
27. Realizar las sumas por filas por columnas y la suma total
Usar la formula para obtener las frecuencias esperadas
Ing. Yaneth Figuera
28. Calcular el valor de 2
X
Para obtener el valor de Chi Cuadrado calculado se tiene la formula
50 25
40 45
Tabla de valores Observados Tabla de valores Esperados
42.1875 32.8125
47.8125 37.1875
Ing. Yaneth Figuera
29. Para calcular el grado de libertad (V) se realiza
V= (cantidad de filas – 1) (cantidad de columnas – 1)
Determinar el valor de P y el grado de libertad
50 25
40 45
Tabla de valores Observados
V= (2 – 1) (2 – 1) V= 1 (1) = 1
Nivel de Significancia
* Es el error que se puede cometer al rechazar la hipótesis nula siendo
verdadera
* Por lo general se trabaja con un nivel de significancia de 0.05 que indica que
hay una probabilidad del 0.95 de que la hipótesis nula sea verdadera
Martha supone que el uso del cinturón de seguridad, en los conductores, esta
relacionado con el genero. Los datos se muestran en la tabla siguiente. Martha realiza la
prueba con su conjetura o su suposición usando Chi Cuadrado con un nivel de
significancia del 1% Ing. Yaneth Figuera
30. Genero SI NO
Femenino 50 25
Masculino 40 45
Uso del cinturón de Seguridad
Entonces tiene un nivel de
significancia del 0.01
Valor del Parámetro p
* Para calcular el valor de p se realiza:
p = 1 – Nivel de significancia
p = 1 – 0.01 = 0.99
Tablas para
valores de Chi
Cuadrado
Critico
Obtener el valor critico
Ing. Yaneth Figuera
32. Realizar una comparación entre el Chi Cuadrado calculado y el valor
critico
• Si el valor de Chi Cuadrado Calculado es menor o igual que Chi Cuadrado
critico entonces se acepta la hipótesis nula, caso contrario no se la acepta .
Ejemplo
Entonces se acepta la hipótesis nula, la cual es “el uso del cinturón de
seguridad es independiente del genero”
Interpretar la comparación
Ing. Yaneth Figuera
33. Definición
Es el diseño en cual los tratamientos se asignan al azar entre las unidades
experimentales (UE) o viceversa, este diseño tienen amplia aplicación
cuando las unidades experimentales son muy homogéneas, es decir, la
mayoría de los factores actúan por igual entre las unidades experimentales.
Su nombre deriva del hecho que existe completamente una
aleatorizacion, la cual valida como la prueba de F de Fisher-Snedecor.
También se le conoce como Diseño de una vía o solo un criterio de
clasificación en virtud de que las respuestas se hallan clasificadas
únicamente por los tratamientos.
Diseño Completamente
Aleatorizado
Ing. Angelica Carreño
34. Aplicación
En experimentos de laboratorio donde casi todos los factores están
controlados.
También en ensayos clínicos y en experimentos industriales.
Ensayos de invernaderos.
Experimentos agrícolas.
Características
Este diseño no impone ninguna restricción en cuanto a las unidades
experimentales, deben ser en todo caso homogéneas .
El diseño en su estructura no se ve afectado por el numero igual o
desigual de observaciones por tratamiento.
Ing. Angelica Carreño
35. Modelo Aditivo Lineal
Es una expresión algebraica que condensa todos los factores presentes
en la investigación. Resulta útil para sintetizar que factores son
dependientes o independientes, cuales son fijos o aleatorios, cuales
son cruzados o anidados.
Para este diseño el modelo aditivo lineal es:
Ing. Angelica Carreño
36. Modelo I o Modelo de Efectos Fijos
Cuando los factores son fijos el investigador ha escogido los factores
en forma no aleatoria y solo esta interesado en ellos.
En este caso el investigador asume que lo cual refleja la
decisión del investigador que únicamente esta interesado en los t
tratamientos presente en el experimento.
Modelo II o Modelo de Efectos
Aleatorios o Modelo de Varianza
En este caso el investigador asume que los Ti tratamientos están
distribuidos normal e independientemente con media cero y varianza
sigma cuadrado, lo cual se abrevia así , lo que refleja la decisión
del investigador que solo esta interesado en una población de
tratamientos, de los cuales únicamente una muestra al azar (los t
tratamientos) están presentes en el experimento.
Ing. Angelica Carreño
37. Modelo Mixto
Hace referencia a aquellos casos en los cuales el investigador considera
tanto factores fijos como aleatorios en el experimento.
Representación Simbólica del Modelo
Completamente Aleatorizado
Ing. Angelica Carreño
38. Ejemplo
El proceso de distribución de los tratamientos azar en las unidades
experimentales se puede realizar una tabla de números aleatorios o
mediante un algoritmo computarizado de SAS.
Supongamos un experimento donde deseamos probar 4
tipos de diferentes mezclas, A,B,C y D cada una en una
proporción única para determinar su efecto sobre la
capacidad de aumento de peso en las plataformas. Se
desean realizar 5 repeticiones.
Se procede de la siguiente manera:
Se forman grupos homogéneos en cuanto a una variable (digamos en
este caso peso).
Cada grupo va a contener 4 plataformas .
Realizando el sorteo, mediante la tabla de números aleatorios puede
resultar así: Ing. Angelica Carreño
39. De esta forma quedan distribuidos los tratamientos
entre las unidades experimentales que en total son
5x4= 20 Plataformas.
El Balance existe en este caso cuando permitimos que
cada repetición (replicación), contenga todos los
tratamientos.
Ing. Angelica Carreño
40. Diseño con Bloques
Aleatorizado
Un diseño de bloques aleatorizados es un diseño que suele utilizarse para
minimizar el efecto de la variabilidad cuando está asociada con unidades
discretas (por ejemplo, ubicación, operador, planta, lote, tiempo). El caso
habitual consiste en aleatorizar una réplica de cada combinación de
tratamientos dentro de cada bloque.
Por lo general, no hay un interés intrínseco en los bloques y se considera
que son factores aleatorios. El supuesto habitual es que la interacción de
bloque y tratamiento es cero, y esta interacción pasa a ser el término de error
para probar los efectos del tratamiento. Si identifica a la variable de bloque
como Bloque, los términos presentes en el modelo serían Bloque, A, B y A*B.
También especificaría Bloque como un factor aleatorio.
Definición
Ing. Angelica Carreño
41. Características
Debe existir una variación máxima entre los bloques.
Debe existir una variación mínima entre las unidades
experimentales dentro del bloque.
Todos los tratamiento, se le aplican en todos los bloques.
Ejemplo
Se realizo un experimento para estudiar el
funcionamiento de cuatro diferentes detergentes quita
mancha. Las lectura de blancura (valor mayor= mas
limpio) se obtuvieron usando un equipo especial en tres
diferentes tipos de manchas comunes. Hay diferencia
significativa entre los detergentes?
Ing. Angelica Carreño
Utilizar bloques es una
forma de reducir y
controlar la varianza del
error experimental para
tener mayor precisión.
42. Diseño en cuadro latino
El diseño de cuadro latina se usa
para eliminar dos fuentes de
variabilidad que no interesa
estudiar por si mismas. Se hace
un bloque en dos direcciones.
Los renglones y las columnas
representan dos restricciones en
aleatorizacion.
Ing. Angelica Carreño
43. Un ingeniero industrial esta investigando el efecto de cuatro métodos de
ensamblado (A,B,C,D) en el tiempo de ensamblado de una componente de
televisión a color.
Selecciono a cuatro operadores para el estudio. Además, el ingeniero sabe que
cada método de ensamblado produce cierta fatiga, de tal manera que el tiempo
requerido para l ultimo ensamblado puede ser mayor que le tiempo requerido
para el primero, independientemente del método.
Para tomar en cuenta estas dos fuentes de variabilidad (operador, orden de
ensamblado) el ingeniero decide usar un Diseño de cuadro latino cuyos
resultados se presentan a continuación:
Ing. Angelica Carreño
44. Definiciones
Ing. Erika Páez
Variable Y
Variable Xp
Regresión
La Relación:
Si P = 1
Si P > 1
Regresión Lineal
Si las Variables explicativas (Y) son Categóricas en vez de
continuas
Entonces nos encontramos ante un caso típico de :
Análisis de Varianza
Es posible que en el mismo análisis aparezcan tanto variables explicativas continuas como
categóricas
y en este caso el análisis pasara a denominarse:
Análisis de la covarianza
ijiji (x )XYij
45. Análisis de Covarianza
Lograr dos Objetivos Específicos:
a) Eliminar cualquier error sistemático fuera del control del investigador que pueda sesgar los
resultados
b) Tener en cuenta las diferencias en las respuestas debidas a las características propias de
los encuestados.
Un sesgo sistemático puede
ser eliminado por medio de
la asignación aleatoria de
los encuestados a varios
tratamientos
El Objetivo de la Covarianza:
Eliminar cualquiera de los efectos que:
a) Influyan solamente a una parte de los encuestados
b) Varia entre los encuestados
El investigador utiliza una covarianza para
extraer cualquiera de las diferencias debidas
a estos factores antes de que los efectos del
experimento sean calculados. Este es el
segundo papel del analisis de la covarianza. Ing. Erika Páez
46. Ejemplo: (Montgomery)
Considere un estudio realizado para determinar si
existe diferencia en la resistencia de una fibra de
monofilamento producida por tres maquinas diferentes. Se sospecha que, la resistencia de la fibra
también se afecta por su grosor; por consiguiente, una fibra más gruesa será por lo general más
resistente que una delgada. Los datos de este experimento se muestran en la tabla (9.2). Es evidente
que para resolver el problema debemos realizar un análisis de covarianza con el objeto
Ing. Erika Páez
47. Ejemplo: (Montgomery)
que para resolver el problema debemos realizar un análisis
de covarianza con el objeto de eliminar el efecto del grosor (x) sobre
la resistencia (y). Suponiendo que la relación lineal entre la resistencia a la ruptura y el diámetro es
apropiada, el modelo es
El modelo de análisis de covarianza es una combinación de los modelos lineales empleados en el
análisis de regresión y análisis de varianza. Es decir, se tienen efectos de los tratamientos {αi},
como en el análisis de varianza de un solo factor, y un coeficiente de regresión β, como en una
ecuación de regresión.
Ing. Erika Páez
48. Análisis de Covarianza
Para describir el análisis se introduce la siguiente notación
En General S, T y E son las
Sumas de cuadrados y los dobles
productos para el total. Los
tratamientos y error
Ing. Erika Páez
50. Análisis de Covarianza
A continuación se indica la forma en que el análisis de
covarianza ajusta la variable respuesta para el efecto
de la covariable.
Estimadores de
mínimos cuadrados
Ing. Erika Páez
51. Por la ecuación anterior se encuentra que:
Ejemplo: (Montgomery)
suma de cuadrada
La suma de cuadrados del error
Parámetro de
regresión
Si la hipótesis es nula Ósea Ho= O la convariable
puede omitirse del estudio. Por lo tanto se
rechaza
Ing. Erika Páez
52. Ejemplo: (Montgomery)
Resumiendo que:
Para probar la hipótesis de que las maquinas difieren en la
resistencia a la ruptura de la fibra producida, es decir, H0 : αi = 0, por la ecuación (9.19) el
estadístico de prueba se calcula como
La estimación del coeficiente de regresión se calcula con
La hipótesis H0 : β = 0 puede probarse usando la ecuación. El estadístico de
prueba es
Ing. Erika Páez
53. Análisis:
Un supuesto básico en el análisis de covarianza es que los tratamientos no influyen en la covariable
x, ya que la técnica elimina el efecto de las variaciones en las ¯xi.. Sin embargo, si la variabilidad
en la ¯xi. se debe en parte a los tratamientos, entonces el análisis de covarianza elimina parte del
efecto de los tratamientos. Por lo tanto, deberá tenerse una seguridad razonable de que los
tratamientos no afectan los valores de xij .
Ejemplo (Scheffé)
Ing. Erika Páez
54. Comparaciones Múltiples
¿Qué son comparaciones múltiples?
Las comparaciones múltiples le permiten evaluar la significancia
estadística:
Como siempre, se rechaza la hipótesis nula de que no existe diferencia alguna entre las
medias si y solo si el intervalo de confianza no contiene cero.
Diferencias entre las medias utilizando:
Prueba de hipótesis:
Las comparaciones múltiples permiten establecer una información más exacta sobre la
importancia de cada uno de los niveles de la variable independiente.
Ing. Erika Páez
55. Comparaciones Múltiples
Situaciones Básicas
se refiere a la situación más común en la que el investigador, una vez realizado el Análisis de
Varianza y rechazada la H0 desea conocer entre qué medias hay diferencias no debidas al azar. Se
trata de las comparaciones no planificadas, a posteriori o post hoc
se refiere a cuando el investigador no está interesado en realizar un Análisis de Varianza para
probar todas las medias sino sólo en algunas comparaciones entre los niveles del factor, no en
todas las posibles y sabe de antemano qué comparaciones le interesan. Se trata de comparaciones
planificadas o a priori
Objetivo
Es, como parte del Análisis de Varianza, reducir la cantidad de error Tipo I que cometeríamos si
comparásemos dos a dos todas las muestras, por lo tanto, aunque comparemos las muestras dos a
dos, no recurrimos a la prueba t estudiada en temas precedentes, sino que aplicaremos pruebas
específicas que aprovechan los resultados del Análisis de Varianza y que nos aseguran que no se
incrementa el error de tipo I (α).
Ing. Erika Páez
56. Comparaciones Múltiples
¿Cuál método de comparaciones múltiples
debería utilizar?
La selección del método de comparación múltiple apropiado depende de la inferencia que desee
Ing. Erika Páez
57. Comparaciones Múltiples
¿Cuáles medias debería comparar?
Es importante considerar cuáles medias se compararán
cuando se utilizan comparaciones múltiples; una elección incorrecta puede tener como resultado
intervalos de confianza que no son lo que usted espera.
COMPARACIONES NO PLANIFICADAS, A POSTERIORI O POST HOC
son aquellas, como hemos dicho, que se deciden después de que el investigador haya obtenido los
resultados del Análisis de Varianza, rechazando la hipótesis nula. Aunque existen distintas técnicas
para realizar estas comparaciones, aquí vamos a estudiar sólo una de ellas: la prueba de comparaciones
múltiples de Scheffé, que es una de las más utilizadas.
Prueba de comparaciones múltiples de Scheffé.
Esta prueba fija la tasa de error de tipo I en el α al que estemos trabajando, sin aumentarlo en todas
las posibles comparaciones que realicemos, y obtiene un valor al que llama diferencia mínima o rango
crítico (Critical Range de Scheffé) por encima de la cual diremos que hay diferencias entre las
medias o entre los grupos de medias que estemos comparando. Esta diferencia mínima se calcula
según la fórmula:
Ing. Erika Páez
58. F.V. S.C. g.l M.C. F
Estadístico
de contraste
13.28 1-1 27.99/2=
13.95
2.91
Ejemplo (Scheffé)
Retomando el ejemplo anterior tenemos que:
Medidas a
comparar
Al comparar las medias ajustadas con las medias no ajustadas de los tratamientos (las ¯yi.), se
observa que las medias ajustadas se encuentran mucho más próximas entre si, una indicación más de
que el análisis de covarianza fue necesario. Ing. Erika Páez
59. Análisis:
Ejemplo (Scheffé)
F.V. S.C. g.l M.C. F
Estadístico
de pruebas
13.28 1-1 2.54 70.08
Si acudimos a las tablas de la distribución F, el valor crítico para 2.91 y 70.08 grados de
libertad, trabajando con un nivel de confianza del 95%, es 3.13
Ahora bien, ¿entre qué pares de medias está la diferencia que hace que rechacemos la hipótesis
nula?
Si aplicamos la prueba de comparaciones múltiples de Scheffé
a):
b): Calculamos CRScheffé =
Ing. Erika Páez
60. Análisis:
Ejemplo (Scheffé)
Comparando nuestro resultado
con el de las tablas vemos que el
estadístico de contraste es
menor al nivel crítico (295 <
3,13) por lo que rechazaremos la
H0 de igualdad de medias
Ing. Erika Páez
61. Ejemplo (Scheffé)
Esta es la diferencia mínima o rango crítico
(Critical Range de Scheffé), por encima de la cual diremos
que hay diferencias entre las medias o entre los grupos de medias que estemos comparando. Por lo
tanto, realizamos las comparaciones:
Como vemos, la única diferencia significativa (responsable de que hayamos rechazado la hipótesis
nula del análisis de varianza) se da entre los grupos 2 y 3 ya que la diferencia de medias entre estos
dos grupos supera el valor del CR de Scheffé.
Ing. Erika Páez
62. La estimación de proporciones permiten determinar un valor aproximado de
un parámetro de una población a partir de los datos proporcionados por
una muestra .
La estimación bayesiana se basa en la que las evidencias u observaciones se
emplean para actualizar o inferir la probabilidad de que una hipótesis pueda ser
cierta.
Las prueba de hipótesis se utilizan para determinar si existe suficiente evidencia en
una muestra de datos para inferir que cierta condición es válida para toda la
población.
El análisis de las tablas de contingencia se emplean para registrar y analizar la
asociación entre dos o más variables, habitualmente de naturaleza cualitativa.
Las pruebas de bondad de ajuste permiten verificar que la población de la cual
proviene una muestra tiene una distribución especificada o supuesta.
63. El diseño completamente aleatorizados se utiliza en la asignación de los
tratamientos en forma completamente aleatoria a las unidades experimentales .
El diseño de bloques aleatorizados sirve para minimizar el efecto de la variabilidad
cuando está asociada con unidades discretas.
Las comparaciones múltiples permiten evaluar la significancia estadística de las
diferencias entre las medias utilizando un conjunto de intervalos de confianza, un
conjunto de pruebas de hipótesis o ambos.
El análisis de covarianza se emplea cuando no se puede controlar una mas variables
extrañas.