SlideShare una empresa de Scribd logo
1 de 12
María Romualda López
               Hernández
  Instituto tecnológico superior
   de la sierra negra de Ajalpan
          ESTADÍSTICA II
             Unidad II conceptos
               Ingeniería en
               administración
            4° SEMESTRE




     Pruebas de la bondad del ajuste y análisis de
                      Varianza
2.1 Análisis Ji-Cuadrada

2.1.1 Prueba de independencia
2.1.2 Prueba de la bondad del ajuste

2.1.3 Tablas de contingencia

2.2 Análisis de varianza

2.2.1 Inferencia sobre una varianza de población (Anova).

2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova).

2.3 Software de aplicación
2.- Análisis Ji-cuadrada

Cuando      los   datos     son    de   tipo      categórico,    puede       utilizarse     la
Ji      cuadrada       para      determinar         lo      significativo         de        las
Diferencias           entre            dos              grupos              independientes.
La     medida    implicada      puede    ser      tan    débil    como        una       escala
Nominal.


La      prueba      plantea      que       los      grupos      difieren     en      algunas
Características y por tanto respecto a la frecuencia relativa con que los miembros de los
grupos                 caen                  dentro                 de              algunas
categorías.
Para     probar    esta     hipótesis,    contamos      el    número     de    casos     de
cada       grupo       que      caen        en      las      distintas    categorías      y
comparamos la proporción de casos de un grupo en las distintas variables, con la
proporción     de     casos    del     otro     grupo     en     las   mismas     variables.


Si     las    proporciones       no     son     las    mismas, entonces  no      hay
interacción;       en         caso        contrario,      hay    una     interacción
El centro de la prueba se ubica en si las diferencias en las
proporciones        excede          a       aquellasesperadas   por     oportunidad
o por desviaciones al azar de la proporcionalidad.

No siempre los datos a analizar provienen de mediciones, es decir, hay ocasiones en que se
necesita analizar variables discretas y estas necesitan un trato diferente de las variables
continuas.
   Algunos ejemplos podrían ser:

       Clasificación de palmas en compactas, súper compactas, normales.
       Clasificación de individuos en muertas, enfermas, sanas.
       Clasificación de individuos por colores.
       Clasificación de individuos en hembras y machos.




                2.1.1 Prueba de independencia
La independencia de dos variables consiste en que la distribución de una de las variables es
similar sea cual sea el nivel que examinemos de la otra. Esto se traduce en una tabla de
contingencia en que las frecuencias de las filas (y las columnas) son aproximadamente
proporcionales. Posiblemente sea más cómodo reconocerlo usando en la tabla de
contingencia los porcentajes por filas (o columnas) y observando si estos son similares.

La prueba de independencia ji-cuadrado (chi-cuadrado) contrasta la hipótesis de que las
variables son independientes, frente a la hipótesis alternativa de que una variable se
distribuye de modo diferente para diversos niveles de la otra.

En la siguiente tabla se muestra el estudio con escolares de 10 a 12 años se les pregunto a
que dan más prioridad de entre 3 posibilidades: tener buenas notas, destacar en los deportes
o ser popular entre los compañeros.

                                         prioridad
                                deportes       notas            Popular         Total
sexo            niña            17             101              75              193
                Niño            51             95               38              184
total                           68             196              113             377


Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y
B, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las
frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de
contingencia. Los datos se disponen de la forma siendo nij el número de individuos que
presentan simultáneamente la i-ésima modalidad del carácter A y la j-ésima del B.

La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma
independiente en los individuos de la población de la cual se extrae la muestra; siendo la
alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba
requiere el cálculo del estadístico donde: y son las frecuencias absolutas marginales y el
tamaño muestra total.

El estadístico L se distribuye como una con (a - 1) (b - 1) grados de libertad. El contraste se
realiza con un nivel de significación del 5%.




          2.1.2 Prueba de la bondad del ajuste

Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una
determinadadistribución, esta distribución puede estar completamente especificada
(hipótesis simple) operteneciente a una clase paramétrica (hipótesis compuesta).
Test Â2 Están diseñados para variables aleatorias discretas con un número finito de valores,
siesto no ocurriese los valores de la variable se agrupan en un número finito de clases.

1. Hipótesis nula simple H0: X ´ F0

Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en las
clasesC1;Ck, seaOi = no de individuos de la muestra en la clase Ci y sea pi = P(X 2 Ci).

Con esta formulación lo que se contrasta es

H0: pi = PF0(X 2 Ci) = p0 i 8i y se puede hacer por dos procedimientos: mediante el
estadístico de la razón de verosimilitudes

o mediante el estadístico de Pearson.

Ambos procedimientos se basan en la comparación de la frecuencia observada en cada
claseOi con la frecuencia esperada bajo la hipótesis nula Ei = np0

i = no de individuos esperadosen la clase Ci, bajo H0; si esta fuese cierta no deberían
presentarse grandes discrepancias.




                  2.1.3 Tablas de contingencia
En estadística las tablas de contingencia se emplean para registrar y analizar la relación
entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales).

Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la
segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables
en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia
para expresar la relación entre estas dos variables, del siguiente modo:

                                     Diestro Zurdo TOTAL
                              Hombre 43      9     52
                              Mujer 44       4     48
                              TOTAL 87       13    100

Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias
marginales y la cifra situada en la esquina inferior derecha es el gran total.

La tabla nos permite ver de un vistazo que la proporción de hombres diestros es
aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas
proporciones no son idénticas y la significación estadística de la diferencia entre ellas
puede ser evaluada con la prueba χ² de Pearson, supuesto que las cifras de la tabla son una
muestra aleatoria de una población. Si la proporción de individuos en cada columna varía
entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si
no existe asociación se dice que ambas variables son independientes.

El grado de asociación entre dos variables se puede evaluar empleando distintos
coeficientes: el más simple es el coeficiente phi que se define por

                                         φ = √(χ2 / N)

Donde:

χ2se deriva del test de Pearson.

N es el total de observaciones -el gran total.

Φ puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito.
A diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado.

Un método útil para clasificar los datos obtenidos en un recuento es mediante las tablas de
contingencia.

Se trata de tablas en cuyas celdas figuran probabilidades, y en la cual podemos determinar
unas probabilidades conociendo otras de la tabla.

Ejemplo

Se sortea un viaje a Roma entre los 120 mejores clientes de una agencia de automóviles. De
ellos, 65 son mujeres, 80 están casados y 45 son mujeres casadas. Se pide:

1¿Cuál será la probabilidad de que le toque el viaje a un hombre soltero?

2Si del afortunado se sabe que es casado, ¿cuál será la probabilidad de que sea una mujer?
2.2 ANÁLISIS DE VARIANZA
En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según
terminología inglesa) es una colección de modelos estadísticos y sus procedimientos
asociados, en el cual la varianza está particionada en ciertos componentes debidos a
diferentes variables explicativas.

Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y
genetistaR. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova
de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher
como parte del contraste de hipótesis.

Supónganse k muestras aleatorias independientes, de tamaño n, extraídas de una única
población normal. A partir de ellas existen dos maneras independientes de estimar la
varianza de la población 2:
1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la varianza
dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente
representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula
como la media de las k varianzas muéstrales (cada varianza muestral es un estimador
centrado de 2 y la media de k estimadores centrados es también un estimador centrado y
más eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de
cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los
términos independientes de la suma de cuadrados.




       2.2.1 Inferencia sobre una varianza de población
                           (Anova).
El análisis de varianza (anova) es uno de los métodos estadísticos más utilizados y más
elaborados en la investigación moderna. El análisis de la varianza, no obstante su
denominación se utiliza para probar hipótesis preferentes a las medias de población más
que a las varianzas de población. Las técnicas anovas se han desarrollado para el análisis de
datos en diseños estadísticos muy complicados.

Veamos cuando se tienen puntuaciones de CI en 5 muestras de adulto.

Grupos 1 2 3 4 5 102 103 100 108 121 2 15 12 12 14 10

Se aprecia que varían las medias de los grupos. Esta variación de las medias de grupo a
partir de la media total o global de todos los grupos, se conoce como varianza intergrupal,
la variabilidad promedio de las puntuaciones en cada grupo se denominan varianza
intergrupal. Ahora se colocan todas las puntuaciones de CI en una gran urna y se mezclan
en forma adecuada. Puede desentenderse por el momento cuáles puntuaciones pertenecen a
que grupos. Estas puntuaciones varían. La variación de estas puntuaciones individuales se
denomina variación total. El meollo del análisis de varianza radica en el siguiente hecho: si
los grupos son muestras aleatorias provenientes de la misma población, las varianzas,
intergrupal e intergrupal, son estimaciones insesgadas de la misma varianza poblacional. Se
prueba la significación de la diferencia de los 2 tipos mediante la prueba F.

Supuestos que fundamentan la aplicación de análisis de varianza.

Cuando se utiliza la técnica anova se deben cumplir los siguientes supuestos:

Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio,
a partir de poblaciones normalmente distribuidas. La varianza de los subgrupos debe ser
homogénea.

Las muestras que constituyen los grupos deben ser independientes. Amenos de que las
muestras sean independientes, y que por lo tanto, generen estimaciones de varianza
independientes, la razón de las varianzas inter e intra no adoptará la distribución F.




    2.2.2 Inferencia sobre la varianza de dos poblaciones
                           (Anova).
De manera que, si las varianzas poblacionales son iguales, dicha razón es 1 y podríamos
afirmar que las dos poblaciones tienen una distribución homogénea; es decir, los datos se
encuentran igualmente dispersos. Una forma clara de interpretación de la importancia de la
homogeneidad de varianzas se puede apreciar en el siguiente ejemplo:



Supongamos que estamos comparando el rendimiento promedio de los alumnos de una
asignatura dividida en dos secciones, cada una de las cuales están asignadas a diferentes
profesores. Podría ocurrir que el rendimiento promedio de ambas secciones sea la misma;
pero sin embargo, las notas pueden tener diferente variabilidad.




Observe las dos curvas en el siguiente gráfico. Las dos tienen el mismo promedio, pero, por
la forma de la campana, tienen diferente varianza.



Esto justifica la necesidad de establecer una prueba de hipótesis para una razón de
varianzas, a fin de comprobar si ellas son homogéneas o no.



Una aplicación de esta razón podría ser bastante significativa en un caso en el que las
medias no son muy explicativas.



Por otro lado, así como se realiza inferencia sobre la estimación y prueba de hipótesis de la
diferencia de medias o proporciones muestrales en el caso de dos poblaciones, así también
podemos plantear el estudio de la razón de las varianzas de dos poblaciones definiendo al

parámetro q como                    y su estimador               . Este estudio lo haremos
tomando en cuenta el intervalo de confianza y la prueba de hipótesis para q.
Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extraída a partir una población N(m1,
s1²) y se Y1, Y2, ..., Yn2 una muestra aleatoria extraída a partir una población N(m2, s2²).
Pruebas de la bondad del ajuste y análisis de Varianza


Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una
determinadadistribución, esta distribución puede estar completamente especificada
(hipótesis simple) operteneciente a una clase paramétrica (hipótesis compuesta).

Test Â2 Están diseñados para variables aleatorias discretas con un número finito de valores,
siesto no ocurriese los valores de la variable se agrupan en un número finito de clases.

1. Hipótesis nula simple H0: X ´ F0

Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en las
clasesC1;Ck, seaOi = no de individuos de la muestra en la clase Ci y sea pi = P(X 2 Ci).

Con esta formulación lo que se contrasta es

H0: pi = PF0(X 2 Ci) = p0 i 8i y se puede hacer por dos procedimientos: mediante el
estadístico de la razón de verosimilitudes

o mediante el estadístico de Pearson.

Ambos procedimientos se basan en la comparación de la frecuencia observada en cada
claseOi con la frecuencia esperada bajo la hipótesis nula Ei = np0
i = no de individuos esperadosen la clase Ci, bajo H0; si esta fuese cierta no deberían
presentarse grandes discrepancias.

Más contenido relacionado

La actualidad más candente

14 prueba chi cuadrado
14 prueba chi cuadrado14 prueba chi cuadrado
14 prueba chi cuadrado
Yerko Bravo
 
F:\planteamiento de hipótesis en mas de dos poblaciones
F:\planteamiento de hipótesis en mas de dos poblacionesF:\planteamiento de hipótesis en mas de dos poblaciones
F:\planteamiento de hipótesis en mas de dos poblaciones
Lizeth
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
TATHYYYYY
 
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
María Isabel Bautista
 
Chi Cuadrado
Chi CuadradoChi Cuadrado
Chi Cuadrado
aramirez
 
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
guest8a3c19
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
Carlos Becerra
 

La actualidad más candente (20)

Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricas
 
14 prueba chi cuadrado
14 prueba chi cuadrado14 prueba chi cuadrado
14 prueba chi cuadrado
 
Ejemplo resuelto anova
Ejemplo resuelto anovaEjemplo resuelto anova
Ejemplo resuelto anova
 
F:\planteamiento de hipótesis en mas de dos poblaciones
F:\planteamiento de hipótesis en mas de dos poblacionesF:\planteamiento de hipótesis en mas de dos poblaciones
F:\planteamiento de hipótesis en mas de dos poblaciones
 
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
 
Coef Contingencia
Coef ContingenciaCoef Contingencia
Coef Contingencia
 
Estadística II (I Bimestre)
Estadística II (I Bimestre)Estadística II (I Bimestre)
Estadística II (I Bimestre)
 
Entregar pruebas de bondad de ajuste
Entregar pruebas de bondad de ajusteEntregar pruebas de bondad de ajuste
Entregar pruebas de bondad de ajuste
 
Pruebas de bondad de ajuste vfinal
Pruebas de bondad de ajuste vfinalPruebas de bondad de ajuste vfinal
Pruebas de bondad de ajuste vfinal
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Tb23 2012 3-prueba_de_chi_cuadrada
Tb23 2012 3-prueba_de_chi_cuadradaTb23 2012 3-prueba_de_chi_cuadrada
Tb23 2012 3-prueba_de_chi_cuadrada
 
Análisis de Varianza
Análisis de VarianzaAnálisis de Varianza
Análisis de Varianza
 
Deber chi cuadrado
Deber chi cuadradoDeber chi cuadrado
Deber chi cuadrado
 
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
Prueba De HipóTesis Para Dos Medias De PoblacióN (Muestras Grandes)
 
Chi Cuadrado
Chi CuadradoChi Cuadrado
Chi Cuadrado
 
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
Planteamiento de hipotesis en mas de dos poblaciones (ji cuadrada)
 
Estadistica 8
Estadistica 8Estadistica 8
Estadistica 8
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
 
Chi cuadrada
Chi cuadradaChi cuadrada
Chi cuadrada
 
Prueba t varianzas combinadas
Prueba t varianzas combinadasPrueba t varianzas combinadas
Prueba t varianzas combinadas
 

Destacado

Tecnopolítica e innovación: Nuevos escenarios, actores y relaciones. Presenta...
Tecnopolítica e innovación: Nuevos escenarios, actores y relaciones. Presenta...Tecnopolítica e innovación: Nuevos escenarios, actores y relaciones. Presenta...
Tecnopolítica e innovación: Nuevos escenarios, actores y relaciones. Presenta...
Imma Aguilar Nàcher
 
Presentación placa base y redes
Presentación placa base y redesPresentación placa base y redes
Presentación placa base y redes
hector102
 
Bill gatesdicea losadolescentes12
Bill gatesdicea losadolescentes12Bill gatesdicea losadolescentes12
Bill gatesdicea losadolescentes12
Juan Russo
 
A2 fr06 inventario de material bibliografico
A2 fr06 inventario de material bibliograficoA2 fr06 inventario de material bibliografico
A2 fr06 inventario de material bibliografico
iejcg
 
Programa de mejoramiento de arroz de Embrapa Brasil
Programa de mejoramiento de arroz de Embrapa BrasilPrograma de mejoramiento de arroz de Embrapa Brasil
Programa de mejoramiento de arroz de Embrapa Brasil
CIAT
 

Destacado (20)

Drush – Das Sackmesser für die Kommandozeile
Drush – Das Sackmesser für die KommandozeileDrush – Das Sackmesser für die Kommandozeile
Drush – Das Sackmesser für die Kommandozeile
 
Magisterio Encuentro Educared
Magisterio Encuentro EducaredMagisterio Encuentro Educared
Magisterio Encuentro Educared
 
K jackson medical terminology chapter 11
K jackson medical terminology chapter 11K jackson medical terminology chapter 11
K jackson medical terminology chapter 11
 
11813118 dogma-y-ritual-de-la-alta-magia-completo-eliphas-levi-130704185804-p...
11813118 dogma-y-ritual-de-la-alta-magia-completo-eliphas-levi-130704185804-p...11813118 dogma-y-ritual-de-la-alta-magia-completo-eliphas-levi-130704185804-p...
11813118 dogma-y-ritual-de-la-alta-magia-completo-eliphas-levi-130704185804-p...
 
Tecnopolítica e innovación: Nuevos escenarios, actores y relaciones. Presenta...
Tecnopolítica e innovación: Nuevos escenarios, actores y relaciones. Presenta...Tecnopolítica e innovación: Nuevos escenarios, actores y relaciones. Presenta...
Tecnopolítica e innovación: Nuevos escenarios, actores y relaciones. Presenta...
 
Nokia Asha 210 - Es
Nokia Asha 210 - EsNokia Asha 210 - Es
Nokia Asha 210 - Es
 
Cartel coaching madrid lucia
Cartel coaching madrid luciaCartel coaching madrid lucia
Cartel coaching madrid lucia
 
Bay Talkitec Next Gen Vas Platform
Bay Talkitec Next Gen Vas PlatformBay Talkitec Next Gen Vas Platform
Bay Talkitec Next Gen Vas Platform
 
2012 Crestron Integration Award Winners
2012 Crestron Integration Award Winners2012 Crestron Integration Award Winners
2012 Crestron Integration Award Winners
 
Jingu kid Case Study
Jingu kid Case StudyJingu kid Case Study
Jingu kid Case Study
 
Presentación placa base y redes
Presentación placa base y redesPresentación placa base y redes
Presentación placa base y redes
 
Absoluta volta antella
Absoluta volta antellaAbsoluta volta antella
Absoluta volta antella
 
Bill gatesdicea losadolescentes12
Bill gatesdicea losadolescentes12Bill gatesdicea losadolescentes12
Bill gatesdicea losadolescentes12
 
A2 fr06 inventario de material bibliografico
A2 fr06 inventario de material bibliograficoA2 fr06 inventario de material bibliografico
A2 fr06 inventario de material bibliografico
 
Sistema de organizacion, necesidad de la implicacion de la direccion
Sistema de organizacion, necesidad de la implicacion de la direccion Sistema de organizacion, necesidad de la implicacion de la direccion
Sistema de organizacion, necesidad de la implicacion de la direccion
 
Infoblatt entwicklung-und-projektionen
Infoblatt entwicklung-und-projektionenInfoblatt entwicklung-und-projektionen
Infoblatt entwicklung-und-projektionen
 
Programa de mejoramiento de arroz de Embrapa Brasil
Programa de mejoramiento de arroz de Embrapa BrasilPrograma de mejoramiento de arroz de Embrapa Brasil
Programa de mejoramiento de arroz de Embrapa Brasil
 
Acta grupo libro digital (2ª reunión)
Acta grupo libro digital (2ª reunión)Acta grupo libro digital (2ª reunión)
Acta grupo libro digital (2ª reunión)
 
GLOBAL ASSET INTEGRITY, MAINTENANCE & INSPECTION MANAGEMENT SUMMIT 2016
GLOBAL ASSET INTEGRITY, MAINTENANCE & INSPECTION MANAGEMENT SUMMIT 2016GLOBAL ASSET INTEGRITY, MAINTENANCE & INSPECTION MANAGEMENT SUMMIT 2016
GLOBAL ASSET INTEGRITY, MAINTENANCE & INSPECTION MANAGEMENT SUMMIT 2016
 
2w guia de_recomendacoes_de_seguranca
2w guia de_recomendacoes_de_seguranca2w guia de_recomendacoes_de_seguranca
2w guia de_recomendacoes_de_seguranca
 

Similar a Segunda unidad de estadistica

Planteamiento de hipótesis en más de dos poblaciones
Planteamiento de hipótesis en más de dos poblacionesPlanteamiento de hipótesis en más de dos poblaciones
Planteamiento de hipótesis en más de dos poblaciones
guest91e7e85
 
Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1
guest0e7a0f7
 
Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1
guest0e7a0f7
 
analisis-parametricos-y-no-parametricos.ppt
analisis-parametricos-y-no-parametricos.pptanalisis-parametricos-y-no-parametricos.ppt
analisis-parametricos-y-no-parametricos.ppt
eduyagkug
 
Pruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSSPruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSS
Jairo Acosta Solano
 

Similar a Segunda unidad de estadistica (20)

Resumen de estadistica ii
Resumen de  estadistica iiResumen de  estadistica ii
Resumen de estadistica ii
 
SERIES BIDIMENSIONALES Y CRONOLÓGICAS
SERIES BIDIMENSIONALES Y CRONOLÓGICASSERIES BIDIMENSIONALES Y CRONOLÓGICAS
SERIES BIDIMENSIONALES Y CRONOLÓGICAS
 
Chi cuadrado
Chi cuadradoChi cuadrado
Chi cuadrado
 
Planteamiento de hipótesis en más de dos poblaciones
Planteamiento de hipótesis en más de dos poblacionesPlanteamiento de hipótesis en más de dos poblaciones
Planteamiento de hipótesis en más de dos poblaciones
 
Pruebasdebondaddeajuste 151127221517-lva1-app6891
Pruebasdebondaddeajuste 151127221517-lva1-app6891Pruebasdebondaddeajuste 151127221517-lva1-app6891
Pruebasdebondaddeajuste 151127221517-lva1-app6891
 
Tabla de datos categóricos
Tabla de datos categóricosTabla de datos categóricos
Tabla de datos categóricos
 
Analisis parametricos-y-no-parametricos
Analisis parametricos-y-no-parametricosAnalisis parametricos-y-no-parametricos
Analisis parametricos-y-no-parametricos
 
Analisis parametricos-y-no-parametricos
Analisis parametricos-y-no-parametricosAnalisis parametricos-y-no-parametricos
Analisis parametricos-y-no-parametricos
 
Metodo parametrico y no parametrico
Metodo parametrico y no parametricoMetodo parametrico y no parametrico
Metodo parametrico y no parametrico
 
Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1
 
Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1Investigacion hipotesis (ji) rest 1
Investigacion hipotesis (ji) rest 1
 
analisis-parametricos-y-no-parametricos.ppt
analisis-parametricos-y-no-parametricos.pptanalisis-parametricos-y-no-parametricos.ppt
analisis-parametricos-y-no-parametricos.ppt
 
Pruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSSPruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSS
 
SPSS pruebas no parametricas
SPSS pruebas no parametricasSPSS pruebas no parametricas
SPSS pruebas no parametricas
 
Investigacion unidadii
Investigacion unidadiiInvestigacion unidadii
Investigacion unidadii
 
Investigacion unidad II
Investigacion unidad IIInvestigacion unidad II
Investigacion unidad II
 
Investigacion unidad II
Investigacion unidad IIInvestigacion unidad II
Investigacion unidad II
 
Investigacion unidadii
Investigacion unidadiiInvestigacion unidadii
Investigacion unidadii
 
ESTADISTICA UNIDAD II
ESTADISTICA UNIDAD IIESTADISTICA UNIDAD II
ESTADISTICA UNIDAD II
 
Investigacion unidad II
Investigacion unidad IIInvestigacion unidad II
Investigacion unidad II
 

Segunda unidad de estadistica

  • 1. María Romualda López Hernández Instituto tecnológico superior de la sierra negra de Ajalpan ESTADÍSTICA II Unidad II conceptos Ingeniería en administración 4° SEMESTRE Pruebas de la bondad del ajuste y análisis de Varianza 2.1 Análisis Ji-Cuadrada 2.1.1 Prueba de independencia
  • 2. 2.1.2 Prueba de la bondad del ajuste 2.1.3 Tablas de contingencia 2.2 Análisis de varianza 2.2.1 Inferencia sobre una varianza de población (Anova). 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova). 2.3 Software de aplicación
  • 3. 2.- Análisis Ji-cuadrada Cuando los datos son de tipo categórico, puede utilizarse la Ji cuadrada para determinar lo significativo de las Diferencias entre dos grupos independientes. La medida implicada puede ser tan débil como una escala Nominal. La prueba plantea que los grupos difieren en algunas Características y por tanto respecto a la frecuencia relativa con que los miembros de los grupos caen dentro de algunas categorías. Para probar esta hipótesis, contamos el número de casos de cada grupo que caen en las distintas categorías y comparamos la proporción de casos de un grupo en las distintas variables, con la proporción de casos del otro grupo en las mismas variables. Si las proporciones no son las mismas, entonces no hay interacción; en caso contrario, hay una interacción El centro de la prueba se ubica en si las diferencias en las proporciones excede a aquellasesperadas por oportunidad o por desviaciones al azar de la proporcionalidad. No siempre los datos a analizar provienen de mediciones, es decir, hay ocasiones en que se necesita analizar variables discretas y estas necesitan un trato diferente de las variables continuas. Algunos ejemplos podrían ser: Clasificación de palmas en compactas, súper compactas, normales. Clasificación de individuos en muertas, enfermas, sanas. Clasificación de individuos por colores. Clasificación de individuos en hembras y machos. 2.1.1 Prueba de independencia La independencia de dos variables consiste en que la distribución de una de las variables es similar sea cual sea el nivel que examinemos de la otra. Esto se traduce en una tabla de
  • 4. contingencia en que las frecuencias de las filas (y las columnas) son aproximadamente proporcionales. Posiblemente sea más cómodo reconocerlo usando en la tabla de contingencia los porcentajes por filas (o columnas) y observando si estos son similares. La prueba de independencia ji-cuadrado (chi-cuadrado) contrasta la hipótesis de que las variables son independientes, frente a la hipótesis alternativa de que una variable se distribuye de modo diferente para diversos niveles de la otra. En la siguiente tabla se muestra el estudio con escolares de 10 a 12 años se les pregunto a que dan más prioridad de entre 3 posibilidades: tener buenas notas, destacar en los deportes o ser popular entre los compañeros. prioridad deportes notas Popular Total sexo niña 17 101 75 193 Niño 51 95 38 184 total 68 196 113 377 Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma siendo nij el número de individuos que presentan simultáneamente la i-ésima modalidad del carácter A y la j-ésima del B. La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en los individuos de la población de la cual se extrae la muestra; siendo la alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba requiere el cálculo del estadístico donde: y son las frecuencias absolutas marginales y el tamaño muestra total. El estadístico L se distribuye como una con (a - 1) (b - 1) grados de libertad. El contraste se realiza con un nivel de significación del 5%. 2.1.2 Prueba de la bondad del ajuste Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una determinadadistribución, esta distribución puede estar completamente especificada (hipótesis simple) operteneciente a una clase paramétrica (hipótesis compuesta).
  • 5. Test Â2 Están diseñados para variables aleatorias discretas con un número finito de valores, siesto no ocurriese los valores de la variable se agrupan en un número finito de clases. 1. Hipótesis nula simple H0: X ´ F0 Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en las clasesC1;Ck, seaOi = no de individuos de la muestra en la clase Ci y sea pi = P(X 2 Ci). Con esta formulación lo que se contrasta es H0: pi = PF0(X 2 Ci) = p0 i 8i y se puede hacer por dos procedimientos: mediante el estadístico de la razón de verosimilitudes o mediante el estadístico de Pearson. Ambos procedimientos se basan en la comparación de la frecuencia observada en cada claseOi con la frecuencia esperada bajo la hipótesis nula Ei = np0 i = no de individuos esperadosen la clase Ci, bajo H0; si esta fuese cierta no deberían presentarse grandes discrepancias. 2.1.3 Tablas de contingencia En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables, del siguiente modo: Diestro Zurdo TOTAL Hombre 43 9 52 Mujer 44 4 48 TOTAL 87 13 100 Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas
  • 6. proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con la prueba χ² de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes. El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple es el coeficiente phi que se define por φ = √(χ2 / N) Donde: χ2se deriva del test de Pearson. N es el total de observaciones -el gran total. Φ puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado. Un método útil para clasificar los datos obtenidos en un recuento es mediante las tablas de contingencia. Se trata de tablas en cuyas celdas figuran probabilidades, y en la cual podemos determinar unas probabilidades conociendo otras de la tabla. Ejemplo Se sortea un viaje a Roma entre los 120 mejores clientes de una agencia de automóviles. De ellos, 65 son mujeres, 80 están casados y 45 son mujeres casadas. Se pide: 1¿Cuál será la probabilidad de que le toque el viaje a un hombre soltero? 2Si del afortunado se sabe que es casado, ¿cuál será la probabilidad de que sea una mujer?
  • 7. 2.2 ANÁLISIS DE VARIANZA En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas. Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetistaR. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis. Supónganse k muestras aleatorias independientes, de tamaño n, extraídas de una única población normal. A partir de ellas existen dos maneras independientes de estimar la varianza de la población 2: 1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas muéstrales (cada varianza muestral es un estimador centrado de 2 y la media de k estimadores centrados es también un estimador centrado y más eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los términos independientes de la suma de cuadrados. 2.2.1 Inferencia sobre una varianza de población (Anova).
  • 8. El análisis de varianza (anova) es uno de los métodos estadísticos más utilizados y más elaborados en la investigación moderna. El análisis de la varianza, no obstante su denominación se utiliza para probar hipótesis preferentes a las medias de población más que a las varianzas de población. Las técnicas anovas se han desarrollado para el análisis de datos en diseños estadísticos muy complicados. Veamos cuando se tienen puntuaciones de CI en 5 muestras de adulto. Grupos 1 2 3 4 5 102 103 100 108 121 2 15 12 12 14 10 Se aprecia que varían las medias de los grupos. Esta variación de las medias de grupo a partir de la media total o global de todos los grupos, se conoce como varianza intergrupal, la variabilidad promedio de las puntuaciones en cada grupo se denominan varianza intergrupal. Ahora se colocan todas las puntuaciones de CI en una gran urna y se mezclan en forma adecuada. Puede desentenderse por el momento cuáles puntuaciones pertenecen a que grupos. Estas puntuaciones varían. La variación de estas puntuaciones individuales se denomina variación total. El meollo del análisis de varianza radica en el siguiente hecho: si los grupos son muestras aleatorias provenientes de la misma población, las varianzas, intergrupal e intergrupal, son estimaciones insesgadas de la misma varianza poblacional. Se prueba la significación de la diferencia de los 2 tipos mediante la prueba F. Supuestos que fundamentan la aplicación de análisis de varianza. Cuando se utiliza la técnica anova se deben cumplir los siguientes supuestos: Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a partir de poblaciones normalmente distribuidas. La varianza de los subgrupos debe ser homogénea. Las muestras que constituyen los grupos deben ser independientes. Amenos de que las muestras sean independientes, y que por lo tanto, generen estimaciones de varianza independientes, la razón de las varianzas inter e intra no adoptará la distribución F. 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova).
  • 9. De manera que, si las varianzas poblacionales son iguales, dicha razón es 1 y podríamos afirmar que las dos poblaciones tienen una distribución homogénea; es decir, los datos se encuentran igualmente dispersos. Una forma clara de interpretación de la importancia de la homogeneidad de varianzas se puede apreciar en el siguiente ejemplo: Supongamos que estamos comparando el rendimiento promedio de los alumnos de una asignatura dividida en dos secciones, cada una de las cuales están asignadas a diferentes profesores. Podría ocurrir que el rendimiento promedio de ambas secciones sea la misma; pero sin embargo, las notas pueden tener diferente variabilidad. Observe las dos curvas en el siguiente gráfico. Las dos tienen el mismo promedio, pero, por la forma de la campana, tienen diferente varianza. Esto justifica la necesidad de establecer una prueba de hipótesis para una razón de varianzas, a fin de comprobar si ellas son homogéneas o no. Una aplicación de esta razón podría ser bastante significativa en un caso en el que las medias no son muy explicativas. Por otro lado, así como se realiza inferencia sobre la estimación y prueba de hipótesis de la diferencia de medias o proporciones muestrales en el caso de dos poblaciones, así también podemos plantear el estudio de la razón de las varianzas de dos poblaciones definiendo al parámetro q como y su estimador . Este estudio lo haremos tomando en cuenta el intervalo de confianza y la prueba de hipótesis para q.
  • 10. Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extraída a partir una población N(m1, s1²) y se Y1, Y2, ..., Yn2 una muestra aleatoria extraída a partir una población N(m2, s2²).
  • 11. Pruebas de la bondad del ajuste y análisis de Varianza Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una determinadadistribución, esta distribución puede estar completamente especificada (hipótesis simple) operteneciente a una clase paramétrica (hipótesis compuesta). Test Â2 Están diseñados para variables aleatorias discretas con un número finito de valores, siesto no ocurriese los valores de la variable se agrupan en un número finito de clases. 1. Hipótesis nula simple H0: X ´ F0 Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en las clasesC1;Ck, seaOi = no de individuos de la muestra en la clase Ci y sea pi = P(X 2 Ci). Con esta formulación lo que se contrasta es H0: pi = PF0(X 2 Ci) = p0 i 8i y se puede hacer por dos procedimientos: mediante el estadístico de la razón de verosimilitudes o mediante el estadístico de Pearson. Ambos procedimientos se basan en la comparación de la frecuencia observada en cada claseOi con la frecuencia esperada bajo la hipótesis nula Ei = np0
  • 12. i = no de individuos esperadosen la clase Ci, bajo H0; si esta fuese cierta no deberían presentarse grandes discrepancias.