SlideShare uma empresa Scribd logo
1 de 40
UNIVERSIDAD NACIONAL  MAYOR DE SAN MARCOS   Universidad del Perú, DECANA DE AMERICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA Mg. María Estela Ponce Aruneri ESCUELA  ACADÉMICO PROFESIONAL DE ESTADÍSTICA ANÁLISIS MULTIVARIANTE SEMESTRE ACADÉMÍCO 2009 -II
ANÁLISIS EXPLORATORIO DE DATOS MULTIVARIANTES CONTINUACIÓN
3° Homocedasticidad Es una hipótesis muy habitual en algunas técnicas estadísticas como el Análisis de la Varianza, el Análisis Discriminante y el Análisis de Regresión, entre otras. Dicha hipótesis se refiere a suponer la igualdad de varianzas de las variables dependientes en diversos grupos formados por los distintos valores de las variables independientes. Si dicha hipótesis no se cumple, puede alterar la potencia y el nivel de significación de los contrastes utilizados por dichas técnicas, por ello es necesario analizar si se verifica o no , en caso contrario, poner los remedios oportunos.
Los gráficos  de cajas es una herramienta de gran utilidad para evaluar la diferencia o semenjanzas entre grupos, además permite ubicar datos discordantes o extremos. Por ejemplo: ¿Existen diferencias en las características de las viviendas de los distritos del cono norte y sur?
Las pruebas de hipótesis  permite analizar la existencia de esta igualdad que, en muchas ocasiones, esta relacionado con una falta de normalidad de las variables analizadas. En la literatura se han propuesto diversos tests o pruebas (ver, por ejemplo, Jobson, 1991, Volumen 1). Uno de los más utilizados es el test de Levene basado en aplicar un ANOVA a las diferencias absolutas respecto a una medida de tendencia central de los diversos grupos. Dicho test toma como hipótesis nula la existencia de homocedasticidad y como alternativa la de heterocedasticidad. Un posible remedio contra la heterocedasticidad es transformar los datos originales.
Un grupo de transformaciones muy utilizadas son las de Box-Cox que vienen dadas por la siguiente expresión: El valor de  C  se elige de forma que  X  +  C  sea positiva. El valor de  λ  se suele determinar de forma empírica. En general este tipo de transformaciones suelen ser efectivas si no hay un número excesivo de outliers y si el cociente de la desviación típica dividida por la media es mayor que ¼ o si el cociente de la observación más
grande dividida por la más pequeña es mayor que 2.  Es importante que la transformación elegida sea fácilmente interpretable y, en caso de duda, se aconseja repetir el análisis con los datos transformados y sin transformar y observar si los resultados obtenidos difieren demasiado. En éste último caso y si el procedimiento utilizado es poco robusto a la hipótesis de normalidad, utilizar los resultados con los datos transformados. En el caso multivariado, se utiliza la prueba  M de Box,  para verificar homocedasticidad en poblaciones
Tarea: Con la base de datos asignada a cada grupo, verificar si se cumple el supuesto de homocedasticidad. Multivariadas.
QUINTA ETAPA DEL AED: DATOS ATÍPICOS (OUTLIERS) Los casos atípicos son observaciones con características diferentes de las demás. Este tipo de casos no pueden ser caracterizados categóricamente como benéficos o problemáticos sino que deben ser contemplados en el contexto del análisis y debe evaluarse el tipo de información que pueden proporcionar. Su principal problema radica en que son elementos que pueden no ser representativos de la población pudiendo distorsionar seriamente el comportamiento de los contrastes y resultados estadísticos.
Por otra parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las características de un segmento válido de la población y, por consiguiente, una señal de la falta de representatividad de la muestra. Tipos de outliers Los casos atípicos pueden clasificarse en 4 categorías: La primera categoría  contiene aquellos casos atípicos que surgen de un error de procedimiento, tales como la entrada de datos o un error de codificación. Estos casos atípicos deberían subsanarse en el filtrado de los datos, y si no se puede, deberían eliminarse del análisis o recodificarse como datos ausentes.
La segunda clase  es la observación que ocurre como consecuencia de un acontecimiento extraordinario. En este caso, el outlier no representa ningún segmento válido de la población y puede ser eliminado del análisis. La tercera clase  contiene las observaciones cuyos valores caen dentro del rango de las variables observadas, pero que son únicas en la combinación de los valores de dichas variables. Estas observaciones deberían ser retenidas en el análisis pero estudiando qué influencia ejercen en los procesos de estimación de los modelos considerados.
La cuarta y última clase  comprende las observaciones extraordinarias para las que el investigador no tiene explicación. En estos casos lo mejor que se puede hacer es replicar el análisis con y sin dichas observaciones con el fin de analizar su influencia sobre los resultados. Si dichas observaciones son influyentes el analista debería reportarlo en sus conclusiones y debería averiguar el por qué de dichas observaciones. Identificación de outliers Los casos atípicos pueden identificarse desde una perspectiva univariante o multivariante.
La perspectiva univariante  examina la distribución de observaciones para cada variable, seleccionando como casos atípicos aquellos casos cuyos valores caigan fuera de los rangos de la distribución. La cuestión principal consiste en el establecimiento de un umbral para la designación de caso atípico. Esto se puede hacer gráficamente mediante histogramas o diagramas de caja o bien numéricamente, mediante el cálculo de puntuaciones tipificadas. Para muestras pequeñas (de 80 o incluso menos observaciones), las pautas sugeridas identifican como atípicos aquellos casos con valores estándar de 2.5 o superiores. Cuando los tamaños muestrales son mayores, las pautas sugieren que el valor umbral sea 3.
Pueden analizarse conjuntamente  pares de variables  mediante un gráfico de dispersión. Casos que se ubiquen fuera del rango del resto de las observaciones pueden identificarse como puntos aislados en el gráfico de dispersión. Para ayudar a determinar el rango esperado de las  observaciones, se puede superponer sobre el gráfico de dispersión una elipse que represente un intervalo de confianza especificado para una distribución normal bivariante. Lo que proporciona una representación gráfica de los límites de confianza y facilita la identificación de casos atípicos.
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Fuente: Banco Mundial (2002), FAO (2002) y PNUD (2001).
El Gráfico, contiene las “Caras de Chernoff para los 5 países por encima y los 5 por debajo de Cuba en términos de PIB per cápita a PPA. En este caso se utilizan sólo las 9 variables explicativas tomadas para el ejercicio, excluyendo por supuesto al PIB percápita. Cada rasgo de las caras tienen en cuenta la magnitud relativa para cada país, de la siguiente forma: mientras la boca sea más sonriente, el consumo de kilocalorías per cápita diaria es mayor, mientras la boca sea más larga, mayor es la proporción de la población con acceso a fuentes de agua mejorada, cuando la boca está más pegada a la nariz, menor es la cantidad de Computadoras personales por mil habitantes,
la nariz más grande indica más cantidad de teléfonos y celulares por cien habitantes, una cara más ancha expresa una mayor esperanza de vida al nacer, mientras más para abajo se encuentre el nivel de las orejas, menor tasa de mortalidad para menores de 5 años, un mentón más pronunciado, corresponde a un consumo de electricidad per cápita menor, mientras más achatada sea la parte superior de la cara, mayor será la tenencia de televisores, una cara más alargada, describe una mayor tasa total de matrícula. Este gráfico fue propuesto originalmente por Chernoff (1973) y extendida por Flury y Riedwyl (1981).
[object Object]
[object Object],[object Object],[object Object],[object Object]
Finalmente existen otros procedimientos para detectar atípicos multivariantes, dicha detección se puede hacer mediante un Análisis de Componentes Principales. Tarea: Con la base de datos asignada a cada grupo, identificar datos atípicos a nivel univariado, bivariado y multivariado.
SEXTA ETAPA DEL AED: DATOS AUSENTES Los datos ausentes son algo habitual en el Análisis Multivariante; de hecho, rara es la investigación en la que no aparece este tipo de datos. En estos casos la ocupación primaria del investigador debe ser determinar las razones que subyacen en el dato ausente buscando entender el proceso principal de esta ausencia para seleccionar el curso de acción más apropiado.
Para ello se debe determinar cuál es el proceso de datos ausentes, entendido como cualquier evento sistemático externo al encuestado (errores en la introducción de datos) o acción por parte del encuestado (tales como rehusar a contestar) que da lugar a la ausencia de datos.  En particular, el investigador debe analizar si existe algún patrón no aleatorio en dicho proceso que pueda sesgar los resultados obtenidos debido a la pérdida de representatividad de la muestra analizada.
[object Object],[object Object],[object Object],[object Object]
2)  Datos ausentes no prescindibles:  son resultado de procesos que no se encuentran bajo el control del investigador y/o no pueden ser identificados explícitamente. Ejemplos  de estas situaciones son los errores en la entrada de datos, la renuncia del encuestado a responder a ciertas cuestiones o respuestas inaplicables. En estos casos se debe analizar si existen o no patrones sistemáticos en el proceso que puedan sesgar los resultados obtenidos. Si los datos ausentes son no prescindibles conviene, por lo tanto, analizar el grado de aleatoriedad presente en los mismos.
[object Object],[object Object],[object Object],[object Object]
b)  Datos ausentes aleatorios (MAR),  en este caso el patrón de los datos ausentes en una variable Y no es aleatorio sino que depende de otras variables de la muestra X. Ahora bien, para cada valor de X, los valores observados de Y sí representan una muestra aleatoria de Y. Así, por ejemplo, si X es el género del encuestado e Y es su renta, un proceso MAR se tendría si existen más valores ausentes de Y en hombres que en mujeres y, sin embargo, los datos son aleatorios para ambos géneros en el sentido de que, tanto en los hombres
en las mujeres, el patrón de ausentes es completamente aleatorio. Si, además, tampoco existen diferencias por género los datos ausentes serían MCAR. Si los datos ausentes son MAR cualquier solución al problema deberá tener en cuenta los valores de X dado que afectan al proceso generador de datos ausentes.
c) Datos ausentes no aleatorios:  en este caso existen patrones sistemáticos en el proceso de datos ausentes y habría que evaluar la magnitud del problema calibrando, en particular, el tamaño de los sesgos introducidos por dichos patrones. Si éstos son grandes habría que atacar el problema directamente intentando averiguar cuáles son dichos valores. Localización de datos ausentes El primer paso en el tratamiento de datos ausentes consiste en evaluar la magnitud del problema. Para ello se comienza analizando el porcentaje de datos ausentes por variables y por casos.
Si existen casos con un alto porcentaje de datos ausentes se deberían excluir del problema. Así mismo si existe una variable con un alto porcentaje de este tipo de casos su exclusión dependerá de la importancia teórica de la misma y la posibilidad de ser reemplazada por variables con un contenido informativo similar. Como regla general, sin embargo, si dicha variable es dependiente debería ser eliminada ya que cualquier proceso de imputación de valores puede distorsionar la significación estadística y práctica de los modelos estimados para ella.
[object Object],[object Object],[object Object],[object Object]
b) Utilizar correlaciones dicotomizadas para evaluar la correlación de los datos ausentes en cualquier par de valores. Estas correlaciones indicarían el grado de asociación entre los valores perdidos sobre cada par de variables. Bajas correlaciones implican aleatoriedad en el par de variables y que los datos ausentes pueden clasificarse como MCAR. En caso contrario son MAR. c) Realizar hipótesis conjuntas de aleatoriedad que determinen si los datos ausentes pueden ser clasificados como MCAR.  Estos contrastes analizan el patrón de datos ausentes sobre todas las variables y las compara con el patrón
esperado para un proceso de datos ausentes aleatorio. Si no se encuentran diferencias significativas el proceso puede clasificarse como MCAR; en caso contrario deben utilizarse los procedimientos a) y b) anteriores para identificar los procesos específicos de datos ausentes que no son aleatorios. Aproximaciones al tratamiento de datos ausentes Si se encuentran procesos de datos ausentes MAR o no aleatorios, el investigador debería aplicar sólo el método diseñado específicamente para este proceso. Sólo si el investigador determina que el proceso de ausencia de datos puede clasificarse como MCAR pueden utilizarse las siguientes aproximaciones:
a)Utilizar sólo los casos completos: conveniente si el tamaño muestral no se reduce demasiado. b) Supresión de casos y/o variables con una alta proporción de datos ausentes. Esta supresión deberá basarse en consideraciones teóricas y empíricas. En particular, si algún caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto que cualquier proceso de imputación puede  distorsionar los modelos estimados. Así mismo una variable independiente con muchos datos ausentes podrá eliminarse si existen otras variables muy similares con datos observados.
c) Imputar valores a los datos ausentes utilizando valores válidos de otras variables y/o casos de la muestra Métodos de imputación Los métodos de imputación pueden ser de tres tipos: 1)  Métodos de disponibilidad completa que utilizan toda la información disponible a  partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan habitualmente para estimar medias, varianzas y correlaciones
2)  Métodos de sustitución que estiman valores de reemplazo para los datos ausentes,  sobre la base de otra información existente en la muestra. Así se podría sustituir observaciones con datos ausentes por observaciones no muestrales o sustituir dichos datos por la media de los valores observados o mediante regresión sobre otras variables muy relacionadas con aquella a la que le faltan observaciones. 3)  Métodos basados en modelos que construyen explícitamente el mecanismo por el  que se producen los datos ausentes y lo estiman por máxima verosimilitud. Entran en esta categoría el algoritmo EM o los procesos de aumento de datos.
Tarea: Con la base de datos asignada a cada grupo, realizar el análisis de datos ausentes.
[object Object],[object Object],[object Object],[object Object],[object Object]

Mais conteúdo relacionado

Mais procurados

Intervalos de confianza-1
Intervalos de confianza-1Intervalos de confianza-1
Intervalos de confianza-1
Hector Funes
 
Familia exponencial
Familia exponencialFamilia exponencial
Familia exponencial
Diony17
 
Presentacion t student
Presentacion t studentPresentacion t student
Presentacion t student
pilosofando
 
Intervalos de confianza
Intervalos de confianzaIntervalos de confianza
Intervalos de confianza
patente13
 
Calculo Del Tamaño De La Muestra
Calculo Del Tamaño De La MuestraCalculo Del Tamaño De La Muestra
Calculo Del Tamaño De La Muestra
fernandoalvarado
 
14 prueba chi cuadrado
14 prueba chi cuadrado14 prueba chi cuadrado
14 prueba chi cuadrado
Yerko Bravo
 

Mais procurados (20)

Medidas de Dispersión
Medidas de DispersiónMedidas de Dispersión
Medidas de Dispersión
 
Pruebas No Parametricas
Pruebas No ParametricasPruebas No Parametricas
Pruebas No Parametricas
 
Presentacion medidas de dispersion estadistica
Presentacion medidas de dispersion estadisticaPresentacion medidas de dispersion estadistica
Presentacion medidas de dispersion estadistica
 
Intervalos de confianza-1
Intervalos de confianza-1Intervalos de confianza-1
Intervalos de confianza-1
 
Distribución Muestral Estadística
Distribución Muestral Estadística Distribución Muestral Estadística
Distribución Muestral Estadística
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Familia exponencial
Familia exponencialFamilia exponencial
Familia exponencial
 
Presentacion t student
Presentacion t studentPresentacion t student
Presentacion t student
 
Estadistica Inferencial
Estadistica InferencialEstadistica Inferencial
Estadistica Inferencial
 
Pruebas de hipótesis
Pruebas de hipótesisPruebas de hipótesis
Pruebas de hipótesis
 
UNIDAD XII ESTADISTICA PARAMETRICA Y ESTADISTICA NO PARAMETRICA.
UNIDAD XII ESTADISTICA PARAMETRICA Y ESTADISTICA NO PARAMETRICA. UNIDAD XII ESTADISTICA PARAMETRICA Y ESTADISTICA NO PARAMETRICA.
UNIDAD XII ESTADISTICA PARAMETRICA Y ESTADISTICA NO PARAMETRICA.
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
Intervalos de confianza
Intervalos de confianzaIntervalos de confianza
Intervalos de confianza
 
2 prueba z,prueba t student y prueba chi-cuadrado
2 prueba z,prueba t student y prueba chi-cuadrado2 prueba z,prueba t student y prueba chi-cuadrado
2 prueba z,prueba t student y prueba chi-cuadrado
 
Calculo Del Tamaño De La Muestra
Calculo Del Tamaño De La MuestraCalculo Del Tamaño De La Muestra
Calculo Del Tamaño De La Muestra
 
Chi square mahmoud
Chi square mahmoudChi square mahmoud
Chi square mahmoud
 
14 prueba chi cuadrado
14 prueba chi cuadrado14 prueba chi cuadrado
14 prueba chi cuadrado
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
MEDIDAS DE VARIACIÓN- ASIMETRÍA Y CURTOSIS
MEDIDAS DE VARIACIÓN- ASIMETRÍA Y CURTOSISMEDIDAS DE VARIACIÓN- ASIMETRÍA Y CURTOSIS
MEDIDAS DE VARIACIÓN- ASIMETRÍA Y CURTOSIS
 

Destaque

Solución macroeconomía
Solución macroeconomíaSolución macroeconomía
Solución macroeconomía
kemv
 
Nosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo linealNosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo lineal
Miguel Jerez
 
3 analisis multivariable
3 analisis multivariable3 analisis multivariable
3 analisis multivariable
Carmen Mejia
 
Ejercicios hessiano orlado
Ejercicios hessiano orladoEjercicios hessiano orlado
Ejercicios hessiano orlado
Cerveza13
 
Taller macroeconomia
Taller macroeconomiaTaller macroeconomia
Taller macroeconomia
paulap100
 
Cálculo multivariable
Cálculo multivariableCálculo multivariable
Cálculo multivariable
veresnina
 
Discriminante o-hessiano
Discriminante o-hessianoDiscriminante o-hessiano
Discriminante o-hessiano
MARY ANBEL
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
jpgv84
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
LB: El Palmar
 
Ejercicios de Calculo Multivariable
Ejercicios de Calculo MultivariableEjercicios de Calculo Multivariable
Ejercicios de Calculo Multivariable
Jair Ospino Ardila
 
Ejemplo de analisis multivariado
Ejemplo de analisis multivariadoEjemplo de analisis multivariado
Ejemplo de analisis multivariado
Jose Loaiza Torres
 
Macroeconomia
MacroeconomiaMacroeconomia
Macroeconomia
cokydark
 

Destaque (20)

Analisis multivariante 2012
Analisis multivariante 2012Analisis multivariante 2012
Analisis multivariante 2012
 
Econometria
EconometriaEconometria
Econometria
 
analisis de regresion con spps
analisis  de regresion con sppsanalisis  de regresion con spps
analisis de regresion con spps
 
Tema 8
Tema 8Tema 8
Tema 8
 
Formas cuadraticas
Formas cuadraticasFormas cuadraticas
Formas cuadraticas
 
Solución macroeconomía
Solución macroeconomíaSolución macroeconomía
Solución macroeconomía
 
Nosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo linealNosferi - Perturbaciones no esfericas en el modelo lineal
Nosferi - Perturbaciones no esfericas en el modelo lineal
 
Polinomios de Taylor. Formas cuadráticas
Polinomios de Taylor. Formas cuadráticasPolinomios de Taylor. Formas cuadráticas
Polinomios de Taylor. Formas cuadráticas
 
3 analisis multivariable
3 analisis multivariable3 analisis multivariable
3 analisis multivariable
 
Ejercicios hessiano orlado
Ejercicios hessiano orladoEjercicios hessiano orlado
Ejercicios hessiano orlado
 
Taller macroeconomia
Taller macroeconomiaTaller macroeconomia
Taller macroeconomia
 
Cálculo multivariable
Cálculo multivariableCálculo multivariable
Cálculo multivariable
 
Discriminante o-hessiano
Discriminante o-hessianoDiscriminante o-hessiano
Discriminante o-hessiano
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
Ejercicios de Calculo Multivariable
Ejercicios de Calculo MultivariableEjercicios de Calculo Multivariable
Ejercicios de Calculo Multivariable
 
Ejemplo de analisis multivariado
Ejemplo de analisis multivariadoEjemplo de analisis multivariado
Ejemplo de analisis multivariado
 
Macroeconomia
MacroeconomiaMacroeconomia
Macroeconomia
 
Maximos, Minimos y Mutliplicadores de Lagrange
Maximos, Minimos y Mutliplicadores de LagrangeMaximos, Minimos y Mutliplicadores de Lagrange
Maximos, Minimos y Mutliplicadores de Lagrange
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 

Semelhante a 5 Semana Analisis Multivariante Parte II

Estadistica descriptiva 2
Estadistica descriptiva 2 Estadistica descriptiva 2
Estadistica descriptiva 2
Paula Diaz
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
jennypao39
 
Generalidades de la estadística
Generalidades de la estadísticaGeneralidades de la estadística
Generalidades de la estadística
Jenny HB
 
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
Ekthor Daniel R G
 
ESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docxESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docx
AndreaPacheco95
 
Estadsticainferencial 090519154537-phpapp01
Estadsticainferencial 090519154537-phpapp01Estadsticainferencial 090519154537-phpapp01
Estadsticainferencial 090519154537-phpapp01
Adrián Quijano
 

Semelhante a 5 Semana Analisis Multivariante Parte II (20)

Descriptiva
DescriptivaDescriptiva
Descriptiva
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 
Sin título 1(1)
Sin título 1(1)Sin título 1(1)
Sin título 1(1)
 
Terminos basicos (variables)
Terminos basicos (variables)Terminos basicos (variables)
Terminos basicos (variables)
 
Estadistica descriptiva 2
Estadistica descriptiva 2 Estadistica descriptiva 2
Estadistica descriptiva 2
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Generalidades de la estadística
Generalidades de la estadísticaGeneralidades de la estadística
Generalidades de la estadística
 
Presentacion medidas de dispersion
Presentacion medidas de dispersionPresentacion medidas de dispersion
Presentacion medidas de dispersion
 
Fundamentos de la Estadística
Fundamentos de la EstadísticaFundamentos de la Estadística
Fundamentos de la Estadística
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
Presentacion estadistica
Presentacion  estadisticaPresentacion  estadistica
Presentacion estadistica
 
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
 
ESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docxESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docx
 
Estadsticainferencial 090519154537-phpapp01
Estadsticainferencial 090519154537-phpapp01Estadsticainferencial 090519154537-phpapp01
Estadsticainferencial 090519154537-phpapp01
 
Terminos basicos en estadistica
Terminos basicos en estadisticaTerminos basicos en estadistica
Terminos basicos en estadistica
 
EstadíStica Inferencial Y Conceptos BáSicos
EstadíStica Inferencial Y Conceptos BáSicosEstadíStica Inferencial Y Conceptos BáSicos
EstadíStica Inferencial Y Conceptos BáSicos
 

Mais de jpgv84

directorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdfdirectorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdf
jpgv84
 
Corel draw
Corel drawCorel draw
Corel draw
jpgv84
 
6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I
jpgv84
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I
jpgv84
 
3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariante3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariante
jpgv84
 
2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Ii2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Ii
jpgv84
 
2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte I2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte I
jpgv84
 
EstadíStica Descriptiva
EstadíStica DescriptivaEstadíStica Descriptiva
EstadíStica Descriptiva
jpgv84
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística Descriptiva
jpgv84
 
EstadÍstica Descriptiva
EstadÍstica DescriptivaEstadÍstica Descriptiva
EstadÍstica Descriptiva
jpgv84
 
Webquest Nociones De Estadistica
Webquest Nociones De EstadisticaWebquest Nociones De Estadistica
Webquest Nociones De Estadistica
jpgv84
 

Mais de jpgv84 (19)

directorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdfdirectorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdf
 
RIESGO OPERACIONAL.pptx
RIESGO OPERACIONAL.pptxRIESGO OPERACIONAL.pptx
RIESGO OPERACIONAL.pptx
 
Capacitacion de RO 2023.pptx
Capacitacion de RO 2023.pptxCapacitacion de RO 2023.pptx
Capacitacion de RO 2023.pptx
 
Corel draw
Corel drawCorel draw
Corel draw
 
La perfeccion Matematica y el amor a Dios
La perfeccion Matematica y el amor a DiosLa perfeccion Matematica y el amor a Dios
La perfeccion Matematica y el amor a Dios
 
Invitació..
Invitació..Invitació..
Invitació..
 
El Abc De La ComputacióN Escolar
El Abc De La ComputacióN EscolarEl Abc De La ComputacióN Escolar
El Abc De La ComputacióN Escolar
 
6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I
 
3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariante3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariante
 
2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Ii2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Ii
 
2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte I2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte I
 
EstadíStica Descriptiva
EstadíStica DescriptivaEstadíStica Descriptiva
EstadíStica Descriptiva
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística Descriptiva
 
EstadÍstica Descriptiva
EstadÍstica DescriptivaEstadÍstica Descriptiva
EstadÍstica Descriptiva
 
Razones Trigonometricas
Razones TrigonometricasRazones Trigonometricas
Razones Trigonometricas
 
Webquest Nociones De Estadistica
Webquest Nociones De EstadisticaWebquest Nociones De Estadistica
Webquest Nociones De Estadistica
 
Circunferencia TrigonoméTrica
Circunferencia TrigonoméTricaCircunferencia TrigonoméTrica
Circunferencia TrigonoméTrica
 
Lineas Seno, Coseno Y Tangente
Lineas Seno, Coseno Y TangenteLineas Seno, Coseno Y Tangente
Lineas Seno, Coseno Y Tangente
 

Último

Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Fernando Solis
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
jlorentemartos
 

Último (20)

PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
Los dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la VerdadLos dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la Verdad
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
 
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN  PARÍS. Por JAVIER SOL...
ACERTIJO LA RUTA DEL MARATÓN OLÍMPICO DEL NÚMERO PI EN PARÍS. Por JAVIER SOL...
 
animalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdfanimalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdf
 
Educacion Basada en Evidencias SM5 Ccesa007.pdf
Educacion Basada en Evidencias  SM5  Ccesa007.pdfEducacion Basada en Evidencias  SM5  Ccesa007.pdf
Educacion Basada en Evidencias SM5 Ccesa007.pdf
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
Ensayo Paes competencia matematicas 2 Preuniversitario
Ensayo Paes competencia matematicas 2 PreuniversitarioEnsayo Paes competencia matematicas 2 Preuniversitario
Ensayo Paes competencia matematicas 2 Preuniversitario
 
UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...
UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...
UNIDAD DE APRENDIZAJE DE PRIMER GRADO DEL MES DE MAYO PARA TRABAJAR CON ESTUD...
 
PP_Comunicacion en Salud: Objetivación de signos y síntomas
PP_Comunicacion en Salud: Objetivación de signos y síntomasPP_Comunicacion en Salud: Objetivación de signos y síntomas
PP_Comunicacion en Salud: Objetivación de signos y síntomas
 
Novena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan EudesNovena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan Eudes
 
Código Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de VenezuelaCódigo Civil de la República Bolivariana de Venezuela
Código Civil de la República Bolivariana de Venezuela
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdf
 
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docxUNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
 
LA JUNGLA DE COLORES.pptx Cuento de animales
LA JUNGLA DE COLORES.pptx  Cuento de animalesLA JUNGLA DE COLORES.pptx  Cuento de animales
LA JUNGLA DE COLORES.pptx Cuento de animales
 

5 Semana Analisis Multivariante Parte II

  • 1. UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS   Universidad del Perú, DECANA DE AMERICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA Mg. María Estela Ponce Aruneri ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA ANÁLISIS MULTIVARIANTE SEMESTRE ACADÉMÍCO 2009 -II
  • 2. ANÁLISIS EXPLORATORIO DE DATOS MULTIVARIANTES CONTINUACIÓN
  • 3. 3° Homocedasticidad Es una hipótesis muy habitual en algunas técnicas estadísticas como el Análisis de la Varianza, el Análisis Discriminante y el Análisis de Regresión, entre otras. Dicha hipótesis se refiere a suponer la igualdad de varianzas de las variables dependientes en diversos grupos formados por los distintos valores de las variables independientes. Si dicha hipótesis no se cumple, puede alterar la potencia y el nivel de significación de los contrastes utilizados por dichas técnicas, por ello es necesario analizar si se verifica o no , en caso contrario, poner los remedios oportunos.
  • 4. Los gráficos de cajas es una herramienta de gran utilidad para evaluar la diferencia o semenjanzas entre grupos, además permite ubicar datos discordantes o extremos. Por ejemplo: ¿Existen diferencias en las características de las viviendas de los distritos del cono norte y sur?
  • 5.
  • 6. Las pruebas de hipótesis permite analizar la existencia de esta igualdad que, en muchas ocasiones, esta relacionado con una falta de normalidad de las variables analizadas. En la literatura se han propuesto diversos tests o pruebas (ver, por ejemplo, Jobson, 1991, Volumen 1). Uno de los más utilizados es el test de Levene basado en aplicar un ANOVA a las diferencias absolutas respecto a una medida de tendencia central de los diversos grupos. Dicho test toma como hipótesis nula la existencia de homocedasticidad y como alternativa la de heterocedasticidad. Un posible remedio contra la heterocedasticidad es transformar los datos originales.
  • 7. Un grupo de transformaciones muy utilizadas son las de Box-Cox que vienen dadas por la siguiente expresión: El valor de C se elige de forma que X + C sea positiva. El valor de λ se suele determinar de forma empírica. En general este tipo de transformaciones suelen ser efectivas si no hay un número excesivo de outliers y si el cociente de la desviación típica dividida por la media es mayor que ¼ o si el cociente de la observación más
  • 8. grande dividida por la más pequeña es mayor que 2. Es importante que la transformación elegida sea fácilmente interpretable y, en caso de duda, se aconseja repetir el análisis con los datos transformados y sin transformar y observar si los resultados obtenidos difieren demasiado. En éste último caso y si el procedimiento utilizado es poco robusto a la hipótesis de normalidad, utilizar los resultados con los datos transformados. En el caso multivariado, se utiliza la prueba M de Box, para verificar homocedasticidad en poblaciones
  • 9. Tarea: Con la base de datos asignada a cada grupo, verificar si se cumple el supuesto de homocedasticidad. Multivariadas.
  • 10. QUINTA ETAPA DEL AED: DATOS ATÍPICOS (OUTLIERS) Los casos atípicos son observaciones con características diferentes de las demás. Este tipo de casos no pueden ser caracterizados categóricamente como benéficos o problemáticos sino que deben ser contemplados en el contexto del análisis y debe evaluarse el tipo de información que pueden proporcionar. Su principal problema radica en que son elementos que pueden no ser representativos de la población pudiendo distorsionar seriamente el comportamiento de los contrastes y resultados estadísticos.
  • 11. Por otra parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las características de un segmento válido de la población y, por consiguiente, una señal de la falta de representatividad de la muestra. Tipos de outliers Los casos atípicos pueden clasificarse en 4 categorías: La primera categoría contiene aquellos casos atípicos que surgen de un error de procedimiento, tales como la entrada de datos o un error de codificación. Estos casos atípicos deberían subsanarse en el filtrado de los datos, y si no se puede, deberían eliminarse del análisis o recodificarse como datos ausentes.
  • 12. La segunda clase es la observación que ocurre como consecuencia de un acontecimiento extraordinario. En este caso, el outlier no representa ningún segmento válido de la población y puede ser eliminado del análisis. La tercera clase contiene las observaciones cuyos valores caen dentro del rango de las variables observadas, pero que son únicas en la combinación de los valores de dichas variables. Estas observaciones deberían ser retenidas en el análisis pero estudiando qué influencia ejercen en los procesos de estimación de los modelos considerados.
  • 13. La cuarta y última clase comprende las observaciones extraordinarias para las que el investigador no tiene explicación. En estos casos lo mejor que se puede hacer es replicar el análisis con y sin dichas observaciones con el fin de analizar su influencia sobre los resultados. Si dichas observaciones son influyentes el analista debería reportarlo en sus conclusiones y debería averiguar el por qué de dichas observaciones. Identificación de outliers Los casos atípicos pueden identificarse desde una perspectiva univariante o multivariante.
  • 14. La perspectiva univariante examina la distribución de observaciones para cada variable, seleccionando como casos atípicos aquellos casos cuyos valores caigan fuera de los rangos de la distribución. La cuestión principal consiste en el establecimiento de un umbral para la designación de caso atípico. Esto se puede hacer gráficamente mediante histogramas o diagramas de caja o bien numéricamente, mediante el cálculo de puntuaciones tipificadas. Para muestras pequeñas (de 80 o incluso menos observaciones), las pautas sugeridas identifican como atípicos aquellos casos con valores estándar de 2.5 o superiores. Cuando los tamaños muestrales son mayores, las pautas sugieren que el valor umbral sea 3.
  • 15. Pueden analizarse conjuntamente pares de variables mediante un gráfico de dispersión. Casos que se ubiquen fuera del rango del resto de las observaciones pueden identificarse como puntos aislados en el gráfico de dispersión. Para ayudar a determinar el rango esperado de las observaciones, se puede superponer sobre el gráfico de dispersión una elipse que represente un intervalo de confianza especificado para una distribución normal bivariante. Lo que proporciona una representación gráfica de los límites de confianza y facilita la identificación de casos atípicos.
  • 16.
  • 17.
  • 18. Fuente: Banco Mundial (2002), FAO (2002) y PNUD (2001).
  • 19. El Gráfico, contiene las “Caras de Chernoff para los 5 países por encima y los 5 por debajo de Cuba en términos de PIB per cápita a PPA. En este caso se utilizan sólo las 9 variables explicativas tomadas para el ejercicio, excluyendo por supuesto al PIB percápita. Cada rasgo de las caras tienen en cuenta la magnitud relativa para cada país, de la siguiente forma: mientras la boca sea más sonriente, el consumo de kilocalorías per cápita diaria es mayor, mientras la boca sea más larga, mayor es la proporción de la población con acceso a fuentes de agua mejorada, cuando la boca está más pegada a la nariz, menor es la cantidad de Computadoras personales por mil habitantes,
  • 20. la nariz más grande indica más cantidad de teléfonos y celulares por cien habitantes, una cara más ancha expresa una mayor esperanza de vida al nacer, mientras más para abajo se encuentre el nivel de las orejas, menor tasa de mortalidad para menores de 5 años, un mentón más pronunciado, corresponde a un consumo de electricidad per cápita menor, mientras más achatada sea la parte superior de la cara, mayor será la tenencia de televisores, una cara más alargada, describe una mayor tasa total de matrícula. Este gráfico fue propuesto originalmente por Chernoff (1973) y extendida por Flury y Riedwyl (1981).
  • 21.
  • 22.
  • 23. Finalmente existen otros procedimientos para detectar atípicos multivariantes, dicha detección se puede hacer mediante un Análisis de Componentes Principales. Tarea: Con la base de datos asignada a cada grupo, identificar datos atípicos a nivel univariado, bivariado y multivariado.
  • 24. SEXTA ETAPA DEL AED: DATOS AUSENTES Los datos ausentes son algo habitual en el Análisis Multivariante; de hecho, rara es la investigación en la que no aparece este tipo de datos. En estos casos la ocupación primaria del investigador debe ser determinar las razones que subyacen en el dato ausente buscando entender el proceso principal de esta ausencia para seleccionar el curso de acción más apropiado.
  • 25. Para ello se debe determinar cuál es el proceso de datos ausentes, entendido como cualquier evento sistemático externo al encuestado (errores en la introducción de datos) o acción por parte del encuestado (tales como rehusar a contestar) que da lugar a la ausencia de datos. En particular, el investigador debe analizar si existe algún patrón no aleatorio en dicho proceso que pueda sesgar los resultados obtenidos debido a la pérdida de representatividad de la muestra analizada.
  • 26.
  • 27. 2) Datos ausentes no prescindibles: son resultado de procesos que no se encuentran bajo el control del investigador y/o no pueden ser identificados explícitamente. Ejemplos de estas situaciones son los errores en la entrada de datos, la renuncia del encuestado a responder a ciertas cuestiones o respuestas inaplicables. En estos casos se debe analizar si existen o no patrones sistemáticos en el proceso que puedan sesgar los resultados obtenidos. Si los datos ausentes son no prescindibles conviene, por lo tanto, analizar el grado de aleatoriedad presente en los mismos.
  • 28.
  • 29. b) Datos ausentes aleatorios (MAR), en este caso el patrón de los datos ausentes en una variable Y no es aleatorio sino que depende de otras variables de la muestra X. Ahora bien, para cada valor de X, los valores observados de Y sí representan una muestra aleatoria de Y. Así, por ejemplo, si X es el género del encuestado e Y es su renta, un proceso MAR se tendría si existen más valores ausentes de Y en hombres que en mujeres y, sin embargo, los datos son aleatorios para ambos géneros en el sentido de que, tanto en los hombres
  • 30. en las mujeres, el patrón de ausentes es completamente aleatorio. Si, además, tampoco existen diferencias por género los datos ausentes serían MCAR. Si los datos ausentes son MAR cualquier solución al problema deberá tener en cuenta los valores de X dado que afectan al proceso generador de datos ausentes.
  • 31. c) Datos ausentes no aleatorios: en este caso existen patrones sistemáticos en el proceso de datos ausentes y habría que evaluar la magnitud del problema calibrando, en particular, el tamaño de los sesgos introducidos por dichos patrones. Si éstos son grandes habría que atacar el problema directamente intentando averiguar cuáles son dichos valores. Localización de datos ausentes El primer paso en el tratamiento de datos ausentes consiste en evaluar la magnitud del problema. Para ello se comienza analizando el porcentaje de datos ausentes por variables y por casos.
  • 32. Si existen casos con un alto porcentaje de datos ausentes se deberían excluir del problema. Así mismo si existe una variable con un alto porcentaje de este tipo de casos su exclusión dependerá de la importancia teórica de la misma y la posibilidad de ser reemplazada por variables con un contenido informativo similar. Como regla general, sin embargo, si dicha variable es dependiente debería ser eliminada ya que cualquier proceso de imputación de valores puede distorsionar la significación estadística y práctica de los modelos estimados para ella.
  • 33.
  • 34. b) Utilizar correlaciones dicotomizadas para evaluar la correlación de los datos ausentes en cualquier par de valores. Estas correlaciones indicarían el grado de asociación entre los valores perdidos sobre cada par de variables. Bajas correlaciones implican aleatoriedad en el par de variables y que los datos ausentes pueden clasificarse como MCAR. En caso contrario son MAR. c) Realizar hipótesis conjuntas de aleatoriedad que determinen si los datos ausentes pueden ser clasificados como MCAR. Estos contrastes analizan el patrón de datos ausentes sobre todas las variables y las compara con el patrón
  • 35. esperado para un proceso de datos ausentes aleatorio. Si no se encuentran diferencias significativas el proceso puede clasificarse como MCAR; en caso contrario deben utilizarse los procedimientos a) y b) anteriores para identificar los procesos específicos de datos ausentes que no son aleatorios. Aproximaciones al tratamiento de datos ausentes Si se encuentran procesos de datos ausentes MAR o no aleatorios, el investigador debería aplicar sólo el método diseñado específicamente para este proceso. Sólo si el investigador determina que el proceso de ausencia de datos puede clasificarse como MCAR pueden utilizarse las siguientes aproximaciones:
  • 36. a)Utilizar sólo los casos completos: conveniente si el tamaño muestral no se reduce demasiado. b) Supresión de casos y/o variables con una alta proporción de datos ausentes. Esta supresión deberá basarse en consideraciones teóricas y empíricas. En particular, si algún caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto que cualquier proceso de imputación puede distorsionar los modelos estimados. Así mismo una variable independiente con muchos datos ausentes podrá eliminarse si existen otras variables muy similares con datos observados.
  • 37. c) Imputar valores a los datos ausentes utilizando valores válidos de otras variables y/o casos de la muestra Métodos de imputación Los métodos de imputación pueden ser de tres tipos: 1) Métodos de disponibilidad completa que utilizan toda la información disponible a partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan habitualmente para estimar medias, varianzas y correlaciones
  • 38. 2) Métodos de sustitución que estiman valores de reemplazo para los datos ausentes, sobre la base de otra información existente en la muestra. Así se podría sustituir observaciones con datos ausentes por observaciones no muestrales o sustituir dichos datos por la media de los valores observados o mediante regresión sobre otras variables muy relacionadas con aquella a la que le faltan observaciones. 3) Métodos basados en modelos que construyen explícitamente el mecanismo por el que se producen los datos ausentes y lo estiman por máxima verosimilitud. Entran en esta categoría el algoritmo EM o los procesos de aumento de datos.
  • 39. Tarea: Con la base de datos asignada a cada grupo, realizar el análisis de datos ausentes.
  • 40.