SlideShare uma empresa Scribd logo
1 de 43
UNIVERSIDAD NACIONAL  MAYOR DE SAN MARCOS   Universidad del Perú, DECANA DE AMERICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA Mg. María Estela Ponce Aruneri ESCUELA  ACADÉMICO PROFESIONAL DE ESTADÍSTICA ANÁLISIS MULTIVARIANTE SEMESTRE ACADÉMÍCO 2009 -II
ANÁLISIS EXPLORATORIO DE DATOS MULTIVARIANTES
[object Object],La finalidad del Análisis Exploratorio de Datos es examinar los datos previamente a la aplicación de cualquier técnica estadística.  De esta forma el analista consigue un entendimiento básico de sus datos y de las relaciones existentes entre las variables analizadas. El AED proporciona métodos sencillos para organizar y preparar los datos, detectar fallas en el diseño y recogida de datos, tratamiento y evaluación de datos ausentes, identificación de casos atípicos y comprobación de los supuestos que requieren la mayor parte de las técnicas multivariantes.
2.- OBJETIVOS 1) Definir qué es el Análisis Exploratorio de Datos y cuáles son sus objetivos. 2) Indicar cuáles son las etapas a seguir en la realización de un A.E.D. 3) Seleccionar los métodos gráficos y numéricos apropiados para examinar las características de los datos y/o relaciones de interés. 4) Comprobar si se verifican algunas hipótesis de interés en los datos (normalidad, linealidad, homocedasticidad). 5) Identificar casos atípicos univariantes, bivariantes y multivariantes. 6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial.
¿QUÉ ES EL ANÁLISIS EXPLORATORIO DE DATOS? El Análisis Exploratorio de Datos es un conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas.  Para conseguir este objetivo el A.E.D. proporciona métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallas en el diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing), identificación de casos atípicos (outliers) y comprobación de los supuestos que requieren la mayor parte de las técnicas multivariantes
(normalidad, linealidad, homocedasticidad). El examen previo de los datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier análisis estadístico
ETAPAS DEL A.E.D. Para realizar un A.E.D. conviene seguir las siguientes etapas: 1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística. 2) Realizar un examen gráfico de la naturaleza de las variables individuales analizar y un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos. 3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un análisis descriptivo numérico que cuantifique el grado de interrelación existente entre ellas.
4) Evaluar, si fuera necesario, algunos supuestos básicos que requieren muchas técnicas estadísticas como, por ejemplo, la normalidad, linealidad y homocedasticidad. 5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que puedan ejercer en análisis estadísticos posteriores. 6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados.
PRIMERA ETAPA DEL AED: PREPARACIÓN DE LOS DATOS El primer paso en un A.E.D. es hacer accesible los datos a cualquier técnica estadística. Ello lleva la selección del método de entrada de los datos, así como la de un paquete estadístico adecuado para procesarlos. Los paquetes estadísticos son conjuntos de programas que implementan diversas técnicas estadísticas en un entorno común. Algunos de los más utilizados son SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA y últimamente MINITAB, S-PLUS, EVIEWS, STATGRAPHICS y MATLAB.
La codificación de los datos depende del tipo de variable. Los paquetes estadísticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena, numéricos, nominales, ordinales, etc). La inmensa mayoría de los paquetes estadísticos permite realizar manipulaciones de los datos previo a un análisis de los mismos. Algunas operaciones útiles son las siguientes: - Combinar conjuntos de datos de dos archivos distintos - Seleccionar subconjuntos de los datos - Dividir el archivo de los datos en varias partes - Transformar variables
- Ordenar casos - Agregar nuevos datos y/o variables - Eliminar datos y/o variables - Guardar datos y/o resultados Finalmente, y con el fin de descifrar con facilidad los datos almacenados, conviene asociar a la base de datos utilizada, un libro de códigos en el que se detallen los nombres de las variables utilizadas, su tipo y su rango de valores, su significado así como las fuentes de donde se han obtenido los datos.
SEGUNDA ETAPA DEL AED: ANÁLISIS ESTADÍSTICO UNIVARIADO Una vez organizados los datos, el segundo paso de un A.E.D. consiste en realizar una análisis estadístico gráfico y numérico (medidas resumen) de las variables del problema con el fin de tener una idea inicial de la información contenida en el conjunto de datos, así como detectar la existencia de posibles errores en la codificación de los mismos.
El tipo de análisis a realizar depende de la escala de medida de la variable bajo estudio. En la Tabla 1 se sugieren las representaciones gráficas y resúmenes descriptivos numéricos más aconsejables para realizar dicho análisis. En dicha Tabla se sobreentiende que las escalas más informativas pueden utilizar las medidas numéricas y representaciones gráficas de las escalas menos informativas además de las suyas propias (razón > intervalo > ordinal > nominal).
Tabla 1 Medidas Descriptivas Numéricas y Representaciones Gráficas aconsejadas en función de la escala de medida de la variable ESCALA DE MEDIDA REPRESENTACIÓN GRÁFICA MEDIDA DE TENDENCIA CENTRAL MEDIDA DE DISPERSIÓN MEDIDA DE ASIMETRÍA Y CURTOSIS NOMINAL Diagrama de barras, líneas y sectores Moda IVQ y EN ORDINAL Gráficos de cajas Mediana, Media truncada Rango intercuartílico CVQ SP 50,  SP  90 K 2 ,  K 3 INTERVALO Histograma, polígonos de frecuencias Media Desviación estándar Medidas clásicas o la que se basan en la distancia de mahalanobis RAZÓN Media geométrica Coeficiente de variación
Los gráficos y medidas resumen presentados, nos permite evaluar la naturaleza de cada variable en forma individual. Tarea: Con la base de datos asignada a cada grupo, realizar el análisis estadístico univariado .
TERCERA ETAPA DEL AED: ANÁLISIS ESTADÍSTICO BIVARIADO Una vez realizado el estudio unidimensional de cada variable por separado, el siguiente paso consiste en analizar la existencia de posibles relaciones entre ellas. Dicho estudio puede realizarse desde una óptica bivariada o multivariado. En esta sección centraremos nuestra atención en el análisis bivariado. Las tres situaciones generales que pueden presentarse en este caso son las siguientes: 1) Ambas variables son cualitativas. 2) Ambas variables son cuantitativas. 3) Una variable es cuantitativa y la otra cualitativa.
[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
Cuando las variables no están relacionadas linealmente entre sí, el coeficiente de correlación lineal es cero. Para interpretar este coeficiente conviene mirar siempre el diagrama de dispersión de los datos para comprobar que son homogéneos y que no existen datos atípicos. La existencia de correlación no implica una relación de causalidad entre las variables ni, en general, la no existencia de correlación permite deducir falta de causalidad. Cuando se estudia la relación entre dos variables es importante asegurarse de que los individuos estudiados son homogéneos respecto a dichas variables. La siguiente figura muestra dos casos frecuentes de heterogeneidad .
En el caso (a) hay un dato atípico o discordante con el resto, que modifica el signo de la correlación. Puede comprobarse que si el punto  A  no existiese, el  coeficiente de correlación sería positivo, mientras que su presencia hace la correlación negativa.
Ante una situación como ésta conviene asegurase de que no se ha cometido un error de medida o de trascripción del dato y que el individuo de la población al que le corresponde el dato atípico es homogéneo con respecto a los demás. La figura (b) presenta otro caso de heterogeneidad. En este caso el gráfico indica que la relación entre las variables es distinta para los individuos del grupo  A  que para los del  B  y si calculamos un coeficiente de correlación para todos los datos obtendremos un valor muy pequeño. Sin embargo, si obtenemos los coeficientes para los grupos  A  y  B  separadamente, encontraremos que dentro de cada grupo hay una relación fuerte.
La conclusión fundamental de este análisis es que conviene asegurarse mirando el gráfico de dispersión que el coeficiente es un buen resumen del mismo. Tratar de interpretar un coeficiente de correlación sin haber visto previamente el gráfico de las variables puede ser muy peligroso. ,[object Object],[object Object],[object Object]
Diagramas de dispersión matriciales Existen muchos tipos de gráficos de dispersión, pero un formato que se ajusta particularmente cuando se aplican técnicas multivariantes son los llamados  diagramas de dispersión matriciales que permiten analizar, de forma simultánea, las relaciones existentes  entre un grupo de variables cuantitativas. Consisten en representar los diagramas de dispersión para todas las combinaciones de las variables analizadas. Con  p  variables existen, por lo tanto,  p(p-1)/2  gráficos posibles, que pueden disponerse en forma de matriz para entender el tipo de relación existente entre los distintos pares de variables.
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Análisis de una variable cuantitativa y otra cualitativa . Cuando se dispone de una variable cuantitativa y otra cualitativa, el estudio se enfoca como un problema de comparación del comportamiento de la variable numérica en las diferentes subpoblaciones que define la variable cualitativa. Ignorar la heterogeneidad debida a la presencia de subpoblaciones puede conducir a conclusiones equivocadas en el análisis. Métodos a utilizar: Gráfico  de cajas. Índice de asociación de Cohen, Eta, Biserial puntual, biserial, tetracórico, etc.
Tarea: Con la base de datos asignada a cada grupo, realizar el análisis estadístico bivariado .
CUARTA ETAPA DEL AED: SUPUESTOS BÁSICOS  Muchas técnicas estadísticas requieren el cumplimiento de determinados supuestos antes de aplicarlas; por ejemplo, la normalidad, linealidad y homocedasticidad. 1° Linealidad ;   es un supuesto implícito de todas las técnicas multivariantes basadas  en medidas de correlación, tales como la regresión múltiple, regresión logística, análisis componentes principales,  análisis factorial y los modelos de ecuaciones estructurales.
Dado que las correlaciones representan sólo la asociación lineal entre variables, los efectos no lineales no estarán representados en el valor de la correlación.  Como resultado, es siempre prudente examinar todas las relaciones para identificar cualquier desplazamiento de la linealidad que pueda impactar la correlación. La forma más común de evaluar la linealidad es examinar los gráficos de dispersión de las variables e identificar cualquier pauta no lineal en los datos.  En la etapa 3, se mencionaron gráficos  y medidas para evaluar la linealidad bivariada y multivariada.
2° Normalidad;   muchos métodos estadísticos se basan en la hipótesis de normalidad de la variable objeto de estudio. De hecho, si la falta de normalidad de la variable es suficientemente fuerte, muchos de los contrastes utilizados en los análisis estadístico-inferenciales no son válidos.  Incluso aunque las muestras grandes tiendan a disminuir los efectos perniciosos de la no normalidad, el investigador debería evaluar la normalidad de todas las variables incluidas en el análisis. Existen varios métodos para evaluar la normalidad de un conjunto de datos: los  métodos gráficos y las pruebas de  hipótesis.
[object Object],[object Object],[object Object]
Los diagramas de cuantiles comparan en un sistema de coordenadas cartesianas, los cuantiles muestrales (eje X) con los cuantiles esperados bajo la hipótesis normalidad.  Si la distribución de partida es normal dichos diagramas tenderán a ser rectas que pasan por el origen. Cuanto más se desvíen de una recta menos normales serán los datos.  En la siguiente figura se muestran posibles diagramas de cuantiles según la forma de la distribución de frecuencias.
[object Object],[object Object],[object Object],[object Object],[object Object]
Otras pruebas  muy utilizadas son los  tests de asimetría y curtosis  cuyos estadísticos muestrales vienen dados por:
Las hipótesis en todos los casos es: Ho : La variable X tiene distribución normal. H 1  : La variable X no tiene distribución normal . En ocasiones la falta de normalidad de una variable puede arreglarse mediante una transformación de la misma. En la Tabla siguiente se muestran algunas de las transformaciones más utilizadas:
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
ii) Pruebas de Hipótesis Mardia en 1970 propuso el siguiente test que se basa en las medidas de asimetría y kurtosis. Ho: La distribución de X nxp  es simétrica H1: La distribución de X nxp  no es simétrica Utlizaremos la siguiente estadística : Rechazaremos la hipótesis nula con un nivel de significación “  ” si:
Ho: La distribución de X nxp  es mesocúrtica H 1 : La distribución de X nxp  no es mesocúrtica La estadística de prueba es: Rechazaremos la hipótesis nula con un nivel de significación “  ” si:
Sí las dos hipótesis no son rechazadas, podemos afirmar que los datos tienen distribución normal p-variada; aunque para casos prácticos es suficiente que se cumpla la  simetría de la distribución. La potencia del test es adecuada si el tamaño de muestra es muy grande. Situaciones  por las que se rechaza la hipótesis de normalidad p-variada: 1º Presencia de datos atípicos, a pesar que se las distribuciones marginales son aproximadamente simétricas y las relaciones entre las variables son lineales.
2º Algunas o todas distribuciones marginales son asimétricas y las relaciones entre las variables son no lineales . Tarea: Con la base de datos asignada a cada grupo, verificar si se cumplen  los supuestos básicos.
[object Object],[object Object],[object Object],[object Object],[object Object]

Mais conteúdo relacionado

Mais procurados

Heteroscedasticidad
HeteroscedasticidadHeteroscedasticidad
HeteroscedasticidadUTPL UTPL
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónAlvaro Chavez
 
Diagrama de relaciones y la gestion de calidad
Diagrama de relaciones y la gestion de calidadDiagrama de relaciones y la gestion de calidad
Diagrama de relaciones y la gestion de calidadRoberto Espinoza
 
Medidas de Distribución: Asimetrias y Curtosis
Medidas de Distribución: Asimetrias y CurtosisMedidas de Distribución: Asimetrias y Curtosis
Medidas de Distribución: Asimetrias y CurtosisMSc. Alexander Nuñez
 
Solucion de problemas
Solucion de problemasSolucion de problemas
Solucion de problemas91909373
 
Diapositivas de metodos no parametricos
Diapositivas de metodos no parametricosDiapositivas de metodos no parametricos
Diapositivas de metodos no parametricosMarlon Villacis
 
Formulario de intervalos de confianza 2012-2 (1)
Formulario de intervalos de confianza 2012-2 (1)Formulario de intervalos de confianza 2012-2 (1)
Formulario de intervalos de confianza 2012-2 (1)ITS CONSULTORIAS S.A.C
 
Examen del basico2003
Examen del basico2003Examen del basico2003
Examen del basico2003franciscoe71
 
Introd. a estadistica inferencial y distribución normal
Introd. a estadistica inferencial y distribución normalIntrod. a estadistica inferencial y distribución normal
Introd. a estadistica inferencial y distribución normalOscar Barrera
 
6993547 analisis-de-autocorrelacion
6993547 analisis-de-autocorrelacion6993547 analisis-de-autocorrelacion
6993547 analisis-de-autocorrelacionErika Romero
 
Cuadro comparativo estadistica parametrica y no parametrica
Cuadro comparativo estadistica parametrica y no parametricaCuadro comparativo estadistica parametrica y no parametrica
Cuadro comparativo estadistica parametrica y no parametricaMarianaSandoval24
 
REGRESIÓN Y CORRELACIÓN LINEAL
REGRESIÓN Y CORRELACIÓN LINEALREGRESIÓN Y CORRELACIÓN LINEAL
REGRESIÓN Y CORRELACIÓN LINEALJesús Paredes
 

Mais procurados (20)

Heteroscedasticidad
HeteroscedasticidadHeteroscedasticidad
Heteroscedasticidad
 
Anova
AnovaAnova
Anova
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlación
 
Diagrama de relaciones y la gestion de calidad
Diagrama de relaciones y la gestion de calidadDiagrama de relaciones y la gestion de calidad
Diagrama de relaciones y la gestion de calidad
 
Medidas de Distribución: Asimetrias y Curtosis
Medidas de Distribución: Asimetrias y CurtosisMedidas de Distribución: Asimetrias y Curtosis
Medidas de Distribución: Asimetrias y Curtosis
 
Pruebas No Parametricas
Pruebas No ParametricasPruebas No Parametricas
Pruebas No Parametricas
 
Solucion de problemas
Solucion de problemasSolucion de problemas
Solucion de problemas
 
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLEREGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE
 
Ejercicios macro i 2003 bgc
Ejercicios macro i 2003 bgcEjercicios macro i 2003 bgc
Ejercicios macro i 2003 bgc
 
Diapositivas de metodos no parametricos
Diapositivas de metodos no parametricosDiapositivas de metodos no parametricos
Diapositivas de metodos no parametricos
 
Formulario de intervalos de confianza 2012-2 (1)
Formulario de intervalos de confianza 2012-2 (1)Formulario de intervalos de confianza 2012-2 (1)
Formulario de intervalos de confianza 2012-2 (1)
 
1ra clase estadistica y variables
1ra clase estadistica y variables1ra clase estadistica y variables
1ra clase estadistica y variables
 
Análisis de Varianza (ANOVA)
Análisis de Varianza (ANOVA)Análisis de Varianza (ANOVA)
Análisis de Varianza (ANOVA)
 
Examen del basico2003
Examen del basico2003Examen del basico2003
Examen del basico2003
 
Prueba de ks
Prueba de ksPrueba de ks
Prueba de ks
 
R76502
R76502R76502
R76502
 
Introd. a estadistica inferencial y distribución normal
Introd. a estadistica inferencial y distribución normalIntrod. a estadistica inferencial y distribución normal
Introd. a estadistica inferencial y distribución normal
 
6993547 analisis-de-autocorrelacion
6993547 analisis-de-autocorrelacion6993547 analisis-de-autocorrelacion
6993547 analisis-de-autocorrelacion
 
Cuadro comparativo estadistica parametrica y no parametrica
Cuadro comparativo estadistica parametrica y no parametricaCuadro comparativo estadistica parametrica y no parametrica
Cuadro comparativo estadistica parametrica y no parametrica
 
REGRESIÓN Y CORRELACIÓN LINEAL
REGRESIÓN Y CORRELACIÓN LINEALREGRESIÓN Y CORRELACIÓN LINEAL
REGRESIÓN Y CORRELACIÓN LINEAL
 

Destaque

Redaccion investigación
Redaccion investigaciónRedaccion investigación
Redaccion investigaciónFlor Salaiza L.
 
Modulo 1 regresión y series temporales
Modulo 1  regresión y  series temporalesModulo 1  regresión y  series temporales
Modulo 1 regresión y series temporalesidea
 
Introducción al análisis geoestadístico con geostatistical analyst
Introducción al análisis geoestadístico con geostatistical analystIntroducción al análisis geoestadístico con geostatistical analyst
Introducción al análisis geoestadístico con geostatistical analystAlberca Ambar
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 

Destaque (6)

Redaccion investigación
Redaccion investigaciónRedaccion investigación
Redaccion investigación
 
Modulo 1 regresión y series temporales
Modulo 1  regresión y  series temporalesModulo 1  regresión y  series temporales
Modulo 1 regresión y series temporales
 
Estadistica aed
Estadistica aedEstadistica aed
Estadistica aed
 
Introducción al análisis geoestadístico con geostatistical analyst
Introducción al análisis geoestadístico con geostatistical analystIntroducción al análisis geoestadístico con geostatistical analyst
Introducción al análisis geoestadístico con geostatistical analyst
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Exposicion riesgos físicos
Exposicion riesgos físicosExposicion riesgos físicos
Exposicion riesgos físicos
 

Semelhante a Análisis exploratorio de datos multivariantes UNMSM

Semelhante a Análisis exploratorio de datos multivariantes UNMSM (20)

Análisis de Datos
Análisis de DatosAnálisis de Datos
Análisis de Datos
 
Lectura unidad 9
Lectura unidad 9Lectura unidad 9
Lectura unidad 9
 
7 herramientas control de calidad
7 herramientas control de calidad7 herramientas control de calidad
7 herramientas control de calidad
 
EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdf
EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdfEL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdf
EL ANÁLISIS PREVIO Y EXPLORATORIO DE DATOS.pdf
 
Análisis de datos maritza 2018
Análisis de datos maritza 2018Análisis de datos maritza 2018
Análisis de datos maritza 2018
 
Tema estadistica
Tema estadisticaTema estadistica
Tema estadistica
 
Tema estadistica
Tema estadisticaTema estadistica
Tema estadistica
 
analizis cuantitativo de datos
analizis cuantitativo de datosanalizis cuantitativo de datos
analizis cuantitativo de datos
 
Tema estadistica
Tema estadisticaTema estadistica
Tema estadistica
 
Anlisisdedatos 100403185738-phpapp02
Anlisisdedatos 100403185738-phpapp02Anlisisdedatos 100403185738-phpapp02
Anlisisdedatos 100403185738-phpapp02
 
Analisis de datos - Javier Mauricio Forero Forero.pptx
Analisis de datos  - Javier Mauricio Forero Forero.pptxAnalisis de datos  - Javier Mauricio Forero Forero.pptx
Analisis de datos - Javier Mauricio Forero Forero.pptx
 
Diccionario estadistica
Diccionario estadisticaDiccionario estadistica
Diccionario estadistica
 
Glosario de estadistica
Glosario de estadisticaGlosario de estadistica
Glosario de estadistica
 
Libro estadistica conceptos
Libro estadistica conceptosLibro estadistica conceptos
Libro estadistica conceptos
 
Diccionario estadistico
Diccionario estadisticoDiccionario estadistico
Diccionario estadistico
 
Glosario estadistico
Glosario estadisticoGlosario estadistico
Glosario estadistico
 
GUÍA DE TÉRMINOS ESTADÍSTICO
GUÍA DE TÉRMINOS ESTADÍSTICO GUÍA DE TÉRMINOS ESTADÍSTICO
GUÍA DE TÉRMINOS ESTADÍSTICO
 
Copia de taller 2.pptx
Copia de taller 2.pptxCopia de taller 2.pptx
Copia de taller 2.pptx
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Estadistica trabajo 1 carlos marcano
Estadistica trabajo 1 carlos marcanoEstadistica trabajo 1 carlos marcano
Estadistica trabajo 1 carlos marcano
 

Mais de jpgv84

directorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdfdirectorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdfjpgv84
 
RIESGO OPERACIONAL.pptx
RIESGO OPERACIONAL.pptxRIESGO OPERACIONAL.pptx
RIESGO OPERACIONAL.pptxjpgv84
 
Capacitacion de RO 2023.pptx
Capacitacion de RO 2023.pptxCapacitacion de RO 2023.pptx
Capacitacion de RO 2023.pptxjpgv84
 
Corel draw
Corel drawCorel draw
Corel drawjpgv84
 
La perfeccion Matematica y el amor a Dios
La perfeccion Matematica y el amor a DiosLa perfeccion Matematica y el amor a Dios
La perfeccion Matematica y el amor a Diosjpgv84
 
Invitació..
Invitació..Invitació..
Invitació..jpgv84
 
El Abc De La ComputacióN Escolar
El Abc De La ComputacióN EscolarEl Abc De La ComputacióN Escolar
El Abc De La ComputacióN Escolarjpgv84
 
6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte Ijpgv84
 
3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariante3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariantejpgv84
 
2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Ii2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Iijpgv84
 
5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte IIjpgv84
 
2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte I2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte Ijpgv84
 
EstadíStica Descriptiva
EstadíStica DescriptivaEstadíStica Descriptiva
EstadíStica Descriptivajpgv84
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística Descriptivajpgv84
 
EstadÍstica Descriptiva
EstadÍstica DescriptivaEstadÍstica Descriptiva
EstadÍstica Descriptivajpgv84
 
Razones Trigonometricas
Razones TrigonometricasRazones Trigonometricas
Razones Trigonometricasjpgv84
 
Webquest Nociones De Estadistica
Webquest Nociones De EstadisticaWebquest Nociones De Estadistica
Webquest Nociones De Estadisticajpgv84
 
Circunferencia TrigonoméTrica
Circunferencia TrigonoméTricaCircunferencia TrigonoméTrica
Circunferencia TrigonoméTricajpgv84
 
Lineas Seno, Coseno Y Tangente
Lineas Seno, Coseno Y TangenteLineas Seno, Coseno Y Tangente
Lineas Seno, Coseno Y Tangentejpgv84
 

Mais de jpgv84 (19)

directorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdfdirectorio_lima_metropolitana_y_lima_provincias_(2).pdf
directorio_lima_metropolitana_y_lima_provincias_(2).pdf
 
RIESGO OPERACIONAL.pptx
RIESGO OPERACIONAL.pptxRIESGO OPERACIONAL.pptx
RIESGO OPERACIONAL.pptx
 
Capacitacion de RO 2023.pptx
Capacitacion de RO 2023.pptxCapacitacion de RO 2023.pptx
Capacitacion de RO 2023.pptx
 
Corel draw
Corel drawCorel draw
Corel draw
 
La perfeccion Matematica y el amor a Dios
La perfeccion Matematica y el amor a DiosLa perfeccion Matematica y el amor a Dios
La perfeccion Matematica y el amor a Dios
 
Invitació..
Invitació..Invitació..
Invitació..
 
El Abc De La ComputacióN Escolar
El Abc De La ComputacióN EscolarEl Abc De La ComputacióN Escolar
El Abc De La ComputacióN Escolar
 
6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I
 
3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariante3° Y 4° Semana Analisis Multivariante
3° Y 4° Semana Analisis Multivariante
 
2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Ii2 Semana Analisis Multivariante Parte Ii
2 Semana Analisis Multivariante Parte Ii
 
5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II
 
2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte I2 Semana Analisis Multivariante Parte I
2 Semana Analisis Multivariante Parte I
 
EstadíStica Descriptiva
EstadíStica DescriptivaEstadíStica Descriptiva
EstadíStica Descriptiva
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística Descriptiva
 
EstadÍstica Descriptiva
EstadÍstica DescriptivaEstadÍstica Descriptiva
EstadÍstica Descriptiva
 
Razones Trigonometricas
Razones TrigonometricasRazones Trigonometricas
Razones Trigonometricas
 
Webquest Nociones De Estadistica
Webquest Nociones De EstadisticaWebquest Nociones De Estadistica
Webquest Nociones De Estadistica
 
Circunferencia TrigonoméTrica
Circunferencia TrigonoméTricaCircunferencia TrigonoméTrica
Circunferencia TrigonoméTrica
 
Lineas Seno, Coseno Y Tangente
Lineas Seno, Coseno Y TangenteLineas Seno, Coseno Y Tangente
Lineas Seno, Coseno Y Tangente
 

Último

Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...JonathanCovena1
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfMaryRotonda1
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdfDemetrio Ccesa Rayme
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Carlos Muñoz
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dstEphaniiie
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptELENA GALLARDO PAÚLS
 
texto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticostexto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticosisabeltrejoros
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxKarlaMassielMartinez
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxzulyvero07
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxMaritzaRetamozoVera
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoFundación YOD YOD
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Lourdes Feria
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSjlorentemartos
 

Último (20)

Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdf
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdf
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes d
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
 
texto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticostexto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticos
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
 
Medición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptxMedición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptx
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docx
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativo
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
 

Análisis exploratorio de datos multivariantes UNMSM

  • 1. UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS   Universidad del Perú, DECANA DE AMERICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA Mg. María Estela Ponce Aruneri ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA ANÁLISIS MULTIVARIANTE SEMESTRE ACADÉMÍCO 2009 -II
  • 2. ANÁLISIS EXPLORATORIO DE DATOS MULTIVARIANTES
  • 3.
  • 4. 2.- OBJETIVOS 1) Definir qué es el Análisis Exploratorio de Datos y cuáles son sus objetivos. 2) Indicar cuáles son las etapas a seguir en la realización de un A.E.D. 3) Seleccionar los métodos gráficos y numéricos apropiados para examinar las características de los datos y/o relaciones de interés. 4) Comprobar si se verifican algunas hipótesis de interés en los datos (normalidad, linealidad, homocedasticidad). 5) Identificar casos atípicos univariantes, bivariantes y multivariantes. 6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial.
  • 5. ¿QUÉ ES EL ANÁLISIS EXPLORATORIO DE DATOS? El Análisis Exploratorio de Datos es un conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallas en el diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing), identificación de casos atípicos (outliers) y comprobación de los supuestos que requieren la mayor parte de las técnicas multivariantes
  • 6. (normalidad, linealidad, homocedasticidad). El examen previo de los datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier análisis estadístico
  • 7. ETAPAS DEL A.E.D. Para realizar un A.E.D. conviene seguir las siguientes etapas: 1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística. 2) Realizar un examen gráfico de la naturaleza de las variables individuales analizar y un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos. 3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un análisis descriptivo numérico que cuantifique el grado de interrelación existente entre ellas.
  • 8. 4) Evaluar, si fuera necesario, algunos supuestos básicos que requieren muchas técnicas estadísticas como, por ejemplo, la normalidad, linealidad y homocedasticidad. 5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que puedan ejercer en análisis estadísticos posteriores. 6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados.
  • 9. PRIMERA ETAPA DEL AED: PREPARACIÓN DE LOS DATOS El primer paso en un A.E.D. es hacer accesible los datos a cualquier técnica estadística. Ello lleva la selección del método de entrada de los datos, así como la de un paquete estadístico adecuado para procesarlos. Los paquetes estadísticos son conjuntos de programas que implementan diversas técnicas estadísticas en un entorno común. Algunos de los más utilizados son SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA y últimamente MINITAB, S-PLUS, EVIEWS, STATGRAPHICS y MATLAB.
  • 10. La codificación de los datos depende del tipo de variable. Los paquetes estadísticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena, numéricos, nominales, ordinales, etc). La inmensa mayoría de los paquetes estadísticos permite realizar manipulaciones de los datos previo a un análisis de los mismos. Algunas operaciones útiles son las siguientes: - Combinar conjuntos de datos de dos archivos distintos - Seleccionar subconjuntos de los datos - Dividir el archivo de los datos en varias partes - Transformar variables
  • 11. - Ordenar casos - Agregar nuevos datos y/o variables - Eliminar datos y/o variables - Guardar datos y/o resultados Finalmente, y con el fin de descifrar con facilidad los datos almacenados, conviene asociar a la base de datos utilizada, un libro de códigos en el que se detallen los nombres de las variables utilizadas, su tipo y su rango de valores, su significado así como las fuentes de donde se han obtenido los datos.
  • 12. SEGUNDA ETAPA DEL AED: ANÁLISIS ESTADÍSTICO UNIVARIADO Una vez organizados los datos, el segundo paso de un A.E.D. consiste en realizar una análisis estadístico gráfico y numérico (medidas resumen) de las variables del problema con el fin de tener una idea inicial de la información contenida en el conjunto de datos, así como detectar la existencia de posibles errores en la codificación de los mismos.
  • 13. El tipo de análisis a realizar depende de la escala de medida de la variable bajo estudio. En la Tabla 1 se sugieren las representaciones gráficas y resúmenes descriptivos numéricos más aconsejables para realizar dicho análisis. En dicha Tabla se sobreentiende que las escalas más informativas pueden utilizar las medidas numéricas y representaciones gráficas de las escalas menos informativas además de las suyas propias (razón > intervalo > ordinal > nominal).
  • 14. Tabla 1 Medidas Descriptivas Numéricas y Representaciones Gráficas aconsejadas en función de la escala de medida de la variable ESCALA DE MEDIDA REPRESENTACIÓN GRÁFICA MEDIDA DE TENDENCIA CENTRAL MEDIDA DE DISPERSIÓN MEDIDA DE ASIMETRÍA Y CURTOSIS NOMINAL Diagrama de barras, líneas y sectores Moda IVQ y EN ORDINAL Gráficos de cajas Mediana, Media truncada Rango intercuartílico CVQ SP 50, SP 90 K 2 , K 3 INTERVALO Histograma, polígonos de frecuencias Media Desviación estándar Medidas clásicas o la que se basan en la distancia de mahalanobis RAZÓN Media geométrica Coeficiente de variación
  • 15.
  • 16. Los gráficos y medidas resumen presentados, nos permite evaluar la naturaleza de cada variable en forma individual. Tarea: Con la base de datos asignada a cada grupo, realizar el análisis estadístico univariado .
  • 17. TERCERA ETAPA DEL AED: ANÁLISIS ESTADÍSTICO BIVARIADO Una vez realizado el estudio unidimensional de cada variable por separado, el siguiente paso consiste en analizar la existencia de posibles relaciones entre ellas. Dicho estudio puede realizarse desde una óptica bivariada o multivariado. En esta sección centraremos nuestra atención en el análisis bivariado. Las tres situaciones generales que pueden presentarse en este caso son las siguientes: 1) Ambas variables son cualitativas. 2) Ambas variables son cuantitativas. 3) Una variable es cuantitativa y la otra cualitativa.
  • 18.
  • 19.
  • 20.
  • 21. Cuando las variables no están relacionadas linealmente entre sí, el coeficiente de correlación lineal es cero. Para interpretar este coeficiente conviene mirar siempre el diagrama de dispersión de los datos para comprobar que son homogéneos y que no existen datos atípicos. La existencia de correlación no implica una relación de causalidad entre las variables ni, en general, la no existencia de correlación permite deducir falta de causalidad. Cuando se estudia la relación entre dos variables es importante asegurarse de que los individuos estudiados son homogéneos respecto a dichas variables. La siguiente figura muestra dos casos frecuentes de heterogeneidad .
  • 22. En el caso (a) hay un dato atípico o discordante con el resto, que modifica el signo de la correlación. Puede comprobarse que si el punto A no existiese, el coeficiente de correlación sería positivo, mientras que su presencia hace la correlación negativa.
  • 23. Ante una situación como ésta conviene asegurase de que no se ha cometido un error de medida o de trascripción del dato y que el individuo de la población al que le corresponde el dato atípico es homogéneo con respecto a los demás. La figura (b) presenta otro caso de heterogeneidad. En este caso el gráfico indica que la relación entre las variables es distinta para los individuos del grupo A que para los del B y si calculamos un coeficiente de correlación para todos los datos obtendremos un valor muy pequeño. Sin embargo, si obtenemos los coeficientes para los grupos A y B separadamente, encontraremos que dentro de cada grupo hay una relación fuerte.
  • 24.
  • 25. Diagramas de dispersión matriciales Existen muchos tipos de gráficos de dispersión, pero un formato que se ajusta particularmente cuando se aplican técnicas multivariantes son los llamados diagramas de dispersión matriciales que permiten analizar, de forma simultánea, las relaciones existentes entre un grupo de variables cuantitativas. Consisten en representar los diagramas de dispersión para todas las combinaciones de las variables analizadas. Con p variables existen, por lo tanto, p(p-1)/2 gráficos posibles, que pueden disponerse en forma de matriz para entender el tipo de relación existente entre los distintos pares de variables.
  • 26.
  • 27. Análisis de una variable cuantitativa y otra cualitativa . Cuando se dispone de una variable cuantitativa y otra cualitativa, el estudio se enfoca como un problema de comparación del comportamiento de la variable numérica en las diferentes subpoblaciones que define la variable cualitativa. Ignorar la heterogeneidad debida a la presencia de subpoblaciones puede conducir a conclusiones equivocadas en el análisis. Métodos a utilizar: Gráfico de cajas. Índice de asociación de Cohen, Eta, Biserial puntual, biserial, tetracórico, etc.
  • 28. Tarea: Con la base de datos asignada a cada grupo, realizar el análisis estadístico bivariado .
  • 29. CUARTA ETAPA DEL AED: SUPUESTOS BÁSICOS Muchas técnicas estadísticas requieren el cumplimiento de determinados supuestos antes de aplicarlas; por ejemplo, la normalidad, linealidad y homocedasticidad. 1° Linealidad ; es un supuesto implícito de todas las técnicas multivariantes basadas en medidas de correlación, tales como la regresión múltiple, regresión logística, análisis componentes principales, análisis factorial y los modelos de ecuaciones estructurales.
  • 30. Dado que las correlaciones representan sólo la asociación lineal entre variables, los efectos no lineales no estarán representados en el valor de la correlación. Como resultado, es siempre prudente examinar todas las relaciones para identificar cualquier desplazamiento de la linealidad que pueda impactar la correlación. La forma más común de evaluar la linealidad es examinar los gráficos de dispersión de las variables e identificar cualquier pauta no lineal en los datos. En la etapa 3, se mencionaron gráficos y medidas para evaluar la linealidad bivariada y multivariada.
  • 31. 2° Normalidad; muchos métodos estadísticos se basan en la hipótesis de normalidad de la variable objeto de estudio. De hecho, si la falta de normalidad de la variable es suficientemente fuerte, muchos de los contrastes utilizados en los análisis estadístico-inferenciales no son válidos. Incluso aunque las muestras grandes tiendan a disminuir los efectos perniciosos de la no normalidad, el investigador debería evaluar la normalidad de todas las variables incluidas en el análisis. Existen varios métodos para evaluar la normalidad de un conjunto de datos: los métodos gráficos y las pruebas de hipótesis.
  • 32.
  • 33. Los diagramas de cuantiles comparan en un sistema de coordenadas cartesianas, los cuantiles muestrales (eje X) con los cuantiles esperados bajo la hipótesis normalidad. Si la distribución de partida es normal dichos diagramas tenderán a ser rectas que pasan por el origen. Cuanto más se desvíen de una recta menos normales serán los datos. En la siguiente figura se muestran posibles diagramas de cuantiles según la forma de la distribución de frecuencias.
  • 34.
  • 35.
  • 36. Otras pruebas muy utilizadas son los tests de asimetría y curtosis cuyos estadísticos muestrales vienen dados por:
  • 37. Las hipótesis en todos los casos es: Ho : La variable X tiene distribución normal. H 1 : La variable X no tiene distribución normal . En ocasiones la falta de normalidad de una variable puede arreglarse mediante una transformación de la misma. En la Tabla siguiente se muestran algunas de las transformaciones más utilizadas:
  • 38.
  • 39. ii) Pruebas de Hipótesis Mardia en 1970 propuso el siguiente test que se basa en las medidas de asimetría y kurtosis. Ho: La distribución de X nxp es simétrica H1: La distribución de X nxp no es simétrica Utlizaremos la siguiente estadística : Rechazaremos la hipótesis nula con un nivel de significación “  ” si:
  • 40. Ho: La distribución de X nxp es mesocúrtica H 1 : La distribución de X nxp no es mesocúrtica La estadística de prueba es: Rechazaremos la hipótesis nula con un nivel de significación “  ” si:
  • 41. Sí las dos hipótesis no son rechazadas, podemos afirmar que los datos tienen distribución normal p-variada; aunque para casos prácticos es suficiente que se cumpla la simetría de la distribución. La potencia del test es adecuada si el tamaño de muestra es muy grande. Situaciones por las que se rechaza la hipótesis de normalidad p-variada: 1º Presencia de datos atípicos, a pesar que se las distribuciones marginales son aproximadamente simétricas y las relaciones entre las variables son lineales.
  • 42. 2º Algunas o todas distribuciones marginales son asimétricas y las relaciones entre las variables son no lineales . Tarea: Con la base de datos asignada a cada grupo, verificar si se cumplen los supuestos básicos.
  • 43.