LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
Análisis multivariante: qué es y aplicaciones
1. UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE CIENCIAS MATEMÁTICAS ( Universidad del Perú, DECANA DE AMERICA) Mg. María Estela Ponce Aruneri ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA SEMESTRE 2009-II
2. QUÉ ES EL ANÁLISIS MULTIVARIANTE? Es el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para cada individuo ú objeto estudiado. Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio obteniendo información que los métodos estadísticos univariantes y bivariantes no pueden proporcionar.
3. Así, como Hair et al. (1999) dicen: “ Las mujeres y hombres de negocios de hoy no pueden seguir aproximaciones ya pasadas en las que los consumidores eran considerados homogéneos y caracterizados por un número pequeño de variables demográficas. En su lugar, deben desarrollar estrategias que atraigan a numerosos segmentos de clientes con características demográficas y psicográficas diversas en un mercado con múltiples restricciones (legales, económicas, competitivas, tecnológicas, etc). Sólo a través del análisis multivariante las relaciones múltiples de este tipo podrán ser examinadas adecuadamente para obtener un entendimiento más completo y real del entorno que permita tomar las decisiónes más adecuadas .”
4.
5.
6.
7. CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES El tipo de relación que está siendo examinadas es de: Dependencia Interdependencia. La estructura de la relación es entre: Variables. C.P. Análisis Factorial Modelos loglineal. Casos. Análisis Cluster Objetos. Escalamiento multidimensional. Análisis de Corresponden -cias una Variable dependiente Varias Variables dependientes Métrica. Regresión Múltiple. Análisis de supervivencia. No métrica. Análisis Discriminante. Modelos de Regresión Logística. Análisis Conjunto. Métricas. Manova. Correlación Canónica.
8.
9.
10.
11. Sociología: Con referencia a determinadas características sociales, políticas y geográficas se mide la similaridad de un grupo de naciones. (Escalamiento Multdimensional). Psicología : Los resultados de un test de inteligencia de “n” ítems basados en una muestra. Para detectar los factores de la inteligencia (Análisis Factorial).
12.
13.
14. MATRIZ DE DATOS Llamaremos X a la matriz de datos y x ij a su elemento genérico que representa el valor de la variable j sobre el individuo i. donde i = 1, ..., n y j = 1, ..., p. La matriz de datos X tendrá dimensiones n × p y puede representarse de dos formas distintas. Por filas como: donde cada variable X’ i es un vector fila p ×1 que representa los valores de las p variables sobre el individuo “i”.
15. Alternativamente podemos representar la matriz X por columnas: donde ahora cada variable X j es un vector columna n × 1 que representa la variable “j”, medida en los n elementos de la población.
16. ESTADÍSTICOS MULTIVARIADOS Vector de Medias muestral Es la medida de centralización más utilizada para describir datos multivariantes, tiene dimensión p y recoge las medias de cada una de las p variables. Se calcula fácilmente mediante:
17. Ejemplo: Se obtuvo la siguiente información de un grupo de PEC que atienden a niños y niñas de cero a dos años, mediante una ficha de observación de desempeño en el aula en la región de Apurimac.
18.
19. Matriz de varianzas-covarianzas muestral , es una medida de dispersión La variabilidad de los datos y la información relativa a las relaciones lineales entre las variables se resumen en la matriz de varianzas y covarianzas. Esta matriz es cuadrada y simétrica de orden p, donde los términos diagonales son las varianzas y los no diagonales, las covarianzas entre las variables. Llamando S a esta matriz, tendremos que, por definición:
20. Se calcula : EJEMPLO: Tarea: ¿Qué es una matriz definida positiva?
25. La varianza generalizada en p Observación: No es útil para comparar conjuntos de datos con diferentes números de variables. Debido a que la VG se incrementa o decrece monótonamente al incrementar el número de variables.
26. 4) Varianza Efectiva, Peña y Rodríguez (2003) propusieron la siguiente medida global de variabilidad: No presenta los inconvenientes de la varianza generalizada.
29. Una familia de medidas de distancias muy conocidas en p son las distancias de Minkowski: Cuando r =2 se tiene la distancia euclídea, que es la más utilizada, pero depende de las unidades de medida. Ejemplo : Para los datos de las PEC
30. Para eliminar el efecto de las unidades de medida de las variables se utiliza la familia de métricas euclídeas ponderadas:
31. M es una matriz diagonal, aunque no es necesario, pero debe ser no singular y definida positiva. 1) Distancia de Mahalanobis, se define como: Esta libre de unidades de medidas y mide la distancia de cada individuo con respecto a su vector de medias. EJEMPLO: Consideremos las primeras cuatro variables de las PEC
32.
33. d 1 = 1,3128 d 2 =1,7670 d 3 = 1,9849 d 4 =1,9535 d 5 =1,8501 d 6 =1,9939 Los resultados de las Distancias de mahalanobis son:
37. 3) Correlaciones Parciales; mide el grado de asociación entre dos variables controlando el efecto de las otras variables. Trabajamos con la matriz inversa de la matriz de varianzas-covarianzas. EJEMPLO :
38. 4)Coeficiente de Dependencia efectiva; es una medida global de la dependencia de los datos: Si las variables están todas incorrelacionadas, se tiene que R = 1 y si las variables están correlacionadas R = 0 Ejemplo: Para las 4 variables medidas a las PEC, se tiene : CDE = 0.8009 Globalmente la dependencia lineal explica el 80.09% de la variabilidad de los puntajes de las variables consideradas.