SlideShare uma empresa Scribd logo
1 de 94
UNIVERSIDAD DE GUAYAQUIL
DIRECCIÓN DE INVESTIGACIÓN Y PROYECTOS ACADÉMICOS
Curso de fortalecimiento de la investigación para personal docente
MODULO ESTADÍSTICA
Capitulo 1: Introducción a la estadística aplicada
GRUPO : D
Profesor : PhD Félix Olivero
Índice
Capítulo 1. Introducción a la Estadística Aplicada.
 
Sub unidad 1: Objeto de estudio de la Estadística, Particularidades de la Estadística      
                                      
                        Aplicada. 
Sub unidad 2: Datos científicos, Variables. Tipos de variables, discretas y continuas.  
                        Escala Estadística.
Sub unidad 3: Tabla de distribución de frecuencias. 
Sub unidad 4: La Estadística Descriptiva. 
Sub unidad 5: La Estimación puntual y por intervalos
Sub unidad 6: Como realizar gráficos estadísticos. 
Sub unidad 7: Uso del sistema estadístico SPSS, Excel y otros.
3
Estadística
Introducción
¿Qué es la estadística?
Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha
experimentado un gran desarrollo a lo largo de los últimos años.
¿En qué áreas se aplica la estadística?
Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología,
Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas,
entre otras.
Ejemplos de su aplicación son:
1) En Administración de Empresas: la estadística se utiliza para evaluar un producto
antes de comercializarlo.
2) En Economía: para medir la evolución de los precios mediante números índice o para
estudiar los hábitos de los consumidores a través de encuestas de presupuestos
familiares.
4
Estadística
Introducción
Ejemplos de su aplicación son:
3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una
votación mediante sondeos y así orientar las estrategias de los candidatos.
4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de
actualidad.
5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos para un
cargo en una empresa).
6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado
de salud de la población.
En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones
entre variables y hacer predicciones sobre ellas.
5
Estadística
Introducción
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado
método científico cuyas etapas son:
1) Planteamiento del problema: consiste en definir el objetivo de la investigación y
precisar el universo o población.
2) Recogida de la información: consiste en recolectar los datos necesarios
relacionados al problema de investigación.
3) Análisis descriptivo: consiste en resumir los datos disponibles para extraer la
información relevante en el estudio.
4) Inferencia estadística: consiste en suponer un modelo para toda la población
partiendo de los datos analizados para obtener conclusiones generales.
5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos
han permitido interpretar los datos y llegar a conclusiones sobre la población
6
Estadística
Introducción
Esquema de las etapas de un estudio estadístico
AREA DE INTERES DATOSDATOS
Tema de InvestigaciónTema de Investigación
-Antecedentes PreviosAntecedentes Previos
-ObjetivosObjetivos
-Preguntas de InvestigaciónPreguntas de Investigación
-Posibles HipótesisPosibles Hipótesis
-Unidad de AnálisisUnidad de Análisis
-PoblaciónPoblación
-VariablesVariables
ORGANIZAR YORGANIZAR Y
RESUMIRRESUMIR
ESTADÍSTICA DESCRIPTIVAESTADÍSTICA DESCRIPTIVA
(Tablas,
Gráficos, Medidas
Descriptivas, etc.)
INTERPRETACIÓN
INFERENCIA ESTADÍSTICAINFERENCIA ESTADÍSTICA
¿Población o Muestra?¿Población o Muestra?
CONCLUSIONES
PoblaciónPoblación
MuestraMuestra
ProbabilidadProbabilidad
INFORMACIÓN
7
Estadística
Introducción
Ejemplos de algunos problemas a estudiar
1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de
la persona empleada.
2) Se quiere determinar el perfil de los trabajadores en términos de condiciones
económicas y sociales en diferentes comunidades.
3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a
vestuario, alimentación, ocio y vivienda.
4) Se quiere determinar las tallas estándar en vestuario para mujeres ecuatorianas.
5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de
distintas empresas del país.
6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad.
7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una
Universidad, y si éste tiene alguna relación con su edad u otras características.
8
• VARIABLE:VARIABLE: es lo que se va a medir y representa una característica de laes lo que se va a medir y representa una característica de la UNIDAD DE ANÁLISISUNIDAD DE ANÁLISIS..
• ¿QUIÉNES VAN A SER MEDIDOS?:¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de unaLos sujetos u objetos o Unidades de Análisis de una
Población o una MuestraPoblación o una Muestra
• POBLACIÓN :POBLACIÓN : Es el total de unidades de análisis que son tema de estudio.Es el total de unidades de análisis que son tema de estudio.
Muestra: 60 trabajadores de empresas de comunicación
Unidad de análisis: Trabajador de empresa de comunicación
Variables: sexo, edad, salario, Nº de horas de trabajo, etc.
Población:Población:
““Las personas queLas personas que
trabajantrabajan en empresas deen empresas de
comunicacióncomunicación””
Estadística
• MUESTRA:MUESTRA: Es un conjunto de unidades de análisis provenientes de una población.Es un conjunto de unidades de análisis provenientes de una población.
MuestraMuestra
Resumen de algunos conceptos planteados en la Introducción
9
TIPOS DE VARIABLESTIPOS DE VARIABLES
Variables CuantitativasVariables Cuantitativas
VariableVariable: : corresponde a la característica de la Unidad de Análisiscorresponde a la característica de la Unidad de Análisis
IntervaloIntervalo
DISCRETADISCRETA
Variables CualitativasVariables Cualitativas
CONTINUACONTINUA
Toma valores enteros Toma valores enteros 
EjemplosEjemplos: : Número de HijosNúmero de Hijos, , Número deNúmero de
empleados de una empresaempleados de una empresa, , Número deNúmero de
asignaturas aprobadas en un semestreasignaturas aprobadas en un semestre, etc., etc.
Toma cualquier valor dentro de un intervalo Toma cualquier valor dentro de un intervalo 
EjemplosEjemplos: : Peso; Estatura; Temperatura, etc.Peso; Estatura; Temperatura, etc.
Unidad de MedidaUnidad de Medida: : GramosGramos o  o KilosKilos para la variable Peso; Grados  para la variable Peso; Grados CC o  o FF  para Temperatura para Temperatura
ORDINALORDINALNOMINALNOMINAL
Característica o cualidad Característica o cualidad 
cuyas categorías no tienen cuyas categorías no tienen 
un orden preestablecido. un orden preestablecido. 
EjemplosEjemplos: : Sexo, DeporteSexo, Deporte
FavoritoFavorito, etc., etc.
Característica o cualidad cuyas Característica o cualidad cuyas 
categorías tienen un orden categorías tienen un orden 
preestablecido. preestablecido. 
EjemplosEjemplos: Calificación (S, N, A); : Calificación (S, N, A); 
Grado de Interés por un tema, etc.Grado de Interés por un tema, etc.
Estadística
10
FrecuenciaFrecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se : desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se 
presenta una característica.presenta una característica.
DISCRETADISCRETA
CONTINUACONTINUA
ORDINALORDINAL
NOMINALNOMINAL
TIPO FRECUENCIATIPO FRECUENCIA
Frecuencia AbsolutaFrecuencia Absoluta (F)(F) Frecuencia RelativaFrecuencia Relativa (f)(f)
Frecuencia AbsolutaFrecuencia Absoluta
Acumulada (FAA)Acumulada (FAA)
Frecuencia RelativaFrecuencia Relativa
Acumulada (fra)Acumulada (fra)
DISCRETADISCRETA
CONTINUACONTINUANOMINALNOMINAL
ORDINALORDINAL
VariableVariable
CuantitativaCuantitativa
VariableVariable
CualitativaCualitativa
VariableVariable
CuantitativaCuantitativa
VariableVariable
CualitativaCualitativa
Estadística
11
VariablesVariables
- Tipo de Industria- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (: se clasifica en industria tipo A, B, C o D. (cualitativa nominalcualitativa nominal))
- -  Nº de EmpleadosNº de Empleados:  se  refiere  al  número  de  empleados  en  las  líneas  de  producción.  (:  se  refiere  al  número  de  empleados  en  las  líneas  de  producción.  (cuantitativacuantitativa
discretadiscreta))
- -  SuperficieSuperficie:  se  refiere  a  los :  se  refiere  a  los  metros cuadradosmetros cuadrados  (  (unidad de medidaunidad de medida)  disponibles  para  las  áreas  de )  disponibles  para  las  áreas  de 
producción. (producción. (cuantitativa continuacuantitativa continua))
- -  CalificaciónCalificación:  calificación  realizada  por  una  institución  pública  sobre  cumplimiento  de  ciertos :  calificación  realizada  por  una  institución  pública  sobre  cumplimiento  de  ciertos 
estándares (Muy Bien, Bien, Regular, Mal). (estándares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinalcualitativa ordinal))
Industria nº Tipo Nº Empleados Superficie Calificación
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
299 D 250 800,3 Mal
300 C 300 4000,2 Regular
Problema de InvestigaciónProblema de Investigación: Se quiere establecer el perfil de las industrias : Se quiere establecer el perfil de las industrias 
de conserva en función de algunas características.  de conserva en función de algunas características.  
Unidad de AnálisisUnidad de Análisis: Industria de Conserva: Industria de Conserva
PoblaciónPoblación: Industrias de Conservas del país: Industrias de Conservas del país
DatosDatos
EJEMPLOEJEMPLO
Estadística
12
EJEMPLOEJEMPLO
TABLAS DETABLAS DE
FRECUENCIAFRECUENCIA
Tipo de
Industria
Frecuencia
Absoluta (Fj)
Frecuencia
Relativa (fj)
Porcentaje
(%)
A
B
C
D
Total 300 1 100
Calificación
Frec.
Absoluta (Fj)
Frec.Relativa
(fj) o %
Frec. Absol.
Acum. (FAAj)
Frec. Relat.
Acum. (fraj) o %
Muy Bien
Bien
Regular
Mal 300 1 (o 100)
Total 300 1 (o 100)
Numero de
Empleados
Frec.
Absoluta (Fj)
Frec.Relativa
(fj) o %
Frec. Absol.
Acum. (FAAj)
Frec. Relat.
Acum. (fraj) o %
<100
[100-150[
.
.
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%)
Superficie
(mt2
)
Frec.
Absoluta (Fj)
Frec.Relativa
(fj) o %
Frec. Absol.
Acum. (FAAj)
Frec. Relat.
Acum. (fraj) o %
<200
[200-400[
.
.
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%)
(1)(1)
(2)(2)
(3)(3)
(4)(4)
Problema de InvestigaciónProblema de Investigación: Se quiere establecer el perfil de las industrias de conserva en : Se quiere establecer el perfil de las industrias de conserva en 
función de algunas características.  función de algunas características.  
Unidad de AnálisisUnidad de Análisis: Industria de Conserva: Industria de Conserva
PoblaciónPoblación: Industrias de Conservas del país: Industrias de Conservas del país
Estadística
13
Elementos de una tabla de frecuencia cuando la variable es continua (x)Elementos de una tabla de frecuencia cuando la variable es continua (x)
Intervalo
Centro
de clase Amplitud F f FAA fra
I1 c1  a1         
I2 c2  a2         
.
.            
Ik ck  ak      n 1
Total     n 1    
 
[LI1 ;  LS1 [
[LI2 ;  LS2 [
[LIk ;  LSk]
aj = (LSj – LIj))cj = (LIj) + LSj )/2 
Estadística
14
Ejercicio: confección de una tabla de frecuencia para una variable continuaEjercicio: confección de una tabla de frecuencia para una variable continua
10,5 10,7 9,5 10,5 11,8 11,2
12,0 10,3 13,5 12,3 10,6 9,8
10,7 11,5 11,1 10,6 9,3 12,9
10,4 7,5 10,2 8,7 10,9 9,9
11,7 10,3 10,6 10,5 11,9 11,0
13,9 10,6 10,0 10,8 10,6 -
7,3 8,0 8,5 12,5 9,7 -
 
Los datos corresponden a la edad de losLos datos corresponden a la edad de los
hijos de los trabajadores de una empresahijos de los trabajadores de una empresa
7,3 9,7 10,4 10,6 11,1 12,3
7,5 9,8 10,5 10,6 11,2 12,5
8,0 9,9 10,5 10,7 11,5 12,9
8,5 10,0 10,5 10,7 11,7 13,5
8,7 10,2 10,6 10,8 11,8 13,9
9,3 10,3 10,6 10,9 11,9 -
9,5 10,3 10,6 11,0 12,0 -
 
Datos ordenados de menor a mayorDatos ordenados de menor a mayor
1)1) Construya un histograma de frecuenciasConstruya un histograma de frecuencias
2)2) ¿Cuál es la variable?;  ¿Cuál es la Unidad de ¿Cuál es la variable?;  ¿Cuál es la Unidad de 
análisis?; ¿Cuánto vale n?; ¿Cuál es el rango análisis?; ¿Cuánto vale n?; ¿Cuál es el rango 
de la variable?. de la variable?. 
3)3) Sobre una Tabla de frecuenciaSobre una Tabla de frecuencia: ¿Cuántos : ¿Cuántos 
intervalos podría construir?; ¿Cuál es la intervalos podría construir?; ¿Cuál es la 
amplitud de cada intervalo?; ¿Cuántas amplitud de cada intervalo?; ¿Cuántas 
medidas de frecuencia puede obtener para medidas de frecuencia puede obtener para 
cada intervalo?.cada intervalo?.
4)4) Construir tabla de frecuenciaConstruir tabla de frecuencia  para lapara la
variablevariable: Intervalos, centro de clase, : Intervalos, centro de clase, 
amplitud, frecuencias.amplitud, frecuencias.
Realice la siguiente actividadRealice la siguiente actividad
Histograma :  permite  organizar  los  datos  de  una 
variable medida sobre un conjunto de individuos. Su 
utilidad  viene  dada  cuando  no  contamos  con 
herramientas automáticas para ordenar los datos. 
Estadística
15
TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 1. Gráfico de Sectores Circulares (de1. Gráfico de Sectores Circulares (de Torta)Torta)
Distribución de las unidades de análisis de
acuerdo a variable 1
A
20%
D
10%
C
40%
B
30%
Distribución de las unidades de
análisis de acuerdo a variable 1
B
30%
C
40%
D
10% A
20%
Distribución de las unidades de
análisis de acuerdo a variable 1
B
30%
C
40%
D
10%
A
20%
Estadística
16
TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 2. Gráficos de Barras2. Gráficos de Barras
Numero de unidades de análisis
de acuerdo a variable 1
0
100
200
300
400
500
A B C D
variable 1
Nº
Porcentaje de unidad de análisis de acuerdo a
variable 1
0 20 40 60 80 100
A
B
C
D
variable1
% unidad de análisis
-Este  tipo  de  gráfico  se  utiliza  generalmente  para Este  tipo  de  gráfico  se  utiliza  generalmente  para 
representar la frecuenciarepresentar la frecuencia  de  las  categorías  de  una   de  las  categorías  de  una 
variable cualitativavariable cualitativa. . 
-Cuando  una  variable  es  cuantitativa  se  puede  utilizar Cuando  una  variable  es  cuantitativa  se  puede  utilizar 
este  tipo  de  gráfico  sólo  si  la  variable  se  ha este  tipo  de  gráfico  sólo  si  la  variable  se  ha 
transformada en categorías.transformada en categorías.
-Hay distintas versiones de estos gráficos (por ejemplo Hay distintas versiones de estos gráficos (por ejemplo 
en  Excel),  y  en  algunos  casos  son  muy  útiles  para en  Excel),  y  en  algunos  casos  son  muy  útiles  para 
describir el comportamiento de una variable en distintos describir el comportamiento de una variable en distintos 
grupos.grupos.
Proporción de unidad de análisis de acuerdo a
variable 1
0 0,2 0,4 0,6 0,8 1
A
B
C
D
variable1
Proporción de unidad de análisis
Estadística
17
HistogramaHistograma
-  Permite  la  representación  de -  Permite  la  representación  de 
la la  frecuenciafrecuencia de una  de una  variablevariable
CuantitativaCuantitativa..
-   El El  ejeeje   xx  se  refiere  a  la   se  refiere  a  la 
variable.variable.
-   El El  ejeeje   yy  se  refiere  a  la   se  refiere  a  la 
frecuencia (Nº , %).frecuencia (Nº , %).
-   Cada Cada  barrabarra  representa  la   representa  la 
frecuencia de la variable en la frecuencia de la variable en la 
población  en  estudio  (o  la población  en  estudio  (o  la 
muestra). muestra). 
-El  histograma  se  puede El  histograma  se  puede 
construir desde los datos de la construir desde los datos de la 
tabla  de  frecuencia  de  la tabla  de  frecuencia  de  la 
variable en estudio.variable en estudio.
TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 3. Histograma3. Histograma
1413121110987
15
10
5
0
edad
FrecuenciaNºNº
edadedad
HistogramaHistograma
Distribución de los hijos de trabajadoresDistribución de los hijos de trabajadores
de la empresa de acuerdo a edadde la empresa de acuerdo a edad
EjemploEjemplo
En el gráfico se puede observar el En el gráfico se puede observar el número denúmero de
hijoshijos , de menor edad (7-8 años), las de mayor  , de menor edad (7-8 años), las de mayor 
edad (13-14 años); y además que la mayoría de edad (13-14 años); y además que la mayoría de 
hijos de los trabajadores están entre los 10 y 12 hijos de los trabajadores están entre los 10 y 12 
años.años.
Estadística
18
TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 5. Polígono de Frecuencia5. Polígono de Frecuencia
edadedad
1413121110987
15
10
5
0
edad
FrecuenciaNºNº
Distribución de los hijos de trabajadoresDistribución de los hijos de trabajadores
de la empresade la empresa  de acuerdo a edadde acuerdo a edad
-Esta representación se basa en Esta representación se basa en 
el Histograma.el Histograma.
-Sólo  es  útil  para  variables Sólo  es  útil  para  variables 
cuantitativascuantitativas..
-El El  eje xeje x  se  refiere  a  la   se  refiere  a  la 
variable.variable.
-   El El  ejeeje   yy  se  refiere  a  la   se  refiere  a  la 
frecuencia (Nº , %). frecuencia (Nº , %). 
-Los  puntos  que  permiten  la Los  puntos  que  permiten  la 
unión  de  las  líneas  representa unión  de  las  líneas  representa 
el el centro de clasecentro de clase (o marca de(o marca de
clase)clase)..
Estadística
19
TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 5. Diagrama de Caja5. Diagrama de Caja
-   Permite  identificar  gráficamente la Permite  identificar  gráficamente la 
mediana,  los  cuartiles  1  y  3 mediana,  los  cuartiles  1  y  3 
(percentiles  25  y  75),  mínimo  y (percentiles  25  y  75),  mínimo  y 
máximo de una variable. máximo de una variable. 
-   Sólo  es  útil  para  variables Sólo  es  útil  para  variables 
cuantitativascuantitativas..
-El El  eje xeje x  permite  identificar  la   permite  identificar  la 
poblacion en estudio.poblacion en estudio.
-  El El ejeeje  yy representa los valores de la  representa los valores de la 
variable en estudio. variable en estudio. 
Estadística
1473584N =
HombresMujeres
Edad
100
90
80
70
60
50
40
30
20
10
0
Edad de las personas que se realizaronEdad de las personas que se realizaron
angioplastía entre 1980 y 2000angioplastía entre 1980 y 2000
20
TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 6. Otros6. Otros
Número de alumnos matriculados en la
Carrera A según año de ingreso
0
20
40
60
80
100
1998 1999 2000 2001 2002 2003
año de ingreso
Nºdealumnos
Número de alumnos matriculados en la
Carrera B según año de ingreso
0
20
40
60
80
100
1998 1999 2000 2001 2002 2003
año de ingreso
Nºdealumnos
Número de alumnos matriculados en las Carreras
según año de ingreso
0
50
100
150
200
1998 1999 2000 2001 2002 2003
año ingreso
Nºdealumnos
Carrera B
Carrera A
año de ingreso Carrera A Carrera B
1998 60 80
1999 55 70
2000 80 50
2001 40 60
2002 68 50
2003 70 75
Nº de alumnos
Estadística
21
OBSERVACIONESOBSERVACIONES
* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.
* El Gráfico debe contener un Título General y la identificación de cada eje* El Gráfico debe contener un Título General y la identificación de cada eje
(variable en estudio y frecuencia).(variable en estudio y frecuencia).
* En ocasiones resulta más ilustrativo un gráfico que una tabla de* En ocasiones resulta más ilustrativo un gráfico que una tabla de
frecuencia.frecuencia.
* Al igual que las tablas, los gráficos deben ser auto-explicativos.* Al igual que las tablas, los gráficos deben ser auto-explicativos.
Variables Cuantitativas
variable=x i individuo elen   variablela devalor =ix
ni ,...,1=
ncccc
n
i
=++=∑
=

1
∑∑
==
=++=
n
i
in
n
i
i xccxcxcx
1
1
1

bxabaxbaxbax
n
i
in
n
i
i +=++++=+ ∑∑
== 1
1
1
)()()( 
22
1
1
2
n
n
i
i xxx ++=∑
=

2
1
2
1
)()( n
n
i
i xxx ++=∑
=

)()()( 11
1
nn
n
i
ii yxyxyx ++++=+∑
=

)()()( 11
1
nn
n
i
ii yxyxyx ++=∑
=

variable=y i individuo elen   variablela devalor =iy
NOTACIONNOTACION
constantes:,, cba
Estadística
22
MEDIDAS DE TENDENCIA CENTRALMEDIDAS DE TENDENCIA CENTRAL
-Media Aritmética (Promedio)Media Aritmética (Promedio)
-MedianaMediana
-ModaModa
n
x
x
n
i
i∑
=
= 1
Media Aritmética o PromedioMedia Aritmética o Promedio
MedianaMediana
)(EM kx=
2
M
)1()(
E
++
=
kk xx
x  
1x  
2x  
 
nx  
 
Datos CuantitativosDatos Cuantitativos
x  
)1(x  
)2(x  
 
)(nx  
 
Datos Cuantitativos ordenados de menor a mayorDatos Cuantitativos ordenados de menor a mayor
Si Si nn es par es par
Si Si nn es impares impar
centro del dato)( =kx
repite" se más que dato el"Mo =
ModaModaDatosDatos
Cualitativos y CuantitativosCualitativos y Cuantitativos
Estadística
23
Percentiles, Deciles o CuartilesPercentiles, Deciles o Cuartiles
-Percentil (ejemplo: 25, 50, 75)Percentil (ejemplo: 25, 50, 75)
-Decil (ejemplo: 4, 5, 8)Decil (ejemplo: 4, 5, 8)
-Cuartil (ejemplo: 1, 2, 3)Cuartil (ejemplo: 1, 2, 3)
El Decil va de 1 a 10El Decil va de 1 a 10
El Decil 4 (4/10)El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos: es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32. Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32. 
                              Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34. Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34. 
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando losPercentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los
nn datos están ordenados dedatos están ordenados de MenorMenor aa MayorMayor
Estadística
El Percentil va de 1 a 100El Percentil va de 1 a 100
El percentil 25 (25/100)El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos: es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20. Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20. 
                              Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22. Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22. 
El Cuartil va de 1 a 4El Cuartil va de 1 a 4
El Cuartil 3 (3/4)El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos: es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60. Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60. 
                              Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64. Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64. 
24
MEDIDAS DE DISPERSIÓNMEDIDAS DE DISPERSIÓN
-RangoRango
-VarianzaVarianza
-Desviación EstándarDesviación Estándar
RangoRango
VarianzaVarianza
x  
1x  
2x  
 
nx  
 
Datos CuantitativosDatos Cuantitativos
Coeficiente de VariaciónCoeficiente de Variación
Comparación entre VariablesComparación entre Variables
Se refiere al comportamiento de las variables cuantitativas enSe refiere al comportamiento de las variables cuantitativas en
un grupo.un grupo. Por ejemplo: Si se tiene un conjunto de personas a lasPor ejemplo: Si se tiene un conjunto de personas a las
que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuálque se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál
presenta mayor variación?presenta mayor variación?
)min()max( ii xxR −=
Desviación Típica o EstándarDesviación Típica o Estándar
2
1
21 1
22
1
2
2 1
)(
1
)(
xx
nn
x
n
x
n
xx
s
n
i
i
n
i
n
i
ii
n
i
i
−=
−
=
−
= ∑
∑ ∑∑
=
= ==
2
ss =
x
s
cv =
Estadística
25
Estadística
Otras medidas o CoeficientesOtras medidas o Coeficientes
-AsimetríaAsimetría
-Kurtosis o ApuntamientoKurtosis o Apuntamiento
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.
Coeficiente de Asimetría 3
1
3
)(
sn
xx
CA
n
i
i
⋅
−
=
∑=
Si CA=0 si la distribución es simétrica alrededor de la media.
Si CA<0 si la distribución es asimétrica a la izquierda
Si CA>0 si la distribución es asimétrica a la derecha
Coeficiente de Apuntamiento 4
1
4
)(
sn
xx
CAp
n
i
i
⋅
−
=
∑=
- Si CAp=0 la distribución se dice normal (similar
a la distribución normal de Gauss) y recibe el
nombre de mesocúrtica.
- Si CAp>0, la distribución es más puntiaguda que
la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se
llama platicúrtica.
26
Estadística
Otras medidas o CoeficientesOtras medidas o Coeficientes
-AsimetríaAsimetría
-Kurtosis o ApuntamientoKurtosis o Apuntamiento
Ejemplos Histogramas con distinta asimetría y apuntamiento
V2
7,06,05,04,03,02,01,0
14
12
10
8
6
4
2
0
Desv. típ. = 1,67
Media = 3,9
N = 30,00
V4
2,01,00,0-1,0
30
20
10
0
Desv. típ. = ,64
Media = 0,0
N = 30,00
V5
9,08,07,06,05,04,03,02,01,0
6
5
4
3
2
1
0
Desv. típ. = 2,42
Media = 5,2
N = 28,00
27
Estadística
Otras medidas o CoeficientesOtras medidas o Coeficientes
-AsimetríaAsimetría
-Kurtosis o ApuntamientoKurtosis o Apuntamiento
Ejemplos
Media 3,9
Mediana 4
Moda 4
Desviación estándar 1,67
Varianza de la muestra 2,78
kurtosis -0,43
Coeficiente de asimetría -0,02
Rango 6
Mínimo 1
Máximo 7
Cuenta 30
V1
9,08,07,06,05,04,03,02,01,0
16
14
12
10
8
6
4
2
0
Desv. típ. = 1,77
Media = 5,4
N = 66,00
1 4 4
1 4 4
1 4 5
2 4 5
2 4 6
2 4 6
2 4 6
3 4 6
3 4 7
4 4 7
Datos Histograma Medidas descriptivas
28
Estadística
Media, Desviación típica, Coeficientes de Asimetría y ApuntamientoMedia, Desviación típica, Coeficientes de Asimetría y Apuntamiento
para datos Agrupados (tabla de frecuencias)para datos Agrupados (tabla de frecuencias)
Intervalo
Centro
de clase Amplitud F f FAA fra
I1 c1 a1
I2 c2 a2
.
.
Ik ck ak n 1
Total n 1
f1
f2
fk
n1
n2
nk
Tabla de frecuencia (para variable cuantitativa)Tabla de frecuencia (para variable cuantitativa)
  
1) La Media para datos agrupados es igual a
la suma de los productos de las marcas de
clase por sus frecuencias relativas, de la forma:
∑=
==
k
j
jjcc fcxMedia
1
Sea cj la marca de clase (o centro de clase) y fj la
frecuencia relativa de la clase j, donde j=1, 2,…, k.
2) LaLa Desviación típicaDesviación típica para datospara datos
agrupados esta dada por:agrupados esta dada por:
∑=
−=
k
j
jcjc fxcs
1
2
)(
3) ElEl Coeficiente de AsimetríaCoeficiente de Asimetría parapara
datos agrupados esta dado por:datos agrupados esta dado por:
3
1
3
)(
c
k
j
jcj
c
s
fxc
CA
∑=
−
=
4) ElEl Coeficiente de apuntamientoCoeficiente de apuntamiento parapara
datos agrupados esta dada por:datos agrupados esta dada por:
4
1
4
)(
c
k
j
jcj
c
s
fxc
CAp
∑=
−
=
29
Estadística
Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas
Distribución conjuntaDistribución conjunta
Tabla 1 Actividad
Transporte Estudia Pensionado Trabaja
Autobus 5 7 0
Bicicleta 3 3 2
Caminar 2 5 2
Coche 5 4 5
Metro 6 7 4
Transporte Nº %
Autobus 12 20,0
Bicicleta 8 13,3
Caminar 9 15,0
Coche 14 23,3
Metro 17 28,3
TOTAL 60 100
Actividad Nº %
Estudia 21 35,0
Pensionado 26 43,3
Trabaja 13 21,7
TOTAL 60 100
Problema
Interesa estudiar cual es el
principal medio de transporte
preferido por un grupo de
personas a la hora de dirigirse
al centro comercial.
Para esto se consultó a cadaPara esto se consultó a cada
persona sobre la actividad apersona sobre la actividad a
la que se dedicaba y el mediola que se dedicaba y el medio
de transporte preferido.de transporte preferido.
30
Estadística
Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas
Distribución conjuntaDistribución conjunta
Nº de personasNº de personas
Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)
Tabla 2 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
Bicicleta 3 3 2 8
Caminar 2 5 2 9
Coche 5 4 5 14
Metro 6 7 4 17
TOTAL 21 26 13 60
31
Estadística
Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas
Distribución conjuntaDistribución conjunta
Nº de personas y % respecto de tipo de TransporteNº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
% 41,7 58,3 0 100
Bicicleta 3 3 2 8
% 37,5 37,5 25 100
Caminar 2 5 2 9
% 22,2 55,6 22,2 100
Coche 5 4 5 14
% 35,7 28,6 35,7 100
Metro 6 7 4 17
% 35,3 41,2 23,5 100
TOTAL 21 26 13 60
% 35 43,3 21,7 100
32
Estadística
Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas
Distribución conjuntaDistribución conjunta
Nº de personas y % respecto de tipo de ActividadNº de personas y % respecto de tipo de Actividad
Tabla 4 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
% 23,8 26,9 0 20
Bicicleta 3 3 2 8
% 14,3 11,5 15,4 13,3
Caminar 2 5 2 9
% 9,5 19,2 15,4 15
Coche 5 4 5 14
% 23,8 15,4 38,5 23,3
Metro 6 7 4 17
% 28,6 26,9 30,8 28,3
TOTAL 21 26 13 60
% 100 100 100 100
33
MEDIDAS DE ASOCIACIÓN LINEALMEDIDAS DE ASOCIACIÓN LINEAL
- CovarianzaCovarianza
- CorrelaciónCorrelación
x
1x
2x

nx
DatosDatos
CuantitativosCuantitativos
Covarianza:Covarianza:
Recordemos que:Recordemos que: Hasta ahora hemos estudiado lasHasta ahora hemos estudiado las medidas tendenciamedidas tendencia
centralcentral (Media, Mediana, Moda)(Media, Mediana, Moda) y dispersióny dispersión
(Varianza y Desviación Estándar) para(Varianza y Desviación Estándar) para unauna
Variable CuantitativaVariable Cuantitativa (x).(x).
Es una medida de Variabilidad Conjunta entreEs una medida de Variabilidad Conjunta entre dosdos variables (variables (xx11 ,, xx22) o bien () o bien (xx ,, yy))
x y
)1(x )(y 1
)2(x )(y 2
 
)(nx )n(y
Si Cov(x,y) es positivaSi Cov(x,y) es positiva:: la asociación entrela asociación entre xx ee yy es directamente proporcional,es directamente proporcional,
es decir que cuandoes decir que cuando xx aumentaaumenta yy también aumenta; y viceversa.también aumenta; y viceversa.
Si Cov(x,y) es negativaSi Cov(x,y) es negativa:: la asociación entrela asociación entre xx ee yy es inversamentees inversamente
proporcional, es decir que cuandoproporcional, es decir que cuando xx aumentaaumenta yy disminuye; y viceversa.disminuye; y viceversa.
Si Cov(x,y) es ceroSi Cov(x,y) es cero:: no existe asociación entreno existe asociación entre xx ee yy..
∑
=
−−=
n
i
ii )yy)(xx(
n
)y,xcov(
1
1
Estadística
34
MEDIDAS DE ASOCIACIÓN LINEALMEDIDAS DE ASOCIACIÓN LINEAL
- CovarianzaCovarianza
- CorrelaciónCorrelación
DatosDatos
CuantitativosCuantitativos
Coeficiente de Correlación de Pearson (Coeficiente de Correlación de Pearson (rr):): Mide el grado de Asociación LinealMide el grado de Asociación Lineal
entre dos variables Cuantitativasentre dos variables Cuantitativas
Se refiere al grado de asociación entreSe refiere al grado de asociación entre dosdos variables (variables (xx11 ,, xx22) o bien () o bien (xx ,, yy))
x y
)1(x )(y 1
)2(x )(y 2
 
)(nx )n(y
SiSi rr es positivoes positivo:: la asociación entrela asociación entre xx ee yy es directamente proporcional, es decir quees directamente proporcional, es decir que
cuandocuando xx aumentaaumenta yy también aumenta; y viceversa.también aumenta; y viceversa. SiSi rr=1=1:: la asociación lineal esla asociación lineal es
perfecta.perfecta.
SiSi rr es negativoes negativo:: la asociación entrela asociación entre xx ee yy es inversamente proporcional, es decires inversamente proporcional, es decir
que cuandoque cuando xx aumentaaumenta yy disminuye; y viceversa.disminuye; y viceversa. SiSi rr=-1=-1:: la asociación lineal esla asociación lineal es
perfecta.perfecta.
SiSi rr es ceroes cero:: no existe asociación entreno existe asociación entre xx ee yy..
CorrelaciónCorrelación::
11 ≤≤− r
yxss
)y,xcov(
r =
yx
n
i
ii
ss)n(
yxnyx
r
1
1
−
−
=
∑
=
Estadística
35
r=1 r=-1
EJEMPLO : Representación gráfica de las variables x e yEJEMPLO : Representación gráfica de las variables x e y
Estadística
I. Medidas de Tendencia Central
1. Modo (Mo)
2. Mediana (Md)
3. Media aritmética (X)
II. Medidas de Posición
1. Mediana (Md)
2. Cuartiles (C)
3. Deciles (D)
4. Percentiles (P)
III. Medidas de Variabilidad
1. Amplitud total (AT) o Rango
(R)
2. Desvío Intercuartil (DI) o Rango
Intercuartil (RI)
Algunas medidas de resumen básicasAlgunas medidas de resumen básicas
Medidas de Variabilidad (cont.)
3. Desvío Medio (DM)
4. Varianza (Var)
5. Desvío estándar (DE)
6. Coeficiente de variabilidad (CV)
I. Medidas de Forma
1. Coeficiente de asimetría (As)
2. Coeficiente de curtosis (Cu)
Nivel de
medición
Modo Mediana Media
Nominal Si NO NO
Ordinal SI SI NO
Intervalo SI SI SI
Relación SI SI SI
Relaciones entre niveles de medición y medidas deRelaciones entre niveles de medición y medidas de
tendencia centraltendencia central
Nivel de medición
AMPLITUD
TOTAL
DESVÍO IN-
TERCUARTIL
DESVÍO
MEDIO
VARIANZA Y
DESVIO
ESTANDAR
COEFICIENTE
DE
VARIABILIDAD
Nominal NO NO NO NO NO
Ordinal NO NO NO NO NO
Intervalo SI SI SI SI NO
Relación SI SI SI SI SI
Relaciones entre niveles de medición y medidas deRelaciones entre niveles de medición y medidas de
variabilidadvariabilidad
Medida Informa sobre...
Mo
Es el valor más frecuente. En tal sentido constituye la expresión más
básica del valor más típico de una serie de observaciones.
Una distribución puede tener uno, dos o varios modos.
Md
Es el valor de la variable que segmenta en dos partes a la distribución: una
mitad de los casos se ubica por encima de la mediana, la mitad restante
queda por debajo.
La mediana es un valor de la variable asociado a un orden: si se ordenan
todos los valores de menor a mayor, el valor mediana corresponderá a
aquel valor tal que tiene tantos casos por encima como por debajo.
La mediana es a la vez una medida de tendencia central y de posición.
Como medida de tendencia central no es tan sensible como la media
aritmética; no obstante debe utilizarse cuando en la distribución existan
valores extremos no compensados, en cuyo caso la media distorsiona la
tipicidad de los casos.
X
Es el valor promedio. Es la medida de tendencia central más sensible ya
que en su cálculo intervienen todos los casos. No obstante, como indicador
de tendencia central la media aritmética posee dos "contraindicaciones":
a) cuando en la distribución existe una gran variabilidad y b) cuando en la
distribución existen valores extremos (altos o bajos) no compensados.
Modo, mediana y media: las tres medidas de tendenciaModo, mediana y media: las tres medidas de tendencia
central básicascentral básicas
Medida Informa sobre...
C
Los cuartiles son las medidas de posición que dividen a la distribución en
cuatro partes iguales: el cuartil 1 representa a aquel valor tal que deja un
25% por debajo y queda un 75% por encima; el cuartil 2 es la mediana, y el
cuartil 3 es el valor que deja un 75% por debajo y queda un 25% por encima.
Los cuartiles 1 y 3 resultan útiles para circunscribir al 50% central de los
datos.
D Los deciles son las medidas de posición que dividen a la distribución en 10
partes iguales.
P Los percentiles son las medidas de posición que dividen a la distribución en
100 partes iguales.
Medidas de posición: cuartiles, deciles y percentilesMedidas de posición: cuartiles, deciles y percentiles
Medida Informa sobre...
R ó AT
Es la diferencia entre los valores máximo y mínimo de la distribución,
representado entonces la medida de variabilidad más básica.
DI
Es la diferencia entre el cuartil mayor y menor. Representa el rango de
variabilidad del 50% central de los casos.
DM
Es el promedio de los desvíos de los valores respecto a la media, tomados
como valor absoluto. Como toda medida de variabilidad, en general, cuanto
mayor es su valor más heterogéneos o dispersos son los datos. El desvío
medio, por carecer de signo, resulta una medida descriptiva pero sin valor
operatorio para ser integrada en otras fórmulas estadísticas.
VAR
Es el promedio de los desvíos de los valores respecto a la media elevados al
cuadrado. Descriptivamente, se interpreta como las restantes medidas de
variabilidad, es decir: cuánto mayor resulte, mayor dispersión y viceversa;
sin embargo, la magnitud que representa no debe interpretarse literalmente
en términos de la escala de origen, ya que al haber operado una
transformación matemática (vg., la elevación al cuadrado) la variabilidad
aparece "amplificada".
Medidas de variabilidadMedidas de variabilidad
Medida Informa sobre...
DE
Es la raíz cuadrada de la varianza. Tiene el valor operatorio de la misma y
posee un valor descriptivo más parecido al desvío medio, al compensar la
transformación cuadrática realizada en aquella.
CV
Es un cociente entre el desvío estándar y la media. Representa la porción de
variabilidad, expresada por el desvío estándar, respecto al valor promedio.
Resulta particularmente útil para comparar la varabilidad de distribuciones
que poseen diferente media o que están medidas en diferentes escalas.
Medidas de variabilidad (continuación)Medidas de variabilidad (continuación)
Elementos básicos de la Prueba
de Asociación de Chi cuadrado
Chi cuadradoChi cuadrado
Es unamedida deasociación entre dosvariables medidas en
un nivel nominal u ordinal.
Específicamente informa sobre elgrado deprobabilidad
de que exista asociación.
Conceptualmente, consiste encomparar lasfrecuencias
efectivamente observadas con las frecuencias que
deberían esperarse si no existiera asociación entre las
variables. Cuanto mayor sea la diferencia entre lo
observado y lo esperado, mayor resultará la
probabilidad de que exista asociación.
χ2 = 
(o −e)2
e
Medida Informa sobre...
x2
En general, el propósito de la medida radica en determinar la
probabilidad de asociación entre dos variables de nivel no
cuantitativo (nominal u ordinal). Especícamente, el valor de
X2 sólo indica un valor de p asociado, denominado nivel de
significación, el cuál -en última instancia- es el que
realmente informa sobre la probabilidad de asociación entre
las variables.
p
( significación)
La probabilidad de que el valor de x2 obtenido se deba al
azar. Es decir, la probabilidad de que no exista asociación
entre las variables. Cuanto más bajo sea P, mayores son las
evidencias para suponer que existe asociación y viceversa.
Ø
Phi es una de las medidas que, específicamente, informa
sobre el grado o fuerza de la relación entre dos variables de
nivel nominal.
Las tres medidas básicas asociadas al análisis "ChiLas tres medidas básicas asociadas al análisis "Chi
Cuadrado" como medida de asociación entre variablesCuadrado" como medida de asociación entre variables
=
 2
n
Coeficiente PhiCoeficiente Phi
Medida de asociación basada en chi cuadrado.
Se obtiene al dividir el valor de chi cuadrado por el
número de casos y, luego, extraer la raíz cuadrada del
resultado.
Informa sobre el grado o fuerza de laasociación entre
dos variables de nivel no cuantitativo (nominal u
ordinal)
Cuando se trata de tablas decontingencia de 2 X 2,phi
asume valores comprendidos entre 0 y 1.
φ
O E O - E (O - E) 2 (O - E)2 / E
Chi cuadrado: tabla de cálculoChi cuadrado: tabla de cálculo
¿χ2e > χ2t ?
Diagrama decisorio para la prueba de Chi Cuadrado
(Con cálculo manual y búsqueda en tabla)
Rechazar la Hipótesis Nula
(la que expresa que no existe
asociación)
Calcular χ2e.
Expresar: El resultado es
estadísticamente significativo:
χ2 = 12,85; p < 0.05.
Aceptar la Hipótesis Nula
(la que expresa que no existe
asociación)
Expresar: El resultado no es
estadísticamente significativo:
χ2 = 0,40; P > 0.05.
Interpretar: Conforme a los niveles de error previamente
estipulados, no puede afirmarse que exista asociación
entre las variables. / Las evidencias obtenidas resultan
insuficientes para suponer que exista relación. / Es
probable que las diferencias porcentuales observadas se
deban a fluctuaciones del azar.
(especificar y/o ajustar conforme a los posibles valores de
p asociados a χ2 e)
SINO
Determinar el χ2t. para
el nivel de error α
Interpretar: Puede suponerse con alta probabilidad (con
un nivel de error menor al 5%) que existe asociación entre
las variables. / Las evidencias obtenidas resultan
suficientes para suponer que existe asociación. / Es
altamente probable que las diferencias porcentuales
observadas no se deban al mero azar sino a una auténtica
relación entre las variables.
(especificar y/o ajustar conforme a los posibles valores de
p asociados a χ2 e)
¿p < error
admitido
Diagrama decisorio para la prueba de Chi Cuadrado
(Con cálculo informatizado)
Rechazar la Hipótesis Nula
(la que expresa que no existe
asociación)
Expresar: El resultado es
estadísticamente significativo:
χ2 = 12,85 p = 0.001.
Interpretar: Puede afirmarse que existe
asociación entre las variables, con un nivel de
error de 1/1000. / Es altamente probable que
las diferencias porcentuales observadas no se
deban al mero azar sino a una auténtica
relación entre las variables.
Aceptar la Hipótesis Nula
(la que expresa que no existe
asociación)
Expresar: El resultado no es
estadísticamente significativo:
χ2 = 0,40; p = 0. 80.
Interpretar: Puede afirmarse que no
existe asociación entre las variables,
dado que existe hasta un 80% de
probabilidad de que las diferencias
observadas resulten aleatorias. / Es
altamente probable que las diferencias
porcentuales observadas se deban a
meras fluctuaciones del azar.
SINO
Calcular:
χ2e.
p (significance)
Determinar el nivel de
error admitido
Elementos básicos de Análisis de
Correlación
y Regresión Lineal
Es una medida de laasociación lineal entre dos variables de nivel de medición
cuantitativo (intervalo o relación). De manera más específica, R informa
sobre:
El grado de correlación de las dos variables.
El sentido o dirección de la correlación.
El valor de R tiene un rango comprendido entre -1 (una relación negativa
perfecta en la que todos los puntos seencuentran sobre una línea conpendiente
negativa) y +1 (una relación positiva perfecta en la que todos los puntos se
encuentran sobre una línea con pendiente positiva). Un valor de 0 indica que
no existe relación lineal. Su fórmula es:
Coeficiente de correlación R de PearsonCoeficiente de correlación R de Pearson
r(x, y) = [(x −x).(y −y)]
n.sx .sy
Medida Informa sobre...
R
El grado de la correlación lineal entre dos variables
X e Y medidas en un nivel cuantitativo (Intervalo o
relación)
p
La probabilidad de que el valor de R obtenido se
deba al azar (se calcula en base a la distribución t
de Student)
R2
(Coeficiente de
determinación)
El porcentaje de la variabilidad de Y que queda
explicado a partir de X. La varianza de Y explicada
por X. El porcentaje de la variabilidad de Y que
puede predecirse a través de X.
En otro sentido, el coeficiente de determinación
informa sobre la fuerza o el grado de la correlación
entre dos variables de nivel cuantitativo (Intervalos
o relación).
Las tres medidas básicas asociadas con el análisisLas tres medidas básicas asociadas con el análisis
de correlación R de Pearson.de correlación R de Pearson.
Es una medida asociada al coeficiente de correlación R de Pearson.
Al igual que R, el coeficiente de determinación informa sobre la fuerza o el
grado de la correlación entre dos variables de nivel cuantitativo. A diferencia
de R, que carece de un significado específico, R2 puede interpretarse de
diversos modos:
Como la proporción de la variabilidad de la variable dependiente Y que
queda explicada a partir de la variable independiente X.
Como la proporción de la variabilidad de Y que puede predecirse a
través de X.
Como la bondad de ajuste de un modelo lineal, esto es: el grado en que
los datos se ajustan a un modelo de tipo lineal.
El coeficiente de determinación R2 presenta un rango de valores
comprendidos entre 0 y 1 (ó de 0 a 100, cuando R2 aparece expresado como
un porcentaje)
Coeficiente de determinación RCoeficiente de determinación R22
Cuánto más alto sea el valor de R2 ello indica:
Que existe un mayor grado de correlación entre las
variables.
Que el poder explicativo de la variable independiente
respecto a la dependiente es mayor.
Que el poder predictivo de la variable independiente
respecto a la dependiente es mayor.
Que el modelo lineal posee un ajuste mayor a los
datos, es decir que aumenta el grado de congruencia
entre los datos y el modelo.
Coeficiente de determinación RCoeficiente de determinación R2 (continuación)2 (continuación)
X Y (X - X) (Y - Y) (X - X) . (Y - Y)
Coeficiente R de Pearson: tablaCoeficiente R de Pearson: tabla
de cálculo del numeradorde cálculo del numerador
Se denomina "análisis de regresión lineal" a un conjunto de análisis
estadísticos cuya función es determinar si entre una variable dependiente
medida en una escala cuantitativa y una o más variables independientes,
del mismo tipo, existen relaciones de carácter lineal. Una relación es lineal
si posee una estructura idéntica a una línea recta.
En rigor, el análisis de regresión se utiliza para determinar el grado de
adecuación de los datos empíricos al modelo de una recta y la
probabilidad de que esa adecuación obedezca al azar.
Cuando existe sólo una variable independiente el análisis se denomina
"regresión lineal simple". Si existe más de una, se estará ante un caso de
"regresión lineal múltiple".
Básicamente el análisis permite contribuir a dos propósitos: explicar y
predecir.
Cuando el análisis de regresión da un resultado negativo, debe
interpretarse que es poco probable la existencia de relación lineal, aunque
no debe descartarse que existan otros tipos de relaciones, no lineales.
También se denomina "análisis de regresión
"
a otros procedimientos
estadísticos diferentes a los mencionados pero que comparten la misma
lógica.
Regresión lineal
y = + x
La ecuación de la recta en el análisis de regresión lineal
Y= El valor de la variable dependiente predicho por el modelo lineal.
α= Representa el valor de la variable dependiente cuando la variable
independiente vale 0. Gráficamente corresponde al punto de Y donde
se emplaza o intersecta la recta de regresión.
β= Representa el incremento de Y por cada unidad de incremento de
X. Gráficamente se expresa en la pendiente o grado de inclinación de la
recta.
X = El valor de la variable independiente X sobre el cuál se quiere hacer
una predicción.
_______________________________________________________________
Cuando la ecuación de la recta se utiliza para modelizar datos empíricos, vg., la
recta de regresión, es necesario incorporar un factor aleatorio que representa los
posibles fluctuaciones de los datos respecto al modelo o, en otros términos, las
discrepancias entre el modelo y la realidad. En virtud de ello el modelo general de
regresión lineal simple asume esta estructura:
Y = α +β x + error
Medida Informa sobre...
α El valor hipotético que asumiría la variable dependiente si la
variable independiente tuviera un valor nulo, conforme al modelo
de relación lineal.
β
El incremento que cabría esperar en la variable dependiente por
cada unidad de incremento en la variable independiente,
conforme al modelo de relación lineal.
F ó t El valor del test estadístico para determinar la bondad de ajuste
de los datos a un modelo lineal.
P La probabilidad asociada al test F ó t. La probabilidad de que la
correlación lineal se deba al azar.
R2
El porcentaje de la variabilidad de Y que queda explicado a partir
de X. La varianza de Y explicada por X. El porcentaje de la
variabilidad de Y que puede predecirse a través de X.
ESE
El error standard estimado constituye una última medida necesaria
para ajustar las predicciones de Y a partir de X. Globalmente,
representa la variabilidad de los datos respecto al modelo y resulta útil
para determinar los llamados intervalos de confianza de la estimación.
Cuando se utiliza el modelo de regresión para predecir valores de Y
para diferentes valores de X, antes que un valor específico de Y lo que
se estima es un intervalo de posibles valores. El ESE es la medida
asociada a esa estimación, constituyendo un indicador de la amplitud
de dicho intervalo
Medidas básicas asociadas al análisis de regresión
=y −bx
Cálculo de los parámetros de la recta de regresión
a partir de datos empíricos
=
xy −x.y
x2
n −x2
0 2 4 6 8 10 12 14 16 18 20
Tiempo de Residencia
0
2
4
6
8
10
12
Actitudhacialaciudad
R-square = 0.876
y = 1.08 + 0.59x
Ejemplo de diagrama de dispersión con
información básica del análisis de regresión
X Y Y Y - Y (Y - Y)2
10 6 6,97 -0,97 0,94
12 9 8,15 0,85 0,73
12 8 8,15 -0,15 0,02
4 3 3,44 -0,44 0,19
12 10 8,15 1,85 3,43
6 4 4,61 -0,61 0,38
8 5 5,79 -0,79 0,63
2 2 2,26 -0,26 0,07
18 11 11,68 -0,68 0,46
9 9 6,38 2,62 6,86
17 10 11,09 -1,09 1,19
2 2 2,26 -0,26 0,07
Suma 14,97
VAR 1,50
DE (ESE) 1,22
Cálculo del Error Standard Estimado
ESS =
[Y−Yˆ]2
n−2
* * * * M U L T I P L E R E G R E S S I O N * * * *
Listwise Deletion of Missing Data
Equation Number 1 Dependent Variable.. VAR00001 Actitud hacia la ciudad
Block Number 1. Method: Enter VAR00002
Variable(s) Entered on Step Number 1.. VAR00002 Tiempo de residencia
Multiple R ,93608 Analysis of Variance
R Square ,87624 DF Sum of Squares Mean Square
Adjusted R Square ,86387 Regression 1 105,95222 105,95222
Standard Error 1,22329 Residual 10 14,96444 1,49644
F = 70,80266 Signif F = ,0000
------------------ Variables in the Equation ------------------
Variable B SE B Beta T Sig T
VAR00002 ,589716 ,070084 ,936078 8,414 ,0000
(Constant) 1,079322 ,743351 1,452 ,1772
End Block Number 1 All requested variables entered.
Análisis de regresión: Ejemplo de reporte
Elementos básicos del
Análisis de Varianza
Análisis de varianza (ANOVA)
Se denomina Análisis de varianza (Anova) a una serie
de procedimientos estadísticos cuyo propósito radica
en testear el grado de asociación entre una variable
independiente clasificatoria (nominal u ordinal) y una
variable dependiente medida de manera cuantitativa
(nivel de intervalo o de relación).
Específicamente, Anova se utiliza para determinar si
las medias de dos o más grupos pertenecen a una o a
diferentes poblaciones.
Alternativamente, también se denomina análisis de
varianza a otros procedimientos estadísticos,
distintos del arriba mencionado, pero que comparten
similar lógica de análisis.
Medida Informa sobre...
F
En general, el propósito de la medida radica en determinar si
dos o más valores promedios pertenecientes a diferentes
grupos son significativamente diferentes. Especícamente, el
valor de F sólo indica el valor de p asociado, el cuál -en última
instancia- es el que realmente informa sobre la probabilidad de
diferencia entre las medias.
p
La probabilidad de que el valor de F obtenido se deba al azar.
Cuanto mayor sea p, significa que es más probable que las
medias de los grupos no difieran de un modo significativo.
Inversamente, cuando menor sea P, resultará más probable
que existan diferencias.
ε2
Etha cuadrado es una de las medidas que, específicamente,
informa sobre el grado o fuerza en que la variable
independiente se halla relacionada con la dependiente y por lo
tanto permite su explicación y/o predicción.
Las tres medidas básicas asociadas al análisis de
varianza (ANOVA)
Análisis de Varianza (Anova): Prueba F
1. La prueba F es la prueba central del ANOVA. Básicamente consiste en
comparar dos medidas de la variabilidad de los datos obtenidas de manera
independiente:
La primera, obtenida al comparar las medias de los diferentes grupos
(varianza intergrupo)
La segunda, obtenida al analizar las fluctuaciones de los datos dentro de
cada grupo; es decir: respecto a la media de cada grupo (varianza
intragrupo)
2. Concretamente, F es el cociente entre la varianza intergrupo y la varianza
intragrupo.
3. Interpretación de F: En general, cuanto mayor es el valor de F, mayor es la
variabilidad entre los grupos respecto a la variabilidad intragrupo. Ello
significa que aumenta la probabilidad de que las medias de los grupos
pertenezcan a poblaciones conceptualmente diferentes, con diferente
media.
Fórmula F =
 (x −x) . n
k−1
 (x −x)
(n−1) . k
Eta cuadrado es una medida asociada al análisis de
varianza:
Es el cociente entre la suma de cuadrados intergrupos
y la suma de cuadrados total.
Al igual que φ y R2 , E2 informa sobre la fuerza o el
grado de la relación entre las variables. A diferencia de
F, que carece de un significado específico, E2 puede
interpretarse como la proporción de la variabilidad total
de la variable dependiente "Y" que queda explicada a
partir de la variable independiente clasificatoria.
Coeficiente Etha Cuadrado (ε2)
* * * A N A L Y S I S O F V A R I A N C E * * *
DEPENDIE Variable dependiente
by IND.PRIN Variable independiente principal
IND.SECU Variable independiente secundaria
UNIQUE sums of squares
All effects entered simultaneously
Sum of Mean Sig
Source of Variation Squares DF Square F of F
Main Effects 540.000 2 270.000 67.500 .000
IND.PRIN 432.000 1 432.000 108.000 .000
IND.SECU 108.000 1 108.000 27.000 .001
2-Way Interactions .000 1 .000 .000 1.00
IND.PRIN IND.SECU .000 1 .000 .000 1.00
Explained 540.000 3 180.000 45.000 .000
Residual 32.000 8 4.000
Total 572.000 11 52.000
12 cases were processed.
0 cases (.0 pct) were missing.
Análisis En general Si es bajo Si es alto
En el análisis de
asociación Chi
Cuadrado
A medida que baja,
aumenta la
probabilidad de
asociación
Es poco probable
que la asociación
observada se deba
al azar
Es muy probable
que la asociación
observada se deba
al azar
En el análisis de
correlación "R"
de Pearson
A medida que baja,
aumenta la
probabilidad de que
exista correlación
lineal
Es poco probable
que la correlación
observada no se
ajuste a un modelo
lineal
Es altamente
probable que no
exista correlación
lineal
En el análisis de
varianza
(Prueba F)
A medida que baja,
aumenta la
probabilidad de que
las medias difieran
significativamente
(pertenezcan a poblaciones
con distinta media)
Es poco probable
que las medias
pertenezcan a una
única población
Es altamente
probable que las
medias
pertenezcan a una
única población
¿Qué informa exactamente "p" en los
distintos análisis estadísticos?
Elementos básicos de Análisis
Discriminate
Término Significado
Función
discriminante
Representa al modelo matemático que mejor discrimina a
los valores de la variable dependiente (grupos) a partir de
la/svariable/s independiente/es predictoras (es análoga a la
ecuación de regresión, en ése análisis).
Correlación
canónica
Es una medida querepresenta el grado decorrelación entre
la/s variable/s independiente/es y los grupos. Al elevarse al
cuadrado representa la proporción de variabilidad
involucrada con los grupos (es análoga al coeficiente de
determinación R 2en el análisis de regresión).
Coeficiente λ
(lambda) de Wilk
Es la medida de significación estadística básica del
análisis. Señala la probabilidad (P) de que el modelo
predictivo evaluado se deba al azar. (A diferencia de otros
tests cuanto menor sea λ , menor será también P. No
obstante, para determinar P, λ

debe transformarse en χ2
)
Cargas
discriminantes (o
correlaciones de
estructura)
Representan las correlaciones entre las variables
independientes predictoras y la función discriminante. Se
interpretan como la fuerza relativa de cada variable dentro
del modelo: cuánto mayor resulte la cargadiscriminante de
una variable, mayor será la contribución de ésta a la
discriminación global del modelo.
Terminología básica asociada al análisis
discriminante
Término Significado
Probabilidades
previas
Son las probabilidades de que un miembro pertenezca a
determinado grupo antes de realizar el análisis.
Matriz de
clasificación o
predicción
Es el resultado básico que condensa las predicciones
clasificatorias basadas en la función discriminante. En la
diagonal aparecen los casos clasificados correctamente.
Fuera de la diagonal, los casos clasificados en forma
errónea. El cociente entre la suma de los casos correctos
(sobre la diagonal) y el total de casos constituye la razón de
aciertos. Si la función discriminante resulta efectiva, la
razón de acierto debería ser mayor que lo cabría esperar
conforme a las probabilidades previas.
Puntajes
discriminantes
Son los puntajes correspondientes a cada uno de los
individuos de acuerdo a la función discriminante.
Representan un puntaje de síntesis de las variables
predictoras que puede utilizarse a posteriori para explorar
otro tipo de relaciones entre los datos.
Terminología básica asociada al análisis
discriminante (cont.)
Tres reportes estadísticos básicos del análisis discriminante
Autovalores
1,811a
100,0 100,0 ,803
Función
1
Autovalor % de varianza % acumulado
Correlación
canónica
Se han empleado las 1 primeras funciones discriminantes
canónicas en el análisis.
a.
Lambda de Wilks
,356 17,569 2 ,000
Contraste de
las funciones
1
Lambda
de Wilks Chi-cuadrado gl Sig.
Matriz de estructura
,997
-,850
Nivel de pacifismo
Nivel de hedonismo
1
Función
Correlaciones intra-grupo combinadas entre
las variables discriminantes y las funciones
discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la
correlación con la función.
En las tablas de arriba aparecen tres reportes básicos del análisis discriminate:
1) La correlación canónica, que informa sobre el potencial explicativo del modelo
discriminante obtenido
2) Los valores de lambda y chi cuadrado, junto al nivel de significación asociado
3) La matriz de estructura, donde se informa el sentido y grado de la correlación entre
cada variable predictora y el modelo discriminante obtenido
El resultado descriptivo fundamental del análisis discriminante
Probabilidades previas para los grupos
,600 12 12,000
,400 8 8,000
1,000 20 20,000
Preferencia
Roca Cola
Suave Cola
Total
Previas
No
ponderados Ponderados
Casos utilizados en el
análisis
Resultados de la clasificación
10 2 12
1 7 8
83,3 16,7 100,0
12,5 87,5 100,0
Preferencia
Roca Cola
Suave Cola
Roca Cola
Suave Cola
Recuento
%
Original
Roca Cola Suave Cola
Grupo de pertenencia
pronosticado
Total
Clasificados correctamente el 85,0% de los casos agrupados originales.
La tabla inmediata superior es la matriz de clasificación, que representa el resultado descriptivo
básico del análisis discriminate. Allí se detallan en valores absolutos y porcentuales los casos
clasificados correctamente en base a aplicar la función discriminate sobre los puntajes de las
variables independientes. Como puede apreciarse, el modelo permite clasificar acertadamente al
85% de los casos, porcentaje que supera al que se habría obtenido aleatoriamente en base a las
probabilidades previas de cada grupo (cuya esperanza matemática ascendería a 0,600 ó 60%;
tabla superior)
Elementos básicos de Análisis
Factorial
El análisis factorial es un conjunto de métodos estadísticos multivariados
cuya función radica en identificar construcciones o factores subyacentes
que explican las correlaciones entre un conjunto de variables. En tal sentido,
constituye un método explicativo.
En virtud de lo anterior, el análisis factorial se usa para resumir un gran
número de variables en un número más pequeño de macro-variables
denominadas factores. En tal sentido, constituye un método de síntesis.
Por último, cabe precisar que el análisis factorial constituye un método de
interdependencia entre variables y por ende no discrimina entre variables
independientes y dependientes
Ejemplos de aplicación del análisis factorial:
Identificar los factores subyacentes en investigaciones actitudinales basadas en
escalas Likert.
Identificar los factores subyacentes en investigaciones sobre imagen basadas
en técnicas como el diferencial semántico.
Identificar los factores subyacentes en investigaciones psicográficas basadas
en cuestionarios AIO (actividades, intereses y opiniones)
Identificar los factores suyacentes en investigaciones sobre atributos de
productos y servicios.
Refinar cualquier análisis predictivo y/o explicativo utilizando "a posteriori" los
factores extraídos como nuevas variables independientes.
Análisis Factorial
Término Significado
Factor
Representa una variable latente o subyacente a una serie
de variables originalmente medidas. Estadísticamente
representa una variable hipotética tal que las
correlaciones entre ésta y las variables originales es
máxima. Su significado debe interpretarse.
Cargas factoriales
Son las correlaciones entre las variables originales y los
factores extraídos
Matriz factorial
Es la salida informativa fundamental del análisis. Es una
matriz donde se representan todos los factores
obtenidos con sus respectivas cargas factoriales
Valor específico
(Eingenvalue)
Es un valor que representa el total de varianza que
explica un factor. Más específicamente, al dividirse el
valor específico por el número de variables originales se
obtiene la proporción de la varianza que explica el factor.
% de varianza
explicado
Es el porcentaje de la variabilidad total que queda
explicado por cada factor.
Comunalidad
Es el porcentaje de la variabilidad de cada variable
original que es explicado conjuntamente por todos los
factores extraídos
Terminología básica asociada al análisis factorial
Término Significado
Matriz de
correlaciones
Es una matriz cuadrada (igual número de filas y columnas)
donde se representan todas las correlaciones entre las
variables originales. Constituye el punto de partida del análisis
factorial.
Prueba de
esferecidad de
Bartlett
Es un test de significación estadística para el análisis
factorial. Como otros tests decisorios, si su valor es alto, el
valor de P asociado será bajo. Cuando ello ocurre significa
que las correlaciones entre las variables originales
probablemente no se deban al azar sino a la existencia de
los factores latentes extraídos.
Prueba de
adecuación
Kaiser-Meyer-
Olkin (KMO)
Es un test para decidir sí el análisis factorial resulta
apropiado. Los valores altos (entre 0,5 y 1) indican que es
apropiado; los valores inferiores a 0,5 hacen inaceptable su
aplicación.
Puntajes
factoriales
Son los puntajes correspondientes a cada uno de los
individuos en cada factor.
Matriz factorial
rotada
Es el resultado de aplicar un procedimiento matemático que
permita una interpretación más precisa de los factores. En
la matriz rotada las cargas factoriales se distribuyen de tal
forma que para cada variable exista la mayor diferencia
entre un factor y otro.
Terminología básica asociada al análisis factorial (Cont.)
Elementos de cluster análisis en el
contexto de la investigación
psicográfica
Diagrama de flujo de una
investigación psicográfica
Diseño muestral
Elaboración de un
cuestionario AIO
Cruzar los clusters
c/ otras var. de segmentación
Cruzar los clusters con
variables resultados relevantes
Administración del
cuestionario AIO
Definición de objetivos
Análisis multivariado
• Cluster análisis
Descripción de los clusters
•Tabular
•Textual
Interpretación de
los clusters
Número de clusters
“ Pureza” de los clusters
Validación de los clusters
Descripción ampliada
nivel 1
Descripción ampliada
nivel 2
Cluster psicográfico
Cluster psicográfico-
demográfico
Cluster psico-demo-
gráfico-conductual
específico
Clusters psicográficos cruzados con sus variables constituyentes originales
Variables originales Cluster 1 Cluster 2 General
Tamaño 50% 50% 100%
Hedonismo 4.40 8 6.20
Innovatividad 4.30 7.10 5.70
Romanticismo 7.10 3.50 5.30
Religiosidad 7.00 3.50 5.25
Clusters o segmentos psicográficos cruzados con sus variables
constituyentes originales: descripción tabular y textual
Variables originales Espiritualistas Materialistas General
Tamaño 50% 50% 100%
Hedonismo 4.40 8 6.20
Innovatividad 4.30 7.10 5.70
Romanticismo 7.10 3.50 5.30
Religiosidad 7.00 3.50 5.25
Cluster 1: LOS ESPIRITUALISTAS
Se definen por la alta valoración que
le conceden al romanticismo y por
su gran sentimiento de religiosidad.
No sintonizan con valores
hedonistas ni tampoco les interesan
valores de la modernidad tales como
la orientación a la innovación.
Cluster 2: LOS MATERIALISTAS
Se definen por la alta valoración de
valores de la modernidad tales como
hedonismo e innovación. Descreen,
o al menos no se sienten
identificados, con valores de cuño
más tradicional tales como el
romanticismo y la religiosidad.
Clusters o segmentos psicográficos cruzados
con demográficos
Psicográficos
Segmento 1 Segmento 2 Segmento 3 Segmento 4
TAMAÑO
EDAD
SEXO
Masculino
Femenino
ESTADO CIVIL
Soltero/a
Casado/a
Divorciado/a
Viudo/a
EDUCACION
Primaria
Secundaria
Universitaria
CLASE SOCIAL
Baja
Media
Alta
INGRESO ANUAL
Demográficos
Cluster Análisis o Análisis de Conglomerados
El ánálisis de conglomerados o cluster análisis es un método estadístico
multivariado cuyo objetivo básico es identificar grupos relativamente
homogéneos a partir de determinadas características seleccionadas. Por
ello, el análisis de conglomerados básicamente constituye un método de
clasificación.
El fundamento básico de esta metodología es el análisis de distancias
entre observaciones. Su lógica es sencilla: Dos observaciones que
puntúen de manera similar en las diversas características
identificatorias (ie., las variables) se encuentran "próximas" en un
espacio virtual clasificatorio y deberían, por lo tanto, clasificarse en
los mismos conglomerados o clusters; recíprocamente, las
observaciones que se encuentren "lejanas" entre sí, deberían
corresponder a diferentes grupos.
A diferencia del análisis discriminante,el análisis de conglomerados no
parte de grupos dados a priori sino que - justamente- la obtención de
tales grupos constituye el output del procedimiento.
Por último, cabe precisar que, al igual que el análisis factorial, el cluster
análisis constituye un método de interdependencia entre variables y
por ende no discrimina entre variables independientes y dependientes.
Aplicaciones del análisis de conglomerados
El análisis de conglomerados es el método por excelencia para
clasificar objetos en base a afinidades, por lo tanto resulta útil
en los siguientes ámbitos:
 Segmentación psicográfica y otros perfiles actitudinales.
 Segmentación de audiencias y públicos.
 Clasificaciones de diversos objetos. Por ejemplo, pueden
agruparse programas de capacitación en categorías
homogéneas basadas en las características de los
participantes. O bien pueden agruparse conjuntos de
personas en conglomerados homogéneos para que pueden
seleccionarse grupos comparables, con el fin de testear
alguna estrategia.
Tipos básicos de análisis de conglomerados
Conglomerado de K medias:
Realiza análisis de conglomerados usando un algoritmo que
puede manejar grandes números de casos, pero que requiere la
especificación del número de conglomerados.
Conglomerados jerárquicos:
Combina casos en conglomerados a través de una secuencia
jerárquica, usando un algoritmo con consumo intensivo de
memoria que permite examinar muchas soluciones diferentes
con facilidad. Los clusters se forman mediante agrupamiento en
conglomerados mayores o menores hasta que todos los casos
sean miembros de un sólo conglomerado.
Caso Hedonismo Innovativida
d
Romanticismo Religiosidad
1 3 3 10 9
2 3 4 8 8
3 5 4 8 7
4 5 5 7 6
5 5 3 6 6
6 4 4 7 8
7 4 5 6 7
8 4 4 7 7
9 6 5 6 6
10 5 6 6 6
11 7 5 4 5
12 7 6 4 4
13 7 5 4 4
14 9 7 3 2
15 9 8 3 3
16 7 7 3 3
17 6 8 4 4
18 10 7 4 4
19 9 9 3 3
20 9 9 3 3
En la matriz de datos se
consigan los resultados
de una encuesta sobre
autoconcepto en cuatro
variables cuyo rango
oscilaba entre 1 y 10:
a) hedonismo,
b) innovatividad
c) romanticismo
d) religiosidad
Tal como puede
apreciarse, los primeros
diez casos se
caracterizan por su bajo
hedonismo e
innovatividad y su alto
romanticismo y
religiosidad; mientras
que en los últimos 10, se
observa lo inverso.
Un análisis que requiriera
dos cluster debería
distinguir esos dos
grupos.
Ejemplo de operatoria del cluster análisis: a) Datos
Ejemplo de operatoria de cluster análisis: b) Reportes básicos (Método K-Medias)
Number of Cases in each Cluster.
Cluster cases
1 10,0
2 10,0
EN LOS TABLAS DE ARRIBA APARECEN DOS REPORTES BASICOS DEL CLUSTER
ANALISIS:
1°) La tabla que vincula a los clusters obtenidos con los valores promedio para cada una
de las variables utilizadas. Constituye la base para su posterior interpretación. Así, en
principio, el cluster 1 estaría conformado por personas de bajo hedonismo, con poca
orientación a la innovación, autodefinidas como románticas y acentuadamente
religiosas. Inversamente, el cluster 2 estaría integrado por personas marcadamente
orientadas al hedonismo y la innovación y poco orientadas al romanticismo y la
religiosidad.
2°) La cantidad de miembros en cada cluster, en este caso se trata de dos clusters de 10
integrantes cada uno.
Cluster HEDONISM INNOVATI ROMANTIC RELIGIOS
1 4,4000 4,3000 7,0995 7,0000
2 8,0000 7,1000 3,5000 3,5000
Otro reporte de interés está
representado por el listado de
asignación de casos a los
diferentes clusters. En la
última columna, aparece una
medida de la distancia de cada
caso al centro de su cluster, lo
cual constituye un valor que
informa cuán típico o atípico
resulta un individuo respecto
al cluster en el que ha sido
clasificado.
Como puede apreciarse al
individuo N° 8 constituye el
caso prototípico del cluster 1,
ya que presenta la menor
distancia al centro del mismo.
Para corroborarlo, véase
nuevamente la matriz de datos
y la información de clusters
finales.
Ejemplo de operatoria de cluster análisis: c) Reportes complementarios (Método K-Medias)
COD Cluster Distance
1 1 4,008
2 1 1,965
3 1 1,123
4 1 1,364
5 1 2,064
6 1 1,123
7 1 1,363
8 1 ,510
9 1 2,293
10 1 2,336
11 2 2,812
12 2 1,646
13 2 2,431
14 2 1,873
15 2 1,520
16 2 1,229
17 2 2,304
18 2 2,124
19 2 2,261
20 2 2,261
Ejemplo de operatoria de cluster análisis: c) Reportes complementarios (Método K-Medias)
Otro dato de sumo interés es la tabla de Anova, donde se informa sobre el grado
de significación estadística de la diferencia de las medias de los diferentes
clusters, para todas las variables utilizidas en su conformación. En el presente
caso, todos los valores resultan significativos, lo que indica que los clusters
discriminan a los individuos en todas las variables.
Cluster HEDONISM INNOVATI ROMANTIC RELIGIOS
1 4,4000 4,3000 7,0995 7,0000
2 8,0000 7,1000 3,5000 3,5000
Analysis of Variance.
Variable Cluster MS DF Error MS DF F Prob
HEDONISM 64,8000 1 1,355 18,0 47,8033 ,000
INNOVATI 39,2000 1 1,500 18,0 26,1333 ,000
ROMANTIC 64,7821 1 ,966 18,0 67,0121 ,000
RELIGIOS 61,2500 1 ,916 18,0 66,8182 ,000
Ejemplo de operatoria de cluster análisis: d) Reporte básico (Método Jerárquico)
Cluster Membership of Cases using Average Linkage (Between Groups)
Number of Clusters
Label Case 4 3 2
Case 1 1 1 1 1
Case 2 2 2 2 1
Case 3 3 2 2 1
Case 4 4 2 2 1
Case 5 5 2 2 1
Case 6 6 2 2 1
Case 7 7 2 2 1
Case 8 8 2 2 1
Case 9 9 2 2 1
Case 10 10 2 2 1
Case 11 11 3 3 2
Case 12 12 3 3 2
Case 13 13 3 3 2
Case 14 14 4 3 2
Case 15 15 4 3 2
Case 16 16 3 3 2
Case 17 17 3 3 2
Case 18 18 4 3 2
Case 19 19 4 3 2
Case 20 20 4 3 2
Ejemplo de operatoria de cluster análisis: e) Dendograma (Método Jerárquico)
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Case 19 19
Case 20 20
Case 15 15
Case 14 14
Case 18 18
Case 12 12
Case 13 13
Case 11 11
Case 16 16
Case 17 17
Case 6 6
Case 8 8
Case 7 7
Case 3 3
Case 2 2
Case 9 9
Case 10 10
Case 4 4
Case 5 5
Case 1 1
Ejemplo de operatoria de cluster análisis: f) Historial de conglomeración (Método Jerárquico)
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Agglomeration Schedule using Average Linkage (Between Groups)
Clusters Combined Stage Cluster 1st Appears Next
Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage
1 19 20 ,000000 0 0 2
2 15 19 1,000000 0 1 11
3 12 13 1,000000 0 0 5
4 6 8 1,000025 0 0 8
5 11 12 1,500000 0 3 15
6 9 10 2,000000 0 0 7
7 4 9 2,000000 0 6 14
8 6 7 2,495053 4 0 9
9 3 6 3,669981 0 8 12
10 16 17 4,000000 0 0 15
11 14 15 4,000000 0 2 13
12 2 3 4,252486 0 9 16
13 14 18 6,000000 11 0 17
14 4 5 6,333333 7 0 16
15 11 16 7,333333 5 10 17
16 2 4 7,648517 12 14 18
17 11 14 13,960000 15 13 19
18 1 2 22,447754 0 16 19
19 1 11 54,536533 18 17 0
Ejemplo de operatoria de cluster análisis: g) Diagrama de témpanos (Método Jerárquico)
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Vertical Icicle Plot using Average Linkage (Between Groups)
1 2 1 1 1 1 1 1 1 1 1
8 0 9 5 4 7 6 3 2 1 5 0 9 4 7 8 6 3 2 1
1 +
2 +
3 +
4 +
5 +
6 +
7 +
8 +
9 +
10 +
11 +
12 +
13 +
14 +
15 +
16 +
17 +
18 +
19 +

Mais conteúdo relacionado

Mais procurados

Ensayo de estadística inferencial
Ensayo de estadística inferencialEnsayo de estadística inferencial
Ensayo de estadística inferencial
thomas669
 
Muestreo por conglomerados
Muestreo por conglomeradosMuestreo por conglomerados
Muestreo por conglomerados
Michael Cabrera
 

Mais procurados (20)

Las tablas de frecuencia
Las tablas de frecuenciaLas tablas de frecuencia
Las tablas de frecuencia
 
Ensayo de estadística inferencial
Ensayo de estadística inferencialEnsayo de estadística inferencial
Ensayo de estadística inferencial
 
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICAUNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
 
MéTodo De Muestreo Por Conglomerados
MéTodo De  Muestreo  Por  ConglomeradosMéTodo De  Muestreo  Por  Conglomerados
MéTodo De Muestreo Por Conglomerados
 
Pruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricasPruebas de bondad de ajuste y pruebas no parametricas
Pruebas de bondad de ajuste y pruebas no parametricas
 
EstadíStica Inferencial
EstadíStica InferencialEstadíStica Inferencial
EstadíStica Inferencial
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
Ordenamiento de datos
Ordenamiento de datosOrdenamiento de datos
Ordenamiento de datos
 
Estimacion de parametros
Estimacion de parametrosEstimacion de parametros
Estimacion de parametros
 
Escalas de Medición
Escalas de Medición Escalas de Medición
Escalas de Medición
 
Estadística, gráficos, tablas y estadígrafos.
Estadística, gráficos, tablas y estadígrafos.Estadística, gráficos, tablas y estadígrafos.
Estadística, gráficos, tablas y estadígrafos.
 
Estadística Básica
Estadística BásicaEstadística Básica
Estadística Básica
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística Descriptiva
 
Mapa conceptual estadística dany sexto semestre
Mapa conceptual estadística dany sexto semestreMapa conceptual estadística dany sexto semestre
Mapa conceptual estadística dany sexto semestre
 
Escalas o Niveles de medición (estadística)
Escalas o Niveles de medición (estadística)Escalas o Niveles de medición (estadística)
Escalas o Niveles de medición (estadística)
 
Muestreo por conglomerados
Muestreo por conglomeradosMuestreo por conglomerados
Muestreo por conglomerados
 
Población y Muestra
Población y MuestraPoblación y Muestra
Población y Muestra
 
Power Point de Estadística
Power Point de EstadísticaPower Point de Estadística
Power Point de Estadística
 
Tipos de variables
Tipos de variablesTipos de variables
Tipos de variables
 
Software estadistico
Software estadisticoSoftware estadistico
Software estadistico
 

Semelhante a Capítulo 1 : Introducción a la Estadística Aplicada

Sesion 3 metodología de la investigacion
Sesion 3 metodología de la investigacionSesion 3 metodología de la investigacion
Sesion 3 metodología de la investigacion
Augusto Javes Sanchez
 
2. CLASE 01 Bioestadistica Farmacia 2022.pptx
2. CLASE 01 Bioestadistica Farmacia 2022.pptx2. CLASE 01 Bioestadistica Farmacia 2022.pptx
2. CLASE 01 Bioestadistica Farmacia 2022.pptx
MARGARITO18
 
Presentación estadística
Presentación estadísticaPresentación estadística
Presentación estadística
lauriz19
 
Capitulo 9 definicion y medicion de variables
Capitulo 9 definicion y medicion de variablesCapitulo 9 definicion y medicion de variables
Capitulo 9 definicion y medicion de variables
Juan Flores
 

Semelhante a Capítulo 1 : Introducción a la Estadística Aplicada (20)

MODULO DE ESTADISTICA.pdf
MODULO DE ESTADISTICA.pdfMODULO DE ESTADISTICA.pdf
MODULO DE ESTADISTICA.pdf
 
Presentacion conceptos basicos
Presentacion conceptos basicosPresentacion conceptos basicos
Presentacion conceptos basicos
 
Introduccion a la estadistica
Introduccion a la estadisticaIntroduccion a la estadistica
Introduccion a la estadistica
 
Presentación estadística
Presentación estadísticaPresentación estadística
Presentación estadística
 
Geoestadistica descriptiva
Geoestadistica descriptiva Geoestadistica descriptiva
Geoestadistica descriptiva
 
Proyecto final
Proyecto finalProyecto final
Proyecto final
 
Bioclase i
Bioclase iBioclase i
Bioclase i
 
Introducción a la estadística
Introducción a la estadística Introducción a la estadística
Introducción a la estadística
 
caso estudio farmacéutico.docx
caso estudio farmacéutico.docxcaso estudio farmacéutico.docx
caso estudio farmacéutico.docx
 
Sesion 3 metodología de la investigacion
Sesion 3 metodología de la investigacionSesion 3 metodología de la investigacion
Sesion 3 metodología de la investigacion
 
Estudios estadisticos
Estudios estadisticosEstudios estadisticos
Estudios estadisticos
 
Probabilidad y Estadistica (primera parte).ppt
Probabilidad y Estadistica (primera parte).pptProbabilidad y Estadistica (primera parte).ppt
Probabilidad y Estadistica (primera parte).ppt
 
2. CLASE 01 Bioestadistica Farmacia 2022.pptx
2. CLASE 01 Bioestadistica Farmacia 2022.pptx2. CLASE 01 Bioestadistica Farmacia 2022.pptx
2. CLASE 01 Bioestadistica Farmacia 2022.pptx
 
Diseños de Investigación.pptx
Diseños de Investigación.pptxDiseños de Investigación.pptx
Diseños de Investigación.pptx
 
U1-T2 M.docx
U1-T2 M.docxU1-T2 M.docx
U1-T2 M.docx
 
Presentación estadística
Presentación estadísticaPresentación estadística
Presentación estadística
 
Capitulo 9 definicion y medicion de variables
Capitulo 9 definicion y medicion de variablesCapitulo 9 definicion y medicion de variables
Capitulo 9 definicion y medicion de variables
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
7. metodologia y estadistica aplicada a la educacion
7. metodologia y estadistica aplicada a la educacion7. metodologia y estadistica aplicada a la educacion
7. metodologia y estadistica aplicada a la educacion
 
Investigacion descriptica
Investigacion descripticaInvestigacion descriptica
Investigacion descriptica
 

Mais de ug-dipa

Informe de la unesco sobre la ciencia hacia el 2030
Informe de la unesco sobre la ciencia hacia el 2030Informe de la unesco sobre la ciencia hacia el 2030
Informe de la unesco sobre la ciencia hacia el 2030
ug-dipa
 
Capítulo 3 : Confiabilidad y Validez de los Instrumentos
Capítulo 3 : Confiabilidad y Validez de los InstrumentosCapítulo 3 : Confiabilidad y Validez de los Instrumentos
Capítulo 3 : Confiabilidad y Validez de los Instrumentos
ug-dipa
 
Criterios de Evaluación de la Producción Científica
Criterios de Evaluación de la Producción CientíficaCriterios de Evaluación de la Producción Científica
Criterios de Evaluación de la Producción Científica
ug-dipa
 
Bases Concurso de Méritos y Oposición para Técnicos de Laboratorio y Jefes ...
Bases Concurso de Méritos  y Oposición  para Técnicos de Laboratorio y Jefes ...Bases Concurso de Méritos  y Oposición  para Técnicos de Laboratorio y Jefes ...
Bases Concurso de Méritos y Oposición para Técnicos de Laboratorio y Jefes ...
ug-dipa
 
Metodología de la Investigación - Paradigmas Científicos
Metodología de la Investigación - Paradigmas CientíficosMetodología de la Investigación - Paradigmas Científicos
Metodología de la Investigación - Paradigmas Científicos
ug-dipa
 
Paradigmas de la Metodología de la Investigación
Paradigmas de la Metodología de la InvestigaciónParadigmas de la Metodología de la Investigación
Paradigmas de la Metodología de la Investigación
ug-dipa
 
Metodología de la Investigación - Idea de la Investigación
Metodología de la Investigación - Idea de la InvestigaciónMetodología de la Investigación - Idea de la Investigación
Metodología de la Investigación - Idea de la Investigación
ug-dipa
 
Metodología de la Investigación - Planteamiento del Problema
Metodología de la Investigación - Planteamiento del ProblemaMetodología de la Investigación - Planteamiento del Problema
Metodología de la Investigación - Planteamiento del Problema
ug-dipa
 
Metodología de la Investigación - La Idea de la Investigación
Metodología de la Investigación - La Idea de la InvestigaciónMetodología de la Investigación - La Idea de la Investigación
Metodología de la Investigación - La Idea de la Investigación
ug-dipa
 

Mais de ug-dipa (20)

Informe de la unesco sobre la ciencia hacia el 2030
Informe de la unesco sobre la ciencia hacia el 2030Informe de la unesco sobre la ciencia hacia el 2030
Informe de la unesco sobre la ciencia hacia el 2030
 
Introducción a la Estadística Descriptiva
Introducción a la Estadística DescriptivaIntroducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
 
Capítulo 2 : Población, muestra y contexto
Capítulo 2 : Población, muestra y contextoCapítulo 2 : Población, muestra y contexto
Capítulo 2 : Población, muestra y contexto
 
Capítulo 3 : Confiabilidad y Validez de los Instrumentos
Capítulo 3 : Confiabilidad y Validez de los InstrumentosCapítulo 3 : Confiabilidad y Validez de los Instrumentos
Capítulo 3 : Confiabilidad y Validez de los Instrumentos
 
Capitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de HipótesisCapitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de Hipótesis
 
Marco Teórico Bases de Datos
Marco Teórico Bases de DatosMarco Teórico Bases de Datos
Marco Teórico Bases de Datos
 
Criterios de Evaluación de la Producción Científica
Criterios de Evaluación de la Producción CientíficaCriterios de Evaluación de la Producción Científica
Criterios de Evaluación de la Producción Científica
 
Tipos de investigación
Tipos de investigación Tipos de investigación
Tipos de investigación
 
Syllabus de Estadística Aplicada
Syllabus de Estadística AplicadaSyllabus de Estadística Aplicada
Syllabus de Estadística Aplicada
 
Diseño Teórico de la Investigación
Diseño Teórico de la InvestigaciónDiseño Teórico de la Investigación
Diseño Teórico de la Investigación
 
Tipo de Hipótesis
Tipo de HipótesisTipo de Hipótesis
Tipo de Hipótesis
 
Bases Concurso de Méritos y Oposición para Técnicos de Laboratorio y Jefes ...
Bases Concurso de Méritos  y Oposición  para Técnicos de Laboratorio y Jefes ...Bases Concurso de Méritos  y Oposición  para Técnicos de Laboratorio y Jefes ...
Bases Concurso de Méritos y Oposición para Técnicos de Laboratorio y Jefes ...
 
Metodología de la Investigación - Paradigmas Científicos
Metodología de la Investigación - Paradigmas CientíficosMetodología de la Investigación - Paradigmas Científicos
Metodología de la Investigación - Paradigmas Científicos
 
Metodología de la Investigación - Paradigmas de la Educación
Metodología de la Investigación - Paradigmas de la EducaciónMetodología de la Investigación - Paradigmas de la Educación
Metodología de la Investigación - Paradigmas de la Educación
 
Metodología de la Investigación - PARADIGMA CONTEMPORÁNEO EN INVESTIGACIÓN ED...
Metodología de la Investigación - PARADIGMA CONTEMPORÁNEO EN INVESTIGACIÓN ED...Metodología de la Investigación - PARADIGMA CONTEMPORÁNEO EN INVESTIGACIÓN ED...
Metodología de la Investigación - PARADIGMA CONTEMPORÁNEO EN INVESTIGACIÓN ED...
 
Metodología de la Investigación - Paradigmas - 2016
Metodología de la Investigación - Paradigmas - 2016Metodología de la Investigación - Paradigmas - 2016
Metodología de la Investigación - Paradigmas - 2016
 
Paradigmas de la Metodología de la Investigación
Paradigmas de la Metodología de la InvestigaciónParadigmas de la Metodología de la Investigación
Paradigmas de la Metodología de la Investigación
 
Metodología de la Investigación - Idea de la Investigación
Metodología de la Investigación - Idea de la InvestigaciónMetodología de la Investigación - Idea de la Investigación
Metodología de la Investigación - Idea de la Investigación
 
Metodología de la Investigación - Planteamiento del Problema
Metodología de la Investigación - Planteamiento del ProblemaMetodología de la Investigación - Planteamiento del Problema
Metodología de la Investigación - Planteamiento del Problema
 
Metodología de la Investigación - La Idea de la Investigación
Metodología de la Investigación - La Idea de la InvestigaciónMetodología de la Investigación - La Idea de la Investigación
Metodología de la Investigación - La Idea de la Investigación
 

Último

TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docxTALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
NadiaMartnez11
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
El Fortí
 
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptxRESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
pvtablets2023
 

Último (20)

Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
 
semana 4 9NO Estudios sociales.pptxnnnn
semana 4  9NO Estudios sociales.pptxnnnnsemana 4  9NO Estudios sociales.pptxnnnn
semana 4 9NO Estudios sociales.pptxnnnn
 
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docxTALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
SESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.docSESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.doc
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
Biografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfBiografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdf
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
FUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
FUERZA Y MOVIMIENTO ciencias cuarto basico.pptFUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
FUERZA Y MOVIMIENTO ciencias cuarto basico.ppt
 
Supuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docxSupuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docx
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VSSEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
SEPTIMO SEGUNDO PERIODO EMPRENDIMIENTO VS
 
Abril 2024 - Maestra Jardinera Ediba.pdf
Abril 2024 -  Maestra Jardinera Ediba.pdfAbril 2024 -  Maestra Jardinera Ediba.pdf
Abril 2024 - Maestra Jardinera Ediba.pdf
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024
 
Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptxRESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
RESULTADOS DE LA EVALUACIÓN DIAGNÓSTICA 2024 - ACTUALIZADA.pptx
 
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptxEL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
 

Capítulo 1 : Introducción a la Estadística Aplicada

  • 1. UNIVERSIDAD DE GUAYAQUIL DIRECCIÓN DE INVESTIGACIÓN Y PROYECTOS ACADÉMICOS Curso de fortalecimiento de la investigación para personal docente MODULO ESTADÍSTICA Capitulo 1: Introducción a la estadística aplicada GRUPO : D Profesor : PhD Félix Olivero
  • 2. Índice Capítulo 1. Introducción a la Estadística Aplicada.   Sub unidad 1: Objeto de estudio de la Estadística, Particularidades de la Estadística                                                                      Aplicada.  Sub unidad 2: Datos científicos, Variables. Tipos de variables, discretas y continuas.                           Escala Estadística. Sub unidad 3: Tabla de distribución de frecuencias.  Sub unidad 4: La Estadística Descriptiva.  Sub unidad 5: La Estimación puntual y por intervalos Sub unidad 6: Como realizar gráficos estadísticos.  Sub unidad 7: Uso del sistema estadístico SPSS, Excel y otros.
  • 3. 3 Estadística Introducción ¿Qué es la estadística? Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha experimentado un gran desarrollo a lo largo de los últimos años. ¿En qué áreas se aplica la estadística? Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología, Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas, entre otras. Ejemplos de su aplicación son: 1) En Administración de Empresas: la estadística se utiliza para evaluar un producto antes de comercializarlo. 2) En Economía: para medir la evolución de los precios mediante números índice o para estudiar los hábitos de los consumidores a través de encuestas de presupuestos familiares.
  • 4. 4 Estadística Introducción Ejemplos de su aplicación son: 3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una votación mediante sondeos y así orientar las estrategias de los candidatos. 4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de actualidad. 5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del comportamiento humano (por ejemplo los test que se aplican a los candidatos para un cargo en una empresa). 6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de salud de la población. En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones entre variables y hacer predicciones sobre ellas.
  • 5. 5 Estadística Introducción Etapas de un estudio estadístico Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado método científico cuyas etapas son: 1) Planteamiento del problema: consiste en definir el objetivo de la investigación y precisar el universo o población. 2) Recogida de la información: consiste en recolectar los datos necesarios relacionados al problema de investigación. 3) Análisis descriptivo: consiste en resumir los datos disponibles para extraer la información relevante en el estudio. 4) Inferencia estadística: consiste en suponer un modelo para toda la población partiendo de los datos analizados para obtener conclusiones generales. 5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos han permitido interpretar los datos y llegar a conclusiones sobre la población
  • 6. 6 Estadística Introducción Esquema de las etapas de un estudio estadístico AREA DE INTERES DATOSDATOS Tema de InvestigaciónTema de Investigación -Antecedentes PreviosAntecedentes Previos -ObjetivosObjetivos -Preguntas de InvestigaciónPreguntas de Investigación -Posibles HipótesisPosibles Hipótesis -Unidad de AnálisisUnidad de Análisis -PoblaciónPoblación -VariablesVariables ORGANIZAR YORGANIZAR Y RESUMIRRESUMIR ESTADÍSTICA DESCRIPTIVAESTADÍSTICA DESCRIPTIVA (Tablas, Gráficos, Medidas Descriptivas, etc.) INTERPRETACIÓN INFERENCIA ESTADÍSTICAINFERENCIA ESTADÍSTICA ¿Población o Muestra?¿Población o Muestra? CONCLUSIONES PoblaciónPoblación MuestraMuestra ProbabilidadProbabilidad INFORMACIÓN
  • 7. 7 Estadística Introducción Ejemplos de algunos problemas a estudiar 1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de la persona empleada. 2) Se quiere determinar el perfil de los trabajadores en términos de condiciones económicas y sociales en diferentes comunidades. 3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a vestuario, alimentación, ocio y vivienda. 4) Se quiere determinar las tallas estándar en vestuario para mujeres ecuatorianas. 5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de distintas empresas del país. 6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad. 7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una Universidad, y si éste tiene alguna relación con su edad u otras características.
  • 8. 8 • VARIABLE:VARIABLE: es lo que se va a medir y representa una característica de laes lo que se va a medir y representa una característica de la UNIDAD DE ANÁLISISUNIDAD DE ANÁLISIS.. • ¿QUIÉNES VAN A SER MEDIDOS?:¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de unaLos sujetos u objetos o Unidades de Análisis de una Población o una MuestraPoblación o una Muestra • POBLACIÓN :POBLACIÓN : Es el total de unidades de análisis que son tema de estudio.Es el total de unidades de análisis que son tema de estudio. Muestra: 60 trabajadores de empresas de comunicación Unidad de análisis: Trabajador de empresa de comunicación Variables: sexo, edad, salario, Nº de horas de trabajo, etc. Población:Población: ““Las personas queLas personas que trabajantrabajan en empresas deen empresas de comunicacióncomunicación”” Estadística • MUESTRA:MUESTRA: Es un conjunto de unidades de análisis provenientes de una población.Es un conjunto de unidades de análisis provenientes de una población. MuestraMuestra Resumen de algunos conceptos planteados en la Introducción
  • 9. 9 TIPOS DE VARIABLESTIPOS DE VARIABLES Variables CuantitativasVariables Cuantitativas VariableVariable: : corresponde a la característica de la Unidad de Análisiscorresponde a la característica de la Unidad de Análisis IntervaloIntervalo DISCRETADISCRETA Variables CualitativasVariables Cualitativas CONTINUACONTINUA Toma valores enteros Toma valores enteros  EjemplosEjemplos: : Número de HijosNúmero de Hijos, , Número deNúmero de empleados de una empresaempleados de una empresa, , Número deNúmero de asignaturas aprobadas en un semestreasignaturas aprobadas en un semestre, etc., etc. Toma cualquier valor dentro de un intervalo Toma cualquier valor dentro de un intervalo  EjemplosEjemplos: : Peso; Estatura; Temperatura, etc.Peso; Estatura; Temperatura, etc. Unidad de MedidaUnidad de Medida: : GramosGramos o  o KilosKilos para la variable Peso; Grados  para la variable Peso; Grados CC o  o FF  para Temperatura para Temperatura ORDINALORDINALNOMINALNOMINAL Característica o cualidad Característica o cualidad  cuyas categorías no tienen cuyas categorías no tienen  un orden preestablecido. un orden preestablecido.  EjemplosEjemplos: : Sexo, DeporteSexo, Deporte FavoritoFavorito, etc., etc. Característica o cualidad cuyas Característica o cualidad cuyas  categorías tienen un orden categorías tienen un orden  preestablecido. preestablecido.  EjemplosEjemplos: Calificación (S, N, A); : Calificación (S, N, A);  Grado de Interés por un tema, etc.Grado de Interés por un tema, etc. Estadística
  • 10. 10 FrecuenciaFrecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se : desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se  presenta una característica.presenta una característica. DISCRETADISCRETA CONTINUACONTINUA ORDINALORDINAL NOMINALNOMINAL TIPO FRECUENCIATIPO FRECUENCIA Frecuencia AbsolutaFrecuencia Absoluta (F)(F) Frecuencia RelativaFrecuencia Relativa (f)(f) Frecuencia AbsolutaFrecuencia Absoluta Acumulada (FAA)Acumulada (FAA) Frecuencia RelativaFrecuencia Relativa Acumulada (fra)Acumulada (fra) DISCRETADISCRETA CONTINUACONTINUANOMINALNOMINAL ORDINALORDINAL VariableVariable CuantitativaCuantitativa VariableVariable CualitativaCualitativa VariableVariable CuantitativaCuantitativa VariableVariable CualitativaCualitativa Estadística
  • 11. 11 VariablesVariables - Tipo de Industria- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (: se clasifica en industria tipo A, B, C o D. (cualitativa nominalcualitativa nominal)) - -  Nº de EmpleadosNº de Empleados:  se  refiere  al  número  de  empleados  en  las  líneas  de  producción.  (:  se  refiere  al  número  de  empleados  en  las  líneas  de  producción.  (cuantitativacuantitativa discretadiscreta)) - -  SuperficieSuperficie:  se  refiere  a  los :  se  refiere  a  los  metros cuadradosmetros cuadrados  (  (unidad de medidaunidad de medida)  disponibles  para  las  áreas  de )  disponibles  para  las  áreas  de  producción. (producción. (cuantitativa continuacuantitativa continua)) - -  CalificaciónCalificación:  calificación  realizada  por  una  institución  pública  sobre  cumplimiento  de  ciertos :  calificación  realizada  por  una  institución  pública  sobre  cumplimiento  de  ciertos  estándares (Muy Bien, Bien, Regular, Mal). (estándares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinalcualitativa ordinal)) Industria nº Tipo Nº Empleados Superficie Calificación 1 A 100 1000,6 Muy Bien 2 B 150 1200,4 Bien . . . . . . . . . . . . . . . 299 D 250 800,3 Mal 300 C 300 4000,2 Regular Problema de InvestigaciónProblema de Investigación: Se quiere establecer el perfil de las industrias : Se quiere establecer el perfil de las industrias  de conserva en función de algunas características.  de conserva en función de algunas características.   Unidad de AnálisisUnidad de Análisis: Industria de Conserva: Industria de Conserva PoblaciónPoblación: Industrias de Conservas del país: Industrias de Conservas del país DatosDatos EJEMPLOEJEMPLO Estadística
  • 12. 12 EJEMPLOEJEMPLO TABLAS DETABLAS DE FRECUENCIAFRECUENCIA Tipo de Industria Frecuencia Absoluta (Fj) Frecuencia Relativa (fj) Porcentaje (%) A B C D Total 300 1 100 Calificación Frec. Absoluta (Fj) Frec.Relativa (fj) o % Frec. Absol. Acum. (FAAj) Frec. Relat. Acum. (fraj) o % Muy Bien Bien Regular Mal 300 1 (o 100) Total 300 1 (o 100) Numero de Empleados Frec. Absoluta (Fj) Frec.Relativa (fj) o % Frec. Absol. Acum. (FAAj) Frec. Relat. Acum. (fraj) o % <100 [100-150[ . . [950-1000] 300 1 (o 100%) Total 300 1 (o 100%) Superficie (mt2 ) Frec. Absoluta (Fj) Frec.Relativa (fj) o % Frec. Absol. Acum. (FAAj) Frec. Relat. Acum. (fraj) o % <200 [200-400[ . . [50000-5200] 300 1 (o 100%) Total 300 1 (o 100%) (1)(1) (2)(2) (3)(3) (4)(4) Problema de InvestigaciónProblema de Investigación: Se quiere establecer el perfil de las industrias de conserva en : Se quiere establecer el perfil de las industrias de conserva en  función de algunas características.  función de algunas características.   Unidad de AnálisisUnidad de Análisis: Industria de Conserva: Industria de Conserva PoblaciónPoblación: Industrias de Conservas del país: Industrias de Conservas del país Estadística
  • 13. 13 Elementos de una tabla de frecuencia cuando la variable es continua (x)Elementos de una tabla de frecuencia cuando la variable es continua (x) Intervalo Centro de clase Amplitud F f FAA fra I1 c1  a1          I2 c2  a2          . .             Ik ck  ak      n 1 Total     n 1       [LI1 ;  LS1 [ [LI2 ;  LS2 [ [LIk ;  LSk] aj = (LSj – LIj))cj = (LIj) + LSj )/2  Estadística
  • 14. 14 Ejercicio: confección de una tabla de frecuencia para una variable continuaEjercicio: confección de una tabla de frecuencia para una variable continua 10,5 10,7 9,5 10,5 11,8 11,2 12,0 10,3 13,5 12,3 10,6 9,8 10,7 11,5 11,1 10,6 9,3 12,9 10,4 7,5 10,2 8,7 10,9 9,9 11,7 10,3 10,6 10,5 11,9 11,0 13,9 10,6 10,0 10,8 10,6 - 7,3 8,0 8,5 12,5 9,7 -   Los datos corresponden a la edad de losLos datos corresponden a la edad de los hijos de los trabajadores de una empresahijos de los trabajadores de una empresa 7,3 9,7 10,4 10,6 11,1 12,3 7,5 9,8 10,5 10,6 11,2 12,5 8,0 9,9 10,5 10,7 11,5 12,9 8,5 10,0 10,5 10,7 11,7 13,5 8,7 10,2 10,6 10,8 11,8 13,9 9,3 10,3 10,6 10,9 11,9 - 9,5 10,3 10,6 11,0 12,0 -   Datos ordenados de menor a mayorDatos ordenados de menor a mayor 1)1) Construya un histograma de frecuenciasConstruya un histograma de frecuencias 2)2) ¿Cuál es la variable?;  ¿Cuál es la Unidad de ¿Cuál es la variable?;  ¿Cuál es la Unidad de  análisis?; ¿Cuánto vale n?; ¿Cuál es el rango análisis?; ¿Cuánto vale n?; ¿Cuál es el rango  de la variable?. de la variable?.  3)3) Sobre una Tabla de frecuenciaSobre una Tabla de frecuencia: ¿Cuántos : ¿Cuántos  intervalos podría construir?; ¿Cuál es la intervalos podría construir?; ¿Cuál es la  amplitud de cada intervalo?; ¿Cuántas amplitud de cada intervalo?; ¿Cuántas  medidas de frecuencia puede obtener para medidas de frecuencia puede obtener para  cada intervalo?.cada intervalo?. 4)4) Construir tabla de frecuenciaConstruir tabla de frecuencia  para lapara la variablevariable: Intervalos, centro de clase, : Intervalos, centro de clase,  amplitud, frecuencias.amplitud, frecuencias. Realice la siguiente actividadRealice la siguiente actividad Histograma :  permite  organizar  los  datos  de  una  variable medida sobre un conjunto de individuos. Su  utilidad  viene  dada  cuando  no  contamos  con  herramientas automáticas para ordenar los datos.  Estadística
  • 15. 15 TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 1. Gráfico de Sectores Circulares (de1. Gráfico de Sectores Circulares (de Torta)Torta) Distribución de las unidades de análisis de acuerdo a variable 1 A 20% D 10% C 40% B 30% Distribución de las unidades de análisis de acuerdo a variable 1 B 30% C 40% D 10% A 20% Distribución de las unidades de análisis de acuerdo a variable 1 B 30% C 40% D 10% A 20% Estadística
  • 16. 16 TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 2. Gráficos de Barras2. Gráficos de Barras Numero de unidades de análisis de acuerdo a variable 1 0 100 200 300 400 500 A B C D variable 1 Nº Porcentaje de unidad de análisis de acuerdo a variable 1 0 20 40 60 80 100 A B C D variable1 % unidad de análisis -Este  tipo  de  gráfico  se  utiliza  generalmente  para Este  tipo  de  gráfico  se  utiliza  generalmente  para  representar la frecuenciarepresentar la frecuencia  de  las  categorías  de  una   de  las  categorías  de  una  variable cualitativavariable cualitativa. .  -Cuando  una  variable  es  cuantitativa  se  puede  utilizar Cuando  una  variable  es  cuantitativa  se  puede  utilizar  este  tipo  de  gráfico  sólo  si  la  variable  se  ha este  tipo  de  gráfico  sólo  si  la  variable  se  ha  transformada en categorías.transformada en categorías. -Hay distintas versiones de estos gráficos (por ejemplo Hay distintas versiones de estos gráficos (por ejemplo  en  Excel),  y  en  algunos  casos  son  muy  útiles  para en  Excel),  y  en  algunos  casos  son  muy  útiles  para  describir el comportamiento de una variable en distintos describir el comportamiento de una variable en distintos  grupos.grupos. Proporción de unidad de análisis de acuerdo a variable 1 0 0,2 0,4 0,6 0,8 1 A B C D variable1 Proporción de unidad de análisis Estadística
  • 17. 17 HistogramaHistograma -  Permite  la  representación  de -  Permite  la  representación  de  la la  frecuenciafrecuencia de una  de una  variablevariable CuantitativaCuantitativa.. -   El El  ejeeje   xx  se  refiere  a  la   se  refiere  a  la  variable.variable. -   El El  ejeeje   yy  se  refiere  a  la   se  refiere  a  la  frecuencia (Nº , %).frecuencia (Nº , %). -   Cada Cada  barrabarra  representa  la   representa  la  frecuencia de la variable en la frecuencia de la variable en la  población  en  estudio  (o  la población  en  estudio  (o  la  muestra). muestra).  -El  histograma  se  puede El  histograma  se  puede  construir desde los datos de la construir desde los datos de la  tabla  de  frecuencia  de  la tabla  de  frecuencia  de  la  variable en estudio.variable en estudio. TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 3. Histograma3. Histograma 1413121110987 15 10 5 0 edad FrecuenciaNºNº edadedad HistogramaHistograma Distribución de los hijos de trabajadoresDistribución de los hijos de trabajadores de la empresa de acuerdo a edadde la empresa de acuerdo a edad EjemploEjemplo En el gráfico se puede observar el En el gráfico se puede observar el número denúmero de hijoshijos , de menor edad (7-8 años), las de mayor  , de menor edad (7-8 años), las de mayor  edad (13-14 años); y además que la mayoría de edad (13-14 años); y además que la mayoría de  hijos de los trabajadores están entre los 10 y 12 hijos de los trabajadores están entre los 10 y 12  años.años. Estadística
  • 18. 18 TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 5. Polígono de Frecuencia5. Polígono de Frecuencia edadedad 1413121110987 15 10 5 0 edad FrecuenciaNºNº Distribución de los hijos de trabajadoresDistribución de los hijos de trabajadores de la empresade la empresa  de acuerdo a edadde acuerdo a edad -Esta representación se basa en Esta representación se basa en  el Histograma.el Histograma. -Sólo  es  útil  para  variables Sólo  es  útil  para  variables  cuantitativascuantitativas.. -El El  eje xeje x  se  refiere  a  la   se  refiere  a  la  variable.variable. -   El El  ejeeje   yy  se  refiere  a  la   se  refiere  a  la  frecuencia (Nº , %). frecuencia (Nº , %).  -Los  puntos  que  permiten  la Los  puntos  que  permiten  la  unión  de  las  líneas  representa unión  de  las  líneas  representa  el el centro de clasecentro de clase (o marca de(o marca de clase)clase).. Estadística
  • 19. 19 TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 5. Diagrama de Caja5. Diagrama de Caja -   Permite  identificar  gráficamente la Permite  identificar  gráficamente la  mediana,  los  cuartiles  1  y  3 mediana,  los  cuartiles  1  y  3  (percentiles  25  y  75),  mínimo  y (percentiles  25  y  75),  mínimo  y  máximo de una variable. máximo de una variable.  -   Sólo  es  útil  para  variables Sólo  es  útil  para  variables  cuantitativascuantitativas.. -El El  eje xeje x  permite  identificar  la   permite  identificar  la  poblacion en estudio.poblacion en estudio. -  El El ejeeje  yy representa los valores de la  representa los valores de la  variable en estudio. variable en estudio.  Estadística 1473584N = HombresMujeres Edad 100 90 80 70 60 50 40 30 20 10 0 Edad de las personas que se realizaronEdad de las personas que se realizaron angioplastía entre 1980 y 2000angioplastía entre 1980 y 2000
  • 20. 20 TIPOS DE GRÁFICOSTIPOS DE GRÁFICOS 6. Otros6. Otros Número de alumnos matriculados en la Carrera A según año de ingreso 0 20 40 60 80 100 1998 1999 2000 2001 2002 2003 año de ingreso Nºdealumnos Número de alumnos matriculados en la Carrera B según año de ingreso 0 20 40 60 80 100 1998 1999 2000 2001 2002 2003 año de ingreso Nºdealumnos Número de alumnos matriculados en las Carreras según año de ingreso 0 50 100 150 200 1998 1999 2000 2001 2002 2003 año ingreso Nºdealumnos Carrera B Carrera A año de ingreso Carrera A Carrera B 1998 60 80 1999 55 70 2000 80 50 2001 40 60 2002 68 50 2003 70 75 Nº de alumnos Estadística
  • 21. 21 OBSERVACIONESOBSERVACIONES * El Tipo de Gráfico seleccionado va a depender de la variable en estudio.* El Tipo de Gráfico seleccionado va a depender de la variable en estudio. * El Gráfico debe contener un Título General y la identificación de cada eje* El Gráfico debe contener un Título General y la identificación de cada eje (variable en estudio y frecuencia).(variable en estudio y frecuencia). * En ocasiones resulta más ilustrativo un gráfico que una tabla de* En ocasiones resulta más ilustrativo un gráfico que una tabla de frecuencia.frecuencia. * Al igual que las tablas, los gráficos deben ser auto-explicativos.* Al igual que las tablas, los gráficos deben ser auto-explicativos. Variables Cuantitativas variable=x i individuo elen   variablela devalor =ix ni ,...,1= ncccc n i =++=∑ =  1 ∑∑ == =++= n i in n i i xccxcxcx 1 1 1  bxabaxbaxbax n i in n i i +=++++=+ ∑∑ == 1 1 1 )()()(  22 1 1 2 n n i i xxx ++=∑ =  2 1 2 1 )()( n n i i xxx ++=∑ =  )()()( 11 1 nn n i ii yxyxyx ++++=+∑ =  )()()( 11 1 nn n i ii yxyxyx ++=∑ =  variable=y i individuo elen   variablela devalor =iy NOTACIONNOTACION constantes:,, cba Estadística
  • 22. 22 MEDIDAS DE TENDENCIA CENTRALMEDIDAS DE TENDENCIA CENTRAL -Media Aritmética (Promedio)Media Aritmética (Promedio) -MedianaMediana -ModaModa n x x n i i∑ = = 1 Media Aritmética o PromedioMedia Aritmética o Promedio MedianaMediana )(EM kx= 2 M )1()( E ++ = kk xx x   1x   2x     nx     Datos CuantitativosDatos Cuantitativos x   )1(x   )2(x     )(nx     Datos Cuantitativos ordenados de menor a mayorDatos Cuantitativos ordenados de menor a mayor Si Si nn es par es par Si Si nn es impares impar centro del dato)( =kx repite" se más que dato el"Mo = ModaModaDatosDatos Cualitativos y CuantitativosCualitativos y Cuantitativos Estadística
  • 23. 23 Percentiles, Deciles o CuartilesPercentiles, Deciles o Cuartiles -Percentil (ejemplo: 25, 50, 75)Percentil (ejemplo: 25, 50, 75) -Decil (ejemplo: 4, 5, 8)Decil (ejemplo: 4, 5, 8) -Cuartil (ejemplo: 1, 2, 3)Cuartil (ejemplo: 1, 2, 3) El Decil va de 1 a 10El Decil va de 1 a 10 El Decil 4 (4/10)El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos: es el valor de la variable que reúne al menos el 40% de los datos Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32. Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.                                Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34. Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.  Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando losPercentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los nn datos están ordenados dedatos están ordenados de MenorMenor aa MayorMayor Estadística El Percentil va de 1 a 100El Percentil va de 1 a 100 El percentil 25 (25/100)El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos: es el valor de la variable que reúne al menos el 25% de los datos Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20. Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.                                Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22. Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.  El Cuartil va de 1 a 4El Cuartil va de 1 a 4 El Cuartil 3 (3/4)El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos: es el valor de la variable que reúne al menos el 75% de los datos Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60. Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.                                Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64. Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64. 
  • 24. 24 MEDIDAS DE DISPERSIÓNMEDIDAS DE DISPERSIÓN -RangoRango -VarianzaVarianza -Desviación EstándarDesviación Estándar RangoRango VarianzaVarianza x   1x   2x     nx     Datos CuantitativosDatos Cuantitativos Coeficiente de VariaciónCoeficiente de Variación Comparación entre VariablesComparación entre Variables Se refiere al comportamiento de las variables cuantitativas enSe refiere al comportamiento de las variables cuantitativas en un grupo.un grupo. Por ejemplo: Si se tiene un conjunto de personas a lasPor ejemplo: Si se tiene un conjunto de personas a las que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuálque se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál presenta mayor variación?presenta mayor variación? )min()max( ii xxR −= Desviación Típica o EstándarDesviación Típica o Estándar 2 1 21 1 22 1 2 2 1 )( 1 )( xx nn x n x n xx s n i i n i n i ii n i i −= − = − = ∑ ∑ ∑∑ = = == 2 ss = x s cv = Estadística
  • 25. 25 Estadística Otras medidas o CoeficientesOtras medidas o Coeficientes -AsimetríaAsimetría -Kurtosis o ApuntamientoKurtosis o Apuntamiento Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias es la simetría y el apuntamiento o kurtosis. Coeficiente de Asimetría 3 1 3 )( sn xx CA n i i ⋅ − = ∑= Si CA=0 si la distribución es simétrica alrededor de la media. Si CA<0 si la distribución es asimétrica a la izquierda Si CA>0 si la distribución es asimétrica a la derecha Coeficiente de Apuntamiento 4 1 4 )( sn xx CAp n i i ⋅ − = ∑= - Si CAp=0 la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica. - Si CAp>0, la distribución es más puntiaguda que la anterior y se llama leptocúrtica, (mayor concentración de los datos en torno a la media). - Si CAp<0 la distribución es más plana y se llama platicúrtica.
  • 26. 26 Estadística Otras medidas o CoeficientesOtras medidas o Coeficientes -AsimetríaAsimetría -Kurtosis o ApuntamientoKurtosis o Apuntamiento Ejemplos Histogramas con distinta asimetría y apuntamiento V2 7,06,05,04,03,02,01,0 14 12 10 8 6 4 2 0 Desv. típ. = 1,67 Media = 3,9 N = 30,00 V4 2,01,00,0-1,0 30 20 10 0 Desv. típ. = ,64 Media = 0,0 N = 30,00 V5 9,08,07,06,05,04,03,02,01,0 6 5 4 3 2 1 0 Desv. típ. = 2,42 Media = 5,2 N = 28,00
  • 27. 27 Estadística Otras medidas o CoeficientesOtras medidas o Coeficientes -AsimetríaAsimetría -Kurtosis o ApuntamientoKurtosis o Apuntamiento Ejemplos Media 3,9 Mediana 4 Moda 4 Desviación estándar 1,67 Varianza de la muestra 2,78 kurtosis -0,43 Coeficiente de asimetría -0,02 Rango 6 Mínimo 1 Máximo 7 Cuenta 30 V1 9,08,07,06,05,04,03,02,01,0 16 14 12 10 8 6 4 2 0 Desv. típ. = 1,77 Media = 5,4 N = 66,00 1 4 4 1 4 4 1 4 5 2 4 5 2 4 6 2 4 6 2 4 6 3 4 6 3 4 7 4 4 7 Datos Histograma Medidas descriptivas
  • 28. 28 Estadística Media, Desviación típica, Coeficientes de Asimetría y ApuntamientoMedia, Desviación típica, Coeficientes de Asimetría y Apuntamiento para datos Agrupados (tabla de frecuencias)para datos Agrupados (tabla de frecuencias) Intervalo Centro de clase Amplitud F f FAA fra I1 c1 a1 I2 c2 a2 . . Ik ck ak n 1 Total n 1 f1 f2 fk n1 n2 nk Tabla de frecuencia (para variable cuantitativa)Tabla de frecuencia (para variable cuantitativa)    1) La Media para datos agrupados es igual a la suma de los productos de las marcas de clase por sus frecuencias relativas, de la forma: ∑= == k j jjcc fcxMedia 1 Sea cj la marca de clase (o centro de clase) y fj la frecuencia relativa de la clase j, donde j=1, 2,…, k. 2) LaLa Desviación típicaDesviación típica para datospara datos agrupados esta dada por:agrupados esta dada por: ∑= −= k j jcjc fxcs 1 2 )( 3) ElEl Coeficiente de AsimetríaCoeficiente de Asimetría parapara datos agrupados esta dado por:datos agrupados esta dado por: 3 1 3 )( c k j jcj c s fxc CA ∑= − = 4) ElEl Coeficiente de apuntamientoCoeficiente de apuntamiento parapara datos agrupados esta dada por:datos agrupados esta dada por: 4 1 4 )( c k j jcj c s fxc CAp ∑= − =
  • 29. 29 Estadística Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas Distribución conjuntaDistribución conjunta Tabla 1 Actividad Transporte Estudia Pensionado Trabaja Autobus 5 7 0 Bicicleta 3 3 2 Caminar 2 5 2 Coche 5 4 5 Metro 6 7 4 Transporte Nº % Autobus 12 20,0 Bicicleta 8 13,3 Caminar 9 15,0 Coche 14 23,3 Metro 17 28,3 TOTAL 60 100 Actividad Nº % Estudia 21 35,0 Pensionado 26 43,3 Trabaja 13 21,7 TOTAL 60 100 Problema Interesa estudiar cual es el principal medio de transporte preferido por un grupo de personas a la hora de dirigirse al centro comercial. Para esto se consultó a cadaPara esto se consultó a cada persona sobre la actividad apersona sobre la actividad a la que se dedicaba y el mediola que se dedicaba y el medio de transporte preferido.de transporte preferido.
  • 30. 30 Estadística Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas Distribución conjuntaDistribución conjunta Nº de personasNº de personas Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60) Tabla 2 Actividad Transporte Estudia Pensionado Trabaja TOTAL Autobus 5 7 0 12 Bicicleta 3 3 2 8 Caminar 2 5 2 9 Coche 5 4 5 14 Metro 6 7 4 17 TOTAL 21 26 13 60
  • 31. 31 Estadística Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas Distribución conjuntaDistribución conjunta Nº de personas y % respecto de tipo de TransporteNº de personas y % respecto de tipo de Transporte Tabla 3 Actividad Transporte Estudia Pensionado Trabaja TOTAL Autobus 5 7 0 12 % 41,7 58,3 0 100 Bicicleta 3 3 2 8 % 37,5 37,5 25 100 Caminar 2 5 2 9 % 22,2 55,6 22,2 100 Coche 5 4 5 14 % 35,7 28,6 35,7 100 Metro 6 7 4 17 % 35,3 41,2 23,5 100 TOTAL 21 26 13 60 % 35 43,3 21,7 100
  • 32. 32 Estadística Descripción de 2 variables cualitativasDescripción de 2 variables cualitativas Distribución conjuntaDistribución conjunta Nº de personas y % respecto de tipo de ActividadNº de personas y % respecto de tipo de Actividad Tabla 4 Actividad Transporte Estudia Pensionado Trabaja TOTAL Autobus 5 7 0 12 % 23,8 26,9 0 20 Bicicleta 3 3 2 8 % 14,3 11,5 15,4 13,3 Caminar 2 5 2 9 % 9,5 19,2 15,4 15 Coche 5 4 5 14 % 23,8 15,4 38,5 23,3 Metro 6 7 4 17 % 28,6 26,9 30,8 28,3 TOTAL 21 26 13 60 % 100 100 100 100
  • 33. 33 MEDIDAS DE ASOCIACIÓN LINEALMEDIDAS DE ASOCIACIÓN LINEAL - CovarianzaCovarianza - CorrelaciónCorrelación x 1x 2x  nx DatosDatos CuantitativosCuantitativos Covarianza:Covarianza: Recordemos que:Recordemos que: Hasta ahora hemos estudiado lasHasta ahora hemos estudiado las medidas tendenciamedidas tendencia centralcentral (Media, Mediana, Moda)(Media, Mediana, Moda) y dispersióny dispersión (Varianza y Desviación Estándar) para(Varianza y Desviación Estándar) para unauna Variable CuantitativaVariable Cuantitativa (x).(x). Es una medida de Variabilidad Conjunta entreEs una medida de Variabilidad Conjunta entre dosdos variables (variables (xx11 ,, xx22) o bien () o bien (xx ,, yy)) x y )1(x )(y 1 )2(x )(y 2   )(nx )n(y Si Cov(x,y) es positivaSi Cov(x,y) es positiva:: la asociación entrela asociación entre xx ee yy es directamente proporcional,es directamente proporcional, es decir que cuandoes decir que cuando xx aumentaaumenta yy también aumenta; y viceversa.también aumenta; y viceversa. Si Cov(x,y) es negativaSi Cov(x,y) es negativa:: la asociación entrela asociación entre xx ee yy es inversamentees inversamente proporcional, es decir que cuandoproporcional, es decir que cuando xx aumentaaumenta yy disminuye; y viceversa.disminuye; y viceversa. Si Cov(x,y) es ceroSi Cov(x,y) es cero:: no existe asociación entreno existe asociación entre xx ee yy.. ∑ = −−= n i ii )yy)(xx( n )y,xcov( 1 1 Estadística
  • 34. 34 MEDIDAS DE ASOCIACIÓN LINEALMEDIDAS DE ASOCIACIÓN LINEAL - CovarianzaCovarianza - CorrelaciónCorrelación DatosDatos CuantitativosCuantitativos Coeficiente de Correlación de Pearson (Coeficiente de Correlación de Pearson (rr):): Mide el grado de Asociación LinealMide el grado de Asociación Lineal entre dos variables Cuantitativasentre dos variables Cuantitativas Se refiere al grado de asociación entreSe refiere al grado de asociación entre dosdos variables (variables (xx11 ,, xx22) o bien () o bien (xx ,, yy)) x y )1(x )(y 1 )2(x )(y 2   )(nx )n(y SiSi rr es positivoes positivo:: la asociación entrela asociación entre xx ee yy es directamente proporcional, es decir quees directamente proporcional, es decir que cuandocuando xx aumentaaumenta yy también aumenta; y viceversa.también aumenta; y viceversa. SiSi rr=1=1:: la asociación lineal esla asociación lineal es perfecta.perfecta. SiSi rr es negativoes negativo:: la asociación entrela asociación entre xx ee yy es inversamente proporcional, es decires inversamente proporcional, es decir que cuandoque cuando xx aumentaaumenta yy disminuye; y viceversa.disminuye; y viceversa. SiSi rr=-1=-1:: la asociación lineal esla asociación lineal es perfecta.perfecta. SiSi rr es ceroes cero:: no existe asociación entreno existe asociación entre xx ee yy.. CorrelaciónCorrelación:: 11 ≤≤− r yxss )y,xcov( r = yx n i ii ss)n( yxnyx r 1 1 − − = ∑ = Estadística
  • 35. 35 r=1 r=-1 EJEMPLO : Representación gráfica de las variables x e yEJEMPLO : Representación gráfica de las variables x e y Estadística
  • 36. I. Medidas de Tendencia Central 1. Modo (Mo) 2. Mediana (Md) 3. Media aritmética (X) II. Medidas de Posición 1. Mediana (Md) 2. Cuartiles (C) 3. Deciles (D) 4. Percentiles (P) III. Medidas de Variabilidad 1. Amplitud total (AT) o Rango (R) 2. Desvío Intercuartil (DI) o Rango Intercuartil (RI) Algunas medidas de resumen básicasAlgunas medidas de resumen básicas Medidas de Variabilidad (cont.) 3. Desvío Medio (DM) 4. Varianza (Var) 5. Desvío estándar (DE) 6. Coeficiente de variabilidad (CV) I. Medidas de Forma 1. Coeficiente de asimetría (As) 2. Coeficiente de curtosis (Cu)
  • 37. Nivel de medición Modo Mediana Media Nominal Si NO NO Ordinal SI SI NO Intervalo SI SI SI Relación SI SI SI Relaciones entre niveles de medición y medidas deRelaciones entre niveles de medición y medidas de tendencia centraltendencia central
  • 38. Nivel de medición AMPLITUD TOTAL DESVÍO IN- TERCUARTIL DESVÍO MEDIO VARIANZA Y DESVIO ESTANDAR COEFICIENTE DE VARIABILIDAD Nominal NO NO NO NO NO Ordinal NO NO NO NO NO Intervalo SI SI SI SI NO Relación SI SI SI SI SI Relaciones entre niveles de medición y medidas deRelaciones entre niveles de medición y medidas de variabilidadvariabilidad
  • 39. Medida Informa sobre... Mo Es el valor más frecuente. En tal sentido constituye la expresión más básica del valor más típico de una serie de observaciones. Una distribución puede tener uno, dos o varios modos. Md Es el valor de la variable que segmenta en dos partes a la distribución: una mitad de los casos se ubica por encima de la mediana, la mitad restante queda por debajo. La mediana es un valor de la variable asociado a un orden: si se ordenan todos los valores de menor a mayor, el valor mediana corresponderá a aquel valor tal que tiene tantos casos por encima como por debajo. La mediana es a la vez una medida de tendencia central y de posición. Como medida de tendencia central no es tan sensible como la media aritmética; no obstante debe utilizarse cuando en la distribución existan valores extremos no compensados, en cuyo caso la media distorsiona la tipicidad de los casos. X Es el valor promedio. Es la medida de tendencia central más sensible ya que en su cálculo intervienen todos los casos. No obstante, como indicador de tendencia central la media aritmética posee dos "contraindicaciones": a) cuando en la distribución existe una gran variabilidad y b) cuando en la distribución existen valores extremos (altos o bajos) no compensados. Modo, mediana y media: las tres medidas de tendenciaModo, mediana y media: las tres medidas de tendencia central básicascentral básicas
  • 40. Medida Informa sobre... C Los cuartiles son las medidas de posición que dividen a la distribución en cuatro partes iguales: el cuartil 1 representa a aquel valor tal que deja un 25% por debajo y queda un 75% por encima; el cuartil 2 es la mediana, y el cuartil 3 es el valor que deja un 75% por debajo y queda un 25% por encima. Los cuartiles 1 y 3 resultan útiles para circunscribir al 50% central de los datos. D Los deciles son las medidas de posición que dividen a la distribución en 10 partes iguales. P Los percentiles son las medidas de posición que dividen a la distribución en 100 partes iguales. Medidas de posición: cuartiles, deciles y percentilesMedidas de posición: cuartiles, deciles y percentiles
  • 41. Medida Informa sobre... R ó AT Es la diferencia entre los valores máximo y mínimo de la distribución, representado entonces la medida de variabilidad más básica. DI Es la diferencia entre el cuartil mayor y menor. Representa el rango de variabilidad del 50% central de los casos. DM Es el promedio de los desvíos de los valores respecto a la media, tomados como valor absoluto. Como toda medida de variabilidad, en general, cuanto mayor es su valor más heterogéneos o dispersos son los datos. El desvío medio, por carecer de signo, resulta una medida descriptiva pero sin valor operatorio para ser integrada en otras fórmulas estadísticas. VAR Es el promedio de los desvíos de los valores respecto a la media elevados al cuadrado. Descriptivamente, se interpreta como las restantes medidas de variabilidad, es decir: cuánto mayor resulte, mayor dispersión y viceversa; sin embargo, la magnitud que representa no debe interpretarse literalmente en términos de la escala de origen, ya que al haber operado una transformación matemática (vg., la elevación al cuadrado) la variabilidad aparece "amplificada". Medidas de variabilidadMedidas de variabilidad
  • 42. Medida Informa sobre... DE Es la raíz cuadrada de la varianza. Tiene el valor operatorio de la misma y posee un valor descriptivo más parecido al desvío medio, al compensar la transformación cuadrática realizada en aquella. CV Es un cociente entre el desvío estándar y la media. Representa la porción de variabilidad, expresada por el desvío estándar, respecto al valor promedio. Resulta particularmente útil para comparar la varabilidad de distribuciones que poseen diferente media o que están medidas en diferentes escalas. Medidas de variabilidad (continuación)Medidas de variabilidad (continuación)
  • 43. Elementos básicos de la Prueba de Asociación de Chi cuadrado
  • 44. Chi cuadradoChi cuadrado Es unamedida deasociación entre dosvariables medidas en un nivel nominal u ordinal. Específicamente informa sobre elgrado deprobabilidad de que exista asociación. Conceptualmente, consiste encomparar lasfrecuencias efectivamente observadas con las frecuencias que deberían esperarse si no existiera asociación entre las variables. Cuanto mayor sea la diferencia entre lo observado y lo esperado, mayor resultará la probabilidad de que exista asociación. χ2 =  (o −e)2 e
  • 45. Medida Informa sobre... x2 En general, el propósito de la medida radica en determinar la probabilidad de asociación entre dos variables de nivel no cuantitativo (nominal u ordinal). Especícamente, el valor de X2 sólo indica un valor de p asociado, denominado nivel de significación, el cuál -en última instancia- es el que realmente informa sobre la probabilidad de asociación entre las variables. p ( significación) La probabilidad de que el valor de x2 obtenido se deba al azar. Es decir, la probabilidad de que no exista asociación entre las variables. Cuanto más bajo sea P, mayores son las evidencias para suponer que existe asociación y viceversa. Ø Phi es una de las medidas que, específicamente, informa sobre el grado o fuerza de la relación entre dos variables de nivel nominal. Las tres medidas básicas asociadas al análisis "ChiLas tres medidas básicas asociadas al análisis "Chi Cuadrado" como medida de asociación entre variablesCuadrado" como medida de asociación entre variables
  • 46. =  2 n Coeficiente PhiCoeficiente Phi Medida de asociación basada en chi cuadrado. Se obtiene al dividir el valor de chi cuadrado por el número de casos y, luego, extraer la raíz cuadrada del resultado. Informa sobre el grado o fuerza de laasociación entre dos variables de nivel no cuantitativo (nominal u ordinal) Cuando se trata de tablas decontingencia de 2 X 2,phi asume valores comprendidos entre 0 y 1. φ
  • 47. O E O - E (O - E) 2 (O - E)2 / E Chi cuadrado: tabla de cálculoChi cuadrado: tabla de cálculo
  • 48. ¿χ2e > χ2t ? Diagrama decisorio para la prueba de Chi Cuadrado (Con cálculo manual y búsqueda en tabla) Rechazar la Hipótesis Nula (la que expresa que no existe asociación) Calcular χ2e. Expresar: El resultado es estadísticamente significativo: χ2 = 12,85; p < 0.05. Aceptar la Hipótesis Nula (la que expresa que no existe asociación) Expresar: El resultado no es estadísticamente significativo: χ2 = 0,40; P > 0.05. Interpretar: Conforme a los niveles de error previamente estipulados, no puede afirmarse que exista asociación entre las variables. / Las evidencias obtenidas resultan insuficientes para suponer que exista relación. / Es probable que las diferencias porcentuales observadas se deban a fluctuaciones del azar. (especificar y/o ajustar conforme a los posibles valores de p asociados a χ2 e) SINO Determinar el χ2t. para el nivel de error α Interpretar: Puede suponerse con alta probabilidad (con un nivel de error menor al 5%) que existe asociación entre las variables. / Las evidencias obtenidas resultan suficientes para suponer que existe asociación. / Es altamente probable que las diferencias porcentuales observadas no se deban al mero azar sino a una auténtica relación entre las variables. (especificar y/o ajustar conforme a los posibles valores de p asociados a χ2 e)
  • 49. ¿p < error admitido Diagrama decisorio para la prueba de Chi Cuadrado (Con cálculo informatizado) Rechazar la Hipótesis Nula (la que expresa que no existe asociación) Expresar: El resultado es estadísticamente significativo: χ2 = 12,85 p = 0.001. Interpretar: Puede afirmarse que existe asociación entre las variables, con un nivel de error de 1/1000. / Es altamente probable que las diferencias porcentuales observadas no se deban al mero azar sino a una auténtica relación entre las variables. Aceptar la Hipótesis Nula (la que expresa que no existe asociación) Expresar: El resultado no es estadísticamente significativo: χ2 = 0,40; p = 0. 80. Interpretar: Puede afirmarse que no existe asociación entre las variables, dado que existe hasta un 80% de probabilidad de que las diferencias observadas resulten aleatorias. / Es altamente probable que las diferencias porcentuales observadas se deban a meras fluctuaciones del azar. SINO Calcular: χ2e. p (significance) Determinar el nivel de error admitido
  • 50. Elementos básicos de Análisis de Correlación y Regresión Lineal
  • 51. Es una medida de laasociación lineal entre dos variables de nivel de medición cuantitativo (intervalo o relación). De manera más específica, R informa sobre: El grado de correlación de las dos variables. El sentido o dirección de la correlación. El valor de R tiene un rango comprendido entre -1 (una relación negativa perfecta en la que todos los puntos seencuentran sobre una línea conpendiente negativa) y +1 (una relación positiva perfecta en la que todos los puntos se encuentran sobre una línea con pendiente positiva). Un valor de 0 indica que no existe relación lineal. Su fórmula es: Coeficiente de correlación R de PearsonCoeficiente de correlación R de Pearson r(x, y) = [(x −x).(y −y)] n.sx .sy
  • 52. Medida Informa sobre... R El grado de la correlación lineal entre dos variables X e Y medidas en un nivel cuantitativo (Intervalo o relación) p La probabilidad de que el valor de R obtenido se deba al azar (se calcula en base a la distribución t de Student) R2 (Coeficiente de determinación) El porcentaje de la variabilidad de Y que queda explicado a partir de X. La varianza de Y explicada por X. El porcentaje de la variabilidad de Y que puede predecirse a través de X. En otro sentido, el coeficiente de determinación informa sobre la fuerza o el grado de la correlación entre dos variables de nivel cuantitativo (Intervalos o relación). Las tres medidas básicas asociadas con el análisisLas tres medidas básicas asociadas con el análisis de correlación R de Pearson.de correlación R de Pearson.
  • 53. Es una medida asociada al coeficiente de correlación R de Pearson. Al igual que R, el coeficiente de determinación informa sobre la fuerza o el grado de la correlación entre dos variables de nivel cuantitativo. A diferencia de R, que carece de un significado específico, R2 puede interpretarse de diversos modos: Como la proporción de la variabilidad de la variable dependiente Y que queda explicada a partir de la variable independiente X. Como la proporción de la variabilidad de Y que puede predecirse a través de X. Como la bondad de ajuste de un modelo lineal, esto es: el grado en que los datos se ajustan a un modelo de tipo lineal. El coeficiente de determinación R2 presenta un rango de valores comprendidos entre 0 y 1 (ó de 0 a 100, cuando R2 aparece expresado como un porcentaje) Coeficiente de determinación RCoeficiente de determinación R22
  • 54. Cuánto más alto sea el valor de R2 ello indica: Que existe un mayor grado de correlación entre las variables. Que el poder explicativo de la variable independiente respecto a la dependiente es mayor. Que el poder predictivo de la variable independiente respecto a la dependiente es mayor. Que el modelo lineal posee un ajuste mayor a los datos, es decir que aumenta el grado de congruencia entre los datos y el modelo. Coeficiente de determinación RCoeficiente de determinación R2 (continuación)2 (continuación)
  • 55. X Y (X - X) (Y - Y) (X - X) . (Y - Y) Coeficiente R de Pearson: tablaCoeficiente R de Pearson: tabla de cálculo del numeradorde cálculo del numerador
  • 56. Se denomina "análisis de regresión lineal" a un conjunto de análisis estadísticos cuya función es determinar si entre una variable dependiente medida en una escala cuantitativa y una o más variables independientes, del mismo tipo, existen relaciones de carácter lineal. Una relación es lineal si posee una estructura idéntica a una línea recta. En rigor, el análisis de regresión se utiliza para determinar el grado de adecuación de los datos empíricos al modelo de una recta y la probabilidad de que esa adecuación obedezca al azar. Cuando existe sólo una variable independiente el análisis se denomina "regresión lineal simple". Si existe más de una, se estará ante un caso de "regresión lineal múltiple". Básicamente el análisis permite contribuir a dos propósitos: explicar y predecir. Cuando el análisis de regresión da un resultado negativo, debe interpretarse que es poco probable la existencia de relación lineal, aunque no debe descartarse que existan otros tipos de relaciones, no lineales. También se denomina "análisis de regresión " a otros procedimientos estadísticos diferentes a los mencionados pero que comparten la misma lógica. Regresión lineal
  • 57. y = + x La ecuación de la recta en el análisis de regresión lineal Y= El valor de la variable dependiente predicho por el modelo lineal. α= Representa el valor de la variable dependiente cuando la variable independiente vale 0. Gráficamente corresponde al punto de Y donde se emplaza o intersecta la recta de regresión. β= Representa el incremento de Y por cada unidad de incremento de X. Gráficamente se expresa en la pendiente o grado de inclinación de la recta. X = El valor de la variable independiente X sobre el cuál se quiere hacer una predicción. _______________________________________________________________ Cuando la ecuación de la recta se utiliza para modelizar datos empíricos, vg., la recta de regresión, es necesario incorporar un factor aleatorio que representa los posibles fluctuaciones de los datos respecto al modelo o, en otros términos, las discrepancias entre el modelo y la realidad. En virtud de ello el modelo general de regresión lineal simple asume esta estructura: Y = α +β x + error
  • 58. Medida Informa sobre... α El valor hipotético que asumiría la variable dependiente si la variable independiente tuviera un valor nulo, conforme al modelo de relación lineal. β El incremento que cabría esperar en la variable dependiente por cada unidad de incremento en la variable independiente, conforme al modelo de relación lineal. F ó t El valor del test estadístico para determinar la bondad de ajuste de los datos a un modelo lineal. P La probabilidad asociada al test F ó t. La probabilidad de que la correlación lineal se deba al azar. R2 El porcentaje de la variabilidad de Y que queda explicado a partir de X. La varianza de Y explicada por X. El porcentaje de la variabilidad de Y que puede predecirse a través de X. ESE El error standard estimado constituye una última medida necesaria para ajustar las predicciones de Y a partir de X. Globalmente, representa la variabilidad de los datos respecto al modelo y resulta útil para determinar los llamados intervalos de confianza de la estimación. Cuando se utiliza el modelo de regresión para predecir valores de Y para diferentes valores de X, antes que un valor específico de Y lo que se estima es un intervalo de posibles valores. El ESE es la medida asociada a esa estimación, constituyendo un indicador de la amplitud de dicho intervalo Medidas básicas asociadas al análisis de regresión
  • 59. =y −bx Cálculo de los parámetros de la recta de regresión a partir de datos empíricos = xy −x.y x2 n −x2
  • 60. 0 2 4 6 8 10 12 14 16 18 20 Tiempo de Residencia 0 2 4 6 8 10 12 Actitudhacialaciudad R-square = 0.876 y = 1.08 + 0.59x Ejemplo de diagrama de dispersión con información básica del análisis de regresión
  • 61. X Y Y Y - Y (Y - Y)2 10 6 6,97 -0,97 0,94 12 9 8,15 0,85 0,73 12 8 8,15 -0,15 0,02 4 3 3,44 -0,44 0,19 12 10 8,15 1,85 3,43 6 4 4,61 -0,61 0,38 8 5 5,79 -0,79 0,63 2 2 2,26 -0,26 0,07 18 11 11,68 -0,68 0,46 9 9 6,38 2,62 6,86 17 10 11,09 -1,09 1,19 2 2 2,26 -0,26 0,07 Suma 14,97 VAR 1,50 DE (ESE) 1,22 Cálculo del Error Standard Estimado ESS = [Y−Yˆ]2 n−2
  • 62. * * * * M U L T I P L E R E G R E S S I O N * * * * Listwise Deletion of Missing Data Equation Number 1 Dependent Variable.. VAR00001 Actitud hacia la ciudad Block Number 1. Method: Enter VAR00002 Variable(s) Entered on Step Number 1.. VAR00002 Tiempo de residencia Multiple R ,93608 Analysis of Variance R Square ,87624 DF Sum of Squares Mean Square Adjusted R Square ,86387 Regression 1 105,95222 105,95222 Standard Error 1,22329 Residual 10 14,96444 1,49644 F = 70,80266 Signif F = ,0000 ------------------ Variables in the Equation ------------------ Variable B SE B Beta T Sig T VAR00002 ,589716 ,070084 ,936078 8,414 ,0000 (Constant) 1,079322 ,743351 1,452 ,1772 End Block Number 1 All requested variables entered. Análisis de regresión: Ejemplo de reporte
  • 64. Análisis de varianza (ANOVA) Se denomina Análisis de varianza (Anova) a una serie de procedimientos estadísticos cuyo propósito radica en testear el grado de asociación entre una variable independiente clasificatoria (nominal u ordinal) y una variable dependiente medida de manera cuantitativa (nivel de intervalo o de relación). Específicamente, Anova se utiliza para determinar si las medias de dos o más grupos pertenecen a una o a diferentes poblaciones. Alternativamente, también se denomina análisis de varianza a otros procedimientos estadísticos, distintos del arriba mencionado, pero que comparten similar lógica de análisis.
  • 65. Medida Informa sobre... F En general, el propósito de la medida radica en determinar si dos o más valores promedios pertenecientes a diferentes grupos son significativamente diferentes. Especícamente, el valor de F sólo indica el valor de p asociado, el cuál -en última instancia- es el que realmente informa sobre la probabilidad de diferencia entre las medias. p La probabilidad de que el valor de F obtenido se deba al azar. Cuanto mayor sea p, significa que es más probable que las medias de los grupos no difieran de un modo significativo. Inversamente, cuando menor sea P, resultará más probable que existan diferencias. ε2 Etha cuadrado es una de las medidas que, específicamente, informa sobre el grado o fuerza en que la variable independiente se halla relacionada con la dependiente y por lo tanto permite su explicación y/o predicción. Las tres medidas básicas asociadas al análisis de varianza (ANOVA)
  • 66. Análisis de Varianza (Anova): Prueba F 1. La prueba F es la prueba central del ANOVA. Básicamente consiste en comparar dos medidas de la variabilidad de los datos obtenidas de manera independiente: La primera, obtenida al comparar las medias de los diferentes grupos (varianza intergrupo) La segunda, obtenida al analizar las fluctuaciones de los datos dentro de cada grupo; es decir: respecto a la media de cada grupo (varianza intragrupo) 2. Concretamente, F es el cociente entre la varianza intergrupo y la varianza intragrupo. 3. Interpretación de F: En general, cuanto mayor es el valor de F, mayor es la variabilidad entre los grupos respecto a la variabilidad intragrupo. Ello significa que aumenta la probabilidad de que las medias de los grupos pertenezcan a poblaciones conceptualmente diferentes, con diferente media. Fórmula F =  (x −x) . n k−1  (x −x) (n−1) . k
  • 67. Eta cuadrado es una medida asociada al análisis de varianza: Es el cociente entre la suma de cuadrados intergrupos y la suma de cuadrados total. Al igual que φ y R2 , E2 informa sobre la fuerza o el grado de la relación entre las variables. A diferencia de F, que carece de un significado específico, E2 puede interpretarse como la proporción de la variabilidad total de la variable dependiente "Y" que queda explicada a partir de la variable independiente clasificatoria. Coeficiente Etha Cuadrado (ε2)
  • 68. * * * A N A L Y S I S O F V A R I A N C E * * * DEPENDIE Variable dependiente by IND.PRIN Variable independiente principal IND.SECU Variable independiente secundaria UNIQUE sums of squares All effects entered simultaneously Sum of Mean Sig Source of Variation Squares DF Square F of F Main Effects 540.000 2 270.000 67.500 .000 IND.PRIN 432.000 1 432.000 108.000 .000 IND.SECU 108.000 1 108.000 27.000 .001 2-Way Interactions .000 1 .000 .000 1.00 IND.PRIN IND.SECU .000 1 .000 .000 1.00 Explained 540.000 3 180.000 45.000 .000 Residual 32.000 8 4.000 Total 572.000 11 52.000 12 cases were processed. 0 cases (.0 pct) were missing.
  • 69. Análisis En general Si es bajo Si es alto En el análisis de asociación Chi Cuadrado A medida que baja, aumenta la probabilidad de asociación Es poco probable que la asociación observada se deba al azar Es muy probable que la asociación observada se deba al azar En el análisis de correlación "R" de Pearson A medida que baja, aumenta la probabilidad de que exista correlación lineal Es poco probable que la correlación observada no se ajuste a un modelo lineal Es altamente probable que no exista correlación lineal En el análisis de varianza (Prueba F) A medida que baja, aumenta la probabilidad de que las medias difieran significativamente (pertenezcan a poblaciones con distinta media) Es poco probable que las medias pertenezcan a una única población Es altamente probable que las medias pertenezcan a una única población ¿Qué informa exactamente "p" en los distintos análisis estadísticos?
  • 70. Elementos básicos de Análisis Discriminate
  • 71. Término Significado Función discriminante Representa al modelo matemático que mejor discrimina a los valores de la variable dependiente (grupos) a partir de la/svariable/s independiente/es predictoras (es análoga a la ecuación de regresión, en ése análisis). Correlación canónica Es una medida querepresenta el grado decorrelación entre la/s variable/s independiente/es y los grupos. Al elevarse al cuadrado representa la proporción de variabilidad involucrada con los grupos (es análoga al coeficiente de determinación R 2en el análisis de regresión). Coeficiente λ (lambda) de Wilk Es la medida de significación estadística básica del análisis. Señala la probabilidad (P) de que el modelo predictivo evaluado se deba al azar. (A diferencia de otros tests cuanto menor sea λ , menor será también P. No obstante, para determinar P, λ  debe transformarse en χ2 ) Cargas discriminantes (o correlaciones de estructura) Representan las correlaciones entre las variables independientes predictoras y la función discriminante. Se interpretan como la fuerza relativa de cada variable dentro del modelo: cuánto mayor resulte la cargadiscriminante de una variable, mayor será la contribución de ésta a la discriminación global del modelo. Terminología básica asociada al análisis discriminante
  • 72. Término Significado Probabilidades previas Son las probabilidades de que un miembro pertenezca a determinado grupo antes de realizar el análisis. Matriz de clasificación o predicción Es el resultado básico que condensa las predicciones clasificatorias basadas en la función discriminante. En la diagonal aparecen los casos clasificados correctamente. Fuera de la diagonal, los casos clasificados en forma errónea. El cociente entre la suma de los casos correctos (sobre la diagonal) y el total de casos constituye la razón de aciertos. Si la función discriminante resulta efectiva, la razón de acierto debería ser mayor que lo cabría esperar conforme a las probabilidades previas. Puntajes discriminantes Son los puntajes correspondientes a cada uno de los individuos de acuerdo a la función discriminante. Representan un puntaje de síntesis de las variables predictoras que puede utilizarse a posteriori para explorar otro tipo de relaciones entre los datos. Terminología básica asociada al análisis discriminante (cont.)
  • 73. Tres reportes estadísticos básicos del análisis discriminante Autovalores 1,811a 100,0 100,0 ,803 Función 1 Autovalor % de varianza % acumulado Correlación canónica Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis. a. Lambda de Wilks ,356 17,569 2 ,000 Contraste de las funciones 1 Lambda de Wilks Chi-cuadrado gl Sig. Matriz de estructura ,997 -,850 Nivel de pacifismo Nivel de hedonismo 1 Función Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. En las tablas de arriba aparecen tres reportes básicos del análisis discriminate: 1) La correlación canónica, que informa sobre el potencial explicativo del modelo discriminante obtenido 2) Los valores de lambda y chi cuadrado, junto al nivel de significación asociado 3) La matriz de estructura, donde se informa el sentido y grado de la correlación entre cada variable predictora y el modelo discriminante obtenido
  • 74. El resultado descriptivo fundamental del análisis discriminante Probabilidades previas para los grupos ,600 12 12,000 ,400 8 8,000 1,000 20 20,000 Preferencia Roca Cola Suave Cola Total Previas No ponderados Ponderados Casos utilizados en el análisis Resultados de la clasificación 10 2 12 1 7 8 83,3 16,7 100,0 12,5 87,5 100,0 Preferencia Roca Cola Suave Cola Roca Cola Suave Cola Recuento % Original Roca Cola Suave Cola Grupo de pertenencia pronosticado Total Clasificados correctamente el 85,0% de los casos agrupados originales. La tabla inmediata superior es la matriz de clasificación, que representa el resultado descriptivo básico del análisis discriminate. Allí se detallan en valores absolutos y porcentuales los casos clasificados correctamente en base a aplicar la función discriminate sobre los puntajes de las variables independientes. Como puede apreciarse, el modelo permite clasificar acertadamente al 85% de los casos, porcentaje que supera al que se habría obtenido aleatoriamente en base a las probabilidades previas de cada grupo (cuya esperanza matemática ascendería a 0,600 ó 60%; tabla superior)
  • 75. Elementos básicos de Análisis Factorial
  • 76. El análisis factorial es un conjunto de métodos estadísticos multivariados cuya función radica en identificar construcciones o factores subyacentes que explican las correlaciones entre un conjunto de variables. En tal sentido, constituye un método explicativo. En virtud de lo anterior, el análisis factorial se usa para resumir un gran número de variables en un número más pequeño de macro-variables denominadas factores. En tal sentido, constituye un método de síntesis. Por último, cabe precisar que el análisis factorial constituye un método de interdependencia entre variables y por ende no discrimina entre variables independientes y dependientes Ejemplos de aplicación del análisis factorial: Identificar los factores subyacentes en investigaciones actitudinales basadas en escalas Likert. Identificar los factores subyacentes en investigaciones sobre imagen basadas en técnicas como el diferencial semántico. Identificar los factores subyacentes en investigaciones psicográficas basadas en cuestionarios AIO (actividades, intereses y opiniones) Identificar los factores suyacentes en investigaciones sobre atributos de productos y servicios. Refinar cualquier análisis predictivo y/o explicativo utilizando "a posteriori" los factores extraídos como nuevas variables independientes. Análisis Factorial
  • 77. Término Significado Factor Representa una variable latente o subyacente a una serie de variables originalmente medidas. Estadísticamente representa una variable hipotética tal que las correlaciones entre ésta y las variables originales es máxima. Su significado debe interpretarse. Cargas factoriales Son las correlaciones entre las variables originales y los factores extraídos Matriz factorial Es la salida informativa fundamental del análisis. Es una matriz donde se representan todos los factores obtenidos con sus respectivas cargas factoriales Valor específico (Eingenvalue) Es un valor que representa el total de varianza que explica un factor. Más específicamente, al dividirse el valor específico por el número de variables originales se obtiene la proporción de la varianza que explica el factor. % de varianza explicado Es el porcentaje de la variabilidad total que queda explicado por cada factor. Comunalidad Es el porcentaje de la variabilidad de cada variable original que es explicado conjuntamente por todos los factores extraídos Terminología básica asociada al análisis factorial
  • 78. Término Significado Matriz de correlaciones Es una matriz cuadrada (igual número de filas y columnas) donde se representan todas las correlaciones entre las variables originales. Constituye el punto de partida del análisis factorial. Prueba de esferecidad de Bartlett Es un test de significación estadística para el análisis factorial. Como otros tests decisorios, si su valor es alto, el valor de P asociado será bajo. Cuando ello ocurre significa que las correlaciones entre las variables originales probablemente no se deban al azar sino a la existencia de los factores latentes extraídos. Prueba de adecuación Kaiser-Meyer- Olkin (KMO) Es un test para decidir sí el análisis factorial resulta apropiado. Los valores altos (entre 0,5 y 1) indican que es apropiado; los valores inferiores a 0,5 hacen inaceptable su aplicación. Puntajes factoriales Son los puntajes correspondientes a cada uno de los individuos en cada factor. Matriz factorial rotada Es el resultado de aplicar un procedimiento matemático que permita una interpretación más precisa de los factores. En la matriz rotada las cargas factoriales se distribuyen de tal forma que para cada variable exista la mayor diferencia entre un factor y otro. Terminología básica asociada al análisis factorial (Cont.)
  • 79. Elementos de cluster análisis en el contexto de la investigación psicográfica
  • 80. Diagrama de flujo de una investigación psicográfica Diseño muestral Elaboración de un cuestionario AIO Cruzar los clusters c/ otras var. de segmentación Cruzar los clusters con variables resultados relevantes Administración del cuestionario AIO Definición de objetivos Análisis multivariado • Cluster análisis Descripción de los clusters •Tabular •Textual Interpretación de los clusters Número de clusters “ Pureza” de los clusters Validación de los clusters Descripción ampliada nivel 1 Descripción ampliada nivel 2 Cluster psicográfico Cluster psicográfico- demográfico Cluster psico-demo- gráfico-conductual específico
  • 81. Clusters psicográficos cruzados con sus variables constituyentes originales Variables originales Cluster 1 Cluster 2 General Tamaño 50% 50% 100% Hedonismo 4.40 8 6.20 Innovatividad 4.30 7.10 5.70 Romanticismo 7.10 3.50 5.30 Religiosidad 7.00 3.50 5.25
  • 82. Clusters o segmentos psicográficos cruzados con sus variables constituyentes originales: descripción tabular y textual Variables originales Espiritualistas Materialistas General Tamaño 50% 50% 100% Hedonismo 4.40 8 6.20 Innovatividad 4.30 7.10 5.70 Romanticismo 7.10 3.50 5.30 Religiosidad 7.00 3.50 5.25 Cluster 1: LOS ESPIRITUALISTAS Se definen por la alta valoración que le conceden al romanticismo y por su gran sentimiento de religiosidad. No sintonizan con valores hedonistas ni tampoco les interesan valores de la modernidad tales como la orientación a la innovación. Cluster 2: LOS MATERIALISTAS Se definen por la alta valoración de valores de la modernidad tales como hedonismo e innovación. Descreen, o al menos no se sienten identificados, con valores de cuño más tradicional tales como el romanticismo y la religiosidad.
  • 83. Clusters o segmentos psicográficos cruzados con demográficos Psicográficos Segmento 1 Segmento 2 Segmento 3 Segmento 4 TAMAÑO EDAD SEXO Masculino Femenino ESTADO CIVIL Soltero/a Casado/a Divorciado/a Viudo/a EDUCACION Primaria Secundaria Universitaria CLASE SOCIAL Baja Media Alta INGRESO ANUAL Demográficos
  • 84. Cluster Análisis o Análisis de Conglomerados El ánálisis de conglomerados o cluster análisis es un método estadístico multivariado cuyo objetivo básico es identificar grupos relativamente homogéneos a partir de determinadas características seleccionadas. Por ello, el análisis de conglomerados básicamente constituye un método de clasificación. El fundamento básico de esta metodología es el análisis de distancias entre observaciones. Su lógica es sencilla: Dos observaciones que puntúen de manera similar en las diversas características identificatorias (ie., las variables) se encuentran "próximas" en un espacio virtual clasificatorio y deberían, por lo tanto, clasificarse en los mismos conglomerados o clusters; recíprocamente, las observaciones que se encuentren "lejanas" entre sí, deberían corresponder a diferentes grupos. A diferencia del análisis discriminante,el análisis de conglomerados no parte de grupos dados a priori sino que - justamente- la obtención de tales grupos constituye el output del procedimiento. Por último, cabe precisar que, al igual que el análisis factorial, el cluster análisis constituye un método de interdependencia entre variables y por ende no discrimina entre variables independientes y dependientes.
  • 85. Aplicaciones del análisis de conglomerados El análisis de conglomerados es el método por excelencia para clasificar objetos en base a afinidades, por lo tanto resulta útil en los siguientes ámbitos:  Segmentación psicográfica y otros perfiles actitudinales.  Segmentación de audiencias y públicos.  Clasificaciones de diversos objetos. Por ejemplo, pueden agruparse programas de capacitación en categorías homogéneas basadas en las características de los participantes. O bien pueden agruparse conjuntos de personas en conglomerados homogéneos para que pueden seleccionarse grupos comparables, con el fin de testear alguna estrategia.
  • 86. Tipos básicos de análisis de conglomerados Conglomerado de K medias: Realiza análisis de conglomerados usando un algoritmo que puede manejar grandes números de casos, pero que requiere la especificación del número de conglomerados. Conglomerados jerárquicos: Combina casos en conglomerados a través de una secuencia jerárquica, usando un algoritmo con consumo intensivo de memoria que permite examinar muchas soluciones diferentes con facilidad. Los clusters se forman mediante agrupamiento en conglomerados mayores o menores hasta que todos los casos sean miembros de un sólo conglomerado.
  • 87. Caso Hedonismo Innovativida d Romanticismo Religiosidad 1 3 3 10 9 2 3 4 8 8 3 5 4 8 7 4 5 5 7 6 5 5 3 6 6 6 4 4 7 8 7 4 5 6 7 8 4 4 7 7 9 6 5 6 6 10 5 6 6 6 11 7 5 4 5 12 7 6 4 4 13 7 5 4 4 14 9 7 3 2 15 9 8 3 3 16 7 7 3 3 17 6 8 4 4 18 10 7 4 4 19 9 9 3 3 20 9 9 3 3 En la matriz de datos se consigan los resultados de una encuesta sobre autoconcepto en cuatro variables cuyo rango oscilaba entre 1 y 10: a) hedonismo, b) innovatividad c) romanticismo d) religiosidad Tal como puede apreciarse, los primeros diez casos se caracterizan por su bajo hedonismo e innovatividad y su alto romanticismo y religiosidad; mientras que en los últimos 10, se observa lo inverso. Un análisis que requiriera dos cluster debería distinguir esos dos grupos. Ejemplo de operatoria del cluster análisis: a) Datos
  • 88. Ejemplo de operatoria de cluster análisis: b) Reportes básicos (Método K-Medias) Number of Cases in each Cluster. Cluster cases 1 10,0 2 10,0 EN LOS TABLAS DE ARRIBA APARECEN DOS REPORTES BASICOS DEL CLUSTER ANALISIS: 1°) La tabla que vincula a los clusters obtenidos con los valores promedio para cada una de las variables utilizadas. Constituye la base para su posterior interpretación. Así, en principio, el cluster 1 estaría conformado por personas de bajo hedonismo, con poca orientación a la innovación, autodefinidas como románticas y acentuadamente religiosas. Inversamente, el cluster 2 estaría integrado por personas marcadamente orientadas al hedonismo y la innovación y poco orientadas al romanticismo y la religiosidad. 2°) La cantidad de miembros en cada cluster, en este caso se trata de dos clusters de 10 integrantes cada uno. Cluster HEDONISM INNOVATI ROMANTIC RELIGIOS 1 4,4000 4,3000 7,0995 7,0000 2 8,0000 7,1000 3,5000 3,5000
  • 89. Otro reporte de interés está representado por el listado de asignación de casos a los diferentes clusters. En la última columna, aparece una medida de la distancia de cada caso al centro de su cluster, lo cual constituye un valor que informa cuán típico o atípico resulta un individuo respecto al cluster en el que ha sido clasificado. Como puede apreciarse al individuo N° 8 constituye el caso prototípico del cluster 1, ya que presenta la menor distancia al centro del mismo. Para corroborarlo, véase nuevamente la matriz de datos y la información de clusters finales. Ejemplo de operatoria de cluster análisis: c) Reportes complementarios (Método K-Medias) COD Cluster Distance 1 1 4,008 2 1 1,965 3 1 1,123 4 1 1,364 5 1 2,064 6 1 1,123 7 1 1,363 8 1 ,510 9 1 2,293 10 1 2,336 11 2 2,812 12 2 1,646 13 2 2,431 14 2 1,873 15 2 1,520 16 2 1,229 17 2 2,304 18 2 2,124 19 2 2,261 20 2 2,261
  • 90. Ejemplo de operatoria de cluster análisis: c) Reportes complementarios (Método K-Medias) Otro dato de sumo interés es la tabla de Anova, donde se informa sobre el grado de significación estadística de la diferencia de las medias de los diferentes clusters, para todas las variables utilizidas en su conformación. En el presente caso, todos los valores resultan significativos, lo que indica que los clusters discriminan a los individuos en todas las variables. Cluster HEDONISM INNOVATI ROMANTIC RELIGIOS 1 4,4000 4,3000 7,0995 7,0000 2 8,0000 7,1000 3,5000 3,5000 Analysis of Variance. Variable Cluster MS DF Error MS DF F Prob HEDONISM 64,8000 1 1,355 18,0 47,8033 ,000 INNOVATI 39,2000 1 1,500 18,0 26,1333 ,000 ROMANTIC 64,7821 1 ,966 18,0 67,0121 ,000 RELIGIOS 61,2500 1 ,916 18,0 66,8182 ,000
  • 91. Ejemplo de operatoria de cluster análisis: d) Reporte básico (Método Jerárquico) Cluster Membership of Cases using Average Linkage (Between Groups) Number of Clusters Label Case 4 3 2 Case 1 1 1 1 1 Case 2 2 2 2 1 Case 3 3 2 2 1 Case 4 4 2 2 1 Case 5 5 2 2 1 Case 6 6 2 2 1 Case 7 7 2 2 1 Case 8 8 2 2 1 Case 9 9 2 2 1 Case 10 10 2 2 1 Case 11 11 3 3 2 Case 12 12 3 3 2 Case 13 13 3 3 2 Case 14 14 4 3 2 Case 15 15 4 3 2 Case 16 16 3 3 2 Case 17 17 3 3 2 Case 18 18 4 3 2 Case 19 19 4 3 2 Case 20 20 4 3 2
  • 92. Ejemplo de operatoria de cluster análisis: e) Dendograma (Método Jerárquico) * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ Case 19 19 Case 20 20 Case 15 15 Case 14 14 Case 18 18 Case 12 12 Case 13 13 Case 11 11 Case 16 16 Case 17 17 Case 6 6 Case 8 8 Case 7 7 Case 3 3 Case 2 2 Case 9 9 Case 10 10 Case 4 4 Case 5 5 Case 1 1
  • 93. Ejemplo de operatoria de cluster análisis: f) Historial de conglomeración (Método Jerárquico) * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Agglomeration Schedule using Average Linkage (Between Groups) Clusters Combined Stage Cluster 1st Appears Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage 1 19 20 ,000000 0 0 2 2 15 19 1,000000 0 1 11 3 12 13 1,000000 0 0 5 4 6 8 1,000025 0 0 8 5 11 12 1,500000 0 3 15 6 9 10 2,000000 0 0 7 7 4 9 2,000000 0 6 14 8 6 7 2,495053 4 0 9 9 3 6 3,669981 0 8 12 10 16 17 4,000000 0 0 15 11 14 15 4,000000 0 2 13 12 2 3 4,252486 0 9 16 13 14 18 6,000000 11 0 17 14 4 5 6,333333 7 0 16 15 11 16 7,333333 5 10 17 16 2 4 7,648517 12 14 18 17 11 14 13,960000 15 13 19 18 1 2 22,447754 0 16 19 19 1 11 54,536533 18 17 0
  • 94. Ejemplo de operatoria de cluster análisis: g) Diagrama de témpanos (Método Jerárquico) * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Vertical Icicle Plot using Average Linkage (Between Groups) 1 2 1 1 1 1 1 1 1 1 1 8 0 9 5 4 7 6 3 2 1 5 0 9 4 7 8 6 3 2 1 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + 13 + 14 + 15 + 16 + 17 + 18 + 19 +