6. ¿Qué utilizamos para medir
la conducta humana?
–Tests Proyectivos
– Tests Psicométricos
7. Tests proyectivos:
• Exploran el conjunto de la personalidad de
una manera global
• Se fundan en la noción de proyección
• Utilizan materiales vagos y poco
estructurados
• Dan lugar a una variedad cuasi-infinita de
respuestas interpretables
8.
9. La tarea del paciente consiste, no tanto en
describir la lámina, como en contar una
historia en relación con la figura que la
lámina le presenta.
12. Tests psicométricos
• La Real Academia Española de la Lengua
define a los tests como exámenes o pruebas
psicológicas para el estudio de alguna función.
• Si se acude a la etimología del término la
palabra test proviene del latín: testis que
significa testigo y cuyo semantema está
presente en palabras como testimonio, testículo,
etc.
• La enciclopedia más consultada del mundo
(Wikipedia) dice:
13. Wikipedia
• La Psicometría es la disciplina que se encarga de la medición en
psicología. Medir es asignar un valor numérico a las características de las
personas, es usada esta función pues es más fácil trabajar y comparar los
atributos intra e interpersonales con números y/o datos objetivos. Así, no
se usa para medir personas en sí mismas, sino sus diferentes aspectos
psicológicos, tales como conocimiento, habilidades, capacidades, o
personalidad.
• La medida de estos aspectos es difícil, y gran parte de la investigación y
técnicas acumuladas en esta disciplina están diseñadas para definirlos de
manera fiable antes de cuantificarlos. Los críticos argumentan que tales
definiciones y cuantificaciones son imposibles y que las mediciones a
menudo son tergiversadas.
• Los contenidos de la psicometría se articulan, fundamentalmente, en dos
grandes bloques: teoría de los test, que hace referencia a la construcción,
validación y aplicación de los test y escalamiento, que incluye los métodos
para la elaboración de escalas psicofísicas y psicológicas.
• A su vez, la teoría de los test se divide en dos ramas: la teoría clásica de
los tests y la más reciente teoría de respuesta a los ítems.
• Los conceptos clave de la teoría clásica de los tests son: fiabilidad y
validez. “Fiabilidad" es medir algo de forma consistente, es decir, que la
aplicación de un instrumento dé medidas estables; mientras que "validez"
es medir lo que realmente se mide el atributo que el test pretende medir.
• Ambas propiedades, fiabilidad y validez, admiten un tratamiento
matemático.
14. Tests psicométricos:
• Se pueden definir los tests psicométricos como
instrumentos de medida
• Se basan en modelos matemáticos
• Intentan estimar el nivel de habilidad de las personas
en rasgos diferenciados, sus aptitudes, actitudes y su
personalidad.
• Las respuestas dadas a estos tests se valoran y
evalúan cuantitativamente
• La puntuación final obtenida puede interpretarse
basándose en modelos formalizados
• Intentan dar una medida objetiva de múltiples
aspectos de la conducta humana.
15. Tipo de ítems
– Respuesta abierta
– Verdadero falso
– Si - No
– Elección múltiple
– Elección forzada (Ipsativos)
– Tipo “Likert”
– Preguntas de respuesta breve
– Preguntas a desarrollar
– Tareas para realizar
– Preguntas de emparejamiento
– Clasificaciones
– Comparaciones
16. Respuesta abierta
• ¿Cuál es la capital de Brasil?
• 23 x 2=
• ¿Quién escribió “El sueño de una noche
de verano”?
17. Verdadero - falso
• 20-(12+9)+1=0 V F
• La media es un estadístico de tendencia central V F
• Me gusta el futbol V F
19. Si-No
• Tengo teléfono móvil SI NO
• En las próximas elecciones votaré al P.P. SI NO
• La fórmula del agua es H2O SI NO
20. Elección forzada
Elija una de las dos opciones, la que mejor
describa su forma de ser:
• Soy una persona
A) Perezosa
B) Desordenada
21. Tipo Likert
• Falto a clase
1) Nunca
2) A veces
3) Normalmente
4) Casi siempre
5) Siempre
22. Preguntas a desarrollar
• Describa la influencia de la superstición en
la literatura española del siglo XIX
23. Preguntas de respuesta breve
• Defina los siguientes accidentes
geográficos:
– Isla
– Cabo
– Golfo
– Río
– Lago
– Cordillera
24. Tareas para realizar
• Construir un rompecabezas
• Interpretar una pieza de piano
• Ver el número de pulsaciones por minuto
para escribir un texto en un procesador de
textos.
25. Preguntas de emparejamiento
• Empareja cada persona con su oficio o
profesión:
Salvador Dalí Cine
Pablo Picasso Medicina
Antonio Gaudí Psicología
Mario Vargas Llosa Matemáticas
Santiago Ramón y Cajal Física
José Luís Pinillos Arquitectura
Santiago Calatrava Literatura
Eduardo Noriega Pintura
26. Clasificaciones
• Ordene las siguientes actividades según
su preferencia:
Leer: __________
Hacer deporte:_________
Escuchar música:_________
Ver televisión:______________
27. Comparaciones
• De cada par subraye la actividad que más
le guste:
– Hacer deporte – Leer
– Ver televisión – Escuchar música
– Leer – Ver televisión
– Escuchar música – Hacer deporte
– Leer – Escuchar música
– Hacer deporte – Ver televisión
28. 12 pasos para la construcción de un test
1. Plan general
• ¿Qué quiero medir?
• ¿Para qué voy a usar los resultados?
• ¿Cómo se interpretarán los resultados?
• ¿Qué formato va a tener el test?
• ¿Cuál va a ser la modalidad de aplicación?
• ¿Qué características tiene la población diana?
• ¿Quién va a elaborar los ítems?
• ¿Quién va a revisar los ítems?
29. 12 pasos para la construcción de un test
2. Definición del contenido
• Definición operativa del constructo
• Definición del universo de ítems
• Definición de las características del grupo
de expertos que van a valorar la validez de
contenido del test
• Método de valoración de la validez de
contenido
30. 12 pasos para la construcción de un test
3. Especificaciones sobre el test (El blueprinting)
• Tipo de formato del test
• Número total de ítems
• Modelo teórico en el que se basa
• Tipo de estímulos que puede contener el test
(visuales, auditivos, etc.)
• Normas de puntuación de los ítems
• Si la interpretación va a ser referida a la norma o al
criterio
• Tiempo de aplicación
31. 12 pasos para la construcción de un test
4. Desarrollo de los ítems
• Asegurar en el constructor de ítems:
La habilidad y los conocimientos psicométricos
de quienes vayan a desarrollar los ítems.
El conocimiento del constructo medido.
Conocimiento sobre el universo de ítems del
constructo
32. 12 pasos para la construcción de un test
5. Diseño del test
• Ensamblaje de los ítems tiene tal
importancia que se ha demostrado la
relación entre esto y la validez y/o la
fiabilidad del test.
33. 12 pasos para la construcción de un test
6. “Producción” del test
• Téngase en cuenta que:
Erratas
Forma de presentación
Control de calidad
Facilidad de lectura
Inciden directamente sobre la validez de la prueba
34. 12 pasos para la construcción de un test
7. Administración del test
• Establecer normas claras de administración.
• Seguir un protocolo establecido
• Unificar las instrucciones en todas las
aplicaciones
35. 12 pasos para la construcción de un test
8. Puntuaciones del test
• Exactitud de las plantillas
• Adecuación de la puntuación final del test
• Equivalencia entre puntuaciones
observadas y baremos
• Confirmación empírica de la posibilidad de
equiparación de puntuaciones, si esta se
lleva a cabo
36. 12 pasos para la construcción de un test
9. Puntos de corte
• Cuando los tests exigen tener un punto de
corte o se va a establecer niveles o grados
entre quienes los responden, con
consecuencias importantes para su futuro
es imprescindible probar la validez de los
puntos de cortes para los distintos niveles.
37. 12 pasos para la construcción de un test
10. Informes de los resultados
• Cualquier error que aparezca en los
informes sobre los resultados de una
aplicación de un tests, aunque sea un error
tipográfico puede servir para degradar todo
el proceso del programa de medida llevado
a cabo. Ese informe siempre será un arma
contra los tests, su validez y la toma de
decisiones seguida de su aplicación
38. 12 pasos para la construcción de un test
11. El “banco de ítems”
• Tras la elaboración de los ítems y su
aplicación, conviene tener un “almacen”
donde se guarden con todas sus
características. Los mejores siempre cabe la
posibilidad de que pueden ser reutilizados.
Señalar la confidencialidad de los bancos de
ítems es inútil por su obviedad
39. 12 pasos para la construcción de un test
12. Informe técnico
• Cualquier test ha de ser acompañado de un
exhaustivo informe técnico en donde se de
cuenta de:
Objetivo de la prueba
Definición del constructo
Todos los parámetros psicométricos del test
Una buena idea puede ser utilizar estos doce
pasos como “guión” del informe técnico
40.
41. Principales índices de los ítems
Entre las características que pueden ayudar a seleccionar los
mejores ítems para mejorar las propiedades psicométricas del
test, así como para ayudar a conseguir mejor sus objetivos de
evaluación se pueden señalar los siguientes:
-Impacto
-DIF
-Dificultad
-Discriminación
-Homogeneidad
-Distractores
-Azar
-Fiabilidad
-Validez
42. Impacto
• Se dice que un ítem tiene impacto cuando
personas de grupos diferentes tienen
probabilidades distintas de acertar el ítem
43. D.I.F
• Un ítem funciona diferencialmente
(presenta DIF) cuando personas de
diferentes grupos tienen distintas
probabilidades de acertar el item en
función del grupo de pertenencia:
• Y = b0 + b1TOTAL + b2SEXO + b3TOTAlxSEXO
pi
Ln B0 B1total B2 grupo B3 (totalxgrup o)
1 p i
44. Dificultad de los ítems
Un ítem será fácil o difícil en función del número de personas que lo acierten
o lo fallen. Los ítems fáciles serán acertados por más personas que los ítems
difíciles. También resulta elemental que, saber simplemente el número de
personas que acierten o fallen un ítem sería inútil por sí mismo. Es decir, si se
dice que un ítem es acertado por 300 personas y otro por 500 no se puede, de
esa información, deducir cuál de los dos ítems es más fácil o más difícil. La
dificultad va a depender, no sólo del número de personas que acierten (o
fallen) el ítem, sino también del número de personas que intenten
responderlo. Cualquiera podría deducir que si ambos ítems fueron aplicados a
muestras con características similares, el primero fue respondido por 600
personas y el segundo por 1.000, ambos ítems son igual de fáciles o difíciles,
ya que la proporción de personas que lo responden adecuadamente es la
misma.
45. El índice de dificultad del ítem
El índice de dificultad de un ítem es un indicador de la dificultad del mismo.
En este sentido, la dificultad del ítem vendría dada por la proporción de
personas que aciertan el ítem entre todas las que intentan responderlo.
A A
F
ID k 1
N ID
N
A: Número de personas que aciertan el ítem
N: Número de personas que intentaron resolver o responder al ítem
F: Número de personas que fallan el ítem
k: Número de alternativas del ítem
46. El índice de dificultad, como indicador de lo difícil que puede ser
acertar o fallar un ítem, sólo tiene sentido calcularlo en los tests donde
existan respuestas correctas o incorrectas, no en los tests de
personalidad o escalas de actitudes.
En este tipo de cuestionarios, la dificultad sólo podría interpretarse
como la probabilidad de dar una respuesta determinada (afirmativa,
negativa, de mayor o menor acuerdo o desacuerdo con la afirmación
del ítem) en función del grado o de la posición relativa de la persona
en el rasgo o actitud que se esté midiendo. Es decir, cuanto más
introvertida sea una persona, más probable es que responda
afirmativamente al ítem:
Me sonrojo si un desconocido me pegunta la hora por la calle
De igual modo, sería muy difícil, que alguien con una fuerte
actitud en contra de cualquier extranjero se mostrara totalmente de
acuerdo con el contenido del siguiente ítem:
Me gustaría que mi hija se casara con un extranjero.
47. Discriminación de los ítems
Una de las finalidades fundamentales de un test es la
de poder discriminar entre todas las personas que lo
responden y ordenarlas, o escalarlas, en función del
atributo que mida el test, la capacidad que puedan, o
no, tener los ítems para discriminar resulta de una
enorme importancia. Efectivamente, cada uno de los
ítems o los elementos que compongan el test deben
de contribuir de forma adecuada a diferenciar entre
aquellas personas que han obtenido en éste una
elevada puntuación y aquellas cuya puntuación ha
sido más baja o peor (según el caso).
48. Discriminación de los ítems
Un buen ítem, tiene que ser acertado por una
proporción mayor de los individuos que
obtengan mejor puntuación, o puntuación más
elevada en el test, que aquellos con
puntuaciones bajas. Dicho con otras palabras, si
el ítem es “bueno” tenderá a ser acertado por
quienes obtengan buena puntuación en el test y
será fallado (o tenderá a ser fallado) por quienes
obtengan puntuaciones bajas
49. Índice de discriminación
Según este índice, la capacidad de un ítem para discriminar
viene dada por la diferencia entre la proporción de acertantes
entre las mejores y las peores puntuaciones en el test. La muestra
total se divide en dos grupos, siendo el 27% superior y el 27%
inferior lo que configuraran los dos grupos extremos. A esta
forma de estimar el poder de discriminación de un ítem se la
denomina D (discriminación) y su formulación es la siguiente:
D p p
Donde:
p+ : Proporción de acertantes al ítem del grupo superior y
p- : Proporción de acertantes del grupo inferior.
Siendo -1 ≤ D ≤ +1.
50. Índice de discriminación basado en grupos extremos
Por ejemplo, un grupo de 400 personas responden a un test. De las 108 con
mejores puntuaciones en el test (27% superior) 81 aciertan cierto ítem. De las 108
con peores puntuaciones en el test (27% inferior) sólo lo aciertan 27, por
consiguiente:
81 27
p 0,75 p 0,25 D = 0,75 – 0,25 = 0,50
108 108
Para ayudar a la interpretación de esta forma de estimación de la
discriminación de los ítems, Ebel (1965) propone la siguiente tabla:
Valores Interpretación
≥ 0,40 El ítem discrimina muy bien
Entre 0,30 y 0,39 El ítem discrimina bien
Entre 0,20 y 0,29 El ítem discrimina poco
Entre 0,10 y 0,19 Ítem límite. Se debe mejorar
< 0,10 El ítem carece de utilidad para discriminar
51. Índice de discriminación
Es necesario tener en cuenta que para calcular la puntuación total
en el test, el ítem que se está analizando debe ser eliminado. Es
decir, es necesario calcular tantas puntuaciones “totales” como
ítems tenga el test, ya que el ítem analizado no debe de contribuir
a la puntuación total de los individuos en el test, antes de
determinar las personas que forman parte de los grupos extremos.
52. Índice de homogeneidad
Nos indica lo homogéneo que es cada ítem en relación a los otros
ítems del test, es decir, en que modo contribuye a medir lo mismo que
mide el test total. Su estima mediante la correlación item-test
Esta correlación se denomina índice de homogeneidad, ya que señala
hasta qué punto el ítem es homogéneo con el test y tiende a medir la
misma variable que el test.
53. Índice de homogeneidad
Conviene señalar y dejar muy claro que el índice de homogeneidad viene
expresado por la correlación entre dos variables: la puntuación en un
ítem y la puntuación en un test. Se da por supuesto que el ítem analizado,
a la hora de calcular la correlación, es eliminado del test, bien sea
descontándolo antes de calcular la puntuación total, o mediante un
método estadístico apropiado que corrija de forma adecuada los efectos
que sobre el valor de la correlación tiene el hecho de incluir la
puntuación del ítem dentro de la puntuación total del test. Si al calcular la
correlación ítem-test no se descontasen del test las puntuaciones
correspondientes al ítem, se estaría inflando de forma espuria el valor de
la correlación
54. Índice de homogeneidad
El tipo de correlación que se utilice para el cálculo del índice de
homogeneidad va a depender de las características que tengan las
variables entre las que va a hallarse la correlación, es decir, a las
características de medida que tengan el ítem y el test. En principio el
coeficiente de correlación producto-momento de Pearson permite
calcular este índice. Claro que el cálculo del coeficiente de correlación de
Pearson requiere escalas continuas y distribuciones normales bivariadas.
Recuérdese que el valor máximo empírico del coeficiente de correlación
de Pearson depende de la distribución conjunta de las variables que se
quieran correlacionar.
55. Índice de homogeneidad
La siguiente tabla puede aclarar qué tipo de
correlación puede ser el más adecuado en cada caso. La
primera columna muestra el nivel de medida del ítem y
la primera fila, el del test. Así si el ítem está
dicotomizado y el test es una variable continua se
utilizaría la correlación biserial.
Ítem Test
Nivel de Dicotómica Dicotomizada Continua
medida
Dicotómico Correlación Φ Correlación Φ Correlación biserial-
puntual
Dicotomizado Correlación Correlación biserial
tetracórica
Continuo Correlación de Pearson
56. Corrección de la correlación
Como ya se había indicado, si no se ha eliminado el ítem para el
cálculo de la correlación de la puntuación en el test, con la
puntuación en el ítem, debe aplicarse la siguiente fórmula de
corrección para la obtención del índice de discriminación:
rix sx si
I . D.
s s 2rix sx si
2
x
2
i
Siendo:
rix: La correlación del ítem con el test.
sx: La desviación típica del test.
si: La desviación típica del ítem.
57. Análisis de los distractores
Se denominan distractores a las distintas
alternativas falsas o posibilidades de respuesta
incorrectas que tiene un ítem. Todas ellas deberían
resultar igualmente atractivas para las personas
evaluadas que desconocieren la respuesta correcta.
Para comprobarlo, una prueba de independencia
puede ayudar a tomar decisiones sobre la
equiprobabilidad de las alternativas incorrectas
propuestas para cualquier ítem
58. El índice de fiabilidad de los ítems
Este índice se utiliza para estimar la fiabilidad con la que cada ítem mide
la característica o la variable que mide el test total. Es decir, da
información sobre la contribución que el ítem hace para medir lo que el
test total mida
El índice de fiabilidad (IF) del ítem es función del índice de
discriminación y la desviación típica del ítem, es decir:
IF S ID i i
Siendo:
Si: La desviación típica de las puntuaciones en el ítem i
IDi: El índice de discriminación del ítem i. Es decir, la
correlación ítem-test corregida, eliminada la influencia del ítem en la
puntuación total del test.
59. Índice de validez
Se entiende por índice de validez del ítem al coeficiente de
correlación entre las puntuaciones en el ítem y las
puntuaciones obtenidas en el criterio. Es decir, la correlación
ítem-criterio.
Formalmente podría expresarse: I.V. = rjy
Siendo:
rjy la correlación entre las puntuaciones en el
ítem y las puntuaciones en el criterio externo.
61. Definición de tests paralelos
• Dos tests, j y k, se denominan
paralelos si la varianza de los
errores es la misma en ambos
y cada sujeto obtiene en ellos
la misma puntuación
verdadera
62. Fiabilidad
• En general, se dice que una
medida es fiable cuando está
libre de error.
• Un test es fiable cuando es
constante en su medida
• Un test es fiable si tiene
consistencia interna.
63. Coeficiente de fiabilidad
• La fiabilidad de un test se expresa
mediante su coeficiente de fiabilidad:
2
XX ' v
2
x
64. Coeficiente de fiabilidad
Puesto que 2 x 2v 2e
x
2 2 2
e 2
XX '
e
v
1 2
x
2
x
2
x
No obstante ninguna de las dos fórmulas vale para el calculo del
coeficiente de fiabilidad ya que ni la varianza de los errores ni la de las
puntuaciones verdaderas se puede calcular empíricamente
65. Índice de fiabilidad
• Se denomina índice de fiabilidad de un test a
la correlación entre sus puntuaciones
empíricas y sus puntuaciones verdaderas.
Matemáticamente es la raíz cuadrada del
coeficiente de fiabilidad:
v
xv
x
66. Métodos clásicos para la estimación
empírica del coeficiente de fiabilidad
• Test-retest
– Coeficiente de estabilidad
• Formas paralelas
– Coeficiente de equivalencia
• Dos mitades
– Consistencia interna
67. Estimación de las puntuaciones verdaderas
• Ecuaciones de regresión
– Puntuaciones directas
V' (X X) X
xx
– Puntuaciones diferenciales:
v ' xx x
– Puntuaciones típicas:
zv ' xx . z x
68. El coeficiente α
• El coeficiente α de Conbrach es, sin duda, el método
más conocido y más utilizado para el estudio de la
consistencia interna del test como estimación de su
fiabilidad.
• Su valor se estima a partir de la siguiente ecuación:
2
n
j
n j 1
1 2
n 1 x
69. Fórmulas basadas en el análisis factorial
• Coeficiente θ de Carmines
– En 1979 Carmines y Zeller propusieron el coeficiente θ
como una aproximación al coeficiente α.
n 1
1
n 1 1
Donde λ1 es el primer autovalor de la matriz de
datos sometida a análisis factorial
70. Fórmulas basadas en el análisis factorial
• Coeficiente Ω de Heise y Bohrnstedt
n
nh i
2
1 n
i 1
i , j 1
ji
i j
Donde h2 es la comunalidad estimada de los ítems del test y
ρ es la correlación entre los ítems del test
71. Fórmulas basadas en el análisis factorial
• Se puede demostrar que:
α≤θ≤Ω≤ρxx
72. Fiabilidad de una batería de tests
• Para el cálculo de la fiabilidad de una batería
de tests Yela (1987) propone la siguiente
fórmula:
n n
j
2 2 jj '
j 1
j
j 1
Rn 1
2
x
73.
74. Definición
• Un test, como cualquier otro
instrumento de medida, es
válido si sirve para medir
adecuadamente aquello para
lo que fue pensado como tal
instrumento de medida
76. Validez de contenido
• Indica el grado en que los ítems del test
representan una muestra adecuada de las
conductas o capacidades relevantes para
lo que se pretende medir. Requiere un
análisis racional del contenido de los
ítems, no suele expresarse
cuantitativamente, y tiene varias facetas
77. Validez de contenido
• la validez aparente refleja el grado en que
el test parece medir lo que pretende.
• la validez muestral se refiere a la
relevancia de los contenidos del test.
• La validez curricular se refiere a los
contenidos curriculares de un programa
de formación reflejados en el test.
78. Validez relativa a un criterio
• Indica el grado en que las puntuaciones del test tienen
utilidad para predecir otras variables que actúan como
criterio.
• Se cuantifica a través del coeficiente de validez, rXY, que
es la correlación de Pearson entre el test (X) y el criterio
(Y). Según el momento temporal a que se aplique, la
validez relativa a un criterio se denomina:
– validez concurrente, cuando el criterio representa una variable
que se mide a la vez que se aplica el test;
– validez predictiva, cuando el criterio representa una variable que
se medirá en el futuro;
– validez retrospectiva, cuando el criterio representa una variable
cuyo valor se conoce con (mucha) anterioridad a la aplicación
del test.
79. Validez de constructo
• Indica en qué grado un test mide qué
variable psicológica (constructo).
• Requiere un marco teórico que
especifique qué relaciones guardan unos
constructos con otros y que permita
establecer hipótesis acerca de cómo
deben ser las relaciones con otros
constructos
80. Matrices multirrasgo-
multimétodo
• Validez Convergente
– un test tiene validez convergente cuando presenta
correlaciones altas con otros tests que miden el
mismo constructo con distinto método
• Validez Divergente o discriminante
– un test tiene validez divergente o discriminante
cuando presenta correlaciones bajas con tests que
miden otros constructos con el mismo método
• Sesgo debido al método
– Se da si las correlaciones entre tests que miden
distintos rasgos con distintos métodos son más bajas
que las de los tests que miden distintos rasgos con el
mismo método
81. TEST ENTREVISTA JUECES
Satisfacción Implic. Motiv Satisf. Impl. Mot. Satis. Impl. Mot
1.Test
A. Satisfacción (.95)
B. Implicación .31 (.90)
C. Motivación .28 .20 (.92)
2. Entrevista
A. Satisfacción .86 .10 .57 (.95)
B. Implicación .10 .90 .13 .11 (.92)
C. Motivación .11 .09 .86 .10 .11 (.89)
3. Jueces
A. Satisfacción .73 .10 .06 .87 .05 .06 (.95)
B. Implicación .10 .80 .12 .09 .88 .10 .15 (.93
C. Motivación .09 .08 .80 .12 .17 .85 .07 .02 (.90)
82. Validez Factorial
• Un test tiene validez factorial cuando el
tratamiento de las puntuaciones mediante
análisis factorial revela las dimensiones
relevantes del constructo.
83. Validez y predicción
• Cálculo empírico del coeficiente de
validez
– El coeficiente de validez del test se define,
según ya se ha dicho, como el coeficiente de
correlación entre el test y un criterio externo
al mismo.
– En general se puede suponer que el test será
una variable continua y «normal», es decir,
que seguirá una distribución gaussiana.
84. Sin embargo, el criterio, en muchas ocasiones puede ser una
variable discreta. No es raro que si se pide a un grupo de
entrenadores en un programa determinado que evalúen a sus
alumnos estos dicotomicen la evaluación dividiendo al grupo
en dos categorías: rendimiento satisfactorio versus
rendimiento insatisfactorio. Lo mismo puede ocurrir con los
jefes que han de evaluar en rendimiento laboral a sus
subordinados, etc. La medida subyacente a esta evaluación
es en realidad una variable continua, ya que el rendimiento en
un programa de entrenamiento o en una empresa no podrá
definirse como «blanco» o «negro», como sí rendimiento, o
no rendimiento, sino que se rendirá más o menos en un
continuo real de rendimiento y será el evaluador el que
dicotomiza la variable para dar una «calificación» de
rendimiento aceptable o no aceptable.
85. El coeficiente de correlación adecuado cuando
nos encontramos con una variable continua y
normal (test o instrumento de pronóstico) y una
variable subyacente continua y normal; pero
dicotomizada, es el coeficiente de correlación
biserial, cuya formulación matemática es la
siguiente:
86. Si el criterio es una variable realmente
dicotómica y el test se sigue considerando
como una variable continua y normal, el
coeficiente de correlación adecuado entre
ambos tipos de variables es la correlación
biserial puntual, y su expresión matemática
es la siguiente:
87. Si test y criterio se pueden considerar variables
normales, el coeficiente de correlación
adecuado para el cálculo de la validez es el
coeficiente de correlación momento-producto
de Pearson y su expresión matemática puede
escribirse de la siguiente forma:
93. Límite del coeficiente de validez
• Para un test concreto
• Límite máximo para cualquier test
94. Coeficiente de validez y longitud del test
• Una forma de mejorar el coeficiente de
validez del test es aumentando su
longitud, puesto que aumentar la longitud
del test es una forma de mejorar su
fiabilidad y tal y como se ha visto, una
forma de mejorar la validez es,
precisamente, mejorando la fiabilidad
95. Coeficiente de validez y longitud del test
• Expresión matemática de la relación
coeficiente de validez-longitud:
xy
Rxy
1 xx
xx
n
Siendo: Rxy el coeficiente de validez del test una vez aumentada su longitud
ρxy el coeficiente de validez del test primitivo
ρ xx el coeficiente de fiabilidad del test primitivo
n el número de veces que se aumenta la longitud del test
96. Coeficiente de validez y longitud del test
• Despejando n de la anterior fórmula puede
estimarse el número de veces que habría que
aumentar la longitud del test para conseguir un
determinado coeficiente de validez:
(1 xx ) R 2
n
xy
R xx
2
xy
2
xy
97. Coeficiente de validez y homogeneidad de la muestra
• Como es sabido el coeficiente de
correlación de Pearson no es
independiente de la homogeneidad de la
muestra en la que se estime.
• El coeficiente de validez de un test, al
igual que ocurría con el de fiabilidad,
también depende, obviamente, de la
homogeneidad de la muestra en la que se
estime.
98. Coeficiente de validez y homogeneidad de la muestra
• A partir de dos supuestos:
– 1. El error típico de estimación es
independiente de la homogeneidad de la
muestra
– 2. La pendiente de la recta de regresión es
independiente de la homogeneidad de la
muestra
• Se puede deducir la siguiente ecuación
que pone en relación validez-
homogeneidad
99. Coeficiente de validez y homogeneidad de la muestra
S x xy
Rxy
S (1 )
2 2
x xy
2
xy
2
x
100. Otros indicativos de la validez
• El coeficiente de validez de un test da
información de hasta qué punto pueden
estimarse las puntuaciones en un criterio,
conocidas las puntuaciones en el test.
Esto puede verse con claridad a partir de:
– El coeficiente de determinación = d
– El coeficiente de alienación = k
– El coeficiente de valor predictivo = e
101. El coeficiente de determinación
• El coeficiente de determinación d es el cuadrado
del coeficiente de validez del test. Ya que
2
y
2
y'
2
y. x
• Formalmente se define:
2
2
y'
d
xy
2
y
Es la proporción de varianza pronosticada que hay en
la varianza total del criterio, o dicho de otra forma, es
la varianza del criterio que es pronosticable a partir del
test
102. El coeficiente de alienación
• El coeficiente de alienación k indica la proporción
de error que se comete utilizando la recta de
regresión para hacer predicciones.
y. x
k 1 xy
2
y
• Viene expresado por la proporción de error típico
de estimación que hay en la desviación típica de
las puntuaciones en el criterio.
103. El coeficiente de valor predictivo
• El coeficiente de valor predictivo, “e”
indica la seguridad en los pronósticos
cuando se utiliza la regresión para
llevarlos a cabo.
• e=1–k
• Es el complemento con respecto a 1 del
coeficiente de alienación
104. Estimación del criterio a partir de un test
• Si la relación existente entre dos
variables, X e Y es una relación lineal,
esta relación puede ser expresada bajo la
forma de un modelo lineal
• Y = β0 + β1Xi
• Siendo β0 y β1 dos valores constantes, X la variable
explicativa, variable control, test, variable endógena,
variable independiente o regresor, mientras Y recibe los
nombres de variable explicada, respuesta, variable
exógena, variable dependiente o criterio
105. Estimación del criterio a partir de un test
• Ecuaciones de regresión
Directas
ˆ y
Y xy (X X ) Y
x
Diferencia les
y
y xy
ˆ x
x
Típicas
z y xy z x
ˆ
107. Validez y selección
Modelo compensatorio
Lleva a cabo una combinación aditiva de las
distintas puntuaciones de los sujetos, dejando a
éstos ordenados según su puntuación global
Modelo conjuntivo
Se seleccionan aquellos sujetos que superan en
todos y cada uno de los predictores un cierto
nivel de competencia prefijado
Modelo disyuntivo
Se seleccionan aquellos que superan cierto nivel de
competencia en al menos un predictor, es decir, o
se supera uno o se supera otro, al menos uno
108. Validez y selección
A la hora de evaluar la eficacia de una selección no sólo se ha de tener en cuenta
la validez de los predictores, sino que han de contemplarse, además, aspectos
como la razón de seleccíón, la razón de eficacia y la razón de idoneidad.
Se denomina razón de selección a la proporción de personas
seleccionadas del total de aspirantes
La razón de eficacia es la proporción de seleccionados que
efectivamente tíenen éxíto posterior en el criterio.
La razón de idoneidad la proporción de aspirantes
cualificados para tener éxito en el criterio
Taylor y Russell (1939) elaboraron unas tablas, que para un valor
estimado de la razón de idoneidad, y conocida la validez y la razón de
selección, permiten estimar cuál sería la razón de eficacia o probabilidad
de que un sujeto seleccionado bajo esas circunstancias tenga éxito.
111. Cocientes Intelectuales Clásicos
El Cociente Intelectual da información sobre la inteligencia de los
sujetos en función de la adecuación entre su edad mental y su edad
cronológica.
Es el tipo de escala utilizada en los primeros Tests de Inteligencia, como el
Binet-Simon, etc. Su cálculo es muy sencillo, basta con conocer la
puntuación esperada para la realización de ciertas tareas de un grupo
normativo de sujetos de una edad determinada. Cualquier sujeto, que para
las mismas pruebas, llegue a alcanzar dicha puntuación, tiene como edad
mental la edad del grupo normativo. La edad cronológica es la edad del
sujeto.
Edad _ Mental
CI 100
Edad _ Crono log ica
112. Cocientes Intelectuales Clásicos
Ventajas
1. Son de uso universal. La práctica totalidad de la población puede tener una
idea muy aproximada sobre su interpretación.
2. Son fáciles de calcular, no conllevan procedimientos de cálculo
complicados.
Inconvenientes
1. El desarrollo mental, y por lo tanto la edad mental de los individuos, no es
el mismo a lo largo de toda la existencia. No se sigue la misma pauta en el
desarrollo, por ejemplo de los O a los 2 años que de los 16 a los 18. Un retraso
en las primeras edades no significa lo mismo que un retraso en edades más
avanzadas, por eso la interpretación del CI depende de la edad cronológica.
2. No tienen ningún tipo de aplicación en edades adultas cuando ya el
desarrollo mental se ha llevado a cabo de forma prácticamente total.
113. Escalas centiles
Las escalas centiles o percentiles son escalas de tipo ordinal. Un percentil se
interpreta como el porcentaje de sujetos que quedan por debajo de él en el grupo
normativo. Es decir un sujeto con un percentil de 48 deja por debajo de sí al 48 %
de los sujetos de su grupo normativo
Matemáticamente se define como:
siendo:
fai: Frecuencia acumulada por debajo de la
puntuación de interés.
fi: Frecuencia de sujetos con la misma
puntuación que aquella para la que se busca el percentil.
n: Número de sujetos de la muestra.
114. Escalas centiles
La puntuación en un test se dará redondeada al entero más próximo. No es
tanto lo que las ciencias sociales pueden afinar en el proceso de la medida
como para que se justifique el poder decir que la puntuación centil de un
individuo en extraversión sea de 44,748. Resulta al menos extraño cuando no
petulante.
Ventajas
Al igual que las anteriores son muy fáciles de calcular y de una interpretación
muy sencilla.
Inconvenientes
1. Son menos estables (y, por lo tanto, menos «fiables») en la parte central de las
distribuciones que en los extremos de las mísmas.
2. No permiten comparaciones interindividuales ni siquiera dentro del mismo test
ya que las distancias no son similares a lo largo de toda la distribución.
3. Para este tipo de escalas no es adecuado el cálculo de ningún tipo de
estadístico para establecer comparaciones entre individuos o entre grupos, tales
como la media, etcétera.
115. Escalas típicas
Las escalas típicas son transformaciones lineales de las
puntuaciones primitivas con media cero y desviación típica 1.
Su definición matemática es:
Ventajas
1. Son fáciles de calcular.
2. Son transformaciones lineales de las puntuaciones primitivas con lo que no se
modifica en absoluto la forma de la distribución de origen.
3. Su unidad de medida es constante con lo que permiten cualquier tipo de
comparación intragrupo entre las puntuaciones de los sujetos.
Inconvenientes
1. El hecho de tener el cero como punto medio origina puntuaciones negativas y
no deja de «sonar» un poco extraño el decirle a alguien que su puntuación en
inteligencia es de - 1.
2. Aunque, en principio, sus límites son ± ∞en general, en la práctica, en un rango
de 6 puntos están comprendidas todas las puntuaciones de una distribución, esto
origina puntuaciones decimales.
116. Escalas típicas derivadas
El mayor inconveniente de tipo práctico para el uso de las típicas radica en los
signos negativos y números decimales. Para evitarlo, las puntuaciones típicas se
transforman a su vez en otras escalas que evitan estos dos inconvenientes,
denomi-nadas típicas derivadas (D).
Las típicas derivadas se obtienen a partir de las típicas primitivas mediante la
transformación:
Donde:
XD: Media para la nueva escala.
SD: Desviación típica elegida para la
nueva escala.
Zx: Puntuación típica primitiva.
117. Escalas típicas derivadas
La media y la desviación típica elegidas son
arbitrarias y sólo obedecen a exigencias prácticas.
Son muy populares, por ejemplo, las llamadas
puntuaciones T de McCall, que ubican la media en
50 y la desviación típica en 10, denominándose
así, al parecer, en honor a Terman y Thorndike.
Muchos tests al uso utilizan este tipo de
puntuaciones derivadas; por ejemplo, el MMPI en
50 y 10, siguiendo a McCall.
118. Escalas típicas normalizadas
Las puntuaciones típicas normalizadas son las puntuaciones
típicas que le corresponderían a las puntuaciones originarias de los
sujetos si su distribución fuera normal.
Implican una transformación «no lineal» de la distribución empírica
de las puntuaciones obtenidas por el grupo normativo en el test, a
menos, que estas tuvieran una distribución totalmente normal, lo
cual no suele ocurrir en la práctica, «nunca».
El hecho de tener que transformar de una forma no lineal la
distribución de las puntuaciones empíricas hace que se modifique la
forma de ésta y puede llegarse a falsear totalmente los resultados
obtenidos en el test por los sujetos llegando a ordenarlos de una
forma totalmente artificial en lo que respecta a las distancias
geométricas entre ellos. Por esta razón «nunca» deben
normalizarse distribuciones sin justificar previamente (mediante una
prueba de bondad de ajuste) que su desviación de la distribución
normal no es estadísticamente significativa.
119. Escalas típicas normalizadas
Ventajas:
Presentan todas las características que ya se mencionaron
en el caso de las puntuaciones típicas; pero además:
1. Conocida la puntuación típica normalizada basta con
mirar la tabla de la distribución normal para conocer el
percentil.
2. Permite todo tipo de comparaciones de puntuaciones tanto
entre intragrupo como entre distintos grupos de sujetos y con
distintos tests.
Inconvenientes
Estos son los mismos que los ya mencionados en el caso
anterior. Para evitar tanto las puntuaciones negativas como
los decimales, este tipo de escalas pueden transformarse.
120. Escalas típicas normalizadas y derivadas
Eneatipos
Los eneatipos o estaninos son puntuaciones típicas
normalizadas y transformadas con media 5 y desviación típica 2.
Su expresión matemática es la siguiente:
Es decir a un sujeto con una puntuación típica
normalizada de 0,58 le corresponde un eneatipo de 6,16.
Como los eneatipos deben expresarse siempre en
puntuaciones enteras, su eneatipo será de 6 puntos. La
escala de eneatipos es una escala de 9 puntos. Sus límites
están entre 1 y 9.
121. Escalas típicas normalizadas y derivadas
Cocientes Intelectuales Típicos
Los «Cocientes Intelectuales Típicos» son escalas típicas
norma-lizadas y transformadas con media 100 y desviación
típica 15 ó 16. Su expresión matemática es:
C.I.T. = 15Zn + 100
Su límite inferior es 0 y no tiene límite superior. Las
puntuaciones se dan siempre redondeadas al entero más
próximo.
123. THUSRTONE
Ley del Juicio Comparativo
Thurstone fue el primero en mostrar que los
métodos de escalamiento psicofísico se podían
adaptar para la medición de actitudes. Por ejemplo,
mostró que era posible ubicar un conjunto de delitos
en un continuo psicológico de “gravedad percibida”,
pidiéndole a un grupo de jueces que examinaran
todas las parejas posibles entre los delitos de una
lista (e. g., asesinato y robo; asesinato y violación,
etc.). Thurstone también desarrolló procedimientos
estadísticos que permitían examinar si los valores
escalares de los estímulos estaban en una escala de
intervalos
124. Ley del Juicio Comparativo
• La Ley de Thurstone es un sistema de
ecuaciones que permite estimar los
valores escalares de un conjunto de
estímulos, a partir de los juicios
comparativos realizados sobre todas las
parejas posibles de estímulos
125. Ley del Juicio Comparativo
Cada test o escala formado
siguiendo el modelo de Thurstone
n(n 1)
va a tener ítems
2
Así pues, con los 4 estímulos
siguientes se puede formar una
escala de 6 ítems
133. Ley del Juicio Comparativo
Método Comparaciones Binarias ( n=100.)
aula cafet gim biblio teatro
aula - 20 30 35 10
cafet 80 - 30 40 20
gim 70 70 - 45 15
biblio 65 60 55 - 25
teatro 90 80 85 75 -
∑ 305 230 200 195 70
Cada entrada de la matriz indica el número de veces que el
objeto de la columna es preferido sobre el objeto de la fila.
138. Ley del Juicio Comparativo
Método Comparaciones Binarias ( n=100.)
Una representación gráfica de los valores de cada objeto a lo largo del
continuo puede realizarse de la siguiente manera:
gi
teatro m biblio cafet aula
0 .746 .920 1 1.370
.5
.792
139.
140. Objetivos
• Proporcionar mediciones
invariantes respecto al
instrumento de medida utilizado
• Disponer de instrumentos cuyas
propiedades no dependan de los
objetos medidos
141. Diferencias TCT-TRI
TCT TRI
Modelo Lineal No lineal
Supuestos Débiles Fuertes
Invarianza Med. No Sí
Inv.Prop.Psic. No Sí
Escala 0-n -∞ a +∞
Énfasis Test Ítem
Rel. Ítem-Test No especificada CCIs
Ítems ID, IDiscrimin. a, b, c
Error de medida Global FI
Muestra N≥200 N≥500
142. Comprobación de los modelos
1. Definición rigurosa de la variable
2. Elaboración de los ítems
3. Aplicación de los ítems a una muestra
4. Depurar los ítems de acuerdo a la TCT
5. Comprobar la unidimensionalidad
6. Elegir un modelo de TRI
7. Estimar los parámetros
8. Ajuste del modelo
143. El rasgo latente
• La variable que se desea medir es lo que,
habitualmente, se conoce como el rasgo
latente; pero que se podría denominar,
Inteligencia, Neuroticismo o Personalidad
Autoritaria. Este rasgo latente no es
observable de forma directa; pero puede
estudiarse a través de las respuestas a los
ítems de un test.
144. La C.C.I.
• La probabilidad de cada una de las
respuestas dadas a cualquier ítem es
función del rasgo latente y de las
características del ítem. Estas
características vienen definidas por los
parámetros del ítem. La C. C. I. es la
función que expresa la relación entre
los valores de la variable que mide el
ítem y la probabilidad de que dicho
ítem sea acertado.
145. Item Response Function and Item Information
Subtest 1: TEST0001; Item 8: 0008
a = 4.03; b = 0.03; c = 0.00;
1.0 12
0.9 11
10
0.8
9
0.7
PROB (Correct)
8
Information...
0.6 7
0.5 6
0.4 5
4
0.3
3
0.2
2
0.1 1
b
0 0
-3 -2 -1 0 1 2 3
Scale Score
Metric Type
Normal
146. Item Response Function and Item Information
Subtest 1: TEST0001; Item 14: 0014
a = 3.46; b = 0.92; c = 0.00;
1.0 12
0.9 11
10
0.8
9
0.7
PROB (Correct)
8
Information...
0.6 7
0.5 6
0.4 5
4
0.3
3
0.2
2
0.1 1
b
0 0
-3 -2 -1 0 1 2 3
Scale Score
Metric Type
Normal
147. Item Response Function and Item Information
Subtest 1: TEST0001; Item 4: 0004
a = 3.19; b = -0.96; c = 0.00;
1.0 12
0.9 11
10
0.8
9
0.7
PROB (Correct)
8
Information...
0.6 7
0.5 6
0.4 5
4
0.3
3
0.2
2
0.1 1
b
0 0
-3 -2 -1 0 1 2 3
Scale Score
Metric Type
Normal
148.
149. C. C. I.
• Parámetro a => Discriminación
– Su valor es proporcional a la pendiente de la
recta tangente a la CCI en el punto de
máxima pendiente.
• Parámetro b => Dificultad
– Valor de θ correspondiente al punto de
máxima pendiente de la CCI
• Parámetro c => Azar
– Valor asintótico de la CCI cuando θ →∞
150. Modelos de la ojiva normal
Modelos de 1, 2, 3 y 4 parámetros
bi
Pi ( )
( 1
2
)e ( z2 /2)
dz
bi
Pi ( )
( 1
2
)e ( z2 /2)
dz
bi
Pi ( ) ci (1 ci ) ( 1
2
)e ( z2 /2)
dz
bi
Pi ( ) ci (i ci ) ( 1
2
)e ( z2 /2)
dz
151. Modelos logísticos
e=2‟718281828
1
Pi ( ) D ( bi )
1 e
1
Pi ( ) Da ( bi )
1 e
1
Pi ( ) ci (1 ci ) Da ( bi )
1 e
1
Pi ( ) ci (i ci ) Da ( bi )
1 e
152. Supuestos del modelo
• Unidimensionalidad
– Hattie(1985)=>87 criterios diferentes para la
comprobación de la unidimensionalidad.
– El análisis factorial es la técnica más utilizada:
• Varianza explicada por el primer factor
• Cociente entre la varianza explicada por el primer factor y la
explicada por el segundo
• Gráfico de sedimentación
• Raíz cudrada de la media de los residuales
• Índices de ajuste de distribuciones desconocidas (≥0‟95)
• Χ2
– Los modelos son bastantes robustos a la violación
del supuesto de la unidimensionalidad
154. Ajuste al modelo
• Técnica basada en χ2
k n j [ P( j ) Pe ( j )]2
Q
j 1 P( j )[1 P( j )]
– Nj: Número de sujetos dentro de cada categoría
– P(θj): Valor de la CCI dado por la fórmula del modelo con los
parámetros estimados, para la categoría j
– K: Número de categorías en las que se divide θ
– Pe(θj): Proporción de sujetos que, de hecho (empíricamente) superan
el ítem para una categoría determinada j
– El estadístico sigue una distribución de χ2 con (k-p) grados de
libertad, siendo k el número de categorías en las que se dividió θ y p
el número de parámetros del modelo utilizado.
155. Invarianza de los parámetros
• Técnicas gráficas y ver el ajuste a una
recta del diagrama de dispersión
• Cálculo del coeficiente de correlación de
Pearson.
– El parámetro c no se ve afectado por el
cambio de la métrica en las estimaciones.
156. Ejemplo
• Para la creación de un banco de ítems se aplican diez
ítems como ítems de anclaje a dos muestras diferentes.
La tabla muestra el valor del parámetro b de los 10
ítems de anclaje en los dos grupos.
Ítem Grupo 1 Grupo 2
1 -1,45 -2,66
2 0,5 -0,23
3 1,2 0,65
ρxy=1
4 0,25 -0,54
5 0,75 0,09
6 -0,3 -1,23
7 1 0,4
8 -0,5 -1,48
9 -1 -2,1
10 1,25 0,71
157. Transformaciones admisibles de θ
• P(θ) resulta invariante a cualquier
transformación de θ, si:
•θ„=M(θ)+k
•b„=M(b)+k
•a„=a/M
•c„=c