El documento discute los conceptos de validez y confiabilidad en la investigación cuantitativa y cualitativa. Explica que la validez de construcción, interna y externa son importantes para la investigación cuantitativa, mientras que la credibilidad, transferibilidad, consistencia y neutralidad lo son para la cualitativa. También señala que lograr validez interna a menudo reduce la validez externa, y viceversa. El objetivo es medir con precisión los conceptos bajo estudio y garantizar la replicabilidad de los resultados.
ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION
1. Ministerio de Planificación Nacional y Política Económica
1
CAPITULO 5:
ENFOQUES Y DISEÑOS
METODOLOGICOS PARA LA
EVALUACION
2. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN
DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
2
SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Apartado 5.1:
Enfoques metodológicos
Material 5.1.1: Validez y confiabilidad
Basado
en:
Martínez
M.,
Miguel
(2006):
Validez
y
confiabilidad
en
la
investigación
cualitativa.
PARADIGMA
No.
27,
pp.
7-‐33.
Con
contenidos
adicionales
y
modificados
por
parte
de
la
AES.
Validez y confiabilidad en las investigaciones evaluativas
La
dificultad
relacionada
con
la
validez
y
confiabilidad
de
los
resultados
en
las
investigaciones
evaluativas
que
utilizan
métodos
y
técnicas
de
orientación
cuantitativa
y/o
cualitativa
será
tratada
en
este
apartado
debido
a
la
importancia
que
tiene
en
la
evaluación.
La validez y confiabilidad en la investigación cuantitativa
En
la
investigación
cuantitativa
que
tiene
su
origen
en
el
positivismo
tradicional,
se
distinguen
diferentes
tipos
de
validez:
validez
de
construcción,
validez
interna,
validez
externa.
Todas
tratan
de
verificar
si
en
realidad
medimos
lo
que
nos
proponemos
medir.
Igualmente,
se
busca
determinar
un
buen
nivel
de
confiabilidad,
es
decir,
la
posibilidad
de
repetir
la
misma
investigación
con
idénticos
resultados.
La
validez
de
construcciones
hipotéticas
(de
‘constructos’),
que
es
la
más
importante,
trata
de
establecer
una
medida
operacional
para
los
conceptos
usados.
Por
ejemplo,
un
instrumento
para
medir
la
inteligencia
debe
medir
la
inteligencia,
y
no
la
memoria,
lo
cual
requiere
a)
un
entendimiento
consensuado
y
explícito
acerca
de
lo
que
se
entiende
por
inteligencia
(a
diferencia
de
la
memoria)
y
b)
un
instrumento
que
logre
medir
un
conjunto
de
variables
que
efectivamente
reflejen
dicho
concepto.
Al
tratar
solamente
con
variables
que
representan
hechos
directamente
observables,
sería
sencillo
lograr
la
validez,
sinembargo,
la
“validez
de
constructos”
llega
a
ser
un
desafío
cuando
hablamos
precisamente
de
conceptos
complejos
y
no
directamente
medibles,
como
podría
ser
el
caso
de
variables
como
la
motivación,
calidad
de
servicio
al
cliente,
y
más
aún
en
cuanto
a
variables
que,
por
ejemplo,
estén
relacionado
con
actitudes,
sentimientos
etc.
La
validez
interna
está
relacionada
específicamente
con
el
establecimiento
o
búsqueda
de
una
relación
causal
o
explicativa;
es
decir,
si
el
evento
X
lleva
al
evento
Y;
excluyendo
la
posibilidad
de
que
sea
causado
por
el
evento
Z.
La
validez
interna
es
maximizada
mediante
diseños
experimentales
o
cuasi-‐experimentales
y
analiza
internamente
el
estudio
cuestionando
si
las
relaciones
causales
encontradas
son
válidas
en
el
contexto
del
estudio,
lo
cual
no
necesariamente
significaría
que
deben
ser
válidas
para
otras
unidades
que
no
son
las
investigadas.
La
validez
externa,
por
el
otro
lado
trata
de
verificar
si
los
resultados
de
un
determinado
estudio
son
generalizables
más
allá
de
los
linderos
del
mismo.
La
validez
externa
responde
a
la
pregunta:
Lo
que
encontré
en
el
estudio
¿a
qué
otras
personas,
grupos,
contextos
o
situaciones
se
aplica?.
Algunos
autores
se
refieren
a
este
tipo
de
validez
con
el
nombre
de
validez
de
contenido,
pues
la
definen
como
la
representatividad
o
adecuación
muestral
del
contenido
que
se
mide
con
el
contenido
del
universo
del
cual
es
extraída
(Kerlinger,
1981a,
p.
322).
3. Ministerio de Planificación Nacional y Política Económica
3
Es
importante
mencionar
que
la
validez
interna
y
externa
suelen
enconctarse
en
cierto
conflicto.
La
validez
interna
es
maximizada
cuando
se
logra
eliminar
todas
las
variables
confusoras
y
crear
un
ambiente
en
que
solamente
estén
presentes
las
variables
de
interés
que
representan
la
relación
causal.
Esto
suele
ser
el
caso
en
los
llamados
experimentos
de
laboratorio.
La
validez
externa,
por
el
otro
lado,
requiere
que
las
variables
de
interés
se
midan
en
su
contexto
natural
para
que
se
pueda
inferir
el
resultado
del
estudio
más
allá
de
los
límites
del
mismo.
Para
medir,
por
ejemplo,
el
efecto
de
un
programa
televisivo
didáctico
sobre
una
determinada
área
de
aprendizaje,
uno
podría
fácilmente
crear
una
situación
de
laboratorio
donde
los
jóvenes
se
expongan
al
programa
en
un
ambiente
perfectamente
controlado
y
con
mínimas
influencias
externas
(maximizando
la
validez
interna).
Pero
aunque
se
logre
medir
un
efecto
de
aprendizaje
positivo,
¿este
mismo
efecto
se
daría
en
los
jóvenes
que
lo
miren
en
su
casa,
tomando
en
cuenta
todos
los
factores
que
puedan
disminuir
la
atención
y
el
por
ende,
la
asimilación
de
la
información?
(problema
de
la
validez
externa).
Finalmente,
la
confiabilidad
tiene
por
objeto
asegurarse
que
un
investigador,
siguiendo
los
mismos
procedimientos
descritos
por
otro
investigador
anterior
y
conduciendo
el
mismo
estudio,
puede
llegar
a
los
mismos
resultados
y
conclusiones.
Nótese
que
se
trata
de
rehacer
el
mismo
estudio,
no
una
réplica
del
mismo.
En
la
investigación
cuantitativa,
la
validez
(interna
y
externa)
se
asocia
a
las
respectivas
estrategias
de
investigación
(experimentales,
cuasi-‐experimentales
o
no
experimentales;
de
campo
o
de
laboratorio)
que
son
tratadas
en
el
capítulo
5
del
Manual
Gerencial
para
el
diseño
y
ejecución
de
Evaluaciones
Estratégicas
de
Gobierno.
La
confiabilidad
es
alcanzada
sobre
todo
a
través
de
un
máximo
escrutinio
en
la
construcción
y
validación
de
los
instrumentos
para
la
recolección
(capítulo
6
del
mismo
manual)
así
como
de
la
uniformidad
de
la
forma
de
aplicación.
La validez y confiabilidad en la investigación cualitativa
1. La Validez
En
sentido
amplio
y
general,
una
investigación
cualitativa
tendrá
un
alto
nivel
de
“validez”
en
la
medida
en
que
sus
resultados
“reflejen”
una
imagen
lo
más
completa
posible,
clara
y
representativa
de
la
realidad
o
situación
estudiada.
Pero
no
se
tiene
un
solo
tipo
de
conocimiento.
El
positivismo
tradicional
ha
mostrado
ser
eficaz
en
las
ciencias
naturales
donde
produce
un
conocimiento
adecuado
para
tratar
con
el
mundo
físico.
Sin
embargo,
en
las
ciencias
sociales,
el
estudio
de
variables
aisladas,
desligadas
de
realidad
compleja
desde
la
cual
se
tienen
que
comprender,
ha
resultado
demasiado
reduccionista.
La
respuesta
la
dan
distintas
ramas
de
las
ciencias
histórico-‐hermenéuticas
(ciencias
interpretativas)
que
llevan
a
una
priorización
de
una
metodología
cualitativa
y
un
análisis
interpretativo
(en
lugar
de
estadístico).
Por
esta
vía,
producen
el
conocimiento
interactivo
que
subyace
en
las
relaciones
sociales.
En
las
ciencias
hermenéuticas,
el
desafío
de
la
validez
se
enfrenta
de
una
manera
distinta
positivismo
tradicional
y
la
investigación
cuantitativa.
La
validez
se
aprecia
de
acuerdo
al
nivel
de
su
habilidad
para
producir
relaciones
humanas
con
alto
sentido
de
empatía
y
vinculación.
Una
investigación
tiene
un
alto
nivel
de
validez
si
al
observar
o
apreciar
una
realidad,
se
observa
o
aprecia
esa
realidad
en
sentido
pleno,
y
no
sólo
un
aspecto
o
parte
de
la
misma.
Si
la
confiabilidad
ha
representado
siempre
un
requisito
difícil
para
las
investigaciones
cualitativas,
debido
a
la
naturaleza
peculiar
de
éstas
(imposibilidad
de
repetir,
stricto
sensu,
el
mismo
estudio),
no
ha
ocurrido
lo
4. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN
DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
4
SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
mismo
en
relación
con
la
validez.
Al
contrario,
la
validez
es
la
fuerza
mayor
de
estas
investigaciones.
En
efecto,
la
aseveración
de
los
investigadores
cualitativos
de
que
sus
estudios
poseen
un
alto
nivel
de
validez,
deriva
de
su
modo
de
recoger
la
información
y
de
las
técnicas
de
análisis
que
usan.
Esos
procedimientos
los
inducen
a
relacionarse
intensamente
con
los
sujetos
participantes
en
el
estudio,
a
recoger
los
datos
durante
largos
períodos
de
tiempo,
revisarlos,
compararlos
y
analizarlos
de
manera
continua,
al
adecuar
las
entrevistas
a
las
categorías
empíricas
de
los
participantes
y
no
a
conceptos
abstractos
o
extraños
traídos
de
otro
medio,
a
utilizar
la
observación
participativa
en
los
medios
y
contextos
reales
donde
se
dan
los
hechos
y,
finalmente,
a
incorporar
en
el
proceso
de
análisis
una
continua
actividad
de
realimentación
y
re
evaluación.
Aunque
todo
esto
garantiza
un
alto
nivel
de
validez,
también
la
validez
es
perfectible,
y
será
tanto
mayor
en
la
medida
en
que
se
tengan
en
cuenta
algunos
problemas
y
dificultades
que
se
pueden
presentar
en
la
investigación
cualitativa.
Entre
otros,
para
una
buena
validez
interna,
habrá
que
prestar
especial
atención
a
los
siguientes:
a)
Puede
haber
un
cambio
notable
en
el
ambiente
estudiado
entre
el
principio
y
el
fin
de
la
investigación.
En
este
caso,
habrá
que
recoger
y
cotejar
la
información
en
diferentes
momentos
del
proceso.
b)
Es
necesario
calibrar
bien
hasta
qué
punto
la
realidad
observada
es
una
función
de
la
posición,
el
estatus
y
el
rol
que
el
investigador
ha
asumido
dentro
del
grupo.
Las
situaciones
interactivas
siempre
crean
nuevas
realidades
o
modifican
las
existentes.
c)
La
credibilidad
de
la
información
puede
variar
mucho:
los
informantes
pueden
mentir,
omitir
datos
relevantes
o
tener
una
visión
distorsionada
de
las
cosas.
Será
necesario
contrastarla
con
la
de
otros,
recogerla
en
tiempos
diferentes,
etc.;
conviene,
asimismo,
que
la
muestra
de
informantes
represente
en
la
mejor
forma
posible
los
grupos,
orientaciones
o
posiciones
de
la
población
estudiada,
como
estrategia
para
corregir
distorsiones
perceptivas
y
prejuicios,
aunque
siempre
seguirá
siendo
cierto
que
la
verdad
no
es
producida
por
el
ejercicio
azarístico
y
democrático
en
la
recolección
de
la
información
general,
sino
por
la
información
de
las
personas
más
capacitadas
y
fidedignas.
En
cuanto
a
la
validez
externa,
es
necesario
recordar
que
a
menudo
las
estructuras
de
significado
descubiertas
en
un
grupo
no
son
comparables
con
las
de
otro,
porque
son
específicas
y
propias
de
ese
grupo,
en
esa
situación
y
en
esas
circunstancias,
o
porque
el
segundo
grupo
ha
sido
escogido
en
diferentes
circunstancias
o
a
partir
de
criterios
distintos
y
no
le
son
aplicables
las
conclusiones
obtenidas
en
el
primero.
Por
ende,
las
ciencias
hermenéuticas
suelen
concentrarse
en
la
plena
comprensión
del
caso
(o
los
casos)
estudiado(s),
y
no
asegurar
una
validez
externa.
2. La Confiabilidad
Una
investigación
con
buena
confiabilidad
es
aquella
que
es
estable,
segura,
congruente,
igual
a
sí
misma
en
diferentes
tiempos
y
previsible
para
el
futuro.
También
la
confiabilidad
tiene
dos
caras,
una
interna
y
otra
externa:
hay
confiabilidad
interna
cuando
varios
observadores,
al
estudiar
la
misma
realidad,
concuerdan
en
sus
conclusiones;
hay
confiabilidad
externa
cuando
investigadores
independientes,
al
estudiar
una
realidad
en
tiempos
o
situaciones
diferentes,
llegan
a
los
mismos
resultados.
El
concepto
tradicional
de
“confiabilidad”
externa
implica
que
un
estudio
se
puede
repetir
con
el
mismo
método
sin
alterar
los
resultados,
es
decir,
es
una
medida
de
la
replicabilidad
de
los
resultados
de
la
investigación.
En
las
ciencias
humanas,
dicha
confiabilidad
de
ninguna
manera
se
puede
considerar
como
un
simple
dicotomía
(“un
estudio
es
o
no
es
confiable”)
sino
como
una
característica
gradual
(de
menor
a
5. Ministerio de Planificación Nacional y Política Económica
5
mayor)
dado
que
es
prácticamente
imposible
reproducir
las
condiciones
exactas
en
que
“un
comportamiento”
y
su
estudio
tuvieron
lugar.
En
los
estudios
realizados
por
medio
de
investigaciones
cualitativas,
que,
en
general,
están
guiados
por
una
orientación
sistémica,
hermenéutica,
fenomenológica,
etnográfica
y
humanista,
la
confiabilidad
está
orientada
hacia
el
nivel
de
concordancia
interpretativa
entre
diferentes
observadores,
evaluadores
o
jueces
del
mismo
fenómeno,
es
decir,
la
confiabilidad
será,
sobre
todo
interna,
inter-‐jueces.
Dada
la
naturaleza
particular
de
toda
investigación
cualitativa
y
la
complejidad
de
las
realidades
que
estudia,
no
es
posible
repetir
o
replicar
un
estudio
en
sentido
estricto,
como
se
puede
hacer
en
muchas
investigaciones
experimentales.
Debido
a
ello,
la
confiabilidad
de
estos
estudios
se
logra
usando
otros
procedimientos
rigurosos
y
sistemáticos.
La
confiabilidad
interna
es
muy
importante.
En
efecto,
el
nivel
de
consenso
entre
diferentes
observadores
de
la
misma
realidad
eleva
la
credibilidad
que
merecen
las
estructuras
significativas
descubiertas
en
un
determinado
ambiente,
así
como
la
seguridad
de
que
el
nivel
de
congruencia
de
los
fenómenos
en
estudio
es
fuerte
y
sólido.
Los
investigadores
cualitativos
suelen
utilizar
varias
estrategias
para
reducir
las
amenazas
que
se
le
presentan
a
la
confiabilidad
interna:
a)
Usar
categorías
descriptivas
de
bajo
nivel
de
inferencia,
es
decir,
lo
más
concretas
y
precisas
posible.
Los
datos
son
algo
ya
interpretado
(Hanson,
1977);
por
esto,
es
conveniente
que
estén
cercanos
a
la
realidad
observada:
quién
hizo
qué
cosa
y
en
qué
circunstancias.
Los
comentarios
interpretativos
pueden
añadirse,
eliminarse
o
modificarse
más
tarde.
Además,
la
mayoría
de
los
autores
coinciden
en
señalar
que
los
procedimientos
cualitativos
son
ricos
en
datos
primarios
y
frescos,
que
ofrecen
al
lector
múltiples
ejemplos
extraídos
de
las
notas
de
campo,
y
son,
por
esto,
generalmente
consideradas
como
más
creíbles.
b)
El
mejor
aval
para
la
confiabilidad
interna
de
un
estudio
cualitativo
es
la
presencia
de
varios
investigadores.
El
trabajo
en
equipo,
aunque
es
más
difícil
y
costoso,
garantiza
un
mejor
equilibrio
de
las
observaciones,
los
análisis
y
la
interpretación.
c)
Pedir
la
colaboración
de
los
sujetos
informantes
para
confirmar
la
“objetividad”
de
las
notas
o
apuntes
de
campo.
Asegurarse
de
que
lo
visto
o
registrado
por
el
investigador
coincide
o
es
consistente
con
lo
que
ven
o
dicen
los
sujetos
del
grupo
estudiado.
d)
Utilizar
todos
los
medios
técnicos
disponibles
en
la
actualidad
para
conservar
en
vivo
la
realidad
presenciada:
grabaciones
de
audio
y
de
vídeo,
fotografías,
diapositivas,
etc.
Este
material
permitirá
repetir
las
observaciones
de
realidades
que
son,
de
por
sí,
irrepetibles,
y
que
las
puedan
“presenciar”
otros
observadores
ausentes
en
el
momento
en
que
sucedieron
los
hechos.
Su
aporte
más
valioso
radica
en
que
nos
permiten
volver
a
los
“datos
brutos”
y
poder
categorizarlos
y
conceptualizarlos
de
nuevo.
Para
alcanzar
un
buen
nivel
de
confiabilidad
externa,
se
puede
recurrir,
entre
otras,
a
las
siguientes
estrategias:
a)
Precisar
el
nivel
de
participación
y
la
posición
asumida
por
el
investigador
en
el
grupo
estudiado;
cierta
información
puede
ser
diferente
de
acuerdo
con
el
sexo
de
quien
la
dé
(las
mujeres
pueden
ocultar
ciertos
datos
íntimos
si
el
investigador,
por
ejemplo,
es
de
sexo
masculino);
igual
sucede
si
el
investigador
ha
hecho
amigos
dentro
del
grupo;
éstos
le
darán
informaciones
que
no
les
dan
otros.
6. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN
DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
6
SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
b)
Identificar
claramente
a
los
informantes.
Éstos
pueden
representar
grupos
definidos
y
dar
información
parcial
o
prejuiciada.
Los
miembros
que
simpatizan
y
colaboran
más
con
los
investigadores
pueden
ser,
por
esto
mismo,
miembros
atípicos.
Esta
situación
se
puede
advertir
al
hacer
una
buena
descripción
del
tipo
de
personas
que
han
servido
como
informantes.
c)
Un
tercer
elemento
que
puede
influir
en
los
datos
es
el
contexto
en
que
se
recogen.
Debido
a
ello,
conviene
especificar
el
contexto
físico,
social
e
interpersonal
de
que
se
derivan.
Esto
aumentará
la
replicabilidad
de
los
estudios.
d)
Para
que
sea
posible
una
“cierta
réplica”
es
imprescindible
la
identificación
de
los
supuestos
y
metateorías
que
subyacen
en
la
elección
de
la
terminología
y
los
métodos
de
análisis.
Los
conceptos
de
“cultura”,
“ciencia”,
“método”,
“análisis”,
“dato”,
“codificación”
y
muchos
otros
pueden
diferir
sustancialmente
entre
diferentes
investigadores.
e)
Precisar
los
métodos
de
recolección
de
la
información
y
de
su
análisis,
de
tal
manera
que
otros
investigadores
puedan
servirse
del
reporte
original
como
un
manual
de
operación
para
repetir
el
estudio.
La
replicabilidad
se
vuelve
imposible
sin
una
precisa
identificación
y
cuidadosa
descripción
de
las
estrategias
de
procedimiento.
3. La triangulación para mejorar la validez y la confiabilidad
En
sentido
amplio,
en
las
ciencias
humanas,
también
se
pueden
realizar
varias
“triangulaciones”
que
mejoran
notablemente
los
resultados
de
la
investigación
y
su
validez
y
la
confiabilidad.
De
una
manera
particular,
se
pueden
combinar,
en
diferentes
formas,
técnicas
y
procedimientos
cualitativos
y
cuantitativos.
La
idea
central
es
utilizar
todo
lo
que
se
considere
pertinente,
tenga
relación
y
se
considere
útil.
Más
concretamente,
se
pueden
identificar
varios
tipos
básicos
de
triangulación:
a)
Triangulación
de
métodos
y
técnicas:
que
consiste
en
el
uso
de
múltiples
métodos
o
técnicas
para
estudiar
un
problema
determinado
(por
ejemplo,
el
hacer
un
estudio
panorámico
primero,
con
una
encuesta,
y
después
utilizar
la
observación
participativa
o
una
técnica
de
entrevista).
b)
Triangulación
de
datos:
en
la
cual
se
utiliza
una
variedad
de
datos
para
realizar
el
estudio,
provenientes
de
diferentes
fuentes
de
información.
c)
Triangulación
de
investigadores:
en
la
cual
participan
diferentes
investigadores
o
evaluadores,
quizá
con
formación,
profesión
y
experiencia
también
diferentes.
d)
Triangulación
de
teorías:
que
consiste
en
emplear
varias
perspectivas
para
interpretar
y
darle
estructura
a
un
mismo
conjunto
de
datos
(por
ejemplo,
una
teoría
basada
en
las
técnicas
de
correlación,
análisis
de
varianza,
análisis
de
regresión,
análisis
factorial
o
cluster
analysis
y
otra
que
utilice
la
observación
participativa).
e)
Triangulación
interdisciplinaria:
con
la
cual
se
invocan
múltiples
disciplinas
a
intervenir
en
el
estudio
o
investigación
en
cuestión
(por
ejemplo,
la
biología,
la
psicología,
la
sociología,
la
historia,
la
antropología,
etc.).
7. Ministerio de Planificación Nacional y Política Económica
7
Apartado 5.2:
Diseños metodológicos cuantitativos
Material 5.2.1: Diseños experimentales y cuasi-experimentales
I. Introducción: Sobre el enfoque cuantitativo
Para
la
evaluación
de
efectos
e
impactos,
se
utiliza
el
enfoque
cuantitativo
para
estimar
la
cuantía
del
resultado
de
la
intervención
mediante
el
estableciendo
de
relaciones
causales.
El
enfoque
cuantitativo
es
secuencial,
deductivo,
probatorio
y
analiza
una
realidad
supuestamente
objetiva.
Estas
características
se
fundamentan
en
un
proceso
de
investigación
estructurado,
donde
es
necesario
concluir
una
fase
para
continuar
con
la
siguiente.
La
ilustración
1
muestra
las
fases
del
proceso
cuantitativo:
Ilustración
1.
Enfoque
cuantitativo:
su
proceso
La
evaluación
estratégica
bajo
el
enfoque
cuantitativo
requiere
que
el
problema
de
evaluación
sea
lo
más
concreto
posible,
con
el
fin
de
elaborar
las
preguntas
sobre
cuestiones
específicas.
Cuando
la
intervención
no
tiene
teoría
de
intervención
o
no
está
bien
definida,
el
evaluador
debe
revisar
la
literatura
y
usar
su
experiencia
sobre
el
tema
para
re-‐elaborar
la
teoría
de
la
intervención.
En
este
enfoque,
el
alcance
de
la
evaluación,
la(s)
hipótesis
y
preguntas
de
evaluación
son
planteadas
antes
de
recolectar
los
datos.
Idea Planteamiento
Del
Problema
Revisión de la
Literatura y
Desarrollo del
Merco teórico
Visualización
del
Alcance
Del estudio
Elaboración
de hipótesis y
Definición
de variables
Desarrollo del
Diseño de
Investigación
Definición y
Selección de la
muestra
Recolección
de datos
Análisis de
los datos
Elaboración
del reporte de
resultados
Fase 1
Proceso cuantitativo
Fase 2 Fase 3 Fase 4 Fase 5
Fase FaseFaseFaseFase
Fuente: Hernández, S. y otros, 2010
8. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN
DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
8
SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
La
recolección
de
datos,
se
fundamenta
en
la
medición
de
variables
o
conceptos
contenidos
en
las
hipótesis;
y
se
lleva
a
cabo
utilizando
procedimientos
estandarizados.
Los
datos
se
presentan
mediante
variables
que
serán
analizados
cuantitativamente
(tratándose
de
variables
métricas,
ordinales
o
nominales),
a
través
de
métodos
estadísticos.
Los
datos
recolectados
y
analizados
bajo
el
enfoque
cuantitativo
son
utilizados
para
la
prueba
de
hipótesis
previamente
definidas,
de
manera
que
los
resultados
se
basan
solo
en
las
hipótesis
o
variables
que
se
propusieron
para
ser
analizadas.
El
proceso
de
la
evaluación
se
centra
en
rechazar
o
aceptar
la
hipótesis.
Este
enfoque
busca
el
máximo
control
para
lograr
que
posibles
explicaciones
-‐distintas
a
la
propuesta
de
la
intervención-‐
sean
rechazadas
y
aumente
la
confiabilidad
de
los
resultados;
siendo
éstos
lo
más
objetivos
posibles
y
permitan
ser
generalizados
sobre
la
población
de
interés.
Sobre
la
inferencia
causal
y
el
contrafactual
Es
necesario
introducir
dos
conceptos
elementales
para
llevar
a
cabo
evaluaciones
de
impacto
creíbles
y
precisas
dentro
del
enfoque
cuantitativo:
inferencia
causal
y
el
contrafactual.
Inferencia
causal
La
evaluación
de
impacto
trata
de
atribuir
la
causalidad
de
una
intervención
sobre
un
resultado
de
interés,
al
estimar
en
qué
medida
esa
(y
solo
esa)
intervención
ha
contribuido
a
cambiar
un
resultado.
¿El
programa
de
capacitación
laboral
aumentó
los
ingresos
de
los
jóvenes
de
un
barrio
rural
pobre?;
¿las
vacunas
disminuyeron
la
mortalidad
infantil?,
¿el
programa
de
transferencia
monetaria
condicionada
redujo
la
tasa
de
deserción
estudiantil?;
son
preguntas
típicas
sobre
causalidad
presente
en
la
evaluación
de
impacto.
Determinar
la
relación
de
causalidad
entre
una
intervención
y
un
resultado
no
es
sencillo
y
para
ello
se
usan
métodos
1
de
evaluación
de
impacto,
que
descartan
la
posibilidad
de
que
cualquier
factor
diferente
de
la
intervención
en
estudio
explique
el
impacto
observado.
La
interrogante
central
en
la
evaluación
de
resultados
es
cuál
es
el
impacto
o
efecto
causal
de
una
intervención
D
sobre
un
resultado
de
interés
Y;.
La
respuesta
a
la
pregunta
se
obtiene
mediante
la
fórmula
básica
de
la
evaluación
de
impacto:
β
=
(Y
|
D
=
1)
−
(Y
|
D
=
0)
(1)
Según
esta
fórmula,
el
impacto
causal
(β)
de
una
intervención
(D)
sobre
un
resultado
(Y)
es
la
diferencia
entre
el
resultado
(Y)
con
la
intervención
(es
decir,
cuando
D
=
1)
y
el
mismo
resultado
(Y)
sin
la
intervención
(es
decir,
cuando
D
=
0).
Sea
P
un
programa
de
capacitación,
Y
el
ingreso
de
los
jóvenes
de
un
barrio
rural
pobre,
y
α
es
la
diferencia
entre
el
ingreso
del
joven
(Y)
cuando
participa
en
el
programa
(D
=
1)
y
el
ingreso
del
joven
en
ese
mismo
momento,
sino
hubiese
participado
en
el
programa
(D
=
0);
entonces,
es
necesario
medir
el
ingreso
de
la
1
Los métodos de estimación de evaluación de impacto se describen más adelante.
9. Ministerio de Planificación Nacional y Política Económica
9
misma
persona
en
dos
momentos
(con
o
sin
programa)
2
,
si
esto
fuese
posible,
la
única
explicación
sobre
la
diferencia
en
el
ingreso
de
ese
individuo
es
el
programa
de
capacitación
laboral,
eliminándose
cualquier
factor
externo
que
pudiera
explicar
también
la
diferencia
en
los
ingresos.
En
este
caso
se
podría
confiar
en
que
la
relación
entre
el
programa
de
capacitación
laboral
y
el
ingreso
es
causal.
La
fórmula
básica
de
la
evaluación
de
impacto
es
válida
a)
para
cualquier
objeto
de
análisis
(individuo,
comunidad,
institución
u
otro)
que
pueda
beneficiarse
o
verse
afectada
por
una
intervención;
y
b)
para
cualquier
resultado
(Y)
que
esté
relacionado
con
la
intervención.
Una
vez
que
se
cuente
con
los
datos
de
los
dos
componentes
esenciales
de
la
fórmula,
el
resultado
(Y)
tanto
con
la
intervención
como
sin
ella,
se
puede
responder
a
cualquier
pregunta
acerca
del
impacto
del
programa.
Contrafactual
“El
contrafactual
es
una
estimación
de
cuál
habría
sido
el
resultado
(Y)
en
las
variables
de
interés
para
un
participante
en
el
programa,
si
este
no
hubiera
tomado
el
programa
(D)”
(Gertler,
Martínez,
Premand,
Rawlings
y
Vermeersch,
2011).
El
impacto
(α)
de
una
intervención
es
la
diferencia
entre
los
resultados
(Y)
del
mismo
individuo
cuando
ha
participado
y
cuando
no
ha
participado
en
la
intervención.
No
obstante,
no
es
posible
medir
al
mismo
individuo
en
situaciones
diferentes
en
el
mismo
momento,
debido
a
que
el
individuo
participa
o
no
en
la
intervención.
Esta
situación,
es
conocida
como
el
“problema
contrafactual”.
El
problema
del
contrafactual
se
puede
resumir
en
la
pregunta
siguiente
¿cómo
se
mide
los
datos
del
resultado
(Y)
si
el
individuo
que
participó
en
la
intervención
(D
=
1)
no
hubiese
participado
(D
=
0)
en
la
intervención?
El
contrafactual
se
representa
como
el
segundo
término
en
la
fórmula
básica
de
evaluación
(Y
|
D=
0).
Por
definición,
es
no
observable,
por
lo
que
se
debe
estimar.
La
estimación
del
contrafactual
requiere
métodos
para
identificar
los
grupos
de
control
o
comparación
3
válidos
que
reproduzcan
o
imiten
exactamente
el
grupo
de
tratamiento.
Si
no
se
cuenta
con
una
estimación
válida
o
creíble
del
contrafactual,
no
se
puede
conocer
el
impacto
de
una
intervención.
La
evaluación
de
impacto
identifica
a
un
grupo
de
participantes
en
la
intervención
(el
grupo
de
tratamiento)
y
a
un
grupo
de
no
participantes
(el
grupo
de
control
o
comparación)
estadísticamente
idénticos
en
ausencia
de
la
intervención.
Si
se
lograra
que
los
dos
grupos
fueran
absolutamente
iguales,
a
excepción
de
que
uno
de
ellos
participa
en
el
programa
y
el
otro
no,
cualquier
diferencia
en
los
resultados
debería
ser
explicada
por
la
intervención.
Aunque
en
realidad
nunca
existirán
dos
grupos
idénticos
en
todas
sus
características
posiblemente
relevantes,
la
investigación
cuantitativa
propone
distintos
tipos
de
diseños
con
el
fin
de
simular
la
situación
contrafactual
y
de
esta
manera,
determinar
el
“resultado
neto”
de
una
intervención.
2
Es
imposible
medir
el
resultado
de
un
indicador
de
interés
de
una
misma
persona
en
dos
momentos
diferentes,
ya
que,
no
se
sabe
cuál
sería
el
resultado
del
indicador
si
la
persona
no
participó
en
la
intervención.
3
Se
le
llama
grupo
de
control
cuando
el
diseño
es
experimental
y
grupo
de
comparación
cuando
el
diseño
es
no
experimental
10. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN
DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
10
SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Por
basarse
en
la
existencia
de
grupos
de
control
o
grupos
de
comparación
-‐
supuestamente
con
suficiente
parecido
al
grupo
de
intervención
-‐
los
diseños
más
poderosos
para
la
determinación
del
“resultado
neto”
son
los
llamados
diseños
experimentales
y
cuasi-‐experimentales.
II. Diseño experimental
El
diseño
experimental
también
es
conocido
con
los
nombres
de
“Diseño
de
controles
aleatorios
4
”/
“experimentos
aleatorios
(sociales)
5
”,
“experimento
social
controlado
6
”
y
“modelo
experimental”.
7
Una
evaluación
con
diseño
experimental
es
una
valoración
lo
más
objetiva
posible
de
los
resultados
de
una
intervención
que
se
caracteriza
principalmente
por
el
mecanismo
de
selección
al
azar
de
los
beneficiarios
y
no
beneficiarios,
así
como
un
absoluto
control
de
la
intervención
y
sus
respectivas
modificaciones.
En
este
tipo
de
diseños
la
intervención
y
sus
respectivas
modificaciones
son
planificadas
por
el
planificador
o
evaluador;
los
factores
externos
(crisis
económica,
alza
en
el
precio
internacional
del
petróleo,
desastres
naturales,
otros)
que
pueden
incidir
sobre
los
resultados
de
la
intervención
son
controlados
o
manipulados
por
el
evaluador.
Evidentemente,
esto
no
quiere
decir
que
los
factores
externos
son
eliminados
(lo
cual
sería
imposible
en
el
mundo
social)
sino
que
los
grupos
se
conforman
de
tal
manera
que
los
factores
externos
afecten
al
grupo
de
beneficiarios
como
al
grupo
de
no
beneficiarios
de
la
misma
manera.
La
ilustración
2,
muestra
las
dos
etapas
del
mecanismo
de
selección
de
las
personas
que
participaran
en
la
intervención
y
aquellas
que
no
participaran.
La
primera
etapa
consiste
en
obtener
una
muestra
al
azar
(aleatoria)
de
los
beneficiarios
potenciales.
Una
vez
obtenido
esa
muestra,
procede
la
segunda
etapa,
que
radica
en
asignar
al
azar
quienes
participaran
y
quienes
no
participaran
de
la
intervención.
Por
ejemplo,
supóngase
la
siguiente
situación
hipotética:
Para
una
población
de
1000
mujeres
pobres
jefas
de
hogar
en
cierta
provincia,
el
Gobierno
realiza
un
proyecto
de
transferencia
monetaria;
el
administrador
del
proyecto
asigna
un
número
del
uno
al
mil
a
cada
mujer,
y
posteriormente,
de
un
bolsa
que
contiene
papelitos
con
cifras
del
uno
al
mil
saca
al
azar
(como
especie
de
lotería)
una
muestra
de
500
papelitos,
los
cuales
corresponden
a
una
muestra
de
500
mujeres
que
son
potenciales
beneficiarias.
A
partir
de
esa
muestra,
el
administrador
asigna
al
azar
las
mujeres
que
participaran
y
que
no
participaran
de
la
intervención.
Nótese,
que
las
mujeres
no
eligen
si
participar
o
no,
es
el
administrador
es
quien
asigna
al
azar
la
participación.
La
importancia
de
asignar
al
azar
quien
participa
y
quien
no
en
una
intervención
es
hacer
grupos
comparables
entre
sí
que
no
se
distinguen
por
otro
factor
a
excepción
de
la
variabilidad
estadística.
Todas
las
personas
poseen
características
observables
y
características
no
observables
8
diferentes.
El
proceso
aleatorio
facilita
la
comparabilidad
de
los
grupos,
ya
que
asigna
una
probabilidad
igual
a
cada
uno
de
los
beneficiarios
potenciales,
con
lo
cual
se
asegura
de
distribuir
equivalentemente
(en
términos
estadísticos)
las
características
observables
y
no
observables
entre
ambos
grupos.
Al
grupo
de
individuos
no
participantes
se
les
llama
grupo
de
control
porque
son
el
parámetro
de
comparación
del
grupo
de
participantes,
a
estos
4
Gertler,
et
al
(2011).
5
Bernal
y
Peña
(2011).
6
Ídem.
7
Stockmann
(2009).
8
Las
características
o
variables
no
observables
son
aquellas
que
existen
y
que
se
registran,
las
características
o
variables
no
observables
son
aquellas
que
no
existen
o
no
se
cuenta
con
un
registro
de
las
mismas
(Bernal
y
Peña,
2011:18).
11. Ministerio de Planificación Nacional y Política Económica
11
últimos
se
les
conoce
como
grupo
de
tratamiento
o
intervención,
porque
son
quienes
reciben
el
tratamiento
o
la
intervención,
tal
y
como
aparece
en
la
ilustración
2.
Ilustración
2.
Diseño
experimental
La
primera
etapa
del
diseño
experimental
es
una
condición
necesaria
para
posibilitar
la
validez
externa
de
la
evaluación,
es
decir
que
aporta
información
acerca
de
la
posibilidad
de
extrapolar
el
resultado
de
la
muestra
a
la
población
de
interés.
Sin
embargo,
existen
otros
desafíos
para
la
validez
externa
que
están
relacionados
con
el
carácter
“artificial”
del
experimento
(véase
el
siguiente
apartado
sobre
experimentos
de
laboratorio
vs.
experimentos
de
campo).
La
segunda
etapa
garantiza
la
comparabilidad
del
grupo
de
intervención
con
el
grupo
de
control
maximizando
de
esta
manera
la
validez
interna,
esto
es,
el
grado
de
certeza
de
que
cualquier
diferencia
encontrada
entre
los
dos
se
debe
solo
al
hecho
de
participar
o
no
en
la
intervención
que
se
evalúa,
controlando
así
la
incidencia
de
otras
factores
externos
que
estén
asociadas
con
la
variable
de
resultado
o
interés
y
la
participación
en
la
intervención
pública.
Si
esto
se
cumple,
entonces
el
impacto
de
la
intervención
es
el
resultado
de
restar
los
promedios
de
las
variables
de
resultados
entre
ambos
grupos
(Bernal
y
Peña,
2011:
40,
l).
I.1
Tipos
de
experimentos
I.1.1
Plan
Experimental
Solomon
de
Cuatro
Grupos
Una
debilidad
del
diseño
sencillo
de
dos
grupos
(con
medición
antes
y
después
de
la
intervención)
es
la
dificultad
de
controlar
por
factores
reactivos
de
la
medición.
Si
bien
una
medición
antes
de
la
medición
es
importante
para
registrar
diferencias
entre
ambos
grupos
debido
a
errores
aleatorios,
esta
misma
medición
puede
influir
en
el
resultado.
Cuando
en
el
caso
de
un
curso
de
capacitación,
por
ejemplo,
se
realiza
un
examen
de
entrada
y
uno
ex-‐post,
el
grupo
de
control
ya
queda
familiarizado
con
los
requerimientos.
Aunque
ellos
no
participen
en
la
intervención,
es
posible
que
terminen
mejor
preparados
para
el
examen
ex-‐
pos
que
otras
personas
que
no
han
sido
parte
del
estudio.
Fuente: Elaboración propia con base a CEPAL (2005)
Muestra
Población
Control
Intervención
o
tratamiento
Resultado
Resultado
Presente Futuro
Selección al azar
La evaluación
compara ambos
resultados
1° Etapa 2° Etapa
Selección al azar
12. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN
DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
12
SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Al
contar
con
esta
amenaza
para
la
validez
del
estudio,
el
diseño
descrito
se
amplía
mediante
el
llamado
“Plan
Experimental
Solomon
de
Cuatro
Grupos”
(Ilustración
3)
con
dos
grupos
adicionales
(un
grupo
experimental
y
otro
de
control),
en
los
cuales
solamente
se
realiza
una
medición
posterior
(para
una
descripción
del
diseño,
véase
Bortz
y
Döring
2002:
539f.).
Por
este
medio
se
pretende
controlar
adicionalmente
el
efecto
reactivo
de
la
medición.
Ilustración
3.
Plan
Experimental
Solomon
de
Cuatro
Grupos
I.1.2
Experimentos
de
laboratorio
y
experimentos
de
campo
En
el
contexto
de
la
evaluación
se
hallan
dos
tipos
de
experimentos:
• Experimento
de
laboratorio.
Son
aquellos
experimentos
donde
la
intervención
se
lleva
a
cabo
en
un
entorno
“artificial”
controlado;
donde
se
controlan
o
manipulan
los
factores
externos
de
la
intervención;
el
ambiente
y
el
desarrollo
de
la
misma;
así
como
el
comportamiento
del
grupo
intervenido
y
el
grupo
de
control.
Bajo
condiciones
controladas,
la
influencia
y
presencia
de
factores
externos
a
la
intervención
es
mínima,
lo
que
permite
estudiar
las
relaciones
“puras”
de
causa
–
efecto.
Este
tipo
de
experimentos
maximiza
la
validez
interna
de
los
resultados,
sin
embargo,
en
el
contexto
de
la
evaluación
de
intervenciones
públicas,
muy
raras
veces
es
aplicable,
dado
que
las
intervenciones
tienen
lugar
en
un
entorno
social
natural
y
complejo.
Aunque
en
Fuente: Elaboración propia con base a CEPAL (2005)
Muestra
Población
Medición
ex ante
Medición
ex postSelección al azar
Grupo de
control I
(ex ante)
Grupo de
intervención
I (ex ante)
Grupo de
intervención
I (ex pos)
Grupo de
control I
(ex post)
Grupo de
intervención
II
Grupo de
control
II
13. Ministerio de Planificación Nacional y Política Económica
13
algunos
casos
fuera
posible
aislar
la
intervención
bajo
condiciones
de
“laboratorio”,
es
muy
posible
que
los
efectos
observados
en
condiciones
artificiales
no
se
dejaran
extrapolar
al
contexto
natural
de
la
intervención
(problema
de
la
validez
externa).
• Experimento
de
campo.
Son
aquellos
experimentos
donde
“la
intervención
se
realiza
en
un
entono
real”,
por
lo
tanto,
no
se
controlan
o
manipulan
los
efectos
externos
que
pueden
incidir
sobre
la
intervención
y
el
comportamiento
del
grupo
de
intervención
y
control.
Bajo
estas
circunstancias,
la
relación
causa
–efecto
se
estudia
en
el
contexto
real
de
la
intervención;
lo
cual
permite
maximizar
la
validez
externa.
Debido
a
que
este
tipo
de
experimento
se
estudia
en
el
ámbito
real,
es
que
su
uso
es
común
en
las
evaluaciones
de
intervenciones
públicas.
I.1.2
Aleatorización
individual
y
de
conglomerado
En
ocasiones,
la
participación
en
una
intervención
se
puede
realizar
al
azar
sea
a
nivel
individual
o
a
nivel
de
conglomerado;
esto
según
las
razones
éticas
o
prácticas
con
las
que
la
intervención
permita
hacer
la
asignación
aleatoria.
• “Aleatorización
a
nivel
individual.”
Se
lleva
a
cabo
asignando
de
manera
aleatoria
la
participación
en
la
intervención
a
nivel
individual
(por
ejemplo:
personas,
hogares,
empresas).
En
este
caso,
de
la
lista
de
elegibles,
se
asignan
al
azar
a
aquellas
personas,
hogares
u
empresas
que
participarán
en
la
intervención
como
también
a
aquellos
que
serán
parte
del
grupo
de
control.
• “Aleatorización
a
nivel
de
conglomerados.”
La
asignación
de
los
participantes
en
la
intervención
se
hace
a
nivel
de
conglomerados
(por
ejemplo:
comunidades,
distritos).
Generalmente,
esta
variante
del
diseño
se
aplica
cuando
la
intervención
permea
a
todo
un
subgrupo
de
la
población.
Este
tipo
de
aleatorización
se
realiza
principalmente
cuando
existen
a)
razones
éticas:
no
se
puede
negar
el
acceso
a
los
beneficios
de
la
intervención
a
cierto
número
de
personas
u
hogares
de
la
misma
comunidad,
por
ejemplo,
un
barrio
que
presenta
la
problemática
de
niños
y
niñas
desnutridas,
sise
realiza
una
intervención
para
mejorar
la
nutrición
de
este
subgrupo
de
la
población,
la
intervención
no
será
ética
si,
entrega
alimentos
solo
a
aquel
grupo
de
niños
y
niñas
que
fueron
asignadas
a
participar
en
la
intervención
y
a
su
vez
forman
el
grupo
de
intervención,
mientras
se
le
priva
de
alimentos
a
aquellos
niños
y
niñas
que
no
tuvieron
la
suerte
de
que
sus
nombres
saliera
dentro
del
grupo
de
intervención,
sino
que
les
corresponde
ser
parte
del
grupo
de
control;
b)
razones
prácticas:
en
ocasiones
las
restricciones
logísticas,
presupuestarias
y
de
la
capacidad
operativa
de
la
intervención
imposibilitan
que
los
beneficios
de
la
misma
afecten
al
mismo
momento
a
toda
la
población,
debido
a
que
la
intervención
se
realiza
primero
en
algunos
subgrupos
de
la
población
y
luego
se
lleva
a
cabo
a
los
restantes
subgrupos,
esto
significa
que
se
pospone
la
entrada
de
algunos
subgrupos
a
la
intervención,
y
así
se
garantiza
la
existencia
de
grupos
de
control;
c)
existe
una
interacción
entre
los
beneficiados
y
los
no
beneficiados
lo
cual
puede
llevar,
por
ejemplo,
a
la
posibilidad
de
que
los
beneficios
permeen
de
un
grupo
a
otro:
esto
implica
que
a
la
hora
de
evaluar
la
intervención
se
puede
concluir
erróneamente
sobre
los
efectos
(o
sea:
la
carencia
de
efectos)
de
la
intervención.
En
resumen,
la
deseabilidad
de
un
tipo
u
otro
de
aleatorización
depende
del
tipo
de
preguntas
de
interés
en
la
evaluación,
consideraciones
políticas
y
éticas,
restricciones
logísticas
y
existencia
de
externalidades,
entre
otras
(Bernal
y
Peña,
2011:).
I.2
¿Cuándo
se
aplica
diseño
experimental
en
una
evaluación?
14. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN
DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
14
SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
Para
la
aplicación
o
uso
de
este
diseño
se
debe
tener
en
cuenta
las
siguientes
características:
• La
evaluación
mediante
este
diseño
es
aplicable
únicamente
cuando
se
prevé
el
diseño
de
la
evaluación
en
el
momento
de
planificación
de
la
intervención.
• El
mecanismo
de
selección
de
los
beneficiarios
de
la
intervención
es
aleatoria
(grupo
de
intervención
aleatorio).
• El
mecanismo
de
selección
del
grupo
de
control
es
aleatoria.
• En
cuanto
a
la
disponibilidad
de
los
datos
para
un
buen
diseño
experimental,
se
requiere
que
los
datos
hayan
sido
capturados
antes
y
después
de
la
intervención
tanto
para
el
grupo
de
intervención
como
el
grupo
de
control,
así
como
la
cantidad
de
veces
que
sea
necesario
o
recomendable
entre
esos
dos
momentos.
• El
diseño
experimental
se
aplica
solamente
cuando
la
cobertura
de
la
intervención
es
parcial.
La
aleatoriedad
como
mecanismo
de
acceso,
raras
veces
(o
mejor
dicho:
prácticamente
nunca)
es
el
mecanismo
más
funcional
desde
el
punto
de
vista
de
la
teoría
de
cambio
subyacente.
Por
eso,
el
diseño
experimental
requiere,
en
cierta
medida,
que
la
intervención
se
diseñe
en
función
de
su
evaluabilidad
(y
no
vice-‐versa)
lo
cual
podría
ser
justificable
en
algunos
casos
de
proyectos
piloto
que
se
evalúan
a
pequeña
escala,
antes
de
que
la
intervención
se
introduzca
para
una
población
objetivo
más
amplia.
I.3
Modelos
de
estimación
del
diseño
experimental
Los
modelos
de
estimación
son
herramientas
estadísticas
y
econométricas
utilizadas
para
estimar
los
resultados
de
una
intervención
a
partir
de
relaciones
causales;
para
ello,
los
modelos
se
nutren
de
muchas
variables
representadas
numéricamente
y
varios
supuestos
sobre
las
mismas.
En
el
caso
de
las
evaluaciones,
la
variable
que
representa
el
resultado
de
la
intervención
en
el
modelo
de
estimación
se
le
conoce
como
variable
de
resultado.
I.3.1
Modelo
de
diferencias
sencillo
La
aleatorización
de
los
grupos
asegura
que
las
características
entre
el
grupo
de
intervención
y
el
grupo
de
control
sean
idénticas.
Esto
implica
dos
aspectos
importantes:
• Que
en
ausencia
de
la
intervención,
el
valor
de
la
variable
de
resultado
sea
idéntico
entre
ambos
grupos,
permitiendo
entonces
que
el
grupo
de
control
sea
un
buen
contrafactual;
• Que
después
de
la
intervención,
el
valor
de
la
variable
de
resultado
del
grupo
de
intervención
y
grupo
de
control
difiera
únicamente
por
motivos
de
la
exposición
a
la
intervención,
y
no
a
otras
características
o
variables
observables
o
no
observables
que
generan
el
sesgo
de
selección.
Dado
que
bajo
el
diseño
experimental
se
puede
contar
un
buen
contrafactual
y
el
sesgo
de
selección
es
controlado
o
resuelto,
la
estimación
del
resultado
de
la
intervención
es
relativamente
fácil
y
no
implica
uso
de
técnicas
econométricas
complejas
en
comparación
con
los
modelos
de
otros
diseños.
15. Ministerio de Planificación Nacional y Política Económica
15
El
resultado
de
la
intervención
bajo
el
modelo
de
diferencias
–en
forma
general-‐
se
estima
como
la
diferencia
9
de
medias
(promedios)
en
la
variable
de
resultado
entre
el
grupo
de
intervención
y
el
grupo
de
control.
La
diferencia
de
medias
se
puede
calcular
con
un
el
modelo
de
estimación
lineal
de
Mínimos
Cuadrado
Ordinarios
(MCO)
10
:
Yi
=
β0
+
β1Di
+
ui
(1)
Donde
Yi
representa
la
variable
de
resultado
para
el
individuo
i,
Di
representa
una
variable
binaria,
que
toma
el
valor
de
1
si
el
individuo
i
participa
en
la
intervención
y
0
si
el
individuo
i
es
elegible
pero
no
participa
en
la
intervención,
β1
representa
el
estimador
de
diferencias.
Es
el
efecto
de
la
intervención;
ui
es
el
término
error
de
la
regresión
que
recoge
las
variables
observadas
y
no
observadas
del
individuo
i,
aparte
de
Di,
que
afectan
el
resultado.
II.3.2
Variantes
del
modelo
de
diferencias
11
1. “El estimador de diferencias con regresores adicionales” o con variables explicativas
adicionales
Esta
variante
del
modelo
de
diferencias,
agrega
una(s)
variable(s)
explicativa(s)
adicional(es)
al
modelo
de
regresión
(1).
Las
variables
explicativas
son
aquellas
variables
que
explican
en
alguna
medida
la
variable
de
resultado.
Supóngase,
que
existe
un
programa
sobre
capacitación
en
el
idioma
inglés
para
mujeres
jefas
de
hogar
y
se
desea
evaluar
el
impacto
de
ese
programa.
Se
tiene
datos
tanto
para
las
mujeres
del
grupo
de
intervención
y
control
sobre
el
salario
(variable
de
resultado),
si
participó
o
no
en
la
intervención
(variable
que
indica
si
la
mujer
está
dentro
del
grupo
de
intervención
o
control)
y
además
el
nivel
de
escolaridad
(variable
explicativa
adicional).
La
ecuación
2
representa
tal
situación:
Yi
=
β0
+
β1Di
+
γ1X1
+
ui
(2)
Donde,
Yi
representa
la
variable
de
resultado
para
la
mujer
i
(salario),
Di
indica
si
la
mujer
jefa
de
hogar
participó
(D
i
=
1)
o
no
en
la
capacitación
(D
i
=
0),
X1
variable
explicativa
adicional
que
representa
el
nivel
de
escolaridad
de
la
mujer
jefa
de
hogar
i
que
está
presente
antes
de
la
intervención.
X1
no
es
afectada
por
la
intervención
pero
contribuye
determinar
la
variable
de
resultado,
β1
representa
el
estimador
de
diferencias
con
variables
explicativas
adicionales
(el
efecto
del
programa),
γ1,K
representa
el
estimador
de
la
contribución
del
nivel
de
escolaridad
(
variable
adicional)
al
salario
(variable
de
resultado)
además
del
programa.
9
La
diferencia
es
el
“resultado
de
la
operación
de
restar”,
según
el
DRAE.
10
Véase
Gujarati
(2004)
para
una
información
detallada
sobre
el
modelo
de
estimación
de
MCO
y
sus
respectivos
supuestos.
11
Para
un
mayor
detalle,
véase
Bernal
y
Peña
(2011).
16. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN
DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
16
SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
El
estimador
de
diferencias
con
regresores
adicionales
es
insesgado,
consistente
y
más
eficiente
que
el
estimador
de
diferencias
propuesto
en
la
ecuación
(1),
ya
que
al
agregar
más
variables
en
la
ecuación,
se
mejora
la
precisión
con
que
se
estiman
los
resultados
(Bernal
y
Peña,
2011:).
Para
llevar
a
cabo
estimaciones
bajo
esta
variante
se
requiere
que
la
base
de
datos
contenga
datos
sobre
las
variables
explicativas
adicionales
para
el
grupo
de
intervención
y
el
grupo
de
control.
2. “El estimador de diferencias con efectos heterogéneos”
Si
dentro
de
los
grupos
de
análisis
existen
subgrupos,
es
posible
que
los
efectos
de
la
intervención
difieran
entre
los
individuos
o
subgrupos,
por
lo
tanto,
los
resultados
de
la
intervención
puede
variar
para
cada
subgrupo,
según
el
valor
de
una
determinada
variable
explicativa.
Como
ejemplo,
supóngase
que
se
desea
saber
si
la
mejora
en
el
salario
como
resultado
de
una
intervención
es
más
eficiente
en
las
mujeres
y
los
hombres
(ambos
grupos
recibieron
la
misma
intervención).
En
este
caso,
X
es
la
variable
sexo,
y
toma
el
valor
1
si
es
mujer
o
0
si
es
hombre.
Para
captar
si
existen
diferencias
en
los
resultados,
la
ecuación
de
regresión
incluye
la
interacción
entre
la
variable
que
indica
la
participación
del
individuo
i
en
la
intervención
Di,
y
la
variable
explicativa
Xi:
Yi
=
β0
+
β1Di
+
β2Xi+
β3
DiXi+
ui
(3)
Donde,
Yi
es
la
variable
de
resultado
para
el
individuo
i
(salario),
Di
es
la
variable
que
indica
si
el
individuo
participó
o
no
en
la
intervención,
Xi
es
una
variable
explicativa
adicional
(sexo),
DiXi
es
la
interacción
entre
la
variable
que
indica
la
participación
en
la
intervención
y
la
variable
explicativa
de
interés,
es
decir,
la
interacción
entre
la
intervención
y
el
sexo
de
la
persona.
β1
representa
el
estimador
de
diferencias,
β3
representa
el
efecto
diferencial
de
la
intervención
sobre
las
mujeres.
β3
>
0
mide
qué
tanto
mejor
es
la
intervención
sobre
las
mujeres
con
respecto
a
los
hombres.
Si
a
la
hora
de
estimar
la
ecuación,
el
estimador
de
la
interacción
β3
es
mayor
a
0
indica
que
los
salarios
de
las
mujeres
mejoraron
más
que
los
de
los
hombres.
I.4
Fortalezas
y
debilidades
de
los
diseños
experimentales
I.4.1
Fortalezas
• Es
fácil
entender
la
lógica
de
un
diseño
experimental
(asigna
al
azar
los
participantes
de
una
intervención).
• Las
técnicas
para
el
cálculo
del
impacto
son
sencillas,
por
lo
tanto,
los
resultados
son
transparentes
para
políticos,
diseñadores
de
intervenciones
y
población
general
(Bernal
y
Peña,
2011:).
• Es
el
diseño
que
permite
el
uso
de
modelos
de
estimaciones
que
arrojan
estimaciones
más
precisas
o
confiables.
17. Ministerio de Planificación Nacional y Política Económica
17
• Los
resultados
de
la
evaluación
no
son
fácilmente
manipulables,
es
decir,
no
se
requiere
del
uso
de
otras
técnicas
estadísticas
–fuera
del
modelo
de
diferencias-‐
para
estimar
los
resultados.
Con
eso
se
diferencia
de
otras
técnicas
estadísticas,
que
se
basan
en
conceptos
más
complejos
donde
las
variables
pueden
modelarse
en
cierta
medida
a
conveniencia.
• La
asignación
al
azar
minimiza
los
sesgos
sistemáticos
de
selección
entre
el
grupo
de
tratamiento
y
control.
Si
bien
sigue
expuesto
a
un
error
por
variabilidad
aleatorio,
este
puede
ser
estimado
mediante
cálculos
estadísticos
(a
diferencia
de
los
sesgos
sistemáticos
que
pueden
pasar
desapercibidos).
• Los
diseños
de
experimentos
de
campo
maximizan
la
validez
externa
de
los
resultados
de
una
evaluación,
y
los
experimentos
de
laboratorio
maximizan
la
validez
interna.
• Si
la
muestra
es
lo
suficientemente
grande
se
asegura
la
validez
interna
de
la
evaluación
de
impacto
(cualquier
diferencia
entre
el
grupo
de
tratamiento
y
control
después
de
la
intervención
puede
ser
atribuida
a
la
intervención).
Esto
ocurre
porque
se
minimiza
o
controla
la
influencia
de
factores
externos.
I.4.2
Limitaciones
del
diseño
experimental
Aunque
es
indiscutible
que
-‐
en
teoría
-‐
el
diseño
experimental
es
el
diseño
más
poderoso
para
determinar
el
“resultado
neto”
de
una
intervención,
desgraciadamente
existen
restricciones
o
limitaciones
que
suelen
dificultar
y
muchas
veces
incluso
imposibilitar,
la
aplicación
de
este
diseño
en
la
evaluación:
• Mecanismo
de
selección
de
la
intervención
incongruente
con
los
requerimientos
de
un
diseño
experimental:
La
gran
mayoría
de
las
intervenciones
se
caracterizan
por
mecanismos
de
selección
distintas
a
la
aleatorización.
Mecanismos
frecuentes
son,
por
ejemplo,
la
auto-‐selección
(solo
participa
quién
quiere
participar,
por
ejemplo
en
una
oferta
de
capacitación
de
participación
voluntaria),
o
reglas
definidas
de
acceso
(por
ejemplo,
acceso
por
altas
calificaciones
en
un
programa
de
beca,
acceso
por
bajo
nivel
de
ingreso
a
una
prestación
monetaria).
En
estos
casos,
un
diseño
experimental
“puro”
ya
no
es
aplicable.
• Otros
problemas
en
la
aleatorización.
Si
no
se
puede
asegurar
una
exitosa
aleatorización,
la
inferencia
estadística
que
se
realice
sobre
los
resultados
de
la
evaluación
no
es
válida
para
la
población
de
estudio
(Bernal
y
Peña,
2011,
),
debido
a
que
los
resultados
reflejan
tanto
el
impacto
de
la
intervención
como
el
efecto
en
la
falla
en
la
aleatorización.
Entre
algunos
ejemplos
de
fallas
en
la
aleatorización
están:
a)
Cambios
en
el
comportamiento
de
los
grupos
observados,
por
ejemplo,
si
el
grupo
de
intervención
sabe
que
participa
de
un
experimento
y
está
siendo
observado
por
el
evaluador,
puede
cambiar
su
comportamiento
(efecto
experimental
o
Hawthorne),
lo
mismo
puede
suceder
en
el
grupo
de
control
(Efecto
John
Henry);
b)
Tamaño
de
la
muestra
pequeña,
una
muestra
pequeña
(puede
deberse
al
alto
costo
de
un
diseño
experimental
social)
afecta
la
precisión
de
los
resultados
y
no
garantiza
el
supuesto
de
independencia
condicional
12
;
c)
El
no
cumplimiento
del
protocolo
de
tratamiento,
y
la
pérdida
de
muestra,
i)
introducen
correlación
entre
el
tratamiento
y
el
término
error
,
ii)
el
tratamiento
o
la
intervención
no
es
asignado
de
manera
completamente
aleatoria,
sino
que
se
basa
en
características
o
preferencias
de
los
individuos,
lo
que
puede
implicar,
que
las
personas
asignadas
al
grupo
de
intervención
decidan
no
participar
o
12
El
supuesto
de
independencia
condicional
implica
que
la
variable
de
resultado
en
ausencia
de
la
intervención
debería
ser
idéntica
para
el
grupo
de
intervención
como
para
el
grupo
de
control.
18. MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN
DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
18
SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA
bien
personas
del
grupo
de
control
participen
en
la
intervención,
lo
que
genera
sesgos
de
selección,
y
por
lo
tanto,
las
técnicas
descritas
para
este
diseño
no
son
aptas
para
para
estimar
los
resultados
de
la
intervención
(Ídem)..
• Discusiones
de
tipo
ético/político.
Restringir
la
participación
de
personas
que
cumplen
con
todas
las
condiciones
de
acceso
a
una
intervención
e
igualmente
vulnerable
que
el
grupo
intervenido,
genera
discusiones
de
tipo
moral,
especialmente,
si
el
motivo
es
para
contar
con
un
grupo
de
control.
Es
decir,
la
investigación
“abusa”
de
un
grupo
vulnerable
para
generar
un
insumo
al
estudio,
privándolo
a
la
vez
del
beneficio
que
podría
ofrecer
la
intervención.
Dependiendo
del
tipo
de
bien
o
servicio
que
se
ofrece,
impedir
el
acceso
a
los
beneficios
del
programa
podría
hasta
poner
en
peligro
la
salud
de
esas
personas
o
incluso
su
vida.
• Incumplimiento
(non-‐compliance
en
inglés).
Durante
el
experimento,
los
individuos
en
los
grupos
de
intervención
o
control
podrían
cambiar
determinadas
características
que
los
identifican,
por
ejemplo,
algunos
agentes
que
fueron
seleccionados
para
el
grupo
de
intervención,
pueden
terminar
no
recibiéndola
o
ellos
mismos
podrían
no
estar
interesados
en
la
intervención;
de
manera
alternativa,
los
agentes
que
fueron
designados
al
grupo
de
control
terminan
participando
en
la
intervención.
Este
problema
invalidaría
o
contaminaría
la
medición
del
impacto
de
la
evaluación,
pues
un
agente
se
analiza
dentro
del
grupo
de
intervención
cuando
en
la
realidad
no
recibió
ningún
beneficio
o
bien,
un
agente
del
grupo
de
control
si
recibió
los
beneficios
de
la
intervención.
• Dificultad
de
controlar
por
efecto
placebo.
“El
efecto
placebo
es
la
relación
positiva
entre
la
respuesta
de
la
unidad
al
tratamiento
y
las
expectativas
de
la
unidad
acerca
de
estar
expuesta
al
tratamiento”
(Rossi,
2011).
Un
ejemplo
sencillo
de
cuando
se
controla
por
el
placebo,
es
cuando
un
medicamento
se
le
otorga
a
un
paciente
que
pertenece
al
grupo
tratado
y
se
le
otorga
un
placebo
(medicamento
que
no
tiene
efecto
sobre
la
salud)
a
un
paciente
del
grupo
de
control.
Ambos
pacientes
tienen
expectativas
positivas
sobre
su
recuperación,
pero
no
saben
a
cuál
de
ellos
se
le
dio
el
medicamento
y
a
cual
el
placebo.
En
ciencias
sociales
es
difícil
controlar
por
efecto
placebo,
ya
que,
las
personas
tienen
el
conocimiento
de
que
están
siendo
o
no
tratadas.
• Desgaste
de
la
muestra
(attrition
en
inglés).
Algunas
unidades
desaparecen
de
la
muestra
en
algún
punto
del
tiempo
entre
la
encuesta
de
línea
de
base
y
la
encuesta
final.
Esto
tiene
implicaciones
en
la
estimación
del
resultado,
pues
ya
no
existe
el
valor
de
una
o
las
variables
de
cierto
(s)
individuo(s).
El
desgaste
de
la
muestra
no
tiene
mayores
implicaciones
cuando
a)
una
cantidad
suficiente
de
personas
permanece
en
el
estudio
para
que
se
puedan
generar
resultados
estadísticamente
significativos,
y
b)
el
desgaste
no
es
causado
por
un
factor
sistemático
que
interactúa
con
la
variable
de
impacto.
Por
ejemplo,
en
un
programa
de
capacitación
se
podría
observar
que
solamente
los
más
motivados
y
ágiles
concluyan
el
programa
–
es
decir
aquellos
que
de
todas
maneras
hubieran
alcanzado
mejores
resultados
que
el
promedio
de
la
población
de
interés.
Desgraciadamente,
este
sesgo
no
es
la
excepción
sino
la
regla.
• Externalidades
o
efecto
derrame
(spillovers
en
inglés)
y
“efectos
de
equilibrio
general”.
Las
externalidades
son
los
efectos
externos
previstos
o
no
por
la
intervención,
esto
implica
que
algunos
individuos
que
no
reciben
la
intervención
pueden
beneficiarse
del
hecho
que
otros
individuos
estén
siendo
intervenidas.
Lo
que
puede
verse
como
un
efecto
secundario
sumamente
positivo
desde
el
punto
de
vista
de
los
gestores
de
la
intervención,
le
crea
dificultades
metodológicas
al
evaluador
dado
que
su
supuesto
grupo
de
control
queda
“contaminado”.
(Bernal
y
Peña,
2011,).
19. Ministerio de Planificación Nacional y Política Económica
19
I.4.3
Posible
abordaje
de
las
limitaciones
Para
asegurar
la
aleatorización
de
la
muestra
se
puede
permitir
el
ingreso
de
agentes
del
grupo
de
control
a
la
intervención
en
una
etapa
posterior,
una
vez
que
se
ha
diseñado
y
se
ha
iniciado
la
evaluación.
Con
esta
técnica,
la
selección
aleatoria
determina
cuándo
el
beneficiario
calificado
recibe
la
intervención
y
no
si
lo
recibe.
Esto
permite
abordar
preguntas
con
respecto
al
tiempo
necesario
para
que
la
intervención
sea
eficaz
para
lograr
su
propósito.
El
método
de
Variables
Instrumentales
puede
utilizarse
para
solucionar
el
problema
de
non
compliance.
En
el
caso
del
problema
de
attrition,
se
recomienda
chequear
el
balance
de
las
características
en
el
grupo
afectado
por
la
desaparición
de
las
unidades
muestrales.
Para
disminuir
el
problema
asociado
al
efecto
derrame,
es
aconsejable
realizar
la
aleatorización
a
nivel
de
grupo
y
no
en
forma
individual,
por
ejemplo:
un
programa
de
educación
donde
se
otorga
libros
de
enseñanza
básica
por
cantones,
así
el
cantón
de
control
puede
estar
alejado
del
cantón
de
intervención,
atenuando
el
efecto
derrame.
II. Diseños cuasi-experimentales
Una
evaluación
con
diseño
cuasi
experimental
es
una
valoración
de
los
resultados
de
una
intervención
que
se
diferencia
del
experimento
“puro”
en
que
el
mecanismo
de
selección
de
los
beneficiarios
y
no
beneficiarios
no
es
al
azar.
Sin
embargo,
las
condiciones
de
la
intervención
tienen
algún
grado
de
control.
Siempre
que
se
logra
optimizar
dicho
control,
los
diseños
cuasi-‐experimentales
pueden
-‐
según
Bernal
y
Peña
(2011),
adquirir
un
alto
grado
de
validez
interna
“como
si
fuera”
un
diseño
experimental
(aleatorio).
Comúnmente,
las
condiciones
de
la
intervención
evaluada
mediante
el
diseño
cuasi-‐experimental
se
desarrollan
en
un
contexto
real
o
natural,
es
decir,
suele
aplicarse
cuando
los
planificadores
o
evaluadores
de
la
intervención
no
controlan
la
totalidad
de
los
factores
externos
que
pueden
incidir
en
el
mecanismo
de
selección
de
los
intervenidos.
Sin
embargo,
existe
la
posibilidad
de
identificar
variables
relacionadas
con
el
acceso
a
la
intervención
que
permiten
formar
grupos
de
comparación
y
ejercer
algún
grado
de
control
sobre
los
factores
externos.
En
algunos
(pocos)
casos
el
objeto
evaluado
está
relacionado
con
un
evento
fortuito
que
asignó
al
azar
al
grupo
de
tratamiento.
En
este
caso,
la
evaluación
de
resultados
utilizaría
el
mismo
instrumental
metodológico
del
diseño
experimental
13
o
el
modelo
de
diferencias-‐en-‐diferencias
(véase
apartado
II.3),
siempre
y
cuando
se
disponga
de
una
base
de
datos
longitudinales:
Por
ejemplo,
Card
(1990)
14
citado
en
Bernal
y
Peña
(2011)
realizó
un
estudio
que
consistió
en
determinar
si
el
incremento
en
el
flujo
inmigratorio
(cubano)
disminuyó
los
salarios
de
las
zonas
receptoras
15
(Miami).
El
evento
fortuito
que
genera
una
asignación
al
tratamiento
(inmigración)
que
“podría
parecer
aleatoria”
para
conocer
el
impacto
de
la
inmigración
sobre
los
salarios
es
el
cambio
inesperado
en
la
ley
migratoria,
la
cual
eliminó
las
restricciones
inmigratorias
de
Cuba,
con
lo
cual,
125
000
cubanos
llegaran
a
Estados
Unidos
entre
mayo
y
septiembre
de
1980,
de
los
cuales,
aproximadamente
el
50%
se
quedaron
en
Miami;
lo
que
a
su
vez
provocó
que
la
oferta
laboral
aumentará
alrededor
del
7%
en
este
Estado.
13
El
diseño
experimental
utiliza
el
modelo
de
diferencias.
Para
más
detalle,
véase
página
ZZZ
Cuál
página???
14
Para
un
mayor
conocimiento
sobre
este
estudio
se
puede
referir
a
Card,
D.
(1990).
The
impact
of
the
Mariel
Boat
Lift
on
the
Miami
Labor
Market.
Industrial
and
Labor
Relations
Reviews,
43
(2),
245-‐257.
15
Según
la
teoría
económica,
un
aumento
en
la
oferta
laboral
debido
al
flujo
de
inmigrantes
provocaría
un
descenso
en
los
salarios
de
la
localidad
receptora
de
inmigrantes.