ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica
1

CAPITULO 5:
ENFOQUES Y DISEÑOS
METODOLOGICOS PARA LA
EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN
DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO
2
SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA

Apartado 5.1:
Enfoques metodológicos
Material 5.1.1: Validez y confiabilidad

Basado
en:
Martínez
M.,
Miguel
(2006):
Validez
y
confiabilidad
en
la
investigación
cualitativa.
PARADIGMA

No.
27,
pp.
7-‐33.
Con
contenidos
adicionales
y
modificados
por
parte
de
la
AES.

Validez y confiabilidad en las investigaciones evaluativas

La
dificultad
relacionada
con
la
validez
y
confiabilidad
de
los
resultados
en
las
investigaciones
evaluativas

que
utilizan
métodos
y
técnicas
de
orientación
cuantitativa
y/o
cualitativa
será
tratada
en
este
apartado

debido
a
la
importancia
que
tiene
en
la
evaluación.

La validez y confiabilidad en la investigación cuantitativa

En
la
investigación
cuantitativa
que
tiene
su
origen
en
el
positivismo
tradicional,
se
distinguen
diferentes

tipos
de
validez:
validez
de
construcción,
validez
interna,
validez
externa.
Todas
tratan
de
verificar
si
en

realidad
medimos
lo
que
nos
proponemos
medir.
Igualmente,
se
busca
determinar
un
buen
nivel
de

confiabilidad,
es
decir,
la
posibilidad
de
repetir
la
misma
investigación
con
idénticos
resultados.

La
validez
de
construcciones
hipotéticas
(de
‘constructos’),
que
es
la
más
importante,
trata
de
establecer

una
medida
operacional
para
los
conceptos
usados.
Por
ejemplo,
un
instrumento
para
medir
la
inteligencia

debe
medir
la
inteligencia,
y
no
la
memoria,
lo
cual
requiere
a)
un
entendimiento
consensuado
y
explícito

acerca
de
lo
que
se
entiende
por
inteligencia
(a
diferencia
de
la
memoria)
y
b)
un
instrumento
que
logre

medir
un
conjunto
de
variables
que
efectivamente
reflejen
dicho
concepto.
Al
tratar
solamente
con

variables
que
representan
hechos
directamente
observables,
sería
sencillo
lograr
la
validez,
sinembargo,
la

“validez
de
constructos”
llega
a
ser
un
desafío
cuando
hablamos
precisamente
de
conceptos
complejos
y
no

directamente
medibles,
como
podría
ser
el
caso
de
variables
como
la
motivación,
calidad
de
servicio
al

cliente,
y
más
aún
en
cuanto
a
variables
que,
por
ejemplo,
estén
relacionado
con
actitudes,
sentimientos

etc.

La
validez
interna
está
relacionada
específicamente
con
el
establecimiento
o
búsqueda
de
una
relación

causal
o
explicativa;
es
decir,
si
el
evento
X
lleva
al
evento
Y;
excluyendo
la
posibilidad
de
que
sea
causado

por
el
evento
Z.
La
validez
interna
es
maximizada
mediante
diseños
experimentales
o
cuasi-‐experimentales
y

analiza
internamente
el
estudio
cuestionando
si
las
relaciones
causales
encontradas
son
válidas
en
el

contexto
del
estudio,
lo
cual
no
necesariamente
significaría
que
deben
ser
válidas
para
otras
unidades
que

no
son
las
investigadas.

La
validez
externa,
por
el
otro
lado
trata
de
verificar
si
los
resultados
de
un
determinado
estudio
son

generalizables
más
allá
de
los
linderos
del
mismo.
La
validez
externa
responde
a
la
pregunta:
Lo
que

encontré
en
el
estudio
¿a
qué
otras
personas,
grupos,
contextos
o
situaciones
se
aplica?.
Algunos
autores
se

refieren
a
este
tipo
de
validez
con
el
nombre
de
validez
de
contenido,
pues
la
definen
como
la

representatividad
o
adecuación
muestral
del
contenido
que
se
mide
con
el
contenido
del
universo
del
cual

es
extraída
(Kerlinger,
1981a,
p.
322).

3

Es
importante
mencionar
que
la
validez
interna
y
externa
suelen
enconctarse
en
cierto
conflicto.
La
validez

interna
es
maximizada
cuando
se
logra
eliminar
todas
las
variables
confusoras
y
crear
un
ambiente
en
que

solamente
estén
presentes
las
variables
de
interés
que
representan
la
relación
causal.
Esto
suele
ser
el
caso

en
los
llamados
experimentos
de
laboratorio.
La
validez
externa,
por
el
otro
lado,
requiere
que
las
variables

de
interés
se
midan
en
su
contexto
natural
para
que
se
pueda
inferir
el
resultado
del
estudio
más
allá
de
los

límites
del
mismo.
Para
medir,
por
ejemplo,
el
efecto
de
un
programa
televisivo
didáctico
sobre
una

determinada
área
de
aprendizaje,
uno
podría
fácilmente
crear
una
situación
de
laboratorio
donde
los

jóvenes
se
expongan
al
programa
en
un
ambiente
perfectamente
controlado
y
con
mínimas
influencias

externas
(maximizando
la
validez
interna).
Pero
aunque
se
logre
medir
un
efecto
de
aprendizaje
positivo,

¿este
mismo
efecto
se
daría
en
los
jóvenes
que
lo
miren
en
su
casa,
tomando
en
cuenta
todos
los
factores

que
puedan
disminuir
la
atención
y
el
por
ende,
la
asimilación
de
la
información?
(problema
de
la
validez

externa).

Finalmente,
la
confiabilidad
tiene
por
objeto
asegurarse
que
un
investigador,
siguiendo
los
mismos

procedimientos
descritos
por
otro
investigador
anterior
y
conduciendo
el
mismo
estudio,
puede
llegar
a
los

mismos
resultados
y
conclusiones.
Nótese
que
se
trata
de
rehacer
el
mismo
estudio,
no
una
réplica
del

mismo.

En
la
investigación
cuantitativa,
la
validez
(interna
y
externa)
se
asocia
a
las
respectivas
estrategias
de

investigación
(experimentales,
o
no
experimentales;
de
campo
o
de
laboratorio)
que

son
tratadas
en
el
capítulo
5
del
Manual
Gerencial
para
el
diseño
y
ejecución
de
Evaluaciones
Estratégicas
de

Gobierno.
La
confiabilidad
es
alcanzada
sobre
todo
a
través
de
un
máximo
escrutinio
en
la
construcción
y

validación
de
los
instrumentos
para
la
recolección
(capítulo
6
del
mismo
manual)
así
como
de
la
uniformidad

de
la
forma
de
aplicación.

La validez y confiabilidad en la investigación cualitativa

1. La Validez

En
sentido
amplio
y
general,
una
investigación
cualitativa
tendrá
un
alto
nivel
de
“validez”
en
la
medida
en

que
sus
resultados
“reflejen”
una
imagen
lo
más
completa
posible,
clara
y
representativa
de
la
realidad
o

situación
estudiada.

Pero
no
se
tiene
un
solo
tipo
de
conocimiento.
El
positivismo
tradicional
ha
mostrado
ser
eficaz
en
las

ciencias
naturales
donde
produce
un
conocimiento
adecuado
para
tratar
con
el
mundo
físico.
Sin
embargo,

en
las
ciencias
sociales,
el
estudio
de
variables
aisladas,
desligadas
de
realidad
compleja
desde
la
cual
se

tienen
que
comprender,
ha
resultado
demasiado
reduccionista.
La
respuesta
la
dan
distintas
ramas
de
las

ciencias
histórico-‐hermenéuticas
(ciencias
interpretativas)
que
llevan
a
una
priorización
de
una
metodología

cualitativa
y
un
análisis
interpretativo
(en
lugar
de
estadístico).
Por
esta
vía,
producen
el
conocimiento

interactivo
que
subyace
en

las
relaciones
sociales.

En
las
ciencias
hermenéuticas,
el
desafío
de
la
validez
se
enfrenta
de
una
manera
distinta
positivismo

tradicional
y
la
investigación
cuantitativa.
La
validez
se
aprecia
de
acuerdo
al
nivel
de
su
habilidad
para

producir
relaciones
humanas
con
alto
sentido
de
empatía
y
vinculación.
Una
investigación
tiene
un
alto
nivel

de
validez
si
al
observar
o
apreciar
una
realidad,
se
observa
o
aprecia
esa
realidad
en
sentido
pleno,
y
no

sólo
un
aspecto
o
parte
de
la
misma.

Si
la
confiabilidad
ha
representado
siempre
un
requisito
difícil
para
las
investigaciones
cualitativas,
debido
a

la
naturaleza
peculiar
de
éstas
(imposibilidad
de
repetir,
stricto
sensu,
el
mismo
estudio),
no
ha
ocurrido
lo

4

mismo
en
relación
con
la
validez.
Al
contrario,
la
validez
es
la
fuerza
mayor
de
estas
investigaciones.
En

efecto,
la
aseveración
de
los
investigadores
cualitativos
de
que
sus
estudios
poseen
un
alto
nivel
de
validez,

deriva
de
su
modo
de
recoger
la
información
y
de
las
técnicas
de
análisis
que
usan.
Esos
procedimientos
los

inducen
a
relacionarse
intensamente
con
los
sujetos
participantes
en
el
estudio,
a
recoger
los
datos
durante

largos
períodos
de
tiempo,
revisarlos,
compararlos
y
analizarlos
de
manera
continua,
al
adecuar
las

entrevistas
a
las
categorías
empíricas
de
los
participantes
y
no
a
conceptos
abstractos
o
extraños
traídos
de

otro
medio,
a
utilizar
la
observación
participativa
en
los
medios
y
contextos
reales
donde
se
dan
los
hechos

y,
finalmente,
a
incorporar
en
el
proceso
de
análisis
una
continua
actividad
de
realimentación
y
re

evaluación.
Aunque
todo
esto
garantiza
un
alto
nivel
de
validez,
también
la
validez
es
perfectible,
y
será

tanto
mayor
en
la
medida
en
que
se
tengan
en
cuenta
algunos
problemas
y
dificultades
que
se
pueden

presentar
en
la
investigación
cualitativa.

Entre
otros,
para
una
buena
validez
interna,
habrá
que
prestar
especial
atención
a
los
siguientes:

a)
Puede
haber
un
cambio
notable
en
el
ambiente
estudiado
entre
el
principio
y
el
fin
de
la
investigación.
En

este
caso,
habrá
que
recoger
y
cotejar
la
información
en
diferentes
momentos
del
proceso.

b)
Es
necesario
calibrar
bien
hasta
qué
punto
la
realidad
observada
es
una
función
de
la
posición,
el
estatus
y

el
rol
que
el
investigador
ha
asumido
dentro
del
grupo.
Las
situaciones
interactivas
siempre
crean
nuevas

realidades
o
modifican
las
existentes.

c)
La
credibilidad
de
la
información
puede
variar
mucho:
los
informantes
pueden
mentir,
omitir
datos

relevantes
o
tener
una
visión
distorsionada
de
las
cosas.
Será
necesario
contrastarla
con
la
de
otros,

recogerla
en
tiempos
diferentes,
etc.;
conviene,
asimismo,
que
la
muestra
de
informantes
represente
en
la

mejor
forma
posible
los
grupos,
orientaciones
o
posiciones
de
la
población
estudiada,
como
estrategia
para

corregir
distorsiones
perceptivas
y
prejuicios,
aunque
siempre
seguirá
siendo
cierto
que
la
verdad
no
es

producida
por
el
ejercicio
azarístico
y
democrático
en
la
recolección
de
la
información
general,
sino
por
la

información
de
las
personas
más
capacitadas
y
fidedignas.

En
cuanto
a
la
validez
externa,
es
necesario
recordar
que
a
menudo
las
estructuras
de
significado

descubiertas
en
un
grupo
no
son
comparables
con
las
de
otro,
porque
son
específicas
y
propias
de
ese

grupo,
en
esa
situación
y
en
esas
circunstancias,
o
porque
el
segundo
grupo
ha
sido

escogido
en
diferentes

circunstancias
o
a
partir
de
criterios
distintos
y
no
le
son
aplicables
las
conclusiones
obtenidas
en
el
primero.

Por
ende,
las
ciencias
hermenéuticas
suelen
concentrarse
en
la
plena
comprensión
del
caso
(o
los
casos)

estudiado(s),
y
no
asegurar
una
validez
externa.

2. La Confiabilidad

Una
investigación
con
buena
confiabilidad
es
aquella
que
es
estable,
segura,
congruente,
igual
a
sí
misma
en

diferentes
tiempos
y
previsible
para
el
futuro.
También
la
confiabilidad
tiene
dos
caras,
una
interna
y
otra

externa:
hay
confiabilidad
interna
cuando
varios
observadores,
al
estudiar
la
misma
realidad,
concuerdan
en

sus
conclusiones;
hay
confiabilidad
externa
cuando
investigadores
independientes,
al
estudiar
una
realidad

en
tiempos
o
situaciones
diferentes,
llegan
a
los
mismos
resultados.

El
concepto
tradicional
de
“confiabilidad”
externa
implica
que
un
estudio
se
puede
repetir
con
el
mismo

método
sin
alterar
los
resultados,
es
decir,
es
una
medida
de
la
replicabilidad
de
los
resultados
de
la

investigación.
En
las
ciencias
humanas,
dicha
confiabilidad
de
ninguna
manera
se
puede
considerar
como
un

simple
dicotomía
(“un
estudio
es
o
no
es
confiable”)
sino
como
una
característica
gradual
(de
menor
a

5

mayor)
dado
que
es
prácticamente
imposible
reproducir
las
condiciones
exactas
en
que
“un

comportamiento”
y
su
estudio
tuvieron
lugar.

En
los
estudios
realizados
por
medio
de
investigaciones
cualitativas,
que,
en
general,
están
guiados
por
una

orientación
sistémica,
hermenéutica,
fenomenológica,
etnográfica
y
humanista,
la
confiabilidad
está

orientada
hacia
el
nivel
de
concordancia
interpretativa
entre
diferentes
observadores,
evaluadores
o
jueces

del
mismo
fenómeno,
es
decir,
la
confiabilidad
será,
sobre
todo
interna,
inter-‐jueces.

Dada
la
naturaleza
particular
de
toda
investigación
cualitativa
y
la
complejidad
de
las
realidades
que
estudia,

no
es
posible
repetir
o
replicar
un
estudio
en
sentido
estricto,
como
se
puede
hacer
en
muchas

investigaciones
experimentales.
Debido
a
ello,
la
confiabilidad
de
estos
estudios
se
logra
usando
otros

procedimientos
rigurosos
y
sistemáticos.

La
confiabilidad
interna
es
muy
importante.
En
efecto,
el
nivel
de
consenso
entre
diferentes
observadores

de
la
misma
realidad
eleva
la
credibilidad
que
merecen
las
estructuras
significativas
descubiertas
en
un

determinado
ambiente,
así
como
la
seguridad
de
que
el
nivel
de
congruencia
de
los
fenómenos
en
estudio

es
fuerte
y
sólido.

Los
investigadores
cualitativos
suelen
utilizar
varias
estrategias
para
reducir
las
amenazas
que
se
le

presentan
a
la
confiabilidad
interna:

a)
Usar
categorías
descriptivas
de
bajo
nivel
de
inferencia,
es
decir,
lo
más
concretas
y
precisas
posible.
Los

datos
son
algo
ya
interpretado
(Hanson,
1977);
por
esto,
es
conveniente
que
estén
cercanos
a
la
realidad

observada:
quién
hizo
qué
cosa
y
en
qué
circunstancias.
Los
comentarios
interpretativos
pueden
añadirse,

eliminarse
o
modificarse
más
tarde.
Además,
la
mayoría
de
los
autores
coinciden
en
señalar
que
los

procedimientos
cualitativos
son
ricos
en
datos
primarios
y
frescos,
que
ofrecen
al
lector
múltiples
ejemplos

extraídos
de
las
notas
de
campo,
y
son,
por
esto,
generalmente
consideradas
como
más
creíbles.

b)
El
mejor
aval
para
la
confiabilidad
interna
de
un
estudio
cualitativo
es
la
presencia
de
varios

investigadores.
El
trabajo
en
equipo,
aunque
es
más
difícil
y
costoso,
garantiza
un
mejor
equilibrio
de
las

observaciones,
los
análisis
y
la
interpretación.

c)
Pedir
la
colaboración
de
los
sujetos
informantes
para
confirmar
la
“objetividad”
de
las
notas
o
apuntes
de

campo.
Asegurarse
de
que
lo
visto
o
registrado
por
el
investigador
coincide
o
es
consistente
con
lo
que
ven
o

dicen
los
sujetos
del
grupo
estudiado.

d)
Utilizar
todos
los
medios
técnicos
disponibles
en
la
actualidad
para
conservar
en
vivo
la
realidad

presenciada:
grabaciones
de
audio
y
de
vídeo,
fotografías,
diapositivas,
etc.
Este
material
permitirá
repetir

las
observaciones
de
realidades
que
son,
de
por
sí,
irrepetibles,
y
que
las
puedan
“presenciar”
otros

observadores
ausentes
en
el
momento
en
que
sucedieron
los
hechos.
Su
aporte
más
valioso
radica
en
que

nos
permiten
volver
a
los
“datos
brutos”
y
poder
categorizarlos
y
conceptualizarlos
de
nuevo.

Para
alcanzar
un
buen
nivel
de
confiabilidad
externa,
se
puede
recurrir,
entre
otras,
a
las
siguientes

estrategias:

a)
Precisar
el
nivel
de
participación
y
la
posición
asumida
por
el
investigador
en
el
grupo
estudiado;
cierta

información
puede
ser
diferente
de
acuerdo
con
el
sexo
de
quien
la
dé
(las
mujeres
pueden
ocultar
ciertos

datos
íntimos
si
el
investigador,
por
ejemplo,
es
de
sexo
masculino);
igual
sucede
si
el
investigador
ha
hecho

amigos
dentro
del
grupo;
éstos
le
darán
informaciones
que
no
les
dan
otros.

6

b)
Identificar
claramente
a
los
informantes.
Éstos
pueden
representar
grupos
definidos
y
dar
información

parcial
o
prejuiciada.
Los
miembros
que
simpatizan
y
colaboran
más
con
los
investigadores
pueden
ser,
por

esto
mismo,
miembros
atípicos.
Esta
situación
se
puede
advertir
al
hacer
una
buena
descripción
del
tipo
de

personas
que
han
servido
como
informantes.

c)
Un
tercer
elemento
que
puede
influir
en
los
datos
es
el
contexto
en
que
se
recogen.
Debido
a
ello,

conviene
especificar
el
contexto
físico,
social
e
interpersonal
de
que
se
derivan.
Esto
aumentará
la

replicabilidad
de
los
estudios.

d)
Para
que
sea
posible
una
“cierta
réplica”
es
imprescindible
la
identificación
de
los
supuestos
y

metateorías
que
subyacen
en
la
elección
de
la
terminología
y
los
métodos
de
análisis.
Los
conceptos
de

“cultura”,
“ciencia”,
“método”,
“análisis”,
“dato”,
“codificación”
y
muchos
otros
pueden
diferir

sustancialmente
entre
diferentes
investigadores.

e)
Precisar
los
métodos
de
recolección
de
la
información
y
de
su
análisis,
de
tal
manera
que
otros

investigadores
puedan
servirse
del
reporte
original
como
un
manual
de
operación
para
repetir
el
estudio.
La

replicabilidad
se
vuelve
imposible
sin
una
precisa
identificación
y
cuidadosa
descripción
de
las
estrategias
de

procedimiento.

3. La triangulación para mejorar la validez y la confiabilidad

En
sentido
amplio,
en
las
ciencias
humanas,
también
se
pueden
realizar
varias
“triangulaciones”
que

mejoran
notablemente
los
resultados
de
la
investigación
y
su
validez
y
la
confiabilidad.
De
una
manera

particular,
se
pueden
combinar,
en
diferentes
formas,
técnicas
y
procedimientos
cualitativos
y

cuantitativos.
La
idea
central
es
utilizar
todo
lo
que
se
considere
pertinente,
tenga
relación
y
se
considere

útil.

Más
concretamente,
se
pueden
identificar
varios
tipos
básicos
de
triangulación:

a)
Triangulación
de
métodos
y
técnicas:
que
consiste
en
el
uso
de
múltiples
métodos
o
técnicas
para

estudiar
un
problema
determinado
(por
ejemplo,
el
hacer
un
estudio
panorámico
primero,
con
una

encuesta,
y
después
utilizar
la
observación
participativa
o
una
técnica
de
entrevista).

b)
Triangulación
de
datos:
en
la
cual
se
utiliza
una
variedad
de
datos
para
realizar
el
estudio,
provenientes

de
diferentes
fuentes
de
información.

c)
Triangulación
de
investigadores:
en
la
cual
participan
diferentes
investigadores
o
evaluadores,
quizá
con

formación,
profesión
y
experiencia
también
diferentes.

d)
Triangulación
de
teorías:
que
consiste
en
emplear
varias
perspectivas
para
interpretar
y
darle
estructura

a
un
mismo
conjunto
de
datos
(por
ejemplo,
una
teoría
basada
en
las
técnicas
de
correlación,
análisis
de

varianza,
análisis
de
regresión,
análisis
factorial
o
cluster
analysis
y
otra
que
utilice
la
observación

participativa).

e)
Triangulación
interdisciplinaria:
con
la
cual
se
invocan
múltiples
disciplinas
a
intervenir
en
el
estudio
o

investigación
en
cuestión
(por
ejemplo,
la
biología,
la
psicología,
la
sociología,
la
historia,
la
antropología,

etc.).

7

Apartado 5.2:
Diseños metodológicos cuantitativos
Material 5.2.1: Diseños experimentales y cuasi-experimentales

I. Introducción: Sobre el enfoque cuantitativo

Para
la
evaluación
de
efectos
e
impactos,
se
utiliza
el
enfoque
cuantitativo
para
estimar
la
cuantía
del

resultado
de
la
intervención
mediante
el
estableciendo
de
relaciones
causales.

El
enfoque
cuantitativo
es
secuencial,
deductivo,
probatorio
y
analiza
una
realidad
supuestamente
objetiva.

Estas
características
se
fundamentan
en
un
proceso
de
investigación
estructurado,
donde
es
necesario

concluir
una
fase
para
continuar
con
la
siguiente.
La
ilustración
1
muestra
las
fases
del
proceso
cuantitativo:

Ilustración
1.
Enfoque
cuantitativo:
su
proceso

La
evaluación
estratégica
bajo
el
enfoque
cuantitativo
requiere
que
el
problema
de
evaluación
sea
lo
más

concreto
posible,
con
el
fin
de
elaborar
las
preguntas
sobre
cuestiones
específicas.

Cuando
la
intervención
no
tiene
teoría
de
intervención
o
no
está
bien
definida,
el
evaluador
debe
revisar
la

literatura
y
usar
su
experiencia
sobre
el
tema
para
re-‐elaborar
la
teoría
de
la
intervención.
En
este
enfoque,

el
alcance
de
la
evaluación,
la(s)
hipótesis
y
preguntas
de
evaluación
son
planteadas
antes
de
recolectar
los

datos.

Idea Planteamiento
Del
Problema
Revisión de la
Literatura y
Desarrollo del
Merco teórico
Visualización
del
Alcance
Del estudio
Elaboración
de hipótesis y
Definición
de variables
Desarrollo del
Diseño de
Investigación
Definición y
Selección de la
muestra
Recolección
de datos
Análisis de
los datos
Elaboración
del reporte de
resultados
Fase 1
Proceso cuantitativo
Fase 2 Fase 3 Fase 4 Fase 5
Fase FaseFaseFaseFase
Fuente: Hernández, S. y otros, 2010

8

La
recolección
de
datos,
se
fundamenta
en
la
medición
de
variables
o
conceptos
contenidos
en
las
hipótesis;

y
se
lleva
a
cabo
utilizando
procedimientos
estandarizados.
Los
datos
se
presentan
mediante
variables
que

serán
analizados
cuantitativamente
(tratándose
de
variables
métricas,
ordinales
o
nominales),
a
través
de

métodos
estadísticos.

Los
datos
recolectados
y
analizados

bajo
el
enfoque
cuantitativo
son
utilizados
para
la
prueba
de
hipótesis

previamente
definidas,
de
manera
que
los
resultados
se
basan
solo
en
las
hipótesis
o
variables
que
se

propusieron
para
ser
analizadas.

El
proceso
de
la
evaluación
se
centra
en
rechazar
o
aceptar
la
hipótesis.
Este
enfoque
busca
el
máximo

control
para
lograr
que
posibles
explicaciones
-‐distintas
a
la
propuesta
de
la
intervención-‐
sean
rechazadas
y

aumente
la
confiabilidad
de
los
resultados;
siendo
éstos
lo
más
objetivos
posibles
y
permitan
ser

generalizados
sobre
la
población
de
interés.

Sobre
la
inferencia
causal
y
el
contrafactual

Es
necesario
introducir
dos
conceptos
elementales
para
llevar
a
cabo
evaluaciones
de
impacto
creíbles
y

precisas
dentro
del
enfoque
cuantitativo:
inferencia
causal
y
el
contrafactual.

Inferencia
causal

La
evaluación
de
impacto
trata
de
atribuir
la
causalidad
de
una
intervención
sobre
un
resultado
de
interés,
al

estimar
en
qué
medida
esa
(y
solo
esa)
intervención
ha
contribuido
a
cambiar
un
resultado.
¿El
programa
de

capacitación
laboral
aumentó
los
ingresos
de
los
jóvenes
de
un
barrio
rural
pobre?;
¿las
vacunas

disminuyeron
la
mortalidad
infantil?,
¿el
programa
de
transferencia
monetaria
condicionada
redujo
la
tasa

de
deserción
estudiantil?;
son
preguntas
típicas
sobre
causalidad
presente
en
la
evaluación
de
impacto.

Determinar
la
relación
de
causalidad
entre
una
intervención
y
un
resultado
no
es
sencillo
y
para
ello
se
usan

métodos
1

de
evaluación
de
impacto,
que
descartan
la
posibilidad
de
que
cualquier
factor
diferente
de
la

intervención
en
estudio
explique
el
impacto
observado.

La
interrogante
central
en
la
evaluación
de
resultados
es
cuál
es
el
impacto
o
efecto
causal
de
una

intervención
D
sobre
un
resultado
de
interés
Y;.
La
respuesta
a
la
pregunta
se
obtiene
mediante
la
fórmula

básica
de
la
evaluación
de
impacto:

β
=
(Y
|
D
=
1)
−
(Y
|
D
=
0)

(1)

Según
esta
fórmula,
el
impacto
causal
(β)
de
una
intervención
(D)
sobre
un
resultado
(Y)
es
la
diferencia

entre
el
resultado
(Y)
con
la
intervención
(es
decir,
cuando
D
=
1)
y
el
mismo
resultado
(Y)
sin
la
intervención

(es
decir,
cuando
D
=
0).

Sea
P
un
programa
de
capacitación,
Y
el
ingreso
de
los
jóvenes
de
un
barrio
rural
pobre,
y
α
es
la
diferencia

entre
el
ingreso
del
joven
(Y)
cuando
participa
en
el
programa
(D
=
1)
y
el
ingreso
del
joven
en
ese
mismo

momento,
sino
hubiese
participado
en
el
programa
(D
=
0);
entonces,
es
necesario
medir
el
ingreso
de
la

1
Los métodos de estimación de evaluación de impacto se describen más adelante.

9

misma
persona
en
dos
momentos
(con
o
sin
programa)
2
,
si
esto
fuese
posible,
la
única
explicación
sobre
la

diferencia
en
el
ingreso
de
ese
individuo
es
el
programa
de
capacitación
laboral,
eliminándose
cualquier

factor
externo
que
pudiera
explicar
también
la
diferencia
en
los
ingresos.
En
este
caso
se
podría
conﬁar
en

que
la
relación
entre
el
programa
de
capacitación
laboral
y
el
ingreso
es
causal.

La
fórmula
básica
de
la
evaluación
de
impacto
es
válida
a)
para
cualquier
objeto
de
análisis
(individuo,

comunidad,
institución
u
otro)
que
pueda
beneﬁciarse
o
verse
afectada
por
una
intervención;
y
b)
para

cualquier
resultado
(Y)
que
esté
relacionado
con
la
intervención.
Una
vez
que
se
cuente
con
los
datos
de
los

dos
componentes
esenciales
de
la
fórmula,
el
resultado
(Y)
tanto
con
la
intervención
como
sin
ella,
se
puede

responder
a
cualquier
pregunta
acerca
del
impacto
del
programa.

Contrafactual

“El
contrafactual
es
una
estimación
de
cuál
habría
sido
el
resultado
(Y)
en
las
variables
de
interés
para
un

participante
en
el
programa,
si
este
no
hubiera
tomado
el
programa
(D)”
(Gertler,
Martínez,
Premand,

Rawlings
y
Vermeersch,
2011).

El
impacto
(α)
de
una
intervención
es
la
diferencia
entre
los
resultados
(Y)
del
mismo
individuo
cuando
ha

participado
y
cuando
no
ha
participado
en
la
intervención.
No
obstante,
no
es
posible
medir
al
mismo

individuo
en
situaciones
diferentes
en
el
mismo
momento,
debido
a
que
el
individuo
participa
o
no
en
la

intervención.
Esta
situación,
es
conocida
como
el
“problema
contrafactual”.

El
problema
del
contrafactual
se
puede

resumir
en
la
pregunta
siguiente
¿cómo
se
mide
los
datos
del

resultado
(Y)
si
el
individuo
que
participó
en
la
intervención
(D
=
1)
no
hubiese
participado
(D
=
0)
en
la

intervención?

El
contrafactual
se
representa
como
el
segundo
término
en
la
fórmula
básica
de
evaluación
(Y
|
D=
0).
Por

definición,
es
no
observable,
por
lo
que
se
debe
estimar.
La
estimación
del
contrafactual
requiere
métodos

para
identificar
los
grupos
de
control
o
comparación
3

válidos
que
reproduzcan
o
imiten
exactamente
el

grupo
de
tratamiento.
Si
no
se
cuenta
con
una
estimación
válida
o
creíble
del
contrafactual,
no
se
puede

conocer
el
impacto
de
una
intervención.

La
evaluación
de
impacto

identifica
a
un
grupo
de
participantes
en
la
intervención
(el
grupo
de
tratamiento)

y
a
un
grupo
de
no
participantes
(el
grupo
de
control
o
comparación)
estadísticamente
idénticos
en
ausencia

de
la
intervención.
Si
se
lograra
que
los
dos
grupos
fueran
absolutamente
iguales,
a
excepción
de
que
uno

de
ellos
participa
en
el
programa
y
el
otro
no,
cualquier
diferencia
en
los
resultados
debería
ser
explicada

por
la
intervención.

Aunque
en
realidad
nunca
existirán
dos
grupos
idénticos
en
todas
sus
características
posiblemente

relevantes,
la
investigación
cuantitativa
propone
distintos
tipos
de
diseños
con
el
fin
de
simular
la
situación

contrafactual
y
de
esta
manera,
determinar
el
“resultado
neto”
de
una
intervención.

2

Es
imposible
medir
el
resultado
de
un
indicador
de
interés
de
una
misma
persona
en
dos
momentos
diferentes,
ya
que,

no
se
sabe
cuál
sería
el
resultado
del
indicador
si
la
persona
no
participó
en
la
intervención.

3

Se
le
llama
grupo
de
control
cuando
el
diseño
es
experimental
y
grupo
de
comparación
cuando
el
diseño
es
no

experimental

10

Por
basarse
en
la
existencia
de
grupos
de
control
o
grupos
de
comparación

-‐
supuestamente
con
suficiente

parecido
al
grupo
de
intervención
-‐

los
diseños
más
poderosos
para
la
determinación
del
“resultado
neto”

son
los
llamados
diseños
experimentales
y
cuasi-‐experimentales.

II. Diseño experimental

El
diseño
experimental
también
es
conocido
con
los
nombres
de
“Diseño
de
controles
aleatorios
4
”/

“experimentos
aleatorios
(sociales)
5
”,
“experimento
social
controlado
6
”
y
“modelo
experimental”.
7

Una
evaluación
con
diseño
experimental
es
una
valoración
lo
más
objetiva
posible
de
los
resultados
de
una

intervención
que
se
caracteriza
principalmente
por
el
mecanismo
de
selección
al
azar
de
los
beneficiarios
y

no
beneficiarios,
así
como
un
absoluto
control
de
la
intervención
y
sus
respectivas
modificaciones.

En
este
tipo
de
diseños
la
intervención
y
sus
respectivas
modificaciones
son
planificadas
por
el
planificador
o

evaluador;
los
factores
externos
(crisis
económica,
alza
en
el
precio
internacional
del
petróleo,
desastres

naturales,
otros)
que
pueden
incidir
sobre
los
resultados
de
la
intervención
son
controlados
o
manipulados

por
el
evaluador.
Evidentemente,
esto
no
quiere
decir
que
los
factores
externos
son
eliminados
(lo
cual
sería

imposible
en
el
mundo
social)
sino
que
los
grupos
se
conforman
de
tal
manera
que
los
factores
externos

afecten
al
grupo
de
beneficiarios
como
al
grupo
de
no
beneficiarios
de
la
misma
manera.

La
ilustración
2,
muestra
las
dos
etapas
del
mecanismo
de
selección
de
las
personas
que
participaran
en
la

intervención
y
aquellas
que
no
participaran.
La
primera
etapa
consiste
en
obtener
una
muestra
al
azar

(aleatoria)
de
los
beneficiarios
potenciales.
Una
vez
obtenido
esa
muestra,
procede
la
segunda
etapa,
que

radica
en
asignar
al
azar
quienes
participaran
y
quienes
no
participaran
de
la
intervención.

Por
ejemplo,
supóngase
la
siguiente
situación
hipotética:
Para
una
población
de
1000
mujeres
pobres
jefas

de
hogar
en
cierta
provincia,
el
Gobierno
realiza
un
proyecto
de
transferencia
monetaria;
el
administrador

del
proyecto
asigna
un
número
del
uno
al
mil
a
cada
mujer,
y
posteriormente,
de
un
bolsa
que
contiene

papelitos
con
cifras
del
uno
al
mil
saca
al
azar
(como
especie
de
lotería)
una
muestra
de
500
papelitos,
los

cuales
corresponden
a
una
muestra
de
500
mujeres
que
son
potenciales
beneficiarias.
A
partir
de
esa

muestra,
el
administrador
asigna
al
azar
las
mujeres
que
participaran
y
que
no
participaran
de
la

intervención.
Nótese,
que
las
mujeres
no
eligen
si
participar
o
no,
es
el
administrador
es
quien
asigna
al
azar

la
participación.

La
importancia
de
asignar
al
azar
quien
participa
y
quien
no
en
una
intervención
es
hacer
grupos

comparables
entre
sí
que
no
se
distinguen
por
otro
factor
a
excepción
de
la
variabilidad
estadística.
Todas

las
personas
poseen
características
observables
y
características
no
observables
8

diferentes.
El
proceso

aleatorio
facilita
la
comparabilidad
de
los
grupos,
ya
que
asigna
una
probabilidad
igual
a
cada
uno
de
los

beneficiarios
potenciales,
con
lo
cual
se
asegura
de
distribuir
equivalentemente
(en
términos
estadísticos)

las
características
observables
y
no
observables
entre
ambos
grupos.
Al
grupo
de
individuos
no
participantes

se
les
llama
grupo
de
control
porque
son
el
parámetro
de
comparación
del
grupo
de
participantes,
a
estos

4
Gertler,
et
al
(2011).

5

Bernal
y
Peña
(2011).

6

Ídem.

7

Stockmann
(2009).

8

Las
características
o
variables
no
observables
son
aquellas
que
existen
y
que
se
registran,
las
características
o
variables

no
observables
son

aquellas
que
no
existen
o
no
se
cuenta
con
un
registro
de
las
mismas
(Bernal
y
Peña,
2011:18).

11

últimos
se
les
conoce
como
grupo
de
tratamiento
o
intervención,
porque
son
quienes
reciben
el
tratamiento

o
la
intervención,
tal
y
como
aparece
en
la
ilustración
2.

Ilustración
2.
Diseño
experimental

La
primera
etapa
del
diseño
experimental
es
una
condición
necesaria
para
posibilitar
la
validez
externa
de
la

evaluación,
es
decir
que
aporta
información
acerca
de
la
posibilidad
de
extrapolar
el
resultado
de
la
muestra

a
la
población
de
interés.
Sin
embargo,
existen
otros
desafíos
para
la
validez
externa
que
están
relacionados

con
el
carácter
“artificial”
del
experimento
(véase
el
siguiente
apartado
sobre
experimentos
de
laboratorio

vs.
experimentos
de
campo).
La
segunda
etapa

garantiza
la
comparabilidad
del
grupo
de
intervención
con
el

grupo
de
control
maximizando
de
esta
manera
la
validez
interna,
esto
es,
el
grado
de
certeza
de
que

cualquier
diferencia
encontrada
entre
los
dos
se
debe
solo
al
hecho
de
participar
o
no
en
la
intervención
que

se
evalúa,
controlando
así
la
incidencia
de
otras
factores
externos
que
estén
asociadas
con
la
variable
de

resultado
o
interés
y
la
participación
en
la
intervención
pública.
Si
esto
se
cumple,
entonces
el
impacto
de
la

intervención
es
el
resultado
de
restar
los
promedios
de
las
variables
de
resultados
entre
ambos
grupos

(Bernal
y
Peña,
2011:
40,
l).

I.1
Tipos
de
experimentos

I.1.1
Plan
Experimental
Solomon
de
Cuatro
Grupos

Una
debilidad
del
diseño
sencillo
de
dos
grupos
(con
medición
antes
y
después
de
la
intervención)
es
la

dificultad
de
controlar
por
factores
reactivos
de
la
medición.
Si
bien
una
medición
antes
de
la
medición
es

importante
para
registrar
diferencias
entre
ambos
grupos
debido
a
errores
aleatorios,
esta
misma
medición

puede
influir
en
el
resultado.
Cuando
en
el
caso
de
un
curso
de
capacitación,
por
ejemplo,
se
realiza
un

examen
de
entrada
y
uno
ex-‐post,
el
grupo
de
control
ya
queda
familiarizado
con
los
requerimientos.

Aunque
ellos
no
participen
en
la
intervención,
es
posible
que
terminen
mejor
preparados
para
el
examen
ex-‐
pos
que
otras
personas
que
no
han
sido
parte
del
estudio.

Fuente: Elaboración propia con base a CEPAL (2005)
Muestra
Población
Control
Intervención
o
tratamiento
Resultado
Resultado
Presente Futuro
Selección al azar
La evaluación
compara ambos
resultados
1° Etapa 2° Etapa
Selección al azar

12

Al
contar
con
esta
amenaza
para
la
validez
del
estudio,
el
diseño
descrito
se
amplía
mediante
el
llamado

“Plan
Experimental
Solomon
de
Cuatro
Grupos”
(Ilustración
3)
con
dos
grupos
adicionales
(un
grupo

experimental
y
otro
de
control),
en
los
cuales
solamente
se
realiza
una
medición
posterior
(para
una

descripción
del
diseño,
véase
Bortz
y
Döring
2002:
539f.).
Por
este
medio
se
pretende
controlar

adicionalmente
el
efecto
reactivo
de
la
medición.

Ilustración
3.
Plan
Experimental
Solomon
de
Cuatro
Grupos

I.1.2
Experimentos
de
laboratorio
y
experimentos
de
campo

En
el
contexto
de
la
evaluación
se
hallan
dos
tipos
de
experimentos:

• Experimento
de
laboratorio.
Son
aquellos
experimentos
donde
la
intervención
se
lleva
a
cabo
en
un

entorno
“artificial”
controlado;
donde
se
controlan
o
manipulan
los
factores
externos
de
la

intervención;
el
ambiente
y
el
desarrollo
de
la
misma;
así
como
el
comportamiento
del
grupo

intervenido
y
el
grupo
de
control.
Bajo
condiciones
controladas,
la
influencia
y
presencia
de

factores
externos
a
la
intervención
es
mínima,
lo
que
permite
estudiar
las
relaciones
“puras”
de

causa
–
efecto.
Este
tipo
de
experimentos
maximiza
la
validez
interna
de
los
resultados,
sin

embargo,
en
el
contexto
de
la
evaluación
de
intervenciones
públicas,
muy
raras
veces
es
aplicable,

dado
que
las
intervenciones
tienen
lugar
en
un
entorno
social
natural
y
complejo.
Aunque
en

Fuente: Elaboración propia con base a CEPAL (2005)
Muestra
Población
Medición
ex ante
Medición
ex postSelección al azar
Grupo de
control I
(ex ante)
Grupo de
intervención
I (ex ante)
Grupo de
intervención
I (ex pos)
Grupo de
control I
(ex post)
Grupo de
intervención
II
Grupo de
control
II

13

algunos
casos
fuera
posible
aislar
la
intervención
bajo
condiciones
de
“laboratorio”,
es
muy
posible

que
los
efectos
observados
en
condiciones
artificiales
no
se
dejaran
extrapolar
al
contexto
natural

de
la
intervención
(problema
de
la
validez
externa).

• Experimento
de
campo.
Son
aquellos
experimentos
donde
“la
intervención
se
realiza
en
un
entono

real”,
por
lo
tanto,
no
se
controlan
o
manipulan
los
efectos
externos
que
pueden
incidir
sobre
la

intervención
y
el
comportamiento
del
grupo
de
intervención
y
control.
Bajo
estas
circunstancias,
la

relación
causa
–efecto
se
estudia
en
el
contexto
real
de
la
intervención;
lo
cual
permite
maximizar

la
validez
externa.
Debido
a
que
este
tipo
de
experimento
se
estudia
en
el
ámbito
real,
es
que
su

uso
es
común
en
las
evaluaciones
de
intervenciones
públicas.

I.1.2
Aleatorización
individual
y
de
conglomerado

En
ocasiones,
la
participación
en
una
intervención
se
puede
realizar
al
azar
sea
a
nivel
individual
o
a
nivel
de

conglomerado;
esto
según
las
razones
éticas
o
prácticas
con
las
que
la
intervención
permita
hacer
la

asignación
aleatoria.

• “Aleatorización
a
nivel

individual.”

Se
lleva
a
cabo
asignando
de
manera
aleatoria
la
participación

en
la
intervención
a
nivel
individual
(por
ejemplo:
personas,
hogares,
empresas).
En
este
caso,
de
la

lista
de
elegibles,
se
asignan
al
azar
a
aquellas
personas,
hogares
u
empresas
que
participarán
en
la

intervención
como
también
a
aquellos
que
serán
parte
del
grupo
de
control.

• “Aleatorización
a
nivel
de
conglomerados.”
La
asignación
de
los
participantes
en
la
intervención
se

hace
a
nivel
de
conglomerados
(por
ejemplo:
comunidades,
distritos).
Generalmente,
esta
variante

del
diseño
se
aplica
cuando
la
intervención
permea
a
todo
un
subgrupo
de
la
población.
Este
tipo

de
aleatorización
se
realiza
principalmente
cuando
existen
a)
razones
éticas:
no
se
puede
negar
el

acceso
a
los
beneficios
de
la
intervención
a
cierto
número
de
personas
u
hogares
de
la
misma

comunidad,
por
ejemplo,
un
barrio
que
presenta
la
problemática
de
niños
y
niñas
desnutridas,
sise

realiza
una
intervención
para
mejorar
la
nutrición
de
este
subgrupo
de
la
población,
la
intervención

no
será
ética
si,
entrega
alimentos
solo
a
aquel
grupo
de
niños
y
niñas
que
fueron
asignadas
a

participar
en
la
intervención
y
a
su
vez
forman
el
grupo
de
intervención,
mientras
se
le
priva
de

alimentos
a
aquellos
niños
y
niñas
que
no
tuvieron
la
suerte
de
que
sus
nombres
saliera
dentro
del

grupo
de
intervención,
sino
que
les
corresponde
ser
parte
del
grupo
de
control;
b)
razones

prácticas:
en
ocasiones
las
restricciones
logísticas,
presupuestarias
y
de
la
capacidad
operativa
de
la

intervención
imposibilitan
que
los
beneficios
de
la
misma
afecten
al
mismo
momento
a
toda
la

población,
debido
a
que
la
intervención
se
realiza
primero
en
algunos
subgrupos
de
la
población
y

luego
se
lleva
a
cabo
a
los
restantes
subgrupos,
esto
significa
que
se
pospone
la
entrada
de
algunos

subgrupos
a
la
intervención,
y
así
se
garantiza
la
existencia
de
grupos
de
control;
c)
existe
una

interacción
entre
los
beneficiados
y
los
no
beneficiados
lo
cual
puede
llevar,
por
ejemplo,
a
la

posibilidad
de
que
los
beneficios
permeen
de
un
grupo
a
otro:
esto
implica
que
a
la
hora
de
evaluar

la
intervención
se
puede
concluir
erróneamente
sobre
los
efectos
(o
sea:
la
carencia
de
efectos)
de

la
intervención.

En
resumen,
la
deseabilidad
de
un
tipo
u
otro
de
aleatorización
depende
del
tipo
de
preguntas
de
interés
en

la
evaluación,
consideraciones
políticas
y
éticas,
restricciones
logísticas
y
existencia
de
externalidades,
entre

otras
(Bernal
y
Peña,
2011:).

I.2
¿Cuándo
se
aplica
diseño
experimental

en
una
evaluación?

14

Para
la
aplicación
o
uso
de
este
diseño
se
debe
tener
en
cuenta
las
siguientes
características:

• La
evaluación
mediante
este
diseño
es
aplicable
únicamente
cuando
se
prevé
el
diseño
de
la

evaluación
en
el
momento
de
planificación
de
la
intervención.

• El
mecanismo
de
selección
de
los
beneficiarios
de
la
intervención
es
aleatoria
(grupo
de

intervención
aleatorio).

• El
mecanismo
de
selección
del
grupo
de
control
es
aleatoria.

• En
cuanto
a
la
disponibilidad
de
los
datos
para
un
buen
diseño
experimental,
se
requiere
que
los

datos
hayan
sido
capturados
antes
y
después
de
la
intervención
tanto
para
el
grupo
de
intervención

como
el
grupo
de
control,
así
como
la
cantidad
de
veces
que
sea
necesario
o
recomendable
entre

esos
dos
momentos.

• El
diseño
experimental
se
aplica
solamente
cuando
la
cobertura
de
la
intervención
es
parcial.
La

aleatoriedad
como
mecanismo
de
acceso,
raras
veces
(o
mejor
dicho:
prácticamente
nunca)
es
el

mecanismo
más
funcional
desde
el
punto
de
vista
de
la
teoría
de
cambio
subyacente.
Por
eso,
el

diseño
experimental
requiere,
en
cierta
medida,
que
la
intervención
se
diseñe
en
función
de
su

evaluabilidad
(y
no
vice-‐versa)
lo
cual
podría
ser
justificable
en
algunos
casos
de
proyectos
piloto

que
se
evalúan
a
pequeña
escala,
antes
de
que
la
intervención
se
introduzca
para
una
población

objetivo
más
amplia.

I.3
Modelos
de
estimación
del
diseño
experimental

Los
modelos
de
estimación
son
herramientas
estadísticas
y
econométricas
utilizadas
para
estimar
los

resultados
de
una
intervención
a
partir
de
relaciones
causales;
para
ello,
los
modelos
se
nutren
de
muchas

variables
representadas
numéricamente
y
varios
supuestos
sobre
las
mismas.
En
el
caso
de
las
evaluaciones,

la
variable
que
representa
el
resultado
de
la
intervención
en
el
modelo
de
estimación
se
le
conoce
como

variable
de
resultado.

I.3.1
Modelo
de
diferencias
sencillo

La
aleatorización
de
los
grupos
asegura
que
las
características
entre
el
grupo
de
intervención
y
el
grupo
de

control
sean
idénticas.
Esto
implica
dos

aspectos
importantes:

• Que
en
ausencia
de
la
intervención,
el
valor
de
la
variable
de
resultado
sea
idéntico
entre
ambos

grupos,
permitiendo
entonces
que
el
grupo
de
control
sea
un
buen
contrafactual;

• Que
después
de
la
intervención,
el
valor
de
la
variable
de
resultado
del
grupo
de
intervención
y

grupo
de
control
difiera
únicamente
por
motivos
de
la
exposición
a
la
intervención,
y
no
a
otras

características
o
variables
observables
o
no
observables
que
generan
el
sesgo
de
selección.

Dado
que
bajo
el
diseño
experimental
se
puede
contar
un
buen
contrafactual
y
el
sesgo
de
selección
es

controlado
o
resuelto,
la
estimación
del
resultado
de
la
intervención
es
relativamente
fácil
y
no
implica
uso

de
técnicas
econométricas
complejas
en
comparación
con
los
modelos
de
otros
diseños.

15

El
resultado
de
la
intervención
bajo
el
modelo
de
diferencias
–en
forma
general-‐
se
estima
como
la

diferencia
9

de
medias
(promedios)
en
la
variable
de
resultado
entre
el
grupo
de
intervención
y
el
grupo
de

control.
La
diferencia
de
medias
se
puede
calcular
con
un
el
modelo
de
estimación
lineal
de
Mínimos

Cuadrado
Ordinarios
(MCO)

10
:

Yi
=
β0
+
β1Di
+
ui

(1)

Donde

Yi
representa
la
variable
de
resultado
para
el
individuo
i,

Di
representa
una
variable
binaria,
que
toma
el
valor
de
1
si
el
individuo
i
participa
en
la
intervención
y
0
si
el

individuo
i
es
elegible
pero
no
participa
en
la
intervención,

β1

representa
el
estimador
de
diferencias.
Es
el
efecto
de
la
intervención;

ui

es
el
término
error
de
la
regresión
que
recoge
las
variables
observadas
y
no
observadas
del
individuo
i,

aparte
de
Di,
que
afectan
el
resultado.

II.3.2
Variantes
del
modelo
de
diferencias
11

1. “El estimador de diferencias con regresores adicionales” o con variables explicativas
adicionales

Esta
variante
del
modelo
de
diferencias,
agrega
una(s)
variable(s)
explicativa(s)
adicional(es)
al
modelo
de

regresión
(1).
Las
variables
explicativas
son
aquellas
variables
que
explican
en
alguna
medida
la
variable
de

resultado.

Supóngase,
que
existe
un
programa
sobre
capacitación
en
el
idioma
inglés
para
mujeres
jefas
de
hogar
y
se

desea
evaluar
el
impacto
de
ese
programa.
Se
tiene
datos
tanto
para
las
mujeres
del
grupo
de
intervención
y

control
sobre
el
salario
(variable
de
resultado),
si
participó
o
no
en
la
intervención
(variable
que
indica
si
la

mujer
está
dentro
del
grupo
de
intervención
o
control)
y
además
el
nivel
de
escolaridad
(variable
explicativa

adicional).
La
ecuación
2
representa
tal
situación:

Yi
=
β0
+
β1Di
+
γ1X1
+
ui

(2)

Donde,

Yi

representa
la
variable
de
resultado
para
la
mujer
i
(salario),

Di

indica
si
la
mujer
jefa
de
hogar
participó
(D
i
=
1)
o
no
en
la
capacitación
(D
i
=
0),

X1

variable
explicativa
adicional
que
representa
el
nivel
de
escolaridad
de
la
mujer
jefa
de
hogar

i
que
está

presente
antes
de
la
intervención.

X1
no
es
afectada
por
la
intervención
pero
contribuye
determinar
la

variable
de
resultado,

β1

representa
el
estimador
de
diferencias
con
variables
explicativas
adicionales
(el
efecto
del
programa),

γ1,K

representa
el
estimador
de

la
contribución
del
nivel
de
escolaridad
(
variable
adicional)
al
salario

(variable
de
resultado)
además

del
programa.

9

La
diferencia
es
el
“resultado
de
la
operación
de
restar”,
según
el
DRAE.

10

Véase
Gujarati
(2004)
para
una
información
detallada
sobre
el
modelo
de
estimación
de
MCO
y
sus
respectivos

supuestos.

11

Para
un
mayor
detalle,
véase
Bernal
y
Peña
(2011).

16

El
estimador
de
diferencias
con
regresores
adicionales
es
insesgado,
consistente
y
más
eficiente
que
el

estimador
de
diferencias
propuesto
en

la
ecuación
(1),
ya
que
al
agregar
más
variables
en
la
ecuación,
se

mejora
la
precisión
con
que
se
estiman
los
resultados
(Bernal
y
Peña,
2011:).
Para
llevar
a
cabo
estimaciones

bajo
esta
variante
se
requiere
que
la
base
de
datos
contenga
datos
sobre
las
variables
explicativas

adicionales
para
el
grupo
de
intervención
y
el
grupo
de
control.

2. “El estimador de diferencias con efectos heterogéneos”

Si
dentro
de
los
grupos
de
análisis
existen
subgrupos,
es
posible
que
los
efectos
de
la
intervención
difieran

entre
los
individuos
o
subgrupos,
por
lo
tanto,
los
resultados
de
la
intervención
puede
variar
para
cada

subgrupo,
según
el
valor
de
una
determinada
variable
explicativa.
Como
ejemplo,
supóngase
que
se
desea

saber
si
la
mejora
en
el
salario
como
resultado
de
una
intervención
es
más
eficiente
en
las
mujeres
y
los

hombres
(ambos
grupos
recibieron
la
misma
intervención).
En
este
caso,
X
es
la
variable
sexo,
y
toma
el

valor
1
si
es
mujer
o
0
si
es
hombre.

Para
captar
si
existen
diferencias
en
los
resultados,
la
ecuación
de
regresión
incluye
la
interacción
entre
la

variable
que
indica
la
participación
del
individuo
i
en
la
intervención
Di,
y
la
variable
explicativa
Xi:

Yi
=
β0
+
β1Di
+
β2Xi+
β3
DiXi+
ui

(3)

Donde,

Yi

es
la
variable
de
resultado
para
el
individuo
i
(salario),

Di

es
la
variable
que
indica
si
el
individuo
participó
o
no
en
la
intervención,

Xi

es
una
variable
explicativa
adicional
(sexo),

DiXi
es
la
interacción
entre
la
variable
que
indica
la
participación
en
la
intervención
y
la
variable
explicativa

de
interés,
es
decir,
la
interacción
entre
la
intervención
y
el
sexo
de
la
persona.

β1

representa
el
estimador
de
diferencias,

β3
representa
el
efecto
diferencial
de
la
intervención
sobre
las
mujeres.
β3
>
0
mide
qué
tanto
mejor
es
la

intervención
sobre
las
mujeres
con
respecto
a
los
hombres.

Si
a
la
hora
de
estimar
la
ecuación,
el
estimador
de
la
interacción
β3

es
mayor
a
0
indica
que
los
salarios
de

las
mujeres
mejoraron
más
que
los
de
los
hombres.

I.4
Fortalezas
y
debilidades
de
los
diseños
experimentales

I.4.1
Fortalezas

• Es
fácil
entender
la
lógica
de
un
diseño
experimental
(asigna
al
azar
los
participantes
de
una

intervención).

• Las
técnicas
para
el
cálculo
del
impacto
son
sencillas,
por
lo
tanto,
los
resultados
son
transparentes

para
políticos,
diseñadores
de
intervenciones
y
población
general
(Bernal
y
Peña,
2011:).

• Es
el
diseño
que
permite
el
uso
de
modelos
de
estimaciones
que
arrojan
estimaciones
más
precisas

o
confiables.

17

• Los
resultados
de
la
evaluación
no
son
fácilmente
manipulables,
es
decir,
no
se
requiere
del
uso
de

otras
técnicas
estadísticas
–fuera
del
modelo
de
diferencias-‐
para
estimar
los
resultados.
Con
eso
se

diferencia
de
otras
técnicas
estadísticas,
que
se
basan
en
conceptos
más
complejos
donde
las

variables
pueden
modelarse
en
cierta
medida
a

conveniencia.

• La
asignación
al
azar
minimiza
los
sesgos
sistemáticos
de
selección
entre
el
grupo
de
tratamiento
y

control.
Si
bien
sigue
expuesto
a
un
error
por
variabilidad
aleatorio,
este
puede
ser
estimado

mediante
cálculos
estadísticos
(a
diferencia
de
los
sesgos
sistemáticos
que
pueden
pasar

desapercibidos).

• Los
diseños
de
experimentos
de
campo
maximizan
la
validez
externa
de
los
resultados
de
una

evaluación,
y
los
experimentos
de
laboratorio
maximizan
la
validez
interna.

• Si
la
muestra
es
lo
suficientemente
grande
se
asegura
la
validez
interna
de
la
evaluación
de
impacto

(cualquier
diferencia
entre
el
grupo
de
tratamiento
y
control
después
de
la
intervención
puede
ser

atribuida
a
la
intervención).
Esto
ocurre
porque
se
minimiza
o
controla
la
influencia
de
factores

externos.

I.4.2
Limitaciones
del
diseño
experimental

Aunque
es
indiscutible
que

-‐
en
teoría
-‐

el
diseño
experimental
es
el
diseño
más
poderoso
para
determinar

el
“resultado
neto”
de
una
intervención,
desgraciadamente
existen
restricciones
o
limitaciones
que
suelen

dificultar
y
muchas
veces
incluso
imposibilitar,
la
aplicación
de
este
diseño
en
la
evaluación:

• Mecanismo
de
selección
de
la
intervención
incongruente
con
los
requerimientos
de
un
diseño

experimental:
La
gran
mayoría
de
las
intervenciones
se
caracterizan
por
mecanismos
de
selección

distintas
a
la
aleatorización.
Mecanismos
frecuentes
son,
por
ejemplo,
la
auto-‐selección
(solo

participa
quién
quiere
participar,
por
ejemplo
en
una
oferta
de
capacitación
de
participación

voluntaria),
o
reglas
definidas
de
acceso
(por
ejemplo,
acceso
por
altas
calificaciones
en
un

programa
de
beca,
acceso
por
bajo
nivel
de
ingreso
a
una
prestación
monetaria).
En
estos
casos,
un

diseño
experimental
“puro”
ya
no
es
aplicable.

• Otros
problemas
en
la
aleatorización.
Si
no
se
puede
asegurar
una
exitosa
aleatorización,
la

inferencia
estadística
que
se
realice
sobre
los
resultados
de
la
evaluación
no
es
válida
para
la

población
de
estudio
(Bernal
y
Peña,
2011,
),
debido
a
que
los
resultados
reflejan
tanto
el
impacto

de
la
intervención
como
el
efecto
en
la
falla
en
la
aleatorización.
Entre
algunos
ejemplos
de
fallas

en
la
aleatorización
están:
a)
Cambios
en
el
comportamiento
de
los
grupos
observados,
por

ejemplo,
si
el
grupo
de
intervención
sabe
que
participa
de
un
experimento
y
está
siendo
observado

por
el
evaluador,
puede
cambiar
su
comportamiento
(efecto
experimental
o
Hawthorne),
lo
mismo

puede
suceder
en
el
grupo
de
control
(Efecto
John
Henry);
b)
Tamaño
de
la
muestra
pequeña,
una

muestra
pequeña
(puede
deberse
al
alto
costo
de
un
diseño
experimental
social)
afecta
la
precisión

de
los
resultados
y
no
garantiza
el
supuesto
de
independencia
condicional
12
;
c)
El
no
cumplimiento

del
protocolo
de
tratamiento,
y
la
pérdida
de
muestra,
i)
introducen
correlación
entre
el

tratamiento
y
el
término
error
,
ii)
el
tratamiento
o
la
intervención
no
es
asignado
de
manera

completamente
aleatoria,
sino
que
se
basa
en
características
o
preferencias
de
los
individuos,
lo

que
puede
implicar,
que
las
personas
asignadas
al
grupo
de
intervención
decidan
no
participar
o

12

El
supuesto
de
independencia
condicional
implica
que
la
variable
de
resultado
en
ausencia
de
la
intervención
debería

ser
idéntica
para
el
grupo
de
intervención
como
para
el
grupo
de
control.

18

bien
personas
del
grupo
de
control
participen
en
la
intervención,
lo
que
genera
sesgos
de
selección,

y
por
lo
tanto,
las
técnicas
descritas
para
este
diseño
no
son
aptas
para
para
estimar
los
resultados

de
la
intervención
(Ídem)..

• Discusiones
de
tipo
ético/político.
Restringir
la
participación
de
personas
que
cumplen
con
todas

las
condiciones
de
acceso
a
una
intervención
e
igualmente
vulnerable
que
el
grupo
intervenido,

genera
discusiones
de
tipo
moral,
especialmente,
si
el
motivo
es
para
contar
con
un
grupo
de

control.
Es
decir,
la
investigación
“abusa”
de
un
grupo
vulnerable
para
generar
un
insumo
al

estudio,
privándolo
a
la
vez
del
beneficio
que
podría
ofrecer
la
intervención.
Dependiendo
del
tipo

de
bien
o
servicio
que
se
ofrece,
impedir
el
acceso
a
los
beneficios
del
programa
podría
hasta
poner

en
peligro
la
salud
de
esas
personas
o
incluso
su
vida.

• Incumplimiento
(non-‐compliance

en
inglés).
Durante
el
experimento,
los
individuos
en

los
grupos

de
intervención
o
control
podrían
cambiar
determinadas
características
que
los
identifican,
por

ejemplo,
algunos
agentes
que
fueron
seleccionados
para
el
grupo
de
intervención,
pueden
terminar

no
recibiéndola
o
ellos
mismos
podrían
no
estar
interesados
en
la
intervención;
de
manera

alternativa,
los
agentes
que
fueron
designados
al
grupo
de
control
terminan
participando
en
la

intervención.

Este
problema
invalidaría
o
contaminaría
la
medición
del
impacto
de
la
evaluación,

pues
un
agente
se
analiza
dentro
del
grupo
de
intervención
cuando
en
la
realidad
no
recibió
ningún

beneficio
o
bien,
un
agente
del
grupo
de
control
si
recibió
los
beneficios
de
la
intervención.

• Dificultad
de
controlar
por
efecto
placebo.
“El
efecto
placebo
es
la
relación
positiva
entre
la

respuesta
de
la
unidad
al
tratamiento
y
las
expectativas
de
la
unidad
acerca
de
estar
expuesta
al

tratamiento”
(Rossi,
2011).
Un
ejemplo
sencillo
de
cuando
se
controla
por
el
placebo,
es
cuando
un

medicamento
se
le
otorga
a
un
paciente
que
pertenece
al
grupo
tratado
y
se
le
otorga
un
placebo

(medicamento
que
no
tiene
efecto
sobre
la
salud)
a
un
paciente
del
grupo
de
control.
Ambos

pacientes
tienen
expectativas
positivas
sobre
su
recuperación,
pero
no
saben
a
cuál
de
ellos
se
le

dio
el
medicamento
y
a
cual
el
placebo.
En
ciencias
sociales
es
difícil
controlar
por
efecto
placebo,

ya
que,
las
personas
tienen
el
conocimiento
de
que
están
siendo
o
no
tratadas.

• Desgaste
de
la
muestra
(attrition
en
inglés).
Algunas
unidades
desaparecen
de
la
muestra
en
algún

punto
del
tiempo
entre
la
encuesta
de
línea
de
base
y
la
encuesta
final.
Esto
tiene
implicaciones
en

la
estimación
del
resultado,
pues
ya
no
existe
el
valor
de
una
o
las
variables
de
cierto
(s)

individuo(s).
El
desgaste
de
la
muestra
no
tiene
mayores
implicaciones
cuando
a)
una
cantidad

suficiente
de
personas
permanece
en
el
estudio
para
que
se
puedan
generar
resultados

estadísticamente
significativos,
y
b)
el
desgaste
no
es
causado
por
un
factor
sistemático
que

interactúa
con
la
variable
de
impacto.
Por
ejemplo,
en
un
programa
de
capacitación
se
podría

observar
que
solamente
los
más
motivados
y
ágiles
concluyan
el
programa
–
es
decir
aquellos
que

de
todas
maneras
hubieran
alcanzado
mejores
resultados
que
el
promedio
de
la
población
de

interés.
Desgraciadamente,
este
sesgo
no
es
la
excepción
sino
la
regla.

• Externalidades
o
efecto
derrame
(spillovers
en
inglés)
y
“efectos
de
equilibrio
general”.
Las

externalidades
son
los
efectos
externos
previstos
o
no
por
la
intervención,
esto
implica
que
algunos

individuos
que
no
reciben
la
intervención
pueden
beneficiarse
del
hecho
que
otros
individuos
estén

siendo
intervenidas.
Lo
que
puede
verse
como
un
efecto
secundario
sumamente
positivo
desde
el

punto
de
vista
de
los
gestores
de
la
intervención,
le
crea
dificultades
metodológicas
al
evaluador

dado
que
su
supuesto
grupo
de
control
queda
“contaminado”.
(Bernal
y
Peña,
2011,).

19

I.4.3
Posible
abordaje
de
las
limitaciones

Para
asegurar
la
aleatorización
de
la
muestra
se
puede
permitir
el
ingreso
de
agentes
del
grupo
de
control
a

la
intervención
en
una
etapa
posterior,
una
vez
que
se
ha
diseñado
y
se
ha
iniciado
la
evaluación.
Con
esta

técnica,
la
selección
aleatoria
determina
cuándo
el
beneficiario
calificado
recibe
la
intervención
y
no
si
lo

recibe.
Esto
permite
abordar
preguntas
con
respecto
al
tiempo
necesario
para
que
la
intervención
sea
eficaz

para
lograr
su
propósito.

El
método
de
Variables
Instrumentales
puede
utilizarse
para
solucionar
el
problema
de
non
compliance.
En

el
caso
del
problema
de
attrition,
se
recomienda
chequear
el
balance
de
las
características
en
el
grupo

afectado
por
la
desaparición
de
las
unidades
muestrales.
Para
disminuir
el
problema
asociado
al
efecto

derrame,
es
aconsejable
realizar
la
aleatorización
a
nivel
de
grupo
y
no
en
forma
individual,
por
ejemplo:
un

programa
de
educación
donde
se
otorga
libros
de
enseñanza
básica
por
cantones,
así
el
cantón
de
control

puede
estar
alejado
del
cantón
de
intervención,
atenuando
el
efecto
derrame.

II. Diseños cuasi-experimentales

Una
evaluación
con
diseño
cuasi
experimental
es
una
valoración
de
los
resultados
de
una
intervención
que

se
diferencia
del
experimento
“puro”
en
que
el
mecanismo
de
selección
de
los
beneficiarios
y
no

beneficiarios
no
es
al
azar.
Sin
embargo,
las
condiciones
de
la
intervención
tienen
algún
grado
de
control.

Siempre
que
se
logra
optimizar
dicho
control,
los
diseños
pueden
-‐
según
Bernal
y

Peña
(2011),

adquirir
un
alto
grado
de
validez
interna
“como
si
fuera”
un
diseño
experimental
(aleatorio).

Comúnmente,
las
condiciones
de
la
intervención
evaluada
mediante
el
diseño
cuasi-‐experimental
se

desarrollan
en
un
contexto
real
o
natural,
es
decir,
suele
aplicarse
cuando
los
planificadores
o
evaluadores

de
la
intervención
no
controlan
la
totalidad
de
los
factores
externos
que
pueden
incidir
en
el
mecanismo
de

selección
de
los
intervenidos.
Sin
embargo,
existe
la
posibilidad
de
identificar
variables
relacionadas
con
el

acceso
a
la
intervención
que
permiten
formar
grupos
de
comparación
y
ejercer
algún
grado
de
control
sobre

los
factores
externos.

En
algunos
(pocos)
casos
el
objeto
evaluado
está
relacionado
con
un
evento
fortuito
que
asignó
al
azar
al

grupo
de
tratamiento.
En
este
caso,
la
evaluación
de
resultados
utilizaría
el
mismo
instrumental

metodológico
del
diseño
experimental
13

o
el
modelo
de
diferencias-‐en-‐diferencias
(véase
apartado
II.3),

siempre
y
cuando
se
disponga
de
una
base
de
datos
longitudinales:

Por
ejemplo,
Card
(1990)
14

citado
en
Bernal
y
Peña
(2011)
realizó
un
estudio
que
consistió
en
determinar
si

el
incremento
en
el
flujo
inmigratorio
(cubano)
disminuyó
los
salarios
de
las
zonas
receptoras
15

(Miami).
El

evento
fortuito
que
genera
una
asignación
al
tratamiento
(inmigración)
que
“podría
parecer
aleatoria”
para

conocer
el
impacto
de
la
inmigración
sobre
los
salarios
es
el
cambio
inesperado
en
la
ley
migratoria,
la
cual

eliminó
las
restricciones
inmigratorias
de
Cuba,
con
lo
cual,
125
000
cubanos
llegaran
a
Estados
Unidos
entre

mayo
y
septiembre
de
1980,

de
los
cuales,
aproximadamente
el
50%
se
quedaron
en
Miami;
lo
que
a
su
vez

provocó
que
la
oferta
laboral
aumentará
alrededor
del
7%

en
este
Estado.

13

El
diseño
experimental
utiliza
el
modelo
de
diferencias.
Para
más
detalle,
véase
página
ZZZ
Cuál
página???

14

Para
un
mayor
conocimiento
sobre
este
estudio
se
puede
referir
a
Card,
D.
(1990).
The
impact
of
the
Mariel
Boat
Lift

on
the
Miami
Labor
Market.
Industrial
and
Labor
Relations
Reviews,
43
(2),
245-‐257.

15

Según
la
teoría
económica,
un
aumento
en
la
oferta
laboral
debido
al
flujo
de
inmigrantes
provocaría
un
descenso
en

los
salarios
de
la
localidad
receptora
de
inmigrantes.

ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Semelhante a ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION (20)

Mais de victorcorreav

Mais de victorcorreav (6)

Último

Último (20)

ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION