2. 2
Einordnung
• Evaluierung und Monitoring
– Monitoring: Auskunft, ob ein Programm wie geplant abläuft
oder es zu Störungen kommt
– Prozessevaluation: Evaluation des Programmablaufs
– Kosten-Nutzen-Analysen: effizienter Mitteleinsatz? Vergleich
mit alternativen Mittelverwendungen
– Wirkungsbeobachtung: Gewünschte Effekte? Dem
Programm zuzuschreiben?
• Dieser Vortrag: quantitative Methoden der
Wirkungsbeobachtung oder Wirkungsmessung
3. Quantitative Methoden der
Wirkungsbeobachtung
• Versuch der Messung eines kausalen Effekts, des Beitrags der
Maßnahme zur Veränderung eines Wirkungsindikators
Fokus auf interner Validität mit besonderer Berücksichtigung
von:
• Selektionsverzerrung (Fragen alleine reicht nicht)
– Zwei Ursachen von Selektion können analytisch
unterschieden werden: “observables” (Alter, Bildung etc.)
und “unobservables” (Motivation, bestimmte schwer
beobachtbare Fähigkeiten wie Unternehmergeist)
• Weiteren Faktoren, die den Wirkungsindikator
beeinflussen könnten
• Berücksichtigung von Wirkungsheterogenität
Zum Teil Berücksichtigung von Wirkungsmechanismen (Fragen
nach dem warum oft eher qualitativ)
3
4. • Interne Validität (identification strategy)
– Messe ich richtig? Also wird die Veränderung der abhängigen
Variablen tatsächlich vom Stimulus und nicht durch das
Auftreten von Störvariablen oder Verzerrungen verursacht
– Trade off zwischen maximaler Situationskontrolle und
Realitätsnähe
• Externe Validität
– Übertragbarkeit auf die Wirklichkeit oder andere
Regionen/Kontexte
4
5. 5
Das Evaluationsproblem
• Wirkung= Differenz eines bestimmten Indikators (z.B. Gewinn
von Unternehmen) zwischen einer Situation MIT und OHNE
Implementierung eines Projekts/Programms
• Messung der Wirkung: Evaluationsproblem
– Messbar: Indikator VOR and NACH Maßnahme
– Nicht/schwer messbar: Indikator OHNE Maßnahme
• Lösung: Konstruktion eines COUNTERFACTUALS bzw.
Identifikation einer relevanten Kontrollgruppe mittels geeigneter
Methoden
• Evaluationsproblem als Problem fehlender Daten: Wir
beobachten nie denselben Teilnehmer auch als Nicht-
Teilnehmer
6. 6
Konstruktion eines Counterfactuals
• Folgende Probleme sind zu lösen
– Selektionsverzerrung: Selektion in ein Programm in der
Regel nicht zufällig
– Confounding Factors: andere Dinge passieren gleichzeitig,
und zwar nicht unbedingt im gleichen Ausmaß in der
Kontrollgruppe
– Spillovers: Nicht-Teilnehmer werden durch das Programm
beeinflusst
• Einfache Unterscheidung in Teilnehmer und Nicht-Teilnehmer
oft nicht ausreichend, auch nicht Vorher-Nachher
• Zwei Vorgehensweisen
– Soziale Experimente: Zufällige Auswahl der Teilnehmer und
Bildung einer Kontrollgruppe
– Quasi-experimentelle Methoden: Statistische Verfahren zur
Identifikation einer Kontrollgruppe
8. 8
…der nach der Intervention höher ist
Y1
(observedl)
Y0
t=0 t=1 time
Intervention
9. 9
Um die Wirkung des Programms zu messen
müssten wir wissen was passiert wäre wenn das
Programm nicht existiert hätte
Y1
(observedl)
Impact = Y1- Y1
*
Y1
* (counterfactual)
Y0
t=0 t=1 time
Intervention
10. Probleme bei der Konstruktion des
Counterfactuals
Y1
Y1
*
Y0
t=0 t=1 time
Selection bias
Confounding factors
11. Häufig benutzte Lösungsmethoden
• Randomized controlled trials (RCTs)
• Double difference/difference in difference
• Matching Methoden
• Diskontinuitätsdesigns
• (endogeneous) Switching Regressions, Verwendung von
Instrumentvariablen (IVs) (kombinierbar)
11
12. 12
Soziale Experimente / RCTs
• Programm/Projekt wird zufällig Teilen einer Population (idR
Stichprobe) zugeordnet
• Zufällige Auswahl schließt Selektionsverzerrung aus: Teilnehmer
und Nicht-Teilnehmer unterscheiden sich nicht, weder in
beobachtbaren noch unbeobachtbaren Eigenschaften
• Unterschiede zwischen Teilnehmern und Nicht-Teilnehmern
ausschließlich auf Programm zurückzuführen
13. 13
Beispiel: Kapitalerträge von Mikrounternehmern
in Entwicklungsländern
• De Mel, McKenzie, Woodruff: Experiment mit
Mikrounternehmern in Sri Lanka (z.B. QJE, 2008)
• Ziele
– Messung der Kapitalerträge in Kleinstunternehmen
– Gründe für hohe (?) Kapitalerträge
– Gründe für Unterschiede zwischen Unternehmern
– Potential für Mikrokredit/-finanzprogramme
• Schönes Beispiel für Anwendbarkeit von Experimenten im
Kontext von Privatwirtschaftsentwicklung
14. 14
Das Experiment
• Randomisiertes Experiment: Ein zufällig ausgewählter Teil der
befragten Umfrage Mikrounternehmen (Kapital < USD 1000) in
Sri Lanka erhält einen Transfer/Preis von USD 100 oder USD
200
– USD 100 Investitionsgüter oder cash
– USD 200 cash
• Fünf vierteljährliche Umfragerunden, Preise nach der ersten und
dritten (Lotterie)
• Investitionsgüter gewählt durch Unternehmer, gekauft durch
RAs
• 408 Unternehmen, ca. 50% erhalten treatment
15. 15
Einige Resultate
• 58 % des cash Transfers investiert
• Investitionen in Erweiterung des bestehenden Geschäft, keine
neuen riskanten Geschäfte
• Geschätzter Kapitalertrag: 4.6-5.3 % monatlich (80 % jährlich)
– Höher für fähigere Unternehmer
– Niedriger für reiche Haushalte (weniger
kreditmarktbeschränkt)
– Risikoaversion fast ohne Einfluss
• Unvollständige Kreditmärkte wichtiger als fehlende
Versicherungsmärkte
16. Probleme bei RCTs
• Greift ggf. in die Implementierung ein
• Ethische Fragen
• „Hawthorne-Effekt“: Verhaltensänderung aufgrund von
Teilnahme an einem Experiment
• (Verhinderung von) Spillovers
• Kritik von Deaton: u.a. Methodik (vieles unter anderem die
Berechnung von Standardfehlern unterliegt Annahmen, daher
kein „Gold Standard“, aber auch externe Validität, Verzerrung
versus Präzision
– Zum weiterhören: http://www.nyudri.org/events/annual-conference-2012-debates-in-
development/deaton-v-banerjee/ und lesen:
https://medium.com/@timothyogden/experimental-conversations-angus-deaton-
b2f768dffd57
16
17. 17
Quasi-experimentelle Methoden: Überblick
• Matching: Konstruktion einer Kontrollgruppe von Nicht-
Teilnehmern mit möglichst ähnlichen Charakteristika
• Double difference: erste Differenz Vorher-Nachher, zweite
Differenz Teilnehmer vs. Nicht-Teilnehmer
• Diskontinuitätsdesigns: Nutzung von „threshold effects“
(Schwellenwerteffekte), Vergleich von ansonsten sehr ähnlichen
Teilnehmern knapp über vs. knapp unter Schwellenwert
• Instrumentvariable: Zunächst Erklärung der
Programmteilnahme, dann der Wirkung
• Methoden kombinierbar
18. 18
Matching
• Jedem Teilnehmer wird mit Hilfe beobachtbarer Charakteristika
ein möglichst ähnlicher Nicht-Teilnehmer zugeordnet:
Kontrollgruppe
• Weit verbreitetes Matching-Verfahren: „Propensity Score
Matching“: Vergleich von Teilnehmern und Nicht-Teilnehmern
mit gleicher Wahrscheinlichkeit am Programm teilzunehmen
• Es wird angenommen, dass die Teilnahme gegeben
beobachtbarer Faktoren unabhängig vom Ergebnis (der
Wirkung) ist
• Wirkung: Differenz in den durchschnittlichen Zielgrößen
zwischen Teilnehmern und Kontrollgruppe
• starke Ähnlichkeit mit experimentellen Methoden
• Möglich wenn nur ex-post Daten existieren
19. 19
Matching: Probleme
• Strikte Annahme:
– Beseitigt nur den Teil der Selektionsverzerrung, der sich auf
beobachtbare Unterscheidungsmerkmale zurückführen lässt,
also keine “unobservable heterogeneity”
• Treatment effect on the treated ist dann identifiziert (nicht-
parametrisch)
• Hohe Qualität der Daten erforderlich
– Survey-Design für Teilnehmer und Nichtteilnehmer ähnlich
(am besten identisch)
– beiden Gruppen sollten ähnlichen ökonomischen
Rahmenbedingungen ausgesetzt sein
• In Empirie teils große Unterschiede in Ergebnissen auf der Basis
von Propensity-Score-Matching vis-a-vis RCTs (aber auch beim
Versuch der Replikation von RCTs)
20. 20
Double Difference
• Grundidee: Vergleich der Zielgrößen von Teilnehmern und
Nicht-Teilnehmern vor und nach der Implementierung
– Für Teilnehmer- und Nicht-Teilnehmergruppe wird der
Unterschied in der Zielgröße vor und nach Einführung des
Projekts berechnet (first difference)
– Vergleich der Differenzen (second difference): Wirkung
• Vorteil: Teil der Selektionsverzerrung durch unbeobachtbare,
aber über die Zeit konstant bleibende
Unterscheidungsmerkmale (z.B. Intelligenz) wird beseitigt
• Kann mit Matching kombiniert werden, um Selektionsverzerrung
noch weiter zu reduzieren
23. Oder …
DD unterschätzt die Wirkung
(typische Situation für Entwicklungsprojekte?)
24. Mögliche Lösung
• Kombination von PSM & DiD:
– ~ Korrektur der Verzerrung vor und hinterher
Y1
Impact?
Y1
*
Y0
t=0 t=1 time
25. 25
Double Difference: Probleme
• Vor Beginn des Programms müssen Daten für die potentiellen
Teilnehmer und Nicht-Teilnehmer erhoben werden: Oft keine
genauen Informationen darüber, wer die Begünstigten sein
werden
• Annahme einer zeitinvarianten Selektionsverzerrung ist häufig
nicht erfüllt:
– Programme für benachteiligte/arme Gruppen spiegeln idR
ungünstige Ausgangsbedingungen wider, die sich wiederum
negativ auf die Entwicklung der Zielgröße für Teilnehmer im
Vergleich zur Kontrollgruppe auswirken
– Selektionsverzerrung nimmt dann im Zeitablauf zu und
verzerrt den Schätzer für die Wirkung
26. 26
Zentral für Methodik: die passenden Daten
• Auf jeden Fall:
– Identifikation der (Nicht-) Teilnehmer
– Intensität oder Modalität der Teilnahme
– Sozioökonomische Charakteristika
– Wirkungsvariablen (direkte oder indirekte Wirkung)
• Vorsicht bei Operationalisierung der Wirkungsvariablen
(Einkommen, Konsum)
• Vorhandene Daten? „piggy-backing“?
• Kosten sehr unterschiedlich
• Methoden und Daten gehen Hand in Hand
27. 27
Methoden und Datenanforderungen
Methode Datenanforderungen
minimal optimal
Experimente Querschnittsdaten mit
Teilnehmern und Nicht-
Teilnehmern
Vorher-Nachher Daten mit
Teilnehmern und Nicht-Teilnehmern,
Erhebung weiterer Kontrollvariablen
Matching Querschnittsdaten mit
Teilnehmern und Nicht-
Teilnehmern mit großer
Stichprobe
Wie links, aber für zwei Zeitpunkte
(Vorher-Nachher)
Double Difference Vorher-Nachher-Daten mit
Teilnehmer und Nicht-
Teilnehmer
Wie links, aber für Teilnehmer und
vergleichbare Nicht-Teilnehmer
Instrument-
variablen
Querschnittsdaten mit
Teilnehmern und Nicht-
Teilnehmern, Instrument
Wie links, aber für zwei Zeitpunkte
(Vorher-Nachher)
28. 28
Conclusions
• Verzerrung einer Wirkungsbeobachtung kann zu vollkommen
falschen Schlüssen hinsichtlich der Wirkungen eines Projektes
führen! Anwendung rigoroser wissenschaftlicher Methoden
daher sinnvoll
• Trotz quantitativem Fokus: Grundsätzliche Probleme der
Identifizierung eines Gegenszenarios und der relevanten
Vergleichsgruppe sind bei qualitativen Verfahren die gleichen
• Fokus bisher: Interne Validität
• Um aus Wirkungsbeobachtungen zu lernen: Externe Validität
wichtiger
– Können diese Resultate generalisiert werden?
• Faktoren, die beachtet werden müssen, bevor man die
Ergebnisse einer Wirkungsbeobachtung verallgemeinert
– Kontextbedingungen
– Spillovers und allgemeine Gleichgewichtseffekte
– Bei Auswertung von Studien: Publikationsbias