Multiple Regression

Vertiefungsrichtung Marktforschung
Sommersemester 2006
Dipl.-WiInf.(FH) Christian Reinboth

Multiple Regression
Erkennen
Darstellen

Beschreiben Testen

Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth

Multiple Regression
Vielseitiges, strukturprüfendes und am häufigsten eingesetztes multivariates Analyseverfahren
●

Ziel: Analyse von Beziehungen zwischen einer abhängigen Variablen und einer (univariater Fall)
●

oder mehreren (multivariater Fall) unabhängigen Variablen
Anwendung: Beschreibung und Erklärung von Zusammenhängen und Durchführung von Prognosen
●

Beispiel: Hängt die Absatzmenge eines bestimmten Produktes von den Ausgaben für die Qualitätssicherung,
●

den Ausgaben für die Werbung oder bzw. und der Anzahl der Verkaufsstellen ab?
Wenn ja, wie stark fallen die jeweiligen Zusammenhänge aus? Wie wird sich die Absatzmenge entwickeln,
●

wenn bestimmte Ausgaben erhöht oder gesenkt werden?


Inhalte: Multiple Regression
Die Multiple Regression Prüfung der Modellprämissen
● ●

Exkurs: Korrelation und Kausalität Tests an den Residualgrößen
● ●

Formulierung des Regressionsmodells Test auf Normalverteilung
● ●

Analysevoraussetzungen Histogramm & P-P-Diagramm
● ●

Transformation nichtlinearer Variablen Kolmogoroff-Smirnov-Anpassungstest
● ●

Berechnung des Regressionsmodells Test auf Homoskedastizität
● ●

Schätzung der Regressionsfunktion Streudiagramm & Box-Plot
● ●

Auswahl einer Geraden Levene-Test auf Homoskedastizität
● ●

Methode der kleinsten Quadrate Test auf Autokorrelation
● ●

Aufstellung der Regressionsgleichung Test an den Variablen
● ●

Regressions- und Beta-Koeffizienten Test auf Multikollinearität
● ●

Messung der Anpassungsgüte Korrelationsmatrix
● ●

R² und korrigiertes R² Toleranz & Varianzinflationsfaktor
● ●

Standardfehler der Schätzung Zerlegung der Varianzanteile
● ●

F-Statistik Test auf linearen Zusammenhang
● ●

Prüfung der Regressionskoeffizienten
●

t-Test der Regressionskoeffizienten
●

Konfidenzintervalle um die Koeffizienten
●


Die Multiple Regression
Die Regressionsanalyse ist das flexibelste und am häufigsten eingesetzte multivariate Analyseverfahren
●

Untersucht wird die Beziehung zwischen einer abhängigen und einer oder mehrerer unabhängigen Variablen
●

Sie wird verwendet um:
●

Zusammenhänge quantitativ darzustellen und zu erklären (Ursachenanalyse)
●

Werte der abhängigen Variablen zu prognostizieren (Wirkungsprognose)
●

Beispiel: Wie verändert sich die Absatzmenge (abhängige Variable) bei Veränderungen am Produktpreis, den
●

Werbeausgaben oder der Anzahl der öffentlichen Verkaufsveranstaltungen (unabhängige Variablen)?

Ergebnis des Verfahrens ist die Regressionsfunktion:
●

Y = f(X) > einfache Regression (eine abhängige und eine unabhängige Variable)
●

Y = f(X1, X2, X3...Xn) > multiple Regression (eine abhängige und mehrere unabhängige Variablen)
●

Problemfall interdependente Beziehungen:
●

Beeinflusst der Bekanntheitsgrad die Absatzmenge oder beeinflusst die Absatzmenge den Bekanntheitsgrad?
●

Dieses System ist nicht in einer einzelnen Gleichung erfassbar, sondern nur im Mehrgleichungsmodell
●


Exkurs: Korrelation und Kausalität

Drei Formen der Korrelation:

1 2 3

Variable A
Variable A Variable A
Gemeinsame
Hintergrund-
variable C
Variable B
Variable B Variable B

Variable A beeinflusst Variable B Variable B beeinflusst Variable A Beeinflussung beider Variablen durch C

Durch die Regressionsanalyse lassen sich keine Kausalitäten nachweisen!

Korrelation ist eine notwendige aber keine hinreichende Bedingung für Kausalität!


Ablauf der Multiplen Regressionanalyse
Zunächst werden die abhängige sowie die unabhängigen Variablen
Schritt 1 bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen
Formulierung des Modells müssen. Außerdem sind die Grundvorraussetzungen bezüglich des
Prüfung der Grundvoraussetzungen Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen.

Im zweiten Schritt werden die Regressionskoeffizienten anhand der
Schritt 2 Methode der kleinsten Quadrate berechnet und anschließend die
Schätzung der Regressionsfunktion Regressionsfunktion aufgestellt.
Aufstellung der Regressionsfunktion

Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen
Schritt 3 ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut
Prüfung der Regressionsfunktion und erklären kann und (b) welchen Beitrag die einzelnen unabhängigen
Prüfung der Regressionskoeffizienten Variablen zur Erklärung von Y leisten.

Schritt 4 Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen
eingehalten wurden, d.h. ob keine Autokorrelation der Residuen
Prüfung der Modellvoraussetzungen vorliegt und sich diese näherungsweise normal verteilen etc. Ist
Interpretation der Ergebnisse das gefundene Modell valide, kann es inhaltlich interpretiert werden.


Formulierung des Modells

Die Regressionsanalyse ist ein struktur-
●

prüfendes Verfahren und dient nicht der
Entdeckung unbekannter Zusammenhänge
Das zu untersuchende Regressionsmodell
●

muss vor Beginn der Analyse auf Basis
von Sachinformationen gebildet werden
Das Modell sollte so konstruiert werden,
●

dass eine möglichst vollständige
Abbildung der Ursache-Wirkungs-
Beziehungen vermutet werden kann

Zur Hilfe beim Auffinden der für das
●

Modell geeigneten Variablen eignen sich
Streudiagramme (univariate Fälle) und
Matrixdiagramme (multivariate Fälle)
Ein linearer Zusammenhang zwischen
●

zwei Variablen ist immer dann zu
vermuten, wenn die Punkte im Diagramm
eng um eine gedachte Gerade streuen


Analysevoraussetzungen
Grundvoraussetzungen:
●

Das Kausalgeflecht (abhängige und unabhängige Variable(n)) muss bekannt sein oder vermutet werden
●

Der Zusammenhang zwischen abhängiger und unabhängigen Variablen muss linear sein
●

Ein quadratischer, logarithmischer, monotoner oder anders gerarteter Zusammenhang wird nicht aufgedeckt
●

Alle verwendeten Variablen müssen metrisch skaliert sein (Verfahren arbeitet mit dem Standardmittelwert)
●

Für die unabhängigen Variablen lassen sich auch nominalskalierte Dummy-Variablen einsetzen
●

Die Grundvoraussetzungen sind stets vor Beginn der Regressionsanalyse zu überprüfen!

Weitere Modellvoraussetzungen:
●

Die unabhängigen Variablen dürfen nicht untereinander korrelieren (Multikollinearität)
●

Die standardisierten Residuen (durch das Modell nicht erklärte Abweichungen) müssen:
●

näherungsweise normalverteilt sein
●

die gleiche Varianz besitzen (Homoskedastizität)
●

und dürfen nicht untereinander korrelieren (Autokorrelation)
●

Die übrigen Modellvoraussetzungen sind stets im Anschluss an die Regressionsanalyse zu überprüfen!


Transformation nichtlinearer Variablen
Das lineare Regressionsmodell dient nicht der Bestimmung der optimalen Kurvenanpassung in allen Fällen
●

Es setzt einen linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen voraus
●

Liegen nichtlineare Zusammenhänge vor, ist die Transformation einzelner Variablen möglich
●

Beispiel: Bei Wachstumsprozessen kommt es häufig vor, dass sich die unabhängige Variable
●

linear, die abhängige Variable aber exponentiell verändert (z.b. bei der Schadstoffkonzentration)

Bei einer solchen zeitgebundenen exponentiellen Entwicklung, lässt sich der Zusammenhang
●

zwischen der Schadstoffkonzentration (abhängige Variable) und der Zeit (unabhängige Variable)
darstellen als:
Dieser Zusammenhang ist nichtlinear und damit für die Regressionsanalyse ungeeignet
●

Wird die Gleichung logarithmiert ergibt sich dagegen folgendes Bild:
●

Dieser Zusammenhang ist linear und lässt eine Regressionsanalyse zu
●

Als abhängige Variable sind die logarithmierten Werte von Y zu verwenden
●

Y =a∗e b∗t  ln Y =ln  ab∗t
> Transformation (ln) >


Schätzung der Regressionsfunktion
Grundprinzip am Beispiel einer einfachen linearen Regression:
●

Der Zusammenhang zwischen den beiden Variablen im Streudiagramm ist nicht perfekt
●

Beide Variablen bewegen sich jedoch tendenziell in die gleiche Richtung, ein linearer Trend ist erkennbar
●

Es kommen theoretisch mehrere Geraden in Frage um den Verlauf der Punkte nachzuzeichnen
●

Entscheidende Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten?
●


Auswahl einer Geraden
Welche der möglichen Geraden liefert die „besten“ Schätzwerte?
●

Ermittlung der senkrechten Abstände zwischen geschätzten und beobachteten „wahren“ Punkten
●

Da die Punkte auf beiden Seiten der Geraden liegen, ergeben sich positive wie negative Abstände
●

Auswahl derjenigen Geraden, bei der sich positive und negative Abstände gegenseitig aufheben
●

Bei dieser Geraden beträgt der durchschnittliche Schätzfehler Null, die Punkte sind gleichmäßig verteilt
●

Welches Problem ergibt sich bei diesem Auswahlverfahren?
●


Auswahl einer Geraden
Beispielrechnung:
●

Der senkrechte Abstand des Punktes i zur Geraden Y =ab∗X berechnet sich als: e i=Y i−ab∗X i
●

Für eine Untersuchung mit 100 Fällen kann i die Werte 1 bis 100 annehmen
●

∑ e i =∑ Y i−ab∗X i=∑ Y i −100∗a−b∗∑ X i
Die Summe aller Abstände berechnet sich daher als:
●

Sollen die Summen der Abstände Null sein gilt: ∑ Y i−100∗a−b∗∑ X i=0
●

Dividiert durch die Zahl der Beobachtungen:  ∑ Y i −a−b∗ ∑ X i  Y −a−b∗ X =0
●
 
100 100

 
Diese Rechnung führt zu dem Schluss, dass die Summe der Abstände stets Null beträgt, wenn: Y =ab∗ X
●

Diese Bedingung trifft aber auf alle Geraden zu, die
●

durch den Punkt aus den beiden Mittelwerten laufen, wobei
●

die Steigung der Geraden vollkommen irrelevant wäre
●

Diese Vorgehensweise ist daher zur Ermittlung der optimalen Regressionsgerade ungeeignet
●

Besser geeignet ist die sogenannte „Methode der kleinsten Quadrate“ (Statistik I)
●


Methode der kleinsten Quadrate
Minimierung der Summe der Abweichungsquadrate = Methode der kleinsten Quadrate
●

Auch die Methode der kleinsten Quadrate arbeitet mit den senkrechten Abständen der realen Werte von der Gerade
●

Die Abstände werden jedoch quadriert, so dass sämtliche negativen Vorzeichen wegfallen
●

Eine Kompensation der positiven und negativen Abstände wird dadurch vermieden
●

Es wird diejenige Gerade selektiert, bei der die Summe der quadrierten Abstände minimal ist
●

K k

Durch Umformung der Zielfunktion ∑ e k =∑ [ y k −ab∗x k ]  min ! erhält man die Parameter der Regressionsfunktion:
2 2
●
k =1 k=1

I  ∑ x I ∗yk −∑ x I ∗∑ yI 
Regressionskoeffizient: b=
●
2
 I ∑ xk −∑ x k 
2

Konstantes Glied/Konstante: a=  −b∗
y x
●

Die Gleichung der Regressionsgeraden im Einfaktoren-Fall lautet: Y =a∗b X
●

Die Gleichung der Regressionsgeraden im Mehrfaktoren-Fall lautet dagegen: Y =b0 b1∗X 1b 2∗X 2b j∗X j b J ∗X J
●

Die Berechnung der Regressionsparameter erfolgt analog zur Berechnung im Einfaktoren-Fall
●


Aufstellung der Regressionsgleichung
Einfaktoren-Fall:
●

Y =1928,211,91∗X
Gehalt mit 40 in Abhängigkeit vom
●

Anfangsgehalt bei Berufseinstieg
Jeder Euro Mehrverdienst bei Berufseinstieg
●

führt zu zwei Euro mehr Gehalt mit 40?

Mehrfaktoren-Fall:
●

Y =1928,211,91∗X 11020,40∗X 2
Gehalt mit 40 in Abhängigkeit vom
●

Anfangsgehalt bei Berufseinstieg und
der Ausbildungsdauer (in Jahren)
Jedes zusätzliche Ausbildungsjahr führt
●

zu über 1000 Euro mehr Gehalt mit 40?
Wie lässt sich dies vermutlich erklären?
●

Was zeigen die standardisierten Koeffizienten?
●

Vorsicht: Mit SPSS lässt sich IMMER eine Regressionsfunktion berechnen!


Regressions- und Beta-Koeffizienten
Häufig ist es interessant festzustellen, welchen Einfluß die einzelnen unabhängigen Variablen auf Y ausüben
●

Welche der Variablen liefert den höchsten, welche den niedrigsten Erklärungsbeitrag für Y?
●

Zur Beantwortung dieser Frage ist ein einfacher Vergleich der Koeffizienten nicht ausreichend
●

Grund: Die erklärenden Variablen können unterschiedliche Dimensionen aufweisen
●

Wenn dies der Fall ist, werden auch die Koeffizienten in unterschiedlichen Dimensionen geschätzt
●

Eine Änderung der Dimension (z.B. Prozent- statt Absolutwerte) hat unmittelbaren Einfluss auf den Koeffizienten
●

Eine solche Änderung hat jedoch keinen Einfluß auf den Erklärungsgehalt der Variablen
●

Darum dürfen die Koeffizienten bezüglich des Erklärungsgehalts nicht direkt miteinander verglichen werden
●

Die Lösung besteht in der Berechnung der standardisierten Beta-Koeffizienten
●

Diese ergeben sich durch die Z-Transformation aller Variablen vor Beginn der Regressionsanalyse
●

sxi
Alternativ lassen sie sich auch direkt aus den Koeffizienten berechnen: beta i =bi∗ s 
●
y

betai = Beta-Koeffizient der unabhängigen Variablen i

b1 = Regressionskoeffizient der unabhängigen Variablen i

sxi = Standardabweichung der unabhängigen Variablen i

sy = Standardabweichung der abhängigen Variablen Y


Messung der Anpassungsgüte
Da sich mit SPSS immer eine Regressionsfunktion berechnen lässt, stellt sich die Frage nach deren Güte
●

Wie gut wird die abhängige Variable Y durch das gefundene Regressionsmodell erklärt?
●

Zur Feststellung der Anpassungsgüte existieren drei Kennwerte:
●

Bestimmtheitsmaß R² und korrigiertes R² (bei multivariaten Verfahren)
●

Standardfehler der Schätzung
●

F-Statistik
●

Wie aussagekräftig ist das Regressionsmodell insgesamt?


R² und korrigiertes R²
Y

Xi/Yi
Yi

{}
Regressionsgerade
Nicht erklärte
Residuum Abweichung ei
Gesamte
Abweichung
Y*
Erklärte
{
Abweichung
_
Y

X
_
Xi
X


Die Regressionsgerade gibt Zusammenhänge, die nicht perfekt linear sind, nicht perfekt wieder
●

Es ist daher mit der Regressionsfunktion nur selten möglich, alle Veränderungen in Y durch die Koeffizienten zu erklären
●

In der Regel wird ein Teil der Veränderungen erklärt werden können, ein anderer Teil wird unaufgeklärt bleiben
●

Das Verhältnis von erklärter Streuung zur Gesamtstreuung ist ein gutes Maß für die Güte des Regressionsmodells
●

Residuen werden quadriert, damit sich positive und negative Abweichungen nicht aufheben
●

Berechnung des Güßtemaßes R² mit:
●

TSS = Total Sum of Squares = Summe aller quadrierten Abweichungen
●

ESS = Explained Sum of Squares = Summe aller erklärten quadrierten Abweichungen
●

RSS = Residual Sum of Squares = Summe aller nicht erklärten quadrierten Abweichungen
●

ESS
2
Die Relation zwischen erklärter Streuung und Gesamtstreuung wird mit R² bezeichnet: R =
●
TSS

Der Wert von R² gibt den Anteil der erklärten Streuung an der Gesamtstreuung wieder > Güte der Anpassung
●

R² ist als prozentualer Wert zu verstehen und liegt daher stets zwischen 0 und 1
●

R² = 1 > Gesamte Streuung wird erklärt, es besteht ein perfekter linearer Zusammenhang
●

Je kleiner R² ausfällt, desto mehr weicht der vorliegende Fall vom linearen Zusammenhang ab
●

Beachte: R² ist lediglich ein Maß für den linearen Zusammenhang, nicht für andere Zusammenhänge
●


Zusätzlich zu R² wird von SPSS für multivariate Regressionsanalysen noch das korrigierte R² berechnet
●

Warum ist ein zusätzliches Gütemaß neben R² erforderlich?
●

Die Aufnahme zusätzlicher erklärender Variablen führt nie zu einer Verschlechterung von R²
●

Besteht gar kein Zusammenhang mit Y bleibt R² unverändert
●

Besteht ein minimaler Zusammenhang mit Y steigt R² dagegen leicht an
●

Ergebnis: wahllos viele Variablen werden ins Regressionsmodell aufgenommen
●

Dadurch ergibt sich ein hohes R² und ein vermeintlich gutes Regressionsmodell
●

Aber: die prognostizierten Werte werden mit steigender Variablenzahl unzuverlässiger
●

Daher: keine Variablen zur Minimalsteigerung von R² ins Regressionsmodell aufnehmen
●

Rechtfertigt der Erklärungsanteil einer Variablen die Zunahme an Unsicherheit? > korrigiertes R²
●

ESS
2
Herleitung der Berechnungsvorschrift erfolgt aus R²: R = TSS
●

TSS− RSS  TSS RSS RSS
Da sich TSS aus ESS und RSS zusammensetzt, lässt sich R² auch berechnen als: R2= = − =1−
●
TSS TSS TSS TSS
 RSS / n−k 
2
Das korrigierte R² berechnet sich dann als: Rkorr =1− TSS /n−1
●

Wird eine erklärende Variable hinzugefügt, ergeben sich zwei gegenläufige Effekte:
●

RSS verringert sich, wodurch sich das korrigierte R² erhöht
●

Der Wert für k erhöht sich, wodurch sich das korrigierte R² verringert
●

Je nachdem, welcher Effekt überwiegt, sollte die erklärende Variable ins Modell aufgenommen werden oder nicht
●


Standardfehler der Schätzung
Residuen können sowohl positiv als auch negativ ausfallen, liegen im Durchschnitt der Beobachtungen aber bei Null
●

Dies impliziert, dass die prognostizierten Werte falsch sein können, im Durchschnitt aber korrekt ausfallen
●

Es stellt sich die Frage, ob die prognostizierten Werte in der Nähe der wahren Werte liegen oder stark abweichen
●

Theoretisch denkbar sind gewaltige Abweichungen in beide Richtungen, die sich im Durchschnitt neutralisieren
●

Um den positiv-negativ-Effekt zu neutralisieren, werden die Residuen zunächst quadriert
●

Die Summe der quadrierten Residuen wird anschließend durch die Anzahl der Beobachtungswerte geteilt
●

∑ e 2i
Dadurch wird die sich ergebende Kennzahl von der Stichprobengröße unabhängig (Vergleichbarkeit):
●

n
∑ e 2i = ∑ e 2i −  (Varianz der Residuen)
e
Da der Mittelwert der Residuen gleich Null ist, gilt ebenfalls:
●

n n
Aus methodischen Gründen wird oft nicht durch n sondern durch n abzüglich der erklärenden Variablen dividiert
●

∑ e 2i
Es ergibt sich folgender Term: (Beachte: auch die Konstante gehört zu den erklärenden Variablen)
●


n−k 
∑ e 2i 
Die Quadratwurzel dieses Terms ergibt die Standardabweichung der Residuen (=Standardfehler der Schätzung): 
●

n−k 

Der Standardfehler der Schätzung ist ein Maß für die Anpassungsgüte der Regressionsgleichung
●

Er ist vergleichbar mit R² und korrigiertem R² und inhaltlich ähnlich zu interpretieren
●


F-Statistik
R² und korrigiertes R² zeigen die Anpassung der Regressionsgeraden an die beobachteten Werte
●

Es stellt sich die Frage, ob das Regressionsmodell auch über die Stichprobenwerte hinaus Gültigkeit besitzt
●

Ein geeignetes Prüfkriterium bildet die F-Statistik, in welche eingehen:
●

die Streuungszerlegung
●

der Umfang der Stichprobe
●

Die Regressionsfunktion der Stichprobe lässt sich darstellen als: Y =b0 b1∗X 1b 2∗X 2b j∗X j b J ∗X J
●

Sie ist die Realisation der „wahren“ Regressionsfunktion: Y =01∗X 12∗X 2 j∗X j J ∗X J u
●

Die neue Variable u wird als Störgröße bezeichnet
●

Sie repräsentiert alle zufälligen Einflüsse außerhalb der betrachteten Variablen
●

Die Störgröße selbst kann nicht beobachtet werden, zeigt sich aber in den Residuen
●

Durch den Einfluss von u wird Y zu einer Zufallsvariablen, ebenso wie die Schätzwerte der Regressionsparameter
●

Würde man die Stichprobe wiederholen würden sich andere Regressionsparameter ergeben
●

Bei wiederholten Stichproben würden diese Parameter um die „wahren“ Parameter schwanken
●


F-Statistik
Annahme der Regressionsanalyse: kausaler Zusammenhang zwischen abhängiger und unabhängigen Variablen
●

Besteht ein solche Zusammenhang tatsächlich, können die „wahren“ Regressionsparameter unmöglich Null sein
●

Zur Überprüfung dieser Annahme wird das Regressionsmodell mit Hilfe eines F-Tests varianzanalytisch untersucht
●

Die Nullhypothese H0 dieses Tests lautet: H 0 : 1=2== J =0
●

Es besteht kein wirklicher Zusammenhang zwischen abhängigen und unabhängigen Variablen
●

Alle „wahren“ Regressionskoeffizienten in der Grundgesamtheit sind daher gleich Null
●

Vorgehensweise des F-Tests:
●

Berechnung eines empirischen Werts aus der F-Statistik
●
2 Ausdruck der F-Verteilung
m
Vergleich dieses Werts mit einem kritischen Wert m
●

F-verteilte Größe mit m und n
2
n
Bei Gültigkeit von H0 ist ein F-Wert von Eins zu erwarten F  m ,n =
●
Freiheitsgraden
n
Abweichungen von Null machen H0 unwahrscheinlich
●

Bei deutlichen Abweichungen kann H0 verworfen werden
●

Schlußfolgerung: Zusammenhang in der Grundgesamtheit
●

Vorsicht: Es kann nichts darüber gesagt werden, zwischen
●

welchen Variablen Zusammenhänge bestehen, nur dass
nicht alle wahren Parameter bei Null liegen (!)


Dichtefunktionen der F-Verteilung


Prüfung der Regressionskoeffizienten
Wenn die Validität des Modells feststeht, stellt sich die Frage nach der Validität der einzelnen Koeffizienten
●

Gehören alle im Regressionsmodell untergebrachten Variablen auch in dieses Modell?
●

Zur Feststellung der Güte der Koeffizienten existieren zwei Kriterien:
●

●

Konfidenzintervalle um die Regressionskoeffizienten
●

Wie aussagekräftig sind die einzelnen Regressionskoeffizienten?


Wird die Nullhypothese im F-Test verworfen, bedeutet dies dass es mindestens einen Zusammenhang geben muss
●

Es bedeutet hingegen nicht, dass alle unabhängigen Variablen ins Regressionsmodell gehören
●

Es erscheint daher logisch, einen identischen Test für jeden einzelen Regressionskoeffizienten durchzuführen
●

Ein geeignetes Prüfkriterium für diesen Test ist die t-Statistik
●

b j− j 
Der T-Wert einer unabhängigen Variable wird berechnet, indem deren
●
t emp=
s bj
Regressionskoeffizient durch dessen Standardfehler dividiert wird:
Nullhypothese H0: die t-Statistik folgt der bekannten t-Verteilung (Student-Verteilung) um den Mittelwert Null
●

Bei Gültigkeit der Nullhypothese ist für die t-Statistik ein Wert von Null zu erwarten
●

Weicht der empirische t-Wert stark von Null ab, so ist es unwahrscheinlich, dass H0 korrekt ist
●

In diesem Fall ist diese zu verwerfen
●

Daraus ist zu folgern, dass der „wahre“ Regressionskoeffizient ungleich Null sein muss
●

Dies wiederum bedeutet, dass in der Grundgesamtheit ein Zusammenhang zwischen Y und der X-Variablen besteht
●


Konfidenzintervalle um die Koeffizienten
Mit einem Konfidenzintervall (Vertrauensbereich) lässt sich die
●

Lage eines Parameters mit einer bestimmten Wahrscheinlichkeit
abschätzen

Ist das Konfidenzintervall um einen Regressionskoeffizienten zu breit,
●

muss die geschätzte Regressionsgerade als unsicher betrachtet werden
Dies gilt insbesondere dann, wenn innerhalb des Konfidenzintervalls
●

ein Vorzeichenwechsel vorliegt, sich der Einfluss also umkehren kann

b j −t∗s bj  ß jb j t∗sbj
ßj = wahrer Regressionskoeffizient (unbekannt)
bj = geschätzter Regressionskoeffizient
t = t-Wert aus der Student-Verteilung
sbj = Standardfehler des Regressionskoeffizienten


Übersicht der Modellprämissen
J
y k = ß 0∑  ß j∗x jk u k
A1. mit k = 1, 2, ..., K und K > J+1
j =1

Das Modell ist richtig spezifiziert, d.h.
Alle entscheidenden unabhängigen Variablen sind im Modell erfasst
●

Es besteht ein linearer Zusammenhang zwischen abhängigen und unabhängigen Variablen
●

Die Zahl der zu schätzenden Parameter (J+1) ist kleiner als die Zahl der Beobachtungen (K)
●

Erw u k =0
A2. Die Störgrößen haben den Erwartungswert Null

Diese Annahme wird verletzt, wenn Y mit einem konstanten Fehler gemessen wird
●

Dies wird durch die Methode der kleinsten Quadrate erzwungen
●

Der dadurch entstehende Fehler geht in das konstante Glied der Regressionsgleichung ein
●

A3. Unabhängige Variablen und Residuen korrelieren nicht
Cov u k , x jk =0
2
Var u k =
A4. Die Residuen haben eine konstante Varianz (Homoskedastizität)
Cov u k ,u kr =0
A5. Die Residuen sind unkorreliert (keine Autokorrelation)
A6. Zwischen den unabhängigen Variablen besteht kein linearer Zusammenhang (keine Multikollinearität)
A7. Die Residuen uk sind normalverteilt


Tests zur Prüfung der Modellprämissen
Tests an den Residualgrößen
●

Test auf Normalverteilung der Residualgrößen (Histogramm, P-P-Diagramm, Kolmogoroff-Smirnov)
●

Test auf Varianzgleichheit/Homoskedastizität der Residualgrößen (Streudiagramm, Box-Plot, Levene-Test)
●

Test auf Autokorrelation der Residualgrößen (Durbin-Watson-Test)
●

Tests an den abhängigen und unabhängigen Variablen
●

Test auf Multikollinearität der unabhängigen Variablen (Korrelationsmatrix, Toleranz & VIF, Varianzanteile)
●

Test auf linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen (Streudiagramm, Scatterplot)
●

Sind alle Modellprämissen erfüllt?


Prüfung der Residualgrößen
Residuen = Differenzen zwischen empirischen und durch die Regressionsfunktion geschätzten Variablenwerten
●

Zentrale Forderung des Regressionsmodells: Residuen müssen zufällig verteilt sein
●

Bei der Untersuchung der Residuen dürfen keine erkennbaren Muster gefunden werden
●

Gibt es Muster so ist zu vermuten, dass das geschätzte Regressionsmodell fehlerhaft ist
●

Ein Fehler der zu einem Muster in den Residuen führt, kann verschiedene Ursachen haben:
●

Es wurden wichtige Variablen nicht in die Analyse mit einbezogen
●

Der Zusammenhang ist nicht linear, sondern quadratisch, monoton, etc.
●

Residuen sollten daher zufällig auftreten und normalverteilt sein
●

Normalverteilung ist keine Voraussetzung für die Schätzung der Regressionsgraden
●

Sie ist aber ausschlaggebend für die Aussagekraft von F-Test und t-Test
●

Grafischer Test auf Normalverteilung mit Histogramm und P-P-Diagramm
●

Statistischer Test auf Normalverteilung (Levene-Test)
●


Normalverteilungsprüfung: Einführung
2
−1  x−
 
1 
2
Die Gauß- oder Normalverteilung ist die wichtigste kontinuierliche Wahrscheinlichkeitsverteilung f  x = e
●
  2

Die zugehörige Dichtefunktion ist
●

als Gaußsche Glockenkurve bekannt

Eigenschaften:
●

Dichtefunktion ist
●

glockenförmig und
symmetrisch
Erwartungswert, Median
●

und Modus sind gleich
Zufallsvariable hat eine
●

unendliche Spannweite

Viele statistische Verfahren setzen
●

die Normalverteilung der Daten
in der Grundgesamtheit voraus
Es ist daher häufig zu prüfen,
●

ob von einer solchen Verteilung
µ
ausgegangen werden kann
Erwartungswert
(auch näherungsweise)
Median
Modus


Normalverteilungsprüfung: Dichtefunktion


Normalverteilungsprüfung: Histogramm
Grafische Analyse mit Histogramm und überlagerter Normalverteilungskurve
●

Die Balken des Histogramms spiegeln die Breite
●

der Wertebereiche wieder – da zudem für leere
Wertebereiche ein Freiraum ausgegeben wird,
kommt im Histogramm die gesamte empirische
Verteilung der Variablen zum Ausdruck
Dies ermöglicht den direkten Vergleich mit einer
●

eingezeichneten theoretischen Verteilung, wie
beispielsweise der Normalverteilung
Der Grad der Abweichung einer Normalverteilung
●

lässt sich auch anhand verschiedener Maßzahlen wie
Exzeß (Kurtosis) und Schiefe bestimmen


Normalverteilungsprüfung: Q-Q
Grafische Analyse mit Q-Q-Diagramm und trendbereinigtem Q-Q-Diagramm
●


Normalverteilungsprüfung: K-S-A
Die Prüfung auf Vorliegen einer Normalverteilung kann auch mit einem Anpassungstests erfolgen
●

In SPSS lässt sich dazu beispielsweise der Kolmogorov-Smirnov-Anpassungstest nutzen
●

Der Test arbeitet mit der kumulierten empirischen und der kumulierten erwarteten Referenzverteilung
●

Die maximale Differenz zwischen beiden Verteilungen wird zur Berechnung der Prüfgröße Z nach Kolmogorov-Smirnov
●

verwendet, mit der dann aus einer Tabelle der für einen Stichprobenumfang n kritische Wert für die maximale Differenz
bei einem gegebenen Signifikanzniveau abgelesen werden kann

Nullhypothese H0 des SPSS-Tests: die Werte der untersuchten Variablen sind normalverteilt
●

Berechnet wird die Wahrscheinlichkeit, mit der das Zurückweisen dieser Hypothese falsch ist (Signifikanzwert)
●

Je größer diese Wahrscheinlichkeit ausfällt, desto eher ist von einer Normalverteilung der Werte auszugehen
●

Im nebenstehenden Beispiel eines
●

Kolmogorov-Smirnov-Tests fällt
der Signifikanzwert mit 0,00 so
niedrig aus, dass die Annahme der
Normalverteilung zurückzuweisen ist
Bei der Interpretation ist zu beachten,
●

dass es sich um einen Test auf perfekte
Normalverteilung handelt
Anzuraten ist daher die Kombination
●

mit einem der grafischen Prüfverfahren


Homoskedastizitätsprüfung: Levene-Test
Viele statistische Verfahren setzen voraus, dass die Varianzen innerhalb verschiedener Fallgruppen gleich sind
●

(beispielsweise Signifikanztests und Mittelwertvergleiche)
Gleichheit der Varianzen = Homoskedastizität
●

Ungleichheit der Varianzen = Hetroskedastizität
●

Mit dem Signifikanztest nach Levene wird die Nullhypothese H0 überprüft, dass die Varianzen in der
●

Grundgesamtheit in allen Gruppen homogen (gleich) sind
Der Test arbeitet mit dem F-Wert als statistischem Prüfmaß mit bekannter Verteilung
●

Es wird getestet, mit welcher Wahrscheinlichkeit die beobachteten Abweichungen in den Varianzen
●

auftreten können, wenn in der Grundgesamtheit absolute Varianzgleichheit herrscht
Diese Wahrscheinlichkeit wird als Testergebnis ausgewiesen
●

Eine geringe Wahrscheinlichkeit weist auf eine Varianzungleichheit hin
●


Grafische Homoskedastizitätsprüfung
Eine grafische Prüfung auf Homoskedastizität kann mit Streudiagrammen oder Boxplots durchgeführt werden
●

Hierbei ist auf die unterschiedlichen Streuungen und die Höhe des Medians zu achten
●


Test auf Autokorrelation der Residuen
Was ist unter Autokorrelation zu verstehen?
●

Frage: Bestehen zwischen den Residuen nebeneinanderliegender Fälle systematische Zusammenhänge?
●

Beispiel: Auf große positive Residuen folgen regelmäßig große negative Residuen
●

Eine derartige Systematik wird als Autokorrelation der Residuen bezeichnet
●

Wie kann es zu Autokorrelation kommen?
●

Die Möglichkeit einer Autokorrelation besteht immer, wenn die Fälle nicht zufällig angeordnet sind
●

Dies ist beispielsweise bei Zeitreihenanalysen der Fall, wo die Fälle zeitlich geordnet vorliegen
●

Worauf deutet eine Autokorrelation hin?
●

Erklärungsrelevante Variablen wurden nicht in das Regressionsmodell aufgenommen
●

Falscher funktionaler Zusammenhang (z.B. quadratisch statt linear) wurde vorausgesetzt
●

Autokorrelation führt dazu, dass die Standardfehler zu gering geschätzt werden
●

Die Ergebnisse der Signifikanztests sind damit nicht mehr zuverlässig
●

Koeffizienten werden als signifikanter eingestuft als sie es tatsächlich sind
●

Zur Suche nach Autokorrelationen wird der Durbin-Watson-Test durchgeführt
●


Durbin-Watson-Test auf Autokorrelation
Der Durbin-Watson-Koeffizient kann Werte zwischen 0 und 4 annehmen
●

Je näher der Koeffizient am Wert von 2 liegt, desto geringer ist das Ausmaß der Autokorrelation
●

Werte deutlich unter 2 weisen auf eine positive Autokorrelation hin, Werte deutlich über 2 auf eine negative
●

Faustregel: Werte zwischen 1,5 und 2,5 sind akzeptabel, Werte unter 1 oder über 3 deuten auf Autokorrelation hin
●

Einschränkung: Der Durbin-Watson-Test misst lediglich Autokorrelationen der 1. Ordnung
●

Eine Autokorrelation der 1. Ordnung liegt vor, wenn direkt benachbarte Fälle miteinander verknüpft sind
●

Bei quartalsweise erhobenen Daten ist jedoch auch eine Autokorrelation der 4. Ordnung denkbar
●

In diesem Fall sollte auf den Wallis-Test auf Autokorrelationen 4. Ordnung zurückgegriffen werden
●

Der Durbin-Watson-Test kann nur unter zwei Voraussetzungen korrekt interpretiert werden:
●

Die Regressionsgleichung muss einen konstanten Term enthalten
●

Die abhängige Variable darf nicht zeitverzögert als erklärende Variable verwendet werden (Zeitreihenanalysen!)
●

Beispiel: Erklärende Variable für aktuelle Schadstoffbelastung ist die Belastung des Vormonats
●

4
2 3
1
0


Kollinearitätsdiagnostik
Was ist Kollinearität?
●

Kollinearität liegt vor, wenn zwei oder mehr unabhängige Variablen untereinander korrelieren
●

Beispiel: Ernteertäge (Y) sollen durch Sonnenscheindauer (X1) und Durchschnittstemperatur (X2) erklärt werden
●

Annahme: Eine lange Sonnenscheindauer sorgt für steigende Durschnittstemperaturen
●

Es liegt also ein Korrelation zwischen den beiden erklärenden Variablen vor
●

Es ist nicht festzustellen, zu welchen Teilen eine Veränderung in Y auf X1 und X2 zurückzuführen ist
●

Bei perfekter Kollinearität lässt sich eine erklärende Variable über eine andere erklärende Variable berechnen
●

Liegt eine perfekte Kollinearität vor, kann eine der betroffenen Variablen leicht erkannt und ausgeschlossen werden
●

Bei einer imperfekten Kollinearität lässt sich die Regressionsgleichung mathematisch wie bisher durchführen
●

Es ergibt sich ein unverzerrtes R², die Schätzung der Parameter liefert jedoch unzuverlässige Ergebnisse
●

Zu befürchten ist, dass der Koeffizient einer Variablen über- und einer korrelierten Variablen unterschätzt wird
●

Der gemeinsame Einfluss beider Variablen wird korrekt ausgewiesen, die Verteilung des Einflusses aber nicht
●

Es gibt drei Möglichkeiten, um die unabhängigen Variablen auf Kollinearität zu prüfen
●

Erstellung einer Korrelationsmatrix für alle unabhängigen Variablen
●

Berechnung von Toleranz und Varianzinflationsfaktor
●

Berechnung der Varianzanteile
●


Kollinearität: Korrelationsmatrix
Vor der Durchführung der Regressionsanalyse kann eine Korrelationsmatrix der erklärenden Variablen erstellt werden
●

Ergibt sich ein hoher Korrelationskoeffizient (Bravais-Pearson) zwischen zwei Variablen, kann Kollinearität vorliegen
●

In solchen Fällen sollte eine der Variablen aus dem Modell ausgeschlossen und ggf. ersetzt werden
●

Denkbar sind beispielsweise Korrelationen zwischen Variablenkombinationen anstatt zwischen zwei Einzelvariablen
●

Aus diesem Grund müssen auch Toleranz und Varianzinflationsfaktor berechnet werden
●

Im vorliegenden Beispiel fällt die deutliche negative Korrelation auf
●

Die Möglichkeit einer Korrelation der beiden Variablen sollte näher untersucht werden (inhaltlich wahrscheinlich)
●


Kollinearität: Toleranz & VIF
2
Die Tolerenz ist definiert als: Toleranz i=1− Ri
●

Ri ist dabei definiert als der multiple Korrelationskoeffizient
●

Fällt der Toleranzwert sehr klein aus, deutet dies auf eine Kollinearität hin
●

Faustregel: Toleranzen unter 0,1 sind verdächtig, Toleranzen unter 0,01 eindeutig zu niedrig
●

Der Varianzinflationsfaktor (VIF) wird als Kehrwert der Toleranz berechnet
●

Entsprechend wird interpretiert: VIF-Werte über 10 sind verdächtig, VIF-Werte über 100 eindeutig zu hoch
●

Im vorliegenden Beispiel sprechen die Ergebnisse nicht gegen die Verwertbarkeit des Regressionsmodells
●


Kollinearität: Varianzanteile
Die Varianzen der Regressionskoeffizienten lassen sich in Komponenten zerlegen und den Eigenwerten zuordnen
●

Die Summe aller Komponenten beträgt für jeden Regressionskoeffizienten genau Eins
●

Wenn derselbe Eigenwert die Varianz mehrerer Regressionskoeffizienten in hohem Maße erklärt, deutet dies auf eine
●

Abhängigkeit der betreffenden Variablen hin


Linearitätsprüfung
Die Prüfung auf Linearität kann sowohl grafisch als auch statistisch erfolgen
●

Grafische Prüfung: Auswertung von Streudiagrammen oder Scatterplots
●

Statistische Prüfung: Analyse der Residuen oder Regressionsanalyse
●


Gibt es noch Fragen?


Multiple Regression

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Mais de Christian Reinboth

Mais de Christian Reinboth (20)

Multiple Regression