SlideShare uma empresa Scribd logo
1 de 47
Baixar para ler offline
Vertiefungsrichtung Marktforschung
Sommersemester 2006
Dipl.-WiInf.(FH) Christian Reinboth




                                 Multiple Regression
                                                                                         Erkennen
   Darstellen




                            Beschreiben                      Testen




              Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Multiple Regression
    Vielseitiges, strukturprüfendes und am häufigsten eingesetztes multivariates Analyseverfahren
●



    Ziel: Analyse von Beziehungen zwischen einer abhängigen Variablen und einer (univariater Fall)
●

    oder mehreren (multivariater Fall) unabhängigen Variablen
    Anwendung: Beschreibung und Erklärung von Zusammenhängen und Durchführung von Prognosen
●



    Beispiel: Hängt die Absatzmenge eines bestimmten Produktes von den Ausgaben für die Qualitätssicherung,
●

    den Ausgaben für die Werbung oder bzw. und der Anzahl der Verkaufsstellen ab?
    Wenn ja, wie stark fallen die jeweiligen Zusammenhänge aus? Wie wird sich die Absatzmenge entwickeln,
●

    wenn bestimmte Ausgaben erhöht oder gesenkt werden?




                    Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Inhalte: Multiple Regression
    Die Multiple Regression                         Prüfung der Modellprämissen
●                                               ●



    Exkurs: Korrelation und Kausalität                   Tests an den Residualgrößen
●                                                    ●



    Formulierung des Regressionsmodells                      Test auf Normalverteilung
●                                                        ●



    Analysevoraussetzungen                                       Histogramm & P-P-Diagramm
●                                                            ●



    Transformation nichtlinearer Variablen                       Kolmogoroff-Smirnov-Anpassungstest
●                                                            ●



    Berechnung des Regressionsmodells                        Test auf Homoskedastizität
●                                                        ●



         Schätzung der Regressionsfunktion                       Streudiagramm & Box-Plot
     ●                                                       ●



         Auswahl einer Geraden                                   Levene-Test auf Homoskedastizität
     ●                                                       ●



         Methode der kleinsten Quadrate                      Test auf Autokorrelation
     ●                                                   ●



         Aufstellung der Regressionsgleichung            Test an den Variablen
     ●                                               ●



         Regressions- und Beta-Koeffizienten                 Test auf Multikollinearität
     ●                                                   ●



    Messung der Anpassungsgüte                                   Korrelationsmatrix
●                                                            ●



         R² und korrigiertes R²                                  Toleranz & Varianzinflationsfaktor
     ●                                                       ●



         Standardfehler der Schätzung                            Zerlegung der Varianzanteile
     ●                                                       ●



         F-Statistik                                         Test auf linearen Zusammenhang
     ●                                                   ●



    Prüfung der Regressionskoeffizienten
●



         t-Test der Regressionskoeffizienten
     ●



         Konfidenzintervalle um die Koeffizienten
     ●




                       Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Die Multiple Regression
    Die Regressionsanalyse ist das flexibelste und am häufigsten eingesetzte multivariate Analyseverfahren
●



    Untersucht wird die Beziehung zwischen einer abhängigen und einer oder mehrerer unabhängigen Variablen
●




    Sie wird verwendet um:
●



        Zusammenhänge quantitativ darzustellen und zu erklären (Ursachenanalyse)
    ●



        Werte der abhängigen Variablen zu prognostizieren (Wirkungsprognose)
    ●




    Beispiel: Wie verändert sich die Absatzmenge (abhängige Variable) bei Veränderungen am Produktpreis, den
●

    Werbeausgaben oder der Anzahl der öffentlichen Verkaufsveranstaltungen (unabhängige Variablen)?


    Ergebnis des Verfahrens ist die Regressionsfunktion:
●



        Y = f(X)                 >    einfache Regression (eine abhängige und eine unabhängige Variable)
    ●



        Y = f(X1, X2, X3...Xn)   >    multiple Regression (eine abhängige und mehrere unabhängige Variablen)
    ●




    Problemfall interdependente Beziehungen:
●



        Beeinflusst der Bekanntheitsgrad die Absatzmenge oder beeinflusst die Absatzmenge den Bekanntheitsgrad?
    ●



        Dieses System ist nicht in einer einzelnen Gleichung erfassbar, sondern nur im Mehrgleichungsmodell
    ●




                      Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Exkurs: Korrelation und Kausalität

                                    Drei Formen der Korrelation:

                1                                         2                                    3


                                                                                                    Variable A
   Variable A                                             Variable A
                                                                             Gemeinsame
                                                                             Hintergrund-
                                                                             variable C
                                                                                                    Variable B
                Variable B                   Variable B

Variable A beeinflusst Variable B        Variable B beeinflusst Variable A    Beeinflussung beider Variablen durch C


       Durch die Regressionsanalyse lassen sich keine Kausalitäten nachweisen!

 Korrelation ist eine notwendige aber keine hinreichende Bedingung für Kausalität!


                    Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Ablauf der Multiplen Regressionanalyse
                                         Zunächst werden die abhängige sowie die unabhängigen Variablen
             Schritt 1                   bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen
    Formulierung des Modells             müssen. Außerdem sind die Grundvorraussetzungen bezüglich des
Prüfung der Grundvoraussetzungen         Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen.



                                         Im zweiten Schritt werden die Regressionskoeffizienten anhand der
             Schritt 2                   Methode der kleinsten Quadrate berechnet und anschließend die
Schätzung der Regressionsfunktion        Regressionsfunktion aufgestellt.
Aufstellung der Regressionsfunktion


                                         Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen
             Schritt 3                   ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut
Prüfung der Regressionsfunktion und      erklären kann und (b) welchen Beitrag die einzelnen unabhängigen
Prüfung der Regressionskoeffizienten     Variablen zur Erklärung von Y leisten.



             Schritt 4                   Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen
                                         eingehalten wurden, d.h. ob keine Autokorrelation der Residuen
Prüfung der Modellvoraussetzungen        vorliegt und sich diese näherungsweise normal verteilen etc. Ist
   Interpretation der Ergebnisse         das gefundene Modell valide, kann es inhaltlich interpretiert werden.




               Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Formulierung des Modells


                                                              Die Regressionsanalyse ist ein struktur-
                                                          ●


                                                              prüfendes Verfahren und dient nicht der
                                                              Entdeckung unbekannter Zusammenhänge
                                                              Das zu untersuchende Regressionsmodell
                                                          ●


                                                              muss vor Beginn der Analyse auf Basis
                                                              von Sachinformationen gebildet werden
                                                              Das Modell sollte so konstruiert werden,
                                                          ●

                                                              dass eine möglichst vollständige
                                                              Abbildung der Ursache-Wirkungs-
                                                              Beziehungen vermutet werden kann


                                                              Zur Hilfe beim Auffinden der für das
                                                          ●

                                                              Modell geeigneten Variablen eignen sich
                                                              Streudiagramme (univariate Fälle) und
                                                              Matrixdiagramme (multivariate Fälle)
                                                              Ein linearer Zusammenhang zwischen
                                                          ●

                                                              zwei Variablen ist immer dann zu
                                                              vermuten, wenn die Punkte im Diagramm
                                                              eng um eine gedachte Gerade streuen




       Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Analysevoraussetzungen
    Grundvoraussetzungen:
●



        Das Kausalgeflecht (abhängige und unabhängige Variable(n)) muss bekannt sein oder vermutet werden
    ●



        Der Zusammenhang zwischen abhängiger und unabhängigen Variablen muss linear sein
    ●



            Ein quadratischer, logarithmischer, monotoner oder anders gerarteter Zusammenhang wird nicht aufgedeckt
        ●



        Alle verwendeten Variablen müssen metrisch skaliert sein (Verfahren arbeitet mit dem Standardmittelwert)
    ●



            Für die unabhängigen Variablen lassen sich auch nominalskalierte Dummy-Variablen einsetzen
        ●




        Die Grundvoraussetzungen sind stets vor Beginn der Regressionsanalyse zu überprüfen!


    Weitere Modellvoraussetzungen:
●



        Die unabhängigen Variablen dürfen nicht untereinander korrelieren (Multikollinearität)
    ●



        Die standardisierten Residuen (durch das Modell nicht erklärte Abweichungen) müssen:
    ●



            näherungsweise normalverteilt sein
        ●



            die gleiche Varianz besitzen (Homoskedastizität)
        ●



            und dürfen nicht untereinander korrelieren (Autokorrelation)
        ●




        Die übrigen Modellvoraussetzungen sind stets im Anschluss an die Regressionsanalyse zu überprüfen!




                      Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Transformation nichtlinearer Variablen
    Das lineare Regressionsmodell dient nicht der Bestimmung der optimalen Kurvenanpassung in allen Fällen
●



    Es setzt einen linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen voraus
●




    Liegen nichtlineare Zusammenhänge vor, ist die Transformation einzelner Variablen möglich
●




    Beispiel: Bei Wachstumsprozessen kommt es häufig vor, dass sich die unabhängige Variable
●

    linear, die abhängige Variable aber exponentiell verändert (z.b. bei der Schadstoffkonzentration)


    Bei einer solchen zeitgebundenen exponentiellen Entwicklung, lässt sich der Zusammenhang
●

    zwischen der Schadstoffkonzentration (abhängige Variable) und der Zeit (unabhängige Variable)
    darstellen als:
        Dieser Zusammenhang ist nichtlinear und damit für die Regressionsanalyse ungeeignet
    ●



        Wird die Gleichung logarithmiert ergibt sich dagegen folgendes Bild:
    ●



        Dieser Zusammenhang ist linear und lässt eine Regressionsanalyse zu
    ●



        Als abhängige Variable sind die logarithmierten Werte von Y zu verwenden
    ●




              Y =a∗e b∗t                                                          ln Y =ln  ab∗t
                                       >     Transformation (ln)           >



                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Ablauf der Multiplen Regressionanalyse
                                         Zunächst werden die abhängige sowie die unabhängigen Variablen
             Schritt 1                   bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen
    Formulierung des Modells             müssen. Außerdem sind die Grundvorraussetzungen bezüglich des
Prüfung der Grundvoraussetzungen         Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen.



                                         Im zweiten Schritt werden die Regressionskoeffizienten anhand der
             Schritt 2                   Methode der kleinsten Quadrate berechnet und anschließend die
Schätzung der Regressionsfunktion        Regressionsfunktion aufgestellt.
Aufstellung der Regressionsfunktion


                                         Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen
             Schritt 3                   ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut
Prüfung der Regressionsfunktion und      erklären kann und (b) welchen Beitrag die einzelnen unabhängigen
Prüfung der Regressionskoeffizienten     Variablen zur Erklärung von Y leisten.



             Schritt 4                   Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen
                                         eingehalten wurden, d.h. ob keine Autokorrelation der Residuen
Prüfung der Modellvoraussetzungen        vorliegt und sich diese näherungsweise normal verteilen etc. Ist
   Interpretation der Ergebnisse         das gefundene Modell valide, kann es inhaltlich interpretiert werden.




               Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Schätzung der Regressionsfunktion
    Grundprinzip am Beispiel einer einfachen linearen Regression:
●



        Der Zusammenhang zwischen den beiden Variablen im Streudiagramm ist nicht perfekt
    ●



        Beide Variablen bewegen sich jedoch tendenziell in die gleiche Richtung, ein linearer Trend ist erkennbar
    ●



        Es kommen theoretisch mehrere Geraden in Frage um den Verlauf der Punkte nachzuzeichnen
    ●




    Entscheidende Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten?
●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Auswahl einer Geraden
    Welche der möglichen Geraden liefert die „besten“ Schätzwerte?
●



        Ermittlung der senkrechten Abstände zwischen geschätzten und beobachteten „wahren“ Punkten
    ●



        Da die Punkte auf beiden Seiten der Geraden liegen, ergeben sich positive wie negative Abstände
    ●



        Auswahl derjenigen Geraden, bei der sich positive und negative Abstände gegenseitig aufheben
    ●



        Bei dieser Geraden beträgt der durchschnittliche Schätzfehler Null, die Punkte sind gleichmäßig verteilt
    ●




    Welches Problem ergibt sich bei diesem Auswahlverfahren?
●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Auswahl einer Geraden
    Beispielrechnung:
●



        Der senkrechte Abstand des Punktes i zur Geraden Y =ab∗X berechnet sich als: e i=Y i−ab∗X i
    ●



        Für eine Untersuchung mit 100 Fällen kann i die Werte 1 bis 100 annehmen
    ●



                                                             ∑ e i =∑ Y i−ab∗X i=∑ Y i −100∗a−b∗∑ X i
        Die Summe aller Abstände berechnet sich daher als:
    ●



        Sollen die Summen der Abstände Null sein gilt: ∑ Y i−100∗a−b∗∑ X i=0
    ●



        Dividiert durch die Zahl der Beobachtungen:  ∑ Y i −a−b∗ ∑ X i  Y −a−b∗ X =0
    ●
                                                                                      
                                                        100          100

                                                                                                          
        Diese Rechnung führt zu dem Schluss, dass die Summe der Abstände stets Null beträgt, wenn: Y =ab∗ X
    ●



        Diese Bedingung trifft aber auf alle Geraden zu, die
    ●



            durch den Punkt aus den beiden Mittelwerten laufen, wobei
        ●



            die Steigung der Geraden vollkommen irrelevant wäre
        ●




        Diese Vorgehensweise ist daher zur Ermittlung der optimalen Regressionsgerade ungeeignet
    ●




        Besser geeignet ist die sogenannte „Methode der kleinsten Quadrate“ (Statistik I)
    ●




                      Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Methode der kleinsten Quadrate
    Minimierung der Summe der Abweichungsquadrate = Methode der kleinsten Quadrate
●




    Auch die Methode der kleinsten Quadrate arbeitet mit den senkrechten Abständen der realen Werte von der Gerade
●



    Die Abstände werden jedoch quadriert, so dass sämtliche negativen Vorzeichen wegfallen
●



    Eine Kompensation der positiven und negativen Abstände wird dadurch vermieden
●



    Es wird diejenige Gerade selektiert, bei der die Summe der quadrierten Abstände minimal ist
●




                                              K       k

    Durch Umformung der Zielfunktion ∑ e k =∑ [ y k −ab∗x k ]  min ! erhält man die Parameter der Regressionsfunktion:
                                          2                   2
●
                                     k =1   k=1



                                     I  ∑ x I ∗yk −∑ x I ∗∑ yI 
        Regressionskoeffizient: b=
    ●
                                                            2
                                           I ∑ xk −∑ x k 
                                                  2




        Konstantes Glied/Konstante: a=  −b∗
                                       y    x
    ●




    Die Gleichung der Regressionsgeraden im Einfaktoren-Fall lautet: Y =a∗b X
●



    Die Gleichung der Regressionsgeraden im Mehrfaktoren-Fall lautet dagegen: Y =b0 b1∗X 1b 2∗X 2b j∗X j b J ∗X J
●



        Die Berechnung der Regressionsparameter erfolgt analog zur Berechnung im Einfaktoren-Fall
    ●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Aufstellung der Regressionsgleichung
    Einfaktoren-Fall:
●



    Y =1928,211,91∗X
    Gehalt mit 40 in Abhängigkeit vom
●

    Anfangsgehalt bei Berufseinstieg
    Jeder Euro Mehrverdienst bei Berufseinstieg
●

    führt zu zwei Euro mehr Gehalt mit 40?


    Mehrfaktoren-Fall:
●



    Y =1928,211,91∗X 11020,40∗X 2
    Gehalt mit 40 in Abhängigkeit vom
●

    Anfangsgehalt bei Berufseinstieg und
    der Ausbildungsdauer (in Jahren)
    Jedes zusätzliche Ausbildungsjahr führt
●

    zu über 1000 Euro mehr Gehalt mit 40?
    Wie lässt sich dies vermutlich erklären?
●



    Was zeigen die standardisierten Koeffizienten?
●




Vorsicht: Mit SPSS lässt sich IMMER eine Regressionsfunktion berechnen!


                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Regressions- und Beta-Koeffizienten
    Häufig ist es interessant festzustellen, welchen Einfluß die einzelnen unabhängigen Variablen auf Y ausüben
●



    Welche der Variablen liefert den höchsten, welche den niedrigsten Erklärungsbeitrag für Y?
●




    Zur Beantwortung dieser Frage ist ein einfacher Vergleich der Koeffizienten nicht ausreichend
●



        Grund: Die erklärenden Variablen können unterschiedliche Dimensionen aufweisen
    ●



        Wenn dies der Fall ist, werden auch die Koeffizienten in unterschiedlichen Dimensionen geschätzt
    ●



        Eine Änderung der Dimension (z.B. Prozent- statt Absolutwerte) hat unmittelbaren Einfluss auf den Koeffizienten
    ●



        Eine solche Änderung hat jedoch keinen Einfluß auf den Erklärungsgehalt der Variablen
    ●



        Darum dürfen die Koeffizienten bezüglich des Erklärungsgehalts nicht direkt miteinander verglichen werden
    ●




    Die Lösung besteht in der Berechnung der standardisierten Beta-Koeffizienten
●



        Diese ergeben sich durch die Z-Transformation aller Variablen vor Beginn der Regressionsanalyse
    ●

                                                                                             sxi
        Alternativ lassen sie sich auch direkt aus den Koeffizienten berechnen: beta i =bi∗ s 
    ●
                                                                                                 y


          betai   =    Beta-Koeffizient der unabhängigen Variablen i

          b1      =    Regressionskoeffizient der unabhängigen Variablen i

          sxi     =    Standardabweichung der unabhängigen Variablen i

          sy      =    Standardabweichung der abhängigen Variablen Y




                      Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Ablauf der Multiplen Regressionanalyse
                                         Zunächst werden die abhängige sowie die unabhängigen Variablen
             Schritt 1                   bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen
    Formulierung des Modells             müssen. Außerdem sind die Grundvorraussetzungen bezüglich des
Prüfung der Grundvoraussetzungen         Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen.



                                         Im zweiten Schritt werden die Regressionskoeffizienten anhand der
             Schritt 2                   Methode der kleinsten Quadrate berechnet und anschließend die
Schätzung der Regressionsfunktion        Regressionsfunktion aufgestellt.
Aufstellung der Regressionsfunktion


                                         Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen
             Schritt 3                   ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut
Prüfung der Regressionsfunktion und      erklären kann und (b) welchen Beitrag die einzelnen unabhängigen
Prüfung der Regressionskoeffizienten     Variablen zur Erklärung von Y leisten.



             Schritt 4                   Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen
                                         eingehalten wurden, d.h. ob keine Autokorrelation der Residuen
Prüfung der Modellvoraussetzungen        vorliegt und sich diese näherungsweise normal verteilen etc. Ist
   Interpretation der Ergebnisse         das gefundene Modell valide, kann es inhaltlich interpretiert werden.




               Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Messung der Anpassungsgüte
    Da sich mit SPSS immer eine Regressionsfunktion berechnen lässt, stellt sich die Frage nach deren Güte
●



    Wie gut wird die abhängige Variable Y durch das gefundene Regressionsmodell erklärt?
●




    Zur Feststellung der Anpassungsgüte existieren drei Kennwerte:
●



        Bestimmtheitsmaß R² und korrigiertes R² (bei multivariaten Verfahren)
    ●



        Standardfehler der Schätzung
    ●



        F-Statistik
    ●




              Wie aussagekräftig ist das Regressionsmodell insgesamt?




                      Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
R² und korrigiertes R²
       Y

                                               Xi/Yi
  Yi




                                              {}
                                                                                   Regressionsgerade
                             Nicht erklärte
             Residuum        Abweichung ei
                                                            Gesamte
                                                            Abweichung
  Y*
                         Erklärte
                                              {
                         Abweichung
  _
  Y




                                                                                                       X
                              _
                                                  Xi
                              X

           Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
R² und korrigiertes R²
    Die Regressionsgerade gibt Zusammenhänge, die nicht perfekt linear sind, nicht perfekt wieder
●



    Es ist daher mit der Regressionsfunktion nur selten möglich, alle Veränderungen in Y durch die Koeffizienten zu erklären
●



    In der Regel wird ein Teil der Veränderungen erklärt werden können, ein anderer Teil wird unaufgeklärt bleiben
●




    Das Verhältnis von erklärter Streuung zur Gesamtstreuung ist ein gutes Maß für die Güte des Regressionsmodells
●



    Residuen werden quadriert, damit sich positive und negative Abweichungen nicht aufheben
●




    Berechnung des Güßtemaßes R² mit:
●



        TSS = Total Sum of Squares = Summe aller quadrierten Abweichungen
    ●



        ESS = Explained Sum of Squares = Summe aller erklärten quadrierten Abweichungen
    ●



        RSS = Residual Sum of Squares = Summe aller nicht erklärten quadrierten Abweichungen
    ●


                                                                                            ESS
                                                                                         2
    Die Relation zwischen erklärter Streuung und Gesamtstreuung wird mit R² bezeichnet: R =
●
                                                                                                  TSS


    Der Wert von R² gibt den Anteil der erklärten Streuung an der Gesamtstreuung wieder > Güte der Anpassung
●



    R² ist als prozentualer Wert zu verstehen und liegt daher stets zwischen 0 und 1
●



    R² = 1 > Gesamte Streuung wird erklärt, es besteht ein perfekter linearer Zusammenhang
●



    Je kleiner R² ausfällt, desto mehr weicht der vorliegende Fall vom linearen Zusammenhang ab
●



    Beachte: R² ist lediglich ein Maß für den linearen Zusammenhang, nicht für andere Zusammenhänge
●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
R² und korrigiertes R²
    Zusätzlich zu R² wird von SPSS für multivariate Regressionsanalysen noch das korrigierte R² berechnet
●



    Warum ist ein zusätzliches Gütemaß neben R² erforderlich?
●



        Die Aufnahme zusätzlicher erklärender Variablen führt nie zu einer Verschlechterung von R²
    ●



        Besteht gar kein Zusammenhang mit Y bleibt R² unverändert
    ●



        Besteht ein minimaler Zusammenhang mit Y steigt R² dagegen leicht an
    ●



        Ergebnis: wahllos viele Variablen werden ins Regressionsmodell aufgenommen
    ●



        Dadurch ergibt sich ein hohes R² und ein vermeintlich gutes Regressionsmodell
    ●



        Aber: die prognostizierten Werte werden mit steigender Variablenzahl unzuverlässiger
    ●



        Daher: keine Variablen zur Minimalsteigerung von R² ins Regressionsmodell aufnehmen
    ●




    Rechtfertigt der Erklärungsanteil einer Variablen die Zunahme an Unsicherheit? > korrigiertes R²
●

                                                             ESS
                                                          2
    Herleitung der Berechnungsvorschrift erfolgt aus R²: R = TSS
●


                                                                                         TSS− RSS  TSS RSS      RSS
    Da sich TSS aus ESS und RSS zusammensetzt, lässt sich R² auch berechnen als: R2=                =    −    =1−
●
                                                                                            TSS       TSS TSS     TSS
                                                           RSS / n−k 
                                                 2
    Das korrigierte R² berechnet sich dann als: Rkorr =1− TSS /n−1
●



    Wird eine erklärende Variable hinzugefügt, ergeben sich zwei gegenläufige Effekte:
●



        RSS verringert sich, wodurch sich das korrigierte R² erhöht
    ●



        Der Wert für k erhöht sich, wodurch sich das korrigierte R² verringert
    ●



    Je nachdem, welcher Effekt überwiegt, sollte die erklärende Variable ins Modell aufgenommen werden oder nicht
●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Standardfehler der Schätzung
    Residuen können sowohl positiv als auch negativ ausfallen, liegen im Durchschnitt der Beobachtungen aber bei Null
●




    Dies impliziert, dass die prognostizierten Werte falsch sein können, im Durchschnitt aber korrekt ausfallen
●



    Es stellt sich die Frage, ob die prognostizierten Werte in der Nähe der wahren Werte liegen oder stark abweichen
●



    Theoretisch denkbar sind gewaltige Abweichungen in beide Richtungen, die sich im Durchschnitt neutralisieren
●




    Um den positiv-negativ-Effekt zu neutralisieren, werden die Residuen zunächst quadriert
●



    Die Summe der quadrierten Residuen wird anschließend durch die Anzahl der Beobachtungswerte geteilt
●


                                                                                                                     ∑ e 2i
    Dadurch wird die sich ergebende Kennzahl von der Stichprobengröße unabhängig (Vergleichbarkeit):
●

                                                                                                                       n
                                                                      ∑ e 2i = ∑ e 2i −  (Varianz der Residuen)
                                                                                        e
    Da der Mittelwert der Residuen gleich Null ist, gilt ebenfalls:
●

                                                                        n         n
    Aus methodischen Gründen wird oft nicht durch n sondern durch n abzüglich der erklärenden Variablen dividiert
●


                                     ∑ e 2i
    Es ergibt sich folgender Term:            (Beachte: auch die Konstante gehört zu den erklärenden Variablen)
●




                                                                                                                              
                                     n−k 
                                                                                                                                  ∑ e 2i 
    Die Quadratwurzel dieses Terms ergibt die Standardabweichung der Residuen (=Standardfehler der Schätzung): 
●

                                                                                                                                  n−k 


    Der Standardfehler der Schätzung ist ein Maß für die Anpassungsgüte der Regressionsgleichung
●



    Er ist vergleichbar mit R² und korrigiertem R² und inhaltlich ähnlich zu interpretieren
●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
F-Statistik
    R² und korrigiertes R² zeigen die Anpassung der Regressionsgeraden an die beobachteten Werte
●



    Es stellt sich die Frage, ob das Regressionsmodell auch über die Stichprobenwerte hinaus Gültigkeit besitzt
●




    Ein geeignetes Prüfkriterium bildet die F-Statistik, in welche eingehen:
●



        die Streuungszerlegung
    ●



        der Umfang der Stichprobe
    ●




    Die Regressionsfunktion der Stichprobe lässt sich darstellen als: Y =b0 b1∗X 1b 2∗X 2b j∗X j b J ∗X J
●



    Sie ist die Realisation der „wahren“ Regressionsfunktion: Y =01∗X 12∗X 2 j∗X j J ∗X J u
●



    Die neue Variable u wird als Störgröße bezeichnet
●



        Sie repräsentiert alle zufälligen Einflüsse außerhalb der betrachteten Variablen
    ●



        Die Störgröße selbst kann nicht beobachtet werden, zeigt sich aber in den Residuen
    ●



    Durch den Einfluss von u wird Y zu einer Zufallsvariablen, ebenso wie die Schätzwerte der Regressionsparameter
●



        Würde man die Stichprobe wiederholen würden sich andere Regressionsparameter ergeben
    ●



        Bei wiederholten Stichproben würden diese Parameter um die „wahren“ Parameter schwanken
    ●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
F-Statistik
    Annahme der Regressionsanalyse: kausaler Zusammenhang zwischen abhängiger und unabhängigen Variablen
●



    Besteht ein solche Zusammenhang tatsächlich, können die „wahren“ Regressionsparameter unmöglich Null sein
●




    Zur Überprüfung dieser Annahme wird das Regressionsmodell mit Hilfe eines F-Tests varianzanalytisch untersucht
●



    Die Nullhypothese H0 dieses Tests lautet: H 0 : 1=2== J =0
●



        Es besteht kein wirklicher Zusammenhang zwischen abhängigen und unabhängigen Variablen
    ●



        Alle „wahren“ Regressionskoeffizienten in der Grundgesamtheit sind daher gleich Null
    ●




    Vorgehensweise des F-Tests:
●



        Berechnung eines empirischen Werts aus der F-Statistik
    ●
                                                                                      2   Ausdruck der F-Verteilung
                                                                                       m
        Vergleich dieses Werts mit einem kritischen Wert                              m
    ●

                                                                                           F-verteilte Größe mit m und n
                                                                                       2
                                                                                      n
        Bei Gültigkeit von H0 ist ein F-Wert von Eins zu erwarten         F  m ,n =
    ●
                                                                                           Freiheitsgraden
                                                                                      n
        Abweichungen von Null machen H0 unwahrscheinlich
    ●



        Bei deutlichen Abweichungen kann H0 verworfen werden
    ●



        Schlußfolgerung: Zusammenhang in der Grundgesamtheit
    ●




    Vorsicht: Es kann nichts darüber gesagt werden, zwischen
●

    welchen Variablen Zusammenhänge bestehen, nur dass
    nicht alle wahren Parameter bei Null liegen (!)


                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Dichtefunktionen der F-Verteilung




       Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Prüfung der Regressionskoeffizienten
    Wenn die Validität des Modells feststeht, stellt sich die Frage nach der Validität der einzelnen Koeffizienten
●



    Gehören alle im Regressionsmodell untergebrachten Variablen auch in dieses Modell?
●




    Zur Feststellung der Güte der Koeffizienten existieren zwei Kriterien:
●



        t-Test der Regressionskoeffizienten
    ●



        Konfidenzintervalle um die Regressionskoeffizienten
    ●




        Wie aussagekräftig sind die einzelnen Regressionskoeffizienten?




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
t-Test der Regressionskoeffizienten
    Wird die Nullhypothese im F-Test verworfen, bedeutet dies dass es mindestens einen Zusammenhang geben muss
●



    Es bedeutet hingegen nicht, dass alle unabhängigen Variablen ins Regressionsmodell gehören
●



    Es erscheint daher logisch, einen identischen Test für jeden einzelen Regressionskoeffizienten durchzuführen
●



    Ein geeignetes Prüfkriterium für diesen Test ist die t-Statistik
●




                                                                                        b j− j 
    Der T-Wert einer unabhängigen Variable wird berechnet, indem deren
●
                                                                               t emp=
                                                                                            s bj
    Regressionskoeffizient durch dessen Standardfehler dividiert wird:
        Nullhypothese H0: die t-Statistik folgt der bekannten t-Verteilung (Student-Verteilung) um den Mittelwert Null
    ●



        Bei Gültigkeit der Nullhypothese ist für die t-Statistik ein Wert von Null zu erwarten
    ●



        Weicht der empirische t-Wert stark von Null ab, so ist es unwahrscheinlich, dass H0 korrekt ist
    ●



        In diesem Fall ist diese zu verwerfen
    ●



        Daraus ist zu folgern, dass der „wahre“ Regressionskoeffizient ungleich Null sein muss
    ●



        Dies wiederum bedeutet, dass in der Grundgesamtheit ein Zusammenhang zwischen Y und der X-Variablen besteht
    ●




                      Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Konfidenzintervalle um die Koeffizienten
    Mit einem Konfidenzintervall (Vertrauensbereich) lässt sich die
●


    Lage eines Parameters mit einer bestimmten Wahrscheinlichkeit
    abschätzen


    Ist das Konfidenzintervall um einen Regressionskoeffizienten zu breit,
●


    muss die geschätzte Regressionsgerade als unsicher betrachtet werden
    Dies gilt insbesondere dann, wenn innerhalb des Konfidenzintervalls
●

    ein Vorzeichenwechsel vorliegt, sich der Einfluss also umkehren kann


                      b j −t∗s bj  ß jb j t∗sbj
     ßj    =     wahrer Regressionskoeffizient (unbekannt)
     bj    =     geschätzter Regressionskoeffizient
     t     =     t-Wert aus der Student-Verteilung
     sbj   =     Standardfehler des Regressionskoeffizienten




                    Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Ablauf der Multiplen Regressionanalyse
                                         Zunächst werden die abhängige sowie die unabhängigen Variablen
             Schritt 1                   bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen
    Formulierung des Modells             müssen. Außerdem sind die Grundvorraussetzungen bezüglich des
Prüfung der Grundvoraussetzungen         Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen.



                                         Im zweiten Schritt werden die Regressionskoeffizienten anhand der
             Schritt 2                   Methode der kleinsten Quadrate berechnet und anschließend die
Schätzung der Regressionsfunktion        Regressionsfunktion aufgestellt.
Aufstellung der Regressionsfunktion


                                         Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen
             Schritt 3                   ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut
Prüfung der Regressionsfunktion und      erklären kann und (b) welchen Beitrag die einzelnen unabhängigen
Prüfung der Regressionskoeffizienten     Variablen zur Erklärung von Y leisten.



             Schritt 4                   Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen
                                         eingehalten wurden, d.h. ob keine Autokorrelation der Residuen
Prüfung der Modellvoraussetzungen        vorliegt und sich diese näherungsweise normal verteilen etc. Ist
   Interpretation der Ergebnisse         das gefundene Modell valide, kann es inhaltlich interpretiert werden.




               Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Übersicht der Modellprämissen
                    J
         y k = ß 0∑  ß j∗x jk u k
A1.                                            mit k = 1, 2, ..., K und K > J+1
                   j =1


  Das Modell ist richtig spezifiziert, d.h.
      Alle entscheidenden unabhängigen Variablen sind im Modell erfasst
  ●



      Es besteht ein linearer Zusammenhang zwischen abhängigen und unabhängigen Variablen
  ●



      Die Zahl der zu schätzenden Parameter (J+1) ist kleiner als die Zahl der Beobachtungen (K)
  ●




         Erw u k =0
A2.                                Die Störgrößen haben den Erwartungswert Null


      Diese Annahme wird verletzt, wenn Y mit einem konstanten Fehler gemessen wird
  ●



      Dies wird durch die Methode der kleinsten Quadrate erzwungen
  ●



      Der dadurch entstehende Fehler geht in das konstante Glied der Regressionsgleichung ein
  ●




A3.                                Unabhängige Variablen und Residuen korrelieren nicht
         Cov u k , x jk =0
                        2
         Var u k =
A4.                                Die Residuen haben eine konstante Varianz (Homoskedastizität)
         Cov u k ,u kr =0
A5.                                Die Residuen sind unkorreliert (keine Autokorrelation)
A6.      Zwischen den unabhängigen Variablen besteht kein linearer Zusammenhang (keine Multikollinearität)
A7.      Die Residuen uk sind normalverteilt



                    Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Tests zur Prüfung der Modellprämissen
    Tests an den Residualgrößen
●



        Test auf Normalverteilung der Residualgrößen (Histogramm, P-P-Diagramm, Kolmogoroff-Smirnov)
    ●



        Test auf Varianzgleichheit/Homoskedastizität der Residualgrößen (Streudiagramm, Box-Plot, Levene-Test)
    ●



        Test auf Autokorrelation der Residualgrößen (Durbin-Watson-Test)
    ●




    Tests an den abhängigen und unabhängigen Variablen
●



        Test auf Multikollinearität der unabhängigen Variablen (Korrelationsmatrix, Toleranz & VIF, Varianzanteile)
    ●



        Test auf linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen (Streudiagramm, Scatterplot)
    ●




                                 Sind alle Modellprämissen erfüllt?




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Prüfung der Residualgrößen
    Residuen = Differenzen zwischen empirischen und durch die Regressionsfunktion geschätzten Variablenwerten
●




    Zentrale Forderung des Regressionsmodells: Residuen müssen zufällig verteilt sein
●



        Bei der Untersuchung der Residuen dürfen keine erkennbaren Muster gefunden werden
    ●



        Gibt es Muster so ist zu vermuten, dass das geschätzte Regressionsmodell fehlerhaft ist
    ●




    Ein Fehler der zu einem Muster in den Residuen führt, kann verschiedene Ursachen haben:
●



        Es wurden wichtige Variablen nicht in die Analyse mit einbezogen
    ●



        Der Zusammenhang ist nicht linear, sondern quadratisch, monoton, etc.
    ●




    Residuen sollten daher zufällig auftreten und normalverteilt sein
●



        Normalverteilung ist keine Voraussetzung für die Schätzung der Regressionsgraden
    ●



        Sie ist aber ausschlaggebend für die Aussagekraft von F-Test und t-Test
    ●



        Grafischer Test auf Normalverteilung mit Histogramm und P-P-Diagramm
    ●



        Statistischer Test auf Normalverteilung (Levene-Test)
    ●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Normalverteilungsprüfung: Einführung
                                                                                                                                          2
                                                                                                                                −1  x−
                                                                                                                                        
                                                                                                                  1                   
                                                                                                                                 2
    Die Gauß- oder Normalverteilung ist die wichtigste kontinuierliche Wahrscheinlichkeitsverteilung f  x =            e
●
                                                                                                                2


    Die zugehörige Dichtefunktion ist
●


    als Gaußsche Glockenkurve bekannt


    Eigenschaften:
●



        Dichtefunktion ist
    ●


        glockenförmig und
        symmetrisch
        Erwartungswert, Median
    ●


        und Modus sind gleich
        Zufallsvariable hat eine
    ●


        unendliche Spannweite


    Viele statistische Verfahren setzen
●


    die Normalverteilung der Daten
    in der Grundgesamtheit voraus
    Es ist daher häufig zu prüfen,
●

    ob von einer solchen Verteilung
                                                                                     µ
    ausgegangen werden kann
                                                                               Erwartungswert
    (auch näherungsweise)
                                                                                  Median
                                                                                  Modus

                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Normalverteilungsprüfung: Dichtefunktion




       Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Normalverteilungsprüfung: Histogramm
    Grafische Analyse mit Histogramm und überlagerter Normalverteilungskurve
●




    Die Balken des Histogramms spiegeln die Breite
●


    der Wertebereiche wieder – da zudem für leere
    Wertebereiche ein Freiraum ausgegeben wird,
    kommt im Histogramm die gesamte empirische
    Verteilung der Variablen zum Ausdruck
    Dies ermöglicht den direkten Vergleich mit einer
●


    eingezeichneten theoretischen Verteilung, wie
    beispielsweise der Normalverteilung
    Der Grad der Abweichung einer Normalverteilung
●

    lässt sich auch anhand verschiedener Maßzahlen wie
    Exzeß (Kurtosis) und Schiefe bestimmen




                    Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Normalverteilungsprüfung: Q-Q
    Grafische Analyse mit Q-Q-Diagramm und trendbereinigtem Q-Q-Diagramm
●




                   Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Normalverteilungsprüfung: K-S-A
    Die Prüfung auf Vorliegen einer Normalverteilung kann auch mit einem Anpassungstests erfolgen
●



    In SPSS lässt sich dazu beispielsweise der Kolmogorov-Smirnov-Anpassungstest nutzen
●



    Der Test arbeitet mit der kumulierten empirischen und der kumulierten erwarteten Referenzverteilung
●



    Die maximale Differenz zwischen beiden Verteilungen wird zur Berechnung der Prüfgröße Z nach Kolmogorov-Smirnov
●

    verwendet, mit der dann aus einer Tabelle der für einen Stichprobenumfang n kritische Wert für die maximale Differenz
    bei einem gegebenen Signifikanzniveau abgelesen werden kann


    Nullhypothese H0 des SPSS-Tests: die Werte der untersuchten Variablen sind normalverteilt
●



    Berechnet wird die Wahrscheinlichkeit, mit der das Zurückweisen dieser Hypothese falsch ist (Signifikanzwert)
●



    Je größer diese Wahrscheinlichkeit ausfällt, desto eher ist von einer Normalverteilung der Werte auszugehen
●




    Im nebenstehenden Beispiel eines
●

    Kolmogorov-Smirnov-Tests fällt
    der Signifikanzwert mit 0,00 so
    niedrig aus, dass die Annahme der
    Normalverteilung zurückzuweisen ist
    Bei der Interpretation ist zu beachten,
●

    dass es sich um einen Test auf perfekte
    Normalverteilung handelt
    Anzuraten ist daher die Kombination
●


    mit einem der grafischen Prüfverfahren



                    Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Homoskedastizitätsprüfung: Levene-Test
    Viele statistische Verfahren setzen voraus, dass die Varianzen innerhalb verschiedener Fallgruppen gleich sind
●

    (beispielsweise Signifikanztests und Mittelwertvergleiche)
        Gleichheit der Varianzen = Homoskedastizität
    ●



        Ungleichheit der Varianzen = Hetroskedastizität
    ●




    Mit dem Signifikanztest nach Levene wird die Nullhypothese H0 überprüft, dass die Varianzen in der
●


    Grundgesamtheit in allen Gruppen homogen (gleich) sind
        Der Test arbeitet mit dem F-Wert als statistischem Prüfmaß mit bekannter Verteilung
    ●



        Es wird getestet, mit welcher Wahrscheinlichkeit die beobachteten Abweichungen in den Varianzen
    ●

        auftreten können, wenn in der Grundgesamtheit absolute Varianzgleichheit herrscht
        Diese Wahrscheinlichkeit wird als Testergebnis ausgewiesen
    ●



        Eine geringe Wahrscheinlichkeit weist auf eine Varianzungleichheit hin
    ●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Grafische Homoskedastizitätsprüfung
    Eine grafische Prüfung auf Homoskedastizität kann mit Streudiagrammen oder Boxplots durchgeführt werden
●



    Hierbei ist auf die unterschiedlichen Streuungen und die Höhe des Medians zu achten
●




                    Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Test auf Autokorrelation der Residuen
    Was ist unter Autokorrelation zu verstehen?
●



        Frage: Bestehen zwischen den Residuen nebeneinanderliegender Fälle systematische Zusammenhänge?
    ●



        Beispiel: Auf große positive Residuen folgen regelmäßig große negative Residuen
    ●



        Eine derartige Systematik wird als Autokorrelation der Residuen bezeichnet
    ●




    Wie kann es zu Autokorrelation kommen?
●



        Die Möglichkeit einer Autokorrelation besteht immer, wenn die Fälle nicht zufällig angeordnet sind
    ●



        Dies ist beispielsweise bei Zeitreihenanalysen der Fall, wo die Fälle zeitlich geordnet vorliegen
    ●




    Worauf deutet eine Autokorrelation hin?
●



        Erklärungsrelevante Variablen wurden nicht in das Regressionsmodell aufgenommen
    ●



        Falscher funktionaler Zusammenhang (z.B. quadratisch statt linear) wurde vorausgesetzt
    ●




    Autokorrelation führt dazu, dass die Standardfehler zu gering geschätzt werden
●



        Die Ergebnisse der Signifikanztests sind damit nicht mehr zuverlässig
    ●



        Koeffizienten werden als signifikanter eingestuft als sie es tatsächlich sind
    ●




    Zur Suche nach Autokorrelationen wird der Durbin-Watson-Test durchgeführt
●




                      Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Durbin-Watson-Test auf Autokorrelation
    Der Durbin-Watson-Koeffizient kann Werte zwischen 0 und 4 annehmen
●



    Je näher der Koeffizient am Wert von 2 liegt, desto geringer ist das Ausmaß der Autokorrelation
●



    Werte deutlich unter 2 weisen auf eine positive Autokorrelation hin, Werte deutlich über 2 auf eine negative
●



    Faustregel: Werte zwischen 1,5 und 2,5 sind akzeptabel, Werte unter 1 oder über 3 deuten auf Autokorrelation hin
●




    Einschränkung: Der Durbin-Watson-Test misst lediglich Autokorrelationen der 1. Ordnung
●



        Eine Autokorrelation der 1. Ordnung liegt vor, wenn direkt benachbarte Fälle miteinander verknüpft sind
    ●



        Bei quartalsweise erhobenen Daten ist jedoch auch eine Autokorrelation der 4. Ordnung denkbar
    ●



        In diesem Fall sollte auf den Wallis-Test auf Autokorrelationen 4. Ordnung zurückgegriffen werden
    ●




    Der Durbin-Watson-Test kann nur unter zwei Voraussetzungen korrekt interpretiert werden:
●



        Die Regressionsgleichung muss einen konstanten Term enthalten
    ●



        Die abhängige Variable darf nicht zeitverzögert als erklärende Variable verwendet werden (Zeitreihenanalysen!)
    ●



            Beispiel: Erklärende Variable für aktuelle Schadstoffbelastung ist die Belastung des Vormonats
        ●




                                                                                                                   4
                                                                 2                          3
                                       1
            0

                      Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Kollinearitätsdiagnostik
    Was ist Kollinearität?
●



        Kollinearität liegt vor, wenn zwei oder mehr unabhängige Variablen untereinander korrelieren
    ●



        Beispiel: Ernteertäge (Y) sollen durch Sonnenscheindauer (X1) und Durchschnittstemperatur (X2) erklärt werden
    ●



        Annahme: Eine lange Sonnenscheindauer sorgt für steigende Durschnittstemperaturen
    ●



        Es liegt also ein Korrelation zwischen den beiden erklärenden Variablen vor
    ●



        Es ist nicht festzustellen, zu welchen Teilen eine Veränderung in Y auf X1 und X2 zurückzuführen ist
    ●




    Bei perfekter Kollinearität lässt sich eine erklärende Variable über eine andere erklärende Variable berechnen
●



    Liegt eine perfekte Kollinearität vor, kann eine der betroffenen Variablen leicht erkannt und ausgeschlossen werden
●



    Bei einer imperfekten Kollinearität lässt sich die Regressionsgleichung mathematisch wie bisher durchführen
●



    Es ergibt sich ein unverzerrtes R², die Schätzung der Parameter liefert jedoch unzuverlässige Ergebnisse
●



    Zu befürchten ist, dass der Koeffizient einer Variablen über- und einer korrelierten Variablen unterschätzt wird
●



    Der gemeinsame Einfluss beider Variablen wird korrekt ausgewiesen, die Verteilung des Einflusses aber nicht
●




    Es gibt drei Möglichkeiten, um die unabhängigen Variablen auf Kollinearität zu prüfen
●



        Erstellung einer Korrelationsmatrix für alle unabhängigen Variablen
    ●



        Berechnung von Toleranz und Varianzinflationsfaktor
    ●



        Berechnung der Varianzanteile
    ●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Kollinearität: Korrelationsmatrix
    Vor der Durchführung der Regressionsanalyse kann eine Korrelationsmatrix der erklärenden Variablen erstellt werden
●



    Ergibt sich ein hoher Korrelationskoeffizient (Bravais-Pearson) zwischen zwei Variablen, kann Kollinearität vorliegen
●



    In solchen Fällen sollte eine der Variablen aus dem Modell ausgeschlossen und ggf. ersetzt werden
●




    Denkbar sind beispielsweise Korrelationen zwischen Variablenkombinationen anstatt zwischen zwei Einzelvariablen
●



    Aus diesem Grund müssen auch Toleranz und Varianzinflationsfaktor berechnet werden
●




    Im vorliegenden Beispiel fällt die deutliche negative Korrelation auf
●



    Die Möglichkeit einer Korrelation der beiden Variablen sollte näher untersucht werden (inhaltlich wahrscheinlich)
●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Kollinearität: Toleranz & VIF
                                                   2
    Die Tolerenz ist definiert als: Toleranz i=1− Ri
●



    Ri ist dabei definiert als der multiple Korrelationskoeffizient
●



    Fällt der Toleranzwert sehr klein aus, deutet dies auf eine Kollinearität hin
●



    Faustregel: Toleranzen unter 0,1 sind verdächtig, Toleranzen unter 0,01 eindeutig zu niedrig
●




    Der Varianzinflationsfaktor (VIF) wird als Kehrwert der Toleranz berechnet
●



    Entsprechend wird interpretiert: VIF-Werte über 10 sind verdächtig, VIF-Werte über 100 eindeutig zu hoch
●




    Im vorliegenden Beispiel sprechen die Ergebnisse nicht gegen die Verwertbarkeit des Regressionsmodells
●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Kollinearität: Varianzanteile
    Die Varianzen der Regressionskoeffizienten lassen sich in Komponenten zerlegen und den Eigenwerten zuordnen
●



    Die Summe aller Komponenten beträgt für jeden Regressionskoeffizienten genau Eins
●



    Wenn derselbe Eigenwert die Varianz mehrerer Regressionskoeffizienten in hohem Maße erklärt, deutet dies auf eine
●


    Abhängigkeit der betreffenden Variablen hin




                   Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Linearitätsprüfung
    Die Prüfung auf Linearität kann sowohl grafisch als auch statistisch erfolgen
●



        Grafische Prüfung: Auswertung von Streudiagrammen oder Scatterplots
    ●



        Statistische Prüfung: Analyse der Residuen oder Regressionsanalyse
    ●




                     Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
Gibt es noch Fragen?




      Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth

Mais conteúdo relacionado

Destaque

Intégrer les réseaux sociaux dans sa stratégie de communication
Intégrer les réseaux sociaux dans sa stratégie de communicationIntégrer les réseaux sociaux dans sa stratégie de communication
Intégrer les réseaux sociaux dans sa stratégie de communicationComunited
 
Management de Projet: piloter, animer, conduire des projets
Management de Projet: piloter, animer, conduire des projetsManagement de Projet: piloter, animer, conduire des projets
Management de Projet: piloter, animer, conduire des projetsPascal Méance
 
Bab 7-ting-5 Sejarah SPM
Bab 7-ting-5  Sejarah SPMBab 7-ting-5  Sejarah SPM
Bab 7-ting-5 Sejarah SPMnurul othman
 
Hackers Undergroundbook
Hackers UndergroundbookHackers Undergroundbook
Hackers Undergroundbookprasadpsrh
 
Bloggen und die journalistische Selbstvermarktung im Netz
Bloggen und die journalistische Selbstvermarktung im NetzBloggen und die journalistische Selbstvermarktung im Netz
Bloggen und die journalistische Selbstvermarktung im NetzUlrike Langer
 
Étude Instagram : de l'utilisateur à l'influenceur
Étude Instagram : de l'utilisateur à l'influenceurÉtude Instagram : de l'utilisateur à l'influenceur
Étude Instagram : de l'utilisateur à l'influenceurKindai
 
Cours marketing operationnel
Cours marketing operationnelCours marketing operationnel
Cours marketing operationnelmfranchising
 
SlideShare Zeitgeist 2010
SlideShare Zeitgeist 2010SlideShare Zeitgeist 2010
SlideShare Zeitgeist 2010Rashmi Sinha
 
La génération numérique en france. usages d'internet et comportements face au...
La génération numérique en france. usages d'internet et comportements face au...La génération numérique en france. usages d'internet et comportements face au...
La génération numérique en france. usages d'internet et comportements face au...sophie mateo
 
S1 isg - economie et organisations des entreprises
S1   isg - economie et organisations des entreprisesS1   isg - economie et organisations des entreprises
S1 isg - economie et organisations des entreprisesAbdeslam ELMOUDEN
 
Outils de recherche et de veille sur l'actualité
Outils de recherche et de veille sur l'actualité Outils de recherche et de veille sur l'actualité
Outils de recherche et de veille sur l'actualité URFIST de Rennes
 
Proyecto Empresarial Para Montar Un Restaurante
Proyecto Empresarial Para Montar Un RestauranteProyecto Empresarial Para Montar Un Restaurante
Proyecto Empresarial Para Montar Un RestauranteE.A.A. ANDAHUASI S.A.A.
 
Little Book of Leadership Powerpoint
Little Book of Leadership PowerpointLittle Book of Leadership Powerpoint
Little Book of Leadership PowerpointPhil Dourado
 
Mécanique et rdm partie1
Mécanique et rdm partie1Mécanique et rdm partie1
Mécanique et rdm partie1imad-sektaoui
 
Solucionario de dennis g zill ecuaciones diferenciales
Solucionario de dennis g zill   ecuaciones diferencialesSolucionario de dennis g zill   ecuaciones diferenciales
Solucionario de dennis g zill ecuaciones diferencialesjhonpablo8830
 
Manual de Socorro de una Directora de Arte para Community Management y Social...
Manual de Socorro de una Directora de Arte para Community Management y Social...Manual de Socorro de una Directora de Arte para Community Management y Social...
Manual de Socorro de una Directora de Arte para Community Management y Social...Ariadna Collazos
 
Muster-Projekthandbuch Einfamilienhaus
Muster-Projekthandbuch EinfamilienhausMuster-Projekthandbuch Einfamilienhaus
Muster-Projekthandbuch EinfamilienhausMichael Freitter
 
Rehabilitacion de las afasias y disartrias
Rehabilitacion de las afasias y disartriasRehabilitacion de las afasias y disartrias
Rehabilitacion de las afasias y disartriascpcarlos89
 

Destaque (20)

Intégrer les réseaux sociaux dans sa stratégie de communication
Intégrer les réseaux sociaux dans sa stratégie de communicationIntégrer les réseaux sociaux dans sa stratégie de communication
Intégrer les réseaux sociaux dans sa stratégie de communication
 
Management de Projet: piloter, animer, conduire des projets
Management de Projet: piloter, animer, conduire des projetsManagement de Projet: piloter, animer, conduire des projets
Management de Projet: piloter, animer, conduire des projets
 
Bab 7-ting-5 Sejarah SPM
Bab 7-ting-5  Sejarah SPMBab 7-ting-5  Sejarah SPM
Bab 7-ting-5 Sejarah SPM
 
Hackers Undergroundbook
Hackers UndergroundbookHackers Undergroundbook
Hackers Undergroundbook
 
Bloggen und die journalistische Selbstvermarktung im Netz
Bloggen und die journalistische Selbstvermarktung im NetzBloggen und die journalistische Selbstvermarktung im Netz
Bloggen und die journalistische Selbstvermarktung im Netz
 
Étude Instagram : de l'utilisateur à l'influenceur
Étude Instagram : de l'utilisateur à l'influenceurÉtude Instagram : de l'utilisateur à l'influenceur
Étude Instagram : de l'utilisateur à l'influenceur
 
Cours marketing operationnel
Cours marketing operationnelCours marketing operationnel
Cours marketing operationnel
 
SlideShare Zeitgeist 2010
SlideShare Zeitgeist 2010SlideShare Zeitgeist 2010
SlideShare Zeitgeist 2010
 
La génération numérique en france. usages d'internet et comportements face au...
La génération numérique en france. usages d'internet et comportements face au...La génération numérique en france. usages d'internet et comportements face au...
La génération numérique en france. usages d'internet et comportements face au...
 
S1 isg - economie et organisations des entreprises
S1   isg - economie et organisations des entreprisesS1   isg - economie et organisations des entreprises
S1 isg - economie et organisations des entreprises
 
Outils de recherche et de veille sur l'actualité
Outils de recherche et de veille sur l'actualité Outils de recherche et de veille sur l'actualité
Outils de recherche et de veille sur l'actualité
 
SPSS-Kurs
SPSS-KursSPSS-Kurs
SPSS-Kurs
 
Proyecto Empresarial Para Montar Un Restaurante
Proyecto Empresarial Para Montar Un RestauranteProyecto Empresarial Para Montar Un Restaurante
Proyecto Empresarial Para Montar Un Restaurante
 
E-transformation du secteur du vin
E-transformation du secteur du vinE-transformation du secteur du vin
E-transformation du secteur du vin
 
Little Book of Leadership Powerpoint
Little Book of Leadership PowerpointLittle Book of Leadership Powerpoint
Little Book of Leadership Powerpoint
 
Mécanique et rdm partie1
Mécanique et rdm partie1Mécanique et rdm partie1
Mécanique et rdm partie1
 
Solucionario de dennis g zill ecuaciones diferenciales
Solucionario de dennis g zill   ecuaciones diferencialesSolucionario de dennis g zill   ecuaciones diferenciales
Solucionario de dennis g zill ecuaciones diferenciales
 
Manual de Socorro de una Directora de Arte para Community Management y Social...
Manual de Socorro de una Directora de Arte para Community Management y Social...Manual de Socorro de una Directora de Arte para Community Management y Social...
Manual de Socorro de una Directora de Arte para Community Management y Social...
 
Muster-Projekthandbuch Einfamilienhaus
Muster-Projekthandbuch EinfamilienhausMuster-Projekthandbuch Einfamilienhaus
Muster-Projekthandbuch Einfamilienhaus
 
Rehabilitacion de las afasias y disartrias
Rehabilitacion de las afasias y disartriasRehabilitacion de las afasias y disartrias
Rehabilitacion de las afasias y disartrias
 

Mais de Christian Reinboth

Lichtpunktkartierung und Lichtplanung
Lichtpunktkartierung und LichtplanungLichtpunktkartierung und Lichtplanung
Lichtpunktkartierung und LichtplanungChristian Reinboth
 
Forschungsschwerpunkt Demografiefolgen an der Hochschule Harz
Forschungsschwerpunkt Demografiefolgen an der Hochschule HarzForschungsschwerpunkt Demografiefolgen an der Hochschule Harz
Forschungsschwerpunkt Demografiefolgen an der Hochschule HarzChristian Reinboth
 
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...Christian Reinboth
 
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?Christian Reinboth
 
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...Christian Reinboth
 
Digitale Wunddokumentation und Wundfotografie
Digitale Wunddokumentation und WundfotografieDigitale Wunddokumentation und Wundfotografie
Digitale Wunddokumentation und WundfotografieChristian Reinboth
 
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...Christian Reinboth
 
Light Pollution and LED Lighting
Light Pollution and LED LightingLight Pollution and LED Lighting
Light Pollution and LED LightingChristian Reinboth
 
Lichtplanung und optische Messtechnik
Lichtplanung und optische MesstechnikLichtplanung und optische Messtechnik
Lichtplanung und optische MesstechnikChristian Reinboth
 
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...Christian Reinboth
 
Crowdfunding von Forschungsprojekten
Crowdfunding von ForschungsprojektenCrowdfunding von Forschungsprojekten
Crowdfunding von ForschungsprojektenChristian Reinboth
 
Vorteile und Chancen von LED-Beleuchtung im Außenbereich
Vorteile und Chancen von LED-Beleuchtung im AußenbereichVorteile und Chancen von LED-Beleuchtung im Außenbereich
Vorteile und Chancen von LED-Beleuchtung im AußenbereichChristian Reinboth
 
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)Christian Reinboth
 

Mais de Christian Reinboth (20)

Lichtpunktkartierung und Lichtplanung
Lichtpunktkartierung und LichtplanungLichtpunktkartierung und Lichtplanung
Lichtpunktkartierung und Lichtplanung
 
Forschungsschwerpunkt Demografiefolgen an der Hochschule Harz
Forschungsschwerpunkt Demografiefolgen an der Hochschule HarzForschungsschwerpunkt Demografiefolgen an der Hochschule Harz
Forschungsschwerpunkt Demografiefolgen an der Hochschule Harz
 
Wahrscheinlichkeitslehre
WahrscheinlichkeitslehreWahrscheinlichkeitslehre
Wahrscheinlichkeitslehre
 
Statistik II
Statistik IIStatistik II
Statistik II
 
Statistik I
Statistik IStatistik I
Statistik I
 
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...
Der Museumsverband LSA e.V. bei Facebook: Motivation, bisherige Entwicklung u...
 
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?
Crowdfunding für Museen – eine attraktive Finanzierungsmöglichkeit?
 
Einführung in DIALux
Einführung in DIALuxEinführung in DIALux
Einführung in DIALux
 
Einführung in SPSS
Einführung in SPSSEinführung in SPSS
Einführung in SPSS
 
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...
Zum Einfluss der Darstellung von Rollenvorbildern auf die Mensch-Technik-Inte...
 
Digitale Wunddokumentation und Wundfotografie
Digitale Wunddokumentation und WundfotografieDigitale Wunddokumentation und Wundfotografie
Digitale Wunddokumentation und Wundfotografie
 
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...
Können die Industrieländer mit REDD+-Maßnahmen die tropischen Regenwälder in ...
 
Light Pollution and LED Lighting
Light Pollution and LED LightingLight Pollution and LED Lighting
Light Pollution and LED Lighting
 
Lichtplanung und optische Messtechnik
Lichtplanung und optische MesstechnikLichtplanung und optische Messtechnik
Lichtplanung und optische Messtechnik
 
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...
Winter Tourism and Protected Areas in the Harz Mts. – History, Problems and P...
 
Crowdfunding von Forschungsprojekten
Crowdfunding von ForschungsprojektenCrowdfunding von Forschungsprojekten
Crowdfunding von Forschungsprojekten
 
Vorteile und Chancen von LED-Beleuchtung im Außenbereich
Vorteile und Chancen von LED-Beleuchtung im AußenbereichVorteile und Chancen von LED-Beleuchtung im Außenbereich
Vorteile und Chancen von LED-Beleuchtung im Außenbereich
 
Abschlussbericht MOPF
Abschlussbericht MOPFAbschlussbericht MOPF
Abschlussbericht MOPF
 
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)
Der „Walkenrieder Kapitän“ Felix Meier (1834-1886)
 
LEDs in der Außenbeleuchtung
LEDs in der AußenbeleuchtungLEDs in der Außenbeleuchtung
LEDs in der Außenbeleuchtung
 

Multiple Regression

  • 1. Vertiefungsrichtung Marktforschung Sommersemester 2006 Dipl.-WiInf.(FH) Christian Reinboth Multiple Regression Erkennen Darstellen Beschreiben Testen Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 2. Multiple Regression Vielseitiges, strukturprüfendes und am häufigsten eingesetztes multivariates Analyseverfahren ● Ziel: Analyse von Beziehungen zwischen einer abhängigen Variablen und einer (univariater Fall) ● oder mehreren (multivariater Fall) unabhängigen Variablen Anwendung: Beschreibung und Erklärung von Zusammenhängen und Durchführung von Prognosen ● Beispiel: Hängt die Absatzmenge eines bestimmten Produktes von den Ausgaben für die Qualitätssicherung, ● den Ausgaben für die Werbung oder bzw. und der Anzahl der Verkaufsstellen ab? Wenn ja, wie stark fallen die jeweiligen Zusammenhänge aus? Wie wird sich die Absatzmenge entwickeln, ● wenn bestimmte Ausgaben erhöht oder gesenkt werden? Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 3. Inhalte: Multiple Regression Die Multiple Regression Prüfung der Modellprämissen ● ● Exkurs: Korrelation und Kausalität Tests an den Residualgrößen ● ● Formulierung des Regressionsmodells Test auf Normalverteilung ● ● Analysevoraussetzungen Histogramm & P-P-Diagramm ● ● Transformation nichtlinearer Variablen Kolmogoroff-Smirnov-Anpassungstest ● ● Berechnung des Regressionsmodells Test auf Homoskedastizität ● ● Schätzung der Regressionsfunktion Streudiagramm & Box-Plot ● ● Auswahl einer Geraden Levene-Test auf Homoskedastizität ● ● Methode der kleinsten Quadrate Test auf Autokorrelation ● ● Aufstellung der Regressionsgleichung Test an den Variablen ● ● Regressions- und Beta-Koeffizienten Test auf Multikollinearität ● ● Messung der Anpassungsgüte Korrelationsmatrix ● ● R² und korrigiertes R² Toleranz & Varianzinflationsfaktor ● ● Standardfehler der Schätzung Zerlegung der Varianzanteile ● ● F-Statistik Test auf linearen Zusammenhang ● ● Prüfung der Regressionskoeffizienten ● t-Test der Regressionskoeffizienten ● Konfidenzintervalle um die Koeffizienten ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 4. Die Multiple Regression Die Regressionsanalyse ist das flexibelste und am häufigsten eingesetzte multivariate Analyseverfahren ● Untersucht wird die Beziehung zwischen einer abhängigen und einer oder mehrerer unabhängigen Variablen ● Sie wird verwendet um: ● Zusammenhänge quantitativ darzustellen und zu erklären (Ursachenanalyse) ● Werte der abhängigen Variablen zu prognostizieren (Wirkungsprognose) ● Beispiel: Wie verändert sich die Absatzmenge (abhängige Variable) bei Veränderungen am Produktpreis, den ● Werbeausgaben oder der Anzahl der öffentlichen Verkaufsveranstaltungen (unabhängige Variablen)? Ergebnis des Verfahrens ist die Regressionsfunktion: ● Y = f(X) > einfache Regression (eine abhängige und eine unabhängige Variable) ● Y = f(X1, X2, X3...Xn) > multiple Regression (eine abhängige und mehrere unabhängige Variablen) ● Problemfall interdependente Beziehungen: ● Beeinflusst der Bekanntheitsgrad die Absatzmenge oder beeinflusst die Absatzmenge den Bekanntheitsgrad? ● Dieses System ist nicht in einer einzelnen Gleichung erfassbar, sondern nur im Mehrgleichungsmodell ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 5. Exkurs: Korrelation und Kausalität Drei Formen der Korrelation: 1 2 3 Variable A Variable A Variable A Gemeinsame Hintergrund- variable C Variable B Variable B Variable B Variable A beeinflusst Variable B Variable B beeinflusst Variable A Beeinflussung beider Variablen durch C Durch die Regressionsanalyse lassen sich keine Kausalitäten nachweisen! Korrelation ist eine notwendige aber keine hinreichende Bedingung für Kausalität! Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 6. Ablauf der Multiplen Regressionanalyse Zunächst werden die abhängige sowie die unabhängigen Variablen Schritt 1 bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen Formulierung des Modells müssen. Außerdem sind die Grundvorraussetzungen bezüglich des Prüfung der Grundvoraussetzungen Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen. Im zweiten Schritt werden die Regressionskoeffizienten anhand der Schritt 2 Methode der kleinsten Quadrate berechnet und anschließend die Schätzung der Regressionsfunktion Regressionsfunktion aufgestellt. Aufstellung der Regressionsfunktion Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen Schritt 3 ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut Prüfung der Regressionsfunktion und erklären kann und (b) welchen Beitrag die einzelnen unabhängigen Prüfung der Regressionskoeffizienten Variablen zur Erklärung von Y leisten. Schritt 4 Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen eingehalten wurden, d.h. ob keine Autokorrelation der Residuen Prüfung der Modellvoraussetzungen vorliegt und sich diese näherungsweise normal verteilen etc. Ist Interpretation der Ergebnisse das gefundene Modell valide, kann es inhaltlich interpretiert werden. Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 7. Formulierung des Modells Die Regressionsanalyse ist ein struktur- ● prüfendes Verfahren und dient nicht der Entdeckung unbekannter Zusammenhänge Das zu untersuchende Regressionsmodell ● muss vor Beginn der Analyse auf Basis von Sachinformationen gebildet werden Das Modell sollte so konstruiert werden, ● dass eine möglichst vollständige Abbildung der Ursache-Wirkungs- Beziehungen vermutet werden kann Zur Hilfe beim Auffinden der für das ● Modell geeigneten Variablen eignen sich Streudiagramme (univariate Fälle) und Matrixdiagramme (multivariate Fälle) Ein linearer Zusammenhang zwischen ● zwei Variablen ist immer dann zu vermuten, wenn die Punkte im Diagramm eng um eine gedachte Gerade streuen Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 8. Analysevoraussetzungen Grundvoraussetzungen: ● Das Kausalgeflecht (abhängige und unabhängige Variable(n)) muss bekannt sein oder vermutet werden ● Der Zusammenhang zwischen abhängiger und unabhängigen Variablen muss linear sein ● Ein quadratischer, logarithmischer, monotoner oder anders gerarteter Zusammenhang wird nicht aufgedeckt ● Alle verwendeten Variablen müssen metrisch skaliert sein (Verfahren arbeitet mit dem Standardmittelwert) ● Für die unabhängigen Variablen lassen sich auch nominalskalierte Dummy-Variablen einsetzen ● Die Grundvoraussetzungen sind stets vor Beginn der Regressionsanalyse zu überprüfen! Weitere Modellvoraussetzungen: ● Die unabhängigen Variablen dürfen nicht untereinander korrelieren (Multikollinearität) ● Die standardisierten Residuen (durch das Modell nicht erklärte Abweichungen) müssen: ● näherungsweise normalverteilt sein ● die gleiche Varianz besitzen (Homoskedastizität) ● und dürfen nicht untereinander korrelieren (Autokorrelation) ● Die übrigen Modellvoraussetzungen sind stets im Anschluss an die Regressionsanalyse zu überprüfen! Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 9. Transformation nichtlinearer Variablen Das lineare Regressionsmodell dient nicht der Bestimmung der optimalen Kurvenanpassung in allen Fällen ● Es setzt einen linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen voraus ● Liegen nichtlineare Zusammenhänge vor, ist die Transformation einzelner Variablen möglich ● Beispiel: Bei Wachstumsprozessen kommt es häufig vor, dass sich die unabhängige Variable ● linear, die abhängige Variable aber exponentiell verändert (z.b. bei der Schadstoffkonzentration) Bei einer solchen zeitgebundenen exponentiellen Entwicklung, lässt sich der Zusammenhang ● zwischen der Schadstoffkonzentration (abhängige Variable) und der Zeit (unabhängige Variable) darstellen als: Dieser Zusammenhang ist nichtlinear und damit für die Regressionsanalyse ungeeignet ● Wird die Gleichung logarithmiert ergibt sich dagegen folgendes Bild: ● Dieser Zusammenhang ist linear und lässt eine Regressionsanalyse zu ● Als abhängige Variable sind die logarithmierten Werte von Y zu verwenden ● Y =a∗e b∗t  ln Y =ln  ab∗t > Transformation (ln) > Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 10. Ablauf der Multiplen Regressionanalyse Zunächst werden die abhängige sowie die unabhängigen Variablen Schritt 1 bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen Formulierung des Modells müssen. Außerdem sind die Grundvorraussetzungen bezüglich des Prüfung der Grundvoraussetzungen Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen. Im zweiten Schritt werden die Regressionskoeffizienten anhand der Schritt 2 Methode der kleinsten Quadrate berechnet und anschließend die Schätzung der Regressionsfunktion Regressionsfunktion aufgestellt. Aufstellung der Regressionsfunktion Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen Schritt 3 ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut Prüfung der Regressionsfunktion und erklären kann und (b) welchen Beitrag die einzelnen unabhängigen Prüfung der Regressionskoeffizienten Variablen zur Erklärung von Y leisten. Schritt 4 Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen eingehalten wurden, d.h. ob keine Autokorrelation der Residuen Prüfung der Modellvoraussetzungen vorliegt und sich diese näherungsweise normal verteilen etc. Ist Interpretation der Ergebnisse das gefundene Modell valide, kann es inhaltlich interpretiert werden. Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 11. Schätzung der Regressionsfunktion Grundprinzip am Beispiel einer einfachen linearen Regression: ● Der Zusammenhang zwischen den beiden Variablen im Streudiagramm ist nicht perfekt ● Beide Variablen bewegen sich jedoch tendenziell in die gleiche Richtung, ein linearer Trend ist erkennbar ● Es kommen theoretisch mehrere Geraden in Frage um den Verlauf der Punkte nachzuzeichnen ● Entscheidende Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten? ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 12. Auswahl einer Geraden Welche der möglichen Geraden liefert die „besten“ Schätzwerte? ● Ermittlung der senkrechten Abstände zwischen geschätzten und beobachteten „wahren“ Punkten ● Da die Punkte auf beiden Seiten der Geraden liegen, ergeben sich positive wie negative Abstände ● Auswahl derjenigen Geraden, bei der sich positive und negative Abstände gegenseitig aufheben ● Bei dieser Geraden beträgt der durchschnittliche Schätzfehler Null, die Punkte sind gleichmäßig verteilt ● Welches Problem ergibt sich bei diesem Auswahlverfahren? ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 13. Auswahl einer Geraden Beispielrechnung: ● Der senkrechte Abstand des Punktes i zur Geraden Y =ab∗X berechnet sich als: e i=Y i−ab∗X i ● Für eine Untersuchung mit 100 Fällen kann i die Werte 1 bis 100 annehmen ● ∑ e i =∑ Y i−ab∗X i=∑ Y i −100∗a−b∗∑ X i Die Summe aller Abstände berechnet sich daher als: ● Sollen die Summen der Abstände Null sein gilt: ∑ Y i−100∗a−b∗∑ X i=0 ● Dividiert durch die Zahl der Beobachtungen:  ∑ Y i −a−b∗ ∑ X i  Y −a−b∗ X =0 ●   100 100   Diese Rechnung führt zu dem Schluss, dass die Summe der Abstände stets Null beträgt, wenn: Y =ab∗ X ● Diese Bedingung trifft aber auf alle Geraden zu, die ● durch den Punkt aus den beiden Mittelwerten laufen, wobei ● die Steigung der Geraden vollkommen irrelevant wäre ● Diese Vorgehensweise ist daher zur Ermittlung der optimalen Regressionsgerade ungeeignet ● Besser geeignet ist die sogenannte „Methode der kleinsten Quadrate“ (Statistik I) ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 14. Methode der kleinsten Quadrate Minimierung der Summe der Abweichungsquadrate = Methode der kleinsten Quadrate ● Auch die Methode der kleinsten Quadrate arbeitet mit den senkrechten Abständen der realen Werte von der Gerade ● Die Abstände werden jedoch quadriert, so dass sämtliche negativen Vorzeichen wegfallen ● Eine Kompensation der positiven und negativen Abstände wird dadurch vermieden ● Es wird diejenige Gerade selektiert, bei der die Summe der quadrierten Abstände minimal ist ● K k Durch Umformung der Zielfunktion ∑ e k =∑ [ y k −ab∗x k ]  min ! erhält man die Parameter der Regressionsfunktion: 2 2 ● k =1 k=1 I  ∑ x I ∗yk −∑ x I ∗∑ yI  Regressionskoeffizient: b= ● 2  I ∑ xk −∑ x k  2 Konstantes Glied/Konstante: a=  −b∗ y x ● Die Gleichung der Regressionsgeraden im Einfaktoren-Fall lautet: Y =a∗b X ● Die Gleichung der Regressionsgeraden im Mehrfaktoren-Fall lautet dagegen: Y =b0 b1∗X 1b 2∗X 2b j∗X j b J ∗X J ● Die Berechnung der Regressionsparameter erfolgt analog zur Berechnung im Einfaktoren-Fall ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 15. Aufstellung der Regressionsgleichung Einfaktoren-Fall: ● Y =1928,211,91∗X Gehalt mit 40 in Abhängigkeit vom ● Anfangsgehalt bei Berufseinstieg Jeder Euro Mehrverdienst bei Berufseinstieg ● führt zu zwei Euro mehr Gehalt mit 40? Mehrfaktoren-Fall: ● Y =1928,211,91∗X 11020,40∗X 2 Gehalt mit 40 in Abhängigkeit vom ● Anfangsgehalt bei Berufseinstieg und der Ausbildungsdauer (in Jahren) Jedes zusätzliche Ausbildungsjahr führt ● zu über 1000 Euro mehr Gehalt mit 40? Wie lässt sich dies vermutlich erklären? ● Was zeigen die standardisierten Koeffizienten? ● Vorsicht: Mit SPSS lässt sich IMMER eine Regressionsfunktion berechnen! Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 16. Regressions- und Beta-Koeffizienten Häufig ist es interessant festzustellen, welchen Einfluß die einzelnen unabhängigen Variablen auf Y ausüben ● Welche der Variablen liefert den höchsten, welche den niedrigsten Erklärungsbeitrag für Y? ● Zur Beantwortung dieser Frage ist ein einfacher Vergleich der Koeffizienten nicht ausreichend ● Grund: Die erklärenden Variablen können unterschiedliche Dimensionen aufweisen ● Wenn dies der Fall ist, werden auch die Koeffizienten in unterschiedlichen Dimensionen geschätzt ● Eine Änderung der Dimension (z.B. Prozent- statt Absolutwerte) hat unmittelbaren Einfluss auf den Koeffizienten ● Eine solche Änderung hat jedoch keinen Einfluß auf den Erklärungsgehalt der Variablen ● Darum dürfen die Koeffizienten bezüglich des Erklärungsgehalts nicht direkt miteinander verglichen werden ● Die Lösung besteht in der Berechnung der standardisierten Beta-Koeffizienten ● Diese ergeben sich durch die Z-Transformation aller Variablen vor Beginn der Regressionsanalyse ● sxi Alternativ lassen sie sich auch direkt aus den Koeffizienten berechnen: beta i =bi∗ s  ● y betai = Beta-Koeffizient der unabhängigen Variablen i b1 = Regressionskoeffizient der unabhängigen Variablen i sxi = Standardabweichung der unabhängigen Variablen i sy = Standardabweichung der abhängigen Variablen Y Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 17. Ablauf der Multiplen Regressionanalyse Zunächst werden die abhängige sowie die unabhängigen Variablen Schritt 1 bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen Formulierung des Modells müssen. Außerdem sind die Grundvorraussetzungen bezüglich des Prüfung der Grundvoraussetzungen Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen. Im zweiten Schritt werden die Regressionskoeffizienten anhand der Schritt 2 Methode der kleinsten Quadrate berechnet und anschließend die Schätzung der Regressionsfunktion Regressionsfunktion aufgestellt. Aufstellung der Regressionsfunktion Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen Schritt 3 ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut Prüfung der Regressionsfunktion und erklären kann und (b) welchen Beitrag die einzelnen unabhängigen Prüfung der Regressionskoeffizienten Variablen zur Erklärung von Y leisten. Schritt 4 Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen eingehalten wurden, d.h. ob keine Autokorrelation der Residuen Prüfung der Modellvoraussetzungen vorliegt und sich diese näherungsweise normal verteilen etc. Ist Interpretation der Ergebnisse das gefundene Modell valide, kann es inhaltlich interpretiert werden. Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 18. Messung der Anpassungsgüte Da sich mit SPSS immer eine Regressionsfunktion berechnen lässt, stellt sich die Frage nach deren Güte ● Wie gut wird die abhängige Variable Y durch das gefundene Regressionsmodell erklärt? ● Zur Feststellung der Anpassungsgüte existieren drei Kennwerte: ● Bestimmtheitsmaß R² und korrigiertes R² (bei multivariaten Verfahren) ● Standardfehler der Schätzung ● F-Statistik ● Wie aussagekräftig ist das Regressionsmodell insgesamt? Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 19. R² und korrigiertes R² Y Xi/Yi Yi {} Regressionsgerade Nicht erklärte Residuum Abweichung ei Gesamte Abweichung Y* Erklärte { Abweichung _ Y X _ Xi X Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 20. R² und korrigiertes R² Die Regressionsgerade gibt Zusammenhänge, die nicht perfekt linear sind, nicht perfekt wieder ● Es ist daher mit der Regressionsfunktion nur selten möglich, alle Veränderungen in Y durch die Koeffizienten zu erklären ● In der Regel wird ein Teil der Veränderungen erklärt werden können, ein anderer Teil wird unaufgeklärt bleiben ● Das Verhältnis von erklärter Streuung zur Gesamtstreuung ist ein gutes Maß für die Güte des Regressionsmodells ● Residuen werden quadriert, damit sich positive und negative Abweichungen nicht aufheben ● Berechnung des Güßtemaßes R² mit: ● TSS = Total Sum of Squares = Summe aller quadrierten Abweichungen ● ESS = Explained Sum of Squares = Summe aller erklärten quadrierten Abweichungen ● RSS = Residual Sum of Squares = Summe aller nicht erklärten quadrierten Abweichungen ● ESS 2 Die Relation zwischen erklärter Streuung und Gesamtstreuung wird mit R² bezeichnet: R = ● TSS Der Wert von R² gibt den Anteil der erklärten Streuung an der Gesamtstreuung wieder > Güte der Anpassung ● R² ist als prozentualer Wert zu verstehen und liegt daher stets zwischen 0 und 1 ● R² = 1 > Gesamte Streuung wird erklärt, es besteht ein perfekter linearer Zusammenhang ● Je kleiner R² ausfällt, desto mehr weicht der vorliegende Fall vom linearen Zusammenhang ab ● Beachte: R² ist lediglich ein Maß für den linearen Zusammenhang, nicht für andere Zusammenhänge ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 21. R² und korrigiertes R² Zusätzlich zu R² wird von SPSS für multivariate Regressionsanalysen noch das korrigierte R² berechnet ● Warum ist ein zusätzliches Gütemaß neben R² erforderlich? ● Die Aufnahme zusätzlicher erklärender Variablen führt nie zu einer Verschlechterung von R² ● Besteht gar kein Zusammenhang mit Y bleibt R² unverändert ● Besteht ein minimaler Zusammenhang mit Y steigt R² dagegen leicht an ● Ergebnis: wahllos viele Variablen werden ins Regressionsmodell aufgenommen ● Dadurch ergibt sich ein hohes R² und ein vermeintlich gutes Regressionsmodell ● Aber: die prognostizierten Werte werden mit steigender Variablenzahl unzuverlässiger ● Daher: keine Variablen zur Minimalsteigerung von R² ins Regressionsmodell aufnehmen ● Rechtfertigt der Erklärungsanteil einer Variablen die Zunahme an Unsicherheit? > korrigiertes R² ● ESS 2 Herleitung der Berechnungsvorschrift erfolgt aus R²: R = TSS ● TSS− RSS  TSS RSS RSS Da sich TSS aus ESS und RSS zusammensetzt, lässt sich R² auch berechnen als: R2= = − =1− ● TSS TSS TSS TSS  RSS / n−k  2 Das korrigierte R² berechnet sich dann als: Rkorr =1− TSS /n−1 ● Wird eine erklärende Variable hinzugefügt, ergeben sich zwei gegenläufige Effekte: ● RSS verringert sich, wodurch sich das korrigierte R² erhöht ● Der Wert für k erhöht sich, wodurch sich das korrigierte R² verringert ● Je nachdem, welcher Effekt überwiegt, sollte die erklärende Variable ins Modell aufgenommen werden oder nicht ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 22. Standardfehler der Schätzung Residuen können sowohl positiv als auch negativ ausfallen, liegen im Durchschnitt der Beobachtungen aber bei Null ● Dies impliziert, dass die prognostizierten Werte falsch sein können, im Durchschnitt aber korrekt ausfallen ● Es stellt sich die Frage, ob die prognostizierten Werte in der Nähe der wahren Werte liegen oder stark abweichen ● Theoretisch denkbar sind gewaltige Abweichungen in beide Richtungen, die sich im Durchschnitt neutralisieren ● Um den positiv-negativ-Effekt zu neutralisieren, werden die Residuen zunächst quadriert ● Die Summe der quadrierten Residuen wird anschließend durch die Anzahl der Beobachtungswerte geteilt ● ∑ e 2i Dadurch wird die sich ergebende Kennzahl von der Stichprobengröße unabhängig (Vergleichbarkeit): ● n ∑ e 2i = ∑ e 2i −  (Varianz der Residuen) e Da der Mittelwert der Residuen gleich Null ist, gilt ebenfalls: ● n n Aus methodischen Gründen wird oft nicht durch n sondern durch n abzüglich der erklärenden Variablen dividiert ● ∑ e 2i Es ergibt sich folgender Term: (Beachte: auch die Konstante gehört zu den erklärenden Variablen) ●  n−k  ∑ e 2i  Die Quadratwurzel dieses Terms ergibt die Standardabweichung der Residuen (=Standardfehler der Schätzung):  ● n−k  Der Standardfehler der Schätzung ist ein Maß für die Anpassungsgüte der Regressionsgleichung ● Er ist vergleichbar mit R² und korrigiertem R² und inhaltlich ähnlich zu interpretieren ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 23. F-Statistik R² und korrigiertes R² zeigen die Anpassung der Regressionsgeraden an die beobachteten Werte ● Es stellt sich die Frage, ob das Regressionsmodell auch über die Stichprobenwerte hinaus Gültigkeit besitzt ● Ein geeignetes Prüfkriterium bildet die F-Statistik, in welche eingehen: ● die Streuungszerlegung ● der Umfang der Stichprobe ● Die Regressionsfunktion der Stichprobe lässt sich darstellen als: Y =b0 b1∗X 1b 2∗X 2b j∗X j b J ∗X J ● Sie ist die Realisation der „wahren“ Regressionsfunktion: Y =01∗X 12∗X 2 j∗X j J ∗X J u ● Die neue Variable u wird als Störgröße bezeichnet ● Sie repräsentiert alle zufälligen Einflüsse außerhalb der betrachteten Variablen ● Die Störgröße selbst kann nicht beobachtet werden, zeigt sich aber in den Residuen ● Durch den Einfluss von u wird Y zu einer Zufallsvariablen, ebenso wie die Schätzwerte der Regressionsparameter ● Würde man die Stichprobe wiederholen würden sich andere Regressionsparameter ergeben ● Bei wiederholten Stichproben würden diese Parameter um die „wahren“ Parameter schwanken ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 24. F-Statistik Annahme der Regressionsanalyse: kausaler Zusammenhang zwischen abhängiger und unabhängigen Variablen ● Besteht ein solche Zusammenhang tatsächlich, können die „wahren“ Regressionsparameter unmöglich Null sein ● Zur Überprüfung dieser Annahme wird das Regressionsmodell mit Hilfe eines F-Tests varianzanalytisch untersucht ● Die Nullhypothese H0 dieses Tests lautet: H 0 : 1=2== J =0 ● Es besteht kein wirklicher Zusammenhang zwischen abhängigen und unabhängigen Variablen ● Alle „wahren“ Regressionskoeffizienten in der Grundgesamtheit sind daher gleich Null ● Vorgehensweise des F-Tests: ● Berechnung eines empirischen Werts aus der F-Statistik ● 2 Ausdruck der F-Verteilung m Vergleich dieses Werts mit einem kritischen Wert m ● F-verteilte Größe mit m und n 2 n Bei Gültigkeit von H0 ist ein F-Wert von Eins zu erwarten F  m ,n = ● Freiheitsgraden n Abweichungen von Null machen H0 unwahrscheinlich ● Bei deutlichen Abweichungen kann H0 verworfen werden ● Schlußfolgerung: Zusammenhang in der Grundgesamtheit ● Vorsicht: Es kann nichts darüber gesagt werden, zwischen ● welchen Variablen Zusammenhänge bestehen, nur dass nicht alle wahren Parameter bei Null liegen (!) Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 25. Dichtefunktionen der F-Verteilung Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 26. Prüfung der Regressionskoeffizienten Wenn die Validität des Modells feststeht, stellt sich die Frage nach der Validität der einzelnen Koeffizienten ● Gehören alle im Regressionsmodell untergebrachten Variablen auch in dieses Modell? ● Zur Feststellung der Güte der Koeffizienten existieren zwei Kriterien: ● t-Test der Regressionskoeffizienten ● Konfidenzintervalle um die Regressionskoeffizienten ● Wie aussagekräftig sind die einzelnen Regressionskoeffizienten? Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 27. t-Test der Regressionskoeffizienten Wird die Nullhypothese im F-Test verworfen, bedeutet dies dass es mindestens einen Zusammenhang geben muss ● Es bedeutet hingegen nicht, dass alle unabhängigen Variablen ins Regressionsmodell gehören ● Es erscheint daher logisch, einen identischen Test für jeden einzelen Regressionskoeffizienten durchzuführen ● Ein geeignetes Prüfkriterium für diesen Test ist die t-Statistik ● b j− j  Der T-Wert einer unabhängigen Variable wird berechnet, indem deren ● t emp= s bj Regressionskoeffizient durch dessen Standardfehler dividiert wird: Nullhypothese H0: die t-Statistik folgt der bekannten t-Verteilung (Student-Verteilung) um den Mittelwert Null ● Bei Gültigkeit der Nullhypothese ist für die t-Statistik ein Wert von Null zu erwarten ● Weicht der empirische t-Wert stark von Null ab, so ist es unwahrscheinlich, dass H0 korrekt ist ● In diesem Fall ist diese zu verwerfen ● Daraus ist zu folgern, dass der „wahre“ Regressionskoeffizient ungleich Null sein muss ● Dies wiederum bedeutet, dass in der Grundgesamtheit ein Zusammenhang zwischen Y und der X-Variablen besteht ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 28. Konfidenzintervalle um die Koeffizienten Mit einem Konfidenzintervall (Vertrauensbereich) lässt sich die ● Lage eines Parameters mit einer bestimmten Wahrscheinlichkeit abschätzen Ist das Konfidenzintervall um einen Regressionskoeffizienten zu breit, ● muss die geschätzte Regressionsgerade als unsicher betrachtet werden Dies gilt insbesondere dann, wenn innerhalb des Konfidenzintervalls ● ein Vorzeichenwechsel vorliegt, sich der Einfluss also umkehren kann b j −t∗s bj  ß jb j t∗sbj ßj = wahrer Regressionskoeffizient (unbekannt) bj = geschätzter Regressionskoeffizient t = t-Wert aus der Student-Verteilung sbj = Standardfehler des Regressionskoeffizienten Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 29. Ablauf der Multiplen Regressionanalyse Zunächst werden die abhängige sowie die unabhängigen Variablen Schritt 1 bestimmt, wobei hier fachliche Überlegungen im Vordergrund stehen Formulierung des Modells müssen. Außerdem sind die Grundvorraussetzungen bezüglich des Prüfung der Grundvoraussetzungen Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen. Im zweiten Schritt werden die Regressionskoeffizienten anhand der Schritt 2 Methode der kleinsten Quadrate berechnet und anschließend die Schätzung der Regressionsfunktion Regressionsfunktion aufgestellt. Aufstellung der Regressionsfunktion Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen Schritt 3 ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut Prüfung der Regressionsfunktion und erklären kann und (b) welchen Beitrag die einzelnen unabhängigen Prüfung der Regressionskoeffizienten Variablen zur Erklärung von Y leisten. Schritt 4 Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen eingehalten wurden, d.h. ob keine Autokorrelation der Residuen Prüfung der Modellvoraussetzungen vorliegt und sich diese näherungsweise normal verteilen etc. Ist Interpretation der Ergebnisse das gefundene Modell valide, kann es inhaltlich interpretiert werden. Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 30. Übersicht der Modellprämissen J y k = ß 0∑  ß j∗x jk u k A1. mit k = 1, 2, ..., K und K > J+1 j =1 Das Modell ist richtig spezifiziert, d.h. Alle entscheidenden unabhängigen Variablen sind im Modell erfasst ● Es besteht ein linearer Zusammenhang zwischen abhängigen und unabhängigen Variablen ● Die Zahl der zu schätzenden Parameter (J+1) ist kleiner als die Zahl der Beobachtungen (K) ● Erw u k =0 A2. Die Störgrößen haben den Erwartungswert Null Diese Annahme wird verletzt, wenn Y mit einem konstanten Fehler gemessen wird ● Dies wird durch die Methode der kleinsten Quadrate erzwungen ● Der dadurch entstehende Fehler geht in das konstante Glied der Regressionsgleichung ein ● A3. Unabhängige Variablen und Residuen korrelieren nicht Cov u k , x jk =0 2 Var u k = A4. Die Residuen haben eine konstante Varianz (Homoskedastizität) Cov u k ,u kr =0 A5. Die Residuen sind unkorreliert (keine Autokorrelation) A6. Zwischen den unabhängigen Variablen besteht kein linearer Zusammenhang (keine Multikollinearität) A7. Die Residuen uk sind normalverteilt Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 31. Tests zur Prüfung der Modellprämissen Tests an den Residualgrößen ● Test auf Normalverteilung der Residualgrößen (Histogramm, P-P-Diagramm, Kolmogoroff-Smirnov) ● Test auf Varianzgleichheit/Homoskedastizität der Residualgrößen (Streudiagramm, Box-Plot, Levene-Test) ● Test auf Autokorrelation der Residualgrößen (Durbin-Watson-Test) ● Tests an den abhängigen und unabhängigen Variablen ● Test auf Multikollinearität der unabhängigen Variablen (Korrelationsmatrix, Toleranz & VIF, Varianzanteile) ● Test auf linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen (Streudiagramm, Scatterplot) ● Sind alle Modellprämissen erfüllt? Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 32. Prüfung der Residualgrößen Residuen = Differenzen zwischen empirischen und durch die Regressionsfunktion geschätzten Variablenwerten ● Zentrale Forderung des Regressionsmodells: Residuen müssen zufällig verteilt sein ● Bei der Untersuchung der Residuen dürfen keine erkennbaren Muster gefunden werden ● Gibt es Muster so ist zu vermuten, dass das geschätzte Regressionsmodell fehlerhaft ist ● Ein Fehler der zu einem Muster in den Residuen führt, kann verschiedene Ursachen haben: ● Es wurden wichtige Variablen nicht in die Analyse mit einbezogen ● Der Zusammenhang ist nicht linear, sondern quadratisch, monoton, etc. ● Residuen sollten daher zufällig auftreten und normalverteilt sein ● Normalverteilung ist keine Voraussetzung für die Schätzung der Regressionsgraden ● Sie ist aber ausschlaggebend für die Aussagekraft von F-Test und t-Test ● Grafischer Test auf Normalverteilung mit Histogramm und P-P-Diagramm ● Statistischer Test auf Normalverteilung (Levene-Test) ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 33. Normalverteilungsprüfung: Einführung 2 −1  x−   1  2 Die Gauß- oder Normalverteilung ist die wichtigste kontinuierliche Wahrscheinlichkeitsverteilung f  x = e ●   2 Die zugehörige Dichtefunktion ist ● als Gaußsche Glockenkurve bekannt Eigenschaften: ● Dichtefunktion ist ● glockenförmig und symmetrisch Erwartungswert, Median ● und Modus sind gleich Zufallsvariable hat eine ● unendliche Spannweite Viele statistische Verfahren setzen ● die Normalverteilung der Daten in der Grundgesamtheit voraus Es ist daher häufig zu prüfen, ● ob von einer solchen Verteilung µ ausgegangen werden kann Erwartungswert (auch näherungsweise) Median Modus Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 34. Normalverteilungsprüfung: Dichtefunktion Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 35. Normalverteilungsprüfung: Histogramm Grafische Analyse mit Histogramm und überlagerter Normalverteilungskurve ● Die Balken des Histogramms spiegeln die Breite ● der Wertebereiche wieder – da zudem für leere Wertebereiche ein Freiraum ausgegeben wird, kommt im Histogramm die gesamte empirische Verteilung der Variablen zum Ausdruck Dies ermöglicht den direkten Vergleich mit einer ● eingezeichneten theoretischen Verteilung, wie beispielsweise der Normalverteilung Der Grad der Abweichung einer Normalverteilung ● lässt sich auch anhand verschiedener Maßzahlen wie Exzeß (Kurtosis) und Schiefe bestimmen Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 36. Normalverteilungsprüfung: Q-Q Grafische Analyse mit Q-Q-Diagramm und trendbereinigtem Q-Q-Diagramm ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 37. Normalverteilungsprüfung: K-S-A Die Prüfung auf Vorliegen einer Normalverteilung kann auch mit einem Anpassungstests erfolgen ● In SPSS lässt sich dazu beispielsweise der Kolmogorov-Smirnov-Anpassungstest nutzen ● Der Test arbeitet mit der kumulierten empirischen und der kumulierten erwarteten Referenzverteilung ● Die maximale Differenz zwischen beiden Verteilungen wird zur Berechnung der Prüfgröße Z nach Kolmogorov-Smirnov ● verwendet, mit der dann aus einer Tabelle der für einen Stichprobenumfang n kritische Wert für die maximale Differenz bei einem gegebenen Signifikanzniveau abgelesen werden kann Nullhypothese H0 des SPSS-Tests: die Werte der untersuchten Variablen sind normalverteilt ● Berechnet wird die Wahrscheinlichkeit, mit der das Zurückweisen dieser Hypothese falsch ist (Signifikanzwert) ● Je größer diese Wahrscheinlichkeit ausfällt, desto eher ist von einer Normalverteilung der Werte auszugehen ● Im nebenstehenden Beispiel eines ● Kolmogorov-Smirnov-Tests fällt der Signifikanzwert mit 0,00 so niedrig aus, dass die Annahme der Normalverteilung zurückzuweisen ist Bei der Interpretation ist zu beachten, ● dass es sich um einen Test auf perfekte Normalverteilung handelt Anzuraten ist daher die Kombination ● mit einem der grafischen Prüfverfahren Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 38. Homoskedastizitätsprüfung: Levene-Test Viele statistische Verfahren setzen voraus, dass die Varianzen innerhalb verschiedener Fallgruppen gleich sind ● (beispielsweise Signifikanztests und Mittelwertvergleiche) Gleichheit der Varianzen = Homoskedastizität ● Ungleichheit der Varianzen = Hetroskedastizität ● Mit dem Signifikanztest nach Levene wird die Nullhypothese H0 überprüft, dass die Varianzen in der ● Grundgesamtheit in allen Gruppen homogen (gleich) sind Der Test arbeitet mit dem F-Wert als statistischem Prüfmaß mit bekannter Verteilung ● Es wird getestet, mit welcher Wahrscheinlichkeit die beobachteten Abweichungen in den Varianzen ● auftreten können, wenn in der Grundgesamtheit absolute Varianzgleichheit herrscht Diese Wahrscheinlichkeit wird als Testergebnis ausgewiesen ● Eine geringe Wahrscheinlichkeit weist auf eine Varianzungleichheit hin ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 39. Grafische Homoskedastizitätsprüfung Eine grafische Prüfung auf Homoskedastizität kann mit Streudiagrammen oder Boxplots durchgeführt werden ● Hierbei ist auf die unterschiedlichen Streuungen und die Höhe des Medians zu achten ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 40. Test auf Autokorrelation der Residuen Was ist unter Autokorrelation zu verstehen? ● Frage: Bestehen zwischen den Residuen nebeneinanderliegender Fälle systematische Zusammenhänge? ● Beispiel: Auf große positive Residuen folgen regelmäßig große negative Residuen ● Eine derartige Systematik wird als Autokorrelation der Residuen bezeichnet ● Wie kann es zu Autokorrelation kommen? ● Die Möglichkeit einer Autokorrelation besteht immer, wenn die Fälle nicht zufällig angeordnet sind ● Dies ist beispielsweise bei Zeitreihenanalysen der Fall, wo die Fälle zeitlich geordnet vorliegen ● Worauf deutet eine Autokorrelation hin? ● Erklärungsrelevante Variablen wurden nicht in das Regressionsmodell aufgenommen ● Falscher funktionaler Zusammenhang (z.B. quadratisch statt linear) wurde vorausgesetzt ● Autokorrelation führt dazu, dass die Standardfehler zu gering geschätzt werden ● Die Ergebnisse der Signifikanztests sind damit nicht mehr zuverlässig ● Koeffizienten werden als signifikanter eingestuft als sie es tatsächlich sind ● Zur Suche nach Autokorrelationen wird der Durbin-Watson-Test durchgeführt ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 41. Durbin-Watson-Test auf Autokorrelation Der Durbin-Watson-Koeffizient kann Werte zwischen 0 und 4 annehmen ● Je näher der Koeffizient am Wert von 2 liegt, desto geringer ist das Ausmaß der Autokorrelation ● Werte deutlich unter 2 weisen auf eine positive Autokorrelation hin, Werte deutlich über 2 auf eine negative ● Faustregel: Werte zwischen 1,5 und 2,5 sind akzeptabel, Werte unter 1 oder über 3 deuten auf Autokorrelation hin ● Einschränkung: Der Durbin-Watson-Test misst lediglich Autokorrelationen der 1. Ordnung ● Eine Autokorrelation der 1. Ordnung liegt vor, wenn direkt benachbarte Fälle miteinander verknüpft sind ● Bei quartalsweise erhobenen Daten ist jedoch auch eine Autokorrelation der 4. Ordnung denkbar ● In diesem Fall sollte auf den Wallis-Test auf Autokorrelationen 4. Ordnung zurückgegriffen werden ● Der Durbin-Watson-Test kann nur unter zwei Voraussetzungen korrekt interpretiert werden: ● Die Regressionsgleichung muss einen konstanten Term enthalten ● Die abhängige Variable darf nicht zeitverzögert als erklärende Variable verwendet werden (Zeitreihenanalysen!) ● Beispiel: Erklärende Variable für aktuelle Schadstoffbelastung ist die Belastung des Vormonats ● 4 2 3 1 0 Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 42. Kollinearitätsdiagnostik Was ist Kollinearität? ● Kollinearität liegt vor, wenn zwei oder mehr unabhängige Variablen untereinander korrelieren ● Beispiel: Ernteertäge (Y) sollen durch Sonnenscheindauer (X1) und Durchschnittstemperatur (X2) erklärt werden ● Annahme: Eine lange Sonnenscheindauer sorgt für steigende Durschnittstemperaturen ● Es liegt also ein Korrelation zwischen den beiden erklärenden Variablen vor ● Es ist nicht festzustellen, zu welchen Teilen eine Veränderung in Y auf X1 und X2 zurückzuführen ist ● Bei perfekter Kollinearität lässt sich eine erklärende Variable über eine andere erklärende Variable berechnen ● Liegt eine perfekte Kollinearität vor, kann eine der betroffenen Variablen leicht erkannt und ausgeschlossen werden ● Bei einer imperfekten Kollinearität lässt sich die Regressionsgleichung mathematisch wie bisher durchführen ● Es ergibt sich ein unverzerrtes R², die Schätzung der Parameter liefert jedoch unzuverlässige Ergebnisse ● Zu befürchten ist, dass der Koeffizient einer Variablen über- und einer korrelierten Variablen unterschätzt wird ● Der gemeinsame Einfluss beider Variablen wird korrekt ausgewiesen, die Verteilung des Einflusses aber nicht ● Es gibt drei Möglichkeiten, um die unabhängigen Variablen auf Kollinearität zu prüfen ● Erstellung einer Korrelationsmatrix für alle unabhängigen Variablen ● Berechnung von Toleranz und Varianzinflationsfaktor ● Berechnung der Varianzanteile ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 43. Kollinearität: Korrelationsmatrix Vor der Durchführung der Regressionsanalyse kann eine Korrelationsmatrix der erklärenden Variablen erstellt werden ● Ergibt sich ein hoher Korrelationskoeffizient (Bravais-Pearson) zwischen zwei Variablen, kann Kollinearität vorliegen ● In solchen Fällen sollte eine der Variablen aus dem Modell ausgeschlossen und ggf. ersetzt werden ● Denkbar sind beispielsweise Korrelationen zwischen Variablenkombinationen anstatt zwischen zwei Einzelvariablen ● Aus diesem Grund müssen auch Toleranz und Varianzinflationsfaktor berechnet werden ● Im vorliegenden Beispiel fällt die deutliche negative Korrelation auf ● Die Möglichkeit einer Korrelation der beiden Variablen sollte näher untersucht werden (inhaltlich wahrscheinlich) ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 44. Kollinearität: Toleranz & VIF 2 Die Tolerenz ist definiert als: Toleranz i=1− Ri ● Ri ist dabei definiert als der multiple Korrelationskoeffizient ● Fällt der Toleranzwert sehr klein aus, deutet dies auf eine Kollinearität hin ● Faustregel: Toleranzen unter 0,1 sind verdächtig, Toleranzen unter 0,01 eindeutig zu niedrig ● Der Varianzinflationsfaktor (VIF) wird als Kehrwert der Toleranz berechnet ● Entsprechend wird interpretiert: VIF-Werte über 10 sind verdächtig, VIF-Werte über 100 eindeutig zu hoch ● Im vorliegenden Beispiel sprechen die Ergebnisse nicht gegen die Verwertbarkeit des Regressionsmodells ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 45. Kollinearität: Varianzanteile Die Varianzen der Regressionskoeffizienten lassen sich in Komponenten zerlegen und den Eigenwerten zuordnen ● Die Summe aller Komponenten beträgt für jeden Regressionskoeffizienten genau Eins ● Wenn derselbe Eigenwert die Varianz mehrerer Regressionskoeffizienten in hohem Maße erklärt, deutet dies auf eine ● Abhängigkeit der betreffenden Variablen hin Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 46. Linearitätsprüfung Die Prüfung auf Linearität kann sowohl grafisch als auch statistisch erfolgen ● Grafische Prüfung: Auswertung von Streudiagrammen oder Scatterplots ● Statistische Prüfung: Analyse der Residuen oder Regressionsanalyse ● Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth
  • 47. Gibt es noch Fragen? Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth