SlideShare uma empresa Scribd logo
1 de 84
Baixar para ler offline
Correlación y Regresión

                           Marcelo Rodríguez, MSc
                             Ingeniero Estadístico


                            Universidad Católica del Maule
                            Facultad de Ciencias Básicas
   Diseño de Experimentos y Modelos de Regresión lineal: Aplicaciones en SPSS.
                                  MÓDULO 5 y 6



                            26 de noviembre de 2010




mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.              22/10/2010    1 / 84
Introducción

Comúnmente, cuando se realiza un estudio estadístico, se miden a una
misma    unidad de análisis, más de una variable.
Denición (Variable Dependiente)
Es la variable por predecir (o por modelar) y se denota con la letra   Y.

Denición (Variable Independiente)
Son las variables que se utilizan para predecir y se denota con la letra    X.

Denición (Relación entre variables)
Se dice que dos variables están relacionadas, si cambios producidos (causa)
en la   variable independiente producen un efecto en la variable dependiente.


 mrodriguez@ucm.cl (UCM)        Marcelo Rodríguez G.           22/10/2010    2 / 84
Relación entre las variables
Denición (Covarianza)
La covarianza entre dos variables cuantitativas, nos indica si la posible
relación entre dos variables es directa o inversa. La covarianza muestral se
calcula de la siguiente manera:

                                 n
                                       (xi − x)(yi − y)
                                 i=1                             Sxy
                       covxy =                               =
                                          n−1                    n−1

     Si la covarianza es negativa, entonces la relación es inversa.

     Si la covarianza es positiva, entonces la relación es directa.

     Si la covarianza es cero, entonces la relación es nula (no relacionados).

El signo de la covarianza nos dice si el aspecto de la nube de puntos es
creciente o no, pero no nos dice nada sobre el              grado de relación entre las
variables.

  mrodriguez@ucm.cl (UCM)            Marcelo Rodríguez G.                22/10/2010   3 / 84
Relación entre las variables
Ejemplo
Considere un estudio donde se mide el DAP (X ) en centímetros y la Altura
(Y ) en metros. Se considera una muestra de 10 árboles, los datos son:

                            DAP (xi )   Altura (yi )   (xi   − x)   (yi   − y)   (xi   − x)(xi − x)
                              15,6         17,4          2,05         0,75              1,5375
                              14,8         18,4          1,25         1,75              2,1875
                              15,5         16,5          1,95        -0,15             -0,2925
                              12,5         15,2         -1,05        -1,45              1,5225
                              14,2         19,9          0,65         3,25              2,1125
                              15,7         22,1          2,15         5,45             11,7175
                              12,3         14,8         -1,25        -1,85              2,3125
                              14,2         17,3          0,65         0,65              0,4225
                               8,8         10,3         -4,75        -6,35             30,1625
                              11,9         14,6         -1,65        -2,05              3,3825
                Promedio     13,55        16,65                     Suma               55,065

                                        55,065
La covarianza sería     covxy =            9      = 6, 118.         Lo que indica es que el DAC y
la altura están relacionados, de forma directa (a medida que aumenta el
DAP aumenta la altura).


  mrodriguez@ucm.cl (UCM)                  Marcelo Rodríguez G.                                  22/10/2010   4 / 84
Grado de relación entre las variables
Coeciente de correlación de Pearson



Denición (Correlación)
El coeciente de correlación de Pearson, indica la fuerza y la dirección de
una relación lineal entre dos variables aleatorias. Se considera que dos
variables cuantitativas están correlacionadas cuando los valores de una de
ellas varían sistemáticamente con respecto a los valores de la otra.

                                  n
                                      (xi − x)(yi − y)
                                i=1                                   Sxy
                r=                                                =
                            n                    n                    Sxx Syy
                                  (xi − x)2 ·         (yi − y)2
                            i=1                 i=1




  mrodriguez@ucm.cl (UCM)                Marcelo Rodríguez G.               22/10/2010   5 / 84
Grado de relación entre las variables
Coeciente de correlación de Pearson

      Indica si los puntos tienen una tendencia a disponerse alineadamente
      (excluyendo rectas horizontales y verticales). Es útil para determinar si
      hay relación lineal (y   = β0 + β1 · x) entre dos variables.
      Tiene el mismo signo que     Covxy . La diferencia radica en        que   r   está
      acotado en    [−1, 1].
      Si está cercana a -1, indica que las variables están relacionadas en
      forma inversa, si está cercana a +1, la relación es directa y si está
      cercana a 0, las variables no están relacionadas.
      Cuanto más cerca esté     r   de   −1   o   +1   mejor será el grado de relación
      lineal. Siempre que no existan observaciones atípicas.




  mrodriguez@ucm.cl (UCM)           Marcelo Rodríguez G.                 22/10/2010    6 / 84
Grado de relación entre las variables
Coeciente de correlación de Pearson


Ejemplo
Con los datos anteriores, calcule e interprete la correlación.

                                 DAP (xi )    Altura (yi )             (xi − x)2   (yi − y)2
                                   15,6          17,4                    4,2025     0,5625
                                   14,8          18,4                    1,5625     3,0625
                                   15,5          16,5                    3,8025     0,0225
                                   12,5          15,2                    1,1025     2,1025
                                   14,2          19,9                    0,4225    10,5625
                                   15,7          22,1                    4,6225    29,7025
                                   12,3          14,8                    1,5625     3,4225
                                   14,2          17,3                    0,4225     0,4225
                                    8,8          10,3                  22,5625     40,3225
                                   11,9          14,6                    2,7225     4,2025
                    Promedio      13,55         16,65           Suma   42,985      94,385

                                       55,065
La correlación sería        r=   √
                                     42,985·94,385
                                                             = 0, 865.   Lo que indica es que el

DAC y la altura están relacionados, de forma directa casi perfecta (r
cercana a 1).


  mrodriguez@ucm.cl (UCM)                    Marcelo Rodríguez G.                              22/10/2010   7 / 84
Grado de relación entre las variables
Prueba de hipótesis para probar si la correlación es signicativa


Para probar la hipótesis de que la correlación es signicativamente distinta
(mayor o menor) que cero, se debe seguí el siguiente procedimiento.
Comúnmente cuando el valor−p es menor que 0,05 se dice que es
signicativa, si es menor que 0,01 es altamente signicativa.


                                                      √
                                                    r· n−2
            Estadística de prueba:              tc = √
                                                       1 − r2

            Hip. Nula    Hip. Alternativa       Rechace    H0 si         Valor−p
            H0 : ρ = 0   H1 : ρ = 0             |tc |  t1−α/2 (n − 2)   2[1 − P(T  |tc |)]
            H0 : ρ = 0   H1 : ρ  0             tc  t1−α (n − 2)        1 − P(T  |tc |)
            H0 : ρ = 0   H1 : ρ  0             tc  −t1−α (n − 2)       1 − P(T  |tc |)


T   se distribuye    t−student       con   n−2      grados de libertad.



    mrodriguez@ucm.cl (UCM)                Marcelo Rodríguez G.                     22/10/2010   8 / 84
Grado de relación entre las variables
Prueba de hipótesis para probar si la correlación es signicativa

Ejemplo
Pruebe la hipótesis de que la correlación es signicativa.

      Hipótesis:   H0 : ρ = 0      H1 : ρ = 0
                                 v/s
                                              √
                                     0, 865 · 8
      Estadístico de prueba: tc =                  = 4, 865.
                                       1 − 0, 8652
      Región de Rechazo: Si α = 0, 05. Entonces rechace H0 ,                si
      |tc |  t0,975 (8) = 2, 306.
      Signicancia:
      valor−p   = 2[1 − P(T  |4, 865|)] ∼ 2[1 − 0, 99925] = 0, 0015
                                         =
      Conclusión: Como       |tc | = 4, 865  2, 306          o equivalentemente
      valor−p    0, 05.    Entonces, existe suciente evidencia muestral para
      armar que el DAP y la altura están signicativamente correlacionadas
      (en rigor estricto es altamente signicativa, pues el valor−p               0, 01).
  mrodriguez@ucm.cl (UCM)              Marcelo Rodríguez G.                 22/10/2010   9 / 84
Grado de relación entre las variables
Prueba de hipótesis para probar si la correlación es signicativa en SPSS




  mrodriguez@ucm.cl (UCM)           Marcelo Rodríguez G.               22/10/2010   10 / 84
Grado de relación entre las variables
Prueba de hipótesis para probar si la correlación es signicativa en SPSS




                                                                          Correlaciones
                                                                                             DAP         Altura
                                                                                                                 **
                                                  DAP       Correlación de Pearson                  1     ,865
                                                            Sig. (bilateral)                                ,001
                                                            N                                    10           10
                                                                                                    **
                                                  Altura    Correlación de Pearson           ,865                 1
                                                            Sig. (bilateral)                   ,001
                                                            N                                    10           10
                                                     **. La correlación es significativa al nivel 0,01
                                                     (bilateral).




  mrodriguez@ucm.cl (UCM)           Marcelo Rodríguez G.                              22/10/2010          11 / 84
Regresión Lineal Simple
Introducción




 (Regresión Lineal Simple)
      El término regresión fue introducido por Galton en su libro Natural
      inheritance (1889) reriéndose a la ley de la regresión universal.

      Se supone que se tiene una muestra     (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
      correspondiente a la observación    conjunta de las variables X e Y .

      El objetivo será encontrar una relación entre ambas variables, esta
      relación podría estar dada por una recta (ecuación de regresión:
      y = β0 + β0 · x).




  mrodriguez@ucm.cl (UCM)       Marcelo Rodríguez G.                    22/10/2010        12 / 84
Peso                        ninguno


Regresión Lineal Simple       Segmentar archivo
                              Núm. de filas del archivo
                              de trabajo
                                                          ninguno
                                                                                     10

Diagrama deSintaxis
             dispersión                                   GRAPH
                                                           /SCATTERPLOT(BIVAR)=DAP
                                                          WITH Altura
                                                           /MISSING=LISTWISE.
En un diagrama Tiempo de procesador
         Recursos de dispersión, cada unidad00:00:00,500
                                             de análisis es un punto cuyas
coordenadas sonTiempo transcurrido de las variables. El error aleatorio;
                 los valores                       00:00:00,530
                                                                                                                   son las
desviaciones de los verdaderos valores de Y con respecto a los valores
         [Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseño Experimental
            y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ( Correlac
estimados y y(recta). Lineal Simple)datoseje_corr.sav
        ión   Regresión


                     22




                     20




                     18
            Altura




                     16




                     14




                     12




                     10                                                                        R2 Lineal = 0,747

                          8                        10                  12                 14                16

                                                                      DAP

  mrodriguez@ucm.cl (UCM)                                 Marcelo Rodríguez G.                          22/10/2010       13 / 84
Regresión Lineal Simple
La ecuación de regresión

La ecuación de predicción esperada está dada por


                                    y = β0 + β1 · x.

Donde, las estimaciones de los parámetros                β1   y   β0   son:


                                   Sxy
                            β1 =       ;    y    β0 = y − β1 x
                                   Sxx

      Intercepto (β0 ): es la estimación de          y   cuando        x = 0.
      Pendiente (β1 ): es la estimación de la pendiente de la recta (magnitud
      del incremento (o decremento) de           y   por cada unidad de incremento en
      x.)
Además, se dene el coeciente de determinación                    r2 ,   como el porcentaje
de la variabilidad total que explica el modelo.

  mrodriguez@ucm.cl (UCM)            Marcelo Rodríguez G.                       22/10/2010   14 / 84
Regresión Lineal Simple
La ecuación de regresión


Ejemplo
Considerando los datos del problema anterior, encuentre la ecuación de
regresión entre el DAP y la altura.
La ecuación de predicción esperada está dada por


                                   y = β0 + β1 x,


                            Altura   = β0 + β1 · DAP,
Donde, las estimaciones de los parámetros           β1    y   β0   son:



           55, 065
    β1 =           = 1, 281;   y     β0 = 16, 65 − 1, 281 · 13, 55 = −0, 708.
           42, 985

  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.                   22/10/2010   15 / 84
Regresión Lineal Simple
La ecuación de regresión

Ejemplo
Entonces, la ecuación sería:


                            Altura   = −0, 708 + 1, 281 · DAP,

      Pendiente: Por cada centímetro que se incrementa el DAP, la altura se
      incrementa en 1,281 metros.

      Intercepto: Un árbol con un DAP muy pequeño (0), se estima que su
      Altura será de -0,708. En este caso no tiene sentido.

Esta recta, puede servir para predecir, suponga que tiene un árbol con un
DAP=8cm, entonces se estima que su altura sería de

Altura   = −0, 708 + 1, 281 · 8 = 9, 54          metros.
Además el porcentaje de la variabilidad total que explica el modelo es de
74,7% (r
           2   = 0, 8652 = 0, 747).
  mrodriguez@ucm.cl (UCM)              Marcelo Rodríguez G.      22/10/2010   16 / 84
Regresión Lineal Simple
Prueba de hipótesis para la pendiente

Para probar la hipótesis de que la pendiente es signicativamente distinta
(mayor o menor) que cero, se debe seguí el siguiente procedimiento. Al ser
la pendiente distinta de cero, esto indicaría que las variables están
relacionadas.


                                                                  √
                                                           β1 ·      Sxx
                Estadística de prueba:              tc =
                                                                  se

                Hip. Nula      Hip. Alternativa     Rechace    H0 si         Valor−p
                H0 : β 1 = 0   H1 : β 1 = 0         |tc |  t1−α/2 (n − 2)   2[1 − P(T  |tc |)]
                H0 : β 1 = 0   H1 : β 1  0         tc  t1−α (n − 2)        1 − P(T  |tc |)
                H0 : β 1 = 0   H1 : β 1  0         tc  −t1−α (n − 2)       1 − P(T  |tc |)


T   se distribuye      t−student     con      n−2      grados de libertad. Además
              n            2
              i=1 (yi −yi )         Syy −β1 Sxy
s =              n−2           =        n−2     es la desviación estándar del error,

también llamado, error estándar (típico) de la estimación.

    mrodriguez@ucm.cl (UCM)                   Marcelo Rodríguez G.                        22/10/2010   17 / 84
Regresión Lineal Simple
Prueba de hipótesis para la pendiente

Ejemplo
Pruebe la hipótesis de que la pendiente es distinta de cero.

      Hipótesis:   H0 : β1 = 0     H1 : β 1 = 0
                                  v/s
                                            √
                                   1, 281 · 42, 985
      Estadístico de prueba: tc =                   = 4, 865.
                                         1, 726
      Región de Rechazo: Si α = 0, 05. Entonces rechace H0 ,             si
      |tc |  t0,975 (8) = 2, 306.
      Signicancia:
      valor−p   = 2[1 − P(T  |4, 865|)] ∼ 2[1 − 0, 99925] = 0, 0015
                                         =
      Conclusión: Como       |tc | = 4, 865  2, 306       o equivalentemente
      valor−p    0, 05.    Entonces, existe suciente evidencia muestral para
      armar que el DAP y la altura están signicativamente relacionadas.
      (Esta prueba es equivalente a la prueba de hipótesis para la
      correlación).
  mrodriguez@ucm.cl (UCM)           Marcelo Rodríguez G.                22/10/2010   18 / 84
Regresión Lineal Simple
Regresión Lineal Simple en SPSS




  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.   22/10/2010   19 / 84
Regresión Lineal Simple
Regresión Lineal Simple en SPSS




                                              [Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseño Ex
                                               y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módulo 5
                                              ión y Regresión Lineal Simple)datoseje_corr.sav

                                                                          Resumen del modelo
                                               Modelo                                       R cuadrado          Error típ. de la
                                                               R          R cuadrado         corregida           estimación
                                                                      a
                                                   1           ,865             ,747               ,716                  1,726
                                                   a. Variables predictoras: (Constante), DAP

                                                                                                            a
                                                                                             Coeficientes
                                               Modelo                                                               Coeficientes
                                                                          Coeficientes no estandarizados             tipificados
                                                                                B              Error típ.               Beta          t         Sig.
                                               1         (Constante)                -,708            3,610                            -,196       ,849
                                                         DAP                        1,281              ,263                    ,865   4,865       ,001
                                                   a. Variable dependiente: Altura




  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.                                                      22/10/2010                        20 / 84
Regresión
Estimación curvilínea: Modelo Exponencial

Un modelo de regresión se dice que es exponencial si
                                                                Resumen del modelo y estimaciones de los parámetros

                                y = β0 · exp[β1 · x]
                                       Variable dependiente:Volumen
                                       Ecuación       Estimaciones de los parámetros

Por ejemplo, considere el problemaExponencial se mide el DAP=X y el
                                                        Constante           b1
                                   donde         ,001    ,266

Volumen=Y. Los datos y la gráca son:  La variable independiente esDAP.



                                                                                       Volumen

     DAP=X       Volumen=Y             0,200

       16,9          ,117
        8,9          ,025
                                       0,150
       17,7          ,131
        2,1          ,001
       11,5          ,037              0,100

       19,9          ,198
        6,2          ,012
                                       0,050
       17,1          ,127
       14,7          ,089
                                       0,000
       18,6          ,167                   0,0              5,0              10,0           15,0            20,0
                                                                                 DAP



  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.                                       22/10/2010               21 / 84
Regresión
Estimación curvilínea: Modelo Exponencial


 (Modelo exponencial)
      El modelo exponencial, se puede solucionar mediante una regresión
      lineal simple.

      Aplicar el logaritmo natural a la ecuación


                                  y = β0 · exp[β1 · x]

      .

      Tendríamos
                              w = ln[y] = ln[β0 ] + β1 · x
      .

      Encuentre la ecuación de regresión lineal simple entre         X     y   W.
      Luego se debe aplicar la exponencial a        w    para despejar   y.

  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.                   22/10/2010   22 / 84
Regresión
Estimación curvilínea: Modelo Exponencial



Ejemplo
Para los datos de DAP=      X y Volumen= Y, encuentre             la ecuación de
regresión   y = β0 · exp[β1 · x]. Considere lo siguiente:

  DAP=X   Volumen=Y    W = ln[Y ]      La ecuación de regresión entre     X   y   W   es
   16,9
    8,9
            0,117
            0,025
                            -2,1456
                            -3,6889
                                       w = −6, 588 + 0, 266x.
   17,7     0,131           -2,0326
                                       Además el
                                                        2
                                                       rxw = 0, 934.
    2,1     0,001           -6,9078
   11,5     0,037           -3,2968
                                       Aplicando la exponencial y considerando
   19,9     0,198           -1,6195
    6,2     0,012           -4,4228    que w = ln[y], tenemos
   17,1     0,127           -2,0636
   14,7     0,089           -2,4191    y = exp[−6, 588] exp[0, 266x]
   18,6     0,167           -1,7898
                                       y = 0, 001 exp[0, 266x].



  mrodriguez@ucm.cl (UCM)             Marcelo Rodríguez G.             22/10/2010     23 / 84
Regresión
Estimación curvilínea: Modelo Exponencial

Ejemplo
      También podemos encontrar la ecuación de regresión lineal simple
      entre   X   e   Y.   La cual sería,   y = −0, 055 + 0, 011x,   con
                                                                            2
                                                                           rxy = 0, 890.
      El modelo exponencial es
                                                                     2
                                       y = 0, 001 exp[0, 266x], con rxw = 0, 934.
      En los datos existe un        árbol con DAP= 14, 7 y Volumen= 0, 089. Si
      utilizamos estos dos modelos para predecir el volumen de un árbol con
      DAP=14,7, tenemos
           Con el modelo de regresión lineal simple:
           y = −0, 055 + 0, 011 · 14, 7 = 0, 105.
           Con el modelo exponencial:
           y = 0, 001 exp[0, 266 · 14, 7] = 0, 068.
      Ambas estimaciones del volumen están cercanas a            0, 089,      pero la del
      modelo exponencial (0,068), está más cercana. Además, el                  r2   del
      modelo exponencial está más cercano al 100%.

      En conclusión, entre estos dos modelos el mejor es el exponencial.
  mrodriguez@ucm.cl (UCM)              Marcelo Rodríguez G.                22/10/2010      24 / 84
Regresión
Estimación curvilínea: Modelo Exponencial en SPSS




  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.   22/10/2010   25 / 84
Regresión
Estimación curvilínea: Modelo Exponencial en SPSS


                                                                        Resumen del modelo y estimaciones de los parámetros
                                               Variable dependiente:Volumen
                                               Ecuación                           Resumen del modelo                           Estimaciones de los parámetros
                                                              R cuadrado          F       gl1          gl2         Sig.         Constante            b1
                                               Lineal               ,890       64,951           1            8          ,000           -,055              ,011
                                               Exponencial          ,934      112,799           1            8          ,000            ,001              ,266
                                               La variable independiente esDAP.



                                                                                                    Volumen
                                                                                                                                                 Observado
                                              0,200
                                                                                                                                                 Lineal
                                                                                                                                                 Exponencial



                                              0,150




                                              0,100




                                              0,050




                                              0,000
                                                   0,0                  5,0               10,0                   15,0               20,0
                                                                                            DAP




  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.                                                           22/10/2010                       26 / 84
Regresión
Estimación curvilínea: Algunos modelos clásicos
  Modelo        Ecuación                              Comentario
  Lineal        y = β0 + β1 · x                       Este modelo ya se analizó con todo detalle.

  Logarítmico   y = β0 + β1 · ln[x]                   Calcule      T = ln[X],   encuentre la ecuación de regresión lineal entre         T    e   Y.
                                                      Luego, en la ecuación       y = β0 + β1 · t,   reemplace   t   por   ln[x].
                                  1                                1
  Inverso       y = β0 + β1 ·                         Calcule      T =
                                                                   X , encuentre la ecuación de regresión lineal entre              T   e   Y.
                                  x
                                                                                                              1
                                                      Luego, en la ecuación y = β0 + β1 · t, reemplace t por .
                                                                                                              x
  Cuadrático    y = β0 + β1 · x + β2 · x2                       2
                                                      Calcule X y realice una regresión múltiple.

  Cúbico        y = β0 + β1 · x + β2 · x2 + β3 · x3   Calcule X 2 , X 3 y realice una regresión múltiple.
  Potencia                                            Calcule T = ln[X], W = ln[Y ]. Encuentre la ecuación de regresión entre
                y = β0 · xβ1                          T y W . En la ecuación w = b + m · t, reemplace t = ln[x] y w = ln[y].
                                                      Luego despeje y. Entonces, los parámetros serían β0 = exp[b] y β1 = m.
  Compuesto                                           Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W .
                              x
                y = β0 · β1                           En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despeje y.

                                                      Entonces, los parámetros serían β0 = exp[b] y β1 = exp[m].
                                                                    1
                                                      Calcule T =
  G
                                                                    X , W = ln[Y ]. Encuentre la ecuación de regresión entre
                                       1                                                                               1
                y = exp β0 + β1 ·                     T   y   W.   En la ecuación   w = b + m · t,   reemplace   t=    x y    w = ln[y].
                                       x
                                                      Luego despeje      y.   Entonces, los parámetros serían    β0 = b      y   β1 = m.
                           1                                                                             ◦ máx. de iteraciones, usar 1000.
  Logística     y=               x                    Solución por sistemas no lineales. Ingresar n
                     (β0 + β1 · β2 )
  Crecimiento                                         CalculeW = ln[Y ]. Encuentre la ecuación de regresión entre X y W.
                y = exp[β0 + β1 · x]                  En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despeje y.
                                                      Entonces, los parámetros serían β0 = b y β1 = m.

  Exponencial   y = β0 · exp[β1 · x]                  Este modelo ya se analizó con todo detalle.



   mrodriguez@ucm.cl (UCM)                            Marcelo Rodríguez G.                                       22/10/2010                  27 / 84
Regresión
Estimación curvilínea: Algunos modelos clásicos en SPSS




                                                      Encontraremos todos los
                                                      modelos de regresión que
                                                      propone SPSS.

                                                      Un modelo es bueno si el
                                                      valor−p      0, 05.
                                                      El mejor modelo es el que tiene
                                                      el menor valor−p, mayor         r2 ,
                                                      mayor   F   y menor número de
                                                      parámetros.




  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.                  22/10/2010      28 / 84
Regresión
Estimación curvilínea: Algunos modelos clásicos en SPSS




  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.   22/10/2010   29 / 84
Regresión
Estimación curvilínea: Algunos modelos clásicos en SPSS

      Lineal: V olumen = −0, 055 + 0, 011 · DAP,          r2 = 89, 0%.
                                             1
      Inversa: V olumen = 0, 130 − 0, 338 ·       ,       r2 = 41, 3%.
                                            DAP
      Potencia: V olumen = 0, 000166 · DAP
                                             2,329 ,      r2 = 99, 5%.




  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.         22/10/2010   30 / 84
Regresión
Estimación curvilínea: Algunos modelos clásicos en SPSS

      Lineal: V olumen = −0, 055 + 0, 011 · DAP,                 r2 = 89, 0%.
                                             1
      Inversa: V olumen = 0, 130 − 0, 338 ·       ,              r2 = 41, 3%.
                                            DAP
      Potencia: V olumen = 0, 000166 · DAP
                                             2,329 ,             r2 = 99, 5%.
                                             Volumen
                0,200                                               Observado
                                                                    Lineal
                                                                    Inverso
                                                                    Potencia
                0,150




                0,100




                0,050




                0,000
                     0,0    5,0       10,0         15,0   20,0
                                       DAP


  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.                  22/10/2010   31 / 84
Regresión Lineal Múltiple
  Introducción

                                                                                                                          Técnica de dependencia que puede
                                                                                                                          utilizarse para analizar la relación entre
                                                                                                                          una única variable dependiente (Y ) y
                                                                                                                          varias variables independientes     x1 , x 2 ,
                      28,0
                                                                                                                          . . . , xk .
                                                                                                                          Cada variable independiente es
    Índice de sitio




                      26,0


                      24,0
                                                                                                                          ponderada (βj ), de forma que las
                                                                                                                          ponderaciones indican su contribución
                      22,0

                                                                                                                          relativa a la predicción conjunta.
                      20,0


                      18,0
                                                                                                                30
                                                                                                                     ,0   El objetivo es usar las variables
                                                                                                           ,0
                             1,20                                                                  35
                                    1,25
                                           1,30                                           40
                                                                                             ,0                           independientes cuyos valores son
                                                  1,35                                                 a
                                                    ,40  1                         45
                                                                                     ,0
                                                                                                  en
                                           Den
                                              sida           1,45
                                                                    1,50      ,0          Ar                              conocidos para predecir la única
                                                  d                        50


                                                                                                                          variable dependiente seleccionada por
                                                                                                                          el investigador.

ON
       mrodriguez@ucm.cl (UCM)
NG LISTWISE                                                                                                     Marcelo Rodríguez G.               22/10/2010      32 / 84
Regresión Lineal Múltiple
El modelo lineal general


El modelo de regresión lineal sería


                    yi = β0 + β1 · xi1 + β2 · xi2 , . . . , βk · xik + εi .
Donde                                                                            
                 y1          1 x11 x12 . . . x1n                      β0             ε1
                y2        1 x21 x22 . . . x2k                    β1           ε2 
           Y =  . ,    X= .                            ,    β =  . ,     ε =  . ,
                                                                                 
                                .   .         .
                . 
                  .         .
                             .
                                .
                                .
                                    .
                                    .
                                              .
                                              .                     . 
                                                                       .            . 
                                                                                      .
                 yn          1 xn1 xn2 . . . xnk                      βk             εn

      βj ,   son los parámetros desconocidos,            j = 1, . . . , k.   El n
                                                                                    ◦ total de

      parámetros es      p = k + 1.
      εi   es el   i−ésimo   error aleatorio asociado con          yi , i = 1, . . . , n.
      El objetivo es estimar      βj ,   a esta estimación la llamaremos                 βj .
      La estimación se los parámetros sería          β=         (XT X)−1 XT Y. Entonces
      el modelo estimado sería           yi = β0 + β1 · xi1 + β2 · xi2 , . . . , βk · xik .
  mrodriguez@ucm.cl (UCM)                Marcelo Rodríguez G.                       22/10/2010   33 / 84
Regresión Lineal Múltiple
Ejemplo de estimación de los parámetros.



Ejemplo
Se desea conocer la tasa de crecimiento de un cultivo bajo diferentes
condiciones de sitio y manejo. En el caso del                                      Eucaliptus Globulus es
prácticamente desconocida, es por ello que se toman muestras de suelo de
cada rodal, midiendo el                       y = índice de sitio                 (altura promedio alcanzada
por árboles dominantes a una edad determinada),                                            x1 = % de arena, x2 =
% de arcilla y la x3 = densidad aparente (gr/cc).
  Índice de sitio (y )   25,4   24,0   22,9   25,3   21,4   24,5   22,1   19,6   26,9   24,0   20,3   23,6   23,4   24,0   23,1   21,2
  % Arena (x1 )          40,5   45,8   47,6   47,2   40,4   38,9   45,3   32,7   41,5   42,9   40,2   46,1   45,0   48,9   41,3   46,2
  % Arcilla (x2 )        34,3   37,5   27,4   32,9   33,8   38,7   28,4   34,0   30,1   34,4   46,9   35,4   34,3   25,7   32,3   32,5
  Densidad (x3 )         1,29   1,32   1,40   1,30   1,41   1,25   1,38   1,50   1,20   1,34   1,38   1,49   1,47   1,36   1,42   1,48




   mrodriguez@ucm.cl (UCM)                              Marcelo Rodríguez G.                                 22/10/2010           34 / 84
Regresión Lineal Múltiple
Ejemplo de estimación de los parámetros.

      Se propone el siguiente modelo


                        y = β0 + β1 · x1 + β2 · x2 + β3 · x3 + ε.
      Se desea estimar los parámetros del modelo (βj ). Por ejemplo, si la
      estimación del parámetro     β2   es muy cercano a 0, quiere decir que el %
      de arcilla (x2 ) no inuye en la predicción del índice de sitio (y ).

      Los parámetros estimados serían:
      β0 = 43, 037, β1 = 0, 121, β2 = −0, 066,            y   β3 = −16, 604.
      Entonces el modelo estimado sería


                 y = 43, 037 + 0, 121 · x1 − 0, 066 · x2 − 16, 604 · x3 .


      Índice de sitio   = 43, 037+0, 121·Arena−0, 066·Arcilla−16, 604·Densidad.
  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.                 22/10/2010   35 / 84
Regresión Lineal Múltiple
Prueba de hipótesis para los parámetros.

 (Prueba de hipótesis para los parámetros del modelo)
    Hipótesis:
      H0 : β 0 = β 1 = · · · = β k = 0                v/s         H1 : βj = 0,         para algún   j.
      Estadístico de prueba:
                       Modelo       Suma de           Grados de       Media       Fc
                                   cuadrados           libertad     cuadrática
                                   n
                                                                     SCReg       MCReg
                      Regresión         (yi − y)2       p−1
                                                                     (p − 1)     MCRes
                                  i=1
                                   n
                                                                     SCRes
                       Residual         (yi − yi )2     n−p
                                                                     (n − p)
                                  i=1
                                   n
                                                 2
                        Total           (yi − y)        n−1
                                  i=1


      Región de rechazo: Rechace H0 si Fc  F1−α (p − 1, n − p).
      Signicancia: Valor-p = 1 − P(F  Fc ). Donde F se distribuye
      Fisher con   p−1      y   n−p      grados de libertad.

  mrodriguez@ucm.cl (UCM)                Marcelo Rodríguez G.                          22/10/2010   36 / 84
Regresión Lineal Múltiple
Ejemplo de estimación de los parámetros.

Para vericar si las variables independientes (xj ) tienen un aporte
signicativo en la predicción del Índice de sitio (y ), debe probar:
H0 : β0 = β1 = β2 = β3 = 0                          v/s           H1 : βj = 0,              para algún       j.
 Obser.     y        y      (yi − y)2   (yi − y)2   (yi − yi )2     Modelo     Suma de     Grados de     Media       Fc
   1       25,4    24,268    4,703       1,075        1,282
                                                                               cuadrados    libertad   cuadrática
   2       24,0    24,202    0,591       0,942        0,041
                                                                   Regresión    39,481         3        13,160      9,196
   3       22,9    23,758    0,110       0,278        0,736
                                                                   Residual     17,173        12         1,431
   4       25,3    25,007    4,280       3,154        0,086
                                                                     Total      56,654        15
   5       21,4    22,296    3,353       0,874        0,803
   6       24,5    24,448    1,610       1,480        0,003
   7       22,1    23,745    1,280       0,264        2,707             Siα = 0, 05. Rechace H0 si
   8       19,6    19,854    13,186      11,402       0,065
   9       26,9    26,161    13,460      8,582        0,546             Fc  F0,95 (3, 12) = 3, 49.
   10      24,0    23,722    0,591       0,241        0,077
   11      20,3    21,906    8,592       1,757        2,578             El valor−p         = 0, 002.
   12      23,6    21,554    0,136       2,814        4,187
                                                                                   39,481
   13      23,4    21,825    0,028       1,977        2,480             R2     =   56,654   = 0, 697.
   14      24,0    24,692    0,591       2,134        0,479
   15      23,1    22,338    0,017       0,797        0,580             Entonces, se rechaza              H0 ,      en
   16      21,2    21,923    4,126       1,710        0,523
 Suma     371,700 371,700   56,654      39,481       17,173             favor de      H1 .

  mrodriguez@ucm.cl (UCM)                         Marcelo Rodríguez G.                             22/10/2010        37 / 84
Regresión Lineal Múltiple
Bondad de ajuste



 (Coeciente de Determinación (R2 ))
Expresa la proporción de varianza de la variable dependiente que está
explicada por las variables independientes.

                                              SCReg
                                     R2 =              .
                                               SCT

R2 corregida    es una corrección a la baja de          R2   que se basa en el número
de casos y de variables independientes:


                                                    k(1 − R2 )
                            Rcorrejida = R2 −
                             2
                                                               .
                                                   (n − k + 1)



  mrodriguez@ucm.cl (UCM)            Marcelo Rodríguez G.               22/10/2010   38 / 84
Regresión Lineal Múltiple
Bondad de ajuste


 (Coeciente de correlación múltiple (R))
Es la raíz de    R2 .   Si tenemos dos variables el Coeciente de correlación
múltiple es el valor absoluto del coeciente de correlación de Pearson, es
decir,   R = |r|.

 (Error (residuo) estándar de la estimación)
Es la desviación media que existe entre la variable dependiente              y   y su
estimación   y   (el residuo es    εi = yi − yi ).

                                     n
                                          (yi − yi )2
                                    i=1
                                                             √
                            sε =                        =        MCRes.
                                          n−p

  mrodriguez@ucm.cl (UCM)             Marcelo Rodríguez G.                22/10/2010    39 / 84
Regresión Lineal Múltiple
Prueba de hipótesis para cada uno de los parámetros

Hipótesis: H0 : βj = 0             v/s       H1 : βj = 0,             para   j = 0, 1, . . . , k.

                                                    βj
                Estadística de prueba:       tc =
                                                    s(βj )
                Hip. Nula     Hip. Altern.   Rechace H0 si            Valor−p
                H0 : βj = 0   H1 : β j = 0   |tc |  t1−α/2 (n − p)   2[1 − P(T  |tc |)]
                H0 : βj = 0   H1 : β j  0   tc  t1−α (n − p)        1 − P(T  |tc |)
                H0 : βj = 0   H1 : β j  0   tc  −t1−α (n − p)       1 − P(T  |tc |)


T se distribuye t−student con n − p grados de libertad. Además
         √
s(βj ) = cj+1 · sε , donde cj+1 es el elemento (j + 1) de la diagonal                               de

(XT X)−1 .

Un intervalo de conanza del             100(1 − α)%         para el parámetro          βj   es


                                βj ± t1−α/2 (n − p) · s(βj )
  mrodriguez@ucm.cl (UCM)                Marcelo Rodríguez G.                        22/10/2010      40 / 84
Regresión Lineal Múltiple
Parámetros estandarizados (coecientes tipicados)

   1   Los coecientes tipicados, se obtienen de la ecuación de regresión
       tras estandarizar las variables originales. Es decir, debe a cada variable
       restarle su promedio y dividirlo por su desviación estándar, y luego
       encontrar los parámetros de la ecuación de regresión con esas nuevas
       variables.
   2   Permiten valorar la importancia relativa de cada variable independiente
       dentro de la ecuación. En general, una variable independiente tiene
       tanto más peso (importancia) en la ecuación de regresión cuanto
       mayor (en valor absoluto) es su coeciente de regresión estandarizado.
   3   Indican la cantidad de cambio, en puntuaciones estándar, que se
       producirá en la variable dependiente por cada cambio de una unidad
       en la correspondiente variable independiente (manteniendo constantes
       el resto de variables independientes).
   4   En regresión simple, el coeciente estandarizado, coincide con el
       coeciente de correlación de Pearson.
  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.          22/10/2010   41 / 84
Regresión Lineal Múltiple
Regresión Lineal Múltiple en SPSS




  mrodriguez@ucm.cl (UCM)           Marcelo Rodríguez G.   22/10/2010   42 / 84
Regresión Lineal Múltiple
Regresión Lineal Múltiple en SPSS                          Variables introducidas/eliminadas
                                                                                                      b


                                                 Modelo         Variables              Variables
                                                              introducidas            eliminadas              Método
                                                     1       Densidad,            .                       Introducir
                                                             Arena,
                                                                     a
                                                             Arcilla
                                                     a. Todas las variables solicitadas introducidas.
                                                     b. Variable dependiente: Índice de sitio
                                                                                                          b
                                                                              Resumen del modelo
                                                 Modelo                                           R cuadrado              Error típ. de la
                                                                   R          R cuadrado           corregida               estimación
                                                                          a
                                                     1             ,835               ,697                    ,621                1,1963
                                                     a. Variables predictoras: (Constante), Densidad, Arena, Arcilla
                                                     b. Variable dependiente: Índice de sitio

                                                                                                               b
                                                                                                   ANOVA
                                                 Modelo                        Suma de                                  Media
                                                                              cuadrados              gl               cuadrática                F           Sig.
                                                                                                                                                                       a
                                                 1         Regresión                  39,481                  3               13,160            9,196           ,002
                                                           Residual                   17,173              12                   1,431
                                                           Total                      56,654              15
                                                     a. Variables predictoras: (Constante), Densidad, Arena, Arcilla
                                                     b. Variable dependiente: Índice de sitio

                                                                                                                      a
                                                                                                   Coeficientes
                                                 Modelo                                                                      Coeficientes
                                                                              Coeficientes no estandarizados                  tipificados
                                                                                      B              Error típ.                   Beta                  t              Sig.
                                                 1         (Constante)                43,037                      7,036                                 6,117              ,000
                                                           Arena                          ,121                     ,082                  ,259           1,473              ,167
                                                           Arcilla                        -,066                    ,069                -,168            -,953              ,360
                                                           Densidad                   -16,604                     3,507                -,753        -4,734                 ,000
                                                     a. Variable dependiente: Índice de sitio




  mrodriguez@ucm.cl (UCM)           Marcelo Rodríguez G.                                                                  22/10/2010                            43 / 84
Regresión Lineal Múltiple
Regresión Lineal Múltiple en SPSS




     No existe suciente evidencia muestral, para armar que el % de arena
     (t= 1, 473, valor−p = 0, 167) o el % de arcilla (t = −0, 953,
     valor−p = 0, 360), inuyen en la estimación del índice de sitio.

     La muestra proporciona evidencia para armar que la densidad incide
     en la estimación del índice de sitio (t        = −4, 734,   valor−p   = 0, 000).
     La relación entre la densidad y el índice de sitios es inversa (signo del
     estadístico de prueba).

     Según los coecientes estadarizados, la variable independiente más
     importante en la predicción del índice de sitios, es la densidad, luego el
     porcentaje de arena y por último el porcentaje de arcilla.




  mrodriguez@ucm.cl (UCM)           Marcelo Rodríguez G.              22/10/2010   44 / 84
Regresión Lineal Múltiple
Correlaciones parciales y semiparciales


 (Correlaciones parciales)
Es la correlación lineal entre dos variables mientras se mantienen constantes
otras variables. En el contexto del análisis de regresión, los coecientes de
correlación parcial expresan el grado de relación existente entre cada
variable independiente y la variable dependiente tras eliminar de ambas el
efecto debido al resto de variables independientes incluidas en la ecuación.
El coeciente de correlación parcial de primer orden, anotado aquí                   rAB/C ,
permite conocer el valor de la correlación entre dos variables              A   y   B , si la
variable   C   había permanecido constante para la serie de observaciones
consideradas.

                                          rAB − rAC · rBC
                            rAB/C =                                    .
                                               2
                                          1 − rAC ·               2
                                                             1 − rBC


  mrodriguez@ucm.cl (UCM)             Marcelo Rodríguez G.                 22/10/2010     45 / 84
Regresión Lineal Múltiple
Puntos de inuencia



La distancia de Cook (1977) mide el cambio que se produce en las
estimaciones de los coecientes de regresión al ir eliminando cada caso de
la ecuación de regresión. Una distancia de Cook grande indica que ese caso
tiene un peso considerable en la estimación de los coecientes de regresión.
Para evaluar estas distancias puede utilizarse la distribución          F    con   p   y
n−p    grados de libertad. En general, un caso con una distancia de Cook
superior a 1 debe ser revisado.

                                      n
                                                          2
                                            yj − yj(i)
                                      j=1
                               Di =                           .
                                          p · MCRes
Donde   yj(i) ,   es una estimación sin considerar el dato        i−ésimo.


  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.                 22/10/2010         46 / 84
Regresión Lineal Múltiple
Distancia de Cook en SPSS

                                        En                          la       base         de       datos,            quedarán
                                        guardas las distancias, luego se debe
                                        hacer un gráco de dispersión en-
                                        tre las observaciones y las distancias.


                                                          1,25000




                                                          1,00000




                                        Cook's Distance
                                                          0,75000




                                                          0,50000




                                                          0,25000




                                                          0,00000


                                                                     1   2    3   4   5   6    7   8   9   10   11   12   13   14    15   16

                                                                                               Observación

                                      SAVE OUTFILE='D:Archivos de MarceloProyectos 2010Diseño Experimental y Mo
                                      los de Regresión '+
                                          'Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ( Correlación y Regresión L

  mrodriguez@ucm.cl (UCM)   Marcelo Rodríguez G.
                                      eal '+
                                                                                                       22/10/2010                   47 / 84
Regresión Lineal Múltiple
Supuestos del Modelo


 (Supuestos del Modelo de Regresión)
Los supuestos de un modelo estadístico se reeren a una serie de
condiciones que deben darse para garantizar la validez del modelo.

     Linealidad:      La variable dependiente es la suma de un conjunto de
     elementos: el origen de la recta, una combinación lineal de variables
     independientes y los residuos.

     Independencia: Los residuos son independientes entre sí.
     Homocedasticidad: Para cada valor de la variable independiente, la
     varianza de los residuos es constante.

     Normalidad:        Para cada valor de la variable independiente, los
     residuos se distribuyen normalmente con media cero.

     No-colinealidad:       No existe relación lineal exacta entre ninguna de las
     variables independientes.


  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.          22/10/2010   48 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: Linealidad

Los diagramas de regresión parcial
permiten examinar la relación exis-
tente entre la variable dependiente y
cada una de las variables independi-
entes por separado, tras eliminar de
ellas el efecto del resto de las vari-
ables independientes incluidas en el
análisis.   Estos diagramas son sim-
ilares a los de dispersión ya estu-
diados, pero no están basados en
las   puntuaciones     originales   de   las
dos variables representadas, sino en
los residuos obtenidos al efectuar un
análisis de regresión con el resto de
las variables independientes.

  mrodriguez@ucm.cl (UCM)           Marcelo Rodríguez G.   22/10/2010   49 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: Linealidad

                                               La relación entre densidad e índice
Por ejemplo, en el diagrama de regre-
                                               de                       sitio     tras         eliminar             el          efecto
sión parcial de índice de sitio y densi-
                                               del                       resto      de       variables              independi-
dad están representados los residuos
                                               entes, es claramente lineal e inversa.
que resultan de efectuar un análisis                                                 Gráfico de regresión parcial

de regresión sobre índice de sitio in-                                           Variable dependiente: Índice de sitio
                                                                 4,0

cluyendo todas las variables indepen-
dientes excepto densidad
                                                                 2,0

(y   = β0 + β1 x1 + β2 x2 ),       y los



                                               Índice de sitio
residuos que resultan de efectuar un
                                                                 0,0

análisis de regresión sobre densidad
incluyendo el resto de variables in-
                                                                 -2,0

dependientes (x3       = β 3 + β 4 x1 +
β5 x2 ).   Se tendrán tantos grácos                                    -0,20        -0,10           0,00                0,10        0,20

                                                                                                  Densidad
como variables independientes.


  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.                                                     22/10/2010            50 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: Independencia

Para vericar el supuesto de independencia entre los residuos    εi = y i − y i
use el estadístico de Durbin-Watson (DW ), el cual está dado por:

                                       n
                                            (εi − εi−1 )2
                                      i=1
                             DW =             n             .
                                                   ε2
                                                    i
                                             i=1


     El estadístico    DW   toma el valor 2 cuando los residuos son
     independientes, valores menores que 2 indican autocorrelación positiva
     y los mayores que 2 autocorrelación negativa.

     Podemos asumir independencia entre los residuos cuando        DW        toma
     valores entre 1,5 y 2,5.


  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.          22/10/2010     51 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: Linealidad




                                               Como                   el      estadístico                        de          DW              está
                                                                                                     b
                                                          Variables introducidas/eliminadas
                                               entre              1,5           y        2,5.                    No            podemos
                                                Modelo         Variables               Variables
                                                             introducidas             eliminadas         Método
                                               rechazar la
                                                 1  Densidad,                     .   hipótesis de
                                                                                            Introducir                           que          los
                                                            Arena,
                                               residuos                       son              independientes,                                   es
                                                                      a
                                                     Arcilla
                                                    a. Todas las variables solicitadas introducidas.
                                               decir no están de sitio
                                                 b. Variable dependiente: Índice auto correlacionados.
                                                                                                                 b
                                                                                       Resumen del modelo
                                                Modelo                                          R cuadrado            Error típ. de la       Durbin-
                                                                  R           R cuadrado         corregida             estimación            Watson
                                                                          a
                                                    1             ,835                ,697                ,621                1,1963             2,238
                                                    a. Variables predictoras: (Constante), Densidad, Arena, Arcilla
                                                    b. Variable dependiente: Índice de sitio

                                                                                                          b
                                               Entonces se estaría cumpliendo es
                                                               ANOVA
                                                Modelo                          Suma de                               Media
                                               supuesto de independencia.
                                                                 gl  cuadráticacuadrados                                                 F             Sig.
                                                                                                                                                              a
                                                1         Regresión                   39,481              3               13,160         9,196         ,002
                                                          Residual                    17,173             12                1,431
                                                          Total                       56,654             15
                                                    a. Variables predictoras: (Constante), Densidad, Arena, Arcilla
                                                    b. Variable dependiente: Índice de sitio

                                                                                                                  a
  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.                                                   22/10/2010
                                                                                                   Coeficientes                              52 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: Normalidad


Los residuos (o los residuos tipi-
cados) deben cumplir el supuesto
de normalidad.          El recuadro Grá-
cos de los residuos tipicados (es-
tandarizados) contiene dos opciones
grácas que informan sobre el grado
en el que los residuos tipicados se
aproximan a una distribución normal:
El histograma (debe ser simétrico)
y    el   gráco   de    probabilidad     nor-
mal (deben estar los puntos sobre
la recta). También con los residuos
se puede realizar una prueba de nor-
malidad como Kolmogorov-Smirnov
(n    50)   o Shapiro-Wilk (n    ≤ 50).
    mrodriguez@ucm.cl (UCM)             Marcelo Rodríguez G.   22/10/2010   53 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: Normalidad

Estos grácos indicaría, por lo menos en forma visual, que los residuos,
tienden
Gráficos               a distribuirse como la normal.
                                         Histograma                                                                      Gráfico P-P normal de regresión Residuo tipificado
                          Variable dependiente: Índice de sitio                                                                   Variable dependiente: Índice de sitio
                                                                                                                   1,0
                                                                  Media = -2,08E-16
              4                                                   Desviación típica = 0,894
                                                                  N = 16

                                                                                                                   0,8




                                                                                              Prob acum esperada
              3

                                                                                                                   0,6
 Frecuencia




              2
                                                                                                                   0,4




              1
                                                                                                                   0,2




                                                                                                                   0,0
              0
                                                                                                                            0,0        0,2        0,4       0,6       0,8     1,0
                  -2      -1         0           1         2

                        Regresión Residuo tipificado                                                                                         Prob acum observada




Esta armación no es concluyente, por lo tanto se realizará una prueba de
hipótesis.
              mrodriguez@ucm.cl (UCM)                               Marcelo Rodríguez G.                                                                  22/10/2010                54 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: Normalidad




  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.   22/10/2010   55 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: Normalidad




  mrodriguez@ucm.cl (UCM)          Marcelo Rodríguez G.   22/10/2010   56 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: Normalidad

No existe suciente evidencia muestral para rechazar que los residuos se
encuentra distribuidos como la normal (SW                 = 0, 972,        valor−p                    = 0, 871).
                                               3,00000




                                               2,00000




                                               1,00000




                                               0,00000




                                               -1,00000




                                               -2,00000


                                                                            Unstandardized Residual


                                              EXAMINE VARIABLES=RES_1
                                                /PLOT BOXPLOT NPPLOT
                                                /COMPARE GROUPS

PD: Si el   n  50,   se puede utilizar KS, en este caso ambos estadísticos,
                                                /STATISTICS DESCRIPTIVES
                                                /CINTERVAL 95
                                                /MISSING LISTWISE
nos indican que se cumple el supuesto de normalidad.
                                                /NOTOTAL.


  mrodriguez@ucm.cl (UCM)                     Explorar
                                   Marcelo Rodríguez G.                                   22/10/2010          57 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: Homocedasticidad

Comúnmente este supuesto se verica mediante una gráca. Se deben
gracar los valores pronosticados (ZPRED) con los valores residuales
(ZRESI). Si no se detectan tendencias, entonces se cumple el supuestos de
homocedasticidad.
                                           Gráficos

                                                                                               Gráfico de dispersión
                                                                                      Variable dependiente: Índice de sitio
                                                                            2




                                             Regresión Residuo tipificado
                                                                            1




                                                                            0




                                                                            -1




                                                                            -2

                                                                                 -3   -2              -1             0               1       2

                                                                                           Regresión Valor pronosticado tipificado




  mrodriguez@ucm.cl (UCM)        Marcelo Rodríguez G.                                                            22/10/2010              58 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: No-colinealidad

     Existe colinealidad perfecta cuando una de las variables independientes
     se relaciona de forma perfectamente lineal con una o más del resto de
     variables independientes de la ecuación.

     Hablamos de colinealidad parcial o, simplemente, colinealidad, cuando
     entre las variables independientes de una ecuación existen
     correlaciones altas.

     En términos generales, cuantas más variables hay en una ecuación,
     más fácil es que exista colinealidad (aunque, en principio, bastan dos
     variables).

     Es un problema porque, en el caso de colinealidad perfecta, no es
     posible estimar los coecientes de la ecuación de regresión; y en el
     caso de colinealidad parcial, aumenta el tamaño de los residuos
     típicados y esto produce coecientes de regresión muy inestables:
     pequeños cambios en los datos (añadir o quitar un caso, por ejemplo)
     produce cambios muy grandes en los coecientes de regresión.

  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.       22/10/2010     59 / 84
Regresión Lineal Múltiple
Supuestos del Modelo: No-colinealidad

     El nivel de tolerancia de una variable se obtiene restando a 1 el
                                             2
     coeciente de determinación (R ) que resulta al regresar esa variable
     sobre el resto de variables independientes. Valores de tolerancia muy
     pequeños indican que esa variable puede ser explicada por una
     combinación lineal del resto de variables, lo cual signica que existe
     colinealidad.

     Los factores de inación de la varianza (FIV) son los inversos de los
     niveles de tolerancia. Cuanto mayor es el FIV de una variable, mayor
     es la varianza del correspondiente coeciente de regresión. De ahí que
     uno de los problemas de la presencia de colinealidad (tolerancias
     pequeñas, FIVs grandes) sea la inestabilidad de las estimaciones de los
     coecientes de regresión.

     Como regla se puede utilizar: Las variables independientes son
     colineales si FIV     10.   Las variables que tienen FIV alto y parecidos
     están altamente correlacionadas.

  mrodriguez@ucm.cl (UCM)            Marcelo Rodríguez G.         22/10/2010   60 / 84
a
                                                                                                       Coeficientes

Regresión Lineal Múltiple                      Modelo
                                                                         Coeficientes no estandarizados
                                                                                                                  Coefi
                                                                                                                   tipifi
Supuestos del Modelo: No-colinealidad                                           B                Error típ.               B
                                               1         (Constante)             43,037                 7,036
                                                         Arena                       ,121                ,082
                                              Como Arcilla
                                                       los              FVI's -,066
                                                                                 son               menores
                                                                                                     ,069
                                                         Densidad               -16,604                 3,507
                                              que         10,          entonces             se         cumple
                                                   a. Variable dependiente: Índice de sitio
                                              el      supuesto            de         no-colinealidad.
                                                                                                                      a
                                                                                                       Coeficientes
                                               Modelo                    Estadísticos de colinealidad
                                                                          Tolerancia             FIV
                                               1         (Constante)
                                                         Arena                      ,814           1,229
                                                         Arcilla                    ,814           1,229
                                                         Densidad               1,000              1,000
                                                   a. Variable dependiente: Índice de sitio

                                                                                           Diagnósticos de colinealid
                                               Modelo      Dimensión
Si se detecta la presencia de colinealidad hay que i) aumentar el tamaño de
                                                                  Índice de
                                                                          Autovalores          condición         (Const
la muestra; ii) crear indicadores múltiples 1combinando variables; iii) excluir
                                                   1        3,973        1,000
variables redundantes, quedándonos con las que consideremos más 13,781
                                                2        ,021
                                                                   3                ,005               28,401
importantes.
                                                                   4                ,001               55,226
  mrodriguez@ucm.cl (UCM)         Marcelo Rodríguez G.                                22/10/2010              61 / 84
Regresión Lineal Múltiple
Regresión por pasos: Qué variables debe incluir la ecuación de regresión

La regresión por pasos (stepwise) es una método para seleccionar las
variables independientes que debe incluir un modelo de regresión. Se
seleccionan de acuerdo al siguiente criterio estadístico.
Criterio de entrada:        El valor−p    0, 05    y se debe seleccionar las variables
con menor valor−p en la ANOVA.
Método Hacia adelante:
      Las variables se incorporan al modelo de regresión una a una.

      En el primer paso se selecciona la variable independiente que, además
      de superar los criterios de entrada, tiene la más alta correlación.

      En los siguientes pasos se utiliza como criterio de selección el
      coeciente de correlación parcial: van siendo seleccionadas una a una
      las variables que, además de superar los criterios de entrada, poseen el
      coeciente de correlación parcial más alto en valor absoluto.

      La selección de variables se detiene cuando no quedan variables que
      superen el criterio de entrada.

  mrodriguez@ucm.cl (UCM)           Marcelo Rodríguez G.               22/10/2010   62 / 84
Regresión Lineal Múltiple
Regresión por pasos: Qué variables debe incluir la ecuación de regresión

En el ejemplo anterior, se realizarán todas las regresiones posible,
identicando, las variables independientes, el                      R2 ,   estadístico de prueba F, y
el valor−p. El mejor modelo es el que tiene, menos variables, mayor                               R2 ,
mayor F y menor valor−p.


                            Variables           R2          F         valor−p
                            x1                 0,112      1,773       0,20427
                            x2                 0,711      1,072       0,31799
                            x3                0,564 18,096 0,00080
                            x1 ,   x2          0,131      0,978       0,40227
                            x1 ,   x3         0,674 13,436 0,00069
                            x2 ,   x3          0,642     11,662       0,00126
                            x1 ,   x2 , x3     0,697      9,196       0,00196




      El mejor modelo sería           y = β0 + β3 · x3 .
      Aunque    y = β0 + β1 · x1 + β3 · x3 ,               también es un muy buen modelo.

  mrodriguez@ucm.cl (UCM)                    Marcelo Rodríguez G.                    22/10/2010      63 / 84
Tiempo transcurrido                                              00:00:00,031



Regresión Lineal Múltiple
                                                                       Memoria necesaria                   1972 bytes
                                                                       Memoria adicional                   0 bytes
                                                                       requerida para los
                                                                       diagramas de residuos

Regresión por pasos: Qué variables debe incluir[Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseñ
                                                 la ecuación de regresión
                                                         y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módul
                                                        ión y Regresión Lineal Simple)datoseje_reg_mult_indice de siti
                                                                                                                  a
                                                                      Variables introducidas/eliminadas
                                                         Modelo         Variables              Variables
                                                                      introducidas            eliminadas              Método
                                                             1       Densidad             .                      Hacia
                                                                                                                 adelante
                                                                                                                 (criterio: Prob.
                                                        Por         defecto                      SPSS            de F para
                                                                                                                          elige
                                                                                                                 entrar = ,                como           el
                                                                                                                 050)

                                                        mejor modelo
                                                             a. Variable dependiente: Índice de sitio
                                                                                                       y = β0 + β3 · x3 .
                                                                                      Resumen del modelo
                                                         Modelo                                        R cuadrado           Error típ. de la
                                                                           R          R cuadrado        corregida            estimación
                                                                                  a
                                                             1             ,751               ,564                 ,533              1,3286
                                                             a. Variables predictoras: (Constante), Densidad

                                                                                                                      b
                                                                                                           ANOVA
                                                         Modelo                         Suma de                              Media
                                                                                       cuadrados            gl             cuadrática           F         Sig.
                                                                                                                                                                 a
                                                         1         Regresión                  31,942              1             31,942         18,096     ,001
                                                                   Residual                   24,712             14                 1,765
                                                                   Total                      56,654             15
                                                             a. Variables predictoras: (Constante), Densidad
                                                             b. Variable dependiente: Índice de sitio




   mrodriguez@ucm.cl (UCM)                  Marcelo Rodríguez G.                                                          22/10/2010                    64 / 84
Regresión Lineal Múltiple
Regresión por pasos: Qué variables debe incluir la ecuación de regresión

Para que coincida con los cálculos efectuados antes, debemos ser menos
restrictivos con el valor−p. Fíjese que la arena es signicativa para valores
superiores a 0,056. Utilizaremos el valor de 0,06.



                                                               a
                                                Coeficientes
 Modelo                                                            Coeficientes
                           Coeficientes no estandarizados           tipificados
                                    B             Error típ.          Beta             t           Sig.
 1         (Constante)              45,999              5,362                         8,578          ,000
           Densidad                 -16,566             3,894              -,751     -4,254          ,001
     a. Variable dependiente: Índice de sitio

                                                               b
                                        Variables excluidas
 Modelo                                                                             Estadísticos
                                                                                         de
                                                                                    colinealidad
                                                                   Correlación
                      Beta dentro          t           Sig.          parcial        Tolerancia
                                a
 1         Arena           ,332           2,096          ,056                ,503          1,000
                                a
           Arcilla         -,280         -1,686          ,116             -,424            1,000
     a. Variables predictoras en el modelo: (Constante), Densidad
     b. Variable dependiente: Índice de sitio

REGRESSION
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS R ANOVA
  /CRITERIA=PIN(.06) POUT(.10)
  /NOORIGIN
  /DEPENDENT IS
  /METHOD=FORWARD Densidad Arena Arcilla.
     mrodriguez@ucm.cl (UCM)                                                           Marcelo Rodríguez G.   22/10/2010   65 / 84
a



Regresión Lineal Múltiple
              Variables introducidas/eliminadas
 Modelo         Variables              Variables
              introducidas            eliminadas              Método
     1       Densidad             .                      Hacia

Regresión por pasos: Qué variables debe incluir la ecuación de regresión
                                                         adelante
                                                         (criterio: Prob.
                                                         de F para
                                                         entrar = ,
                                                         060)
     2       Arena                .                      Hacia
                                                         adelante
                                                         (criterio: Prob.
Los resultados considerando la nueva conguración, sería de F para
                                                         entrar = ,
                                                         060)
     a. Variable dependiente: Índice de sitio
                                                                                                                                                                           a
                                                                                                                                                           Coeficientes
                              Resumen del modelo
                                                                                                            Modelo                                                             Coeficientes
 Modelo                                        R cuadrado           Error típ. de la                                                  Coeficientes no estandarizados            tipificados
                   R          R cuadrado        corregida            estimación
                          a                                                                                                                    B              Error típ.          Beta             t             Sig.
     1             ,751               ,564                 ,533              1,3286
                                                                                                            1         (Constante)              45,999               5,362                         8,578            ,000
                          b
     2             ,821               ,674                 ,624              1,1920
                                                                                                                      Densidad                 -16,566              3,894              -,751     -4,254            ,001
     a. Variables predictoras: (Constante), Densidad                                                        2         (Constante)              39,256               5,788                         6,782            ,000
     b. Variables predictoras: (Constante), Densidad, Arena                                                           Densidad                 -16,533              3,494              -,749     -4,732            ,000

                                                              c                                                       Arena                        ,155               ,074               ,332     2,096            ,056
                                                   ANOVA
                                                                                                                a. Variable dependiente: Índice de sitio
 Modelo                         Suma de                             Media
                               cuadrados            gl            cuadrática            F       Sig.                                               Variables excluidas
                                                                                                                                                                           c
                                                                                                        a
 1         Regresión                  31,942              1             31,942         18,096    ,001
                                                                                                            Modelo                                                                              Estadísticos
           Residual                   24,712             14                 1,765                                                                                                                    de
                                                                                                                                                                                                colinealidad
           Total                      56,654             15
                                                                                                                                                                               Correlación
                                                                                                        b
 2         Regresión                  38,182              2             19,091         13,436    ,001                            Beta dentro          t            Sig.          parcial        Tolerancia
                                                                                                                                           a
           Residual                   18,472             13                 1,421                           1         Arena           ,332            2,096          ,056                ,503          1,000
                                                                                                                                           a
           Total                      56,654             15                                                           Arcilla         -,280          -1,686          ,116             -,424            1,000
                                                                                                                                           b
                                                                                                            2         Arcilla         -,168           -,953          ,360             -,265               ,814
     a. Variables predictoras: (Constante), Densidad
                                                                                                                a. Variables predictoras en el modelo: (Constante), Densidad
     b. Variables predictoras: (Constante), Densidad, Arena
                                                                                                                b. Variables predictoras en el modelo: (Constante), Densidad, Arena
     c. Variable dependiente: Índice de sitio
                                                                                                                c. Variable dependiente: Índice de sitio




     mrodriguez@ucm.cl (UCM)                                                                Marcelo Rodríguez G.                                                             22/10/2010                   66 / 84
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales
Regresión lineal en spss para ciencias agrarias y forestales

Mais conteúdo relacionado

Mais procurados

4. metodologías para el estudio de la vegetación
4. metodologías para el estudio de la vegetación4. metodologías para el estudio de la vegetación
4. metodologías para el estudio de la vegetaciónVideoconferencias UTPL
 
Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superiorEscuela Militar de Ingeniería (EMI)
 
ECOLOGÍA FORESTAL
ECOLOGÍA FORESTALECOLOGÍA FORESTAL
ECOLOGÍA FORESTALxoancar
 
ECOSISTEMAS FRÁGILES DEL ECUADOR
ECOSISTEMAS FRÁGILES DEL ECUADORECOSISTEMAS FRÁGILES DEL ECUADOR
ECOSISTEMAS FRÁGILES DEL ECUADORDiego Pazmiño
 
Clase 4. taxonomía de suelos
Clase 4. taxonomía de suelosClase 4. taxonomía de suelos
Clase 4. taxonomía de suelosBetsyMR
 
Ejemplos de diseño Bloques al azar
Ejemplos de diseño Bloques al azarEjemplos de diseño Bloques al azar
Ejemplos de diseño Bloques al azarug-dipa
 
11 Diseño Completamente al Azar
11 Diseño Completamente al Azar11 Diseño Completamente al Azar
11 Diseño Completamente al Azarlemalimentos
 
6 diseños completamente aleatorizado y bloques al azar
6   diseños completamente aleatorizado y bloques al azar6   diseños completamente aleatorizado y bloques al azar
6 diseños completamente aleatorizado y bloques al azarrbarriosm
 
Ejercicios diseño de bloques completos al azar ejercicio 1
Ejercicios diseño de bloques completos al azar ejercicio 1Ejercicios diseño de bloques completos al azar ejercicio 1
Ejercicios diseño de bloques completos al azar ejercicio 1Instituto Tecnologico De Pachuca
 
Bosque tropical húmedo
Bosque tropical húmedoBosque tropical húmedo
Bosque tropical húmedoDaniel Guila
 

Mais procurados (20)

4. metodologías para el estudio de la vegetación
4. metodologías para el estudio de la vegetación4. metodologías para el estudio de la vegetación
4. metodologías para el estudio de la vegetación
 
Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superior
 
ECOZONAS (1).pptx
ECOZONAS (1).pptxECOZONAS (1).pptx
ECOZONAS (1).pptx
 
ECOLOGÍA FORESTAL
ECOLOGÍA FORESTALECOLOGÍA FORESTAL
ECOLOGÍA FORESTAL
 
Parcelación
ParcelaciónParcelación
Parcelación
 
ECOSISTEMAS FRÁGILES DEL ECUADOR
ECOSISTEMAS FRÁGILES DEL ECUADORECOSISTEMAS FRÁGILES DEL ECUADOR
ECOSISTEMAS FRÁGILES DEL ECUADOR
 
Zarzamora
ZarzamoraZarzamora
Zarzamora
 
Dca y bca
Dca y bcaDca y bca
Dca y bca
 
Clase 4. taxonomía de suelos
Clase 4. taxonomía de suelosClase 4. taxonomía de suelos
Clase 4. taxonomía de suelos
 
Ejemplos de diseño Bloques al azar
Ejemplos de diseño Bloques al azarEjemplos de diseño Bloques al azar
Ejemplos de diseño Bloques al azar
 
Modelos empiricos
Modelos empiricosModelos empiricos
Modelos empiricos
 
Diversidad Alfa
Diversidad AlfaDiversidad Alfa
Diversidad Alfa
 
Práctica de PH del Suelo.
Práctica de PH del Suelo.Práctica de PH del Suelo.
Práctica de PH del Suelo.
 
Compara medias
Compara mediasCompara medias
Compara medias
 
11 Diseño Completamente al Azar
11 Diseño Completamente al Azar11 Diseño Completamente al Azar
11 Diseño Completamente al Azar
 
Erosión del suelo
Erosión del sueloErosión del suelo
Erosión del suelo
 
6 diseños completamente aleatorizado y bloques al azar
6   diseños completamente aleatorizado y bloques al azar6   diseños completamente aleatorizado y bloques al azar
6 diseños completamente aleatorizado y bloques al azar
 
Ejercicios diseño de bloques completos al azar ejercicio 1
Ejercicios diseño de bloques completos al azar ejercicio 1Ejercicios diseño de bloques completos al azar ejercicio 1
Ejercicios diseño de bloques completos al azar ejercicio 1
 
Bosque tropical húmedo
Bosque tropical húmedoBosque tropical húmedo
Bosque tropical húmedo
 
LA MADERA
LA MADERALA MADERA
LA MADERA
 

Semelhante a Regresión lineal en spss para ciencias agrarias y forestales

Tema 4 Correlación y regresión.pdf
Tema 4 Correlación y regresión.pdfTema 4 Correlación y regresión.pdf
Tema 4 Correlación y regresión.pdfAllanMatamoros3
 
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...JOSUEELIASLOPEZHERNA
 
ABC de la Correlación Bivariada de Pearson
ABC de la Correlación Bivariada de PearsonABC de la Correlación Bivariada de Pearson
ABC de la Correlación Bivariada de PearsonLuis Medina Gual
 
S14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdfS14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdfHeynerGomez2
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptxPEALOZACASTILLOCINTI
 
Otras Medidas de Dispersión
Otras Medidas de DispersiónOtras Medidas de Dispersión
Otras Medidas de Dispersiónguestfe91fd
 
Modelos de Validación y Confiabilidad en Pruebas de Admisión
Modelos de Validación y Confiabilidad en Pruebas de AdmisiónModelos de Validación y Confiabilidad en Pruebas de Admisión
Modelos de Validación y Confiabilidad en Pruebas de Admisiónguestdd46f3
 
Guia 2 analisis_grafico
Guia 2 analisis_graficoGuia 2 analisis_grafico
Guia 2 analisis_graficowilicoro
 
Regresion y correlacion ppt
Regresion y correlacion pptRegresion y correlacion ppt
Regresion y correlacion pptrodrigomartinezs
 
Evaluacion - Mario Posso
Evaluacion - Mario PossoEvaluacion - Mario Posso
Evaluacion - Mario PossoGrupo Educandos
 

Semelhante a Regresión lineal en spss para ciencias agrarias y forestales (20)

Regresion lineal
Regresion linealRegresion lineal
Regresion lineal
 
Tema 4 Correlación y regresión.pdf
Tema 4 Correlación y regresión.pdfTema 4 Correlación y regresión.pdf
Tema 4 Correlación y regresión.pdf
 
Regresión correlacion 23-04
Regresión  correlacion 23-04Regresión  correlacion 23-04
Regresión correlacion 23-04
 
Estadística bidimensional
Estadística bidimensionalEstadística bidimensional
Estadística bidimensional
 
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...
 
ABC de la Correlación Bivariada de Pearson
ABC de la Correlación Bivariada de PearsonABC de la Correlación Bivariada de Pearson
ABC de la Correlación Bivariada de Pearson
 
S14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdfS14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdf
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
 
Correlacion
CorrelacionCorrelacion
Correlacion
 
matematicas
matematicasmatematicas
matematicas
 
Estadística II
Estadística IIEstadística II
Estadística II
 
Otras Medidas de Dispersión
Otras Medidas de DispersiónOtras Medidas de Dispersión
Otras Medidas de Dispersión
 
Modelos de Validación y Confiabilidad en Pruebas de Admisión
Modelos de Validación y Confiabilidad en Pruebas de AdmisiónModelos de Validación y Confiabilidad en Pruebas de Admisión
Modelos de Validación y Confiabilidad en Pruebas de Admisión
 
Guia 2 analisis_grafico
Guia 2 analisis_graficoGuia 2 analisis_grafico
Guia 2 analisis_grafico
 
Proyecto de correlacion
Proyecto de correlacionProyecto de correlacion
Proyecto de correlacion
 
Cap8
Cap8Cap8
Cap8
 
Teoría de regresión y correlación lineal
Teoría de regresión y correlación linealTeoría de regresión y correlación lineal
Teoría de regresión y correlación lineal
 
Correlacion lineal
Correlacion linealCorrelacion lineal
Correlacion lineal
 
Regresion y correlacion ppt
Regresion y correlacion pptRegresion y correlacion ppt
Regresion y correlacion ppt
 
Evaluacion - Mario Posso
Evaluacion - Mario PossoEvaluacion - Mario Posso
Evaluacion - Mario Posso
 

Último

Fichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfFichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfssuser50d1252
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOweislaco
 
SIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docxSIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docxLudy Ventocilla Napanga
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptxc3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptxMartín Ramírez
 
DETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIORDETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIORGonella
 
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIA
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIAGUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIA
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIAELIASPELAEZSARMIENTO1
 
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfFichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfssuser50d1252
 
libro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación iniciallibro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación inicialLorenaSanchez350426
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfDaniel Ángel Corral de la Mata, Ph.D.
 
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOCUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOEveliaHernandez8
 
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024gharce
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfAlfredoRamirez953210
 
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTESaraNolasco4
 
Secuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docxSecuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docxNataliaGonzalez619348
 
05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdf05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdfRAMON EUSTAQUIO CARO BAYONA
 
Manejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsaManejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsaLuis Minaya
 
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docxEJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docxFabianValenciaJabo
 

Último (20)

TL/CNL – 2.ª FASE .
TL/CNL – 2.ª FASE                       .TL/CNL – 2.ª FASE                       .
TL/CNL – 2.ª FASE .
 
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfFichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
 
SIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docxSIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docx
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptxc3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
 
DETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIORDETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIOR
 
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIA
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIAGUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIA
GUIA DE TEXTOS EDUCATIVOS SANTILLANA PARA SECUNDARIA
 
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfFichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
 
DIA INTERNACIONAL DAS FLORESTAS .
DIA INTERNACIONAL DAS FLORESTAS         .DIA INTERNACIONAL DAS FLORESTAS         .
DIA INTERNACIONAL DAS FLORESTAS .
 
libro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación iniciallibro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación inicial
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
 
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOCUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
 
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
 
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
 
Secuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docxSecuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docx
 
05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdf05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdf
 
Manejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsaManejo del Dengue, generalidades, actualización marzo 2024 minsa
Manejo del Dengue, generalidades, actualización marzo 2024 minsa
 
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docxEJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
 

Regresión lineal en spss para ciencias agrarias y forestales

  • 1. Correlación y Regresión Marcelo Rodríguez, MSc Ingeniero Estadístico Universidad Católica del Maule Facultad de Ciencias Básicas Diseño de Experimentos y Modelos de Regresión lineal: Aplicaciones en SPSS. MÓDULO 5 y 6 26 de noviembre de 2010 mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 1 / 84
  • 2. Introducción Comúnmente, cuando se realiza un estudio estadístico, se miden a una misma unidad de análisis, más de una variable. Denición (Variable Dependiente) Es la variable por predecir (o por modelar) y se denota con la letra Y. Denición (Variable Independiente) Son las variables que se utilizan para predecir y se denota con la letra X. Denición (Relación entre variables) Se dice que dos variables están relacionadas, si cambios producidos (causa) en la variable independiente producen un efecto en la variable dependiente. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 2 / 84
  • 3. Relación entre las variables Denición (Covarianza) La covarianza entre dos variables cuantitativas, nos indica si la posible relación entre dos variables es directa o inversa. La covarianza muestral se calcula de la siguiente manera: n (xi − x)(yi − y) i=1 Sxy covxy = = n−1 n−1 Si la covarianza es negativa, entonces la relación es inversa. Si la covarianza es positiva, entonces la relación es directa. Si la covarianza es cero, entonces la relación es nula (no relacionados). El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 3 / 84
  • 4. Relación entre las variables Ejemplo Considere un estudio donde se mide el DAP (X ) en centímetros y la Altura (Y ) en metros. Se considera una muestra de 10 árboles, los datos son: DAP (xi ) Altura (yi ) (xi − x) (yi − y) (xi − x)(xi − x) 15,6 17,4 2,05 0,75 1,5375 14,8 18,4 1,25 1,75 2,1875 15,5 16,5 1,95 -0,15 -0,2925 12,5 15,2 -1,05 -1,45 1,5225 14,2 19,9 0,65 3,25 2,1125 15,7 22,1 2,15 5,45 11,7175 12,3 14,8 -1,25 -1,85 2,3125 14,2 17,3 0,65 0,65 0,4225 8,8 10,3 -4,75 -6,35 30,1625 11,9 14,6 -1,65 -2,05 3,3825 Promedio 13,55 16,65 Suma 55,065 55,065 La covarianza sería covxy = 9 = 6, 118. Lo que indica es que el DAC y la altura están relacionados, de forma directa (a medida que aumenta el DAP aumenta la altura). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 4 / 84
  • 5. Grado de relación entre las variables Coeciente de correlación de Pearson Denición (Correlación) El coeciente de correlación de Pearson, indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores de la otra. n (xi − x)(yi − y) i=1 Sxy r= = n n Sxx Syy (xi − x)2 · (yi − y)2 i=1 i=1 mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 5 / 84
  • 6. Grado de relación entre las variables Coeciente de correlación de Pearson Indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Es útil para determinar si hay relación lineal (y = β0 + β1 · x) entre dos variables. Tiene el mismo signo que Covxy . La diferencia radica en que r está acotado en [−1, 1]. Si está cercana a -1, indica que las variables están relacionadas en forma inversa, si está cercana a +1, la relación es directa y si está cercana a 0, las variables no están relacionadas. Cuanto más cerca esté r de −1 o +1 mejor será el grado de relación lineal. Siempre que no existan observaciones atípicas. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 6 / 84
  • 7. Grado de relación entre las variables Coeciente de correlación de Pearson Ejemplo Con los datos anteriores, calcule e interprete la correlación. DAP (xi ) Altura (yi ) (xi − x)2 (yi − y)2 15,6 17,4 4,2025 0,5625 14,8 18,4 1,5625 3,0625 15,5 16,5 3,8025 0,0225 12,5 15,2 1,1025 2,1025 14,2 19,9 0,4225 10,5625 15,7 22,1 4,6225 29,7025 12,3 14,8 1,5625 3,4225 14,2 17,3 0,4225 0,4225 8,8 10,3 22,5625 40,3225 11,9 14,6 2,7225 4,2025 Promedio 13,55 16,65 Suma 42,985 94,385 55,065 La correlación sería r= √ 42,985·94,385 = 0, 865. Lo que indica es que el DAC y la altura están relacionados, de forma directa casi perfecta (r cercana a 1). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 7 / 84
  • 8. Grado de relación entre las variables Prueba de hipótesis para probar si la correlación es signicativa Para probar la hipótesis de que la correlación es signicativamente distinta (mayor o menor) que cero, se debe seguí el siguiente procedimiento. Comúnmente cuando el valor−p es menor que 0,05 se dice que es signicativa, si es menor que 0,01 es altamente signicativa. √ r· n−2 Estadística de prueba: tc = √ 1 − r2 Hip. Nula Hip. Alternativa Rechace H0 si Valor−p H0 : ρ = 0 H1 : ρ = 0 |tc | t1−α/2 (n − 2) 2[1 − P(T |tc |)] H0 : ρ = 0 H1 : ρ 0 tc t1−α (n − 2) 1 − P(T |tc |) H0 : ρ = 0 H1 : ρ 0 tc −t1−α (n − 2) 1 − P(T |tc |) T se distribuye t−student con n−2 grados de libertad. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 8 / 84
  • 9. Grado de relación entre las variables Prueba de hipótesis para probar si la correlación es signicativa Ejemplo Pruebe la hipótesis de que la correlación es signicativa. Hipótesis: H0 : ρ = 0 H1 : ρ = 0 v/s √ 0, 865 · 8 Estadístico de prueba: tc = = 4, 865. 1 − 0, 8652 Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si |tc | t0,975 (8) = 2, 306. Signicancia: valor−p = 2[1 − P(T |4, 865|)] ∼ 2[1 − 0, 99925] = 0, 0015 = Conclusión: Como |tc | = 4, 865 2, 306 o equivalentemente valor−p 0, 05. Entonces, existe suciente evidencia muestral para armar que el DAP y la altura están signicativamente correlacionadas (en rigor estricto es altamente signicativa, pues el valor−p 0, 01). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 9 / 84
  • 10. Grado de relación entre las variables Prueba de hipótesis para probar si la correlación es signicativa en SPSS mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 10 / 84
  • 11. Grado de relación entre las variables Prueba de hipótesis para probar si la correlación es signicativa en SPSS Correlaciones DAP Altura ** DAP Correlación de Pearson 1 ,865 Sig. (bilateral) ,001 N 10 10 ** Altura Correlación de Pearson ,865 1 Sig. (bilateral) ,001 N 10 10 **. La correlación es significativa al nivel 0,01 (bilateral). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 11 / 84
  • 12. Regresión Lineal Simple Introducción (Regresión Lineal Simple) El término regresión fue introducido por Galton en su libro Natural inheritance (1889) reriéndose a la ley de la regresión universal. Se supone que se tiene una muestra (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) correspondiente a la observación conjunta de las variables X e Y . El objetivo será encontrar una relación entre ambas variables, esta relación podría estar dada por una recta (ecuación de regresión: y = β0 + β0 · x). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 12 / 84
  • 13. Peso ninguno Regresión Lineal Simple Segmentar archivo Núm. de filas del archivo de trabajo ninguno 10 Diagrama deSintaxis dispersión GRAPH /SCATTERPLOT(BIVAR)=DAP WITH Altura /MISSING=LISTWISE. En un diagrama Tiempo de procesador Recursos de dispersión, cada unidad00:00:00,500 de análisis es un punto cuyas coordenadas sonTiempo transcurrido de las variables. El error aleatorio; los valores 00:00:00,530 son las desviaciones de los verdaderos valores de Y con respecto a los valores [Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseño Experimental y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ( Correlac estimados y y(recta). Lineal Simple)datoseje_corr.sav ión Regresión 22 20 18 Altura 16 14 12 10 R2 Lineal = 0,747 8 10 12 14 16 DAP mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 13 / 84
  • 14. Regresión Lineal Simple La ecuación de regresión La ecuación de predicción esperada está dada por y = β0 + β1 · x. Donde, las estimaciones de los parámetros β1 y β0 son: Sxy β1 = ; y β0 = y − β1 x Sxx Intercepto (β0 ): es la estimación de y cuando x = 0. Pendiente (β1 ): es la estimación de la pendiente de la recta (magnitud del incremento (o decremento) de y por cada unidad de incremento en x.) Además, se dene el coeciente de determinación r2 , como el porcentaje de la variabilidad total que explica el modelo. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 14 / 84
  • 15. Regresión Lineal Simple La ecuación de regresión Ejemplo Considerando los datos del problema anterior, encuentre la ecuación de regresión entre el DAP y la altura. La ecuación de predicción esperada está dada por y = β0 + β1 x, Altura = β0 + β1 · DAP, Donde, las estimaciones de los parámetros β1 y β0 son: 55, 065 β1 = = 1, 281; y β0 = 16, 65 − 1, 281 · 13, 55 = −0, 708. 42, 985 mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 15 / 84
  • 16. Regresión Lineal Simple La ecuación de regresión Ejemplo Entonces, la ecuación sería: Altura = −0, 708 + 1, 281 · DAP, Pendiente: Por cada centímetro que se incrementa el DAP, la altura se incrementa en 1,281 metros. Intercepto: Un árbol con un DAP muy pequeño (0), se estima que su Altura será de -0,708. En este caso no tiene sentido. Esta recta, puede servir para predecir, suponga que tiene un árbol con un DAP=8cm, entonces se estima que su altura sería de Altura = −0, 708 + 1, 281 · 8 = 9, 54 metros. Además el porcentaje de la variabilidad total que explica el modelo es de 74,7% (r 2 = 0, 8652 = 0, 747). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 16 / 84
  • 17. Regresión Lineal Simple Prueba de hipótesis para la pendiente Para probar la hipótesis de que la pendiente es signicativamente distinta (mayor o menor) que cero, se debe seguí el siguiente procedimiento. Al ser la pendiente distinta de cero, esto indicaría que las variables están relacionadas. √ β1 · Sxx Estadística de prueba: tc = se Hip. Nula Hip. Alternativa Rechace H0 si Valor−p H0 : β 1 = 0 H1 : β 1 = 0 |tc | t1−α/2 (n − 2) 2[1 − P(T |tc |)] H0 : β 1 = 0 H1 : β 1 0 tc t1−α (n − 2) 1 − P(T |tc |) H0 : β 1 = 0 H1 : β 1 0 tc −t1−α (n − 2) 1 − P(T |tc |) T se distribuye t−student con n−2 grados de libertad. Además n 2 i=1 (yi −yi ) Syy −β1 Sxy s = n−2 = n−2 es la desviación estándar del error, también llamado, error estándar (típico) de la estimación. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 17 / 84
  • 18. Regresión Lineal Simple Prueba de hipótesis para la pendiente Ejemplo Pruebe la hipótesis de que la pendiente es distinta de cero. Hipótesis: H0 : β1 = 0 H1 : β 1 = 0 v/s √ 1, 281 · 42, 985 Estadístico de prueba: tc = = 4, 865. 1, 726 Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si |tc | t0,975 (8) = 2, 306. Signicancia: valor−p = 2[1 − P(T |4, 865|)] ∼ 2[1 − 0, 99925] = 0, 0015 = Conclusión: Como |tc | = 4, 865 2, 306 o equivalentemente valor−p 0, 05. Entonces, existe suciente evidencia muestral para armar que el DAP y la altura están signicativamente relacionadas. (Esta prueba es equivalente a la prueba de hipótesis para la correlación). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 18 / 84
  • 19. Regresión Lineal Simple Regresión Lineal Simple en SPSS mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 19 / 84
  • 20. Regresión Lineal Simple Regresión Lineal Simple en SPSS [Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseño Ex y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ión y Regresión Lineal Simple)datoseje_corr.sav Resumen del modelo Modelo R cuadrado Error típ. de la R R cuadrado corregida estimación a 1 ,865 ,747 ,716 1,726 a. Variables predictoras: (Constante), DAP a Coeficientes Modelo Coeficientes Coeficientes no estandarizados tipificados B Error típ. Beta t Sig. 1 (Constante) -,708 3,610 -,196 ,849 DAP 1,281 ,263 ,865 4,865 ,001 a. Variable dependiente: Altura mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 20 / 84
  • 21. Regresión Estimación curvilínea: Modelo Exponencial Un modelo de regresión se dice que es exponencial si Resumen del modelo y estimaciones de los parámetros y = β0 · exp[β1 · x] Variable dependiente:Volumen Ecuación Estimaciones de los parámetros Por ejemplo, considere el problemaExponencial se mide el DAP=X y el Constante b1 donde ,001 ,266 Volumen=Y. Los datos y la gráca son: La variable independiente esDAP. Volumen DAP=X Volumen=Y 0,200 16,9 ,117 8,9 ,025 0,150 17,7 ,131 2,1 ,001 11,5 ,037 0,100 19,9 ,198 6,2 ,012 0,050 17,1 ,127 14,7 ,089 0,000 18,6 ,167 0,0 5,0 10,0 15,0 20,0 DAP mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 21 / 84
  • 22. Regresión Estimación curvilínea: Modelo Exponencial (Modelo exponencial) El modelo exponencial, se puede solucionar mediante una regresión lineal simple. Aplicar el logaritmo natural a la ecuación y = β0 · exp[β1 · x] . Tendríamos w = ln[y] = ln[β0 ] + β1 · x . Encuentre la ecuación de regresión lineal simple entre X y W. Luego se debe aplicar la exponencial a w para despejar y. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 22 / 84
  • 23. Regresión Estimación curvilínea: Modelo Exponencial Ejemplo Para los datos de DAP= X y Volumen= Y, encuentre la ecuación de regresión y = β0 · exp[β1 · x]. Considere lo siguiente: DAP=X Volumen=Y W = ln[Y ] La ecuación de regresión entre X y W es 16,9 8,9 0,117 0,025 -2,1456 -3,6889 w = −6, 588 + 0, 266x. 17,7 0,131 -2,0326 Además el 2 rxw = 0, 934. 2,1 0,001 -6,9078 11,5 0,037 -3,2968 Aplicando la exponencial y considerando 19,9 0,198 -1,6195 6,2 0,012 -4,4228 que w = ln[y], tenemos 17,1 0,127 -2,0636 14,7 0,089 -2,4191 y = exp[−6, 588] exp[0, 266x] 18,6 0,167 -1,7898 y = 0, 001 exp[0, 266x]. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 23 / 84
  • 24. Regresión Estimación curvilínea: Modelo Exponencial Ejemplo También podemos encontrar la ecuación de regresión lineal simple entre X e Y. La cual sería, y = −0, 055 + 0, 011x, con 2 rxy = 0, 890. El modelo exponencial es 2 y = 0, 001 exp[0, 266x], con rxw = 0, 934. En los datos existe un árbol con DAP= 14, 7 y Volumen= 0, 089. Si utilizamos estos dos modelos para predecir el volumen de un árbol con DAP=14,7, tenemos Con el modelo de regresión lineal simple: y = −0, 055 + 0, 011 · 14, 7 = 0, 105. Con el modelo exponencial: y = 0, 001 exp[0, 266 · 14, 7] = 0, 068. Ambas estimaciones del volumen están cercanas a 0, 089, pero la del modelo exponencial (0,068), está más cercana. Además, el r2 del modelo exponencial está más cercano al 100%. En conclusión, entre estos dos modelos el mejor es el exponencial. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 24 / 84
  • 25. Regresión Estimación curvilínea: Modelo Exponencial en SPSS mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 25 / 84
  • 26. Regresión Estimación curvilínea: Modelo Exponencial en SPSS Resumen del modelo y estimaciones de los parámetros Variable dependiente:Volumen Ecuación Resumen del modelo Estimaciones de los parámetros R cuadrado F gl1 gl2 Sig. Constante b1 Lineal ,890 64,951 1 8 ,000 -,055 ,011 Exponencial ,934 112,799 1 8 ,000 ,001 ,266 La variable independiente esDAP. Volumen Observado 0,200 Lineal Exponencial 0,150 0,100 0,050 0,000 0,0 5,0 10,0 15,0 20,0 DAP mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 26 / 84
  • 27. Regresión Estimación curvilínea: Algunos modelos clásicos Modelo Ecuación Comentario Lineal y = β0 + β1 · x Este modelo ya se analizó con todo detalle. Logarítmico y = β0 + β1 · ln[x] Calcule T = ln[X], encuentre la ecuación de regresión lineal entre T e Y. Luego, en la ecuación y = β0 + β1 · t, reemplace t por ln[x]. 1 1 Inverso y = β0 + β1 · Calcule T = X , encuentre la ecuación de regresión lineal entre T e Y. x 1 Luego, en la ecuación y = β0 + β1 · t, reemplace t por . x Cuadrático y = β0 + β1 · x + β2 · x2 2 Calcule X y realice una regresión múltiple. Cúbico y = β0 + β1 · x + β2 · x2 + β3 · x3 Calcule X 2 , X 3 y realice una regresión múltiple. Potencia Calcule T = ln[X], W = ln[Y ]. Encuentre la ecuación de regresión entre y = β0 · xβ1 T y W . En la ecuación w = b + m · t, reemplace t = ln[x] y w = ln[y]. Luego despeje y. Entonces, los parámetros serían β0 = exp[b] y β1 = m. Compuesto Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W . x y = β0 · β1 En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despeje y. Entonces, los parámetros serían β0 = exp[b] y β1 = exp[m]. 1 Calcule T = G X , W = ln[Y ]. Encuentre la ecuación de regresión entre 1 1 y = exp β0 + β1 · T y W. En la ecuación w = b + m · t, reemplace t= x y w = ln[y]. x Luego despeje y. Entonces, los parámetros serían β0 = b y β1 = m. 1 ◦ máx. de iteraciones, usar 1000. Logística y= x Solución por sistemas no lineales. Ingresar n (β0 + β1 · β2 ) Crecimiento CalculeW = ln[Y ]. Encuentre la ecuación de regresión entre X y W. y = exp[β0 + β1 · x] En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despeje y. Entonces, los parámetros serían β0 = b y β1 = m. Exponencial y = β0 · exp[β1 · x] Este modelo ya se analizó con todo detalle. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 27 / 84
  • 28. Regresión Estimación curvilínea: Algunos modelos clásicos en SPSS Encontraremos todos los modelos de regresión que propone SPSS. Un modelo es bueno si el valor−p 0, 05. El mejor modelo es el que tiene el menor valor−p, mayor r2 , mayor F y menor número de parámetros. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 28 / 84
  • 29. Regresión Estimación curvilínea: Algunos modelos clásicos en SPSS mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 29 / 84
  • 30. Regresión Estimación curvilínea: Algunos modelos clásicos en SPSS Lineal: V olumen = −0, 055 + 0, 011 · DAP, r2 = 89, 0%. 1 Inversa: V olumen = 0, 130 − 0, 338 · , r2 = 41, 3%. DAP Potencia: V olumen = 0, 000166 · DAP 2,329 , r2 = 99, 5%. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 30 / 84
  • 31. Regresión Estimación curvilínea: Algunos modelos clásicos en SPSS Lineal: V olumen = −0, 055 + 0, 011 · DAP, r2 = 89, 0%. 1 Inversa: V olumen = 0, 130 − 0, 338 · , r2 = 41, 3%. DAP Potencia: V olumen = 0, 000166 · DAP 2,329 , r2 = 99, 5%. Volumen 0,200 Observado Lineal Inverso Potencia 0,150 0,100 0,050 0,000 0,0 5,0 10,0 15,0 20,0 DAP mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 31 / 84
  • 32. Regresión Lineal Múltiple Introducción Técnica de dependencia que puede utilizarse para analizar la relación entre una única variable dependiente (Y ) y varias variables independientes x1 , x 2 , 28,0 . . . , xk . Cada variable independiente es Índice de sitio 26,0 24,0 ponderada (βj ), de forma que las ponderaciones indican su contribución 22,0 relativa a la predicción conjunta. 20,0 18,0 30 ,0 El objetivo es usar las variables ,0 1,20 35 1,25 1,30 40 ,0 independientes cuyos valores son 1,35 a ,40 1 45 ,0 en Den sida 1,45 1,50 ,0 Ar conocidos para predecir la única d 50 variable dependiente seleccionada por el investigador. ON mrodriguez@ucm.cl (UCM) NG LISTWISE Marcelo Rodríguez G. 22/10/2010 32 / 84
  • 33. Regresión Lineal Múltiple El modelo lineal general El modelo de regresión lineal sería yi = β0 + β1 · xi1 + β2 · xi2 , . . . , βk · xik + εi . Donde         y1 1 x11 x12 . . . x1n β0 ε1  y2   1 x21 x22 . . . x2k   β1   ε2  Y =  . , X= . , β =  . , ε =  . ,         . . .  .  .  . . . . . . . .   .  .  .  . yn 1 xn1 xn2 . . . xnk βk εn βj , son los parámetros desconocidos, j = 1, . . . , k. El n ◦ total de parámetros es p = k + 1. εi es el i−ésimo error aleatorio asociado con yi , i = 1, . . . , n. El objetivo es estimar βj , a esta estimación la llamaremos βj . La estimación se los parámetros sería β= (XT X)−1 XT Y. Entonces el modelo estimado sería yi = β0 + β1 · xi1 + β2 · xi2 , . . . , βk · xik . mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 33 / 84
  • 34. Regresión Lineal Múltiple Ejemplo de estimación de los parámetros. Ejemplo Se desea conocer la tasa de crecimiento de un cultivo bajo diferentes condiciones de sitio y manejo. En el caso del Eucaliptus Globulus es prácticamente desconocida, es por ello que se toman muestras de suelo de cada rodal, midiendo el y = índice de sitio (altura promedio alcanzada por árboles dominantes a una edad determinada), x1 = % de arena, x2 = % de arcilla y la x3 = densidad aparente (gr/cc). Índice de sitio (y ) 25,4 24,0 22,9 25,3 21,4 24,5 22,1 19,6 26,9 24,0 20,3 23,6 23,4 24,0 23,1 21,2 % Arena (x1 ) 40,5 45,8 47,6 47,2 40,4 38,9 45,3 32,7 41,5 42,9 40,2 46,1 45,0 48,9 41,3 46,2 % Arcilla (x2 ) 34,3 37,5 27,4 32,9 33,8 38,7 28,4 34,0 30,1 34,4 46,9 35,4 34,3 25,7 32,3 32,5 Densidad (x3 ) 1,29 1,32 1,40 1,30 1,41 1,25 1,38 1,50 1,20 1,34 1,38 1,49 1,47 1,36 1,42 1,48 mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 34 / 84
  • 35. Regresión Lineal Múltiple Ejemplo de estimación de los parámetros. Se propone el siguiente modelo y = β0 + β1 · x1 + β2 · x2 + β3 · x3 + ε. Se desea estimar los parámetros del modelo (βj ). Por ejemplo, si la estimación del parámetro β2 es muy cercano a 0, quiere decir que el % de arcilla (x2 ) no inuye en la predicción del índice de sitio (y ). Los parámetros estimados serían: β0 = 43, 037, β1 = 0, 121, β2 = −0, 066, y β3 = −16, 604. Entonces el modelo estimado sería y = 43, 037 + 0, 121 · x1 − 0, 066 · x2 − 16, 604 · x3 . Índice de sitio = 43, 037+0, 121·Arena−0, 066·Arcilla−16, 604·Densidad. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 35 / 84
  • 36. Regresión Lineal Múltiple Prueba de hipótesis para los parámetros. (Prueba de hipótesis para los parámetros del modelo) Hipótesis: H0 : β 0 = β 1 = · · · = β k = 0 v/s H1 : βj = 0, para algún j. Estadístico de prueba: Modelo Suma de Grados de Media Fc cuadrados libertad cuadrática n SCReg MCReg Regresión (yi − y)2 p−1 (p − 1) MCRes i=1 n SCRes Residual (yi − yi )2 n−p (n − p) i=1 n 2 Total (yi − y) n−1 i=1 Región de rechazo: Rechace H0 si Fc F1−α (p − 1, n − p). Signicancia: Valor-p = 1 − P(F Fc ). Donde F se distribuye Fisher con p−1 y n−p grados de libertad. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 36 / 84
  • 37. Regresión Lineal Múltiple Ejemplo de estimación de los parámetros. Para vericar si las variables independientes (xj ) tienen un aporte signicativo en la predicción del Índice de sitio (y ), debe probar: H0 : β0 = β1 = β2 = β3 = 0 v/s H1 : βj = 0, para algún j. Obser. y y (yi − y)2 (yi − y)2 (yi − yi )2 Modelo Suma de Grados de Media Fc 1 25,4 24,268 4,703 1,075 1,282 cuadrados libertad cuadrática 2 24,0 24,202 0,591 0,942 0,041 Regresión 39,481 3 13,160 9,196 3 22,9 23,758 0,110 0,278 0,736 Residual 17,173 12 1,431 4 25,3 25,007 4,280 3,154 0,086 Total 56,654 15 5 21,4 22,296 3,353 0,874 0,803 6 24,5 24,448 1,610 1,480 0,003 7 22,1 23,745 1,280 0,264 2,707 Siα = 0, 05. Rechace H0 si 8 19,6 19,854 13,186 11,402 0,065 9 26,9 26,161 13,460 8,582 0,546 Fc F0,95 (3, 12) = 3, 49. 10 24,0 23,722 0,591 0,241 0,077 11 20,3 21,906 8,592 1,757 2,578 El valor−p = 0, 002. 12 23,6 21,554 0,136 2,814 4,187 39,481 13 23,4 21,825 0,028 1,977 2,480 R2 = 56,654 = 0, 697. 14 24,0 24,692 0,591 2,134 0,479 15 23,1 22,338 0,017 0,797 0,580 Entonces, se rechaza H0 , en 16 21,2 21,923 4,126 1,710 0,523 Suma 371,700 371,700 56,654 39,481 17,173 favor de H1 . mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 37 / 84
  • 38. Regresión Lineal Múltiple Bondad de ajuste (Coeciente de Determinación (R2 )) Expresa la proporción de varianza de la variable dependiente que está explicada por las variables independientes. SCReg R2 = . SCT R2 corregida es una corrección a la baja de R2 que se basa en el número de casos y de variables independientes: k(1 − R2 ) Rcorrejida = R2 − 2 . (n − k + 1) mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 38 / 84
  • 39. Regresión Lineal Múltiple Bondad de ajuste (Coeciente de correlación múltiple (R)) Es la raíz de R2 . Si tenemos dos variables el Coeciente de correlación múltiple es el valor absoluto del coeciente de correlación de Pearson, es decir, R = |r|. (Error (residuo) estándar de la estimación) Es la desviación media que existe entre la variable dependiente y y su estimación y (el residuo es εi = yi − yi ). n (yi − yi )2 i=1 √ sε = = MCRes. n−p mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 39 / 84
  • 40. Regresión Lineal Múltiple Prueba de hipótesis para cada uno de los parámetros Hipótesis: H0 : βj = 0 v/s H1 : βj = 0, para j = 0, 1, . . . , k. βj Estadística de prueba: tc = s(βj ) Hip. Nula Hip. Altern. Rechace H0 si Valor−p H0 : βj = 0 H1 : β j = 0 |tc | t1−α/2 (n − p) 2[1 − P(T |tc |)] H0 : βj = 0 H1 : β j 0 tc t1−α (n − p) 1 − P(T |tc |) H0 : βj = 0 H1 : β j 0 tc −t1−α (n − p) 1 − P(T |tc |) T se distribuye t−student con n − p grados de libertad. Además √ s(βj ) = cj+1 · sε , donde cj+1 es el elemento (j + 1) de la diagonal de (XT X)−1 . Un intervalo de conanza del 100(1 − α)% para el parámetro βj es βj ± t1−α/2 (n − p) · s(βj ) mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 40 / 84
  • 41. Regresión Lineal Múltiple Parámetros estandarizados (coecientes tipicados) 1 Los coecientes tipicados, se obtienen de la ecuación de regresión tras estandarizar las variables originales. Es decir, debe a cada variable restarle su promedio y dividirlo por su desviación estándar, y luego encontrar los parámetros de la ecuación de regresión con esas nuevas variables. 2 Permiten valorar la importancia relativa de cada variable independiente dentro de la ecuación. En general, una variable independiente tiene tanto más peso (importancia) en la ecuación de regresión cuanto mayor (en valor absoluto) es su coeciente de regresión estandarizado. 3 Indican la cantidad de cambio, en puntuaciones estándar, que se producirá en la variable dependiente por cada cambio de una unidad en la correspondiente variable independiente (manteniendo constantes el resto de variables independientes). 4 En regresión simple, el coeciente estandarizado, coincide con el coeciente de correlación de Pearson. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 41 / 84
  • 42. Regresión Lineal Múltiple Regresión Lineal Múltiple en SPSS mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 42 / 84
  • 43. Regresión Lineal Múltiple Regresión Lineal Múltiple en SPSS Variables introducidas/eliminadas b Modelo Variables Variables introducidas eliminadas Método 1 Densidad, . Introducir Arena, a Arcilla a. Todas las variables solicitadas introducidas. b. Variable dependiente: Índice de sitio b Resumen del modelo Modelo R cuadrado Error típ. de la R R cuadrado corregida estimación a 1 ,835 ,697 ,621 1,1963 a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio b ANOVA Modelo Suma de Media cuadrados gl cuadrática F Sig. a 1 Regresión 39,481 3 13,160 9,196 ,002 Residual 17,173 12 1,431 Total 56,654 15 a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio a Coeficientes Modelo Coeficientes Coeficientes no estandarizados tipificados B Error típ. Beta t Sig. 1 (Constante) 43,037 7,036 6,117 ,000 Arena ,121 ,082 ,259 1,473 ,167 Arcilla -,066 ,069 -,168 -,953 ,360 Densidad -16,604 3,507 -,753 -4,734 ,000 a. Variable dependiente: Índice de sitio mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 43 / 84
  • 44. Regresión Lineal Múltiple Regresión Lineal Múltiple en SPSS No existe suciente evidencia muestral, para armar que el % de arena (t= 1, 473, valor−p = 0, 167) o el % de arcilla (t = −0, 953, valor−p = 0, 360), inuyen en la estimación del índice de sitio. La muestra proporciona evidencia para armar que la densidad incide en la estimación del índice de sitio (t = −4, 734, valor−p = 0, 000). La relación entre la densidad y el índice de sitios es inversa (signo del estadístico de prueba). Según los coecientes estadarizados, la variable independiente más importante en la predicción del índice de sitios, es la densidad, luego el porcentaje de arena y por último el porcentaje de arcilla. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 44 / 84
  • 45. Regresión Lineal Múltiple Correlaciones parciales y semiparciales (Correlaciones parciales) Es la correlación lineal entre dos variables mientras se mantienen constantes otras variables. En el contexto del análisis de regresión, los coecientes de correlación parcial expresan el grado de relación existente entre cada variable independiente y la variable dependiente tras eliminar de ambas el efecto debido al resto de variables independientes incluidas en la ecuación. El coeciente de correlación parcial de primer orden, anotado aquí rAB/C , permite conocer el valor de la correlación entre dos variables A y B , si la variable C había permanecido constante para la serie de observaciones consideradas. rAB − rAC · rBC rAB/C = . 2 1 − rAC · 2 1 − rBC mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 45 / 84
  • 46. Regresión Lineal Múltiple Puntos de inuencia La distancia de Cook (1977) mide el cambio que se produce en las estimaciones de los coecientes de regresión al ir eliminando cada caso de la ecuación de regresión. Una distancia de Cook grande indica que ese caso tiene un peso considerable en la estimación de los coecientes de regresión. Para evaluar estas distancias puede utilizarse la distribución F con p y n−p grados de libertad. En general, un caso con una distancia de Cook superior a 1 debe ser revisado. n 2 yj − yj(i) j=1 Di = . p · MCRes Donde yj(i) , es una estimación sin considerar el dato i−ésimo. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 46 / 84
  • 47. Regresión Lineal Múltiple Distancia de Cook en SPSS En la base de datos, quedarán guardas las distancias, luego se debe hacer un gráco de dispersión en- tre las observaciones y las distancias. 1,25000 1,00000 Cook's Distance 0,75000 0,50000 0,25000 0,00000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Observación SAVE OUTFILE='D:Archivos de MarceloProyectos 2010Diseño Experimental y Mo los de Regresión '+ 'Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ( Correlación y Regresión L mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. eal '+ 22/10/2010 47 / 84
  • 48. Regresión Lineal Múltiple Supuestos del Modelo (Supuestos del Modelo de Regresión) Los supuestos de un modelo estadístico se reeren a una serie de condiciones que deben darse para garantizar la validez del modelo. Linealidad: La variable dependiente es la suma de un conjunto de elementos: el origen de la recta, una combinación lineal de variables independientes y los residuos. Independencia: Los residuos son independientes entre sí. Homocedasticidad: Para cada valor de la variable independiente, la varianza de los residuos es constante. Normalidad: Para cada valor de la variable independiente, los residuos se distribuyen normalmente con media cero. No-colinealidad: No existe relación lineal exacta entre ninguna de las variables independientes. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 48 / 84
  • 49. Regresión Lineal Múltiple Supuestos del Modelo: Linealidad Los diagramas de regresión parcial permiten examinar la relación exis- tente entre la variable dependiente y cada una de las variables independi- entes por separado, tras eliminar de ellas el efecto del resto de las vari- ables independientes incluidas en el análisis. Estos diagramas son sim- ilares a los de dispersión ya estu- diados, pero no están basados en las puntuaciones originales de las dos variables representadas, sino en los residuos obtenidos al efectuar un análisis de regresión con el resto de las variables independientes. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 49 / 84
  • 50. Regresión Lineal Múltiple Supuestos del Modelo: Linealidad La relación entre densidad e índice Por ejemplo, en el diagrama de regre- de sitio tras eliminar el efecto sión parcial de índice de sitio y densi- del resto de variables independi- dad están representados los residuos entes, es claramente lineal e inversa. que resultan de efectuar un análisis Gráfico de regresión parcial de regresión sobre índice de sitio in- Variable dependiente: Índice de sitio 4,0 cluyendo todas las variables indepen- dientes excepto densidad 2,0 (y = β0 + β1 x1 + β2 x2 ), y los Índice de sitio residuos que resultan de efectuar un 0,0 análisis de regresión sobre densidad incluyendo el resto de variables in- -2,0 dependientes (x3 = β 3 + β 4 x1 + β5 x2 ). Se tendrán tantos grácos -0,20 -0,10 0,00 0,10 0,20 Densidad como variables independientes. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 50 / 84
  • 51. Regresión Lineal Múltiple Supuestos del Modelo: Independencia Para vericar el supuesto de independencia entre los residuos εi = y i − y i use el estadístico de Durbin-Watson (DW ), el cual está dado por: n (εi − εi−1 )2 i=1 DW = n . ε2 i i=1 El estadístico DW toma el valor 2 cuando los residuos son independientes, valores menores que 2 indican autocorrelación positiva y los mayores que 2 autocorrelación negativa. Podemos asumir independencia entre los residuos cuando DW toma valores entre 1,5 y 2,5. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 51 / 84
  • 52. Regresión Lineal Múltiple Supuestos del Modelo: Linealidad Como el estadístico de DW está b Variables introducidas/eliminadas entre 1,5 y 2,5. No podemos Modelo Variables Variables introducidas eliminadas Método rechazar la 1 Densidad, . hipótesis de Introducir que los Arena, residuos son independientes, es a Arcilla a. Todas las variables solicitadas introducidas. decir no están de sitio b. Variable dependiente: Índice auto correlacionados. b Resumen del modelo Modelo R cuadrado Error típ. de la Durbin- R R cuadrado corregida estimación Watson a 1 ,835 ,697 ,621 1,1963 2,238 a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio b Entonces se estaría cumpliendo es ANOVA Modelo Suma de Media supuesto de independencia. gl cuadráticacuadrados F Sig. a 1 Regresión 39,481 3 13,160 9,196 ,002 Residual 17,173 12 1,431 Total 56,654 15 a. Variables predictoras: (Constante), Densidad, Arena, Arcilla b. Variable dependiente: Índice de sitio a mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 Coeficientes 52 / 84
  • 53. Regresión Lineal Múltiple Supuestos del Modelo: Normalidad Los residuos (o los residuos tipi- cados) deben cumplir el supuesto de normalidad. El recuadro Grá- cos de los residuos tipicados (es- tandarizados) contiene dos opciones grácas que informan sobre el grado en el que los residuos tipicados se aproximan a una distribución normal: El histograma (debe ser simétrico) y el gráco de probabilidad nor- mal (deben estar los puntos sobre la recta). También con los residuos se puede realizar una prueba de nor- malidad como Kolmogorov-Smirnov (n 50) o Shapiro-Wilk (n ≤ 50). mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 53 / 84
  • 54. Regresión Lineal Múltiple Supuestos del Modelo: Normalidad Estos grácos indicaría, por lo menos en forma visual, que los residuos, tienden Gráficos a distribuirse como la normal. Histograma Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: Índice de sitio Variable dependiente: Índice de sitio 1,0 Media = -2,08E-16 4 Desviación típica = 0,894 N = 16 0,8 Prob acum esperada 3 0,6 Frecuencia 2 0,4 1 0,2 0,0 0 0,0 0,2 0,4 0,6 0,8 1,0 -2 -1 0 1 2 Regresión Residuo tipificado Prob acum observada Esta armación no es concluyente, por lo tanto se realizará una prueba de hipótesis. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 54 / 84
  • 55. Regresión Lineal Múltiple Supuestos del Modelo: Normalidad mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 55 / 84
  • 56. Regresión Lineal Múltiple Supuestos del Modelo: Normalidad mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 56 / 84
  • 57. Regresión Lineal Múltiple Supuestos del Modelo: Normalidad No existe suciente evidencia muestral para rechazar que los residuos se encuentra distribuidos como la normal (SW = 0, 972, valor−p = 0, 871). 3,00000 2,00000 1,00000 0,00000 -1,00000 -2,00000 Unstandardized Residual EXAMINE VARIABLES=RES_1 /PLOT BOXPLOT NPPLOT /COMPARE GROUPS PD: Si el n 50, se puede utilizar KS, en este caso ambos estadísticos, /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE nos indican que se cumple el supuesto de normalidad. /NOTOTAL. mrodriguez@ucm.cl (UCM) Explorar Marcelo Rodríguez G. 22/10/2010 57 / 84
  • 58. Regresión Lineal Múltiple Supuestos del Modelo: Homocedasticidad Comúnmente este supuesto se verica mediante una gráca. Se deben gracar los valores pronosticados (ZPRED) con los valores residuales (ZRESI). Si no se detectan tendencias, entonces se cumple el supuestos de homocedasticidad. Gráficos Gráfico de dispersión Variable dependiente: Índice de sitio 2 Regresión Residuo tipificado 1 0 -1 -2 -3 -2 -1 0 1 2 Regresión Valor pronosticado tipificado mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 58 / 84
  • 59. Regresión Lineal Múltiple Supuestos del Modelo: No-colinealidad Existe colinealidad perfecta cuando una de las variables independientes se relaciona de forma perfectamente lineal con una o más del resto de variables independientes de la ecuación. Hablamos de colinealidad parcial o, simplemente, colinealidad, cuando entre las variables independientes de una ecuación existen correlaciones altas. En términos generales, cuantas más variables hay en una ecuación, más fácil es que exista colinealidad (aunque, en principio, bastan dos variables). Es un problema porque, en el caso de colinealidad perfecta, no es posible estimar los coecientes de la ecuación de regresión; y en el caso de colinealidad parcial, aumenta el tamaño de los residuos típicados y esto produce coecientes de regresión muy inestables: pequeños cambios en los datos (añadir o quitar un caso, por ejemplo) produce cambios muy grandes en los coecientes de regresión. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 59 / 84
  • 60. Regresión Lineal Múltiple Supuestos del Modelo: No-colinealidad El nivel de tolerancia de una variable se obtiene restando a 1 el 2 coeciente de determinación (R ) que resulta al regresar esa variable sobre el resto de variables independientes. Valores de tolerancia muy pequeños indican que esa variable puede ser explicada por una combinación lineal del resto de variables, lo cual signica que existe colinealidad. Los factores de inación de la varianza (FIV) son los inversos de los niveles de tolerancia. Cuanto mayor es el FIV de una variable, mayor es la varianza del correspondiente coeciente de regresión. De ahí que uno de los problemas de la presencia de colinealidad (tolerancias pequeñas, FIVs grandes) sea la inestabilidad de las estimaciones de los coecientes de regresión. Como regla se puede utilizar: Las variables independientes son colineales si FIV 10. Las variables que tienen FIV alto y parecidos están altamente correlacionadas. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 60 / 84
  • 61. a Coeficientes Regresión Lineal Múltiple Modelo Coeficientes no estandarizados Coefi tipifi Supuestos del Modelo: No-colinealidad B Error típ. B 1 (Constante) 43,037 7,036 Arena ,121 ,082 Como Arcilla los FVI's -,066 son menores ,069 Densidad -16,604 3,507 que 10, entonces se cumple a. Variable dependiente: Índice de sitio el supuesto de no-colinealidad. a Coeficientes Modelo Estadísticos de colinealidad Tolerancia FIV 1 (Constante) Arena ,814 1,229 Arcilla ,814 1,229 Densidad 1,000 1,000 a. Variable dependiente: Índice de sitio Diagnósticos de colinealid Modelo Dimensión Si se detecta la presencia de colinealidad hay que i) aumentar el tamaño de Índice de Autovalores condición (Const la muestra; ii) crear indicadores múltiples 1combinando variables; iii) excluir 1 3,973 1,000 variables redundantes, quedándonos con las que consideremos más 13,781 2 ,021 3 ,005 28,401 importantes. 4 ,001 55,226 mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 61 / 84
  • 62. Regresión Lineal Múltiple Regresión por pasos: Qué variables debe incluir la ecuación de regresión La regresión por pasos (stepwise) es una método para seleccionar las variables independientes que debe incluir un modelo de regresión. Se seleccionan de acuerdo al siguiente criterio estadístico. Criterio de entrada: El valor−p 0, 05 y se debe seleccionar las variables con menor valor−p en la ANOVA. Método Hacia adelante: Las variables se incorporan al modelo de regresión una a una. En el primer paso se selecciona la variable independiente que, además de superar los criterios de entrada, tiene la más alta correlación. En los siguientes pasos se utiliza como criterio de selección el coeciente de correlación parcial: van siendo seleccionadas una a una las variables que, además de superar los criterios de entrada, poseen el coeciente de correlación parcial más alto en valor absoluto. La selección de variables se detiene cuando no quedan variables que superen el criterio de entrada. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 62 / 84
  • 63. Regresión Lineal Múltiple Regresión por pasos: Qué variables debe incluir la ecuación de regresión En el ejemplo anterior, se realizarán todas las regresiones posible, identicando, las variables independientes, el R2 , estadístico de prueba F, y el valor−p. El mejor modelo es el que tiene, menos variables, mayor R2 , mayor F y menor valor−p. Variables R2 F valor−p x1 0,112 1,773 0,20427 x2 0,711 1,072 0,31799 x3 0,564 18,096 0,00080 x1 , x2 0,131 0,978 0,40227 x1 , x3 0,674 13,436 0,00069 x2 , x3 0,642 11,662 0,00126 x1 , x2 , x3 0,697 9,196 0,00196 El mejor modelo sería y = β0 + β3 · x3 . Aunque y = β0 + β1 · x1 + β3 · x3 , también es un muy buen modelo. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 63 / 84
  • 64. Tiempo transcurrido 00:00:00,031 Regresión Lineal Múltiple Memoria necesaria 1972 bytes Memoria adicional 0 bytes requerida para los diagramas de residuos Regresión por pasos: Qué variables debe incluir[Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseñ la ecuación de regresión y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módul ión y Regresión Lineal Simple)datoseje_reg_mult_indice de siti a Variables introducidas/eliminadas Modelo Variables Variables introducidas eliminadas Método 1 Densidad . Hacia adelante (criterio: Prob. Por defecto SPSS de F para elige entrar = , como el 050) mejor modelo a. Variable dependiente: Índice de sitio y = β0 + β3 · x3 . Resumen del modelo Modelo R cuadrado Error típ. de la R R cuadrado corregida estimación a 1 ,751 ,564 ,533 1,3286 a. Variables predictoras: (Constante), Densidad b ANOVA Modelo Suma de Media cuadrados gl cuadrática F Sig. a 1 Regresión 31,942 1 31,942 18,096 ,001 Residual 24,712 14 1,765 Total 56,654 15 a. Variables predictoras: (Constante), Densidad b. Variable dependiente: Índice de sitio mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 64 / 84
  • 65. Regresión Lineal Múltiple Regresión por pasos: Qué variables debe incluir la ecuación de regresión Para que coincida con los cálculos efectuados antes, debemos ser menos restrictivos con el valor−p. Fíjese que la arena es signicativa para valores superiores a 0,056. Utilizaremos el valor de 0,06. a Coeficientes Modelo Coeficientes Coeficientes no estandarizados tipificados B Error típ. Beta t Sig. 1 (Constante) 45,999 5,362 8,578 ,000 Densidad -16,566 3,894 -,751 -4,254 ,001 a. Variable dependiente: Índice de sitio b Variables excluidas Modelo Estadísticos de colinealidad Correlación Beta dentro t Sig. parcial Tolerancia a 1 Arena ,332 2,096 ,056 ,503 1,000 a Arcilla -,280 -1,686 ,116 -,424 1,000 a. Variables predictoras en el modelo: (Constante), Densidad b. Variable dependiente: Índice de sitio REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.06) POUT(.10) /NOORIGIN /DEPENDENT IS /METHOD=FORWARD Densidad Arena Arcilla. mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 65 / 84
  • 66. a Regresión Lineal Múltiple Variables introducidas/eliminadas Modelo Variables Variables introducidas eliminadas Método 1 Densidad . Hacia Regresión por pasos: Qué variables debe incluir la ecuación de regresión adelante (criterio: Prob. de F para entrar = , 060) 2 Arena . Hacia adelante (criterio: Prob. Los resultados considerando la nueva conguración, sería de F para entrar = , 060) a. Variable dependiente: Índice de sitio a Coeficientes Resumen del modelo Modelo Coeficientes Modelo R cuadrado Error típ. de la Coeficientes no estandarizados tipificados R R cuadrado corregida estimación a B Error típ. Beta t Sig. 1 ,751 ,564 ,533 1,3286 1 (Constante) 45,999 5,362 8,578 ,000 b 2 ,821 ,674 ,624 1,1920 Densidad -16,566 3,894 -,751 -4,254 ,001 a. Variables predictoras: (Constante), Densidad 2 (Constante) 39,256 5,788 6,782 ,000 b. Variables predictoras: (Constante), Densidad, Arena Densidad -16,533 3,494 -,749 -4,732 ,000 c Arena ,155 ,074 ,332 2,096 ,056 ANOVA a. Variable dependiente: Índice de sitio Modelo Suma de Media cuadrados gl cuadrática F Sig. Variables excluidas c a 1 Regresión 31,942 1 31,942 18,096 ,001 Modelo Estadísticos Residual 24,712 14 1,765 de colinealidad Total 56,654 15 Correlación b 2 Regresión 38,182 2 19,091 13,436 ,001 Beta dentro t Sig. parcial Tolerancia a Residual 18,472 13 1,421 1 Arena ,332 2,096 ,056 ,503 1,000 a Total 56,654 15 Arcilla -,280 -1,686 ,116 -,424 1,000 b 2 Arcilla -,168 -,953 ,360 -,265 ,814 a. Variables predictoras: (Constante), Densidad a. Variables predictoras en el modelo: (Constante), Densidad b. Variables predictoras: (Constante), Densidad, Arena b. Variables predictoras en el modelo: (Constante), Densidad, Arena c. Variable dependiente: Índice de sitio c. Variable dependiente: Índice de sitio mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 66 / 84