Regresión lineal en spss para ciencias agrarias y forestales
1. Correlación y Regresión
Marcelo Rodríguez, MSc
Ingeniero Estadístico
Universidad Católica del Maule
Facultad de Ciencias Básicas
Diseño de Experimentos y Modelos de Regresión lineal: Aplicaciones en SPSS.
MÓDULO 5 y 6
26 de noviembre de 2010
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 1 / 84
2. Introducción
Comúnmente, cuando se realiza un estudio estadístico, se miden a una
misma unidad de análisis, más de una variable.
Denición (Variable Dependiente)
Es la variable por predecir (o por modelar) y se denota con la letra Y.
Denición (Variable Independiente)
Son las variables que se utilizan para predecir y se denota con la letra X.
Denición (Relación entre variables)
Se dice que dos variables están relacionadas, si cambios producidos (causa)
en la variable independiente producen un efecto en la variable dependiente.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 2 / 84
3. Relación entre las variables
Denición (Covarianza)
La covarianza entre dos variables cuantitativas, nos indica si la posible
relación entre dos variables es directa o inversa. La covarianza muestral se
calcula de la siguiente manera:
n
(xi − x)(yi − y)
i=1 Sxy
covxy = =
n−1 n−1
Si la covarianza es negativa, entonces la relación es inversa.
Si la covarianza es positiva, entonces la relación es directa.
Si la covarianza es cero, entonces la relación es nula (no relacionados).
El signo de la covarianza nos dice si el aspecto de la nube de puntos es
creciente o no, pero no nos dice nada sobre el grado de relación entre las
variables.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 3 / 84
4. Relación entre las variables
Ejemplo
Considere un estudio donde se mide el DAP (X ) en centímetros y la Altura
(Y ) en metros. Se considera una muestra de 10 árboles, los datos son:
DAP (xi ) Altura (yi ) (xi − x) (yi − y) (xi − x)(xi − x)
15,6 17,4 2,05 0,75 1,5375
14,8 18,4 1,25 1,75 2,1875
15,5 16,5 1,95 -0,15 -0,2925
12,5 15,2 -1,05 -1,45 1,5225
14,2 19,9 0,65 3,25 2,1125
15,7 22,1 2,15 5,45 11,7175
12,3 14,8 -1,25 -1,85 2,3125
14,2 17,3 0,65 0,65 0,4225
8,8 10,3 -4,75 -6,35 30,1625
11,9 14,6 -1,65 -2,05 3,3825
Promedio 13,55 16,65 Suma 55,065
55,065
La covarianza sería covxy = 9 = 6, 118. Lo que indica es que el DAC y
la altura están relacionados, de forma directa (a medida que aumenta el
DAP aumenta la altura).
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 4 / 84
5. Grado de relación entre las variables
Coeciente de correlación de Pearson
Denición (Correlación)
El coeciente de correlación de Pearson, indica la fuerza y la dirección de
una relación lineal entre dos variables aleatorias. Se considera que dos
variables cuantitativas están correlacionadas cuando los valores de una de
ellas varían sistemáticamente con respecto a los valores de la otra.
n
(xi − x)(yi − y)
i=1 Sxy
r= =
n n Sxx Syy
(xi − x)2 · (yi − y)2
i=1 i=1
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 5 / 84
6. Grado de relación entre las variables
Coeciente de correlación de Pearson
Indica si los puntos tienen una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales). Es útil para determinar si
hay relación lineal (y = β0 + β1 · x) entre dos variables.
Tiene el mismo signo que Covxy . La diferencia radica en que r está
acotado en [−1, 1].
Si está cercana a -1, indica que las variables están relacionadas en
forma inversa, si está cercana a +1, la relación es directa y si está
cercana a 0, las variables no están relacionadas.
Cuanto más cerca esté r de −1 o +1 mejor será el grado de relación
lineal. Siempre que no existan observaciones atípicas.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 6 / 84
7. Grado de relación entre las variables
Coeciente de correlación de Pearson
Ejemplo
Con los datos anteriores, calcule e interprete la correlación.
DAP (xi ) Altura (yi ) (xi − x)2 (yi − y)2
15,6 17,4 4,2025 0,5625
14,8 18,4 1,5625 3,0625
15,5 16,5 3,8025 0,0225
12,5 15,2 1,1025 2,1025
14,2 19,9 0,4225 10,5625
15,7 22,1 4,6225 29,7025
12,3 14,8 1,5625 3,4225
14,2 17,3 0,4225 0,4225
8,8 10,3 22,5625 40,3225
11,9 14,6 2,7225 4,2025
Promedio 13,55 16,65 Suma 42,985 94,385
55,065
La correlación sería r= √
42,985·94,385
= 0, 865. Lo que indica es que el
DAC y la altura están relacionados, de forma directa casi perfecta (r
cercana a 1).
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 7 / 84
8. Grado de relación entre las variables
Prueba de hipótesis para probar si la correlación es signicativa
Para probar la hipótesis de que la correlación es signicativamente distinta
(mayor o menor) que cero, se debe seguí el siguiente procedimiento.
Comúnmente cuando el valor−p es menor que 0,05 se dice que es
signicativa, si es menor que 0,01 es altamente signicativa.
√
r· n−2
Estadística de prueba: tc = √
1 − r2
Hip. Nula Hip. Alternativa Rechace H0 si Valor−p
H0 : ρ = 0 H1 : ρ = 0 |tc | t1−α/2 (n − 2) 2[1 − P(T |tc |)]
H0 : ρ = 0 H1 : ρ 0 tc t1−α (n − 2) 1 − P(T |tc |)
H0 : ρ = 0 H1 : ρ 0 tc −t1−α (n − 2) 1 − P(T |tc |)
T se distribuye t−student con n−2 grados de libertad.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 8 / 84
9. Grado de relación entre las variables
Prueba de hipótesis para probar si la correlación es signicativa
Ejemplo
Pruebe la hipótesis de que la correlación es signicativa.
Hipótesis: H0 : ρ = 0 H1 : ρ = 0
v/s
√
0, 865 · 8
Estadístico de prueba: tc = = 4, 865.
1 − 0, 8652
Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si
|tc | t0,975 (8) = 2, 306.
Signicancia:
valor−p = 2[1 − P(T |4, 865|)] ∼ 2[1 − 0, 99925] = 0, 0015
=
Conclusión: Como |tc | = 4, 865 2, 306 o equivalentemente
valor−p 0, 05. Entonces, existe suciente evidencia muestral para
armar que el DAP y la altura están signicativamente correlacionadas
(en rigor estricto es altamente signicativa, pues el valor−p 0, 01).
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 9 / 84
10. Grado de relación entre las variables
Prueba de hipótesis para probar si la correlación es signicativa en SPSS
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 10 / 84
11. Grado de relación entre las variables
Prueba de hipótesis para probar si la correlación es signicativa en SPSS
Correlaciones
DAP Altura
**
DAP Correlación de Pearson 1 ,865
Sig. (bilateral) ,001
N 10 10
**
Altura Correlación de Pearson ,865 1
Sig. (bilateral) ,001
N 10 10
**. La correlación es significativa al nivel 0,01
(bilateral).
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 11 / 84
12. Regresión Lineal Simple
Introducción
(Regresión Lineal Simple)
El término regresión fue introducido por Galton en su libro Natural
inheritance (1889) reriéndose a la ley de la regresión universal.
Se supone que se tiene una muestra (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
correspondiente a la observación conjunta de las variables X e Y .
El objetivo será encontrar una relación entre ambas variables, esta
relación podría estar dada por una recta (ecuación de regresión:
y = β0 + β0 · x).
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 12 / 84
13. Peso ninguno
Regresión Lineal Simple Segmentar archivo
Núm. de filas del archivo
de trabajo
ninguno
10
Diagrama deSintaxis
dispersión GRAPH
/SCATTERPLOT(BIVAR)=DAP
WITH Altura
/MISSING=LISTWISE.
En un diagrama Tiempo de procesador
Recursos de dispersión, cada unidad00:00:00,500
de análisis es un punto cuyas
coordenadas sonTiempo transcurrido de las variables. El error aleatorio;
los valores 00:00:00,530
son las
desviaciones de los verdaderos valores de Y con respecto a los valores
[Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseño Experimental
y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ( Correlac
estimados y y(recta). Lineal Simple)datoseje_corr.sav
ión Regresión
22
20
18
Altura
16
14
12
10 R2 Lineal = 0,747
8 10 12 14 16
DAP
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 13 / 84
14. Regresión Lineal Simple
La ecuación de regresión
La ecuación de predicción esperada está dada por
y = β0 + β1 · x.
Donde, las estimaciones de los parámetros β1 y β0 son:
Sxy
β1 = ; y β0 = y − β1 x
Sxx
Intercepto (β0 ): es la estimación de y cuando x = 0.
Pendiente (β1 ): es la estimación de la pendiente de la recta (magnitud
del incremento (o decremento) de y por cada unidad de incremento en
x.)
Además, se dene el coeciente de determinación r2 , como el porcentaje
de la variabilidad total que explica el modelo.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 14 / 84
15. Regresión Lineal Simple
La ecuación de regresión
Ejemplo
Considerando los datos del problema anterior, encuentre la ecuación de
regresión entre el DAP y la altura.
La ecuación de predicción esperada está dada por
y = β0 + β1 x,
Altura = β0 + β1 · DAP,
Donde, las estimaciones de los parámetros β1 y β0 son:
55, 065
β1 = = 1, 281; y β0 = 16, 65 − 1, 281 · 13, 55 = −0, 708.
42, 985
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 15 / 84
16. Regresión Lineal Simple
La ecuación de regresión
Ejemplo
Entonces, la ecuación sería:
Altura = −0, 708 + 1, 281 · DAP,
Pendiente: Por cada centímetro que se incrementa el DAP, la altura se
incrementa en 1,281 metros.
Intercepto: Un árbol con un DAP muy pequeño (0), se estima que su
Altura será de -0,708. En este caso no tiene sentido.
Esta recta, puede servir para predecir, suponga que tiene un árbol con un
DAP=8cm, entonces se estima que su altura sería de
Altura = −0, 708 + 1, 281 · 8 = 9, 54 metros.
Además el porcentaje de la variabilidad total que explica el modelo es de
74,7% (r
2 = 0, 8652 = 0, 747).
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 16 / 84
17. Regresión Lineal Simple
Prueba de hipótesis para la pendiente
Para probar la hipótesis de que la pendiente es signicativamente distinta
(mayor o menor) que cero, se debe seguí el siguiente procedimiento. Al ser
la pendiente distinta de cero, esto indicaría que las variables están
relacionadas.
√
β1 · Sxx
Estadística de prueba: tc =
se
Hip. Nula Hip. Alternativa Rechace H0 si Valor−p
H0 : β 1 = 0 H1 : β 1 = 0 |tc | t1−α/2 (n − 2) 2[1 − P(T |tc |)]
H0 : β 1 = 0 H1 : β 1 0 tc t1−α (n − 2) 1 − P(T |tc |)
H0 : β 1 = 0 H1 : β 1 0 tc −t1−α (n − 2) 1 − P(T |tc |)
T se distribuye t−student con n−2 grados de libertad. Además
n 2
i=1 (yi −yi ) Syy −β1 Sxy
s = n−2 = n−2 es la desviación estándar del error,
también llamado, error estándar (típico) de la estimación.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 17 / 84
18. Regresión Lineal Simple
Prueba de hipótesis para la pendiente
Ejemplo
Pruebe la hipótesis de que la pendiente es distinta de cero.
Hipótesis: H0 : β1 = 0 H1 : β 1 = 0
v/s
√
1, 281 · 42, 985
Estadístico de prueba: tc = = 4, 865.
1, 726
Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si
|tc | t0,975 (8) = 2, 306.
Signicancia:
valor−p = 2[1 − P(T |4, 865|)] ∼ 2[1 − 0, 99925] = 0, 0015
=
Conclusión: Como |tc | = 4, 865 2, 306 o equivalentemente
valor−p 0, 05. Entonces, existe suciente evidencia muestral para
armar que el DAP y la altura están signicativamente relacionadas.
(Esta prueba es equivalente a la prueba de hipótesis para la
correlación).
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 18 / 84
20. Regresión Lineal Simple
Regresión Lineal Simple en SPSS
[Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseño Ex
y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módulo 5
ión y Regresión Lineal Simple)datoseje_corr.sav
Resumen del modelo
Modelo R cuadrado Error típ. de la
R R cuadrado corregida estimación
a
1 ,865 ,747 ,716 1,726
a. Variables predictoras: (Constante), DAP
a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
B Error típ. Beta t Sig.
1 (Constante) -,708 3,610 -,196 ,849
DAP 1,281 ,263 ,865 4,865 ,001
a. Variable dependiente: Altura
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 20 / 84
21. Regresión
Estimación curvilínea: Modelo Exponencial
Un modelo de regresión se dice que es exponencial si
Resumen del modelo y estimaciones de los parámetros
y = β0 · exp[β1 · x]
Variable dependiente:Volumen
Ecuación Estimaciones de los parámetros
Por ejemplo, considere el problemaExponencial se mide el DAP=X y el
Constante b1
donde ,001 ,266
Volumen=Y. Los datos y la gráca son: La variable independiente esDAP.
Volumen
DAP=X Volumen=Y 0,200
16,9 ,117
8,9 ,025
0,150
17,7 ,131
2,1 ,001
11,5 ,037 0,100
19,9 ,198
6,2 ,012
0,050
17,1 ,127
14,7 ,089
0,000
18,6 ,167 0,0 5,0 10,0 15,0 20,0
DAP
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 21 / 84
22. Regresión
Estimación curvilínea: Modelo Exponencial
(Modelo exponencial)
El modelo exponencial, se puede solucionar mediante una regresión
lineal simple.
Aplicar el logaritmo natural a la ecuación
y = β0 · exp[β1 · x]
.
Tendríamos
w = ln[y] = ln[β0 ] + β1 · x
.
Encuentre la ecuación de regresión lineal simple entre X y W.
Luego se debe aplicar la exponencial a w para despejar y.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 22 / 84
23. Regresión
Estimación curvilínea: Modelo Exponencial
Ejemplo
Para los datos de DAP= X y Volumen= Y, encuentre la ecuación de
regresión y = β0 · exp[β1 · x]. Considere lo siguiente:
DAP=X Volumen=Y W = ln[Y ] La ecuación de regresión entre X y W es
16,9
8,9
0,117
0,025
-2,1456
-3,6889
w = −6, 588 + 0, 266x.
17,7 0,131 -2,0326
Además el
2
rxw = 0, 934.
2,1 0,001 -6,9078
11,5 0,037 -3,2968
Aplicando la exponencial y considerando
19,9 0,198 -1,6195
6,2 0,012 -4,4228 que w = ln[y], tenemos
17,1 0,127 -2,0636
14,7 0,089 -2,4191 y = exp[−6, 588] exp[0, 266x]
18,6 0,167 -1,7898
y = 0, 001 exp[0, 266x].
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 23 / 84
24. Regresión
Estimación curvilínea: Modelo Exponencial
Ejemplo
También podemos encontrar la ecuación de regresión lineal simple
entre X e Y. La cual sería, y = −0, 055 + 0, 011x, con
2
rxy = 0, 890.
El modelo exponencial es
2
y = 0, 001 exp[0, 266x], con rxw = 0, 934.
En los datos existe un árbol con DAP= 14, 7 y Volumen= 0, 089. Si
utilizamos estos dos modelos para predecir el volumen de un árbol con
DAP=14,7, tenemos
Con el modelo de regresión lineal simple:
y = −0, 055 + 0, 011 · 14, 7 = 0, 105.
Con el modelo exponencial:
y = 0, 001 exp[0, 266 · 14, 7] = 0, 068.
Ambas estimaciones del volumen están cercanas a 0, 089, pero la del
modelo exponencial (0,068), está más cercana. Además, el r2 del
modelo exponencial está más cercano al 100%.
En conclusión, entre estos dos modelos el mejor es el exponencial.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 24 / 84
26. Regresión
Estimación curvilínea: Modelo Exponencial en SPSS
Resumen del modelo y estimaciones de los parámetros
Variable dependiente:Volumen
Ecuación Resumen del modelo Estimaciones de los parámetros
R cuadrado F gl1 gl2 Sig. Constante b1
Lineal ,890 64,951 1 8 ,000 -,055 ,011
Exponencial ,934 112,799 1 8 ,000 ,001 ,266
La variable independiente esDAP.
Volumen
Observado
0,200
Lineal
Exponencial
0,150
0,100
0,050
0,000
0,0 5,0 10,0 15,0 20,0
DAP
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 26 / 84
27. Regresión
Estimación curvilínea: Algunos modelos clásicos
Modelo Ecuación Comentario
Lineal y = β0 + β1 · x Este modelo ya se analizó con todo detalle.
Logarítmico y = β0 + β1 · ln[x] Calcule T = ln[X], encuentre la ecuación de regresión lineal entre T e Y.
Luego, en la ecuación y = β0 + β1 · t, reemplace t por ln[x].
1 1
Inverso y = β0 + β1 · Calcule T =
X , encuentre la ecuación de regresión lineal entre T e Y.
x
1
Luego, en la ecuación y = β0 + β1 · t, reemplace t por .
x
Cuadrático y = β0 + β1 · x + β2 · x2 2
Calcule X y realice una regresión múltiple.
Cúbico y = β0 + β1 · x + β2 · x2 + β3 · x3 Calcule X 2 , X 3 y realice una regresión múltiple.
Potencia Calcule T = ln[X], W = ln[Y ]. Encuentre la ecuación de regresión entre
y = β0 · xβ1 T y W . En la ecuación w = b + m · t, reemplace t = ln[x] y w = ln[y].
Luego despeje y. Entonces, los parámetros serían β0 = exp[b] y β1 = m.
Compuesto Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W .
x
y = β0 · β1 En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despeje y.
Entonces, los parámetros serían β0 = exp[b] y β1 = exp[m].
1
Calcule T =
G
X , W = ln[Y ]. Encuentre la ecuación de regresión entre
1 1
y = exp β0 + β1 · T y W. En la ecuación w = b + m · t, reemplace t= x y w = ln[y].
x
Luego despeje y. Entonces, los parámetros serían β0 = b y β1 = m.
1 ◦ máx. de iteraciones, usar 1000.
Logística y= x Solución por sistemas no lineales. Ingresar n
(β0 + β1 · β2 )
Crecimiento CalculeW = ln[Y ]. Encuentre la ecuación de regresión entre X y W.
y = exp[β0 + β1 · x] En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despeje y.
Entonces, los parámetros serían β0 = b y β1 = m.
Exponencial y = β0 · exp[β1 · x] Este modelo ya se analizó con todo detalle.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 27 / 84
28. Regresión
Estimación curvilínea: Algunos modelos clásicos en SPSS
Encontraremos todos los
modelos de regresión que
propone SPSS.
Un modelo es bueno si el
valor−p 0, 05.
El mejor modelo es el que tiene
el menor valor−p, mayor r2 ,
mayor F y menor número de
parámetros.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 28 / 84
32. Regresión Lineal Múltiple
Introducción
Técnica de dependencia que puede
utilizarse para analizar la relación entre
una única variable dependiente (Y ) y
varias variables independientes x1 , x 2 ,
28,0
. . . , xk .
Cada variable independiente es
Índice de sitio
26,0
24,0
ponderada (βj ), de forma que las
ponderaciones indican su contribución
22,0
relativa a la predicción conjunta.
20,0
18,0
30
,0 El objetivo es usar las variables
,0
1,20 35
1,25
1,30 40
,0 independientes cuyos valores son
1,35 a
,40 1 45
,0
en
Den
sida 1,45
1,50 ,0 Ar conocidos para predecir la única
d 50
variable dependiente seleccionada por
el investigador.
ON
mrodriguez@ucm.cl (UCM)
NG LISTWISE Marcelo Rodríguez G. 22/10/2010 32 / 84
33. Regresión Lineal Múltiple
El modelo lineal general
El modelo de regresión lineal sería
yi = β0 + β1 · xi1 + β2 · xi2 , . . . , βk · xik + εi .
Donde
y1 1 x11 x12 . . . x1n β0 ε1
y2 1 x21 x22 . . . x2k β1 ε2
Y = . , X= . , β = . , ε = . ,
. . .
.
. .
.
.
.
.
.
.
. .
. .
.
yn 1 xn1 xn2 . . . xnk βk εn
βj , son los parámetros desconocidos, j = 1, . . . , k. El n
◦ total de
parámetros es p = k + 1.
εi es el i−ésimo error aleatorio asociado con yi , i = 1, . . . , n.
El objetivo es estimar βj , a esta estimación la llamaremos βj .
La estimación se los parámetros sería β= (XT X)−1 XT Y. Entonces
el modelo estimado sería yi = β0 + β1 · xi1 + β2 · xi2 , . . . , βk · xik .
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 33 / 84
34. Regresión Lineal Múltiple
Ejemplo de estimación de los parámetros.
Ejemplo
Se desea conocer la tasa de crecimiento de un cultivo bajo diferentes
condiciones de sitio y manejo. En el caso del Eucaliptus Globulus es
prácticamente desconocida, es por ello que se toman muestras de suelo de
cada rodal, midiendo el y = índice de sitio (altura promedio alcanzada
por árboles dominantes a una edad determinada), x1 = % de arena, x2 =
% de arcilla y la x3 = densidad aparente (gr/cc).
Índice de sitio (y ) 25,4 24,0 22,9 25,3 21,4 24,5 22,1 19,6 26,9 24,0 20,3 23,6 23,4 24,0 23,1 21,2
% Arena (x1 ) 40,5 45,8 47,6 47,2 40,4 38,9 45,3 32,7 41,5 42,9 40,2 46,1 45,0 48,9 41,3 46,2
% Arcilla (x2 ) 34,3 37,5 27,4 32,9 33,8 38,7 28,4 34,0 30,1 34,4 46,9 35,4 34,3 25,7 32,3 32,5
Densidad (x3 ) 1,29 1,32 1,40 1,30 1,41 1,25 1,38 1,50 1,20 1,34 1,38 1,49 1,47 1,36 1,42 1,48
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 34 / 84
35. Regresión Lineal Múltiple
Ejemplo de estimación de los parámetros.
Se propone el siguiente modelo
y = β0 + β1 · x1 + β2 · x2 + β3 · x3 + ε.
Se desea estimar los parámetros del modelo (βj ). Por ejemplo, si la
estimación del parámetro β2 es muy cercano a 0, quiere decir que el %
de arcilla (x2 ) no inuye en la predicción del índice de sitio (y ).
Los parámetros estimados serían:
β0 = 43, 037, β1 = 0, 121, β2 = −0, 066, y β3 = −16, 604.
Entonces el modelo estimado sería
y = 43, 037 + 0, 121 · x1 − 0, 066 · x2 − 16, 604 · x3 .
Índice de sitio = 43, 037+0, 121·Arena−0, 066·Arcilla−16, 604·Densidad.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 35 / 84
36. Regresión Lineal Múltiple
Prueba de hipótesis para los parámetros.
(Prueba de hipótesis para los parámetros del modelo)
Hipótesis:
H0 : β 0 = β 1 = · · · = β k = 0 v/s H1 : βj = 0, para algún j.
Estadístico de prueba:
Modelo Suma de Grados de Media Fc
cuadrados libertad cuadrática
n
SCReg MCReg
Regresión (yi − y)2 p−1
(p − 1) MCRes
i=1
n
SCRes
Residual (yi − yi )2 n−p
(n − p)
i=1
n
2
Total (yi − y) n−1
i=1
Región de rechazo: Rechace H0 si Fc F1−α (p − 1, n − p).
Signicancia: Valor-p = 1 − P(F Fc ). Donde F se distribuye
Fisher con p−1 y n−p grados de libertad.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 36 / 84
37. Regresión Lineal Múltiple
Ejemplo de estimación de los parámetros.
Para vericar si las variables independientes (xj ) tienen un aporte
signicativo en la predicción del Índice de sitio (y ), debe probar:
H0 : β0 = β1 = β2 = β3 = 0 v/s H1 : βj = 0, para algún j.
Obser. y y (yi − y)2 (yi − y)2 (yi − yi )2 Modelo Suma de Grados de Media Fc
1 25,4 24,268 4,703 1,075 1,282
cuadrados libertad cuadrática
2 24,0 24,202 0,591 0,942 0,041
Regresión 39,481 3 13,160 9,196
3 22,9 23,758 0,110 0,278 0,736
Residual 17,173 12 1,431
4 25,3 25,007 4,280 3,154 0,086
Total 56,654 15
5 21,4 22,296 3,353 0,874 0,803
6 24,5 24,448 1,610 1,480 0,003
7 22,1 23,745 1,280 0,264 2,707 Siα = 0, 05. Rechace H0 si
8 19,6 19,854 13,186 11,402 0,065
9 26,9 26,161 13,460 8,582 0,546 Fc F0,95 (3, 12) = 3, 49.
10 24,0 23,722 0,591 0,241 0,077
11 20,3 21,906 8,592 1,757 2,578 El valor−p = 0, 002.
12 23,6 21,554 0,136 2,814 4,187
39,481
13 23,4 21,825 0,028 1,977 2,480 R2 = 56,654 = 0, 697.
14 24,0 24,692 0,591 2,134 0,479
15 23,1 22,338 0,017 0,797 0,580 Entonces, se rechaza H0 , en
16 21,2 21,923 4,126 1,710 0,523
Suma 371,700 371,700 56,654 39,481 17,173 favor de H1 .
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 37 / 84
38. Regresión Lineal Múltiple
Bondad de ajuste
(Coeciente de Determinación (R2 ))
Expresa la proporción de varianza de la variable dependiente que está
explicada por las variables independientes.
SCReg
R2 = .
SCT
R2 corregida es una corrección a la baja de R2 que se basa en el número
de casos y de variables independientes:
k(1 − R2 )
Rcorrejida = R2 −
2
.
(n − k + 1)
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 38 / 84
39. Regresión Lineal Múltiple
Bondad de ajuste
(Coeciente de correlación múltiple (R))
Es la raíz de R2 . Si tenemos dos variables el Coeciente de correlación
múltiple es el valor absoluto del coeciente de correlación de Pearson, es
decir, R = |r|.
(Error (residuo) estándar de la estimación)
Es la desviación media que existe entre la variable dependiente y y su
estimación y (el residuo es εi = yi − yi ).
n
(yi − yi )2
i=1
√
sε = = MCRes.
n−p
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 39 / 84
40. Regresión Lineal Múltiple
Prueba de hipótesis para cada uno de los parámetros
Hipótesis: H0 : βj = 0 v/s H1 : βj = 0, para j = 0, 1, . . . , k.
βj
Estadística de prueba: tc =
s(βj )
Hip. Nula Hip. Altern. Rechace H0 si Valor−p
H0 : βj = 0 H1 : β j = 0 |tc | t1−α/2 (n − p) 2[1 − P(T |tc |)]
H0 : βj = 0 H1 : β j 0 tc t1−α (n − p) 1 − P(T |tc |)
H0 : βj = 0 H1 : β j 0 tc −t1−α (n − p) 1 − P(T |tc |)
T se distribuye t−student con n − p grados de libertad. Además
√
s(βj ) = cj+1 · sε , donde cj+1 es el elemento (j + 1) de la diagonal de
(XT X)−1 .
Un intervalo de conanza del 100(1 − α)% para el parámetro βj es
βj ± t1−α/2 (n − p) · s(βj )
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 40 / 84
41. Regresión Lineal Múltiple
Parámetros estandarizados (coecientes tipicados)
1 Los coecientes tipicados, se obtienen de la ecuación de regresión
tras estandarizar las variables originales. Es decir, debe a cada variable
restarle su promedio y dividirlo por su desviación estándar, y luego
encontrar los parámetros de la ecuación de regresión con esas nuevas
variables.
2 Permiten valorar la importancia relativa de cada variable independiente
dentro de la ecuación. En general, una variable independiente tiene
tanto más peso (importancia) en la ecuación de regresión cuanto
mayor (en valor absoluto) es su coeciente de regresión estandarizado.
3 Indican la cantidad de cambio, en puntuaciones estándar, que se
producirá en la variable dependiente por cada cambio de una unidad
en la correspondiente variable independiente (manteniendo constantes
el resto de variables independientes).
4 En regresión simple, el coeciente estandarizado, coincide con el
coeciente de correlación de Pearson.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 41 / 84
43. Regresión Lineal Múltiple
Regresión Lineal Múltiple en SPSS Variables introducidas/eliminadas
b
Modelo Variables Variables
introducidas eliminadas Método
1 Densidad, . Introducir
Arena,
a
Arcilla
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Índice de sitio
b
Resumen del modelo
Modelo R cuadrado Error típ. de la
R R cuadrado corregida estimación
a
1 ,835 ,697 ,621 1,1963
a. Variables predictoras: (Constante), Densidad, Arena, Arcilla
b. Variable dependiente: Índice de sitio
b
ANOVA
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
a
1 Regresión 39,481 3 13,160 9,196 ,002
Residual 17,173 12 1,431
Total 56,654 15
a. Variables predictoras: (Constante), Densidad, Arena, Arcilla
b. Variable dependiente: Índice de sitio
a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
B Error típ. Beta t Sig.
1 (Constante) 43,037 7,036 6,117 ,000
Arena ,121 ,082 ,259 1,473 ,167
Arcilla -,066 ,069 -,168 -,953 ,360
Densidad -16,604 3,507 -,753 -4,734 ,000
a. Variable dependiente: Índice de sitio
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 43 / 84
44. Regresión Lineal Múltiple
Regresión Lineal Múltiple en SPSS
No existe suciente evidencia muestral, para armar que el % de arena
(t= 1, 473, valor−p = 0, 167) o el % de arcilla (t = −0, 953,
valor−p = 0, 360), inuyen en la estimación del índice de sitio.
La muestra proporciona evidencia para armar que la densidad incide
en la estimación del índice de sitio (t = −4, 734, valor−p = 0, 000).
La relación entre la densidad y el índice de sitios es inversa (signo del
estadístico de prueba).
Según los coecientes estadarizados, la variable independiente más
importante en la predicción del índice de sitios, es la densidad, luego el
porcentaje de arena y por último el porcentaje de arcilla.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 44 / 84
45. Regresión Lineal Múltiple
Correlaciones parciales y semiparciales
(Correlaciones parciales)
Es la correlación lineal entre dos variables mientras se mantienen constantes
otras variables. En el contexto del análisis de regresión, los coecientes de
correlación parcial expresan el grado de relación existente entre cada
variable independiente y la variable dependiente tras eliminar de ambas el
efecto debido al resto de variables independientes incluidas en la ecuación.
El coeciente de correlación parcial de primer orden, anotado aquí rAB/C ,
permite conocer el valor de la correlación entre dos variables A y B , si la
variable C había permanecido constante para la serie de observaciones
consideradas.
rAB − rAC · rBC
rAB/C = .
2
1 − rAC · 2
1 − rBC
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 45 / 84
46. Regresión Lineal Múltiple
Puntos de inuencia
La distancia de Cook (1977) mide el cambio que se produce en las
estimaciones de los coecientes de regresión al ir eliminando cada caso de
la ecuación de regresión. Una distancia de Cook grande indica que ese caso
tiene un peso considerable en la estimación de los coecientes de regresión.
Para evaluar estas distancias puede utilizarse la distribución F con p y
n−p grados de libertad. En general, un caso con una distancia de Cook
superior a 1 debe ser revisado.
n
2
yj − yj(i)
j=1
Di = .
p · MCRes
Donde yj(i) , es una estimación sin considerar el dato i−ésimo.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 46 / 84
47. Regresión Lineal Múltiple
Distancia de Cook en SPSS
En la base de datos, quedarán
guardas las distancias, luego se debe
hacer un gráco de dispersión en-
tre las observaciones y las distancias.
1,25000
1,00000
Cook's Distance
0,75000
0,50000
0,25000
0,00000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Observación
SAVE OUTFILE='D:Archivos de MarceloProyectos 2010Diseño Experimental y Mo
los de Regresión '+
'Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ( Correlación y Regresión L
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G.
eal '+
22/10/2010 47 / 84
48. Regresión Lineal Múltiple
Supuestos del Modelo
(Supuestos del Modelo de Regresión)
Los supuestos de un modelo estadístico se reeren a una serie de
condiciones que deben darse para garantizar la validez del modelo.
Linealidad: La variable dependiente es la suma de un conjunto de
elementos: el origen de la recta, una combinación lineal de variables
independientes y los residuos.
Independencia: Los residuos son independientes entre sí.
Homocedasticidad: Para cada valor de la variable independiente, la
varianza de los residuos es constante.
Normalidad: Para cada valor de la variable independiente, los
residuos se distribuyen normalmente con media cero.
No-colinealidad: No existe relación lineal exacta entre ninguna de las
variables independientes.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 48 / 84
49. Regresión Lineal Múltiple
Supuestos del Modelo: Linealidad
Los diagramas de regresión parcial
permiten examinar la relación exis-
tente entre la variable dependiente y
cada una de las variables independi-
entes por separado, tras eliminar de
ellas el efecto del resto de las vari-
ables independientes incluidas en el
análisis. Estos diagramas son sim-
ilares a los de dispersión ya estu-
diados, pero no están basados en
las puntuaciones originales de las
dos variables representadas, sino en
los residuos obtenidos al efectuar un
análisis de regresión con el resto de
las variables independientes.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 49 / 84
50. Regresión Lineal Múltiple
Supuestos del Modelo: Linealidad
La relación entre densidad e índice
Por ejemplo, en el diagrama de regre-
de sitio tras eliminar el efecto
sión parcial de índice de sitio y densi-
del resto de variables independi-
dad están representados los residuos
entes, es claramente lineal e inversa.
que resultan de efectuar un análisis Gráfico de regresión parcial
de regresión sobre índice de sitio in- Variable dependiente: Índice de sitio
4,0
cluyendo todas las variables indepen-
dientes excepto densidad
2,0
(y = β0 + β1 x1 + β2 x2 ), y los
Índice de sitio
residuos que resultan de efectuar un
0,0
análisis de regresión sobre densidad
incluyendo el resto de variables in-
-2,0
dependientes (x3 = β 3 + β 4 x1 +
β5 x2 ). Se tendrán tantos grácos -0,20 -0,10 0,00 0,10 0,20
Densidad
como variables independientes.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 50 / 84
51. Regresión Lineal Múltiple
Supuestos del Modelo: Independencia
Para vericar el supuesto de independencia entre los residuos εi = y i − y i
use el estadístico de Durbin-Watson (DW ), el cual está dado por:
n
(εi − εi−1 )2
i=1
DW = n .
ε2
i
i=1
El estadístico DW toma el valor 2 cuando los residuos son
independientes, valores menores que 2 indican autocorrelación positiva
y los mayores que 2 autocorrelación negativa.
Podemos asumir independencia entre los residuos cuando DW toma
valores entre 1,5 y 2,5.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 51 / 84
52. Regresión Lineal Múltiple
Supuestos del Modelo: Linealidad
Como el estadístico de DW está
b
Variables introducidas/eliminadas
entre 1,5 y 2,5. No podemos
Modelo Variables Variables
introducidas eliminadas Método
rechazar la
1 Densidad, . hipótesis de
Introducir que los
Arena,
residuos son independientes, es
a
Arcilla
a. Todas las variables solicitadas introducidas.
decir no están de sitio
b. Variable dependiente: Índice auto correlacionados.
b
Resumen del modelo
Modelo R cuadrado Error típ. de la Durbin-
R R cuadrado corregida estimación Watson
a
1 ,835 ,697 ,621 1,1963 2,238
a. Variables predictoras: (Constante), Densidad, Arena, Arcilla
b. Variable dependiente: Índice de sitio
b
Entonces se estaría cumpliendo es
ANOVA
Modelo Suma de Media
supuesto de independencia.
gl cuadráticacuadrados F Sig.
a
1 Regresión 39,481 3 13,160 9,196 ,002
Residual 17,173 12 1,431
Total 56,654 15
a. Variables predictoras: (Constante), Densidad, Arena, Arcilla
b. Variable dependiente: Índice de sitio
a
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010
Coeficientes 52 / 84
53. Regresión Lineal Múltiple
Supuestos del Modelo: Normalidad
Los residuos (o los residuos tipi-
cados) deben cumplir el supuesto
de normalidad. El recuadro Grá-
cos de los residuos tipicados (es-
tandarizados) contiene dos opciones
grácas que informan sobre el grado
en el que los residuos tipicados se
aproximan a una distribución normal:
El histograma (debe ser simétrico)
y el gráco de probabilidad nor-
mal (deben estar los puntos sobre
la recta). También con los residuos
se puede realizar una prueba de nor-
malidad como Kolmogorov-Smirnov
(n 50) o Shapiro-Wilk (n ≤ 50).
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 53 / 84
54. Regresión Lineal Múltiple
Supuestos del Modelo: Normalidad
Estos grácos indicaría, por lo menos en forma visual, que los residuos,
tienden
Gráficos a distribuirse como la normal.
Histograma Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Índice de sitio Variable dependiente: Índice de sitio
1,0
Media = -2,08E-16
4 Desviación típica = 0,894
N = 16
0,8
Prob acum esperada
3
0,6
Frecuencia
2
0,4
1
0,2
0,0
0
0,0 0,2 0,4 0,6 0,8 1,0
-2 -1 0 1 2
Regresión Residuo tipificado Prob acum observada
Esta armación no es concluyente, por lo tanto se realizará una prueba de
hipótesis.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 54 / 84
57. Regresión Lineal Múltiple
Supuestos del Modelo: Normalidad
No existe suciente evidencia muestral para rechazar que los residuos se
encuentra distribuidos como la normal (SW = 0, 972, valor−p = 0, 871).
3,00000
2,00000
1,00000
0,00000
-1,00000
-2,00000
Unstandardized Residual
EXAMINE VARIABLES=RES_1
/PLOT BOXPLOT NPPLOT
/COMPARE GROUPS
PD: Si el n 50, se puede utilizar KS, en este caso ambos estadísticos,
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
nos indican que se cumple el supuesto de normalidad.
/NOTOTAL.
mrodriguez@ucm.cl (UCM) Explorar
Marcelo Rodríguez G. 22/10/2010 57 / 84
58. Regresión Lineal Múltiple
Supuestos del Modelo: Homocedasticidad
Comúnmente este supuesto se verica mediante una gráca. Se deben
gracar los valores pronosticados (ZPRED) con los valores residuales
(ZRESI). Si no se detectan tendencias, entonces se cumple el supuestos de
homocedasticidad.
Gráficos
Gráfico de dispersión
Variable dependiente: Índice de sitio
2
Regresión Residuo tipificado
1
0
-1
-2
-3 -2 -1 0 1 2
Regresión Valor pronosticado tipificado
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 58 / 84
59. Regresión Lineal Múltiple
Supuestos del Modelo: No-colinealidad
Existe colinealidad perfecta cuando una de las variables independientes
se relaciona de forma perfectamente lineal con una o más del resto de
variables independientes de la ecuación.
Hablamos de colinealidad parcial o, simplemente, colinealidad, cuando
entre las variables independientes de una ecuación existen
correlaciones altas.
En términos generales, cuantas más variables hay en una ecuación,
más fácil es que exista colinealidad (aunque, en principio, bastan dos
variables).
Es un problema porque, en el caso de colinealidad perfecta, no es
posible estimar los coecientes de la ecuación de regresión; y en el
caso de colinealidad parcial, aumenta el tamaño de los residuos
típicados y esto produce coecientes de regresión muy inestables:
pequeños cambios en los datos (añadir o quitar un caso, por ejemplo)
produce cambios muy grandes en los coecientes de regresión.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 59 / 84
60. Regresión Lineal Múltiple
Supuestos del Modelo: No-colinealidad
El nivel de tolerancia de una variable se obtiene restando a 1 el
2
coeciente de determinación (R ) que resulta al regresar esa variable
sobre el resto de variables independientes. Valores de tolerancia muy
pequeños indican que esa variable puede ser explicada por una
combinación lineal del resto de variables, lo cual signica que existe
colinealidad.
Los factores de inación de la varianza (FIV) son los inversos de los
niveles de tolerancia. Cuanto mayor es el FIV de una variable, mayor
es la varianza del correspondiente coeciente de regresión. De ahí que
uno de los problemas de la presencia de colinealidad (tolerancias
pequeñas, FIVs grandes) sea la inestabilidad de las estimaciones de los
coecientes de regresión.
Como regla se puede utilizar: Las variables independientes son
colineales si FIV 10. Las variables que tienen FIV alto y parecidos
están altamente correlacionadas.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 60 / 84
61. a
Coeficientes
Regresión Lineal Múltiple Modelo
Coeficientes no estandarizados
Coefi
tipifi
Supuestos del Modelo: No-colinealidad B Error típ. B
1 (Constante) 43,037 7,036
Arena ,121 ,082
Como Arcilla
los FVI's -,066
son menores
,069
Densidad -16,604 3,507
que 10, entonces se cumple
a. Variable dependiente: Índice de sitio
el supuesto de no-colinealidad.
a
Coeficientes
Modelo Estadísticos de colinealidad
Tolerancia FIV
1 (Constante)
Arena ,814 1,229
Arcilla ,814 1,229
Densidad 1,000 1,000
a. Variable dependiente: Índice de sitio
Diagnósticos de colinealid
Modelo Dimensión
Si se detecta la presencia de colinealidad hay que i) aumentar el tamaño de
Índice de
Autovalores condición (Const
la muestra; ii) crear indicadores múltiples 1combinando variables; iii) excluir
1 3,973 1,000
variables redundantes, quedándonos con las que consideremos más 13,781
2 ,021
3 ,005 28,401
importantes.
4 ,001 55,226
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 61 / 84
62. Regresión Lineal Múltiple
Regresión por pasos: Qué variables debe incluir la ecuación de regresión
La regresión por pasos (stepwise) es una método para seleccionar las
variables independientes que debe incluir un modelo de regresión. Se
seleccionan de acuerdo al siguiente criterio estadístico.
Criterio de entrada: El valor−p 0, 05 y se debe seleccionar las variables
con menor valor−p en la ANOVA.
Método Hacia adelante:
Las variables se incorporan al modelo de regresión una a una.
En el primer paso se selecciona la variable independiente que, además
de superar los criterios de entrada, tiene la más alta correlación.
En los siguientes pasos se utiliza como criterio de selección el
coeciente de correlación parcial: van siendo seleccionadas una a una
las variables que, además de superar los criterios de entrada, poseen el
coeciente de correlación parcial más alto en valor absoluto.
La selección de variables se detiene cuando no quedan variables que
superen el criterio de entrada.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 62 / 84
63. Regresión Lineal Múltiple
Regresión por pasos: Qué variables debe incluir la ecuación de regresión
En el ejemplo anterior, se realizarán todas las regresiones posible,
identicando, las variables independientes, el R2 , estadístico de prueba F, y
el valor−p. El mejor modelo es el que tiene, menos variables, mayor R2 ,
mayor F y menor valor−p.
Variables R2 F valor−p
x1 0,112 1,773 0,20427
x2 0,711 1,072 0,31799
x3 0,564 18,096 0,00080
x1 , x2 0,131 0,978 0,40227
x1 , x3 0,674 13,436 0,00069
x2 , x3 0,642 11,662 0,00126
x1 , x2 , x3 0,697 9,196 0,00196
El mejor modelo sería y = β0 + β3 · x3 .
Aunque y = β0 + β1 · x1 + β3 · x3 , también es un muy buen modelo.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 63 / 84
64. Tiempo transcurrido 00:00:00,031
Regresión Lineal Múltiple
Memoria necesaria 1972 bytes
Memoria adicional 0 bytes
requerida para los
diagramas de residuos
Regresión por pasos: Qué variables debe incluir[Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseñ
la ecuación de regresión
y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módul
ión y Regresión Lineal Simple)datoseje_reg_mult_indice de siti
a
Variables introducidas/eliminadas
Modelo Variables Variables
introducidas eliminadas Método
1 Densidad . Hacia
adelante
(criterio: Prob.
Por defecto SPSS de F para
elige
entrar = , como el
050)
mejor modelo
a. Variable dependiente: Índice de sitio
y = β0 + β3 · x3 .
Resumen del modelo
Modelo R cuadrado Error típ. de la
R R cuadrado corregida estimación
a
1 ,751 ,564 ,533 1,3286
a. Variables predictoras: (Constante), Densidad
b
ANOVA
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
a
1 Regresión 31,942 1 31,942 18,096 ,001
Residual 24,712 14 1,765
Total 56,654 15
a. Variables predictoras: (Constante), Densidad
b. Variable dependiente: Índice de sitio
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 64 / 84
65. Regresión Lineal Múltiple
Regresión por pasos: Qué variables debe incluir la ecuación de regresión
Para que coincida con los cálculos efectuados antes, debemos ser menos
restrictivos con el valor−p. Fíjese que la arena es signicativa para valores
superiores a 0,056. Utilizaremos el valor de 0,06.
a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
B Error típ. Beta t Sig.
1 (Constante) 45,999 5,362 8,578 ,000
Densidad -16,566 3,894 -,751 -4,254 ,001
a. Variable dependiente: Índice de sitio
b
Variables excluidas
Modelo Estadísticos
de
colinealidad
Correlación
Beta dentro t Sig. parcial Tolerancia
a
1 Arena ,332 2,096 ,056 ,503 1,000
a
Arcilla -,280 -1,686 ,116 -,424 1,000
a. Variables predictoras en el modelo: (Constante), Densidad
b. Variable dependiente: Índice de sitio
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.06) POUT(.10)
/NOORIGIN
/DEPENDENT IS
/METHOD=FORWARD Densidad Arena Arcilla.
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 65 / 84
66. a
Regresión Lineal Múltiple
Variables introducidas/eliminadas
Modelo Variables Variables
introducidas eliminadas Método
1 Densidad . Hacia
Regresión por pasos: Qué variables debe incluir la ecuación de regresión
adelante
(criterio: Prob.
de F para
entrar = ,
060)
2 Arena . Hacia
adelante
(criterio: Prob.
Los resultados considerando la nueva conguración, sería de F para
entrar = ,
060)
a. Variable dependiente: Índice de sitio
a
Coeficientes
Resumen del modelo
Modelo Coeficientes
Modelo R cuadrado Error típ. de la Coeficientes no estandarizados tipificados
R R cuadrado corregida estimación
a B Error típ. Beta t Sig.
1 ,751 ,564 ,533 1,3286
1 (Constante) 45,999 5,362 8,578 ,000
b
2 ,821 ,674 ,624 1,1920
Densidad -16,566 3,894 -,751 -4,254 ,001
a. Variables predictoras: (Constante), Densidad 2 (Constante) 39,256 5,788 6,782 ,000
b. Variables predictoras: (Constante), Densidad, Arena Densidad -16,533 3,494 -,749 -4,732 ,000
c Arena ,155 ,074 ,332 2,096 ,056
ANOVA
a. Variable dependiente: Índice de sitio
Modelo Suma de Media
cuadrados gl cuadrática F Sig. Variables excluidas
c
a
1 Regresión 31,942 1 31,942 18,096 ,001
Modelo Estadísticos
Residual 24,712 14 1,765 de
colinealidad
Total 56,654 15
Correlación
b
2 Regresión 38,182 2 19,091 13,436 ,001 Beta dentro t Sig. parcial Tolerancia
a
Residual 18,472 13 1,421 1 Arena ,332 2,096 ,056 ,503 1,000
a
Total 56,654 15 Arcilla -,280 -1,686 ,116 -,424 1,000
b
2 Arcilla -,168 -,953 ,360 -,265 ,814
a. Variables predictoras: (Constante), Densidad
a. Variables predictoras en el modelo: (Constante), Densidad
b. Variables predictoras: (Constante), Densidad, Arena
b. Variables predictoras en el modelo: (Constante), Densidad, Arena
c. Variable dependiente: Índice de sitio
c. Variable dependiente: Índice de sitio
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 66 / 84