Regresión lineal en spss para ciencias agrarias y forestales

Correlación y Regresión

Marcelo Rodríguez, MSc
Ingeniero Estadístico

Universidad Católica del Maule
Facultad de Ciencias Básicas
Diseño de Experimentos y Modelos de Regresión lineal: Aplicaciones en SPSS.
MÓDULO 5 y 6

26 de noviembre de 2010

mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010 1 / 84

Introducción

Comúnmente, cuando se realiza un estudio estadístico, se miden a una
misma unidad de análisis, más de una variable.
Denición (Variable Dependiente)
Es la variable por predecir (o por modelar) y se denota con la letra Y.

Denición (Variable Independiente)
Son las variables que se utilizan para predecir y se denota con la letra X.

Denición (Relación entre variables)
Se dice que dos variables están relacionadas, si cambios producidos (causa)
en la variable independiente producen un efecto en la variable dependiente.


Relación entre las variables
Denición (Covarianza)
La covarianza entre dos variables cuantitativas, nos indica si la posible
relación entre dos variables es directa o inversa. La covarianza muestral se
calcula de la siguiente manera:

n
(xi − x)(yi − y)
i=1 Sxy
covxy = =
n−1 n−1

Si la covarianza es negativa, entonces la relación es inversa.

Si la covarianza es positiva, entonces la relación es directa.

Si la covarianza es cero, entonces la relación es nula (no relacionados).

El signo de la covarianza nos dice si el aspecto de la nube de puntos es
creciente o no, pero no nos dice nada sobre el grado de relación entre las
variables.


Relación entre las variables
Ejemplo
Considere un estudio donde se mide el DAP (X ) en centímetros y la Altura
(Y ) en metros. Se considera una muestra de 10 árboles, los datos son:

DAP (xi ) Altura (yi ) (xi − x) (yi − y) (xi − x)(xi − x)
15,6 17,4 2,05 0,75 1,5375
14,8 18,4 1,25 1,75 2,1875
15,5 16,5 1,95 -0,15 -0,2925
12,5 15,2 -1,05 -1,45 1,5225
14,2 19,9 0,65 3,25 2,1125
15,7 22,1 2,15 5,45 11,7175
12,3 14,8 -1,25 -1,85 2,3125
14,2 17,3 0,65 0,65 0,4225
8,8 10,3 -4,75 -6,35 30,1625
11,9 14,6 -1,65 -2,05 3,3825
Promedio 13,55 16,65 Suma 55,065

55,065
La covarianza sería covxy = 9 = 6, 118. Lo que indica es que el DAC y
la altura están relacionados, de forma directa (a medida que aumenta el
DAP aumenta la altura).


Grado de relación entre las variables
Coeciente de correlación de Pearson

Denición (Correlación)
El coeciente de correlación de Pearson, indica la fuerza y la dirección de
una relación lineal entre dos variables aleatorias. Se considera que dos
variables cuantitativas están correlacionadas cuando los valores de una de
ellas varían sistemáticamente con respecto a los valores de la otra.

n
(xi − x)(yi − y)
i=1 Sxy
r= =
n n Sxx Syy
(xi − x)2 · (yi − y)2
i=1 i=1



Indica si los puntos tienen una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales). Es útil para determinar si
hay relación lineal (y = β0 + β1 · x) entre dos variables.
Tiene el mismo signo que Covxy . La diferencia radica en que r está
acotado en [−1, 1].
Si está cercana a -1, indica que las variables están relacionadas en
forma inversa, si está cercana a +1, la relación es directa y si está
cercana a 0, las variables no están relacionadas.
Cuanto más cerca esté r de −1 o +1 mejor será el grado de relación
lineal. Siempre que no existan observaciones atípicas.



Ejemplo
Con los datos anteriores, calcule e interprete la correlación.

DAP (xi ) Altura (yi ) (xi − x)2 (yi − y)2
15,6 17,4 4,2025 0,5625
14,8 18,4 1,5625 3,0625
15,5 16,5 3,8025 0,0225
12,5 15,2 1,1025 2,1025
14,2 19,9 0,4225 10,5625
15,7 22,1 4,6225 29,7025
12,3 14,8 1,5625 3,4225
14,2 17,3 0,4225 0,4225
8,8 10,3 22,5625 40,3225
11,9 14,6 2,7225 4,2025
Promedio 13,55 16,65 Suma 42,985 94,385

55,065
La correlación sería r= √
42,985·94,385
= 0, 865. Lo que indica es que el

DAC y la altura están relacionados, de forma directa casi perfecta (r
cercana a 1).


Prueba de hipótesis para probar si la correlación es signicativa

Para probar la hipótesis de que la correlación es signicativamente distinta
(mayor o menor) que cero, se debe seguí el siguiente procedimiento.
Comúnmente cuando el valor−p es menor que 0,05 se dice que es
signicativa, si es menor que 0,01 es altamente signicativa.

√
r· n−2
Estadística de prueba: tc = √
1 − r2

Hip. Nula Hip. Alternativa Rechace H0 si Valor−p
H0 : ρ = 0 H1 : ρ = 0 |tc | t1−α/2 (n − 2) 2[1 − P(T |tc |)]
H0 : ρ = 0 H1 : ρ 0 tc t1−α (n − 2) 1 − P(T |tc |)
H0 : ρ = 0 H1 : ρ 0 tc −t1−α (n − 2) 1 − P(T |tc |)

T se distribuye t−student con n−2 grados de libertad.


Prueba de hipótesis para probar si la correlación es signicativa

Ejemplo
Pruebe la hipótesis de que la correlación es signicativa.

Hipótesis: H0 : ρ = 0 H1 : ρ = 0
v/s
√
0, 865 · 8
Estadístico de prueba: tc = = 4, 865.
1 − 0, 8652
Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si
|tc | t0,975 (8) = 2, 306.
Signicancia:
valor−p = 2[1 − P(T |4, 865|)] ∼ 2[1 − 0, 99925] = 0, 0015
=
Conclusión: Como |tc | = 4, 865 2, 306 o equivalentemente
valor−p 0, 05. Entonces, existe suciente evidencia muestral para
armar que el DAP y la altura están signicativamente correlacionadas
(en rigor estricto es altamente signicativa, pues el valor−p 0, 01).

Prueba de hipótesis para probar si la correlación es signicativa en SPSS


Prueba de hipótesis para probar si la correlación es signicativa en SPSS

Correlaciones
DAP Altura
**
DAP Correlación de Pearson 1 ,865
Sig. (bilateral) ,001
N 10 10
**
Altura Correlación de Pearson ,865 1
Sig. (bilateral) ,001
N 10 10
**. La correlación es significativa al nivel 0,01
(bilateral).


Regresión Lineal Simple
Introducción

(Regresión Lineal Simple)
El término regresión fue introducido por Galton en su libro Natural
inheritance (1889) reriéndose a la ley de la regresión universal.

Se supone que se tiene una muestra (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
correspondiente a la observación conjunta de las variables X e Y .

El objetivo será encontrar una relación entre ambas variables, esta
relación podría estar dada por una recta (ecuación de regresión:
y = β0 + β0 · x).


Peso ninguno

Regresión Lineal Simple Segmentar archivo
Núm. de filas del archivo
de trabajo
ninguno
10

Diagrama deSintaxis
dispersión GRAPH
/SCATTERPLOT(BIVAR)=DAP
WITH Altura
/MISSING=LISTWISE.
En un diagrama Tiempo de procesador
Recursos de dispersión, cada unidad00:00:00,500
de análisis es un punto cuyas
coordenadas sonTiempo transcurrido de las variables. El error aleatorio;
los valores 00:00:00,530
son las
desviaciones de los verdaderos valores de Y con respecto a los valores
[Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseño Experimental
y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ( Correlac
estimados y y(recta). Lineal Simple)datoseje_corr.sav
ión Regresión

22

20

18
Altura

16

14

12

10 R2 Lineal = 0,747

8 10 12 14 16

DAP


La ecuación de regresión

La ecuación de predicción esperada está dada por

y = β0 + β1 · x.

Donde, las estimaciones de los parámetros β1 y β0 son:

Sxy
β1 = ; y β0 = y − β1 x
Sxx

Intercepto (β0 ): es la estimación de y cuando x = 0.
Pendiente (β1 ): es la estimación de la pendiente de la recta (magnitud
del incremento (o decremento) de y por cada unidad de incremento en
x.)
Además, se dene el coeciente de determinación r2 , como el porcentaje
de la variabilidad total que explica el modelo.



Ejemplo
Considerando los datos del problema anterior, encuentre la ecuación de
regresión entre el DAP y la altura.
La ecuación de predicción esperada está dada por

y = β0 + β1 x,

Altura = β0 + β1 · DAP,
Donde, las estimaciones de los parámetros β1 y β0 son:

55, 065
β1 = = 1, 281; y β0 = 16, 65 − 1, 281 · 13, 55 = −0, 708.
42, 985



Ejemplo
Entonces, la ecuación sería:

Altura = −0, 708 + 1, 281 · DAP,

Pendiente: Por cada centímetro que se incrementa el DAP, la altura se
incrementa en 1,281 metros.

Intercepto: Un árbol con un DAP muy pequeño (0), se estima que su
Altura será de -0,708. En este caso no tiene sentido.

Esta recta, puede servir para predecir, suponga que tiene un árbol con un
DAP=8cm, entonces se estima que su altura sería de

Altura = −0, 708 + 1, 281 · 8 = 9, 54 metros.
Además el porcentaje de la variabilidad total que explica el modelo es de
74,7% (r
2 = 0, 8652 = 0, 747).

Prueba de hipótesis para la pendiente

Para probar la hipótesis de que la pendiente es signicativamente distinta
(mayor o menor) que cero, se debe seguí el siguiente procedimiento. Al ser
la pendiente distinta de cero, esto indicaría que las variables están
relacionadas.

√
β1 · Sxx
Estadística de prueba: tc =
se

Hip. Nula Hip. Alternativa Rechace H0 si Valor−p
H0 : β 1 = 0 H1 : β 1 = 0 |tc | t1−α/2 (n − 2) 2[1 − P(T |tc |)]
H0 : β 1 = 0 H1 : β 1 0 tc t1−α (n − 2) 1 − P(T |tc |)
H0 : β 1 = 0 H1 : β 1 0 tc −t1−α (n − 2) 1 − P(T |tc |)

T se distribuye t−student con n−2 grados de libertad. Además
n 2
i=1 (yi −yi ) Syy −β1 Sxy
s = n−2 = n−2 es la desviación estándar del error,

también llamado, error estándar (típico) de la estimación.


Prueba de hipótesis para la pendiente

Ejemplo
Pruebe la hipótesis de que la pendiente es distinta de cero.

Hipótesis: H0 : β1 = 0 H1 : β 1 = 0
v/s
√
1, 281 · 42, 985
Estadístico de prueba: tc = = 4, 865.
1, 726
Región de Rechazo: Si α = 0, 05. Entonces rechace H0 , si
|tc | t0,975 (8) = 2, 306.
Signicancia:
valor−p = 2[1 − P(T |4, 865|)] ∼ 2[1 − 0, 99925] = 0, 0015
=
Conclusión: Como |tc | = 4, 865 2, 306 o equivalentemente
valor−p 0, 05. Entonces, existe suciente evidencia muestral para
armar que el DAP y la altura están signicativamente relacionadas.
(Esta prueba es equivalente a la prueba de hipótesis para la
correlación).

Regresión Lineal Simple en SPSS


Regresión Lineal Simple en SPSS

[Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseño Ex
y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módulo 5
ión y Regresión Lineal Simple)datoseje_corr.sav

Resumen del modelo
Modelo R cuadrado Error típ. de la
R R cuadrado corregida estimación
a
1 ,865 ,747 ,716 1,726
a. Variables predictoras: (Constante), DAP

a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
B Error típ. Beta t Sig.
1 (Constante) -,708 3,610 -,196 ,849
DAP 1,281 ,263 ,865 4,865 ,001
a. Variable dependiente: Altura


Regresión
Estimación curvilínea: Modelo Exponencial

Un modelo de regresión se dice que es exponencial si
Resumen del modelo y estimaciones de los parámetros

y = β0 · exp[β1 · x]
Variable dependiente:Volumen
Ecuación Estimaciones de los parámetros

Por ejemplo, considere el problemaExponencial se mide el DAP=X y el
Constante b1
donde ,001 ,266

Volumen=Y. Los datos y la gráca son: La variable independiente esDAP.

Volumen

DAP=X Volumen=Y 0,200

16,9 ,117
8,9 ,025
0,150
17,7 ,131
2,1 ,001
11,5 ,037 0,100

19,9 ,198
6,2 ,012
0,050
17,1 ,127
14,7 ,089
0,000
18,6 ,167 0,0 5,0 10,0 15,0 20,0
DAP


Regresión

(Modelo exponencial)
El modelo exponencial, se puede solucionar mediante una regresión
lineal simple.

Aplicar el logaritmo natural a la ecuación

y = β0 · exp[β1 · x]

.

Tendríamos
w = ln[y] = ln[β0 ] + β1 · x
.

Encuentre la ecuación de regresión lineal simple entre X y W.
Luego se debe aplicar la exponencial a w para despejar y.


Regresión

Ejemplo
Para los datos de DAP= X y Volumen= Y, encuentre la ecuación de
regresión y = β0 · exp[β1 · x]. Considere lo siguiente:

DAP=X Volumen=Y W = ln[Y ] La ecuación de regresión entre X y W es
16,9
8,9
0,117
0,025
-2,1456
-3,6889
w = −6, 588 + 0, 266x.
17,7 0,131 -2,0326
Además el
2
rxw = 0, 934.
2,1 0,001 -6,9078
11,5 0,037 -3,2968
Aplicando la exponencial y considerando
19,9 0,198 -1,6195
6,2 0,012 -4,4228 que w = ln[y], tenemos
17,1 0,127 -2,0636
14,7 0,089 -2,4191 y = exp[−6, 588] exp[0, 266x]
18,6 0,167 -1,7898
y = 0, 001 exp[0, 266x].


Regresión

Ejemplo
También podemos encontrar la ecuación de regresión lineal simple
entre X e Y. La cual sería, y = −0, 055 + 0, 011x, con
2
rxy = 0, 890.
El modelo exponencial es
2
y = 0, 001 exp[0, 266x], con rxw = 0, 934.
En los datos existe un árbol con DAP= 14, 7 y Volumen= 0, 089. Si
utilizamos estos dos modelos para predecir el volumen de un árbol con
DAP=14,7, tenemos
Con el modelo de regresión lineal simple:
y = −0, 055 + 0, 011 · 14, 7 = 0, 105.
Con el modelo exponencial:
y = 0, 001 exp[0, 266 · 14, 7] = 0, 068.
Ambas estimaciones del volumen están cercanas a 0, 089, pero la del
modelo exponencial (0,068), está más cercana. Además, el r2 del
modelo exponencial está más cercano al 100%.

En conclusión, entre estos dos modelos el mejor es el exponencial.

Regresión
Estimación curvilínea: Modelo Exponencial en SPSS


Regresión
Estimación curvilínea: Modelo Exponencial en SPSS

Resumen del modelo y estimaciones de los parámetros
Variable dependiente:Volumen
Ecuación Resumen del modelo Estimaciones de los parámetros
R cuadrado F gl1 gl2 Sig. Constante b1
Lineal ,890 64,951 1 8 ,000 -,055 ,011
Exponencial ,934 112,799 1 8 ,000 ,001 ,266
La variable independiente esDAP.

Volumen
Observado
0,200
Lineal
Exponencial

0,150

0,100

0,050

0,000
0,0 5,0 10,0 15,0 20,0
DAP


Regresión
Estimación curvilínea: Algunos modelos clásicos
Modelo Ecuación Comentario
Lineal y = β0 + β1 · x Este modelo ya se analizó con todo detalle.

Logarítmico y = β0 + β1 · ln[x] Calcule T = ln[X], encuentre la ecuación de regresión lineal entre T e Y.
Luego, en la ecuación y = β0 + β1 · t, reemplace t por ln[x].
1 1
Inverso y = β0 + β1 · Calcule T =
X , encuentre la ecuación de regresión lineal entre T e Y.
x
1
Luego, en la ecuación y = β0 + β1 · t, reemplace t por .
x
Cuadrático y = β0 + β1 · x + β2 · x2 2
Calcule X y realice una regresión múltiple.

Cúbico y = β0 + β1 · x + β2 · x2 + β3 · x3 Calcule X 2 , X 3 y realice una regresión múltiple.
Potencia Calcule T = ln[X], W = ln[Y ]. Encuentre la ecuación de regresión entre
y = β0 · xβ1 T y W . En la ecuación w = b + m · t, reemplace t = ln[x] y w = ln[y].
Luego despeje y. Entonces, los parámetros serían β0 = exp[b] y β1 = m.
Compuesto Calcule W = ln[Y ]. Encuentre la ecuación de regresión entre X y W .
x
y = β0 · β1 En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despeje y.

Entonces, los parámetros serían β0 = exp[b] y β1 = exp[m].
1
Calcule T =
G
X , W = ln[Y ]. Encuentre la ecuación de regresión entre
1 1
y = exp β0 + β1 · T y W. En la ecuación w = b + m · t, reemplace t= x y w = ln[y].
x
Luego despeje y. Entonces, los parámetros serían β0 = b y β1 = m.
1 ◦ máx. de iteraciones, usar 1000.
Logística y= x Solución por sistemas no lineales. Ingresar n
(β0 + β1 · β2 )
Crecimiento CalculeW = ln[Y ]. Encuentre la ecuación de regresión entre X y W.
y = exp[β0 + β1 · x] En la ecuación w = b + m · x, reemplace w = ln[y]. Luego despeje y.
Entonces, los parámetros serían β0 = b y β1 = m.

Exponencial y = β0 · exp[β1 · x] Este modelo ya se analizó con todo detalle.


Regresión
Estimación curvilínea: Algunos modelos clásicos en SPSS

Encontraremos todos los
modelos de regresión que
propone SPSS.

Un modelo es bueno si el
valor−p 0, 05.
El mejor modelo es el que tiene
el menor valor−p, mayor r2 ,
mayor F y menor número de
parámetros.


Regresión


Regresión

Lineal: V olumen = −0, 055 + 0, 011 · DAP, r2 = 89, 0%.
1
Inversa: V olumen = 0, 130 − 0, 338 · , r2 = 41, 3%.
DAP
Potencia: V olumen = 0, 000166 · DAP
2,329 , r2 = 99, 5%.


Regresión

Lineal: V olumen = −0, 055 + 0, 011 · DAP, r2 = 89, 0%.
1
Inversa: V olumen = 0, 130 − 0, 338 · , r2 = 41, 3%.
DAP
Potencia: V olumen = 0, 000166 · DAP
2,329 , r2 = 99, 5%.
Volumen
0,200 Observado
Lineal
Inverso
Potencia
0,150

0,100

0,050

0,000
0,0 5,0 10,0 15,0 20,0
DAP


Regresión Lineal Múltiple
Introducción

Técnica de dependencia que puede
utilizarse para analizar la relación entre
una única variable dependiente (Y ) y
varias variables independientes x1 , x 2 ,
28,0
. . . , xk .
Cada variable independiente es
Índice de sitio

26,0

24,0
ponderada (βj ), de forma que las
ponderaciones indican su contribución
22,0

relativa a la predicción conjunta.
20,0

18,0
30
,0 El objetivo es usar las variables
,0
1,20 35
1,25
1,30 40
,0 independientes cuyos valores son
1,35 a
,40 1 45
,0
en
Den
sida 1,45
1,50 ,0 Ar conocidos para predecir la única
d 50

variable dependiente seleccionada por
el investigador.

ON
mrodriguez@ucm.cl (UCM)
NG LISTWISE Marcelo Rodríguez G. 22/10/2010 32 / 84

El modelo lineal general

El modelo de regresión lineal sería

yi = β0 + β1 · xi1 + β2 · xi2 , . . . , βk · xik + εi .
Donde        
y1 1 x11 x12 . . . x1n β0 ε1
 y2   1 x21 x22 . . . x2k   β1   ε2 
Y =  . , X= . , β =  . , ε =  . ,
       
. . .
 . 
.  .
.
.
.
.
.
.
.   . 
.  . 
.
yn 1 xn1 xn2 . . . xnk βk εn

βj , son los parámetros desconocidos, j = 1, . . . , k. El n
◦ total de

parámetros es p = k + 1.
εi es el i−ésimo error aleatorio asociado con yi , i = 1, . . . , n.
El objetivo es estimar βj , a esta estimación la llamaremos βj .
La estimación se los parámetros sería β= (XT X)−1 XT Y. Entonces
el modelo estimado sería yi = β0 + β1 · xi1 + β2 · xi2 , . . . , βk · xik .

Ejemplo de estimación de los parámetros.

Ejemplo
Se desea conocer la tasa de crecimiento de un cultivo bajo diferentes
condiciones de sitio y manejo. En el caso del Eucaliptus Globulus es
prácticamente desconocida, es por ello que se toman muestras de suelo de
cada rodal, midiendo el y = índice de sitio (altura promedio alcanzada
por árboles dominantes a una edad determinada), x1 = % de arena, x2 =
% de arcilla y la x3 = densidad aparente (gr/cc).
Índice de sitio (y ) 25,4 24,0 22,9 25,3 21,4 24,5 22,1 19,6 26,9 24,0 20,3 23,6 23,4 24,0 23,1 21,2
% Arena (x1 ) 40,5 45,8 47,6 47,2 40,4 38,9 45,3 32,7 41,5 42,9 40,2 46,1 45,0 48,9 41,3 46,2
% Arcilla (x2 ) 34,3 37,5 27,4 32,9 33,8 38,7 28,4 34,0 30,1 34,4 46,9 35,4 34,3 25,7 32,3 32,5
Densidad (x3 ) 1,29 1,32 1,40 1,30 1,41 1,25 1,38 1,50 1,20 1,34 1,38 1,49 1,47 1,36 1,42 1,48



Se propone el siguiente modelo

y = β0 + β1 · x1 + β2 · x2 + β3 · x3 + ε.
Se desea estimar los parámetros del modelo (βj ). Por ejemplo, si la
estimación del parámetro β2 es muy cercano a 0, quiere decir que el %
de arcilla (x2 ) no inuye en la predicción del índice de sitio (y ).

Los parámetros estimados serían:
β0 = 43, 037, β1 = 0, 121, β2 = −0, 066, y β3 = −16, 604.
Entonces el modelo estimado sería

y = 43, 037 + 0, 121 · x1 − 0, 066 · x2 − 16, 604 · x3 .

Índice de sitio = 43, 037+0, 121·Arena−0, 066·Arcilla−16, 604·Densidad.

Prueba de hipótesis para los parámetros.

(Prueba de hipótesis para los parámetros del modelo)
Hipótesis:
H0 : β 0 = β 1 = · · · = β k = 0 v/s H1 : βj = 0, para algún j.
Estadístico de prueba:
Modelo Suma de Grados de Media Fc
cuadrados libertad cuadrática
n
SCReg MCReg
Regresión (yi − y)2 p−1
(p − 1) MCRes
i=1
n
SCRes
Residual (yi − yi )2 n−p
(n − p)
i=1
n
2
Total (yi − y) n−1
i=1

Región de rechazo: Rechace H0 si Fc F1−α (p − 1, n − p).
Signicancia: Valor-p = 1 − P(F Fc ). Donde F se distribuye
Fisher con p−1 y n−p grados de libertad.



Para vericar si las variables independientes (xj ) tienen un aporte
signicativo en la predicción del Índice de sitio (y ), debe probar:
H0 : β0 = β1 = β2 = β3 = 0 v/s H1 : βj = 0, para algún j.
Obser. y y (yi − y)2 (yi − y)2 (yi − yi )2 Modelo Suma de Grados de Media Fc
1 25,4 24,268 4,703 1,075 1,282
cuadrados libertad cuadrática
2 24,0 24,202 0,591 0,942 0,041
Regresión 39,481 3 13,160 9,196
3 22,9 23,758 0,110 0,278 0,736
Residual 17,173 12 1,431
4 25,3 25,007 4,280 3,154 0,086
Total 56,654 15
5 21,4 22,296 3,353 0,874 0,803
6 24,5 24,448 1,610 1,480 0,003
7 22,1 23,745 1,280 0,264 2,707 Siα = 0, 05. Rechace H0 si
8 19,6 19,854 13,186 11,402 0,065
9 26,9 26,161 13,460 8,582 0,546 Fc F0,95 (3, 12) = 3, 49.
10 24,0 23,722 0,591 0,241 0,077
11 20,3 21,906 8,592 1,757 2,578 El valor−p = 0, 002.
12 23,6 21,554 0,136 2,814 4,187
39,481
13 23,4 21,825 0,028 1,977 2,480 R2 = 56,654 = 0, 697.
14 24,0 24,692 0,591 2,134 0,479
15 23,1 22,338 0,017 0,797 0,580 Entonces, se rechaza H0 , en
16 21,2 21,923 4,126 1,710 0,523
Suma 371,700 371,700 56,654 39,481 17,173 favor de H1 .


Bondad de ajuste

(Coeciente de Determinación (R2 ))
Expresa la proporción de varianza de la variable dependiente que está
explicada por las variables independientes.

SCReg
R2 = .
SCT

R2 corregida es una corrección a la baja de R2 que se basa en el número
de casos y de variables independientes:

k(1 − R2 )
Rcorrejida = R2 −
2
.
(n − k + 1)


Bondad de ajuste

(Coeciente de correlación múltiple (R))
Es la raíz de R2 . Si tenemos dos variables el Coeciente de correlación
múltiple es el valor absoluto del coeciente de correlación de Pearson, es
decir, R = |r|.

(Error (residuo) estándar de la estimación)
Es la desviación media que existe entre la variable dependiente y y su
estimación y (el residuo es εi = yi − yi ).

n
(yi − yi )2
i=1
√
sε = = MCRes.
n−p


Prueba de hipótesis para cada uno de los parámetros

Hipótesis: H0 : βj = 0 v/s H1 : βj = 0, para j = 0, 1, . . . , k.

βj
Estadística de prueba: tc =
s(βj )
Hip. Nula Hip. Altern. Rechace H0 si Valor−p
H0 : βj = 0 H1 : β j = 0 |tc | t1−α/2 (n − p) 2[1 − P(T |tc |)]
H0 : βj = 0 H1 : β j 0 tc t1−α (n − p) 1 − P(T |tc |)
H0 : βj = 0 H1 : β j 0 tc −t1−α (n − p) 1 − P(T |tc |)

T se distribuye t−student con n − p grados de libertad. Además
√
s(βj ) = cj+1 · sε , donde cj+1 es el elemento (j + 1) de la diagonal de

(XT X)−1 .

Un intervalo de conanza del 100(1 − α)% para el parámetro βj es

βj ± t1−α/2 (n − p) · s(βj )

Parámetros estandarizados (coecientes tipicados)

1 Los coecientes tipicados, se obtienen de la ecuación de regresión
tras estandarizar las variables originales. Es decir, debe a cada variable
restarle su promedio y dividirlo por su desviación estándar, y luego
encontrar los parámetros de la ecuación de regresión con esas nuevas
variables.
2 Permiten valorar la importancia relativa de cada variable independiente
dentro de la ecuación. En general, una variable independiente tiene
tanto más peso (importancia) en la ecuación de regresión cuanto
mayor (en valor absoluto) es su coeciente de regresión estandarizado.
3 Indican la cantidad de cambio, en puntuaciones estándar, que se
producirá en la variable dependiente por cada cambio de una unidad
en la correspondiente variable independiente (manteniendo constantes
el resto de variables independientes).
4 En regresión simple, el coeciente estandarizado, coincide con el
coeciente de correlación de Pearson.

Regresión Lineal Múltiple en SPSS


Regresión Lineal Múltiple en SPSS Variables introducidas/eliminadas
b

Modelo Variables Variables
introducidas eliminadas Método
1 Densidad, . Introducir
Arena,
a
Arcilla
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Índice de sitio
b
Resumen del modelo
a
1 ,835 ,697 ,621 1,1963
a. Variables predictoras: (Constante), Densidad, Arena, Arcilla

b
ANOVA
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
a
1 Regresión 39,481 3 13,160 9,196 ,002
Residual 17,173 12 1,431
Total 56,654 15

a
Coeficientes
Modelo Coeficientes
1 (Constante) 43,037 7,036 6,117 ,000
Arena ,121 ,082 ,259 1,473 ,167
Arcilla -,066 ,069 -,168 -,953 ,360
Densidad -16,604 3,507 -,753 -4,734 ,000
a. Variable dependiente: Índice de sitio


Regresión Lineal Múltiple en SPSS

No existe suciente evidencia muestral, para armar que el % de arena
(t= 1, 473, valor−p = 0, 167) o el % de arcilla (t = −0, 953,
valor−p = 0, 360), inuyen en la estimación del índice de sitio.

La muestra proporciona evidencia para armar que la densidad incide
en la estimación del índice de sitio (t = −4, 734, valor−p = 0, 000).
La relación entre la densidad y el índice de sitios es inversa (signo del
estadístico de prueba).

Según los coecientes estadarizados, la variable independiente más
importante en la predicción del índice de sitios, es la densidad, luego el
porcentaje de arena y por último el porcentaje de arcilla.


Correlaciones parciales y semiparciales

(Correlaciones parciales)
Es la correlación lineal entre dos variables mientras se mantienen constantes
otras variables. En el contexto del análisis de regresión, los coecientes de
correlación parcial expresan el grado de relación existente entre cada
variable independiente y la variable dependiente tras eliminar de ambas el
efecto debido al resto de variables independientes incluidas en la ecuación.
El coeciente de correlación parcial de primer orden, anotado aquí rAB/C ,
permite conocer el valor de la correlación entre dos variables A y B , si la
variable C había permanecido constante para la serie de observaciones
consideradas.

rAB − rAC · rBC
rAB/C = .
2
1 − rAC · 2
1 − rBC


Puntos de inuencia

La distancia de Cook (1977) mide el cambio que se produce en las
estimaciones de los coecientes de regresión al ir eliminando cada caso de
la ecuación de regresión. Una distancia de Cook grande indica que ese caso
tiene un peso considerable en la estimación de los coecientes de regresión.
Para evaluar estas distancias puede utilizarse la distribución F con p y
n−p grados de libertad. En general, un caso con una distancia de Cook
superior a 1 debe ser revisado.

n
2
yj − yj(i)
j=1
Di = .
p · MCRes
Donde yj(i) , es una estimación sin considerar el dato i−ésimo.


Distancia de Cook en SPSS

En la base de datos, quedarán
guardas las distancias, luego se debe
hacer un gráco de dispersión en-
tre las observaciones y las distancias.

1,25000

1,00000

Cook's Distance
0,75000

0,50000

0,25000

0,00000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Observación

SAVE OUTFILE='D:Archivos de MarceloProyectos 2010Diseño Experimental y Mo
los de Regresión '+
'Lineal (Aplicaciones en SPSS 18.0)Módulo 5 ( Correlación y Regresión L

mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G.
eal '+
22/10/2010 47 / 84

Supuestos del Modelo

(Supuestos del Modelo de Regresión)
Los supuestos de un modelo estadístico se reeren a una serie de
condiciones que deben darse para garantizar la validez del modelo.

Linealidad: La variable dependiente es la suma de un conjunto de
elementos: el origen de la recta, una combinación lineal de variables
independientes y los residuos.

Independencia: Los residuos son independientes entre sí.
Homocedasticidad: Para cada valor de la variable independiente, la
varianza de los residuos es constante.

Normalidad: Para cada valor de la variable independiente, los
residuos se distribuyen normalmente con media cero.

No-colinealidad: No existe relación lineal exacta entre ninguna de las
variables independientes.


Supuestos del Modelo: Linealidad

Los diagramas de regresión parcial
permiten examinar la relación exis-
tente entre la variable dependiente y
cada una de las variables independi-
entes por separado, tras eliminar de
ellas el efecto del resto de las vari-
ables independientes incluidas en el
análisis. Estos diagramas son sim-
ilares a los de dispersión ya estu-
diados, pero no están basados en
las puntuaciones originales de las
dos variables representadas, sino en
los residuos obtenidos al efectuar un
análisis de regresión con el resto de
las variables independientes.



La relación entre densidad e índice
Por ejemplo, en el diagrama de regre-
de sitio tras eliminar el efecto
sión parcial de índice de sitio y densi-
del resto de variables independi-
dad están representados los residuos
entes, es claramente lineal e inversa.
que resultan de efectuar un análisis Gráfico de regresión parcial

de regresión sobre índice de sitio in- Variable dependiente: Índice de sitio
4,0

cluyendo todas las variables indepen-
dientes excepto densidad
2,0

(y = β0 + β1 x1 + β2 x2 ), y los

Índice de sitio
residuos que resultan de efectuar un
0,0

análisis de regresión sobre densidad
incluyendo el resto de variables in-
-2,0

dependientes (x3 = β 3 + β 4 x1 +
β5 x2 ). Se tendrán tantos grácos -0,20 -0,10 0,00 0,10 0,20

Densidad
como variables independientes.


Supuestos del Modelo: Independencia

Para vericar el supuesto de independencia entre los residuos εi = y i − y i
use el estadístico de Durbin-Watson (DW ), el cual está dado por:

n
(εi − εi−1 )2
i=1
DW = n .
ε2
i
i=1

El estadístico DW toma el valor 2 cuando los residuos son
independientes, valores menores que 2 indican autocorrelación positiva
y los mayores que 2 autocorrelación negativa.

Podemos asumir independencia entre los residuos cuando DW toma
valores entre 1,5 y 2,5.



Como el estadístico de DW está
b
Variables introducidas/eliminadas
entre 1,5 y 2,5. No podemos
rechazar la
1 Densidad, . hipótesis de
Introducir que los
Arena,
residuos son independientes, es
a
Arcilla
a. Todas las variables solicitadas introducidas.
decir no están de sitio
b. Variable dependiente: Índice auto correlacionados.
b
Resumen del modelo
Modelo R cuadrado Error típ. de la Durbin-
R R cuadrado corregida estimación Watson
a
1 ,835 ,697 ,621 1,1963 2,238

b
Entonces se estaría cumpliendo es
ANOVA
supuesto de independencia.
gl cuadráticacuadrados F Sig.
a
1 Regresión 39,481 3 13,160 9,196 ,002
Residual 17,173 12 1,431
Total 56,654 15

a
mrodriguez@ucm.cl (UCM) Marcelo Rodríguez G. 22/10/2010
Coeficientes 52 / 84

Supuestos del Modelo: Normalidad

Los residuos (o los residuos tipi-
cados) deben cumplir el supuesto
de normalidad. El recuadro Grá-
cos de los residuos tipicados (es-
tandarizados) contiene dos opciones
grácas que informan sobre el grado
en el que los residuos tipicados se
aproximan a una distribución normal:
El histograma (debe ser simétrico)
y el gráco de probabilidad nor-
mal (deben estar los puntos sobre
la recta). También con los residuos
se puede realizar una prueba de nor-
malidad como Kolmogorov-Smirnov
(n 50) o Shapiro-Wilk (n ≤ 50).


Estos grácos indicaría, por lo menos en forma visual, que los residuos,
tienden
Gráficos a distribuirse como la normal.
Histograma Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Índice de sitio Variable dependiente: Índice de sitio
1,0
Media = -2,08E-16
4 Desviación típica = 0,894
N = 16

0,8

Prob acum esperada
3

0,6
Frecuencia

2
0,4

1
0,2

0,0
0
0,0 0,2 0,4 0,6 0,8 1,0
-2 -1 0 1 2

Regresión Residuo tipificado Prob acum observada

Esta armación no es concluyente, por lo tanto se realizará una prueba de
hipótesis.


No existe suciente evidencia muestral para rechazar que los residuos se
encuentra distribuidos como la normal (SW = 0, 972, valor−p = 0, 871).
3,00000

2,00000

1,00000

0,00000

-1,00000

-2,00000

Unstandardized Residual

EXAMINE VARIABLES=RES_1
/PLOT BOXPLOT NPPLOT
/COMPARE GROUPS

PD: Si el n 50, se puede utilizar KS, en este caso ambos estadísticos,
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
nos indican que se cumple el supuesto de normalidad.
/NOTOTAL.

mrodriguez@ucm.cl (UCM) Explorar
Marcelo Rodríguez G. 22/10/2010 57 / 84

Supuestos del Modelo: Homocedasticidad

Comúnmente este supuesto se verica mediante una gráca. Se deben
gracar los valores pronosticados (ZPRED) con los valores residuales
(ZRESI). Si no se detectan tendencias, entonces se cumple el supuestos de
homocedasticidad.
Gráficos

Gráfico de dispersión
Variable dependiente: Índice de sitio
2

Regresión Residuo tipificado
1

0

-1

-2

-3 -2 -1 0 1 2

Regresión Valor pronosticado tipificado


Supuestos del Modelo: No-colinealidad

Existe colinealidad perfecta cuando una de las variables independientes
se relaciona de forma perfectamente lineal con una o más del resto de
variables independientes de la ecuación.

Hablamos de colinealidad parcial o, simplemente, colinealidad, cuando
entre las variables independientes de una ecuación existen
correlaciones altas.

En términos generales, cuantas más variables hay en una ecuación,
más fácil es que exista colinealidad (aunque, en principio, bastan dos
variables).

Es un problema porque, en el caso de colinealidad perfecta, no es
posible estimar los coecientes de la ecuación de regresión; y en el
caso de colinealidad parcial, aumenta el tamaño de los residuos
típicados y esto produce coecientes de regresión muy inestables:
pequeños cambios en los datos (añadir o quitar un caso, por ejemplo)
produce cambios muy grandes en los coecientes de regresión.


Supuestos del Modelo: No-colinealidad

El nivel de tolerancia de una variable se obtiene restando a 1 el
2
coeciente de determinación (R ) que resulta al regresar esa variable
sobre el resto de variables independientes. Valores de tolerancia muy
pequeños indican que esa variable puede ser explicada por una
combinación lineal del resto de variables, lo cual signica que existe
colinealidad.

Los factores de inación de la varianza (FIV) son los inversos de los
niveles de tolerancia. Cuanto mayor es el FIV de una variable, mayor
es la varianza del correspondiente coeciente de regresión. De ahí que
uno de los problemas de la presencia de colinealidad (tolerancias
pequeñas, FIVs grandes) sea la inestabilidad de las estimaciones de los
coecientes de regresión.

Como regla se puede utilizar: Las variables independientes son
colineales si FIV 10. Las variables que tienen FIV alto y parecidos
están altamente correlacionadas.


a
Coeficientes

Regresión Lineal Múltiple Modelo
Coeficientes no estandarizados
Coefi
tipifi
Supuestos del Modelo: No-colinealidad B Error típ. B
1 (Constante) 43,037 7,036
Arena ,121 ,082
Como Arcilla
los FVI's -,066
son menores
,069
Densidad -16,604 3,507
que 10, entonces se cumple
el supuesto de no-colinealidad.
a
Coeficientes
Modelo Estadísticos de colinealidad
Tolerancia FIV
1 (Constante)
Arena ,814 1,229
Arcilla ,814 1,229
Densidad 1,000 1,000

Diagnósticos de colinealid
Modelo Dimensión
Si se detecta la presencia de colinealidad hay que i) aumentar el tamaño de
Índice de
Autovalores condición (Const
la muestra; ii) crear indicadores múltiples 1combinando variables; iii) excluir
1 3,973 1,000
variables redundantes, quedándonos con las que consideremos más 13,781
2 ,021
3 ,005 28,401
importantes.
4 ,001 55,226

Regresión por pasos: Qué variables debe incluir la ecuación de regresión

La regresión por pasos (stepwise) es una método para seleccionar las
variables independientes que debe incluir un modelo de regresión. Se
seleccionan de acuerdo al siguiente criterio estadístico.
Criterio de entrada: El valor−p 0, 05 y se debe seleccionar las variables
con menor valor−p en la ANOVA.
Método Hacia adelante:
Las variables se incorporan al modelo de regresión una a una.

En el primer paso se selecciona la variable independiente que, además
de superar los criterios de entrada, tiene la más alta correlación.

En los siguientes pasos se utiliza como criterio de selección el
coeciente de correlación parcial: van siendo seleccionadas una a una
las variables que, además de superar los criterios de entrada, poseen el
coeciente de correlación parcial más alto en valor absoluto.

La selección de variables se detiene cuando no quedan variables que
superen el criterio de entrada.



En el ejemplo anterior, se realizarán todas las regresiones posible,
identicando, las variables independientes, el R2 , estadístico de prueba F, y
el valor−p. El mejor modelo es el que tiene, menos variables, mayor R2 ,
mayor F y menor valor−p.

Variables R2 F valor−p
x1 0,112 1,773 0,20427
x2 0,711 1,072 0,31799
x3 0,564 18,096 0,00080
x1 , x2 0,131 0,978 0,40227
x1 , x3 0,674 13,436 0,00069
x2 , x3 0,642 11,662 0,00126
x1 , x2 , x3 0,697 9,196 0,00196

El mejor modelo sería y = β0 + β3 · x3 .
Aunque y = β0 + β1 · x1 + β3 · x3 , también es un muy buen modelo.


Tiempo transcurrido 00:00:00,031

Memoria necesaria 1972 bytes
Memoria adicional 0 bytes
requerida para los
diagramas de residuos

Regresión por pasos: Qué variables debe incluir[Conjunto_de_datos1] D:Archivos de MarceloProyectos 2010Diseñ
la ecuación de regresión
y Modelos de Regresión Lineal (Aplicaciones en SPSS 18.0)Módul
ión y Regresión Lineal Simple)datoseje_reg_mult_indice de siti
a
1 Densidad . Hacia
adelante
(criterio: Prob.
Por defecto SPSS de F para
elige
entrar = , como el
050)

mejor modelo
y = β0 + β3 · x3 .
Resumen del modelo
a
1 ,751 ,564 ,533 1,3286
a. Variables predictoras: (Constante), Densidad

b
ANOVA
cuadrados gl cuadrática F Sig.
a
1 Regresión 31,942 1 31,942 18,096 ,001
Residual 24,712 14 1,765
Total 56,654 15



Para que coincida con los cálculos efectuados antes, debemos ser menos
restrictivos con el valor−p. Fíjese que la arena es signicativa para valores
superiores a 0,056. Utilizaremos el valor de 0,06.

a
Coeficientes
Modelo Coeficientes
1 (Constante) 45,999 5,362 8,578 ,000
Densidad -16,566 3,894 -,751 -4,254 ,001

b
Variables excluidas
Modelo Estadísticos
de
colinealidad
Correlación
Beta dentro t Sig. parcial Tolerancia
a
1 Arena ,332 2,096 ,056 ,503 1,000
a
Arcilla -,280 -1,686 ,116 -,424 1,000
a. Variables predictoras en el modelo: (Constante), Densidad

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.06) POUT(.10)
/NOORIGIN
/DEPENDENT IS
/METHOD=FORWARD Densidad Arena Arcilla.

a

1 Densidad . Hacia

adelante
(criterio: Prob.
de F para
entrar = ,
060)
2 Arena . Hacia
adelante
(criterio: Prob.
Los resultados considerando la nueva conguración, sería de F para
entrar = ,
060)
a
Coeficientes
Resumen del modelo
Modelo Coeficientes
Modelo R cuadrado Error típ. de la Coeficientes no estandarizados tipificados
a B Error típ. Beta t Sig.
1 ,751 ,564 ,533 1,3286
1 (Constante) 45,999 5,362 8,578 ,000
b
2 ,821 ,674 ,624 1,1920
Densidad -16,566 3,894 -,751 -4,254 ,001
a. Variables predictoras: (Constante), Densidad 2 (Constante) 39,256 5,788 6,782 ,000
b. Variables predictoras: (Constante), Densidad, Arena Densidad -16,533 3,494 -,749 -4,732 ,000

c Arena ,155 ,074 ,332 2,096 ,056
ANOVA
cuadrados gl cuadrática F Sig. Variables excluidas
c
a
1 Regresión 31,942 1 31,942 18,096 ,001
Modelo Estadísticos
Residual 24,712 14 1,765 de
colinealidad
Total 56,654 15
Correlación
b
2 Regresión 38,182 2 19,091 13,436 ,001 Beta dentro t Sig. parcial Tolerancia
a
Residual 18,472 13 1,421 1 Arena ,332 2,096 ,056 ,503 1,000
a
Total 56,654 15 Arcilla -,280 -1,686 ,116 -,424 1,000
b
2 Arcilla -,168 -,953 ,360 -,265 ,814
a. Variables predictoras en el modelo: (Constante), Densidad
b. Variables predictoras: (Constante), Densidad, Arena
b. Variables predictoras en el modelo: (Constante), Densidad, Arena
c. Variable dependiente: Índice de sitio
c. Variable dependiente: Índice de sitio


Regresión lineal en spss para ciencias agrarias y forestales

Regresión lineal en spss para ciencias agrarias y forestales

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Regresión lineal en spss para ciencias agrarias y forestales

Semelhante a Regresión lineal en spss para ciencias agrarias y forestales (20)

Último

Último (20)

Regresión lineal en spss para ciencias agrarias y forestales