Modelos predictivos: datos, métodos, problemas y aplicaciones
1. Introducción a los modelos predictivos:
métodos, problemas y aplicaciones
Ángel M. Felicísimo
amfeli@unex.es
Ingeniería Cartográfica, Geodesia y Fotogrametría
Universidad de Extremadura
http://www.unex.es/eweb/kraken
2. ¿A qué se llama modelado predictivo?
modelo: representación simplificada de la
realidad donde se muestran algunas de sus
propiedades.
predictivo: predice (estima) propiedades en
zonas donde éstas se desconocen.
An archaeological predictive model is
a tool that indicates the probability
of encountering an archaeological
site anywhere within a landscape
http://www.mnmodel.dot.state.mn.us/
GENERAL
ESPECÍFICA
3. ejemplos de modelos que nos interesan
Se han obtenido datos fragmentarios de presencia y de ausencia de
cierto tipo de objetos: proponer las zonas idóneas para localizarlos
en campañas futuras.
Una especie de interés farmacéutico ha sido localizada en unas
zonas concretas en un área inexplorada: estimar su área de
distribución real.
Una especie es un recurso trófico de una comunidad: plantear cual
ha sido la evolución de su área de distribución en el pasado.
Los bosques en España tienen un área de distribución actual:
estimar su área futura ante diversos escenarios y modelos de
cambio climático.
ejemplo: cuevas en Asturias
ejemplo: proyecto OECC
4. Enlaces arqueológicos
Archaeological predictive modelling.
Mn/Model Statewide Archaeological Predictive Model
North Carolina GIS Archaeological Predictive Model Project
Predictive Modelling for Archaeological Heritage Management
http://modelling.pictographics.com/
http://www.mnmodel.dot.state.mn.us/index.html
http://www.informatics.org/ncdot/
http://archaeology.leiden.edu/research/computerapplications/bbopredmod.html
5. el problema desde nuestro punto de vista
objetivo general: a partir de datos de presencia/ausencia
localizados espacialmente, generar una superficie continua de
valores que nos refleje la probabilidad de presencia.
etapas necesarias para abordar el problema:
conseguir la muestra de la variable dependiente.
conseguir mapas de variables independientes
potencialmente explicativas.
establecer si los valores de las variables independientes
sirven para describir la distribución de la dependiente.
aplicar el modelo estadístico a la totalidad del área para
conseguir un mapa de probabilidades de presencia.
valorar el error, la incertidumbre y la sensibilidad.
Modelo estadístico
Modelo de
idoneidad
6. la construcción de un modelo
LA VARIABLE DEPENDIENTE: PRESENCIA/AUSENCIAS
LAS VARIABLES INDEPENDIENTES: MODELOS DIGITALES DEL TERRENO, DISTANCIAS….
1
LOS DATOS
7. Los datos de presencia: algunas cuestiones
Toma de datos en campo:
Puntuales: con receptores GPS, datum WGS84, latitud y longitud (caso
de las referencias a cuadrículas UTM).
Recuperación de datos en gabinete:
• A partir de colecciones, fichas o museos: georreferenciación (ejemplo:
base de datos TROPICOS: http://www.tropicos.org/).
• Revisión exhaustiva de las localizaciones, corrección y eliminación de
registros potencialmente erróneos.
Escala de trabajo:
• Condiciona los requerimientos tanto en resolución espacial como en
exactitud (ejemplo: entradas de cuevas).
• Existen variables cuyos valores dependen de la escala.
8. Datos de gabinete
Instituto de Investigação Científica e Tropical
Mediosdetransporte
Fichaoriginaldelepidópteros
10. Seguimiento
Datos de presencia con seguimiento mediante geolocalizadores
Mk13: 1.8 g, 3 años
Mk5 : 3.6 g, 6 años
http://www.antarctica.ac.uk/engineering/html/project_pages/Bird_migration_tracking.htm
11. El caso de la pardela cenicienta
Calonectris diomedea
12. Datos con variación temporal
Deslizamientos de
ladera (argayos)
2 km
Valle de Deba (140 km2)
13. ¿en qué zonas pueden usarse los modelos?
Los modelos pueden
aplicarse a cualquier
extensión de terreno.
La extensión de la
zona suele condicionar
la resolución espacial.
Ejemplos tipo:
Locales (<25 m)
Regionales (200 m)
Globales (1 km)
A veces los datos son
más groseros pero
suficientes:
Quikscat: 12.5 km
14. Datos extraídos de mapas
Generar modelos de idoneidad para tres especies arbóreas
alcornoque (Quercus suber)
rebollo (Quercus pyrenaica)
carrasca (Quercus rotundifolia)
17. problemas inmediatos
210
600
3110
270
1500
0 1000 2000 3000 ha
cropland
Pinus sp. plantations
Eucalyptus stands
Quercus sp. formations
generic woodland
CATEGORÍA MFE CATEGORÍA CLC: choperas
CATEGORÍA Quercus Coníferas Choperas Áreas agrícolas
kappa 0.67 0.58 0.06 0.57
ajuste Mapa Forestal de España / Corine Land Cover
discrepancias CLC / MFE en la categoría ‘choperas’
exactitudestemáticayespacial
información de mala calidad
información insuficiente
información irregular
ausencia de datos negativos
planificación del muestreo
referencia espacial exacta
18. selección de las variables independientes
dos tipos de predictores
predictores directos: con influencia fisiológica en la vegetación.
• ejemplos: radiación solar, temperaturas extremas.
predictores indirectos: sin previsibles relaciones causales.
• ejemplos: latitud, elevación.
• las variables deben tener influencia potencial en la distribución de la
vegetación (por ejemplo, como factor limitante).
• las variables deben poder ser conocidas o modelizadas para cualquier
área de trabajo.
• las variables deben ser poco redundantes: estadísticamente no
correlacionadas.
19. la altitud
El MDE suele utilizarse
como estructura raster
Característica principal:
tamaño de celda o píxel
Valle del Jerte
20. Los modelos digitales de elevaciones
Fuentes de datos globales:
GTOPO30 (1 km):
http://eros.usgs.gov/#/Find_Data/Products_and_Data_Available/gtopo30_info
SRTM (90 m): http://srtm.csi.cgiar.org/
ASTER GDEM (30 m): http://www.gdem.aster.ersdac.or.jp/
21. la pendiente
0
100
200
300
400
500
600
700
800
900
1000
0 5 10 15 20 25 30 35 40 45
pendiente (º)
fr. abs.
(x1000) DISTRIBUCIÓN DE FRECUENCIAS
La pendiente es una
variable cuyos valores
dependen de la
resolución espacial.
Distribución no Gaussiana
22. el clima
datos básicos cedidos por la
AEMET (http://www.aemet.es/)
método: kriging con gradientes
altitudinales locales
resolución: 1000 m
estaciones
termométricas: 967
pluviométricas: 2173
Variables:
temperatura media de las
máximas mensual
temperatura media de las
mínimas mensual
Precipitación media
mensual
Periodos: 1961-1990 y 1970-
2007
23. Impactos y vulnerabilidad en la flora española
Mapas de temperatura media
de las máximas anual
30
20
10
0
(ºC)
2011-2040 2041-2070
2071-2100
Síntesis derivada de los mapas
mensuales:
Escenario A2
Modelo CGCM2
24. la insolación o irradiancia
los mapas de insolación
potencial, horas de sol
directo, y de irradiancia, en
W/(m2·día) pueden ser
estimados mediante
modelos a partir del MDE.
hay que calcular los
modelos para varios
periodos diferentes del año
AML para la modelización:
Niklaus Zimmermann
http://www.wsl.ch/staff/niklaus.zimmermann/
25. la geología, litología y variables afines
los mapas geológicos y
litológico son casos donde
la variable suele ser
nominal, no cuantitativa.
los métodos deben poder
utilizar este tipo de
variables o será necesario
incluirlas a posteriori
mediante métodos
específicos.
26. Otras posibles variables: distancias
0
10
20
30
40
50
60
70
0.40 0.44 0.50 0.57 0.67 0.80 1.00
Rugosidad
t(min)
función de asignación
modelo de coste (t ): 1-60 min
unidades de tiempo
30. 1-10 enero 2000 11-20 enero 2000 21-31 enero 2000
Caso de variables correlacionadas
Supuesto: búsqueda de ruinas en zonas boscosas.
Métodos: ACP (análisis de componentes principales) o ACI
(análisis de componentes independientes)
Sensor VEGETATION (http://free.vgt.vito.be/)
31. Caso de variables correlacionadas
El uso de imágenes de satélite o de mapas climáticos en forma
de series temporales.
CI1 CI2 CI3
Los tres primeros CI de la serie NDVI de Ecuador
32. Dónde buscar información
Bases de datos biológicas
Tropicos, http://www.tropicos.org/
GBIF, Global Biodiversity Information Facility, http://www.gbif.es/
Colecciones en internet: http://www.gbif.es/ColeccionesOnLine.php
Bases distribuidas,
http://www.gbif.es/DatosEspecimenes.php#Distribuidas
IDE, Infraestructura de Datos Espaciales
luces y sombras: usabilidad, interoperabilidad.
IDEE.es
Servicio de catálogo: Geonetwork (http://geonetwork-opensource.org/)
Nuestro servicio en http://ide.unex.es/
33. Otros problemas con los datos
Muestra inadecuada:
reducida: reduce la fiabilidad de
los resultados.
con insuficiente resolución:
introduce incertidumbre en las
relaciones
sesgada: no representa
íntegramente las relaciones.
Ausencia de datos negativos
obliga a usar pseudoausencias:
introduce falsos negativos.
34. la construcción de un modelo
REGRESIÓN LOGÍSTICA, MARS (MULTIVARIATE ADAPTIVE REGRESSION SPLINES),
CART (CLASSIFICATION AND REGRESSION TREES), MAXENT (MÁXIMA ENTROPÍA)
2
EL MODELO ESTADÍSTICO
35. Proceso general
Construir la muestra
depurar y preparar los datos existentes
construir una muestra de datos positivos y negativos (acompañados o
no de los valores de las variables independientes)
Construir el modelo estadístico
aplicar el método: RLM, CART, MARS (otros: redes neuronales,
algoritmos genéticos...)
Comprobar el modelo estadístico
valorar los resultados del modelo de asociación
Aplicar el modelo al territorio
en caso de buenos resultados, aplicar el modelo a todo el territorio y
construir el modelo de idoneidad
36. recopilar los datos de presencia
Caso 1: datos de presencia y ausencia Caso 2: sólo datos de presencia
37. construir la muestra
debe definirse un conjunto de
puntos (x,y) con datos de
presencias y de ausencias
si los datos son de colecciones o
registros deben incluirse todos.
si los datos salen de mapas
deben hacerse un muestreo
sobre el territorio a estudiar.
las ausencias pueden ser
conocidas o supuestas
(pseudoausencias).
1=presencia
0=ausencia
Ocotea insularis (80 presencias)
38. construir la muestra
sobre cada punto de la muestra se extraen los valores de
presencia (1) o ausencia (0) de la especie
valor de cada variable independiente utilizada en el modelo
un fichero muestra tiene la estructura siguiente:
PRES XUTM YUTM MDE MDI12N MDI12P MDP
0 370559 4795131 669 17 22 35
1 370609 4795131 692 17 22 31
0 369709 4795081 60 3 15 19
0 370459 4795081 1587 16 20 40
1 370509 4795081 618 17 21 37
0 370609 4795081 664 16 21 34
39. Envueltas ambientales
Ventajas: simples, usan sólo
datos de presencias.
Desventajas:
No consideran interacciones.
Dan el mismo peso a todos
los predictores.
Gran sensibilidad a los datos
marginales y al sesgo del
muestreo.
No pueden usar variables
nominales.
40. Uso de distancias simples
Ventajas:
menos sensibles a los datos
marginales.
usan sólo datos de presencias
pueden considerar correlacio-
nes entre las variables
Desventajas:
No consideran interacciones
Dan el mismo peso a todos
los predictores.
No pueden usar variables
nominales.
Predicción negativa
Variable 1
Variable2
Predicción positiva
41. División recursiva del espacio de variables
Ventajas:
menos sensibles a los datos
marginales.
pueden usar variables
nominales.
Desventajas:
No consideran interacciones
Dan el mismo peso a todos
los predictores.
Debe controlarse el
sobreajuste (overfitting).
42. RLM, regresión logística
la regresión logística establece una regresión lineal entre los logits y
la variable independiente
ejemplo: probabilidad de
rechazo a un impuesto
en función de la edad
L = -18.68 + 0.40·edad
-18.68+0.40·edad
P =
1
1 + e
logit, L = ln [ P/(1-P) ]
43. RLM, regresión logística
Ventajas:
Poco sensible a los datos
marginales.
Pueden considerar
interacciones.
Pondera los predictores.
Pueden usar variables
nominales.
Desventajas:
Necesitan datos de presencias
y de ausencias.
La relación entre logits y
variables debe ser lineal.
a0 = -780.357
a1 = -0.045 * v1_mde
a2 = 0.140 * v2_mdp
a3 = 0.000 * v3_mdi
a4 = 0.000 * v4_mdi
a5 = -0.001 * v5_mdi
a6 = 0.000 * v6_mdi
…
a15 = 0.000 * v15_cuv
a16 = 0.025 * v16_flw
a17 = 0.000 * v17_fll
a18 = -0.011 * v18_upz
a19 = -0.020 * v19_ups
cf = sum(a0, a1, a2,…, a17, a18, a19)
yR2k_1 = (1 div (1 + exp(cf * -1.0)))
44. CART, árboles de clasificación
los árboles de clasificación organizan el espacio mediante sucesivas particio-
nes del conjunto de datos original en subgrupos más homogéneos
CART es binario: cada nodo en el nivel n se divide en dos nodos en n+1
el algoritmo busca la secuencia óptima de división con criterios que
combinan el grado de ajuste y la complejidad total del árbol
Classification and Regression Trees
nodos terminales
Qpyr: 850
Qsub: 2400
Qrot : 4889
/* Terminal Node 4889
IF (PT4 > 1966.5 & PT1 >
3260.5 & T_JULIO >
32.5 & PT2 > 1969 &
PT3 > 677.5 & MDE50 >
503 )
THEN P = 0.00302
45. MARS
MARS ajusta regresiones lineales
"segmento por segmento" para no
depender de una respuesta lineal
cada segmento de regresión constituye
una ‘función básica’ que se enlazan en los
puntos de cambio (‘knots’)
Multivariate Adaptive Regression Splines
BASIS FUNCTIONS
0.00
0.05
0.10
0.15
0.20
0.25
0 50 100 150 200
INDEPENDENT VARIABLE
PROBABILITY
BF1 = max(0, PT4 - 3431.0); BF2 = max(0, 3431.0 - PT4)
BF4 = max(0, 1181.0 - mde50); BF5 = max(0, PT4 - 2311.0) * BF4
BF6 = max(0, 2311.0 - PT4) * BF4; ...
BF44 = max(0, 2138.0 - PT2) * BF7
qpyr_mars = 2.254 + .419601E-03 * BF1 - 0.002 * BF2 - .953759E-03 * BF4
+ .671450E-07 * BF5 + .194687E-05 * BF6 - .794157E-05 * BF7
...
+ .104245E-06 * BF43 + .332007E-06 * BF44 + .238371E-04 * BF45
46. Método propuesto por Phillips et al.:
acrónimo de “máxima entropía”.
usa presencias y genera pseudo-
ausencias.
admite variables nominales.
permite proyectar el modelo actual a
otros escenarios.
multiplataforma (Java).
puede ser llamado desde scripts
externos para automatización.
memoria limitada en S.O. de 32 bits a
1.3 Gb.
Propiedades
Apariencia de Maxent en modo interactivo
Steven J. Phillips, Robert P. Anderson, Robert
E. Schapire. 2006. Maximum entropy
modeling of species geographic distributions.
Ecological Modelling, 190(3-4): 231-259.
Steven J. Phillips, Miroslav Dudik , 2008. Modeling of
species distributions with Maxent: new extensions
and a comprehensive evaluation. Ecography, 31:
161-175.
MAXENThttp://www.cs.princeton.edu/~schapire/maxent/
47. Tratamiento de las variables nominales: odds
fundamentos: los odds son el cociente entre la probabilidad
de presencia y la de ausencia de una especie en una clase.
hayedo si
no
total
litología
pizarra marga cuarci caliza total
345
141
486
182
2077
2259
125
550
675
8
302
310
660
3070
3730
O(haya|pizarra) = (345/486)/(141/486) = 345/141 = 2,447
O(haya) = (660/3720)/(3070/3730) = 660/3070 = 0,215
odd a priori
del hayedo
odd a posteriori dada la
presencia de pizarras
48. La favorabilidad es la razón entre los odds a posteriori y el odd a
priori.
los pesos de evidencia W+ son el logaritmo de la favorabilidad:
tanto W+ como la favorabilidad son indicadores de asociación
entre las clases de la variable y la presencia de la especie.
los resultados pueden representarse gráficamente como lo que
se ha llamado perfiles ponderados o perfiles “ecológicos”.
Pesos de evidencia (weigths of evidence)
O(haya) = 0,215
O(haya|pizarras) = 2,457
F(haya|pizarras) = 11,38
W+ (haya|pizarras) = ln 11,38 = 2,43
50. la construcción de un modelo
SENSIBILIDAD, ESPECIFICIDAD
CURVA ROC Y ÁREA BAJO LA CURVA (AUC)
3
EL CONTROL DEL ERROR
51. Conceptos sobre el error
los modelos estadísticos se construyen con las llamadas muestras o
datos de entrenamiento (training samples/datasets) y deben
contrastarse con las muestras de validación (testing samples)
error de comisión: falsos positivos (el modelo predice presencia pero
realmente no existe)
error de omisión: falsos negativos (el modelo predice ausencia pero
la especie existe realmente)
sensibilidad: % de presencias correctamente predichas respecto al
total de presencias
especificidad: % de ausencias correctamente predichas respecto al
total de ausencias
exactitud (accuracy): % de ausencias y presencias correctamente
predichas respecto al total de casos.
52. Ejemplo médico
Una prueba se usa para diagnosticar si una persona tiene una
enfermedad o no a través de una serie de valores analíticos.
Dicha prueba se valida con una muestra de personas independiente
cuyos resultados son (0: sano, 1: enfermo):
0
224453
2230
226683
PREDICHO
TOTAL
245377
42590
287967
1
20924
40360
61284
0
1
TOTAL
REAL sensibilidad
n00/(n00+n01)
n11/(n10+n11)
especificidad
falsos positivos: 20924
falsos negativos: 2230
sensibilidad: 224453/226683 = 0,990
especifidad: 20924/61284 = 0,341
exactitud : (224453+40360)/287967 = 0,920
53. ¿qué hacer ante resultados no dicotómicos?
Las tablas anteriores (tablas de confusión) necesitan comparar
valores dicotómicos (si/no, presente/ausente, enfermo/sano)
Los modelos estadísticos nos dan habitualmente resultados
probabilísticos en un continuo entre 0 (ausencia) y 1 (presencia).
Para hacer las tablas es necesario segmentar los valores en sólo dos
clases lo cual se hace a partir de un valor umbral (threshold value)
Usar un umbral de corte = 0,5 es habitual pero arbitrario
0,0 1,0
0,0 1,0
0,35
0,55
Los valores de
sensibilidad y
especificidad varían
con el valor umbral
54. umbral de corte y errores
Umbral
0,35
0,50
0,70
Ejemplos realizados con MARS
Exact
39,9
58,0
75,0
Sens
0,13
0,43
0,87
Espec
0,99
0,91
0,49
Umbral
óptimo
0,69
Exact
75,4
Sens
0,85
Espec
0,53
Umbral (95% error omisión.) = 0,45
55. curva de exactitud ante umbral
La mayor exactitud general es una
solución de compromiso que no
siempre es adecuada ya que
asume igual coste para los dos
tipos de error.
baja sensibilidad alta
alta especificidad baja
Umbral óptimo
56. asignando costes diferentes al error
La evaluación de costes permite
elegir el valor umbral óptimo en
cada caso.
0
0,0
0,5
PREDICHO
1
0,5
0,0
0
1
REAL 0
0,0
0,1
PREDICHO
1
0,9
0,0
0
1
REAL
0
0,0
0,9
PREDICHO
1
0,1
0,0
0
1
REAL
57. curva de exactitud ante umbral
La mayor exactitud general es una
solución de compromiso que no
siempre es adecuada ya que
asume igual coste para los dos
tipos de error.
58. curva ROC y AUC
1 – especificidad : P(predicho cierto | falso)
Sensibilidad:P(predichocierto|cierto)
Curva ROC para Abies alba
se llama curva ROC (receiver
of characteristic) a la
representación gráfica de los
valores de sensibilidad y
especificidad para diversos
valores de corte.
El área bajo la curva (AUC,
Area Under the Curve) es un
estadístico de ajuste
independiente del umbral de
corte.
AUC permite comparar
métodos diferentes.
AUC = 0,5
modelo
aleatorio
AUC = 1,0
ajuste
perfecto
61. Fagus sylvatica, haya
zona idónea
zona incompatible
los modelos reflejan la
idoneidad del territorio
para la especie.
las zonas de alta
idoneidad son las más
similares a las ocupadas
actualmente desde el
punto de vista de las
variables climáticas.
los modelos de
distribución potencial no
son causales, sólo reflejan
correlaciones.
62. El mapa de distribución potencial
es continuo en el rango 0-1.
Para las operaciones estadísticas y
cálculo de superficies se define un
umbral que separa dos clases:
idóneo e inadecuado (mapas
binarios).
El criterio seguido ha sido:
se generan mapas binarios
para todos los puntos de corte
se elige aquél que engloba al
99.75% de las presencias
se acepta, por tanto, un 0.25% de
error (presencias fuera del área
potencial). zona idónea
zona incompatible
Mapa binario para Fagus sylvatica, haya
63. Algunas especies son incompatibles
con algunas clases litológicas.
Proceso para introducir el factor:
se calculan las presencias en
cada clase litológica.
se anula el valor de idoneidad
en las clases con presencia
nula.
se asume que este proceso
reducirá el potencial error de
incluir litologías incompatibles pero
con clima idóneo.
la mayor parte de las exclusiones
son pantanos y embalses.
zona idónea
zona incompatible
zona de exclusión litológica
Corrección litológica: Chamerops humilis
64. Se combinan los mapas actuales y futuros calculando su superposición:
entre la zona ocupada actual y la zona idónea futura
entre la zona idónea actual y la zona idónea futura
Modelos para Chamaerops humilis
Proyección a otros escenarios
65. Se consiguen sumando
los mapas binarios de
todas las especies.
Mapa de riqueza potencial actual
Modelos de riqueza específica
66. riesgo de deslizamientos de ladera
Riesgos de deslizamientos de ladera
Cuenca de Deba (País Vasco)
67. Modelos de consenso
¿Qué método es el mejor?
La ausencia de respuestas
fiables ha llevado a usar los
modelos de consenso, donde
se combinan modelos hechos
con métodos diferentes.
71. MDE
50 m celda
TOPOGRAFÍA
20 m intervalo
VEGETACIÓN
muestreo
regresión logística
modelos preliminares
modelo
bosque n
MDP
pendiente
INSOL
D=-12º
INSOL
D=+12º
modelosdigitales
LITOLOGÍA
modelosbinarios perfiles
litologías limitantes
bosque 1
muestra
bosque 2
muestra
bosque n
muestra
...
modelo
bosque n
modelos mixtos
Ejemplo de proceso
72. modelo de vegetación potencial
modelos de idoneidad
0.25
0.51
0.72
0.33
Cq
Mf
Qp
Bf
Mf
modelo de potencialidad
135
15
720
125
Cq
Mf
Qp
Bf
modelos de distancia
la construcción de modelos de potencialidad se realiza combinando
los valores de idoneidad
los valores de distancia a las celdas ‘madre’ más próximas
73. modelo de vegetación potencial de Extremadura
Quercus
pyrenaica
suber
rotundifolia
74. abedular
Betula alba
rebollar
Quercus pyrenaica
robledal albar oligótrofo
Quercus petraea
embalse
del Ebro
quejigal
Quercus faginea
hayedo oligótrofo
Fagus sylvatica
modelo de vegetación potencial de Valderredible (Cantabria)
76. aplicaciones
evolución de la riqueza específica en Ecuador ante escenarios de cambio
global
zona de estudio: Ecuador
variables: 19 variables bioclimáticas (1 km de resolución espacial)
sujetos: 450-600 especies de Aráceas, Bignoniáceas, Bromeliáceas,
Gesneriáceas y Lauráceas.
origen: base de datos TROPICOS (Missouri Botanical Garden)
escenarios temporales: actual y futuros previstos según modelos de
cambio climático (HadCM3)
procedimiento: elaboración de modelos actuales y en escenarios
futuros, suma de modelos (riqueza específica), comparación entre
escenarios
resultados