La tesis doctoral estudia la fiabilidad del esfuerzo computacional como medida de rendimiento en programación genética. Analiza teórica y experimentalmente la probabilidad de éxito estática y dinámica, y determina la fiabilidad del esfuerzo computacional frente a la incertidumbre debida a la estimación y redondeo. Concluye que el esfuerzo computacional puede no ser una medida fiable debido a los errores en su estimación.
Contextualización y aproximación al objeto de estudio de investigación cualit...
Fiabilidad del esfuerzo computacional en GP
1. TESIS DOCTORAL
Reliability of Performance Measures in
Tree-Based Genetic Programming:
A Study on Koza’s Computational Effort
David Fernández Barrero
Directores:
Dra. María D. R-Moreno
Dr. David Camacho
Departamento de Automática
Universidad de Alcalá
Diciembre 2011
2. Introducción
Planteamiento
Estático
Dinámico
Fiabilidad
Conclusiones
Índice
Índice de la presentación
1 Introducción
2 Planteamiento de la investigación
3 Estimación de la probabilidad de éxito estática
4 Estimación de la probabilidad de éxito dinámica
5 Fiabilidad del esfuerzo computacional
6 Conclusiones
2 / 40
3. Introducción
Planteamiento
Precedentes de la tesis: Searchy
Estático
Planteamiento inicial
Dinámico
Definición de esfuerzo computacional
Fiabilidad
Conclusiones
Índice
1 Introducción
Precedentes de la tesis: Searchy
Origen de la pregunta de investigación
Definición de esfuerzo computacional
2 Planteamiento de la investigación
Análisis exploratorio
Modelo de probabilidad de éxito
Diseño experimental
Conclusiones de la sección
3 Estimación estática de la probabilidad de éxito P(M, G )
Distribución de la probabilidad estática de éxito
Intervalos de confianza
Resultado experimental con GP
Conclusiones de la sección
4 Estimación dinámica de la probabilidad de éxito
Introducción
Ajuste del modelo de generación de éxito
Validación del modelo de probabilidad de éxito
Análisis experimental de la generalización
Explicación teórica de los resultados
Conclusiones de la sección
5 Fiabilidad del esfuerzo computacional de Koza
Introducción
Efecto operador de redondeo sobre I (M, i, z)
Error de estimación sobre I (M, i, z)
Caracterización del error máximo esperado de E
6 Conclusiones
Conclusiones
Publicaciones
Trabajo futuro
3 / 40
4. Introducción
Planteamiento
Precedentes de la tesis: Searchy
Estático
Planteamiento inicial
Dinámico
Definición de esfuerzo computacional
Fiabilidad
Conclusiones
Introducción
Precedentes de la tesis: Searchy, un metabuscador distribuido semántico
Se parte del metabuscador Searchy
Metabuscador distribuido, orientado a la web y extensible
4 / 40
5. Introducción
Planteamiento
Precedentes de la tesis: Searchy
Estático
Planteamiento inicial
Dinámico
Definición de esfuerzo computacional
Fiabilidad
Conclusiones
Introducción
Origen de la pregunta de investigación
Planteamiento inicial
Extraer información con Algoritmos Genéticos, Programación
Genética y Evolución de Gramáticas
Otras aplicaciones de la Computación Evolutiva
Extracción de información con Algoritmos Genéticos
terminada
Extracción de información con Programación Genética (GP)
Esfuerzo computacional para medir el rendimiento
Ampliamente utilizado
Influencia de Koza
5 / 40
6. Introducción
Planteamiento
Precedentes de la tesis: Searchy
Estático
Planteamiento inicial
Dinámico
Definición de esfuerzo computacional
Fiabilidad
Conclusiones
Introducción
Definición de esfuerzo computacional
Probabilidad de éxito P(M, i) Curvas de Koza
1e+06
k(i)
1.0
P(M, i) = P(M,i)
n I(M,i,z)
8e+05
0.8
I (M, i, z)
‰ ı
ln(1 − z)
6e+05
0.6
I (M, i, z) = Mi
ln(1 − P(M, i))
I(M,i,z)
P(M,i)
i: generación
4e+05
0.4
M: tamaño población
z: probabilidad de éxito esperada
2e+05
0.2
Esfuerzo computacional (E ) 13: 117000
0e+00
0.0
E = min {I (M, i, z)} 0 10 20 30 40 50
i
Generación
6 / 40
8. Introducción
Planteamiento Exploración
Estático Modelo
Dinámico Experimentos
Fiabilidad Conclusiones
Conclusiones
Índice
1 Introducción
Precedentes de la tesis: Searchy
Origen de la pregunta de investigación
Definición de esfuerzo computacional
2 Planteamiento de la investigación
Análisis exploratorio
Modelo de probabilidad de éxito
Diseño experimental
Conclusiones de la sección
3 Estimación estática de la probabilidad de éxito P(M, G )
Distribución de la probabilidad estática de éxito
Intervalos de confianza
Resultado experimental con GP
Conclusiones de la sección
4 Estimación dinámica de la probabilidad de éxito
Introducción
Ajuste del modelo de generación de éxito
Validación del modelo de probabilidad de éxito
Análisis experimental de la generalización
Explicación teórica de los resultados
Conclusiones de la sección
5 Fiabilidad del esfuerzo computacional de Koza
Introducción
Efecto operador de redondeo sobre I (M, i, z)
Error de estimación sobre I (M, i, z)
Caracterización del error máximo esperado de E
6 Conclusiones
Conclusiones
Publicaciones
Trabajo futuro
8 / 40
9. Introducción
Planteamiento Exploración
Estático Modelo
Dinámico Experimentos
Fiabilidad Conclusiones
Conclusiones
Planteamiento de la investigación
Análisis exploratorio
Fuentes de incertidumbre: Redondeo y estimación
& ’
ln(1 − z) ln(1 − z)
I (M, i, z) = Mi = Mi + εI + εI
ceil est
ˆ
ln(1 − (P(M, i) + εest )) ˆ
ln(1 − P(M, i))
∂E
Estudio del error: ∆E = ∂P ∆P
Esta aproximación es inviable
Desconocemos la expresión de P(M, i): Modelo de P(M, i)
Desconocemos ∆P: Intervalos de confianza
9 / 40
10. Introducción
Planteamiento Exploración
Estático Modelo
Dinámico Experimentos
Fiabilidad Conclusiones
Conclusiones
Planteamiento del problema
Modelo de la probabilidad de éxito
P(M, i) proporciona información sobre
Cuánto de probable es encontrar una solución
Cuándo se espera encontrar la solución
1.0
Modelo de probabilidad de éxito
0.8
0.6
Probabilidad
P (M, i) = P(M, G )F (i)
0.4
P(M, G ): Prob. éxito estática
F (i): Prob. éxito dinámica 0.2 G=25
F(15)
0.0
F(G)
0 5 10 15 20 25 30
Generación
Problema: Caracterizar P(M, G ) y F (i)
10 / 40
11. Introducción
Planteamiento Exploración
Estático Modelo
Dinámico Experimentos
Fiabilidad Conclusiones
Conclusiones
Planteamiento de la investigación
Diseño experimental
Benchmarks:
Hormiga artificial, k-multiplexor, n-paridad, regresión
Dos problemas
P(M, i), I (M, i, z) y E son desconocidos
Necesidad de un alto número de ejecuciones
Solución: Remuestreo
Hormiga 6-Multiplexor 5-Paridad Regresión
n 100,000 100,000 5,000 100,000
k 13,168 95,629 305 29,462
ˆ
P best (M, G ) 0.13168 0.95629 0.061 0.29462
ˆ
E best 490,000 24,000 14,800,000 117,000
11 / 40
12. Introducción
Planteamiento Exploración
Estático Modelo
Dinámico Experimentos
Fiabilidad Conclusiones
Conclusiones
Planteamiento de la investigación
Conclusiones de la sección
Fases de la investigación
1 Caracterización de la probabilidad de éxito estática
2 Caracterización de la probabilidad de éxito dinámica
3 Determinación de la fiabilidad del esfuerzo computacional
Aproximación teórica y experimental
12 / 40
13. Introducción
Planteamiento Distribución
Estático Intervalos
Dinámico Experimentos
Fiabilidad Conclusiones
Conclusiones
Índice
1 Introducción
Precedentes de la tesis: Searchy
Origen de la pregunta de investigación
Definición de esfuerzo computacional
2 Planteamiento de la investigación
Análisis exploratorio
Modelo de probabilidad de éxito
Diseño experimental
Conclusiones de la sección
3 Estimación estática de la probabilidad de éxito P(M, G )
Distribución de la probabilidad estática de éxito
Intervalos de confianza
Resultado experimental con GP
Conclusiones de la sección
4 Estimación dinámica de la probabilidad de éxito
Introducción
Ajuste del modelo de generación de éxito
Validación del modelo de probabilidad de éxito
Análisis experimental de la generalización
Explicación teórica de los resultados
Conclusiones de la sección
5 Fiabilidad del esfuerzo computacional de Koza
Introducción
Efecto operador de redondeo sobre I (M, i, z)
Error de estimación sobre I (M, i, z)
Caracterización del error máximo esperado de E
6 Conclusiones
Conclusiones
Publicaciones
Trabajo futuro
13 / 40
14. Introducción
Planteamiento Distribución
Estático Intervalos
Dinámico Experimentos
Fiabilidad Conclusiones
Conclusiones
Estimación estática de la probabilidad de éxito P(M, G )
Distribución de la probabilidad estática de éxito
Objetivos
Caracterizar estadísticamente P(M, G )
Identificar el intervalo más adecuado
Determinar la aplicabilidad de intervalos de confianza en GP
Hormiga artificial 6−multiplexor
Modelo de prob. de éxito
90
Cuantiles experimentales
Cuantiles experimentales
485
80
k(G )
70
P(M, G ) =
475
60
n
50
465
k(G ) es binomial 50 60 70
Cuantiles teóricos
80 465 470 475 480
Cuantiles teóricos
485 490
Prueba teórica: Por definición 5−paridad Regresión lineal
180
Evidencia experimental
15 20 25 30 35 40 45
Cuantiles experimentales
Cuantiles experimentales
160
Supera χ2 con α = 0,05 y
140
distintos n
120
20 25 30 35 40 45 130 140 150 160 170 180
Cuantiles teóricos Cuantiles teóricos
14 / 40
15. Introducción
Planteamiento Distribución
Estático Intervalos
Dinámico Experimentos
Fiabilidad Conclusiones
Conclusiones
Estimación estática de la probabilidad de éxito P(M, G )
Intervalos de confianza binomiales
Propiedades independiente del algoritmo
Número de ejecuciones (n) y probabilidad de éxito (p)
Intervalos de confianza binomiales
Útiles para caracterizar la incertidumbre
¿Qué método usar?
Parámetros de calidad
Longitud del intervalo
Probabilidad de cobertura (CP)
15 / 40
17. Introducción
Planteamiento Distribución
Estático Intervalos
Dinámico Experimentos
Fiabilidad Conclusiones
Conclusiones
Estimación estática de la probabilidad de éxito P(M, G )
Resultado experimental con GP
Hormiga 6−Multiplexor 4−Paridad Regresion
1.00
1.00
1.00
1.00
0.95
0.95
0.95
0.95
0.90
0.90
0.90
0.90
CP
CP
CP
CP
0.85
0.85
0.85
0.85
0.80
0.80
0.80
0.80
5 15 27 39 51 63 75 87 99 5 15 27 39 51 63 75 87 99 5 15 27 39 51 63 75 87 99 5 15 27 39 51 63 75 87 99
Numero de ejec. (n) Numero de ejec. (n) Numero de ejec. (n) Numero de ejec. (n)
p=0.13168 p=0.95629 p=0.061 p=0.29462
1.00
1.00
1.00
1.00
0.95
0.95
0.95
0.95
0.90
0.90
0.90
0.90
CP
CP
CP
CP
0.85
0.85
0.85
0.85
0.80
0.80
0.80
0.80
20 40 60 80 100 20 40 60 80 100 20 40 60 80 100 20 40 60 80 100
Numero de ejec. (n) Numero de ejec. (n) Numero de eejec. (n) Numero de ejec. (n)
17 / 40
18. Introducción
Planteamiento Distribución
Estático Intervalos
Dinámico Experimentos
Fiabilidad Conclusiones
Conclusiones
Estimación estática de la probabilidad de éxito P(M, G )
Conclusiones de la sección
La probabilidad de éxito estática tiene una naturaleza binomial
Los intervalos de Wilson son adecuados para el estudio
18 / 40
19. Introducción Introducción
Planteamiento Ajuste
Estático Validación
Dinámico Análisis
Fiabilidad Explicación
Conclusiones Conclusiones
Índice
1 Introducción
Precedentes de la tesis: Searchy
Origen de la pregunta de investigación
Definición de esfuerzo computacional
2 Planteamiento de la investigación
Análisis exploratorio
Modelo de probabilidad de éxito
Diseño experimental
Conclusiones de la sección
3 Estimación estática de la probabilidad de éxito P(M, G )
Distribución de la probabilidad estática de éxito
Intervalos de confianza
Resultado experimental con GP
Conclusiones de la sección
4 Estimación dinámica de la probabilidad de éxito
Introducción
Ajuste del modelo de generación de éxito
Validación del modelo de probabilidad de éxito
Análisis experimental de la generalización
Explicación teórica de los resultados
Conclusiones de la sección
5 Fiabilidad del esfuerzo computacional de Koza
Introducción
Efecto operador de redondeo sobre I (M, i, z)
Error de estimación sobre I (M, i, z)
Caracterización del error máximo esperado de E
6 Conclusiones
Conclusiones
Publicaciones
Trabajo futuro
19 / 40
20. Introducción Introducción
Planteamiento Ajuste
Estático Validación
Dinámico Análisis
Fiabilidad Explicación
Conclusiones Conclusiones
Estimación dinámica de la probabilidad de éxito F (i)
Introducción
Modelo de probabilidad de éxito
P (M, i) = P(M, G )F (i)
Objetivos
Obtener la distribución de F (i)
Explicar teóricamente dicho modelo
F (i): Distribución acumulada de la generación de éxito
Tiempo hasta encontrar éxito
Definida únicamente cuando hay éxito
Desconocemos F (i): Estudio empírico
20 / 40
21. Introducción Introducción
Planteamiento Ajuste
Estático Validación
Dinámico Análisis
Fiabilidad Explicación
Conclusiones Conclusiones
Estimación dinámica de la probabilidad de éxito F (i)
Ajuste del modelo de generación de éxito
Hormiga artificial 4−Paridad 6−Multiplexor
q
q
0.08
q
0.04
0.08
Densidad
Densidad
Densidad
q
q q
0.04
q
0.02
0.04
q q
q
q
q q
q
q
q q q
0.00
0.00
0.00
q q q q
q q q q q q q q
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Generación de éxito Generación de éxito Generación de éxito
Regresión 5−Paridad 11−Multiplexor
0.006
Normal
q q q
q Lognormal
0.08
q Weibull
0.002 0.004
Densidad
Densidad
Densidad
Logística
0.002
q
q q
0.04
q
q
q q
q q
q q q
0.000
0.000
q
0.00
q q q q q
q q q q q q q q
0 10 20 30 40 50 0 200 400 600 800 0 200 400 600 800
Generación de éxito Generación de éxito Generación de éxito
Asumimos la distribución lognormal
21 / 40
22. Introducción Introducción
Planteamiento Ajuste
Estático Validación
Dinámico Análisis
Fiabilidad Explicación
Conclusiones Conclusiones
Estimación dinámica de la probabilidad de éxito F (i)
Ajuste del modelo de generación de éxito
Hormiga artificial 4−Paridad 6−Multiplexor
q
q
0.08
q
0.04
0.08
Densidad
Densidad
Densidad
q
q q
0.04
q
0.02
0.04
q q
q
q
q q
q
q
q q q
0.00
0.00
0.00
q q q q
q q q q q q q q
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Generación de éxito Generación de éxito Generación de éxito
Regresión 5−Paridad 11−Multiplexor
0.006
Normal
q q q
q Lognormal
0.08
q Weibull
0.002 0.004
Densidad
Densidad
Densidad
Logística
0.002
q
q q
0.04
q
q
q q
q q
q q q
0.000
0.000
q
0.00
q q q q q
q q q q q q q q
0 10 20 30 40 50 0 200 400 600 800 0 200 400 600 800
Generación de éxito Generación de éxito Generación de éxito
Asumimos la distribución lognormal
21 / 40
23. Introducción Introducción
Planteamiento Ajuste
Estático Validación
Dinámico Análisis
Fiabilidad Explicación
Conclusiones Conclusiones
Estimación dinámica de la probabilidad de éxito F (i)
Validación del modelo de probabilidad de éxito
Hormiga 5−Paridad
0.20
Standard
Probabilidad de exito
Probabilidad de exito
Lognormal
0.08
0.10
0.04
Modelo
0.00
0.00
k(G )
P (M, i) = Φ (µ, σ) 0 10 20 30 40 50 0 10 20 30 40 50
n Generacion Generacion
6−Multiplexor Regresion
0.4
Probabilidad de exito
Probabilidad de exito
Dos métodos
0.8
0.3
P(M, i)
0.2
0.4
P (M, i)
0.1
0.0
0.0
0 10 20 30 40 50 0 10 20 30 40 50
Generacion Generacion
22 / 40
26. Introducción Introducción
Planteamiento Ajuste
Estático Validación
Dinámico Análisis
Fiabilidad Explicación
Conclusiones Conclusiones
Estimación dinámica de la probabilidad de éxito F (i)
Conclusiones de la sección
Distribución de la generación de éxito
Caso general: Lognormal
Fase inicial eliminada: Exponencial
Sin presión selectiva: Weibull
En ausencia de memoria la generación de éxito es exponencial
El modelo propuesto queda validado
25 / 40
27. Introducción
Planteamiento Introducción
Estático Redondeo I
Dinámico Estimación I
Fiabilidad Error E
Conclusiones
Índice
1 Introducción
Precedentes de la tesis: Searchy
Origen de la pregunta de investigación
Definición de esfuerzo computacional
2 Planteamiento de la investigación
Análisis exploratorio
Modelo de probabilidad de éxito
Diseño experimental
Conclusiones de la sección
3 Estimación estática de la probabilidad de éxito P(M, G )
Distribución de la probabilidad estática de éxito
Intervalos de confianza
Resultado experimental con GP
Conclusiones de la sección
4 Estimación dinámica de la probabilidad de éxito
Introducción
Ajuste del modelo de generación de éxito
Validación del modelo de probabilidad de éxito
Análisis experimental de la generalización
Explicación teórica de los resultados
Conclusiones de la sección
5 Fiabilidad del esfuerzo computacional de Koza
Introducción
Efecto operador de redondeo sobre I (M, i, z)
Error de estimación sobre I (M, i, z)
Caracterización del error máximo esperado de E
6 Conclusiones
Conclusiones
Publicaciones
Trabajo futuro
26 / 40
28. Introducción
Planteamiento Introducción
Estático Redondeo I
Dinámico Estimación I
Fiabilidad Error E
Conclusiones
Fiabilidad del esfuerzo computacional de Koza
Introducción
Objetivos
Determinar la fiabilidad de E
Caracterizar el error máximo esperado de E y ˆ(M, i, z)
ˆ I
& ’
ln(1 − z) ln(1 − z)
I (M, i, z) = Mi = Mi + εI + εI
ceil est
ˆ
ln(1 − (P(M, i) + εest )) ˆ
ln(1 − P(M, i))
Dos fuentes de variabilidad: Redondeo y estimación de P(M, i)
Dos objetos de estudio: I (M, i, z) y E
27 / 40
30. Introducción
Planteamiento Introducción
Estático Redondeo I
Dinámico Estimación I
Fiabilidad Error E
Conclusiones
I(M,i,z)
Error de estimación sobre I (M, i, z) (I)
Error de estimación e I(M,i,z)
100
0
Error relativo de estimación (εIest)(%)
−100
Cota del error de estimación relativo
−200
ln(1 − P(M, i))
εIest ( %) ≤ 1 −
ln(1 − (P(M, i) + εest ))
−300
−400
P = 0.1
P = 0.25
P = 0.5
−500
P = 0.75
P = 0.9
−600
−0.6 −0.4 −0.2 0.0 0.2 0.4 0.6
Error de estimación (εest)
29 / 40
31. Introducción
Planteamiento Introducción
Estático Redondeo I
Dinámico Estimación I
Fiabilidad Error E
Conclusiones
I(M,i,z)
Error de estimación sobre I (M, i, z) (II)
Error máximo de estimación de I(M,i,z), max(εIest(%))
140
Cota del error de estimación relativo en
120
función de n y p
Número de ejecuciones (n)
100
!
I ln(1 − p )
˜ 1 1
εest ( %) ≤ −
ln(1 − Li ) ln(1 − Ui )
80
2
60
[Li , Ui ] es el intervalo de Wilson de (pi , n)
40
20
0.2 0.4 0.6 0.8
Probabilidad de éxito (P)
30 / 40
32. Introducción
Planteamiento Introducción
Estático Redondeo I
Dinámico Estimación I
Fiabilidad Error E
Conclusiones
I(M,i,z)
Error de estimación sobre I (M, i, z) (III)
Hormiga 6−Multiplexor
Error relativo estimacion (%)
Error relativo estimacion (%)
100
100
0
0
−200 −100
Experimento
−200
0.00 0.05 0.10 0.15 0.20 0.0 0.2 0.4 0.6 0.8 1.0
1 Remuestrear 50 ejecuciones
Calcular ˆ(M, i, z)
Probabilidad exito (p) Probabilidad exito (p)
2 I
5−Parity Regresion
Almacenar (pi , εI% )
Error relativo estimacion (%)
Error relativo estimacion (%)
3
100
50
0
4 Ir a 1) 200 veces
−50 0
Dibujar los pares (pi , εI% )
−200
5
−150
0.00 0.04 0.08 0.12 0.0 0.1 0.2 0.3 0.4
Probabilidad exito (p) Probabilidad exito (p)
31 / 40
33. Introducción
Planteamiento Introducción
Estático Redondeo I
Dinámico Estimación I
Fiabilidad Error E
Conclusiones
I(M,i,z)
Error de estimación sobre I (M, i, z) (III)
Hormiga 6−Multiplexor
Error relativo estimacion (%)
Error relativo estimacion (%)
100
100
Error máximo de estimación de I(M,i,z), max(εIest(%))
0
0
−200 −100
140
−200
120
0.00 0.05 0.10 0.15 0.20 0.0 0.2 0.4 0.6 0.8 1.0
Número de ejecuciones (n)
Probabilidad exito (p) Probabilidad exito (p)
100
5−Parity Regresion
80
Error relativo estimacion (%)
Error relativo estimacion (%)
100
50
0
60
−50 0
40
−200
−150
20
0.00 0.04 0.08 0.12 0.0 0.1 0.2 0.3 0.4
Probabilidad exito (p) Probabilidad exito (p) 0.2 0.4 0.6 0.8
Probabilidad de éxito (P)
31 / 40
34. Introducción
Planteamiento Introducción
Estático Redondeo I
Dinámico Estimación I
Fiabilidad Error E
Conclusiones
Error del esfuerzo computacional
Caracterización del error máximo esperado de E (I)
E puede expresarse como E = f (p, µ, σ)
( )
ln(1 − z) (µ0,σ0)
E = min Mi σ0
σ
q
i k(G )
ln(1 − n Φ(µ, σ))
µ0
µ
32 / 40
35. Introducción
Planteamiento Introducción
Estático Redondeo I
Dinámico Estimación I
Fiabilidad Error E
Conclusiones
Error del esfuerzo computacional
Caracterización del error máximo esperado de E (II)
Calculamos la incertidumbre con
intervalos de confianza
σ+
(µ0,σ0)
m«x(| E (µ, σ) − E (µ , σ ) |)
a σ0
σ
q
∆E % =
E (µ, σ) σ−
µ− µ0 µ+
µ
33 / 40