Full Waveform Inversion: Introdução e Aplicações [3/5]

80 visualizações

Publicada em

Minicurso de FWI ministrado por Bruno Pereira Dias, André Bulcão e Djalma Manoel Soares Filho (PETROBRAS), durante a VII Semana de Inverno de Geofísica, 2016, no IMECC/UNICAMP.

Neste módulo são abordados métodos de otimização usualmente empregados nos problemas de FWI.

Publicada em: Ciências
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
80
No SlideShare
0
A partir de incorporações
0
Número de incorporações
17
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Full Waveform Inversion: Introdução e Aplicações [3/5]

  1. 1. Full Waveform Inversion: Introdução e Aplicações Módulo 03: Otimização - Métodos Não-Lineares Iterativos Bruno Pereira Dias, Andé Bulcão, Djalma Manoel Soares Filho VII Semana de Inverno de Geofísica, 6 a 8 de Julho/2016 INCT-GP, UNICAMP, Campinas, SP, BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 1 / 58
  2. 2. Ementa Módulo 01 Introdução, Contextualização, Motivação Módulo 02 Modelagem, Extrapolação do campo de Ondas Módulo 03 Métodos de Otimização Módulo 04 FWI: Algoritmo Geral, tópicos relacionados (salto de ciclo, multi-escala, relação oset-frequência,etc...) Módulo 05 FWI: Método Adjunto e Aplicações (Madagascar) Módulo 06 FWI: Teoria à Prática (Palestra WorkShop SBGF 2015) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 2 / 58
  3. 3. Problemas Direto e Inverso d = L(p) p = L−1 (d) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 3 / 58
  4. 4. Inversão Sísmica A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em alta resolução através do ajuste de dados baseado na modelagem completa da onda. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 4 / 58
  5. 5. Inversão Sísmica A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em alta resolução através do ajuste de dados baseado na modelagem completa da onda. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 5 / 58
  6. 6. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 6 / 58
  7. 7. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 7 / 58
  8. 8. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  9. 9. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  10. 10. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  11. 11. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  12. 12. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  13. 13. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  14. 14. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  15. 15. Introdução Objetivo da otimização Encontrar, de modo determínistico, um modelo ótimo m∗, que minimize um função objetivo χ (m), usado para quanticar as discrepâncias entre os sismogramas observados u0 (x,t) e os sintéticos u(m;x,t). Modelo Um modelo m compreende em distribuições de quantidades espaciais de onda compressional vP (x), onda cisalhante vS (x), densidade ρ (x), entre outros (ou combinação destes parâmeros IP, IS etc): m(x) = [m1 (x),m2 (x),m3 (x),...] = [vP (x),vS (x),ρ (x),...] BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 9 / 58
  16. 16. Introdução Objetivo da otimização Encontrar, de modo determínistico, um modelo ótimo m∗, que minimize um função objetivo χ (m), usado para quanticar as discrepâncias entre os sismogramas observados u0 (x,t) e os sintéticos u(m;x,t). Modelo Um modelo m compreende em distribuições de quantidades espaciais de onda compressional vP (x), onda cisalhante vS (x), densidade ρ (x), entre outros (ou combinação destes parâmeros IP, IS etc): m(x) = [m1 (x),m2 (x),m3 (x),...] = [vP (x),vS (x),ρ (x),...] BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 9 / 58
  17. 17. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  18. 18. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  19. 19. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  20. 20. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  21. 21. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  22. 22. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  23. 23. Referências Gill, P. E., Murray, W., Wright, M. H.: Practical optimization. Academic Press, London (1981). Fletcher, R.: Practical methods of optimization. Wiley, New York, NY (1987). Polak, E.: Optimization. Springer, New York, NY (1997). Kelley, C. T.: Iterative methods for optimization. SIAM, Philadelphia, PA (1999). Quarteroni, A., Sacco, R., Saleri, F.: Numerical Mathematics. Springer, New York, NY (2000). Nocedal, J., Wright, J. S.: Numerical Optimization, Springer, New York, NY (2006). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 11 / 58
  24. 24. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 12 / 58
  25. 25. Norma Denição O conceito de norma está relacionado à noção geométrica de comprimento. Consiste em uma função que a cada vetor associa um número real não-negativo. Norma L1 m 1 := ∑ k |mk (x)|d3x Norma L2 m 2 := ∑ k |mk (x)|2 d3x Norma Lp m p := p ∑ k |mk (x)|p d3x, 1≤ p ∞ BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
  26. 26. Norma Denição O conceito de norma está relacionado à noção geométrica de comprimento. Consiste em uma função que a cada vetor associa um número real não-negativo. Norma L1 m 1 := ∑ k |mk (x)|d3x Norma L2 m 2 := ∑ k |mk (x)|2 d3x Norma Lp m p := p ∑ k |mk (x)|p d3x, 1≤ p ∞ BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
  27. 27. Norma Denição O conceito de norma está relacionado à noção geométrica de comprimento. Consiste em uma função que a cada vetor associa um número real não-negativo. Norma L1 m 1 := ∑ k |mk (x)|d3x Norma L2 m 2 := ∑ k |mk (x)|2 d3x Norma Lp m p := p ∑ k |mk (x)|p d3x, 1≤ p ∞ BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
  28. 28. Norma Denição O conceito de norma está relacionado à noção geométrica de comprimento. Consiste em uma função que a cada vetor associa um número real não-negativo. Norma L1 m 1 := ∑ k |mk (x)|d3x Norma L2 m 2 := ∑ k |mk (x)|2 d3x Norma Lp m p := p ∑ k |mk (x)|p d3x, 1≤ p ∞ BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
  29. 29. Base Uma base de um espaço vetorial é um conjunto de vetores linearmente independentes que geram esse espaço. Os constituintes do modelo m, por exemplo, vP (x) estão representados por uma combinação linear de N funções linearmente independentes, vP (x) = N ∑ j=1 vP,j bj (x). Funções de base típicas: harmônicos esféricos, splines, blocos. Discretização permite utilizar a notação matricial m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,... BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
  30. 30. Base Uma base de um espaço vetorial é um conjunto de vetores linearmente independentes que geram esse espaço. Os constituintes do modelo m, por exemplo, vP (x) estão representados por uma combinação linear de N funções linearmente independentes, vP (x) = N ∑ j=1 vP,j bj (x). Funções de base típicas: harmônicos esféricos, splines, blocos. Discretização permite utilizar a notação matricial m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,... BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
  31. 31. Base Uma base de um espaço vetorial é um conjunto de vetores linearmente independentes que geram esse espaço. Os constituintes do modelo m, por exemplo, vP (x) estão representados por uma combinação linear de N funções linearmente independentes, vP (x) = N ∑ j=1 vP,j bj (x). Funções de base típicas: harmônicos esféricos, splines, blocos. Discretização permite utilizar a notação matricial m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,... BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
  32. 32. Base Uma base de um espaço vetorial é um conjunto de vetores linearmente independentes que geram esse espaço. Os constituintes do modelo m, por exemplo, vP (x) estão representados por uma combinação linear de N funções linearmente independentes, vP (x) = N ∑ j=1 vP,j bj (x). Funções de base típicas: harmônicos esféricos, splines, blocos. Discretização permite utilizar a notação matricial m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,... BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
  33. 33. Mínimo Local e Global 1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M) 2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2)) 3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M) 4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4)) Figura extraída de Fitchner 2010. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
  34. 34. Mínimo Local e Global 1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M) 2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2)) 3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M) 4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4)) Figura extraída de Fitchner 2010. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
  35. 35. Mínimo Local e Global 1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M) 2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2)) 3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M) 4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4)) Figura extraída de Fitchner 2010. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
  36. 36. Mínimo Local e Global 1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M) 2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2)) 3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M) 4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4)) Figura extraída de Fitchner 2010. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
  37. 37. Condições de Otimalidade Condição de Primeira Ordem Se ˜m é um mínimo local de χ, isto é, χ ( ˜m) ≤ χ (m), ∀m ∈ Nr ( ˜m), então ∇mχ ( ˜m) = 0. Condição de Segunda Ordem Se ˜m é um mínimo local de χ, m·Hχ ( ˜m)·m 0, ∀m ∈ M. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 16 / 58
  38. 38. Condições de Otimalidade Condição de Primeira Ordem Se ˜m é um mínimo local de χ, isto é, χ ( ˜m) ≤ χ (m), ∀m ∈ Nr ( ˜m), então ∇mχ ( ˜m) = 0. Condição de Segunda Ordem Se ˜m é um mínimo local de χ, m·Hχ ( ˜m)·m 0, ∀m ∈ M. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 16 / 58
  39. 39. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 17 / 58
  40. 40. FWI como um problema de otimização FWI é uma ferramenta para se obter modelos de propriedades da subsuperfície em alta resolução através do ajuste de dados baseado na modelagem completa da onda. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 18 / 58
  41. 41. Comparação Métodos de Otimização Locais e Globais Métodos Globais 1 Avalia-se a função objetivo em todo espaço de modelo. 2 Adequado para problemas altamente não-lineares, com presença de mínimos locais e/ou informações de derivadas não disponíveis. 3 Dependendo da dimensionalidade do problema (número de parâmetros), o custo computacional pode tornar o método impraticável. Métodos Locais 1 Visam encontrar um mínimo na vizinhança de um modelo inicial fornecido. 2 Utilizam derivadas da função (gradiente, Hessiana) para determinar direção de busca. 3 São computacionalmente mais ecientes para lidar com problemas de grande porte. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 19 / 58
  42. 42. Comparação Métodos de Otimização Locais e Globais Métodos Globais 1 Avalia-se a função objetivo em todo espaço de modelo. 2 Adequado para problemas altamente não-lineares, com presença de mínimos locais e/ou informações de derivadas não disponíveis. 3 Dependendo da dimensionalidade do problema (número de parâmetros), o custo computacional pode tornar o método impraticável. Métodos Locais 1 Visam encontrar um mínimo na vizinhança de um modelo inicial fornecido. 2 Utilizam derivadas da função (gradiente, Hessiana) para determinar direção de busca. 3 São computacionalmente mais ecientes para lidar com problemas de grande porte. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 19 / 58
  43. 43. Método Monte-Carlo Procura-se menor valor da função objetivo aleatoriamente. Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais. Desvantagem: Necessita grande número de iterações. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.989,1.515) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (0.954,0.939) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
  44. 44. Método Monte-Carlo Procura-se menor valor da função objetivo aleatoriamente. Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais. Desvantagem: Necessita grande número de iterações. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.989,1.515) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (0.954,0.939) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
  45. 45. Método Monte-Carlo Procura-se menor valor da função objetivo aleatoriamente. Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais. Desvantagem: Necessita grande número de iterações. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.989,1.515) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (0.954,0.939) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
  46. 46. Método Caminho Aleatório A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo. Vantagem: não necessita o cálculo do gradiente χ. Desvantagem: necessita grande número de iterações Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (1.022,1.043) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
  47. 47. Método Caminho Aleatório A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo. Vantagem: não necessita o cálculo do gradiente χ. Desvantagem: necessita grande número de iterações Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (1.022,1.043) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
  48. 48. Método Caminho Aleatório A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo. Vantagem: não necessita o cálculo do gradiente χ. Desvantagem: necessita grande número de iterações Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (1.022,1.043) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
  49. 49. Métodos Descendentes Gerais Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule uma direção descendente hi = −Ai ·∇mχ (mi ). 3 Atualize mi de acordo com mi+1 = mi +γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
  50. 50. Métodos Descendentes Gerais Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule uma direção descendente hi = −Ai ·∇mχ (mi ). 3 Atualize mi de acordo com mi+1 = mi +γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
  51. 51. Métodos Descendentes Gerais Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule uma direção descendente hi = −Ai ·∇mχ (mi ). 3 Atualize mi de acordo com mi+1 = mi +γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
  52. 52. Métodos Descendentes Gerais Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule uma direção descendente hi = −Ai ·∇mχ (mi ). 3 Atualize mi de acordo com mi+1 = mi +γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
  53. 53. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 23 / 58
  54. 54. Método do Gradiente Modicado de Nocedal, 2006 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 24 / 58
  55. 55. Método do Gradiente Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ) 3 Atualize mi : mi+1 = mi −γi ∇mχ (mi ), com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
  56. 56. Método do Gradiente Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ) 3 Atualize mi : mi+1 = mi −γi ∇mχ (mi ), com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
  57. 57. Método do Gradiente Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ) 3 Atualize mi : mi+1 = mi −γi ∇mχ (mi ), com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
  58. 58. Método do Gradiente Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ) 3 Atualize mi : mi+1 = mi −γi ∇mχ (mi ), com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
  59. 59. Método Gradiente A partir de um valor inicial procura-se direção com maior redução valor função objetivo. Vantagem: necessita somente do cálculo do gradiente χ. Desvantagem: pode ter uma taxa de convergência muito lenta. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 54 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 993 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
  60. 60. Método Gradiente A partir de um valor inicial procura-se direção com maior redução valor função objetivo. Vantagem: necessita somente do cálculo do gradiente χ. Desvantagem: pode ter uma taxa de convergência muito lenta. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 54 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 993 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
  61. 61. Método Gradiente A partir de um valor inicial procura-se direção com maior redução valor função objetivo. Vantagem: necessita somente do cálculo do gradiente χ. Desvantagem: pode ter uma taxa de convergência muito lenta. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 54 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 993 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
  62. 62. Método do Gradiente Extraído de Chong-Zak, 4th Ed (2013). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 27 / 58
  63. 63. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 28 / 58
  64. 64. Método de Newton Método de declividade máxima, a direção de atualização, hi , contém somente informação da primeira derivada no modelo mi . Método de Newton contém informações das derivadas segundas, o que leva a uma convergência muito mais rápida (perto da solução). Condição de otimalidade: ∇mχ ( ˜m) = 0 0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m). Solução para ˜m, ˜m ≈ m−H−1 χ (m)·∇mχ (m). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
  65. 65. Método de Newton Método de declividade máxima, a direção de atualização, hi , contém somente informação da primeira derivada no modelo mi . Método de Newton contém informações das derivadas segundas, o que leva a uma convergência muito mais rápida (perto da solução). Condição de otimalidade: ∇mχ ( ˜m) = 0 0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m). Solução para ˜m, ˜m ≈ m−H−1 χ (m)·∇mχ (m). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
  66. 66. Método de Newton Método de declividade máxima, a direção de atualização, hi , contém somente informação da primeira derivada no modelo mi . Método de Newton contém informações das derivadas segundas, o que leva a uma convergência muito mais rápida (perto da solução). Condição de otimalidade: ∇mχ ( ˜m) = 0 0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m). Solução para ˜m, ˜m ≈ m−H−1 χ (m)·∇mχ (m). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
  67. 67. Método de Newton Método de declividade máxima, a direção de atualização, hi , contém somente informação da primeira derivada no modelo mi . Método de Newton contém informações das derivadas segundas, o que leva a uma convergência muito mais rápida (perto da solução). Condição de otimalidade: ∇mχ ( ˜m) = 0 0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m). Solução para ˜m, ˜m ≈ m−H−1 χ (m)·∇mχ (m). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
  68. 68. Método de Newton Extraído de Chong-Zak, 4th Ed (2013). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 30 / 58
  69. 69. Método de Newton Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ). 3 Determine a solução descendente, hi , como solução do sistema Hχ (m)·hi = −∇mχ (mi ). 4 Atualize mi : mi+1 = mi −γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 5 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
  70. 70. Método de Newton Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ). 3 Determine a solução descendente, hi , como solução do sistema Hχ (m)·hi = −∇mχ (mi ). 4 Atualize mi : mi+1 = mi −γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 5 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
  71. 71. Método de Newton Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ). 3 Determine a solução descendente, hi , como solução do sistema Hχ (m)·hi = −∇mχ (mi ). 4 Atualize mi : mi+1 = mi −γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 5 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
  72. 72. Método de Newton Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ). 3 Determine a solução descendente, hi , como solução do sistema Hχ (m)·hi = −∇mχ (mi ). 4 Atualize mi : mi+1 = mi −γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 5 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
  73. 73. Método de Newton Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ). 3 Determine a solução descendente, hi , como solução do sistema Hχ (m)·hi = −∇mχ (mi ). 4 Atualize mi : mi+1 = mi −γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 5 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
  74. 74. Método de Newton A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de atualização. Vantagem: convergência quadrática. Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 11 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
  75. 75. Método de Newton A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de atualização. Vantagem: convergência quadrática. Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 11 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
  76. 76. Método de Newton A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de atualização. Vantagem: convergência quadrática. Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 11 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
  77. 77. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 33 / 58
  78. 78. Método Gradiente Conjugado Evita direções de atualização repetidas utilizando informações de gradiente e passo anterior. Para um problema linear, o algoritmo converge após n iterações, sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2 Painless Conjugate Gradient) Problema linear: Jm = d Jm−d = 0 ⇒ min m χ (m) = Jm−d 2 χ (m) é uma forma quadrática: χ (m) = (Jm−d)T (Jm−d) = m· H JT J ·m+··· BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
  79. 79. Método Gradiente Conjugado Evita direções de atualização repetidas utilizando informações de gradiente e passo anterior. Para um problema linear, o algoritmo converge após n iterações, sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2 Painless Conjugate Gradient) Problema linear: Jm = d Jm−d = 0 ⇒ min m χ (m) = Jm−d 2 χ (m) é uma forma quadrática: χ (m) = (Jm−d)T (Jm−d) = m· H JT J ·m+··· BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
  80. 80. Método Gradiente Conjugado Evita direções de atualização repetidas utilizando informações de gradiente e passo anterior. Para um problema linear, o algoritmo converge após n iterações, sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2 Painless Conjugate Gradient) Problema linear: Jm = d Jm−d = 0 ⇒ min m χ (m) = Jm−d 2 χ (m) é uma forma quadrática: χ (m) = (Jm−d)T (Jm−d) = m· H JT J ·m+··· BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
  81. 81. Método do Gradiente vs. Gradiente Conjugado Extraído de Chong-Zak, 4th Ed (2013). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 35 / 58
  82. 82. Método do Gradiente vs. Gradiente Conjugado Extraído de Chong-Zak, 4th Ed (2013). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 35 / 58
  83. 83. Método Gradiente Conjugado Primeira direção = -gradiente. Direções seguintes: combinação entre gradiente e passo anterior. Vantagem: rápida convergência e não necessita cálculo da Hessiana. Desvantagem: Pode necessitar reinicialização. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 11 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 55 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
  84. 84. Método Gradiente Conjugado Primeira direção = -gradiente. Direções seguintes: combinação entre gradiente e passo anterior. Vantagem: rápida convergência e não necessita cálculo da Hessiana. Desvantagem: Pode necessitar reinicialização. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 11 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 55 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
  85. 85. Método Gradiente Conjugado Primeira direção = -gradiente. Direções seguintes: combinação entre gradiente e passo anterior. Vantagem: rápida convergência e não necessita cálculo da Hessiana. Desvantagem: Pode necessitar reinicialização. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 11 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 55 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
  86. 86. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 37 / 58
  87. 87. Método Quasi-Newton (l-BFGS) Pontos-Chave 1 Método que busca aproximar a Hessiana utilizando a informação de N gradientes e atualizações anteriores. 2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja, não é necessário invertê-la para atualização. 3 Não é necessário armazenar a aproximação do inverso da Hessiana. Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
  88. 88. Método Quasi-Newton (l-BFGS) Pontos-Chave 1 Método que busca aproximar a Hessiana utilizando a informação de N gradientes e atualizações anteriores. 2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja, não é necessário invertê-la para atualização. 3 Não é necessário armazenar a aproximação do inverso da Hessiana. Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
  89. 89. Método Quasi-Newton (l-BFGS) Pontos-Chave 1 Método que busca aproximar a Hessiana utilizando a informação de N gradientes e atualizações anteriores. 2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja, não é necessário invertê-la para atualização. 3 Não é necessário armazenar a aproximação do inverso da Hessiana. Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
  90. 90. Método Quasi-Newton (l-BFGS) mi+1 = mi −γi H−1 χ ∇mχ (mi ) H−1 χ = B é atualizado por meio da expressão Bi+1 = VT i Bi Vi +ρi si sT i onde ρi = 1 yT i si , Vi = I−ρi yi sT i com si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi ) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 39 / 58
  91. 91. Método Quasi-Newton (l-BFGS) Pode-se deduzir um procedimento recursivo para calcular o produto Bi ∇mχ (mi ) ecientemente: Bi = VT i−1 ...VT i−m B0 i (Vi−m −Vi−1) +ρi−m VT i−1 ...VT i−m+1 si−msT i−m (Vi−m+1 ...Vi−1) +ρi−m+1 VT i−1 ...VT i−m+2 si−m+1sT i−m+1 (Vi−m+2 ...Vi−1) +... +ρi−1si−1sT i−1 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 40 / 58
  92. 92. Método Quasi-Newton (l-BFGS) Algoritmo recursivo q ← ∇mχ (mk) for i = k −1,k −2,...,k −m α ← ρi sT i q q ← q−αi yi end for r ←B0 kq for i = k −m,k −m +1,...,k −1 β ← ρi yT i r r ← r+si (αi −β) end for stop with result Bk∇mχ (mk) = r BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 41 / 58
  93. 93. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 42 / 58
  94. 94. Busca Linear Modicado de Nocedal, 2006 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 43 / 58
  95. 95. Busca Linear Denição Para cada iteração do método de otimização, o algoritmo de busca linear decide quanto atualizar o modelo dada uma direção: mi+1 = mi +γi hi , onde γi é um escalar positivo denominado tamanho do passo. O sucesso da busca linear depende da escolha da direção de atualização hi . O algoritmos descendentes gerais, assumem que hi ·∇mχ (mi ) 0. Assim, existe γi (sucientemente pequeno) tal que χ (mi+i ) χ (mi ). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 44 / 58
  96. 96. Busca Linear Denição Para cada iteração do método de otimização, o algoritmo de busca linear decide quanto atualizar o modelo dada uma direção: mi+1 = mi +γi hi , onde γi é um escalar positivo denominado tamanho do passo. O sucesso da busca linear depende da escolha da direção de atualização hi . O algoritmos descendentes gerais, assumem que hi ·∇mχ (mi ) 0. Assim, existe γi (sucientemente pequeno) tal que χ (mi+i ) χ (mi ). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 44 / 58
  97. 97. Busca Linear Busca Linear Exata A busca linear exata consiste em encontrar γ tal que min γ φ (γ) = χ (mk +γhi ) Ao calcular γ esbarramos em um dilema: Para encontrar o mínimo de φ (γ) é necessário a avaliação da função objetivo inúmeras vezes. Um passo inadequado pode degradar a performance do algoritmo de otimização. Busca Linear Inexata Objetivo: encontrar um tamanho de passo adequado, que garanta a redução de χ com um custo computacional mínimo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
  98. 98. Busca Linear Busca Linear Exata A busca linear exata consiste em encontrar γ tal que min γ φ (γ) = χ (mk +γhi ) Ao calcular γ esbarramos em um dilema: Para encontrar o mínimo de φ (γ) é necessário a avaliação da função objetivo inúmeras vezes. Um passo inadequado pode degradar a performance do algoritmo de otimização. Busca Linear Inexata Objetivo: encontrar um tamanho de passo adequado, que garanta a redução de χ com um custo computacional mínimo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
  99. 99. Busca Linear Busca Linear Exata A busca linear exata consiste em encontrar γ tal que min γ φ (γ) = χ (mk +γhi ) Ao calcular γ esbarramos em um dilema: Para encontrar o mínimo de φ (γ) é necessário a avaliação da função objetivo inúmeras vezes. Um passo inadequado pode degradar a performance do algoritmo de otimização. Busca Linear Inexata Objetivo: encontrar um tamanho de passo adequado, que garanta a redução de χ com um custo computacional mínimo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
  100. 100. Exemplo de Convergência Inadequada Fonte: Nocedal 2006 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 46 / 58
  101. 101. Busca Linear Algoritmo de Busca Linear Backtracking Escolha ¯γ 0,ρ ∈ (0,1); Faça γ ← ¯γ Repita até χ (mi +γhi ) χ (mi ) α ← ρα m (repita) γi = γ ρ: fator de contração. ¯γ: valor do passo inicial. Deve-se utilizar informação a priori do problema para determinar ρ e ¯γ. Nocedal, Wright 2006: Sec. 3.1 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 47 / 58
  102. 102. Busca Linear Estimativa do tamanho do passo por aproximação parabólica Avalia-se 3 valores da função objetivo. Um dos valores γ = 0 é fornecido pela estimativa da iteração anterior. Ajuste parabólico γ∗, dadas as condições: χ (γ1) χ (0) χ (γ1) χ (γ2) Documentação FWT2D v.4.8: Sec. 3.1.4 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 48 / 58
  103. 103. Busca Linear Método Barzilai-Borwein Motivação: Qual γ melhor aproxima H−1 χ ? método gradiente: mi+1 = mi −γi ∇mχ (mi ), método Newton: mi+1 = mi −H−1 χ ·∇mχ (mi ), Solução 1: γ1 i = sT i−1si−1 sT i−1yi−1 Solução 2: γ2 i = sT i−1yi−1 yT i−1yi−1 si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi ) J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical Analysis, 8(1):141148, 1988. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
  104. 104. Busca Linear Método Barzilai-Borwein Motivação: Qual γ melhor aproxima H−1 χ ? método gradiente: mi+1 = mi −γi ∇mχ (mi ), método Newton: mi+1 = mi −H−1 χ ·∇mχ (mi ), Solução 1: γ1 i = sT i−1si−1 sT i−1yi−1 Solução 2: γ2 i = sT i−1yi−1 yT i−1yi−1 si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi ) J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical Analysis, 8(1):141148, 1988. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
  105. 105. Busca Linear Método Barzilai-Borwein Motivação: Qual γ melhor aproxima H−1 χ ? método gradiente: mi+1 = mi −γi ∇mχ (mi ), método Newton: mi+1 = mi −H−1 χ ·∇mχ (mi ), Solução 1: γ1 i = sT i−1si−1 sT i−1yi−1 Solução 2: γ2 i = sT i−1yi−1 yT i−1yi−1 si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi ) J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical Analysis, 8(1):141148, 1988. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
  106. 106. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 50 / 58
  107. 107. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  108. 108. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  109. 109. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  110. 110. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  111. 111. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  112. 112. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  113. 113. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  114. 114. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  115. 115. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  116. 116. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  117. 117. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  118. 118. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  119. 119. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  120. 120. Próximos capítulos...
  121. 121. FWI como um problema de otimização Problema direto: simulação numérica da propagação da onda Calcular o campo de onda u (x,t ou ω) L (p)u (x,t ou ω) = f (x,t ou ω) onde L (p) é um operador diferencial linear em u (x,t ou ω) não linear em p (x) Solução de um problema inverso Obter m (x) no espaço de parâmetros tal que minmχ (m) = 1 2 Ns ∑ s=1 Rsus (m)−ds 2 Ns: número de fontes Rs: operador de restrição de us para os receptores us (m): solução do problema direto para fonte fs ds: dado registrado (sismograma) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 54 / 58
  122. 122. FWI como um problema de otimização Problema direto: simulação numérica da propagação da onda Calcular o campo de onda u (x,t ou ω) L (p)u (x,t ou ω) = f (x,t ou ω) onde L (p) é um operador diferencial linear em u (x,t ou ω) não linear em p (x) Solução de um problema inverso Obter m (x) no espaço de parâmetros tal que minmχ (m) = 1 2 Ns ∑ s=1 Rsus (m)−ds 2 Ns: número de fontes Rs: operador de restrição de us para os receptores us (m): solução do problema direto para fonte fs ds: dado registrado (sismograma) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 54 / 58
  123. 123. Destacam-se duas ferramentas que permitem a solução de problemas de grande porte: Métodos de otimização local Visa encontrar um mínimo na vizinhança de um modelo inicial fornecido. O método atualiza o modelo de subsuperfície procurando minimizar iterativamente o valor de χ (m). Método adjunto Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto no domínio do tempo, como no da frequência). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
  124. 124. Destacam-se duas ferramentas que permitem a solução de problemas de grande porte: Métodos de otimização local Visa encontrar um mínimo na vizinhança de um modelo inicial fornecido. O método atualiza o modelo de subsuperfície procurando minimizar iterativamente o valor de χ (m). Método adjunto Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto no domínio do tempo, como no da frequência). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
  125. 125. Destacam-se duas ferramentas que permitem a solução de problemas de grande porte: Métodos de otimização local Visa encontrar um mínimo na vizinhança de um modelo inicial fornecido. O método atualiza o modelo de subsuperfície procurando minimizar iterativamente o valor de χ (m). Método adjunto Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto no domínio do tempo, como no da frequência). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
  126. 126. Inversão Sísmica A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em alta resolução através do ajuste de dados baseado na modelagem completa da onda. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 56 / 58
  127. 127. Descrição para aplicação do método BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 57 / 58
  128. 128. Ementa Módulo 01 Introdução, Contextualização, Motivação Módulo 02 Modelagem, Extrapolação do campo de Ondas Módulo 03 Métodos de Otimização Módulo 04 FWI: Algoritmo Geral, tópicos relacionados (salto de ciclo, multi-escala, relação oset-frequência,etc...) Módulo 05 FWI: Método Adjunto e Aplicações (Madagascar) Módulo 06 FWI: Teoria à Prática (Palestra WorkShop SBGF 2015) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 58 / 58

×