SlideShare uma empresa Scribd logo
1 de 128
Full Waveform Inversion: Introdução e Aplicações
Módulo 03: Otimização - Métodos Não-Lineares Iterativos
Bruno Pereira Dias, Andé Bulcão, Djalma Manoel Soares Filho
VII Semana de Inverno de Geofísica, 6 a 8 de Julho/2016
INCT-GP, UNICAMP, Campinas, SP,
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 1 / 58
Ementa
Módulo 01  Introdução, Contextualização, Motivação
Módulo 02  Modelagem, Extrapolação do campo de Ondas
Módulo 03  Métodos de Otimização
Módulo 04  FWI: Algoritmo Geral, tópicos relacionados (salto de
ciclo, multi-escala, relação oset-frequência,etc...)
Módulo 05  FWI: Método Adjunto e Aplicações (Madagascar)
Módulo 06  FWI: Teoria à Prática (Palestra WorkShop SBGF 2015)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 2 / 58
Problemas Direto e Inverso
d = L(p)
p = L−1
(d)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 3 / 58
Inversão Sísmica
A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em
alta resolução através do ajuste de dados baseado na modelagem completa da onda.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 4 / 58
Inversão Sísmica
A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em
alta resolução através do ajuste de dados baseado na modelagem completa da onda.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 5 / 58
Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 6 / 58
Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 7 / 58
Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
Conceitos-chave
1 Problema direto: modelagem através da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
Introdução
Objetivo da otimização
Encontrar, de modo determínistico, um modelo ótimo m∗, que
minimize um função objetivo χ (m), usado para quanticar as
discrepâncias entre os sismogramas observados u0 (x,t) e os sintéticos
u(m;x,t).
Modelo
Um modelo m compreende em distribuições de quantidades espaciais
de onda compressional vP (x), onda cisalhante vS (x), densidade ρ (x),
entre outros (ou combinação destes parâmeros IP, IS etc):
m(x) = [m1 (x),m2 (x),m3 (x),...] = [vP (x),vS (x),ρ (x),...]
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 9 / 58
Introdução
Objetivo da otimização
Encontrar, de modo determínistico, um modelo ótimo m∗, que
minimize um função objetivo χ (m), usado para quanticar as
discrepâncias entre os sismogramas observados u0 (x,t) e os sintéticos
u(m;x,t).
Modelo
Um modelo m compreende em distribuições de quantidades espaciais
de onda compressional vP (x), onda cisalhante vS (x), densidade ρ (x),
entre outros (ou combinação destes parâmeros IP, IS etc):
m(x) = [m1 (x),m2 (x),m3 (x),...] = [vP (x),vS (x),ρ (x),...]
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 9 / 58
Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1)  χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1)  χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1)  χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1)  χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1)  χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
Introdução
Otimização iterativa não-linear
χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo
computacional.
Método de otimização iterativo:
1 Inicia-se com um modelo inicial m0.
2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição:
mi+1 = mi +γi hi tal que χ (mi+1)  χ (mi ).
3 hi = direção de atualização. γi = tamanho do passo de atualização.
O processo iterativo é repetido até um critério de convergência ou de custo
computacional.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
Referências
Gill, P. E., Murray, W., Wright, M. H.: Practical optimization.
Academic Press, London (1981).
Fletcher, R.: Practical methods of optimization. Wiley, New York,
NY (1987).
Polak, E.: Optimization. Springer, New York, NY (1997).
Kelley, C. T.: Iterative methods for optimization. SIAM,
Philadelphia, PA (1999).
Quarteroni, A., Sacco, R., Saleri, F.: Numerical Mathematics.
Springer, New York, NY (2000).
Nocedal, J., Wright, J. S.: Numerical Optimization, Springer, New
York, NY (2006).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 11 / 58
Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 12 / 58
Norma
Denição
O conceito de norma está relacionado à noção geométrica de comprimento.
Consiste em uma função que a cada vetor associa um número real não-negativo.
Norma L1
m 1 := ∑
k
|mk (x)|d3x
Norma L2
m 2 := ∑
k
|mk (x)|2
d3x
Norma Lp
m p := p
∑
k
|mk (x)|p
d3x, 1≤ p  ∞
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
Norma
Denição
O conceito de norma está relacionado à noção geométrica de comprimento.
Consiste em uma função que a cada vetor associa um número real não-negativo.
Norma L1
m 1 := ∑
k
|mk (x)|d3x
Norma L2
m 2 := ∑
k
|mk (x)|2
d3x
Norma Lp
m p := p
∑
k
|mk (x)|p
d3x, 1≤ p  ∞
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
Norma
Denição
O conceito de norma está relacionado à noção geométrica de comprimento.
Consiste em uma função que a cada vetor associa um número real não-negativo.
Norma L1
m 1 := ∑
k
|mk (x)|d3x
Norma L2
m 2 := ∑
k
|mk (x)|2
d3x
Norma Lp
m p := p
∑
k
|mk (x)|p
d3x, 1≤ p  ∞
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
Norma
Denição
O conceito de norma está relacionado à noção geométrica de comprimento.
Consiste em uma função que a cada vetor associa um número real não-negativo.
Norma L1
m 1 := ∑
k
|mk (x)|d3x
Norma L2
m 2 := ∑
k
|mk (x)|2
d3x
Norma Lp
m p := p
∑
k
|mk (x)|p
d3x, 1≤ p  ∞
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
Base
Uma base de um espaço vetorial é um conjunto de vetores
linearmente independentes que geram esse espaço.
Os constituintes do modelo m, por exemplo, vP (x) estão
representados por uma combinação linear de N funções linearmente
independentes,
vP (x) =
N
∑
j=1
vP,j bj (x).
Funções de base típicas: harmônicos esféricos, splines, blocos.
Discretização permite utilizar a notação matricial
m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,...
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
Base
Uma base de um espaço vetorial é um conjunto de vetores
linearmente independentes que geram esse espaço.
Os constituintes do modelo m, por exemplo, vP (x) estão
representados por uma combinação linear de N funções linearmente
independentes,
vP (x) =
N
∑
j=1
vP,j bj (x).
Funções de base típicas: harmônicos esféricos, splines, blocos.
Discretização permite utilizar a notação matricial
m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,...
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
Base
Uma base de um espaço vetorial é um conjunto de vetores
linearmente independentes que geram esse espaço.
Os constituintes do modelo m, por exemplo, vP (x) estão
representados por uma combinação linear de N funções linearmente
independentes,
vP (x) =
N
∑
j=1
vP,j bj (x).
Funções de base típicas: harmônicos esféricos, splines, blocos.
Discretização permite utilizar a notação matricial
m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,...
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
Base
Uma base de um espaço vetorial é um conjunto de vetores
linearmente independentes que geram esse espaço.
Os constituintes do modelo m, por exemplo, vP (x) estão
representados por uma combinação linear de N funções linearmente
independentes,
vP (x) =
N
∑
j=1
vP,j bj (x).
Funções de base típicas: harmônicos esféricos, splines, blocos.
Discretização permite utilizar a notação matricial
m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,...
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
Mínimo Local e Global
1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M)
2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2))
3 ˜m3: mínimo global estrito (χ ( ˜m3)  χ (m), ∀m ∈ M)
4 ˜m4: mínimo local estrito (χ ( ˜m4)  χ (m), ∀m ∈ Nr ( ˜m4))
Figura extraída de Fitchner 2010.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
Mínimo Local e Global
1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M)
2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2))
3 ˜m3: mínimo global estrito (χ ( ˜m3)  χ (m), ∀m ∈ M)
4 ˜m4: mínimo local estrito (χ ( ˜m4)  χ (m), ∀m ∈ Nr ( ˜m4))
Figura extraída de Fitchner 2010.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
Mínimo Local e Global
1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M)
2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2))
3 ˜m3: mínimo global estrito (χ ( ˜m3)  χ (m), ∀m ∈ M)
4 ˜m4: mínimo local estrito (χ ( ˜m4)  χ (m), ∀m ∈ Nr ( ˜m4))
Figura extraída de Fitchner 2010.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
Mínimo Local e Global
1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M)
2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2))
3 ˜m3: mínimo global estrito (χ ( ˜m3)  χ (m), ∀m ∈ M)
4 ˜m4: mínimo local estrito (χ ( ˜m4)  χ (m), ∀m ∈ Nr ( ˜m4))
Figura extraída de Fitchner 2010.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
Condições de Otimalidade
Condição de Primeira Ordem
Se ˜m é um mínimo local de χ, isto é, χ ( ˜m) ≤ χ (m), ∀m ∈ Nr ( ˜m),
então
∇mχ ( ˜m) = 0.
Condição de Segunda Ordem
Se ˜m é um mínimo local de χ,
m·Hχ ( ˜m)·m  0, ∀m ∈ M.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 16 / 58
Condições de Otimalidade
Condição de Primeira Ordem
Se ˜m é um mínimo local de χ, isto é, χ ( ˜m) ≤ χ (m), ∀m ∈ Nr ( ˜m),
então
∇mχ ( ˜m) = 0.
Condição de Segunda Ordem
Se ˜m é um mínimo local de χ,
m·Hχ ( ˜m)·m  0, ∀m ∈ M.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 16 / 58
Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 17 / 58
FWI como um problema de otimização
FWI é uma ferramenta para se obter modelos de propriedades da subsuperfície em alta
resolução através do ajuste de dados baseado na modelagem completa da onda.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 18 / 58
Comparação Métodos de Otimização Locais e Globais
Métodos Globais
1 Avalia-se a função objetivo em todo espaço de modelo.
2 Adequado para problemas altamente não-lineares, com
presença de mínimos locais e/ou informações de
derivadas não disponíveis.
3 Dependendo da dimensionalidade do problema (número
de parâmetros), o custo computacional pode tornar o
método impraticável.
Métodos Locais
1 Visam encontrar um mínimo na vizinhança de um modelo
inicial fornecido.
2 Utilizam derivadas da função (gradiente, Hessiana) para
determinar direção de busca.
3 São computacionalmente mais ecientes para lidar com
problemas de grande porte.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 19 / 58
Comparação Métodos de Otimização Locais e Globais
Métodos Globais
1 Avalia-se a função objetivo em todo espaço de modelo.
2 Adequado para problemas altamente não-lineares, com
presença de mínimos locais e/ou informações de
derivadas não disponíveis.
3 Dependendo da dimensionalidade do problema (número
de parâmetros), o custo computacional pode tornar o
método impraticável.
Métodos Locais
1 Visam encontrar um mínimo na vizinhança de um modelo
inicial fornecido.
2 Utilizam derivadas da função (gradiente, Hessiana) para
determinar direção de busca.
3 São computacionalmente mais ecientes para lidar com
problemas de grande porte.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 19 / 58
Método Monte-Carlo
Procura-se menor valor da função objetivo aleatoriamente.
Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais.
Desvantagem: Necessita grande número de iterações.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.989,1.515)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (0.954,0.939)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
Método Monte-Carlo
Procura-se menor valor da função objetivo aleatoriamente.
Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais.
Desvantagem: Necessita grande número de iterações.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.989,1.515)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (0.954,0.939)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
Método Monte-Carlo
Procura-se menor valor da função objetivo aleatoriamente.
Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais.
Desvantagem: Necessita grande número de iterações.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.989,1.515)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (0.954,0.939)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
Método Caminho Aleatório
A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo.
Vantagem: não necessita o cálculo do gradiente χ.
Desvantagem: necessita grande número de iterações
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (1.022,1.043)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
Método Caminho Aleatório
A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo.
Vantagem: não necessita o cálculo do gradiente χ.
Desvantagem: necessita grande número de iterações
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (1.022,1.043)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
Método Caminho Aleatório
A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo.
Vantagem: não necessita o cálculo do gradiente χ.
Desvantagem: necessita grande número de iterações
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1000
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 1000
Pos. nal: (x,y) = (1.022,1.043)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
Métodos Descendentes Gerais
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule uma direção descendente
hi = −Ai ·∇mχ (mi ).
3 Atualize mi de acordo com
mi+1 = mi +γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
Métodos Descendentes Gerais
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule uma direção descendente
hi = −Ai ·∇mχ (mi ).
3 Atualize mi de acordo com
mi+1 = mi +γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
Métodos Descendentes Gerais
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule uma direção descendente
hi = −Ai ·∇mχ (mi ).
3 Atualize mi de acordo com
mi+1 = mi +γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
Métodos Descendentes Gerais
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule uma direção descendente
hi = −Ai ·∇mχ (mi ).
3 Atualize mi de acordo com
mi+1 = mi +γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 23 / 58
Método do Gradiente
Modicado de Nocedal, 2006
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 24 / 58
Método do Gradiente
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi )
3 Atualize mi :
mi+1 = mi −γi ∇mχ (mi ),
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
Método do Gradiente
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi )
3 Atualize mi :
mi+1 = mi −γi ∇mχ (mi ),
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
Método do Gradiente
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi )
3 Atualize mi :
mi+1 = mi −γi ∇mχ (mi ),
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
Método do Gradiente
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi )
3 Atualize mi :
mi+1 = mi −γi ∇mχ (mi ),
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
4 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
Método Gradiente
A partir de um valor inicial procura-se direção com maior redução valor função objetivo.
Vantagem: necessita somente do cálculo do gradiente χ.
Desvantagem: pode ter uma taxa de convergência muito lenta.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 54
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 993
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
Método Gradiente
A partir de um valor inicial procura-se direção com maior redução valor função objetivo.
Vantagem: necessita somente do cálculo do gradiente χ.
Desvantagem: pode ter uma taxa de convergência muito lenta.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 54
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 993
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
Método Gradiente
A partir de um valor inicial procura-se direção com maior redução valor função objetivo.
Vantagem: necessita somente do cálculo do gradiente χ.
Desvantagem: pode ter uma taxa de convergência muito lenta.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 54
Pos. nal: (x,y) = (−0.977,1.464)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 993
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
Método do Gradiente
Extraído de Chong-Zak, 4th Ed (2013).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 27 / 58
Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 28 / 58
Método de Newton
Método de declividade máxima, a direção de atualização, hi , contém
somente informação da primeira derivada no modelo mi .
Método de Newton contém informações das derivadas segundas, o que
leva a uma convergência muito mais rápida (perto da solução).
Condição de otimalidade: ∇mχ ( ˜m) = 0
0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m).
Solução para ˜m,
˜m ≈ m−H−1
χ (m)·∇mχ (m).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
Método de Newton
Método de declividade máxima, a direção de atualização, hi , contém
somente informação da primeira derivada no modelo mi .
Método de Newton contém informações das derivadas segundas, o que
leva a uma convergência muito mais rápida (perto da solução).
Condição de otimalidade: ∇mχ ( ˜m) = 0
0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m).
Solução para ˜m,
˜m ≈ m−H−1
χ (m)·∇mχ (m).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
Método de Newton
Método de declividade máxima, a direção de atualização, hi , contém
somente informação da primeira derivada no modelo mi .
Método de Newton contém informações das derivadas segundas, o que
leva a uma convergência muito mais rápida (perto da solução).
Condição de otimalidade: ∇mχ ( ˜m) = 0
0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m).
Solução para ˜m,
˜m ≈ m−H−1
χ (m)·∇mχ (m).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
Método de Newton
Método de declividade máxima, a direção de atualização, hi , contém
somente informação da primeira derivada no modelo mi .
Método de Newton contém informações das derivadas segundas, o que
leva a uma convergência muito mais rápida (perto da solução).
Condição de otimalidade: ∇mχ ( ˜m) = 0
0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m).
Solução para ˜m,
˜m ≈ m−H−1
χ (m)·∇mχ (m).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
Método de Newton
Extraído de Chong-Zak, 4th Ed (2013).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 30 / 58
Método de Newton
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ).
3 Determine a solução descendente, hi , como solução do sistema
Hχ (m)·hi = −∇mχ (mi ).
4 Atualize mi :
mi+1 = mi −γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
5 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
Método de Newton
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ).
3 Determine a solução descendente, hi , como solução do sistema
Hχ (m)·hi = −∇mχ (mi ).
4 Atualize mi :
mi+1 = mi −γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
5 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
Método de Newton
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ).
3 Determine a solução descendente, hi , como solução do sistema
Hχ (m)·hi = −∇mχ (mi ).
4 Atualize mi :
mi+1 = mi −γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
5 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
Método de Newton
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ).
3 Determine a solução descendente, hi , como solução do sistema
Hχ (m)·hi = −∇mχ (mi ).
4 Atualize mi :
mi+1 = mi −γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
5 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
Método de Newton
Algoritmo
1 Escolha um modelo inicial m0. Faça i = 0.
2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ).
3 Determine a solução descendente, hi , como solução do sistema
Hχ (m)·hi = −∇mχ (mi ).
4 Atualize mi :
mi+1 = mi −γi hi ,
com um passo adequado γi (busca linear) tal que χ (mi+1)  χ (mi ).
5 Faça i → i +1 e repita o passo 2 até um critério de parada.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
Método de Newton
A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de
atualização.
Vantagem: convergência quadrática.
Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 11
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
Método de Newton
A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de
atualização.
Vantagem: convergência quadrática.
Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 11
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
Método de Newton
A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de
atualização.
Vantagem: convergência quadrática.
Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 1
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 11
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 33 / 58
Método Gradiente Conjugado
Evita direções de atualização repetidas utilizando informações de
gradiente e passo anterior.
Para um problema linear, o algoritmo converge após n iterações,
sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2
 Painless Conjugate Gradient)
Problema linear: Jm = d
Jm−d = 0 ⇒ min
m
χ (m) = Jm−d 2
χ (m) é uma forma quadrática:
χ (m) = (Jm−d)T
(Jm−d) = m· H
JT J
·m+···
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
Método Gradiente Conjugado
Evita direções de atualização repetidas utilizando informações de
gradiente e passo anterior.
Para um problema linear, o algoritmo converge após n iterações,
sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2
 Painless Conjugate Gradient)
Problema linear: Jm = d
Jm−d = 0 ⇒ min
m
χ (m) = Jm−d 2
χ (m) é uma forma quadrática:
χ (m) = (Jm−d)T
(Jm−d) = m· H
JT J
·m+···
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
Método Gradiente Conjugado
Evita direções de atualização repetidas utilizando informações de
gradiente e passo anterior.
Para um problema linear, o algoritmo converge após n iterações,
sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2
 Painless Conjugate Gradient)
Problema linear: Jm = d
Jm−d = 0 ⇒ min
m
χ (m) = Jm−d 2
χ (m) é uma forma quadrática:
χ (m) = (Jm−d)T
(Jm−d) = m· H
JT J
·m+···
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
Método do Gradiente vs. Gradiente Conjugado
Extraído de Chong-Zak, 4th Ed (2013).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 35 / 58
Método do Gradiente vs. Gradiente Conjugado
Extraído de Chong-Zak, 4th Ed (2013).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 35 / 58
Método Gradiente Conjugado
Primeira direção = -gradiente.
Direções seguintes: combinação entre gradiente e passo anterior.
Vantagem: rápida convergência e não necessita cálculo da Hessiana.
Desvantagem: Pode necessitar reinicialização.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 11
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 55
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
Método Gradiente Conjugado
Primeira direção = -gradiente.
Direções seguintes: combinação entre gradiente e passo anterior.
Vantagem: rápida convergência e não necessita cálculo da Hessiana.
Desvantagem: Pode necessitar reinicialização.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 11
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 55
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
Método Gradiente Conjugado
Primeira direção = -gradiente.
Direções seguintes: combinação entre gradiente e passo anterior.
Vantagem: rápida convergência e não necessita cálculo da Hessiana.
Desvantagem: Pode necessitar reinicialização.
Função Quadrática
χ (x,y) = x −y +2x2 +2xy +y2
Pos. inicial: (x0,y0) = (2,−2)
Número de iterações: 11
Pos. nal: (x,y) = (−1.000,1.500)
Função Rosenbrock
χ (x,y) = (1−x)2 +10(y −x2)2
Pos. inicial: (x0,y0) = (−1,1)
Número de iterações: 55
Pos. nal: (x,y) = (1.000,1.000)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 37 / 58
Método Quasi-Newton (l-BFGS)
Pontos-Chave
1 Método que busca aproximar a Hessiana utilizando a informação de N
gradientes e atualizações anteriores.
2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja,
não é necessário invertê-la para atualização.
3 Não é necessário armazenar a aproximação do inverso da Hessiana.
Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
Método Quasi-Newton (l-BFGS)
Pontos-Chave
1 Método que busca aproximar a Hessiana utilizando a informação de N
gradientes e atualizações anteriores.
2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja,
não é necessário invertê-la para atualização.
3 Não é necessário armazenar a aproximação do inverso da Hessiana.
Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
Método Quasi-Newton (l-BFGS)
Pontos-Chave
1 Método que busca aproximar a Hessiana utilizando a informação de N
gradientes e atualizações anteriores.
2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja,
não é necessário invertê-la para atualização.
3 Não é necessário armazenar a aproximação do inverso da Hessiana.
Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
Método Quasi-Newton (l-BFGS)
mi+1 = mi −γi H−1
χ ∇mχ (mi )
H−1
χ = B é atualizado por meio da expressão
Bi+1 = VT
i Bi Vi +ρi si sT
i
onde
ρi =
1
yT
i si
, Vi = I−ρi yi sT
i
com
si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi )
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 39 / 58
Método Quasi-Newton (l-BFGS)
Pode-se deduzir um procedimento recursivo para calcular o produto
Bi ∇mχ (mi ) ecientemente:
Bi = VT
i−1 ...VT
i−m B0
i (Vi−m −Vi−1)
+ρi−m VT
i−1 ...VT
i−m+1 si−msT
i−m (Vi−m+1 ...Vi−1)
+ρi−m+1 VT
i−1 ...VT
i−m+2 si−m+1sT
i−m+1 (Vi−m+2 ...Vi−1)
+...
+ρi−1si−1sT
i−1
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 40 / 58
Método Quasi-Newton (l-BFGS)
Algoritmo recursivo
q ← ∇mχ (mk)
for i = k −1,k −2,...,k −m
α ← ρi sT
i q
q ← q−αi yi
end for
r ←B0
kq
for i = k −m,k −m +1,...,k −1
β ← ρi yT
i r
r ← r+si (αi −β)
end for
stop with result Bk∇mχ (mk) = r
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 41 / 58
Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 42 / 58
Busca Linear
Modicado de Nocedal, 2006
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 43 / 58
Busca Linear
Denição
Para cada iteração do método de otimização, o algoritmo de busca linear
decide quanto atualizar o modelo dada uma direção:
mi+1 = mi +γi hi ,
onde γi é um escalar positivo denominado tamanho do passo.
O sucesso da busca linear depende da escolha da direção de
atualização hi .
O algoritmos descendentes gerais, assumem que hi ·∇mχ (mi )  0.
Assim, existe γi (sucientemente pequeno) tal que χ (mi+i )  χ (mi ).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 44 / 58
Busca Linear
Denição
Para cada iteração do método de otimização, o algoritmo de busca linear
decide quanto atualizar o modelo dada uma direção:
mi+1 = mi +γi hi ,
onde γi é um escalar positivo denominado tamanho do passo.
O sucesso da busca linear depende da escolha da direção de
atualização hi .
O algoritmos descendentes gerais, assumem que hi ·∇mχ (mi )  0.
Assim, existe γi (sucientemente pequeno) tal que χ (mi+i )  χ (mi ).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 44 / 58
Busca Linear
Busca Linear Exata
A busca linear exata consiste em encontrar γ tal que
min
γ
φ (γ) = χ (mk +γhi )
Ao calcular γ esbarramos em um dilema:
Para encontrar o mínimo de φ (γ) é necessário a avaliação da função
objetivo inúmeras vezes.
Um passo inadequado pode degradar a performance do algoritmo de
otimização.
Busca Linear Inexata
Objetivo: encontrar um tamanho de passo adequado, que garanta a
redução de χ com um custo computacional mínimo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
Busca Linear
Busca Linear Exata
A busca linear exata consiste em encontrar γ tal que
min
γ
φ (γ) = χ (mk +γhi )
Ao calcular γ esbarramos em um dilema:
Para encontrar o mínimo de φ (γ) é necessário a avaliação da função
objetivo inúmeras vezes.
Um passo inadequado pode degradar a performance do algoritmo de
otimização.
Busca Linear Inexata
Objetivo: encontrar um tamanho de passo adequado, que garanta a
redução de χ com um custo computacional mínimo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
Busca Linear
Busca Linear Exata
A busca linear exata consiste em encontrar γ tal que
min
γ
φ (γ) = χ (mk +γhi )
Ao calcular γ esbarramos em um dilema:
Para encontrar o mínimo de φ (γ) é necessário a avaliação da função
objetivo inúmeras vezes.
Um passo inadequado pode degradar a performance do algoritmo de
otimização.
Busca Linear Inexata
Objetivo: encontrar um tamanho de passo adequado, que garanta a
redução de χ com um custo computacional mínimo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
Exemplo de Convergência Inadequada
Fonte: Nocedal 2006
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 46 / 58
Busca Linear
Algoritmo de Busca Linear Backtracking
Escolha ¯γ  0,ρ ∈ (0,1); Faça γ ← ¯γ
Repita até χ (mi +γhi )  χ (mi )
α ← ρα
m (repita)
γi = γ
ρ: fator de contração.
¯γ: valor do passo inicial.
Deve-se utilizar informação a priori do problema para determinar ρ e ¯γ.
Nocedal, Wright 2006: Sec. 3.1
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 47 / 58
Busca Linear
Estimativa do tamanho do passo por aproximação parabólica
Avalia-se 3 valores da função
objetivo.
Um dos valores γ = 0 é fornecido
pela estimativa da iteração
anterior.
Ajuste parabólico γ∗, dadas as
condições:
χ (γ1)  χ (0)
χ (γ1)  χ (γ2)
Documentação FWT2D v.4.8: Sec. 3.1.4
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 48 / 58
Busca Linear
Método Barzilai-Borwein
Motivação: Qual γ melhor aproxima H−1
χ ?
método gradiente: mi+1 = mi −γi ∇mχ (mi ),
método Newton: mi+1 = mi −H−1
χ ·∇mχ (mi ),
Solução 1:
γ1
i =
sT
i−1si−1
sT
i−1yi−1
Solução 2:
γ2
i =
sT
i−1yi−1
yT
i−1yi−1
si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi )
J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical
Analysis, 8(1):141148, 1988.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
Busca Linear
Método Barzilai-Borwein
Motivação: Qual γ melhor aproxima H−1
χ ?
método gradiente: mi+1 = mi −γi ∇mχ (mi ),
método Newton: mi+1 = mi −H−1
χ ·∇mχ (mi ),
Solução 1:
γ1
i =
sT
i−1si−1
sT
i−1yi−1
Solução 2:
γ2
i =
sT
i−1yi−1
yT
i−1yi−1
si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi )
J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical
Analysis, 8(1):141148, 1988.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
Busca Linear
Método Barzilai-Borwein
Motivação: Qual γ melhor aproxima H−1
χ ?
método gradiente: mi+1 = mi −γi ∇mχ (mi ),
método Newton: mi+1 = mi −H−1
χ ·∇mχ (mi ),
Solução 1:
γ1
i =
sT
i−1si−1
sT
i−1yi−1
Solução 2:
γ2
i =
sT
i−1yi−1
yT
i−1yi−1
si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi )
J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical
Analysis, 8(1):141148, 1988.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
Sumário
1 Introdução
2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade
3 Métodos Iterativos de Otimização Não-Linear
Método do Gradiente
Método de Newton
Método de Gradiente Conjugado
Método de Quasi-Newton (l-BFGS)
Busca Linear
4 Discussão
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 50 / 58
Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
Conceitos-chave
1 Problema direto: modelagem da equação da onda.
2 Função objetivo χ: quanticação das diferenças entre o dado
observado e o dado calculado para um modelo m.
3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2)
4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que
χ (m∗) seja o mínimo global de χ.
5 Problema de grande escala: cada ponto do modelo é um parâmetro
a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de
parâmetros.
6 Gradiente: direção de máximo crescimento da função objetivo.
7 Hessiana: derivadas segundas da função objetivo  contém
informação da curvatura da função objetivo.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
Métodos Iterativos de Otimização Não-Linear
1 Método de declividade máxima: Barato computacionalmente,
implementação simples. Pode repetir direção de busca.
2 Método de Newton: Caro computacionalmente (derivadas segundas).
Rápida convergência perto da solução. Pode ser instável.
3 Método Gradiente Conjugado: Evita repetir direções de atualização.
4 Método l-BFGS: Utiliza informações de atualizações e gradientes
anteriores para estimar Hessiana (sem cálculo explícito).
5 Busca Linear: Método para estimar tamanho do passo de atualização.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
Próximos capítulos...
FWI como um problema de otimização
Problema direto: simulação numérica da propagação da onda
Calcular o campo de onda u (x,t ou ω)
L (p)u (x,t ou ω) = f (x,t ou ω)
onde L (p) é um operador diferencial linear em u (x,t ou ω) não linear em p (x)
Solução de um problema inverso
Obter m (x) no espaço de parâmetros tal que
minmχ (m) =
1
2
Ns
∑
s=1
Rsus (m)−ds
2
Ns: número de fontes
Rs: operador de restrição de us para os receptores
us (m): solução do problema direto para fonte fs
ds: dado registrado (sismograma)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 54 / 58
FWI como um problema de otimização
Problema direto: simulação numérica da propagação da onda
Calcular o campo de onda u (x,t ou ω)
L (p)u (x,t ou ω) = f (x,t ou ω)
onde L (p) é um operador diferencial linear em u (x,t ou ω) não linear em p (x)
Solução de um problema inverso
Obter m (x) no espaço de parâmetros tal que
minmχ (m) =
1
2
Ns
∑
s=1
Rsus (m)−ds
2
Ns: número de fontes
Rs: operador de restrição de us para os receptores
us (m): solução do problema direto para fonte fs
ds: dado registrado (sismograma)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 54 / 58
Destacam-se duas ferramentas que permitem a solução de
problemas de grande porte:
Métodos de otimização local
Visa encontrar um mínimo na vizinhança de um modelo inicial
fornecido. O método atualiza o modelo de subsuperfície procurando
minimizar iterativamente o valor de χ (m).
Método adjunto
Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto
no domínio do tempo, como no da frequência).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
Destacam-se duas ferramentas que permitem a solução de
problemas de grande porte:
Métodos de otimização local
Visa encontrar um mínimo na vizinhança de um modelo inicial
fornecido. O método atualiza o modelo de subsuperfície procurando
minimizar iterativamente o valor de χ (m).
Método adjunto
Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto
no domínio do tempo, como no da frequência).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
Destacam-se duas ferramentas que permitem a solução de
problemas de grande porte:
Métodos de otimização local
Visa encontrar um mínimo na vizinhança de um modelo inicial
fornecido. O método atualiza o modelo de subsuperfície procurando
minimizar iterativamente o valor de χ (m).
Método adjunto
Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto
no domínio do tempo, como no da frequência).
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
Inversão Sísmica
A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em
alta resolução através do ajuste de dados baseado na modelagem completa da onda.
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 56 / 58
Descrição para aplicação do método
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 57 / 58
Ementa
Módulo 01  Introdução, Contextualização, Motivação
Módulo 02  Modelagem, Extrapolação do campo de Ondas
Módulo 03  Métodos de Otimização
Módulo 04  FWI: Algoritmo Geral, tópicos relacionados (salto de
ciclo, multi-escala, relação oset-frequência,etc...)
Módulo 05  FWI: Método Adjunto e Aplicações (Madagascar)
Módulo 06  FWI: Teoria à Prática (Palestra WorkShop SBGF 2015)
BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 58 / 58

Mais conteúdo relacionado

Mais procurados

Fórmulas estatística - medidas - central e dispersão
Fórmulas   estatística - medidas - central e dispersãoFórmulas   estatística - medidas - central e dispersão
Fórmulas estatística - medidas - central e dispersãomarioferreiraneto
 
Aula 2 - Indicadores, taxas e coeficientes.pdf
Aula 2 - Indicadores, taxas e coeficientes.pdfAula 2 - Indicadores, taxas e coeficientes.pdf
Aula 2 - Indicadores, taxas e coeficientes.pdfssuser35d440
 
4ª aula estudo dos triângulos
4ª aula   estudo dos triângulos4ª aula   estudo dos triângulos
4ª aula estudo dos triângulosjatobaesem
 
Geometria analítica apol 5 uninter
Geometria analítica apol 5 uninterGeometria analítica apol 5 uninter
Geometria analítica apol 5 uninterErnane Freitas
 
Aula 6 - MA14 - PROFMAT - CPII
Aula 6 - MA14 - PROFMAT - CPII Aula 6 - MA14 - PROFMAT - CPII
Aula 6 - MA14 - PROFMAT - CPII Luciana Martino
 
Aula 4 modelos de regressão linear
Aula 4   modelos de regressão linearAula 4   modelos de regressão linear
Aula 4 modelos de regressão linearRodrigo Rodrigues
 
Geometria Espacial- Fórmulas
Geometria Espacial- FórmulasGeometria Espacial- Fórmulas
Geometria Espacial- FórmulasAdriana Masson
 
Balanço Hídrico
Balanço Hídrico Balanço Hídrico
Balanço Hídrico LCGRH UFC
 
Sequencias e series unicamp
Sequencias e series   unicampSequencias e series   unicamp
Sequencias e series unicampLuis Gustavo
 
Relatório visita ete ibirité
Relatório visita ete ibiritéRelatório visita ete ibirité
Relatório visita ete ibiritéBruno Oliveira
 
Cálculo II - Aula 7: Teorema Fundamental do Cálculo
Cálculo II - Aula 7: Teorema Fundamental do CálculoCálculo II - Aula 7: Teorema Fundamental do Cálculo
Cálculo II - Aula 7: Teorema Fundamental do Cálculowillianv
 
Funções e suas propriedades analíticas
Funções e suas propriedades analíticasFunções e suas propriedades analíticas
Funções e suas propriedades analíticasCarlos Campani
 
Aula 05 topografia UFPI 2018.1
Aula 05 topografia UFPI 2018.1Aula 05 topografia UFPI 2018.1
Aula 05 topografia UFPI 2018.1Martins Neto
 
Inteligência de enxames - Cardume (PSO + AFSA)
Inteligência de enxames - Cardume (PSO + AFSA)Inteligência de enxames - Cardume (PSO + AFSA)
Inteligência de enxames - Cardume (PSO + AFSA)Pedro de Vasconcellos
 

Mais procurados (20)

Matemática básica derivada e integral
Matemática básica   derivada e integralMatemática básica   derivada e integral
Matemática básica derivada e integral
 
Fórmulas estatística - medidas - central e dispersão
Fórmulas   estatística - medidas - central e dispersãoFórmulas   estatística - medidas - central e dispersão
Fórmulas estatística - medidas - central e dispersão
 
Aula 2 - Indicadores, taxas e coeficientes.pdf
Aula 2 - Indicadores, taxas e coeficientes.pdfAula 2 - Indicadores, taxas e coeficientes.pdf
Aula 2 - Indicadores, taxas e coeficientes.pdf
 
4ª aula estudo dos triângulos
4ª aula   estudo dos triângulos4ª aula   estudo dos triângulos
4ª aula estudo dos triângulos
 
Geometria analítica apol 5 uninter
Geometria analítica apol 5 uninterGeometria analítica apol 5 uninter
Geometria analítica apol 5 uninter
 
Polinomios
PolinomiosPolinomios
Polinomios
 
Aula 6 - MA14 - PROFMAT - CPII
Aula 6 - MA14 - PROFMAT - CPII Aula 6 - MA14 - PROFMAT - CPII
Aula 6 - MA14 - PROFMAT - CPII
 
Aula 4 modelos de regressão linear
Aula 4   modelos de regressão linearAula 4   modelos de regressão linear
Aula 4 modelos de regressão linear
 
Geometria Espacial- Fórmulas
Geometria Espacial- FórmulasGeometria Espacial- Fórmulas
Geometria Espacial- Fórmulas
 
Noção de função
Noção de funçãoNoção de função
Noção de função
 
Função do 1º grau em ppt
Função do 1º grau em pptFunção do 1º grau em ppt
Função do 1º grau em ppt
 
Balanço Hídrico
Balanço Hídrico Balanço Hídrico
Balanço Hídrico
 
Sequencias e series unicamp
Sequencias e series   unicampSequencias e series   unicamp
Sequencias e series unicamp
 
Relatório visita ete ibirité
Relatório visita ete ibiritéRelatório visita ete ibirité
Relatório visita ete ibirité
 
Cálculo II - Aula 7: Teorema Fundamental do Cálculo
Cálculo II - Aula 7: Teorema Fundamental do CálculoCálculo II - Aula 7: Teorema Fundamental do Cálculo
Cálculo II - Aula 7: Teorema Fundamental do Cálculo
 
Funções e suas propriedades analíticas
Funções e suas propriedades analíticasFunções e suas propriedades analíticas
Funções e suas propriedades analíticas
 
Escoamento aula01
Escoamento aula01Escoamento aula01
Escoamento aula01
 
Álgebra Li
Álgebra LiÁlgebra Li
Álgebra Li
 
Aula 05 topografia UFPI 2018.1
Aula 05 topografia UFPI 2018.1Aula 05 topografia UFPI 2018.1
Aula 05 topografia UFPI 2018.1
 
Inteligência de enxames - Cardume (PSO + AFSA)
Inteligência de enxames - Cardume (PSO + AFSA)Inteligência de enxames - Cardume (PSO + AFSA)
Inteligência de enxames - Cardume (PSO + AFSA)
 

Destaque (12)

Introduction to velocity model building
Introduction to velocity model buildingIntroduction to velocity model building
Introduction to velocity model building
 
Manguezal
ManguezalManguezal
Manguezal
 
VII Fórum IBEF de Óleo e Gás - Situação atual e perspectivas para o Setor | C...
VII Fórum IBEF de Óleo e Gás - Situação atual e perspectivas para o Setor | C...VII Fórum IBEF de Óleo e Gás - Situação atual e perspectivas para o Setor | C...
VII Fórum IBEF de Óleo e Gás - Situação atual e perspectivas para o Setor | C...
 
Portfólio Geophysicalcs - Mineração
Portfólio Geophysicalcs - MineraçãoPortfólio Geophysicalcs - Mineração
Portfólio Geophysicalcs - Mineração
 
Bacia Potiguar
Bacia PotiguarBacia Potiguar
Bacia Potiguar
 
Bacia Potiguar
Bacia PotiguarBacia Potiguar
Bacia Potiguar
 
Lei do Trabalho
Lei do TrabalhoLei do Trabalho
Lei do Trabalho
 
FÁbula Para O Trabalho Coletivo
FÁbula Para O Trabalho ColetivoFÁbula Para O Trabalho Coletivo
FÁbula Para O Trabalho Coletivo
 
A lei do trabalho e do progresso!
A lei do trabalho e do progresso!A lei do trabalho e do progresso!
A lei do trabalho e do progresso!
 
Segundo Módulo - Aula 03 - Lei do trabalho
Segundo Módulo - Aula 03 - Lei do trabalhoSegundo Módulo - Aula 03 - Lei do trabalho
Segundo Módulo - Aula 03 - Lei do trabalho
 
PALESTRA - LEI DO TRABALHO - LEI DA VIDA
PALESTRA - LEI DO TRABALHO - LEI DA VIDAPALESTRA - LEI DO TRABALHO - LEI DA VIDA
PALESTRA - LEI DO TRABALHO - LEI DA VIDA
 
AULA- Lei do trabalho
AULA- Lei do trabalhoAULA- Lei do trabalho
AULA- Lei do trabalho
 

Semelhante a Full Waveform Inversion: Introdução e Aplicações [3/5]

Análise de Algoritmos - Programação Dinâmica
Análise de Algoritmos - Programação DinâmicaAnálise de Algoritmos - Programação Dinâmica
Análise de Algoritmos - Programação DinâmicaDelacyr Ferreira
 
Topicos de econometria de séries temporais 2020_1
Topicos de econometria de séries temporais 2020_1 Topicos de econometria de séries temporais 2020_1
Topicos de econometria de séries temporais 2020_1 Adriano Figueiredo
 
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 GujaratiMonica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 GujaratiMonica Barros
 
CALCULO II - DERIVADAS.pptx
CALCULO II - DERIVADAS.pptxCALCULO II - DERIVADAS.pptx
CALCULO II - DERIVADAS.pptxssuser24a8bb1
 
Função do 2º grau em execução
Função do 2º grau em execuçãoFunção do 2º grau em execução
Função do 2º grau em execuçãomonica_cassia
 
EMA013_03-PROGRAMAO_LINEAR_METODO_SIMPLEX.pdf
EMA013_03-PROGRAMAO_LINEAR_METODO_SIMPLEX.pdfEMA013_03-PROGRAMAO_LINEAR_METODO_SIMPLEX.pdf
EMA013_03-PROGRAMAO_LINEAR_METODO_SIMPLEX.pdfGabriel374282
 
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)Ben Hur Bahia do Nascimento
 
Livro Métodos Numéricos: Exercícios Resolvidos
Livro Métodos Numéricos: Exercícios ResolvidosLivro Métodos Numéricos: Exercícios Resolvidos
Livro Métodos Numéricos: Exercícios ResolvidosFlavio Gomes Lima
 
2008 santiago marchi_cilamce_2008
2008 santiago marchi_cilamce_20082008 santiago marchi_cilamce_2008
2008 santiago marchi_cilamce_2008CosmoSantiago
 
MAT 1ª Série 3º Bimestre Professor.pdf
MAT 1ª Série 3º Bimestre Professor.pdfMAT 1ª Série 3º Bimestre Professor.pdf
MAT 1ª Série 3º Bimestre Professor.pdfGernciadeProduodeMat
 
Trabalho nº9
Trabalho nº9Trabalho nº9
Trabalho nº9Rui Lopes
 
Trabalho nº8
Trabalho nº8Trabalho nº8
Trabalho nº8Rui Lopes
 
Matrizes e determinantes
Matrizes e determinantesMatrizes e determinantes
Matrizes e determinantesMarcieleEuzebio
 
Mnae aula 1 introducao
Mnae aula 1 introducaoMnae aula 1 introducao
Mnae aula 1 introducaoJoão Noronha
 

Semelhante a Full Waveform Inversion: Introdução e Aplicações [3/5] (20)

Introdução à otimização convexa.
Introdução à otimização convexa.Introdução à otimização convexa.
Introdução à otimização convexa.
 
Análise de Algoritmos - Programação Dinâmica
Análise de Algoritmos - Programação DinâmicaAnálise de Algoritmos - Programação Dinâmica
Análise de Algoritmos - Programação Dinâmica
 
Otimização convexa e cvx
Otimização convexa e cvxOtimização convexa e cvx
Otimização convexa e cvx
 
Topicos de econometria de séries temporais 2020_1
Topicos de econometria de séries temporais 2020_1 Topicos de econometria de séries temporais 2020_1
Topicos de econometria de séries temporais 2020_1
 
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 GujaratiMonica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
Monica Barros - Econometria - ENCE 2010 - Resumo Capítulo 9 Gujarati
 
CALCULO II - DERIVADAS.pptx
CALCULO II - DERIVADAS.pptxCALCULO II - DERIVADAS.pptx
CALCULO II - DERIVADAS.pptx
 
Matematica2 1
Matematica2 1Matematica2 1
Matematica2 1
 
Função do 2º grau em execução
Função do 2º grau em execuçãoFunção do 2º grau em execução
Função do 2º grau em execução
 
EMA013_03-PROGRAMAO_LINEAR_METODO_SIMPLEX.pdf
EMA013_03-PROGRAMAO_LINEAR_METODO_SIMPLEX.pdfEMA013_03-PROGRAMAO_LINEAR_METODO_SIMPLEX.pdf
EMA013_03-PROGRAMAO_LINEAR_METODO_SIMPLEX.pdf
 
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)
 
Aula6final
Aula6finalAula6final
Aula6final
 
Livro Métodos Numéricos: Exercícios Resolvidos
Livro Métodos Numéricos: Exercícios ResolvidosLivro Métodos Numéricos: Exercícios Resolvidos
Livro Métodos Numéricos: Exercícios Resolvidos
 
Atps
AtpsAtps
Atps
 
2008 santiago marchi_cilamce_2008
2008 santiago marchi_cilamce_20082008 santiago marchi_cilamce_2008
2008 santiago marchi_cilamce_2008
 
MAT 1ª Série 3º Bimestre Professor.pdf
MAT 1ª Série 3º Bimestre Professor.pdfMAT 1ª Série 3º Bimestre Professor.pdf
MAT 1ª Série 3º Bimestre Professor.pdf
 
Trabalho nº9
Trabalho nº9Trabalho nº9
Trabalho nº9
 
Trabalho nº8
Trabalho nº8Trabalho nº8
Trabalho nº8
 
Matrizes e determinantes
Matrizes e determinantesMatrizes e determinantes
Matrizes e determinantes
 
NBI.pptx
NBI.pptxNBI.pptx
NBI.pptx
 
Mnae aula 1 introducao
Mnae aula 1 introducaoMnae aula 1 introducao
Mnae aula 1 introducao
 

Mais de Grupo de Geofísica Computacional, UNICAMP

Fenômenos eletromagnéticos: conceitos e aplicações em Geofísica e Física
Fenômenos eletromagnéticos: conceitos e aplicações em Geofísica e FísicaFenômenos eletromagnéticos: conceitos e aplicações em Geofísica e Física
Fenômenos eletromagnéticos: conceitos e aplicações em Geofísica e FísicaGrupo de Geofísica Computacional, UNICAMP
 
A Evolução das Técnicas de Aquisição Sísmica Marítima para a Coleta de Dados ...
A Evolução das Técnicas de Aquisição Sísmica Marítima para a Coleta de Dados ...A Evolução das Técnicas de Aquisição Sísmica Marítima para a Coleta de Dados ...
A Evolução das Técnicas de Aquisição Sísmica Marítima para a Coleta de Dados ...Grupo de Geofísica Computacional, UNICAMP
 

Mais de Grupo de Geofísica Computacional, UNICAMP (15)

Aplicações Potenciais de Deep Learning à Indústria do Petróleo
Aplicações Potenciais de Deep Learning à Indústria do PetróleoAplicações Potenciais de Deep Learning à Indústria do Petróleo
Aplicações Potenciais de Deep Learning à Indústria do Petróleo
 
Fenômenos eletromagnéticos: conceitos e aplicações em Geofísica e Física
Fenômenos eletromagnéticos: conceitos e aplicações em Geofísica e FísicaFenômenos eletromagnéticos: conceitos e aplicações em Geofísica e Física
Fenômenos eletromagnéticos: conceitos e aplicações em Geofísica e Física
 
Petrofísica de carbonatos do nordeste brasileiro
Petrofísica de carbonatos do nordeste brasileiroPetrofísica de carbonatos do nordeste brasileiro
Petrofísica de carbonatos do nordeste brasileiro
 
O Campo Geomagnético no Brasil
O Campo Geomagnético no BrasilO Campo Geomagnético no Brasil
O Campo Geomagnético no Brasil
 
Problemas Inversos
Problemas InversosProblemas Inversos
Problemas Inversos
 
Sismologia — Ciência dos Terremotos, onde, como e por quê? (4)
Sismologia — Ciência dos Terremotos, onde, como e por quê? (4)Sismologia — Ciência dos Terremotos, onde, como e por quê? (4)
Sismologia — Ciência dos Terremotos, onde, como e por quê? (4)
 
Sismologia — Ciência dos Terremotos, onde, como e por quê? (3)
Sismologia — Ciência dos Terremotos, onde, como e por quê? (3)Sismologia — Ciência dos Terremotos, onde, como e por quê? (3)
Sismologia — Ciência dos Terremotos, onde, como e por quê? (3)
 
Sismologia — Ciência dos Terremotos, onde, como e por quê? (2)
Sismologia — Ciência dos Terremotos, onde, como e por quê? (2)Sismologia — Ciência dos Terremotos, onde, como e por quê? (2)
Sismologia — Ciência dos Terremotos, onde, como e por quê? (2)
 
Sismologia — Ciência dos Terremotos, onde, como e por quê? (1)
Sismologia — Ciência dos Terremotos, onde, como e por quê? (1)Sismologia — Ciência dos Terremotos, onde, como e por quê? (1)
Sismologia — Ciência dos Terremotos, onde, como e por quê? (1)
 
Introdução ao Processamento Paralelo (4.1)
Introdução ao Processamento Paralelo (4.1)Introdução ao Processamento Paralelo (4.1)
Introdução ao Processamento Paralelo (4.1)
 
Introdução ao Processamento Paralelo (3)
Introdução ao Processamento Paralelo (3)Introdução ao Processamento Paralelo (3)
Introdução ao Processamento Paralelo (3)
 
Introdução ao Processamento Paralelo (2)
Introdução ao Processamento Paralelo (2)Introdução ao Processamento Paralelo (2)
Introdução ao Processamento Paralelo (2)
 
Introdução ao Processamento Paralelo (1)
Introdução ao Processamento Paralelo (1)Introdução ao Processamento Paralelo (1)
Introdução ao Processamento Paralelo (1)
 
Introdução ao Processamento Paralelo (4.2)
Introdução ao Processamento Paralelo (4.2)Introdução ao Processamento Paralelo (4.2)
Introdução ao Processamento Paralelo (4.2)
 
A Evolução das Técnicas de Aquisição Sísmica Marítima para a Coleta de Dados ...
A Evolução das Técnicas de Aquisição Sísmica Marítima para a Coleta de Dados ...A Evolução das Técnicas de Aquisição Sísmica Marítima para a Coleta de Dados ...
A Evolução das Técnicas de Aquisição Sísmica Marítima para a Coleta de Dados ...
 

Full Waveform Inversion: Introdução e Aplicações [3/5]

  • 1. Full Waveform Inversion: Introdução e Aplicações Módulo 03: Otimização - Métodos Não-Lineares Iterativos Bruno Pereira Dias, Andé Bulcão, Djalma Manoel Soares Filho VII Semana de Inverno de Geofísica, 6 a 8 de Julho/2016 INCT-GP, UNICAMP, Campinas, SP, BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 1 / 58
  • 2. Ementa Módulo 01 Introdução, Contextualização, Motivação Módulo 02 Modelagem, Extrapolação do campo de Ondas Módulo 03 Métodos de Otimização Módulo 04 FWI: Algoritmo Geral, tópicos relacionados (salto de ciclo, multi-escala, relação oset-frequência,etc...) Módulo 05 FWI: Método Adjunto e Aplicações (Madagascar) Módulo 06 FWI: Teoria à Prática (Palestra WorkShop SBGF 2015) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 2 / 58
  • 3. Problemas Direto e Inverso d = L(p) p = L−1 (d) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 3 / 58
  • 4. Inversão Sísmica A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em alta resolução através do ajuste de dados baseado na modelagem completa da onda. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 4 / 58
  • 5. Inversão Sísmica A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em alta resolução através do ajuste de dados baseado na modelagem completa da onda. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 5 / 58
  • 6. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 6 / 58
  • 7. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 7 / 58
  • 8. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  • 9. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  • 10. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  • 11. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  • 12. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  • 13. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  • 14. Conceitos-chave 1 Problema direto: modelagem através da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 8 / 58
  • 15. Introdução Objetivo da otimização Encontrar, de modo determínistico, um modelo ótimo m∗, que minimize um função objetivo χ (m), usado para quanticar as discrepâncias entre os sismogramas observados u0 (x,t) e os sintéticos u(m;x,t). Modelo Um modelo m compreende em distribuições de quantidades espaciais de onda compressional vP (x), onda cisalhante vS (x), densidade ρ (x), entre outros (ou combinação destes parâmeros IP, IS etc): m(x) = [m1 (x),m2 (x),m3 (x),...] = [vP (x),vS (x),ρ (x),...] BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 9 / 58
  • 16. Introdução Objetivo da otimização Encontrar, de modo determínistico, um modelo ótimo m∗, que minimize um função objetivo χ (m), usado para quanticar as discrepâncias entre os sismogramas observados u0 (x,t) e os sintéticos u(m;x,t). Modelo Um modelo m compreende em distribuições de quantidades espaciais de onda compressional vP (x), onda cisalhante vS (x), densidade ρ (x), entre outros (ou combinação destes parâmeros IP, IS etc): m(x) = [m1 (x),m2 (x),m3 (x),...] = [vP (x),vS (x),ρ (x),...] BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 9 / 58
  • 17. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  • 18. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  • 19. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  • 20. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  • 21. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  • 22. Introdução Otimização iterativa não-linear χ (m) é uma função não-linear em relação a m, cuja avaliação envolve alto custo computacional. Método de otimização iterativo: 1 Inicia-se com um modelo inicial m0. 2 Atualiza-se o modelo corrente mi para um modelo mi+1 com a condição: mi+1 = mi +γi hi tal que χ (mi+1) χ (mi ). 3 hi = direção de atualização. γi = tamanho do passo de atualização. O processo iterativo é repetido até um critério de convergência ou de custo computacional. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 10 / 58
  • 23. Referências Gill, P. E., Murray, W., Wright, M. H.: Practical optimization. Academic Press, London (1981). Fletcher, R.: Practical methods of optimization. Wiley, New York, NY (1987). Polak, E.: Optimization. Springer, New York, NY (1997). Kelley, C. T.: Iterative methods for optimization. SIAM, Philadelphia, PA (1999). Quarteroni, A., Sacco, R., Saleri, F.: Numerical Mathematics. Springer, New York, NY (2000). Nocedal, J., Wright, J. S.: Numerical Optimization, Springer, New York, NY (2006). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 11 / 58
  • 24. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 12 / 58
  • 25. Norma Denição O conceito de norma está relacionado à noção geométrica de comprimento. Consiste em uma função que a cada vetor associa um número real não-negativo. Norma L1 m 1 := ∑ k |mk (x)|d3x Norma L2 m 2 := ∑ k |mk (x)|2 d3x Norma Lp m p := p ∑ k |mk (x)|p d3x, 1≤ p ∞ BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
  • 26. Norma Denição O conceito de norma está relacionado à noção geométrica de comprimento. Consiste em uma função que a cada vetor associa um número real não-negativo. Norma L1 m 1 := ∑ k |mk (x)|d3x Norma L2 m 2 := ∑ k |mk (x)|2 d3x Norma Lp m p := p ∑ k |mk (x)|p d3x, 1≤ p ∞ BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
  • 27. Norma Denição O conceito de norma está relacionado à noção geométrica de comprimento. Consiste em uma função que a cada vetor associa um número real não-negativo. Norma L1 m 1 := ∑ k |mk (x)|d3x Norma L2 m 2 := ∑ k |mk (x)|2 d3x Norma Lp m p := p ∑ k |mk (x)|p d3x, 1≤ p ∞ BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
  • 28. Norma Denição O conceito de norma está relacionado à noção geométrica de comprimento. Consiste em uma função que a cada vetor associa um número real não-negativo. Norma L1 m 1 := ∑ k |mk (x)|d3x Norma L2 m 2 := ∑ k |mk (x)|2 d3x Norma Lp m p := p ∑ k |mk (x)|p d3x, 1≤ p ∞ BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 13 / 58
  • 29. Base Uma base de um espaço vetorial é um conjunto de vetores linearmente independentes que geram esse espaço. Os constituintes do modelo m, por exemplo, vP (x) estão representados por uma combinação linear de N funções linearmente independentes, vP (x) = N ∑ j=1 vP,j bj (x). Funções de base típicas: harmônicos esféricos, splines, blocos. Discretização permite utilizar a notação matricial m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,... BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
  • 30. Base Uma base de um espaço vetorial é um conjunto de vetores linearmente independentes que geram esse espaço. Os constituintes do modelo m, por exemplo, vP (x) estão representados por uma combinação linear de N funções linearmente independentes, vP (x) = N ∑ j=1 vP,j bj (x). Funções de base típicas: harmônicos esféricos, splines, blocos. Discretização permite utilizar a notação matricial m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,... BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
  • 31. Base Uma base de um espaço vetorial é um conjunto de vetores linearmente independentes que geram esse espaço. Os constituintes do modelo m, por exemplo, vP (x) estão representados por uma combinação linear de N funções linearmente independentes, vP (x) = N ∑ j=1 vP,j bj (x). Funções de base típicas: harmônicos esféricos, splines, blocos. Discretização permite utilizar a notação matricial m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,... BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
  • 32. Base Uma base de um espaço vetorial é um conjunto de vetores linearmente independentes que geram esse espaço. Os constituintes do modelo m, por exemplo, vP (x) estão representados por uma combinação linear de N funções linearmente independentes, vP (x) = N ∑ j=1 vP,j bj (x). Funções de base típicas: harmônicos esféricos, splines, blocos. Discretização permite utilizar a notação matricial m = [vP (x),vS (x),ρ (x),...] ≡ vp,1,...,vp,N,vS,1,... BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 14 / 58
  • 33. Mínimo Local e Global 1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M) 2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2)) 3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M) 4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4)) Figura extraída de Fitchner 2010. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
  • 34. Mínimo Local e Global 1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M) 2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2)) 3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M) 4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4)) Figura extraída de Fitchner 2010. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
  • 35. Mínimo Local e Global 1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M) 2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2)) 3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M) 4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4)) Figura extraída de Fitchner 2010. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
  • 36. Mínimo Local e Global 1 ˜m1: mínimo global (χ ( ˜m1) ≤ χ (m), ∀m ∈ M) 2 ˜m2: mínimo local (χ ( ˜m2) ≤ χ (m), ∀m ∈ Nr ( ˜m2)) 3 ˜m3: mínimo global estrito (χ ( ˜m3) χ (m), ∀m ∈ M) 4 ˜m4: mínimo local estrito (χ ( ˜m4) χ (m), ∀m ∈ Nr ( ˜m4)) Figura extraída de Fitchner 2010. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 15 / 58
  • 37. Condições de Otimalidade Condição de Primeira Ordem Se ˜m é um mínimo local de χ, isto é, χ ( ˜m) ≤ χ (m), ∀m ∈ Nr ( ˜m), então ∇mχ ( ˜m) = 0. Condição de Segunda Ordem Se ˜m é um mínimo local de χ, m·Hχ ( ˜m)·m 0, ∀m ∈ M. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 16 / 58
  • 38. Condições de Otimalidade Condição de Primeira Ordem Se ˜m é um mínimo local de χ, isto é, χ ( ˜m) ≤ χ (m), ∀m ∈ Nr ( ˜m), então ∇mχ ( ˜m) = 0. Condição de Segunda Ordem Se ˜m é um mínimo local de χ, m·Hχ ( ˜m)·m 0, ∀m ∈ M. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 16 / 58
  • 39. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 17 / 58
  • 40. FWI como um problema de otimização FWI é uma ferramenta para se obter modelos de propriedades da subsuperfície em alta resolução através do ajuste de dados baseado na modelagem completa da onda. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 18 / 58
  • 41. Comparação Métodos de Otimização Locais e Globais Métodos Globais 1 Avalia-se a função objetivo em todo espaço de modelo. 2 Adequado para problemas altamente não-lineares, com presença de mínimos locais e/ou informações de derivadas não disponíveis. 3 Dependendo da dimensionalidade do problema (número de parâmetros), o custo computacional pode tornar o método impraticável. Métodos Locais 1 Visam encontrar um mínimo na vizinhança de um modelo inicial fornecido. 2 Utilizam derivadas da função (gradiente, Hessiana) para determinar direção de busca. 3 São computacionalmente mais ecientes para lidar com problemas de grande porte. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 19 / 58
  • 42. Comparação Métodos de Otimização Locais e Globais Métodos Globais 1 Avalia-se a função objetivo em todo espaço de modelo. 2 Adequado para problemas altamente não-lineares, com presença de mínimos locais e/ou informações de derivadas não disponíveis. 3 Dependendo da dimensionalidade do problema (número de parâmetros), o custo computacional pode tornar o método impraticável. Métodos Locais 1 Visam encontrar um mínimo na vizinhança de um modelo inicial fornecido. 2 Utilizam derivadas da função (gradiente, Hessiana) para determinar direção de busca. 3 São computacionalmente mais ecientes para lidar com problemas de grande porte. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 19 / 58
  • 43. Método Monte-Carlo Procura-se menor valor da função objetivo aleatoriamente. Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais. Desvantagem: Necessita grande número de iterações. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.989,1.515) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (0.954,0.939) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
  • 44. Método Monte-Carlo Procura-se menor valor da função objetivo aleatoriamente. Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais. Desvantagem: Necessita grande número de iterações. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.989,1.515) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (0.954,0.939) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
  • 45. Método Monte-Carlo Procura-se menor valor da função objetivo aleatoriamente. Vantagem: Não necessita o cálculo do gradiente χ. Imune a mínimos locais. Desvantagem: Necessita grande número de iterações. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.989,1.515) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (0.954,0.939) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 20 / 58
  • 46. Método Caminho Aleatório A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo. Vantagem: não necessita o cálculo do gradiente χ. Desvantagem: necessita grande número de iterações Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (1.022,1.043) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
  • 47. Método Caminho Aleatório A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo. Vantagem: não necessita o cálculo do gradiente χ. Desvantagem: necessita grande número de iterações Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (1.022,1.043) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
  • 48. Método Caminho Aleatório A partir de um valor inicial procura-se direção aleatória que reduza valor função objetivo. Vantagem: não necessita o cálculo do gradiente χ. Desvantagem: necessita grande número de iterações Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1000 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 1000 Pos. nal: (x,y) = (1.022,1.043) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 21 / 58
  • 49. Métodos Descendentes Gerais Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule uma direção descendente hi = −Ai ·∇mχ (mi ). 3 Atualize mi de acordo com mi+1 = mi +γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
  • 50. Métodos Descendentes Gerais Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule uma direção descendente hi = −Ai ·∇mχ (mi ). 3 Atualize mi de acordo com mi+1 = mi +γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
  • 51. Métodos Descendentes Gerais Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule uma direção descendente hi = −Ai ·∇mχ (mi ). 3 Atualize mi de acordo com mi+1 = mi +γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
  • 52. Métodos Descendentes Gerais Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule uma direção descendente hi = −Ai ·∇mχ (mi ). 3 Atualize mi de acordo com mi+1 = mi +γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 22 / 58
  • 53. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 23 / 58
  • 54. Método do Gradiente Modicado de Nocedal, 2006 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 24 / 58
  • 55. Método do Gradiente Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ) 3 Atualize mi : mi+1 = mi −γi ∇mχ (mi ), com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
  • 56. Método do Gradiente Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ) 3 Atualize mi : mi+1 = mi −γi ∇mχ (mi ), com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
  • 57. Método do Gradiente Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ) 3 Atualize mi : mi+1 = mi −γi ∇mχ (mi ), com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
  • 58. Método do Gradiente Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ) 3 Atualize mi : mi+1 = mi −γi ∇mχ (mi ), com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 4 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 25 / 58
  • 59. Método Gradiente A partir de um valor inicial procura-se direção com maior redução valor função objetivo. Vantagem: necessita somente do cálculo do gradiente χ. Desvantagem: pode ter uma taxa de convergência muito lenta. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 54 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 993 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
  • 60. Método Gradiente A partir de um valor inicial procura-se direção com maior redução valor função objetivo. Vantagem: necessita somente do cálculo do gradiente χ. Desvantagem: pode ter uma taxa de convergência muito lenta. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 54 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 993 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
  • 61. Método Gradiente A partir de um valor inicial procura-se direção com maior redução valor função objetivo. Vantagem: necessita somente do cálculo do gradiente χ. Desvantagem: pode ter uma taxa de convergência muito lenta. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 54 Pos. nal: (x,y) = (−0.977,1.464) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 993 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 26 / 58
  • 62. Método do Gradiente Extraído de Chong-Zak, 4th Ed (2013). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 27 / 58
  • 63. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 28 / 58
  • 64. Método de Newton Método de declividade máxima, a direção de atualização, hi , contém somente informação da primeira derivada no modelo mi . Método de Newton contém informações das derivadas segundas, o que leva a uma convergência muito mais rápida (perto da solução). Condição de otimalidade: ∇mχ ( ˜m) = 0 0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m). Solução para ˜m, ˜m ≈ m−H−1 χ (m)·∇mχ (m). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
  • 65. Método de Newton Método de declividade máxima, a direção de atualização, hi , contém somente informação da primeira derivada no modelo mi . Método de Newton contém informações das derivadas segundas, o que leva a uma convergência muito mais rápida (perto da solução). Condição de otimalidade: ∇mχ ( ˜m) = 0 0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m). Solução para ˜m, ˜m ≈ m−H−1 χ (m)·∇mχ (m). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
  • 66. Método de Newton Método de declividade máxima, a direção de atualização, hi , contém somente informação da primeira derivada no modelo mi . Método de Newton contém informações das derivadas segundas, o que leva a uma convergência muito mais rápida (perto da solução). Condição de otimalidade: ∇mχ ( ˜m) = 0 0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m). Solução para ˜m, ˜m ≈ m−H−1 χ (m)·∇mχ (m). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
  • 67. Método de Newton Método de declividade máxima, a direção de atualização, hi , contém somente informação da primeira derivada no modelo mi . Método de Newton contém informações das derivadas segundas, o que leva a uma convergência muito mais rápida (perto da solução). Condição de otimalidade: ∇mχ ( ˜m) = 0 0 = ∇mχ ( ˜m) ≈ ∇mχ (m)+Hχ (m)·( ˜m−m). Solução para ˜m, ˜m ≈ m−H−1 χ (m)·∇mχ (m). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 29 / 58
  • 68. Método de Newton Extraído de Chong-Zak, 4th Ed (2013). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 30 / 58
  • 69. Método de Newton Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ). 3 Determine a solução descendente, hi , como solução do sistema Hχ (m)·hi = −∇mχ (mi ). 4 Atualize mi : mi+1 = mi −γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 5 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
  • 70. Método de Newton Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ). 3 Determine a solução descendente, hi , como solução do sistema Hχ (m)·hi = −∇mχ (mi ). 4 Atualize mi : mi+1 = mi −γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 5 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
  • 71. Método de Newton Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ). 3 Determine a solução descendente, hi , como solução do sistema Hχ (m)·hi = −∇mχ (mi ). 4 Atualize mi : mi+1 = mi −γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 5 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
  • 72. Método de Newton Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ). 3 Determine a solução descendente, hi , como solução do sistema Hχ (m)·hi = −∇mχ (mi ). 4 Atualize mi : mi+1 = mi −γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 5 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
  • 73. Método de Newton Algoritmo 1 Escolha um modelo inicial m0. Faça i = 0. 2 Calcule o gradiente para o modelo corrente, ∇mχ (mi ). 3 Determine a solução descendente, hi , como solução do sistema Hχ (m)·hi = −∇mχ (mi ). 4 Atualize mi : mi+1 = mi −γi hi , com um passo adequado γi (busca linear) tal que χ (mi+1) χ (mi ). 5 Faça i → i +1 e repita o passo 2 até um critério de parada. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 31 / 58
  • 74. Método de Newton A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de atualização. Vantagem: convergência quadrática. Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 11 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
  • 75. Método de Newton A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de atualização. Vantagem: convergência quadrática. Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 11 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
  • 76. Método de Newton A partir de um valor inicial calcula-se gradiente e Hessiana para determinar direção de atualização. Vantagem: convergência quadrática. Desvantagem: cálculo da Hessiana pode ter custo computacional muito elevado. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 1 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 11 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 32 / 58
  • 77. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 33 / 58
  • 78. Método Gradiente Conjugado Evita direções de atualização repetidas utilizando informações de gradiente e passo anterior. Para um problema linear, o algoritmo converge após n iterações, sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2 Painless Conjugate Gradient) Problema linear: Jm = d Jm−d = 0 ⇒ min m χ (m) = Jm−d 2 χ (m) é uma forma quadrática: χ (m) = (Jm−d)T (Jm−d) = m· H JT J ·m+··· BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
  • 79. Método Gradiente Conjugado Evita direções de atualização repetidas utilizando informações de gradiente e passo anterior. Para um problema linear, o algoritmo converge após n iterações, sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2 Painless Conjugate Gradient) Problema linear: Jm = d Jm−d = 0 ⇒ min m χ (m) = Jm−d 2 χ (m) é uma forma quadrática: χ (m) = (Jm−d)T (Jm−d) = m· H JT J ·m+··· BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
  • 80. Método Gradiente Conjugado Evita direções de atualização repetidas utilizando informações de gradiente e passo anterior. Para um problema linear, o algoritmo converge após n iterações, sendo n a dimensão do sistema. (Demonstração Fitchner, 2010, Sec. 7.3.4.2 Painless Conjugate Gradient) Problema linear: Jm = d Jm−d = 0 ⇒ min m χ (m) = Jm−d 2 χ (m) é uma forma quadrática: χ (m) = (Jm−d)T (Jm−d) = m· H JT J ·m+··· BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 34 / 58
  • 81. Método do Gradiente vs. Gradiente Conjugado Extraído de Chong-Zak, 4th Ed (2013). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 35 / 58
  • 82. Método do Gradiente vs. Gradiente Conjugado Extraído de Chong-Zak, 4th Ed (2013). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 35 / 58
  • 83. Método Gradiente Conjugado Primeira direção = -gradiente. Direções seguintes: combinação entre gradiente e passo anterior. Vantagem: rápida convergência e não necessita cálculo da Hessiana. Desvantagem: Pode necessitar reinicialização. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 11 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 55 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
  • 84. Método Gradiente Conjugado Primeira direção = -gradiente. Direções seguintes: combinação entre gradiente e passo anterior. Vantagem: rápida convergência e não necessita cálculo da Hessiana. Desvantagem: Pode necessitar reinicialização. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 11 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 55 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
  • 85. Método Gradiente Conjugado Primeira direção = -gradiente. Direções seguintes: combinação entre gradiente e passo anterior. Vantagem: rápida convergência e não necessita cálculo da Hessiana. Desvantagem: Pode necessitar reinicialização. Função Quadrática χ (x,y) = x −y +2x2 +2xy +y2 Pos. inicial: (x0,y0) = (2,−2) Número de iterações: 11 Pos. nal: (x,y) = (−1.000,1.500) Função Rosenbrock χ (x,y) = (1−x)2 +10(y −x2)2 Pos. inicial: (x0,y0) = (−1,1) Número de iterações: 55 Pos. nal: (x,y) = (1.000,1.000) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 36 / 58
  • 86. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 37 / 58
  • 87. Método Quasi-Newton (l-BFGS) Pontos-Chave 1 Método que busca aproximar a Hessiana utilizando a informação de N gradientes e atualizações anteriores. 2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja, não é necessário invertê-la para atualização. 3 Não é necessário armazenar a aproximação do inverso da Hessiana. Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
  • 88. Método Quasi-Newton (l-BFGS) Pontos-Chave 1 Método que busca aproximar a Hessiana utilizando a informação de N gradientes e atualizações anteriores. 2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja, não é necessário invertê-la para atualização. 3 Não é necessário armazenar a aproximação do inverso da Hessiana. Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
  • 89. Método Quasi-Newton (l-BFGS) Pontos-Chave 1 Método que busca aproximar a Hessiana utilizando a informação de N gradientes e atualizações anteriores. 2 É possível fazer uma aproximação para o inverso da Hessiana, ou seja, não é necessário invertê-la para atualização. 3 Não é necessário armazenar a aproximação do inverso da Hessiana. Utiliza-se um algoritmo recursivo para calcular o produto matriz-vetor. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 38 / 58
  • 90. Método Quasi-Newton (l-BFGS) mi+1 = mi −γi H−1 χ ∇mχ (mi ) H−1 χ = B é atualizado por meio da expressão Bi+1 = VT i Bi Vi +ρi si sT i onde ρi = 1 yT i si , Vi = I−ρi yi sT i com si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi ) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 39 / 58
  • 91. Método Quasi-Newton (l-BFGS) Pode-se deduzir um procedimento recursivo para calcular o produto Bi ∇mχ (mi ) ecientemente: Bi = VT i−1 ...VT i−m B0 i (Vi−m −Vi−1) +ρi−m VT i−1 ...VT i−m+1 si−msT i−m (Vi−m+1 ...Vi−1) +ρi−m+1 VT i−1 ...VT i−m+2 si−m+1sT i−m+1 (Vi−m+2 ...Vi−1) +... +ρi−1si−1sT i−1 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 40 / 58
  • 92. Método Quasi-Newton (l-BFGS) Algoritmo recursivo q ← ∇mχ (mk) for i = k −1,k −2,...,k −m α ← ρi sT i q q ← q−αi yi end for r ←B0 kq for i = k −m,k −m +1,...,k −1 β ← ρi yT i r r ← r+si (αi −β) end for stop with result Bk∇mχ (mk) = r BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 41 / 58
  • 93. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 42 / 58
  • 94. Busca Linear Modicado de Nocedal, 2006 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 43 / 58
  • 95. Busca Linear Denição Para cada iteração do método de otimização, o algoritmo de busca linear decide quanto atualizar o modelo dada uma direção: mi+1 = mi +γi hi , onde γi é um escalar positivo denominado tamanho do passo. O sucesso da busca linear depende da escolha da direção de atualização hi . O algoritmos descendentes gerais, assumem que hi ·∇mχ (mi ) 0. Assim, existe γi (sucientemente pequeno) tal que χ (mi+i ) χ (mi ). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 44 / 58
  • 96. Busca Linear Denição Para cada iteração do método de otimização, o algoritmo de busca linear decide quanto atualizar o modelo dada uma direção: mi+1 = mi +γi hi , onde γi é um escalar positivo denominado tamanho do passo. O sucesso da busca linear depende da escolha da direção de atualização hi . O algoritmos descendentes gerais, assumem que hi ·∇mχ (mi ) 0. Assim, existe γi (sucientemente pequeno) tal que χ (mi+i ) χ (mi ). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 44 / 58
  • 97. Busca Linear Busca Linear Exata A busca linear exata consiste em encontrar γ tal que min γ φ (γ) = χ (mk +γhi ) Ao calcular γ esbarramos em um dilema: Para encontrar o mínimo de φ (γ) é necessário a avaliação da função objetivo inúmeras vezes. Um passo inadequado pode degradar a performance do algoritmo de otimização. Busca Linear Inexata Objetivo: encontrar um tamanho de passo adequado, que garanta a redução de χ com um custo computacional mínimo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
  • 98. Busca Linear Busca Linear Exata A busca linear exata consiste em encontrar γ tal que min γ φ (γ) = χ (mk +γhi ) Ao calcular γ esbarramos em um dilema: Para encontrar o mínimo de φ (γ) é necessário a avaliação da função objetivo inúmeras vezes. Um passo inadequado pode degradar a performance do algoritmo de otimização. Busca Linear Inexata Objetivo: encontrar um tamanho de passo adequado, que garanta a redução de χ com um custo computacional mínimo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
  • 99. Busca Linear Busca Linear Exata A busca linear exata consiste em encontrar γ tal que min γ φ (γ) = χ (mk +γhi ) Ao calcular γ esbarramos em um dilema: Para encontrar o mínimo de φ (γ) é necessário a avaliação da função objetivo inúmeras vezes. Um passo inadequado pode degradar a performance do algoritmo de otimização. Busca Linear Inexata Objetivo: encontrar um tamanho de passo adequado, que garanta a redução de χ com um custo computacional mínimo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 45 / 58
  • 100. Exemplo de Convergência Inadequada Fonte: Nocedal 2006 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 46 / 58
  • 101. Busca Linear Algoritmo de Busca Linear Backtracking Escolha ¯γ 0,ρ ∈ (0,1); Faça γ ← ¯γ Repita até χ (mi +γhi ) χ (mi ) α ← ρα m (repita) γi = γ ρ: fator de contração. ¯γ: valor do passo inicial. Deve-se utilizar informação a priori do problema para determinar ρ e ¯γ. Nocedal, Wright 2006: Sec. 3.1 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 47 / 58
  • 102. Busca Linear Estimativa do tamanho do passo por aproximação parabólica Avalia-se 3 valores da função objetivo. Um dos valores γ = 0 é fornecido pela estimativa da iteração anterior. Ajuste parabólico γ∗, dadas as condições: χ (γ1) χ (0) χ (γ1) χ (γ2) Documentação FWT2D v.4.8: Sec. 3.1.4 BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 48 / 58
  • 103. Busca Linear Método Barzilai-Borwein Motivação: Qual γ melhor aproxima H−1 χ ? método gradiente: mi+1 = mi −γi ∇mχ (mi ), método Newton: mi+1 = mi −H−1 χ ·∇mχ (mi ), Solução 1: γ1 i = sT i−1si−1 sT i−1yi−1 Solução 2: γ2 i = sT i−1yi−1 yT i−1yi−1 si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi ) J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical Analysis, 8(1):141148, 1988. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
  • 104. Busca Linear Método Barzilai-Borwein Motivação: Qual γ melhor aproxima H−1 χ ? método gradiente: mi+1 = mi −γi ∇mχ (mi ), método Newton: mi+1 = mi −H−1 χ ·∇mχ (mi ), Solução 1: γ1 i = sT i−1si−1 sT i−1yi−1 Solução 2: γ2 i = sT i−1yi−1 yT i−1yi−1 si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi ) J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical Analysis, 8(1):141148, 1988. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
  • 105. Busca Linear Método Barzilai-Borwein Motivação: Qual γ melhor aproxima H−1 χ ? método gradiente: mi+1 = mi −γi ∇mχ (mi ), método Newton: mi+1 = mi −H−1 χ ·∇mχ (mi ), Solução 1: γ1 i = sT i−1si−1 sT i−1yi−1 Solução 2: γ2 i = sT i−1yi−1 yT i−1yi−1 si = mi+1 −mi , yi = ∇mχ (mi+1)−∇mχ (mi ) J. Barzilai and J.M. Borwein. Two-point step size gradient methods. IMA Journal of Numerical Analysis, 8(1):141148, 1988. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 49 / 58
  • 106. Sumário 1 Introdução 2 Conceitos Básicos: Norma, Mínimo e Não-Unicidade 3 Métodos Iterativos de Otimização Não-Linear Método do Gradiente Método de Newton Método de Gradiente Conjugado Método de Quasi-Newton (l-BFGS) Busca Linear 4 Discussão BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 50 / 58
  • 107. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  • 108. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  • 109. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  • 110. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  • 111. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  • 112. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  • 113. Conceitos-chave 1 Problema direto: modelagem da equação da onda. 2 Função objetivo χ: quanticação das diferenças entre o dado observado e o dado calculado para um modelo m. 3 Função não-linear: χ (αm1 +m2) = αχ (m1)+ χ (m2) 4 Problema de otimização: Encontrar o modelo ótimo, m∗, tal que χ (m∗) seja o mínimo global de χ. 5 Problema de grande escala: cada ponto do modelo é um parâmetro a ser encontrado −→centenas (1D), milhares (2D), mihões (3D) de parâmetros. 6 Gradiente: direção de máximo crescimento da função objetivo. 7 Hessiana: derivadas segundas da função objetivo contém informação da curvatura da função objetivo. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 51 / 58
  • 114. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  • 115. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  • 116. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  • 117. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  • 118. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  • 119. Métodos Iterativos de Otimização Não-Linear 1 Método de declividade máxima: Barato computacionalmente, implementação simples. Pode repetir direção de busca. 2 Método de Newton: Caro computacionalmente (derivadas segundas). Rápida convergência perto da solução. Pode ser instável. 3 Método Gradiente Conjugado: Evita repetir direções de atualização. 4 Método l-BFGS: Utiliza informações de atualizações e gradientes anteriores para estimar Hessiana (sem cálculo explícito). 5 Busca Linear: Método para estimar tamanho do passo de atualização. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 52 / 58
  • 121. FWI como um problema de otimização Problema direto: simulação numérica da propagação da onda Calcular o campo de onda u (x,t ou ω) L (p)u (x,t ou ω) = f (x,t ou ω) onde L (p) é um operador diferencial linear em u (x,t ou ω) não linear em p (x) Solução de um problema inverso Obter m (x) no espaço de parâmetros tal que minmχ (m) = 1 2 Ns ∑ s=1 Rsus (m)−ds 2 Ns: número de fontes Rs: operador de restrição de us para os receptores us (m): solução do problema direto para fonte fs ds: dado registrado (sismograma) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 54 / 58
  • 122. FWI como um problema de otimização Problema direto: simulação numérica da propagação da onda Calcular o campo de onda u (x,t ou ω) L (p)u (x,t ou ω) = f (x,t ou ω) onde L (p) é um operador diferencial linear em u (x,t ou ω) não linear em p (x) Solução de um problema inverso Obter m (x) no espaço de parâmetros tal que minmχ (m) = 1 2 Ns ∑ s=1 Rsus (m)−ds 2 Ns: número de fontes Rs: operador de restrição de us para os receptores us (m): solução do problema direto para fonte fs ds: dado registrado (sismograma) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 54 / 58
  • 123. Destacam-se duas ferramentas que permitem a solução de problemas de grande porte: Métodos de otimização local Visa encontrar um mínimo na vizinhança de um modelo inicial fornecido. O método atualiza o modelo de subsuperfície procurando minimizar iterativamente o valor de χ (m). Método adjunto Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto no domínio do tempo, como no da frequência). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
  • 124. Destacam-se duas ferramentas que permitem a solução de problemas de grande porte: Métodos de otimização local Visa encontrar um mínimo na vizinhança de um modelo inicial fornecido. O método atualiza o modelo de subsuperfície procurando minimizar iterativamente o valor de χ (m). Método adjunto Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto no domínio do tempo, como no da frequência). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
  • 125. Destacam-se duas ferramentas que permitem a solução de problemas de grande porte: Métodos de otimização local Visa encontrar um mínimo na vizinhança de um modelo inicial fornecido. O método atualiza o modelo de subsuperfície procurando minimizar iterativamente o valor de χ (m). Método adjunto Permite o cálculo do gradiente de χ (m) de uma forma eciente (tanto no domínio do tempo, como no da frequência). BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 55 / 58
  • 126. Inversão Sísmica A inversão é uma ferramenta para se obter modelos de propriedades da subsuperfície em alta resolução através do ajuste de dados baseado na modelagem completa da onda. BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 56 / 58
  • 127. Descrição para aplicação do método BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 57 / 58
  • 128. Ementa Módulo 01 Introdução, Contextualização, Motivação Módulo 02 Modelagem, Extrapolação do campo de Ondas Módulo 03 Métodos de Otimização Módulo 04 FWI: Algoritmo Geral, tópicos relacionados (salto de ciclo, multi-escala, relação oset-frequência,etc...) Módulo 05 FWI: Método Adjunto e Aplicações (Madagascar) Módulo 06 FWI: Teoria à Prática (Palestra WorkShop SBGF 2015) BPD, AB, DMSF FWI: Módulo 03 VII SIG / 2016 58 / 58