1. Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
Alexandre Salles da Cunha
DCC-UFMG, Mar¸o 2010
c
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
2. Defini¸˜o do Problema
ca
Problema de Otimiza¸˜o sobre um conjunto convexo
ca
minimize f (x) (1)
x ∈X (2)
Vamos assumir que X = ∅ ´ um conjunto convexo.
e
O conjunto X ´ normalmente definido por um conjunto de restri¸˜es
e co
n˜o lineares h(x) = 0 e g (x) ≤ 0, onde:
a
◮ h : Rn → Rm
◮ g : Rn → Rp
Assumimos que f ∈ C 2 : Rn → R.
3. Algumas observa¸˜es preliminares
co
Se f for convexa sobre X , o Problema de Otimiza¸˜o ´ Convexo e
ca e
qualquer ´timo local do problema ´ um ´timo global.
o e o
Assim como no Problema de Otimiza¸˜o Irrestrita, no Problema de
ca
Otimiza¸˜o com restri¸˜es, esperamos que, em um ponto candidato a
ca co
m´ınimo x ∗ , a varia¸˜o de primeira ordem (∇f (x ∗ ))′ △x ≥ 0 seja
ca
verificada para qualquer dire¸˜o △x vi´vel.
ca a
Este problema generaliza o Problema de Programa¸˜o N˜o-Linear
ca a
Irrestrito.
4. Panorama dos M´todos que iremos discutir neste curso
e
M´todos Primais:
e
◮ M´todo de Dire¸oes Vi´veis
e c˜ a
◮ M´todo do Gradiente Projetado
e
◮ Particularmente adequados quando o dom´ ´ um poliedro e a fun¸˜o
ınio e ca
objetivo ´ n˜o linear, ou quando obter uma dire¸˜o vi´vel ou projetar
e a ca a
sobre o conjunto forem f´ceis de serem resolvidas.
a
M´todos baseados em Multiplicadores de Lagrange:
e
◮ Penalidades
◮ Barreiras
◮ Transformam o problema com restri¸oes em uma s´rie de problemas
c˜ e
irrestritos, envolvendo uma alta penalidade pela viola¸˜o das restri¸oes.
ca c˜
A solu¸˜o destes problemas irrestritos fornece, assintoticamente, a
ca
solu¸˜o do problema original.
ca
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
5. Condi¸˜es de Otimalidade
co
Proposi¸˜o
ca
Seja x ∗ um m´
ınimo local de f em um conjunto convexo X . Ent˜o:
a
1 ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X
2 Se f for convexa sobre X , ent˜o a condi¸˜o acima ´ uma condi¸˜o
a ca e ca
suficiente para x ∗ minimizar f em X .
Prova
Parte 1 Suponha ∇f (x ∗ )′ (x − x ∗ ) < 0, para algum x ∈ X . Pelo Teorema
do Valor Central, temos que para todo ǫ > 0, existe s ∈ [0, 1] tal que:
f (x ∗ + ǫ(x − x ∗ )) = f (x ∗ ) + ǫ∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ )
Pela continuidade de f , temos que para ǫ > 0 suficientemente pequeno,
∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ ) < 0 e ent˜o f (x ∗ + ǫ(x − x ∗ )) < f (x ∗ ).
a
Como o conjunto X ´ convexo, temos que x ∗ + ǫ(x − x ∗ ) ´ vi´vel para
e e a
todo ǫ ∈ [0, 1] e ent˜o contradizemos a otimalidade de x
a ∗.
6. Condi¸˜es de Otimalidade
co
Prova
Parte 2
Pela convexidade de f em X temos:
f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ), ∀x ∈ X
Pela parte 1 j´ demonstrada temos que ∇f (x ∗ )(x − x ∗ ) ≥ 0
a
f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ) ≥ f (x ∗ ), ∀x ∈ X ,
e o resultado segue.
7. Ponto estacion´rio
a
Defini¸˜o
ca
Um ponto x ∗ que satisfaz a condi¸˜o
ca
∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X
´ denominado ponto estacion´rio.
e a
Observe que se x ∗ ´ um ponto interior ou se X = Rn as condi¸˜es
e co
enunciadas equivalem ` ∇f (x ∗ ) = 0.
a
Assim sendo, estas condi¸˜es tamb´m podem ser satisfeitas para
co e
pontos de m´ximo ou mesmo outros pontos.
a
8. Se X n˜o for convexo...
a
Al´m de serem n˜o suficientes, estas condi¸˜es podem falhar
e a co
Observe no exemplo (` direita) abaixo temos que:
a
◮ e ınimo local, uma vez que ∇f (x ∗ )′ △x ≥ 0 para
x ∗ ´ um ponto de m´
qualquer △x vi´vel,mas...
a
◮ a condi¸˜o enunciada falha porque x − x ∗ n˜o ´ uma dire¸˜o vi´vel,
ca a e ca a
uma vez que X n˜o ´ convexo e ent˜o ∇f (x ∗ )′ (x − x ∗ ) < 0.
a e a
9. Restri¸˜es Ativas e Inativas
co
Normalmente, o conjunto X ´ definido por restri¸˜es de igualdade e
e co
desigualdade:
hi (x) = 0 i = 1, . . . , m
gj (x) ≤ 0 j = 1, . . . , p
Consideremos cada uma das restri¸˜es gj (x) : j = 1, . . . , p e um
co
ponto x vi´vel para o problema em estudo.
a
Dizemos que gj (x) ´ ativa em x se gj (x) = 0.
e
Caso gj (x) < 0, gj (x) ´ inativa em x.
e
Por defini¸˜o, todas as restri¸˜es hi (x) : i = 1, . . . , m s˜o ativas.
ca co a
10. Otimiza¸˜o sobre um quadrante n˜o negativo
ca a
Considere o conjunto convexo X = {x ∈ Rn : xi ≥ 0, ∀i = 1, . . . , n}.
Observe que a condi¸˜o de otimalidade ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X
ca
equivale a:
n
∂f (x ∗ )
(xi − xi∗ ) ≥ 0, ∀x = (x1 , . . . , xn ) ∈ X
∂xi
i =1
Fixando dire¸˜es convenientes, dependendo da coordenada de i de xi∗
co
estar ou n˜o na fronteira, temos que a equa¸˜o escalar anterior
a ca
implica em:
∂f (x ∗ )
◮
∂xi = 0, ∀i : xi > 0
∂f (x ∗ )
◮
∂xi ≥ 0, ∀i = 1, . . . , n
11. Otimiza¸˜o sobre uma caixa
ca
Como poderiam ser expressas as condi¸˜es de otimalidade caso
co
X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n}
∂f (x ∗ )
= 0 ∀i : ai < xi∗ < bi (3)
∂xi
∂f (x ∗ )
≥0 ∀i : xi∗ = ai (4)
∂xi
∂f (x ∗ )
≤0 ∀i : xi∗ = bi (5)
∂xi
12. Otimiza¸˜o sobre uma caixa
ca
Como poderiam ser expressas as condi¸˜es de otimalidade caso
co
X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n}
∂f (x ∗ )
= 0 ∀i : ai < xi∗ < bi (3)
∂xi
∂f (x ∗ )
≥0 ∀i : xi∗ = ai (4)
∂xi
∂f (x ∗ )
≤0 ∀i : xi∗ = bi (5)
∂xi
13. A importˆncia das restri¸˜es ativas
a co
Exemplo
min f (x1 , x2 ) : x1 , x2 ≥ 0
ınimo, todas as derivadas parciais ∂f∂xi ) s˜o n˜o
(x
∗
No ponto x ∗ de m´ a a
negativas e s˜o nulas para as restri¸˜es xi ≥ 0 inativas. Se todas as
a co
restri¸˜es forem inativas em x ∗ , a condi¸˜o de otimalidade equivale a
co ca
∇f (x ∗ ) = 0.
14. A importˆncia das restri¸˜es ativas
a co
As restri¸˜es ativas em x ´ que restringem a viabilidade nas
co e
vizinhan¸as de um ponto.
c
Desempenham papel fundamental na dedu¸˜o das propriedades
ca
(condi¸˜es necess´rias e suficientes) de um ponto de m´
co a ınimo local.
As restri¸˜es inativas n˜o influenciam em nada a viabilidade nas
co a
vizinhan¸as de x.
c
Caso soub´ssemos quais s˜o as restri¸˜es ativas no ponto de m´
e a co ınimo,
poder´ ıamos concentrar nosso estudo apenas ` elas, tratando-as como
a
restri¸˜es de igualdade e ignorando as restri¸˜es inativas.
co co
15. M´todo de Dire¸˜es Vi´veis
e co a
minimize f (x)
x ∈X
Vamos inicialmente estudar m´todos de otimiza¸˜o para o problema,
e ca
assumindo:
X ´ convexo, n˜o vazio
e a
f ∈ C 1 , isto ´, X ´ continuamente diferenci´vel em X .
e e a
N˜o assumimos nenhuma estrutura ou caracter´
a ıstica especial ao
conjunto de restri¸˜es que determinam X , a n˜o as citadas acima.
co a
16. M´todos de Dire¸˜es Vi´veis
e co a
Defini¸˜o
ca
Dado um vetor vi´vel x, dizemos que d ´ uma dire¸˜o vi´vel em x se d ´
a e ca a e
tal que x + αd ∈ X para qualquer α > 0 suficientemente pequeno.
17. M´todo de Dire¸˜es Vi´veis
e co a
Um m´todo nesta classe:
e
inicia com uma solu¸˜o x 0 e gera uma sequˆncia {x k } de pontos
ca e
vi´veis, atrav´s da itera¸˜o t´
a e ca ıpica:
x k+1 = x k + αk d k
se x k n˜o ´ um ponto estacion´rio, ent˜o a dire¸˜o d k escolhida
a e a a ca
satisfaz:
∇f (x k )′ d k < 0
o passo αk ´ escolhido de forma que x k + αk d k ∈ X .
e
se x k ´ estacion´rio, o m´todo p´ra (x k+1 = x k ).
e a e a
Vamos nos concentrar em m´todos de dire¸˜es vi´veis que s˜o
e co a a
m´todos de descida, isto ´, f (x
e e k + αk d k ) < f (x k ).
18. Um m´todo de dire¸˜es vi´veis, de descida
e co a
19. Caracteriza¸˜o da dire¸˜o vi´vel
ca ca a
Conforme j´ mencionamos, no caso onde X ´ convexo, uma dire¸˜o
a e ca
vi´vel d
a k em x k pode ser caracterizada da seguinte maneira:
d k = γ(x k − x k ), γ > 0
onde x k ´ algum ponto vi´vel.
e a
O m´todo opera ent˜o de acordo com a seguinte itera¸˜o:
e a ca
x k+1 = x k + αk d k , α ∈ [0, 1],
onde a dire¸˜o d k al´m de vi´vel, deve ser de descida:
ca e a
∇f (x k )′ (x k − x k ) < 0, x k ∈ X
Observe que pela convexidade de X , x k + αk (x k − x k ) ∈ X para
qualquer α ∈ [0, 1].
Al´m disto, se d k = γ(x k − x k ) ´ uma dire¸˜o de descida e x k ´ n˜o
e e ca e a
estacion´rio, temos a garantia de existir um αk para o qual
a
f (x k+1 ) < f (x k ).
20. M´todos de dire¸˜es vi´veis: id´ias centrais
e co a e
Requerem uma solu¸˜o vi´vel inicial (m´todo de duas fases)
ca a e
Definem uma dire¸˜o vi´vel de descida, ou concluem que o ponto ´
ca a e
estacion´rio.
a
Implementam uma itera¸˜o t´
ca ıpica que corresponde a uma busca
unidirecional na dire¸˜o escolhida.
ca
Podem ser vistos como uma especializa¸˜o dos m´todos que vimos
ca e
at´ anteriormente para otimiza¸˜o irrestrita.
e ca
21. M´todo de Dire¸˜es vi´veis: determina¸˜o do passo
e co a ca
Minimiza¸˜o exata: αk = arg min
ca α∈[0,1] f (x
k + αd k )
Armijo: Fixados escalares β, σ > 0 tais que β ∈ (0, 1) e σ ∈ (0, 1),
fazemos αk = β mk , onde mk ´ o primeiro inteiro n˜o negativo m tal
e a
que:
f (x k ) − f (x k + β m d k ) ≥ −σβ m ∇f (x k )′ d k
Ou seja, tentamos sucessivamente os passos αk = 1, β, β 2 , . . . at´
e
satisfazer a condi¸˜o acima.
ca
22. M´todos de Dire¸˜es Vi´veis: convergˆncia
e co a e
Proposi¸˜o
ca
Seja {x k } a sequˆncia gerada por um M´todo de Dire¸˜es Vi´veis
e e co a
x k+1 = x k + αk d k , onde as dire¸˜es {d k } s˜o gradiente relacionadas e αk
co a
´ determinado atrav´s de minimiza¸˜o exata ou via regra de Armijo.
e e ca
Ent˜o, todo ponto limite de {x e
a k } ´ um ponto estacion´rio.
a
23. Encontrando um ponto inicial
Dado o problema
minimize f (x)
hi (x) = 0 i = 1, . . . , m
gj (x) ≤ 0 j = 1, . . . , p
criamos e resolvemos o problema artificial (fase 1)
m p
minimize zi + yj
i =1 j=1
hi (x) + zi = 0 i = 1, . . . , m
gj (x) − yj ≤ 0 j = 1, . . . , p
yj ≥ 0 j = 1, . . . , p
Iniciamos o m´todo com x = (0, . . . , 0) e o vetor y e z calculados
e
para viabilizar o programa acima. Ao final da fase 1, caso a fun¸˜oca
objetivo seja nula, dispomos de um ponto inicial vi´vel para o
a
programa original.
24. M´todo do Gradiente Condicional
e
Os m´todos nesta classe se diferenciam em como a dire¸˜o vi´vel, de
e ca a
descida ´ obtida. Um dos m´todos mais usados nesta classe ´ o Gradiente
e e e
Condicional:
O problema de obter uma dire¸˜o vi´vel com propriedade de descida
ca a
em x k pode ser formulado como:
min ∇f (x k )′ (x − x k )
x ∈X
Se X ´ compacto, o programa acima ´ limitado. Caso X n˜o seja
e e a
limitado, impomos restri¸˜es lineares do tipo x ∞ ≤ 1 e resolvemos
co
o programa.
Se o valor ´timo do programa auxiliar for negativo, encontramos uma
o
dire¸˜o vi´vel, de descida.
ca a
25. Obtendo uma dire¸˜o vi´vel
ca a
Observe que o programa auxiliar envolve o mesmo conjunto de
restri¸˜es que do original, mas a fun¸˜o objetivo ´ linear.
co ca e
No caso das restri¸˜es que definem X serem n˜o lineares, o programa
co a
auxiliar ´ t˜o complicado quanto o programa original.
e a
Os m´todos de dire¸˜es vi´veis, em particular o do Gradiente
e co a
Condicional, s˜o particularmente interessantes quando X ´ um
a e
poliedro, uma vez que o subproblema ´ um Programa Linear.
e
26. Gradiente Condicional quando X ´ um poliedro
e
Se o m´todo Simplex ´ usado para resolver o subproblema, x k sempre
e e
´ um ponto extremo de X .
e
Por quˆ a dire¸˜o d k que resolve o subproblema n˜o ´ contr´ria a
e ca a e a
∇f (x k ), se x k for um ponto interior ?
27. M´todo do Gradiente Condicional: exemplo num´rico
e e
Problema Quadr´tico
a
1 2 2 2
minimize f (x) = (x1 + x2 + 0.1x3 ) + 0.55x3
2
x1 + x2 + x3 = 1
x ≥0
Subproblema associado - determina¸˜o da dire¸˜o vi´vel, de descida
ca ca a
minimize k k k
(x1 )x1 + (x2 )x2 + (0.1x3 + 0.55)x3 +
+ (−(x1 )2 − (x2 )2 − (x3 )(0.1x3 + 0.55)
k k k k
x1 + x2 + x3 = 1
x ≥0
que pode ser resolvido de forma gulosa.
gradcondicional.sci
28. M´todo do Gradiente Condicional: exemplo num´rico
e e
Vamos implementar o m´todo considerando:
e
x 0 = 1 (1, 1, 1)′ e tamb´m x 0 = (1, 0, 0)′
3 e
Passo de Armijo.
Condi¸˜o de parada definida na resolu¸˜o do subproblema:
ca ca
∇f (x k )′ d k
≥ −1.0E − 4
∇f (x k ) d k
29. Taxa de Convergˆncia do M´todo do Gradiente Condicional
e e
Se a regra de Armijo ou a
minimiza¸˜o exata forem empregadas
ca
para se determinar o αk , pode-se
demonstrar que as dire¸˜es geradas
co
s˜o gradiente relacionadas e, ent˜o,
a a
todo ponto limite da sequˆncia gerada
e
pelo m´todo ´ um ponto estacion´rio.
e e a
Apesar disto, a taxa de convergˆncia
e
do m´todo ´ baixa: os pontos x k
e e
gerados s˜o tais que a dire¸˜o d k ´
a ca e
quase ortogonal ´ dire¸˜o que levaria
a ca
ao ´timo, a partir do ponto x k
o
(zig-zag). Veja a figura:
30. M´todo do Gradiente Projetado
e
Mover ao longo da dire¸˜o contr´ria ao gradiente n˜o garante a
ca a a
viabilidade do ponto obtido, caso o ponto de origem esteja na
fronteira do conjunto de viabilidade.
O M´todo do Gradiente Projetado consiste em projetar o vetor
e
contr´rio ao gradiente no conjunto X , de forma que aprimore a
a
fun¸˜o objetivo e garanta viabilidade.
ca
Do ponto de vista computacional, a principal desvantagem do m´todo
e
´ o elevando custo associado ` proje¸˜o, em cada itera¸˜o.
e a ca ca
O m´todo ´ uma boa alternativa quando a opera¸˜o de proje¸˜o pode
e e ca ca
ser feita com baixo custo computacional.
31. O problema de projetar z ∈ Rn em X convexo, fechado
Proje¸˜o
ca
Consiste em encontrar um vetor x ∗ ∈ X , cuja distˆncia a z seja m´
a ınima:
minimize z −x
x ∈X
Alguns fatos sobre a proje¸˜o
ca
Para todo z ∈ Rn existe um x ∗ ∈ X unico que minimiza z − x
´
sobre todo x ∈ X . Este vetor ´ chamado proje¸˜o de z em X .
e ca
Usualmente denominamos x ∗ = [z]+ .
Dado z ∈ Rn , x ∗ = [z]+ se e somente se
(z − x ∗ )(x − x ∗ ) ≤ 0, ∀x ∈ X .
No caso de X ser um subespa¸o, x ∗ ∈ X ´ a proje¸˜o de z em X se e
c e ca
somente se z − x ∗ for ortogonal a X , isto ´: (z − x ∗ )x = 0, ∀x ∈ X .
e
32. Gradiente projetado
Vamos supor que o nosso problema de otimiza¸˜o seja
ca
minimize f (x)
Ax ≤ b
Ex = e
onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e
X = {x ∈ Rn : Ax ≤ b, Ex = e}.
e que disponhamos de um ponto vi´vel x k na fronteira do conjunto de
a
viabilidade X .
Assuma ent˜o que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ],
a 1 2
b ′ = [b1 , b2 ].
′ ′
Suponha tamb´m que f seja diferenci´vel em x k .
e a
Como fazemos para projetar −∇f (x k ) na face de X ativa em x k ?
33. Resolvemos o seguinte Problema de Otimiza¸˜o Quadr´tica
ca a
minimize x − (−∇f (x k ))
A 1 x = b1
A 2 x ≤ b2
Ex = e
cuja solu¸˜o (obtida analiticamente) ´ x ∗ = −P∇f (x k ) onde a matriz P
ca e
(chamada de matriz de proje¸˜o) ´ dada por:
ca e
P = I − M ′ (MM ′ )−1 M
e a matriz M corresponde ˜s linhas das restri¸˜es ativas em x k :
a co
M ′ = [A′ , E ′ ].
1
34. Matrizes de Proje¸˜o
ca
Defini¸˜o
ca
Assuma que P ∈ Rn×n seja uma matriz quadrada de ordem n. P ´
e
chamada matriz de proje¸˜o se:
ca
P = P′
PP = P
Proposi¸˜o
ca
Seja P uma matriz quadrada de ordem n. Ent˜o, o seguinte ´ verdadeiro:
a e
1 Se P ´ uma matriz de proje¸˜o, ent˜o P ´ positiva semi definda.
e ca a e
2 P ´ uma matriz de proje¸˜o se e somente se I − P ´ uma matriz de
e ca e
proje¸˜o.
ca
3 Seja P uma matriz de proje¸˜o e Q = I − P. Ent˜o os subespa¸os
ca a c
lineares L = {Px : x ∈ Rn } e L⊥ = {Qx : x ∈ Rn } s˜o ortogonais.
a
Al´m disto, qualquer x ∈ Rn pode ser escrito como x = p + q onde
e
p ∈ L, q ∈ L⊥ , atrav´s de p, q unicos.
e ´
35. Matrizes de Proje¸˜o
ca
Prova
1 Seja x ∈ Rn um vetor arbitr´rio. Ent˜o, se P ´ uma matriz de
a a e
proje¸˜o, x ′ Px = x ′ PPx = x ′ P ′ Px = Px 2 ≥ 0, logo P ´ positiva
ca e
semidefinida.
2 ´
Obvio.
3 Claramente L, L⊥ s˜o subespa¸os lineares.
a c
Uma vez que P ′ Q = P ′ (I − P) = P − P ′ P = 0, L, L⊥ s˜o de fato
a
ortogonais.
(Unicidade) suponha que x = p ′ + q ′ e que x = p + q. Ent˜oa
subtraindo a primeira da segunda temos p − p ′ = q p rime − q. Uma
vez que L ∩ L⊥ = 0, p − p ′ = q ′ − q = 0 e a representa¸˜o ´ unica.
ca e ´
36. Interpreta¸˜o
ca
Dado z ∈ Rn temos que (Pz)′ , (I − P)z = 0. Ou seja, a aplica¸˜o
ca
Pz projeta z no espa¸o ortogonal ao da aplica¸˜o Qz = (I − P)z.
c ca
Assim sendo podemos escrever que z ´ a soma direta de Pz e Qz ou
e
seja, z = Pz ⊕ Qz.
37. Gradiente Projetado - Problema com restri¸˜es lineares
co
minimize f (x)
Ax ≤ b
Ex = e
onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e
X = {x ∈ Rn : Ax ≤ b, Ex = e}.
Id´ia central
e
Dado x k , se movemos na dire¸˜o −∇f (x k ), podemos perder
ca
viabilidade.
Para preservar viabilidade, projetamos −∇f (x k ) na face ativa de X
ativa (em rela¸˜o ` x k , usando uma matriz de proje¸˜o P adequada)
ca a ca
e nos movemos na dire¸˜o d k = −P∇f (x k ).
ca
38. Caracteriza¸˜o de Dire¸˜es Vi´veis
ca co a
Proposi¸˜o
ca
Considere o poliedro X = {x ∈ Rn : Ax ≤ b, Ex = e} que definimos.
Suponha que x k ∈ X e que
A1 x k = b1 , A2 x k < b2 , A′ = [A′ , A′ ], b ′ = [b1 , b2 ].
1 2
′ ′
Ent˜o, um vetor d k ´ vi´vel em x k se e somente se A1 d k ≤ 0, Ed k = 0.
a e a
(A demonstra¸˜o ´ ´bvia).
ca e o
39. Gradiente projetado - X ´ um poliedro
e
Proposi¸˜o
ca
Considere o problema minx∈X definido acima. Assuma que x k seja um
ponto vi´vel tal que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ],
a 1 2
b ′ = [b1 , b2 ]. Suponha tamb´m, que f seja diferenci´vel em x k . Ent˜o:
′ ′ e a a
1 Se P ´ uma matriz de proje¸˜o tal que P∇f (x k ) = 0, ent˜o
e ca a
d k = −P∇f (x k ) ´ uma dire¸˜o de descida de f em x k .
e ca
2 Al´m disto, se M ′ = [A1 , E ′ ] possui posto completo e se
e ′
P =I −M ′ (MM ′ )−1 M, ent˜o d k ´ uma dire¸˜o de descida, vi´vel.
a e ca a
40. Gradiente projetado - X ´ um poliedro
e
Prova
1 (−P∇f (x k ) ´ dire¸˜o de descida)
e ca
Observe que: ∇f (x k )′ d k = −∇f (x k )′ P∇f (x k ) =
−∇f (x k )′ P ′ P∇f (x k ) = − P∇f (x k ) < 0, uma vez que P ´ positiva
e
semi-definda e, pelo enunciado ∇f (x k )′ P = 0. Ent˜o d k ´ uma
a e
dire¸˜o de descida.
ca
2 (−P∇f (x k ) ´ dire¸˜o vi´vel)
e ca a
Se M possui posto completo, (MM ′ ) ´ n˜o singular e ent˜o:
e a a
P = I − M ′ (MM ′ )−1 M
MP = M − MM ′ (MM ′ )−1 M = M − IM = 0
Logo Md k = −MP∇f (x k ) = 0
Se Md k = 0 temos A1 d k = 0, Ed k = 0 e d k ´ vi´vel.
e a
41. Interpreta¸˜o Geom´trica do M´todo
ca e e
Uma vez que MP = 0 temos que A1 P = 0, EP = 0 e ent˜o a matriz
a
de proje¸˜o P projeta cada linha de A1 e de E no vetor nulo.
ca
Entretanto, as linhas de A1 e de E s˜o os gradientes das restri¸˜es
a co
ativas em x k , a matriz P ´ na verdade a matriz que projeta os
e
gradientes das restri¸˜es ativas em x k no vetor zero.
co
Assim sendo, P∇f (x k ) corresponde ` proje¸˜o de ∇f (x k ) no espa¸o
a ca c
nulo das restri¸˜es ativas.
co
Veja: MP∇f (x k ) = 0, logo, P∇f (x k ) ∈ N (M)
42. Teoria de Multiplicadores de Lagrange
Vamos considerar os problemas de otimiza¸˜o definidos por restri¸˜es de
ca co
igualdade:
minimize f (x)
hi (x) = 0 i = 1, . . . , m
onde f (x) : Rn → R, hi (x) : Rn → R, ∀i = 1, . . . , m s˜o func˜es
a o
continuamente diferenci´veis.
a
Condi¸˜es Necess´rias de Otimalidade
co a
O nosso principal resultado ´ o seguinte: se x ∗ ´ um ponto de m´
e e ınimo
local, ent˜o existem escalares λi : i = 1, . . . , m, denominados
a
Multiplicadores de Lagrange tais que vale a seguinte equa¸˜o vetorial:
ca
m
∗
∇f (x ) + λi ∇hi (x ∗ ) = 0
i =1
43. Interpretando este resultado
m
∗
∇f (x ) + λi ∇hi (x ∗ ) = 0
i =1
O gradiente da fun¸˜o objetivo ∇f (x ∗ ) pertence ao subespa¸o gerado
ca c
pelo gradiente ∇hi (x ∗ ) das restri¸˜es ativas em x ∗ .
co
Exemplo
min x1 + x2
2 2
x1 + x2 = 2
44. Interpretando este resultado
Defini¸˜o
ca
Definimos o subespa¸o de vari¸˜es nulas de primeira ordem, isto ´, o
c co e
subespa¸o para o qual o vetor x = x ∗ + △x satisfaz as restri¸˜es h(x) = 0
c co
at´ a primeira ordem, como:
e
V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m}
Tome y ∈ V (x ∗ );
Uma vez que ∇f (x ∗ ) + m λi ∇hi (x ∗ ) = 0, temos que
i =1
∇f (x ∗ )′ y + m λi ∇hi (x ∗ )′ y = 0 e logo ∇f (x ∗ )′ y = 0.
i =1
Ou seja, ∇f (x ∗ ) ⊥ V (x ∗ ). Ou seja, o gradiente de f em x ∗ ´
e
ortogonal ao espa¸o das dire¸˜es vi´veis que geram varia¸˜o de
c co a ca
primeira ordem nula nas restri¸˜es.
co
Este resultado ´ an´lago ` condi¸˜o ∇f (x ∗ ) = 0 para Otimiza¸˜o
e a a ca ca
Irrestrita.
45. Formalizando e demonstrando o resultado
Proposi¸˜o
ca
Seja x ∗ um ponto de m´
ınimo local de f sujeito `s restri¸˜es h(x) = 0.
a co
Assuma que os gradientes ∇h1 (x), . . . , ∇hm (x) sejam li em x ∗ .
1 Ent˜o, existe λ∗ = (λ∗ , . . . , λ∗ )′ unico, tal que:
a 1 m ´
m
∇f (x ∗ ) + λ∗ ∇hi (x ∗ ) = 0
i
i =1
2 Se f e h forem duas vezes continuamente diferenci´veis, temos que
a
m
y′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y ≥ 0, ∀y ∈ V (x ∗ ) onde
i
i =1
V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m}
denota o subespa¸o de primeira ordem de varia¸˜es vi´veis de h.
c co a
46. Um problema sem multiplicadores de Lagrange
Antes de provar este resultado, vamos estudar este exemplo:
minimize f (x) = x1 + x2 (6)
2 2
h1 (x) = (x1 − 1) + x2 −1 = 0 (7)
2 2
h2 (x) = (x1 − 2) + x2 −4 = 0 (8)
Observe que o unico ponto vi´vel ´ (0, 0) e que neste ponto os gradientes
´ a e
de h1 e h2 s˜o ld, n˜o permitindo escrever o gradiente de f em R2 .
a a
47. Pontos regulares
Defini¸˜o
ca
Dizemos que um ponto x ´ regular se ∇hi (x), . . . , ∇hm (x) s˜o linearmente
e a
independentes em x.
No exemplo anterior, o ponto ´timo n˜o ´ regular.
o a e
48. Demonstra¸˜o do Teorema dos Multiplicadores de
ca
Lagrange
A prova se baseia na aplica¸˜o do m´todo de penalidades. Basicamente
ca e
suas id´ias centrais s˜o:
e a
Relaxamos as restri¸˜es do problema
co
Adicionamos estas restri¸˜es ` fun¸˜o objetivo do problema,
co a ca
multiplicando cada restri¸˜o por uma penalidade.
ca
Aplicamos as condi¸˜es necess´rias de primeira e segunda orgem ao
co a
problema relaxado e
Tomamos o limite destas condi¸˜es, na medida em que as penalidades
co
crescem.
49. Prova - M´todo de Penalidades
e
Fun¸˜o de custo penalizada
ca
k 2 α
F k (x) = f (x) + h(x) + x − x ∗ 2 , k = 1, 2, . . .
2 2
onde:
x ∗ : ´ um m´
e ınimo local de f (x) : h(x) = 0.
k 2
O termo 2 h(x) penaliza a viola¸˜o das restri¸˜es
ca co
α
O termo 2 x− x∗ 2´ inserido para facilitar a prova, garantindo que
e
e ınimo local estrito de f (x) + α x − x ∗ 2 sujeito a h(x) = 0.
x ∗ ´ um m´ 2
50. Prova - M´todo de Penalidades
e
Dado que x ∗ ´ um m´
e ınimo local do problema, ´ poss´ escolher
e ıvel
ǫ > 0 tal que f (x ∗ ) ≤ f (x), ∀x ∈ S onde
S = {x : h(x) = 0; x − x ∗ ≤ ǫ}.
Ent˜o vamos assumir que x k resolve o seguinte problema:
a
minimize F k (x)
x ∈S
Observe que este otimizador x k existe, uma vez que S ´ compacto.
e
Vamos mostrar agora que {x k } converge para x ∗ .
51. {x k } converge para x ∗
Para todo k temos:
k α
F k (x k ) = f (x k ) + 2 h(x) 2 + 2 xk − x∗
≤ F k (x ∗ ) otimal. de x k
= f (x ∗ ) j´ que h(x ∗ ) = 0
a
Observe que f (x k ) ´ limitada em S.
e
Asssim sendo, o lado esquerdo da desigualdade acima precisa ficar
limitado quando k → ∞
k 2
Para que isto ocorra, o termos 2 h(x) precisa assumir valor finito
quando k → ∞.
Logo, limk→∞ h(x) = 0.
Ent˜o todo ponto limite x de {x k } satisfaz f (x) + α x − x ∗ ≤ f (x ∗ ).
a 2
Uma vez que x, x ∗ ∈ S e x ´ vi´vel e pela otimalidade de x ∗ , isto ´
e a e
f (x ∗ ) − f (x), x − x ∗ = 0. Logo x = x ∗ .
52. Observa¸˜es
co
Note que x k ´ um ponto interior a S para k suficientemente grande.
e
Por este motivo, a partir deste valor suficientemente grande de k, x k
´ um m´
e ınimo local do problema irrestrito que consiste em minimizar
F k (x).
Note tamb´m que j´ dispomos de um algoritmo para obter x.
e a
Vamos provar o Teorema dos Multiplicadores de Lagrange, aplicando
as condi¸˜es necess´rias de primeira ordem (irrestritas) a F k (x) em
co a
xk.
53. Obtendo λ∗
Aplicando as CNPO a F k (x k ), temos:
0 = ∇F k (x k ) = ∇f (x k ) + k∇h(x k )h(x k ) + α(x k − x ∗ ) (9)
Pelo enunciado, temos que ∇h(x ∗ ) possui posto completo, igual a
m < n. Por continuidade, existe k suficientemente grande para o qual
o posto de ∇h(x k ) tamb´m ´ m. Logo [∇h(x k )′ ∇h(x k )]−1 ´ n˜o
e e e a
singular.
Pre multiplique (9) por [∇h(x k )′ ∇h(x k )]−1 e obtenha:
kh(x k ) = −[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )′ ∇f (x k ) + α(x k − x ∗ )
Sabemos que k → ∞, x k → x ∗ e kh(x k ) converge para um valor
finito. Denonine ent˜o por
a
λ∗ = [∇h(x ∗ )′ ∇h(x ∗ )]−1 ∇h(x ∗ )′ ∇f (x ∗ )
Tome o limite em (9) quando k → ∞ e obtenha:
∇f (x ∗ ) + ∇h(x ∗ )λ∗ = 0
54. Vamos agora provar as condi¸˜es de 2a. ordem
co
Aplicando as CNSO a F k (x k ) temos (diferenciando (9)) que a matriz:
m
2 2
k k k k
∇ F (x ) = ∇ f (x )+ k∇h(x )∇h(x ) + k k ′
hi (x k )∇2 hi (x k )+ αI
i =1
(10)
´ semi-positiva definida, para todo k suficientemente grande e α > 0.
e
Tome qualquer y ∈ V (x ∗ ) isto ´ y : ∇h(x ∗ )′ y = 0 e considere que y k
e
seja a proje¸˜o de y no espa¸o nulo de ∇h(x k )′ , isto ´:
ca c e
(I − P)y = y k = y − ∇h(x k )[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )y
As condi¸˜es necess´rias de primeira ordem garantem que
co a
∇h(x k )′ y k = 0 e como ∇2 F k (x k ) ´ semi-positiva definida, temos:
e
0 ≤ (y k )′ ∇2 F k (x k )y k
k )′ ∇2 f (x k ) + k m k 2 k k k 2
0 ≤ (y i =1 hi (x )∇ hi (x ) y + α y
(11)
55. Condi¸˜es de 2a. ordem - continua¸˜o
co ca
Uma vez que:
◮ khi (x k ) → λi
◮ xk → x∗
◮ ∇h(x ∗ )′ y = 0
temos que y k → y e ent˜o temos:
a
m
0 ≤ y ′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y + α y
i
2
(12)
i =1
Uma vez que α > 0 pode ser arbitrariamente pequeno, temos:
m
0 ≤ y′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y , ∀y ∈ V (x ∗ )
i (13)
i =1
e a prova est´ completa.
a
56. A Fun¸˜o Lagrangeana
ca
Defini¸˜o
ca
Considere a fun¸˜o Lagrangeana L : Rn+m → R definida como:
ca
m
L(x, λ) := f (x) + λi hi (x).
i =1
Observe que as condi¸˜es necess´rias de Primeira Ordem, de Viabilidade
co a
Primal (hi (x) = 0, ∀i = 1, . . . , m) e as condi¸˜es necess´rias de segunda
co a
ordem podem ser escritas em termos de L(x, λ) como:
m
∇x L(x ∗ , λ∗ ) = 0 ⇔ ∇f (x ∗ ) + ∗ ∗
i =1 λi ∇hi (x ) =0
∇λ L(x ∗ , λ∗ ) = 0 ⇔ hi (x) = 0, ∀i = 1, . . . , m (viabilidade)
y ′ ∇2 L(x ∗ , λ∗ )y
xx ≥ 0, ∀y ∈ V (x ∗ ) ⇔
m
y ′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y
i
i =1
57. A fun¸˜o Lagrangena
ca
m
L(x, λ) := f (x) + λi hi (x).
i =1
Todo m´ınimo local regular deve ent˜o satisfazer o sistema de equa¸˜es em
a co
n + m vari´veis dado por:
a
∇x L(x ∗ , λ∗ ) = 0
∇λ L(x ∗ , λ∗ ) = 0
Cabe salientar que nem todo ponto que satisfizer o sistema acima ´ um
e
ponto de m´ınimo (recorde nossa experiˆncia com Otimiza¸˜o Irrestrita).
e ca
Um ponto de m´ximo pode tamb´m satisfazer o sistema acima.
a e
58. Fun¸˜o Lagrangeana - Exemplo
ca
1 2 2 2
minimize x + x2 + x3
2 1
x1 + x2 + x3 = 3
Consideremos o vetor (x ∗ , λ∗ ) = (1, 1, 1, −1)′
Observe que ∇h(x ∗ ) = (1, 1, 1)′ (´ li), logo o ponto ´ regular.
e e
Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (1, 1, 1) − 1(1, 1, 1) = 0, logo as
condi¸˜es necess´rias de primeira ordem s˜o satisfeitas.
co a a
Uma vez que ∇2 f (x ∗ ) = diag(1) e ∇2 h(x) = 03×3 , temos que
x ′ ∇2 f (x ∗ )x > 0, ∀x ∈ Rn , em particular para y ∈ V (x ∗ ).
Portanto x ∗ ´ um m´
e ınimo global para o problema.
59. Interpreta¸˜o do uso da Fun¸˜o Langeana
ca ca
Criamos a fun¸˜o Lagrangeana para obter um modelo irrestrito, cujo
ca
objetivo coincide com o objetivo do problema original para qualquer
solu¸˜o vi´vel.
ca a
Para qualquer valor dos multiplicadores λi , um ´timo x ∗ do problema
o
relaxado deve ser um ponto estacion´rio de L(·, λ). Esta ´ a condi¸˜o
a e ca
associada a ∇x L(x ∗ , λ∗ ) = 0.
Impor as condi¸˜es ∇λ L(x ∗ , λ∗ ) implica em restringir os pontos
co
a ıveis de L(x ∗ , λ∗ ) `queles que satisfazem as
estacion´rios admiss´ a
restri¸˜es do problema original.
co
Assim sendo, se um ponto x ∗ satisfizer as condi¸˜es de ponto
co
estacion´rio (em x, λ) para o problema relaxado com multiplicadores
a
fixados em λ∗ , ele deve ser vi´vel e L(x ∗ , λ∗ ) = f (x ∗ ).
a
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
60. Fun¸˜o Lagrangeana - Exemplo
ca
1 2 2 2
minimize − x + x2 + x3
2 1
x1 + x2 + x3 = 3
Este problema admite m´
ınimo ?
Consideremos agora o vetor (x ∗ , λ∗ ) = (1, 1, 1, 1)′
∇h(x ∗ ) = (1, 1, 1)′ e o ponto ´ regular.
e
Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (−1, −1, −1) + (1, 1, 1) = 0, logo
as condi¸˜es necess´rias de primeira ordem s˜o satisfeitas.
co a a
Uma vez que ∇2 f (x ∗ ) = diag(−1) e ∇2 h(x) = 03×3 , as condi¸˜es
co
necess´rias de segunda ordem n˜o s˜o satisfeitas.
a a a
O conjunto X n˜o ´ compacto.
a e
61. Condi¸˜es Suficientes de Otimalidade
co
Proposi¸˜o - Prop 3.2.1
ca
(Condi¸˜es Suficientes de Otimalidade)
co
Assuma que f e h sejam fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn e
co a
λ∈R m satisfazendo:
1 ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0
2 y ′ ∇2 L(x ∗ , λ∗ )y > 0 para todo y = 0, ∇h(x ∗ )′ y = 0.
xx
Ent˜o:
a
x ∗ ´ um m´
e ınimo local estrito de f sujeito a h(x) = 0.
De fato, existem γ > 0 e ǫ > 0 tais que: f (x) ≥ f (x ∗ ) + γ ||x − x ∗ ||2
2
para qualquer x : h(x) = 0 e ||x − x ∗ || ≤ ǫ.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
63. Exemplo - continua
Condi¸˜es Suficientes de Otimalidade:
co
0 −1 −1
2
∇xx L(x ∗ , λ∗ ) = −1 0 −1
−1 −1 0
Observa¸˜es:
co
∇2 L(x ∗ , λ∗ ) ´ semi-positiva definida.
xx e
Entretanto, para os vetores y : ∇h(x ∗ )′ y = 0 temos:
◮ y : ∇h(x ∗ )′ y = 0 → y1 + y2 + y3 = 0.
◮ y ′ ∇2 L(x ∗ , λ∗ )y = −y1 (y2 + y3 ) − y2 (y1 + y3 ) − y3 (y1 + y2 ) =
xx
2 2 2
y1 + y2 + y3 > 0.
2
Logo, para os y : ∇h(x ∗ )′ y = 0, ∇xx L(x ∗ , λ∗ ) ´ positiva definida e as
e
condi¸˜es de segunda ordem s˜o verificadas.
co a
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
64. Demonstra¸˜o das Condi¸˜es Suficientes de Otimalidade
ca co
O entendimento da demonstra¸˜o da suficiˆncia destas condi¸˜es ´
ca e co e
fundamental para entender porque os m´todos que iremos estudar
e
funcionam.
Vamos usar uma fun¸˜o denominada Fun¸˜o Lagrangeana
ca ca
Aumentada que nada mais ´ que a Fun¸˜o Lagrangena de um
e ca
Problema de Otimiza¸˜o similar ao problema original, modificado
ca
apenas pela sua fun¸˜o objetivo, que passa a incorporar uma
ca
penalidade pela viola¸˜o das restri¸˜es h(x) = 0.
ca co
Antes de demonstrar as condi¸˜es suficientes, precisamos de alguns
co
resultados auxiliares.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
65. Alguns resultados auxiliares
Teorema de Bolzano-Weierstrass
Toda sequˆncia limitada no conjunto Rn possui uma subsequˆncia
e e
convergente.
N˜o negatividade de A′ A
a
Seja A uma matriz m × n. Ent˜o a matriz sim´trica A′ A ´ uma matriz
a e e
positiva semidefinida.
Lema Auxiliar
Sejam P e Q duas matrizes sim´tricas. Assuma que Q seja semi-positiva
e
definida e que P ´ positiva definida no espa¸o nulo de Q. Isto ´, x ′ Px > 0
e c e
para qualquer x : Qx = 0 ou, equivalentemente x : x ′ Qx = 0. Ent˜o existe
a
um escalar c tal que P + cQ ´ positiva definida para qualquer c > c.
e
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
66. Demonstra¸˜o do Lema Auxiliar
ca
Id´ia da prova: vamos assumir o contr´rio e obter uma contradi¸˜o.
e a ca
Assuma ent˜o que o resultado enunciado n˜o vale. Ent˜o, para
a a a
qualquer inteiro k, existe um vetor x k , ||x K || = 1 tal que:
(x k )′ Px k + k(x k )′ Qx k ≤ 0
Uma vez que ||x k || = 1, a sequˆncia {x k } ´ limitada e pelo Teorema
e e
de Bolzano-Weierstrass, existe uma subsequˆncia {x k }k∈K que
e
converge para algum vetor x.
Tomando o limite supremo da desigualdade acima temos:
lim (x k )′ Px k + k(x k )′ Qx k ≤0 →
k→∞,k∈K
x ′ Px + lim k(x k )′ Qx k ≤0
k→∞,k∈K
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
67. Demonstra¸˜o do Lema auxiliar - continua
ca
x ′ Px + lim k(x k )′ Qx k ≤0
k→∞,k∈K
Para que o lado esquerdo seja limitado superiormente (≤ 0), temos
que ter k(x k )′ Qx k → 0.
Uma vez que a matriz Q ´ n˜o negativa e k → ∞, isto s´ ocorre se
e a o
(x k )Qx k → 0.
Logo limk→∞,i ∈K (x k )′ Qx k = x ′ Qx = 0 e consequentemente
x ′ Px ≤ 0.
Portanto, x ´ tal que Qx = 0 (x pertence ao nulo de Q).
e
Logo x ′ Px > 0 (pelo pr´prio teorema) e temos uma contradi¸˜o !
o ca
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
68. O M´todo do Lagrangeano Aumentado
e
Fun¸˜o Lagrangeana Aumentada
ca
c
Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2
2
onde c ´ um escalar positivo.
e
Observe que:
A fun¸˜o Lc (x, λ) corresponde ` fun¸˜o Lagrangeana para o seguinte
ca a ca
problema:
c
min f (x) + ||h(x)||2
2
h(x) = 0
Minimizar este problema equivale a minimizar f (x) : h(x) = 0.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
69. Avaliando Lc (x, λ) e suas derivadas
c
Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2
2
Primeira derivada de Lc em rela¸˜o a x
ca
m m
∇x Lc (x, λ) = ∇f (x) + i =1 λi ∇hi (x) +c i =1 hi (x)∇hi (x)
Segunda derivada de Lc em rela¸˜o a x
ca
∇2 Lc (x, λ) =
xx
m m
2 2
∇ f (x) + λi ∇ hi (x) + c hi (x)∇2 hi (x) + c∇h(x)∇h(x)′
i =1 i =1
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
70. Impondo as condi¸˜es necess´rias para x ∗, λ∗
co a
Se x ∗ , λ∗ satisfizerem as condi¸˜es necess´rias de 1a. ordem:
co a
m m
∇x Lc (x ∗ , λ∗ ) = ∇f (x ∗ ) + λi ∇hi (x ∗ ) + c hi (x ∗ )∇hi (x ∗ )
i =1 i =1
m
= ∇f (x ∗ ) + λi ∇hi (x ∗ ) = ∇x L(x ∗ , λ∗ ) = 0
i =1
∇2 Lc (x ∗ , λ∗ ) =
xx
m m
∇2 f (x ∗ ) + λi ∇2 hi (x ∗ ) + c hi (x ∗ )∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ =
i =1 i =1
m
∇2 f (x ∗ ) + λi ∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ =
i =1
∇2 L(x ∗ , λ∗ ) + c∇h(x ∗ )∇h(x ∗ )′
xx
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
71. Se as condi¸˜es suficientes de 2a. ordem forem impostas
co
Vamos assumir que (condi¸˜es suficientes descritas no Teorema) para
co
qualquer y ∈ Rm : ∇h(x ∗ )′ y = 0 (ou y ′ ∇h(x ∗ )∇h(x ∗ )′ y = 0) tenhamos:
y ′ ∇2 L(x ∗ , λ∗ ) y > 0
xx
Observe que:
Aplicando o Lema Auxiliar, fazendo P = ∇2 L(x ∗ , λ∗ ) e
xx
Q = ∇h(x ∗ )∇h(x ∗ )′ (esta matriz ´ semipositiva definida), existe c
e
tal que ∇xx Lc (x ∗ , λ∗ ) ´ postivida definida.
e
Usando as condi¸˜es suficientes de otimalidade para otimiza¸˜o
co ca
irrestrita, conclu´ ∗ ´ um ´timo local irrestrito
ımos que para c > c, x e o
de Lc (·, λ∗ ).
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
72. Se as condi¸˜es suficientes de 2a. ordem forem impostas
co
Ent˜o x ∗ ´ um ´timo local para Lc (·, λ∗ )
a e o
Em particular, existem γ > 0 e ǫ > 0 tais que
γ
Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) + ||x − x ∗ ||2 , ||x − x ∗ || < ǫ
2
Observe que para todo x vi´vel (h(x) = 0) temos Lc (x, λ∗ ) = f (x) e
a
∇λ L(x ∗ , λ∗ ) = h(x ∗ ) = 0
Finalmente, temos que:
γ γ
f (x) = Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ )+ ||x−x ∗ ||2 = f (x ∗ )+ ||x−x ∗ ||2 ≥ f (x ∗ )
2 2
para qualquer x : h(x) = 0 e ||x − x ∗ || < ǫ e a prova est´ completa !
a
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
73. M´todos de Penalidade e Lagrangeano Aumentado
e
min f (x)
h(x) = 0
x ∈X
Vamos considerar o caso onde X = Rn .
Vamos criar a fun¸˜o Lagrangena Aumentada associada ao Programa
ca
acima, para c > 0
c
Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 .
2
Observe que o parˆmetro c controla a severidade da penaliza¸˜o da
a ca
viola¸˜o das restri¸˜es.
ca co
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
74. Usando Lc (x, λ) em algoritmos
Dois mecanismos s˜o normalmente usados para, atrav´s da minimiza¸˜o
a e ca
irrestrita de Lc (·, λ) fornecer pontos pr´ximos a x ∗ , um minimizador
o
(local) de f (x) : h(x) = 0.
1 Fazemos λ = λ∗ . Conforme mostramos, se c ´ maior que um valor c,
e
ent˜o existem γ > 0, ǫ > 0 tais que:
a
γ
Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) + ||x − x ∗ ||2 , ∀x : ||x − x ∗ || < ǫ
2
Este resultado sugere que se λ ≈ λ∗ , uma razo´vel aproxima¸˜o de x ∗
a ca
deve ser obtida via minimiza¸˜o irrestrita de Lc (· · · , λ).
ca
2 Tomamos um valor bastante alto de c. Nestes casos, o custo da
inviabilidade ´ elevado e ent˜o o m´
e a ınimo irrestrito de Lc (·, λ) deve ser
quase vi´vel. Uma vez que Lc (x, λ) = f (x) para todo x vi´vel,
a a
devemos esperar Lc (x, λ) ≈ f (x) para x pr´ximo da viabilidade.
o
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
75. Exemplo - abordagem 1
1 2 2 onde o vetor primal-dual ´timo ´
o e
min x + x2 ∗ , λ∗ ) = (1, 0, −1).
2 1 dado por (x
x1 = 1
1
Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 , para c > 0.
2 2
2
Impondo ∇x Lc (x, λ) = 0, o m´
ınimo irrestrito possui coordenadas:
◮ x1 (c, λ) = c−λ . Logo para c > 0, temos
c+1
limλ→λ∗ x1 (λ, c) = x1 (−1, c) = 1. Logo limλ→λ∗ x2 (λ, c) = 0
◮ x2 (λ, c) = 0.
76. Exemplo - abordagem 2 pura
1
Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 .
2 2
2
x1 (c, λ) = c−λ . Logo limc→∞ c−λ = 1 = x1
c+1 c+1
∗
∗
x2 (c, λ) = 0. Logo limc→∞ x2 (c, λ) = 0 = x2 .
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
77. M´todo de Penalidade Quadr´tica
e a
Consiste em resolver uma sequˆncia de Problemas:
e
m ck m
min Lc k (x, λk ) = f (x) + k
i =1 λi hi (x) + 2 i =1 hi (x)
2
x ∈X
onde {λk } ´ uma sequˆncia em Rm e {c k } ´ uma sequˆncia de
e e e e
penalidades positivas.
Na vers˜o original do m´todo (d´cada de 1960), os multiplicadores
a e e
n˜o eram aproximados; os multiplicadores eram fixados em zero. A
a
id´ia de aproxim´-los veio mais tarde.
e a
Vamos permitir que os multiplicadores sejam multiplicados, sem no
momento definir como isto ocorrer´.
a
Para sua validade, o m´todo depende de incrementar c k para ∞.
e
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
78. M´todo Penalidades Quadr´ticas - Principal Resultado
e a
Proposi¸˜o
ca
Assuma que f , h s˜o fun¸˜es cont´
a co ınuas, que X ´ um conjunto fechado e
e
que o conjunto {x ∈ X : h(x) = 0} ´ n˜o vazio. Para k = 0, 1, . . . ,, seja
e a
x k um m´
ınimo global do problema
min Lc k (x, λk )
x ∈ X,
onde {λk } ´ limitada, 0 < c k < c k+1 , ∀k e c k → ∞.
e
Ent˜o todo ponto limite da sequˆncia {x k } ´ um m´
a e e ınimo global do
problema ofiginal.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
79. Observa¸˜es
co
O resultado assume que o m´ ınimo global irretristo ´ obtido de forma
e
exata. Entretanto, os m´todos de otimiza¸˜o irrestrita s˜o terminados
e ca a
quando ||∇x Lc (x k , λk )|| ≤ ǫk , onde ǫk ´ um pequeno escalar.
e
Proposi¸˜o
ca
Assuma que f , h sejam fun¸˜es diferenci´veis e que X = Rn . Para
co a
k = 0, 1, . . . , assuma que x k satisfa¸a ||∇x Lc (x k , λk )|| ≤ ǫk , onde {λk } ´
c e
limitada e {ǫk }, {c k } satisfazem:
0 < c k < c k+1 , ∀k, c k → ∞
0 ≥ ǫk , ∀k, ǫk → 0.
Assuma que a subsequˆncia {x k }K convirja para o vetor x ∗ tal que
e
∇h(x ∗ ) possua posto m. Ent˜o: {λk + c k h(x k )}K → λ∗ , onde λ∗ em
a
conjunto com x ∗ satisfazem as condi¸˜es necess´rias de primeira ordem:
co a
∇f (x ∗ ) + ∇h(x ∗ )′ λ∗ = 0, h(x ∗ ) = 0.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
80. Exemplo
min x3
x +1=0
L(x, λ) = x 3 + λ(x + 1)
c
Lc (x, λ, c) = L(x, λ) + (x + 1)2
2
∇x L(x ∗ , λ∗ ) = 0 → 3(x ∗ )2 + λ∗ = 0
∇λ L(x ∗ , λ∗ ) = 0 → x ∗ = −1, λ∗ = −3
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
81. Exemplo - continua
Na Figura abaixo, indicamos f (x), L(x, λ∗ ), Lc (x, λ∗ ) para c = 9.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
82. Penalidades Quadr´ticas - desempenho na pr´tica
a a
Temos trˆs possibilidades:
e
1 O m´todo n˜o funciona porque n˜o conseguimos satisfazer
e a a
||∇x Lc (x k , λk )|| ≤ ǫk . Isto normalmente ocorre quando Lc (·, λk ) ´
e
ilimitada inferiormente.
2 Conseguimos satisfazer ||∇ L (x k , λk )|| ≤ ǫk , e k → 0, mas a
x c
sequˆncia {x k } converge para um ponto n˜o regular, ou n˜o converge.
e a a
Isto normalmente ocorre quando o problema original ´ invi´vel.
e a
3 {x k } converge para um ponto vi´vel regular. Este ´ o caso mais
a e
comum. Pode tamb´m ocorrer que {x k } convirja para um ponto
e
vi´vel n˜o regular, indicando que neste caso n˜o existem os
a a a
multiplicadores associados a x ∗ e a sequˆncia {λk + c k h(x k )} diverge
e
e n˜o possui ponto limite.
a
A experiˆncia sugere que, normalmente, ´ bastante confi´vel e que, no
e e a
m´ınimo, converge para um m´ ınimo local do problema. O seu fracasso ´
e
norlmalmente associado ao malcondiconamento de min Lc (·, λk ), x ∈ X
quando c k → ∞.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
83. Penalidades Quadr´ticas: malcondicionamento
a
1 2 2
min x + x2
2 1
x1 = 1
1 2 c
Lc (x, λ) = x + x2 + λ(x1 − 1) + (x1 − 1)2
2
2 1 2
1 1+c 0
∇2 Lc (x, λ) = I + c
xx 1 0 =
0 0 1
2
Autovalores de ∇xx Lc (x, λ) : 1 + c e 1. Quando c → ∞, o problema
torna-se malcondicionado.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
84. Modifica¸˜es no M´todo de Penalidades Quadr´ticas
co e a
A cada itera¸˜o k + 1, fazemos λk+1 ← λk + c k h(x k ), como uma
ca
melhor aproxima¸˜o para o vetor de multiplicadores ´timo. Ent˜o
ca o a
minimizamos Lc (·, λk+1 ). O m´todo baseado nesta aproxima¸˜o de
e ca
multiplicadores ´ chamado de M´todo dos Multiplicadores.
e e
Para evitar o malcondicionamento, recomenda-se empregar o M´todo
e
de Newton para minimizar Lc (·, λk ).
Al´m disto, ´ usual empregar x k como ponto de partida para a
e e
minimiza¸˜o irrestrita de Lc (·, λk+1 ).
ca
A vantagem do uso combinado destas id´ias ´ poder empregar, em
e e
virtude de uma melhor aproxima¸˜o de λ∗ , uma taxa menor de
ca
crescimento da penalidade c k . Assim sendo, h´ uma tendˆncia do
a e
problema ser menos malcondicionado.
Se c k aumenta muito rapidamente, a sequˆncia {x k } tende a
e
convergir mais rapidamente, mas o problema de malcondicionamento
deve ser mais evidente.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
85. Restri¸˜es de Desigualdades
co
(P) min f (x)
hi (x) = 0 i = 1, . . . , m
gj (x) ≤ 0 j = 1, . . . , r
Dado x vi´vel, vamos designar por A(x) = {j : g (x) = 0} o conjunto
a
dos ´
ındices de restri¸˜es de desigualdades que s˜o justas para x.
co a
Vamos assumir que x ∗ seja um m´ ınimo local para (P). Neste caso, x ∗
tamb´m deve ser um m´
e ınimo local para o programa abaixo:
(PE) min f (x)
hi (x) = 0 i = 1, . . . , m
gj (x) = 0 j ∈ A(x ∗ )
no qual as restri¸˜es de desigualdades folgadas em x ∗ (j ∈ A(x ∗ ))
co
foram eliminadas.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
86. Analogia
Esta observa¸˜o nos leva a crer que se x ∗ for um ponto regular para o
ca
programa (PE), deve haver multiplicadores λ∗ : i = 1, . . . , m e
i
µj : j ∈ A(x ∗ ) tais que as CNPO sejam atendidas:
m
∇f (x ∗ ) + λi ∇hi (x ∗ ) + µj gj (x ∗ ) = 0
i =1 j∈A(x ∗ )
Atribuindo multiplicadores nulos para as restri¸˜es gj (·) tais que
co
j ∈ A(x ∗ ) temos:
m
∇f (x ∗ ) + ∗
i =1 λi ∇hi (x ) + r µj gj (x ∗ ) = 0
j=1
µj = 0, j ∈ A(x ∗ )
Um fato importante sobre os multiplicadores associados a gj (·):
devem ser n˜o negativos. Observe que se a restri¸˜o gj (x) ≤ 0 for
a ca
relaxada para g( x) ≤ µj para µj > 0, o custo ´timo de P deve
o
diminuir.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
87. Generalizando o conceito de ponto regular
Defini¸˜o
ca
Um vetor vi´vel x ´ dito regular se:
a e
os gradientes das restri¸˜es de igualdade ∇hi (x) : i = 1, . . . , m e os
co
gradientes das restri¸˜es de desigualdades ativas em x,
co
∇gj (x) : j ∈ A(x) s˜o linearmente independentes.
a
Tamb´m dizemos que x ´ regular no caso em que n˜o h´ restri¸˜es de
e e a a co
igualdade e todas as restri¸˜es de desigualdade s˜o inativas em x.
co a
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
88. Condi¸˜es de Karush-Kuhn-Tucker
co
Teorema - Condi¸˜es de Karush-Kuhn-Tucker (KKT)
co
Seja x ∗ um m´
ınimo local regular para
(P) min f (x)
hi (x) = 0 i = 1, . . . , m
gj (x) ≤ 0 j = 1, . . . , r
onde f , hi , gj : Rn → R, ∀i , j s˜o fun¸˜es continuamente diferenci´veis.
a co a
Ent˜o existem multiplicadores de Lagrange unicos λ∗ e µ∗ tais que:
a ´
∇x L(x ∗ , λ∗ , µ∗ ) = 0
µ∗ ≥ 0
j j = 1, . . . , r (14)
µj ∗ =0 j ∈ A(x ∗ )
Se em adi¸˜o a isto, tivermos f , hi , gj ∈ C 2 , ∀i , j ent˜o:
ca a
y ′ ∇2 L(x ∗ , λ∗ , µ∗ )y ≥ 0 ∀y ∈ Rm :
xx ∇hi (x)′y = 0
(15)
∇gj (x)′ y = 0, j ∈ A(x ∗ ).
89. Exemplo
1 2 2 2
min (x + x2 + x3 )
2 1
x1 + x2 + x3 ≤ −3
1 2 2 2
L(x, µ) = (x1 + x2 + x3 ) + µ(x1 + x2 + x3 + 3)
2
Das CNPO, temos ∇Lx (x ∗ , λ∗ ) = 0 → xi∗ + µ∗ = 0, i = 1, 2, 3
Precisamos avaliar dois casos:
◮ A restri¸˜o ˜ folgada e ent˜o µ∗ = 0. Neste caso x1 = x2 = x3 = 0,
ca e a ∗ ∗ ∗
violando a restri¸˜o do problema. Logo a restri¸˜o n˜o ´ folgada.
ca ca a e
◮ A restri¸˜o ´ justa. Observe ent˜o que x1 + x2 + x3 = −3 equivale a
ca e a ∗ ∗ ∗
impor tamb´m que (CNPO) ∇µ L(x , µ ) = 0.
e ∗ ∗
Assim sendo, temos x1 = x2 = x3 = −1 e µ∗ = 1
∗ ∗ ∗
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
90. Exemplo - continua
Analisando as condi¸˜es de KKT de segunda ordem:
co
′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer
y xx
y : ∇h(x ∗ )y = 0, ∇gj (x ∗ )y = 0, j ∈ A(x ∗ ).
Como n˜o h´ restri¸˜es de igualdade, temos que a condi¸˜o torna-se
a a co ca
′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer y ∈ R3 : y + y + y = 0.
y xx 1 2 3
2
Entretanto, como ∇xx L(x ∗ , µ∗ ) = diag(1) ´ positiva definida, para
e
qualquer y (em particular satisfazendo y1 + y2 + y3 = 0) a condi¸˜o
ca
necess´ria de segunda ordem ´ atendida.
a e
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
91. Condi¸˜es Suficientes de Segunda Ordem
co
Proposi¸˜o
ca
Condi¸˜es Suficientes de Segunda Ordem Assuma que f , g , h sejam
co
fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn , λ∗ ∈ Rm , µ∗ ∈ Rr
co a
satisfazendo:
∇x L(x ∗ , λ∗ , µ∗ ) = 0 h(x ∗ ) = 0 g (x ∗ ) ≤ 0
µ∗ ≥ 0
j j = 1, . . . , r
µ∗ = 0
j j ∈ A(x ∗ )
y ′ ∇xx L(x ∗ , λ∗ , µ∗ )y > 0 para todo y satisfazendo:
∇hi (x ∗ )′ y = 0, ∀i = 1, . . . , m e ∇gj (x ∗ )′ y = 0, ∀j ∈ A(x ∗ ).
Assuma tamb´m que µ∗ > 0 para qualquer j ∈ A(x ∗ ).
e j
∗ ´ um m´
Ent˜o x e
a ınino local de f (x) restrito a h(x) = 0, g (x) ≤ 0.
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
92. M´todo da Barreira
e
Vamos considerar o Problema
min f (x)
gj (x) ≤ 0 j = 1, . . . , r
x ∈X
e definir o interior (relativo a X ) do conjunto de viabilidade como
S = {x ∈ X : gj (x) < 0, ∀j = 1, . . . , r }.
Assumimos que:
S = ∅.
Qualquer ponto vi´vel y ∈ S pode ser aproximado t˜o proximamente
a a
quanto se queira por um ponto em x ∈ S. Isto ´, para qualquer δ > 0
ˆ e
existe x ∈ S tal que x − y ≤ δ.
ˆ ˆ
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
93. Id´ias centrais do m´todo
e e
Vamos acrescentar uma fun¸˜o de custo B(x), denominada fun¸˜o
ca ca
barreira ` fun¸˜o objetivo, definida exclusivamente em S e vamos
a ca
resolver uma sequˆncia de problemas, satisfazendo
e
0 < ǫk+1 < ǫk , k = 0, 1, . . . , ǫk → 0 na medida em que k → ∞:
min f (x) + ǫk B(x)
x ∈S
A fun¸˜o barreira deve ser cont´
ca ınua e na medida em que x tenda para
a fronteira do conjunto, B(x) deve tender a ∞. Isto ´, B(x) deve ter
e
uma descontinuidade na fronteira do conjunto de viabilidade.
Fun¸˜es barreira usuais:
co
r
1 B(x) = − ln{−gj (x)}
j=1
r
1
2 B(x) = −
gj (x)
j=1
Sendo gj (x) convexas, as fun¸˜es acima tamb´m o s˜o.
co e a
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
94. Id´ias centrais do m´todo
e e
Seja x k a solu¸˜o de:
ca
(P k ) min f (x) + ǫk B(x)
x ∈ S.
A sequˆncia {x k } pertence a S.
e
Na medida em que k → ∞ e por consequˆncia ǫk → 0, a contribui¸˜o
e ca
do termo barreira, ǫk B(x), deve tender a zero, para todo ponto x ∈ S.
Assim sendo, com a evolu¸˜o das itera¸˜es, pontos pr´ximos a
ca co o
fronteira ter˜o sua componente de custo decorrente do termo de
a
barreira minorado, como deveria ser, caso o ´timo esteja na fronteira.
o
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
95. Principal resultado te´rico
o
Proposi¸˜o
ca
Todo ponto limite da sequˆncia {x k } gerada pelo M´todo da Barreira ´
e e e
um ponto de m´ınimo global do problema original.
Observa¸˜es:
co
ıcito que o problema ´ convexo ou que x k ´ um ´timo global
Est´ impl´
a e e o
do problema P k .
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
96. Exemplo
1 2 2
min f (x) = (x + x2 ) Solu¸˜o ´tima: x ∗ = (2, 0).
ca o
2 1
2 ≤ x1
Assumindo a fun¸˜o barreira logaritmica, B(x) = −ln(x1 − 2),
ca
impondo as CNPQ ao problema P k temos:
1 2 2
x k ∈ arg minx1 >2 (x + x2 ) − ǫk ln(x1 − 2) = 1+ 1 + ǫk , 0
2 1
k
limǫk →0 x1 = 2
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co
97. Exemplo - continua
1 2 2
min (x + x2 ) − ǫk ln(x1 − 2) : x1 > 2
2 1
Curvas de n´ para P k : ǫ = 0.3 (esquerda) e ǫ = 0.03 (direita).
ıvel
Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es
ca a co