[Alexandre] 8. Não Linear Restrita

Programa¸õ Nõ Linear com Restri¸˜es
ca a co

Alexandre Salles da Cunha

DCC-UFMG, Mar¸o 2010
c

Alexandre Salles da Cunha Programa¸õ Nõ Linear com Restri¸˜es
ca a co

Defini¸õ do Problema
ca

Problema de Otimiza¸õ sobre um conjunto convexo
ca

minimize f (x) (1)
x ∈X (2)

Vamos assumir que X = ∅ ´ um conjunto convexo.
e
O conjunto X ´ normalmente definido por um conjunto de restri¸˜es
e co
nõ lineares h(x) = 0 e g (x) ≤ 0, onde:
a
◮ h : Rn → Rm
◮ g : Rn → Rp
Assumimos que f ∈ C 2 : Rn → R.

Algumas observa¸˜es preliminares
co

Se f for convexa sobre X , o Problema de Otimiza¸õ ´ Convexo e
ca e
qualquer ´timo local do problema ´ um ´timo global.
o e o

Assim como no Problema de Otimiza¸õ Irrestrita, no Problema de
ca
Otimiza¸õ com restri¸˜es, esperamos que, em um ponto candidato a
ca co
m´ınimo x ∗ , a varia¸õ de primeira ordem (∇f (x ∗ ))′ △x ≥ 0 seja
ca
verificada para qualquer dire¸õ △x vi´vel.
ca a

Este problema generaliza o Problema de Programa¸õ Nõ-Linear
ca a
Irrestrito.

Panorama dos M´todos que iremos discutir neste curso
e

M´todos Primais:
e
◮ M´todo de Dire¸oes Vi´veis
e c˜ a
◮ M´todo do Gradiente Projetado
e
◮ Particularmente adequados quando o dom´ ´ um poliedro e a fun¸õ
ınio e ca
objetivo ´ nõ linear, ou quando obter uma dire¸õ vi´vel ou projetar
e a ca a
sobre o conjunto forem fćeis de serem resolvidas.
a

M´todos baseados em Multiplicadores de Lagrange:
e
◮ Penalidades
◮ Barreiras
◮ Transformam o problema com restri¸oes em uma s´rie de problemas
c˜ e
irrestritos, envolvendo uma alta penalidade pela viola¸õ das restri¸oes.
ca c˜
A solu¸õ destes problemas irrestritos fornece, assintoticamente, a
ca
solu¸õ do problema original.
ca

ca a co

Condi¸˜es de Otimalidade
co

Proposi¸õ
ca
Seja x ∗ um m´
ınimo local de f em um conjunto convexo X . Entõ:
a
1 ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X
2 Se f for convexa sobre X , entõ a condi¸õ acima ´ uma condi¸õ
a ca e ca
suficiente para x ∗ minimizar f em X .

Prova
Parte 1 Suponha ∇f (x ∗ )′ (x − x ∗ ) < 0, para algum x ∈ X . Pelo Teorema
do Valor Central, temos que para todo ǫ > 0, existe s ∈ [0, 1] tal que:

f (x ∗ + ǫ(x − x ∗ )) = f (x ∗ ) + ǫ∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ )

Pela continuidade de f , temos que para ǫ > 0 suficientemente pequeno,
∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ ) < 0 e entõ f (x ∗ + ǫ(x − x ∗ )) < f (x ∗ ).
a
Como o conjunto X ´ convexo, temos que x ∗ + ǫ(x − x ∗ ) ´ vi´vel para
e e a
todo ǫ ∈ [0, 1] e entõ contradizemos a otimalidade de x
a ∗.

Condi¸˜es de Otimalidade
co

Prova
Parte 2
Pela convexidade de f em X temos:

f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ), ∀x ∈ X

Pela parte 1 j´ demonstrada temos que ∇f (x ∗ )(x − x ∗ ) ≥ 0
a

f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ) ≥ f (x ∗ ), ∀x ∈ X ,

e o resultado segue.

Ponto estacion´rio
a

Defini¸õ
ca
Um ponto x ∗ que satisfaz a condi¸õ
ca

∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X

´ denominado ponto estacion´rio.
e a

Observe que se x ∗ ´ um ponto interior ou se X = Rn as condi¸˜es
e co
enunciadas equivalem ` ∇f (x ∗ ) = 0.
a
Assim sendo, estas condi¸˜es tamb´m podem ser satisfeitas para
co e
pontos de m´ximo ou mesmo outros pontos.
a

Se X nõ for convexo...
a

Al´m de serem nõ suficientes, estas condi¸˜es podem falhar
e a co
Observe no exemplo (` direita) abaixo temos que:
a
◮ e ınimo local, uma vez que ∇f (x ∗ )′ △x ≥ 0 para
x ∗ ´ um ponto de m´
qualquer △x vi´vel,mas...
a
◮ a condi¸õ enunciada falha porque x − x ∗ nõ ´ uma dire¸õ vi´vel,
ca a e ca a
uma vez que X nõ ´ convexo e entõ ∇f (x ∗ )′ (x − x ∗ ) < 0.
a e a

Restri¸˜es Ativas e Inativas
co

Normalmente, o conjunto X ´ definido por restri¸˜es de igualdade e
e co
desigualdade:

hi (x) = 0 i = 1, . . . , m
gj (x) ≤ 0 j = 1, . . . , p

Consideremos cada uma das restri¸˜es gj (x) : j = 1, . . . , p e um
co
ponto x vi´vel para o problema em estudo.
a

Dizemos que gj (x) ´ ativa em x se gj (x) = 0.
e

Caso gj (x) < 0, gj (x) ´ inativa em x.
e

Por defini¸õ, todas as restri¸˜es hi (x) : i = 1, . . . , m sõ ativas.
ca co a

Otimiza¸õ sobre um quadrante nõ negativo
ca a

Considere o conjunto convexo X = {x ∈ Rn : xi ≥ 0, ∀i = 1, . . . , n}.
Observe que a condi¸õ de otimalidade ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X
ca
equivale a:
n
∂f (x ∗ )
(xi − xi∗ ) ≥ 0, ∀x = (x1 , . . . , xn ) ∈ X
∂xi
i =1

Fixando dire¸˜es convenientes, dependendo da coordenada de i de xi∗
co
estar ou nõ na fronteira, temos que a equa¸õ escalar anterior
a ca
implica em:
∂f (x ∗ )
◮
∂xi = 0, ∀i : xi > 0
∂f (x ∗ )
◮
∂xi ≥ 0, ∀i = 1, . . . , n

Otimiza¸˜o sobre uma caixa
ca

Como poderiam ser expressas as condi¸˜es de otimalidade caso
co

X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n}

∂f (x ∗ )
= 0 ∀i : ai < xi∗ < bi (3)
∂xi
∂f (x ∗ )
≥0 ∀i : xi∗ = ai (4)
∂xi
∂f (x ∗ )
≤0 ∀i : xi∗ = bi (5)
∂xi

A importˆncia das restri¸˜es ativas
a co
Exemplo
min f (x1 , x2 ) : x1 , x2 ≥ 0
ınimo, todas as derivadas parciais ∂f∂xi ) sõ nõ
(x
∗
No ponto x ∗ de m´ a a
negativas e sõ nulas para as restri¸˜es xi ≥ 0 inativas. Se todas as
a co
restri¸˜es forem inativas em x ∗ , a condi¸õ de otimalidade equivale a
co ca
∇f (x ∗ ) = 0.

A importˆncia das restri¸˜es ativas
a co

As restri¸˜es ativas em x ´ que restringem a viabilidade nas
co e
vizinhan¸as de um ponto.
c

Desempenham papel fundamental na dedu¸õ das propriedades
ca
(condi¸˜es necess´rias e suficientes) de um ponto de m´
co a ınimo local.

As restri¸˜es inativas nõ influenciam em nada a viabilidade nas
co a
vizinhan¸as de x.
c

Caso soub´ssemos quais sõ as restri¸˜es ativas no ponto de m´
e a co ınimo,
poder´ ıamos concentrar nosso estudo apenas ` elas, tratando-as como
a
restri¸˜es de igualdade e ignorando as restri¸˜es inativas.
co co

M´todo de Dire¸˜es Vi´veis
e co a

minimize f (x)
x ∈X

Vamos inicialmente estudar m´todos de otimiza¸õ para o problema,
e ca
assumindo:
X ´ convexo, nõ vazio
e a
f ∈ C 1 , isto ´, X ´ continuamente diferenci´vel em X .
e e a
Nõ assumimos nenhuma estrutura ou caracter´
a ıstica especial ao
conjunto de restri¸˜es que determinam X , a nõ as citadas acima.
co a

M´todos de Dire¸˜es Vi´veis
e co a
Defini¸õ
ca
Dado um vetor vi´vel x, dizemos que d ´ uma dire¸õ vi´vel em x se d ´
a e ca a e
tal que x + αd ∈ X para qualquer α > 0 suficientemente pequeno.

M´todo de Dire¸˜es Vi´veis
e co a

Um m´todo nesta classe:
e
inicia com uma solu¸õ x 0 e gera uma sequˆncia {x k } de pontos
ca e
vi´veis, atrav´s da itera¸õ t´
a e ca ıpica:

x k+1 = x k + αk d k

se x k nõ ´ um ponto estacion´rio, entõ a dire¸õ d k escolhida
a e a a ca
satisfaz:
∇f (x k )′ d k < 0
o passo αk ´ escolhido de forma que x k + αk d k ∈ X .
e
se x k ´ estacion´rio, o m´todo p´ra (x k+1 = x k ).
e a e a
Vamos nos concentrar em m´todos de dire¸˜es vi´veis que sõ
e co a a
m´todos de descida, isto ´, f (x
e e k + αk d k ) < f (x k ).

Um m´todo de dire¸˜es vi´veis, de descida
e co a

Caracteriza¸õ da dire¸õ vi´vel
ca ca a
Conforme j´ mencionamos, no caso onde X ´ convexo, uma dire¸õ
a e ca
vi´vel d
a k em x k pode ser caracterizada da seguinte maneira:

d k = γ(x k − x k ), γ > 0

onde x k ´ algum ponto vi´vel.
e a
O m´todo opera entõ de acordo com a seguinte itera¸õ:
e a ca

x k+1 = x k + αk d k , α ∈ [0, 1],

onde a dire¸õ d k al´m de vi´vel, deve ser de descida:
ca e a

∇f (x k )′ (x k − x k ) < 0, x k ∈ X

Observe que pela convexidade de X , x k + αk (x k − x k ) ∈ X para
qualquer α ∈ [0, 1].
Al´m disto, se d k = γ(x k − x k ) ´ uma dire¸õ de descida e x k ´ nõ
e e ca e a
estacion´rio, temos a garantia de existir um αk para o qual
a
f (x k+1 ) < f (x k ).

M´todos de dire¸˜es vi´veis: idías centrais
e co a e

Requerem uma solu¸õ vi´vel inicial (m´todo de duas fases)
ca a e

Definem uma dire¸õ vi´vel de descida, ou concluem que o ponto ´
ca a e
estacion´rio.
a

Implementam uma itera¸õ t´
ca ıpica que corresponde a uma busca
unidirecional na dire¸õ escolhida.
ca

Podem ser vistos como uma especializa¸õ dos m´todos que vimos
ca e
at´ anteriormente para otimiza¸õ irrestrita.
e ca

M´todo de Dire¸˜es vi´veis: determina¸õ do passo
e co a ca

Minimiza¸õ exata: αk = arg min
ca α∈[0,1] f (x
k + αd k )

Armijo: Fixados escalares β, σ > 0 tais que β ∈ (0, 1) e σ ∈ (0, 1),
fazemos αk = β mk , onde mk ´ o primeiro inteiro nõ negativo m tal
e a
que:
f (x k ) − f (x k + β m d k ) ≥ −σβ m ∇f (x k )′ d k
Ou seja, tentamos sucessivamente os passos αk = 1, β, β 2 , . . . at´
e
satisfazer a condi¸õ acima.
ca

M´todos de Dire¸˜es Vi´veis: convergˆncia
e co a e

Proposi¸õ
ca
Seja {x k } a sequˆncia gerada por um M´todo de Dire¸˜es Vi´veis
e e co a
x k+1 = x k + αk d k , onde as dire¸˜es {d k } sõ gradiente relacionadas e αk
co a
´ determinado atrav´s de minimiza¸õ exata ou via regra de Armijo.
e e ca
Entõ, todo ponto limite de {x e
a k } ´ um ponto estacion´rio.
a

Encontrando um ponto inicial
Dado o problema
minimize f (x)
hi (x) = 0 i = 1, . . . , m
gj (x) ≤ 0 j = 1, . . . , p
criamos e resolvemos o problema artificial (fase 1)
m p
minimize zi + yj
i =1 j=1
hi (x) + zi = 0 i = 1, . . . , m
gj (x) − yj ≤ 0 j = 1, . . . , p
yj ≥ 0 j = 1, . . . , p
Iniciamos o m´todo com x = (0, . . . , 0) e o vetor y e z calculados
e
para viabilizar o programa acima. Ao final da fase 1, caso a fun¸õca
objetivo seja nula, dispomos de um ponto inicial vi´vel para o
a
programa original.

M´todo do Gradiente Condicional
e

Os m´todos nesta classe se diferenciam em como a dire¸õ vi´vel, de
e ca a
descida ´ obtida. Um dos m´todos mais usados nesta classe ´ o Gradiente
e e e
Condicional:
O problema de obter uma dire¸õ vi´vel com propriedade de descida
ca a
em x k pode ser formulado como:

min ∇f (x k )′ (x − x k )
x ∈X

Se X ´ compacto, o programa acima ´ limitado. Caso X nõ seja
e e a
limitado, impomos restri¸˜es lineares do tipo x ∞ ≤ 1 e resolvemos
co
o programa.
Se o valor ´timo do programa auxiliar for negativo, encontramos uma
o
dire¸õ vi´vel, de descida.
ca a

Obtendo uma dire¸õ vi´vel
ca a

Observe que o programa auxiliar envolve o mesmo conjunto de
restri¸˜es que do original, mas a fun¸õ objetivo ´ linear.
co ca e

No caso das restri¸˜es que definem X serem nõ lineares, o programa
co a
auxiliar ´ tõ complicado quanto o programa original.
e a

Os m´todos de dire¸˜es vi´veis, em particular o do Gradiente
e co a
Condicional, sõ particularmente interessantes quando X ´ um
a e
poliedro, uma vez que o subproblema ´ um Programa Linear.
e

Gradiente Condicional quando X ´ um poliedro
e
Se o m´todo Simplex ´ usado para resolver o subproblema, x k sempre
e e
´ um ponto extremo de X .
e
Por quˆ a dire¸˜o d k que resolve o subproblema n˜o ´ contr´ria a
e ca a e a
∇f (x k ), se x k for um ponto interior ?

M´todo do Gradiente Condicional: exemplo num´rico
e e
Problema Quadr´tico
a

1 2 2 2
minimize f (x) = (x1 + x2 + 0.1x3 ) + 0.55x3
2
x1 + x2 + x3 = 1
x ≥0

Subproblema associado - determina¸˜o da dire¸˜o vi´vel, de descida
ca ca a

minimize k k k
(x1 )x1 + (x2 )x2 + (0.1x3 + 0.55)x3 +
+ (−(x1 )2 − (x2 )2 − (x3 )(0.1x3 + 0.55)
k k k k

x1 + x2 + x3 = 1
x ≥0

que pode ser resolvido de forma gulosa.
gradcondicional.sci

M´todo do Gradiente Condicional: exemplo num´rico
e e

Vamos implementar o m´todo considerando:
e
x 0 = 1 (1, 1, 1)′ e tamb´m x 0 = (1, 0, 0)′
3 e
Passo de Armijo.
Condi¸õ de parada definida na resolu¸õ do subproblema:
ca ca

∇f (x k )′ d k
≥ −1.0E − 4
∇f (x k ) d k

Taxa de Convergˆncia do M´todo do Gradiente Condicional
e e

Se a regra de Armijo ou a
minimiza¸õ exata forem empregadas
ca
para se determinar o αk , pode-se
demonstrar que as dire¸˜es geradas
co
sõ gradiente relacionadas e, entõ,
a a
todo ponto limite da sequˆncia gerada
e
pelo m´todo ´ um ponto estacion´rio.
e e a
Apesar disto, a taxa de convergˆncia
e
do m´todo ´ baixa: os pontos x k
e e
gerados sõ tais que a dire¸õ d k ´
a ca e
quase ortogonal ´ dire¸õ que levaria
a ca
ao ´timo, a partir do ponto x k
o
(zig-zag). Veja a figura:

M´todo do Gradiente Projetado
e

Mover ao longo da dire¸õ contr´ria ao gradiente nõ garante a
ca a a
viabilidade do ponto obtido, caso o ponto de origem esteja na
fronteira do conjunto de viabilidade.

O M´todo do Gradiente Projetado consiste em projetar o vetor
e
contr´rio ao gradiente no conjunto X , de forma que aprimore a
a
fun¸õ objetivo e garanta viabilidade.
ca

Do ponto de vista computacional, a principal desvantagem do m´todo
e
´ o elevando custo associado ` proje¸õ, em cada itera¸õ.
e a ca ca

O m´todo ´ uma boa alternativa quando a opera¸õ de proje¸õ pode
e e ca ca
ser feita com baixo custo computacional.

O problema de projetar z ∈ Rn em X convexo, fechado

Proje¸õ
ca
Consiste em encontrar um vetor x ∗ ∈ X , cuja distˆncia a z seja m´
a ınima:

minimize z −x
x ∈X

Alguns fatos sobre a proje¸õ
ca
Para todo z ∈ Rn existe um x ∗ ∈ X unico que minimiza z − x
´
sobre todo x ∈ X . Este vetor ´ chamado proje¸õ de z em X .
e ca
Usualmente denominamos x ∗ = [z]+ .
Dado z ∈ Rn , x ∗ = [z]+ se e somente se
(z − x ∗ )(x − x ∗ ) ≤ 0, ∀x ∈ X .
No caso de X ser um subespa¸o, x ∗ ∈ X ´ a proje¸õ de z em X se e
c e ca
somente se z − x ∗ for ortogonal a X , isto ´: (z − x ∗ )x = 0, ∀x ∈ X .
e

Gradiente projetado

Vamos supor que o nosso problema de otimiza¸˜o seja
ca

minimize f (x)
Ax ≤ b
Ex = e

onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e
X = {x ∈ Rn : Ax ≤ b, Ex = e}.
e que disponhamos de um ponto vi´vel x k na fronteira do conjunto de
a
viabilidade X .
Assuma ent˜o que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ],
a 1 2
b ′ = [b1 , b2 ].
′ ′

Suponha tamb´m que f seja diferenci´vel em x k .
e a

Como fazemos para projetar −∇f (x k ) na face de X ativa em x k ?

Resolvemos o seguinte Problema de Otimiza¸õ Quadr´tica
ca a

minimize x − (−∇f (x k ))
A 1 x = b1
A 2 x ≤ b2
Ex = e

cuja solu¸õ (obtida analiticamente) ´ x ∗ = −P∇f (x k ) onde a matriz P
ca e
(chamada de matriz de proje¸õ) ´ dada por:
ca e

P = I − M ′ (MM ′ )−1 M

e a matriz M corresponde ˜s linhas das restri¸˜es ativas em x k :
a co

M ′ = [A′ , E ′ ].
1

Matrizes de Proje¸õ
ca

Defini¸õ
ca
Assuma que P ∈ Rn×n seja uma matriz quadrada de ordem n. P ´
e
chamada matriz de proje¸õ se:
ca
P = P′
PP = P

Proposi¸õ
ca
Seja P uma matriz quadrada de ordem n. Entõ, o seguinte ´ verdadeiro:
a e
1 Se P ´ uma matriz de proje¸õ, entõ P ´ positiva semi definda.
e ca a e
2 P ´ uma matriz de proje¸õ se e somente se I − P ´ uma matriz de
e ca e
proje¸õ.
ca
3 Seja P uma matriz de proje¸õ e Q = I − P. Entõ os subespa¸os
ca a c
lineares L = {Px : x ∈ Rn } e L⊥ = {Qx : x ∈ Rn } sõ ortogonais.
a
Al´m disto, qualquer x ∈ Rn pode ser escrito como x = p + q onde
e
p ∈ L, q ∈ L⊥ , atrav´s de p, q unicos.
e ´

Matrizes de Proje¸õ
ca

Prova
1 Seja x ∈ Rn um vetor arbitr´rio. Entõ, se P ´ uma matriz de
a a e
proje¸õ, x ′ Px = x ′ PPx = x ′ P ′ Px = Px 2 ≥ 0, logo P ´ positiva
ca e
semidefinida.
2 ´
Obvio.
3 Claramente L, L⊥ sõ subespa¸os lineares.
a c
Uma vez que P ′ Q = P ′ (I − P) = P − P ′ P = 0, L, L⊥ sõ de fato
a
ortogonais.
(Unicidade) suponha que x = p ′ + q ′ e que x = p + q. Entõa
subtraindo a primeira da segunda temos p − p ′ = q p rime − q. Uma
vez que L ∩ L⊥ = 0, p − p ′ = q ′ − q = 0 e a representa¸õ ´ unica.
ca e ´

Interpreta¸õ
ca

Dado z ∈ Rn temos que (Pz)′ , (I − P)z = 0. Ou seja, a aplica¸õ
ca
Pz projeta z no espa¸o ortogonal ao da aplica¸õ Qz = (I − P)z.
c ca

Assim sendo podemos escrever que z ´ a soma direta de Pz e Qz ou
e
seja, z = Pz ⊕ Qz.

Gradiente Projetado - Problema com restri¸˜es lineares
co

minimize f (x)
Ax ≤ b
Ex = e

onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e
X = {x ∈ Rn : Ax ≤ b, Ex = e}.

Idía central
e
Dado x k , se movemos na dire¸õ −∇f (x k ), podemos perder
ca
viabilidade.
Para preservar viabilidade, projetamos −∇f (x k ) na face ativa de X
ativa (em rela¸õ ` x k , usando uma matriz de proje¸õ P adequada)
ca a ca
e nos movemos na dire¸õ d k = −P∇f (x k ).
ca

Caracteriza¸õ de Dire¸˜es Vi´veis
ca co a

Proposi¸õ
ca
Considere o poliedro X = {x ∈ Rn : Ax ≤ b, Ex = e} que definimos.
Suponha que x k ∈ X e que
A1 x k = b1 , A2 x k < b2 , A′ = [A′ , A′ ], b ′ = [b1 , b2 ].
1 2
′ ′

Entõ, um vetor d k ´ vi´vel em x k se e somente se A1 d k ≤ 0, Ed k = 0.
a e a
(A demonstra¸õ ´ ´bvia).
ca e o

Gradiente projetado - X ´ um poliedro
e

Proposi¸õ
ca
Considere o problema minx∈X definido acima. Assuma que x k seja um
ponto vi´vel tal que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ],
a 1 2
b ′ = [b1 , b2 ]. Suponha tamb´m, que f seja diferenci´vel em x k . Entõ:
′ ′ e a a
1 Se P ´ uma matriz de proje¸õ tal que P∇f (x k ) = 0, entõ
e ca a
d k = −P∇f (x k ) ´ uma dire¸õ de descida de f em x k .
e ca
2 Al´m disto, se M ′ = [A1 , E ′ ] possui posto completo e se
e ′

P =I −M ′ (MM ′ )−1 M, entõ d k ´ uma dire¸õ de descida, vi´vel.
a e ca a

Gradiente projetado - X ´ um poliedro
e

Prova
1 (−P∇f (x k ) ´ dire¸õ de descida)
e ca
Observe que: ∇f (x k )′ d k = −∇f (x k )′ P∇f (x k ) =
−∇f (x k )′ P ′ P∇f (x k ) = − P∇f (x k ) < 0, uma vez que P ´ positiva
e
semi-definda e, pelo enunciado ∇f (x k )′ P = 0. Entõ d k ´ uma
a e
dire¸õ de descida.
ca
2 (−P∇f (x k ) ´ dire¸õ vi´vel)
e ca a
Se M possui posto completo, (MM ′ ) ´ nõ singular e entõ:
e a a

P = I − M ′ (MM ′ )−1 M
MP = M − MM ′ (MM ′ )−1 M = M − IM = 0
Logo Md k = −MP∇f (x k ) = 0

Se Md k = 0 temos A1 d k = 0, Ed k = 0 e d k ´ vi´vel.
e a

Interpreta¸õ Geom´trica do M´todo
ca e e
Uma vez que MP = 0 temos que A1 P = 0, EP = 0 e entõ a matriz
a
de proje¸õ P projeta cada linha de A1 e de E no vetor nulo.
ca
Entretanto, as linhas de A1 e de E sõ os gradientes das restri¸˜es
a co
ativas em x k , a matriz P ´ na verdade a matriz que projeta os
e
gradientes das restri¸˜es ativas em x k no vetor zero.
co
Assim sendo, P∇f (x k ) corresponde ` proje¸õ de ∇f (x k ) no espa¸o
a ca c
nulo das restri¸˜es ativas.
co
Veja: MP∇f (x k ) = 0, logo, P∇f (x k ) ∈ N (M)

Teoria de Multiplicadores de Lagrange
Vamos considerar os problemas de otimiza¸õ definidos por restri¸˜es de
ca co
igualdade:

minimize f (x)
hi (x) = 0 i = 1, . . . , m

onde f (x) : Rn → R, hi (x) : Rn → R, ∀i = 1, . . . , m sõ func˜es
a o
continuamente diferenci´veis.
a
Condi¸˜es Necess´rias de Otimalidade
co a
O nosso principal resultado ´ o seguinte: se x ∗ ´ um ponto de m´
e e ınimo
local, entõ existem escalares λi : i = 1, . . . , m, denominados
a
Multiplicadores de Lagrange tais que vale a seguinte equa¸õ vetorial:
ca
m
∗
∇f (x ) + λi ∇hi (x ∗ ) = 0
i =1

Interpretando este resultado
m
∗
∇f (x ) + λi ∇hi (x ∗ ) = 0
i =1

O gradiente da fun¸˜o objetivo ∇f (x ∗ ) pertence ao subespa¸o gerado
ca c
pelo gradiente ∇hi (x ∗ ) das restri¸˜es ativas em x ∗ .
co

Exemplo

min x1 + x2
2 2
x1 + x2 = 2

Interpretando este resultado

Defini¸õ
ca
Definimos o subespa¸o de vari¸˜es nulas de primeira ordem, isto ´, o
c co e
subespa¸o para o qual o vetor x = x ∗ + △x satisfaz as restri¸˜es h(x) = 0
c co
at´ a primeira ordem, como:
e

V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m}

Tome y ∈ V (x ∗ );
Uma vez que ∇f (x ∗ ) + m λi ∇hi (x ∗ ) = 0, temos que
i =1
∇f (x ∗ )′ y + m λi ∇hi (x ∗ )′ y = 0 e logo ∇f (x ∗ )′ y = 0.
i =1
Ou seja, ∇f (x ∗ ) ⊥ V (x ∗ ). Ou seja, o gradiente de f em x ∗ ´
e
ortogonal ao espa¸o das dire¸˜es vi´veis que geram varia¸õ de
c co a ca
primeira ordem nula nas restri¸˜es.
co
Este resultado ´ an´lago ` condi¸õ ∇f (x ∗ ) = 0 para Otimiza¸õ
e a a ca ca
Irrestrita.

Formalizando e demonstrando o resultado

Proposi¸˜o
ca
Seja x ∗ um ponto de m´
ınimo local de f sujeito `s restri¸˜es h(x) = 0.
a co
Assuma que os gradientes ∇h1 (x), . . . , ∇hm (x) sejam li em x ∗ .
1 Ent˜o, existe λ∗ = (λ∗ , . . . , λ∗ )′ unico, tal que:
a 1 m ´

m
∇f (x ∗ ) + λ∗ ∇hi (x ∗ ) = 0
i
i =1

2 Se f e h forem duas vezes continuamente diferenci´veis, temos que
a
m
y′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y ≥ 0, ∀y ∈ V (x ∗ ) onde
i
i =1

V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m}
denota o subespa¸o de primeira ordem de varia¸˜es vi´veis de h.
c co a

Um problema sem multiplicadores de Lagrange
Antes de provar este resultado, vamos estudar este exemplo:
minimize f (x) = x1 + x2 (6)
2 2
h1 (x) = (x1 − 1) + x2 −1 = 0 (7)
2 2
h2 (x) = (x1 − 2) + x2 −4 = 0 (8)

Observe que o unico ponto vi´vel ´ (0, 0) e que neste ponto os gradientes
´ a e
de h1 e h2 s˜o ld, n˜o permitindo escrever o gradiente de f em R2 .
a a

Pontos regulares

Defini¸õ
ca
Dizemos que um ponto x ´ regular se ∇hi (x), . . . , ∇hm (x) sõ linearmente
e a
independentes em x.

No exemplo anterior, o ponto ´timo nõ ´ regular.
o a e

Demonstra¸õ do Teorema dos Multiplicadores de
ca
Lagrange

A prova se baseia na aplica¸õ do m´todo de penalidades. Basicamente
ca e
suas idías centrais sõ:
e a
Relaxamos as restri¸˜es do problema
co
Adicionamos estas restri¸˜es ` fun¸õ objetivo do problema,
co a ca
multiplicando cada restri¸õ por uma penalidade.
ca
Aplicamos as condi¸˜es necess´rias de primeira e segunda orgem ao
co a
problema relaxado e
Tomamos o limite destas condi¸˜es, na medida em que as penalidades
co
crescem.

Prova - M´todo de Penalidades
e

Fun¸˜o de custo penalizada
ca
k 2 α
F k (x) = f (x) + h(x) + x − x ∗ 2 , k = 1, 2, . . .
2 2
onde:
x ∗ : ´ um m´
e ınimo local de f (x) : h(x) = 0.
k 2
O termo 2 h(x) penaliza a viola¸˜o das restri¸˜es
ca co
α
O termo 2 x− x∗ 2´ inserido para facilitar a prova, garantindo que
e
e ınimo local estrito de f (x) + α x − x ∗ 2 sujeito a h(x) = 0.
x ∗ ´ um m´ 2

Prova - M´todo de Penalidades
e

Dado que x ∗ ´ um m´
e ınimo local do problema, ´ poss´ escolher
e ıvel
ǫ > 0 tal que f (x ∗ ) ≤ f (x), ∀x ∈ S onde
S = {x : h(x) = 0; x − x ∗ ≤ ǫ}.
Ent˜o vamos assumir que x k resolve o seguinte problema:
a

minimize F k (x)
x ∈S

Observe que este otimizador x k existe, uma vez que S ´ compacto.
e
Vamos mostrar agora que {x k } converge para x ∗ .

{x k } converge para x ∗

Para todo k temos:
k α
F k (x k ) = f (x k ) + 2 h(x) 2 + 2 xk − x∗
≤ F k (x ∗ ) otimal. de x k
= f (x ∗ ) j´ que h(x ∗ ) = 0
a

Observe que f (x k ) ´ limitada em S.
e
Asssim sendo, o lado esquerdo da desigualdade acima precisa ficar
limitado quando k → ∞
k 2
Para que isto ocorra, o termos 2 h(x) precisa assumir valor finito
quando k → ∞.
Logo, limk→∞ h(x) = 0.
Entõ todo ponto limite x de {x k } satisfaz f (x) + α x − x ∗ ≤ f (x ∗ ).
a 2
Uma vez que x, x ∗ ∈ S e x ´ vi´vel e pela otimalidade de x ∗ , isto ´
e a e
f (x ∗ ) − f (x), x − x ∗ = 0. Logo x = x ∗ .

Observa¸˜es
co

Note que x k ´ um ponto interior a S para k suﬁcientemente grande.
e
Por este motivo, a partir deste valor suﬁcientemente grande de k, x k
´ um m´
e ınimo local do problema irrestrito que consiste em minimizar
F k (x).
Note tamb´m que j´ dispomos de um algoritmo para obter x.
e a
Vamos provar o Teorema dos Multiplicadores de Lagrange, aplicando
as condi¸˜es necess´rias de primeira ordem (irrestritas) a F k (x) em
co a
xk.

Obtendo λ∗
Aplicando as CNPO a F k (x k ), temos:
0 = ∇F k (x k ) = ∇f (x k ) + k∇h(x k )h(x k ) + α(x k − x ∗ ) (9)
Pelo enunciado, temos que ∇h(x ∗ ) possui posto completo, igual a
m < n. Por continuidade, existe k suficientemente grande para o qual
o posto de ∇h(x k ) tamb´m ´ m. Logo [∇h(x k )′ ∇h(x k )]−1 ´ nõ
e e e a
singular.
Pre multiplique (9) por [∇h(x k )′ ∇h(x k )]−1 e obtenha:

kh(x k ) = −[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )′ ∇f (x k ) + α(x k − x ∗ )

Sabemos que k → ∞, x k → x ∗ e kh(x k ) converge para um valor
finito. Denonine entõ por
a
λ∗ = [∇h(x ∗ )′ ∇h(x ∗ )]−1 ∇h(x ∗ )′ ∇f (x ∗ )
Tome o limite em (9) quando k → ∞ e obtenha:
∇f (x ∗ ) + ∇h(x ∗ )λ∗ = 0

Vamos agora provar as condi¸˜es de 2a. ordem
co
Aplicando as CNSO a F k (x k ) temos (diferenciando (9)) que a matriz:
m
2 2
k k k k
∇ F (x ) = ∇ f (x )+ k∇h(x )∇h(x ) + k k ′
hi (x k )∇2 hi (x k )+ αI
i =1
(10)
´ semi-positiva definida, para todo k suficientemente grande e α > 0.
e
Tome qualquer y ∈ V (x ∗ ) isto ´ y : ∇h(x ∗ )′ y = 0 e considere que y k
e
seja a proje¸õ de y no espa¸o nulo de ∇h(x k )′ , isto ´:
ca c e

(I − P)y = y k = y − ∇h(x k )[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )y

As condi¸˜es necess´rias de primeira ordem garantem que
co a
∇h(x k )′ y k = 0 e como ∇2 F k (x k ) ´ semi-positiva definida, temos:
e

0 ≤ (y k )′ ∇2 F k (x k )y k
k )′ ∇2 f (x k ) + k m k 2 k k k 2
0 ≤ (y i =1 hi (x )∇ hi (x ) y + α y
(11)

Condi¸˜es de 2a. ordem - continua¸˜o
co ca

Uma vez que:
◮ khi (x k ) → λi
◮ xk → x∗
◮ ∇h(x ∗ )′ y = 0
temos que y k → y e ent˜o temos:
a
m
0 ≤ y ′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y + α y
i
2
(12)
i =1

Uma vez que α > 0 pode ser arbitrariamente pequeno, temos:
m
0 ≤ y′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y , ∀y ∈ V (x ∗ )
i (13)
i =1

e a prova est´ completa.
a

A Fun¸õ Lagrangeana
ca

Defini¸õ
ca
Considere a fun¸õ Lagrangeana L : Rn+m → R definida como:
ca
m
L(x, λ) := f (x) + λi hi (x).
i =1

Observe que as condi¸˜es necess´rias de Primeira Ordem, de Viabilidade
co a
Primal (hi (x) = 0, ∀i = 1, . . . , m) e as condi¸˜es necess´rias de segunda
co a
ordem podem ser escritas em termos de L(x, λ) como:
m
∇x L(x ∗ , λ∗ ) = 0 ⇔ ∇f (x ∗ ) + ∗ ∗
i =1 λi ∇hi (x ) =0
∇λ L(x ∗ , λ∗ ) = 0 ⇔ hi (x) = 0, ∀i = 1, . . . , m (viabilidade)
y ′ ∇2 L(x ∗ , λ∗ )y
xx ≥ 0, ∀y ∈ V (x ∗ ) ⇔
m
y ′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y
i
i =1

A fun¸õ Lagrangena
ca

m
L(x, λ) := f (x) + λi hi (x).
i =1

Todo m´ınimo local regular deve entõ satisfazer o sistema de equa¸˜es em
a co
n + m vari´veis dado por:
a
∇x L(x ∗ , λ∗ ) = 0
∇λ L(x ∗ , λ∗ ) = 0
Cabe salientar que nem todo ponto que satisfizer o sistema acima ´ um
e
ponto de m´ınimo (recorde nossa experiˆncia com Otimiza¸õ Irrestrita).
e ca
Um ponto de m´ximo pode tamb´m satisfazer o sistema acima.
a e

Fun¸˜o Lagrangeana - Exemplo
ca

1 2 2 2
minimize x + x2 + x3
2 1
x1 + x2 + x3 = 3

Consideremos o vetor (x ∗ , λ∗ ) = (1, 1, 1, −1)′
Observe que ∇h(x ∗ ) = (1, 1, 1)′ (´ li), logo o ponto ´ regular.
e e
Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (1, 1, 1) − 1(1, 1, 1) = 0, logo as
condi¸˜es necess´rias de primeira ordem s˜o satisfeitas.
co a a
Uma vez que ∇2 f (x ∗ ) = diag(1) e ∇2 h(x) = 03×3 , temos que
x ′ ∇2 f (x ∗ )x > 0, ∀x ∈ Rn , em particular para y ∈ V (x ∗ ).
Portanto x ∗ ´ um m´
e ınimo global para o problema.

Interpreta¸õ do uso da Fun¸õ Langeana
ca ca

Criamos a fun¸õ Lagrangeana para obter um modelo irrestrito, cujo
ca
objetivo coincide com o objetivo do problema original para qualquer
solu¸õ vi´vel.
ca a
Para qualquer valor dos multiplicadores λi , um ´timo x ∗ do problema
o
relaxado deve ser um ponto estacion´rio de L(·, λ). Esta ´ a condi¸õ
a e ca
associada a ∇x L(x ∗ , λ∗ ) = 0.

Impor as condi¸˜es ∇λ L(x ∗ , λ∗ ) implica em restringir os pontos
co
a ıveis de L(x ∗ , λ∗ ) `queles que satisfazem as
estacion´rios admiss´ a
restri¸˜es do problema original.
co
Assim sendo, se um ponto x ∗ satisfizer as condi¸˜es de ponto
co
estacion´rio (em x, λ) para o problema relaxado com multiplicadores
a
fixados em λ∗ , ele deve ser vi´vel e L(x ∗ , λ∗ ) = f (x ∗ ).
a

ca a co

Fun¸õ Lagrangeana - Exemplo
ca

1 2 2 2
minimize − x + x2 + x3
2 1
x1 + x2 + x3 = 3

Este problema admite m´
ınimo ?
Consideremos agora o vetor (x ∗ , λ∗ ) = (1, 1, 1, 1)′
∇h(x ∗ ) = (1, 1, 1)′ e o ponto ´ regular.
e
Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (−1, −1, −1) + (1, 1, 1) = 0, logo
as condi¸˜es necess´rias de primeira ordem sõ satisfeitas.
co a a
Uma vez que ∇2 f (x ∗ ) = diag(−1) e ∇2 h(x) = 03×3 , as condi¸˜es
co
necess´rias de segunda ordem nõ sõ satisfeitas.
a a a
O conjunto X nõ ´ compacto.
a e

Condi¸˜es Suficientes de Otimalidade
co

Proposi¸õ - Prop 3.2.1
ca
(Condi¸˜es Suficientes de Otimalidade)
co
Assuma que f e h sejam fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn e
co a
λ∈R m satisfazendo:

1 ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0
2 y ′ ∇2 L(x ∗ , λ∗ )y > 0 para todo y = 0, ∇h(x ∗ )′ y = 0.
xx
Entõ:
a
x ∗ ´ um m´
e ınimo local estrito de f sujeito a h(x) = 0.
De fato, existem γ > 0 e ǫ > 0 tais que: f (x) ≥ f (x ∗ ) + γ ||x − x ∗ ||2
2
para qualquer x : h(x) = 0 e ||x − x ∗ || ≤ ǫ.

ca a co

Exemplo

min −(x1 x2 + x1 x3 + x2 x3 )
x1 + x2 + x3 = 3

Fun¸˜o Lagrangeana
ca
L(x, λ) = −(x1 x2 + x1 x3 + x2 x3 ) + λ(x1 + x2 + x3 − 3)

CNPO: ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0 que implica em:
−x2 − x3 + λ∗ = 0
∗ ∗

−x1 − x3 + λ∗ = 0
∗ ∗

−x1 − x2 + λ∗ = 0
∗ ∗

∗ ∗ ∗
x1 + x2 + x3 = 0
cuja solu¸˜o unica ´ (x ∗ , λ∗ ) = (1, 1, 1, 2)
ca ´ e
ca a co

Exemplo - continua

Condi¸˜es Suficientes de Otimalidade:
co
 
0 −1 −1
2
∇xx L(x ∗ , λ∗ ) =  −1 0 −1 
−1 −1 0

Observa¸˜es:
co
∇2 L(x ∗ , λ∗ ) ´ semi-positiva definida.
xx e
Entretanto, para os vetores y : ∇h(x ∗ )′ y = 0 temos:
◮ y : ∇h(x ∗ )′ y = 0 → y1 + y2 + y3 = 0.
◮ y ′ ∇2 L(x ∗ , λ∗ )y = −y1 (y2 + y3 ) − y2 (y1 + y3 ) − y3 (y1 + y2 ) =
xx
2 2 2
y1 + y2 + y3 > 0.
2
Logo, para os y : ∇h(x ∗ )′ y = 0, ∇xx L(x ∗ , λ∗ ) ´ positiva definida e as
e
condi¸˜es de segunda ordem sõ verificadas.
co a

ca a co

Demonstra¸õ das Condi¸˜es Suficientes de Otimalidade
ca co

O entendimento da demonstra¸õ da suficiˆncia destas condi¸˜es ´
ca e co e
fundamental para entender porque os m´todos que iremos estudar
e
funcionam.

Vamos usar uma fun¸õ denominada Fun¸õ Lagrangeana
ca ca
Aumentada que nada mais ´ que a Fun¸õ Lagrangena de um
e ca
Problema de Otimiza¸õ similar ao problema original, modificado
ca
apenas pela sua fun¸õ objetivo, que passa a incorporar uma
ca
penalidade pela viola¸õ das restri¸˜es h(x) = 0.
ca co

Antes de demonstrar as condi¸˜es suficientes, precisamos de alguns
co
resultados auxiliares.

ca a co

Alguns resultados auxiliares

Teorema de Bolzano-Weierstrass
Toda sequˆncia limitada no conjunto Rn possui uma subsequˆncia
e e
convergente.

Nõ negatividade de A′ A
a
Seja A uma matriz m × n. Entõ a matriz sim´trica A′ A ´ uma matriz
a e e
positiva semidefinida.

Lema Auxiliar
Sejam P e Q duas matrizes sim´tricas. Assuma que Q seja semi-positiva
e
definida e que P ´ positiva definida no espa¸o nulo de Q. Isto ´, x ′ Px > 0
e c e
para qualquer x : Qx = 0 ou, equivalentemente x : x ′ Qx = 0. Entõ existe
a
um escalar c tal que P + cQ ´ positiva definida para qualquer c > c.
e

ca a co

Demonstra¸õ do Lema Auxiliar
ca
Idía da prova: vamos assumir o contr´rio e obter uma contradi¸õ.
e a ca
Assuma entõ que o resultado enunciado nõ vale. Entõ, para
a a a
qualquer inteiro k, existe um vetor x k , ||x K || = 1 tal que:

(x k )′ Px k + k(x k )′ Qx k ≤ 0

Uma vez que ||x k || = 1, a sequˆncia {x k } ´ limitada e pelo Teorema
e e
de Bolzano-Weierstrass, existe uma subsequˆncia {x k }k∈K que
e
converge para algum vetor x.
Tomando o limite supremo da desigualdade acima temos:

lim (x k )′ Px k + k(x k )′ Qx k ≤0 →
k→∞,k∈K

x ′ Px + lim k(x k )′ Qx k ≤0
k→∞,k∈K

ca a co

Demonstra¸õ do Lema auxiliar - continua
ca

x ′ Px + lim k(x k )′ Qx k ≤0
k→∞,k∈K

Para que o lado esquerdo seja limitado superiormente (≤ 0), temos
que ter k(x k )′ Qx k → 0.
Uma vez que a matriz Q ´ nõ negativa e k → ∞, isto s´ ocorre se
e a o
(x k )Qx k → 0.

Logo limk→∞,i ∈K (x k )′ Qx k = x ′ Qx = 0 e consequentemente
x ′ Px ≤ 0.
Portanto, x ´ tal que Qx = 0 (x pertence ao nulo de Q).
e
Logo x ′ Px > 0 (pelo pr´prio teorema) e temos uma contradi¸õ !
o ca

ca a co

O M´todo do Lagrangeano Aumentado
e

Fun¸õ Lagrangeana Aumentada
ca
c
Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2
2
onde c ´ um escalar positivo.
e

Observe que:
A fun¸õ Lc (x, λ) corresponde ` fun¸õ Lagrangeana para o seguinte
ca a ca
problema:
c
min f (x) + ||h(x)||2
2
h(x) = 0

Minimizar este problema equivale a minimizar f (x) : h(x) = 0.

ca a co

Avaliando Lc (x, λ) e suas derivadas

c
Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2
2

Primeira derivada de Lc em rela¸˜o a x
ca

m m
∇x Lc (x, λ) = ∇f (x) + i =1 λi ∇hi (x) +c i =1 hi (x)∇hi (x)

Segunda derivada de Lc em rela¸˜o a x
ca

∇2 Lc (x, λ) =
xx
m m
2 2
∇ f (x) + λi ∇ hi (x) + c hi (x)∇2 hi (x) + c∇h(x)∇h(x)′
i =1 i =1

ca a co

Impondo as condi¸˜es necess´rias para x ∗, λ∗
co a
Se x ∗ , λ∗ satisﬁzerem as condi¸˜es necess´rias de 1a. ordem:
co a
m m
∇x Lc (x ∗ , λ∗ ) = ∇f (x ∗ ) + λi ∇hi (x ∗ ) + c hi (x ∗ )∇hi (x ∗ )
i =1 i =1
m
= ∇f (x ∗ ) + λi ∇hi (x ∗ ) = ∇x L(x ∗ , λ∗ ) = 0
i =1

∇2 Lc (x ∗ , λ∗ ) =
xx
m m
∇2 f (x ∗ ) + λi ∇2 hi (x ∗ ) + c hi (x ∗ )∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ =
i =1 i =1
m
∇2 f (x ∗ ) + λi ∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ =
i =1
∇2 L(x ∗ , λ∗ ) + c∇h(x ∗ )∇h(x ∗ )′
xx

ca a co

Se as condi¸˜es suficientes de 2a. ordem forem impostas
co

Vamos assumir que (condi¸˜es suficientes descritas no Teorema) para
co
qualquer y ∈ Rm : ∇h(x ∗ )′ y = 0 (ou y ′ ∇h(x ∗ )∇h(x ∗ )′ y = 0) tenhamos:

y ′ ∇2 L(x ∗ , λ∗ ) y > 0
xx

Observe que:
Aplicando o Lema Auxiliar, fazendo P = ∇2 L(x ∗ , λ∗ ) e
xx
Q = ∇h(x ∗ )∇h(x ∗ )′ (esta matriz ´ semipositiva definida), existe c
e
tal que ∇xx Lc (x ∗ , λ∗ ) ´ postivida definida.
e

Usando as condi¸˜es suficientes de otimalidade para otimiza¸õ
co ca
irrestrita, conclu´ ∗ ´ um ´timo local irrestrito
ımos que para c > c, x e o
de Lc (·, λ∗ ).

ca a co

Se as condi¸˜es suﬁcientes de 2a. ordem forem impostas
co

Ent˜o x ∗ ´ um ´timo local para Lc (·, λ∗ )
a e o

Em particular, existem γ > 0 e ǫ > 0 tais que
γ
Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) + ||x − x ∗ ||2 , ||x − x ∗ || < ǫ
2

Observe que para todo x vi´vel (h(x) = 0) temos Lc (x, λ∗ ) = f (x) e
a
∇λ L(x ∗ , λ∗ ) = h(x ∗ ) = 0

Finalmente, temos que:
γ γ
f (x) = Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ )+ ||x−x ∗ ||2 = f (x ∗ )+ ||x−x ∗ ||2 ≥ f (x ∗ )
2 2
para qualquer x : h(x) = 0 e ||x − x ∗ || < ǫ e a prova est´ completa !
a

ca a co

M´todos de Penalidade e Lagrangeano Aumentado
e

min f (x)
h(x) = 0
x ∈X

Vamos considerar o caso onde X = Rn .

Vamos criar a fun¸õ Lagrangena Aumentada associada ao Programa
ca
acima, para c > 0
c
Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 .
2

Observe que o parˆmetro c controla a severidade da penaliza¸õ da
a ca
viola¸õ das restri¸˜es.
ca co
ca a co

Usando Lc (x, λ) em algoritmos

Dois mecanismos sõ normalmente usados para, atrav´s da minimiza¸õ
a e ca
irrestrita de Lc (·, λ) fornecer pontos pr´ximos a x ∗ , um minimizador
o
(local) de f (x) : h(x) = 0.

1 Fazemos λ = λ∗ . Conforme mostramos, se c ´ maior que um valor c,
e
entõ existem γ > 0, ǫ > 0 tais que:
a
γ
Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) + ||x − x ∗ ||2 , ∀x : ||x − x ∗ || < ǫ
2
Este resultado sugere que se λ ≈ λ∗ , uma razo´vel aproxima¸õ de x ∗
a ca
deve ser obtida via minimiza¸õ irrestrita de Lc (· · · , λ).
ca
2 Tomamos um valor bastante alto de c. Nestes casos, o custo da
inviabilidade ´ elevado e entõ o m´
e a ınimo irrestrito de Lc (·, λ) deve ser
quase vi´vel. Uma vez que Lc (x, λ) = f (x) para todo x vi´vel,
a a
devemos esperar Lc (x, λ) ≈ f (x) para x pr´ximo da viabilidade.
o

ca a co

Exemplo - abordagem 1

1 2 2 onde o vetor primal-dual ´timo ´
o e
min x + x2 ∗ , λ∗ ) = (1, 0, −1).
2 1 dado por (x
x1 = 1
1
Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 , para c > 0.
2 2
2
Impondo ∇x Lc (x, λ) = 0, o m´
ınimo irrestrito possui coordenadas:
◮ x1 (c, λ) = c−λ . Logo para c > 0, temos
c+1
limλ→λ∗ x1 (λ, c) = x1 (−1, c) = 1. Logo limλ→λ∗ x2 (λ, c) = 0
◮ x2 (λ, c) = 0.

Exemplo - abordagem 2 pura
1
Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 .
2 2
2
x1 (c, λ) = c−λ . Logo limc→∞ c−λ = 1 = x1
c+1 c+1
∗
∗
x2 (c, λ) = 0. Logo limc→∞ x2 (c, λ) = 0 = x2 .

ca a co

M´todo de Penalidade Quadr´tica
e a
Consiste em resolver uma sequˆncia de Problemas:
e

m ck m
min Lc k (x, λk ) = f (x) + k
i =1 λi hi (x) + 2 i =1 hi (x)
2

x ∈X
onde {λk } ´ uma sequˆncia em Rm e {c k } ´ uma sequˆncia de
e e e e
penalidades positivas.

Na versõ original do m´todo (dćada de 1960), os multiplicadores
a e e
nõ eram aproximados; os multiplicadores eram fixados em zero. A
a
idía de aproxim´-los veio mais tarde.
e a
Vamos permitir que os multiplicadores sejam multiplicados, sem no
momento definir como isto ocorrer´.
a
Para sua validade, o m´todo depende de incrementar c k para ∞.
e

ca a co

M´todo Penalidades Quadr´ticas - Principal Resultado
e a

Proposi¸õ
ca
Assuma que f , h sõ fun¸˜es cont´
a co ınuas, que X ´ um conjunto fechado e
e
que o conjunto {x ∈ X : h(x) = 0} ´ nõ vazio. Para k = 0, 1, . . . ,, seja
e a
x k um m´
ınimo global do problema

min Lc k (x, λk )
x ∈ X,

onde {λk } ´ limitada, 0 < c k < c k+1 , ∀k e c k → ∞.
e
Entõ todo ponto limite da sequˆncia {x k } ´ um m´
a e e ınimo global do
problema ofiginal.

ca a co

Observa¸˜es
co
O resultado assume que o m´ ınimo global irretristo ´ obtido de forma
e
exata. Entretanto, os m´todos de otimiza¸õ irrestrita sõ terminados
e ca a
quando ||∇x Lc (x k , λk )|| ≤ ǫk , onde ǫk ´ um pequeno escalar.
e

Proposi¸õ
ca
Assuma que f , h sejam fun¸˜es diferenci´veis e que X = Rn . Para
co a
k = 0, 1, . . . , assuma que x k satisfa¸a ||∇x Lc (x k , λk )|| ≤ ǫk , onde {λk } ´
c e
limitada e {ǫk }, {c k } satisfazem:
0 < c k < c k+1 , ∀k, c k → ∞
0 ≥ ǫk , ∀k, ǫk → 0.
Assuma que a subsequˆncia {x k }K convirja para o vetor x ∗ tal que
e
∇h(x ∗ ) possua posto m. Entõ: {λk + c k h(x k )}K → λ∗ , onde λ∗ em
a
conjunto com x ∗ satisfazem as condi¸˜es necess´rias de primeira ordem:
co a

∇f (x ∗ ) + ∇h(x ∗ )′ λ∗ = 0, h(x ∗ ) = 0.

ca a co

Exemplo

min x3
x +1=0

L(x, λ) = x 3 + λ(x + 1)

c
Lc (x, λ, c) = L(x, λ) + (x + 1)2
2

∇x L(x ∗ , λ∗ ) = 0 → 3(x ∗ )2 + λ∗ = 0

∇λ L(x ∗ , λ∗ ) = 0 → x ∗ = −1, λ∗ = −3

ca a co

Exemplo - continua
Na Figura abaixo, indicamos f (x), L(x, λ∗ ), Lc (x, λ∗ ) para c = 9.

ca a co

Penalidades Quadr´ticas - desempenho na pr´tica
a a
Temos trˆs possibilidades:
e
1 O m´todo nõ funciona porque nõ conseguimos satisfazer
e a a
||∇x Lc (x k , λk )|| ≤ ǫk . Isto normalmente ocorre quando Lc (·, λk ) ´
e
ilimitada inferiormente.
2 Conseguimos satisfazer ||∇ L (x k , λk )|| ≤ ǫk , e k → 0, mas a
x c
sequˆncia {x k } converge para um ponto nõ regular, ou nõ converge.
e a a
Isto normalmente ocorre quando o problema original ´ invi´vel.
e a
3 {x k } converge para um ponto vi´vel regular. Este ´ o caso mais
a e
comum. Pode tamb´m ocorrer que {x k } convirja para um ponto
e
vi´vel nõ regular, indicando que neste caso nõ existem os
a a a
multiplicadores associados a x ∗ e a sequˆncia {λk + c k h(x k )} diverge
e
e nõ possui ponto limite.
a
A experiˆncia sugere que, normalmente, ´ bastante confi´vel e que, no
e e a
m´ınimo, converge para um m´ ınimo local do problema. O seu fracasso ´
e
norlmalmente associado ao malcondiconamento de min Lc (·, λk ), x ∈ X
quando c k → ∞.
ca a co

Penalidades Quadr´ticas: malcondicionamento
a

1 2 2
min x + x2
2 1
x1 = 1

1 2 c
Lc (x, λ) = x + x2 + λ(x1 − 1) + (x1 − 1)2
2
2 1 2

1 1+c 0
∇2 Lc (x, λ) = I + c
xx 1 0 =
0 0 1
2
Autovalores de ∇xx Lc (x, λ) : 1 + c e 1. Quando c → ∞, o problema
torna-se malcondicionado.

ca a co

Modifica¸˜es no M´todo de Penalidades Quadr´ticas
co e a
A cada itera¸õ k + 1, fazemos λk+1 ← λk + c k h(x k ), como uma
ca
melhor aproxima¸õ para o vetor de multiplicadores ´timo. Entõ
ca o a
minimizamos Lc (·, λk+1 ). O m´todo baseado nesta aproxima¸õ de
e ca
multiplicadores ´ chamado de M´todo dos Multiplicadores.
e e
Para evitar o malcondicionamento, recomenda-se empregar o M´todo
e
de Newton para minimizar Lc (·, λk ).
Al´m disto, ´ usual empregar x k como ponto de partida para a
e e
minimiza¸õ irrestrita de Lc (·, λk+1 ).
ca
A vantagem do uso combinado destas idías ´ poder empregar, em
e e
virtude de uma melhor aproxima¸õ de λ∗ , uma taxa menor de
ca
crescimento da penalidade c k . Assim sendo, h´ uma tendˆncia do
a e
problema ser menos malcondicionado.
Se c k aumenta muito rapidamente, a sequˆncia {x k } tende a
e
convergir mais rapidamente, mas o problema de malcondicionamento
deve ser mais evidente.
ca a co

Restri¸˜es de Desigualdades
co

(P) min f (x)
hi (x) = 0 i = 1, . . . , m
gj (x) ≤ 0 j = 1, . . . , r

Dado x vi´vel, vamos designar por A(x) = {j : g (x) = 0} o conjunto
a
dos ´
ındices de restri¸˜es de desigualdades que s˜o justas para x.
co a
Vamos assumir que x ∗ seja um m´ ınimo local para (P). Neste caso, x ∗
tamb´m deve ser um m´
e ınimo local para o programa abaixo:
(PE) min f (x)
hi (x) = 0 i = 1, . . . , m
gj (x) = 0 j ∈ A(x ∗ )
no qual as restri¸˜es de desigualdades folgadas em x ∗ (j ∈ A(x ∗ ))
co
foram eliminadas.
ca a co

Analogia
Esta observa¸õ nos leva a crer que se x ∗ for um ponto regular para o
ca
programa (PE), deve haver multiplicadores λ∗ : i = 1, . . . , m e
i
µj : j ∈ A(x ∗ ) tais que as CNPO sejam atendidas:
m
∇f (x ∗ ) + λi ∇hi (x ∗ ) + µj gj (x ∗ ) = 0
i =1 j∈A(x ∗ )

Atribuindo multiplicadores nulos para as restri¸˜es gj (·) tais que
co
j ∈ A(x ∗ ) temos:
m
∇f (x ∗ ) + ∗
i =1 λi ∇hi (x ) + r µj gj (x ∗ ) = 0
j=1
µj = 0, j ∈ A(x ∗ )

Um fato importante sobre os multiplicadores associados a gj (·):
devem ser nõ negativos. Observe que se a restri¸õ gj (x) ≤ 0 for
a ca
relaxada para g( x) ≤ µj para µj > 0, o custo ´timo de P deve
o
diminuir.
ca a co

Generalizando o conceito de ponto regular

Defini¸õ
ca
Um vetor vi´vel x ´ dito regular se:
a e
os gradientes das restri¸˜es de igualdade ∇hi (x) : i = 1, . . . , m e os
co
gradientes das restri¸˜es de desigualdades ativas em x,
co
∇gj (x) : j ∈ A(x) sõ linearmente independentes.
a

Tamb´m dizemos que x ´ regular no caso em que nõ h´ restri¸˜es de
e e a a co
igualdade e todas as restri¸˜es de desigualdade sõ inativas em x.
co a

ca a co

Condi¸˜es de Karush-Kuhn-Tucker
co
Teorema - Condi¸˜es de Karush-Kuhn-Tucker (KKT)
co
Seja x ∗ um m´
ınimo local regular para
(P) min f (x)
hi (x) = 0 i = 1, . . . , m
gj (x) ≤ 0 j = 1, . . . , r

onde f , hi , gj : Rn → R, ∀i , j sõ fun¸˜es continuamente diferenci´veis.
a co a
Entõ existem multiplicadores de Lagrange unicos λ∗ e µ∗ tais que:
a ´

∇x L(x ∗ , λ∗ , µ∗ ) = 0
µ∗ ≥ 0
j j = 1, . . . , r (14)
µj ∗ =0 j ∈ A(x ∗ )

Se em adi¸õ a isto, tivermos f , hi , gj ∈ C 2 , ∀i , j entõ:
ca a
y ′ ∇2 L(x ∗ , λ∗ , µ∗ )y ≥ 0 ∀y ∈ Rm :
xx ∇hi (x)′y = 0
(15)
∇gj (x)′ y = 0, j ∈ A(x ∗ ).

Exemplo

1 2 2 2
min (x + x2 + x3 )
2 1
x1 + x2 + x3 ≤ −3
1 2 2 2
L(x, µ) = (x1 + x2 + x3 ) + µ(x1 + x2 + x3 + 3)
2

Das CNPO, temos ∇Lx (x ∗ , λ∗ ) = 0 → xi∗ + µ∗ = 0, i = 1, 2, 3
Precisamos avaliar dois casos:
◮ A restri¸õ ˜ folgada e entõ µ∗ = 0. Neste caso x1 = x2 = x3 = 0,
ca e a ∗ ∗ ∗

violando a restri¸õ do problema. Logo a restri¸õ nõ ´ folgada.
ca ca a e
◮ A restri¸õ ´ justa. Observe entõ que x1 + x2 + x3 = −3 equivale a
ca e a ∗ ∗ ∗

impor tamb´m que (CNPO) ∇µ L(x , µ ) = 0.
e ∗ ∗

Assim sendo, temos x1 = x2 = x3 = −1 e µ∗ = 1
∗ ∗ ∗

ca a co

Exemplo - continua

Analisando as condi¸˜es de KKT de segunda ordem:
co
′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer
y xx
y : ∇h(x ∗ )y = 0, ∇gj (x ∗ )y = 0, j ∈ A(x ∗ ).

Como nõ h´ restri¸˜es de igualdade, temos que a condi¸õ torna-se
a a co ca
′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer y ∈ R3 : y + y + y = 0.
y xx 1 2 3

2
Entretanto, como ∇xx L(x ∗ , µ∗ ) = diag(1) ´ positiva definida, para
e
qualquer y (em particular satisfazendo y1 + y2 + y3 = 0) a condi¸õ
ca
necess´ria de segunda ordem ´ atendida.
a e

ca a co

Condi¸˜es Suficientes de Segunda Ordem
co

Proposi¸õ
ca
Condi¸˜es Suficientes de Segunda Ordem Assuma que f , g , h sejam
co
fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn , λ∗ ∈ Rm , µ∗ ∈ Rr
co a
satisfazendo:
∇x L(x ∗ , λ∗ , µ∗ ) = 0 h(x ∗ ) = 0 g (x ∗ ) ≤ 0
µ∗ ≥ 0
j j = 1, . . . , r
µ∗ = 0
j j ∈ A(x ∗ )

y ′ ∇xx L(x ∗ , λ∗ , µ∗ )y > 0 para todo y satisfazendo:

∇hi (x ∗ )′ y = 0, ∀i = 1, . . . , m e ∇gj (x ∗ )′ y = 0, ∀j ∈ A(x ∗ ).
Assuma tamb´m que µ∗ > 0 para qualquer j ∈ A(x ∗ ).
e j
∗ ´ um m´
Entõ x e
a ınino local de f (x) restrito a h(x) = 0, g (x) ≤ 0.

ca a co

M´todo da Barreira
e

Vamos considerar o Problema

min f (x)
gj (x) ≤ 0 j = 1, . . . , r
x ∈X

e deﬁnir o interior (relativo a X ) do conjunto de viabilidade como
S = {x ∈ X : gj (x) < 0, ∀j = 1, . . . , r }.

Assumimos que:
S = ∅.

Qualquer ponto vi´vel y ∈ S pode ser aproximado t˜o proximamente
a a
quanto se queira por um ponto em x ∈ S. Isto ´, para qualquer δ > 0
ˆ e
existe x ∈ S tal que x − y ≤ δ.
ˆ ˆ

ca a co

Idías centrais do m´todo
e e
Vamos acrescentar uma fun¸õ de custo B(x), denominada fun¸õ
ca ca
barreira ` fun¸õ objetivo, definida exclusivamente em S e vamos
a ca
resolver uma sequˆncia de problemas, satisfazendo
e
0 < ǫk+1 < ǫk , k = 0, 1, . . . , ǫk → 0 na medida em que k → ∞:
min f (x) + ǫk B(x)
x ∈S
A fun¸õ barreira deve ser cont´
ca ınua e na medida em que x tenda para
a fronteira do conjunto, B(x) deve tender a ∞. Isto ´, B(x) deve ter
e
uma descontinuidade na fronteira do conjunto de viabilidade.
Fun¸˜es barreira usuais:
co
r
1 B(x) = − ln{−gj (x)}
j=1
r
1
2 B(x) = −
gj (x)
j=1
Sendo gj (x) convexas, as fun¸˜es acima tamb´m o sõ.
co e a
ca a co

Idías centrais do m´todo
e e

Seja x k a solu¸õ de:
ca

(P k ) min f (x) + ǫk B(x)
x ∈ S.

A sequˆncia {x k } pertence a S.
e
Na medida em que k → ∞ e por consequˆncia ǫk → 0, a contribui¸õ
e ca
do termo barreira, ǫk B(x), deve tender a zero, para todo ponto x ∈ S.
Assim sendo, com a evolu¸õ das itera¸˜es, pontos pr´ximos a
ca co o
fronteira terõ sua componente de custo decorrente do termo de
a
barreira minorado, como deveria ser, caso o ´timo esteja na fronteira.
o

ca a co

Principal resultado te´rico
o

Proposi¸˜o
ca
Todo ponto limite da sequˆncia {x k } gerada pelo M´todo da Barreira ´
e e e
um ponto de m´ınimo global do problema original.

Observa¸˜es:
co

ıcito que o problema ´ convexo ou que x k ´ um ´timo global
Est´ impl´
a e e o
do problema P k .

ca a co

Exemplo

1 2 2
min f (x) = (x + x2 ) Solu¸˜o ´tima: x ∗ = (2, 0).
ca o
2 1
2 ≤ x1

Assumindo a fun¸˜o barreira logaritmica, B(x) = −ln(x1 − 2),
ca
impondo as CNPQ ao problema P k temos:

1 2 2
x k ∈ arg minx1 >2 (x + x2 ) − ǫk ln(x1 − 2) = 1+ 1 + ǫk , 0
2 1
k
limǫk →0 x1 = 2

ca a co

Exemplo - continua

1 2 2
min (x + x2 ) − ǫk ln(x1 − 2) : x1 > 2
2 1
Curvas de n´ para P k : ǫ = 0.3 (esquerda) e ǫ = 0.03 (direita).
ıvel

ca a co

[Alexandre] 8. Não Linear Restrita

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (19)

Semelhante a [Alexandre] 8. Não Linear Restrita

Semelhante a [Alexandre] 8. Não Linear Restrita (20)

[Alexandre] 8. Não Linear Restrita