Programa¸˜o N˜o Linear com Restri¸˜es        ca a                     co            Alexandre Salles da Cunha            D...
Defini¸˜o do Problema     caProblema de Otimiza¸˜o sobre um conjunto convexo                   ca                        mi...
Algumas observa¸˜es preliminares               co   Se f for convexa sobre X , o Problema de Otimiza¸˜o ´ Convexo e       ...
Panorama dos M´todos que iremos discutir neste curso              e   M´todos Primais:    e     ◮   M´todo de Dire¸oes Vi´...
Condi¸˜es de Otimalidade     coProposi¸˜o       caSeja x ∗ um m´             ınimo local de f em um conjunto convexo X . E...
Condi¸˜es de Otimalidade     coProvaParte 2    Pela convexidade de f em X temos:                  f (x) ≥ f (x ∗ ) + ∇f (x...
Ponto estacion´rio              aDefini¸˜o     caUm ponto x ∗ que satisfaz a condi¸˜o                                 ca   ...
Se X n˜o for convexo...      a    Al´m de serem n˜o suficientes, estas condi¸˜es podem falhar      e            a          ...
Restri¸˜es Ativas e Inativas      coNormalmente, o conjunto X ´ definido por restri¸˜es de igualdade e                     ...
Otimiza¸˜o sobre um quadrante n˜o negativo       ca                      aConsidere o conjunto convexo X = {x ∈ Rn : xi ≥ ...
Otimiza¸˜o sobre uma caixa       caComo poderiam ser expressas as condi¸˜es de otimalidade caso                           ...
Otimiza¸˜o sobre uma caixa       caComo poderiam ser expressas as condi¸˜es de otimalidade caso                           ...
A importˆncia das restri¸˜es ativas        a               coExemplo                         min f (x1 , x2 ) : x1 , x2 ≥ ...
A importˆncia das restri¸˜es ativas        a               co    As restri¸˜es ativas em x ´ que restringem a viabilidade ...
M´todo de Dire¸˜es Vi´veis e            co     a                       minimize      f (x)                                ...
M´todos de Dire¸˜es Vi´veis e             co     aDefini¸˜o     caDado um vetor vi´vel x, dizemos que d ´ uma dire¸˜o vi´ve...
M´todo de Dire¸˜es Vi´veis e            co     aUm m´todo nesta classe:    e    inicia com uma solu¸˜o x 0 e gera uma sequ...
Um m´todo de dire¸˜es vi´veis, de descida    e            co     a
Caracteriza¸˜o da dire¸˜o vi´vel           ca         ca a    Conforme j´ mencionamos, no caso onde X ´ convexo, uma dire¸...
M´todos de dire¸˜es vi´veis: id´ias centrais e             co     a        e    Requerem uma solu¸˜o vi´vel inicial (m´tod...
M´todo de Dire¸˜es vi´veis: determina¸˜o do passo e            co     a               ca   Minimiza¸˜o exata: αk = arg min...
M´todos de Dire¸˜es Vi´veis: convergˆncia e             co     a             eProposi¸˜o       caSeja {x k } a sequˆncia g...
Encontrando um ponto inicialDado o problema                minimize             f (x)                             hi (x) =...
M´todo do Gradiente Condicional eOs m´todos nesta classe se diferenciam em como a dire¸˜o vi´vel, de     e                ...
Obtendo uma dire¸˜o vi´vel                ca a   Observe que o programa auxiliar envolve o mesmo conjunto de   restri¸˜es ...
Gradiente Condicional quando X ´ um poliedro                               e   Se o m´todo Simplex ´ usado para resolver o...
M´todo do Gradiente Condicional: exemplo num´rico e                                          eProblema Quadr´tico         ...
M´todo do Gradiente Condicional: exemplo num´rico e                                          eVamos implementar o m´todo c...
Taxa de Convergˆncia do M´todo do Gradiente Condicional               e         e   Se a regra de Armijo ou a   minimiza¸˜...
M´todo do Gradiente Projetado e   Mover ao longo da dire¸˜o contr´ria ao gradiente n˜o garante a                          ...
O problema de projetar z ∈ Rn em X convexo, fechadoProje¸˜o     caConsiste em encontrar um vetor x ∗ ∈ X , cuja distˆncia ...
Gradiente projetado    Vamos supor que o nosso problema de otimiza¸˜o seja                                               c...
Resolvemos o seguinte Problema de Otimiza¸˜o Quadr´tica                                         ca       a                ...
Matrizes de Proje¸˜o                 caDefini¸˜o     caAssuma que P ∈ Rn×n seja uma matriz quadrada de ordem n. P ´        ...
Matrizes de Proje¸˜o                 caProva 1   Seja x ∈ Rn um vetor arbitr´rio. Ent˜o, se P ´ uma matriz de             ...
Interpreta¸˜o          ca    Dado z ∈ Rn temos que (Pz)′ , (I − P)z = 0. Ou seja, a aplica¸˜o                             ...
Gradiente Projetado - Problema com restri¸˜es lineares                                         co                      min...
Caracteriza¸˜o de Dire¸˜es Vi´veis           ca         co     aProposi¸˜o       caConsidere o poliedro X = {x ∈ Rn : Ax ≤...
Gradiente projetado - X ´ um poliedro                        eProposi¸˜o       caConsidere o problema minx∈X definido acima...
Gradiente projetado - X ´ um poliedro                        eProva  1   (−P∇f (x k ) ´ dire¸˜o de descida)               ...
Interpreta¸˜o Geom´trica do M´todo          ca      e          e   Uma vez que MP = 0 temos que A1 P = 0, EP = 0 e ent˜o a...
Teoria de Multiplicadores de LagrangeVamos considerar os problemas de otimiza¸˜o definidos por restri¸˜es de               ...
Interpretando este resultado                                   m                             ∗                       ∇f (x...
Interpretando este resultadoDefini¸˜o     caDefinimos o subespa¸o de vari¸˜es nulas de primeira ordem, isto ´, o            ...
Formalizando e demonstrando o resultadoProposi¸˜o       caSeja x ∗ um ponto de m´                      ınimo local de f su...
Um problema sem multiplicadores de LagrangeAntes de provar este resultado, vamos estudar este exemplo:            minimize...
Pontos regularesDefini¸˜o     caDizemos que um ponto x ´ regular se ∇hi (x), . . . , ∇hm (x) s˜o linearmente               ...
Demonstra¸˜o do Teorema dos Multiplicadores de         caLagrangeA prova se baseia na aplica¸˜o do m´todo de penalidades. ...
Prova - M´todo de Penalidades         eFun¸˜o de custo penalizada   ca                               k        2       α   ...
Prova - M´todo de Penalidades         e   Dado que x ∗ ´ um m´                 e         ınimo local do problema, ´ poss´ ...
{x k } converge para x ∗    Para todo k temos:                                k                 α      F k (x k ) = f (x k...
Observa¸˜es       co   Note que x k ´ um ponto interior a S para k suficientemente grande.                e   Por este moti...
Obtendo λ∗   Aplicando as CNPO a F k (x k ), temos:         0 = ∇F k (x k ) = ∇f (x k ) + k∇h(x k )h(x k ) + α(x k − x ∗ )...
Vamos agora provar as condi¸˜es de 2a. ordem                           co   Aplicando as CNSO a F k (x k ) temos (diferenc...
Condi¸˜es de 2a. ordem - continua¸˜o     co                          ca   Uma vez que:     ◮   khi (x k ) → λi     ◮   xk ...
A Fun¸˜o Lagrangeana     caDefini¸˜o     caConsidere a fun¸˜o Lagrangeana L : Rn+m → R definida como:               ca      ...
A fun¸˜o Lagrangena     ca                                               m                          L(x, λ) := f (x) +    ...
Fun¸˜o Lagrangeana - Exemplo   ca                              1 2       2    2                 minimize        x + x2 + x...
Interpreta¸˜o do uso da Fun¸˜o Langeana          ca               ca   Criamos a fun¸˜o Lagrangeana para obter um modelo i...
Fun¸˜o Lagrangeana - Exemplo   ca                                 1 2       2    2                minimize     −      x + ...
Condi¸˜es Suficientes de Otimalidade     coProposi¸˜o - Prop 3.2.1       ca(Condi¸˜es Suficientes de Otimalidade)      coAss...
Exemplo                    min       −(x1 x2 + x1 x3 + x2 x3 )                                       x1 + x2 + x3 = 3Fun¸˜...
Exemplo - continuaCondi¸˜es Suficientes de Otimalidade:     co                                                           ...
Demonstra¸˜o das Condi¸˜es Suficientes de Otimalidade         ca           co   O entendimento da demonstra¸˜o da suficiˆnci...
Alguns resultados auxiliaresTeorema de Bolzano-WeierstrassToda sequˆncia limitada no conjunto Rn possui uma subsequˆncia  ...
Demonstra¸˜o do Lema Auxiliar         caId´ia da prova: vamos assumir o contr´rio e obter uma contradi¸˜o.  e             ...
Demonstra¸˜o do Lema auxiliar - continua         ca                 x ′ Px +       lim          k(x k )′ Qx k      ≤0     ...
O M´todo do Lagrangeano Aumentado   eFun¸˜o Lagrangeana Aumentada   ca                                              c     ...
Avaliando Lc (x, λ) e suas derivadas                                                    c                       Lc (x, λ) ...
Impondo as condi¸˜es necess´rias para x ∗, λ∗                co         aSe x ∗ , λ∗ satisfizerem as condi¸˜es necess´rias ...
Se as condi¸˜es suficientes de 2a. ordem forem impostas           coVamos assumir que (condi¸˜es suficientes descritas no Te...
Se as condi¸˜es suficientes de 2a. ordem forem impostas           co   Ent˜o x ∗ ´ um ´timo local para Lc (·, λ∗ )      a  ...
M´todos de Penalidade e Lagrangeano Aumentado e                          min                 f (x)                        ...
Usando Lc (x, λ) em algoritmosDois mecanismos s˜o normalmente usados para, atrav´s da minimiza¸˜o                      a  ...
Exemplo - abordagem 1           1 2     2                     onde o vetor primal-dual ´timo ´                            ...
Exemplo - abordagem 2 pura             1Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 .                 2    2          ...
M´todo de Penalidade Quadr´tica e                        aConsiste em resolver uma sequˆncia de Problemas:                ...
M´todo Penalidades Quadr´ticas - Principal Resultado e                      aProposi¸˜o       caAssuma que f , h s˜o fun¸˜...
Observa¸˜es       co     O resultado assume que o m´     ınimo global irretristo ´ obtido de forma                        ...
Exemplo                   min                 x3                             x +1=0                    L(x, λ) = x 3 + λ(x...
Exemplo - continuaNa Figura abaixo, indicamos f (x), L(x, λ∗ ), Lc (x, λ∗ ) para c = 9.                    Alexandre Salle...
Penalidades Quadr´ticas - desempenho na pr´tica                 a                        aTemos trˆs possibilidades:      ...
Penalidades Quadr´ticas: malcondicionamento                 a                                   1 2     2                 ...
Modifica¸˜es no M´todo de Penalidades Quadr´ticas       co       e                         a   A cada itera¸˜o k + 1, fazem...
Restri¸˜es de Desigualdades      co               (P) min                f (x)                              hi (x) = 0 i =...
Analogia   Esta observa¸˜o nos leva a crer que se x ∗ for um ponto regular para o                 ca   programa (PE), deve...
Generalizando o conceito de ponto regularDefini¸˜o     caUm vetor vi´vel x ´ dito regular se:           a      e    os grad...
Condi¸˜es de Karush-Kuhn-Tucker     coTeorema - Condi¸˜es de Karush-Kuhn-Tucker (KKT)               coSeja x ∗ um m´      ...
Exemplo                                1 2      2    2                    min           (x + x2 + x3 )                    ...
Exemplo - continua   Analisando as condi¸˜es de KKT de segunda ordem:                         co    ′ ∇2 L(x ∗ , µ∗ )y ≥ 0...
Condi¸˜es Suficientes de Segunda Ordem     coProposi¸˜o       caCondi¸˜es Suficientes de Segunda Ordem Assuma que f , g , h ...
M´todo da Barreira eVamos considerar o Problema                   min              f (x)                            gj (x)...
Id´ias centrais do m´todo  e                 e    Vamos acrescentar uma fun¸˜o de custo B(x), denominada fun¸˜o           ...
Id´ias centrais do m´todo  e                 eSeja x k a solu¸˜o de:               ca                   (P k ) min        ...
Principal resultado te´rico                      oProposi¸˜o       caTodo ponto limite da sequˆncia {x k } gerada pelo M´t...
Exemplo                  1 2     2min     f (x) =    (x + x2 )                     Solu¸˜o ´tima: x ∗ = (2, 0).           ...
Exemplo - continua                1 2        2            min   (x + x2 ) − ǫk ln(x1 − 2) : x1 > 2                2 1Curva...
Próximos SlideShares
Carregando em…5
×

[Alexandre] 8. Não Linear Restrita

1.298 visualizações

Publicada em

0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.298
No SlideShare
0
A partir de incorporações
0
Número de incorporações
165
Ações
Compartilhamentos
0
Downloads
28
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

[Alexandre] 8. Não Linear Restrita

  1. 1. Programa¸˜o N˜o Linear com Restri¸˜es ca a co Alexandre Salles da Cunha DCC-UFMG, Mar¸o 2010 c Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  2. 2. Defini¸˜o do Problema caProblema de Otimiza¸˜o sobre um conjunto convexo ca minimize f (x) (1) x ∈X (2) Vamos assumir que X = ∅ ´ um conjunto convexo. e O conjunto X ´ normalmente definido por um conjunto de restri¸˜es e co n˜o lineares h(x) = 0 e g (x) ≤ 0, onde: a ◮ h : Rn → Rm ◮ g : Rn → Rp Assumimos que f ∈ C 2 : Rn → R.
  3. 3. Algumas observa¸˜es preliminares co Se f for convexa sobre X , o Problema de Otimiza¸˜o ´ Convexo e ca e qualquer ´timo local do problema ´ um ´timo global. o e o Assim como no Problema de Otimiza¸˜o Irrestrita, no Problema de ca Otimiza¸˜o com restri¸˜es, esperamos que, em um ponto candidato a ca co m´ınimo x ∗ , a varia¸˜o de primeira ordem (∇f (x ∗ ))′ △x ≥ 0 seja ca verificada para qualquer dire¸˜o △x vi´vel. ca a Este problema generaliza o Problema de Programa¸˜o N˜o-Linear ca a Irrestrito.
  4. 4. Panorama dos M´todos que iremos discutir neste curso e M´todos Primais: e ◮ M´todo de Dire¸oes Vi´veis e c˜ a ◮ M´todo do Gradiente Projetado e ◮ Particularmente adequados quando o dom´ ´ um poliedro e a fun¸˜o ınio e ca objetivo ´ n˜o linear, ou quando obter uma dire¸˜o vi´vel ou projetar e a ca a sobre o conjunto forem f´ceis de serem resolvidas. a M´todos baseados em Multiplicadores de Lagrange: e ◮ Penalidades ◮ Barreiras ◮ Transformam o problema com restri¸oes em uma s´rie de problemas c˜ e irrestritos, envolvendo uma alta penalidade pela viola¸˜o das restri¸oes. ca c˜ A solu¸˜o destes problemas irrestritos fornece, assintoticamente, a ca solu¸˜o do problema original. ca Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  5. 5. Condi¸˜es de Otimalidade coProposi¸˜o caSeja x ∗ um m´ ınimo local de f em um conjunto convexo X . Ent˜o: a 1 ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X 2 Se f for convexa sobre X , ent˜o a condi¸˜o acima ´ uma condi¸˜o a ca e ca suficiente para x ∗ minimizar f em X .ProvaParte 1 Suponha ∇f (x ∗ )′ (x − x ∗ ) < 0, para algum x ∈ X . Pelo Teoremado Valor Central, temos que para todo ǫ > 0, existe s ∈ [0, 1] tal que: f (x ∗ + ǫ(x − x ∗ )) = f (x ∗ ) + ǫ∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ )Pela continuidade de f , temos que para ǫ > 0 suficientemente pequeno,∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ ) < 0 e ent˜o f (x ∗ + ǫ(x − x ∗ )) < f (x ∗ ). aComo o conjunto X ´ convexo, temos que x ∗ + ǫ(x − x ∗ ) ´ vi´vel para e e atodo ǫ ∈ [0, 1] e ent˜o contradizemos a otimalidade de x a ∗.
  6. 6. Condi¸˜es de Otimalidade coProvaParte 2 Pela convexidade de f em X temos: f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ), ∀x ∈ X Pela parte 1 j´ demonstrada temos que ∇f (x ∗ )(x − x ∗ ) ≥ 0 a f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ) ≥ f (x ∗ ), ∀x ∈ X , e o resultado segue.
  7. 7. Ponto estacion´rio aDefini¸˜o caUm ponto x ∗ que satisfaz a condi¸˜o ca ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X´ denominado ponto estacion´rio.e a Observe que se x ∗ ´ um ponto interior ou se X = Rn as condi¸˜es e co enunciadas equivalem ` ∇f (x ∗ ) = 0. a Assim sendo, estas condi¸˜es tamb´m podem ser satisfeitas para co e pontos de m´ximo ou mesmo outros pontos. a
  8. 8. Se X n˜o for convexo... a Al´m de serem n˜o suficientes, estas condi¸˜es podem falhar e a co Observe no exemplo (` direita) abaixo temos que: a ◮ e ınimo local, uma vez que ∇f (x ∗ )′ △x ≥ 0 para x ∗ ´ um ponto de m´ qualquer △x vi´vel,mas... a ◮ a condi¸˜o enunciada falha porque x − x ∗ n˜o ´ uma dire¸˜o vi´vel, ca a e ca a uma vez que X n˜o ´ convexo e ent˜o ∇f (x ∗ )′ (x − x ∗ ) < 0. a e a
  9. 9. Restri¸˜es Ativas e Inativas coNormalmente, o conjunto X ´ definido por restri¸˜es de igualdade e e codesigualdade: hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , p Consideremos cada uma das restri¸˜es gj (x) : j = 1, . . . , p e um co ponto x vi´vel para o problema em estudo. a Dizemos que gj (x) ´ ativa em x se gj (x) = 0. e Caso gj (x) < 0, gj (x) ´ inativa em x. e Por defini¸˜o, todas as restri¸˜es hi (x) : i = 1, . . . , m s˜o ativas. ca co a
  10. 10. Otimiza¸˜o sobre um quadrante n˜o negativo ca aConsidere o conjunto convexo X = {x ∈ Rn : xi ≥ 0, ∀i = 1, . . . , n}. Observe que a condi¸˜o de otimalidade ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X ca equivale a: n ∂f (x ∗ ) (xi − xi∗ ) ≥ 0, ∀x = (x1 , . . . , xn ) ∈ X ∂xi i =1 Fixando dire¸˜es convenientes, dependendo da coordenada de i de xi∗ co estar ou n˜o na fronteira, temos que a equa¸˜o escalar anterior a ca implica em: ∂f (x ∗ ) ◮ ∂xi = 0, ∀i : xi > 0 ∂f (x ∗ ) ◮ ∂xi ≥ 0, ∀i = 1, . . . , n
  11. 11. Otimiza¸˜o sobre uma caixa caComo poderiam ser expressas as condi¸˜es de otimalidade caso co X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n} ∂f (x ∗ ) = 0 ∀i : ai < xi∗ < bi (3) ∂xi ∂f (x ∗ ) ≥0 ∀i : xi∗ = ai (4) ∂xi ∂f (x ∗ ) ≤0 ∀i : xi∗ = bi (5) ∂xi
  12. 12. Otimiza¸˜o sobre uma caixa caComo poderiam ser expressas as condi¸˜es de otimalidade caso co X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n} ∂f (x ∗ ) = 0 ∀i : ai < xi∗ < bi (3) ∂xi ∂f (x ∗ ) ≥0 ∀i : xi∗ = ai (4) ∂xi ∂f (x ∗ ) ≤0 ∀i : xi∗ = bi (5) ∂xi
  13. 13. A importˆncia das restri¸˜es ativas a coExemplo min f (x1 , x2 ) : x1 , x2 ≥ 0 ınimo, todas as derivadas parciais ∂f∂xi ) s˜o n˜o (x ∗No ponto x ∗ de m´ a anegativas e s˜o nulas para as restri¸˜es xi ≥ 0 inativas. Se todas as a corestri¸˜es forem inativas em x ∗ , a condi¸˜o de otimalidade equivale a co ca∇f (x ∗ ) = 0.
  14. 14. A importˆncia das restri¸˜es ativas a co As restri¸˜es ativas em x ´ que restringem a viabilidade nas co e vizinhan¸as de um ponto. c Desempenham papel fundamental na dedu¸˜o das propriedades ca (condi¸˜es necess´rias e suficientes) de um ponto de m´ co a ınimo local. As restri¸˜es inativas n˜o influenciam em nada a viabilidade nas co a vizinhan¸as de x. c Caso soub´ssemos quais s˜o as restri¸˜es ativas no ponto de m´ e a co ınimo, poder´ ıamos concentrar nosso estudo apenas ` elas, tratando-as como a restri¸˜es de igualdade e ignorando as restri¸˜es inativas. co co
  15. 15. M´todo de Dire¸˜es Vi´veis e co a minimize f (x) x ∈XVamos inicialmente estudar m´todos de otimiza¸˜o para o problema, e caassumindo: X ´ convexo, n˜o vazio e a f ∈ C 1 , isto ´, X ´ continuamente diferenci´vel em X . e e a N˜o assumimos nenhuma estrutura ou caracter´ a ıstica especial ao conjunto de restri¸˜es que determinam X , a n˜o as citadas acima. co a
  16. 16. M´todos de Dire¸˜es Vi´veis e co aDefini¸˜o caDado um vetor vi´vel x, dizemos que d ´ uma dire¸˜o vi´vel em x se d ´ a e ca a etal que x + αd ∈ X para qualquer α > 0 suficientemente pequeno.
  17. 17. M´todo de Dire¸˜es Vi´veis e co aUm m´todo nesta classe: e inicia com uma solu¸˜o x 0 e gera uma sequˆncia {x k } de pontos ca e vi´veis, atrav´s da itera¸˜o t´ a e ca ıpica: x k+1 = x k + αk d k se x k n˜o ´ um ponto estacion´rio, ent˜o a dire¸˜o d k escolhida a e a a ca satisfaz: ∇f (x k )′ d k < 0 o passo αk ´ escolhido de forma que x k + αk d k ∈ X . e se x k ´ estacion´rio, o m´todo p´ra (x k+1 = x k ). e a e a Vamos nos concentrar em m´todos de dire¸˜es vi´veis que s˜o e co a a m´todos de descida, isto ´, f (x e e k + αk d k ) < f (x k ).
  18. 18. Um m´todo de dire¸˜es vi´veis, de descida e co a
  19. 19. Caracteriza¸˜o da dire¸˜o vi´vel ca ca a Conforme j´ mencionamos, no caso onde X ´ convexo, uma dire¸˜o a e ca vi´vel d a k em x k pode ser caracterizada da seguinte maneira: d k = γ(x k − x k ), γ > 0 onde x k ´ algum ponto vi´vel. e a O m´todo opera ent˜o de acordo com a seguinte itera¸˜o: e a ca x k+1 = x k + αk d k , α ∈ [0, 1], onde a dire¸˜o d k al´m de vi´vel, deve ser de descida: ca e a ∇f (x k )′ (x k − x k ) < 0, x k ∈ X Observe que pela convexidade de X , x k + αk (x k − x k ) ∈ X para qualquer α ∈ [0, 1]. Al´m disto, se d k = γ(x k − x k ) ´ uma dire¸˜o de descida e x k ´ n˜o e e ca e a estacion´rio, temos a garantia de existir um αk para o qual a f (x k+1 ) < f (x k ).
  20. 20. M´todos de dire¸˜es vi´veis: id´ias centrais e co a e Requerem uma solu¸˜o vi´vel inicial (m´todo de duas fases) ca a e Definem uma dire¸˜o vi´vel de descida, ou concluem que o ponto ´ ca a e estacion´rio. a Implementam uma itera¸˜o t´ ca ıpica que corresponde a uma busca unidirecional na dire¸˜o escolhida. ca Podem ser vistos como uma especializa¸˜o dos m´todos que vimos ca e at´ anteriormente para otimiza¸˜o irrestrita. e ca
  21. 21. M´todo de Dire¸˜es vi´veis: determina¸˜o do passo e co a ca Minimiza¸˜o exata: αk = arg min ca α∈[0,1] f (x k + αd k ) Armijo: Fixados escalares β, σ > 0 tais que β ∈ (0, 1) e σ ∈ (0, 1), fazemos αk = β mk , onde mk ´ o primeiro inteiro n˜o negativo m tal e a que: f (x k ) − f (x k + β m d k ) ≥ −σβ m ∇f (x k )′ d k Ou seja, tentamos sucessivamente os passos αk = 1, β, β 2 , . . . at´ e satisfazer a condi¸˜o acima. ca
  22. 22. M´todos de Dire¸˜es Vi´veis: convergˆncia e co a eProposi¸˜o caSeja {x k } a sequˆncia gerada por um M´todo de Dire¸˜es Vi´veis e e co ax k+1 = x k + αk d k , onde as dire¸˜es {d k } s˜o gradiente relacionadas e αk co a´ determinado atrav´s de minimiza¸˜o exata ou via regra de Armijo.e e caEnt˜o, todo ponto limite de {x e a k } ´ um ponto estacion´rio. a
  23. 23. Encontrando um ponto inicialDado o problema minimize f (x) hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , pcriamos e resolvemos o problema artificial (fase 1) m p minimize zi + yj i =1 j=1 hi (x) + zi = 0 i = 1, . . . , m gj (x) − yj ≤ 0 j = 1, . . . , p yj ≥ 0 j = 1, . . . , p Iniciamos o m´todo com x = (0, . . . , 0) e o vetor y e z calculados e para viabilizar o programa acima. Ao final da fase 1, caso a fun¸˜oca objetivo seja nula, dispomos de um ponto inicial vi´vel para o a programa original.
  24. 24. M´todo do Gradiente Condicional eOs m´todos nesta classe se diferenciam em como a dire¸˜o vi´vel, de e ca adescida ´ obtida. Um dos m´todos mais usados nesta classe ´ o Gradiente e e eCondicional: O problema de obter uma dire¸˜o vi´vel com propriedade de descida ca a em x k pode ser formulado como: min ∇f (x k )′ (x − x k ) x ∈X Se X ´ compacto, o programa acima ´ limitado. Caso X n˜o seja e e a limitado, impomos restri¸˜es lineares do tipo x ∞ ≤ 1 e resolvemos co o programa. Se o valor ´timo do programa auxiliar for negativo, encontramos uma o dire¸˜o vi´vel, de descida. ca a
  25. 25. Obtendo uma dire¸˜o vi´vel ca a Observe que o programa auxiliar envolve o mesmo conjunto de restri¸˜es que do original, mas a fun¸˜o objetivo ´ linear. co ca e No caso das restri¸˜es que definem X serem n˜o lineares, o programa co a auxiliar ´ t˜o complicado quanto o programa original. e a Os m´todos de dire¸˜es vi´veis, em particular o do Gradiente e co a Condicional, s˜o particularmente interessantes quando X ´ um a e poliedro, uma vez que o subproblema ´ um Programa Linear. e
  26. 26. Gradiente Condicional quando X ´ um poliedro e Se o m´todo Simplex ´ usado para resolver o subproblema, x k sempre e e ´ um ponto extremo de X . e Por quˆ a dire¸˜o d k que resolve o subproblema n˜o ´ contr´ria a e ca a e a ∇f (x k ), se x k for um ponto interior ?
  27. 27. M´todo do Gradiente Condicional: exemplo num´rico e eProblema Quadr´tico a 1 2 2 2 minimize f (x) = (x1 + x2 + 0.1x3 ) + 0.55x3 2 x1 + x2 + x3 = 1 x ≥0Subproblema associado - determina¸˜o da dire¸˜o vi´vel, de descida ca ca a minimize k k k (x1 )x1 + (x2 )x2 + (0.1x3 + 0.55)x3 + + (−(x1 )2 − (x2 )2 − (x3 )(0.1x3 + 0.55) k k k k x1 + x2 + x3 = 1 x ≥0que pode ser resolvido de forma gulosa. gradcondicional.sci
  28. 28. M´todo do Gradiente Condicional: exemplo num´rico e eVamos implementar o m´todo considerando: e x 0 = 1 (1, 1, 1)′ e tamb´m x 0 = (1, 0, 0)′ 3 e Passo de Armijo. Condi¸˜o de parada definida na resolu¸˜o do subproblema: ca ca ∇f (x k )′ d k ≥ −1.0E − 4 ∇f (x k ) d k
  29. 29. Taxa de Convergˆncia do M´todo do Gradiente Condicional e e Se a regra de Armijo ou a minimiza¸˜o exata forem empregadas ca para se determinar o αk , pode-se demonstrar que as dire¸˜es geradas co s˜o gradiente relacionadas e, ent˜o, a a todo ponto limite da sequˆncia gerada e pelo m´todo ´ um ponto estacion´rio. e e a Apesar disto, a taxa de convergˆncia e do m´todo ´ baixa: os pontos x k e e gerados s˜o tais que a dire¸˜o d k ´ a ca e quase ortogonal ´ dire¸˜o que levaria a ca ao ´timo, a partir do ponto x k o (zig-zag). Veja a figura:
  30. 30. M´todo do Gradiente Projetado e Mover ao longo da dire¸˜o contr´ria ao gradiente n˜o garante a ca a a viabilidade do ponto obtido, caso o ponto de origem esteja na fronteira do conjunto de viabilidade. O M´todo do Gradiente Projetado consiste em projetar o vetor e contr´rio ao gradiente no conjunto X , de forma que aprimore a a fun¸˜o objetivo e garanta viabilidade. ca Do ponto de vista computacional, a principal desvantagem do m´todo e ´ o elevando custo associado ` proje¸˜o, em cada itera¸˜o. e a ca ca O m´todo ´ uma boa alternativa quando a opera¸˜o de proje¸˜o pode e e ca ca ser feita com baixo custo computacional.
  31. 31. O problema de projetar z ∈ Rn em X convexo, fechadoProje¸˜o caConsiste em encontrar um vetor x ∗ ∈ X , cuja distˆncia a z seja m´ a ınima: minimize z −x x ∈XAlguns fatos sobre a proje¸˜o ca Para todo z ∈ Rn existe um x ∗ ∈ X unico que minimiza z − x ´ sobre todo x ∈ X . Este vetor ´ chamado proje¸˜o de z em X . e ca Usualmente denominamos x ∗ = [z]+ . Dado z ∈ Rn , x ∗ = [z]+ se e somente se (z − x ∗ )(x − x ∗ ) ≤ 0, ∀x ∈ X . No caso de X ser um subespa¸o, x ∗ ∈ X ´ a proje¸˜o de z em X se e c e ca somente se z − x ∗ for ortogonal a X , isto ´: (z − x ∗ )x = 0, ∀x ∈ X . e
  32. 32. Gradiente projetado Vamos supor que o nosso problema de otimiza¸˜o seja ca minimize f (x) Ax ≤ b Ex = e onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e X = {x ∈ Rn : Ax ≤ b, Ex = e}. e que disponhamos de um ponto vi´vel x k na fronteira do conjunto de a viabilidade X . Assuma ent˜o que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ], a 1 2 b ′ = [b1 , b2 ]. ′ ′ Suponha tamb´m que f seja diferenci´vel em x k . e aComo fazemos para projetar −∇f (x k ) na face de X ativa em x k ?
  33. 33. Resolvemos o seguinte Problema de Otimiza¸˜o Quadr´tica ca a minimize x − (−∇f (x k )) A 1 x = b1 A 2 x ≤ b2 Ex = ecuja solu¸˜o (obtida analiticamente) ´ x ∗ = −P∇f (x k ) onde a matriz P ca e(chamada de matriz de proje¸˜o) ´ dada por: ca e P = I − M ′ (MM ′ )−1 Me a matriz M corresponde ˜s linhas das restri¸˜es ativas em x k : a co M ′ = [A′ , E ′ ]. 1
  34. 34. Matrizes de Proje¸˜o caDefini¸˜o caAssuma que P ∈ Rn×n seja uma matriz quadrada de ordem n. P ´ echamada matriz de proje¸˜o se: ca P = P′ PP = PProposi¸˜o caSeja P uma matriz quadrada de ordem n. Ent˜o, o seguinte ´ verdadeiro: a e 1 Se P ´ uma matriz de proje¸˜o, ent˜o P ´ positiva semi definda. e ca a e 2 P ´ uma matriz de proje¸˜o se e somente se I − P ´ uma matriz de e ca e proje¸˜o. ca 3 Seja P uma matriz de proje¸˜o e Q = I − P. Ent˜o os subespa¸os ca a c lineares L = {Px : x ∈ Rn } e L⊥ = {Qx : x ∈ Rn } s˜o ortogonais. a Al´m disto, qualquer x ∈ Rn pode ser escrito como x = p + q onde e p ∈ L, q ∈ L⊥ , atrav´s de p, q unicos. e ´
  35. 35. Matrizes de Proje¸˜o caProva 1 Seja x ∈ Rn um vetor arbitr´rio. Ent˜o, se P ´ uma matriz de a a e proje¸˜o, x ′ Px = x ′ PPx = x ′ P ′ Px = Px 2 ≥ 0, logo P ´ positiva ca e semidefinida. 2 ´ Obvio. 3 Claramente L, L⊥ s˜o subespa¸os lineares. a c Uma vez que P ′ Q = P ′ (I − P) = P − P ′ P = 0, L, L⊥ s˜o de fato a ortogonais. (Unicidade) suponha que x = p ′ + q ′ e que x = p + q. Ent˜oa subtraindo a primeira da segunda temos p − p ′ = q p rime − q. Uma vez que L ∩ L⊥ = 0, p − p ′ = q ′ − q = 0 e a representa¸˜o ´ unica. ca e ´
  36. 36. Interpreta¸˜o ca Dado z ∈ Rn temos que (Pz)′ , (I − P)z = 0. Ou seja, a aplica¸˜o ca Pz projeta z no espa¸o ortogonal ao da aplica¸˜o Qz = (I − P)z. c ca Assim sendo podemos escrever que z ´ a soma direta de Pz e Qz ou e seja, z = Pz ⊕ Qz.
  37. 37. Gradiente Projetado - Problema com restri¸˜es lineares co minimize f (x) Ax ≤ b Ex = eonde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 eX = {x ∈ Rn : Ax ≤ b, Ex = e}.Id´ia central e Dado x k , se movemos na dire¸˜o −∇f (x k ), podemos perder ca viabilidade. Para preservar viabilidade, projetamos −∇f (x k ) na face ativa de X ativa (em rela¸˜o ` x k , usando uma matriz de proje¸˜o P adequada) ca a ca e nos movemos na dire¸˜o d k = −P∇f (x k ). ca
  38. 38. Caracteriza¸˜o de Dire¸˜es Vi´veis ca co aProposi¸˜o caConsidere o poliedro X = {x ∈ Rn : Ax ≤ b, Ex = e} que definimos.Suponha que x k ∈ X e queA1 x k = b1 , A2 x k < b2 , A′ = [A′ , A′ ], b ′ = [b1 , b2 ]. 1 2 ′ ′Ent˜o, um vetor d k ´ vi´vel em x k se e somente se A1 d k ≤ 0, Ed k = 0. a e a(A demonstra¸˜o ´ ´bvia). ca e o
  39. 39. Gradiente projetado - X ´ um poliedro eProposi¸˜o caConsidere o problema minx∈X definido acima. Assuma que x k seja umponto vi´vel tal que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ], a 1 2b ′ = [b1 , b2 ]. Suponha tamb´m, que f seja diferenci´vel em x k . Ent˜o: ′ ′ e a a 1 Se P ´ uma matriz de proje¸˜o tal que P∇f (x k ) = 0, ent˜o e ca a d k = −P∇f (x k ) ´ uma dire¸˜o de descida de f em x k . e ca 2 Al´m disto, se M ′ = [A1 , E ′ ] possui posto completo e se e ′ P =I −M ′ (MM ′ )−1 M, ent˜o d k ´ uma dire¸˜o de descida, vi´vel. a e ca a
  40. 40. Gradiente projetado - X ´ um poliedro eProva 1 (−P∇f (x k ) ´ dire¸˜o de descida) e ca Observe que: ∇f (x k )′ d k = −∇f (x k )′ P∇f (x k ) = −∇f (x k )′ P ′ P∇f (x k ) = − P∇f (x k ) < 0, uma vez que P ´ positiva e semi-definda e, pelo enunciado ∇f (x k )′ P = 0. Ent˜o d k ´ uma a e dire¸˜o de descida. ca 2 (−P∇f (x k ) ´ dire¸˜o vi´vel) e ca a Se M possui posto completo, (MM ′ ) ´ n˜o singular e ent˜o: e a a P = I − M ′ (MM ′ )−1 M MP = M − MM ′ (MM ′ )−1 M = M − IM = 0 Logo Md k = −MP∇f (x k ) = 0Se Md k = 0 temos A1 d k = 0, Ed k = 0 e d k ´ vi´vel. e a
  41. 41. Interpreta¸˜o Geom´trica do M´todo ca e e Uma vez que MP = 0 temos que A1 P = 0, EP = 0 e ent˜o a matriz a de proje¸˜o P projeta cada linha de A1 e de E no vetor nulo. ca Entretanto, as linhas de A1 e de E s˜o os gradientes das restri¸˜es a co ativas em x k , a matriz P ´ na verdade a matriz que projeta os e gradientes das restri¸˜es ativas em x k no vetor zero. co Assim sendo, P∇f (x k ) corresponde ` proje¸˜o de ∇f (x k ) no espa¸o a ca c nulo das restri¸˜es ativas. co Veja: MP∇f (x k ) = 0, logo, P∇f (x k ) ∈ N (M)
  42. 42. Teoria de Multiplicadores de LagrangeVamos considerar os problemas de otimiza¸˜o definidos por restri¸˜es de ca coigualdade: minimize f (x) hi (x) = 0 i = 1, . . . , monde f (x) : Rn → R, hi (x) : Rn → R, ∀i = 1, . . . , m s˜o func˜es a ocontinuamente diferenci´veis. aCondi¸˜es Necess´rias de Otimalidade co aO nosso principal resultado ´ o seguinte: se x ∗ ´ um ponto de m´ e e ınimolocal, ent˜o existem escalares λi : i = 1, . . . , m, denominados aMultiplicadores de Lagrange tais que vale a seguinte equa¸˜o vetorial: ca m ∗ ∇f (x ) + λi ∇hi (x ∗ ) = 0 i =1
  43. 43. Interpretando este resultado m ∗ ∇f (x ) + λi ∇hi (x ∗ ) = 0 i =1 O gradiente da fun¸˜o objetivo ∇f (x ∗ ) pertence ao subespa¸o gerado ca c pelo gradiente ∇hi (x ∗ ) das restri¸˜es ativas em x ∗ . coExemplomin x1 + x2 2 2 x1 + x2 = 2
  44. 44. Interpretando este resultadoDefini¸˜o caDefinimos o subespa¸o de vari¸˜es nulas de primeira ordem, isto ´, o c co esubespa¸o para o qual o vetor x = x ∗ + △x satisfaz as restri¸˜es h(x) = 0 c coat´ a primeira ordem, como: e V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m} Tome y ∈ V (x ∗ ); Uma vez que ∇f (x ∗ ) + m λi ∇hi (x ∗ ) = 0, temos que i =1 ∇f (x ∗ )′ y + m λi ∇hi (x ∗ )′ y = 0 e logo ∇f (x ∗ )′ y = 0. i =1 Ou seja, ∇f (x ∗ ) ⊥ V (x ∗ ). Ou seja, o gradiente de f em x ∗ ´ e ortogonal ao espa¸o das dire¸˜es vi´veis que geram varia¸˜o de c co a ca primeira ordem nula nas restri¸˜es. co Este resultado ´ an´lago ` condi¸˜o ∇f (x ∗ ) = 0 para Otimiza¸˜o e a a ca ca Irrestrita.
  45. 45. Formalizando e demonstrando o resultadoProposi¸˜o caSeja x ∗ um ponto de m´ ınimo local de f sujeito `s restri¸˜es h(x) = 0. a coAssuma que os gradientes ∇h1 (x), . . . , ∇hm (x) sejam li em x ∗ . 1 Ent˜o, existe λ∗ = (λ∗ , . . . , λ∗ )′ unico, tal que: a 1 m ´ m ∇f (x ∗ ) + λ∗ ∇hi (x ∗ ) = 0 i i =1 2 Se f e h forem duas vezes continuamente diferenci´veis, temos que a m y′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y ≥ 0, ∀y ∈ V (x ∗ ) onde i i =1 V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m} denota o subespa¸o de primeira ordem de varia¸˜es vi´veis de h. c co a
  46. 46. Um problema sem multiplicadores de LagrangeAntes de provar este resultado, vamos estudar este exemplo: minimize f (x) = x1 + x2 (6) 2 2 h1 (x) = (x1 − 1) + x2 −1 = 0 (7) 2 2 h2 (x) = (x1 − 2) + x2 −4 = 0 (8)Observe que o unico ponto vi´vel ´ (0, 0) e que neste ponto os gradientes ´ a ede h1 e h2 s˜o ld, n˜o permitindo escrever o gradiente de f em R2 . a a
  47. 47. Pontos regularesDefini¸˜o caDizemos que um ponto x ´ regular se ∇hi (x), . . . , ∇hm (x) s˜o linearmente e aindependentes em x. No exemplo anterior, o ponto ´timo n˜o ´ regular. o a e
  48. 48. Demonstra¸˜o do Teorema dos Multiplicadores de caLagrangeA prova se baseia na aplica¸˜o do m´todo de penalidades. Basicamente ca esuas id´ias centrais s˜o: e a Relaxamos as restri¸˜es do problema co Adicionamos estas restri¸˜es ` fun¸˜o objetivo do problema, co a ca multiplicando cada restri¸˜o por uma penalidade. ca Aplicamos as condi¸˜es necess´rias de primeira e segunda orgem ao co a problema relaxado e Tomamos o limite destas condi¸˜es, na medida em que as penalidades co crescem.
  49. 49. Prova - M´todo de Penalidades eFun¸˜o de custo penalizada ca k 2 α F k (x) = f (x) + h(x) + x − x ∗ 2 , k = 1, 2, . . . 2 2onde: x ∗ : ´ um m´ e ınimo local de f (x) : h(x) = 0. k 2 O termo 2 h(x) penaliza a viola¸˜o das restri¸˜es ca co α O termo 2 x− x∗ 2´ inserido para facilitar a prova, garantindo que e e ınimo local estrito de f (x) + α x − x ∗ 2 sujeito a h(x) = 0. x ∗ ´ um m´ 2
  50. 50. Prova - M´todo de Penalidades e Dado que x ∗ ´ um m´ e ınimo local do problema, ´ poss´ escolher e ıvel ǫ > 0 tal que f (x ∗ ) ≤ f (x), ∀x ∈ S onde S = {x : h(x) = 0; x − x ∗ ≤ ǫ}. Ent˜o vamos assumir que x k resolve o seguinte problema: a minimize F k (x) x ∈S Observe que este otimizador x k existe, uma vez que S ´ compacto. e Vamos mostrar agora que {x k } converge para x ∗ .
  51. 51. {x k } converge para x ∗ Para todo k temos: k α F k (x k ) = f (x k ) + 2 h(x) 2 + 2 xk − x∗ ≤ F k (x ∗ ) otimal. de x k = f (x ∗ ) j´ que h(x ∗ ) = 0 a Observe que f (x k ) ´ limitada em S. e Asssim sendo, o lado esquerdo da desigualdade acima precisa ficar limitado quando k → ∞ k 2 Para que isto ocorra, o termos 2 h(x) precisa assumir valor finito quando k → ∞. Logo, limk→∞ h(x) = 0. Ent˜o todo ponto limite x de {x k } satisfaz f (x) + α x − x ∗ ≤ f (x ∗ ). a 2 Uma vez que x, x ∗ ∈ S e x ´ vi´vel e pela otimalidade de x ∗ , isto ´ e a e f (x ∗ ) − f (x), x − x ∗ = 0. Logo x = x ∗ .
  52. 52. Observa¸˜es co Note que x k ´ um ponto interior a S para k suficientemente grande. e Por este motivo, a partir deste valor suficientemente grande de k, x k ´ um m´ e ınimo local do problema irrestrito que consiste em minimizar F k (x). Note tamb´m que j´ dispomos de um algoritmo para obter x. e a Vamos provar o Teorema dos Multiplicadores de Lagrange, aplicando as condi¸˜es necess´rias de primeira ordem (irrestritas) a F k (x) em co a xk.
  53. 53. Obtendo λ∗ Aplicando as CNPO a F k (x k ), temos: 0 = ∇F k (x k ) = ∇f (x k ) + k∇h(x k )h(x k ) + α(x k − x ∗ ) (9) Pelo enunciado, temos que ∇h(x ∗ ) possui posto completo, igual a m < n. Por continuidade, existe k suficientemente grande para o qual o posto de ∇h(x k ) tamb´m ´ m. Logo [∇h(x k )′ ∇h(x k )]−1 ´ n˜o e e e a singular. Pre multiplique (9) por [∇h(x k )′ ∇h(x k )]−1 e obtenha: kh(x k ) = −[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )′ ∇f (x k ) + α(x k − x ∗ ) Sabemos que k → ∞, x k → x ∗ e kh(x k ) converge para um valor finito. Denonine ent˜o por a λ∗ = [∇h(x ∗ )′ ∇h(x ∗ )]−1 ∇h(x ∗ )′ ∇f (x ∗ ) Tome o limite em (9) quando k → ∞ e obtenha: ∇f (x ∗ ) + ∇h(x ∗ )λ∗ = 0
  54. 54. Vamos agora provar as condi¸˜es de 2a. ordem co Aplicando as CNSO a F k (x k ) temos (diferenciando (9)) que a matriz: m 2 2 k k k k ∇ F (x ) = ∇ f (x )+ k∇h(x )∇h(x ) + k k ′ hi (x k )∇2 hi (x k )+ αI i =1 (10) ´ semi-positiva definida, para todo k suficientemente grande e α > 0. e Tome qualquer y ∈ V (x ∗ ) isto ´ y : ∇h(x ∗ )′ y = 0 e considere que y k e seja a proje¸˜o de y no espa¸o nulo de ∇h(x k )′ , isto ´: ca c e (I − P)y = y k = y − ∇h(x k )[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )y As condi¸˜es necess´rias de primeira ordem garantem que co a ∇h(x k )′ y k = 0 e como ∇2 F k (x k ) ´ semi-positiva definida, temos: e 0 ≤ (y k )′ ∇2 F k (x k )y k k )′ ∇2 f (x k ) + k m k 2 k k k 2 0 ≤ (y i =1 hi (x )∇ hi (x ) y + α y (11)
  55. 55. Condi¸˜es de 2a. ordem - continua¸˜o co ca Uma vez que: ◮ khi (x k ) → λi ◮ xk → x∗ ◮ ∇h(x ∗ )′ y = 0 temos que y k → y e ent˜o temos: a m 0 ≤ y ′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y + α y i 2 (12) i =1 Uma vez que α > 0 pode ser arbitrariamente pequeno, temos: m 0 ≤ y′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y , ∀y ∈ V (x ∗ ) i (13) i =1 e a prova est´ completa. a
  56. 56. A Fun¸˜o Lagrangeana caDefini¸˜o caConsidere a fun¸˜o Lagrangeana L : Rn+m → R definida como: ca m L(x, λ) := f (x) + λi hi (x). i =1Observe que as condi¸˜es necess´rias de Primeira Ordem, de Viabilidade co aPrimal (hi (x) = 0, ∀i = 1, . . . , m) e as condi¸˜es necess´rias de segunda co aordem podem ser escritas em termos de L(x, λ) como: m ∇x L(x ∗ , λ∗ ) = 0 ⇔ ∇f (x ∗ ) + ∗ ∗ i =1 λi ∇hi (x ) =0 ∇λ L(x ∗ , λ∗ ) = 0 ⇔ hi (x) = 0, ∀i = 1, . . . , m (viabilidade) y ′ ∇2 L(x ∗ , λ∗ )y xx ≥ 0, ∀y ∈ V (x ∗ ) ⇔ m y ′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y i i =1
  57. 57. A fun¸˜o Lagrangena ca m L(x, λ) := f (x) + λi hi (x). i =1Todo m´ınimo local regular deve ent˜o satisfazer o sistema de equa¸˜es em a con + m vari´veis dado por: a ∇x L(x ∗ , λ∗ ) = 0 ∇λ L(x ∗ , λ∗ ) = 0Cabe salientar que nem todo ponto que satisfizer o sistema acima ´ um eponto de m´ınimo (recorde nossa experiˆncia com Otimiza¸˜o Irrestrita). e caUm ponto de m´ximo pode tamb´m satisfazer o sistema acima. a e
  58. 58. Fun¸˜o Lagrangeana - Exemplo ca 1 2 2 2 minimize x + x2 + x3 2 1 x1 + x2 + x3 = 3 Consideremos o vetor (x ∗ , λ∗ ) = (1, 1, 1, −1)′ Observe que ∇h(x ∗ ) = (1, 1, 1)′ (´ li), logo o ponto ´ regular. e e Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (1, 1, 1) − 1(1, 1, 1) = 0, logo as condi¸˜es necess´rias de primeira ordem s˜o satisfeitas. co a a Uma vez que ∇2 f (x ∗ ) = diag(1) e ∇2 h(x) = 03×3 , temos que x ′ ∇2 f (x ∗ )x > 0, ∀x ∈ Rn , em particular para y ∈ V (x ∗ ). Portanto x ∗ ´ um m´ e ınimo global para o problema.
  59. 59. Interpreta¸˜o do uso da Fun¸˜o Langeana ca ca Criamos a fun¸˜o Lagrangeana para obter um modelo irrestrito, cujo ca objetivo coincide com o objetivo do problema original para qualquer solu¸˜o vi´vel. ca a Para qualquer valor dos multiplicadores λi , um ´timo x ∗ do problema o relaxado deve ser um ponto estacion´rio de L(·, λ). Esta ´ a condi¸˜o a e ca associada a ∇x L(x ∗ , λ∗ ) = 0. Impor as condi¸˜es ∇λ L(x ∗ , λ∗ ) implica em restringir os pontos co a ıveis de L(x ∗ , λ∗ ) `queles que satisfazem as estacion´rios admiss´ a restri¸˜es do problema original. co Assim sendo, se um ponto x ∗ satisfizer as condi¸˜es de ponto co estacion´rio (em x, λ) para o problema relaxado com multiplicadores a fixados em λ∗ , ele deve ser vi´vel e L(x ∗ , λ∗ ) = f (x ∗ ). a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  60. 60. Fun¸˜o Lagrangeana - Exemplo ca 1 2 2 2 minimize − x + x2 + x3 2 1 x1 + x2 + x3 = 3 Este problema admite m´ ınimo ? Consideremos agora o vetor (x ∗ , λ∗ ) = (1, 1, 1, 1)′ ∇h(x ∗ ) = (1, 1, 1)′ e o ponto ´ regular. e Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (−1, −1, −1) + (1, 1, 1) = 0, logo as condi¸˜es necess´rias de primeira ordem s˜o satisfeitas. co a a Uma vez que ∇2 f (x ∗ ) = diag(−1) e ∇2 h(x) = 03×3 , as condi¸˜es co necess´rias de segunda ordem n˜o s˜o satisfeitas. a a a O conjunto X n˜o ´ compacto. a e
  61. 61. Condi¸˜es Suficientes de Otimalidade coProposi¸˜o - Prop 3.2.1 ca(Condi¸˜es Suficientes de Otimalidade) coAssuma que f e h sejam fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn e co aλ∈R m satisfazendo: 1 ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0 2 y ′ ∇2 L(x ∗ , λ∗ )y > 0 para todo y = 0, ∇h(x ∗ )′ y = 0. xxEnt˜o: a x ∗ ´ um m´ e ınimo local estrito de f sujeito a h(x) = 0. De fato, existem γ > 0 e ǫ > 0 tais que: f (x) ≥ f (x ∗ ) + γ ||x − x ∗ ||2 2 para qualquer x : h(x) = 0 e ||x − x ∗ || ≤ ǫ. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  62. 62. Exemplo min −(x1 x2 + x1 x3 + x2 x3 ) x1 + x2 + x3 = 3Fun¸˜o Lagrangeana caL(x, λ) = −(x1 x2 + x1 x3 + x2 x3 ) + λ(x1 + x2 + x3 − 3)CNPO: ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0 que implica em: −x2 − x3 + λ∗ = 0 ∗ ∗ −x1 − x3 + λ∗ = 0 ∗ ∗ −x1 − x2 + λ∗ = 0 ∗ ∗ ∗ ∗ ∗ x1 + x2 + x3 = 0cuja solu¸˜o unica ´ (x ∗ , λ∗ ) = (1, 1, 1, 2) ca ´ e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  63. 63. Exemplo - continuaCondi¸˜es Suficientes de Otimalidade: co   0 −1 −1 2 ∇xx L(x ∗ , λ∗ ) =  −1 0 −1  −1 −1 0Observa¸˜es: co ∇2 L(x ∗ , λ∗ ) ´ semi-positiva definida. xx e Entretanto, para os vetores y : ∇h(x ∗ )′ y = 0 temos: ◮ y : ∇h(x ∗ )′ y = 0 → y1 + y2 + y3 = 0. ◮ y ′ ∇2 L(x ∗ , λ∗ )y = −y1 (y2 + y3 ) − y2 (y1 + y3 ) − y3 (y1 + y2 ) = xx 2 2 2 y1 + y2 + y3 > 0. 2 Logo, para os y : ∇h(x ∗ )′ y = 0, ∇xx L(x ∗ , λ∗ ) ´ positiva definida e as e condi¸˜es de segunda ordem s˜o verificadas. co a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  64. 64. Demonstra¸˜o das Condi¸˜es Suficientes de Otimalidade ca co O entendimento da demonstra¸˜o da suficiˆncia destas condi¸˜es ´ ca e co e fundamental para entender porque os m´todos que iremos estudar e funcionam. Vamos usar uma fun¸˜o denominada Fun¸˜o Lagrangeana ca ca Aumentada que nada mais ´ que a Fun¸˜o Lagrangena de um e ca Problema de Otimiza¸˜o similar ao problema original, modificado ca apenas pela sua fun¸˜o objetivo, que passa a incorporar uma ca penalidade pela viola¸˜o das restri¸˜es h(x) = 0. ca co Antes de demonstrar as condi¸˜es suficientes, precisamos de alguns co resultados auxiliares. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  65. 65. Alguns resultados auxiliaresTeorema de Bolzano-WeierstrassToda sequˆncia limitada no conjunto Rn possui uma subsequˆncia e econvergente.N˜o negatividade de A′ A aSeja A uma matriz m × n. Ent˜o a matriz sim´trica A′ A ´ uma matriz a e epositiva semidefinida.Lema AuxiliarSejam P e Q duas matrizes sim´tricas. Assuma que Q seja semi-positiva edefinida e que P ´ positiva definida no espa¸o nulo de Q. Isto ´, x ′ Px > 0 e c epara qualquer x : Qx = 0 ou, equivalentemente x : x ′ Qx = 0. Ent˜o existe aum escalar c tal que P + cQ ´ positiva definida para qualquer c > c. e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  66. 66. Demonstra¸˜o do Lema Auxiliar caId´ia da prova: vamos assumir o contr´rio e obter uma contradi¸˜o. e a ca Assuma ent˜o que o resultado enunciado n˜o vale. Ent˜o, para a a a qualquer inteiro k, existe um vetor x k , ||x K || = 1 tal que: (x k )′ Px k + k(x k )′ Qx k ≤ 0 Uma vez que ||x k || = 1, a sequˆncia {x k } ´ limitada e pelo Teorema e e de Bolzano-Weierstrass, existe uma subsequˆncia {x k }k∈K que e converge para algum vetor x. Tomando o limite supremo da desigualdade acima temos: lim (x k )′ Px k + k(x k )′ Qx k ≤0 → k→∞,k∈K x ′ Px + lim k(x k )′ Qx k ≤0 k→∞,k∈K Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  67. 67. Demonstra¸˜o do Lema auxiliar - continua ca x ′ Px + lim k(x k )′ Qx k ≤0 k→∞,k∈K Para que o lado esquerdo seja limitado superiormente (≤ 0), temos que ter k(x k )′ Qx k → 0. Uma vez que a matriz Q ´ n˜o negativa e k → ∞, isto s´ ocorre se e a o (x k )Qx k → 0. Logo limk→∞,i ∈K (x k )′ Qx k = x ′ Qx = 0 e consequentemente x ′ Px ≤ 0. Portanto, x ´ tal que Qx = 0 (x pertence ao nulo de Q). e Logo x ′ Px > 0 (pelo pr´prio teorema) e temos uma contradi¸˜o ! o ca Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  68. 68. O M´todo do Lagrangeano Aumentado eFun¸˜o Lagrangeana Aumentada ca c Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 2onde c ´ um escalar positivo. eObserve que: A fun¸˜o Lc (x, λ) corresponde ` fun¸˜o Lagrangeana para o seguinte ca a ca problema: c min f (x) + ||h(x)||2 2 h(x) = 0 Minimizar este problema equivale a minimizar f (x) : h(x) = 0. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  69. 69. Avaliando Lc (x, λ) e suas derivadas c Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 2Primeira derivada de Lc em rela¸˜o a x ca m m ∇x Lc (x, λ) = ∇f (x) + i =1 λi ∇hi (x) +c i =1 hi (x)∇hi (x)Segunda derivada de Lc em rela¸˜o a x ca ∇2 Lc (x, λ) = xx m m 2 2 ∇ f (x) + λi ∇ hi (x) + c hi (x)∇2 hi (x) + c∇h(x)∇h(x)′ i =1 i =1 Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  70. 70. Impondo as condi¸˜es necess´rias para x ∗, λ∗ co aSe x ∗ , λ∗ satisfizerem as condi¸˜es necess´rias de 1a. ordem: co a m m ∇x Lc (x ∗ , λ∗ ) = ∇f (x ∗ ) + λi ∇hi (x ∗ ) + c hi (x ∗ )∇hi (x ∗ ) i =1 i =1 m = ∇f (x ∗ ) + λi ∇hi (x ∗ ) = ∇x L(x ∗ , λ∗ ) = 0 i =1 ∇2 Lc (x ∗ , λ∗ ) = xx m m ∇2 f (x ∗ ) + λi ∇2 hi (x ∗ ) + c hi (x ∗ )∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ = i =1 i =1 m ∇2 f (x ∗ ) + λi ∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ = i =1 ∇2 L(x ∗ , λ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ xx Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  71. 71. Se as condi¸˜es suficientes de 2a. ordem forem impostas coVamos assumir que (condi¸˜es suficientes descritas no Teorema) para coqualquer y ∈ Rm : ∇h(x ∗ )′ y = 0 (ou y ′ ∇h(x ∗ )∇h(x ∗ )′ y = 0) tenhamos: y ′ ∇2 L(x ∗ , λ∗ ) y > 0 xxObserve que: Aplicando o Lema Auxiliar, fazendo P = ∇2 L(x ∗ , λ∗ ) e xx Q = ∇h(x ∗ )∇h(x ∗ )′ (esta matriz ´ semipositiva definida), existe c e tal que ∇xx Lc (x ∗ , λ∗ ) ´ postivida definida. e Usando as condi¸˜es suficientes de otimalidade para otimiza¸˜o co ca irrestrita, conclu´ ∗ ´ um ´timo local irrestrito ımos que para c > c, x e o de Lc (·, λ∗ ). Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  72. 72. Se as condi¸˜es suficientes de 2a. ordem forem impostas co Ent˜o x ∗ ´ um ´timo local para Lc (·, λ∗ ) a e o Em particular, existem γ > 0 e ǫ > 0 tais que γ Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) + ||x − x ∗ ||2 , ||x − x ∗ || < ǫ 2 Observe que para todo x vi´vel (h(x) = 0) temos Lc (x, λ∗ ) = f (x) e a ∇λ L(x ∗ , λ∗ ) = h(x ∗ ) = 0 Finalmente, temos que: γ γ f (x) = Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ )+ ||x−x ∗ ||2 = f (x ∗ )+ ||x−x ∗ ||2 ≥ f (x ∗ ) 2 2 para qualquer x : h(x) = 0 e ||x − x ∗ || < ǫ e a prova est´ completa ! a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  73. 73. M´todos de Penalidade e Lagrangeano Aumentado e min f (x) h(x) = 0 x ∈XVamos considerar o caso onde X = Rn . Vamos criar a fun¸˜o Lagrangena Aumentada associada ao Programa ca acima, para c > 0 c Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 . 2 Observe que o parˆmetro c controla a severidade da penaliza¸˜o da a ca viola¸˜o das restri¸˜es. ca co Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  74. 74. Usando Lc (x, λ) em algoritmosDois mecanismos s˜o normalmente usados para, atrav´s da minimiza¸˜o a e cairrestrita de Lc (·, λ) fornecer pontos pr´ximos a x ∗ , um minimizador o(local) de f (x) : h(x) = 0. 1 Fazemos λ = λ∗ . Conforme mostramos, se c ´ maior que um valor c, e ent˜o existem γ > 0, ǫ > 0 tais que: a γ Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) + ||x − x ∗ ||2 , ∀x : ||x − x ∗ || < ǫ 2 Este resultado sugere que se λ ≈ λ∗ , uma razo´vel aproxima¸˜o de x ∗ a ca deve ser obtida via minimiza¸˜o irrestrita de Lc (· · · , λ). ca 2 Tomamos um valor bastante alto de c. Nestes casos, o custo da inviabilidade ´ elevado e ent˜o o m´ e a ınimo irrestrito de Lc (·, λ) deve ser quase vi´vel. Uma vez que Lc (x, λ) = f (x) para todo x vi´vel, a a devemos esperar Lc (x, λ) ≈ f (x) para x pr´ximo da viabilidade. o Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  75. 75. Exemplo - abordagem 1 1 2 2 onde o vetor primal-dual ´timo ´ o e min x + x2 ∗ , λ∗ ) = (1, 0, −1). 2 1 dado por (x x1 = 1 1 Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 , para c > 0. 2 2 2 Impondo ∇x Lc (x, λ) = 0, o m´ ınimo irrestrito possui coordenadas: ◮ x1 (c, λ) = c−λ . Logo para c > 0, temos c+1 limλ→λ∗ x1 (λ, c) = x1 (−1, c) = 1. Logo limλ→λ∗ x2 (λ, c) = 0 ◮ x2 (λ, c) = 0.
  76. 76. Exemplo - abordagem 2 pura 1Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 . 2 2 2 x1 (c, λ) = c−λ . Logo limc→∞ c−λ = 1 = x1 c+1 c+1 ∗ ∗ x2 (c, λ) = 0. Logo limc→∞ x2 (c, λ) = 0 = x2 . Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  77. 77. M´todo de Penalidade Quadr´tica e aConsiste em resolver uma sequˆncia de Problemas: e m ck m min Lc k (x, λk ) = f (x) + k i =1 λi hi (x) + 2 i =1 hi (x) 2 x ∈Xonde {λk } ´ uma sequˆncia em Rm e {c k } ´ uma sequˆncia de e e e epenalidades positivas. Na vers˜o original do m´todo (d´cada de 1960), os multiplicadores a e e n˜o eram aproximados; os multiplicadores eram fixados em zero. A a id´ia de aproxim´-los veio mais tarde. e a Vamos permitir que os multiplicadores sejam multiplicados, sem no momento definir como isto ocorrer´. a Para sua validade, o m´todo depende de incrementar c k para ∞. e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  78. 78. M´todo Penalidades Quadr´ticas - Principal Resultado e aProposi¸˜o caAssuma que f , h s˜o fun¸˜es cont´ a co ınuas, que X ´ um conjunto fechado e eque o conjunto {x ∈ X : h(x) = 0} ´ n˜o vazio. Para k = 0, 1, . . . ,, seja e ax k um m´ ınimo global do problema min Lc k (x, λk ) x ∈ X,onde {λk } ´ limitada, 0 < c k < c k+1 , ∀k e c k → ∞. eEnt˜o todo ponto limite da sequˆncia {x k } ´ um m´ a e e ınimo global doproblema ofiginal. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  79. 79. Observa¸˜es co O resultado assume que o m´ ınimo global irretristo ´ obtido de forma e exata. Entretanto, os m´todos de otimiza¸˜o irrestrita s˜o terminados e ca a quando ||∇x Lc (x k , λk )|| ≤ ǫk , onde ǫk ´ um pequeno escalar. eProposi¸˜o caAssuma que f , h sejam fun¸˜es diferenci´veis e que X = Rn . Para co ak = 0, 1, . . . , assuma que x k satisfa¸a ||∇x Lc (x k , λk )|| ≤ ǫk , onde {λk } ´ c elimitada e {ǫk }, {c k } satisfazem: 0 < c k < c k+1 , ∀k, c k → ∞ 0 ≥ ǫk , ∀k, ǫk → 0.Assuma que a subsequˆncia {x k }K convirja para o vetor x ∗ tal que e∇h(x ∗ ) possua posto m. Ent˜o: {λk + c k h(x k )}K → λ∗ , onde λ∗ em aconjunto com x ∗ satisfazem as condi¸˜es necess´rias de primeira ordem: co a ∇f (x ∗ ) + ∇h(x ∗ )′ λ∗ = 0, h(x ∗ ) = 0. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  80. 80. Exemplo min x3 x +1=0 L(x, λ) = x 3 + λ(x + 1) c Lc (x, λ, c) = L(x, λ) + (x + 1)2 2 ∇x L(x ∗ , λ∗ ) = 0 → 3(x ∗ )2 + λ∗ = 0 ∇λ L(x ∗ , λ∗ ) = 0 → x ∗ = −1, λ∗ = −3 Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  81. 81. Exemplo - continuaNa Figura abaixo, indicamos f (x), L(x, λ∗ ), Lc (x, λ∗ ) para c = 9. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  82. 82. Penalidades Quadr´ticas - desempenho na pr´tica a aTemos trˆs possibilidades: e 1 O m´todo n˜o funciona porque n˜o conseguimos satisfazer e a a ||∇x Lc (x k , λk )|| ≤ ǫk . Isto normalmente ocorre quando Lc (·, λk ) ´ e ilimitada inferiormente. 2 Conseguimos satisfazer ||∇ L (x k , λk )|| ≤ ǫk , e k → 0, mas a x c sequˆncia {x k } converge para um ponto n˜o regular, ou n˜o converge. e a a Isto normalmente ocorre quando o problema original ´ invi´vel. e a 3 {x k } converge para um ponto vi´vel regular. Este ´ o caso mais a e comum. Pode tamb´m ocorrer que {x k } convirja para um ponto e vi´vel n˜o regular, indicando que neste caso n˜o existem os a a a multiplicadores associados a x ∗ e a sequˆncia {λk + c k h(x k )} diverge e e n˜o possui ponto limite. aA experiˆncia sugere que, normalmente, ´ bastante confi´vel e que, no e e am´ınimo, converge para um m´ ınimo local do problema. O seu fracasso ´ enorlmalmente associado ao malcondiconamento de min Lc (·, λk ), x ∈ Xquando c k → ∞. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  83. 83. Penalidades Quadr´ticas: malcondicionamento a 1 2 2 min x + x2 2 1 x1 = 1 1 2 c Lc (x, λ) = x + x2 + λ(x1 − 1) + (x1 − 1)2 2 2 1 2 1 1+c 0 ∇2 Lc (x, λ) = I + c xx 1 0 = 0 0 1 2Autovalores de ∇xx Lc (x, λ) : 1 + c e 1. Quando c → ∞, o problematorna-se malcondicionado. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  84. 84. Modifica¸˜es no M´todo de Penalidades Quadr´ticas co e a A cada itera¸˜o k + 1, fazemos λk+1 ← λk + c k h(x k ), como uma ca melhor aproxima¸˜o para o vetor de multiplicadores ´timo. Ent˜o ca o a minimizamos Lc (·, λk+1 ). O m´todo baseado nesta aproxima¸˜o de e ca multiplicadores ´ chamado de M´todo dos Multiplicadores. e e Para evitar o malcondicionamento, recomenda-se empregar o M´todo e de Newton para minimizar Lc (·, λk ). Al´m disto, ´ usual empregar x k como ponto de partida para a e e minimiza¸˜o irrestrita de Lc (·, λk+1 ). ca A vantagem do uso combinado destas id´ias ´ poder empregar, em e e virtude de uma melhor aproxima¸˜o de λ∗ , uma taxa menor de ca crescimento da penalidade c k . Assim sendo, h´ uma tendˆncia do a e problema ser menos malcondicionado. Se c k aumenta muito rapidamente, a sequˆncia {x k } tende a e convergir mais rapidamente, mas o problema de malcondicionamento deve ser mais evidente. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  85. 85. Restri¸˜es de Desigualdades co (P) min f (x) hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , r Dado x vi´vel, vamos designar por A(x) = {j : g (x) = 0} o conjunto a dos ´ ındices de restri¸˜es de desigualdades que s˜o justas para x. co a Vamos assumir que x ∗ seja um m´ ınimo local para (P). Neste caso, x ∗ tamb´m deve ser um m´ e ınimo local para o programa abaixo: (PE) min f (x) hi (x) = 0 i = 1, . . . , m gj (x) = 0 j ∈ A(x ∗ ) no qual as restri¸˜es de desigualdades folgadas em x ∗ (j ∈ A(x ∗ )) co foram eliminadas. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  86. 86. Analogia Esta observa¸˜o nos leva a crer que se x ∗ for um ponto regular para o ca programa (PE), deve haver multiplicadores λ∗ : i = 1, . . . , m e i µj : j ∈ A(x ∗ ) tais que as CNPO sejam atendidas: m ∇f (x ∗ ) + λi ∇hi (x ∗ ) + µj gj (x ∗ ) = 0 i =1 j∈A(x ∗ ) Atribuindo multiplicadores nulos para as restri¸˜es gj (·) tais que co j ∈ A(x ∗ ) temos: m ∇f (x ∗ ) + ∗ i =1 λi ∇hi (x ) + r µj gj (x ∗ ) = 0 j=1 µj = 0, j ∈ A(x ∗ ) Um fato importante sobre os multiplicadores associados a gj (·): devem ser n˜o negativos. Observe que se a restri¸˜o gj (x) ≤ 0 for a ca relaxada para g( x) ≤ µj para µj > 0, o custo ´timo de P deve o diminuir. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  87. 87. Generalizando o conceito de ponto regularDefini¸˜o caUm vetor vi´vel x ´ dito regular se: a e os gradientes das restri¸˜es de igualdade ∇hi (x) : i = 1, . . . , m e os co gradientes das restri¸˜es de desigualdades ativas em x, co ∇gj (x) : j ∈ A(x) s˜o linearmente independentes. a Tamb´m dizemos que x ´ regular no caso em que n˜o h´ restri¸˜es de e e a a co igualdade e todas as restri¸˜es de desigualdade s˜o inativas em x. co a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  88. 88. Condi¸˜es de Karush-Kuhn-Tucker coTeorema - Condi¸˜es de Karush-Kuhn-Tucker (KKT) coSeja x ∗ um m´ ınimo local regular para (P) min f (x) hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , ronde f , hi , gj : Rn → R, ∀i , j s˜o fun¸˜es continuamente diferenci´veis. a co aEnt˜o existem multiplicadores de Lagrange unicos λ∗ e µ∗ tais que: a ´ ∇x L(x ∗ , λ∗ , µ∗ ) = 0 µ∗ ≥ 0 j j = 1, . . . , r (14) µj ∗ =0 j ∈ A(x ∗ )Se em adi¸˜o a isto, tivermos f , hi , gj ∈ C 2 , ∀i , j ent˜o: ca a y ′ ∇2 L(x ∗ , λ∗ , µ∗ )y ≥ 0 ∀y ∈ Rm : xx ∇hi (x)′y = 0 (15) ∇gj (x)′ y = 0, j ∈ A(x ∗ ).
  89. 89. Exemplo 1 2 2 2 min (x + x2 + x3 ) 2 1 x1 + x2 + x3 ≤ −3 1 2 2 2 L(x, µ) = (x1 + x2 + x3 ) + µ(x1 + x2 + x3 + 3) 2 Das CNPO, temos ∇Lx (x ∗ , λ∗ ) = 0 → xi∗ + µ∗ = 0, i = 1, 2, 3 Precisamos avaliar dois casos: ◮ A restri¸˜o ˜ folgada e ent˜o µ∗ = 0. Neste caso x1 = x2 = x3 = 0, ca e a ∗ ∗ ∗ violando a restri¸˜o do problema. Logo a restri¸˜o n˜o ´ folgada. ca ca a e ◮ A restri¸˜o ´ justa. Observe ent˜o que x1 + x2 + x3 = −3 equivale a ca e a ∗ ∗ ∗ impor tamb´m que (CNPO) ∇µ L(x , µ ) = 0. e ∗ ∗ Assim sendo, temos x1 = x2 = x3 = −1 e µ∗ = 1 ∗ ∗ ∗ Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  90. 90. Exemplo - continua Analisando as condi¸˜es de KKT de segunda ordem: co ′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer y xx y : ∇h(x ∗ )y = 0, ∇gj (x ∗ )y = 0, j ∈ A(x ∗ ). Como n˜o h´ restri¸˜es de igualdade, temos que a condi¸˜o torna-se a a co ca ′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer y ∈ R3 : y + y + y = 0. y xx 1 2 3 2 Entretanto, como ∇xx L(x ∗ , µ∗ ) = diag(1) ´ positiva definida, para e qualquer y (em particular satisfazendo y1 + y2 + y3 = 0) a condi¸˜o ca necess´ria de segunda ordem ´ atendida. a e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  91. 91. Condi¸˜es Suficientes de Segunda Ordem coProposi¸˜o caCondi¸˜es Suficientes de Segunda Ordem Assuma que f , g , h sejam cofun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn , λ∗ ∈ Rm , µ∗ ∈ Rr co asatisfazendo: ∇x L(x ∗ , λ∗ , µ∗ ) = 0 h(x ∗ ) = 0 g (x ∗ ) ≤ 0 µ∗ ≥ 0 j j = 1, . . . , r µ∗ = 0 j j ∈ A(x ∗ ) y ′ ∇xx L(x ∗ , λ∗ , µ∗ )y > 0 para todo y satisfazendo: ∇hi (x ∗ )′ y = 0, ∀i = 1, . . . , m e ∇gj (x ∗ )′ y = 0, ∀j ∈ A(x ∗ ).Assuma tamb´m que µ∗ > 0 para qualquer j ∈ A(x ∗ ). e j ∗ ´ um m´Ent˜o x e a ınino local de f (x) restrito a h(x) = 0, g (x) ≤ 0. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  92. 92. M´todo da Barreira eVamos considerar o Problema min f (x) gj (x) ≤ 0 j = 1, . . . , r x ∈Xe definir o interior (relativo a X ) do conjunto de viabilidade comoS = {x ∈ X : gj (x) < 0, ∀j = 1, . . . , r }.Assumimos que: S = ∅. Qualquer ponto vi´vel y ∈ S pode ser aproximado t˜o proximamente a a quanto se queira por um ponto em x ∈ S. Isto ´, para qualquer δ > 0 ˆ e existe x ∈ S tal que x − y ≤ δ. ˆ ˆ Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  93. 93. Id´ias centrais do m´todo e e Vamos acrescentar uma fun¸˜o de custo B(x), denominada fun¸˜o ca ca barreira ` fun¸˜o objetivo, definida exclusivamente em S e vamos a ca resolver uma sequˆncia de problemas, satisfazendo e 0 < ǫk+1 < ǫk , k = 0, 1, . . . , ǫk → 0 na medida em que k → ∞: min f (x) + ǫk B(x) x ∈S A fun¸˜o barreira deve ser cont´ ca ınua e na medida em que x tenda para a fronteira do conjunto, B(x) deve tender a ∞. Isto ´, B(x) deve ter e uma descontinuidade na fronteira do conjunto de viabilidade. Fun¸˜es barreira usuais: co r 1 B(x) = − ln{−gj (x)} j=1 r 1 2 B(x) = − gj (x) j=1 Sendo gj (x) convexas, as fun¸˜es acima tamb´m o s˜o. co e a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  94. 94. Id´ias centrais do m´todo e eSeja x k a solu¸˜o de: ca (P k ) min f (x) + ǫk B(x) x ∈ S. A sequˆncia {x k } pertence a S. e Na medida em que k → ∞ e por consequˆncia ǫk → 0, a contribui¸˜o e ca do termo barreira, ǫk B(x), deve tender a zero, para todo ponto x ∈ S. Assim sendo, com a evolu¸˜o das itera¸˜es, pontos pr´ximos a ca co o fronteira ter˜o sua componente de custo decorrente do termo de a barreira minorado, como deveria ser, caso o ´timo esteja na fronteira. o Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  95. 95. Principal resultado te´rico oProposi¸˜o caTodo ponto limite da sequˆncia {x k } gerada pelo M´todo da Barreira ´ e e eum ponto de m´ınimo global do problema original.Observa¸˜es: co ıcito que o problema ´ convexo ou que x k ´ um ´timo global Est´ impl´ a e e o do problema P k . Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  96. 96. Exemplo 1 2 2min f (x) = (x + x2 ) Solu¸˜o ´tima: x ∗ = (2, 0). ca o 2 1 2 ≤ x1 Assumindo a fun¸˜o barreira logaritmica, B(x) = −ln(x1 − 2), ca impondo as CNPQ ao problema P k temos: 1 2 2 x k ∈ arg minx1 >2 (x + x2 ) − ǫk ln(x1 − 2) = 1+ 1 + ǫk , 0 2 1 k limǫk →0 x1 = 2 Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  97. 97. Exemplo - continua 1 2 2 min (x + x2 ) − ǫk ln(x1 − 2) : x1 > 2 2 1Curvas de n´ para P k : ǫ = 0.3 (esquerda) e ǫ = 0.03 (direita). ıvel Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co

×