Programa¸˜o N˜o Linear com Restri¸˜es
        ca a                     co

            Alexandre Salles da Cunha


            DCC-UFMG, Mar¸o 2010
                         c




     Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                         ca   a                   co
Defini¸˜o do Problema
     ca


Problema de Otimiza¸˜o sobre um conjunto convexo
                   ca

                        minimize   f (x)                          (1)
                                      x ∈X                        (2)

    Vamos assumir que X = ∅ ´ um conjunto convexo.
                                e
    O conjunto X ´ normalmente definido por um conjunto de restri¸˜es
                   e                                            co
    n˜o lineares h(x) = 0 e g (x) ≤ 0, onde:
     a
      ◮   h : Rn → Rm
      ◮   g : Rn → Rp
    Assumimos que f ∈ C 2 : Rn → R.
Algumas observa¸˜es preliminares
               co



   Se f for convexa sobre X , o Problema de Otimiza¸˜o ´ Convexo e
                                                   ca e
   qualquer ´timo local do problema ´ um ´timo global.
             o                       e    o

   Assim como no Problema de Otimiza¸˜o Irrestrita, no Problema de
                                          ca
   Otimiza¸˜o com restri¸˜es, esperamos que, em um ponto candidato a
           ca              co
   m´ınimo x ∗ , a varia¸˜o de primeira ordem (∇f (x ∗ ))′ △x ≥ 0 seja
                        ca
   verificada para qualquer dire¸˜o △x vi´vel.
                                  ca       a

   Este problema generaliza o Problema de Programa¸˜o N˜o-Linear
                                                  ca   a
   Irrestrito.
Panorama dos M´todos que iremos discutir neste curso
              e

   M´todos Primais:
    e
     ◮   M´todo de Dire¸oes Vi´veis
           e             c˜      a
     ◮   M´todo do Gradiente Projetado
           e
     ◮   Particularmente adequados quando o dom´ ´ um poliedro e a fun¸˜o
                                                  ınio e                     ca
         objetivo ´ n˜o linear, ou quando obter uma dire¸˜o vi´vel ou projetar
                  e a                                    ca   a
         sobre o conjunto forem f´ceis de serem resolvidas.
                                   a


   M´todos baseados em Multiplicadores de Lagrange:
    e
     ◮   Penalidades
     ◮   Barreiras
     ◮   Transformam o problema com restri¸oes em uma s´rie de problemas
                                             c˜              e
         irrestritos, envolvendo uma alta penalidade pela viola¸˜o das restri¸oes.
                                                               ca            c˜
         A solu¸˜o destes problemas irrestritos fornece, assintoticamente, a
                 ca
         solu¸˜o do problema original.
              ca



                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Condi¸˜es de Otimalidade
     co

Proposi¸˜o
       ca
Seja x ∗ um m´
             ınimo local de f em um conjunto convexo X . Ent˜o:
                                                            a
  1   ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X
  2   Se f for convexa sobre X , ent˜o a condi¸˜o acima ´ uma condi¸˜o
                                    a         ca        e          ca
      suficiente para x ∗ minimizar f em X .



Prova
Parte 1 Suponha ∇f (x ∗ )′ (x − x ∗ ) < 0, para algum x ∈ X . Pelo Teorema
do Valor Central, temos que para todo ǫ > 0, existe s ∈ [0, 1] tal que:

        f (x ∗ + ǫ(x − x ∗ )) = f (x ∗ ) + ǫ∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ )

Pela continuidade de f , temos que para ǫ > 0 suficientemente pequeno,
∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ ) < 0 e ent˜o f (x ∗ + ǫ(x − x ∗ )) < f (x ∗ ).
                                             a
Como o conjunto X ´ convexo, temos que x ∗ + ǫ(x − x ∗ ) ´ vi´vel para
                       e                                          e a
todo ǫ ∈ [0, 1] e ent˜o contradizemos a otimalidade de x
                      a                                        ∗.
Condi¸˜es de Otimalidade
     co



Prova
Parte 2
    Pela convexidade de f em X temos:

                  f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ), ∀x ∈ X

    Pela parte 1 j´ demonstrada temos que ∇f (x ∗ )(x − x ∗ ) ≥ 0
                  a

             f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ) ≥ f (x ∗ ), ∀x ∈ X ,

    e o resultado segue.
Ponto estacion´rio
              a



Defini¸˜o
     ca
Um ponto x ∗ que satisfaz a condi¸˜o
                                 ca

                     ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X

´ denominado ponto estacion´rio.
e                          a

    Observe que se x ∗ ´ um ponto interior ou se X = Rn as condi¸˜es
                       e                                        co
    enunciadas equivalem ` ∇f (x ∗ ) = 0.
                          a
    Assim sendo, estas condi¸˜es tamb´m podem ser satisfeitas para
                            co       e
    pontos de m´ximo ou mesmo outros pontos.
               a
Se X n˜o for convexo...
      a

    Al´m de serem n˜o suficientes, estas condi¸˜es podem falhar
      e            a                         co
    Observe no exemplo (` direita) abaixo temos que:
                        a
      ◮       e              ınimo local, uma vez que ∇f (x ∗ )′ △x ≥ 0 para
          x ∗ ´ um ponto de m´
          qualquer △x vi´vel,mas...
                         a
      ◮   a condi¸˜o enunciada falha porque x − x ∗ n˜o ´ uma dire¸˜o vi´vel,
                  ca                                 a e             ca  a
          uma vez que X n˜o ´ convexo e ent˜o ∇f (x ∗ )′ (x − x ∗ ) < 0.
                           a e               a
Restri¸˜es Ativas e Inativas
      co

Normalmente, o conjunto X ´ definido por restri¸˜es de igualdade e
                          e                   co
desigualdade:

                        hi (x) = 0 i = 1, . . . , m
                        gj (x) ≤ 0 j = 1, . . . , p


    Consideremos cada uma das restri¸˜es gj (x) : j = 1, . . . , p e um
                                     co
    ponto x vi´vel para o problema em estudo.
              a

    Dizemos que gj (x) ´ ativa em x se gj (x) = 0.
                       e

    Caso gj (x) < 0, gj (x) ´ inativa em x.
                            e

    Por defini¸˜o, todas as restri¸˜es hi (x) : i = 1, . . . , m s˜o ativas.
             ca                  co                              a
Otimiza¸˜o sobre um quadrante n˜o negativo
       ca                      a


Considere o conjunto convexo X = {x ∈ Rn : xi ≥ 0, ∀i = 1, . . . , n}.
    Observe que a condi¸˜o de otimalidade ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X
                       ca
    equivale a:
                        n
                              ∂f (x ∗ )
                                        (xi − xi∗ ) ≥ 0, ∀x = (x1 , . . . , xn ) ∈ X
                                ∂xi
                       i =1

    Fixando dire¸˜es convenientes, dependendo da coordenada de i de xi∗
                co
    estar ou n˜o na fronteira, temos que a equa¸˜o escalar anterior
              a                                ca
    implica em:
           ∂f (x ∗ )
       ◮
             ∂xi       = 0, ∀i : xi > 0
           ∂f (x ∗ )
       ◮
             ∂xi       ≥ 0, ∀i = 1, . . . , n
Otimiza¸˜o sobre uma caixa
       ca

Como poderiam ser expressas as condi¸˜es de otimalidade caso
                                    co

               X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n}




                   ∂f (x ∗ )
                             = 0 ∀i : ai < xi∗ < bi             (3)
                     ∂xi
                   ∂f (x ∗ )
                             ≥0     ∀i : xi∗ = ai               (4)
                     ∂xi
                   ∂f (x ∗ )
                             ≤0     ∀i : xi∗ = bi               (5)
                     ∂xi
Otimiza¸˜o sobre uma caixa
       ca

Como poderiam ser expressas as condi¸˜es de otimalidade caso
                                    co

               X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n}




                   ∂f (x ∗ )
                             = 0 ∀i : ai < xi∗ < bi             (3)
                     ∂xi
                   ∂f (x ∗ )
                             ≥0     ∀i : xi∗ = ai               (4)
                     ∂xi
                   ∂f (x ∗ )
                             ≤0     ∀i : xi∗ = bi               (5)
                     ∂xi
A importˆncia das restri¸˜es ativas
        a               co
Exemplo
                         min f (x1 , x2 ) : x1 , x2 ≥ 0
                   ınimo, todas as derivadas parciais ∂f∂xi ) s˜o n˜o
                                                         (x
                                                          ∗
No ponto x ∗ de m´                                             a a
negativas e s˜o nulas para as restri¸˜es xi ≥ 0 inativas. Se todas as
               a                     co
restri¸˜es forem inativas em x ∗ , a condi¸˜o de otimalidade equivale a
      co                                  ca
∇f (x ∗ ) = 0.
A importˆncia das restri¸˜es ativas
        a               co


    As restri¸˜es ativas em x ´ que restringem a viabilidade nas
             co               e
    vizinhan¸as de um ponto.
             c

    Desempenham papel fundamental na dedu¸˜o das propriedades
                                              ca
    (condi¸˜es necess´rias e suficientes) de um ponto de m´
          co         a                                   ınimo local.

    As restri¸˜es inativas n˜o influenciam em nada a viabilidade nas
             co             a
    vizinhan¸as de x.
             c

    Caso soub´ssemos quais s˜o as restri¸˜es ativas no ponto de m´
               e               a         co                        ınimo,
    poder´ ıamos concentrar nosso estudo apenas ` elas, tratando-as como
                                                  a
    restri¸˜es de igualdade e ignorando as restri¸˜es inativas.
          co                                     co
M´todo de Dire¸˜es Vi´veis
 e            co     a




                       minimize      f (x)
                                   x ∈X

Vamos inicialmente estudar m´todos de otimiza¸˜o para o problema,
                            e                ca
assumindo:
    X ´ convexo, n˜o vazio
      e           a
    f ∈ C 1 , isto ´, X ´ continuamente diferenci´vel em X .
                   e    e                        a
    N˜o assumimos nenhuma estrutura ou caracter´
      a                                           ıstica especial ao
    conjunto de restri¸˜es que determinam X , a n˜o as citadas acima.
                      co                         a
M´todos de Dire¸˜es Vi´veis
 e             co     a
Defini¸˜o
     ca
Dado um vetor vi´vel x, dizemos que d ´ uma dire¸˜o vi´vel em x se d ´
                a                     e         ca    a              e
tal que x + αd ∈ X para qualquer α > 0 suficientemente pequeno.
M´todo de Dire¸˜es Vi´veis
 e            co     a

Um m´todo nesta classe:
    e
    inicia com uma solu¸˜o x 0 e gera uma sequˆncia {x k } de pontos
                         ca                   e
    vi´veis, atrav´s da itera¸˜o t´
      a           e          ca ıpica:

                              x k+1 = x k + αk d k

    se x k n˜o ´ um ponto estacion´rio, ent˜o a dire¸˜o d k escolhida
            a e                   a           a     ca
    satisfaz:
                               ∇f (x k )′ d k < 0
    o passo αk ´ escolhido de forma que x k + αk d k ∈ X .
               e
    se x k ´ estacion´rio, o m´todo p´ra (x k+1 = x k ).
           e         a        e      a
    Vamos nos concentrar em m´todos de dire¸˜es vi´veis que s˜o
                                 e                co      a   a
    m´todos de descida, isto ´, f (x
     e                       e       k + αk d k ) < f (x k ).
Um m´todo de dire¸˜es vi´veis, de descida
    e            co     a
Caracteriza¸˜o da dire¸˜o vi´vel
           ca         ca a
    Conforme j´ mencionamos, no caso onde X ´ convexo, uma dire¸˜o
                a                                e                ca
    vi´vel d
      a      k em x k pode ser caracterizada da seguinte maneira:


                           d k = γ(x k − x k ), γ > 0

    onde x k ´ algum ponto vi´vel.
             e               a
    O m´todo opera ent˜o de acordo com a seguinte itera¸˜o:
        e              a                               ca

                       x k+1 = x k + αk d k , α ∈ [0, 1],

    onde a dire¸˜o d k al´m de vi´vel, deve ser de descida:
               ca        e       a

                        ∇f (x k )′ (x k − x k ) < 0, x k ∈ X

    Observe que pela convexidade de X , x k + αk (x k − x k ) ∈ X para
    qualquer α ∈ [0, 1].
    Al´m disto, se d k = γ(x k − x k ) ´ uma dire¸˜o de descida e x k ´ n˜o
       e                               e         ca                   e a
    estacion´rio, temos a garantia de existir um αk para o qual
              a
    f (x k+1 ) < f (x k ).
M´todos de dire¸˜es vi´veis: id´ias centrais
 e             co     a        e



    Requerem uma solu¸˜o vi´vel inicial (m´todo de duas fases)
                     ca    a              e

    Definem uma dire¸˜o vi´vel de descida, ou concluem que o ponto ´
                   ca    a                                        e
    estacion´rio.
            a

    Implementam uma itera¸˜o t´
                            ca ıpica que corresponde a uma busca
    unidirecional na dire¸˜o escolhida.
                         ca

    Podem ser vistos como uma especializa¸˜o dos m´todos que vimos
                                           ca     e
    at´ anteriormente para otimiza¸˜o irrestrita.
      e                           ca
M´todo de Dire¸˜es vi´veis: determina¸˜o do passo
 e            co     a               ca



   Minimiza¸˜o exata: αk = arg min
           ca                          α∈[0,1] f (x
                                                      k   + αd k )



   Armijo: Fixados escalares β, σ > 0 tais que β ∈ (0, 1) e σ ∈ (0, 1),
   fazemos αk = β mk , onde mk ´ o primeiro inteiro n˜o negativo m tal
                                    e                      a
   que:
                f (x k ) − f (x k + β m d k ) ≥ −σβ m ∇f (x k )′ d k
   Ou seja, tentamos sucessivamente os passos αk = 1, β, β 2 , . . . at´
                                                                       e
   satisfazer a condi¸˜o acima.
                     ca
M´todos de Dire¸˜es Vi´veis: convergˆncia
 e             co     a             e




Proposi¸˜o
       ca
Seja {x k } a sequˆncia gerada por um M´todo de Dire¸˜es Vi´veis
                  e                        e              co     a
x k+1 = x k + αk d k , onde as dire¸˜es {d k } s˜o gradiente relacionadas e αk
                                    co          a
´ determinado atrav´s de minimiza¸˜o exata ou via regra de Armijo.
e                      e               ca
Ent˜o, todo ponto limite de {x e
    a                             k } ´ um ponto estacion´rio.
                                                           a
Encontrando um ponto inicial
Dado o problema
                minimize             f (x)
                             hi (x) = 0 i = 1, . . . , m
                             gj (x) ≤ 0 j = 1, . . . , p
criamos e resolvemos o problema artificial (fase 1)
                            m              p
             minimize             zi +         yj
                           i =1          j=1
                           hi (x) + zi = 0 i = 1, . . . , m
                           gj (x) − yj ≤ 0 j = 1, . . . , p
                                         yj ≥ 0 j = 1, . . . , p
    Iniciamos o m´todo com x = (0, . . . , 0) e o vetor y e z calculados
                   e
    para viabilizar o programa acima. Ao final da fase 1, caso a fun¸˜oca
    objetivo seja nula, dispomos de um ponto inicial vi´vel para o
                                                         a
    programa original.
M´todo do Gradiente Condicional
 e

Os m´todos nesta classe se diferenciam em como a dire¸˜o vi´vel, de
     e                                               ca    a
descida ´ obtida. Um dos m´todos mais usados nesta classe ´ o Gradiente
        e                  e                              e
Condicional:
    O problema de obter uma dire¸˜o vi´vel com propriedade de descida
                                 ca   a
    em x k pode ser formulado como:

                      min   ∇f (x k )′ (x − x k )
                                         x ∈X

    Se X ´ compacto, o programa acima ´ limitado. Caso X n˜o seja
          e                               e                  a
    limitado, impomos restri¸˜es lineares do tipo x ∞ ≤ 1 e resolvemos
                            co
    o programa.
    Se o valor ´timo do programa auxiliar for negativo, encontramos uma
                o
    dire¸˜o vi´vel, de descida.
        ca    a
Obtendo uma dire¸˜o vi´vel
                ca a



   Observe que o programa auxiliar envolve o mesmo conjunto de
   restri¸˜es que do original, mas a fun¸˜o objetivo ´ linear.
         co                             ca           e

   No caso das restri¸˜es que definem X serem n˜o lineares, o programa
                     co                         a
   auxiliar ´ t˜o complicado quanto o programa original.
            e a

   Os m´todos de dire¸˜es vi´veis, em particular o do Gradiente
         e            co      a
   Condicional, s˜o particularmente interessantes quando X ´ um
                 a                                          e
   poliedro, uma vez que o subproblema ´ um Programa Linear.
                                         e
Gradiente Condicional quando X ´ um poliedro
                               e
   Se o m´todo Simplex ´ usado para resolver o subproblema, x k sempre
           e               e
   ´ um ponto extremo de X .
   e
   Por quˆ a dire¸˜o d k que resolve o subproblema n˜o ´ contr´ria a
           e        ca                              a e       a
   ∇f (x k ), se x k for um ponto interior ?
M´todo do Gradiente Condicional: exemplo num´rico
 e                                          e
Problema Quadr´tico
              a

                           1 2     2       2
        minimize    f (x) = (x1 + x2 + 0.1x3 ) + 0.55x3
                           2
                                      x1 + x2 + x3 = 1
                                                   x ≥0

Subproblema associado - determina¸˜o da dire¸˜o vi´vel, de descida
                                 ca         ca    a

      minimize         k         k            k
                     (x1 )x1 + (x2 )x2 + (0.1x3 + 0.55)x3 +
                   + (−(x1 )2 − (x2 )2 − (x3 )(0.1x3 + 0.55)
                         k        k        k       k

                                x1 + x2 + x3 = 1
                                      x ≥0

que pode ser resolvido de forma gulosa.
                                                        gradcondicional.sci
M´todo do Gradiente Condicional: exemplo num´rico
 e                                          e



Vamos implementar o m´todo considerando:
                     e
    x 0 = 1 (1, 1, 1)′ e tamb´m x 0 = (1, 0, 0)′
          3                  e
    Passo de Armijo.
    Condi¸˜o de parada definida na resolu¸˜o do subproblema:
         ca                             ca

                           ∇f (x k )′ d k
                                            ≥ −1.0E − 4
                           ∇f (x k ) d k
Taxa de Convergˆncia do M´todo do Gradiente Condicional
               e         e


   Se a regra de Armijo ou a
   minimiza¸˜o exata forem empregadas
            ca
   para se determinar o αk , pode-se
   demonstrar que as dire¸˜es geradas
                          co
   s˜o gradiente relacionadas e, ent˜o,
    a                               a
   todo ponto limite da sequˆncia gerada
                             e
   pelo m´todo ´ um ponto estacion´rio.
          e     e                    a
   Apesar disto, a taxa de convergˆncia
                                   e
   do m´todo ´ baixa: os pontos x k
         e     e
   gerados s˜o tais que a dire¸˜o d k ´
             a                ca      e
   quase ortogonal ´ dire¸˜o que levaria
                    a    ca
   ao ´timo, a partir do ponto x k
       o
   (zig-zag). Veja a figura:
M´todo do Gradiente Projetado
 e


   Mover ao longo da dire¸˜o contr´ria ao gradiente n˜o garante a
                          ca        a                 a
   viabilidade do ponto obtido, caso o ponto de origem esteja na
   fronteira do conjunto de viabilidade.

   O M´todo do Gradiente Projetado consiste em projetar o vetor
       e
   contr´rio ao gradiente no conjunto X , de forma que aprimore a
        a
   fun¸˜o objetivo e garanta viabilidade.
      ca

   Do ponto de vista computacional, a principal desvantagem do m´todo
                                                                e
   ´ o elevando custo associado ` proje¸˜o, em cada itera¸˜o.
   e                            a      ca                ca

   O m´todo ´ uma boa alternativa quando a opera¸˜o de proje¸˜o pode
        e      e                                ca          ca
   ser feita com baixo custo computacional.
O problema de projetar z ∈ Rn em X convexo, fechado

Proje¸˜o
     ca
Consiste em encontrar um vetor x ∗ ∈ X , cuja distˆncia a z seja m´
                                                  a               ınima:

                       minimize     z −x
                                    x ∈X

Alguns fatos sobre a proje¸˜o
                          ca
    Para todo z ∈ Rn existe um x ∗ ∈ X unico que minimiza z − x
                                        ´
    sobre todo x ∈ X . Este vetor ´ chamado proje¸˜o de z em X .
                                  e              ca
    Usualmente denominamos x ∗ = [z]+ .
    Dado z ∈ Rn , x ∗ = [z]+ se e somente se
    (z − x ∗ )(x − x ∗ ) ≤ 0, ∀x ∈ X .
    No caso de X ser um subespa¸o, x ∗ ∈ X ´ a proje¸˜o de z em X se e
                                  c            e        ca
    somente se z − x ∗ for ortogonal a X , isto ´: (z − x ∗ )x = 0, ∀x ∈ X .
                                                e
Gradiente projetado

    Vamos supor que o nosso problema de otimiza¸˜o seja
                                               ca

                         minimize    f (x)
                                       Ax ≤ b
                                       Ex = e

    onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e
    X = {x ∈ Rn : Ax ≤ b, Ex = e}.
    e que disponhamos de um ponto vi´vel x k na fronteira do conjunto de
                                    a
    viabilidade X .
    Assuma ent˜o que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ],
                   a                                         1    2
    b ′ = [b1 , b2 ].
            ′    ′

    Suponha tamb´m que f seja diferenci´vel em x k .
                e                      a

Como fazemos para projetar −∇f (x k ) na face de X ativa em x k ?
Resolvemos o seguinte Problema de Otimiza¸˜o Quadr´tica
                                         ca       a


                minimize      x − (−∇f (x k ))
                                             A 1 x = b1
                                             A 2 x ≤ b2
                                               Ex = e

cuja solu¸˜o (obtida analiticamente) ´ x ∗ = −P∇f (x k ) onde a matriz P
         ca                          e
(chamada de matriz de proje¸˜o) ´ dada por:
                             ca e

                           P = I − M ′ (MM ′ )−1 M

e a matriz M corresponde ˜s linhas das restri¸˜es ativas em x k :
                         a                   co

                               M ′ = [A′ , E ′ ].
                                       1
Matrizes de Proje¸˜o
                 ca

Defini¸˜o
     ca
Assuma que P ∈ Rn×n seja uma matriz quadrada de ordem n. P ´
                                                           e
chamada matriz de proje¸˜o se:
                       ca
      P = P′
      PP = P

Proposi¸˜o
       ca
Seja P uma matriz quadrada de ordem n. Ent˜o, o seguinte ´ verdadeiro:
                                          a              e
  1   Se P ´ uma matriz de proje¸˜o, ent˜o P ´ positiva semi definda.
           e                    ca      a    e
  2   P ´ uma matriz de proje¸˜o se e somente se I − P ´ uma matriz de
        e                    ca                        e
      proje¸˜o.
           ca
  3   Seja P uma matriz de proje¸˜o e Q = I − P. Ent˜o os subespa¸os
                                  ca                   a            c
      lineares L = {Px : x ∈ Rn } e L⊥ = {Qx : x ∈ Rn } s˜o ortogonais.
                                                         a
      Al´m disto, qualquer x ∈ Rn pode ser escrito como x = p + q onde
         e
      p ∈ L, q ∈ L⊥ , atrav´s de p, q unicos.
                           e          ´
Matrizes de Proje¸˜o
                 ca


Prova
 1   Seja x ∈ Rn um vetor arbitr´rio. Ent˜o, se P ´ uma matriz de
                                   a          a      e
     proje¸˜o, x ′ Px = x ′ PPx = x ′ P ′ Px = Px 2 ≥ 0, logo P ´ positiva
          ca                                                    e
     semidefinida.
 2   ´
     Obvio.
 3   Claramente L, L⊥ s˜o subespa¸os lineares.
                       a           c
     Uma vez que P ′ Q = P ′ (I − P) = P − P ′ P = 0, L, L⊥ s˜o de fato
                                                             a
     ortogonais.
     (Unicidade) suponha que x = p ′ + q ′ e que x = p + q. Ent˜oa
     subtraindo a primeira da segunda temos p − p ′ = q p rime − q. Uma
     vez que L ∩ L⊥ = 0, p − p ′ = q ′ − q = 0 e a representa¸˜o ´ unica.
                                                             ca e ´
Interpreta¸˜o
          ca




    Dado z ∈ Rn temos que (Pz)′ , (I − P)z = 0. Ou seja, a aplica¸˜o
                                                                  ca
    Pz projeta z no espa¸o ortogonal ao da aplica¸˜o Qz = (I − P)z.
                        c                        ca

    Assim sendo podemos escrever que z ´ a soma direta de Pz e Qz ou
                                       e
    seja, z = Pz ⊕ Qz.
Gradiente Projetado - Problema com restri¸˜es lineares
                                         co


                      minimize    f (x)
                                   Ax ≤ b
                                   Ex = e

onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e
X = {x ∈ Rn : Ax ≤ b, Ex = e}.

Id´ia central
  e
    Dado x k , se movemos na dire¸˜o −∇f (x k ), podemos perder
                                 ca
    viabilidade.
    Para preservar viabilidade, projetamos −∇f (x k ) na face ativa de X
    ativa (em rela¸˜o ` x k , usando uma matriz de proje¸˜o P adequada)
                  ca a                                   ca
    e nos movemos na dire¸˜o d k = −P∇f (x k ).
                             ca
Caracteriza¸˜o de Dire¸˜es Vi´veis
           ca         co     a




Proposi¸˜o
       ca
Considere o poliedro X = {x ∈ Rn : Ax ≤ b, Ex = e} que definimos.
Suponha que x k ∈ X e que
A1 x k = b1 , A2 x k < b2 , A′ = [A′ , A′ ], b ′ = [b1 , b2 ].
                                   1    2
                                                     ′    ′


Ent˜o, um vetor d k ´ vi´vel em x k se e somente se A1 d k ≤ 0, Ed k = 0.
   a                e a
(A demonstra¸˜o ´ ´bvia).
            ca e o
Gradiente projetado - X ´ um poliedro
                        e



Proposi¸˜o
       ca
Considere o problema minx∈X definido acima. Assuma que x k seja um
ponto vi´vel tal que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ],
          a                                                  1    2
b ′ = [b1 , b2 ]. Suponha tamb´m, que f seja diferenci´vel em x k . Ent˜o:
        ′    ′                e                       a                a
  1   Se P ´ uma matriz de proje¸˜o tal que P∇f (x k ) = 0, ent˜o
            e                    ca                            a
      d k = −P∇f (x k ) ´ uma dire¸˜o de descida de f em x k .
                        e         ca
  2   Al´m disto, se M ′ = [A1 , E ′ ] possui posto completo e se
        e                     ′

      P =I −M    ′ (MM ′ )−1 M, ent˜o d k ´ uma dire¸˜o de descida, vi´vel.
                                     a      e         ca              a
Gradiente projetado - X ´ um poliedro
                        e

Prova
  1   (−P∇f (x k ) ´ dire¸˜o de descida)
                      e    ca
      Observe que: ∇f (x k )′ d k = −∇f (x k )′ P∇f (x k ) =
      −∇f (x k )′ P ′ P∇f (x k ) = − P∇f (x k ) < 0, uma vez que P ´ positiva
                                                                        e
      semi-definda e, pelo enunciado ∇f (x      k )′ P = 0. Ent˜o d k ´ uma
                                                              a      e
      dire¸˜o de descida.
          ca
  2   (−P∇f (x k ) ´ dire¸˜o vi´vel)
                   e     ca    a
      Se M possui posto completo, (MM ′ ) ´ n˜o singular e ent˜o:
                                          e a                 a

                      P = I − M ′ (MM ′ )−1 M
                    MP = M − MM ′ (MM ′ )−1 M = M − IM = 0
           Logo    Md k = −MP∇f (x k )              =            0


Se Md k = 0 temos A1 d k = 0, Ed k = 0 e d k ´ vi´vel.
                                             e a
Interpreta¸˜o Geom´trica do M´todo
          ca      e          e
   Uma vez que MP = 0 temos que A1 P = 0, EP = 0 e ent˜o a matriz
                                                             a
   de proje¸˜o P projeta cada linha de A1 e de E no vetor nulo.
           ca
   Entretanto, as linhas de A1 e de E s˜o os gradientes das restri¸˜es
                                        a                         co
   ativas em x k , a matriz P ´ na verdade a matriz que projeta os
                               e
   gradientes das restri¸˜es ativas em x k no vetor zero.
                        co
   Assim sendo, P∇f (x k ) corresponde ` proje¸˜o de ∇f (x k ) no espa¸o
                                        a      ca                     c
   nulo das restri¸˜es ativas.
                   co
   Veja: MP∇f (x k ) = 0, logo, P∇f (x k ) ∈ N (M)
Teoria de Multiplicadores de Lagrange
Vamos considerar os problemas de otimiza¸˜o definidos por restri¸˜es de
                                        ca                     co
igualdade:


                minimize           f (x)
                             hi (x) = 0 i = 1, . . . , m

onde f (x) : Rn → R, hi (x) : Rn → R, ∀i = 1, . . . , m s˜o func˜es
                                                         a      o
continuamente diferenci´veis.
                        a
Condi¸˜es Necess´rias de Otimalidade
     co         a
O nosso principal resultado ´ o seguinte: se x ∗ ´ um ponto de m´
                             e                       e            ınimo
local, ent˜o existem escalares λi : i = 1, . . . , m, denominados
          a
Multiplicadores de Lagrange tais que vale a seguinte equa¸˜o vetorial:
                                                              ca
                                    m
                             ∗
                       ∇f (x ) +          λi ∇hi (x ∗ ) = 0
                                   i =1
Interpretando este resultado
                                   m
                             ∗
                       ∇f (x ) +          λi ∇hi (x ∗ ) = 0
                                   i =1

      O gradiente da fun¸˜o objetivo ∇f (x ∗ ) pertence ao subespa¸o gerado
                         ca                                       c
      pelo gradiente ∇hi (x ∗ ) das restri¸˜es ativas em x ∗ .
                                          co

Exemplo




min          x1 + x2
        2      2
       x1   + x2 = 2
Interpretando este resultado

Defini¸˜o
     ca
Definimos o subespa¸o de vari¸˜es nulas de primeira ordem, isto ´, o
                    c        co                                  e
subespa¸o para o qual o vetor x = x ∗ + △x satisfaz as restri¸˜es h(x) = 0
        c                                                    co
at´ a primeira ordem, como:
  e

               V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m}

    Tome y ∈ V (x ∗ );
    Uma vez que ∇f (x ∗ ) + m λi ∇hi (x ∗ ) = 0, temos que
                               i =1
    ∇f (x ∗ )′ y + m λi ∇hi (x ∗ )′ y = 0 e logo ∇f (x ∗ )′ y = 0.
                   i =1
    Ou seja, ∇f (x ∗ ) ⊥ V (x ∗ ). Ou seja, o gradiente de f em x ∗ ´
                                                                    e
    ortogonal ao espa¸o das dire¸˜es vi´veis que geram varia¸˜o de
                       c            co    a                    ca
    primeira ordem nula nas restri¸˜es.
                                     co
    Este resultado ´ an´lago ` condi¸˜o ∇f (x ∗ ) = 0 para Otimiza¸˜o
                   e a       a      ca                            ca
    Irrestrita.
Formalizando e demonstrando o resultado

Proposi¸˜o
       ca
Seja x ∗ um ponto de m´
                      ınimo local de f sujeito `s restri¸˜es h(x) = 0.
                                                 a        co
Assuma que os gradientes ∇h1 (x), . . . , ∇hm (x) sejam li em x ∗ .
  1   Ent˜o, existe λ∗ = (λ∗ , . . . , λ∗ )′ unico, tal que:
         a                 1            m ´

                                              m
                             ∇f (x ∗ ) +            λ∗ ∇hi (x ∗ ) = 0
                                                     i
                                             i =1

  2   Se f e h forem duas vezes continuamente diferenci´veis, temos que
                                                       a
                                 m
            y′   ∇2 f (x ∗ ) +          λ∗ ∇2 hi (x ∗ ) y ≥ 0, ∀y ∈ V (x ∗ ) onde
                                         i
                                 i =1

                    V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m}
      denota o subespa¸o de primeira ordem de varia¸˜es vi´veis de h.
                      c                            co     a
Um problema sem multiplicadores de Lagrange
Antes de provar este resultado, vamos estudar este exemplo:
            minimize     f (x) = x1 + x2                              (6)
                                           2    2
                        h1 (x) = (x1 − 1) +    x2   −1 = 0            (7)
                                           2    2
                        h2 (x) = (x1 − 2) +    x2   −4 = 0            (8)


Observe que o unico ponto vi´vel ´ (0, 0) e que neste ponto os gradientes
               ´             a e
de h1 e h2 s˜o ld, n˜o permitindo escrever o gradiente de f em R2 .
            a       a
Pontos regulares




Defini¸˜o
     ca
Dizemos que um ponto x ´ regular se ∇hi (x), . . . , ∇hm (x) s˜o linearmente
                       e                                      a
independentes em x.

    No exemplo anterior, o ponto ´timo n˜o ´ regular.
                                 o      a e
Demonstra¸˜o do Teorema dos Multiplicadores de
         ca
Lagrange


A prova se baseia na aplica¸˜o do m´todo de penalidades. Basicamente
                           ca      e
suas id´ias centrais s˜o:
       e              a
    Relaxamos as restri¸˜es do problema
                       co
    Adicionamos estas restri¸˜es ` fun¸˜o objetivo do problema,
                            co a      ca
    multiplicando cada restri¸˜o por uma penalidade.
                             ca
    Aplicamos as condi¸˜es necess´rias de primeira e segunda orgem ao
                      co         a
    problema relaxado e
    Tomamos o limite destas condi¸˜es, na medida em que as penalidades
                                 co
    crescem.
Prova - M´todo de Penalidades
         e



Fun¸˜o de custo penalizada
   ca
                               k        2       α
        F k (x) = f (x) +        h(x)       +     x − x ∗ 2 , k = 1, 2, . . .
                               2                2
onde:
    x ∗ : ´ um m´
          e     ınimo local de f (x) : h(x) = 0.
              k          2
    O termo   2   h(x)       penaliza a viola¸˜o das restri¸˜es
                                             ca            co
              α
    O termo   2 x−   x∗ 2´ inserido para facilitar a prova, garantindo que
                         e
        e     ınimo local estrito de f (x) + α x − x ∗ 2 sujeito a h(x) = 0.
    x ∗ ´ um m´                              2
Prova - M´todo de Penalidades
         e



   Dado que x ∗ ´ um m´
                 e         ınimo local do problema, ´ poss´ escolher
                                                    e     ıvel
   ǫ > 0 tal que f (x ∗ ) ≤ f (x), ∀x ∈ S onde
   S = {x : h(x) = 0; x − x ∗ ≤ ǫ}.
   Ent˜o vamos assumir que x k resolve o seguinte problema:
      a

                        minimize    F k (x)
                                    x ∈S

   Observe que este otimizador x k existe, uma vez que S ´ compacto.
                                                         e
   Vamos mostrar agora que {x k } converge para x ∗ .
{x k } converge para x ∗

    Para todo k temos:
                                k                 α
      F k (x k ) = f (x k ) +   2   h(x) 2 +      2   xk − x∗
                 ≤                   F k (x ∗ )                      otimal. de x k
                 =                    f (x ∗ )                     j´ que h(x ∗ ) = 0
                                                                    a

    Observe que f (x k ) ´ limitada em S.
                         e
    Asssim sendo, o lado esquerdo da desigualdade acima precisa ficar
    limitado quando k → ∞
                                         k            2
    Para que isto ocorra, o termos       2   h(x)         precisa assumir valor finito
    quando k → ∞.
    Logo, limk→∞ h(x) = 0.
    Ent˜o todo ponto limite x de {x k } satisfaz f (x) + α x − x ∗ ≤ f (x ∗ ).
       a                                                 2
    Uma vez que x, x ∗ ∈ S e x ´ vi´vel e pela otimalidade de x ∗ , isto ´
                                 e a                                     e
    f (x ∗ ) − f (x), x − x ∗ = 0. Logo x = x ∗ .
Observa¸˜es
       co



   Note que x k ´ um ponto interior a S para k suficientemente grande.
                e
   Por este motivo, a partir deste valor suficientemente grande de k, x k
   ´ um m´
   e        ınimo local do problema irrestrito que consiste em minimizar
   F k (x).
   Note tamb´m que j´ dispomos de um algoritmo para obter x.
            e       a
   Vamos provar o Teorema dos Multiplicadores de Lagrange, aplicando
   as condi¸˜es necess´rias de primeira ordem (irrestritas) a F k (x) em
           co         a
   xk.
Obtendo λ∗
   Aplicando as CNPO a F k (x k ), temos:
         0 = ∇F k (x k ) = ∇f (x k ) + k∇h(x k )h(x k ) + α(x k − x ∗ )       (9)
   Pelo enunciado, temos que ∇h(x ∗ ) possui posto completo, igual a
   m < n. Por continuidade, existe k suficientemente grande para o qual
   o posto de ∇h(x k ) tamb´m ´ m. Logo [∇h(x k )′ ∇h(x k )]−1 ´ n˜o
                            e e                                e a
   singular.
   Pre multiplique (9) por [∇h(x k )′ ∇h(x k )]−1 e obtenha:

     kh(x k ) = −[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )′ ∇f (x k ) + α(x k − x ∗ )

   Sabemos que k → ∞, x k → x ∗ e kh(x k ) converge para um valor
   finito. Denonine ent˜o por
                      a
                  λ∗ = [∇h(x ∗ )′ ∇h(x ∗ )]−1 ∇h(x ∗ )′ ∇f (x ∗ )
   Tome o limite em (9) quando k → ∞ e obtenha:
                           ∇f (x ∗ ) + ∇h(x ∗ )λ∗ = 0
Vamos agora provar as condi¸˜es de 2a. ordem
                           co
   Aplicando as CNSO a F k (x k ) temos (diferenciando (9)) que a matriz:
                                                        m
     2                  2
          k     k           k           k
   ∇ F (x ) = ∇ f (x )+ k∇h(x )∇h(x ) + k       k ′
                                                               hi (x k )∇2 hi (x k )+ αI
                                                        i =1
                                                                  (10)
   ´ semi-positiva definida, para todo k suficientemente grande e α > 0.
   e
   Tome qualquer y ∈ V (x ∗ ) isto ´ y : ∇h(x ∗ )′ y = 0 e considere que y k
                                   e
   seja a proje¸˜o de y no espa¸o nulo de ∇h(x k )′ , isto ´:
               ca               c                           e

              (I − P)y = y k = y − ∇h(x k )[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )y

   As condi¸˜es necess´rias de primeira ordem garantem que
             co          a
   ∇h(x k )′ y k = 0 e como ∇2 F k (x k ) ´ semi-positiva definida, temos:
                                          e

         0 ≤                        (y k )′ ∇2 F k (x k )y k
                k )′ ∇2 f (x k ) + k    m          k     2   k k      k           2
         0 ≤ (y                         i =1 hi (x )∇ hi (x ) y + α y
                                                                                   (11)
Condi¸˜es de 2a. ordem - continua¸˜o
     co                          ca

   Uma vez que:
     ◮   khi (x k ) → λi
     ◮   xk → x∗
     ◮   ∇h(x ∗ )′ y = 0
   temos que y k → y e ent˜o temos:
                          a
                                             m
           0 ≤ y ′ ∇2 f (x ∗ ) +                 λ∗ ∇2 hi (x ∗ ) y + α y
                                                  i
                                                                           2
                                                                                 (12)
                                          i =1

   Uma vez que α > 0 pode ser arbitrariamente pequeno, temos:
                                      m
         0 ≤ y′       ∇2 f (x ∗ ) +          λ∗ ∇2 hi (x ∗ ) y , ∀y ∈ V (x ∗ )
                                              i                                  (13)
                                      i =1

   e a prova est´ completa.
                a
A Fun¸˜o Lagrangeana
     ca

Defini¸˜o
     ca
Considere a fun¸˜o Lagrangeana L : Rn+m → R definida como:
               ca
                                                       m
                              L(x, λ) := f (x) +              λi hi (x).
                                                       i =1

Observe que as condi¸˜es necess´rias de Primeira Ordem, de Viabilidade
                       co            a
Primal (hi (x) = 0, ∀i = 1, . . . , m) e as condi¸˜es necess´rias de segunda
                                                 co         a
ordem podem ser escritas em termos de L(x, λ) como:
                                                  m
     ∇x L(x ∗ , λ∗ ) = 0 ⇔ ∇f (x ∗ ) +                  ∗       ∗
                                                  i =1 λi ∇hi (x )         =0
     ∇λ   L(x ∗ , λ∗ )   = 0 ⇔ hi (x) = 0, ∀i = 1, . . . , m (viabilidade)
     y ′ ∇2 L(x ∗ , λ∗ )y
          xx                 ≥ 0, ∀y ∈ V (x ∗ ) ⇔
                             m
     y ′ ∇2 f (x ∗ ) +             λ∗ ∇2 hi (x ∗ ) y
                                    i
                            i =1
A fun¸˜o Lagrangena
     ca


                                               m
                          L(x, λ) := f (x) +          λi hi (x).
                                               i =1

Todo m´ınimo local regular deve ent˜o satisfazer o sistema de equa¸˜es em
                                   a                              co
n + m vari´veis dado por:
          a
    ∇x L(x ∗ , λ∗ ) = 0
    ∇λ L(x ∗ , λ∗ ) = 0
Cabe salientar que nem todo ponto que satisfizer o sistema acima ´ um
                                                                 e
ponto de m´ınimo (recorde nossa experiˆncia com Otimiza¸˜o Irrestrita).
                                      e                 ca
Um ponto de m´ximo pode tamb´m satisfazer o sistema acima.
                a               e
Fun¸˜o Lagrangeana - Exemplo
   ca


                              1 2       2    2
                 minimize        x + x2 + x3
                              2 1
                               x1 + x2 + x3 = 3


   Consideremos o vetor (x ∗ , λ∗ ) = (1, 1, 1, −1)′
   Observe que ∇h(x ∗ ) = (1, 1, 1)′ (´ li), logo o ponto ´ regular.
                                      e                   e
   Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (1, 1, 1) − 1(1, 1, 1) = 0, logo as
   condi¸˜es necess´rias de primeira ordem s˜o satisfeitas.
        co         a                           a
   Uma vez que ∇2 f (x ∗ ) = diag(1) e ∇2 h(x) = 03×3 , temos que
   x ′ ∇2 f (x ∗ )x > 0, ∀x ∈ Rn , em particular para y ∈ V (x ∗ ).
   Portanto x ∗ ´ um m´
                e     ınimo global para o problema.
Interpreta¸˜o do uso da Fun¸˜o Langeana
          ca               ca


   Criamos a fun¸˜o Lagrangeana para obter um modelo irrestrito, cujo
                  ca
   objetivo coincide com o objetivo do problema original para qualquer
   solu¸˜o vi´vel.
       ca    a
   Para qualquer valor dos multiplicadores λi , um ´timo x ∗ do problema
                                                   o
   relaxado deve ser um ponto estacion´rio de L(·, λ). Esta ´ a condi¸˜o
                                       a                     e        ca
   associada a ∇x L(x ∗ , λ∗ ) = 0.

   Impor as condi¸˜es ∇λ L(x ∗ , λ∗ ) implica em restringir os pontos
                  co
            a          ıveis de L(x ∗ , λ∗ ) `queles que satisfazem as
   estacion´rios admiss´                     a
   restri¸˜es do problema original.
         co
   Assim sendo, se um ponto x ∗ satisfizer as condi¸˜es de ponto
                                                       co
   estacion´rio (em x, λ) para o problema relaxado com multiplicadores
           a
   fixados em λ∗ , ele deve ser vi´vel e L(x ∗ , λ∗ ) = f (x ∗ ).
                                 a



                  Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                      ca   a                   co
Fun¸˜o Lagrangeana - Exemplo
   ca


                                 1 2       2    2
                minimize     −      x + x2 + x3
                                 2 1
                                  x1 + x2 + x3 = 3


   Este problema admite m´
                         ınimo ?
   Consideremos agora o vetor (x ∗ , λ∗ ) = (1, 1, 1, 1)′
   ∇h(x ∗ ) = (1, 1, 1)′ e o ponto ´ regular.
                                   e
   Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (−1, −1, −1) + (1, 1, 1) = 0, logo
   as condi¸˜es necess´rias de primeira ordem s˜o satisfeitas.
           co         a                         a
   Uma vez que ∇2 f (x ∗ ) = diag(−1) e ∇2 h(x) = 03×3 , as condi¸˜es
                                                                 co
   necess´rias de segunda ordem n˜o s˜o satisfeitas.
         a                         a a
   O conjunto X n˜o ´ compacto.
                 a e
Condi¸˜es Suficientes de Otimalidade
     co


Proposi¸˜o - Prop 3.2.1
       ca
(Condi¸˜es Suficientes de Otimalidade)
      co
Assuma que f e h sejam fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn e
                          co                       a
λ∈R  m satisfazendo:

  1   ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0
  2   y ′ ∇2 L(x ∗ , λ∗ )y > 0 para todo y = 0, ∇h(x ∗ )′ y = 0.
           xx
Ent˜o:
   a
      x ∗ ´ um m´
          e     ınimo local estrito de f sujeito a h(x) = 0.
      De fato, existem γ > 0 e ǫ > 0 tais que: f (x) ≥ f (x ∗ ) + γ ||x − x ∗ ||2
                                                                  2
      para qualquer x : h(x) = 0 e ||x − x ∗ || ≤ ǫ.




                      Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Exemplo


                    min       −(x1 x2 + x1 x3 + x2 x3 )
                                       x1 + x2 + x3 = 3


Fun¸˜o Lagrangeana
   ca
L(x, λ) = −(x1 x2 + x1 x3 + x2 x3 ) + λ(x1 + x2 + x3 − 3)

CNPO: ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0 que implica em:
                             −x2 − x3 + λ∗ = 0
                               ∗    ∗

                             −x1 − x3 + λ∗ = 0
                               ∗    ∗

                             −x1 − x2 + λ∗ = 0
                               ∗    ∗

                                 ∗    ∗    ∗
                                x1 + x2 + x3 = 0
cuja solu¸˜o unica ´ (x ∗ , λ∗ ) = (1, 1, 1, 2)
         ca ´      e
                      Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Exemplo - continua

Condi¸˜es Suficientes de Otimalidade:
     co
                                                   
                                            0 −1 −1
                       2
                      ∇xx L(x ∗ , λ∗ ) =  −1  0 −1 
                                           −1 −1  0

Observa¸˜es:
       co
    ∇2 L(x ∗ , λ∗ ) ´ semi-positiva definida.
     xx             e
    Entretanto, para os vetores y : ∇h(x ∗ )′ y = 0 temos:
      ◮   y : ∇h(x ∗ )′ y = 0 → y1 + y2 + y3 = 0.
      ◮   y ′ ∇2 L(x ∗ , λ∗ )y = −y1 (y2 + y3 ) − y2 (y1 + y3 ) − y3 (y1 + y2 ) =
               xx
            2     2      2
          y1 + y2 + y3 > 0.
                                        2
    Logo, para os y : ∇h(x ∗ )′ y = 0, ∇xx L(x ∗ , λ∗ ) ´ positiva definida e as
                                                        e
    condi¸˜es de segunda ordem s˜o verificadas.
         co                         a


                      Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Demonstra¸˜o das Condi¸˜es Suficientes de Otimalidade
         ca           co


   O entendimento da demonstra¸˜o da suficiˆncia destas condi¸˜es ´
                               ca          e                co e
   fundamental para entender porque os m´todos que iremos estudar
                                        e
   funcionam.

   Vamos usar uma fun¸˜o denominada Fun¸˜o Lagrangeana
                        ca                   ca
   Aumentada que nada mais ´ que a Fun¸˜o Lagrangena de um
                              e            ca
   Problema de Otimiza¸˜o similar ao problema original, modificado
                         ca
   apenas pela sua fun¸˜o objetivo, que passa a incorporar uma
                       ca
   penalidade pela viola¸˜o das restri¸˜es h(x) = 0.
                        ca            co

   Antes de demonstrar as condi¸˜es suficientes, precisamos de alguns
                               co
   resultados auxiliares.



                 Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                     ca   a                   co
Alguns resultados auxiliares

Teorema de Bolzano-Weierstrass
Toda sequˆncia limitada no conjunto Rn possui uma subsequˆncia
         e                                               e
convergente.

N˜o negatividade de A′ A
 a
Seja A uma matriz m × n. Ent˜o a matriz sim´trica A′ A ´ uma matriz
                            a              e           e
positiva semidefinida.

Lema Auxiliar
Sejam P e Q duas matrizes sim´tricas. Assuma que Q seja semi-positiva
                               e
definida e que P ´ positiva definida no espa¸o nulo de Q. Isto ´, x ′ Px > 0
                 e                        c                   e
para qualquer x : Qx = 0 ou, equivalentemente x : x ′ Qx = 0. Ent˜o existe
                                                                 a
um escalar c tal que P + cQ ´ positiva definida para qualquer c > c.
                             e


                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Demonstra¸˜o do Lema Auxiliar
         ca
Id´ia da prova: vamos assumir o contr´rio e obter uma contradi¸˜o.
  e                                  a                        ca
    Assuma ent˜o que o resultado enunciado n˜o vale. Ent˜o, para
                a                                  a            a
    qualquer inteiro k, existe um vetor x k , ||x K || = 1 tal que:


                             (x k )′ Px k + k(x k )′ Qx k ≤ 0


    Uma vez que ||x k || = 1, a sequˆncia {x k } ´ limitada e pelo Teorema
                                    e            e
    de Bolzano-Weierstrass, existe uma subsequˆncia {x k }k∈K que
                                                   e
    converge para algum vetor x.
    Tomando o limite supremo da desigualdade acima temos:

                    lim          (x k )′ Px k + k(x k )′ Qx k       ≤0       →
                 k→∞,k∈K


                     x ′ Px +         lim       k(x k )′ Qx k      ≤0
                                 k→∞,k∈K

                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Demonstra¸˜o do Lema auxiliar - continua
         ca


                 x ′ Px +       lim          k(x k )′ Qx k      ≤0
                            k→∞,k∈K


   Para que o lado esquerdo seja limitado superiormente (≤ 0), temos
   que ter k(x k )′ Qx k → 0.
   Uma vez que a matriz Q ´ n˜o negativa e k → ∞, isto s´ ocorre se
                          e a                           o
   (x k )Qx k → 0.

   Logo limk→∞,i ∈K (x k )′ Qx k = x ′ Qx = 0 e consequentemente
   x ′ Px ≤ 0.
   Portanto, x ´ tal que Qx = 0 (x pertence ao nulo de Q).
               e
   Logo x ′ Px > 0 (pelo pr´prio teorema) e temos uma contradi¸˜o !
                           o                                  ca



                 Alexandre Salles da Cunha     Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
O M´todo do Lagrangeano Aumentado
   e

Fun¸˜o Lagrangeana Aumentada
   ca
                                              c
                 Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2
                                              2
onde c ´ um escalar positivo.
       e


Observe que:
    A fun¸˜o Lc (x, λ) corresponde ` fun¸˜o Lagrangeana para o seguinte
          ca                       a    ca
    problema:
                                          c
                         min       f (x) + ||h(x)||2
                                          2
                                           h(x) = 0

    Minimizar este problema equivale a minimizar f (x) : h(x) = 0.

                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Avaliando Lc (x, λ) e suas derivadas

                                                    c
                       Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2
                                                    2

Primeira derivada de Lc em rela¸˜o a x
                               ca

                                        m                           m
   ∇x Lc (x, λ) = ∇f (x) +              i =1 λi ∇hi (x)   +c        i =1 hi (x)∇hi (x)


Segunda derivada de Lc em rela¸˜o a x
                              ca

                                                                      ∇2 Lc (x, λ) =
                                                                       xx
              m                            m
   2                     2
  ∇ f (x) +          λi ∇ hi (x) + c             hi (x)∇2 hi (x) + c∇h(x)∇h(x)′
              i =1                        i =1


                        Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                            ca   a                   co
Impondo as condi¸˜es necess´rias para x ∗, λ∗
                co         a
Se x ∗ , λ∗ satisfizerem as condi¸˜es necess´rias de 1a. ordem:
                                co         a
                                            m                           m
  ∇x Lc (x ∗ , λ∗ ) = ∇f (x ∗ ) +                λi ∇hi (x ∗ ) + c            hi (x ∗ )∇hi (x ∗ )
                                           i =1                        i =1
                                              m
                      =      ∇f (x ∗ ) +            λi ∇hi (x ∗ ) = ∇x L(x ∗ , λ∗ ) = 0
                                             i =1



                                                                                     ∇2 Lc (x ∗ , λ∗ ) =
                                                                                      xx
                  m                               m
  ∇2 f (x ∗ ) +          λi ∇2 hi (x ∗ ) + c           hi (x ∗ )∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ =
                  i =1                          i =1
                                                        m
                                     ∇2 f (x ∗ ) +            λi ∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ =
                                                       i =1
                                                               ∇2 L(x ∗ , λ∗ ) + c∇h(x ∗ )∇h(x ∗ )′
                                                                xx

                           Alexandre Salles da Cunha     Programa¸˜o N˜o Linear com Restri¸˜es
                                                                 ca   a                   co
Se as condi¸˜es suficientes de 2a. ordem forem impostas
           co


Vamos assumir que (condi¸˜es suficientes descritas no Teorema) para
                          co
qualquer y ∈ Rm : ∇h(x ∗ )′ y = 0 (ou y ′ ∇h(x ∗ )∇h(x ∗ )′ y = 0) tenhamos:

                             y ′ ∇2 L(x ∗ , λ∗ ) y > 0
                                  xx

Observe que:
    Aplicando o Lema Auxiliar, fazendo P = ∇2 L(x ∗ , λ∗ ) e
                                                    xx
    Q = ∇h(x ∗ )∇h(x ∗ )′ (esta matriz ´ semipositiva definida), existe c
                                           e
    tal que ∇xx Lc (x ∗ , λ∗ ) ´ postivida definida.
                               e

    Usando as condi¸˜es suficientes de otimalidade para otimiza¸˜o
                      co                                         ca
    irrestrita, conclu´                     ∗ ´ um ´timo local irrestrito
                      ımos que para c > c, x e     o
    de Lc (·, λ∗ ).


                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Se as condi¸˜es suficientes de 2a. ordem forem impostas
           co

   Ent˜o x ∗ ´ um ´timo local para Lc (·, λ∗ )
      a      e    o

   Em particular, existem γ > 0 e ǫ > 0 tais que
                                               γ
            Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) +       ||x − x ∗ ||2 , ||x − x ∗ || < ǫ
                                               2


   Observe que para todo x vi´vel (h(x) = 0) temos Lc (x, λ∗ ) = f (x) e
                                 a
   ∇λ L(x ∗ , λ∗ ) = h(x ∗ ) = 0


   Finalmente, temos que:
                                        γ                       γ
   f (x) = Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ )+ ||x−x ∗ ||2 = f (x ∗ )+ ||x−x ∗ ||2 ≥ f (x ∗ )
                                        2                       2
   para qualquer x : h(x) = 0 e ||x − x ∗ || < ǫ e a prova est´ completa !
                                                              a

                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
M´todos de Penalidade e Lagrangeano Aumentado
 e


                          min                 f (x)
                                     h(x) = 0
                                         x ∈X

Vamos considerar o caso onde X = Rn .


    Vamos criar a fun¸˜o Lagrangena Aumentada associada ao Programa
                     ca
    acima, para c > 0
                                                c
                   Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 .
                                                2


    Observe que o parˆmetro c controla a severidade da penaliza¸˜o da
                       a                                       ca
    viola¸˜o das restri¸˜es.
         ca            co
                  Alexandre Salles da Cunha      Programa¸˜o N˜o Linear com Restri¸˜es
                                                         ca   a                   co
Usando Lc (x, λ) em algoritmos

Dois mecanismos s˜o normalmente usados para, atrav´s da minimiza¸˜o
                      a                                   e             ca
irrestrita de Lc (·, λ) fornecer pontos pr´ximos a x ∗ , um minimizador
                                          o
(local) de f (x) : h(x) = 0.

  1   Fazemos λ = λ∗ . Conforme mostramos, se c ´ maior que um valor c,
                                                e
      ent˜o existem γ > 0, ǫ > 0 tais que:
         a
                                                 γ
            Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) +         ||x − x ∗ ||2 , ∀x : ||x − x ∗ || < ǫ
                                                 2
      Este resultado sugere que se λ ≈ λ∗ , uma razo´vel aproxima¸˜o de x ∗
                                                     a              ca
      deve ser obtida via minimiza¸˜o irrestrita de Lc (· · · , λ).
                                  ca
  2   Tomamos um valor bastante alto de c. Nestes casos, o custo da
      inviabilidade ´ elevado e ent˜o o m´
                    e              a     ınimo irrestrito de Lc (·, λ) deve ser
      quase vi´vel. Uma vez que Lc (x, λ) = f (x) para todo x vi´vel,
               a                                                   a
      devemos esperar Lc (x, λ) ≈ f (x) para x pr´ximo da viabilidade.
                                                 o

                     Alexandre Salles da Cunha     Programa¸˜o N˜o Linear com Restri¸˜es
                                                           ca   a                   co
Exemplo - abordagem 1

           1 2     2                     onde o vetor primal-dual ´timo ´
                                                                      o     e
   min       x + x2                                  ∗ , λ∗ ) = (1, 0, −1).
           2 1                           dado por (x
               x1 = 1
               1
   Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 , para c > 0.
                  2    2
                                         2
   Impondo ∇x Lc (x, λ) = 0, o m´
                                ınimo irrestrito possui coordenadas:
     ◮   x1 (c, λ) = c−λ . Logo para c > 0, temos
                     c+1
         limλ→λ∗ x1 (λ, c) = x1 (−1, c) = 1. Logo limλ→λ∗ x2 (λ, c) = 0
     ◮   x2 (λ, c) = 0.
Exemplo - abordagem 2 pura
             1
Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 .
                 2    2
                                       2
     x1 (c, λ) = c−λ . Logo limc→∞ c−λ = 1 = x1
                  c+1               c+1
                                                ∗
                                                 ∗
     x2 (c, λ) = 0. Logo limc→∞ x2 (c, λ) = 0 = x2 .




                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
M´todo de Penalidade Quadr´tica
 e                        a
Consiste em resolver uma sequˆncia de Problemas:
                             e


                                       m                    ck      m
  min   Lc k (x, λk ) = f (x) +              k
                                       i =1 λi hi (x)   +    2      i =1 hi (x)
                                                                               2

            x ∈X
onde {λk } ´ uma sequˆncia em Rm e {c k } ´ uma sequˆncia de
           e           e                  e         e
penalidades positivas.

    Na vers˜o original do m´todo (d´cada de 1960), os multiplicadores
            a               e        e
    n˜o eram aproximados; os multiplicadores eram fixados em zero. A
      a
    id´ia de aproxim´-los veio mais tarde.
       e            a
    Vamos permitir que os multiplicadores sejam multiplicados, sem no
    momento definir como isto ocorrer´.
                                     a
    Para sua validade, o m´todo depende de incrementar c k para ∞.
                          e

                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
M´todo Penalidades Quadr´ticas - Principal Resultado
 e                      a


Proposi¸˜o
       ca
Assuma que f , h s˜o fun¸˜es cont´
                  a     co       ınuas, que X ´ um conjunto fechado e
                                              e
que o conjunto {x ∈ X : h(x) = 0} ´ n˜o vazio. Para k = 0, 1, . . . ,, seja
                                   e a
x k um m´
        ınimo global do problema

                           min        Lc k (x, λk )
                                           x ∈ X,

onde {λk } ´ limitada, 0 < c k < c k+1 , ∀k e c k → ∞.
           e
Ent˜o todo ponto limite da sequˆncia {x k } ´ um m´
   a                           e            e     ınimo global do
problema ofiginal.



                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Observa¸˜es
       co
     O resultado assume que o m´     ınimo global irretristo ´ obtido de forma
                                                             e
     exata. Entretanto, os m´todos de otimiza¸˜o irrestrita s˜o terminados
                                 e                 ca             a
     quando ||∇x Lc (x k , λk )|| ≤ ǫk , onde ǫk ´ um pequeno escalar.
                                                 e

Proposi¸˜o
       ca
Assuma que f , h sejam fun¸˜es diferenci´veis e que X = Rn . Para
                               co            a
k = 0, 1, . . . , assuma que x k satisfa¸a ||∇x Lc (x k , λk )|| ≤ ǫk , onde {λk } ´
                                        c                                          e
limitada e {ǫk }, {c k } satisfazem:
     0 < c k < c k+1 , ∀k, c k → ∞
     0 ≥ ǫk , ∀k, ǫk → 0.
Assuma que a subsequˆncia {x k }K convirja para o vetor x ∗ tal que
                        e
∇h(x ∗ ) possua posto m. Ent˜o: {λk + c k h(x k )}K → λ∗ , onde λ∗ em
                             a
conjunto com x  ∗ satisfazem as condi¸˜es necess´rias de primeira ordem:
                                     co          a

                    ∇f (x ∗ ) + ∇h(x ∗ )′ λ∗ = 0, h(x ∗ ) = 0.

                      Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Exemplo


                   min                 x3
                             x +1=0



                    L(x, λ) = x 3 + λ(x + 1)

                                    c
            Lc (x, λ, c) = L(x, λ) + (x + 1)2
                                    2

           ∇x L(x ∗ , λ∗ ) = 0 → 3(x ∗ )2 + λ∗ = 0


          ∇λ L(x ∗ , λ∗ ) = 0 → x ∗ = −1, λ∗ = −3

           Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                               ca   a                   co
Exemplo - continua
Na Figura abaixo, indicamos f (x), L(x, λ∗ ), Lc (x, λ∗ ) para c = 9.




                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Penalidades Quadr´ticas - desempenho na pr´tica
                 a                        a
Temos trˆs possibilidades:
          e
  1 O m´todo n˜o funciona porque n˜o conseguimos satisfazer
           e        a                      a
    ||∇x Lc (x k , λk )|| ≤ ǫk . Isto normalmente ocorre quando Lc (·, λk ) ´
                                                                            e
    ilimitada inferiormente.
  2 Conseguimos satisfazer ||∇ L (x k , λk )|| ≤ ǫk , e k → 0, mas a
                                     x c
    sequˆncia {x k } converge para um ponto n˜o regular, ou n˜o converge.
           e                                       a             a
    Isto normalmente ocorre quando o problema original ´ invi´vel.
                                                             e    a
  3 {x k } converge para um ponto vi´vel regular. Este ´ o caso mais
                                          a                e
    comum. Pode tamb´m ocorrer que {x k } convirja para um ponto
                             e
    vi´vel n˜o regular, indicando que neste caso n˜o existem os
       a     a                                        a
    multiplicadores associados a x ∗ e a sequˆncia {λk + c k h(x k )} diverge
                                                 e
    e n˜o possui ponto limite.
         a
A experiˆncia sugere que, normalmente, ´ bastante confi´vel e que, no
        e                                e             a
m´ınimo, converge para um m´ ınimo local do problema. O seu fracasso ´
                                                                     e
norlmalmente associado ao malcondiconamento de min Lc (·, λk ), x ∈ X
quando c k → ∞.
                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Penalidades Quadr´ticas: malcondicionamento
                 a



                                   1 2     2
                        min          x + x2
                                   2 1
                                       x1 = 1


                            1 2                   c
              Lc (x, λ) =     x + x2 + λ(x1 − 1) + (x1 − 1)2
                                   2
                            2 1                   2

                                              1                           1+c 0
           ∇2 Lc (x, λ) = I + c
            xx                                         1 0        =
                                              0                            0  1
                 2
Autovalores de ∇xx Lc (x, λ) : 1 + c e 1. Quando c → ∞, o problema
torna-se malcondicionado.


                  Alexandre Salles da Cunha       Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Modifica¸˜es no M´todo de Penalidades Quadr´ticas
       co       e                         a
   A cada itera¸˜o k + 1, fazemos λk+1 ← λk + c k h(x k ), como uma
               ca
   melhor aproxima¸˜o para o vetor de multiplicadores ´timo. Ent˜o
                    ca                                o           a
   minimizamos Lc (·, λk+1 ). O m´todo baseado nesta aproxima¸˜o de
                                 e                             ca
   multiplicadores ´ chamado de M´todo dos Multiplicadores.
                   e               e
   Para evitar o malcondicionamento, recomenda-se empregar o M´todo
                                                              e
   de Newton para minimizar Lc (·, λk ).
   Al´m disto, ´ usual empregar x k como ponto de partida para a
     e         e
   minimiza¸˜o irrestrita de Lc (·, λk+1 ).
           ca
   A vantagem do uso combinado destas id´ias ´ poder empregar, em
                                           e e
   virtude de uma melhor aproxima¸˜o de λ∗ , uma taxa menor de
                                    ca
   crescimento da penalidade c k . Assim sendo, h´ uma tendˆncia do
                                                 a         e
   problema ser menos malcondicionado.
   Se c k aumenta muito rapidamente, a sequˆncia {x k } tende a
                                           e
   convergir mais rapidamente, mas o problema de malcondicionamento
   deve ser mais evidente.
                 Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                     ca   a                   co
Restri¸˜es de Desigualdades
      co


               (P) min                f (x)
                              hi (x) = 0 i = 1, . . . , m
                              gj (x) ≤ 0 j = 1, . . . , r

   Dado x vi´vel, vamos designar por A(x) = {j : g (x) = 0} o conjunto
             a
   dos ´
       ındices de restri¸˜es de desigualdades que s˜o justas para x.
                        co                          a
   Vamos assumir que x ∗ seja um m´   ınimo local para (P). Neste caso, x ∗
   tamb´m deve ser um m´
         e                  ınimo local para o programa abaixo:
                (PE) min                      f (x)
                                   hi (x) = 0 i = 1, . . . , m
                                   gj (x) = 0          j ∈ A(x ∗ )
   no qual as restri¸˜es de desigualdades folgadas em x ∗ (j ∈ A(x ∗ ))
                    co
   foram eliminadas.
                  Alexandre Salles da Cunha       Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Analogia
   Esta observa¸˜o nos leva a crer que se x ∗ for um ponto regular para o
                 ca
   programa (PE), deve haver multiplicadores λ∗ : i = 1, . . . , m e
                                                 i
   µj : j ∈ A(x ∗ ) tais que as CNPO sejam atendidas:
                              m
              ∇f (x ∗ ) +           λi ∇hi (x ∗ ) +               µj gj (x ∗ ) = 0
                             i =1                     j∈A(x ∗ )

   Atribuindo multiplicadores nulos para as restri¸˜es gj (·) tais que
                                                  co
   j ∈ A(x ∗ ) temos:
                               m
              ∇f (x ∗ ) +                    ∗
                               i =1 λi ∇hi (x ) + r µj gj (x ∗ ) = 0
                                                      j=1
                                    µj = 0, j ∈ A(x ∗ )

   Um fato importante sobre os multiplicadores associados a gj (·):
   devem ser n˜o negativos. Observe que se a restri¸˜o gj (x) ≤ 0 for
               a                                    ca
   relaxada para g( x) ≤ µj para µj > 0, o custo ´timo de P deve
                                                 o
   diminuir.
                  Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                      ca   a                   co
Generalizando o conceito de ponto regular



Defini¸˜o
     ca
Um vetor vi´vel x ´ dito regular se:
           a      e
    os gradientes das restri¸˜es de igualdade ∇hi (x) : i = 1, . . . , m e os
                            co
    gradientes das restri¸˜es de desigualdades ativas em x,
                         co
    ∇gj (x) : j ∈ A(x) s˜o linearmente independentes.
                        a

    Tamb´m dizemos que x ´ regular no caso em que n˜o h´ restri¸˜es de
          e                  e                         a a         co
    igualdade e todas as restri¸˜es de desigualdade s˜o inativas em x.
                               co                    a




                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Condi¸˜es de Karush-Kuhn-Tucker
     co
Teorema - Condi¸˜es de Karush-Kuhn-Tucker (KKT)
               co
Seja x ∗ um m´
             ınimo local regular para
                 (P) min            f (x)
                              hi (x) = 0 i = 1, . . . , m
                              gj (x) ≤ 0 j = 1, . . . , r

onde f , hi , gj : Rn → R, ∀i , j s˜o fun¸˜es continuamente diferenci´veis.
                                   a     co                          a
Ent˜o existem multiplicadores de Lagrange unicos λ∗ e µ∗ tais que:
   a                                             ´

                      ∇x L(x ∗ , λ∗ , µ∗ ) = 0
                             µ∗ ≥ 0
                                j              j = 1, . . . , r                (14)
                             µj ∗ =0            j ∈ A(x ∗ )

Se em adi¸˜o a isto, tivermos f , hi , gj ∈ C 2 , ∀i , j ent˜o:
         ca                                                 a
   y ′ ∇2 L(x ∗ , λ∗ , µ∗ )y ≥ 0 ∀y ∈ Rm :
        xx                                            ∇hi (x)′y = 0
                                                                               (15)
                                                ∇gj (x)′ y = 0, j ∈ A(x ∗ ).
Exemplo


                                1 2      2    2
                    min           (x + x2 + x3 )
                                2 1
                              x1 + x2 + x3 ≤ −3
                     1 2     2    2
            L(x, µ) = (x1 + x2 + x3 ) + µ(x1 + x2 + x3 + 3)
                     2

   Das CNPO, temos ∇Lx (x ∗ , λ∗ ) = 0 → xi∗ + µ∗ = 0, i = 1, 2, 3
   Precisamos avaliar dois casos:
     ◮   A restri¸˜o ˜ folgada e ent˜o µ∗ = 0. Neste caso x1 = x2 = x3 = 0,
                 ca e               a                       ∗    ∗     ∗

         violando a restri¸˜o do problema. Logo a restri¸˜o n˜o ´ folgada.
                          ca                            ca a e
     ◮   A restri¸˜o ´ justa. Observe ent˜o que x1 + x2 + x3 = −3 equivale a
                 ca e                    a        ∗   ∗    ∗

         impor tamb´m que (CNPO) ∇µ L(x , µ ) = 0.
                     e                       ∗  ∗

         Assim sendo, temos x1 = x2 = x3 = −1 e µ∗ = 1
                               ∗     ∗    ∗



                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Exemplo - continua



   Analisando as condi¸˜es de KKT de segunda ordem:
                         co
    ′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer
   y xx
   y : ∇h(x ∗ )y = 0, ∇gj (x ∗ )y = 0, j ∈ A(x ∗ ).

   Como n˜o h´ restri¸˜es de igualdade, temos que a condi¸˜o torna-se
           a a           co                                ca
    ′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer y ∈ R3 : y + y + y = 0.
   y xx                                            1   2   3

                       2
   Entretanto, como ∇xx L(x ∗ , µ∗ ) = diag(1) ´ positiva definida, para
                                               e
   qualquer y (em particular satisfazendo y1 + y2 + y3 = 0) a condi¸˜o
                                                                     ca
   necess´ria de segunda ordem ´ atendida.
         a                       e




                 Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                     ca   a                   co
Condi¸˜es Suficientes de Segunda Ordem
     co

Proposi¸˜o
       ca
Condi¸˜es Suficientes de Segunda Ordem Assuma que f , g , h sejam
       co
fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn , λ∗ ∈ Rm , µ∗ ∈ Rr
   co                       a
satisfazendo:
      ∇x L(x ∗ , λ∗ , µ∗ ) = 0          h(x ∗ ) = 0                   g (x ∗ ) ≤ 0
             µ∗ ≥ 0
                j                      j = 1, . . . , r
             µ∗ = 0
                j                       j ∈ A(x ∗ )

    y ′ ∇xx L(x ∗ , λ∗ , µ∗ )y > 0                        para todo y satisfazendo:

      ∇hi (x ∗ )′ y = 0, ∀i = 1, . . . , m e ∇gj (x ∗ )′ y = 0, ∀j ∈ A(x ∗ ).
Assuma tamb´m que µ∗ > 0 para qualquer j ∈ A(x ∗ ).
            e        j
       ∗ ´ um m´
Ent˜o x e
   a           ınino local de f (x) restrito a h(x) = 0, g (x) ≤ 0.

                      Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
M´todo da Barreira
 e

Vamos considerar o Problema

                   min              f (x)
                            gj (x) ≤ 0 j = 1, . . . , r
                                  x ∈X

e definir o interior (relativo a X ) do conjunto de viabilidade como
S = {x ∈ X : gj (x) < 0, ∀j = 1, . . . , r }.

Assumimos que:
    S = ∅.

    Qualquer ponto vi´vel y ∈ S pode ser aproximado t˜o proximamente
                      a                              a
    quanto se queira por um ponto em x ∈ S. Isto ´, para qualquer δ > 0
                                      ˆ          e
    existe x ∈ S tal que x − y ≤ δ.
           ˆ             ˆ

                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Id´ias centrais do m´todo
  e                 e
    Vamos acrescentar uma fun¸˜o de custo B(x), denominada fun¸˜o
                                    ca                             ca
    barreira ` fun¸˜o objetivo, definida exclusivamente em S e vamos
             a    ca
    resolver uma sequˆncia de problemas, satisfazendo
                      e
    0 < ǫk+1 < ǫk , k = 0, 1, . . . , ǫk → 0 na medida em que k → ∞:
                             min       f (x) + ǫk B(x)
                                                  x ∈S
    A fun¸˜o barreira deve ser cont´
          ca                       ınua e na medida em que x tenda para
    a fronteira do conjunto, B(x) deve tender a ∞. Isto ´, B(x) deve ter
                                                        e
    uma descontinuidade na fronteira do conjunto de viabilidade.
    Fun¸˜es barreira usuais:
        co
                      r
      1   B(x) = −         ln{−gj (x)}
                     j=1
                      r
                              1
      2   B(x) = −
                           gj (x)
                     j=1
    Sendo gj (x) convexas, as fun¸˜es acima tamb´m o s˜o.
                                 co             e     a
                     Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                         ca   a                   co
Id´ias centrais do m´todo
  e                 e


Seja x k a solu¸˜o de:
               ca

                   (P k ) min           f (x) + ǫk B(x)
                                                  x ∈ S.

    A sequˆncia {x k } pertence a S.
          e
    Na medida em que k → ∞ e por consequˆncia ǫk → 0, a contribui¸˜o
                                              e                        ca
    do termo barreira, ǫk B(x), deve tender a zero, para todo ponto x ∈ S.
    Assim sendo, com a evolu¸˜o das itera¸˜es, pontos pr´ximos a
                             ca           co             o
    fronteira ter˜o sua componente de custo decorrente do termo de
                 a
    barreira minorado, como deveria ser, caso o ´timo esteja na fronteira.
                                                o



                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Principal resultado te´rico
                      o



Proposi¸˜o
       ca
Todo ponto limite da sequˆncia {x k } gerada pelo M´todo da Barreira ´
                         e                         e                 e
um ponto de m´ınimo global do problema original.


Observa¸˜es:
       co

             ıcito que o problema ´ convexo ou que x k ´ um ´timo global
    Est´ impl´
       a                          e                    e    o
    do problema P k .




                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Exemplo



                  1 2     2
min     f (x) =    (x + x2 )                     Solu¸˜o ´tima: x ∗ = (2, 0).
                                                     ca o
                  2 1
                      2 ≤ x1

      Assumindo a fun¸˜o barreira logaritmica, B(x) = −ln(x1 − 2),
                     ca
      impondo as CNPQ ao problema P k temos:

                            1 2    2
      x k ∈ arg minx1 >2     (x + x2 ) − ǫk ln(x1 − 2)               = 1+            1 + ǫk , 0
                            2 1
                k
      limǫk →0 x1 = 2



                     Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                         ca   a                   co
Exemplo - continua

                1 2        2
            min   (x + x2 ) − ǫk ln(x1 − 2) : x1 > 2
                2 1
Curvas de n´ para P k : ǫ = 0.3 (esquerda) e ǫ = 0.03 (direita).
           ıvel




                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co

[Alexandre] 8. Não Linear Restrita

  • 1.
    Programa¸˜o N˜o Linearcom Restri¸˜es ca a co Alexandre Salles da Cunha DCC-UFMG, Mar¸o 2010 c Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 2.
    Defini¸˜o do Problema ca Problema de Otimiza¸˜o sobre um conjunto convexo ca minimize f (x) (1) x ∈X (2) Vamos assumir que X = ∅ ´ um conjunto convexo. e O conjunto X ´ normalmente definido por um conjunto de restri¸˜es e co n˜o lineares h(x) = 0 e g (x) ≤ 0, onde: a ◮ h : Rn → Rm ◮ g : Rn → Rp Assumimos que f ∈ C 2 : Rn → R.
  • 3.
    Algumas observa¸˜es preliminares co Se f for convexa sobre X , o Problema de Otimiza¸˜o ´ Convexo e ca e qualquer ´timo local do problema ´ um ´timo global. o e o Assim como no Problema de Otimiza¸˜o Irrestrita, no Problema de ca Otimiza¸˜o com restri¸˜es, esperamos que, em um ponto candidato a ca co m´ınimo x ∗ , a varia¸˜o de primeira ordem (∇f (x ∗ ))′ △x ≥ 0 seja ca verificada para qualquer dire¸˜o △x vi´vel. ca a Este problema generaliza o Problema de Programa¸˜o N˜o-Linear ca a Irrestrito.
  • 4.
    Panorama dos M´todosque iremos discutir neste curso e M´todos Primais: e ◮ M´todo de Dire¸oes Vi´veis e c˜ a ◮ M´todo do Gradiente Projetado e ◮ Particularmente adequados quando o dom´ ´ um poliedro e a fun¸˜o ınio e ca objetivo ´ n˜o linear, ou quando obter uma dire¸˜o vi´vel ou projetar e a ca a sobre o conjunto forem f´ceis de serem resolvidas. a M´todos baseados em Multiplicadores de Lagrange: e ◮ Penalidades ◮ Barreiras ◮ Transformam o problema com restri¸oes em uma s´rie de problemas c˜ e irrestritos, envolvendo uma alta penalidade pela viola¸˜o das restri¸oes. ca c˜ A solu¸˜o destes problemas irrestritos fornece, assintoticamente, a ca solu¸˜o do problema original. ca Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 5.
    Condi¸˜es de Otimalidade co Proposi¸˜o ca Seja x ∗ um m´ ınimo local de f em um conjunto convexo X . Ent˜o: a 1 ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X 2 Se f for convexa sobre X , ent˜o a condi¸˜o acima ´ uma condi¸˜o a ca e ca suficiente para x ∗ minimizar f em X . Prova Parte 1 Suponha ∇f (x ∗ )′ (x − x ∗ ) < 0, para algum x ∈ X . Pelo Teorema do Valor Central, temos que para todo ǫ > 0, existe s ∈ [0, 1] tal que: f (x ∗ + ǫ(x − x ∗ )) = f (x ∗ ) + ǫ∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ ) Pela continuidade de f , temos que para ǫ > 0 suficientemente pequeno, ∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ ) < 0 e ent˜o f (x ∗ + ǫ(x − x ∗ )) < f (x ∗ ). a Como o conjunto X ´ convexo, temos que x ∗ + ǫ(x − x ∗ ) ´ vi´vel para e e a todo ǫ ∈ [0, 1] e ent˜o contradizemos a otimalidade de x a ∗.
  • 6.
    Condi¸˜es de Otimalidade co Prova Parte 2 Pela convexidade de f em X temos: f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ), ∀x ∈ X Pela parte 1 j´ demonstrada temos que ∇f (x ∗ )(x − x ∗ ) ≥ 0 a f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ) ≥ f (x ∗ ), ∀x ∈ X , e o resultado segue.
  • 7.
    Ponto estacion´rio a Defini¸˜o ca Um ponto x ∗ que satisfaz a condi¸˜o ca ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X ´ denominado ponto estacion´rio. e a Observe que se x ∗ ´ um ponto interior ou se X = Rn as condi¸˜es e co enunciadas equivalem ` ∇f (x ∗ ) = 0. a Assim sendo, estas condi¸˜es tamb´m podem ser satisfeitas para co e pontos de m´ximo ou mesmo outros pontos. a
  • 8.
    Se X n˜ofor convexo... a Al´m de serem n˜o suficientes, estas condi¸˜es podem falhar e a co Observe no exemplo (` direita) abaixo temos que: a ◮ e ınimo local, uma vez que ∇f (x ∗ )′ △x ≥ 0 para x ∗ ´ um ponto de m´ qualquer △x vi´vel,mas... a ◮ a condi¸˜o enunciada falha porque x − x ∗ n˜o ´ uma dire¸˜o vi´vel, ca a e ca a uma vez que X n˜o ´ convexo e ent˜o ∇f (x ∗ )′ (x − x ∗ ) < 0. a e a
  • 9.
    Restri¸˜es Ativas eInativas co Normalmente, o conjunto X ´ definido por restri¸˜es de igualdade e e co desigualdade: hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , p Consideremos cada uma das restri¸˜es gj (x) : j = 1, . . . , p e um co ponto x vi´vel para o problema em estudo. a Dizemos que gj (x) ´ ativa em x se gj (x) = 0. e Caso gj (x) < 0, gj (x) ´ inativa em x. e Por defini¸˜o, todas as restri¸˜es hi (x) : i = 1, . . . , m s˜o ativas. ca co a
  • 10.
    Otimiza¸˜o sobre umquadrante n˜o negativo ca a Considere o conjunto convexo X = {x ∈ Rn : xi ≥ 0, ∀i = 1, . . . , n}. Observe que a condi¸˜o de otimalidade ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X ca equivale a: n ∂f (x ∗ ) (xi − xi∗ ) ≥ 0, ∀x = (x1 , . . . , xn ) ∈ X ∂xi i =1 Fixando dire¸˜es convenientes, dependendo da coordenada de i de xi∗ co estar ou n˜o na fronteira, temos que a equa¸˜o escalar anterior a ca implica em: ∂f (x ∗ ) ◮ ∂xi = 0, ∀i : xi > 0 ∂f (x ∗ ) ◮ ∂xi ≥ 0, ∀i = 1, . . . , n
  • 11.
    Otimiza¸˜o sobre umacaixa ca Como poderiam ser expressas as condi¸˜es de otimalidade caso co X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n} ∂f (x ∗ ) = 0 ∀i : ai < xi∗ < bi (3) ∂xi ∂f (x ∗ ) ≥0 ∀i : xi∗ = ai (4) ∂xi ∂f (x ∗ ) ≤0 ∀i : xi∗ = bi (5) ∂xi
  • 12.
    Otimiza¸˜o sobre umacaixa ca Como poderiam ser expressas as condi¸˜es de otimalidade caso co X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n} ∂f (x ∗ ) = 0 ∀i : ai < xi∗ < bi (3) ∂xi ∂f (x ∗ ) ≥0 ∀i : xi∗ = ai (4) ∂xi ∂f (x ∗ ) ≤0 ∀i : xi∗ = bi (5) ∂xi
  • 13.
    A importˆncia dasrestri¸˜es ativas a co Exemplo min f (x1 , x2 ) : x1 , x2 ≥ 0 ınimo, todas as derivadas parciais ∂f∂xi ) s˜o n˜o (x ∗ No ponto x ∗ de m´ a a negativas e s˜o nulas para as restri¸˜es xi ≥ 0 inativas. Se todas as a co restri¸˜es forem inativas em x ∗ , a condi¸˜o de otimalidade equivale a co ca ∇f (x ∗ ) = 0.
  • 14.
    A importˆncia dasrestri¸˜es ativas a co As restri¸˜es ativas em x ´ que restringem a viabilidade nas co e vizinhan¸as de um ponto. c Desempenham papel fundamental na dedu¸˜o das propriedades ca (condi¸˜es necess´rias e suficientes) de um ponto de m´ co a ınimo local. As restri¸˜es inativas n˜o influenciam em nada a viabilidade nas co a vizinhan¸as de x. c Caso soub´ssemos quais s˜o as restri¸˜es ativas no ponto de m´ e a co ınimo, poder´ ıamos concentrar nosso estudo apenas ` elas, tratando-as como a restri¸˜es de igualdade e ignorando as restri¸˜es inativas. co co
  • 15.
    M´todo de Dire¸˜esVi´veis e co a minimize f (x) x ∈X Vamos inicialmente estudar m´todos de otimiza¸˜o para o problema, e ca assumindo: X ´ convexo, n˜o vazio e a f ∈ C 1 , isto ´, X ´ continuamente diferenci´vel em X . e e a N˜o assumimos nenhuma estrutura ou caracter´ a ıstica especial ao conjunto de restri¸˜es que determinam X , a n˜o as citadas acima. co a
  • 16.
    M´todos de Dire¸˜esVi´veis e co a Defini¸˜o ca Dado um vetor vi´vel x, dizemos que d ´ uma dire¸˜o vi´vel em x se d ´ a e ca a e tal que x + αd ∈ X para qualquer α > 0 suficientemente pequeno.
  • 17.
    M´todo de Dire¸˜esVi´veis e co a Um m´todo nesta classe: e inicia com uma solu¸˜o x 0 e gera uma sequˆncia {x k } de pontos ca e vi´veis, atrav´s da itera¸˜o t´ a e ca ıpica: x k+1 = x k + αk d k se x k n˜o ´ um ponto estacion´rio, ent˜o a dire¸˜o d k escolhida a e a a ca satisfaz: ∇f (x k )′ d k < 0 o passo αk ´ escolhido de forma que x k + αk d k ∈ X . e se x k ´ estacion´rio, o m´todo p´ra (x k+1 = x k ). e a e a Vamos nos concentrar em m´todos de dire¸˜es vi´veis que s˜o e co a a m´todos de descida, isto ´, f (x e e k + αk d k ) < f (x k ).
  • 18.
    Um m´todo dedire¸˜es vi´veis, de descida e co a
  • 19.
    Caracteriza¸˜o da dire¸˜ovi´vel ca ca a Conforme j´ mencionamos, no caso onde X ´ convexo, uma dire¸˜o a e ca vi´vel d a k em x k pode ser caracterizada da seguinte maneira: d k = γ(x k − x k ), γ > 0 onde x k ´ algum ponto vi´vel. e a O m´todo opera ent˜o de acordo com a seguinte itera¸˜o: e a ca x k+1 = x k + αk d k , α ∈ [0, 1], onde a dire¸˜o d k al´m de vi´vel, deve ser de descida: ca e a ∇f (x k )′ (x k − x k ) < 0, x k ∈ X Observe que pela convexidade de X , x k + αk (x k − x k ) ∈ X para qualquer α ∈ [0, 1]. Al´m disto, se d k = γ(x k − x k ) ´ uma dire¸˜o de descida e x k ´ n˜o e e ca e a estacion´rio, temos a garantia de existir um αk para o qual a f (x k+1 ) < f (x k ).
  • 20.
    M´todos de dire¸˜esvi´veis: id´ias centrais e co a e Requerem uma solu¸˜o vi´vel inicial (m´todo de duas fases) ca a e Definem uma dire¸˜o vi´vel de descida, ou concluem que o ponto ´ ca a e estacion´rio. a Implementam uma itera¸˜o t´ ca ıpica que corresponde a uma busca unidirecional na dire¸˜o escolhida. ca Podem ser vistos como uma especializa¸˜o dos m´todos que vimos ca e at´ anteriormente para otimiza¸˜o irrestrita. e ca
  • 21.
    M´todo de Dire¸˜esvi´veis: determina¸˜o do passo e co a ca Minimiza¸˜o exata: αk = arg min ca α∈[0,1] f (x k + αd k ) Armijo: Fixados escalares β, σ > 0 tais que β ∈ (0, 1) e σ ∈ (0, 1), fazemos αk = β mk , onde mk ´ o primeiro inteiro n˜o negativo m tal e a que: f (x k ) − f (x k + β m d k ) ≥ −σβ m ∇f (x k )′ d k Ou seja, tentamos sucessivamente os passos αk = 1, β, β 2 , . . . at´ e satisfazer a condi¸˜o acima. ca
  • 22.
    M´todos de Dire¸˜esVi´veis: convergˆncia e co a e Proposi¸˜o ca Seja {x k } a sequˆncia gerada por um M´todo de Dire¸˜es Vi´veis e e co a x k+1 = x k + αk d k , onde as dire¸˜es {d k } s˜o gradiente relacionadas e αk co a ´ determinado atrav´s de minimiza¸˜o exata ou via regra de Armijo. e e ca Ent˜o, todo ponto limite de {x e a k } ´ um ponto estacion´rio. a
  • 23.
    Encontrando um pontoinicial Dado o problema minimize f (x) hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , p criamos e resolvemos o problema artificial (fase 1) m p minimize zi + yj i =1 j=1 hi (x) + zi = 0 i = 1, . . . , m gj (x) − yj ≤ 0 j = 1, . . . , p yj ≥ 0 j = 1, . . . , p Iniciamos o m´todo com x = (0, . . . , 0) e o vetor y e z calculados e para viabilizar o programa acima. Ao final da fase 1, caso a fun¸˜oca objetivo seja nula, dispomos de um ponto inicial vi´vel para o a programa original.
  • 24.
    M´todo do GradienteCondicional e Os m´todos nesta classe se diferenciam em como a dire¸˜o vi´vel, de e ca a descida ´ obtida. Um dos m´todos mais usados nesta classe ´ o Gradiente e e e Condicional: O problema de obter uma dire¸˜o vi´vel com propriedade de descida ca a em x k pode ser formulado como: min ∇f (x k )′ (x − x k ) x ∈X Se X ´ compacto, o programa acima ´ limitado. Caso X n˜o seja e e a limitado, impomos restri¸˜es lineares do tipo x ∞ ≤ 1 e resolvemos co o programa. Se o valor ´timo do programa auxiliar for negativo, encontramos uma o dire¸˜o vi´vel, de descida. ca a
  • 25.
    Obtendo uma dire¸˜ovi´vel ca a Observe que o programa auxiliar envolve o mesmo conjunto de restri¸˜es que do original, mas a fun¸˜o objetivo ´ linear. co ca e No caso das restri¸˜es que definem X serem n˜o lineares, o programa co a auxiliar ´ t˜o complicado quanto o programa original. e a Os m´todos de dire¸˜es vi´veis, em particular o do Gradiente e co a Condicional, s˜o particularmente interessantes quando X ´ um a e poliedro, uma vez que o subproblema ´ um Programa Linear. e
  • 26.
    Gradiente Condicional quandoX ´ um poliedro e Se o m´todo Simplex ´ usado para resolver o subproblema, x k sempre e e ´ um ponto extremo de X . e Por quˆ a dire¸˜o d k que resolve o subproblema n˜o ´ contr´ria a e ca a e a ∇f (x k ), se x k for um ponto interior ?
  • 27.
    M´todo do GradienteCondicional: exemplo num´rico e e Problema Quadr´tico a 1 2 2 2 minimize f (x) = (x1 + x2 + 0.1x3 ) + 0.55x3 2 x1 + x2 + x3 = 1 x ≥0 Subproblema associado - determina¸˜o da dire¸˜o vi´vel, de descida ca ca a minimize k k k (x1 )x1 + (x2 )x2 + (0.1x3 + 0.55)x3 + + (−(x1 )2 − (x2 )2 − (x3 )(0.1x3 + 0.55) k k k k x1 + x2 + x3 = 1 x ≥0 que pode ser resolvido de forma gulosa. gradcondicional.sci
  • 28.
    M´todo do GradienteCondicional: exemplo num´rico e e Vamos implementar o m´todo considerando: e x 0 = 1 (1, 1, 1)′ e tamb´m x 0 = (1, 0, 0)′ 3 e Passo de Armijo. Condi¸˜o de parada definida na resolu¸˜o do subproblema: ca ca ∇f (x k )′ d k ≥ −1.0E − 4 ∇f (x k ) d k
  • 29.
    Taxa de Convergˆnciado M´todo do Gradiente Condicional e e Se a regra de Armijo ou a minimiza¸˜o exata forem empregadas ca para se determinar o αk , pode-se demonstrar que as dire¸˜es geradas co s˜o gradiente relacionadas e, ent˜o, a a todo ponto limite da sequˆncia gerada e pelo m´todo ´ um ponto estacion´rio. e e a Apesar disto, a taxa de convergˆncia e do m´todo ´ baixa: os pontos x k e e gerados s˜o tais que a dire¸˜o d k ´ a ca e quase ortogonal ´ dire¸˜o que levaria a ca ao ´timo, a partir do ponto x k o (zig-zag). Veja a figura:
  • 30.
    M´todo do GradienteProjetado e Mover ao longo da dire¸˜o contr´ria ao gradiente n˜o garante a ca a a viabilidade do ponto obtido, caso o ponto de origem esteja na fronteira do conjunto de viabilidade. O M´todo do Gradiente Projetado consiste em projetar o vetor e contr´rio ao gradiente no conjunto X , de forma que aprimore a a fun¸˜o objetivo e garanta viabilidade. ca Do ponto de vista computacional, a principal desvantagem do m´todo e ´ o elevando custo associado ` proje¸˜o, em cada itera¸˜o. e a ca ca O m´todo ´ uma boa alternativa quando a opera¸˜o de proje¸˜o pode e e ca ca ser feita com baixo custo computacional.
  • 31.
    O problema deprojetar z ∈ Rn em X convexo, fechado Proje¸˜o ca Consiste em encontrar um vetor x ∗ ∈ X , cuja distˆncia a z seja m´ a ınima: minimize z −x x ∈X Alguns fatos sobre a proje¸˜o ca Para todo z ∈ Rn existe um x ∗ ∈ X unico que minimiza z − x ´ sobre todo x ∈ X . Este vetor ´ chamado proje¸˜o de z em X . e ca Usualmente denominamos x ∗ = [z]+ . Dado z ∈ Rn , x ∗ = [z]+ se e somente se (z − x ∗ )(x − x ∗ ) ≤ 0, ∀x ∈ X . No caso de X ser um subespa¸o, x ∗ ∈ X ´ a proje¸˜o de z em X se e c e ca somente se z − x ∗ for ortogonal a X , isto ´: (z − x ∗ )x = 0, ∀x ∈ X . e
  • 32.
    Gradiente projetado Vamos supor que o nosso problema de otimiza¸˜o seja ca minimize f (x) Ax ≤ b Ex = e onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e X = {x ∈ Rn : Ax ≤ b, Ex = e}. e que disponhamos de um ponto vi´vel x k na fronteira do conjunto de a viabilidade X . Assuma ent˜o que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ], a 1 2 b ′ = [b1 , b2 ]. ′ ′ Suponha tamb´m que f seja diferenci´vel em x k . e a Como fazemos para projetar −∇f (x k ) na face de X ativa em x k ?
  • 33.
    Resolvemos o seguinteProblema de Otimiza¸˜o Quadr´tica ca a minimize x − (−∇f (x k )) A 1 x = b1 A 2 x ≤ b2 Ex = e cuja solu¸˜o (obtida analiticamente) ´ x ∗ = −P∇f (x k ) onde a matriz P ca e (chamada de matriz de proje¸˜o) ´ dada por: ca e P = I − M ′ (MM ′ )−1 M e a matriz M corresponde ˜s linhas das restri¸˜es ativas em x k : a co M ′ = [A′ , E ′ ]. 1
  • 34.
    Matrizes de Proje¸˜o ca Defini¸˜o ca Assuma que P ∈ Rn×n seja uma matriz quadrada de ordem n. P ´ e chamada matriz de proje¸˜o se: ca P = P′ PP = P Proposi¸˜o ca Seja P uma matriz quadrada de ordem n. Ent˜o, o seguinte ´ verdadeiro: a e 1 Se P ´ uma matriz de proje¸˜o, ent˜o P ´ positiva semi definda. e ca a e 2 P ´ uma matriz de proje¸˜o se e somente se I − P ´ uma matriz de e ca e proje¸˜o. ca 3 Seja P uma matriz de proje¸˜o e Q = I − P. Ent˜o os subespa¸os ca a c lineares L = {Px : x ∈ Rn } e L⊥ = {Qx : x ∈ Rn } s˜o ortogonais. a Al´m disto, qualquer x ∈ Rn pode ser escrito como x = p + q onde e p ∈ L, q ∈ L⊥ , atrav´s de p, q unicos. e ´
  • 35.
    Matrizes de Proje¸˜o ca Prova 1 Seja x ∈ Rn um vetor arbitr´rio. Ent˜o, se P ´ uma matriz de a a e proje¸˜o, x ′ Px = x ′ PPx = x ′ P ′ Px = Px 2 ≥ 0, logo P ´ positiva ca e semidefinida. 2 ´ Obvio. 3 Claramente L, L⊥ s˜o subespa¸os lineares. a c Uma vez que P ′ Q = P ′ (I − P) = P − P ′ P = 0, L, L⊥ s˜o de fato a ortogonais. (Unicidade) suponha que x = p ′ + q ′ e que x = p + q. Ent˜oa subtraindo a primeira da segunda temos p − p ′ = q p rime − q. Uma vez que L ∩ L⊥ = 0, p − p ′ = q ′ − q = 0 e a representa¸˜o ´ unica. ca e ´
  • 36.
    Interpreta¸˜o ca Dado z ∈ Rn temos que (Pz)′ , (I − P)z = 0. Ou seja, a aplica¸˜o ca Pz projeta z no espa¸o ortogonal ao da aplica¸˜o Qz = (I − P)z. c ca Assim sendo podemos escrever que z ´ a soma direta de Pz e Qz ou e seja, z = Pz ⊕ Qz.
  • 37.
    Gradiente Projetado -Problema com restri¸˜es lineares co minimize f (x) Ax ≤ b Ex = e onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e X = {x ∈ Rn : Ax ≤ b, Ex = e}. Id´ia central e Dado x k , se movemos na dire¸˜o −∇f (x k ), podemos perder ca viabilidade. Para preservar viabilidade, projetamos −∇f (x k ) na face ativa de X ativa (em rela¸˜o ` x k , usando uma matriz de proje¸˜o P adequada) ca a ca e nos movemos na dire¸˜o d k = −P∇f (x k ). ca
  • 38.
    Caracteriza¸˜o de Dire¸˜esVi´veis ca co a Proposi¸˜o ca Considere o poliedro X = {x ∈ Rn : Ax ≤ b, Ex = e} que definimos. Suponha que x k ∈ X e que A1 x k = b1 , A2 x k < b2 , A′ = [A′ , A′ ], b ′ = [b1 , b2 ]. 1 2 ′ ′ Ent˜o, um vetor d k ´ vi´vel em x k se e somente se A1 d k ≤ 0, Ed k = 0. a e a (A demonstra¸˜o ´ ´bvia). ca e o
  • 39.
    Gradiente projetado -X ´ um poliedro e Proposi¸˜o ca Considere o problema minx∈X definido acima. Assuma que x k seja um ponto vi´vel tal que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ], a 1 2 b ′ = [b1 , b2 ]. Suponha tamb´m, que f seja diferenci´vel em x k . Ent˜o: ′ ′ e a a 1 Se P ´ uma matriz de proje¸˜o tal que P∇f (x k ) = 0, ent˜o e ca a d k = −P∇f (x k ) ´ uma dire¸˜o de descida de f em x k . e ca 2 Al´m disto, se M ′ = [A1 , E ′ ] possui posto completo e se e ′ P =I −M ′ (MM ′ )−1 M, ent˜o d k ´ uma dire¸˜o de descida, vi´vel. a e ca a
  • 40.
    Gradiente projetado -X ´ um poliedro e Prova 1 (−P∇f (x k ) ´ dire¸˜o de descida) e ca Observe que: ∇f (x k )′ d k = −∇f (x k )′ P∇f (x k ) = −∇f (x k )′ P ′ P∇f (x k ) = − P∇f (x k ) < 0, uma vez que P ´ positiva e semi-definda e, pelo enunciado ∇f (x k )′ P = 0. Ent˜o d k ´ uma a e dire¸˜o de descida. ca 2 (−P∇f (x k ) ´ dire¸˜o vi´vel) e ca a Se M possui posto completo, (MM ′ ) ´ n˜o singular e ent˜o: e a a P = I − M ′ (MM ′ )−1 M MP = M − MM ′ (MM ′ )−1 M = M − IM = 0 Logo Md k = −MP∇f (x k ) = 0 Se Md k = 0 temos A1 d k = 0, Ed k = 0 e d k ´ vi´vel. e a
  • 41.
    Interpreta¸˜o Geom´trica doM´todo ca e e Uma vez que MP = 0 temos que A1 P = 0, EP = 0 e ent˜o a matriz a de proje¸˜o P projeta cada linha de A1 e de E no vetor nulo. ca Entretanto, as linhas de A1 e de E s˜o os gradientes das restri¸˜es a co ativas em x k , a matriz P ´ na verdade a matriz que projeta os e gradientes das restri¸˜es ativas em x k no vetor zero. co Assim sendo, P∇f (x k ) corresponde ` proje¸˜o de ∇f (x k ) no espa¸o a ca c nulo das restri¸˜es ativas. co Veja: MP∇f (x k ) = 0, logo, P∇f (x k ) ∈ N (M)
  • 42.
    Teoria de Multiplicadoresde Lagrange Vamos considerar os problemas de otimiza¸˜o definidos por restri¸˜es de ca co igualdade: minimize f (x) hi (x) = 0 i = 1, . . . , m onde f (x) : Rn → R, hi (x) : Rn → R, ∀i = 1, . . . , m s˜o func˜es a o continuamente diferenci´veis. a Condi¸˜es Necess´rias de Otimalidade co a O nosso principal resultado ´ o seguinte: se x ∗ ´ um ponto de m´ e e ınimo local, ent˜o existem escalares λi : i = 1, . . . , m, denominados a Multiplicadores de Lagrange tais que vale a seguinte equa¸˜o vetorial: ca m ∗ ∇f (x ) + λi ∇hi (x ∗ ) = 0 i =1
  • 43.
    Interpretando este resultado m ∗ ∇f (x ) + λi ∇hi (x ∗ ) = 0 i =1 O gradiente da fun¸˜o objetivo ∇f (x ∗ ) pertence ao subespa¸o gerado ca c pelo gradiente ∇hi (x ∗ ) das restri¸˜es ativas em x ∗ . co Exemplo min x1 + x2 2 2 x1 + x2 = 2
  • 44.
    Interpretando este resultado Defini¸˜o ca Definimos o subespa¸o de vari¸˜es nulas de primeira ordem, isto ´, o c co e subespa¸o para o qual o vetor x = x ∗ + △x satisfaz as restri¸˜es h(x) = 0 c co at´ a primeira ordem, como: e V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m} Tome y ∈ V (x ∗ ); Uma vez que ∇f (x ∗ ) + m λi ∇hi (x ∗ ) = 0, temos que i =1 ∇f (x ∗ )′ y + m λi ∇hi (x ∗ )′ y = 0 e logo ∇f (x ∗ )′ y = 0. i =1 Ou seja, ∇f (x ∗ ) ⊥ V (x ∗ ). Ou seja, o gradiente de f em x ∗ ´ e ortogonal ao espa¸o das dire¸˜es vi´veis que geram varia¸˜o de c co a ca primeira ordem nula nas restri¸˜es. co Este resultado ´ an´lago ` condi¸˜o ∇f (x ∗ ) = 0 para Otimiza¸˜o e a a ca ca Irrestrita.
  • 45.
    Formalizando e demonstrandoo resultado Proposi¸˜o ca Seja x ∗ um ponto de m´ ınimo local de f sujeito `s restri¸˜es h(x) = 0. a co Assuma que os gradientes ∇h1 (x), . . . , ∇hm (x) sejam li em x ∗ . 1 Ent˜o, existe λ∗ = (λ∗ , . . . , λ∗ )′ unico, tal que: a 1 m ´ m ∇f (x ∗ ) + λ∗ ∇hi (x ∗ ) = 0 i i =1 2 Se f e h forem duas vezes continuamente diferenci´veis, temos que a m y′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y ≥ 0, ∀y ∈ V (x ∗ ) onde i i =1 V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m} denota o subespa¸o de primeira ordem de varia¸˜es vi´veis de h. c co a
  • 46.
    Um problema semmultiplicadores de Lagrange Antes de provar este resultado, vamos estudar este exemplo: minimize f (x) = x1 + x2 (6) 2 2 h1 (x) = (x1 − 1) + x2 −1 = 0 (7) 2 2 h2 (x) = (x1 − 2) + x2 −4 = 0 (8) Observe que o unico ponto vi´vel ´ (0, 0) e que neste ponto os gradientes ´ a e de h1 e h2 s˜o ld, n˜o permitindo escrever o gradiente de f em R2 . a a
  • 47.
    Pontos regulares Defini¸˜o ca Dizemos que um ponto x ´ regular se ∇hi (x), . . . , ∇hm (x) s˜o linearmente e a independentes em x. No exemplo anterior, o ponto ´timo n˜o ´ regular. o a e
  • 48.
    Demonstra¸˜o do Teoremados Multiplicadores de ca Lagrange A prova se baseia na aplica¸˜o do m´todo de penalidades. Basicamente ca e suas id´ias centrais s˜o: e a Relaxamos as restri¸˜es do problema co Adicionamos estas restri¸˜es ` fun¸˜o objetivo do problema, co a ca multiplicando cada restri¸˜o por uma penalidade. ca Aplicamos as condi¸˜es necess´rias de primeira e segunda orgem ao co a problema relaxado e Tomamos o limite destas condi¸˜es, na medida em que as penalidades co crescem.
  • 49.
    Prova - M´todode Penalidades e Fun¸˜o de custo penalizada ca k 2 α F k (x) = f (x) + h(x) + x − x ∗ 2 , k = 1, 2, . . . 2 2 onde: x ∗ : ´ um m´ e ınimo local de f (x) : h(x) = 0. k 2 O termo 2 h(x) penaliza a viola¸˜o das restri¸˜es ca co α O termo 2 x− x∗ 2´ inserido para facilitar a prova, garantindo que e e ınimo local estrito de f (x) + α x − x ∗ 2 sujeito a h(x) = 0. x ∗ ´ um m´ 2
  • 50.
    Prova - M´todode Penalidades e Dado que x ∗ ´ um m´ e ınimo local do problema, ´ poss´ escolher e ıvel ǫ > 0 tal que f (x ∗ ) ≤ f (x), ∀x ∈ S onde S = {x : h(x) = 0; x − x ∗ ≤ ǫ}. Ent˜o vamos assumir que x k resolve o seguinte problema: a minimize F k (x) x ∈S Observe que este otimizador x k existe, uma vez que S ´ compacto. e Vamos mostrar agora que {x k } converge para x ∗ .
  • 51.
    {x k }converge para x ∗ Para todo k temos: k α F k (x k ) = f (x k ) + 2 h(x) 2 + 2 xk − x∗ ≤ F k (x ∗ ) otimal. de x k = f (x ∗ ) j´ que h(x ∗ ) = 0 a Observe que f (x k ) ´ limitada em S. e Asssim sendo, o lado esquerdo da desigualdade acima precisa ficar limitado quando k → ∞ k 2 Para que isto ocorra, o termos 2 h(x) precisa assumir valor finito quando k → ∞. Logo, limk→∞ h(x) = 0. Ent˜o todo ponto limite x de {x k } satisfaz f (x) + α x − x ∗ ≤ f (x ∗ ). a 2 Uma vez que x, x ∗ ∈ S e x ´ vi´vel e pela otimalidade de x ∗ , isto ´ e a e f (x ∗ ) − f (x), x − x ∗ = 0. Logo x = x ∗ .
  • 52.
    Observa¸˜es co Note que x k ´ um ponto interior a S para k suficientemente grande. e Por este motivo, a partir deste valor suficientemente grande de k, x k ´ um m´ e ınimo local do problema irrestrito que consiste em minimizar F k (x). Note tamb´m que j´ dispomos de um algoritmo para obter x. e a Vamos provar o Teorema dos Multiplicadores de Lagrange, aplicando as condi¸˜es necess´rias de primeira ordem (irrestritas) a F k (x) em co a xk.
  • 53.
    Obtendo λ∗ Aplicando as CNPO a F k (x k ), temos: 0 = ∇F k (x k ) = ∇f (x k ) + k∇h(x k )h(x k ) + α(x k − x ∗ ) (9) Pelo enunciado, temos que ∇h(x ∗ ) possui posto completo, igual a m < n. Por continuidade, existe k suficientemente grande para o qual o posto de ∇h(x k ) tamb´m ´ m. Logo [∇h(x k )′ ∇h(x k )]−1 ´ n˜o e e e a singular. Pre multiplique (9) por [∇h(x k )′ ∇h(x k )]−1 e obtenha: kh(x k ) = −[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )′ ∇f (x k ) + α(x k − x ∗ ) Sabemos que k → ∞, x k → x ∗ e kh(x k ) converge para um valor finito. Denonine ent˜o por a λ∗ = [∇h(x ∗ )′ ∇h(x ∗ )]−1 ∇h(x ∗ )′ ∇f (x ∗ ) Tome o limite em (9) quando k → ∞ e obtenha: ∇f (x ∗ ) + ∇h(x ∗ )λ∗ = 0
  • 54.
    Vamos agora provaras condi¸˜es de 2a. ordem co Aplicando as CNSO a F k (x k ) temos (diferenciando (9)) que a matriz: m 2 2 k k k k ∇ F (x ) = ∇ f (x )+ k∇h(x )∇h(x ) + k k ′ hi (x k )∇2 hi (x k )+ αI i =1 (10) ´ semi-positiva definida, para todo k suficientemente grande e α > 0. e Tome qualquer y ∈ V (x ∗ ) isto ´ y : ∇h(x ∗ )′ y = 0 e considere que y k e seja a proje¸˜o de y no espa¸o nulo de ∇h(x k )′ , isto ´: ca c e (I − P)y = y k = y − ∇h(x k )[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )y As condi¸˜es necess´rias de primeira ordem garantem que co a ∇h(x k )′ y k = 0 e como ∇2 F k (x k ) ´ semi-positiva definida, temos: e 0 ≤ (y k )′ ∇2 F k (x k )y k k )′ ∇2 f (x k ) + k m k 2 k k k 2 0 ≤ (y i =1 hi (x )∇ hi (x ) y + α y (11)
  • 55.
    Condi¸˜es de 2a.ordem - continua¸˜o co ca Uma vez que: ◮ khi (x k ) → λi ◮ xk → x∗ ◮ ∇h(x ∗ )′ y = 0 temos que y k → y e ent˜o temos: a m 0 ≤ y ′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y + α y i 2 (12) i =1 Uma vez que α > 0 pode ser arbitrariamente pequeno, temos: m 0 ≤ y′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y , ∀y ∈ V (x ∗ ) i (13) i =1 e a prova est´ completa. a
  • 56.
    A Fun¸˜o Lagrangeana ca Defini¸˜o ca Considere a fun¸˜o Lagrangeana L : Rn+m → R definida como: ca m L(x, λ) := f (x) + λi hi (x). i =1 Observe que as condi¸˜es necess´rias de Primeira Ordem, de Viabilidade co a Primal (hi (x) = 0, ∀i = 1, . . . , m) e as condi¸˜es necess´rias de segunda co a ordem podem ser escritas em termos de L(x, λ) como: m ∇x L(x ∗ , λ∗ ) = 0 ⇔ ∇f (x ∗ ) + ∗ ∗ i =1 λi ∇hi (x ) =0 ∇λ L(x ∗ , λ∗ ) = 0 ⇔ hi (x) = 0, ∀i = 1, . . . , m (viabilidade) y ′ ∇2 L(x ∗ , λ∗ )y xx ≥ 0, ∀y ∈ V (x ∗ ) ⇔ m y ′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y i i =1
  • 57.
    A fun¸˜o Lagrangena ca m L(x, λ) := f (x) + λi hi (x). i =1 Todo m´ınimo local regular deve ent˜o satisfazer o sistema de equa¸˜es em a co n + m vari´veis dado por: a ∇x L(x ∗ , λ∗ ) = 0 ∇λ L(x ∗ , λ∗ ) = 0 Cabe salientar que nem todo ponto que satisfizer o sistema acima ´ um e ponto de m´ınimo (recorde nossa experiˆncia com Otimiza¸˜o Irrestrita). e ca Um ponto de m´ximo pode tamb´m satisfazer o sistema acima. a e
  • 58.
    Fun¸˜o Lagrangeana -Exemplo ca 1 2 2 2 minimize x + x2 + x3 2 1 x1 + x2 + x3 = 3 Consideremos o vetor (x ∗ , λ∗ ) = (1, 1, 1, −1)′ Observe que ∇h(x ∗ ) = (1, 1, 1)′ (´ li), logo o ponto ´ regular. e e Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (1, 1, 1) − 1(1, 1, 1) = 0, logo as condi¸˜es necess´rias de primeira ordem s˜o satisfeitas. co a a Uma vez que ∇2 f (x ∗ ) = diag(1) e ∇2 h(x) = 03×3 , temos que x ′ ∇2 f (x ∗ )x > 0, ∀x ∈ Rn , em particular para y ∈ V (x ∗ ). Portanto x ∗ ´ um m´ e ınimo global para o problema.
  • 59.
    Interpreta¸˜o do usoda Fun¸˜o Langeana ca ca Criamos a fun¸˜o Lagrangeana para obter um modelo irrestrito, cujo ca objetivo coincide com o objetivo do problema original para qualquer solu¸˜o vi´vel. ca a Para qualquer valor dos multiplicadores λi , um ´timo x ∗ do problema o relaxado deve ser um ponto estacion´rio de L(·, λ). Esta ´ a condi¸˜o a e ca associada a ∇x L(x ∗ , λ∗ ) = 0. Impor as condi¸˜es ∇λ L(x ∗ , λ∗ ) implica em restringir os pontos co a ıveis de L(x ∗ , λ∗ ) `queles que satisfazem as estacion´rios admiss´ a restri¸˜es do problema original. co Assim sendo, se um ponto x ∗ satisfizer as condi¸˜es de ponto co estacion´rio (em x, λ) para o problema relaxado com multiplicadores a fixados em λ∗ , ele deve ser vi´vel e L(x ∗ , λ∗ ) = f (x ∗ ). a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 60.
    Fun¸˜o Lagrangeana -Exemplo ca 1 2 2 2 minimize − x + x2 + x3 2 1 x1 + x2 + x3 = 3 Este problema admite m´ ınimo ? Consideremos agora o vetor (x ∗ , λ∗ ) = (1, 1, 1, 1)′ ∇h(x ∗ ) = (1, 1, 1)′ e o ponto ´ regular. e Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (−1, −1, −1) + (1, 1, 1) = 0, logo as condi¸˜es necess´rias de primeira ordem s˜o satisfeitas. co a a Uma vez que ∇2 f (x ∗ ) = diag(−1) e ∇2 h(x) = 03×3 , as condi¸˜es co necess´rias de segunda ordem n˜o s˜o satisfeitas. a a a O conjunto X n˜o ´ compacto. a e
  • 61.
    Condi¸˜es Suficientes deOtimalidade co Proposi¸˜o - Prop 3.2.1 ca (Condi¸˜es Suficientes de Otimalidade) co Assuma que f e h sejam fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn e co a λ∈R m satisfazendo: 1 ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0 2 y ′ ∇2 L(x ∗ , λ∗ )y > 0 para todo y = 0, ∇h(x ∗ )′ y = 0. xx Ent˜o: a x ∗ ´ um m´ e ınimo local estrito de f sujeito a h(x) = 0. De fato, existem γ > 0 e ǫ > 0 tais que: f (x) ≥ f (x ∗ ) + γ ||x − x ∗ ||2 2 para qualquer x : h(x) = 0 e ||x − x ∗ || ≤ ǫ. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 62.
    Exemplo min −(x1 x2 + x1 x3 + x2 x3 ) x1 + x2 + x3 = 3 Fun¸˜o Lagrangeana ca L(x, λ) = −(x1 x2 + x1 x3 + x2 x3 ) + λ(x1 + x2 + x3 − 3) CNPO: ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0 que implica em: −x2 − x3 + λ∗ = 0 ∗ ∗ −x1 − x3 + λ∗ = 0 ∗ ∗ −x1 − x2 + λ∗ = 0 ∗ ∗ ∗ ∗ ∗ x1 + x2 + x3 = 0 cuja solu¸˜o unica ´ (x ∗ , λ∗ ) = (1, 1, 1, 2) ca ´ e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 63.
    Exemplo - continua Condi¸˜esSuficientes de Otimalidade: co   0 −1 −1 2 ∇xx L(x ∗ , λ∗ ) =  −1 0 −1  −1 −1 0 Observa¸˜es: co ∇2 L(x ∗ , λ∗ ) ´ semi-positiva definida. xx e Entretanto, para os vetores y : ∇h(x ∗ )′ y = 0 temos: ◮ y : ∇h(x ∗ )′ y = 0 → y1 + y2 + y3 = 0. ◮ y ′ ∇2 L(x ∗ , λ∗ )y = −y1 (y2 + y3 ) − y2 (y1 + y3 ) − y3 (y1 + y2 ) = xx 2 2 2 y1 + y2 + y3 > 0. 2 Logo, para os y : ∇h(x ∗ )′ y = 0, ∇xx L(x ∗ , λ∗ ) ´ positiva definida e as e condi¸˜es de segunda ordem s˜o verificadas. co a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 64.
    Demonstra¸˜o das Condi¸˜esSuficientes de Otimalidade ca co O entendimento da demonstra¸˜o da suficiˆncia destas condi¸˜es ´ ca e co e fundamental para entender porque os m´todos que iremos estudar e funcionam. Vamos usar uma fun¸˜o denominada Fun¸˜o Lagrangeana ca ca Aumentada que nada mais ´ que a Fun¸˜o Lagrangena de um e ca Problema de Otimiza¸˜o similar ao problema original, modificado ca apenas pela sua fun¸˜o objetivo, que passa a incorporar uma ca penalidade pela viola¸˜o das restri¸˜es h(x) = 0. ca co Antes de demonstrar as condi¸˜es suficientes, precisamos de alguns co resultados auxiliares. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 65.
    Alguns resultados auxiliares Teoremade Bolzano-Weierstrass Toda sequˆncia limitada no conjunto Rn possui uma subsequˆncia e e convergente. N˜o negatividade de A′ A a Seja A uma matriz m × n. Ent˜o a matriz sim´trica A′ A ´ uma matriz a e e positiva semidefinida. Lema Auxiliar Sejam P e Q duas matrizes sim´tricas. Assuma que Q seja semi-positiva e definida e que P ´ positiva definida no espa¸o nulo de Q. Isto ´, x ′ Px > 0 e c e para qualquer x : Qx = 0 ou, equivalentemente x : x ′ Qx = 0. Ent˜o existe a um escalar c tal que P + cQ ´ positiva definida para qualquer c > c. e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 66.
    Demonstra¸˜o do LemaAuxiliar ca Id´ia da prova: vamos assumir o contr´rio e obter uma contradi¸˜o. e a ca Assuma ent˜o que o resultado enunciado n˜o vale. Ent˜o, para a a a qualquer inteiro k, existe um vetor x k , ||x K || = 1 tal que: (x k )′ Px k + k(x k )′ Qx k ≤ 0 Uma vez que ||x k || = 1, a sequˆncia {x k } ´ limitada e pelo Teorema e e de Bolzano-Weierstrass, existe uma subsequˆncia {x k }k∈K que e converge para algum vetor x. Tomando o limite supremo da desigualdade acima temos: lim (x k )′ Px k + k(x k )′ Qx k ≤0 → k→∞,k∈K x ′ Px + lim k(x k )′ Qx k ≤0 k→∞,k∈K Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 67.
    Demonstra¸˜o do Lemaauxiliar - continua ca x ′ Px + lim k(x k )′ Qx k ≤0 k→∞,k∈K Para que o lado esquerdo seja limitado superiormente (≤ 0), temos que ter k(x k )′ Qx k → 0. Uma vez que a matriz Q ´ n˜o negativa e k → ∞, isto s´ ocorre se e a o (x k )Qx k → 0. Logo limk→∞,i ∈K (x k )′ Qx k = x ′ Qx = 0 e consequentemente x ′ Px ≤ 0. Portanto, x ´ tal que Qx = 0 (x pertence ao nulo de Q). e Logo x ′ Px > 0 (pelo pr´prio teorema) e temos uma contradi¸˜o ! o ca Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 68.
    O M´todo doLagrangeano Aumentado e Fun¸˜o Lagrangeana Aumentada ca c Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 2 onde c ´ um escalar positivo. e Observe que: A fun¸˜o Lc (x, λ) corresponde ` fun¸˜o Lagrangeana para o seguinte ca a ca problema: c min f (x) + ||h(x)||2 2 h(x) = 0 Minimizar este problema equivale a minimizar f (x) : h(x) = 0. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 69.
    Avaliando Lc (x,λ) e suas derivadas c Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 2 Primeira derivada de Lc em rela¸˜o a x ca m m ∇x Lc (x, λ) = ∇f (x) + i =1 λi ∇hi (x) +c i =1 hi (x)∇hi (x) Segunda derivada de Lc em rela¸˜o a x ca ∇2 Lc (x, λ) = xx m m 2 2 ∇ f (x) + λi ∇ hi (x) + c hi (x)∇2 hi (x) + c∇h(x)∇h(x)′ i =1 i =1 Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 70.
    Impondo as condi¸˜esnecess´rias para x ∗, λ∗ co a Se x ∗ , λ∗ satisfizerem as condi¸˜es necess´rias de 1a. ordem: co a m m ∇x Lc (x ∗ , λ∗ ) = ∇f (x ∗ ) + λi ∇hi (x ∗ ) + c hi (x ∗ )∇hi (x ∗ ) i =1 i =1 m = ∇f (x ∗ ) + λi ∇hi (x ∗ ) = ∇x L(x ∗ , λ∗ ) = 0 i =1 ∇2 Lc (x ∗ , λ∗ ) = xx m m ∇2 f (x ∗ ) + λi ∇2 hi (x ∗ ) + c hi (x ∗ )∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ = i =1 i =1 m ∇2 f (x ∗ ) + λi ∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ = i =1 ∇2 L(x ∗ , λ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ xx Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 71.
    Se as condi¸˜essuficientes de 2a. ordem forem impostas co Vamos assumir que (condi¸˜es suficientes descritas no Teorema) para co qualquer y ∈ Rm : ∇h(x ∗ )′ y = 0 (ou y ′ ∇h(x ∗ )∇h(x ∗ )′ y = 0) tenhamos: y ′ ∇2 L(x ∗ , λ∗ ) y > 0 xx Observe que: Aplicando o Lema Auxiliar, fazendo P = ∇2 L(x ∗ , λ∗ ) e xx Q = ∇h(x ∗ )∇h(x ∗ )′ (esta matriz ´ semipositiva definida), existe c e tal que ∇xx Lc (x ∗ , λ∗ ) ´ postivida definida. e Usando as condi¸˜es suficientes de otimalidade para otimiza¸˜o co ca irrestrita, conclu´ ∗ ´ um ´timo local irrestrito ımos que para c > c, x e o de Lc (·, λ∗ ). Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 72.
    Se as condi¸˜essuficientes de 2a. ordem forem impostas co Ent˜o x ∗ ´ um ´timo local para Lc (·, λ∗ ) a e o Em particular, existem γ > 0 e ǫ > 0 tais que γ Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) + ||x − x ∗ ||2 , ||x − x ∗ || < ǫ 2 Observe que para todo x vi´vel (h(x) = 0) temos Lc (x, λ∗ ) = f (x) e a ∇λ L(x ∗ , λ∗ ) = h(x ∗ ) = 0 Finalmente, temos que: γ γ f (x) = Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ )+ ||x−x ∗ ||2 = f (x ∗ )+ ||x−x ∗ ||2 ≥ f (x ∗ ) 2 2 para qualquer x : h(x) = 0 e ||x − x ∗ || < ǫ e a prova est´ completa ! a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 73.
    M´todos de Penalidadee Lagrangeano Aumentado e min f (x) h(x) = 0 x ∈X Vamos considerar o caso onde X = Rn . Vamos criar a fun¸˜o Lagrangena Aumentada associada ao Programa ca acima, para c > 0 c Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 . 2 Observe que o parˆmetro c controla a severidade da penaliza¸˜o da a ca viola¸˜o das restri¸˜es. ca co Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 74.
    Usando Lc (x,λ) em algoritmos Dois mecanismos s˜o normalmente usados para, atrav´s da minimiza¸˜o a e ca irrestrita de Lc (·, λ) fornecer pontos pr´ximos a x ∗ , um minimizador o (local) de f (x) : h(x) = 0. 1 Fazemos λ = λ∗ . Conforme mostramos, se c ´ maior que um valor c, e ent˜o existem γ > 0, ǫ > 0 tais que: a γ Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) + ||x − x ∗ ||2 , ∀x : ||x − x ∗ || < ǫ 2 Este resultado sugere que se λ ≈ λ∗ , uma razo´vel aproxima¸˜o de x ∗ a ca deve ser obtida via minimiza¸˜o irrestrita de Lc (· · · , λ). ca 2 Tomamos um valor bastante alto de c. Nestes casos, o custo da inviabilidade ´ elevado e ent˜o o m´ e a ınimo irrestrito de Lc (·, λ) deve ser quase vi´vel. Uma vez que Lc (x, λ) = f (x) para todo x vi´vel, a a devemos esperar Lc (x, λ) ≈ f (x) para x pr´ximo da viabilidade. o Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 75.
    Exemplo - abordagem1 1 2 2 onde o vetor primal-dual ´timo ´ o e min x + x2 ∗ , λ∗ ) = (1, 0, −1). 2 1 dado por (x x1 = 1 1 Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 , para c > 0. 2 2 2 Impondo ∇x Lc (x, λ) = 0, o m´ ınimo irrestrito possui coordenadas: ◮ x1 (c, λ) = c−λ . Logo para c > 0, temos c+1 limλ→λ∗ x1 (λ, c) = x1 (−1, c) = 1. Logo limλ→λ∗ x2 (λ, c) = 0 ◮ x2 (λ, c) = 0.
  • 76.
    Exemplo - abordagem2 pura 1 Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 . 2 2 2 x1 (c, λ) = c−λ . Logo limc→∞ c−λ = 1 = x1 c+1 c+1 ∗ ∗ x2 (c, λ) = 0. Logo limc→∞ x2 (c, λ) = 0 = x2 . Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 77.
    M´todo de PenalidadeQuadr´tica e a Consiste em resolver uma sequˆncia de Problemas: e m ck m min Lc k (x, λk ) = f (x) + k i =1 λi hi (x) + 2 i =1 hi (x) 2 x ∈X onde {λk } ´ uma sequˆncia em Rm e {c k } ´ uma sequˆncia de e e e e penalidades positivas. Na vers˜o original do m´todo (d´cada de 1960), os multiplicadores a e e n˜o eram aproximados; os multiplicadores eram fixados em zero. A a id´ia de aproxim´-los veio mais tarde. e a Vamos permitir que os multiplicadores sejam multiplicados, sem no momento definir como isto ocorrer´. a Para sua validade, o m´todo depende de incrementar c k para ∞. e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 78.
    M´todo Penalidades Quadr´ticas- Principal Resultado e a Proposi¸˜o ca Assuma que f , h s˜o fun¸˜es cont´ a co ınuas, que X ´ um conjunto fechado e e que o conjunto {x ∈ X : h(x) = 0} ´ n˜o vazio. Para k = 0, 1, . . . ,, seja e a x k um m´ ınimo global do problema min Lc k (x, λk ) x ∈ X, onde {λk } ´ limitada, 0 < c k < c k+1 , ∀k e c k → ∞. e Ent˜o todo ponto limite da sequˆncia {x k } ´ um m´ a e e ınimo global do problema ofiginal. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 79.
    Observa¸˜es co O resultado assume que o m´ ınimo global irretristo ´ obtido de forma e exata. Entretanto, os m´todos de otimiza¸˜o irrestrita s˜o terminados e ca a quando ||∇x Lc (x k , λk )|| ≤ ǫk , onde ǫk ´ um pequeno escalar. e Proposi¸˜o ca Assuma que f , h sejam fun¸˜es diferenci´veis e que X = Rn . Para co a k = 0, 1, . . . , assuma que x k satisfa¸a ||∇x Lc (x k , λk )|| ≤ ǫk , onde {λk } ´ c e limitada e {ǫk }, {c k } satisfazem: 0 < c k < c k+1 , ∀k, c k → ∞ 0 ≥ ǫk , ∀k, ǫk → 0. Assuma que a subsequˆncia {x k }K convirja para o vetor x ∗ tal que e ∇h(x ∗ ) possua posto m. Ent˜o: {λk + c k h(x k )}K → λ∗ , onde λ∗ em a conjunto com x ∗ satisfazem as condi¸˜es necess´rias de primeira ordem: co a ∇f (x ∗ ) + ∇h(x ∗ )′ λ∗ = 0, h(x ∗ ) = 0. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 80.
    Exemplo min x3 x +1=0 L(x, λ) = x 3 + λ(x + 1) c Lc (x, λ, c) = L(x, λ) + (x + 1)2 2 ∇x L(x ∗ , λ∗ ) = 0 → 3(x ∗ )2 + λ∗ = 0 ∇λ L(x ∗ , λ∗ ) = 0 → x ∗ = −1, λ∗ = −3 Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 81.
    Exemplo - continua NaFigura abaixo, indicamos f (x), L(x, λ∗ ), Lc (x, λ∗ ) para c = 9. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 82.
    Penalidades Quadr´ticas -desempenho na pr´tica a a Temos trˆs possibilidades: e 1 O m´todo n˜o funciona porque n˜o conseguimos satisfazer e a a ||∇x Lc (x k , λk )|| ≤ ǫk . Isto normalmente ocorre quando Lc (·, λk ) ´ e ilimitada inferiormente. 2 Conseguimos satisfazer ||∇ L (x k , λk )|| ≤ ǫk , e k → 0, mas a x c sequˆncia {x k } converge para um ponto n˜o regular, ou n˜o converge. e a a Isto normalmente ocorre quando o problema original ´ invi´vel. e a 3 {x k } converge para um ponto vi´vel regular. Este ´ o caso mais a e comum. Pode tamb´m ocorrer que {x k } convirja para um ponto e vi´vel n˜o regular, indicando que neste caso n˜o existem os a a a multiplicadores associados a x ∗ e a sequˆncia {λk + c k h(x k )} diverge e e n˜o possui ponto limite. a A experiˆncia sugere que, normalmente, ´ bastante confi´vel e que, no e e a m´ınimo, converge para um m´ ınimo local do problema. O seu fracasso ´ e norlmalmente associado ao malcondiconamento de min Lc (·, λk ), x ∈ X quando c k → ∞. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 83.
    Penalidades Quadr´ticas: malcondicionamento a 1 2 2 min x + x2 2 1 x1 = 1 1 2 c Lc (x, λ) = x + x2 + λ(x1 − 1) + (x1 − 1)2 2 2 1 2 1 1+c 0 ∇2 Lc (x, λ) = I + c xx 1 0 = 0 0 1 2 Autovalores de ∇xx Lc (x, λ) : 1 + c e 1. Quando c → ∞, o problema torna-se malcondicionado. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 84.
    Modifica¸˜es no M´todode Penalidades Quadr´ticas co e a A cada itera¸˜o k + 1, fazemos λk+1 ← λk + c k h(x k ), como uma ca melhor aproxima¸˜o para o vetor de multiplicadores ´timo. Ent˜o ca o a minimizamos Lc (·, λk+1 ). O m´todo baseado nesta aproxima¸˜o de e ca multiplicadores ´ chamado de M´todo dos Multiplicadores. e e Para evitar o malcondicionamento, recomenda-se empregar o M´todo e de Newton para minimizar Lc (·, λk ). Al´m disto, ´ usual empregar x k como ponto de partida para a e e minimiza¸˜o irrestrita de Lc (·, λk+1 ). ca A vantagem do uso combinado destas id´ias ´ poder empregar, em e e virtude de uma melhor aproxima¸˜o de λ∗ , uma taxa menor de ca crescimento da penalidade c k . Assim sendo, h´ uma tendˆncia do a e problema ser menos malcondicionado. Se c k aumenta muito rapidamente, a sequˆncia {x k } tende a e convergir mais rapidamente, mas o problema de malcondicionamento deve ser mais evidente. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 85.
    Restri¸˜es de Desigualdades co (P) min f (x) hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , r Dado x vi´vel, vamos designar por A(x) = {j : g (x) = 0} o conjunto a dos ´ ındices de restri¸˜es de desigualdades que s˜o justas para x. co a Vamos assumir que x ∗ seja um m´ ınimo local para (P). Neste caso, x ∗ tamb´m deve ser um m´ e ınimo local para o programa abaixo: (PE) min f (x) hi (x) = 0 i = 1, . . . , m gj (x) = 0 j ∈ A(x ∗ ) no qual as restri¸˜es de desigualdades folgadas em x ∗ (j ∈ A(x ∗ )) co foram eliminadas. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 86.
    Analogia Esta observa¸˜o nos leva a crer que se x ∗ for um ponto regular para o ca programa (PE), deve haver multiplicadores λ∗ : i = 1, . . . , m e i µj : j ∈ A(x ∗ ) tais que as CNPO sejam atendidas: m ∇f (x ∗ ) + λi ∇hi (x ∗ ) + µj gj (x ∗ ) = 0 i =1 j∈A(x ∗ ) Atribuindo multiplicadores nulos para as restri¸˜es gj (·) tais que co j ∈ A(x ∗ ) temos: m ∇f (x ∗ ) + ∗ i =1 λi ∇hi (x ) + r µj gj (x ∗ ) = 0 j=1 µj = 0, j ∈ A(x ∗ ) Um fato importante sobre os multiplicadores associados a gj (·): devem ser n˜o negativos. Observe que se a restri¸˜o gj (x) ≤ 0 for a ca relaxada para g( x) ≤ µj para µj > 0, o custo ´timo de P deve o diminuir. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 87.
    Generalizando o conceitode ponto regular Defini¸˜o ca Um vetor vi´vel x ´ dito regular se: a e os gradientes das restri¸˜es de igualdade ∇hi (x) : i = 1, . . . , m e os co gradientes das restri¸˜es de desigualdades ativas em x, co ∇gj (x) : j ∈ A(x) s˜o linearmente independentes. a Tamb´m dizemos que x ´ regular no caso em que n˜o h´ restri¸˜es de e e a a co igualdade e todas as restri¸˜es de desigualdade s˜o inativas em x. co a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 88.
    Condi¸˜es de Karush-Kuhn-Tucker co Teorema - Condi¸˜es de Karush-Kuhn-Tucker (KKT) co Seja x ∗ um m´ ınimo local regular para (P) min f (x) hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , r onde f , hi , gj : Rn → R, ∀i , j s˜o fun¸˜es continuamente diferenci´veis. a co a Ent˜o existem multiplicadores de Lagrange unicos λ∗ e µ∗ tais que: a ´ ∇x L(x ∗ , λ∗ , µ∗ ) = 0 µ∗ ≥ 0 j j = 1, . . . , r (14) µj ∗ =0 j ∈ A(x ∗ ) Se em adi¸˜o a isto, tivermos f , hi , gj ∈ C 2 , ∀i , j ent˜o: ca a y ′ ∇2 L(x ∗ , λ∗ , µ∗ )y ≥ 0 ∀y ∈ Rm : xx ∇hi (x)′y = 0 (15) ∇gj (x)′ y = 0, j ∈ A(x ∗ ).
  • 89.
    Exemplo 1 2 2 2 min (x + x2 + x3 ) 2 1 x1 + x2 + x3 ≤ −3 1 2 2 2 L(x, µ) = (x1 + x2 + x3 ) + µ(x1 + x2 + x3 + 3) 2 Das CNPO, temos ∇Lx (x ∗ , λ∗ ) = 0 → xi∗ + µ∗ = 0, i = 1, 2, 3 Precisamos avaliar dois casos: ◮ A restri¸˜o ˜ folgada e ent˜o µ∗ = 0. Neste caso x1 = x2 = x3 = 0, ca e a ∗ ∗ ∗ violando a restri¸˜o do problema. Logo a restri¸˜o n˜o ´ folgada. ca ca a e ◮ A restri¸˜o ´ justa. Observe ent˜o que x1 + x2 + x3 = −3 equivale a ca e a ∗ ∗ ∗ impor tamb´m que (CNPO) ∇µ L(x , µ ) = 0. e ∗ ∗ Assim sendo, temos x1 = x2 = x3 = −1 e µ∗ = 1 ∗ ∗ ∗ Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 90.
    Exemplo - continua Analisando as condi¸˜es de KKT de segunda ordem: co ′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer y xx y : ∇h(x ∗ )y = 0, ∇gj (x ∗ )y = 0, j ∈ A(x ∗ ). Como n˜o h´ restri¸˜es de igualdade, temos que a condi¸˜o torna-se a a co ca ′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer y ∈ R3 : y + y + y = 0. y xx 1 2 3 2 Entretanto, como ∇xx L(x ∗ , µ∗ ) = diag(1) ´ positiva definida, para e qualquer y (em particular satisfazendo y1 + y2 + y3 = 0) a condi¸˜o ca necess´ria de segunda ordem ´ atendida. a e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 91.
    Condi¸˜es Suficientes deSegunda Ordem co Proposi¸˜o ca Condi¸˜es Suficientes de Segunda Ordem Assuma que f , g , h sejam co fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn , λ∗ ∈ Rm , µ∗ ∈ Rr co a satisfazendo: ∇x L(x ∗ , λ∗ , µ∗ ) = 0 h(x ∗ ) = 0 g (x ∗ ) ≤ 0 µ∗ ≥ 0 j j = 1, . . . , r µ∗ = 0 j j ∈ A(x ∗ ) y ′ ∇xx L(x ∗ , λ∗ , µ∗ )y > 0 para todo y satisfazendo: ∇hi (x ∗ )′ y = 0, ∀i = 1, . . . , m e ∇gj (x ∗ )′ y = 0, ∀j ∈ A(x ∗ ). Assuma tamb´m que µ∗ > 0 para qualquer j ∈ A(x ∗ ). e j ∗ ´ um m´ Ent˜o x e a ınino local de f (x) restrito a h(x) = 0, g (x) ≤ 0. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 92.
    M´todo da Barreira e Vamos considerar o Problema min f (x) gj (x) ≤ 0 j = 1, . . . , r x ∈X e definir o interior (relativo a X ) do conjunto de viabilidade como S = {x ∈ X : gj (x) < 0, ∀j = 1, . . . , r }. Assumimos que: S = ∅. Qualquer ponto vi´vel y ∈ S pode ser aproximado t˜o proximamente a a quanto se queira por um ponto em x ∈ S. Isto ´, para qualquer δ > 0 ˆ e existe x ∈ S tal que x − y ≤ δ. ˆ ˆ Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 93.
    Id´ias centrais dom´todo e e Vamos acrescentar uma fun¸˜o de custo B(x), denominada fun¸˜o ca ca barreira ` fun¸˜o objetivo, definida exclusivamente em S e vamos a ca resolver uma sequˆncia de problemas, satisfazendo e 0 < ǫk+1 < ǫk , k = 0, 1, . . . , ǫk → 0 na medida em que k → ∞: min f (x) + ǫk B(x) x ∈S A fun¸˜o barreira deve ser cont´ ca ınua e na medida em que x tenda para a fronteira do conjunto, B(x) deve tender a ∞. Isto ´, B(x) deve ter e uma descontinuidade na fronteira do conjunto de viabilidade. Fun¸˜es barreira usuais: co r 1 B(x) = − ln{−gj (x)} j=1 r 1 2 B(x) = − gj (x) j=1 Sendo gj (x) convexas, as fun¸˜es acima tamb´m o s˜o. co e a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 94.
    Id´ias centrais dom´todo e e Seja x k a solu¸˜o de: ca (P k ) min f (x) + ǫk B(x) x ∈ S. A sequˆncia {x k } pertence a S. e Na medida em que k → ∞ e por consequˆncia ǫk → 0, a contribui¸˜o e ca do termo barreira, ǫk B(x), deve tender a zero, para todo ponto x ∈ S. Assim sendo, com a evolu¸˜o das itera¸˜es, pontos pr´ximos a ca co o fronteira ter˜o sua componente de custo decorrente do termo de a barreira minorado, como deveria ser, caso o ´timo esteja na fronteira. o Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 95.
    Principal resultado te´rico o Proposi¸˜o ca Todo ponto limite da sequˆncia {x k } gerada pelo M´todo da Barreira ´ e e e um ponto de m´ınimo global do problema original. Observa¸˜es: co ıcito que o problema ´ convexo ou que x k ´ um ´timo global Est´ impl´ a e e o do problema P k . Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 96.
    Exemplo 1 2 2 min f (x) = (x + x2 ) Solu¸˜o ´tima: x ∗ = (2, 0). ca o 2 1 2 ≤ x1 Assumindo a fun¸˜o barreira logaritmica, B(x) = −ln(x1 − 2), ca impondo as CNPQ ao problema P k temos: 1 2 2 x k ∈ arg minx1 >2 (x + x2 ) − ǫk ln(x1 − 2) = 1+ 1 + ǫk , 0 2 1 k limǫk →0 x1 = 2 Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 97.
    Exemplo - continua 1 2 2 min (x + x2 ) − ǫk ln(x1 − 2) : x1 > 2 2 1 Curvas de n´ para P k : ǫ = 0.3 (esquerda) e ǫ = 0.03 (direita). ıvel Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co