SlideShare uma empresa Scribd logo
1 de 97
Baixar para ler offline
Programa¸˜o N˜o Linear com Restri¸˜es
        ca a                     co

            Alexandre Salles da Cunha


            DCC-UFMG, Mar¸o 2010
                         c




     Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                         ca   a                   co
Defini¸˜o do Problema
     ca


Problema de Otimiza¸˜o sobre um conjunto convexo
                   ca

                        minimize   f (x)                          (1)
                                      x ∈X                        (2)

    Vamos assumir que X = ∅ ´ um conjunto convexo.
                                e
    O conjunto X ´ normalmente definido por um conjunto de restri¸˜es
                   e                                            co
    n˜o lineares h(x) = 0 e g (x) ≤ 0, onde:
     a
      ◮   h : Rn → Rm
      ◮   g : Rn → Rp
    Assumimos que f ∈ C 2 : Rn → R.
Algumas observa¸˜es preliminares
               co



   Se f for convexa sobre X , o Problema de Otimiza¸˜o ´ Convexo e
                                                   ca e
   qualquer ´timo local do problema ´ um ´timo global.
             o                       e    o

   Assim como no Problema de Otimiza¸˜o Irrestrita, no Problema de
                                          ca
   Otimiza¸˜o com restri¸˜es, esperamos que, em um ponto candidato a
           ca              co
   m´ınimo x ∗ , a varia¸˜o de primeira ordem (∇f (x ∗ ))′ △x ≥ 0 seja
                        ca
   verificada para qualquer dire¸˜o △x vi´vel.
                                  ca       a

   Este problema generaliza o Problema de Programa¸˜o N˜o-Linear
                                                  ca   a
   Irrestrito.
Panorama dos M´todos que iremos discutir neste curso
              e

   M´todos Primais:
    e
     ◮   M´todo de Dire¸oes Vi´veis
           e             c˜      a
     ◮   M´todo do Gradiente Projetado
           e
     ◮   Particularmente adequados quando o dom´ ´ um poliedro e a fun¸˜o
                                                  ınio e                     ca
         objetivo ´ n˜o linear, ou quando obter uma dire¸˜o vi´vel ou projetar
                  e a                                    ca   a
         sobre o conjunto forem f´ceis de serem resolvidas.
                                   a


   M´todos baseados em Multiplicadores de Lagrange:
    e
     ◮   Penalidades
     ◮   Barreiras
     ◮   Transformam o problema com restri¸oes em uma s´rie de problemas
                                             c˜              e
         irrestritos, envolvendo uma alta penalidade pela viola¸˜o das restri¸oes.
                                                               ca            c˜
         A solu¸˜o destes problemas irrestritos fornece, assintoticamente, a
                 ca
         solu¸˜o do problema original.
              ca



                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Condi¸˜es de Otimalidade
     co

Proposi¸˜o
       ca
Seja x ∗ um m´
             ınimo local de f em um conjunto convexo X . Ent˜o:
                                                            a
  1   ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X
  2   Se f for convexa sobre X , ent˜o a condi¸˜o acima ´ uma condi¸˜o
                                    a         ca        e          ca
      suficiente para x ∗ minimizar f em X .



Prova
Parte 1 Suponha ∇f (x ∗ )′ (x − x ∗ ) < 0, para algum x ∈ X . Pelo Teorema
do Valor Central, temos que para todo ǫ > 0, existe s ∈ [0, 1] tal que:

        f (x ∗ + ǫ(x − x ∗ )) = f (x ∗ ) + ǫ∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ )

Pela continuidade de f , temos que para ǫ > 0 suficientemente pequeno,
∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ ) < 0 e ent˜o f (x ∗ + ǫ(x − x ∗ )) < f (x ∗ ).
                                             a
Como o conjunto X ´ convexo, temos que x ∗ + ǫ(x − x ∗ ) ´ vi´vel para
                       e                                          e a
todo ǫ ∈ [0, 1] e ent˜o contradizemos a otimalidade de x
                      a                                        ∗.
Condi¸˜es de Otimalidade
     co



Prova
Parte 2
    Pela convexidade de f em X temos:

                  f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ), ∀x ∈ X

    Pela parte 1 j´ demonstrada temos que ∇f (x ∗ )(x − x ∗ ) ≥ 0
                  a

             f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ) ≥ f (x ∗ ), ∀x ∈ X ,

    e o resultado segue.
Ponto estacion´rio
              a



Defini¸˜o
     ca
Um ponto x ∗ que satisfaz a condi¸˜o
                                 ca

                     ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X

´ denominado ponto estacion´rio.
e                          a

    Observe que se x ∗ ´ um ponto interior ou se X = Rn as condi¸˜es
                       e                                        co
    enunciadas equivalem ` ∇f (x ∗ ) = 0.
                          a
    Assim sendo, estas condi¸˜es tamb´m podem ser satisfeitas para
                            co       e
    pontos de m´ximo ou mesmo outros pontos.
               a
Se X n˜o for convexo...
      a

    Al´m de serem n˜o suficientes, estas condi¸˜es podem falhar
      e            a                         co
    Observe no exemplo (` direita) abaixo temos que:
                        a
      ◮       e              ınimo local, uma vez que ∇f (x ∗ )′ △x ≥ 0 para
          x ∗ ´ um ponto de m´
          qualquer △x vi´vel,mas...
                         a
      ◮   a condi¸˜o enunciada falha porque x − x ∗ n˜o ´ uma dire¸˜o vi´vel,
                  ca                                 a e             ca  a
          uma vez que X n˜o ´ convexo e ent˜o ∇f (x ∗ )′ (x − x ∗ ) < 0.
                           a e               a
Restri¸˜es Ativas e Inativas
      co

Normalmente, o conjunto X ´ definido por restri¸˜es de igualdade e
                          e                   co
desigualdade:

                        hi (x) = 0 i = 1, . . . , m
                        gj (x) ≤ 0 j = 1, . . . , p


    Consideremos cada uma das restri¸˜es gj (x) : j = 1, . . . , p e um
                                     co
    ponto x vi´vel para o problema em estudo.
              a

    Dizemos que gj (x) ´ ativa em x se gj (x) = 0.
                       e

    Caso gj (x) < 0, gj (x) ´ inativa em x.
                            e

    Por defini¸˜o, todas as restri¸˜es hi (x) : i = 1, . . . , m s˜o ativas.
             ca                  co                              a
Otimiza¸˜o sobre um quadrante n˜o negativo
       ca                      a


Considere o conjunto convexo X = {x ∈ Rn : xi ≥ 0, ∀i = 1, . . . , n}.
    Observe que a condi¸˜o de otimalidade ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X
                       ca
    equivale a:
                        n
                              ∂f (x ∗ )
                                        (xi − xi∗ ) ≥ 0, ∀x = (x1 , . . . , xn ) ∈ X
                                ∂xi
                       i =1

    Fixando dire¸˜es convenientes, dependendo da coordenada de i de xi∗
                co
    estar ou n˜o na fronteira, temos que a equa¸˜o escalar anterior
              a                                ca
    implica em:
           ∂f (x ∗ )
       ◮
             ∂xi       = 0, ∀i : xi > 0
           ∂f (x ∗ )
       ◮
             ∂xi       ≥ 0, ∀i = 1, . . . , n
Otimiza¸˜o sobre uma caixa
       ca

Como poderiam ser expressas as condi¸˜es de otimalidade caso
                                    co

               X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n}




                   ∂f (x ∗ )
                             = 0 ∀i : ai < xi∗ < bi             (3)
                     ∂xi
                   ∂f (x ∗ )
                             ≥0     ∀i : xi∗ = ai               (4)
                     ∂xi
                   ∂f (x ∗ )
                             ≤0     ∀i : xi∗ = bi               (5)
                     ∂xi
Otimiza¸˜o sobre uma caixa
       ca

Como poderiam ser expressas as condi¸˜es de otimalidade caso
                                    co

               X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n}




                   ∂f (x ∗ )
                             = 0 ∀i : ai < xi∗ < bi             (3)
                     ∂xi
                   ∂f (x ∗ )
                             ≥0     ∀i : xi∗ = ai               (4)
                     ∂xi
                   ∂f (x ∗ )
                             ≤0     ∀i : xi∗ = bi               (5)
                     ∂xi
A importˆncia das restri¸˜es ativas
        a               co
Exemplo
                         min f (x1 , x2 ) : x1 , x2 ≥ 0
                   ınimo, todas as derivadas parciais ∂f∂xi ) s˜o n˜o
                                                         (x
                                                          ∗
No ponto x ∗ de m´                                             a a
negativas e s˜o nulas para as restri¸˜es xi ≥ 0 inativas. Se todas as
               a                     co
restri¸˜es forem inativas em x ∗ , a condi¸˜o de otimalidade equivale a
      co                                  ca
∇f (x ∗ ) = 0.
A importˆncia das restri¸˜es ativas
        a               co


    As restri¸˜es ativas em x ´ que restringem a viabilidade nas
             co               e
    vizinhan¸as de um ponto.
             c

    Desempenham papel fundamental na dedu¸˜o das propriedades
                                              ca
    (condi¸˜es necess´rias e suficientes) de um ponto de m´
          co         a                                   ınimo local.

    As restri¸˜es inativas n˜o influenciam em nada a viabilidade nas
             co             a
    vizinhan¸as de x.
             c

    Caso soub´ssemos quais s˜o as restri¸˜es ativas no ponto de m´
               e               a         co                        ınimo,
    poder´ ıamos concentrar nosso estudo apenas ` elas, tratando-as como
                                                  a
    restri¸˜es de igualdade e ignorando as restri¸˜es inativas.
          co                                     co
M´todo de Dire¸˜es Vi´veis
 e            co     a




                       minimize      f (x)
                                   x ∈X

Vamos inicialmente estudar m´todos de otimiza¸˜o para o problema,
                            e                ca
assumindo:
    X ´ convexo, n˜o vazio
      e           a
    f ∈ C 1 , isto ´, X ´ continuamente diferenci´vel em X .
                   e    e                        a
    N˜o assumimos nenhuma estrutura ou caracter´
      a                                           ıstica especial ao
    conjunto de restri¸˜es que determinam X , a n˜o as citadas acima.
                      co                         a
M´todos de Dire¸˜es Vi´veis
 e             co     a
Defini¸˜o
     ca
Dado um vetor vi´vel x, dizemos que d ´ uma dire¸˜o vi´vel em x se d ´
                a                     e         ca    a              e
tal que x + αd ∈ X para qualquer α > 0 suficientemente pequeno.
M´todo de Dire¸˜es Vi´veis
 e            co     a

Um m´todo nesta classe:
    e
    inicia com uma solu¸˜o x 0 e gera uma sequˆncia {x k } de pontos
                         ca                   e
    vi´veis, atrav´s da itera¸˜o t´
      a           e          ca ıpica:

                              x k+1 = x k + αk d k

    se x k n˜o ´ um ponto estacion´rio, ent˜o a dire¸˜o d k escolhida
            a e                   a           a     ca
    satisfaz:
                               ∇f (x k )′ d k < 0
    o passo αk ´ escolhido de forma que x k + αk d k ∈ X .
               e
    se x k ´ estacion´rio, o m´todo p´ra (x k+1 = x k ).
           e         a        e      a
    Vamos nos concentrar em m´todos de dire¸˜es vi´veis que s˜o
                                 e                co      a   a
    m´todos de descida, isto ´, f (x
     e                       e       k + αk d k ) < f (x k ).
Um m´todo de dire¸˜es vi´veis, de descida
    e            co     a
Caracteriza¸˜o da dire¸˜o vi´vel
           ca         ca a
    Conforme j´ mencionamos, no caso onde X ´ convexo, uma dire¸˜o
                a                                e                ca
    vi´vel d
      a      k em x k pode ser caracterizada da seguinte maneira:


                           d k = γ(x k − x k ), γ > 0

    onde x k ´ algum ponto vi´vel.
             e               a
    O m´todo opera ent˜o de acordo com a seguinte itera¸˜o:
        e              a                               ca

                       x k+1 = x k + αk d k , α ∈ [0, 1],

    onde a dire¸˜o d k al´m de vi´vel, deve ser de descida:
               ca        e       a

                        ∇f (x k )′ (x k − x k ) < 0, x k ∈ X

    Observe que pela convexidade de X , x k + αk (x k − x k ) ∈ X para
    qualquer α ∈ [0, 1].
    Al´m disto, se d k = γ(x k − x k ) ´ uma dire¸˜o de descida e x k ´ n˜o
       e                               e         ca                   e a
    estacion´rio, temos a garantia de existir um αk para o qual
              a
    f (x k+1 ) < f (x k ).
M´todos de dire¸˜es vi´veis: id´ias centrais
 e             co     a        e



    Requerem uma solu¸˜o vi´vel inicial (m´todo de duas fases)
                     ca    a              e

    Definem uma dire¸˜o vi´vel de descida, ou concluem que o ponto ´
                   ca    a                                        e
    estacion´rio.
            a

    Implementam uma itera¸˜o t´
                            ca ıpica que corresponde a uma busca
    unidirecional na dire¸˜o escolhida.
                         ca

    Podem ser vistos como uma especializa¸˜o dos m´todos que vimos
                                           ca     e
    at´ anteriormente para otimiza¸˜o irrestrita.
      e                           ca
M´todo de Dire¸˜es vi´veis: determina¸˜o do passo
 e            co     a               ca



   Minimiza¸˜o exata: αk = arg min
           ca                          α∈[0,1] f (x
                                                      k   + αd k )



   Armijo: Fixados escalares β, σ > 0 tais que β ∈ (0, 1) e σ ∈ (0, 1),
   fazemos αk = β mk , onde mk ´ o primeiro inteiro n˜o negativo m tal
                                    e                      a
   que:
                f (x k ) − f (x k + β m d k ) ≥ −σβ m ∇f (x k )′ d k
   Ou seja, tentamos sucessivamente os passos αk = 1, β, β 2 , . . . at´
                                                                       e
   satisfazer a condi¸˜o acima.
                     ca
M´todos de Dire¸˜es Vi´veis: convergˆncia
 e             co     a             e




Proposi¸˜o
       ca
Seja {x k } a sequˆncia gerada por um M´todo de Dire¸˜es Vi´veis
                  e                        e              co     a
x k+1 = x k + αk d k , onde as dire¸˜es {d k } s˜o gradiente relacionadas e αk
                                    co          a
´ determinado atrav´s de minimiza¸˜o exata ou via regra de Armijo.
e                      e               ca
Ent˜o, todo ponto limite de {x e
    a                             k } ´ um ponto estacion´rio.
                                                           a
Encontrando um ponto inicial
Dado o problema
                minimize             f (x)
                             hi (x) = 0 i = 1, . . . , m
                             gj (x) ≤ 0 j = 1, . . . , p
criamos e resolvemos o problema artificial (fase 1)
                            m              p
             minimize             zi +         yj
                           i =1          j=1
                           hi (x) + zi = 0 i = 1, . . . , m
                           gj (x) − yj ≤ 0 j = 1, . . . , p
                                         yj ≥ 0 j = 1, . . . , p
    Iniciamos o m´todo com x = (0, . . . , 0) e o vetor y e z calculados
                   e
    para viabilizar o programa acima. Ao final da fase 1, caso a fun¸˜oca
    objetivo seja nula, dispomos de um ponto inicial vi´vel para o
                                                         a
    programa original.
M´todo do Gradiente Condicional
 e

Os m´todos nesta classe se diferenciam em como a dire¸˜o vi´vel, de
     e                                               ca    a
descida ´ obtida. Um dos m´todos mais usados nesta classe ´ o Gradiente
        e                  e                              e
Condicional:
    O problema de obter uma dire¸˜o vi´vel com propriedade de descida
                                 ca   a
    em x k pode ser formulado como:

                      min   ∇f (x k )′ (x − x k )
                                         x ∈X

    Se X ´ compacto, o programa acima ´ limitado. Caso X n˜o seja
          e                               e                  a
    limitado, impomos restri¸˜es lineares do tipo x ∞ ≤ 1 e resolvemos
                            co
    o programa.
    Se o valor ´timo do programa auxiliar for negativo, encontramos uma
                o
    dire¸˜o vi´vel, de descida.
        ca    a
Obtendo uma dire¸˜o vi´vel
                ca a



   Observe que o programa auxiliar envolve o mesmo conjunto de
   restri¸˜es que do original, mas a fun¸˜o objetivo ´ linear.
         co                             ca           e

   No caso das restri¸˜es que definem X serem n˜o lineares, o programa
                     co                         a
   auxiliar ´ t˜o complicado quanto o programa original.
            e a

   Os m´todos de dire¸˜es vi´veis, em particular o do Gradiente
         e            co      a
   Condicional, s˜o particularmente interessantes quando X ´ um
                 a                                          e
   poliedro, uma vez que o subproblema ´ um Programa Linear.
                                         e
Gradiente Condicional quando X ´ um poliedro
                               e
   Se o m´todo Simplex ´ usado para resolver o subproblema, x k sempre
           e               e
   ´ um ponto extremo de X .
   e
   Por quˆ a dire¸˜o d k que resolve o subproblema n˜o ´ contr´ria a
           e        ca                              a e       a
   ∇f (x k ), se x k for um ponto interior ?
M´todo do Gradiente Condicional: exemplo num´rico
 e                                          e
Problema Quadr´tico
              a

                           1 2     2       2
        minimize    f (x) = (x1 + x2 + 0.1x3 ) + 0.55x3
                           2
                                      x1 + x2 + x3 = 1
                                                   x ≥0

Subproblema associado - determina¸˜o da dire¸˜o vi´vel, de descida
                                 ca         ca    a

      minimize         k         k            k
                     (x1 )x1 + (x2 )x2 + (0.1x3 + 0.55)x3 +
                   + (−(x1 )2 − (x2 )2 − (x3 )(0.1x3 + 0.55)
                         k        k        k       k

                                x1 + x2 + x3 = 1
                                      x ≥0

que pode ser resolvido de forma gulosa.
                                                        gradcondicional.sci
M´todo do Gradiente Condicional: exemplo num´rico
 e                                          e



Vamos implementar o m´todo considerando:
                     e
    x 0 = 1 (1, 1, 1)′ e tamb´m x 0 = (1, 0, 0)′
          3                  e
    Passo de Armijo.
    Condi¸˜o de parada definida na resolu¸˜o do subproblema:
         ca                             ca

                           ∇f (x k )′ d k
                                            ≥ −1.0E − 4
                           ∇f (x k ) d k
Taxa de Convergˆncia do M´todo do Gradiente Condicional
               e         e


   Se a regra de Armijo ou a
   minimiza¸˜o exata forem empregadas
            ca
   para se determinar o αk , pode-se
   demonstrar que as dire¸˜es geradas
                          co
   s˜o gradiente relacionadas e, ent˜o,
    a                               a
   todo ponto limite da sequˆncia gerada
                             e
   pelo m´todo ´ um ponto estacion´rio.
          e     e                    a
   Apesar disto, a taxa de convergˆncia
                                   e
   do m´todo ´ baixa: os pontos x k
         e     e
   gerados s˜o tais que a dire¸˜o d k ´
             a                ca      e
   quase ortogonal ´ dire¸˜o que levaria
                    a    ca
   ao ´timo, a partir do ponto x k
       o
   (zig-zag). Veja a figura:
M´todo do Gradiente Projetado
 e


   Mover ao longo da dire¸˜o contr´ria ao gradiente n˜o garante a
                          ca        a                 a
   viabilidade do ponto obtido, caso o ponto de origem esteja na
   fronteira do conjunto de viabilidade.

   O M´todo do Gradiente Projetado consiste em projetar o vetor
       e
   contr´rio ao gradiente no conjunto X , de forma que aprimore a
        a
   fun¸˜o objetivo e garanta viabilidade.
      ca

   Do ponto de vista computacional, a principal desvantagem do m´todo
                                                                e
   ´ o elevando custo associado ` proje¸˜o, em cada itera¸˜o.
   e                            a      ca                ca

   O m´todo ´ uma boa alternativa quando a opera¸˜o de proje¸˜o pode
        e      e                                ca          ca
   ser feita com baixo custo computacional.
O problema de projetar z ∈ Rn em X convexo, fechado

Proje¸˜o
     ca
Consiste em encontrar um vetor x ∗ ∈ X , cuja distˆncia a z seja m´
                                                  a               ınima:

                       minimize     z −x
                                    x ∈X

Alguns fatos sobre a proje¸˜o
                          ca
    Para todo z ∈ Rn existe um x ∗ ∈ X unico que minimiza z − x
                                        ´
    sobre todo x ∈ X . Este vetor ´ chamado proje¸˜o de z em X .
                                  e              ca
    Usualmente denominamos x ∗ = [z]+ .
    Dado z ∈ Rn , x ∗ = [z]+ se e somente se
    (z − x ∗ )(x − x ∗ ) ≤ 0, ∀x ∈ X .
    No caso de X ser um subespa¸o, x ∗ ∈ X ´ a proje¸˜o de z em X se e
                                  c            e        ca
    somente se z − x ∗ for ortogonal a X , isto ´: (z − x ∗ )x = 0, ∀x ∈ X .
                                                e
Gradiente projetado

    Vamos supor que o nosso problema de otimiza¸˜o seja
                                               ca

                         minimize    f (x)
                                       Ax ≤ b
                                       Ex = e

    onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e
    X = {x ∈ Rn : Ax ≤ b, Ex = e}.
    e que disponhamos de um ponto vi´vel x k na fronteira do conjunto de
                                    a
    viabilidade X .
    Assuma ent˜o que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ],
                   a                                         1    2
    b ′ = [b1 , b2 ].
            ′    ′

    Suponha tamb´m que f seja diferenci´vel em x k .
                e                      a

Como fazemos para projetar −∇f (x k ) na face de X ativa em x k ?
Resolvemos o seguinte Problema de Otimiza¸˜o Quadr´tica
                                         ca       a


                minimize      x − (−∇f (x k ))
                                             A 1 x = b1
                                             A 2 x ≤ b2
                                               Ex = e

cuja solu¸˜o (obtida analiticamente) ´ x ∗ = −P∇f (x k ) onde a matriz P
         ca                          e
(chamada de matriz de proje¸˜o) ´ dada por:
                             ca e

                           P = I − M ′ (MM ′ )−1 M

e a matriz M corresponde ˜s linhas das restri¸˜es ativas em x k :
                         a                   co

                               M ′ = [A′ , E ′ ].
                                       1
Matrizes de Proje¸˜o
                 ca

Defini¸˜o
     ca
Assuma que P ∈ Rn×n seja uma matriz quadrada de ordem n. P ´
                                                           e
chamada matriz de proje¸˜o se:
                       ca
      P = P′
      PP = P

Proposi¸˜o
       ca
Seja P uma matriz quadrada de ordem n. Ent˜o, o seguinte ´ verdadeiro:
                                          a              e
  1   Se P ´ uma matriz de proje¸˜o, ent˜o P ´ positiva semi definda.
           e                    ca      a    e
  2   P ´ uma matriz de proje¸˜o se e somente se I − P ´ uma matriz de
        e                    ca                        e
      proje¸˜o.
           ca
  3   Seja P uma matriz de proje¸˜o e Q = I − P. Ent˜o os subespa¸os
                                  ca                   a            c
      lineares L = {Px : x ∈ Rn } e L⊥ = {Qx : x ∈ Rn } s˜o ortogonais.
                                                         a
      Al´m disto, qualquer x ∈ Rn pode ser escrito como x = p + q onde
         e
      p ∈ L, q ∈ L⊥ , atrav´s de p, q unicos.
                           e          ´
Matrizes de Proje¸˜o
                 ca


Prova
 1   Seja x ∈ Rn um vetor arbitr´rio. Ent˜o, se P ´ uma matriz de
                                   a          a      e
     proje¸˜o, x ′ Px = x ′ PPx = x ′ P ′ Px = Px 2 ≥ 0, logo P ´ positiva
          ca                                                    e
     semidefinida.
 2   ´
     Obvio.
 3   Claramente L, L⊥ s˜o subespa¸os lineares.
                       a           c
     Uma vez que P ′ Q = P ′ (I − P) = P − P ′ P = 0, L, L⊥ s˜o de fato
                                                             a
     ortogonais.
     (Unicidade) suponha que x = p ′ + q ′ e que x = p + q. Ent˜oa
     subtraindo a primeira da segunda temos p − p ′ = q p rime − q. Uma
     vez que L ∩ L⊥ = 0, p − p ′ = q ′ − q = 0 e a representa¸˜o ´ unica.
                                                             ca e ´
Interpreta¸˜o
          ca




    Dado z ∈ Rn temos que (Pz)′ , (I − P)z = 0. Ou seja, a aplica¸˜o
                                                                  ca
    Pz projeta z no espa¸o ortogonal ao da aplica¸˜o Qz = (I − P)z.
                        c                        ca

    Assim sendo podemos escrever que z ´ a soma direta de Pz e Qz ou
                                       e
    seja, z = Pz ⊕ Qz.
Gradiente Projetado - Problema com restri¸˜es lineares
                                         co


                      minimize    f (x)
                                   Ax ≤ b
                                   Ex = e

onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e
X = {x ∈ Rn : Ax ≤ b, Ex = e}.

Id´ia central
  e
    Dado x k , se movemos na dire¸˜o −∇f (x k ), podemos perder
                                 ca
    viabilidade.
    Para preservar viabilidade, projetamos −∇f (x k ) na face ativa de X
    ativa (em rela¸˜o ` x k , usando uma matriz de proje¸˜o P adequada)
                  ca a                                   ca
    e nos movemos na dire¸˜o d k = −P∇f (x k ).
                             ca
Caracteriza¸˜o de Dire¸˜es Vi´veis
           ca         co     a




Proposi¸˜o
       ca
Considere o poliedro X = {x ∈ Rn : Ax ≤ b, Ex = e} que definimos.
Suponha que x k ∈ X e que
A1 x k = b1 , A2 x k < b2 , A′ = [A′ , A′ ], b ′ = [b1 , b2 ].
                                   1    2
                                                     ′    ′


Ent˜o, um vetor d k ´ vi´vel em x k se e somente se A1 d k ≤ 0, Ed k = 0.
   a                e a
(A demonstra¸˜o ´ ´bvia).
            ca e o
Gradiente projetado - X ´ um poliedro
                        e



Proposi¸˜o
       ca
Considere o problema minx∈X definido acima. Assuma que x k seja um
ponto vi´vel tal que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ],
          a                                                  1    2
b ′ = [b1 , b2 ]. Suponha tamb´m, que f seja diferenci´vel em x k . Ent˜o:
        ′    ′                e                       a                a
  1   Se P ´ uma matriz de proje¸˜o tal que P∇f (x k ) = 0, ent˜o
            e                    ca                            a
      d k = −P∇f (x k ) ´ uma dire¸˜o de descida de f em x k .
                        e         ca
  2   Al´m disto, se M ′ = [A1 , E ′ ] possui posto completo e se
        e                     ′

      P =I −M    ′ (MM ′ )−1 M, ent˜o d k ´ uma dire¸˜o de descida, vi´vel.
                                     a      e         ca              a
Gradiente projetado - X ´ um poliedro
                        e

Prova
  1   (−P∇f (x k ) ´ dire¸˜o de descida)
                      e    ca
      Observe que: ∇f (x k )′ d k = −∇f (x k )′ P∇f (x k ) =
      −∇f (x k )′ P ′ P∇f (x k ) = − P∇f (x k ) < 0, uma vez que P ´ positiva
                                                                        e
      semi-definda e, pelo enunciado ∇f (x      k )′ P = 0. Ent˜o d k ´ uma
                                                              a      e
      dire¸˜o de descida.
          ca
  2   (−P∇f (x k ) ´ dire¸˜o vi´vel)
                   e     ca    a
      Se M possui posto completo, (MM ′ ) ´ n˜o singular e ent˜o:
                                          e a                 a

                      P = I − M ′ (MM ′ )−1 M
                    MP = M − MM ′ (MM ′ )−1 M = M − IM = 0
           Logo    Md k = −MP∇f (x k )              =            0


Se Md k = 0 temos A1 d k = 0, Ed k = 0 e d k ´ vi´vel.
                                             e a
Interpreta¸˜o Geom´trica do M´todo
          ca      e          e
   Uma vez que MP = 0 temos que A1 P = 0, EP = 0 e ent˜o a matriz
                                                             a
   de proje¸˜o P projeta cada linha de A1 e de E no vetor nulo.
           ca
   Entretanto, as linhas de A1 e de E s˜o os gradientes das restri¸˜es
                                        a                         co
   ativas em x k , a matriz P ´ na verdade a matriz que projeta os
                               e
   gradientes das restri¸˜es ativas em x k no vetor zero.
                        co
   Assim sendo, P∇f (x k ) corresponde ` proje¸˜o de ∇f (x k ) no espa¸o
                                        a      ca                     c
   nulo das restri¸˜es ativas.
                   co
   Veja: MP∇f (x k ) = 0, logo, P∇f (x k ) ∈ N (M)
Teoria de Multiplicadores de Lagrange
Vamos considerar os problemas de otimiza¸˜o definidos por restri¸˜es de
                                        ca                     co
igualdade:


                minimize           f (x)
                             hi (x) = 0 i = 1, . . . , m

onde f (x) : Rn → R, hi (x) : Rn → R, ∀i = 1, . . . , m s˜o func˜es
                                                         a      o
continuamente diferenci´veis.
                        a
Condi¸˜es Necess´rias de Otimalidade
     co         a
O nosso principal resultado ´ o seguinte: se x ∗ ´ um ponto de m´
                             e                       e            ınimo
local, ent˜o existem escalares λi : i = 1, . . . , m, denominados
          a
Multiplicadores de Lagrange tais que vale a seguinte equa¸˜o vetorial:
                                                              ca
                                    m
                             ∗
                       ∇f (x ) +          λi ∇hi (x ∗ ) = 0
                                   i =1
Interpretando este resultado
                                   m
                             ∗
                       ∇f (x ) +          λi ∇hi (x ∗ ) = 0
                                   i =1

      O gradiente da fun¸˜o objetivo ∇f (x ∗ ) pertence ao subespa¸o gerado
                         ca                                       c
      pelo gradiente ∇hi (x ∗ ) das restri¸˜es ativas em x ∗ .
                                          co

Exemplo




min          x1 + x2
        2      2
       x1   + x2 = 2
Interpretando este resultado

Defini¸˜o
     ca
Definimos o subespa¸o de vari¸˜es nulas de primeira ordem, isto ´, o
                    c        co                                  e
subespa¸o para o qual o vetor x = x ∗ + △x satisfaz as restri¸˜es h(x) = 0
        c                                                    co
at´ a primeira ordem, como:
  e

               V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m}

    Tome y ∈ V (x ∗ );
    Uma vez que ∇f (x ∗ ) + m λi ∇hi (x ∗ ) = 0, temos que
                               i =1
    ∇f (x ∗ )′ y + m λi ∇hi (x ∗ )′ y = 0 e logo ∇f (x ∗ )′ y = 0.
                   i =1
    Ou seja, ∇f (x ∗ ) ⊥ V (x ∗ ). Ou seja, o gradiente de f em x ∗ ´
                                                                    e
    ortogonal ao espa¸o das dire¸˜es vi´veis que geram varia¸˜o de
                       c            co    a                    ca
    primeira ordem nula nas restri¸˜es.
                                     co
    Este resultado ´ an´lago ` condi¸˜o ∇f (x ∗ ) = 0 para Otimiza¸˜o
                   e a       a      ca                            ca
    Irrestrita.
Formalizando e demonstrando o resultado

Proposi¸˜o
       ca
Seja x ∗ um ponto de m´
                      ınimo local de f sujeito `s restri¸˜es h(x) = 0.
                                                 a        co
Assuma que os gradientes ∇h1 (x), . . . , ∇hm (x) sejam li em x ∗ .
  1   Ent˜o, existe λ∗ = (λ∗ , . . . , λ∗ )′ unico, tal que:
         a                 1            m ´

                                              m
                             ∇f (x ∗ ) +            λ∗ ∇hi (x ∗ ) = 0
                                                     i
                                             i =1

  2   Se f e h forem duas vezes continuamente diferenci´veis, temos que
                                                       a
                                 m
            y′   ∇2 f (x ∗ ) +          λ∗ ∇2 hi (x ∗ ) y ≥ 0, ∀y ∈ V (x ∗ ) onde
                                         i
                                 i =1

                    V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m}
      denota o subespa¸o de primeira ordem de varia¸˜es vi´veis de h.
                      c                            co     a
Um problema sem multiplicadores de Lagrange
Antes de provar este resultado, vamos estudar este exemplo:
            minimize     f (x) = x1 + x2                              (6)
                                           2    2
                        h1 (x) = (x1 − 1) +    x2   −1 = 0            (7)
                                           2    2
                        h2 (x) = (x1 − 2) +    x2   −4 = 0            (8)


Observe que o unico ponto vi´vel ´ (0, 0) e que neste ponto os gradientes
               ´             a e
de h1 e h2 s˜o ld, n˜o permitindo escrever o gradiente de f em R2 .
            a       a
Pontos regulares




Defini¸˜o
     ca
Dizemos que um ponto x ´ regular se ∇hi (x), . . . , ∇hm (x) s˜o linearmente
                       e                                      a
independentes em x.

    No exemplo anterior, o ponto ´timo n˜o ´ regular.
                                 o      a e
Demonstra¸˜o do Teorema dos Multiplicadores de
         ca
Lagrange


A prova se baseia na aplica¸˜o do m´todo de penalidades. Basicamente
                           ca      e
suas id´ias centrais s˜o:
       e              a
    Relaxamos as restri¸˜es do problema
                       co
    Adicionamos estas restri¸˜es ` fun¸˜o objetivo do problema,
                            co a      ca
    multiplicando cada restri¸˜o por uma penalidade.
                             ca
    Aplicamos as condi¸˜es necess´rias de primeira e segunda orgem ao
                      co         a
    problema relaxado e
    Tomamos o limite destas condi¸˜es, na medida em que as penalidades
                                 co
    crescem.
Prova - M´todo de Penalidades
         e



Fun¸˜o de custo penalizada
   ca
                               k        2       α
        F k (x) = f (x) +        h(x)       +     x − x ∗ 2 , k = 1, 2, . . .
                               2                2
onde:
    x ∗ : ´ um m´
          e     ınimo local de f (x) : h(x) = 0.
              k          2
    O termo   2   h(x)       penaliza a viola¸˜o das restri¸˜es
                                             ca            co
              α
    O termo   2 x−   x∗ 2´ inserido para facilitar a prova, garantindo que
                         e
        e     ınimo local estrito de f (x) + α x − x ∗ 2 sujeito a h(x) = 0.
    x ∗ ´ um m´                              2
Prova - M´todo de Penalidades
         e



   Dado que x ∗ ´ um m´
                 e         ınimo local do problema, ´ poss´ escolher
                                                    e     ıvel
   ǫ > 0 tal que f (x ∗ ) ≤ f (x), ∀x ∈ S onde
   S = {x : h(x) = 0; x − x ∗ ≤ ǫ}.
   Ent˜o vamos assumir que x k resolve o seguinte problema:
      a

                        minimize    F k (x)
                                    x ∈S

   Observe que este otimizador x k existe, uma vez que S ´ compacto.
                                                         e
   Vamos mostrar agora que {x k } converge para x ∗ .
{x k } converge para x ∗

    Para todo k temos:
                                k                 α
      F k (x k ) = f (x k ) +   2   h(x) 2 +      2   xk − x∗
                 ≤                   F k (x ∗ )                      otimal. de x k
                 =                    f (x ∗ )                     j´ que h(x ∗ ) = 0
                                                                    a

    Observe que f (x k ) ´ limitada em S.
                         e
    Asssim sendo, o lado esquerdo da desigualdade acima precisa ficar
    limitado quando k → ∞
                                         k            2
    Para que isto ocorra, o termos       2   h(x)         precisa assumir valor finito
    quando k → ∞.
    Logo, limk→∞ h(x) = 0.
    Ent˜o todo ponto limite x de {x k } satisfaz f (x) + α x − x ∗ ≤ f (x ∗ ).
       a                                                 2
    Uma vez que x, x ∗ ∈ S e x ´ vi´vel e pela otimalidade de x ∗ , isto ´
                                 e a                                     e
    f (x ∗ ) − f (x), x − x ∗ = 0. Logo x = x ∗ .
Observa¸˜es
       co



   Note que x k ´ um ponto interior a S para k suficientemente grande.
                e
   Por este motivo, a partir deste valor suficientemente grande de k, x k
   ´ um m´
   e        ınimo local do problema irrestrito que consiste em minimizar
   F k (x).
   Note tamb´m que j´ dispomos de um algoritmo para obter x.
            e       a
   Vamos provar o Teorema dos Multiplicadores de Lagrange, aplicando
   as condi¸˜es necess´rias de primeira ordem (irrestritas) a F k (x) em
           co         a
   xk.
Obtendo λ∗
   Aplicando as CNPO a F k (x k ), temos:
         0 = ∇F k (x k ) = ∇f (x k ) + k∇h(x k )h(x k ) + α(x k − x ∗ )       (9)
   Pelo enunciado, temos que ∇h(x ∗ ) possui posto completo, igual a
   m < n. Por continuidade, existe k suficientemente grande para o qual
   o posto de ∇h(x k ) tamb´m ´ m. Logo [∇h(x k )′ ∇h(x k )]−1 ´ n˜o
                            e e                                e a
   singular.
   Pre multiplique (9) por [∇h(x k )′ ∇h(x k )]−1 e obtenha:

     kh(x k ) = −[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )′ ∇f (x k ) + α(x k − x ∗ )

   Sabemos que k → ∞, x k → x ∗ e kh(x k ) converge para um valor
   finito. Denonine ent˜o por
                      a
                  λ∗ = [∇h(x ∗ )′ ∇h(x ∗ )]−1 ∇h(x ∗ )′ ∇f (x ∗ )
   Tome o limite em (9) quando k → ∞ e obtenha:
                           ∇f (x ∗ ) + ∇h(x ∗ )λ∗ = 0
Vamos agora provar as condi¸˜es de 2a. ordem
                           co
   Aplicando as CNSO a F k (x k ) temos (diferenciando (9)) que a matriz:
                                                        m
     2                  2
          k     k           k           k
   ∇ F (x ) = ∇ f (x )+ k∇h(x )∇h(x ) + k       k ′
                                                               hi (x k )∇2 hi (x k )+ αI
                                                        i =1
                                                                  (10)
   ´ semi-positiva definida, para todo k suficientemente grande e α > 0.
   e
   Tome qualquer y ∈ V (x ∗ ) isto ´ y : ∇h(x ∗ )′ y = 0 e considere que y k
                                   e
   seja a proje¸˜o de y no espa¸o nulo de ∇h(x k )′ , isto ´:
               ca               c                           e

              (I − P)y = y k = y − ∇h(x k )[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )y

   As condi¸˜es necess´rias de primeira ordem garantem que
             co          a
   ∇h(x k )′ y k = 0 e como ∇2 F k (x k ) ´ semi-positiva definida, temos:
                                          e

         0 ≤                        (y k )′ ∇2 F k (x k )y k
                k )′ ∇2 f (x k ) + k    m          k     2   k k      k           2
         0 ≤ (y                         i =1 hi (x )∇ hi (x ) y + α y
                                                                                   (11)
Condi¸˜es de 2a. ordem - continua¸˜o
     co                          ca

   Uma vez que:
     ◮   khi (x k ) → λi
     ◮   xk → x∗
     ◮   ∇h(x ∗ )′ y = 0
   temos que y k → y e ent˜o temos:
                          a
                                             m
           0 ≤ y ′ ∇2 f (x ∗ ) +                 λ∗ ∇2 hi (x ∗ ) y + α y
                                                  i
                                                                           2
                                                                                 (12)
                                          i =1

   Uma vez que α > 0 pode ser arbitrariamente pequeno, temos:
                                      m
         0 ≤ y′       ∇2 f (x ∗ ) +          λ∗ ∇2 hi (x ∗ ) y , ∀y ∈ V (x ∗ )
                                              i                                  (13)
                                      i =1

   e a prova est´ completa.
                a
A Fun¸˜o Lagrangeana
     ca

Defini¸˜o
     ca
Considere a fun¸˜o Lagrangeana L : Rn+m → R definida como:
               ca
                                                       m
                              L(x, λ) := f (x) +              λi hi (x).
                                                       i =1

Observe que as condi¸˜es necess´rias de Primeira Ordem, de Viabilidade
                       co            a
Primal (hi (x) = 0, ∀i = 1, . . . , m) e as condi¸˜es necess´rias de segunda
                                                 co         a
ordem podem ser escritas em termos de L(x, λ) como:
                                                  m
     ∇x L(x ∗ , λ∗ ) = 0 ⇔ ∇f (x ∗ ) +                  ∗       ∗
                                                  i =1 λi ∇hi (x )         =0
     ∇λ   L(x ∗ , λ∗ )   = 0 ⇔ hi (x) = 0, ∀i = 1, . . . , m (viabilidade)
     y ′ ∇2 L(x ∗ , λ∗ )y
          xx                 ≥ 0, ∀y ∈ V (x ∗ ) ⇔
                             m
     y ′ ∇2 f (x ∗ ) +             λ∗ ∇2 hi (x ∗ ) y
                                    i
                            i =1
A fun¸˜o Lagrangena
     ca


                                               m
                          L(x, λ) := f (x) +          λi hi (x).
                                               i =1

Todo m´ınimo local regular deve ent˜o satisfazer o sistema de equa¸˜es em
                                   a                              co
n + m vari´veis dado por:
          a
    ∇x L(x ∗ , λ∗ ) = 0
    ∇λ L(x ∗ , λ∗ ) = 0
Cabe salientar que nem todo ponto que satisfizer o sistema acima ´ um
                                                                 e
ponto de m´ınimo (recorde nossa experiˆncia com Otimiza¸˜o Irrestrita).
                                      e                 ca
Um ponto de m´ximo pode tamb´m satisfazer o sistema acima.
                a               e
Fun¸˜o Lagrangeana - Exemplo
   ca


                              1 2       2    2
                 minimize        x + x2 + x3
                              2 1
                               x1 + x2 + x3 = 3


   Consideremos o vetor (x ∗ , λ∗ ) = (1, 1, 1, −1)′
   Observe que ∇h(x ∗ ) = (1, 1, 1)′ (´ li), logo o ponto ´ regular.
                                      e                   e
   Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (1, 1, 1) − 1(1, 1, 1) = 0, logo as
   condi¸˜es necess´rias de primeira ordem s˜o satisfeitas.
        co         a                           a
   Uma vez que ∇2 f (x ∗ ) = diag(1) e ∇2 h(x) = 03×3 , temos que
   x ′ ∇2 f (x ∗ )x > 0, ∀x ∈ Rn , em particular para y ∈ V (x ∗ ).
   Portanto x ∗ ´ um m´
                e     ınimo global para o problema.
Interpreta¸˜o do uso da Fun¸˜o Langeana
          ca               ca


   Criamos a fun¸˜o Lagrangeana para obter um modelo irrestrito, cujo
                  ca
   objetivo coincide com o objetivo do problema original para qualquer
   solu¸˜o vi´vel.
       ca    a
   Para qualquer valor dos multiplicadores λi , um ´timo x ∗ do problema
                                                   o
   relaxado deve ser um ponto estacion´rio de L(·, λ). Esta ´ a condi¸˜o
                                       a                     e        ca
   associada a ∇x L(x ∗ , λ∗ ) = 0.

   Impor as condi¸˜es ∇λ L(x ∗ , λ∗ ) implica em restringir os pontos
                  co
            a          ıveis de L(x ∗ , λ∗ ) `queles que satisfazem as
   estacion´rios admiss´                     a
   restri¸˜es do problema original.
         co
   Assim sendo, se um ponto x ∗ satisfizer as condi¸˜es de ponto
                                                       co
   estacion´rio (em x, λ) para o problema relaxado com multiplicadores
           a
   fixados em λ∗ , ele deve ser vi´vel e L(x ∗ , λ∗ ) = f (x ∗ ).
                                 a



                  Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                      ca   a                   co
Fun¸˜o Lagrangeana - Exemplo
   ca


                                 1 2       2    2
                minimize     −      x + x2 + x3
                                 2 1
                                  x1 + x2 + x3 = 3


   Este problema admite m´
                         ınimo ?
   Consideremos agora o vetor (x ∗ , λ∗ ) = (1, 1, 1, 1)′
   ∇h(x ∗ ) = (1, 1, 1)′ e o ponto ´ regular.
                                   e
   Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (−1, −1, −1) + (1, 1, 1) = 0, logo
   as condi¸˜es necess´rias de primeira ordem s˜o satisfeitas.
           co         a                         a
   Uma vez que ∇2 f (x ∗ ) = diag(−1) e ∇2 h(x) = 03×3 , as condi¸˜es
                                                                 co
   necess´rias de segunda ordem n˜o s˜o satisfeitas.
         a                         a a
   O conjunto X n˜o ´ compacto.
                 a e
Condi¸˜es Suficientes de Otimalidade
     co


Proposi¸˜o - Prop 3.2.1
       ca
(Condi¸˜es Suficientes de Otimalidade)
      co
Assuma que f e h sejam fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn e
                          co                       a
λ∈R  m satisfazendo:

  1   ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0
  2   y ′ ∇2 L(x ∗ , λ∗ )y > 0 para todo y = 0, ∇h(x ∗ )′ y = 0.
           xx
Ent˜o:
   a
      x ∗ ´ um m´
          e     ınimo local estrito de f sujeito a h(x) = 0.
      De fato, existem γ > 0 e ǫ > 0 tais que: f (x) ≥ f (x ∗ ) + γ ||x − x ∗ ||2
                                                                  2
      para qualquer x : h(x) = 0 e ||x − x ∗ || ≤ ǫ.




                      Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Exemplo


                    min       −(x1 x2 + x1 x3 + x2 x3 )
                                       x1 + x2 + x3 = 3


Fun¸˜o Lagrangeana
   ca
L(x, λ) = −(x1 x2 + x1 x3 + x2 x3 ) + λ(x1 + x2 + x3 − 3)

CNPO: ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0 que implica em:
                             −x2 − x3 + λ∗ = 0
                               ∗    ∗

                             −x1 − x3 + λ∗ = 0
                               ∗    ∗

                             −x1 − x2 + λ∗ = 0
                               ∗    ∗

                                 ∗    ∗    ∗
                                x1 + x2 + x3 = 0
cuja solu¸˜o unica ´ (x ∗ , λ∗ ) = (1, 1, 1, 2)
         ca ´      e
                      Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Exemplo - continua

Condi¸˜es Suficientes de Otimalidade:
     co
                                                   
                                            0 −1 −1
                       2
                      ∇xx L(x ∗ , λ∗ ) =  −1  0 −1 
                                           −1 −1  0

Observa¸˜es:
       co
    ∇2 L(x ∗ , λ∗ ) ´ semi-positiva definida.
     xx             e
    Entretanto, para os vetores y : ∇h(x ∗ )′ y = 0 temos:
      ◮   y : ∇h(x ∗ )′ y = 0 → y1 + y2 + y3 = 0.
      ◮   y ′ ∇2 L(x ∗ , λ∗ )y = −y1 (y2 + y3 ) − y2 (y1 + y3 ) − y3 (y1 + y2 ) =
               xx
            2     2      2
          y1 + y2 + y3 > 0.
                                        2
    Logo, para os y : ∇h(x ∗ )′ y = 0, ∇xx L(x ∗ , λ∗ ) ´ positiva definida e as
                                                        e
    condi¸˜es de segunda ordem s˜o verificadas.
         co                         a


                      Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Demonstra¸˜o das Condi¸˜es Suficientes de Otimalidade
         ca           co


   O entendimento da demonstra¸˜o da suficiˆncia destas condi¸˜es ´
                               ca          e                co e
   fundamental para entender porque os m´todos que iremos estudar
                                        e
   funcionam.

   Vamos usar uma fun¸˜o denominada Fun¸˜o Lagrangeana
                        ca                   ca
   Aumentada que nada mais ´ que a Fun¸˜o Lagrangena de um
                              e            ca
   Problema de Otimiza¸˜o similar ao problema original, modificado
                         ca
   apenas pela sua fun¸˜o objetivo, que passa a incorporar uma
                       ca
   penalidade pela viola¸˜o das restri¸˜es h(x) = 0.
                        ca            co

   Antes de demonstrar as condi¸˜es suficientes, precisamos de alguns
                               co
   resultados auxiliares.



                 Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                     ca   a                   co
Alguns resultados auxiliares

Teorema de Bolzano-Weierstrass
Toda sequˆncia limitada no conjunto Rn possui uma subsequˆncia
         e                                               e
convergente.

N˜o negatividade de A′ A
 a
Seja A uma matriz m × n. Ent˜o a matriz sim´trica A′ A ´ uma matriz
                            a              e           e
positiva semidefinida.

Lema Auxiliar
Sejam P e Q duas matrizes sim´tricas. Assuma que Q seja semi-positiva
                               e
definida e que P ´ positiva definida no espa¸o nulo de Q. Isto ´, x ′ Px > 0
                 e                        c                   e
para qualquer x : Qx = 0 ou, equivalentemente x : x ′ Qx = 0. Ent˜o existe
                                                                 a
um escalar c tal que P + cQ ´ positiva definida para qualquer c > c.
                             e


                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Demonstra¸˜o do Lema Auxiliar
         ca
Id´ia da prova: vamos assumir o contr´rio e obter uma contradi¸˜o.
  e                                  a                        ca
    Assuma ent˜o que o resultado enunciado n˜o vale. Ent˜o, para
                a                                  a            a
    qualquer inteiro k, existe um vetor x k , ||x K || = 1 tal que:


                             (x k )′ Px k + k(x k )′ Qx k ≤ 0


    Uma vez que ||x k || = 1, a sequˆncia {x k } ´ limitada e pelo Teorema
                                    e            e
    de Bolzano-Weierstrass, existe uma subsequˆncia {x k }k∈K que
                                                   e
    converge para algum vetor x.
    Tomando o limite supremo da desigualdade acima temos:

                    lim          (x k )′ Px k + k(x k )′ Qx k       ≤0       →
                 k→∞,k∈K


                     x ′ Px +         lim       k(x k )′ Qx k      ≤0
                                 k→∞,k∈K

                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Demonstra¸˜o do Lema auxiliar - continua
         ca


                 x ′ Px +       lim          k(x k )′ Qx k      ≤0
                            k→∞,k∈K


   Para que o lado esquerdo seja limitado superiormente (≤ 0), temos
   que ter k(x k )′ Qx k → 0.
   Uma vez que a matriz Q ´ n˜o negativa e k → ∞, isto s´ ocorre se
                          e a                           o
   (x k )Qx k → 0.

   Logo limk→∞,i ∈K (x k )′ Qx k = x ′ Qx = 0 e consequentemente
   x ′ Px ≤ 0.
   Portanto, x ´ tal que Qx = 0 (x pertence ao nulo de Q).
               e
   Logo x ′ Px > 0 (pelo pr´prio teorema) e temos uma contradi¸˜o !
                           o                                  ca



                 Alexandre Salles da Cunha     Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
O M´todo do Lagrangeano Aumentado
   e

Fun¸˜o Lagrangeana Aumentada
   ca
                                              c
                 Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2
                                              2
onde c ´ um escalar positivo.
       e


Observe que:
    A fun¸˜o Lc (x, λ) corresponde ` fun¸˜o Lagrangeana para o seguinte
          ca                       a    ca
    problema:
                                          c
                         min       f (x) + ||h(x)||2
                                          2
                                           h(x) = 0

    Minimizar este problema equivale a minimizar f (x) : h(x) = 0.

                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Avaliando Lc (x, λ) e suas derivadas

                                                    c
                       Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2
                                                    2

Primeira derivada de Lc em rela¸˜o a x
                               ca

                                        m                           m
   ∇x Lc (x, λ) = ∇f (x) +              i =1 λi ∇hi (x)   +c        i =1 hi (x)∇hi (x)


Segunda derivada de Lc em rela¸˜o a x
                              ca

                                                                      ∇2 Lc (x, λ) =
                                                                       xx
              m                            m
   2                     2
  ∇ f (x) +          λi ∇ hi (x) + c             hi (x)∇2 hi (x) + c∇h(x)∇h(x)′
              i =1                        i =1


                        Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                            ca   a                   co
Impondo as condi¸˜es necess´rias para x ∗, λ∗
                co         a
Se x ∗ , λ∗ satisfizerem as condi¸˜es necess´rias de 1a. ordem:
                                co         a
                                            m                           m
  ∇x Lc (x ∗ , λ∗ ) = ∇f (x ∗ ) +                λi ∇hi (x ∗ ) + c            hi (x ∗ )∇hi (x ∗ )
                                           i =1                        i =1
                                              m
                      =      ∇f (x ∗ ) +            λi ∇hi (x ∗ ) = ∇x L(x ∗ , λ∗ ) = 0
                                             i =1



                                                                                     ∇2 Lc (x ∗ , λ∗ ) =
                                                                                      xx
                  m                               m
  ∇2 f (x ∗ ) +          λi ∇2 hi (x ∗ ) + c           hi (x ∗ )∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ =
                  i =1                          i =1
                                                        m
                                     ∇2 f (x ∗ ) +            λi ∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ =
                                                       i =1
                                                               ∇2 L(x ∗ , λ∗ ) + c∇h(x ∗ )∇h(x ∗ )′
                                                                xx

                           Alexandre Salles da Cunha     Programa¸˜o N˜o Linear com Restri¸˜es
                                                                 ca   a                   co
Se as condi¸˜es suficientes de 2a. ordem forem impostas
           co


Vamos assumir que (condi¸˜es suficientes descritas no Teorema) para
                          co
qualquer y ∈ Rm : ∇h(x ∗ )′ y = 0 (ou y ′ ∇h(x ∗ )∇h(x ∗ )′ y = 0) tenhamos:

                             y ′ ∇2 L(x ∗ , λ∗ ) y > 0
                                  xx

Observe que:
    Aplicando o Lema Auxiliar, fazendo P = ∇2 L(x ∗ , λ∗ ) e
                                                    xx
    Q = ∇h(x ∗ )∇h(x ∗ )′ (esta matriz ´ semipositiva definida), existe c
                                           e
    tal que ∇xx Lc (x ∗ , λ∗ ) ´ postivida definida.
                               e

    Usando as condi¸˜es suficientes de otimalidade para otimiza¸˜o
                      co                                         ca
    irrestrita, conclu´                     ∗ ´ um ´timo local irrestrito
                      ımos que para c > c, x e     o
    de Lc (·, λ∗ ).


                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Se as condi¸˜es suficientes de 2a. ordem forem impostas
           co

   Ent˜o x ∗ ´ um ´timo local para Lc (·, λ∗ )
      a      e    o

   Em particular, existem γ > 0 e ǫ > 0 tais que
                                               γ
            Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) +       ||x − x ∗ ||2 , ||x − x ∗ || < ǫ
                                               2


   Observe que para todo x vi´vel (h(x) = 0) temos Lc (x, λ∗ ) = f (x) e
                                 a
   ∇λ L(x ∗ , λ∗ ) = h(x ∗ ) = 0


   Finalmente, temos que:
                                        γ                       γ
   f (x) = Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ )+ ||x−x ∗ ||2 = f (x ∗ )+ ||x−x ∗ ||2 ≥ f (x ∗ )
                                        2                       2
   para qualquer x : h(x) = 0 e ||x − x ∗ || < ǫ e a prova est´ completa !
                                                              a

                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
M´todos de Penalidade e Lagrangeano Aumentado
 e


                          min                 f (x)
                                     h(x) = 0
                                         x ∈X

Vamos considerar o caso onde X = Rn .


    Vamos criar a fun¸˜o Lagrangena Aumentada associada ao Programa
                     ca
    acima, para c > 0
                                                c
                   Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 .
                                                2


    Observe que o parˆmetro c controla a severidade da penaliza¸˜o da
                       a                                       ca
    viola¸˜o das restri¸˜es.
         ca            co
                  Alexandre Salles da Cunha      Programa¸˜o N˜o Linear com Restri¸˜es
                                                         ca   a                   co
Usando Lc (x, λ) em algoritmos

Dois mecanismos s˜o normalmente usados para, atrav´s da minimiza¸˜o
                      a                                   e             ca
irrestrita de Lc (·, λ) fornecer pontos pr´ximos a x ∗ , um minimizador
                                          o
(local) de f (x) : h(x) = 0.

  1   Fazemos λ = λ∗ . Conforme mostramos, se c ´ maior que um valor c,
                                                e
      ent˜o existem γ > 0, ǫ > 0 tais que:
         a
                                                 γ
            Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) +         ||x − x ∗ ||2 , ∀x : ||x − x ∗ || < ǫ
                                                 2
      Este resultado sugere que se λ ≈ λ∗ , uma razo´vel aproxima¸˜o de x ∗
                                                     a              ca
      deve ser obtida via minimiza¸˜o irrestrita de Lc (· · · , λ).
                                  ca
  2   Tomamos um valor bastante alto de c. Nestes casos, o custo da
      inviabilidade ´ elevado e ent˜o o m´
                    e              a     ınimo irrestrito de Lc (·, λ) deve ser
      quase vi´vel. Uma vez que Lc (x, λ) = f (x) para todo x vi´vel,
               a                                                   a
      devemos esperar Lc (x, λ) ≈ f (x) para x pr´ximo da viabilidade.
                                                 o

                     Alexandre Salles da Cunha     Programa¸˜o N˜o Linear com Restri¸˜es
                                                           ca   a                   co
Exemplo - abordagem 1

           1 2     2                     onde o vetor primal-dual ´timo ´
                                                                      o     e
   min       x + x2                                  ∗ , λ∗ ) = (1, 0, −1).
           2 1                           dado por (x
               x1 = 1
               1
   Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 , para c > 0.
                  2    2
                                         2
   Impondo ∇x Lc (x, λ) = 0, o m´
                                ınimo irrestrito possui coordenadas:
     ◮   x1 (c, λ) = c−λ . Logo para c > 0, temos
                     c+1
         limλ→λ∗ x1 (λ, c) = x1 (−1, c) = 1. Logo limλ→λ∗ x2 (λ, c) = 0
     ◮   x2 (λ, c) = 0.
Exemplo - abordagem 2 pura
             1
Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 .
                 2    2
                                       2
     x1 (c, λ) = c−λ . Logo limc→∞ c−λ = 1 = x1
                  c+1               c+1
                                                ∗
                                                 ∗
     x2 (c, λ) = 0. Logo limc→∞ x2 (c, λ) = 0 = x2 .




                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
M´todo de Penalidade Quadr´tica
 e                        a
Consiste em resolver uma sequˆncia de Problemas:
                             e


                                       m                    ck      m
  min   Lc k (x, λk ) = f (x) +              k
                                       i =1 λi hi (x)   +    2      i =1 hi (x)
                                                                               2

            x ∈X
onde {λk } ´ uma sequˆncia em Rm e {c k } ´ uma sequˆncia de
           e           e                  e         e
penalidades positivas.

    Na vers˜o original do m´todo (d´cada de 1960), os multiplicadores
            a               e        e
    n˜o eram aproximados; os multiplicadores eram fixados em zero. A
      a
    id´ia de aproxim´-los veio mais tarde.
       e            a
    Vamos permitir que os multiplicadores sejam multiplicados, sem no
    momento definir como isto ocorrer´.
                                     a
    Para sua validade, o m´todo depende de incrementar c k para ∞.
                          e

                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
M´todo Penalidades Quadr´ticas - Principal Resultado
 e                      a


Proposi¸˜o
       ca
Assuma que f , h s˜o fun¸˜es cont´
                  a     co       ınuas, que X ´ um conjunto fechado e
                                              e
que o conjunto {x ∈ X : h(x) = 0} ´ n˜o vazio. Para k = 0, 1, . . . ,, seja
                                   e a
x k um m´
        ınimo global do problema

                           min        Lc k (x, λk )
                                           x ∈ X,

onde {λk } ´ limitada, 0 < c k < c k+1 , ∀k e c k → ∞.
           e
Ent˜o todo ponto limite da sequˆncia {x k } ´ um m´
   a                           e            e     ınimo global do
problema ofiginal.



                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Observa¸˜es
       co
     O resultado assume que o m´     ınimo global irretristo ´ obtido de forma
                                                             e
     exata. Entretanto, os m´todos de otimiza¸˜o irrestrita s˜o terminados
                                 e                 ca             a
     quando ||∇x Lc (x k , λk )|| ≤ ǫk , onde ǫk ´ um pequeno escalar.
                                                 e

Proposi¸˜o
       ca
Assuma que f , h sejam fun¸˜es diferenci´veis e que X = Rn . Para
                               co            a
k = 0, 1, . . . , assuma que x k satisfa¸a ||∇x Lc (x k , λk )|| ≤ ǫk , onde {λk } ´
                                        c                                          e
limitada e {ǫk }, {c k } satisfazem:
     0 < c k < c k+1 , ∀k, c k → ∞
     0 ≥ ǫk , ∀k, ǫk → 0.
Assuma que a subsequˆncia {x k }K convirja para o vetor x ∗ tal que
                        e
∇h(x ∗ ) possua posto m. Ent˜o: {λk + c k h(x k )}K → λ∗ , onde λ∗ em
                             a
conjunto com x  ∗ satisfazem as condi¸˜es necess´rias de primeira ordem:
                                     co          a

                    ∇f (x ∗ ) + ∇h(x ∗ )′ λ∗ = 0, h(x ∗ ) = 0.

                      Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Exemplo


                   min                 x3
                             x +1=0



                    L(x, λ) = x 3 + λ(x + 1)

                                    c
            Lc (x, λ, c) = L(x, λ) + (x + 1)2
                                    2

           ∇x L(x ∗ , λ∗ ) = 0 → 3(x ∗ )2 + λ∗ = 0


          ∇λ L(x ∗ , λ∗ ) = 0 → x ∗ = −1, λ∗ = −3

           Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                               ca   a                   co
Exemplo - continua
Na Figura abaixo, indicamos f (x), L(x, λ∗ ), Lc (x, λ∗ ) para c = 9.




                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Penalidades Quadr´ticas - desempenho na pr´tica
                 a                        a
Temos trˆs possibilidades:
          e
  1 O m´todo n˜o funciona porque n˜o conseguimos satisfazer
           e        a                      a
    ||∇x Lc (x k , λk )|| ≤ ǫk . Isto normalmente ocorre quando Lc (·, λk ) ´
                                                                            e
    ilimitada inferiormente.
  2 Conseguimos satisfazer ||∇ L (x k , λk )|| ≤ ǫk , e k → 0, mas a
                                     x c
    sequˆncia {x k } converge para um ponto n˜o regular, ou n˜o converge.
           e                                       a             a
    Isto normalmente ocorre quando o problema original ´ invi´vel.
                                                             e    a
  3 {x k } converge para um ponto vi´vel regular. Este ´ o caso mais
                                          a                e
    comum. Pode tamb´m ocorrer que {x k } convirja para um ponto
                             e
    vi´vel n˜o regular, indicando que neste caso n˜o existem os
       a     a                                        a
    multiplicadores associados a x ∗ e a sequˆncia {λk + c k h(x k )} diverge
                                                 e
    e n˜o possui ponto limite.
         a
A experiˆncia sugere que, normalmente, ´ bastante confi´vel e que, no
        e                                e             a
m´ınimo, converge para um m´ ınimo local do problema. O seu fracasso ´
                                                                     e
norlmalmente associado ao malcondiconamento de min Lc (·, λk ), x ∈ X
quando c k → ∞.
                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Penalidades Quadr´ticas: malcondicionamento
                 a



                                   1 2     2
                        min          x + x2
                                   2 1
                                       x1 = 1


                            1 2                   c
              Lc (x, λ) =     x + x2 + λ(x1 − 1) + (x1 − 1)2
                                   2
                            2 1                   2

                                              1                           1+c 0
           ∇2 Lc (x, λ) = I + c
            xx                                         1 0        =
                                              0                            0  1
                 2
Autovalores de ∇xx Lc (x, λ) : 1 + c e 1. Quando c → ∞, o problema
torna-se malcondicionado.


                  Alexandre Salles da Cunha       Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Modifica¸˜es no M´todo de Penalidades Quadr´ticas
       co       e                         a
   A cada itera¸˜o k + 1, fazemos λk+1 ← λk + c k h(x k ), como uma
               ca
   melhor aproxima¸˜o para o vetor de multiplicadores ´timo. Ent˜o
                    ca                                o           a
   minimizamos Lc (·, λk+1 ). O m´todo baseado nesta aproxima¸˜o de
                                 e                             ca
   multiplicadores ´ chamado de M´todo dos Multiplicadores.
                   e               e
   Para evitar o malcondicionamento, recomenda-se empregar o M´todo
                                                              e
   de Newton para minimizar Lc (·, λk ).
   Al´m disto, ´ usual empregar x k como ponto de partida para a
     e         e
   minimiza¸˜o irrestrita de Lc (·, λk+1 ).
           ca
   A vantagem do uso combinado destas id´ias ´ poder empregar, em
                                           e e
   virtude de uma melhor aproxima¸˜o de λ∗ , uma taxa menor de
                                    ca
   crescimento da penalidade c k . Assim sendo, h´ uma tendˆncia do
                                                 a         e
   problema ser menos malcondicionado.
   Se c k aumenta muito rapidamente, a sequˆncia {x k } tende a
                                           e
   convergir mais rapidamente, mas o problema de malcondicionamento
   deve ser mais evidente.
                 Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                     ca   a                   co
Restri¸˜es de Desigualdades
      co


               (P) min                f (x)
                              hi (x) = 0 i = 1, . . . , m
                              gj (x) ≤ 0 j = 1, . . . , r

   Dado x vi´vel, vamos designar por A(x) = {j : g (x) = 0} o conjunto
             a
   dos ´
       ındices de restri¸˜es de desigualdades que s˜o justas para x.
                        co                          a
   Vamos assumir que x ∗ seja um m´   ınimo local para (P). Neste caso, x ∗
   tamb´m deve ser um m´
         e                  ınimo local para o programa abaixo:
                (PE) min                      f (x)
                                   hi (x) = 0 i = 1, . . . , m
                                   gj (x) = 0          j ∈ A(x ∗ )
   no qual as restri¸˜es de desigualdades folgadas em x ∗ (j ∈ A(x ∗ ))
                    co
   foram eliminadas.
                  Alexandre Salles da Cunha       Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
Analogia
   Esta observa¸˜o nos leva a crer que se x ∗ for um ponto regular para o
                 ca
   programa (PE), deve haver multiplicadores λ∗ : i = 1, . . . , m e
                                                 i
   µj : j ∈ A(x ∗ ) tais que as CNPO sejam atendidas:
                              m
              ∇f (x ∗ ) +           λi ∇hi (x ∗ ) +               µj gj (x ∗ ) = 0
                             i =1                     j∈A(x ∗ )

   Atribuindo multiplicadores nulos para as restri¸˜es gj (·) tais que
                                                  co
   j ∈ A(x ∗ ) temos:
                               m
              ∇f (x ∗ ) +                    ∗
                               i =1 λi ∇hi (x ) + r µj gj (x ∗ ) = 0
                                                      j=1
                                    µj = 0, j ∈ A(x ∗ )

   Um fato importante sobre os multiplicadores associados a gj (·):
   devem ser n˜o negativos. Observe que se a restri¸˜o gj (x) ≤ 0 for
               a                                    ca
   relaxada para g( x) ≤ µj para µj > 0, o custo ´timo de P deve
                                                 o
   diminuir.
                  Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                      ca   a                   co
Generalizando o conceito de ponto regular



Defini¸˜o
     ca
Um vetor vi´vel x ´ dito regular se:
           a      e
    os gradientes das restri¸˜es de igualdade ∇hi (x) : i = 1, . . . , m e os
                            co
    gradientes das restri¸˜es de desigualdades ativas em x,
                         co
    ∇gj (x) : j ∈ A(x) s˜o linearmente independentes.
                        a

    Tamb´m dizemos que x ´ regular no caso em que n˜o h´ restri¸˜es de
          e                  e                         a a         co
    igualdade e todas as restri¸˜es de desigualdade s˜o inativas em x.
                               co                    a




                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Condi¸˜es de Karush-Kuhn-Tucker
     co
Teorema - Condi¸˜es de Karush-Kuhn-Tucker (KKT)
               co
Seja x ∗ um m´
             ınimo local regular para
                 (P) min            f (x)
                              hi (x) = 0 i = 1, . . . , m
                              gj (x) ≤ 0 j = 1, . . . , r

onde f , hi , gj : Rn → R, ∀i , j s˜o fun¸˜es continuamente diferenci´veis.
                                   a     co                          a
Ent˜o existem multiplicadores de Lagrange unicos λ∗ e µ∗ tais que:
   a                                             ´

                      ∇x L(x ∗ , λ∗ , µ∗ ) = 0
                             µ∗ ≥ 0
                                j              j = 1, . . . , r                (14)
                             µj ∗ =0            j ∈ A(x ∗ )

Se em adi¸˜o a isto, tivermos f , hi , gj ∈ C 2 , ∀i , j ent˜o:
         ca                                                 a
   y ′ ∇2 L(x ∗ , λ∗ , µ∗ )y ≥ 0 ∀y ∈ Rm :
        xx                                            ∇hi (x)′y = 0
                                                                               (15)
                                                ∇gj (x)′ y = 0, j ∈ A(x ∗ ).
Exemplo


                                1 2      2    2
                    min           (x + x2 + x3 )
                                2 1
                              x1 + x2 + x3 ≤ −3
                     1 2     2    2
            L(x, µ) = (x1 + x2 + x3 ) + µ(x1 + x2 + x3 + 3)
                     2

   Das CNPO, temos ∇Lx (x ∗ , λ∗ ) = 0 → xi∗ + µ∗ = 0, i = 1, 2, 3
   Precisamos avaliar dois casos:
     ◮   A restri¸˜o ˜ folgada e ent˜o µ∗ = 0. Neste caso x1 = x2 = x3 = 0,
                 ca e               a                       ∗    ∗     ∗

         violando a restri¸˜o do problema. Logo a restri¸˜o n˜o ´ folgada.
                          ca                            ca a e
     ◮   A restri¸˜o ´ justa. Observe ent˜o que x1 + x2 + x3 = −3 equivale a
                 ca e                    a        ∗   ∗    ∗

         impor tamb´m que (CNPO) ∇µ L(x , µ ) = 0.
                     e                       ∗  ∗

         Assim sendo, temos x1 = x2 = x3 = −1 e µ∗ = 1
                               ∗     ∗    ∗



                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Exemplo - continua



   Analisando as condi¸˜es de KKT de segunda ordem:
                         co
    ′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer
   y xx
   y : ∇h(x ∗ )y = 0, ∇gj (x ∗ )y = 0, j ∈ A(x ∗ ).

   Como n˜o h´ restri¸˜es de igualdade, temos que a condi¸˜o torna-se
           a a           co                                ca
    ′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer y ∈ R3 : y + y + y = 0.
   y xx                                            1   2   3

                       2
   Entretanto, como ∇xx L(x ∗ , µ∗ ) = diag(1) ´ positiva definida, para
                                               e
   qualquer y (em particular satisfazendo y1 + y2 + y3 = 0) a condi¸˜o
                                                                     ca
   necess´ria de segunda ordem ´ atendida.
         a                       e




                 Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                     ca   a                   co
Condi¸˜es Suficientes de Segunda Ordem
     co

Proposi¸˜o
       ca
Condi¸˜es Suficientes de Segunda Ordem Assuma que f , g , h sejam
       co
fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn , λ∗ ∈ Rm , µ∗ ∈ Rr
   co                       a
satisfazendo:
      ∇x L(x ∗ , λ∗ , µ∗ ) = 0          h(x ∗ ) = 0                   g (x ∗ ) ≤ 0
             µ∗ ≥ 0
                j                      j = 1, . . . , r
             µ∗ = 0
                j                       j ∈ A(x ∗ )

    y ′ ∇xx L(x ∗ , λ∗ , µ∗ )y > 0                        para todo y satisfazendo:

      ∇hi (x ∗ )′ y = 0, ∀i = 1, . . . , m e ∇gj (x ∗ )′ y = 0, ∀j ∈ A(x ∗ ).
Assuma tamb´m que µ∗ > 0 para qualquer j ∈ A(x ∗ ).
            e        j
       ∗ ´ um m´
Ent˜o x e
   a           ınino local de f (x) restrito a h(x) = 0, g (x) ≤ 0.

                      Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                          ca   a                   co
M´todo da Barreira
 e

Vamos considerar o Problema

                   min              f (x)
                            gj (x) ≤ 0 j = 1, . . . , r
                                  x ∈X

e definir o interior (relativo a X ) do conjunto de viabilidade como
S = {x ∈ X : gj (x) < 0, ∀j = 1, . . . , r }.

Assumimos que:
    S = ∅.

    Qualquer ponto vi´vel y ∈ S pode ser aproximado t˜o proximamente
                      a                              a
    quanto se queira por um ponto em x ∈ S. Isto ´, para qualquer δ > 0
                                      ˆ          e
    existe x ∈ S tal que x − y ≤ δ.
           ˆ             ˆ

                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Id´ias centrais do m´todo
  e                 e
    Vamos acrescentar uma fun¸˜o de custo B(x), denominada fun¸˜o
                                    ca                             ca
    barreira ` fun¸˜o objetivo, definida exclusivamente em S e vamos
             a    ca
    resolver uma sequˆncia de problemas, satisfazendo
                      e
    0 < ǫk+1 < ǫk , k = 0, 1, . . . , ǫk → 0 na medida em que k → ∞:
                             min       f (x) + ǫk B(x)
                                                  x ∈S
    A fun¸˜o barreira deve ser cont´
          ca                       ınua e na medida em que x tenda para
    a fronteira do conjunto, B(x) deve tender a ∞. Isto ´, B(x) deve ter
                                                        e
    uma descontinuidade na fronteira do conjunto de viabilidade.
    Fun¸˜es barreira usuais:
        co
                      r
      1   B(x) = −         ln{−gj (x)}
                     j=1
                      r
                              1
      2   B(x) = −
                           gj (x)
                     j=1
    Sendo gj (x) convexas, as fun¸˜es acima tamb´m o s˜o.
                                 co             e     a
                     Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                         ca   a                   co
Id´ias centrais do m´todo
  e                 e


Seja x k a solu¸˜o de:
               ca

                   (P k ) min           f (x) + ǫk B(x)
                                                  x ∈ S.

    A sequˆncia {x k } pertence a S.
          e
    Na medida em que k → ∞ e por consequˆncia ǫk → 0, a contribui¸˜o
                                              e                        ca
    do termo barreira, ǫk B(x), deve tender a zero, para todo ponto x ∈ S.
    Assim sendo, com a evolu¸˜o das itera¸˜es, pontos pr´ximos a
                             ca           co             o
    fronteira ter˜o sua componente de custo decorrente do termo de
                 a
    barreira minorado, como deveria ser, caso o ´timo esteja na fronteira.
                                                o



                    Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                        ca   a                   co
Principal resultado te´rico
                      o



Proposi¸˜o
       ca
Todo ponto limite da sequˆncia {x k } gerada pelo M´todo da Barreira ´
                         e                         e                 e
um ponto de m´ınimo global do problema original.


Observa¸˜es:
       co

             ıcito que o problema ´ convexo ou que x k ´ um ´timo global
    Est´ impl´
       a                          e                    e    o
    do problema P k .




                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co
Exemplo



                  1 2     2
min     f (x) =    (x + x2 )                     Solu¸˜o ´tima: x ∗ = (2, 0).
                                                     ca o
                  2 1
                      2 ≤ x1

      Assumindo a fun¸˜o barreira logaritmica, B(x) = −ln(x1 − 2),
                     ca
      impondo as CNPQ ao problema P k temos:

                            1 2    2
      x k ∈ arg minx1 >2     (x + x2 ) − ǫk ln(x1 − 2)               = 1+            1 + ǫk , 0
                            2 1
                k
      limǫk →0 x1 = 2



                     Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                         ca   a                   co
Exemplo - continua

                1 2        2
            min   (x + x2 ) − ǫk ln(x1 − 2) : x1 > 2
                2 1
Curvas de n´ para P k : ǫ = 0.3 (esquerda) e ǫ = 0.03 (direita).
           ıvel




                   Alexandre Salles da Cunha   Programa¸˜o N˜o Linear com Restri¸˜es
                                                       ca   a                   co

Mais conteúdo relacionado

Mais procurados

Medida de risco por Teoria de Valores Extremos
Medida de risco por Teoria de Valores ExtremosMedida de risco por Teoria de Valores Extremos
Medida de risco por Teoria de Valores ExtremosRenato Vicente
 
Redes Neurais: Estimação de Densidades
Redes Neurais: Estimação de DensidadesRedes Neurais: Estimação de Densidades
Redes Neurais: Estimação de DensidadesRenato Vicente
 
Redes Neurais: Técnicas Bayesianas
Redes Neurais: Técnicas BayesianasRedes Neurais: Técnicas Bayesianas
Redes Neurais: Técnicas BayesianasRenato Vicente
 
Redes Neurais: classificação e regressão
Redes Neurais: classificação e regressãoRedes Neurais: classificação e regressão
Redes Neurais: classificação e regressãoRenato Vicente
 
Redes Neurais: Processos Gaussianos
Redes Neurais: Processos GaussianosRedes Neurais: Processos Gaussianos
Redes Neurais: Processos GaussianosRenato Vicente
 
Introdução à Amostragem Compressiva
Introdução à Amostragem CompressivaIntrodução à Amostragem Compressiva
Introdução à Amostragem CompressivaEdmar Gurjão
 
Risco de Crédito 3: KMV
Risco de Crédito 3: KMVRisco de Crédito 3: KMV
Risco de Crédito 3: KMVRenato Vicente
 
Redes neurais com matlab
Redes neurais com matlabRedes neurais com matlab
Redes neurais com matlabRenato Vicente
 
Cálculo I engenharias
Cálculo I engenhariasCálculo I engenharias
Cálculo I engenhariasAna Rodrigues
 
Aula 8 variáveis aleatória contínua - parte 1
Aula 8   variáveis aleatória contínua - parte 1Aula 8   variáveis aleatória contínua - parte 1
Aula 8 variáveis aleatória contínua - parte 1Ariel Rennó Chaves
 

Mais procurados (19)

Medida de risco por Teoria de Valores Extremos
Medida de risco por Teoria de Valores ExtremosMedida de risco por Teoria de Valores Extremos
Medida de risco por Teoria de Valores Extremos
 
Redes Neurais: Estimação de Densidades
Redes Neurais: Estimação de DensidadesRedes Neurais: Estimação de Densidades
Redes Neurais: Estimação de Densidades
 
Redes Neurais: Técnicas Bayesianas
Redes Neurais: Técnicas BayesianasRedes Neurais: Técnicas Bayesianas
Redes Neurais: Técnicas Bayesianas
 
V@R Não-Linear
V@R Não-LinearV@R Não-Linear
V@R Não-Linear
 
Resumo MD
Resumo MDResumo MD
Resumo MD
 
Redes Neurais: classificação e regressão
Redes Neurais: classificação e regressãoRedes Neurais: classificação e regressão
Redes Neurais: classificação e regressão
 
Redes Neurais: Processos Gaussianos
Redes Neurais: Processos GaussianosRedes Neurais: Processos Gaussianos
Redes Neurais: Processos Gaussianos
 
Ex algebra (8)
Ex algebra  (8)Ex algebra  (8)
Ex algebra (8)
 
Tarefa7
Tarefa7Tarefa7
Tarefa7
 
Introdução à Amostragem Compressiva
Introdução à Amostragem CompressivaIntrodução à Amostragem Compressiva
Introdução à Amostragem Compressiva
 
Calculo1 aula08
Calculo1 aula08Calculo1 aula08
Calculo1 aula08
 
Limites2
Limites2Limites2
Limites2
 
Risco de Crédito 3: KMV
Risco de Crédito 3: KMVRisco de Crédito 3: KMV
Risco de Crédito 3: KMV
 
Redes neurais com matlab
Redes neurais com matlabRedes neurais com matlab
Redes neurais com matlab
 
Tarefa7
Tarefa7Tarefa7
Tarefa7
 
Cálculo I engenharias
Cálculo I engenhariasCálculo I engenharias
Cálculo I engenharias
 
Aula 8 variáveis aleatória contínua - parte 1
Aula 8   variáveis aleatória contínua - parte 1Aula 8   variáveis aleatória contínua - parte 1
Aula 8 variáveis aleatória contínua - parte 1
 
Mat limites 001
Mat limites  001Mat limites  001
Mat limites 001
 
Tarefa7
Tarefa7Tarefa7
Tarefa7
 

Semelhante a Programação não linear

Introdução à limites - Teoremas e exercícios
Introdução à limites - Teoremas e exercíciosIntrodução à limites - Teoremas e exercícios
Introdução à limites - Teoremas e exercíciosThiagoFDomingosDiasF
 
Aplicações da equação de Schrödinger independente do tempo
Aplicações da equação de Schrödinger independente do tempoAplicações da equação de Schrödinger independente do tempo
Aplicações da equação de Schrödinger independente do tempoLucas Guimaraes
 
Capítulo4 interpolação
Capítulo4 interpolaçãoCapítulo4 interpolação
Capítulo4 interpolaçãoJADSON SANTOS
 
Sucessoes e series com res
Sucessoes e series com resSucessoes e series com res
Sucessoes e series com resMaths Tutoring
 
Lista de exercícios 3 - Cálculo
Lista de exercícios 3 - CálculoLista de exercícios 3 - Cálculo
Lista de exercícios 3 - CálculoCarlos Campani
 
Lista de exercícios 8
Lista de exercícios 8Lista de exercícios 8
Lista de exercícios 8Carlos Campani
 
625639 a-teoria-dos-limites-calculo
625639 a-teoria-dos-limites-calculo625639 a-teoria-dos-limites-calculo
625639 a-teoria-dos-limites-calculoMarcos Lira
 

Semelhante a Programação não linear (20)

Introdução à limites - Teoremas e exercícios
Introdução à limites - Teoremas e exercíciosIntrodução à limites - Teoremas e exercícios
Introdução à limites - Teoremas e exercícios
 
Aplicações da equação de Schrödinger independente do tempo
Aplicações da equação de Schrödinger independente do tempoAplicações da equação de Schrödinger independente do tempo
Aplicações da equação de Schrödinger independente do tempo
 
Limites2
Limites2Limites2
Limites2
 
Metodo do ponto fixo resumo
Metodo do ponto fixo resumoMetodo do ponto fixo resumo
Metodo do ponto fixo resumo
 
L hopital
L hopitalL hopital
L hopital
 
Calculo1 aula08
Calculo1 aula08Calculo1 aula08
Calculo1 aula08
 
Capítulo4 interpolação
Capítulo4 interpolaçãoCapítulo4 interpolação
Capítulo4 interpolação
 
Sucessoes e series com res
Sucessoes e series com resSucessoes e series com res
Sucessoes e series com res
 
Lista de exercícios 3 - Cálculo
Lista de exercícios 3 - CálculoLista de exercícios 3 - Cálculo
Lista de exercícios 3 - Cálculo
 
Lista de integração
Lista de integraçãoLista de integração
Lista de integração
 
Lista de exercícios 8
Lista de exercícios 8Lista de exercícios 8
Lista de exercícios 8
 
625639 a-teoria-dos-limites-calculo
625639 a-teoria-dos-limites-calculo625639 a-teoria-dos-limites-calculo
625639 a-teoria-dos-limites-calculo
 
Calculo1 aula13 (1)
Calculo1 aula13 (1)Calculo1 aula13 (1)
Calculo1 aula13 (1)
 
Calculo1 aula13
Calculo1 aula13Calculo1 aula13
Calculo1 aula13
 
Calculo1 aula13 (1)
Calculo1 aula13 (1)Calculo1 aula13 (1)
Calculo1 aula13 (1)
 
Calculo1 aula13
Calculo1 aula13Calculo1 aula13
Calculo1 aula13
 
Limites
LimitesLimites
Limites
 
Calculo1 aula07
Calculo1 aula07Calculo1 aula07
Calculo1 aula07
 
Calculo1 aula07
Calculo1 aula07Calculo1 aula07
Calculo1 aula07
 
Calculo1 aula10
Calculo1 aula10Calculo1 aula10
Calculo1 aula10
 

Programação não linear

  • 1. Programa¸˜o N˜o Linear com Restri¸˜es ca a co Alexandre Salles da Cunha DCC-UFMG, Mar¸o 2010 c Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 2. Defini¸˜o do Problema ca Problema de Otimiza¸˜o sobre um conjunto convexo ca minimize f (x) (1) x ∈X (2) Vamos assumir que X = ∅ ´ um conjunto convexo. e O conjunto X ´ normalmente definido por um conjunto de restri¸˜es e co n˜o lineares h(x) = 0 e g (x) ≤ 0, onde: a ◮ h : Rn → Rm ◮ g : Rn → Rp Assumimos que f ∈ C 2 : Rn → R.
  • 3. Algumas observa¸˜es preliminares co Se f for convexa sobre X , o Problema de Otimiza¸˜o ´ Convexo e ca e qualquer ´timo local do problema ´ um ´timo global. o e o Assim como no Problema de Otimiza¸˜o Irrestrita, no Problema de ca Otimiza¸˜o com restri¸˜es, esperamos que, em um ponto candidato a ca co m´ınimo x ∗ , a varia¸˜o de primeira ordem (∇f (x ∗ ))′ △x ≥ 0 seja ca verificada para qualquer dire¸˜o △x vi´vel. ca a Este problema generaliza o Problema de Programa¸˜o N˜o-Linear ca a Irrestrito.
  • 4. Panorama dos M´todos que iremos discutir neste curso e M´todos Primais: e ◮ M´todo de Dire¸oes Vi´veis e c˜ a ◮ M´todo do Gradiente Projetado e ◮ Particularmente adequados quando o dom´ ´ um poliedro e a fun¸˜o ınio e ca objetivo ´ n˜o linear, ou quando obter uma dire¸˜o vi´vel ou projetar e a ca a sobre o conjunto forem f´ceis de serem resolvidas. a M´todos baseados em Multiplicadores de Lagrange: e ◮ Penalidades ◮ Barreiras ◮ Transformam o problema com restri¸oes em uma s´rie de problemas c˜ e irrestritos, envolvendo uma alta penalidade pela viola¸˜o das restri¸oes. ca c˜ A solu¸˜o destes problemas irrestritos fornece, assintoticamente, a ca solu¸˜o do problema original. ca Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 5. Condi¸˜es de Otimalidade co Proposi¸˜o ca Seja x ∗ um m´ ınimo local de f em um conjunto convexo X . Ent˜o: a 1 ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X 2 Se f for convexa sobre X , ent˜o a condi¸˜o acima ´ uma condi¸˜o a ca e ca suficiente para x ∗ minimizar f em X . Prova Parte 1 Suponha ∇f (x ∗ )′ (x − x ∗ ) < 0, para algum x ∈ X . Pelo Teorema do Valor Central, temos que para todo ǫ > 0, existe s ∈ [0, 1] tal que: f (x ∗ + ǫ(x − x ∗ )) = f (x ∗ ) + ǫ∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ ) Pela continuidade de f , temos que para ǫ > 0 suficientemente pequeno, ∇f (x ∗ + sǫ(x − x ∗ ))′ (x − x ∗ ) < 0 e ent˜o f (x ∗ + ǫ(x − x ∗ )) < f (x ∗ ). a Como o conjunto X ´ convexo, temos que x ∗ + ǫ(x − x ∗ ) ´ vi´vel para e e a todo ǫ ∈ [0, 1] e ent˜o contradizemos a otimalidade de x a ∗.
  • 6. Condi¸˜es de Otimalidade co Prova Parte 2 Pela convexidade de f em X temos: f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ), ∀x ∈ X Pela parte 1 j´ demonstrada temos que ∇f (x ∗ )(x − x ∗ ) ≥ 0 a f (x) ≥ f (x ∗ ) + ∇f (x ∗ )′ (x − x ∗ ) ≥ f (x ∗ ), ∀x ∈ X , e o resultado segue.
  • 7. Ponto estacion´rio a Defini¸˜o ca Um ponto x ∗ que satisfaz a condi¸˜o ca ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X ´ denominado ponto estacion´rio. e a Observe que se x ∗ ´ um ponto interior ou se X = Rn as condi¸˜es e co enunciadas equivalem ` ∇f (x ∗ ) = 0. a Assim sendo, estas condi¸˜es tamb´m podem ser satisfeitas para co e pontos de m´ximo ou mesmo outros pontos. a
  • 8. Se X n˜o for convexo... a Al´m de serem n˜o suficientes, estas condi¸˜es podem falhar e a co Observe no exemplo (` direita) abaixo temos que: a ◮ e ınimo local, uma vez que ∇f (x ∗ )′ △x ≥ 0 para x ∗ ´ um ponto de m´ qualquer △x vi´vel,mas... a ◮ a condi¸˜o enunciada falha porque x − x ∗ n˜o ´ uma dire¸˜o vi´vel, ca a e ca a uma vez que X n˜o ´ convexo e ent˜o ∇f (x ∗ )′ (x − x ∗ ) < 0. a e a
  • 9. Restri¸˜es Ativas e Inativas co Normalmente, o conjunto X ´ definido por restri¸˜es de igualdade e e co desigualdade: hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , p Consideremos cada uma das restri¸˜es gj (x) : j = 1, . . . , p e um co ponto x vi´vel para o problema em estudo. a Dizemos que gj (x) ´ ativa em x se gj (x) = 0. e Caso gj (x) < 0, gj (x) ´ inativa em x. e Por defini¸˜o, todas as restri¸˜es hi (x) : i = 1, . . . , m s˜o ativas. ca co a
  • 10. Otimiza¸˜o sobre um quadrante n˜o negativo ca a Considere o conjunto convexo X = {x ∈ Rn : xi ≥ 0, ∀i = 1, . . . , n}. Observe que a condi¸˜o de otimalidade ∇f (x ∗ )′ (x − x ∗ ) ≥ 0, ∀x ∈ X ca equivale a: n ∂f (x ∗ ) (xi − xi∗ ) ≥ 0, ∀x = (x1 , . . . , xn ) ∈ X ∂xi i =1 Fixando dire¸˜es convenientes, dependendo da coordenada de i de xi∗ co estar ou n˜o na fronteira, temos que a equa¸˜o escalar anterior a ca implica em: ∂f (x ∗ ) ◮ ∂xi = 0, ∀i : xi > 0 ∂f (x ∗ ) ◮ ∂xi ≥ 0, ∀i = 1, . . . , n
  • 11. Otimiza¸˜o sobre uma caixa ca Como poderiam ser expressas as condi¸˜es de otimalidade caso co X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n} ∂f (x ∗ ) = 0 ∀i : ai < xi∗ < bi (3) ∂xi ∂f (x ∗ ) ≥0 ∀i : xi∗ = ai (4) ∂xi ∂f (x ∗ ) ≤0 ∀i : xi∗ = bi (5) ∂xi
  • 12. Otimiza¸˜o sobre uma caixa ca Como poderiam ser expressas as condi¸˜es de otimalidade caso co X = {x ∈ Rn : ai ≤ xi ≤ bi , i = 1, . . . , n} ∂f (x ∗ ) = 0 ∀i : ai < xi∗ < bi (3) ∂xi ∂f (x ∗ ) ≥0 ∀i : xi∗ = ai (4) ∂xi ∂f (x ∗ ) ≤0 ∀i : xi∗ = bi (5) ∂xi
  • 13. A importˆncia das restri¸˜es ativas a co Exemplo min f (x1 , x2 ) : x1 , x2 ≥ 0 ınimo, todas as derivadas parciais ∂f∂xi ) s˜o n˜o (x ∗ No ponto x ∗ de m´ a a negativas e s˜o nulas para as restri¸˜es xi ≥ 0 inativas. Se todas as a co restri¸˜es forem inativas em x ∗ , a condi¸˜o de otimalidade equivale a co ca ∇f (x ∗ ) = 0.
  • 14. A importˆncia das restri¸˜es ativas a co As restri¸˜es ativas em x ´ que restringem a viabilidade nas co e vizinhan¸as de um ponto. c Desempenham papel fundamental na dedu¸˜o das propriedades ca (condi¸˜es necess´rias e suficientes) de um ponto de m´ co a ınimo local. As restri¸˜es inativas n˜o influenciam em nada a viabilidade nas co a vizinhan¸as de x. c Caso soub´ssemos quais s˜o as restri¸˜es ativas no ponto de m´ e a co ınimo, poder´ ıamos concentrar nosso estudo apenas ` elas, tratando-as como a restri¸˜es de igualdade e ignorando as restri¸˜es inativas. co co
  • 15. M´todo de Dire¸˜es Vi´veis e co a minimize f (x) x ∈X Vamos inicialmente estudar m´todos de otimiza¸˜o para o problema, e ca assumindo: X ´ convexo, n˜o vazio e a f ∈ C 1 , isto ´, X ´ continuamente diferenci´vel em X . e e a N˜o assumimos nenhuma estrutura ou caracter´ a ıstica especial ao conjunto de restri¸˜es que determinam X , a n˜o as citadas acima. co a
  • 16. M´todos de Dire¸˜es Vi´veis e co a Defini¸˜o ca Dado um vetor vi´vel x, dizemos que d ´ uma dire¸˜o vi´vel em x se d ´ a e ca a e tal que x + αd ∈ X para qualquer α > 0 suficientemente pequeno.
  • 17. M´todo de Dire¸˜es Vi´veis e co a Um m´todo nesta classe: e inicia com uma solu¸˜o x 0 e gera uma sequˆncia {x k } de pontos ca e vi´veis, atrav´s da itera¸˜o t´ a e ca ıpica: x k+1 = x k + αk d k se x k n˜o ´ um ponto estacion´rio, ent˜o a dire¸˜o d k escolhida a e a a ca satisfaz: ∇f (x k )′ d k < 0 o passo αk ´ escolhido de forma que x k + αk d k ∈ X . e se x k ´ estacion´rio, o m´todo p´ra (x k+1 = x k ). e a e a Vamos nos concentrar em m´todos de dire¸˜es vi´veis que s˜o e co a a m´todos de descida, isto ´, f (x e e k + αk d k ) < f (x k ).
  • 18. Um m´todo de dire¸˜es vi´veis, de descida e co a
  • 19. Caracteriza¸˜o da dire¸˜o vi´vel ca ca a Conforme j´ mencionamos, no caso onde X ´ convexo, uma dire¸˜o a e ca vi´vel d a k em x k pode ser caracterizada da seguinte maneira: d k = γ(x k − x k ), γ > 0 onde x k ´ algum ponto vi´vel. e a O m´todo opera ent˜o de acordo com a seguinte itera¸˜o: e a ca x k+1 = x k + αk d k , α ∈ [0, 1], onde a dire¸˜o d k al´m de vi´vel, deve ser de descida: ca e a ∇f (x k )′ (x k − x k ) < 0, x k ∈ X Observe que pela convexidade de X , x k + αk (x k − x k ) ∈ X para qualquer α ∈ [0, 1]. Al´m disto, se d k = γ(x k − x k ) ´ uma dire¸˜o de descida e x k ´ n˜o e e ca e a estacion´rio, temos a garantia de existir um αk para o qual a f (x k+1 ) < f (x k ).
  • 20. M´todos de dire¸˜es vi´veis: id´ias centrais e co a e Requerem uma solu¸˜o vi´vel inicial (m´todo de duas fases) ca a e Definem uma dire¸˜o vi´vel de descida, ou concluem que o ponto ´ ca a e estacion´rio. a Implementam uma itera¸˜o t´ ca ıpica que corresponde a uma busca unidirecional na dire¸˜o escolhida. ca Podem ser vistos como uma especializa¸˜o dos m´todos que vimos ca e at´ anteriormente para otimiza¸˜o irrestrita. e ca
  • 21. M´todo de Dire¸˜es vi´veis: determina¸˜o do passo e co a ca Minimiza¸˜o exata: αk = arg min ca α∈[0,1] f (x k + αd k ) Armijo: Fixados escalares β, σ > 0 tais que β ∈ (0, 1) e σ ∈ (0, 1), fazemos αk = β mk , onde mk ´ o primeiro inteiro n˜o negativo m tal e a que: f (x k ) − f (x k + β m d k ) ≥ −σβ m ∇f (x k )′ d k Ou seja, tentamos sucessivamente os passos αk = 1, β, β 2 , . . . at´ e satisfazer a condi¸˜o acima. ca
  • 22. M´todos de Dire¸˜es Vi´veis: convergˆncia e co a e Proposi¸˜o ca Seja {x k } a sequˆncia gerada por um M´todo de Dire¸˜es Vi´veis e e co a x k+1 = x k + αk d k , onde as dire¸˜es {d k } s˜o gradiente relacionadas e αk co a ´ determinado atrav´s de minimiza¸˜o exata ou via regra de Armijo. e e ca Ent˜o, todo ponto limite de {x e a k } ´ um ponto estacion´rio. a
  • 23. Encontrando um ponto inicial Dado o problema minimize f (x) hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , p criamos e resolvemos o problema artificial (fase 1) m p minimize zi + yj i =1 j=1 hi (x) + zi = 0 i = 1, . . . , m gj (x) − yj ≤ 0 j = 1, . . . , p yj ≥ 0 j = 1, . . . , p Iniciamos o m´todo com x = (0, . . . , 0) e o vetor y e z calculados e para viabilizar o programa acima. Ao final da fase 1, caso a fun¸˜oca objetivo seja nula, dispomos de um ponto inicial vi´vel para o a programa original.
  • 24. M´todo do Gradiente Condicional e Os m´todos nesta classe se diferenciam em como a dire¸˜o vi´vel, de e ca a descida ´ obtida. Um dos m´todos mais usados nesta classe ´ o Gradiente e e e Condicional: O problema de obter uma dire¸˜o vi´vel com propriedade de descida ca a em x k pode ser formulado como: min ∇f (x k )′ (x − x k ) x ∈X Se X ´ compacto, o programa acima ´ limitado. Caso X n˜o seja e e a limitado, impomos restri¸˜es lineares do tipo x ∞ ≤ 1 e resolvemos co o programa. Se o valor ´timo do programa auxiliar for negativo, encontramos uma o dire¸˜o vi´vel, de descida. ca a
  • 25. Obtendo uma dire¸˜o vi´vel ca a Observe que o programa auxiliar envolve o mesmo conjunto de restri¸˜es que do original, mas a fun¸˜o objetivo ´ linear. co ca e No caso das restri¸˜es que definem X serem n˜o lineares, o programa co a auxiliar ´ t˜o complicado quanto o programa original. e a Os m´todos de dire¸˜es vi´veis, em particular o do Gradiente e co a Condicional, s˜o particularmente interessantes quando X ´ um a e poliedro, uma vez que o subproblema ´ um Programa Linear. e
  • 26. Gradiente Condicional quando X ´ um poliedro e Se o m´todo Simplex ´ usado para resolver o subproblema, x k sempre e e ´ um ponto extremo de X . e Por quˆ a dire¸˜o d k que resolve o subproblema n˜o ´ contr´ria a e ca a e a ∇f (x k ), se x k for um ponto interior ?
  • 27. M´todo do Gradiente Condicional: exemplo num´rico e e Problema Quadr´tico a 1 2 2 2 minimize f (x) = (x1 + x2 + 0.1x3 ) + 0.55x3 2 x1 + x2 + x3 = 1 x ≥0 Subproblema associado - determina¸˜o da dire¸˜o vi´vel, de descida ca ca a minimize k k k (x1 )x1 + (x2 )x2 + (0.1x3 + 0.55)x3 + + (−(x1 )2 − (x2 )2 − (x3 )(0.1x3 + 0.55) k k k k x1 + x2 + x3 = 1 x ≥0 que pode ser resolvido de forma gulosa. gradcondicional.sci
  • 28. M´todo do Gradiente Condicional: exemplo num´rico e e Vamos implementar o m´todo considerando: e x 0 = 1 (1, 1, 1)′ e tamb´m x 0 = (1, 0, 0)′ 3 e Passo de Armijo. Condi¸˜o de parada definida na resolu¸˜o do subproblema: ca ca ∇f (x k )′ d k ≥ −1.0E − 4 ∇f (x k ) d k
  • 29. Taxa de Convergˆncia do M´todo do Gradiente Condicional e e Se a regra de Armijo ou a minimiza¸˜o exata forem empregadas ca para se determinar o αk , pode-se demonstrar que as dire¸˜es geradas co s˜o gradiente relacionadas e, ent˜o, a a todo ponto limite da sequˆncia gerada e pelo m´todo ´ um ponto estacion´rio. e e a Apesar disto, a taxa de convergˆncia e do m´todo ´ baixa: os pontos x k e e gerados s˜o tais que a dire¸˜o d k ´ a ca e quase ortogonal ´ dire¸˜o que levaria a ca ao ´timo, a partir do ponto x k o (zig-zag). Veja a figura:
  • 30. M´todo do Gradiente Projetado e Mover ao longo da dire¸˜o contr´ria ao gradiente n˜o garante a ca a a viabilidade do ponto obtido, caso o ponto de origem esteja na fronteira do conjunto de viabilidade. O M´todo do Gradiente Projetado consiste em projetar o vetor e contr´rio ao gradiente no conjunto X , de forma que aprimore a a fun¸˜o objetivo e garanta viabilidade. ca Do ponto de vista computacional, a principal desvantagem do m´todo e ´ o elevando custo associado ` proje¸˜o, em cada itera¸˜o. e a ca ca O m´todo ´ uma boa alternativa quando a opera¸˜o de proje¸˜o pode e e ca ca ser feita com baixo custo computacional.
  • 31. O problema de projetar z ∈ Rn em X convexo, fechado Proje¸˜o ca Consiste em encontrar um vetor x ∗ ∈ X , cuja distˆncia a z seja m´ a ınima: minimize z −x x ∈X Alguns fatos sobre a proje¸˜o ca Para todo z ∈ Rn existe um x ∗ ∈ X unico que minimiza z − x ´ sobre todo x ∈ X . Este vetor ´ chamado proje¸˜o de z em X . e ca Usualmente denominamos x ∗ = [z]+ . Dado z ∈ Rn , x ∗ = [z]+ se e somente se (z − x ∗ )(x − x ∗ ) ≤ 0, ∀x ∈ X . No caso de X ser um subespa¸o, x ∗ ∈ X ´ a proje¸˜o de z em X se e c e ca somente se z − x ∗ for ortogonal a X , isto ´: (z − x ∗ )x = 0, ∀x ∈ X . e
  • 32. Gradiente projetado Vamos supor que o nosso problema de otimiza¸˜o seja ca minimize f (x) Ax ≤ b Ex = e onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e X = {x ∈ Rn : Ax ≤ b, Ex = e}. e que disponhamos de um ponto vi´vel x k na fronteira do conjunto de a viabilidade X . Assuma ent˜o que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ], a 1 2 b ′ = [b1 , b2 ]. ′ ′ Suponha tamb´m que f seja diferenci´vel em x k . e a Como fazemos para projetar −∇f (x k ) na face de X ativa em x k ?
  • 33. Resolvemos o seguinte Problema de Otimiza¸˜o Quadr´tica ca a minimize x − (−∇f (x k )) A 1 x = b1 A 2 x ≤ b2 Ex = e cuja solu¸˜o (obtida analiticamente) ´ x ∗ = −P∇f (x k ) onde a matriz P ca e (chamada de matriz de proje¸˜o) ´ dada por: ca e P = I − M ′ (MM ′ )−1 M e a matriz M corresponde ˜s linhas das restri¸˜es ativas em x k : a co M ′ = [A′ , E ′ ]. 1
  • 34. Matrizes de Proje¸˜o ca Defini¸˜o ca Assuma que P ∈ Rn×n seja uma matriz quadrada de ordem n. P ´ e chamada matriz de proje¸˜o se: ca P = P′ PP = P Proposi¸˜o ca Seja P uma matriz quadrada de ordem n. Ent˜o, o seguinte ´ verdadeiro: a e 1 Se P ´ uma matriz de proje¸˜o, ent˜o P ´ positiva semi definda. e ca a e 2 P ´ uma matriz de proje¸˜o se e somente se I − P ´ uma matriz de e ca e proje¸˜o. ca 3 Seja P uma matriz de proje¸˜o e Q = I − P. Ent˜o os subespa¸os ca a c lineares L = {Px : x ∈ Rn } e L⊥ = {Qx : x ∈ Rn } s˜o ortogonais. a Al´m disto, qualquer x ∈ Rn pode ser escrito como x = p + q onde e p ∈ L, q ∈ L⊥ , atrav´s de p, q unicos. e ´
  • 35. Matrizes de Proje¸˜o ca Prova 1 Seja x ∈ Rn um vetor arbitr´rio. Ent˜o, se P ´ uma matriz de a a e proje¸˜o, x ′ Px = x ′ PPx = x ′ P ′ Px = Px 2 ≥ 0, logo P ´ positiva ca e semidefinida. 2 ´ Obvio. 3 Claramente L, L⊥ s˜o subespa¸os lineares. a c Uma vez que P ′ Q = P ′ (I − P) = P − P ′ P = 0, L, L⊥ s˜o de fato a ortogonais. (Unicidade) suponha que x = p ′ + q ′ e que x = p + q. Ent˜oa subtraindo a primeira da segunda temos p − p ′ = q p rime − q. Uma vez que L ∩ L⊥ = 0, p − p ′ = q ′ − q = 0 e a representa¸˜o ´ unica. ca e ´
  • 36. Interpreta¸˜o ca Dado z ∈ Rn temos que (Pz)′ , (I − P)z = 0. Ou seja, a aplica¸˜o ca Pz projeta z no espa¸o ortogonal ao da aplica¸˜o Qz = (I − P)z. c ca Assim sendo podemos escrever que z ´ a soma direta de Pz e Qz ou e seja, z = Pz ⊕ Qz.
  • 37. Gradiente Projetado - Problema com restri¸˜es lineares co minimize f (x) Ax ≤ b Ex = e onde A ∈ Rm×n , E ∈ Rl×n , b ∈ Rm×1 , e ∈ Rl×1 e X = {x ∈ Rn : Ax ≤ b, Ex = e}. Id´ia central e Dado x k , se movemos na dire¸˜o −∇f (x k ), podemos perder ca viabilidade. Para preservar viabilidade, projetamos −∇f (x k ) na face ativa de X ativa (em rela¸˜o ` x k , usando uma matriz de proje¸˜o P adequada) ca a ca e nos movemos na dire¸˜o d k = −P∇f (x k ). ca
  • 38. Caracteriza¸˜o de Dire¸˜es Vi´veis ca co a Proposi¸˜o ca Considere o poliedro X = {x ∈ Rn : Ax ≤ b, Ex = e} que definimos. Suponha que x k ∈ X e que A1 x k = b1 , A2 x k < b2 , A′ = [A′ , A′ ], b ′ = [b1 , b2 ]. 1 2 ′ ′ Ent˜o, um vetor d k ´ vi´vel em x k se e somente se A1 d k ≤ 0, Ed k = 0. a e a (A demonstra¸˜o ´ ´bvia). ca e o
  • 39. Gradiente projetado - X ´ um poliedro e Proposi¸˜o ca Considere o problema minx∈X definido acima. Assuma que x k seja um ponto vi´vel tal que A1 x k = b1 e A2 x k < b2 , onde A′ = [A′ , A′ ], a 1 2 b ′ = [b1 , b2 ]. Suponha tamb´m, que f seja diferenci´vel em x k . Ent˜o: ′ ′ e a a 1 Se P ´ uma matriz de proje¸˜o tal que P∇f (x k ) = 0, ent˜o e ca a d k = −P∇f (x k ) ´ uma dire¸˜o de descida de f em x k . e ca 2 Al´m disto, se M ′ = [A1 , E ′ ] possui posto completo e se e ′ P =I −M ′ (MM ′ )−1 M, ent˜o d k ´ uma dire¸˜o de descida, vi´vel. a e ca a
  • 40. Gradiente projetado - X ´ um poliedro e Prova 1 (−P∇f (x k ) ´ dire¸˜o de descida) e ca Observe que: ∇f (x k )′ d k = −∇f (x k )′ P∇f (x k ) = −∇f (x k )′ P ′ P∇f (x k ) = − P∇f (x k ) < 0, uma vez que P ´ positiva e semi-definda e, pelo enunciado ∇f (x k )′ P = 0. Ent˜o d k ´ uma a e dire¸˜o de descida. ca 2 (−P∇f (x k ) ´ dire¸˜o vi´vel) e ca a Se M possui posto completo, (MM ′ ) ´ n˜o singular e ent˜o: e a a P = I − M ′ (MM ′ )−1 M MP = M − MM ′ (MM ′ )−1 M = M − IM = 0 Logo Md k = −MP∇f (x k ) = 0 Se Md k = 0 temos A1 d k = 0, Ed k = 0 e d k ´ vi´vel. e a
  • 41. Interpreta¸˜o Geom´trica do M´todo ca e e Uma vez que MP = 0 temos que A1 P = 0, EP = 0 e ent˜o a matriz a de proje¸˜o P projeta cada linha de A1 e de E no vetor nulo. ca Entretanto, as linhas de A1 e de E s˜o os gradientes das restri¸˜es a co ativas em x k , a matriz P ´ na verdade a matriz que projeta os e gradientes das restri¸˜es ativas em x k no vetor zero. co Assim sendo, P∇f (x k ) corresponde ` proje¸˜o de ∇f (x k ) no espa¸o a ca c nulo das restri¸˜es ativas. co Veja: MP∇f (x k ) = 0, logo, P∇f (x k ) ∈ N (M)
  • 42. Teoria de Multiplicadores de Lagrange Vamos considerar os problemas de otimiza¸˜o definidos por restri¸˜es de ca co igualdade: minimize f (x) hi (x) = 0 i = 1, . . . , m onde f (x) : Rn → R, hi (x) : Rn → R, ∀i = 1, . . . , m s˜o func˜es a o continuamente diferenci´veis. a Condi¸˜es Necess´rias de Otimalidade co a O nosso principal resultado ´ o seguinte: se x ∗ ´ um ponto de m´ e e ınimo local, ent˜o existem escalares λi : i = 1, . . . , m, denominados a Multiplicadores de Lagrange tais que vale a seguinte equa¸˜o vetorial: ca m ∗ ∇f (x ) + λi ∇hi (x ∗ ) = 0 i =1
  • 43. Interpretando este resultado m ∗ ∇f (x ) + λi ∇hi (x ∗ ) = 0 i =1 O gradiente da fun¸˜o objetivo ∇f (x ∗ ) pertence ao subespa¸o gerado ca c pelo gradiente ∇hi (x ∗ ) das restri¸˜es ativas em x ∗ . co Exemplo min x1 + x2 2 2 x1 + x2 = 2
  • 44. Interpretando este resultado Defini¸˜o ca Definimos o subespa¸o de vari¸˜es nulas de primeira ordem, isto ´, o c co e subespa¸o para o qual o vetor x = x ∗ + △x satisfaz as restri¸˜es h(x) = 0 c co at´ a primeira ordem, como: e V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m} Tome y ∈ V (x ∗ ); Uma vez que ∇f (x ∗ ) + m λi ∇hi (x ∗ ) = 0, temos que i =1 ∇f (x ∗ )′ y + m λi ∇hi (x ∗ )′ y = 0 e logo ∇f (x ∗ )′ y = 0. i =1 Ou seja, ∇f (x ∗ ) ⊥ V (x ∗ ). Ou seja, o gradiente de f em x ∗ ´ e ortogonal ao espa¸o das dire¸˜es vi´veis que geram varia¸˜o de c co a ca primeira ordem nula nas restri¸˜es. co Este resultado ´ an´lago ` condi¸˜o ∇f (x ∗ ) = 0 para Otimiza¸˜o e a a ca ca Irrestrita.
  • 45. Formalizando e demonstrando o resultado Proposi¸˜o ca Seja x ∗ um ponto de m´ ınimo local de f sujeito `s restri¸˜es h(x) = 0. a co Assuma que os gradientes ∇h1 (x), . . . , ∇hm (x) sejam li em x ∗ . 1 Ent˜o, existe λ∗ = (λ∗ , . . . , λ∗ )′ unico, tal que: a 1 m ´ m ∇f (x ∗ ) + λ∗ ∇hi (x ∗ ) = 0 i i =1 2 Se f e h forem duas vezes continuamente diferenci´veis, temos que a m y′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y ≥ 0, ∀y ∈ V (x ∗ ) onde i i =1 V (x ∗ ) = {y : ∇hi (x ∗ )′ y = 0, i = 1, . . . , m} denota o subespa¸o de primeira ordem de varia¸˜es vi´veis de h. c co a
  • 46. Um problema sem multiplicadores de Lagrange Antes de provar este resultado, vamos estudar este exemplo: minimize f (x) = x1 + x2 (6) 2 2 h1 (x) = (x1 − 1) + x2 −1 = 0 (7) 2 2 h2 (x) = (x1 − 2) + x2 −4 = 0 (8) Observe que o unico ponto vi´vel ´ (0, 0) e que neste ponto os gradientes ´ a e de h1 e h2 s˜o ld, n˜o permitindo escrever o gradiente de f em R2 . a a
  • 47. Pontos regulares Defini¸˜o ca Dizemos que um ponto x ´ regular se ∇hi (x), . . . , ∇hm (x) s˜o linearmente e a independentes em x. No exemplo anterior, o ponto ´timo n˜o ´ regular. o a e
  • 48. Demonstra¸˜o do Teorema dos Multiplicadores de ca Lagrange A prova se baseia na aplica¸˜o do m´todo de penalidades. Basicamente ca e suas id´ias centrais s˜o: e a Relaxamos as restri¸˜es do problema co Adicionamos estas restri¸˜es ` fun¸˜o objetivo do problema, co a ca multiplicando cada restri¸˜o por uma penalidade. ca Aplicamos as condi¸˜es necess´rias de primeira e segunda orgem ao co a problema relaxado e Tomamos o limite destas condi¸˜es, na medida em que as penalidades co crescem.
  • 49. Prova - M´todo de Penalidades e Fun¸˜o de custo penalizada ca k 2 α F k (x) = f (x) + h(x) + x − x ∗ 2 , k = 1, 2, . . . 2 2 onde: x ∗ : ´ um m´ e ınimo local de f (x) : h(x) = 0. k 2 O termo 2 h(x) penaliza a viola¸˜o das restri¸˜es ca co α O termo 2 x− x∗ 2´ inserido para facilitar a prova, garantindo que e e ınimo local estrito de f (x) + α x − x ∗ 2 sujeito a h(x) = 0. x ∗ ´ um m´ 2
  • 50. Prova - M´todo de Penalidades e Dado que x ∗ ´ um m´ e ınimo local do problema, ´ poss´ escolher e ıvel ǫ > 0 tal que f (x ∗ ) ≤ f (x), ∀x ∈ S onde S = {x : h(x) = 0; x − x ∗ ≤ ǫ}. Ent˜o vamos assumir que x k resolve o seguinte problema: a minimize F k (x) x ∈S Observe que este otimizador x k existe, uma vez que S ´ compacto. e Vamos mostrar agora que {x k } converge para x ∗ .
  • 51. {x k } converge para x ∗ Para todo k temos: k α F k (x k ) = f (x k ) + 2 h(x) 2 + 2 xk − x∗ ≤ F k (x ∗ ) otimal. de x k = f (x ∗ ) j´ que h(x ∗ ) = 0 a Observe que f (x k ) ´ limitada em S. e Asssim sendo, o lado esquerdo da desigualdade acima precisa ficar limitado quando k → ∞ k 2 Para que isto ocorra, o termos 2 h(x) precisa assumir valor finito quando k → ∞. Logo, limk→∞ h(x) = 0. Ent˜o todo ponto limite x de {x k } satisfaz f (x) + α x − x ∗ ≤ f (x ∗ ). a 2 Uma vez que x, x ∗ ∈ S e x ´ vi´vel e pela otimalidade de x ∗ , isto ´ e a e f (x ∗ ) − f (x), x − x ∗ = 0. Logo x = x ∗ .
  • 52. Observa¸˜es co Note que x k ´ um ponto interior a S para k suficientemente grande. e Por este motivo, a partir deste valor suficientemente grande de k, x k ´ um m´ e ınimo local do problema irrestrito que consiste em minimizar F k (x). Note tamb´m que j´ dispomos de um algoritmo para obter x. e a Vamos provar o Teorema dos Multiplicadores de Lagrange, aplicando as condi¸˜es necess´rias de primeira ordem (irrestritas) a F k (x) em co a xk.
  • 53. Obtendo λ∗ Aplicando as CNPO a F k (x k ), temos: 0 = ∇F k (x k ) = ∇f (x k ) + k∇h(x k )h(x k ) + α(x k − x ∗ ) (9) Pelo enunciado, temos que ∇h(x ∗ ) possui posto completo, igual a m < n. Por continuidade, existe k suficientemente grande para o qual o posto de ∇h(x k ) tamb´m ´ m. Logo [∇h(x k )′ ∇h(x k )]−1 ´ n˜o e e e a singular. Pre multiplique (9) por [∇h(x k )′ ∇h(x k )]−1 e obtenha: kh(x k ) = −[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )′ ∇f (x k ) + α(x k − x ∗ ) Sabemos que k → ∞, x k → x ∗ e kh(x k ) converge para um valor finito. Denonine ent˜o por a λ∗ = [∇h(x ∗ )′ ∇h(x ∗ )]−1 ∇h(x ∗ )′ ∇f (x ∗ ) Tome o limite em (9) quando k → ∞ e obtenha: ∇f (x ∗ ) + ∇h(x ∗ )λ∗ = 0
  • 54. Vamos agora provar as condi¸˜es de 2a. ordem co Aplicando as CNSO a F k (x k ) temos (diferenciando (9)) que a matriz: m 2 2 k k k k ∇ F (x ) = ∇ f (x )+ k∇h(x )∇h(x ) + k k ′ hi (x k )∇2 hi (x k )+ αI i =1 (10) ´ semi-positiva definida, para todo k suficientemente grande e α > 0. e Tome qualquer y ∈ V (x ∗ ) isto ´ y : ∇h(x ∗ )′ y = 0 e considere que y k e seja a proje¸˜o de y no espa¸o nulo de ∇h(x k )′ , isto ´: ca c e (I − P)y = y k = y − ∇h(x k )[∇h(x k )′ ∇h(x k )]−1 ∇h(x k )y As condi¸˜es necess´rias de primeira ordem garantem que co a ∇h(x k )′ y k = 0 e como ∇2 F k (x k ) ´ semi-positiva definida, temos: e 0 ≤ (y k )′ ∇2 F k (x k )y k k )′ ∇2 f (x k ) + k m k 2 k k k 2 0 ≤ (y i =1 hi (x )∇ hi (x ) y + α y (11)
  • 55. Condi¸˜es de 2a. ordem - continua¸˜o co ca Uma vez que: ◮ khi (x k ) → λi ◮ xk → x∗ ◮ ∇h(x ∗ )′ y = 0 temos que y k → y e ent˜o temos: a m 0 ≤ y ′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y + α y i 2 (12) i =1 Uma vez que α > 0 pode ser arbitrariamente pequeno, temos: m 0 ≤ y′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y , ∀y ∈ V (x ∗ ) i (13) i =1 e a prova est´ completa. a
  • 56. A Fun¸˜o Lagrangeana ca Defini¸˜o ca Considere a fun¸˜o Lagrangeana L : Rn+m → R definida como: ca m L(x, λ) := f (x) + λi hi (x). i =1 Observe que as condi¸˜es necess´rias de Primeira Ordem, de Viabilidade co a Primal (hi (x) = 0, ∀i = 1, . . . , m) e as condi¸˜es necess´rias de segunda co a ordem podem ser escritas em termos de L(x, λ) como: m ∇x L(x ∗ , λ∗ ) = 0 ⇔ ∇f (x ∗ ) + ∗ ∗ i =1 λi ∇hi (x ) =0 ∇λ L(x ∗ , λ∗ ) = 0 ⇔ hi (x) = 0, ∀i = 1, . . . , m (viabilidade) y ′ ∇2 L(x ∗ , λ∗ )y xx ≥ 0, ∀y ∈ V (x ∗ ) ⇔ m y ′ ∇2 f (x ∗ ) + λ∗ ∇2 hi (x ∗ ) y i i =1
  • 57. A fun¸˜o Lagrangena ca m L(x, λ) := f (x) + λi hi (x). i =1 Todo m´ınimo local regular deve ent˜o satisfazer o sistema de equa¸˜es em a co n + m vari´veis dado por: a ∇x L(x ∗ , λ∗ ) = 0 ∇λ L(x ∗ , λ∗ ) = 0 Cabe salientar que nem todo ponto que satisfizer o sistema acima ´ um e ponto de m´ınimo (recorde nossa experiˆncia com Otimiza¸˜o Irrestrita). e ca Um ponto de m´ximo pode tamb´m satisfazer o sistema acima. a e
  • 58. Fun¸˜o Lagrangeana - Exemplo ca 1 2 2 2 minimize x + x2 + x3 2 1 x1 + x2 + x3 = 3 Consideremos o vetor (x ∗ , λ∗ ) = (1, 1, 1, −1)′ Observe que ∇h(x ∗ ) = (1, 1, 1)′ (´ li), logo o ponto ´ regular. e e Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (1, 1, 1) − 1(1, 1, 1) = 0, logo as condi¸˜es necess´rias de primeira ordem s˜o satisfeitas. co a a Uma vez que ∇2 f (x ∗ ) = diag(1) e ∇2 h(x) = 03×3 , temos que x ′ ∇2 f (x ∗ )x > 0, ∀x ∈ Rn , em particular para y ∈ V (x ∗ ). Portanto x ∗ ´ um m´ e ınimo global para o problema.
  • 59. Interpreta¸˜o do uso da Fun¸˜o Langeana ca ca Criamos a fun¸˜o Lagrangeana para obter um modelo irrestrito, cujo ca objetivo coincide com o objetivo do problema original para qualquer solu¸˜o vi´vel. ca a Para qualquer valor dos multiplicadores λi , um ´timo x ∗ do problema o relaxado deve ser um ponto estacion´rio de L(·, λ). Esta ´ a condi¸˜o a e ca associada a ∇x L(x ∗ , λ∗ ) = 0. Impor as condi¸˜es ∇λ L(x ∗ , λ∗ ) implica em restringir os pontos co a ıveis de L(x ∗ , λ∗ ) `queles que satisfazem as estacion´rios admiss´ a restri¸˜es do problema original. co Assim sendo, se um ponto x ∗ satisfizer as condi¸˜es de ponto co estacion´rio (em x, λ) para o problema relaxado com multiplicadores a fixados em λ∗ , ele deve ser vi´vel e L(x ∗ , λ∗ ) = f (x ∗ ). a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 60. Fun¸˜o Lagrangeana - Exemplo ca 1 2 2 2 minimize − x + x2 + x3 2 1 x1 + x2 + x3 = 3 Este problema admite m´ ınimo ? Consideremos agora o vetor (x ∗ , λ∗ ) = (1, 1, 1, 1)′ ∇h(x ∗ ) = (1, 1, 1)′ e o ponto ´ regular. e Observe que ∇f (x ∗ )′ + λ∗ h(x∗)′ = (−1, −1, −1) + (1, 1, 1) = 0, logo as condi¸˜es necess´rias de primeira ordem s˜o satisfeitas. co a a Uma vez que ∇2 f (x ∗ ) = diag(−1) e ∇2 h(x) = 03×3 , as condi¸˜es co necess´rias de segunda ordem n˜o s˜o satisfeitas. a a a O conjunto X n˜o ´ compacto. a e
  • 61. Condi¸˜es Suficientes de Otimalidade co Proposi¸˜o - Prop 3.2.1 ca (Condi¸˜es Suficientes de Otimalidade) co Assuma que f e h sejam fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn e co a λ∈R m satisfazendo: 1 ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0 2 y ′ ∇2 L(x ∗ , λ∗ )y > 0 para todo y = 0, ∇h(x ∗ )′ y = 0. xx Ent˜o: a x ∗ ´ um m´ e ınimo local estrito de f sujeito a h(x) = 0. De fato, existem γ > 0 e ǫ > 0 tais que: f (x) ≥ f (x ∗ ) + γ ||x − x ∗ ||2 2 para qualquer x : h(x) = 0 e ||x − x ∗ || ≤ ǫ. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 62. Exemplo min −(x1 x2 + x1 x3 + x2 x3 ) x1 + x2 + x3 = 3 Fun¸˜o Lagrangeana ca L(x, λ) = −(x1 x2 + x1 x3 + x2 x3 ) + λ(x1 + x2 + x3 − 3) CNPO: ∇x L(x ∗ , λ∗ ) = 0, ∇λ L(x ∗ , λ∗ ) = 0 que implica em: −x2 − x3 + λ∗ = 0 ∗ ∗ −x1 − x3 + λ∗ = 0 ∗ ∗ −x1 − x2 + λ∗ = 0 ∗ ∗ ∗ ∗ ∗ x1 + x2 + x3 = 0 cuja solu¸˜o unica ´ (x ∗ , λ∗ ) = (1, 1, 1, 2) ca ´ e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 63. Exemplo - continua Condi¸˜es Suficientes de Otimalidade: co   0 −1 −1 2 ∇xx L(x ∗ , λ∗ ) =  −1 0 −1  −1 −1 0 Observa¸˜es: co ∇2 L(x ∗ , λ∗ ) ´ semi-positiva definida. xx e Entretanto, para os vetores y : ∇h(x ∗ )′ y = 0 temos: ◮ y : ∇h(x ∗ )′ y = 0 → y1 + y2 + y3 = 0. ◮ y ′ ∇2 L(x ∗ , λ∗ )y = −y1 (y2 + y3 ) − y2 (y1 + y3 ) − y3 (y1 + y2 ) = xx 2 2 2 y1 + y2 + y3 > 0. 2 Logo, para os y : ∇h(x ∗ )′ y = 0, ∇xx L(x ∗ , λ∗ ) ´ positiva definida e as e condi¸˜es de segunda ordem s˜o verificadas. co a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 64. Demonstra¸˜o das Condi¸˜es Suficientes de Otimalidade ca co O entendimento da demonstra¸˜o da suficiˆncia destas condi¸˜es ´ ca e co e fundamental para entender porque os m´todos que iremos estudar e funcionam. Vamos usar uma fun¸˜o denominada Fun¸˜o Lagrangeana ca ca Aumentada que nada mais ´ que a Fun¸˜o Lagrangena de um e ca Problema de Otimiza¸˜o similar ao problema original, modificado ca apenas pela sua fun¸˜o objetivo, que passa a incorporar uma ca penalidade pela viola¸˜o das restri¸˜es h(x) = 0. ca co Antes de demonstrar as condi¸˜es suficientes, precisamos de alguns co resultados auxiliares. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 65. Alguns resultados auxiliares Teorema de Bolzano-Weierstrass Toda sequˆncia limitada no conjunto Rn possui uma subsequˆncia e e convergente. N˜o negatividade de A′ A a Seja A uma matriz m × n. Ent˜o a matriz sim´trica A′ A ´ uma matriz a e e positiva semidefinida. Lema Auxiliar Sejam P e Q duas matrizes sim´tricas. Assuma que Q seja semi-positiva e definida e que P ´ positiva definida no espa¸o nulo de Q. Isto ´, x ′ Px > 0 e c e para qualquer x : Qx = 0 ou, equivalentemente x : x ′ Qx = 0. Ent˜o existe a um escalar c tal que P + cQ ´ positiva definida para qualquer c > c. e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 66. Demonstra¸˜o do Lema Auxiliar ca Id´ia da prova: vamos assumir o contr´rio e obter uma contradi¸˜o. e a ca Assuma ent˜o que o resultado enunciado n˜o vale. Ent˜o, para a a a qualquer inteiro k, existe um vetor x k , ||x K || = 1 tal que: (x k )′ Px k + k(x k )′ Qx k ≤ 0 Uma vez que ||x k || = 1, a sequˆncia {x k } ´ limitada e pelo Teorema e e de Bolzano-Weierstrass, existe uma subsequˆncia {x k }k∈K que e converge para algum vetor x. Tomando o limite supremo da desigualdade acima temos: lim (x k )′ Px k + k(x k )′ Qx k ≤0 → k→∞,k∈K x ′ Px + lim k(x k )′ Qx k ≤0 k→∞,k∈K Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 67. Demonstra¸˜o do Lema auxiliar - continua ca x ′ Px + lim k(x k )′ Qx k ≤0 k→∞,k∈K Para que o lado esquerdo seja limitado superiormente (≤ 0), temos que ter k(x k )′ Qx k → 0. Uma vez que a matriz Q ´ n˜o negativa e k → ∞, isto s´ ocorre se e a o (x k )Qx k → 0. Logo limk→∞,i ∈K (x k )′ Qx k = x ′ Qx = 0 e consequentemente x ′ Px ≤ 0. Portanto, x ´ tal que Qx = 0 (x pertence ao nulo de Q). e Logo x ′ Px > 0 (pelo pr´prio teorema) e temos uma contradi¸˜o ! o ca Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 68. O M´todo do Lagrangeano Aumentado e Fun¸˜o Lagrangeana Aumentada ca c Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 2 onde c ´ um escalar positivo. e Observe que: A fun¸˜o Lc (x, λ) corresponde ` fun¸˜o Lagrangeana para o seguinte ca a ca problema: c min f (x) + ||h(x)||2 2 h(x) = 0 Minimizar este problema equivale a minimizar f (x) : h(x) = 0. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 69. Avaliando Lc (x, λ) e suas derivadas c Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 2 Primeira derivada de Lc em rela¸˜o a x ca m m ∇x Lc (x, λ) = ∇f (x) + i =1 λi ∇hi (x) +c i =1 hi (x)∇hi (x) Segunda derivada de Lc em rela¸˜o a x ca ∇2 Lc (x, λ) = xx m m 2 2 ∇ f (x) + λi ∇ hi (x) + c hi (x)∇2 hi (x) + c∇h(x)∇h(x)′ i =1 i =1 Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 70. Impondo as condi¸˜es necess´rias para x ∗, λ∗ co a Se x ∗ , λ∗ satisfizerem as condi¸˜es necess´rias de 1a. ordem: co a m m ∇x Lc (x ∗ , λ∗ ) = ∇f (x ∗ ) + λi ∇hi (x ∗ ) + c hi (x ∗ )∇hi (x ∗ ) i =1 i =1 m = ∇f (x ∗ ) + λi ∇hi (x ∗ ) = ∇x L(x ∗ , λ∗ ) = 0 i =1 ∇2 Lc (x ∗ , λ∗ ) = xx m m ∇2 f (x ∗ ) + λi ∇2 hi (x ∗ ) + c hi (x ∗ )∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ = i =1 i =1 m ∇2 f (x ∗ ) + λi ∇2 hi (x ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ = i =1 ∇2 L(x ∗ , λ∗ ) + c∇h(x ∗ )∇h(x ∗ )′ xx Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 71. Se as condi¸˜es suficientes de 2a. ordem forem impostas co Vamos assumir que (condi¸˜es suficientes descritas no Teorema) para co qualquer y ∈ Rm : ∇h(x ∗ )′ y = 0 (ou y ′ ∇h(x ∗ )∇h(x ∗ )′ y = 0) tenhamos: y ′ ∇2 L(x ∗ , λ∗ ) y > 0 xx Observe que: Aplicando o Lema Auxiliar, fazendo P = ∇2 L(x ∗ , λ∗ ) e xx Q = ∇h(x ∗ )∇h(x ∗ )′ (esta matriz ´ semipositiva definida), existe c e tal que ∇xx Lc (x ∗ , λ∗ ) ´ postivida definida. e Usando as condi¸˜es suficientes de otimalidade para otimiza¸˜o co ca irrestrita, conclu´ ∗ ´ um ´timo local irrestrito ımos que para c > c, x e o de Lc (·, λ∗ ). Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 72. Se as condi¸˜es suficientes de 2a. ordem forem impostas co Ent˜o x ∗ ´ um ´timo local para Lc (·, λ∗ ) a e o Em particular, existem γ > 0 e ǫ > 0 tais que γ Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) + ||x − x ∗ ||2 , ||x − x ∗ || < ǫ 2 Observe que para todo x vi´vel (h(x) = 0) temos Lc (x, λ∗ ) = f (x) e a ∇λ L(x ∗ , λ∗ ) = h(x ∗ ) = 0 Finalmente, temos que: γ γ f (x) = Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ )+ ||x−x ∗ ||2 = f (x ∗ )+ ||x−x ∗ ||2 ≥ f (x ∗ ) 2 2 para qualquer x : h(x) = 0 e ||x − x ∗ || < ǫ e a prova est´ completa ! a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 73. M´todos de Penalidade e Lagrangeano Aumentado e min f (x) h(x) = 0 x ∈X Vamos considerar o caso onde X = Rn . Vamos criar a fun¸˜o Lagrangena Aumentada associada ao Programa ca acima, para c > 0 c Lc (x, λ) = f (x) + λ′ h(x) + ||h(x)||2 . 2 Observe que o parˆmetro c controla a severidade da penaliza¸˜o da a ca viola¸˜o das restri¸˜es. ca co Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 74. Usando Lc (x, λ) em algoritmos Dois mecanismos s˜o normalmente usados para, atrav´s da minimiza¸˜o a e ca irrestrita de Lc (·, λ) fornecer pontos pr´ximos a x ∗ , um minimizador o (local) de f (x) : h(x) = 0. 1 Fazemos λ = λ∗ . Conforme mostramos, se c ´ maior que um valor c, e ent˜o existem γ > 0, ǫ > 0 tais que: a γ Lc (x, λ∗ ) ≥ Lc (x ∗ , λ∗ ) + ||x − x ∗ ||2 , ∀x : ||x − x ∗ || < ǫ 2 Este resultado sugere que se λ ≈ λ∗ , uma razo´vel aproxima¸˜o de x ∗ a ca deve ser obtida via minimiza¸˜o irrestrita de Lc (· · · , λ). ca 2 Tomamos um valor bastante alto de c. Nestes casos, o custo da inviabilidade ´ elevado e ent˜o o m´ e a ınimo irrestrito de Lc (·, λ) deve ser quase vi´vel. Uma vez que Lc (x, λ) = f (x) para todo x vi´vel, a a devemos esperar Lc (x, λ) ≈ f (x) para x pr´ximo da viabilidade. o Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 75. Exemplo - abordagem 1 1 2 2 onde o vetor primal-dual ´timo ´ o e min x + x2 ∗ , λ∗ ) = (1, 0, −1). 2 1 dado por (x x1 = 1 1 Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 , para c > 0. 2 2 2 Impondo ∇x Lc (x, λ) = 0, o m´ ınimo irrestrito possui coordenadas: ◮ x1 (c, λ) = c−λ . Logo para c > 0, temos c+1 limλ→λ∗ x1 (λ, c) = x1 (−1, c) = 1. Logo limλ→λ∗ x2 (λ, c) = 0 ◮ x2 (λ, c) = 0.
  • 76. Exemplo - abordagem 2 pura 1 Lc (x, λ) = 2 x1 + x2 + λ(x1 − 1) + c (x1 − 1)2 . 2 2 2 x1 (c, λ) = c−λ . Logo limc→∞ c−λ = 1 = x1 c+1 c+1 ∗ ∗ x2 (c, λ) = 0. Logo limc→∞ x2 (c, λ) = 0 = x2 . Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 77. M´todo de Penalidade Quadr´tica e a Consiste em resolver uma sequˆncia de Problemas: e m ck m min Lc k (x, λk ) = f (x) + k i =1 λi hi (x) + 2 i =1 hi (x) 2 x ∈X onde {λk } ´ uma sequˆncia em Rm e {c k } ´ uma sequˆncia de e e e e penalidades positivas. Na vers˜o original do m´todo (d´cada de 1960), os multiplicadores a e e n˜o eram aproximados; os multiplicadores eram fixados em zero. A a id´ia de aproxim´-los veio mais tarde. e a Vamos permitir que os multiplicadores sejam multiplicados, sem no momento definir como isto ocorrer´. a Para sua validade, o m´todo depende de incrementar c k para ∞. e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 78. M´todo Penalidades Quadr´ticas - Principal Resultado e a Proposi¸˜o ca Assuma que f , h s˜o fun¸˜es cont´ a co ınuas, que X ´ um conjunto fechado e e que o conjunto {x ∈ X : h(x) = 0} ´ n˜o vazio. Para k = 0, 1, . . . ,, seja e a x k um m´ ınimo global do problema min Lc k (x, λk ) x ∈ X, onde {λk } ´ limitada, 0 < c k < c k+1 , ∀k e c k → ∞. e Ent˜o todo ponto limite da sequˆncia {x k } ´ um m´ a e e ınimo global do problema ofiginal. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 79. Observa¸˜es co O resultado assume que o m´ ınimo global irretristo ´ obtido de forma e exata. Entretanto, os m´todos de otimiza¸˜o irrestrita s˜o terminados e ca a quando ||∇x Lc (x k , λk )|| ≤ ǫk , onde ǫk ´ um pequeno escalar. e Proposi¸˜o ca Assuma que f , h sejam fun¸˜es diferenci´veis e que X = Rn . Para co a k = 0, 1, . . . , assuma que x k satisfa¸a ||∇x Lc (x k , λk )|| ≤ ǫk , onde {λk } ´ c e limitada e {ǫk }, {c k } satisfazem: 0 < c k < c k+1 , ∀k, c k → ∞ 0 ≥ ǫk , ∀k, ǫk → 0. Assuma que a subsequˆncia {x k }K convirja para o vetor x ∗ tal que e ∇h(x ∗ ) possua posto m. Ent˜o: {λk + c k h(x k )}K → λ∗ , onde λ∗ em a conjunto com x ∗ satisfazem as condi¸˜es necess´rias de primeira ordem: co a ∇f (x ∗ ) + ∇h(x ∗ )′ λ∗ = 0, h(x ∗ ) = 0. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 80. Exemplo min x3 x +1=0 L(x, λ) = x 3 + λ(x + 1) c Lc (x, λ, c) = L(x, λ) + (x + 1)2 2 ∇x L(x ∗ , λ∗ ) = 0 → 3(x ∗ )2 + λ∗ = 0 ∇λ L(x ∗ , λ∗ ) = 0 → x ∗ = −1, λ∗ = −3 Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 81. Exemplo - continua Na Figura abaixo, indicamos f (x), L(x, λ∗ ), Lc (x, λ∗ ) para c = 9. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 82. Penalidades Quadr´ticas - desempenho na pr´tica a a Temos trˆs possibilidades: e 1 O m´todo n˜o funciona porque n˜o conseguimos satisfazer e a a ||∇x Lc (x k , λk )|| ≤ ǫk . Isto normalmente ocorre quando Lc (·, λk ) ´ e ilimitada inferiormente. 2 Conseguimos satisfazer ||∇ L (x k , λk )|| ≤ ǫk , e k → 0, mas a x c sequˆncia {x k } converge para um ponto n˜o regular, ou n˜o converge. e a a Isto normalmente ocorre quando o problema original ´ invi´vel. e a 3 {x k } converge para um ponto vi´vel regular. Este ´ o caso mais a e comum. Pode tamb´m ocorrer que {x k } convirja para um ponto e vi´vel n˜o regular, indicando que neste caso n˜o existem os a a a multiplicadores associados a x ∗ e a sequˆncia {λk + c k h(x k )} diverge e e n˜o possui ponto limite. a A experiˆncia sugere que, normalmente, ´ bastante confi´vel e que, no e e a m´ınimo, converge para um m´ ınimo local do problema. O seu fracasso ´ e norlmalmente associado ao malcondiconamento de min Lc (·, λk ), x ∈ X quando c k → ∞. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 83. Penalidades Quadr´ticas: malcondicionamento a 1 2 2 min x + x2 2 1 x1 = 1 1 2 c Lc (x, λ) = x + x2 + λ(x1 − 1) + (x1 − 1)2 2 2 1 2 1 1+c 0 ∇2 Lc (x, λ) = I + c xx 1 0 = 0 0 1 2 Autovalores de ∇xx Lc (x, λ) : 1 + c e 1. Quando c → ∞, o problema torna-se malcondicionado. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 84. Modifica¸˜es no M´todo de Penalidades Quadr´ticas co e a A cada itera¸˜o k + 1, fazemos λk+1 ← λk + c k h(x k ), como uma ca melhor aproxima¸˜o para o vetor de multiplicadores ´timo. Ent˜o ca o a minimizamos Lc (·, λk+1 ). O m´todo baseado nesta aproxima¸˜o de e ca multiplicadores ´ chamado de M´todo dos Multiplicadores. e e Para evitar o malcondicionamento, recomenda-se empregar o M´todo e de Newton para minimizar Lc (·, λk ). Al´m disto, ´ usual empregar x k como ponto de partida para a e e minimiza¸˜o irrestrita de Lc (·, λk+1 ). ca A vantagem do uso combinado destas id´ias ´ poder empregar, em e e virtude de uma melhor aproxima¸˜o de λ∗ , uma taxa menor de ca crescimento da penalidade c k . Assim sendo, h´ uma tendˆncia do a e problema ser menos malcondicionado. Se c k aumenta muito rapidamente, a sequˆncia {x k } tende a e convergir mais rapidamente, mas o problema de malcondicionamento deve ser mais evidente. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 85. Restri¸˜es de Desigualdades co (P) min f (x) hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , r Dado x vi´vel, vamos designar por A(x) = {j : g (x) = 0} o conjunto a dos ´ ındices de restri¸˜es de desigualdades que s˜o justas para x. co a Vamos assumir que x ∗ seja um m´ ınimo local para (P). Neste caso, x ∗ tamb´m deve ser um m´ e ınimo local para o programa abaixo: (PE) min f (x) hi (x) = 0 i = 1, . . . , m gj (x) = 0 j ∈ A(x ∗ ) no qual as restri¸˜es de desigualdades folgadas em x ∗ (j ∈ A(x ∗ )) co foram eliminadas. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 86. Analogia Esta observa¸˜o nos leva a crer que se x ∗ for um ponto regular para o ca programa (PE), deve haver multiplicadores λ∗ : i = 1, . . . , m e i µj : j ∈ A(x ∗ ) tais que as CNPO sejam atendidas: m ∇f (x ∗ ) + λi ∇hi (x ∗ ) + µj gj (x ∗ ) = 0 i =1 j∈A(x ∗ ) Atribuindo multiplicadores nulos para as restri¸˜es gj (·) tais que co j ∈ A(x ∗ ) temos: m ∇f (x ∗ ) + ∗ i =1 λi ∇hi (x ) + r µj gj (x ∗ ) = 0 j=1 µj = 0, j ∈ A(x ∗ ) Um fato importante sobre os multiplicadores associados a gj (·): devem ser n˜o negativos. Observe que se a restri¸˜o gj (x) ≤ 0 for a ca relaxada para g( x) ≤ µj para µj > 0, o custo ´timo de P deve o diminuir. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 87. Generalizando o conceito de ponto regular Defini¸˜o ca Um vetor vi´vel x ´ dito regular se: a e os gradientes das restri¸˜es de igualdade ∇hi (x) : i = 1, . . . , m e os co gradientes das restri¸˜es de desigualdades ativas em x, co ∇gj (x) : j ∈ A(x) s˜o linearmente independentes. a Tamb´m dizemos que x ´ regular no caso em que n˜o h´ restri¸˜es de e e a a co igualdade e todas as restri¸˜es de desigualdade s˜o inativas em x. co a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 88. Condi¸˜es de Karush-Kuhn-Tucker co Teorema - Condi¸˜es de Karush-Kuhn-Tucker (KKT) co Seja x ∗ um m´ ınimo local regular para (P) min f (x) hi (x) = 0 i = 1, . . . , m gj (x) ≤ 0 j = 1, . . . , r onde f , hi , gj : Rn → R, ∀i , j s˜o fun¸˜es continuamente diferenci´veis. a co a Ent˜o existem multiplicadores de Lagrange unicos λ∗ e µ∗ tais que: a ´ ∇x L(x ∗ , λ∗ , µ∗ ) = 0 µ∗ ≥ 0 j j = 1, . . . , r (14) µj ∗ =0 j ∈ A(x ∗ ) Se em adi¸˜o a isto, tivermos f , hi , gj ∈ C 2 , ∀i , j ent˜o: ca a y ′ ∇2 L(x ∗ , λ∗ , µ∗ )y ≥ 0 ∀y ∈ Rm : xx ∇hi (x)′y = 0 (15) ∇gj (x)′ y = 0, j ∈ A(x ∗ ).
  • 89. Exemplo 1 2 2 2 min (x + x2 + x3 ) 2 1 x1 + x2 + x3 ≤ −3 1 2 2 2 L(x, µ) = (x1 + x2 + x3 ) + µ(x1 + x2 + x3 + 3) 2 Das CNPO, temos ∇Lx (x ∗ , λ∗ ) = 0 → xi∗ + µ∗ = 0, i = 1, 2, 3 Precisamos avaliar dois casos: ◮ A restri¸˜o ˜ folgada e ent˜o µ∗ = 0. Neste caso x1 = x2 = x3 = 0, ca e a ∗ ∗ ∗ violando a restri¸˜o do problema. Logo a restri¸˜o n˜o ´ folgada. ca ca a e ◮ A restri¸˜o ´ justa. Observe ent˜o que x1 + x2 + x3 = −3 equivale a ca e a ∗ ∗ ∗ impor tamb´m que (CNPO) ∇µ L(x , µ ) = 0. e ∗ ∗ Assim sendo, temos x1 = x2 = x3 = −1 e µ∗ = 1 ∗ ∗ ∗ Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 90. Exemplo - continua Analisando as condi¸˜es de KKT de segunda ordem: co ′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer y xx y : ∇h(x ∗ )y = 0, ∇gj (x ∗ )y = 0, j ∈ A(x ∗ ). Como n˜o h´ restri¸˜es de igualdade, temos que a condi¸˜o torna-se a a co ca ′ ∇2 L(x ∗ , µ∗ )y ≥ 0 para qualquer y ∈ R3 : y + y + y = 0. y xx 1 2 3 2 Entretanto, como ∇xx L(x ∗ , µ∗ ) = diag(1) ´ positiva definida, para e qualquer y (em particular satisfazendo y1 + y2 + y3 = 0) a condi¸˜o ca necess´ria de segunda ordem ´ atendida. a e Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 91. Condi¸˜es Suficientes de Segunda Ordem co Proposi¸˜o ca Condi¸˜es Suficientes de Segunda Ordem Assuma que f , g , h sejam co fun¸˜es duas vezes diferenci´veis e seja x ∗ ∈ Rn , λ∗ ∈ Rm , µ∗ ∈ Rr co a satisfazendo: ∇x L(x ∗ , λ∗ , µ∗ ) = 0 h(x ∗ ) = 0 g (x ∗ ) ≤ 0 µ∗ ≥ 0 j j = 1, . . . , r µ∗ = 0 j j ∈ A(x ∗ ) y ′ ∇xx L(x ∗ , λ∗ , µ∗ )y > 0 para todo y satisfazendo: ∇hi (x ∗ )′ y = 0, ∀i = 1, . . . , m e ∇gj (x ∗ )′ y = 0, ∀j ∈ A(x ∗ ). Assuma tamb´m que µ∗ > 0 para qualquer j ∈ A(x ∗ ). e j ∗ ´ um m´ Ent˜o x e a ınino local de f (x) restrito a h(x) = 0, g (x) ≤ 0. Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 92. M´todo da Barreira e Vamos considerar o Problema min f (x) gj (x) ≤ 0 j = 1, . . . , r x ∈X e definir o interior (relativo a X ) do conjunto de viabilidade como S = {x ∈ X : gj (x) < 0, ∀j = 1, . . . , r }. Assumimos que: S = ∅. Qualquer ponto vi´vel y ∈ S pode ser aproximado t˜o proximamente a a quanto se queira por um ponto em x ∈ S. Isto ´, para qualquer δ > 0 ˆ e existe x ∈ S tal que x − y ≤ δ. ˆ ˆ Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 93. Id´ias centrais do m´todo e e Vamos acrescentar uma fun¸˜o de custo B(x), denominada fun¸˜o ca ca barreira ` fun¸˜o objetivo, definida exclusivamente em S e vamos a ca resolver uma sequˆncia de problemas, satisfazendo e 0 < ǫk+1 < ǫk , k = 0, 1, . . . , ǫk → 0 na medida em que k → ∞: min f (x) + ǫk B(x) x ∈S A fun¸˜o barreira deve ser cont´ ca ınua e na medida em que x tenda para a fronteira do conjunto, B(x) deve tender a ∞. Isto ´, B(x) deve ter e uma descontinuidade na fronteira do conjunto de viabilidade. Fun¸˜es barreira usuais: co r 1 B(x) = − ln{−gj (x)} j=1 r 1 2 B(x) = − gj (x) j=1 Sendo gj (x) convexas, as fun¸˜es acima tamb´m o s˜o. co e a Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 94. Id´ias centrais do m´todo e e Seja x k a solu¸˜o de: ca (P k ) min f (x) + ǫk B(x) x ∈ S. A sequˆncia {x k } pertence a S. e Na medida em que k → ∞ e por consequˆncia ǫk → 0, a contribui¸˜o e ca do termo barreira, ǫk B(x), deve tender a zero, para todo ponto x ∈ S. Assim sendo, com a evolu¸˜o das itera¸˜es, pontos pr´ximos a ca co o fronteira ter˜o sua componente de custo decorrente do termo de a barreira minorado, como deveria ser, caso o ´timo esteja na fronteira. o Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 95. Principal resultado te´rico o Proposi¸˜o ca Todo ponto limite da sequˆncia {x k } gerada pelo M´todo da Barreira ´ e e e um ponto de m´ınimo global do problema original. Observa¸˜es: co ıcito que o problema ´ convexo ou que x k ´ um ´timo global Est´ impl´ a e e o do problema P k . Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 96. Exemplo 1 2 2 min f (x) = (x + x2 ) Solu¸˜o ´tima: x ∗ = (2, 0). ca o 2 1 2 ≤ x1 Assumindo a fun¸˜o barreira logaritmica, B(x) = −ln(x1 − 2), ca impondo as CNPQ ao problema P k temos: 1 2 2 x k ∈ arg minx1 >2 (x + x2 ) − ǫk ln(x1 − 2) = 1+ 1 + ǫk , 0 2 1 k limǫk →0 x1 = 2 Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co
  • 97. Exemplo - continua 1 2 2 min (x + x2 ) − ǫk ln(x1 − 2) : x1 > 2 2 1 Curvas de n´ para P k : ǫ = 0.3 (esquerda) e ǫ = 0.03 (direita). ıvel Alexandre Salles da Cunha Programa¸˜o N˜o Linear com Restri¸˜es ca a co