Arquitecturas de Tradu¸˜o Autom´tica
                      ca         a
                TA baseada em regras
               TA orientada aos dados
                           Conclus˜es
                                   o




 Abordagens na Tradu¸˜o Autom´tica
                    ca       a

             Alberto Manuel Brand˜o Sim˜es
                                 a     o
                  ambs@di.uminho.pt



               Escola de Ver˜o – Junho 2009
                            a




                      Alberto Sim˜es
                                 o      Abordagens na Tradu¸˜o Autom´tica
                                                           ca       a       (1/38)
Arquitecturas de Tradu¸˜o Autom´tica
                               ca         a
                         TA baseada em regras
                        TA orientada aos dados
                                    Conclus˜es
                                            o




1   Arquitecturas de Tradu¸˜o Autom´tica
                          ca       a

2   TA baseada em regras
      Sistemas de Tradu¸˜o Directa
                       ca
      Sistemas de Tradu¸˜o por Transferˆncia
                       ca               e
      Sistemas de Tradu¸˜o por Interl´
                       ca            ıngua

3   TA orientada aos dados
      Sistemas de Tradu¸˜o Estat´
                       ca       ıstica
      Sistemas de Tradu¸˜o baseada em Exemplos
                       ca

4   Conclus˜es
           o



                               Alberto Sim˜es
                                          o      Abordagens na Tradu¸˜o Autom´tica
                                                                    ca       a       (2/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                   TA baseada em regras
                  TA orientada aos dados
                              Conclus˜es
                                      o


Arquitecturas de Tradu¸˜o Autom´tica
                      ca       a

Tradu¸˜o Baseada em Regras
      ca
(Rule-Based Machine Translation)

    Tradu¸˜o directa (direct MT);
         ca
    Tradu¸˜o por transferˆncia (transfer MT);
         ca               e
    Tradu¸˜o por interl´
         ca            ıngua (interlingua MT);


Tradu¸˜o Orientada a Dados
     ca
(Data-Driven Machine Translation)

    Tradu¸˜o estat´
         ca        ıstica (Statistical MT);
    Tradu¸˜o baseada em exemplos (Example-Based MT);
         ca
    Solu¸˜es h´
        co    ıbridas...


                         Alberto Sim˜es
                                    o      Abordagens na Tradu¸˜o Autom´tica
                                                              ca       a       (3/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                        TA baseada em regras
                       TA orientada aos dados
                                   Conclus˜es
                                           o


   Sistemas baseados em regras


Baseados em:
    modelos formais de tradu¸˜o;
                            ca
    conhecimento “lingu´
                       ıstico”;
Problemas:
    caros e trabalhosos (batalh˜es de linguistas);
                               o
    baseiam-se em conhecimento preciso (e quem o tem? );
Vantagens:
    previs´
          ıveis (as regras s˜o analis´veis);
                            a        a
    erros f´ceis de detectar e corrigir;
           a



                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a       (4/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                        TA baseada em regras
                       TA orientada aos dados
                                   Conclus˜es
                                           o


   Sistemas orientados aos dados
Baseados em:
    dados (corpora);
    t´cnicas de aprendizagem;
     e
Problemas:
    poucos dados ou dados parciais;
    (corpora pequenos, corpora enviesados, ...)
    dados com pouca qualidade;
    (fracas tradu¸˜es, maus alinhamentos, ...)
                 co
Vantagens:
    precisam de pouca m˜o-de-obra;
                       a
    s˜o concili´veis com sistemas baseados em regras;
     a         a
    (e vice-versa, claro...)

                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a       (5/38)
Arquitecturas de Tradu¸˜o Autom´tica
                                ca         a
                          TA baseada em regras
                         TA orientada aos dados
                                     Conclus˜es
                                             o


   Ferramentas PLN na TA

A implementa¸˜o de qualquer uma destas abordagens requer
              ca
ferramentas de processamento de linguagem natural robustas para
as l´
    ınguas envolvidas, como sejam:
    Anotadores de Part-of-Speech e lematizadores;
    Analisadores sint´cticos (parsers);
                     a
    Classificadores semˆnticos;
                      a
    Desambigua¸˜o de sentidos;
              ca
    Reconhecimento de Entidades Mencionadas;
    Extrac¸˜o de Informa¸˜o;
          ca            ca
    ...


                                Alberto Sim˜es
                                           o      Abordagens na Tradu¸˜o Autom´tica
                                                                     ca       a       (6/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                   TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                  TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                              Conclus˜es
                                      o


Sistemas baseados em regras

                                    Interlíngua




         Semântica L.O.                               Semântica L.D.




                                                        ge
                       se




                                                           ra
                      áli




                                                          çã
                    an




                                                            o
   Sintaxe L.O.                                                   Sintaxe L.D.




   Texto origem                                                 Texto destino
                                tradução directa

                             (representa¸˜o t´
                                        ca ıpica)

                         Alberto Sim˜es
                                    o       Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (7/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                                           Sistemas de Tradu¸˜o Directa
                                                            ca
                   TA baseada em regras
                                           Sistemas de Tradu¸˜o por Transferˆncia
                                                            ca               e
                  TA orientada aos dados
                                           Sistemas de Tradu¸˜o por Interl´
                                                            ca            ıngua
                              Conclus˜es
                                      o


Sistemas de Tradu¸˜o Directa
                 ca




                                Análise e Síntese
      Texto                                                          Texto
       L.O.                                                           L.D.


                                  L.O. -> L.D.
                            dicionários e gramáticas




                         Alberto Sim˜es
                                    o      Abordagens na Tradu¸˜o Autom´tica
                                                              ca       a            (8/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                    TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                   TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                               Conclus˜es
                                       o


Sistemas de Tradu¸˜o Directa
                 ca

Tradu¸˜o realizada palavra-a-palavra;
     ca

Pouca an´lise ao texto na l´
         a                  ıngua de origem
(sem an´lise sint´ctica ou semˆntica)
       a         a             a

Baseia-se em grandes dicion´rios bilingues:
                            a
para cada palavra na l´
                      ıngua de origem, o dicion´rio especifica
                                               a
um conjunto de regras para traduzir essa palavra

Ap´s a tradu¸˜o das palavras, ´ realizada reordena¸˜o simples;
   o        ca                 e                  ca
(por exemplo, a t´
                 ıpica troca de ordem de nomes e adjectivos).
Todo este processamento ´ realizado numa janela deslizante
                        e
com um n´mero fixo de palavras.
         u


                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (9/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                        TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                       TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                                   Conclus˜es
                                           o


   Sistemas de Tradu¸˜o Directa
                    ca

Regras para a tradu¸˜o de much ou many para Russo:
                   ca

Se precedida por how ⇒ skol’ko
Sen˜o se precedida por as ⇒ stol’ko zhe
   a
Sen˜o se a palavra ´ much
   a               e
    Se precedida por very ⇒⊥
    Sen˜o se seguida por um nome ⇒ mnogo
        a
Sen˜o (a palavra ´ many )
   a             e
    Se precedida por preposi¸˜o e seguida por nome ⇒ mnogii
                            ca
    Sen˜o ⇒ mnogo
        a

                                   Retirado de Jurafsky e Martin, edi¸˜o 2, cap´
                                                                     ca        ıtulo 25.
                                          Originalmente de um sistema de Panov, 1960.



                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (10/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                    TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                   TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                               Conclus˜es
                                       o


Sistemas de Tradu¸˜o Directa – Vantagens
                 ca



simples de aplicar t´cnicas de aprendizagem autom´tica;
                     e                           a
(inferir regras a partir de corpora paralelos)

simples de aproveitar similaridades entre l´
                                           ınguas:
    a similaridade n˜o ´ acidental (raz˜es geogr´ficas e hist´ricas);
                    a e                o        a           o
    relativamente simples de obter um sistema directo com
    tradu¸˜o de qualidade para l´
          ca                     ınguas pr´ximas;
                                          o




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (11/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                    TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                   TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                               Conclus˜es
                                       o


Sistemas de Tradu¸˜o Directa – Problemas
                 ca

´ ıcil
E dif´ (ou imposs´
                 ıvel) de detectar reordenamentos longos:

EN: Sources said that IBM bought Lotus yesterday.
JP: Sources yesterday IBM Lotus bought that said

As palavras s˜o traduzidas sem desambigua¸˜o da sua fun¸˜o
             a                              ca            ca
sint´ctica;
    a
As regras s˜o t´cticas e n˜o estrat´gicas (n˜o generalizam):
            a a           a        e        a
    pouca relevˆncia lingu´
               a          ıstica;
Dif´ de manter (sistemas grandes):
   ıcil
    interac¸˜o entre um grande n´mero de regras;
           ca                   u
    as regras n˜o s˜o completamente independentes;
               a a
N˜o h´ reutiliza¸˜o de c´digo!
 a a            ca      o

                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (12/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                   TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                  TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                              Conclus˜es
                                      o


Sistemas de Tradu¸˜o Directa
                 ca


                   ınguas, 5 × 4 = 20 tradutores!
           Para 5 l´


                     L1                                       L2



         L3                                                                L4


                                           L5



                         Alberto Sim˜es
                                    o           Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (13/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                   TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                  TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                              Conclus˜es
                                      o


Sistemas de Tradu¸˜o por Transferˆncia
                 ca              e



               análise                 transferência               síntese
    Texto                    repres.                   repres.                   Texto
     L.O.                      L.O.                      L.D.                     L.D.



            dicionários e                                        dicionários e
                                       dicionários
             gramáticas                                           gramáticas
                                       L.O. -> L.D.
                 L.O.                                                 L.D.

                                         regras de
                                       transferência




                            Alberto Sim˜es
                                       o        Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (14/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                        TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                       TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                                   Conclus˜es
                                           o


    Sistemas de Tradu¸˜o por Transferˆncia
                     ca              e

Trˆs (ou cinco) fases na tradu¸˜o:
  e                           ca
1.a An´lise Morfol´gica
      a           o
    PalavraA −→ (LemaA + Categoria + Propriedades)
1.b Classifica¸˜o Lexical
             ca
    (LemaA + Cat + Prop) −→ LemaA + Cat + Prop + Significado
2.a Transferˆncia Lexical
            e
    LemaA + Cat + Prop + Sign −→ LemaB + Cat + Prop
2.b Transferˆncia Estrutural
            e
    ajuste de concordˆncias (g´nero e n´mero), reordenamento de
                     a        e        u
    palavras e sintagmas.
 3 Gera¸˜o Morfol´gica
       ca        o
    LemaB + Categoria + Propriedades −→ PalavraB

                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (15/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                    TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                   TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                               Conclus˜es
                                       o


Sistemas de Tradu¸˜o por Transferˆncia
                 ca              e


As ´rvores de parsing podem variar de simples an´lises
    a                                           a
superficiais at´ an´lises mais profundas.
              e a
(incluindo mesmo representa¸˜es semˆnticas);
                             co       a

As regras de transferˆncia podem ser compar´veis `s regras
                     e                     a     a
dos sistemas directos, mas podem operar sobre estruturas
sint´cticas.
    a
(ou mesmo semˆnticas)
                a

Torna-se mais simples a detec¸˜o de reordena¸˜o a longa
                             ca             ca
distˆncia.
    a



                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (16/38)
Arquitecturas de Tradu¸˜o Autom´tica
                            ca         a
                                              Sistemas de Tradu¸˜o Directa
                                                               ca
                      TA baseada em regras
                                              Sistemas de Tradu¸˜o por Transferˆncia
                                                               ca               e
                     TA orientada aos dados
                                              Sistemas de Tradu¸˜o por Interl´
                                                               ca            ıngua
                                 Conclus˜es
                                         o


 Sistemas de Tradu¸˜o por Transferˆncia
                  ca              e

                      Exemplo de tradu¸˜o (l´
                                      ca    ıngua origem)
             S
          €€
                   €€
 NP                      VP
                 €€€
                     €
sources    VB                      SBAR-A
                              $$ˆˆˆ
                           $$
                           $       ˆˆ
           said      COMP                             S
                                             $$ˆˆˆ
                                          $$
                                          $        ˆ
                                                   ˆ
                        that          NP-A                         VP
                                                          $ˆ
                                                      $ $ ¤¤ ˆˆˆ
                                                      $ $      ˆ
                                       IBM         VB           NP-A               NP

                                                 bought          Lotus        yesterday

                            Alberto Sim˜es
                                       o      Abordagens na Tradu¸˜o Autom´tica
                                                                 ca       a             (17/38)
Arquitecturas de Tradu¸˜o Autom´tica
                            ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                      TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                     TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                                 Conclus˜es
                                         o


 Sistemas de Tradu¸˜o por Transferˆncia
                  ca              e

                      Exemplo de tradu¸˜o (l´
                                      ca    ıngua destino)
                                     S
            @@@hhhhhh
       @@@@           hhh
   @ @@
    @                     hh
 NP                                                                  VP ⇔
                                                                    $$ˆˆˆ
                                                         $$$                             ˆˆ
sources                                         SBAR-A ⇔
                                                   2–                                     VB
                                        2         2          –––
                                     222                                ––
                                    S                                    COMP             said
                      $$ˆˆˆˆ
                  $ $
                  $$        ˆˆ
               NP             NP-A                VP ⇔                     that
                                                    4˜
                                                4          ˜
           yesterday           IBM            NP-A          VB

                                              Lotus      bought
                            Alberto Sim˜es
                                       o        Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a              (18/38)
Arquitecturas de Tradu¸˜o Autom´tica
                           ca         a
                                              Sistemas de Tradu¸˜o Directa
                                                               ca
                     TA baseada em regras
                                              Sistemas de Tradu¸˜o por Transferˆncia
                                                               ca               e
                    TA orientada aos dados
                                              Sistemas de Tradu¸˜o por Interl´
                                                               ca            ıngua
                                Conclus˜es
                                        o


Dicion´rios: tradu¸˜o directa vs transferˆncia
      a           ca                     e
     Directa                                            Transferˆncia
                                                                 e
   1 dicion´rio
           a                                             3 dicion´rios
                                                                 a
   RU → EN
                                                      RU
                                                     num → plural
primer     → example                         primer → cat → nome
                                                       lem → primer
                                                     
primery    → examples
                                                           RU → EN
                                                   primer      → example
                                                               EN
                                             lem    →      example
                                                                    → example
                                             num    →      singular
                                             lem    →      example
                                                                    → examples
                                             num    →       plural

                           Alberto Sim˜es
                                      o       Abordagens na Tradu¸˜o Autom´tica
                                                                 ca       a            (19/38)
Arquitecturas de Tradu¸˜o Autom´tica
                           ca         a
                                              Sistemas de Tradu¸˜o Directa
                                                               ca
                     TA baseada em regras
                                              Sistemas de Tradu¸˜o por Transferˆncia
                                                               ca               e
                    TA orientada aos dados
                                              Sistemas de Tradu¸˜o por Interl´
                                                               ca            ıngua
                                Conclus˜es
                                        o


Dicion´rios: tradu¸˜o directa vs transferˆncia
      a           ca                     e
     Directa                                          Transferˆncia
                                                               e
 1 novo dicion´rio
              a                                     2 novos dicion´rios
                                                                  a
    RU → ES
                                                      RU
                                                     num → plural
primer     → ejemplo                         primer → cat → nome
                                                       lem → primer
                                                     
primery    → ejemplos
                                                           RU → ES
                                                   primer      → ejemplo
                                                               EN
                                             lem    →      ejemplo
                                                                    → ejemplo
                                             num    →      singular
                                             lem    →      ejemplo
                                                                    → ejemplos
                                             num    →       plural

                           Alberto Sim˜es
                                      o       Abordagens na Tradu¸˜o Autom´tica
                                                                 ca       a            (20/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                    TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                   TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                               Conclus˜es
                                       o


Vantagens dos sitemas de Transferˆncia
                                 e


Os m´dulos de an´lise e s´
    o           a        ıntese s˜o reutiliz´veis:
                                 a          a
    separa¸˜o de informa¸˜o espec´
           ca            ca       ıfica da l´
                                           ıngua da informa¸˜o
                                                           ca
    multilingue;
    opera¸˜es realizadas num nivel superior de abstrac¸˜o;
          co                                          ca
As regras podem ser generalizadas tendo em conta
propriedades morfol´gicas, lexemas, configura¸˜es de ´rvores
                   o                          co    a
de parsing, etc.
´
E poss´ aceder a propriedades lingu´
       ıvel                          ısticas para
desambigua¸˜o.
            ca




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (21/38)
Arquitecturas de Tradu¸˜o Autom´tica
                                 ca         a
                                                    Sistemas de Tradu¸˜o Directa
                                                                     ca
                           TA baseada em regras
                                                    Sistemas de Tradu¸˜o por Transferˆncia
                                                                     ca               e
                          TA orientada aos dados
                                                    Sistemas de Tradu¸˜o por Interl´
                                                                     ca            ıngua
                                      Conclus˜es
                                              o


       Sistemas de Tradu¸˜o por Transferˆncia
                        ca              e

        ınguas, 5 × 6 = 30
Para 5 l´
m´dulos:
 o
    5 abstractores / parsers;
                                                      L1                                           L2
    5 × 4 m´dulos de
            o
                                                                 IR1                   IR2
    transferˆncia;
            e
    5 geradores;
                                               L3          IR3                               IR4         L4


Mais m´dulos que num
         o                                                                  IR5
sistema de tradu¸˜o directa,
                 ca
mas mais pequenos, simples,
e reutiliz´veis.
          a                                                                 L5




                                 Alberto Sim˜es
                                            o       Abordagens na Tradu¸˜o Autom´tica
                                                                       ca       a              (22/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                                           Sistemas de Tradu¸˜o Directa
                                                            ca
                   TA baseada em regras
                                           Sistemas de Tradu¸˜o por Transferˆncia
                                                            ca               e
                  TA orientada aos dados
                                           Sistemas de Tradu¸˜o por Interl´
                                                            ca            ıngua
                              Conclus˜es
                                      o


Sistemas de Tradu¸˜o por Interl´
                 ca            ıngua




                   análise                             síntese
     Texto                        Representação                        Texto
      L.O.                         inter-língua                         L.D.




                dicionários e                       dicionários e
                 gramáticas                          gramáticas
                     L.O                                 L.D.




                         Alberto Sim˜es
                                    o      Abordagens na Tradu¸˜o Autom´tica
                                                              ca       a            (23/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                        TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                       TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                                   Conclus˜es
                                           o


    Sistemas de Tradu¸˜o por Interl´
                     ca            ıngua

Duas fases no processo de tradu¸˜o:
                               ca
    An´lise
       a
    A frase na l´
                ıngua de origem ´ analisada e ´ criada uma
                                e             e
    representa¸˜o (independente de l´
              ca                    ıngua) do seu significado.

    Gera¸˜o
        ca
    A representa¸˜o semˆntica ´ convertida numa frase na l´
                ca     a      e                           ıngua
    de destino.



Teoricamente n˜o existe informa¸˜o bilingue no sistema.
              a                ca


                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (24/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                        TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                       TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                                   Conclus˜es
                                           o


   Sistemas de Tradu¸˜o por Interl´
                    ca            ıngua

Uma vantagem:
    para cada l´
               ıngua adicionada ao sistema ´ necess´rio
                                           e       a
    desenvolver apenas um m´dulo de an´lise e um de gera¸˜o;
                             o           a              ca


Uma maior desvantagem:
   qual seria a representa¸˜o independente de l´
                          ca                   ıngua?
         como representar os conceitos?
         l´
          ınguas diferentes tˆm conceitos diferentes
                             e
         (3 vs n formas de classificar neve)
         ser´ que a representa¸˜o independente ´ a intersec¸˜o ou a
            a                  ca                e         ca
         uni˜o de todos estes conceitos?
             a



                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (25/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                                                     Sistemas de Tradu¸˜o Directa
                                                                      ca
                        TA baseada em regras
                                                     Sistemas de Tradu¸˜o por Transferˆncia
                                                                      ca               e
                       TA orientada aos dados
                                                     Sistemas de Tradu¸˜o por Interl´
                                                                      ca            ıngua
                                   Conclus˜es
                                           o


   Sistemas de Tradu¸˜o por Interl´
                    ca            ıngua
        ınguas, 5 × 2 = 10 m´dulos:
Para 5 l´                     o
    5 abstractores / parsers;
    5 geradores;

                             L1                                  L2


                                                IL
                  L3                                                       L4


                                                L5

         Infelizmente a ideia de interl´
                                       ıngua n˜o ´ realista.
                                              a e

                              Alberto Sim˜es
                                         o           Abordagens na Tradu¸˜o Autom´tica
                                                                        ca       a            (26/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                   TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                            ca       ıstica
                  TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                            ca
                              Conclus˜es
                                      o


Sistemas orientados aos dados

                               tradução à palavra




            matching                                      recombinação
                             tradução de segmento




                           exemplo exacto existente

   Texto origem                                              Texto destino

                             (representa¸˜o t´
                                        ca ıpica)

                         Alberto Sim˜es
                                    o      Abordagens na Tradu¸˜o Autom´tica
                                                              ca       a              (27/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                   TA baseada em regras      Sistemas de Tradu¸˜o Estat´
                                                              ca       ıstica
                  TA orientada aos dados     Sistemas de Tradu¸˜o baseada em Exemplos
                                                              ca
                              Conclus˜es
                                      o


Tradu¸˜o Estat´
     ca       ıstica

                    Texto
                                                        Texto na
                   bilingue
                                                          L.D.
                  L.O. / L.D.


                                    Candidatos a
     Texto                                                             Texto
                                     Tradução
      L.O.                                                              L.D.
                  análise             na L.D.            análise
                 estatíistica                           estatística


                 Modelo de                                Modelo
                 tradução                               linguístico



                                Algoritmo de tradução
                                argmaxe P(e) x P(s|e)




                                                                         (Knight, 2004a)
                         Alberto Sim˜es
                                    o        Abordagens na Tradu¸˜o Autom´tica
                                                                ca       a              (28/38)
Arquitecturas de Tradu¸˜o Autom´tica
                               ca         a
                         TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                                  ca       ıstica
                        TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                                  ca
                                    Conclus˜es
                                            o


    Modelo do Canal Ruidoso (Noisy Channel Model)

Pretende-se um modelo P(e|f ) que estima a probabilidade
condicional de uma frase (tradu¸˜o) e na l´
                               ca         ıngua E , dada a frase f
na l´
    ıngua F .
    Modelo de L´
               ıngua
         dado um segmento e na L.D. (p.e. inglˆs), calcular P(e);
                                              e
         um segmento de bom inglˆs, ent˜o P(e) ´ elevada;
                                e      a        e
         um segmento de mau inglˆs, ent˜o P(e) ´ baixa;
                                e      a        e
    Modelo de Tradu¸˜o
                   ca
         dado um par de segmentos, f , e , calcular P(f |e);
         se f , e parecem-se com tradu¸˜es, ent˜o P(f |e) ´ elevada;
                                      co        a          e
         se f , e n˜o se parecem com tradu¸˜o, ent˜o P(f |e) ´ baixa;
                   a                       ca       a         e
Pretende-se estimar: arg maxe P(e|f ) = arg maxe P(e)P(f |e)


                               Alberto Sim˜es
                                          o      Abordagens na Tradu¸˜o Autom´tica
                                                                    ca       a              (29/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                    TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                             ca       ıstica
                   TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                             ca
                               Conclus˜es
                                       o


Ainda sobre este modelo



Modelo de L´
           ıngua

Pode ser implementado baseado em trigramas, e estimado de
qualquer corpus (n˜o necessariamente paralelo);
                  a

Modelo de Tradu¸˜o
               ca
´
E treinado a partir de um corpus paralelo nas l´
                                               ınguas em
causa.




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a              (30/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                    TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                             ca       ıstica
                   TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                             ca
                               Conclus˜es
                                       o


Exemplo do processo SMT



Frase original:
                 Que hambre tengo yo

Gera¸˜o estat´
    ca       ıstica de tradu¸˜es:
                            co
                 What hunger have I
                 Hungry I am so
                 I am so hungry
                 Have I that hunger




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a              (31/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                    TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                             ca       ıstica
                   TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                             ca
                               Conclus˜es
                                       o


Exemplo do processo SMT



                          Que hambre tengo yo

Gera¸˜o estat´
    ca       ıstica de tradu¸˜es com c´lculo da probabilidade
                            co        a
usando apenas o modelo de tradu¸˜o:
                                  ca

                     What hunger have I               0.0000140
                     Hungry I am so                   0.0000010
                     I am so hungry                   0.0000015
                     Have I that hunger               0.0000200




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a              (32/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                    TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                             ca       ıstica
                   TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                             ca
                               Conclus˜es
                                       o


Exemplo do processo SMT

                          Que hambre tengo yo

Gera¸˜o estat´
    ca       ıstica de tradu¸˜es e avalia¸˜o com modelo
                            co           ca
completo:
         What hunger have I                 0.0000140 × 0.00000100
         Hungry I am so                     0.0000010 × 0.00000140
         I am so hungry                     0.0000015 × 0.00010000
         Have I that hunger                 0.0000200 × 0.00000098

Valida¸˜o arg maxe P(e) × P(s|e)
      ca
                 I am so hungry

                                                                        (Knight, 2004a)

                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a              (33/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                   TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                            ca       ıstica
                  TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                            ca
                              Conclus˜es
                                      o


Tradu¸˜o baseada em exemplos
     ca




                     Texto
                    bilingue                         Corpora
                   L.O. / L.D.


     Texto                          Fragmentos                        Texto
      L.O.                             L.D.                            L.D.
                   matching                       recombinação




                         Alberto Sim˜es
                                    o      Abordagens na Tradu¸˜o Autom´tica
                                                              ca       a              (34/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                        TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                                 ca       ıstica
                       TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                                 ca
                                   Conclus˜es
                                           o


   Problemas na EBMT



Principais problemas da EBMT:
    procurar as maiores concordˆncias (matches) exactas de
                                a
    por¸˜es de texto a ser traduzido;
       co
    combinar as tradu¸˜es posteriormente;
                     co
    e, para que isto funcione, ´ preciso determinar que peda¸o da
                               e                            c
    tradu¸˜o na base de exemplos corresponde ` por¸˜o de texto
          ca                                    a    ca
    que foi realmente encontrado (matched).




                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a              (35/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                        TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                                 ca       ıstica
                       TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                                 ca
                                   Conclus˜es
                                           o


    EBMT vs SMT
Os sistemas baseados em estat´ıstica, sendo baseados em corpora,
est˜o muito perto dos sistemas baseados em exemplos:
   a
    tal como os baseados em exemplos, s˜o treinados em corpora
                                       a
    paralelos;
    ao contr´rio dos baseados em exemplos, n˜o armazenam os
            a                               a
    exemplos originais depois de treinados;

                                                                              (Brown, 2002)

Embora tenha existido uma separa¸˜o inicial na abordagem, cada
                                 ca
vez mais se fala em Tradu¸˜o Estat´
                         ca       ıstica ou Tradu¸˜o Baseada em
                                                  ca
Dados referindo-se ao uso conjunto destas t´cnicas.
                                           e
                                                                             (Sim˜es, 2009)
                                                                                 o


                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a              (36/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                        TA baseada em regras
                       TA orientada aos dados
                                   Conclus˜es
                                           o


   Ferramentas Concretas
Tradu¸˜o baseada em regras
     ca
    tradu¸˜o directa;
          ca
    (Systran, originalmente)
    tradu¸˜o por regras de transferˆncia;
          ca                       e
    (Systran, Logos/OpenLogos, Reverso, Apertium)
    tradu¸˜o interl´
          ca        ıngua;
    (EUROTRA)
Tradu¸˜o orientada aos dados
     ca
    tradu¸˜o estat´
          ca       ıstica;
    (Pharaoh/Moses/Phramer)
    tradu¸˜o baseada em exemplos;
          ca
    (Gaijin/MaTrEx, EDGAR)
Abordagens H´ıbridas
(Pangloss Mark III)
                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a       (37/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                    TA baseada em regras
                   TA orientada aos dados
                               Conclus˜es
                                       o


Conclus˜es
       o



Aproveitar experiˆncia das abordagens baseadas em regras:
                 e
    regras j´ destiladas;
            a
    recursos j´ produzidos;
              a
Aproveitar recursos bilingues existentes:
    extrair dicion´rios;
                  a
    extrair regras de tradu¸˜o;
                              ca
    extrair dados estat´ ısticos sobre a tradu¸˜o
                                              ca
Unir abordagens para ter sucesso.




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a       (38/38)

Arquitecturas de Tradução Automática

  • 1.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Abordagens na Tradu¸˜o Autom´tica ca a Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt Escola de Ver˜o – Junho 2009 a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (1/38)
  • 2.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o 1 Arquitecturas de Tradu¸˜o Autom´tica ca a 2 TA baseada em regras Sistemas de Tradu¸˜o Directa ca Sistemas de Tradu¸˜o por Transferˆncia ca e Sistemas de Tradu¸˜o por Interl´ ca ıngua 3 TA orientada aos dados Sistemas de Tradu¸˜o Estat´ ca ıstica Sistemas de Tradu¸˜o baseada em Exemplos ca 4 Conclus˜es o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (2/38)
  • 3.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Arquitecturas de Tradu¸˜o Autom´tica ca a Tradu¸˜o Baseada em Regras ca (Rule-Based Machine Translation) Tradu¸˜o directa (direct MT); ca Tradu¸˜o por transferˆncia (transfer MT); ca e Tradu¸˜o por interl´ ca ıngua (interlingua MT); Tradu¸˜o Orientada a Dados ca (Data-Driven Machine Translation) Tradu¸˜o estat´ ca ıstica (Statistical MT); Tradu¸˜o baseada em exemplos (Example-Based MT); ca Solu¸˜es h´ co ıbridas... Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (3/38)
  • 4.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Sistemas baseados em regras Baseados em: modelos formais de tradu¸˜o; ca conhecimento “lingu´ ıstico”; Problemas: caros e trabalhosos (batalh˜es de linguistas); o baseiam-se em conhecimento preciso (e quem o tem? ); Vantagens: previs´ ıveis (as regras s˜o analis´veis); a a erros f´ceis de detectar e corrigir; a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (4/38)
  • 5.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Sistemas orientados aos dados Baseados em: dados (corpora); t´cnicas de aprendizagem; e Problemas: poucos dados ou dados parciais; (corpora pequenos, corpora enviesados, ...) dados com pouca qualidade; (fracas tradu¸˜es, maus alinhamentos, ...) co Vantagens: precisam de pouca m˜o-de-obra; a s˜o concili´veis com sistemas baseados em regras; a a (e vice-versa, claro...) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (5/38)
  • 6.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Ferramentas PLN na TA A implementa¸˜o de qualquer uma destas abordagens requer ca ferramentas de processamento de linguagem natural robustas para as l´ ınguas envolvidas, como sejam: Anotadores de Part-of-Speech e lematizadores; Analisadores sint´cticos (parsers); a Classificadores semˆnticos; a Desambigua¸˜o de sentidos; ca Reconhecimento de Entidades Mencionadas; Extrac¸˜o de Informa¸˜o; ca ca ... Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (6/38)
  • 7.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas baseados em regras Interlíngua Semântica L.O. Semântica L.D. ge se ra áli çã an o Sintaxe L.O. Sintaxe L.D. Texto origem Texto destino tradução directa (representa¸˜o t´ ca ıpica) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (7/38)
  • 8.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca Análise e Síntese Texto Texto L.O. L.D. L.O. -> L.D. dicionários e gramáticas Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (8/38)
  • 9.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca Tradu¸˜o realizada palavra-a-palavra; ca Pouca an´lise ao texto na l´ a ıngua de origem (sem an´lise sint´ctica ou semˆntica) a a a Baseia-se em grandes dicion´rios bilingues: a para cada palavra na l´ ıngua de origem, o dicion´rio especifica a um conjunto de regras para traduzir essa palavra Ap´s a tradu¸˜o das palavras, ´ realizada reordena¸˜o simples; o ca e ca (por exemplo, a t´ ıpica troca de ordem de nomes e adjectivos). Todo este processamento ´ realizado numa janela deslizante e com um n´mero fixo de palavras. u Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (9/38)
  • 10.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca Regras para a tradu¸˜o de much ou many para Russo: ca Se precedida por how ⇒ skol’ko Sen˜o se precedida por as ⇒ stol’ko zhe a Sen˜o se a palavra ´ much a e Se precedida por very ⇒⊥ Sen˜o se seguida por um nome ⇒ mnogo a Sen˜o (a palavra ´ many ) a e Se precedida por preposi¸˜o e seguida por nome ⇒ mnogii ca Sen˜o ⇒ mnogo a Retirado de Jurafsky e Martin, edi¸˜o 2, cap´ ca ıtulo 25. Originalmente de um sistema de Panov, 1960. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (10/38)
  • 11.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa – Vantagens ca simples de aplicar t´cnicas de aprendizagem autom´tica; e a (inferir regras a partir de corpora paralelos) simples de aproveitar similaridades entre l´ ınguas: a similaridade n˜o ´ acidental (raz˜es geogr´ficas e hist´ricas); a e o a o relativamente simples de obter um sistema directo com tradu¸˜o de qualidade para l´ ca ınguas pr´ximas; o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (11/38)
  • 12.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa – Problemas ca ´ ıcil E dif´ (ou imposs´ ıvel) de detectar reordenamentos longos: EN: Sources said that IBM bought Lotus yesterday. JP: Sources yesterday IBM Lotus bought that said As palavras s˜o traduzidas sem desambigua¸˜o da sua fun¸˜o a ca ca sint´ctica; a As regras s˜o t´cticas e n˜o estrat´gicas (n˜o generalizam): a a a e a pouca relevˆncia lingu´ a ıstica; Dif´ de manter (sistemas grandes): ıcil interac¸˜o entre um grande n´mero de regras; ca u as regras n˜o s˜o completamente independentes; a a N˜o h´ reutiliza¸˜o de c´digo! a a ca o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (12/38)
  • 13.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca ınguas, 5 × 4 = 20 tradutores! Para 5 l´ L1 L2 L3 L4 L5 Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (13/38)
  • 14.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e análise transferência síntese Texto repres. repres. Texto L.O. L.O. L.D. L.D. dicionários e dicionários e dicionários gramáticas gramáticas L.O. -> L.D. L.O. L.D. regras de transferência Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (14/38)
  • 15.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e Trˆs (ou cinco) fases na tradu¸˜o: e ca 1.a An´lise Morfol´gica a o PalavraA −→ (LemaA + Categoria + Propriedades) 1.b Classifica¸˜o Lexical ca (LemaA + Cat + Prop) −→ LemaA + Cat + Prop + Significado 2.a Transferˆncia Lexical e LemaA + Cat + Prop + Sign −→ LemaB + Cat + Prop 2.b Transferˆncia Estrutural e ajuste de concordˆncias (g´nero e n´mero), reordenamento de a e u palavras e sintagmas. 3 Gera¸˜o Morfol´gica ca o LemaB + Categoria + Propriedades −→ PalavraB Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (15/38)
  • 16.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e As ´rvores de parsing podem variar de simples an´lises a a superficiais at´ an´lises mais profundas. e a (incluindo mesmo representa¸˜es semˆnticas); co a As regras de transferˆncia podem ser compar´veis `s regras e a a dos sistemas directos, mas podem operar sobre estruturas sint´cticas. a (ou mesmo semˆnticas) a Torna-se mais simples a detec¸˜o de reordena¸˜o a longa ca ca distˆncia. a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (16/38)
  • 17.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e Exemplo de tradu¸˜o (l´ ca ıngua origem) S €€ €€ NP VP €€€ € sources VB SBAR-A $$ˆˆˆ $$ $ ˆˆ said COMP S $$ˆˆˆ $$ $ ˆ ˆ that NP-A VP $ˆ $ $ ¤¤ ˆˆˆ $ $ ˆ IBM VB NP-A NP bought Lotus yesterday Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (17/38)
  • 18.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e Exemplo de tradu¸˜o (l´ ca ıngua destino) S @@@hhhhhh @@@@ hhh @ @@ @ hh NP VP ⇔ $$ˆˆˆ $$$ ˆˆ sources SBAR-A ⇔ 2– VB 2 2 ––– 222 –– S COMP said $$ˆˆˆˆ $ $ $$ ˆˆ NP NP-A VP ⇔ that 4˜ 4 ˜ yesterday IBM NP-A VB Lotus bought Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (18/38)
  • 19.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Dicion´rios: tradu¸˜o directa vs transferˆncia a ca e Directa Transferˆncia e 1 dicion´rio a 3 dicion´rios a RU → EN  RU num → plural primer → example primer → cat → nome lem → primer  primery → examples RU → EN primer → example EN lem → example → example num → singular lem → example → examples num → plural Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (19/38)
  • 20.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Dicion´rios: tradu¸˜o directa vs transferˆncia a ca e Directa Transferˆncia e 1 novo dicion´rio a 2 novos dicion´rios a RU → ES  RU num → plural primer → ejemplo primer → cat → nome lem → primer  primery → ejemplos RU → ES primer → ejemplo EN lem → ejemplo → ejemplo num → singular lem → ejemplo → ejemplos num → plural Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (20/38)
  • 21.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Vantagens dos sitemas de Transferˆncia e Os m´dulos de an´lise e s´ o a ıntese s˜o reutiliz´veis: a a separa¸˜o de informa¸˜o espec´ ca ca ıfica da l´ ıngua da informa¸˜o ca multilingue; opera¸˜es realizadas num nivel superior de abstrac¸˜o; co ca As regras podem ser generalizadas tendo em conta propriedades morfol´gicas, lexemas, configura¸˜es de ´rvores o co a de parsing, etc. ´ E poss´ aceder a propriedades lingu´ ıvel ısticas para desambigua¸˜o. ca Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (21/38)
  • 22.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e ınguas, 5 × 6 = 30 Para 5 l´ m´dulos: o 5 abstractores / parsers; L1 L2 5 × 4 m´dulos de o IR1 IR2 transferˆncia; e 5 geradores; L3 IR3 IR4 L4 Mais m´dulos que num o IR5 sistema de tradu¸˜o directa, ca mas mais pequenos, simples, e reutiliz´veis. a L5 Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (22/38)
  • 23.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua análise síntese Texto Representação Texto L.O. inter-língua L.D. dicionários e dicionários e gramáticas gramáticas L.O L.D. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (23/38)
  • 24.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua Duas fases no processo de tradu¸˜o: ca An´lise a A frase na l´ ıngua de origem ´ analisada e ´ criada uma e e representa¸˜o (independente de l´ ca ıngua) do seu significado. Gera¸˜o ca A representa¸˜o semˆntica ´ convertida numa frase na l´ ca a e ıngua de destino. Teoricamente n˜o existe informa¸˜o bilingue no sistema. a ca Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (24/38)
  • 25.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua Uma vantagem: para cada l´ ıngua adicionada ao sistema ´ necess´rio e a desenvolver apenas um m´dulo de an´lise e um de gera¸˜o; o a ca Uma maior desvantagem: qual seria a representa¸˜o independente de l´ ca ıngua? como representar os conceitos? l´ ınguas diferentes tˆm conceitos diferentes e (3 vs n formas de classificar neve) ser´ que a representa¸˜o independente ´ a intersec¸˜o ou a a ca e ca uni˜o de todos estes conceitos? a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (25/38)
  • 26.
    Arquitecturas de Tradu¸˜oAutom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua ınguas, 5 × 2 = 10 m´dulos: Para 5 l´ o 5 abstractores / parsers; 5 geradores; L1 L2 IL L3 L4 L5 Infelizmente a ideia de interl´ ıngua n˜o ´ realista. a e Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (26/38)
  • 27.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Sistemas orientados aos dados tradução à palavra matching recombinação tradução de segmento exemplo exacto existente Texto origem Texto destino (representa¸˜o t´ ca ıpica) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (27/38)
  • 28.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Tradu¸˜o Estat´ ca ıstica Texto Texto na bilingue L.D. L.O. / L.D. Candidatos a Texto Texto Tradução L.O. L.D. análise na L.D. análise estatíistica estatística Modelo de Modelo tradução linguístico Algoritmo de tradução argmaxe P(e) x P(s|e) (Knight, 2004a) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (28/38)
  • 29.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Modelo do Canal Ruidoso (Noisy Channel Model) Pretende-se um modelo P(e|f ) que estima a probabilidade condicional de uma frase (tradu¸˜o) e na l´ ca ıngua E , dada a frase f na l´ ıngua F . Modelo de L´ ıngua dado um segmento e na L.D. (p.e. inglˆs), calcular P(e); e um segmento de bom inglˆs, ent˜o P(e) ´ elevada; e a e um segmento de mau inglˆs, ent˜o P(e) ´ baixa; e a e Modelo de Tradu¸˜o ca dado um par de segmentos, f , e , calcular P(f |e); se f , e parecem-se com tradu¸˜es, ent˜o P(f |e) ´ elevada; co a e se f , e n˜o se parecem com tradu¸˜o, ent˜o P(f |e) ´ baixa; a ca a e Pretende-se estimar: arg maxe P(e|f ) = arg maxe P(e)P(f |e) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (29/38)
  • 30.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Ainda sobre este modelo Modelo de L´ ıngua Pode ser implementado baseado em trigramas, e estimado de qualquer corpus (n˜o necessariamente paralelo); a Modelo de Tradu¸˜o ca ´ E treinado a partir de um corpus paralelo nas l´ ınguas em causa. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (30/38)
  • 31.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Exemplo do processo SMT Frase original: Que hambre tengo yo Gera¸˜o estat´ ca ıstica de tradu¸˜es: co What hunger have I Hungry I am so I am so hungry Have I that hunger Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (31/38)
  • 32.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Exemplo do processo SMT Que hambre tengo yo Gera¸˜o estat´ ca ıstica de tradu¸˜es com c´lculo da probabilidade co a usando apenas o modelo de tradu¸˜o: ca What hunger have I 0.0000140 Hungry I am so 0.0000010 I am so hungry 0.0000015 Have I that hunger 0.0000200 Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (32/38)
  • 33.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Exemplo do processo SMT Que hambre tengo yo Gera¸˜o estat´ ca ıstica de tradu¸˜es e avalia¸˜o com modelo co ca completo: What hunger have I 0.0000140 × 0.00000100 Hungry I am so 0.0000010 × 0.00000140 I am so hungry 0.0000015 × 0.00010000 Have I that hunger 0.0000200 × 0.00000098 Valida¸˜o arg maxe P(e) × P(s|e) ca I am so hungry (Knight, 2004a) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (33/38)
  • 34.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Tradu¸˜o baseada em exemplos ca Texto bilingue Corpora L.O. / L.D. Texto Fragmentos Texto L.O. L.D. L.D. matching recombinação Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (34/38)
  • 35.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Problemas na EBMT Principais problemas da EBMT: procurar as maiores concordˆncias (matches) exactas de a por¸˜es de texto a ser traduzido; co combinar as tradu¸˜es posteriormente; co e, para que isto funcione, ´ preciso determinar que peda¸o da e c tradu¸˜o na base de exemplos corresponde ` por¸˜o de texto ca a ca que foi realmente encontrado (matched). Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (35/38)
  • 36.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o EBMT vs SMT Os sistemas baseados em estat´ıstica, sendo baseados em corpora, est˜o muito perto dos sistemas baseados em exemplos: a tal como os baseados em exemplos, s˜o treinados em corpora a paralelos; ao contr´rio dos baseados em exemplos, n˜o armazenam os a a exemplos originais depois de treinados; (Brown, 2002) Embora tenha existido uma separa¸˜o inicial na abordagem, cada ca vez mais se fala em Tradu¸˜o Estat´ ca ıstica ou Tradu¸˜o Baseada em ca Dados referindo-se ao uso conjunto destas t´cnicas. e (Sim˜es, 2009) o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (36/38)
  • 37.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Ferramentas Concretas Tradu¸˜o baseada em regras ca tradu¸˜o directa; ca (Systran, originalmente) tradu¸˜o por regras de transferˆncia; ca e (Systran, Logos/OpenLogos, Reverso, Apertium) tradu¸˜o interl´ ca ıngua; (EUROTRA) Tradu¸˜o orientada aos dados ca tradu¸˜o estat´ ca ıstica; (Pharaoh/Moses/Phramer) tradu¸˜o baseada em exemplos; ca (Gaijin/MaTrEx, EDGAR) Abordagens H´ıbridas (Pangloss Mark III) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (37/38)
  • 38.
    Arquitecturas de Tradu¸˜oAutom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Conclus˜es o Aproveitar experiˆncia das abordagens baseadas em regras: e regras j´ destiladas; a recursos j´ produzidos; a Aproveitar recursos bilingues existentes: extrair dicion´rios; a extrair regras de tradu¸˜o; ca extrair dados estat´ ısticos sobre a tradu¸˜o ca Unir abordagens para ter sucesso. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (38/38)