Apresentação sobre arquitecturas de tradução automática, realizada na Escola de Verão em PLN realizada em 2009 na Faculdade de Letras da Universidade do Porto, Portugal.
A quick introduction on code standards, documentation and testing for first year grading students. Very incomplete and opinionated. Still fun and interesting, I hope!
A quick introduction on code standards, documentation and testing for first year grading students. Very incomplete and opinionated. Still fun and interesting, I hope!
Modelação de Dados com DER e Modelo Relacional, das aulas de Planeamento de Sistemas de Informação do Mestrado em Informação Empresarial da Escola Superior de Estudos Industriais e de Gestão do Instituto Politécnico do Porto.
Aula 04 - Introdução aos Diagramas de SequênciaAlberto Simões
Introdução ultra-light aos diagramas de sequência, para a disciplina de planeamento de sistemas de informação do mestrado em informação empresarial da escola superior de estudos industriais e de gestão do instituto politecnico do porto, ano lectivo de 2012/2013.
Aula 03 - Introdução aos Diagramas de AtividadeAlberto Simões
Introdução aos Diagramas de Atividade (UML) para a disciplina de Planeamento de Sistemas de Informação do Mestrado em Informação Empresarial da Escola Superior de Estudos Industriais e de Gestão do Instituto Politécnico do Porto.
Uma introdução ligeira às redes de PERT e gráficos de GANTT. Aula de Planeamento de Sistemas de Informação do Mestrado em Informação Empresarial da Escola Superior de Estudos Industriais e de Gestão, do Instituto Politécnico do Cávado e do Ave.
Extracção de Recursos para Tradução AutomáticaAlberto Simões
Apresentação sobre extracção de recursos para tradução automática, realizada na Escola de Verão em PLN realizada em 2009 na Faculdade de Letras da Universidade do Porto, Portugal.
Modelação de Dados com DER e Modelo Relacional, das aulas de Planeamento de Sistemas de Informação do Mestrado em Informação Empresarial da Escola Superior de Estudos Industriais e de Gestão do Instituto Politécnico do Porto.
Aula 04 - Introdução aos Diagramas de SequênciaAlberto Simões
Introdução ultra-light aos diagramas de sequência, para a disciplina de planeamento de sistemas de informação do mestrado em informação empresarial da escola superior de estudos industriais e de gestão do instituto politecnico do porto, ano lectivo de 2012/2013.
Aula 03 - Introdução aos Diagramas de AtividadeAlberto Simões
Introdução aos Diagramas de Atividade (UML) para a disciplina de Planeamento de Sistemas de Informação do Mestrado em Informação Empresarial da Escola Superior de Estudos Industriais e de Gestão do Instituto Politécnico do Porto.
Uma introdução ligeira às redes de PERT e gráficos de GANTT. Aula de Planeamento de Sistemas de Informação do Mestrado em Informação Empresarial da Escola Superior de Estudos Industriais e de Gestão, do Instituto Politécnico do Cávado e do Ave.
Extracção de Recursos para Tradução AutomáticaAlberto Simões
Apresentação sobre extracção de recursos para tradução automática, realizada na Escola de Verão em PLN realizada em 2009 na Faculdade de Letras da Universidade do Porto, Portugal.
1. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Abordagens na Tradu¸˜o Autom´tica
ca a
Alberto Manuel Brand˜o Sim˜es
a o
ambs@di.uminho.pt
Escola de Ver˜o – Junho 2009
a
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (1/38)
2. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
1 Arquitecturas de Tradu¸˜o Autom´tica
ca a
2 TA baseada em regras
Sistemas de Tradu¸˜o Directa
ca
Sistemas de Tradu¸˜o por Transferˆncia
ca e
Sistemas de Tradu¸˜o por Interl´
ca ıngua
3 TA orientada aos dados
Sistemas de Tradu¸˜o Estat´
ca ıstica
Sistemas de Tradu¸˜o baseada em Exemplos
ca
4 Conclus˜es
o
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (2/38)
3. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Arquitecturas de Tradu¸˜o Autom´tica
ca a
Tradu¸˜o Baseada em Regras
ca
(Rule-Based Machine Translation)
Tradu¸˜o directa (direct MT);
ca
Tradu¸˜o por transferˆncia (transfer MT);
ca e
Tradu¸˜o por interl´
ca ıngua (interlingua MT);
Tradu¸˜o Orientada a Dados
ca
(Data-Driven Machine Translation)
Tradu¸˜o estat´
ca ıstica (Statistical MT);
Tradu¸˜o baseada em exemplos (Example-Based MT);
ca
Solu¸˜es h´
co ıbridas...
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (3/38)
4. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Sistemas baseados em regras
Baseados em:
modelos formais de tradu¸˜o;
ca
conhecimento “lingu´
ıstico”;
Problemas:
caros e trabalhosos (batalh˜es de linguistas);
o
baseiam-se em conhecimento preciso (e quem o tem? );
Vantagens:
previs´
ıveis (as regras s˜o analis´veis);
a a
erros f´ceis de detectar e corrigir;
a
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (4/38)
5. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Sistemas orientados aos dados
Baseados em:
dados (corpora);
t´cnicas de aprendizagem;
e
Problemas:
poucos dados ou dados parciais;
(corpora pequenos, corpora enviesados, ...)
dados com pouca qualidade;
(fracas tradu¸˜es, maus alinhamentos, ...)
co
Vantagens:
precisam de pouca m˜o-de-obra;
a
s˜o concili´veis com sistemas baseados em regras;
a a
(e vice-versa, claro...)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (5/38)
6. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Ferramentas PLN na TA
A implementa¸˜o de qualquer uma destas abordagens requer
ca
ferramentas de processamento de linguagem natural robustas para
as l´
ınguas envolvidas, como sejam:
Anotadores de Part-of-Speech e lematizadores;
Analisadores sint´cticos (parsers);
a
Classificadores semˆnticos;
a
Desambigua¸˜o de sentidos;
ca
Reconhecimento de Entidades Mencionadas;
Extrac¸˜o de Informa¸˜o;
ca ca
...
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (6/38)
7. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas baseados em regras
Interlíngua
Semântica L.O. Semântica L.D.
ge
se
ra
áli
çã
an
o
Sintaxe L.O. Sintaxe L.D.
Texto origem Texto destino
tradução directa
(representa¸˜o t´
ca ıpica)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (7/38)
8. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa
ca
Análise e Síntese
Texto Texto
L.O. L.D.
L.O. -> L.D.
dicionários e gramáticas
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (8/38)
9. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa
ca
Tradu¸˜o realizada palavra-a-palavra;
ca
Pouca an´lise ao texto na l´
a ıngua de origem
(sem an´lise sint´ctica ou semˆntica)
a a a
Baseia-se em grandes dicion´rios bilingues:
a
para cada palavra na l´
ıngua de origem, o dicion´rio especifica
a
um conjunto de regras para traduzir essa palavra
Ap´s a tradu¸˜o das palavras, ´ realizada reordena¸˜o simples;
o ca e ca
(por exemplo, a t´
ıpica troca de ordem de nomes e adjectivos).
Todo este processamento ´ realizado numa janela deslizante
e
com um n´mero fixo de palavras.
u
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (9/38)
10. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa
ca
Regras para a tradu¸˜o de much ou many para Russo:
ca
Se precedida por how ⇒ skol’ko
Sen˜o se precedida por as ⇒ stol’ko zhe
a
Sen˜o se a palavra ´ much
a e
Se precedida por very ⇒⊥
Sen˜o se seguida por um nome ⇒ mnogo
a
Sen˜o (a palavra ´ many )
a e
Se precedida por preposi¸˜o e seguida por nome ⇒ mnogii
ca
Sen˜o ⇒ mnogo
a
Retirado de Jurafsky e Martin, edi¸˜o 2, cap´
ca ıtulo 25.
Originalmente de um sistema de Panov, 1960.
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (10/38)
11. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa – Vantagens
ca
simples de aplicar t´cnicas de aprendizagem autom´tica;
e a
(inferir regras a partir de corpora paralelos)
simples de aproveitar similaridades entre l´
ınguas:
a similaridade n˜o ´ acidental (raz˜es geogr´ficas e hist´ricas);
a e o a o
relativamente simples de obter um sistema directo com
tradu¸˜o de qualidade para l´
ca ınguas pr´ximas;
o
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (11/38)
12. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa – Problemas
ca
´ ıcil
E dif´ (ou imposs´
ıvel) de detectar reordenamentos longos:
EN: Sources said that IBM bought Lotus yesterday.
JP: Sources yesterday IBM Lotus bought that said
As palavras s˜o traduzidas sem desambigua¸˜o da sua fun¸˜o
a ca ca
sint´ctica;
a
As regras s˜o t´cticas e n˜o estrat´gicas (n˜o generalizam):
a a a e a
pouca relevˆncia lingu´
a ıstica;
Dif´ de manter (sistemas grandes):
ıcil
interac¸˜o entre um grande n´mero de regras;
ca u
as regras n˜o s˜o completamente independentes;
a a
N˜o h´ reutiliza¸˜o de c´digo!
a a ca o
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (12/38)
13. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa
ca
ınguas, 5 × 4 = 20 tradutores!
Para 5 l´
L1 L2
L3 L4
L5
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (13/38)
14. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
análise transferência síntese
Texto repres. repres. Texto
L.O. L.O. L.D. L.D.
dicionários e dicionários e
dicionários
gramáticas gramáticas
L.O. -> L.D.
L.O. L.D.
regras de
transferência
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (14/38)
15. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
Trˆs (ou cinco) fases na tradu¸˜o:
e ca
1.a An´lise Morfol´gica
a o
PalavraA −→ (LemaA + Categoria + Propriedades)
1.b Classifica¸˜o Lexical
ca
(LemaA + Cat + Prop) −→ LemaA + Cat + Prop + Significado
2.a Transferˆncia Lexical
e
LemaA + Cat + Prop + Sign −→ LemaB + Cat + Prop
2.b Transferˆncia Estrutural
e
ajuste de concordˆncias (g´nero e n´mero), reordenamento de
a e u
palavras e sintagmas.
3 Gera¸˜o Morfol´gica
ca o
LemaB + Categoria + Propriedades −→ PalavraB
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (15/38)
16. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
As ´rvores de parsing podem variar de simples an´lises
a a
superficiais at´ an´lises mais profundas.
e a
(incluindo mesmo representa¸˜es semˆnticas);
co a
As regras de transferˆncia podem ser compar´veis `s regras
e a a
dos sistemas directos, mas podem operar sobre estruturas
sint´cticas.
a
(ou mesmo semˆnticas)
a
Torna-se mais simples a detec¸˜o de reordena¸˜o a longa
ca ca
distˆncia.
a
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (16/38)
17. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
Exemplo de tradu¸˜o (l´
ca ıngua origem)
S
€€
€€
NP VP
€€€
€
sources VB SBAR-A
$$ˆˆˆ
$$
$ ˆˆ
said COMP S
$$ˆˆˆ
$$
$ ˆ
ˆ
that NP-A VP
$ˆ
$ $ ¤¤ ˆˆˆ
$ $ ˆ
IBM VB NP-A NP
bought Lotus yesterday
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (17/38)
18. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
Exemplo de tradu¸˜o (l´
ca ıngua destino)
S
@@@hhhhhh
@@@@ hhh
@ @@
@ hh
NP VP ⇔
$$ˆˆˆ
$$$ ˆˆ
sources SBAR-A ⇔
2– VB
2 2 –––
222 ––
S COMP said
$$ˆˆˆˆ
$ $
$$ ˆˆ
NP NP-A VP ⇔ that
4˜
4 ˜
yesterday IBM NP-A VB
Lotus bought
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (18/38)
19. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Dicion´rios: tradu¸˜o directa vs transferˆncia
a ca e
Directa Transferˆncia
e
1 dicion´rio
a 3 dicion´rios
a
RU → EN
RU
num → plural
primer → example primer → cat → nome
lem → primer
primery → examples
RU → EN
primer → example
EN
lem → example
→ example
num → singular
lem → example
→ examples
num → plural
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (19/38)
20. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Dicion´rios: tradu¸˜o directa vs transferˆncia
a ca e
Directa Transferˆncia
e
1 novo dicion´rio
a 2 novos dicion´rios
a
RU → ES
RU
num → plural
primer → ejemplo primer → cat → nome
lem → primer
primery → ejemplos
RU → ES
primer → ejemplo
EN
lem → ejemplo
→ ejemplo
num → singular
lem → ejemplo
→ ejemplos
num → plural
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (20/38)
21. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Vantagens dos sitemas de Transferˆncia
e
Os m´dulos de an´lise e s´
o a ıntese s˜o reutiliz´veis:
a a
separa¸˜o de informa¸˜o espec´
ca ca ıfica da l´
ıngua da informa¸˜o
ca
multilingue;
opera¸˜es realizadas num nivel superior de abstrac¸˜o;
co ca
As regras podem ser generalizadas tendo em conta
propriedades morfol´gicas, lexemas, configura¸˜es de ´rvores
o co a
de parsing, etc.
´
E poss´ aceder a propriedades lingu´
ıvel ısticas para
desambigua¸˜o.
ca
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (21/38)
22. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
ınguas, 5 × 6 = 30
Para 5 l´
m´dulos:
o
5 abstractores / parsers;
L1 L2
5 × 4 m´dulos de
o
IR1 IR2
transferˆncia;
e
5 geradores;
L3 IR3 IR4 L4
Mais m´dulos que num
o IR5
sistema de tradu¸˜o directa,
ca
mas mais pequenos, simples,
e reutiliz´veis.
a L5
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (22/38)
23. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Interl´
ca ıngua
análise síntese
Texto Representação Texto
L.O. inter-língua L.D.
dicionários e dicionários e
gramáticas gramáticas
L.O L.D.
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (23/38)
24. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Duas fases no processo de tradu¸˜o:
ca
An´lise
a
A frase na l´
ıngua de origem ´ analisada e ´ criada uma
e e
representa¸˜o (independente de l´
ca ıngua) do seu significado.
Gera¸˜o
ca
A representa¸˜o semˆntica ´ convertida numa frase na l´
ca a e ıngua
de destino.
Teoricamente n˜o existe informa¸˜o bilingue no sistema.
a ca
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (24/38)
25. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Uma vantagem:
para cada l´
ıngua adicionada ao sistema ´ necess´rio
e a
desenvolver apenas um m´dulo de an´lise e um de gera¸˜o;
o a ca
Uma maior desvantagem:
qual seria a representa¸˜o independente de l´
ca ıngua?
como representar os conceitos?
l´
ınguas diferentes tˆm conceitos diferentes
e
(3 vs n formas de classificar neve)
ser´ que a representa¸˜o independente ´ a intersec¸˜o ou a
a ca e ca
uni˜o de todos estes conceitos?
a
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (25/38)
26. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Interl´
ca ıngua
ınguas, 5 × 2 = 10 m´dulos:
Para 5 l´ o
5 abstractores / parsers;
5 geradores;
L1 L2
IL
L3 L4
L5
Infelizmente a ideia de interl´
ıngua n˜o ´ realista.
a e
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (26/38)
27. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Sistemas orientados aos dados
tradução à palavra
matching recombinação
tradução de segmento
exemplo exacto existente
Texto origem Texto destino
(representa¸˜o t´
ca ıpica)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (27/38)
28. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Tradu¸˜o Estat´
ca ıstica
Texto
Texto na
bilingue
L.D.
L.O. / L.D.
Candidatos a
Texto Texto
Tradução
L.O. L.D.
análise na L.D. análise
estatíistica estatística
Modelo de Modelo
tradução linguístico
Algoritmo de tradução
argmaxe P(e) x P(s|e)
(Knight, 2004a)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (28/38)
29. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Modelo do Canal Ruidoso (Noisy Channel Model)
Pretende-se um modelo P(e|f ) que estima a probabilidade
condicional de uma frase (tradu¸˜o) e na l´
ca ıngua E , dada a frase f
na l´
ıngua F .
Modelo de L´
ıngua
dado um segmento e na L.D. (p.e. inglˆs), calcular P(e);
e
um segmento de bom inglˆs, ent˜o P(e) ´ elevada;
e a e
um segmento de mau inglˆs, ent˜o P(e) ´ baixa;
e a e
Modelo de Tradu¸˜o
ca
dado um par de segmentos, f , e , calcular P(f |e);
se f , e parecem-se com tradu¸˜es, ent˜o P(f |e) ´ elevada;
co a e
se f , e n˜o se parecem com tradu¸˜o, ent˜o P(f |e) ´ baixa;
a ca a e
Pretende-se estimar: arg maxe P(e|f ) = arg maxe P(e)P(f |e)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (29/38)
30. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Ainda sobre este modelo
Modelo de L´
ıngua
Pode ser implementado baseado em trigramas, e estimado de
qualquer corpus (n˜o necessariamente paralelo);
a
Modelo de Tradu¸˜o
ca
´
E treinado a partir de um corpus paralelo nas l´
ınguas em
causa.
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (30/38)
31. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Exemplo do processo SMT
Frase original:
Que hambre tengo yo
Gera¸˜o estat´
ca ıstica de tradu¸˜es:
co
What hunger have I
Hungry I am so
I am so hungry
Have I that hunger
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (31/38)
32. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Exemplo do processo SMT
Que hambre tengo yo
Gera¸˜o estat´
ca ıstica de tradu¸˜es com c´lculo da probabilidade
co a
usando apenas o modelo de tradu¸˜o:
ca
What hunger have I 0.0000140
Hungry I am so 0.0000010
I am so hungry 0.0000015
Have I that hunger 0.0000200
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (32/38)
33. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Exemplo do processo SMT
Que hambre tengo yo
Gera¸˜o estat´
ca ıstica de tradu¸˜es e avalia¸˜o com modelo
co ca
completo:
What hunger have I 0.0000140 × 0.00000100
Hungry I am so 0.0000010 × 0.00000140
I am so hungry 0.0000015 × 0.00010000
Have I that hunger 0.0000200 × 0.00000098
Valida¸˜o arg maxe P(e) × P(s|e)
ca
I am so hungry
(Knight, 2004a)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (33/38)
34. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Tradu¸˜o baseada em exemplos
ca
Texto
bilingue Corpora
L.O. / L.D.
Texto Fragmentos Texto
L.O. L.D. L.D.
matching recombinação
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (34/38)
35. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Problemas na EBMT
Principais problemas da EBMT:
procurar as maiores concordˆncias (matches) exactas de
a
por¸˜es de texto a ser traduzido;
co
combinar as tradu¸˜es posteriormente;
co
e, para que isto funcione, ´ preciso determinar que peda¸o da
e c
tradu¸˜o na base de exemplos corresponde ` por¸˜o de texto
ca a ca
que foi realmente encontrado (matched).
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (35/38)
36. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
EBMT vs SMT
Os sistemas baseados em estat´ıstica, sendo baseados em corpora,
est˜o muito perto dos sistemas baseados em exemplos:
a
tal como os baseados em exemplos, s˜o treinados em corpora
a
paralelos;
ao contr´rio dos baseados em exemplos, n˜o armazenam os
a a
exemplos originais depois de treinados;
(Brown, 2002)
Embora tenha existido uma separa¸˜o inicial na abordagem, cada
ca
vez mais se fala em Tradu¸˜o Estat´
ca ıstica ou Tradu¸˜o Baseada em
ca
Dados referindo-se ao uso conjunto destas t´cnicas.
e
(Sim˜es, 2009)
o
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (36/38)
37. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Ferramentas Concretas
Tradu¸˜o baseada em regras
ca
tradu¸˜o directa;
ca
(Systran, originalmente)
tradu¸˜o por regras de transferˆncia;
ca e
(Systran, Logos/OpenLogos, Reverso, Apertium)
tradu¸˜o interl´
ca ıngua;
(EUROTRA)
Tradu¸˜o orientada aos dados
ca
tradu¸˜o estat´
ca ıstica;
(Pharaoh/Moses/Phramer)
tradu¸˜o baseada em exemplos;
ca
(Gaijin/MaTrEx, EDGAR)
Abordagens H´ıbridas
(Pangloss Mark III)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (37/38)
38. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Conclus˜es
o
Aproveitar experiˆncia das abordagens baseadas em regras:
e
regras j´ destiladas;
a
recursos j´ produzidos;
a
Aproveitar recursos bilingues existentes:
extrair dicion´rios;
a
extrair regras de tradu¸˜o;
ca
extrair dados estat´ ısticos sobre a tradu¸˜o
ca
Unir abordagens para ter sucesso.
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (38/38)