SlideShare uma empresa Scribd logo
O que querem os tradutores das
máquinas de tradução?
Félix do Carmo (TIPS e CLUP) e Luís Trigo (CLUP e INESC)
Faculdade de Letras do Porto Maio 2013
Plano
• A tradução é uma corrida
• E as máquinas correm mais do que nós
• Diferentes formas de inteligência
• Diferentes papéis e formas de interacção
• O que querem os tradutores
• Sugestões e soluções tecnológicas
A tradução é uma corrida
E as máquinas correm mais do que nós
A tradução já não é o que era
Clicar aqui para referência.
A tradução é uma corrida
• Volumes, capacidades, métricas, bitolas, tempo,
dinheiro…
• A importância das ferramentas de produtividade
Onde fica a qualidade?
• A qualidade deixou de ser discutida em termos de
subjectividade.
• A qualidade é objectiva e mensurável:
• A medida é a tradução humana.
• A responsabilidade pela qualidade é dos tradutores.
E as máquinas correm muito…
Apesar de …
• O Google Translate poluir a água do seu próprio poço (recolhe, alinha e insere
nos modelos de aprendizagem traduções produzidas automaticamente) (clicar
aqui para referência);
• Ter atingido o limite de aumento de qualidade: a duplicação dos (biliões de)
dados produz só uma melhoria de 0,5% nos índices BLEU (referência);
• Apenas 1% das necessidades mundiais de tradução profissional são satisfeitas
por tradução automática (referência)…
Os números não mentem…
• A tradução automática traduz 195 vezes mais depressa do que uma pessoa
(referência);
• O Google Translate traduz todos os dias 1 milhão de livros por dia (o mesmo
que todos os tradutores do mundo fazem num ano) (referência).
Diferentes formas de
inteligência
Diferentes papéis e formas de interacção
Inteligência artificial e tradução
• Tradução automática estatística – Aplicação de princípios da
Inteligência artificial
• Modelo de aprendizagem de línguas pelo reconhecimento de
unidades mínimas e reutilização nos contextos certos
• Produz modelos descritivos de duas línguas e da tradução entre elas
• Integração de conhecimento linguístico (anotação morfológica,
sintática e semântica) em modelos factorizados
• Algoritmos eficientes de pesquisa em campos de pesquisa com
várias dimensões
• Algoritmos de smoothing e pruning (duas técnicas de limpeza dos
dados)
Ferramentas de tradução
• CATs comerciais que podem receber dados de TA:
• SDL Studio, DéjàVu, memoQ, OmegaT, etc…
• Ferramentas comerciais de TA por regras (ou híbridas):
• Systran, ProMT…
• Serviços empresariais baseados em TA estatística:
• Asia Online, Prompsit, Pangeanic…
• Plataformas online de acesso livre:
• OpenTrad (regras); Google Translate, Bing Translator, etc…
• Interfaces de pós-edição de TA online:
• Google Translator Toolkit, KantanMT…
• Ferramentas de pós-edição de TA estatística:
• PET (Universidade de Sheffield)
Fazer depressa e bem
2 modelos de interacção:
máquina/homem OU homem/máquina
• Modelo de pós-edição (máquina/homem)
• A máquina produz rapidamente e em quantidade
• O homem corrige
Risco: tradução voluntária e gratuita (modelo da “computação humana”)
• Modelo de produtividade (homem/máquina)
• TA como ferramenta de produtividade para tradução humana
Modelo de produtividade
• O que faz um tradutor?
• PESQUISA
• DECIDE
• ESCREVE/EDITA
• VERIFICA
• As CATs auxiliam e são eficientes nestas tarefas?
• Limites dos segmentos e das bases de dados terminológicas
• Limites das funções de verificação de qualidade (QA) – números,
pontuação e pouco mais…
• Que suporte dão à revisão?
Papel da máquina
• Em que são úteis os métodos estatísticos?
• Classificar e ordenar dados linguísticos
• Identificar agrupamentos de textos
• Encontrar correspondências com extensões variáveis em grandes
volumes de dados
• Aprender operações e repeti-las
O que querem os
tradutores
Sugestões e soluções tecnológicas
Do que precisamos?
• Uma nova geração de ferramentas CAT que:
• Facilitem a gestão do conhecimento
• Classifiquem e ordenem dados linguísticos
• Identifiquem agrupamentos de textos
• Encontrem correspondências com extensões variáveis em grandes volumes
de dados
• Auxiliem as tarefas repetitivas de correcção
• Aprendam operações executadas e lhes dêem suporte
• Projectos de investigação destas ferramentas:
• Caitra; MateCAT; CasmaCAT; QTLaunchPad; EXPERT…
Duas áreas tecnológicas
• Gestão contextual do conhecimento
• PESQUISAR e DECIDIR
• Organização automática do conhecimento textual
recolhido e produzido
• Aprendizagem de edição
• EDITAR e VERIFICAR
• Ferramentas que aprendem as nossas correcções
Contextualização, please!
• PESQUISAR e DECIDIR
• E se houvesse uma tecnologia que apenas pela análise
estatística separasse na nossa TM de “Informática” os
textos e os segmentos de “software de contabilidade” dos
que pertencem a “manuais de utilizador de impressoras”?
• E que agrupasse as nossas pesquisas na web, em núcleos
de referências temáticas?
• Essa tecnologia existe.
Information Retrieval
• Segmentação de termos
• Extracção de domínios para treino de modelos de
tradução e línguas
• Procura automática - grafos de dependências de
termos
• Extracção automática de tópicos através da
semelhança entre os termos, por Clustering de
Documentos e Termos, Análise da Semântica Latente
(LSA) e Relevance Feedback
Information Extraction
• Segmentação de termos
• Reconhecimento de entidades nomeadas
• Procura
• Extracção automática de ontologias
(aproveitando os grafos de dependências
extraídos com Information Retrieval)
Mapas visuais de recursos
• Information Retrieval
• Clustering de Documentos e
Termos
• Expansão/colapso de clusters
• MDS - Multidimensional Scaling
• Técnicas estatísticas para
visualização de informação
através da exploração das
semelhanças nos dados
Trabalho em equipa
• Gestão de recursos
• Identificação de equipas de tradutores e
revisores com a mesma especialização
• Atribuição de projectos por domínio de
especialização
• Integração com ferramentas de gestão
automática de projectos
• Revisão
• Identificação de fontes de referência para
validação das traduções
I shall say this only once…
• EDITAR e VERIFICAR
• E se cada vez que nós corrigimos um sintagma nominal, a
ferramenta fizesse essa alteração sempre?
• E se cada vez que movemos um adjectivo para depois de
um substantivo, de cada vez que inserimos um artigo, que
mudamos o género de uma ou várias palavras, que
mudamos o número de um verbo, ou que inserimos um
“que” para criar uma oração subordinada, a ferramenta
pudesse fazer essa alteração novamente no mesmo
contexto?
• Yes, they can…
Aprendizagem interactiva
• Extracção de um modelo estatístico online do texto original
• Adicionado aos modelos de tradução e de língua
• Identificação de unidades e sub-unidades
• Usado como modelo de correcção
• À medida que o texto é editado, aprende novos alinhamentos
sub-segmento e corrige o modelo de tradução
• Aplica os alinhamentos aprendidos ao modelo de texto, à
medida que o tradutor avança
• Pode ou não adicionar os novos alinhamentos ao modelo de
tradução global
Aprendizagem de edição
• Tradução automática interactiva
• Projecto Caitra (Universidade de Edimburgo)
• Correcção dos alinhamentos com base na edição
• PET - Post-editing tool
• Editor para pós-edição de tradução automática e avaliação
humana das traduções
• SMARTedit - Simple MAcro-Recognition Tool editor
• Paradigma de programação por demonstração
• A aplicação grava operações de edição do utilizador para
posterior aplicação em situações semelhantes
Correcção por guias de estilo
Language Tool
• Corrector gramatical e de estilo
• Fácil geração de regras
• Pode ser definido para cada um dos projectos de
edição/tradução
• Corrector gramatical com regras em Galego
CoGrOO
• Corrector gramatical para OpenOffice com regras PT-BR
Conclusões
• Neste momento estão a ser desenvolvidas as ferramentas de
tradução do futuro.
• Se os tradutores não participarem na definição do “caderno de
encargos”, estas ferramentas vão ter muitos níveis de controlo, mas
podem não servir para as necessidades dos tradutores.
• Desde que cumpram as 3 leis da robótica, as máquinas são nossas
amigas. 
Obrigado.
Félix do Carmo (TIPS / CLUP)
Luís Trigo (CLUP / INESC)

Mais conteúdo relacionado

Semelhante a Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução

Design patterns
Design patternsDesign patterns
Design patterns
Thiago Gonzaga
 
Gt 2 – ferramentas
Gt 2 – ferramentasGt 2 – ferramentas
Gt 2 – ferramentas
Rodrigo Azevedo
 
cms_files_81187_1648754282Material_Doutorado_Profissional_em_Engenharia_de_So...
cms_files_81187_1648754282Material_Doutorado_Profissional_em_Engenharia_de_So...cms_files_81187_1648754282Material_Doutorado_Profissional_em_Engenharia_de_So...
cms_files_81187_1648754282Material_Doutorado_Profissional_em_Engenharia_de_So...
Ricardo Roberto MSc, MBA
 
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
Anatalia Saraiva Martins Ramos
 
Procura-se: DevOps #cpbr9
Procura-se: DevOps #cpbr9Procura-se: DevOps #cpbr9
Procura-se: DevOps #cpbr9
Camilla Gomes
 
Desenvolvimento de Projetos Interativos: Especificação e Implementação
Desenvolvimento de Projetos Interativos: Especificação e ImplementaçãoDesenvolvimento de Projetos Interativos: Especificação e Implementação
Desenvolvimento de Projetos Interativos: Especificação e Implementação
Edyd B. Junges
 
Técnicas_Implementação
Técnicas_ImplementaçãoTécnicas_Implementação
Técnicas_Implementação
Wagner Zaparoli
 
Práticas de Desenvolvimento de Software
Práticas de Desenvolvimento de SoftwarePráticas de Desenvolvimento de Software
Práticas de Desenvolvimento de Software
Tiago Barros
 
Aula desesenvolvimento segunda semana
Aula desesenvolvimento segunda semanaAula desesenvolvimento segunda semana
Aula desesenvolvimento segunda semana
Gabriel Moura
 
DataTechDay4 - Carlos Oeiras
DataTechDay4 - Carlos OeirasDataTechDay4 - Carlos Oeiras
DataTechDay4 - Carlos Oeiras
Carlos Augusto Oeiras
 
BDD com Xamarin UI Test e Specflow
BDD com Xamarin UI Test e SpecflowBDD com Xamarin UI Test e Specflow
BDD com Xamarin UI Test e Specflow
Cleiton Felipe Moraes
 
Case Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonCase Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em Python
Arthur Fortes
 
José Ramom Campos - Opentrad
José Ramom Campos - OpentradJosé Ramom Campos - Opentrad
Oficina protótipos dia 1
Oficina protótipos   dia 1Oficina protótipos   dia 1
Oficina protótipos dia 1
Franco Gomes dos Santos
 
Disciplina Gerencia de Projetos - Prof. Rogerio P C do Nascimento, PhD
Disciplina Gerencia de Projetos - Prof. Rogerio P C do Nascimento, PhDDisciplina Gerencia de Projetos - Prof. Rogerio P C do Nascimento, PhD
Disciplina Gerencia de Projetos - Prof. Rogerio P C do Nascimento, PhD
Rogerio P C do Nascimento
 
Monitorando APIs REST com o Application Insights
Monitorando APIs REST com o Application InsightsMonitorando APIs REST com o Application Insights
Monitorando APIs REST com o Application Insights
Renato Groff
 
Aula 1 - Interaction Design From Ethnography, Mental Models to IA
Aula 1 - Interaction Design From Ethnography, Mental Models to IAAula 1 - Interaction Design From Ethnography, Mental Models to IA
Aula 1 - Interaction Design From Ethnography, Mental Models to IA
Amyris Fernandez
 
Padrões de Projeto de Software
Padrões de Projeto de SoftwarePadrões de Projeto de Software
Padrões de Projeto de Software
Fabio Moura Pereira
 
Aula 1 pc - slides
Aula 1   pc - slidesAula 1   pc - slides
Aula 1 pc - slides
Elaine Cecília Gatto
 
Aula1 Apresentacao TEES
Aula1 Apresentacao TEESAula1 Apresentacao TEES
Aula1 Apresentacao TEES
Rogerio P C do Nascimento
 

Semelhante a Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução (20)

Design patterns
Design patternsDesign patterns
Design patterns
 
Gt 2 – ferramentas
Gt 2 – ferramentasGt 2 – ferramentas
Gt 2 – ferramentas
 
cms_files_81187_1648754282Material_Doutorado_Profissional_em_Engenharia_de_So...
cms_files_81187_1648754282Material_Doutorado_Profissional_em_Engenharia_de_So...cms_files_81187_1648754282Material_Doutorado_Profissional_em_Engenharia_de_So...
cms_files_81187_1648754282Material_Doutorado_Profissional_em_Engenharia_de_So...
 
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
 
Procura-se: DevOps #cpbr9
Procura-se: DevOps #cpbr9Procura-se: DevOps #cpbr9
Procura-se: DevOps #cpbr9
 
Desenvolvimento de Projetos Interativos: Especificação e Implementação
Desenvolvimento de Projetos Interativos: Especificação e ImplementaçãoDesenvolvimento de Projetos Interativos: Especificação e Implementação
Desenvolvimento de Projetos Interativos: Especificação e Implementação
 
Técnicas_Implementação
Técnicas_ImplementaçãoTécnicas_Implementação
Técnicas_Implementação
 
Práticas de Desenvolvimento de Software
Práticas de Desenvolvimento de SoftwarePráticas de Desenvolvimento de Software
Práticas de Desenvolvimento de Software
 
Aula desesenvolvimento segunda semana
Aula desesenvolvimento segunda semanaAula desesenvolvimento segunda semana
Aula desesenvolvimento segunda semana
 
DataTechDay4 - Carlos Oeiras
DataTechDay4 - Carlos OeirasDataTechDay4 - Carlos Oeiras
DataTechDay4 - Carlos Oeiras
 
BDD com Xamarin UI Test e Specflow
BDD com Xamarin UI Test e SpecflowBDD com Xamarin UI Test e Specflow
BDD com Xamarin UI Test e Specflow
 
Case Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonCase Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em Python
 
José Ramom Campos - Opentrad
José Ramom Campos - OpentradJosé Ramom Campos - Opentrad
José Ramom Campos - Opentrad
 
Oficina protótipos dia 1
Oficina protótipos   dia 1Oficina protótipos   dia 1
Oficina protótipos dia 1
 
Disciplina Gerencia de Projetos - Prof. Rogerio P C do Nascimento, PhD
Disciplina Gerencia de Projetos - Prof. Rogerio P C do Nascimento, PhDDisciplina Gerencia de Projetos - Prof. Rogerio P C do Nascimento, PhD
Disciplina Gerencia de Projetos - Prof. Rogerio P C do Nascimento, PhD
 
Monitorando APIs REST com o Application Insights
Monitorando APIs REST com o Application InsightsMonitorando APIs REST com o Application Insights
Monitorando APIs REST com o Application Insights
 
Aula 1 - Interaction Design From Ethnography, Mental Models to IA
Aula 1 - Interaction Design From Ethnography, Mental Models to IAAula 1 - Interaction Design From Ethnography, Mental Models to IA
Aula 1 - Interaction Design From Ethnography, Mental Models to IA
 
Padrões de Projeto de Software
Padrões de Projeto de SoftwarePadrões de Projeto de Software
Padrões de Projeto de Software
 
Aula 1 pc - slides
Aula 1   pc - slidesAula 1   pc - slides
Aula 1 pc - slides
 
Aula1 Apresentacao TEES
Aula1 Apresentacao TEESAula1 Apresentacao TEES
Aula1 Apresentacao TEES
 

Mais de I Conferência Internacional de Tradução e Tecnologia

Bernardo Santos - memoQ
Bernardo Santos - memoQBernardo Santos - memoQ
Lucia Specia - SMT e pós-edição
Lucia Specia - SMT e pós-ediçãoLucia Specia - SMT e pós-edição
Anabela Barreiro - Alinhamentos
Anabela Barreiro - AlinhamentosAnabela Barreiro - Alinhamentos
José Ramom Campos - RBMT e distâncias linguísticas
José Ramom Campos - RBMT e distâncias linguísticasJosé Ramom Campos - RBMT e distâncias linguísticas
José Ramom Campos - RBMT e distâncias linguísticas
I Conferência Internacional de Tradução e Tecnologia
 
Lucia Specia - Estimativa de qualidade em TA
Lucia Specia - Estimativa de qualidade em TALucia Specia - Estimativa de qualidade em TA
Lucia Specia - Estimativa de qualidade em TA
I Conferência Internacional de Tradução e Tecnologia
 
Hilário Fontes - Tradução automática na CE
Hilário Fontes - Tradução automática na CEHilário Fontes - Tradução automática na CE
Hilário Fontes - Tradução automática na CE
I Conferência Internacional de Tradução e Tecnologia
 
Anabela Barreiro - Hibridização de TA
Anabela Barreiro - Hibridização de TAAnabela Barreiro - Hibridização de TA
Anabela Barreiro - Hibridização de TA
I Conferência Internacional de Tradução e Tecnologia
 
Luísa Coheur - Projecto PT-STAR
Luísa Coheur - Projecto PT-STARLuísa Coheur - Projecto PT-STAR
Belinda Maia - Introdução à tradução automática
Belinda Maia - Introdução à tradução automáticaBelinda Maia - Introdução à tradução automática
Belinda Maia - Introdução à tradução automática
I Conferência Internacional de Tradução e Tecnologia
 

Mais de I Conferência Internacional de Tradução e Tecnologia (9)

Bernardo Santos - memoQ
Bernardo Santos - memoQBernardo Santos - memoQ
Bernardo Santos - memoQ
 
Lucia Specia - SMT e pós-edição
Lucia Specia - SMT e pós-ediçãoLucia Specia - SMT e pós-edição
Lucia Specia - SMT e pós-edição
 
Anabela Barreiro - Alinhamentos
Anabela Barreiro - AlinhamentosAnabela Barreiro - Alinhamentos
Anabela Barreiro - Alinhamentos
 
José Ramom Campos - RBMT e distâncias linguísticas
José Ramom Campos - RBMT e distâncias linguísticasJosé Ramom Campos - RBMT e distâncias linguísticas
José Ramom Campos - RBMT e distâncias linguísticas
 
Lucia Specia - Estimativa de qualidade em TA
Lucia Specia - Estimativa de qualidade em TALucia Specia - Estimativa de qualidade em TA
Lucia Specia - Estimativa de qualidade em TA
 
Hilário Fontes - Tradução automática na CE
Hilário Fontes - Tradução automática na CEHilário Fontes - Tradução automática na CE
Hilário Fontes - Tradução automática na CE
 
Anabela Barreiro - Hibridização de TA
Anabela Barreiro - Hibridização de TAAnabela Barreiro - Hibridização de TA
Anabela Barreiro - Hibridização de TA
 
Luísa Coheur - Projecto PT-STAR
Luísa Coheur - Projecto PT-STARLuísa Coheur - Projecto PT-STAR
Luísa Coheur - Projecto PT-STAR
 
Belinda Maia - Introdução à tradução automática
Belinda Maia - Introdução à tradução automáticaBelinda Maia - Introdução à tradução automática
Belinda Maia - Introdução à tradução automática
 

Último

ExpoGestão 2024 - Desvendando um mundo em ebulição
ExpoGestão 2024 - Desvendando um mundo em ebuliçãoExpoGestão 2024 - Desvendando um mundo em ebulição
ExpoGestão 2024 - Desvendando um mundo em ebulição
ExpoGestão
 
INTELIGÊNCIA ARTIFICIAL + COMPUTAÇÃO QUÂNTICA = MAIOR REVOLUÇÃO TECNOLÓGICA D...
INTELIGÊNCIA ARTIFICIAL + COMPUTAÇÃO QUÂNTICA = MAIOR REVOLUÇÃO TECNOLÓGICA D...INTELIGÊNCIA ARTIFICIAL + COMPUTAÇÃO QUÂNTICA = MAIOR REVOLUÇÃO TECNOLÓGICA D...
INTELIGÊNCIA ARTIFICIAL + COMPUTAÇÃO QUÂNTICA = MAIOR REVOLUÇÃO TECNOLÓGICA D...
Faga1939
 
se38_layout_erro_xxxxxxxxxxxxxxxxxx.docx
se38_layout_erro_xxxxxxxxxxxxxxxxxx.docxse38_layout_erro_xxxxxxxxxxxxxxxxxx.docx
se38_layout_erro_xxxxxxxxxxxxxxxxxx.docx
ronaldos10
 
Subindo uma aplicação WordPress em docker na AWS
Subindo uma aplicação WordPress em docker na AWSSubindo uma aplicação WordPress em docker na AWS
Subindo uma aplicação WordPress em docker na AWS
Ismael Ash
 
ExpoGestão 2024 - Inteligência Artificial – A revolução no mundo dos negócios
ExpoGestão 2024 - Inteligência Artificial – A revolução no mundo dos negóciosExpoGestão 2024 - Inteligência Artificial – A revolução no mundo dos negócios
ExpoGestão 2024 - Inteligência Artificial – A revolução no mundo dos negócios
ExpoGestão
 
Ferramentas que irão te ajudar a entrar no mundo de DevOps/CLoud
Ferramentas que irão te ajudar a entrar no mundo de   DevOps/CLoudFerramentas que irão te ajudar a entrar no mundo de   DevOps/CLoud
Ferramentas que irão te ajudar a entrar no mundo de DevOps/CLoud
Ismael Ash
 

Último (6)

ExpoGestão 2024 - Desvendando um mundo em ebulição
ExpoGestão 2024 - Desvendando um mundo em ebuliçãoExpoGestão 2024 - Desvendando um mundo em ebulição
ExpoGestão 2024 - Desvendando um mundo em ebulição
 
INTELIGÊNCIA ARTIFICIAL + COMPUTAÇÃO QUÂNTICA = MAIOR REVOLUÇÃO TECNOLÓGICA D...
INTELIGÊNCIA ARTIFICIAL + COMPUTAÇÃO QUÂNTICA = MAIOR REVOLUÇÃO TECNOLÓGICA D...INTELIGÊNCIA ARTIFICIAL + COMPUTAÇÃO QUÂNTICA = MAIOR REVOLUÇÃO TECNOLÓGICA D...
INTELIGÊNCIA ARTIFICIAL + COMPUTAÇÃO QUÂNTICA = MAIOR REVOLUÇÃO TECNOLÓGICA D...
 
se38_layout_erro_xxxxxxxxxxxxxxxxxx.docx
se38_layout_erro_xxxxxxxxxxxxxxxxxx.docxse38_layout_erro_xxxxxxxxxxxxxxxxxx.docx
se38_layout_erro_xxxxxxxxxxxxxxxxxx.docx
 
Subindo uma aplicação WordPress em docker na AWS
Subindo uma aplicação WordPress em docker na AWSSubindo uma aplicação WordPress em docker na AWS
Subindo uma aplicação WordPress em docker na AWS
 
ExpoGestão 2024 - Inteligência Artificial – A revolução no mundo dos negócios
ExpoGestão 2024 - Inteligência Artificial – A revolução no mundo dos negóciosExpoGestão 2024 - Inteligência Artificial – A revolução no mundo dos negócios
ExpoGestão 2024 - Inteligência Artificial – A revolução no mundo dos negócios
 
Ferramentas que irão te ajudar a entrar no mundo de DevOps/CLoud
Ferramentas que irão te ajudar a entrar no mundo de   DevOps/CLoudFerramentas que irão te ajudar a entrar no mundo de   DevOps/CLoud
Ferramentas que irão te ajudar a entrar no mundo de DevOps/CLoud
 

Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução

  • 1. O que querem os tradutores das máquinas de tradução? Félix do Carmo (TIPS e CLUP) e Luís Trigo (CLUP e INESC) Faculdade de Letras do Porto Maio 2013
  • 2. Plano • A tradução é uma corrida • E as máquinas correm mais do que nós • Diferentes formas de inteligência • Diferentes papéis e formas de interacção • O que querem os tradutores • Sugestões e soluções tecnológicas
  • 3. A tradução é uma corrida E as máquinas correm mais do que nós
  • 4. A tradução já não é o que era Clicar aqui para referência.
  • 5. A tradução é uma corrida • Volumes, capacidades, métricas, bitolas, tempo, dinheiro… • A importância das ferramentas de produtividade Onde fica a qualidade? • A qualidade deixou de ser discutida em termos de subjectividade. • A qualidade é objectiva e mensurável: • A medida é a tradução humana. • A responsabilidade pela qualidade é dos tradutores.
  • 6. E as máquinas correm muito… Apesar de … • O Google Translate poluir a água do seu próprio poço (recolhe, alinha e insere nos modelos de aprendizagem traduções produzidas automaticamente) (clicar aqui para referência); • Ter atingido o limite de aumento de qualidade: a duplicação dos (biliões de) dados produz só uma melhoria de 0,5% nos índices BLEU (referência); • Apenas 1% das necessidades mundiais de tradução profissional são satisfeitas por tradução automática (referência)… Os números não mentem… • A tradução automática traduz 195 vezes mais depressa do que uma pessoa (referência); • O Google Translate traduz todos os dias 1 milhão de livros por dia (o mesmo que todos os tradutores do mundo fazem num ano) (referência).
  • 7. Diferentes formas de inteligência Diferentes papéis e formas de interacção
  • 8. Inteligência artificial e tradução • Tradução automática estatística – Aplicação de princípios da Inteligência artificial • Modelo de aprendizagem de línguas pelo reconhecimento de unidades mínimas e reutilização nos contextos certos • Produz modelos descritivos de duas línguas e da tradução entre elas • Integração de conhecimento linguístico (anotação morfológica, sintática e semântica) em modelos factorizados • Algoritmos eficientes de pesquisa em campos de pesquisa com várias dimensões • Algoritmos de smoothing e pruning (duas técnicas de limpeza dos dados)
  • 9. Ferramentas de tradução • CATs comerciais que podem receber dados de TA: • SDL Studio, DéjàVu, memoQ, OmegaT, etc… • Ferramentas comerciais de TA por regras (ou híbridas): • Systran, ProMT… • Serviços empresariais baseados em TA estatística: • Asia Online, Prompsit, Pangeanic… • Plataformas online de acesso livre: • OpenTrad (regras); Google Translate, Bing Translator, etc… • Interfaces de pós-edição de TA online: • Google Translator Toolkit, KantanMT… • Ferramentas de pós-edição de TA estatística: • PET (Universidade de Sheffield)
  • 10. Fazer depressa e bem 2 modelos de interacção: máquina/homem OU homem/máquina • Modelo de pós-edição (máquina/homem) • A máquina produz rapidamente e em quantidade • O homem corrige Risco: tradução voluntária e gratuita (modelo da “computação humana”) • Modelo de produtividade (homem/máquina) • TA como ferramenta de produtividade para tradução humana
  • 11. Modelo de produtividade • O que faz um tradutor? • PESQUISA • DECIDE • ESCREVE/EDITA • VERIFICA • As CATs auxiliam e são eficientes nestas tarefas? • Limites dos segmentos e das bases de dados terminológicas • Limites das funções de verificação de qualidade (QA) – números, pontuação e pouco mais… • Que suporte dão à revisão?
  • 12. Papel da máquina • Em que são úteis os métodos estatísticos? • Classificar e ordenar dados linguísticos • Identificar agrupamentos de textos • Encontrar correspondências com extensões variáveis em grandes volumes de dados • Aprender operações e repeti-las
  • 13. O que querem os tradutores Sugestões e soluções tecnológicas
  • 14. Do que precisamos? • Uma nova geração de ferramentas CAT que: • Facilitem a gestão do conhecimento • Classifiquem e ordenem dados linguísticos • Identifiquem agrupamentos de textos • Encontrem correspondências com extensões variáveis em grandes volumes de dados • Auxiliem as tarefas repetitivas de correcção • Aprendam operações executadas e lhes dêem suporte • Projectos de investigação destas ferramentas: • Caitra; MateCAT; CasmaCAT; QTLaunchPad; EXPERT…
  • 15. Duas áreas tecnológicas • Gestão contextual do conhecimento • PESQUISAR e DECIDIR • Organização automática do conhecimento textual recolhido e produzido • Aprendizagem de edição • EDITAR e VERIFICAR • Ferramentas que aprendem as nossas correcções
  • 16. Contextualização, please! • PESQUISAR e DECIDIR • E se houvesse uma tecnologia que apenas pela análise estatística separasse na nossa TM de “Informática” os textos e os segmentos de “software de contabilidade” dos que pertencem a “manuais de utilizador de impressoras”? • E que agrupasse as nossas pesquisas na web, em núcleos de referências temáticas? • Essa tecnologia existe.
  • 17. Information Retrieval • Segmentação de termos • Extracção de domínios para treino de modelos de tradução e línguas • Procura automática - grafos de dependências de termos • Extracção automática de tópicos através da semelhança entre os termos, por Clustering de Documentos e Termos, Análise da Semântica Latente (LSA) e Relevance Feedback
  • 18. Information Extraction • Segmentação de termos • Reconhecimento de entidades nomeadas • Procura • Extracção automática de ontologias (aproveitando os grafos de dependências extraídos com Information Retrieval)
  • 19. Mapas visuais de recursos • Information Retrieval • Clustering de Documentos e Termos • Expansão/colapso de clusters • MDS - Multidimensional Scaling • Técnicas estatísticas para visualização de informação através da exploração das semelhanças nos dados
  • 20. Trabalho em equipa • Gestão de recursos • Identificação de equipas de tradutores e revisores com a mesma especialização • Atribuição de projectos por domínio de especialização • Integração com ferramentas de gestão automática de projectos • Revisão • Identificação de fontes de referência para validação das traduções
  • 21. I shall say this only once… • EDITAR e VERIFICAR • E se cada vez que nós corrigimos um sintagma nominal, a ferramenta fizesse essa alteração sempre? • E se cada vez que movemos um adjectivo para depois de um substantivo, de cada vez que inserimos um artigo, que mudamos o género de uma ou várias palavras, que mudamos o número de um verbo, ou que inserimos um “que” para criar uma oração subordinada, a ferramenta pudesse fazer essa alteração novamente no mesmo contexto? • Yes, they can…
  • 22. Aprendizagem interactiva • Extracção de um modelo estatístico online do texto original • Adicionado aos modelos de tradução e de língua • Identificação de unidades e sub-unidades • Usado como modelo de correcção • À medida que o texto é editado, aprende novos alinhamentos sub-segmento e corrige o modelo de tradução • Aplica os alinhamentos aprendidos ao modelo de texto, à medida que o tradutor avança • Pode ou não adicionar os novos alinhamentos ao modelo de tradução global
  • 23. Aprendizagem de edição • Tradução automática interactiva • Projecto Caitra (Universidade de Edimburgo) • Correcção dos alinhamentos com base na edição • PET - Post-editing tool • Editor para pós-edição de tradução automática e avaliação humana das traduções • SMARTedit - Simple MAcro-Recognition Tool editor • Paradigma de programação por demonstração • A aplicação grava operações de edição do utilizador para posterior aplicação em situações semelhantes
  • 24. Correcção por guias de estilo Language Tool • Corrector gramatical e de estilo • Fácil geração de regras • Pode ser definido para cada um dos projectos de edição/tradução • Corrector gramatical com regras em Galego CoGrOO • Corrector gramatical para OpenOffice com regras PT-BR
  • 25. Conclusões • Neste momento estão a ser desenvolvidas as ferramentas de tradução do futuro. • Se os tradutores não participarem na definição do “caderno de encargos”, estas ferramentas vão ter muitos níveis de controlo, mas podem não servir para as necessidades dos tradutores. • Desde que cumpram as 3 leis da robótica, as máquinas são nossas amigas. 
  • 26. Obrigado. Félix do Carmo (TIPS / CLUP) Luís Trigo (CLUP / INESC)