présentation de la plateforme TTC, un démonstrateur en ligne des résultats du projet FP7 TTC: Translation, Terminology and Comparable Corpora. Pour plus d'informations :
http://blog.syllabs.com/syllabs-a-tralogy-2013/
http://www.ttc.syllabs.com/
1. Plateforme Web TTC: de la compilation de
corpus à l’alignement bilingue
Helena Blancafort (1)
Francis Bouvier(1), Béatrice Daille(2), Ulrich Heid(3), Anita Ramm(3),
(1) Syllabs (Paris), (2)LINA - Université de Nantes, (3) IMS - Universität
Stuttgart
TRALOGY II
18 Janvier 2013, Paris
The research leading to these results has received funding from the European Community's
Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 248005.
18/01/2013 Tralogy II 1
2. Projet TTC
Traduction, Terminologies et
Corpus Comparables
Objectifs :
1) compilation de terminologies bilingues à partir des corpus
comparables pour la traduction automatique et assistée
3) Démonstrateur de toute la chaîne en ligne atelier
utilisateurs fin projet (Octobre 2012, Stuttgart)
• 7 langues: FR, EN, DE, ES, LV, RU, ZH
• 7 partenaires, Leader du projet : LINA - Université de
Nantes
18/01/2013 Tralogy II 2
3. Chaîne TTC
Compilation
de Corpus
Extraction T
Monolingue E
CORPORA & R
Alignement Bilingue M
E
S
Outil de
Gestion
18/01/2013 Tralogy II Terminologique 3
5. Chaîne TTC
Module 1
Compilation de Corpus
18/01/2013 Tralogy II 5
6. 1. Compilation de Corpus
Qu’est-ce qu’un crawler ?
Outil pour récupérer de l’information du Web
Crawler thématique: un domaine précis
18/01/2013 Tralogy II 6
7. Entrée et sortie
En entrée: 4-5 mots clés, termes du domaine recherchés
En sortie:
1) Fichiers textes, utf8, nettoyés
2) Fichiers originaux (pdf, doc, html)
3) Fichiers métadata
18/01/2013 Tralogy II 7
8. Retour utilisateur – Crawler
Utile pour la création de
terminologies ?
Avantages
permet de collecter un grand volume de données rapidement
un atout lors que le traducteur n’a pas de documents, terminologies
du domaine
outil facil à prendre en main
Options avancées : plusieurs filtres
Type de site: officiel (.gouv)
Filtres : exclure wikipedia
18/01/2013 Tralogy II 8
9. Retour utilisateur – Crawler
Utile pour la création de
terminologies ?
Désavantages liées au Web
• surreprésentation de données commerciales ou peu scientifiques, degré de
spécialisation faible
• Pour données spécifiques, relancer plusieurs crawls, paramètres avancées (ex:
articles scientifiques).
• Corpus final composé de données très hétérogènes, difficile à évaluer
• Fournir résumé du crawl : nb de mots, répétition des mots, liste des URL
• Dépendance des langues
• Letton : moins de données sur le web
• Russe : moins de crawl possible (blocage BING)
• Dépendance des moteurs de recherche : services payants
• Contraintes traducteurs : LIMITÉS AU CORPUS DU CLIENT
18/01/2013 Tralogy II 9
11. Extraction Terminologique
Monolingue
• En entrée: corpus monolingue
output Babouk
• En sortie
format : tabulation (TSV), format terminologique
standard (TBX), format compatible UIMA (XMI)
• Extraction de termes simples et complexes
• Innovation des outils TTC
TTC Term Suite variation terminologique, détection des
élements néoclassiques
méthodes Knowledge-rich vs. knowledge-poor
18/01/2013 Tralogy II 11
12. Retour utilisateurs
Extraction monolingue
Points forts
• Résultats propres et de qualité, bien présentés
• Utile pour découvrir la terminologie d’un corpus ou d’un
nouveau domaine
Points discutables
• Avis partagé sur les formats: TBX vs. TSV.
• Avis partagé sur la lemmatisation vs. formes
• Avis partagés sur outil via plateforme ou installation.
• Variantes Terminologiques: moins d’intérêt qu’attendu
(plutôt pour filtrer variantes non voulues selon client)
18/01/2013 Tralogy II 12
13. Demandes des utilisateurs
Extraction monolingue
• Focus sur les abréviations
• Fournir le terme en contexte : montrer plusieurs phrases,
autrement difficile de juger la pertinence du terme par
rapport à un domaine.
• Possibilité de fournir les patrons terminologiques
• Disponible avec Term Suite (à installer)
• Indisponible via la plateforme
18/01/2013 Tralogy II 13
15. Alignement bilingue des
terminologies
Pour un terme, plusieurs candidats
Conditions: lexique bilingue, disponible pour certaines
pairs de langues
18/01/2013 Tralogy II 15
16. Retour Utilisateurs
Alignement Bilingue
Points forts
1) Outil très utile (pas d’autres disponibles)
Points abordés
1) Liste de candidats termes : 4-5 (pas plus!, long à vérifier)
2) Contexte: Montrer les termes en contexte, lien avec les
phrases, autrement difficile d’évaluer une traduction.
3) Fonctions avancées: fonction par défaut suffit.
18/01/2013 Tralogy II 16
17. Chaîne TTC
Connexion avec
MyETB
(EuroTermBank)
Plateforme Terminologique
18/01/2013 Tralogy II 17
18. Editing TTC Output with MyETB
• Envoi des résultats terminologiques à la plateforme
• Possibilité de gérer différentes collections terminologiques
• Permet l’édition et gestion des terminologies TTC
Validation des termes et informations correspondantes
Suppresion des termes
Édition (ajout d’informations)
18/01/2013 Tralogy II 18
19. Retour Utilisateurs
MyETB
Avantages
• Utile d’avoir une plateforme web collaborative pour éditer
les résultats
• Gestion de plusieurs terminologies
Améliorations proposées
• Editer les résultats monolingues TTC et renvoyer à la
plateforme pour alignement bilingue
• Export des résultats format tabulaire simple
18/01/2013 Tralogy II 19
20. Conclusions
Retour Plateforme Web TTC
Evaluation globale très positive
Points forts
1) Illustration de toute la chaîne sous 1 seule plateforme
2) Interface agréable, prise en main facile
3) Architecture modulaire et possibilité paramétrage des
outils
Différents profils, différents usages
Points délicats
1) Le web comme ressource pour le travail terminologique
18/01/2013 Tralogy II 20