Résumé:
Les performances des systèmes de traduction automatique statistique
dépendent de la disponibilité de textes parallèles bilingues, appelés aussi bitextes.
Cependant, les textes parallèles librement disponibles sont aussi des
ressources rares~: la taille est souvent limitée, la couverture linguistique
insuffisante ou le domaine des textes n'est pas approprié. Il y a relativement
peu de paires de langues pour lesquelles des corpus parallèles de tailles
raisonnables sont disponibles pour certains domaines.
L'une des façons pour pallier au manque de données parallèles est d'exploiter les corpus
comparables qui sont plus abondants.
Les travaux précédents dans ce domaine n'ont été appliqués que pour la modalité texte.
La question que nous nous sommes posée durant cette thèse est de savoir
si un corpus comparable multimodal permet d’apporter des
solutions au manque de données parallèles dans le domaine de la traduction automatique.
Dans cette thèse, nous avons étudié comment utiliser des ressources provenant de différentes
modalités (texte ou parole) pour le développement d'un système de traduction automatique statistique.
Une première partie des contributions consiste à proposer une technique
pour l’extraction des données parallèles à partir d’un corpus comparable multimodal (audio et texte).
Les enregistrements sont transcrits avec un système de reconnaissance
automatique de la parole et traduits avec un système de traduction automatique.
Ces traductions sont ensuite utilisées comme requêtes d’un système de recherche
d’information pour sélectionner des phrases parallèles sans erreur et générer un bitexte.
Dans la deuxième partie des contributions, nous visons l'amélioration de notre méthode
en exploitant les entités sous-phrastiques créant ainsi une extension à
notre système en vue de générer des segments parallèles. Nous améliorons aussi le module de
filtrage. Enfin, nous présentons plusieurs manières d'aborder l'adaptation des
systèmes de traduction avec les données extraites.
Nos expériences ont été menées sur les données des sites web TED et Euronews
qui montrent la faisabilité de nos approches.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Présentation de thèse Haithem AFLI
1. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
La traduction automatique statistique dans un
contexte multimodal
Th`ese pr´esent´ee par
Haithem Afli
dirig´ee par
Lo¨ıc Barrault & Holger Schwenk
7 juillet 2014
1/ 51 Haithem Afli La TAS dans un contexte multimodal
2. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Le DEPART de la th`ese
Projet DEPART
Documents Ecrits et Paroles – Reconnaissance et Traduction
Financ´e par la r´egion des Pays de la Loire
Partenaires : LST/LIUM, TALN/LINA et IVC/IRCCyN
Objectifs :
La r´esolution de probl`emes scientifiques et technologiques
mettant en jeu des donn´ees multimodales et multilingues
2/ 51 Haithem Afli La TAS dans un contexte multimodal
3. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Axes de recherches
Axe1
Collection multim´edia multilingue
Axe 2
Analyse conjointe et traduction
Axe 3
Adaptation des m´ethodes et donn´ees aux diff´erents types de
documents multim´edia
3/ 51 Haithem Afli La TAS dans un contexte multimodal
4. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Axes de recherches
Axe1
Collection multim´edia multilingue
Axe 2
Analyse conjointe et traduction
Notre tˆache : traduction de documents multimodaux
Axe 3
Adaptation des m´ethodes et donn´ees aux diff´erents types de
documents multim´edia
3/ 51 Haithem Afli La TAS dans un contexte multimodal
5. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Plan
1 Introduction
2 Travaux pr´ec´edents
3 Extraction de phrases parall`eles
4 Extraction de segments parall`eles
5 Conclusion et perspectives
4/ 51 Haithem Afli La TAS dans un contexte multimodal
6. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
5/ 51 Haithem Afli La TAS dans un contexte multimodal
7. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
t∗ : meilleure traduction possible
5/ 51 Haithem Afli La TAS dans un contexte multimodal
8. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
5/ 51 Haithem Afli La TAS dans un contexte multimodal
9. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Mod´elisation
Mod`ele de Langue : P(t)
→ estim´e `a l’aide de textes monolingues en langue cible
5/ 51 Haithem Afli La TAS dans un contexte multimodal
10. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Mod´elisation
Mod`ele de Langue : P(t)
→ estim´e `a l’aide de textes monolingues en langue cible
Mod`ele de Traduction : P(s|t)
→ estim´e `a l’aide de textes bilingues
5/ 51 Haithem Afli La TAS dans un contexte multimodal
11. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Mod´elisation
Mod`ele de Langue : P(t)
→ estim´e `a l’aide de textes monolingues en langue cible
Mod`ele de Traduction : P(s|t)
→ estim´e `a l’aide de textes bilingues
Des outils tels que Moses et Joshua sont disponibles
⇒ Besoin de donn´ees parall`eles
5/ 51 Haithem Afli La TAS dans un contexte multimodal
12. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Corpus parall`ele : bitexte
Textes qui sont des traductions l’un
de l’autre
Ressource essentielle pour la TAS
Donn´ees d’entraˆınement pour les
mod`eles de traduction statistiques
Disponible en quantit´e limit´ee
langues
domaines sp´ecifiques
Coˆuteux et long `a construire
Traduction des phrases ...
⇒ Besoin d’autres solutions et sources
Pierre de Rosette
6/ 51 Haithem Afli La TAS dans un contexte multimodal
13. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Exploitation des corpus comparables
Pas parall`eles au sens strict
Contiennent les mˆemes informations
Disponibles en grande quantit´e et en de nombreuses langues
Principalement `a partir de sources journalistiques (newswire)
AFP, Al JAZEERA, BBC ...
Projets r´ecents : ACCURAT..
7/ 51 Haithem Afli La TAS dans un contexte multimodal
14. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Donn´ees de modalit´es diff´erentes
www.coursera.org/
amara.org/
8/ 51 Haithem Afli La TAS dans un contexte multimodal
15. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Objectif : exploiter des corpus comparables multimodaux
Extraction des données
parallèles
Textes parallèles
Audio (L1) Textes (L2)
9/ 51 Haithem Afli La TAS dans un contexte multimodal
16. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
D´efinition. Un corpus multimodal comparable est une collection
de donn´ees de diff´erentes modalit´es qui contiennent les mˆemes
informations, mais ne sont pas des traductions exactes les unes des
autres.
10/ 51 Haithem Afli La TAS dans un contexte multimodal
17. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Probl´ematiques
Faisabilit´e
Les corpus comparables multimodaux sont-ils utilisables pour
extraire du texte parall`ele ?
11/ 51 Haithem Afli La TAS dans un contexte multimodal
18. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Probl´ematiques
Faisabilit´e
Les corpus comparables multimodaux sont-ils utilisables pour
extraire du texte parall`ele ?
Qualit´e
Est-il possible d’am´eliorer un syst`eme de traduction avec les
donn´ees extraites ?
11/ 51 Haithem Afli La TAS dans un contexte multimodal
19. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Probl´ematiques
Faisabilit´e
Les corpus comparables multimodaux sont-ils utilisables pour
extraire du texte parall`ele ?
Qualit´e
Est-il possible d’am´eliorer un syst`eme de traduction avec les
donn´ees extraites ?
Efficacit´e
Comment tirer parti au mieux des donn´ees disponibles ?
⇒ Besoin de construction de corpus multimodal (cas d’´etude)
11/ 51 Haithem Afli La TAS dans un contexte multimodal
20. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Le corpus TED-LIUM
TED : expos´es scientifiques oraux en anglais disponibles avec
leurs traductions en plusieurs langues, dont le fran¸cais
Traduction
Audio (en)
Texte (fr)
12/ 51 Haithem Afli La TAS dans un contexte multimodal
21. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Le corpus TED-LIUM
Tˆache : exploiter des donn´ees de IWSLT’11
→ d´etaill´ee dans [Rousseau et al., 2011]
→ traduire des discours de TED de l’anglais vers le fran¸cais
utiliser la partie audio en anglais (TEDasr)
enrichir avec des textes parall`eles (TEDbi)
Donn´ees # mots
TEDasr 1.8M
TEDbi 1.9M
13/ 51 Haithem Afli La TAS dans un contexte multimodal
22. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Le corpus bimodal Euronews
Audio comparable
Textes comparables
Transcription
Transcription
Extraction des donn´ees sur la p´eriode 2010 `a 2012
14/ 51 Haithem Afli La TAS dans un contexte multimodal
23. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Construction
Premi`ere phase :
1 t´el´echargement de la liste des articles
→ en deux langues (fran¸cais/anglais)
2 conservation de l’intersection
→ la liste des articles qui ont des correspondances comparables
Deuxi`eme phase :
1 rep´erage du nom et du domaine de la vid´eo
2 r´ecup´eration des vid´eos et des textes qui correspondent
3 extraction du flux audio de la vid´eo
→ conversion dans le format utilis´e pour le syst`eme RAP
15/ 51 Haithem Afli La TAS dans un contexte multimodal
24. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Le corpus Euronews-LIUM
Nombre de mots et de phrases de la transcription automatique
de la partie audio anglais
# mots # phrases
2.2 M 76 K
Quantit´e en termes de mots de la partie texte anglais/fran¸cais
# mots Fr # mots En
6.2 M 6.1 M
Plusieurs domaines : ´economie, sport, culture, Europe, style
de vie, politique et sciences.
16/ 51 Haithem Afli La TAS dans un contexte multimodal
25. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Plan
1 Introduction
2 Travaux pr´ec´edents
Principales m´ethodes existantes
La m´ethode de traduction automatique
3 Extraction de phrases parall`eles
4 Extraction de segments parall`eles
5 Conclusion et perspectives
17/ 51 Haithem Afli La TAS dans un contexte multimodal
26. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Principales m´ethodes existantes
Webcrawling : utilisation des URLs pour trouver des
documents correspondants [Resnik and Smith, 2003].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
27. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Principales m´ethodes existantes
Webcrawling : utilisation des URLs pour trouver des
documents correspondants [Resnik and Smith, 2003].
Alignement : utilisation de mod`eles d’alignement de mots
pour estimer la proximit´e de deux documents (ou phrases) en
langue source et cible [Brown et al., 1991].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
28. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Principales m´ethodes existantes
Webcrawling : utilisation des URLs pour trouver des
documents correspondants [Resnik and Smith, 2003].
Alignement : utilisation de mod`eles d’alignement de mots
pour estimer la proximit´e de deux documents (ou phrases) en
langue source et cible [Brown et al., 1991].
RI crosslingue : utilisation d’un lexique pour traduire les
mots source et utilisation de m´ethodes de RI
[Munteanu and Marcu, 2005].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
29. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Principales m´ethodes existantes
Webcrawling : utilisation des URLs pour trouver des
documents correspondants [Resnik and Smith, 2003].
Alignement : utilisation de mod`eles d’alignement de mots
pour estimer la proximit´e de deux documents (ou phrases) en
langue source et cible [Brown et al., 1991].
RI crosslingue : utilisation d’un lexique pour traduire les
mots source et utilisation de m´ethodes de RI
[Munteanu and Marcu, 2005].
Traduction automatique : utilisation d’un syst`eme de TAS
pour traduire les documents et utilisation de m´ethodes de RI
[AbduI-Rauf and Schwenk, 2009].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
30. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Corpus comparable
(textes) ----------
----------
----------
----------
TAS
----------
----------
----------
----------
----------
----------
........
...............
--
-
--
-
--
-
--
-
--
-
--
-
-------- ---------
-------- -------------
-------- -------------
-------- ---------
articles d'actualités
datés
articles de Gigaword
(+- 5 jours)
phrases candidates
---- ----
---- ----
---- ----
---- ----
--
-
--
-
--
-
--
-
tail removal
Filtrage
(TER,WER,TER+)
phrases parallèles
Traduction
Abdul-Rauf et
Schwenk, 2009
lexique
---- ----
---- ----
---- ----
---- ----
---- ----
---- ----
Classifieur
---- ----
---- ----
---- ----
---- ----
---- ----
---- ----
---- ----
---- ----
........
Phrases candidates
Phrases parallèlesPaires d'articles
Corpus comparable
Sélection
d'articles
sélection de
phrases
candidates
sélection de
phrases
parallèles
Corpus parallèle
Munteanu et
Marcu, 2005
19/ 51 Haithem Afli La TAS dans un contexte multimodal
31. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Plan
1 Introduction
2 Travaux pr´ec´edents
3 Extraction de phrases parall`eles
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
4 Extraction de segments parall`eles
5 Conclusion et perspectives
20/ 51 Haithem Afli La TAS dans un contexte multimodal
32. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Premi`ere approche propos´ee [Afli et al., 2012]
Etapes
1 Transcrire les donn´ees audio
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus
multimodal
Bitextes
Phrases
L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
33. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Premi`ere approche propos´ee [Afli et al., 2012]
Etapes
1 Transcrire les donn´ees audio
2 Traduire ces transcriptions
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus
multimodal
Bitextes
Phrases
L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
34. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Premi`ere approche propos´ee [Afli et al., 2012]
Etapes
1 Transcrire les donn´ees audio
2 Traduire ces transcriptions
3 Utiliser les traductions
comme requˆetes de RI
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus
multimodal
Bitextes
Phrases
L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
35. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Premi`ere approche propos´ee [Afli et al., 2012]
Etapes
1 Transcrire les donn´ees audio
2 Traduire ces transcriptions
3 Utiliser les traductions
comme requˆetes de RI
4 Utiliser le TER entre
la requˆete et le r´esultat de
RI comme m´etrique
de filtrage
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus
multimodal
Bitextes
Phrases
L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
36. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Premi`ere approche propos´ee [Afli et al., 2012]
Etapes
1 Transcrire les donn´ees audio
2 Traduire ces transcriptions
3 Utiliser les traductions
comme requˆetes de RI
4 Utiliser le TER entre
la requˆete et le r´esultat de
RI comme m´etrique
de filtrage
5 G´en´erer le bitexte
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus
multimodal
Bitextes
Phrases
L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
37. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Cadre exp´erimental (1) : faisabilit´e
Analyse de l’impact des
erreurs commises par les
diff´erents modules
Exp 1 : le syst`eme de RAP
et de TAS ne commettent
aucune erreur.
Exp 1
Réf. de trad.
Fr
Texte Fr
RI
Données génériques +% Réf. fr
22/ 51 Haithem Afli La TAS dans un contexte multimodal
38. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Cadre exp´erimental (1) : faisabilit´e
Analyse de l’impact des
erreurs commises par les
diff´erents modules
Exp 1 : le syst`eme de RAP
et de TAS ne commettent
aucune erreur.
Exp 2 : erreurs du syst`eme
de traduction.
Exp 1 Exp 2
Réf. de trans.
En
Trad. auto.
Fr
Texte Fr
TAS
RI
Réf. de trad.
Fr
Texte Fr
RI
Données génériques +% Réf. fr
22/ 51 Haithem Afli La TAS dans un contexte multimodal
39. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Cadre exp´erimental (1) : faisabilit´e
Analyse de l’impact des
erreurs commises par les
diff´erents modules
Exp 1 : le syst`eme de RAP
et de TAS ne commettent
aucune erreur.
Exp 2 : erreurs du syst`eme
de traduction.
Exp 3 : cas r´eel,
enchaˆınement de tous les
modules automatiques
TED audio
Trans. auto.
En
Trad. auto.
Fr
Texte Fr
RAP
TAS
RI
Exp 1 Exp 2 Exp 3
Réf. de trans.
En
Trad. auto.
Fr
Texte Fr
TAS
RI
Réf. de trad.
Fr
Texte Fr
RI
Données génériques +% Réf. fr
22/ 51 Haithem Afli La TAS dans un contexte multimodal
40. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Cadre exp´erimental (2)
Analyse de l’importance du degr´e de similarit´e
23/ 51 Haithem Afli La TAS dans un contexte multimodal
41. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Cadre exp´erimental (2)
Analyse de l’importance du degr´e de similarit´e
→ construction artificielle de 4 corpus comparables avec
diff´erents degr´es de similarit´e
le cˆot´e source est toujours le mˆeme
la partie cible est compos´ee d’un grand corpus g´en´erique
auquel est ajout´e 25%, 50%, 75% et 100% des traductions de
r´ef´erence
23/ 51 Haithem Afli La TAS dans un contexte multimodal
42. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Donn´ees
´Evaluation de l’approche
les donn´ees extraites sont r´einject´ees dans le syst`eme de base
les syst`emes sont ´evalu´es automatiquement avec BLEU
Entraˆınement
bitextes # mots g´en´eriques
nc7 3.7M oui
eparl7 56.4M oui
Corpus de d´eveloppement et de test
Dev # mots
devTED.en 36k
devEuronews 74k
Test # mots
tstTED.en 8.7k
tstEuronews 61k
24/ 51 Haithem Afli La TAS dans un contexte multimodal
43. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exp´erimentation : modules
RAP : syst`eme 5-passes fond´e sur CMU Sphinx
WER d’environ 18%
TAS : syst`eme `a base de segment utilisant Moses
entraˆın´e sur les donn´ees g´en´eriques
RI : utilisation de l’outil Lemur
indexation de toutes les donn´ees cibles (en fran¸cais)
25/ 51 Haithem Afli La TAS dans un contexte multimodal
44. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exemple de d´eroulement : extraction
Phrase en anglais (sortie RAP) : ... you get a
supercomputer because they know how to take ...
26/ 51 Haithem Afli La TAS dans un contexte multimodal
45. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exemple de d´eroulement : extraction
Phrase en anglais (sortie RAP) : ... you get a
supercomputer because they know how to take ...
Requˆete en fran¸cais (sortie TAS) : ... vous obtenez un
supercomputer parce qu’ils savent comment prendre ..
26/ 51 Haithem Afli La TAS dans un contexte multimodal
46. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exemple de d´eroulement : extraction
Phrase en anglais (sortie RAP) : ... you get a
supercomputer because they know how to take ...
Requˆete en fran¸cais (sortie TAS) : ... vous obtenez un
supercomputer parce qu’ils savent comment prendre ..
Phrase trouv´ee (sortie RI) : ... vous prenez un
superordinateur car ils savent comment concentrer ...
26/ 51 Haithem Afli La TAS dans un contexte multimodal
47. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exemple de d´eroulement : extraction
Phrase en anglais (sortie RAP) : ... you get a
supercomputer because they know how to take ...
Phrase trouv´ee (sortie RI) : ... vous prenez un
superordinateur car ils savent comment concentrer ...
26/ 51 Haithem Afli La TAS dans un contexte multimodal
48. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exemple de d´eroulement : am´elioration
Test audio
Sortie ASR a supercomputer has calculated
that humans and only ...
R´ef´erence a supercomputer has calculated
that humans have only ...
Traductions de la sortie ASR
Syst`eme de base un supercomputer
a calcul´e que les humains et seulement ...
Syst`eme adapt´e un superordinateur
a calcul´e que les humains et seulement ...
R´ef´erence un superordinateur a calcul´e
que les humains n’avaient plus que ...
27/ 51 Haithem Afli La TAS dans un contexte multimodal
49. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese des r´esultats : filtrage
22.5
23
23.5
24
24.5
0 20 40 60 80 100
scoreBLEU
TER threshold
Exp1
Exp2
Exp3
22
22.5
23
23.5
24
24.5
25
25.5
26
0 20 40 60 80 100
scoreBLEU
seuil TER
Exp1
Exp2
Exp3
Donn´ees g´en´eriques + 25% TEDbi
Donn´ees g´en´eriques + 100% TEDbi
28/ 51 Haithem Afli La TAS dans un contexte multimodal
50. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese des r´esultats : filtrage
le choix du seuil de TER ad´equat d´epend de la nature des
donn´ees
le meilleur seuil pour les donn´ees TED est dans l’intervalle
[80-90]
→ le seuil de 80 est retenu pour le filtrage des r´esultats
⇒ ce choix est confirm´e par les r´esultats obtenus sur TestTED
29/ 51 Haithem Afli La TAS dans un contexte multimodal
51. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese de r´esultats : enchaˆınement des modules
Comparaison des donn´ees extraites dans les diff´erentes Exp
Exp´erience DevTED TstTED
Syst`eme de base 22.93 23.96
Exp1 (ref TAS) 24.14 25.14
Exp2 (ref RAP) 23.90 25.15
Exp3 (RAP+TAS+RI) 23.40 24.69
30/ 51 Haithem Afli La TAS dans un contexte multimodal
52. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese de r´esultats : enchaˆınement des modules
Comparaison des donn´ees extraites dans les diff´erentes Exp
Exp´erience DevTED TstTED
Syst`eme de base 22.93 23.96
Exp1 (ref TAS) 24.14 25.14
Exp2 (ref RAP) 23.90 25.15
Exp3 (RAP+TAS+RI) 23.40 24.69
les phrases extraites permettent d’am´eliorer le syst`eme de TAS
→ faisabilit´e
30/ 51 Haithem Afli La TAS dans un contexte multimodal
53. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese de r´esultats : enchaˆınement des modules
Comparaison des donn´ees extraites dans les diff´erentes Exp
Exp´erience DevTED TstTED
Syst`eme de base 22.93 23.96
Exp1 (ref TAS) 24.14 25.14
Exp2 (ref RAP) 23.90 25.15
Exp3 (RAP+TAS+RI) 23.40 24.69
les phrases extraites permettent d’am´eliorer le syst`eme de TAS
→ faisabilit´e
moins d’impacts des erreurs de TAS
→ plus en RAP
30/ 51 Haithem Afli La TAS dans un contexte multimodal
54. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese de r´esultats : enchaˆınement des modules
Comparaison des donn´ees extraites dans les diff´erentes Exp
Exp´erience DevTED TstTED
Syst`eme de base 22.93 23.96
Exp1 (ref TAS) 24.14 25.14
Exp2 (ref RAP) 23.90 25.15
Exp3 (RAP+TAS+RI) 23.40 24.69
les phrases extraites permettent d’am´eliorer le syst`eme de TAS
→ faisabilit´e
moins d’impacts des erreurs de TAS
→ plus en RAP
30/ 51 Haithem Afli La TAS dans un contexte multimodal
55. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese des r´esultats : degr´e de comparabilit´e
Scores BLEU pour diff´erents degr´es de comparabilit´e
Exp´erience DevTED TstTED # mots inject´es
Syst`eme de base 22.93 23.96 -
25% TEDbi 23.11 24.40 ∼110k
50% TEDbi 23.27 24.58 ∼215k
75% TEDbi 23.43 24.42 ∼293k
100% TEDbi 23.40 24.69 ∼393k
TEDbi 1.9 M
31/ 51 Haithem Afli La TAS dans un contexte multimodal
56. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese des r´esultats : degr´e de comparabilit´e
Scores BLEU pour diff´erents degr´es de comparabilit´e
Exp´erience DevTED TstTED # mots inject´es
Syst`eme de base 22.93 23.96 -
25% TEDbi 23.11 24.40 ∼110k
50% TEDbi 23.27 24.58 ∼215k
75% TEDbi 23.43 24.42 ∼293k
100% TEDbi 23.40 24.69 ∼393k
TEDbi 1.9 M
meilleurs r´esultats avec 75% et 100%
les modules de RI et filtrage sont tr`es importants
31/ 51 Haithem Afli La TAS dans un contexte multimodal
57. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese des r´esultats : degr´e de comparabilit´e
Scores BLEU pour diff´erents degr´es de comparabilit´e
Exp´erience DevTED TstTED # mots inject´es
Syst`eme de base 22.93 23.96 -
25% TEDbi 23.11 24.40 ∼110k
50% TEDbi 23.27 24.58 ∼215k
75% TEDbi 23.43 24.42 ∼293k
100% TEDbi 23.40 24.69 ∼393k
TEDbi 1.9 M
meilleurs r´esultats avec 75% et 100%
les modules de RI et filtrage sont tr`es importants
quantit´es faibles
31/ 51 Haithem Afli La TAS dans un contexte multimodal
58. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Discussion
Constat
Les phrases parall`eles extraites am´eliorent les syst`emes de
traduction
mais la quantit´e est faible
→ Comment optimiser l’exploitation des corpus pour extraire
davantage de donn´ees parall`eles ?
Types d’erreurs
Les phrases les plus longues ont un TER ´elev´e
⇒ exclues par le filtrage mˆeme si elles contiennent de bonnes
traductions
32/ 51 Haithem Afli La TAS dans un contexte multimodal
59. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Approche l´eg`erement supervis´ee (unsup)
Objectif : compl´eter les r´esultats de la RI
En
Fr
TAS
En-Fr
En Fr
2
1
En Fr
Filtrage
de
données
33/ 51 Haithem Afli La TAS dans un contexte multimodal
60. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Approche l´eg`erement supervis´ee (unsup)
Objectif : compl´eter les r´esultats de la RI
En
Fr
TAS
En-Fr
En Fr
2
1
En Fr
Filtrage
de
données
2 ´etapes [Schwenk, 2009] :
traduction des donn´ees monolingues (anglais) avec le syst`eme
de base
filtrage des r´esultats pour ´eliminer les paires de phrases non
d´esir´ees
33/ 51 Haithem Afli La TAS dans un contexte multimodal
61. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
RI & unsup : r´esultats
22.5
23
23.5
24
24.5
70 75 80 85 90 95 100
ScoreBLEU
Seuil TER
RI + Unsup
Baseline
RI
pas d’am´elioration significative
⇒ Chercher d’autres solutions pour augmenter la couverture
34/ 51 Haithem Afli La TAS dans un contexte multimodal
62. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Segments parall`eles
35/ 51 Haithem Afli La TAS dans un contexte multimodal
63. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Plan
1 Introduction
2 Travaux pr´ec´edents
3 Extraction de phrases parall`eles
4 Extraction de segments parall`eles
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
5 Conclusion et perspectives
36/ 51 Haithem Afli La TAS dans un contexte multimodal
64. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Extraction des segments parall`eles
L’approche associative : reposer sur des mesures comme
l’information mutuelle ou le rapport de vraisemblance
[Munteanu and Marcu, 2006]
[Hewavitharana and Vogel, 2011]
L’alignement : d´eterminer le meilleur ensemble de liens
d’alignement entre des groupes de mots sources et cibles de
chaque paire de phrases ou documents
[Quirk et al., 2007]
[Riesa and Marcu, 2012].
37/ 51 Haithem Afli La TAS dans un contexte multimodal
65. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
M´ethode propos´ee [Afli et al., 2013]
1 g´en´erer tous les segments
possibles
→ segments de 2 `a 10 mots
la sortie du syst`eme RAP
Audio L1
Phrases L1
Traductions L2
Segments
L2
RAP
TAS
RI
Textes L2
Corpus
Comparable
multimodal
Données
Parallèles
Filtrage
Segments L1
Découpage
Segments L2
Découpage
38/ 51 Haithem Afli La TAS dans un contexte multimodal
66. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
M´ethode propos´ee [Afli et al., 2013]
1 g´en´erer tous les segments
possibles
→ segments de 2 `a 10 mots
la sortie du syst`eme RAP
le corpus texte de RI
Audio L1
Phrases L1
Traductions L2
Segments
L2
RAP
TAS
RI
Textes L2
Corpus
Comparable
multimodal
Données
Parallèles
Filtrage
Segments L1
Découpage
Segments L2
Découpage
38/ 51 Haithem Afli La TAS dans un contexte multimodal
67. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
M´ethode propos´ee [Afli et al., 2013]
1 g´en´erer tous les segments
possibles
→ segments de 2 `a 10 mots
la sortie du syst`eme RAP
le corpus texte de RI
2 appliquer la mˆeme
m´ethode d’extraction
utilis´ee dans SentExtract
⇒ aligner les segments
parall`eles
Audio L1
Phrases L1
Traductions L2
Segments
L2
RAP
TAS
RI
Textes L2
Corpus
Comparable
multimodal
Données
Parallèles
Filtrage
Segments L1
Découpage
Segments L2
Découpage
38/ 51 Haithem Afli La TAS dans un contexte multimodal
68. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
PhrExtract vs SentExtract, donn´ees TED
TER SentExtract PhrExtract
0 22.86 23.39
10 22.97 23.35
20 23.06 23.53
30 22.95 23.39
40 22.92 23.45
50 23.26 23.54
60 23.10 23.70
70 23.29 23.41
80 23.40 23.40
90 23.39 23.18
100 23.34 23.26
Baseline 22.93
39/ 51 Haithem Afli La TAS dans un contexte multimodal
69. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
PhrExtract vs SentExtract, donn´ees TED
TER SentExtract PhrExtract
0 22.86 23.39
10 22.97 23.35
20 23.06 23.53
30 22.95 23.39
40 22.92 23.45
50 23.26 23.54
60 23.10 23.70
70 23.29 23.41
80 23.40 23.40
90 23.39 23.18
100 23.34 23.26
Baseline 22.93
39/ 51 Haithem Afli La TAS dans un contexte multimodal
70. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
PhrExtract vs SentExtract, donn´ees TED
TER SentExtract PhrExtract
0 22.86 23.39
10 22.97 23.35
20 23.06 23.53
30 22.95 23.39
40 22.92 23.45
50 23.26 23.54
60 23.10 23.70
70 23.29 23.41
80 23.40 23.40
90 23.39 23.18
100 23.34 23.26
Baseline 22.93
39/ 51 Haithem Afli La TAS dans un contexte multimodal
71. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Application sur les donn´ees Euronews
TER # mots (fr) devEuronews tstEuronews
0 90 k 29.95 27.13
20 168 k 30.01 27.33
30 322 k 30.04 27.59
40 769 k 29.92 27.45
50 1.9 M 30.03 27.27
60 3.1M 29.92 27.30
70 5.7M 29.83 27.11
80 12.39 M 29.73 27.10
90 25.7 M 29.73 26.88
100 40.3 M 29.52 26.53
Baseline 60.1M 25.19 22.12
40/ 51 Haithem Afli La TAS dans un contexte multimodal
72. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Application sur les donn´ees Euronews
TER # mots (fr) devEuronews tstEuronews
0 90 k 29.95 27.13
20 168 k 30.01 27.33
30 322 k 30.04 27.59
40 769 k 29.92 27.45
50 1.9 M 30.03 27.27
60 3.1M 29.92 27.30
70 5.7M 29.83 27.11
80 12.39 M 29.73 27.10
90 25.7 M 29.73 26.88
100 40.3 M 29.52 26.53
Baseline 60.1M 25.19 22.12
40/ 51 Haithem Afli La TAS dans un contexte multimodal
73. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Discussion
Am´elioration des r´esultats
redondance
Approche actuelle de filtrage :
seuil de TER entre traduction et r´esultat de RI
´Ecueils :
approche empirique pour d´eterminer le seuil
statique
41/ 51 Haithem Afli La TAS dans un contexte multimodal
74. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Discussion
Am´elioration des r´esultats
redondance
Approche actuelle de filtrage :
seuil de TER entre traduction et r´esultat de RI
´Ecueils :
approche empirique pour d´eterminer le seuil
statique
⇒ Utilisation de la m´ethode LLR (Log Likelihood Ratio)
[Munteanu and Marcu, 2006]
41/ 51 Haithem Afli La TAS dans un contexte multimodal
75. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Filtrage avec LLR
LLR :
le rapport de vraisemblance
l’ind´ependance des
paires de mots qui co-occurent
LLR faible
→ mots ind´ependants
LLR augmente
→ mots associ´es
[Munteanu and Marcu, 2006]
42/ 51 Haithem Afli La TAS dans un contexte multimodal
76. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
SenExtract +LLR lex : architecture [Afli et al., 2014]
1 utiliser le syst`eme
d’extraction des phrases,
consid´er´ees quasi parall`eles
Audio L1
Phrases L1
Traductions L2
Phrases
L2
RAP
TAS
Texts L2
Corpus
Comparable
multimodal
Phrases
Quasi-
Parallèles
RI
Corpus parallèle
de base
Lexique
LLR
Génération des
Segments
Lex.
Extraction
Apprentissage
Segments
parallèles
43/ 51 Haithem Afli La TAS dans un contexte multimodal
77. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
SenExtract +LLR lex : architecture [Afli et al., 2014]
1 utiliser le syst`eme
d’extraction des phrases,
consid´er´ees quasi parall`eles
2 construire le lexique LLR lex
`a partir des donn´ees
d’apprentissage du TAS
Audio L1
Phrases L1
Traductions L2
Phrases
L2
RAP
TAS
Texts L2
Corpus
Comparable
multimodal
Phrases
Quasi-
Parallèles
RI
Corpus parallèle
de base
Lexique
LLR
Génération des
Segments
Lex.
Extraction
Apprentissage
Segments
parallèles
43/ 51 Haithem Afli La TAS dans un contexte multimodal
78. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
SenExtract +LLR lex : architecture [Afli et al., 2014]
1 utiliser le syst`eme
d’extraction des phrases,
consid´er´ees quasi parall`eles
2 construire le lexique LLR lex
`a partir des donn´ees
d’apprentissage du TAS
3 d´etecter, `a l’aide du lexique,
les fragments parall`eles dans
les phrases g´en´er´ees
Audio L1
Phrases L1
Traductions L2
Phrases
L2
RAP
TAS
Texts L2
Corpus
Comparable
multimodal
Phrases
Quasi-
Parallèles
RI
Corpus parallèle
de base
Lexique
LLR
Génération des
Segments
Lex.
Extraction
Apprentissage
Segments
parallèles
43/ 51 Haithem Afli La TAS dans un contexte multimodal
79. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
R´esultats : donn´ees TED
Quantit´es de donn´ees extraites
M´ethodes # mots (en) # mots (fr)
PhrExtract (TER 60) 321 k 322 k
SenExtract +LLR lex 236 k 224 k
Scores BLEU
Syst`emes devTED tstTED
Baseline 22.93 23.96
PhrExtract (TER 60) 23.70 24.84
SenExtract +LLR lex 23.63 24.88
44/ 51 Haithem Afli La TAS dans un contexte multimodal
80. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
R´esultats : donn´ees TED
Quantit´es de donn´ees extraites
M´ethodes # mots (en) # mots (fr)
PhrExtract (TER 60) 321 k 322 k
SenExtract +LLR lex 236 k 224 k
Scores BLEU
Syst`emes devTED tstTED
Baseline 22.93 23.96
PhrExtract (TER 60) 23.70 24.84
SenExtract +LLR lex 23.63 24.88
44/ 51 Haithem Afli La TAS dans un contexte multimodal
81. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
R´esultats : donn´ees Euronews
Quantit´es de donn´ees extraites
M´ethodes # mots (en) # mots (fr)
PhrExtract (TER 30) 16.6 M 13.8 M
SenExtract +LLR lex 1.6 M 2.2 M
Scores BLEU
Syst`emes devEuronews tstEuronews
Baseline 25.19 22.12
PhrExtract (TER 30) 30.04 27.59
SenExtract +LLR lex 30.00 27.47
45/ 51 Haithem Afli La TAS dans un contexte multimodal
82. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
R´esultats : donn´ees Euronews
Quantit´es de donn´ees extraites
M´ethodes # mots (en) # mots (fr)
PhrExtract (TER 30) 16.6 M 13.8 M
SenExtract +LLR lex 1.6 M 2.2 M
Scores BLEU
Syst`emes devEuronews tstEuronews
Baseline 25.19 22.12
PhrExtract (TER 30) 30.04 27.59
SenExtract +LLR lex 30.00 27.47
45/ 51 Haithem Afli La TAS dans un contexte multimodal
83. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Discussion
M´ethode plus efficace
r´esultats similaires au meilleur seuil TER
moins de quantit´e de donn´ees : plus de pr´ecision dans la
s´election des donn´ees pertinentes
Besoin de plus d’am´eliorations
optimiser l’exploitation des corpus
46/ 51 Haithem Afli La TAS dans un contexte multimodal
84. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Plan
1 Introduction
2 Travaux pr´ec´edents
3 Extraction de phrases parall`eles
4 Extraction de segments parall`eles
5 Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
47/ 51 Haithem Afli La TAS dans un contexte multimodal
85. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Conclusion
Construction du corpus bimodal Euronews LIUM
Extraction des donn´ees sur la p´eriode 2010 `a 2012
Mettre `a disposition `a la communaut´e
→ corpus et bitextes extraits
Mise `a jour du corpus TED LIUM
partie texte en fran¸cais correspond `a TEDbi
Mettre `a disposition `a la communaut´e
→ corpus brut et bitextes extraits
48/ 51 Haithem Afli La TAS dans un contexte multimodal
86. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Conclusion
Extension de l’utilisation de corpus comparables `a des donn´ees
multimodales, i.e. audio cˆot´e source et texte cˆot´e cible
D´eveloppement des syst`emes d’acquisition des donn´ees
comparables multimodales et d’extraction de textes parall`eles
→ totalement automatique
Extension de la m´ethode pour extraire des segments parall`eles
Am´elioration du module de filtrage de nos syst`emes : du
filtrage TER vers le filtrage LLR
M´ethodes valid´ees sur diff´erents corpus et tˆaches (TED et
Euronews)
adaptation d’un syst`eme g´en´erique
am´elioration d’un syst`eme du domaine
49/ 51 Haithem Afli La TAS dans un contexte multimodal
87. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Perspectives
Ce travail ouvre la voie `a l’exploitation des donn´ees multimodales
pour la TA
Am´elioration de la m´ethode PhrExtract en changeant la
segmentation des phrases
groupes syntaxiques
connaissances linguistiques
l’alignement en groupe de mots du syst`eme de TAS
Am´elioration de la m´ethode SentExtract en essayant d’autres
techniques de filtrage
Utilisation de la m´ethode Unsup avec les phrases courtes
Application des m´ethodes d’extraction sur d’autres domaines
de sp´ecialit´e
50/ 51 Haithem Afli La TAS dans un contexte multimodal
88. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Merci pour votre attention.
Universitédu Maine
U
51/ 51 Haithem Afli La TAS dans un contexte multimodal
89. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
AbduI-Rauf, S. and Schwenk, H. (2009).
On the use of comparable corpora to improve smt
performance.
In Proceedings of the 12th Conference of the European
Chapter of the Association for Computational Linguistics,
EACL ’09, pages 16–23, Stroudsburg, PA, USA. Association
for Computational Linguistics.
Afli, H., Barrault, L., and Schwenk, H. (2012).
Parallel texts extraction from multimodal comparable corpora.
In JapTAL, volume 7614 of Lecture Notes in Computer
Science, pages 40–51. Springer.
Afli, H., Barrault, L., and Schwenk, H. (2013).
Multimodal comparable corpora as resources for extracting
parallel data : Parallel phrases extraction.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
90. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
International Joint Conference on Natural Language
Processing.
Afli, H., Barrault, L., and Schwenk, H. (2014).
Multimodal comparable corpora for machine translation.
LREC 2014, 7th Workshop on Building and Using Comparable
Corpora, Building Resources for Machine Translation Research.
Bisazza, A., Ruiz, N., and Federico, M. (2011).
Fill-up versus interpolation methods for phrase-based smt
adaptation.
International Workshop on Spoken Language Translation 2011.
Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D.,
Jelinek, F., Lafferty, J. D., Mercer, R. L., and Roossin, P. S.
(1990).
A statistical approach to machine translation.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
91. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Comput. Linguist., 16 :79–85.
Brown, P. F., Lai, J. C., and Mercer, R. L. (1991).
Aligning sentences in parallel corpora.
In Proceedings of the 29th annual meeting on Association for
Computational Linguistics, ACL ’91, pages 169–176.
Dunning, T. (1993).
Accurate methods for the statistics of surprise and
coincidence.
Comput. Linguist., 19(1) :61–74.
Hewavitharana, S. and Vogel, S. (2011).
Extracting parallel phrases from comparable data.
In Proceedings of the 4th Workshop on Building and Using
Comparable Corpora : Comparable Corpora and the Web,
BUCC ’11, pages 61–68.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
92. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Munteanu, D. S. and Marcu, D. (2005).
Improving Machine Translation Performance by Exploiting
Non-Parallel Corpora.
Computational Linguistics, 31(4) :477–504.
Munteanu, D. S. and Marcu, D. (2006).
Extracting parallel sub-sentential fragments from non-parallel
corpora.
In Proceedings of the 21st International Conference on
Computational Linguistics and the 44th annual meeting of the
Association for Computational Linguistics, ACL-44, pages
81–88.
Quirk, Q., Udupa, R., and Menezes, A. (2007).
Generative models of noisy translations with applications to
parallel fragment extraction.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
93. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
In In Proceedings of MT Summit XI, European Association for
Machine Translation.
Resnik, P. and Smith, N. A. (2003).
The web as a parallel corpus.
Comput. Linguist., 29 :349–380.
Riesa, J. and Marcu, D. (2012).
Automatic parallel fragment extraction from noisy data.
In Proceedings of the 2012 Conference of the North American
Chapter of the Association for Computational Linguistics :
Human Language Technologies, NAACL HLT ’12, pages
538–542.
Rousseau, A., Bougares, F., Del´eglise, P., Schwenk, H., and
Est`eve, Y. (2011).
LIUM’s systems for the IWSLT 2011 speech translation tasks.
International Workshop on Spoken Language Translation 2011.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
94. Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Schwenk, H. (2009).
Translation model adaptation for an arabic/french news
translation system by lightly-supervised training.
MT Summit.
51/ 51 Haithem Afli La TAS dans un contexte multimodal