SlideShare uma empresa Scribd logo
1 de 139
Baixar para ler offline
Le traitement automatique des langues 
face aux données textuelles 
volumineuses et potentiellement 
dégradées : qu’est-ce que cela change ? 
Pascale SÉBILLOT PRU en informatique à l’INSA de Rennes 
Membre de l’équipe LinkMedia de l’IRISA et 
d’INRIA
2 
04/10/2014 
LinkMedia 
Creating and exploiting explicit links between multimedia fragments 
Périmètre de LinkMedia 
Objectifs 
• fondements scientifiques de la 
structuration de collections de documents 
multimédias par des liens explicites 
• nouveaux usages et techniques de 
traitement de contenus induits par ces 
liens
3 
04/10/2014 
Mon parcours de recherche 
• Domaine : traitement automatique des langues (TAL) 
• Thèse en syntaxe passage à la sémantique 
• Acquisition de connaissances à partir de corpus de textes 
grâce à des techniques d’apprentissage artificiel 
• Application du TAL à la recherche d’information 
• Application du TAL à la reconnaissance automatique de la 
parole 
• Application du TAL à la structuration de (collections de) 
documents multimédias
4 
04/10/2014 
Impact du Big Data sur le traitement 
automatique des langues ? 
• Révolution ?
5 
04/10/2014 
Impact du Big Data sur le traitement 
automatique des langues ? 
• Révolution : NON 
– Révolution du TAL faite fin des années 80 – début des années 90 
• Du TAL rationaliste… 
– Approches symboliques à base de règles 
– Expertise humaine forte 
– Focus sur l’explication des jugements de grammaticalité, la 
construction de représentations du sens élaborées… 
• … au TAL empirique 
– Approches fondées sur les données 
– Volumes de textes et puissance des machines croissants 
– Apprentissage artificiel, linguistique de corpus 
– Observation à grande échelle, représentations du « sens utile »
6 
04/10/2014 
Impact du Big Data sur le traitement 
automatique des langues ? 
• Révolution : OUI 
– Nouveaux types de données textuelles à prendre en 
compte 
– Volumes toujours plus conséquents 
– Empirisme toujours plus présent 
• Moins / pas (ou très peu) d’expertise 
• Plus de comptage
7 
04/10/2014 
Impact du Big Data sur le TAL 
Organisation de la présentation 
1. Spécificités des données textuelles dans le 
monde du Big Data 
2. Représentations et exploitation des données 
textuelles 
3. Applications pour faire face aux masses de 
données 
4. Applications tirant profit de la profusion de 
données
8 
1- Spécificités des données textuelles 
04/10/2014 
dans le monde du Big Data 
• Les 3 V (volume, variété, vélocité) appliqués aux 
données textuelles 
• Propriétés intrinsèques compliquant l’accès au 
sens
9 
04/10/2014 
Variété 
• Données produites (directement) sous une forme 
textuelle 
– Textes écrits, emails, sites Web 
– Blogs, réseaux sociaux 
– Sms
10 
04/10/2014 
Variété 
• Données produites (directement) sous une forme 
textuelle 
– Textes écrits, emails, sites Web 
– Blogs, réseaux sociaux 
– Sms 
• Tu te x mal1 
• JV encor dvoir 10QT 
aussi 
dans 
la 
qualité 
Exemples issus de [Fairon et al. 2006]
11 
04/10/2014 
Variété 
• Données langagières issues d’un média différent 
– Système de reconnaissance… générateur d’erreurs 
– Images de textes 
• Dactylographiés, manuscrits 
• OCR : logiciel de reconnaissance optique de caractères 
– Segmentation en caractères individuels 
– Classifieur fondé sur un apprentissage neuronal pour la 
reconnaissance 
– Parole contenue dans les documents audio/vidéos 
• Système de reconnaissance automatique de la parole (RAP)
Système de reconnaissance automatique de 
12 
04/10/2014 
la parole 
Système de RAP 
Signal de parole 
Hypothèse de 
transcription 
w*1 ... w*P 
c1 ... cP 
Mesures de 
confiance
Système de reconnaissance automatique de 
13 
04/10/2014 
Lexique phonétisé 
Modèle de langue 
Modèle acoustique 
Caractéristiques 
numériques du 
signal sonore 
contenant de 
la parole (énergie, 
fréquence vocale…) 
y1 ... yT 
Meilleure 
hypothèse de 
transcription 
w*1 ... w*P 
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } 
w1...wP' ϵ VP' 
c1 ... cP 
Mesures de 
confiance 
la parole
Système de reconnaissance automatique de 
14 
04/10/2014 
Lexique phonétisé 
Modèle de langue 
Modèle acoustique 
Caractéristiques 
numériques du 
signal sonore 
contenant de 
la parole (énergie, 
fréquence vocale…) 
y1 ... yT 
Meilleure 
hypothèse de 
transcription 
w*1 ... w*P 
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } 
w1...wP' ϵ VP' 
c1 ... cP 
Mesures de 
confiance 
la parole 
Vocabulaire : 
mots - prononciations
Système de reconnaissance automatique de 
15 
04/10/2014 
Lexique phonétisé 
Modèle de langue 
Modèle acoustique 
Caractéristiques 
numériques du 
signal sonore 
contenant de 
la parole (énergie, 
fréquence vocale…) 
y1 ... yT 
Meilleure 
hypothèse de 
transcription 
w*1 ... w*P 
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } 
w1...wP' ϵ VP' 
c1 ... cP 
Mesures de 
confiance 
la parole 
Vraisemblance du 
signal sachant une 
séquence de mots
Système de reconnaissance automatique de 
16 
04/10/2014 
Lexique phonétisé 
Modèle de langue 
Modèle acoustique 
Caractéristiques 
numériques du 
signal sonore 
contenant de 
la parole (énergie, 
fréquence vocale…) 
y1 ... yT 
Meilleure 
hypothèse de 
transcription 
w*1 ... w*P 
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } 
w1...wP' ϵ VP' 
c1 ... cP 
Mesures de 
confiance 
la parole 
Probabilité a priori des 
séquences de mots 
(n-grammes)
17 
quant aux voix catholiques de serge adda alberta _ il est 
tout ce qu' il y a de strictes _ série sous le menton _ l 
encadre son visage sans permettre de voir _ un seul de 
ses cheveux _ 
Quant au voile catholique de soeur ____ Adalberta , il est 
tout ce qu' il y a de strict , serré sous le menton , il 
encadre son visage sans permettre de voir , un seul de 
ses cheveux . 
04/10/2014 
Spécificités des transcriptions 
• Particularités de l’oral 
– Disfluences 
– Constructions grammaticales particulières 
• Format de transcription 
– Pas de ponctuation, de majuscules 
– Segmentation en groupes de souffle, pas en phrases 
• Erreurs de transcription 
• Mots non fiables et mesures de confiance imparfaites 
Taux d'erreur 
sur les mots 
ou WER 
(word error 
rate)
18 
04/10/2014 
Volume et Vélocité 
Nombres par minute (http://davidfayon.fr/2011/06/croissance-du-web-une-minute/) 
Go-globe.com, juin 2011
19 
Propriétés intrinsèques compliquant 
04/10/2014 
l’accès au sens 
• Données non structurées 
– Pas de sémantique portée par une structure a priori 
• Données porteuses de sens, compréhensibles par 
un humain et fortement présentes 
– Nécessité de savoir en extraire l’information 
pertinente 
• Données difficiles à comprendre par une machine 
– Ambiguïté 
– Implicite 
– Formulations différentes d’une même idée
20 
04/10/2014 
Ambiguïté 
• Lexicale 
– Statique : président : verbe / nom ? 
– Dynamique : rat : nom / adjectif 
• Syntaxique 
– Structure hiérarchique : la petite brise la glace 
– Ambiguïté de rattachement : j’ai été voir un film avec Brad Pitt 
• Sémantique 
– Homonymie : avocat : fruit / auxiliaire de justice 
– Polysémie : agneau : animal / viande 
– Portée des quantificateurs : toutes mes soeurs ont épousé un 
médecin vs toutes les personnes présentes ont entendu un cri 
• Pragmatique 
– Paul : tu viens à la fête chez Luc mardi soir ? 
– Virginie : j’ai entendu que Benoît sera là
21 
04/10/2014 
Implicite 
• Connaissances partagées par les locuteurs 
– Encyclopédiques 
– De sens commun 
– De scenarii… 
• Interprétations « évidentes » [exemples empruntés à F. Yvon] 
– Elle s’est assise, a commandé un café à la serveuse (…). Puis 
elle est partie sans payer Qui ? 
– Le professeur a envoyé l’élève au censeur 
• parce qu’il lançait des boulettes 
• parce qu’il voulait avoir la paix 
• parce qu’il voulait le voir 
• Emplois métaphoriques, métonymiques 
– Premier violon
22 
Formulations différentes d’une même idée 
• Problème pour compter des occurrences d’un concept 
• Variation 
04/10/2014 
– Graphique, morphologique : mot clé, mot-clé, mots-clés 
– Syntaxique, morphosyntaxique : acidité du sang, acidité élevée du 
sang, acidité sanguine 
– Paradigmatique : vélo, bicyclette, cyclisme, moyen de transport 
– Paraphrase…
23 
• Volumes, variété, propriétés intrinsèques des données 
textuelles 
04/10/2014 
Spécificités des données textuelles 
– Impossibilité de faire des analyses linguistiques fines 
• Rapidement 
• Sur des textes dégradés 
et apprentissage 
• Variété : domaine ouvert 
– Ambiguïtés multipliées 
– Sources de connaissance non utilisables 
• Changement de paradigme du TAL 
Rationalisme Empirisme 
« TAL fondé linguistique » « TAL fondé statistique » 
Comprendre finement Avoir des représentations de 
sens utiles
24 
2- Représentations et exploitation des 
04/10/2014 
données textuelles 
• Représentation du sens « rationaliste » 
– Vision syntaxico-logique 
• Logique comme langage de représentation de connaissance et 
de raisonnement 
• Interprétation compositionnelle du langage dirigée par la 
syntaxe sous forme de formules logiques 
– Vision Intelligence artificielle 
• Modèle du monde (ou domaine) générique 
• Interprétation d’un énoncé ou discours : instanciation du modèle 
• Ex. : scripts (Schank)…
25 
2- Représentations et exploitation des 
04/10/2014 
données textuelles 
• Représentation du sens « empirique » 
– Sens « utile » et non « vrai » sens 
• On ne cherche pas à comprendre le langage 
• Sens d’un mot 
– Dépendant de / exprimable par son co-texte 
– Co-textes comparables pour détecter les mots du même 
paradigme 
• Sens d’un document 
– Des mots extraits du texte qui, ensemble, représentent « son » 
sens 
• Changement de thème 
– Changement global de vocabulaire
26 
04/10/2014 
Changement de paradigme 
• Expertise Données 
– Extraction de la connaissance des données par 
apprentissage artificiel (observation de régularités et 
redondances) 
• Sens Éléments de représentation extraits des mots, 
des phrases, des documents utiles pour l’application 
visée 
– Exemples : noms et verbes les plus fréquents, noms de 
personnes, de lieux et d’entreprises mentionnés… 
• À tous les niveaux : document, paragraphe, phrase…
27 
04/10/2014 
Éléments de représentation 
• N-grammes de caractères, de mots 
• Mots : tous ou filtrés 
– Type précis : noms, verbes, termes complexes, 
entités nommées (EN : noms de personnes, lieux…)… 
– Saillance 
• Comptage 
– Fréquence 
– Fréquence dans l’unité considérée mais pas dans la collection 
– Autres 
• Position 
– Mot / phrase du début 
– Éléments situés entre deux items, avant, après…
28 
04/10/2014 
Représentation 
Taille de la collection 
Nb documents contenant le mot
29 
04/10/2014 
Représentation 
• Exploitation 
– Par comparaison des représentations via des 
mesures de similarité 
• Fondées intersection des représentations 
• Cosinus 
– Par des méthodes d’apprentissage artificiel
30 
Des outils pour manipuler et représenter 
• Segmenteurs 
04/10/2014 
– Pas toujours simple : l’opéra / aujourd’hui ou O’hara, Jean-Paul / 
qu’a-t-il dit ? 
• Étiqueteurs morphosyntaxiques (PoS taggers) 
– LeDetMasSing présidentNomCommunMasSing… 
• Lemmatiseurs / analyseurs morphologiques / raciniseurs 
(stemmers) 
– parlons, parlera, parlèrent  parler 
• Extracteurs de termes simples ou complexes, d’entités 
nommées, de relations sémantiques 
• Analyseur en dépendances, en chunks… 
• Autres outils liés à l’application visée (d’extraction de n-grammes 
au lieu de mots…)
31 
04/10/2014 
Apprentissage artificiel 
• Branche de l’IA qui étudie l’écriture de programmes qui 
s’améliorent en se confrontant aux données 
• Apprentissage supervisé 
– Données étiquetées disponibles 
• Apprentissage non supervisé 
– Pas de données étiquetées 
– Exemple de technique : clustering 
• Apprentissage de quoi ? 
– De représentations (ex. : probabilités de n-grammes de mots) 
– D’outils 
– De clusters 
– De connaissances par observation de régularités dans les 
masses de données…
32 
Le chercheur en TAL à l’heure du Big Data 
• Transformation en scientifique des données (data 
scientist) 
04/10/2014 
– Quelles représentations (à grain souvent grossier) ? 
– Quelles techniques d’apprentissage artificiel ? 
– Quelles mesures de similarité ? 
– Quelles méthodes de visualisation ?
33 
3- Applications pour faire face aux masses 
04/10/2014 
de données
34 
3- Applications pour faire face aux masses 
04/10/2014 
de données 
• De très nombreuses applications pour aider 
l’humain face au déluge de données 
• Applications s’appuyant sur les représentations 
vues et des méthodes d’apprentissage artificiel 
• Zoom sur trois d’entre elles 
– Résumé automatique (d’un ou plusieurs textes) 
– Structuration et navigation 
– Fouille d’opinions
35 
04/10/2014 
3.1- Résumé automatique 
• Intérêt : savoir si texte à lire in extenso 
• Domaine ancien du TAL 
– Début dans les années 50 
– Fort essor au milieu des années 90 
• Notion de « bon » résumé ? 
– Réalités diverses 
• Idées-clés 
• Couverture maximale 
• « Bande-annonce » 
– Contrainte de taille
36 
04/10/2014 
Typologie(s) 
• Un ou des document(s) 
• Point de départ : document(s) ou requête 
• Résumé par abstraction ou par extraction 
– Si extraction, des phrases ou des mots-clés 
– Si extraction de phrases, curation a posteriori 
• Remplacement des mots répétés, des pronoms 
• Fusion de phrases, parties inutiles ôtées
37 
04/10/2014 
Typologie(s) 
• Un ou des document(s) 
• Point de départ : document(s) ou requête 
• Résumé par abstraction ou par extraction 
– Si extraction, des phrases ou des mots-clés 
– Si extraction de phrases, curation a posteriori 
• Remplacement des mots répétés, des pronoms 
• Fusion de phrases, parties inutiles ôtées 
• Méthodologie globale 
– Ancrage linguistique fort 
– Apprentissage artificiel 
– Représentations fondées recherche d’information (RI)
38 
04/10/2014 
Résumé par extraction 
• Saillance 
– Score pour chaque phrase / passage 
– Indicateurs combinés 
• Score des mots : tf, tf*idf (somme) 
• Présence de mots-clés, d’entités nommées, de marqueurs du 
discours… 
• Longueur 
• Position par rapport au texte, à son paragraphe… 
– Pondération entre les indicateurs pouvant être fixée ou 
apprise
39 
04/10/2014 
Résumé par extraction 
• Redondance 
– Saillance seule insuffisante 
– Non redondance par rapport aux phrases déjà dans le 
résumé 
– MMR (maximal marginal relevance [Goldstein et Carbonell 98]) 
• Score combinaison linéaire de saillance et non redondance 
• MMR » Argmax(PiÎR−S) [l(Sim1(Pi,Q)) − (1− l)max(DjÎS) Sim2(Pi,Dj)] 
– Q : document à résumer / requête utilisateur ; P : phrases 
– R : liste ordonnée des phrases ; S : sous-ensemble des phrases de R déjà 
dans le résumé 
– Sim : mesure de similarité (cosinus) 
– Cas multi-documents : clustering des phrases 
similaires et extraction d’une phrase par cluster
40 
04/10/2014 
Extraction fondée centroïde 
• Score d’une phrase : fonction de sa centralité par 
rapport au thème des(du) documents à résumer 
• Document centroïde 
– Pseudo-document qui contient les mots ayant un score 
(tf*idf) supérieur à un seuil 
– Cas multi-documents : un centroïde par cluster 
• Score d’une phrase fonction de 
– Sa similarité avec le centroïde (de son cluster dans le 
cas multi-documents) 
– Sa non redondance par rapport aux phrases retenues 
• Logiciel Mead : http://www.summarization.com/mead/
41 
04/10/2014 
Extraction fondée graphe 
• Score d’une phrase : fonction globalement du score des 
phrases avec lesquelles elle partage le plus de mots 
• Proche de PageRank (Google) 
– Une phrase recommande d’autres phrases 
• Algorithme TextRank [Mihalcea 2004] 
– Chaque phrase : un noeud du graphe 
– Arc entre deux noeuds : pondération selon le nombre de mots 
partagés (et longueur des phrases) 
– Poids initial assigné aux noeuds 
– Itération de l’algorithme recalculant le score du noeud en fonction 
du score des noeuds liés et du poids des arcs 
– Conservation des phrases aux scores les plus élevés 
• Intérêt : fonctionne sur l’information issue de tout le graphe
42 
04/10/2014 
Extraction fondée contraintes ou 
optimisation 
• Choix des phrases qui maximisent une fonction 
objectif 
• Donc pas un algorithme glouton, mais vue globale 
du choix des phrases (et de la redondance) 
• Expression de contraintes et de la fonction à 
maximiser 
– Contraintes : taille, phrases plutôt longues… 
• Utilisation d’un solveur de contraintes
43 
04/10/2014 
Extraction fondée contraintes ou 
optimisation 
• Un exemple : [Gillick et Favre 2009] 
• Fonction à optimiser 
– Somme des poids des concepts présents dans le résumé 
– Concept : bigramme informatif 
– Poids d’un concept : nombre de documents où il apparaît 
• Contraintes 
– Somme des longueurs des phrases conservées inférieure à la 
longueur maximum 
– Non sélection de phrases sans concept 
– Sélection d’une phrase : sélectionner tous ses concepts 
– Sélection d’un concept possible si présent dans au moins une 
phrase gardée
44 
04/10/2014 
Évaluation 
• Problème épineux, accord faible entre humains 
• De nombreuses campagnes d’évaluation 
– Conférences DUC puis TAC 
• Des mesures proposées 
– Résumés de référence produits par des humains 
– Mesures fondées sur la présence d’« unités », pas de 
phrases 
• ROUGE [Lin 2004] 
– Proportion de n-grammes partagés entre le résumé 
produit et les références 
– Plusieurs variantes
45 
04/10/2014 
Résumé de l’oral transcrit 
• Moins de travaux 
– Résumés de réunions, d’émissions TV 
• Application de méthodes de TAL 
• Adaptations pour l’oral 
– Reponctuation 
– Utilisation des mesures de confiance 
– Utilisation de l’information acoustique 
• Cas des résumés de vidéos 
– Travail a posteriori nécessaire pour avoir des résumés 
acceptables (i.e., écoutables et regardables)
46 
04/10/2014 
Résumé automatique 
• Bilan 
– Méthodologies fonctionnelles 
– Qualité / cohésion textuelle encore moyenne 
– Aspect temporel peu pris en compte 
– Résumé de données textuelles autres qu’écrites 
encore limité 
– Évaluation encore à améliorer
47 
04/10/2014 
3.2- Structuration et navigation 
• Données textuelles 
– Très nombreuses 
– Non organisées (« vrac ») 
– Souvent vues individuellement, peu au sein d’un 
ensemble 
• Organisation pour perception ou navigation éclairée 
• Regroupement / établissement de liens selon une 
notion de proximité, surtout sémantique 
• Différentes solutions, sur des textes écrits et de 
l’oral transcrit
48 
Organisation a posteriori d’une requête 
• Recherche d’information (RI) 
une colonne par 
segment du texte 
04/10/2014 
– Mise en évidence des termes de la question dans les documents 
retournés [Hearst 1995] 
une ligne par mots 
de la question
49 
Organisation a posteriori d’une requête 
• Recherche d’information (RI) 
04/10/2014 
– Mise en évidence des termes de la question dans les documents 
retournés [Hearst 1995] 
– Clustering des résultats (par thèmes, entités nommées…)
50 
Organisation a posteriori d’une requête 
04/10/2014
51 
Organisation a posteriori d’une requête 
• Également une version par apprentissage à partir 
de chronologies manuelles (boosting) 
04/10/2014 
– Apprentissage des caractéristiques d’une date 
saillante 
– Traits liés au fait que plus une date est mentionnée 
plus elle est importante 
– Traits liés au fait qu’un événement important est 
mentionné longtemps 
• Dans les différents cas, constitution de la 
chronologie à partir des phrases contenant les 
dates saillantes
52 
INDEX Requête : révolution tunisienne 
04/10/2014 
Le président égyptien Hosni 
Mubarak, qui a démissionné 
vendredi, et le président Zine 
El Abidine Ben Ali, qui a quitté 
le pouvoir le 14 janvier, ont fait 
face à des protestations 
populaires sans précédent. 
Zine el-Abidine Ben Ali a 
annoncé jeudi soir qu'il ne se 
représentera pas en 2014 au 
poste qu'il occupe 
Ben Ali a signé sa démission 
vendredi après une vague de 
protestations déclenchée par 
le suicide d’un étudiant de 26 
ans que la police avait 
empêché de vendre des fruits 
et des légumes pour vivre. 
Des manifestants ont 
également blessés vendredi, y 
compris Chawki Belhoussine 
El Hadri 
Ben Ali a signé sa démission 
vendredi après une vague de 
protestations déclenchée par 
le suicide d’un étudiant de 26 
ans que la police avait 
empêché de vendre des fruits 
et des légumes pour vivre. 
La révolte s’est propagée le 24 
décembre dans le centre-du 
pays, notamment à Menzel 
Bouzaiane, où Mohamed 
Ammari est tué par balle dans 
la poitrine par la police. 
Requête 
Plusieurs 
milliers de 
documents 
Transparents empruntés à X. Tannier
53 
04/10/2014 
Regroupés par dates normalisées 
Ordonnés selon l’importance de 
la date 
La révolte s’est propagée le 
24 décembre dans le centre-du 
pays, notamment à 
Menzel Bouzaiane, où 
Mohamed Ammari est tué 
par balle dans la poitrine par 
la police. 
Des manifestants ont 
également blessés vendredi, 
y compris Chawki 
Belhoussine El Hadri 
14 jan. 2011 
Ben Ali a signé sa démission 
vendredi après une vague 
de protestations déclenchée 
par le suicide d’un étudiant 
de 26 ans que la police avait 
empêché de vendre des 
fruits et des légumes pour 
vivre. 
Zine el-Abidine Ben Ali a 
annoncé jeudi soir qu'il ne 
se représentera pas en 2014 
au poste qu'il occupe 
Ces révélations ont lieu 
après la révolte tunisienne 
qui a mit fin à 23 ans de 
règne de Ben Ali, qui s’est 
enfui de Tunisie pour l’Arabie 
Saoudite vendredi. 
Clusters temporels 
plus important 
24 déc. 2010 13 jan. 2011 
INDEX 
Ben Ali a donné jeudi l'ordre 
à la police de ne plus tirer sur 
les manifestants 
Requête 
Plusieurs 
milliers de 
documents 
Requête : révolution tunisienne
54 
04/10/2014 
Requête : révolution tunisienne 
Regroupés par dates normalisées 
Ordonnés selon l’importance de 
la date 
La révolte s’est propagée le 
24 décembre dans le centre-du 
pays, notamment à 
Menzel Bouzaiane, où 
Mohamed Ammari est tué 
par balle dans la poitrine par 
la police. 
Des manifestants ont 
également blessés vendredi, 
y compris Chawki 
Belhoussine El Hadri 
14 jan. 2011 
Ben Ali a signé sa démission 
vendredi après une vague 
de protestations déclenchée 
par le suicide d’un étudiant 
de 26 ans que la police avait 
empêché de vendre des 
fruits et des légumes pour 
vivre. 
Zine el-Abidine Ben Ali a 
annoncé jeudi soir qu'il ne 
se représentera pas en 2014 
au poste qu'il occupe 
Ces révélations ont lieu 
après la révolte tunisienne 
qui a mit fin à 23 ans de 
règne de Ben Ali, qui s’est 
enfui de Tunisie pour l’Arabie 
Saoudite vendredi. 
Clusters temporels 
plus important 
24 déc. 2010 13 jan. 2011 
INDEX 
Ben Ali a donné jeudi l'ordre 
à la police de ne plus tirer sur 
les manifestants 
Requête 
Plusieurs 
milliers de 
documents 
Choix des descriptions 
d’événements 
Maximiser la pertinence 
Minimiser la redondance
55 
• Chronologie événementielle 
04/10/2014 
Requête : révolution tunisienne 
17 déc. 2010 : Mohamed Bouazizi s’immole 
par le feu pour protester contre le harcèlement 
de la police et le chômage. 
25 déc. 2010 : Les protestations démarrent à 
Sidi Bouzid et s’étendent à Bouzaiene, 
Kairouan, Sfax, Ben Guerdane, Sousse. 
27 déc. 2010 : Les protestations s’étendent à 
Tunis, la capitale du pays. 
14 jan. 2011 : Le président Ben Ali s’enfuit en 
Arabie Saoudite. 
obtenue
Autre réponse de la recherche d’information 
56 
• Les systèmes questions-réponses [Hirschman et Gaizauskas 
2001] 
04/10/2014 
– Réponse précise à une question au lieu de documents 
contenant les termes de la question
57 
Liens entre documents fondés contenu 
• Création de liens initiée par la communauté 
hypertexte [Allan 1997] 
04/10/2014 
– Souvent sur des documents à structure assez 
marquée (emails, articles de Wikipédia) 
– Souvent sur de petites collections (a posteriori d’une 
requête par exemple)
58 
04/10/2014 
Systèmes de recommandation 
• Souvent mélange de filtrages fondé 
contenu et collaboratif 
• Filtrage collaboratif 
– Calcul de corrélation entre les avis 
des autres utilisateurs et celui visé 
̶ Prédiction pour un item : par exemple calculable par la moyenne 
pondérée (par le coefficient de corrélation) des évaluations pour 
cet item des utilisateurs similaires 
• Filtrage fondé contenu 
̶ Élaboration d’un profil de l’utilisateur grâce aux mots-clés 
émergeant des items qu’il apprécie 
̶ Comparaison au contenu d’un item non évalué pour le 
recommander ou pas à l’utilisateur
59 
Graphes temporels d’événements [Tannier 2014] 
• Dépêches AFP contenant des événements 
• Organisation temporelle fondée sur trois relations 
04/10/2014 
– Même événement 
– Continuation (conséquence, suite naturelle) 
• Réaction (opinion sur un événement) 
• Annotation manuelle des dépêches entre dates d et 
d+7 si 2 mots-clés communs dans 1er paragraphe 
• Apprentissage (svm) 
– Relation vs pas de relation 
– Même événement vs continuation 
– Continuation vs réaction
60 
Graphes temporels d’événements [Tannier 2014] 
04/10/2014 
2 avril, 21:05 
Georges Bush déclare que 
le Pape était un « champion 
de la liberté humaine » 
2 avril, 01:51 
Un cardinal dit que la mort 
du Pape est imminente 
2 avril, 15:39 
Le Pape dans une situation 
sérieuse mais « résiste » 2 avril, 20:58 
La Reine Elisabeth II exprime 
son « profond regret » 
2 avril, 21:40 
Jean-Paul II sera enterré 
mercredi au Vatican 
continuation 
continuation 
2 avril, 19:53 
Le Pape 2e satv mrilo, r1t9:57 
réaction 
Le Pape e2s ta mvroilr,t 2a0u: 0V1atican 
réaction 
continuation 
Le Pape est mort au Vatican 
Transparent empruntés à 
X. Tannier
61 
Structuration et navigation dans une 
04/10/2014 
collection de journaux TV 
• Segmentation automatique de journaux TV en 
reportages successifs [Gravier et al. 2011] 
• Navigation 
– Vers d’autres reportages abordant le même sujet 
– Vers des pages Web offrant de l’information 
complémentaire 
• Application de techniques de TAL et de RI, mêlant 
grain « grossier » et grain plus fin, sur la parole 
transcrite
62 
04/10/2014 
Segmentation thématique 
• La plupart des techniques fondée sur la cohésion 
lexicale 
– Changement de thème = changement de vocabulaire 
• Méthodes locales 
– Recherche de ruptures par comparaison de zones 
adjacentes et détection de minima de similarité [Hearst 
1997] 
• Méthodes globales 
– Production « directe » des segments les plus 
cohérents [Utiyama et Isahara 2001] 
• Possibilité d’adaptation aux transcriptions de la 
parole ?
63 
04/10/2014 
Adaptation aux transcriptions 
• Particularités problématiques 
– Erreurs de transcription 
– Manque de répétitions 
• Modification du calcul de la cohésion lexicale 
– Prise en compte des mesures de confiance, en particulier lors du 
comptage des occurrences de mots 
– Prise en compte des relations sémantiques entre les mots 
cigarette cigare 0.476838 
cigarette gitane 0.378044 
cigarette gauloise 0.37508 
cigarette clope 0.366334 
cigarette tabac 0.304606 
mots partageant des contextes 
similaires
64 
04/10/2014 
Résultats de la segmentation 
• Corpus 
– 57 JT de France 2 – février et mars 2007 
• Système de reconnaissance de la parole 
– WER : 20% sur données Ester 2 (actualités radio) 
• Évaluation 
– Changement de thème à chaque reportage (1180 
frontières) 
– Frontière correcte :  10s par rapport à une frontière de 
référence 
– Rappel, précision
65 
04/10/2014 
Résultats de la segmentation 
• Mesures de confiance et relations sémantiques
• Mais aussi, forme de résumé informatif du contenu 
• Modifications du tf*idf car oral transcrit 
66 
Caractérisation des segments obtenus 
• Caractérisation par mots-clés extraits 
• Deux rôles 
– Permettre de comparer des reportages entre eux 
– Permettre d’interroger le Web pour trouver des pages 
liées 
– Lemmatisation 
– Pénalité introduite pour les noms propres 
– Prise en compte des mesures de confiance 
04/10/2014
67 
Extraction de mots-clés 
• Tf*idf classique sur les lemmes 
04/10/2014 
1.000 voile 
0.756 adda 
0.521 bernadette 
0.501 laïcité 
0.483 musulmans, musulmane 
0.449 photo, photos 
0.429 sarkozy 
0.387 chirac 
0.372 préfecture 
0.364 serge 
du tchador et de la corne est au nom 
du principe de la laïcité de l' état on l' a 
quelques jours nicolas sarkozy 
rappeler fermement aux musulmans 
qui n' était pas question de porter le 
voile en photo des entités un rappel à 
l' ordre qui visiblement a échappé à 
bernadette chirac encore le journal le 
canard enchaîné l' épouse du 
président de la république se 
démènent pour qu' une religieuse 
puisqu' elle garder son voile est une 
étrange mal le voile de serge adda 
alberta ... 
S(l) = tf(l) x idf(l)
68 
04/10/2014 
Extraction de mots-clés 
• + Pénalités sur les noms propres 
- 1.000 voile 
- 0.567 adda 
↑ 0.501 laïcité 
↑ 0.483 musulmans, musulmane 
↑ 0.449 photo, photos 
↓ 0.391 bernadette 
↑ 0.372 préfecture 
↑ 0.330 mimosa 
↑ 0.329 tchador 
↑ 0.326 carmélites 
↓ 0.322 sarkozy 
↓ 0.290 chirac 
↓ 0.273 serge 
du tchador et de la corne est au nom 
du principe de la laïcité de l' état on l' 
a quelques jours nicolas sarkozy 
rappeler fermement aux musulmans 
qui n' était pas question de porter le 
voile en photo des entités un rappel 
à l' ordre qui visiblement a échappé à 
bernadette chirac encore le journal le 
canard enchaîné l' épouse du 
président la publique se démènent 
pour qu' une religieuse puisqu' elle 
garder son voile est une étrange mal 
le voile de serge adda alberta ... 
S’(l)= tf’(l) x idf(l)
69 
Extraction de mots-clés 
• + Prise en compte des mesures de confiance 
04/10/2014 
- 0.992 voile 
↑ 0.500 laïcité 
↑ 0.458 musulmans, musulmane 
↓ 0.454 adda 
↑ 0.428 photo, photos 
↓ 0.390 bernadette 
↑ 0.371 préfecture 
↑ 0.328 tchador 
↑ 0.325 carmélites 
↓ 0.321 sarkozy 
↓ 0.294 serge 
↓ 0.270 chirac 
du tchador et de la corne est au nom 
du principe de la laïcité de l' état on l' a 
quelques jours nicolas sarkozy 
rappeler fermement aux musulmans 
qui n' était pas question de porter le 
voile en photo des entités un rappel à 
l' ordre qui visiblement a échappé à 
bernadette chirac encore le journal le 
canard enchaîné l' épouse du président 
de la république se démènent pour qu' 
une religieuse puisqu' elle garder son 
voile est une étrange mal le voile de 
serge adda alberta ...
Récupération de pages Web liées à l’aide de 
erreurs de transcription 
70 
04/10/2014 
requêtes 
• Conservation des premiers mots-clés 
• Requêtes formées par mélange de 2 ou 3 mots-clés 
voile laïcité 
voile musulmans 
voile adda 
... Limite l’influence des 
voile laïcité photo 
laïcité adda photo 
musulmans adda photo
71 
04/10/2014 
Texmix 
• Application : système de navigation au sein d’une collection 
de journaux TV 
• Utilisation de techniques issues de différents travaux de 
recherche dans l’équipe TexMex 
• Démonstration : Texmix
72 
04/10/2014 
Texmix
73 
04/10/2014 
Texmix
74 
04/10/2014 
3.3- Fouille d’opinions 
• Analyse de données exprimant des opinions : réseaux 
sociaux, blogs, fora, commentaires sur des sites de 
commerce électronique … 
• Enjeux 
– Individuels : achat d’un matériel, réservation de séjour… 
– Économiques : perception d’un produit (propre ou concurrent) par 
des utilisateurs, avis synthétique sur un sujet… 
– Politiques : perception d’une réforme, de sujets de 
mécontentement…
75 
04/10/2014 
Un travail compliqué 
• Samedi dernier, j’ai acheté un mobile Nokia et ma copine a acheté un 
Samsung avec Bluetooth. On s’est appelés quand on est rentrés. La 
voix sur mon téléphone n’était pas si claire, pire en tous cas que sur 
mon Motorola précédent. La batterie ne dure pas longtemps non plus. 
Ma copine était plutôt satisfaite de son téléphone. Moi, je voulais un 
téléphone avec un bon son. Donc j’étais déçu de mon achat. J’ai ramené 
le téléphone hier. (exemple de [Liu 2012] traduit) 
• Nombreux aspects du TAL impliqués 
– Dont certains aspects de compréhension assez fins 
• Coréférence, analyse syntaxique, analyse sémantique voire pragmatique (claire 
0 ou 0 ?)… 
• Données à analyser très diverses 
– En qualité 
– En contenu : avis global sur une entité, avis sur différents aspects 
d’une entité, avis sur plusieurs entités, zones factuelles et zones 
subjectives, avis se répondant…
76 
04/10/2014 
4 tâches essentielles 
• Extraction d’opinions 
– Identifications des textes porteurs d’opinions 
– Localisation des passages/phrases… porteurs d’opinions 
• Classification d’opinions 
– Attribution d’une polarité à l’opinion émise : positive, négative et 
parfois neutre 
– Proximité avec la classification de textes mais mots polarisés 
importants 
• Constitution de ressources d’opinion 
– Lexiques de mots ou d’expressions polarisés 
• Résumé d’opinions
Approches supervisées de classification de 
77 
04/10/2014 
documents et phrases 
• De très nombreux travaux aux deux niveaux 
• Bons résultats avec des classifieurs de type SVM et NB 
(Bayésien naïf) 
• De très nombreux traits utilisés 
– Mots, éventuellement pondérés 
– Étiquettes catégorielles (adjectifs importants, ponctuation…) 
– Mots porteurs d’opinion 
– N-grammes de mots, d’étiquettes (ex. : N+Adjpos) 
– Présence de mots « changeurs » de polarité (négation, mais…)…
78 
04/10/2014 
Approches non supervisées de 
classification de documents et phrases 
• Également de nombreux travaux aux deux niveaux 
• Utilisation de ressources d’opinion 
– Lexiques 
– Règles plus ou moins ad hoc 
• Un exemple au niveau document [Turney 2002] 
– Étiquetage catégoriel de commentaires sur des voitures, films… 
– Extraction de bigrammes répondant à des patterns (d’expression 
d’opinion) 
• Adj-Nom commun, Adv-Adj si 3e mot pas nom commun… 
– Moteur de recherche (AltaVista) pour calculer des scores d’affinité 
de ces bigrammes avec « excellent » et avec « poor » 
– Moyenne, pour tous les patterns contenus, des différences 
d’affinité avec excellent et poor : 0 et 0
79 
04/10/2014 
Constitution de ressources 
• Lexiques de mots / d’expressions : petit, coûte un bras 
• Développement manuel : coûteux 
• Des mots amorces (ou un lexique amorce) +… 
– Approche fondée dictionnaire 
• Extension par exemple grâce aux synonymes / antonymes du 
dictionnaire 
• Exemple : SentiWordNet [Esuli et Sebastiani 2006] 
– Extension par WordNet + classifieur appris grâce aux vecteurs de mots 
formés à partir des gloses du lexique 
• Développement rapide, mais polarité des mots dépendant du 
contexte et du domaine… 
– Petit : le téléphone est petit (+) / l’écran LCD est petit (-) 
– Long : la durée de vie de la batterie est longue (+) / le temps de mise au 
point est long (-)
80 
04/10/2014 
Constitution de ressources 
• Des mots amorces (ou un lexique amorce) +… 
– Approche fondée corpus 
• Par exemple par extension via des constructions syntaxiques au 
sein d’une phrase du corpus, voire au-delà : présence de ET, OU, 
MAIS, négation… 
– Cette voiture est puissante (+) et spacieuse : spacieuse annoté 
comme positif 
– Cette voiture est puissante (+). Toutefois elle est chère dans sa 
gamme : chère annoté comme négatif
81 
04/10/2014 
Du gros grain au grain fin 
• Avec l'EOS 100D, Canon a miniaturisé son 650D en conservant ses 
principales qualités (simplicité d'utilisation, capteur et électronique 
efficaces, écran excellent). La réactivité et la transportabilité ont aussi été 
améliorées mais le zoom du kit vient gâcher tous les efforts : 
disproportionné en volume, bourré d'aberrations optiques et surtout très 
imprécis, il ne faudra pas hésiter à… (extrait adapté du site lesnumeriques.com) 
• Avis global positif mais certains aspects très négatifs 
• Donc avis aspect par aspect nécessaire 
• Classification de documents de phrases d’aspects 
• Détermination de quel avis porte sur quoi : analyse à grain fin 
• Vision de l’opinion de Liu [Liu 2012] 
– (entité cible, aspect de l’entité, opinion, source, date) 
– Structuration du non-structuré
82 
04/10/2014 
Résumé d’opinions 
• Nombreuses opinions émises sur une entité ou ses 
parties besoin de synthèse 
• Synthèse textuelle 
– Forme particulière de résumé multi-documents 
– Techniques par extraction de phrases utilisables dans 
une certaine mesure si traits d’opinion (présence de 
mots polarisés) pris en compte 
– Mais nécessité de prendre en compte le côté 
quantitatif et/voire les aspects de l’entité évalués 
– Structure : 1ere phrase = opinion sur l’entité, puis une 
phrase par aspect… en intégrant des nombres si 
multiples avis
83 
04/10/2014 
Résumé d’opinions 
• Synthèse textuelle : exemple extrait des transparents associés à [Liu 2012]
84 
04/10/2014 
Résumé d’opinions 
• Synthèse graphique exemple extrait des transparents associés à [Liu 2012] 
– Synthèse souvent préférée ; formes multiples 
– Si temps connu, évolution affichable
85 
04/10/2014 
Résumé d’opinions 
Extrait de 
Booking.com
86 
04/10/2014 
Résumé d’opinions 
• Agrégation d’opinions OpinionEQ 
exemple extrait des transparents associés à [Liu 2012]
87 
04/10/2014 
Encore du travail… 
• De nouvelles recherches 
– Faux commentaires 
• Commentaires positifs sur ses propres produits, négatifs sur les produits 
concurrents 
• Recherche sur les contenus difficile ; plutôt patterns de comportement 
– Que des commentaires positifs sur une marque, négatifs sur une autre 
– Notes très élevées, le même jour… 
– Contextualisation des opinions (fil de tweets) 
• Encore beaucoup de choses non/mal traitées 
– Recherches bridées par toutes les particularités du langage 
naturel 
• Sarcasme, ironie 
• Aspects parfois implicites : le téléphone est cher, ne rentre pas 
facilement dans une poche 
• …
88 
4- Applications tirant profit de la profusion 
04/10/2014 
de données
89 
4- Applications tirant profit de la profusion 
04/10/2014 
de données 
• Profusion et redondance 
– Masses de données comme une solution et non 
comme un problème 
– Constitution d’informations plus complètes, plus 
certaines 
• Applications s’appuyant sur les représentations 
vues et des méthodes d’apprentissage artificiel 
• Zoom sur trois d’entre elles 
– Traduction automatique 
– Journalisme de données 
– Fact-checking (vérification par les faits)
90 
04/10/2014 
4.1- Traduction automatique
91 
04/10/2014 
Une histoire ancienne 
• 1954 : 1re démonstration publique d’un traducteur Russe / 
Anglais IBM - université de Georgetown 
– 250 mots, 6 règles de grammaire, 49 phrases 
• Grand enthousiasme dans les années 50 et 60, mais… 
– 1960 : Bar-Hillel (auteur de la 1re conférence sur la T.A. en 52) 
• L’obtention de traductions automatiques d’aussi haut niveau que les 
humaines est irréaliste 
– 1966 : rapport ALPAC (automatic language processing advisory 
committee) 
• La traduction automatique est plus lente, moins pertinente et 2 fois plus 
chère que l’humaine 
• Recommandation de développement de l’aide à la traduction humaine
92 
04/10/2014 
Jusqu’à la fin des années 80 
• Trois approches fondées sur des règles (lexicales, d’analyse 
morphologique, syntaxique…) 
– Directe : traduction d’une langue source en une cible à l’aide d’un 
dictionnaire et de règles 
– Interlangue : utilisation d’une représentation intermédiaire 
abstraite 
– Par transfert : analyse de la source, production d’une 
représentation, transfert vers une représentation-cible et 
génération en langue cible 
• Exemples de règles 
– to grow : grandir mais faire pousser si complément plante… 
– Adjectif + Nom Nom + Adjectif
93 
04/10/2014 
Début des années 90 
• Développement d’Internet 
• Besoins nouveaux 
– Traduction pour tous 
– Production rapide de traductions compréhensibles 
– Différentes langues, différents domaines 
• Volumes aussi solution 
• Développement de la traduction fondée corpora ou 
données 
– Traduction automatique statistique (TAS) 
– Traduction fondée exemples
Traduction automatique statistique [Brown et al. 1990] 
• f : phrase en langue source (Français) ; e phrase en langue 
cible (English) 
• Traduction de f en e = recherche de e* qui maximise P(e|f) 
• Décomposition en 2 problèmes 
94 
04/10/2014 
règle de Bayes 
– e* = argmax P(e|f) = argmax P(f|e) P(e) 
e e 
– Développer un modèle de traduction garantissant que P(f|e) est 
élevé pour toute phrase cible appariée à f 
– Développer un modèle de la langue cible associant des valeurs 
P(e) élevées aux phrases grammaticales 
Estimation des probabilités de n-grammes sur un corpus monolingue 
Estimation sur un corpus bilingue parallèle aligné au niveau phrase
95 
04/10/2014 
Corpus multilingues parallèles 
• Hansard : débats parlementaires canadiens en Français et 
Anglais (environ 20 millions de mots par langue) 
• Europarl : débats parlementaires européens en 21 langues 
(environ 60 millions de mots par langue) 
• Mais aussi textes techniques, cours, classiques de la 
littérature… 
Monsieur le Président, je 
voudrais porter à l’attention de 
la Chambre que nous 
célébrons aujourd’hui, comme 
le savent les honorables 
députés, l’anniversaire de la 
proclamation de la Charte 
canadienne des droits et 
libertés [...] 
Mr Speaker, I would like to 
bring to the attention of the 
House that today, as Hon. 
Members are no doubt aware, 
we are celebrating the 
anniversary of the proclamation 
of the Canadian Charter of 
Rights and Freedoms [...] 
Alignement au 
niveau phrase 
(ex. extrait du 
Hansard)
96 
04/10/2014 
Modèles de traduction 
• Rappel rôles des modèles de traduction et de langue 
– Modèle de traduction : guider la construction pour une phrase source 
d’un ensemble d’hypothèses de phrases en langue cible 
– Modèle de langue : permettre le choix final en favorisant les phrases 
grammaticales 
• Pour chaque unité de traduction en langue source : des 
traductions possibles en langue cible + scores 
• 1ers modèles de traduction = modèles d’alignements de mots 
– IBM, Brown et al. 1990 : 5 modèles successivement proposés 
• IBM1 : hypothèse que toutes les valeurs d’alignement sont 
équiprobables 
• IBM2 : introduction d’une dépendance entre l’alignement du moti et sa 
position dans la phrase source 
• IBM3 : introduction de la notion de fertilité (un mot source peut être 
traduit par 0 à n mots) 
• …
97 
04/10/2014 
Modèles de traduction initiaux 
• Table de transfert (lexique bilingue probabilisé) 
le (the 0.38) (of 0.15)… 
ministre (minister 0.7) (the 0.2) (prime 0.15)… 
années (year 0.4) (years 0.3) (some 0.1)…
98 
04/10/2014 
Modèles de traduction = modèles 
d’alignements de segments 
• Début des années 2000 [Zens, Och, Ney 2002] 
• Appui sur les alignements mot-à-mot (dans les 
deux directions F/E et E/F) 
• Intérêt de l’alignement de segments 
– Levée d’ambiguïtés lexicales 
– Prise en compte de nombres de mots différents dans 
les deux langues 
– Modélisation simple de réordonnancements locaux 
• Nécessité de modélisation des distorsions 
(réordonnancements non locaux)
• En fait, information en règle générale plus riche que 
dans l’exemple précédent 
99 
Modèles d’alignements de segments 
• Table de transfert (ou encore de segments) 
04/10/2014 
a big (le grand 0.1) (un des principaux 
0.04) (un grand 0.01) (Une 
grande 0.015) (ont une grande 
0.02)…
100 
04/10/2014 
Traduction automatique statistique 
• Traduction 
– Segmentation de f en segments de longueurs variables 
– Pour chaque segment, choix d’un équivalent en langue cible 
– Réarrangement des segments cibles pour avoir la traduction e 
• Décision du système de TAS fondée sur 3 modèles 
– Modèle de traduction : évalue la qualité d’un appariement entre f 
et e et délivre un coût 
– Modèle de distorsion : évalue la plausibilité du réordonnancement 
induit par cet appariement et délivre un coût 
– Modèle de langue : évalue la qualité de la phrase cible formée et 
délivre un coût 
• Meilleure traduction (décodage) = meilleur compromis
101 
04/10/2014 
Exemple 
transparent emprunté à F. Yvon
102 
04/10/2014 
Ressources [Allauzen et Yvon 2011] 
• Outre les corpora monolingues ou parallèles, voire 
comparables… 
• Outils d’alignements 
– Giza++ http://code.google.com/p/giza-pp/ 
– Outils de Berkeley 
http://code.google.com/p/berkeleyaligner/ 
– Boîte à outils Uplug (manipulation de corpus et 
alignements) http://sourceforge.net/projects/uplug 
• Systèmes de TAS 
– Moses http://www.statmt.org/moses/
103 
04/10/2014 
Évaluation 
• Tâche complexe : fidélité au texte source, 
compréhensibilité, caractère naturel… 
• Évaluation subjective (experts) vs automatique 
• Plusieurs mesures automatiques 
• Exemple : BLEUk (Bilingual evaluation understudy) 
– Comparaison de l’hypothèse de traduction à une ou 
des traductions de référence 
– N-grammes de longueur 1 à k partagés ou pas
104 
04/10/2014 
Traduction fondée exemples 
• [Nagao 1984] mais essor fin des années 80 
• Utilisation d’une mémoire de traduction 
– Phrases déjà traduites, parfois abstraites pour 
accroître les possibilités de généralisation 
• Deux parties 
– Identification des fragments de la phrase source 
s’appariant avec des exemples 
– Recombinaison des éléments traduits pour obtenir une 
phrase correcte en langue cible
105 
04/10/2014 
Traduction de la parole 
• Initialement des travaux portant sur des domaines restreints 
– Négociations multilingues, réservations téléphoniques de séjour… 
• Pas de contraintes de domaines maintenant 
• Diverses voies explorées 
– Traduction a posteriori de la transcription 
• Reponctuation, suppression des disfluences… 
– Traduction des sorties intermédiaires des systèmes de RAP 
• Scores des deux systèmes mêlés pour ordonner les hypothèses 
– Production de transcriptions que le système de traduction sait 
traduire 
• Modèle de langue du système de transcription biaisé par les groupes de 
mots du modèle de traduction
106 
04/10/2014 
4.2- Journalisme de données 
• Collecte, filtrage, combinaison, analyse de grands 
volumes de données pour en faire émerger une 
histoire pertinente 
• Principes 
– Découverte de faits intéressants 
– Mise en évidence de tendances cachées 
– Compilation d’ensembles de données 
• Accessibles sur une machine 
• Distribuables au public 
– Visualisation appropriée
107 
04/10/2014 
4.2- Journalisme de données 
• Collecte, filtrage, combinaison, analyse de grands 
volumes de données pour en faire émerger une 
histoire pertinente 
• Principes 
– Découverte de faits intéressants 
– Mise en évidence de tendances cachées 
– Compilation d’ensembles de données 
• Accessibles sur une machine 
• Distribuables au public 
– Visualisation appropriée 
l’utilisateur doit pouvoir interagir avec les 
données, les personnaliser 
passage d’une histoire complexe à un 
graphique clair (interactif, personnalisable)
108 
04/10/2014 
Une nouveauté qui vient de loin… 
• 1854 – John Snow : carte d’une épidémie de cholera 
permettant de comprendre la concentration près des 
pompes à eau 
image extraite de 
Wikipédia
109 
04/10/2014 
Une nouveauté qui vient de loin… 
• 1854 – John Snow : carte d’une épidémie de cholera 
permettant de comprendre la concentration près des 
pompes à eau 
• 1858 – Florence Nightingale : graphique sur la mortalité 
dans l’armée britannique montrant que plus de morts étaient 
dues aux maladies qu’aux balles 
image extraite de 
Wikipédia
110 
04/10/2014 
Une nouveauté qui vient de loin… 
• À partir des années 2000 : beaucoup de bases de données disponibles 
• 2006 – A. Holotavy : principes de ce que devrait être le journalisme de 
données [Holotavi 2006] 
• 2011 : le guide du datajournalisme (The Data Journalism Handbook 
http://datajournalismhandbook.org/) 
• 2012 – M.J. Berens et K. 
Armstrong (Seattle Times) : 
prix Pulitzer du journalisme 
d’investigation pour leur travail 
sur le lien surmortalité – 
méthadone dans l’état de 
Washington
111 
04/10/2014 
Exemple 1 : Gapminder
112 
Exemple 2 : émeutes 2011 en Angleterre 
• The Guardian 
− Lien entre 
les adresses 
des accusés 
et les zones 
de pauvreté 
04/10/2014
113 
04/10/2014 
Quelles données ? 
• Collectivités, services publics www.data.gouv.fr
114 
04/10/2014 
Quelles données ? 
• Collectivités, services publics www.data.gouv.fr 
• Web… 
• Éventuellement des données plus confidentielles (WikiLeaks) 
abondance 
croisement 
fiabilité 
• Beaucoup de bases structurées ; encore très peu de TAL
115 
04/10/2014 
Techniques de RI textuelle 
• J. Stray et J. Burges 2010 
• Travail sur les rapports d’enquêtes de l’US Army connus sous 
le nom de Iraq War Logs Leak 
– 390000 rapports d’action sur la guerre de 2004 à 2009 
• Focus sur le mois de décembre 2006 (11600 rapports) 
• Chaque document 
– Représenté par un vecteur pondéré de mots (tf*idf) 
– Caractérisé par ses 3 mots les plus saillants 
– Représenté par un noeud coloré selon le type d’incident décrit 
(métadonnée) 
• Comparaison : cosinus 
• Visualisation grâce au logiciel de graphe Gephi https://gephi.github.io/ 
– Chaque cluster formé caractérisé par ses mots saillants
116 
04/10/2014 
J. Stray et J. Burges 2010 
• Caractérisation 
thématique
117 
04/10/2014 
J. Stray et J. Burges 2010 
Événements criminels 
Risque d’explosion
118 
04/10/2014 
Plus de TAL et de linguistique 
• J. Véronis : analyse linguistique fine de discours 
politiques 
• Focus sur 
– L’utilisation des pronoms 
– Les EN employées 
– Les thèmes abordés 
• Travail important lors de la campagne présidentielle 
2012 : Observatoire des discours
119 
04/10/2014 
Observatoire des discours
120 
Vers de l’automatisation grâce au TAL 
• [Tannier 2014] : identification automatique de relations 
d’alliance ou d’opposition entre pays sur un sujet 
donné 
• Corpus : dépêches AFP + Web 
• Pré-travail 
04/10/2014 
– Création d’un lexique de 110 déclencheurs de relations 
positives (applaud, agree) ou négatives (criticism…) 
• Prétraitement du corpus 
– Normalisation des dates, segmentation en chunks, 
résolution de coréférence, étiquetage en EN 
– Utilisation de DBPedia et d’heuristiques pour lier 
capitales, villes, personnes et pays
• Apprentissage d’un classifieur (SVM) classant chaque 
phrase avec au moins deux EN et un déclencheur 
121 
Vers de l’automatisation grâce au TAL 
04/10/2014 
– Relation ou pas de relation 
– Relation positive ou négative 
Indonesia voiced support for East Timor's bid to join the ASEAN. 
 POS(Indonesia, East Timor) 
China earlier protested Obama's meeting with the Dalai Lama, [...]. 
 NEG(China, USA)
• Chaque phrase contenant au moins une relation : 
contenu, pays impliqués, relation(s) et date indexés 
• Interrogation via un moteur de recherche 
122 
Vers de l’automatisation grâce au TAL 
04/10/2014 
– Sujet (mots-clés) 
– Dates minimale et maximale 
– Nombre de pays 
• Pour chaque paire de pays (e1, e2) à la date d, calcul d’un 
poids 
– Poids(e1, e2, d) = log 
(, 
, ) 

(, 
, ) 
• Lissage du poids sur une fenêtre temporelle 
– Moyenne pondérée sur la fenêtre
Requête « Syria » entre « USA » et « Russia » 
123 
04/10/2014 
Série temporelle – 2 pays 
Transparent emprunté à 
X. Tannier
Transparent emprunté à 
X. Tannier 
124 
04/10/2014 
Requête « Syria » en « 2012 » 
Distances et couleurs marquants les alliances/oppositions
125 
04/10/2014 
4.3- Fact-checking 
• Vérification par les faits 
• Vérification de la véracité d’affirmations issues de 
discours ou de documents 
– Vrai / faux, omissions, lectures à sens unique… 
• Par comparaison avec des sources d’informations 
fiables 
– Tirer profit de la masse d’informations disponible
126 
04/10/2014 
Des exemples 
• Début des années 2000 : site FactCheck.org, projet 
du Annenberg Public Policy Center de l’université 
de Pennsylvanie 
• 2007 : site PolitiFact du Tampa Bay Times 
– Truth-O-Meter
127 
04/10/2014 
Truth-O-Meter
128 
04/10/2014 
Des exemples 
• Début des années 2000 : site FactCheck.org, projet 
du Annenberg Public Policy Center de l’université 
de Pennsylvanie 
• 2007 : site PolitiFact du Tampa Bay Times 
– Truth-O-Meter 
– Obameter 
• 2007 : site FactChecker du Washington Post
129 
04/10/2014 
FactChecker
130 
04/10/2014 
Des exemples 
• Début des années 2000 : site FactCheck.org, projet 
du Annenberg Public Policy Center de l’université 
de Pennsylvanie 
• 2007 : site PolitiFact du Tampa Bay Times 
– Truth-O-Meter 
– Obameter 
• 2007 : site FactChecker du Washington Post 
• En France 
– Radio : Le vrai du faux, France-Info (2012) 
– TV : Véritomètre sur la campagne présidentielle de 
2012, OWNI et iTELE
131 
04/10/2014 
Véritomètre
132 
04/10/2014 
Techniques de vérification 
• Travail essentiellement manuel 
– Par recoupement de plusieurs bases 
• Fiabilité acquise (ou renforcée) grâce à la masse de données 
– Parfois par appel au crowd-sourcing 
• Un peu d’automatisation : prototype TruthTeller du 
Washington Post 
– Repérage d’affirmations stockées en bases et déjà 
contrôlées dans un discours transcrit
133 
04/10/2014 
TruthTeller
134 
04/10/2014 
Ce que le TAL peut offrir 
• Recherche d’information 
– Comparaison de contenus 
• Systèmes de questions/réponses 
– Réponses à des questions précises 
• Extraction d’informations 
– Extraction d’un fait, de ses attributs 
• Techniques d’apprentissage artificiel 
– Pour faire émerger des connaissances
135 
04/10/2014 
Ce que le TAL offre actuellement 
• Trouver un fait exact parmi des informations 
contradictoires 
– En se fondant sur la fiabilité des sites le citant [Yin et al. 2007] 
• Interdépendance fiabilité d’un site – crédibilité d’un fait 
• Score d’un fait : dépend du score des sites le mentionnant et est 
influencé par les scores des faits qui lui sont similaires 
• Score d’un site : dépend du score des faits qu’il contient 
• Algorithme itératif transitif 
– Scores des sites initialisés à la même valeur 
– Scores des faits calculés 
– Scores des sites recalculés 
– Itération jusqu’à convergence
136 
04/10/2014 
Ce que le TAL offre actuellement 
• Trouver un fait exact parmi des informations 
contradictoires 
– En se fondant sur l’objectivité du langage des sites le 
citant [Nakashole et Mitchell 2014] 
• Langage objectif : neutre, impartial, non personnel, non 
émotionnel 
• Interdépendance objectivité d’une source et sa fiabilité 
• Proposition d’un classifieur (apprentissage supervisé) objectif vs 
subjectif, fondé sur différents traits dont la présence de mots 
issus de lexique d’opinion 
• Score d’un candidat-fait : fonction de l’objectivité des sources qui 
le citent et du score des faits co-mentionnés avec lui
137 
04/10/2014 
Ce que le TAL offre actuellement 
• Reconnaître si la source d’un fait croit en la véracité 
du fait qu’elle énonce [Saurì et Pustejovsky 2012] 
– Granularité assez fine 
• Polarité du fait : affirmé ou nié 
• Modalité épistémique : certain, probable ou possible 
– Travail d’expertise linguistique pour définir 
• Une liste de marqueurs de la polarité et de la modalité : 
– non, certainement, supposé, possible, apparemment, pouvoir, dire, douter, 
regretter… 
• Les influences entre ces marqueurs au fil des constructions 
syntaxiques 
• Bilan global : TAL encore peu utilisé en Fact-checking
138 
04/10/2014 
Conclusions TAL et Big Data 
• Pas une révolution, celle du TAL datant d’avant 
– Mais plus de données, plus de variété 
– Revisite d’applications ou techniques de TAL 
– Essor d’applications pour faire face au déluge de données 
– Essor d’applications pour tirer profit du déluge de données 
• Chercheur en TAL transformé en « scientifique des 
données » (data scientist) 
– Mais aussi utilisation de représentations mixant des grains 
différents 
• Prise de conscience de l’importance de l’accès au contenu 
des données langagières 
• Attente d’applications efficaces et explicatives
139 
04/10/2014 
Bibliographie 
• ALLAN (J.), Building Hypertext Using Information Retrieval, Information Processing and Management, Vol. 33(2), 1997, p. 133-144. 
• ALLAUZEN (A.) et YVON (F.), Méthodes statistiques pour la traduction automatique, dans GAUSSIER (É.) et YVON (F.), Modèles statistiques pour l'accès à 
l'information textuelle, Paris, Hermès, chapitre 7, 2011, p. 271-356. 
• BROWN (P.F.), COCKE (J.), DELLA PIETRA (S.A.), DELLA PIETRA (V.J.), JELINEK (F.), LAFFERTY (J.D.), MERCER (R.L.) et ROOSSIN (P.S.), A statistical 
approach to machine translation, dans Computational Linguistics, Vol. 16(2), 1990, p. 79-85. 
• ESULI (A.) et SEBASTIANI (F.), SentiWordNet: A publicly available lexical resource for opinion mining, dans Actes de 5th Conference on Language Resources and 
Evaluation (LREC 2006), Gênes, Italie, 2006, pp. 417-422. 
• FAIRON (C.), KLEIN (J.) et PAUMIER (S.), Le langage SMS. Étude d'un corpus informatisé à partir de l'enquête « Faites don de vos SMS à la science », Louvain-la- 
Neuve, Presses universitaires de Louvain, 2006. 
• GILLICK (D.) et FAVRE (B.), A scalable model for summarization, dans Actes de NAACL HLT Workshop on Integer Linear Programming for Natural Language 
Processing, Boulder, USA, 2009, p. 10-18. 
• GOLDSTEIN (J.) et CARBONELL (J.), Summarization : (1) using MMR for diversity-based reranking and (2) evaluating summaries, dans Actes de Workshop On 
TIPSTER Text Program : Phase III, Baltimore, USA, 1998, p. 181-195. 
• GRAVIER (G), GUINAUDEAU (C.), LECORVÉ (G.) et SÉBILLOT (P.), Exploiting speech for automatic TV delinearization : From streams to cross-media semantic 
navigation, dans Eurasip Journal on Image and Video Processing, Vol. 2011, 2011. 
• HEARST (M.A.), TileBars: Visualization of term distribution information in full text information access, dans Actes de ACM SIGCHI Conference on Human Factors in 
Computing Systems (CHI), Denver, USA, 1995, p. 59-66. 
• HEARST (M.A.), TextTiling: Segmenting text into multi-paragraph subtopic passages, dans Computational Linguistics, Vol. 23(1), 1997, p. 33-64. 
• HIRSCHMAN (L.) et GAIZAUSKAS (R.), Natural language question answering, dans Natural Language Engineering, Vol. 7(4), 2001, p. 275-300. 
• HOLOTAVI (A.) (2006, 6 sep.), A fundamental way newspaper sites need to change, sur http://www.holovaty.com/writing/fundamental-change/. Consulté le 9 juil. 
2014. 
• LIN (C.-Y.), Rouge: A package for automatic evaluation of summaries, dans Actes de ACL Workshop Text summarization branches out, Barcelona, Espagne, 2004, 
p. 74-81. 
• LIU (B.), Sentiment analysis and opinion mining, dans Morgan  Claypool publishers, 2012. 
• MIHALCEA (R.), Graph-based ranking algorithms for sentence extraction, applied to text summarization, dans Actes de 42nd Annual Meeting of the Association for 
Computational Linguistics, companion volume (ACL 2004), Barcelona, Espagne, 2004. 
• NAGAO (M.), A framework of a mechanical translation between Japanese and English by analogy principle, dans Elithorn (A.) et Banerji (R.), Artificial and Human 
Intelligence, Amsterdam, North-Holland Publishing Company, chapitre 11, 1984, p. 173-180. 
• NAKASHOLE (N.) et MITCHELL (T.M.), Language-aware truth assessment of fact candidates, dans Actes de 52nd Annual Meeting of the Association for 
Computational Linguistics (ACL 2014), Baltimore, USA, 2014, p. 1009-1019. 
• SAURÍ (R.) et PUSTEJOVSKY (J.), Are you sure that this happened? Assessing the factuality degree of events in text, dans Computational Linguistics, Vol. 38(2), 
2012, p. 261-299. 
• TANNIER (X.), Traitement des événements et ciblage d'information, Habilitation à diriger des recherches, Université Paris Sud, 2014. 
• TURNEY (P.D.), Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews, dans Actes de 40th Annual Meeting of the 
Association for Computational Linguistics (ACL 2002), Philadelphia, USA, 2002, p. 417-424. 
• UTIYAMA (M.) et ISAHARA (H.), A statistical model for domain-independent text segmentation, dans Actes de 39th Annual Meeting on the Association for 
Computational Linguistics (ACL 2001), Toulouse, France, 2001, p. 499-506. 
• YIN (X.), HAN (J.) et Yu (P.S.), Truth discovery with multiple conflicting information providers on the Web, dans Actes de 13th International Conference on Knowledge 
Discovery and Data Mining (KDD'07), Short paper, San Jose, USA, 2007, p. 1048-1052. 
• ZENS (R.), OCH (F.J.) et NEY (H), Phrase-based statistical machine translation, dans KI-2002: Advances in Artificial Intelligence, Springer Verlag, LNAI Vol. 2479, 
2002, p. 18-32.

Mais conteúdo relacionado

Destaque

Certification nationale A2-B1 d'allemand session 2016
Certification nationale A2-B1 d'allemand session 2016Certification nationale A2-B1 d'allemand session 2016
Certification nationale A2-B1 d'allemand session 2016Jean-Marc Dubois
 
Equipement techonologique en france - ARCEP - Décembre 2011
Equipement techonologique en france - ARCEP - Décembre 2011Equipement techonologique en france - ARCEP - Décembre 2011
Equipement techonologique en france - ARCEP - Décembre 2011Romain Fonnier
 
Formation Créer et Entreprendre
Formation Créer et EntreprendreFormation Créer et Entreprendre
Formation Créer et EntreprendreLudovic Dublanchet
 
Afpac recueil realisations_exemplaires_de_pompes_a_chaleur_dans_le_tertiaire
Afpac recueil realisations_exemplaires_de_pompes_a_chaleur_dans_le_tertiaireAfpac recueil realisations_exemplaires_de_pompes_a_chaleur_dans_le_tertiaire
Afpac recueil realisations_exemplaires_de_pompes_a_chaleur_dans_le_tertiaireSVigliandi
 
2013 Guide IDEAS des bonnes pratiques
2013 Guide IDEAS des bonnes pratiques2013 Guide IDEAS des bonnes pratiques
2013 Guide IDEAS des bonnes pratiquesAsso Asah
 
Swift Programming Language
Swift Programming LanguageSwift Programming Language
Swift Programming LanguageGiuseppe Arici
 
Introduction aux RIA (Rich Internet Applications)
Introduction aux RIA (Rich Internet Applications)Introduction aux RIA (Rich Internet Applications)
Introduction aux RIA (Rich Internet Applications)Tugdual Grall
 
Détectez les commerciaux (...qui savent vendre !)
Détectez les commerciaux (...qui savent vendre !)Détectez les commerciaux (...qui savent vendre !)
Détectez les commerciaux (...qui savent vendre !)David BERNARD
 
Integrer le Social Local Mobile dans sa stratégie web
Integrer le Social Local Mobile dans sa stratégie webIntegrer le Social Local Mobile dans sa stratégie web
Integrer le Social Local Mobile dans sa stratégie webAdviso Stratégie Internet
 
Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...
Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...
Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...Search Foresight
 
Conjuntos numéricos mari
Conjuntos numéricos mariConjuntos numéricos mari
Conjuntos numéricos marieadfae
 
Les derniers feux, réflexions crépusculaires
Les derniers feux, réflexions crépusculairesLes derniers feux, réflexions crépusculaires
Les derniers feux, réflexions crépusculairesKaryne Lamidieu
 

Destaque (13)

Certification nationale A2-B1 d'allemand session 2016
Certification nationale A2-B1 d'allemand session 2016Certification nationale A2-B1 d'allemand session 2016
Certification nationale A2-B1 d'allemand session 2016
 
Equipement techonologique en france - ARCEP - Décembre 2011
Equipement techonologique en france - ARCEP - Décembre 2011Equipement techonologique en france - ARCEP - Décembre 2011
Equipement techonologique en france - ARCEP - Décembre 2011
 
Formation Créer et Entreprendre
Formation Créer et EntreprendreFormation Créer et Entreprendre
Formation Créer et Entreprendre
 
Afpac recueil realisations_exemplaires_de_pompes_a_chaleur_dans_le_tertiaire
Afpac recueil realisations_exemplaires_de_pompes_a_chaleur_dans_le_tertiaireAfpac recueil realisations_exemplaires_de_pompes_a_chaleur_dans_le_tertiaire
Afpac recueil realisations_exemplaires_de_pompes_a_chaleur_dans_le_tertiaire
 
2013 Guide IDEAS des bonnes pratiques
2013 Guide IDEAS des bonnes pratiques2013 Guide IDEAS des bonnes pratiques
2013 Guide IDEAS des bonnes pratiques
 
Swift Programming Language
Swift Programming LanguageSwift Programming Language
Swift Programming Language
 
Microeconomics: Utility and Demand
Microeconomics: Utility and DemandMicroeconomics: Utility and Demand
Microeconomics: Utility and Demand
 
Introduction aux RIA (Rich Internet Applications)
Introduction aux RIA (Rich Internet Applications)Introduction aux RIA (Rich Internet Applications)
Introduction aux RIA (Rich Internet Applications)
 
Détectez les commerciaux (...qui savent vendre !)
Détectez les commerciaux (...qui savent vendre !)Détectez les commerciaux (...qui savent vendre !)
Détectez les commerciaux (...qui savent vendre !)
 
Integrer le Social Local Mobile dans sa stratégie web
Integrer le Social Local Mobile dans sa stratégie webIntegrer le Social Local Mobile dans sa stratégie web
Integrer le Social Local Mobile dans sa stratégie web
 
Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...
Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...
Synodiance > SEO et Contenu - 5 points clés qui changent - Ecommerce-Live - 2...
 
Conjuntos numéricos mari
Conjuntos numéricos mariConjuntos numéricos mari
Conjuntos numéricos mari
 
Les derniers feux, réflexions crépusculaires
Les derniers feux, réflexions crépusculairesLes derniers feux, réflexions crépusculaires
Les derniers feux, réflexions crépusculaires
 

Semelhante a Séminaire Ist inria 2014 : Pascale Sébillot

Linguistique de terrainRecolteDonnees.pdf
Linguistique de terrainRecolteDonnees.pdfLinguistique de terrainRecolteDonnees.pdf
Linguistique de terrainRecolteDonnees.pdfssuser3e895f
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?Nicolas Dubois
 
Datalift at SemWebPro
Datalift at SemWebProDatalift at SemWebPro
Datalift at SemWebProDatalift
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : NgrammesJaouad Dabounou
 
Conversion numérique et modification épistémologique
Conversion numérique et modification épistémologiqueConversion numérique et modification épistémologique
Conversion numérique et modification épistémologiquemap8slide
 
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...Maxime Lefrançois
 
Les langues de spécialité comme politique linguistique en Europe
Les langues de spécialité comme politique linguistique en EuropeLes langues de spécialité comme politique linguistique en Europe
Les langues de spécialité comme politique linguistique en EuropeAnne-Marie Barrault-Methy
 
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUETRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUEAchraf OTHMAN
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationcatherine roussey
 
Référentiels de représentation des contenus (2008)
Référentiels de représentation des contenus (2008)Référentiels de représentation des contenus (2008)
Référentiels de représentation des contenus (2008)Sylvie Dalbin
 
Place du document numérique dans les ENT
Place du document numérique dans les ENTPlace du document numérique dans les ENT
Place du document numérique dans les ENTClément Dussarps
 
EIAH, les mots pour la recherche
EIAH, les mots pour la rechercheEIAH, les mots pour la recherche
EIAH, les mots pour la rechercheNicolas Balacheff
 
Le projet Traduxio. Par Philippe Lacour.
Le projet Traduxio. Par Philippe Lacour.Le projet Traduxio. Par Philippe Lacour.
Le projet Traduxio. Par Philippe Lacour.Télécom ParisTech
 
FORMATION INA EXPERT 2014 : 1. Préparer un entretien, l’enregistrer, l’archiv...
FORMATION INA EXPERT 2014 : 1. Préparer un entretien, l’enregistrer, l’archiv...FORMATION INA EXPERT 2014 : 1. Préparer un entretien, l’enregistrer, l’archiv...
FORMATION INA EXPERT 2014 : 1. Préparer un entretien, l’enregistrer, l’archiv...Phonothèque MMSH
 
Encoder l'oral en TEI : démarches, avantages, défis
Encoder l'oral en TEI : démarches, avantages, défisEncoder l'oral en TEI : démarches, avantages, défis
Encoder l'oral en TEI : démarches, avantages, défisLou Burnard
 
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Le_GFII
 
Cadre de référence de l'examen de 6_AEP (français)
Cadre de référence de l'examen de 6_AEP (français)Cadre de référence de l'examen de 6_AEP (français)
Cadre de référence de l'examen de 6_AEP (français)zanouny abdou
 

Semelhante a Séminaire Ist inria 2014 : Pascale Sébillot (20)

Seo camp2017 Marguerite Leenhardt
Seo camp2017 Marguerite LeenhardtSeo camp2017 Marguerite Leenhardt
Seo camp2017 Marguerite Leenhardt
 
les techniques TALN
les techniques TALNles techniques TALN
les techniques TALN
 
Linguistique de terrainRecolteDonnees.pdf
Linguistique de terrainRecolteDonnees.pdfLinguistique de terrainRecolteDonnees.pdf
Linguistique de terrainRecolteDonnees.pdf
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?
 
Datalift at SemWebPro
Datalift at SemWebProDatalift at SemWebPro
Datalift at SemWebPro
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : Ngrammes
 
Conversion numérique et modification épistémologique
Conversion numérique et modification épistémologiqueConversion numérique et modification épistémologique
Conversion numérique et modification épistémologique
 
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...
Ph.D. Defense: Représentation des connaissances sémantiques lexicales de la T...
 
Word Embedding
Word EmbeddingWord Embedding
Word Embedding
 
Les langues de spécialité comme politique linguistique en Europe
Les langues de spécialité comme politique linguistique en EuropeLes langues de spécialité comme politique linguistique en Europe
Les langues de spécialité comme politique linguistique en Europe
 
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUETRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
Référentiels de représentation des contenus (2008)
Référentiels de représentation des contenus (2008)Référentiels de représentation des contenus (2008)
Référentiels de représentation des contenus (2008)
 
Place du document numérique dans les ENT
Place du document numérique dans les ENTPlace du document numérique dans les ENT
Place du document numérique dans les ENT
 
EIAH, les mots pour la recherche
EIAH, les mots pour la rechercheEIAH, les mots pour la recherche
EIAH, les mots pour la recherche
 
Le projet Traduxio. Par Philippe Lacour.
Le projet Traduxio. Par Philippe Lacour.Le projet Traduxio. Par Philippe Lacour.
Le projet Traduxio. Par Philippe Lacour.
 
FORMATION INA EXPERT 2014 : 1. Préparer un entretien, l’enregistrer, l’archiv...
FORMATION INA EXPERT 2014 : 1. Préparer un entretien, l’enregistrer, l’archiv...FORMATION INA EXPERT 2014 : 1. Préparer un entretien, l’enregistrer, l’archiv...
FORMATION INA EXPERT 2014 : 1. Préparer un entretien, l’enregistrer, l’archiv...
 
Encoder l'oral en TEI : démarches, avantages, défis
Encoder l'oral en TEI : démarches, avantages, défisEncoder l'oral en TEI : démarches, avantages, défis
Encoder l'oral en TEI : démarches, avantages, défis
 
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
Une veille intelligente dans un monde global - Proxem - Séminaire DIXIT du GF...
 
Cadre de référence de l'examen de 6_AEP (français)
Cadre de référence de l'examen de 6_AEP (français)Cadre de référence de l'examen de 6_AEP (français)
Cadre de référence de l'examen de 6_AEP (français)
 

Mais de Inria

Inria | Annual report 2022
Inria | Annual report 2022Inria | Annual report 2022
Inria | Annual report 2022Inria
 
Inria | Rapport d'activités 2022
Inria |  Rapport d'activités 2022Inria |  Rapport d'activités 2022
Inria | Rapport d'activités 2022Inria
 
Rapport d'auto-évaluation Hcérès | L'essentiel
Rapport d'auto-évaluation Hcérès | L'essentielRapport d'auto-évaluation Hcérès | L'essentiel
Rapport d'auto-évaluation Hcérès | L'essentielInria
 
Le numérique est-il un progrès durable
Le numérique est-il un progrès durableLe numérique est-il un progrès durable
Le numérique est-il un progrès durableInria
 
Extrait Pour la science n°538 - Quand une photo sort de l’ombre
Extrait Pour la science n°538 - Quand une photo sort de l’ombreExtrait Pour la science n°538 - Quand une photo sort de l’ombre
Extrait Pour la science n°538 - Quand une photo sort de l’ombreInria
 
Extrait CHUT n°10 - sciences moins polluantes
Extrait CHUT n°10 - sciences moins polluantesExtrait CHUT n°10 - sciences moins polluantes
Extrait CHUT n°10 - sciences moins polluantesInria
 
Inria | Activity report 2021
Inria | Activity report 2021Inria | Activity report 2021
Inria | Activity report 2021Inria
 
Inria | Rapport d'activités 2021
Inria |  Rapport d'activités 2021Inria |  Rapport d'activités 2021
Inria | Rapport d'activités 2021Inria
 
Inria | White paper Agriculture and Digital Technology (January 2022)
Inria | White paper Agriculture and Digital Technology  (January 2022)Inria | White paper Agriculture and Digital Technology  (January 2022)
Inria | White paper Agriculture and Digital Technology (January 2022)Inria
 
Inria | Livre blanc Agriculture et numérique (janvier 2022)
Inria | Livre blanc Agriculture et numérique (janvier 2022)Inria | Livre blanc Agriculture et numérique (janvier 2022)
Inria | Livre blanc Agriculture et numérique (janvier 2022)Inria
 
Inria | White paper Internet of Things (November 2021)
Inria | White paper Internet of Things (November 2021)Inria | White paper Internet of Things (November 2021)
Inria | White paper Internet of Things (November 2021)Inria
 
Inria | Livre blanc Internet des objets (novembre 2021)
Inria | Livre blanc Internet des objets (novembre 2021)Inria | Livre blanc Internet des objets (novembre 2021)
Inria | Livre blanc Internet des objets (novembre 2021)Inria
 
Inria - Livre blanc intelligence artificielle (seconde édition 2021)
Inria - Livre blanc intelligence artificielle (seconde édition 2021)Inria - Livre blanc intelligence artificielle (seconde édition 2021)
Inria - Livre blanc intelligence artificielle (seconde édition 2021)Inria
 
Inria - White paper Artificial Intelligence (second edition 2021)
Inria - White paper Artificial Intelligence  (second edition 2021)Inria - White paper Artificial Intelligence  (second edition 2021)
Inria - White paper Artificial Intelligence (second edition 2021)Inria
 
Inria - Activity report 2020
Inria - Activity report 2020Inria - Activity report 2020
Inria - Activity report 2020Inria
 
Inria - Rapport d'activités 2020
Inria - Rapport d'activités 2020Inria - Rapport d'activités 2020
Inria - Rapport d'activités 2020Inria
 
Inria - Livre blanc éducation et numérique
Inria - Livre blanc éducation et numériqueInria - Livre blanc éducation et numérique
Inria - Livre blanc éducation et numériqueInria
 
Inria - Plug'in #7
Inria - Plug'in #7Inria - Plug'in #7
Inria - Plug'in #7Inria
 
Inria - 2019 activity report
Inria - 2019 activity reportInria - 2019 activity report
Inria - 2019 activity reportInria
 
Inria - Rapport d'activités 2019
Inria - Rapport d'activités 2019Inria - Rapport d'activités 2019
Inria - Rapport d'activités 2019Inria
 

Mais de Inria (20)

Inria | Annual report 2022
Inria | Annual report 2022Inria | Annual report 2022
Inria | Annual report 2022
 
Inria | Rapport d'activités 2022
Inria |  Rapport d'activités 2022Inria |  Rapport d'activités 2022
Inria | Rapport d'activités 2022
 
Rapport d'auto-évaluation Hcérès | L'essentiel
Rapport d'auto-évaluation Hcérès | L'essentielRapport d'auto-évaluation Hcérès | L'essentiel
Rapport d'auto-évaluation Hcérès | L'essentiel
 
Le numérique est-il un progrès durable
Le numérique est-il un progrès durableLe numérique est-il un progrès durable
Le numérique est-il un progrès durable
 
Extrait Pour la science n°538 - Quand une photo sort de l’ombre
Extrait Pour la science n°538 - Quand une photo sort de l’ombreExtrait Pour la science n°538 - Quand une photo sort de l’ombre
Extrait Pour la science n°538 - Quand une photo sort de l’ombre
 
Extrait CHUT n°10 - sciences moins polluantes
Extrait CHUT n°10 - sciences moins polluantesExtrait CHUT n°10 - sciences moins polluantes
Extrait CHUT n°10 - sciences moins polluantes
 
Inria | Activity report 2021
Inria | Activity report 2021Inria | Activity report 2021
Inria | Activity report 2021
 
Inria | Rapport d'activités 2021
Inria |  Rapport d'activités 2021Inria |  Rapport d'activités 2021
Inria | Rapport d'activités 2021
 
Inria | White paper Agriculture and Digital Technology (January 2022)
Inria | White paper Agriculture and Digital Technology  (January 2022)Inria | White paper Agriculture and Digital Technology  (January 2022)
Inria | White paper Agriculture and Digital Technology (January 2022)
 
Inria | Livre blanc Agriculture et numérique (janvier 2022)
Inria | Livre blanc Agriculture et numérique (janvier 2022)Inria | Livre blanc Agriculture et numérique (janvier 2022)
Inria | Livre blanc Agriculture et numérique (janvier 2022)
 
Inria | White paper Internet of Things (November 2021)
Inria | White paper Internet of Things (November 2021)Inria | White paper Internet of Things (November 2021)
Inria | White paper Internet of Things (November 2021)
 
Inria | Livre blanc Internet des objets (novembre 2021)
Inria | Livre blanc Internet des objets (novembre 2021)Inria | Livre blanc Internet des objets (novembre 2021)
Inria | Livre blanc Internet des objets (novembre 2021)
 
Inria - Livre blanc intelligence artificielle (seconde édition 2021)
Inria - Livre blanc intelligence artificielle (seconde édition 2021)Inria - Livre blanc intelligence artificielle (seconde édition 2021)
Inria - Livre blanc intelligence artificielle (seconde édition 2021)
 
Inria - White paper Artificial Intelligence (second edition 2021)
Inria - White paper Artificial Intelligence  (second edition 2021)Inria - White paper Artificial Intelligence  (second edition 2021)
Inria - White paper Artificial Intelligence (second edition 2021)
 
Inria - Activity report 2020
Inria - Activity report 2020Inria - Activity report 2020
Inria - Activity report 2020
 
Inria - Rapport d'activités 2020
Inria - Rapport d'activités 2020Inria - Rapport d'activités 2020
Inria - Rapport d'activités 2020
 
Inria - Livre blanc éducation et numérique
Inria - Livre blanc éducation et numériqueInria - Livre blanc éducation et numérique
Inria - Livre blanc éducation et numérique
 
Inria - Plug'in #7
Inria - Plug'in #7Inria - Plug'in #7
Inria - Plug'in #7
 
Inria - 2019 activity report
Inria - 2019 activity reportInria - 2019 activity report
Inria - 2019 activity report
 
Inria - Rapport d'activités 2019
Inria - Rapport d'activités 2019Inria - Rapport d'activités 2019
Inria - Rapport d'activités 2019
 

Séminaire Ist inria 2014 : Pascale Sébillot

  • 1. Le traitement automatique des langues face aux données textuelles volumineuses et potentiellement dégradées : qu’est-ce que cela change ? Pascale SÉBILLOT PRU en informatique à l’INSA de Rennes Membre de l’équipe LinkMedia de l’IRISA et d’INRIA
  • 2. 2 04/10/2014 LinkMedia Creating and exploiting explicit links between multimedia fragments Périmètre de LinkMedia Objectifs • fondements scientifiques de la structuration de collections de documents multimédias par des liens explicites • nouveaux usages et techniques de traitement de contenus induits par ces liens
  • 3. 3 04/10/2014 Mon parcours de recherche • Domaine : traitement automatique des langues (TAL) • Thèse en syntaxe passage à la sémantique • Acquisition de connaissances à partir de corpus de textes grâce à des techniques d’apprentissage artificiel • Application du TAL à la recherche d’information • Application du TAL à la reconnaissance automatique de la parole • Application du TAL à la structuration de (collections de) documents multimédias
  • 4. 4 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? • Révolution ?
  • 5. 5 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? • Révolution : NON – Révolution du TAL faite fin des années 80 – début des années 90 • Du TAL rationaliste… – Approches symboliques à base de règles – Expertise humaine forte – Focus sur l’explication des jugements de grammaticalité, la construction de représentations du sens élaborées… • … au TAL empirique – Approches fondées sur les données – Volumes de textes et puissance des machines croissants – Apprentissage artificiel, linguistique de corpus – Observation à grande échelle, représentations du « sens utile »
  • 6. 6 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? • Révolution : OUI – Nouveaux types de données textuelles à prendre en compte – Volumes toujours plus conséquents – Empirisme toujours plus présent • Moins / pas (ou très peu) d’expertise • Plus de comptage
  • 7. 7 04/10/2014 Impact du Big Data sur le TAL Organisation de la présentation 1. Spécificités des données textuelles dans le monde du Big Data 2. Représentations et exploitation des données textuelles 3. Applications pour faire face aux masses de données 4. Applications tirant profit de la profusion de données
  • 8. 8 1- Spécificités des données textuelles 04/10/2014 dans le monde du Big Data • Les 3 V (volume, variété, vélocité) appliqués aux données textuelles • Propriétés intrinsèques compliquant l’accès au sens
  • 9. 9 04/10/2014 Variété • Données produites (directement) sous une forme textuelle – Textes écrits, emails, sites Web – Blogs, réseaux sociaux – Sms
  • 10. 10 04/10/2014 Variété • Données produites (directement) sous une forme textuelle – Textes écrits, emails, sites Web – Blogs, réseaux sociaux – Sms • Tu te x mal1 • JV encor dvoir 10QT aussi dans la qualité Exemples issus de [Fairon et al. 2006]
  • 11. 11 04/10/2014 Variété • Données langagières issues d’un média différent – Système de reconnaissance… générateur d’erreurs – Images de textes • Dactylographiés, manuscrits • OCR : logiciel de reconnaissance optique de caractères – Segmentation en caractères individuels – Classifieur fondé sur un apprentissage neuronal pour la reconnaissance – Parole contenue dans les documents audio/vidéos • Système de reconnaissance automatique de la parole (RAP)
  • 12. Système de reconnaissance automatique de 12 04/10/2014 la parole Système de RAP Signal de parole Hypothèse de transcription w*1 ... w*P c1 ... cP Mesures de confiance
  • 13. Système de reconnaissance automatique de 13 04/10/2014 Lexique phonétisé Modèle de langue Modèle acoustique Caractéristiques numériques du signal sonore contenant de la parole (énergie, fréquence vocale…) y1 ... yT Meilleure hypothèse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' ϵ VP' c1 ... cP Mesures de confiance la parole
  • 14. Système de reconnaissance automatique de 14 04/10/2014 Lexique phonétisé Modèle de langue Modèle acoustique Caractéristiques numériques du signal sonore contenant de la parole (énergie, fréquence vocale…) y1 ... yT Meilleure hypothèse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' ϵ VP' c1 ... cP Mesures de confiance la parole Vocabulaire : mots - prononciations
  • 15. Système de reconnaissance automatique de 15 04/10/2014 Lexique phonétisé Modèle de langue Modèle acoustique Caractéristiques numériques du signal sonore contenant de la parole (énergie, fréquence vocale…) y1 ... yT Meilleure hypothèse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' ϵ VP' c1 ... cP Mesures de confiance la parole Vraisemblance du signal sachant une séquence de mots
  • 16. Système de reconnaissance automatique de 16 04/10/2014 Lexique phonétisé Modèle de langue Modèle acoustique Caractéristiques numériques du signal sonore contenant de la parole (énergie, fréquence vocale…) y1 ... yT Meilleure hypothèse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' ϵ VP' c1 ... cP Mesures de confiance la parole Probabilité a priori des séquences de mots (n-grammes)
  • 17. 17 quant aux voix catholiques de serge adda alberta _ il est tout ce qu' il y a de strictes _ série sous le menton _ l encadre son visage sans permettre de voir _ un seul de ses cheveux _ Quant au voile catholique de soeur ____ Adalberta , il est tout ce qu' il y a de strict , serré sous le menton , il encadre son visage sans permettre de voir , un seul de ses cheveux . 04/10/2014 Spécificités des transcriptions • Particularités de l’oral – Disfluences – Constructions grammaticales particulières • Format de transcription – Pas de ponctuation, de majuscules – Segmentation en groupes de souffle, pas en phrases • Erreurs de transcription • Mots non fiables et mesures de confiance imparfaites Taux d'erreur sur les mots ou WER (word error rate)
  • 18. 18 04/10/2014 Volume et Vélocité Nombres par minute (http://davidfayon.fr/2011/06/croissance-du-web-une-minute/) Go-globe.com, juin 2011
  • 19. 19 Propriétés intrinsèques compliquant 04/10/2014 l’accès au sens • Données non structurées – Pas de sémantique portée par une structure a priori • Données porteuses de sens, compréhensibles par un humain et fortement présentes – Nécessité de savoir en extraire l’information pertinente • Données difficiles à comprendre par une machine – Ambiguïté – Implicite – Formulations différentes d’une même idée
  • 20. 20 04/10/2014 Ambiguïté • Lexicale – Statique : président : verbe / nom ? – Dynamique : rat : nom / adjectif • Syntaxique – Structure hiérarchique : la petite brise la glace – Ambiguïté de rattachement : j’ai été voir un film avec Brad Pitt • Sémantique – Homonymie : avocat : fruit / auxiliaire de justice – Polysémie : agneau : animal / viande – Portée des quantificateurs : toutes mes soeurs ont épousé un médecin vs toutes les personnes présentes ont entendu un cri • Pragmatique – Paul : tu viens à la fête chez Luc mardi soir ? – Virginie : j’ai entendu que Benoît sera là
  • 21. 21 04/10/2014 Implicite • Connaissances partagées par les locuteurs – Encyclopédiques – De sens commun – De scenarii… • Interprétations « évidentes » [exemples empruntés à F. Yvon] – Elle s’est assise, a commandé un café à la serveuse (…). Puis elle est partie sans payer Qui ? – Le professeur a envoyé l’élève au censeur • parce qu’il lançait des boulettes • parce qu’il voulait avoir la paix • parce qu’il voulait le voir • Emplois métaphoriques, métonymiques – Premier violon
  • 22. 22 Formulations différentes d’une même idée • Problème pour compter des occurrences d’un concept • Variation 04/10/2014 – Graphique, morphologique : mot clé, mot-clé, mots-clés – Syntaxique, morphosyntaxique : acidité du sang, acidité élevée du sang, acidité sanguine – Paradigmatique : vélo, bicyclette, cyclisme, moyen de transport – Paraphrase…
  • 23. 23 • Volumes, variété, propriétés intrinsèques des données textuelles 04/10/2014 Spécificités des données textuelles – Impossibilité de faire des analyses linguistiques fines • Rapidement • Sur des textes dégradés et apprentissage • Variété : domaine ouvert – Ambiguïtés multipliées – Sources de connaissance non utilisables • Changement de paradigme du TAL Rationalisme Empirisme « TAL fondé linguistique » « TAL fondé statistique » Comprendre finement Avoir des représentations de sens utiles
  • 24. 24 2- Représentations et exploitation des 04/10/2014 données textuelles • Représentation du sens « rationaliste » – Vision syntaxico-logique • Logique comme langage de représentation de connaissance et de raisonnement • Interprétation compositionnelle du langage dirigée par la syntaxe sous forme de formules logiques – Vision Intelligence artificielle • Modèle du monde (ou domaine) générique • Interprétation d’un énoncé ou discours : instanciation du modèle • Ex. : scripts (Schank)…
  • 25. 25 2- Représentations et exploitation des 04/10/2014 données textuelles • Représentation du sens « empirique » – Sens « utile » et non « vrai » sens • On ne cherche pas à comprendre le langage • Sens d’un mot – Dépendant de / exprimable par son co-texte – Co-textes comparables pour détecter les mots du même paradigme • Sens d’un document – Des mots extraits du texte qui, ensemble, représentent « son » sens • Changement de thème – Changement global de vocabulaire
  • 26. 26 04/10/2014 Changement de paradigme • Expertise Données – Extraction de la connaissance des données par apprentissage artificiel (observation de régularités et redondances) • Sens Éléments de représentation extraits des mots, des phrases, des documents utiles pour l’application visée – Exemples : noms et verbes les plus fréquents, noms de personnes, de lieux et d’entreprises mentionnés… • À tous les niveaux : document, paragraphe, phrase…
  • 27. 27 04/10/2014 Éléments de représentation • N-grammes de caractères, de mots • Mots : tous ou filtrés – Type précis : noms, verbes, termes complexes, entités nommées (EN : noms de personnes, lieux…)… – Saillance • Comptage – Fréquence – Fréquence dans l’unité considérée mais pas dans la collection – Autres • Position – Mot / phrase du début – Éléments situés entre deux items, avant, après…
  • 28. 28 04/10/2014 Représentation Taille de la collection Nb documents contenant le mot
  • 29. 29 04/10/2014 Représentation • Exploitation – Par comparaison des représentations via des mesures de similarité • Fondées intersection des représentations • Cosinus – Par des méthodes d’apprentissage artificiel
  • 30. 30 Des outils pour manipuler et représenter • Segmenteurs 04/10/2014 – Pas toujours simple : l’opéra / aujourd’hui ou O’hara, Jean-Paul / qu’a-t-il dit ? • Étiqueteurs morphosyntaxiques (PoS taggers) – LeDetMasSing présidentNomCommunMasSing… • Lemmatiseurs / analyseurs morphologiques / raciniseurs (stemmers) – parlons, parlera, parlèrent parler • Extracteurs de termes simples ou complexes, d’entités nommées, de relations sémantiques • Analyseur en dépendances, en chunks… • Autres outils liés à l’application visée (d’extraction de n-grammes au lieu de mots…)
  • 31. 31 04/10/2014 Apprentissage artificiel • Branche de l’IA qui étudie l’écriture de programmes qui s’améliorent en se confrontant aux données • Apprentissage supervisé – Données étiquetées disponibles • Apprentissage non supervisé – Pas de données étiquetées – Exemple de technique : clustering • Apprentissage de quoi ? – De représentations (ex. : probabilités de n-grammes de mots) – D’outils – De clusters – De connaissances par observation de régularités dans les masses de données…
  • 32. 32 Le chercheur en TAL à l’heure du Big Data • Transformation en scientifique des données (data scientist) 04/10/2014 – Quelles représentations (à grain souvent grossier) ? – Quelles techniques d’apprentissage artificiel ? – Quelles mesures de similarité ? – Quelles méthodes de visualisation ?
  • 33. 33 3- Applications pour faire face aux masses 04/10/2014 de données
  • 34. 34 3- Applications pour faire face aux masses 04/10/2014 de données • De très nombreuses applications pour aider l’humain face au déluge de données • Applications s’appuyant sur les représentations vues et des méthodes d’apprentissage artificiel • Zoom sur trois d’entre elles – Résumé automatique (d’un ou plusieurs textes) – Structuration et navigation – Fouille d’opinions
  • 35. 35 04/10/2014 3.1- Résumé automatique • Intérêt : savoir si texte à lire in extenso • Domaine ancien du TAL – Début dans les années 50 – Fort essor au milieu des années 90 • Notion de « bon » résumé ? – Réalités diverses • Idées-clés • Couverture maximale • « Bande-annonce » – Contrainte de taille
  • 36. 36 04/10/2014 Typologie(s) • Un ou des document(s) • Point de départ : document(s) ou requête • Résumé par abstraction ou par extraction – Si extraction, des phrases ou des mots-clés – Si extraction de phrases, curation a posteriori • Remplacement des mots répétés, des pronoms • Fusion de phrases, parties inutiles ôtées
  • 37. 37 04/10/2014 Typologie(s) • Un ou des document(s) • Point de départ : document(s) ou requête • Résumé par abstraction ou par extraction – Si extraction, des phrases ou des mots-clés – Si extraction de phrases, curation a posteriori • Remplacement des mots répétés, des pronoms • Fusion de phrases, parties inutiles ôtées • Méthodologie globale – Ancrage linguistique fort – Apprentissage artificiel – Représentations fondées recherche d’information (RI)
  • 38. 38 04/10/2014 Résumé par extraction • Saillance – Score pour chaque phrase / passage – Indicateurs combinés • Score des mots : tf, tf*idf (somme) • Présence de mots-clés, d’entités nommées, de marqueurs du discours… • Longueur • Position par rapport au texte, à son paragraphe… – Pondération entre les indicateurs pouvant être fixée ou apprise
  • 39. 39 04/10/2014 Résumé par extraction • Redondance – Saillance seule insuffisante – Non redondance par rapport aux phrases déjà dans le résumé – MMR (maximal marginal relevance [Goldstein et Carbonell 98]) • Score combinaison linéaire de saillance et non redondance • MMR » Argmax(PiÎR−S) [l(Sim1(Pi,Q)) − (1− l)max(DjÎS) Sim2(Pi,Dj)] – Q : document à résumer / requête utilisateur ; P : phrases – R : liste ordonnée des phrases ; S : sous-ensemble des phrases de R déjà dans le résumé – Sim : mesure de similarité (cosinus) – Cas multi-documents : clustering des phrases similaires et extraction d’une phrase par cluster
  • 40. 40 04/10/2014 Extraction fondée centroïde • Score d’une phrase : fonction de sa centralité par rapport au thème des(du) documents à résumer • Document centroïde – Pseudo-document qui contient les mots ayant un score (tf*idf) supérieur à un seuil – Cas multi-documents : un centroïde par cluster • Score d’une phrase fonction de – Sa similarité avec le centroïde (de son cluster dans le cas multi-documents) – Sa non redondance par rapport aux phrases retenues • Logiciel Mead : http://www.summarization.com/mead/
  • 41. 41 04/10/2014 Extraction fondée graphe • Score d’une phrase : fonction globalement du score des phrases avec lesquelles elle partage le plus de mots • Proche de PageRank (Google) – Une phrase recommande d’autres phrases • Algorithme TextRank [Mihalcea 2004] – Chaque phrase : un noeud du graphe – Arc entre deux noeuds : pondération selon le nombre de mots partagés (et longueur des phrases) – Poids initial assigné aux noeuds – Itération de l’algorithme recalculant le score du noeud en fonction du score des noeuds liés et du poids des arcs – Conservation des phrases aux scores les plus élevés • Intérêt : fonctionne sur l’information issue de tout le graphe
  • 42. 42 04/10/2014 Extraction fondée contraintes ou optimisation • Choix des phrases qui maximisent une fonction objectif • Donc pas un algorithme glouton, mais vue globale du choix des phrases (et de la redondance) • Expression de contraintes et de la fonction à maximiser – Contraintes : taille, phrases plutôt longues… • Utilisation d’un solveur de contraintes
  • 43. 43 04/10/2014 Extraction fondée contraintes ou optimisation • Un exemple : [Gillick et Favre 2009] • Fonction à optimiser – Somme des poids des concepts présents dans le résumé – Concept : bigramme informatif – Poids d’un concept : nombre de documents où il apparaît • Contraintes – Somme des longueurs des phrases conservées inférieure à la longueur maximum – Non sélection de phrases sans concept – Sélection d’une phrase : sélectionner tous ses concepts – Sélection d’un concept possible si présent dans au moins une phrase gardée
  • 44. 44 04/10/2014 Évaluation • Problème épineux, accord faible entre humains • De nombreuses campagnes d’évaluation – Conférences DUC puis TAC • Des mesures proposées – Résumés de référence produits par des humains – Mesures fondées sur la présence d’« unités », pas de phrases • ROUGE [Lin 2004] – Proportion de n-grammes partagés entre le résumé produit et les références – Plusieurs variantes
  • 45. 45 04/10/2014 Résumé de l’oral transcrit • Moins de travaux – Résumés de réunions, d’émissions TV • Application de méthodes de TAL • Adaptations pour l’oral – Reponctuation – Utilisation des mesures de confiance – Utilisation de l’information acoustique • Cas des résumés de vidéos – Travail a posteriori nécessaire pour avoir des résumés acceptables (i.e., écoutables et regardables)
  • 46. 46 04/10/2014 Résumé automatique • Bilan – Méthodologies fonctionnelles – Qualité / cohésion textuelle encore moyenne – Aspect temporel peu pris en compte – Résumé de données textuelles autres qu’écrites encore limité – Évaluation encore à améliorer
  • 47. 47 04/10/2014 3.2- Structuration et navigation • Données textuelles – Très nombreuses – Non organisées (« vrac ») – Souvent vues individuellement, peu au sein d’un ensemble • Organisation pour perception ou navigation éclairée • Regroupement / établissement de liens selon une notion de proximité, surtout sémantique • Différentes solutions, sur des textes écrits et de l’oral transcrit
  • 48. 48 Organisation a posteriori d’une requête • Recherche d’information (RI) une colonne par segment du texte 04/10/2014 – Mise en évidence des termes de la question dans les documents retournés [Hearst 1995] une ligne par mots de la question
  • 49. 49 Organisation a posteriori d’une requête • Recherche d’information (RI) 04/10/2014 – Mise en évidence des termes de la question dans les documents retournés [Hearst 1995] – Clustering des résultats (par thèmes, entités nommées…)
  • 50. 50 Organisation a posteriori d’une requête 04/10/2014
  • 51. 51 Organisation a posteriori d’une requête • Également une version par apprentissage à partir de chronologies manuelles (boosting) 04/10/2014 – Apprentissage des caractéristiques d’une date saillante – Traits liés au fait que plus une date est mentionnée plus elle est importante – Traits liés au fait qu’un événement important est mentionné longtemps • Dans les différents cas, constitution de la chronologie à partir des phrases contenant les dates saillantes
  • 52. 52 INDEX Requête : révolution tunisienne 04/10/2014 Le président égyptien Hosni Mubarak, qui a démissionné vendredi, et le président Zine El Abidine Ben Ali, qui a quitté le pouvoir le 14 janvier, ont fait face à des protestations populaires sans précédent. Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre. Des manifestants ont également blessés vendredi, y compris Chawki Belhoussine El Hadri Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre. La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police. Requête Plusieurs milliers de documents Transparents empruntés à X. Tannier
  • 53. 53 04/10/2014 Regroupés par dates normalisées Ordonnés selon l’importance de la date La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police. Des manifestants ont également blessés vendredi, y compris Chawki Belhoussine El Hadri 14 jan. 2011 Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre. Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe Ces révélations ont lieu après la révolte tunisienne qui a mit fin à 23 ans de règne de Ben Ali, qui s’est enfui de Tunisie pour l’Arabie Saoudite vendredi. Clusters temporels plus important 24 déc. 2010 13 jan. 2011 INDEX Ben Ali a donné jeudi l'ordre à la police de ne plus tirer sur les manifestants Requête Plusieurs milliers de documents Requête : révolution tunisienne
  • 54. 54 04/10/2014 Requête : révolution tunisienne Regroupés par dates normalisées Ordonnés selon l’importance de la date La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police. Des manifestants ont également blessés vendredi, y compris Chawki Belhoussine El Hadri 14 jan. 2011 Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre. Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe Ces révélations ont lieu après la révolte tunisienne qui a mit fin à 23 ans de règne de Ben Ali, qui s’est enfui de Tunisie pour l’Arabie Saoudite vendredi. Clusters temporels plus important 24 déc. 2010 13 jan. 2011 INDEX Ben Ali a donné jeudi l'ordre à la police de ne plus tirer sur les manifestants Requête Plusieurs milliers de documents Choix des descriptions d’événements Maximiser la pertinence Minimiser la redondance
  • 55. 55 • Chronologie événementielle 04/10/2014 Requête : révolution tunisienne 17 déc. 2010 : Mohamed Bouazizi s’immole par le feu pour protester contre le harcèlement de la police et le chômage. 25 déc. 2010 : Les protestations démarrent à Sidi Bouzid et s’étendent à Bouzaiene, Kairouan, Sfax, Ben Guerdane, Sousse. 27 déc. 2010 : Les protestations s’étendent à Tunis, la capitale du pays. 14 jan. 2011 : Le président Ben Ali s’enfuit en Arabie Saoudite. obtenue
  • 56. Autre réponse de la recherche d’information 56 • Les systèmes questions-réponses [Hirschman et Gaizauskas 2001] 04/10/2014 – Réponse précise à une question au lieu de documents contenant les termes de la question
  • 57. 57 Liens entre documents fondés contenu • Création de liens initiée par la communauté hypertexte [Allan 1997] 04/10/2014 – Souvent sur des documents à structure assez marquée (emails, articles de Wikipédia) – Souvent sur de petites collections (a posteriori d’une requête par exemple)
  • 58. 58 04/10/2014 Systèmes de recommandation • Souvent mélange de filtrages fondé contenu et collaboratif • Filtrage collaboratif – Calcul de corrélation entre les avis des autres utilisateurs et celui visé ̶ Prédiction pour un item : par exemple calculable par la moyenne pondérée (par le coefficient de corrélation) des évaluations pour cet item des utilisateurs similaires • Filtrage fondé contenu ̶ Élaboration d’un profil de l’utilisateur grâce aux mots-clés émergeant des items qu’il apprécie ̶ Comparaison au contenu d’un item non évalué pour le recommander ou pas à l’utilisateur
  • 59. 59 Graphes temporels d’événements [Tannier 2014] • Dépêches AFP contenant des événements • Organisation temporelle fondée sur trois relations 04/10/2014 – Même événement – Continuation (conséquence, suite naturelle) • Réaction (opinion sur un événement) • Annotation manuelle des dépêches entre dates d et d+7 si 2 mots-clés communs dans 1er paragraphe • Apprentissage (svm) – Relation vs pas de relation – Même événement vs continuation – Continuation vs réaction
  • 60. 60 Graphes temporels d’événements [Tannier 2014] 04/10/2014 2 avril, 21:05 Georges Bush déclare que le Pape était un « champion de la liberté humaine » 2 avril, 01:51 Un cardinal dit que la mort du Pape est imminente 2 avril, 15:39 Le Pape dans une situation sérieuse mais « résiste » 2 avril, 20:58 La Reine Elisabeth II exprime son « profond regret » 2 avril, 21:40 Jean-Paul II sera enterré mercredi au Vatican continuation continuation 2 avril, 19:53 Le Pape 2e satv mrilo, r1t9:57 réaction Le Pape e2s ta mvroilr,t 2a0u: 0V1atican réaction continuation Le Pape est mort au Vatican Transparent empruntés à X. Tannier
  • 61. 61 Structuration et navigation dans une 04/10/2014 collection de journaux TV • Segmentation automatique de journaux TV en reportages successifs [Gravier et al. 2011] • Navigation – Vers d’autres reportages abordant le même sujet – Vers des pages Web offrant de l’information complémentaire • Application de techniques de TAL et de RI, mêlant grain « grossier » et grain plus fin, sur la parole transcrite
  • 62. 62 04/10/2014 Segmentation thématique • La plupart des techniques fondée sur la cohésion lexicale – Changement de thème = changement de vocabulaire • Méthodes locales – Recherche de ruptures par comparaison de zones adjacentes et détection de minima de similarité [Hearst 1997] • Méthodes globales – Production « directe » des segments les plus cohérents [Utiyama et Isahara 2001] • Possibilité d’adaptation aux transcriptions de la parole ?
  • 63. 63 04/10/2014 Adaptation aux transcriptions • Particularités problématiques – Erreurs de transcription – Manque de répétitions • Modification du calcul de la cohésion lexicale – Prise en compte des mesures de confiance, en particulier lors du comptage des occurrences de mots – Prise en compte des relations sémantiques entre les mots cigarette cigare 0.476838 cigarette gitane 0.378044 cigarette gauloise 0.37508 cigarette clope 0.366334 cigarette tabac 0.304606 mots partageant des contextes similaires
  • 64. 64 04/10/2014 Résultats de la segmentation • Corpus – 57 JT de France 2 – février et mars 2007 • Système de reconnaissance de la parole – WER : 20% sur données Ester 2 (actualités radio) • Évaluation – Changement de thème à chaque reportage (1180 frontières) – Frontière correcte : 10s par rapport à une frontière de référence – Rappel, précision
  • 65. 65 04/10/2014 Résultats de la segmentation • Mesures de confiance et relations sémantiques
  • 66. • Mais aussi, forme de résumé informatif du contenu • Modifications du tf*idf car oral transcrit 66 Caractérisation des segments obtenus • Caractérisation par mots-clés extraits • Deux rôles – Permettre de comparer des reportages entre eux – Permettre d’interroger le Web pour trouver des pages liées – Lemmatisation – Pénalité introduite pour les noms propres – Prise en compte des mesures de confiance 04/10/2014
  • 67. 67 Extraction de mots-clés • Tf*idf classique sur les lemmes 04/10/2014 1.000 voile 0.756 adda 0.521 bernadette 0.501 laïcité 0.483 musulmans, musulmane 0.449 photo, photos 0.429 sarkozy 0.387 chirac 0.372 préfecture 0.364 serge du tchador et de la corne est au nom du principe de la laïcité de l' état on l' a quelques jours nicolas sarkozy rappeler fermement aux musulmans qui n' était pas question de porter le voile en photo des entités un rappel à l' ordre qui visiblement a échappé à bernadette chirac encore le journal le canard enchaîné l' épouse du président de la république se démènent pour qu' une religieuse puisqu' elle garder son voile est une étrange mal le voile de serge adda alberta ... S(l) = tf(l) x idf(l)
  • 68. 68 04/10/2014 Extraction de mots-clés • + Pénalités sur les noms propres - 1.000 voile - 0.567 adda ↑ 0.501 laïcité ↑ 0.483 musulmans, musulmane ↑ 0.449 photo, photos ↓ 0.391 bernadette ↑ 0.372 préfecture ↑ 0.330 mimosa ↑ 0.329 tchador ↑ 0.326 carmélites ↓ 0.322 sarkozy ↓ 0.290 chirac ↓ 0.273 serge du tchador et de la corne est au nom du principe de la laïcité de l' état on l' a quelques jours nicolas sarkozy rappeler fermement aux musulmans qui n' était pas question de porter le voile en photo des entités un rappel à l' ordre qui visiblement a échappé à bernadette chirac encore le journal le canard enchaîné l' épouse du président la publique se démènent pour qu' une religieuse puisqu' elle garder son voile est une étrange mal le voile de serge adda alberta ... S’(l)= tf’(l) x idf(l)
  • 69. 69 Extraction de mots-clés • + Prise en compte des mesures de confiance 04/10/2014 - 0.992 voile ↑ 0.500 laïcité ↑ 0.458 musulmans, musulmane ↓ 0.454 adda ↑ 0.428 photo, photos ↓ 0.390 bernadette ↑ 0.371 préfecture ↑ 0.328 tchador ↑ 0.325 carmélites ↓ 0.321 sarkozy ↓ 0.294 serge ↓ 0.270 chirac du tchador et de la corne est au nom du principe de la laïcité de l' état on l' a quelques jours nicolas sarkozy rappeler fermement aux musulmans qui n' était pas question de porter le voile en photo des entités un rappel à l' ordre qui visiblement a échappé à bernadette chirac encore le journal le canard enchaîné l' épouse du président de la république se démènent pour qu' une religieuse puisqu' elle garder son voile est une étrange mal le voile de serge adda alberta ...
  • 70. Récupération de pages Web liées à l’aide de erreurs de transcription 70 04/10/2014 requêtes • Conservation des premiers mots-clés • Requêtes formées par mélange de 2 ou 3 mots-clés voile laïcité voile musulmans voile adda ... Limite l’influence des voile laïcité photo laïcité adda photo musulmans adda photo
  • 71. 71 04/10/2014 Texmix • Application : système de navigation au sein d’une collection de journaux TV • Utilisation de techniques issues de différents travaux de recherche dans l’équipe TexMex • Démonstration : Texmix
  • 74. 74 04/10/2014 3.3- Fouille d’opinions • Analyse de données exprimant des opinions : réseaux sociaux, blogs, fora, commentaires sur des sites de commerce électronique … • Enjeux – Individuels : achat d’un matériel, réservation de séjour… – Économiques : perception d’un produit (propre ou concurrent) par des utilisateurs, avis synthétique sur un sujet… – Politiques : perception d’une réforme, de sujets de mécontentement…
  • 75. 75 04/10/2014 Un travail compliqué • Samedi dernier, j’ai acheté un mobile Nokia et ma copine a acheté un Samsung avec Bluetooth. On s’est appelés quand on est rentrés. La voix sur mon téléphone n’était pas si claire, pire en tous cas que sur mon Motorola précédent. La batterie ne dure pas longtemps non plus. Ma copine était plutôt satisfaite de son téléphone. Moi, je voulais un téléphone avec un bon son. Donc j’étais déçu de mon achat. J’ai ramené le téléphone hier. (exemple de [Liu 2012] traduit) • Nombreux aspects du TAL impliqués – Dont certains aspects de compréhension assez fins • Coréférence, analyse syntaxique, analyse sémantique voire pragmatique (claire 0 ou 0 ?)… • Données à analyser très diverses – En qualité – En contenu : avis global sur une entité, avis sur différents aspects d’une entité, avis sur plusieurs entités, zones factuelles et zones subjectives, avis se répondant…
  • 76. 76 04/10/2014 4 tâches essentielles • Extraction d’opinions – Identifications des textes porteurs d’opinions – Localisation des passages/phrases… porteurs d’opinions • Classification d’opinions – Attribution d’une polarité à l’opinion émise : positive, négative et parfois neutre – Proximité avec la classification de textes mais mots polarisés importants • Constitution de ressources d’opinion – Lexiques de mots ou d’expressions polarisés • Résumé d’opinions
  • 77. Approches supervisées de classification de 77 04/10/2014 documents et phrases • De très nombreux travaux aux deux niveaux • Bons résultats avec des classifieurs de type SVM et NB (Bayésien naïf) • De très nombreux traits utilisés – Mots, éventuellement pondérés – Étiquettes catégorielles (adjectifs importants, ponctuation…) – Mots porteurs d’opinion – N-grammes de mots, d’étiquettes (ex. : N+Adjpos) – Présence de mots « changeurs » de polarité (négation, mais…)…
  • 78. 78 04/10/2014 Approches non supervisées de classification de documents et phrases • Également de nombreux travaux aux deux niveaux • Utilisation de ressources d’opinion – Lexiques – Règles plus ou moins ad hoc • Un exemple au niveau document [Turney 2002] – Étiquetage catégoriel de commentaires sur des voitures, films… – Extraction de bigrammes répondant à des patterns (d’expression d’opinion) • Adj-Nom commun, Adv-Adj si 3e mot pas nom commun… – Moteur de recherche (AltaVista) pour calculer des scores d’affinité de ces bigrammes avec « excellent » et avec « poor » – Moyenne, pour tous les patterns contenus, des différences d’affinité avec excellent et poor : 0 et 0
  • 79. 79 04/10/2014 Constitution de ressources • Lexiques de mots / d’expressions : petit, coûte un bras • Développement manuel : coûteux • Des mots amorces (ou un lexique amorce) +… – Approche fondée dictionnaire • Extension par exemple grâce aux synonymes / antonymes du dictionnaire • Exemple : SentiWordNet [Esuli et Sebastiani 2006] – Extension par WordNet + classifieur appris grâce aux vecteurs de mots formés à partir des gloses du lexique • Développement rapide, mais polarité des mots dépendant du contexte et du domaine… – Petit : le téléphone est petit (+) / l’écran LCD est petit (-) – Long : la durée de vie de la batterie est longue (+) / le temps de mise au point est long (-)
  • 80. 80 04/10/2014 Constitution de ressources • Des mots amorces (ou un lexique amorce) +… – Approche fondée corpus • Par exemple par extension via des constructions syntaxiques au sein d’une phrase du corpus, voire au-delà : présence de ET, OU, MAIS, négation… – Cette voiture est puissante (+) et spacieuse : spacieuse annoté comme positif – Cette voiture est puissante (+). Toutefois elle est chère dans sa gamme : chère annoté comme négatif
  • 81. 81 04/10/2014 Du gros grain au grain fin • Avec l'EOS 100D, Canon a miniaturisé son 650D en conservant ses principales qualités (simplicité d'utilisation, capteur et électronique efficaces, écran excellent). La réactivité et la transportabilité ont aussi été améliorées mais le zoom du kit vient gâcher tous les efforts : disproportionné en volume, bourré d'aberrations optiques et surtout très imprécis, il ne faudra pas hésiter à… (extrait adapté du site lesnumeriques.com) • Avis global positif mais certains aspects très négatifs • Donc avis aspect par aspect nécessaire • Classification de documents de phrases d’aspects • Détermination de quel avis porte sur quoi : analyse à grain fin • Vision de l’opinion de Liu [Liu 2012] – (entité cible, aspect de l’entité, opinion, source, date) – Structuration du non-structuré
  • 82. 82 04/10/2014 Résumé d’opinions • Nombreuses opinions émises sur une entité ou ses parties besoin de synthèse • Synthèse textuelle – Forme particulière de résumé multi-documents – Techniques par extraction de phrases utilisables dans une certaine mesure si traits d’opinion (présence de mots polarisés) pris en compte – Mais nécessité de prendre en compte le côté quantitatif et/voire les aspects de l’entité évalués – Structure : 1ere phrase = opinion sur l’entité, puis une phrase par aspect… en intégrant des nombres si multiples avis
  • 83. 83 04/10/2014 Résumé d’opinions • Synthèse textuelle : exemple extrait des transparents associés à [Liu 2012]
  • 84. 84 04/10/2014 Résumé d’opinions • Synthèse graphique exemple extrait des transparents associés à [Liu 2012] – Synthèse souvent préférée ; formes multiples – Si temps connu, évolution affichable
  • 85. 85 04/10/2014 Résumé d’opinions Extrait de Booking.com
  • 86. 86 04/10/2014 Résumé d’opinions • Agrégation d’opinions OpinionEQ exemple extrait des transparents associés à [Liu 2012]
  • 87. 87 04/10/2014 Encore du travail… • De nouvelles recherches – Faux commentaires • Commentaires positifs sur ses propres produits, négatifs sur les produits concurrents • Recherche sur les contenus difficile ; plutôt patterns de comportement – Que des commentaires positifs sur une marque, négatifs sur une autre – Notes très élevées, le même jour… – Contextualisation des opinions (fil de tweets) • Encore beaucoup de choses non/mal traitées – Recherches bridées par toutes les particularités du langage naturel • Sarcasme, ironie • Aspects parfois implicites : le téléphone est cher, ne rentre pas facilement dans une poche • …
  • 88. 88 4- Applications tirant profit de la profusion 04/10/2014 de données
  • 89. 89 4- Applications tirant profit de la profusion 04/10/2014 de données • Profusion et redondance – Masses de données comme une solution et non comme un problème – Constitution d’informations plus complètes, plus certaines • Applications s’appuyant sur les représentations vues et des méthodes d’apprentissage artificiel • Zoom sur trois d’entre elles – Traduction automatique – Journalisme de données – Fact-checking (vérification par les faits)
  • 90. 90 04/10/2014 4.1- Traduction automatique
  • 91. 91 04/10/2014 Une histoire ancienne • 1954 : 1re démonstration publique d’un traducteur Russe / Anglais IBM - université de Georgetown – 250 mots, 6 règles de grammaire, 49 phrases • Grand enthousiasme dans les années 50 et 60, mais… – 1960 : Bar-Hillel (auteur de la 1re conférence sur la T.A. en 52) • L’obtention de traductions automatiques d’aussi haut niveau que les humaines est irréaliste – 1966 : rapport ALPAC (automatic language processing advisory committee) • La traduction automatique est plus lente, moins pertinente et 2 fois plus chère que l’humaine • Recommandation de développement de l’aide à la traduction humaine
  • 92. 92 04/10/2014 Jusqu’à la fin des années 80 • Trois approches fondées sur des règles (lexicales, d’analyse morphologique, syntaxique…) – Directe : traduction d’une langue source en une cible à l’aide d’un dictionnaire et de règles – Interlangue : utilisation d’une représentation intermédiaire abstraite – Par transfert : analyse de la source, production d’une représentation, transfert vers une représentation-cible et génération en langue cible • Exemples de règles – to grow : grandir mais faire pousser si complément plante… – Adjectif + Nom Nom + Adjectif
  • 93. 93 04/10/2014 Début des années 90 • Développement d’Internet • Besoins nouveaux – Traduction pour tous – Production rapide de traductions compréhensibles – Différentes langues, différents domaines • Volumes aussi solution • Développement de la traduction fondée corpora ou données – Traduction automatique statistique (TAS) – Traduction fondée exemples
  • 94. Traduction automatique statistique [Brown et al. 1990] • f : phrase en langue source (Français) ; e phrase en langue cible (English) • Traduction de f en e = recherche de e* qui maximise P(e|f) • Décomposition en 2 problèmes 94 04/10/2014 règle de Bayes – e* = argmax P(e|f) = argmax P(f|e) P(e) e e – Développer un modèle de traduction garantissant que P(f|e) est élevé pour toute phrase cible appariée à f – Développer un modèle de la langue cible associant des valeurs P(e) élevées aux phrases grammaticales Estimation des probabilités de n-grammes sur un corpus monolingue Estimation sur un corpus bilingue parallèle aligné au niveau phrase
  • 95. 95 04/10/2014 Corpus multilingues parallèles • Hansard : débats parlementaires canadiens en Français et Anglais (environ 20 millions de mots par langue) • Europarl : débats parlementaires européens en 21 langues (environ 60 millions de mots par langue) • Mais aussi textes techniques, cours, classiques de la littérature… Monsieur le Président, je voudrais porter à l’attention de la Chambre que nous célébrons aujourd’hui, comme le savent les honorables députés, l’anniversaire de la proclamation de la Charte canadienne des droits et libertés [...] Mr Speaker, I would like to bring to the attention of the House that today, as Hon. Members are no doubt aware, we are celebrating the anniversary of the proclamation of the Canadian Charter of Rights and Freedoms [...] Alignement au niveau phrase (ex. extrait du Hansard)
  • 96. 96 04/10/2014 Modèles de traduction • Rappel rôles des modèles de traduction et de langue – Modèle de traduction : guider la construction pour une phrase source d’un ensemble d’hypothèses de phrases en langue cible – Modèle de langue : permettre le choix final en favorisant les phrases grammaticales • Pour chaque unité de traduction en langue source : des traductions possibles en langue cible + scores • 1ers modèles de traduction = modèles d’alignements de mots – IBM, Brown et al. 1990 : 5 modèles successivement proposés • IBM1 : hypothèse que toutes les valeurs d’alignement sont équiprobables • IBM2 : introduction d’une dépendance entre l’alignement du moti et sa position dans la phrase source • IBM3 : introduction de la notion de fertilité (un mot source peut être traduit par 0 à n mots) • …
  • 97. 97 04/10/2014 Modèles de traduction initiaux • Table de transfert (lexique bilingue probabilisé) le (the 0.38) (of 0.15)… ministre (minister 0.7) (the 0.2) (prime 0.15)… années (year 0.4) (years 0.3) (some 0.1)…
  • 98. 98 04/10/2014 Modèles de traduction = modèles d’alignements de segments • Début des années 2000 [Zens, Och, Ney 2002] • Appui sur les alignements mot-à-mot (dans les deux directions F/E et E/F) • Intérêt de l’alignement de segments – Levée d’ambiguïtés lexicales – Prise en compte de nombres de mots différents dans les deux langues – Modélisation simple de réordonnancements locaux • Nécessité de modélisation des distorsions (réordonnancements non locaux)
  • 99. • En fait, information en règle générale plus riche que dans l’exemple précédent 99 Modèles d’alignements de segments • Table de transfert (ou encore de segments) 04/10/2014 a big (le grand 0.1) (un des principaux 0.04) (un grand 0.01) (Une grande 0.015) (ont une grande 0.02)…
  • 100. 100 04/10/2014 Traduction automatique statistique • Traduction – Segmentation de f en segments de longueurs variables – Pour chaque segment, choix d’un équivalent en langue cible – Réarrangement des segments cibles pour avoir la traduction e • Décision du système de TAS fondée sur 3 modèles – Modèle de traduction : évalue la qualité d’un appariement entre f et e et délivre un coût – Modèle de distorsion : évalue la plausibilité du réordonnancement induit par cet appariement et délivre un coût – Modèle de langue : évalue la qualité de la phrase cible formée et délivre un coût • Meilleure traduction (décodage) = meilleur compromis
  • 101. 101 04/10/2014 Exemple transparent emprunté à F. Yvon
  • 102. 102 04/10/2014 Ressources [Allauzen et Yvon 2011] • Outre les corpora monolingues ou parallèles, voire comparables… • Outils d’alignements – Giza++ http://code.google.com/p/giza-pp/ – Outils de Berkeley http://code.google.com/p/berkeleyaligner/ – Boîte à outils Uplug (manipulation de corpus et alignements) http://sourceforge.net/projects/uplug • Systèmes de TAS – Moses http://www.statmt.org/moses/
  • 103. 103 04/10/2014 Évaluation • Tâche complexe : fidélité au texte source, compréhensibilité, caractère naturel… • Évaluation subjective (experts) vs automatique • Plusieurs mesures automatiques • Exemple : BLEUk (Bilingual evaluation understudy) – Comparaison de l’hypothèse de traduction à une ou des traductions de référence – N-grammes de longueur 1 à k partagés ou pas
  • 104. 104 04/10/2014 Traduction fondée exemples • [Nagao 1984] mais essor fin des années 80 • Utilisation d’une mémoire de traduction – Phrases déjà traduites, parfois abstraites pour accroître les possibilités de généralisation • Deux parties – Identification des fragments de la phrase source s’appariant avec des exemples – Recombinaison des éléments traduits pour obtenir une phrase correcte en langue cible
  • 105. 105 04/10/2014 Traduction de la parole • Initialement des travaux portant sur des domaines restreints – Négociations multilingues, réservations téléphoniques de séjour… • Pas de contraintes de domaines maintenant • Diverses voies explorées – Traduction a posteriori de la transcription • Reponctuation, suppression des disfluences… – Traduction des sorties intermédiaires des systèmes de RAP • Scores des deux systèmes mêlés pour ordonner les hypothèses – Production de transcriptions que le système de traduction sait traduire • Modèle de langue du système de transcription biaisé par les groupes de mots du modèle de traduction
  • 106. 106 04/10/2014 4.2- Journalisme de données • Collecte, filtrage, combinaison, analyse de grands volumes de données pour en faire émerger une histoire pertinente • Principes – Découverte de faits intéressants – Mise en évidence de tendances cachées – Compilation d’ensembles de données • Accessibles sur une machine • Distribuables au public – Visualisation appropriée
  • 107. 107 04/10/2014 4.2- Journalisme de données • Collecte, filtrage, combinaison, analyse de grands volumes de données pour en faire émerger une histoire pertinente • Principes – Découverte de faits intéressants – Mise en évidence de tendances cachées – Compilation d’ensembles de données • Accessibles sur une machine • Distribuables au public – Visualisation appropriée l’utilisateur doit pouvoir interagir avec les données, les personnaliser passage d’une histoire complexe à un graphique clair (interactif, personnalisable)
  • 108. 108 04/10/2014 Une nouveauté qui vient de loin… • 1854 – John Snow : carte d’une épidémie de cholera permettant de comprendre la concentration près des pompes à eau image extraite de Wikipédia
  • 109. 109 04/10/2014 Une nouveauté qui vient de loin… • 1854 – John Snow : carte d’une épidémie de cholera permettant de comprendre la concentration près des pompes à eau • 1858 – Florence Nightingale : graphique sur la mortalité dans l’armée britannique montrant que plus de morts étaient dues aux maladies qu’aux balles image extraite de Wikipédia
  • 110. 110 04/10/2014 Une nouveauté qui vient de loin… • À partir des années 2000 : beaucoup de bases de données disponibles • 2006 – A. Holotavy : principes de ce que devrait être le journalisme de données [Holotavi 2006] • 2011 : le guide du datajournalisme (The Data Journalism Handbook http://datajournalismhandbook.org/) • 2012 – M.J. Berens et K. Armstrong (Seattle Times) : prix Pulitzer du journalisme d’investigation pour leur travail sur le lien surmortalité – méthadone dans l’état de Washington
  • 111. 111 04/10/2014 Exemple 1 : Gapminder
  • 112. 112 Exemple 2 : émeutes 2011 en Angleterre • The Guardian − Lien entre les adresses des accusés et les zones de pauvreté 04/10/2014
  • 113. 113 04/10/2014 Quelles données ? • Collectivités, services publics www.data.gouv.fr
  • 114. 114 04/10/2014 Quelles données ? • Collectivités, services publics www.data.gouv.fr • Web… • Éventuellement des données plus confidentielles (WikiLeaks) abondance croisement fiabilité • Beaucoup de bases structurées ; encore très peu de TAL
  • 115. 115 04/10/2014 Techniques de RI textuelle • J. Stray et J. Burges 2010 • Travail sur les rapports d’enquêtes de l’US Army connus sous le nom de Iraq War Logs Leak – 390000 rapports d’action sur la guerre de 2004 à 2009 • Focus sur le mois de décembre 2006 (11600 rapports) • Chaque document – Représenté par un vecteur pondéré de mots (tf*idf) – Caractérisé par ses 3 mots les plus saillants – Représenté par un noeud coloré selon le type d’incident décrit (métadonnée) • Comparaison : cosinus • Visualisation grâce au logiciel de graphe Gephi https://gephi.github.io/ – Chaque cluster formé caractérisé par ses mots saillants
  • 116. 116 04/10/2014 J. Stray et J. Burges 2010 • Caractérisation thématique
  • 117. 117 04/10/2014 J. Stray et J. Burges 2010 Événements criminels Risque d’explosion
  • 118. 118 04/10/2014 Plus de TAL et de linguistique • J. Véronis : analyse linguistique fine de discours politiques • Focus sur – L’utilisation des pronoms – Les EN employées – Les thèmes abordés • Travail important lors de la campagne présidentielle 2012 : Observatoire des discours
  • 120. 120 Vers de l’automatisation grâce au TAL • [Tannier 2014] : identification automatique de relations d’alliance ou d’opposition entre pays sur un sujet donné • Corpus : dépêches AFP + Web • Pré-travail 04/10/2014 – Création d’un lexique de 110 déclencheurs de relations positives (applaud, agree) ou négatives (criticism…) • Prétraitement du corpus – Normalisation des dates, segmentation en chunks, résolution de coréférence, étiquetage en EN – Utilisation de DBPedia et d’heuristiques pour lier capitales, villes, personnes et pays
  • 121. • Apprentissage d’un classifieur (SVM) classant chaque phrase avec au moins deux EN et un déclencheur 121 Vers de l’automatisation grâce au TAL 04/10/2014 – Relation ou pas de relation – Relation positive ou négative Indonesia voiced support for East Timor's bid to join the ASEAN. POS(Indonesia, East Timor) China earlier protested Obama's meeting with the Dalai Lama, [...]. NEG(China, USA)
  • 122. • Chaque phrase contenant au moins une relation : contenu, pays impliqués, relation(s) et date indexés • Interrogation via un moteur de recherche 122 Vers de l’automatisation grâce au TAL 04/10/2014 – Sujet (mots-clés) – Dates minimale et maximale – Nombre de pays • Pour chaque paire de pays (e1, e2) à la date d, calcul d’un poids – Poids(e1, e2, d) = log (, , ) (, , ) • Lissage du poids sur une fenêtre temporelle – Moyenne pondérée sur la fenêtre
  • 123. Requête « Syria » entre « USA » et « Russia » 123 04/10/2014 Série temporelle – 2 pays Transparent emprunté à X. Tannier
  • 124. Transparent emprunté à X. Tannier 124 04/10/2014 Requête « Syria » en « 2012 » Distances et couleurs marquants les alliances/oppositions
  • 125. 125 04/10/2014 4.3- Fact-checking • Vérification par les faits • Vérification de la véracité d’affirmations issues de discours ou de documents – Vrai / faux, omissions, lectures à sens unique… • Par comparaison avec des sources d’informations fiables – Tirer profit de la masse d’informations disponible
  • 126. 126 04/10/2014 Des exemples • Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’université de Pennsylvanie • 2007 : site PolitiFact du Tampa Bay Times – Truth-O-Meter
  • 128. 128 04/10/2014 Des exemples • Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’université de Pennsylvanie • 2007 : site PolitiFact du Tampa Bay Times – Truth-O-Meter – Obameter • 2007 : site FactChecker du Washington Post
  • 130. 130 04/10/2014 Des exemples • Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’université de Pennsylvanie • 2007 : site PolitiFact du Tampa Bay Times – Truth-O-Meter – Obameter • 2007 : site FactChecker du Washington Post • En France – Radio : Le vrai du faux, France-Info (2012) – TV : Véritomètre sur la campagne présidentielle de 2012, OWNI et iTELE
  • 132. 132 04/10/2014 Techniques de vérification • Travail essentiellement manuel – Par recoupement de plusieurs bases • Fiabilité acquise (ou renforcée) grâce à la masse de données – Parfois par appel au crowd-sourcing • Un peu d’automatisation : prototype TruthTeller du Washington Post – Repérage d’affirmations stockées en bases et déjà contrôlées dans un discours transcrit
  • 134. 134 04/10/2014 Ce que le TAL peut offrir • Recherche d’information – Comparaison de contenus • Systèmes de questions/réponses – Réponses à des questions précises • Extraction d’informations – Extraction d’un fait, de ses attributs • Techniques d’apprentissage artificiel – Pour faire émerger des connaissances
  • 135. 135 04/10/2014 Ce que le TAL offre actuellement • Trouver un fait exact parmi des informations contradictoires – En se fondant sur la fiabilité des sites le citant [Yin et al. 2007] • Interdépendance fiabilité d’un site – crédibilité d’un fait • Score d’un fait : dépend du score des sites le mentionnant et est influencé par les scores des faits qui lui sont similaires • Score d’un site : dépend du score des faits qu’il contient • Algorithme itératif transitif – Scores des sites initialisés à la même valeur – Scores des faits calculés – Scores des sites recalculés – Itération jusqu’à convergence
  • 136. 136 04/10/2014 Ce que le TAL offre actuellement • Trouver un fait exact parmi des informations contradictoires – En se fondant sur l’objectivité du langage des sites le citant [Nakashole et Mitchell 2014] • Langage objectif : neutre, impartial, non personnel, non émotionnel • Interdépendance objectivité d’une source et sa fiabilité • Proposition d’un classifieur (apprentissage supervisé) objectif vs subjectif, fondé sur différents traits dont la présence de mots issus de lexique d’opinion • Score d’un candidat-fait : fonction de l’objectivité des sources qui le citent et du score des faits co-mentionnés avec lui
  • 137. 137 04/10/2014 Ce que le TAL offre actuellement • Reconnaître si la source d’un fait croit en la véracité du fait qu’elle énonce [Saurì et Pustejovsky 2012] – Granularité assez fine • Polarité du fait : affirmé ou nié • Modalité épistémique : certain, probable ou possible – Travail d’expertise linguistique pour définir • Une liste de marqueurs de la polarité et de la modalité : – non, certainement, supposé, possible, apparemment, pouvoir, dire, douter, regretter… • Les influences entre ces marqueurs au fil des constructions syntaxiques • Bilan global : TAL encore peu utilisé en Fact-checking
  • 138. 138 04/10/2014 Conclusions TAL et Big Data • Pas une révolution, celle du TAL datant d’avant – Mais plus de données, plus de variété – Revisite d’applications ou techniques de TAL – Essor d’applications pour faire face au déluge de données – Essor d’applications pour tirer profit du déluge de données • Chercheur en TAL transformé en « scientifique des données » (data scientist) – Mais aussi utilisation de représentations mixant des grains différents • Prise de conscience de l’importance de l’accès au contenu des données langagières • Attente d’applications efficaces et explicatives
  • 139. 139 04/10/2014 Bibliographie • ALLAN (J.), Building Hypertext Using Information Retrieval, Information Processing and Management, Vol. 33(2), 1997, p. 133-144. • ALLAUZEN (A.) et YVON (F.), Méthodes statistiques pour la traduction automatique, dans GAUSSIER (É.) et YVON (F.), Modèles statistiques pour l'accès à l'information textuelle, Paris, Hermès, chapitre 7, 2011, p. 271-356. • BROWN (P.F.), COCKE (J.), DELLA PIETRA (S.A.), DELLA PIETRA (V.J.), JELINEK (F.), LAFFERTY (J.D.), MERCER (R.L.) et ROOSSIN (P.S.), A statistical approach to machine translation, dans Computational Linguistics, Vol. 16(2), 1990, p. 79-85. • ESULI (A.) et SEBASTIANI (F.), SentiWordNet: A publicly available lexical resource for opinion mining, dans Actes de 5th Conference on Language Resources and Evaluation (LREC 2006), Gênes, Italie, 2006, pp. 417-422. • FAIRON (C.), KLEIN (J.) et PAUMIER (S.), Le langage SMS. Étude d'un corpus informatisé à partir de l'enquête « Faites don de vos SMS à la science », Louvain-la- Neuve, Presses universitaires de Louvain, 2006. • GILLICK (D.) et FAVRE (B.), A scalable model for summarization, dans Actes de NAACL HLT Workshop on Integer Linear Programming for Natural Language Processing, Boulder, USA, 2009, p. 10-18. • GOLDSTEIN (J.) et CARBONELL (J.), Summarization : (1) using MMR for diversity-based reranking and (2) evaluating summaries, dans Actes de Workshop On TIPSTER Text Program : Phase III, Baltimore, USA, 1998, p. 181-195. • GRAVIER (G), GUINAUDEAU (C.), LECORVÉ (G.) et SÉBILLOT (P.), Exploiting speech for automatic TV delinearization : From streams to cross-media semantic navigation, dans Eurasip Journal on Image and Video Processing, Vol. 2011, 2011. • HEARST (M.A.), TileBars: Visualization of term distribution information in full text information access, dans Actes de ACM SIGCHI Conference on Human Factors in Computing Systems (CHI), Denver, USA, 1995, p. 59-66. • HEARST (M.A.), TextTiling: Segmenting text into multi-paragraph subtopic passages, dans Computational Linguistics, Vol. 23(1), 1997, p. 33-64. • HIRSCHMAN (L.) et GAIZAUSKAS (R.), Natural language question answering, dans Natural Language Engineering, Vol. 7(4), 2001, p. 275-300. • HOLOTAVI (A.) (2006, 6 sep.), A fundamental way newspaper sites need to change, sur http://www.holovaty.com/writing/fundamental-change/. Consulté le 9 juil. 2014. • LIN (C.-Y.), Rouge: A package for automatic evaluation of summaries, dans Actes de ACL Workshop Text summarization branches out, Barcelona, Espagne, 2004, p. 74-81. • LIU (B.), Sentiment analysis and opinion mining, dans Morgan Claypool publishers, 2012. • MIHALCEA (R.), Graph-based ranking algorithms for sentence extraction, applied to text summarization, dans Actes de 42nd Annual Meeting of the Association for Computational Linguistics, companion volume (ACL 2004), Barcelona, Espagne, 2004. • NAGAO (M.), A framework of a mechanical translation between Japanese and English by analogy principle, dans Elithorn (A.) et Banerji (R.), Artificial and Human Intelligence, Amsterdam, North-Holland Publishing Company, chapitre 11, 1984, p. 173-180. • NAKASHOLE (N.) et MITCHELL (T.M.), Language-aware truth assessment of fact candidates, dans Actes de 52nd Annual Meeting of the Association for Computational Linguistics (ACL 2014), Baltimore, USA, 2014, p. 1009-1019. • SAURÍ (R.) et PUSTEJOVSKY (J.), Are you sure that this happened? Assessing the factuality degree of events in text, dans Computational Linguistics, Vol. 38(2), 2012, p. 261-299. • TANNIER (X.), Traitement des événements et ciblage d'information, Habilitation à diriger des recherches, Université Paris Sud, 2014. • TURNEY (P.D.), Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews, dans Actes de 40th Annual Meeting of the Association for Computational Linguistics (ACL 2002), Philadelphia, USA, 2002, p. 417-424. • UTIYAMA (M.) et ISAHARA (H.), A statistical model for domain-independent text segmentation, dans Actes de 39th Annual Meeting on the Association for Computational Linguistics (ACL 2001), Toulouse, France, 2001, p. 499-506. • YIN (X.), HAN (J.) et Yu (P.S.), Truth discovery with multiple conflicting information providers on the Web, dans Actes de 13th International Conference on Knowledge Discovery and Data Mining (KDD'07), Short paper, San Jose, USA, 2007, p. 1048-1052. • ZENS (R.), OCH (F.J.) et NEY (H), Phrase-based statistical machine translation, dans KI-2002: Advances in Artificial Intelligence, Springer Verlag, LNAI Vol. 2479, 2002, p. 18-32.