"Le traitement automatique du langage (TAL) face aux données textuelles volumineuses et potentiellement dégradées : qu’est-ce que cela change ?" : Présentation de Pascale Sebillot, chercheuse à l'IRISA lors du séminaire IST Inria : "Big Data, nouvelles partitions de l'information" ; Saint-Paul-Lès-Dax du 6 au 10 octobre 2014.
1. Le traitement automatique des langues
face aux données textuelles
volumineuses et potentiellement
dégradées : qu’est-ce que cela change ?
Pascale SÉBILLOT PRU en informatique à l’INSA de Rennes
Membre de l’équipe LinkMedia de l’IRISA et
d’INRIA
2. 2
04/10/2014
LinkMedia
Creating and exploiting explicit links between multimedia fragments
Périmètre de LinkMedia
Objectifs
• fondements scientifiques de la
structuration de collections de documents
multimédias par des liens explicites
• nouveaux usages et techniques de
traitement de contenus induits par ces
liens
3. 3
04/10/2014
Mon parcours de recherche
• Domaine : traitement automatique des langues (TAL)
• Thèse en syntaxe passage à la sémantique
• Acquisition de connaissances à partir de corpus de textes
grâce à des techniques d’apprentissage artificiel
• Application du TAL à la recherche d’information
• Application du TAL à la reconnaissance automatique de la
parole
• Application du TAL à la structuration de (collections de)
documents multimédias
4. 4
04/10/2014
Impact du Big Data sur le traitement
automatique des langues ?
• Révolution ?
5. 5
04/10/2014
Impact du Big Data sur le traitement
automatique des langues ?
• Révolution : NON
– Révolution du TAL faite fin des années 80 – début des années 90
• Du TAL rationaliste…
– Approches symboliques à base de règles
– Expertise humaine forte
– Focus sur l’explication des jugements de grammaticalité, la
construction de représentations du sens élaborées…
• … au TAL empirique
– Approches fondées sur les données
– Volumes de textes et puissance des machines croissants
– Apprentissage artificiel, linguistique de corpus
– Observation à grande échelle, représentations du « sens utile »
6. 6
04/10/2014
Impact du Big Data sur le traitement
automatique des langues ?
• Révolution : OUI
– Nouveaux types de données textuelles à prendre en
compte
– Volumes toujours plus conséquents
– Empirisme toujours plus présent
• Moins / pas (ou très peu) d’expertise
• Plus de comptage
7. 7
04/10/2014
Impact du Big Data sur le TAL
Organisation de la présentation
1. Spécificités des données textuelles dans le
monde du Big Data
2. Représentations et exploitation des données
textuelles
3. Applications pour faire face aux masses de
données
4. Applications tirant profit de la profusion de
données
8. 8
1- Spécificités des données textuelles
04/10/2014
dans le monde du Big Data
• Les 3 V (volume, variété, vélocité) appliqués aux
données textuelles
• Propriétés intrinsèques compliquant l’accès au
sens
9. 9
04/10/2014
Variété
• Données produites (directement) sous une forme
textuelle
– Textes écrits, emails, sites Web
– Blogs, réseaux sociaux
– Sms
10. 10
04/10/2014
Variété
• Données produites (directement) sous une forme
textuelle
– Textes écrits, emails, sites Web
– Blogs, réseaux sociaux
– Sms
• Tu te x mal1
• JV encor dvoir 10QT
aussi
dans
la
qualité
Exemples issus de [Fairon et al. 2006]
11. 11
04/10/2014
Variété
• Données langagières issues d’un média différent
– Système de reconnaissance… générateur d’erreurs
– Images de textes
• Dactylographiés, manuscrits
• OCR : logiciel de reconnaissance optique de caractères
– Segmentation en caractères individuels
– Classifieur fondé sur un apprentissage neuronal pour la
reconnaissance
– Parole contenue dans les documents audio/vidéos
• Système de reconnaissance automatique de la parole (RAP)
12. Système de reconnaissance automatique de
12
04/10/2014
la parole
Système de RAP
Signal de parole
Hypothèse de
transcription
w*1 ... w*P
c1 ... cP
Mesures de
confiance
13. Système de reconnaissance automatique de
13
04/10/2014
Lexique phonétisé
Modèle de langue
Modèle acoustique
Caractéristiques
numériques du
signal sonore
contenant de
la parole (énergie,
fréquence vocale…)
y1 ... yT
Meilleure
hypothèse de
transcription
w*1 ... w*P
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }
w1...wP' ϵ VP'
c1 ... cP
Mesures de
confiance
la parole
14. Système de reconnaissance automatique de
14
04/10/2014
Lexique phonétisé
Modèle de langue
Modèle acoustique
Caractéristiques
numériques du
signal sonore
contenant de
la parole (énergie,
fréquence vocale…)
y1 ... yT
Meilleure
hypothèse de
transcription
w*1 ... w*P
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }
w1...wP' ϵ VP'
c1 ... cP
Mesures de
confiance
la parole
Vocabulaire :
mots - prononciations
15. Système de reconnaissance automatique de
15
04/10/2014
Lexique phonétisé
Modèle de langue
Modèle acoustique
Caractéristiques
numériques du
signal sonore
contenant de
la parole (énergie,
fréquence vocale…)
y1 ... yT
Meilleure
hypothèse de
transcription
w*1 ... w*P
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }
w1...wP' ϵ VP'
c1 ... cP
Mesures de
confiance
la parole
Vraisemblance du
signal sachant une
séquence de mots
16. Système de reconnaissance automatique de
16
04/10/2014
Lexique phonétisé
Modèle de langue
Modèle acoustique
Caractéristiques
numériques du
signal sonore
contenant de
la parole (énergie,
fréquence vocale…)
y1 ... yT
Meilleure
hypothèse de
transcription
w*1 ... w*P
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }
w1...wP' ϵ VP'
c1 ... cP
Mesures de
confiance
la parole
Probabilité a priori des
séquences de mots
(n-grammes)
17. 17
quant aux voix catholiques de serge adda alberta _ il est
tout ce qu' il y a de strictes _ série sous le menton _ l
encadre son visage sans permettre de voir _ un seul de
ses cheveux _
Quant au voile catholique de soeur ____ Adalberta , il est
tout ce qu' il y a de strict , serré sous le menton , il
encadre son visage sans permettre de voir , un seul de
ses cheveux .
04/10/2014
Spécificités des transcriptions
• Particularités de l’oral
– Disfluences
– Constructions grammaticales particulières
• Format de transcription
– Pas de ponctuation, de majuscules
– Segmentation en groupes de souffle, pas en phrases
• Erreurs de transcription
• Mots non fiables et mesures de confiance imparfaites
Taux d'erreur
sur les mots
ou WER
(word error
rate)
18. 18
04/10/2014
Volume et Vélocité
Nombres par minute (http://davidfayon.fr/2011/06/croissance-du-web-une-minute/)
Go-globe.com, juin 2011
19. 19
Propriétés intrinsèques compliquant
04/10/2014
l’accès au sens
• Données non structurées
– Pas de sémantique portée par une structure a priori
• Données porteuses de sens, compréhensibles par
un humain et fortement présentes
– Nécessité de savoir en extraire l’information
pertinente
• Données difficiles à comprendre par une machine
– Ambiguïté
– Implicite
– Formulations différentes d’une même idée
20. 20
04/10/2014
Ambiguïté
• Lexicale
– Statique : président : verbe / nom ?
– Dynamique : rat : nom / adjectif
• Syntaxique
– Structure hiérarchique : la petite brise la glace
– Ambiguïté de rattachement : j’ai été voir un film avec Brad Pitt
• Sémantique
– Homonymie : avocat : fruit / auxiliaire de justice
– Polysémie : agneau : animal / viande
– Portée des quantificateurs : toutes mes soeurs ont épousé un
médecin vs toutes les personnes présentes ont entendu un cri
• Pragmatique
– Paul : tu viens à la fête chez Luc mardi soir ?
– Virginie : j’ai entendu que Benoît sera là
21. 21
04/10/2014
Implicite
• Connaissances partagées par les locuteurs
– Encyclopédiques
– De sens commun
– De scenarii…
• Interprétations « évidentes » [exemples empruntés à F. Yvon]
– Elle s’est assise, a commandé un café à la serveuse (…). Puis
elle est partie sans payer Qui ?
– Le professeur a envoyé l’élève au censeur
• parce qu’il lançait des boulettes
• parce qu’il voulait avoir la paix
• parce qu’il voulait le voir
• Emplois métaphoriques, métonymiques
– Premier violon
22. 22
Formulations différentes d’une même idée
• Problème pour compter des occurrences d’un concept
• Variation
04/10/2014
– Graphique, morphologique : mot clé, mot-clé, mots-clés
– Syntaxique, morphosyntaxique : acidité du sang, acidité élevée du
sang, acidité sanguine
– Paradigmatique : vélo, bicyclette, cyclisme, moyen de transport
– Paraphrase…
23. 23
• Volumes, variété, propriétés intrinsèques des données
textuelles
04/10/2014
Spécificités des données textuelles
– Impossibilité de faire des analyses linguistiques fines
• Rapidement
• Sur des textes dégradés
et apprentissage
• Variété : domaine ouvert
– Ambiguïtés multipliées
– Sources de connaissance non utilisables
• Changement de paradigme du TAL
Rationalisme Empirisme
« TAL fondé linguistique » « TAL fondé statistique »
Comprendre finement Avoir des représentations de
sens utiles
24. 24
2- Représentations et exploitation des
04/10/2014
données textuelles
• Représentation du sens « rationaliste »
– Vision syntaxico-logique
• Logique comme langage de représentation de connaissance et
de raisonnement
• Interprétation compositionnelle du langage dirigée par la
syntaxe sous forme de formules logiques
– Vision Intelligence artificielle
• Modèle du monde (ou domaine) générique
• Interprétation d’un énoncé ou discours : instanciation du modèle
• Ex. : scripts (Schank)…
25. 25
2- Représentations et exploitation des
04/10/2014
données textuelles
• Représentation du sens « empirique »
– Sens « utile » et non « vrai » sens
• On ne cherche pas à comprendre le langage
• Sens d’un mot
– Dépendant de / exprimable par son co-texte
– Co-textes comparables pour détecter les mots du même
paradigme
• Sens d’un document
– Des mots extraits du texte qui, ensemble, représentent « son »
sens
• Changement de thème
– Changement global de vocabulaire
26. 26
04/10/2014
Changement de paradigme
• Expertise Données
– Extraction de la connaissance des données par
apprentissage artificiel (observation de régularités et
redondances)
• Sens Éléments de représentation extraits des mots,
des phrases, des documents utiles pour l’application
visée
– Exemples : noms et verbes les plus fréquents, noms de
personnes, de lieux et d’entreprises mentionnés…
• À tous les niveaux : document, paragraphe, phrase…
27. 27
04/10/2014
Éléments de représentation
• N-grammes de caractères, de mots
• Mots : tous ou filtrés
– Type précis : noms, verbes, termes complexes,
entités nommées (EN : noms de personnes, lieux…)…
– Saillance
• Comptage
– Fréquence
– Fréquence dans l’unité considérée mais pas dans la collection
– Autres
• Position
– Mot / phrase du début
– Éléments situés entre deux items, avant, après…
29. 29
04/10/2014
Représentation
• Exploitation
– Par comparaison des représentations via des
mesures de similarité
• Fondées intersection des représentations
• Cosinus
– Par des méthodes d’apprentissage artificiel
30. 30
Des outils pour manipuler et représenter
• Segmenteurs
04/10/2014
– Pas toujours simple : l’opéra / aujourd’hui ou O’hara, Jean-Paul /
qu’a-t-il dit ?
• Étiqueteurs morphosyntaxiques (PoS taggers)
– LeDetMasSing présidentNomCommunMasSing…
• Lemmatiseurs / analyseurs morphologiques / raciniseurs
(stemmers)
– parlons, parlera, parlèrent parler
• Extracteurs de termes simples ou complexes, d’entités
nommées, de relations sémantiques
• Analyseur en dépendances, en chunks…
• Autres outils liés à l’application visée (d’extraction de n-grammes
au lieu de mots…)
31. 31
04/10/2014
Apprentissage artificiel
• Branche de l’IA qui étudie l’écriture de programmes qui
s’améliorent en se confrontant aux données
• Apprentissage supervisé
– Données étiquetées disponibles
• Apprentissage non supervisé
– Pas de données étiquetées
– Exemple de technique : clustering
• Apprentissage de quoi ?
– De représentations (ex. : probabilités de n-grammes de mots)
– D’outils
– De clusters
– De connaissances par observation de régularités dans les
masses de données…
32. 32
Le chercheur en TAL à l’heure du Big Data
• Transformation en scientifique des données (data
scientist)
04/10/2014
– Quelles représentations (à grain souvent grossier) ?
– Quelles techniques d’apprentissage artificiel ?
– Quelles mesures de similarité ?
– Quelles méthodes de visualisation ?
34. 34
3- Applications pour faire face aux masses
04/10/2014
de données
• De très nombreuses applications pour aider
l’humain face au déluge de données
• Applications s’appuyant sur les représentations
vues et des méthodes d’apprentissage artificiel
• Zoom sur trois d’entre elles
– Résumé automatique (d’un ou plusieurs textes)
– Structuration et navigation
– Fouille d’opinions
35. 35
04/10/2014
3.1- Résumé automatique
• Intérêt : savoir si texte à lire in extenso
• Domaine ancien du TAL
– Début dans les années 50
– Fort essor au milieu des années 90
• Notion de « bon » résumé ?
– Réalités diverses
• Idées-clés
• Couverture maximale
• « Bande-annonce »
– Contrainte de taille
36. 36
04/10/2014
Typologie(s)
• Un ou des document(s)
• Point de départ : document(s) ou requête
• Résumé par abstraction ou par extraction
– Si extraction, des phrases ou des mots-clés
– Si extraction de phrases, curation a posteriori
• Remplacement des mots répétés, des pronoms
• Fusion de phrases, parties inutiles ôtées
37. 37
04/10/2014
Typologie(s)
• Un ou des document(s)
• Point de départ : document(s) ou requête
• Résumé par abstraction ou par extraction
– Si extraction, des phrases ou des mots-clés
– Si extraction de phrases, curation a posteriori
• Remplacement des mots répétés, des pronoms
• Fusion de phrases, parties inutiles ôtées
• Méthodologie globale
– Ancrage linguistique fort
– Apprentissage artificiel
– Représentations fondées recherche d’information (RI)
38. 38
04/10/2014
Résumé par extraction
• Saillance
– Score pour chaque phrase / passage
– Indicateurs combinés
• Score des mots : tf, tf*idf (somme)
• Présence de mots-clés, d’entités nommées, de marqueurs du
discours…
• Longueur
• Position par rapport au texte, à son paragraphe…
– Pondération entre les indicateurs pouvant être fixée ou
apprise
39. 39
04/10/2014
Résumé par extraction
• Redondance
– Saillance seule insuffisante
– Non redondance par rapport aux phrases déjà dans le
résumé
– MMR (maximal marginal relevance [Goldstein et Carbonell 98])
• Score combinaison linéaire de saillance et non redondance
• MMR » Argmax(PiÎR−S) [l(Sim1(Pi,Q)) − (1− l)max(DjÎS) Sim2(Pi,Dj)]
– Q : document à résumer / requête utilisateur ; P : phrases
– R : liste ordonnée des phrases ; S : sous-ensemble des phrases de R déjà
dans le résumé
– Sim : mesure de similarité (cosinus)
– Cas multi-documents : clustering des phrases
similaires et extraction d’une phrase par cluster
40. 40
04/10/2014
Extraction fondée centroïde
• Score d’une phrase : fonction de sa centralité par
rapport au thème des(du) documents à résumer
• Document centroïde
– Pseudo-document qui contient les mots ayant un score
(tf*idf) supérieur à un seuil
– Cas multi-documents : un centroïde par cluster
• Score d’une phrase fonction de
– Sa similarité avec le centroïde (de son cluster dans le
cas multi-documents)
– Sa non redondance par rapport aux phrases retenues
• Logiciel Mead : http://www.summarization.com/mead/
41. 41
04/10/2014
Extraction fondée graphe
• Score d’une phrase : fonction globalement du score des
phrases avec lesquelles elle partage le plus de mots
• Proche de PageRank (Google)
– Une phrase recommande d’autres phrases
• Algorithme TextRank [Mihalcea 2004]
– Chaque phrase : un noeud du graphe
– Arc entre deux noeuds : pondération selon le nombre de mots
partagés (et longueur des phrases)
– Poids initial assigné aux noeuds
– Itération de l’algorithme recalculant le score du noeud en fonction
du score des noeuds liés et du poids des arcs
– Conservation des phrases aux scores les plus élevés
• Intérêt : fonctionne sur l’information issue de tout le graphe
42. 42
04/10/2014
Extraction fondée contraintes ou
optimisation
• Choix des phrases qui maximisent une fonction
objectif
• Donc pas un algorithme glouton, mais vue globale
du choix des phrases (et de la redondance)
• Expression de contraintes et de la fonction à
maximiser
– Contraintes : taille, phrases plutôt longues…
• Utilisation d’un solveur de contraintes
43. 43
04/10/2014
Extraction fondée contraintes ou
optimisation
• Un exemple : [Gillick et Favre 2009]
• Fonction à optimiser
– Somme des poids des concepts présents dans le résumé
– Concept : bigramme informatif
– Poids d’un concept : nombre de documents où il apparaît
• Contraintes
– Somme des longueurs des phrases conservées inférieure à la
longueur maximum
– Non sélection de phrases sans concept
– Sélection d’une phrase : sélectionner tous ses concepts
– Sélection d’un concept possible si présent dans au moins une
phrase gardée
44. 44
04/10/2014
Évaluation
• Problème épineux, accord faible entre humains
• De nombreuses campagnes d’évaluation
– Conférences DUC puis TAC
• Des mesures proposées
– Résumés de référence produits par des humains
– Mesures fondées sur la présence d’« unités », pas de
phrases
• ROUGE [Lin 2004]
– Proportion de n-grammes partagés entre le résumé
produit et les références
– Plusieurs variantes
45. 45
04/10/2014
Résumé de l’oral transcrit
• Moins de travaux
– Résumés de réunions, d’émissions TV
• Application de méthodes de TAL
• Adaptations pour l’oral
– Reponctuation
– Utilisation des mesures de confiance
– Utilisation de l’information acoustique
• Cas des résumés de vidéos
– Travail a posteriori nécessaire pour avoir des résumés
acceptables (i.e., écoutables et regardables)
46. 46
04/10/2014
Résumé automatique
• Bilan
– Méthodologies fonctionnelles
– Qualité / cohésion textuelle encore moyenne
– Aspect temporel peu pris en compte
– Résumé de données textuelles autres qu’écrites
encore limité
– Évaluation encore à améliorer
47. 47
04/10/2014
3.2- Structuration et navigation
• Données textuelles
– Très nombreuses
– Non organisées (« vrac »)
– Souvent vues individuellement, peu au sein d’un
ensemble
• Organisation pour perception ou navigation éclairée
• Regroupement / établissement de liens selon une
notion de proximité, surtout sémantique
• Différentes solutions, sur des textes écrits et de
l’oral transcrit
48. 48
Organisation a posteriori d’une requête
• Recherche d’information (RI)
une colonne par
segment du texte
04/10/2014
– Mise en évidence des termes de la question dans les documents
retournés [Hearst 1995]
une ligne par mots
de la question
49. 49
Organisation a posteriori d’une requête
• Recherche d’information (RI)
04/10/2014
– Mise en évidence des termes de la question dans les documents
retournés [Hearst 1995]
– Clustering des résultats (par thèmes, entités nommées…)
51. 51
Organisation a posteriori d’une requête
• Également une version par apprentissage à partir
de chronologies manuelles (boosting)
04/10/2014
– Apprentissage des caractéristiques d’une date
saillante
– Traits liés au fait que plus une date est mentionnée
plus elle est importante
– Traits liés au fait qu’un événement important est
mentionné longtemps
• Dans les différents cas, constitution de la
chronologie à partir des phrases contenant les
dates saillantes
52. 52
INDEX Requête : révolution tunisienne
04/10/2014
Le président égyptien Hosni
Mubarak, qui a démissionné
vendredi, et le président Zine
El Abidine Ben Ali, qui a quitté
le pouvoir le 14 janvier, ont fait
face à des protestations
populaires sans précédent.
Zine el-Abidine Ben Ali a
annoncé jeudi soir qu'il ne se
représentera pas en 2014 au
poste qu'il occupe
Ben Ali a signé sa démission
vendredi après une vague de
protestations déclenchée par
le suicide d’un étudiant de 26
ans que la police avait
empêché de vendre des fruits
et des légumes pour vivre.
Des manifestants ont
également blessés vendredi, y
compris Chawki Belhoussine
El Hadri
Ben Ali a signé sa démission
vendredi après une vague de
protestations déclenchée par
le suicide d’un étudiant de 26
ans que la police avait
empêché de vendre des fruits
et des légumes pour vivre.
La révolte s’est propagée le 24
décembre dans le centre-du
pays, notamment à Menzel
Bouzaiane, où Mohamed
Ammari est tué par balle dans
la poitrine par la police.
Requête
Plusieurs
milliers de
documents
Transparents empruntés à X. Tannier
53. 53
04/10/2014
Regroupés par dates normalisées
Ordonnés selon l’importance de
la date
La révolte s’est propagée le
24 décembre dans le centre-du
pays, notamment à
Menzel Bouzaiane, où
Mohamed Ammari est tué
par balle dans la poitrine par
la police.
Des manifestants ont
également blessés vendredi,
y compris Chawki
Belhoussine El Hadri
14 jan. 2011
Ben Ali a signé sa démission
vendredi après une vague
de protestations déclenchée
par le suicide d’un étudiant
de 26 ans que la police avait
empêché de vendre des
fruits et des légumes pour
vivre.
Zine el-Abidine Ben Ali a
annoncé jeudi soir qu'il ne
se représentera pas en 2014
au poste qu'il occupe
Ces révélations ont lieu
après la révolte tunisienne
qui a mit fin à 23 ans de
règne de Ben Ali, qui s’est
enfui de Tunisie pour l’Arabie
Saoudite vendredi.
Clusters temporels
plus important
24 déc. 2010 13 jan. 2011
INDEX
Ben Ali a donné jeudi l'ordre
à la police de ne plus tirer sur
les manifestants
Requête
Plusieurs
milliers de
documents
Requête : révolution tunisienne
54. 54
04/10/2014
Requête : révolution tunisienne
Regroupés par dates normalisées
Ordonnés selon l’importance de
la date
La révolte s’est propagée le
24 décembre dans le centre-du
pays, notamment à
Menzel Bouzaiane, où
Mohamed Ammari est tué
par balle dans la poitrine par
la police.
Des manifestants ont
également blessés vendredi,
y compris Chawki
Belhoussine El Hadri
14 jan. 2011
Ben Ali a signé sa démission
vendredi après une vague
de protestations déclenchée
par le suicide d’un étudiant
de 26 ans que la police avait
empêché de vendre des
fruits et des légumes pour
vivre.
Zine el-Abidine Ben Ali a
annoncé jeudi soir qu'il ne
se représentera pas en 2014
au poste qu'il occupe
Ces révélations ont lieu
après la révolte tunisienne
qui a mit fin à 23 ans de
règne de Ben Ali, qui s’est
enfui de Tunisie pour l’Arabie
Saoudite vendredi.
Clusters temporels
plus important
24 déc. 2010 13 jan. 2011
INDEX
Ben Ali a donné jeudi l'ordre
à la police de ne plus tirer sur
les manifestants
Requête
Plusieurs
milliers de
documents
Choix des descriptions
d’événements
Maximiser la pertinence
Minimiser la redondance
55. 55
• Chronologie événementielle
04/10/2014
Requête : révolution tunisienne
17 déc. 2010 : Mohamed Bouazizi s’immole
par le feu pour protester contre le harcèlement
de la police et le chômage.
25 déc. 2010 : Les protestations démarrent à
Sidi Bouzid et s’étendent à Bouzaiene,
Kairouan, Sfax, Ben Guerdane, Sousse.
27 déc. 2010 : Les protestations s’étendent à
Tunis, la capitale du pays.
14 jan. 2011 : Le président Ben Ali s’enfuit en
Arabie Saoudite.
obtenue
56. Autre réponse de la recherche d’information
56
• Les systèmes questions-réponses [Hirschman et Gaizauskas
2001]
04/10/2014
– Réponse précise à une question au lieu de documents
contenant les termes de la question
57. 57
Liens entre documents fondés contenu
• Création de liens initiée par la communauté
hypertexte [Allan 1997]
04/10/2014
– Souvent sur des documents à structure assez
marquée (emails, articles de Wikipédia)
– Souvent sur de petites collections (a posteriori d’une
requête par exemple)
58. 58
04/10/2014
Systèmes de recommandation
• Souvent mélange de filtrages fondé
contenu et collaboratif
• Filtrage collaboratif
– Calcul de corrélation entre les avis
des autres utilisateurs et celui visé
̶ Prédiction pour un item : par exemple calculable par la moyenne
pondérée (par le coefficient de corrélation) des évaluations pour
cet item des utilisateurs similaires
• Filtrage fondé contenu
̶ Élaboration d’un profil de l’utilisateur grâce aux mots-clés
émergeant des items qu’il apprécie
̶ Comparaison au contenu d’un item non évalué pour le
recommander ou pas à l’utilisateur
59. 59
Graphes temporels d’événements [Tannier 2014]
• Dépêches AFP contenant des événements
• Organisation temporelle fondée sur trois relations
04/10/2014
– Même événement
– Continuation (conséquence, suite naturelle)
• Réaction (opinion sur un événement)
• Annotation manuelle des dépêches entre dates d et
d+7 si 2 mots-clés communs dans 1er paragraphe
• Apprentissage (svm)
– Relation vs pas de relation
– Même événement vs continuation
– Continuation vs réaction
60. 60
Graphes temporels d’événements [Tannier 2014]
04/10/2014
2 avril, 21:05
Georges Bush déclare que
le Pape était un « champion
de la liberté humaine »
2 avril, 01:51
Un cardinal dit que la mort
du Pape est imminente
2 avril, 15:39
Le Pape dans une situation
sérieuse mais « résiste » 2 avril, 20:58
La Reine Elisabeth II exprime
son « profond regret »
2 avril, 21:40
Jean-Paul II sera enterré
mercredi au Vatican
continuation
continuation
2 avril, 19:53
Le Pape 2e satv mrilo, r1t9:57
réaction
Le Pape e2s ta mvroilr,t 2a0u: 0V1atican
réaction
continuation
Le Pape est mort au Vatican
Transparent empruntés à
X. Tannier
61. 61
Structuration et navigation dans une
04/10/2014
collection de journaux TV
• Segmentation automatique de journaux TV en
reportages successifs [Gravier et al. 2011]
• Navigation
– Vers d’autres reportages abordant le même sujet
– Vers des pages Web offrant de l’information
complémentaire
• Application de techniques de TAL et de RI, mêlant
grain « grossier » et grain plus fin, sur la parole
transcrite
62. 62
04/10/2014
Segmentation thématique
• La plupart des techniques fondée sur la cohésion
lexicale
– Changement de thème = changement de vocabulaire
• Méthodes locales
– Recherche de ruptures par comparaison de zones
adjacentes et détection de minima de similarité [Hearst
1997]
• Méthodes globales
– Production « directe » des segments les plus
cohérents [Utiyama et Isahara 2001]
• Possibilité d’adaptation aux transcriptions de la
parole ?
63. 63
04/10/2014
Adaptation aux transcriptions
• Particularités problématiques
– Erreurs de transcription
– Manque de répétitions
• Modification du calcul de la cohésion lexicale
– Prise en compte des mesures de confiance, en particulier lors du
comptage des occurrences de mots
– Prise en compte des relations sémantiques entre les mots
cigarette cigare 0.476838
cigarette gitane 0.378044
cigarette gauloise 0.37508
cigarette clope 0.366334
cigarette tabac 0.304606
mots partageant des contextes
similaires
64. 64
04/10/2014
Résultats de la segmentation
• Corpus
– 57 JT de France 2 – février et mars 2007
• Système de reconnaissance de la parole
– WER : 20% sur données Ester 2 (actualités radio)
• Évaluation
– Changement de thème à chaque reportage (1180
frontières)
– Frontière correcte : 10s par rapport à une frontière de
référence
– Rappel, précision
66. • Mais aussi, forme de résumé informatif du contenu
• Modifications du tf*idf car oral transcrit
66
Caractérisation des segments obtenus
• Caractérisation par mots-clés extraits
• Deux rôles
– Permettre de comparer des reportages entre eux
– Permettre d’interroger le Web pour trouver des pages
liées
– Lemmatisation
– Pénalité introduite pour les noms propres
– Prise en compte des mesures de confiance
04/10/2014
67. 67
Extraction de mots-clés
• Tf*idf classique sur les lemmes
04/10/2014
1.000 voile
0.756 adda
0.521 bernadette
0.501 laïcité
0.483 musulmans, musulmane
0.449 photo, photos
0.429 sarkozy
0.387 chirac
0.372 préfecture
0.364 serge
du tchador et de la corne est au nom
du principe de la laïcité de l' état on l' a
quelques jours nicolas sarkozy
rappeler fermement aux musulmans
qui n' était pas question de porter le
voile en photo des entités un rappel à
l' ordre qui visiblement a échappé à
bernadette chirac encore le journal le
canard enchaîné l' épouse du
président de la république se
démènent pour qu' une religieuse
puisqu' elle garder son voile est une
étrange mal le voile de serge adda
alberta ...
S(l) = tf(l) x idf(l)
68. 68
04/10/2014
Extraction de mots-clés
• + Pénalités sur les noms propres
- 1.000 voile
- 0.567 adda
↑ 0.501 laïcité
↑ 0.483 musulmans, musulmane
↑ 0.449 photo, photos
↓ 0.391 bernadette
↑ 0.372 préfecture
↑ 0.330 mimosa
↑ 0.329 tchador
↑ 0.326 carmélites
↓ 0.322 sarkozy
↓ 0.290 chirac
↓ 0.273 serge
du tchador et de la corne est au nom
du principe de la laïcité de l' état on l'
a quelques jours nicolas sarkozy
rappeler fermement aux musulmans
qui n' était pas question de porter le
voile en photo des entités un rappel
à l' ordre qui visiblement a échappé à
bernadette chirac encore le journal le
canard enchaîné l' épouse du
président la publique se démènent
pour qu' une religieuse puisqu' elle
garder son voile est une étrange mal
le voile de serge adda alberta ...
S’(l)= tf’(l) x idf(l)
69. 69
Extraction de mots-clés
• + Prise en compte des mesures de confiance
04/10/2014
- 0.992 voile
↑ 0.500 laïcité
↑ 0.458 musulmans, musulmane
↓ 0.454 adda
↑ 0.428 photo, photos
↓ 0.390 bernadette
↑ 0.371 préfecture
↑ 0.328 tchador
↑ 0.325 carmélites
↓ 0.321 sarkozy
↓ 0.294 serge
↓ 0.270 chirac
du tchador et de la corne est au nom
du principe de la laïcité de l' état on l' a
quelques jours nicolas sarkozy
rappeler fermement aux musulmans
qui n' était pas question de porter le
voile en photo des entités un rappel à
l' ordre qui visiblement a échappé à
bernadette chirac encore le journal le
canard enchaîné l' épouse du président
de la république se démènent pour qu'
une religieuse puisqu' elle garder son
voile est une étrange mal le voile de
serge adda alberta ...
70. Récupération de pages Web liées à l’aide de
erreurs de transcription
70
04/10/2014
requêtes
• Conservation des premiers mots-clés
• Requêtes formées par mélange de 2 ou 3 mots-clés
voile laïcité
voile musulmans
voile adda
... Limite l’influence des
voile laïcité photo
laïcité adda photo
musulmans adda photo
71. 71
04/10/2014
Texmix
• Application : système de navigation au sein d’une collection
de journaux TV
• Utilisation de techniques issues de différents travaux de
recherche dans l’équipe TexMex
• Démonstration : Texmix
74. 74
04/10/2014
3.3- Fouille d’opinions
• Analyse de données exprimant des opinions : réseaux
sociaux, blogs, fora, commentaires sur des sites de
commerce électronique …
• Enjeux
– Individuels : achat d’un matériel, réservation de séjour…
– Économiques : perception d’un produit (propre ou concurrent) par
des utilisateurs, avis synthétique sur un sujet…
– Politiques : perception d’une réforme, de sujets de
mécontentement…
75. 75
04/10/2014
Un travail compliqué
• Samedi dernier, j’ai acheté un mobile Nokia et ma copine a acheté un
Samsung avec Bluetooth. On s’est appelés quand on est rentrés. La
voix sur mon téléphone n’était pas si claire, pire en tous cas que sur
mon Motorola précédent. La batterie ne dure pas longtemps non plus.
Ma copine était plutôt satisfaite de son téléphone. Moi, je voulais un
téléphone avec un bon son. Donc j’étais déçu de mon achat. J’ai ramené
le téléphone hier. (exemple de [Liu 2012] traduit)
• Nombreux aspects du TAL impliqués
– Dont certains aspects de compréhension assez fins
• Coréférence, analyse syntaxique, analyse sémantique voire pragmatique (claire
0 ou 0 ?)…
• Données à analyser très diverses
– En qualité
– En contenu : avis global sur une entité, avis sur différents aspects
d’une entité, avis sur plusieurs entités, zones factuelles et zones
subjectives, avis se répondant…
76. 76
04/10/2014
4 tâches essentielles
• Extraction d’opinions
– Identifications des textes porteurs d’opinions
– Localisation des passages/phrases… porteurs d’opinions
• Classification d’opinions
– Attribution d’une polarité à l’opinion émise : positive, négative et
parfois neutre
– Proximité avec la classification de textes mais mots polarisés
importants
• Constitution de ressources d’opinion
– Lexiques de mots ou d’expressions polarisés
• Résumé d’opinions
77. Approches supervisées de classification de
77
04/10/2014
documents et phrases
• De très nombreux travaux aux deux niveaux
• Bons résultats avec des classifieurs de type SVM et NB
(Bayésien naïf)
• De très nombreux traits utilisés
– Mots, éventuellement pondérés
– Étiquettes catégorielles (adjectifs importants, ponctuation…)
– Mots porteurs d’opinion
– N-grammes de mots, d’étiquettes (ex. : N+Adjpos)
– Présence de mots « changeurs » de polarité (négation, mais…)…
78. 78
04/10/2014
Approches non supervisées de
classification de documents et phrases
• Également de nombreux travaux aux deux niveaux
• Utilisation de ressources d’opinion
– Lexiques
– Règles plus ou moins ad hoc
• Un exemple au niveau document [Turney 2002]
– Étiquetage catégoriel de commentaires sur des voitures, films…
– Extraction de bigrammes répondant à des patterns (d’expression
d’opinion)
• Adj-Nom commun, Adv-Adj si 3e mot pas nom commun…
– Moteur de recherche (AltaVista) pour calculer des scores d’affinité
de ces bigrammes avec « excellent » et avec « poor »
– Moyenne, pour tous les patterns contenus, des différences
d’affinité avec excellent et poor : 0 et 0
79. 79
04/10/2014
Constitution de ressources
• Lexiques de mots / d’expressions : petit, coûte un bras
• Développement manuel : coûteux
• Des mots amorces (ou un lexique amorce) +…
– Approche fondée dictionnaire
• Extension par exemple grâce aux synonymes / antonymes du
dictionnaire
• Exemple : SentiWordNet [Esuli et Sebastiani 2006]
– Extension par WordNet + classifieur appris grâce aux vecteurs de mots
formés à partir des gloses du lexique
• Développement rapide, mais polarité des mots dépendant du
contexte et du domaine…
– Petit : le téléphone est petit (+) / l’écran LCD est petit (-)
– Long : la durée de vie de la batterie est longue (+) / le temps de mise au
point est long (-)
80. 80
04/10/2014
Constitution de ressources
• Des mots amorces (ou un lexique amorce) +…
– Approche fondée corpus
• Par exemple par extension via des constructions syntaxiques au
sein d’une phrase du corpus, voire au-delà : présence de ET, OU,
MAIS, négation…
– Cette voiture est puissante (+) et spacieuse : spacieuse annoté
comme positif
– Cette voiture est puissante (+). Toutefois elle est chère dans sa
gamme : chère annoté comme négatif
81. 81
04/10/2014
Du gros grain au grain fin
• Avec l'EOS 100D, Canon a miniaturisé son 650D en conservant ses
principales qualités (simplicité d'utilisation, capteur et électronique
efficaces, écran excellent). La réactivité et la transportabilité ont aussi été
améliorées mais le zoom du kit vient gâcher tous les efforts :
disproportionné en volume, bourré d'aberrations optiques et surtout très
imprécis, il ne faudra pas hésiter à… (extrait adapté du site lesnumeriques.com)
• Avis global positif mais certains aspects très négatifs
• Donc avis aspect par aspect nécessaire
• Classification de documents de phrases d’aspects
• Détermination de quel avis porte sur quoi : analyse à grain fin
• Vision de l’opinion de Liu [Liu 2012]
– (entité cible, aspect de l’entité, opinion, source, date)
– Structuration du non-structuré
82. 82
04/10/2014
Résumé d’opinions
• Nombreuses opinions émises sur une entité ou ses
parties besoin de synthèse
• Synthèse textuelle
– Forme particulière de résumé multi-documents
– Techniques par extraction de phrases utilisables dans
une certaine mesure si traits d’opinion (présence de
mots polarisés) pris en compte
– Mais nécessité de prendre en compte le côté
quantitatif et/voire les aspects de l’entité évalués
– Structure : 1ere phrase = opinion sur l’entité, puis une
phrase par aspect… en intégrant des nombres si
multiples avis
83. 83
04/10/2014
Résumé d’opinions
• Synthèse textuelle : exemple extrait des transparents associés à [Liu 2012]
84. 84
04/10/2014
Résumé d’opinions
• Synthèse graphique exemple extrait des transparents associés à [Liu 2012]
– Synthèse souvent préférée ; formes multiples
– Si temps connu, évolution affichable
86. 86
04/10/2014
Résumé d’opinions
• Agrégation d’opinions OpinionEQ
exemple extrait des transparents associés à [Liu 2012]
87. 87
04/10/2014
Encore du travail…
• De nouvelles recherches
– Faux commentaires
• Commentaires positifs sur ses propres produits, négatifs sur les produits
concurrents
• Recherche sur les contenus difficile ; plutôt patterns de comportement
– Que des commentaires positifs sur une marque, négatifs sur une autre
– Notes très élevées, le même jour…
– Contextualisation des opinions (fil de tweets)
• Encore beaucoup de choses non/mal traitées
– Recherches bridées par toutes les particularités du langage
naturel
• Sarcasme, ironie
• Aspects parfois implicites : le téléphone est cher, ne rentre pas
facilement dans une poche
• …
89. 89
4- Applications tirant profit de la profusion
04/10/2014
de données
• Profusion et redondance
– Masses de données comme une solution et non
comme un problème
– Constitution d’informations plus complètes, plus
certaines
• Applications s’appuyant sur les représentations
vues et des méthodes d’apprentissage artificiel
• Zoom sur trois d’entre elles
– Traduction automatique
– Journalisme de données
– Fact-checking (vérification par les faits)
91. 91
04/10/2014
Une histoire ancienne
• 1954 : 1re démonstration publique d’un traducteur Russe /
Anglais IBM - université de Georgetown
– 250 mots, 6 règles de grammaire, 49 phrases
• Grand enthousiasme dans les années 50 et 60, mais…
– 1960 : Bar-Hillel (auteur de la 1re conférence sur la T.A. en 52)
• L’obtention de traductions automatiques d’aussi haut niveau que les
humaines est irréaliste
– 1966 : rapport ALPAC (automatic language processing advisory
committee)
• La traduction automatique est plus lente, moins pertinente et 2 fois plus
chère que l’humaine
• Recommandation de développement de l’aide à la traduction humaine
92. 92
04/10/2014
Jusqu’à la fin des années 80
• Trois approches fondées sur des règles (lexicales, d’analyse
morphologique, syntaxique…)
– Directe : traduction d’une langue source en une cible à l’aide d’un
dictionnaire et de règles
– Interlangue : utilisation d’une représentation intermédiaire
abstraite
– Par transfert : analyse de la source, production d’une
représentation, transfert vers une représentation-cible et
génération en langue cible
• Exemples de règles
– to grow : grandir mais faire pousser si complément plante…
– Adjectif + Nom Nom + Adjectif
93. 93
04/10/2014
Début des années 90
• Développement d’Internet
• Besoins nouveaux
– Traduction pour tous
– Production rapide de traductions compréhensibles
– Différentes langues, différents domaines
• Volumes aussi solution
• Développement de la traduction fondée corpora ou
données
– Traduction automatique statistique (TAS)
– Traduction fondée exemples
94. Traduction automatique statistique [Brown et al. 1990]
• f : phrase en langue source (Français) ; e phrase en langue
cible (English)
• Traduction de f en e = recherche de e* qui maximise P(e|f)
• Décomposition en 2 problèmes
94
04/10/2014
règle de Bayes
– e* = argmax P(e|f) = argmax P(f|e) P(e)
e e
– Développer un modèle de traduction garantissant que P(f|e) est
élevé pour toute phrase cible appariée à f
– Développer un modèle de la langue cible associant des valeurs
P(e) élevées aux phrases grammaticales
Estimation des probabilités de n-grammes sur un corpus monolingue
Estimation sur un corpus bilingue parallèle aligné au niveau phrase
95. 95
04/10/2014
Corpus multilingues parallèles
• Hansard : débats parlementaires canadiens en Français et
Anglais (environ 20 millions de mots par langue)
• Europarl : débats parlementaires européens en 21 langues
(environ 60 millions de mots par langue)
• Mais aussi textes techniques, cours, classiques de la
littérature…
Monsieur le Président, je
voudrais porter à l’attention de
la Chambre que nous
célébrons aujourd’hui, comme
le savent les honorables
députés, l’anniversaire de la
proclamation de la Charte
canadienne des droits et
libertés [...]
Mr Speaker, I would like to
bring to the attention of the
House that today, as Hon.
Members are no doubt aware,
we are celebrating the
anniversary of the proclamation
of the Canadian Charter of
Rights and Freedoms [...]
Alignement au
niveau phrase
(ex. extrait du
Hansard)
96. 96
04/10/2014
Modèles de traduction
• Rappel rôles des modèles de traduction et de langue
– Modèle de traduction : guider la construction pour une phrase source
d’un ensemble d’hypothèses de phrases en langue cible
– Modèle de langue : permettre le choix final en favorisant les phrases
grammaticales
• Pour chaque unité de traduction en langue source : des
traductions possibles en langue cible + scores
• 1ers modèles de traduction = modèles d’alignements de mots
– IBM, Brown et al. 1990 : 5 modèles successivement proposés
• IBM1 : hypothèse que toutes les valeurs d’alignement sont
équiprobables
• IBM2 : introduction d’une dépendance entre l’alignement du moti et sa
position dans la phrase source
• IBM3 : introduction de la notion de fertilité (un mot source peut être
traduit par 0 à n mots)
• …
97. 97
04/10/2014
Modèles de traduction initiaux
• Table de transfert (lexique bilingue probabilisé)
le (the 0.38) (of 0.15)…
ministre (minister 0.7) (the 0.2) (prime 0.15)…
années (year 0.4) (years 0.3) (some 0.1)…
98. 98
04/10/2014
Modèles de traduction = modèles
d’alignements de segments
• Début des années 2000 [Zens, Och, Ney 2002]
• Appui sur les alignements mot-à-mot (dans les
deux directions F/E et E/F)
• Intérêt de l’alignement de segments
– Levée d’ambiguïtés lexicales
– Prise en compte de nombres de mots différents dans
les deux langues
– Modélisation simple de réordonnancements locaux
• Nécessité de modélisation des distorsions
(réordonnancements non locaux)
99. • En fait, information en règle générale plus riche que
dans l’exemple précédent
99
Modèles d’alignements de segments
• Table de transfert (ou encore de segments)
04/10/2014
a big (le grand 0.1) (un des principaux
0.04) (un grand 0.01) (Une
grande 0.015) (ont une grande
0.02)…
100. 100
04/10/2014
Traduction automatique statistique
• Traduction
– Segmentation de f en segments de longueurs variables
– Pour chaque segment, choix d’un équivalent en langue cible
– Réarrangement des segments cibles pour avoir la traduction e
• Décision du système de TAS fondée sur 3 modèles
– Modèle de traduction : évalue la qualité d’un appariement entre f
et e et délivre un coût
– Modèle de distorsion : évalue la plausibilité du réordonnancement
induit par cet appariement et délivre un coût
– Modèle de langue : évalue la qualité de la phrase cible formée et
délivre un coût
• Meilleure traduction (décodage) = meilleur compromis
102. 102
04/10/2014
Ressources [Allauzen et Yvon 2011]
• Outre les corpora monolingues ou parallèles, voire
comparables…
• Outils d’alignements
– Giza++ http://code.google.com/p/giza-pp/
– Outils de Berkeley
http://code.google.com/p/berkeleyaligner/
– Boîte à outils Uplug (manipulation de corpus et
alignements) http://sourceforge.net/projects/uplug
• Systèmes de TAS
– Moses http://www.statmt.org/moses/
103. 103
04/10/2014
Évaluation
• Tâche complexe : fidélité au texte source,
compréhensibilité, caractère naturel…
• Évaluation subjective (experts) vs automatique
• Plusieurs mesures automatiques
• Exemple : BLEUk (Bilingual evaluation understudy)
– Comparaison de l’hypothèse de traduction à une ou
des traductions de référence
– N-grammes de longueur 1 à k partagés ou pas
104. 104
04/10/2014
Traduction fondée exemples
• [Nagao 1984] mais essor fin des années 80
• Utilisation d’une mémoire de traduction
– Phrases déjà traduites, parfois abstraites pour
accroître les possibilités de généralisation
• Deux parties
– Identification des fragments de la phrase source
s’appariant avec des exemples
– Recombinaison des éléments traduits pour obtenir une
phrase correcte en langue cible
105. 105
04/10/2014
Traduction de la parole
• Initialement des travaux portant sur des domaines restreints
– Négociations multilingues, réservations téléphoniques de séjour…
• Pas de contraintes de domaines maintenant
• Diverses voies explorées
– Traduction a posteriori de la transcription
• Reponctuation, suppression des disfluences…
– Traduction des sorties intermédiaires des systèmes de RAP
• Scores des deux systèmes mêlés pour ordonner les hypothèses
– Production de transcriptions que le système de traduction sait
traduire
• Modèle de langue du système de transcription biaisé par les groupes de
mots du modèle de traduction
106. 106
04/10/2014
4.2- Journalisme de données
• Collecte, filtrage, combinaison, analyse de grands
volumes de données pour en faire émerger une
histoire pertinente
• Principes
– Découverte de faits intéressants
– Mise en évidence de tendances cachées
– Compilation d’ensembles de données
• Accessibles sur une machine
• Distribuables au public
– Visualisation appropriée
107. 107
04/10/2014
4.2- Journalisme de données
• Collecte, filtrage, combinaison, analyse de grands
volumes de données pour en faire émerger une
histoire pertinente
• Principes
– Découverte de faits intéressants
– Mise en évidence de tendances cachées
– Compilation d’ensembles de données
• Accessibles sur une machine
• Distribuables au public
– Visualisation appropriée
l’utilisateur doit pouvoir interagir avec les
données, les personnaliser
passage d’une histoire complexe à un
graphique clair (interactif, personnalisable)
108. 108
04/10/2014
Une nouveauté qui vient de loin…
• 1854 – John Snow : carte d’une épidémie de cholera
permettant de comprendre la concentration près des
pompes à eau
image extraite de
Wikipédia
109. 109
04/10/2014
Une nouveauté qui vient de loin…
• 1854 – John Snow : carte d’une épidémie de cholera
permettant de comprendre la concentration près des
pompes à eau
• 1858 – Florence Nightingale : graphique sur la mortalité
dans l’armée britannique montrant que plus de morts étaient
dues aux maladies qu’aux balles
image extraite de
Wikipédia
110. 110
04/10/2014
Une nouveauté qui vient de loin…
• À partir des années 2000 : beaucoup de bases de données disponibles
• 2006 – A. Holotavy : principes de ce que devrait être le journalisme de
données [Holotavi 2006]
• 2011 : le guide du datajournalisme (The Data Journalism Handbook
http://datajournalismhandbook.org/)
• 2012 – M.J. Berens et K.
Armstrong (Seattle Times) :
prix Pulitzer du journalisme
d’investigation pour leur travail
sur le lien surmortalité –
méthadone dans l’état de
Washington
114. 114
04/10/2014
Quelles données ?
• Collectivités, services publics www.data.gouv.fr
• Web…
• Éventuellement des données plus confidentielles (WikiLeaks)
abondance
croisement
fiabilité
• Beaucoup de bases structurées ; encore très peu de TAL
115. 115
04/10/2014
Techniques de RI textuelle
• J. Stray et J. Burges 2010
• Travail sur les rapports d’enquêtes de l’US Army connus sous
le nom de Iraq War Logs Leak
– 390000 rapports d’action sur la guerre de 2004 à 2009
• Focus sur le mois de décembre 2006 (11600 rapports)
• Chaque document
– Représenté par un vecteur pondéré de mots (tf*idf)
– Caractérisé par ses 3 mots les plus saillants
– Représenté par un noeud coloré selon le type d’incident décrit
(métadonnée)
• Comparaison : cosinus
• Visualisation grâce au logiciel de graphe Gephi https://gephi.github.io/
– Chaque cluster formé caractérisé par ses mots saillants
116. 116
04/10/2014
J. Stray et J. Burges 2010
• Caractérisation
thématique
117. 117
04/10/2014
J. Stray et J. Burges 2010
Événements criminels
Risque d’explosion
118. 118
04/10/2014
Plus de TAL et de linguistique
• J. Véronis : analyse linguistique fine de discours
politiques
• Focus sur
– L’utilisation des pronoms
– Les EN employées
– Les thèmes abordés
• Travail important lors de la campagne présidentielle
2012 : Observatoire des discours
120. 120
Vers de l’automatisation grâce au TAL
• [Tannier 2014] : identification automatique de relations
d’alliance ou d’opposition entre pays sur un sujet
donné
• Corpus : dépêches AFP + Web
• Pré-travail
04/10/2014
– Création d’un lexique de 110 déclencheurs de relations
positives (applaud, agree) ou négatives (criticism…)
• Prétraitement du corpus
– Normalisation des dates, segmentation en chunks,
résolution de coréférence, étiquetage en EN
– Utilisation de DBPedia et d’heuristiques pour lier
capitales, villes, personnes et pays
121. • Apprentissage d’un classifieur (SVM) classant chaque
phrase avec au moins deux EN et un déclencheur
121
Vers de l’automatisation grâce au TAL
04/10/2014
– Relation ou pas de relation
– Relation positive ou négative
Indonesia voiced support for East Timor's bid to join the ASEAN.
POS(Indonesia, East Timor)
China earlier protested Obama's meeting with the Dalai Lama, [...].
NEG(China, USA)
122. • Chaque phrase contenant au moins une relation :
contenu, pays impliqués, relation(s) et date indexés
• Interrogation via un moteur de recherche
122
Vers de l’automatisation grâce au TAL
04/10/2014
– Sujet (mots-clés)
– Dates minimale et maximale
– Nombre de pays
• Pour chaque paire de pays (e1, e2) à la date d, calcul d’un
poids
– Poids(e1, e2, d) = log
(,
, )
(,
, )
• Lissage du poids sur une fenêtre temporelle
– Moyenne pondérée sur la fenêtre
123. Requête « Syria » entre « USA » et « Russia »
123
04/10/2014
Série temporelle – 2 pays
Transparent emprunté à
X. Tannier
124. Transparent emprunté à
X. Tannier
124
04/10/2014
Requête « Syria » en « 2012 »
Distances et couleurs marquants les alliances/oppositions
125. 125
04/10/2014
4.3- Fact-checking
• Vérification par les faits
• Vérification de la véracité d’affirmations issues de
discours ou de documents
– Vrai / faux, omissions, lectures à sens unique…
• Par comparaison avec des sources d’informations
fiables
– Tirer profit de la masse d’informations disponible
126. 126
04/10/2014
Des exemples
• Début des années 2000 : site FactCheck.org, projet
du Annenberg Public Policy Center de l’université
de Pennsylvanie
• 2007 : site PolitiFact du Tampa Bay Times
– Truth-O-Meter
128. 128
04/10/2014
Des exemples
• Début des années 2000 : site FactCheck.org, projet
du Annenberg Public Policy Center de l’université
de Pennsylvanie
• 2007 : site PolitiFact du Tampa Bay Times
– Truth-O-Meter
– Obameter
• 2007 : site FactChecker du Washington Post
130. 130
04/10/2014
Des exemples
• Début des années 2000 : site FactCheck.org, projet
du Annenberg Public Policy Center de l’université
de Pennsylvanie
• 2007 : site PolitiFact du Tampa Bay Times
– Truth-O-Meter
– Obameter
• 2007 : site FactChecker du Washington Post
• En France
– Radio : Le vrai du faux, France-Info (2012)
– TV : Véritomètre sur la campagne présidentielle de
2012, OWNI et iTELE
132. 132
04/10/2014
Techniques de vérification
• Travail essentiellement manuel
– Par recoupement de plusieurs bases
• Fiabilité acquise (ou renforcée) grâce à la masse de données
– Parfois par appel au crowd-sourcing
• Un peu d’automatisation : prototype TruthTeller du
Washington Post
– Repérage d’affirmations stockées en bases et déjà
contrôlées dans un discours transcrit
134. 134
04/10/2014
Ce que le TAL peut offrir
• Recherche d’information
– Comparaison de contenus
• Systèmes de questions/réponses
– Réponses à des questions précises
• Extraction d’informations
– Extraction d’un fait, de ses attributs
• Techniques d’apprentissage artificiel
– Pour faire émerger des connaissances
135. 135
04/10/2014
Ce que le TAL offre actuellement
• Trouver un fait exact parmi des informations
contradictoires
– En se fondant sur la fiabilité des sites le citant [Yin et al. 2007]
• Interdépendance fiabilité d’un site – crédibilité d’un fait
• Score d’un fait : dépend du score des sites le mentionnant et est
influencé par les scores des faits qui lui sont similaires
• Score d’un site : dépend du score des faits qu’il contient
• Algorithme itératif transitif
– Scores des sites initialisés à la même valeur
– Scores des faits calculés
– Scores des sites recalculés
– Itération jusqu’à convergence
136. 136
04/10/2014
Ce que le TAL offre actuellement
• Trouver un fait exact parmi des informations
contradictoires
– En se fondant sur l’objectivité du langage des sites le
citant [Nakashole et Mitchell 2014]
• Langage objectif : neutre, impartial, non personnel, non
émotionnel
• Interdépendance objectivité d’une source et sa fiabilité
• Proposition d’un classifieur (apprentissage supervisé) objectif vs
subjectif, fondé sur différents traits dont la présence de mots
issus de lexique d’opinion
• Score d’un candidat-fait : fonction de l’objectivité des sources qui
le citent et du score des faits co-mentionnés avec lui
137. 137
04/10/2014
Ce que le TAL offre actuellement
• Reconnaître si la source d’un fait croit en la véracité
du fait qu’elle énonce [Saurì et Pustejovsky 2012]
– Granularité assez fine
• Polarité du fait : affirmé ou nié
• Modalité épistémique : certain, probable ou possible
– Travail d’expertise linguistique pour définir
• Une liste de marqueurs de la polarité et de la modalité :
– non, certainement, supposé, possible, apparemment, pouvoir, dire, douter,
regretter…
• Les influences entre ces marqueurs au fil des constructions
syntaxiques
• Bilan global : TAL encore peu utilisé en Fact-checking
138. 138
04/10/2014
Conclusions TAL et Big Data
• Pas une révolution, celle du TAL datant d’avant
– Mais plus de données, plus de variété
– Revisite d’applications ou techniques de TAL
– Essor d’applications pour faire face au déluge de données
– Essor d’applications pour tirer profit du déluge de données
• Chercheur en TAL transformé en « scientifique des
données » (data scientist)
– Mais aussi utilisation de représentations mixant des grains
différents
• Prise de conscience de l’importance de l’accès au contenu
des données langagières
• Attente d’applications efficaces et explicatives
139. 139
04/10/2014
Bibliographie
• ALLAN (J.), Building Hypertext Using Information Retrieval, Information Processing and Management, Vol. 33(2), 1997, p. 133-144.
• ALLAUZEN (A.) et YVON (F.), Méthodes statistiques pour la traduction automatique, dans GAUSSIER (É.) et YVON (F.), Modèles statistiques pour l'accès à
l'information textuelle, Paris, Hermès, chapitre 7, 2011, p. 271-356.
• BROWN (P.F.), COCKE (J.), DELLA PIETRA (S.A.), DELLA PIETRA (V.J.), JELINEK (F.), LAFFERTY (J.D.), MERCER (R.L.) et ROOSSIN (P.S.), A statistical
approach to machine translation, dans Computational Linguistics, Vol. 16(2), 1990, p. 79-85.
• ESULI (A.) et SEBASTIANI (F.), SentiWordNet: A publicly available lexical resource for opinion mining, dans Actes de 5th Conference on Language Resources and
Evaluation (LREC 2006), Gênes, Italie, 2006, pp. 417-422.
• FAIRON (C.), KLEIN (J.) et PAUMIER (S.), Le langage SMS. Étude d'un corpus informatisé à partir de l'enquête « Faites don de vos SMS à la science », Louvain-la-
Neuve, Presses universitaires de Louvain, 2006.
• GILLICK (D.) et FAVRE (B.), A scalable model for summarization, dans Actes de NAACL HLT Workshop on Integer Linear Programming for Natural Language
Processing, Boulder, USA, 2009, p. 10-18.
• GOLDSTEIN (J.) et CARBONELL (J.), Summarization : (1) using MMR for diversity-based reranking and (2) evaluating summaries, dans Actes de Workshop On
TIPSTER Text Program : Phase III, Baltimore, USA, 1998, p. 181-195.
• GRAVIER (G), GUINAUDEAU (C.), LECORVÉ (G.) et SÉBILLOT (P.), Exploiting speech for automatic TV delinearization : From streams to cross-media semantic
navigation, dans Eurasip Journal on Image and Video Processing, Vol. 2011, 2011.
• HEARST (M.A.), TileBars: Visualization of term distribution information in full text information access, dans Actes de ACM SIGCHI Conference on Human Factors in
Computing Systems (CHI), Denver, USA, 1995, p. 59-66.
• HEARST (M.A.), TextTiling: Segmenting text into multi-paragraph subtopic passages, dans Computational Linguistics, Vol. 23(1), 1997, p. 33-64.
• HIRSCHMAN (L.) et GAIZAUSKAS (R.), Natural language question answering, dans Natural Language Engineering, Vol. 7(4), 2001, p. 275-300.
• HOLOTAVI (A.) (2006, 6 sep.), A fundamental way newspaper sites need to change, sur http://www.holovaty.com/writing/fundamental-change/. Consulté le 9 juil.
2014.
• LIN (C.-Y.), Rouge: A package for automatic evaluation of summaries, dans Actes de ACL Workshop Text summarization branches out, Barcelona, Espagne, 2004,
p. 74-81.
• LIU (B.), Sentiment analysis and opinion mining, dans Morgan Claypool publishers, 2012.
• MIHALCEA (R.), Graph-based ranking algorithms for sentence extraction, applied to text summarization, dans Actes de 42nd Annual Meeting of the Association for
Computational Linguistics, companion volume (ACL 2004), Barcelona, Espagne, 2004.
• NAGAO (M.), A framework of a mechanical translation between Japanese and English by analogy principle, dans Elithorn (A.) et Banerji (R.), Artificial and Human
Intelligence, Amsterdam, North-Holland Publishing Company, chapitre 11, 1984, p. 173-180.
• NAKASHOLE (N.) et MITCHELL (T.M.), Language-aware truth assessment of fact candidates, dans Actes de 52nd Annual Meeting of the Association for
Computational Linguistics (ACL 2014), Baltimore, USA, 2014, p. 1009-1019.
• SAURÍ (R.) et PUSTEJOVSKY (J.), Are you sure that this happened? Assessing the factuality degree of events in text, dans Computational Linguistics, Vol. 38(2),
2012, p. 261-299.
• TANNIER (X.), Traitement des événements et ciblage d'information, Habilitation à diriger des recherches, Université Paris Sud, 2014.
• TURNEY (P.D.), Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews, dans Actes de 40th Annual Meeting of the
Association for Computational Linguistics (ACL 2002), Philadelphia, USA, 2002, p. 417-424.
• UTIYAMA (M.) et ISAHARA (H.), A statistical model for domain-independent text segmentation, dans Actes de 39th Annual Meeting on the Association for
Computational Linguistics (ACL 2001), Toulouse, France, 2001, p. 499-506.
• YIN (X.), HAN (J.) et Yu (P.S.), Truth discovery with multiple conflicting information providers on the Web, dans Actes de 13th International Conference on Knowledge
Discovery and Data Mining (KDD'07), Short paper, San Jose, USA, 2007, p. 1048-1052.
• ZENS (R.), OCH (F.J.) et NEY (H), Phrase-based statistical machine translation, dans KI-2002: Advances in Artificial Intelligence, Springer Verlag, LNAI Vol. 2479,
2002, p. 18-32.