1.Introduction
2.Qu’est ce que les sens d’un mot ?
3.Ambiguïtés sémantiques
4.Définition de WSD
5.Pourquoi la WSD ?
6.Les types de WSD
7.Les méthodes de WSD
8.Evaluation
Conclusion
1. Exposé de Recherche D’information
Word Sense Disambiguation (WSD)
Présenté par: Enseignant de module:
BENDJELLOUL Fatima Zahra
LAROUSSI Khadidja Mr.bentaallah.M
1
2. Plan de travail
Introduction
Qu’est ce que les sens d’un mot ?
Ambiguïtés sémantiques
Définition de WSD
Pourquoi la WSD ?
Les types de WSD
Les méthodes de WSD
Evaluation
Conclusion
2
3. Introduction
L’ambiguïté des mots est un phénomène omniprésent dans les
langues naturelles.
Elle représente une des grandes difficultés du traitement
automatique du langage naturel,
Pour cela, la WSD permet de traiter et de lever cet ambiguïté.
3
4. Qu’est ce que les sens d’un mot ?
Sens, en linguistique, est synonyme de signification. Il désigne le
contenu conceptuel d'une expression.
Les différent sens d’un mot:
Mot a un seul sens : appartient à une vocabulaire
technique, scientifique
Mot a plusieurs sens : c’est qu’on nomme la polysémie, certain
mot a un sens propre et un sens figuré.
Sens d’après le contexte: pour comprendre le sens il faut relire
la phrase qui précède et celle qui suit
4
5. Ambiguïtés sémantiques
Beaucoup de mots de la langue peuvent être interprétés
de manières variées en fonction du contexte dans lequel
ils apparaissent,
1. Les homonymes
2. Les polysémies
5
6. Mouse Windows
1. Les homonymes
2. Les polysémies
mots avec des sens non liés
6
7. Papier
...
1. Les homonymes
2. Les polysémies
mots dont les sens sont liés d’une certaine manière
7
8. Définition de la WSD
Une tâche nécessaire à la bonne réalisation de
nombreuses applications du TALN,
Consiste à déterminer le sens correct des mots
ambigus dans un contexte.
8
9. Pourquoi la WSD ?
Recherche d’information: filtrer les réponses retournées par le
systèmes et garder juste les réponses pertinents,
Traduction automatique:
Ex: le mot en espagnol muñeca peut être traduit en français par « poupée »
ou par « poignée » en fonction du contexte
Traitement du discours:
Ex: La prononciation/kuR/peut être écrite comme « cour », « court», «
cours » ou encore « coure ».
Traitement de texte: pour la correction orthographique
Ex: Les mots « comte » et « comté ».
9
10. Les types de désambiguïsation
Désambiguïsation ciblée (Targeted Word Sense Disambiguation)
Désambiguïsation d’un mot en particulier dans un texte.
Ex:
The mouse is an animal very active, very acrobatic, they live in groups.
A mouse is a pointing device that connects to the computer
WSD est considérée comme un problème de classification
10
11. Les types de désambiguïsation
Désambiguïsation ciblée (Targeted Word Sense Disambiguation)
Corpus d’apprentissage contenant les occurrences du mot, chaque
occurrence est annotée par un sens.
Extraction de vecteurs de traits qui représentent le contexte d’apparition
du mot.
Trouver le sens approprié du mot en contexte
11
12. Les types de désambiguïsation
Désambiguïsation complète (All words Word Sense Disambiguation)
Désambiguïsation de tous les mots pleins d’un texte.
Ex: The mouse and rats are widely used in animal research laboratories
for testing the toxicity of certain substances
- Exploitation de définitions de dictionnaires.
- Exploitation de relations sémantiques
12
13. Les méthodes de WSD
Méthodes fondées sur les connaissances
Méthodes fondées sur l’apprentissage
13
14. Méthodes fondées sur les connaissances
la désambiguïsation automatique est matérialisée par les
méthodes basées sur les connaissances qui essayent
d’extraire de manière automatique l’information
nécessaire à la désambiguïsation.
14
16. Méthode de Lesk (Michael Lesk 1986)
Récupérer de MRD toutes les définitions du sens des mots à
ambigus.
Mesurer le chevauchement entre les différents définitions dans
le dictionnaire, d'un mot ambigu et les définitions de ses voisins
immédiats.
Choisissez le sens qui conduisent à plus de chevauchement
16
17. Méthode de Lesk (Michael Lesk 1986)
Exemple: désambiguïser mouse computer
Mouse
1. any of numerous small rodents typically resembling diminutive rats having
pointed snouts
2. person who is quiet or timid
3. a hand-operated electronic device that controls the coordinates of a cursor on
your computer screen as you move it around on a pad
Computer
1. computing machine, computing device, data processor, electronic
computer, information processing system
2. calculator, reckoner, figurer, estimator
Mouse1 computer1 =0 mouse2 computer2 =0
Mouse1 computer2 =0 mouse3 computer1 =3
Mouse2 computer1 =0 mouse3 computer2 =0
17
18. Les inconvénients de la méthode de Lesk
Fondée sur la correspondance exacte des mots trouvés dans
les définitions
Ne permet pas de capter des relations moins explicites (par
ex. sémantiques) entre les mots
Vise la désambiguïsation d’un mot à la fois
Explosion combinatoire si l’on essaie de désambiguïser tous
les mots du texte
18
19. Méthodes fondés sur l’apprentissage
Utilisation d’informations sémantiques acquises directement à
partir de textes
Désambiguïsation supervisée : exploitation des données
annotées
Désambiguïsation non supervisée : acquisition des données
non annotées
Désambiguïsation semi supervisée : création d’un classifieur
avec peu de données annotées, beaucoup de données non
annotées
Application de techniques d’apprentissage automatique à la
désambiguïsation
19
20. Méthodes supervisées
• Utilisation d’un ensemble de méthodes pour l’apprentissage de classifieurs a
partir de corpus annotés
Types de corpus
- corpus avec les sens d’un mot particulier annotés, ex : corpus d’évaluation de
Senseval
- corpus avec chaque mot plein annoté, ex : SemCor (234000 mots annotés avec
les sens de WordNet)
Problème de classification
Extraction de traits (features) des textes utiles pour prédire des
sens particuliers des mots
Apprentissage de classifieurs particuliers, ex : classifieurs naïfs de Bayes, listes
de décisions, etc.
Un classifieur doit ici attribuer un sens a un mot (non annoté) en se basant sur
le contexte de ce mot
20
21. Méthodes supervisées
Avantages
• elles ont les meilleures performances
• elles donnent les meilleurs résultats dans les évaluations des systèmes de
désambiguïsation sémantique
Inconvénients
• élaboration coûteuse des données d’entraînement (Ng, 1997)
• dispersion des données (data sparseness) : difficile d’avoir un ensemble
d’entraînement annoté qui couvre tout le lexique d’une langue
• désambiguïsation souvent focalisée sur un petit ensemble de mots ambigus
(target words)
21
22. Méthodes semi-supervisées:
Apprentissage de classifieurs de sens de mots avec un
minimum de textes annotés (peu de données disponibles)
Approches par amorçage (bootstrapping) : produire un
classifieur qui améliore les performances
Apprentissage d’un classifieur pour la désambiguïsation ciblée
[Yarowsky, 1995]
22
23. Méthodes non-supervisées
offrent une solution au problème de la disponibilité limitée de données annotées
Ni de corpus d’exemples sémantiquement annotés, ni de sources externes de
connaissances (dictionnaires, thésaurus, etc.)
Exploitent de grands corpus de données non annotées
Basée sur les résultats de méthodes d’induction de sens (Word Sense Induction (WSI))
Identifient les sens possibles des mots à partir de grands corpus de textes non annotés
Les instances d’un mot ambigu sont clustérisées sur la base de la similarité des
contextes dans lesquels elles apparaissent
Chaque cluster décrit un sens du mot ambigu
23
24. Méthodes non-supervisées
Avantages
Une performance presque comparable aux approches
supervisées [Manning et Schutze, 2000]
Inconvénients [Jurafsky et Martin, 2000]
Les sens corrects peuvent ne pas être connus
Les clusters obtenus peuvent contenir plusieurs sens
24
25. Evaluation
Correction par des humains, vérification de la nature des relations
entre les membres des clusters
Evaluation non supervisée
Les sens induits sont évalués en tant que clusters d’exemples et
comparés à des exemples annotés par des sens gold standard (GS)
Evaluation supervisée
Mise en correspondence des clusters obtenus avec des sens du GS
(OntoNotes, Hovy et al., 2006)
Utilisation des correspondences établies pour annoter des instances dans
le corpus de test avec des sens GS
25
26. Conclusion
La désambiguïsation sémantique est un problème très complexe relié à la
richesse de la langue.
Combinaison de plusieurs méthodes capables de résoudre le problème WSD.
La méthode Lesk est assez simple et a donnée des résultats intéressants.
Les algorithmes d’apprentissage sont maintenant plus performants que les
algorithmes de désambiguïsation à l’aide de dictionnaires
La technique Naïve Bayes a une bonne performance sur les tâches de
classification.
26