Word-sense disambiguation

Exposé de Recherche D’information

Word Sense Disambiguation (WSD)

Présenté par: Enseignant de module:

BENDJELLOUL Fatima Zahra
LAROUSSI Khadidja Mr.bentaallah.M
1

Plan de travail

Introduction
Qu’est ce que les sens d’un mot ?
Ambiguïtés sémantiques
Définition de WSD
Pourquoi la WSD ?
Les types de WSD
Les méthodes de WSD
Evaluation
Conclusion

2

Introduction
 L’ambiguïté des mots est un phénomène omniprésent dans les
langues naturelles.

 Elle représente une des grandes difficultés du traitement
automatique du langage naturel,

 Pour cela, la WSD permet de traiter et de lever cet ambiguïté.

3

Qu’est ce que les sens d’un mot ?
Sens, en linguistique, est synonyme de signification. Il désigne le
contenu conceptuel d'une expression.

Les différent sens d’un mot:

Mot a un seul sens : appartient à une vocabulaire
technique, scientifique

Mot a plusieurs sens : c’est qu’on nomme la polysémie, certain
mot a un sens propre et un sens figuré.

Sens d’après le contexte: pour comprendre le sens il faut relire
la phrase qui précède et celle qui suit
4

Ambiguïtés sémantiques

Beaucoup de mots de la langue peuvent être interprétés
de manières variées en fonction du contexte dans lequel
ils apparaissent,

1. Les homonymes
2. Les polysémies

5

Mouse Windows

1. Les homonymes
2. Les polysémies

mots avec des sens non liés
6

Papier

...

1. Les homonymes
2. Les polysémies

mots dont les sens sont liés d’une certaine manière
7

Définition de la WSD

Une tâche nécessaire à la bonne réalisation de
nombreuses applications du TALN,

Consiste à déterminer le sens correct des mots
ambigus dans un contexte.

8

Pourquoi la WSD ?
 Recherche d’information: filtrer les réponses retournées par le
systèmes et garder juste les réponses pertinents,

 Traduction automatique:

Ex: le mot en espagnol muñeca peut être traduit en français par « poupée »
ou par « poignée » en fonction du contexte

 Traitement du discours:

Ex: La prononciation/kuR/peut être écrite comme « cour », « court», «
cours » ou encore « coure ».

 Traitement de texte: pour la correction orthographique

Ex: Les mots « comte » et « comté ».
9

Les types de désambiguïsation
Désambiguïsation ciblée (Targeted Word Sense Disambiguation)

Désambiguïsation d’un mot en particulier dans un texte.

Ex:

 The mouse is an animal very active, very acrobatic, they live in groups.

 A mouse is a pointing device that connects to the computer

WSD est considérée comme un problème de classification

10

Désambiguïsation ciblée (Targeted Word Sense Disambiguation)
 Corpus d’apprentissage contenant les occurrences du mot, chaque
occurrence est annotée par un sens.

 Extraction de vecteurs de traits qui représentent le contexte d’apparition
du mot.

Trouver le sens approprié du mot en contexte

11

Désambiguïsation complète (All words Word Sense Disambiguation)
Désambiguïsation de tous les mots pleins d’un texte.

Ex: The mouse and rats are widely used in animal research laboratories
for testing the toxicity of certain substances

- Exploitation de définitions de dictionnaires.
- Exploitation de relations sémantiques

12

Les méthodes de WSD

Méthodes fondées sur les connaissances

Méthodes fondées sur l’apprentissage

13

Méthodes fondées sur les connaissances

la désambiguïsation automatique est matérialisée par les
méthodes basées sur les connaissances qui essayent
d’extraire de manière automatique l’information
nécessaire à la désambiguïsation.

14

Ressources lexicales/sémantiques

Les dictionnaires électroniques ex: le petit larousse

Les thésaurus ex: Roget’s Thesaurus

Réseaux sémantiques ex: WordNet

15

Méthode de Lesk (Michael Lesk 1986)

Récupérer de MRD toutes les définitions du sens des mots à
ambigus.

Mesurer le chevauchement entre les différents définitions dans
le dictionnaire, d'un mot ambigu et les définitions de ses voisins
immédiats.

Choisissez le sens qui conduisent à plus de chevauchement

16

Méthode de Lesk (Michael Lesk 1986)
Exemple: désambiguïser mouse computer

Mouse
1. any of numerous small rodents typically resembling diminutive rats having
pointed snouts
2. person who is quiet or timid
3. a hand-operated electronic device that controls the coordinates of a cursor on
your computer screen as you move it around on a pad
Computer
1. computing machine, computing device, data processor, electronic
computer, information processing system
2. calculator, reckoner, figurer, estimator

Mouse1 computer1 =0 mouse2 computer2 =0

17

Les inconvénients de la méthode de Lesk

 Fondée sur la correspondance exacte des mots trouvés dans
les déﬁnitions

 Ne permet pas de capter des relations moins explicites (par
ex. sémantiques) entre les mots

 Vise la désambiguïsation d’un mot à la fois

 Explosion combinatoire si l’on essaie de désambiguïser tous
les mots du texte

18

Méthodes fondés sur l’apprentissage
Utilisation d’informations sémantiques acquises directement à
partir de textes

 Désambiguïsation supervisée : exploitation des données
annotées
 Désambiguïsation non supervisée : acquisition des données
non annotées
 Désambiguïsation semi supervisée : création d’un classifieur
avec peu de données annotées, beaucoup de données non
annotées

Application de techniques d’apprentissage automatique à la
désambiguïsation

19

Méthodes supervisées
• Utilisation d’un ensemble de méthodes pour l’apprentissage de classifieurs a
partir de corpus annotés
Types de corpus
- corpus avec les sens d’un mot particulier annotés, ex : corpus d’évaluation de
Senseval
- corpus avec chaque mot plein annoté, ex : SemCor (234000 mots annotés avec
les sens de WordNet)

Problème de classification

 Extraction de traits (features) des textes utiles pour prédire des
sens particuliers des mots

 Apprentissage de classifieurs particuliers, ex : classifieurs naïfs de Bayes, listes
de décisions, etc.

 Un classifieur doit ici attribuer un sens a un mot (non annoté) en se basant sur
le contexte de ce mot
20

Méthodes supervisées
Avantages

• elles ont les meilleures performances
• elles donnent les meilleurs résultats dans les évaluations des systèmes de
désambiguïsation sémantique

Inconvénients

• élaboration coûteuse des données d’entraînement (Ng, 1997)
• dispersion des données (data sparseness) : difficile d’avoir un ensemble
d’entraînement annoté qui couvre tout le lexique d’une langue
• désambiguïsation souvent focalisée sur un petit ensemble de mots ambigus
(target words)

21

Méthodes semi-supervisées:

 Apprentissage de classifieurs de sens de mots avec un
minimum de textes annotés (peu de données disponibles)

 Approches par amorçage (bootstrapping) : produire un
classifieur qui améliore les performances

 Apprentissage d’un classifieur pour la désambiguïsation ciblée
[Yarowsky, 1995]

22

Méthodes non-supervisées
 offrent une solution au problème de la disponibilité limitée de données annotées

 Ni de corpus d’exemples sémantiquement annotés, ni de sources externes de
connaissances (dictionnaires, thésaurus, etc.)

 Exploitent de grands corpus de données non annotées

 Basée sur les résultats de méthodes d’induction de sens (Word Sense Induction (WSI))
Identifient les sens possibles des mots à partir de grands corpus de textes non annotés

Les instances d’un mot ambigu sont clustérisées sur la base de la similarité des
contextes dans lesquels elles apparaissent

Chaque cluster décrit un sens du mot ambigu

23

Méthodes non-supervisées

Avantages

 Une performance presque comparable aux approches
supervisées [Manning et Schutze, 2000]

Inconvénients [Jurafsky et Martin, 2000]

 Les sens corrects peuvent ne pas être connus
 Les clusters obtenus peuvent contenir plusieurs sens

24

Evaluation
Correction par des humains, vérification de la nature des relations
entre les membres des clusters

Evaluation non supervisée
Les sens induits sont évalués en tant que clusters d’exemples et
comparés à des exemples annotés par des sens gold standard (GS)

Evaluation supervisée
Mise en correspondence des clusters obtenus avec des sens du GS
(OntoNotes, Hovy et al., 2006)
Utilisation des correspondences établies pour annoter des instances dans
le corpus de test avec des sens GS

25

Conclusion
La désambiguïsation sémantique est un problème très complexe relié à la
richesse de la langue.

Combinaison de plusieurs méthodes capables de résoudre le problème WSD.

La méthode Lesk est assez simple et a donnée des résultats intéressants.

Les algorithmes d’apprentissage sont maintenant plus performants que les
algorithmes de désambiguïsation à l’aide de dictionnaires

La technique Naïve Bayes a une bonne performance sur les tâches de
classification.

26

Bibliographie
 www.iro.umontreal.ca/~felipe/Papers/paper-taln-2004a.pdf

 www.images.hachette-livre.fr/media/.../2543807769.pdf

 http://perso.limsi.fr/amax/enseignement/tal/Cours-
DesambiguisationLexicale-M2R.pdf

27

Word-sense disambiguation

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a Word-sense disambiguation

Semelhante a Word-sense disambiguation (20)

Word-sense disambiguation