Génération automatique de distracteurs dans le cadre de QCM

Génération automatique de
distracteurs dans le cadre de QCM
Thibault ANDRÉ
Stage de Master 1, Université Catholique de Louvain
24 juin 2013 - 14 août 2013
LIMSI-CNRS

Table des matières
Remerciements 3
Introduction 4
1 Présentation du stage et du cadre de travail 5
1.1 Présentation du stage . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Le LIMSI et le groupe ILES . . . . . . . . . . . . . . . . . . . 5
2 Bref état de l’art de la génération automatique de distrac-
teurs 7
2.1 Le domaine général du Questions-Réponses . . . . . . . . . . . 7
2.1.1 Analyse de la question . . . . . . . . . . . . . . . . . . 7
2.1.2 Sélection des passages . . . . . . . . . . . . . . . . . . 8
2.1.3 Extraction de la réponse . . . . . . . . . . . . . . . . . 9
2.2 Les Questionnaires à Choix Multiples . . . . . . . . . . . . . . 10
2.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Les distracteurs : caractéristiques générales . . . . . . . 11
2.2.3 Génération automatique de distracteurs . . . . . . . . . 13
2.3 Positionnement du stage . . . . . . . . . . . . . . . . . . . . . 15
3 Présentation des outils utilisés 16
3.1 Brat Rapid Annotation Tool . . . . . . . . . . . . . . . . . . . 16
3.2 The Stanford Natural Language Processing Group . . . . . . . 17
3.2.1 Stanford Parser et Stanford Named Entity Recognition 18
3.2.2 Tregex . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 Présentation du corpus 20
4.1 QA4MRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2 QCM provenant d’un corpus déjà constitué . . . . . . . . . . . 22
4.3 QCM issus de divers sites internet . . . . . . . . . . . . . . . . 23
4.4 Format du corpus . . . . . . . . . . . . . . . . . . . . . . . . . 23
1

5 Annotation d’un corpus d’entraînement 24
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2 Annotation des relations internes au QCM (réponse, distrac-
teurs, stem) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2.1 Annotation syntaxique . . . . . . . . . . . . . . . . . . 25
5.2.2 Annotation sémantique . . . . . . . . . . . . . . . . . . 27
5.3 Annotation des relations entre la réponse et le correspondant
textuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.4 Analyses et résultats . . . . . . . . . . . . . . . . . . . . . . . 29
5.4.1 Syntaxe inter-alternative . . . . . . . . . . . . . . . . . 29
5.4.2 Typologie d’entité nommée inter-alternative . . . . . . 33
5.4.3 Alternatives vs stem : type de réponse attendu . . . . 34
5.4.4 Relation entre la réponse du QCM et son correspon-
dant textuel . . . . . . . . . . . . . . . . . . . . . . . . 35
5.4.5 Mesure de la distance entre un distracteur et sa réponse 37
6 Implémentation d’un générateur automatique de distrac-
teurs dans le cadre de QCM 39
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.2 Présentation de la typologie de distracteurs . . . . . . . . . . . 40
6.3 Génération de distracteurs sur la base d’une taxonomie d’en-
tités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.4 Génération de distracteurs sur la base d’une analyse syntaxique 43
6.5 Regroupement des programmes . . . . . . . . . . . . . . . . . 46
7 Analyses et résultats du générateur automatique de distrac-
teurs 47
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2 Remarques préambulaires . . . . . . . . . . . . . . . . . . . . 47
7.3 Génération de distracteurs sur la base d’une taxonomie d’en-
tités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.4 Génération de distracteurs sur la base d’une analyse syntaxique 50
Conclusion : apports et limites 53
Bibliographie 54
Annexes 56
2

Remerciements
Par ces mots, je tiens à remercier d’emblée le LIMSI et le groupe ILES
de m’avoir accueilli pour la réalisation de mon stage de Master 1.
En particulier, je remercie tout d’abord Anne-Laure Ligozat et Van-Minh
Pho (Sami), pour leur aide précieuse, leurs conseils judicieux et leur soutien
indéfectible tout au long de ces huit semaines. Je tiens vraiment à vous faire
part, à tous les deux, de ma reconnaissance pour tout ce que vous m’avez
apporté et pour toutes les heures (que dis-je, jours) que vous m’avez dédiés.
J’ai une pensée particulière pour Sami, qui, même s’il déborde de travail
dans le cadre de sa thèse, a toujours trouvé du temps à me consacrer pour
m’aider à surmonter les (nombreux) problèmes qui ont parsemé ma route.
Je remercie également Brigitte Grau pour m’avoir épaulé deux semaines
durant dans les périodes de dépeuplement du LIMSI et, de surcroît, de mes
deux encadrants susmentionnés.
Et, ﬁnalement, je remercie mes camarades de stage Frédéric, Loïc, Maria,
Marine, Vincent pour leur support et leur compagnie durant les (rares) pauses
– gastronomiques mais pas seulement – que nous nous sommes octroyées en
cette période de fortes chaleurs.
3

Introduction
Les questionnaires à choix multiples (QCM) ont fait leur apparition il y a
près d’un siècle et, pourtant, très peu de tentatives d’automatisation ont été
réalisées avant les années 1990. Plus large qu’il n’y parait, ce domaine revêt
une utilité indéniable en ce qu’il pourrait, à terme, fournir aux professeurs
des outils de qualités leur épargnant la rédaction bien souvent fastidieuse de
ces QCM. Au sein de ceux-ci, la tâche la plus compliquée reste la création des
« fausses réponses » : elles doivent être suffisamment proches de la réponse
pour qu’elles soient efficaces, mais également être suffisamment différentes
pour éviter qu’elles ne constituent des réponses tout aussi valides. Face à ce
constat, de nombreux auteurs – dont [Burton et al., 1991], sur lequel nous
revenons souvent dans ce rapport – ont tenté d’établir des listes de règles à
suivre en vue d’offrir des bases permettant de créer des « distracteurs » (les
fausses réponses) de qualité.
Nous proposons ici une approche permettant de générer automatiquement
ces distracteurs, à partir d’un texte et des paires de questions-réponses s’y
rapportant. Si cela a déjà été réalisé ces dernières années, ces systèmes ne
se concentrent généralement que sur un type de texte ou de questions parti-
culières (biomédical, test lexicaux,. . .) ; notre approche se veut plus ouverte,
permettant de générer des distracteurs pour tout type de texte, et surtout
tout type de questions.
L’objectif est de fournir un « socle de base » pour la langue anglaise, fonc-
tionnel, qui pourra aisément être modifié en vue d’améliorations ultérieures.
En effet, ce stage constitue une étape préalable au mémoire, consacré au
même sujet.
4

Chapitre 1
Présentation du stage et du
cadre de travail
1.1 Présentation du stage
Le stage, dénommé « Création automatique de distracteurs au sein de
QCM », a été proposé par le Laboratoire d’Informatique pour la Mécanique et
les Sciences de l’Ingénieur (LIMSI). Il s’est déroulé du 24 juin au 14 août 2013,
sous la supervision d’Anne-Laure Ligozat (maître de conférences), Brigitte
Grau (professeur des universités) et Van-Minh Pho (doctorant).
1.2 Le LIMSI et le groupe ILES 1
Le LIMSI, laboratoire d’environ 200 permanents et doctorants dirigé par
Patrick Le Quéré, est une unité du Centre National de la Recherche Scienti-
fique (CNRS) concentrant ses recherches dans deux domaines spécifiques : la
mécanique et énergétique d’un côté, et les sciences et technologies de l’infor-
mation et de la communication de l’autre. Les thèmes de recherche couvrent
un large spectre disciplinaire, allant du thermodynamique au cognitif, en pas-
sant par la mécanique des fluides, l’énergétique, l’acoustique, l’analyse et la
synthèse vocale, le traitement de la langue parlée et du texte, la vision et la
perception, la réalité virtuelle et augmentée,. . .
Les deux départements sont divisés en neuf groupes. Six d’entre eux sont
dédiés au domaine de l’interaction homme-machine, dont le groupe Informa-
tion, Langue Écrite et Signée (ILES) auquel ce stage est rattaché. Le premier
domaine d’étude de ce groupe est consacré au traitement de la langue écrite,
1. Cette section est partiellement reprise du site du LIMSI, www.limsi.fr
5

et plus précisément à son analyse, à sa compréhension et sa production,
ainsi qu’à l’acquisition des connaissances nécessaires, principalement mor-
phologiques et sémantiques. Le second domaine d’étude tente de modéliser
et automatiser la langue des signes.
6

Chapitre 2
Bref état de l’art de la
génération automatique de
distracteurs
2.1 Le domaine général du Questions-
Réponses
La génération automatique de distracteurs est une spécialisation du
Questions-Réponses (Question Answering (QA)), domaine particulier de la
recherche d’information (Information Retrieval (IR)). Le processus, décrit
par [Lampert, 2004], passe par trois étapes, à savoir (i) l’analyse de la ques-
tion, soumise aux modules de prétraitements permettant de représenter l’in-
formation demandée, (ii) la sélection des passages (paragraphes) pouvant
contenir la réponse à la question (information retrieval), et (iii) l’extraction
de la réponse.
2.1.1 Analyse de la question
Cette étape vise à créer une représentation de la question, en tentant de
dégager le type de la question et le type de la réponse attendue.
La détermination du type de la question se base sur les taxonomies exis-
tantes, par exemple celle de [Li et Roth, 2002], qui comprend six catégories
générales 1
(<abbreviation>, <entity>, <description>, <human>,
<location>, <numeric>), elles-mêmes subdivisées en une cinquantaine
de sous-catégories. Catégoriser la question selon un type déﬁni permet de
1. Cette taxonomie s’est inspirée des catégories de questions déﬁnies par
[Lehnert, 1977].
7

faciliter le travail des modules ultérieurs : à chaque type de question corres-
pond généralement un type de réponse attendu (notamment en termes de
syntaxe ou d’entités nommées).
Cependant, dans certains cas, la taxonomie n’est pas suffisante pour déter-
miner précisément le type de la réponse attendue (principalement, les ques-
tions débutant par exemple par un why ou what sont très hétérogènes et
peuvent nécessiter des réponses de types très différents). Le focus est une no-
tion essentielle à l’interprétation d’une question, en ce qu’il s’agit de l’élément
central de la question.
Le focus de la question permet de sélectionner des mots-clefs dans les do-
cuments, en utilisant la reconnaissance d’entités nommées ou en réalisant une
annotation des unités de discours. Ces mots-clefs peuvent être de nature très
différente ([Moldovan et al., 2000]) : les noms propres sont les plus évidents
(dans le cadre des entités nommées), mais citons également les syntagmes
nominaux et adjectivaux, les verbes, ou encore le focus de la question. La
liste des mots-clefs, si elle se révèle insuffisante, est souvent complétée par
d’autres termes sortis d’une analyse de synonymes, hyperonymes, ou encore
méronymes provenant d’une base de données telle que WordNet.
Cette première étape consiste donc en une construction d’une représen-
tation de la question, en une détermination du type de la réponse et en
l’extraction des termes-clefs. [Sundblad, 2007] ajoute qu’il peut être intéres-
sant de transformer préalablement la question en une phrase déclarative et
de réaliser un arbre syntaxique ou de dépendance, une structure qui peut
être utilisée par la suite pour repérer et vérifier les réponses au sein de
certains passages des documents.
Par exemple 2
, dans la phrase How large is the Arctic refuge to pre-
serve unique wildlife and wilderness value on Alaska’s north coast ?, la
question s’inscrit dans la classe how et la sous-classe how-large, la réponse
est de type <number> et le focus est Arctic refuge. L’annexe B reprend un
tableau du TREC 8 contenant un exemple d’analyses de Questions-Réponses
sur la base de classes de question et de types de réponse précis.
2.1.2 Sélection des passages
À partir de systèmes de recherche d’information, les éléments retenus spé-
cifiques à une question sont extraits du corpus. Les paragraphes ne contenant
pas les mots-clefs sont écartés, et les autres sont classés selon la plausibilité
de la présence de la réponse au sein de ces paragraphes. Si trop peu de para-
2. Exemple tiré du TREC 8 ( [Moldovan et al., 2000]).
8

graphes sont retenus, la liste des mot-clefs générée lors de l’étape précédente
est élargie. Par exemple, le mot-clef kill sera étendu à murder ou assassinate.
Une approche permettant d’améliorer la recherche d’information est l’an-
notation prédictive des documents, qui consiste en la notation des concepts
ou caractéristiques supposés utiles pour un certain type de question. Combi-
née à la taxonomie de réponses (cf. supra), il s’agit là d’un outil puissant et
efficace [Lampert, 2004].
[Jurafsky, 2012] avance qu’un document ne doit pas forcément être scindé
selon ses paragraphes. Il s’agit de la solution la plus simple, mais pas forcé-
ment la plus pertinente pour tous les types de textes. Il synthétise également
les différentes caractéristiques nécessaires à prendre en compte lors de la clas-
sification des passages pouvant contenir les réponses, avec, entre autres, le
nombre d’entités nommées du bon type, de mots-clefs, et de n-grams de la
question qui sont présents dans le passage.
2.1.3 Extraction de la réponse
La troisième étape identifie et récupère la réponse à partir des paragraphes
classés lors de la deuxième étape. L’identification de la réponse se fonde
sur le type de la réponse déterminé lors de l’analyse de la question (l’entité
nommée recherchée, le cas échéant). L’utilisation de taggers est indispensable
à l’identification de la réponse, et il est souvent nécessaire de réaliser une
analyse syntaxique complète du passage et de la comparer au résultat de
l’analyse syntaxique de la question ([Sundblad, 2007]). Une fois les réponses
potentielles identifiées, il se peut qu’il y ait plusieurs candidats à une question,
et que toutes ne soient pas forcément correctes 3
. Dans ce cas, on réalise des
analyses supplémentaires.
Selon [Jurafsky, 2012], ces analyses consistent en l’étude de la correspon-
dance entre le type de la réponse attendu et le type de la réponse déduit de
l’analyse de la question, en la prise en compte du nombre de mots-clefs et
de la plus longue séquence de mots de la question retrouvés au sein de la
réponse, et en l’analyse de la distance entre la réponse et les mots-clefs de la
question.
[Lampert, 2004] ajoute une méthode peu utilisée jusqu’alors, bien que
relativement facile à mettre en place, qui propose l’utilisation de la fréquence
de co-occurence entre la question et la réponse via les moteurs de recherche,
voire, dans la limite du possible, l’utilisation de ressources encyclopédiques
spécialisées selon le type de la question.
3. Par exemple, dans la phrase Who was King Albert II’s second child ?, si le type de
la réponse attendu est person, deux réponses sont possibles
9

Une fois la sélection du segment du texte contenant la réponse terminée, la
réponse en tant que telle est extraite du segment, éventuellement reformulée
pour correspondre au mieux aux exigences de la question dont elle dépend.
2.2 Les Questionnaires à Choix Multiples
2.2.1 Introduction
Au point précédent, nous avons présenté le domaine du Questions-
Réponses et surtout la méthodologie « de base » employée pour extraire la
réponse d’un texte. Cependant, le domaine du questionnaire à choix multiples
ou QCM, bien qu’il soit intrinsèque à celui du Questions-Réponses, possède
des caractéristiques qui lui sont propres, indispensables à prendre en compte
dans une optique d’automatisation du processus de création de QCM. Nous
présentons ici, dans un premier temps, la structure générale du QCM, pour
ensuite se concentrer, dans un second temps, sur l’un des éléments principaux
du QCM : le distracteur.
Un questionnaire à choix multiples standard comprend deux parties : le
stem d’un côté, et les alternatives de l’autre. Le stem correspond soit à une
question explicite, soit à une proposition, à laMitkovquelle un certain nombre
d’alternatives sont rattachées. Les alternatives correspondent à la réponse du
stem ainsi qu’à un ou plusieurs distracteurs (les « mauvaises réponses »).
Figure 2.1 – Composants d’un QCM [Burton et al., 1991]
Plus que le choix d’une question, la principale diﬃculté rencontrée lors
de la création d’un QCM est le choix des distracteurs ; la qualité d’un QCM
repose presqu’exclusivement sur la qualité de ceux-ci. Pourtant, même si le
10

QCM semble, en apparence, relativement aisé à mettre en place, la réalité est,
au contraire, tout autre. [Rodriguez, 2005] compare d’ailleurs ce travail de
composition de QCM et, plus précisément, le choix et la rédaction de distrac-
teurs, à celui d’un artiste : « item writing has been, is, and will always be an
art ». Nombreuses sont les règles à suivre pour assurer la qualité des distrac-
teurs, en témoignent par exemples celles des professeurs [Burton et al., 1991],
qui en référencent une trentaine 4
.
2.2.2 Les distracteurs : caractéristiques générales
Dans le cadre de la création du générateur automatique de distracteurs,
plutôt que de se fonder sur une liste de règles, nous avons souhaité prendre
en compte les caractéristiques générales, et donc moins restrictives, de ces
derniers. Peu d’articles abordant le sujet, nous avons établi nous-mêmes ces
caractéristiques à partir d’une analyse relativement superficielle de notre cor-
pus d’entraînement (cf. le chapitre 4).
Au terme de notre analyse, nous avons pu dégager deux notions princi-
pales, à savoir l’homogénéité et la spécificité. L’homogénéité correspond à
la similarité (lexicale, sémantique, syntaxique) entre les alternatives d’une
même question, et cette homogénéité est justement liée à la spécificité de
cette question ; si nous reconsidérons le tableau des types de questions et de
réponses de [Moldovan et al., 2000] (annexe B), les questions de type Who
et When sont plus spécifiques que celles de type Why, par exemple.
L’homogénéité de la structure syntaxique des alternatives d’un même
stem est une caractéristique essentielle à tout QCM. Ceci est certainement
valable pour des stems demandant une personne, un lieu, un nombre ou une
date uniques, et, plus généralement, pour des stems dont la réponse ne re-
quiert qu’un seul mot. Ainsi, homogénéité et spécificité sont deux notions
indissociables l’une de l’autre. Au plus le stem perd en spécificité, au moins
l’homogénéité est conservée. Les caractéristiques sémantiques de la réponse
et de ses distracteurs sont également à prendre en compte : une réponse dont
le contenu sémantique voulu n’est présent que dans un seul mot et non dans
une proposition aura tendance à gagner en spécificité. Au contraire, lorsque
c’est une proposition qui possède le contenu sémantique, la réponse est rare-
ment reproduite telle quelle du texte vers le QCM, en ce qu’elle est soumise à
diverses opérations syntaxiques. Ces opérations sont d’importance variable,
dépendant de la nature de la question (type de question et formulation de
la question), et visent deux objectifs : d’une part, éviter la présence d’in-
dices trop explicites quant à la bonne réponse, et, d’autre part, établir une
4. L’annexe C en reprend les principales.
11

cohérence (syntaxique) entre le stem et la réponse.
Si les alternatives d’une question spécifique requérant un mot unique
d’une catégorie grammaticale précise sont, par là même, homogènes, les syn-
tagmes et propositions ne le sont pas forcément. En effet, même si l’homogé-
néité de la structure syntaxique devrait être conservée entre les alternatives
d’un stem, cela dépend fortement de l’auteur du QCM : en théorie, l’homo-
généité devrait prévaloir, comme le stipulent [Burton et al., 1991] :
– la grammaire des alternatives est constante avec le stem ;
– les alternatives ont une forme parallèle
– les alternatives ont une longueur similaire
Mais, en pratique, les créateurs des QCM se permettent de nombreuses li-
bertés, ce qui n’est pas sans incidence quant à la qualité de ceux-ci.
L’homogénéité touche les trois niveaux de la langue, à savoir le lexique,
la syntaxe et la sémantique.
L’homogénéité lexicale est la plus évidente des trois, et consiste à re-
prendre un même mot au sein des alternatives. Généralement, cette reprise se
manifeste en position initiale. Elle ne concerne que les alternatives contenant
au minimum un syntagme, souvent des propositions, et touche l’ensemble
des catégories grammaticales. Cette reprise dépend fortement du type de la
question : si, par exemple, il s’agit d’une question causale, les alternatives dé-
buteront toutes par le même marqueur (as, because, since, ou implicite). Les
reprises lexicales non initiales concernent principalement les nombres (dates
(X years), quantité (X millions), etc.).
L’homogénéité syntaxique fait intervenir la similarité des construc-
tions entre les alternatives, qui, toujours selon [Burton et al., 1991], doivent
être de forme parallèle. Sur ce point, la longueur des alternatives a une in-
fluence indéniable : au plus les alternatives sont longues, au moins l’homo-
généité syntaxique est respectée, à l’exception de cas spéciaux : soit l’auteur
n’opère que des substitutions de mots spécifiques entre les alternatives :
Which of the following is true?
(a)Somis studied with Locatelli
(b)Geminiani studied with Vivaldi
(c)Vivaldi studied with Corelli
soit les différentes alternatives contiennent une succession de mots, séparés
par une virgule ou conjonction de coordination (typiquement, plusieurs choix
de combinaisons).
L’homogénéité sémantique comprend principalement les relations
d’antonymies, méronymies, synonymies. Elle est très fréquente pour certains
adverbes (never, always, etc.) les noms, verbes ainsi que les adjectifs
12

2.2.3 Génération automatique de distracteurs
Introduction
Dans l’optique de pallier les inconvénients liés à une élaboration manuelle
de questionnaires à choix multiples, de nombreuses tentatives d’automatisa-
tion voient le jour. En effet, le Traitement Automatique des Langues (TAL)
permettrait de faciliter le travail des créateurs de QCM en en réduisant consi-
dérablement le temps de rédaction. Les approches sont sans cesse revisitées
en vue d’offrir un système combinant à la fois les avantages des QCM créés
manuellement - précision dans la sélection des distracteurs et de la formula-
tion des questions et réponses - et les avantages de la technologie.
L’objectif général est de sélectionner des mots suffisamment proches de la
réponse, sans être des synonymes pour autant (auquel cas le distracteur s’ap-
parenterait davantage à une réponse), et incorrects dans le contexte donné
(c’est-à-dire dans celui du texte relatif au QCM, le cas échéant). D’emblée
se pose la question des ressources à utiliser pour générer les distracteurs ;
deux options sont envisageables : soit on se restreint au texte sur la base
duquel le QCM est produit, et les distracteurs sont sélectionnés au sein de
ce même texte, soit on s’extrait des frontières du texte pour sélectionner des
distracteurs au sein d’autres sources (WordNet, Google, etc.). Les deux op-
tions ayant leurs avantages et inconvénients, le choix d’une option plutôt que
l’autre doit se faire judicieusement en prenant en compte le type de la réponse
(entité nommée, proposition) tout autant que les caractéristiques du texte
(longueur, type) : un QCM relatif à un roman sera plus à même d’utiliser
des ressources externes, au contraire d’un QCM interrogeant un article de
quelques lignes. En effet, dans le second cas, l’utilisateur peut facilement vé-
rifier la présence ou l’absence d’un distracteur, opération fastidieuse à réaliser
dans le premier cas.
Présentation de diverses études
[Mitkov et al., 2006] présentent une méthodologie pour générer auto-
matiquement des QCM (non restreint aux distracteurs) concernant un texte
spécialisé dans un domaine particulier. Ils réalisent une analyse syntaxique
de surface, et utilisent des techniques d’extraction et de transformations de
phrase. Dans le cadre spécifique de la génération de distracteurs, les auteurs
font également usage des ontologies, dont Wordnet, pour repérer ceux qui
sont sémantiquement proches de la réponse, c’est-à-dire principalement
des hyperonymes, hyponymes ou coordonnés (concepts ayant le même
hyperonyme), en privilégiant ceux présents dans le texte. Dans le cas où la
réponse est un syntagme nominal (voire syntagmes adjectival et verbal), la
13

méthode consiste en la sélection d’autres syntagmes nominaux comportant
le même mot-clef (head, selon la terminologie anglaise).
[Karamanis et al., 2006] ont réalisé une étude sur la génération de
QCM appliqués à des textes médicaux ainsi que l’implémentation d’un
générateur dont l’évaluation a été réalisée par des experts médicaux. A partir
d’une phrase et du texte duquel elle elle extraite, l’objectif est de générer un
QCM (stem, distracteurs et réponse ou, comme ils la dénomment, le anchor).
Leur méthode prend appui sur celle développée par [Mitkov et al., 2006] et
consiste en cinq étapes majeures. La premier étape correspond à l’analyse
syntaxique en constituants de la phrase, réalisée avec l’analyseur syntaxique
développé par [Charniak, 1997]. La deuxième étape consiste en l’identifica-
tion du terme-clef (les auteurs affirment qu’un QCM de qualité doit avoir
pour réponse ce terme-clef), en utilisant le thesaurus UMLS 5
, spécifique
au domaine biomedical. La troisième étape consiste en la détection des
structures du texte (clauses) de la forme sujet-verbe-complément et qui
contiennent un terme-clef, tout en développant un module permettant de
limiter les clauses indésirables. La quatrième étape consiste en la transfor-
mation d’une clause appropriée en un stem. La cinquième et dernière étape
consiste, finalement, à sélectionner des distracteurs appropriés. Au lieu
d’utiliser WordNet, les auteurs y ont préféré UMLS, en repérant les termes
de la même catégorie sémantique que la réponse ; ces termes sont ensuite
soumis à une mesure de similarité distributionnelle à partir d’un corpus de
référence afin de sélectionner ceux qui obtiennent le meilleur score.
[Lee et Seneff, 2007] se sont intéressés aux FBI (Fill-in the Blank
Item), un domaine particulier des QCM en ce que, dans ce cas, le stem
contient un « blanc » à remplir à l’aide d’une des alternatives. Ils ont
établi un générateur de FBI pour les japonais apprenant l’anglais, en se
concentrant sur la grammaire, et plus précisément les prépositions. Dans ce
cadre, un distracteur efficace doit remplir deux conditions : d’une part il doit
avant tout être incorrect dans la phrase donnée, ce qui est déterminé par
une étude de fréquence sur le web ; d’autre part, il doit être suffisamment
proche de la réponse pour être considéré comme une alternative valide.
Pour mener à bien leur objectif, les auteurs ont procédé en quatre étapes.
La première consiste en la représentation du contexte de la préposition
dans la phrase (pour la phrase Let’s go to a movie, le contexte extrait sera
le triplet go, to et movie). La deuxième étape consiste en le calcul de la
fréquence des prépositions dans le contexte déterminé à l’étape précédente.
5. http ://www.nlm.nih.gov/research/umls/
14

La troisième étape consiste en l’étude des collocations pour déterminer les
distracteurs n’apparaissant qu’avec certains termes du contexte uniquement
(si le contexte est <A, p (préposition), B>, les prépositions étant fréquentes
avec A et B seront rejetées, pour éviter qu’elles puissent être considérées
comme des réponses totalement valables. La quatrième étape consiste en
l’utilisation d’un corpus d’anglais de non-natifs, comprenant les erreurs et
corrections, afin de repérer directement, au sein des triplets, les prépositions
qui ont fait l’objet d’une correction.
2.3 Positionnement du stage
Le stage se situe dans le prolongement des études présentées pré-
cédemment. En effet, nous cherchons à élaborer un système permet-
tant de générer automatiquement des distracteurs ; cela a déjà été réalisé
([Mitkov et al., 2006], [Karamanis et al., 2006] par exemple), mais, générale-
ment, ces systèmes ne se concentrent que sur un type de texte ou de questions
particulières (biomédical, test lexicaux,. . .) ; nous proposons ici un système
plus ouvert, permettant de générer des distracteurs pour tous les types de
questions (quitte à subir une perte de précision). Nous nous sommes partiel-
lement basés sur les études présentées dans ce chapitre pour établir notre
méthode de génération de distracteurs, qui, au final, se révèle être innovante
dans sa structure : d’une part, elle établit d’emblée une distinction entre les
alternatives de type entité nommée et celles qui ne le sont pas ; d’autre part,
elle fait appel à un ensemble de règles définies manuellement afin de repérer
au sein du texte les structures de type syntagme, proposition, ou phrase, au
moyen du logiciel Tregex, dans le souci de fournir des distracteurs syntaxique-
ment proches de la réponse. Nous nous basons ici uniquement sur la structure
syntaxique sans aucune considération sémantique, une approche peu utilisée,
relativement simple, mais également, nous le verrons, risquée. Finalement,
nous avons au préalable réalisé une étape innovante puisqu’il s’agit de l’an-
notation d’un ensemble de QCM créés manuellement pour ajuster, au mieux
possible, notre programme aux QCM « réels » à partir des résultats de cette
annotation.
15

Chapitre 3
Présentation des outils utilisés
3.1 Brat Rapid Annotation Tool 1
Dans le cadre de notre étude préliminaire, sur corpus, nous avons uti-
lisé le logiciel Brat Rapid Annotation Tool (ou plus simplement Brat, son
acronyme récursif). Il s’agit d’un logiciel d’annotation de texte disponible en
téléchargement ou directement utilisable en ligne sur le site officiel 2
.
Brat présente plusieurs atouts : premièrement, il autorise le travail col-
laboratif dans la mesure où plusieurs utilisateurs peuvent annoter un même
document simultanément ; deuxièmement, son utilisation et sa configuration
sont relativement simples ; troisièmement, le format d’annotation laisse en-
trevoir la possibilité d’exporter facilement les annotations créées vers des for-
mats différents (bases de données, ontologies, etc.). Cependant, si ce logiciel
fonctionne parfaitement sur un texte de taille réduite (jusqu’à une cinquan-
taine de lignes environ), il se révèle inadapté pour les textes d’une taille plus
importante, avec l’apparition de bogues, d’une vitesse d’exécution fortement
réduite (proportionnellement à la taille du texte), et d’une mauvaise ergono-
mie. Si le rendu des annotations et des relations est particulièrement visible
pour les petits textes, il peut rapidement s’apparenter un enchevêtrement de
lignes et de flèches sitôt que les relations sont un tant soit peu espacées au
sein du texte ou si leur nombre devient trop important, nécessitant, le cas
échéant, de scinder le corpus en plusieurs parties et de les annoter séparément
(ce qui peut éventuellement poser problème 3
).
Le logiciel prend en entrée au minimum trois fichiers : le premier contient
1. Cette section est partiellement extraite de la page wiki du LIMSI dédiée à ce logiciel,
rédigée par Frédéric Giannetti, stagiaire.
2. http ://brat.nlplab.org/index.html
3. Lorsqu’une annotation met en relation deux termes d’un même texte séparés lors de
la division du corpus en plusieurs parties
16

le texte brut à annoter, le deuxième l’ensemble des types d’annotation des
entités, le troisième les différents types de relations entre ces entités. Il fournit
en sortie un fichier au format .ann, facilement analysable par la suite au
moyen de scripts en Perl par exemple. Ce fichier .ann se présente comme
suit :
T1 Stem 18749 18863 In what year was a study concerning the contribution
of using ethanol for reducing emissions in Brazil undertaken?
T2 Answer 15104 15116 1997
R1 isTypeConform Arg1:T1 Arg2:T2
T1 et T2 sont les entités, et R1 est une relation de type <isTypeCon-
form>, mettant en relation T1 et T2.
Figure 3.1 – Exemple d’annotation sous Brat
3.2 The Stanford Natural Language Proces-
sing Group
Le Stanford NLP Group 4
est une section de l’Université de Stanford tra-
vaillant sur des algorithmes dont l’objectif est de faciliter l’analyse et la com-
préhension du langage humain. Le champ d’application du Standford NLP
Group est large ; citons par exemple la traduction automatique, l’approche
4. http ://nlp.stanford.edu/
17

probabiliste du tagging et parsing, l’extraction d’informations biomédicales,
les systèmes de questions-réponses. . .Le point fort de ce groupe consiste en la
combinaison de modèles linguistiques sophistiqués, de l’analyse de données
sur une base probabiliste, ainsi qu’une approche d’apprentissage automa-
tique appliqué au NLP. Les différents logiciels fournis par le Stanford NLP
Group sont accessibles à tous, gratuitement, et permettent de traiter un
grand nombre de situations en linguistique computationnelle.
Dans le cadre de la génération automatique de distracteurs, nous avons
eu recours à trois outils développés par ce groupe : Stanford Parser, Stan-
ford Named Entity Recognition (SNER) et Tregex. Tous sont opensource et
disponibles en ligne sur le site de l’université.
3.2.1 Stanford Parser et Stanford Named Entity Re-
cognition
Le premier outil, Stanford Parser, est dédié à l’analyse de la structure
grammaticale des phrases. Il s’agit d’un parser probabiliste, faisant usage de
connaissances du langage apprises par une analyse manuelle préalable pour
tenter de produire l’analyse la plus probable d’une phrase et de chacun de
ses constituants.
Le second, Stanford Named Entity Recognition (SNER), est une implé-
mentation Java d’un reconnaisseur d’entités nommées. Pour la langue an-
glaise (celle qui nous concerne), l’outil est très performant pour les entités
de type <PERSON>, <ORGANIZATION> et <LOCATION> ; il identifie
également quatre autres types, à savoir <DURATION>, <DATE>, <MO-
NEY>, <NUMBER> et <ORDINAL>. Cependant, on peut regretter l’ab-
sence de reconnaissance hiérarchique (par exemple une subdivision au sein
du type <LOCATION> qui permettrait de distinguer un état d’un pays) 5
.
Les deux outils ont été utilisés en concomitance afin de faciliter l’analyse
des textes. Ils ont été adaptés par Van-Minh Pho pour etre utilisables à partir
d’un script en Perl. Le fichier de sortie, au format XML, comprend tant les
informations résultant du parsing que celles résultant de la reconnaissance
des entités nommées. Ce fichier est ensuite soumis au logiciel Tregex.
3.2.2 Tregex
A partir d’un corpus préalablement soumis à une analyse syntaxique en
constituants (Stanford Parser), Tregex permet d’en explorer les arbres syn-
taxiques et de repérer certaines séquences spécifiques, définies par expressions
5. Se référer à la section 6.3 pour davantage d’informations sur cette typologie.
18

régulières. Ce formalisme se fonde sur une combinaison de relations existant
entre deux ou plusieurs nœuds :
– relation de fratrie ;
– relation de filiation ;
– relation linéraire.
Tregex est souvent utilisé avec Tsurgeon. Alors que le premier réalise des
recherches sur les arbres, le second permet de transformer ces derniers en en
modifiant les noeuds, ce qui peut par exemple se révéler utile en génération
automatique de questions.
L’intérêt d’un tel outil dans le cadre de la génération de distracteurs est
indéniable. En effet, comme nous le verrons au chapitre 6, nous cherchons
à établir une liste de l’ensemble des structures syntaxiques d’un texte qui
sont similaires à celles de la réponse. Une fois l’ensemble des règles définies,
Tregex permet de réaliser relativement facilement cette opération.
Figure 3.2 – Exemple d’utilisation de Tregex
19

Chapitre 4
Présentation du corpus
Le corpus d’entraînement provient de trois sources différentes de questions
à choix multiples, contenant au total 193 questions. Chaque QCM a subi un
traitement sur la forme afin de garantir un format homogène au sein du
corpus. Le tableau 4.1. indique le nombre total de questions, alternatives et
réponses selon les différentes composantes du corpus, présentées aux points
suivants.
Corpus #Ques. #Alt. #Rép.
QA4MRE 100 500 100
M. Gleize 60 252 60
Internet 33 167 33
Total 193 919 193
Table 4.1 – Nombre de questions, d’alternatives et de réponses
4.1 QA4MRE
La première source, la plus importante des trois, provient du Question
Answering for Machine Reading Evaluation 1
(QA4MRE), une tâche de la
Conference and Labs of the Evaluation Forum (CLEF) reconduite chaque
année depuis 2003, qui consiste à fournir un corpus de quelques QCM, avec
leurs textes, sur lesquels les chercheurs peuvent mener des études appro-
fondies. L’objectif de cette organisation est de développer une méthodologie
pour évaluer les systèmes de compréhension de textes à travers des tests de
1. http ://celct.fbk.eu/QA4MRE/
20

questions-réponses et de compréhension à la lecture. Les systèmes devraient
être en mesure d’extraire la connaissance disséminée dans de grandes quan-
tités de textes afin de pouvoir répondre efficacement aux questions.
Même si cette tâche a été initiée en 2003, seules celles de 2011, 2012 et
2013 contiennent effectivement des QCM. Les tâches des années antérieures
ne contiennent, elles, que des questions. Mais, parmi les trois tâches retenues,
seules celles de 2012 et 2013 sont suffisamment détaillées pour pouvoir être
utilisées dans le cadre de notre analyse. QA4MRE 2012 constitue à lui seul la
moitié de notre corpus d’entraînement. De plus, il sera réutilisé dans le cadre
de l’élaboration du générateur automatique de distracteurs. QA4MRE 2013,
est, lui, réservé à l’évaluation de ce générateur. Les deux tâches contiennent
des QCM à propos de quatre thèmes :
– alzheimer ;
– music and society ;
– climate change ;
– AIDS.
Différents corpus sont disponibles pour la tâche de l’année 2012. Nous
avons sélectionné les QCM de la section Training Data 2
. Chaque thème est
composé de 10 articles contenant chacun 10 questions, soit 400 questions au
total. La structure du QA4MRE se présente donc comme suit :
Figure 4.1 – Structure du QA4MRE
Afin de diversifier notre corpus tout en conservant une taille réduite,
nous avons sélectionné aléatoirement un nombre spécifique d’articles au sein
2. http ://celct.fbk.eu/QA4MRE/index.php ?page=Pages/pastCampaigns.php
21

du QA4MRE2012. Ainsi, au moyen d’un logiciel de génération aléatoire de
nombres dans un intervalle défini 3
, deux articles par thème ont été retenus,
totalisant 80 questions et 400 alternatives (5 par question).
Une section secondaire 4
contient un thème sur lequel traitent quatre ar-
ticles. Pareillement, deux articles ont été sélectionnés.
La composante QA4MRE de notre corpus d’entraînement est donc consti-
tuée de 100 questions et 500 alternatives (dont 100 réponses).
4.2 QCM provenant d’un corpus déjà consti-
tué
Ce corpus nous a été fourni par Martin Gleize, doctorant au LIMSI. Il a
été constitué en regroupant une série de QCM de trois sites internet diffé-
rents :
– www.pearsonlongman.com ;
– www.examenglish.com ;
– www.testprepreview.com.
Contrairement au QA4MRE, les QCM utilisés dans ce corpus ne sont pas ho-
mogènes sur leur fond : les textes servant de base à l’élaboration des questions
sont de type différentes (articles, mais aussi conversation ou encore lettre) et
le nombre de questions et d’alternatives est inconstant.
La partie de ce corpus issue du premier site contient 2 textes (et non d’ar-
ticles, dans la mesure où ils appartiennent à des types de textes distincts : des
textes, mais également des conversations, des manuels. . .), et 6 questions par
article, soit 12 questions au total. La partie issue du deuxième site contient 3
textes, avec respectivement 12, 9 et 6 questions par document, soit 27 ques-
tions au total. La partie issue du troisième site contient 8 documents, avec
respectivement 5, 4, 10, 5, 4, 5, 4 et 7 questions par texte, soit 43 questions au
total. Pour chacun des sites, nous avons sélectionné aléatoirement 9 articles
parmi les 13 que compte le corpus :
– les deux textes du premier site ;
– deux des trois textes du deuxième site ;
– cinq des huit textes du troisième site.
Au final, cette section de notre corpus contient donc 60 questions et 252
alternatives (dont 60 réponses).
3. http ://www.random.org
4. Pilot Task
22

4.3 QCM issus de divers sites internet
La troisième composante de notre corpus provient de quatre sites internet
fournissant des QCM facilement importables :
– www.ecenglish.com, un site d’apprentissage de la langue anglaise ;
– www.englishlearner.com, un site d’apprentissage de la langue anglaise ;
– www.boardofstudies.nsw.edu.au, un site dédié à l’apprentissage univer-
sitaire contenant de nombreux QCM (non basés sur un texte) notam-
ment à propos de la théologie et du droit ;
– www.mcqtoday.com, un site proposant des QCM sur des sujets variés
(histoire, géographie. . .).
Les deux premiers sites incluent des textes sur lesquels des questions sont
posées. Nous y avons sélectionné un texte sur chacun de ces sites, conte-
nant respectivement 6 et 7 questions. Les deux autres sites présentent des
QCM sur des thèmes spécialisés, et non sur des textes spéciﬁques. Nous y
avons sélectionné 10 questions par site. Nous obtenons donc 33 QCM et 167
alternatives (dont 33 réponses) pour cette section de notre corpus.
4.4 Format du corpus
Les sources utilisées dans le cadre de la constitution du corpus provenant
de sites divers, le format des QCM a dû subir une homogénéisation. Celle-ci a
été réalisée en se basant sur le format du QA4MRE, tout en opérant quelques
modiﬁcations. Ce format, en balisage XML, est le suivant :
<QCM>
<text>
</text>
<questions>
<q q_id="1">
<q_str></q_str>
<answer a_id=’1’ correct="Yes"></answer>
<answer a_id=’2’></answer>
</q>
</questions>
</QCM>
Bien entendu, le nombre d’alternatives et l’indication de la réponse sont à
adapter au cas par cas. Dans les exemples de QCM inclus dans ce rapport,
nous avons retiré les balises XML pour en alléger la présentation.
23

Chapitre 5
Annotation d’un corpus
d’entraînement
5.1 Introduction
Le but final de ce stage est de parvenir à un générateur automatique de
distracteurs dans le cadre de QCM. Cependant, plutôt que de s’y atteler di-
rectement, tête baissée, nous avons souhaité, au préalable, réaliser une étude
sur corpus destinée à repérer les caractéristiques majeures des QCM créés
manuellement. Dans l’idéal, il s’agirait de considérer les résultats obtenus au
terme de l’analyse de corpus lors de l’élaboration du générateur de distrac-
teurs. Pour cette raison, nous avons consacré autant de temps à cette phase
annotation qu’à l’élaboration du générateur de distracteurs proprement dite,
en ce que qu’elle revêt, à notre sens, autant d’importance.
Nous nous intéressons spécifiquement à deux grands types de relations :
d’un côté, nous établissons les différentes relations (syntaxiques et séman-
tiques) existant entre la réponse et ses distracteurs ; de l’autre, nous étudions
les modifications d’ordre syntaxique entre la réponse et sa formulation dans
le texte. Une fois cette annotation réalisée, nous vérifions que les résultats
obtenus correspondent entre autres aux règles de [Burton et al., 1991] (homo-
généité syntaxique des alternatives, par exemple) et qu’ils sont effectivement
applicables dans le cadre d’une automatisation de la génération des distrac-
teurs.
Pour autant, réaliser une annotation n’est pas une tâche simple. En par-
ticulier, élaborer une taxonomie d’annotation syntaxique et sémantique est
une tâche rendue complexe par le grand nombre d’approches permettant de
rendre compte de ces deux phénomènes, finalement très larges. Par consé-
quent, le choix de cette taxonomie doit se faire avec précaution, puisque
24

toute l’annotation et son analyse ultérieure en dépendra.
Ce chapitre propose une synthèse de la méthodologie employée, de l’ana-
lyse du corpus ainsi que des résultats obtenus au terme de celle-ci.
5.2 Annotation des relations internes au
QCM (réponse, distracteurs, stem)
Dans cette section, nous présentons la méthodologie et les résultats de
l’annotation de certaines relations se manifestant entre les alternative selon
une taxonomie définie au préalable. Dans un premier temps, nous réalisons
une annotation syntaxique, qui consiste à analyser les différences d’ordre syn-
taxique pouvant exister entre un distracteur et la réponse. Dans un second
temps, nous nous intéressons au pan sémantique, avec l’étude des types d’en-
tités nommées attendus. Cette étude se déroule en deux étapes distinctes :
une annotation des relations entre un distracteur et la réponse d’une part, et
entre les alternatives et le stem d’autre part.
5.2.1 Annotation syntaxique
Cette annotation se concentre donc sur les grandes différences syntaxiques
entre une distracteur et la réponse à laquelle il est lié. Il s’agit de distinguer
les structures des alternatives et de vérifier que celles-ci soient cohérentes au
sein d’une même question.
Taxonomie d’annotation
Lors de la réalisation de ce travail, nous avons réalisés trois taxonomies tota-
lement différentes : la première sur la base du nombre de mots, la deuxième
à partir de la taxonomie de questions/réponses de Li et Roth (annexe A), et
la troisième, plus générale, sur une étude syntaxique globale de l’alternative.
C’est cette troisième qui a finalement été choisie, présentant l’avantage d’être
simple, puisque qu’elle ne comporte que quatre cas (cf. tableau 5.1), facili-
tant ainsi l’annotation et la catégorisation des alternatives (moins de cas de
tergiversations, même s’ils restent possibles).
hasIS est réservé aux distracteurs ayant une syntaxe strictement iden-
tique à celle de la réponse. En d’autres mots, les chunks sont identiques. Par
exemple, si la réponse est formée d’un nom et d’un adjectif, et que le distrac-
teur contient un nom et deux adjectifs coordonnés, la syntaxe est considérée
25

Sigle sous Brat Signification
hasIS Syntaxe identique
hasPIS Syntaxe partiellement identique
hasIGS Syntaxe globalement identique
hasDS Syntaxe différente
Table 5.1 – Taxonomie de la syntaxe sous Brat
comme étant différente. Les déterminants et autres particules secondes y font
cependant exception.
hasPIS concerne les cas où les chunks sont identiques, mais leur nombre
diffère, résultant d’une suppression ou d’une adjonction d’items.
hasIGS concerne principalement les propositions et phrases, se situant
ainsi à un niveau supérieur des deux premiers cas. Lorsque la syntaxe n’est ni
identique ni partiellement identique, il s’agit de vérifier si l’on a la présence
des mêmes structures globales. Par exemple, un sujet suivi d’un verbe lui-
même amorçant un complément circonstanciel est un ensemble constituant
une structure spécifique qu’il faudra comparer avec la structure de la réponse
ou du distracteur. Cette catégorie ne s’intéresse donc pas aux variations d’un
niveau inférieur, à savoir l’ajout ou la suppression d’adverbes, d’adjectifs,
entre autres, mais se concentre sur les structures syntaxiques globales.
hasDS est le cas extrême où la structure syntaxique globale n’est pas
conservée : une phrase versus un syntagme adjectival, par exemple.
Voici un exemple de cette annotation :
(1) What advantage does the Jatropha curcas offer?
(a)it captures high amounts of CO2
(b)it grows on semi-arid fields (réponse)
(c)it stops desertification
(d)it reduces pests of other crops
(e)it produces wood
La syntaxe est différente mais la structure globale est similaire : sujet (it),
verbe (notons que les verbes des alternatives (b), (c), (d) et (e) sont mé-
ronymes ou antonymes, et que celui de l’alternative (a) ne partage pas de
sens avec les autres verbes), complément (COD pour (a), (c), (d) et (e),
complément de lieu pour (b)).
La taxonomie présentée met en relation deux entités différentes (ta-
bleau 5.2).
Remarques sur l’annotation (1) L’annotation des entités doit, assez lo-
giquement, être préalable à l’annotation de la relation de la première entité
26

Nom sous Brat Signification
stem le stem du QCM
answer la réponse du QCM
distractor un distracteur du QCM
Table 5.2 – Types d’entités sous Brat
à la seconde. Le fichier d’entrée contenant les QCM étant formaté selon des
balises bien définies, nous avons pu automatiser, à l’aide d’un script en Perl,
l’annotation de l’intégralité des entités selon qu’il s’agit d’un stem, d’une ré-
ponse ou d’un distracteur. (2) Nous avons scindé le corpus en 22 parties, pour
les raisons mentionnées dans la présentation du logiciel. (3) L’annotation a
été réalisée par une seule personne, avec toutes les réserves que cela peut im-
pliquer. (4) 143 QCM ont été totalement annotés sur les 193 au total. Nous
n’avons annoté que la moitié des 100 QCM du QA4MRE dans la mesure où
les structures sont très récurrentes.
5.2.2 Annotation sémantique
L’annotation sémantique vise deux objectifs :
– déterminer si les alternatives correspondent effectivement au type at-
tendu par la question ;
– déterminer si les distracteurs appartiennent au même type d’entité
nommée que la réponse.
Taxonomie d’annotation La taxonomie utilisée dans le cadre de cette
annotation est la suivante :
Sigle sous Brat Signification
isTypeConform conforme au type attendu
isNotTypeConform non conforme au type attendu
unknownTypeConform type attendu inconnu
hasITNE type d’entité nommée identique
hasDTNE type d’entité nommée différent
notANE pas une entité nommée
Table 5.3 – Taxonomie de conformité
27

isTypeConform s’applique lorsque le type de réponse attendu par le stem
est connu et les alternatives correspondent eﬀectivement à ce type. Ce type
attendu n’est pas catégorisable dans une typologie particulière ; dépendant
de chaque stem, il peut, par exemple, aussi bien concerner des personnalités,
que des idées reçues ou encore des maladies. La liste est bien plus large que
la typologie des entités nommées (cf. Figure 5.3), en ce qu’elle est potentiel-
lement inﬁnie.
(2) Why, when playing at the house of Cardinal Ottoboni,
did Corelli stop playing in the middle of a solo?
(a)Because Ottoboni was talking
(b)Because Ottoboni liked music
(c)Because he wished to join the conversation
(d)Because he was in Rome
(e)Because he was a violonist
Dans cet exemple, le type attendu, impliqué par le marqueur interrogatif
why, est de type raison/cause. Les alternatives sont cohérentes par rapport
à ce ce type.
isNotTypeConform s’applique lorsqu’une alternative ne correspond pas
au type attendu par le stem.
unknownTypeConform s’applique lorsque la conformité du type attendu
par le stem est impossible à déterminer. L’annotation ayant été réalisée par
une seule personne, il peut y avoir des cas pour lesquels l’annotateur ne peut
pas se prononcer sur la validité d’une alternative vis-à-vis du type attendu
(sur la base de ses connaissances ou du texte dont le QCM dépend, le cas
échéant).
hasITNE s’applique lorsqu’un distracteur est du même type d’entité nom-
mée que celui de la réponse.
hasDTNE s’applique lorsqu’un distracteur n’est du même type d’entité
nommée que celui de la réponse.
notANE s’applique lorsqu’un distracteur n’est pas une entité nommée.
La typologie des entités nommées utilisée est extraite de [Ligozat, 2006].
Elle contient une hiérarchie de 21 types d’entités nommées :
28

Figure 5.1 – Typologie des entités nommées
5.3 Annotation des relations entre la réponse
et le correspondant textuel
L’analyse étant légère, nous l’avons directement liée aux résultats (se
référer au point 5.4.3).
5.4 Analyses et résultats
Dans la présentation des exemples illustrant les cas de variation entre un
distracteur et la réponse, (a) correspond au distracteur et (b) à la réponse
qui lui est liée :
(nb) distracteur(a)
réponse(b)
5.4.1 Syntaxe inter-alternative
Dans la section du chapitre de l’état de l’art consacré aux distracteurs,
nous avions établi une brève présentation des principales variations syn-
29

taxiques pouvant se manifester entre les distracteurs et les réponses. Dans
cette analyse-ci, nous nous concentrons sur les résultats de l’annotation du
corpus sur la base de la taxonomie définie à cette fin. Nous présentons éga-
lement un exemple de fichier d’annotation construit à partir d’un ou de plu-
sieurs QCM en fonction leur taille, ainsi qu’un résumé des variations syn-
taxiques selon l’un des quatre types de la taxonomie (<hasIS>, <hasPIS>,
<hasIGS>, <hasDS>).
Nous avons annoté au total 479 relations syntaxiques entre un distracteur
et la réponse d’un même QCM, dont la répartition est la suivante :
Nombre Pourcentage
Syntaxe identique [hasIS] 189 39,4%
Syntaxe partiellement identique [hasPIS] 91 19,0%
Syntaxe globalement identique [hasIGS] 141 29,4%
Syntaxe différente [hasDS] 58 12,1%
Total 479 (100%)
Table 5.4 – Résultats syntaxe inter-alternatives
Syntaxe identique
Nous constatons que près de 40% des distracteurs ont une syntaxe iden-
tique à celle de la réponse du même QCM. Conserver une même structure
syntaxique est l’option la moins complexe à mettre en place, s’agissant prin-
cipalement de quelques modifications lexicales, partielles (par exemple dans
le cadre des listes) ou totales (typiquement, dans le cas d’une entité nommée).
Les phénomènes syntaxiques, redondants, sont facilement identifiables :
Dans le cas des entités nommées, les substitutions sont légion : la substi-
tution d’une date par une autre date, syntaxiquement identique :
(3) in 1980(a)
in 1997(b)
ou encore la substitution d’une organisation par une autre organisation :
(4) PROINFA(a)
PROCEL(b)
Dans le cas des syntagmes et propositions, les substitutions sont moins
propices à une conservation de la structure syntaxique. Toutefois, nous notons
la substitution d’un élément de la structure par un autre, principalement le
verbe ou le sujet dans le cas de propositions :
30

(5) to increase the emission of greenhouse effect gases(a)
to reduce the emission of greenhouse effect gases(b)
S’il s’agit d’un verbe, celui-ci est souvent sémantiquement lié avec celui qui
le substitue (antonymie, méronymie).
Et, finalement, la substitution peut concerner la totalité du syntagme :
(6) replanting trees(a)
burning forests(b)
Syntaxe partiellement identique
L’analyse des distracteurs à la syntaxe partiellement identique et globale-
ment identique (cf. infra) sont très liées dans la mesure où ces deux catégories
ont des frontières relativement floues, et le choix définitif résulte davantage
d’une prise de décision subjective de la part du chercheur que d’une décision
objective fondée sur des règles précises(les cas étant extrêmement différents et
nombreux, cela eût été impossible). Nous avons cependant chercher à être co-
hérent tout au long de l’annotation. Cette remarque est à prendre en compte,
dans la mesure où les syntaxes partiellement et globalement identiques re-
présentent à elles deux près de 50% des cas de variation syntaxique.
La situation la plus évidente de la syntaxe partiellement identique (has-
PIS) est celle des listes. Souvent constituées de syntagmes coordonnées à
l’aide de la virgule ou d’une conjonction de coordination, un distracteur à la
syntaxe partiellement identique à celle de la réponse comprend typiquement
un syntagme (un item) en plus ou en moins par rapport à cette dernière (si
un distracteur contient exactement le même nombre de syntagmes, et que
ceux-ci sont du même type que ceux de la réponse, il s’agit d’un cas d’une
syntaxe identique (hasIS)) :
(7) Union and State list(a)
Concurrent List, Union List, Residuary Subject List(b)
(8) Concurrent and State List(a)
Lorsqu’un distracteur contient une insertion ou une suppression d’au
moins deux items, bien que la similarité de la syntaxe s’affaiblisse, nous
considérons qu’appartenant au type de la liste, il s’agit toujours d’un cas de
syntaxe partiellement identique :
(9) State list(a)
Cependant, ces trois exemples présentent une reprise mot pour mot d’un
ou plusieurs item(s) d’une autre alternative (réponse ou distracteur), mais il
est tout à faire possible que seule la structure de la liste soit conservée, au
contraire du lexique :
31

(10) Smoking ceremony and totems(a)
Myths, legends and enactment ceremonies(b)
Il se peut également qu’un distracteur poursuive le contenu de la réponse
(ou vice-versa) :
(11) in the event of foreign attack(a)
in the event of threat arising on account of foreign attack and
armed rebelion(b)
Le début de proposition étant identique, et seul le complément (ou l’absence
de complément) étant altéré, nous avons considéré ce cas comme étant le fait
d’une syntaxe partiellement identique.
Les cas plus subtils d’une syntaxe partiellement identique, ceux sur les-
quels les liens avec une syntaxe globalement identique sont relativement forts,
se présentent lorsque le distracteur contient une variation syntaxique en tant
que telle (et non plus une « simple » adjonction ou suppression d’un syntagme
ou d’une proposition) :
(12) judges of the Supreme Court of India(a)
district and session judges(b)
Syntaxe globalement identique
La syntaxe globalement identique (hasIGS) concerne assez logiquement
presqu’exclusivement les propositions. Nous rappelons que par syntaxe glo-
balement identique, nous entendons une même structure globale (sujet-verbe-
complément par exemple), avec variation du nombre de groupes au sein de
cette structure (insertion d’un complément du nom, d’un syntagme adjecti-
val. . .) ou, plus généralement, avec variation de la syntaxe d’un élément de
la structure (sujet, verbe ou complément dans le cas le plus basique) par
rapport à la structure prise en référence, celle de la réponse. Cette catégorie
ne concerne que 19% des cas, témoignant du souci accordé à l’équivalence
syntaxique entre la réponse et ses distracteurs lorsque ceux-ci se veulent iden-
tiques (en termes de nombres d’items dans le cadre de liste, d’informations
fournies dans le cadre de syntagmes et propositions).
Syntaxe différente
La syntaxe différente touche tant les mots, les syntagmes, les propositions,
que les phrases. Au sein de notre corpus d’entrainement, nous avons repéré un
nombre non négligeable de none of the above, généralement syntaxiquement
différents de la réponse 1
. Avec 12% des cas la syntaxe différente entre un
distracteur et la réponse reste une situation marginale. Dans le cadre de
1. Nous n’avons d’ailleurs pas rencontré aucun all of the above lors de l’annotation
32

notre projet, nous ne nous y intéresserons pas (ou, tout du moins, pas dans
le cadre du stage).
5.4.2 Typologie d’entité nommée inter-alternative
Les résultats de l’analyse statistique portant sur les entités nommées,
menée sur les fichiers de sortie de Brat, sont les suivants :
Nombre Pourcentage
has identic type named entity [hasITNE] 102 21,1%
has different type named entity [hasDTNE] 17 3,5%
not a named entity [notANE] 365 75,4%
Total 484 (100%)
Table 5.5 – Résultats entités nommées
75,4% des distracteurs (et, on peut le supposer, des réponses) ne sont pas
des entités nommées. Ce résultat n’est pas surprenant : les entités nommées
étant surtout réservées aux questions factuelles ne portant que sur une in-
formation (personne, date, organisation, etc.), ces dernières sont en minorité
en regard de l’ensemble des questionnaires à choix multiples de notre corpus
d’entrainement.
L’élément le plus intéressant de ce tableau est le faible pourcentage de
distracteurs ayant un type d’entité nommée différent de celui de la réponse.
Dans la taxonomie d’annotation, nous avions indiqué que cette catégorie était
principalement le fait de cas d’hyperonymie ou d’hyponymie. Cependant, une
situation récurrente est celle de la non appartenance de la réponse à un type
d’entité nommée précis, à la différence du distracteur sur lequel l’annotation
porte :
(13) In New York.(a)
A proper geographical term.(b)
Le distracteur New York est de type <LOCATION>, alors que la réponse à
laquelle il se rapporte n’est pas catégorisable dans la taxonomie des entités
nommées. Ainsi, nous avons suivi notre taxonomie d’annotation de la ma-
nière la plus cohérente possible : le type d’entité nommée du distracteur est
différent de celui de la réponse dans la mesure ou ce dernier n’est pas une
entité nommée. Le tableau 5.6 présente les résultats de l’analyse lorsque ne
sont conservés que les cas où le distracteur et la réponse correspondent à des
types d’entités nommées différents.
Aucun cas de type d’entité nommée différent entre le distracteur et la ré-
ponse (celle-ci étant une entité nommée) n’a été repéré. Les cas d’hyponymie
et hyperonymie correspondent à 70% des cas, illustrés en (14).
33

Nombre Pourcentage Pourcentage global
Hyperonymie 4 23,5% 0,8%
Hyponymie 8 47,1% 1,7%
Autre (EN différente) 0 0,0% 0,0%
Autre ( !EN) 5 29,4% 1,0%
Total 17 (100%) (3,5%)
Table 5.6 – Résultats hasDTNE
(14)Cambridge(1)
Massachusetts(2)
5.4.3 Alternatives vs stem : type de réponse attendu
Lors de l’établissement de la taxonomie d’annotation, nous avions voulu
étudier la conformité des types de réponses en fonction du type attendu par
le stem. Ce type dépasse le cadre des entités nommées, étant à la fois d’une
précision accrue mais aussi indénombrable, à la différence [de la taxonomie]
des entités nommées : il existe autant de types que de questions, voire de
concepts au sein de la langue (une opinion, une idée, un chanteur, etc.).
Considérons cet exemple :
(15) Which medical disorder first described in 1866 can increase the risk of
developing Alzheimer’s disease?
(a)APOE e2
(b)APOE e3
(c)APOE e4
(d)Down’s syndrome
(e)Parkinson’s disease
Le stem requiert une réponse du type medical disorder. Nous pouvons rai-
sonnablement supposer que les cinq alternatives sont toutes de ce type. La
détermination du type, bien qu’elle soit relativement univoque, peut parfois
être sujet à des tergiversations. En effet, si, dans le cas suivant :
(16) In what American state did university scientists calculate the cost to
each American of spending 5 dollars annually to combat AIDS in Africa?
(a)Cambridge
la détermination du type attendu et la validation de la réponse sont assez
simples à déduire, (le type de la réponse, une ville, ne correspond pas au type
attendu, un état américain), la situation ce corse dans l’exemple ci-dessous :
(17) Which of the following is not an opinion?
(a)It is important for us to take care of endangered animals.
34

(b)The black rhinoceros is the most frightening animal in Africa.
(c)The fastest land animal, the cheetah, also lives in Africa.
(d)If we don’t protect endangered animals now, we will regret it in the
future.
Le type attendu n’est pas « une opinion », mais bien « pas une opinion ».
Seule la réponse (c) correspond donc au type attendu. Ce phénomène se
présente lorsque le stem est négatif.
Nombre Pourcentage
Type conforme au type attendu 460 75,5%
Type non conforme au type attendu 26 0,4%
Conformité au type inconnue 123 20,1%
Total 484 (100%)
Table 5.7 – Conformité au type attendu par le stem
Une grande majorité des alternatives - 75.5% - est du type attendu par le
stem. Moins d’1% ne correspondent pas au type attendu, un gage de qualité
ou, plus précisément de diﬃculté, des QCM. Les 20.1% du type inconnu
correspondent aux situations dans lesquelles déterminer le type attendu par
le stem est impossible. Il s’agit notamment de QCM à la limite du FBI (Fill-
in the Blank Item) :
(18) If you "out do" someone, you..?
(a)Do something with someone else
ou encore de QCM dont on ne peut trancher sur la validité du type des
alternatives par rapport au type attendu de par les connaissances a priori du
chercheurs ou après analyse du texte.
5.4.4 Relation entre la réponse du QCM et son corres-
pondant textuel
Nous avons indiqué au moyen de la relation <isLocated> la position de
la réponse dans le texte, le cas échéant. Dans le souci de faciliter l’analyse,
nous nous référons au syntagme correspondant textuel pour désigner le ou
les termes du texte à partir desquels la réponse a été rédigée. L’annotation
étant fastidieuse sous Brat dès lors que les relations deviennent espacées
(cf. Présentation de Brat), nous n’avons pas indiqué directement dans ce
logiciel la nature de la relation entre la réponse et son correspondant textuel,
l’analyse ayant été réalisée manuellement à partir d’un ﬁchier de sortie d’un
script Perl reprenant la réponse et son correspondant textuel côtes à côtes.
35

Pour cette même raison, nous n’avons réalisé que 94 annotations, celles-ci
étant trop chronophages pour se permettre d’annoter l’ensemble du corpus.
Toutefois, même si l’annotation a été réalisée manuellement, nous avons
quand même indiqué au sein même du fichier de sortie le degré d’« identicité »
(<aTL> pour <answerTextLocation>) entre une réponse et son correspon-
dant textuel, sur la base de la taxonomie suivante :
Sigle Signification
aTL1 la réponse et son correspond textuel sont identiques
aTL2 la réponse et son correspondant textuel, moyennant
quelques modifications mineures, sont identiques
aTL3 la réponse et son correspondant textuel sont similaires
aTL4 pas de similitudes directes entre la réponse et son
correspondant textuel
Table 5.8 – Analyse de la syntaxe entre la réponse et son correspond textuel
Identicité totale entre l’alternative et son correspondant textuel
[aTL1]
Cette première catégorie ne concerne que les cas où une alternative est
totalement identique à son correspond textuel.
Identicité partielle entre l’alternative et son correspondant textuel
[aTL2]
Cette catégorie concerne les cas de différences de l’ordre d’une adjonction,
déletion ou substitution d’éléments lexicaux secondaires, principalement les
déterminants, prépositions ou encore certains adverbes et adjectifs :
(19) the 1990s (a)
the early 1990s (b)
(20) The discovery of a document in 1916 (a)
the discovery of a document from 1916 (b)
Similarité entre l’alternative et son correspondant textuel [aTL3]
Cette catégorie regroupe les cas où les différences linguistiques entre une
alternative et son correspond textuel sont manifestes et multiples. Cependant,
à la différence de la quatrième catégorie, la structure globale est conservée, et
les différences en termes de nombre d’informations véhiculées sont minimes.
36

(21) burning forests with the aim of increasing arable land (a)
Burning is widely used in the Amazon region to prepare new
agricultural land (b)
(22) ignoring poverty, social inequality and traditional ways (a)
to ignore the poverty and inequality (b)
(23) improving public health systems in Africa (a)
public health systems needed to be ramped up (b)
(24) Tortoise eggs were kept in safe containers. (a)
They gathered the eggs and put them in safe containers (b)
Seul un lien sémantique relie l’alternative à son correspond textuel
[aTL4]
Cette quatrième catégorie regroupe les cas extrêmes, pour lesquels la re-
lation entre une alternative et son correspond textuel ne peut se baser sur
une similarité syntaxico-lexicale, dans la mesure où leur structure est fonciè-
rement différente. La mise en correspondance se réalise au moyen d’un travail
interprétatif d’une séquence du texte (proposition ou phrase) voire d’un de
ses paragraphes (auquel cas nous avons écarté l’alternative de l’annotation
des relations <isLocated>). L’annotation est laissée à l’appréciation du cher-
cheur : définir les frontières d’une séquence d’information correspondant à
l’alternative est bien souvent peu évident.
(25) The sailors use the tortoises for food. (1)
fresh food was always a problem for the sailors on board. The
giant tortoises provided an easy solution to this problem (2)
(26) The animals ate the tortoises’ food and eggs. (1)
Donkeys and goats ate all the plants that the tortoises
usually fed on, while the pigs, dogs and cats consumed
thousands of baby tortoises each year. (2)
(27) To know something about spelling and geography. (1)
The second person has 10 seconds to think of how the word ends
and come up with another geographical term starting with that
letter (2)
5.4.5 Mesure de la distance entre un distracteur et sa
réponse
À partir des relations isLocated des fichiers d’annotation de Brat, nous
avons pu calculer le nombre de caractères moyen séparant la réponse de ses
distracteurs. Si nous avons par exemple le texte suivant :
(28) For the second year in a row, American competitive eater <answer>
Joey Chestnut</answer><length> defeated his Japanese rival </length>
<distractor> Takeru Kobayashi</distractor> at the annual Nathan’s Hot
Dog Eating Contest in New York City, after a tie forced a five hot dog
37

eat off to be held.
À l’aide d’un programme Perl, nous pouvons facilement calculer le nombre
de caractères entre </answer> et <distractor>.
Sur l’ensemble du corpus annoté, nous obtenons le nombre moyen de
2 296,69 caractères. Sachant que la longueur moyenne d’une phrase en langue
anglaise est de 15 à 20 mots, soit 75-100 caractères ([Watson Solomon, 2008]),
la distance entre un distracteur et sa réponse se situe entre 22 et 30 phrases.
Un chiffre élevé dans le cadre de QCM mais qu’il est nécessaire de repla-
cer dans son contexte : le corpus est constitué de nombreux extraits du
QA4MRE, d’une longueur approximative de 8000 à 10000 caractères, alors
que les textes provenant d’autres sources (notamment internet, cf. [Présenta-
tion du corpus]) ont une longueur de 1000 à 2000 caractères. Par conséquent,
il serait judicieux de soit séparer homogènement chaque texte en quatre sec-
tions, sur lesquelles l’analyse serait reconduite, soit reproduire l’analyse sur
chaque sous-corpus contenant des QCM basés sur un texte (QA4MRE et
QCM de Martin Gleize) 2
.
L’utilité d’une telle analyse est indéniable : dans le cas où plusieurs can-
didats distracteurs sont sélectionnés, le choix final s’effectuera par une étude
des proximités tant sémantique que physique ([Mitkov et al., 2006]).
2. Ces analyses seront réalisées ultérieurement, lors de notre mémoire qui prolonge ce
stage.
38

Chapitre 6
Implémentation d’un
générateur automatique de
distracteurs dans le cadre de
QCM
6.1 Introduction
Ce chapitre concrétise, dans la mesure du possible, les informations dé-
gagées lors de l’analyse sur le corpus d’entraînement. Étant limités dans le
temps, nous nous sommes restreints à la réalisation d’un système de géné-
ration automatique de distracteurs qui soit à la fois fonctionnel et aisément
modifiable en vue d’améliorations ultérieures. Pour cette raison, cet outil est
à considérer comme un socle de base permettant de générer aisément des dis-
tracteurs à certaines catégories de questions spécifiques, et doit être évalué
comme tel.
Le principe de base de notre méthode est le suivant : l’utilisateur soumet
un fichier en entrée, dans un format bien précis 1
, contenant un texte, une ou
plusieurs questions et leur réponse respective. L’outil détermine, au moyen
de divers outils d’analyse, le type de la réponse. Sur la base de ce type, l’ou-
til répertorie l’ensemble des items du même type présent dans le texte, et,
aléatoirement, en sélectionne 4. Un fichier de sortie est produit, contenant le
texte de départ, les questions, et les alternatives (la réponse et ses alterna-
tives) ordonnées elles aussi de manière aléatoire. Ainsi, à chaque actualisation
du programme, différentes alternatives peuvent être fournies. Si la structure
1. Ce format est identique à celui utilisé lors de l’analyse sur corpus ; se référer au
chapitre 4 pour davantage d’informations.
39

à reconnaître dans le texte est présente en moins de 4 occurrences, le QCM
généré pour cette question ne contiendra que 1, 2 ou 3 distracteurs.
Dans ce chapitre, nous présentons, dans un premier temps, la typologie
de distracteurs utilisée (ou, plus précisément, la typologie des réponses à
partir desquelles les distracteurs sont sélectionnés), et, dans un second, pour
chaque type, la méthodologie mise en œuvre pour la génération automatique
de distracteurs : les prétraitements, la génération en tant que telle, et une
brève analyse des résultats obtenus.
6.2 Présentation de la typologie de distrac-
teurs
Comme nous l’avons démontré dans l’état de l’art et, surtout, dans l’ana-
lyse du corpus d’entraînement, les alternatives sont loin d’être uniformes.
Dans le cadre de notre travail, nous avons voulu réduire au maximum les
variations structurelles de ces alternatives aﬁn, d’une part, d’en faciliter la
génération et, d’autre part, de correspondre au mieux aux prescriptions de
[Burton et al., 1991]. Pour ce faire, nous avons divisé la génération de dis-
tracteurs en deux sections, sur la base du type de la réponse, selon que celle-ci
est ou n’est pas une entité nommée.
réponse
entité nommée syntaxe
syntagme proposition phrase
Figure 6.1 – Génération de distracteurs
Si la réponse est une entité nommée, la méthode est relativement simple
dans la mesure où aucune étape supplémentaire à celles présentées dans l’in-
troduction n’est appliquée. Si la réponse n’est pas une entité nommée, la mé-
thode devient plus complexe puisqu’elle se base sur la structure syntaxique
aﬁn de catégoriser la réponse en tant que syntagme, proposition, ou phrase.
L’analyse suit une hiérarchie bien précise : (1) entité nommée, (2) syn-
tagme, (3) proposition, (4) phrase. En d’autres mots, si la réponse n’est pas
40

reconnue comme étant un des 8 types d’entités nommées reconnus par le
Stanford Named Entity Recognition, l’analyse en étudiera la syntaxe pour
déterminer, dans l’ordre, s’il s’agit ou non d’un syntagme, d’une proposition
ou d’une phrase.
6.3 Génération de distracteurs sur la base
d’une taxonomie d’entités nommées
La gestion des réponses du type entité nommée constitue la première des
deux phases de génération de distracteurs, la plus rapide et aisée à mettre
en place et, comme nous l’indiquons dans les résultats, la plus efficace 2
.
La génération des distracteurs de type entité nommée débute par la sou-
mission du fichier d’entrée au Stanford Named Entity Recognition, adapté
par Van-Minh Pho 3
pour qu’il puisse être appelé à partir d’un script Perl. Le
fichier produit en sortie de ce programme contient, sur chaque ligne, le mot
tagué et la catégorie de son tag, le cas échéant. En effet, loin des 21 types
d’entités nommées de la taxonomie de [Ligozat, 2006], le logiciel ne reconnait
que 8 types :
Tag Signification
organization les organisations (acronymes, noms propres)
person les individus, sans différenciation entre les noms et pré-
noms
location les lieux, sans différenciation entre les villes, pays ou
continents
date les dates au sens strict et les informations temporelles
money les sommes contenant explicitement un sigle monétaire
number les nombres
ordinal les ordinaux
duration les informations de durée
Table 6.1 – Typologie d’entités nommées du SNER
En outre, la précision du logiciel est contestable : si une entité est compo-
sée de deux, trois, voire quatre termes successifs, chacun d’entre eux aura un
2. Le mémoire prolongeant le stage, des améliorations seront apportées après la fin de
ce dernier ; il est donc tout à fait possible que notre méthode permettant de générer des
distracteurs sur la base syntaxique de la réponse sera plus efficace que celle prenant appui
sur la détermination des types d’entités nommées.
3. Doctorant au LIMSI-CNRS
41

tag ; celui-ci est généralement identique, ce qui signifie que le logiciel prend
en compte l’ensemble de la séquence pour en déterminer le type d’entité
nommée, mais la tague séparément. Toujours à l’aide de Perl, nous avons
pu pallier ce problème, en concaténant, dans la mesure du possible, tous les
mots successifs ayant un type d’entité nommée identique. Cependant, cette
tentative de résolution du problème en apporte un autre : que se passe-t-il
dans le cas où deux entités de même type d’entité nommée ne sont pas à
considérer ensemble (cf. exemple (1)) ? Cette situation étant très marginale,
nous ne nous en sommes pas préoccupés 4
.
(1) <REPONSE_PHRASE_TAGS>
1 $ $ $ MONEY
2 460 CD 460 MONEY
3 million CD million MONEY
</REPONSE_PHRASE_TAGS>
Dans cet exemple, sans un traitement particulier, notre programme consi-
dérerait chacun de ces termes comme étant une entité nommée à part, et
pourrait proposer "$" comme un distracteur à une réponse contenant une
somme d’argent.
Une fois l’ensemble du QCM (questions, réponses, texte) passé aux Stan-
ford Named Entity Recognition et Stanford Parser, le fichier de sortie Spar-
ser.xml est généré, comprenant les entités nommées et le résultat du parsing.
Ce fichier est ensuite analysé par notre programme :
– le format du QCM fourni en entrée permet de distinguer la réponse
parmi les alternatives au moyen de balises XML 5
; celles-ci sont repérées
par le logiciel pour également inclure des balises encadrant la réponse
au sein du fichier Sparser.xml ;
– tous les mots du texte contenant un tag d’un des huit types d’entité
nommée sont intégrés à une table de hachage (clef : mot ; valeur : tag).
A partir de cette table de hachage, le programme détermine le type d’en-
tité nommée de la réponse, et insère tous les mots du texte du même type
dans un tableau. Les distracteurs y sont ensuite succesivement sélectionnés
de manière aléatoire, en rejetant évidemment les distracteurs identiques le
cas échéant. Pour chaque sélection d’un distracteur, un booléen est également
inséré dans un tableau (1 si un distracteur a été sélectionné, 0 dans le cas
contraire), analysé lors de la génération du fichier de sortie du QCM selon
qu’une question contient un, deux, trois ou quatre distracteurs. Il s’agit là
d’une des raisons pour lesquelles les textes longs sont préférables, dans la
mesure où cela permet d’obtenir un QCM complet (quatre distracteurs).
4. Dans notre corpus d’entrainement, nous ne l’avons pas rencontrée.
5. Cf. la section 4.4
42

Le programme récupère ces tableaux et concatène au QCM les distrac-
teurs, la réponse, le stem et leurs balises XML correspondantes, avant de
passer à la question suivante.
d’une analyse syntaxique
L’analyse syntaxique du QCM constitue la seconde phase de la génération
de distracteurs, et n’est utilisé que dans le cas où la réponse n’est pas reconnue
comme un des huit types d’entités nommées (soit celle-ci est bien une entité
nommée mais n’a pas été taguée comme telle par le Stanford Named Entity
Recognition, soit elle n’est tout simplement pas une entité nommée).
C’est dans ce cadre-ci que nous utilisons le logiciel Tregex présenté au
chapitre 3. En effet, nous tentons d’associer à chaque structure syntaxique
une règle particulière ; si la réponse correspond à une des règles définies, elle
est intégrée à une table de hachage avec la règle qui a été utilisée.
La détermination et le choix des règles à implémenter dans le programme
est à réaliser judicieusement : les règles doivent être suffisamment générales
pour repérer un maximum de cas mais également suffisamment précises pour
réduire au maximum les correspondances indésirables, c’est-à-dire le bruit.
Nous avons préféré restreindre au maximum le nombre de règles tout en
assurant une relative qualité des correspondances réalisées. Ainsi, une liste
de 10 règles générales a été établie 6
:
Syntagmes nominaux
NP</NNS?/?<CC?<DT?<JJ?<RB
NP<(NP</NNS?/?<CC?<DT?<JJ?<RB)<(PP<IN<(NP</NNS?/?<CC?<DT?<JJ?<RB))
La première règle repère les syntagmes nominaux simples, c’est-à-dire uni-
quement composés de noms, et éventuellement de conjonctions de coordina-
tions, déterminants, adjectifs et adverbes. La seconde règle repère certains
syntagmes nominaux « complexes », en ce qu’ils sont constitués de plusieurs
syntagmes hiérarchisés par une particule <IN> (par exemple des prépositions
telles que of et beneath).
Syntagmes adjectivaux
ADJP<JJ ?<RB ?<DT ?<CC
6. L’annexe D reprend l’ensemble des règles et leurs balises.
43

La règle reconnait tout syntagme adjectival contenant, forcément, un adjectif,
et éventuellement des adverbes, déterminants ou conjonctions de coordina-
tions.
Syntagmes verbaux
VP<VBG<(PP<1IN<2(NP</NNS?/ ?<CC ?<DT?<JJ)!<<S)
VP <VBG
Les deux règles repèrent les syntagmes contenant un gérondif ; la première
est plus précise, puisqu’outre le gérondif, le syntagme doit contenir une pro-
position et un syntagme prépositionnel.
Syntagmes adverbiaux
ADVP<RB ?<RBR|RBS
La règle repère les syntagmes adverbiaux contenant un adverbe et éventuel-
lement un adverbe comparatif ou superlatif.
Syntagmes prépositionnels
PP<1IN<2(NP</NNS?/ ?<CC ?<DT ?<JJ)!<<S
La règle repère les syntagmes prépositionnels contenant une particule pré-
positionnelle suivie d’un syntagme nominal (nom, éventuellement conjonc-
tions de coordinations, déterminants et adjectifs) mais qui ne contiennent
pas d’autres propositions, aﬁn, par exemple, de ne conserver que for patients
dans la phrase They make it easier for patients to sleep et non for patients
to sleep.
Propositions
SBAR<(IN<because | <since) <S <(IN !<if) !<RB
VP <TO <(VP <VB)
Ces deux règles repèrent les propositions causales (débutant par because ou
since) et inﬁnitives (to + verbe).
Phrases
S
44

Il s’agit là de la règle la plus simple qui soit puisqu’elle repère toutes les
phrases déclaratives.
Le fichier regles.xml est facilement modifiable dans le cas où il est né-
cessaire d’ajuster les règles, éventuellement en ajouter pour augmenter la
reconnaissance de certaines constructions, moins fréquentes.
Une fois le fichier regles.xml défini, il est entré en argument avec Spar-
ser.xml dans une version du logiciel Stanford Tregex adaptée par Van-Minh
Pho permettant, tout comme le Stanford Parser, d’être appelée par un script
Perl et fournir en sortie un fichier STregex.xml intégrant tous les segments
du texte ayant été repérés par les règles, avec l’indication, pour chacun de
ces segments, de la règle utilisée :
<SOUS_ARBRE id_regle="SP1" type_regle="SP">
<SOUS_ARBRE_CONSTITUANTS>
(PP (IN with) (NP (DT the) (NNP Amazon) (NN problem)))
</SOUS_ARBRE_CONSTITUANTS>
<SOUS_ARBRE_TEXTE>
with the Amazon problem
</SOUS_ARBRE_TEXTE>
</SOUS_ARBRE>
Figure 6.2 – Extrait du fichier STregex.xml
L’ordre des règles dans le fichier regles.xml a son son importance : le
logiciel lit les règles de haut en bas ; si une séquence du texte n’est pas
reconnue par la première règle, il passe à la deuxième, et ainsi de suite,
jusqu’à ce que la séquence soit reconnue. Pour cette raison, les règles les
plus précises doivent être placées avant les règles les plus générales (la plus
générale possible étant <S>, dans notre fichier).
Dans un module du programme, nous analysons ensuite le fichier STre-
gex.xml sur le même mode opératoire que celui suivi lors de la génération de
distracteurs de type entité nommée : l’ensemble des structures syntaxiques
repérées sur la base des règles définies est inséré dans une table de hachage.
Selon la structure de la réponse dont on cherche à fournir des distracteurs,
identifiable avec des balises XML spécifiques, tous les segments du texte dont
la structure syntaxique est identique à celle de la réponse sont placés dans
un tableau, pour ensuite en récupérer un de manière aléatoire. L’opération
est répétée au maximum 4 fois par réponse, selon la fréquence de la structure
à rechercher au sein du texte. Les distracteurs, et leurs booléens correspon-
dants (1 ou 0, selon qu’un distracteur a été trouvé ou non), sont à leur tour
placés dans deux tableaux, et retournés au programme principal.
45

6.5 Regroupement des programmes
Les deux modules de génération de distracteurs sont récupérés par le pro-
gramme principal, qui s’occupe de générer en sortie le fichier final, QCMout-
put.xml, contenant le texte, les questions, les réponses et les distracteurs, le
tout sous le même format que celui utilisé en entrée. Conformément à ce que
nous avons avancé dans l’introduction de ce chapitre, les distracteurs sont en
priorité choisis – le cas échéant – sur la base de leur type d’entité nommée.
Quel que soit le module appelé (analyse sur le type d’entité nommée ou sur
la structure syntaxique), deux tableaux sont retournés, contenant les distrac-
teurs et les booléens, à partir desquels le fichier de sortie final contenant le
QCM est produit.
46

Chapitre 7
Analyses et résultats du
générateur automatique de
distracteurs
7.1 Introduction
Nous présentons dans ce chapitre les résultats de notre programme de
génération automatique de distracteurs dans le cadre de QCM. Nous nous
limitons à une analyse qualitative, linguistique, dans la mesure où une ana-
lyse quantitative eût nécessité de nouvelles étapes d’annotation et d’analyses
statistiques similaires à celles réalisées au chapitre 5. La durée du stage étant
limitée, nous avons préféré nous focaliser sur la ﬁnalisation du programme.
En outre, des améliorations ultérieures seront apportées au programme lors
de notre mémoire (le stage en constituant la partie « pratique ») ; nous réali-
serons à ce moment-là une analyse plus approfondie, en passant notamment
par des tests sur population.
Pour réaliser cette analyse, nous avons soumis notre programme aux QCM
de la tâche 2012 du QA4MRE, mais aussi 2013, comme indiqué au chapitre 4.
7.2 Remarques préambulaires
De manière générale, la qualité des distracteurs fournis par le programme
dépend de deux éléments : le texte d’un côté et la formulation des réponses
de l’autre.
Un texte trop court limitera la génération de distracteurs en ce que le pro-
gramme cherche à reconnaître des types d’entités nommées ou des structures
syntaxiques précises au sein du texte, sans recours à des bases de données
47

externes. Logiquement, au plus la longueur du texte est importante, plus la
probabilité d’obtenir quatre distracteurs par question l’est aussi.
Une autre caractéristique du texte est à prendre en compte : son type.
En effet, il existe certains types de textes à partir desquels la génération de
distracteurs est plus efficace. Dans le cadre de la génération de distracteurs
à partir d’entités nommées, les articles historiques par exemple, ou, plus
généralement, factuels, sont à privilégier. Les textes narratifs voire autres
poèmes sont, au contraire, à écarter.
La formulation de la réponse joue également un rôle certain dans la mesure
de la performance du programme : certaines réponses peuvent être rédigées
de telle sorte que le type d’entité nommée, pourtant évident pour un lecteur
humain, ne soit pas reconnu par le programme. Ainsi, il est préférable de
rédiger la réponse à la question le plus simplement possible : juste un nombre
(dans le cadre d’une date, d’une somme, etc.), un lieu, ou le nom d’une
personne ; à éviter, donc, les formulations syntaxiquement complexes. Ce
précepte est aussi valable dans le cadre de la formulation des réponses de
type proposition causale, par exemple : les règles élaborées sous Tregex ne
permettent de reconnaitre que les structures « typiques », c’est-à-dire, dans
notre cas, les propositions débutant par un because ou since.
d’une taxonomie d’entités nommées
Les distracteurs générés sont dans la majorité des cas cohérents tant
par rapport à la question que par rapport à la réponse. Bien entendu, il
s’agit là d’une « impression » ; des études statistiques sur la base d’une nou-
velle annotation permettraient de la corroborer ou, au contraire, de l’infirmer.
Voici un exemple de QCM générés par notre programme :
(1) Which pupil of Dr John Blow taught Charles Burney ?
(a)Edmund Baker
(b)Johnson
(c)Canone
(d)J. J. Rousseau
(e)J. J. Eschenburg
(2) How many degrees did Burney receive from Oxford ?
(a)One
(b)Three
(c)2
(d)years
(e)Six
48

(3) Where was Burney working when he first conceived the idea of writing a
music history ?
(a)Great Britain
(b)Oxford
(c)Milan
(d)England
(e)London
Les distracteurs sont totalement valables dans le cadre de ces questions,
à l’exception du (2d) et, dans une moindre mesure, de (3a) et (3d), hyper-
onymes de (3e) et (3b). Pour résoudre ce problème, nous pourrions éven-
tuellement utiliser des bases de données (listes de pays, de villes, etc.), bien
que celles-ci soient largement insuffisantes compte tenu de la subtilité dont
doivent faire preuve les distracteurs.
Nous notons également, dans la deuxième question, que le format des al-
ternatives n’est pas identique (One vs 2), ce qui va à l’encontre des principes
de base de la rédaction de QCM ([Burton et al., 1991]). Cette disparité dans
les formats se remarque également dans les alternatives de la question (1) :
les alternatives (b) et (c) proposent uniquement un nom, la (a) le prénom et
le nom, et les (d) et (e) les initiales du prénom suivies d’un nom. Le Stanford
Named Entity Recognition ne faisant pas de distinction entre les prénoms et
les noms, nous ne pouvons réellement y remédier, si ce n’est s’arranger pour
ne conserver que les noms.
Une autre limite de notre programme réside dans la reconnaissance des
entités nommées. En effet, si le ou les termes à reconnaître ne constituent
pas à eux seul la réponse (ajout d’une particule, par exemple), le Stanford
Named Entity Recognition ne la considérera pas comme une entité nommée :
(4) In what year was a study concerning the contribution of using ethanol
for reducing emissions in Brazil undertaken?
(a)in 1990
(b)in 1980
(c)in 1975
(d)in 1991
(e)in 1997 (réponse)
Dans cet exemple, notre programme ne fournit pas de distracteurs du type
d’entité nommée <date> à cause de la particule in. Le Stanford Named
Entity Recognition tague bien 1997, mais pas sa particule. Pour cette raison,
lors de la recherche de in 1997 dans la table de hachage contenant l’ensemble
des entités nommées et leur type, aucune entrée n’est identifiée, et la réponse
est donc considérée comme n’étant pas une entité nommée.
En outre, il se peut que le logiciel associe un type d’entité nommé erroné
à une réponse, impliquant la génération de distracteurs ne correspondant pas
au type attendu par le stem :
49

(5)What program had as an objective of reducing emissions from energy production ?
(a)da Silva
(b)Emilio La Rovere
(c)PROCEL (réponse)
(d)Isaías Macedo
PROCEL, une organisation, a été reconnue comme étant de type <person>,
générant ainsi des distracteurs de ce type.
d’une analyse syntaxique
Les distracteurs générés à partir de la structure syntaxique de la réponse
sont qualitativement très variables, selon qu’il s’agit d’un syntagme ou d’une
proposition.
Syntagmes Dans le cas des syntagmes (ou, tout du moins, dans le cas
des syntagmes nominaux), le programme ne se base que sur la structure
globale de la réponse (un nom, éventuellement complété par un ou plusieurs
adjectifs, déterminants, conjonctions, voire d’autres noms) pour sélectionner
les distracteurs dans le texte. Ce faisant, toute structure identique à celle de
la réponse constitue un distracteur potentiel, susceptible d’être sélectionné à
chaque lancement du programme.
(6)What phenomenon that happens in the Amazon rainforest could contribute
to global warming ?
(a)the country’s financial burden
(b)economic terms
(c)spontaneous fires (réponse)
(d)bagasse and ethanol
(e)Brazil
Dans cet exemple, le stem attend pour réponse un phénomène qui a lieu
dans la forêt amazonienne. Seule la réponse (c) correspond eﬀectivement au
type attendu. On constate ici les limites de la génération de distracteurs
uniquement sur une analyse de la structure syntaxique.
Pour certains types de syntagmes, les distracteurs générés sont de
meilleure qualité, en ce que le programme se base sur une catégorie de mots
pour sélectionner les distracteurs :
(7)How can new arable land be obtained ?
(a)burning forests
(b)using sugarcane ethanol and bagasse -LRB- the dry pulpy residue
left after extracting juice from sugar cane -RRB-
(c)Taking into account only the gasoline that is not burned
(d)mitigating the energy sector’s contribution to greenhouse gas emissions
(e)raising temperatures further
50

Ces syntagmes verbaux sont générés à partir d’un verbe au gérondif, selon
la règle définie dans le fichier regles.xml. Les distracteurs sont plus efficaces
que dans le cas des syntagmes nominaux 1
.
Propositions En ce qui concerne les propositions, le générateur fournit
des distracteurs relativement efficaces. En effet, si nous conservons l’analyse
de la structure syntaxique, nous fournissons également à Tregex des listes
de termes susceptibles d’introduire ou d’être contenus dans une proposition.
Ainsi, le logiciel prend quand même en compte quelques informations lexi-
cales, fussent-elles minimes. Nous avons fourni ces termes pour repérer les
propositions causales (since, because) et infinitives (to + verbe), principale-
ment.
(8)Why might yearly studies concerning the contribution of a country to
climate change be inexact ?
(a)because they only consider current emissions but not previous ones
(réponse)
(b)because the sectors that contribute most to the economy, including iron
and steel, cement, aluminium, chemical, petrochemical, pulp and paper,
and transportation, rely heavily on fossil fuels which produce large
amounts of greenhouse gases
(c)primarily because the most important greenhouse gas -LRB- carbon dioxide
-RRB- remains in the atmosphere for more than a century on average
Les trois alternatives débutent toutes sur le même marqueur causal, et, en les
analysant, on remarque que les distracteurs sont finalement pas si incongrus
que cela. L’utilisation de termes lexicaux lors de la recherche des propositions
permet de répondre à une des caractéristique définies lors de la phase d’an-
notation, à savoir la correspondance entre le distracteur et le type attendu
par le stem.
Voici un autre exemple, qui concerne cette fois les propositions infinitives :
(9)What is the objective of the Brazilian National Biodiesel Program ?
(a)to reduce its emissions
(b)to accept emission targets before the middle of the century
(c)to include more biodiesel in normal diesel fuel
(d)to help organisms that act as vectors for diseases, such as
mosquitoes, which transmit dengue fever and malaria, and assassin
bugs -LRB- Tripanosomiasis americana -RRB-, which transmit Chagas
disease
(e)to increase the share of these sources to ten per cent
Dans ce cas, nous avons recherché toutes les séquences du texte débutant par
la particule to, suivie d’un verbe à l’infinitif et qui ne contient pas d’autres
propositions. Nous remarquons que les distracteurs générés sont également
plutôt efficaces.
1. Encore une fois, il s’agit d’impressions générales, à considérer avec précaution, donc.
51

Phrases Dans le cas des phrases, le générateur sélectionne toute phrase
déclarative du texte. Parmi les distracteurs générés, nous n’en avons pas
rencontrés, ce qui n’est pas surprenant dans la mesure où les réponses aux
QCM du corpus que nous avons testé ne sont pas pas repérées comme étant
des phrases. Des analyses plus approfondies doivent encore être menées dans
ce domaine.
52

Génération automatique de distracteurs dans le cadre de QCM

Génération automatique de distracteurs dans le cadre de QCM

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Semelhante a Génération automatique de distracteurs dans le cadre de QCM

Semelhante a Génération automatique de distracteurs dans le cadre de QCM (20)

Último

Último (19)

Génération automatique de distracteurs dans le cadre de QCM