Présentation de thèse intitulée : Définition et évaluation de modèles d'agrégation pour l'estimation de la pertinence multi-dimensionnelle en recherche d'information
Thèse soutenue le 11/12/2015 à l'IRIT (UPS, Toulouse)
Télécharger la présentation (.pptx) : http://www.irit.fr/publis/SIG/Presentation_thesis_Moulahi_2015.pptx
Télécharger la thèse : http://www.irit.fr/publis/SIG/Thesis_Moulahi_2015.pdf
L’efficacité d’un site Web selon les consommateurs : une question de qualité ...
Définition et évaluation de modèles d'agrégation pour l'estimation de la pertinence multi-dimensionnelle en recherche d'information
1. Définition et évaluation de modèles d’agrégation
pour l’estimation de la
pertinence multidimensionnelle en recherche
d’information
Bilel Moulahi
Sous la direction de
Lynda Tamine & Sadok Ben Yahia
Équipe SIG – IRIT/ LIPAH - FST
11 décembre 2015
2015-2016
2. Extrait des titres de papiers publiés, de l’introduction/conclusion avec http://www.wordle.net
Définition et évaluation de modèles d’agrégation pour l’estimation de pertinence
multidimensionnelle en recherche d’information
3. Contexte
Le temps comme facteur principal dans
l’estimation de pertinence
Attentat Paris Documents
Appariement
Documents pertinents
(c1), 13/11(c2), sources
de confiance (c3), …
Agrégation de
scores
C3
…
C2
C1
Attentat Paris
Documents
Appariement
c1, c2, c3, …
Agrégation de
scores
C3
…
C2
C1
Temps
Période de temps spécifique
Estimation de pertinence
multidimensionnelle
3
4. Plan de la présentation
Approches multicritères pour l’estimation de pertinence de documents :
contexte et problématique
Définition et évaluation d’un modèle d’agrégation de pertinence
multidimensionnelle
Modèle d’agrégation sensible au temps
Conclusion et perspectives
4
6. Contexte
Recherche d’information
classique :
Faciliter l’accès à l’information
Besoin représenté par des mots clés
(Vickery, 1959; Cooper, 1971; Harter, 1992)
Approche généraliste : Résultats
dépendant que de la requête
requête Documents
Appariement
besoin
6
7. Pertinence multidimensionnelle
Multiplicité des dimensions (Borlund, 2003,
Saracevic, 2007, Taylor et al., 2007)
Impact sur l’estimation de la pertinence
finale
Dépendance (Carterette et al., 2011; Eickhoff et
al., 2013)
Perception personnelle des utilisateurs
(Tamine et al., 2011, Sieg et al., 2007)
Subjectivité entourant les dimensions
Critère thématique
Fraîcheur
Autorité (influence,
#tweets/mentions)
Critère thématique
Fraîcheur
Localisation géographique
Centres d’intérêts
7
8. Problème : énoncé
Modélisation de la pertinence multicritères : quel modèle ?
Comment modéliser
l’interdépendance et
synergies entre les
critères ?
Comment quantifier
l’importance des
critères ?
Comment personnaliser
le modèle de
pertinence
multicritères ?
8
9. Problème : RI et approches multicritères
Analyse multicritère
« Science vouée à
l’éclaircissement de la
compréhension d’un problème
de décision et à sa
résolution »
Fusion de données
Choix social
Prise de décision multicritères
Agrégation de préférences
•Doc 1
•Doc 2
•Doc 3
Critère 1
•Doc 2
•Doc 1
•Doc 3
Critère 2
•Doc 2
•Doc 3
•Doc 1
Critère 3
9
10. 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
1
23
Series1 Series2 Series3 Series4
Problème : Illustration
Documents ayant le même score
global mais pas les mêmes scores
partiels! Lequel retourner? Degré d’importance des critères pour
chaque utilisateur
0,25 0,25
0,25 0,25
0,25
0,25 0,25
0 0,5
0,25
0,1 0,1
0,1 0,7
0,25
Diversité des préférencesAdditivité
10
11. Combinaison multicritères en RI : aperçu
Approches par valeurs
Approches classiques
Moyenne
arithmétique
pondérée,
Combinaison linéaire
(Si et Callan, 2002;
Craswell et al., 2005;
Damak et al., 2011;
Wei et al., 2011),
OWA (Yager, 1988),
Owmin (Boughanem
et al. 2006)
Agrégation
prioritaires
Scoring, And (Celia et
al., 2009, 2011)
Approches par listes
Agrégation
d’ordonnancements
Comb* (Fox et Shaw,
1993), Borda, RR,
Condorcet
(Condorcet, 1785),
distance de Kendall
(Fagin et al., 2003),
chaînes de Markov
(CM) (Dwork et al.,
2001; Renda et
Straccia, 2003)
Apprentissage
d’ordonnancements
RankNet (Burges
et al., 2005),
RankSVM (Joachims,
2006), ListNet (Cao
et al., 2007),
Random Forest
(Breiman, 2001).
Approches de
surclassement
Electre (Roy, 1991),
PROMETHE (Brans et
Vincke, 1985; Brans
et al., 1984), TACTIC
(Vansnick, 1986)
•Score d1
•Score d2
•Score d3
Critère i
•Score d2
•Score d1
•Score d3
Critère j
•Score d2
•Score d3
•Score d1
Critère k
11
12. Combinaison multicritères en RI : positionnement
Approche Description Apprentissage Dépendance Personnalisation Interprétation
Combinaison linéaire Somme pondérée des
scores
Moyennes ordonnées Somme ordonnée et
pondérée des scores
Opérateurs prioritaires Relation de priorité
entre les critères
Apprentissage
d’ordonnancement
Apprentissage
automatique de
modèle
Approche d’agrégation
de pertinence
multidimensionnelle
Définition d’une
mesure floue sur les
critères
12
13. Partie 2.
Définition et évaluation d’un modèle
d’agrégation de pertinence
multidimensionnelle
14. iAggregator: Modèle d’agrégation pour l’estimation de pertinence multidimensionnelle
Personnalisation des préférences
Modélisation des interactions entre l’ensemble
des critères
Poids d’importance sur des combinaisons de
critères : capacité
Mesure floue sur les critères
Comment modéliser
l’interdépendance et
synergies entre les
critères ?
Comment hiérarchiser
les critères selon leur
importance ?
Comment personnaliser
le modèle de
pertinence
multicritères ?
14
15. iAggregator: Modèle d’agrégation pour l’estimation de pertinence multidimensionnelle
Mesure floue
Définition des poids
d’importance
Modélisation des
interactions entre les
critères
Modèle
Mesure floue (capacité)
Fonction d’utilité μ, valeurs dans [0,1]
μ{.}: Importance d’un critère ou un sous ensemble
de critères
• μ{ci, cj} >= μ{ci} + μ{cj}
• Impact de satisfaction d’un seul critère vs. la
satisfaction de deux critères
Interaction positive (complémentarité)
• μ{ci, cj} <= μ{ci} + μ{cj}
• biais introduit par les critères redondants
Interaction négative (redondance)
1
2
3
4
ci
cj
1
2
3
4
ci
cj
Pénaliser les documents
surestimés selon un seul
critère de pertinence
atténuer le biais qui pourrait être
introduit par l’implication des
critères de pertinence redondants
15
16. iAggregator: Modèle d’agrégation pour l’estimation de pertinence multidimensionnelle
Additivité
Définition des poids
d’importance
Modélisation des
interactions entre les
critères
Modèle
Mesure floue (capacité)
Fonction d’utilité μ, valeurs dans [0,1]
μ{.}: Importance d’un critère ou un sous ensemble
de critères
• μ{ci, cj} >= μ{ci} + μ{cj}
Interaction positive (complémentarité)
• μ{ci, cj} <= μ{ci} + μ{cj}
Interaction négative (redondance)
RSV 𝑐1,𝑐2,…,𝑐 𝑛
𝑞, 𝑑𝑗 = 𝐶ℎ 𝜇 RSV 𝑐1
𝑞, 𝑑𝑗 , … , RSV 𝑐1
𝑞, 𝑑𝑗
=
𝑖=1
𝑛
rsv𝑖(𝑗) μ{𝑐 𝑖,…,𝑐 𝑛} − μ{𝑐𝑖+1,…,𝑐 𝑛}
Score (partiel) suivant 𝑐1
Score (partiel) ordonné suivant 𝑐𝑖
Différence de l’importance de la
coalition du reste des critères
Modèle basé sur l’intégrale de Choquet
16
17. Interprétation du modèle
Indice d’importance (Shapley):
(Grabisch et al., 2000)
Contribution moyenne qu’un
critère apporte à toutes les
autres combinaisons de
critères possibles
Indice d’interaction (Grabisch
et al., 2000)
Degré d’interaction entre
deux critères:
Nulle, positive, négative
17
18. Apprentissage des poids d’importance
Objectif
• Identification des
valeurs de capacités
Données
• Requêtes, Scores des
documents, jugements
Étapes
• Paramétrage
• Optimisation
Paramétrage
1. Génération d’un
ensemble de
valeurs de
capacités
2. Agrégation
3.Identification des
meilleures valeurs
initiales
Optimisation
Interpolation des
scores globaux
Mesure objective :
P@X/ Méthode
des moindre carrés
q1,d11:(RSVc1(q1,d11),...,RSVcN(q1,d11)):l11
q1,d12:(RSVc1(q1,d12),...,RSVcN(q1,d12)):l12
q1,d1K:(RSVc1(q1,d1K),...,RSVcN(q1,d1K)):l1K
qm,dm1:(RSVc1(qm,d1m),...,RSVcN(qm,d1m)):lm1
qm,dm2:(RSVc1(qm,d2m),...,RSVcN(qm,d2m)):lm2
qm,dmK:(RSVc1(qm,dmK),...,RSVcN(qm,dmK)):lmK
18
19. Modèle d’agrégation pour l’estimation de pertinence multidimensionnelle : approche personnalisée
Identification des préférences des utilisateurs Personnalisation
RSV 𝑐1,𝑐2,…,𝑐 𝑛
𝑢
𝑞, 𝑑𝑗 = 𝐶ℎ 𝜇 RSV 𝑐1
𝑢
𝑞, 𝑑𝑗 , … , RSV 𝑐 𝑛
𝑢
𝑞, 𝑑𝑗
=
𝑖=1
𝑛
𝑟𝑠𝑣 𝑖 𝑗
𝑢
μ{𝑐 𝑖,…,𝑐 𝑛}
𝑢 , … , μ{𝑐 𝑖+1,…,𝑐 𝑛}
𝑢
Score (partiel) personnalisé
suivant 𝑐𝑖
Poids personnalisé d’un
utilisateur u
Comment personnaliser
le modèle de
pertinence
multicritères ?
19
20. 20
Contexte de RI sociale
Recherche de tweets
• 3 Critères : thématique, autorité, fraîcheur
• Collection de test fournie par la tâche
Microblog de TREC
• 16 millions de tweets
Contexte de RI personnalisée
Recherche de lieux d’attraction
•2 critères : localisation, intérêts
•Collection de test fournie par la tâche TREC
Contextual Suggestion
Recherche dans les folksonomies
•2 critères : topicalité, intérêts
•Base de test collectée de Delicious
Évaluation expérimentale : cadres d’application
Objectifs :
• O1. Estimer l’importance des critères en tenant compte de leur propriétés
• O2. Evaluer le modèle d’estimation de pertinence globale
21. Baselines
Moyenne arithmétique (MA)
Moyenne arithmétique pondérée
Mécanisme de combinaison linéaire
Opérateurs d ’agrégation prioritaires (And,
Scoring) (Costa Pereira, 2012)
Opérateurs Min et Max
Opérateurs OWA et OWMin
L2R : RankSVM, LambdaMART,
Métrique
d’évaluation
Mesures officielles
des tâches Microblog
de TREC 2011 et
2012
• P@30
• MAP
Protocole
d’évaluation
Apprentissage : Requêtes
TREC Microblog 2011 (49) :
Expérimentation de 19
combinaison de capacités
Test : requêtes de la
tâche Microblog 2012
(60)
Évaluation expérimentale : recherche de tweets
21
22. Apprentissage des capacités & Interaction des critères
• Valeurs de
capacité
différentes ->
impact sur la
précision
• Topicalité >
Fraîcheur >
autorité
Paramétrage
• Dimensions de
pertinence
dépendantes
• Interaction
positive,
négative suivant
la collection
Dépendance
• Critère autorité :
faible
importance :
0,12
Importance
O1. Estimer l’importance des critères en tenant compte de leur
propriétés
22
23. Résultats
Comparaison avec les opérateurs classiques Comparaison avec l’opérateur Scoring
Différence plus importante pour : AM, WAM, MAX
Min, And : même performances
15 % vs. Scoring / % Requêtes : 36% Iaggregator vs 22% Scoring 23
O2. Evaluer le modèle d’estimation de pertinence globale
25. Évaluation expérimentale : cadre personnalisé
Utilisateurs
Profils (exemples)
635
50
Contextes (requête) 50
Documents (suggestions) 3925 (157)
Base de test
Position géographique dans une ville
Google Place API (restaurants, pizzeria, musée, …)
Lieu, (URL, description)
Evaluer des techniques de recherche
répondant à des besoins en
information dépendant du contexte
des utilisateurs :
• chercher les places d’attractions pouvant
l’intéresser suivant deux critères de pertinence :
• Centres d’intérêts
• Localisation géographique
Mesure d’évaluation : P@5 (officielle)
Modèles de références :
• Agrégation de pertinence multidimensionnelle :
moyenne arithmétique pondérée, Scoring, And
• Personnalisation des préférences : Intégrale de
Choquet classique
25
27. Résultats
Différence relativement plus importante pour
la méthode WAM et And 27
O2. Evaluer la personnalisation sur le modèle d’estimation de
pertinence globale
28. Constats
•Plus les critères sont
dépendants, plus la
différence de
performance est
importante
•Propriétés
mathématiques
intéressantes utiles en
RI
Avantages
• Apprentissage :
• Sensitivité aux choix
des paramètres
initiaux
• Evaluation :
• Vérité de terrain
• Mesures
Défis
28
30. Problématique : temps comme critère de pertinence
Modélisation de la
pertinence
temporelle
Identification de la sensibilité
de la requête au temps
Caractérisation des périodes
pertinentes à la requête
Combinaison du critère
temporel et thématique
Temps au niveau des
requêtes
Temps au niveau des
documents
Temps au niveau des
modèles
d’ordonnancement•Dimension temporelle exploitée de façon brute
•Temps de soumission des requêtes
•Temps de publication des documents
•Collections de données statiques
30
31. Modèle sensible au temps : intuition
Termes des requêtes sont temporellement corrélés
dans les documents pertinents
31
32. Modèle sensible au temps : Intuition - validation (2)
Modélisation statistique avec les séries chronologiques (Montgomery et al., 2008) dans les documents
pertinents de la tâche TREC TS
Axe des abscisses : temps (heures)
Axe des ordonnés : importance des termes
32
𝒕𝒇(𝒘𝒊, 𝑫 𝒕)
𝑫 𝒕
Terme 1 : pakistan
Terme 2: factory
Terme 3 : fire
Requête : pakistan factory fire
33. Analyse de corrélation temporelle : Intuition - validation (3)
Objectif :
• Vérifier l’hypothèse de dépendance temporelle entre des requêtes
• Tâche TREC TS 2013
Les termes appartenant
à la même requête sont
plus corrélées que celles
ne faisant pas partie de
la même requête
Mots de requêtes de la collection
33
Motsderequêtesdelacollection
34. Modèle sensible au temps : hypothèse
Les documents qui sont susceptibles
d’être pertinents en réponse à une
requête, sont ceux qui sont à la fois
pertinents pour tous les termes de la
requête et qui sont publiés dans des
périodes de temps similaires
𝑞 = {𝑡𝑒𝑟𝑚𝑒1, 𝑡𝑒𝑟𝑚𝑒2, … , 𝑡𝑒𝑟𝑚𝑒𝑖}
Terme 1 Terme 2 Terme 3 Terme i..
d1 d2 d2 d4
d2 d3 d4 d2
d3 d4 d3 d3
d4 d5 d5 d5
d5 d1 d1 d1
34
35. Modèle sensible au temps
Pertinence des documents suivant chaque
terme de la requête
Fusion des listes d’ordonnancements
selon les termes des requêtes en une
seule liste résultante.
booster les documents qui sont
publiés dans les mêmes périodes de
temps qu’un nombre important de
documents pertinents retournés en
réponse à tous les termes de la
requête
𝑃 𝑑 𝑡
𝑤𝑖 = 𝑃 𝑑, 𝑡 𝑤𝑖 ∝ 𝑃 𝑑 𝑤𝑖 𝑃 𝑡 𝑤𝑖
∝ 𝑃 𝑞 𝑤𝑖 𝑃 𝑑 𝑃 𝑡 𝑤𝑖 ∝ 𝑃 𝑤𝑖 𝑑 𝑃(𝑡|𝑤𝑖)
Pertinence thématique
𝑃 𝑤𝑖 𝑑 =
𝑡𝑓(𝑤𝑖, 𝑑) + 𝜇
𝑡𝑓(𝑤𝑖, 𝑑)
|𝐷|
𝑑 + 𝜇
Pertinence temporelle
𝑃 𝑡 𝑤𝑖 =
𝑡𝑓(𝑤𝑖, 𝐷 𝑡
)
𝐷 𝑡
𝑇𝑇𝐷𝑀 𝑑 𝑡 ∈ 𝐷 =
𝑟∈𝑅
1
𝜖 + 𝑟(𝑑 𝑡)
∗ 𝑘𝑒𝑟𝑛𝑒𝑙(𝑡, 𝑡 𝑎𝑣𝑔)
𝑘𝑒𝑟𝑛𝑒𝑙 𝑡1, 𝑡2 =
1
2𝜋𝜎
∗ 𝑒𝑥𝑝
−(𝑡1 − 𝑡2)2
2𝜎2
35
36. Baselines
Un modèle atemporel : le modèle de
langue (ML) avec un lissage Dirichlet
(Zhai et Lafferty, 2004)
Le modèle de langue temporel Dakka et
al. (2)
Le modèle Recency Prior (RP) Li et Croft
(2003)
Métrique
d’évaluation
Précision
Rappel
F-mesure
Protocole
d’évaluation
Apprentissage : Requêtes
TREC Temporal
Summarization 2013
Test :
requêtes de la
tâche TS 2014
Évaluation expérimentale
36
37. Résultats expérimentaux
Amélioration de + 32.74% en
terme de F-mesure
Précision Rappel F-Mesure %↗
ML 0,0830 0,2019 0,1177 +32,47%
MLT 0,1307 0,1772 0,1504 +13,71%
RP 0,0866 0,2019 0,1212 +30,46%
TTD-M 0,1692 0,1797 0,1743 -
37
38. Résultats expérimentaux (2)
TTD-M fournit des meilleurs résultats que RP
pour 60% des requêtes (9 / 15).
ID Termes de requête
F-Mesure
%↗
RP TTD-M
11 costa concordia 0,2055 0,0904 55,98%
12 european cold wave 0,0763 0,0347 54,49%
13 queensland floods 0,2262 0,0787 65,21%
14 boston marathon bombing 0,0802 0,1171 -45,99%
15 egyptian riots 0,1525 0,1028 32,56%
16 quran burning protests 0,3646 0,2352 35,47%
17 in amenas hostage crisis 0,1252 0,2361 -88,59%
18 russian protests 0,2107 0,0971 53,89%
19 romanian protests 0,347 0,0794 77,10%
20 egyptian protests 0,0831 0,0727 12,48%
21 russia meteor 0,0707 0,143 -100%
22 bulgarian protests 0,1967 0,0606 69,15%
23 shahbag protests 0,0281 0,0489 -73,92%
24 nor’easter 0 0 0
25 Southern California shooting 0,0057 0,051 -100% 38
Nombredesdocspertinents
Temps (heures)
39. Conclusion
1. Modèle de combinaison de pertinence multicritères pour l’estimation
de pertinence multidimensionnelle
Opérateur d’agrégation flexible
Algorithme pour l’apprentissage des poids d’importance
Evaluation approfondie du modèle (3 tâches)
2. Approche d’agrégation personnalisée
3. Intégration de la dimension de pertinence temporelle
Analyse temporelle de la dépendance des terme de requêtes
Modèle sensible au temps
40. Perspectives
Court terme
• Réduire la complexité de
l’algorithme
d’apprentissage des
capacités
• Traiter le problème
d’agrégation en
l’absence de scores
Moyen terme
• Evaluer la sensitivité des
paramètres du modèle
d’ordonnancement
sensible au temps
• Tester l’efficacité du
modèle dans d’autres
collection de données