SlideShare une entreprise Scribd logo
1  sur  53
Télécharger pour lire hors ligne
Indexation et Recherche
d’Information vidéo
Introduction à la RI
Modèles de RI
Plan
1.Qu’est ce que la RI ?
2. Petit tour d’horizon
–Du besoin d’information à la requête
–Représentation de l’information
3. Modèles de RI
4. Évaluation des performances
Qu’est ce que la RI ?
• La recherche d’information (RI) est une branche
de l’informatique qui s’intéresse à l’acquisition,
l’organisation, le stockage, la recherche et la
sélection d’information [salton, 1968]
• Terminologie
–Recherche d’information, Informatique documentaire
–Information Retrieval / Textual Information Retrieval /
Document Retrieval / multimedia Information
Retrieval
Domaine très visible …
… Et utile !
• Ouvert à tout le monde
• Domaines d’application
–Web, réseaux sociaux
–Bibliothèques numériques
–Entreprises
–Nos propres ordinateurs
La RI est un domaine vaste
• Recherche adhoc
• Classification /catégorisation (clustering)
• Question-réponses (Query answering)
• Filtrage d’information
(filtering/recommendation)
• Métat-moteurs (data-fusion,Meta-search)
• Résumé automatique (Summarization)
• Multi-langues (cross language)
• Fouille de textes (Text mining)
• Multimédias
Objectif de la RI
• Sélectionner dans une collection
–Les informations
–…pertinentes répondant à des
–…besoins d’utilisateurs
8
Eléments clés en RI
• Quels éléments sont centraux pour la
Recherche d’Information ?
–Documents
–Contenu des documents
–Besoin d’information d’un utilisateur
–Satisfaction
Les documents
• Formes
–Texte
–images, sons, vidéo, graphiques, etc.
• Propriétés
–Structure
• non structuré OU semi structuré (XML) (HTML)
–Hétérogénéité
• langage (multilingues)
• media (multimédia)
• granularité
10
Information sur les documents
• 2 classes d’information
–Méta-Information (information à propos du
document)
• Attributs : titre, auteur, date de création, etc.
• Structure (organisation du contenu) : structure logique,
liens, etc.
–Contenu
• Contenu brut : le document initial
• Contenu sémantique : information « riche » extraite du
contenu brut
Besoin d’information
• Le besoin
d’information est une
expression mentale
d’un utilisateur
• La requête est une
représentation
possible du besoin
Pertinence
• Quelle pertinence ?
• Relation (correspondance,…) entre un
document et ….….
une requête ou….….
un besoin d’information ?
Selon ….. l’utilisateur…ou …. le système ?
Pertinence utilisateur vs.
Pertinence système
Pertinence utilisateur
- subjective
Pertinence système
- algorithmique
?
La pertinence est difficile à
appréhender
• Pertinence est multidimensionnelle
–dépend de plusieurs paramètres : l’utilisateur,
besoin d’information, situations des utilisateurs
• Pertinence est graduelle (multivaluée)
–un document A peut être plus pertinent que B (ou A
préféré à B)
• Pertinence est dynamique
–peut changer dans le temps, selon l’état de
connaissance de l’utilisateur au moment de la
recherche
Pertinence ≈ similarité
• Elle est souvent traduite
–Vocabulaire similaire  pertinent à la requête
• Similarité peut être mesurée
–Comparaison (matching) de chaînes de caractères
(ou de motifs)
–Même vocabulaire
–Même «sens»
Approche générale de la RI
• Vision simple de la RI textuelle :
«Trouver les documents ayant les mêmes
mots que la requête»
–La requête comme les documents sont des listes de
mots clés
–Comparer les mots de chaque document à ceux de
la requête
–Sélectionner les documents qui contiennent le plus
de mots de la requête.
Description
Représentation
Représentation
Correspondance
Index
(inverse)
Besoin
Processus de RI
Requête
Visualisation
Problématiques de la RI
• Représentation de l’information
–Comment construire une représentation à partir de
documents ?
–Qu’est ce qu’une «bonne» représentation ?
–Quelle organisation physique pour les index ?
• Représentation des besoins
–Comment exprimer le besoin (langage de
requêtes) ?
–Comment représenter le besoin ?
•
RI : un domaine de recherche
actif !
• Proposer des solutions :
–modèles, techniques, outils pour répondre à ces
problèmes
• Avec 2 soucis majeurs
–Quels supports théoriques ?
• Souvent basés sur des théories mathématiques :
Probabilités, statistiques, ensembles, algèbre, logique floue,
analyse de données, …
–Quel processus pour la validation ?
 Théorie, pratique et expérimentation
Plan
1. Qu’est ce que la RI ?
2. Petit tour d’horizon
–Du besoin d’information à la requête
–Représentation de l’information
3. Modèles de RI
4. Évaluation des performances
Du besoin d’information à la
requête
• Le besoin peut être
–Récurrent (filtrage, recommandation) ou ponctuel
(adhoc)
• Expression des besoins (Langage de requêtes)
–Texte libre, Liste de mots clés
–Avec / sans opérateurs (AND, OR, NOT)
–Images, sons (…)
–Appris, par navigation dans la collection (Relevance
feedback)
• Requête : Le résultat …
–de l’expression des besoins ?
–
Du besoin d’information à la
requête
• Paradoxe de la RI
–Une requête «idéale» doit comporter toutes les
informations que l’utilisateur recherche, la similarité
serait alors maximale
–Or, l’utilisateur recherche une information qu’il ne
connaît pas à priori, il ne peut donc pas l’exprimer
(décrire) de manière précise (idéale)
Représentation de l’information
• Représentation de l’information = indexation
–Processus permettant de construire un ensemble
d’éléments «clés » permettant de caractériser le
contenu d’un document
• Éléments clés
–Information textuelle
• mots simples : pomme
• groupe de mots : pomme de terre
–Image
• Couleurs, formes, textures
Indexation
• Peut être
–Manuelle (expert en indexation)
–Automatique (ordinateur)
–Semi-automatique (combinaison des deux)
• Basée sur
–Un langage contrôlé
(lexique/thesaurus/ontologie/réseau sémantique)
–Un langage libre (éléments pris directement des
documents)
•
Indexation
• Démarche de l’indexation automatique
–étape 1 : extraction des termes
–étape 2 : normalisation des mots (regrouper les
variantes d’un mot )
–étape 3 : pondération (discrimination entre les
termes clés/importants/significatifs et les autres)
Indexation automatique Etape1 :
Extraction des termes
• Extraire les termes (tockenization)
–Terme = mot (simple/composé), mots clés, concepts
–Mot : suite de caractères séparés par (blanc ou signe
de ponctuation, caractères spéciaux,…), Nombres
• Dépend de la langue
–Langue française
• Pomme de terre? un, deux ou trois termes?
–Langue Allemande les mots composés ne sont pas
segmentés
• Lebensversicherungsgesellschaftsangestellter
• « employé d’une compagnie d'assurance-vie »
Etape1 : Extraction des mots (suite)
• Pas d’espaces en chinois et en japonais
–Ne garantit pas l’extraction d’un terme de manière
unique
• Pire, le japonais utilise plusieurs alphabets
Etape 1 : Extraction des mots
(suite)
• Suppression des mots «vides» (stoplist/
Common Words removal)
–Mots trop fréquents mais pas utiles
–Exemples :
• Anglais : the, or, a, you, I, us, …
• Français : le, la, de , des, je, tu, …
–Des exceptions :
• US : «USA »
• A de (vitamine A)
Etape 2 : Normalisation
• «Lemmatisation» (radicalisation, racinisation)
(stemming)
–Processus morphologique permettant de regrouper
les variantes d’un mot
• Ex : économie, économiquement, économiste  économie
• pour l’anglais : retrieve, retrieving, retrieval, retrieved,
retrieves  retriev
Etape 2 : Normalisation (suite)
• Utilisation de règles de transformations
–règle de type : condition  action
• Ex : si mot se termine par ‘s’ alors supprimer la terminaison
• L’algorithme le plus connu est l’algorithme de Porter
–Analyse grammaticale
• Utilisation de lexique (dictionnaire)
• Tree-tagger (gratuit sur le net)
Etape 3 : Pondération des mots
• Comment caractériser l’importance des termes
dans un document ?
–Associer un (ou plusieurs) poids à un terme
–Idée sous jacente :
• Les termes importants doivent avoir un poids fort
 Approche la plus répandue : TF.IDF
• Ne concerne pas tous les modèles
• cf « Modèle vectoriel »
Plan
1. Qu’est ce que la RI ?
2. Petit tour d’horizon
–Du besoin d’information à la requête
–Représentation de l’information
3. Modèles de RI
4. Évaluation des performances
33
Modèle booléen
–Modèle de connaissances : T = {ti}, i  [1, .. N]
• Termes ti qui indexent les documents
–Le modèle de documents (contenu) est une
expression booléenne dans la logique des
propositions avec les ti considérés comme des
propositions :
• Un document D1 est représenté par une formule D1
D1= t1  t3  t250  t254
• Une requête Q est représentée par une formule logique Q
Q = (t1  t3)  (t25  t1045  t134 )
34
Modèle booléen
– La fonction de correspondance est basée sur l’implication logique en
logique des propositions :
• Un document D répond à une requête Q si et seulement si
D  Q
– Utilisation de déduction par
» Axiomes : (a  b)  a, (a  b)  b, a  (a  b), b  (a  b), …
» modus ponens (MP) : si a et a  b alors b
• Exemple : D = t1  t3 et Q = t1  t4
– Déduction :
1. t1  t3  t1 (équivalent à D  t1)
2. MP(1) : t1
3. t1  t1  t4 (équivalent à t1  Q )
4. MP(3) : Q
 Q est donc dérivable à partir de D, donc D  Q : le document répond à la requête.
35
Modèle booléen
–Correspondance stricte
– Q = t1  t3  t4
– D1 = t1  t4 ,
D1  Q
– Le document D1 (représenté par D1) n’est pas pertinent pour la
requête Q (représentée par Q) d’après le modèle, alors qu’il contient
une description « proche » de la requête.
36
Modèle booléen
–Pas de distinction entre les documents pertinents
– Q = t1  t4
– D2 = t1  t4 , D3 = t1  t3  t4  t5  t6  t7
D2  Q et D3  Q
– Le document D2 (représenté par D2) est-il plus ou moins pertinent
que D3 (représenté par D3) pour la requête D (représentée par Q) ?
37
Modèle booléen
–Expression de requêtes complexe
– Q = ((t1  t4) t6) ( t8  (t10  t40)) … ???
– Sens du  logique (inclusif) différent du « ou » courant (exclusif)
Modèle booléen : avantages et
inconvénients
• Avantage :
–Le modèle est transparent et simple à comprendre p
our l'utilisateur :
• Pas de paramètres « cachés »
• Raison de sélection d'un document claire : il répond à une f
ormule logique
–Adapté pour les spécialistes et les vocabulaires contr
aints
• Inconvénients :
–Il est difficile d'exprimer des requêtes longues sous f
39
Modèle vectoriel
• Modèle de connaissances : T = {ti}, i  [1, .. N]
• Tous les documents sont décrits suivant ce
vocabulaire
• Un document Di est représenté par un vecteur
Di décrit dans l’espace vectoriel RN
défini par T :
–Di = (wi,1, wi,2, …, wi,j, …, wi,N), avec wkl le poids d’un
terme pour un document
• Une requête Q est représentée par un vecteur
Q décrit dans l’espace vectoriel RN
défini par T :
–Q = (wQ,1, wQ,2, …, wQ,j, …, wQ,N)
I
40
Modèle vectoriel
• Plus les vecteurs représentant les documents
sont « proches », plus les documents sont
similaires :
Di
Terme 1
Terme 3
Terme 2
Dj
41
Modèle vectoriel
• Pondération des termes pour les documents :
–Un document
– « Un violon est issu de bois précieux comme l’érable, palissandre,
l’ébène... »
–Pour indexer, la première idée est de compter les
mots les plus fréquents excepté les termes non
significatifs comme « de », « avec », « comme »…
– « Un violon est composé de bois précieux comme l’érable, le
palissandre, l’ébène... »
Termes retenus et comptés
42
Modèle vectoriel
• Pondération :
–Fréquence d’un terme (term frequency)
• ti,j : la fréquence du terme tj dans le document Di est égale
au nombre d’occurrences de tj dans Di.
• Exemple : si violon apparaît 5 fois dans le document D3,
avec violon=t23, alors t3,23 = 5
43
Modèle vectoriel
• Pondération :
–On tient compte du corpus (base de documents)
entier, un terme qui apparaît beaucoup ne
discrimine pas nécessairement les documents :
Terme fréquent dans le
corpus entier
Terme fréquent dans un seul
document du corpus
44
Modèle vectoriel
• Pondération :
–Fréquence documentaire d’un terme
• dfj : la fréquence dans le corpus du terme tj est le nombre
de documents du corpus où tj apparaît
–On utilise l’inverse de la fréquence documentaire,
idfj :
• Définition simple : idfj = 1 / dfj
• Définition la plus utilisée : idfj = log(ND / dfj), avec ND le
nombre de documents du corpus.
45
Modèle vectoriel
• Pondération :
–Combinaison du t et de l’idf pour un vecteur
document:
• Exemple le plus courant
– wi,j = ti,j . idfj
–Utilisation du t pour une requête
46
Modèle vectoriel
• Fonction de correspondance :
–Fonction de l’angle entre le vecteur requête Q et le
vecteur document Di
Di
Requête Q
Terme 1
Terme 3
Terme 2
Plus l’angle est petit et
plus le document
correspond à la requête
47
Modèle vectoriel
• Fonction de correspondance :
–Une solution est de calculer le cosinus de l’angle
entre le vecteur requête et le vecteur document.
• Produit scalaire
• Cosinus de l'angle
• Distance euclidienne
Modèle vectoriel : avantages et
inconvénients
• Avantages :
–Le langage de requête est plus simple (liste de mot
clés)
–Les performances sont meilleures grâce à la pondéra
tion des
termes
–Le renvoi de documents à pertinence partielle est po
ssible
–La fonction d'appariement permet de trier les docu
ments
• Inconvénients :
–Le modèle considère que tous les termes sont indép
Modèle probabiliste (survol)
• Suppose que la recherche se déroule lors d’une
« session de recherche » (plusieurs itérations)
• Consiste à « estimer » la pertinence d'un
document en fonction de pertinences connues
pour d'autres documents.
• Ce calcul se fait en estimant la pertinence de
chaque index pour un document et en utilisant
le Théorème de Bayes et une règle de décision
49
50
Modèle probabiliste
• Pour un requête Q
Documents non pertinents
“Non relevant documents”
nonrel
CORPUS
Documents pertinents
“Relevant documents
rel
Avec
Corpus = rel  nonrel
rel  nonrel = 
Probabilité pour que le
document i fasse partie de
l’ensemble des documents
pertinents à la requête Q
Prob (pertinenceQ / document Di)
notée simplement Prob(rel/ Di)
Modèle probabiliste
• Fonction de correspondance :
– On ne sait pas calculer P(rel |
d), mais on peut calculer P(d | rel)
– Utilisation du théorème de Bayes
51
Probabilité pour que le document i soit
pertinent pour la requête q
Probabilité d'obtenir un doc
ument
pertinent en piochant au has
ard
Probabilité que le document soit
choisi au hasard
Probabilité d’obtenir dj
en connaissant les pertinents
52
Modèle probabiliste
• Fonction de correspondance
• Décision : document retourné si
– Prob(Rel / Di ) / Prob(nonRel / Di ) > 1
– Avec hypothèse d’indépendance des termes
Modèle probabiliste : avantages et
inconvénients
• Avantages :
– Apprentissage du besoin d’information
– La fonction d'appariement permet de trier les documents
• Inconvénients :
– Le modèle considère que tous les termes sont indépendants
(inconvénient théorique)
– Pas de langage de requête !
– Problème des probabilités initiales
 Résultats comparables à ceux du modèle vectoriel

Contenu connexe

Tendances

Rapport Projet De Fin D'étude Développent d'une application web avec Symfony2
Rapport Projet De Fin D'étude Développent d'une application web avec Symfony2Rapport Projet De Fin D'étude Développent d'une application web avec Symfony2
Rapport Projet De Fin D'étude Développent d'une application web avec Symfony2
Sofien Benrhouma
 
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Riadh K.
 
rapport PFE ingénieur génie logiciel INSAT
rapport PFE ingénieur génie logiciel INSATrapport PFE ingénieur génie logiciel INSAT
rapport PFE ingénieur génie logiciel INSAT
Siwar GUEMRI
 

Tendances (20)

Réalisation d'un compilateur de mini langage - Khawarizmi
Réalisation d'un compilateur  de mini langage - KhawarizmiRéalisation d'un compilateur  de mini langage - Khawarizmi
Réalisation d'un compilateur de mini langage - Khawarizmi
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
Chp3 - Diagramme de Classes
Chp3 - Diagramme de ClassesChp3 - Diagramme de Classes
Chp3 - Diagramme de Classes
 
BigData_TP5 : Neo4J
BigData_TP5 : Neo4JBigData_TP5 : Neo4J
BigData_TP5 : Neo4J
 
Présentation pfe - Etude, conception et réalisation d'une application web de ...
Présentation pfe - Etude, conception et réalisation d'une application web de ...Présentation pfe - Etude, conception et réalisation d'une application web de ...
Présentation pfe - Etude, conception et réalisation d'une application web de ...
 
Ch 01 poo
Ch 01 pooCh 01 poo
Ch 01 poo
 
Pfe conception et réalisation d'une application de gestion des processus d'ac...
Pfe conception et réalisation d'une application de gestion des processus d'ac...Pfe conception et réalisation d'une application de gestion des processus d'ac...
Pfe conception et réalisation d'une application de gestion des processus d'ac...
 
Rapport Projet De Fin D'étude Développent d'une application web avec Symfony2
Rapport Projet De Fin D'étude Développent d'une application web avec Symfony2Rapport Projet De Fin D'étude Développent d'une application web avec Symfony2
Rapport Projet De Fin D'étude Développent d'une application web avec Symfony2
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-Correction
 
rapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFErapport de projet de fin d'étude_PFE
rapport de projet de fin d'étude_PFE
 
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
Rapport PFE : Développement D'une application de gestion des cartes de fidéli...
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - Correction
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
Projet de fin d'etude sur le parc informatique
Projet  de fin d'etude sur le parc informatiqueProjet  de fin d'etude sur le parc informatique
Projet de fin d'etude sur le parc informatique
 
Un exemple élémentaire d'application MVC en PHP
Un exemple élémentaire d'application MVC en PHPUn exemple élémentaire d'application MVC en PHP
Un exemple élémentaire d'application MVC en PHP
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de films
 
rapport PFE ingénieur génie logiciel INSAT
rapport PFE ingénieur génie logiciel INSATrapport PFE ingénieur génie logiciel INSAT
rapport PFE ingénieur génie logiciel INSAT
 
Knn
KnnKnn
Knn
 
Conception et réalisation d'une application de gestion intégrée au sein de la...
Conception et réalisation d'une application de gestion intégrée au sein de la...Conception et réalisation d'une application de gestion intégrée au sein de la...
Conception et réalisation d'une application de gestion intégrée au sein de la...
 

Similaire à Indexation et ri

Similaire à Indexation et ri (20)

Fondements ri ars
Fondements ri arsFondements ri ars
Fondements ri ars
 
Lsi
Lsi Lsi
Lsi
 
4-Recherche d'information.pdf
4-Recherche d'information.pdf4-Recherche d'information.pdf
4-Recherche d'information.pdf
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatisée
 
Ardrasoft ba-ba des métadonnées
Ardrasoft   ba-ba des métadonnéesArdrasoft   ba-ba des métadonnées
Ardrasoft ba-ba des métadonnées
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifique
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèse
 
Formation recherche d'article de périodiques
Formation recherche d'article de périodiquesFormation recherche d'article de périodiques
Formation recherche d'article de périodiques
 
Cours de topic modeling
Cours de topic modelingCours de topic modeling
Cours de topic modeling
 
Methodo_documentaire.pdf
Methodo_documentaire.pdfMethodo_documentaire.pdf
Methodo_documentaire.pdf
 
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
Atelier de recherche documentaire au bacc. en ingénierie - Automne 2016
 
Seminaire Recherche UPPA 2016
Seminaire Recherche UPPA 2016Seminaire Recherche UPPA 2016
Seminaire Recherche UPPA 2016
 
Projets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersProjets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiers
 
AFLS-EMM-ML
AFLS-EMM-MLAFLS-EMM-ML
AFLS-EMM-ML
 
Rédaction scientifique_Partie 1
Rédaction scientifique_Partie 1Rédaction scientifique_Partie 1
Rédaction scientifique_Partie 1
 
Recherche QUESTEL & PRESSED
Recherche QUESTEL & PRESSEDRecherche QUESTEL & PRESSED
Recherche QUESTEL & PRESSED
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDA
 
Jabes 2012 - Tutoriel theses.fr
Jabes 2012 - Tutoriel theses.frJabes 2012 - Tutoriel theses.fr
Jabes 2012 - Tutoriel theses.fr
 
Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolas
 

Indexation et ri

  • 1. Indexation et Recherche d’Information vidéo Introduction à la RI Modèles de RI
  • 2. Plan 1.Qu’est ce que la RI ? 2. Petit tour d’horizon –Du besoin d’information à la requête –Représentation de l’information 3. Modèles de RI 4. Évaluation des performances
  • 3. Qu’est ce que la RI ? • La recherche d’information (RI) est une branche de l’informatique qui s’intéresse à l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information [salton, 1968] • Terminologie –Recherche d’information, Informatique documentaire –Information Retrieval / Textual Information Retrieval / Document Retrieval / multimedia Information Retrieval
  • 5. … Et utile ! • Ouvert à tout le monde • Domaines d’application –Web, réseaux sociaux –Bibliothèques numériques –Entreprises –Nos propres ordinateurs
  • 6. La RI est un domaine vaste • Recherche adhoc • Classification /catégorisation (clustering) • Question-réponses (Query answering) • Filtrage d’information (filtering/recommendation) • Métat-moteurs (data-fusion,Meta-search) • Résumé automatique (Summarization) • Multi-langues (cross language) • Fouille de textes (Text mining) • Multimédias
  • 7. Objectif de la RI • Sélectionner dans une collection –Les informations –…pertinentes répondant à des –…besoins d’utilisateurs
  • 8. 8 Eléments clés en RI • Quels éléments sont centraux pour la Recherche d’Information ? –Documents –Contenu des documents –Besoin d’information d’un utilisateur –Satisfaction
  • 9. Les documents • Formes –Texte –images, sons, vidéo, graphiques, etc. • Propriétés –Structure • non structuré OU semi structuré (XML) (HTML) –Hétérogénéité • langage (multilingues) • media (multimédia) • granularité
  • 10. 10 Information sur les documents • 2 classes d’information –Méta-Information (information à propos du document) • Attributs : titre, auteur, date de création, etc. • Structure (organisation du contenu) : structure logique, liens, etc. –Contenu • Contenu brut : le document initial • Contenu sémantique : information « riche » extraite du contenu brut
  • 11. Besoin d’information • Le besoin d’information est une expression mentale d’un utilisateur • La requête est une représentation possible du besoin
  • 12. Pertinence • Quelle pertinence ? • Relation (correspondance,…) entre un document et ….…. une requête ou….…. un besoin d’information ? Selon ….. l’utilisateur…ou …. le système ?
  • 13. Pertinence utilisateur vs. Pertinence système Pertinence utilisateur - subjective Pertinence système - algorithmique ?
  • 14. La pertinence est difficile à appréhender • Pertinence est multidimensionnelle –dépend de plusieurs paramètres : l’utilisateur, besoin d’information, situations des utilisateurs • Pertinence est graduelle (multivaluée) –un document A peut être plus pertinent que B (ou A préféré à B) • Pertinence est dynamique –peut changer dans le temps, selon l’état de connaissance de l’utilisateur au moment de la recherche
  • 15. Pertinence ≈ similarité • Elle est souvent traduite –Vocabulaire similaire  pertinent à la requête • Similarité peut être mesurée –Comparaison (matching) de chaînes de caractères (ou de motifs) –Même vocabulaire –Même «sens»
  • 16. Approche générale de la RI • Vision simple de la RI textuelle : «Trouver les documents ayant les mêmes mots que la requête» –La requête comme les documents sont des listes de mots clés –Comparer les mots de chaque document à ceux de la requête –Sélectionner les documents qui contiennent le plus de mots de la requête.
  • 18. Problématiques de la RI • Représentation de l’information –Comment construire une représentation à partir de documents ? –Qu’est ce qu’une «bonne» représentation ? –Quelle organisation physique pour les index ? • Représentation des besoins –Comment exprimer le besoin (langage de requêtes) ? –Comment représenter le besoin ? •
  • 19. RI : un domaine de recherche actif ! • Proposer des solutions : –modèles, techniques, outils pour répondre à ces problèmes • Avec 2 soucis majeurs –Quels supports théoriques ? • Souvent basés sur des théories mathématiques : Probabilités, statistiques, ensembles, algèbre, logique floue, analyse de données, … –Quel processus pour la validation ?  Théorie, pratique et expérimentation
  • 20. Plan 1. Qu’est ce que la RI ? 2. Petit tour d’horizon –Du besoin d’information à la requête –Représentation de l’information 3. Modèles de RI 4. Évaluation des performances
  • 21. Du besoin d’information à la requête • Le besoin peut être –Récurrent (filtrage, recommandation) ou ponctuel (adhoc) • Expression des besoins (Langage de requêtes) –Texte libre, Liste de mots clés –Avec / sans opérateurs (AND, OR, NOT) –Images, sons (…) –Appris, par navigation dans la collection (Relevance feedback) • Requête : Le résultat … –de l’expression des besoins ? –
  • 22. Du besoin d’information à la requête • Paradoxe de la RI –Une requête «idéale» doit comporter toutes les informations que l’utilisateur recherche, la similarité serait alors maximale –Or, l’utilisateur recherche une information qu’il ne connaît pas à priori, il ne peut donc pas l’exprimer (décrire) de manière précise (idéale)
  • 23. Représentation de l’information • Représentation de l’information = indexation –Processus permettant de construire un ensemble d’éléments «clés » permettant de caractériser le contenu d’un document • Éléments clés –Information textuelle • mots simples : pomme • groupe de mots : pomme de terre –Image • Couleurs, formes, textures
  • 24. Indexation • Peut être –Manuelle (expert en indexation) –Automatique (ordinateur) –Semi-automatique (combinaison des deux) • Basée sur –Un langage contrôlé (lexique/thesaurus/ontologie/réseau sémantique) –Un langage libre (éléments pris directement des documents) •
  • 25. Indexation • Démarche de l’indexation automatique –étape 1 : extraction des termes –étape 2 : normalisation des mots (regrouper les variantes d’un mot ) –étape 3 : pondération (discrimination entre les termes clés/importants/significatifs et les autres)
  • 26. Indexation automatique Etape1 : Extraction des termes • Extraire les termes (tockenization) –Terme = mot (simple/composé), mots clés, concepts –Mot : suite de caractères séparés par (blanc ou signe de ponctuation, caractères spéciaux,…), Nombres • Dépend de la langue –Langue française • Pomme de terre? un, deux ou trois termes? –Langue Allemande les mots composés ne sont pas segmentés • Lebensversicherungsgesellschaftsangestellter • « employé d’une compagnie d'assurance-vie »
  • 27. Etape1 : Extraction des mots (suite) • Pas d’espaces en chinois et en japonais –Ne garantit pas l’extraction d’un terme de manière unique • Pire, le japonais utilise plusieurs alphabets
  • 28. Etape 1 : Extraction des mots (suite) • Suppression des mots «vides» (stoplist/ Common Words removal) –Mots trop fréquents mais pas utiles –Exemples : • Anglais : the, or, a, you, I, us, … • Français : le, la, de , des, je, tu, … –Des exceptions : • US : «USA » • A de (vitamine A)
  • 29. Etape 2 : Normalisation • «Lemmatisation» (radicalisation, racinisation) (stemming) –Processus morphologique permettant de regrouper les variantes d’un mot • Ex : économie, économiquement, économiste  économie • pour l’anglais : retrieve, retrieving, retrieval, retrieved, retrieves  retriev
  • 30. Etape 2 : Normalisation (suite) • Utilisation de règles de transformations –règle de type : condition  action • Ex : si mot se termine par ‘s’ alors supprimer la terminaison • L’algorithme le plus connu est l’algorithme de Porter –Analyse grammaticale • Utilisation de lexique (dictionnaire) • Tree-tagger (gratuit sur le net)
  • 31. Etape 3 : Pondération des mots • Comment caractériser l’importance des termes dans un document ? –Associer un (ou plusieurs) poids à un terme –Idée sous jacente : • Les termes importants doivent avoir un poids fort  Approche la plus répandue : TF.IDF • Ne concerne pas tous les modèles • cf « Modèle vectoriel »
  • 32. Plan 1. Qu’est ce que la RI ? 2. Petit tour d’horizon –Du besoin d’information à la requête –Représentation de l’information 3. Modèles de RI 4. Évaluation des performances
  • 33. 33 Modèle booléen –Modèle de connaissances : T = {ti}, i  [1, .. N] • Termes ti qui indexent les documents –Le modèle de documents (contenu) est une expression booléenne dans la logique des propositions avec les ti considérés comme des propositions : • Un document D1 est représenté par une formule D1 D1= t1  t3  t250  t254 • Une requête Q est représentée par une formule logique Q Q = (t1  t3)  (t25  t1045  t134 )
  • 34. 34 Modèle booléen – La fonction de correspondance est basée sur l’implication logique en logique des propositions : • Un document D répond à une requête Q si et seulement si D  Q – Utilisation de déduction par » Axiomes : (a  b)  a, (a  b)  b, a  (a  b), b  (a  b), … » modus ponens (MP) : si a et a  b alors b • Exemple : D = t1  t3 et Q = t1  t4 – Déduction : 1. t1  t3  t1 (équivalent à D  t1) 2. MP(1) : t1 3. t1  t1  t4 (équivalent à t1  Q ) 4. MP(3) : Q  Q est donc dérivable à partir de D, donc D  Q : le document répond à la requête.
  • 35. 35 Modèle booléen –Correspondance stricte – Q = t1  t3  t4 – D1 = t1  t4 , D1  Q – Le document D1 (représenté par D1) n’est pas pertinent pour la requête Q (représentée par Q) d’après le modèle, alors qu’il contient une description « proche » de la requête.
  • 36. 36 Modèle booléen –Pas de distinction entre les documents pertinents – Q = t1  t4 – D2 = t1  t4 , D3 = t1  t3  t4  t5  t6  t7 D2  Q et D3  Q – Le document D2 (représenté par D2) est-il plus ou moins pertinent que D3 (représenté par D3) pour la requête D (représentée par Q) ?
  • 37. 37 Modèle booléen –Expression de requêtes complexe – Q = ((t1  t4) t6) ( t8  (t10  t40)) … ??? – Sens du  logique (inclusif) différent du « ou » courant (exclusif)
  • 38. Modèle booléen : avantages et inconvénients • Avantage : –Le modèle est transparent et simple à comprendre p our l'utilisateur : • Pas de paramètres « cachés » • Raison de sélection d'un document claire : il répond à une f ormule logique –Adapté pour les spécialistes et les vocabulaires contr aints • Inconvénients : –Il est difficile d'exprimer des requêtes longues sous f
  • 39. 39 Modèle vectoriel • Modèle de connaissances : T = {ti}, i  [1, .. N] • Tous les documents sont décrits suivant ce vocabulaire • Un document Di est représenté par un vecteur Di décrit dans l’espace vectoriel RN défini par T : –Di = (wi,1, wi,2, …, wi,j, …, wi,N), avec wkl le poids d’un terme pour un document • Une requête Q est représentée par un vecteur Q décrit dans l’espace vectoriel RN défini par T : –Q = (wQ,1, wQ,2, …, wQ,j, …, wQ,N) I
  • 40. 40 Modèle vectoriel • Plus les vecteurs représentant les documents sont « proches », plus les documents sont similaires : Di Terme 1 Terme 3 Terme 2 Dj
  • 41. 41 Modèle vectoriel • Pondération des termes pour les documents : –Un document – « Un violon est issu de bois précieux comme l’érable, palissandre, l’ébène... » –Pour indexer, la première idée est de compter les mots les plus fréquents excepté les termes non significatifs comme « de », « avec », « comme »… – « Un violon est composé de bois précieux comme l’érable, le palissandre, l’ébène... » Termes retenus et comptés
  • 42. 42 Modèle vectoriel • Pondération : –Fréquence d’un terme (term frequency) • ti,j : la fréquence du terme tj dans le document Di est égale au nombre d’occurrences de tj dans Di. • Exemple : si violon apparaît 5 fois dans le document D3, avec violon=t23, alors t3,23 = 5
  • 43. 43 Modèle vectoriel • Pondération : –On tient compte du corpus (base de documents) entier, un terme qui apparaît beaucoup ne discrimine pas nécessairement les documents : Terme fréquent dans le corpus entier Terme fréquent dans un seul document du corpus
  • 44. 44 Modèle vectoriel • Pondération : –Fréquence documentaire d’un terme • dfj : la fréquence dans le corpus du terme tj est le nombre de documents du corpus où tj apparaît –On utilise l’inverse de la fréquence documentaire, idfj : • Définition simple : idfj = 1 / dfj • Définition la plus utilisée : idfj = log(ND / dfj), avec ND le nombre de documents du corpus.
  • 45. 45 Modèle vectoriel • Pondération : –Combinaison du t et de l’idf pour un vecteur document: • Exemple le plus courant – wi,j = ti,j . idfj –Utilisation du t pour une requête
  • 46. 46 Modèle vectoriel • Fonction de correspondance : –Fonction de l’angle entre le vecteur requête Q et le vecteur document Di Di Requête Q Terme 1 Terme 3 Terme 2 Plus l’angle est petit et plus le document correspond à la requête
  • 47. 47 Modèle vectoriel • Fonction de correspondance : –Une solution est de calculer le cosinus de l’angle entre le vecteur requête et le vecteur document. • Produit scalaire • Cosinus de l'angle • Distance euclidienne
  • 48. Modèle vectoriel : avantages et inconvénients • Avantages : –Le langage de requête est plus simple (liste de mot clés) –Les performances sont meilleures grâce à la pondéra tion des termes –Le renvoi de documents à pertinence partielle est po ssible –La fonction d'appariement permet de trier les docu ments • Inconvénients : –Le modèle considère que tous les termes sont indép
  • 49. Modèle probabiliste (survol) • Suppose que la recherche se déroule lors d’une « session de recherche » (plusieurs itérations) • Consiste à « estimer » la pertinence d'un document en fonction de pertinences connues pour d'autres documents. • Ce calcul se fait en estimant la pertinence de chaque index pour un document et en utilisant le Théorème de Bayes et une règle de décision 49
  • 50. 50 Modèle probabiliste • Pour un requête Q Documents non pertinents “Non relevant documents” nonrel CORPUS Documents pertinents “Relevant documents rel Avec Corpus = rel  nonrel rel  nonrel =  Probabilité pour que le document i fasse partie de l’ensemble des documents pertinents à la requête Q Prob (pertinenceQ / document Di) notée simplement Prob(rel/ Di)
  • 51. Modèle probabiliste • Fonction de correspondance : – On ne sait pas calculer P(rel | d), mais on peut calculer P(d | rel) – Utilisation du théorème de Bayes 51 Probabilité pour que le document i soit pertinent pour la requête q Probabilité d'obtenir un doc ument pertinent en piochant au has ard Probabilité que le document soit choisi au hasard Probabilité d’obtenir dj en connaissant les pertinents
  • 52. 52 Modèle probabiliste • Fonction de correspondance • Décision : document retourné si – Prob(Rel / Di ) / Prob(nonRel / Di ) > 1 – Avec hypothèse d’indépendance des termes
  • 53. Modèle probabiliste : avantages et inconvénients • Avantages : – Apprentissage du besoin d’information – La fonction d'appariement permet de trier les documents • Inconvénients : – Le modèle considère que tous les termes sont indépendants (inconvénient théorique) – Pas de langage de requête ! – Problème des probabilités initiales  Résultats comparables à ceux du modèle vectoriel