Mais conteúdo relacionado Semelhante a Fouille de textes et cartographie thématique des corpus numériques (20) Fouille de textes et cartographie thématique des corpus numériques1. ACFAS
2015
-‐
Une
plateforme
de
recherche
et
d’expérimenta=on
pour
l’édi=on
ouverte
25
mai
2015
©
Dominic
Forest,
École
de
bibliothéconomie
et
des
sciences
de
l'informa=on,
Université
de
Montréal
1
Fouille de textes et cartographie
thématique des corpus numériques
Dominic Forest, Ph.D. et Marcela Baiocchi
École de bibliothéconomie et des sciences de l’information
Université de Montréal
dominic.forest@umontreal.ca
www.dominicforest.me | www.ebsi.umontreal.ca
www.twitter.com/dforest
ACFAS 2015 - Une plateforme de recherche et d’expérimentation pour l’édition ouverte
25 mai 2015
Contexte
• Augmentation constante de la quantité d’informations disponibles en
format numérique
– Documents et métadonnées
• Isidore : 3 482 385 ressources
• HathiTrust : 13 374 801 volumes (4 681 180 350 pages)
• Erudit : +/- 300 000 ressources
– Données contextuelles (réseaux sociaux, plates-formes de publ. alternatives)
– Données de recherche
• Il y a dans le millieu académique – et plus spécifiquement dans les SHS
– plus de données que nul part ailleurs
2. ACFAS
2015
-‐
Une
plateforme
de
recherche
et
d’expérimenta=on
pour
l’édi=on
ouverte
25
mai
2015
©
Dominic
Forest,
École
de
bibliothéconomie
et
des
sciences
de
l'informa=on,
Université
de
Montréal
2
Contexte
• Des big data au thick data
– « Big data is really just a big collection of what people in the humanities
would call thin data. Thin data is the sort of data you get when you look at the
traces of our actions and behaviors. We travel this much every day; we search
for that on the Internet; we sleep this many hours; we have so many
connections; we listen to this type of music, and so forth. It’s the data
gathered by the cookies in your browser, the FitBit on your wrist, or the GPS in
your phone. These properties of human behavior are undoubtedly important,
but they are not the whole story. To really understand people, we must also
understand the aspects of our experience — what anthropologists refer to as
thick data. Thick data captures not just facts but the context of facts. »
Krenchel, M. et Madsbjerg, C.
« Your big data is worthless if you don’t bring it into the real world ».
Wired, 11 avril 2014.
Contexte
• Les chercheurs en humanités numériques tentent de tirer profit des
informations disponibles en format numérique.
• La quantité d’informations disponibles en format numérique soulève
cependant d’importants enjeux auxquels aucune solution définitive n’a
été proposée.
• Question de recherche : comment tirer profit de la masse d’information
textuelle disponible pour en assister la description, l’organisation, la
recherche et l’analyse?
3. ACFAS
2015
-‐
Une
plateforme
de
recherche
et
d’expérimenta=on
pour
l’édi=on
ouverte
25
mai
2015
©
Dominic
Forest,
École
de
bibliothéconomie
et
des
sciences
de
l'informa=on,
Université
de
Montréal
3
Objectif
• Développer des stratégies de fouille de textes (big data, text analytics) et
de visualisation pour assister des tâches d'extraction et d’organisation
d’informations à partir de gros corpus documentaires en sciences
humaines
• Développement méthodologique plutôt que logiciel
– Évaluation de plateformes génériques existantes
• Tâches :
– Analyse conceptuelle
– Analyse thématique
– Attribution d’auteur
– Datation
– Fouille d’opinions
Démarche méthodologique
• Démarche méthodologique fondée sur des processus de fouille de textes
– « La fouille de textes est la découverte (à l’aide d’outils informatiques) de
nouvelles informations en extrayant différentes données provenant de
plusieurs documents textuels. Un élément fondamental de ce processus
réside dans les relations identifiées entre les informations extraites afin
d’identifier de nouveaux faits [de nouvelles connaissances] ou de nouvelles
hypothèses à explorer. » (Hearst, 2003, notre traduction)
• Algorithmes d'apprentissage-machine
– Algorithmes supervisés (prédiction) vs non supervisés (description)
• Méthodologie algorithmique et systématique (formelle et répétable)
• Approche centrée sur l’utilisateur
– Interfaces riches, flexibles et intuitives
4. ACFAS
2015
-‐
Une
plateforme
de
recherche
et
d’expérimenta=on
pour
l’édi=on
ouverte
25
mai
2015
©
Dominic
Forest,
École
de
bibliothéconomie
et
des
sciences
de
l'informa=on,
Université
de
Montréal
4
Forest (2009), inspirée de Fayyad et al. (1996)
Démarche méthodologique
Méthodologie de la fouille de textes
Forest (2014), inspirée de Fayyad et al. (1996)
Démarche méthodologique
Méthodologie de la fouille de textes
5. ACFAS
2015
-‐
Une
plateforme
de
recherche
et
d’expérimenta=on
pour
l’édi=on
ouverte
25
mai
2015
©
Dominic
Forest,
École
de
bibliothéconomie
et
des
sciences
de
l'informa=on,
Université
de
Montréal
5
Visualisation
• Objectifs :
– Représenter de manière synthétique les informations identifiées par les
processus de fouille de textes
– Assister l’analyse des données
– Permettre de parcourir le contenu thématique du corpus
• Principe : Visual information-seeking mantra (Shneiderman 1996)
– « Overview first, zoom and filter, then details-on-demand. »
• Point de départ : mots-clés thématiques
(erudit.org)
Résultats
Cinémas, revue d’études
cinématographiques
6. ACFAS
2015
-‐
Une
plateforme
de
recherche
et
d’expérimenta=on
pour
l’édi=on
ouverte
25
mai
2015
©
Dominic
Forest,
École
de
bibliothéconomie
et
des
sciences
de
l'informa=on,
Université
de
Montréal
6
Évaluation des résultats
• Classification
– Évaluation difficile sans données de référence
• Comparaison d’algorithmes
– Stabilité
– Sensibilité à l’ordre de présentation des données
– Évaluation en fonction de l’application
• Évaluation qualitative
– Consultation subjective
– Pureté ou consistance des regroupements
– Comparaison avec résultats manuels
Évaluation des résultats
• Mesure Silhouettes (Rousseeuw 1987)
– a(i) représente la distance moyenne entre une chanson et les autres
chansons du même regroupement et b(i) représente la distance moyenne qui
la sépare des chansons appartenant au regroupement le plus proche
– Cette mesure permet de calculer la cohésion ainsi que la dispersion des
regroupements, mais elle ne tient pas compte des chevauchements
possibles
7. ACFAS
2015
-‐
Une
plateforme
de
recherche
et
d’expérimenta=on
pour
l’édi=on
ouverte
25
mai
2015
©
Dominic
Forest,
École
de
bibliothéconomie
et
des
sciences
de
l'informa=on,
Université
de
Montréal
7
Évaluation des résultats
• Mesure de Davies-Bouldin(Davies et Bouldin 1979)
– I(ci ) est la moyenne des distances entre les documents appartenant
regroupement ci et le centre du regroupement. I(ci,cj) représente la distance
entre les centres des regroupement ci et cj.
– Selon cette mesure, la partition optimale est celle qui minimise la valeur
calculée pour chaque regroupement
Conclusion
• Développement d’une méthodologie et d’un prototype reposant sur des
processus de fouille de textes et de visualisation de l’information afin
d’assister l'extraction de données et de structures d’informations
pouvant être utilisées pour assister la description, l’organisation et
l’analyse les documents
• Approche fondée sur les thèmes des documents
• Quelques défis :
• Description difficile en raison de la richesse de la langue
• Corpus multilingue
• Visualisation difficile des gros réseaux de données liées
• La quantité de données disponible pose cependant des enjeux –
techniques, mais aussi épistémologiques - importants