2. Extrac'on de connaissances dans de grandes bases de données
EXPERTISE
DONNEES
Représentation
Traitement
Visualisation
PROBLEME
Fouille de
données
CONNAISSANCE
DECISION
Mots clés : extrac'on de connaissances, fouille de données, mo'fs séquen'els,
entrepôts de données, logique floue, ontologie, annota'on automa'que
3. Fouille de données / Extrac'on de Connaissance
Fayyad (1996) : the non-trivial process of identifying
valid, potentially useful and ultimately understandable
patterns in data
Nombreuses applications : marketing, santé, etc.
Algorithmes supervisés/non supervisés
Algorithmes prédictifs/descriptifs
Problématiques associées : nettoyage des données,
présentation des résultats, évaluation des méthodes, …
4. Thèmes scien'fiques
Motifs séquentiels (Contraintes temporelles)
Fouille de données complexes
Textes (Text Mining)
Arborescentes (Schema - Web Structure Mining)
Multidimensionnelles (Cube - Web Usage Mining)
Flots (Stream Mining)
Fouille de données approximative
7. Fouille de données environnementales : CEMAGREF‐LIRMM (M. Teisseire)
Quelques exemples …
Suivi de l’évolu'on de phénomènes via des dépêches de presses (exemple H1N1
traité dans l’équipe)
Evolu'on de la Dengue (Nevantropic, CEMAGREF)
A par'r d’une base de données de l’INVS, iden'fica'on des quar'ers à risque et des
périodes caractéris'ques précédant une propaga'on de l’épidémie
Données Teru'‐Lucas
Connaître les différentes catégories d’occupa'on du sol et d’usage de l’ensemble
du territoire (agricole, naturel et urbanisé)
8. Conclusion
Défis de la fouille de données :
Volume, rapidité et complexité/hétérogénéité des données
Temps réel
Présenta'on de la connaissance extraite
Quelle est la qualité des données collectées ?
Imprécisions/incer'tudes
Comment insérer d’autres connaissances ?
Données externes (e.g. météo)
Connaissance experte