1. Université de Kairouan
Institut Supérieur d’Informatique
et de Gestion de Kairouan
Data Mining
&
Data Science
Réalisé par:
Khlfaoui Ichraf
Jamli Rim
Élaborée par :
Dr. Khlif Wiem
2. plan
Qu’est-ce que c’est le DATA SCIENCE
Qu’est-ce que c’est le DATA MINING
Comparaison entre l'exploration de données
et la science des données
Etudes de cas
1
2
3
4
1
4. 3
1
Qu’est-ce que c’est le DATA SCIENCE
1
Produire des connaissances en faisant parler les données
Data Sciences
Paramètres Mesures
Observations Informations
[outils & disciplines ]
Les data dans « data
sciences »
Terrain, labos,
entreprises…
Informations diverses.
Satellites, réseaux, web…
[Ordinateurs]
Approche multidisciplinaire dont les applications dépendent de la puissance des ordinateurs
Décisions.
Action.
Contrôles.
Prévisions
Automatisme
Base de données
Informatique
Mathématiques
Statistique
Algorithmique
Machine Learning
Précison et fiabilité
Modèles fiable précis
5. 4
1 Qu’est-ce que c’est le DATA SCIENCE
1
la science des données regroupe plusieurs techniques
utilisées pour extraire les informations et les aperçus
des données.
La science des données combine la programmation,
le raisonnement logique, les mathématiques et les
statistiques.
6. 5
1 Perspective historique
1
Enquête historique clarifiera la façon dont les termes sont actuellement utilisés:
Le mot «science des données» date des années 60, mais à l'époque, il était utilisé comme une alternative à
«l'informatique». Actuellement, cela a une signification complètement différente.
En 2008, DJ Patil et Jeff Hammerbacher sont devenus les premiers individus à s'appeler «Data Scientists» afin de
décrire respectivement leur rôle sur LinkedIn et Facebook.
En 2012, l'article de la Harvard Business Review citait le Data Scientist comme le travail le plus sexy du 21me siècle .
Le terme Data Mining a évolué parallèlement. Il est devenu répandu parmi les communautés de bases de données dans les
années 1990.
Le Data Mining doit son origine à KDD (Knowledge Discovery in Databases). KDD est un processus de recherche de
connaissances à partir d'informations présentes dans des bases de données.
Et l'exploration de données est un sous-processus majeur de KDD.
8. 7
Qu’est-ce que c’est le DATA MINING
2
Fichier avec un grand
nombre d’informations
Diverses
Données entrepôt
Fichier avec les
informations les
plus pertinentes
Connaissances
Analyser les informations d’une base de données
Trouver des informations utiles pour les actions Marketing
Des relations, des tendances et des caractéristiques identiques entre les données
Processus de filtrage
L'objectif principal du processus d'exploration de données est d'extraire des informations de divers ensembles
de données dans le but de les transformer en structures appropriées et compréhensibles pour une utilisation
éventuelle.
9. 8
Qu’est-ce que c’est le DATA MINING
2
Exploration de données dans:
Le secteur de la santé
L'intelligence
Les télécommunications
Le marketing et les ventes
Le commerce électronique
L'éducation
L'objectif principal du processus d'exploration de données est d'extraire des informations de divers ensembles
de données dans le but de les transformer en structures appropriées et compréhensibles pour une utilisation
éventuelle.
11. 10
Comparaison entre l'exploration de données
et la science des données
3
2019
2019
Sur quoi ils se concentrent:
La science des données peut se concentrer sur quatre éléments principaux:
Prédire les possibilités ou les événements futurs;
Suggérer différentes actions basées sur l'analyse et offrir des résultats potentiels;
Apprendre les tendances futures;
Découvrir différents modèles cachés dans les données avec
l'apprentissage automatique;
12. 11
Comparaison entre l'exploration de données
et la science des données
3
Sur quoi ils se concentrent:
L'exploration de données peut se concentrer sur ces cinq domaines:
Prédire automatiquement les modèles grâce à l'analyse des comportements et aux tendances;
Donner des prédictions à travers les résultats potentiels;
Fournir des informations orientées vers la décision;
Analyser des bases de données ou des ensembles de données massifs;
Informations de regroupement;
13. 12
Comparaison entre l'exploration de données
et la science des données
3
L'exploration de données peut être un sous-ensemble de la
science des données car les activités d'exploration de données
font partie du pipeline de la science des données
Multidisciplinaire - La science des données comprend les
visualisations de données, les sciences sociales
computationnelles, les statistiques, l'exploration de données, le
traitement du langage naturel,
14. 13
Comparaison entre l'exploration de données
et la science des données
3
Un processus utilisé pour transformer les données
brutes en informations utilisables
Un domaine multidisciplinaire.
Implique la capture et le stockage de données, l'analyse et
l'obtention d'informations précieuses à partir des données.
L'analyse statistique, l'écriture de flux de données et la
reconnaissance de formes peuvent recouper la science des données.
Par conséquent, l'exploration de données devient un sous-ensemble de
la science des données.
16. 15
Etudes de cas
4
2019
2019
La science des données a également changé la manière dont les élèves interagissent avec les
enseignants et évaluent leurs performances.
Les instructeurs peuvent utiliser la science des données pour analyser les commentaires reçus
des étudiants et les utiliser pour améliorer leur enseignement.
La science des données peut être utilisée pour créer une modélisation prédictive qui peut
prédire le taux d'abandon des étudiants en fonction de leurs performances et informer les
instructeurs de prendre les précautions nécessaires.
IBM analytics a créé un projet permettant aux
écoles d'évaluer les performances des élèves
en fonction de leurs performances.
Education
17. Les universités utilisent des données pour éviter que la rétention ne complète les performances de
leurs étudiants.
Par exemple:
l'Université de Floride utilise IBM Cognos Analytics pour suivre les performances des
étudiants et faire les prévisions nécessaires.
En outre, les MOOC et les plateformes d'enseignement en ligne utilisent la science des données
pour suivre les étudiants, pour automatiser l'évaluation des devoirs et pour améliorer le cours
en fonction des commentaires des étudiants.
16
Education
18. Exploration de données éducatives:
Découvre des connaissances à partir de données provenant d'environnements éducatifs les
objectifs de l‘EDM sont identifiés comme prédire le futur comportement d'apprentissage des
élèves, en étudiant.
Nous utilisons l'exploration des données par une institution pour prendre des décisions précises.
Et aussi pour prédire les résultats de l'élève. Avec les résultats, l'institution peut se concentrer
sur ce qu'il faut enseigner et comment enseigner.
Le modèle d'apprentissage des élèves peut être capturé . et utilisé pour développer des techniques
pour les enseigner.
Par exemple:
si l'utilisateur EDM est un étudiant / apprenant, il peut utiliser des méthodes d'exploration de
données pour :
Acquérir une méthode d'apprentissage en ligne afin d'améliorer ses compétences
d'apprentissage
Si l'utilisateur EDM est un enseignant ou un instructeur, il doit utiliser l'exploration de données
pour :
Détecter les performances d'apprentissage de ses élèves et d'autres compétences afin de pouvoir
analyser ce qui a besoin de plus d'attention
17
Education
20. Etudes de cas
4
2019
L'exploration de données est une forme de business intelligence et d'analyse de données.
C'est le processus d'analyse des données pour en tirer des conclusions ou des prédictions utiles.
C'est une technique fréquemment adoptée par les entreprises de commerce électronique à grande échelle
pour faciliter le marketing et le développement de produits.
Par exemple, Google Analytics d'un
site Web de vêtements pourrait
montrer que 82 visiteurs sur 100 sont
des femmes, 92 sur 100 vivent au
Royaume-Uni et 70 sur 100 sont âgés
de 18 à 34 ans, et 10% d'entre eux sont
indiqués comme " intéressé par le
sport »(défini par Google sur la base
de l'historique de recherche
précédent).
19
Commerce
21. Etudes de cas
4
2019
Applications et algorithmes de science des données:
Moteurs de recommandation.
Analyse du panier de consommation.
Gestion de l'inventaire
Analyse du sentiment des clients
Prédiction de la valeur à vie
Analyse de la garantie
Optimisation des prix
Emplacement des nouveaux magasins
Marchandising
20
Commerce
Je vais essayer de vous expliquer sur quoi reposent les datas science et a quoi il servent.
Les datas sciences mettre en œuvre un ensemble de disciplines complémentaires qui permettent de produire de la connaissance en faisant parler les données ces fameuses data qui peuvent êtres des mesures ou des observations acquis sur le terrain au laboratoires ou en entreprise .
Les traitements performants utilisé nécessite des ordinateurs possédant une importante puissance de calcule
Les informations produites vont nous aider a prendre une décision, réaliser des actions précise tel que piloter une voiture autonome ou de procéder a des contrôles très complexe d’infrastructures ou encore de prévoir la météo a plus au moi long terme et ça marche
Parmi les disciplines on peut citer la détection et l’acquisition automatise des données
La conception et l’interrogation de base de données
Le cryptage et la sécurité des données
L’informatique au sens large ,Statistique, Algorithmique ,Machine Learning
La précision et la fiabilité des données manipulées sont au centre qu’il faut produise des modèles fiable et précis
Les domaines d’application des datas sciences sont illimites
Le data mining comprend l’ensemble des technologies permettent d’analyser les informations d’une base de données
Le but est de trouver des informations utiles pour les actions marketing et pourquoi pas des relations des tendances et des caractéristiques identiques entre les données.
Pour faire plus simple il s’agit d’un processus de filtrage qui extrait les informations pertinentes depuis un grand nombre d’informations
Donc l’exploration des données s’applique a tous les domaines
Moteurs de recommandation.
les moteurs sont constitués de composants d'apprentissage automatique complexes et d'algorithmes d'apprentissage en profondeur . Ils sont conçus de manière à pouvoir garder une trace du comportement en ligne de chaque client et analyser les modèles pour suggérer des émissions basées sur ces données.
C'est pourquoi chaque fois que Netflix vous recommande des films ou des séries télévisées
La même chose fonctionne avec Amazon également, en fonction de vos recherches passées et de votre historique d'achat, Amazon fournit également des recommandations et des réductions.
Emplacement des nouveaux magasins il est essentiel d'analyser les emplacements commerciaux possibles pour choisir le meilleur. L'analyste analyse les données en accordant de l'importance à la démographie.
Marchandising Les algorithmes de merchandising parcourent des ensembles de données, collectent des informations et forment des ensembles de priorités de clients en tenant compte de la saisonnalité, de la pertinence et des tendances.