2. Une minute sur
Internet
En 2021, en un seule
petite minute il y a :
● 500 heures de
contenus soient mises
en ligne sur YouTube,
● 69 millions de
messages envoyés sur
Whatsapp et
Facebook Messenger
● 1,3 million d'euros
dépensés en ligne
3. Qu’est ce que la Big Data ?
64 Zettaoctets en 2020
181 Zettaoctets en 2025
1 octet = 8 bits
1 ko = 1000 octets
1 Mo = 1000 * 1ko
1 Go = 1000 * 1Mo
1 To = 1000 * 1Go
1 Po = 1000 * 1To
1 ExaOctet = 1000 * 1Po
1 ZettaOctet = 1000 * 1 ExaOctet
1000 milliards de gigaoctets, 10E21 octets
4. Trivia
en prenant en compte les
plages, les côtes, les
déserts… On estime qu’il y a
100 milliards de grains de
sable par mètres cube.
Il y a 10 puissance 21 grains
de sables sur Terre
Il y a 60x10 puissance 21
octets de data
Si chaque grain de sable
contenait un octet de
données, on aurait pas assez
de grains de sable sur Terre
pour tout stocker…
6. de 2 à 181 Zo
Le volume de données
numériques est passé de
2 zettaoctets en 2010 à
64 zettaoctets en 2020
Les objets connectés et la
5G sont les principaux
moteurs de ce "Big
Bang" de la donnée.
7. la donnée dans la Big data
❏ Données non structurées
❏ Produites en temps réel
❏ En flot continu
❏ Méta taguées (information de localisation,
informations temporelles)
❏ Provenant de multiples sources (mobiles, capteurs,
téléviseurs connectés, tablettes, PC, objets,
machines)
❏ Arrivant de façon désordonnées et non
prédictibles
8. BIG Data: Origines
en 2001 avec 3Vs
1. Volume
2. Vélocité
3. Varieté
Volume
Vélocité
Variété
9. Les 4 V de la Data
Volume
Vélocité
Véracité
Variété
11. Vélocité
La data arrive très vite, les outils
doivent être en capacité d'absorber
le flux de données
La vélocité est la rapidité du flux
avec lequel la data arrive dans
l’entreprise, est processée et est bien
comprise
12. Variété
Les données arrivent sous toutes les formes:
Tableaux lignes colonnes, bases de données
relationnelles,
Text Data, Semi structured, XMLGraph Data
(Social Network, Streaming Data)
Photos, vidéos, enregistrements audio, messages
électroniques, documents, livres, présentations, live
Tiktok, tracés biométriques,
ÉlectroEncéphaloGramme
13. Véracité
Il s'agit de l'assurance de la
qualité, de l’intégrité, de la
crédibilité, de l’exactitude des
données.
Les données sont collectées à
partir de sources multiples, nous
devons vérifier leur exactitude
avant de les utiliser pour obtenir
des informations
16. Big Data: Quiz
1. Selon les prévision de IDC et Seagate
datant de mars 2021
a. quel sera le volume de données
numériques créées en 2025 ?
b. quels seront les principaux moteurs de
ce "Big Bang" de la donnée en 2025 ?
2. Quels sont les 4V de la Data
17. Big Data: Quiz
Dans la Big Data, à quoi correspond
1. le Volume ?
2. la Variété ?
3. la Vélocité ?
4. la Véracité ?
20. Les 4 grands types de base de
données
1.bases de données Relationnelles
2.bases de données Colonne
3.bases de données Documents
4.bases de données Graph
21. Bases de données
Relationnelles
Basée sur le langage SQL
(Structured Query
Language), les données
sont stockées dans un
tableau
Inconvénient : pas adapté
au volume de données
actuel
Exemples: Microsoft SQL
Server, Oracle Database,
MySQL
22. un fichier de données
à la forme d'une
matrice de données,
chaque ligne est une
observation,
chaque colonne est une
variable ou un attribut
de l'observation
Bases de données
Relationnelles
23. Type d'informations dans une base
de données CRM Relationnelle
Identités nom, prénom, e-mails, numéros de téléphones, date de naissance, etc.
Socio-Démographie
Sexe, âge, Situation Maritale, catégorie Socio-Professionelle, lieu d'habitation,
etc.
Historique d'Achat Nombre de commandes, produits commandés, Chiffres d'Affaire générés
Point de contact et
comportement
Date de la première et dernière commande, nombre de retours produits,
nombre d'appel au call center
Préférences Marques préférées, canal de contacts privilégiés; langue de contact privilégié,
Statut & Segment
Statut de Club de fidélité, segment métier auquel appartient le client (VIP,
dormant, acheteur)
Scores Appétence pour les catégories/produits, intérêts pour les thèmes, contenus,
24. Bases de données Colonnes
Le stockage des données est organisé en colonne
à la différence des bases de données relationnelles dont le
stockage est organisé en ligne,
Intérêt:
Efficace pour le traitement analytique
Examples:
Google BigQuery, Cassandra,
HBase, MariaDB,
Azure SQL Data Warehouse
25. NoSQL = Not Only SQL
NoSQL toute base de données qui n'utilise pas SQL comme
principal langage d'accès aux données
Contrairement aux bases de données relationnelles, les
données d'une base de données NoSQL n'ont pas à se
conformer à un schéma prédéfini.
NoSQL est parfait pour les organisations qui cherchent à
stocker des données non structurées ou semi-structurées
Bases de données NoSQL
26. Bases de données Documents
Les bases de données Documents reposent sur le principe de
clé-valeur où chaque document est identifié par un clé unique
utilisent des documents de type JSON pour modéliser les
données au lieu de lignes et de colonnes
conçues pour stocker et gérer des données semi-structurées
Exemples:
MongoDB, Amazon DocumentDB, Apache CouchDB
27. Les bases de données Graphes
montrent de façon graphiques
les relations entre des points
de données.
Elles sont utilisées par exemple
dans l’analyse des flux
financiers ou pour modéliser un
réseau social
Exemples de Graph Database:
Datastax Enterprise Graph, Neo4J
Bases de données
Graphes
29. Quizz
1. Que signifie l’acronyme NoSQL ?
2. Quels sont les 4 grands types de
base données?
30. 1. Comment sont organisées les données dans une
base de données colonne ?
2. Quel est l’intérêt de l’organisation de la donnée
en colonne ?
3. Donnez un exemple de base de donnée Graph
4. Quel est le langage le plus commun pour
interroger les base de données relationnelles ?
Quizz
33. Les 3 modes d'exploitation de la
Data
Mode Opérationnel
Mode Lot (batch)
Mode Exploratoire
34. 1/ Mode Opérationnel
Le volume de données demandées est faible,
mais les demande sont très nombreuses
le système doit être temps réel
Cas d’usage:
1. Liste de recommandations pour des films sur une
plateforme de streaming
2. Agent en centre d'appel qui répond à un client en
regardant la fiche client dans le logiciel de CRM
35. 2/ Mode par Lot (batch)
Le volume de données demandées est
considérable, les demandes sont peu
nombreuses (une fois par jour, semaine, mois,
etc.)
Cas d’usage:
1. Backup nocturne
2. Apprentissage d'un nouveau logo par une IA
a. l'entraînement de l'IA se fait sur des millions
de photos et nécessite plusieurs heures
36. 3/ Mode Exploratoire
Pour les Data Scientists et Data Analysts
Permet de faire des études approfondies
sur la Data
Cas d’usage:
1. Etudes de marché avec les données du
Social Listening
2. Conception d’une IA
37. 3/ Mode Exploratoire
Exploration de la données
avec les outils du Data
Scientist
exemples d’outils:
● Google Colab
● Jupyter Notebook
● Python (langage)
38. 3/ Mode Exploratoire
focus Google Colab
Colab permet à
n'importe qui d'écrire et
d'exécuter le code
Python de son choix par
le biais du navigateur.
C'est un environnement
particulièrement adapté
au Machine Learning, à
l'analyse de données
39. Les modes d'exploitation des
données
Mode Volume manipulés à chaque demande Fréquence des demandes
Opérationnel Faible Fort
Par lots Fort Faible
Exploratoire Variable Variable
41. 3/ Mode Exploratoire
focus Google Colab
Démonstration de Colab
sur le dataset (Le Sport
au Pôle Léonard de
Vinci)
1/ Ouvrez votre
navigateur (chrome de
préférence) sur
https://colab.research.g
oogle.com
Lancer la démonstration
44. 1. Quel est le volume de données en mode Opérationnel ?
2. Quel est la fréquence d’accès aux données en mode
Opérationnel ?
3. Quels sont les utilisateurs type du mode Opérationnel ?
4. Quel est le volume de données en mode Lot ?
5. Quel est la fréquence d’accès aux données en mode Lot ?
6. Quel est un cas d’usage du mode Lot?
7. Quel est l’intérêt du mode Exploratoire ?
8. Quelle est la population type qui utilise le mode
Exploratoire ?
Quizz
45. Les 3 modes d'exploitations de la
Data
</Quizz>
50. Données Structurées
Le terme Données Structurées désigne des données
dont la longueur et le format sont définis
Exemples :
● les nombres, les dates et les groupes de mots et de
chiffres appelés chaînes de caractères (par
exemple, le nom d'un client, son adresse, etc.).
Vous pouvez les interroger à l'aide d'un langage tel
que le langage d'interrogation structuré (SQL).
Ce sont les données de gestion de la relation client
(CRM), les données opérationnelles des progiciels de
gestion intégrés (ERP) et les données financières.
51. les plus simple à organiser et à consulter.
exemple:
les données financières
les données démographiques
journaux de machine (logs).
exemple feuille de calcul Excel
avec sa mise en forme en colonnes et lignes
Ses composants catégorisés,
facile à programmer avec des algorithmes
simples, idéal pour la recherche et l'analyse.
Données structurées :
DateRep
Da
y Month Year Cases Deaths
Countries and
territories GeoId
22/03/2020 22 3 2020 0 0Afghanistan AF
21/03/2020 21 3 2020 2 0Afghanistan AF
20/03/2020 20 3 2020 0 0Afghanistan AF
19/03/2020 19 3 2020 0 0Afghanistan AF
18/03/2020 18 3 2020 1 0Afghanistan AF
17/03/2020 17 3 2020 5 0Afghanistan AF
16/03/2020 16 3 2020 6 0Afghanistan AF
15/03/2020 15 3 2020 3 0Afghanistan AF
11/03/2020 11 3 2020 3 0Afghanistan AF
08/03/2020 8 3 2020 3 0Afghanistan AF
02/03/2020 2 3 2020 0 0Afghanistan AF
01/03/2020 1 3 2020 0 0Afghanistan AF
29/02/2020 29 2 2020 0 0Afghanistan AF
28/02/2020 28 2 2020 0 0Afghanistan AF
27/02/2020 27 2 2020 0 0Afghanistan AF
26/02/2020 26 2 2020 0 0Afghanistan AF
25/02/2020 25 2 2020 1 0Afghanistan AF
24/02/2020 24 2 2020 0 0Afghanistan AF
23/02/2020 23 2 2020 0 0Afghanistan AF
22/02/2020 22 2 2020 0 0Afghanistan AF
21/02/2020 21 2 2020 0 0Afghanistan AF
20/02/2020 20 2 2020 0 0Afghanistan AF
19/02/2020 19 2 2020 0 0Afghanistan AF
18/02/2020 18 2 2020 0 0Afghanistan AF
17/02/2020 17 2 2020 0 0Afghanistan AF
16/02/2020 16 2 2020 0 0Afghanistan AF
15/02/2020 15 2 2020 0 0Afghanistan AF
14/02/2020 14 2 2020 0 0Afghanistan AF
13/02/2020 13 2 2020 0 0Afghanistan AF
12/02/2020 12 2 2020 0 0Afghanistan AF
11/02/2020 11 2 2020 0 0Afghanistan AF
10/02/2020 10 2 2020 0 0Afghanistan AF
09/02/2020 9 2 2020 0 0Afghanistan AF
08/02/2020 8 2 2020 0 0Afghanistan AF
07/02/2020 7 2 2020 0 0Afghanistan AF
52. Données Structurées
Exemple d’une requête
SQL sur base de données
structurée
Select CustomerID,
State, Gender, Product
from “demographic
table”, “product table”
where Product= XXYY
53. Sur un dataset typique,
1. chaque ligne
représente un individu
2. chaque colonne
contient les actions
effectuées par le
visiteur, son exposition
à une campagne
publicitaire, etc.
Données Structurées en Data Marketing
Dataset
54. Données Structurées dans le cadre
du data Marketing
id sexe Revenus âge Centres d’intérêts Points de
contacts
préférés
Niveau d’
éducation
Historiqu
e d’achat
11 F 20000€ 19 Gadget Mail Bat +5 Pull
21 M 25000€ 21 Rihana Insta Lunette
32 CAP
75 M 75 Jaguar d’occasion Clé USB
Chaque ligne représente un individu
55. UN DATASET D’UNE BASE DE DONNÉES
RELATIONNELLES DE 18GO
AVITO ~LEBONCOIN RUSSE
57. Données non structurées
très complexes à stocker dans des bases
de données type lignes et colonnes.
-> essayer de stocker de la musique, des
images, des tweets dans un même fichier
excel
les données non structurées sont stockées
dans des lacs de données, des entrepôts
de données et des bases de données
NoSQL
58. ● Publications sur les réseaux sociaux,
● Fichiers audio,
● Images sur Internet (JPEG, PNG, GIFs, etc.)
● Commentaires client ouverts.
● Pages web
● Vidéos (live, dashcam, cctv)
● Commentaires d'utilisateurs sur des blogs
● Mémos
● Rapports
● Réponses à des enquêtes
● Documents (Word, PPT, PDF)
● Transcriptions d'appels au service clientèle
● Journaux de bord des serveurs (logs)
Données non structurées
Liste non exhaustive
59. Données non structurées
Liste non exhaustive (suite)
● vidéos de surveillance,
● Dashcam,
● Logos,
● Texte écrits
● Sondages,
● Podcast, audio
● Tweets
60. Données non structurées
la donnée non
Structurée ne suit
pas un format en
particulier et
possède un
caractère
imprédictible
61. Données non structurées: Texte
Avec le NLP pour effectuer une analyse syntaxique, lexicale
et sémantique
62. Données non structurées: Texte
Utilisation pratique de l’exploitation de la données textuelle
non structurées pour répondre aux questions suivantes sur la
thématique Voice of the customer
Quels sont les principaux sujets de plaintes des clients et
comment évoluent-ils dans le temps ?
Quel est le niveau de satisfaction des clients à l'égard de
services spécifiques ?
Quels sont les problèmes les plus fréquents qui conduisent
à la désaffection des clients ?
Quels sont les principaux segments de clientèle qui offrent
des possibilités de vente incitative plus élevées ?
63. Données non structurées: Texte
Cas du Social Media Listening
Textes non structurés provenant de blogs, microblogs, articles
d'actualité, textes de forums pour comprendre la relation des
consommateurs avec une marque et répondre aux questions
Que disent les gens de ma marque ?
Qu'est-ce qu'ils aiment dans ma marque ?
Qu'est-ce qu'ils n'aiment pas dans ma marque ?
Comment ma marque se compare-t-elle à celle de mes
concurrents ?
Dans quelle mesure mes clients sont-ils fidèles ?
65. Données Semi-Structurées
Cette troisième catégorie existe parce que les données
semi-structurées sont considérablement plus faciles à analyser
que les données non structurées.
les outils et solutions Big Data ont la capacité de "lire" et de
traiter des fichiers JSON ou XML.
Ce qui réduit la complexité de l'analyse des données
structurées, par rapport aux données non structurées.
66. Données Semi-Structurées
Ce sont des données semi-organisées.
Elles ne se conforment pas à la
structure formelle des données (sous
forme de tableau)
Exemples:
● les fichiers logs
● les fichiers JSON, XML
● les données de capteur
67. Mélange de données structurées et
non structurées.
Les e-mails
données non structurées dans
le corps du message,
données structurées tel que
l’expéditeur, le destinataire,
l'objet et la date.
Une image avec l'heure et
l'endroit où elle a été prise
Données semi-structurées
70. Quizz
1. Quels sont 3 grands types de données dans la Big Data?
2. Un mail est un exemple de quel type de données ?
3. Une feuille excel est une exemple de quel type de données ?
4. Un avis client est un exemple de quel type de données ?
5. Un live tik tok est un exemple de quel type de données ?
6. Un selfie est un exemple de quel type de données ?
7. Le format JSON appartient à quel type données ?
8. Le format XML appartient à quel type données ?
9. Le format XLSX appartient à quel type données ?
10. Une caméra de surveillance de trafic routier ?
11. La donnée non structurée représente quel pourcentage de data
(vs. structurée) ?
76. Données non structurée : analyse de
texte avec Amazon Comprehend
exemple:
Un article de presse écrit
par un journaliste
Une oeuvre de William
Shakespeare
77. Données non structurée : analyse de
texte avec Amazon Comprehend
Les dirigeants du Pôle Léonard de Vinci (PLV) ont présenté, mardi 19 octobre, leur Plan stratégique 2022/2027. Objectif affiché: passer d’un pôle «émergent» à une entité de «référence» dans le monde de l’enseignement supérieur. Créé en 1995 sous
l’impulsion du Conseil général des Hauts-de-Seine et installé dans le quartier d’affaires de La Défense, le Pôle Léonard de Vinci regroupe quatre écoles: l’EMLV (management), l’Esilv (ingénieur), l’IIM (digital) et l’ILV (formation continue). Aujourd’hui, le
Pôle est géré par l’Association Léonard de Vinci. Tête de proue du groupe, l’Esilv, créé en 1994, progresse chaque année et atteint la 5e place du classement du Figaro Etudiant.
Le Pôle veut accueillir 12 000 étudiants en 2027 (+37%) et 245 professeurs permanents (+43%). La même année, l’objectif du groupe est d’atteindre 120 millions d’euros de budget. «Il y a huit ans, le PLV avait besoin d’un second souffle. Les écoles
étaient trop en vase clos. L’école de Management n’avait pas de grade de master et l’Esilv était une petite école avec peu de visibilité», a rappelé Pascal Brouaye, directeur général du PLV depuis janvier 2013.
Quatre piliers fondamentaux ont été identifiés pour poursuivre la croissance du groupe: l’innovation, le digital, les softs skills (compétences extra scolaires) et l’hybridation (des cours communs aux différentes écoles). «C’est ce que nous appelons aussi la
transversalité, qui représente 20% du temps académique. C’est notre identité» a affirmé Pascal Brouaye. L’objectif, en 2027, est que 25% des étudiants du groupe soient inscrits dans des doubles diplômes. Le PLV va aussi renforcer sa politique d’aide
sociale en lançant en 2022 un fonds de dotation à destination des boursiers qui doit atteindre 1,6 million d’euros en 2027. Le groupe compte renforcer ses partenariats en Afrique et en Asie.
Le PLV va ouvrir deux nouveaux campus à La Défense près de Paris: le Campus de l’Arche en 2022, qui accueillera les étudiants en formation continue et de l’IIM, et le Campus du Parc en 2024/2025 pour les étudiants de l’Esilv et de l’EMLV. Deux
bâtiments connectés et écoresponsables sur 25 000 m2 pour un coût de 180 millions d’euros.
Un campus ouvrira à Nantes en septembre 2022 et accueillera les étudiants des trois premières années de l’Esilv. Trois autres ouvertures de campus sont prévues d’ici 2027: un dans une autre métropole française et deux autres hébergés en Asie et en
Europe.
L’Esilv veut se développer à l’international
L’Esilv, écoles d’ingénieurs, compte aujourd’hui 3 300 étudiants et 100 professeurs permanents. L’objectif en 2027 et d’accueillir 4 000 étudiants. Parmi les ambitions: développer les enseignements numériques hybrides, créer un réseau de partenariats
globaux avec des grandes entreprises, renforcer l’internationalisation et poursuivre son développement des enseignements dans la responsabilité sociale et environnementale (RSE).
50% des cours autour du RSE à l’EMLV
L’EMLV, école de commerce post-bac, veut consolider son Programme Grande École et diversifier ses programmes. L’objectif est de recruter des enseignants-chercheurs pour atteindre 90% du corps professoral permanent en sciences de gestion d’ici 5 ans.
Les problématiques RSE et de développement durable seront intégrées dans au moins 50% des enseignements business. L’école compte s’agrandir en accueillant 3 500 étudiants en 2027, contre 2 600 aujourd’hui.
Plus d’étudiants étrangers à l’IIM
L’IIM, l’école du digital du PLV va développer son offre de programmes en alternance et déployer de nouvelles formations destinées aux jeunes diplômés sans compétences numériques au niveau bac+2 et bac+3. Un effort va être fait sur
l’internationalisation à travers trois leviers: augmentation du nombre d’étudiants étrangers, développement de programmes en anglais et un déploiement des formations à l’étranger à travers un réseau de partenaires locaux.
87. Données non structurées
La quantité
d’informations est
telle que la capacité
manuelle des
individus et des
entreprises ne
permet plus de les
gérer efficacement
90. Données non structurées: Amazon
Rekognition
Démonstration
1. Détection d'étiquette
2. Analyse faciale
3. Texte dans l'image
4. Détection des
équipements de
protection personnelle
(EPI)
a. avec ou sans masque?
99. Avec Google Cloud Vision API
❏ Détecter automatiquement
des objets
❏ Détecter automatiquement
du texte manuscrit
❏ Etiquetage automatique
d'images, Détection
automatique de visages,
❏ Reconnaissance optique des
caractères
❏ Ajout de tags au contenu
explicite
100. Avec Google Cloud Vision API
<Démonstration>
Lancer la
démonstration
103. Données non structurée : application
image e-commerce
E-Commerce
AI-assisted PIM
(=Product
Information
Management)
analyse d’images
génération de
d’attributs riches
et détaillées pour
les catalogues
produits
104. Données non structurée analyse de
vidéo
❏ Reconnaissance d'images pour la détection
d'armes et d'objets dangereux
❏ Annotation d'images pour la reconnaissance
des visages
❏ Classification d'objets sur des moniteurs de
sécurité
❏ Détection et étiquetage d'objets et de
personnes, suivi sur plusieurs images
107. Données non structurées: YOLO
YOLO because You Only Look Once
YOLO propose l'utilisation d'un réseau neuronal qui fait des
prédictions de catégories en une seule fois sur des objets en
utilisant des boîtes englobantes (bounding box)
Applications
❏ Conduite autonome des voitures
❏ Détection de fruits et de légumes pour la cueillette, le
calibrage
113. 1. Qu’est ce que le YOLO?
2. Qu’est ce que le AI-assisted PIM ?
3. Donner deux outils d’analyse d’image ?
4. Donner un outil du Data Scientist ?
5. Quels sont les applications du YOLO
Quizz
114. 1. Qu’est ce que Google Cloud Vision API
2. Qu’est ce que Amazon Rekognition ?
3. Quel est l'intérêt d’annoter les images ?
Quizz
116. LE TRAITEMENT DE LA DATA
Dataset Nettoyage des
données
Analyse
statistique
DataMining
Machine Learning
Création de modèles
Connaissance
117. Processus de modélisation de la
Data
Le nettoyage de la données c’est
80% du temps
Les fichiers contiennent des millions de
lignes (observations) avec des
données incomplètes, mal formatées,
lacunaires
119. Le Hachage
Le hachage est le processus
de transformation chaîne de
caractères ou d’un fichier en
une autre valeur unique, de
longueur fixe qui représente
et facilite la recherche ou
l'emploi de la chaîne
originale
122. Quizz
1. Le nettoyage des données c’est xx% du
travail du Data Scientist/Analyste ?
2. C’est quoi le hachage ?
3. Si je prends deux images identiques et je
change un pixel sur l’une, est ce que le
résultat de la fonction de hachage sera
le même pour les deux fichiers images ?
125. « Le neurone artificiel reçoit des
signaux (entrées) [...] des autres
neurones auxquels il est relié. À
chacune des entrées est associé
un poids représentatif [...] de la
connexion interneuronale.
Chaque processeur [Neurone]
possède sa propre fonction
d’activation [...] qui lui permet de
calculer sa sortie à partir des
entrées et du poids des
connexions associées. »
Le Neurone
130. Intelligence Artificielle
Domaines en vogue :
1.La vue (Computer
Vision)
2.le langage (NLP)
3.Le Texte
Un autre en devenir: le
toucher avec les
interfaces haptiques
131. Données étiquetées et les classes à apprendre sont
apprises par les humains à la machine (ex : ceci est
un Chien vs ceci est un Chat)
Données non étiquetées le modèle extrait
lui-même les caractéristiques du jeu de données (ex:
l’IA découvre par lui-même le concept du chat)
Google brain simulator teaches itself to
recognize cats | ZDNet
Comment fonctionne le Machine
Learning ?
132. Base de données
importantes
Fashion MNIST Dataset
70 000 images en niveaux
de gris répartie en 10
catégories de vêtements de
Zalando, en basse résolution
133. Base de données
importantes
MNIST (Mixed
National Institute of
Standards and
Technology) dataset
de chiffres écrits à la
main.
très utilisé en
apprentissage
automatique
138. Les quatres niveaux d'analyse de
l'IA
0/ Données brutes
1/ Descriptif: que s'est il passé
2/ Diagnostic: Pourquoi ça s'est passé
3/ Prédictif: que va t'il se passer ?
4/ Prescriptif: que faire pour améliorer la situation ?
139. 1.Training Dataset: Le modèle est ajusté sur un
jeux de données d'apprentissage
2.Validation Dataset: le modèle est utilisé pour
prédire les réponses pour des observations
dans les données de validation
3.Test Dataset: le jeu de données de test est
utilisé pour l’évaluation du modèle
Comment on apprend aux IA en
3 phases
141. Les modes d'apprentissage de l’IA
Mode
Données
d'entraînement
labellisées
Définition Usages
Supervisé OUI
Pour la phase d'entraînement, le résultat
souhaité est connu
Reconnaissance d'images,
prédiction de valeurs,
réalisation de diagnostics,
détections de fraudes
Non-Supervisé NON
Pour la phase d'entraînement, le résultat
souhaité est inconnu
Segmentation Clients,
détermination de KPIs,
regroupement d'Objets qui
sembles partager un similitude
Par Renforcement ça dépend Le résultat attendu est évalué au cas par cas
Moteurs de recommandations,
IA dans le Gaming
142. Apprentissage Machine:
Le mode Supervisé
Entrée
Image d'animal
Sortie
Label (classe)
Chien
Chien
Chat
?
Les classes à apprendre
sont définies par
l’humain sur la base d’un
jeu de données
d'entraînement (Training
DataSet)
143. Apprentissage Machine:
Le mode Non-Supervisé
Les classes à apprendre
sont définies par la
machine sur la base d’un
jeu de données
d'entraînement
144. Apprentissage Machine:
Le mode Non-Supervisé
Données non labellisées Découverte par l’IA des classes basées sur
la forme et l’imprimé sur les balles
147. Quizz
1. Comment est utilisé un réseau de Neurones
Artificiels ?
2. Donnez un exemple de base de données
utilisées en Data Science ?
3. Quels sont les 4 niveaux d'analyse de l'IA ?
4. Quels sont les trois étapes du travail de la
Data par la machine ?
5. Quels sont les trois domaines en vogue de
l'IA ?
154. Neo4j: Cypher notions
fondamentales
Cypher:
un langage qui s’appuie l’ASCII-ART
Des parenthèses pour les noeuds () (nodes)
des crochets [] pour les relations -[:ARROWS]->
(un_Node)-[:CONNECTES_A]->(un_autre_Node)
155. Neo4j: Cypher notions
fondamentales
Cypher: en résumé
() un node vide
(n) une variable n de type node
-[r:RELATION]-> une relation
(p:Person) un node avec un label Person
Exemple:
(p:Person {name: 'Théo Chirone', age: 23})
(a:Person)-[r:CONNAIT]-(b:Person)
156. Neo4j: Création d’un réseau simple
avec Cypher
Kevin est élève au Pôle Léonard
de Vinci
Cypher: Création du noeud Kevin
CREATE (friend:Personne
{name: 'Kevin'})
RETURN friend
157. Jennifer est élève au Pôle Léonard
de Vinci
Cypher: Création du noeud Jennifer
CREATE
(friend:Personne
{name: 'Jennifer'})
RETURN friend
Neo4j: Création d’un réseau simple
158. Kevin est élève au Pôle Léonard de Vinci est
ami avec Jennifer
Cypher:: Création du lien Kevin -[]->Jennifer
MATCH (j:Personne {name:
'Jennifer'})
MATCH (m:Personne {name:
'Kevin'})
MERGE
(j)-[r:EST_AMI_AVEC]->(m)
RETURN j, r, m
Neo4j: Création d’un réseau simple
159. Neo4j: Création d’un réseau simple
Kevin est élève au Pôle Léonard de Vinci
est ami avec Jennifer
Cypher: Création du noeud
Léonard de Vinci
CREATE (ecole:Ecole {name: 'Pôle
Leonard de Vinci'})
RETURN ecole
160. Neo4j: Création d’un réseau simple
Cypher:
Kevin est élève au Pôle Léonard de Vinci est ami avec
Jennifer
Création du lien Léonard de Vinci et Kevin
MATCH (ecole:Ecole {name:
'Pôle Leonard de Vinci'})
MATCH (p:Personne {name:
'Kevin'})
MERGE
(p)-[r:EST_SCOLARISE]->(ecole)
RETURN ecole, r, p
161. Neo4j: Création d’un réseau simple
Cypher:
Visualization du graph créé
MATCH (ecole:Ecole)
MATCH (p:Personne)
MATCH (p)-[]->()
RETURN ecole, p
163. Neo4j: Navigation dans une
database Neo4j
Cypher:
saisir dans la console
:play movies
allez à la page 2 du guide
cliquer sur le bloc de code
cliquer sur “Play”
164. Neo4j: Navigation dans une
database Neo4j
Cypher: Exécuter le code
ci-dessous
MATCH (tom:Person
{name:"Tom
Hanks"})-[:ACTED_IN]->(
m)<-[:ACTED_IN]-(coActo
rs)
RETURN tom, m, coActors
167. Cypher: Exécuter le code ci dessous
MATCH
p=shortestPath((bacon:Perso
n {name:"Kevin
Bacon"})-[*]-(meg:Person
{name:"Meg Ryan"}))
RETURN p
Neo4j: Navigation dans une
database Neo4j
168. Neo4j: Navigation dans une
database Neo4j
Cypher:
exécuter le code ci dessous
MATCH p=shortestPath(
(tomC:Person {name:"Tom
Cruise"})-[*]-(TomH:Person
{name:"Tom Hanks"})
)
RETURN p
170. Sortez vos données du frigo
Une entreprise performante avec la Data et l'IA
Mick Lévy
Manifeste pour une exploitation
intensive et responsable des données À
l’ère du numérique, alors que tout est
optimisé pour la compétitivité des
entreprises, les données restent peu
exploitées.
171. La publicité à l'heure de la data
Ad tech et programmatique expliqués par des experts
Ad tech et programmatique
révolutionnent la publicité digitale. Dans
cet ouvrage, 15 professionnels et
universitaires travaillant au sein
d’organismes leaders en livrent les
grands principes et les recettes
opérationnelles
172. Notes et références
1. Cours Big Data Chap5
2. Solving Storage Just the Beginning for Minio CEO Periasamy
3. Graphique: Le Big Bang du Big Data | Statista
4. Avito Context Ad Clicks | Kaggle
5. Big Data.. from Space! Exploring Fraud Detection With Neo4j & Graph Data Science –
Part 1
6. Welcome To Colaboratory
7. Jupyter Notebook
8. Google Colab : Le guide Ultime | Le Data Scientist
9. Amazon Comprehend
173. Notes et références
1. Le Pôle Léonard de Vinci poursuit son développement à la Défense - Le Figaro
Etudiant
2. Machine Learning - Fashion MNIST dataset - Prologue - DEV Community
3. Automatic Image Captioning Using Neural Networks
4. IA Vision | Obtenir des insights à partir d'images via le ML | API Cloud Vision
5. https://www.kaggle.com/tinoswe/split-python-dataframe
6. https://www.fileformat.info/tool/hash.htm
7. Comment les neurones font-ils fonctionner notre cerveau ? - Science & Vie
8. Cerveau : comprendre le fonctionnement du cerveau humain
9. Neurone artificiel - Définition du glossaire
174. Notes et références
1. Applying ANN | Digit and Fashion MNIST | by Ben Roshan | Analytics Vidhya
2. 2D Visualization of a Convolutional Neural Network
3. Google brain simulator teaches itself to recognize cats | ZDNet
4. NN SVG
5. A Neural Network Playground
6. Reinforcement learning on a chicken
7. Neo4j Sandbox | Online Graph Database – No Download Required
8. Art ASCII — Wikipédia