Introduction à la BIG DATA et l'Intelligence Artificielle

Une minute sur
Internet
En 2021, en un seule
petite minute il y a :
● 500 heures de
contenus soient mises
en ligne sur YouTube,
● 69 millions de
messages envoyés sur
Whatsapp et
Facebook Messenger
● 1,3 million d'euros
dépensés en ligne

Qu’est ce que la Big Data ?
64 Zettaoctets en 2020
181 Zettaoctets en 2025
1 octet = 8 bits
1 ko = 1000 octets
1 Mo = 1000 * 1ko
1 Go = 1000 * 1Mo
1 To = 1000 * 1Go
1 Po = 1000 * 1To
1 ExaOctet = 1000 * 1Po
1 ZettaOctet = 1000 * 1 ExaOctet
1000 milliards de gigaoctets, 10E21 octets

Trivia
en prenant en compte les
plages, les côtes, les
déserts… On estime qu’il y a
100 milliards de grains de
sable par mètres cube.
Il y a 10 puissance 21 grains
de sables sur Terre
Il y a 60x10 puissance 21
octets de data
Si chaque grain de sable
contenait un octet de
données, on aurait pas assez
de grains de sable sur Terre
pour tout stocker…

Big Data: Gros Volume (prédiction
de 2017)

de 2 à 181 Zo
Le volume de données
numériques est passé de
2 zettaoctets en 2010 à
64 zettaoctets en 2020
Les objets connectés et la
5G sont les principaux
moteurs de ce "Big
Bang" de la donnée.

la donnée dans la Big data
❏ Données non structurées
❏ Produites en temps réel
❏ En flot continu
❏ Méta taguées (information de localisation,
informations temporelles)
❏ Provenant de multiples sources (mobiles, capteurs,
téléviseurs connectés, tablettes, PC, objets,
machines)
❏ Arrivant de façon désordonnées et non
prédictibles

BIG Data: Origines
en 2001 avec 3Vs
1. Volume
2. Vélocité
3. Varieté
Volume
Vélocité
Variété

Les 4 V de la Data
Volume
Vélocité
Véracité
Variété

Volume
la capacité de traiter et d'analyser un
grand volume de données

Vélocité
La data arrive très vite, les outils
doivent être en capacité d'absorber
le flux de données
La vélocité est la rapidité du flux
avec lequel la data arrive dans
l’entreprise, est processée et est bien
comprise

Variété
Les données arrivent sous toutes les formes:
Tableaux lignes colonnes, bases de données
relationnelles,
Text Data, Semi structured, XMLGraph Data
(Social Network, Streaming Data)
Photos, vidéos, enregistrements audio, messages
électroniques, documents, livres, présentations, live
Tiktok, tracés biométriques,
ÉlectroEncéphaloGramme

Véracité
Il s'agit de l'assurance de la
qualité, de l’intégrité, de la
crédibilité, de l’exactitude des
données.
Les données sont collectées à
partir de sources multiples, nous
devons vérifier leur exactitude
avant de les utiliser pour obtenir
des informations

En résumé
Vélocité
Volume
Variété
Véracité

Big Data: Quiz
1. Selon les prévision de IDC et Seagate
datant de mars 2021
a. quel sera le volume de données
numériques créées en 2025 ?
b. quels seront les principaux moteurs de
ce "Big Bang" de la donnée en 2025 ?
2. Quels sont les 4V de la Data

Big Data: Quiz
Dans la Big Data, à quoi correspond
1. le Volume ?
2. la Variété ?
3. la Vélocité ?
4. la Véracité ?

Les grands types de base de
données

Les 4 grands types de base de
données
1.bases de données Relationnelles
2.bases de données Colonne
3.bases de données Documents
4.bases de données Graph

Bases de données
Relationnelles
Basée sur le langage SQL
(Structured Query
Language), les données
sont stockées dans un
tableau
Inconvénient : pas adapté
au volume de données
actuel
Exemples: Microsoft SQL
Server, Oracle Database,
MySQL

un fichier de données
à la forme d'une
matrice de données,
chaque ligne est une
observation,
chaque colonne est une
variable ou un attribut
de l'observation
Bases de données
Relationnelles

Type d'informations dans une base
de données CRM Relationnelle
Identités nom, prénom, e-mails, numéros de téléphones, date de naissance, etc.
Socio-Démographie
Sexe, âge, Situation Maritale, catégorie Socio-Professionelle, lieu d'habitation,
etc.
Historique d'Achat Nombre de commandes, produits commandés, Chiffres d'Affaire générés
Point de contact et
comportement
Date de la première et dernière commande, nombre de retours produits,
nombre d'appel au call center
Préférences Marques préférées, canal de contacts privilégiés; langue de contact privilégié,
Statut & Segment
Statut de Club de fidélité, segment métier auquel appartient le client (VIP,
dormant, acheteur)
Scores Appétence pour les catégories/produits, intérêts pour les thèmes, contenus,

Bases de données Colonnes
Le stockage des données est organisé en colonne
à la différence des bases de données relationnelles dont le
stockage est organisé en ligne,
Intérêt:
Efficace pour le traitement analytique
Examples:
Google BigQuery, Cassandra,
HBase, MariaDB,
Azure SQL Data Warehouse

NoSQL = Not Only SQL
NoSQL toute base de données qui n'utilise pas SQL comme
principal langage d'accès aux données
Contrairement aux bases de données relationnelles, les
données d'une base de données NoSQL n'ont pas à se
conformer à un schéma prédéfini.
NoSQL est parfait pour les organisations qui cherchent à
stocker des données non structurées ou semi-structurées
Bases de données NoSQL

Bases de données Documents
Les bases de données Documents reposent sur le principe de
clé-valeur où chaque document est identifié par un clé unique
utilisent des documents de type JSON pour modéliser les
données au lieu de lignes et de colonnes
conçues pour stocker et gérer des données semi-structurées
Exemples:
MongoDB, Amazon DocumentDB, Apache CouchDB

Les bases de données Graphes
montrent de façon graphiques
les relations entre des points
de données.
Elles sont utilisées par exemple
dans l’analyse des flux
financiers ou pour modéliser un
réseau social
Exemples de Graph Database:
Datastax Enterprise Graph, Neo4J
Bases de données
Graphes

données
<Quizz>
5 minutes

Quizz
1. Que signifie l’acronyme NoSQL ?
2. Quels sont les 4 grands types de
base données?

1. Comment sont organisées les données dans une
base de données colonne ?
2. Quel est l’intérêt de l’organisation de la donnée
en colonne ?
3. Donnez un exemple de base de donnée Graph
4. Quel est le langage le plus commun pour
interroger les base de données relationnelles ?
Quizz

données
</Quizz>

Les 3 modes d'exploitations de la
Data

Les 3 modes d'exploitation de la
Data
Mode Opérationnel
Mode Lot (batch)
Mode Exploratoire

1/ Mode Opérationnel
Le volume de données demandées est faible,
mais les demande sont très nombreuses
le système doit être temps réel
Cas d’usage:
1. Liste de recommandations pour des films sur une
plateforme de streaming
2. Agent en centre d'appel qui répond à un client en
regardant la fiche client dans le logiciel de CRM

2/ Mode par Lot (batch)
Le volume de données demandées est
considérable, les demandes sont peu
nombreuses (une fois par jour, semaine, mois,
etc.)
Cas d’usage:
1. Backup nocturne
2. Apprentissage d'un nouveau logo par une IA
a. l'entraînement de l'IA se fait sur des millions
de photos et nécessite plusieurs heures

3/ Mode Exploratoire
Pour les Data Scientists et Data Analysts
Permet de faire des études approfondies
sur la Data
Cas d’usage:
1. Etudes de marché avec les données du
Social Listening
2. Conception d’une IA

Exploration de la données
avec les outils du Data
Scientist
exemples d’outils:
● Google Colab
● Jupyter Notebook
● Python (langage)

focus Google Colab
Colab permet à
n'importe qui d'écrire et
d'exécuter le code
Python de son choix par
le biais du navigateur.
C'est un environnement
particulièrement adapté
au Machine Learning, à
l'analyse de données

Les modes d'exploitation des
données
Mode Volume manipulés à chaque demande Fréquence des demandes
Opérationnel Faible Fort
Par lots Fort Faible
Exploratoire Variable Variable

Données non structurées: YOLO?
<Démonstration>

focus Google Colab
Démonstration de Colab
sur le dataset (Le Sport
au Pôle Léonard de
Vinci)
1/ Ouvrez votre
navigateur (chrome de
préférence) sur
https://colab.research.g
oogle.com
Lancer la démonstration

Les 3 modes d'exploitation de la
Data
<Quizz>

Quizz
1. Quels sont les 3 modes
d'exploitations de la Data?

1. Quel est le volume de données en mode Opérationnel ?
2. Quel est la fréquence d’accès aux données en mode
Opérationnel ?
3. Quels sont les utilisateurs type du mode Opérationnel ?
4. Quel est le volume de données en mode Lot ?
5. Quel est la fréquence d’accès aux données en mode Lot ?
6. Quel est un cas d’usage du mode Lot?
7. Quel est l’intérêt du mode Exploratoire ?
8. Quelle est la population type qui utilise le mode
Exploratoire ?
Quizz

Les 3 modes d'exploitations de la
Data
</Quizz>

Les grands types de données
dans la Big Data

Les grands types de données dans la
Big Data
Données structurées
Données non structurées
Données semi-structurées

Données Structurées
Le terme Données Structurées désigne des données
dont la longueur et le format sont définis
Exemples :
● les nombres, les dates et les groupes de mots et de
chiffres appelés chaînes de caractères (par
exemple, le nom d'un client, son adresse, etc.).
Vous pouvez les interroger à l'aide d'un langage tel
que le langage d'interrogation structuré (SQL).
Ce sont les données de gestion de la relation client
(CRM), les données opérationnelles des progiciels de
gestion intégrés (ERP) et les données financières.

les plus simple à organiser et à consulter.
exemple:
les données financières
les données démographiques
journaux de machine (logs).
exemple feuille de calcul Excel
avec sa mise en forme en colonnes et lignes
Ses composants catégorisés,
facile à programmer avec des algorithmes
simples, idéal pour la recherche et l'analyse.
Données structurées :
DateRep
Da
y Month Year Cases Deaths
Countries and
territories GeoId
22/03/2020 22 3 2020 0 0Afghanistan AF
21/03/2020 21 3 2020 2 0Afghanistan AF
20/03/2020 20 3 2020 0 0Afghanistan AF
19/03/2020 19 3 2020 0 0Afghanistan AF
18/03/2020 18 3 2020 1 0Afghanistan AF
17/03/2020 17 3 2020 5 0Afghanistan AF
16/03/2020 16 3 2020 6 0Afghanistan AF
15/03/2020 15 3 2020 3 0Afghanistan AF
11/03/2020 11 3 2020 3 0Afghanistan AF
08/03/2020 8 3 2020 3 0Afghanistan AF
02/03/2020 2 3 2020 0 0Afghanistan AF
01/03/2020 1 3 2020 0 0Afghanistan AF
29/02/2020 29 2 2020 0 0Afghanistan AF
28/02/2020 28 2 2020 0 0Afghanistan AF
27/02/2020 27 2 2020 0 0Afghanistan AF
26/02/2020 26 2 2020 0 0Afghanistan AF
25/02/2020 25 2 2020 1 0Afghanistan AF
24/02/2020 24 2 2020 0 0Afghanistan AF
23/02/2020 23 2 2020 0 0Afghanistan AF
22/02/2020 22 2 2020 0 0Afghanistan AF
21/02/2020 21 2 2020 0 0Afghanistan AF
20/02/2020 20 2 2020 0 0Afghanistan AF
19/02/2020 19 2 2020 0 0Afghanistan AF
18/02/2020 18 2 2020 0 0Afghanistan AF
17/02/2020 17 2 2020 0 0Afghanistan AF
16/02/2020 16 2 2020 0 0Afghanistan AF
15/02/2020 15 2 2020 0 0Afghanistan AF
14/02/2020 14 2 2020 0 0Afghanistan AF
13/02/2020 13 2 2020 0 0Afghanistan AF
12/02/2020 12 2 2020 0 0Afghanistan AF
11/02/2020 11 2 2020 0 0Afghanistan AF
10/02/2020 10 2 2020 0 0Afghanistan AF
09/02/2020 9 2 2020 0 0Afghanistan AF
08/02/2020 8 2 2020 0 0Afghanistan AF
07/02/2020 7 2 2020 0 0Afghanistan AF

Données Structurées
Exemple d’une requête
SQL sur base de données
structurée
Select CustomerID,
State, Gender, Product
from “demographic
table”, “product table”
where Product= XXYY

Sur un dataset typique,
1. chaque ligne
représente un individu
2. chaque colonne
contient les actions
effectuées par le
visiteur, son exposition
à une campagne
publicitaire, etc.
Données Structurées en Data Marketing
Dataset

Données Structurées dans le cadre
du data Marketing
id sexe Revenus âge Centres d’intérêts Points de
contacts
préférés
Niveau d’
éducation
Historiqu
e d’achat
11 F 20000€ 19 Gadget Mail Bat +5 Pull
21 M 25000€ 21 Rihana Insta Lunette
32 CAP
75 M 75 Jaguar d’occasion Clé USB
Chaque ligne représente un individu

UN DATASET D’UNE BASE DE DONNÉES
RELATIONNELLES DE 18GO
AVITO ~LEBONCOIN RUSSE

très complexes à stocker dans des bases
de données type lignes et colonnes.
-> essayer de stocker de la musique, des
images, des tweets dans un même fichier
excel
les données non structurées sont stockées
dans des lacs de données, des entrepôts
de données et des bases de données
NoSQL

● Publications sur les réseaux sociaux,
● Fichiers audio,
● Images sur Internet (JPEG, PNG, GIFs, etc.)
● Commentaires client ouverts.
● Pages web
● Vidéos (live, dashcam, cctv)
● Commentaires d'utilisateurs sur des blogs
● Mémos
● Rapports
● Réponses à des enquêtes
● Documents (Word, PPT, PDF)
● Transcriptions d'appels au service clientèle
● Journaux de bord des serveurs (logs)
Liste non exhaustive

Liste non exhaustive (suite)
● vidéos de surveillance,
● Dashcam,
● Logos,
● Texte écrits
● Sondages,
● Podcast, audio
● Tweets

la donnée non
Structurée ne suit
pas un format en
particulier et
possède un
caractère
imprédictible

Données non structurées: Texte
Avec le NLP pour effectuer une analyse syntaxique, lexicale
et sémantique

Utilisation pratique de l’exploitation de la données textuelle
non structurées pour répondre aux questions suivantes sur la
thématique Voice of the customer
Quels sont les principaux sujets de plaintes des clients et
comment évoluent-ils dans le temps ?
Quel est le niveau de satisfaction des clients à l'égard de
services spécifiques ?
Quels sont les problèmes les plus fréquents qui conduisent
à la désaffection des clients ?
Quels sont les principaux segments de clientèle qui offrent
des possibilités de vente incitative plus élevées ?

Cas du Social Media Listening
Textes non structurés provenant de blogs, microblogs, articles
d'actualité, textes de forums pour comprendre la relation des
consommateurs avec une marque et répondre aux questions
Que disent les gens de ma marque ?
Qu'est-ce qu'ils aiment dans ma marque ?
Qu'est-ce qu'ils n'aiment pas dans ma marque ?
Comment ma marque se compare-t-elle à celle de mes
concurrents ?
Dans quelle mesure mes clients sont-ils fidèles ?

Données Semi-Structurées
Cette troisième catégorie existe parce que les données
semi-structurées sont considérablement plus faciles à analyser
que les données non structurées.
les outils et solutions Big Data ont la capacité de "lire" et de
traiter des fichiers JSON ou XML.
Ce qui réduit la complexité de l'analyse des données
structurées, par rapport aux données non structurées.

Données Semi-Structurées
Ce sont des données semi-organisées.
Elles ne se conforment pas à la
structure formelle des données (sous
forme de tableau)
Exemples:
● les fichiers logs
● les fichiers JSON, XML
● les données de capteur

Mélange de données structurées et
non structurées.
Les e-mails
données non structurées dans
le corps du message,
données structurées tel que
l’expéditeur, le destinataire,
l'objet et la date.
Une image avec l'heure et
l'endroit où elle a été prise
Données semi-structurées

Les grands types de données dans
la Big Data
<Quizz>

Quizz
1. Quels sont 3 grands types de données dans la Big Data?
2. Un mail est un exemple de quel type de données ?
3. Une feuille excel est une exemple de quel type de données ?
4. Un avis client est un exemple de quel type de données ?
5. Un live tik tok est un exemple de quel type de données ?
6. Un selfie est un exemple de quel type de données ?
7. Le format JSON appartient à quel type données ?
8. Le format XML appartient à quel type données ?
9. Le format XLSX appartient à quel type données ?
10. Une caméra de surveillance de trafic routier ?
11. La donnée non structurée représente quel pourcentage de data
(vs. structurée) ?

Les grands types de données dans la
Big Data
</Quizz>

Focus sur les
Données Non Structurées

le Texte La données non structurée

Données non structurée : analyse de
texte avec Amazon Comprehend
<Démonstration>

exemple:
Un article de presse écrit
par un journaliste
Une oeuvre de William
Shakespeare

Les dirigeants du Pôle Léonard de Vinci (PLV) ont présenté, mardi 19 octobre, leur Plan stratégique 2022/2027. Objectif affiché: passer d’un pôle «émergent» à une entité de «référence» dans le monde de l’enseignement supérieur. Créé en 1995 sous
l’impulsion du Conseil général des Hauts-de-Seine et installé dans le quartier d’affaires de La Défense, le Pôle Léonard de Vinci regroupe quatre écoles: l’EMLV (management), l’Esilv (ingénieur), l’IIM (digital) et l’ILV (formation continue). Aujourd’hui, le
Pôle est géré par l’Association Léonard de Vinci. Tête de proue du groupe, l’Esilv, créé en 1994, progresse chaque année et atteint la 5e place du classement du Figaro Etudiant.
Le Pôle veut accueillir 12 000 étudiants en 2027 (+37%) et 245 professeurs permanents (+43%). La même année, l’objectif du groupe est d’atteindre 120 millions d’euros de budget. «Il y a huit ans, le PLV avait besoin d’un second souffle. Les écoles
étaient trop en vase clos. L’école de Management n’avait pas de grade de master et l’Esilv était une petite école avec peu de visibilité», a rappelé Pascal Brouaye, directeur général du PLV depuis janvier 2013.
Quatre piliers fondamentaux ont été identifiés pour poursuivre la croissance du groupe: l’innovation, le digital, les softs skills (compétences extra scolaires) et l’hybridation (des cours communs aux différentes écoles). «C’est ce que nous appelons aussi la
transversalité, qui représente 20% du temps académique. C’est notre identité» a affirmé Pascal Brouaye. L’objectif, en 2027, est que 25% des étudiants du groupe soient inscrits dans des doubles diplômes. Le PLV va aussi renforcer sa politique d’aide
sociale en lançant en 2022 un fonds de dotation à destination des boursiers qui doit atteindre 1,6 million d’euros en 2027. Le groupe compte renforcer ses partenariats en Afrique et en Asie.
Le PLV va ouvrir deux nouveaux campus à La Défense près de Paris: le Campus de l’Arche en 2022, qui accueillera les étudiants en formation continue et de l’IIM, et le Campus du Parc en 2024/2025 pour les étudiants de l’Esilv et de l’EMLV. Deux
bâtiments connectés et écoresponsables sur 25 000 m2 pour un coût de 180 millions d’euros.
Un campus ouvrira à Nantes en septembre 2022 et accueillera les étudiants des trois premières années de l’Esilv. Trois autres ouvertures de campus sont prévues d’ici 2027: un dans une autre métropole française et deux autres hébergés en Asie et en
Europe.
L’Esilv veut se développer à l’international
L’Esilv, écoles d’ingénieurs, compte aujourd’hui 3 300 étudiants et 100 professeurs permanents. L’objectif en 2027 et d’accueillir 4 000 étudiants. Parmi les ambitions: développer les enseignements numériques hybrides, créer un réseau de partenariats
globaux avec des grandes entreprises, renforcer l’internationalisation et poursuivre son développement des enseignements dans la responsabilité sociale et environnementale (RSE).
50% des cours autour du RSE à l’EMLV
L’EMLV, école de commerce post-bac, veut consolider son Programme Grande École et diversifier ses programmes. L’objectif est de recruter des enseignants-chercheurs pour atteindre 90% du corps professoral permanent en sciences de gestion d’ici 5 ans.
Les problématiques RSE et de développement durable seront intégrées dans au moins 50% des enseignements business. L’école compte s’agrandir en accueillant 3 500 étudiants en 2027, contre 2 600 aujourd’hui.
Plus d’étudiants étrangers à l’IIM
L’IIM, l’école du digital du PLV va développer son offre de programmes en alternance et déployer de nouvelles formations destinées aux jeunes diplômés sans compétences numériques au niveau bac+2 et bac+3. Un effort va être fait sur
l’internationalisation à travers trois leviers: augmentation du nombre d’étudiants étrangers, développement de programmes en anglais et un déploiement des formations à l’étranger à travers un réseau de partenaires locaux.

Données non structurée: extraction
d'information

Le texte
les données non structurées
<Quizz>

Quizz
1. Quels types d’informations peut on
extraire de l’analyse textuelle des
avis clients, des prises de parole sur
les réseaux sociaux ?

Le texte
</Quizz>

L’image La données non structurée

Comment on fait quand on a
une image ?
Ou sont stockées les
informations ?

Une image prise au
hasard
Pas de texte
stocké …
Attributs de
l’image écrits
nul part …

Exercice:
Décrivez les
images de façon
précise et
détaillée dans la
fenêtre de chat

La quantité
d’informations est
telle que la capacité
manuelle des
individus et des
entreprises ne
permet plus de les
gérer efficacement

Annotation d’images automatisée

Reconnaissance
d’images avec

Données non structurées: Amazon
Rekognition
Démonstration
1. Détection d'étiquette
2. Analyse faciale
3. Texte dans l'image
4. Détection des
équipements de
protection personnelle
(EPI)
a. avec ou sans masque?

Rekognition
Démonstration
1/ Détection d'étiquette

Rekognition
Démonstration
2/ Analyse faciale

Rekognition
Démonstration
3/ Texte dans l'image

Rekognition
Démonstration
4/ Détection des
équipements de protection
personnelle (EPI: avec ou
sans masque)

Reconnaissance
d’images avec
Amazon Rekognition
<démonstration>

Rekognition

Avec Google Cloud Vision API
❏ Détecter automatiquement
des objets
❏ Détecter automatiquement
du texte manuscrit
❏ Etiquetage automatique
d'images, Détection
automatique de visages,
❏ Reconnaissance optique des
caractères
❏ Ajout de tags au contenu
explicite

<Démonstration>
Lancer la
démonstration

<Démonstration>

</Démonstration>

Données non structurée : application
image e-commerce
E-Commerce
AI-assisted PIM
(=Product
Information
Management)
analyse d’images
génération de
d’attributs riches
et détaillées pour
les catalogues
produits

Données non structurée analyse de
vidéo
❏ Reconnaissance d'images pour la détection
d'armes et d'objets dangereux
❏ Annotation d'images pour la reconnaissance
des visages
❏ Classification d'objets sur des moniteurs de
sécurité
❏ Détection et étiquetage d'objets et de
personnes, suivi sur plusieurs images

En mode YOLO

Données non structurées: YOLO
YOLO because You Only Look Once
YOLO propose l'utilisation d'un réseau neuronal qui fait des
prédictions de catégories en une seule fois sur des objets en
utilisant des boîtes englobantes (bounding box)
Applications
❏ Conduite autonome des voitures
❏ Détection de fruits et de légumes pour la cueillette, le
calibrage

<Démonstration>

YOLO avec Léonard
de Vinci
Lancer la
démonstration

</Démonstration>

L’image
<Quizz>

1. Qu’est ce que le YOLO?
2. Qu’est ce que le AI-assisted PIM ?
3. Donner deux outils d’analyse d’image ?
4. Donner un outil du Data Scientist ?
5. Quels sont les applications du YOLO
Quizz

1. Qu’est ce que Google Cloud Vision API
2. Qu’est ce que Amazon Rekognition ?
3. Quel est l'intérêt d’annoter les images ?
Quizz

Les Données Non Structurées
</Quizz>

LE TRAITEMENT DE LA DATA
Dataset Nettoyage des
données
Analyse
statistique
DataMining
Machine Learning
Création de modèles
Connaissance

Processus de modélisation de la
Data
Le nettoyage de la données c’est
80% du temps
Les fichiers contiennent des millions de
lignes (observations) avec des
données incomplètes, mal formatées,
lacunaires

['UserID', 'UserAgentID', 'UserAgentOSID', 'UserDeviceID', 'UserAgentFamilyID'] UserID UserAgentID UserAgentOSID UserDeviceID
UserAgentFamilyID4284788 4339827 63458 19 2014 644284789 4339828 22293 20 2014
254284790 4339829 10275 20 2014 254284791 4339830 12505 20 2014
854284792 4339831 32388 7 2014 154284793 4339832 63756 43 2014
74284794 4339833 57133 20 2014 254284795 4339834 9243 20 2014
254284796 4339835 57133 20 2014 254284797 4339836 63091 20 2014
254284798 4339837 33726 20 2014 624284799 4339838 9230 7 2014
624284800 4339839 57133 20 2014 254284801 4339840 55731 20 2014
644284802 4339841 57133 20 2014 254284803 4339842 10275 20 2014
254284804 4339843 58369 7 2014 254284805 4339844 29432 20 2014
154284806 4339845 15093 35 2905 634284807 4339846 55033 35 576
634284808 4339847 48490 43 2014 644284809 4339848 10275 20 2014
254284810 4339849 21092 43 2014 624284811 4339850 12505 20 2014
854284812 4339851 57133 20 2014 254284813 4339852 12505 20 2014
854284814 4339853 57133 20 2014 254284815 4339854 55731 20 2014
644284816 4339855 8533 9 2014 624284817 4339856 54898 20 2014
854284818 4339857 7075 20 2014 624284819 4339858 1393 30 2019
94284820 4339859 57133 20 2014 254284821 4339860 63091 20 2014
254284822 4339861 57133 20 2014 25['LocationID', 'Level', 'RegionID', 'CityID'] LocationID Level
RegionID CityID4045 1000003 3 31 13564046 1000004 3 31 28364047 1000005 3 31 15034048
1000006 3 31 25014049 1000007 3 31 20164050 1000008 3 31 36994051 1000009 3 31
28044052 1000010 3 31 34054053 1000011 3 31 22354054 1000012 3 31 24754055 1000013 3
31 12264056 1000014 3 31 19424057 1000015 3 31 13734058 1000016 3 31 35304059 1000017
3 31 20674060 1000018 3 31 554061 1000019 3 31 25944062 1000020 3 31 35524063
1000021 3 31 6524064 1000022 3 31 14454065 1000023 3 31 30154066 1000024 3 31
31734067 1000025 3 31 35874068 1000026 3 31 28164069 1000027 3 31 26454070 1000028 3
31 21454071 1000029 3 31 15384072 1000030 3 31 33824073 1000031 3 31 25254074 1000032
3 31 32234075 1000033 3 31 5134076 1000034 3 31 11624077 1000035 3 31 30414078
1000036 3 31 27804079 1250001 2 31 1245['CategoryID', 'Level', 'ParentCategoryID', 'SubcategoryID'] CategoryID
Level ParentCategoryID SubcategoryID63 250003 2 11 4564 250004 3 11 3365
250005 3 7 2666 250006 3 11 867 500001 3 5
1['SearchID', 'SearchDate', 'IPID', 'UserID', 'IsUserLoggedOn', 'SearchQuery', 'LocationID', 'CategoryID', 'SearchParams'] SearchID
SearchDate IPID0 1 2015-05-18 19:54:32.0 17170901 2 2015-05-12 14:21:28.0 17315682 3 2015-05-12 07:09:42.0 7931433
4 2015-05-10 18:11:01.0 8987054 5 2015-04-25 13:04:09.0 20097075 6 2015-05-07 16:49:15.0 16584566 7 2015-05-14
23:07:27.0 18491177 8 2015-05-09 09:10:06.0 5725858 9 2015-05-02 20:14:15.0 771629 10 2015-05-15 17:38:46.0
137107210 11 2015-05-17 12:01:01.0 6735611 12 2015-05-13 11:54:24.0 130519112 13 2015-04-26 21:34:59.0 147385113 14
2015-04-28 01:30:16.0 47333114 15 2015-05-06 11:23:50.0 111701215 16 2015-05-10 21:08:27.0 202212716 17 2015-05-03
14:12:19.0 69798217 19 2015-05-12 10:14:07.0 208043518 20 2015-05-16 14:38:00.0 48640819 21 2015-05-14 17:27:55.0 1279103

Le Hachage
Le hachage est le processus
de transformation chaîne de
caractères ou d’un fichier en
une autre valeur unique, de
longueur fixe qui représente
et facilite la recherche ou
l'emploi de la chaîne
originale

Exercice de Hachage
online hash
value
calculator

Quizz
1. Le nettoyage des données c’est xx% du
travail du Data Scientist/Analyste ?
2. C’est quoi le hachage ?
3. Si je prends deux images identiques et je
change un pixel sur l’une, est ce que le
résultat de la fonction de hachage sera
le même pour les deux fichiers images ?

« Le neurone artificiel reçoit des
signaux (entrées) [...] des autres
neurones auxquels il est relié. À
chacune des entrées est associé
un poids représentatif [...] de la
connexion interneuronale.
Chaque processeur [Neurone]
possède sa propre fonction
d’activation [...] qui lui permet de
calculer sa sortie à partir des
entrées et du poids des
connexions associées. »
Le Neurone

Réseau de Neurones
Artificiels
utilisé pour:
la Prédiction
la Classification

Réseau de Neurones
Artificiels en action
Réseau de neurones
permettant de
reconnaître un chiffre
manuscrit
(“9” dans l’image)

Réseau de Neurones
Artificiels en action
<Démonstration>

Intelligence Artificielle
Domaines en vogue :
1.La vue (Computer
Vision)
2.le langage (NLP)
3.Le Texte
Un autre en devenir: le
toucher avec les
interfaces haptiques

Données étiquetées et les classes à apprendre sont
apprises par les humains à la machine (ex : ceci est
un Chien vs ceci est un Chat)
Données non étiquetées le modèle extrait
lui-même les caractéristiques du jeu de données (ex:
l’IA découvre par lui-même le concept du chat)
Google brain simulator teaches itself to
recognize cats | ZDNet
Comment fonctionne le Machine
Learning ?

Base de données
importantes
Fashion MNIST Dataset
70 000 images en niveaux
de gris répartie en 10
catégories de vêtements de
Zalando, en basse résolution

Base de données
importantes
MNIST (Mixed
National Institute of
Standards and
Technology) dataset
de chiffres écrits à la
main.
très utilisé en
apprentissage
automatique

Réseau de
Neurons: model
NN SVG

Réseau de Neurones
avec Tensor Flow
TensorFlow
A Neural
Network
Playground

Les quatres niveaux d'analyse de
l'IA
0/ Données brutes
1/ Descriptif: que s'est il passé
2/ Diagnostic: Pourquoi ça s'est passé
3/ Prédictif: que va t'il se passer ?
4/ Prescriptif: que faire pour améliorer la situation ?

1.Training Dataset: Le modèle est ajusté sur un
jeux de données d'apprentissage
2.Validation Dataset: le modèle est utilisé pour
prédire les réponses pour des observations
dans les données de validation
3.Test Dataset: le jeu de données de test est
utilisé pour l’évaluation du modèle
Comment on apprend aux IA en
3 phases

1.Training Dataset
2.Validation Dataset
3.Test Dataset
Comment on apprend aux
IA en 3 phases

Les modes d'apprentissage de l’IA
Mode
Données
d'entraînement
labellisées
Définition Usages
Supervisé OUI
Pour la phase d'entraînement, le résultat
souhaité est connu
Reconnaissance d'images,
prédiction de valeurs,
réalisation de diagnostics,
détections de fraudes
Non-Supervisé NON
Pour la phase d'entraînement, le résultat
souhaité est inconnu
Segmentation Clients,
détermination de KPIs,
regroupement d'Objets qui
sembles partager un similitude
Par Renforcement ça dépend Le résultat attendu est évalué au cas par cas
Moteurs de recommandations,
IA dans le Gaming

Apprentissage Machine:
Le mode Supervisé
Entrée
Image d'animal
Sortie
Label (classe)
Chien
Chien
Chat
?
Les classes à apprendre
sont définies par
l’humain sur la base d’un
jeu de données
d'entraînement (Training
DataSet)

Le mode Non-Supervisé
Les classes à apprendre
sont définies par la
machine sur la base d’un
jeu de données
d'entraînement

Le mode Non-Supervisé
Données non labellisées Découverte par l’IA des classes basées sur
la forme et l’imprimé sur les balles

l’Apprentissage par
Renforcement
L’humain
récompense
chaque bonne
action de l’IA

<Quizz>

Quizz
1. Comment est utilisé un réseau de Neurones
Artificiels ?
2. Donnez un exemple de base de données
utilisées en Data Science ?
3. Quels sont les 4 niveaux d'analyse de l'IA ?
4. Quels sont les trois étapes du travail de la
Data par la machine ?
5. Quels sont les trois domaines en vogue de
l'IA ?

</Quizz>

Manipulation d’une Base de
Donnée de type Graph
Neo4j

Neo4j Sandbox
démarrer le bac à sable de
Neo4j
Ouvrir dans le navigateur
Neo4j Sandbox | Online
Graph Database
sur
https://neo4j.com/sandbox

Neo4j
Connectez vous
avec le profil
de votre choix

Neo4j
Choisir open with Browser

Neo4j: Cypher notions
fondamentales
Cypher:
un langage qui s’appuie l’ASCII-ART
Des parenthèses pour les noeuds () (nodes)
des crochets [] pour les relations -[:ARROWS]->
(un_Node)-[:CONNECTES_A]->(un_autre_Node)

Neo4j: Cypher notions
fondamentales
Cypher: en résumé
() un node vide
(n) une variable n de type node
-[r:RELATION]-> une relation
(p:Person) un node avec un label Person
Exemple:
(p:Person {name: 'Théo Chirone', age: 23})
(a:Person)-[r:CONNAIT]-(b:Person)

Neo4j: Création d’un réseau simple
avec Cypher
Kevin est élève au Pôle Léonard
de Vinci
Cypher: Création du noeud Kevin
CREATE (friend:Personne
{name: 'Kevin'})
RETURN friend

Jennifer est élève au Pôle Léonard
de Vinci
Cypher: Création du noeud Jennifer
CREATE
(friend:Personne
{name: 'Jennifer'})
RETURN friend

Kevin est élève au Pôle Léonard de Vinci est
ami avec Jennifer
Cypher:: Création du lien Kevin -[]->Jennifer
MATCH (j:Personne {name:
'Jennifer'})
MATCH (m:Personne {name:
'Kevin'})
MERGE
(j)-[r:EST_AMI_AVEC]->(m)
RETURN j, r, m

Kevin est élève au Pôle Léonard de Vinci
est ami avec Jennifer
Cypher: Création du noeud
Léonard de Vinci
CREATE (ecole:Ecole {name: 'Pôle
Leonard de Vinci'})
RETURN ecole

Cypher:
Kevin est élève au Pôle Léonard de Vinci est ami avec
Jennifer
Création du lien Léonard de Vinci et Kevin
MATCH (ecole:Ecole {name:
'Pôle Leonard de Vinci'})
MATCH (p:Personne {name:
'Kevin'})
MERGE
(p)-[r:EST_SCOLARISE]->(ecole)
RETURN ecole, r, p

Cypher:
Visualization du graph créé
MATCH (ecole:Ecole)
MATCH (p:Personne)
MATCH (p)-[]->()
RETURN ecole, p

Neo4j: Navigation dans une
database Neo4j
Cypher:
:play movies

database Neo4j
Cypher:
saisir dans la console
:play movies
allez à la page 2 du guide
cliquer sur le bloc de code
cliquer sur “Play”

database Neo4j
Cypher: Exécuter le code
ci-dessous
MATCH (tom:Person
{name:"Tom
Hanks"})-[:ACTED_IN]->(
m)<-[:ACTED_IN]-(coActo
rs)
RETURN tom, m, coActors

database Neo4j
Cypher:
version table

Cypher:
Sélectionner
l’onglet “A texte”
database Neo4j

Cypher: Exécuter le code ci dessous
MATCH
p=shortestPath((bacon:Perso
n {name:"Kevin
Bacon"})-[*]-(meg:Person
{name:"Meg Ryan"}))
RETURN p
database Neo4j

database Neo4j
Cypher:
exécuter le code ci dessous
MATCH p=shortestPath(
(tomC:Person {name:"Tom
Cruise"})-[*]-(TomH:Person
{name:"Tom Hanks"})
)
RETURN p

Sortez vos données du frigo
Une entreprise performante avec la Data et l'IA
Mick Lévy
Manifeste pour une exploitation
intensive et responsable des données À
l’ère du numérique, alors que tout est
optimisé pour la compétitivité des
entreprises, les données restent peu
exploitées.

La publicité à l'heure de la data
Ad tech et programmatique expliqués par des experts
Ad tech et programmatique
révolutionnent la publicité digitale. Dans
cet ouvrage, 15 professionnels et
universitaires travaillant au sein
d’organismes leaders en livrent les
grands principes et les recettes
opérationnelles

Notes et références
1. Cours Big Data Chap5
2. Solving Storage Just the Beginning for Minio CEO Periasamy
3. Graphique: Le Big Bang du Big Data | Statista
4. Avito Context Ad Clicks | Kaggle
5. Big Data.. from Space! Exploring Fraud Detection With Neo4j & Graph Data Science –
Part 1
6. Welcome To Colaboratory
7. Jupyter Notebook
8. Google Colab : Le guide Ultime | Le Data Scientist
9. Amazon Comprehend

1. Le Pôle Léonard de Vinci poursuit son développement à la Défense - Le Figaro
Etudiant
2. Machine Learning - Fashion MNIST dataset - Prologue - DEV Community
3. Automatic Image Captioning Using Neural Networks
4. IA Vision | Obtenir des insights à partir d'images via le ML | API Cloud Vision
5. https://www.kaggle.com/tinoswe/split-python-dataframe
6. https://www.fileformat.info/tool/hash.htm
7. Comment les neurones font-ils fonctionner notre cerveau ? - Science & Vie
8. Cerveau : comprendre le fonctionnement du cerveau humain
9. Neurone artificiel - Définition du glossaire

1. Applying ANN | Digit and Fashion MNIST | by Ben Roshan | Analytics Vidhya
2. 2D Visualization of a Convolutional Neural Network
3. Google brain simulator teaches itself to recognize cats | ZDNet
4. NN SVG
5. A Neural Network Playground
6. Reinforcement learning on a chicken
7. Neo4j Sandbox | Online Graph Database – No Download Required
8. Art ASCII — Wikipédia

BIG DATA: plateforme et outils

The 2021 Machine Learning, AI and
Data (MAD) Landscape

Introduction à la BIG DATA et l'Intelligence Artificielle

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Introduction à la BIG DATA et l'Intelligence Artificielle

Semelhante a Introduction à la BIG DATA et l'Intelligence Artificielle (20)

Mais de Medhi Corneille Famibelle*

Mais de Medhi Corneille Famibelle* (11)

Introduction à la BIG DATA et l'Intelligence Artificielle