Le Big Data touche le paroxysme de sa médiatisation. Tout est devenu Big Data, mélangeant nouvelles approches métiers, technologies et business models.
De vraies opportunités se présentent toutefois. Ainsi, la capacité à suivre en temps réel les indicateurs clés du business à partir d’un nombre croissant de sources de données est un challenge que le « Big Data » peut relever.
Découvrez, au travers d'un retour d'expérience commun EDF R&D/OCTO Technology, comment Storm peut vous permettre de relever ce défi.
Compte-rendu du petit-déjeuner : http://bit.ly/1dpbNgF
15. LES ENJEUX DU BIG DATA À
EDF, LE POINT DE VUE
D’EDF R&D
16. SMART GRIDS SMART METERS SMART DATA
Partout dans le monde des projets smart-grids voient le jour, motivés par des contraintes
économiques ou régulatoires, ou encore par des besoins environnementaux. Avec le développement
de nouveaux usages comme le véhicule électrique, avec l’augmentation des moyens de production
décentralisée, de nouvelles perspectives apparaissent pour la gestion de l’énergie. Un très grand
nombre de compteurs communicants, et plus généralement de capteurs vont être déployés: ils vont
| 16
provoquer un déluge de données auquel les compagnies énergétiques vont devoir faire face.
•
17. SMART METERING: UN DELUGE DE DONNEES
En France : 35+ millions de
compteurs intelligents des
milliards d’enregistrements
Actuellement, un projet pilote a
déployé 300K compteurs
•
•
| 17
18. DONNÉES MASSIVES DANS
LE DOMAINE DE L’ ÉNERGIE
Enjeux, challenges:
Plus de complexité dans le système électrique (production décentralisée, gestion de la
demande ….)
Multiplication des acteurs
Push technologique (compteurs communicants, internet des objets ….)
Nécessité d’une bonne traçabilité des actions
Le management des données et les nouvelles technologies vont être au cœur des
métiers d’EDF
EDF R&D SIGMA² | 18
19. DONNÉES MASSIVES DANS LE DOMAINE DE
L’ ÉNERGIE
Qu’y a-t-il de nouveau ?
Nouvelles sources de données (données de comptage, données de consommation
détaillées, services, données web, open data, …)
‘Digital utility’ : les systèmes physiques s’accompagnent de systèmes numériques
(transport, distribution, production), nouveaux acteurs, process de décisions plus
rapides
Difficultés et opportunités
(facile) La technologie est là
(difficile) Savoir quoi faire de la donnée?
Intégration des données ; Sécurité et
privacy; Culture de la donnée; Compétences;
comment encourager l’innovation ?
Opportunités: voir “Utility AMI analytics
for the smart grid”
•
| 19
20. DONNÉES MASSIVES DANS LE DOMAINE DE
L’ ÉNERGIE
Un volume très important de données
à gérer (smart
meters, capteurs, …), mais les
volumes ne sont pourtant pas si gros
Des traitements complexes :
Séries temporelles
Données distribuées, analyses
multi-échelles, niveaux local et
global (analytics, optimisation)
Temps réel
Demain
Decision
support
Integrated
communication
AMI / smart metering
Aujourd’hui
| 20
21. PROJET DE RECHERCHE À EDF R&D : SIGMA²
Objectifs :
Maîtriser les techniques associées au Big Data, assurer veille/anticipation, développer
des méthodes innovantes
Poursuivre et renforcer la diffusion et l’intégration de ces approches au sein de
l’entreprise
• Ces objectifs passent par la réalisation de prototypes, d’études de faisabilité, d’expérimentations en réponse à
des problématiques métiers
EDF R&D SIGMA² | 21
22. POC STORM : ENJEUX POUR EDF R&D
Le « Proof Of Concept » (POC) Storm s’inscrit pleinement dans les objectifs de
SIGMA² , notamment la maîtrise des technologies Big Data en lien avec le
contexte EDF présent ou à venir
Les solutions Stream Processing / CEP déjà maitrisées :
StreamBase (TIBCO) et InfoSphere Streams (IBM)
Objectifs du POC :
Mieux connaître Storm et le positionner par rapport aux outils déjà maitrisés
Juger de la capacité de Storm à répondre à un scénario riche de « traitements
EDF » à la volée sur des données en provenance de compteurs communicants :
couverture fonctionnelle ? Capacité à absorber le flux ?
EDF R&D SIGMA² | 22
23. POC STORM : SCHEMA FONCTIONNEL GLOBAL
Data in motion
Entrées
Smart Metering
Data Stream
Sorties
• Agrégats simples
: ex. synchrone
globale
http://storm-project.net/ •Agrégats ventilés
: ex. synchrones
par groupe tarifaire
Data at rest
Prévisions Météo
Tarifs
statiques / dynamiques
•Analytics :
ex. scoring par
compteur
•Prévisions :
ex. Prévisions J+1
en Wh et en CA
Données clients
(par exemple tarif)
EDF R&D - SIGMA - FROST | 23
24. Focus sur 3 points clefs
Sorties
1
Smart Metering
Data Stream
DATA
• Agrégats simples
: ex. synchrone
globale
10
5
0
1
229
457
685
913
1141
1369
1597
1825
2053
2281
2509
2737
2965
3193
3421
3649
3877
4105
Data in motion
Entrées
Prévisions Météo
Data at rest
ANALYTICS
Tarifs
statiques / dynamiques
FORECASTING
•Agrégats ventilés
: ex. synchrones
par groupe tarifaire
2
•Analytics :
ex. scoring par
compteur
3
•Prévisions :
ex. Prévisions J+1
en Wh et en CA
Données clients
(par exemple tarif)
EDF R&D - SIGMA - FROST | 24
25. 1- DATA : SIMULER MASSIVEMENT ET FIDELEMENT LES
COURBES DE CONSOMMATION ELECTIQUE
Utilisation d’un générateur / simulateur de courbes de charges
électrique, développé par EDF R&D
Consommations
individuelles
réelles
Consommations
individuelles
simulées
Modèle
génératif
Apprentissage
Utilisations possibles :
Simulation •
CARACTERISTIQUE DU GENERATEUR :
•Conserver la diversité des comportements individuels
•Reproduire des courbes ayant une volatilité comparable aux courbes
réelles
•Conserver le comportement global de l’agrégation des courbes
individuelles
• sans paramètres utilisateurs
•Simuler rapidement de gros volumes de données
•
Tester des outils
informatiques et des
méthodes statistiques
Echanger des
données simulées
EDF R&D - SIGMA - FROST | 25
26. 1 - DATA : EXEMPLES DE COURBES INDIVIDUELLES
GENEREES
Performance du processus de génération :
Code JAVA
CPU 2 GHz (Xenon E5405)
360.000 tuples / seconde / CPU
1 CPU = 18 x plus rapide que le temps réel
(35 M de compteurs, au pas demi-horaire)
| 26
27. 2 – ANALYTICS : TRAVAILLER SUR DES SERIES
TEMPORELLES SIMPLIFIEES
Les Séries temporellessont des données de forte
dimentionnalité, difficile à exploiter dans un contexte
Big Data
Notre approche ici :
SIMPLIFIER l’objet « Courbe de Charge » pour faciliter
sa manipulation et son analyse, surtout quand on
travaille avec plusieurs millions de séries temporelles
SAX : Passer d’une série de mesures à un mot plus
compact
Ensuite, nous utilisons cette forme plus simple pour
« scorer » chaque courbe selon que la forme de la
courbe est plus ou moins commun dans l’ensemble de
la population
Principe de la transformée SAX
EDF R&D - SIGMA - FROST | 27
28. 3 – FORECASTING : LES MODELES GAM
GAM = Generalized Additive Model
Modèles étudiés depuis 2006 à EDF R&D (Dépt. OSIRIS) et à EDF depuis quelques
années
Utilisés sur de nombreux signaux : consommation Electrique au niveau agrégé et niveau
local, consommation de Gaz, …
Structure très générique:
Fonction de transferts linéaires ou non-linéaires
Effets mono ou multi-varies
Littérature scientifique sur le sujet: Hastie and Tibshirani (1986), Hastie and Tibshirani
(1990), plus récemment Wood (2006)
EDF R&D - SIGMA - FROST | 28
29. 3 – FORECASTING : EXEMPLE DE MODÈLE GAM
•
Le Département OSIRIS utilise R pour la modélisation GAM
EDF R&D - SIGMA - FROST | 29
67. BILAN POC STORM PAR EDF R&D
Points positifs :
Solution crédible, qui couvre le spectre fonctionnel du scénario proposé
Coût , renforcé par l’intégration de Storm dans Hadoop (HDP Q1 2014)
Points négatifs :
Nécessité de s’investir dans un nouvel outil, avec sa logique et sa syntaxe
NB : trident offre cependant un niveau d’abstraction intéressant
Manque d’un studio de développement (cf. Streambase)
Ex : visualiser le graphe de traitements
Suite envisagée :
Prototype STORM d’un système d’estimation temps-réel des volumes
d’effacements électrique
•
EDF R&D SIGMA² | 67
3 sujets :Infra : Mise en place du clusterBackend : développement des analyses en StormFrontend : développement d’une interface de restitutionComment ?Co-localisation de l’équipeManagement visuel, Proximité avec les experts EDFMise au point et priorisation d’un backlogRéunion d’avancement et démo hebdomadaireOn y aborde les réussites et les points bloquantsOn y valide le travail réaliséOn y ajuste le backlog pour la semaine suivanteObjectifsPermettre à EDF de suivre facilement l’avancementFavoriser les échanges en directEviter les blocages, les non ditsApprendre à marcher ensembleToute l’équipe s’approprie le projet et en comprend mieux les tenants et aboutissantsGarde la motivation !
Calcul d’agrégats de consommation journalière Agrégats calculés-Synchrones-Moyennes de consommation-CA-Nombre de compteurs acquisCalcul des scores de normalité des compteursAlgorithme SAX fourni par EDFCalcul des prévisions de consommation Modèle GAM pré-calibréModèle GAM adaptatif-Visualisation dans l’interface de suivi -Par groupe tarifaire et national -Par compteur -Entre deux dates