Etat de l art business intelligence

Etat de l’art du « décisionnel »

1

© OCTO 2012

Agenda

Le contexte de la business Intelligence aujourd’hui

Etat de l’art - architecture décisionnelle

Etat de l’art - Système de collecte et d’intégration
ETL
Stockage (Appliance, SGBD, NoSQL, Hadoop)

Etat de l’art - Système de diffusion et de présentation
Plateforme décisionnelle
Dataviz
Plateforme analytique

Open space sur la BI

2

© OCTO 2012

Le contexte de la business
intelligence aujourd’hui

3

© OCTO 2012

Tout le temps !

5

© OCTO 2012

SOLOMO

Crowd Multi
sourcing Nouveaux terminaux
usages

Internet Capteurs,
Des objets RFID/NFC

8

© OCTO 2012

Fin de
l’hégémonie du
SGBDR

Machine Event-based
Learning Nouveaux
Systèmes
IT
d’information

SI composite
Open API/Data Cloud

9

© OCTO 2012

Interfaces
Dataviz
cérébrales

Nouvelles
interfaces

Réalité
augmentée Reconnaissance

10

© OCTO 2012

Nouveaux Nouvelles
usages interfaces

Nouveaux
systèmes
d’information

11

© OCTO 2012

Les infrastructures ne sont pas en
reste

12

© OCTO 2012

Diminution du coût du stockage

1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
1,000,000.00

100k $/GB
100,000.00

10,000.00

1,000.00
HDD
100.00 RAM
10.00

1.00

0,10 $/GB0.10
0.01
Source :http://www.mkomo.com/cost-per-gigabyte

13

© OCTO 2012

Une évolution du « hardware » toujours
fantastique…

14

© OCTO 2012

Performance des disques toujours
croissante, mais…

70
Seagate
Barracuda
7200.10
64 MB/s
60
Le débit des disques augmente
50 Sans parler de SSD
Et de stockage in memory
…Salutaire pour
Débit (MB/s)

40
Seagate
Barracuda
ATA IV
Plus de traitement
30 Plus rapide
Gain : x91 Mais pas aussi rapidement que la
20
capacité de stockage (*100 vs *100
IBM DTTA
000)
10 35010

0,7 MB/s
0
1991 1996 1998 2001 2006
15

© OCTO 2012

La frontière du débit

ms µs ns

0.000,000,000,000 L2, L1 Cache
Disk Local
network Memory

Challenge : Comment allez au-delà?

Idée #1 : en parallèle

Idée #2 : la mémoire / le cache

16

© OCTO 2012

Derniers benchmarks sur le coût des machines

Comparatif à « puissance équivalente (RAM/CPU) »

Attention, à prendre avec des pincettes du fait :
des modes de facturation,
des autres coûts cachés (compétence, exploitation…)
des points de comparaison

17

© OCTO 2012

Et coté stockage

SAN Filers NAS Local storage
$2 - $10 par GB $1 - $5 par GB $0,05 par GB

Available storage 0,5 PB 1 PB 20 PB
for 1 million $ 200 000 IOPS 400 000 IOPS 10 000 000 IOPS
1 GB per second 2 GB per second 800 GB per second

Source :
http://www.slideshare.net/lucenerevolution/the-search-is-over-integrating-solr-and-
hadoop-in-the-same-cluster-to-simplify-big-data-analytics

18

© OCTO 2012

Les architectures décisionnelles

19

© OCTO 2012

Overview Architecture fonctionnelle

Transverse
Données opérationnelles de l’entreprise Données externes
Data Quality

Data Alimentation (Extract, Transform, load)
gouvernance

Système de collecte
et d’intégration Réception

Historisation Nettoyage /
Stockage enrichissement /
Extraction stockage
Administration
Publication
Ordonnancement
Alimentation (Extract, Transform, load)
Sécurité
Tracabilité Système de diffusion et de présentation
Business Activity Reporting Analyse Datamining Portail Stockage
Monitoring

20

© OCTO 2012

Overview Architecture Technique
SIO SIExternes

ETL, EAI, FTP
Transverse Back-up (SCI) SCI Contrôle

Staging ETL DQM
Habilitation Archive

ETL/ELT
Référentiels
Audit
ODS

ETL/ELT

BAM DWH
Archive

SDP

Scheduler
Datamarts

21

© OCTO 2012

Ces architectures décisionnelles…

…ont 20 ans

Si on peut leur souhaiter de vivre aussi longtemps que le
mainframe, il va être nécessaire de s’adapter à un contexte
riche en changement

22

© OCTO 2012

SID : un changement nécessaire
Les coûts
Les délais et le peu de flexibilité
La volumétrie Faiblesses La qualité de données
Le réglementaire Satisfaction utilisateur
SLA Nouvelles
contraintes

Séparation TP et AP Système
J+1 Anciennes Système
décisionnel
MOLAP croyances décisionnel
Datamart physique NG
historique

Nouveaux
besoins
L’autonomie des utilisateurs La BI agile
Le temps réel Nouveaux Les appliances
La mobilité paradigmes L’Open Source
Données exogènes et non structurées NoSQL et Big data
Commodities
Le cloud

23

© OCTO 2012

Localisation des maux
Diminution
des coûts SIO SIExternes
Données non
Temps réel, structurées
Frontière gestion des EAI, FTP
ETL, (réseau sociaux,
Transverse Back-up (SCI) SIO/SID
SCI évènements Contrôle
pdf, videos…)

TTM
Staging ETL DQM
Habilitation Archive
Commodities
ETL/ELT
Référentiels
Audit
ODS
Appliance

ETL/ELT
MDM
BAM NoSQL DWH
Archive Column
base
SDP

Scheduler
Datamarts

Machine
Mobile In memory Dataviz
24 learning
© OCTO 2012

Identification de 3 modèles d’architecture

3 modèles d’architectures répondent à ces nouveaux enjeux

La richesse de notre job est que ces 3 modèles sont bien entendu
déclinables et combinables à l’infini selon les critères de choix retenus

25

© OCTO 2012

Architecture historique

ETL Operational Datastore
(ODS)
Contrôle, enrichissement et
traitements des données
opérationnelles
Modèle relationnel
ETL
Datawarehouse (DWH)
Stockage, archivage
Modèle relationnel

ETL
Datamart (DM)
Agrégats, cube d’analyse
Modèle en étoile,
Outils de Business multidimensionnel
Intelligence
Visualisation, export
bureautique
26

© OCTO 2012

Architecture in memory ou virtualisée

Fichiers de données bruts
Stockage, archivage …
…ou pas

Base de données en
mémoire (RAM) distribuée
Contrôle, calculs,
agrégation
Modèle multidimensionnel
Outils de Business
Intelligence
bureautique

27

© OCTO 2012

Architecture distribuée

Grille de stockage de
données, combinée à une
grille de traitement des
données
Contrôle, calculs, agrégation

Outils de Business
Intelligence
bureautique
28

© OCTO 2012

Système de collecte et d’intégration :
Les ETL

29

© OCTO 2012

Magic quadrant ETL

Ça n’a pas changé depuis 2008…

30

© OCTO 2012

Analyse du quadrant (1/2)

Correspond à notre observation de la présence de ces logiciels en
entreprise avec une poussée de Talend (open source) sur les PME

Ces outils restent indiscutables face à une hétérogénéité de formats et
de sources de données…

… mais leurs concurrents historiques gardent le cap, voir accélèrent :
Développement in House
EAI, ESB, FTP…
Approche ELT/ETL qui est une guerre en train d’être perdue par les ETL
depuis 2008 surtout face aux appliances et autres systèmes de stockage
dopés.
ELT ETL ELT
2002 2008

31

© OCTO 2012

Analyse du quadrant (2/2)

Stratégie de consolidation affichée par ces acteurs sur une approche
plateforme d’intégration
DQM et MDM notamment

Qui fait face à de nouvelles stratégies issues du SIO …
CEP sur le temps réel
Les offres de virtualisation de données
Indexation de données

Et un dernier challenger que l’on attendait pas forcément :

32

© OCTO 2012

ETL : avis

• ERP
En voie d’essoufflement… • CRM
• Gestion d’identité
Premières • Portails
adoptions • NoSQL
Se limiter aux use cases pertinents :
• Virtualisation
Sources très hétérogènes • Moteur de recherche
Volumétrie mesurée Émergent • Monitoring
• Middleware de messagerie
Réutilisation des flux • Outils d’infrastructure

ETL • Systèmes de gestion d
Privilégier l’OpenSource • Outillage de test
Répandu • Frameworks applicatif
• Intégration continue
• CMS et GED
Ne pas payer 2 fois
• Système d’expl
l’infra (ETL et appliance) • Serveur Web
• Serveur d’appli
Fortement répandu • Base de donné
• Wiki
• IDE

33

© OCTO 2012

Système de collecte et d’intégration :
Le stockage

34

© OCTO 2012

Magic quadrant stockage datawarehouse

35

© OCTO 2012

Analyse du quadrant

2 approches correspondant à des use cases différents :
Stockage old school
Appliance (dont IQ un peu inclassable, problème de positionnement)

Stockage old school < 15 To
Oracle, DB2 le plus souvent observé
Quelques incursions de Microsoft, Postgre et Mysql

Appliance > 15 To
Marché en forte consolidation, il ne reste plus que 4 offres sur le marché
Teradata et Oracle sont les mieux positionnés dans les grandes
entreprises
Ces offres se sont complétés de toutes les technologies « hype »
(MapReduce, SGBD colonne, in memory, disque flash, connecteur
Hadoop…)

36

© OCTO 2012

Et le NoSQL dans tout ça : un seul driver…

€

• Performance
(latence)
• Parallélisation
• Volume
• Transactions /
sec.

37

© OCTO 2012

A CID comme variable d’ajustement
« Il est impossible pour un système informatique de calcul distribué de garantir en
même temps la consistance, la disponibilité et la résistance au morcellement »
Eric Brewer

« Availability »
Les clients peuvent
A toujours accéder au
système (lecture écriture)

La stratégie des sites
L’univers des
à gros trafic.
SGBRD
Avec cohérence in fine

« Partition tolerance »
« Consistency » Le système continue a
Tous les clients ont
la même vue de la
C P fonctionner en cas de
« partition » - plusieurs
donnée sous-ensembles n’arrivent
plus à communiquer
38

© OCTO 2012

En fait, rien de très neuf…

Stockage de gros
Volume

Approche historique HDFS
Exadata HBase
Approche mémoire
Approche distribuée Hadoop
Teradata
Hana
HDFS
MapReduce
Hive
Quartet
Projets
ActivePivot Architecture
associés Voldemort
Prise en compte Cassandra BI
NoSQL Accès et lecture
des évènements standard
Pig multiple en parallèle
en temps réel Esper SGBDR,
Hive
ETL…
Chuckwa
Cassandra,
Hbase iGraph
Mahout Hama
Pig
ZooKeeper
Grid Computing
Map Reduce

39
Capacité de calcul en
© OCTO 2012 paralléle

Y’a Hadoop quand même…

Reporting Workflow
IBM BigSheets Pentaho Hue Beeswax Oozie / Azkaban
Outil de requêtage Reporting Interface web de requêtage Workflow pour jobs Hadoops dépendants

Requêtage Traitement distribué avancé
Pig Hive Mahout Hama
Langage de flux de données DSL de requêtage « SQL-like » Machine learning Bulk Synchronous Processing

Traitement Supervision
Platform Management
MapReduce Hue
Console
Framework permettant de traiter des données en parallèle

Intégration au SI
Stockage Hbase Sqoop
Intégration RDBMS & Hadoop
Base de données pour des accès aléatoires read/write

HDFS Flume, Chukwa, Scribe…
Un système de fichiers distribué write-once, read-many Collection de données fiable et résiliente

Infrastructure
40

© OCTO 2012

Hadoop Distributed File System,
la couche de stockage « non structurée »
 Utilisation de « commodity disk » plutôt que d’un SAN
 Stockage de fichiers plus volumineux qu’un unique disque
 Répartition des données sur plusieurs machines
 Réplication des données pour assurer le « fail-over » : « rack awareness »

NameNode
DataNode

DataNode

DataNode
DataNode
File#1 File#1
Block#1 Block#2

File#2 File#2 File#2
Block#1 Block#2 Block#3

File#1 File#1
Block#1 Block#2

41

© OCTO 2012

MapReduce, le système de requêtage

 Paralléliser / Distribuer les traitements
 Traiter plus rapidement des volumes de données unitaires plus faibles
 Co-localiser traitements / données

42

© OCTO 2012

Le requêtage
Deux DSL pour masquer la complexité

PIG: un langage de flux HIVE: un SQL-like
records = LOAD ‘/input/cashflows.txt’ CREATE TABLE cash_flow (BookID STRING,
AS (BookID:chararray, ProductID:chararray, ProductID STRING, TraderID STRING, DueDate
TraderID:chararray, DueDate:int, BIGINT, Currency STRING, Amount DOUBLE,
Currency:chararray, Amount:double, Direction STRING, Counterparty STRING) ROW
Direction:chararray, Counterparty:chararray); FORMAT DELIMITED FIELDS TERMINATED BY
't' LINES TERMINATED BY 'n' STORED AS
ccy_grouped = GROUP records BY Currency TEXTFILE;

results = FOREACH ccy_grouped GENERATE LOAD DATA INPATH '/data/cashflows.txt'
group, SUM(records.Amount); OVERWRITE INTO TABLE cash_flow;

DUMP results; select Currency, sum(Amount) from
cash_flow where Direction='Credit' group
by Currency;

Metastore
HDFS

HDFS

43

© OCTO 2012

L’écosystème NoSQL

45

© OCTO 2012

Base de données clés-valeurs

Modélisation de type Hashtable Papier de recherche
Origine
A une clef correspond une (et une seule) valeur d’Amazon sur Dynamo
Le type de la valeur n’est pas à spécifier
La valeur peut être de n’importe quel type

Clés Valeurs
Opérations
Valeur : Objet
Put Clé : Objet Objet 1 Objet 3

Get Ligne Objet 2

Delete Valeur : Objet
Objet 1 Objet 3
Pas de possibilité de requêtage autre que par la clé Clé : Objet
Ligne

Valeur : Objet
Cas d’usage Clé : Objet Objet 1 Objet 3

Stockage de données identifié par une valeur unique Ligne Objet 4

session
préférence utilisateur
Cache de données
Maintien de contextes hautement accessibles
Redis, Riak, Voldemort,
Dédoublonnage de données Exemple …

46

© OCTO 2012

Exemple : modélisation clé/valeur
Directement utilisatble pour de nombreux use cases
HTTP sessions, …
Dans les autres cas, cela nécessite une modélisation en accord
avec les patterns d’accès aux données
Clé composité
Contenu agrégé
Attention jointur = full scan

Customer
Cst1
Account
Cst2
Acc1 Key/Value
Cst1#Acc1 { Op1=100, Op2 =-50}
Acc2
Cst2#Acc2
Operation
Op1 +100
Op2 -50
47

© OCTO 2012

Base de données colonnes

Modélisation dérivé du clé-valeur mais orienté colonnes Papier de recherche de
Origine
Des familles de colonnes pour remplacer le concept de Google sur BigTable
tables dans les SGBDR
Et des données semi-structurées dont les blocs
colonnes sont stockés de manière triée
Clé Famille de colonnes 1

Opérations Colonne1 Colonne2 Colonne3
Clé : Objet Objet 1 Objet 21 Objet 31
Requêtage par clé ou ensemble de clé Ligne

Requêtage possible sur valeur d’index secondaire
Colonne2
Sélection d’une ou plusieurs colonnes résultat Clé : Objet
Objet 22
Ligne

Cas d’usage Colonne3 Colonne4
Clé : Objet Objet 32 Objet 4
Web Ligne

Priorité à la disponibilité plutôt qu’à la consistance des
données
Haut débit et faible latence
Schéma de données évolutif HBase (slide 103) et
Exemple
Beaucoup d’écritures, peu de lectures Cassandra (slide 104)

48

© OCTO 2012

Base de données documents

Modélisation dérivé du clé-valeur avec des documents
Origine Lotus Notes
Les documents sont des données structurées
sous la forme d’arbres hiérarchiques (sous-documents)
Les données peuvent être de différentes natures
Chaînes de caractères, valeurs scalaires, tableaux…
Clé Documents
Les documents sont auto-portants
Contient les informations décrivant sa structure et les valeurs Document: Objet
{ Champ1: Objet,
Clé : Objet
associés Ligne Champ2: [Objet, Objet] }

Plusieurs formats de stockage du document
XML, JSON, BSON, … Document: Objet
{Champ1: Objet,
Clé : Objet
Champ3: Sous-Doc: {Champ21:
Ligne Objet} }

Opérations Document: Objet
{Champ4: Objet }
Clé : Objet
Requêtage évolué (autre que par la clé) Ligne

Cas d’usage
Recherche documentaire, catalogue produits, CMS…
Fort besoin de schéma faiblement structuré
Exemple MongoDB (slide 105)
Beaucoup de lectures, peu d’écritures

49

© OCTO 2012

Base de données graphes

Modélisation de type nœuds/relations
Origine Théorie des graphes
Repose sur l’interconnectivité des données
(contrairement aux autres types de solutions NoSQL qui
ne supportent pas les relations)
Les données sont non seulement attachées aux nœuds
mais également aux relations (property graph) Noeud1
Prop10

Opérations
Parcours de graphes (traversal) Relation1 Relation2
Algorithmes de traitement de graphes (Dijkstra, …)
Prop11 Prop12 Prop20

Noeud2 Noeud3
Cas d’usage Prop21 Prop22 Prop3

Réseaux sociaux
Réseaux de transports
Réseaux logistiques
Réseaux électriques
Réseaux télécoms Exemple Neo4j (slide 106)

…

50

© OCTO 2012

Typologies : OLTP vs OLAP…

51

© OCTO 2012

Le stockage : avis

Une certitude : « one size doesn’t fit all »

Quelques alternatives intéressantes à surveiller
Intrusion des moteurs de recherche (Exalead)
Solution en rupture VB-DBMS (Iluminate)
La virtualisation

Mon architecture décisionnelle composite de demain :
Reporting sous datawarehouse Postgre alimenté par Talend
Analytique sous Exadata + complément Hadoop en stockage,
traitements supplémentaires et historisation des données froides
Une base Titan pour les réseaux sociaux

53

© OCTO 2012

Pourquoi cette frilosité entre BI et NoSQL?

Parce que la plupart de ces technologies sont inadaptées à l& BI,

Parce qu’on sait gérer des To depuis longtemps et qu’on a 20 ans
d’expérience sur des problématiques de forte volumétrie (stockage et
performance)

Parce que c’est OpenSource et que c’est un milieu gangréné par les
grands éditeurs (Oracle, IBM…)

Mais surtout parce qu’on affronte un changement comparable à migrer
des cobolistes vers de l’Open :
Environnement BI actuel (SQL, L4G, basic, C et Shell au pire) vs
environnement NoSQL (java généralement)
Les BICC au mieux qualifient négativement ces solutions, voir font l’impasse
dans l’attente de solutions propriétaires (connecteur avec couche
d’abstraction)
L’âge de pierre de l’ingénierie logicielle (pas de test, pas d’usine)

L’enjeu est de parvenir à réunir ces 2 mondes sur les compétences et sur
les pratiques
54

© OCTO 2012

Système de diffusion et de présentation :
La plateforme décisionnelle

55

© OCTO 2012

Plateforme décisionnelle : magic quadrant et part
de marché…

(24%)

(15,6 %)

(12,6 %)

(11,6 %)

(8,7 %)

56

© OCTO 2012

…inversement proportionnelle concernant la
satisfaction utilisateur

Overall Customer Experience Source: Gartner 2011.
57

© OCTO 2012

Analyse des quadrants
Les leaders du marché sont peu challengés et profitent pleinement de
leur base installée (ceux sont les mêmes depuis 10 ans…):
Ils disposent d’une couverture de service très étendue
L’innovation est faite par acquisition ou reproduction
Ils profitent de la politique de rationalisation des DSI
Ils profitent de tous les freins propres au changement (habitudes des DSI,
habitudes des utilisateurs…)

De nouveaux acteurs perturbent ce marché avec une approche
utilisateur final et métier
Qliktech, Tableau Software, BIME

Le facteur prix est ensuite un facteur de positionnement dans un
contexte assez gris
Microsoft
OpenSource : Jaspersoft et Pentaho

58

© OCTO 2012

Tendances du marché
Poursuite de la rationalisation du marché et dans les DSI dans une
optique d’économie
Génère de nouveaux achats de solution par les métiers

L’ « in memory » est une approche de référence introduite pas
Qliktech et devenue un incontournable aujourd’hui.
La tendance s’est diffusée au niveau hardware (appliance), des SGBD
(HANA, Ibm, Oracle, MySql), ou au niveau software (Powerpivot…)
MOLAP est mort… ou du moins en fin de vie en dehors de use cases
complètement balisés (comptabilité avec Hypérion)

Arrivée d’approche non dépendante (moins) de la modélisation : les
approches NoSQL (mongoDB), les technologies
associative/corrélative (CDBMS illuminate : VBS, indexation par
contexte et relation gérée en métadonnée) tendent à ne plus
forcément structurer un projet autour de la modélisation
 la panacée du ad hoc (attention au perf au chargement)

59

© OCTO 2012

Compatibilité Hadoop

Hive QL MapReduce
HDFS File scripting
Datamining
SAS (SAS/ACCESS et SAS BASE)
R RevoScale

Business Intelligence
SAP Business Object
Oracle BIEE
MicroStrategy
IBM BigSheets
IBM Cognos
Tableau
Tibco Spotfire
Pentaho
QlikTech (through DataRocket)
Datameer

60

© OCTO 2012

Plateforme décisionnelle : avis

Si on construit un système décisionnel de zéro, il est raisonnablement
difficile de choisir une acteur du marché historique

Une certitude : « one size doesn’t fit all »

3 critères de choix apportent des différentiants forts en dehors des cas
d’usages :
Le prix
Le contexte (technologique, compétence…)
L’expérience utilisateur

Excel reste le meilleur choix dans bien des situations

Quid du dataviz?

61

© OCTO 2012

Dataviz

62

© OCTO 2012

L’importance de la visualisation des données

L’objectif de la data visualisation est de communiquer une
information claire et efficiente à l’aide de moyen graphique

La data visualisation est un outil fondamental de l’analyse et est
un support de communication du résultat
Donne du sens
Impact visuel
Lisibilité du message
Cohérence entre données et messages
 Stimuler l’attention et l’engagement

La data visualisation est devenu un domaine de recherche à
part entière (à ce titre des enseignements existent)

63

© OCTO 2012

Les typologies de représentation visuelle (1/6)
De l‘âge de pierre…

64

© OCTO 2012


Cumulative
Histogramm histogramm

65

© OCTO 2012


Scatter chart

Bubble chart

66

© OCTO 2012

…A l‘âge de l’information…

Geo chart Graph/Cluste
r

67

© OCTO 2012

…A l‘âge de l’information…

Heat map Tree map

68

© OCTO 2012

…A l‘âge du dataviz

Illustration – D3.js

69

© OCTO 2012

Comment présenter efficacement des données
analytiques?
A chaque typologie de donnée correspond un mode de
représentation privilégié

Type de données Mode de représentation
Statistique descriptive mono-variable • PieChart
• Histogramme
• CDF (line chart)
Statistique descriptive multi-variable • Geo Map
• Tree map
• Heat map
Relations • Graph
Série temporelle • Line chart
• Timeline
Statistique explicative • Scatter Chart+ line
• BubbleChart + line

70

© OCTO 2012

Forrester wave (en attendant le gartner…)

71

© OCTO 2012

Les outils de visualisation spécialisés

Analyse de données multi variés : Analyse de textes
R IBM BigSheets
Revolution Analytics IN-SPIRE. IN-SPIRE™ provides
IBM Attribute explorer tools for exploring
Ggobi, XGobi
Mondrian (rosuda.org) Toolkit
JUNG
Analyse de réseaux et de graph Gephi toolkit
Gephi Google Chart
Graphviz Processing (http://processing.org)
NodeXL Protovis/ D3.js
http://selection.datavisualization.ch
Analyse de cartes (maps)
Google Fusion Tables

73

© OCTO 2012

Dataviz : avis

Une réponse aux nouveaux enjeux
Volumétrie, temps réel, big data
Synthèse, convaincre en peu de temps, capter l’attention
 Rien de plus frustrant que de parvenir aux résultats sans arriver à
l’expliquer/le démontrer simplement

Dataviz = l’usabilité étendue à la business intelligence :
proposer des représentations de la donnée utiles utilisables

Si ce n’est pas votre métier : limitez-vous aux outils du marché
en attendant la démocratisation d’outils spécifiques
De nouveaux métiers apparaissent, on ne parle plus de web
agency mais de data agency

74

© OCTO 2012

3 philosophies complémentaires de l’analyse

L’analyse se focalise sur les
propriétés intrinsèques des
données
Ex : moyenne, saisonnalité,
stationnarité, …
L’analyse se focalise sur
l’identification d’un modèle Statistiques
mathématique robuste à
partir des données
Ex : régression, classification,
descriptives
L’analyse se focalise sur
réduction de dimensions, … l’apprentissage à identifier
des propriétés et des
modèles mathématiques à
partir des données
Ex : clustering, pattern
matching, Support Vector
Machine, …

Machine
Data mining
learning

77

© OCTO 2012

On nous a menti!!!

Rien de neuf sous le soleil…

Statistiques Machine
descriptives learning = Data
mining

78

© OCTO 2012

J’exagère?

Différence sémantique évidente…

Une possibilité (parmi plusieurs dizaines…) : le Data
Mining, c’est l’application du machine learning

Ma meilleure proposition issue de l’usage que l’on en fait (vrai
dans 90% des cas):
Now, increasingly, people are comfortable using the term "machine
learning" for cases where "data mining" was used in the past.

79

© OCTO 2012

Plateforme analytique : avis

Attention ces outils ne sont pas à la portée de tout le monde
Les bases de la statistiques sont nécessaires
On parle de data scientist
Utiliser les bons modèles/méthodes…

Le modèle de pricing de ces solutions ne peut pas être qualifié
d’amical

Montée en puissance de R au détriment des leaders (changement
d’époque : on utilise R dans les écoles d’ingénieur, plus SAS…)

82

© OCTO 2012

MDM : Master Data Management ?

Les acteurs du MDM sont
les mêmes que les
plateforme d’intégration

Dans 90% des cas le sujet
est abordé par le prisme SIO

Le MDM est un univers
complexe
Solution généraliste
(orchestra)
Solution spécifique objet
(PIM, CDI)
Solution métier
(masterI, ERP)
Sans oublier le
développement spécifique
84

© OCTO 2012

DQM : Data Quality Management ?

Les acteurs du DQM sont les mêmes
que les plateformes d’intégration et
MDM…

Ces outils regroupent des
fonctionnalités de …
Découverte (profilage)
Nettoyage
Normalisation
… couplés généralement avec un
ETL

85

© OCTO 2012

MDM, DQM : avis

Une recommandation concernant le MDM est un sujet d’architecture
en soit (gouvernance de la donnée, échange, choix d’architecture et
de solution…).
Ce que l’on peut en dire sans se mouiller:
Ça fonctionne même sur des grosses archis (en spécifique)
C’est très dur à vendre au business et ça coûte cher
Dans 90% des cas  hébergement par l’ERP
C’est le saint graal des urbanistes, donc méfiance

Concernant les outils de DQM, leur tarification leur interdit une
utilisation massive qui pourrait être intéressante car cela reste des
outils très puissants
Dans 90% des cas les entreprises développent en spécifique et limitent
les fonctions de DQM aux données de références via des outils
spécifiques (normalisation des adresses)

86

© OCTO 2012

La gestion des métadonnées ?
Pour quels usages?
Analyse d’impact
Documentation
Dictionnaire
Génération de code automatique…

Malheureusement cette gestion est propre à chaque outil  ce qui profite
aux architectures mono-éditeur…

…alors que des standards existent : Common Warehouse Metamodel
(CWM™) Metadata Interchange Patterns (MIP)

Nous n’avons pas identifié de solution miracle:
Développement spécifique
Adresser par d’autres référentiels (MDM), référentiel d’architecture
(Aris,PowerAMC, Mega…)
Wiki…
Des solutions existent par éditeur (IBM information server
metadata, informatica metadata manager...) qui nécessitent du spécifique
pour une intégration complète

87

© OCTO 2012

Bi & OpenSource?

Les outils Open source arrivent à maturité sur le marché du décisionnel
avec une pénétration PME et Grands Comptes

Les solutions couvrent aujourd’hui tout le spectre du décisionnel et
constituent une alternative pertinente avec par exemple :
ETL Reporting OLAP
- Kettle - JasperReports - Mondrian
- Talend - Birt - JPivot

Plateforme Datamining
- Weka
- Pentaho
- Jasper Soft

Sans oublier et d’autres solutions présentées dans cet
état de l’art
88

© OCTO 2012

Cloud computing et BI?

« Permettant de contrôler des données volumineuses, l'informatique
dans les nuages devrait bouleverser substantiellement le marché de la
Business Intelligence grâce à son coût peu élevé, à son extensibilité
et sa flexibilité »

Dans les faits, la BI dans le cloud est confrontée à:
Une crainte des clients relative à la localisation des données
Une offre SAAS des éditeurs historiques très loin d’une approche self-
service (c’est une nouveau paradigme pour ces acteurs)
Un avantage économique encore incertain

A court terme nous recommandons de :
Privilégier les offres IaaS et PaaS (Amazon Elastic, Google bigQuery….)
Privilégier les offre SaaS natives (BIME partenaire google)
Tester Amazon marketplace (jaspersoft et BO)

89

© OCTO 2012

Mobilité et BI?
source: DAS Mobile Business Intelligence Market Study – October 2011, DRESNER ADVISORY SERVICE
Microstrategy comme
précurseur et leader

3ème usage mobile recensé
dans le cadre professionnel

68% des organisations jugent
le sujet très important

Préférence d’une approche
native et sur de l’iOS (non
tenable sur la durée 
HTML5)

Avis : suit le changement des
usages. Réellement une
priorité?
90

© OCTO 2012

Agilité et BI?

Aujourd’hui de nombreux retours d’expériences de projets décisionnels mettent en
évidences les carences suivantes :
La difficulté de lutter contre l’effet tunnel
Le retard important dans la mise en œuvre et les budgets en augmentation
Un problème d’agilité pour faire évoluer ou adapter la solution aux besoins changeants
Un rejet de l’application par les utilisateurs

Les méthodes agiles ont fait leur preuve et constituent une approche pertinente
dans la construction du SI Décisionnel (SID), afin de soulager les carences
précitées qui sont au cœur des apports potentiels de ces méthodes
Les méthodes agiles répondent très bien à une adage du Décisionnel « voir grand en
commençant petit »
L’approche des méthodes agiles doit être adaptée en prenant en compte les spécificités
des projets décisionnels

Elle nécessite cependant les pré-requis suivants propres à l’industrialisation des
pratiques de développement (vrais freins):
Politique de test (automatisation)
Pratique de modélisation (refactoring database et approche verticale et itérative)

91

© OCTO 2012

BI self-service?

Une demande récurrente adressée au DSI est de fournir une BI self-
service

Recevant des regards torves des DSI, les métiers achètent de
nouvelles solutions éditeur pour parvenir à une fonctionnalité…

…déjà présente dans les outils de la maison proposés par la DSI mais
dont la mise en oeuvre est bridée au niveau logiciel ou par les
processus et la gestion des habilitation

La Bi self-service est avant tout un problème d’organisation et de
processus même si la dimension logicielle peut aider :
Virtualisation
Outils graphique user friendly + in memory
Data discovery

92

© OCTO 2012

Une offre de service BI?

Un letmotiv
« One size doesn’t fit all »

Que cela soit au
niveau des outils, des
architectures, de la
méthodologie ou des
processus

Processus
Architecture
Méthodologie

93

© OCTO 2012

Competence center et BI?

La notion de BICC est à la mode et s’est généralisée avec les modes
d’interventions suivants : Développement
« Expertise » Exploitation +
MCO
« Pilotage »
+
Gestion de projet
« Opérationnel partiel » Gestion qualité
Conseil +
« Opérationnel » Veille Cadre de
Prototypage référence

Education

Expertise Pilotage Opérationnel partiel Opérationnel

Ces organisations issues de rationalisation/outsourcing sont
challengées par les tendances suivantes :
La décentralisation des compétences et des outils vers le métier  la
prise de pouvoir par le métier
Les nouvelles technologies associées à la donnée (hadoop)
L’agilité
94

© OCTO 2012

Et la business intelligence en temps réel?

1er problème: trouver le cas d’usage…

Rappel : Un système d’analyse de données temps réel est un
système évènementiel disponible, scalable et stable, capable de
prendre des décisions (actions) avec une latence inférieure à … la
fréquence des évènements

Les architectures historiques fonctionnent en J+1…
… mais ces limites peuvent largement être dépassées avec une revue de
la cinématique des traitements :
Chargement toutes les heures
Chargement toutes les 5 minutes
 Donc attendez avant de sortir la Maserati et trouvez un use cases qui
en vaille la peine

95

© OCTO 2012
©OCTO 2012

Architecture BI Real-time :
approche « In-memory »

IHM édition des règles IHM données historiques IHM données temps-réel

latence : 100 ms

évènements
Moteur CEP
structurés
Event/Condition/Action
Calculs et état en
Capture

Stream-based querying Applis
mémoire : décision / transactionnelles,
fenêtres de temps, Analyse multi-dim. action BPM, ESB
opérateurs, règles
…
évènements
non-structurés

Cache / Cache distribué

Historique des
Données de référence, DWH, évènements
interrogation de services
96

© OCTO 2012

Architecture BI Real-time : approche « Grille de
données »

STORM
latence : 100 ms

évènements
Moteur CEP
structurés
Calculs et état en
Capture

…
évènements
non-structurés


Historique des
Données de référence, DWH,
évènements
97

© OCTO 2012

Architecture BI Real-time :
approche « CEP »

latence : 100 ms

évènements
Moteur CEP
structurés
Calculs et état en
Capture

…
évènements
non-structurés


Historique des
Données de référence, DWH, évènements
98

© OCTO 2012

Le SID existe-il encore?

La frontière SIO/SID tend à disparaître du fait …
De la virtualisation des données
De l’utilisation des outils « BI » dans le monde opérationnel
De l’arrivée du temps réel
De la gouvernance des données
Des Boucles de feedback (CRM)

… et finalement ce n’est pas plus mal
Stigmatisation des architectures et des hommes
+ de partage de pratiques notamment sur l’industrialisation des
développements
Besoin de dépoussiérage des pratiques du monde SID

99

© OCTO 2012

EXPERTISE ARCHITECTURE

ERGONOMICS

PRAGMATISM SECURITY

The two most important asset of a company can not be
seen in its balance sheet: its reputation and its people
Henry Ford, car industry

INTEGRATION EXPERIENCE
TRAINING MOBILITY
AUDITS
AUTEUR

Joseph Glorieux Julien cabot
jglorieux@octo.com jcabot@octo.com TOOLS
AGILITY
100

© OCTO 2012

Etat de l art business intelligence

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Etat de l art business intelligence

Semelhante a Etat de l art business intelligence (20)

Mais de Joseph Glorieux

Mais de Joseph Glorieux (10)

Etat de l art business intelligence