SlideShare uma empresa Scribd logo
1 de 100
Etat de l’art du « décisionnel »




1

© OCTO 2012
Agenda

              Le contexte de la business Intelligence aujourd’hui

              Etat de l’art - architecture décisionnelle

              Etat de l’art - Système de collecte et d’intégration
                  ETL
                  Stockage (Appliance, SGBD, NoSQL, Hadoop)

              Etat de l’art - Système de diffusion et de présentation
                  Plateforme décisionnelle
                  Dataviz
                  Plateforme analytique

              Open space sur la BI



2

© OCTO 2012
Le contexte de la business
                  intelligence aujourd’hui



3

© OCTO 2012
PLUS !


4

© OCTO 2012
Tout le temps !


5

© OCTO 2012
Partout !


6

© OCTO 2012
7

© OCTO 2012
SOLOMO




               Crowd                                  Multi
              sourcing            Nouveaux         terminaux
                                   usages




                      Internet               Capteurs,
                     Des objets              RFID/NFC

8

© OCTO 2012
Fin de
                                  l’hégémonie du
                                       SGBDR




              Machine                                 Event-based
              Learning              Nouveaux
                                     Systèmes
                                                           IT
                                  d’information




                   SI composite
                  Open API/Data                    Cloud

9

© OCTO 2012
Interfaces
                                           Dataviz
              cérébrales

                           Nouvelles
                           interfaces




                Réalité
              augmentée                 Reconnaissance




10

© OCTO 2012
Nouveaux                   Nouvelles
               usages                    interfaces




                           Nouveaux
                            systèmes
                         d’information




11

© OCTO 2012
Les infrastructures ne sont pas en
                                           reste



12

© OCTO 2012
Diminution du coût du stockage



                       1965      1970    1975    1980   1985    1990    1995   2000   2005   2010   2015
            1,000,000.00

     100k $/GB
           100,000.00

              10,000.00

                1,000.00
                                                                                                           HDD
                 100.00                                                                                    RAM
                  10.00

                    1.00

     0,10 $/GB0.10
                    0.01
                           Source :http://www.mkomo.com/cost-per-gigabyte




13

© OCTO 2012
Une évolution du « hardware » toujours
      fantastique…




14

© OCTO 2012
Performance des disques toujours
                    croissante, mais…

                    70
                                                        Seagate
                                                        Barracuda
                                                        7200.10
64 MB/s
     60
                                                                     Le débit des disques augmente
                    50                                                  Sans parler de SSD
                                                                        Et de stockage in memory
                                                                     …Salutaire pour
     Débit (MB/s)




                    40
                                                  Seagate
                                                  Barracuda
                                                  ATA IV
                                                                        Plus de traitement
                    30                                                  Plus rapide
                                                     Gain : x91      Mais pas aussi rapidement que la
                    20
                                                                     capacité de stockage (*100 vs *100
                                       IBM DTTA
                                                                     000)
                    10                 35010



0,7 MB/s
      0
                         1991   1996      1998        2001    2006
15

© OCTO 2012
La frontière du débit


                                 ms         µs        ns


                      0.000,000,000,000                    L2, L1 Cache
                          Disk      Local
                                  network        Memory




                             Challenge : Comment allez au-delà?

         Idée #1 : en parallèle

         Idée #2 : la mémoire / le cache




16

© OCTO 2012
Derniers benchmarks sur le coût des machines


      Comparatif à « puissance équivalente (RAM/CPU) »




      Attention, à prendre avec des pincettes du fait :
              des modes de facturation,
              des autres coûts cachés (compétence, exploitation…)
              des points de comparaison


17

© OCTO 2012
Et coté stockage




                                  SAN                      Filers NAS                     Local storage
                             $2 - $10 par GB              $1 - $5 par GB                     $0,05 par GB

         Available storage       0,5 PB                      1 PB                             20 PB
         for 1 million $      200 000 IOPS               400 000 IOPS                    10 000 000 IOPS
                             1 GB per second            2 GB per second                 800 GB per second

                                                                                                                         Source :
                                               http://www.slideshare.net/lucenerevolution/the-search-is-over-integrating-solr-and-
                                                                        hadoop-in-the-same-cluster-to-simplify-big-data-analytics




18

© OCTO 2012
Les architectures décisionnelles




19

© OCTO 2012
Overview Architecture fonctionnelle

     Transverse
                           Données opérationnelles de l’entreprise                       Données externes
       Data Quality

         Data                                  Alimentation (Extract, Transform, load)
      gouvernance

                         Système de collecte
                         et d’intégration                             Réception

                          Historisation                                                        Nettoyage /
                                                         Stockage                            enrichissement /
                           Extraction                                                            stockage
      Administration
                                                        Publication
     Ordonnancement
                                               Alimentation (Extract, Transform, load)
         Sécurité
        Tracabilité      Système de diffusion et de présentation
     Business Activity           Reporting   Analyse        Datamining            Portail       Stockage
       Monitoring



20

© OCTO 2012
Overview Architecture Technique
                SIO                                            SIExternes



                                                     ETL, EAI, FTP
Transverse      Back-up (SCI)   SCI                                         Contrôle



                                      Staging               ETL                   DQM
 Habilitation         Archive

                                                ETL/ELT
                                                                                Référentiels
     Audit
                                                            ODS


                                                                ETL/ELT

     BAM                                         DWH
                      Archive

                SDP

  Scheduler
                                                                            Datamarts



21

© OCTO 2012
Ces architectures décisionnelles…




     …ont 20 ans


     Si on peut leur souhaiter de vivre aussi longtemps que le
     mainframe, il va être nécessaire de s’adapter à un contexte
     riche en changement




22

© OCTO 2012
SID : un changement nécessaire
                                                                     Les coûts
                                                                     Les délais et le peu de flexibilité
              La volumétrie                            Faiblesses   La qualité de données
              Le réglementaire                                      Satisfaction utilisateur
              SLA                       Nouvelles
                                        contraintes




     Séparation TP et AP                                                                     Système
     J+1                         Anciennes            Système
                                                                                             décisionnel
     MOLAP                       croyances           décisionnel
     Datamart physique                                                                          NG
                                                       historique




                                         Nouveaux
                                          besoins
       L’autonomie des utilisateurs                                  La BI agile
       Le temps réel                                   Nouveaux      Les appliances
       La mobilité                                    paradigmes     L’Open Source
       Données exogènes et non structurées                           NoSQL et Big data
                                                                      Commodities
                                                                      Le cloud


23

© OCTO 2012
Localisation des maux
 Diminution
 des coûts      SIO                                                        SIExternes
                                                                                       Données non
                                                        Temps réel,                     structurées
                                Frontière               gestion des EAI, FTP
                                                                ETL,                 (réseau sociaux,
Transverse      Back-up (SCI) SIO/SID
                                 SCI                    évènements                               Contrôle
                                                                                      pdf, videos…)

     TTM
                                            Staging                      ETL                            DQM
 Habilitation         Archive
                                            Commodities
                                                          ETL/ELT
                                                                                                      Référentiels
     Audit
                                                                         ODS
                                                                    Appliance

                                                                            ETL/ELT
                                                                                                    MDM
     BAM                                              NoSQL DWH
                      Archive                         Column
                                                       base
                SDP

  Scheduler
                                                                                                Datamarts


                                                       Machine
                                    Mobile                               In memory          Dataviz
24                                                     learning
© OCTO 2012
Identification de 3 modèles d’architecture


      3 modèles d’architectures répondent à ces nouveaux enjeux

      La richesse de notre job est que ces 3 modèles sont bien entendu
      déclinables et combinables à l’infini selon les critères de choix retenus




25

© OCTO 2012
Architecture historique


                              ETL      Operational Datastore
                                       (ODS)
                                       Contrôle, enrichissement et
                                       traitements des données
                                       opérationnelles
                                       Modèle relationnel
                                 ETL
     Datawarehouse (DWH)
     Stockage, archivage
     Modèle relationnel


                                 ETL
                                       Datamart (DM)
                                       Agrégats, cube d’analyse
                                       Modèle en étoile,
      Outils de Business               multidimensionnel
      Intelligence
      Visualisation, export
      bureautique
26

© OCTO 2012
Architecture in memory ou virtualisée




                                     Fichiers de données bruts
                                     Stockage, archivage …
                                     …ou pas

                                     Base de données en
                                     mémoire (RAM) distribuée
                                     Contrôle, calculs,
                                     agrégation
                                     Modèle multidimensionnel
                                     Outils de Business
                                     Intelligence
                                     Visualisation, export
                                     bureautique



27

© OCTO 2012
Architecture distribuée




              Grille de stockage de
              données, combinée à une
              grille de traitement des
              données
              Contrôle, calculs, agrégation




               Outils de Business
               Intelligence
               Visualisation, export
               bureautique
28

© OCTO 2012
Système de collecte et d’intégration :
                                           Les ETL



29

© OCTO 2012
Magic quadrant ETL


      Ça n’a pas changé depuis 2008…




30

© OCTO 2012
Analyse du quadrant (1/2)


      Correspond à notre observation de la présence de ces logiciels en
      entreprise avec une poussée de Talend (open source) sur les PME

      Ces outils restent indiscutables face à une hétérogénéité de formats et
      de sources de données…

      … mais leurs concurrents historiques gardent le cap, voir accélèrent :
              Développement in House
              EAI, ESB, FTP…
              Approche ELT/ETL qui est une guerre en train d’être perdue par les ETL
              depuis 2008 surtout face aux appliances et autres systèmes de stockage
              dopés.
                   ELT                        ETL                         ELT
                          2002                                    2008

31

© OCTO 2012
Analyse du quadrant (2/2)


      Stratégie de consolidation affichée par ces acteurs sur une approche
      plateforme d’intégration
              DQM et MDM notamment



      Qui fait face à de nouvelles stratégies issues du SIO …
              CEP sur le temps réel
              Les offres de virtualisation de données
              Indexation de données


      Et un dernier challenger que l’on attendait pas forcément :




32

© OCTO 2012
ETL : avis

                                                             • ERP
      En voie d’essoufflement…                               • CRM
                                                             • Gestion d’identité
                                              Premières      • Portails
                                              adoptions      • NoSQL
      Se limiter aux use cases pertinents :
                                                                       • Virtualisation
              Sources très hétérogènes                                 • Moteur de recherche
              Volumétrie mesurée              Émergent                 • Monitoring
                                                                       • Middleware de messagerie
              Réutilisation des flux                                   • Outils d’infrastructure

                                              ETL                                   • Systèmes de gestion d
      Privilégier l’OpenSource                                                      • Outillage de test
                                              Répandu                               • Frameworks applicatif
                                                                                    • Intégration continue
                                                                                    • CMS et GED
      Ne pas payer 2 fois
                                                                                             • Système d’expl
      l’infra (ETL et appliance)                                                             • Serveur Web
                                                                                             • Serveur d’appli
                                         Fortement répandu                                   • Base de donné
                                                                                             • Wiki
                                                                                             • IDE




33

© OCTO 2012
Système de collecte et d’intégration :
                                      Le stockage



34

© OCTO 2012
Magic quadrant stockage datawarehouse




35

© OCTO 2012
Analyse du quadrant

      2 approches correspondant à des use cases différents :
              Stockage old school
              Appliance (dont IQ un peu inclassable, problème de positionnement)


      Stockage old school < 15 To
              Oracle, DB2 le plus souvent observé
              Quelques incursions de Microsoft, Postgre et Mysql


      Appliance > 15 To
              Marché en forte consolidation, il ne reste plus que 4 offres sur le marché
              Teradata et Oracle sont les mieux positionnés dans les grandes
              entreprises
              Ces offres se sont complétés de toutes les technologies « hype »
              (MapReduce, SGBD colonne, in memory, disque flash, connecteur
              Hadoop…)

36

© OCTO 2012
Et le NoSQL dans tout ça : un seul driver…



          €


                                            • Performance
                                              (latence)
                                            • Parallélisation
                                            • Volume
                                            • Transactions /
                                              sec.




37

© OCTO 2012
A    CID comme variable d’ajustement
 « Il est impossible pour un système informatique de calcul distribué de garantir en
 même temps la consistance, la disponibilité et la résistance au morcellement »
                                                                                   Eric Brewer


                                            « Availability »
                                            Les clients peuvent
                                       A    toujours accéder au
                                            système (lecture écriture)



                                                    La stratégie des sites
                       L’univers des
                                                    à gros trafic.
                            SGBRD
                                                    Avec cohérence in fine



                                                                    « Partition tolerance »
« Consistency »                                                     Le système continue a
Tous les clients ont
la même vue de la
                         C                                  P       fonctionner en cas de
                                                                    « partition » - plusieurs
donnée                                                              sous-ensembles n’arrivent
                                                                    plus à communiquer
38

© OCTO 2012
En fait, rien de très neuf…

                                                          Stockage de gros
                                                              Volume


              Approche historique               HDFS
                                            Exadata HBase
              Approche mémoire
              Approche distribuée             Hadoop
                                              Teradata
                                                               Hana
                                                HDFS
                                              MapReduce
                                                                  Hive
                            Quartet
                                                Projets
                           ActivePivot        Architecture
                                               associés               Voldemort
     Prise en compte                          Cassandra BI
                                                                      NoSQL        Accès et lecture
     des évènements                           standard
                                                  Pig                             multiple en parallèle
      en temps réel           Esper              SGBDR,
                                                 Hive
                                                  ETL…
                                               Chuckwa
                                                                    Cassandra,
                                                Hbase            iGraph
                                               Mahout           Hama
                                                 Pig
                                              ZooKeeper
                                                Grid Computing
                                             Map Reduce




39
                             Capacité de calcul en
© OCTO 2012                       paralléle
Y’a Hadoop quand même…

 Reporting                                                                                     Workflow
     IBM BigSheets                   Pentaho                Hue Beeswax                         Oozie / Azkaban
     Outil de requêtage              Reporting              Interface web de requêtage          Workflow pour jobs Hadoops dépendants


 Requêtage                                                                               Traitement distribué avancé
     Pig                                   Hive                                          Mahout                     Hama
     Langage de flux de données            DSL de requêtage « SQL-like »                 Machine learning           Bulk Synchronous Processing



 Traitement                                                                                     Supervision
                                                                                                                          Platform Management
      MapReduce                                                                                        Hue
                                                                                                                                 Console
      Framework permettant de traiter des données en parallèle


                                                                                                 Intégration au SI
 Stockage                 Hbase                                                                  Sqoop
                                                                                                 Intégration RDBMS & Hadoop
                          Base de données pour des accès aléatoires read/write

        HDFS                                                                                     Flume, Chukwa, Scribe…
        Un système de fichiers distribué write-once, read-many                                   Collection de données fiable et résiliente



 Infrastructure
40

© OCTO 2012
Hadoop Distributed File System,
         la couche de stockage « non structurée »
        Utilisation de « commodity disk » plutôt que d’un SAN
        Stockage de fichiers plus volumineux qu’un unique disque
        Répartition des données sur plusieurs machines
        Réplication des données pour assurer le « fail-over » : « rack awareness »




                                                                                      NameNode
                                      DataNode



                                                 DataNode




                                                                       DataNode
                                                            DataNode
                                       File#1     File#1
                                      Block#1    Block#2

                                                  File#2     File#2     File#2
                                                 Block#1    Block#2    Block#3

                                                   File#1    File#1
                                                  Block#1   Block#2




41

© OCTO 2012
MapReduce, le système de requêtage

      Paralléliser / Distribuer les traitements
      Traiter plus rapidement des volumes de données unitaires plus faibles
      Co-localiser traitements / données




42

© OCTO 2012
Le requêtage
 Deux DSL pour masquer la complexité




     PIG: un langage de flux                     HIVE: un SQL-like
records = LOAD ‘/input/cashflows.txt’           CREATE TABLE cash_flow (BookID STRING,
AS (BookID:chararray, ProductID:chararray,      ProductID STRING, TraderID STRING, DueDate
TraderID:chararray, DueDate:int,                BIGINT, Currency STRING, Amount DOUBLE,
Currency:chararray, Amount:double,              Direction STRING, Counterparty STRING) ROW
Direction:chararray, Counterparty:chararray);   FORMAT DELIMITED FIELDS TERMINATED BY
                                                't' LINES TERMINATED BY 'n' STORED AS
ccy_grouped = GROUP records BY Currency         TEXTFILE;

results = FOREACH ccy_grouped GENERATE          LOAD DATA INPATH '/data/cashflows.txt'
group, SUM(records.Amount);                     OVERWRITE INTO TABLE cash_flow;

DUMP results;                                   select Currency, sum(Amount) from
                                                cash_flow where Direction='Credit' group
                                                by Currency;




                                                                                    Metastore
     HDFS




                                                  HDFS




43

© OCTO 2012
Et NoSQL




44

© OCTO 2012
L’écosystème NoSQL




45

© OCTO 2012
Base de données clés-valeurs

     Modélisation de type Hashtable                                          Papier de recherche
                                                               Origine
        A une clef correspond une (et une seule) valeur                      d’Amazon sur Dynamo
        Le type de la valeur n’est pas à spécifier
        La valeur peut être de n’importe quel type

                                                                           Clés             Valeurs
     Opérations
                                                                                       Valeur : Objet
        Put                                                              Clé : Objet    Objet 1     Objet 3

        Get                                                      Ligne                  Objet 2


        Delete                                                                         Valeur : Objet
                                                                                        Objet 1     Objet 3
        Pas de possibilité de requêtage autre que par la clé             Clé : Objet
                                                                 Ligne

                                                                                       Valeur : Objet
     Cas d’usage                                                         Clé : Objet    Objet 1     Objet 3

        Stockage de données identifié par une valeur unique      Ligne                              Objet 4


              session
              préférence utilisateur
        Cache de données
        Maintien de contextes hautement accessibles
                                                                                 Redis, Riak, Voldemort,
        Dédoublonnage de données                               Exemple           …



46

© OCTO 2012
Exemple : modélisation clé/valeur
              Directement utilisatble pour de nombreux use cases
                 HTTP sessions, …
              Dans les autres cas, cela nécessite une modélisation en accord
              avec les patterns d’accès aux données
                 Clé composité
                 Contenu agrégé
              Attention jointur = full scan



 Customer
Cst1
                    Account
Cst2
                  Acc1                                       Key/Value
                                                 Cst1#Acc1    { Op1=100, Op2 =-50}
                  Acc2
                                                 Cst2#Acc2
                               Operation
                              Op1   +100
                              Op2   -50
47

© OCTO 2012
Base de données colonnes

     Modélisation dérivé du clé-valeur mais orienté colonnes                               Papier de recherche de
                                                                      Origine
        Des familles de colonnes pour remplacer le concept de                              Google sur BigTable
        tables dans les SGBDR
        Et des données semi-structurées dont les blocs
        colonnes sont stockés de manière triée
                                                                                Clé            Famille de colonnes 1

     Opérations                                                                              Colonne1    Colonne2   Colonne3
                                                                             Clé : Objet      Objet 1    Objet 21   Objet 31
        Requêtage par clé ou ensemble de clé                         Ligne

        Requêtage possible sur valeur d’index secondaire
                                                                                             Colonne2
        Sélection d’une ou plusieurs colonnes résultat                       Clé : Objet
                                                                                              Objet 22
                                                                     Ligne


     Cas d’usage                                                                             Colonne3    Colonne4
                                                                             Clé : Objet      Objet 32   Objet 4
        Web                                                          Ligne

        Priorité à la disponibilité plutôt qu’à la consistance des
        données
        Haut débit et faible latence
        Schéma de données évolutif                                                          HBase (slide 103) et
                                                                      Exemple
        Beaucoup d’écritures, peu de lectures                                               Cassandra (slide 104)



48

© OCTO 2012
Base de données documents

     Modélisation dérivé du clé-valeur avec des documents
                                                                                Origine           Lotus Notes
        Les documents sont des données structurées
     sous la forme d’arbres hiérarchiques (sous-documents)
        Les données peuvent être de différentes natures
              Chaînes de caractères, valeurs scalaires, tableaux…
                                                                                           Clé                   Documents
        Les documents sont auto-portants
              Contient les informations décrivant sa structure et les valeurs                             Document: Objet
                                                                                                           { Champ1: Objet,
                                                                                        Clé : Objet
              associés                                                          Ligne                      Champ2: [Objet, Objet] }

        Plusieurs formats de stockage du document
              XML, JSON, BSON, …                                                                          Document: Objet
                                                                                                           {Champ1: Objet,
                                                                                        Clé : Objet
                                                                                                           Champ3: Sous-Doc: {Champ21:
                                                                                Ligne                      Objet} }


     Opérations                                                                                           Document: Objet
                                                                                                           {Champ4: Objet }
                                                                                        Clé : Objet
        Requêtage évolué (autre que par la clé)                                 Ligne


     Cas d’usage
        Recherche documentaire, catalogue produits, CMS…
        Fort besoin de schéma faiblement structuré
                                                                                Exemple               MongoDB (slide 105)
        Beaucoup de lectures, peu d’écritures


49

© OCTO 2012
Base de données graphes

     Modélisation de type nœuds/relations
                                                                 Origine             Théorie des graphes
        Repose sur l’interconnectivité des données
        (contrairement aux autres types de solutions NoSQL qui
        ne supportent pas les relations)
        Les données sont non seulement attachées aux nœuds
        mais également aux relations (property graph)                                   Noeud1
                                                                                             Prop10



     Opérations
        Parcours de graphes (traversal)                                     Relation1                 Relation2
        Algorithmes de traitement de graphes (Dijkstra, …)
                                                                             Prop11 Prop12              Prop20




                                                                    Noeud2                                       Noeud3
     Cas d’usage                                                   Prop21   Prop22                                Prop3

        Réseaux sociaux
        Réseaux de transports
        Réseaux logistiques
        Réseaux électriques
        Réseaux télécoms                                         Exemple               Neo4j (slide 106)

        …

50

© OCTO 2012
Typologies : OLTP vs OLAP…




51

© OCTO 2012
52

© OCTO 2012
Le stockage : avis

              Une certitude : « one size doesn’t fit all »

              Quelques alternatives intéressantes à surveiller
                 Intrusion des moteurs de recherche (Exalead)
                 Solution en rupture VB-DBMS (Iluminate)
                 La virtualisation


              Mon architecture décisionnelle composite de demain :
                 Reporting sous datawarehouse Postgre alimenté par Talend
                 Analytique sous Exadata + complément Hadoop en stockage,
                 traitements supplémentaires et historisation des données froides
                 Une base Titan pour les réseaux sociaux




53

© OCTO 2012
Pourquoi cette frilosité entre BI et NoSQL?

        Parce que la plupart de ces technologies sont inadaptées à l& BI,

        Parce qu’on sait gérer des To depuis longtemps et qu’on a 20 ans
        d’expérience sur des problématiques de forte volumétrie (stockage et
        performance)

        Parce que c’est OpenSource et que c’est un milieu gangréné par les
        grands éditeurs (Oracle, IBM…)

        Mais surtout parce qu’on affronte un changement comparable à migrer
        des cobolistes vers de l’Open :
              Environnement BI actuel (SQL, L4G, basic, C et Shell au pire) vs
              environnement NoSQL (java généralement)
              Les BICC au mieux qualifient négativement ces solutions, voir font l’impasse
              dans l’attente de solutions propriétaires (connecteur avec couche
              d’abstraction)
              L’âge de pierre de l’ingénierie logicielle (pas de test, pas d’usine)

     L’enjeu est de parvenir à réunir ces 2 mondes sur les compétences et sur
     les pratiques
54

© OCTO 2012
Système de diffusion et de présentation :
                   La plateforme décisionnelle



55

© OCTO 2012
Plateforme décisionnelle : magic quadrant et part
       de marché…

                                                   (24%)

                                                       (15,6 %)


                                            (12,6 %)


                                                             (11,6 %)


                                                       (8,7 %)




56

© OCTO 2012
…inversement proportionnelle concernant la
        satisfaction utilisateur




     Overall Customer Experience Source: Gartner 2011.
57

© OCTO 2012
Analyse des quadrants
      Les leaders du marché sont peu challengés et profitent pleinement de
      leur base installée (ceux sont les mêmes depuis 10 ans…):
              Ils disposent d’une couverture de service très étendue
              L’innovation est faite par acquisition ou reproduction
              Ils profitent de la politique de rationalisation des DSI
              Ils profitent de tous les freins propres au changement (habitudes des DSI,
              habitudes des utilisateurs…)


      De nouveaux acteurs perturbent ce marché avec une approche
      utilisateur final et métier
              Qliktech, Tableau Software, BIME


      Le facteur prix est ensuite un facteur de positionnement dans un
      contexte assez gris
              Microsoft
              OpenSource : Jaspersoft et Pentaho

58

© OCTO 2012
Tendances du marché
       Poursuite de la rationalisation du marché et dans les DSI dans une
       optique d’économie
              Génère de nouveaux achats de solution par les métiers

       L’ « in memory » est une approche de référence introduite pas
       Qliktech et devenue un incontournable aujourd’hui.
              La tendance s’est diffusée au niveau hardware (appliance), des SGBD
              (HANA, Ibm, Oracle, MySql), ou au niveau software (Powerpivot…)
              MOLAP est mort… ou du moins en fin de vie en dehors de use cases
              complètement balisés (comptabilité avec Hypérion)

       Arrivée d’approche non dépendante (moins) de la modélisation : les
       approches NoSQL (mongoDB), les technologies
       associative/corrélative (CDBMS illuminate : VBS, indexation par
       contexte et relation gérée en métadonnée) tendent à ne plus
       forcément structurer un projet autour de la modélisation
      la panacée du ad hoc (attention au perf au chargement)


59

© OCTO 2012
Compatibilité Hadoop

                                                      Hive QL   MapReduce
                                          HDFS File              scripting
       Datamining
          SAS (SAS/ACCESS et SAS BASE)
          R RevoScale

       Business Intelligence
          SAP Business Object
          Oracle BIEE
          MicroStrategy
          IBM BigSheets
          IBM Cognos
          Tableau
          Tibco Spotfire
          Pentaho
          QlikTech (through DataRocket)
          Datameer




60

© OCTO 2012
Plateforme décisionnelle : avis

      Si on construit un système décisionnel de zéro, il est raisonnablement
      difficile de choisir une acteur du marché historique

      Une certitude : « one size doesn’t fit all »

      3 critères de choix apportent des différentiants forts en dehors des cas
      d’usages :
              Le prix
              Le contexte (technologique, compétence…)
              L’expérience utilisateur


      Excel reste le meilleur choix dans bien des situations

      Quid du dataviz?

61

© OCTO 2012
Système de diffusion et de présentation :
                                       Dataviz



62

© OCTO 2012
L’importance de la visualisation des données

              L’objectif de la data visualisation est de communiquer une
              information claire et efficiente à l’aide de moyen graphique

              La data visualisation est un outil fondamental de l’analyse et est
              un support de communication du résultat
                 Donne du sens
                 Impact visuel
                 Lisibilité du message
                 Cohérence entre données et messages
                Stimuler l’attention et l’engagement

              La data visualisation est devenu un domaine de recherche à
              part entière (à ce titre des enseignements existent)




63

© OCTO 2012
Les typologies de représentation visuelle (1/6)
       De l‘âge de pierre…




64

© OCTO 2012
Les typologies de représentation visuelle (2/6)


                                       Cumulative
              Histogramm               histogramm




65

© OCTO 2012
Les typologies de représentation visuelle (3/6)


              Scatter chart


                                       Bubble chart




66

© OCTO 2012
Les typologies de représentation visuelle (4/6)
        …A l‘âge de l’information…


              Geo chart               Graph/Cluste
                                           r




67

© OCTO 2012
Les typologies de représentation visuelle (5/6)
        …A l‘âge de l’information…

              Heat map                 Tree map




68

© OCTO 2012
Les typologies de représentation visuelle (6/6)
        …A l‘âge du dataviz


                                             Illustration – D3.js




69

© OCTO 2012
Comment présenter efficacement des données
        analytiques?
              A chaque typologie de donnée correspond un mode de
              représentation privilégié

     Type de données                          Mode de représentation
     Statistique descriptive mono-variable    •   PieChart
                                              •   Histogramme
                                              •   CDF (line chart)
     Statistique descriptive multi-variable   •   Geo Map
                                              •   Tree map
                                              •   Heat map
     Relations                                •   Graph
     Série temporelle                         •   Line chart
                                              •   Timeline
     Statistique explicative                  •   Scatter Chart+ line
                                              •   BubbleChart + line



70

© OCTO 2012
Forrester wave (en attendant le gartner…)




71

© OCTO 2012
Magic quadrant Dataviz « non officiel »




Andrei Pandre 'Yellow Square for DV, 2012
72

© OCTO 2012
Les outils de visualisation spécialisés

Analyse de données multi variés :   Analyse de textes
          R                               IBM BigSheets
          Revolution Analytics            IN-SPIRE. IN-SPIRE™ provides
          IBM Attribute explorer          tools for exploring
          Ggobi, XGobi
          Mondrian (rosuda.org)     Toolkit
                                         JUNG
Analyse de réseaux et de graph           Gephi toolkit
          Gephi                          Google Chart
          Graphviz                       Processing (http://processing.org)
          NodeXL                         Protovis/ D3.js
                                        http://selection.datavisualization.ch
Analyse de cartes (maps)
          Google Fusion Tables

73

© OCTO 2012
Dataviz : avis

              Une réponse aux nouveaux enjeux
                   Volumétrie, temps réel, big data
                   Synthèse, convaincre en peu de temps, capter l’attention
                Rien de plus frustrant que de parvenir aux résultats sans arriver à
               l’expliquer/le démontrer simplement


              Dataviz = l’usabilité étendue à la business intelligence :
              proposer des représentations de la donnée utiles utilisables

              Si ce n’est pas votre métier : limitez-vous aux outils du marché
              en attendant la démocratisation d’outils spécifiques
                 De nouveaux métiers apparaissent, on ne parle plus de web
                 agency mais de data agency




74

© OCTO 2012
Système de diffusion et de présentation :
                         Plateforme analytique



75

© OCTO 2012
De quoi parle t’on?

                             Corrélation
                                              Classification
                             Identification
                                              Simulation




76

© OCTO 2012
3 philosophies complémentaires de l’analyse

                                                               L’analyse se focalise sur les
                                                               propriétés intrinsèques des
                                                               données
                                                               Ex : moyenne, saisonnalité,
                                                               stationnarité, …
     L’analyse se focalise sur
     l’identification d’un modèle            Statistiques
     mathématique robuste à
     partir des données
     Ex : régression, classification,
                                             descriptives
                                                                            L’analyse se focalise sur
     réduction de dimensions, …                                             l’apprentissage à identifier
                                                                            des propriétés et des
                                                                            modèles mathématiques à
                                                                            partir des données
                                                                            Ex : clustering, pattern
                                                                            matching, Support Vector
                                                                            Machine, …

                                                            Machine
                                    Data mining
                                                            learning



77

© OCTO 2012
On nous a menti!!!

              Rien de neuf sous le soleil…




                      Statistiques               Machine
                      descriptives           learning = Data
                                                  mining




78

© OCTO 2012
J’exagère?

       Différence sémantique évidente…

              Une possibilité (parmi plusieurs dizaines…) : le Data
              Mining, c’est l’application du machine learning

          Ma meilleure proposition issue de l’usage que l’on en fait (vrai
          dans 90% des cas):
       Now, increasingly, people are comfortable using the term "machine
       learning" for cases where "data mining" was used in the past.




79

© OCTO 2012
Dernier magic quadrant (2008) et Wave (2010)




80

© OCTO 2012
Vision du marché


       2 leaders :




       Des challengers




       Sans oublier l’OpenSource




                Software           Library

81

© OCTO 2012
   ©OCTO 2012
Plateforme analytique : avis


      Attention ces outils ne sont pas à la portée de tout le monde
              Les bases de la statistiques sont nécessaires
              On parle de data scientist
              Utiliser les bons modèles/méthodes…


      Le modèle de pricing de ces solutions ne peut pas être qualifié
      d’amical

      Montée en puissance de R au détriment des leaders (changement
      d’époque : on utilise R dans les écoles d’ingénieur, plus SAS…)




82

© OCTO 2012
Open Space Business Intelligence




83

© OCTO 2012
MDM : Master Data Management ?

      Les acteurs du MDM sont
      les mêmes que les
      plateforme d’intégration

      Dans 90% des cas le sujet
      est abordé par le prisme SIO

      Le MDM est un univers
      complexe
              Solution généraliste
              (orchestra)
              Solution spécifique objet
              (PIM, CDI)
              Solution métier
              (masterI, ERP)
              Sans oublier le
              développement spécifique
84

© OCTO 2012
DQM : Data Quality Management ?


      Les acteurs du DQM sont les mêmes
      que les plateformes d’intégration et
      MDM…

      Ces outils regroupent des
      fonctionnalités de …
              Découverte (profilage)
              Nettoyage
              Normalisation
      … couplés généralement avec un
      ETL




85

© OCTO 2012
MDM, DQM : avis

      Une recommandation concernant le MDM est un sujet d’architecture
      en soit (gouvernance de la donnée, échange, choix d’architecture et
      de solution…).
      Ce que l’on peut en dire sans se mouiller:
              Ça fonctionne même sur des grosses archis (en spécifique)
              C’est très dur à vendre au business et ça coûte cher
              Dans 90% des cas  hébergement par l’ERP
              C’est le saint graal des urbanistes, donc méfiance


      Concernant les outils de DQM, leur tarification leur interdit une
      utilisation massive qui pourrait être intéressante car cela reste des
      outils très puissants
              Dans 90% des cas les entreprises développent en spécifique et limitent
              les fonctions de DQM aux données de références via des outils
              spécifiques (normalisation des adresses)


86

© OCTO 2012
La gestion des métadonnées ?
      Pour quels usages?
              Analyse d’impact
              Documentation
              Dictionnaire
              Génération de code automatique…

      Malheureusement cette gestion est propre à chaque outil  ce qui profite
      aux architectures mono-éditeur…

      …alors que des standards existent : Common Warehouse Metamodel
      (CWM™) Metadata Interchange Patterns (MIP)

      Nous n’avons pas identifié de solution miracle:
              Développement spécifique
              Adresser par d’autres référentiels (MDM), référentiel d’architecture
              (Aris,PowerAMC, Mega…)
              Wiki…
              Des solutions existent par éditeur (IBM information server
              metadata, informatica metadata manager...) qui nécessitent du spécifique
              pour une intégration complète

87

© OCTO 2012
Bi & OpenSource?


      Les outils Open source arrivent à maturité sur le marché du décisionnel
      avec une pénétration PME et Grands Comptes

      Les solutions couvrent aujourd’hui tout le spectre du décisionnel et
      constituent une alternative pertinente avec par exemple :
                      ETL                      Reporting                   OLAP
              - Kettle                      - JasperReports          - Mondrian
              - Talend                      - Birt                   - JPivot


                               Plateforme                     Datamining
                                                        - Weka
                            - Pentaho
                            - Jasper Soft


      Sans oublier                            et d’autres solutions présentées dans cet
      état de l’art
88

© OCTO 2012
Cloud computing et BI?

      « Permettant de contrôler des données volumineuses, l'informatique
      dans les nuages devrait bouleverser substantiellement le marché de la
      Business Intelligence grâce à son coût peu élevé, à son extensibilité
      et sa flexibilité »

      Dans les faits, la BI dans le cloud est confrontée à:
              Une crainte des clients relative à la localisation des données
              Une offre SAAS des éditeurs historiques très loin d’une approche self-
              service (c’est une nouveau paradigme pour ces acteurs)
              Un avantage économique encore incertain


      A court terme nous recommandons de :
              Privilégier les offres IaaS et PaaS (Amazon Elastic, Google bigQuery….)
              Privilégier les offre SaaS natives (BIME partenaire google)
              Tester Amazon marketplace (jaspersoft et BO)

89

© OCTO 2012
Mobilité et BI?
                                      source: DAS Mobile Business Intelligence Market Study – October 2011, DRESNER ADVISORY SERVICE
      Microstrategy comme
      précurseur et leader

      3ème usage mobile recensé
      dans le cadre professionnel

      68% des organisations jugent
      le sujet très important

      Préférence d’une approche
      native et sur de l’iOS (non
      tenable sur la durée 
      HTML5)

      Avis : suit le changement des
      usages. Réellement une
      priorité?
90

© OCTO 2012
Agilité et BI?

      Aujourd’hui de nombreux retours d’expériences de projets décisionnels mettent en
      évidences les carences suivantes :
              La difficulté de lutter contre l’effet tunnel
              Le retard important dans la mise en œuvre et les budgets en augmentation
              Un problème d’agilité pour faire évoluer ou adapter la solution aux besoins changeants
              Un rejet de l’application par les utilisateurs

      Les méthodes agiles ont fait leur preuve et constituent une approche pertinente
      dans la construction du SI Décisionnel (SID), afin de soulager les carences
      précitées qui sont au cœur des apports potentiels de ces méthodes
              Les méthodes agiles répondent très bien à une adage du Décisionnel « voir grand en
              commençant petit »
              L’approche des méthodes agiles doit être adaptée en prenant en compte les spécificités
              des projets décisionnels

      Elle nécessite cependant les pré-requis suivants propres à l’industrialisation des
      pratiques de développement (vrais freins):
              Politique de test (automatisation)
              Pratique de modélisation (refactoring database et approche verticale et itérative)



91

© OCTO 2012
BI self-service?


        Une demande récurrente adressée au DSI est de fournir une BI self-
        service

        Recevant des regards torves des DSI, les métiers achètent de
        nouvelles solutions éditeur pour parvenir à une fonctionnalité…

        …déjà présente dans les outils de la maison proposés par la DSI mais
        dont la mise en oeuvre est bridée au niveau logiciel ou par les
        processus et la gestion des habilitation

     La Bi self-service est avant tout un problème d’organisation et de
     processus même si la dimension logicielle peut aider :
              Virtualisation
              Outils graphique user friendly + in memory
              Data discovery

92

© OCTO 2012
Une offre de service BI?


        Un letmotiv
     « One size doesn’t fit all »

        Que cela soit au
        niveau des outils, des
        architectures, de la
        méthodologie ou des
        processus



     Processus
     Architecture
     Méthodologie

93

© OCTO 2012
Competence center et BI?


      La notion de BICC est à la mode et s’est généralisée avec les modes
      d’interventions suivants :                                     Développement
              « Expertise »                                                         Exploitation   +
                                                                                    MCO
              « Pilotage »
                                                                                +
                                                            Gestion de projet
              « Opérationnel partiel »                      Gestion qualité
                                       Conseil          +
              « Opérationnel »         Veille               Cadre de
                                        Prototypage         référence

                                        Education


                                            Expertise         Pilotage          Opérationnel partiel   Opérationnel

      Ces organisations issues de rationalisation/outsourcing sont
      challengées par les tendances suivantes :
              La décentralisation des compétences et des outils vers le métier  la
              prise de pouvoir par le métier
              Les nouvelles technologies associées à la donnée (hadoop)
              L’agilité
94

© OCTO 2012
Et la business intelligence en temps réel?


       1er problème: trouver le cas d’usage…

       Rappel : Un système d’analyse de données temps réel est un
       système évènementiel disponible, scalable et stable, capable de
       prendre des décisions (actions) avec une latence inférieure à … la
       fréquence des évènements

         Les architectures historiques fonctionnent en J+1…
     … mais ces limites peuvent largement être dépassées avec une revue de
     la cinématique des traitements :
            Chargement toutes les heures
            Chargement toutes les 5 minutes
      Donc attendez avant de sortir la Maserati et trouvez un use cases qui
     en vaille la peine

95

© OCTO 2012
   ©OCTO 2012
Architecture BI Real-time :
approche « In-memory »

                   IHM édition des règles                                 IHM données historiques            IHM données temps-réel




                                                   latence : 100 ms


évènements
                                                    Moteur CEP
structurés
                                                          Event/Condition/Action
                              Calculs et état en
                 Capture




                                                            Stream-based querying                                           Applis
                                 mémoire :                                                      décision /            transactionnelles,
                             fenêtres de temps,                  Analyse multi-dim.               action                  BPM, ESB
                             opérateurs, règles
                                                                           …
évènements
non-structurés



                                              Cache / Cache distribué



                                                                                                                 Historique des
                                              Données de référence, DWH,                                          évènements
                                                interrogation de services
96

© OCTO 2012
Architecture BI Real-time : approche « Grille de
données »



                                                                                                      STORM
                                                  latence : 100 ms


 évènements
                                                   Moteur CEP
 structurés
                                                         Event/Condition/Action
                             Calculs et état en
                  Capture




                                                           Stream-based querying                                         Applis
                                mémoire :                                                             décision /   transactionnelles,
                            fenêtres de temps,                  Analyse multi-dim.                      action         BPM, ESB
                            opérateurs, règles
                                                                          …
 évènements
 non-structurés




                                             Cache / Cache distribué



                                                                                     Historique des
                                            Données de référence, DWH,
                                                                                      évènements
                                              interrogation de services
97

© OCTO 2012
Architecture BI Real-time :
approche « CEP »




                                                 latence : 100 ms


évènements
                                                  Moteur CEP
structurés
                                                        Event/Condition/Action
                            Calculs et état en
                 Capture




                                                          Stream-based querying                               Applis
                               mémoire :                                            décision /          transactionnelles,
                           fenêtres de temps,                  Analyse multi-dim.     action                BPM, ESB
                           opérateurs, règles
                                                                         …
évènements
non-structurés




                                            Cache / Cache distribué


                                                                                                 Historique des
                                          Données de référence, DWH,                              évènements
                                            interrogation de services
98

© OCTO 2012
Le SID existe-il encore?


      La frontière SIO/SID tend à disparaître du fait …
              De la virtualisation des données
              De l’utilisation des outils « BI » dans le monde opérationnel
              De l’arrivée du temps réel
              De la gouvernance des données
              Des Boucles de feedback (CRM)


      … et finalement ce n’est pas plus mal
              Stigmatisation des architectures et des hommes
              + de partage de pratiques notamment sur l’industrialisation des
              développements
              Besoin de dépoussiérage des pratiques du monde SID




99

© OCTO 2012
EXPERTISE                                        ARCHITECTURE

                                           ERGONOMICS

              PRAGMATISM                                             SECURITY

                         The two most important asset of a company can not be
                         seen in its balance sheet: its reputation and its people
                                                          Henry Ford, car industry

                       INTEGRATION                         EXPERIENCE
              TRAINING                      MOBILITY
                                                                       AUDITS
  AUTEUR

  Joseph Glorieux        Julien cabot
  jglorieux@octo.com     jcabot@octo.com                                 TOOLS
                                               AGILITY
100

© OCTO 2012

Mais conteúdo relacionado

Semelhante a Etat de l art business intelligence

Morning with MongoDB Paris 2012 - Octo
Morning with MongoDB Paris 2012 - OctoMorning with MongoDB Paris 2012 - Octo
Morning with MongoDB Paris 2012 - OctoMongoDB
 
Université du SI - 2011 - La fin des bases relationnelles?
Université du SI - 2011 - La fin des bases relationnelles?Université du SI - 2011 - La fin des bases relationnelles?
Université du SI - 2011 - La fin des bases relationnelles?Olivier Mallassi
 
Brocade - AG France IX - 30 Juin 2011
Brocade - AG France IX - 30 Juin 2011Brocade - AG France IX - 30 Juin 2011
Brocade - AG France IX - 30 Juin 2011France IX Services
 
OpenSource sur PowerLinux
OpenSource sur PowerLinuxOpenSource sur PowerLinux
OpenSource sur PowerLinuxSophie Darré
 
IBM POWER 8, une infrastructure taillée pour l'Open Source
IBM POWER 8, une infrastructure taillée pour l'Open SourceIBM POWER 8, une infrastructure taillée pour l'Open Source
IBM POWER 8, une infrastructure taillée pour l'Open SourceSolutions IT et Business
 
NetApp PartnersTour 2011 à Lille, mon point de vue
NetApp PartnersTour 2011 à Lille, mon point de vueNetApp PartnersTour 2011 à Lille, mon point de vue
NetApp PartnersTour 2011 à Lille, mon point de vueOlivier (DaffyDuke) Duquesne
 
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...ljaquet
 
Performances Java et OpenDJ - LyonJUG Janv. 2012
Performances Java et OpenDJ - LyonJUG Janv. 2012Performances Java et OpenDJ - LyonJUG Janv. 2012
Performances Java et OpenDJ - LyonJUG Janv. 2012Ludovic Poitou
 
Les pratiques des geants du web
Les pratiques des geants du webLes pratiques des geants du web
Les pratiques des geants du webStephen PERIN
 
Le stockage de données disruptif
Le stockage de données disruptifLe stockage de données disruptif
Le stockage de données disruptifekito
 
Vm à 1€
Vm à 1€Vm à 1€
Vm à 1€Ikoula
 
No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010JUG Lausanne
 
Les différent DD
Les différent DDLes différent DD
Les différent DDdigidid
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...OCTO Technology
 
Acronis VM protect
Acronis VM protectAcronis VM protect
Acronis VM protectPROJECT SI
 
Un site web rapide ?
Un site web rapide ? Un site web rapide ?
Un site web rapide ? haricot
 

Semelhante a Etat de l art business intelligence (20)

Exchange Stockage : Mythes et Réalités
Exchange Stockage : Mythes et RéalitésExchange Stockage : Mythes et Réalités
Exchange Stockage : Mythes et Réalités
 
Morning with MongoDB Paris 2012 - Octo
Morning with MongoDB Paris 2012 - OctoMorning with MongoDB Paris 2012 - Octo
Morning with MongoDB Paris 2012 - Octo
 
Université du SI - 2011 - La fin des bases relationnelles?
Université du SI - 2011 - La fin des bases relationnelles?Université du SI - 2011 - La fin des bases relationnelles?
Université du SI - 2011 - La fin des bases relationnelles?
 
Brocade - AG France IX - 30 Juin 2011
Brocade - AG France IX - 30 Juin 2011Brocade - AG France IX - 30 Juin 2011
Brocade - AG France IX - 30 Juin 2011
 
OpenSource sur PowerLinux
OpenSource sur PowerLinuxOpenSource sur PowerLinux
OpenSource sur PowerLinux
 
IBM POWER 8, une infrastructure taillée pour l'Open Source
IBM POWER 8, une infrastructure taillée pour l'Open SourceIBM POWER 8, une infrastructure taillée pour l'Open Source
IBM POWER 8, une infrastructure taillée pour l'Open Source
 
NetApp PartnersTour 2011 à Lille, mon point de vue
NetApp PartnersTour 2011 à Lille, mon point de vueNetApp PartnersTour 2011 à Lille, mon point de vue
NetApp PartnersTour 2011 à Lille, mon point de vue
 
La mort du gc
La mort du gcLa mort du gc
La mort du gc
 
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
Découvrez les solutions de virtualisation de Stockage DataCore et sa platefor...
 
Performances Java et OpenDJ - LyonJUG Janv. 2012
Performances Java et OpenDJ - LyonJUG Janv. 2012Performances Java et OpenDJ - LyonJUG Janv. 2012
Performances Java et OpenDJ - LyonJUG Janv. 2012
 
Les pratiques des geants du web
Les pratiques des geants du webLes pratiques des geants du web
Les pratiques des geants du web
 
Le stockage de données disruptif
Le stockage de données disruptifLe stockage de données disruptif
Le stockage de données disruptif
 
Vm à 1€
Vm à 1€Vm à 1€
Vm à 1€
 
No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010
 
Les différent DD
Les différent DDLes différent DD
Les différent DD
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
 
10 ans de l'Adullact
10 ans de l'Adullact10 ans de l'Adullact
10 ans de l'Adullact
 
Dell power edge r710 fr
Dell power edge r710 frDell power edge r710 fr
Dell power edge r710 fr
 
Acronis VM protect
Acronis VM protectAcronis VM protect
Acronis VM protect
 
Un site web rapide ?
Un site web rapide ? Un site web rapide ?
Un site web rapide ?
 

Mais de Joseph Glorieux

Devops - vision et pratiques
Devops - vision et pratiquesDevops - vision et pratiques
Devops - vision et pratiquesJoseph Glorieux
 
Afterwork big data et data viz - du lac à votre écran
Afterwork big data et data viz - du lac à votre écranAfterwork big data et data viz - du lac à votre écran
Afterwork big data et data viz - du lac à votre écranJoseph Glorieux
 
Giants of the web - creadigitalday
Giants of the web - creadigitaldayGiants of the web - creadigitalday
Giants of the web - creadigitaldayJoseph Glorieux
 
Fintech, demain comment travailler ensemble
Fintech, demain comment travailler ensembleFintech, demain comment travailler ensemble
Fintech, demain comment travailler ensembleJoseph Glorieux
 
Les business analystes face à l'agilité
Les business analystes face à l'agilitéLes business analystes face à l'agilité
Les business analystes face à l'agilitéJoseph Glorieux
 
Une Data driven company à l'heure de la digitalisation
Une Data driven company à l'heure de la digitalisationUne Data driven company à l'heure de la digitalisation
Une Data driven company à l'heure de la digitalisationJoseph Glorieux
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsJoseph Glorieux
 
Session USI 2012 : les SI composites
Session USI 2012 : les SI compositesSession USI 2012 : les SI composites
Session USI 2012 : les SI compositesJoseph Glorieux
 

Mais de Joseph Glorieux (10)

Devops - vision et pratiques
Devops - vision et pratiquesDevops - vision et pratiques
Devops - vision et pratiques
 
Afterwork big data et data viz - du lac à votre écran
Afterwork big data et data viz - du lac à votre écranAfterwork big data et data viz - du lac à votre écran
Afterwork big data et data viz - du lac à votre écran
 
Giants of the web - creadigitalday
Giants of the web - creadigitaldayGiants of the web - creadigitalday
Giants of the web - creadigitalday
 
Fintech, demain comment travailler ensemble
Fintech, demain comment travailler ensembleFintech, demain comment travailler ensemble
Fintech, demain comment travailler ensemble
 
Les business analystes face à l'agilité
Les business analystes face à l'agilitéLes business analystes face à l'agilité
Les business analystes face à l'agilité
 
Une Data driven company à l'heure de la digitalisation
Une Data driven company à l'heure de la digitalisationUne Data driven company à l'heure de la digitalisation
Une Data driven company à l'heure de la digitalisation
 
Agile for executives
Agile for executivesAgile for executives
Agile for executives
 
L'entreprise agile
L'entreprise agileL'entreprise agile
L'entreprise agile
 
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnelsUSI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
USI 2013 : 7 changements nécessaires pour sauver vos SI décisionnels
 
Session USI 2012 : les SI composites
Session USI 2012 : les SI compositesSession USI 2012 : les SI composites
Session USI 2012 : les SI composites
 

Etat de l art business intelligence

  • 1. Etat de l’art du « décisionnel » 1 © OCTO 2012
  • 2. Agenda Le contexte de la business Intelligence aujourd’hui Etat de l’art - architecture décisionnelle Etat de l’art - Système de collecte et d’intégration ETL Stockage (Appliance, SGBD, NoSQL, Hadoop) Etat de l’art - Système de diffusion et de présentation Plateforme décisionnelle Dataviz Plateforme analytique Open space sur la BI 2 © OCTO 2012
  • 3. Le contexte de la business intelligence aujourd’hui 3 © OCTO 2012
  • 5. Tout le temps ! 5 © OCTO 2012
  • 8. SOLOMO Crowd Multi sourcing Nouveaux terminaux usages Internet Capteurs, Des objets RFID/NFC 8 © OCTO 2012
  • 9. Fin de l’hégémonie du SGBDR Machine Event-based Learning Nouveaux Systèmes IT d’information SI composite Open API/Data Cloud 9 © OCTO 2012
  • 10. Interfaces Dataviz cérébrales Nouvelles interfaces Réalité augmentée Reconnaissance 10 © OCTO 2012
  • 11. Nouveaux Nouvelles usages interfaces Nouveaux systèmes d’information 11 © OCTO 2012
  • 12. Les infrastructures ne sont pas en reste 12 © OCTO 2012
  • 13. Diminution du coût du stockage 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 1,000,000.00 100k $/GB 100,000.00 10,000.00 1,000.00 HDD 100.00 RAM 10.00 1.00 0,10 $/GB0.10 0.01 Source :http://www.mkomo.com/cost-per-gigabyte 13 © OCTO 2012
  • 14. Une évolution du « hardware » toujours fantastique… 14 © OCTO 2012
  • 15. Performance des disques toujours croissante, mais… 70 Seagate Barracuda 7200.10 64 MB/s 60 Le débit des disques augmente 50 Sans parler de SSD Et de stockage in memory …Salutaire pour Débit (MB/s) 40 Seagate Barracuda ATA IV Plus de traitement 30 Plus rapide Gain : x91 Mais pas aussi rapidement que la 20 capacité de stockage (*100 vs *100 IBM DTTA 000) 10 35010 0,7 MB/s 0 1991 1996 1998 2001 2006 15 © OCTO 2012
  • 16. La frontière du débit ms µs ns 0.000,000,000,000 L2, L1 Cache Disk Local network Memory Challenge : Comment allez au-delà? Idée #1 : en parallèle Idée #2 : la mémoire / le cache 16 © OCTO 2012
  • 17. Derniers benchmarks sur le coût des machines Comparatif à « puissance équivalente (RAM/CPU) » Attention, à prendre avec des pincettes du fait : des modes de facturation, des autres coûts cachés (compétence, exploitation…) des points de comparaison 17 © OCTO 2012
  • 18. Et coté stockage SAN Filers NAS Local storage $2 - $10 par GB $1 - $5 par GB $0,05 par GB Available storage 0,5 PB 1 PB 20 PB for 1 million $ 200 000 IOPS 400 000 IOPS 10 000 000 IOPS 1 GB per second 2 GB per second 800 GB per second Source : http://www.slideshare.net/lucenerevolution/the-search-is-over-integrating-solr-and- hadoop-in-the-same-cluster-to-simplify-big-data-analytics 18 © OCTO 2012
  • 20. Overview Architecture fonctionnelle Transverse Données opérationnelles de l’entreprise Données externes Data Quality Data Alimentation (Extract, Transform, load) gouvernance Système de collecte et d’intégration Réception Historisation Nettoyage / Stockage enrichissement / Extraction stockage Administration Publication Ordonnancement Alimentation (Extract, Transform, load) Sécurité Tracabilité Système de diffusion et de présentation Business Activity Reporting Analyse Datamining Portail Stockage Monitoring 20 © OCTO 2012
  • 21. Overview Architecture Technique SIO SIExternes ETL, EAI, FTP Transverse Back-up (SCI) SCI Contrôle Staging ETL DQM Habilitation Archive ETL/ELT Référentiels Audit ODS ETL/ELT BAM DWH Archive SDP Scheduler Datamarts 21 © OCTO 2012
  • 22. Ces architectures décisionnelles… …ont 20 ans Si on peut leur souhaiter de vivre aussi longtemps que le mainframe, il va être nécessaire de s’adapter à un contexte riche en changement 22 © OCTO 2012
  • 23. SID : un changement nécessaire Les coûts Les délais et le peu de flexibilité La volumétrie Faiblesses La qualité de données Le réglementaire Satisfaction utilisateur SLA Nouvelles contraintes Séparation TP et AP Système J+1 Anciennes Système décisionnel MOLAP croyances décisionnel Datamart physique NG historique Nouveaux besoins L’autonomie des utilisateurs La BI agile Le temps réel Nouveaux Les appliances La mobilité paradigmes L’Open Source Données exogènes et non structurées NoSQL et Big data Commodities Le cloud 23 © OCTO 2012
  • 24. Localisation des maux Diminution des coûts SIO SIExternes Données non Temps réel, structurées Frontière gestion des EAI, FTP ETL, (réseau sociaux, Transverse Back-up (SCI) SIO/SID SCI évènements Contrôle pdf, videos…) TTM Staging ETL DQM Habilitation Archive Commodities ETL/ELT Référentiels Audit ODS Appliance ETL/ELT MDM BAM NoSQL DWH Archive Column base SDP Scheduler Datamarts Machine Mobile In memory Dataviz 24 learning © OCTO 2012
  • 25. Identification de 3 modèles d’architecture 3 modèles d’architectures répondent à ces nouveaux enjeux La richesse de notre job est que ces 3 modèles sont bien entendu déclinables et combinables à l’infini selon les critères de choix retenus 25 © OCTO 2012
  • 26. Architecture historique ETL Operational Datastore (ODS) Contrôle, enrichissement et traitements des données opérationnelles Modèle relationnel ETL Datawarehouse (DWH) Stockage, archivage Modèle relationnel ETL Datamart (DM) Agrégats, cube d’analyse Modèle en étoile, Outils de Business multidimensionnel Intelligence Visualisation, export bureautique 26 © OCTO 2012
  • 27. Architecture in memory ou virtualisée Fichiers de données bruts Stockage, archivage … …ou pas Base de données en mémoire (RAM) distribuée Contrôle, calculs, agrégation Modèle multidimensionnel Outils de Business Intelligence Visualisation, export bureautique 27 © OCTO 2012
  • 28. Architecture distribuée Grille de stockage de données, combinée à une grille de traitement des données Contrôle, calculs, agrégation Outils de Business Intelligence Visualisation, export bureautique 28 © OCTO 2012
  • 29. Système de collecte et d’intégration : Les ETL 29 © OCTO 2012
  • 30. Magic quadrant ETL Ça n’a pas changé depuis 2008… 30 © OCTO 2012
  • 31. Analyse du quadrant (1/2) Correspond à notre observation de la présence de ces logiciels en entreprise avec une poussée de Talend (open source) sur les PME Ces outils restent indiscutables face à une hétérogénéité de formats et de sources de données… … mais leurs concurrents historiques gardent le cap, voir accélèrent : Développement in House EAI, ESB, FTP… Approche ELT/ETL qui est une guerre en train d’être perdue par les ETL depuis 2008 surtout face aux appliances et autres systèmes de stockage dopés. ELT ETL ELT 2002 2008 31 © OCTO 2012
  • 32. Analyse du quadrant (2/2) Stratégie de consolidation affichée par ces acteurs sur une approche plateforme d’intégration DQM et MDM notamment Qui fait face à de nouvelles stratégies issues du SIO … CEP sur le temps réel Les offres de virtualisation de données Indexation de données Et un dernier challenger que l’on attendait pas forcément : 32 © OCTO 2012
  • 33. ETL : avis • ERP En voie d’essoufflement… • CRM • Gestion d’identité Premières • Portails adoptions • NoSQL Se limiter aux use cases pertinents : • Virtualisation Sources très hétérogènes • Moteur de recherche Volumétrie mesurée Émergent • Monitoring • Middleware de messagerie Réutilisation des flux • Outils d’infrastructure ETL • Systèmes de gestion d Privilégier l’OpenSource • Outillage de test Répandu • Frameworks applicatif • Intégration continue • CMS et GED Ne pas payer 2 fois • Système d’expl l’infra (ETL et appliance) • Serveur Web • Serveur d’appli Fortement répandu • Base de donné • Wiki • IDE 33 © OCTO 2012
  • 34. Système de collecte et d’intégration : Le stockage 34 © OCTO 2012
  • 35. Magic quadrant stockage datawarehouse 35 © OCTO 2012
  • 36. Analyse du quadrant 2 approches correspondant à des use cases différents : Stockage old school Appliance (dont IQ un peu inclassable, problème de positionnement) Stockage old school < 15 To Oracle, DB2 le plus souvent observé Quelques incursions de Microsoft, Postgre et Mysql Appliance > 15 To Marché en forte consolidation, il ne reste plus que 4 offres sur le marché Teradata et Oracle sont les mieux positionnés dans les grandes entreprises Ces offres se sont complétés de toutes les technologies « hype » (MapReduce, SGBD colonne, in memory, disque flash, connecteur Hadoop…) 36 © OCTO 2012
  • 37. Et le NoSQL dans tout ça : un seul driver… € • Performance (latence) • Parallélisation • Volume • Transactions / sec. 37 © OCTO 2012
  • 38. A CID comme variable d’ajustement « Il est impossible pour un système informatique de calcul distribué de garantir en même temps la consistance, la disponibilité et la résistance au morcellement » Eric Brewer « Availability » Les clients peuvent A toujours accéder au système (lecture écriture) La stratégie des sites L’univers des à gros trafic. SGBRD Avec cohérence in fine « Partition tolerance » « Consistency » Le système continue a Tous les clients ont la même vue de la C P fonctionner en cas de « partition » - plusieurs donnée sous-ensembles n’arrivent plus à communiquer 38 © OCTO 2012
  • 39. En fait, rien de très neuf… Stockage de gros Volume Approche historique HDFS Exadata HBase Approche mémoire Approche distribuée Hadoop Teradata Hana HDFS MapReduce Hive Quartet Projets ActivePivot Architecture associés Voldemort Prise en compte Cassandra BI NoSQL Accès et lecture des évènements standard Pig multiple en parallèle en temps réel Esper SGBDR, Hive ETL… Chuckwa Cassandra, Hbase iGraph Mahout Hama Pig ZooKeeper Grid Computing Map Reduce 39 Capacité de calcul en © OCTO 2012 paralléle
  • 40. Y’a Hadoop quand même… Reporting Workflow IBM BigSheets Pentaho Hue Beeswax Oozie / Azkaban Outil de requêtage Reporting Interface web de requêtage Workflow pour jobs Hadoops dépendants Requêtage Traitement distribué avancé Pig Hive Mahout Hama Langage de flux de données DSL de requêtage « SQL-like » Machine learning Bulk Synchronous Processing Traitement Supervision Platform Management MapReduce Hue Console Framework permettant de traiter des données en parallèle Intégration au SI Stockage Hbase Sqoop Intégration RDBMS & Hadoop Base de données pour des accès aléatoires read/write HDFS Flume, Chukwa, Scribe… Un système de fichiers distribué write-once, read-many Collection de données fiable et résiliente Infrastructure 40 © OCTO 2012
  • 41. Hadoop Distributed File System, la couche de stockage « non structurée »  Utilisation de « commodity disk » plutôt que d’un SAN  Stockage de fichiers plus volumineux qu’un unique disque  Répartition des données sur plusieurs machines  Réplication des données pour assurer le « fail-over » : « rack awareness » NameNode DataNode DataNode DataNode DataNode File#1 File#1 Block#1 Block#2 File#2 File#2 File#2 Block#1 Block#2 Block#3 File#1 File#1 Block#1 Block#2 41 © OCTO 2012
  • 42. MapReduce, le système de requêtage  Paralléliser / Distribuer les traitements  Traiter plus rapidement des volumes de données unitaires plus faibles  Co-localiser traitements / données 42 © OCTO 2012
  • 43. Le requêtage Deux DSL pour masquer la complexité PIG: un langage de flux HIVE: un SQL-like records = LOAD ‘/input/cashflows.txt’ CREATE TABLE cash_flow (BookID STRING, AS (BookID:chararray, ProductID:chararray, ProductID STRING, TraderID STRING, DueDate TraderID:chararray, DueDate:int, BIGINT, Currency STRING, Amount DOUBLE, Currency:chararray, Amount:double, Direction STRING, Counterparty STRING) ROW Direction:chararray, Counterparty:chararray); FORMAT DELIMITED FIELDS TERMINATED BY 't' LINES TERMINATED BY 'n' STORED AS ccy_grouped = GROUP records BY Currency TEXTFILE; results = FOREACH ccy_grouped GENERATE LOAD DATA INPATH '/data/cashflows.txt' group, SUM(records.Amount); OVERWRITE INTO TABLE cash_flow; DUMP results; select Currency, sum(Amount) from cash_flow where Direction='Credit' group by Currency; Metastore HDFS HDFS 43 © OCTO 2012
  • 46. Base de données clés-valeurs Modélisation de type Hashtable Papier de recherche Origine A une clef correspond une (et une seule) valeur d’Amazon sur Dynamo Le type de la valeur n’est pas à spécifier La valeur peut être de n’importe quel type Clés Valeurs Opérations Valeur : Objet Put Clé : Objet Objet 1 Objet 3 Get Ligne Objet 2 Delete Valeur : Objet Objet 1 Objet 3 Pas de possibilité de requêtage autre que par la clé Clé : Objet Ligne Valeur : Objet Cas d’usage Clé : Objet Objet 1 Objet 3 Stockage de données identifié par une valeur unique Ligne Objet 4 session préférence utilisateur Cache de données Maintien de contextes hautement accessibles Redis, Riak, Voldemort, Dédoublonnage de données Exemple … 46 © OCTO 2012
  • 47. Exemple : modélisation clé/valeur Directement utilisatble pour de nombreux use cases HTTP sessions, … Dans les autres cas, cela nécessite une modélisation en accord avec les patterns d’accès aux données Clé composité Contenu agrégé Attention jointur = full scan Customer Cst1 Account Cst2 Acc1 Key/Value Cst1#Acc1 { Op1=100, Op2 =-50} Acc2 Cst2#Acc2 Operation Op1 +100 Op2 -50 47 © OCTO 2012
  • 48. Base de données colonnes Modélisation dérivé du clé-valeur mais orienté colonnes Papier de recherche de Origine Des familles de colonnes pour remplacer le concept de Google sur BigTable tables dans les SGBDR Et des données semi-structurées dont les blocs colonnes sont stockés de manière triée Clé Famille de colonnes 1 Opérations Colonne1 Colonne2 Colonne3 Clé : Objet Objet 1 Objet 21 Objet 31 Requêtage par clé ou ensemble de clé Ligne Requêtage possible sur valeur d’index secondaire Colonne2 Sélection d’une ou plusieurs colonnes résultat Clé : Objet Objet 22 Ligne Cas d’usage Colonne3 Colonne4 Clé : Objet Objet 32 Objet 4 Web Ligne Priorité à la disponibilité plutôt qu’à la consistance des données Haut débit et faible latence Schéma de données évolutif HBase (slide 103) et Exemple Beaucoup d’écritures, peu de lectures Cassandra (slide 104) 48 © OCTO 2012
  • 49. Base de données documents Modélisation dérivé du clé-valeur avec des documents Origine Lotus Notes Les documents sont des données structurées sous la forme d’arbres hiérarchiques (sous-documents) Les données peuvent être de différentes natures Chaînes de caractères, valeurs scalaires, tableaux… Clé Documents Les documents sont auto-portants Contient les informations décrivant sa structure et les valeurs Document: Objet { Champ1: Objet, Clé : Objet associés Ligne Champ2: [Objet, Objet] } Plusieurs formats de stockage du document XML, JSON, BSON, … Document: Objet {Champ1: Objet, Clé : Objet Champ3: Sous-Doc: {Champ21: Ligne Objet} } Opérations Document: Objet {Champ4: Objet } Clé : Objet Requêtage évolué (autre que par la clé) Ligne Cas d’usage Recherche documentaire, catalogue produits, CMS… Fort besoin de schéma faiblement structuré Exemple MongoDB (slide 105) Beaucoup de lectures, peu d’écritures 49 © OCTO 2012
  • 50. Base de données graphes Modélisation de type nœuds/relations Origine Théorie des graphes Repose sur l’interconnectivité des données (contrairement aux autres types de solutions NoSQL qui ne supportent pas les relations) Les données sont non seulement attachées aux nœuds mais également aux relations (property graph) Noeud1 Prop10 Opérations Parcours de graphes (traversal) Relation1 Relation2 Algorithmes de traitement de graphes (Dijkstra, …) Prop11 Prop12 Prop20 Noeud2 Noeud3 Cas d’usage Prop21 Prop22 Prop3 Réseaux sociaux Réseaux de transports Réseaux logistiques Réseaux électriques Réseaux télécoms Exemple Neo4j (slide 106) … 50 © OCTO 2012
  • 51. Typologies : OLTP vs OLAP… 51 © OCTO 2012
  • 53. Le stockage : avis Une certitude : « one size doesn’t fit all » Quelques alternatives intéressantes à surveiller Intrusion des moteurs de recherche (Exalead) Solution en rupture VB-DBMS (Iluminate) La virtualisation Mon architecture décisionnelle composite de demain : Reporting sous datawarehouse Postgre alimenté par Talend Analytique sous Exadata + complément Hadoop en stockage, traitements supplémentaires et historisation des données froides Une base Titan pour les réseaux sociaux 53 © OCTO 2012
  • 54. Pourquoi cette frilosité entre BI et NoSQL? Parce que la plupart de ces technologies sont inadaptées à l& BI, Parce qu’on sait gérer des To depuis longtemps et qu’on a 20 ans d’expérience sur des problématiques de forte volumétrie (stockage et performance) Parce que c’est OpenSource et que c’est un milieu gangréné par les grands éditeurs (Oracle, IBM…) Mais surtout parce qu’on affronte un changement comparable à migrer des cobolistes vers de l’Open : Environnement BI actuel (SQL, L4G, basic, C et Shell au pire) vs environnement NoSQL (java généralement) Les BICC au mieux qualifient négativement ces solutions, voir font l’impasse dans l’attente de solutions propriétaires (connecteur avec couche d’abstraction) L’âge de pierre de l’ingénierie logicielle (pas de test, pas d’usine) L’enjeu est de parvenir à réunir ces 2 mondes sur les compétences et sur les pratiques 54 © OCTO 2012
  • 55. Système de diffusion et de présentation : La plateforme décisionnelle 55 © OCTO 2012
  • 56. Plateforme décisionnelle : magic quadrant et part de marché… (24%) (15,6 %) (12,6 %) (11,6 %) (8,7 %) 56 © OCTO 2012
  • 57. …inversement proportionnelle concernant la satisfaction utilisateur Overall Customer Experience Source: Gartner 2011. 57 © OCTO 2012
  • 58. Analyse des quadrants Les leaders du marché sont peu challengés et profitent pleinement de leur base installée (ceux sont les mêmes depuis 10 ans…): Ils disposent d’une couverture de service très étendue L’innovation est faite par acquisition ou reproduction Ils profitent de la politique de rationalisation des DSI Ils profitent de tous les freins propres au changement (habitudes des DSI, habitudes des utilisateurs…) De nouveaux acteurs perturbent ce marché avec une approche utilisateur final et métier Qliktech, Tableau Software, BIME Le facteur prix est ensuite un facteur de positionnement dans un contexte assez gris Microsoft OpenSource : Jaspersoft et Pentaho 58 © OCTO 2012
  • 59. Tendances du marché Poursuite de la rationalisation du marché et dans les DSI dans une optique d’économie Génère de nouveaux achats de solution par les métiers L’ « in memory » est une approche de référence introduite pas Qliktech et devenue un incontournable aujourd’hui. La tendance s’est diffusée au niveau hardware (appliance), des SGBD (HANA, Ibm, Oracle, MySql), ou au niveau software (Powerpivot…) MOLAP est mort… ou du moins en fin de vie en dehors de use cases complètement balisés (comptabilité avec Hypérion) Arrivée d’approche non dépendante (moins) de la modélisation : les approches NoSQL (mongoDB), les technologies associative/corrélative (CDBMS illuminate : VBS, indexation par contexte et relation gérée en métadonnée) tendent à ne plus forcément structurer un projet autour de la modélisation  la panacée du ad hoc (attention au perf au chargement) 59 © OCTO 2012
  • 60. Compatibilité Hadoop Hive QL MapReduce HDFS File scripting Datamining SAS (SAS/ACCESS et SAS BASE) R RevoScale Business Intelligence SAP Business Object Oracle BIEE MicroStrategy IBM BigSheets IBM Cognos Tableau Tibco Spotfire Pentaho QlikTech (through DataRocket) Datameer 60 © OCTO 2012
  • 61. Plateforme décisionnelle : avis Si on construit un système décisionnel de zéro, il est raisonnablement difficile de choisir une acteur du marché historique Une certitude : « one size doesn’t fit all » 3 critères de choix apportent des différentiants forts en dehors des cas d’usages : Le prix Le contexte (technologique, compétence…) L’expérience utilisateur Excel reste le meilleur choix dans bien des situations Quid du dataviz? 61 © OCTO 2012
  • 62. Système de diffusion et de présentation : Dataviz 62 © OCTO 2012
  • 63. L’importance de la visualisation des données L’objectif de la data visualisation est de communiquer une information claire et efficiente à l’aide de moyen graphique La data visualisation est un outil fondamental de l’analyse et est un support de communication du résultat Donne du sens Impact visuel Lisibilité du message Cohérence entre données et messages  Stimuler l’attention et l’engagement La data visualisation est devenu un domaine de recherche à part entière (à ce titre des enseignements existent) 63 © OCTO 2012
  • 64. Les typologies de représentation visuelle (1/6) De l‘âge de pierre… 64 © OCTO 2012
  • 65. Les typologies de représentation visuelle (2/6) Cumulative Histogramm histogramm 65 © OCTO 2012
  • 66. Les typologies de représentation visuelle (3/6) Scatter chart Bubble chart 66 © OCTO 2012
  • 67. Les typologies de représentation visuelle (4/6) …A l‘âge de l’information… Geo chart Graph/Cluste r 67 © OCTO 2012
  • 68. Les typologies de représentation visuelle (5/6) …A l‘âge de l’information… Heat map Tree map 68 © OCTO 2012
  • 69. Les typologies de représentation visuelle (6/6) …A l‘âge du dataviz Illustration – D3.js 69 © OCTO 2012
  • 70. Comment présenter efficacement des données analytiques? A chaque typologie de donnée correspond un mode de représentation privilégié Type de données Mode de représentation Statistique descriptive mono-variable • PieChart • Histogramme • CDF (line chart) Statistique descriptive multi-variable • Geo Map • Tree map • Heat map Relations • Graph Série temporelle • Line chart • Timeline Statistique explicative • Scatter Chart+ line • BubbleChart + line 70 © OCTO 2012
  • 71. Forrester wave (en attendant le gartner…) 71 © OCTO 2012
  • 72. Magic quadrant Dataviz « non officiel » Andrei Pandre 'Yellow Square for DV, 2012 72 © OCTO 2012
  • 73. Les outils de visualisation spécialisés Analyse de données multi variés : Analyse de textes R IBM BigSheets Revolution Analytics IN-SPIRE. IN-SPIRE™ provides IBM Attribute explorer tools for exploring Ggobi, XGobi Mondrian (rosuda.org) Toolkit JUNG Analyse de réseaux et de graph Gephi toolkit Gephi Google Chart Graphviz Processing (http://processing.org) NodeXL Protovis/ D3.js http://selection.datavisualization.ch Analyse de cartes (maps) Google Fusion Tables 73 © OCTO 2012
  • 74. Dataviz : avis Une réponse aux nouveaux enjeux Volumétrie, temps réel, big data Synthèse, convaincre en peu de temps, capter l’attention  Rien de plus frustrant que de parvenir aux résultats sans arriver à l’expliquer/le démontrer simplement Dataviz = l’usabilité étendue à la business intelligence : proposer des représentations de la donnée utiles utilisables Si ce n’est pas votre métier : limitez-vous aux outils du marché en attendant la démocratisation d’outils spécifiques De nouveaux métiers apparaissent, on ne parle plus de web agency mais de data agency 74 © OCTO 2012
  • 75. Système de diffusion et de présentation : Plateforme analytique 75 © OCTO 2012
  • 76. De quoi parle t’on? Corrélation Classification Identification Simulation 76 © OCTO 2012
  • 77. 3 philosophies complémentaires de l’analyse L’analyse se focalise sur les propriétés intrinsèques des données Ex : moyenne, saisonnalité, stationnarité, … L’analyse se focalise sur l’identification d’un modèle Statistiques mathématique robuste à partir des données Ex : régression, classification, descriptives L’analyse se focalise sur réduction de dimensions, … l’apprentissage à identifier des propriétés et des modèles mathématiques à partir des données Ex : clustering, pattern matching, Support Vector Machine, … Machine Data mining learning 77 © OCTO 2012
  • 78. On nous a menti!!! Rien de neuf sous le soleil… Statistiques Machine descriptives learning = Data mining 78 © OCTO 2012
  • 79. J’exagère? Différence sémantique évidente… Une possibilité (parmi plusieurs dizaines…) : le Data Mining, c’est l’application du machine learning Ma meilleure proposition issue de l’usage que l’on en fait (vrai dans 90% des cas): Now, increasingly, people are comfortable using the term "machine learning" for cases where "data mining" was used in the past. 79 © OCTO 2012
  • 80. Dernier magic quadrant (2008) et Wave (2010) 80 © OCTO 2012
  • 81. Vision du marché 2 leaders : Des challengers Sans oublier l’OpenSource Software Library 81 © OCTO 2012 ©OCTO 2012
  • 82. Plateforme analytique : avis Attention ces outils ne sont pas à la portée de tout le monde Les bases de la statistiques sont nécessaires On parle de data scientist Utiliser les bons modèles/méthodes… Le modèle de pricing de ces solutions ne peut pas être qualifié d’amical Montée en puissance de R au détriment des leaders (changement d’époque : on utilise R dans les écoles d’ingénieur, plus SAS…) 82 © OCTO 2012
  • 83. Open Space Business Intelligence 83 © OCTO 2012
  • 84. MDM : Master Data Management ? Les acteurs du MDM sont les mêmes que les plateforme d’intégration Dans 90% des cas le sujet est abordé par le prisme SIO Le MDM est un univers complexe Solution généraliste (orchestra) Solution spécifique objet (PIM, CDI) Solution métier (masterI, ERP) Sans oublier le développement spécifique 84 © OCTO 2012
  • 85. DQM : Data Quality Management ? Les acteurs du DQM sont les mêmes que les plateformes d’intégration et MDM… Ces outils regroupent des fonctionnalités de … Découverte (profilage) Nettoyage Normalisation … couplés généralement avec un ETL 85 © OCTO 2012
  • 86. MDM, DQM : avis Une recommandation concernant le MDM est un sujet d’architecture en soit (gouvernance de la donnée, échange, choix d’architecture et de solution…). Ce que l’on peut en dire sans se mouiller: Ça fonctionne même sur des grosses archis (en spécifique) C’est très dur à vendre au business et ça coûte cher Dans 90% des cas  hébergement par l’ERP C’est le saint graal des urbanistes, donc méfiance Concernant les outils de DQM, leur tarification leur interdit une utilisation massive qui pourrait être intéressante car cela reste des outils très puissants Dans 90% des cas les entreprises développent en spécifique et limitent les fonctions de DQM aux données de références via des outils spécifiques (normalisation des adresses) 86 © OCTO 2012
  • 87. La gestion des métadonnées ? Pour quels usages? Analyse d’impact Documentation Dictionnaire Génération de code automatique… Malheureusement cette gestion est propre à chaque outil  ce qui profite aux architectures mono-éditeur… …alors que des standards existent : Common Warehouse Metamodel (CWM™) Metadata Interchange Patterns (MIP) Nous n’avons pas identifié de solution miracle: Développement spécifique Adresser par d’autres référentiels (MDM), référentiel d’architecture (Aris,PowerAMC, Mega…) Wiki… Des solutions existent par éditeur (IBM information server metadata, informatica metadata manager...) qui nécessitent du spécifique pour une intégration complète 87 © OCTO 2012
  • 88. Bi & OpenSource? Les outils Open source arrivent à maturité sur le marché du décisionnel avec une pénétration PME et Grands Comptes Les solutions couvrent aujourd’hui tout le spectre du décisionnel et constituent une alternative pertinente avec par exemple : ETL Reporting OLAP - Kettle - JasperReports - Mondrian - Talend - Birt - JPivot Plateforme Datamining - Weka - Pentaho - Jasper Soft Sans oublier et d’autres solutions présentées dans cet état de l’art 88 © OCTO 2012
  • 89. Cloud computing et BI? « Permettant de contrôler des données volumineuses, l'informatique dans les nuages devrait bouleverser substantiellement le marché de la Business Intelligence grâce à son coût peu élevé, à son extensibilité et sa flexibilité » Dans les faits, la BI dans le cloud est confrontée à: Une crainte des clients relative à la localisation des données Une offre SAAS des éditeurs historiques très loin d’une approche self- service (c’est une nouveau paradigme pour ces acteurs) Un avantage économique encore incertain A court terme nous recommandons de : Privilégier les offres IaaS et PaaS (Amazon Elastic, Google bigQuery….) Privilégier les offre SaaS natives (BIME partenaire google) Tester Amazon marketplace (jaspersoft et BO) 89 © OCTO 2012
  • 90. Mobilité et BI? source: DAS Mobile Business Intelligence Market Study – October 2011, DRESNER ADVISORY SERVICE Microstrategy comme précurseur et leader 3ème usage mobile recensé dans le cadre professionnel 68% des organisations jugent le sujet très important Préférence d’une approche native et sur de l’iOS (non tenable sur la durée  HTML5) Avis : suit le changement des usages. Réellement une priorité? 90 © OCTO 2012
  • 91. Agilité et BI? Aujourd’hui de nombreux retours d’expériences de projets décisionnels mettent en évidences les carences suivantes : La difficulté de lutter contre l’effet tunnel Le retard important dans la mise en œuvre et les budgets en augmentation Un problème d’agilité pour faire évoluer ou adapter la solution aux besoins changeants Un rejet de l’application par les utilisateurs Les méthodes agiles ont fait leur preuve et constituent une approche pertinente dans la construction du SI Décisionnel (SID), afin de soulager les carences précitées qui sont au cœur des apports potentiels de ces méthodes Les méthodes agiles répondent très bien à une adage du Décisionnel « voir grand en commençant petit » L’approche des méthodes agiles doit être adaptée en prenant en compte les spécificités des projets décisionnels Elle nécessite cependant les pré-requis suivants propres à l’industrialisation des pratiques de développement (vrais freins): Politique de test (automatisation) Pratique de modélisation (refactoring database et approche verticale et itérative) 91 © OCTO 2012
  • 92. BI self-service? Une demande récurrente adressée au DSI est de fournir une BI self- service Recevant des regards torves des DSI, les métiers achètent de nouvelles solutions éditeur pour parvenir à une fonctionnalité… …déjà présente dans les outils de la maison proposés par la DSI mais dont la mise en oeuvre est bridée au niveau logiciel ou par les processus et la gestion des habilitation La Bi self-service est avant tout un problème d’organisation et de processus même si la dimension logicielle peut aider : Virtualisation Outils graphique user friendly + in memory Data discovery 92 © OCTO 2012
  • 93. Une offre de service BI? Un letmotiv « One size doesn’t fit all » Que cela soit au niveau des outils, des architectures, de la méthodologie ou des processus Processus Architecture Méthodologie 93 © OCTO 2012
  • 94. Competence center et BI? La notion de BICC est à la mode et s’est généralisée avec les modes d’interventions suivants : Développement « Expertise » Exploitation + MCO « Pilotage » + Gestion de projet « Opérationnel partiel » Gestion qualité Conseil + « Opérationnel » Veille Cadre de Prototypage référence Education Expertise Pilotage Opérationnel partiel Opérationnel Ces organisations issues de rationalisation/outsourcing sont challengées par les tendances suivantes : La décentralisation des compétences et des outils vers le métier  la prise de pouvoir par le métier Les nouvelles technologies associées à la donnée (hadoop) L’agilité 94 © OCTO 2012
  • 95. Et la business intelligence en temps réel? 1er problème: trouver le cas d’usage… Rappel : Un système d’analyse de données temps réel est un système évènementiel disponible, scalable et stable, capable de prendre des décisions (actions) avec une latence inférieure à … la fréquence des évènements Les architectures historiques fonctionnent en J+1… … mais ces limites peuvent largement être dépassées avec une revue de la cinématique des traitements : Chargement toutes les heures Chargement toutes les 5 minutes  Donc attendez avant de sortir la Maserati et trouvez un use cases qui en vaille la peine 95 © OCTO 2012 ©OCTO 2012
  • 96. Architecture BI Real-time : approche « In-memory » IHM édition des règles IHM données historiques IHM données temps-réel latence : 100 ms évènements Moteur CEP structurés Event/Condition/Action Calculs et état en Capture Stream-based querying Applis mémoire : décision / transactionnelles, fenêtres de temps, Analyse multi-dim. action BPM, ESB opérateurs, règles … évènements non-structurés Cache / Cache distribué Historique des Données de référence, DWH, évènements interrogation de services 96 © OCTO 2012
  • 97. Architecture BI Real-time : approche « Grille de données » STORM latence : 100 ms évènements Moteur CEP structurés Event/Condition/Action Calculs et état en Capture Stream-based querying Applis mémoire : décision / transactionnelles, fenêtres de temps, Analyse multi-dim. action BPM, ESB opérateurs, règles … évènements non-structurés Cache / Cache distribué Historique des Données de référence, DWH, évènements interrogation de services 97 © OCTO 2012
  • 98. Architecture BI Real-time : approche « CEP » latence : 100 ms évènements Moteur CEP structurés Event/Condition/Action Calculs et état en Capture Stream-based querying Applis mémoire : décision / transactionnelles, fenêtres de temps, Analyse multi-dim. action BPM, ESB opérateurs, règles … évènements non-structurés Cache / Cache distribué Historique des Données de référence, DWH, évènements interrogation de services 98 © OCTO 2012
  • 99. Le SID existe-il encore? La frontière SIO/SID tend à disparaître du fait … De la virtualisation des données De l’utilisation des outils « BI » dans le monde opérationnel De l’arrivée du temps réel De la gouvernance des données Des Boucles de feedback (CRM) … et finalement ce n’est pas plus mal Stigmatisation des architectures et des hommes + de partage de pratiques notamment sur l’industrialisation des développements Besoin de dépoussiérage des pratiques du monde SID 99 © OCTO 2012
  • 100. EXPERTISE ARCHITECTURE ERGONOMICS PRAGMATISM SECURITY The two most important asset of a company can not be seen in its balance sheet: its reputation and its people Henry Ford, car industry INTEGRATION EXPERIENCE TRAINING MOBILITY AUDITS AUTEUR Joseph Glorieux Julien cabot jglorieux@octo.com jcabot@octo.com TOOLS AGILITY 100 © OCTO 2012