3. P l a n
3
Definition
INTRODUCTION
Définition – Place du décisionnel dans
l’entreprise– Décisionnel VS opérationnel
Système décisionnel
Historique+ Phases projet BI + Cycle de vie BI
Business intelligence
Présentations des outils + Comparaison
Suites BI
Méthodologie traditionnelle + Gimsi + Agile BI
+ MAIA
Méthodologie et Meta
modélisation
Exemple d’execution d’un programme
MapReduce Localement et dans un Cluster
Conclusion
5. 5
Business intelligence (BI) est un sujet en pleine évolution, s'adressant à la direction générale tout
comme aux métiers.
L'informatique décisionnelle englobe les différents outils, applications et méthodologies qui permettent
à l'entreprise de collecter des données à partir de systèmes internes et de sources externes, de les
préparer en vue d'une analyse, de développer des requêtes et de les appliquer à ces données. On en
tire alors diverses vues, ou modes de visualisation, tels que des rapports et des tableaux de bord,
pour mettre les résultats analytiques à la disposition des décideurs et des acteurs de l'entreprise.
7. D é f i n i t i o n
Le système d’information est l’ensemble des méthodes et moyens de recueil, de contrôle et de distribution des
informations nécessaires à l’exercice de l’activité en tout point de l’organisation. Il a pour fonction de produire et de
mémoriser les informations, de l’activité du système opérant (système opérationnel), puis de les mettre à disposition du
système de décision (système de pilotage)
Le Décisionnel est le processus visant à transformer les données en informations et, par l'intermédiaire d'interrogations
successives, transformer ces informations en connaissances
Un système décisionnel va en particulier aider au pilotage des plans d’actions (prévision, planification, suivi), à
l’apprentissage (acquisition de savoir-faire, de connaissances, de compétences) et à la réalisation d’innovations
incrémentales (adaptation du modèle d’affaires : produits/services, organisation, etc. …).
7
8. P l a c e d u d é c i s i o n n e l d a n s L ’ e n t r e p r i s e
8
9. D é c i s i o n n e l v s O p é r a t i o n n e l
9
11. 1 2
3 4
11
Base de données
opérationnel
1970
Infocentre
1980
Entrepôt de données
1990
Big Data
1997
Historique BI
12. P r o c e s s u s B I
12
Connaissance
Sages
se
Information
Données
analyse
Analyse , Présentation
Collecte et consolidation
Données brutes contenus dans outils types
ERP, CRM ,…)
13. 13
Phase d’alimentation
faire intervenir des processus ETL qui se chargeront de
récupérer toutes les données nécessaires depuis les
différentes sources de stockage.
Phases d’un
projet BI
Phase de modélisation
Les données sont stockées sous une forme adaptée pour
les analyses que nous souhaitons effectuer .Contient
notamment le Datawarehouse chargé de centraliser les
données .Intervenir les notions de cubes et de Datamarts
Phase de restitution
es différents outils de restitution vont intervenir ;
des outils de Reporting, des portails d'accès à des
tableaux de bord, des outils de navigation dans des
cubes, ou des outils de statistiques
Phase d’analyse
les utilisateurs finaux interviennent et analysent les
informations qui leurs sont fournies aussi faire intervenir
des spécialistes en analyse pour utiliser des outils de
statistique et ressortir des prévisions ou des estimations
futures (datamining)
14. C y c l e d e v i e d ’ u n p r o j e t B I
14
16. N é c e s s i t é d e f a i r e l ’ i n t é g r a t i o n d e
d o n n é e s
Sources diverses et disparates
Sources sur différentes plateformes et OS
Applications legacy utilisant des BD et autres technologies obsolètes
Historique de changement non-préservé dans les sources
Qualité de données douteuse et changeante dans le temps
Structure des systèmes sources changeante dans le temps
Incohérence entre les différentes sources
Données dans un format difficilement interprétable ou ambigu
16
17. P r i n c i p a l e s a p p r o c h e s d ’ i n t é g r a t i o n
17
18. 1 2 3
E T L
18
L’extraction est la première étape du
processus d’apport de données à
l’entrepôt de données. Extraire, cela
veut dire lire et interpréter les
données sources et les copier dans
la zone de préparation en vue de
manipulations ultérieures
Extraction
des données
La transformation est la seconde pha
se du processus. Cette sert à :
• Consolidation des données.
• Correction des données et éliminati
on de toute ambiguïté.
• Elimination des données redondant
es.
• Compléter et renseigner les valeurs
manquantes.
transformati
on des
données
C’est la dernière phase de
l’alimentation d’un entrepôt de
données, le chargement est une
étape indispensable. Elle reste
toutefois très délicate et exige une
certaine connaissance des
structures du système de gestion de
la base de données
chargement
des données
Les phases du processus E.T.L. représentent la mécanique d’alimentation du Datawarehouse. Ainsi elles se déroulent
comme suit :
22. D é f i n i t i o n
22
Au cœur du Datawarehouse, les données sont
organisées par thème. Le Datawarehouse est
organisé autour des sujets majeurs de
l’entreprise
Orienté sujet
Les données proviennent de sources
hétérogènes utilisant chacune un type
de format. Elles sont intégrées avant
d'être proposées à utilisation.
Intégré
Les données non volatiles sont aussi
horodatées. On peut ainsi visualiser
l'évolution dans le temps d’une valeur
donnée. Le degré de détail de
l'archivage est bien entendu relatif à la
nature des données.
Historisé
il est important de conserver les différentes
valeurs d’une donnée, cela permet les
comparaisons et le suivi de l’évolution des
valeurs dans le temps,
Evolutives dans le temps
Les données du Datawarehouse sont organisées
de manière à permettre l’exécution des
processus d’aide à la décision (Reporting, Data
Mining…)
Organisées pour le support d’un processus
d’aide à la décision
Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et évolutives dans le temps, organisées pour le support d’un
processus d’aide à la décision.
24. L e s é l é m e n t s d ’ u n e n t r e p ô t d e d o n n é e s
24
ce sont les applications du système
opérationnel de l’entreprise et dont la
priorité est d’assurer le fonctionnement de
ce dernier et sa performance. Ces
applications sont extérieures au
Datawarehouse.
Les applications
opérationnelles
la préparation englobe tout ce qu’il y a entre les
applications opérationnelles et la présentation des
données. Elle est constituée d’un ensemble de
processus appelé ETL, « Extract, transform and
Load », les données sont extraites et stockées
pour subir les transformations nécessaires avant
leur chargement
Préparation des
données
les outils d’accès aux
données
c’est l’entrepôt où les données sont organisées et
stockées. Si les données de la zone de
préparation sont interdites aux utilisateurs, la zone
de présentation est tout ce que l’utilisateur voit et
touche par le biais des outils d’accès.
Présentation des
données
25. L e s é t a p e s d e m i s e e n œ u v r e d ’ u n D W
25
Nous avons besoin d'interroger les principaux décideurs de savoir, quels facteurs définissent le succès dans
l'entreprise? Comment la direction veut analyser leurs données? Quelles sont les questions d'affaires les plus importantes, qui
doivent être satisfaits par ce nouveau système
Identifier et recueillir les exigences1
Nous devons concevoir modèle dimensionnel pour répondre aux exigences des utilisateurs qui doivent répondre à des besoins
d'affaires et contient des informations qui peuvent être facilement accessible.
Ce modèle prend en charge la conception doit cubes OLAP pour fournir des résultats de requête "instantanés" pour les analystes
Concevoir le modèle dimensionnel2
Exécuter des requêtes T-SQL pour créer et remplir votre
dimension et de faits tables
3
27. D é f i n i t i o n
Un Datamarts est une forme simple d'un entrepôt de données qui se concentre sur un seul sujet (ou zone
fonctionnelle) comme :
les ventes,
les finances
le marketing.
27
28. T y p e s d e D a t a m a r t s
Une Datamarts dépendante vous permet de réunir les données
de votre organisation dans une entrepôt de données.
Cela vous donne les avantages habituels de la centralisation
28
29. Datamarts in dépendante : Une Datamarts indépendante est créé sans
l'utilisation d'un entrepôt de données centralisé.
Cela pourrait être souhaitable pour les petits groupes au sein d'une organisation
29
30. Datamarts hybrides : Une Datamarts hybride vous permet de combiner
les entrées provenant de sources autres qu'un entrepôt de données.
Cela pourrait être utile pour de nombreuses situations,
en particulier lorsque vous avez besoin d'une intégration ad hoc,
par exemple après l'ajout d'un nouveau groupe
ou d'un produit à l'organisation
30
31. D i f f é r e n c e e n t r e D a t a m a r t s e t D W
31
Entrepôt de données Datamarts
Portée Entreprise Line of Business(LOF)
Sujet Plusieurs Sujet unique
Les sources de données Beaucoup Peu
Taille(typique) 100 GB-TB + <100GB
Temps de mise en œuvre Mois à années Mois
33. D é f i n i t i o n
OLAP utilise des tables de base de données pour permettre l'affichage, l'analyse et l'interrogation multidimensionnelle
de nombreuses quantités de données.
La vue multidimensionnelle des données considère que l'information est stockée dans un réseau ou un cube
multidimensionnel.
Les cubes sont conçus pour une efficacité dans la récupération de données. Un cube est un groupe de cellules de
données disposées selon les dimensions (comment nous voulons afficher les données, par exemple: temps, client,
produit) et les mesures (éléments comptés, résumés ou agrégés, tels que le montant des ventes) des données. Cube
peut lier des données de différentes dimensions.
33
34. 34
OLAP
SOLAP
MOLAP
ROLAP
OLAP
Mobile
HOLAP
DOLAP
OLAP multidimensionnel : Les produits MOLAP permettent aux utilisateurs
finaux de modéliser les données dans un environnement multidimensionnel,
plutôt que de fournir une vue multidimensionnelle des données relationnelles
Relation OLAP : Les produits ROLAP (pour OLAP
relationnel) sont crédités pour pouvoir accéder
directement aux données stockées dans les bases de
données relationnelles. La notion est qu'ils peuvent
facilement récupérer des données transactionnelles,
même si cela devient suspect lorsque des ensembles
de données très volumineux
HOLAP : est le produit de la tentative d'intégrer les
meilleures fonctionnalités de MOLAP et ROLAP dans
une seule architecture. Ce type d'outil tente de
combler le fossé technologique des deux produits en
permettant l'accès ou l'utilisation de bases de
données multidimensionnelles (MDDB) et de
systèmes de gestion de base de données
relationnelle (RDBMS)
OLAP spatial : son objectif et d’ intégrer les
capacités des Systèmes d'Information Géographique
(SIG) et OLAP dans une solution unifiée, facilitant
ainsi la gestion des données spatiales et non
spatiales
OLAP mobile : se réfère simplement aux
fonctionnalités OLAP sur un périphérique mobile ou
sans fil . permet aux utilisateurs d'accéder et de
travailler sur les données OLAP et les applications à
distance
Desktop OLAP :, ou "DOLAP", est basé sur l'idée que l'utilisateur peut télécharger
une section d'un modèle OLAP d'une autre source et travailler avec cet ensemble
de données localement, sur leur bureau. DOLAP est censé être plus facile à
déployer, avec un coût potentiel moins élevé mais li reste limité
Types de
système OLAP
35. S t r u c t u r e m u l t i d i m e n s i o n n e l l e
L’usage des configurations ROLAP et HOLAP nécessite de simuler une structure multidimensionnelle dans un SGDB r
elationnel. Pour cela, il existe des modèles prédéfinis :
en étoile (Star Schémas) caractérisé par une simplicité d’utilisation
35
36. S t r u c t u r e m u l t i d i m e n s i o n n e l l e
en flocon (Snowflake Schéma) représente la vision des données du point de vue de l’utilisateur : respect de la
hiérarchie.
36
37. S t r u c t u r e m u l t i d i m e n s i o n n e l l e
mixte (Mixed Schéma). Fusion des modèles en étoile et en flocon et consiste en une normalisation des grandes tables
lorsqu’il y a trop de redondance.
37
38. S t r u c t u r e m u l t i d i m e n s i o n n e l l e
en constellation (Fact Constellation Schémas) consiste à relier plusieurs modèles en étoile ayant une dimension
commune.
38
39. o p é r a t e u r s p o u r l a n a v i g a t i o n d a n s l e s
h y p e r c u b e s
Les outils OLAP utilisent des opérateurs particuliers pour la navigation dans les hyper cubes
Roll-up Passage de mesures détaillées à résumées en remontant dans la hiérarchie de la dimension.
Drill-down Descendre dans la hiérarchie de la dimension.
Rotate Rotation des axes du cube pour fournir une vue alternative des données.
Slicing Extraction d’une tranche d’informations : Sélection d’une dimension pour passer à un sous-cube.
Scoping extraction d'un bloc de données (opération plus générale que le slicing)
Dice Extraction d’un bloc de données : Sélection de deux ou plusieurs dimensions.
Drill-accross Exécution de requêtes impliquant plus d’un cube ayant une dimension commune
Drill-through Passage d’une mesure à l’autre ou d’un membre d’une dimension à un autre.
39
40. L a n g a g e d e r e q u ê t e
Comme SQL pour les bases de données relationnelles, il existe des langages de requêtes pour l’utilisation des OLAP. Il
s’agit de langage de calcul avec une syntaxe similaire à celle des tableurs. L’inconvénient est qu’il n’y a pas de langage
universel. Néanmoins, on peut distinguer deux tendances :
– MDX de l’anglais Multidimensionnel Expressions intégré à Microsoft SQL Server 2005.
– OLAP DML (Data Manipulation Langage) intégré à Oracle 10g.
Le plus utilisé est MDX qu’on va aborder
40
41. M D X
MDX, acronyme de Multi Dimensionnel Expression, est un langage de requêtes OLAP fait pour naviguer dans les bases
multidimensionnelles, et définir des requêtes sur tous leurs objets (dimensions, hiérarchies, niveaux, membres et cellules)
La syntaxe de MDX ressemble à celle de SQL par ses mots clé SELECT, FROM, WHERE, mais leurs sémantiques sont différe
ntes :
SQL construit des vues relationnelles
MDX construits des vues multidimensionnelles des données
Analogies entre termes multidimensionnels (MDX) et relationnels (SQL) :
41
43. R e p o r t i n g
Le terme "Reporting" désigne une famille d'outils de Business intelligence destinés à assurer la réalisation, la
publication et la diffusion de rapports d'activité selon un format prédéterminé. Ils sont essentiellement destinés à
faciliter la communication de résultats chiffrés ou d'un suivi d'avancement.
Principe :
Le Reporting est probablement l'application la plus utilisée de l’informatique décisionnelle, cela permet aux gestionnai
res :
- De sélectionner des données relatives à telle période, telle production, tel secteur de clientèle, etc.
- De trier, regrouper ou répartir ces données selon les critères de leur choix
- De réaliser divers calculs (totaux, moyennes, écarts, comparatif d'une période à l'autre…)
- De présenter les résultats d’une manière synthétique ou détaillée, le plus souvent graphique selon leurs besoins ou le
s attentes des dirigeants de l’entreprise
43
44. D é m a r c h e d ’ u n b o n R e p o r t i n g
44
Quel message souhaite-t-on transmettre ? C'est la première
question à se poser lorsque l'on élabore un rapport d'activité à
diffuser.
Choisissez les bons objectifs1
La collecte de données. Avec les outils d'ETL mais ne suffisent
pas. Il ne faut pas hésiter à consulter autour de soi pour
confronter les enseignements et valider les données une fois
placées en perspective avec la réalité des activités
Collectez les données2
On évitera de surcharger le rapport de données. Un trop grand
nombre de données risque de détourner l'attention et de perturber
la perception du message. Il est préférable de se focaliser
uniquement sur les informations essentielles
Transformez les données en
information
3
Un bon rapport interpelle ses destinataires. Utilisez les
graphiques adéquats pour chaque type d'information que vous
souhaitez communiquer.
Optimisez le rapport4
Un bon rapport est un rapport simple. Là encore, il ne faut pas
surcharger le rapport en multipliant les informations au risque de
fausser le message que l'on souhaite transmettre
Limitez le nombre de
présentations graphiques
5
Il est toujours profitable d'étudier la manière dont le message est
perçu par ses destinataires dans une logique d'amélioration
continue.
Feed Back6
45. T a b l e a u d e b o r d
Le Reporting est complété par le tableau de bord, qui lui est un outil d’évaluation de l’organisation d'une entreprise ou d'une
institution constitué de plusieurs indicateurs de sa performance à des moments donnés ou sur des périodes données.
Le tableau de bord est un ensemble d'indicateurs de pilotage, construits de façon périodique, à l'intention du responsable,
afin de guider ses décisions et ses actions en vue d'atteindre les objectifs de performance.
Le tableau de bord :
- permet le contrôle de gestion en mettant en évidence les performances réelles et potentielles ainsi que les dysfonctionnem
ents
- un support de communication entre responsables
- favorise la prise de décision, après analyse des valeurs remarquables, et la mise en œuvre des actions correctives
- peut être un instrument de veille permettant de déceler les opportunités et risques nouveaux
45
46. L a m i s e e n œ u v r e d ’ u n t a b l e a u d e b o r d
La mise en place d’un tableau de bord suppose une réflexion approfondie sur les paramètres à surveiller (appelés
facteurs clés de succès) ainsi que sur les critères de performance caractéristiques de ces facteurs clés de succès. La
difficulté d'élaboration du tableau de bord réside dans la sélection d'indicateurs .
Les indicateurs doivent être :
- pertinents : répondre, au bon moment, aux besoins du responsable auquel le tableau de bord s'adresse
- obtenus rapidement afin de mener à temps les actions correctives. On privilégie la rapidité d'obtention à la précisio
n de l'information
- synthétiques : l'ensemble des indicateurs doit offrir une image globale et complète de l'entreprise ou du champ d'ac
tivité du responsable
- contingents : répondre à la situation et aux attentes du moment. Le tableau de bord n'a donc pas un contenu uniform
e, ni entre les services, ni dans le temps, même s'il doit présenter une certaine stabilité afin de procéder à des compara
isons dans le temps.
46
48. D a t a m i n i n g
L'exploration de données est un processus de recherche d'informations utilisables à partir de jeux de données de
grande taille. L'exploration de données utilise l’analyse mathématique pour dégager les motifs et les tendances existant
dans les données.
L'exploration de données est également connue sous le nom de découverte de connaissances en données (KDD).
Les principales propriétés de l'exploration de données sont les suivantes:
• Découverte automatique des motifs
• Prévision des résultats probables
• Création d'informations utiles
• Se focalise sur de grands ensembles de données et bases de données
48
49. L e p r o c e s s u s d ’ e x p l o r a t i o n d e d o n n é e s
49
Cette étape inclut l'analyse des besoins de l'entreprise, la définition de l'étendue du problème, la détermination des
mesures d'évaluation du modèle et la définition des objectifs spécifiques du projet d'exploration de données.
50. La deuxième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à
consolider et à nettoyer les données identifiées à l'étape Définition du problème.
50
51. La troisième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à ex
plorer les données préparées.
Vous devez vous familiariser avec les données afin de prendre les décisions appropriées lors de la création des
modèles d’exploration. Les techniques d'exploration comprennent le calcul des valeurs minimales et maximales, le
calcul des écarts moyens et types, et l'examen de la distribution des données.
51
52. La quatrième étape du processus d'exploration de données consiste à générer le ou les modèles d'exploration de
données. on utilise les connaissances acquises à l'étape Exploration des données pour définir et créer les modèles.
un modèle d'exploration de données n’est qu’un conteneur spécifiant les colonnes utilisées pour l'entrée, l'attribut prédit
et les paramètres indiquant à l'algorithme comment traiter les données.
Le traitement d'un modèle est également appelé apprentissage. L’apprentissage fait référence au processus visant à
appliquer un algorithme mathématique spécifique aux données de la structure pour extraire des motifs.
52
53. La cinquième étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à e
xplorer les modèles d’exploration de données créés et à tester leur efficacité.
Avant de déployer un modèle dans un environnement de production, vous voudrez vérifier si ce modèle fonctionne
bien.
53
54. La dernière étape du processus d'exploration de données, mise en évidence dans le diagramme suivant, consiste à
déployer les modèles les plus efficaces dans un environnement de production.
54
56. L e s o u t i l s B I
Les outils de la Business Intelligence, utilisés pour la plate-forme d'informatique décisionnelle, sont classés en quatre
catégories correspondant chacune à une fonction spécifique :
Collecter, nettoyer et consolider les données
Stocker
Distribuer
Exploiter
56
57. M i c r o s o f t S Q L S e r v e r 2 0 0 8 R 2
57
Cette suite, produit de Microsoft, intègre l'ensemble des briques nécessaires à la construction d'un système d'information d
écisionnel. En effet, cette plateforme s’accompagne de nombreux outils pour intégrer, analyser et afficher les données, tout
en garantissant une haute performance, elle repose sur les outils suivants : SQL Server Intégration services (SSIS), SQL S
erver Analysis Services (SSAS) et SQL Server Reporting Services (SSRS).
58. SQL Server Integration Services (SSIS) : SSIS effectue essentiellement trois choses de base, Recueillir des données
provenant de diverses sources.- Nous l'appelons Extraction (E) ;Les données obtenues à partir de différentes sources
peuvent être ou ne pas être même format. Alors d'abord convertir la totalité d'entre eux en fonction des besoins d'affair
es - Nous l'appelons transformation (T) ;Chargez-les en une seule source de données grand (surtout Data Warehouse)
- Nous l'appelons charge (L)
SQL Server Analysis Services: qui permet d’analyser les données, agrégées lors de S.S.I.S., vous pouvez utiliser
SSAS pour créer des cubes à l’aide de données de data marts / entrepôt de données pour l’analyse des données plus
profondes et plus rapides
SQL Server Reporting Services: qui permet de créer, gérer et publier des rapports résultant des analyses réalisées
lors de SSAS.C’est un système logiciel de génération de rapports basés sur le serveur de Microsoft.Il peut être utilisé
pour préparer et offrir une variété de rapports interactifs et imprimés.
58
59. O r a c l e B u s i n e s s I n t e l l i g e n c e S u i t e
59
Concurrente de Microsoft, la solution Business Intelligence d’Oracle est une plateforme complète du système décisionnel
qui fournit toute la gamme de fonctionnalités d’analyse et de production de rapports. La plateforme contient une base de
données, un outil d'intégration de données (ETL), des requêteurs, et un portail permettant de publier des tableaux de bord
60. Oracle BI Publisher permet d'intégrer des données à partir de plusieurs sources de données dans un seul document de sorti
e. Les rapports peuvent être livrés via l'imprimante, le courrier électronique, le fax, WebDav ou publiez votre rapport sur un port
ail. Oracle BI Publisher peut être utilisé comme un produit de reporting autonome ou intégré à Oracle Business Intelligence Sui
te .
Oracle BI Interactive Dashboard fournit à tout travailleur un accès interactif et intuitif à des informations pouvant être mises e
n action et personnalisées de façon dynamique en fonction du rôle et de l'identité de l'individu.
Oracle BI Answers fournit les capacités ad hoc des utilisateurs finaux dans une architecture Web pure. Les utilisateurs interag
issent avec une vue logique de l'information - complètement cachés de la complexité de la structure de données tout en empêc
hant simultanément les requêtes en fuite - et peuvent facilement créer des tableaux, des tableaux pivot, des rapports et des tab
leaux de bord visuellement attrayants.
Le serveur de BI est central pour tous les processus métier qui consomment de l'information, y compris les tableaux de bord, l
es requêtes ad hoc, les capacités d'interaction intelligente, les rapports d'entreprise et de production, les rapports financiers, l'a
nalyse OLAP, l'exploration de données et d'autres applications Web Service (J2EE et .NET). Toutes ces applications nécessite
nt un accès riche à de larges séries de données dans toute l'entreprise,
Une base de données Oracle est une collection de données traitées comme une unité. Le but d'une base de données est de s60
61. P e n t a h o ( B I ) S u i t e
61
Suite est une intelligence d’affaires complètes, couvrant toute la gamme de rapports à l'extraction de données. Le Pentaho B
I Suite englobe plusieurs projets open source, dont Pentaho rapports est l'un d'entre eux.
63. Z o h o R e p o r t s
63
Zoho Reports est une solution d'analyse de données parmi les plus abordables du marché. Les fonctionnalités offertes sont en
revanche très nombreuses : importez vos données à partir de vos bases de données ou connectez Zoho Reports à des
sources de données accessibles en ligne.
64. C o m p a r a i s o n e n t r e l e s s u i t e s
64
68. M é t h o d o l o g i e e n c a s c a d e
Traditionnellement, les projets en technologies de l’information, l’ensemble des matériels, logiciels et services utilisés
pour la collecte, le traitement et la transmission de l'information, étaient réalisés à l’aide d’une méthodologie empruntée
au monde de la construction.
La méthodologie en cascade stipule que chaque étape doit se terminer avant de débuter l’étape suivante. Par exemple,
la phase d’analyse détaillée doit être complétée avant de commencer la réalisation.
68
69. M é t h o d o l o g i e d ’ I n m o n
Bill Inmon est un informaticien américain considéré comme le père des entrepôts et écrivain d’un livre expliquant une
approche pour les créer. Dans son approche, il faut d’abord créer l’entrepôt qui comprend l’ensemble des données de
l’entreprise, pour ensuite alimenter de mini-entrepôts de données départementales. Chaque mini-entrepôt vise un
secteur particulier de l’entreprise et sera la source des requêtes et rapports utilisés par les décideurs de l’entreprise.
69
70. M é t h o d o l o g i e K i m b a l l
Ralph Kimball prend une approche tout à fait différente d’Inmon pour la création d’entrepôts. Premièrement, il a
développé une technique pour modéliser un entrepôt qui, à l’époque, était révolutionnaire : le modèle dimensionnel. Au
lieu d’être basé sur le modèle entités- -association, le modèle dimensionnel repose sur des tables représentant des
faits et des dimensions.
William Inmon nous propose cette analogie : « Vous pouvez attraper tous les fretins de l’océan et les empiler les uns
sur les autres, vous n’arriverez pas à créer une baleine. » Ce que William Inmon veut dire c’est que les magasins de
données du type silo auront forcément des vides entre eux, et n’arriveront jamais à refléter de façon réelle une vue
d’ensemble des données de l’entreprise
70
71. I n m o n V s K i m b a l l : L e s c a r a c t é r i s t i q u e
m a j e u r e s
71
72. I n m o n V s K i m b a l l : a v a n t a g e s e t
i n c o n v é n i e n t s
Inmon Kimball
Construction Couteux en temps Rapide
Maintenance Facile Difficile redondance à gérer
Cout Cout initial élevé Cout initial modéré
Duré de mise en œuvre Long Court si mode incrémental
Compétences utiles Equipe spécialisé Equipe généraliste
Intégration des données Au niveau entreprise Par domaine métier
72
73. A p p r o c h e M i x t e
Une combinaison des deux approches appelée hybride ou mixte
Prend en considération les sources de données et les besoins des utilisateurs
Consiste à construire des schémas dimensionnels à partir des structures des données du système opérationnel, et les
valider par rapport aux besoins analytiques
Approche cumule les avantages et quelques inconvénients des deux approches déjà citées, telles que la complexité des
sources de données et la difficulté quant à la détermination des besoins analytiques
73
74. P r o b l è m e l i é e a u x m é t h o d o l o g i e s
t r a d i t i o n n e l l e s
Malgré l’utilisation de méthodologies formelles, le taux d’échec des projets d’entrepôt demeure élevé
Le consortium Cutter a publié des statistiques sur le taux d’échec des projets d’entrepôt. Ce consortium a sondé 142
compagnies et 41 % d’entre elles ont vécu une forme d’échec dans leurs projets d’entrepôt. De plus, seulement 15
% des répondants disent avoir vécu un franc succès avec de tels projets
Le chercheur Trembly rapporte que le taux d’échec d’un projet d’entrepôt peut être aussi haut que 90 %.
74
75. L e s c a u s e s d ’ é c h e c s
75
les problèmes
avec le client
et ses besoins
imprécis
les problèmes
politiques ou
budgétaires
les difficultés
de
maintenance
le fossé de communication entre l’équipe TI et
les clients est inévitable, car les individus
sont différents à plusieurs points de vue
il semble difficile pour un utilisateur
d’imaginer la manipulation d’un système qu’il
n’a jamais vu
Les définitions de termes communs peuvent
différer d’un département à l’autre et rendent
difficile la consolidation des données
la difficulté de calculer le retour sur
investissement de ces projets
les projets sont souvent trop coûteux et
le temps alloué trop court
la qualité des données dans l’entrepôt
est un élément clé dont l’absence
compromet le projet. La qualité n’est
pas seulement un attribut de la donnée,
mais en qualifie aussi l’accès
la documentation des requis est trop
technique pour les utilisateurs. Ceux-ci ont
tendance à accepter ce qui est documenté
sans comprendre exactement ce qui sera
fait, dans le seul but de voir le projet se
réaliser rapidement. L’effet de cette
approbation est la livraison d’un projet avec
certaines fonctionnalités imparfaites ou
superflues
le manque de
qualité des
livrables
77. 77
GIMSI
Définition
G
I
I M
S
Généralisation
Information
Méthodes et mesures
Définit un cadre méthodologique afin de
mieux formaliser les conditions de
réussites du projet BI centré sur la
problématique « du tableau de bord»
Individualité et systémique
Système et systématique
GIMSI
78. M é t h o d o l o g i e G i m s i
Gimsi est une méthode coopérative de conception du système de pilotage, point central du Business Performance Man
agement structurée en 10 étapes
78
79. A g i l e B I
L’agilité peut se définir comme une souplesse dans l’exécution de mouvements ou une vivacité intellectuelle. Les
méthodes agiles utilisent un principe de développement itératif qui consiste à découper le projet en plusieurs étapes
qu’on appelle « itérations »
Agile Business Intelligence (BI) se réfère à l'utilisation du développement de logiciel Agile pour les projets de BI afin de
réduire le temps qu'il faut pour que les BI traditionnelles prennent en valeur l'organisation et contribuent à s'adapter
rapidement aux besoins changeants de l'entreprise. Agile BI permet à l'équipe de BI et aux gestionnaires de prendre de
meilleures décisions commerciales et de commencer à faire cela plus rapidement.
79
80. L ’ A g i l e
Valeurs et principes Agile
Les 4 valeurs
Les individus et leurs interactions plus que les processus et les outils.
Un logiciel qui fonctionne plus qu’une documentation exhaustive.
La collaboration avec les clients plus que la négociation contractuelle.
L’adaptation au changement plus que le suivi d’un plan.
Les 12 principes
Notre plus haute priorité est de satisfaire le client en livrant rapidement et régulièrement des fonctionnalités à grande valeur aj
outée.
Accueillez positivement les changements de besoins, même tard dans le projet. Les processus agiles exploitent le changemen
t pour donner un avantage compétitif au client.
Livrez fréquemment un logiciel opérationnel avec des cycles de quelques semaines à quelques mois et une préférence pour le
s plus courts.
Les utilisateurs ou leurs représentants et les développeurs doivent travailler ensemble quotidiennement tout au long du projet.
80
81. Réalisez les projets avec des personnes motivées. Fournissez-leur l’environnement et le soutien dont elles ont besoin et
faites-leur confiance pour atteindre les objectifs fixés.
La méthode la plus simple et la plus efficace pour transmettre de l’information à l'équipe de développement et à l’intérieu
r de celle-ci est le dialogue en face à face.
Un logiciel opérationnel est la principale mesure d’avancement.
Les processus agiles encouragent un rythme de développement soutenable. Ensemble, les commanditaires, les dévelop
peurs et les utilisateurs devraient être capables de maintenir indéfiniment un rythme constant.
Une attention continue à l'excellence technique et à une bonne conception renforce l’agilité.
La simplicité – c’est-à-dire l’art de minimiser la quantité de travail inutile – est essentielle.
Les meilleures architectures, spécifications et conceptions émergent d'équipes auto-organisées.
À intervalles réguliers, l'équipe réfléchit aux moyens de devenir plus efficace, puis règle et modifie son comportement en
conséquence.
81
82. P o u r q u o i A g i l e B I ?
Parce que les besoins pour l’intelligence d’affaire ne cessent de croitre
L’approche traditionnelle en cascade (waterfall) ne fonctionne pas
L’approche traditionnelle en cascade est séquentielle et ne livre des résultats qu’à la fin du long processus
82
Définition
du projet
Planificati
on du
projet
Définition
des
besoins
Analyse
des
besoins
Définition
de
l’architect
ure
Planificati
on de
l’architect
ure
Modélisat
ion des
données
Développ
ement
ETL
Couche
de
présentati
on
Intégratio
n
Mise en
Productio
n
Maintena
nce
83. P r a t i q u e s e t m é t h o d e s a g i l e s a p p l i q u é
e n B I
1. Scrum (Gestion de projet) : Scrum est une méthode agile dédiée à la « gestion de projet ». Cette méthode de gestion, ou
plutôt ce Framework de management de projet, a pour objectif d’améliorer la productivité de son équipe.
2. Agile Modeling (architecture et modélisation) :La modélisation Agile (AM) est une méthodologie pour la modélisation et la
documentation de systèmes logiciels basés sur les meilleures pratiques Cette méthodologie est plus souple que les méthodes
de modélisation traditionnelles
3. User stories (Définition des besoins) :Les fonctionnalités décrites portent le nom de User Stories et sont décrites en
employant la terminologie utilisée par le client.
4. Planning Poker (estimation) : Planning Poker est une technique agile d'estimation et de planification axée sur le
consensus. Pour commencer une session de planification de poker, le propriétaire ou le client du produit lit une histoire
d'utilisateur agile ou décrit une fonctionnalité pour les estimateurs
5. Test-Drivendevelopement (ETL) :l'utilisation d'une méthode agile d'assurance de la qualité, appelée développement axé sur
les tests, dans le contexte du business intelligence. le développement test-driven (TDD) est un processus de développement
logiciel agile qui vise à améliorer la qualité du logiciel en se concentrant sur les tests anticipés et réguliers (Tests automatisé)
83
84. 6. ContinousIntegration (ETL) : L'intégration continue est une pratique de développement de logiciels où les
membres d'une équipe intègrent souvent leur travail, généralement chaque personne s'intègre au moins
quotidiennement, ce qui conduit à des intégrations multiples par jour. Chaque intégration est vérifiée par une
construction automatisée (y compris un test) pour détecter les erreurs d'intégration aussi rapidement que possible
7. Extrême Programming (ETL et Présentation) : XP établit un cadre pour améliorer le développement logiciel en
améliorant la qualité et la capacité de répondre aux besoins changeants des utilisateurs. Le programmeur qui a recours
à cette méthodologie répète une série d’activités, à savoir : concevoir, programmer, tester et écouter.
8. Refactoring (ETL et BD) : Le refactorat de code est le processus de restructuration du code informatique existant
qui modifie l' affacturage sans modifier son comportement externe ; améliore les attributs non fonctionnels du logiciel;
incluent une meilleure lisibilité du code et une complexité réduite
9. Développement itératif et incrémental (ETL et Présentation) : Le développement itératif consiste à livrer des
parties d’un système ou d’une application à des intervalles réguliers. Ces intervalles sont appelés Itérations. Une
itération est donc une succession d’activités couvrant l’analyse des besoins, la conception des parties du système, leur
implémentation ainsi que leurs tests qui, activités, aboutissent à la livraison d’une ou plusieurs fonctionnalités qui feront
partie du produit final.
84
85. 1 2 3
M é t h o d o l o g i e M A I A
85
Scrum est une méthode agile dédiée à
la « gestion de projet ». Cette méthode
de gestion, ou plutôt ce Framework de
management de projet, a pour objectif
d’améliorer la productivité de son
équipe
Scrum
XP établit un cadre pour améliorer le
développement logiciel en améliorant la
qualité et la capacité de répondre aux
besoins changeants des utilisateurs.
Le programmeur qui a recours à cette
méthodologie répète une série d’activités,
à savoir : concevoir, programmer, tester et
écouter
XP
Mary et Tom Poppendieck ont développé
la méthodologie Lean en utilisant le
système de développement de produits
de Toyota comme fondation afin de
réduire le gaspillage de ressources
monétaires et humaines
LEAN
approche combinant certains éléments de Kimball avec des pratiques empruntées des méthodologies agiles.
88. L e a n
88
La méthodologie Lean définie le gaspillage comme une action ou une étape dans un processus qui ne confère pas de
valeur ajoutée au client. Voici les différents types de gaspillage qui peuvent être éliminés.
89. L e a n
Surproduction
Si votre entreprise fournit aux clients plus d'information que nécessaire, c'est du temps et du capital gaspillé pour donner aux clients
quelque chose à laquelle ils ne tiennent pas. Surproduire entraîne également des coûts supplémentaires de stockage et
d'assurance.
Sur stockage
Stocker des produits qui ne sont pas utilisés gaspille de l'espace et coûte de l'argent. Il interfère également avec la notion
d'efficience dans la production.
Transport inutile
La capacité de transmettre éléments et information de personne en personne, qui ajoute chacune de la valeur, transforme des
matières premières en produits que les clients achètent. Le mouvement rend le processus vivant et indispensable. Toutefois, quand
ce mouvement n'ajoute pas de valeur au produit ou ne bénéficie pas au client, c'est un gaspillage de ressources.
Mouvement inutile
Un mouvement ou une recherche en supplément n'est pas un signe de robustesse et d'efficience en termes de processus.
Appliquez simplement la notion de valeur ajoutée en vous demandant : ce mouvement ajoute-il une valeur au produit ou service ?
Le client serait-il prêt à payer un coût complémentaire ? 89
90. L e a n
Temps d'attente
Un arrêt est un gaspillage important de capital. La matière première, information ou équipement nécessaire pour
produire le produit ou service coûte de l'argent qui ne peut pas être recouvré dans l'attente d'une activité qui ajoute de
la valeur. Payer des collaborateurs à attendre est un des gaspillages les plus importants en entreprise aujourd'hui.
Traitement inutile
Le test qui distingue des activités indispensables de celles sans valeur ajoutée est exprimé dans la question : le client
serait-il prêt à payer un coût complémentaire ?
Défauts
Les défauts surviennent lorsqu'un élément du produit ou service ne répond pas aux besoins ou nécessités des clients,
ou cause leur mécontentement. Les défauts coûtent de l'argent parce qu'ils gâchent des ressources, nécessite des
corrections coûteuses et amènent les clients à rechercher une solution de meilleure qualité de la part de la compétition.
90
91. Les 7 composants de LEAN :
Éliminer le gaspillage
Développer la qualité à l’interne
Créer le savoir
Différer l’engagement
Livraison rapide
Respecter l’individu
Optimiser la chaîne
91
94. C o m p a r a i s o n
0
10
20
30
40
50
60
70
Kimball
Inmon
iterative
incremental
adaptatif
flexible
reduction des risques
securité
rapidité
qualité
fonctionnel
motivation
maintenance
gaspillage
Souplesse
integration continue
communication
efficacité
deploiment
Orienté decideur
Comparaison
Maia Gimsi
94
95. Q u i u t i l i s e h a d o o p ?
En 2007 IBM et Google ont annoncé une initiative visant à
utiliser Hadoop pour soutenir les cours universitaires en
programmation informatique distribuée
95
96. M e r c i p o u r v o t r e
a t t e n t i o n
97. R e f e r e n c e
Sites :
(Datamart :https://docs.oracle.com/cd/A81042_01/DOC/server.816/a76994/marts.htm#6704)
http://dwhlaureate.blogspot.com/2012/08/what-is-oracle-bi-interactive-dashboards.html
http://www.oracle.com/technetwork/middleware/bi-publisher/overview/index.html
https://www.youtube.com/results?search_query=sql+server+2008+tutorial+for+beginners+in+hindi
http://analyticsindiamag.com/business-intelligence-data-mining-comparative-study/
https://selecthub.com/business-intelligence/bi-vs-big-data-vs-data-mining/
https://www.developpez.net/forums/d1573088/logiciels/solutions-d-entreprise/big-data/bi-vs-big-data-vs-data-mining-vs-analytics-vs-machine-learning/
http://www.b-eye-network.com/view/15294
http://dataops.co/whats-the-difference-between-business-intelligence-and-big-data/
http://www.b-eye-network.com/view/15294
https://selecthub.com/categories/business-intelligence-bi
http://www.altic.org/jaspersoft/143-jasperreports-et-jasperserver-passez-a-la-business-intelligence-open-source-avec-jaspersoft
https://www.pinterest.com/explore/bi-tools/
https://www.logianalytics.com/resources/bi-encyclopedia/reporting-bi/
http://www.reportingbusiness.fr/analyse-financiere/differences-tableaux-bord-reporting.html
http://www.usinenouvelle.com/expo/guides-d-achat/tableau-de-bord-et-reporting-223
http://conseilbusiness.com/2015/06/29/retrouvez-les-principaux-atouts-de-la-bi-et-ses-limites-evoquees-par-les-dirigeants-de-tpepme/
https://www.thoughtworks.com/insights/blog/agile-data-warehousing-and-business-intelligence-action
Livre :
Agile Analytics
Les nouveaux tableau de bord des managers
Concevoir et déployer un datawerhouse Ralph kimball Edition eyrolles
Guide concis de mise en œuvre de la Business Intelligence au sein des PME -Don Jones
97
98. T r a d u c t i o n F i g u r e 7 7
Test-Driven Design (TDD): Design piloté par les tests
Model Storming: Model d’assaut
Active Stakeholder Participation: Participation active de l’equipier
Iteration Modeling :Modélisationd’itération
Requirements Envisioning :Prevision des exigences
Prioritized Requirement :Exigenceprioritaire
Architecture envisioning : Architecture envisageable
Just barely good enough : Juste à peine assez bon
ExecutableSpecification : specificationexecutable
Document late : Document en retard
Multiples models : modéles multiples
Single source d’information : Sources d’information unique
Look aheadmodeling : Regarder en avant la modélisation
Document continously : document continue
98
Notas do Editor
MapReduce est un framework qui permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour pouvoir être traitées en parallèle
MapReduce et l’une des 2 technologies constituant la force principale de Hadoop qui est largement utilisér par Beaucoup d'entreprises Y compris