4. Sommaire
I. Perspectives marché
Définition du Big Data
Exemple concret
II. Perspectives technologiques
Pourquoi le NoSQL et Hadoop
L‟après Big Data
5. PAC en bref:
l’analyse du marché informatique depuis 35 ans !
De la stratégie à l’exécution, PAC offre des réponses objectives aux défis de croissance
des acteurs des TIC
PAC est une société de conseil et d’études
de marché spécialisée dans le domaine du
logiciel et des services informatiques
Plus de 35 ans d’expérience
PAC aide:
- Les fournisseurs de services informatiques
à optimiser leurs stratégies en offrant des
analyses quantitatives et qualitatives ainsi
que des prestations de conseil opérationnel
et stratégique.
- Nous conseillons les DSI et les investisseurs Plus de 30 pays couverts
dans l‟évaluation des fournisseurs TIC et leurs 6 bureaux PAC
projets d‟investissements.
- Les organisations et les institutions
publiques se réfèrent également à nos études
ciblées pour développer et mettre en place leurs
politiques informatiques.
Dernières actualités PAC sur notre blog : http://blog.pac-online.com/
8. Le Big Data, c’est au choix…
« Un buzz orchestré par les
fournisseurs de technologies, les « On verra quand on aura des
analystes et les médias » Pétaoctets de données à gérer »
« L’avenir de la BI, la
réponse à tous les
« Une évolution problèmes »
naturelle »
« Seulement utile aux
« Réservé aux grands comptes »
quelques grands acteurs du
Web »
« Uniquement lié à la
technologie Hadoop »
9. Big Data : une évolution naturelle
Nouvelles sources de données Importance des
Explosion du (M2M, Open Data, Science…) conversations
‘UGC’
Big Data : intégrer ces
évolutions et contraintes pour
Métriques Accélération
applicatives
transformer les données en des cycles de
orientées information exploitable dans le décision
business cadre de son business
Démocratisation de la BI
Patrimoine informationnel non structuré / Découverte
10. Big Data : les problématiques de M. Jourdain
Volumétrie : gestion de stocks, gestion de commandes,
transport/logistique/RFID, transactions financières, services grand
public…
Variété : CRM / Marketing / SAV, communication financière…
Vélocité : Mode, Jeu, Electronique grand public, gestion des
stocks, gestion des commandes…
Mieux connaître son client
Améliorer son offre
Agir avant la compétition
11. Exemple concret de Big Data
Kobojo, PME française
Jeux pour les réseaux sociaux
Evolutions quotidiennes
Indicateurs techniques : 300 à 400
millions de données par jour et par jeu
Au-delà ? Facebook,
Twitter…
13. Le point de départ
Base OLTP Datamart
Datawarehouse
?
Contenu
non
structuré
14. Big Data : perspectives technologiques
Des systèmes traditionnels au NoSQL
Problématique apparue il y a data
une dizaine d’années chez les
Applications
gros « producteurs » de
data analytiques
données : Finance, Retail,
Services online…
data Hadoop /
Besoin de solutions plus
Map
performantes que les SGBDR
Reduce
standards pour ce besoin data
particulier de volumétrie Base d’analyse
Not Only SQL data
Consensus sur Hadoop /
MapReduce
15. Big Data : perspectives technologiques
Du NoSQL au futur SQL ?
Maturité du marché Hadoop
IBM : InfoSphere BigInsights
Oracle : Big Data Appliance (avec Cloudera)
Microsoft : exit Dryad, bonjour Hadoop
Informatica : Data Integration Platform for Hadoop
…
Besoins non couverts par Hadoop
transactions ACID
SQL comme langage d’interaction
Mécanismes de verrouillage non bloquants
…
16. Big Data : perspectives technologiques
Quand le Big Data deviendra la norme…
Emergence de nouvelles solutions
In-Memory
SSD
CEP (CloudScale…)
Moteurs de stockage (Xeround, GenieDB…)
SQL nouvelle génération (VoltDB, Clustrix…)
…
Qui préfigure une assimilation progressive !
17. L’évolution possible
Contenu Web
Data as
a Moteur de
service recherches / BI
visuelle / text
Data
analytics
flux
C NoSQL /
Data NewSQL
flux E
P
Data
Applications
ETL/ analytiques
flux
Data
Quality
?
Datawarehouse
Contenu
DB
18. Olivier Rafal
Directeur de recherches,
Marchés logiciels
Information Management
o.rafal@pac-online.com
@olivierrafal
MERCI !
19. 09h15 – 09h50 - TABLE RONDE
Big Data : juste un concept ou une réponse à
de réels besoins ?
Attentes et Usages
Pour quels types d’entreprise et de besoins ?
Remplaçant du datawarehouse traditionnel ?
Quid du temps réel et du transactionnel ?
Avec Jacques Milman, expert avant-vente Big Data et analytique chez IBM
Dominique Girardot, directeur d’Anteo, Groupe Sodifrance
François Guérin, directeur technique chez Sybase
20. 09h50 – 10h10 - Avis d’expert
Pourquoi et comment intégrer les volumineuses
données du Web (réseaux sociaux, e-commerce…)
dans son système d‘information décisionnel ?
Quels services de l’entreprise sont concernés ?
Le triptyque “Big Transaction Data- Big Interaction Data- Big Data Processing
(Hadoop)”
Le MDM, pierre angulaire d’un SI destiné aux utilisateurs métier
Avec Bruno Labidoire, directeur technique Europe du Sud chez Informatica
21. #BigData, au-delà du concept marketing
Bruno Labidoire
Directeur Technique, Europe du Sud
21
21 21
22. Big Data
Une convergence de 3 domaines
BIG TRANSACTION DATA BIG INTERACTION DATA
Online Online Analytical Données des
Transaction Processing média sociaux
Processing (OLAP) & Tickets d’appels,
(OLTP) DW Appliances Click stream, etc
Données scientifiques
Capteurs
BIG DATA PROCESSING
22
22
23. Big Transaction Data
Bases relationnelles et analytiques
BIG TRANSACTION DATA
Online Online Analytical
Transaction Processing
Processing (OLAP) &
(OLTP) DW Appliances
Oracle EMC Greenplum
DB2 Teradata
Britton-Lee Redbrick
Ingres EssBase
Informix Sybase IQ
Sybase Netezza
SQLServer DataAllegro
Asterdata
Vertica
Paraccel
Hana
23
23
24. Le décisionnel proactif
• On peut par exemple définir de nouvelles
campagnes potentielles associées à ces média
sociaux !
American Express a aidé les PME à augmenter
leurs revenus d„années en années de 28%
pendant le week-end suivant Thanksgiving avec
“Small Business Saturday” une campagne
impliquant 1,5 million de fans Facebook
24
24
25. Les challenges
Les données issues des média sociaux peuvent être
colossales!
Interactions
Transactions
Source: An IDC White Paper - sponsored by EMC. As the Economy Contracts, the Digital Universe Expands. May 2009.
.
25
25
28. Réseaux sociaux
Comment profiter de ces grands volumes d’informations ?
Curriculum
Extraire Curriculum
Analyser Curriculum
Gérer Curriculum
Associer
28
28
29. Réseaux sociaux
Comment profiter de ces grands volumes d’informations ?
T_Young Tony Y.
iDroidBerry 9800 challenged meeting our enterprise security requirements and
battery life is also area of concern.
Curriculum
Extraire Curriculum
Analyser Curriculum
Gérer Curriculum
Associer
29
29
30. Réseaux sociaux
Comment profiter de ces grands volumes d’informations ?
Entity Extraction & Identity Resolution
T_Young = Tony Young
Relationship Resolution
Tony Young works @ Informatica
Relationship Analysis
Tony‟s Sphere of Influence, CIO @ INFA
Sentiment Scoring
Enterprise Security -3.5, Battery Life -3.2
Curriculum
Extraire Curriculum
Analyser Curriculum
Gérer Curriculum
Associer
30
30
31. Réseaux sociaux
Comment profiter de ces grands volumes d’informations ?
Databases
Informatica
MDM
External Data
Applications Client Produit … Providers
Data
Curriculum
Extraire Curriculum
Analyser Curriculum
Gérer Curriculum
Associer Warehouses
Operational
Applications
31
31
32. Big Transaction Data
Comment profiter des données transactionnelles ?
Cloud Computing Enterprise Partner Trading Network
(B2B)
Warehouses …
SWIFT NACHA HIPAA
Cloud Computing Partner Data
Application Database Unstructured
Curriculum
Extraire Curriculum
Découvrir Curriculum
Nettoyer Curriculum
Intégrer Curriculum
Analyser
32
32
33. Big Transaction Data
Comment profiter des données transactionnelles ?
Cloud Computing Enterprise Partner Trading Network
(B2B)
Curriculum
Extraire Curriculum
Découvrir Curriculum
Nettoyer Curriculum
Intégrer Curriculum
Analyser
33
33
35. Big Transaction Data
Comment profiter des données transactionnelles ?
Cloud Computing Enterprise Partner Trading Network
(B2B)
Curriculum
Extraire Curriculum
Découvrir Curriculum
Nettoyer Curriculum
Intégrer Curriculum
Analyser
35
35
36. Big Transaction Data
Comment profiter des données transactionnelles?
Cloud Computing Enterprise Partner Trading Network
(B2B)
Curriculum
Extraire Curriculum
Découvrir Curriculum
Nettoyer Curriculum
Intégrer Curriculum
Analyser
36
36
37. Big Data Processing
Qu’apporte Hadoop ?
• Une montée en puissance économique
• Fonctionne sur des fermes de serveurs banalisés
• Supporte tous les types de données
• Structuré, Semi-structuré et non structuré
• Extensible
• Interfaces (APIs) ouvertes permettant d‟implémenter une logique
spécifique
37
37
38. Big Data Processing
Connectivité Hadoop par Informatica
Analyse de Détection des Analyses Analyses des
Smart Devices
Sentiment fraudes Predictives risques
Hadoop Cluster
Connectivité
Hadoop (HDFS)
• Load data to Hadoop from any source
• Extract data from Hadoop to any target
Weblogs, Mobile Databases, Dat Semi-structured Cloud Applications,
Data, Sensor Data a Warehouses Unstructured Enterprise Applications
Social Data
38
38
39. Un exemple de mise en œuvre dans
le décisionnel
39
39 39
40. Le décisionnel « classique »
• La qualité des données est globalement égale à
celle des systèmes opérationnels
• Les indicateurs sont disponibles à J+1
• Les données clients/prospects peuvent être
périmées et induire des tendances incorrectes dans
les indicateurs
Il peine à répondre aux demandes métiers de fraîcheur
de l‟information, rapidité de décision, et gestion proactive
des clients !
40
40
41. Le décisionnel avancé
• Une solution de qualité des données a été mise en œuvre
pour détecter (et corriger quand cela est possible) les erreurs
dans les données. Ces erreurs sont notifiées aux systèmes
opérationnels amonts pour correction.
• Une partie des indicateurs est mise à jour au fil de l‟eau
(intervalle d‟une minute à une heure en fonction du besoin
fonctionnel). Les solutions de CDC (Changed Data Capture),
bus messages et WebServices supportent cette mise en
œuvre.
• Des solutions de vérification d‟adresses postales et de
croisement avec des bases externes entreprises (D&B)
permettent d‟améliorer les données clients/prospects.
Le métier accorde une plus grande confiance aux
informations du décisionnel et peut réagir plus rapidement,
mais il supporte mal une approche proactive !
41
41
42. Le décisionnel proactif
• Des « DB Appliances » sont mises en places pour supporter les
volumes de données croissants (WebLog, etc)
• Des solutions de connectivité aux médias sociaux sont mises en
place pour enrichir la connaissance du client
• Les clients peuvent être évalués non seulement sur les produits
qu‟ils ont acquis mais aussi sur leur capacité d‟influence (nombre de
leurs contacts dans les réseaux sociaux) et sur leur comportement
(weblog)
• Les marques concurrentes citées par ces clients peuvent être
analysées pour compléter l‟analyse concurrentielle
• Etc…
Le métier découvre de nouvelles informations lui
permettant une approche proactive et une anticipation
des besoins/tendances du marché !
42
42
44. Informatica 9.1: Plate-forme de services de données
Data Integration Projects
Big Data Ultra Data Big Data Data Social Master Cloud Complex Big Data
Warehousing Messaging Services Archiving Consolidation Data Data Event Collection &
Management Integration Processing Exchange
ODBC/ Web SUPPORT TOUS PROJETS SQL Batch
JDBC Services
Accès Qualité Retention Confidentialité Fraicheur
GESTION DE
TOUTES REGLES
Data Integration Master Data Data Quality Test Data Management B2B SOA/ Business
Management & Archiving Composite Apps Intelligence
Client Commande Réclamation Support Produit Facture
ACCES A TOUTES
LES DONNEES
Transactions Interactions
SWIFT NACHA HIPAA …
Cloud Computing Applications Databases Unstructured Warehouses NoSQL Social Partner Data
44
44
46. 10h10 – 10h30 - Avis d’expert
Intégrer les solutions Big Data à l’existant.
Apporter une réelle valeur ajoutée, en lien avec un existant
multiforme, décisionnel comme transactionnel
Par
Isabelle Claverie-Berge, expert technique Database Big Data chez IBM
55. 10h30 – 10h50 - Avis d’expert
Pourquoi et comment préparer le SI à l’avènement
du BIG DATA ?
Quel est l’enjeu métier de cette approche ?
Pourquoi l’urbanisation, le management des données et la création de
référentiel sont incontournables dans un tel contexte ?
Pourquoi la qualité des données est-elle au centre du débat ?
Par Stéphane Lextreyt, Sodifrance
56. Comment préparer le SI à l’avènement du BIG DATA ?
Maîtrisez votre capital Données
57. BIG DATA : POURQUOI S’Y PRÉPARER ?
Déluge informationnel …
Où sont les données
« métiers » ?
Exploiter les tendances qui se
Cloud dégagent de l’écosystème
environnant
OUI MAIS …
Quel crédit accorder à ces données ?
Comment en faire un élément de
décision ?
Alors les données doivent être :
Fiables
Cohérentes
Centralisées Source d’agilité
Partagées du SI
….
58. UNE APPROCHE GLOBALE ET STRUCTURÉE
Accroître l’efficacité du
SI…
Maitriser les données internes
au SI
Transformer les données en
informations fiables
Partager des informations à
forte valeur ajoutée
Capitaliser sur les données
Métiers
Maintenir un niveau de qualité
élevé
Diminuer significativement le
coût de gestion des données
59. DATA MANAGEMENT, UNE FORTE EXPÉRIENCE
SODIFRANCE, SSII innovante
25 ans d‟expérience
Un CA de 68,2 M€ en 2011 (+8,2%)
930 collaborateurs sur 12 implantations en France
Une approche projet : 53 % du CA en engagement
de résultats
Un Centre R&D dédié au développement de nos
solutions outillées
Une clientèle de grands comptes fidèles
170 projets
ALCARA CREDIT MUTUEL MALAKOFF-MEDERIC
CREDIT AGRICOLE STE GENERALE CNP-ASSURANCES
GMF BPCE YVES ROCHER
MAAF ADP-GSI DIAC
en Data Management
MMA RSI AXA
BNP-PARIBAS AIR France MERIAL
EUROPCAR STACI AREAS
60. DATA MANAGEMENT : DÉFINIR SA TRAJECTOIRE
Définir la stratégie et la gouvernance
Concevoir l’architecture cible et la trajectoire
Recommander les choix technologiques
Cadrer le projet et la démarche
Sécuriser l’atteinte des objectifs
Conduire le changement
61. LE CYCLE DE VIE DE A à Z …
Industrialiser la maîtrise et l’évolution du SI
Accélérer l’adaptation de l’entreprise
Ouvrir le SI aux nouvelles applications
Réduire les coûts de maintenance
62. COMPRENDRE ET MAITRISER L’EXISTANT
Cartographie applicative outillée
Références
Analyse exhaustive • AXA
Références croisées • CNP-Assurances
Flot de données • CIMUT
Algorithmes • CRÉDIT MUTUEL
• EDF
• ING
• I-BP
• MAAF
• RSI, …
Un référentiel vivant
Rafraichissement permanent CIMUT
Système de requêtage utilisateur « Nous avons
choisi Mia-Insight
pour la pertinence
des analyses
fines et précises,
irréalisables sans
outillage »
Utiliser les données Métiers,
Analyser les impacts au niveau applicatif
63. LA QUALITÉ AU CENTRE DES PRÉOCCUPATIONS
Automatiser la qualité des données Références
Faire un état des lieux • ARKEA
Listes de valeurs • APICIL / UPESE
Volume de données erronées • CAISSES
Taux de doublons D’EPARGNE
• CREDIT AGRICOLE
• GROUPAMA
• NOVALIS-TAITBOUT
• MERIAL, …
Impliquer tous les acteurs
MOA
Gestion MALAKOFF-MÉDÉRIC
MOE
Projets « Grâce à ses outils
d'analyse
performants,
Pérenniser la démarche SODIFRANCE nous
Planifier les actions dans le temps garantissait un audit
Auditer de façon récurrente et des
recommandations
Engager de nouvelles actions factuelles et
rapides »
Toujours être vigilant et proactif
64. ORGANISER LE SI AUTOUR DES DONNÉES MÉTIER
Du référentiel métier à l’agilité du SI Références
Création de référentiels de • CDC
données partagées • CNP-Assurances
Référentiels « Maitre » / « Esclaves » • CIMUT
Fiabilité et cohérence des données • ENERGY POOL
Accessibilité des données par toutes • MALAKOFF-
les applications MÉDÉRIC
• SI2M
Démarche d’urbanisation • MMA,…
Approche par les processus Métiers
Identification du meilleur découpage
applicatif
SI2M
Recherche de la modularité « Les résultats de
optimale l’audit et le conseil
Transformation des applications en de SODIFRANCE
service Métier nous ont permis de
Ouverture multicanal faire avancer notre
vision sur
Bénéfices Métier attendus l'urbanisation de
Efficacité opérationnelle notre SI »
Rester Time To Market
Faites de votre référentiel un Référentiel
65. LES DONNÉES DANS TOUS LEURS ÉTATS
Références
Démarche = Méthodologie et Solutions
• AGF
• AIR FRANCE
Capitaliser sur les données • BNP-PARIBAS
Métiers de référence • CHU DE NICE
Fiabiliser • GROUPAMA
Dédoublonner • MALAKOFF-
Normaliser MÉDÉRIC
• MORNAY
• VILLE DE LYON
• RATP, …
MALAKOFF-MÉDÉRIC
« Grâce à l’usine de
migration TRANSMIG,
les données du
Référentiel Personne
sont fiables et
cohérentes.
Engagements sur la qualité
Aujourd’hui, les coûts
Sécurisation du Projet
d’exploitation sont
Gouvernance améliorée
réduits et les actes de
Augmentez votre capital données gestion bien plus
rapides »
66. GARDER LA MÉMOIRE… À PORTÉE DE WEB
Diminuer les coûts de possession Références
• DCNS
• MALAKOFF-
MEDERIC
• MERIAL
en place de PRA – PCA • AEROPORT NANTES
• CH LE MANS,….
•…
MERIAL
stifications CAC
« La fonction
d’archivage Web de
TRANSMIG a permis
de restituer une
vision des données
historiques que
nous n’avions plus
suite à l’arrêt du
Mainframe et à la
disparition de
l’application
métier »
Réduire les coûts et améliorer le service
67. APPROCHE GLOBALE DU CYCLE DE VIE DES DONNÉES
Efficacité et rigueur Diagnostic
Audit
Cartographie
Cible
Cible et stratégie
Diagnostic Recueil des besoins
Alignement MOA /MOE
Trajectoire
Référentiel maitre / esclaves
Cible Trajectoire Méthodologie projet éprouvée
Indicateurs Solutions outillées
Maintenir
Qualité
couts
Accompagnement
Formation
Maintenir
68. RETOUR D’EXPÉRIENCE
Périmètre Création du Référentiel Personne
Conseil &
Conseil
Urbanisation
Audit Migrer Dédoublonner Synchroniser Audit Audit
Projet Cartographie Fiabiliser Charger Archiver régulier régulier
Solutions
outillées
Expertise
Experts en urbanisation et Data Management
Formation – Conduite du changement
2009 2012
Temps
71. 11h20 – 12h00 - Table Ronde
Cloud et Stockage, supports incontournables du
Big Data
Les acteurs du cloud et les éditeurs/constructeurs se positionnent déjà
Actuellement, y a-t-il un intérêt à installer sa propre solution Big Data ?
En quoi le cloud incarne-t-il un moyen intéressant ?
Avec Jean-Pascal Ancelin, directeur général, MicroStrategy France
& Said Boukhizou, responsable technique chez Datacore
72. 12h00 – 12h10 - Avis d’expert
Témoignage utilisateur : Malakoff-Mederic
Ré-urbaniser le SI autour des données métiers, un
enjeu concurrentiel
Les enjeux de la mise en œuvre de référentiel de données Métiers,
vecteur d’agilité de l’entreprise
Comment alimenter un référentiel de données tout en synchronisant les
applications périphériques contributrices ?
Par Romaric Hatit de Malakoff-Mederic
73. 12h10 – 12h30 - Avis d’expert
Le stockage : innovation et nouvelles réponses
Part 1
Par
Said Boukhizou, responsable technique chez Datacore
74. How Big Data Influences
Storage Innovations
Impact on policies, scale, clouds and
data management
74
103. Principaux Secteurs d‟Activité
Média
• Post production (effet spéciaux, correction des couleurs, …)
• Passage à la HD, 3D
Sécurité / Imaging / Défense
• Vidéosurveillance
• Capture & traitement des données satellites
Recherche scientifique
• Calculs
• Séquençage de génome (décryptage d‟informations)
Pétrole et gaz
• Exploration sismique
• Modélisation 3D
103
113. Cas client : Recherche ADN
PRIMARY TIER
80-100TB FC Disk
FC/iSCSI
DISTRIBUTED LAN CLIENTS
StorNext DLC StorNext
Gateway Servers Policy
Engine
FC
GigE TCP/IP
DDM
Server
FC TAPE LIBRARY ARCHIVE
Metadata
HA MDC
Séquencement Controller
PB of Tape
• Chaque serveur de séquencement lance des analyses (ADN). Chaque expérimentation génère 1 To de
données
• Les résultats sont copiés ou déplacés vers l‟archive (rétention à long terme + externalisation)
• Temps de traitement global réduit par 3
115. 12h50 – 13h00 - Conclusion
Une révolution informatique en douceur
Distribution et parallélisation des traitements, autre forme de
virtualisation du stockage, système de gestion de fichiers plus universel…
Le phénomène Big Data n’annonce-t-il pas une évolution majeure ?
Par José Diz, Journaliste, Evénements 01
117. Hadoop : kesako?
Google et fortes contributions Yahoo!
Framework open source Java
HDFS : système de gestion de
fichiers distribué avec stockage
en cluster de serveurs
MapReduce : distribue de façon
parallèle les traitements sur
chaque nœud au plus près des
données.
118. Hadoop : kesako?
tout type de données
structurées
non structurées
Web, et autres
Croissance linéaire sur du matériel standard
(commodité)
Appliquer rapidement des algorithmes simples à
de très gros volumes de données
Batch ? Ou plus ?
119. Des pionniers : Cloudera (CDH)
l‟interface graphique pour
accès via un navigateur
workflow
langage de type SQL
Intégrer Hadoop et SGBD
SGDB distribué non
relationnel orienté colonnes
Service distribué de
collecte et d‟agrégation
gestion de configuration pour
pour stockage HDFS
systèmes distribués
langage de haut niveau
121. Hortonworks Data Platform (HDP)
Core Apache Hadoop Related Hadoop Projects Open APIs for:
• Data Integration
• Data Movement
• App Job Management
(Columnar NoSQL Store)
Pig Hive • System Management
(Data Flow) (SQL)
HBase
MapReduce
Zookeeper
(Coordination)
(Manaement)
Ambari
(Distributed Programing Framework)
HCatalog
(Table & Schema Management)
HDFS
(Hadoop Distributed File System)
122. Hortonworks – la cohabitation
Traditional Data Warehouses,
BI & Analytics
Serving Applications
NoSQL RDMS … Traditional ETL Data BI /
EDW
Marts Analytics
Apache Hadoop
EsTsL (s = Store)
Gartner predicts 80-90% of data
800% data growth produced today
over next 5 years is unstructured
Call Social Senso Server
…
Center Media r Data Logs
123. MapR : affinage, spécifique ?
Big data s‟avère lourd et coûteux à déplacer.
Pig Hive
Web Services
Sequential File Map/
OLAP OLTP Hbase
Processing Reduce
RDBMS NAS HDFS
Pig Hive
Web Services
Sequential File Map/
OLAP OLTP Hbase
Processing Reduce
RDBMS NAS
HDFS
Next Generation Distribution
125. Big Data : batch pour BI, et après ?
Complément au-delà du batch
Streaming
« Temps réel »
Stockage primaire ? Environnement de
production principal ?
Deux écoles :
Pas pour Cloudera et Hortonworks
Certainement pour MapR
Digital universe grew by 62% last year to 800 000 petabytes (peta=million gigabytes) and will grow to 1.2 “zettabytes” (zetta=million petabytes) this year then in 2020 we expect 35 zettabytes
Big Data Processing. New connectivity in Informatica 9.1 enables IT to load data from any source into Hadoop, and extract data from Hadoop for delivery to any target. The connectivity also allows the application of Informatica data quality, data profiling, and other techniques to data in Hadoop. These capabilities open new possibilities for enterprises combining transaction and interaction data either inside or outside of Hadoop. Confidently deploy the Hadoop platform for Big Data processing with seamless source-and-target data integration Integrate insights from Hadoop Big Data analytics into traditional enterprise systems to improve business processes and decision-makingLeverage petabyte-scale performance to process large data sets of virtually any type and origin We are also looking to develop Graphical integrated development environment for Hadoop environment in the future release
Business Problem: Develop a centralized clearing house of sensor data for continual analytics to improve yield and safety.Raw data size of 2+ TB per rig per day, over centralized storage environment will be at 4 PB+ in 18 months easily.Shell has 40k sensors per rig but only uses data from 10% of them.Technical Challenges:Log on to sensor units from a central location.Preprocess & manage large amounts of data at multiple remote sites.Move the data from the site to a more central location often using poor commutations connections.Load the sensor data onto an server (separate from the hardware at the remote site) and determining whether they can optimize the data streams form this server to the central database.Create a central repository where data from multiple sites can be collected and kept for a long period of time.Opportunity Identification:What percentage of your sensor data do you actually use?How are you doing your real-time analytics?What is your big data strategy for dealing with theseHow are you doing your cross-rig correlation and learning.
There is news of a large meteorite approaching your datacenters. Some call it Big Data.Others ignore it. But early signs of cosmic particles tells us that its arrival is imminent.I’d like to help you prepare for it, at least from the perspective of your storage strategy.
Big Data is not just big. It is very fast, more real-time than we are used to and will need to be widely shared. Quite the contrast for the more batched G00211490 G00226066Latency can be cripplingSource:
All the interest comes from the promise of bigger fortunes. Real-time inputs bring us greater situational awareness, which lead to better, more timely decisions, which result in better financial outcomes.I’m feeling rich already.
When you take a closer look at Big Data, you uncover some very challenging attributes.Whereas today information appears to settle into convenient buckets and relatively easy to characterize, Big Data is never at rest. It roars in while it’s hot and quickly becomes lukewarm almost stale. Which means that our retention policies must change as well or we’ll become hoarders.G00211490
I see this as one of the few opportunities in our short careers to make major structural renovations. A rare chance to justify modernizing and aligning to the business needs by re-architecting our storage management techniques and making them highly adaptable.Fortunately, it’s not that difficult to pull this off. G00214426
Let’s consider a major innovation helping facilitate our task. The recent development of a storage hypervisor layer sitting between apps and storage insulating data management from all the hardware variables that Big Data throws our way.I’m going to spend a few minutes on this topic, since it has broad applicability across your infrastructure from the on-premises resources that you are so familiar with to the new cloud-based assets available for harnessing.You’ll also find it an essential ally in accelerating access to data
Inless abstract terms, the storage hypervisor is your agent of change in making raw data not only quicker to get to, but far more shareable. Automatically directing traffic among the assortment of storage devices at your disposal, and caching it close to the apps. Operationally, it gives you centralized control.You may already be employing these techniques in your server virtualization efforts, now apply them to disks.I’ll speak about each of them individually.
Resource pooling has the most immediate impact, enablingyou to aggregate the combined disk capacity across your IT infrastructure. This has the effect of making disks shareable to the most needy app while reclaiming apreviously inaccessible space.You’ll need a storage hypervisor to pull this off. Just like a server hypervisor, the specialized software emulates hardware so as to hide incompatibilities between different models.
This diagram may give you a good idea of the relative position of the storage hypervisor in the processing stack.
Perhaps it even makes more sense when seen alongside other forms of hypervisors, notably server and desktop variants.
The storagevirtualization software incorporates a great deal of automation.First to avoid waste, and more dynamically, to direct higher priority workloads to the fastest disks.Underneath, you’ll discover the magic of device-independent thin provisioning and auto-tiering at work.
Ready for more adventure?Travel with me one more hop into the hybrid cloud. That’s where you auto tier between your on-premises capacity and off-site disks rented from one of the commercial Cloud providers. Comes in real handy when you need a little scratch space, or when you are archiving documents that don’t require the same security or regulatory oversight as other consumers. It’s also a great option for storing contents that may need to be recovered during a disaster. More on that in a minute.
Such dynamic juggling of diverse resources, particularly operating across equipment from different suppliers, is on the leading edge of 21st century cloud technologies. What seems like exceptionally well-running apps to the user, is largely a product of a well- balanced arsenal of purpose-built devices orchestrated by DataCore’s storage hypervisor. Combined with thin provisioning, they translate into major savings and big time agility.
The answer to speed needs a little more explanation.
During your selection, look for the storage hypervisor to encompass these off-site disks as merely an extension of on-premises capacity.
The most visible aspect of your newly enlightened sky view comes from centralized management. While much has been said in the past about monitoring dissimilar units, the innovations we’re speaking about extend into achieving common control.One menu with discrete actions across device families whether from the same manufacturer or different suppliers.Similar to a universal remote, with equally powerful universal scripting commands used by 3rd parties for rich cross-integration.
Which brings me to all the standardization talk going around. You may have noticed how small groups of vendors are banding together under the guise of standardization to dictate building blocks for private clouds. Each club has a different recipe calling out their hardware. They also imply that choosing components outside that elite member list jeopardizes the outcome.In stark contrast, the DataCore angle on standardization is all about interchangeability. Giving you the freedom to harness the best purpose-built equipment for each tier in the cloud. Allowing you to shop for the best value among competing hardware suppliers – all of which can do a good job. Key to making this work is sticking to established disk interfaces, and treating storage as no more than largely interchangeable chunks of disk space.
Usually, after incorporating the principles of pooling, automation, caching and centralized management, our clients are ready to reinvent themselves in other ways. They tap into nearby facilities which help them inexpensively overcome the confines of their four walls.
These measures bring significant benefit well beyond mere expansion. They are key to achieving continuous availability in the face of routine causes of planned and unplanned downtime. With equipment reliability hitting five 9s, outages these days are more frequently the result of ongoing changes in the surrounding environment. Be it upgrades to the devices or to the physical plant. Sometimes the interruptions are expected, other times they are not.My number one suggestion: Mirror your critical volumes between two rooms, as far as possible within a metro area so you can still treat them as one logical site. Normally, you will be OK within 100 kilometers.Once again, automation in the storage hypervisor kicks in to replicate the information in real-time, even between unlike storage devices. Then when one site has to be taken down, the other site takes over transparently. For added safeguard against regional disasters (earthquakes, storms, floods, etc,) you may want to keep a third copy very far away at a contingency site.
Where will you experience the biggest payoffs?Our clients quantify them this way:They postpone and even avoid major disk acquisitions as a result of fully utilizing the capacity already on hand. They attain much better service levels through faster provisioning, eliminating storage-related disruptions and speeding up response from applications.
I’d be glad to spend more time with you individually to discuss these techniques and hear what you anticipate running into as the Big Data meteor gets closer.Thank you.