Matinée 01 Big Data

le Mardi 14 février 2012

Matinée 01
BIG DATA

9h00 – 09h15 - OUVERTURE

Qu’entend-on réellement par Big
Data ?
Par

Olivier Rafal, directeur de recherche chez Pierre Audoin Consultants

Big Data
Concept et perspectives :
la réalité derrière le ‘buzz’

Sommaire

I. Perspectives marché
Définition du Big Data
Exemple concret

II. Perspectives technologiques
Pourquoi le NoSQL et Hadoop
L‟après Big Data

PAC en bref:
l’analyse du marché informatique depuis 35 ans !

De la stratégie à l’exécution, PAC offre des réponses objectives aux défis de croissance
des acteurs des TIC

PAC est une société de conseil et d’études
de marché spécialisée dans le domaine du
logiciel et des services informatiques

Plus de 35 ans d’expérience

PAC aide:

- Les fournisseurs de services informatiques
à optimiser leurs stratégies en offrant des
analyses quantitatives et qualitatives ainsi
que des prestations de conseil opérationnel
et stratégique.

- Nous conseillons les DSI et les investisseurs Plus de 30 pays couverts
dans l‟évaluation des fournisseurs TIC et leurs 6 bureaux PAC
projets d‟investissements.

- Les organisations et les institutions
publiques se réfèrent également à nos études
ciblées pour développer et mettre en place leurs
politiques informatiques.

Dernières actualités PAC sur notre blog : http://blog.pac-online.com/

PAC en bref:
suivi particulier de la Business Intelligence

Le Big Data, c’est au choix…

« Un buzz orchestré par les
fournisseurs de technologies, les « On verra quand on aura des
analystes et les médias » Pétaoctets de données à gérer »

« L’avenir de la BI, la
réponse à tous les
« Une évolution problèmes »

naturelle »

« Seulement utile aux
« Réservé aux grands comptes »
quelques grands acteurs du
Web »

« Uniquement lié à la
technologie Hadoop »

Big Data : une évolution naturelle

Nouvelles sources de données Importance des
Explosion du (M2M, Open Data, Science…) conversations
‘UGC’

Big Data : intégrer ces
évolutions et contraintes pour
Métriques Accélération
applicatives
transformer les données en des cycles de
orientées information exploitable dans le décision
business cadre de son business

Démocratisation de la BI
Patrimoine informationnel non structuré / Découverte

Big Data : les problématiques de M. Jourdain

 Volumétrie : gestion de stocks, gestion de commandes,
transport/logistique/RFID, transactions financières, services grand
public…

 Variété : CRM / Marketing / SAV, communication financière…

 Vélocité : Mode, Jeu, Electronique grand public, gestion des
stocks, gestion des commandes…

Mieux connaître son client
Améliorer son offre
Agir avant la compétition

Exemple concret de Big Data

Kobojo, PME française

 Jeux pour les réseaux sociaux
 Evolutions quotidiennes
 Indicateurs techniques : 300 à 400
millions de données par jour et par jeu

 Au-delà ? Facebook,
Twitter…

Le point de départ

Base OLTP Datamart

Datawarehouse

?
Contenu
non
structuré

Big Data : perspectives technologiques

Des systèmes traditionnels au NoSQL

 Problématique apparue il y a data

une dizaine d’années chez les
Applications
gros « producteurs » de
data analytiques
données : Finance, Retail,
Services online…
data Hadoop /
 Besoin de solutions plus
Map
performantes que les SGBDR
Reduce
standards pour ce besoin data
particulier de volumétrie Base d’analyse

 Not Only SQL data

 Consensus sur Hadoop /
MapReduce


Du NoSQL au futur SQL ?

 Maturité du marché Hadoop
 IBM : InfoSphere BigInsights
 Oracle : Big Data Appliance (avec Cloudera)
 Microsoft : exit Dryad, bonjour Hadoop
 Informatica : Data Integration Platform for Hadoop
…

 Besoins non couverts par Hadoop
 transactions ACID
 SQL comme langage d’interaction
 Mécanismes de verrouillage non bloquants
…


Quand le Big Data deviendra la norme…

 Emergence de nouvelles solutions
 In-Memory
 SSD
 CEP (CloudScale…)
 Moteurs de stockage (Xeround, GenieDB…)
 SQL nouvelle génération (VoltDB, Clustrix…)
…

 Qui préfigure une assimilation progressive !

L’évolution possible

Contenu Web

Data as
a Moteur de
service recherches / BI
visuelle / text
Data
analytics
flux
C NoSQL /
Data NewSQL
flux E
P
Data
Applications
ETL/ analytiques
flux
Data
Quality
?
Datawarehouse

Contenu
DB

Olivier Rafal
Directeur de recherches,
Marchés logiciels
Information Management
o.rafal@pac-online.com
@olivierrafal

MERCI !

09h15 – 09h50 - TABLE RONDE

Big Data : juste un concept ou une réponse à
de réels besoins ?
 Attentes et Usages
 Pour quels types d’entreprise et de besoins ?
 Remplaçant du datawarehouse traditionnel ?
 Quid du temps réel et du transactionnel ?

Avec Jacques Milman, expert avant-vente Big Data et analytique chez IBM
Dominique Girardot, directeur d’Anteo, Groupe Sodifrance
François Guérin, directeur technique chez Sybase

09h50 – 10h10 - Avis d’expert

Pourquoi et comment intégrer les volumineuses
données du Web (réseaux sociaux, e-commerce…)
dans son système d‘information décisionnel ?
 Quels services de l’entreprise sont concernés ?
 Le triptyque “Big Transaction Data- Big Interaction Data- Big Data Processing
(Hadoop)”
 Le MDM, pierre angulaire d’un SI destiné aux utilisateurs métier

Avec Bruno Labidoire, directeur technique Europe du Sud chez Informatica

#BigData, au-delà du concept marketing

Bruno Labidoire
Directeur Technique, Europe du Sud

21
21 21

Big Data
Une convergence de 3 domaines

BIG TRANSACTION DATA BIG INTERACTION DATA

Online Online Analytical Données des
Transaction Processing média sociaux
Processing (OLAP) & Tickets d’appels,
(OLTP) DW Appliances Click stream, etc

Données scientifiques

Capteurs

BIG DATA PROCESSING

22
22

Big Transaction Data
Bases relationnelles et analytiques

BIG TRANSACTION DATA

Online Online Analytical
Transaction Processing
Processing (OLAP) &
(OLTP) DW Appliances

Oracle EMC Greenplum
DB2 Teradata
Britton-Lee Redbrick
Ingres EssBase
Informix Sybase IQ
Sybase Netezza
SQLServer DataAllegro
Asterdata
Vertica
Paraccel
Hana

23
23

Le décisionnel proactif

• On peut par exemple définir de nouvelles
campagnes potentielles associées à ces média
sociaux !

American Express a aidé les PME à augmenter
leurs revenus d„années en années de 28%
pendant le week-end suivant Thanksgiving avec
“Small Business Saturday” une campagne
impliquant 1,5 million de fans Facebook

24
24

Les challenges
Les données issues des média sociaux peuvent être
colossales!

Interactions

Transactions

Source: An IDC White Paper - sponsored by EMC. As the Economy Contracts, the Digital Universe Expands. May 2009.
.

25
25

Réseaux sociaux
Un potentiel en pleine croissance

Consommateur Entreprise

Consommateurs utilisant les principaux Réseaux
Sociaux 2004-2011
1,000
900
800
700
600
500
400
300
200
100
0
2004 2005 2006 2007 2008 2009 2010 2011

Facebook LinkedIn Twitter

26
26

Réseaux sociaux
Des formes multiples

27
27

Réseaux sociaux
Comment profiter de ces grands volumes d’informations ?

Curriculum
Extraire Curriculum
Analyser Curriculum
Gérer Curriculum
Associer

28
28

Réseaux sociaux

T_Young Tony Y.
iDroidBerry 9800 challenged meeting our enterprise security requirements and
battery life is also area of concern.

Curriculum
Extraire Curriculum
Analyser Curriculum
Gérer Curriculum
Associer

29
29

Réseaux sociaux

Entity Extraction & Identity Resolution
T_Young = Tony Young
Relationship Resolution
Tony Young works @ Informatica
Relationship Analysis
Tony‟s Sphere of Influence, CIO @ INFA
Sentiment Scoring
Enterprise Security -3.5, Battery Life -3.2

Curriculum
Extraire Curriculum
Analyser Curriculum
Gérer Curriculum
Associer

30
30

Réseaux sociaux

Databases

Informatica
MDM
External Data
Applications Client Produit … Providers

Data
Curriculum
Extraire Curriculum
Analyser Curriculum
Gérer Curriculum
Associer Warehouses

Operational
Applications

31
31

Comment profiter des données transactionnelles ?

Cloud Computing Enterprise Partner Trading Network
(B2B)

Warehouses …
SWIFT NACHA HIPAA

Cloud Computing Partner Data

Application Database Unstructured

Curriculum
Extraire Curriculum
Découvrir Curriculum
Nettoyer Curriculum
Intégrer Curriculum
Analyser

32
32


(B2B)

Curriculum
Extraire Curriculum
Nettoyer Curriculum
Analyser

33
33


(B2B)

COMPLETENESS CONFORMITY CONSISTENCY
DUPLICATION INTEGRITY ACCURACY

Curriculum
Extraire Curriculum
Nettoyer Curriculum
Analyser

34
34


(B2B)

Curriculum
Extraire Curriculum
Nettoyer Curriculum
Analyser

35
35

Comment profiter des données transactionnelles?

(B2B)

Curriculum
Extraire Curriculum
Nettoyer Curriculum
Analyser

36
36

Big Data Processing
Qu’apporte Hadoop ?

• Une montée en puissance économique
• Fonctionne sur des fermes de serveurs banalisés

• Supporte tous les types de données
• Structuré, Semi-structuré et non structuré

• Extensible
• Interfaces (APIs) ouvertes permettant d‟implémenter une logique
spécifique

37
37

Big Data Processing
Connectivité Hadoop par Informatica
Analyse de Détection des Analyses Analyses des
Smart Devices
Sentiment fraudes Predictives risques

Hadoop Cluster

Connectivité
Hadoop (HDFS)

• Load data to Hadoop from any source
• Extract data from Hadoop to any target

Weblogs, Mobile Databases, Dat Semi-structured Cloud Applications,
Data, Sensor Data a Warehouses Unstructured Enterprise Applications
Social Data

38
38

Un exemple de mise en œuvre dans
le décisionnel

39
39 39

Le décisionnel « classique »

• La qualité des données est globalement égale à
celle des systèmes opérationnels
• Les indicateurs sont disponibles à J+1
• Les données clients/prospects peuvent être
périmées et induire des tendances incorrectes dans
les indicateurs

Il peine à répondre aux demandes métiers de fraîcheur
de l‟information, rapidité de décision, et gestion proactive
des clients !

40
40

Le décisionnel avancé
• Une solution de qualité des données a été mise en œuvre
pour détecter (et corriger quand cela est possible) les erreurs
dans les données. Ces erreurs sont notifiées aux systèmes
opérationnels amonts pour correction.
• Une partie des indicateurs est mise à jour au fil de l‟eau
(intervalle d‟une minute à une heure en fonction du besoin
fonctionnel). Les solutions de CDC (Changed Data Capture),
bus messages et WebServices supportent cette mise en
œuvre.
• Des solutions de vérification d‟adresses postales et de
croisement avec des bases externes entreprises (D&B)
permettent d‟améliorer les données clients/prospects.
Le métier accorde une plus grande confiance aux
informations du décisionnel et peut réagir plus rapidement,
mais il supporte mal une approche proactive !
41
41

Le décisionnel proactif
• Des « DB Appliances » sont mises en places pour supporter les
volumes de données croissants (WebLog, etc)
• Des solutions de connectivité aux médias sociaux sont mises en
place pour enrichir la connaissance du client
• Les clients peuvent être évalués non seulement sur les produits
qu‟ils ont acquis mais aussi sur leur capacité d‟influence (nombre de
leurs contacts dans les réseaux sociaux) et sur leur comportement
(weblog)
• Les marques concurrentes citées par ces clients peuvent être
analysées pour compléter l‟analyse concurrentielle
• Etc…

Le métier découvre de nouvelles informations lui
permettant une approche proactive et une anticipation
des besoins/tendances du marché !
42
42

La plate-forme Informatica

43
43 43

Informatica 9.1: Plate-forme de services de données
Data Integration Projects

Big Data Ultra Data Big Data Data Social Master Cloud Complex Big Data
Warehousing Messaging Services Archiving Consolidation Data Data Event Collection &
Management Integration Processing Exchange
ODBC/ Web SUPPORT TOUS PROJETS SQL Batch
JDBC Services

Accès Qualité Retention Confidentialité Fraicheur
GESTION DE
TOUTES REGLES

Data Integration Master Data Data Quality Test Data Management B2B SOA/ Business
Management & Archiving Composite Apps Intelligence

Client Commande Réclamation Support Produit Facture

ACCES A TOUTES
LES DONNEES

Transactions Interactions

SWIFT NACHA HIPAA …

Cloud Computing Applications Databases Unstructured Warehouses NoSQL Social Partner Data

44
44


Intégrer les solutions Big Data à l’existant.
 Apporter une réelle valeur ajoutée, en lien avec un existant
multiforme, décisionnel comme transactionnel

Par

Isabelle Claverie-Berge, expert technique Database Big Data chez IBM

Information Management – Big Data

Intégrer les solutions Big Data à l'existant

Isabelle Claverie-Bergé, IBM Software, Information Management Architecte
Isabelle_claverie@fr.ibm.com

© 2012 IBM Corporation


Big Data : Une opportunité

Acquerir/Observer Explorer/Gerer Analyser/Optimiser

Customer
Experience
Customer
Un Structuredcomment Intégrer les solutions Big Data à l'existant ?
Mais Data Insight
Transactional
Data Profitability
Optimization
Historical
Data Network
Structured Data Referential
Analytics
Data Sets
Audience
Management
Asset
Optimization
Streaming Data

48 © 2012 IBM Corporation


Big Data: Un complément à l‟approche traditionnelle
Approche Traditionelle Nouvelle Approche
Structuré, analytique, logique Creative, Vue holistic , intuition

Data Hadoop
Streams
Warehouse
Transaction Data Web Logs

Internal App Data Social Data
Structured Unstructured
Structuré Enterprise Exploratoire
Exploratory
Repeatable
Mainframe Data Repetable
Linear Integration Iterative
Iterative Text Data: emails
Lineaire
Monthly sales reports Brand sentiment
Profitability analysis Product strategy
OLTP System Datasurveys Sensor data: images
Maximum asset utilization
Customer

ERP data Sources Nouvelles RFID
Sources
traditionnelles



Big Data : Les points d‟intégration Rules / BPM

IBM Big Data Solutions Client and Partner Solutions iLog & Lombardi

Data Warehouse
InfoSphere
Warehouse

Big Data Analytics Warehouse Appliances

Applications
Text Statistics Financial Geospatial Acoustic IBM & non-IBM

Image/Video Mining Times Series Mathematical Master Data Mgmt

INTEGRATION
InfoSphere MDM

Data
Big Data Enterprise Engines Database

DB2 & non-IBM

Content Analytics

Processes
InfoSphere Streams InfoSphere BigInsights
ECM

Productivity Tools & Optimization Business Analytics
Workload Job Data
Provisioning Job
Management & Workflow Ingestion

Information Server
Scheduling Tracking Cognos & SPSS
Optimization

Manageability
Management Admin Configuration Activity Identity & Data Marketing
Tools Manager Monitor Access Mgmt Protection
Unica

Connectors Applications Blue Prints Data Growth
Management
InfoSphere Optim


Exemple: Vision client 360
Guardium

Customer Identification Privacy
Master Data Management Data Privacy

InfoSphere
InfoSphere Optim for Test
Quality DB2 Data, Redaction, +++
MDM
Stage

Data
Customer Intelligence Appliance
Quality
Data Models Out-of-the-box analytics
Information Server

Cognos

Pre-built
Customer Integration behavioral IBM Global Business
Appliance attributes Services

IBM Retail Data Model Core Metrics Unica

Enterprise Data Warehouse Applications and Operational Analytics

Online Archive OLTP and Big Data Integration
Managing Growth Built-in Integration into Big Data

Optim Data Archive Informix
DB2 SAP solidDB
DB2


Exemple: exploration et surveillance pétrolière
Volumes of raw structured and
unstructured data Reservoir and Process
Staging Platform Modeling and Simulation Applications
Cleansing and Transformation of
many types of data with
different formats

Operational BI and Statistical
InfoSphere Subject-area
source Applications
BigInsights
systems
ODS

Real-time streaming
data (structured and
unstructured)
Netezza
DW
Cognos and
Real-time SPSS
dashboards
InfoSphere and analytics
Streams
Traditional data sources
Event detection and (ERP, CRM, databases)
capture of real-time data


THINK

https://www.ibm.com/services/forms/signup.do?source=sw-infomgt&S_PKG=bdebook1



Pourquoi et comment préparer le SI à l’avènement
du BIG DATA ?
 Quel est l’enjeu métier de cette approche ?
 Pourquoi l’urbanisation, le management des données et la création de
référentiel sont incontournables dans un tel contexte ?
 Pourquoi la qualité des données est-elle au centre du débat ?

Par Stéphane Lextreyt, Sodifrance

Comment préparer le SI à l’avènement du BIG DATA ?

Maîtrisez votre capital Données

BIG DATA : POURQUOI S’Y PRÉPARER ?
Déluge informationnel …
Où sont les données
« métiers » ?
Exploiter les tendances qui se
Cloud dégagent de l’écosystème
environnant

OUI MAIS …
Quel crédit accorder à ces données ?
Comment en faire un élément de
décision ?

Alors les données doivent être :
Fiables
Cohérentes
Centralisées Source d’agilité
Partagées du SI
….

UNE APPROCHE GLOBALE ET STRUCTURÉE
Accroître l’efficacité du
SI…

Maitriser les données internes
au SI
Transformer les données en
informations fiables
Partager des informations à
forte valeur ajoutée
Capitaliser sur les données
Métiers
Maintenir un niveau de qualité
élevé
Diminuer significativement le
coût de gestion des données

DATA MANAGEMENT, UNE FORTE EXPÉRIENCE
SODIFRANCE, SSII innovante
25 ans d‟expérience
Un CA de 68,2 M€ en 2011 (+8,2%)
930 collaborateurs sur 12 implantations en France
Une approche projet : 53 % du CA en engagement
de résultats
Un Centre R&D dédié au développement de nos
solutions outillées

Une clientèle de grands comptes fidèles

 170 projets
ALCARA CREDIT MUTUEL MALAKOFF-MEDERIC
CREDIT AGRICOLE STE GENERALE CNP-ASSURANCES

GMF BPCE YVES ROCHER
MAAF ADP-GSI DIAC
en Data Management
MMA RSI AXA
BNP-PARIBAS AIR France MERIAL
EUROPCAR STACI AREAS

DATA MANAGEMENT : DÉFINIR SA TRAJECTOIRE

Définir la stratégie et la gouvernance
Concevoir l’architecture cible et la trajectoire
Recommander les choix technologiques
Cadrer le projet et la démarche
Sécuriser l’atteinte des objectifs
Conduire le changement

LE CYCLE DE VIE DE A à Z …

Industrialiser la maîtrise et l’évolution du SI
Accélérer l’adaptation de l’entreprise
Ouvrir le SI aux nouvelles applications
Réduire les coûts de maintenance

COMPRENDRE ET MAITRISER L’EXISTANT
Cartographie applicative outillée
Références
Analyse exhaustive • AXA
Références croisées • CNP-Assurances
Flot de données • CIMUT
Algorithmes • CRÉDIT MUTUEL
• EDF
• ING
• I-BP
• MAAF
• RSI, …

Un référentiel vivant
Rafraichissement permanent CIMUT
Système de requêtage utilisateur « Nous avons
choisi Mia-Insight
pour la pertinence
des analyses
fines et précises,
irréalisables sans
outillage »
Utiliser les données Métiers,
Analyser les impacts au niveau applicatif

LA QUALITÉ AU CENTRE DES PRÉOCCUPATIONS

Automatiser la qualité des données Références

Faire un état des lieux • ARKEA
Listes de valeurs • APICIL / UPESE
Volume de données erronées • CAISSES
Taux de doublons D’EPARGNE
• CREDIT AGRICOLE
• GROUPAMA
• NOVALIS-TAITBOUT
• MERIAL, …
Impliquer tous les acteurs
MOA
Gestion MALAKOFF-MÉDÉRIC
MOE
Projets « Grâce à ses outils
d'analyse
performants,
Pérenniser la démarche SODIFRANCE nous
Planifier les actions dans le temps garantissait un audit
Auditer de façon récurrente et des
recommandations
Engager de nouvelles actions factuelles et
rapides »

Toujours être vigilant et proactif

ORGANISER LE SI AUTOUR DES DONNÉES MÉTIER
Du référentiel métier à l’agilité du SI Références

Création de référentiels de • CDC
données partagées • CNP-Assurances
Référentiels « Maitre » / « Esclaves » • CIMUT
Fiabilité et cohérence des données • ENERGY POOL
Accessibilité des données par toutes • MALAKOFF-
les applications MÉDÉRIC
• SI2M
Démarche d’urbanisation • MMA,…
Approche par les processus Métiers
Identification du meilleur découpage
applicatif
SI2M

Recherche de la modularité « Les résultats de
optimale l’audit et le conseil
Transformation des applications en de SODIFRANCE
service Métier nous ont permis de
Ouverture multicanal faire avancer notre
vision sur
Bénéfices Métier attendus l'urbanisation de
Efficacité opérationnelle notre SI »
Rester Time To Market

Faites de votre référentiel un Référentiel

LES DONNÉES DANS TOUS LEURS ÉTATS
Références
Démarche = Méthodologie et Solutions
• AGF
• AIR FRANCE
Capitaliser sur les données • BNP-PARIBAS
Métiers de référence • CHU DE NICE
Fiabiliser • GROUPAMA
Dédoublonner • MALAKOFF-
Normaliser MÉDÉRIC
• MORNAY
• VILLE DE LYON
• RATP, …

MALAKOFF-MÉDÉRIC
« Grâce à l’usine de
migration TRANSMIG,
les données du
Référentiel Personne
sont fiables et
cohérentes.
Engagements sur la qualité
Aujourd’hui, les coûts
Sécurisation du Projet
d’exploitation sont
Gouvernance améliorée
réduits et les actes de
Augmentez votre capital données gestion bien plus
rapides »

GARDER LA MÉMOIRE… À PORTÉE DE WEB
Diminuer les coûts de possession Références

• DCNS
• MALAKOFF-
MEDERIC
• MERIAL
en place de PRA – PCA • AEROPORT NANTES
• CH LE MANS,….

•…
MERIAL
stifications CAC
« La fonction
d’archivage Web de
TRANSMIG a permis
de restituer une
vision des données
historiques que
nous n’avions plus
suite à l’arrêt du
Mainframe et à la
disparition de
l’application
métier »

Réduire les coûts et améliorer le service

APPROCHE GLOBALE DU CYCLE DE VIE DES DONNÉES
Efficacité et rigueur Diagnostic
 Audit
 Cartographie

Cible
 Cible et stratégie
Diagnostic  Recueil des besoins
 Alignement MOA /MOE

Trajectoire
 Référentiel maitre / esclaves
Cible Trajectoire  Méthodologie projet éprouvée
Indicateurs  Solutions outillées

Maintenir
Qualité
couts
 Accompagnement
 Formation
Maintenir

RETOUR D’EXPÉRIENCE
Périmètre Création du Référentiel Personne

Conseil &
Conseil
Urbanisation

Audit Migrer Dédoublonner Synchroniser Audit Audit
Projet Cartographie Fiabiliser Charger Archiver régulier régulier

Solutions
outillées

Expertise
Experts en urbanisation et Data Management

Formation – Conduite du changement

2009 2012
Temps

Stéphane LEXTREYT
Consultant Data Management
slextreyt@sodifrance.fr
+33 6 86 89 23 20

10h50 – 11h20 - PAUSE

Pause / Networking

11h20 – 12h00 - Table Ronde

Cloud et Stockage, supports incontournables du
Big Data
 Les acteurs du cloud et les éditeurs/constructeurs se positionnent déjà
 Actuellement, y a-t-il un intérêt à installer sa propre solution Big Data ?
 En quoi le cloud incarne-t-il un moyen intéressant ?

Avec Jean-Pascal Ancelin, directeur général, MicroStrategy France
& Said Boukhizou, responsable technique chez Datacore


Témoignage utilisateur : Malakoff-Mederic
Ré-urbaniser le SI autour des données métiers, un
enjeu concurrentiel
 Les enjeux de la mise en œuvre de référentiel de données Métiers,
vecteur d’agilité de l’entreprise
 Comment alimenter un référentiel de données tout en synchronisant les
applications périphériques contributrices ?

Par Romaric Hatit de Malakoff-Mederic


Le stockage : innovation et nouvelles réponses
Part 1
Par

Said Boukhizou, responsable technique chez Datacore

How Big Data Influences
Storage Innovations
Impact on policies, scale, clouds and
data management

74

Not Just Big
 Fast

 Real-time
► Event-driven

 Shared

75 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Motivation

Greater Situational Awareness

Better Decision Making

Competitive Advantage


Where does Big Data come from?
Enterprise
Office Apps
Apps
Web
Apps

Device explosion

Social Media Data
Machine Data

Applications that are driving Storage
Growth
Archiving
Data Protection/DR
Email
CRM
File sharing
Content Mgt
Regulatory mandates
DE
Convert analog - digital records
Data warehousing/BI
WE
eCommerce
Digital Imaging
ERP
Social Platfom
SCM

0% 20% 40% 60%
Source: IDC‟s European Storage Survey 2011 – N=509

Challenging Storage Characteristics
 Never at rest  Different formats
► In-demand

► Less relevant

► Outdated  All shapes & sizes

 Multiple, linked sources
► Intelligent devices
► Outside of IT‟s control

► Housed separately

► No time to pre-stage


Renovation Opportunity
 Modernize

 Align

 Architect

 Adapt

Not that difficult


Technology Innovations on Your Side
 Storage hypervisor layer
► Insulates data management from hardware variables
► Comprehensive set of advanced functions

► Device-dependent

 Broad span
► Infrastructure-wide

► From on-premises to the Cloud

► Virtual & physical domains

 Accelerates data access

Virtualize Storage for Sharing & Speed

 Pool resources

 Direct traffic automatically

 Cache near apps

 Manage centrally


Pooling
 Combine overall capacity

 Make disks shareable

 Recover inaccessible or isolated disk space
► No longer isolated

 Hide equipment incompatibilities
► Standard server / app connections bridged to
device-specific interfaces


Adaptive Layer

Server
Cluster

Caching Caching

Shared
Virtual Disks
Storage Hypervisor

Variable sources / destinations

3-Dimensional Virtualization Strategy
DESKTOP HYPERVISOR

USERS

SERVER HYPERVISOR

APPS

STORAGE HYPERVISOR

DISKS


Automation
 Allocate space just-in-time
► Thin provision small groups of
disk blocks
► No waste

 Dynamically direct workloads to most
appropriate resource
► Auto-tiering

► Determined by access frequency &
business rules (high priority override)


Hottest Data Gets Most Attention
 Auto-Tiering

Tier 1 Tier 2 Tier 3 Tier n

Chuns

Hot Warm Cold Stale


Dynamic Optimization of Assets

Mail Database File Web Apps

Storage Hypervisor

Price / TB
Speed

On-Premises Public Cloud
5% 35% 60%

Private Cloud

Price/ Capacity


Caching
 Rapid retrieval
 Fast updates
 Memory-access speeds
► Read (anticipate)
► Write (coalesce)

► Bypass disk latencies

 Turbo-charge native disk array performance

 Self-tuning


Off-premises storage appears to be local
 Users and apps can‟t tell
► Storage hypervisor makes it transparent

 Same principles merely extended
► Pooling

► Automation

► Central management


Central Management

 Common menus & commands
► Across diverse equipment

 Single console
► Status dashboard

► Performance view

► Consolidated notifications & alerts

 External integration point
► Virtualization


Lots of Standardization Talk
 One interpretation
► Buy more of the same hardware

► Always buy it from me and my club

 Really about interchangeability
► Stick to established interfaces

► Add or swap out equipment as needed

► Shop for best value among hardware suppliers

► Treat storage as interchangeable chunks
of disk space


Stage 2 – Beyond Your Walls
 Leverage nearby branch or colocation facility

 Rent capacity from public cloud


Under a Different Roof
 Continue operations despite facility problems
► Equipment upgrades / maintenance

► Air conditioning / ventilation

► Construction

► Water leaks

► Etc.,

 Mirror or replicate critical volumes to a secondary site
► Auto-failover within metropolitan area

► Take advantage of different storage devices


Expected Outcomes

 Higher levels of service
► Rapidly provision space

► Remove storage-related disruptions

► Speed up app response

 Optimal use of available resources
► Take full advantage of existing capacity

► Defer acquisition of more disks


Get ready,
Big Data is
almost here!


QUESTIONS

www.datacore.com
98


Le stockage : innovation et nouvelles réponses
Part 2
Par

Jean-François Ruppé, Solution Architect EMEA chez Quantum

Les solutions Big Data

Jean-François RUPPÉ
Architecte Solution

Caractéristiques de nos clients

30%-60% Volumétrie

Non-structurée
DB

Sources multiples

Performance

Protection

© 2011 Quantum Corporation. Company Confidential. Forward-looking information is
102 based upon multiple assumptions and uncertainties, does not necessarily represent the
company‟s outlook and is for planning purposes only.

Principaux Secteurs d‟Activité

Média
• Post production (effet spéciaux, correction des couleurs, …)
• Passage à la HD, 3D

Sécurité / Imaging / Défense
• Vidéosurveillance
• Capture & traitement des données satellites

Recherche scientifique
• Calculs
• Séquençage de génome (décryptage d‟informations)

Pétrole et gaz
• Exploration sismique
• Modélisation 3D

103

Les défis
Gérer efficacement la croissance des données
– +100 Millions de fichiers, >100 To de données par environnement
– Transfert des données entre différentes chaînes de traitement
– Protéger & Archiver à long terme
Adapter les performances aux besoins
– De 100 Mo/s à > 600 Mo/s

Séquenceur/calcul sismique : 2 To par « run »/millions de
fichiers
Traitement d‟images satellite :
– 600 Mo/s (FC 4Gb = 512 Mo/s)
– 37 millions de fichiers, 1 Po de données avec gestion de Tiers (5%
rapide, 63% lent, 32% bandes)
Gourvernement : 4 milliards de fichiers + PRA


1. Créer un espace de stockage partagé haute performance
– SAN ou LAN en fonction des besoins en performance
– Hétérogène Linux, Unix, Windows, MAC
2. Optimiser les ressource stockage
– Gestion de différents Tiers : SSD, SAS, SATA, Bandes
– Déplacement automatique des données (HSM)
3. Protection des données
– Sauvegarde
– Externalisation
– Réplication


Accélération des processus

 Stockage local ou disparate
 Mouvement des données fastidieux
 Besoin d‟une grande quantité de stockage
based upon multiple assumptions and uncertainties, does not necessarily represent the

Evolution des processus

 Stockage partagé
 Accès concurrents
 Depuis plusieurs types de client

Différents type d‟accès

LAN
CIFS / NFS Storage Area
Network
(SAN)
Gateway
Servers
WIN LAN Clients

LINUX LAN Clients

 Haute performances  Load Balancing
 Milliers de clients  CIFS/NFS support


Gestion des données

TIERS 2

Storage Area
Network
(SAN)
SAUVEGARDE VAULT

DEDUPLICATION REPLICATION


Architecture StorNext
Solution “End-to-End”

StorNext File System Gestion des données
Stockage partagé

StorNext StorNext
SAN Clients Replication

PRIMARY TIER
Gateway
Servers
StorNext DLC

CIFS/NFS
SECONDARY TIER
HA
StorNext Storage
GigE TCP/IP
Infiniband IP
Metadata
Controllers
Manager

TAPE LIBRARY
ARCHIVE VAULT

Version « Logicielle »

Appliances StorNext
Solution “End-to-End”

StorNext File System Gestion des données
Stockage partagé

StorNext StorNext
SAN Clients Replication

PRIMARY TIER
Gateway
G300
StorNext DLC

CIFS/NFS
SECONDARY TIER
Q-Series StorNext Storage
GigE TCP/IP
Infiniband IP
Manager
Q-Series

M330
Metadata
Controllers Scalar
VAULT


Cas client : Recherche ADN
PRIMARY TIER

80-100TB FC Disk
FC/iSCSI
DISTRIBUTED LAN CLIENTS

StorNext DLC StorNext
Gateway Servers Policy
Engine
FC
GigE TCP/IP

DDM
Server
FC TAPE LIBRARY ARCHIVE

Metadata
HA MDC
Séquencement Controller

PB of Tape

• Chaque serveur de séquencement lance des analyses (ADN). Chaque expérimentation génère 1 To de
données
• Les résultats sont copiés ou déplacés vers l‟archive (rétention à long terme + externalisation)
• Temps de traitement global réduit par 3

Questions/Réponses


12h50 – 13h00 - Conclusion

Une révolution informatique en douceur
 Distribution et parallélisation des traitements, autre forme de
virtualisation du stockage, système de gestion de fichiers plus universel…
 Le phénomène Big Data n’annonce-t-il pas une évolution majeure ?

Par José Diz, Journaliste, Evénements 01

BIG DATA

détour par la „SILICON Valley‟

José DIZ

Hadoop : kesako?

 Google et fortes contributions Yahoo!
 Framework open source Java
 HDFS : système de gestion de
fichiers distribué avec stockage
en cluster de serveurs

 MapReduce : distribue de façon
parallèle les traitements sur
chaque nœud au plus près des
données.

Hadoop : kesako?
 tout type de données
 structurées
 non structurées
 Web, et autres

 Croissance linéaire sur du matériel standard
(commodité)
 Appliquer rapidement des algorithmes simples à
de très gros volumes de données
 Batch ? Ou plus ?

Des pionniers : Cloudera (CDH)
l‟interface graphique pour
accès via un navigateur
workflow
langage de type SQL
Intégrer Hadoop et SGBD
SGDB distribué non
relationnel orienté colonnes
Service distribué de
collecte et d‟agrégation
gestion de configuration pour
pour stockage HDFS
systèmes distribués
langage de haut niveau

Hortonworks Data Platform (HDP)

Core Apache Hadoop Related Hadoop Projects Open APIs for:
• Data Integration
• Data Movement
• App Job Management
(Columnar NoSQL Store)
Pig Hive • System Management
(Data Flow) (SQL)
HBase

MapReduce
Zookeeper
(Coordination)
(Manaement)
Ambari

(Distributed Programing Framework)

HCatalog
(Table & Schema Management)

HDFS
(Hadoop Distributed File System)

Hortonworks – la cohabitation
Traditional Data Warehouses,
BI & Analytics
Serving Applications

NoSQL RDMS … Traditional ETL Data BI /
EDW
Marts Analytics

Apache Hadoop
EsTsL (s = Store)

Gartner predicts 80-90% of data
800% data growth produced today
over next 5 years is unstructured

Call Social Senso Server
…
Center Media r Data Logs

MapR : affinage, spécifique ?
Big data s‟avère lourd et coûteux à déplacer.

Pig Hive
Web Services

Sequential File Map/
OLAP OLTP Hbase
Processing Reduce

RDBMS NAS HDFS

Pig Hive
Web Services

Sequential File Map/
OLAP OLTP Hbase
Processing Reduce

RDBMS NAS

HDFS
Next Generation Distribution

MapR : affinage, spécifique ?

MapR Distribution for Apache Hadoop

Hive Pig Oozie Sqoop HBase Plume

Nagios Ganglia Vaidya Haute disponibilité et continuité :
Mahout Cascading Flume
Integration Integration Integration
- snapshots,
- mirroring,
MapReduce - namecode de stockage distribué
- …
Distributed
JobTracker HA
NameNode HA™

MapR’s Lockless Storage Services ™

Big Data : batch pour BI, et après ?

 Complément au-delà du batch
 Streaming
 « Temps réel »

 Stockage primaire ? Environnement de
production principal ?
 Deux écoles :
 Pas pour Cloudera et Hortonworks
 Certainement pour MapR

13h00 – 13h05 - JEU

TIRAGE AU SORT iPad

Et le gagnant est……?

13h05– 14h00 - COCKTAIL DEJEUNATOIRE

Cocktail / Networking

MERCI DE VOTRE PARTICIPATION
BON APPETIT!!

Matinée 01 Big Data

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (14)

Semelhante a Matinée 01 Big Data

Semelhante a Matinée 01 Big Data (20)

Mais de Evenements01

Mais de Evenements01 (16)

Matinée 01 Big Data

Notas do Editor