1. EuraTech Trends
15 mars 2012
Édition 1, Numéro 2
EuraTechnologies +(33) 320 191 855
BIG DATA
L’ère du tout numérique a fait rentrer l’humanité dans une frénésie de production de
3
données de toutes natures : nous échangeons des milliards de tweets, de SMS, de MMS, de
billets, de posts, d’images, de vidéos quotidiennement ; notre monde est truffé de capteur de
toutes sortes enregistrant des millions données à la seconde ; entreprises et institutions
publiques se sont lancées dans la numérisation du patrimoine culturel de notre planète -
plusieurs dizaines de millions d’œuvres d’art, plusieurs dizaine de millions d’heures de
« Les technologies documents audio ou vidéo, des milliards de livres- ; nous pourrions ainsi multiplier les
Big Data décrivent exemples à l’infini.
une nouvelle
génération de Ce magma de données, structurées ou non, hétéroclites, non centralisées pourrait bien être
le prochain eldorado numérique. En effet, dans ce monde numérique et de la connaissance,
technologies et
qui dit « données », dit gisements de productivité et d’innovations. Mais pour trouver le
d’architectures, chemin jusqu’à eux, l’outillage existant de gestion de données n’étant pas en mesure
conçues pour d’apporter de réponses satisfaisantes, il a donc été nécessaire de se tourner vers de nouvelles
extraire technologies, connues sous le terme de « Big Data ».
économiquement
de la valeur de Si le buzz autour du Big Data n’a jamais été aussi important ces derniers mois, son origine
grands volumes de remonte à 2004-05 quand Google initia BigTable et Yahoo ! Hadoop. Sa démocratisation va de
4
données d’une très pair avec un prix du stockage divisé par 10 en 7 ans (pour 450 € , il est possible de stocker la
grande variété, en totalité de la musique produite sur terre), la baisse du coût de calcul, la montée en puissance
permettant la du cloud (Big Cloud ?) et la disponibilité en Open Source des briques logicielles nécessaires à un
capture, la projet Big Data.
découverte et/ou
l’analyse à haute
vélocité »12.
1 - Source: “IDC's Digital Universe Study”, sponsored by EMC, Juin 2011
1
IDC, “Extracting Value from Chaos”, juin 2011, http://www.idcdocserv.com/1142
2
Gartner, « Solving « Big Data » challenge involves more than just managing volume of data », juin 2011, http://www.gartner.com/it/page.jsp?id=1731916
3
IDC et EMC, “The Digital universe study”, juin 2011, http://www.emc.com/collateral/about/news/idc-emc-digital-universe-2011-infographic.pdf
4
McKinsey Global Institute, “Big Data : The next frontier for innovation, competition and productivity”, juin 2011,
http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation
2. 2 EuraTech Trends
LES OUTILS
TM
Deux des outils incontournables du Big Data sont Hadoop et MapReduce. Tous les
TM
deux sont portés par la fondation Apache et englobent l’ensemble des briques
logicielles nécessaires à la réalisation d’un projet Big Data. Ils sont disponibles sous licence
TM
Open Source et téléchargeables sur le site de la fondation Apache . Par ailleurs, un
certain nombre de sociétés (IBM, Cloudera ou Hortonworks) proposent leurs propres
TM
distributions Hadoop / MapReduce.
Un autre outil incontournable dans le cadre d’un projet Big Data est un système de
gestion de base de données ou de dépôt de données NoSQL, pour Not only SQL. Ces
SGB/DD ont été conçus pour s’affranchir d’une certaine rigidité des SGBD relationnelles
dans la structuration des données et de leurs traitements, et répondre aux contraintes des
« 3V » (Volume, Variété et Vélocité). Par contre, les SGB/DD NoSQL ne se posent pas en
Un nouveau métier
concurrent des SGBD relationnelles. La majorité des projets les associent, chacun étant
« Data Scientist » 5
utilisé et optimisé pour ce qu’il fait de mieux. On recense aujourd’hui plus d’une centaine
Son rôle, faire parler les de SGB/DD NoSQL, communément répartir en quatre catégories : clé/valeur comme
données !! DynamoDB ou CouchBase, orienté colonne comme HBase
TM
ou Bigtable, orienté
Ses armes, une bonne
maitrise des document comme MongoDB ou CouchDB et orienté graphe comme Neo4j ou
mathématiques et des InfiniteGraph. Le choix du ou des SGB/DD se fait en fonction du type de données, des
statistiques, des outils performances souhaitées et de l’existant du SI.
d’analyse, des bases
de données Pour analyser et tirer partie de ces océans de données, il existe plusieurs outils. Le
relationnelles ou premier déjà cité est MapReduce. Les seconds sont les langages de requêtage ; la jeunesse
NoSQL, une bonne des SGB/DD NoSQL fait qu’il n’y pas encore, comme le langage SQL pour les SGBD
connaissance de son
entreprise et de son relationnelles, de langage de requêtage universel : citons HiveQL pour Hadoop, CQL pour
environnement, un Cassandra, SparQL pour Neo4J ou UnSQL dont l’ambition est justement de devenir le
talent certain pour « SQL » des SGB/DD de données non structurées. Les troisièmes sont des applicatifs
mettre en valeur son
métiers comme tresata pour l’analyse de données financiers. Les quatrièmes sont les
travail d’analyse et le
vendre auprès de ses logiciels de BI (Business Intelligence) adapté au Big Data, proposés par Jaspersoft, Pentaho
commanditaires. ou Tableau Software. Une cinquième catégorie, utilisant la technologie du « machine
learning » (apprentissage automatique), émerge en promettant des traitements très
courts. Ces outils sont édités par Skytree, bigml, precog ou prior Knowledge Inc.
LES ACTEURS
Si l’Open Source joue un rôle fondamental dans le développement du Big Data, en
TM
particulier à travers la fondation Apache , et bien que le marché du Big Data soit récent,
les majors du secteur IT l’ont très vite investi. Elles n’ont pas hésité à acquérir de jeunes
sociétés pour renforcer leur position. Greenplum est devenue la filiale dédiée « Big Data »
2
de EMC , Aster Data celle de Teradata et Vertica de HP. Netezza, fournisseur d’appliances,
est venue compléter l’offre d’IBM.
Si ces grands groupes se positionnent sur l’ensemble de la chaine de valeur, de
nombreuses start-ups se positionnent sur le service ou les solutions verticales. En effet, la
mise en œuvre d’un projet « Big Data » est encore loin du « plug & play » et nécessite des
compétences très variées que peu d’entreprises ont en leur sein : mathématiciens,
statisticiens, informaticiens, techniciens rompus à l’installation et au paramétrage des
différentes briques logicielles, spécialistes métiers. Dans le paysage français, Altic,
Hurence ou Squid solutions accompagnent leurs clients dans l’ingénierie projet. mfg labs
et Semiocast proposent à leurs clients d’utiliser le Big Data pour tirer partie des échanges
sur les réseaux sociaux.
5
http://nosql-database.org/
3. 3
LE MARCHÉ
6 7
Les prévisions pour l’année 2012 vont de 1,5 milliards à 5 milliards de Chiffre d’affaires.
Il est à noter que l’ensemble des pure players ne représente encore que moins d’1% de ce
C.A..
Pour les 5 années à venir, Wikibon prévoit une croissance à 2 chiffres du C.A., pour
atteindre plus de 50 milliards de $ en 2017.
AGENDA
Prévisions C.A. 2012-2017 BIG DATA 2012 PARIS :
1ère édition du salon les 20
et 21 mars.
Big Data Conference 2012
WASHINGTON:
Applications & Analytics
For Defense, Intelligence
and Homeland Security,
les 8 et 9 mai.
Big Data World EUROPE
2012 LONDON: How to
store, analyse and use
data – for all businesses, les
19 et 20 septembre.
STRATA CONFERENCE 2012
2 - Source: Wikibon, “Big Data Market Size and Vendor Revenues”, Février 2012 NEW YORK: Making Data
QUELQUES CAS D’USAGE Work, du 23 au 25 octobre
1. Médical
BIG DATA FORUM
La société CardioDX a développé un test sanguin qui détecte les maladies coronariennes. 2012PARIS: Business
Ce test a été conçu grâce à l’identification des 23 gènes précurseurs après plusieurs milliers Intelligence, Customer and
Social Data Analytics, les 6
d’analyses de plus de 100 millions de séquences génétiques. et 7 novembre.
2. Distribution
WalmartLabs a créé Social Genome, une plateforme technologique capable d’analyser
en temps réel des données provenant des réseaux sociaux (Tweeter, Facebook, Foursquare)
afin de pousser des recommandations produits aux clients.
3. Enchères en ligne
Ebay améliore la pertinence des résultats de son moteur de recherche, même en cas
d’erreur de frappe ou d’orthographe, grâce à l’analyse temps réel de son entrepôt de
données de 10 pétaoctets.
4. Réservation hôtelière en ligne
Expédia maintient en temps réel une base de données de plus de 2 milliards de prix pour
140 000 hôtels pour permettre aux internautes d’effectuer en ligne leurs réservations au
meilleur coût.
5. Web analytics
Google Analytics archive l’ensemble des données collectées par le code JavaScript placé
dans les pages surveillées dans des tables BigTable pour les restituer après traitement dans
les tableaux de bord de ses clients.
6
Deloitte, « Technology, Media and Telecommunications Predictions 2012 », janvier 2012, http://www.deloitte.com/assets/Dcom-
Canada/Local%20Assets/Documents/TMT/ca_en_tmt_Predictions2012_011712.pdf
7
Wikibon, “Big Data Market Size and Vendor Revenues”, Février 2012, http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues
4. 4 EuraTech Trends
Retrouvez-nous sur le Web! www.euratechnologies.com