SlideShare uma empresa Scribd logo
1 de 4
Baixar para ler offline
Zoom sur une plateforme
d’analytique adaptée
à l’industrie des médias
CAS
d’usage
Arkena, l’une des plus importantes sociétés européennes de
services médias, a choisi de s’appuyer sur Hortonworks Data
Platform (HDP™) pour fournir aux entreprises de l’industrie des
médias et à leurs propres clients, une plateforme d’analytique
avancée pour l’analyse des données générées par la diffusion de
contenus audio et vidéo.
Grâce à HDP, Arkena est en mesure de fournir une analyse
granulaire et en profondeur au regard de 15 métriques telles que
le volume, le nombre de sessions actives et les visiteurs uniques.
Cela peut être réparti en 15 dimensions différentes, parmi
lesquelles le pays, la ville, le user agent, le navigateur et le code
HTTP.
Zoom sur les composants de l’architecture HDP
mise en place par Arkena.
ÉTAPE
1
ÉTAPE
2
ÉTAPE
3
Plateformes
VOD
Diffuseurs de
contenus audiovisuels
Opérateurs
télécoms
VOD
CDN
ÉTAPE
4
Traitement batch (asynchrone)
Traitement
en temps réel
Hadoop Distributed
File System
ÉTAPE
5
ÉTAPE
6
ÉTAPE
7
Logs de connexion
RSYSLOG RSYSLOG RSYSLOG
RSYSLOG
Indexation
API REST API REST
UTILISATEURS
TRANSFERT DES LOGS
CLUSTER HADOOP
CLIENTS ARKENA
CLUSTER ELASTICSEARCH
CLUSTER API
ANALYSE APPROFONDIE DES DONNÉES
Le moteur de recherche est interrogeable
via une API REST
Solution de répartition de
charge de niveau 4 (TCP) et
7 (HTTP), particulièrement
adaptée aux sites web
fortement chargés qui
nécessitent de la
disponibilité
Analyse
de 15 métriques
Selon 15 dimensions
différentes
Volume
nombre de sessions actives
visiteurs uniques
Pays / ville,
user agent
navigateur
code http
…..
Le service distribué
Apache Flume a
permis d’assurer la
collecte, l’agrégation
et le déplacement
efficace de grandes
quantités de données
de streaming dans le
système de fichiers
distribués Hadoop
(HDFS)
Le défi principal était de fiabiliser
le transfert des logs en
provenance du réseau vers la
plateforme HDP.
Le défi fut relevé en utilisant le
protocole RELP avec Rsyslog
afin de garantir l’acheminement
de tous les messages.
Le module Spark Streaming a été choisi pour
sa capacité à réceptionner les flux de données
en provenance d’Apache Flume et à les traiter
au fur et à mesure de leur arrivée. L’avantage
de Spark streaming est de permettre le
traitement des données issues de nombreuses
sources – y compris les flux streaming en
provenance de Apache Kafka, Apache Flume
et Amazon Kinesis.
Le mode batch ou asynchrone permet de traiter
de grosses quantités de données et de répondre
aux besoins analytiques.
La base de données NoSQL orientée colonne
HBase permet un accès aléatoire en
écriture/lecture en temps réel à un très grand
ensemble de données.
Le stockage repose sur
une architecture
distribuée grâce à
Hadoop HDFS.
Les données sont indexées dans
un moteur de recherche clusterisé :
Elastic Search
Les calculs plus
complexes sont assurés
par le logiciel d’analyse
Hive, qui permet
d’utiliser Hadoop avec
une syntaxe proche du
SQL.
case-study-arkena-fr

Mais conteúdo relacionado

Semelhante a case-study-arkena-fr

Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
 
Solution Hitachi Content Platform
Solution Hitachi Content PlatformSolution Hitachi Content Platform
Solution Hitachi Content PlatformBertrand LE QUELLEC
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopBenoît de CHATEAUVIEUX
 
Projet-RSSxml
Projet-RSSxmlProjet-RSSxml
Projet-RSSxmlBartoli
 
Plate-forme Hitachi NAS : description et fonctionnel
Plate-forme Hitachi NAS : description et fonctionnelPlate-forme Hitachi NAS : description et fonctionnel
Plate-forme Hitachi NAS : description et fonctionnelBertrand LE QUELLEC
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big dataacogoluegnes
 
Hitachi Hyper Scale-out Platform
Hitachi Hyper Scale-out PlatformHitachi Hyper Scale-out Platform
Hitachi Hyper Scale-out PlatformBertrand LE QUELLEC
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataMicrosoft
 
D6 - Les nouveautés SPFx - Olivier Carpentier
D6 - Les nouveautés SPFx - Olivier CarpentierD6 - Les nouveautés SPFx - Olivier Carpentier
D6 - Les nouveautés SPFx - Olivier CarpentierSPS Paris
 
SPSParis - Nouveautés du SharePoint Framework #SPFx - Oct 2017
SPSParis - Nouveautés du SharePoint Framework #SPFx - Oct 2017SPSParis - Nouveautés du SharePoint Framework #SPFx - Oct 2017
SPSParis - Nouveautés du SharePoint Framework #SPFx - Oct 2017Olivier Carpentier
 
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataPetit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesSemWebPro
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackALTIC Altic
 

Semelhante a case-study-arkena-fr (20)

Hitachi Content Platform
Hitachi Content PlatformHitachi Content Platform
Hitachi Content Platform
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
Solution Hitachi Content Platform
Solution Hitachi Content PlatformSolution Hitachi Content Platform
Solution Hitachi Content Platform
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Projet-RSSxml
Projet-RSSxmlProjet-RSSxml
Projet-RSSxml
 
Plate-forme Hitachi NAS : description et fonctionnel
Plate-forme Hitachi NAS : description et fonctionnelPlate-forme Hitachi NAS : description et fonctionnel
Plate-forme Hitachi NAS : description et fonctionnel
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
Hitachi Hyper Scale-out Platform
Hitachi Hyper Scale-out PlatformHitachi Hyper Scale-out Platform
Hitachi Hyper Scale-out Platform
 
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
Hitachi Data Ingestor
Hitachi Data IngestorHitachi Data Ingestor
Hitachi Data Ingestor
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
D6 - Les nouveautés SPFx - Olivier Carpentier
D6 - Les nouveautés SPFx - Olivier CarpentierD6 - Les nouveautés SPFx - Olivier Carpentier
D6 - Les nouveautés SPFx - Olivier Carpentier
 
SPSParis - Nouveautés du SharePoint Framework #SPFx - Oct 2017
SPSParis - Nouveautés du SharePoint Framework #SPFx - Oct 2017SPSParis - Nouveautés du SharePoint Framework #SPFx - Oct 2017
SPSParis - Nouveautés du SharePoint Framework #SPFx - Oct 2017
 
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataPetit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
 
Datalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériencesDatalift, une plateforme Linked Data, Retour d'expériences
Datalift, une plateforme Linked Data, Retour d'expériences
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
Hadoop
HadoopHadoop
Hadoop
 

case-study-arkena-fr

  • 1. Zoom sur une plateforme d’analytique adaptée à l’industrie des médias CAS d’usage
  • 2. Arkena, l’une des plus importantes sociétés européennes de services médias, a choisi de s’appuyer sur Hortonworks Data Platform (HDP™) pour fournir aux entreprises de l’industrie des médias et à leurs propres clients, une plateforme d’analytique avancée pour l’analyse des données générées par la diffusion de contenus audio et vidéo. Grâce à HDP, Arkena est en mesure de fournir une analyse granulaire et en profondeur au regard de 15 métriques telles que le volume, le nombre de sessions actives et les visiteurs uniques. Cela peut être réparti en 15 dimensions différentes, parmi lesquelles le pays, la ville, le user agent, le navigateur et le code HTTP. Zoom sur les composants de l’architecture HDP mise en place par Arkena.
  • 3. ÉTAPE 1 ÉTAPE 2 ÉTAPE 3 Plateformes VOD Diffuseurs de contenus audiovisuels Opérateurs télécoms VOD CDN ÉTAPE 4 Traitement batch (asynchrone) Traitement en temps réel Hadoop Distributed File System ÉTAPE 5 ÉTAPE 6 ÉTAPE 7 Logs de connexion RSYSLOG RSYSLOG RSYSLOG RSYSLOG Indexation API REST API REST UTILISATEURS TRANSFERT DES LOGS CLUSTER HADOOP CLIENTS ARKENA CLUSTER ELASTICSEARCH CLUSTER API ANALYSE APPROFONDIE DES DONNÉES Le moteur de recherche est interrogeable via une API REST Solution de répartition de charge de niveau 4 (TCP) et 7 (HTTP), particulièrement adaptée aux sites web fortement chargés qui nécessitent de la disponibilité Analyse de 15 métriques Selon 15 dimensions différentes Volume nombre de sessions actives visiteurs uniques Pays / ville, user agent navigateur code http ….. Le service distribué Apache Flume a permis d’assurer la collecte, l’agrégation et le déplacement efficace de grandes quantités de données de streaming dans le système de fichiers distribués Hadoop (HDFS) Le défi principal était de fiabiliser le transfert des logs en provenance du réseau vers la plateforme HDP. Le défi fut relevé en utilisant le protocole RELP avec Rsyslog afin de garantir l’acheminement de tous les messages. Le module Spark Streaming a été choisi pour sa capacité à réceptionner les flux de données en provenance d’Apache Flume et à les traiter au fur et à mesure de leur arrivée. L’avantage de Spark streaming est de permettre le traitement des données issues de nombreuses sources – y compris les flux streaming en provenance de Apache Kafka, Apache Flume et Amazon Kinesis. Le mode batch ou asynchrone permet de traiter de grosses quantités de données et de répondre aux besoins analytiques. La base de données NoSQL orientée colonne HBase permet un accès aléatoire en écriture/lecture en temps réel à un très grand ensemble de données. Le stockage repose sur une architecture distribuée grâce à Hadoop HDFS. Les données sont indexées dans un moteur de recherche clusterisé : Elastic Search Les calculs plus complexes sont assurés par le logiciel d’analyse Hive, qui permet d’utiliser Hadoop avec une syntaxe proche du SQL.