1. Zoom sur une plateforme
d’analytique adaptée
à l’industrie des médias
CAS
d’usage
2. Arkena, l’une des plus importantes sociétés européennes de
services médias, a choisi de s’appuyer sur Hortonworks Data
Platform (HDP™) pour fournir aux entreprises de l’industrie des
médias et à leurs propres clients, une plateforme d’analytique
avancée pour l’analyse des données générées par la diffusion de
contenus audio et vidéo.
Grâce à HDP, Arkena est en mesure de fournir une analyse
granulaire et en profondeur au regard de 15 métriques telles que
le volume, le nombre de sessions actives et les visiteurs uniques.
Cela peut être réparti en 15 dimensions différentes, parmi
lesquelles le pays, la ville, le user agent, le navigateur et le code
HTTP.
Zoom sur les composants de l’architecture HDP
mise en place par Arkena.
3. ÉTAPE
1
ÉTAPE
2
ÉTAPE
3
Plateformes
VOD
Diffuseurs de
contenus audiovisuels
Opérateurs
télécoms
VOD
CDN
ÉTAPE
4
Traitement batch (asynchrone)
Traitement
en temps réel
Hadoop Distributed
File System
ÉTAPE
5
ÉTAPE
6
ÉTAPE
7
Logs de connexion
RSYSLOG RSYSLOG RSYSLOG
RSYSLOG
Indexation
API REST API REST
UTILISATEURS
TRANSFERT DES LOGS
CLUSTER HADOOP
CLIENTS ARKENA
CLUSTER ELASTICSEARCH
CLUSTER API
ANALYSE APPROFONDIE DES DONNÉES
Le moteur de recherche est interrogeable
via une API REST
Solution de répartition de
charge de niveau 4 (TCP) et
7 (HTTP), particulièrement
adaptée aux sites web
fortement chargés qui
nécessitent de la
disponibilité
Analyse
de 15 métriques
Selon 15 dimensions
différentes
Volume
nombre de sessions actives
visiteurs uniques
Pays / ville,
user agent
navigateur
code http
…..
Le service distribué
Apache Flume a
permis d’assurer la
collecte, l’agrégation
et le déplacement
efficace de grandes
quantités de données
de streaming dans le
système de fichiers
distribués Hadoop
(HDFS)
Le défi principal était de fiabiliser
le transfert des logs en
provenance du réseau vers la
plateforme HDP.
Le défi fut relevé en utilisant le
protocole RELP avec Rsyslog
afin de garantir l’acheminement
de tous les messages.
Le module Spark Streaming a été choisi pour
sa capacité à réceptionner les flux de données
en provenance d’Apache Flume et à les traiter
au fur et à mesure de leur arrivée. L’avantage
de Spark streaming est de permettre le
traitement des données issues de nombreuses
sources – y compris les flux streaming en
provenance de Apache Kafka, Apache Flume
et Amazon Kinesis.
Le mode batch ou asynchrone permet de traiter
de grosses quantités de données et de répondre
aux besoins analytiques.
La base de données NoSQL orientée colonne
HBase permet un accès aléatoire en
écriture/lecture en temps réel à un très grand
ensemble de données.
Le stockage repose sur
une architecture
distribuée grâce à
Hadoop HDFS.
Les données sont indexées dans
un moteur de recherche clusterisé :
Elastic Search
Les calculs plus
complexes sont assurés
par le logiciel d’analyse
Hive, qui permet
d’utiliser Hadoop avec
une syntaxe proche du
SQL.