Hr analytics & big data : Spark en action dans un contexte RH

1
HR Analytics & Big DATA: Spark en Action dans un
contexte RH

A travers ce document, nous allons utiliser les nouveaux outils Big Data et expliquer
comment les intégrer dans une application décisionnelle accessible par les gestionnaires
RH.
L’objectif de cet article est de comprendre comment bénéficier de cette nouvelle
technologie, qui révolutionne continuellement le domaine du BI et du décisionnel.

Grace à des plateformes comme HADOOP et SPRAK, le traitement d’importants volumes
de données, de formats différents et de sources diverses, n’est plus couteux ou fastidieux
pour les organisations obligés d’analyser un flux important de données
quotidiennement afin d’obtenir des indicateurs pour le contrôle et le suivi des activités.

De plus en plus, on retrouve des sites internet, ouvrages et documents qui parlent de ce
nouveau ère du Big Data et des objets connectés ou bien Internet of Things (IoT). Il
suffit de consulter quelques articles pour comprendre rapidement comment cette
technologie a révolutionné le monde et fera autant ou plus dans le futur.

Nous n’allons pas expliquer par détails les différents aspects techniques de ces
plateformes. La documentation officielle est riche d’exemples et de tutoriels.

S’initier au BigData : D’ou Commencer ?

• Apache Software Foundation : Pour les technologies Hadoop, Spark, NoSQL DB.
• Langage de programmation : Scala et Python

Quelques ouvrages très intéressants :

• Agile Data Science, By Russel Jurney O’Reilly Media, Inc., 1005
• Mastering Apache Spark, 2015 Packt Publishing
• Spark Cookbook, 2015 Packt Publishing
• Spark for Python Developers, Packt Publishing
• Field Guide to Hadoop, by Kevin Sitto and Marshall Presser
• Practical Cassandra, by Russell Bradberry & Eric Lubow
• Practical MongoDB, by Shakuntala Gupta Edward from Apress

2
Architecture de l’application : Comment planifier ?

Le schéma suivant décrit l’architecture choisie pour notre application :

1. Spark Driver (Verion 1.6.0) sur Machine Mac 8G RAM.
2. Cluster : Nœuds de 3 VM sur Debian. J’ai utilisé vagrant pour la virtualisation et
le contrôle des machines virtuelles.
3. Un master de 2G RAM et deux machines Workers ou Salves, de 1G RAM chacune.
4. Hadoop 2.7.0 sur la machine master pour stocker les fichiers de données (csv,
text, JSON) .
5. Une Base de données relationnelle sur le master (Postgresql 9.1) pour la base de
données du SIRH.
6. Une Base de données NoSQL (MongoDB) pour le chargement des données en
format JSON ou BSON après l’extraction et le chargement.
7. Une application Web pour la visualisation des graphiques et des rapports des
données en temps réel ou en batch.
8. Un Restful API en NodeJS pour connecter la base Mongo et le serveur Web (il est
possible de développer en Python). L’Api peut interroger Spark en temps réel à
l’aide d’une interface Thrift.
9. Le serveur Web en NodeJS pour peupler les vues et contrôler les demandes du
navigateur.

3
10. Et Enfin la couche présentation écrite en Angular et D3. C’est la seule partie
visible aux utilisateurs (D3 est une puissante librairie pour visualisation des
données en des PieChart et histogrammes).

Cas d’utilisation : Et après ?

Dans la partie précédente, nous avons abordé rapidement les aspects techniques de
l’application avant de mettre le tout en action. Pour expérimenter Spark dans un cas
proche du réel, j’ai essayé de construire un modèle de données d’un SIRH.

Une table contenant les employés (500 lignes environ), avec leurs matricules,
affectations, date d’entrée et date de sortie, âge, sexe, nom et prénom etc.

Deux autres tables pour le module formation. On y retrouve les stages, les sessions, les
dates, les couts engagés et réels ainsi que le nombre d’heures par session et les
participants.

Les données de ventes réalisées sont stockées dans un fichier csv sur HDFS.

Voici le problème :

« Les couts de formation ne cessent pas d’augmenter. Le budget alloué ne
permet plus un tel dépassement, il faut supprimer certaines formations pour
s’aligner avec le budget.
Les responsables du pole formation confirment que les stages proposés sont
obligatoires pour développer continuellement les compétences des employés qui
sont en majorité des agents de vente, activité principale de l’entreprise.
Supprimer une formation peut impacter directement le chiffre d’affaire !
Il faut analyser du près les données de formation sur les deux dernières années
et les transposer avec les chiffres des ventes réalisés pour comprendre le rapport
directe entre les deux activités et s’assurer de ne pas prendre une décision qui
aura des conséquences désastreuses »

Extraire, transformer, nettoyer et présenter les données :
Comment faire ?

Je vais passer directement à la partie présentation des données. L’extraction et la
transformation des données sont écrites en Scala à l’aide des API Spark.
Spark offre de nombreuses fonctions d’extraction, de jointure, de chargement et
d’agrégation avec un temps de traitement record (0,21ms pour charger la table de 500
lignes et faire des opérations de jointure et transformation).

4
A savoir : Hadoop et son MapReduce librairie sont très rapides, actuellement en production
chez les grandes organisations. Spark est 100x plus rapide que Hadoop.

Il est possible de visualiser les données à l’aide d’un navigateur sur des tablettes ou des
smartphones. Les templates web supportent les différents formats.

Chiffres et graphiques : ça donne quoi ?

Je vais utiliser Zeppelin Apache pour la visualisation des données et remplacer
l’application Web qui est en cours d’expérimentation.

1. Les couts annuels de formation par stage, 2014 :

5
2. Les couts annuels de formation par stage et par session, 2014 :

ð On peut constater que les couts des stages NOUTECH et TECHVENT sont les plus
élevés pendant l’année 2014. Les Stages E-COMM et COMUNIC viennent juste
derrière.

Logiquement il faut réduire le nombre de sessions des deux premiers stages ou bien
supprimer un. Il faut qu’on vérifie pour l ‘année 2015, si nous avons les mêmes
indicateurs.

6

3. Les couts annuels de formation par stage et par session, 2015 :

ð Pour l’année 2015, les deux stages TECHVENT et NOUTECH ont les couts les plus
élevés. Les stages COMUNIC, ANGLAIS ET WBMARKT ont des couts moins
importants.

En visualisant les données des formations, nous avons une idée sur la liste des stages qui
coutent plus à l’organisation chaque année. Maintenant il faut décider comment réduire
le cout de formation. Faut-il supprimer les stages couteux ou bien il faut analyser encore
avant de décider ?

Les responsables formation confirment que ces deux stages, bien que couteux, ont aidé à
améliorer les niveaux de vente des commerciaux, ce qui a généré des bénéfices dans
l’activité principale de l’entreprise. Maintenant, il faut se pencher sur les données de
vente, et analyser le chiffre d’affaire annuel et par plateforme.

7
4. Le développement de CA par mois, 2014 :

5. Le développement de CA par mois, 2015 :

8
ð Les ventes ont augmenté considérablement en mois de 03, 05 et 09 en 2015 et en
mois de 05, 06 et 11 de l’année 2014.

6. Les stages et sessions par mois, 2015:

ð Nous constatons qu’en date du 02/03/2015, 10/05/205 et 09/09/2015 les
sessions 00003.TECHVENT, 00002.NOUTECH et 00003.NOUTECH ont été suivis
par les vendeurs. En croisant ces données avec la dernière analyse des chiffres
de la vente en 2015, nous pouvons déduire que la formation a aidé les agents à
développer les chiffres d’affaires.

7. Les stages et sessions par mois, 2014:

Le rapport suivant montre que en date du 20/05/2014, 20/06/2014 et /01/12/2014
les employés ont suivis les sessions, 00001.TECHVENT, 00001.NOUTECH et
00002.TECHVENT.

En rapprochant les dates avec les chiffres réalisés en 2014 nous confirmons que les
stages suivis ont bien contribué au développement des ventes d’une manière
significative.

9

8. Analyser le chiffre d’affaire par plateforme :

Les deux sessions, 00002.NOUTECH et 00003.NOUTECH ont été réalisées en date du
10/05/205 et 09/09/2015. Quels sont les participants à ces sessions par plateforme ?

10

ð Dans la session 00002.NOUTECH, la majorité des participants appartiennent à la
plateforme « PLATF3 »
ð => Dans la session 00003.NOUTECH, la majorité des participants appartiennent à
la plateforme « PLATF4 »

Vérifions les ventes pour ces deux plateformes :

11
et,

ð Les ventes ont bien augmenté d’une façon importante après le mois 05/2015
pour la plateforme « PLATF3 ». Ceci est expliqué par le fait que les agents de
cette plateforme ont participé en masse à la session 00002.NOUTECH.
ð les ventes sont repartis en hausse après le mois 09/2015 après une légère baisse.
Les agents de la plateforme « PLATF4 » ont participé en majorité à la session
00003.NOUTECH. Nous remarquons aussi que l’activité s’est améliorée à partir
du mois 03/2015, suite à la session 00003.TECHVENT.

Voici la solution :

« L’équipe a analysé les chiffres pour les autres sessions par plateforme et les
données de ventes. La décision est plus claire grâce à l’analyse profonde des
données RH et ventes. Garder les deux formations bien qu’elles sont couteuses et
supprimer des formations comme E-COMM et WBMARKT qui n’ont pas aidé les
agents à améliorer l’activité. »

12

Conclusion

Grace à la puissante bibliothèque qu’offre Spark, l’analyse des données de différentes
sources et formats, est plus rapide et intéressante qu’auparavant.
Il est toujours possible d’effectuer des opérations analytiques sur les données des
ressources humaines, le capital le plus important dans chaque organisation.
Spark et les technologies connexes, offrent d’autres outils de classification, de régression
et d’analyse en masse pour l’aide à la décision.

Dans des futurs documents, j’essayerai d’explorer d’autres aspects du BigData à travers
des cas d’utilisions réels.

Page 12 sur 12

Hr analytics & big data : Spark en action dans un contexte RH

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Hr analytics & big data : Spark en action dans un contexte RH

Semelhante a Hr analytics & big data : Spark en action dans un contexte RH (20)

Hr analytics & big data : Spark en action dans un contexte RH