Hr analytics & big data : Spark en action dans un contexte RH
1. 1
HR Analytics & Big DATA: Spark en Action dans un
contexte RH
A travers ce document, nous allons utiliser les nouveaux outils Big Data et expliquer
comment les intégrer dans une application décisionnelle accessible par les gestionnaires
RH.
L’objectif de cet article est de comprendre comment bénéficier de cette nouvelle
technologie, qui révolutionne continuellement le domaine du BI et du décisionnel.
Grace à des plateformes comme HADOOP et SPRAK, le traitement d’importants volumes
de données, de formats différents et de sources diverses, n’est plus couteux ou fastidieux
pour les organisations obligés d’analyser un flux important de données
quotidiennement afin d’obtenir des indicateurs pour le contrôle et le suivi des activités.
De plus en plus, on retrouve des sites internet, ouvrages et documents qui parlent de ce
nouveau ère du Big Data et des objets connectés ou bien Internet of Things (IoT). Il
suffit de consulter quelques articles pour comprendre rapidement comment cette
technologie a révolutionné le monde et fera autant ou plus dans le futur.
Nous n’allons pas expliquer par détails les différents aspects techniques de ces
plateformes. La documentation officielle est riche d’exemples et de tutoriels.
S’initier au BigData : D’ou Commencer ?
• Apache Software Foundation : Pour les technologies Hadoop, Spark, NoSQL DB.
• Langage de programmation : Scala et Python
Quelques ouvrages très intéressants :
• Agile Data Science, By Russel Jurney O’Reilly Media, Inc., 1005
• Mastering Apache Spark, 2015 Packt Publishing
• Spark Cookbook, 2015 Packt Publishing
• Spark for Python Developers, Packt Publishing
• Field Guide to Hadoop, by Kevin Sitto and Marshall Presser
• Practical Cassandra, by Russell Bradberry & Eric Lubow
• Practical MongoDB, by Shakuntala Gupta Edward from Apress
3. 3
10. Et Enfin la couche présentation écrite en Angular et D3. C’est la seule partie
visible aux utilisateurs (D3 est une puissante librairie pour visualisation des
données en des PieChart et histogrammes).
Cas d’utilisation : Et après ?
Dans la partie précédente, nous avons abordé rapidement les aspects techniques de
l’application avant de mettre le tout en action. Pour expérimenter Spark dans un cas
proche du réel, j’ai essayé de construire un modèle de données d’un SIRH.
Une table contenant les employés (500 lignes environ), avec leurs matricules,
affectations, date d’entrée et date de sortie, âge, sexe, nom et prénom etc.
Deux autres tables pour le module formation. On y retrouve les stages, les sessions, les
dates, les couts engagés et réels ainsi que le nombre d’heures par session et les
participants.
Les données de ventes réalisées sont stockées dans un fichier csv sur HDFS.
Voici le problème :
« Les couts de formation ne cessent pas d’augmenter. Le budget alloué ne
permet plus un tel dépassement, il faut supprimer certaines formations pour
s’aligner avec le budget.
Les responsables du pole formation confirment que les stages proposés sont
obligatoires pour développer continuellement les compétences des employés qui
sont en majorité des agents de vente, activité principale de l’entreprise.
Supprimer une formation peut impacter directement le chiffre d’affaire !
Il faut analyser du près les données de formation sur les deux dernières années
et les transposer avec les chiffres des ventes réalisés pour comprendre le rapport
directe entre les deux activités et s’assurer de ne pas prendre une décision qui
aura des conséquences désastreuses »
Extraire, transformer, nettoyer et présenter les données :
Comment faire ?
Je vais passer directement à la partie présentation des données. L’extraction et la
transformation des données sont écrites en Scala à l’aide des API Spark.
Spark offre de nombreuses fonctions d’extraction, de jointure, de chargement et
d’agrégation avec un temps de traitement record (0,21ms pour charger la table de 500
lignes et faire des opérations de jointure et transformation).
6. 6
3. Les couts annuels de formation par stage et par session, 2015 :
ð Pour l’année 2015, les deux stages TECHVENT et NOUTECH ont les couts les plus
élevés. Les stages COMUNIC, ANGLAIS ET WBMARKT ont des couts moins
importants.
En visualisant les données des formations, nous avons une idée sur la liste des stages qui
coutent plus à l’organisation chaque année. Maintenant il faut décider comment réduire
le cout de formation. Faut-il supprimer les stages couteux ou bien il faut analyser encore
avant de décider ?
Les responsables formation confirment que ces deux stages, bien que couteux, ont aidé à
améliorer les niveaux de vente des commerciaux, ce qui a généré des bénéfices dans
l’activité principale de l’entreprise. Maintenant, il faut se pencher sur les données de
vente, et analyser le chiffre d’affaire annuel et par plateforme.
8. 8
ð Les ventes ont augmenté considérablement en mois de 03, 05 et 09 en 2015 et en
mois de 05, 06 et 11 de l’année 2014.
6. Les stages et sessions par mois, 2015:
ð Nous constatons qu’en date du 02/03/2015, 10/05/205 et 09/09/2015 les
sessions 00003.TECHVENT, 00002.NOUTECH et 00003.NOUTECH ont été suivis
par les vendeurs. En croisant ces données avec la dernière analyse des chiffres
de la vente en 2015, nous pouvons déduire que la formation a aidé les agents à
développer les chiffres d’affaires.
7. Les stages et sessions par mois, 2014:
Le rapport suivant montre que en date du 20/05/2014, 20/06/2014 et /01/12/2014
les employés ont suivis les sessions, 00001.TECHVENT, 00001.NOUTECH et
00002.TECHVENT.
En rapprochant les dates avec les chiffres réalisés en 2014 nous confirmons que les
stages suivis ont bien contribué au développement des ventes d’une manière
significative.
11. 11
et,
ð Les ventes ont bien augmenté d’une façon importante après le mois 05/2015
pour la plateforme « PLATF3 ». Ceci est expliqué par le fait que les agents de
cette plateforme ont participé en masse à la session 00002.NOUTECH.
ð les ventes sont repartis en hausse après le mois 09/2015 après une légère baisse.
Les agents de la plateforme « PLATF4 » ont participé en majorité à la session
00003.NOUTECH. Nous remarquons aussi que l’activité s’est améliorée à partir
du mois 03/2015, suite à la session 00003.TECHVENT.
Voici la solution :
« L’équipe a analysé les chiffres pour les autres sessions par plateforme et les
données de ventes. La décision est plus claire grâce à l’analyse profonde des
données RH et ventes. Garder les deux formations bien qu’elles sont couteuses et
supprimer des formations comme E-COMM et WBMARKT qui n’ont pas aidé les
agents à améliorer l’activité. »