SlideShare uma empresa Scribd logo
1 de 12
Baixar para ler offline
1	
HR		Analytics	&	Big	DATA:	Spark	en	Action	dans	un	
contexte	RH	
	
	
A	travers	ce	document,		nous	allons	utiliser	les	nouveaux	outils	Big	Data	et	expliquer	
comment	les	intégrer	dans	une	application	décisionnelle	accessible	par	les	gestionnaires	
RH.	
L’objectif	 de	 cet	 article	 est	 de	 comprendre	 comment	 bénéficier	 de	 cette	 nouvelle	
technologie,	qui	révolutionne	continuellement	le	domaine	du	BI	et	du	décisionnel.	
	
Grace	à	des	plateformes	comme	HADOOP	et	SPRAK,	le	traitement	d’importants	volumes	
de	données,	de	formats	différents	et	de	sources	diverses,	n’est	plus	couteux	ou	fastidieux	
pour	 les	 organisations	 obligés	 d’analyser	 un	 flux	 important	 de	 données	
quotidiennement	afin	d’obtenir	des	indicateurs	pour	le	contrôle	et	le	suivi	des	activités.	
	
De	plus	en	plus,	on	retrouve	des	sites	internet,	ouvrages	et	documents	qui	parlent	de	ce	
nouveau	ère	du	Big	Data	et	des	objets	connectés		ou	bien	Internet	of	Things	(IoT).		Il	
suffit	 de	 consulter	 quelques	 articles	 pour	 comprendre	 rapidement	 comment	 cette	
technologie	a	révolutionné	le	monde	et	fera	autant	ou	plus	dans	le	futur.	
	
Nous	 n’allons	 pas	 expliquer	 par	 détails	 les	 différents	 aspects	 techniques	 de	 ces	
plateformes.	La	documentation	officielle	est	riche	d’exemples	et		de	tutoriels.	
	
	
S’initier	au	BigData	:	D’ou	Commencer	?	
	
• Apache	Software	Foundation	:	Pour	les	technologies	Hadoop,	Spark,	NoSQL	DB.	
• Langage	de	programmation	:	Scala	et	Python		
	
Quelques	ouvrages	très	intéressants	:		
	
• Agile	Data	Science,	By	Russel	Jurney		O’Reilly	Media,	Inc.,	1005	
• Mastering	Apache	Spark,	2015	Packt	Publishing	
• Spark	Cookbook,	2015	Packt	Publishing		
• Spark	for	Python	Developers,	Packt	Publishing	
• Field	Guide	to	Hadoop,	by		Kevin	Sitto	and	Marshall	Presser	
• Practical	Cassandra,	by	Russell Bradberry & Eric Lubow	
• Practical	MongoDB,	by	Shakuntala	Gupta	Edward	from	Apress
2	
Architecture	de	l’application	:	Comment	planifier	?	
	
Le	schéma	suivant	décrit	l’architecture	choisie	pour	notre	application	:	
	
	
	
	
1. Spark	Driver		(Verion	1.6.0)	sur	Machine	Mac	8G	RAM.	
2. Cluster	:	Nœuds	de	3	VM	sur	Debian.		J’ai	utilisé	vagrant	pour	la	virtualisation	et	
le	contrôle	des	machines	virtuelles.	
3. Un	master	de	2G	RAM	et	deux	machines	Workers	ou	Salves,	de	1G	RAM	chacune.	
4. Hadoop	2.7.0	sur	la	machine	master	pour	stocker	les	fichiers	de	données	(csv,	
text,	JSON)	.		
5. Une	Base	de	données	relationnelle	sur	le	master	(Postgresql	9.1)	pour	la	base	de	
données	du	SIRH.	
6. Une	 Base	 de	 données	 NoSQL	 	 (MongoDB)	 pour	 le	 chargement	 des	 données	 en	
format	JSON	ou	BSON		après	l’extraction	et	le	chargement.	
7. Une	 application	 Web	 pour	 la	 visualisation	 des	 graphiques	 et	 des	 rapports	 des	
données	en	temps	réel	ou	en	batch.	
8. Un	Restful	API	en	NodeJS	pour	connecter	la	base	Mongo	et	le	serveur	Web	(il	est	
possible	de	développer	en	Python).	L’Api	peut	interroger	Spark	en	temps	réel	à	
l’aide	d’une	interface	Thrift.	
9. Le	serveur	Web	en	NodeJS	pour	peupler	les	vues	et	contrôler	les	demandes	du	
navigateur.
3	
10. Et	 Enfin	 la	 couche	 présentation	 	 écrite	 en	 Angular	 et	 D3.	 C’est	 la	 seule	 partie		
visible	 aux	 utilisateurs	 (D3	 est	 une	 puissante	 librairie	 pour	 visualisation	 des	
données	en	des	PieChart	et	histogrammes).	
	
	
	
Cas	d’utilisation	:	Et	après	?	
	
Dans	 la	 partie	 précédente,	 nous	 avons	 abordé	 rapidement	 les	 aspects	 techniques	 de	
l’application	avant	de	mettre	le	tout	en	action.		Pour	expérimenter	Spark	dans	un	cas	
proche	du	réel,	j’ai	essayé	de	construire	un	modèle	de	données		d’un	SIRH.	
	
Une	 table	 contenant	 les	 employés	 (500	 lignes	 environ),	 avec	 leurs	 matricules,	
affectations,	date	d’entrée	et	date	de	sortie,	âge,	sexe,	nom	et	prénom	etc.	
	
Deux	autres	tables	pour	le	module	formation.	On	y	retrouve	les	stages,	les	sessions,	les	
dates,	 les	 couts	 engagés	 et	 réels	 ainsi	 que	 le	 nombre	 d’heures	 par	 session	 et	 les	
participants.	
	
Les	données	de	ventes	réalisées	sont	stockées	dans	un	fichier	csv	sur	HDFS.	
	
Voici	le	problème	:	
	
«	Les couts de formation ne cessent pas d’augmenter. Le budget alloué ne
permet plus un tel dépassement, il faut supprimer certaines formations pour
s’aligner avec le budget.
Les responsables du pole formation confirment que les stages proposés sont
obligatoires pour développer continuellement les compétences des employés qui
sont en majorité des agents de vente, activité principale de l’entreprise.
Supprimer une formation peut impacter directement le chiffre d’affaire !
Il faut analyser du près les données de formation sur les deux dernières années
et les transposer avec les chiffres des ventes réalisés pour comprendre le rapport
directe entre les deux activités et s’assurer de ne pas prendre une décision qui
aura des conséquences désastreuses »
	
	
Extraire,	transformer,	nettoyer	et	présenter	les	données	:	
Comment	faire	?		
	
Je	 vais	 passer	 directement	 à	 la	 partie	 présentation	 des	 données.	 L’extraction	 et	 la	
transformation	des	données		sont		écrites	en	Scala	à	l’aide	des	API	Spark.		
Spark	 offre	 de	 nombreuses	 fonctions	 d’extraction,	 de	 jointure,	 de	 chargement	 et	
d’agrégation	avec	un	temps	de	traitement	record	(0,21ms	pour	charger	la	table	de	500	
lignes	et	faire	des	opérations		de	jointure	et	transformation).
4	
A	savoir	:	Hadoop	et	son	MapReduce	librairie	sont	très	rapides,	actuellement	en	production	
chez	les	grandes	organisations.	Spark	est	100x	plus	rapide	que	Hadoop.	
	
	
	
Il	est	possible	de	visualiser	les	données	à	l’aide	d’un	navigateur	sur	des	tablettes	ou	des	
smartphones.	Les	templates	web	supportent	les	différents	formats.		
	
	
Chiffres	et	graphiques	:	ça	donne	quoi	?		
	
Je	 vais	 utiliser	 Zeppelin	 Apache	 pour	 la	 visualisation	 des	 données	 et	 remplacer	
l’application	Web	qui	est	en	cours	d’expérimentation.	
	
1. Les	couts	annuels	de	formation	par	stage,	2014	:
5	
2. Les	couts	annuels	de	formation	par	stage	et	par	session,		2014	:	
	
	
	
	
		
	
	
ð On	peut	constater	que	les	couts	des	stages	NOUTECH	et	TECHVENT	sont	les	plus	
élevés	 pendant	 l’année	 2014.	 Les	 Stages	 E-COMM	 et	 COMUNIC	 viennent	 juste	
derrière.	
	
Logiquement	il	faut	réduire	le	nombre	de	sessions	des	deux	premiers	stages	ou	bien	
supprimer	 un.	 Il	 faut	 qu’on	 	 vérifie	 pour	 l	‘année	 2015,	 si	 nous	 avons	 les	 mêmes	
indicateurs.
6	
	
3. Les	couts	annuels	de	formation	par	stage	et	par	session,		2015	:	
	
	
	
	
		
	
ð Pour	l’année	2015,	les	deux	stages	TECHVENT	et	NOUTECH	ont	les	couts	les	plus	
élevés.	 Les	 stages	 COMUNIC,	 ANGLAIS	 ET	 WBMARKT	 	 ont	 des	 couts	 moins	
importants.	
	
En	visualisant	les	données	des	formations,	nous	avons	une	idée	sur	la	liste	des	stages	qui	
coutent	plus	à	l’organisation	chaque	année.	Maintenant	il	faut	décider	comment	réduire	
le	cout	de	formation.	Faut-il	supprimer	les	stages	couteux		ou	bien	il	faut	analyser	encore	
avant	de	décider	?	
	
Les	responsables	formation	confirment	que	ces	deux	stages,	bien	que	couteux,	ont	aidé	à	
améliorer	 les	 niveaux	 de	 vente	 des	 commerciaux,	 ce	 qui	 a	 généré	 des	 bénéfices	 dans	
l’activité	principale	de	l’entreprise.		Maintenant,	il	faut		se	pencher	sur	les	données	de	
vente,	et	analyser	le	chiffre	d’affaire	annuel	et	par	plateforme.
7	
4. Le	développement	de	CA	par	mois,		2014	:	
	
	
	
	
5. Le	développement	de	CA	par	mois,		2015	:
8	
ð Les	ventes	ont	augmenté	considérablement	en	mois	de	03,	05	et	09	en	2015	et	en	
mois	de	05,	06	et		11	de	l’année	2014.	
	
6. Les	stages	et	sessions	par	mois,		2015:	
	
	
	
	
ð Nous	 constatons	 qu’en	 date	 du	 02/03/2015,	 10/05/205	 	 et	 09/09/2015	 les	
sessions	00003.TECHVENT,	00002.NOUTECH	et	00003.NOUTECH	ont	été	suivis	
par	les	vendeurs.	En	croisant	ces	données	avec	la	dernière	analyse		des	chiffres	
de	la	vente	en	2015,		nous	pouvons	déduire	que	la	formation	a	aidé	les	agents	à	
développer	les	chiffres	d’affaires.	
	
	
7. Les	stages	et	sessions	par	mois,		2014:	
	
Le	rapport	suivant	montre	que		en	date	du	20/05/2014,	20/06/2014	et	/01/12/2014	
les	 employés	 ont	 suivis	 les	 sessions,	 00001.TECHVENT,	 00001.NOUTECH	 et	
00002.TECHVENT.	
	
En	 rapprochant	 les	 dates	 avec	 les	 chiffres	 réalisés	 en	 2014	 nous	 confirmons	 que	 les	
stages	 suivis	 ont	 bien	 contribué	 au	 développement	 des	 ventes	 d’une	 manière	
significative.
9	
	
	
	
	
8. Analyser	le	chiffre	d’affaire	par	plateforme	:	
	
Les	 deux	 sessions,	 00002.NOUTECH	 et	 00003.NOUTECH	 ont	 été	 réalisées	 en	 date	 du	
10/05/205		et	09/09/2015.	Quels	sont	les	participants	à	ces	sessions	par	plateforme	?
10	
	
	
	
ð Dans	la	session		00002.NOUTECH,	la	majorité	des	participants	appartiennent	à	la	
plateforme	«	PLATF3	»	
ð =>	Dans	la	session		00003.NOUTECH,	la	majorité	des	participants	appartiennent	à	
la	plateforme	«	PLATF4	»	
	
Vérifions	les	ventes	pour	ces	deux	plateformes	:
11	
et,	
	
	
	
	
ð Les	 ventes	 ont	 bien	 augmenté	 d’une	 façon	 importante	 après	 le	 mois	 05/2015	
pour	 la	 plateforme	 «	PLATF3	».	 	 Ceci	 est	 expliqué	 par	 le	 fait	 que	 les	 agents	 de	
cette	plateforme	ont	participé	en	masse	à	la	session	00002.NOUTECH.	
ð les	ventes	sont	repartis	en	hausse	après	le	mois	09/2015	après	une	légère	baisse.	
Les	 agents	 de	 la	 plateforme	 «	PLATF4	»	 ont	 participé	 en	 majorité	 à	 la	 session	
00003.NOUTECH.	Nous	remarquons	aussi	que	l’activité	s’est	améliorée	à	partir	
du	mois	03/2015,		suite	à	la	session	00003.TECHVENT.	
	
	
Voici	la	solution	:	
	
« L’équipe a analysé les chiffres pour les autres sessions par plateforme et les
données de ventes. La décision est plus claire grâce à l’analyse profonde des
données RH et ventes. Garder les deux formations bien qu’elles sont couteuses et
supprimer des formations comme E-COMM et WBMARKT qui n’ont pas aidé les
agents à améliorer l’activité. »
12	
	
Conclusion		
	
	Grace	à	la	puissante	bibliothèque	qu’offre	Spark,	l’analyse	des	données	de	différentes	
sources	et	formats,	est	plus	rapide	et	intéressante	qu’auparavant.	
Il	 est	 toujours	 possible	 d’effectuer	 des	 opérations	 analytiques	 sur	 les	 données	 des	
ressources	humaines,	le	capital	le	plus	important	dans	chaque	organisation.	
Spark	et	les	technologies	connexes,	offrent	d’autres	outils	de	classification,	de	régression	
et	d’analyse	en	masse	pour	l’aide	à	la	décision.	
	
Dans	des	futurs	documents,	j’essayerai	d’explorer	d’autres	aspects	du	BigData		à	travers	
des	cas	d’utilisions	réels.	
	
	
	
Page 12 sur 12

Mais conteúdo relacionado

Semelhante a Hr analytics & big data : Spark en action dans un contexte RH

[Smile] atelier spark - salon big data 13032018
[Smile]   atelier spark - salon big data 13032018[Smile]   atelier spark - salon big data 13032018
[Smile] atelier spark - salon big data 13032018Smile I.T is open
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Jean-Michel Franco
 
Fiche Produit Verteego Data Suite, mars 2017
Fiche Produit Verteego Data Suite, mars 2017Fiche Produit Verteego Data Suite, mars 2017
Fiche Produit Verteego Data Suite, mars 2017Jeremy Fain
 
DATA SCIENTIST - VENEZ NOUS REJOINDRE & PROPOSER VOS IDEES !
DATA SCIENTIST - VENEZ NOUS REJOINDRE & PROPOSER VOS IDEES !DATA SCIENTIST - VENEZ NOUS REJOINDRE & PROPOSER VOS IDEES !
DATA SCIENTIST - VENEZ NOUS REJOINDRE & PROPOSER VOS IDEES !Sebastien Rolando
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Jean-Michel Franco
 
Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.OW2
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesConverteo
 
Spark Summit Europe Wrap Up and TASM State of the Community
Spark Summit Europe Wrap Up and TASM State of the CommunitySpark Summit Europe Wrap Up and TASM State of the Community
Spark Summit Europe Wrap Up and TASM State of the CommunityJean-Georges Perrin
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEMicropole Group
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...Micropole Group
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTechnologies
 

Semelhante a Hr analytics & big data : Spark en action dans un contexte RH (20)

[Smile] atelier spark - salon big data 13032018
[Smile]   atelier spark - salon big data 13032018[Smile]   atelier spark - salon big data 13032018
[Smile] atelier spark - salon big data 13032018
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
 
Fiche Produit Verteego Data Suite, mars 2017
Fiche Produit Verteego Data Suite, mars 2017Fiche Produit Verteego Data Suite, mars 2017
Fiche Produit Verteego Data Suite, mars 2017
 
DATA SCIENTIST - VENEZ NOUS REJOINDRE & PROPOSER VOS IDEES !
DATA SCIENTIST - VENEZ NOUS REJOINDRE & PROPOSER VOS IDEES !DATA SCIENTIST - VENEZ NOUS REJOINDRE & PROPOSER VOS IDEES !
DATA SCIENTIST - VENEZ NOUS REJOINDRE & PROPOSER VOS IDEES !
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
 
Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.Manage Traceability with Apache Atlas flexible metadata repository.
Manage Traceability with Apache Atlas flexible metadata repository.
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
Spark Summit Europe Wrap Up and TASM State of the Community
Spark Summit Europe Wrap Up and TASM State of the CommunitySpark Summit Europe Wrap Up and TASM State of the Community
Spark Summit Europe Wrap Up and TASM State of the Community
 
Big data
Big dataBig data
Big data
 
Hadoop et le big data
Hadoop et le big dataHadoop et le big data
Hadoop et le big data
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLE
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017 Azure Data Factory-Rebuild 2017
Azure Data Factory-Rebuild 2017
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big Data
 

Hr analytics & big data : Spark en action dans un contexte RH