Este documento descreve um estudo que utiliza aprendizagem automática (machine learning) para prever a taxa de abandono de clientes em ginásios usando dados existentes sobre os clientes. O modelo desenvolvido teve uma precisão de cerca de 83% na previsão de se um cliente iria ou não abandonar o ginásio. Os resultados sugerem que a análise de dados pode ajudar os gestores a identificar clientes em risco de abandono e melhorar a retenção.
Business Process Management in Sports Organizations: A case study in the Euro...
Previsão de abandono de clientes em ginásio com ML
1. Abordagem para
a previsão de
abandono num
ginásio
XVIII Congresso de Gestão de
Desporto
Pedro Sobreiro e Abel Santos
ESDRM-IPSantarém
Imagem obtida em: http://1079mixfm.s3.amazonaws.com/wp-
content/uploads/2014/10/fotolia_43767087_subscription_monthly_l.j
pg
2. Tópicos
• Objetivo do estudo
• Enquadramento
• Metodologia
• Resultados e discussão
• Exemplo
• Conclusões
3. Objetivo
do estudo
Prever o abandono
através da utilização dos
dados existentes dos
clientes
Imagem obtida em:
https://www.forbes.com/sites/bernardmarr/2016/10/10/5-amazing-
things-big-data-helps-us-to-predict-now-plus-whats-on-the-
horizon/#6642349d412e
4. Enquadramento
• A rendibilidade é um pressuposto fundamental
para a sustentabilidade das organizações
desportivas;
• A retenção é fundamental para o sucesso de um
negócio (Hurley, 2004) e a sua rendibilidade
(Ferrand, Robison, & Valette-Florence, 2010);
• A retenção é um problema com que se deparam os
ginásios (Bodet, 2012), onde apenas 50% dos
clientes se mantêm após o primeiro ano (Emeterio,
Iglesias-Soler, Gallardo, Rodriguez-Cañamero, &
García-Unanue, 2016; MacIntosh & Law, 2015)
Hurley, T. (2004). Managing Customer Retention in the Health and Fitness Industry: A Case of Neglect. Irish Marketing Review, 17(1/2), 23–29.
Ferrand, A., Robinson, L., & Valette-Florence, P. (2010). The intention-to-repurchase paradox: a case of the health and fitness industry. Journal of Sport
Management, 24(1), 83–105.
Bodet, G. (2012). Loyalty in Sport Participation Services: An Examination of the Mediating Role of Psychological Commitment. Journal of Sport Management, 26(1),
30–42.
Emeterio, I. C. S., Iglesias-Soler, E., Gallardo, L., Rodriguez-Cañamero, S., & García-Unanue, J. (2016). A prediction model of retention in a Spanish fitness centre.
Managing Sport and Leisure, 21(5), 300–318. doi:10.1080/23750472.2016.1274675
5. Enquadramento
• Os métodos tradicionais de avaliação da retenção
baseiam-se na análise de informação obtida em
questionários;
• A avaliação da retenção pode ser realizada através
de uma aproximação analítica, de acordo com
dados obtidos em bases de dados de organizações
(Delen, 2010);
• O Machine Learning (ML) pode suportar o
desenvolvimento de estratégias de retenção
recorrendo aos dados existentes (Verbeke,
Martens, Mues, & Baesens, 2011)
Delen, D. (2010). A comparative analysis of machine learning techniques for student retention management. Decision
Support Systems, 49(4), 498–506. doi:10.1016/j.dss.2010.06.003
Verbeke, W., Martens, D., Mues, C., & Baesens, B. (2011). Building comprehensible customer churn prediction models
with advanced rule induction techniques. Expert Systems with Applications, 38(3), 2354–2364.
doi:10.1016/j.eswa.2010.08.023
6. Enquadramento
• O ML permite a utilização de algoritmos que
aprendem com os dados e fazer previsões (Ron
Kohavi & Foster Provost, 1998);
• Apesar do potencial do ML não temos
conhecimento de estudos que apliquem esta
aproximação para prever o abandono em ginásios
• Hall (1998) refere que a eficiência da predição está
relacionada com a seleção das variáveis preditoras
(features);
Ron Kohavi, & Foster Provost. (1998). Glossary of Terms Journal of Machine Learning.
Obtido 25 de Outubro de 2017, de http://ai.stanford.edu/~ronnyk/glossary.html
Hall, M. A. (1998). Correlation-based Feature Selection for Machine Learning.
7. Metodologia utilizada
• Obtenção e tratamento dos dados provenientes de três
datasets: dados de entradas dos clientes (28680 registos e
19 features) , dados dos clientes (810 registos e 96 features)
e dados de pagamentos (7783 registos e 41 features);
• Os dados foram obtidos através da exportação da base de
dados do software de gestão Health Center da PROINF
Software;
• As etapas realizadas foram: (1) pré-processamento; (2)
extração de variáveis preditoras; (3) construção do modelo e
validação; e (4) cálculo da exatidão da previsão;
• O tratamento realizado nos dados permitiu obter uma
amostra com 810 clientes;
8. Metodologia utilizada
• O tratamento de dados foi realizado com o
Anaconda e IPython (Continuum Analytics, 2016),
recorrendo ao Pandas (McKinney & Others, 2010) e
NumPy (Walt, Colbert, & Varoquaux, 2011);
• A previsão foi realizada recorrendo ao algoritmo de
classificação Two-class Logistic Regression do Scikit-
learn (Pedregosa et al., 2011)
Continuum Analytics. (2016). Anaconda Software Distribution. Obtido de https://continuum.io
McKinney, W., & others. (2010). Data structures for statistical computing in python. Em Proceedings of the 9th Python in Science Conference (Vol.
445, pp. 51–56). SciPy Austin, TX. Obtido de https://pdfs.semanticscholar.org/f6da/c1c52d3b07c993fe52513b8964f86e8fe381.pdf
Walt, S. van der, Colbert, S. C., & Varoquaux, G. (2011). The NumPy Array: A Structure for Efficient Numerical Computation. Computing in Science &
Engineering, 13(2), 22–30. doi:10.1109/MCSE.2011.37
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J.,
Passos, A., Cournapeau, D., Brucher, M., Perrot, M., Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning
Research, 12(Oct), 2825-2830
9. Metodologia utilizada
• Variáveis preditoras utilizadas no estudo: Idade;
Género; Tempo de inscrição em semanas; Média de
visitas mensais; Faturação realizada ao cliente; Número
de aulas frequentadas; Distância a percorrer para
chegar ao clube;
• Os dados foram normalizados e utilizou-se a situação
para criar uma classificação binária se o sócio
abandonou ou não;
• Foram utilizados 70% dos dados para treinar o modelo,
30% para validar o modelo e realizar a previsão;
• Foram identificadas outras variáveis que foram
excluídas por não estarem disponível no Software de
Gestão do Ginásio (Health Center da PROINF);
10. Resultados e discussão
• A exatidão na previsão do algoritmo two-class
logistic regression se um cliente abandona ou
se mantem no ginásio é de aproximadamente
83%;
• Obtivemos 114 previsões corretas num total
de 138 clientes utilizados para testar o
modelo;
11. Resultados e discussão
Previsto
Não abandonou Abandonou
Real
Não
abandonou
True Positive
112
False
Negative
1
Abandonou False Positive
23
True
Negative
2
True Positive (TP - Não abandonou com resultado previsto de não
abandono), True Negative (TN - Abandonou com resultado previsto
de abandonar), False Positive (FP - Não abandonou com resultado
previsto de abandonar), False Negative (FN - Abandonou com
resultado previsto de não abandonar)
Matriz de confusão
12. Resultados e discussão
• O modelo foi treinado com 70% dos dados,
correspondendo a um total de 320 clientes, que
apesar de corresponder a valores aceitáveis
(Figueroa, Zeng-Treitler, Kandula, & Ngo, 2012),
apenas 73 tinham abandonado;
• O desenvolvimento da mesma abordagem num
ginásio de maior dimensão permitiria o algoritmo
ser treinado com mais casos;
• A vantagem desta aproximação permite os gestores
detetarem antecipadamente os clientes que estão
em risco de abandono sexo_F sexo_M inativo probabilidade Previsao
1 0 TRUE 0.529440925 TRUE
1 0 FALSE 0.653006346 TRUE
1 0 TRUE 0.585564892 TRUE
1 0 TRUE 0.843440362 TRUE
1 0 TRUE 0.727512114 TRUE
13. Conclusão
• O estudo desenvolvido demonstra que as bases de
dados existentes nos ginásios podem ser utilizadas para
prever o abandono sem ser necessário recolher
informação adicional através de questionários;
• A avaliação da probabilidade de abandono dos clientes
periodicamente num ginásio pode ser uma ferramenta
vantajosa para os gestores que pretendem aumentar a
retenção;
• Seria interessante avaliar o desempenho de outros
algoritmos: Two-Class Boosted decision, Two-Class
Neural Network, Two-Class Support Vector e Two-Class
Decision Forest;
14. Comentários finais
• Num estudo realizado pelo MIT em 375 empresas,
50% planeam utilizar machine learning para
compreender os clientes em 2017;
• 48% vão utilizar para ganharem vantagens
competitivas;
• As aplicações principais vão ser agentes de vendas
automatizados (42%), previsão de planeamento
(41%), vendas e marketing (37%) e assistentes
inteligentes (37%);
MIT Technology Review. (2017). Machine Learning: The New Proving Ground for
Competitive Advantage. Obtido de
https://s3.amazonaws.com/files.technologyreview.com/whitepapers/MITTR_Goog