SlideShare uma empresa Scribd logo
1 de 15
Baixar para ler offline
Abordagem para
a previsão de
abandono num
ginásio
XVIII Congresso de Gestão de
Desporto
Pedro Sobreiro e Abel Santos
ESDRM-IPSantarém
Imagem obtida em: http://1079mixfm.s3.amazonaws.com/wp-
content/uploads/2014/10/fotolia_43767087_subscription_monthly_l.j
pg
Tópicos
• Objetivo do estudo
• Enquadramento
• Metodologia
• Resultados e discussão
• Exemplo
• Conclusões
Objetivo
do estudo
Prever o abandono
através da utilização dos
dados existentes dos
clientes
Imagem obtida em:
https://www.forbes.com/sites/bernardmarr/2016/10/10/5-amazing-
things-big-data-helps-us-to-predict-now-plus-whats-on-the-
horizon/#6642349d412e
Enquadramento
• A rendibilidade é um pressuposto fundamental
para a sustentabilidade das organizações
desportivas;
• A retenção é fundamental para o sucesso de um
negócio (Hurley, 2004) e a sua rendibilidade
(Ferrand, Robison, & Valette-Florence, 2010);
• A retenção é um problema com que se deparam os
ginásios (Bodet, 2012), onde apenas 50% dos
clientes se mantêm após o primeiro ano (Emeterio,
Iglesias-Soler, Gallardo, Rodriguez-Cañamero, &
García-Unanue, 2016; MacIntosh & Law, 2015)
Hurley, T. (2004). Managing Customer Retention in the Health and Fitness Industry: A Case of Neglect. Irish Marketing Review, 17(1/2), 23–29.
Ferrand, A., Robinson, L., & Valette-Florence, P. (2010). The intention-to-repurchase paradox: a case of the health and fitness industry. Journal of Sport
Management, 24(1), 83–105.
Bodet, G. (2012). Loyalty in Sport Participation Services: An Examination of the Mediating Role of Psychological Commitment. Journal of Sport Management, 26(1),
30–42.
Emeterio, I. C. S., Iglesias-Soler, E., Gallardo, L., Rodriguez-Cañamero, S., & García-Unanue, J. (2016). A prediction model of retention in a Spanish fitness centre.
Managing Sport and Leisure, 21(5), 300–318. doi:10.1080/23750472.2016.1274675
Enquadramento
• Os métodos tradicionais de avaliação da retenção
baseiam-se na análise de informação obtida em
questionários;
• A avaliação da retenção pode ser realizada através
de uma aproximação analítica, de acordo com
dados obtidos em bases de dados de organizações
(Delen, 2010);
• O Machine Learning (ML) pode suportar o
desenvolvimento de estratégias de retenção
recorrendo aos dados existentes (Verbeke,
Martens, Mues, & Baesens, 2011)
Delen, D. (2010). A comparative analysis of machine learning techniques for student retention management. Decision
Support Systems, 49(4), 498–506. doi:10.1016/j.dss.2010.06.003
Verbeke, W., Martens, D., Mues, C., & Baesens, B. (2011). Building comprehensible customer churn prediction models
with advanced rule induction techniques. Expert Systems with Applications, 38(3), 2354–2364.
doi:10.1016/j.eswa.2010.08.023
Enquadramento
• O ML permite a utilização de algoritmos que
aprendem com os dados e fazer previsões (Ron
Kohavi & Foster Provost, 1998);
• Apesar do potencial do ML não temos
conhecimento de estudos que apliquem esta
aproximação para prever o abandono em ginásios
• Hall (1998) refere que a eficiência da predição está
relacionada com a seleção das variáveis preditoras
(features);
Ron Kohavi, & Foster Provost. (1998). Glossary of Terms Journal of Machine Learning.
Obtido 25 de Outubro de 2017, de http://ai.stanford.edu/~ronnyk/glossary.html
Hall, M. A. (1998). Correlation-based Feature Selection for Machine Learning.
Metodologia utilizada
• Obtenção e tratamento dos dados provenientes de três
datasets: dados de entradas dos clientes (28680 registos e
19 features) , dados dos clientes (810 registos e 96 features)
e dados de pagamentos (7783 registos e 41 features);
• Os dados foram obtidos através da exportação da base de
dados do software de gestão Health Center da PROINF
Software;
• As etapas realizadas foram: (1) pré-processamento; (2)
extração de variáveis preditoras; (3) construção do modelo e
validação; e (4) cálculo da exatidão da previsão;
• O tratamento realizado nos dados permitiu obter uma
amostra com 810 clientes;
Metodologia utilizada
• O tratamento de dados foi realizado com o
Anaconda e IPython (Continuum Analytics, 2016),
recorrendo ao Pandas (McKinney & Others, 2010) e
NumPy (Walt, Colbert, & Varoquaux, 2011);
• A previsão foi realizada recorrendo ao algoritmo de
classificação Two-class Logistic Regression do Scikit-
learn (Pedregosa et al., 2011)
Continuum Analytics. (2016). Anaconda Software Distribution. Obtido de https://continuum.io
McKinney, W., & others. (2010). Data structures for statistical computing in python. Em Proceedings of the 9th Python in Science Conference (Vol.
445, pp. 51–56). SciPy Austin, TX. Obtido de https://pdfs.semanticscholar.org/f6da/c1c52d3b07c993fe52513b8964f86e8fe381.pdf
Walt, S. van der, Colbert, S. C., & Varoquaux, G. (2011). The NumPy Array: A Structure for Efficient Numerical Computation. Computing in Science &
Engineering, 13(2), 22–30. doi:10.1109/MCSE.2011.37
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J.,
Passos, A., Cournapeau, D., Brucher, M., Perrot, M., Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning
Research, 12(Oct), 2825-2830
Metodologia utilizada
• Variáveis preditoras utilizadas no estudo: Idade;
Género; Tempo de inscrição em semanas; Média de
visitas mensais; Faturação realizada ao cliente; Número
de aulas frequentadas; Distância a percorrer para
chegar ao clube;
• Os dados foram normalizados e utilizou-se a situação
para criar uma classificação binária se o sócio
abandonou ou não;
• Foram utilizados 70% dos dados para treinar o modelo,
30% para validar o modelo e realizar a previsão;
• Foram identificadas outras variáveis que foram
excluídas por não estarem disponível no Software de
Gestão do Ginásio (Health Center da PROINF);
Resultados e discussão
• A exatidão na previsão do algoritmo two-class
logistic regression se um cliente abandona ou
se mantem no ginásio é de aproximadamente
83%;
• Obtivemos 114 previsões corretas num total
de 138 clientes utilizados para testar o
modelo;
Resultados e discussão
Previsto
Não abandonou Abandonou
Real
Não
abandonou
True Positive
112
False
Negative
1
Abandonou False Positive
23
True
Negative
2
True Positive (TP - Não abandonou com resultado previsto de não
abandono), True Negative (TN - Abandonou com resultado previsto
de abandonar), False Positive (FP - Não abandonou com resultado
previsto de abandonar), False Negative (FN - Abandonou com
resultado previsto de não abandonar)
Matriz de confusão
Resultados e discussão
• O modelo foi treinado com 70% dos dados,
correspondendo a um total de 320 clientes, que
apesar de corresponder a valores aceitáveis
(Figueroa, Zeng-Treitler, Kandula, & Ngo, 2012),
apenas 73 tinham abandonado;
• O desenvolvimento da mesma abordagem num
ginásio de maior dimensão permitiria o algoritmo
ser treinado com mais casos;
• A vantagem desta aproximação permite os gestores
detetarem antecipadamente os clientes que estão
em risco de abandono sexo_F sexo_M inativo probabilidade Previsao
1 0 TRUE 0.529440925 TRUE
1 0 FALSE 0.653006346 TRUE
1 0 TRUE 0.585564892 TRUE
1 0 TRUE 0.843440362 TRUE
1 0 TRUE 0.727512114 TRUE
Conclusão
• O estudo desenvolvido demonstra que as bases de
dados existentes nos ginásios podem ser utilizadas para
prever o abandono sem ser necessário recolher
informação adicional através de questionários;
• A avaliação da probabilidade de abandono dos clientes
periodicamente num ginásio pode ser uma ferramenta
vantajosa para os gestores que pretendem aumentar a
retenção;
• Seria interessante avaliar o desempenho de outros
algoritmos: Two-Class Boosted decision, Two-Class
Neural Network, Two-Class Support Vector e Two-Class
Decision Forest;
Comentários finais
• Num estudo realizado pelo MIT em 375 empresas,
50% planeam utilizar machine learning para
compreender os clientes em 2017;
• 48% vão utilizar para ganharem vantagens
competitivas;
• As aplicações principais vão ser agentes de vendas
automatizados (42%), previsão de planeamento
(41%), vendas e marketing (37%) e assistentes
inteligentes (37%);
MIT Technology Review. (2017). Machine Learning: The New Proving Ground for
Competitive Advantage. Obtido de
https://s3.amazonaws.com/files.technologyreview.com/whitepapers/MITTR_Goog
Questões?

Mais conteúdo relacionado

Semelhante a Previsão de abandono de clientes em ginásio com ML

Detecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasDetecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasRommel Carvalho
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
ConBRepro2013 - Proposta de ferramenta para uso abrangente de Testes Adaptati...
ConBRepro2013 - Proposta de ferramenta para uso abrangente de Testes Adaptati...ConBRepro2013 - Proposta de ferramenta para uso abrangente de Testes Adaptati...
ConBRepro2013 - Proposta de ferramenta para uso abrangente de Testes Adaptati...Paulo Manseira
 
Conepro Sul 2014 - Arquitetura para um Sistema de Gestão de Testes Adaptativo...
Conepro Sul 2014 - Arquitetura para um Sistema de Gestão de Testes Adaptativo...Conepro Sul 2014 - Arquitetura para um Sistema de Gestão de Testes Adaptativo...
Conepro Sul 2014 - Arquitetura para um Sistema de Gestão de Testes Adaptativo...Paulo Manseira
 
Previsão da prática desportiva recorrendo a séries temporais
Previsão da prática desportiva recorrendo a séries temporaisPrevisão da prática desportiva recorrendo a séries temporais
Previsão da prática desportiva recorrendo a séries temporaisPedro Sobreiro
 
Plataformas eGov em CTI: experiências nacionais e internacionais
Plataformas eGov em CTI: experiências nacionais e internacionaisPlataformas eGov em CTI: experiências nacionais e internacionais
Plataformas eGov em CTI: experiências nacionais e internacionaisRoberto C. S. Pacheco
 
Artefato petic do gt1 2014 2016 - versão final
Artefato petic do gt1 2014 2016 - versão finalArtefato petic do gt1 2014 2016 - versão final
Artefato petic do gt1 2014 2016 - versão finalEdton Lemos
 
Trabalho de Conclusão sobre Ciclo de Vida dos Dados
Trabalho de Conclusão sobre Ciclo de Vida dos DadosTrabalho de Conclusão sobre Ciclo de Vida dos Dados
Trabalho de Conclusão sobre Ciclo de Vida dos DadosKarina Moura
 
Curso Minitab em Analise Estatistica
Curso Minitab em Analise EstatisticaCurso Minitab em Analise Estatistica
Curso Minitab em Analise EstatisticaGrupo Treinar
 

Semelhante a Previsão de abandono de clientes em ginásio com ML (14)

Detecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasDetecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de compras
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Keep in shape
Keep in shapeKeep in shape
Keep in shape
 
ConBRepro2013 - Proposta de ferramenta para uso abrangente de Testes Adaptati...
ConBRepro2013 - Proposta de ferramenta para uso abrangente de Testes Adaptati...ConBRepro2013 - Proposta de ferramenta para uso abrangente de Testes Adaptati...
ConBRepro2013 - Proposta de ferramenta para uso abrangente de Testes Adaptati...
 
Conepro Sul 2014 - Arquitetura para um Sistema de Gestão de Testes Adaptativo...
Conepro Sul 2014 - Arquitetura para um Sistema de Gestão de Testes Adaptativo...Conepro Sul 2014 - Arquitetura para um Sistema de Gestão de Testes Adaptativo...
Conepro Sul 2014 - Arquitetura para um Sistema de Gestão de Testes Adaptativo...
 
Previsão da prática desportiva recorrendo a séries temporais
Previsão da prática desportiva recorrendo a séries temporaisPrevisão da prática desportiva recorrendo a séries temporais
Previsão da prática desportiva recorrendo a séries temporais
 
Tcc - Work control
Tcc - Work controlTcc - Work control
Tcc - Work control
 
Plataformas eGov em CTI: experiências nacionais e internacionais
Plataformas eGov em CTI: experiências nacionais e internacionaisPlataformas eGov em CTI: experiências nacionais e internacionais
Plataformas eGov em CTI: experiências nacionais e internacionais
 
Mineração
MineraçãoMineração
Mineração
 
Projeto UnB
Projeto UnBProjeto UnB
Projeto UnB
 
Artefato petic do gt1 2014 2016 - versão final
Artefato petic do gt1 2014 2016 - versão finalArtefato petic do gt1 2014 2016 - versão final
Artefato petic do gt1 2014 2016 - versão final
 
Curadoria de dados de pesquisa
Curadoria de dados de pesquisaCuradoria de dados de pesquisa
Curadoria de dados de pesquisa
 
Trabalho de Conclusão sobre Ciclo de Vida dos Dados
Trabalho de Conclusão sobre Ciclo de Vida dos DadosTrabalho de Conclusão sobre Ciclo de Vida dos Dados
Trabalho de Conclusão sobre Ciclo de Vida dos Dados
 
Curso Minitab em Analise Estatistica
Curso Minitab em Analise EstatisticaCurso Minitab em Analise Estatistica
Curso Minitab em Analise Estatistica
 

Mais de Pedro Sobreiro

Previsão de vendas utilizando séries temporais
Previsão de vendas utilizando séries temporaisPrevisão de vendas utilizando séries temporais
Previsão de vendas utilizando séries temporaisPedro Sobreiro
 
Operacionalização da estratégia no Município de Ourém como aproximação para a...
Operacionalização da estratégia no Município de Ourém como aproximação para a...Operacionalização da estratégia no Município de Ourém como aproximação para a...
Operacionalização da estratégia no Município de Ourém como aproximação para a...Pedro Sobreiro
 
Integrating Knowledge Management in a Business Strategy Process Operationaliz...
Integrating Knowledge Management in a Business Strategy Process Operationaliz...Integrating Knowledge Management in a Business Strategy Process Operationaliz...
Integrating Knowledge Management in a Business Strategy Process Operationaliz...Pedro Sobreiro
 
Operationalization of a solution to automate web forms insertions in the Offi...
Operationalization of a solution to automate web forms insertions in the Offi...Operationalization of a solution to automate web forms insertions in the Offi...
Operationalization of a solution to automate web forms insertions in the Offi...Pedro Sobreiro
 
Identification of Improvement priorities in organizational capabilities: A ca...
Identification of Improvement priorities in organizational capabilities: A ca...Identification of Improvement priorities in organizational capabilities: A ca...
Identification of Improvement priorities in organizational capabilities: A ca...Pedro Sobreiro
 
Presentation to create awareness in the top management of sport organization ...
Presentation to create awareness in the top management of sport organization ...Presentation to create awareness in the top management of sport organization ...
Presentation to create awareness in the top management of sport organization ...Pedro Sobreiro
 
Melhoria Organizacional
Melhoria OrganizacionalMelhoria Organizacional
Melhoria OrganizacionalPedro Sobreiro
 
Operacionalização da estratégia nas organizações desportivas através da defin...
Operacionalização da estratégia nas organizações desportivas através da defin...Operacionalização da estratégia nas organizações desportivas através da defin...
Operacionalização da estratégia nas organizações desportivas através da defin...Pedro Sobreiro
 
Business Process Management in Sports Organizations: A case study in the Euro...
Business Process Management in Sports Organizations: A case study in the Euro...Business Process Management in Sports Organizations: A case study in the Euro...
Business Process Management in Sports Organizations: A case study in the Euro...Pedro Sobreiro
 

Mais de Pedro Sobreiro (10)

Permanência
PermanênciaPermanência
Permanência
 
Previsão de vendas utilizando séries temporais
Previsão de vendas utilizando séries temporaisPrevisão de vendas utilizando séries temporais
Previsão de vendas utilizando séries temporais
 
Operacionalização da estratégia no Município de Ourém como aproximação para a...
Operacionalização da estratégia no Município de Ourém como aproximação para a...Operacionalização da estratégia no Município de Ourém como aproximação para a...
Operacionalização da estratégia no Município de Ourém como aproximação para a...
 
Integrating Knowledge Management in a Business Strategy Process Operationaliz...
Integrating Knowledge Management in a Business Strategy Process Operationaliz...Integrating Knowledge Management in a Business Strategy Process Operationaliz...
Integrating Knowledge Management in a Business Strategy Process Operationaliz...
 
Operationalization of a solution to automate web forms insertions in the Offi...
Operationalization of a solution to automate web forms insertions in the Offi...Operationalization of a solution to automate web forms insertions in the Offi...
Operationalization of a solution to automate web forms insertions in the Offi...
 
Identification of Improvement priorities in organizational capabilities: A ca...
Identification of Improvement priorities in organizational capabilities: A ca...Identification of Improvement priorities in organizational capabilities: A ca...
Identification of Improvement priorities in organizational capabilities: A ca...
 
Presentation to create awareness in the top management of sport organization ...
Presentation to create awareness in the top management of sport organization ...Presentation to create awareness in the top management of sport organization ...
Presentation to create awareness in the top management of sport organization ...
 
Melhoria Organizacional
Melhoria OrganizacionalMelhoria Organizacional
Melhoria Organizacional
 
Operacionalização da estratégia nas organizações desportivas através da defin...
Operacionalização da estratégia nas organizações desportivas através da defin...Operacionalização da estratégia nas organizações desportivas através da defin...
Operacionalização da estratégia nas organizações desportivas através da defin...
 
Business Process Management in Sports Organizations: A case study in the Euro...
Business Process Management in Sports Organizations: A case study in the Euro...Business Process Management in Sports Organizations: A case study in the Euro...
Business Process Management in Sports Organizations: A case study in the Euro...
 

Previsão de abandono de clientes em ginásio com ML

  • 1. Abordagem para a previsão de abandono num ginásio XVIII Congresso de Gestão de Desporto Pedro Sobreiro e Abel Santos ESDRM-IPSantarém Imagem obtida em: http://1079mixfm.s3.amazonaws.com/wp- content/uploads/2014/10/fotolia_43767087_subscription_monthly_l.j pg
  • 2. Tópicos • Objetivo do estudo • Enquadramento • Metodologia • Resultados e discussão • Exemplo • Conclusões
  • 3. Objetivo do estudo Prever o abandono através da utilização dos dados existentes dos clientes Imagem obtida em: https://www.forbes.com/sites/bernardmarr/2016/10/10/5-amazing- things-big-data-helps-us-to-predict-now-plus-whats-on-the- horizon/#6642349d412e
  • 4. Enquadramento • A rendibilidade é um pressuposto fundamental para a sustentabilidade das organizações desportivas; • A retenção é fundamental para o sucesso de um negócio (Hurley, 2004) e a sua rendibilidade (Ferrand, Robison, & Valette-Florence, 2010); • A retenção é um problema com que se deparam os ginásios (Bodet, 2012), onde apenas 50% dos clientes se mantêm após o primeiro ano (Emeterio, Iglesias-Soler, Gallardo, Rodriguez-Cañamero, & García-Unanue, 2016; MacIntosh & Law, 2015) Hurley, T. (2004). Managing Customer Retention in the Health and Fitness Industry: A Case of Neglect. Irish Marketing Review, 17(1/2), 23–29. Ferrand, A., Robinson, L., & Valette-Florence, P. (2010). The intention-to-repurchase paradox: a case of the health and fitness industry. Journal of Sport Management, 24(1), 83–105. Bodet, G. (2012). Loyalty in Sport Participation Services: An Examination of the Mediating Role of Psychological Commitment. Journal of Sport Management, 26(1), 30–42. Emeterio, I. C. S., Iglesias-Soler, E., Gallardo, L., Rodriguez-Cañamero, S., & García-Unanue, J. (2016). A prediction model of retention in a Spanish fitness centre. Managing Sport and Leisure, 21(5), 300–318. doi:10.1080/23750472.2016.1274675
  • 5. Enquadramento • Os métodos tradicionais de avaliação da retenção baseiam-se na análise de informação obtida em questionários; • A avaliação da retenção pode ser realizada através de uma aproximação analítica, de acordo com dados obtidos em bases de dados de organizações (Delen, 2010); • O Machine Learning (ML) pode suportar o desenvolvimento de estratégias de retenção recorrendo aos dados existentes (Verbeke, Martens, Mues, & Baesens, 2011) Delen, D. (2010). A comparative analysis of machine learning techniques for student retention management. Decision Support Systems, 49(4), 498–506. doi:10.1016/j.dss.2010.06.003 Verbeke, W., Martens, D., Mues, C., & Baesens, B. (2011). Building comprehensible customer churn prediction models with advanced rule induction techniques. Expert Systems with Applications, 38(3), 2354–2364. doi:10.1016/j.eswa.2010.08.023
  • 6. Enquadramento • O ML permite a utilização de algoritmos que aprendem com os dados e fazer previsões (Ron Kohavi & Foster Provost, 1998); • Apesar do potencial do ML não temos conhecimento de estudos que apliquem esta aproximação para prever o abandono em ginásios • Hall (1998) refere que a eficiência da predição está relacionada com a seleção das variáveis preditoras (features); Ron Kohavi, & Foster Provost. (1998). Glossary of Terms Journal of Machine Learning. Obtido 25 de Outubro de 2017, de http://ai.stanford.edu/~ronnyk/glossary.html Hall, M. A. (1998). Correlation-based Feature Selection for Machine Learning.
  • 7. Metodologia utilizada • Obtenção e tratamento dos dados provenientes de três datasets: dados de entradas dos clientes (28680 registos e 19 features) , dados dos clientes (810 registos e 96 features) e dados de pagamentos (7783 registos e 41 features); • Os dados foram obtidos através da exportação da base de dados do software de gestão Health Center da PROINF Software; • As etapas realizadas foram: (1) pré-processamento; (2) extração de variáveis preditoras; (3) construção do modelo e validação; e (4) cálculo da exatidão da previsão; • O tratamento realizado nos dados permitiu obter uma amostra com 810 clientes;
  • 8. Metodologia utilizada • O tratamento de dados foi realizado com o Anaconda e IPython (Continuum Analytics, 2016), recorrendo ao Pandas (McKinney & Others, 2010) e NumPy (Walt, Colbert, & Varoquaux, 2011); • A previsão foi realizada recorrendo ao algoritmo de classificação Two-class Logistic Regression do Scikit- learn (Pedregosa et al., 2011) Continuum Analytics. (2016). Anaconda Software Distribution. Obtido de https://continuum.io McKinney, W., & others. (2010). Data structures for statistical computing in python. Em Proceedings of the 9th Python in Science Conference (Vol. 445, pp. 51–56). SciPy Austin, TX. Obtido de https://pdfs.semanticscholar.org/f6da/c1c52d3b07c993fe52513b8964f86e8fe381.pdf Walt, S. van der, Colbert, S. C., & Varoquaux, G. (2011). The NumPy Array: A Structure for Efficient Numerical Computation. Computing in Science & Engineering, 13(2), 22–30. doi:10.1109/MCSE.2011.37 Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12(Oct), 2825-2830
  • 9. Metodologia utilizada • Variáveis preditoras utilizadas no estudo: Idade; Género; Tempo de inscrição em semanas; Média de visitas mensais; Faturação realizada ao cliente; Número de aulas frequentadas; Distância a percorrer para chegar ao clube; • Os dados foram normalizados e utilizou-se a situação para criar uma classificação binária se o sócio abandonou ou não; • Foram utilizados 70% dos dados para treinar o modelo, 30% para validar o modelo e realizar a previsão; • Foram identificadas outras variáveis que foram excluídas por não estarem disponível no Software de Gestão do Ginásio (Health Center da PROINF);
  • 10. Resultados e discussão • A exatidão na previsão do algoritmo two-class logistic regression se um cliente abandona ou se mantem no ginásio é de aproximadamente 83%; • Obtivemos 114 previsões corretas num total de 138 clientes utilizados para testar o modelo;
  • 11. Resultados e discussão Previsto Não abandonou Abandonou Real Não abandonou True Positive 112 False Negative 1 Abandonou False Positive 23 True Negative 2 True Positive (TP - Não abandonou com resultado previsto de não abandono), True Negative (TN - Abandonou com resultado previsto de abandonar), False Positive (FP - Não abandonou com resultado previsto de abandonar), False Negative (FN - Abandonou com resultado previsto de não abandonar) Matriz de confusão
  • 12. Resultados e discussão • O modelo foi treinado com 70% dos dados, correspondendo a um total de 320 clientes, que apesar de corresponder a valores aceitáveis (Figueroa, Zeng-Treitler, Kandula, & Ngo, 2012), apenas 73 tinham abandonado; • O desenvolvimento da mesma abordagem num ginásio de maior dimensão permitiria o algoritmo ser treinado com mais casos; • A vantagem desta aproximação permite os gestores detetarem antecipadamente os clientes que estão em risco de abandono sexo_F sexo_M inativo probabilidade Previsao 1 0 TRUE 0.529440925 TRUE 1 0 FALSE 0.653006346 TRUE 1 0 TRUE 0.585564892 TRUE 1 0 TRUE 0.843440362 TRUE 1 0 TRUE 0.727512114 TRUE
  • 13. Conclusão • O estudo desenvolvido demonstra que as bases de dados existentes nos ginásios podem ser utilizadas para prever o abandono sem ser necessário recolher informação adicional através de questionários; • A avaliação da probabilidade de abandono dos clientes periodicamente num ginásio pode ser uma ferramenta vantajosa para os gestores que pretendem aumentar a retenção; • Seria interessante avaliar o desempenho de outros algoritmos: Two-Class Boosted decision, Two-Class Neural Network, Two-Class Support Vector e Two-Class Decision Forest;
  • 14. Comentários finais • Num estudo realizado pelo MIT em 375 empresas, 50% planeam utilizar machine learning para compreender os clientes em 2017; • 48% vão utilizar para ganharem vantagens competitivas; • As aplicações principais vão ser agentes de vendas automatizados (42%), previsão de planeamento (41%), vendas e marketing (37%) e assistentes inteligentes (37%); MIT Technology Review. (2017). Machine Learning: The New Proving Ground for Competitive Advantage. Obtido de https://s3.amazonaws.com/files.technologyreview.com/whitepapers/MITTR_Goog