SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
Desempenho na previsão do abandono
recorrendo ao Machine Learning em serviços
de desporto
18ª Conferência da Associação Portuguesa de Sistemas
de Informação
Pedro Sobreiro, Paulo Pinheiro e Abel Santos
Santarém, Portugal, 13 de Outubro de 2018
Instituto Politécnico de Santarém - CIEQV sobreiro@esdrm.ipsantarem.pt
1
Estrutura da apresentação
Objetivos do estudo
Enquadramento teórico
Metodologia
Resultados
Conclusões
2
Objetivos do estudo
Objetivo do estudo
Comparar o desempenho, na previsão do
abandono dos clientes, recorrendo a vários
algoritmos de machine learning utilizando a
aproximação train-test e k-fold
3
Enquadramento teórico
Enquadramento teórico
Porquê prever o abandono?
• O setor de prestação de serviços desportivos apresenta taxas de
desistência elevadas (Avourdiadou & Theodorakis, 2014) ;
• A taxa de retenção em Portugal situa-se em 31% nos Ginásios e
Academias (Associação de Empresas de Ginásios e Academias de Portugal,
2016) ;
• Emeterio, Iglesias-Soler, Gallardo, Rodriguez-Cañamero e
García-Unanue (2016) referem que no primeiro ano de utilização
dos ginásios a retenção é apenas de 50%;
Avourdiadou, S., & Theodorakis, N. D. (2014). The development of loyalty among novice and experienced customers of sport and fitness
centres. Sport Management Review, 17(4), 419–431. doi:10.1016/j.smr.2014.02.001
Associação de Empresas de Ginásios e Academias de Portugal. (2016). Barómetro 2016
Emeterio, I. C. S., Iglesias-Soler, E., Gallardo, L., Rodriguez-Cañamero, S., & García-Unanue, J. (2016). A prediction model of retention in a
Spanish fitness centre. Managing Sport and Leisure, 21(5), 300–318. doi:10.1080/23750472.2016.1274675
4
Enquadramento teórico
Porquê prever o abandono?
• A retenção é fundamental para a rentabilidade para os ginásios
(Hurley, 2004; MacIntosh & Law, 2015);
• A retenção apresenta custos menores em relação à angariação
de novos clientes (Ahmad & Buttle, 2002; Edward & Sahadev, 2011);
• A previsão do abandono permite aos responsáveis das
instalações desportivas desenvolverem ações para contrariar o
abandono em clientes em risco;
Hurley, T. (2004). Managing Customer Retention in the Health and Fitness Industry: A Case of Neglect. Irish Marketing Review, 17(1/2),
23–29.
MacIntosh, E., & Law, B. (2015). Should I stay or should I go? Exploring the decision to join, maintain, or cancel a fitness membership.
Managing Sport and Leisure, 20(3), 191–210. doi:10.1080/23750472.2015.1025093
Ahmad, R., & Buttle, F. (2002). Customer retention management: a reflection of theory and practice. Marketing Intelligence & Planning,
20(3), 149–161. doi:10.1108/02634500210428003
Edward, M., & Sahadev, S. (2011). Role of switching costs in the service quality, perceived value, customer satisfaction and customer
retention linkage. Asia Pacific Journal of Marketing and Logistics, 23(3), 327–345. doi:10.1108/13555851111143240
5
Algoritmos para previsões
Algoritmos para previsão
• A previsão do abandono é um problema de classificação
(abandona ou não abandona). Utiliza um conjunto de técnicas
para aprenderem a modelar a relação entre um conjunto de
características descritivas e uma característica alvo (Kelleher et al.,
2015);
• Os algoritmos que analisamos foram selecionados de acordo
com a disponibilidade da biblioteca scikit-learn (Pedregosa et al.,
2011), considerando o desempenho, disponibilidade de
documentação e a variedade de algoritmos disponibilizados;
Kelleher, J. D., Namee, B. M., & D’Arcy, A. (2015). Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked
Examples, and Case Studies (1 edition). Cambridge, Massachusetts: The MIT Press
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., … Duchesnay, É. (2011). Scikit-learn: Machine Learning in
Python. Journal of Machine Learning Research, 12(Oct), 2825–2830
6
Metodologia
Metodologia
• Foram tratados dados de 8376 clientes de uma instalação
desportiva de Lisboa, obtidos através da aplicação informática
e@sport durante o período de tempo de 01 de Junho de 2014
até 31 de Outubro de 2017, correspondendo aos dados dos
clientes, histórico de pagamentos e acessos aos serviços
disponibilizados;
• O tratamento de dados foi realizado com o Anaconda e IPython
(Continuum Analytics, 2016) e recorrendo ao Pandas (McKinney & others,
2010) e NumPy (Walt, Colbert, & Varoquaux, 2011);
Continuum Analytics. (2016). Anaconda Software Distribution. Obtido 20 de Julho de 2017, de https://www.anaconda.com/download/
McKinney, W., & others. (2010). Data structures for statistical computing in python. Em Proceedings of the 9th Python in Science
Conference (Vol. 445, pp. 51–56). SciPy Austin, TX. Obtido de
https://pdfs.semanticscholar.org/f6da/c1c52d3b07c993fe52513b8964f86e8fe381.pdf
Walt, S. van der, Colbert, S. C., & Varoquaux, G. (2011). The NumPy Array: A Structure for Efficient Numerical Computation. Computing in
Science & Engineering, 13(2), 22–30. doi:10.1109/MCSE.2011.37
7
Metodologia
• A previsão e teste do modelo utilizou dados de treino e teste
numa proporção de 70/30% considerando a sua utilização
generalizada na literatura (Buntine & Niblett, 1992) e a validação
cruzada, recorrendo ao k-fold, dividindo em k grupos de
dimensões iguais, onde se realiza k iterações para treinar e
testar, o que obriga a que se treine o modelo k vezes.
Continuum Analytics. (2016). Anaconda Software Distribution. Obtido 20 de Julho de 2017, de https://www.anaconda.com/download/
McKinney, W., & others. (2010). Data structures for statistical computing in python. Em Proceedings of the 9th Python in Science
Conference (Vol. 445, pp. 51–56). SciPy Austin, TX. Obtido de
https://pdfs.semanticscholar.org/f6da/c1c52d3b07c993fe52513b8964f86e8fe381.pdf
Walt, S. van der, Colbert, S. C., & Varoquaux, G. (2011). The NumPy Array: A Structure for Efficient Numerical Computation. Computing in
Science & Engineering, 13(2), 22–30. doi:10.1109/MCSE.2011.37
Buntine, W., & Niblett, T. (1992). A further comparison of splitting rules for decision-tree induction. Machine Learning, 8(1), 75–85.
doi:10.1007/BF00994006
8
Metodologia
Table 1: Algoritmos utilizados para a classificação do abandono
Algoritmo
k nearest neighbors classifier
C-Support Vector Classification
Logistic Regression
Decision Tree Classifier
Gaussian Naive Bayes
Random Forest Classifier
Gradient Boosting Classifier
9
Metodologia
Table 2: Variáveis utilizadas
Variável Definição
idade Representa a idade do cliente
genero Representa o género do cliente
diassemfrequencia O número de dias sem frequentar as instalações
mesesinscricao Tempo de inscrição do cliente em meses
volnegocios Valor faturado ao cliente
freqmedia Frequencia média do cliente por semana
utilizacao_livre Variável que indica se o cliente realizava ou não uma
utilização livre da instalação
atividade_aquaticas Realiza ou não atividade aquática
atividade_fitness Realizar ou não atividade fitness
natividades Número de atividades
nfrequencias Número de vezes que o cliente frequentou a instalação
freqcontratadasemanal Número de vezes que o cliente contratou realizar
nrenovacoes Número de vezes que o cliente renovou o contrato
nreferencias Número de referências que indicou
classe_desistencia Abandonou ou não
10
Resultados
Exatidão da previsão
• Calculada através da confrontação da previsão realizada face à
situação real do cliente, se abandonou ou não abandonou a
instalação desportiva;
• Exatidão obtida através da matriz de confusão que representa
os True Positive (TP - Não abandonou com resultado previsto de
não abandono), True Negative (TN - Abandonou com resultado
previsto de abandonar), False Positive (FP - Não abandonou com
resultado previsto de abandonar), False Negative (FN -
Abandonou com resultado previsto de não abandonar);
• A precisão da previsão calculada com TP/(TP+FP) referente aos
clientes que não abandonaram;
11
Exatidão da previsão
Table 3: Comparação da taxa de sucesso e tempo de execução das previsões
realizadas
Algoritmo Exatidão TT Tempo TT Exatidão k-fold Tempo k-fold
KNN 0.879179 0.219 0.880611 0.323
SVC 0.788443 6.215 0.780919 67.686
LR 0.851480 0.147 0.853630 1.140
DT 0.888730 0.060 0.894583 0.519
GNB 0.781757 0.010 0.795128 0.076
RFC 0.924069 0.242 0.916551 0.943
GBC 0.933142 0.797 0.926700 6.065
12
Resultados
Comparamos os resultados obtidos na exatidão e tempo de
execução nos algoritmos k nearest neighbors classifier; C-Support
Vector Classification; Logistic Regression; Decision Tree Classifier;
Gaussian Naive Bayes; Random Forest Classifier e Gradient Boosting
Classifier com o teste Mann-Withney.
Os resultados obtidos com um p > 0.05 permitem-nos afirmar que
não existem diferenças significativas na exatidão da previsão e no
tempo de execução.
13
Conclusões
Conclusões
• Na comparação do desempenho não encontramos diferenças
significativas nos resultados obtidos nos algoritmos utilizando
70/30% para treinar e testar e o k-fold;
• Apesar das vantagens que o k-fold apresenta para reduzir o
problema de overfitting, a sua utilização deverá ser
equacionada considerando a duração na previsão;
• O algoritmo baseado no Gradient Boosting Classifier apresentou
um bom desempenho em termos precisão, contudo se tivermos
necessidade de um algoritmo com melhor desempenho
considerando a execução, o Random Forest Classifier poderá ser
uma opção para a previsão do abandono;
14
Obrigado!
Pedro Sobreiro - ESDRM-IPSantarem / CIEQV
Paulo Pinheiro - Cedis/Universidade Aberta
Abel Santos - ESDRM-IPSantarem / CIEQV
15

Mais conteúdo relacionado

Semelhante a Desempenho previsão abandono

Governança de TI.pptx
Governança de TI.pptxGovernança de TI.pptx
Governança de TI.pptxssusera0a510
 
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...CLT Valuebased Services
 
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...CLT Valuebased Services
 
governanc3a7a-de-ti.pptx
governanc3a7a-de-ti.pptxgovernanc3a7a-de-ti.pptx
governanc3a7a-de-ti.pptxValbertoSilva5
 
Palestra infnet cenário da terceirização de ti no setor público melhores p...
Palestra infnet   cenário da terceirização de ti no setor público  melhores p...Palestra infnet   cenário da terceirização de ti no setor público  melhores p...
Palestra infnet cenário da terceirização de ti no setor público melhores p...TI Infnet
 
Jornadas UCCN|FCT - Sessao PTCRIS - Parte I
Jornadas UCCN|FCT - Sessao PTCRIS - Parte IJornadas UCCN|FCT - Sessao PTCRIS - Parte I
Jornadas UCCN|FCT - Sessao PTCRIS - Parte IPTCRIS FCT
 
Fórum Internacional de Logística
Fórum Internacional de Logística Fórum Internacional de Logística
Fórum Internacional de Logística Sergio Grisa
 
II SDTA - Soluções Avançadas de Predição de Trajetórias e Detecção de Conflit...
II SDTA - Soluções Avançadas de Predição de Trajetórias e Detecção de Conflit...II SDTA - Soluções Avançadas de Predição de Trajetórias e Detecção de Conflit...
II SDTA - Soluções Avançadas de Predição de Trajetórias e Detecção de Conflit...Atech S.A. | Embraer Group
 
Results presentation 1 q14 port
Results presentation 1 q14 portResults presentation 1 q14 port
Results presentation 1 q14 portTIM RI
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningJosias Oliveira
 
WCM-WORLD CLASS MAINTENANCE-BEST PRACTICES-MANUTENÇÃO CLASSE MUNDIAL - MELHOR...
WCM-WORLD CLASS MAINTENANCE-BEST PRACTICES-MANUTENÇÃO CLASSE MUNDIAL - MELHOR...WCM-WORLD CLASS MAINTENANCE-BEST PRACTICES-MANUTENÇÃO CLASSE MUNDIAL - MELHOR...
WCM-WORLD CLASS MAINTENANCE-BEST PRACTICES-MANUTENÇÃO CLASSE MUNDIAL - MELHOR...EXCELLENCE CONSULTING
 
ESTRUTURA CURRICULAR - ANÁLISE E DESENVOLVIMENTO DE SISTEMAS FACULDADE ESTÁCIO
ESTRUTURA CURRICULAR - ANÁLISE E DESENVOLVIMENTO DE SISTEMAS FACULDADE ESTÁCIOESTRUTURA CURRICULAR - ANÁLISE E DESENVOLVIMENTO DE SISTEMAS FACULDADE ESTÁCIO
ESTRUTURA CURRICULAR - ANÁLISE E DESENVOLVIMENTO DE SISTEMAS FACULDADE ESTÁCIOOs Fantasmas !
 

Semelhante a Desempenho previsão abandono (20)

Governança de TI.pptx
Governança de TI.pptxGovernança de TI.pptx
Governança de TI.pptx
 
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...
 
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...
CCPM (ToC - Critical Chain Project Management) aplicado ao Dep. Manutenção e ...
 
governanc3a7a-de-ti.pptx
governanc3a7a-de-ti.pptxgovernanc3a7a-de-ti.pptx
governanc3a7a-de-ti.pptx
 
Palestra infnet cenário da terceirização de ti no setor público melhores p...
Palestra infnet   cenário da terceirização de ti no setor público  melhores p...Palestra infnet   cenário da terceirização de ti no setor público  melhores p...
Palestra infnet cenário da terceirização de ti no setor público melhores p...
 
CURSO SOBRE SINTEGRA
CURSO SOBRE SINTEGRACURSO SOBRE SINTEGRA
CURSO SOBRE SINTEGRA
 
Jornadas UCCN|FCT - Sessao PTCRIS - Parte I
Jornadas UCCN|FCT - Sessao PTCRIS - Parte IJornadas UCCN|FCT - Sessao PTCRIS - Parte I
Jornadas UCCN|FCT - Sessao PTCRIS - Parte I
 
Log palesemaeng3
Log palesemaeng3Log palesemaeng3
Log palesemaeng3
 
Linear - Softwares Matemáticos
Linear - Softwares Matemáticos Linear - Softwares Matemáticos
Linear - Softwares Matemáticos
 
Fórum Internacional de Logística
Fórum Internacional de Logística Fórum Internacional de Logística
Fórum Internacional de Logística
 
II SDTA - Soluções Avançadas de Predição de Trajetórias e Detecção de Conflit...
II SDTA - Soluções Avançadas de Predição de Trajetórias e Detecção de Conflit...II SDTA - Soluções Avançadas de Predição de Trajetórias e Detecção de Conflit...
II SDTA - Soluções Avançadas de Predição de Trajetórias e Detecção de Conflit...
 
Results presentation 1 q14 port
Results presentation 1 q14 portResults presentation 1 q14 port
Results presentation 1 q14 port
 
TRM Environmental R&D
TRM Environmental R&DTRM Environmental R&D
TRM Environmental R&D
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
 
WCM-WORLD CLASS MAINTENANCE-BEST PRACTICES-MANUTENÇÃO CLASSE MUNDIAL - MELHOR...
WCM-WORLD CLASS MAINTENANCE-BEST PRACTICES-MANUTENÇÃO CLASSE MUNDIAL - MELHOR...WCM-WORLD CLASS MAINTENANCE-BEST PRACTICES-MANUTENÇÃO CLASSE MUNDIAL - MELHOR...
WCM-WORLD CLASS MAINTENANCE-BEST PRACTICES-MANUTENÇÃO CLASSE MUNDIAL - MELHOR...
 
226
226226
226
 
Aperfeiçoamento dos mercados livre e regulado
Aperfeiçoamento dos mercados livre e reguladoAperfeiçoamento dos mercados livre e regulado
Aperfeiçoamento dos mercados livre e regulado
 
Cigre 66full (1)
Cigre 66full (1)Cigre 66full (1)
Cigre 66full (1)
 
ESTRUTURA CURRICULAR - ANÁLISE E DESENVOLVIMENTO DE SISTEMAS FACULDADE ESTÁCIO
ESTRUTURA CURRICULAR - ANÁLISE E DESENVOLVIMENTO DE SISTEMAS FACULDADE ESTÁCIOESTRUTURA CURRICULAR - ANÁLISE E DESENVOLVIMENTO DE SISTEMAS FACULDADE ESTÁCIO
ESTRUTURA CURRICULAR - ANÁLISE E DESENVOLVIMENTO DE SISTEMAS FACULDADE ESTÁCIO
 
NextiraOne 2011
NextiraOne  2011NextiraOne  2011
NextiraOne 2011
 

Mais de Pedro Sobreiro

Operacionalização da estratégia no Município de Ourém como aproximação para a...
Operacionalização da estratégia no Município de Ourém como aproximação para a...Operacionalização da estratégia no Município de Ourém como aproximação para a...
Operacionalização da estratégia no Município de Ourém como aproximação para a...Pedro Sobreiro
 
Integrating Knowledge Management in a Business Strategy Process Operationaliz...
Integrating Knowledge Management in a Business Strategy Process Operationaliz...Integrating Knowledge Management in a Business Strategy Process Operationaliz...
Integrating Knowledge Management in a Business Strategy Process Operationaliz...Pedro Sobreiro
 
Operationalization of a solution to automate web forms insertions in the Offi...
Operationalization of a solution to automate web forms insertions in the Offi...Operationalization of a solution to automate web forms insertions in the Offi...
Operationalization of a solution to automate web forms insertions in the Offi...Pedro Sobreiro
 
Identification of Improvement priorities in organizational capabilities: A ca...
Identification of Improvement priorities in organizational capabilities: A ca...Identification of Improvement priorities in organizational capabilities: A ca...
Identification of Improvement priorities in organizational capabilities: A ca...Pedro Sobreiro
 
Presentation to create awareness in the top management of sport organization ...
Presentation to create awareness in the top management of sport organization ...Presentation to create awareness in the top management of sport organization ...
Presentation to create awareness in the top management of sport organization ...Pedro Sobreiro
 
Melhoria Organizacional
Melhoria OrganizacionalMelhoria Organizacional
Melhoria OrganizacionalPedro Sobreiro
 
Operacionalização da estratégia nas organizações desportivas através da defin...
Operacionalização da estratégia nas organizações desportivas através da defin...Operacionalização da estratégia nas organizações desportivas através da defin...
Operacionalização da estratégia nas organizações desportivas através da defin...Pedro Sobreiro
 
Business Process Management in Sports Organizations: A case study in the Euro...
Business Process Management in Sports Organizations: A case study in the Euro...Business Process Management in Sports Organizations: A case study in the Euro...
Business Process Management in Sports Organizations: A case study in the Euro...Pedro Sobreiro
 

Mais de Pedro Sobreiro (9)

Permanência
PermanênciaPermanência
Permanência
 
Operacionalização da estratégia no Município de Ourém como aproximação para a...
Operacionalização da estratégia no Município de Ourém como aproximação para a...Operacionalização da estratégia no Município de Ourém como aproximação para a...
Operacionalização da estratégia no Município de Ourém como aproximação para a...
 
Integrating Knowledge Management in a Business Strategy Process Operationaliz...
Integrating Knowledge Management in a Business Strategy Process Operationaliz...Integrating Knowledge Management in a Business Strategy Process Operationaliz...
Integrating Knowledge Management in a Business Strategy Process Operationaliz...
 
Operationalization of a solution to automate web forms insertions in the Offi...
Operationalization of a solution to automate web forms insertions in the Offi...Operationalization of a solution to automate web forms insertions in the Offi...
Operationalization of a solution to automate web forms insertions in the Offi...
 
Identification of Improvement priorities in organizational capabilities: A ca...
Identification of Improvement priorities in organizational capabilities: A ca...Identification of Improvement priorities in organizational capabilities: A ca...
Identification of Improvement priorities in organizational capabilities: A ca...
 
Presentation to create awareness in the top management of sport organization ...
Presentation to create awareness in the top management of sport organization ...Presentation to create awareness in the top management of sport organization ...
Presentation to create awareness in the top management of sport organization ...
 
Melhoria Organizacional
Melhoria OrganizacionalMelhoria Organizacional
Melhoria Organizacional
 
Operacionalização da estratégia nas organizações desportivas através da defin...
Operacionalização da estratégia nas organizações desportivas através da defin...Operacionalização da estratégia nas organizações desportivas através da defin...
Operacionalização da estratégia nas organizações desportivas através da defin...
 
Business Process Management in Sports Organizations: A case study in the Euro...
Business Process Management in Sports Organizations: A case study in the Euro...Business Process Management in Sports Organizations: A case study in the Euro...
Business Process Management in Sports Organizations: A case study in the Euro...
 

Desempenho previsão abandono

  • 1. Desempenho na previsão do abandono recorrendo ao Machine Learning em serviços de desporto 18ª Conferência da Associação Portuguesa de Sistemas de Informação Pedro Sobreiro, Paulo Pinheiro e Abel Santos Santarém, Portugal, 13 de Outubro de 2018 Instituto Politécnico de Santarém - CIEQV sobreiro@esdrm.ipsantarem.pt 1
  • 2. Estrutura da apresentação Objetivos do estudo Enquadramento teórico Metodologia Resultados Conclusões 2
  • 4. Objetivo do estudo Comparar o desempenho, na previsão do abandono dos clientes, recorrendo a vários algoritmos de machine learning utilizando a aproximação train-test e k-fold 3
  • 6. Enquadramento teórico Porquê prever o abandono? • O setor de prestação de serviços desportivos apresenta taxas de desistência elevadas (Avourdiadou & Theodorakis, 2014) ; • A taxa de retenção em Portugal situa-se em 31% nos Ginásios e Academias (Associação de Empresas de Ginásios e Academias de Portugal, 2016) ; • Emeterio, Iglesias-Soler, Gallardo, Rodriguez-Cañamero e García-Unanue (2016) referem que no primeiro ano de utilização dos ginásios a retenção é apenas de 50%; Avourdiadou, S., & Theodorakis, N. D. (2014). The development of loyalty among novice and experienced customers of sport and fitness centres. Sport Management Review, 17(4), 419–431. doi:10.1016/j.smr.2014.02.001 Associação de Empresas de Ginásios e Academias de Portugal. (2016). Barómetro 2016 Emeterio, I. C. S., Iglesias-Soler, E., Gallardo, L., Rodriguez-Cañamero, S., & García-Unanue, J. (2016). A prediction model of retention in a Spanish fitness centre. Managing Sport and Leisure, 21(5), 300–318. doi:10.1080/23750472.2016.1274675 4
  • 7. Enquadramento teórico Porquê prever o abandono? • A retenção é fundamental para a rentabilidade para os ginásios (Hurley, 2004; MacIntosh & Law, 2015); • A retenção apresenta custos menores em relação à angariação de novos clientes (Ahmad & Buttle, 2002; Edward & Sahadev, 2011); • A previsão do abandono permite aos responsáveis das instalações desportivas desenvolverem ações para contrariar o abandono em clientes em risco; Hurley, T. (2004). Managing Customer Retention in the Health and Fitness Industry: A Case of Neglect. Irish Marketing Review, 17(1/2), 23–29. MacIntosh, E., & Law, B. (2015). Should I stay or should I go? Exploring the decision to join, maintain, or cancel a fitness membership. Managing Sport and Leisure, 20(3), 191–210. doi:10.1080/23750472.2015.1025093 Ahmad, R., & Buttle, F. (2002). Customer retention management: a reflection of theory and practice. Marketing Intelligence & Planning, 20(3), 149–161. doi:10.1108/02634500210428003 Edward, M., & Sahadev, S. (2011). Role of switching costs in the service quality, perceived value, customer satisfaction and customer retention linkage. Asia Pacific Journal of Marketing and Logistics, 23(3), 327–345. doi:10.1108/13555851111143240 5
  • 8. Algoritmos para previsões Algoritmos para previsão • A previsão do abandono é um problema de classificação (abandona ou não abandona). Utiliza um conjunto de técnicas para aprenderem a modelar a relação entre um conjunto de características descritivas e uma característica alvo (Kelleher et al., 2015); • Os algoritmos que analisamos foram selecionados de acordo com a disponibilidade da biblioteca scikit-learn (Pedregosa et al., 2011), considerando o desempenho, disponibilidade de documentação e a variedade de algoritmos disponibilizados; Kelleher, J. D., Namee, B. M., & D’Arcy, A. (2015). Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies (1 edition). Cambridge, Massachusetts: The MIT Press Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., … Duchesnay, É. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12(Oct), 2825–2830 6
  • 10. Metodologia • Foram tratados dados de 8376 clientes de uma instalação desportiva de Lisboa, obtidos através da aplicação informática e@sport durante o período de tempo de 01 de Junho de 2014 até 31 de Outubro de 2017, correspondendo aos dados dos clientes, histórico de pagamentos e acessos aos serviços disponibilizados; • O tratamento de dados foi realizado com o Anaconda e IPython (Continuum Analytics, 2016) e recorrendo ao Pandas (McKinney & others, 2010) e NumPy (Walt, Colbert, & Varoquaux, 2011); Continuum Analytics. (2016). Anaconda Software Distribution. Obtido 20 de Julho de 2017, de https://www.anaconda.com/download/ McKinney, W., & others. (2010). Data structures for statistical computing in python. Em Proceedings of the 9th Python in Science Conference (Vol. 445, pp. 51–56). SciPy Austin, TX. Obtido de https://pdfs.semanticscholar.org/f6da/c1c52d3b07c993fe52513b8964f86e8fe381.pdf Walt, S. van der, Colbert, S. C., & Varoquaux, G. (2011). The NumPy Array: A Structure for Efficient Numerical Computation. Computing in Science & Engineering, 13(2), 22–30. doi:10.1109/MCSE.2011.37 7
  • 11. Metodologia • A previsão e teste do modelo utilizou dados de treino e teste numa proporção de 70/30% considerando a sua utilização generalizada na literatura (Buntine & Niblett, 1992) e a validação cruzada, recorrendo ao k-fold, dividindo em k grupos de dimensões iguais, onde se realiza k iterações para treinar e testar, o que obriga a que se treine o modelo k vezes. Continuum Analytics. (2016). Anaconda Software Distribution. Obtido 20 de Julho de 2017, de https://www.anaconda.com/download/ McKinney, W., & others. (2010). Data structures for statistical computing in python. Em Proceedings of the 9th Python in Science Conference (Vol. 445, pp. 51–56). SciPy Austin, TX. Obtido de https://pdfs.semanticscholar.org/f6da/c1c52d3b07c993fe52513b8964f86e8fe381.pdf Walt, S. van der, Colbert, S. C., & Varoquaux, G. (2011). The NumPy Array: A Structure for Efficient Numerical Computation. Computing in Science & Engineering, 13(2), 22–30. doi:10.1109/MCSE.2011.37 Buntine, W., & Niblett, T. (1992). A further comparison of splitting rules for decision-tree induction. Machine Learning, 8(1), 75–85. doi:10.1007/BF00994006 8
  • 12. Metodologia Table 1: Algoritmos utilizados para a classificação do abandono Algoritmo k nearest neighbors classifier C-Support Vector Classification Logistic Regression Decision Tree Classifier Gaussian Naive Bayes Random Forest Classifier Gradient Boosting Classifier 9
  • 13. Metodologia Table 2: Variáveis utilizadas Variável Definição idade Representa a idade do cliente genero Representa o género do cliente diassemfrequencia O número de dias sem frequentar as instalações mesesinscricao Tempo de inscrição do cliente em meses volnegocios Valor faturado ao cliente freqmedia Frequencia média do cliente por semana utilizacao_livre Variável que indica se o cliente realizava ou não uma utilização livre da instalação atividade_aquaticas Realiza ou não atividade aquática atividade_fitness Realizar ou não atividade fitness natividades Número de atividades nfrequencias Número de vezes que o cliente frequentou a instalação freqcontratadasemanal Número de vezes que o cliente contratou realizar nrenovacoes Número de vezes que o cliente renovou o contrato nreferencias Número de referências que indicou classe_desistencia Abandonou ou não 10
  • 15. Exatidão da previsão • Calculada através da confrontação da previsão realizada face à situação real do cliente, se abandonou ou não abandonou a instalação desportiva; • Exatidão obtida através da matriz de confusão que representa os True Positive (TP - Não abandonou com resultado previsto de não abandono), True Negative (TN - Abandonou com resultado previsto de abandonar), False Positive (FP - Não abandonou com resultado previsto de abandonar), False Negative (FN - Abandonou com resultado previsto de não abandonar); • A precisão da previsão calculada com TP/(TP+FP) referente aos clientes que não abandonaram; 11
  • 16. Exatidão da previsão Table 3: Comparação da taxa de sucesso e tempo de execução das previsões realizadas Algoritmo Exatidão TT Tempo TT Exatidão k-fold Tempo k-fold KNN 0.879179 0.219 0.880611 0.323 SVC 0.788443 6.215 0.780919 67.686 LR 0.851480 0.147 0.853630 1.140 DT 0.888730 0.060 0.894583 0.519 GNB 0.781757 0.010 0.795128 0.076 RFC 0.924069 0.242 0.916551 0.943 GBC 0.933142 0.797 0.926700 6.065 12
  • 17. Resultados Comparamos os resultados obtidos na exatidão e tempo de execução nos algoritmos k nearest neighbors classifier; C-Support Vector Classification; Logistic Regression; Decision Tree Classifier; Gaussian Naive Bayes; Random Forest Classifier e Gradient Boosting Classifier com o teste Mann-Withney. Os resultados obtidos com um p > 0.05 permitem-nos afirmar que não existem diferenças significativas na exatidão da previsão e no tempo de execução. 13
  • 19. Conclusões • Na comparação do desempenho não encontramos diferenças significativas nos resultados obtidos nos algoritmos utilizando 70/30% para treinar e testar e o k-fold; • Apesar das vantagens que o k-fold apresenta para reduzir o problema de overfitting, a sua utilização deverá ser equacionada considerando a duração na previsão; • O algoritmo baseado no Gradient Boosting Classifier apresentou um bom desempenho em termos precisão, contudo se tivermos necessidade de um algoritmo com melhor desempenho considerando a execução, o Random Forest Classifier poderá ser uma opção para a previsão do abandono; 14
  • 20. Obrigado! Pedro Sobreiro - ESDRM-IPSantarem / CIEQV Paulo Pinheiro - Cedis/Universidade Aberta Abel Santos - ESDRM-IPSantarem / CIEQV 15