Nesta apresentação, apresento um passo a passo prático de como clusterizar e mais importante que isso, como interpretar os resultados aplicando isso para auxiliar a tomada de decisão.
No final temos um exercício de fixação muito interessante que nos dá a oportunidade de aplicar os conhecimentos adquiridos.
jgabriel.ufpa@gmail.com
2. Prof. João Gabriel Lima
• Pesquisador em Mineração de dados e Inteligência Computacional;
• Engenheiro da Computação, especialista em Software e Hardware;
• Doutorando em Computação Aplicada;
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
5. Qual a história dos seus dados?
…E AS PERGUNTAS QUE QUEREMOS RESPONDER
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
6. Base de dados - BMW
Os exemplos giram em torno de uma concessionária local da BMW e como ela pode aumentar as vendas.
A concessionária armazenou todas suas informações de vendas passadas e informações a respeito de cada pessoa
que:
comprou uma BMW
olhou uma BMW
procurou algo no salão de exposição da BMW.
A concessionária quer aumentar suas vendas futuras e empregar
mineração de dados para conseguir isso.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
8. Regressão
◦ Determinar quanto as pessoas pagaram pelos carros anteriores da
concessionária, baseando-se nos atributos e características de
vendas dos carros vendidos.
O modelo permitiria que a concessionária da BMW inserisse
os novos atributos do carro para determinar o preço.
"Quanto deveríamos cobrar pela nova BMW M5?”
Um modelo de regressão usaria dados de vendas passadas sobre BMWs e M5s
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
9. Classificação
Qual a probabilidade de uma pessoa X comprar o mais novo
modelo BMW M5?
Criando uma árvore de classificação, os dados podem
ser minerados para determinar a probabilidade de essa
pessoa comprar um novo M5.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
10. Clusterização
Comparar a idade dos compradores prévios de
carros e as cores que eles compraram no passado.
A partir desses dados, é possível encontrar se certas
faixas estão mais propensas a comprar um certo
tipo de cor da BMW M5.
Que faixa etária gosta da BMW M5 da cor prata?
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
12. O que é?
o Método que permite que um usuário faça grupos de dados para
determinar padrões a partir dos dados.
o Um benefício decisivo do armazenamento em cluster sobre a
classificação é que cada atributo no conjunto de dados será usado
para analisar os dados.
o Uma grave desvantagem de usar o armazenamento em cluster é
que o usuário necessita saber de antemão quantos grupos ele
gostaria de criar
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
13. Visão matemática
§ Cada atributo nesse conjunto de dados deve ser normalizado, pelo qual cada
valor é dividido pela diferença entre o valor alto e o valor baixo no
conjunto de dados para esse atributo.
§ Por exemplo, se o atributo for idade e o valor mais alto for 72 e o valor mais
baixo for 16, então, a idade 32 deve ser normalizada para 0,5714.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
14. Visão matemática
§ Dado o número de clusters desejados, selecione, de
maneira aleatória, esse número de amostras do conjunto
de dados para servir como nossos centros iniciais de teste
de clusters.
§ Por exemplo, caso deseje ter três clusters, você
selecionaria, de maneira aleatória, três linhas de dados do
conjunto de dados.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
15. Visão matemática
• Calcule a distância de cada amostra de dados até o centro
do cluster (ou linha de dados selecionada aleatoriamente), usando
o método de cálculo de distância dos mínimos quadrados.
• Atribua cada linha de dados a um cluster, baseando-se na
distância mínima até cada centro do cluster.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
16. Visão matemática
• Calcule o centroide, que é a média de cada coluna de dados
usando somente os membros de cada cluster.
• Calcule a distância de cada amostra de dados até os centroides
recém-criados.
•Se os clusters e membros de cluster não mudarem, você terminou
e os clusters estão criados.
•Caso eles mudem, é necessário começar novamente voltando à
etapa 3 e continuando novamente até que os clusters não sejam
modificados.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
24. Interpretando o resultado
Cluster 0
Grupo de "Sonhadores", eles andam pela
concessionária, mas diminui no que diz
respeito a entrar na concessionária e, o pior
de tudo, eles não compram nada.
Atributos Cluster 0
Dealership 0.9615
Showroom 0.6923
ComputerSearch 0.6538
M5 0.4615
3Series 0.3846
Z4 0.5385
Financing 0.4615
Purchase 0
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
25. Interpretando o resultado
Cluster 1
"Amantes do M5”, pois tendem a ir
diretamente em direção aos M5, ignorando os
carros 3-series e o Z4. Não possuem uma alta
taxa de compra. Poderia ser um foco de
melhoria para a concessionária, talvez enviando
mais vendedores para a seção do M5
Atributos Cluster 1
Dealership 0.6667
Showroom 0.6667
ComputerSearch 0
M5 0.963
3Series 0.4444
Z4 0
Financing 0.6296
Purchase 0.5185
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
26. Interpretando o resultado
Cluster 2
Não são estatisticamente relevantes e não
podemos tirar nenhuma conclusão boa de seu
comportamento
Atributos Cluster 2
Dealership 1
Showroom 0
ComputerSearch 1
M5 1
3Series 0.8
Z4 0.8
Financing 0.8
Purchase 0.4
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
27. Interpretando o resultado
Cluster 3
Sempre acabam comprando um carro e
sempre acabam financiando-o. Eles andam
pelo estacionamento olhando para os carros,
então usam a pesquisa do computador
disponível na concessionária. Tendem a
comprar M5s ou Z4s (mas nunca 3-series)
Atributos Cluster 3
Dealership 0.8571
Showroom 0.5714
ComputerSearch 0.8571
M5 0.7143
3Series 0.0714
Z4 0.5714
Financing 1
Purchase 1
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
28. Interpretando o resultado
Cluster 4
Sempre olham o 3-series e nunca olham para o
M5, que é muito mais caro. Entram diretamente no
salão de exibição, 50 por cento chegam ao estágio
de financiamento, somente 32 por cento acabam
finalizando a transação.
Atributos Cluster 4
Dealership 0
Showroom 1
ComputerSearch 0.3214
M5 0
3Series 1
Z4 0.6786
Financing 0.5
Purchase 0.3214
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
31. Atividade
o Com uma base de dados om perfils de clientes de um banco, faça a
clusterização dos clientes analizando, respectivamente, o risco de
conceder créditos.
o O resultado deve ser um relatório que mostre o processo de
clusterização realizado e principalmente INTERPRETE e EXPLIQUE os
resultados, mostrando como esse resultado pode vir a auxiliar a
tomada de decisão.
oBase de dados: https://goo.gl/1ooaYP
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
32. Algumas outras fontes de dados
https://archive.ics.uci.edu/ml/datasets.html
http://snap.stanford.edu/data/index.html
https://www.kaggle.com/datasets
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima