Mineração de	dados	com	
RapidMiner +	WEKA
Clusterização
PROF.	JOÃO GABRIEL	LIMA
@JGABRIEL_LIMA
LINKEDIN.COM/IN/JOAOGABRIELLIMA
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Prof.	João Gabriel	Lima
• Pesquisador em Mineração de	dados	e	Inteligência Computacional;	
• Engenheiro da	Computação,	especialista em Software	e	Hardware;	
• Doutorando em Computação Aplicada;
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Processo de	Extração do	conhecimento
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Conhecendo nossa base	de	dados
ENTENDER O	DOMÍNIO E	O	CONHECIMENTO QUE	PODEMOS
EXTRAIR
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Qual a	história dos	seus dados?	
…E	AS	PERGUNTAS QUE	QUEREMOS RESPONDER
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Base	de	dados	- BMW
Os exemplos giram em torno de	uma concessionária local	da	BMW	e	como ela pode aumentar as	vendas.	
A	concessionária armazenou todas suas informações de	vendas passadas e	informações a	respeito de	cada pessoa
que:
comprou uma BMW
olhou uma BMW
procurou algo no	salão de	exposição da	BMW.	
A	concessionária quer aumentar suas vendas futuras e	empregar
mineração de	dados	para	conseguir isso.
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Como	podemos extrair esse
conhecimento?
VAMOS	VER	UM	POUCO	SOBRE	QUAIS	MÉTODOS	VAMOS	APLICAR...
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Regressão
◦ Determinar quanto as	pessoas pagaram pelos carros anteriores da	
concessionária,	baseando-se	nos atributos e	características de	
vendas dos	carros vendidos.	
O modelo permitiria que	a	concessionária da	BMW	inserisse
os novos atributos do	carro para	determinar o	preço.	
"Quanto deveríamos cobrar pela	nova	BMW	M5?”
Um	modelo de	regressão usaria dados	de	vendas passadas sobre BMWs	e	M5s
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Classificação
Qual a	probabilidade de	uma pessoa X	comprar o	mais novo	
modelo BMW	M5?
Criando uma árvore de	classificação,	os dados	podem
ser minerados para	determinar a	probabilidade de	essa
pessoa comprar um	novo	M5.
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Clusterização
Comparar a idade dos compradores prévios de
carros e as cores que eles compraram no passado.
A partir desses dados, é possível encontrar se certas
faixas estão mais propensas a comprar um certo
tipo de cor da BMW M5.
Que	faixa etária gosta da	BMW	M5	da	cor prata?
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Clusterização
ENCONTRANDO	GRUPOS EM	SEUS	DADOS
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
O	que	é?
o Método que	permite que	um	usuário faça grupos de	dados	para	
determinar padrões a	partir dos	dados.
o Um	benefício decisivo do	armazenamento em cluster	sobre a	
classificação é que	cada atributo no	conjunto de	dados	será usado
para	analisar os dados.
o Uma	grave	desvantagem de	usar o	armazenamento em cluster	é
que	o	usuário necessita saber	de	antemão quantos grupos ele
gostaria de	criar
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Visão matemática
§ Cada atributo nesse conjunto de dados deve ser normalizado, pelo qual cada
valor é dividido pela diferença entre o valor alto e o valor baixo no
conjunto de dados para esse atributo.
§ Por exemplo, se o atributo for idade e o valor mais alto for 72 e o valor mais
baixo for 16, então, a idade 32 deve ser normalizada para 0,5714.
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Visão matemática
§ Dado o número de clusters desejados, selecione, de
maneira aleatória, esse número de amostras do conjunto
de dados para servir como nossos centros iniciais de teste
de clusters.
§ Por exemplo, caso deseje ter três clusters, você
selecionaria, de maneira aleatória, três linhas de dados do
conjunto de dados.
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Visão matemática
• Calcule a distância de cada amostra de dados até o centro
do cluster (ou linha de dados selecionada aleatoriamente), usando
o método de cálculo de distância dos mínimos quadrados.
• Atribua cada linha de dados a um cluster, baseando-se na
distância mínima até cada centro do cluster.
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Visão matemática
• Calcule o	centroide, que	é a	média de	cada coluna de	dados	
usando somente os membros de	cada cluster.
• Calcule a	distância de	cada amostra de	dados	até os centroides
recém-criados.	
•Se	os clusters	e	membros de	cluster	não mudarem,	você terminou
e	os clusters	estão criados.	
•Caso eles mudem,	é necessário começar novamente voltando à
etapa 3	e	continuando novamente até que	os clusters	não sejam
modificados.	
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Esse é o	
processo de	
clusterização!
Perfeito!	e	aí?
Vamos lá:	Passo-a-Passo
o Carregue o	arquivo de	dados	no	WEKA	usando as	mesmas etapas que	usamos para	carregar
dados	na guia Preprocess
Vamos lá:	Passo-a-Passo
oNa	guia Cluster,	clique	em Choose e	selecione SimpleKMeans a	partir das	opções que	
aparecem
Vamos lá:	Passo-a-Passo
o Vamos justar o	campo	numClusters,	que	nos diz quantos clusters	desejamos criar
Vamos lá:	Passo-a-Passo
oSaída da	clusterização:
Interpretando o	modelo de	clusterização
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Interpretando o	resultado
Cluster	0	
Grupo de	"Sonhadores",	eles andam pela	
concessionária,	mas	diminui no	que	diz
respeito a	entrar na concessionária e,	o	pior
de	tudo,	eles não compram nada.	
Atributos Cluster	0
Dealership 0.9615	
Showroom 0.6923	
ComputerSearch 0.6538	
M5 0.4615
3Series 0.3846
Z4 0.5385	
Financing 0.4615
Purchase 0
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Interpretando o	resultado
Cluster	1
"Amantes do	M5”,	pois tendem a	ir
diretamente em direção aos M5,	ignorando os
carros 3-series	e	o	Z4.	Não possuem uma alta
taxa	de	compra.	Poderia ser um	foco de	
melhoria para	a	concessionária,	talvez enviando
mais vendedores para	a	seção do	M5
Atributos Cluster	1
Dealership 0.6667
Showroom 0.6667
ComputerSearch 0
M5 0.963
3Series 0.4444
Z4 0
Financing 0.6296
Purchase 0.5185
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Interpretando o	resultado
Cluster	2
Não são estatisticamente relevantes e	não
podemos tirar nenhuma conclusão boa	de	seu
comportamento
Atributos Cluster	2
Dealership 1
Showroom 0
ComputerSearch 1
M5 1
3Series 0.8
Z4 0.8
Financing 0.8
Purchase 0.4
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Interpretando o	resultado
Cluster	3
Sempre acabam comprando um	carro e	
sempre acabam financiando-o.	Eles andam
pelo estacionamento olhando para	os carros,	
então usam a	pesquisa do	computador
disponível na concessionária.	Tendem a	
comprar M5s	ou Z4s	(mas	nunca 3-series)
Atributos Cluster	3
Dealership 0.8571
Showroom 0.5714
ComputerSearch 0.8571
M5 0.7143
3Series 0.0714
Z4 0.5714
Financing 1
Purchase 1
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Interpretando o	resultado
Cluster	4
Sempre olham o	3-series	e	nunca olham para	o	
M5,	que	é muito mais caro.	Entram diretamente no	
salão de	exibição,	50	por cento chegam ao estágio
de	financiamento,	somente 32	por cento	acabam
finalizando a	transação.
Atributos Cluster	4
Dealership 0
Showroom 1
ComputerSearch 0.3214
M5 0
3Series 1
Z4 0.6786
Financing 0.5
Purchase 0.3214
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Já to	safo!
Agora	é
minha vez!
Atividade
HORA	DE	COLOCAR SEUS CONHECIMENTOS EM PRÁTICA
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Atividade
o Com	uma base	de	dados	om	perfils de	clientes de	um	banco,	faça a	
clusterização dos	clientes analizando,	respectivamente,	o	risco de	
conceder	créditos.
o O	resultado deve ser um	relatório que	mostre o	processo de	
clusterização realizado e	principalmente INTERPRETE	e	EXPLIQUE	 os
resultados,	mostrando como esse resultado pode vir a	auxiliar a	
tomada de	decisão.	
oBase	de	dados:	https://goo.gl/1ooaYP
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Algumas outras fontes de	dados
https://archive.ics.uci.edu/ml/datasets.html
http://snap.stanford.edu/data/index.html
https://www.kaggle.com/datasets
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Créditos
https://www.ibm.com/developerworks/br/opensource/library/os-weka2/
https://mineracaodedados.wordpress.com/
http://hunch.net/?p=3692542
http://en.wikipedia.org/wiki/Regression_analysis
http://weka.wikispaces.com/ARFF+%28book+version%29
http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=375&cat=5
https://pt.wikipedia.org/wiki/R%C2%B2
https://pt.wikipedia.org/wiki/Qui-quadrado
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Mineração de	dados	com	
RapidMiner +	WEKA
Clusterização
PROF.	JOÃO GABRIEL	LIMA
@JGABRIEL_LIMA
LINKEDIN.COM/IN/JOAOGABRIELLIMA
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima

Mineração de dados com RapidMiner + WEKA - Clusterização

  • 1.
    Mineração de dados com RapidMiner + WEKA Clusterização PROF. JOÃOGABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 2.
    Prof. João Gabriel Lima • Pesquisadorem Mineração de dados e Inteligência Computacional; • Engenheiro da Computação, especialista em Software e Hardware; • Doutorando em Computação Aplicada; Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 3.
    Processo de Extração do conhecimento Mineraçãode dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 4.
    Conhecendo nossa base de dados ENTENDERO DOMÍNIO E O CONHECIMENTO QUE PODEMOS EXTRAIR Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 5.
    Qual a história dos seusdados? …E AS PERGUNTAS QUE QUEREMOS RESPONDER Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 6.
    Base de dados - BMW Os exemplosgiram em torno de uma concessionária local da BMW e como ela pode aumentar as vendas. A concessionária armazenou todas suas informações de vendas passadas e informações a respeito de cada pessoa que: comprou uma BMW olhou uma BMW procurou algo no salão de exposição da BMW. A concessionária quer aumentar suas vendas futuras e empregar mineração de dados para conseguir isso. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 7.
  • 8.
    Regressão ◦ Determinar quantoas pessoas pagaram pelos carros anteriores da concessionária, baseando-se nos atributos e características de vendas dos carros vendidos. O modelo permitiria que a concessionária da BMW inserisse os novos atributos do carro para determinar o preço. "Quanto deveríamos cobrar pela nova BMW M5?” Um modelo de regressão usaria dados de vendas passadas sobre BMWs e M5s Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 9.
    Classificação Qual a probabilidade de umapessoa X comprar o mais novo modelo BMW M5? Criando uma árvore de classificação, os dados podem ser minerados para determinar a probabilidade de essa pessoa comprar um novo M5. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 10.
    Clusterização Comparar a idadedos compradores prévios de carros e as cores que eles compraram no passado. A partir desses dados, é possível encontrar se certas faixas estão mais propensas a comprar um certo tipo de cor da BMW M5. Que faixa etária gosta da BMW M5 da cor prata? Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 11.
  • 12.
    O que é? o Método que permiteque um usuário faça grupos de dados para determinar padrões a partir dos dados. o Um benefício decisivo do armazenamento em cluster sobre a classificação é que cada atributo no conjunto de dados será usado para analisar os dados. o Uma grave desvantagem de usar o armazenamento em cluster é que o usuário necessita saber de antemão quantos grupos ele gostaria de criar Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 13.
    Visão matemática § Cadaatributo nesse conjunto de dados deve ser normalizado, pelo qual cada valor é dividido pela diferença entre o valor alto e o valor baixo no conjunto de dados para esse atributo. § Por exemplo, se o atributo for idade e o valor mais alto for 72 e o valor mais baixo for 16, então, a idade 32 deve ser normalizada para 0,5714. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 14.
    Visão matemática § Dadoo número de clusters desejados, selecione, de maneira aleatória, esse número de amostras do conjunto de dados para servir como nossos centros iniciais de teste de clusters. § Por exemplo, caso deseje ter três clusters, você selecionaria, de maneira aleatória, três linhas de dados do conjunto de dados. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 15.
    Visão matemática • Calculea distância de cada amostra de dados até o centro do cluster (ou linha de dados selecionada aleatoriamente), usando o método de cálculo de distância dos mínimos quadrados. • Atribua cada linha de dados a um cluster, baseando-se na distância mínima até cada centro do cluster. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 16.
    Visão matemática • Calculeo centroide, que é a média de cada coluna de dados usando somente os membros de cada cluster. • Calcule a distância de cada amostra de dados até os centroides recém-criados. •Se os clusters e membros de cluster não mudarem, você terminou e os clusters estão criados. •Caso eles mudem, é necessário começar novamente voltando à etapa 3 e continuando novamente até que os clusters não sejam modificados. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 17.
    Esse é o processode clusterização!
  • 18.
  • 19.
    Vamos lá: Passo-a-Passo o Carregueo arquivo de dados no WEKA usando as mesmas etapas que usamos para carregar dados na guia Preprocess
  • 20.
    Vamos lá: Passo-a-Passo oNa guia Cluster, clique emChoose e selecione SimpleKMeans a partir das opções que aparecem
  • 21.
    Vamos lá: Passo-a-Passo o Vamosjustar o campo numClusters, que nos diz quantos clusters desejamos criar
  • 22.
  • 23.
    Interpretando o modelo de clusterização Mineraçãode dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 24.
    Interpretando o resultado Cluster 0 Grupo de "Sonhadores", elesandam pela concessionária, mas diminui no que diz respeito a entrar na concessionária e, o pior de tudo, eles não compram nada. Atributos Cluster 0 Dealership 0.9615 Showroom 0.6923 ComputerSearch 0.6538 M5 0.4615 3Series 0.3846 Z4 0.5385 Financing 0.4615 Purchase 0 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 25.
    Interpretando o resultado Cluster 1 "Amantes do M5”, poistendem a ir diretamente em direção aos M5, ignorando os carros 3-series e o Z4. Não possuem uma alta taxa de compra. Poderia ser um foco de melhoria para a concessionária, talvez enviando mais vendedores para a seção do M5 Atributos Cluster 1 Dealership 0.6667 Showroom 0.6667 ComputerSearch 0 M5 0.963 3Series 0.4444 Z4 0 Financing 0.6296 Purchase 0.5185 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 26.
    Interpretando o resultado Cluster 2 Não sãoestatisticamente relevantes e não podemos tirar nenhuma conclusão boa de seu comportamento Atributos Cluster 2 Dealership 1 Showroom 0 ComputerSearch 1 M5 1 3Series 0.8 Z4 0.8 Financing 0.8 Purchase 0.4 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 27.
    Interpretando o resultado Cluster 3 Sempre acabamcomprando um carro e sempre acabam financiando-o. Eles andam pelo estacionamento olhando para os carros, então usam a pesquisa do computador disponível na concessionária. Tendem a comprar M5s ou Z4s (mas nunca 3-series) Atributos Cluster 3 Dealership 0.8571 Showroom 0.5714 ComputerSearch 0.8571 M5 0.7143 3Series 0.0714 Z4 0.5714 Financing 1 Purchase 1 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 28.
    Interpretando o resultado Cluster 4 Sempre olhamo 3-series e nunca olham para o M5, que é muito mais caro. Entram diretamente no salão de exibição, 50 por cento chegam ao estágio de financiamento, somente 32 por cento acabam finalizando a transação. Atributos Cluster 4 Dealership 0 Showroom 1 ComputerSearch 0.3214 M5 0 3Series 1 Z4 0.6786 Financing 0.5 Purchase 0.3214 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 29.
  • 30.
    Atividade HORA DE COLOCAR SEUS CONHECIMENTOSEM PRÁTICA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 31.
    Atividade o Com uma base de dados om perfilsde clientes de um banco, faça a clusterização dos clientes analizando, respectivamente, o risco de conceder créditos. o O resultado deve ser um relatório que mostre o processo de clusterização realizado e principalmente INTERPRETE e EXPLIQUE os resultados, mostrando como esse resultado pode vir a auxiliar a tomada de decisão. oBase de dados: https://goo.gl/1ooaYP Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 32.
    Algumas outras fontesde dados https://archive.ics.uci.edu/ml/datasets.html http://snap.stanford.edu/data/index.html https://www.kaggle.com/datasets Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  • 33.
  • 34.
    Mineração de dados com RapidMiner + WEKA Clusterização PROF. JOÃOGABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima