O único agrupamento possível: O que é clustering em Machine Learning

O único agrupamento
possível: O que é clustering
em Machine Learning
Por Ludimila Gonçalves
E-mail: ludigoncalves.11@gmail.com
Linkedin: www.linkedin.com/in/ludimilagonçalves
Github: github.com/ludigoncalves

Bio
Uma Humaitaense em Cape
Town!
● Bacharel em Ciência da Computação -
UFAM
● Mestre em Informática - UFAM
○ Ênfase em Sistemas de Recomendação
● Pesquisa em Detecção de Rotina
● Atuando em Data Science desde 2017 e
em Machine Learning desde 2011!
● AI Engineer na Bemol Digital <3
2

Machine Learning
TIPO DE
APRENDIZADO
3

Machine Learning
TIPO DE
APRENDIZADO
4

Machine Learning
TIPO DE
APRENDIZADO
Supervisionado
O que é?
● Algoritmo aprende a partir de
dados rotulados
Tarefa?
● Classificação (i.e. e-mail é
spam?)
5

Machine Learning
TIPO DE
APRENDIZADO
Supervisionado
Não-supervisionado
O que é?
dados rotulados
Tarefa?
spam?)
O que é?
dados sem rótulos
Tarefa?
● Clustering
● Detecção de anomalia
● Redução de dimensionalidade
● Regras de associação 6

Machine Learning
TIPO DE
APRENDIZADO
Supervisionado
Não-supervisionado
Semi-supervisionado
O que é?
dados rotulados
Tarefa?
spam?)
O que é?
dados sem rótulos
Tarefa?
● Clustering
● Regras de associação
O que é?
dados parcialmente rotulados
Tarefa?
● Em geral, algoritmos são
combinação de não-
supervisionado e
supervisionado
7

Machine Learning
TIPO DE
APRENDIZADO
Supervisionado
Não-supervisionado
Semi-supervisionado
Reforço
O que é?
dados rotulados
Tarefa?
spam?)
O que é?
dados sem rótulos
Tarefa?
● Clustering
O que é?
Tarefa?
supervisionado e
supervisionado
O que é?
● Sistema observa o ambiente,
seleciona e executa ações e
recebe recompensas em retorno
Tarefa?
● i.e. Carro autônomo
8

Machine Learning
TIPO DE
APRENDIZADO
Supervisionado
Não-supervisionado
Semi-supervisionado
Reforço
O que é?
dados rotulados
Tarefa?
spam?)
O que é?
dados sem rótulos
Tarefa?
● Clustering
O que é?
Tarefa?
supervisionado e
supervisionado
O que é?
● Sistema observa o ambiente,
seleciona e executa ações e
recebe recompensas em retorno
Tarefa?
● Carro autônomo
9

Clustering
O objetivo: Identificar indivíduos similares e atribuí-los a grupos (clusters)
10
* Imagem retirada do livro Hands-on Machine Learning with Scikit-Learn, Keras, and Tensorflow.

Clustering
Características/Atributos
(Feature)
11

Clustering
(Feature)
Indivíduos/
Instâncias
12

Clustering
(Feature)
Indivíduos/
Instâncias
5 Clusters
13

E o que clustering tem de
diferente de classificação?
14

Classificação vs. Clustering
Dados rotulados Dados não rotulados
Rótulos
15

E quais são os algoritmos de
clustering?
16

Estratégias de clustering
Algoritmos que identificam instâncias ao
redor de um ponto particular (centroid)
17

Algoritmos que procuram por regiões
densas: regiões podem ter qualquer forma
18

Algoritmos que procuram por regiões
densas: regiões podem ter qualquer forma
19

K-Means
● Rápido e eficiente para esse
formato de conjunto de dados
20

K-Means
● K-Means identifica instâncias
ao redor de um ponto
particular (centroid)
21

K-Means
● K-Means identifica instâncias
ao redor de um ponto
particular (centroid)
22
Parâmetro do Modelo

K-Means: o algoritmo
23

24

25
Limites de decisão

26
Limites de decisão

27
Limites de decisão

28
Limites de decisão

29
Limites de decisão

30
Limites de decisão
SOLUÇÃO FINAL

31
Limites de decisão
SOLUÇÃO FINAL
Executa m vezes e
guarda o modelo com a
melhor inertia (métrica
de avaliação)

K-Means
Mas então, como encontrar o melhor k? Inertia?
32

K-Means
Mas então, como encontrar o melhor k? Inertia?
R: MAIS OU MENOS!
33
Inertia = 653.2 Inertia = 119.1

K-Means
Mas então, como encontrar o melhor k?
34
Plotando inertia em função de k

K-Means
35
Silhouette Score

K-Means
36
Silhouette Score

K-Means
37
Silhouette Score
Relação entre distância
média intra-cluster e
distância média para
instâncias do cluster
mais próximo

K-Means
38
Silhouette Score
mais próximo
> Próximo a +1 = instância
corretamente posicionada
> Próxima a -1 = instância
talvez posicionada erradamente
> Próxima a 0 = instância
próxima a limite

K-Means
39
Silhouette Score
mais próximo
> Próximo a +1 = instância
corretamente posicionada
> Próxima a -1 = instância
talvez posicionada erradamente
> Próxima a 0 = instância
próxima a limite
Melhor ponto

K-Means
E isso serve pra quê já?
Segmentação de usuário/cliente
40
* Desafio que a autora realizou em segmentação utilizando a base de dados Online Retail <https://www.kaggle.com/hellbuoy/online-retail-customer-clustering>.
Estágio da
jornada
Comportamento
de compra
Satisfação Interesses Nível de
engajamento

K-Means
Segmentação de usuário/cliente
41
* Desafio que a autora realizou em segmentação utilizando a base de dados Online Retail <https://www.kaggle.com/hellbuoy/online-retail-customer-clustering>.
Estágio da
jornada
Comportamento
de compra
Satisfação Interesses Nível de
engajamento

K-Means
Sistemas de Recomendação
42
Abordagem simples: Recomendar produtos
com base em usuários similares (pertencentes ao
mesmo cluster).
* Imagem retirada de pesquisa no Google.

K-Means
Aprendizado semi-supervisionado
43
MNIST dataset

K-Means
44
MNIST dataset
Processo
1. Executa k-means
2. Encontra as instâncias representativas
3. Propaga os rótulos

K-Means
45
MNIST dataset
Processo
1. Executa k-means
2. Encontra as instâncias representativas
3. Propaga os rótulos

K-Means
Tudo tem limites nessa vida, até no K-Means!
Problemas
● Executar muitas vezes para evitar soluções ruins
● Especificar o número de clusters
● Não desempenha bem com clusters de diferentes tamanhos, densidades ou formas não
esféricas
46

K-Means
Problemas
esféricas
47
Inertia menor, porém
solução ruim

K-Means
Problemas
esféricas
48
Inertia menor, porém
solução ruim
Modelos de mistura
Gaussiana (GMM) são
bons para esse tipo de
cluster.

Outros algoritmos de clustering
● DBSCAN, HDBSCAN
● Versões otimizadas do k-means
● BIRCH
● Agglomerative clustering
49

E-mail: ludigoncalves.11@gmail.com
Linkedin: www.linkedin.com/in/ludimilagonçalves
Github: github.com/ludigoncalves
É ISSO GENTE!!
Obrigada!
50

O único agrupamento possível: O que é clustering em Machine Learning

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a O único agrupamento possível: O que é clustering em Machine Learning

Semelhante a O único agrupamento possível: O que é clustering em Machine Learning (20)

Último

Último (7)

O único agrupamento possível: O que é clustering em Machine Learning