O documento discute o algoritmo COP-Kmeans para agrupamento de dados com restrições. COP-Kmeans realiza agrupamento k-means enquanto respeita restrições de nível de instância como must-link e cannot-link. O algoritmo atribui objetos a clusters sem violar restrições e atualiza centros de clusters. Resultados experimentais mostram que restrições podem melhorar agrupamento quando informativas sobre estrutura dos dados.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Constrained k means clustering with background knowledge - COP-Kmeans
1. .
.
Constrained K-means Clustering with Background
Knowledge
COP-Kmeans
Sibelius Seraphini
Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo
1 de dezembro de 2014
Sibelius Seraphini COP-Kmeans 1 / 14
2. . k-Means
1. Escolhe aleatoriamente k centros para os clusters
2. Atribuir cada objeto para o cluster de centro mais próximo
3. Atualizar cada centro para a média dos objetos do cluster
correspondente
Sibelius Seraphini COP-Kmeans 2 / 14
4. . Como incorporar conhecimento prévio?
Agrupamento de Dados Semi-Supervisionado
Restrições
Nível de Instância
Nível de Cluster
Sibelius Seraphini COP-Kmeans 4 / 14
5. . Restrições (COP-kMeans)
Restrições em Nível de Instância
Must-Link — duas instâncias devem estar no mesmo cluster
Cannot-Link — duas instâncias não devem estar no mesmo
cluster
Restrições nunca são quebradas
Sibelius Seraphini COP-Kmeans 5 / 14
6. . COP-kMeans
1. Escolhe aleatoriamente k centros para os clusters
2. Atribuir cada objeto para o cluster de centro mais próximo
sem violar as restrições
3. Atualizar cada centro para a média dos objetos do cluster
correspondente
Sibelius Seraphini COP-Kmeans 6 / 14
7. . Tratando Restrições
Para todos as instâncias tentar atribuí-lo ao centro k mais próximo
1. Sem restrição quebrada
Atribuir a instância i ao cluster k
2. Restrição quebrada ! existe outro próximo cluster?
Retorna para 1, se sim
Falhar
Sibelius Seraphini COP-Kmeans 7 / 14
12. .
Resultados Experimentais
Descoberta de pista utilizando GPS
(K. Wagstaff et al. 2001)
Sibelius Seraphini COP-Kmeans 10 / 14
13. . Limitações
Sensível a ordem de atribuição
Solucionado por (Hong e Kwong 2009), usando um conjunto
de algoritmos de agrupamento
Sibelius Seraphini COP-Kmeans 11 / 14
14. . Quando restrições são vantajosas?
Mesmo número de restrições leva a diferentes desempenhos
(K. L. Wagstaff, Basu e
Davidson 2006)
Inconsistência
Média de restrições
insatisfeitas utilizando o
algoritmo sem restrições
Incoerência
Os pontos envolvidos na
restrição ML deveriam
estar perto, enquanto que
pontos envolvidos na
restrição CL deveriam
estar afastados
Sibelius Seraphini COP-Kmeans 12 / 14
15. . Agrupamento de Dados Semi-Supervisionado
PC-KMeans - satisfação de restrição soft, i.e., algumas
restrições podem ser quebradas (Bilenko, Basu e Mooney
2004)
M-KMeans - aprendizagem de métrica (função de distância)
utilizando as restrições (Bilenko, Basu e Mooney 2004)
MPC-KMeans - abordagem hibrida - aprendizagem de métrica
e de satisfação de restrição soft (Bilenko, Basu e Mooney
2004)
Sibelius Seraphini COP-Kmeans 13 / 14
16. . Referências
Mikhail Bilenko, Sugato Basu e Raymond J Mooney.
“Integrating constraints and metric learning in
semi-supervised clustering”. Em: Proceedings of the
twenty-first international conference on Machine
learning. ACM. 2004, p. 11.
Yi Hong e Sam Kwong. “Learning assignment order of
instances for the constrained k-means clustering
algorithm”. Em: Systems, Man, and Cybernetics, Part
B: Cybernetics, IEEE Transactions on 39.2 (2009),
pp. 568–574.
Kiri Wagstaff et al. “Constrained k-means clustering
with background knowledge”. Em: ICML. Vol. 1.
2001, pp. 577–584.
Kiri L Wagstaff, Sugato Basu e Ian Davidson. “When
is constrained clustering beneficial, and why?” Em:
Ionosphere 58.60.1 (2006), pp. 62–3.
Sibelius Seraphini COP-Kmeans 14 / 14