Incorporating SAT Solvers into Hierarchical
Clustering Algorithms - An Efficient and Flexible
Approach
Nathan Siegle Hartman...
Observação

Material desenvolvido com livre interpretação do paper de Gilpin
and Davidson (2011), publicado na 17th ACM SI...
Introdução
Contextualização e Motivação
Proposta
Modelagem
Regras
Modelando o dendograma
Modelando restrições do usuário
A...
Introdução
Contextualização e Motivação
Proposta
Modelagem
Regras
Modelando o dendograma
Modelando restrições do usuário
A...
Contextualização e Motivação

Agrupamento com restrições é o agrupamento "clássico",
porém insere restrições na formação d...
1o Gap da área
Pouco estudo sobre agrupamento hierárquico
utilizando restrições.
Apesar de
Mais de 50% das aplicações de a...
2o Gap da área

Pouco estudo sobre linguagens de programação para
modelagem dessas restrições.
Apesar de
Modelar restriçõe...
Proposta

Os autores propõe a utilização de
Formulação de restrições em lógica de primeira ordem como
cláusulas de Horn.
I...
Introdução
Contextualização e Motivação
Proposta
Modelagem
Regras
Modelando o dendograma
Modelando restrições do usuário
A...
Regras

Definição 1. together (x,y,i).
Verdadeiro se x e y estão no mesmo grupo no nível i
Todos os tipos de restrições pod...
Propriedades

Definição 2. Propriedade de Reflexividade.
∀i, x[together (x, x, i)]
Toda instancia está no mesmo grupo que el...
Propriedades

Definição 3. Propriedade de Simetria.
∀i, x, y [together (x, y , i) → together (y , x, i)]
Se x está no mesmo...
Propriedades

Definição 4. Propriedade de Transitividade.
∀i, x, y , z[together (x, y , i)
together (x, z, i)]

together (y...
Propriedades

Definição 5. Propriedade de Inter-Level link.
∀i, x, y [together (x, y , i) → together (x, y , i + 1)]
Se x e...
Propriedades

Definição 6. Propriedade de um Dendograma
Completo.
∀x, y [together (x, y , top)]
Para um dendograma ser comp...
Modelando o Dendograma

Aplicando os passos a seguir, todo modelo reconhecido será
interpretado como um dendograma complet...
Modelando restrições do usuário

Muitos tipos de restrições podem ser inseridas pelo usuário
utilizando apenas cláusulas d...
Restrições Globais

Restrições Cannot-Link e Must-Link
Originalmente formuladas para agrupamento particional.
Cada nível d...
Restrições Globais

Observação 1. Restrições Globais Must/Cannot-Link.
ML(a, b) ≡ ∀i[together (a, b, i)]
CL(a, b) ≡ ∀i[¬to...
Restrições Globais

Restrição Must-Link-Before
Originalmente formuladas para agrupamento hierarquico.
Especifica que duas i...
Restrições Globais

Observação 2. Restrição Global Must-Link-Before.
MLB(a, b, c) ≡
∀i[together (a, c, i + 1) → together (...
Restrições Locais

Atribuir restrições para níveis específicos da hierarquia.
Não são comumente utilizadas
Requer conhecime...
Outras restrições
Observação 3. Must-Link-Before d .
must-link-befored (a, b, c) ≡
∀i[together (a, c, i + d ) → together (...
Introdução
Contextualização e Motivação
Proposta
Modelagem
Regras
Modelando o dendograma
Modelando restrições do usuário
A...
Algoritmo Genérico para solução de restrições

2
Complexidade O(ln + n2 ), ln = literais negativos, n = instâncias
Incorpo...
Experimentos

Questões de interesse
A incorporação de restrições em algoritmos hierárquicos
produz resultados indesejados?...
Dados de teste

Conjunto de dados de teste
Artificial Data Set
Newsgroup Data Set

Incorporating SAT Solvers into Hierarchi...
Dados de teste

Artificial Data Set
Formado segundo uma distribuição gaussiana.
Hierarquia em 5 níveis
Dataset com 120 inst...
Dados de teste
Newsgroup Data Set

20 Newsgroup data set, coleção de 20 mil documentos
pertencentes a 20 categorias.
Dados...
Experimentos
Simulação
1
2

Inicializa com um conjunto vazio de regras.
Gerar um dendograma com o conjunto de regras.
Sing...
Medidas de Avaliação

F-score ≡ (1 + β 2 ) ·

P·R
(β 2 ·P)+R

Trade-off entre as medidas de precisão e revocação

H-Correla...
Experimentos
Resultados para o conjunto de dados gerados artificialmente

Incorporating SAT Solvers into Hierarchical Clust...
Experimentos
Resultados para o conjunto de dados gerados a partir
da 20 Newsgroup data set

Incorporating SAT Solvers into...
Resultados

A adição de regras Must link before d melhora a qualidade da
hierarquia conforme o número de restrições aument...
Introdução
Contextualização e Motivação
Proposta
Modelagem
Regras
Modelando o dendograma
Modelando restrições do usuário
A...
Considerações Finais

Lógica é uma boa escolha para especificação de restrição
devido a sua formalidade.
Uma direção de pes...
Referências I

Gilpin, S. and I. Davidson (2011). Incorporating sat solvers into hierarchical
clustering algorithms: An effi...
Próximos SlideShares
Carregando em…5
×

Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

450 visualizações

Publicada em

Tema: Agrupamento Hierárquico com Restrições

Material desenvolvido com livre interpretação do paper de Gilpin and Davidson (2011), publicado na 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
450
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
2
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

  1. 1. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach Nathan Siegle Hartmann Núcleo Interinstitucional de Linguística Computacional (NILC), Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP) 19 de novembro de 2013 Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 1/37
  2. 2. Observação Material desenvolvido com livre interpretação do paper de Gilpin and Davidson (2011), publicado na 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 2/37
  3. 3. Introdução Contextualização e Motivação Proposta Modelagem Regras Modelando o dendograma Modelando restrições do usuário Algoritmo e Experimentos Considerações Finais Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 3/37
  4. 4. Introdução Contextualização e Motivação Proposta Modelagem Regras Modelando o dendograma Modelando restrições do usuário Algoritmo e Experimentos Considerações Finais Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 4/37
  5. 5. Contextualização e Motivação Agrupamento com restrições é o agrupamento "clássico", porém insere restrições na formação dos grupos. Estudos sobre agrupamento restrito se originaram a uma década atrás. Trabalhos comumente utilizam apenas regras simples (Must-Link, Cannot-Link e Must-Link-Before). 2 grandes gaps foram identificados na área. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 5/37
  6. 6. 1o Gap da área Pouco estudo sobre agrupamento hierárquico utilizando restrições. Apesar de Mais de 50% das aplicações de agrupamento serem hierárquicas. Agrupamento hierárquico apresenta um sumário compreensivo dos dados. Agrupamento hierárquico pode modelar relações temporais. O uso de agrupamento hierárquico ser bom em áreas com domínio conhecido por especialistas. Especialistas podem especificar diversas restrições para modelar os grupos de interesse. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 6/37
  7. 7. 2o Gap da área Pouco estudo sobre linguagens de programação para modelagem dessas restrições. Apesar de Modelar restrições com linguagens procedurais ser um grande limitante Design de algoritmos para solucionar restrições. Modelar restrições com linguagens declarativas parecer mais conveniente Modelagem das restrições Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 7/37
  8. 8. Proposta Os autores propõe a utilização de Formulação de restrições em lógica de primeira ordem como cláusulas de Horn. Inconsistências são verificadas em tempo polinomial. Resolução de restrições como um problema SAT (satisfiability ) Cláusulas de Horn fazem com que problemas SAT deixem de ser NP Completos. Se todas as restrições são satisfeitas, o modelo pode ser interprestado como um dendograma válido. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 8/37
  9. 9. Introdução Contextualização e Motivação Proposta Modelagem Regras Modelando o dendograma Modelando restrições do usuário Algoritmo e Experimentos Considerações Finais Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 9/37
  10. 10. Regras Definição 1. together (x,y,i). Verdadeiro se x e y estão no mesmo grupo no nível i Todos os tipos de restrições podem ser modelados com together e expressos com cláusulas de Horn. Pode-se definir um dendograma utilizando A relação together. As seguintes propriedades sejam satisfeitas: Reflexividade, Transitividade, Simetria e Inter-Level link. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 10/37
  11. 11. Propriedades Definição 2. Propriedade de Reflexividade. ∀i, x[together (x, x, i)] Toda instancia está no mesmo grupo que ela mesma. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 11/37
  12. 12. Propriedades Definição 3. Propriedade de Simetria. ∀i, x, y [together (x, y , i) → together (y , x, i)] Se x está no mesmo grupo que y em um nível i, então y está no mesmo grupo que x no mesmo nível i. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 12/37
  13. 13. Propriedades Definição 4. Propriedade de Transitividade. ∀i, x, y , z[together (x, y , i) together (x, z, i)] together (y , z, i) → Se em um nível i, x está no mesmo grupo que y e esse está no mesmo grupo que z, então x está no mesmo grupo que z nesse nível i. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 13/37
  14. 14. Propriedades Definição 5. Propriedade de Inter-Level link. ∀i, x, y [together (x, y , i) → together (x, y , i + 1)] Se x e y estão no mesmo grupo em um nível i, eles permanecerão no mesmo grupo em todos os níveis subsequentes da hierarquia. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 14/37
  15. 15. Propriedades Definição 6. Propriedade de um Dendograma Completo. ∀x, y [together (x, y , top)] Para um dendograma ser completo, o último nível de sua hierarquia (top) deve conter apenas um grupo com todos os elementos. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 15/37
  16. 16. Modelando o Dendograma Aplicando os passos a seguir, todo modelo reconhecido será interpretado como um dendograma completo. 1 Aplica a relação together para refletir um grupo em cada nível da hierarquia. Requer que as propriedades de transitividade, simetria e reflexividade sejam satisfeitas. 2 Aplica a relação Inter-Level link para cada nível da hierarquia. 3 Assegurar um dendograma completo pela Definição 6. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 16/37
  17. 17. Modelando restrições do usuário Muitos tipos de restrições podem ser inseridas pelo usuário utilizando apenas cláusulas de Horn. Restrição de instância. Restrição para instâncias em um nível específico. Restrições Must-Link Before. Restrições em dois grupos: Globais e Locais. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 17/37
  18. 18. Restrições Globais Restrições Cannot-Link e Must-Link Originalmente formuladas para agrupamento particional. Cada nível de um agrupamento hierárquico pode ser interpretado como uma partição. Logo essas restrições devem obedecer a todos os níveis da hierarquia. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 18/37
  19. 19. Restrições Globais Observação 1. Restrições Globais Must/Cannot-Link. ML(a, b) ≡ ∀i[together (a, b, i)] CL(a, b) ≡ ∀i[¬together (a, b, i)] Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 19/37
  20. 20. Restrições Globais Restrição Must-Link-Before Originalmente formuladas para agrupamento hierarquico. Especifica que duas instâncias a e b são mais similares entre si do que a uma terceira instância c. Instâncias a e b estão no mesmo grupo antes de c ser inserido. Se a, b e c estão no mesmo grupo, então a e b já estavam no mesmo grupo em um nível anterior da hierarquia. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 20/37
  21. 21. Restrições Globais Observação 2. Restrição Global Must-Link-Before. MLB(a, b, c) ≡ ∀i[together (a, c, i + 1) → together (a, b, i)] ∀i[together (b, c, i + 1) → together (a, b, i)] ¬together (b, c, 1) ¬together (a, c, 1) Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 21/37
  22. 22. Restrições Locais Atribuir restrições para níveis específicos da hierarquia. Não são comumente utilizadas Requer conhecimento de domínio sobre a relação de duas instâncias em um dado nível da hierarquia. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 22/37
  23. 23. Outras restrições Observação 3. Must-Link-Before d . must-link-befored (a, b, c) ≡ ∀i[together (a, c, i + d ) → together (a, b, i)] ∀i[together (b, c, i + d ) → together (a, b, i)] ¬together (b, c, 1) ... ¬together (b, c, d ) ¬together (a, c, 1) ... ¬together (a, c, d ) Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 23/37
  24. 24. Introdução Contextualização e Motivação Proposta Modelagem Regras Modelando o dendograma Modelando restrições do usuário Algoritmo e Experimentos Considerações Finais Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 24/37
  25. 25. Algoritmo Genérico para solução de restrições 2 Complexidade O(ln + n2 ), ln = literais negativos, n = instâncias Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 25/37
  26. 26. Experimentos Questões de interesse A incorporação de restrições em algoritmos hierárquicos produz resultados indesejados? Restrições mais complexas produzem melhores resultados do que as menos complexas? Must-Link-Before d e Must-Link-Before. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 26/37
  27. 27. Dados de teste Conjunto de dados de teste Artificial Data Set Newsgroup Data Set Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 27/37
  28. 28. Dados de teste Artificial Data Set Formado segundo uma distribuição gaussiana. Hierarquia em 5 níveis Dataset com 120 instâncias de 5 dimensões Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 28/37
  29. 29. Dados de teste Newsgroup Data Set 20 Newsgroup data set, coleção de 20 mil documentos pertencentes a 20 categorias. Dados organizados em hierarquias. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 29/37
  30. 30. Experimentos Simulação 1 2 Inicializa com um conjunto vazio de regras. Gerar um dendograma com o conjunto de regras. Single Linkage e Complete Linkage. 3 4 Comparar a saída obtida com a estrutura real do dendograma (conhecimento prévio) Adicionar regras de forma a corrigir erros de merge de pontos muito cedo no dendograma. Must-Link-Before e Must-Link-Before d . 5 Rodar novamente o experimento a partir do passo 2 com o conjunto de regras atualizado, até que não haja mais erros. Repetir 10 vezes o experimento. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 30/37
  31. 31. Medidas de Avaliação F-score ≡ (1 + β 2 ) · P·R (β 2 ·P)+R Trade-off entre as medidas de precisão e revocação H-Correlation ≡ Sb St +Sl Medida desenvolvida para algoritmos hierárquicos. Relação entre acertos em ambas as bases, correta e teste, (Sb ) e a soma dos acertos na base correta (St ) e na base de teste (Sl ). Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 31/37
  32. 32. Experimentos Resultados para o conjunto de dados gerados artificialmente Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 32/37
  33. 33. Experimentos Resultados para o conjunto de dados gerados a partir da 20 Newsgroup data set Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 33/37
  34. 34. Resultados A adição de regras Must link before d melhora a qualidade da hierarquia conforme o número de restrições aumenta. Must-Link-Before d superou o Must-Link-Before em ambas as medidas F-score e H-correlation. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 34/37
  35. 35. Introdução Contextualização e Motivação Proposta Modelagem Regras Modelando o dendograma Modelando restrições do usuário Algoritmo e Experimentos Considerações Finais Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 35/37
  36. 36. Considerações Finais Lógica é uma boa escolha para especificação de restrição devido a sua formalidade. Uma direção de pesquisa é maximizar o número de restrições satisfeitas no caso de um conjunto inconsistente de restrições. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 36/37
  37. 37. Referências I Gilpin, S. and I. Davidson (2011). Incorporating sat solvers into hierarchical clustering algorithms: An efficient and flexible approach. In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’11, New York, NY, USA, pp. 1136–1144. ACM. Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 37/37

×