1) O documento apresenta um método híbrido para classificação multirrótulo que combina abordagens globais e locais;
2) O método gera múltiplas partições híbridas dos dados usando técnicas de detecção de comunidades em grafos;
3) Os resultados experimentais mostraram que as partições híbridas tiveram desempenho competitivo ou superior em comparação com abordagens globais e locais convencionais.
5. Classificação
5
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
10 questões
Gabarito Sua Nota
Sua Prova
10 questões
Acertou 6
Errou 4
- Como a Professora tem o gabarito
da prova, ela consegue calcular
rapidamente o quanto você
aprendeu.
- Assim, comparando sua prova com
o gabarito, é possível fornecer sua
nota, que é correspondente ao
quanto você acertou.
-Se 6.0 é o suficiente para passar na
disciplina, então você está aprovado!
Caso contrário, você terá que cursar
novamente a disciplina e obter uma
nova maior. Esse processo será
repetido até que você consiga obter
uma nova igual ou superior a 6.0
- Essa nota também representa a
quantidade de conhecimento que
você conseguiu aprender.
6. Classificação
6
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Dados de
Treino
Aprendizado
(treinamento)
Modelo
Dados de
Teste
Modelo É
satisfatória?
Resposta ou
Saída do
Modelo.
Sim
Não
Início
FIM
7. Classificação
7
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
CLASSIFICAÇÃO
MULTIRRÓTULO:
É uma tarefa preditiva
supervisionada do aprendizado
de máquina que tem como
objetivo induzir um modelo que
prediz múltiplos rótulos
(classes) para uma instância.
8. Classificação Multirrótulo
8
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Problema Multirrótulo
Atributos de entrada Atributos de Saída
Instâncias Att1 Att2 ... Atta Y1 Y2 ... Yl
x1 0 1 ... 0
x2 1 1 ... 1
... … … … … … … … …
xm 1 1 ... 0
10. Como resolver um problema de classificação multirrótulo?
10
18/10/2023
1. Abordagem Global
○ Novos modelos ou adaptação de modelos existentes;
○ Aprende todos os rótulos de uma única vez;
○ Não aprende corretamente as correlações;
○ Indução de um único modelo (um classificador);
Há recursos computacionais
suficientes para aprender milhões de
rótulos de uma vez só?
Árvores de Decisão, Algoritmos
Genéticos, Redes Neurais, etc.,
específicos para o problema.
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
11. Como resolver um problema de classificação multirrótulo?
11
18/10/2023
2. Abordagem Local
1. Divide o problema original em subproblemas;
2. Aprende cada rótulo de forma individual;
3. Não aprende as correlações;
4. Indução de um modelo por rótulo;
Se o dataset possuir milhões de
rótulos, serão induzidos milhões de
classificadores.
Classificadores base são usados junto
com os métodos de transformação da
abordagem local: SVM, árvores, etc.
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
12. 12
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Mas, e se houvesse outra
ABORDAGEM para resolver o
problema Multirrótulo?
Tirar proveito das vantagens e
mitigar as desvantagens das
abordagens local e global
14. 14
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
15. 15
18/10/2023
• Pergunta de Pesquisa: No domínio de problemas de classificação
multirrótulo, é possível encontrar múltiplas partições híbridas nos dados
multirrótulo, e escolher uma entre elas que melhore o desempenho
preditivo do classificador em relação às tradicionais abordagens global e
local?
• Número de Bell: 0=1, 1=1, 2=2, 3=5, 4=15, 5=52, 6=203, 7=877, 8=4.140,
9=21.147, 10=115.975, 11=678.570, 12=4.213.597, 13 = 27.644.437.
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
16. 16
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
17. 17
Método de estratificação específico para dados multirrótulo
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
18. 18
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
19. Métodos de Detecção de Comunidades
19
18/10/2023
• Origem: Redes complexas, grafos;
• Comunidade:
• A topologia da rede pode codificar interações entre os dados sistematicamente e encontrar
relacionamentos entre eles;
• É um conjunto de vértices com muitas arestas dentro da comunidade e algumas arestas fora
dela.
• Métodos para detecção de comunidade:
• São técnicas para descobrir estruturas adjacentes e entender como a estrutura da rede se
relaciona com o comportamento do sistema;
• São algoritmos de particionamento de grafos, isto é, dividem os vértices em grupos minimizando
o número de arestas entre eles;
• Ajudam a entender como as relações entre pessoas e grupos no Facebook funcionam, assim
como os fatores e estruturas envolvidos na relação.
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
20. 20
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Comunidades de interação
proteína-proteína em células
cancerígenas de ratos
https://www.semanticsch
olar.org/reader/9be428c
9383d47b86570b1b9fc2
0faf006346c5d
Métodos de Detecção de Comunidades
21. 21
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Métodos de Detecção de Comunidades
Matriz de
Similaridade
Grafo de co-
ocorrência
Esparcificação
Métodos de
Detecção de
Comunidades
Grafo K-
NN
K-NN
Threshold
Grafo
Threshold
Hierárquicos Não-Hierárquicos
vértices = rótulos
arestas = correlações
pesos = correlações
Passo-2
Passo-3
22. 22
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Métodos de Detecção de Comunidades
EXEMPLO: VAR = RÓTULOS
24. 24
Grafo com Self-Loops Grafo sem Self-Loops
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Métodos de Detecção de Comunidades
25. 25
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Métodos de Detecção de Comunidades
Threshold = 10% K-NN = 5
26. 26
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
27. 27
18/10/2023
HIERÁRQUICOS
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
a) Walk Trap: caminhos
aleatórios
b) Edge Betweenness: número
de caminhos mais curtos
através da aresta
c) Fast Greedy: ganho de
modularidade
NÃO HIERÁRQUICOS
d) Louvain: método multinível
baseado em Fast Greedy
e) Label Propagation: rótulo mais
frequente
f) Info Map: método multinível
baseado na equação do mapa
g) Spin Glass: modelos de
rotação
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
31. 31
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
O número total de partições de rótulos geradas é igual ao número total de rótulos do dataset
Os números dentro de cada célula da tabela correspondem ao número da comunidade (ou grupo) a que o rótulo pertence
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
Resultado dos cortes
32. 32
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
- Medida de modularidade como critério de escolha de um método
- Mede a separação entre vértices;
- Quantifica a densidade de ligações dentro das comunidades em comparação com ligações
entre comunidades;
- Constrói os conjuntos de dados correspondentes
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
33. 33
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
34. 34
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
36. 36
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
37. 37
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
HYBRID PARTITIONS FOR
MULTI-LABEL CLASSIFICATION (HPML)
Classificador com versão global e local – CLUS Framework
Usar o mesmo classificador em todos os particionamentos
Objetivo é comparar partições e não métodos
43. Métodos de Detecção de Comunidades mais escolhidos
43
Hierárquico
C.D.M.
Não-Hierárquico
C.D.M.
Jaccard
Index
Hierárquico
C.D.M.
Não-Hierárquico
C.D.M.
Rogers
Tanimoto
Hierárquico
C.D.M.
Não-Hierárquico
C.D.M.
Random
KNN TR KNN TR KNN TR KNN TR KNN TR KNN TR
Edge Betweenness
WalkTrap
WalkTrap WalkTrap
Info Map Info Map Info Map
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
44. Partição híbrida mais escolhida
44
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Partição Híbrida mais escolhida em geral:
Uma partição híbrida com 2 clusters está
mais próxima de uma partição global
composta por um único cluster.
Esta pode ser uma das razões pelas quais nossos resultados de desempenho
são competitivos em comparação com outras partições, superam os globais e
não são superiores às locais para alguns conjuntos de dados.
45. Desempenho
45
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
GRÁFICO DE VITÓRIAS, DERROTAS E
EMPATES
- Embasado no valor de desempenho que
varia entre 0.0 e 1.0
VITÓRIAS: Quantas vezes um método
obteve melhor desempenho preditivo com
relação à todos os outros.
DERROTAS: Quantas vezes um método
obteve pior desempenho preditivo com
relação à todos os outros.
EMPATES: Quantas vezes um método
obteve o mesmo valor de desempenho
preditivo com relação à todos os outros.
46. Desempenho
46
PARTIÇÕES ALEATÓRIAS
- Melhor ou superior que local em
alguns datasets
- Superior que o global em muitos
datasets
PARTIÇÕES HÍBRIDAS
- Melhor ou superior que local em
alguns datasets
- Superior que o global em muitos
datasets
HÍBRIDAS - ALEATÓRIAS - LOCAL
Resultados competitivos
PARTIÇÃO
LOCAL
Melhores
resultados
PARTIÇÃO
GLOBAL
Piores
resultados
Valores de Performance
Em geral, para todos os datasets,
métodos e particionamentos
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
47. Desempenho
47
MACRO-F1
- Pior = 0.0 | Melhor = 1.0
- Valores muito baixos: ~0.3
MLP
- Pior = 1.0 | Melhor = 0.0
- Valores muito altos: ~0.9
- Alto erro de predição
Em geral:
• HPML foi capaz de gerar partições que
podem melhorar o desempenho
preditivo do classificador;
• Baixo nível de correlações entre rótulos
nos datasets
• Partições aleatórias também foram
melhores e competitivas
• Abordagens tradicionais falham em
aprender os rótulos e explorar as
correlações
• Apesar de tudo isso, o HPML funcinou!
18/10/2023 SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
48. 48
18/10/2023
Teste Estatístico: Friedman & Nemenyi
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Não há diferenças estatísticas significativas entre:
Lo e NH.Ra
Lo e H.HPML
G, H-Ra, NH.HPML e algumas H.HMPL
Não há diferenças estatísticas significativas entre:
Local e Global
49. 49
18/10/2023
Teste Estatístico: Friedman & Nemenyi
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Não há diferenças estatísticas significativas entre:
Local, NH.Ra, H.Ra, H.HPML e algumas NH.HPML
H.HPML e NH.HPML
Não há diferenças estatísticas significativas entre:
Local e Global
51. 51
18/10/2023
• As partições híbridas obtiveram resultados competitivos, ou
melhores, em diversos datasets, com relação às outras partições;
• Portanto, é possível encontrar partições entre as local e global que
são capazes de melhorar o desempenho preditivo;
• O desempenho médio é competitivo entre todos os métodos e
datasets;
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Conclusão
52. 52
18/10/2023
• Independente do tipo de particionamento usado (local, global, aleatório
ou híbrido), pode-se concluir que:
• Não há melhoria significativa apesar dos resultados competitivos;
• Grande parte dos rótulos não foi aprendido nem predito corretamente
pelo classificador;
• O classificador tem dificuldades em aprender todos os rótulos, as
correlações entre os rótulos e também dificuldades na predição
correta dos mesmos.
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Conclusão
53. 53
18/10/2023
• É preciso melhorar os métodos das abordagens multirrótulo pois:
• Independentemente do tipo de particionamento usado;
• Independentemente de as correlações entre rótulos terem sido
modeladas/aprendidas/exploradas ou não;
• Não é possível afirmar com absoluta certeza que eles estão
aprendendo corretamente os rótulos.
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
Conclusão
54. Conclusão
54
18/10/2023
• No entanto, mesmo com todas essas dificuldades, a pesquisa mostrou
que:
• É possível encontrar partições híbridas que conseguem melhorar o
desempenho, portanto, há espaço para crescimento e melhorias;
• É melhor usar uma partição composta por grupos de rótulos
(correlacionados ou aleatórios) do que uma partição com um único
grupo;
• É um problema que precisa de mais investigação e atenção da
comunidade científica.
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
55. Trabalhos Futuros
55
18/10/2023
- Utilizar outros datasets, com maior número de rótulos;
- Testar as partições com outros classificadores multirrótulo capazes de
lidar com as diferentes composições de grupos de rótulos;
- Analisar os resultados com outras medidas de avaliação para
classificação multirrótulo;
- Gerar partições híbridas com outros métodos de particionamento;
- Modelar as correlações entre os rótulos com outras técnicas;
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
57. Referências
57
18/10/2023
• GATTO, E. C.; FERRANDIN, M.; CERRI, R. Exploring Label Correlations for
Partitioning the Label Space in Multi-label Classification. In: 2021 International
Joint Conference on Neural Networks. IJCNN. Video. Slides.
• GATTO, E. C., VALEJO, A. D. B., FERRANDIN, M., CERRI, R. (2023).
Community Detection for Multi-label Classification. In: Naldi, M.C., Bianchi,
R.A.C. (eds) Intelligent Systems. BRACIS 2023. Lecture Notes in Computer
Science(), vol 14195. Springer, Cham. Video. Slides.
• SILVA, T. C., ZHAO, L. (2016). Machine Learning in Complex Networks.
Springer. ISBN: 978-3-319-17290-3.
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
58. Referências
58
18/10/2023
PRE-PRINTS
- Elaine Cecília Gatto, Mauri Ferrandin, Ricardo Cerri et al. Multi-Label
Classification with Label Clusters, 07 July 2023, PREPRINT (Version 1)
available at Research Square. [EM ANDAMENTO]
- Gatto, Elaine Cecilia and Ferrandin, Mauri and Cerri, Ricardo, Clustering Labels
in Multi-Label Learning: A Study Using Randomness and Label Correlations.
Available at SSRN: https://ssrn.com/abstract=4163294 or
http://dx.doi.org/10.2139/ssrn.4163294. [RECUSADO]
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR
59. Referências
59
18/10/2023
• GATTO, E. C; FERRANDIN, M.; CERRI, R. Explorando Correlações para o
particionamento do espaço de rótulos em problemas de classificação
multirrótulo. Banca de qualificação de doutorado. Video. 04/02/2021.
• GATTO, E. C. Classificação Multirrótulo: Aprendizado de Correlações. Palestra
ministrada na Semana de Computação da UNESP de São José do Rio Preto.
15/09/2023.
• GATTO, E. C., Explorando Correlações entre Rótulos usando Métodos de
Detecção de Comunidade na Classificação Multirrótulo. Palestra ministrada nos
seminários do BIOMAL. Video. 2022
• GATTO, E. C., Métodos de Detecção de Comunidades em Classificação
Multirrótulo. Artigo técnico-tutorial. 2022
SEMINÁRIOS DO DEPARTAMENTO DE COMPUTAÇÃO DA UFSCAR