Além do Aprendizado Local e Global: Particionando o espaço de classes em problemas de classificação multirrótulo

Além do Aprendizado Local e Global:
Particionando o Espaço de Classes em
Problemas de Classificação Multirrótulo
Universidade Federal de São Carlos - UFSCar
Centro de Ciências Exatas e de Tecnologia - CCET
Departamento de Computação - DC
Programa de Pós-Graduação em Ciência da Computação - PPGCC
Grupo de Pesquisa: Bioinformatics and Machine Learning - BIOMAL
Defesa de Doutorado
ELAINE CECÍLIA GATTO
14/11/2023

Pesquisadores
Financiamento
Instituições
Elaine Cecília Gatto
Doutoranda
UFSCar
Ricardo Cerri
Orientador
UFSCar
Mauri Ferrandin
Co-Orientador
UFSC
Alan Valejo
Colaborador
UFSCar
Celine Vens
Orientadora no Exterior
Ku Leuven
Felipe Nakano
Co-Orientador no Exterior
Ku Leuven
14/11/2023 ELAINE CECÍLIA GATTO - DEFESA DE DOUTORADO 2

CLASSIFICAÇÃO MULTIRRÓTULO
Figura 7: Classificação Monorrótulo e Multirrótulo
Bolinhas = instâncias

CORRELAÇÕES ENTRE RÓTULOS
Figura 1: Exemplo ilustrativo de uma imagem com rótulos correlacionados
Aprendizado de
correlações:
- Ajudam a predizer rótulos
que provavelmente não
seriam preditos utilizando
métodos que não as
consideram
- Ajudam a aumentar o poder
preditivo do classificador.

ABORDAGENS MULTIRRÓTULO
Abordagem Global
◎ Novos algoritmos ;
◎ Adapta algoritmos existentes ;
◎ Lida diretamente com o
problema;
◎ Apenas um modelo é induzido;
◎ Informações e correlações
locais podem ser ignoradas.
Abordagem Local
◎ Divide o problema multirrótulo
em vários problemas binários;
◎ Induz um classificador binário
para cada um dos rótulos
individualmente;
◎ Uso de informações muito
específicas;
◎ Perda de informações;
◎ Impraticável explorar as
correlações entre rótulos;

TIPOS DE PARTIÇÕES
Figura 2: Partições Global, Local e Híbrida

GRUPOS INSTÂNCIAS X GRUPOS RÓTULOS
◎ Como particionamentos de dados
considerando diretamente os
rótulos correlacionados podem
impactar no resultado preditivo de
um classificador?
◎ Agrupamento de instâncias
similares é diferente de
agrupamento de rótulos similares;
◎ Contradição nos classificadores;
◎ Tarefa não trivial de combinação
de predições;
◎ Correlações diretas entre rótulos.
◎ Rótulos exclusivos;
Figura 3: Ilustração de um particionamento de
instâncias e seus respectivos rótulos

CLASSIFICADOR
Figura 6: Ilustração de uma partição híbrida como um conjunto de dados estruturado.
● Verificar a melhoria no desempenho do
classificador a partir das partições híbridas;
● Comparar partições com o mesmo viés, usando o
mesmo classificador;
● Comparar com partições local, global e aleatórias

PARTIÇÃO ADEQUADA
◎ Problemas multirrótulo:
○ Grande número de
possíveis partições;
○ Encontrar a partição
híbrida mais adequada é
um desafio.
◎ Número de Bell: definido como
o número de partições possíveis
de um conjunto com n
elementos consistindo de k
conjuntos separados e não
vazios
Tabela 1: Exemplos de Número de Bell

“
É possível encontrar uma partição composta
por grupos disjuntos de rótulos
correlacionados que melhore o desempenho
preditivo do classificador em relação às
tradicionais abordagens global e local.
HIPÓTESE

PARTIÇÕES HÍBRIDAS PARA CLASSIFICAÇÃO
MULTIRRÓTULO -HPML
Figura 26: Visão Geral do método HPML

PARTIÇÕES HÍBRIDAS PARA CLASSIFICAÇÃO
MULTIRRÓTULO -HPML
HPML.A HPML.B HPML.C HPML.D
Passo-
2
Medidas de Similaridade
Redes Neurais: Mapas Auto
Organizáveis de Kohonen
Medidas de Similaridade +
Grafos de Co-Ocorrência de
Rótulos
Medidas de Similaridade
Passo-
3
Algoritmo de Agrupamento
Hierárquico Aglomerativo
Redes Neurais: Mapas Auto
Organizáveis de Kohonen
Métodos de Detecção de
Comunidades
Hierárquico Aglomerativo
Passo-
5 e 6
Classificador ou Coeficiente
da Silhueta
da Silhueta
da Silhueta
da Silhueta
Passo-
7
Classificador com versão
local e global
local e global
local e global
- Sem Encadeamento
- Encadeamento dos rótulos
- Encadeamento dos Grupos
- Encadeamento de rótulos e
grupos
- Classificador com versão
local e global

HPML.A
1
Tabela 17: Matriz de Similaridade
Tabela 16: Espaço de Rótulos Ilustrativo
2
Figiura 27: Tabela de
Contingência
Tabela 18: Matriz de Dissimilaridade
3
Similaridades
Dissimilaridades
MODELAGEM DAS CORRELAÇÕES

HPML.A
Tabela 18: Matriz de Dissimilaridade
3
PARTICIONAMENTO
Figura 31: Passo 3 ilustrado
Figura 29: Dendrograma para a Tabela 18
com Complete LInkage
4

HPML.A
5
Figura 31: Passo 3 ilustrado
6
Tabela 19: Partições Geradas
Figura 30: Representação das
Partições da Tabela 19
PARTIÇÕES GERADAS

HPML.B
Figura 38: HPML.B: Passos 1 e 2 ilustrados. Triângulos representam as
instâncias e os círculos neurônios compostos por instâncias similares.
MODELAGEM DAS CORRELAÇÕES
Figura 39: Gráfico de Contagem
1

HPML.B
1
2
3
Figura 39: Gráfico de
Mapeamento com Cortes
Mapa de Kohonen:
agrupamento de instâncias
PARTICIONAMENTO
Figura 40: Estratégia de transformação.

HPML.C
Tabela 17: Matriz de Similaridade
1 2
Tabela 20: Matriz de
Similaridade Convertida
MODELAGEM DAS CORELAÇÕES
Figura 42: Grafo com self-loop (esquerda)
e grafo sem self-loop (direita)
3

HPML.C
MODELAGEM DAS CORELAÇÕES
PARTICIONAMENTO
Figura 43: HPML.C
Passos 2 e 3 ilustrados

PASSO 4: Montagem dos Datasets
Figura 32: Datasets
para cada grupo

PASSO 5: Validação com Classificador
PASSO 6: Escolha da Melhor Partição Híbrida
Figura 33: Validação com Classificador

PASSO 5: Validação com Silhueta
PASSO 6: Escolha da Melhor Partição Híbrida
Figura 34: Validação com Silhueta

PASSO 7: Teste da Partição Escolhida
Figura 36: Teste da partição híbrida selecionada

HPML.D.padrão
Figura 46 – Abstração da metodologia do HPML.D.Padrão.
Igual ao HPML.A: não possui encadeamento em nenhum nível. Florestas Aleatórias para problemas Multilabel

HPML.D.CI
Figura 47 – Abstração da metodologia do HPML.D.CI
Internal chains – encadeamento interno.

HPML.D.CE - treino CE = External Chains, ou encadeamento externo
Figura 48 – Fase de Treinamento do HPML.D.CE

HPML.D.CE - teste
Figura 49 – Fase de Teste do HPML.D.CE

HPML.D.CEI - treino CEI = External and Internal Chains, ou
encadeamento externo e interno
Figura 50 – Fase de Treino do HPML.D.CEI

HPML.D.CEI - teste
Figura 50 – Fase de Teste do HPML.D.CEI

Configurações
HPML.A.c - IJCNN 2021 Exaustivo/Oráculo - KAIS Comunidades - BRACIS 2023 Encadeamento - Bélgica
HPML. A A e B C D
Passo-2 Índice Jaccard Kohonen
Índice Jaccard
Índice Jaccard
Rogers Tanimoto
Grafos de Co-Ocorrência
Índice Jaccard
Rogers Tanimoto
Passo-3 Algoritmo de Agrupamento
Hierárquico Aglomerativo:
- Métricas de Ligação: Single,
Average, Complete;
- Cortes no dendrograma
Kohonen:
- Cortes no mapa
- Transformação de partições
- Métricas de Ligação: Single,
Average, Complete;
Métodos de Detecção de
Comunidades
- Hierárquicos
- Não Hierárquicos: cortes no
dendrograma
- Modularidade
- Métricas de Ligação: Ward.D2;
Passo-5
e 6
Maior Macro-F1 Maior Macro-F1, Micro-F1 e
Coeficiente da Silhueta.
Maior Coeficiente da Silhueta Maior Coeficiente da Silhueta
Passo 7 Clus Clus Clus ECC + Random Forests
Datasets Entre 4 e 22 rótulos Entre 4 e 7 rótulos Entre 5 e 178 rótulos Entre 101 e 174 rótulos

Motivações
- Experimento Inicial
- Investiga a hipótese
elaborada
- Investiga o quanto
uma partição híbrida
é próxima da melhor
partição possível para
um dataset;
- Exaustivo: valida
todas as partições
possíveis e testa a
melhor;
- Oráculo: testa todas
as partições possíveis
- Não há consenso na
literatura sobre qual
abordagem
multirrótulo é melhor
- Investiga a aplicação
de métodos de
detecção de
comunidade na
classificação
multirrótulo;
- Investiga
dificuldades no
aprendizado de
rótulos e das
correlações entre
rótulos
- ECC: estado da arte,
considera correlações;
- Desafio: alta
dimensionalidade do
espaço de rótulos =
longa cadeia de
rótulos;
- Solução: Usar
cadeias de tamanho
limitado;
- Investiga se é
possível melhorar as
cadeias de
classificadores ao
encadear grupos
disjuntos de rótulos
correlacionados.
1) HPML.A.c 2) Exaustivo e Oráculo 3) Comunidades 4) Encadeamento
Em revisão - KAIS
Best Paper
Runner-Up
BRACIS 2023
IJCNN 2021 Em andamento

Medidas de Avaliação de Desempenho
HPML.D
ROC-AUC
ROC-AUC-Macro
ROC-AUC-Micro
AUPRC-Micro
AUPRC-Macro
Wrong Label Problem: mede quando o rótulo pode ser predito para
algumas instâncias, mas essas predições estão sempre erradas
Constant Label Problem: mede quando o mesmo
rótulo é predito para todas as instâncias.
Missing Label Problem: mede a proporção
de rótulos que nunca são preditos.

Métodos Comparados
Estas foram as partições comparadas: global, local, HPML.A.C onde
C indica CLUS, e dois tipos de partições aleatórias baseadas no
padrão do algoritmo de agrupamento hierárquico aglomerativo.
Tabela - Métodos Comparados

Resultados
Vitórias, Derrotas e Empates. (1 X todos)

Resultados FRIEDMAN
- Chi Square: 5,84
- fpValue: 0,211420054
- Hipótese: H0:Identical
NEMENYI. Distância Crítica: 2,009208545
melhores piores

Resultados
◎ Métrica de ligação mais escolhida:
◎ Single
◎ Partições híbridas mais escolhidas:
◎ Próximas de uma partição local;
◎ Resultados competitivos;
◎ Média do nível do desbalanceamento
○ baixo desempenho;
◎ Nível de dependência incondicional (ULD):
○ pouco impacto no processo;

Resultados
◎ Conjuntos de dados com poucos
rótulos têm mais possibilidade
de agrupar rótulos
correlacionados;
◎ Aleatoriedade:
○ Não ajudou o suficiente a
melhorar as predições;
○ Não alterou muito a
distribuição dos rótulos;
◎ Partições locais:
○ melhores resultados;
◎ Partições globais:
○ piores resultados;
◎ Partições aleatórias e híbridas:
○ Superam as globais;
○ São competitivas entre si e
com as locais.

Métodos
Comparados

Resultados Vitórias, Derrotas e Empates. (1 X todos)

Resultados FRIEDMAN
- Chi Square: 33,29258242
- fpValue: 0,000871275
- Hipótese: Ha:Different
melhores piores

Resultados FRIEDMAN
- Chi Square: 33,29258242
- fpValue: 0,000871275
melhores piores

◎ Melhor partição de acordo com a partição oráculo:
○ HPML.A, HPML.B, e alguns aleatórios na maior parte dos folds;
◎ Partições mais escolhidas:
○ 40% de todas elas são compostas por 2 grupos de rótulos;
◎ Os métodos híbridos aqui propostos são capazes de escolher uma
partição híbrida com uma configuração igual ou próxima da melhor
partição de um dataset, conforme oráculo;
Resultados

◎ Partições híbridas:
○ Altamente competitivas com as partições aleatórias;
○ Melhores ou superiores em vários casos;
○ Grupos disjuntos de rótulos correlacionados podem levar a melhores
resultados;
○ Importante para conjuntos de dados com um número muito grande de
rótulos.
◎ Partições aleatórias:
○ Resultados competitivos e superiores em vários casos com relação às
partições locais e globais;
○ Métodos tradicionais ainda falham em lidar corretamente com as
correlações entre rótulos.
Resultados

Métodos
Comparados

Resultados

Resultados FRIEDMAN
- Chi Square: 50,8375
- fpValue: 0,000714514912773745
melhores piores

Resultados FRIEDMAN
- fpValue: 0,000714514912773745
melhores piores

• Métodos de detecção de comunidade mais escolhidos:
○ Walktrap, InfoMap e Edge Betweenness;
• Partições híbridas mais escolhidas:
○ Composta por 2 grupos;
• Resultados de desempenho das partições híbridas;
○ Competitivos em comparação com outras partições;
○ Superam as globais;
○ Não são superiores às locais para alguns conjuntos de dados.;
• HPML.C não é significativamente afetado pela esparsificação com o 𝑘-NN;
• Esparsificação com 𝑘-NN obteve desempenho ligeiramente melhor quando
comparado com a esparsificação feita com threshold;
Resultados

◎ No geral de todos os métodos e datasets:
○ Índice Jaccard + Métodos Hierárquicos: melhores em mais datasets do que
aqueles com Rogers-Tanimoto;
○ Rogers-Tanimoto + Métodos Não Hierárquicos: melhores em mais datasets
que o Índice Jaccard;
○ Não há grande melhoria na performance independente do particionamento
utilizado.
◎ Considerar ou não quando dois rótulos nunca ocorrem juntos:
○ Não afeta demasiadamente o resultado final;
○ Tanto as partições híbridas geradas com Jaccard, quanto com Rogers foram
capazes de melhorar o desempenho preditivo para alguns datasets;
◎ O classificador induzido não conseguiu usufruir do aprendizado das correlações;
Resultados

Métodos Comparados
Foram comparados os métodos global, local, o ECC, e as quatro versões do HPML.D.
Na tabela RF significa Random Forests.

Resultados

Resultados FRIEDMAN
- Chi Square: 41,1122448979592
- fpValue: 2,75191092358185E-07
melhores piores

◎ Partições híbridas mais escolhidas:
○ próximas de uma partição local;
○ vários grupos com um único rótulo e apenas 1 grupo com 2 rótulos.
◎ Partições globais obtiveram os melhores resultados:
○ Nas Florestas Aleatórias um conjunto maior de árvores de decisão
multirrótulo é utilizada para decidir os rótulos preditos;
○ Características dos próprios datasets;
○ Um número maior de correlações pode existir nos datasets com mais de
100 rótulos.
Resultados

◎ HPML.D: para alguns casos é pode-se afirmar que aprender as partições híbridas
sem nenhum encadeamento é melhor que aprender todos os rótulos juntos em um
conjunto de classificadores em cadeia.
◎ HPML.D.CI: encadear os rótulos dentro dos grupos disjuntos de rótulos
correlacionados leva a resultados melhores que induzir o ECC de forma tradicional
em alguns casos;
◎ HPML.D.CE: há casos em que quebrar a longa cadeia de classificadores, por meio
das partições híbridas, em uma ordem de encadeamento baseada correlações, é
melhor que o tradicional ECC.
◎ HPML.D.CEI: aprender vários níveis de correlação leva o classificador a obter
melhores resultados em pouquíssimos casos.
Resultados

5. CONCLUSÃO E
TRABALHOS FUTUROS

◎ Foi possível testar a hipótese, verificar que ela é positiva e que há
necessidade de mais investigação;
◎ Partições híbridas obtiveram resultados competitivos, ou melhores,
em diversos datasets e métodos, com relação às outras partições;
◎ As abordagens global e local não se mostraram melhores do que as
aleatórias ou híbridas
◎ O experimento exaustivo e oráculo mostrou que é possível
encontrar uma ou mais partições entre a global e local que
melhoram o desempenho preditivo.
Conclusão

◎ Métodos encadeados:
○ Competitivos;
○ Desempenho melhor que o ECC, Global e Local em alguns casos.
◎ CLP, MLP e WLP:
○ Muitos rótulos não foram aprendidos, nem preditos corretamente
pelos classificadores;
○ Indica a necessidade de melhorias no classificador.
Conclusão

◎ Poucos rótulos:
○ Partições locais tendem a obter os melhores resultados;
○ Partições globais o pior quando.
◎ Muitos rótulos:
○ Partições locais tendem a obter os piores resultados;
○ Partições globais tendem a ter os melhores resultados.
◎ Possibilidade:
○ Poucos rótulos = poucas correlações;
○ Muitos rótulos = muitas correlações.
Conclusão

◎ Como trabalhos futuros pode-se:
◎ Elaborar uma medida de correlação específica;
◎ Elaborar uma medida para quantificar o aprendizado baseado em
correlações;
◎ Utilizar ainda mais datasets com mais de 100 rótulos;
◎ Estudar e aplicar novos métodos de particionamento;
◎ Estudar e aplicar outros critério de seleção de melhor partição híbrida;
◎ Induzir outros classificadores que consigam lidar com diferentes
configurações de partições;
◎ Estudar e testar formas para validar e testar todas as partições possíveis
para datasets com mais de 7 rótulos.
TRABALHOS FUTUROS

OBRIGADA!
https://sites.google.com/view/cissagatto

PUBLICAÇÕES

PUBLICAÇÕES
◎ Gatto, E.C., Valejo, A.D.B., Ferrandin, M., Cerri, R. (2023).
Community Detection for Multi-label Classification. In: Naldi,
M.C., Bianchi, R.A.C. (eds) Intelligent Systems. BRACIS 2023.
Lecture Notes in Computer Science(), vol 14195. Springer,
Cham. https://doi.org/10.1007/978-3-031-45368-7_6
◎ E. C. Gatto, M. Ferrandin and R. Cerri, "Exploring Label
Correlations for Partitioning the Label Space in Multi-label
Classification," 2021 International Joint Conference on Neural
Networks (IJCNN), Shenzhen, China, 2021, pp. 1-8, doi:
10.1109/IJCNN52387.2021.9533331
◎

PRÉ-PRINTS
◎ Recusado: Gatto, Elaine Cecilia and Ferrandin, Mauri and
Cerri, Ricardo, Clustering Labels in Multi-Label Learning: A
Study Using Randomness and Label Correlations. Available
at SSRN: https://ssrn.com/abstract=4163294 or
http://dx.doi.org/10.2139/ssrn.4163294
◎ Em Revisão: Elaine Cecília Gatto, Mauri Ferrandin, Ricardo
Cerri et al. Multi-Label Classification with Label Clusters, 07
July 2023, PREPRINT (Version 1) available at Research Square
[https://doi.org/10.21203/rs.3.rs-3133411/v1]

RESULTADOS
COMPLETOS

HPML.A.c
◎ GRÁFICOS:
○ Vitórias, Derrotas e Empates;
○ Distância Crítica;
○ Desempenho.
◎ TABELAS:
○ Testes Estatísticos;
○ Comparação Pareada;
○ Partições Escolhidas;
○ Desempenho.
Clicar para abrir em nova janela

Exaustivo + Oráculo
◎ GRÁFICOS:
○ Desempenho.
◎ TABELAS:
○ Desempenho.

Comunidades
◎ GRÁFICOS:
○ Desempenho.
◎ TABELAS:
○ Desempenho.

Encadeamento
◎ GRÁFICOS:
○ Desempenho.
◎ TABELAS:
○ Desempenho.

Além do Aprendizado Local e Global: Particionando o espaço de classes em problemas de classificação multirrótulo

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Além do Aprendizado Local e Global: Particionando o espaço de classes em problemas de classificação multirrótulo

Semelhante a Além do Aprendizado Local e Global: Particionando o espaço de classes em problemas de classificação multirrótulo (20)

Mais de Elaine Cecília Gatto

Mais de Elaine Cecília Gatto (20)

Além do Aprendizado Local e Global: Particionando o espaço de classes em problemas de classificação multirrótulo