Classificação Multirrótulo: Aprendizado de Correlações

Classificação Multirrótulo:
Aprendizado de Correlações
Elaine Cecília Gatto – Cissa
15/09/2023 – São José Do Rio Preto

Co-Supervisor
Cissa Gatto
Alan
Demétrius
Baria Valejo
Main
Supervisor
Ricardo Cerri
PhD
Candidate
Mauri
Ferrandin
Pesquisadores
International
Supervisor
Celine
Vens
Co-Supervisor

10/6/2023
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
3

AGENDA
• Introdução
• Tipos de Classificação
• Classificação Multirrótulo
• Aprendizado de Correlações
• Partições Híbridas para Classificação Multirrótulo
10/6/2023
GATTO
4

Introdução
10/6/2023
GATTO
5

Introdução
10/6/2023
GATTO
6
Dados de
Treino
Aprendizado
(treinamento)
Modelo
Dados de
Teste
Modelo
Resposta ou
Saída do
Modelo.

Tipos de
Classificação
10/6/2023
GATTO
7

10/6/2023
GATTO
8

Problemas do mundo real
• Reconhecimento de classes químicas terapêuticas anatômicas de
farmácos;
• Internet das Coisas;
• Categorização de texto;
• Predição de Interações Farmácos-Alvo;
• Classificação de emoções;
• Classificação de doenças a partir de exames de Raio-X ;
• Sistema de classificação de vídeos curtos;
• Etc.
GATTO
10/6/2023 9

Datasets
Problema Binário
Atributos de
entrada
Atributos
de Saída
Instânci
as
Att
1
Att2 ... Atta Y
x1 0
x2 1
...
xm 1
10/6/2023
GATTO
10
Problema Multiclasse
Atributos de
entrada
Atributos
de Saída
Instânci
as
Att
1
Att2 ... Atta Y
x1 Branco
x2 Preto
...
xm Cinza
Instâncias: um objeto que representa o problema a ser
resolvido.
Atributos de Entrada: características da instância;
Atributos de Saída: alvos, rótulos, classes ou categorias.
a = número total de atributos de
entrada
m = número total de instâncias
(linhas)

Datasets
Problema Multirrótulo
Atributos de
entrada
Atributos de
Saída
Instância
s
Att1
Att
2
... Att
a
Y1 Y2 ... Yl
x1 0
x2 1
...
xm 1
10/6/2023
GATTO
11
Problema Hierárquico Multirrótulo
Atributos de
entrada
Atributos
de Saída
Instânci
as
Att
1
Att2 ... Atta Y
x1 1/2/3
x2 1/1/1
...
xm 1/3/4/1
1/3/4/1 se transforma Y1=1, Y2=0, Y3=1, Y4=1, Y5=1, onde cada Y representa um nível da hierarquia.
l = número total de rótulos (l pois vem de label que é rótulo em inglês)
Espaço de rótulos = atributos de saída

Entrada X Saída
Desafios da Classificação Multirrótulo
GATTO
10/6/2023 12
Dimensionalidad
e
- Dimensão dos espaços de
entrada e saída
Exemplo: um dataset com milhões de linhas e colunas.
Tudo isso é realmente importante para o modelo?
Reduzir as
dimensões
- O que é relevante para resolver o problema?
- Técnicas de seleção de atributos
- Técnicas de seleção de instâncias
- Técnicas de extração de atributos
- Amostra representativa e útil

Processamento
GATTO
10/6/2023 13
Escalabilidade
Exemplo: um dataset com milhões de linhas e colunas.
Como processar tanta informação?
Dividir o problema em vários subproblemas é uma forma
- Recursos computacionais

Instâncias Positivas X
Instâncias Negativas
GATTO
10/6/2023 14
Desbalanceament
o
Na classificação
Multirrótulo é
ainda mais
complexo
- Impacto no Aprendizado (overfitting e
underfitting)
- Aumentar o número de instâncias
artificialmente
- Instâncias não representativas
Exemplo: um dataset com milhões instâncias, mas apenas
algumas pertencem à classe - 20% pertence a alguma classe,
enquanto 80% não. Refere-se à distribuição dos rótulos.
- Positiva: a instância pertence à
classe do problema
- Negativa: a instância não
pertence à classe do problema

GATTO
10/6/2023 15
Combinação de Rótulos
Instânci
as
Att1 Att2
Att
3
Att4 Y1 Y2 Y3 Y4
x1 0 1 1 0
x2 1 0 1 0
x3 1 1 1 0
x4 1 0 1 1
x5 0 1 1 0
x6 1 0 1 1
x7 1 1 1 0
Conjunto de Dados Multirrótulo
[0110]
[1010]
[1110]
[1011]
[Y2, Y3]
[Y1, Y3]
[Y1, Y2, Y2]
[Y1, Y3, Y4]
- O número de instâncias positivas para
determinados rótulos pode ser bem
pequeno e o número de instâncias
negativas alto;
- Alguns rótulos podem ser mais
frequentes que outros (rótulos
majoritários e minoritários);
- Label Skew: quando há um número alto
de instâncias associadas a conjuntos de
rótulos frequentes, e também um alto
número de instâncias associadas a
conjuntos de rótulos menos frequentes.

Natural do dataset
Multirrótulo
Identificar, Capturar,
Aprender e Explorar
GATTO
10/6/2023 16
Correlações entre
Rótulos

GATTO
10/6/2023 17

• Modelar as correlações a partir de similaridades entre:
• apenas as instâncias;
• apenas os rótulos que estão no espaço de rótulos;
• combinar similaridades entre as instâncias e o espaço de rótulos
• pares de rótulos;
• grupos de rótulos;
• Como?
• Probabilidade, Medidas de Similaridade, Grafos, Otimização, etc.
GATTO
10/6/2023 18

Como resolver um problema
Multirrótulo?
1. Abordagem Global
1. Novos modelos ou adaptação de modelos existentes;
2. Aprende todos os rótulos de uma única vez;
3. Não aprende corretamente as correlações;
4. Indução de um único modelo (um classificador);
GATTO
10/6/2023 19
Há recursos computacionais
suficientes para aprender milhões de
rótulos de uma vez só? Maldição da
dimensionalidade!
Árvores de Decisão, Algoritmos
Genéticos, Redes Neurais, etc.

Como resolver um problema
Multirrótulo?
2. Abordagem Local
1. Divide o problema original em subproblemas;
2. Aprende cada rótulo de forma individual;
3. Não aprende as correlações;
4. Indução de um modelo por rótulo;
GATTO
10/6/2023 20
Se o dataset possuir milhões de
rótulos, serão induzidos milhões de
classificadores. Maldição da
dimensionalidade!
Classificador base!

GATTO
10/6/2023 21
Mas, e se houvesse
outra forma de
resolver o problema
Multirrótulo?

Partições Híbridas para Classificação Multirrótulo
Hybrid Partitions for Multi-Label Classification -
HPML
GATTO
10/6/2023 22

Partições Híbridas para Classificação
Multirrótulo
• Pergunta de Pesquisa: No domínio de problemas de
classificação multirrótulo, é possível encontrar múltiplas
partições híbridas nos dados multirrótulo, e escolher uma
entre elas que melhore o desempenho preditivo do
classificador em relação às tradicionais abordagens global e
local?
• Número de Bell: 0=1, 1=1, 2=2, 3=5, 4=15, 5=52, 6=203,
7=877, 8=4.140, 9=21.147, 10=115.975, 11=678.570,
12=4.213.597, 13 = 27.644.437.
GATTO
10/6/2023 23

Partições Híbridas para Classificação
Multirrótulo
GATTO
10/6/2023 24

GATTO
10/6/2023 25
Instâncias do Método HPML

Passo 2: Modelagem das Correlações
Medidas de Similaridade
para dados categóricos
• Quantificam a
similaridade entre dois
rótulos (um par de
rótulos);
• Quanto mais parecido,
maior o valor da
similaridade;
• Índice de Jaccard e
Rogers-Tanimoto.
Redes Complexas:
Métodos de Detecção de
Comunidades
• A topologia de rede pode
codificar sistematicamente as
interações entre os dados e
encontrar relacionamentos
entre eles;
• Uma comunidade é um
conjunto de vértices com
muitas arestas dentro da
comunidade e algumas arestas
fora dela;
• Os vértices são os rótulos e as
arestas são as semelhanças
entre eles;
• Grafos de co-ocorrência de
rótulos a partir de matrizes de
similaridade.
GATTO
10/6/2023 26
Redes Neurais: Mapas
Auto Organizáveis
• Kohonen/SOM;
• Gera um mapa
bidimensional onde
instâncias semelhantes
são mapeadas em
neurônios próximos no
mapa.

GATTO
10/6/2023 27
Passo 2: Modelagem das Correlações
Matrizes de similaridades resultantes das medidas de similaridade para
dados categóricos. São usadas também nos métodos de detecção de
comunidades.

Passo 3: Particionamento do Espaço de
Rótulos
Algoritmo de
Agrupamento
Hierárquico
Aglomerativo
• Constrói grupos de rótulos
correlacionados particionando
recursivamente a matriz de
similaridade. No início do
algoritmo, cada rótulo está em
um grupo separado. Eles são
agrupados conforme o
algoritmo itera. Na última
iteração, todos os rótulos
terminam juntos em um único
grupo.
• Métricas de ligação: formas de
aglomerar;
• Maior coeficiente de
aglomeração;
• Corte dos dendrogramas;
Redes Complexas:
Métodos de Detecção de
Comunidades
• Grafos de co-ocorrência de
rótulos;
• Procedimento parecido com o
do algoritmo de agrupamento
hierárquico aglomerativo;
• Modularidade máxima;
• Corte dos dendrogramas;
• A modularidade mede a
separação entre os vértices e
quantifica a densidade dos
links dentro das comunidades
em comparação com os links
entre as comunidades.
GATTO
10/6/2023 28
Redes Neurais: Mapas
Auto Organizáveis
• Corte do mapa
bidimensional.
• Gera partições de dados
baseadas em instâncias e
não em rótulos;
Um dendrograma representa
a estrutura do grupos de
rótulos e os níveis de
similaridade onde ocorreram
as junções dos grupos.

GATTO
10/6/2023 29
c) Average: entre single e complete
b) Complete Linkage: grupos
similares
a) Single Linkage: amigos de amigos
d) McQuity: entre single e complete e) Ward.D: grupos compactos e
esféricos
f) Ward.D2: grupos compactos e esféricos
Rótulos

GATTO
10/6/2023 30
Rótulos
As métricas Average, McQuitty e
Single Linkage geram a mesma
partição ao cortar o dendrograma
no nível 3.
As métricas Complete, Ward.D e
Ward.D2 Linkage geram a mesma
partição ao cortar o dendrograma no
nível 3.

GATTO
10/6/2023 31
Rótulos
b) Mapa dividido em 8 grupos
onde cada cor representa um
grupo de neurônios similares, os
quais são compostos por
instâncias similares. Não são
grupos disjuntos de rótulos.
a) Kohonen - SOM
Input: apenas o espaço de rótulos
(sem atributos de entrada)

GATTO
10/6/2023 32
Rótulos

GATTO
10/6/2023 33
Rótulos
b) WalkTrap:
caminhos
aleatórios
c) Edge
Betweenness:
número de
caminhos mais
curtos através da
aresta
d) Fast
Greedy: ganho
de
modularidade
a) Grafo de
uma rede
complexa

GATTO
10/6/2023 34
Rótulos
f) Label
Propagation: rótulo
mais frequente
g) InfoMap:
método multinível
baseado na
equação do mapa
h) SpinGlass
modelos de
rotação
e) Louvain:
método
multinível
baseado em
Fast Greedy

GATTO
10/6/2023 35
Rótulos
Diferentes
configuraçõe
s do
SpinGlass

GATTO
10/6/2023 36
Passo 4: Construindo os datasets para cada
grupo de cada partição Att
1
...
Att
a
orange
x1
..
xm
Att1 ...
Att
a
blue red
whit
e
x1
..
xm
Att1 ...
Att
a
blac
k
yellow green
x1
..
xm
C3
C2
C2
C1
C1
C3

GATTO
10/6/2023 37
Passo 5: Validando as partições com um
classificador

GATTO
10/6/2023 38
Passo 5: Validando as partições com um
classificador
Att
1
...
Att
a
orange
x1 1
.. 1
xm 0
Att1 ...
Att
a
blue red
whit
e
x1 0 1 1
.. 0 1 1
xm 1 0 0
Att1 ...
Att
a
blac
k
yellow green
x1 0 1 1
.. 1 0 0
xm 1 0 1
Att
1
...
Att
a
orange
x1 1
.. 0
xm 0
Att1 ...
Att
a
blue red
whit
e
x1 0 0 1
.. 1 1 0
xm 0 1 0
Att1 ...
Att
a
blac
k
yellow green
x1 1 1 1
.. 0 0 0
xm 1 0 1
Conjunto de Teste
Predições – saída do modelo

GATTO
10/6/2023 39
Passo 5: Validando as partições com o
coeficiente da silhueta

GATTO
10/6/2023 40
Passo 6: Escolhendo a melhor partição com
um classificador ou escolhendo a melhor
partição com o coeficiente da silhueta
- A partição híbrida com o maior coeficiente da silhueta
é escolhida para o teste final
- A partição híbrida com o maior valor de alguma
medida de avaliação de desempenho é escolhida para o
teste final

GATTO
10/6/2023 41
Passo 7: Testando a melhor partição híbrida
selecionada

Publicações Científicas
• GATTO, Elaine C.; VALEJO, Alan D. B., FERRANDIN, Mauri; CERRI, R. Community Detection for
Multi-Label Classification. In: 12th Brazilian Conference on Intelligent Systems. BRACIS. Belo
Horizonte/MG. Link: https://github.com/cissagatto/Bracis2023.
• GATTO, Elaine. C; FERRANDIN, M.; CERRI, R. Exploring Label Correlations for Partitioning the
Label Space in Multi-label Classification. In: 2021 International Joint Conference on Neural
Networks. IJCNN. Online/Remoto. Video Presentation:
https://www.youtube.com/watch?v=1sdFV4Dvuao. Available in:
https://ieeexplore.ieee.org/document/9533331.
GATTO
10/6/2023 42

Artigos Técnicos
• Portal Embarcados
• Read Prensa
• RPubs
GATTO
10/6/2023 43

https://sites.google.com/view/cissagatto

Classificação Multirrótulo: Aprendizado de Correlações

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Classificação Multirrótulo: Aprendizado de Correlações

Semelhante a Classificação Multirrótulo: Aprendizado de Correlações (20)

Mais de Elaine Cecília Gatto

Mais de Elaine Cecília Gatto (20)

Classificação Multirrótulo: Aprendizado de Correlações

Notas do Editor