SlideShare uma empresa Scribd logo
1 de 44
Classificação Multirrótulo:
Aprendizado de Correlações
Elaine Cecília Gatto – Cissa
15/09/2023 – São José Do Rio Preto
Co-Supervisor
Cissa Gatto
Alan
Demétrius
Baria Valejo
Main
Supervisor
Ricardo Cerri
PhD
Candidate
Mauri
Ferrandin
Pesquisadores
International
Supervisor
Celine
Vens
Co-Supervisor
10/6/2023
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
3
AGENDA
• Introdução
• Tipos de Classificação
• Classificação Multirrótulo
• Aprendizado de Correlações
• Partições Híbridas para Classificação Multirrótulo
10/6/2023
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
4
Introdução
10/6/2023
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
5
Introdução
10/6/2023
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
6
Dados de
Treino
Aprendizado
(treinamento)
Modelo
Dados de
Teste
Modelo
Resposta ou
Saída do
Modelo.
Tipos de
Classificação
10/6/2023
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
7
10/6/2023
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
8
Problemas do mundo real
• Reconhecimento de classes químicas terapêuticas anatômicas de
farmácos;
• Internet das Coisas;
• Categorização de texto;
• Predição de Interações Farmácos-Alvo;
• Classificação de emoções;
• Classificação de doenças a partir de exames de Raio-X ;
• Sistema de classificação de vídeos curtos;
• Etc.
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 9
Datasets
Problema Binário
Atributos de
entrada
Atributos
de Saída
Instânci
as
Att
1
Att2 ... Atta Y
x1 0
x2 1
...
xm 1
10/6/2023
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10
Problema Multiclasse
Atributos de
entrada
Atributos
de Saída
Instânci
as
Att
1
Att2 ... Atta Y
x1 Branco
x2 Preto
...
xm Cinza
Instâncias: um objeto que representa o problema a ser
resolvido.
Atributos de Entrada: características da instância;
Atributos de Saída: alvos, rótulos, classes ou categorias.
a = número total de atributos de
entrada
m = número total de instâncias
(linhas)
Datasets
Problema Multirrótulo
Atributos de
entrada
Atributos de
Saída
Instância
s
Att1
Att
2
... Att
a
Y1 Y2 ... Yl
x1 0
x2 1
...
xm 1
10/6/2023
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
11
Problema Hierárquico Multirrótulo
Atributos de
entrada
Atributos
de Saída
Instânci
as
Att
1
Att2 ... Atta Y
x1 1/2/3
x2 1/1/1
...
xm 1/3/4/1
1/3/4/1 se transforma Y1=1, Y2=0, Y3=1, Y4=1, Y5=1, onde cada Y representa um nível da hierarquia.
l = número total de rótulos (l pois vem de label que é rótulo em inglês)
Espaço de rótulos = atributos de saída
Entrada X Saída
Desafios da Classificação Multirrótulo
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 12
Dimensionalidad
e
- Dimensão dos espaços de
entrada e saída
Exemplo: um dataset com milhões de linhas e colunas.
Tudo isso é realmente importante para o modelo?
Reduzir as
dimensões
- O que é relevante para resolver o problema?
- Técnicas de seleção de atributos
- Técnicas de seleção de instâncias
- Técnicas de extração de atributos
- Amostra representativa e útil
Processamento
Desafios da Classificação Multirrótulo
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 13
Escalabilidade
Exemplo: um dataset com milhões de linhas e colunas.
Como processar tanta informação?
Dividir o problema em vários subproblemas é uma forma
- Recursos computacionais
Instâncias Positivas X
Instâncias Negativas
Desafios da Classificação Multirrótulo
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 14
Desbalanceament
o
Na classificação
Multirrótulo é
ainda mais
complexo
- Impacto no Aprendizado (overfitting e
underfitting)
- Aumentar o número de instâncias
artificialmente
- Instâncias não representativas
Exemplo: um dataset com milhões instâncias, mas apenas
algumas pertencem à classe - 20% pertence a alguma classe,
enquanto 80% não. Refere-se à distribuição dos rótulos.
- Positiva: a instância pertence à
classe do problema
- Negativa: a instância não
pertence à classe do problema
Desafios da Classificação Multirrótulo
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 15
Combinação de Rótulos
Instânci
as
Att1 Att2
Att
3
Att4 Y1 Y2 Y3 Y4
x1 0 1 1 0
x2 1 0 1 0
x3 1 1 1 0
x4 1 0 1 1
x5 0 1 1 0
x6 1 0 1 1
x7 1 1 1 0
Conjunto de Dados Multirrótulo
[0110]
[1010]
[1110]
[1011]
[Y2, Y3]
[Y1, Y3]
[Y1, Y2, Y2]
[Y1, Y3, Y4]
- O número de instâncias positivas para
determinados rótulos pode ser bem
pequeno e o número de instâncias
negativas alto;
- Alguns rótulos podem ser mais
frequentes que outros (rótulos
majoritários e minoritários);
- Label Skew: quando há um número alto
de instâncias associadas a conjuntos de
rótulos frequentes, e também um alto
número de instâncias associadas a
conjuntos de rótulos menos frequentes.
Natural do dataset
Multirrótulo
Identificar, Capturar,
Aprender e Explorar
Desafios da Classificação Multirrótulo
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 16
Correlações entre
Rótulos
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 17
Desafios da Classificação Multirrótulo
• Modelar as correlações a partir de similaridades entre:
• apenas as instâncias;
• apenas os rótulos que estão no espaço de rótulos;
• combinar similaridades entre as instâncias e o espaço de rótulos
• pares de rótulos;
• grupos de rótulos;
• Como?
• Probabilidade, Medidas de Similaridade, Grafos, Otimização, etc.
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 18
Como resolver um problema
Multirrótulo?
1. Abordagem Global
1. Novos modelos ou adaptação de modelos existentes;
2. Aprende todos os rótulos de uma única vez;
3. Não aprende corretamente as correlações;
4. Indução de um único modelo (um classificador);
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 19
Há recursos computacionais
suficientes para aprender milhões de
rótulos de uma vez só? Maldição da
dimensionalidade!
Árvores de Decisão, Algoritmos
Genéticos, Redes Neurais, etc.
Como resolver um problema
Multirrótulo?
2. Abordagem Local
1. Divide o problema original em subproblemas;
2. Aprende cada rótulo de forma individual;
3. Não aprende as correlações;
4. Indução de um modelo por rótulo;
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 20
Se o dataset possuir milhões de
rótulos, serão induzidos milhões de
classificadores. Maldição da
dimensionalidade!
Classificador base!
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 21
Mas, e se houvesse
outra forma de
resolver o problema
Multirrótulo?
Partições Híbridas para Classificação Multirrótulo
Hybrid Partitions for Multi-Label Classification -
HPML
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 22
Partições Híbridas para Classificação
Multirrótulo
• Pergunta de Pesquisa: No domínio de problemas de
classificação multirrótulo, é possível encontrar múltiplas
partições híbridas nos dados multirrótulo, e escolher uma
entre elas que melhore o desempenho preditivo do
classificador em relação às tradicionais abordagens global e
local?
• Número de Bell: 0=1, 1=1, 2=2, 3=5, 4=15, 5=52, 6=203,
7=877, 8=4.140, 9=21.147, 10=115.975, 11=678.570,
12=4.213.597, 13 = 27.644.437.
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 23
Partições Híbridas para Classificação
Multirrótulo
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 24
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 25
Instâncias do Método HPML
Passo 2: Modelagem das Correlações
Medidas de Similaridade
para dados categóricos
• Quantificam a
similaridade entre dois
rótulos (um par de
rótulos);
• Quanto mais parecido,
maior o valor da
similaridade;
• Índice de Jaccard e
Rogers-Tanimoto.
Redes Complexas:
Métodos de Detecção de
Comunidades
• A topologia de rede pode
codificar sistematicamente as
interações entre os dados e
encontrar relacionamentos
entre eles;
• Uma comunidade é um
conjunto de vértices com
muitas arestas dentro da
comunidade e algumas arestas
fora dela;
• Os vértices são os rótulos e as
arestas são as semelhanças
entre eles;
• Grafos de co-ocorrência de
rótulos a partir de matrizes de
similaridade.
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 26
Redes Neurais: Mapas
Auto Organizáveis
• Kohonen/SOM;
• Gera um mapa
bidimensional onde
instâncias semelhantes
são mapeadas em
neurônios próximos no
mapa.
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 27
Passo 2: Modelagem das Correlações
Matrizes de similaridades resultantes das medidas de similaridade para
dados categóricos. São usadas também nos métodos de detecção de
comunidades.
Passo 3: Particionamento do Espaço de
Rótulos
Algoritmo de
Agrupamento
Hierárquico
Aglomerativo
• Constrói grupos de rótulos
correlacionados particionando
recursivamente a matriz de
similaridade. No início do
algoritmo, cada rótulo está em
um grupo separado. Eles são
agrupados conforme o
algoritmo itera. Na última
iteração, todos os rótulos
terminam juntos em um único
grupo.
• Métricas de ligação: formas de
aglomerar;
• Maior coeficiente de
aglomeração;
• Corte dos dendrogramas;
Redes Complexas:
Métodos de Detecção de
Comunidades
• Grafos de co-ocorrência de
rótulos;
• Procedimento parecido com o
do algoritmo de agrupamento
hierárquico aglomerativo;
• Modularidade máxima;
• Corte dos dendrogramas;
• A modularidade mede a
separação entre os vértices e
quantifica a densidade dos
links dentro das comunidades
em comparação com os links
entre as comunidades.
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 28
Redes Neurais: Mapas
Auto Organizáveis
• Corte do mapa
bidimensional.
• Gera partições de dados
baseadas em instâncias e
não em rótulos;
Um dendrograma representa
a estrutura do grupos de
rótulos e os níveis de
similaridade onde ocorreram
as junções dos grupos.
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 29
c) Average: entre single e complete
b) Complete Linkage: grupos
similares
a) Single Linkage: amigos de amigos
d) McQuity: entre single e complete e) Ward.D: grupos compactos e
esféricos
f) Ward.D2: grupos compactos e esféricos
Passo 3: Particionamento do Espaço de
Rótulos
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 30
Passo 3: Particionamento do Espaço de
Rótulos
As métricas Average, McQuitty e
Single Linkage geram a mesma
partição ao cortar o dendrograma
no nível 3.
As métricas Complete, Ward.D e
Ward.D2 Linkage geram a mesma
partição ao cortar o dendrograma no
nível 3.
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 31
Passo 3: Particionamento do Espaço de
Rótulos
b) Mapa dividido em 8 grupos
onde cada cor representa um
grupo de neurônios similares, os
quais são compostos por
instâncias similares. Não são
grupos disjuntos de rótulos.
a) Kohonen - SOM
Input: apenas o espaço de rótulos
(sem atributos de entrada)
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 32
Passo 3: Particionamento do Espaço de
Rótulos
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 33
Passo 3: Particionamento do Espaço de
Rótulos
b) WalkTrap:
caminhos
aleatórios
c) Edge
Betweenness:
número de
caminhos mais
curtos através da
aresta
d) Fast
Greedy: ganho
de
modularidade
a) Grafo de
uma rede
complexa
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 34
Passo 3: Particionamento do Espaço de
Rótulos
f) Label
Propagation: rótulo
mais frequente
g) InfoMap:
método multinível
baseado na
equação do mapa
h) SpinGlass
modelos de
rotação
e) Louvain:
método
multinível
baseado em
Fast Greedy
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 35
Passo 3: Particionamento do Espaço de
Rótulos
Diferentes
configuraçõe
s do
SpinGlass
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 36
Passo 4: Construindo os datasets para cada
grupo de cada partição Att
1
...
Att
a
orange
x1
..
xm
Att1 ...
Att
a
blue red
whit
e
x1
..
xm
Att1 ...
Att
a
blac
k
yellow green
x1
..
xm
C3
C2
C2
C1
C1
C3
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 37
Passo 5: Validando as partições com um
classificador
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 38
Passo 5: Validando as partições com um
classificador
Att
1
...
Att
a
orange
x1 1
.. 1
xm 0
Att1 ...
Att
a
blue red
whit
e
x1 0 1 1
.. 0 1 1
xm 1 0 0
Att1 ...
Att
a
blac
k
yellow green
x1 0 1 1
.. 1 0 0
xm 1 0 1
Att
1
...
Att
a
orange
x1 1
.. 0
xm 0
Att1 ...
Att
a
blue red
whit
e
x1 0 0 1
.. 1 1 0
xm 0 1 0
Att1 ...
Att
a
blac
k
yellow green
x1 1 1 1
.. 0 0 0
xm 1 0 1
Conjunto de Teste
Predições – saída do modelo
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 39
Passo 5: Validando as partições com o
coeficiente da silhueta
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 40
Passo 6: Escolhendo a melhor partição com
um classificador ou escolhendo a melhor
partição com o coeficiente da silhueta
- A partição híbrida com o maior coeficiente da silhueta
é escolhida para o teste final
- A partição híbrida com o maior valor de alguma
medida de avaliação de desempenho é escolhida para o
teste final
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 41
Passo 7: Testando a melhor partição híbrida
selecionada
Publicações Científicas
• GATTO, Elaine C.; VALEJO, Alan D. B., FERRANDIN, Mauri; CERRI, R. Community Detection for
Multi-Label Classification. In: 12th Brazilian Conference on Intelligent Systems. BRACIS. Belo
Horizonte/MG. Link: https://github.com/cissagatto/Bracis2023.
• GATTO, Elaine. C; FERRANDIN, M.; CERRI, R. Exploring Label Correlations for Partitioning the
Label Space in Multi-label Classification. In: 2021 International Joint Conference on Neural
Networks. IJCNN. Online/Remoto. Video Presentation:
https://www.youtube.com/watch?v=1sdFV4Dvuao. Available in:
https://ieeexplore.ieee.org/document/9533331.
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 42
Artigos Técnicos
• Portal Embarcados
• Read Prensa
• RPubs
SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA
GATTO
10/6/2023 43
https://sites.google.com/view/cissagatto

Mais conteúdo relacionado

Semelhante a Classificação Multirrótulo: Aprendizado de Correlações

Aplicações não convencionais de grafos
Aplicações não convencionais de grafosAplicações não convencionais de grafos
Aplicações não convencionais de grafospichiliani
 
Business Analytics - Data Science Processes
Business Analytics - Data Science Processes Business Analytics - Data Science Processes
Business Analytics - Data Science Processes Daniela Brauner
 
Dissertação google inc act on general strike suzart Attain to cpf 051 812 95...
Dissertação  google inc act on general strike suzart Attain to cpf 051 812 95...Dissertação  google inc act on general strike suzart Attain to cpf 051 812 95...
Dissertação google inc act on general strike suzart Attain to cpf 051 812 95...Sandro Santana
 
Introdução a Big Data e Apache Solr
Introdução a Big Data e Apache SolrIntrodução a Big Data e Apache Solr
Introdução a Big Data e Apache SolrJuliano Martins
 
P2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_tiP2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_tiCleber Oliveira
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
BSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
BSDDAY 2019 - Data Science e Artificial Intelligence usando FreebsdBSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
BSDDAY 2019 - Data Science e Artificial Intelligence usando FreebsdMauro Risonho de Paula Assumpcao
 
MPOG2008 - Walter Cunha
MPOG2008 - Walter CunhaMPOG2008 - Walter Cunha
MPOG2008 - Walter CunhaWalter Cunha
 
Kodu mathv1
Kodu mathv1Kodu mathv1
Kodu mathv1Silva
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataFabrício Barth
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Explorando uma solução distribuída para o sistema Controle de Marcas e Sinais
Explorando uma solução distribuída para o sistema Controle de Marcas e SinaisExplorando uma solução distribuída para o sistema Controle de Marcas e Sinais
Explorando uma solução distribuída para o sistema Controle de Marcas e SinaisAlex Camargo
 

Semelhante a Classificação Multirrótulo: Aprendizado de Correlações (20)

monografia_andre_paro
monografia_andre_paromonografia_andre_paro
monografia_andre_paro
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
jjjjjjjjjjjjjjj
jjjjjjjjjjjjjjjjjjjjjjjjjjjjjj
jjjjjjjjjjjjjjj
 
Aplicações não convencionais de grafos
Aplicações não convencionais de grafosAplicações não convencionais de grafos
Aplicações não convencionais de grafos
 
Business Analytics - Data Science Processes
Business Analytics - Data Science Processes Business Analytics - Data Science Processes
Business Analytics - Data Science Processes
 
Dissertação google inc act on general strike suzart Attain to cpf 051 812 95...
Dissertação  google inc act on general strike suzart Attain to cpf 051 812 95...Dissertação  google inc act on general strike suzart Attain to cpf 051 812 95...
Dissertação google inc act on general strike suzart Attain to cpf 051 812 95...
 
Introdução a Big Data e Apache Solr
Introdução a Big Data e Apache SolrIntrodução a Big Data e Apache Solr
Introdução a Big Data e Apache Solr
 
P2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_tiP2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_ti
 
PO - aula 1.pptx
PO - aula 1.pptxPO - aula 1.pptx
PO - aula 1.pptx
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
BSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
BSDDAY 2019 - Data Science e Artificial Intelligence usando FreebsdBSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
BSDDAY 2019 - Data Science e Artificial Intelligence usando Freebsd
 
MPOG2008 - Walter Cunha
MPOG2008 - Walter CunhaMPOG2008 - Walter Cunha
MPOG2008 - Walter Cunha
 
Kodu mathv1
Kodu mathv1Kodu mathv1
Kodu mathv1
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Tcc aop-e-persistencia
Tcc aop-e-persistenciaTcc aop-e-persistencia
Tcc aop-e-persistencia
 
Explorando uma solução distribuída para o sistema Controle de Marcas e Sinais
Explorando uma solução distribuída para o sistema Controle de Marcas e SinaisExplorando uma solução distribuída para o sistema Controle de Marcas e Sinais
Explorando uma solução distribuída para o sistema Controle de Marcas e Sinais
 

Mais de Elaine Cecília Gatto

A influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etariaA influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etariaElaine Cecília Gatto
 
Inteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à MedicinaInteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à MedicinaElaine Cecília Gatto
 
Apresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPCApresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPCElaine Cecília Gatto
 
Como a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptxComo a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptxElaine Cecília Gatto
 
Community Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label ClassificationCommunity Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label ClassificationElaine Cecília Gatto
 
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfMulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfElaine Cecília Gatto
 
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Elaine Cecília Gatto
 
Pipeline desdobramento escalonamento
Pipeline desdobramento escalonamentoPipeline desdobramento escalonamento
Pipeline desdobramento escalonamentoElaine Cecília Gatto
 
Resumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bitsResumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bitsElaine Cecília Gatto
 
Como descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcaçãoComo descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcaçãoElaine Cecília Gatto
 
Exploring label correlations for partitioning the label space in multi label ...
Exploring label correlations for partitioning the label space in multi label ...Exploring label correlations for partitioning the label space in multi label ...
Exploring label correlations for partitioning the label space in multi label ...Elaine Cecília Gatto
 
Exercicios Resolvidos Série MIPS Embarcados
Exercicios Resolvidos Série MIPS EmbarcadosExercicios Resolvidos Série MIPS Embarcados
Exercicios Resolvidos Série MIPS EmbarcadosElaine Cecília Gatto
 
Machine Learning: O que é, por onde começar e desafios
Machine Learning: O que é, por onde começar e desafiosMachine Learning: O que é, por onde começar e desafios
Machine Learning: O que é, por onde começar e desafiosElaine Cecília Gatto
 

Mais de Elaine Cecília Gatto (20)

A influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etariaA influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etaria
 
Inteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à MedicinaInteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à Medicina
 
Apresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPCApresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPC
 
entrevista r7.pdf
entrevista r7.pdfentrevista r7.pdf
entrevista r7.pdf
 
Como a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptxComo a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptx
 
Empoderamento Feminino
Empoderamento FemininoEmpoderamento Feminino
Empoderamento Feminino
 
Community Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label ClassificationCommunity Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label Classification
 
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfMulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
 
Curtinhas de sábado.pdf
Curtinhas de sábado.pdfCurtinhas de sábado.pdf
Curtinhas de sábado.pdf
 
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
 
Pipeline desdobramento escalonamento
Pipeline desdobramento escalonamentoPipeline desdobramento escalonamento
Pipeline desdobramento escalonamento
 
Cheat sheet Mips 32 bits
Cheat sheet Mips 32 bitsCheat sheet Mips 32 bits
Cheat sheet Mips 32 bits
 
Resumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bitsResumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bits
 
Como descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcaçãoComo descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcação
 
Exploring label correlations for partitioning the label space in multi label ...
Exploring label correlations for partitioning the label space in multi label ...Exploring label correlations for partitioning the label space in multi label ...
Exploring label correlations for partitioning the label space in multi label ...
 
Número de Bell
Número de BellNúmero de Bell
Número de Bell
 
Coeficiente da Silhueta
Coeficiente da SilhuetaCoeficiente da Silhueta
Coeficiente da Silhueta
 
Exercicios Resolvidos Série MIPS Embarcados
Exercicios Resolvidos Série MIPS EmbarcadosExercicios Resolvidos Série MIPS Embarcados
Exercicios Resolvidos Série MIPS Embarcados
 
Female gamers
Female gamersFemale gamers
Female gamers
 
Machine Learning: O que é, por onde começar e desafios
Machine Learning: O que é, por onde começar e desafiosMachine Learning: O que é, por onde começar e desafios
Machine Learning: O que é, por onde começar e desafios
 

Classificação Multirrótulo: Aprendizado de Correlações

  • 1. Classificação Multirrótulo: Aprendizado de Correlações Elaine Cecília Gatto – Cissa 15/09/2023 – São José Do Rio Preto
  • 2. Co-Supervisor Cissa Gatto Alan Demétrius Baria Valejo Main Supervisor Ricardo Cerri PhD Candidate Mauri Ferrandin Pesquisadores International Supervisor Celine Vens Co-Supervisor
  • 3. 10/6/2023 SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 3
  • 4. AGENDA • Introdução • Tipos de Classificação • Classificação Multirrótulo • Aprendizado de Correlações • Partições Híbridas para Classificação Multirrótulo 10/6/2023 SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 4
  • 5. Introdução 10/6/2023 SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 5
  • 6. Introdução 10/6/2023 SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 6 Dados de Treino Aprendizado (treinamento) Modelo Dados de Teste Modelo Resposta ou Saída do Modelo.
  • 7. Tipos de Classificação 10/6/2023 SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 7
  • 8. 10/6/2023 SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 8
  • 9. Problemas do mundo real • Reconhecimento de classes químicas terapêuticas anatômicas de farmácos; • Internet das Coisas; • Categorização de texto; • Predição de Interações Farmácos-Alvo; • Classificação de emoções; • Classificação de doenças a partir de exames de Raio-X ; • Sistema de classificação de vídeos curtos; • Etc. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 9
  • 10. Datasets Problema Binário Atributos de entrada Atributos de Saída Instânci as Att 1 Att2 ... Atta Y x1 0 x2 1 ... xm 1 10/6/2023 SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10 Problema Multiclasse Atributos de entrada Atributos de Saída Instânci as Att 1 Att2 ... Atta Y x1 Branco x2 Preto ... xm Cinza Instâncias: um objeto que representa o problema a ser resolvido. Atributos de Entrada: características da instância; Atributos de Saída: alvos, rótulos, classes ou categorias. a = número total de atributos de entrada m = número total de instâncias (linhas)
  • 11. Datasets Problema Multirrótulo Atributos de entrada Atributos de Saída Instância s Att1 Att 2 ... Att a Y1 Y2 ... Yl x1 0 x2 1 ... xm 1 10/6/2023 SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 11 Problema Hierárquico Multirrótulo Atributos de entrada Atributos de Saída Instânci as Att 1 Att2 ... Atta Y x1 1/2/3 x2 1/1/1 ... xm 1/3/4/1 1/3/4/1 se transforma Y1=1, Y2=0, Y3=1, Y4=1, Y5=1, onde cada Y representa um nível da hierarquia. l = número total de rótulos (l pois vem de label que é rótulo em inglês) Espaço de rótulos = atributos de saída
  • 12. Entrada X Saída Desafios da Classificação Multirrótulo SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 12 Dimensionalidad e - Dimensão dos espaços de entrada e saída Exemplo: um dataset com milhões de linhas e colunas. Tudo isso é realmente importante para o modelo? Reduzir as dimensões - O que é relevante para resolver o problema? - Técnicas de seleção de atributos - Técnicas de seleção de instâncias - Técnicas de extração de atributos - Amostra representativa e útil
  • 13. Processamento Desafios da Classificação Multirrótulo SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 13 Escalabilidade Exemplo: um dataset com milhões de linhas e colunas. Como processar tanta informação? Dividir o problema em vários subproblemas é uma forma - Recursos computacionais
  • 14. Instâncias Positivas X Instâncias Negativas Desafios da Classificação Multirrótulo SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 14 Desbalanceament o Na classificação Multirrótulo é ainda mais complexo - Impacto no Aprendizado (overfitting e underfitting) - Aumentar o número de instâncias artificialmente - Instâncias não representativas Exemplo: um dataset com milhões instâncias, mas apenas algumas pertencem à classe - 20% pertence a alguma classe, enquanto 80% não. Refere-se à distribuição dos rótulos. - Positiva: a instância pertence à classe do problema - Negativa: a instância não pertence à classe do problema
  • 15. Desafios da Classificação Multirrótulo SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 15 Combinação de Rótulos Instânci as Att1 Att2 Att 3 Att4 Y1 Y2 Y3 Y4 x1 0 1 1 0 x2 1 0 1 0 x3 1 1 1 0 x4 1 0 1 1 x5 0 1 1 0 x6 1 0 1 1 x7 1 1 1 0 Conjunto de Dados Multirrótulo [0110] [1010] [1110] [1011] [Y2, Y3] [Y1, Y3] [Y1, Y2, Y2] [Y1, Y3, Y4] - O número de instâncias positivas para determinados rótulos pode ser bem pequeno e o número de instâncias negativas alto; - Alguns rótulos podem ser mais frequentes que outros (rótulos majoritários e minoritários); - Label Skew: quando há um número alto de instâncias associadas a conjuntos de rótulos frequentes, e também um alto número de instâncias associadas a conjuntos de rótulos menos frequentes.
  • 16. Natural do dataset Multirrótulo Identificar, Capturar, Aprender e Explorar Desafios da Classificação Multirrótulo SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 16 Correlações entre Rótulos
  • 17. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 17
  • 18. Desafios da Classificação Multirrótulo • Modelar as correlações a partir de similaridades entre: • apenas as instâncias; • apenas os rótulos que estão no espaço de rótulos; • combinar similaridades entre as instâncias e o espaço de rótulos • pares de rótulos; • grupos de rótulos; • Como? • Probabilidade, Medidas de Similaridade, Grafos, Otimização, etc. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 18
  • 19. Como resolver um problema Multirrótulo? 1. Abordagem Global 1. Novos modelos ou adaptação de modelos existentes; 2. Aprende todos os rótulos de uma única vez; 3. Não aprende corretamente as correlações; 4. Indução de um único modelo (um classificador); SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 19 Há recursos computacionais suficientes para aprender milhões de rótulos de uma vez só? Maldição da dimensionalidade! Árvores de Decisão, Algoritmos Genéticos, Redes Neurais, etc.
  • 20. Como resolver um problema Multirrótulo? 2. Abordagem Local 1. Divide o problema original em subproblemas; 2. Aprende cada rótulo de forma individual; 3. Não aprende as correlações; 4. Indução de um modelo por rótulo; SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 20 Se o dataset possuir milhões de rótulos, serão induzidos milhões de classificadores. Maldição da dimensionalidade! Classificador base!
  • 21. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 21 Mas, e se houvesse outra forma de resolver o problema Multirrótulo?
  • 22. Partições Híbridas para Classificação Multirrótulo Hybrid Partitions for Multi-Label Classification - HPML SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 22
  • 23. Partições Híbridas para Classificação Multirrótulo • Pergunta de Pesquisa: No domínio de problemas de classificação multirrótulo, é possível encontrar múltiplas partições híbridas nos dados multirrótulo, e escolher uma entre elas que melhore o desempenho preditivo do classificador em relação às tradicionais abordagens global e local? • Número de Bell: 0=1, 1=1, 2=2, 3=5, 4=15, 5=52, 6=203, 7=877, 8=4.140, 9=21.147, 10=115.975, 11=678.570, 12=4.213.597, 13 = 27.644.437. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 23
  • 24. Partições Híbridas para Classificação Multirrótulo SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 24
  • 25. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 25 Instâncias do Método HPML
  • 26. Passo 2: Modelagem das Correlações Medidas de Similaridade para dados categóricos • Quantificam a similaridade entre dois rótulos (um par de rótulos); • Quanto mais parecido, maior o valor da similaridade; • Índice de Jaccard e Rogers-Tanimoto. Redes Complexas: Métodos de Detecção de Comunidades • A topologia de rede pode codificar sistematicamente as interações entre os dados e encontrar relacionamentos entre eles; • Uma comunidade é um conjunto de vértices com muitas arestas dentro da comunidade e algumas arestas fora dela; • Os vértices são os rótulos e as arestas são as semelhanças entre eles; • Grafos de co-ocorrência de rótulos a partir de matrizes de similaridade. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 26 Redes Neurais: Mapas Auto Organizáveis • Kohonen/SOM; • Gera um mapa bidimensional onde instâncias semelhantes são mapeadas em neurônios próximos no mapa.
  • 27. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 27 Passo 2: Modelagem das Correlações Matrizes de similaridades resultantes das medidas de similaridade para dados categóricos. São usadas também nos métodos de detecção de comunidades.
  • 28. Passo 3: Particionamento do Espaço de Rótulos Algoritmo de Agrupamento Hierárquico Aglomerativo • Constrói grupos de rótulos correlacionados particionando recursivamente a matriz de similaridade. No início do algoritmo, cada rótulo está em um grupo separado. Eles são agrupados conforme o algoritmo itera. Na última iteração, todos os rótulos terminam juntos em um único grupo. • Métricas de ligação: formas de aglomerar; • Maior coeficiente de aglomeração; • Corte dos dendrogramas; Redes Complexas: Métodos de Detecção de Comunidades • Grafos de co-ocorrência de rótulos; • Procedimento parecido com o do algoritmo de agrupamento hierárquico aglomerativo; • Modularidade máxima; • Corte dos dendrogramas; • A modularidade mede a separação entre os vértices e quantifica a densidade dos links dentro das comunidades em comparação com os links entre as comunidades. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 28 Redes Neurais: Mapas Auto Organizáveis • Corte do mapa bidimensional. • Gera partições de dados baseadas em instâncias e não em rótulos; Um dendrograma representa a estrutura do grupos de rótulos e os níveis de similaridade onde ocorreram as junções dos grupos.
  • 29. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 29 c) Average: entre single e complete b) Complete Linkage: grupos similares a) Single Linkage: amigos de amigos d) McQuity: entre single e complete e) Ward.D: grupos compactos e esféricos f) Ward.D2: grupos compactos e esféricos Passo 3: Particionamento do Espaço de Rótulos
  • 30. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 30 Passo 3: Particionamento do Espaço de Rótulos As métricas Average, McQuitty e Single Linkage geram a mesma partição ao cortar o dendrograma no nível 3. As métricas Complete, Ward.D e Ward.D2 Linkage geram a mesma partição ao cortar o dendrograma no nível 3.
  • 31. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 31 Passo 3: Particionamento do Espaço de Rótulos b) Mapa dividido em 8 grupos onde cada cor representa um grupo de neurônios similares, os quais são compostos por instâncias similares. Não são grupos disjuntos de rótulos. a) Kohonen - SOM Input: apenas o espaço de rótulos (sem atributos de entrada)
  • 32. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 32 Passo 3: Particionamento do Espaço de Rótulos
  • 33. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 33 Passo 3: Particionamento do Espaço de Rótulos b) WalkTrap: caminhos aleatórios c) Edge Betweenness: número de caminhos mais curtos através da aresta d) Fast Greedy: ganho de modularidade a) Grafo de uma rede complexa
  • 34. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 34 Passo 3: Particionamento do Espaço de Rótulos f) Label Propagation: rótulo mais frequente g) InfoMap: método multinível baseado na equação do mapa h) SpinGlass modelos de rotação e) Louvain: método multinível baseado em Fast Greedy
  • 35. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 35 Passo 3: Particionamento do Espaço de Rótulos Diferentes configuraçõe s do SpinGlass
  • 36. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 36 Passo 4: Construindo os datasets para cada grupo de cada partição Att 1 ... Att a orange x1 .. xm Att1 ... Att a blue red whit e x1 .. xm Att1 ... Att a blac k yellow green x1 .. xm C3 C2 C2 C1 C1 C3
  • 37. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 37 Passo 5: Validando as partições com um classificador
  • 38. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 38 Passo 5: Validando as partições com um classificador Att 1 ... Att a orange x1 1 .. 1 xm 0 Att1 ... Att a blue red whit e x1 0 1 1 .. 0 1 1 xm 1 0 0 Att1 ... Att a blac k yellow green x1 0 1 1 .. 1 0 0 xm 1 0 1 Att 1 ... Att a orange x1 1 .. 0 xm 0 Att1 ... Att a blue red whit e x1 0 0 1 .. 1 1 0 xm 0 1 0 Att1 ... Att a blac k yellow green x1 1 1 1 .. 0 0 0 xm 1 0 1 Conjunto de Teste Predições – saída do modelo
  • 39. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 39 Passo 5: Validando as partições com o coeficiente da silhueta
  • 40. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 40 Passo 6: Escolhendo a melhor partição com um classificador ou escolhendo a melhor partição com o coeficiente da silhueta - A partição híbrida com o maior coeficiente da silhueta é escolhida para o teste final - A partição híbrida com o maior valor de alguma medida de avaliação de desempenho é escolhida para o teste final
  • 41. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 41 Passo 7: Testando a melhor partição híbrida selecionada
  • 42. Publicações Científicas • GATTO, Elaine C.; VALEJO, Alan D. B., FERRANDIN, Mauri; CERRI, R. Community Detection for Multi-Label Classification. In: 12th Brazilian Conference on Intelligent Systems. BRACIS. Belo Horizonte/MG. Link: https://github.com/cissagatto/Bracis2023. • GATTO, Elaine. C; FERRANDIN, M.; CERRI, R. Exploring Label Correlations for Partitioning the Label Space in Multi-label Classification. In: 2021 International Joint Conference on Neural Networks. IJCNN. Online/Remoto. Video Presentation: https://www.youtube.com/watch?v=1sdFV4Dvuao. Available in: https://ieeexplore.ieee.org/document/9533331. SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 42
  • 43. Artigos Técnicos • Portal Embarcados • Read Prensa • RPubs SEMAC 2023 – CLASSIFICAÇÃO MULTIRRÓTULO – CISSA GATTO 10/6/2023 43

Notas do Editor

  1. My name is Elaine Cecília Gatto, but you can call me Cissa; it is my nickname, and I am forty-two years old. I am from Jaú, a city known as "Capital of women's shoes of Latin America", located in the center of São Paulo. I'm a Ph.D. Student at the Federal University of São Carlos since two thousand nineteen, and Ricardo Cerri, it's my supervisor there. Alan is also from the Federal University of São Carlos. He's been my co-supervisor since two thousand twenty-one and is an expert in the Complex Networks area. Mauri is a Professor from the Federal University of Santa Catarina and has been my co-supervisor since the beginning of my Ph.D. Now I have Professor Celine Vens as my International Supervisor, and I'm really glad for this opportunity.
  2. A classificação multi-rótulo é uma tarefa preditiva de aprendizado de máquina que visa construir um modelo que prevê vários rótulos para uma "instância".
  3. Um dos desafios na classificação Multi-Label é identificar, explorar e modelar as correlações de rótulos. Read diz que há correlações entre rótulos em todos os problemas multi-rótulo como se existissem naturais nos dados multi-rótulo. Então, se um modelo aprende essas correlações, um rótulo difícil de prever pode ser previsto ou um rótulo provavelmente pode ser previsto corretamente
  4. O problema multi-rótulo pode ser tratado em duas abordagens: global ou local. A abordagem global desenvolve novos algoritmos ou adapta os existentes para lidar diretamente com o problema de classificação Multi-rótulo. A abordagem global usa informações de todos os rótulos simultaneamente, portanto, pode perder relacionamentos de rótulos mais relevantes. Nosso trabalho considera apenas os métodos binários como abordagem local, o que divide o problema multi-rótulo em vários problemas binários. Como a abordagem local usa apenas informações de rótulos individuais para construir o modelo, encontrando relações entre eles, é impraticável.
  5. Em nosso trabalho, tentamos fazer melhor uso da informação global e local, superar algumas desvantagens das duas abordagens e verificar se é possível melhorar o desempenho de predição de classificadores multirrótulo. Propomos então as Partições Híbridas.
  6. A Figura 1 mostra as partições apresentadas aqui, onde o quadrado representa a própria partição, o círculo representa um agrupamento de rótulos e o losango representa o próprio rótulo. A Figura 1 ilustra a partição global. Nesse tipo de partição, todos os rótulos estão reunidos em um único círculo, ou seja, um único cluster; portanto, um único classificador multirrótulo é treinado. A Figura 1 b ilustra a partição local. Nesse tipo de partição, cada rótulo está em um círculo diferente, portanto, cada rótulo é um cluster. Neste exemplo, cinco classificadores binários são treinados. Por fim, a Figura 1c ilustra a partição híbrida, que é uma partição intermediária entre a global e a local Essas partições híbridas são obtidas particionando o espaço de rótulos e explorando as correlações de rótulos. Cada partição híbrida gerada é composta por clusters de rótulos separados, onde os rótulos correlacionados são agrupados. Portanto, diferentes agrupamentos de rótulos com diferentes números de rótulos correlacionados podem ser obtidos e, portanto, diferentes partições híbridas.
  7. Escolhemos modelar correlações de rótulos usando três técnicas: medidas de similaridade, redes neurais e métodos de detecção de comunidade. Jaccard-Index e Rogers-Tanimoto são medidas de similaridades bem conhecidas na literatura e nos fornecem matrizes de similaridades de rótulos; Mapas auto-organizados geram um mapa bidimensional onde instâncias semelhantes são mapeadas para fechar neurônios no mapa; Nos métodos de detecção de comunidade, a topologia de rede pode codificar interações do item de dados sistematicamente e encontrar relacionamentos entre eles. Uma comunidade é basicamente um conjunto de vértices com muitas arestas dentro da comunidade e algumas arestas fora dela. No nosso caso, os vértices são os rótulos e as arestas são as semelhanças entre eles.
  8. Para particionar o espaço de rótulos, optamos por utilizar o Algoritmo Agglomerativo de Agrupamento Hierárquico (HACA), Redes Neurais (SOM) e Métodos de Detecção de Comunidade (CDM). HACA e CDM foram escolhidos porque são capazes de gerar dendrogramas que, quando cortados em níveis, produzem diferentes partições dos dados. Para ambos, precisamos de uma matriz de similaridade. Um dendrograma representa a estrutura do cluster de rótulos e os níveis de similaridade onde ocorreram as junções de cluster. O HACA pode construir clusters de rótulos correlacionados particionando recursivamente a matriz de similaridade. No início do algoritmo, cada rótulo está em um cluster separado. Eles são agrupados de acordo com as iterações do algoritmo. Na última etapa, todos os rótulos terminam juntos em um único cluster. No caso do CDM, um grafo de coocorrência de rótulos deve ser construído a partir de uma matriz de similaridade para que os métodos possam detectar as comunidades. Para o SOM, podemos cortar o mapa do neurônio de forma semelhante aos dendrogramas. Assim, essas três técnicas podem gerar partições híbridas
  9. Aqui alguns exemplos de dendrogramas gerados usando HACA para o conjunto de dados Flags usando seis métricas de ligação diferentes para unir rótulos. O método de ligação única está intimamente relacionado com a árvore geradora mínima e adota uma estratégia de agrupamento de amigos de amigos; O método de ligação completa encontra clusters semelhantes; A ligação média encontra clusters com características em algum lugar entre os métodos de ligação simples e completo; O método de variância mínima Ward.D e Ward.D2 visa encontrar clusters compactos e esféricos. A diferença é que Ward.D não implementa o critério de agrupamento de Ward de 1963, mas Ward.D2 sim. Em Ward.D2, as dissimilaridades são quadradas antes da atualização do cluster.
  10. Ao cortar os dendrogramas no nível três, obtemos partições com três agrupamentos de rótulos conforme apresentado na Figura. Average, McQuitty e Single Linkage encontraram partições idênticas, e o mesmo vale para Complete, War.D e Ward.D2. Ao trabalhar com dendrogramas, sempre consideramos a partição um como a partição global e a partição L como a partição local. Podemos cortar o dendrograma em sete níveis para o conjunto de dados de flags e obter sete partições. Em seguida, a partição dois é a partição com dois clusters, a partição três com três clusters e assim por diante.
  11. Encontrar partições híbridas de Kohonen é um pouco diferente de HACA e CDM. Inserimos o espaço do rótulo no kohonen e obtemos como resultado um mapa de instâncias semelhantes do espaço do rótulo A Figura 1 mostra um exemplo de mapa. Na Figura 2, temos o mesmo mapa, mas com um corte. O corte no mapa funciona de forma semelhante a um dendrograma. Portanto, usamos uma função de corte para Kohonen. Cada cor representa um agrupamento de neurônios. Neste exemplo, o mapa foi dividido em oito clusters. Cada ponto no mapa é uma instância, não um rótulo, o que não é exatamente o que queríamos. Em seguida, precisamos aplicar mais etapas para chegar às partições de rótulo.
  12. A Figura sete, item um, mostra um exemplo ilustrativo de uma partição obtida cortando o mapa de Kohonen. Diferentemente do HACA, as partições obtidas do mapa de Kohonen não possuem agrupamentos disjuntos de rótulos; samos uma estratégia simples para selecionar quais rótulos permanecerão em cada cluster: Primeiro, identificamos quais rótulos estão presentes em cada cluster, como na Figura sete, item dois, e então calculamos a frequência com que cada rótulo aparece em cada cluster Em seguida, comparamos as frequências de cada rótulo em cada cluster e mantemos um rótulo no cluster correspondente à sua frequência mais alta. Com essa estratégia, o número de clusters em cada partição mudará; nesse sentido, o número de clusters para cada partição é incerto.
  13. Agora vou mostrar alguns exemplos do CDM. A Figura a) mostra um exemplo de gráfico de coocorrência de rótulos construído a partir de uma matriz de similaridade O MDL é dividido em duas categorias: métodos hierárquicos e métodos não hierárquicos Os métodos hierárquicos fornecem dendrogramas que podem ser usados para construir várias partições híbridas semelhantes ao HACA. Três algoritmos podem ser usados para aglomerar vértices: Walktrap, que é baseado em caminhadas aleatórias Edge Betweenness, que é baseado no número de caminhos mais curtos através da borda E o Fast Greedy, que se baseia no ganho de modularidade. A modularidade mede a separação entre os vértices e quantifica a densidade dos links dentro das comunidades em comparação com os links entre as comunidades.
  14. Métodos não hierárquicos fornecem apenas uma partição. Louvain e Infomap são métodos multiníveis e diferem na função de otimização utilizada: o primeiro é baseado no FastGreedy e o segundo na equação do mapa. O SpinGlass é baseado no Potts Spin Glass, que utiliza modelos de rotação para realizar o agrupamento, enquanto no Label Propagation, cada vértice é atribuído ao rótulo mais frequente entre seus vizinhos.