SlideShare uma empresa Scribd logo
1 de 35
Explorando Correlações para o
Particionamento do Espaço de
Rótulos em Problemas de
Classificação Multirrótulo
Doutoranda: Elaine Cecília Gatto
Orientador: Prof. Dr. Ricardo Cerri
Co-Orientador: Prof. Dr. Mauri Ferrandin
04/02/2021, 14h00
Universidade Federal de São Carlos
Departamento de Computação
Programa de Pós-Graduação em Ciência da Computação
AGENDA
 Introdução
 Proposta
 Trabalhos Correlatos
 Resultados Preliminares
1. INTRODUÇÃO
Introdução
 Aprendizado de Máquina
 Modelo Descritivo
 Modelo Preditivo
 Conjuntos de Dados
 Dados rotulados
 Dados não rotulados
Classificação
Figura 1: Classificação
Desafios na Classificação Multirrótulo
 Alta dimensionalidade
 Desbalanceamento
 Correlações entre rótulos
Correlações entre Rótulos
Figura 2: Correlações
Modelagem das Correlações entre Rótulos
 Huang 2012
 Correlação global
 Correlação local
 Zhang 2014
 Alta ordem
 Primeira ordem
 Segunda ordem
 Dembczynski 2012
 Dependência condicional
 Dependencia incondicional
 Sem correlação
 Pares de rótulos
 Subconjuntos de rótulos
 Todos os rótulos
Abordagens Classificação Multirrótulo
Abordagem Dependente de Algoritmo
Adaptação de Algoritmos
Abordagem Independente de Algoritmo
Transformação de Problema
Abordagem Global
Abordagem Local
Partições
Figura 3: Partições
Bell Number
 Definido como o número de partições possíveis de um conjunto
com n elementos consistindo de k conjuntos separados e não
vazios
Hipótese
 No domínio de problemas de classificação multirrótulo,
o desempenho preditivo dos classificadores pode ser
melhorado a partir do aprendizado de partições
híbridas, isto é, partições de dados que estejam entre
as tradicionais local e global. Utilizando diferentes
métodos para modelar as correlações entre rótulos, no
espaço de rótulos, e diferentes métodos para
particioná-los, é possível encontrar partições híbridas e
escolher uma entre elas que leve ao melhor resultado
com relação às tradicionais global e local.
Objetivo Geral
 Desenvolver, implementar e avaliar uma estratégia capaz
de particionar o espaço de rótulos, explorando as
correlações entre rótulos, de forma a gerar várias
partições híbridas as quais devem ser compostas por
grupos de rótulos correlacionados e que sejam capazes
de otimizar o desempenho dos classificadores. Rótulos
pertencentes a um determinado grupo não podem
pertencer a outros grupos. O número de partições a
serem geradas, assim como o número de subconjuntos
em cada partição, deve ser, preferivelmente, definido de
forma automática pelo método de particionamento.
14
Objetivos Específicos
 Estudar conceitos relacionados à
Classificação Multirrótulo e métodos
atualmente utilizados para resolver
problemas de classificação multirrótulo;
 Entender com profundidade como as
correlações entre os rótulos contribuem
para a melhora do desempenho
preditivo dos classificadores;
 Analisar como a cardinalidade dos
dados multirrótulo pode influenciar na
geração das partições híbridas;
 Analisar a influência do método de
particionamento na geração das
partições híbridas;
 Analisar a influência e contribuição das
partições híbridas no desempenho
preditivo geral dos classificadores;
 Analisar o desempenho preditivo da
estratégia proposta em diferentes
medidas de avaliação para entender
como a estratégia se comporta e
também identificar pontos fortes e
fracos;
 Comparar e analisar os métodos
utilizados para modelar as correlações
entre os rótulos;
 Comparar e analisar os métodos
utilizados para particionar os rótulos
com base nas correlações;
2. PROPOSTA
Proposta
Figura 4: Fluxograma da Proposta
Modelagem das Correlações
 Objetivo: fazer com que o classificador seja capaz de predizer
rótulos que dificilmente seriam preditos se essas correlações não
fossem encontradas.
 Possíveis Métodos:
 Algoritmo Apriori;
 Medidas de Similaridade;
Modelagem das Correlações
Figura 5: Exemplo Comunidades Figura 6: Exemplo Kohonen
Particionamento das Correlações
Figura 7:
Dendrograma Flags
Particionamento das Correlações
Figura 8:
Possíveis Partições Híbridas
para o conjunto de dados Flags.
Particionamento das Correlações
Figura 9:
Formas de se obter
as partições híbridas
Particionamento das Correlações
Figura 10: Tratamento da partição híbrida
Particionamento das Correlações
Tabela 2: Exemplo de seleção de rótulos para cada grupo
Particionamento das Correlações
Tabela 3: Correlações encontradas em cada grupo
Validação e Teste
 Desempenho (Macro F1)
 Silhueta
Conjuntos de Dados Multirrótulo
 Meka
 Mulan
 Cometa
Recursos e Ferramentas
 Linguagem R
 Rstudio
 Cluster UFSCar
Análise dos Resultados e
Resultados Esperados
 10 fold cross-validation
 Medidas de desempenho multirrótulo
 Testes não paramétricos
 Superar partições global e local
Plano de Trabalho e Cronograma
Tabela 4:
Cronograma
3. TRABALHOS
CORRELATOS
Trabalhos Correlatos
 MOYANO, J. M.; GIBAJA, E. L.; CIOS, K. J.; VENTURA, S. Combining multi-
label classifiers based on projections of the output space using
evolutionary algorithms. Knowledge-Based Syst., Elsevier BV, p. 105770,
mar 2020. ISSN 09507051.
 HUANG, J.; LI, G.; WANG, S.; ZHANG, W.; HUANG, Q. Group sensitive
Classifier Chains for multi-label classification. Proc. - IEEE Int. Conf.
Multimed. Expo, IEEE, v. 2015-Augus, p. 1–6,2015. ISSN 1945788X.
 SZYMANSKI, P.; KAJDANOWICZ, T.; KERSTING, K. How is a data-driven
approach better than random choice in label space division for multi-
label classification? Entropy, v. 18, n. 8, p.1–23, 2016. ISSN 10994300.
Trabalhos Correlatos
 PAPANIKOLAOU, Y.; TSOUMAKAS, G.; KATAKIS, I. Hierarchical partitioning
of the output space in multi-label data. Data & Knowledge Engineering, v.
116, p. 42 – 60, 2018. ISSN0169-023X.
 ABEYRATHNA, D. L. B. G. M. Multi-Label Classification Using Higher-Order
Label Clusters. Dissertação (Mestrado) — Department of Computer
Science and the Faculty of the Graduate College University of Nebraska,
December 2018.
 NIKOLOSKI, S.; KOCEV, D.; DžEROSKI, S. Structuring the output space
in multi-label classification by using feature ranking. v. 10785, p. 122–137,
2018.
4. RESULTADOS
PRELIMINARES
RESULTADOS PRELIMINARES
 Modelagem das correlações: índice jaccard;
 Particionamento do espaço de rótulos: algoritmo de agrupamento
hierárquico aglomerativo;
 Validação das partições híbridas: CLUS e Macro-F1;
 Teste da melhor partição híbrida: CLUS;
 22 medidas de avaliação;
 12 conjuntos de dados multirrótulo de 5 domínios diferentes;
 Melhor desempenho em 15 das 22 medidas na média dos 12 datasets;
 Desempenho abaixo da partição local mas acima da partição global;
 Necessário mais experimentação para superar partição local.
OBRIGADA!
elainegatto@estudante.ufscar.br
“Quem sobe as escadas deve começar por baixo. Para ser bom em
algo é necessário seguir um passo de cada vez”. (Haruichi Furudate)

Mais conteúdo relacionado

Semelhante a ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo

Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Elaine Cecília Gatto
 
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...Heitor Ganzeli
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesCristiano Lemes da Silva
 
Redes de cooperação em cursos de formação profissional como estratégia de ges...
Redes de cooperação em cursos de formação profissional como estratégia de ges...Redes de cooperação em cursos de formação profissional como estratégia de ges...
Redes de cooperação em cursos de formação profissional como estratégia de ges...Tereza Carneiro
 
Trabalho de Conclusão sobre Ciclo de Vida dos Dados
Trabalho de Conclusão sobre Ciclo de Vida dos DadosTrabalho de Conclusão sobre Ciclo de Vida dos Dados
Trabalho de Conclusão sobre Ciclo de Vida dos DadosKarina Moura
 
Defesa de mestrado: Como a prática de TDD influencia no projeto de classes em...
Defesa de mestrado: Como a prática de TDD influencia no projeto de classes em...Defesa de mestrado: Como a prática de TDD influencia no projeto de classes em...
Defesa de mestrado: Como a prática de TDD influencia no projeto de classes em...Maurício Aniche
 
Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Geanderson Lenz
 
02/12 Referencial Teórico - Processo de Codificação
02/12 Referencial Teórico - Processo de Codificação 02/12 Referencial Teórico - Processo de Codificação
02/12 Referencial Teórico - Processo de Codificação Cícera Malheiro
 
Introdução a Padrões de Projeto
Introdução a Padrões de ProjetoIntrodução a Padrões de Projeto
Introdução a Padrões de ProjetoEduardo Mendes
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...tdc-globalcode
 
Relatorio Final RVCC Básico
Relatorio Final RVCC BásicoRelatorio Final RVCC Básico
Relatorio Final RVCC BásicoJoão Lima
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
O uso de mapas conceituais para a gestão do conhecimento: da sala de aula par...
O uso de mapas conceituais para a gestão do conhecimento: da sala de aula par...O uso de mapas conceituais para a gestão do conhecimento: da sala de aula par...
O uso de mapas conceituais para a gestão do conhecimento: da sala de aula par...Paulo Correia
 
CST EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS IFPB 2º PERÍODO ESTRUTURAS DE DADOS
CST EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS IFPB 2º PERÍODO ESTRUTURAS DE DADOSCST EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS IFPB 2º PERÍODO ESTRUTURAS DE DADOS
CST EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS IFPB 2º PERÍODO ESTRUTURAS DE DADOSOs Fantasmas !
 

Semelhante a ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo (20)

Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...
 
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...
 
Padrões de Projeto (GoF)
Padrões de Projeto (GoF)Padrões de Projeto (GoF)
Padrões de Projeto (GoF)
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no Genes
 
Redes de cooperação em cursos de formação profissional como estratégia de ges...
Redes de cooperação em cursos de formação profissional como estratégia de ges...Redes de cooperação em cursos de formação profissional como estratégia de ges...
Redes de cooperação em cursos de formação profissional como estratégia de ges...
 
Trabalho de Conclusão sobre Ciclo de Vida dos Dados
Trabalho de Conclusão sobre Ciclo de Vida dos DadosTrabalho de Conclusão sobre Ciclo de Vida dos Dados
Trabalho de Conclusão sobre Ciclo de Vida dos Dados
 
Defesa de mestrado: Como a prática de TDD influencia no projeto de classes em...
Defesa de mestrado: Como a prática de TDD influencia no projeto de classes em...Defesa de mestrado: Como a prática de TDD influencia no projeto de classes em...
Defesa de mestrado: Como a prática de TDD influencia no projeto de classes em...
 
Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...
 
02/12 Referencial Teórico - Processo de Codificação
02/12 Referencial Teórico - Processo de Codificação 02/12 Referencial Teórico - Processo de Codificação
02/12 Referencial Teórico - Processo de Codificação
 
Introdução a Padrões de Projeto
Introdução a Padrões de ProjetoIntrodução a Padrões de Projeto
Introdução a Padrões de Projeto
 
Cluster analysis TDC POA 2017
Cluster analysis  TDC POA 2017Cluster analysis  TDC POA 2017
Cluster analysis TDC POA 2017
 
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Relatorio Final RVCC Básico
Relatorio Final RVCC BásicoRelatorio Final RVCC Básico
Relatorio Final RVCC Básico
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
 
Mapping Study
Mapping StudyMapping Study
Mapping Study
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
O uso de mapas conceituais para a gestão do conhecimento: da sala de aula par...
O uso de mapas conceituais para a gestão do conhecimento: da sala de aula par...O uso de mapas conceituais para a gestão do conhecimento: da sala de aula par...
O uso de mapas conceituais para a gestão do conhecimento: da sala de aula par...
 
ticEduca2016
ticEduca2016ticEduca2016
ticEduca2016
 
CST EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS IFPB 2º PERÍODO ESTRUTURAS DE DADOS
CST EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS IFPB 2º PERÍODO ESTRUTURAS DE DADOSCST EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS IFPB 2º PERÍODO ESTRUTURAS DE DADOS
CST EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS IFPB 2º PERÍODO ESTRUTURAS DE DADOS
 

Mais de Elaine Cecília Gatto

A influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etariaA influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etariaElaine Cecília Gatto
 
Inteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à MedicinaInteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à MedicinaElaine Cecília Gatto
 
Apresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPCApresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPCElaine Cecília Gatto
 
Como a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptxComo a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptxElaine Cecília Gatto
 
Community Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCarCommunity Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCarElaine Cecília Gatto
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
 
Community Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label ClassificationCommunity Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label ClassificationElaine Cecília Gatto
 
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfMulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfElaine Cecília Gatto
 
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Elaine Cecília Gatto
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
 
Pipeline desdobramento escalonamento
Pipeline desdobramento escalonamentoPipeline desdobramento escalonamento
Pipeline desdobramento escalonamentoElaine Cecília Gatto
 
Resumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bitsResumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bitsElaine Cecília Gatto
 
Como descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcaçãoComo descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcaçãoElaine Cecília Gatto
 
Exploring label correlations for partitioning the label space in multi label ...
Exploring label correlations for partitioning the label space in multi label ...Exploring label correlations for partitioning the label space in multi label ...
Exploring label correlations for partitioning the label space in multi label ...Elaine Cecília Gatto
 

Mais de Elaine Cecília Gatto (20)

A influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etariaA influência da Tecnologia em cada faixa etaria
A influência da Tecnologia em cada faixa etaria
 
Inteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à MedicinaInteligência Artificial Aplicada à Medicina
Inteligência Artificial Aplicada à Medicina
 
Apresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPCApresentação da minha tese de doutorado no EPPC
Apresentação da minha tese de doutorado no EPPC
 
entrevista r7.pdf
entrevista r7.pdfentrevista r7.pdf
entrevista r7.pdf
 
Como a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptxComo a pesquisa científica impacta o mundo real.pptx
Como a pesquisa científica impacta o mundo real.pptx
 
Empoderamento Feminino
Empoderamento FemininoEmpoderamento Feminino
Empoderamento Feminino
 
Community Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCarCommunity Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCar
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
 
Community Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label ClassificationCommunity Detection Method for Multi-Label Classification
Community Detection Method for Multi-Label Classification
 
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfMulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf
 
Curtinhas de sábado.pdf
Curtinhas de sábado.pdfCurtinhas de sábado.pdf
Curtinhas de sábado.pdf
 
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
 
Pipeline desdobramento escalonamento
Pipeline desdobramento escalonamentoPipeline desdobramento escalonamento
Pipeline desdobramento escalonamento
 
Cheat sheet Mips 32 bits
Cheat sheet Mips 32 bitsCheat sheet Mips 32 bits
Cheat sheet Mips 32 bits
 
Resumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bitsResumo das Instruções de Desvio Incondicionais MIPS 32 bits
Resumo das Instruções de Desvio Incondicionais MIPS 32 bits
 
Como descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcaçãoComo descobrir e classificar coisas usando machine learning sem compilcação
Como descobrir e classificar coisas usando machine learning sem compilcação
 
Exploring label correlations for partitioning the label space in multi label ...
Exploring label correlations for partitioning the label space in multi label ...Exploring label correlations for partitioning the label space in multi label ...
Exploring label correlations for partitioning the label space in multi label ...
 
Número de Bell
Número de BellNúmero de Bell
Número de Bell
 
Coeficiente da Silhueta
Coeficiente da SilhuetaCoeficiente da Silhueta
Coeficiente da Silhueta
 

ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo

  • 1. Explorando Correlações para o Particionamento do Espaço de Rótulos em Problemas de Classificação Multirrótulo Doutoranda: Elaine Cecília Gatto Orientador: Prof. Dr. Ricardo Cerri Co-Orientador: Prof. Dr. Mauri Ferrandin 04/02/2021, 14h00 Universidade Federal de São Carlos Departamento de Computação Programa de Pós-Graduação em Ciência da Computação
  • 2. AGENDA  Introdução  Proposta  Trabalhos Correlatos  Resultados Preliminares
  • 4. Introdução  Aprendizado de Máquina  Modelo Descritivo  Modelo Preditivo  Conjuntos de Dados  Dados rotulados  Dados não rotulados
  • 6. Desafios na Classificação Multirrótulo  Alta dimensionalidade  Desbalanceamento  Correlações entre rótulos
  • 8. Modelagem das Correlações entre Rótulos  Huang 2012  Correlação global  Correlação local  Zhang 2014  Alta ordem  Primeira ordem  Segunda ordem  Dembczynski 2012  Dependência condicional  Dependencia incondicional  Sem correlação  Pares de rótulos  Subconjuntos de rótulos  Todos os rótulos
  • 9. Abordagens Classificação Multirrótulo Abordagem Dependente de Algoritmo Adaptação de Algoritmos Abordagem Independente de Algoritmo Transformação de Problema Abordagem Global Abordagem Local
  • 11. Bell Number  Definido como o número de partições possíveis de um conjunto com n elementos consistindo de k conjuntos separados e não vazios
  • 12. Hipótese  No domínio de problemas de classificação multirrótulo, o desempenho preditivo dos classificadores pode ser melhorado a partir do aprendizado de partições híbridas, isto é, partições de dados que estejam entre as tradicionais local e global. Utilizando diferentes métodos para modelar as correlações entre rótulos, no espaço de rótulos, e diferentes métodos para particioná-los, é possível encontrar partições híbridas e escolher uma entre elas que leve ao melhor resultado com relação às tradicionais global e local.
  • 13. Objetivo Geral  Desenvolver, implementar e avaliar uma estratégia capaz de particionar o espaço de rótulos, explorando as correlações entre rótulos, de forma a gerar várias partições híbridas as quais devem ser compostas por grupos de rótulos correlacionados e que sejam capazes de otimizar o desempenho dos classificadores. Rótulos pertencentes a um determinado grupo não podem pertencer a outros grupos. O número de partições a serem geradas, assim como o número de subconjuntos em cada partição, deve ser, preferivelmente, definido de forma automática pelo método de particionamento.
  • 14. 14 Objetivos Específicos  Estudar conceitos relacionados à Classificação Multirrótulo e métodos atualmente utilizados para resolver problemas de classificação multirrótulo;  Entender com profundidade como as correlações entre os rótulos contribuem para a melhora do desempenho preditivo dos classificadores;  Analisar como a cardinalidade dos dados multirrótulo pode influenciar na geração das partições híbridas;  Analisar a influência do método de particionamento na geração das partições híbridas;  Analisar a influência e contribuição das partições híbridas no desempenho preditivo geral dos classificadores;  Analisar o desempenho preditivo da estratégia proposta em diferentes medidas de avaliação para entender como a estratégia se comporta e também identificar pontos fortes e fracos;  Comparar e analisar os métodos utilizados para modelar as correlações entre os rótulos;  Comparar e analisar os métodos utilizados para particionar os rótulos com base nas correlações;
  • 17. Modelagem das Correlações  Objetivo: fazer com que o classificador seja capaz de predizer rótulos que dificilmente seriam preditos se essas correlações não fossem encontradas.  Possíveis Métodos:  Algoritmo Apriori;  Medidas de Similaridade;
  • 18. Modelagem das Correlações Figura 5: Exemplo Comunidades Figura 6: Exemplo Kohonen
  • 20. Particionamento das Correlações Figura 8: Possíveis Partições Híbridas para o conjunto de dados Flags.
  • 21. Particionamento das Correlações Figura 9: Formas de se obter as partições híbridas
  • 22. Particionamento das Correlações Figura 10: Tratamento da partição híbrida
  • 23. Particionamento das Correlações Tabela 2: Exemplo de seleção de rótulos para cada grupo
  • 24. Particionamento das Correlações Tabela 3: Correlações encontradas em cada grupo
  • 25. Validação e Teste  Desempenho (Macro F1)  Silhueta
  • 26. Conjuntos de Dados Multirrótulo  Meka  Mulan  Cometa
  • 27. Recursos e Ferramentas  Linguagem R  Rstudio  Cluster UFSCar
  • 28. Análise dos Resultados e Resultados Esperados  10 fold cross-validation  Medidas de desempenho multirrótulo  Testes não paramétricos  Superar partições global e local
  • 29. Plano de Trabalho e Cronograma Tabela 4: Cronograma
  • 31. Trabalhos Correlatos  MOYANO, J. M.; GIBAJA, E. L.; CIOS, K. J.; VENTURA, S. Combining multi- label classifiers based on projections of the output space using evolutionary algorithms. Knowledge-Based Syst., Elsevier BV, p. 105770, mar 2020. ISSN 09507051.  HUANG, J.; LI, G.; WANG, S.; ZHANG, W.; HUANG, Q. Group sensitive Classifier Chains for multi-label classification. Proc. - IEEE Int. Conf. Multimed. Expo, IEEE, v. 2015-Augus, p. 1–6,2015. ISSN 1945788X.  SZYMANSKI, P.; KAJDANOWICZ, T.; KERSTING, K. How is a data-driven approach better than random choice in label space division for multi- label classification? Entropy, v. 18, n. 8, p.1–23, 2016. ISSN 10994300.
  • 32. Trabalhos Correlatos  PAPANIKOLAOU, Y.; TSOUMAKAS, G.; KATAKIS, I. Hierarchical partitioning of the output space in multi-label data. Data & Knowledge Engineering, v. 116, p. 42 – 60, 2018. ISSN0169-023X.  ABEYRATHNA, D. L. B. G. M. Multi-Label Classification Using Higher-Order Label Clusters. Dissertação (Mestrado) — Department of Computer Science and the Faculty of the Graduate College University of Nebraska, December 2018.  NIKOLOSKI, S.; KOCEV, D.; DžEROSKI, S. Structuring the output space in multi-label classification by using feature ranking. v. 10785, p. 122–137, 2018.
  • 34. RESULTADOS PRELIMINARES  Modelagem das correlações: índice jaccard;  Particionamento do espaço de rótulos: algoritmo de agrupamento hierárquico aglomerativo;  Validação das partições híbridas: CLUS e Macro-F1;  Teste da melhor partição híbrida: CLUS;  22 medidas de avaliação;  12 conjuntos de dados multirrótulo de 5 domínios diferentes;  Melhor desempenho em 15 das 22 medidas na média dos 12 datasets;  Desempenho abaixo da partição local mas acima da partição global;  Necessário mais experimentação para superar partição local.
  • 35. OBRIGADA! elainegatto@estudante.ufscar.br “Quem sobe as escadas deve começar por baixo. Para ser bom em algo é necessário seguir um passo de cada vez”. (Haruichi Furudate)

Notas do Editor

  1. O aprendizado de máquina é uma área da Inteligência Artificial capaz de resolver problemas a partir de experiências passadas Um modelo pode ser aprendido a partir dos dados do problema a ser resolvido Se o modelo explora ou descreve o conjunto de dados, então ele é chamado descritivo Se o modelo realiza predições a respeito do conjunto de dados, então ele é chamado de preditivo Um conjunto de dados representa instâncias do problema a ser resolvido Cada instância do conjunto de dados é composta por um conjunto de atributos (ou campos) que a descrevem Um ou mais desses atributos podem ser denominados de atributos de saída, ou rótulo Portanto, as instâncias podem ou não ser rotuladas Quando rotuladas, o conjunto de rótulos do conjunto de dados em questão é denominado de espaço de rótulos (ou espaço de saída) No aprendizado de máquina, dados não rotulados podem ser modelados pelas tarefas descritivas, como agrupamento, associação e sumarização. Já os dados rotulados podem ser modelados pelas tarefas preditivias, como a classificação e a regressão.
  2. Enquanto na classificação simples-rótulo (ou tradicional) uma instância do conjunto de dados pertence a um único rótulo, na classificação multirrótulo uma instância pode pertencer a vários rótulos ao mesmo tempo. O principal objetivo na classificação multirrótulo é construir um modelo que prediz um conjunto de rótulos para uma instância. Várias aplicações do mundo real podem ser modeladas como um problema multirrótulo como em Bioinformática: onde proteínas podem realizar muitas funções, Categorização de texto: onde documentos pertencem a várias categorias ao mesmo tempo, e Cassificação musical: onde músicas pertencem a vários gêneros simultaneamente. A Figura 1 ilustra a diferença entre a classificação simples-rótulo e a classificação multirrótulo O losango cor de rosa indica instâncias que pertencem ao rótulo robótica, enquanto o circulo verde indica instâncias que pertencem ao rótulo medicina Na classificação simples-rótulo cada instância nesse conjunto pertence ou à robótica ou à medicina Na classificação multirrótulo, as instâncias desse conjunto de dados podem pertecem somente à medicina, somente à robótica ou podem pertencer à medicina e robótica ao mesmo tempo, como indicado pela linha vermelha na Figura. O principal objetivo na classificação multirrótulo é construir um modelo que prediz um conjunto de rótulos para uma instância
  3. Dentre os desafios envolvidos na classificação multirrótulo destacam-se: A alta dimensionalidade que está relacionado ao número atributos tanto no espaço de entrada quanto no espaço de saída. Quando esse número é alto pode haver problemas de processamento e dificuldades na aprendizagem e geração do modelo. O tempo necessário para processar tantos atributos será grande e o modelo gerado poderá sofrer de overffiting, isto é, o modelo de aprendizado poderá se adaptar muito bem aos dados de treinamento, mas não generalizar bem para novos dados Quando o número de rótulos do espaço de rótulos é muito alto, é possível que o número de instâncias positivas para determinados rótulos seja bem pequeno e o número de instâncias negativas seja alto Também é possível que alguns rótulos sejam mais frequentes que outros Isto é conhecido como desbalanceamento Pode ainda haver um número alto de instâncias associadas a conjuntos de rótulos frequentes e um alto número de instâncias associadas a conjuntos de rótulos menos frequentes, o que é conhecido como label skew. Técnicas para reduzir a dimensionalidade vem sendo propostas na literatura para tratar desses problemas Uma revisão sobre essas técnicas pode ser encontrada no artigo de KASHEF, S.; NEZAMABADI-POUR, H.; NIKPOUR, B. Multilabel Feature Selection: A Comprehensive Review and Guiding Experiments. John Wiley & Sons, 2018 Por fim, a complexidade em identificar e explorar dependências e correlações entre rótulos é um dos desafios que tem chamado bastante a atenção dos pesquisadores em classificação multirrótulo
  4. Estudos têm mostrado que o desempenho preditivo de classificadores multirrótulo pode ser melhorado explorando correlações entre rótulos, e várias abordagens têm sido propostas para este fim A partir da modelagem das correlações, a predição de rótulos é facilitada, isto é, um rótulo pode ser predito corretamente devido à sua correlação com outros rótulos. Para ilustrar como o aprendizado de correlações colabora para a melhoria das predições, considere a instância de teste apresentada na Figura 2. Considere também que durante o treinamento foi encontrada uma forte correlação entre os rótulos montanha e praia. Observa-se que na Figura 2 existe uma praia entre as montanhas, no entanto, o rótulo praia pode ser de difícil predição pois não é predominante na imagem. O rótulo montanha no entanto, pode ser mais facilmente predito, pois predomina na imagem. Ao se considerar a correlação entre montanha e praia, aumenta-se a chance do rótulo praia ser predito quando o rótulo montanha estiver presente na imagem. Portanto, ao se aprender as correlações existentes entre os rótulos, estas podem ser utilizadas para predizer rótulos que provavelmente não seriam preditos utilizando métodos que não consideram tais correlações.
  5. Não há uma taxonomia a respeito da modelagem das correlações entre rótulos definida na literatura, mas alguns autores propuseram algumas: Huang 2012 propoe duas categorias: global e local A correlação global assume que dois ou mais rótulos estão correlacionados se eles classificam todas as instâncias do conjunto A correlação local considera que dois ou mais rótulos estão correlacionados se eles classificam um subconjunto de instâncias do conjunto Zhang 2014 propoe três categorias Na categoria de primeira ordem estão métodos que não consideram a modelagem das correlações Na categoria de segunda ordem estão os métodos que modelam as correlações usando pares de rótulos Na categoria de alta ordem estão os métodos que modelam as correlaçõe considerando todos os rótulos, ou um subconjunto de rótulos, do conjunto de treinamento DEMBCZYNSKI 2012 A dependência condicional modela a probabilidade dos rótulos ocorrerem juntos ao capturar as dependências entre os rótulos dada uma instância específica Já a dependencia incondicional modela a probabilidade de determinados rótulos ocorrerem juntos no conjunto de dados inteiro Por fim, analisando essas propostas de categorização chegou-se à seguinte categorização neste trabalho: Métodos que não modelam correlações Métodos que modelam correlações entre pares de rótulos Métodos que modelam correlações usando subconjuntos de rótulos Métodos que modelam correlações usando todos os rótulos
  6. Tradicionalmente, os métodos de classificação multirrótulo podem ser divididos em duas categorias principais: adaptação de algoritmo e transformação de problema. Na abordagem de adaptação de algoritmo, novos algoritmos são desenvolvidos, ou algoritmos existentes são adaptados, para resolver o problema multirrótulo original. Esses algoritmos tratam todos os rótulos do problema ao mesmo tempo, e treinam apenas um único classificador multirrótulo. No entanto, informações locais, isto é, individuais de cada rótulo, que podem ser úteis para explorar diferentes padrões nos dados são ignoradas nesta abordagem. Árvores de decisão, algoritmos evolutivos, métodos probabilísticos, redes neurais artificiais e outros tipos de algoritmos podem ser adaptados para resolver o problema multirrótulo nesta abordagem. Na abordagem de transformação de problema, os métodos transformam o problema multirrótulo em um conjunto de subproblemas binários ou multi-classe, onde qualquer algoritmo de classificação convencional pode ser usado. Neste caso é necessário treinar um classificador binário para cada um dos rótulos individualmente ou um classificador multi-classe para cada subproblema multi-classe. Apesar da flexibilidade destes métodos, treinar muitos classificadores pode resultar no uso de informações muito específicas, perda de informações e a não exploração das dependências entre rótulos durante o processo de treinamento. Do ponto de vista do espaço de rótulos, pode-se dizer que a abordagem de adaptação de algoritmos é uma abordagem global, pois todos os rótulos são considerados ao mesmo tempo, enquanto que na abordagem de transformação de problemas, o espaço de rótulos pode ser particionado separando os rótulos e tratando-os individualmente, em pares ou em grupos. Diante disto, pode-se dizer que a abordagem global gera partições globais e a abordagem local, partições locais. Dentro da abordagem local, a grande maioria dos métodos geram partições considerando que os rótulos são tratados individualmente. Assim, neste trabalho, serão considerados métodos que geram partições locais aqueles que tratam os rótulos individualmente. Com isso o conceito de partições é introduzido. Essas partições podem ser geradas ao se realizar o particionamento do espaço de rótulos.
  7. A Figura 3 apresenta as partições aqui introduzidas, onde o quadrado representa a partição em si, o círculo representa um grupo de rótulos e o losango representa o rótulo propriamente dito Considere $L1$, $L2$, $L3$, $L4$, $L5$, $L6$, $L7$ e $L8$ rótulos que compõem o espaço de rótulos de um conjunto de dados ilustrativo A Figura 3a ilustra a partição global. Neste tipo de partição todos os rótulos estão juntos em um único círculo, isto é, um único grupo e portanto um único classificador multirrótulo é treinado A Figura 3b ilustra a partição local. Neste tipo de partição cada rótulo está em um círculo diferente, portanto, cada rótulo é um grupo. Neste exemplo, oito classificadores binários são treinados. Por fim, a Figura 3C ilusta a partição híbrida. Trata-se de uma partição que está entre as partições global e local as quais não exploram a correlação entre sub-conjuntos de rótulos Estas partições híbridas são obtidas ao se realizar o particionamento do espaço de rótulos explorando as correlações entre rótulos. Cada partição híbrida gerada é composta por grupos de rótulos onde os rótulos correlacionados são agrupados juntos. Portanto, diferentes grupos de rótulos com diferentes números de rótulos correlacionados podem ser obtidos e assim diferentes partições híbridas.
  8. Para ilustrar o desafio de se encontrar uma partição híbrida adequada entre todas as possíveis partições de rótulos, o conceito do número de Bell pode ser utilizado O número de Bell pode ser definido como o número de partições possíveis de um conjunto com n elementos consistindo de k conjuntos separados e não vazios A Tabela 1 ilustra exemplos de número de Bell. Para um conjunto com dois elementos, é possível encontrar duas partições, um composta por um único grupo e outra composta por dois grupos. Para um conjunto com três elementos, cinco partições são encontradas. Novamente aqui tem-se um grupo com todos os elementos, e um grupo com cada elemento separado, da mesma forma que as partições global e local. É possível notar também que todas as combinações possíveis entre esses elementos foram consideradas para construção das partições. Tomando como exemplo o espaço de rótulos apresentado na Figura 2, o número de possíveis partições seria de B8 = 21.147 Assim, para conjuntos de dados com espaços de rótulos de alta dimensão, torna-se muito mais desafiador encontrar uma partição híbrida adequada.
  9. Partições híbridas são partições dos dados compostas por grupos de rótulos correlacionados, onde cada grupo de cada uma das partições híbridas pode conter um ou mais rótulos correlacionados Para encontrar este tipo de partição nos conjuntos de dados multirrótulo é necessário usar uma estratégia que seja capaz de explorar as correlações entre os rótulos e então particionar o espaço de rótulos. A estratégia para se encontrar as partições híbridas, e escolher uma entre elas, é ilustrada na Figura 4. De forma resumida: A estratégia começa com o pré-processamento dos conjuntos de dados multirrótulo separando-os em conjuntos de treino, validação e teste; Em seguda, as correlações são modeladas usando alguma técnica; Após a modelagem das correlações, o espaço de rótulos é particionado e as partições híbridas são geradas; De posse das partições híbridas, as mesmas são validadas e a melhor é escolhida para o teste; Após o teste os resultados são analisados Agora explicarei cada passo com um pouco mais de detalhes
  10. O objetivo da modelagem das correlações entre rótulos é As correlações entre rótulos podem ser modeladas usando diferentes métodos. Nesta pesquisa, o que se pretende é modelar as correlações utilizando-se apenas o espaço de rótulos do conjunto de dados multirrótulo e não todo o espaço de atributos O espaço de rótulos então poderá ser tratado como uma matriz Vários métodos podem ser aplicados para modelar as correlações e a literatura neste tema é vasta. A estratégia apresentada nesta pesquisa pode ser incluída nas categorias modelagem das correlações de alta ordem e modelagem de correlações global. Não há escopo nesta pesquisa para apresentar todas as possíveis formas para modelar correlações, portanto, alguns métodos pesquisados, e que se encaixam nesta pesquisa, serão citados: Regras de associação encontram relacionamentos ou padrões frequentes então o algoritmo Apriori seria capaz de minerar esses relacionamentos/padrões entre os rótulos, resultando num modelo de correlações Medidas de similaridade também podem ser usadas. Neste caso, o espaço de rótulos deve ser submetido ao cálculo da medida de similaridade em questão, o que resultará em uma matriz de correlações
  11. Também podem ser usados Métodos de detecção de comunidade que são capaz esde encontrar relações nos dados em diversas áreas de conhecimento, então esses podem ajudar a encontrar relações entre os rótulos, conforme ilustra a Figura 5 O mapa auto-organizável de Kohonen é uma rede neural artificial baseada em aprendizado competitivo onde os neurônios são posicionados em uma grade bidimensional e, após o aprendizado, forma-se um mapa topográfico dos padrões de entrada. A modelagem das correlações nesse caso ocorreria da seguinte forma: o espaço de rótulos é dado como entrada para o algoritmo o qual mapeia, para cada neurônio do mapa, instâncias com rótulos similares. Assim, cada neurônio, ou grupo de neurônios, poderá ser considerado um grupo de instâncias com base na similaridade dos rótulos. O mapa bidimensional resultante pode então ser particionado de forma a se obter as partições híbridas conforme mostra a Figura 6
  12. Para realizar o particionamento do espaço de rótulos um método como o algoritmo de agrupamento hierárquico aglomerativo pode ser usado. Esse algoritmo é capaz de construir grupos de rótulos correlacionados particionando recursivamente as correlações modeladas. Os algoritmos de agrupamento hierárquicos são divididos em dois tipos: aglomerativos e divisivos. No método aglomerativo, inicialmente cada rótulo está em um grupo separado e no último passo terminam todos juntos em único grupo Já no método divisivo todos os rótulos inicialmente pertencem a um único grupo e vão sendo divididos em grupos até que no final se obtenha um grupo para cada rótulo O resultado obtido por um algoritmo de agrupamento hierárquico é um dendrograma que representa o agrupamento aninhado dos rótulos e os níveis de similaridade onde ocorrem as junções dos grupos. Para obter diferentes partições, é necessário realizar cortes neste dendrograma em diferentes níveis A Figura 7 ilustra um dendrograma resultante do método de aglomeração para o conjunto de dados Flags que possui 7 rótulos.
  13. Cortando o dendrograma em 7 níveis obtém-se as partições local, global e híbridas As possíveis partições híbridas para o conjunto de dados flags são apresentadas na Figura 8 As partições começam com dois grupos e terminam com cinco grupos. Como pode ser notado nas cinco partições, os grupos de rótulos são formados por rótulos correlacionados Neste exemplo, o rótulo orange não tem correlação com nenhum outro rótulo, por isto ele está sempre em um grupo sozinho em todas as partições Já os outros rótulos todos possuem correlação entre eles, mas conforme os cortes são realizados, os rótulos mais correlacionados são mantidos juntos, e os menos correlacionados vão sendo separados.
  14. Há um detalhe a se considerar a respeito da geração das partições híbridas. A depender do método a ser utilizado para modelar as correlações, as partições híbridas podem ser obtidas de forma direta ou indireta, conforme mostra a Figura 9 O espaço de rótulos na Figura 9a mostra que o resultado da aplicação do método é capaz de gerar as partições híbridas já com os respectivos grupos de rótulos correlacionados. Na Figura 9b o método aplicado gera partições compostas por grupos de instâncias que tem rótulos correlacionados, as quais são representadas pelo triângulo verde. Na Figura 9b os rótulos se repetirão nos grupos e uma restrição das partições híbridas é que os grupos sejam formados por rótulos correlacionados de forma que, um rótulo que pertença a um grupo, não pertença a outro grupo daquela partição
  15. Considere a partição composta por quatro grupos apresentada na Figura 9b. A Figura 10 ilustra o que deve acontecer para se obter as partições híbridas dessa partição. É possível observar na partição do meio na Figura 10 que os rótulos estão se repetindo em alguns grupos. O rótulo L1 aparece nos grupos 1, 2 e 3 O rótulo L2 está presente nos grupos 1, 2 e 4. O rótulo 3 se repete nos grupos 1, 2, 4 e 5. O rótulo 4 aparece em 1, 2 e 4 . O rótulo L5 está presente nos grups 1 e 3. O rótulo L6 aparece no grupo 3. O rótulo L7 aparece no grupou 3 e 4. Por fim, o rótulo L8 está presente nos grupos 3 e 4. Esta partição deve ser submetida a um processo de seleção de rótulos, de forma que ao final, os grupos sejam formados por rótulos exclusivos. Esse processo resulta na terceira partição apresentada na Figura 10. Essa partição poderá ter um número de grupos diferentes com relação à primeira, o qual pode ser maior ou menor. Esse número se altera justamente pela restrição dos rótulos não se repetirem nos grupos.
  16. Um forma simples para selecionar quais rótulos permanecerão em cada grupo pode ser feita a partir do cálculo do total de vezes que cada rótulo aparece em cada grupo. Considere os valores ilustrativos apresentados na Tabela 2a. Por exemplo, o rótulo L1 está presente em 3 dos 4 grupos. De acordo com a Tabela 2a no grupo 1 o rótulo L1 aparece 20 vezes, enquanto que no grupo 2 ele aparece 10 vezes e no grupo 3 aparece 15 vezes. Comparando os três grupos, o rótulo será alocado no grupo que tiver o maior valor. Como o rótulo L1 aparece mais vezes no grupo 1 ele permanecerá neste grupo e será removido de todos os outros grupos da partição. O resultado desta comparação é apresentado na Tabela 2b onde 0 indica que o rótulo não pertence àquele grupo, e X indica que o rótulo pertence ao grupo. Neste exemplo não foi considerado empate nos valores, mas se houver algum, um critério de desempate também deverá ser definido. Este é um método bem simplista, que pode inclusive desconsiderar correlações que podem vir a ser importantes.
  17. Uma outra forma de selecionar os rótulos para cada grupo seria comparar as correlações encontradas em cada um dos grupos. A Tabela 3 ilustra os rótulos correlacionados em cada um dos grupos da partição. É possível observar que os rótulos L1, L2, L3 e L4 estão correlacionados e foram alocados nos grupos 1 e 2. Além disso, no grupo G3 os rótulos L1 e L3 aparecem juntos, e no grupo 4 existe correlação entre os rótulos L2, L3 e L4 Pode-se concluir desta análise que estes quatro rótulos tem correlação entre eles e assim eles poderiam formar um grupo da partição. O mesmo pode ser concluído com relação aos rótulos L5, L6, L7 e L8 que poderiam formar um segundo grupo. Neste caso, a partição híbrida final seria composta por dois grupos de rótulos correlacionados, e não quatro como na partição original. Desta forma respeita-se a restrição dos rótulos não se repetirem nos grupos e não se perde totalmente as correlações. Nesta pesquisa, se algum método utilizado gerar partições deste tipo, pretende-se elaborar definições destes critérios a partir de estudos e experimentos.
  18. No passp 3 da estratégia, as partições híbridas encontradas devem ser validadas e uma entre todas deve ser escolhida. A validação pode ser feita treinando classificadores e analisando seus desempenhos em conjuntos de treino e validação, ou um critério de seleção pode ser criado, ou ainda um método existente pode ser aplicado como, por exemplo, o coeficiente da silhueta. O coeficiente de silhueta pode ser usado pois é um método de validação de agrupamento que define a qualidade das partições baseada na proximidade entre, neste caso, os rótulos de um grupo particular e a distância entre esses rótulos e o grupo mais próximo. Usando o coeficiente de silhueta, basta submeter as partições híbridas obtidas ao cálculo da função da silhueta, o que resultará em um coeficiente para cada uma. Escolher a melhor partição híbrida nesse cenário é escolher o maior coeficiente entre todos, o que indica também que aquela partição tem a melhor qualidade entre todas as geradas. Os métodos inicialmente escolhidos para investigação neste passo são a análise do desempenho dos classificadores induzidos nas partições híbridas, usando a medida de avaliação Macro F1, que reflete a média harmônica entre a precisão e a revocação, e o coeficiente da silhueta. A ideia é que as duas formas de validação possam ser comparadas permitindo assim analisar qual delas contribuirá de forma mais significativa para a melhora do desempenho preditivo final. Por fim, o passo 4 consiste em testar a partição híbrida selecionada. Assim, a partição híbrida é submetida a classificadores e o seu desempenho é avaliado, comparando-a com o desempenho das partições local e global.
  19. Conjuntos de dados multirrótulo podem ser encontrados em vários repositórios disponíveis na Internet. Os principais são: Meka: uma biblioteca para problemas multirrótulo desenvolvida em Java que disponibiliza 26 conjuntos de dados multirrótulo MULAN: Também é uma biblioteca desenvolvida em Java para problemas multirrótulo e é baseada na biblioteca Weka. Disponibiliza quatro conjuntos de dados multirrótulo COMETA: um repositório online que disponibiliza 74 conjuntos de dados multirrótulo e podem ser baixados em formatos prontos para ser usados no Mulan, Meka, LibSVM, KEEL e MLDR. Disponibiliza também referências aos trabalhos que deram origem a cada conjunto de dados e outras informações.
  20. As principais ferramentas a serem usadas para a realização deste projeto são a LinguagemR, o ambiente de desenvolvimento integrado Rstudio e o cluster da UFSCar A Linguagem R e o Rstudio foram escolhidos para o desenvolvimento do código fonte referente à implementação da estratégia aqui apresentada por serem comumente usadas pela comunidade científica na resolução de problemas de aprendizado de máquina em geral. Outro motivo é que R possui uma quantidade considerável de bibliotecas disponíveis para tratamento de dados, geração de gráficos, medidas de similaridade, redes neurais artificiais e principalmente bibliotecas específicas para resolução de problemas multirrótulo. O código poderá ser implementado usando um laptop ou desktop, mas os experimentos deverão ser executados em um Cluster pois o mesmo possibilita a execução em paralelo usando 10-fold cross-validation Recentemente a UFSCar disponibilizou um Cluster que possui centenas de processadores e algumas GPUs e que pode ser utilizado para as pesquisas na universidade.
  21. Para analisar o desempenho preditivo da estratégia aqui proposta serão realizados experimentos usando alguns dos conjuntos de dados multirrótulo disponíveis no repositóri COMETA. Os experimentos serão conduzidos usando o esquema de 10-fold cross validation A plataforma R oferece as bibliotecas MLDR e UTIML que permitem utilizar 22 medidas de avaliação multirrótulo Portanto, os experimentos serão avaliados usando essas medidas Também serão utilizados testes estatísticos não paramétricos para verificar diferenças estatísticas entre os resultados gerados com as partições híbridas, locais e globais. Para este fim foram selecionados o teste de Friedman e o pós teste de Nemenyi, dois testes tradicionais e muito utilizados em diversos trabalhos da área de aprendizado multirrótulo. Espera-se que os resultados mostrem que as partições híbridas podem melhorar o desempenho preditivo dos classificadores de maneira significativa. Também se espera que as partições híbridas superem o desempenho preditivo das tradicionais partições global e local, colaborando assim para a evolução do estado-da-arte em aprendizado multirrótulo.
  22. O plano de trabalho e o cronograma das atividades a serem realizadas no decorrer da pesquisa é apresentado na Tabela 4 A pesquisa bibliográfica será realizada durante todo o período do doutorado, aprofundando e atualizando os estudos referentes à classificação multirrótulo, correlação entre rótulos e particionamento do espaço de rótulos; Todas as disciplinas obrigatórias já foram cursadas em 2019; Experimentos preliminares foram realizados ao longo do ano de 2020 e os resultados constam no apendice do texto do exame de qualificação Redação do texto de qualificação: elaboração do texto do Exame de Qualificação com base nos estudos realizados e resultados preliminares; Exame da Qualificação: realização da banca de exame de qualificação; O desenvolvimento e implementação da proposta em linguagem R de acordo com a metodologia especificada ocorrerá no quinto, sexto e sétimo semestres; A condução de experimentos ocorrerá no sexto e sétimo semestres. Serão verificados pontos fortes e fracos e necessidade de possíveis mudanças; Os resultados serão analisados e validados no sexto e sétimo semestres. A redação da tese relatando todo o desenvolvimento e descrevendo as metodologias envolvidas ocorrerá durante o quinto, sexto é sétimo semestres; A defesa da tese ocorrerá no oitavo semestre A publicação de artigos científicos ocorrerá ao longo de 2021 e 2022
  23. O trabalho de Moyano apresenta um método baseado em algoritmo evolutivo que tem como objetivo gerar uma combinação de classificadores multirrótulo e escolher o classificador que obtiver o melhor desempenho preditivo. Os individuos encontrados pelo algoritmo podem ser considerados uma partição dos dados. HUANG propôs um framework que explora correlações locais gerando grupos de instâncias com rótulos correlacionados. As correlações são modeladas usando um grafo de dependencia de rótulos e o k-means é usado para gerar os grupos. Uma partição dos dados é gerada para o conjunto todo. O objetivo no trabalho apresentado por SZYMANSKI é avaliar como o particionamento do espaço de rótulos usando abordagens orientadas a dados pode melhorar o particionamento aleatório na classificação multirrótulo. Assim, eles obtiveram 250 partições aleatórias para cada dataset selecionado para o experimento e então construiram um grafo de co-ocorrência de rótulos para cada uma. Algoritmos de detecção de comunidades são então aplicados nesses grafos para particionar o espaço de rótulos. Cada comunidade pode ser considerada uma partição dos dados.
  24. O algoritmo proposto por PAPANIKOLAY é uma versão aprimorada do HOMER o qual originalmente constrói uma hierarquia de classificadores multirrótulo com o objetivo de diminuir a alta dimensionalidade do espaço de rótulos e o desbalanceamento. O método HOMER gera uma árvore onde cada nó folha contem sub-conjuntos de rótulos similares. No entanto, a quantidade de nós quantidade de nós e rótulos dentro de cada nó é limitada pelo usuário. Isso gera partições com número fixo de grupos e rótulos dentro dos grupos. O método apresentado por ABEYRATHNA particiona o espaço de rótulos em grupos de rótulos correlacionados. O método gera uma única partição híbrida para o conjunto de dados original. O algoritmo C3M foi adaptado para modelar as correlações entre os rótulos e o classificador LABEL POWERSET foi usado para treinar os grupos com mais de um rótulo e o BINARY RELEVANCE para grupos de rótulos únicos. No trabalho apresentado por NIKOLOSKI a tarefa da classificação multirrótulo é abordada como uma tarefa de classificação hierárquica multi-rótulo. O método proposto primeiro ranqueia os atributos para cada um dos rótulos separadamente e em seguida constrói uma hierarquia de rótulos. Essa hierarquia é então usada para transformar o conjunto de dados multirrótulo plano em conjuntos de dados multirrótulo hierárquicos de treino e teste. Em seguida, o framework CLUS é usado para treinar e testar as hierarquias. Uma partição pode ser gerada para cada hierarquia construída. Os trabalhos correlatos apresentam métodos variados para modelar as correlações e particionar o espaço de rótulos, os quais podem ser aproveitados nesta pesquisa.