ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo

•Transferir como PPTX, PDF•

0 gostou•15 visualizações

Este documento apresenta uma proposta para explorar correlações entre rótulos em problemas de classificação multirrótulo com o objetivo de gerar partições híbridas do espaço de rótulos que otimizem o desempenho dos classificadores. A proposta envolve modelar correlações entre rótulos usando métodos como Apriori ou medidas de similaridade e, em seguida, particionar os rótulos com base nas correlações usando agrupamento hierárquico para gerar partições híbridas entre as tradicionais partições globais e locais

Ciências

Explorando Correlações para o
Particionamento do Espaço de
Rótulos em Problemas de
Classificação Multirrótulo
Doutoranda: Elaine Cecília Gatto
Orientador: Prof. Dr. Ricardo Cerri
Co-Orientador: Prof. Dr. Mauri Ferrandin
04/02/2021, 14h00
Universidade Federal de São Carlos
Departamento de Computação
Programa de Pós-Graduação em Ciência da Computação

AGENDA
 Introdução
 Proposta
 Trabalhos Correlatos
 Resultados Preliminares

Introdução
 Aprendizado de Máquina
 Modelo Descritivo
 Modelo Preditivo
 Conjuntos de Dados
 Dados rotulados
 Dados não rotulados

Desafios na Classificação Multirrótulo
 Alta dimensionalidade
 Desbalanceamento
 Correlações entre rótulos

Correlações entre Rótulos
Figura 2: Correlações

Modelagem das Correlações entre Rótulos
 Huang 2012
 Correlação global
 Correlação local
 Zhang 2014
 Alta ordem
 Primeira ordem
 Segunda ordem
 Dembczynski 2012
 Dependência condicional
 Dependencia incondicional
 Sem correlação
 Pares de rótulos
 Subconjuntos de rótulos
 Todos os rótulos

Abordagens Classificação Multirrótulo
Abordagem Dependente de Algoritmo
Adaptação de Algoritmos
Abordagem Independente de Algoritmo
Transformação de Problema
Abordagem Global
Abordagem Local

Bell Number
 Definido como o número de partições possíveis de um conjunto
com n elementos consistindo de k conjuntos separados e não
vazios

Hipótese
 No domínio de problemas de classificação multirrótulo,
o desempenho preditivo dos classificadores pode ser
melhorado a partir do aprendizado de partições
híbridas, isto é, partições de dados que estejam entre
as tradicionais local e global. Utilizando diferentes
métodos para modelar as correlações entre rótulos, no
espaço de rótulos, e diferentes métodos para
particioná-los, é possível encontrar partições híbridas e
escolher uma entre elas que leve ao melhor resultado
com relação às tradicionais global e local.

Objetivo Geral
 Desenvolver, implementar e avaliar uma estratégia capaz
de particionar o espaço de rótulos, explorando as
correlações entre rótulos, de forma a gerar várias
partições híbridas as quais devem ser compostas por
grupos de rótulos correlacionados e que sejam capazes
de otimizar o desempenho dos classificadores. Rótulos
pertencentes a um determinado grupo não podem
pertencer a outros grupos. O número de partições a
serem geradas, assim como o número de subconjuntos
em cada partição, deve ser, preferivelmente, definido de
forma automática pelo método de particionamento.

$14 Objetivos Específicos  Estudar conceitos relacionados à Classificação Multirrótulo e métodos atualmente utilizados para resolver problemas de classificação multirrótulo;  Entender com profundidade como as correlações entre os rótulos contribuem para a melhora do desempenho preditivo dos classificadores;  Analisar como a cardinalidade dos dados multirrótulo pode influenciar na geração das partições híbridas;  Analisar a influência do método de particionamento na geração das partições híbridas;  Analisar a influência e contribuição das partições híbridas no desempenho preditivo geral dos classificadores;  Analisar o desempenho preditivo da estratégia proposta em diferentes medidas de avaliação para entender como a estratégia se comporta e também identificar pontos fortes e fracos;  Comparar e analisar os métodos utilizados para modelar as correlações entre os rótulos;  Comparar e analisar os métodos utilizados para particionar os rótulos com base nas correlações;$

Proposta
Figura 4: Fluxograma da Proposta

Modelagem das Correlações
 Objetivo: fazer com que o classificador seja capaz de predizer
rótulos que dificilmente seriam preditos se essas correlações não
fossem encontradas.
 Possíveis Métodos:
 Algoritmo Apriori;
 Medidas de Similaridade;

Modelagem das Correlações
Figura 5: Exemplo Comunidades Figura 6: Exemplo Kohonen

Particionamento das Correlações
Figura 7:
Dendrograma Flags

Particionamento das Correlações
Figura 8:
Possíveis Partições Híbridas
para o conjunto de dados Flags.

Particionamento das Correlações
Figura 9:
Formas de se obter
as partições híbridas

Particionamento das Correlações
Figura 10: Tratamento da partição híbrida

Particionamento das Correlações
Tabela 2: Exemplo de seleção de rótulos para cada grupo

Particionamento das Correlações
Tabela 3: Correlações encontradas em cada grupo

Validação e Teste
 Desempenho (Macro F1)
 Silhueta

Conjuntos de Dados Multirrótulo
 Meka
 Mulan
 Cometa

Recursos e Ferramentas
 Linguagem R
 Rstudio
 Cluster UFSCar

Análise dos Resultados e
Resultados Esperados
 10 fold cross-validation
 Medidas de desempenho multirrótulo
 Testes não paramétricos
 Superar partições global e local

Plano de Trabalho e Cronograma
Tabela 4:
Cronograma

Trabalhos Correlatos
 MOYANO, J. M.; GIBAJA, E. L.; CIOS, K. J.; VENTURA, S. Combining multi-
label classifiers based on projections of the output space using
evolutionary algorithms. Knowledge-Based Syst., Elsevier BV, p. 105770,
mar 2020. ISSN 09507051.
 HUANG, J.; LI, G.; WANG, S.; ZHANG, W.; HUANG, Q. Group sensitive
Classifier Chains for multi-label classification. Proc. - IEEE Int. Conf.
Multimed. Expo, IEEE, v. 2015-Augus, p. 1–6,2015. ISSN 1945788X.
 SZYMANSKI, P.; KAJDANOWICZ, T.; KERSTING, K. How is a data-driven
approach better than random choice in label space division for multi-
label classification? Entropy, v. 18, n. 8, p.1–23, 2016. ISSN 10994300.

Trabalhos Correlatos
 PAPANIKOLAOU, Y.; TSOUMAKAS, G.; KATAKIS, I. Hierarchical partitioning
of the output space in multi-label data. Data & Knowledge Engineering, v.
116, p. 42 – 60, 2018. ISSN0169-023X.
 ABEYRATHNA, D. L. B. G. M. Multi-Label Classification Using Higher-Order
Label Clusters. Dissertação (Mestrado) — Department of Computer
Science and the Faculty of the Graduate College University of Nebraska,
December 2018.
 NIKOLOSKI, S.; KOCEV, D.; DžEROSKI, S. Structuring the output space
in multi-label classification by using feature ranking. v. 10785, p. 122–137,
2018.

RESULTADOS PRELIMINARES
 Modelagem das correlações: índice jaccard;
 Particionamento do espaço de rótulos: algoritmo de agrupamento
hierárquico aglomerativo;
 Validação das partições híbridas: CLUS e Macro-F1;
 Teste da melhor partição híbrida: CLUS;
 22 medidas de avaliação;
 12 conjuntos de dados multirrótulo de 5 domínios diferentes;
 Melhor desempenho em 15 das 22 medidas na média dos 12 datasets;
 Desempenho abaixo da partição local mas acima da partição global;
 Necessário mais experimentação para superar partição local.

OBRIGADA!
elainegatto@estudante.ufscar.br
“Quem sobe as escadas deve começar por baixo. Para ser bom em
algo é necessário seguir um passo de cada vez”. (Haruichi Furudate)

Mais conteúdo relacionado

Semelhante a ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo

Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Elaine Cecília Gatto

Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...Heitor Ganzeli

Padrões de Projeto (GoF)Álvaro Farias Pinheiro

Análises agrupamento e dissimilaridade no GenesCristiano Lemes da Silva

Redes de cooperação em cursos de formação profissional como estratégia de ges...Tereza Carneiro

Trabalho de Conclusão sobre Ciclo de Vida dos DadosKarina Moura

Defesa de mestrado: Como a prática de TDD influencia no projeto de classes em...Maurício Aniche

Guia completo para definição de estatística de modelos e algoritmos de machin...Geanderson Lenz

02/12 Referencial Teórico - Processo de Codificação Cícera Malheiro

Introdução a Padrões de ProjetoEduardo Mendes

Cluster analysis TDC POA 2017Marco Siqueira Campos, MSc

TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...tdc-globalcode

Técnicas de data miningFélix Winter Vier

Relatorio Final RVCC BásicoJoão Lima

Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila

Mapping StudyAlexandre Duarte

Inteligencia de negóciosDaniel Nóro

O uso de mapas conceituais para a gestão do conhecimento: da sala de aula par...Paulo Correia

ticEduca2016Luis Ferreira

CST EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS IFPB 2º PERÍODO ESTRUTURAS DE DADOSOs Fantasmas !

Semelhante a ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo (20)

Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...

Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...

Padrões de Projeto (GoF)

Análises agrupamento e dissimilaridade no Genes

Redes de cooperação em cursos de formação profissional como estratégia de ges...

Trabalho de Conclusão sobre Ciclo de Vida dos Dados

Defesa de mestrado: Como a prática de TDD influencia no projeto de classes em...

Guia completo para definição de estatística de modelos e algoritmos de machin...

02/12 Referencial Teórico - Processo de Codificação

Introdução a Padrões de Projeto

Cluster analysis TDC POA 2017

TDC2017 | São Paulo - Trilha BigData How we figured out we had a SRE team at ...

Técnicas de data mining

Relatorio Final RVCC Básico

Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...

Mapping Study

Inteligencia de negócios

O uso de mapas conceituais para a gestão do conhecimento: da sala de aula par...

ticEduca2016

CST EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS IFPB 2º PERÍODO ESTRUTURAS DE DADOS

Mais de Elaine Cecília Gatto

A influência da Tecnologia em cada faixa etariaElaine Cecília Gatto

Inteligência Artificial Aplicada à MedicinaElaine Cecília Gatto

Apresentação da minha tese de doutorado no EPPCElaine Cecília Gatto

entrevista r7.pdfElaine Cecília Gatto

Como a pesquisa científica impacta o mundo real.pptxElaine Cecília Gatto

Empoderamento FemininoElaine Cecília Gatto

Community Detection for Multi-Label Classification - Seminários UFSCarElaine Cecília Gatto

EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto

Community Detection Method for Multi-Label ClassificationElaine Cecília Gatto

Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfElaine Cecília Gatto

Curtinhas de sábado.pdfElaine Cecília Gatto

Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Elaine Cecília Gatto

EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto

Pipeline desdobramento escalonamentoElaine Cecília Gatto

Cheat sheet Mips 32 bitsElaine Cecília Gatto

Resumo das Instruções de Desvio Incondicionais MIPS 32 bitsElaine Cecília Gatto

Como descobrir e classificar coisas usando machine learning sem compilcaçãoElaine Cecília Gatto

Exploring label correlations for partitioning the label space in multi label ...Elaine Cecília Gatto

Número de BellElaine Cecília Gatto

Coeficiente da SilhuetaElaine Cecília Gatto

Mais de Elaine Cecília Gatto (20)

A influência da Tecnologia em cada faixa etaria

Inteligência Artificial Aplicada à Medicina

Apresentação da minha tese de doutorado no EPPC

entrevista r7.pdf

Como a pesquisa científica impacta o mundo real.pptx

Empoderamento Feminino

Community Detection for Multi-Label Classification - Seminários UFSCar

EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...

Community Detection Method for Multi-Label Classification

Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdf

Curtinhas de sábado.pdf

Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...

EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...

Pipeline desdobramento escalonamento

Cheat sheet Mips 32 bits

Resumo das Instruções de Desvio Incondicionais MIPS 32 bits

Como descobrir e classificar coisas usando machine learning sem compilcação

Exploring label correlations for partitioning the label space in multi label ...

Número de Bell

Coeficiente da Silhueta

ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo

1. Explorando Correlações para o Particionamento do Espaço de Rótulos em Problemas de Classificação Multirrótulo Doutoranda: Elaine Cecília Gatto Orientador: Prof. Dr. Ricardo Cerri Co-Orientador: Prof. Dr. Mauri Ferrandin 04/02/2021, 14h00 Universidade Federal de São Carlos Departamento de Computação Programa de Pós-Graduação em Ciência da Computação

2. AGENDA  Introdução  Proposta  Trabalhos Correlatos  Resultados Preliminares

3. 1. INTRODUÇÃO

4. Introdução  Aprendizado de Máquina  Modelo Descritivo  Modelo Preditivo  Conjuntos de Dados  Dados rotulados  Dados não rotulados

5. Classificação Figura 1: Classificação

6. Desafios na Classificação Multirrótulo  Alta dimensionalidade  Desbalanceamento  Correlações entre rótulos

7. Correlações entre Rótulos Figura 2: Correlações

8. Modelagem das Correlações entre Rótulos  Huang 2012  Correlação global  Correlação local  Zhang 2014  Alta ordem  Primeira ordem  Segunda ordem  Dembczynski 2012  Dependência condicional  Dependencia incondicional  Sem correlação  Pares de rótulos  Subconjuntos de rótulos  Todos os rótulos

9. Abordagens Classificação Multirrótulo Abordagem Dependente de Algoritmo Adaptação de Algoritmos Abordagem Independente de Algoritmo Transformação de Problema Abordagem Global Abordagem Local

10. Partições Figura 3: Partições

11. Bell Number  Definido como o número de partições possíveis de um conjunto com n elementos consistindo de k conjuntos separados e não vazios

12. Hipótese  No domínio de problemas de classificação multirrótulo, o desempenho preditivo dos classificadores pode ser melhorado a partir do aprendizado de partições híbridas, isto é, partições de dados que estejam entre as tradicionais local e global. Utilizando diferentes métodos para modelar as correlações entre rótulos, no espaço de rótulos, e diferentes métodos para particioná-los, é possível encontrar partições híbridas e escolher uma entre elas que leve ao melhor resultado com relação às tradicionais global e local.

13. Objetivo Geral  Desenvolver, implementar e avaliar uma estratégia capaz de particionar o espaço de rótulos, explorando as correlações entre rótulos, de forma a gerar várias partições híbridas as quais devem ser compostas por grupos de rótulos correlacionados e que sejam capazes de otimizar o desempenho dos classificadores. Rótulos pertencentes a um determinado grupo não podem pertencer a outros grupos. O número de partições a serem geradas, assim como o número de subconjuntos em cada partição, deve ser, preferivelmente, definido de forma automática pelo método de particionamento.

14. 14 Objetivos Específicos  Estudar conceitos relacionados à Classificação Multirrótulo e métodos atualmente utilizados para resolver problemas de classificação multirrótulo;  Entender com profundidade como as correlações entre os rótulos contribuem para a melhora do desempenho preditivo dos classificadores;  Analisar como a cardinalidade dos dados multirrótulo pode influenciar na geração das partições híbridas;  Analisar a influência do método de particionamento na geração das partições híbridas;  Analisar a influência e contribuição das partições híbridas no desempenho preditivo geral dos classificadores;  Analisar o desempenho preditivo da estratégia proposta em diferentes medidas de avaliação para entender como a estratégia se comporta e também identificar pontos fortes e fracos;  Comparar e analisar os métodos utilizados para modelar as correlações entre os rótulos;  Comparar e analisar os métodos utilizados para particionar os rótulos com base nas correlações;

15. 2. PROPOSTA

16. Proposta Figura 4: Fluxograma da Proposta

17. Modelagem das Correlações  Objetivo: fazer com que o classificador seja capaz de predizer rótulos que dificilmente seriam preditos se essas correlações não fossem encontradas.  Possíveis Métodos:  Algoritmo Apriori;  Medidas de Similaridade;

18. Modelagem das Correlações Figura 5: Exemplo Comunidades Figura 6: Exemplo Kohonen

19. Particionamento das Correlações Figura 7: Dendrograma Flags

20. Particionamento das Correlações Figura 8: Possíveis Partições Híbridas para o conjunto de dados Flags.

21. Particionamento das Correlações Figura 9: Formas de se obter as partições híbridas

22. Particionamento das Correlações Figura 10: Tratamento da partição híbrida

23. Particionamento das Correlações Tabela 2: Exemplo de seleção de rótulos para cada grupo

24. Particionamento das Correlações Tabela 3: Correlações encontradas em cada grupo

25. Validação e Teste  Desempenho (Macro F1)  Silhueta

26. Conjuntos de Dados Multirrótulo  Meka  Mulan  Cometa

27. Recursos e Ferramentas  Linguagem R  Rstudio  Cluster UFSCar

28. Análise dos Resultados e Resultados Esperados  10 fold cross-validation  Medidas de desempenho multirrótulo  Testes não paramétricos  Superar partições global e local

29. Plano de Trabalho e Cronograma Tabela 4: Cronograma

30. 3. TRABALHOS CORRELATOS

31. Trabalhos Correlatos  MOYANO, J. M.; GIBAJA, E. L.; CIOS, K. J.; VENTURA, S. Combining multi- label classifiers based on projections of the output space using evolutionary algorithms. Knowledge-Based Syst., Elsevier BV, p. 105770, mar 2020. ISSN 09507051.  HUANG, J.; LI, G.; WANG, S.; ZHANG, W.; HUANG, Q. Group sensitive Classifier Chains for multi-label classification. Proc. - IEEE Int. Conf. Multimed. Expo, IEEE, v. 2015-Augus, p. 1–6,2015. ISSN 1945788X.  SZYMANSKI, P.; KAJDANOWICZ, T.; KERSTING, K. How is a data-driven approach better than random choice in label space division for multi- label classification? Entropy, v. 18, n. 8, p.1–23, 2016. ISSN 10994300.

32. Trabalhos Correlatos  PAPANIKOLAOU, Y.; TSOUMAKAS, G.; KATAKIS, I. Hierarchical partitioning of the output space in multi-label data. Data & Knowledge Engineering, v. 116, p. 42 – 60, 2018. ISSN0169-023X.  ABEYRATHNA, D. L. B. G. M. Multi-Label Classification Using Higher-Order Label Clusters. Dissertação (Mestrado) — Department of Computer Science and the Faculty of the Graduate College University of Nebraska, December 2018.  NIKOLOSKI, S.; KOCEV, D.; DžEROSKI, S. Structuring the output space in multi-label classification by using feature ranking. v. 10785, p. 122–137, 2018.

33. 4. RESULTADOS PRELIMINARES

34. RESULTADOS PRELIMINARES  Modelagem das correlações: índice jaccard;  Particionamento do espaço de rótulos: algoritmo de agrupamento hierárquico aglomerativo;  Validação das partições híbridas: CLUS e Macro-F1;  Teste da melhor partição híbrida: CLUS;  22 medidas de avaliação;  12 conjuntos de dados multirrótulo de 5 domínios diferentes;  Melhor desempenho em 15 das 22 medidas na média dos 12 datasets;  Desempenho abaixo da partição local mas acima da partição global;  Necessário mais experimentação para superar partição local.

35. OBRIGADA! elainegatto@estudante.ufscar.br “Quem sobe as escadas deve começar por baixo. Para ser bom em algo é necessário seguir um passo de cada vez”. (Haruichi Furudate)

Notas do Editor

O aprendizado de máquina é uma área da Inteligência Artificial capaz de resolver problemas a partir de experiências passadas Um modelo pode ser aprendido a partir dos dados do problema a ser resolvido Se o modelo explora ou descreve o conjunto de dados, então ele é chamado descritivo Se o modelo realiza predições a respeito do conjunto de dados, então ele é chamado de preditivo Um conjunto de dados representa instâncias do problema a ser resolvido Cada instância do conjunto de dados é composta por um conjunto de atributos (ou campos) que a descrevem Um ou mais desses atributos podem ser denominados de atributos de saída, ou rótulo Portanto, as instâncias podem ou não ser rotuladas Quando rotuladas, o conjunto de rótulos do conjunto de dados em questão é denominado de espaço de rótulos (ou espaço de saída) No aprendizado de máquina, dados não rotulados podem ser modelados pelas tarefas descritivas, como agrupamento, associação e sumarização. Já os dados rotulados podem ser modelados pelas tarefas preditivias, como a classificação e a regressão.
Enquanto na classificação simples-rótulo (ou tradicional) uma instância do conjunto de dados pertence a um único rótulo, na classificação multirrótulo uma instância pode pertencer a vários rótulos ao mesmo tempo. O principal objetivo na classificação multirrótulo é construir um modelo que prediz um conjunto de rótulos para uma instância. Várias aplicações do mundo real podem ser modeladas como um problema multirrótulo como em Bioinformática: onde proteínas podem realizar muitas funções, Categorização de texto: onde documentos pertencem a várias categorias ao mesmo tempo, e Cassificação musical: onde músicas pertencem a vários gêneros simultaneamente. A Figura 1 ilustra a diferença entre a classificação simples-rótulo e a classificação multirrótulo O losango cor de rosa indica instâncias que pertencem ao rótulo robótica, enquanto o circulo verde indica instâncias que pertencem ao rótulo medicina Na classificação simples-rótulo cada instância nesse conjunto pertence ou à robótica ou à medicina Na classificação multirrótulo, as instâncias desse conjunto de dados podem pertecem somente à medicina, somente à robótica ou podem pertencer à medicina e robótica ao mesmo tempo, como indicado pela linha vermelha na Figura. O principal objetivo na classificação multirrótulo é construir um modelo que prediz um conjunto de rótulos para uma instância
Dentre os desafios envolvidos na classificação multirrótulo destacam-se: A alta dimensionalidade que está relacionado ao número atributos tanto no espaço de entrada quanto no espaço de saída. Quando esse número é alto pode haver problemas de processamento e dificuldades na aprendizagem e geração do modelo. O tempo necessário para processar tantos atributos será grande e o modelo gerado poderá sofrer de overffiting, isto é, o modelo de aprendizado poderá se adaptar muito bem aos dados de treinamento, mas não generalizar bem para novos dados Quando o número de rótulos do espaço de rótulos é muito alto, é possível que o número de instâncias positivas para determinados rótulos seja bem pequeno e o número de instâncias negativas seja alto Também é possível que alguns rótulos sejam mais frequentes que outros Isto é conhecido como desbalanceamento Pode ainda haver um número alto de instâncias associadas a conjuntos de rótulos frequentes e um alto número de instâncias associadas a conjuntos de rótulos menos frequentes, o que é conhecido como label skew. Técnicas para reduzir a dimensionalidade vem sendo propostas na literatura para tratar desses problemas Uma revisão sobre essas técnicas pode ser encontrada no artigo de KASHEF, S.; NEZAMABADI-POUR, H.; NIKPOUR, B. Multilabel Feature Selection: A Comprehensive Review and Guiding Experiments. John Wiley & Sons, 2018 Por fim, a complexidade em identificar e explorar dependências e correlações entre rótulos é um dos desafios que tem chamado bastante a atenção dos pesquisadores em classificação multirrótulo
Estudos têm mostrado que o desempenho preditivo de classificadores multirrótulo pode ser melhorado explorando correlações entre rótulos, e várias abordagens têm sido propostas para este fim A partir da modelagem das correlações, a predição de rótulos é facilitada, isto é, um rótulo pode ser predito corretamente devido à sua correlação com outros rótulos. Para ilustrar como o aprendizado de correlações colabora para a melhoria das predições, considere a instância de teste apresentada na Figura 2. Considere também que durante o treinamento foi encontrada uma forte correlação entre os rótulos montanha e praia. Observa-se que na Figura 2 existe uma praia entre as montanhas, no entanto, o rótulo praia pode ser de difícil predição pois não é predominante na imagem. O rótulo montanha no entanto, pode ser mais facilmente predito, pois predomina na imagem. Ao se considerar a correlação entre montanha e praia, aumenta-se a chance do rótulo praia ser predito quando o rótulo montanha estiver presente na imagem. Portanto, ao se aprender as correlações existentes entre os rótulos, estas podem ser utilizadas para predizer rótulos que provavelmente não seriam preditos utilizando métodos que não consideram tais correlações.
Não há uma taxonomia a respeito da modelagem das correlações entre rótulos definida na literatura, mas alguns autores propuseram algumas: Huang 2012 propoe duas categorias: global e local A correlação global assume que dois ou mais rótulos estão correlacionados se eles classificam todas as instâncias do conjunto A correlação local considera que dois ou mais rótulos estão correlacionados se eles classificam um subconjunto de instâncias do conjunto Zhang 2014 propoe três categorias Na categoria de primeira ordem estão métodos que não consideram a modelagem das correlações Na categoria de segunda ordem estão os métodos que modelam as correlações usando pares de rótulos Na categoria de alta ordem estão os métodos que modelam as correlaçõe considerando todos os rótulos, ou um subconjunto de rótulos, do conjunto de treinamento DEMBCZYNSKI 2012 A dependência condicional modela a probabilidade dos rótulos ocorrerem juntos ao capturar as dependências entre os rótulos dada uma instância específica Já a dependencia incondicional modela a probabilidade de determinados rótulos ocorrerem juntos no conjunto de dados inteiro Por fim, analisando essas propostas de categorização chegou-se à seguinte categorização neste trabalho: Métodos que não modelam correlações Métodos que modelam correlações entre pares de rótulos Métodos que modelam correlações usando subconjuntos de rótulos Métodos que modelam correlações usando todos os rótulos
Tradicionalmente, os métodos de classificação multirrótulo podem ser divididos em duas categorias principais: adaptação de algoritmo e transformação de problema. Na abordagem de adaptação de algoritmo, novos algoritmos são desenvolvidos, ou algoritmos existentes são adaptados, para resolver o problema multirrótulo original. Esses algoritmos tratam todos os rótulos do problema ao mesmo tempo, e treinam apenas um único classificador multirrótulo. No entanto, informações locais, isto é, individuais de cada rótulo, que podem ser úteis para explorar diferentes padrões nos dados são ignoradas nesta abordagem. Árvores de decisão, algoritmos evolutivos, métodos probabilísticos, redes neurais artificiais e outros tipos de algoritmos podem ser adaptados para resolver o problema multirrótulo nesta abordagem. Na abordagem de transformação de problema, os métodos transformam o problema multirrótulo em um conjunto de subproblemas binários ou multi-classe, onde qualquer algoritmo de classificação convencional pode ser usado. Neste caso é necessário treinar um classificador binário para cada um dos rótulos individualmente ou um classificador multi-classe para cada subproblema multi-classe. Apesar da flexibilidade destes métodos, treinar muitos classificadores pode resultar no uso de informações muito específicas, perda de informações e a não exploração das dependências entre rótulos durante o processo de treinamento. Do ponto de vista do espaço de rótulos, pode-se dizer que a abordagem de adaptação de algoritmos é uma abordagem global, pois todos os rótulos são considerados ao mesmo tempo, enquanto que na abordagem de transformação de problemas, o espaço de rótulos pode ser particionado separando os rótulos e tratando-os individualmente, em pares ou em grupos. Diante disto, pode-se dizer que a abordagem global gera partições globais e a abordagem local, partições locais. Dentro da abordagem local, a grande maioria dos métodos geram partições considerando que os rótulos são tratados individualmente. Assim, neste trabalho, serão considerados métodos que geram partições locais aqueles que tratam os rótulos individualmente. Com isso o conceito de partições é introduzido. Essas partições podem ser geradas ao se realizar o particionamento do espaço de rótulos.
A Figura 3 apresenta as partições aqui introduzidas, onde o quadrado representa a partição em si, o círculo representa um grupo de rótulos e o losango representa o rótulo propriamente dito Considere $L1$, $L2$, $L3$, $L4$, $L5$, $L6$, $L7$ e $L8$ rótulos que compõem o espaço de rótulos de um conjunto de dados ilustrativo A Figura 3a ilustra a partição global. Neste tipo de partição todos os rótulos estão juntos em um único círculo, isto é, um único grupo e portanto um único classificador multirrótulo é treinado A Figura 3b ilustra a partição local. Neste tipo de partição cada rótulo está em um círculo diferente, portanto, cada rótulo é um grupo. Neste exemplo, oito classificadores binários são treinados. Por fim, a Figura 3C ilusta a partição híbrida. Trata-se de uma partição que está entre as partições global e local as quais não exploram a correlação entre sub-conjuntos de rótulos Estas partições híbridas são obtidas ao se realizar o particionamento do espaço de rótulos explorando as correlações entre rótulos. Cada partição híbrida gerada é composta por grupos de rótulos onde os rótulos correlacionados são agrupados juntos. Portanto, diferentes grupos de rótulos com diferentes números de rótulos correlacionados podem ser obtidos e assim diferentes partições híbridas.
Para ilustrar o desafio de se encontrar uma partição híbrida adequada entre todas as possíveis partições de rótulos, o conceito do número de Bell pode ser utilizado O número de Bell pode ser definido como o número de partições possíveis de um conjunto com n elementos consistindo de k conjuntos separados e não vazios A Tabela 1 ilustra exemplos de número de Bell. Para um conjunto com dois elementos, é possível encontrar duas partições, um composta por um único grupo e outra composta por dois grupos. Para um conjunto com três elementos, cinco partições são encontradas. Novamente aqui tem-se um grupo com todos os elementos, e um grupo com cada elemento separado, da mesma forma que as partições global e local. É possível notar também que todas as combinações possíveis entre esses elementos foram consideradas para construção das partições. Tomando como exemplo o espaço de rótulos apresentado na Figura 2, o número de possíveis partições seria de B8 = 21.147 Assim, para conjuntos de dados com espaços de rótulos de alta dimensão, torna-se muito mais desafiador encontrar uma partição híbrida adequada.
Partições híbridas são partições dos dados compostas por grupos de rótulos correlacionados, onde cada grupo de cada uma das partições híbridas pode conter um ou mais rótulos correlacionados Para encontrar este tipo de partição nos conjuntos de dados multirrótulo é necessário usar uma estratégia que seja capaz de explorar as correlações entre os rótulos e então particionar o espaço de rótulos. A estratégia para se encontrar as partições híbridas, e escolher uma entre elas, é ilustrada na Figura 4. De forma resumida: A estratégia começa com o pré-processamento dos conjuntos de dados multirrótulo separando-os em conjuntos de treino, validação e teste; Em seguda, as correlações são modeladas usando alguma técnica; Após a modelagem das correlações, o espaço de rótulos é particionado e as partições híbridas são geradas; De posse das partições híbridas, as mesmas são validadas e a melhor é escolhida para o teste; Após o teste os resultados são analisados Agora explicarei cada passo com um pouco mais de detalhes
O objetivo da modelagem das correlações entre rótulos é As correlações entre rótulos podem ser modeladas usando diferentes métodos. Nesta pesquisa, o que se pretende é modelar as correlações utilizando-se apenas o espaço de rótulos do conjunto de dados multirrótulo e não todo o espaço de atributos O espaço de rótulos então poderá ser tratado como uma matriz Vários métodos podem ser aplicados para modelar as correlações e a literatura neste tema é vasta. A estratégia apresentada nesta pesquisa pode ser incluída nas categorias modelagem das correlações de alta ordem e modelagem de correlações global. Não há escopo nesta pesquisa para apresentar todas as possíveis formas para modelar correlações, portanto, alguns métodos pesquisados, e que se encaixam nesta pesquisa, serão citados: Regras de associação encontram relacionamentos ou padrões frequentes então o algoritmo Apriori seria capaz de minerar esses relacionamentos/padrões entre os rótulos, resultando num modelo de correlações Medidas de similaridade também podem ser usadas. Neste caso, o espaço de rótulos deve ser submetido ao cálculo da medida de similaridade em questão, o que resultará em uma matriz de correlações
Também podem ser usados Métodos de detecção de comunidade que são capaz esde encontrar relações nos dados em diversas áreas de conhecimento, então esses podem ajudar a encontrar relações entre os rótulos, conforme ilustra a Figura 5 O mapa auto-organizável de Kohonen é uma rede neural artificial baseada em aprendizado competitivo onde os neurônios são posicionados em uma grade bidimensional e, após o aprendizado, forma-se um mapa topográfico dos padrões de entrada. A modelagem das correlações nesse caso ocorreria da seguinte forma: o espaço de rótulos é dado como entrada para o algoritmo o qual mapeia, para cada neurônio do mapa, instâncias com rótulos similares. Assim, cada neurônio, ou grupo de neurônios, poderá ser considerado um grupo de instâncias com base na similaridade dos rótulos. O mapa bidimensional resultante pode então ser particionado de forma a se obter as partições híbridas conforme mostra a Figura 6
Para realizar o particionamento do espaço de rótulos um método como o algoritmo de agrupamento hierárquico aglomerativo pode ser usado. Esse algoritmo é capaz de construir grupos de rótulos correlacionados particionando recursivamente as correlações modeladas. Os algoritmos de agrupamento hierárquicos são divididos em dois tipos: aglomerativos e divisivos. No método aglomerativo, inicialmente cada rótulo está em um grupo separado e no último passo terminam todos juntos em único grupo Já no método divisivo todos os rótulos inicialmente pertencem a um único grupo e vão sendo divididos em grupos até que no final se obtenha um grupo para cada rótulo O resultado obtido por um algoritmo de agrupamento hierárquico é um dendrograma que representa o agrupamento aninhado dos rótulos e os níveis de similaridade onde ocorrem as junções dos grupos. Para obter diferentes partições, é necessário realizar cortes neste dendrograma em diferentes níveis A Figura 7 ilustra um dendrograma resultante do método de aglomeração para o conjunto de dados Flags que possui 7 rótulos.
Cortando o dendrograma em 7 níveis obtém-se as partições local, global e híbridas As possíveis partições híbridas para o conjunto de dados flags são apresentadas na Figura 8 As partições começam com dois grupos e terminam com cinco grupos. Como pode ser notado nas cinco partições, os grupos de rótulos são formados por rótulos correlacionados Neste exemplo, o rótulo orange não tem correlação com nenhum outro rótulo, por isto ele está sempre em um grupo sozinho em todas as partições Já os outros rótulos todos possuem correlação entre eles, mas conforme os cortes são realizados, os rótulos mais correlacionados são mantidos juntos, e os menos correlacionados vão sendo separados.
Há um detalhe a se considerar a respeito da geração das partições híbridas. A depender do método a ser utilizado para modelar as correlações, as partições híbridas podem ser obtidas de forma direta ou indireta, conforme mostra a Figura 9 O espaço de rótulos na Figura 9a mostra que o resultado da aplicação do método é capaz de gerar as partições híbridas já com os respectivos grupos de rótulos correlacionados. Na Figura 9b o método aplicado gera partições compostas por grupos de instâncias que tem rótulos correlacionados, as quais são representadas pelo triângulo verde. Na Figura 9b os rótulos se repetirão nos grupos e uma restrição das partições híbridas é que os grupos sejam formados por rótulos correlacionados de forma que, um rótulo que pertença a um grupo, não pertença a outro grupo daquela partição
Considere a partição composta por quatro grupos apresentada na Figura 9b. A Figura 10 ilustra o que deve acontecer para se obter as partições híbridas dessa partição. É possível observar na partição do meio na Figura 10 que os rótulos estão se repetindo em alguns grupos. O rótulo L1 aparece nos grupos 1, 2 e 3 O rótulo L2 está presente nos grupos 1, 2 e 4. O rótulo 3 se repete nos grupos 1, 2, 4 e 5. O rótulo 4 aparece em 1, 2 e 4 . O rótulo L5 está presente nos grups 1 e 3. O rótulo L6 aparece no grupo 3. O rótulo L7 aparece no grupou 3 e 4. Por fim, o rótulo L8 está presente nos grupos 3 e 4. Esta partição deve ser submetida a um processo de seleção de rótulos, de forma que ao final, os grupos sejam formados por rótulos exclusivos. Esse processo resulta na terceira partição apresentada na Figura 10. Essa partição poderá ter um número de grupos diferentes com relação à primeira, o qual pode ser maior ou menor. Esse número se altera justamente pela restrição dos rótulos não se repetirem nos grupos.
Um forma simples para selecionar quais rótulos permanecerão em cada grupo pode ser feita a partir do cálculo do total de vezes que cada rótulo aparece em cada grupo. Considere os valores ilustrativos apresentados na Tabela 2a. Por exemplo, o rótulo L1 está presente em 3 dos 4 grupos. De acordo com a Tabela 2a no grupo 1 o rótulo L1 aparece 20 vezes, enquanto que no grupo 2 ele aparece 10 vezes e no grupo 3 aparece 15 vezes. Comparando os três grupos, o rótulo será alocado no grupo que tiver o maior valor. Como o rótulo L1 aparece mais vezes no grupo 1 ele permanecerá neste grupo e será removido de todos os outros grupos da partição. O resultado desta comparação é apresentado na Tabela 2b onde 0 indica que o rótulo não pertence àquele grupo, e X indica que o rótulo pertence ao grupo. Neste exemplo não foi considerado empate nos valores, mas se houver algum, um critério de desempate também deverá ser definido. Este é um método bem simplista, que pode inclusive desconsiderar correlações que podem vir a ser importantes.
Uma outra forma de selecionar os rótulos para cada grupo seria comparar as correlações encontradas em cada um dos grupos. A Tabela 3 ilustra os rótulos correlacionados em cada um dos grupos da partição. É possível observar que os rótulos L1, L2, L3 e L4 estão correlacionados e foram alocados nos grupos 1 e 2. Além disso, no grupo G3 os rótulos L1 e L3 aparecem juntos, e no grupo 4 existe correlação entre os rótulos L2, L3 e L4 Pode-se concluir desta análise que estes quatro rótulos tem correlação entre eles e assim eles poderiam formar um grupo da partição. O mesmo pode ser concluído com relação aos rótulos L5, L6, L7 e L8 que poderiam formar um segundo grupo. Neste caso, a partição híbrida final seria composta por dois grupos de rótulos correlacionados, e não quatro como na partição original. Desta forma respeita-se a restrição dos rótulos não se repetirem nos grupos e não se perde totalmente as correlações. Nesta pesquisa, se algum método utilizado gerar partições deste tipo, pretende-se elaborar definições destes critérios a partir de estudos e experimentos.
No passp 3 da estratégia, as partições híbridas encontradas devem ser validadas e uma entre todas deve ser escolhida. A validação pode ser feita treinando classificadores e analisando seus desempenhos em conjuntos de treino e validação, ou um critério de seleção pode ser criado, ou ainda um método existente pode ser aplicado como, por exemplo, o coeficiente da silhueta. O coeficiente de silhueta pode ser usado pois é um método de validação de agrupamento que define a qualidade das partições baseada na proximidade entre, neste caso, os rótulos de um grupo particular e a distância entre esses rótulos e o grupo mais próximo. Usando o coeficiente de silhueta, basta submeter as partições híbridas obtidas ao cálculo da função da silhueta, o que resultará em um coeficiente para cada uma. Escolher a melhor partição híbrida nesse cenário é escolher o maior coeficiente entre todos, o que indica também que aquela partição tem a melhor qualidade entre todas as geradas. Os métodos inicialmente escolhidos para investigação neste passo são a análise do desempenho dos classificadores induzidos nas partições híbridas, usando a medida de avaliação Macro F1, que reflete a média harmônica entre a precisão e a revocação, e o coeficiente da silhueta. A ideia é que as duas formas de validação possam ser comparadas permitindo assim analisar qual delas contribuirá de forma mais significativa para a melhora do desempenho preditivo final. Por fim, o passo 4 consiste em testar a partição híbrida selecionada. Assim, a partição híbrida é submetida a classificadores e o seu desempenho é avaliado, comparando-a com o desempenho das partições local e global.
Conjuntos de dados multirrótulo podem ser encontrados em vários repositórios disponíveis na Internet. Os principais são: Meka: uma biblioteca para problemas multirrótulo desenvolvida em Java que disponibiliza 26 conjuntos de dados multirrótulo MULAN: Também é uma biblioteca desenvolvida em Java para problemas multirrótulo e é baseada na biblioteca Weka. Disponibiliza quatro conjuntos de dados multirrótulo COMETA: um repositório online que disponibiliza 74 conjuntos de dados multirrótulo e podem ser baixados em formatos prontos para ser usados no Mulan, Meka, LibSVM, KEEL e MLDR. Disponibiliza também referências aos trabalhos que deram origem a cada conjunto de dados e outras informações.
As principais ferramentas a serem usadas para a realização deste projeto são a LinguagemR, o ambiente de desenvolvimento integrado Rstudio e o cluster da UFSCar A Linguagem R e o Rstudio foram escolhidos para o desenvolvimento do código fonte referente à implementação da estratégia aqui apresentada por serem comumente usadas pela comunidade científica na resolução de problemas de aprendizado de máquina em geral. Outro motivo é que R possui uma quantidade considerável de bibliotecas disponíveis para tratamento de dados, geração de gráficos, medidas de similaridade, redes neurais artificiais e principalmente bibliotecas específicas para resolução de problemas multirrótulo. O código poderá ser implementado usando um laptop ou desktop, mas os experimentos deverão ser executados em um Cluster pois o mesmo possibilita a execução em paralelo usando 10-fold cross-validation Recentemente a UFSCar disponibilizou um Cluster que possui centenas de processadores e algumas GPUs e que pode ser utilizado para as pesquisas na universidade.
Para analisar o desempenho preditivo da estratégia aqui proposta serão realizados experimentos usando alguns dos conjuntos de dados multirrótulo disponíveis no repositóri COMETA. Os experimentos serão conduzidos usando o esquema de 10-fold cross validation A plataforma R oferece as bibliotecas MLDR e UTIML que permitem utilizar 22 medidas de avaliação multirrótulo Portanto, os experimentos serão avaliados usando essas medidas Também serão utilizados testes estatísticos não paramétricos para verificar diferenças estatísticas entre os resultados gerados com as partições híbridas, locais e globais. Para este fim foram selecionados o teste de Friedman e o pós teste de Nemenyi, dois testes tradicionais e muito utilizados em diversos trabalhos da área de aprendizado multirrótulo. Espera-se que os resultados mostrem que as partições híbridas podem melhorar o desempenho preditivo dos classificadores de maneira significativa. Também se espera que as partições híbridas superem o desempenho preditivo das tradicionais partições global e local, colaborando assim para a evolução do estado-da-arte em aprendizado multirrótulo.
O plano de trabalho e o cronograma das atividades a serem realizadas no decorrer da pesquisa é apresentado na Tabela 4 A pesquisa bibliográfica será realizada durante todo o período do doutorado, aprofundando e atualizando os estudos referentes à classificação multirrótulo, correlação entre rótulos e particionamento do espaço de rótulos; Todas as disciplinas obrigatórias já foram cursadas em 2019; Experimentos preliminares foram realizados ao longo do ano de 2020 e os resultados constam no apendice do texto do exame de qualificação Redação do texto de qualificação: elaboração do texto do Exame de Qualificação com base nos estudos realizados e resultados preliminares; Exame da Qualificação: realização da banca de exame de qualificação; O desenvolvimento e implementação da proposta em linguagem R de acordo com a metodologia especificada ocorrerá no quinto, sexto e sétimo semestres; A condução de experimentos ocorrerá no sexto e sétimo semestres. Serão verificados pontos fortes e fracos e necessidade de possíveis mudanças; Os resultados serão analisados e validados no sexto e sétimo semestres. A redação da tese relatando todo o desenvolvimento e descrevendo as metodologias envolvidas ocorrerá durante o quinto, sexto é sétimo semestres; A defesa da tese ocorrerá no oitavo semestre A publicação de artigos científicos ocorrerá ao longo de 2021 e 2022
O trabalho de Moyano apresenta um método baseado em algoritmo evolutivo que tem como objetivo gerar uma combinação de classificadores multirrótulo e escolher o classificador que obtiver o melhor desempenho preditivo. Os individuos encontrados pelo algoritmo podem ser considerados uma partição dos dados. HUANG propôs um framework que explora correlações locais gerando grupos de instâncias com rótulos correlacionados. As correlações são modeladas usando um grafo de dependencia de rótulos e o k-means é usado para gerar os grupos. Uma partição dos dados é gerada para o conjunto todo. O objetivo no trabalho apresentado por SZYMANSKI é avaliar como o particionamento do espaço de rótulos usando abordagens orientadas a dados pode melhorar o particionamento aleatório na classificação multirrótulo. Assim, eles obtiveram 250 partições aleatórias para cada dataset selecionado para o experimento e então construiram um grafo de co-ocorrência de rótulos para cada uma. Algoritmos de detecção de comunidades são então aplicados nesses grafos para particionar o espaço de rótulos. Cada comunidade pode ser considerada uma partição dos dados.
O algoritmo proposto por PAPANIKOLAY é uma versão aprimorada do HOMER o qual originalmente constrói uma hierarquia de classificadores multirrótulo com o objetivo de diminuir a alta dimensionalidade do espaço de rótulos e o desbalanceamento. O método HOMER gera uma árvore onde cada nó folha contem sub-conjuntos de rótulos similares. No entanto, a quantidade de nós quantidade de nós e rótulos dentro de cada nó é limitada pelo usuário. Isso gera partições com número fixo de grupos e rótulos dentro dos grupos. O método apresentado por ABEYRATHNA particiona o espaço de rótulos em grupos de rótulos correlacionados. O método gera uma única partição híbrida para o conjunto de dados original. O algoritmo C3M foi adaptado para modelar as correlações entre os rótulos e o classificador LABEL POWERSET foi usado para treinar os grupos com mais de um rótulo e o BINARY RELEVANCE para grupos de rótulos únicos. No trabalho apresentado por NIKOLOSKI a tarefa da classificação multirrótulo é abordada como uma tarefa de classificação hierárquica multi-rótulo. O método proposto primeiro ranqueia os atributos para cada um dos rótulos separadamente e em seguida constrói uma hierarquia de rótulos. Essa hierarquia é então usada para transformar o conjunto de dados multirrótulo plano em conjuntos de dados multirrótulo hierárquicos de treino e teste. Em seguida, o framework CLUS é usado para treinar e testar as hierarquias. Uma partição pode ser gerada para cada hierarquia construída. Os trabalhos correlatos apresentam métodos variados para modelar as correlações e particionar o espaço de rótulos, os quais podem ser aproveitados nesta pesquisa.

ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo

Semelhante a ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo (20)

Mais de Elaine Cecília Gatto

Mais de Elaine Cecília Gatto (20)

ExplorandoCorrelaçõesPartiçõesHíbridasClassificaçãoMultirrótulo

Notas do Editor