Este documento apresenta uma proposta para explorar correlações entre rótulos em problemas de classificação multirrótulo com o objetivo de gerar partições híbridas do espaço de rótulos que otimizem o desempenho dos classificadores. A proposta envolve modelar correlações entre rótulos usando métodos como Apriori ou medidas de similaridade e, em seguida, particionar os rótulos com base nas correlações usando agrupamento hierárquico para gerar partições híbridas entre as tradicionais partições globais e locais
1. Explorando Correlações para o
Particionamento do Espaço de
Rótulos em Problemas de
Classificação Multirrótulo
Doutoranda: Elaine Cecília Gatto
Orientador: Prof. Dr. Ricardo Cerri
Co-Orientador: Prof. Dr. Mauri Ferrandin
04/02/2021, 14h00
Universidade Federal de São Carlos
Departamento de Computação
Programa de Pós-Graduação em Ciência da Computação
8. Modelagem das Correlações entre Rótulos
Huang 2012
Correlação global
Correlação local
Zhang 2014
Alta ordem
Primeira ordem
Segunda ordem
Dembczynski 2012
Dependência condicional
Dependencia incondicional
Sem correlação
Pares de rótulos
Subconjuntos de rótulos
Todos os rótulos
9. Abordagens Classificação Multirrótulo
Abordagem Dependente de Algoritmo
Adaptação de Algoritmos
Abordagem Independente de Algoritmo
Transformação de Problema
Abordagem Global
Abordagem Local
11. Bell Number
Definido como o número de partições possíveis de um conjunto
com n elementos consistindo de k conjuntos separados e não
vazios
12. Hipótese
No domínio de problemas de classificação multirrótulo,
o desempenho preditivo dos classificadores pode ser
melhorado a partir do aprendizado de partições
híbridas, isto é, partições de dados que estejam entre
as tradicionais local e global. Utilizando diferentes
métodos para modelar as correlações entre rótulos, no
espaço de rótulos, e diferentes métodos para
particioná-los, é possível encontrar partições híbridas e
escolher uma entre elas que leve ao melhor resultado
com relação às tradicionais global e local.
13. Objetivo Geral
Desenvolver, implementar e avaliar uma estratégia capaz
de particionar o espaço de rótulos, explorando as
correlações entre rótulos, de forma a gerar várias
partições híbridas as quais devem ser compostas por
grupos de rótulos correlacionados e que sejam capazes
de otimizar o desempenho dos classificadores. Rótulos
pertencentes a um determinado grupo não podem
pertencer a outros grupos. O número de partições a
serem geradas, assim como o número de subconjuntos
em cada partição, deve ser, preferivelmente, definido de
forma automática pelo método de particionamento.
14. 14
Objetivos Específicos
Estudar conceitos relacionados à
Classificação Multirrótulo e métodos
atualmente utilizados para resolver
problemas de classificação multirrótulo;
Entender com profundidade como as
correlações entre os rótulos contribuem
para a melhora do desempenho
preditivo dos classificadores;
Analisar como a cardinalidade dos
dados multirrótulo pode influenciar na
geração das partições híbridas;
Analisar a influência do método de
particionamento na geração das
partições híbridas;
Analisar a influência e contribuição das
partições híbridas no desempenho
preditivo geral dos classificadores;
Analisar o desempenho preditivo da
estratégia proposta em diferentes
medidas de avaliação para entender
como a estratégia se comporta e
também identificar pontos fortes e
fracos;
Comparar e analisar os métodos
utilizados para modelar as correlações
entre os rótulos;
Comparar e analisar os métodos
utilizados para particionar os rótulos
com base nas correlações;
17. Modelagem das Correlações
Objetivo: fazer com que o classificador seja capaz de predizer
rótulos que dificilmente seriam preditos se essas correlações não
fossem encontradas.
Possíveis Métodos:
Algoritmo Apriori;
Medidas de Similaridade;
28. Análise dos Resultados e
Resultados Esperados
10 fold cross-validation
Medidas de desempenho multirrótulo
Testes não paramétricos
Superar partições global e local
31. Trabalhos Correlatos
MOYANO, J. M.; GIBAJA, E. L.; CIOS, K. J.; VENTURA, S. Combining multi-
label classifiers based on projections of the output space using
evolutionary algorithms. Knowledge-Based Syst., Elsevier BV, p. 105770,
mar 2020. ISSN 09507051.
HUANG, J.; LI, G.; WANG, S.; ZHANG, W.; HUANG, Q. Group sensitive
Classifier Chains for multi-label classification. Proc. - IEEE Int. Conf.
Multimed. Expo, IEEE, v. 2015-Augus, p. 1–6,2015. ISSN 1945788X.
SZYMANSKI, P.; KAJDANOWICZ, T.; KERSTING, K. How is a data-driven
approach better than random choice in label space division for multi-
label classification? Entropy, v. 18, n. 8, p.1–23, 2016. ISSN 10994300.
32. Trabalhos Correlatos
PAPANIKOLAOU, Y.; TSOUMAKAS, G.; KATAKIS, I. Hierarchical partitioning
of the output space in multi-label data. Data & Knowledge Engineering, v.
116, p. 42 – 60, 2018. ISSN0169-023X.
ABEYRATHNA, D. L. B. G. M. Multi-Label Classification Using Higher-Order
Label Clusters. Dissertação (Mestrado) — Department of Computer
Science and the Faculty of the Graduate College University of Nebraska,
December 2018.
NIKOLOSKI, S.; KOCEV, D.; DžEROSKI, S. Structuring the output space
in multi-label classification by using feature ranking. v. 10785, p. 122–137,
2018.
34. RESULTADOS PRELIMINARES
Modelagem das correlações: índice jaccard;
Particionamento do espaço de rótulos: algoritmo de agrupamento
hierárquico aglomerativo;
Validação das partições híbridas: CLUS e Macro-F1;
Teste da melhor partição híbrida: CLUS;
22 medidas de avaliação;
12 conjuntos de dados multirrótulo de 5 domínios diferentes;
Melhor desempenho em 15 das 22 medidas na média dos 12 datasets;
Desempenho abaixo da partição local mas acima da partição global;
Necessário mais experimentação para superar partição local.
O aprendizado de máquina é uma área da Inteligência Artificial capaz de resolver problemas a partir de experiências passadas
Um modelo pode ser aprendido a partir dos dados do problema a ser resolvido
Se o modelo explora ou descreve o conjunto de dados, então ele é chamado descritivo
Se o modelo realiza predições a respeito do conjunto de dados, então ele é chamado de preditivo
Um conjunto de dados representa instâncias do problema a ser resolvido
Cada instância do conjunto de dados é composta por um conjunto de atributos (ou campos) que a descrevem
Um ou mais desses atributos podem ser denominados de atributos de saída, ou rótulo
Portanto, as instâncias podem ou não ser rotuladas
Quando rotuladas, o conjunto de rótulos do conjunto de dados em questão é denominado de espaço de rótulos (ou espaço de saída)
No aprendizado de máquina, dados não rotulados podem ser modelados pelas tarefas descritivas, como agrupamento, associação e sumarização.
Já os dados rotulados podem ser modelados pelas tarefas preditivias, como a classificação e a regressão.
Enquanto na classificação simples-rótulo (ou tradicional) uma instância do conjunto de dados pertence a um único rótulo, na classificação multirrótulo uma instância pode pertencer a vários rótulos ao mesmo tempo.
O principal objetivo na classificação multirrótulo é construir um modelo que prediz um conjunto de rótulos para uma instância.
Várias aplicações do mundo real podem ser modeladas como um problema multirrótulo como em
Bioinformática: onde proteínas podem realizar muitas funções,
Categorização de texto: onde documentos pertencem a várias categorias ao mesmo tempo, e
Cassificação musical: onde músicas pertencem a vários gêneros simultaneamente.
A Figura 1 ilustra a diferença entre a classificação simples-rótulo e a classificação multirrótulo
O losango cor de rosa indica instâncias que pertencem ao rótulo robótica, enquanto o circulo verde indica instâncias que pertencem ao rótulo medicina
Na classificação simples-rótulo cada instância nesse conjunto pertence ou à robótica ou à medicina
Na classificação multirrótulo, as instâncias desse conjunto de dados podem pertecem somente à medicina, somente à robótica ou podem pertencer à medicina e robótica ao mesmo tempo, como indicado pela linha vermelha na Figura.
O principal objetivo na classificação multirrótulo é construir um modelo que prediz um conjunto de rótulos para uma instância
Dentre os desafios envolvidos na classificação multirrótulo destacam-se:
A alta dimensionalidade que está relacionado ao número atributos tanto no espaço de entrada quanto no espaço de saída.
Quando esse número é alto pode haver problemas de processamento e dificuldades na aprendizagem e geração do modelo.
O tempo necessário para processar tantos atributos será grande e o modelo gerado poderá sofrer de overffiting, isto é, o modelo de aprendizado poderá se adaptar muito bem aos dados de treinamento, mas não generalizar bem para novos dados
Quando o número de rótulos do espaço de rótulos é muito alto, é possível que o número de instâncias positivas para determinados rótulos seja bem pequeno e o número de instâncias negativas seja alto
Também é possível que alguns rótulos sejam mais frequentes que outros
Isto é conhecido como desbalanceamento
Pode ainda haver um número alto de instâncias associadas a conjuntos de rótulos frequentes e um alto número de instâncias associadas a conjuntos de rótulos menos frequentes, o que é conhecido como label skew.
Técnicas para reduzir a dimensionalidade vem sendo propostas na literatura para tratar desses problemas
Uma revisão sobre essas técnicas pode ser encontrada no artigo de
KASHEF, S.; NEZAMABADI-POUR, H.; NIKPOUR, B. Multilabel Feature Selection: A Comprehensive Review and Guiding Experiments. John Wiley & Sons, 2018
Por fim, a complexidade em identificar e explorar dependências e correlações entre rótulos é um dos desafios que tem chamado bastante a atenção dos pesquisadores em classificação multirrótulo
Estudos têm mostrado que o desempenho preditivo de classificadores multirrótulo pode ser melhorado explorando correlações entre rótulos, e várias abordagens têm sido propostas para este fim
A partir da modelagem das correlações, a predição de rótulos é facilitada, isto é, um rótulo pode ser predito corretamente devido à sua correlação com outros rótulos.
Para ilustrar como o aprendizado de correlações colabora para a melhoria das predições, considere a instância de teste apresentada na Figura 2.
Considere também que durante o treinamento foi encontrada uma forte correlação entre os rótulos montanha e praia.
Observa-se que na Figura 2 existe uma praia entre as montanhas, no entanto, o rótulo praia pode ser de difícil predição pois não é predominante na imagem.
O rótulo montanha no entanto, pode ser mais facilmente predito, pois predomina na imagem.
Ao se considerar a correlação entre montanha e praia, aumenta-se a chance do rótulo praia ser predito quando o rótulo montanha estiver presente na imagem.
Portanto, ao se aprender as correlações existentes entre os rótulos, estas podem ser utilizadas para predizer rótulos que provavelmente não seriam preditos utilizando métodos que não consideram tais correlações.
Não há uma taxonomia a respeito da modelagem das correlações entre rótulos definida na literatura, mas alguns autores propuseram algumas:
Huang 2012 propoe duas categorias: global e local
A correlação global assume que dois ou mais rótulos estão correlacionados se eles classificam todas as instâncias do conjunto
A correlação local considera que dois ou mais rótulos estão correlacionados se eles classificam um subconjunto de instâncias do conjunto
Zhang 2014 propoe três categorias
Na categoria de primeira ordem estão métodos que não consideram a modelagem das correlações
Na categoria de segunda ordem estão os métodos que modelam as correlações usando pares de rótulos
Na categoria de alta ordem estão os métodos que modelam as correlaçõe considerando todos os rótulos, ou um subconjunto de rótulos, do conjunto de treinamento
DEMBCZYNSKI 2012
A dependência condicional modela a probabilidade dos rótulos ocorrerem juntos ao capturar as dependências entre os rótulos dada uma instância específica
Já a dependencia incondicional modela a probabilidade de determinados rótulos ocorrerem juntos no conjunto de dados inteiro
Por fim, analisando essas propostas de categorização chegou-se à seguinte categorização neste trabalho:
Métodos que não modelam correlações
Métodos que modelam correlações entre pares de rótulos
Métodos que modelam correlações usando subconjuntos de rótulos
Métodos que modelam correlações usando todos os rótulos
Tradicionalmente, os métodos de classificação multirrótulo podem ser divididos em duas categorias principais: adaptação de algoritmo e transformação de problema.
Na abordagem de adaptação de algoritmo, novos algoritmos são desenvolvidos, ou algoritmos existentes são adaptados, para resolver o problema multirrótulo original. Esses algoritmos tratam todos os rótulos do problema ao mesmo tempo, e treinam apenas um único classificador multirrótulo. No entanto, informações locais, isto é, individuais de cada rótulo, que podem ser úteis para explorar diferentes padrões nos dados são ignoradas nesta abordagem. Árvores de decisão, algoritmos evolutivos, métodos probabilísticos, redes neurais artificiais e outros tipos de algoritmos podem ser adaptados para resolver o problema multirrótulo nesta abordagem.
Na abordagem de transformação de problema, os métodos transformam o problema multirrótulo em um conjunto de subproblemas binários ou multi-classe, onde qualquer algoritmo de classificação convencional pode ser usado. Neste caso é necessário treinar um classificador binário para cada um dos rótulos individualmente ou um classificador multi-classe para cada subproblema multi-classe. Apesar da flexibilidade destes métodos, treinar muitos classificadores pode resultar no uso de informações muito específicas, perda de informações e a não exploração das dependências entre rótulos durante o processo de treinamento.
Do ponto de vista do espaço de rótulos, pode-se dizer que a abordagem de adaptação de algoritmos é uma abordagem global, pois todos os rótulos são considerados ao mesmo tempo, enquanto que na abordagem de transformação de problemas, o espaço de rótulos pode ser particionado separando os rótulos e tratando-os individualmente, em pares ou em grupos.
Diante disto, pode-se dizer que a abordagem global gera partições globais e a abordagem local, partições locais.
Dentro da abordagem local, a grande maioria dos métodos geram partições considerando que os rótulos são tratados individualmente. Assim, neste trabalho, serão considerados métodos que geram partições locais aqueles que tratam os rótulos individualmente.
Com isso o conceito de partições é introduzido. Essas partições podem ser geradas ao se realizar o particionamento do espaço de rótulos.
A Figura 3 apresenta as partições aqui introduzidas, onde o quadrado representa a partição em si, o círculo representa um grupo de rótulos e o losango representa o rótulo propriamente dito
Considere $L1$, $L2$, $L3$, $L4$, $L5$, $L6$, $L7$ e $L8$ rótulos que compõem o espaço de rótulos de um conjunto de dados ilustrativo
A Figura 3a ilustra a partição global. Neste tipo de partição todos os rótulos estão juntos em um único círculo, isto é, um único grupo e portanto um único classificador multirrótulo é treinado
A Figura 3b ilustra a partição local. Neste tipo de partição cada rótulo está em um círculo diferente, portanto, cada rótulo é um grupo. Neste exemplo, oito classificadores binários são treinados.
Por fim, a Figura 3C ilusta a partição híbrida.
Trata-se de uma partição que está entre as partições global e local as quais não exploram a correlação entre sub-conjuntos de rótulos
Estas partições híbridas são obtidas ao se realizar o particionamento do espaço de rótulos explorando as correlações entre rótulos.
Cada partição híbrida gerada é composta por grupos de rótulos onde os rótulos correlacionados são agrupados juntos.
Portanto, diferentes grupos de rótulos com diferentes números de rótulos correlacionados podem ser obtidos e assim diferentes partições híbridas.
Para ilustrar o desafio de se encontrar uma partição híbrida adequada entre todas as possíveis partições de rótulos, o conceito do número de Bell pode ser utilizado
O número de Bell pode ser definido como o número de partições possíveis de um conjunto com n elementos consistindo de k conjuntos separados e não vazios
A Tabela 1 ilustra exemplos de número de Bell.
Para um conjunto com dois elementos, é possível encontrar duas partições, um composta por um único grupo e outra composta por dois grupos.
Para um conjunto com três elementos, cinco partições são encontradas.
Novamente aqui tem-se um grupo com todos os elementos, e um grupo com cada elemento separado, da mesma forma que as partições global e local.
É possível notar também que todas as combinações possíveis entre esses elementos foram consideradas para construção das partições.
Tomando como exemplo o espaço de rótulos apresentado na Figura 2, o número de possíveis partições seria de B8 = 21.147
Assim, para conjuntos de dados com espaços de rótulos de alta dimensão, torna-se muito mais desafiador encontrar uma partição híbrida adequada.
Partições híbridas são partições dos dados compostas por grupos de rótulos correlacionados, onde cada grupo de cada uma das partições híbridas pode conter um ou mais rótulos correlacionados
Para encontrar este tipo de partição nos conjuntos de dados multirrótulo é necessário usar uma estratégia que seja capaz de explorar as correlações entre os rótulos e então particionar o espaço de rótulos.
A estratégia para se encontrar as partições híbridas, e escolher uma entre elas, é ilustrada na Figura 4. De forma resumida:
A estratégia começa com o pré-processamento dos conjuntos de dados multirrótulo separando-os em conjuntos de treino, validação e teste;
Em seguda, as correlações são modeladas usando alguma técnica;
Após a modelagem das correlações, o espaço de rótulos é particionado e as partições híbridas são geradas;
De posse das partições híbridas, as mesmas são validadas e a melhor é escolhida para o teste;
Após o teste os resultados são analisados
Agora explicarei cada passo com um pouco mais de detalhes
O objetivo da modelagem das correlações entre rótulos é
As correlações entre rótulos podem ser modeladas usando diferentes métodos.
Nesta pesquisa, o que se pretende é modelar as correlações utilizando-se apenas o espaço de rótulos do conjunto de dados multirrótulo e não todo o espaço de atributos
O espaço de rótulos então poderá ser tratado como uma matriz
Vários métodos podem ser aplicados para modelar as correlações e a literatura neste tema é vasta.
A estratégia apresentada nesta pesquisa pode ser incluída nas categorias modelagem das correlações de alta ordem e modelagem de correlações global.
Não há escopo nesta pesquisa para apresentar todas as possíveis formas para modelar correlações, portanto, alguns métodos pesquisados, e que se encaixam nesta pesquisa, serão citados:
Regras de associação encontram relacionamentos ou padrões frequentes então o algoritmo Apriori seria capaz de minerar esses relacionamentos/padrões entre os rótulos, resultando num modelo de correlações
Medidas de similaridade também podem ser usadas. Neste caso, o espaço de rótulos deve ser submetido ao cálculo da medida de similaridade em questão, o que resultará em uma matriz de correlações
Também podem ser usados Métodos de detecção de comunidade que são capaz esde encontrar relações nos dados em diversas áreas de conhecimento, então esses podem ajudar a encontrar relações entre os rótulos, conforme ilustra a Figura 5
O mapa auto-organizável de Kohonen é uma rede neural artificial baseada em aprendizado competitivo onde os neurônios são posicionados em uma grade bidimensional e, após o aprendizado, forma-se um mapa topográfico dos padrões de entrada. A modelagem das correlações nesse caso ocorreria da seguinte forma: o espaço de rótulos é dado como entrada para o algoritmo o qual mapeia, para cada neurônio do mapa, instâncias com rótulos similares. Assim, cada neurônio, ou grupo de neurônios, poderá ser considerado um grupo de instâncias com base na similaridade dos rótulos. O mapa bidimensional resultante pode então ser particionado de forma a se obter as partições híbridas conforme mostra a Figura 6
Para realizar o particionamento do espaço de rótulos um método como o algoritmo de agrupamento hierárquico aglomerativo pode ser usado.
Esse algoritmo é capaz de construir grupos de rótulos correlacionados particionando recursivamente as correlações modeladas.
Os algoritmos de agrupamento hierárquicos são divididos em dois tipos: aglomerativos e divisivos.
No método aglomerativo, inicialmente cada rótulo está em um grupo separado e no último passo terminam todos juntos em único grupo
Já no método divisivo todos os rótulos inicialmente pertencem a um único grupo e vão sendo divididos em grupos até que no final se obtenha um grupo para cada rótulo
O resultado obtido por um algoritmo de agrupamento hierárquico é um dendrograma que representa o agrupamento aninhado dos rótulos e os níveis de similaridade onde ocorrem as junções dos grupos.
Para obter diferentes partições, é necessário realizar cortes neste dendrograma em diferentes níveis
A Figura 7 ilustra um dendrograma resultante do método de aglomeração para o conjunto de dados Flags que possui 7 rótulos.
Cortando o dendrograma em 7 níveis obtém-se as partições local, global e híbridas
As possíveis partições híbridas para o conjunto de dados flags são apresentadas na Figura 8
As partições começam com dois grupos e terminam com cinco grupos.
Como pode ser notado nas cinco partições, os grupos de rótulos são formados por rótulos correlacionados
Neste exemplo, o rótulo orange não tem correlação com nenhum outro rótulo, por isto ele está sempre em um grupo sozinho em todas as partições
Já os outros rótulos todos possuem correlação entre eles, mas conforme os cortes são realizados, os rótulos mais correlacionados são mantidos juntos, e os menos correlacionados vão sendo separados.
Há um detalhe a se considerar a respeito da geração das partições híbridas.
A depender do método a ser utilizado para modelar as correlações, as partições híbridas podem ser obtidas de forma direta ou indireta, conforme mostra a Figura 9
O espaço de rótulos na Figura 9a mostra que o resultado da aplicação do método é capaz de gerar as partições híbridas já com os respectivos grupos de rótulos correlacionados.
Na Figura 9b o método aplicado gera partições compostas por grupos de instâncias que tem rótulos correlacionados, as quais são representadas pelo triângulo verde.
Na Figura 9b os rótulos se repetirão nos grupos e uma restrição das partições híbridas é que os grupos sejam formados por rótulos correlacionados de forma que, um rótulo que pertença a um grupo, não pertença a outro grupo daquela partição
Considere a partição composta por quatro grupos apresentada na Figura 9b. A Figura 10 ilustra o que deve acontecer para se obter as partições híbridas dessa partição.
É possível observar na partição do meio na Figura 10 que os rótulos estão se repetindo em alguns grupos. O rótulo L1 aparece nos grupos 1, 2 e 3
O rótulo L2 está presente nos grupos 1, 2 e 4. O rótulo 3 se repete nos grupos 1, 2, 4 e 5. O rótulo 4 aparece em 1, 2 e 4 . O rótulo L5 está presente nos grups 1 e 3. O rótulo L6 aparece no grupo 3. O rótulo L7 aparece no grupou 3 e 4. Por fim, o rótulo L8 está presente nos grupos 3 e 4.
Esta partição deve ser submetida a um processo de seleção de rótulos, de forma que ao final, os grupos sejam formados por rótulos exclusivos. Esse processo resulta na terceira partição apresentada na Figura 10.
Essa partição poderá ter um número de grupos diferentes com relação à primeira, o qual pode ser maior ou menor.
Esse número se altera justamente pela restrição dos rótulos não se repetirem nos grupos.
Um forma simples para selecionar quais rótulos permanecerão em cada grupo pode ser feita a partir do cálculo do total de vezes que cada rótulo aparece em cada grupo.
Considere os valores ilustrativos apresentados na Tabela 2a.
Por exemplo, o rótulo L1 está presente em 3 dos 4 grupos.
De acordo com a Tabela 2a no grupo 1 o rótulo L1 aparece 20 vezes, enquanto que no grupo 2 ele aparece 10 vezes e no grupo 3 aparece 15 vezes.
Comparando os três grupos, o rótulo será alocado no grupo que tiver o maior valor.
Como o rótulo L1 aparece mais vezes no grupo 1 ele permanecerá neste grupo e será removido de todos os outros grupos da partição.
O resultado desta comparação é apresentado na Tabela 2b onde 0 indica que o rótulo não pertence àquele grupo, e X indica que o rótulo pertence ao grupo.
Neste exemplo não foi considerado empate nos valores, mas se houver algum, um critério de desempate também deverá ser definido.
Este é um método bem simplista, que pode inclusive desconsiderar correlações que podem vir a ser importantes.
Uma outra forma de selecionar os rótulos para cada grupo seria comparar as correlações encontradas em cada um dos grupos.
A Tabela 3 ilustra os rótulos correlacionados em cada um dos grupos da partição.
É possível observar que os rótulos L1, L2, L3 e L4 estão correlacionados e foram alocados nos grupos 1 e 2.
Além disso, no grupo G3 os rótulos L1 e L3 aparecem juntos, e no grupo 4 existe correlação entre os rótulos L2, L3 e L4
Pode-se concluir desta análise que estes quatro rótulos tem correlação entre eles e assim eles poderiam formar um grupo da partição.
O mesmo pode ser concluído com relação aos rótulos L5, L6, L7 e L8 que poderiam formar um segundo grupo.
Neste caso, a partição híbrida final seria composta por dois grupos de rótulos correlacionados, e não quatro como na partição original.
Desta forma respeita-se a restrição dos rótulos não se repetirem nos grupos e não se perde totalmente as correlações.
Nesta pesquisa, se algum método utilizado gerar partições deste tipo, pretende-se elaborar definições destes critérios a partir de estudos e experimentos.
No passp 3 da estratégia, as partições híbridas encontradas devem ser validadas e uma entre todas deve ser escolhida.
A validação pode ser feita treinando classificadores e analisando seus desempenhos em conjuntos de treino e validação, ou um critério de seleção pode ser criado, ou ainda um método existente pode ser aplicado como, por exemplo, o coeficiente da silhueta.
O coeficiente de silhueta pode ser usado pois é um método de validação de agrupamento que define a qualidade das partições baseada na proximidade entre, neste caso, os rótulos de um grupo particular e a distância entre esses rótulos e o grupo mais próximo.
Usando o coeficiente de silhueta, basta submeter as partições híbridas obtidas ao cálculo da função da silhueta, o que resultará em um coeficiente para cada uma.
Escolher a melhor partição híbrida nesse cenário é escolher o maior coeficiente entre todos, o que indica também que aquela partição tem a melhor qualidade entre todas as geradas.
Os métodos inicialmente escolhidos para investigação neste passo são a análise do desempenho dos classificadores induzidos nas partições híbridas, usando a medida de avaliação Macro F1, que reflete a média harmônica entre a precisão e a revocação, e o coeficiente da silhueta.
A ideia é que as duas formas de validação possam ser comparadas permitindo assim analisar qual delas contribuirá de forma mais significativa para a melhora do desempenho preditivo final.
Por fim, o passo 4 consiste em testar a partição híbrida selecionada.
Assim, a partição híbrida é submetida a classificadores e o seu desempenho é avaliado, comparando-a com o desempenho das partições local e global.
Conjuntos de dados multirrótulo podem ser encontrados em vários repositórios disponíveis na Internet. Os principais são:
Meka: uma biblioteca para problemas multirrótulo desenvolvida em Java que disponibiliza 26 conjuntos de dados multirrótulo
MULAN: Também é uma biblioteca desenvolvida em Java para problemas multirrótulo e é baseada na biblioteca Weka. Disponibiliza quatro conjuntos de dados multirrótulo
COMETA: um repositório online que disponibiliza 74 conjuntos de dados multirrótulo e podem ser baixados em formatos prontos para ser usados no Mulan, Meka, LibSVM, KEEL e MLDR. Disponibiliza também referências aos trabalhos que deram origem a cada conjunto de dados e outras informações.
As principais ferramentas a serem usadas para a realização deste projeto são a LinguagemR, o ambiente de desenvolvimento integrado Rstudio e o cluster da UFSCar
A Linguagem R e o Rstudio foram escolhidos para o desenvolvimento do código fonte referente à implementação da estratégia aqui apresentada por serem comumente usadas pela comunidade científica na resolução de problemas de aprendizado de máquina em geral.
Outro motivo é que R possui uma quantidade considerável de bibliotecas disponíveis para tratamento de dados, geração de gráficos, medidas de similaridade, redes neurais artificiais e principalmente bibliotecas específicas para resolução de problemas multirrótulo.
O código poderá ser implementado usando um laptop ou desktop, mas os experimentos deverão ser executados em um Cluster pois o mesmo possibilita a execução em paralelo usando 10-fold cross-validation
Recentemente a UFSCar disponibilizou um Cluster que possui centenas de processadores e algumas GPUs e que pode ser utilizado para as pesquisas na universidade.
Para analisar o desempenho preditivo da estratégia aqui proposta serão realizados experimentos usando alguns dos conjuntos de dados multirrótulo disponíveis no repositóri COMETA.
Os experimentos serão conduzidos usando o esquema de 10-fold cross validation
A plataforma R oferece as bibliotecas MLDR e UTIML que permitem utilizar 22 medidas de avaliação multirrótulo
Portanto, os experimentos serão avaliados usando essas medidas
Também serão utilizados testes estatísticos não paramétricos para verificar diferenças estatísticas entre os resultados gerados com as partições híbridas, locais e globais.
Para este fim foram selecionados o teste de Friedman e o pós teste de Nemenyi, dois testes tradicionais e muito utilizados em diversos trabalhos da área de aprendizado multirrótulo.
Espera-se que os resultados mostrem que as partições híbridas podem melhorar o desempenho preditivo dos classificadores de maneira significativa.
Também se espera que as partições híbridas superem o desempenho preditivo das tradicionais partições global e local, colaborando assim para a evolução do estado-da-arte em aprendizado multirrótulo.
O plano de trabalho e o cronograma das atividades a serem realizadas no decorrer da pesquisa é apresentado na Tabela 4
A pesquisa bibliográfica será realizada durante todo o período do doutorado, aprofundando e atualizando os estudos referentes à classificação multirrótulo, correlação entre rótulos e particionamento do espaço de rótulos;
Todas as disciplinas obrigatórias já foram cursadas em 2019;
Experimentos preliminares foram realizados ao longo do ano de 2020 e os resultados constam no apendice do texto do exame de qualificação
Redação do texto de qualificação: elaboração do texto do Exame de Qualificação com base nos estudos realizados e resultados preliminares;
Exame da Qualificação: realização da banca de exame de qualificação;
O desenvolvimento e implementação da proposta em linguagem R de acordo com a metodologia especificada ocorrerá no quinto, sexto e sétimo semestres;
A condução de experimentos ocorrerá no sexto e sétimo semestres. Serão verificados pontos fortes e fracos e necessidade de possíveis mudanças;
Os resultados serão analisados e validados no sexto e sétimo semestres.
A redação da tese relatando todo o desenvolvimento e descrevendo as metodologias envolvidas ocorrerá durante o quinto, sexto é sétimo semestres;
A defesa da tese ocorrerá no oitavo semestre
A publicação de artigos científicos ocorrerá ao longo de 2021 e 2022
O trabalho de Moyano apresenta um método baseado em algoritmo evolutivo que tem como objetivo gerar uma combinação de classificadores multirrótulo e escolher o classificador que obtiver o melhor desempenho preditivo. Os individuos encontrados pelo algoritmo podem ser considerados uma partição dos dados.
HUANG propôs um framework que explora correlações locais gerando grupos de instâncias com rótulos correlacionados. As correlações são modeladas usando um grafo de dependencia de rótulos e o k-means é usado para gerar os grupos. Uma partição dos dados é gerada para o conjunto todo.
O objetivo no trabalho apresentado por SZYMANSKI é avaliar como o particionamento do espaço de rótulos usando abordagens orientadas a dados pode melhorar o particionamento aleatório na classificação multirrótulo. Assim, eles obtiveram 250 partições aleatórias para cada dataset selecionado para o experimento e então construiram um grafo de co-ocorrência de rótulos para cada uma. Algoritmos de detecção de comunidades são então aplicados nesses grafos para particionar o espaço de rótulos. Cada comunidade pode ser considerada uma partição dos dados.
O algoritmo proposto por PAPANIKOLAY é uma versão aprimorada do HOMER o qual originalmente constrói uma hierarquia de classificadores multirrótulo com o objetivo de diminuir a alta dimensionalidade do espaço de rótulos e o desbalanceamento. O método HOMER gera uma árvore onde cada nó folha contem sub-conjuntos de rótulos similares. No entanto, a quantidade de nós quantidade de nós e rótulos dentro de cada nó é limitada pelo usuário. Isso gera partições com número fixo de grupos e rótulos dentro dos grupos.
O método apresentado por ABEYRATHNA particiona o espaço de rótulos em grupos de rótulos correlacionados. O método gera uma única partição híbrida para o conjunto de dados original. O algoritmo C3M foi adaptado para modelar as correlações entre os rótulos e o classificador LABEL POWERSET foi usado para treinar os grupos com mais de um rótulo e o BINARY RELEVANCE para grupos de rótulos únicos.
No trabalho apresentado por NIKOLOSKI a tarefa da classificação multirrótulo é abordada como uma tarefa de classificação hierárquica multi-rótulo. O método proposto primeiro ranqueia os atributos para cada um dos rótulos separadamente e em seguida constrói uma hierarquia de rótulos. Essa hierarquia é então usada para transformar o conjunto de dados multirrótulo plano em conjuntos de dados multirrótulo hierárquicos de treino e teste. Em seguida, o framework CLUS é usado para treinar e testar as hierarquias. Uma partição pode ser gerada para cada hierarquia construída.
Os trabalhos correlatos apresentam métodos variados para modelar as correlações e particionar o espaço de rótulos, os quais podem ser aproveitados nesta pesquisa.