Pré-Processamento de Dados & Comitês de Classificadores - Machine Learning

Pré Processamento de Dados
&
Comitês de Classificadores
João Helis Junior de Azevedo Bernardo
Universidade Federal do Rio Grande do Norte
Natal, 2015
João Helis Bernardo (UFRN) Aprendizagem de Máquina Natal, 2015 1 / 25

Sumário
1 Ferramentas utilizadas
2 Pré-Processamento de Dados
A base de Dados Covertype
Correla¸cão dos atributos da Base
Redu¸cão de dimensionalidade com base no grau de corre¸cão dos
atributos
Redu¸cão aleatória de dimensionalidade
Redu¸cão de dimensionalidade com PCA e LDA
Conclusão
3 Comitês de Classificadores
Conceitos Básicos
Análise do desempenho do Boosting
Análise do desempenho do Bagging
Conclusão
4 O porquê de se utilizar Python
5 Referências

Ferramentas utilizadas
5 Referˆencias

Ferramentas utilizadas para o pré-processamento de dados e para
cria¸cão Comitês de Classificadores:
weka Ferramenta para aprendizagem de máquina em Java
sklearn Ferramenta para minera¸cão e análise de dados em Python.
Numpy Pacote para computa¸cão cient´ıfica em python
matplotlib Plotagem de gráficos 2D multiplataforma

Pr´e-Processamento de Dados
5 Referˆencias

Pré-Processamento de Dados A base de Dados Covertype
A escolha da Base de Dados
Base de Dados utilizada
Covertype https://archive.ics.uci.edu/ml/datasets/Covertype
Detalhes da Base de Dados
Prevê o tipo de cobertura florestal a partir de variáveis cartográficas
Composta por 54 atributos não escalares
44 atributos categóricos
10 atributos numéricos
7 classes poss´ıveis
581012 instâncias

Conhecendo os Atributos
Attribute Name Tipo Métrica Qtd. Col
Elevation Quantitativo Métros 1
Aspect Quantitativo Métros 1
Slop Quantitativo Graus 1
Horizontal Distance to Hydrology Quantitativo Métros 1
Horizontal Distance to Roadways Quantitativo Métros 1
Hillshade 9am Quantitativo 0-255 1
Hillshade Noon Quantitativo 0-255 1
Hillshade 3pm Quantitativo 0-255 1
Horizontal Distance to Fire Points Quantitativo Métros 1
Wilderness Area Qualitativo 0 ou 1 4
Soil Type Qualitativo 0 ou 1 40
Cover Type Quantitativo Métros 1
Tabela : Descri¸cão dos atributos da Base Covertype

Medidas Descritivas dos Atributos da Base
Normaliza¸cão dos Dados
Atributos com maior variância na Base Covertype
Wilderness Area 1
Wilderness Area 3
Atributo com menor variância na Base Covertype
Soil Type 37
Attribute Name Med Var Std
Wilderness Area 1 0.45 0.25 0.5
Wilderness Area 3 0.44 0.25 0.5
Soil Type 29 0.20 0.16 0.4
... ... ... ...
Soil Type 37 0 0 0.02
Tabela : Medidas Descritivas dos Atributos da Base Covertype

Pré-Processamento de Dados Correla¸cão dos atributos da Base
Correla¸cão entre os atributos da Base de Dados
Prepara¸cão para o cálculo de correla¸cão:
Redu¸cão de Dimensionalidade e Balanceamento da Base de Dados
De 581012 para 4900 instâncias
700 instâncias para cada classe
Cálculo da correla¸cão para os atributos da base Covertype:
Com base na matriz de correla¸cão foi gerada uma lista ordenada de
todos os atributos da base, a partir do coeficiente de correla¸cão de
cada atributo
Os atributos mais correlacionados foram Elevation e Wilderness Area 4,
enquanto Soil Type 15 e Soil Type 8 foram os atributos com menor grau
de correla¸cão

Configurando os parâmetros do K-NN
Melhor k para o K-NN: 1
Figura : Acurácia do K-NN com varia¸cão do valor de K

Pré-Processamento de Dados Redu¸cão dos atributos mais correlacionados
Desempenho do K-NN com a elimina¸cão dos atributos mais correlacionados da Base
Acurácia do K-NN sem a remo¸cão de atributos: 75.6%
Figura : Acurácia do K-NN removendo os atributos mais correlacionados da Base

Pré-Processamento de Dados Redu¸cão aleatória de dimensionalidade
Desempenho do K-NN com a elimina¸cão aleatória de instâncias da Base de Dados
Acurácia do K-NN sem a remo¸cão de instâncias: 75.6%
Figura : Acurácia do K-NN removendo os atributos mais correlacionados da Base

Pré-Processamento de Dados Redu¸cão aleatória de dimensionalidade
Desempenho do K-NN com a elimina¸cão aleatória de atributos da Base de Dados
Estratégia de sele¸cão de atributos - Randômica
Melhor número de atributos: 38
Acurácia: 69.6%
Figura : Acurácia do K-NN removendo atributos da Base de forma Randômica

Pré-Processamento de Dados Redu¸cão de dimensionalidade com PCA e LDA
Desempenho do K-NN variando a quantidade de atributos com base no PCA
Estratégia de sele¸cão de atributos - PCA
Acurácia: 68.0%
Figura : Acurácia do K-NN variando a quantidade de atributos a partir do PCA

Pré-Processamento de Dados Redu¸cão de dimensionalidade com PCA e LDA
Desempenho do K-NN variando a quantidade de atributos com base no LDA
Estratégia de sele¸cão de atributos - LDA
Acurácia: 71.1%
Figura : Acurácia do K-NN variando a quantidade de atributos a partir do LDA

Pré-Processamento de Dados Conclusão
Conclusão
É importante normalizar os dados para extrair as suas medidas
descritivas
A remo¸cão dos atributos mais correlacionados influenciou
negativamente na acurácia do método de classifica¸cão utilizado
A redu¸cão de atributos de forma aleatória apresenta grande
probabilidade de degrada¸cão no desempenho do processo de
classifica¸cão
A redu¸cão de dimensionalidade através do LDA foi muito superior ao
PCA para o caso espec´ıfico da Base de Dados Covertype

5 Referˆencias

Comitês de Classificadores Conceitos Básicos
Conceitos Básicos
Motiva¸cão
Defini¸cão: Um comitê diz respeito a um conjunto de classificadores
individuais (também denominados classificadores bases) associados a
um método de combina¸cão que se responsabiliza em gerar a sa´ıda
final do sistema [4] [1] [5] [2] [3]
Métodos de Combina¸cão
Fusão
Sele¸cão
A importância da Diversidade
Estratégias de Aprendizagem
Bagging
Boosting
Stacking

Comitês de Classificadores Análise do desempenho do Boosting
Análise do desempenho do Boosting aplicado a base Covertype
Classificadores Individuais X Comitês de classificadores
Acurácia do classificador J48 individualmente: 75.44%
Acurácia do Classificador K-NN individualmente: 75.59%
Acurácia de Ensembles Boosting constru´ıdos com os métodos J48 e
K-NN, variando o número de itera¸cões
12 Iteractions 24 Iteractions 48 Iteractions
Boosting - J48 80.14% 81.14% 81.69%
Boosting - K-NN 75.59% 75.59% 75.59%
Tabela : Acurácia de comitês utilizando o Boosting

Comitês de Classificadores Análise do desempenho do Boosting
Análise do desempenho do Boosting aplicado a base Covertype
Acurácia do classificador J48 individualmente: 75.44%
Acurácia do Classificador K-NN individualmente: 75.59%
Figura : Acurácia de comitês utilizando o Boosting

Comitês de Classificadores Análise do desempenho do Bagging
Análise do desempenho do Bagging aplicado a base Covertype
Acurácia do classificador Árvore de Decisão individualmente:
75.44%
Acurácia de um Comitê de Arvores de Decisão utilizando o
Bagging como método de aprendizagem, e variando o número de
itera¸cões
12 Iteractions 24 Iteractions 48 Iteractions
Bagging - Decision Tree 79.12% 79.98% 80.42%
Tabela : Acurácia de um comitê utilizando o Bagging

Comitês de Classificadores Análise do desempenho do Bagging
Análise do desempenho do Bagging aplicado a base Covertype
Acurácia do classificador Árvore de Decisão individualmente:
75.44%
Figura : Acurácia de um comitê utilizando o Bagging

Comitês de Classificadores Conclusão
Conclusão
Comitês de classificadores são importantes ferramentas para
ambientes em que classificadores individuais não conseguem bom
desempenho
Para o problema espec´ıfico de classifica¸cão da base de dados
Covertype, os comitês de classificadores bagging e boosting obtiveram
melhor acurácia quê os métodos J48 e K-NN individualmente
O Boosting obteve um desepenho um pouco superiro ao Bagging
É importante verificar se o aumento do desempenho oriundo da
constru¸cão de um Comitê compensa o aumento da complexidade
introduzida ao sistema

O porquˆe de se utilizar Python
5 Referˆencias

O porquê de se utilizar Python
Utilizando python para cria¸cão de Ensembles
Por que utilizar python? Fácil, rápido e altamente intuitivo
Um exemplo prático: Plotando um gráfico da acurácia de um
Ensemble em python, utilizando as bibliotecas sklearn & matplotlib
dataset name = ” c o v e r t y p e r e d u c e d n o r m a l i z e d . csv ”
d a t a s e t = np . l o a d t x t ( open ( dataset name , ” rb ” ) , d e l i m i t e r=” , ” )
X = d a t a s e t [: ,: −1]
Y = d a t a s e t [: , −1]
n u m b e r s o f e s t i m a t o r s = [12 , 24 , 48]
r e s u l t s = [ ]
f o r n e s t i m a t o r s i n n u m b e r s o f e s t i m a t o r s :
bagging = B a g g i n g C l a s s i f i e r ( t r e e . D e c i s i o n T r e e C l a s s i f i e r () , n e s t i m a t o r s=n e s t i m a t o r s )
s c o r e s = c r o s s v a l s c o r e ( bagging , X, Y, cv =10)
accuracy = s c o r e s . mean ()
r e s u l t s . append ( accuracy )
p r i n t r e s u l t s
p l . t i t l e ( ” B a g g i n g C l a s s i f i e r − Base C l a s s i f i e r : DecisionTree ” )
p l . p l o t ( n u m b e r s o f e s t i m a t o r s , r e s u l t s , ’−o ’ )
p l . x l a b e l ( ’ Numbers of E st ima tor s ’ ) , p l . y l a b e l ( ’ Accuracy ’ )
p l . show ()

Referˆencias
5 Referˆencias

Referências
Referências
Thomas G Dietterich.
Ensemble methods in machine learning.
In Multiple classifier systems, pages 1–15. Springer, 2000.
Laura Emmanuella Alves dos Santos Santana.
Uma análise comparativa entre sistemas de combina¸cão de classificadores com distribui¸cão vertical dos dados.
Master’s thesis, Universidade Federal do Rio Grande do Norte, DIMAp, Natal, 2008.
Laura Emmanuella Alves dos Santos Santana.
Otimiza¸cão em comitês de classificadores: uma abordagem baseada em filtro para sele¸cão de subconjuntos de atributos.
PhD thesis, Universidade Federal do Rio Grande do Norte, DIMAp, Natal, 2012.
L´ıgia Maria Moura e Silva.
Sele¸cão de atributos em comitês de classificadores utilizando algoritmos genéticos.
Master’s thesis, Universidade Federal do Rio Grande do Norte, DIMAp, Natal, 2010.
Ludmila I Kuncheva.
Combining pattern classifiers: methods and algorithms.
John Wiley & Sons, 2004.

Pré-Processamento de Dados & Comitês de Classificadores - Machine Learning

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Pré-Processamento de Dados & Comitês de Classificadores - Machine Learning