SlideShare uma empresa Scribd logo
1 de 54
Baixar para ler offline
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
´Arvores de Decis˜ao
Prof. Dr. Leandro Balby Marinho
An´alise de Dados I
Prof. Leandro Balby Marinho 1 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Roteiro
1. Introdu¸c˜ao
2. Tipos de Parti¸c˜oes de Atributos
3. Indu¸c˜ao de ´Arvores de Decis˜ao
4. Florestas Aleat´orias
5. Avalia¸c˜ao de Classificadores
Prof. Leandro Balby Marinho 2 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Classifica¸c˜ao
Classifica¸c˜ao Bin´aria:
Tweet: Positivo/Negativo.
Email: Spam/N˜ao Spam.
Empr´estimo em Banco: Aprovado/N˜ao aprovado.
Tumor: Maligno/Benigno.
Classifica¸c˜ao Multiclasse:
Detec¸c˜ao de d´ıgitos manuscritos: {0, 1, 2, . . . , 9}.
Categoriza¸c˜ao de P´aginas Web: {pol´ıtica, esporte, . . .}.
Prof. Leandro Balby Marinho 2 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Aprendizagem de M´aquina para Classifica¸c˜ao
Exemplo: Aprova¸c˜ao de Cr´edito
Idade 23
Sexo Masculino
Sal´ario Anual R$60.000
Poupan¸ca R$10.000
Quantidade Pedida R$100.000
... ...
Aprovar cr´edito?
Prof. Leandro Balby Marinho 3 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Componentes da Aprendizagem
Entrada: x (Dados do requerente)
Sa´ıda: y (bom/mal cliente)
Fun¸c˜ao alvo: f : X → Y (fun¸c˜ao ideal de aprova¸c˜ao de cr´edito)
Dados de Treino: Dtrain
:= {(x1, y1), . . . , (xN , yN )} (registros
hist´oricos)
Hip´otese: g : X → Y
Prof. Leandro Balby Marinho 4 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Componentes da Aprendizagem [Yaser, 2012]
Prof. Leandro Balby Marinho 5 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Classificando com ´Arvores de Decis˜ao
Considere o problema de classificar um vertebrado como mam´ıfero ou n˜ao
mam´ıfero.
Nome Temperatura do Corpo Dar `a Luz Mam´ıfero
humano quente sim sim
baleia quente sim sim
salamandra frio n˜ao n˜ao
pombo quente n˜ao n˜ao
morcego quente sim sim
sapo frio n˜ao n˜ao
tubar˜ao-leopardo frio sim n˜ao
salm˜ao frio n˜ao n˜ao
Prof. Leandro Balby Marinho 6 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Classificando com ´Arvores de Decis˜ao
Prof. Leandro Balby Marinho 7 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
O que ´e uma ´Arvore de Decis˜ao?
Uma ´arvore de decis˜ao ´e uma ´arvore que:
Possui um n´o raiz.
Cada n´o interno tem uma regra que atribui instˆancias de
treino unicamente aos n´os filhos.
Cada n´o folha tem um r´otulo de classe.
Tipos de ´Arvore
´Arvore de Regress˜ao: n´os folha cont´em valores num´ericos.
´Arvores Probabil´ısticas: n´os folha cont´em probabilidades.
Prof. Leandro Balby Marinho 8 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
´Arvore de Decis˜ao como Regras de Decis˜ao
Temperatura do Corpo = fria → classe = nao
(Temperatura do Corpo = quente) ∧ (Dar `a Luz = sim) → classe = sim
(Temperatura do Corpo = quente) ∧ (Dar `a Luz = n˜ao) → classe = n˜ao
Prof. Leandro Balby Marinho 9 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Roteiro
1. Introdu¸c˜ao
2. Tipos de Parti¸c˜oes de Atributos
3. Indu¸c˜ao de ´Arvores de Decis˜ao
4. Florestas Aleat´orias
5. Avalia¸c˜ao de Classificadores
Prof. Leandro Balby Marinho 10 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Atributos Nominais
Se o atributo for bin´ario, o teste gera duas sa´ıdas poss´ıveis.
Se o atributo for multinomial: (i) h´a uma sa´ıda para cada valor do atributo,
ou os valores de atributos s˜ao combinados para gerar uma sa´ıda bin´aria.
Nesse caso h´a 2k−1
− 1 parti¸c˜oes poss´ıveis para k valores de atributos.
Prof. Leandro Balby Marinho 10 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Atributos Ordinais
A sa´ıda pode ser bin´aria ou multinomial, mas a ordem dos valores
deve ser preservada.
Prof. Leandro Balby Marinho 11 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Atributos Num´ericos
A sa´ıda pode ser bin´aria ou multinomial. Para sa´ıdas multinomiais
cada valor corresponde a um intervalo do tipo vi ≤ X < vi+1 onde
vi ∈ Dom(X) para i = 1, . . . , k.
Prof. Leandro Balby Marinho 12 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Roteiro
1. Introdu¸c˜ao
2. Tipos de Parti¸c˜oes de Atributos
3. Indu¸c˜ao de ´Arvores de Decis˜ao
4. Florestas Aleat´orias
5. Avalia¸c˜ao de Classificadores
Prof. Leandro Balby Marinho 13 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Formaliza¸c˜ao do Problema
Dado um conjunto de treino Dtrain, encontre uma ´arvore
g : X → Y
tal que para um conjunto de teste Dtest ⊆ X × Y (desconhecido
durante o treino), o erro de classifica¸c˜ao no teste
err(g; Dtest
) :=
1
|Dtest|
(x,y)∈Dtest
δ(g(x), y)
seja m´ınimo. δ(g(x), y) = 0 se g(x) = y e 1 caso contr´ario.
Prof. Leandro Balby Marinho 13 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Formaliza¸c˜ao do Problema
Como Dtest
´e desconhecido, procuramos a ´arvore que minimize o
erro de classifica¸c˜ao em Dtrain
.
Para isso, assume-se que a distribui¸c˜ao de instˆancias nas classes do
treino ≈ a distribui¸c˜ao de instˆancias nas classes do teste.
Uma abordagem for¸ca bruta ´e invi´avel pois o n´umero de ´arvores no
espa¸co de busca cresce exponencialmente com o n´umero de
atributos.
Prof. Leandro Balby Marinho 14 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Busca Gulosa
Sendo assim, uma busca gulosa ´e usada de forma que:
´Arvores s˜ao constru´ıdas a partir da raiz em uma sequˆencia de
passos at´e que a ´arvore final seja encontrada.
Em cado passo a escolha deve ser
1. ´otima localmente.
2. irrevog´avel.
Hip´otese: uma sequˆencia de sele¸c˜oes ´otimas localmente
levar˜ao a uma solu¸c˜ao ´otima global no final.
Prof. Leandro Balby Marinho 15 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Indu¸c˜ao de ´Arvores de Decis˜ao
Ideia: testar os atributos mais importantes primeiro.
Atributos importantes tem maior poder de classifica¸c˜ao.
Condi¸c˜ao de parada:
1. expandir um n´o at´e que (quase) todas as instˆancias possuam a
mesma classe, ou
2. nenhum dos atributos apresentem “ganho de informa¸c˜ao”.
3. n˜ao existam mais atributos para discriminar as instˆancias.
4. a ´arvore atingiu uma altura predefinida.
Prof. Leandro Balby Marinho 16 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2
Considere os dados do Exemplo 1 novamente com a adi¸c˜ao do atributo
bin´ario Pernas.
Tid Nome Temperatura do Corpo Pernas Dar `a Luz Mam´ıfero
1 humano quente sim sim sim
2 baleia quente n˜ao sim sim
3 salamandra frio sim n˜ao n˜ao
4 pombo quente sim n˜ao n˜ao
5 morcego quente sim sim sim
6 sapo frio sim n˜ao n˜ao
7 tubar˜ao-leopardo frio n˜ao sim n˜ao
8 salm˜ao frio sim n˜ao n˜ao
Prof. Leandro Balby Marinho 17 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: Sele¸c˜ao de Atributos
Qual atributo tem maior poder de classifica¸c˜ao?
Prof. Leandro Balby Marinho 18 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: Sele¸c˜ao de Atributos
Qual atributo tem maior poder de classifica¸c˜ao?
Para Temperatura do Corpo=fria e Dar `a Luz=n˜ao todas as instˆancias
s˜ao classificadas como N˜ao.
Prof. Leandro Balby Marinho 18 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: Sele¸c˜ao de Atributos
Repetimos o processo para as instˆancias onde Temperatura do Cor-
po=quente.
Prof. Leandro Balby Marinho 19 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: Sele¸c˜ao de Atributos
O processo termina quando todos os n´os folha possuem somente instˆancias
de uma mesma classe.
Prof. Leandro Balby Marinho 20 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Tratando Casos Especiais
Se algum dos n´os filho estiver vazio (i.e., nenhuma instˆancia
associada), o n´o ´e declarado folha com o r´otulo da classe
majorit´aria.
Se n˜ao houverem mais atributos, mas ainda existirem
exemplos positivos e negativos, o n´o ´e declarado folha com o
r´otulo da classe majorit´aria.
Prof. Leandro Balby Marinho 21 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Fronteira de Decis˜ao [Tan, 2007]
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
0.1
0.1
q
q
q
q
q
q
q
As fronteiras de decis˜ao s˜ao retil´ıneas.
Prof. Leandro Balby Marinho 22 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Medidas de Impureza de Atributos
As medidas mais usadas para a sele¸c˜ao de atributos s˜ao entropia,
coeficiente de Gini e erro de classifica¸c˜ao.
Seja p(y|t) a probabilidade condicional da classe y ∈ Y no n´o t. As
medidas s˜ao dadas abaixo:
Entropia(t) := −
y∈Y
p(y|t) log2 p(y|t)
Gini(t) := 1 −
y∈Y
p(y|t)2
Erro Class(t) := 1 − max
y∈Y
[p(y|t)]
Prof. Leandro Balby Marinho 23 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Medidas de Impureza para Classifica¸c˜ao Bin´aria
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
p
medida
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
p
medida
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
p
medida
Entropia
Gini
Erro de Classificacao
Prof. Leandro Balby Marinho 24 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 3
N´o N1 # Instˆancias
Classe=0 0
Classe=1 6
Gini = 1 − (0/6)2
− (6/6)2
= 0
Entropia = − (0/6) log2(0/6) − (6/6) log2(6/6) = 0
Erro Class = 1 − max[0/6, 6/6] = 0
Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 3
N´o N2 # Instˆancias
Classe=0 1
Classe=1 5
Gini = 1 − (1/6)2
− (5/6)2
= 0.278
Entropia = − (1/6) log2(1/6) − (5/6) log2(5/6) = 0.650
Erro Class = 1 − max[1/6, 5/6] = 0.167
Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 3
N´o N3 # Instˆancias
Classe=0 3
Classe=1 3
Gini = 1 − (3/6)2
− (3/6)2
= 0.5
Entropia = − (3/6) log2(3/6) − (3/6) log2(3/6) = 1
Erro Class = 1 − max[3/6, 3/6] = 0.5
Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Qualidade da Parti¸c˜ao de Atributos
Para medir a qualidade da parti¸c˜ao para um atributo x, comparamos os
graus de impureza da parti¸c˜ao anterior a x com os das parti¸c˜oes geradas
pelos valores de x. Quanto maior a diferen¸ca melhor.
Chamamos isso de ganho de informa¸c˜ao que ´e calculado como segue:
∆(x) = I(P1) −
k
j=1
N(Pj )
N
I(Pj )
onde I(.) ´e a medida de impureza de um dado n´o, N ´e o n´umero de
registros da parti¸c˜ao P1, k ´e o n´umero de valores do atributo e N(Pj ) ´e o
n´umero de registros associados ´a parti¸c˜ao Pj .
Prof. Leandro Balby Marinho 26 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2 Revisitado
Seja Dar `a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes da
parti¸c˜ao, a distribui¸c˜ao das classes ´e
p(y|t1) = p(y|t2) = p(y|t3) = (0.625, 0.375)
Prof. Leandro Balby Marinho 27 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2 Revisitado
Seja Dar `a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes da
parti¸c˜ao, a distribui¸c˜ao das classes ´e
p(y|t1) = p(y|t2) = p(y|t3) = (0.625, 0.375)
Gini(t1) = Gini(t2) = Gini(t3) = 1 − (0.625)2
− (0.375)2
= 0.468
Prof. Leandro Balby Marinho 27 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: C´alculo do Ganho (t1)
∆ = 0.468 − (
4
8
0.375 +
4
8
0) = 0.2805
Prof. Leandro Balby Marinho 28 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: C´alculo do Ganho (t2)
∆ = 0.468 − (
4
8
0.375 +
4
8
0) = 0.2805
Prof. Leandro Balby Marinho 29 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: C´alculo do Ganho (t3)
∆ = 0.468 − (
6
8
0.44 +
2
8
0.5) = 0.013
Prof. Leandro Balby Marinho 30 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: Chamada Recursiva no Atributo Escolhido
Antes da parti¸c˜ao, a distribui¸c˜ao das classes ´e P(c|t1) = P(c|t2) =
(0.25, 0.75).
Gini(t1) = Gini(t3) = 1 − (0.75)2
− (0.25)2
= 0.375
Prof. Leandro Balby Marinho 31 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: C´alculo do Ganho (t2 → t1)
∆ = 0.375 − (
3
4
0 +
1
4
0) = 0.375
Prof. Leandro Balby Marinho 32 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: C´alculo do Ganho (t2 → t3)
∆ = 0.375 − (
3
4
0.44 +
1
4
0) = 0.045
Prof. Leandro Balby Marinho 33 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Regulariza¸c˜ao (Pr´e-Poda)
Pare o algoritmo antes que a ´arvore esteja completa.
Outras condi¸c˜oes t´ıpicas de parada:
Pare se a expans˜ao do n´o corrente n˜ao melhora o ganho.
Pare quando o ganho n˜ao satisfizer um limiar pr´e-definido.
Pare se o n´umero de instˆancias for menor que um limiar
pr´e-definido.
Pare se o n´umero de n´os-folha for menor que um limiar
pr´e-definido.
Prof. Leandro Balby Marinho 34 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Regulariza¸c˜ao (P´os-Poda)
´Arvore cresce at´e o final.
N´os s˜ao podados de baixo para cima.
Por exemplo, substituir uma sub´arvore por um n´o-folha cuja
classifica¸c˜ao ´e feita pelo voto majorit´ario.
Prof. Leandro Balby Marinho 35 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Algoritmo DecisionTree [Lars, 2011]
DecisionTree(NodeT, Dtrain)
1 if stop criterion(Dtrain)
2 T.class = argmaxy∈Y p(y|t)
3 return
4 s = find best split(Dtrain)
5 T.split = s
6 for z ∈ Im(s)
7 cria no T
8 T.child[z] = T
9 DecisionTree(T , {(x, y) ∈ Dtrain | s(x) = z})
Prof. Leandro Balby Marinho 36 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Sum´ario
Modelo n˜ao param´etrico e de f´acil interpreta¸c˜ao.
Encontrar uma ´arvore de decis˜ao ´otima ´e um probema
NP-Completo, portanto as solu¸c˜oes s˜ao baseadas em
heur´ısticas.
Baixo custo de indu¸c˜ao predi¸c˜ao (O(w) onde w =altura da
´arvore).
´Arvores muito profundas tendem a sofrer overfitting.
S˜ao robustas contra ru´ıdo e overfitting, quando t´ecnicas de
regulariza¸c˜ao s˜ao usadas.
Prof. Leandro Balby Marinho 37 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Roteiro
1. Introdu¸c˜ao
2. Tipos de Parti¸c˜oes de Atributos
3. Indu¸c˜ao de ´Arvores de Decis˜ao
4. Florestas Aleat´orias
5. Avalia¸c˜ao de Classificadores
Prof. Leandro Balby Marinho 38 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Florestas Aleat´orias
Modelo estado-da-arte para classifica¸c˜ao e regress˜ao.
Constr´oi uma floresta de ´arvores de decis˜ao.
Cada ´arvore usa uma amostra aleat´oria dos dados de treino.
A classifica¸c˜ao ´e feita por meio da agrega¸c˜ao dos resultados
de cada ´arvore.
Florestas s˜ao robustas `a overfitting.
Prof. Leandro Balby Marinho 38 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Tree Bagging [Wikipedia, 2013]
Existem muitos algoritmos de florestas aleat´orias. Abaixo
descrevemos um dos mais simples.
Para b = 1, . . . , B (B =nr. de ´arvores):
1. Amostre n instˆancias aleat´orias de treino sem repeti¸c˜ao e
chame-as de Tb ∈ Dtrain
.
2. Treine uma ´arvore de decis˜ao gb para cada Tb.
Agora a predi¸c˜ao para algum x cuja classe ´e desconhecida ´e
feita por:
ˆg(x ) = argmax
y∈Y
B
b=1
δ ˆgb(x , y)
Ou seja, use o voto majorit´ario entre as ´arvores da floresta.
Prof. Leandro Balby Marinho 39 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Roteiro
1. Introdu¸c˜ao
2. Tipos de Parti¸c˜oes de Atributos
3. Indu¸c˜ao de ´Arvores de Decis˜ao
4. Florestas Aleat´orias
5. Avalia¸c˜ao de Classificadores
Prof. Leandro Balby Marinho 40 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Matriz de Confus˜ao
Avalia¸c˜ao do desempenho de classificadores ´e baseada na propor¸c˜ao
de instˆancias corretamente classificadas.
Esses valores podem ser extra´ıdos de uma tabela de confus˜ao.
PPPPPPPPPReal
Prevista
Classe=1 Classe=0
Classe=1 TP FN
Classe=0 FP TN
Onde TP e TN denotam o n´umero de instˆancias das classes 1 e 0
classificadas como 1 e 0 respectivamente, e FP e FN o contr´ario.
Prof. Leandro Balby Marinho 40 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
M´etricas de Avalia¸c˜ao
Acur´acia:
acc =
TP + TN
TN + FN + FP + TP
Taxa de erro:
err =
FP + FN
TN + FN + FP + TP
Recall (sensitivity):
recall =
TP
TP + FN
Precision:
precision =
TP
TP + FP
Prof. Leandro Balby Marinho 41 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
M´etodo Holdout
Os dados s˜ao particionados aleatoriamente em dois conjuntos
disjuntos chamados treino e teste (e.g. 2/3 para treino e 1/3 para
teste).
O classificador ´e induzido no treino e avaliado no teste.
O m´etodo pode ser repetido v´arias vezes para melhorar a
confiabilidade das predi¸c˜oes (random subsampling).
Nesse caso, a acur´acia ´e dada por:
acc =
1
S
k
i=1
acci
onde S ´e o n´umero de parti¸c˜oes treino-teste geradas e acci a
acur´acia na parti¸c˜ao i.
Prof. Leandro Balby Marinho 42 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Valida¸c˜ao Cruzada
Cada instˆancia ´e usada exatamente uma vez para treino e
uma vez para teste.
No caso de uma parti¸c˜ao (1/2, 1/2) dos dados,
1. A primeira parte ´e usada para treino e a segunda para teste.
2. A segunda parte ´e usada para treino e a segunda para teste.
Essa ideia pode ser generalizada para k parti¸c˜oes de igual
tamanho.
Em cada execu¸c˜ao, k − 1 parti¸c˜oes s˜ao usadas para treino e
uma para teste.
O procedimento ´e repetido k vezes e a m´edia da acur´acia
calculada.
Prof. Leandro Balby Marinho 43 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Valida¸c˜ao Cruzada 5-fold
Prof. Leandro Balby Marinho 44 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Referˆencias
Larry Wasserman. All of Statistics: A Concise Course in Statistical
Inference. Springer, 2003.
Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to
Data Minig. Primeira Edi¸c˜ao. Addison Wesley, 2006.
Lars Schmidt-Thieme. Notas de aula em aprendizagem de m´aquina.
Dispon´ıvel em: http://www.ismll.uni-hildesheim.de/lehre/
ml-11w/index_en.html
Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin.
Learning from Data. Primeira Edi¸c˜ao. AMLBook, 2012.
“Random Forests.” Wikipedia. Wikimedia Foundation Inc.. Jan, 1st,
2015. http://en.wikipedia.org/wiki/Random_forest .
Prof. Leandro Balby Marinho 45 / 45 UFCG DSC

Mais conteúdo relacionado

Destaque

Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetriaEnio José Bolognini
 
1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cdUNIP - Universidade Paulista
 
Análise de Dados de Saída
Análise de Dados de SaídaAnálise de Dados de Saída
Análise de Dados de SaídaSimulação
 
Fases do trabalho estatístico
Fases do trabalho estatísticoFases do trabalho estatístico
Fases do trabalho estatísticoJosimar Nunes
 
Estatistica aula 02
Estatistica aula 02Estatistica aula 02
Estatistica aula 02pso2510
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoAntonio Mankumbani Chora
 
Estatística aplicada
Estatística aplicadaEstatística aplicada
Estatística aplicadaTiago Tomas
 
Estatística aplicada à gestão empresarial
Estatística aplicada à gestão empresarialEstatística aplicada à gestão empresarial
Estatística aplicada à gestão empresarialAdriano Bruni
 

Destaque (11)

Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetria
 
1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd
 
664 2639-1-pb
664 2639-1-pb664 2639-1-pb
664 2639-1-pb
 
Análise de Dados de Saída
Análise de Dados de SaídaAnálise de Dados de Saída
Análise de Dados de Saída
 
Fases do trabalho estatístico
Fases do trabalho estatísticoFases do trabalho estatístico
Fases do trabalho estatístico
 
Estatistica aula 02
Estatistica aula 02Estatistica aula 02
Estatistica aula 02
 
Árvores de Decisão
Árvores de Decisão Árvores de Decisão
Árvores de Decisão
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 
Estatística aplicada
Estatística aplicadaEstatística aplicada
Estatística aplicada
 
Slides de estatística aplicada
Slides de estatística aplicadaSlides de estatística aplicada
Slides de estatística aplicada
 
Estatística aplicada à gestão empresarial
Estatística aplicada à gestão empresarialEstatística aplicada à gestão empresarial
Estatística aplicada à gestão empresarial
 

Último

ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresLilianPiola
 
Slides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSlides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSilvana Silva
 
E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?Rosalina Simão Nunes
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditaduraAdryan Luiz
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesMary Alvarenga
 
Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinhaMary Alvarenga
 
ANTIGUIDADE CLÁSSICA - Grécia e Roma Antiga
ANTIGUIDADE CLÁSSICA - Grécia e Roma AntigaANTIGUIDADE CLÁSSICA - Grécia e Roma Antiga
ANTIGUIDADE CLÁSSICA - Grécia e Roma AntigaJúlio Sandes
 
Pedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptxPedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptxleandropereira983288
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniCassio Meira Jr.
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBAline Santana
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasCassio Meira Jr.
 
Universidade Empreendedora como uma Plataforma para o Bem comum
Universidade Empreendedora como uma Plataforma para o Bem comumUniversidade Empreendedora como uma Plataforma para o Bem comum
Universidade Empreendedora como uma Plataforma para o Bem comumPatrícia de Sá Freire, PhD. Eng.
 
Manual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManuais Formação
 
Bullying - Atividade com caça- palavras
Bullying   - Atividade com  caça- palavrasBullying   - Atividade com  caça- palavras
Bullying - Atividade com caça- palavrasMary Alvarenga
 
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxAD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxkarinedarozabatista
 
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicasCenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicasRosalina Simão Nunes
 
Orações subordinadas substantivas (andamento).pptx
Orações subordinadas substantivas (andamento).pptxOrações subordinadas substantivas (andamento).pptx
Orações subordinadas substantivas (andamento).pptxKtiaOliveira68
 

Último (20)

Bullying, sai pra lá
Bullying,  sai pra láBullying,  sai pra lá
Bullying, sai pra lá
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
 
Slides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSlides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptx
 
E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditadura
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das Mães
 
Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinha
 
ANTIGUIDADE CLÁSSICA - Grécia e Roma Antiga
ANTIGUIDADE CLÁSSICA - Grécia e Roma AntigaANTIGUIDADE CLÁSSICA - Grécia e Roma Antiga
ANTIGUIDADE CLÁSSICA - Grécia e Roma Antiga
 
Pedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptxPedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptx
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
 
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA -
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA      -XI OLIMPÍADAS DA LÍNGUA PORTUGUESA      -
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA -
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e Específicas
 
Universidade Empreendedora como uma Plataforma para o Bem comum
Universidade Empreendedora como uma Plataforma para o Bem comumUniversidade Empreendedora como uma Plataforma para o Bem comum
Universidade Empreendedora como uma Plataforma para o Bem comum
 
Manual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envio
 
Bullying - Atividade com caça- palavras
Bullying   - Atividade com  caça- palavrasBullying   - Atividade com  caça- palavras
Bullying - Atividade com caça- palavras
 
Em tempo de Quaresma .
Em tempo de Quaresma                            .Em tempo de Quaresma                            .
Em tempo de Quaresma .
 
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxAD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
 
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicasCenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
 
Orações subordinadas substantivas (andamento).pptx
Orações subordinadas substantivas (andamento).pptxOrações subordinadas substantivas (andamento).pptx
Orações subordinadas substantivas (andamento).pptx
 

Classificação de Vertebrados com Árvores de Decisão

  • 1. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores ´Arvores de Decis˜ao Prof. Dr. Leandro Balby Marinho An´alise de Dados I Prof. Leandro Balby Marinho 1 / 45 UFCG DSC
  • 2. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Roteiro 1. Introdu¸c˜ao 2. Tipos de Parti¸c˜oes de Atributos 3. Indu¸c˜ao de ´Arvores de Decis˜ao 4. Florestas Aleat´orias 5. Avalia¸c˜ao de Classificadores Prof. Leandro Balby Marinho 2 / 45 UFCG DSC
  • 3. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Classifica¸c˜ao Classifica¸c˜ao Bin´aria: Tweet: Positivo/Negativo. Email: Spam/N˜ao Spam. Empr´estimo em Banco: Aprovado/N˜ao aprovado. Tumor: Maligno/Benigno. Classifica¸c˜ao Multiclasse: Detec¸c˜ao de d´ıgitos manuscritos: {0, 1, 2, . . . , 9}. Categoriza¸c˜ao de P´aginas Web: {pol´ıtica, esporte, . . .}. Prof. Leandro Balby Marinho 2 / 45 UFCG DSC
  • 4. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Aprendizagem de M´aquina para Classifica¸c˜ao Exemplo: Aprova¸c˜ao de Cr´edito Idade 23 Sexo Masculino Sal´ario Anual R$60.000 Poupan¸ca R$10.000 Quantidade Pedida R$100.000 ... ... Aprovar cr´edito? Prof. Leandro Balby Marinho 3 / 45 UFCG DSC
  • 5. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Componentes da Aprendizagem Entrada: x (Dados do requerente) Sa´ıda: y (bom/mal cliente) Fun¸c˜ao alvo: f : X → Y (fun¸c˜ao ideal de aprova¸c˜ao de cr´edito) Dados de Treino: Dtrain := {(x1, y1), . . . , (xN , yN )} (registros hist´oricos) Hip´otese: g : X → Y Prof. Leandro Balby Marinho 4 / 45 UFCG DSC
  • 6. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Componentes da Aprendizagem [Yaser, 2012] Prof. Leandro Balby Marinho 5 / 45 UFCG DSC
  • 7. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Classificando com ´Arvores de Decis˜ao Considere o problema de classificar um vertebrado como mam´ıfero ou n˜ao mam´ıfero. Nome Temperatura do Corpo Dar `a Luz Mam´ıfero humano quente sim sim baleia quente sim sim salamandra frio n˜ao n˜ao pombo quente n˜ao n˜ao morcego quente sim sim sapo frio n˜ao n˜ao tubar˜ao-leopardo frio sim n˜ao salm˜ao frio n˜ao n˜ao Prof. Leandro Balby Marinho 6 / 45 UFCG DSC
  • 8. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Classificando com ´Arvores de Decis˜ao Prof. Leandro Balby Marinho 7 / 45 UFCG DSC
  • 9. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores O que ´e uma ´Arvore de Decis˜ao? Uma ´arvore de decis˜ao ´e uma ´arvore que: Possui um n´o raiz. Cada n´o interno tem uma regra que atribui instˆancias de treino unicamente aos n´os filhos. Cada n´o folha tem um r´otulo de classe. Tipos de ´Arvore ´Arvore de Regress˜ao: n´os folha cont´em valores num´ericos. ´Arvores Probabil´ısticas: n´os folha cont´em probabilidades. Prof. Leandro Balby Marinho 8 / 45 UFCG DSC
  • 10. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores ´Arvore de Decis˜ao como Regras de Decis˜ao Temperatura do Corpo = fria → classe = nao (Temperatura do Corpo = quente) ∧ (Dar `a Luz = sim) → classe = sim (Temperatura do Corpo = quente) ∧ (Dar `a Luz = n˜ao) → classe = n˜ao Prof. Leandro Balby Marinho 9 / 45 UFCG DSC
  • 11. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Roteiro 1. Introdu¸c˜ao 2. Tipos de Parti¸c˜oes de Atributos 3. Indu¸c˜ao de ´Arvores de Decis˜ao 4. Florestas Aleat´orias 5. Avalia¸c˜ao de Classificadores Prof. Leandro Balby Marinho 10 / 45 UFCG DSC
  • 12. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Atributos Nominais Se o atributo for bin´ario, o teste gera duas sa´ıdas poss´ıveis. Se o atributo for multinomial: (i) h´a uma sa´ıda para cada valor do atributo, ou os valores de atributos s˜ao combinados para gerar uma sa´ıda bin´aria. Nesse caso h´a 2k−1 − 1 parti¸c˜oes poss´ıveis para k valores de atributos. Prof. Leandro Balby Marinho 10 / 45 UFCG DSC
  • 13. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Atributos Ordinais A sa´ıda pode ser bin´aria ou multinomial, mas a ordem dos valores deve ser preservada. Prof. Leandro Balby Marinho 11 / 45 UFCG DSC
  • 14. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Atributos Num´ericos A sa´ıda pode ser bin´aria ou multinomial. Para sa´ıdas multinomiais cada valor corresponde a um intervalo do tipo vi ≤ X < vi+1 onde vi ∈ Dom(X) para i = 1, . . . , k. Prof. Leandro Balby Marinho 12 / 45 UFCG DSC
  • 15. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Roteiro 1. Introdu¸c˜ao 2. Tipos de Parti¸c˜oes de Atributos 3. Indu¸c˜ao de ´Arvores de Decis˜ao 4. Florestas Aleat´orias 5. Avalia¸c˜ao de Classificadores Prof. Leandro Balby Marinho 13 / 45 UFCG DSC
  • 16. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Formaliza¸c˜ao do Problema Dado um conjunto de treino Dtrain, encontre uma ´arvore g : X → Y tal que para um conjunto de teste Dtest ⊆ X × Y (desconhecido durante o treino), o erro de classifica¸c˜ao no teste err(g; Dtest ) := 1 |Dtest| (x,y)∈Dtest δ(g(x), y) seja m´ınimo. δ(g(x), y) = 0 se g(x) = y e 1 caso contr´ario. Prof. Leandro Balby Marinho 13 / 45 UFCG DSC
  • 17. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Formaliza¸c˜ao do Problema Como Dtest ´e desconhecido, procuramos a ´arvore que minimize o erro de classifica¸c˜ao em Dtrain . Para isso, assume-se que a distribui¸c˜ao de instˆancias nas classes do treino ≈ a distribui¸c˜ao de instˆancias nas classes do teste. Uma abordagem for¸ca bruta ´e invi´avel pois o n´umero de ´arvores no espa¸co de busca cresce exponencialmente com o n´umero de atributos. Prof. Leandro Balby Marinho 14 / 45 UFCG DSC
  • 18. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Busca Gulosa Sendo assim, uma busca gulosa ´e usada de forma que: ´Arvores s˜ao constru´ıdas a partir da raiz em uma sequˆencia de passos at´e que a ´arvore final seja encontrada. Em cado passo a escolha deve ser 1. ´otima localmente. 2. irrevog´avel. Hip´otese: uma sequˆencia de sele¸c˜oes ´otimas localmente levar˜ao a uma solu¸c˜ao ´otima global no final. Prof. Leandro Balby Marinho 15 / 45 UFCG DSC
  • 19. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Indu¸c˜ao de ´Arvores de Decis˜ao Ideia: testar os atributos mais importantes primeiro. Atributos importantes tem maior poder de classifica¸c˜ao. Condi¸c˜ao de parada: 1. expandir um n´o at´e que (quase) todas as instˆancias possuam a mesma classe, ou 2. nenhum dos atributos apresentem “ganho de informa¸c˜ao”. 3. n˜ao existam mais atributos para discriminar as instˆancias. 4. a ´arvore atingiu uma altura predefinida. Prof. Leandro Balby Marinho 16 / 45 UFCG DSC
  • 20. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2 Considere os dados do Exemplo 1 novamente com a adi¸c˜ao do atributo bin´ario Pernas. Tid Nome Temperatura do Corpo Pernas Dar `a Luz Mam´ıfero 1 humano quente sim sim sim 2 baleia quente n˜ao sim sim 3 salamandra frio sim n˜ao n˜ao 4 pombo quente sim n˜ao n˜ao 5 morcego quente sim sim sim 6 sapo frio sim n˜ao n˜ao 7 tubar˜ao-leopardo frio n˜ao sim n˜ao 8 salm˜ao frio sim n˜ao n˜ao Prof. Leandro Balby Marinho 17 / 45 UFCG DSC
  • 21. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: Sele¸c˜ao de Atributos Qual atributo tem maior poder de classifica¸c˜ao? Prof. Leandro Balby Marinho 18 / 45 UFCG DSC
  • 22. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: Sele¸c˜ao de Atributos Qual atributo tem maior poder de classifica¸c˜ao? Para Temperatura do Corpo=fria e Dar `a Luz=n˜ao todas as instˆancias s˜ao classificadas como N˜ao. Prof. Leandro Balby Marinho 18 / 45 UFCG DSC
  • 23. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: Sele¸c˜ao de Atributos Repetimos o processo para as instˆancias onde Temperatura do Cor- po=quente. Prof. Leandro Balby Marinho 19 / 45 UFCG DSC
  • 24. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: Sele¸c˜ao de Atributos O processo termina quando todos os n´os folha possuem somente instˆancias de uma mesma classe. Prof. Leandro Balby Marinho 20 / 45 UFCG DSC
  • 25. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Tratando Casos Especiais Se algum dos n´os filho estiver vazio (i.e., nenhuma instˆancia associada), o n´o ´e declarado folha com o r´otulo da classe majorit´aria. Se n˜ao houverem mais atributos, mas ainda existirem exemplos positivos e negativos, o n´o ´e declarado folha com o r´otulo da classe majorit´aria. Prof. Leandro Balby Marinho 21 / 45 UFCG DSC
  • 26. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Fronteira de Decis˜ao [Tan, 2007] 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 0.1 0.1 q q q q q q q As fronteiras de decis˜ao s˜ao retil´ıneas. Prof. Leandro Balby Marinho 22 / 45 UFCG DSC
  • 27. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Medidas de Impureza de Atributos As medidas mais usadas para a sele¸c˜ao de atributos s˜ao entropia, coeficiente de Gini e erro de classifica¸c˜ao. Seja p(y|t) a probabilidade condicional da classe y ∈ Y no n´o t. As medidas s˜ao dadas abaixo: Entropia(t) := − y∈Y p(y|t) log2 p(y|t) Gini(t) := 1 − y∈Y p(y|t)2 Erro Class(t) := 1 − max y∈Y [p(y|t)] Prof. Leandro Balby Marinho 23 / 45 UFCG DSC
  • 28. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Medidas de Impureza para Classifica¸c˜ao Bin´aria 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 p medida 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 p medida 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 p medida Entropia Gini Erro de Classificacao Prof. Leandro Balby Marinho 24 / 45 UFCG DSC
  • 29. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 3 N´o N1 # Instˆancias Classe=0 0 Classe=1 6 Gini = 1 − (0/6)2 − (6/6)2 = 0 Entropia = − (0/6) log2(0/6) − (6/6) log2(6/6) = 0 Erro Class = 1 − max[0/6, 6/6] = 0 Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
  • 30. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 3 N´o N2 # Instˆancias Classe=0 1 Classe=1 5 Gini = 1 − (1/6)2 − (5/6)2 = 0.278 Entropia = − (1/6) log2(1/6) − (5/6) log2(5/6) = 0.650 Erro Class = 1 − max[1/6, 5/6] = 0.167 Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
  • 31. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 3 N´o N3 # Instˆancias Classe=0 3 Classe=1 3 Gini = 1 − (3/6)2 − (3/6)2 = 0.5 Entropia = − (3/6) log2(3/6) − (3/6) log2(3/6) = 1 Erro Class = 1 − max[3/6, 3/6] = 0.5 Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
  • 32. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Qualidade da Parti¸c˜ao de Atributos Para medir a qualidade da parti¸c˜ao para um atributo x, comparamos os graus de impureza da parti¸c˜ao anterior a x com os das parti¸c˜oes geradas pelos valores de x. Quanto maior a diferen¸ca melhor. Chamamos isso de ganho de informa¸c˜ao que ´e calculado como segue: ∆(x) = I(P1) − k j=1 N(Pj ) N I(Pj ) onde I(.) ´e a medida de impureza de um dado n´o, N ´e o n´umero de registros da parti¸c˜ao P1, k ´e o n´umero de valores do atributo e N(Pj ) ´e o n´umero de registros associados ´a parti¸c˜ao Pj . Prof. Leandro Balby Marinho 26 / 45 UFCG DSC
  • 33. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2 Revisitado Seja Dar `a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes da parti¸c˜ao, a distribui¸c˜ao das classes ´e p(y|t1) = p(y|t2) = p(y|t3) = (0.625, 0.375) Prof. Leandro Balby Marinho 27 / 45 UFCG DSC
  • 34. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2 Revisitado Seja Dar `a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes da parti¸c˜ao, a distribui¸c˜ao das classes ´e p(y|t1) = p(y|t2) = p(y|t3) = (0.625, 0.375) Gini(t1) = Gini(t2) = Gini(t3) = 1 − (0.625)2 − (0.375)2 = 0.468 Prof. Leandro Balby Marinho 27 / 45 UFCG DSC
  • 35. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: C´alculo do Ganho (t1) ∆ = 0.468 − ( 4 8 0.375 + 4 8 0) = 0.2805 Prof. Leandro Balby Marinho 28 / 45 UFCG DSC
  • 36. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: C´alculo do Ganho (t2) ∆ = 0.468 − ( 4 8 0.375 + 4 8 0) = 0.2805 Prof. Leandro Balby Marinho 29 / 45 UFCG DSC
  • 37. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: C´alculo do Ganho (t3) ∆ = 0.468 − ( 6 8 0.44 + 2 8 0.5) = 0.013 Prof. Leandro Balby Marinho 30 / 45 UFCG DSC
  • 38. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: Chamada Recursiva no Atributo Escolhido Antes da parti¸c˜ao, a distribui¸c˜ao das classes ´e P(c|t1) = P(c|t2) = (0.25, 0.75). Gini(t1) = Gini(t3) = 1 − (0.75)2 − (0.25)2 = 0.375 Prof. Leandro Balby Marinho 31 / 45 UFCG DSC
  • 39. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: C´alculo do Ganho (t2 → t1) ∆ = 0.375 − ( 3 4 0 + 1 4 0) = 0.375 Prof. Leandro Balby Marinho 32 / 45 UFCG DSC
  • 40. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: C´alculo do Ganho (t2 → t3) ∆ = 0.375 − ( 3 4 0.44 + 1 4 0) = 0.045 Prof. Leandro Balby Marinho 33 / 45 UFCG DSC
  • 41. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Regulariza¸c˜ao (Pr´e-Poda) Pare o algoritmo antes que a ´arvore esteja completa. Outras condi¸c˜oes t´ıpicas de parada: Pare se a expans˜ao do n´o corrente n˜ao melhora o ganho. Pare quando o ganho n˜ao satisfizer um limiar pr´e-definido. Pare se o n´umero de instˆancias for menor que um limiar pr´e-definido. Pare se o n´umero de n´os-folha for menor que um limiar pr´e-definido. Prof. Leandro Balby Marinho 34 / 45 UFCG DSC
  • 42. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Regulariza¸c˜ao (P´os-Poda) ´Arvore cresce at´e o final. N´os s˜ao podados de baixo para cima. Por exemplo, substituir uma sub´arvore por um n´o-folha cuja classifica¸c˜ao ´e feita pelo voto majorit´ario. Prof. Leandro Balby Marinho 35 / 45 UFCG DSC
  • 43. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Algoritmo DecisionTree [Lars, 2011] DecisionTree(NodeT, Dtrain) 1 if stop criterion(Dtrain) 2 T.class = argmaxy∈Y p(y|t) 3 return 4 s = find best split(Dtrain) 5 T.split = s 6 for z ∈ Im(s) 7 cria no T 8 T.child[z] = T 9 DecisionTree(T , {(x, y) ∈ Dtrain | s(x) = z}) Prof. Leandro Balby Marinho 36 / 45 UFCG DSC
  • 44. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Sum´ario Modelo n˜ao param´etrico e de f´acil interpreta¸c˜ao. Encontrar uma ´arvore de decis˜ao ´otima ´e um probema NP-Completo, portanto as solu¸c˜oes s˜ao baseadas em heur´ısticas. Baixo custo de indu¸c˜ao predi¸c˜ao (O(w) onde w =altura da ´arvore). ´Arvores muito profundas tendem a sofrer overfitting. S˜ao robustas contra ru´ıdo e overfitting, quando t´ecnicas de regulariza¸c˜ao s˜ao usadas. Prof. Leandro Balby Marinho 37 / 45 UFCG DSC
  • 45. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Roteiro 1. Introdu¸c˜ao 2. Tipos de Parti¸c˜oes de Atributos 3. Indu¸c˜ao de ´Arvores de Decis˜ao 4. Florestas Aleat´orias 5. Avalia¸c˜ao de Classificadores Prof. Leandro Balby Marinho 38 / 45 UFCG DSC
  • 46. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Florestas Aleat´orias Modelo estado-da-arte para classifica¸c˜ao e regress˜ao. Constr´oi uma floresta de ´arvores de decis˜ao. Cada ´arvore usa uma amostra aleat´oria dos dados de treino. A classifica¸c˜ao ´e feita por meio da agrega¸c˜ao dos resultados de cada ´arvore. Florestas s˜ao robustas `a overfitting. Prof. Leandro Balby Marinho 38 / 45 UFCG DSC
  • 47. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Tree Bagging [Wikipedia, 2013] Existem muitos algoritmos de florestas aleat´orias. Abaixo descrevemos um dos mais simples. Para b = 1, . . . , B (B =nr. de ´arvores): 1. Amostre n instˆancias aleat´orias de treino sem repeti¸c˜ao e chame-as de Tb ∈ Dtrain . 2. Treine uma ´arvore de decis˜ao gb para cada Tb. Agora a predi¸c˜ao para algum x cuja classe ´e desconhecida ´e feita por: ˆg(x ) = argmax y∈Y B b=1 δ ˆgb(x , y) Ou seja, use o voto majorit´ario entre as ´arvores da floresta. Prof. Leandro Balby Marinho 39 / 45 UFCG DSC
  • 48. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Roteiro 1. Introdu¸c˜ao 2. Tipos de Parti¸c˜oes de Atributos 3. Indu¸c˜ao de ´Arvores de Decis˜ao 4. Florestas Aleat´orias 5. Avalia¸c˜ao de Classificadores Prof. Leandro Balby Marinho 40 / 45 UFCG DSC
  • 49. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Matriz de Confus˜ao Avalia¸c˜ao do desempenho de classificadores ´e baseada na propor¸c˜ao de instˆancias corretamente classificadas. Esses valores podem ser extra´ıdos de uma tabela de confus˜ao. PPPPPPPPPReal Prevista Classe=1 Classe=0 Classe=1 TP FN Classe=0 FP TN Onde TP e TN denotam o n´umero de instˆancias das classes 1 e 0 classificadas como 1 e 0 respectivamente, e FP e FN o contr´ario. Prof. Leandro Balby Marinho 40 / 45 UFCG DSC
  • 50. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores M´etricas de Avalia¸c˜ao Acur´acia: acc = TP + TN TN + FN + FP + TP Taxa de erro: err = FP + FN TN + FN + FP + TP Recall (sensitivity): recall = TP TP + FN Precision: precision = TP TP + FP Prof. Leandro Balby Marinho 41 / 45 UFCG DSC
  • 51. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores M´etodo Holdout Os dados s˜ao particionados aleatoriamente em dois conjuntos disjuntos chamados treino e teste (e.g. 2/3 para treino e 1/3 para teste). O classificador ´e induzido no treino e avaliado no teste. O m´etodo pode ser repetido v´arias vezes para melhorar a confiabilidade das predi¸c˜oes (random subsampling). Nesse caso, a acur´acia ´e dada por: acc = 1 S k i=1 acci onde S ´e o n´umero de parti¸c˜oes treino-teste geradas e acci a acur´acia na parti¸c˜ao i. Prof. Leandro Balby Marinho 42 / 45 UFCG DSC
  • 52. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Valida¸c˜ao Cruzada Cada instˆancia ´e usada exatamente uma vez para treino e uma vez para teste. No caso de uma parti¸c˜ao (1/2, 1/2) dos dados, 1. A primeira parte ´e usada para treino e a segunda para teste. 2. A segunda parte ´e usada para treino e a segunda para teste. Essa ideia pode ser generalizada para k parti¸c˜oes de igual tamanho. Em cada execu¸c˜ao, k − 1 parti¸c˜oes s˜ao usadas para treino e uma para teste. O procedimento ´e repetido k vezes e a m´edia da acur´acia calculada. Prof. Leandro Balby Marinho 43 / 45 UFCG DSC
  • 53. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Valida¸c˜ao Cruzada 5-fold Prof. Leandro Balby Marinho 44 / 45 UFCG DSC
  • 54. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Referˆencias Larry Wasserman. All of Statistics: A Concise Course in Statistical Inference. Springer, 2003. Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Minig. Primeira Edi¸c˜ao. Addison Wesley, 2006. Lars Schmidt-Thieme. Notas de aula em aprendizagem de m´aquina. Dispon´ıvel em: http://www.ismll.uni-hildesheim.de/lehre/ ml-11w/index_en.html Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin. Learning from Data. Primeira Edi¸c˜ao. AMLBook, 2012. “Random Forests.” Wikipedia. Wikimedia Foundation Inc.. Jan, 1st, 2015. http://en.wikipedia.org/wiki/Random_forest . Prof. Leandro Balby Marinho 45 / 45 UFCG DSC