(ACH2044) Inteligência Artificial - Aula 17

Inteligência Artificial – ACH2016
Aula 17 – Aprendizado Bayesiano
Norton Trevisan Roman
(norton@usp.br)
13 de junho de 2019
Norton Trevisan Roman(norton@usp.br) 13 de junho de 2019 1 / 41

Aprendizado
Até agora, precisávamos de:

Aprendizado
Modelos bem definidos do problema estudado

Aprendizado
Conhecimento razoável desse problema

Aprendizado
Contudo...

Aprendizado
Contudo...
Podemos não ter nem um nem outro

Aprendizado
Contudo...
Solução

Aprendizado
Contudo...
Solução
Observar vários exemplos

Aprendizado
Contudo...
Solução
Concluir algo sobre eles → aprender

Aprendizado
Contudo...
Solução
Concluir algo sobre eles → aprender
Como quando obtı́nhamos as probabilidades de cada nó na
rede bayesiana

Aprendizado
Quando aprendemos, em geral:

Aprendizado
Memorizamos algo

Aprendizado
Memorizamos algo
Deduzimos fatos a partir de exploração e observação

Aprendizado
Memorizamos algo
Melhoramos habilidades pela prática

Aprendizado
Memorizamos algo
Organizamos novo conhecimento em representações gerais e
efetivas

Aprendizado
Memorizamos algo
efetivas
Enfim:
Um sistema que aprenda deve obter nova informação de
exemplos e melhorar seu desempenho com isso

Aprendizado
Memorizamos algo
efetivas
Enfim:
Um sistema que aprenda deve obter nova informação de
exemplos e melhorar seu desempenho com isso
Corresponde a aprender uma função-alvo que, dada a
entrada, indique a saı́da

Aprendizado
Tipos de Aprendizado

Aprendizado
Supervisionado

Aprendizado
Supervisionado
A partir de exemplos de pares entrada-saı́da, aprenda uma
função que mapeie da entrada à saı́da

Aprendizado
Supervisionado
Necessita de um instrutor

Aprendizado
Supervisionado
Provém de experimentação

Aprendizado
Supervisionado
Ex: as redes bayesianas vistas

Aprendizado
Supervisionado
Não supervisionado

Aprendizado
Supervisionado
Dado apenas o conjunto de entrada, identifique padrões
nesse conjunto

Aprendizado
Supervisionado
Dado apenas o conjunto de entrada, identifique padrões
nesse conjunto
Não sabe exatamente o que aprender→ não há um feedback
explı́cito

Aprendizado
Por reforço:

Aprendizado
Por reforço:
O aprendizado se dá por meio de uma recompensa (ou
punição)

Aprendizado
Por reforço:
punição)
Só sabe se teve sucesso se, ao final, receber a recompensa

Aprendizado
Por reforço:
punição)
Problema maior com aprendizado
Superajuste (overfitting)

Aprendizado
Por reforço:
punição)
Problema maior com aprendizado
Superajuste (overfitting)
Se o conjunto observado contiver um viés em alguma
direção, o sistema pode ficar “viciado”, descartando
qualquer hipótese externa a esse conjunto

Aprendizado Supervisionado
Finalidade

Finalidade
Classificação

Finalidade
Classificação
Classificar um exemplo novo em um conjunto de classes
pré-determinadas

Finalidade
Classificação
pré-determinadas
Usado para aprender uma função de valores discretos (não
necessariamente numéricos)

Finalidade
Classificação
pré-determinadas
Ex: Aprovação de crédito – (sim/não)

Finalidade
Classificação
pré-determinadas
Regressão

Finalidade
Classificação
pré-determinadas
Regressão
Descobrir o valor associado a um novo exemplo → aprende
uma função contı́nua de valores numéricos

Finalidade
Classificação
pré-determinadas
Regressão
Descobrir o valor associado a um novo exemplo → aprende
uma função contı́nua de valores numéricos
Ex: Linha de crédito – quantos R$ podem ser emprestados

Aprendizado Bayesiano

Puramente probabilı́stico

Fatores:

Fatores:
Cada exemplo aumenta ou reduz a probabilidade de uma
hipótese estar correta

Fatores:
Pode usar conhecimento prévio

Fatores:
Acomoda métodos de predição probabilı́stica

Fatores:
Novos exemplos são classificados pela combinação da
predição de múltiplas hipóteses

Fatores:
Novos exemplos são classificados pela combinação da
predição de múltiplas hipóteses
O peso de cada hipótese é sua probabilidade

Aprendizado
Baseado em dados e hipóteses

Aprendizado
Dados: evidência

Aprendizado
Dados: evidência
Hipóteses: possibilidades de classificação

Aprendizado
Dados: evidência
Trata-se de um classificador

Aprendizado
Dados: evidência
Aprendizado bayesiano calcula a probabilidade de
cada hipótese ser a “correta”, dados os dados

Aprendizado
Dados: evidência
P(H = h1|D = d)

Aprendizado
Dados: evidência
P(H = h1|D = d)
Hipótese “correta” é a que melhor descreve os dados

Aprendizado
Dados: evidência
P(H = h1|D = d)
Hipótese “correta” é a que melhor descreve os dados
Usa todas as hipóteses, considerando suas probabilidades,
em vez de usar uma única “melhor” hipótese

Suponha que queremos saber a probabilidade de
fazermos uma determinada observação (X = x),
dadas as já observadas (D = d):

P(x|d) =
X
i
P(x, hi |d)

P(x|d) =
X
i
P(x, hi |d) =
X
i
P(x|d, hi )P(hi |d)

Regra de Bayes
Lembrando que
P(hi |d) =
P(d|hi )P(hi )
P(d)
∝ P(d|hi )P(hi )

Regra de Bayes
Lembrando que
P(hi |d) =
P(d|hi )P(hi )
P(d)
∝ P(d|hi )P(hi )
Informalmente, podemos dizer que
posterior =
verossimilhança × prévia
evidência

Regra de Bayes
Lembrando que
P(hi |d) =
P(d|hi )P(hi )
P(d)
∝ P(d|hi )P(hi )
Probabilidade posterior
posterior =
evidência

Regra de Bayes
Lembrando que
P(hi |d) =
P(d|hi )P(hi )
P(d)
∝ P(d|hi )P(hi )
Verossimilhança (likelihood)
posterior =
evidência

Regra de Bayes
Lembrando que
P(hi |d) =
P(d|hi )P(hi )
P(d)
∝ P(d|hi )P(hi )
Verossimilhança (likelihood)
Probabilidade prévia
posterior =
evidência

Regra de Bayes
P(hi |d) =
P(d|hi )P(hi )
P(d)
posterior =
evidência

Regra de Bayes
P(hi |d) =
P(d|hi )P(hi )
P(d)
posterior =
evidência
P(d|hi) é a verossimilhança de hi com respeito a d

Regra de Bayes
P(hi |d) =
P(d|hi )P(hi )
P(d)
posterior =
evidência
Todo o resto mantido inalterado, indica a categoria hi para a
qual P(d|hi ) é a mais provável de ser verdadeira (ou seja, é
máxima)

Regra de Bayes
P(hi |d) =
P(d|hi )P(hi )
P(d)
posterior =
evidência
Todo o resto mantido inalterado, indica a categoria hi para a
qual P(d|hi ) é a mais provável de ser verdadeira (ou seja, é
máxima)
P(d) pode ser visto meramente como um fator de
escala, que garante que as probabilidades
posteriores somarão 1

Exemplo
Suponha que são fabricados 5 tipos de sacos de
balas:
Fonte: Slides de AIMA. Russell & Norvig.

Exemplo
balas:
h1: 100% cereja

Exemplo
balas:
h1: 100% cereja
h2: 75% cereja + 25% limão

Exemplo
balas:
h1: 100% cereja

Exemplo
balas:
h1: 100% cereja
h5: 100% limão Fonte: Slides de AIMA. Russell & Norvig.

Exemplo
Suponha também que esses tipos são fabricados na
seguinte proporção:

Exemplo
10% são h1 (100% cereja)

Exemplo
20% são h2 (75% cereja + 25% limão)

Exemplo

Exemplo
10% são h5 (100% limão) Fonte: Slides de AIMA. Russell & Norvig.

Exemplo
Suponha agora que você comprou um saco de balas
sem saber de que tipo

Exemplo
E aleatoriamente retira n balas desse saco, obtendo :

Exemplo
Que tipo de saco é esse?

Exemplo
Que tipo de saco é esse?
Supondo que as observações (os dados) são independentes:
P(d|hi ) =
Y
j
P(dj |hi )
onde d = {d1, . . . , dn} são as n balas já retiradas

Exemplo
Qual então a probabilidade de observarmos a
primeira bala de limão?

Exemplo
Não há dados anteriores ⇒ probabilidade prévia:

Exemplo
P(l) =
5
X
i=1
P(l, hi ) =
5
X
i=1
P(l|hi )P(hi )

Exemplo
P(l) =
5
X
i=1
P(l, hi ) =
5
X
i=1
P(l|hi )P(hi )
P(l) = 0 × 0, 1 + 0, 25 × 0, 2 + 0, 5 × 0, 4 + 0, 75 × 0, 2 + 1 × 0, 1 = 0, 5

Exemplo
P(l) =
5
X
i=1
P(l, hi ) =
5
X
i=1
P(l|hi )P(hi )
P(l) = 0 × 0, 1 + 0, 25 × 0, 2 + 0, 5 × 0, 4 + 0, 75 × 0, 2 + 1 × 0, 1 = 0, 5
E de observarmos a segunda bala de limão, dada a
primeira?

Exemplo
P(l) =
5
X
i=1
P(l, hi ) =
5
X
i=1
P(l|hi )P(hi )
P(l) = 0 × 0, 1 + 0, 25 × 0, 2 + 0, 5 × 0, 4 + 0, 75 × 0, 2 + 1 × 0, 1 = 0, 5
E de observarmos a segunda bala de limão, dada a
primeira?
P(l|d) = P(l|{l}) =
5
X
i=1
P(l, hi |{l})

Exemplo
⇒ P(l|d) =
5
X
i=1
P(l|{l}, hi )P(hi |{l})

Exemplo
⇒ P(l|d) =
5
X
i=1
P(l|{l}, hi )P(hi |{l})
=
5
X
i=1
P(l|hi )P(hi |{l})

Exemplo
⇒ P(l|d) =
5
X
i=1
P(l|{l}, hi )P(hi |{l})
=
5
X
i=1
P(l|hi )P(hi |{l})
(supondo independência condicional entre l e d = {l}, dada
a hipótese hi )

Exemplo
⇒ P(l|d) =
5
X
i=1
P(l|{l}, hi )P(hi |{l})
=
5
X
i=1
P(l|hi )P(hi |{l})
(supondo independência condicional entre l e d = {l}, dada
a hipótese hi )
Como P(hi |{l}) =
P({l}|hi )P(hi )
P({l})
, então
P(l|d) =
1
P({l})
5
X
i=1
P(l|hi )P({l}|hi )P(hi )

Exemplo
E como P(d|hi ) =
Y
j
P(dj |hi ) ⇒ P({l}|hi ) = P(l|hi ), então
P(l|d) =
1
P({l})
5
X
i=1
P(l|hi )P(l|hi )P(hi )

Exemplo
E como P(d|hi ) =
Y
j
P(l|d) =
1
P({l})
5
X
i=1
=
1
P({l})
5
X
i=1
P(l|hi )2
P(hi )

Exemplo
E como P(d|hi ) =
Y
j
P(l|d) =
1
P({l})
5
X
i=1
=
1
P({l})
5
X
i=1
P(l|hi )2
P(hi )
=
0, 325
P({l})
=
0, 325
P(l)
=
0.325
0, 5
= 0, 65

Exemplo
Número de exemplos em d
Probabilidade
posterior
das
hipóteses
Fonte: Adaptado de slides de AIMA. Russell & Norvig.

Exemplo
Probabilidade
posterior
das
hipóteses
À medida em que vemos
mais exemplos, a hipótese
real acaba dominando

Exemplo
Probabilidade
posterior
das
hipóteses
P(próxima
bala
=
limão
|
d)

Exemplo
Probabilidade
posterior
das
hipóteses
P(próxima
bala
=
limão
|
d)
Naturalmente tende a 1, re-
fletindo o aumento de nossa
confiança de que a próxima
bala continuará a ser de limão

Problema
Calcular P(x|d) pode tornar-se intratável

Problema
Solução
Uma alternativa comum é lidar apenas com a
hipótese mais provável, tendo observado o conjunto
de dados d

Problema
Solução
de dados d
hi que maximiza P(hi |d)

Problema
Solução
de dados d
Maximum a Posteriori: hMAP = argmax
i
P(hi |d)

Problema
Solução
de dados d
Maximum a Posteriori: hMAP = argmax
i
P(hi |d)
Base para o Naı̈ve Bayes Classifier – Classificador
Bayesiano Ingênuo

Classificador Bayesiano
Ingênuo

Classificador Bayesiano Ingênuo
Aplicação

Aplicação
Tarefas de aprendizado onde:

Aplicação
Cada instância do problema pode ser descrita por uma
conjunção de atributos

Aplicação
A função-alvo pode retornar qualquer valor de algum
conjunto finito

Aplicação
conjunto finito
Função-alvo:
Uma função matemática que, para cada instância do
problema, indique a categoria à qual ela pertence

Aplicação
conjunto finito
Função-alvo:
Uma função matemática que, para cada instância do
problema, indique a categoria à qual ela pertence
É a função efetivamente aprendida

Funcionamento básico:

Com base na evidência, e usando a regra de Bayes, atualiza
a probabilidade de cada hipótese

Após incorporar a evidência, escolhe a hipótese mais
provável, para cada novo dado que precise classificar

Alternativamente:

Alternativamente:
São dados exemplos de treino da função-alvo

Alternativamente:
Uma nova instância é apresentada X =<a1, a2, . . . , an>

Alternativamente:
Uma nova instância é apresentada X =<a1, a2, . . . , an>
O classificador calcula o valor da função-alvo para a nova
instância

Para classificar uma nova instância:

A associa à hipótese mais provável, dados os
atributos que descrevem a instância

hMAP = argmax
i
P(hi |a1, a2, . . . , an)

hMAP = argmax
i
P(hi |a1, a2, . . . , an)
Então:
hMAP = argmax
i
P(a1, a2, . . . , an|hi )P(hi )
P(a1, a2, . . . , an)

hMAP = argmax
i
P(hi |a1, a2, . . . , an)
Então:
hMAP = argmax
i
P(a1, a2, . . . , an|hi )P(hi )
P(a1, a2, . . . , an)
hMAP = argmax
i
P(a1, a2, . . . , an|hi )P(hi )

Por ser constante,
P(a1, a2, . . . , an) não
influencia na deter-
minação do máximo
hMAP = argmax
i
P(hi |a1, a2, . . . , an)
Então:
hMAP = argmax
i
P(a1, a2, . . . , an|hi )P(hi )
P(a1, a2, . . . , an)
hMAP = argmax
i
P(a1, a2, . . . , an|hi )P(hi )

P(hi) → contamos a frequência com que hi ocorre
nos dados de treino

nos dados de treino
E P(a1, a2, . . . , an|hi)?

nos dados de treino
E P(a1, a2, . . . , an|hi)?
Difı́cil, a menos que tenhamos um conjunto de treino
realmente grande

nos dados de treino
E P(a1, a2, . . . , an|hi)?
realmente grande
Terı́amos que ter contagens suficientes para cada valor
possı́vel dos atributos, em cada instância

nos dados de treino
E P(a1, a2, . . . , an|hi)?
realmente grande
Terı́amos que ter contagens suficientes para cada valor
possı́vel dos atributos, em cada instância
Note que o mesmo par <aj , hi> aparece várias vezes (conforme a
combinação dos demais atributos)

Solução: a parte “ingênua” do classificador

Supõe que os atributos são condicionalmente independentes,
dado hi

dado hi
P(a1, a2, . . . , an|hi) =
n
Y
j=1
P(aj|hi)

dado hi
P(a1, a2, . . . , an|hi) =
n
Y
j=1
P(aj|hi)
hNB = argmax
i
P(hi)
n
Y
j=1
P(aj|hi)

dado hi
P(a1, a2, . . . , an|hi) =
n
Y
j=1
P(aj|hi)
hNB = argmax
i
P(hi)
n
Y
j=1
P(aj|hi)
Hipótese “es-
colhida” pelo
classificador para
a nova observação

dado hi
P(a1, a2, . . . , an|hi) =
n
Y
j=1
P(aj|hi)
hNB = argmax
i
P(hi)
n
Y
j=1
P(aj|hi)
Embora possa vir a ser uma
boa aproximação, nem sempre
é o caso dos atributos serem
condicionalmente independentes
Hipótese “es-
colhida” pelo
classificador para

dado hi
P(a1, a2, . . . , an|hi) =
n
Y
j=1
P(aj|hi)
hNB = argmax
i
P(hi)
n
Y
j=1
P(aj|hi)
Embora possa vir a ser uma
boa aproximação, nem sempre
é o caso dos atributos serem
condicionalmente independentes
Hipótese “es-
colhida” pelo
classificador para
Note que o mesmo par <aj , hi> aparece uma única vez

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0
• H = {1, 0} → h1 = 1, h2 = 0

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0
• H = {1, 0} → h1 = 1, h2 = 0
• P(h1) = 5/10 = 0, 5; P(h2) = 5/10 = 0, 5

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0
• H = {1, 0} → h1 = 1, h2 = 0
• P(h1) = 5/10 = 0, 5; P(h2) = 5/10 = 0, 5
• P(A1 = 0|h1) = 4/5 = 0, 8; P(A1 = 1|h1) = 1/5 = 0, 2

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0
• H = {1, 0} → h1 = 1, h2 = 0
• P(h1) = 5/10 = 0, 5; P(h2) = 5/10 = 0, 5
• P(A1 = 0|h1) = 4/5 = 0, 8; P(A1 = 1|h1) = 1/5 = 0, 2
• P(A2 = 0|h1) = 4/5 = 0, 8; P(A2 = 1|h1) = 1/5 = 0, 2

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0
• H = {1, 0} → h1 = 1, h2 = 0
• P(h1) = 5/10 = 0, 5; P(h2) = 5/10 = 0, 5
• P(A1 = 0|h1) = 4/5 = 0, 8; P(A1 = 1|h1) = 1/5 = 0, 2
• P(A2 = 0|h1) = 4/5 = 0, 8; P(A2 = 1|h1) = 1/5 = 0, 2
• P(A3 = 0|h1) = 1/5 = 0, 2; P(A3 = 1|h1) = 4/5 = 0, 8

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0
• H = {1, 0} → h1 = 1, h2 = 0
• P(h1) = 5/10 = 0, 5; P(h2) = 5/10 = 0, 5
• P(A1 = 0|h1) = 4/5 = 0, 8; P(A1 = 1|h1) = 1/5 = 0, 2
• P(A2 = 0|h1) = 4/5 = 0, 8; P(A2 = 1|h1) = 1/5 = 0, 2
• P(A3 = 0|h1) = 1/5 = 0, 2; P(A3 = 1|h1) = 4/5 = 0, 8
• P(A4 = 0|h1) = 3/5 = 0, 6; P(A4 = 1|h1) = 2/5 = 0, 4

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0
• H = {1, 0} → h1 = 1, h2 = 0
• P(h1) = 5/10 = 0, 5; P(h2) = 5/10 = 0, 5
• P(A1 = 0|h1) = 4/5 = 0, 8; P(A1 = 1|h1) = 1/5 = 0, 2
• P(A2 = 0|h1) = 4/5 = 0, 8; P(A2 = 1|h1) = 1/5 = 0, 2
• P(A3 = 0|h1) = 1/5 = 0, 2; P(A3 = 1|h1) = 4/5 = 0, 8
• P(A4 = 0|h1) = 3/5 = 0, 6; P(A4 = 1|h1) = 2/5 = 0, 4
• P(A1 = 0|h2) = 0/5 = 0, 0; P(A1 = 1|h2) = 5/5 = 1, 0

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0
• H = {1, 0} → h1 = 1, h2 = 0
• P(h1) = 5/10 = 0, 5; P(h2) = 5/10 = 0, 5
• P(A1 = 0|h1) = 4/5 = 0, 8; P(A1 = 1|h1) = 1/5 = 0, 2
• P(A2 = 0|h1) = 4/5 = 0, 8; P(A2 = 1|h1) = 1/5 = 0, 2
• P(A3 = 0|h1) = 1/5 = 0, 2; P(A3 = 1|h1) = 4/5 = 0, 8
• P(A4 = 0|h1) = 3/5 = 0, 6; P(A4 = 1|h1) = 2/5 = 0, 4
• P(A1 = 0|h2) = 0/5 = 0, 0; P(A1 = 1|h2) = 5/5 = 1, 0
• P(A2 = 0|h2) = 3/5 = 0, 6; P(A2 = 1|h2) = 2/5 = 0, 4

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0
• H = {1, 0} → h1 = 1, h2 = 0
• P(h1) = 5/10 = 0, 5; P(h2) = 5/10 = 0, 5
• P(A1 = 0|h1) = 4/5 = 0, 8; P(A1 = 1|h1) = 1/5 = 0, 2
• P(A2 = 0|h1) = 4/5 = 0, 8; P(A2 = 1|h1) = 1/5 = 0, 2
• P(A3 = 0|h1) = 1/5 = 0, 2; P(A3 = 1|h1) = 4/5 = 0, 8
• P(A4 = 0|h1) = 3/5 = 0, 6; P(A4 = 1|h1) = 2/5 = 0, 4
• P(A1 = 0|h2) = 0/5 = 0, 0; P(A1 = 1|h2) = 5/5 = 1, 0
• P(A2 = 0|h2) = 3/5 = 0, 6; P(A2 = 1|h2) = 2/5 = 0, 4
• P(A3 = 0|h2) = 4/5 = 0, 8; P(A3 = 1|h2) = 1/5 = 0, 2

Exemplo
A1 A2 A3 A4 H
0 1 1 0 1
0 0 1 1 1
1 0 1 0 1
0 0 1 1 1
0 0 0 0 1
1 0 0 1 0
1 1 0 1 0
1 0 0 0 0
1 1 0 1 0
1 0 1 1 0
• H = {1, 0} → h1 = 1, h2 = 0
• P(h1) = 5/10 = 0, 5; P(h2) = 5/10 = 0, 5
• P(A1 = 0|h1) = 4/5 = 0, 8; P(A1 = 1|h1) = 1/5 = 0, 2
• P(A2 = 0|h1) = 4/5 = 0, 8; P(A2 = 1|h1) = 1/5 = 0, 2
• P(A3 = 0|h1) = 1/5 = 0, 2; P(A3 = 1|h1) = 4/5 = 0, 8
• P(A4 = 0|h1) = 3/5 = 0, 6; P(A4 = 1|h1) = 2/5 = 0, 4
• P(A1 = 0|h2) = 0/5 = 0, 0; P(A1 = 1|h2) = 5/5 = 1, 0
• P(A2 = 0|h2) = 3/5 = 0, 6; P(A2 = 1|h2) = 2/5 = 0, 4
• P(A3 = 0|h2) = 4/5 = 0, 8; P(A3 = 1|h2) = 1/5 = 0, 2
• P(A4 = 0|h2) = 1/5 = 0, 2; P(A4 = 1|h2) = 4/5 = 0, 8

Exemplo
Novo dado: x =<0, 0, 1, 1>

Exemplo
Novo dado: x =<0, 0, 1, 1>
hNB = argmax
i
P(hi )
n
Y
j=1
P(aj |hi )

Exemplo
Novo dado: x =<0, 0, 1, 1>
hNB = argmax
i
P(hi )
n
Y
j=1
P(aj |hi )
P(HNB = h1) = P(h1)P(a1 = 0|h1)P(a2 = 0|h1)P(a3 = 1|h1)P(a4 = 1|h1)

Exemplo
Novo dado: x =<0, 0, 1, 1>
hNB = argmax
i
P(hi )
n
Y
j=1
P(aj |hi )
P(HNB = h1) = 0, 5 × 0, 8 × 0, 8 × 0, 8 × 0, 4 = 0, 1024

Exemplo
Novo dado: x =<0, 0, 1, 1>
hNB = argmax
i
P(hi )
n
Y
j=1
P(aj |hi )
P(HNB = h1) = 0, 5 × 0, 8 × 0, 8 × 0, 8 × 0, 4 = 0, 1024
P(HNB = h2) = 0, 5 × 0, 0 × 0, 6 × 0, 2 × 0, 8 = 0, 0

Exemplo
Novo dado: x =<0, 0, 1, 1>
hNB = argmax
i
P(hi )
n
Y
j=1
P(aj |hi )
P(HNB = h1) = 0, 5 × 0, 8 × 0, 8 × 0, 8 × 0, 4 = 0, 1024
P(HNB = h2) = 0, 5 × 0, 0 × 0, 6 × 0, 2 × 0, 8 = 0, 0
hNB = argmax(0, 1024; 0, 0) = 0, 1024 = h1 ⇒ h1 é a escolhida

Exemplo – Classificação de Textos

Tarefa:

Tarefa:
A partir de exemplos de textos já classificados, classificar um
novo texto

Tarefa:
novo texto
Você tem o texto e não sabe a que classe pertence

Tarefa:
novo texto
(retirou uma bala e não olhou, mas quer saber qual o sabor)

Tarefa:
novo texto
Função-alvo:

Tarefa:
novo texto
Função-alvo:
Definir se é spam (h1) ou não (h2)

Tarefa:
novo texto
Função-alvo:
Problemas:

Tarefa:
novo texto
Função-alvo:
Problemas:
Como representar um texto com atributos?

Tarefa:
novo texto
Função-alvo:
Problemas:
Como representar um texto com atributos?
Como estimar as probabilidades requeridas?

Representação:

Representação:
Um atributo Ai diferente para cada posição i de palavra no
documento

Representação:
documento
O valor do atributo (Ai = ai ) é a palavra nessa posição

Representação:
documento
Exemplo:

Representação:
documento
Exemplo:
“Aumente o tamanho do seu tênis em até
200cm!Ligue agora para 0800-6969 e peça o
modernı́ssimo ΠK aumentator Tabajara.”

Representação:
documento
Exemplo:
23 palavras → 23 posições

Representação:
documento
Exemplo:
23 palavras → 23 posições
O número de atributos aumenta com o número de palavras

Assumamos que temos 700 spams e 300 não spams
para treino

para treino
Recebemos um documento e, para classificá-lo:

para treino
hNB = argmax
hi ∈{spam,¬spam}
P(hi)
23
Y
j=1
P(aj|hi)

para treino
hNB = argmax
hi ∈{spam,¬spam}
P(hi)
23
Y
j=1
P(aj|hi)
hNB = argmax
hi ∈{spam,¬spam}
P(hi)P(A1 = |hi)P(A2 = aumente|hi) . . . P(A23 = tabajara|hi)

para treino
hNB = argmax
hi ∈{spam,¬spam}
P(hi)
23
Y
j=1
P(aj|hi)
hNB = argmax
hi ∈{spam,¬spam}
P(hi)P(A1 = |hi)P(A2 = aumente|hi) . . . P(A23 = tabajara|hi)
Cada P(Aj = aj |hi )
vem do treinamento

Maximizamos a probabilidade de observarmos as
palavras do documento a ser classificado, na posição
em que lá são encontradas

A hipótese (spam ou texto comum) que resultar em maior
probabilidade será a vencedora

A hipótese (spam ou texto comum) que resultar em maior
probabilidade será a vencedora
Essa probabilidade, contudo, está sujeita à
suposição de independência

Independência:

Independência:
As probabilidades de cada palavra em uma posição do texto
são independentes das palavras que ocorrem em outras
posições, dada a classificação do documento

Independência:
Falso!

Independência:
Falso!
A palavra “aumente”, se seguida de “seu tênis”, por
exemplo, aumenta a probabilidade de ser spam

Independência:
Falso!
A palavra “aumente”, se seguida de “seu tênis”, por
exemplo, aumenta a probabilidade de ser spam
Contudo, se não assumirmos independência,
poderemos ter que calcular um número abusivo de
probabilidades

Continuando o cálculo:

1000 documentos, 700 spams, 300 não spams

P(spam) = 0, 7 e p(¬spam) = 0, 3

P(spam) = 0, 7 e p(¬spam) = 0, 3
P(A1 = |spam) é mais complicado

P(spam) = 0, 7 e p(¬spam) = 0, 3
Podemos assumir então que a probabilidade de encontrar
determinada palavra independe da posição

P(spam) = 0, 7 e p(¬spam) = 0, 3
P(Aj = ωk |hi ) = P(ωk |hi )
ωk = cada palavra distinta no texto a ser classificado

P(spam) = 0, 7 e p(¬spam) = 0, 3
P(Aj = ωk |hi ) = P(ωk |hi )
ωk = cada palavra distinta no texto a ser classificado
O problema passa a ser calcular a probabilidade de achar
determinada palavra, e não determinada palavra em certa posição

Estimamos a probabilidade:

P(ωk|hi ) =
nk + 1
n + |vocabulário|

P(ωk|hi ) =
nk + 1
n + |vocabulário|
n → número total de palavras (inclusive repetidas) em todos
os exemplos de treino cuja classificação é hi

P(ωk|hi ) =
nk + 1
n + |vocabulário|
nk → número de vezes que a palavra ωk é encontrada dentre
essas n palavras

Classificação de Textos
Qual a razão do |vocabulário|?

Suponha que o documento a ser classificado
contenha uma palavra ωk não existente nos
exemplos de treino. Sem esse termo, a equação
ficaria
P(ωk|hi ) =
0
n
= 0

ficaria
P(ωk|hi ) =
0
n
= 0
Suavização (smoothing): forma de evitar essa
radicalização

Suavização (Smoothing)
Add-one smoothing (Laplace)

A forma vista até agora

P(ωk|hi ) =
nk + 1
X
k
(1 + nk)
=
1 + nk
X
k
nk +
X
k
1

P(ωk|hi ) =
nk + 1
X
k
(1 + nk)
=
1 + nk
X
k
nk +
X
k
1
⇒ P(ωk|hi ) =
1 + nk
n + |vocabulário|

P(ωk|hi ) =
nk + 1
X
k
(1 + nk)
=
1 + nk
X
k
nk +
X
k
1
⇒ P(ωk|hi ) =
1 + nk
n + |vocabulário|
Adicionamos 1 a cada palavra possı́vel (vocabulário)

Alternativa bastante usada
Adicionamos 1 ao numerador e 2 ao denominador

P(ωk|hi ) =
nk + 1
n + 2

P(ωk|hi ) =
nk + 1
n + 2
A probabilidade de um termo
desconhecido é
1
(n + 2)

Classificação de Textos – Algoritmo
Função APRENDE(Exemplos, H = {hi }): void
Vocabulário ← conjunto de todas as diferentes palavras e tokens
ocorridos em todo documento de Exemplos
para cada hipótese hi faça
docsi ← subconjunto dos documentos de Exemplos para os quais
a classificação é hi
P(hi ) ←
|docsi |
|Exemplos|
Textoi ← um único documento criado pela concatenação de todos
os membros de docsi
n ← número total de palavras em Textoi
para cada palavra ωk no Vocabulário faça
nk ← número de vezes que a palavra ωk ocorre em Textoi
P(ωk |hi ) ←
(nk + 1)
(n + |Vocabulário|)

Função CLASSIFICA(Doc,Vocabulário): a hipótese estimada para o
documento Doc
Palavras ← todas as palavras em Doc que também são encontradas no
Vocabulário
hNB = argmax
hi ∈H
P(hi )
Y
aj ∈Palavras
P(aj |hi )
retorna hNB

Documento a ser classificado
documento Doc
Vocabulário
hNB = argmax
hi ∈H
P(hi )
Y
aj ∈Palavras
P(aj |hi )
retorna hNB

Palavras distintas encon-
tradas durante o treino
documento Doc
Vocabulário
hNB = argmax
hi ∈H
P(hi )
Y
aj ∈Palavras
P(aj |hi )
retorna hNB

Palavras novas são ignoradas
documento Doc
Vocabulário
hNB = argmax
hi ∈H
P(hi )
Y
aj ∈Palavras
P(aj |hi )
retorna hNB

ai denota i-ésima palavra em Doc
documento Doc
Vocabulário
hNB = argmax
hi ∈H
P(hi )
Y
aj ∈Palavras
P(aj |hi )
retorna hNB

Classificação de Textos – Modificações
Podemos ignorar as palavras mais comuns (um, a,
o, de etc)

Classificação de Textos – Modificações
Podemos ignorar as palavras mais comuns (um, a,
o, de etc)
Podemos retirar do vocabulário qualquer palavra
que tenha ocorrido menos vezes que um mı́nimo
(menos que 2 vezes, por exemplo)

Referências
Russell, S.; Norvig P. (2010): Artificial Intelligence: A Modern Approach.
Prentice Hall. 3a ed.
Slides do livro: aima.eecs.berkeley.edu/slides-pdf/
Mitchell, T.M.: Machine Learning. McGraw-Hill. 1997.
Murphy, K. P.: Machine Learning: A Probabilistic Perspective. MIT
Press. 2012.
Alpaydın, E.: Introduction to Machine Learning. 2 ed. MIT Press. 2010.
https://stats.stackexchange.com/questions/261235/
small-probabilities-in-naive-bayes
https://stats.stackexchange.com/questions/105602/
example-of-how-the-log-sum-exp-trick-works-in-naive-bayes/
253319#253319

(ACH2044) Inteligência Artificial - Aula 17

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (10)

Mais de Norton Trevisan Roman

Mais de Norton Trevisan Roman (12)

Último

Último (20)

(ACH2044) Inteligência Artificial - Aula 17