SlideShare uma empresa Scribd logo
1 de 95
Baixar para ler offline
Inteligência Artificial – ACH2016
Aula24 – Estimando o Erro e Comparação de
Modelos
Norton Trevisan Roman
(norton@usp.br)
17 de junho de 2019
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 1 / 44
Estimando o Erro
Erro de treino e teste
Quando analisamos nossos dados, tipicamente
fazemos suposições
Cada exemplo é independente dos demais
Conjunto de treino e teste são distribuı́dos de forma idêntica
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 2 / 44
Estimando o Erro
Erro de treino e teste
Quando analisamos nossos dados, tipicamente
fazemos suposições
Cada exemplo é independente dos demais
Conjunto de treino e teste são distribuı́dos de forma idêntica
Sob essas circunstâncias, o erro esperado de um
modelo selecionado aleatoriamente é igual tanto no
conjunto de treino quanto no de teste
Lembre que o modelo não foi treinado, mas selecionado
aleatoriamente
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 2 / 44
Estimando o Erro
Erro de treino e teste
Selecionar modelos aleatoriamente, contudo, não é
o que fazemos
Definimos um modelo e o ajustamos (treinamos) no
conjunto de treino, testando no conjunto de teste
O erro esperado no teste é então maior que no treino
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 3 / 44
Estimando o Erro
Erro de treino e teste
Selecionar modelos aleatoriamente, contudo, não é
o que fazemos
Definimos um modelo e o ajustamos (treinamos) no
conjunto de treino, testando no conjunto de teste
O erro esperado no teste é então maior que no treino
No entanto, um bom algoritmo deveria
Apresentar baixo erro no treino
Apresentar uma diferença pequena entre os erros de treino e
teste
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 3 / 44
Estimando o Erro
Estimativa de Ponto
É a tentativa de dar a melhor predição para alguma
quantidade de interesse
Como a classificação de um determinado ponto, por exemplo
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 4 / 44
Estimando o Erro
Estimativa de Ponto
É a tentativa de dar a melhor predição para alguma
quantidade de interesse
Como a classificação de um determinado ponto, por exemplo
Normalmente desconhecemos o valor real desse
parâmetro para um ponto ainda não visto
Estimamos assim esse valor, com base no padrão observado
durante o treinamento
Temos assim um θ̂, estimativa do parâmetro θ para um dado
ponto
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 4 / 44
Estimando o Erro
Estimativa de Ponto
Seja {~
x1, . . . , ~
xm} um conjunto de m pontos
independentes e identicamente distribuı́dos
Um Estimador para esse conjunto é uma variável aleatória
θ̂ usada para estimar algum parâmetro θ da população
É uma função θ̂ = g(~
x1, . . . , ~
xm) dos dados
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 5 / 44
Estimando o Erro
Estimativa de Ponto
Seja {~
x1, . . . , ~
xm} um conjunto de m pontos
independentes e identicamente distribuı́dos
Um Estimador para esse conjunto é uma variável aleatória
θ̂ usada para estimar algum parâmetro θ da população
É uma função θ̂ = g(~
x1, . . . , ~
xm) dos dados
Assim, cada modelo Mi aprendido para predizer uma
classe θ pode ser visto como um estimador θ̂i
Mi , por si só, é uma estimativa da função real que gera os
dados (e cuja existência assumimos)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 5 / 44
Estimando o Erro
Estimador de Ponto: Viés
Definimos o viés de um estimador como sendo
Viés(θ̂) = E(θ̂) − θ
O viés mede assim o desvio esperado do estimador em
relação ao valor real do parâmetro θ
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 6 / 44
Estimando o Erro
Estimador de Ponto: Viés
Valor esperado do
estimador θ̂ (sua média)
Definimos o viés de um estimador como sendo
Viés(θ̂) = E(θ̂) − θ
O viés mede assim o desvio esperado do estimador em
relação ao valor real do parâmetro θ
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 6 / 44
Estimando o Erro
Estimador de Ponto: Viés
E(θ̂) =
n
X
i=1
θ̂i P(Θ̂ = θ̂i )
Definimos o viés de um estimador como sendo
Viés(θ̂) = E(θ̂) − θ
O viés mede assim o desvio esperado do estimador em
relação ao valor real do parâmetro θ
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 6 / 44
Estimando o Erro
Estimador de Ponto: Viés
Valor real do parâmetro
que estimamos com θ̂
Definimos o viés de um estimador como sendo
Viés(θ̂) = E(θ̂) − θ
O viés mede assim o desvio esperado do estimador em
relação ao valor real do parâmetro θ
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 6 / 44
Estimando o Erro
Estimador de Ponto: Viés
Definimos o viés de um estimador como sendo
Viés(θ̂) = E(θ̂) − θ
O viés mede assim o desvio esperado do estimador em
relação ao valor real do parâmetro θ
Um bom estimador deveria dar um valor perto de θ
Ou seja, um bom estimador θ̂ é aquele em que Viés(θ̂) ≈ 0
Se Viés(θ̂) = 0 trata-se de um estimador sem viés
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 6 / 44
Estimando o Erro
Estimador de Ponto: Variância
Mede o quanto de variação no estimador é esperado
com diferentes amostras de treino
Var(θ̂) = E((θ̂ − E(θ̂))2
)
= E(θ̂2
) − E2
(θ̂)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 7 / 44
Estimando o Erro
Estimador de Ponto: Variância
Mede o quanto de variação no estimador é esperado
com diferentes amostras de treino
Var(θ̂) = E((θ̂ − E(θ̂))2
)
= E(θ̂2
) − E2
(θ̂)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 7 / 44
Estimando o Erro
Estimador de Ponto: Variância
Demonstração no
final dos slides
Mede o quanto de variação no estimador é esperado
com diferentes amostras de treino
Var(θ̂) = E((θ̂ − E(θ̂))2
)
= E(θ̂2
) − E2
(θ̂)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 7 / 44
Estimando o Erro
Estimador de Ponto: Variância
Demonstração no
final dos slides
Mede o quanto de variação no estimador é esperado
com diferentes amostras de treino
Var(θ̂) = E((θ̂ − E(θ̂))2
)
= E(θ̂2
) − E2
(θ̂)
Mede como esperamos que θ̂ varie, em relação a seu
valor esperado, ao treinarmos em novas amostras
independentes dos dados
O tanto que θ̂ varia na medida em que mudamos os
conjuntos de treino
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 7 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
Da mesma forma que gostarı́amos de ter um
estimador com pouco viés, também gostarı́amos que
apresentasse baixa variância
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 8 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
Da mesma forma que gostarı́amos de ter um
estimador com pouco viés, também gostarı́amos que
apresentasse baixa variância
Queremos então que se ajuste bem aos dados de treino
(baixo viés)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 8 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
Da mesma forma que gostarı́amos de ter um
estimador com pouco viés, também gostarı́amos que
apresentasse baixa variância
Queremos então que se ajuste bem aos dados de treino
(baixo viés)
E também a diferentes conjuntos de treino (baixa variância)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 8 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
Da mesma forma que gostarı́amos de ter um
estimador com pouco viés, também gostarı́amos que
apresentasse baixa variância
Queremos então que se ajuste bem aos dados de treino
(baixo viés)
E também a diferentes conjuntos de treino (baixa variância)
Note que uma grande variância é um indicativo do
comportamento em dados não vistos
Se treinar com dados distintos leva a θ̂s bastante distintos, o
θ̂ de um treino pode não corresponder ao do teste
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 8 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
Como podemos conciliar isso?
A maneira mais comum é usando validação cruzada
Ou então adotando uma medida de erro que leve em conta
tanto viés quanto variância
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 9 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
Como podemos conciliar isso?
A maneira mais comum é usando validação cruzada
Ou então adotando uma medida de erro que leve em conta
tanto viés quanto variância
Essa medida é o erro quadrático médio
EQM(θ̂) = E((θ̂ − θ)2
)
= Viés2
(θ̂) + Var(θ̂)
que mede o desvio total esperado entre o estimador θ̂ e o
valor real do parâmetro θ
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 9 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
Como podemos conciliar isso?
A maneira mais comum é usando validação cruzada
Ou então adotando uma medida de erro que leve em conta
tanto viés quanto variância
Essa medida é o erro quadrático médio
EQM(θ̂) = E((θ̂ − θ)2
)
= Viés2
(θ̂) + Var(θ̂)
que mede o desvio total esperado entre o estimador θ̂ e o
valor real do parâmetro θ
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 9 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
Demonstração no
final dos slides
Como podemos conciliar isso?
A maneira mais comum é usando validação cruzada
Ou então adotando uma medida de erro que leve em conta
tanto viés quanto variância
Essa medida é o erro quadrático médio
EQM(θ̂) = E((θ̂ − θ)2
)
= Viés2
(θ̂) + Var(θ̂)
que mede o desvio total esperado entre o estimador θ̂ e o
valor real do parâmetro θ
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 9 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
EQM(θ̂) = E((θ̂ − θ)2
)
Note que a variância Var(θ̂) = E((θ̂ − E(θ̂))2
) nada mais é
que o erro quadrático esperado ao usarmos uma única
observação de θ̂ para estimar sua média E(θ̂)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 10 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
EQM(θ̂) = E((θ̂ − θ)2
)
Note que a variância Var(θ̂) = E((θ̂ − E(θ̂))2
) nada mais é
que o erro quadrático esperado ao usarmos uma única
observação de θ̂ para estimar sua média E(θ̂)
Se pudéssemos reduzir o erro indefinidamente, então
terı́amos:
Viés(θ̂) = 0 e Var(θ̂) = 0
Estarı́amos com o modelo real, calibrado em infinitos dados
Esse, contudo, não é o caso
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 10 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
Temos dados finitos, e geralmente com ruı́do
Ou seja, θ = θreal + ε (θ não é de fato o valor real, há um
ruı́do ε), e assim EQM(θ̂) > 0
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 11 / 44
Estimando o Erro
Estimador de Ponto: Viés × Variância
Temos dados finitos, e geralmente com ruı́do
Ou seja, θ = θreal + ε (θ não é de fato o valor real, há um
ruı́do ε), e assim EQM(θ̂) > 0
Ressurge assim nosso dilema:
Suponha que EQM(θ̂) = Viés2
(θ̂) + Var(θ̂) > 0 é mı́nimo
Então, ao reduzirmos Viés(θ̂), necessariamente aumentamos
Var(θ̂) para compensar → overfitting
E, ao reduzirmos Var(θ̂), necessariamente aumentamos
Viés(θ̂) para compensar → underfitting
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 11 / 44
Estimando o Erro
Estimador de Ponto: Capacidade
E como reduzimos o viés de um modelo?
Aumentando sua capacidade (ou complexidade)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 12 / 44
Estimando o Erro
Estimador de Ponto: Capacidade
E como reduzimos o viés de um modelo?
Aumentando sua capacidade (ou complexidade)
Informalmente, capacidade é a habilidade de um
modelo de se ajustar a uma variedade de funções
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 12 / 44
Estimando o Erro
Estimador de Ponto: Capacidade
E como reduzimos o viés de um modelo?
Aumentando sua capacidade (ou complexidade)
Informalmente, capacidade é a habilidade de um
modelo de se ajustar a uma variedade de funções
Modelos com alta capacidade reduzem o erro de treino
Em compensação, podem se ajustar até ao ruı́do lá existente
(overfitting)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 12 / 44
Estimando o Erro
Estimador de Ponto: Capacidade
E como reduzimos o viés de um modelo?
Aumentando sua capacidade (ou complexidade)
Informalmente, capacidade é a habilidade de um
modelo de se ajustar a uma variedade de funções
Modelos com alta capacidade reduzem o erro de treino
Em compensação, podem se ajustar até ao ruı́do lá existente
(overfitting)
Modelos com baixa capacidade podem ter dificuldades em se
ajustar aos dados de treino (underfitting)
Em compensação a diferença com dados de teste não será grande
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 12 / 44
Estimando o Erro
Estimador de Ponto: Capacidade
Ex: Função real quadrática
Modelo linear Modelo quadrático Polinômio grau 9
Subajuste Bom ajuste Superajuste
Fonte: Adaptado de DL. Goodfellow.
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 13 / 44
Estimando o Erro
Estimador de Ponto: Capacidade
O truque está em achar a capacidade ideal
Devemos testar várias capacidades, identificando o ponto em
que a distância entre erro de treino e de generalização
começa a ficar muito grande
Fonte: DL. Goodfellow.
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 14 / 44
Estimando o Erro
Medidas Alternativas
de Erro
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 15 / 44
Estimando o Erro
Medidas alternativas
Considere o seguinte cenário
Uma determinada doença fatal atinge 0,1% da população
Queremos desenvolver um sistema que, a partir de
determinados atributos, diga se uma pessoa tem ou não alta
probabilidade de ter essa doença
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 16 / 44
Estimando o Erro
Medidas alternativas
Considere o seguinte cenário
Uma determinada doença fatal atinge 0,1% da população
Queremos desenvolver um sistema que, a partir de
determinados atributos, diga se uma pessoa tem ou não alta
probabilidade de ter essa doença
Agora considere um sistema que,
independentemente de quem entre no consultório,
diz que essa pessoa não possui essa doença
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 16 / 44
Estimando o Erro
Medidas alternativas
Considere o seguinte cenário
Uma determinada doença fatal atinge 0,1% da população
Queremos desenvolver um sistema que, a partir de
determinados atributos, diga se uma pessoa tem ou não alta
probabilidade de ter essa doença
Agora considere um sistema que,
independentemente de quem entre no consultório,
diz que essa pessoa não possui essa doença
Taxa de erro de 0,1% – Maravilhoso!
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 16 / 44
Estimando o Erro
Medidas alternativas
Qual o problema?
A taxa de erro supõe custos de erro idênticos para cada
classe
Não importa se os erros ficaram bem distribuı́dos entre as
classes ou se se concentraram em uma única delas
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 17 / 44
Estimando o Erro
Medidas alternativas
Qual o problema?
A taxa de erro supõe custos de erro idênticos para cada
classe
Não importa se os erros ficaram bem distribuı́dos entre as
classes ou se se concentraram em uma única delas
Em algumas situações, contudo, o custo de errar em
uma classe é maior que o de errar em outra
É melhor termos um alarme falso (apontarmos como doentes
pessoas sem a doença) do que não detectarmos um caso real
(apontarmos como sadios quem possui a doença)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 17 / 44
Estimando o Erro
Medidas alternativas
Dada uma instância, as possı́veis saı́das de um
classificador binário são:
A instância é positiva e foi classificada como positiva
(verdadeiro positivo)
A instância é positiva e foi classificada como negativa (falso
negativo)
A instância é negativa e foi classificada como negativa
(verdadeiro negativo)
A instância é negativa e foi classificada como positiva (falso
positivo)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 18 / 44
Estimando o Erro
Medidas alternativas
Dado um classificador e
um conjunto de
instâncias, essas 4
possibilidades podem
ser organizadas em
uma tabela
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 19 / 44
Estimando o Erro
Medidas alternativas
Dado um classificador e
um conjunto de
instâncias, essas 4
possibilidades podem
ser organizadas em
uma tabela
A Matriz de Confusão,
ou Tabela de
Contingência Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 19 / 44
Estimando o Erro
Medidas alternativas
Valores na diagonal
principal representam
as decisões corretas
Os da secundária
representam os erros – a
confusão entre as classes
Daı́ o nome...
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 20 / 44
Estimando o Erro
Medidas alternativas
Podemos então calcular
diversas métricas
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 21 / 44
Estimando o Erro
Medidas alternativas
Podemos então calcular
diversas métricas
Taxa de verdadeiros
positivos
tVP =
TP
P
Também chamada de
abrangência ou
revocação (recall) Fonte: [6]
De todos os positivos existentes, quantos classificamos como
tal
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 21 / 44
Estimando o Erro
Medidas alternativas
Taxa de falsos
positivos
tFP =
FP
N
Também chamada de
taxa de alarmes falsos
De todos os negativos,
quantos classificamos
incorretamente
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 22 / 44
Estimando o Erro
Medidas alternativas
Especificidade
esp = 1 − tFP
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 23 / 44
Estimando o Erro
Medidas alternativas
Especificidade
esp = 1 − tFP
Precisão
pr =
TP
TP + FP
De todos os que dissemos
serem positivos, quantos
realmente o eram Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 23 / 44
Estimando o Erro
Medidas alternativas
Acurácia
ac =
TP + TN
P + N
De todos os dados que
temos, quantos
classificamos corretamente
Corresponde à taxa de
sucesso que usamos até
agora
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 24 / 44
Estimando o Erro
Medidas alternativas
Medida-f (f-measure)
F = 2 ×
pr × tVP
pr + tVP
Média harmônica de
precisão e abrangência
(taxa de verdadeiros
positivos)
Também chamada de
medida F1, por conta de
pr e tVP estarem com
pesos iguais
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 25 / 44
Estimando o Erro
Comparando
Algoritmos
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 26 / 44
Medidas alternativas
Gráficos ROC
Um modo de usar algumas dessas métricas é
criarmos um gráfico ROC
Receiver operating characteristics
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 27 / 44
Medidas alternativas
Gráficos ROC
Um modo de usar algumas dessas métricas é
criarmos um gráfico ROC
Receiver operating characteristics
Gráfico de tVP × tFP
Mostra a relação entre as taxas de
acertos e de alarmes falsos
Relação entre benefı́cios e custos
Ilustração bidimensional do
desempenho de um classificador Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 27 / 44
Medidas alternativas
Gráficos ROC
E como criamos um gráfico ROC?
Depende do tipo de classificador
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 28 / 44
Medidas alternativas
Gráficos ROC
E como criamos um gráfico ROC?
Depende do tipo de classificador
Classificadores discretos:
São os que produzem um rótulo de
classe apenas
Ex: árvores de decisão
Representados por um único ponto
no gráfico
Pois produzem uma única matriz de
confusão para o conjunto de teste Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 28 / 44
Medidas alternativas
Gráficos ROC
E como criamos um gráfico ROC?
Depende do tipo de classificador
Classificadores discretos:
São os que produzem um rótulo de
classe apenas
Ex: árvores de decisão
Representados por um único ponto
no gráfico
Pois produzem uma única matriz de
confusão para o conjunto de teste
classificadores
no espaço ROC
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 28 / 44
Medidas alternativas
Gráficos ROC – Classificadores discretos
Mesmo parecendo simples, esse gráfico já nos
mostra muita coisa
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 29 / 44
Medidas alternativas
Gráficos ROC – Classificadores discretos
Mesmo parecendo simples, esse gráfico já nos
mostra muita coisa
Se queremos aumentar os positivos
verdadeiros, mesmo que isso gere
falsos positivos, então B é melhor
que A
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 29 / 44
Medidas alternativas
Gráficos ROC – Classificadores discretos
Mesmo parecendo simples, esse gráfico já nos
mostra muita coisa
Se queremos aumentar os positivos
verdadeiros, mesmo que isso gere
falsos positivos, então B é melhor
que A
D é o melhor de todos: 100% de
acertos nos positivos, sem falsos
positivos
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 29 / 44
Medidas alternativas
Gráficos ROC – Classificadores discretos
Note também que
O ponto (0, 0) representa a
estratégia de nunca classificar algo
como positivo
Não acerta um positivo, mas também
não tem falsos positivos
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 30 / 44
Medidas alternativas
Gráficos ROC – Classificadores discretos
Note também que
O ponto (0, 0) representa a
estratégia de nunca classificar algo
como positivo
Não acerta um positivo, mas também
não tem falsos positivos
A estratégia oposta, de classificar
tudo como positivo, corresponde ao
ponto (1, 1) Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 30 / 44
Medidas alternativas
Gráficos ROC – Classificadores discretos
Note também que
O ponto (0, 0) representa a
estratégia de nunca classificar algo
como positivo
Não acerta um positivo, mas também
não tem falsos positivos
A estratégia oposta, de classificar
tudo como positivo, corresponde ao
ponto (1, 1) Fonte: [6]
E (0, 1) representa a classificação perfeita
É nesse ponto que desejamos estar
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 30 / 44
Medidas alternativas
Gráficos ROC – Classificadores discretos
A linha y = x representa a decisão aleatória
Se um classificador aleatoriamente
escolher a classe positiva 50% das
vezes, espera-se que classifique
como positivos 50% dos positivos,
mas também 50% dos negativos
O que o coloca no ponto (0.5, 0.5)
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 31 / 44
Medidas alternativas
Gráficos ROC – Classificadores discretos
A linha y = x representa a decisão aleatória
Se um classificador aleatoriamente
escolher a classe positiva 50% das
vezes, espera-se que classifique
como positivos 50% dos positivos,
mas também 50% dos negativos
O que o coloca no ponto (0.5, 0.5)
Se escolher a positiva 90% das
vezes, espera-se que acerte 90% dos
positivos, e erre 90% dos negativos
Levando ao ponto (0.9, 0.9)
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 31 / 44
Medidas alternativas
Gráficos ROC – Classificadores discretos
Note que C não difere de um classificador que
escolha positivo 70% das vezes
Dizemos que classificadores na
diagonal não têm qualquer
informação sobre a classe
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 32 / 44
Medidas alternativas
Gráficos ROC – Classificadores discretos
Note que C não difere de um classificador que
escolha positivo 70% das vezes
Dizemos que classificadores na
diagonal não têm qualquer
informação sobre a classe
Mas pior é E
Se negarmos suas decisões
obteremos B
Classificadores assim têm informação
útil, mas a aplicam de forma errada Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 32 / 44
Medidas alternativas
Gráficos ROC
Classificadores contı́nuos
São os que produzem um valor (ex: uma probabilidade)
representando o quanto uma instância pertence a uma
determinada classe
Ex: Naı̈ve Bayes e redes neurais
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 33 / 44
Medidas alternativas
Gráficos ROC
Classificadores contı́nuos
São os que produzem um valor (ex: uma probabilidade)
representando o quanto uma instância pertence a uma
determinada classe
Ex: Naı̈ve Bayes e redes neurais
Aplica-se então um limiar (threshold), para predizer a classe
dessa instância
Se a saı́da do classificador for maior ou igual ao limiar, ele produz
um Y, do contrário produzirá um N
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 33 / 44
Medidas alternativas
Gráficos ROC
Classificadores contı́nuos
São os que produzem um valor (ex: uma probabilidade)
representando o quanto uma instância pertence a uma
determinada classe
Ex: Naı̈ve Bayes e redes neurais
Aplica-se então um limiar (threshold), para predizer a classe
dessa instância
Se a saı́da do classificador for maior ou igual ao limiar, ele produz
um Y, do contrário produzirá um N
Transformamos assim o classificador em um classificador
discreto
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 33 / 44
Gráficos ROC
Classificadores contı́nuos
E como os representamos no gráfico ROC?
Inserimos um ponto diferente para cada limiar
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 34 / 44
Gráficos ROC
Classificadores contı́nuos
E como os representamos no gráfico ROC?
Inserimos um ponto diferente para cada limiar
Considere o conjunto de
teste
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 34 / 44
Gráficos ROC
Classificadores contı́nuos
E como os representamos no gráfico ROC?
Inserimos um ponto diferente para cada limiar
Considere o conjunto de
teste
Temos 10 exemplos p e 10 n
Ordenados pelo valor dado
pelo classificador
Um limiar de 0,7 classificaria
como P apenas os 3 exemplos
do topo (score ≥ 0, 7) Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 34 / 44
Gráficos ROC
Classificadores contı́nuos
Variamos então esse limiar
0,9: apenas o exemplo 1
recebe o rótulo P, os demais
N
0,8: apenas 2 e 3 são P, os
demais N
. . .
0,3: do 1 ao 19 são P, os
demais N
0,1: todos são P Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 35 / 44
Gráficos ROC
Classificadores contı́nuos
Levando ao gráfico
Fonte: [6]
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
Gráficos ROC
Classificadores contı́nuos
Levando ao gráfico
Fonte: [6]
Limiar 0,9: o exemplo
1 é P, os demais N
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
Gráficos ROC
Classificadores contı́nuos
Levando ao gráfico
Fonte: [6]
tVP =
1
10
= 0, 1
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
Gráficos ROC
Classificadores contı́nuos
Levando ao gráfico
Fonte: [6]
tFP =
0
10
= 0, 0
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
Gráficos ROC
Classificadores contı́nuos
Levando ao gráfico
Fonte: [6]
Limiar 0,39: de 1 a 12
são P, os demais N
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
Gráficos ROC
Classificadores contı́nuos
Levando ao gráfico
Fonte: [6]
tVP =
7
10
= 0, 7
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
Gráficos ROC
Classificadores contı́nuos
Levando ao gráfico
Fonte: [6]
tFP =
5
10
= 0, 5
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
Gráficos ROC
Classificadores contı́nuos
Levando ao gráfico
Fonte: [6]
Limiar +∞ pro-
duz o ponto (0, 0)
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
Gráficos ROC
Área sob a Curva
Para comparar classificadores pode ser útil reduzir a
curva ROC a um único valor
Representando o desempenho
esperado (ou seja, médio) de
cada classificador
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 37 / 44
Gráficos ROC
Área sob a Curva
Para comparar classificadores pode ser útil reduzir a
curva ROC a um único valor
Representando o desempenho
esperado (ou seja, médio) de
cada classificador
Uma forma de fazer isso é
calcular a área sob a curva
0 ≤ área ≤ 1
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 37 / 44
Gráficos ROC
Área sob a Curva
O classificador com maior área será aquele que, em
média, possui o melhor desempenho
No caso, B
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 38 / 44
Gráficos ROC
Área sob a Curva
O classificador com maior área será aquele que, em
média, possui o melhor desempenho
No caso, B
Lembre que a escolha
aleatória produz a linha
y = x
Nenhum classificar real pode ter
uma área menor que 0,5
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 38 / 44
Gráficos ROC
Área sob a Curva
Podemos inclusive comparar classificadores discretos
e contı́nuos
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 39 / 44
Gráficos ROC
Área sob a Curva
Podemos inclusive comparar classificadores discretos
e contı́nuos
No exemplo, A é discreto e B
contı́nuo
Vemos que A representa o
desempenho de B quando este é
usado com um único limiar fixo
Embora nesse ponto o
desempenho de ambos seja igual,
o desempenho de A é inferior nos
demais pontos Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 39 / 44
Gráficos ROC
Área sob a Curva
A área possui uma propriedade interessante
Equivale à probabilidade do
classificador elencar um exemplo
positivo escolhido aleatoriamente
mais alto que um exemplo
negativo escolhido
aleatoriamente
Se p = 1, então há um limiar
dividindo perfeitamente positivos de
negativos
Corresponde ao teste de
Wilcoxon (Wilcoxon rank-test)
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 40 / 44
Referências
1 Witten, I.H.; Frank, E. (2005): Data Mining: Practical Machine Learning
Tools and Techniques. Elsevier. 2a ed.
2 Goodfellow, I.; Bengio, Y.; Courville, A. (2016): Deep Learning. MIT
Press.
3 Mitchell, T.M.: Machine Learning. McGraw-Hill. 1997.
4 Hastie, T.; Tibshirani, R.; Friedman, J. (2009): The Elements of
Statistical Learning: Data Mining, Inference, and Prediction. Springer.
2a ed.
5 Alpaydın, E. (2010): Introduction to Machine Learning. MIT Press. 2 ed.
6 Fawcett, T. (2006): An Introduction to ROC Analysis. Pattern
Recognition Letters, 27, pp. 861-874.
7 https://www.dataquest.io/blog/learning-curves-machine-
learning/
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 41 / 44
Referências
8 http://scott.fortmann-roe.com/docs/BiasVariance.html
9 https://en.wikipedia.org/wiki/Precision_and_recall
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 42 / 44
Apêndice I
Variância
Var(θ̂) = E((θ̂ − E(θ̂))2
)
= E(θ̂2
− 2θ̂E(θ̂) + E2
(θ̂))
= E(θ̂2
) − 2E(θ̂)E(θ̂) + E2
(θ̂)
= E(θ̂2
) − 2E2
(θ̂) + E2
(θ̂)
= E(θ̂2
) − E2
(θ̂)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 43 / 44
Apêndice II
Erro quadrático médio
EQM(θ̂) = E((θ̂ − θ)2
)
= E(θ̂2
− 2θθ̂ + θ2
)
= E(θ̂2
) − 2θE(θ̂) + θ2
= E(θ̂2
) − 2θE(θ̂) + θ2
+ E2
(θ̂) − E2
(θ̂)
= (E2
(θ̂) − 2θE(θ̂) + θ2
) + (E(θ̂2
) − E2
(θ̂))
= (E(θ̂) − θ)2
+ (E(θ̂2
) − E2
(θ̂))
= Viés2
(θ̂) + Var(θ̂)
Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 44 / 44

Mais conteúdo relacionado

Mais de Norton Trevisan Roman

(ACH2044) Inteligência Artificial - Aula 22
(ACH2044) Inteligência Artificial - Aula 22(ACH2044) Inteligência Artificial - Aula 22
(ACH2044) Inteligência Artificial - Aula 22Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 21
(ACH2044) Inteligência Artificial - Aula 21(ACH2044) Inteligência Artificial - Aula 21
(ACH2044) Inteligência Artificial - Aula 21Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 20
(ACH2044) Inteligência Artificial - Aula 20(ACH2044) Inteligência Artificial - Aula 20
(ACH2044) Inteligência Artificial - Aula 20Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 19
(ACH2044) Inteligência Artificial - Aula 19(ACH2044) Inteligência Artificial - Aula 19
(ACH2044) Inteligência Artificial - Aula 19Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 17
(ACH2044) Inteligência Artificial - Aula 17(ACH2044) Inteligência Artificial - Aula 17
(ACH2044) Inteligência Artificial - Aula 17Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 15
(ACH2044) Inteligência Artificial - Aula 15(ACH2044) Inteligência Artificial - Aula 15
(ACH2044) Inteligência Artificial - Aula 15Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 14
(ACH2044) Inteligência Artificial - Aula 14(ACH2044) Inteligência Artificial - Aula 14
(ACH2044) Inteligência Artificial - Aula 14Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 13
(ACH2044) Inteligência Artificial - Aula 13(ACH2044) Inteligência Artificial - Aula 13
(ACH2044) Inteligência Artificial - Aula 13Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 12
(ACH2044) Inteligência Artificial - Aula 12(ACH2044) Inteligência Artificial - Aula 12
(ACH2044) Inteligência Artificial - Aula 12Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 11
(ACH2044) Inteligência Artificial - Aula 11(ACH2044) Inteligência Artificial - Aula 11
(ACH2044) Inteligência Artificial - Aula 11Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 10
(ACH2044) Inteligência Artificial - Aula 10(ACH2044) Inteligência Artificial - Aula 10
(ACH2044) Inteligência Artificial - Aula 10Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 07
(ACH2044) Inteligência Artificial - Aula 07(ACH2044) Inteligência Artificial - Aula 07
(ACH2044) Inteligência Artificial - Aula 07Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 04
(ACH2044) Inteligência Artificial - Aula 04(ACH2044) Inteligência Artificial - Aula 04
(ACH2044) Inteligência Artificial - Aula 04Norton Trevisan Roman
 
(ACH2044) Inteligência Artificial - Aula 03
(ACH2044) Inteligência Artificial - Aula 03(ACH2044) Inteligência Artificial - Aula 03
(ACH2044) Inteligência Artificial - Aula 03Norton Trevisan Roman
 
(ACH2001) Introdução à Programação - Aula 23
(ACH2001) Introdução à Programação - Aula 23(ACH2001) Introdução à Programação - Aula 23
(ACH2001) Introdução à Programação - Aula 23Norton Trevisan Roman
 
(ACH2001) Introdução à Programação - Aula 22
(ACH2001) Introdução à Programação - Aula 22(ACH2001) Introdução à Programação - Aula 22
(ACH2001) Introdução à Programação - Aula 22Norton Trevisan Roman
 
(ACH2001) Introdução à Programação - Aula 21
(ACH2001) Introdução à Programação - Aula 21(ACH2001) Introdução à Programação - Aula 21
(ACH2001) Introdução à Programação - Aula 21Norton Trevisan Roman
 
(ACH2001) Introdução à Programação - Aula 20
(ACH2001) Introdução à Programação - Aula 20(ACH2001) Introdução à Programação - Aula 20
(ACH2001) Introdução à Programação - Aula 20Norton Trevisan Roman
 
(ACH2001) Introdução à Programação - Aula 19
(ACH2001) Introdução à Programação - Aula 19(ACH2001) Introdução à Programação - Aula 19
(ACH2001) Introdução à Programação - Aula 19Norton Trevisan Roman
 
(ACH2001) Introdução à Programação - Aula 18
(ACH2001) Introdução à Programação - Aula 18(ACH2001) Introdução à Programação - Aula 18
(ACH2001) Introdução à Programação - Aula 18Norton Trevisan Roman
 

Mais de Norton Trevisan Roman (20)

(ACH2044) Inteligência Artificial - Aula 22
(ACH2044) Inteligência Artificial - Aula 22(ACH2044) Inteligência Artificial - Aula 22
(ACH2044) Inteligência Artificial - Aula 22
 
(ACH2044) Inteligência Artificial - Aula 21
(ACH2044) Inteligência Artificial - Aula 21(ACH2044) Inteligência Artificial - Aula 21
(ACH2044) Inteligência Artificial - Aula 21
 
(ACH2044) Inteligência Artificial - Aula 20
(ACH2044) Inteligência Artificial - Aula 20(ACH2044) Inteligência Artificial - Aula 20
(ACH2044) Inteligência Artificial - Aula 20
 
(ACH2044) Inteligência Artificial - Aula 19
(ACH2044) Inteligência Artificial - Aula 19(ACH2044) Inteligência Artificial - Aula 19
(ACH2044) Inteligência Artificial - Aula 19
 
(ACH2044) Inteligência Artificial - Aula 17
(ACH2044) Inteligência Artificial - Aula 17(ACH2044) Inteligência Artificial - Aula 17
(ACH2044) Inteligência Artificial - Aula 17
 
(ACH2044) Inteligência Artificial - Aula 15
(ACH2044) Inteligência Artificial - Aula 15(ACH2044) Inteligência Artificial - Aula 15
(ACH2044) Inteligência Artificial - Aula 15
 
(ACH2044) Inteligência Artificial - Aula 14
(ACH2044) Inteligência Artificial - Aula 14(ACH2044) Inteligência Artificial - Aula 14
(ACH2044) Inteligência Artificial - Aula 14
 
(ACH2044) Inteligência Artificial - Aula 13
(ACH2044) Inteligência Artificial - Aula 13(ACH2044) Inteligência Artificial - Aula 13
(ACH2044) Inteligência Artificial - Aula 13
 
(ACH2044) Inteligência Artificial - Aula 12
(ACH2044) Inteligência Artificial - Aula 12(ACH2044) Inteligência Artificial - Aula 12
(ACH2044) Inteligência Artificial - Aula 12
 
(ACH2044) Inteligência Artificial - Aula 11
(ACH2044) Inteligência Artificial - Aula 11(ACH2044) Inteligência Artificial - Aula 11
(ACH2044) Inteligência Artificial - Aula 11
 
(ACH2044) Inteligência Artificial - Aula 10
(ACH2044) Inteligência Artificial - Aula 10(ACH2044) Inteligência Artificial - Aula 10
(ACH2044) Inteligência Artificial - Aula 10
 
(ACH2044) Inteligência Artificial - Aula 07
(ACH2044) Inteligência Artificial - Aula 07(ACH2044) Inteligência Artificial - Aula 07
(ACH2044) Inteligência Artificial - Aula 07
 
(ACH2044) Inteligência Artificial - Aula 04
(ACH2044) Inteligência Artificial - Aula 04(ACH2044) Inteligência Artificial - Aula 04
(ACH2044) Inteligência Artificial - Aula 04
 
(ACH2044) Inteligência Artificial - Aula 03
(ACH2044) Inteligência Artificial - Aula 03(ACH2044) Inteligência Artificial - Aula 03
(ACH2044) Inteligência Artificial - Aula 03
 
(ACH2001) Introdução à Programação - Aula 23
(ACH2001) Introdução à Programação - Aula 23(ACH2001) Introdução à Programação - Aula 23
(ACH2001) Introdução à Programação - Aula 23
 
(ACH2001) Introdução à Programação - Aula 22
(ACH2001) Introdução à Programação - Aula 22(ACH2001) Introdução à Programação - Aula 22
(ACH2001) Introdução à Programação - Aula 22
 
(ACH2001) Introdução à Programação - Aula 21
(ACH2001) Introdução à Programação - Aula 21(ACH2001) Introdução à Programação - Aula 21
(ACH2001) Introdução à Programação - Aula 21
 
(ACH2001) Introdução à Programação - Aula 20
(ACH2001) Introdução à Programação - Aula 20(ACH2001) Introdução à Programação - Aula 20
(ACH2001) Introdução à Programação - Aula 20
 
(ACH2001) Introdução à Programação - Aula 19
(ACH2001) Introdução à Programação - Aula 19(ACH2001) Introdução à Programação - Aula 19
(ACH2001) Introdução à Programação - Aula 19
 
(ACH2001) Introdução à Programação - Aula 18
(ACH2001) Introdução à Programação - Aula 18(ACH2001) Introdução à Programação - Aula 18
(ACH2001) Introdução à Programação - Aula 18
 

Último

About Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de HotéisAbout Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de Hotéisines09cachapa
 
Antero de Quental, sua vida e sua escrita
Antero de Quental, sua vida e sua escritaAntero de Quental, sua vida e sua escrita
Antero de Quental, sua vida e sua escritaPaula Duarte
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxLuizHenriquedeAlmeid6
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfFrancisco Márcio Bezerra Oliveira
 
praticas experimentais 1 ano ensino médio
praticas experimentais 1 ano ensino médiopraticas experimentais 1 ano ensino médio
praticas experimentais 1 ano ensino médiorosenilrucks
 
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...AndreaCavalcante14
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfLeloIurk1
 
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdfPROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdfHELENO FAVACHO
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxAntonioVieira539017
 
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfHELENO FAVACHO
 
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdfLeloIurk1
 
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAPROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAHELENO FAVACHO
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesFabianeMartins35
 
Atividade - Letra da música Esperando na Janela.
Atividade -  Letra da música Esperando na Janela.Atividade -  Letra da música Esperando na Janela.
Atividade - Letra da música Esperando na Janela.Mary Alvarenga
 
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...Francisco Márcio Bezerra Oliveira
 
P P P 2024 - *CIEJA Santana / Tucuruvi*
P P P 2024  - *CIEJA Santana / Tucuruvi*P P P 2024  - *CIEJA Santana / Tucuruvi*
P P P 2024 - *CIEJA Santana / Tucuruvi*Viviane Moreiras
 
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfPROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfHELENO FAVACHO
 
Camadas da terra -Litosfera conteúdo 6º ano
Camadas da terra -Litosfera  conteúdo 6º anoCamadas da terra -Litosfera  conteúdo 6º ano
Camadas da terra -Litosfera conteúdo 6º anoRachel Facundo
 
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdfApresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdfcomercial400681
 
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffffSSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffffNarlaAquino
 

Último (20)

About Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de HotéisAbout Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de Hotéis
 
Antero de Quental, sua vida e sua escrita
Antero de Quental, sua vida e sua escritaAntero de Quental, sua vida e sua escrita
Antero de Quental, sua vida e sua escrita
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
 
praticas experimentais 1 ano ensino médio
praticas experimentais 1 ano ensino médiopraticas experimentais 1 ano ensino médio
praticas experimentais 1 ano ensino médio
 
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
 
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdfPROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
 
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
 
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
 
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAPROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
 
Atividade - Letra da música Esperando na Janela.
Atividade -  Letra da música Esperando na Janela.Atividade -  Letra da música Esperando na Janela.
Atividade - Letra da música Esperando na Janela.
 
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
 
P P P 2024 - *CIEJA Santana / Tucuruvi*
P P P 2024  - *CIEJA Santana / Tucuruvi*P P P 2024  - *CIEJA Santana / Tucuruvi*
P P P 2024 - *CIEJA Santana / Tucuruvi*
 
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfPROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
 
Camadas da terra -Litosfera conteúdo 6º ano
Camadas da terra -Litosfera  conteúdo 6º anoCamadas da terra -Litosfera  conteúdo 6º ano
Camadas da terra -Litosfera conteúdo 6º ano
 
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdfApresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
 
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffffSSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
 

(ACH2044) Inteligência Artificial - Aula 24

  • 1. Inteligência Artificial – ACH2016 Aula24 – Estimando o Erro e Comparação de Modelos Norton Trevisan Roman (norton@usp.br) 17 de junho de 2019 Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 1 / 44
  • 2. Estimando o Erro Erro de treino e teste Quando analisamos nossos dados, tipicamente fazemos suposições Cada exemplo é independente dos demais Conjunto de treino e teste são distribuı́dos de forma idêntica Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 2 / 44
  • 3. Estimando o Erro Erro de treino e teste Quando analisamos nossos dados, tipicamente fazemos suposições Cada exemplo é independente dos demais Conjunto de treino e teste são distribuı́dos de forma idêntica Sob essas circunstâncias, o erro esperado de um modelo selecionado aleatoriamente é igual tanto no conjunto de treino quanto no de teste Lembre que o modelo não foi treinado, mas selecionado aleatoriamente Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 2 / 44
  • 4. Estimando o Erro Erro de treino e teste Selecionar modelos aleatoriamente, contudo, não é o que fazemos Definimos um modelo e o ajustamos (treinamos) no conjunto de treino, testando no conjunto de teste O erro esperado no teste é então maior que no treino Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 3 / 44
  • 5. Estimando o Erro Erro de treino e teste Selecionar modelos aleatoriamente, contudo, não é o que fazemos Definimos um modelo e o ajustamos (treinamos) no conjunto de treino, testando no conjunto de teste O erro esperado no teste é então maior que no treino No entanto, um bom algoritmo deveria Apresentar baixo erro no treino Apresentar uma diferença pequena entre os erros de treino e teste Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 3 / 44
  • 6. Estimando o Erro Estimativa de Ponto É a tentativa de dar a melhor predição para alguma quantidade de interesse Como a classificação de um determinado ponto, por exemplo Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 4 / 44
  • 7. Estimando o Erro Estimativa de Ponto É a tentativa de dar a melhor predição para alguma quantidade de interesse Como a classificação de um determinado ponto, por exemplo Normalmente desconhecemos o valor real desse parâmetro para um ponto ainda não visto Estimamos assim esse valor, com base no padrão observado durante o treinamento Temos assim um θ̂, estimativa do parâmetro θ para um dado ponto Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 4 / 44
  • 8. Estimando o Erro Estimativa de Ponto Seja {~ x1, . . . , ~ xm} um conjunto de m pontos independentes e identicamente distribuı́dos Um Estimador para esse conjunto é uma variável aleatória θ̂ usada para estimar algum parâmetro θ da população É uma função θ̂ = g(~ x1, . . . , ~ xm) dos dados Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 5 / 44
  • 9. Estimando o Erro Estimativa de Ponto Seja {~ x1, . . . , ~ xm} um conjunto de m pontos independentes e identicamente distribuı́dos Um Estimador para esse conjunto é uma variável aleatória θ̂ usada para estimar algum parâmetro θ da população É uma função θ̂ = g(~ x1, . . . , ~ xm) dos dados Assim, cada modelo Mi aprendido para predizer uma classe θ pode ser visto como um estimador θ̂i Mi , por si só, é uma estimativa da função real que gera os dados (e cuja existência assumimos) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 5 / 44
  • 10. Estimando o Erro Estimador de Ponto: Viés Definimos o viés de um estimador como sendo Viés(θ̂) = E(θ̂) − θ O viés mede assim o desvio esperado do estimador em relação ao valor real do parâmetro θ Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 6 / 44
  • 11. Estimando o Erro Estimador de Ponto: Viés Valor esperado do estimador θ̂ (sua média) Definimos o viés de um estimador como sendo Viés(θ̂) = E(θ̂) − θ O viés mede assim o desvio esperado do estimador em relação ao valor real do parâmetro θ Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 6 / 44
  • 12. Estimando o Erro Estimador de Ponto: Viés E(θ̂) = n X i=1 θ̂i P(Θ̂ = θ̂i ) Definimos o viés de um estimador como sendo Viés(θ̂) = E(θ̂) − θ O viés mede assim o desvio esperado do estimador em relação ao valor real do parâmetro θ Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 6 / 44
  • 13. Estimando o Erro Estimador de Ponto: Viés Valor real do parâmetro que estimamos com θ̂ Definimos o viés de um estimador como sendo Viés(θ̂) = E(θ̂) − θ O viés mede assim o desvio esperado do estimador em relação ao valor real do parâmetro θ Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 6 / 44
  • 14. Estimando o Erro Estimador de Ponto: Viés Definimos o viés de um estimador como sendo Viés(θ̂) = E(θ̂) − θ O viés mede assim o desvio esperado do estimador em relação ao valor real do parâmetro θ Um bom estimador deveria dar um valor perto de θ Ou seja, um bom estimador θ̂ é aquele em que Viés(θ̂) ≈ 0 Se Viés(θ̂) = 0 trata-se de um estimador sem viés Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 6 / 44
  • 15. Estimando o Erro Estimador de Ponto: Variância Mede o quanto de variação no estimador é esperado com diferentes amostras de treino Var(θ̂) = E((θ̂ − E(θ̂))2 ) = E(θ̂2 ) − E2 (θ̂) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 7 / 44
  • 16. Estimando o Erro Estimador de Ponto: Variância Mede o quanto de variação no estimador é esperado com diferentes amostras de treino Var(θ̂) = E((θ̂ − E(θ̂))2 ) = E(θ̂2 ) − E2 (θ̂) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 7 / 44
  • 17. Estimando o Erro Estimador de Ponto: Variância Demonstração no final dos slides Mede o quanto de variação no estimador é esperado com diferentes amostras de treino Var(θ̂) = E((θ̂ − E(θ̂))2 ) = E(θ̂2 ) − E2 (θ̂) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 7 / 44
  • 18. Estimando o Erro Estimador de Ponto: Variância Demonstração no final dos slides Mede o quanto de variação no estimador é esperado com diferentes amostras de treino Var(θ̂) = E((θ̂ − E(θ̂))2 ) = E(θ̂2 ) − E2 (θ̂) Mede como esperamos que θ̂ varie, em relação a seu valor esperado, ao treinarmos em novas amostras independentes dos dados O tanto que θ̂ varia na medida em que mudamos os conjuntos de treino Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 7 / 44
  • 19. Estimando o Erro Estimador de Ponto: Viés × Variância Da mesma forma que gostarı́amos de ter um estimador com pouco viés, também gostarı́amos que apresentasse baixa variância Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 8 / 44
  • 20. Estimando o Erro Estimador de Ponto: Viés × Variância Da mesma forma que gostarı́amos de ter um estimador com pouco viés, também gostarı́amos que apresentasse baixa variância Queremos então que se ajuste bem aos dados de treino (baixo viés) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 8 / 44
  • 21. Estimando o Erro Estimador de Ponto: Viés × Variância Da mesma forma que gostarı́amos de ter um estimador com pouco viés, também gostarı́amos que apresentasse baixa variância Queremos então que se ajuste bem aos dados de treino (baixo viés) E também a diferentes conjuntos de treino (baixa variância) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 8 / 44
  • 22. Estimando o Erro Estimador de Ponto: Viés × Variância Da mesma forma que gostarı́amos de ter um estimador com pouco viés, também gostarı́amos que apresentasse baixa variância Queremos então que se ajuste bem aos dados de treino (baixo viés) E também a diferentes conjuntos de treino (baixa variância) Note que uma grande variância é um indicativo do comportamento em dados não vistos Se treinar com dados distintos leva a θ̂s bastante distintos, o θ̂ de um treino pode não corresponder ao do teste Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 8 / 44
  • 23. Estimando o Erro Estimador de Ponto: Viés × Variância Como podemos conciliar isso? A maneira mais comum é usando validação cruzada Ou então adotando uma medida de erro que leve em conta tanto viés quanto variância Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 9 / 44
  • 24. Estimando o Erro Estimador de Ponto: Viés × Variância Como podemos conciliar isso? A maneira mais comum é usando validação cruzada Ou então adotando uma medida de erro que leve em conta tanto viés quanto variância Essa medida é o erro quadrático médio EQM(θ̂) = E((θ̂ − θ)2 ) = Viés2 (θ̂) + Var(θ̂) que mede o desvio total esperado entre o estimador θ̂ e o valor real do parâmetro θ Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 9 / 44
  • 25. Estimando o Erro Estimador de Ponto: Viés × Variância Como podemos conciliar isso? A maneira mais comum é usando validação cruzada Ou então adotando uma medida de erro que leve em conta tanto viés quanto variância Essa medida é o erro quadrático médio EQM(θ̂) = E((θ̂ − θ)2 ) = Viés2 (θ̂) + Var(θ̂) que mede o desvio total esperado entre o estimador θ̂ e o valor real do parâmetro θ Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 9 / 44
  • 26. Estimando o Erro Estimador de Ponto: Viés × Variância Demonstração no final dos slides Como podemos conciliar isso? A maneira mais comum é usando validação cruzada Ou então adotando uma medida de erro que leve em conta tanto viés quanto variância Essa medida é o erro quadrático médio EQM(θ̂) = E((θ̂ − θ)2 ) = Viés2 (θ̂) + Var(θ̂) que mede o desvio total esperado entre o estimador θ̂ e o valor real do parâmetro θ Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 9 / 44
  • 27. Estimando o Erro Estimador de Ponto: Viés × Variância EQM(θ̂) = E((θ̂ − θ)2 ) Note que a variância Var(θ̂) = E((θ̂ − E(θ̂))2 ) nada mais é que o erro quadrático esperado ao usarmos uma única observação de θ̂ para estimar sua média E(θ̂) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 10 / 44
  • 28. Estimando o Erro Estimador de Ponto: Viés × Variância EQM(θ̂) = E((θ̂ − θ)2 ) Note que a variância Var(θ̂) = E((θ̂ − E(θ̂))2 ) nada mais é que o erro quadrático esperado ao usarmos uma única observação de θ̂ para estimar sua média E(θ̂) Se pudéssemos reduzir o erro indefinidamente, então terı́amos: Viés(θ̂) = 0 e Var(θ̂) = 0 Estarı́amos com o modelo real, calibrado em infinitos dados Esse, contudo, não é o caso Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 10 / 44
  • 29. Estimando o Erro Estimador de Ponto: Viés × Variância Temos dados finitos, e geralmente com ruı́do Ou seja, θ = θreal + ε (θ não é de fato o valor real, há um ruı́do ε), e assim EQM(θ̂) > 0 Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 11 / 44
  • 30. Estimando o Erro Estimador de Ponto: Viés × Variância Temos dados finitos, e geralmente com ruı́do Ou seja, θ = θreal + ε (θ não é de fato o valor real, há um ruı́do ε), e assim EQM(θ̂) > 0 Ressurge assim nosso dilema: Suponha que EQM(θ̂) = Viés2 (θ̂) + Var(θ̂) > 0 é mı́nimo Então, ao reduzirmos Viés(θ̂), necessariamente aumentamos Var(θ̂) para compensar → overfitting E, ao reduzirmos Var(θ̂), necessariamente aumentamos Viés(θ̂) para compensar → underfitting Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 11 / 44
  • 31. Estimando o Erro Estimador de Ponto: Capacidade E como reduzimos o viés de um modelo? Aumentando sua capacidade (ou complexidade) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 12 / 44
  • 32. Estimando o Erro Estimador de Ponto: Capacidade E como reduzimos o viés de um modelo? Aumentando sua capacidade (ou complexidade) Informalmente, capacidade é a habilidade de um modelo de se ajustar a uma variedade de funções Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 12 / 44
  • 33. Estimando o Erro Estimador de Ponto: Capacidade E como reduzimos o viés de um modelo? Aumentando sua capacidade (ou complexidade) Informalmente, capacidade é a habilidade de um modelo de se ajustar a uma variedade de funções Modelos com alta capacidade reduzem o erro de treino Em compensação, podem se ajustar até ao ruı́do lá existente (overfitting) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 12 / 44
  • 34. Estimando o Erro Estimador de Ponto: Capacidade E como reduzimos o viés de um modelo? Aumentando sua capacidade (ou complexidade) Informalmente, capacidade é a habilidade de um modelo de se ajustar a uma variedade de funções Modelos com alta capacidade reduzem o erro de treino Em compensação, podem se ajustar até ao ruı́do lá existente (overfitting) Modelos com baixa capacidade podem ter dificuldades em se ajustar aos dados de treino (underfitting) Em compensação a diferença com dados de teste não será grande Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 12 / 44
  • 35. Estimando o Erro Estimador de Ponto: Capacidade Ex: Função real quadrática Modelo linear Modelo quadrático Polinômio grau 9 Subajuste Bom ajuste Superajuste Fonte: Adaptado de DL. Goodfellow. Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 13 / 44
  • 36. Estimando o Erro Estimador de Ponto: Capacidade O truque está em achar a capacidade ideal Devemos testar várias capacidades, identificando o ponto em que a distância entre erro de treino e de generalização começa a ficar muito grande Fonte: DL. Goodfellow. Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 14 / 44
  • 37. Estimando o Erro Medidas Alternativas de Erro Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 15 / 44
  • 38. Estimando o Erro Medidas alternativas Considere o seguinte cenário Uma determinada doença fatal atinge 0,1% da população Queremos desenvolver um sistema que, a partir de determinados atributos, diga se uma pessoa tem ou não alta probabilidade de ter essa doença Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 16 / 44
  • 39. Estimando o Erro Medidas alternativas Considere o seguinte cenário Uma determinada doença fatal atinge 0,1% da população Queremos desenvolver um sistema que, a partir de determinados atributos, diga se uma pessoa tem ou não alta probabilidade de ter essa doença Agora considere um sistema que, independentemente de quem entre no consultório, diz que essa pessoa não possui essa doença Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 16 / 44
  • 40. Estimando o Erro Medidas alternativas Considere o seguinte cenário Uma determinada doença fatal atinge 0,1% da população Queremos desenvolver um sistema que, a partir de determinados atributos, diga se uma pessoa tem ou não alta probabilidade de ter essa doença Agora considere um sistema que, independentemente de quem entre no consultório, diz que essa pessoa não possui essa doença Taxa de erro de 0,1% – Maravilhoso! Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 16 / 44
  • 41. Estimando o Erro Medidas alternativas Qual o problema? A taxa de erro supõe custos de erro idênticos para cada classe Não importa se os erros ficaram bem distribuı́dos entre as classes ou se se concentraram em uma única delas Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 17 / 44
  • 42. Estimando o Erro Medidas alternativas Qual o problema? A taxa de erro supõe custos de erro idênticos para cada classe Não importa se os erros ficaram bem distribuı́dos entre as classes ou se se concentraram em uma única delas Em algumas situações, contudo, o custo de errar em uma classe é maior que o de errar em outra É melhor termos um alarme falso (apontarmos como doentes pessoas sem a doença) do que não detectarmos um caso real (apontarmos como sadios quem possui a doença) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 17 / 44
  • 43. Estimando o Erro Medidas alternativas Dada uma instância, as possı́veis saı́das de um classificador binário são: A instância é positiva e foi classificada como positiva (verdadeiro positivo) A instância é positiva e foi classificada como negativa (falso negativo) A instância é negativa e foi classificada como negativa (verdadeiro negativo) A instância é negativa e foi classificada como positiva (falso positivo) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 18 / 44
  • 44. Estimando o Erro Medidas alternativas Dado um classificador e um conjunto de instâncias, essas 4 possibilidades podem ser organizadas em uma tabela Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 19 / 44
  • 45. Estimando o Erro Medidas alternativas Dado um classificador e um conjunto de instâncias, essas 4 possibilidades podem ser organizadas em uma tabela A Matriz de Confusão, ou Tabela de Contingência Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 19 / 44
  • 46. Estimando o Erro Medidas alternativas Valores na diagonal principal representam as decisões corretas Os da secundária representam os erros – a confusão entre as classes Daı́ o nome... Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 20 / 44
  • 47. Estimando o Erro Medidas alternativas Podemos então calcular diversas métricas Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 21 / 44
  • 48. Estimando o Erro Medidas alternativas Podemos então calcular diversas métricas Taxa de verdadeiros positivos tVP = TP P Também chamada de abrangência ou revocação (recall) Fonte: [6] De todos os positivos existentes, quantos classificamos como tal Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 21 / 44
  • 49. Estimando o Erro Medidas alternativas Taxa de falsos positivos tFP = FP N Também chamada de taxa de alarmes falsos De todos os negativos, quantos classificamos incorretamente Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 22 / 44
  • 50. Estimando o Erro Medidas alternativas Especificidade esp = 1 − tFP Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 23 / 44
  • 51. Estimando o Erro Medidas alternativas Especificidade esp = 1 − tFP Precisão pr = TP TP + FP De todos os que dissemos serem positivos, quantos realmente o eram Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 23 / 44
  • 52. Estimando o Erro Medidas alternativas Acurácia ac = TP + TN P + N De todos os dados que temos, quantos classificamos corretamente Corresponde à taxa de sucesso que usamos até agora Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 24 / 44
  • 53. Estimando o Erro Medidas alternativas Medida-f (f-measure) F = 2 × pr × tVP pr + tVP Média harmônica de precisão e abrangência (taxa de verdadeiros positivos) Também chamada de medida F1, por conta de pr e tVP estarem com pesos iguais Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 25 / 44
  • 54. Estimando o Erro Comparando Algoritmos Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 26 / 44
  • 55. Medidas alternativas Gráficos ROC Um modo de usar algumas dessas métricas é criarmos um gráfico ROC Receiver operating characteristics Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 27 / 44
  • 56. Medidas alternativas Gráficos ROC Um modo de usar algumas dessas métricas é criarmos um gráfico ROC Receiver operating characteristics Gráfico de tVP × tFP Mostra a relação entre as taxas de acertos e de alarmes falsos Relação entre benefı́cios e custos Ilustração bidimensional do desempenho de um classificador Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 27 / 44
  • 57. Medidas alternativas Gráficos ROC E como criamos um gráfico ROC? Depende do tipo de classificador Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 28 / 44
  • 58. Medidas alternativas Gráficos ROC E como criamos um gráfico ROC? Depende do tipo de classificador Classificadores discretos: São os que produzem um rótulo de classe apenas Ex: árvores de decisão Representados por um único ponto no gráfico Pois produzem uma única matriz de confusão para o conjunto de teste Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 28 / 44
  • 59. Medidas alternativas Gráficos ROC E como criamos um gráfico ROC? Depende do tipo de classificador Classificadores discretos: São os que produzem um rótulo de classe apenas Ex: árvores de decisão Representados por um único ponto no gráfico Pois produzem uma única matriz de confusão para o conjunto de teste classificadores no espaço ROC Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 28 / 44
  • 60. Medidas alternativas Gráficos ROC – Classificadores discretos Mesmo parecendo simples, esse gráfico já nos mostra muita coisa Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 29 / 44
  • 61. Medidas alternativas Gráficos ROC – Classificadores discretos Mesmo parecendo simples, esse gráfico já nos mostra muita coisa Se queremos aumentar os positivos verdadeiros, mesmo que isso gere falsos positivos, então B é melhor que A Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 29 / 44
  • 62. Medidas alternativas Gráficos ROC – Classificadores discretos Mesmo parecendo simples, esse gráfico já nos mostra muita coisa Se queremos aumentar os positivos verdadeiros, mesmo que isso gere falsos positivos, então B é melhor que A D é o melhor de todos: 100% de acertos nos positivos, sem falsos positivos Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 29 / 44
  • 63. Medidas alternativas Gráficos ROC – Classificadores discretos Note também que O ponto (0, 0) representa a estratégia de nunca classificar algo como positivo Não acerta um positivo, mas também não tem falsos positivos Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 30 / 44
  • 64. Medidas alternativas Gráficos ROC – Classificadores discretos Note também que O ponto (0, 0) representa a estratégia de nunca classificar algo como positivo Não acerta um positivo, mas também não tem falsos positivos A estratégia oposta, de classificar tudo como positivo, corresponde ao ponto (1, 1) Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 30 / 44
  • 65. Medidas alternativas Gráficos ROC – Classificadores discretos Note também que O ponto (0, 0) representa a estratégia de nunca classificar algo como positivo Não acerta um positivo, mas também não tem falsos positivos A estratégia oposta, de classificar tudo como positivo, corresponde ao ponto (1, 1) Fonte: [6] E (0, 1) representa a classificação perfeita É nesse ponto que desejamos estar Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 30 / 44
  • 66. Medidas alternativas Gráficos ROC – Classificadores discretos A linha y = x representa a decisão aleatória Se um classificador aleatoriamente escolher a classe positiva 50% das vezes, espera-se que classifique como positivos 50% dos positivos, mas também 50% dos negativos O que o coloca no ponto (0.5, 0.5) Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 31 / 44
  • 67. Medidas alternativas Gráficos ROC – Classificadores discretos A linha y = x representa a decisão aleatória Se um classificador aleatoriamente escolher a classe positiva 50% das vezes, espera-se que classifique como positivos 50% dos positivos, mas também 50% dos negativos O que o coloca no ponto (0.5, 0.5) Se escolher a positiva 90% das vezes, espera-se que acerte 90% dos positivos, e erre 90% dos negativos Levando ao ponto (0.9, 0.9) Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 31 / 44
  • 68. Medidas alternativas Gráficos ROC – Classificadores discretos Note que C não difere de um classificador que escolha positivo 70% das vezes Dizemos que classificadores na diagonal não têm qualquer informação sobre a classe Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 32 / 44
  • 69. Medidas alternativas Gráficos ROC – Classificadores discretos Note que C não difere de um classificador que escolha positivo 70% das vezes Dizemos que classificadores na diagonal não têm qualquer informação sobre a classe Mas pior é E Se negarmos suas decisões obteremos B Classificadores assim têm informação útil, mas a aplicam de forma errada Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 32 / 44
  • 70. Medidas alternativas Gráficos ROC Classificadores contı́nuos São os que produzem um valor (ex: uma probabilidade) representando o quanto uma instância pertence a uma determinada classe Ex: Naı̈ve Bayes e redes neurais Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 33 / 44
  • 71. Medidas alternativas Gráficos ROC Classificadores contı́nuos São os que produzem um valor (ex: uma probabilidade) representando o quanto uma instância pertence a uma determinada classe Ex: Naı̈ve Bayes e redes neurais Aplica-se então um limiar (threshold), para predizer a classe dessa instância Se a saı́da do classificador for maior ou igual ao limiar, ele produz um Y, do contrário produzirá um N Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 33 / 44
  • 72. Medidas alternativas Gráficos ROC Classificadores contı́nuos São os que produzem um valor (ex: uma probabilidade) representando o quanto uma instância pertence a uma determinada classe Ex: Naı̈ve Bayes e redes neurais Aplica-se então um limiar (threshold), para predizer a classe dessa instância Se a saı́da do classificador for maior ou igual ao limiar, ele produz um Y, do contrário produzirá um N Transformamos assim o classificador em um classificador discreto Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 33 / 44
  • 73. Gráficos ROC Classificadores contı́nuos E como os representamos no gráfico ROC? Inserimos um ponto diferente para cada limiar Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 34 / 44
  • 74. Gráficos ROC Classificadores contı́nuos E como os representamos no gráfico ROC? Inserimos um ponto diferente para cada limiar Considere o conjunto de teste Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 34 / 44
  • 75. Gráficos ROC Classificadores contı́nuos E como os representamos no gráfico ROC? Inserimos um ponto diferente para cada limiar Considere o conjunto de teste Temos 10 exemplos p e 10 n Ordenados pelo valor dado pelo classificador Um limiar de 0,7 classificaria como P apenas os 3 exemplos do topo (score ≥ 0, 7) Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 34 / 44
  • 76. Gráficos ROC Classificadores contı́nuos Variamos então esse limiar 0,9: apenas o exemplo 1 recebe o rótulo P, os demais N 0,8: apenas 2 e 3 são P, os demais N . . . 0,3: do 1 ao 19 são P, os demais N 0,1: todos são P Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 35 / 44
  • 77. Gráficos ROC Classificadores contı́nuos Levando ao gráfico Fonte: [6] Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
  • 78. Gráficos ROC Classificadores contı́nuos Levando ao gráfico Fonte: [6] Limiar 0,9: o exemplo 1 é P, os demais N Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
  • 79. Gráficos ROC Classificadores contı́nuos Levando ao gráfico Fonte: [6] tVP = 1 10 = 0, 1 Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
  • 80. Gráficos ROC Classificadores contı́nuos Levando ao gráfico Fonte: [6] tFP = 0 10 = 0, 0 Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
  • 81. Gráficos ROC Classificadores contı́nuos Levando ao gráfico Fonte: [6] Limiar 0,39: de 1 a 12 são P, os demais N Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
  • 82. Gráficos ROC Classificadores contı́nuos Levando ao gráfico Fonte: [6] tVP = 7 10 = 0, 7 Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
  • 83. Gráficos ROC Classificadores contı́nuos Levando ao gráfico Fonte: [6] tFP = 5 10 = 0, 5 Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
  • 84. Gráficos ROC Classificadores contı́nuos Levando ao gráfico Fonte: [6] Limiar +∞ pro- duz o ponto (0, 0) Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 36 / 44
  • 85. Gráficos ROC Área sob a Curva Para comparar classificadores pode ser útil reduzir a curva ROC a um único valor Representando o desempenho esperado (ou seja, médio) de cada classificador Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 37 / 44
  • 86. Gráficos ROC Área sob a Curva Para comparar classificadores pode ser útil reduzir a curva ROC a um único valor Representando o desempenho esperado (ou seja, médio) de cada classificador Uma forma de fazer isso é calcular a área sob a curva 0 ≤ área ≤ 1 Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 37 / 44
  • 87. Gráficos ROC Área sob a Curva O classificador com maior área será aquele que, em média, possui o melhor desempenho No caso, B Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 38 / 44
  • 88. Gráficos ROC Área sob a Curva O classificador com maior área será aquele que, em média, possui o melhor desempenho No caso, B Lembre que a escolha aleatória produz a linha y = x Nenhum classificar real pode ter uma área menor que 0,5 Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 38 / 44
  • 89. Gráficos ROC Área sob a Curva Podemos inclusive comparar classificadores discretos e contı́nuos Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 39 / 44
  • 90. Gráficos ROC Área sob a Curva Podemos inclusive comparar classificadores discretos e contı́nuos No exemplo, A é discreto e B contı́nuo Vemos que A representa o desempenho de B quando este é usado com um único limiar fixo Embora nesse ponto o desempenho de ambos seja igual, o desempenho de A é inferior nos demais pontos Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 39 / 44
  • 91. Gráficos ROC Área sob a Curva A área possui uma propriedade interessante Equivale à probabilidade do classificador elencar um exemplo positivo escolhido aleatoriamente mais alto que um exemplo negativo escolhido aleatoriamente Se p = 1, então há um limiar dividindo perfeitamente positivos de negativos Corresponde ao teste de Wilcoxon (Wilcoxon rank-test) Fonte: [6] Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 40 / 44
  • 92. Referências 1 Witten, I.H.; Frank, E. (2005): Data Mining: Practical Machine Learning Tools and Techniques. Elsevier. 2a ed. 2 Goodfellow, I.; Bengio, Y.; Courville, A. (2016): Deep Learning. MIT Press. 3 Mitchell, T.M.: Machine Learning. McGraw-Hill. 1997. 4 Hastie, T.; Tibshirani, R.; Friedman, J. (2009): The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer. 2a ed. 5 Alpaydın, E. (2010): Introduction to Machine Learning. MIT Press. 2 ed. 6 Fawcett, T. (2006): An Introduction to ROC Analysis. Pattern Recognition Letters, 27, pp. 861-874. 7 https://www.dataquest.io/blog/learning-curves-machine- learning/ Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 41 / 44
  • 94. Apêndice I Variância Var(θ̂) = E((θ̂ − E(θ̂))2 ) = E(θ̂2 − 2θ̂E(θ̂) + E2 (θ̂)) = E(θ̂2 ) − 2E(θ̂)E(θ̂) + E2 (θ̂) = E(θ̂2 ) − 2E2 (θ̂) + E2 (θ̂) = E(θ̂2 ) − E2 (θ̂) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 43 / 44
  • 95. Apêndice II Erro quadrático médio EQM(θ̂) = E((θ̂ − θ)2 ) = E(θ̂2 − 2θθ̂ + θ2 ) = E(θ̂2 ) − 2θE(θ̂) + θ2 = E(θ̂2 ) − 2θE(θ̂) + θ2 + E2 (θ̂) − E2 (θ̂) = (E2 (θ̂) − 2θE(θ̂) + θ2 ) + (E(θ̂2 ) − E2 (θ̂)) = (E(θ̂) − θ)2 + (E(θ̂2 ) − E2 (θ̂)) = Viés2 (θ̂) + Var(θ̂) Norton Trevisan Roman(norton@usp.br) 17 de junho de 2019 44 / 44