O documento discute a avaliação de desempenho de classificadores treinados. Explica que é necessário testar o modelo em um conjunto de dados independente para medir seu desempenho em dados novos. Também apresenta métricas como taxa de erro e curva de aprendizagem para avaliar quantitativamente o modelo.
O documento discute estimativas de erro em modelos de aprendizagem de máquina. Explica que o erro esperado no conjunto de teste tende a ser maior que no conjunto de treino, devido ao ajuste do modelo aos dados de treino. Também aborda medidas como viés e variância para avaliar estimadores, e como o erro quadrático médio equilibra ambos para medir o desvio total esperado entre a estimativa e o valor real.
O documento discute algoritmos genéticos e representação de cromossomos. Ele explica que os cromossomos podem ser representados de várias formas, incluindo binária, valores inteiros e reais. A representação binária é a mais simples, onde o cromossomo consiste de uma sequência de bits. A mutação e o cruzamento ocorrem durante o algoritmo genético para gerar novas soluções.
O documento descreve a regra de Bayes e redes Bayesianas. Ele fornece um exemplo detalhado sobre como calcular a probabilidade de uma mulher ter câncer de mama dado um resultado positivo em um mamograma usando a regra de Bayes. Ele também define brevemente o que são redes Bayesianas, que representam dependências probabilísticas entre variáveis aleatórias através de um grafo direcionado acíclico.
O documento discute árvores de decisão e florestas aleatórias. Ele explica que árvores de decisão são uma das formas mais simples de aprendizado de máquina, representando uma sequência de regras "se...então" para classificar ou prever saídas com base em atributos de entrada. O documento também descreve características como nós internos representando testes de atributos e folhas especificando saídas, e discute expressividade e variações de árvores de decisão.
O documento discute inferência em lógica proposicional, incluindo tipos de provas como verificação de modelos e aplicação de regras de inferência. Ele explica como aplicar regras de inferência como modus ponens e modus tollens para derivar novas sentenças a partir de premissas, formando uma prova.
O documento discute busca como uma abordagem para solução de problemas em inteligência artificial. Explica que os problemas podem ser reduzidos a uma busca em um grafo, onde cada nó representa um estado do mundo e as arestas representam ações que levam de um estado a outro. A solução é um caminho no grafo que leva de um estado inicial a um estado final desejado. Exemplos de tipos de problemas incluem determinísticos e não determinísticos.
O documento discute aprendizado supervisionado bayesiano. Ele introduz o aprendizado bayesiano como um método probabilístico e descreve que o aprendizado supervisionado tem como objetivo classificação ou regressão para mapear entradas em saídas com base em exemplos.
O documento descreve problemas de satisfação de restrições (CSPs), definidos por um conjunto de variáveis, domínios de valores para cada variável, e restrições sobre combinações de valores de variáveis. Apresenta exemplos de agendamento de aulas e coloração de mapas como CSPs, definindo suas variáveis, domínios e restrições.
O documento discute estimativas de erro em modelos de aprendizagem de máquina. Explica que o erro esperado no conjunto de teste tende a ser maior que no conjunto de treino, devido ao ajuste do modelo aos dados de treino. Também aborda medidas como viés e variância para avaliar estimadores, e como o erro quadrático médio equilibra ambos para medir o desvio total esperado entre a estimativa e o valor real.
O documento discute algoritmos genéticos e representação de cromossomos. Ele explica que os cromossomos podem ser representados de várias formas, incluindo binária, valores inteiros e reais. A representação binária é a mais simples, onde o cromossomo consiste de uma sequência de bits. A mutação e o cruzamento ocorrem durante o algoritmo genético para gerar novas soluções.
O documento descreve a regra de Bayes e redes Bayesianas. Ele fornece um exemplo detalhado sobre como calcular a probabilidade de uma mulher ter câncer de mama dado um resultado positivo em um mamograma usando a regra de Bayes. Ele também define brevemente o que são redes Bayesianas, que representam dependências probabilísticas entre variáveis aleatórias através de um grafo direcionado acíclico.
O documento discute árvores de decisão e florestas aleatórias. Ele explica que árvores de decisão são uma das formas mais simples de aprendizado de máquina, representando uma sequência de regras "se...então" para classificar ou prever saídas com base em atributos de entrada. O documento também descreve características como nós internos representando testes de atributos e folhas especificando saídas, e discute expressividade e variações de árvores de decisão.
O documento discute inferência em lógica proposicional, incluindo tipos de provas como verificação de modelos e aplicação de regras de inferência. Ele explica como aplicar regras de inferência como modus ponens e modus tollens para derivar novas sentenças a partir de premissas, formando uma prova.
O documento discute busca como uma abordagem para solução de problemas em inteligência artificial. Explica que os problemas podem ser reduzidos a uma busca em um grafo, onde cada nó representa um estado do mundo e as arestas representam ações que levam de um estado a outro. A solução é um caminho no grafo que leva de um estado inicial a um estado final desejado. Exemplos de tipos de problemas incluem determinísticos e não determinísticos.
O documento discute aprendizado supervisionado bayesiano. Ele introduz o aprendizado bayesiano como um método probabilístico e descreve que o aprendizado supervisionado tem como objetivo classificação ou regressão para mapear entradas em saídas com base em exemplos.
O documento descreve problemas de satisfação de restrições (CSPs), definidos por um conjunto de variáveis, domínios de valores para cada variável, e restrições sobre combinações de valores de variáveis. Apresenta exemplos de agendamento de aulas e coloração de mapas como CSPs, definindo suas variáveis, domínios e restrições.
O documento descreve um algoritmo de busca retroativa para resolver problemas de satisfação de restrições, utilizando forward checking e heurísticas como valores restantes mínimos, grau e valor menos restritivo. O algoritmo é demonstrado passo a passo em um exemplo de coloração de grafos, definindo variáveis, valores e propagando escolhas.
O documento descreve os princípios da computação evolutiva e algoritmos genéticos. Ele define computação evolutiva como técnicas que simulam a evolução natural, usando seleção, mutação e reprodução. O documento então explica o processo de seleção, mutação e reprodução em algoritmos genéticos e fornece detalhes sobre sua terminologia e funcionamento.
O documento discute representação do conhecimento através de ontologias, incluindo taxonomias e herança. Ontologias organizam o conhecimento em categorias hierárquicas e permitem raciocinar sobre objetos classificados. Categorias podem ser representadas como predicados ou objetos. A herança permite que propriedades sejam herdadas por subcategorias.
O documento descreve buscas informadas e heurísticas de busca. Ele discute estratégias como melhor primeiro, gulosa e A*, que usam heurísticas para guiar a busca em direção a soluções mais promissoras. O documento também discute problemas que podem ocorrer dependendo da heurística escolhida.
O documento descreve uma aula sobre lógica de primeira ordem. Apresenta os elementos básicos da lógica de primeira ordem, incluindo termos, predicados e a gramática formal para construir sentenças. Também explica como modelos e interpretações funcionam na lógica de primeira ordem, diferentemente da lógica proposicional.
O documento discute o tratamento de incerteza em inteligência artificial. Aborda como a probabilidade e a teoria da decisão podem ser usadas para tomar decisões racionais quando os resultados são incertos, levando em conta a probabilidade de cada resultado e sua utilidade segundo as preferências de quem decide.
O documento descreve as bases de dados em lógica de primeira ordem, como interagir com elas fazendo buscas (queries) por meio de sentenças lógicas em LPO, e como qualquer query que possa ser inferida logicamente pela base de dados será respondida afirmativamente. As bases de dados contêm axiomas com informações básicas e teoremas derivados dos axiomas, e o documento discute técnicas como forward chaining, backward chaining e resolução para realizar inferência nas bases de dados.
O documento descreve o algoritmo de máquina de vetor de suporte (SVM), explicando como ele busca encontrar o hiperplano separador de margem máxima entre os dados de treinamento de duas classes. O SVM define fronteiras lineares ótimas para dados linearmente separáveis, maximizando a distância entre o hiperplano separador e os exemplos de treinamento mais próximos, chamados de vetores de suporte. O problema é formulado como um problema de otimização para encontrar os parâmetros ω e b que maximizam essa distância de separação.
O documento descreve as redes neurais e o perceptron. Ele explica que as redes neurais se inspiram nos neurônios biológicos e como o perceptron funciona como a unidade básica de uma rede neural, recebendo sinais de entrada e aplicando uma função de ativação. Também discute possíveis funções de ativação como a função degrau e sigmóide e como os pesos das conexões, incluindo o viés, determinam se um perceptron é ativado ou não.
O documento descreve o funcionamento do algoritmo de backward chaining em programação lógica, começando com uma explicação geral do processo de raciocínio de trás para frente a partir de um objetivo. Em seguida, apresenta formalmente o algoritmo de backward chaining, explicando cada parte do processo de forma recursiva para encontrar substituições que satisfaçam a query dada uma base de conhecimento. Por fim, exemplifica o algoritmo em uma base de conhecimento sobre venda de armas.
O documento descreve os passos para executar resolução e encadeamento para frente em lógica de primeira ordem. Primeiro, as expressões lógicas devem ser convertidas para forma clausal sem quantificadores. Em seguida, as variáveis devem ser substituídas durante a resolução usando o processo de unificação. Por fim, a resolução é executada para derivar novas conclusões.
O documento discute arquivos e exceções em Java. Primeiramente, explica que dados de configuração precisam ser salvos em arquivos para serem preservados entre execuções do programa. Em seguida, descreve como objetos da classe File representam caminhos para arquivos e diretórios, e que escrever dados em arquivos requer objetos FileWriter. Por fim, discute que métodos que manipulam arquivos podem lançar exceções IOException, as quais precisam ser capturadas ou declaradas no método.
Este documento discute métodos abstratos e classes abstratas em Java. Explica que métodos abstratos não têm implementação definida na classe abstrata, mas sim nas subclasses, que são obrigadas a implementá-los. Também explica que a existência de pelo menos um método abstrato torna a classe abstrata, impedindo sua instanciação direta. A classe Casa é usada como exemplo de classe abstrata, já que no sistema modelo existem apenas casas quadradas e retangulares.
As três frases são:
1) O documento discute listas ligadas como uma alternativa a arranjos para alocar dinamicamente espaço na memória para novos itens.
2) Listas ligadas permitem adicionar itens de forma simples, sem necessidade de alocar um novo arranjo maior e copiar o conteúdo do anterior.
3) Cada nó de uma lista ligada contém um valor e um ponteiro para o próximo nó, permitindo navegar pela lista de forma flexível.
O documento discute especificadores de acesso em Java e como eles afetam a herança entre classes. Apresenta exemplos de como atributos privados na classe pai não podem ser acessados na classe filha, mesmo que estejam na memória do objeto, e como os construtores this() e super() devem ser a primeira instrução no construtor da classe filha.
O documento discute herança em classes. Foi quebrada a classe AreaCasa em subclasses Casa, CasaQuad e CasaRet. A classe Residência foi modificada para receber uma instância de Casa (superclasse) em vez de AreaCasa, permitindo o uso de CasaQuad e CasaRet. Isso é demonstrado em um exemplo de código.
O documento descreve o algoritmo de ordenação por inserção (insertion sort). Ele ordena um array percorrendo-o de esquerda para direita e inserindo cada novo elemento na posição correta na subparte já ordenada, deslocando os demais elementos para a direita quando necessário. O exemplo demonstra graficamente cada etapa do processo de ordenação de um array.
O documento discute a busca binária em arranjos ordenados. Ele explica que a busca binária divide o arranjo ao meio em cada etapa e descarta metade dos elementos, levando a buscas potencialmente muito mais rápidas do que a busca sequencial. A busca binária para no elemento buscado, no fim do arranjo, ou quando encontrar um elemento maior que o buscado.
Strings em Java são imutáveis. Ao modificar um caractere em um String, na verdade se está criando um novo objeto String. Comparar Strings com == verifica se os objetos são os mesmos na memória, não se o conteúdo é igual.
O documento descreve um algoritmo de busca retroativa para resolver problemas de satisfação de restrições, utilizando forward checking e heurísticas como valores restantes mínimos, grau e valor menos restritivo. O algoritmo é demonstrado passo a passo em um exemplo de coloração de grafos, definindo variáveis, valores e propagando escolhas.
O documento descreve os princípios da computação evolutiva e algoritmos genéticos. Ele define computação evolutiva como técnicas que simulam a evolução natural, usando seleção, mutação e reprodução. O documento então explica o processo de seleção, mutação e reprodução em algoritmos genéticos e fornece detalhes sobre sua terminologia e funcionamento.
O documento discute representação do conhecimento através de ontologias, incluindo taxonomias e herança. Ontologias organizam o conhecimento em categorias hierárquicas e permitem raciocinar sobre objetos classificados. Categorias podem ser representadas como predicados ou objetos. A herança permite que propriedades sejam herdadas por subcategorias.
O documento descreve buscas informadas e heurísticas de busca. Ele discute estratégias como melhor primeiro, gulosa e A*, que usam heurísticas para guiar a busca em direção a soluções mais promissoras. O documento também discute problemas que podem ocorrer dependendo da heurística escolhida.
O documento descreve uma aula sobre lógica de primeira ordem. Apresenta os elementos básicos da lógica de primeira ordem, incluindo termos, predicados e a gramática formal para construir sentenças. Também explica como modelos e interpretações funcionam na lógica de primeira ordem, diferentemente da lógica proposicional.
O documento discute o tratamento de incerteza em inteligência artificial. Aborda como a probabilidade e a teoria da decisão podem ser usadas para tomar decisões racionais quando os resultados são incertos, levando em conta a probabilidade de cada resultado e sua utilidade segundo as preferências de quem decide.
O documento descreve as bases de dados em lógica de primeira ordem, como interagir com elas fazendo buscas (queries) por meio de sentenças lógicas em LPO, e como qualquer query que possa ser inferida logicamente pela base de dados será respondida afirmativamente. As bases de dados contêm axiomas com informações básicas e teoremas derivados dos axiomas, e o documento discute técnicas como forward chaining, backward chaining e resolução para realizar inferência nas bases de dados.
O documento descreve o algoritmo de máquina de vetor de suporte (SVM), explicando como ele busca encontrar o hiperplano separador de margem máxima entre os dados de treinamento de duas classes. O SVM define fronteiras lineares ótimas para dados linearmente separáveis, maximizando a distância entre o hiperplano separador e os exemplos de treinamento mais próximos, chamados de vetores de suporte. O problema é formulado como um problema de otimização para encontrar os parâmetros ω e b que maximizam essa distância de separação.
O documento descreve as redes neurais e o perceptron. Ele explica que as redes neurais se inspiram nos neurônios biológicos e como o perceptron funciona como a unidade básica de uma rede neural, recebendo sinais de entrada e aplicando uma função de ativação. Também discute possíveis funções de ativação como a função degrau e sigmóide e como os pesos das conexões, incluindo o viés, determinam se um perceptron é ativado ou não.
O documento descreve o funcionamento do algoritmo de backward chaining em programação lógica, começando com uma explicação geral do processo de raciocínio de trás para frente a partir de um objetivo. Em seguida, apresenta formalmente o algoritmo de backward chaining, explicando cada parte do processo de forma recursiva para encontrar substituições que satisfaçam a query dada uma base de conhecimento. Por fim, exemplifica o algoritmo em uma base de conhecimento sobre venda de armas.
O documento descreve os passos para executar resolução e encadeamento para frente em lógica de primeira ordem. Primeiro, as expressões lógicas devem ser convertidas para forma clausal sem quantificadores. Em seguida, as variáveis devem ser substituídas durante a resolução usando o processo de unificação. Por fim, a resolução é executada para derivar novas conclusões.
O documento discute arquivos e exceções em Java. Primeiramente, explica que dados de configuração precisam ser salvos em arquivos para serem preservados entre execuções do programa. Em seguida, descreve como objetos da classe File representam caminhos para arquivos e diretórios, e que escrever dados em arquivos requer objetos FileWriter. Por fim, discute que métodos que manipulam arquivos podem lançar exceções IOException, as quais precisam ser capturadas ou declaradas no método.
Este documento discute métodos abstratos e classes abstratas em Java. Explica que métodos abstratos não têm implementação definida na classe abstrata, mas sim nas subclasses, que são obrigadas a implementá-los. Também explica que a existência de pelo menos um método abstrato torna a classe abstrata, impedindo sua instanciação direta. A classe Casa é usada como exemplo de classe abstrata, já que no sistema modelo existem apenas casas quadradas e retangulares.
As três frases são:
1) O documento discute listas ligadas como uma alternativa a arranjos para alocar dinamicamente espaço na memória para novos itens.
2) Listas ligadas permitem adicionar itens de forma simples, sem necessidade de alocar um novo arranjo maior e copiar o conteúdo do anterior.
3) Cada nó de uma lista ligada contém um valor e um ponteiro para o próximo nó, permitindo navegar pela lista de forma flexível.
O documento discute especificadores de acesso em Java e como eles afetam a herança entre classes. Apresenta exemplos de como atributos privados na classe pai não podem ser acessados na classe filha, mesmo que estejam na memória do objeto, e como os construtores this() e super() devem ser a primeira instrução no construtor da classe filha.
O documento discute herança em classes. Foi quebrada a classe AreaCasa em subclasses Casa, CasaQuad e CasaRet. A classe Residência foi modificada para receber uma instância de Casa (superclasse) em vez de AreaCasa, permitindo o uso de CasaQuad e CasaRet. Isso é demonstrado em um exemplo de código.
O documento descreve o algoritmo de ordenação por inserção (insertion sort). Ele ordena um array percorrendo-o de esquerda para direita e inserindo cada novo elemento na posição correta na subparte já ordenada, deslocando os demais elementos para a direita quando necessário. O exemplo demonstra graficamente cada etapa do processo de ordenação de um array.
O documento discute a busca binária em arranjos ordenados. Ele explica que a busca binária divide o arranjo ao meio em cada etapa e descarta metade dos elementos, levando a buscas potencialmente muito mais rápidas do que a busca sequencial. A busca binária para no elemento buscado, no fim do arranjo, ou quando encontrar um elemento maior que o buscado.
Strings em Java são imutáveis. Ao modificar um caractere em um String, na verdade se está criando um novo objeto String. Comparar Strings com == verifica se os objetos são os mesmos na memória, não se o conteúdo é igual.
Slides Lição 11, Central Gospel, Os Mortos Em CRISTO, 2Tr24.pptxLuizHenriquedeAlmeid6
Slideshare Lição 11, Central Gospel, Os Mortos Em Cristo, 1Tr24, Pr Henrique, EBD NA TV, Revista ano 11, nº 1, Revista Estudo Bíblico Jovens E Adultos, Central Gospel, 2º Trimestre de 2024, Professor, Tema, Os Grandes Temas Do Fim, Comentarista, Pr. Joá Caitano, estudantes, professores, Ervália, MG, Imperatriz, MA, Cajamar, SP, estudos bíblicos, gospel, DEUS, ESPÍRITO SANTO, JESUS CRISTO, Com. Extra Pr. Luiz Henrique, 99-99152-0454, Canal YouTube, Henriquelhas, @PrHenrique
O Que é Um Ménage à Trois?
A sociedade contemporânea está passando por grandes mudanças comportamentais no âmbito da sexualidade humana, tendo inversão de valores indescritíveis, que assusta as famílias tradicionais instituídas na Palavra de Deus.
Slides Lição 11, CPAD, A Realidade Bíblica do Inferno, 2Tr24.pptxLuizHenriquedeAlmeid6
Slideshare Lição 11, CPAD, A Realidade Bíblica do Inferno, 2Tr24, Pr Henrique, EBD NA TV, Lições Bíblicas, 2º Trimestre de 2024, adultos, Tema, A CARREIRA QUE NOS ESTÁ PROPOSTA, O CAMINHO DA SALVAÇÃO, SANTIDADE E PERSEVERANÇA PARA CHEGAR AO CÉU, Coment Osiel Gomes, estudantes, professores, Ervália, MG, Imperatriz, MA, Cajamar, SP, estudos bíblicos, gospel, DEUS, ESPÍRITO SANTO, JESUS CRISTO, Com. Extra Pr. Luiz Henrique, de Almeida Silva, tel-What, 99-99152-0454, Canal YouTube, Henriquelhas, @PrHenrique, https://ebdnatv.blogspot.com/
Atividades de Inglês e Espanhol para Imprimir - AlfabetinhoMateusTavares54
Quer aprender inglês e espanhol de um jeito divertido? Aqui você encontra atividades legais para imprimir e usar. É só imprimir e começar a brincar enquanto aprende!
Atividades de Inglês e Espanhol para Imprimir - Alfabetinho
(ACH2044) Inteligência Artificial - Aula 23
1. Inteligência Artificial – ACH2016
Aula23 – Classificadores: Avaliação de
Desempenho
Norton Trevisan Roman
(norton@usp.br)
11 de junho de 2019
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 1 / 43
2. Avaliação de Desempenho
Medindo desempenho
Já temos nosso modelo treinado, então está tudo
terminado, certo?
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 2 / 43
3. Avaliação de Desempenho
Medindo desempenho
Já temos nosso modelo treinado, então está tudo
terminado, certo?
Errado! Como podemos saber se ele é bom realmente?
Temos que testá-lo
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 2 / 43
4. Avaliação de Desempenho
Medindo desempenho
Já temos nosso modelo treinado, então está tudo
terminado, certo?
Errado! Como podemos saber se ele é bom realmente?
Temos que testá-lo
Para isso, contudo, precisamos de uma medida de
desempenho
Algo que nos diga quão bom nosso modelo é para a tarefa
Depende da tarefa em questão
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 2 / 43
5. Avaliação de Desempenho
Taxa de Erro
Para classificação, por exemplo, podemos usar a
taxa de erro
O classificador prediz a classe de cada instância
Se estiver correto, conta para o número de sucessos, senão,
conta para os erros
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 3 / 43
6. Avaliação de Desempenho
Taxa de Erro
Para classificação, por exemplo, podemos usar a
taxa de erro
O classificador prediz a classe de cada instância
Se estiver correto, conta para o número de sucessos, senão,
conta para os erros
A taxa é então a proporção de erros feita em todo o
conjunto de instâncias X
TE =
nE (X)
n(X)
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 3 / 43
7. Avaliação de Desempenho
Taxa de Erro
Número de instâncias classi-
ficadas erroneamente em X
Para classificação, por exemplo, podemos usar a
taxa de erro
O classificador prediz a classe de cada instância
Se estiver correto, conta para o número de sucessos, senão,
conta para os erros
A taxa é então a proporção de erros feita em todo o
conjunto de instâncias X
TE =
nE (X)
n(X)
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 3 / 43
8. Avaliação de Desempenho
Taxa de Erro
Número total de instâncias em X
Para classificação, por exemplo, podemos usar a
taxa de erro
O classificador prediz a classe de cada instância
Se estiver correto, conta para o número de sucessos, senão,
conta para os erros
A taxa é então a proporção de erros feita em todo o
conjunto de instâncias X
TE =
nE (X)
n(X)
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 3 / 43
9. Avaliação de Desempenho
Conjuntos de treino
Temos agora uma medida de erro e o conjunto de
treino. Então podemos ver como o modelo treinado
se sai nesse conjunto
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 4 / 43
10. Avaliação de Desempenho
Conjuntos de treino
Temos agora uma medida de erro e o conjunto de
treino. Então podemos ver como o modelo treinado
se sai nesse conjunto
Fonte: https://twitter.com/soquenaoreal
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 4 / 43
11. Avaliação de Desempenho
Conjuntos de treino
Temos agora uma medida de erro e o conjunto de
treino. Então podemos ver como o modelo treinado
se sai nesse conjunto
Fonte: https://twitter.com/soquenaoreal
Qualquer estimativa de desempenho
com base nesse conjunto será otimista
Em tese, aprendemos como esse conjunto
funciona
Não temos ideia de como o modelo irá
se comportar com dados nunca vistos
Afinal, já sabemos os resultados no conjunto
de treino. Nos interessam os resultados em
dados novos
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 4 / 43
12. Avaliação de Desempenho
Conjunto de treino: Erro de resubstituição
Então não devemos medir a taxa de erro no
conjunto de treino?
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 5 / 43
13. Avaliação de Desempenho
Conjunto de treino: Erro de resubstituição
Então não devemos medir a taxa de erro no
conjunto de treino? Devemos sim
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 5 / 43
14. Avaliação de Desempenho
Conjunto de treino: Erro de resubstituição
Então não devemos medir a taxa de erro no
conjunto de treino? Devemos sim
A taxa de erro no conjunto de treino é chamada de
erro de resubstituição
Porque é calculada pela resubstituição das instâncias de
treino no classificador
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 5 / 43
15. Avaliação de Desempenho
Conjunto de treino: Erro de resubstituição
Então não devemos medir a taxa de erro no
conjunto de treino? Devemos sim
A taxa de erro no conjunto de treino é chamada de
erro de resubstituição
Porque é calculada pela resubstituição das instâncias de
treino no classificador
Útil para termos uma ideia da adequação do
classificador
Se ele não se dá bem onde treinou, é um forte indicativo de
que esse é o modelo errado
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 5 / 43
16. Avaliação de Desempenho
Conjunto de Teste
Devemos então testar nosso modelo em um
conjunto de teste (ou holdout)
Um conjunto independente, com
dados não vistos pelo modelo
Treinamos no conjunto de treino
e testamos no de teste
O erro nesse conjunto será nossa
estimativa do erro em exemplos
não vistos
Fonte: [10]
Assumindo que ambos os conjuntos são amostras
representativas do problema
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 6 / 43
17. Avaliação de Desempenho
Conjunto de Teste
E como construı́mos este conjunto?
Ou tiramos nova amostra
aleatória da população
Ou separamos aleatoriamente, de
forma independente, os dados
que já temos em mãos
Em geral, de 1
5 a 1
3 dos dados é
reservado para teste
Fonte: [10]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 7 / 43
18. Avaliação de Desempenho
Conjunto de Teste
E como construı́mos este conjunto?
Ou tiramos nova amostra
aleatória da população
Ou separamos aleatoriamente, de
forma independente, os dados
que já temos em mãos
Em geral, de 1
5 a 1
3 dos dados é
reservado para teste
Fonte: [10]
E medimos a taxa de erro nesse conjunto
Ou, alternativamente, a taxa de sucesso TS = 1 − TE
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 7 / 43
19. Avaliação de Desempenho
Curva de aprendizagem
A taxa de sucesso, contudo, dá um resultado final
Não nos diz como o algoritmo evoluiu ao longo do
treinamento
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 8 / 43
20. Avaliação de Desempenho
Curva de aprendizagem
A taxa de sucesso, contudo, dá um resultado final
Não nos diz como o algoritmo evoluiu ao longo do
treinamento
Para esse tipo de informação, temos a curva de
aprendizagem
Ainda treinamos no conjunto de
treino e testamos no de teste
Só que dessa vez aumentamos
gradativamente o conjunto de
treino
Fonte: AIMA. R&N.
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 8 / 43
21. Avaliação de Desempenho
Curva de aprendizagem
Ex: suponha que temos 100 exemplos no total
Dividimos aleatoriamente entre treino e teste
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 9 / 43
22. Avaliação de Desempenho
Curva de aprendizagem
Ex: suponha que temos 100 exemplos no total
Dividimos aleatoriamente entre treino e teste
Começamos com 1 exemplo no
conjunto de treino e 99 no de
teste
Aumentamos gradativamente o
conjunto de treino (reduzindo o
de teste), até chegar a 99
A cada passo, medimos seu
sucesso no conjunto de teste
Fonte: AIMA. R&N.
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 9 / 43
23. Avaliação de Desempenho
Curva de aprendizagem
A curva mostra então a variação temporal do
desempenho em termos de experiência
O quanto aprendemos com a
experiência
Fonte: AIMA. R&N.
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 10 / 43
24. Avaliação de Desempenho
Curva de aprendizagem
A curva mostra então a variação temporal do
desempenho em termos de experiência
O quanto aprendemos com a
experiência
Nesse exemplo, mostra a
média de 20 repetições
Para cada tamanho, em que
dividimos aleatoriamente entre
treino e teste Fonte: AIMA. R&N.
E podemos ver o algoritmo se estabilizando, na medida em
que cresce o conjunto de treino
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 10 / 43
25. Avaliação de Desempenho
Curva de aprendizagem
E precisa o passo ser sempre
de 1 em 1 exemplo?
Fonte: Adaptado de AIMA. R&N.
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 11 / 43
26. Avaliação de Desempenho
Curva de aprendizagem
E precisa o passo ser sempre
de 1 em 1 exemplo?
Não. Podemos fazer de n em n
Ex: Uma geração (algoritmos
genéticos), uma época (RNA)
etc
Fonte: Adaptado de AIMA. R&N.
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 11 / 43
27. Avaliação de Desempenho
Curva de aprendizagem
E precisa o passo ser sempre
de 1 em 1 exemplo?
Não. Podemos fazer de n em n
Ex: Uma geração (algoritmos
genéticos), uma época (RNA)
etc
Alternativamente, podemos
mostrar a taxa de erro
TE = 1 − TS, em vez de
sucesso
Fonte: Adaptado de AIMA. R&N.
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 11 / 43
28. Avaliação de Desempenho
Curva de aprendizagem
Mas a grande utilidade da curva aparece quando
mostramos a taxa de erro (ou de sucesso) tanto no
conjunto de treino quanto no de teste
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 12 / 43
29. Avaliação de Desempenho
Curva de aprendizagem
Mas a grande utilidade da curva aparece quando
mostramos a taxa de erro (ou de sucesso) tanto no
conjunto de treino quanto no de teste
Podemos então ver o quão bem
o modelo está aprendendo (no
conjunto de treino)
E o quão bem ele está
generalizando (no conjunto de
teste)
A habilidade de ter bom
desempenho em dados inéditos é
chamada de generalização
Fonte: [9]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 12 / 43
30. Avaliação de Desempenho
Curva de aprendizagem
Subajuste (underfitting)
O modelo não conseguiu ter
um erro suficientemente
pequeno no treino
Não conseguiu aprender com o
treino
Precisamos apenas da curva no
conjunto de treino
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 13 / 43
31. Avaliação de Desempenho
Curva de aprendizagem
Subajuste (underfitting)
O modelo não conseguiu ter
um erro suficientemente
pequeno no treino
Não conseguiu aprender com o
treino
Precisamos apenas da curva no
conjunto de treino
Caracterizada por uma linha
plana ou com ruı́do
Fonte: Adaptada de [6]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 13 / 43
32. Avaliação de Desempenho
Curva de aprendizagem
Subajuste (underfitting)
Ou então por um erro
decrescente que não
estabiliza
Indicando que o modelo
ainda pode aprender mais,
mas foi interrompido
prematuramente Fonte: Adaptada de [6]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 14 / 43
33. Avaliação de Desempenho
Curva de aprendizagem
Superajuste (overfitting)
O modelo aprendeu os dados
bem demais
Inclusive seu ruı́do e flutuações
aleatórias
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 15 / 43
34. Avaliação de Desempenho
Curva de aprendizagem
Superajuste (overfitting)
O modelo aprendeu os dados
bem demais
Inclusive seu ruı́do e flutuações
aleatórias
Assim, sua capacidade de
generalização reduz
O espaço entre erro de treino e
teste é grande demais Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 15 / 43
35. Avaliação de Desempenho
Curva de aprendizagem
Superajuste (overfitting)
O modelo aprendeu os dados
bem demais
Inclusive seu ruı́do e flutuações
aleatórias
Assim, sua capacidade de
generalização reduz
O espaço entre erro de treino e
teste é grande demais
O ponto de inflexão na
validação pode indi-
car o ponto em que o
treinamento deveria parar
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 15 / 43
36. Avaliação de Desempenho
Curva de aprendizagem
Superajuste (overfitting)
O modelo aprendeu os dados
bem demais
Inclusive seu ruı́do e flutuações
aleatórias
Assim, sua capacidade de
generalização reduz
O espaço entre erro de treino e
teste é grande demais
Pois a partir desse
ponto parece ha-
ver um superajuste
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 15 / 43
37. Avaliação de Desempenho
Curva de aprendizagem
Bom ajuste (good fit)
Nosso objetivo – entre um
subajuste e um superajuste
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 16 / 43
38. Avaliação de Desempenho
Curva de aprendizagem
Bom ajuste (good fit)
Nosso objetivo – entre um
subajuste e um superajuste
Identificado por curvas de
treino e teste que crescem
(ou decrescem, conforme a
métrica) até um ponto de
estabilidade Fonte: https://stats.stackexchange.com/questions/
220827/how-to-know-if-a-learning-curve-from-svm-
model-suffers-from-bias-or-variance
Com uma distância pequena entre seus valores finais
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 16 / 43
39. Avaliação de Desempenho
Curva de aprendizagem
Bom ajuste (good fit)
O erro no treino, contudo,
será quase sempre menor que
no teste
Devemos esperar alguma
distância entre as curvas → sua
distância de generalização
Fonte: https://stats.stackexchange.com/questions/
220827/how-to-know-if-a-learning-curve-from-svm-
model-suffers-from-bias-or-variance
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 17 / 43
40. Avaliação de Desempenho
Curva de aprendizagem
Bom ajuste (good fit)
O erro no treino, contudo,
será quase sempre menor que
no teste
Devemos esperar alguma
distância entre as curvas → sua
distância de generalização
Cuidado!
Continuar a treinar um bom
ajuste provavelmente levará a
um superajuste
Fonte: https://stats.stackexchange.com/questions/
220827/how-to-know-if-a-learning-curve-from-svm-
model-suffers-from-bias-or-variance
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 17 / 43
41. Avaliação de Desempenho
Curva de aprendizagem
Conjunto de treino não
representativo
O conjunto de treino possui
distribuição diferente da do
de teste
Talvez por ser pequeno demais,
em relação ao de teste
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 18 / 43
42. Avaliação de Desempenho
Curva de aprendizagem
Conjunto de treino não
representativo
O conjunto de treino possui
distribuição diferente da do
de teste
Talvez por ser pequeno demais,
em relação ao de teste
Ambas as curvas mostram
melhoria
Contudo, permanecem bastante
separadas
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 18 / 43
43. Avaliação de Desempenho
Curva de aprendizagem
Conjunto de teste não
representativo
O conjunto de teste não
fornece informação suficiente
para avaliar o modelo
Talvez por ser pequeno demais,
em relação ao de treino
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 19 / 43
44. Avaliação de Desempenho
Curva de aprendizagem
Conjunto de teste não
representativo
O conjunto de teste não
fornece informação suficiente
para avaliar o modelo
Talvez por ser pequeno demais,
em relação ao de treino
A curva de treino parece se
ajustar
Contudo, a de teste apresenta
ruı́do em torno da de treino
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 19 / 43
45. Avaliação de Desempenho
Curva de aprendizagem
Conjunto de teste não
representativo (cont.)
Pode também ocorrer que a
curva de teste seja menor que
a de treino
Indicando que o conjunto de
teste é mais fácil para o modelo
que o de treino
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 20 / 43
46. Avaliação de Desempenho
Curva de aprendizagem
Conjunto de teste não
representativo (cont.)
Pode também ocorrer que a
curva de teste seja menor que
a de treino
Indicando que o conjunto de
teste é mais fácil para o modelo
que o de treino
Fonte: [6]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 20 / 43
47. Avaliação de Desempenho
Conjunto de Validação
Testamos o modelo, e agora?
Poderia ser melhor? Não sabemos
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 21 / 43
48. Avaliação de Desempenho
Conjunto de Validação
Testamos o modelo, e agora?
Poderia ser melhor? Não sabemos
Em geral, modelos possuem hiperparâmetros
escolhidos de antemão
Taxas de aprendizado, cruzamentos, valores de corte etc
Como saber se foram a escolha correta?
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 21 / 43
49. Avaliação de Desempenho
Conjunto de Validação
Testamos o modelo, e agora?
Poderia ser melhor? Não sabemos
Em geral, modelos possuem hiperparâmetros
escolhidos de antemão
Taxas de aprendizado, cruzamentos, valores de corte etc
Como saber se foram a escolha correta?
Fazemos modificações sistemáticas nos
hiperparâmetros e testamos novamente o modelo
Escolhendo então o melhor conjunto de hiperparâmetros
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 21 / 43
50. Avaliação de Desempenho
Conjunto de Validação
Quando usamos um conjunto de testes com esse
fim, o chamamos de Conjunto de Validação
Pois estamos usando para validar diferentes modelos
Fazemos escolhas baseadas no resultado desse conjunto
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 22 / 43
51. Avaliação de Desempenho
Conjunto de Validação
Quando usamos um conjunto de testes com esse
fim, o chamamos de Conjunto de Validação
Pois estamos usando para validar diferentes modelos
Fazemos escolhas baseadas no resultado desse conjunto
E qual o problema com ele?
O problema é que o erro relatado nele não é mais
independente do modelo testado
E é de suma importância que o conjunto de teste não seja
usado de modo algum na definição do modelo
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 22 / 43
52. Avaliação de Desempenho
Conjunto de Validação: Viés otimista
O resultado apresentará um viés positivo
O erro observado será provavelmente menor do que o erro
real em exemplos não vistos
Otimista, nesse caso, significa pensar que o erro é menor do
que realmente é
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 23 / 43
53. Avaliação de Desempenho
Conjunto de Validação: Viés otimista
O resultado apresentará um viés positivo
O erro observado será provavelmente menor do que o erro
real em exemplos não vistos
Otimista, nesse caso, significa pensar que o erro é menor do
que realmente é
Ex: Digamos que temos 2 modelos m1 e m2
Ambos com o mesmo erro real (na população)
Epop(m1) = Epop(m2) = 0.5
Naturalmente, desconhecemos tal erro
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 23 / 43
54. Avaliação de Desempenho
Conjunto de Validação: Viés otimista
Para simplificar, suponha que testamos o modelo
em um único ponto
Medimos então seu erro nesse ponto
Os erros medidos em1 e em2 são então estimativas para
Epop(m1) e Epop(m2)
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 24 / 43
55. Avaliação de Desempenho
Conjunto de Validação: Viés otimista
Para simplificar, suponha que testamos o modelo
em um único ponto
Medimos então seu erro nesse ponto
Os erros medidos em1 e em2 são então estimativas para
Epop(m1) e Epop(m2)
Vamos assumir que ambos em1
e em2
:
São uniformes em [0, 1] (Seu valor esperado é E(emi
) = 0, 5)
São independentes um do outro
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 24 / 43
56. Avaliação de Desempenho
Conjunto de Validação: Viés otimista
Suponha agora que escolhemos um dos modelos
m ∈ {m1, m2}, de acordo com o valor do erro
Pegamos aquele em que e = min(em1 , em2 )
Ou seja, usamos as estimativas já calculadas para fazer uma
escolha
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 25 / 43
57. Avaliação de Desempenho
Conjunto de Validação: Viés otimista
Suponha agora que escolhemos um dos modelos
m ∈ {m1, m2}, de acordo com o valor do erro
Pegamos aquele em que e = min(em1 , em2 )
Ou seja, usamos as estimativas já calculadas para fazer uma
escolha
Qual a probabilidade P(e < 0.5) de e ser menor do
que seu valor esperado real E(emi
) = 0, 5?
Lembre que tanto m1 quanto m2 tinham erros reais
Epop(m1) = Epop(m2) = 0.5
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 25 / 43
59. Avaliação de Desempenho
Conjunto de Validação: Viés otimista
P(e < 0.5) = P((em1 < 0.5) ∨ (em2 < 0.5))
= P(em1
< 0.5) + P(em2
< 0.5) − P((em1
< 0.5) ∧ (em2
< 0.5))
= P(em1
< 0.5) + P(em2
< 0.5) − P(em1
< 0.5) × P(em2
< 0.5)
= 0, 5 + 0, 5 − 0, 25 = 0, 75
Ou seja, a probabilidade de escolhermos um modelo
com erro e < 0.5, quando seu erro real é 0.5, é de
75%
E estaremos achando que o erro é menor do que muito
provavelmente é
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 26 / 43
60. Avaliação de Desempenho
Treino - Validação - Teste
Que fazer então?
Dividir o conjunto de dados em conjunto de treino, validação
e teste
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 27 / 43
61. Avaliação de Desempenho
Treino - Validação - Teste
Que fazer então?
Dividir o conjunto de dados em conjunto de treino, validação
e teste
Fazer isso de forma aleatória e independente
O conjunto de validação precisa ser diferente do de treino
para poder otimizar parâmetros ou escolher melhor o modelo
E o de teste precisa ser diferente dos demais para obtermos
uma estimativa mais confiável da taxa de erro real
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 27 / 43
62. Avaliação de Desempenho
Definindo um modelo
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
63. Avaliação de Desempenho
Definindo um modelo
Separa aleatoriamente o
conjunto de teste (nor-
malmente 1/3 dos dados)
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
64. Avaliação de Desempenho
Definindo um modelo
Dos dados restantes,
separa aleatoriamente o
conjunto de validação
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
65. Avaliação de Desempenho
Definindo um modelo
O que sobrou é o
conjunto de treino
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
66. Avaliação de Desempenho
Definindo um modelo
Varia cada hiper-
parâmetro do modelo,
de modo a ajustá-lo
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
67. Avaliação de Desempenho
Definindo um modelo
Treinando cada um
no conjunto de treino
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
68. Avaliação de Desempenho
Definindo um modelo
E medindo seu erro no
conjunto de validação
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
69. Avaliação de Desempenho
Definindo um modelo
Seleciona o modelo com
o menor erro de validação
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
70. Avaliação de Desempenho
Definindo um modelo
Retreina o modelo
com os dados de
treino + validação
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
71. Avaliação de Desempenho
Definindo um modelo
Com isso maximiza a
quantidade de dados
usados na geração do
modelo a ser testado
com dados inéditos
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
72. Avaliação de Desempenho
Definindo um modelo
Mede o erro no conjunto
de teste. Essa é a
estimativa do modelo
para dados não vistos
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
73. Avaliação de Desempenho
Definindo um modelo
A versão final é então
retreinada com todos os
dados, esperando que isso
a deixe melhor (há sempre
o perigo de overfitting)
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
74. Avaliação de Desempenho
Definindo um modelo
Retorna a versão final,
com a estimativa do erro
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
75. Avaliação de Desempenho
Definindo um modelo
Note que essa estima-
tiva foi tomada antes
de usar o conjunto
de teste para treino
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
76. Avaliação de Desempenho
Definindo um modelo
Ou seja, nenhum
viés foi introduzido
nessa estimativa
Define(X = {~
x1, . . . , ~
xn}): modelo + estimativa de erro
Xts ← subconjunto aleatório de X
Xv ← subconjunto aleatório de X − Xts
Xtr ← X − Xts − Xv
para cada variação mi do modelo faça
Treine mi em Xtr
eiv ← erro de mi em Xv
mj ← modelo com menor eiv do passo anterior
Treine novamente mj em Xtr ∪ Xv
emj
← erro de mj em Xts
Treine novamente mj em Xtr ∪ Xv ∪ Xts
retorna mj e emj
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 28 / 43
77. Avaliação de Desempenho
Dados limitados
Essa metodologia, no entanto, consome dados
Nenhum problema, se tivermos muitos
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 29 / 43
78. Avaliação de Desempenho
Dados limitados
Essa metodologia, no entanto, consome dados
Nenhum problema, se tivermos muitos
E se esse não for o caso? Temos então um dilema
Para definir um bom modelo, precisamos usar o máximo de
dados possı́vel para treino e validação
Para obter uma boa estimativa de erro, precisamos usar o
máximo possı́vel para teste
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 29 / 43
79. Avaliação de Desempenho
Dados limitados
Essa metodologia, no entanto, consome dados
Nenhum problema, se tivermos muitos
E se esse não for o caso? Temos então um dilema
Para definir um bom modelo, precisamos usar o máximo de
dados possı́vel para treino e validação
Para obter uma boa estimativa de erro, precisamos usar o
máximo possı́vel para teste
Lembrando que reduzir demais algum dos conjuntos pode
torná-lo não representativo da população
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 29 / 43
80. Desempenho – Dados limitados
Representatividade: Amostragem Estratificada
Em geral, não temos como dizer se uma amostra é
representativa ou não
Mas podemos verificar se cada classe no conjunto de dados
inteiro está representada, aproximadamente na mesma
proporção, nos subconjuntos de treino, validação e teste
Procedimento chamado estratificação
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 30 / 43
81. Desempenho – Dados limitados
Representatividade: Amostragem Estratificada
Em geral, não temos como dizer se uma amostra é
representativa ou não
Mas podemos verificar se cada classe no conjunto de dados
inteiro está representada, aproximadamente na mesma
proporção, nos subconjuntos de treino, validação e teste
Procedimento chamado estratificação
Ex: Suponha que o conjunto de dados esteja
distribuı́do em 4 classes
nA = 200, nB = 400, nC = 600, nD = 800
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 30 / 43
82. Desempenho – Dados limitados
Representatividade: Amostragem Estratificada
E que iremos separar ≈ 1
3 para teste. Então
escolhemos aleatoriamente:
66 dados de A (≈ 200
3
), 133 de B, 200 de C e 266 de D
Num total de 665 (≈ 2000
3
= 666, 66...)
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 31 / 43
83. Desempenho – Dados limitados
Representatividade: Amostragem Estratificada
E que iremos separar ≈ 1
3 para teste. Então
escolhemos aleatoriamente:
66 dados de A (≈ 200
3
), 133 de B, 200 de C e 266 de D
Num total de 665 (≈ 2000
3
= 666, 66...)
Note que no conjunto original sobraram
134 em A (≈ 200 × 2
3
), 267 em B, 400 em C e 534 em D
E ambos os conjuntos possuem aproximadamente a mesma
distribuição de dados da amostra original
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 31 / 43
84. Desempenho – Dados limitados
Repeated Holdout
Uma estratégia mais geral para reduzir qualquer viés
introduzido pela amostra é repetir o processo todo
de treino, validação e teste várias vezes
Sempre com amostras aleatórias diferentes
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 32 / 43
85. Desempenho – Dados limitados
Repeated Holdout
Uma estratégia mais geral para reduzir qualquer viés
introduzido pela amostra é repetir o processo todo
de treino, validação e teste várias vezes
Sempre com amostras aleatórias diferentes
Procedimento conhecido como holdout repetido
A cada iteração, os dados são aleatoriamente separados
(possivelmente com estratificação) em conjuntos de treino,
validação e teste
O erro total será então a média dos erros medidos em cada
iteração
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 32 / 43
86. Desempenho – Dados limitados
K-fold Cross-Validation
Variante do repeated holdout
Divida os dados de treino +
validação em k subconjuntos de
aproximadamente o mesmo
tamanho
A cada iteração, separa-se um dos
diferentes k subconjuntos para
validação, treinando nos demais
O resultado final da validação será
a média dos k subgrupos
Fonte: [10]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 33 / 43
87. Desempenho – Dados limitados
K-fold Cross-Validation
E temos apenas treino + teste?
O procedimento é o mesmo, com ou sem validação
Em geral, usa-se k = 10,
mas outros valores podem
ser usados
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 34 / 43
88. Desempenho – Dados limitados
K-fold Cross-Validation
E temos apenas treino + teste?
O procedimento é o mesmo, com ou sem validação
Em geral, usa-se k = 10,
mas outros valores podem
ser usados
Os resultados podem
ser melhorados com
estratificação
Stratified K-fold
Cross-Validation Fonte: [11]
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 34 / 43
89. Desempenho – Dados limitados
Leave-one-out Cross-Validation
Variante do k-fold, onde k = n, o número de
elementos no conjunto de dados
A cada iteração separamos um único exemplo para teste,
treinando nos demais
A estimativa de erro final será a média dos n testes feitos
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 35 / 43
90. Desempenho – Dados limitados
Leave-one-out Cross-Validation
Variante do k-fold, onde k = n, o número de
elementos no conjunto de dados
A cada iteração separamos um único exemplo para teste,
treinando nos demais
A estimativa de erro final será a média dos n testes feitos
Problema: não pode ser estratificado
Imagine um conjunto completamente aleatório, com
elementos de 2 classes
Em que 50% dos exemplos são da classe A e os outros 50% da
classe B
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 35 / 43
91. Desempenho – Dados limitados
Leave-one-out Cross-Validation
O melhor que um classificador conseguirá fazer será
predizer a classe majoritária
Lembre que os dados são completamente aleatórios → não
há qualquer padrão
Isso nos leva a uma taxa de erro de 50%
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 36 / 43
92. Desempenho – Dados limitados
Leave-one-out Cross-Validation
O melhor que um classificador conseguirá fazer será
predizer a classe majoritária
Lembre que os dados são completamente aleatórios → não
há qualquer padrão
Isso nos leva a uma taxa de erro de 50%
Mas em cada conjunto de treino do leave-one-out, a
classe oposta à do exemplo de teste é majoritária
As predições estarão sempre incorretas, quando testadas
A taxa de erro será de 100%
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 36 / 43
93. Desempenho – Dados limitados
Bootstrapping
Método baseado na amostragem dos dados, com
reposição, para formação do conjunto de treino
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 37 / 43
94. Desempenho – Dados limitados
Bootstrapping
Método baseado na amostragem dos dados, com
reposição, para formação do conjunto de treino
Considere um conjunto de dados X com n exemplos
Para o conjunto de treino Xtr , tomamos n amostras de X,
com reposição
Usamos as instâncias que não foram escolhidas em X para
teste, ou seja, Xts = X − Xtr
Por ser com reposição, é bastante provável que algumas instâncias
em X não sejam escolhidas para Xtr
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 37 / 43
95. Desempenho – Dados limitados
Bootstrapping
Bastante provável quanto?
A cada vez, a chance de uma instância particular ser
escolhida é 1/n
Terá então uma chance de 1 − 1
n
de não ser escolhida
Em n eventos, a chance de não ser escolhida será
1 −
1
n
n
≈ e−1
= 0, 368
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 38 / 43
96. Desempenho – Dados limitados
Bootstrapping
Bastante provável quanto?
A cada vez, a chance de uma instância particular ser
escolhida é 1/n
Terá então uma chance de 1 − 1
n
de não ser escolhida
Em n eventos, a chance de não ser escolhida será
1 −
1
n
n
≈ e−1
= 0, 368
Então espera-se que, em um conjunto grande, cerca
de 36,8% sobrem para teste
Com 63,2% escolhidos para treino (contendo repetições)
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 38 / 43
97. Desempenho – Dados limitados
Bootstrapping
Treinar e testar nesses conjuntos, contudo, nos leva
a uma estimativa pessimista do erro
Temos apenas 63% dos exemplos para treino (10-fold teria
90%)
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 39 / 43
98. Desempenho – Dados limitados
Bootstrapping
Treinar e testar nesses conjuntos, contudo, nos leva
a uma estimativa pessimista do erro
Temos apenas 63% dos exemplos para treino (10-fold teria
90%)
Para compensar, combinamos as taxas de erro no
conjunto de treino e teste
Combinamos a otimista com a pessimista
A taxa de erro fica então
TE = 0, 632 × TEteste + 0, 368 × TEtreino
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 39 / 43
99. Desempenho – Dados limitados
Bootstrapping
Repetimos todo o procedimento várias vezes
Reconstruindo os conjuntos de treino e teste
Executando e testando o método neles
Retornando a média dos TE s como estimativa final de erro
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 40 / 43
100. Desempenho – Dados limitados
Bootstrapping
Repetimos todo o procedimento várias vezes
Reconstruindo os conjuntos de treino e teste
Executando e testando o método neles
Retornando a média dos TE s como estimativa final de erro
Embora seja o melhor método para conjuntos muito
pequenos, tem problemas
Considere o mesmo conjunto de dados de antes (conjunto
aleatório com 2 classes)
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 40 / 43
101. Desempenho – Dados limitados
Bootstrapping
Considere agora que temos um método que aprende
perfeitamente o conjunto de treino
De alguma forma, a existência de repetições levou a um
padrão que foi aprendido
Assim, TEtreino
= 0
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 41 / 43
102. Desempenho – Dados limitados
Bootstrapping
Considere agora que temos um método que aprende
perfeitamente o conjunto de treino
De alguma forma, a existência de repetições levou a um
padrão que foi aprendido
Assim, TEtreino
= 0
Lembrando que TEteste
= 0.5
Pois o conjunto é totalmente aleatório – não há padrão
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 41 / 43
103. Desempenho – Dados limitados
Bootstrapping
Considere agora que temos um método que aprende
perfeitamente o conjunto de treino
De alguma forma, a existência de repetições levou a um
padrão que foi aprendido
Assim, TEtreino
= 0
Lembrando que TEteste
= 0.5
Pois o conjunto é totalmente aleatório – não há padrão
Então TE = 0, 632 × 0.5 + 0, 368 × 0 = 0, 316
31,6% é bastante otimista, considerando que a taxa real é
de 50%
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 41 / 43
104. Referências
1 Witten, I.H.; Frank, E. (2005): Data Mining: Practical Machine Learning
Tools and Techniques. Elsevier. 2a ed.
2 Russell, S.; Norvig P. (2010): Artificial Intelligence: A Modern Approach.
Prentice Hall. 3a ed.
3 Goodfellow, I.; Bengio, Y.; Courville, A. (2016): Deep Learning. MIT
Press.
4 Alpaydın, E. (2010): Introduction to Machine Learning. MIT Press. 2 ed.
5 Murphy, K. P. (2012): Machine Learning: A Probabilistic Perspective.
MIT Press.
6 https://machinelearningmastery.com/learning-curves-for-
diagnosing-machine-learning-model-performance/
Norton Trevisan Roman(norton@usp.br) 11 de junho de 2019 42 / 43