SlideShare uma empresa Scribd logo
Mestrado em Engenharia Informática
 Generalização e Overfitting
 Avaliação de hipóteses e comparação de
resultados
30/01/2015 Aprendizagem Automática / Machine Learning 2
 Até que ponto a nossa hipótese ira ter o
resultado correcto para exemplos fora do
conjunto de treino?
30/01/2015 Aprendizagem Automática / Machine Learning 3
-4
-3
-2
-1
0
1
2
3
4
-4 -3 -2 -1 0 1 2 3 4
Series1
Series2
-4
-3
-2
-1
0
1
2
3
4
-4 -2 0 2 4
Series1
Series2
Boa generalização
(mesmo com erros
no conjunto de treino)
Overfitting / Sobre-aprendizagem
(má generalização)
 Generalização e “overfitting”
Como saber quando parar o treino
(aprendizagem supervisionada):
treino
teste Paragem
 Validação => três conjuntos de dados:
◦ Treino,Teste,Validação
 Conjuntos pequenos (k-fold validation/leave n-off)
1. Dividir dados em k subconjuntos
2. Em cada uma de k experiências usar um dos conjuntos para validação
3. Calcular nº médio de iterações (n) para minimizar erro de validação
4. Treinar com todos os dados n épocas
 Cada teste dá um resultado (erro médio, qualidade média,
etc.) X = {x1, x2, …, xn}
 Um conjunto de testes terá também um média (bem como
variância e desvio-padrão)
 Média (mean)
 Variância (variance)
 O desvio padrão
(standard deviation)


n
i
ix
n
X
1
1




n
i
i Xx
n
Xs
1
2
)(
1
1
)(


n
i
i Xx
n
X
1
2
)(
1
)(
7AA/ML, Luís Nunes, DCTI/ISCTE
 Um intervalo de confiança de C%, diz-nos que, com C% de probabilidade, a média
real (para um número infinito de experiências) estará no intervalo definido por
n é o número de experiências realizadas
t a distribuiçãoT-student, parametrizada por C,n.
Ex: O intervalo de confiança de 95%, para um erro médio de 0.1, com variância 0.01,
para 30 experiências:
Excel:TINV(1 – C, n-1) =TINV(1 - 0.95, 29) = 2.04
n
s(X)tX,
n
s(X)– tX nC,nC, 




2.04t95,30 
 0.1037250.096275,
30
0.012.040.1,
30
0.012.04–0.1 


 
8AA/ML, Luís Nunes, DCTI/ISCTE
 Para provar (com uma certeza razoável) que
um método é melhor que outro é necessário
que os intervalos de confiança de ambas as
experiências não se sobreponham
9AA/ML, Luís Nunes, DCTI/ISCTE
 http://en.wikipedia.org/wiki/Student's_t-test
30/01/2015 Aprendizagem Automática / Machine Learning 10
 Generalização e Overfitting
 Avaliação de hipóteses e comparação de
resultados
30/01/2015 Aprendizagem Automática / Machine Learning 11

Mais conteúdo relacionado

Mais procurados

Diferenciação e Integração Numérica - @professorenan
Diferenciação e Integração Numérica - @professorenanDiferenciação e Integração Numérica - @professorenan
Diferenciação e Integração Numérica - @professorenan
Renan Gustavo
 
Inteligencia artificial serie_temporal_ dis_v1
Inteligencia artificial serie_temporal_ dis_v1Inteligencia artificial serie_temporal_ dis_v1
Inteligencia artificial serie_temporal_ dis_v1
Guttenberg Ferreira Passos
 
Tipos de aprendizagem automática
Tipos de aprendizagem automáticaTipos de aprendizagem automática
Tipos de aprendizagem automática
Luís Nunes
 
4734 16435-1-pb
4734 16435-1-pb4734 16435-1-pb
4734 16435-1-pb
Franklin Dias de Carvalho
 
Métodos de aceleração da aprendizagem
Métodos de aceleração da aprendizagemMétodos de aceleração da aprendizagem
Métodos de aceleração da aprendizagem
Luís Nunes
 
Algoritmos de ordenação
Algoritmos de ordenaçãoAlgoritmos de ordenação
Algoritmos de ordenação
Jonas Mendonça
 
Aula2
Aula2Aula2
Aula 5 - Estruturas de seleção simples e composta - parte 1
Aula 5 - Estruturas de seleção simples e composta - parte 1Aula 5 - Estruturas de seleção simples e composta - parte 1
Aula 5 - Estruturas de seleção simples e composta - parte 1
Pacc UAB
 
Aula 11 - Vetores unidimensionais - parte 2
Aula 11 - Vetores unidimensionais - parte 2Aula 11 - Vetores unidimensionais - parte 2
Aula 11 - Vetores unidimensionais - parte 2
Pacc UAB
 
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Tchelinux
 
Aula 13 - Matrizes
Aula 13 - MatrizesAula 13 - Matrizes
Aula 13 - Matrizes
Pacc UAB
 
Aula 11 - Vetores unidimensionais - parte 1
Aula 11 - Vetores unidimensionais - parte 1Aula 11 - Vetores unidimensionais - parte 1
Aula 11 - Vetores unidimensionais - parte 1
Pacc UAB
 
Comparativo bubble sort e quick sort
Comparativo bubble sort e quick sortComparativo bubble sort e quick sort
Comparativo bubble sort e quick sort
Daiana de Ávila
 
Redes Neurais Perceptron e Hopfield
Redes Neurais Perceptron e HopfieldRedes Neurais Perceptron e Hopfield
Redes Neurais Perceptron e Hopfield
Lucas Sabadini
 

Mais procurados (14)

Diferenciação e Integração Numérica - @professorenan
Diferenciação e Integração Numérica - @professorenanDiferenciação e Integração Numérica - @professorenan
Diferenciação e Integração Numérica - @professorenan
 
Inteligencia artificial serie_temporal_ dis_v1
Inteligencia artificial serie_temporal_ dis_v1Inteligencia artificial serie_temporal_ dis_v1
Inteligencia artificial serie_temporal_ dis_v1
 
Tipos de aprendizagem automática
Tipos de aprendizagem automáticaTipos de aprendizagem automática
Tipos de aprendizagem automática
 
4734 16435-1-pb
4734 16435-1-pb4734 16435-1-pb
4734 16435-1-pb
 
Métodos de aceleração da aprendizagem
Métodos de aceleração da aprendizagemMétodos de aceleração da aprendizagem
Métodos de aceleração da aprendizagem
 
Algoritmos de ordenação
Algoritmos de ordenaçãoAlgoritmos de ordenação
Algoritmos de ordenação
 
Aula2
Aula2Aula2
Aula2
 
Aula 5 - Estruturas de seleção simples e composta - parte 1
Aula 5 - Estruturas de seleção simples e composta - parte 1Aula 5 - Estruturas de seleção simples e composta - parte 1
Aula 5 - Estruturas de seleção simples e composta - parte 1
 
Aula 11 - Vetores unidimensionais - parte 2
Aula 11 - Vetores unidimensionais - parte 2Aula 11 - Vetores unidimensionais - parte 2
Aula 11 - Vetores unidimensionais - parte 2
 
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
 
Aula 13 - Matrizes
Aula 13 - MatrizesAula 13 - Matrizes
Aula 13 - Matrizes
 
Aula 11 - Vetores unidimensionais - parte 1
Aula 11 - Vetores unidimensionais - parte 1Aula 11 - Vetores unidimensionais - parte 1
Aula 11 - Vetores unidimensionais - parte 1
 
Comparativo bubble sort e quick sort
Comparativo bubble sort e quick sortComparativo bubble sort e quick sort
Comparativo bubble sort e quick sort
 
Redes Neurais Perceptron e Hopfield
Redes Neurais Perceptron e HopfieldRedes Neurais Perceptron e Hopfield
Redes Neurais Perceptron e Hopfield
 

Semelhante a Generalização, validação e comparação de resultados

Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4
Antonio Mankumbani Chora
 
Física experimental - Aula 1.pptx
Física experimental - Aula 1.pptxFísica experimental - Aula 1.pptx
Física experimental - Aula 1.pptx
ssuser3d1cd51
 
UFCD 4486 Metrologia-noções básicas.pptx
UFCD 4486 Metrologia-noções básicas.pptxUFCD 4486 Metrologia-noções básicas.pptx
UFCD 4486 Metrologia-noções básicas.pptx
Graziela Amaro
 
Machine learning usando scikits
Machine learning usando scikitsMachine learning usando scikits
Machine learning usando scikits
Marcelo Lacerda
 
var_copulas
var_copulasvar_copulas
var_copulas
Rogerio Almeida
 
Técnicas de modelagem de teste (parte 2)
Técnicas de modelagem de teste (parte 2)Técnicas de modelagem de teste (parte 2)
Técnicas de modelagem de teste (parte 2)
Fabrício Campos
 
Treinamento LABELO - 2014 - Incerteza de Medição.pdf
Treinamento LABELO - 2014 - Incerteza de Medição.pdfTreinamento LABELO - 2014 - Incerteza de Medição.pdf
Treinamento LABELO - 2014 - Incerteza de Medição.pdf
Leonardo Soares
 
Prova Comentada de Estatística - TCU 2015
Prova Comentada de Estatística - TCU 2015Prova Comentada de Estatística - TCU 2015
Prova Comentada de Estatística - TCU 2015
Estratégia Concursos
 
EstatisticaGIMO_aquiUEM
EstatisticaGIMO_aquiUEMEstatisticaGIMO_aquiUEM
EstatisticaGIMO_aquiUEM
Formão Armando Gimo
 
Cinésiologia parte 3
Cinésiologia parte 3Cinésiologia parte 3
Cinésiologia parte 3
Kall4p Panthers
 
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
Alexandre Duarte
 
Estatistica leandra e clandio
Estatistica leandra e clandioEstatistica leandra e clandio
Estatistica leandra e clandio
cissoh
 
Capitulo 8 gujarati resumo
Capitulo 8 gujarati resumoCapitulo 8 gujarati resumo
Capitulo 8 gujarati resumo
Monica Barros
 
Proconf softwear confiabilidade
Proconf softwear confiabilidadeProconf softwear confiabilidade
Proconf softwear confiabilidade
Erico Pontes Melo
 
Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)
Joao Galdino Mello de Souza
 
Apresentacao-Llanos-8.pdf
Apresentacao-Llanos-8.pdfApresentacao-Llanos-8.pdf
Apresentacao-Llanos-8.pdf
CarlosHumbertoLlanos
 
obtenção de sinais discretos
obtenção de sinais discretosobtenção de sinais discretos
obtenção de sinais discretos
Silvio Zulato Junior
 
Confianca Noemi
Confianca NoemiConfianca Noemi
Confianca Noemi
Marco Silva
 
Probabilidade e Estatítica Lista de Exercícios 1
Probabilidade e Estatítica Lista de Exercícios 1Probabilidade e Estatítica Lista de Exercícios 1
Probabilidade e Estatítica Lista de Exercícios 1
Eduardo S. Pereira
 
Fuzzy C-Means na Seleção de Currículos - Projeto de Aplicação
Fuzzy C-Means na Seleção de Currículos - Projeto de AplicaçãoFuzzy C-Means na Seleção de Currículos - Projeto de Aplicação
Fuzzy C-Means na Seleção de Currículos - Projeto de Aplicação
Henrique Rocha
 

Semelhante a Generalização, validação e comparação de resultados (20)

Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4
 
Física experimental - Aula 1.pptx
Física experimental - Aula 1.pptxFísica experimental - Aula 1.pptx
Física experimental - Aula 1.pptx
 
UFCD 4486 Metrologia-noções básicas.pptx
UFCD 4486 Metrologia-noções básicas.pptxUFCD 4486 Metrologia-noções básicas.pptx
UFCD 4486 Metrologia-noções básicas.pptx
 
Machine learning usando scikits
Machine learning usando scikitsMachine learning usando scikits
Machine learning usando scikits
 
var_copulas
var_copulasvar_copulas
var_copulas
 
Técnicas de modelagem de teste (parte 2)
Técnicas de modelagem de teste (parte 2)Técnicas de modelagem de teste (parte 2)
Técnicas de modelagem de teste (parte 2)
 
Treinamento LABELO - 2014 - Incerteza de Medição.pdf
Treinamento LABELO - 2014 - Incerteza de Medição.pdfTreinamento LABELO - 2014 - Incerteza de Medição.pdf
Treinamento LABELO - 2014 - Incerteza de Medição.pdf
 
Prova Comentada de Estatística - TCU 2015
Prova Comentada de Estatística - TCU 2015Prova Comentada de Estatística - TCU 2015
Prova Comentada de Estatística - TCU 2015
 
EstatisticaGIMO_aquiUEM
EstatisticaGIMO_aquiUEMEstatisticaGIMO_aquiUEM
EstatisticaGIMO_aquiUEM
 
Cinésiologia parte 3
Cinésiologia parte 3Cinésiologia parte 3
Cinésiologia parte 3
 
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
 
Estatistica leandra e clandio
Estatistica leandra e clandioEstatistica leandra e clandio
Estatistica leandra e clandio
 
Capitulo 8 gujarati resumo
Capitulo 8 gujarati resumoCapitulo 8 gujarati resumo
Capitulo 8 gujarati resumo
 
Proconf softwear confiabilidade
Proconf softwear confiabilidadeProconf softwear confiabilidade
Proconf softwear confiabilidade
 
Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)
 
Apresentacao-Llanos-8.pdf
Apresentacao-Llanos-8.pdfApresentacao-Llanos-8.pdf
Apresentacao-Llanos-8.pdf
 
obtenção de sinais discretos
obtenção de sinais discretosobtenção de sinais discretos
obtenção de sinais discretos
 
Confianca Noemi
Confianca NoemiConfianca Noemi
Confianca Noemi
 
Probabilidade e Estatítica Lista de Exercícios 1
Probabilidade e Estatítica Lista de Exercícios 1Probabilidade e Estatítica Lista de Exercícios 1
Probabilidade e Estatítica Lista de Exercícios 1
 
Fuzzy C-Means na Seleção de Currículos - Projeto de Aplicação
Fuzzy C-Means na Seleção de Currículos - Projeto de AplicaçãoFuzzy C-Means na Seleção de Currículos - Projeto de Aplicação
Fuzzy C-Means na Seleção de Currículos - Projeto de Aplicação
 

Último

Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
joaovmp3
 
História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
TomasSousa7
 
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdfEscola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Gabriel de Mattos Faustino
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
Momento da Informática
 
Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
WELITONNOGUEIRA3
 
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
Faga1939
 
Segurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas PráticasSegurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas Práticas
Danilo Pinotti
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
Momento da Informática
 

Último (8)

Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
 
História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
 
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdfEscola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
 
Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
 
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
 
Segurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas PráticasSegurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas Práticas
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
 

Generalização, validação e comparação de resultados

  • 1. Mestrado em Engenharia Informática
  • 2.  Generalização e Overfitting  Avaliação de hipóteses e comparação de resultados 30/01/2015 Aprendizagem Automática / Machine Learning 2
  • 3.  Até que ponto a nossa hipótese ira ter o resultado correcto para exemplos fora do conjunto de treino? 30/01/2015 Aprendizagem Automática / Machine Learning 3
  • 4. -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 Series1 Series2 -4 -3 -2 -1 0 1 2 3 4 -4 -2 0 2 4 Series1 Series2 Boa generalização (mesmo com erros no conjunto de treino) Overfitting / Sobre-aprendizagem (má generalização)
  • 5.  Generalização e “overfitting” Como saber quando parar o treino (aprendizagem supervisionada): treino teste Paragem
  • 6.  Validação => três conjuntos de dados: ◦ Treino,Teste,Validação  Conjuntos pequenos (k-fold validation/leave n-off) 1. Dividir dados em k subconjuntos 2. Em cada uma de k experiências usar um dos conjuntos para validação 3. Calcular nº médio de iterações (n) para minimizar erro de validação 4. Treinar com todos os dados n épocas
  • 7.  Cada teste dá um resultado (erro médio, qualidade média, etc.) X = {x1, x2, …, xn}  Um conjunto de testes terá também um média (bem como variância e desvio-padrão)  Média (mean)  Variância (variance)  O desvio padrão (standard deviation)   n i ix n X 1 1     n i i Xx n Xs 1 2 )( 1 1 )(   n i i Xx n X 1 2 )( 1 )( 7AA/ML, Luís Nunes, DCTI/ISCTE
  • 8.  Um intervalo de confiança de C%, diz-nos que, com C% de probabilidade, a média real (para um número infinito de experiências) estará no intervalo definido por n é o número de experiências realizadas t a distribuiçãoT-student, parametrizada por C,n. Ex: O intervalo de confiança de 95%, para um erro médio de 0.1, com variância 0.01, para 30 experiências: Excel:TINV(1 – C, n-1) =TINV(1 - 0.95, 29) = 2.04 n s(X)tX, n s(X)– tX nC,nC,      2.04t95,30   0.1037250.096275, 30 0.012.040.1, 30 0.012.04–0.1      8AA/ML, Luís Nunes, DCTI/ISCTE
  • 9.  Para provar (com uma certeza razoável) que um método é melhor que outro é necessário que os intervalos de confiança de ambas as experiências não se sobreponham 9AA/ML, Luís Nunes, DCTI/ISCTE
  • 11.  Generalização e Overfitting  Avaliação de hipóteses e comparação de resultados 30/01/2015 Aprendizagem Automática / Machine Learning 11