SlideShare uma empresa Scribd logo
1 de 38
Baixar para ler offline
CORRELAÇÃO E CLASSIFICAÇÃO 
Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
AGENDA 
• Estruturas de correlação 
• Classificador Naive Bayes 
• Árvores de Decisão 
• Avaliando um Classificador
ESTRUTURAS DE CORRELAÇÃO 
• Tipicamente, dividimos as variáveis em duas partes para podermos analisar 
de diferentes formas os relacionamentos entre elas 
• Variável de entrada: X 
• Variável alvo: U 
• Procuramos encontrar uma regra F para estabelecer uma relação entre a 
variável de entrada e a variável alvo 
• U = F(X) 
• Isto nos permitiria prever U a partir de X.
ESTRUTURAS DE CORRELAÇÃO 
• A regra U=F(X) pode ser utilizada para prever U a 
partir de X 
• Devido a sua grande importância prática, este 
problema tem recebido grande atenção de 
pesquisadores 
• O resultado são várias formas diferentes para 
encontrar estas regras
MODELO OCULTO DE MARKOV 
• Considere dois amigos (Alice e Bob) que moram distantes um do outro e 
que se falam diariamente ao telefone sobre o que fizeram durante o dia 
• Bob só se interessa por três tipos de atividade: caminhadas, compras e 
limpeza do apartamento 
• A escolha sobre o que fazer é determinada exclusivamente pelo clima do dia 
• Alice não tem dados específicos sobre o clima da cidade onde Bob mora, mas 
tem uma noção sobre a tendência de chuva ou de sol. 
• Baseado no que Bob diz que fez, Alice ela tenta adivinhar como estava o clima 
na cidade de Bob
MODELO OCULTO DE MARKOV
MODELO OCULTO DE MARKOV 
• Usa estados observáveis para prever estados não-observáveis 
• As transições entre os estados não observáveis 
seguem um processo de Cadeia de Markov 
• Propriedade: Os estados anteriores são irrelevantes 
para a predição dos estados seguintes, desde que o 
estado atual seja conhecido
REDES BAYESIANAS 
• Uma rede bayesiana é um modelo probabilístico que representa um conjunto de 
variáveis aleatórias e as dependências condicionais entre elas através de um grafo 
acíclico dirigido (DAG). 
• Os nós representam as variáveis aleatórias no sentido Bayesiano (quantidades 
observáveis, parâmetros desconhecidos ou hipóteses) 
• Os vértices representam dependências condicionais, nós não conectados 
representam variáveis condicionalmente independentes umas das outras 
• Por exemplo, uma rede bayesiana pode ser utilizada para representar os 
relacionamentos entre sintomas e doenças. 
• Dado um conjunto de sintomas, a rede poderia ser utilizada para calcular a 
probabilidade da presença de diferentes doenças
REDES BAYESIANAS 
Irrigação Chuva 
Grama 
molhada
REDES NEURAIS 
• Modelos computacionais inspirados pelo sistema nervoso central 
• Atualmente têm evoluído para uma abordagem mais prática, baseada 
em estatística e processamento de sinais 
• Utilizados para estimar ou aproximar funções que dependem de um 
grande número de entradas que são geralmente desconhecidas 
• Representadas por neurônios, capazes de computar valores a partir de 
entradas e conexões (sinapses) entre estes neurônios 
• Muito utilizadas para reconhecimento de padrões
REDES NEURAIS
ÁRVORES DE DECISÃO 
• Uma árvore 
mostrando a chance 
de sobrevivência 
dos passageiros do 
Titanic 
• Folhas representam 
as probabilidades
ESTRUTURAS DE CORRELAÇÃO 
• Entre as diferentes formas para as regras U = F(X), 
destacam-se 
• Modelo Oculto de Markov (Hidden Markov Model) 
• Redes Bayesianas 
• Redes Neurais 
• Árvores de Decisão
CLASSIFICADOR NAÏVE BAYES 
Artigo bebida igualdad 
e 
gasolina jogos popular preços crença talento imposto 
s 
mulher 
F1 1 2 0 1 2 0 0 0 0 2 
F2 0 0 0 1 0 1 0 2 0 2 
F3 0 2 0 0 0 0 0 1 0 2 
F4 2 1 0 0 0 2 0 2 0 1 
E1 2 0 1 2 2 0 0 1 0 0 
E2 0 1 0 3 2 1 2 0 0 0 
E3 1 0 2 0 1 1 0 3 1 1 
E4 0 1 0 1 1 0 1 1 0 0 
H1 0 0 2 0 1 2 0 0 2 0 
H2 1 0 2 2 0 2 2 0 0 0 
H3 0 0 1 1 2 1 1 0 2 0 
H4 0 0 1 0 0 2 2 0 2 0 
X 1 1 2 1 1 0 0 1 0 0
CLASSIFICADOR NAÏVE BAYES 
• Pensamento Bayesiano: considere a situação 
anterior, de acordo com os 12 artigos 
• Três classes F, E, e H, com probabilidades p(F) = 
1/3, p(E) = 1/3 e p(H) = 1/3 
• Cada classe é responsável por 4 dos 12 itens
CLASSIFICADOR NAÏVE BAYES 
• p(F) = 1/3, p(E) = 1/3 e p(H) = 1/3 
• Assuma que podemos derivar as probabilidades para o artigo x pertencer a 
cada uma dessas classes [p(x|F), p(x|E), p(x|H)] a partir dos dados da tabela 
• Sendo assim, as probabilidades posteriores das classes seriam proporcionais 
aos produtos (Teorema de Bayes): 
• p(F|x) = p(x|F)p(F) 
• p(E|x) = p(x|E)p(E) 
• p(H|x)=p(x|H)p(H)
CLASSIFICADOR NAÏVE BAYES 
• x pertence a classe com a maior probabilidade a posterior 
• p(F|x) = p(x|F)p(F) 
• p(E|x) = p(x|E)p(E) 
• p(H|x)=p(x|H)p(H) 
• Problema: Como derivar as probabilidades de x pertencer a 
cada uma das categorias [p(x|F), p(x|E), p(x|H)] a partir da tabela 
?
CLASSIFICADOR NAÏVE BAYES 
• Problema: Como derivar as probabilidades de x 
pertencer a cada uma das categorias [p(x|F), p(x|E), 
p(x|H)] a partir da tabela ? 
• Principio Naïve Bayes: assuma que as variáveis são 
independentes em cada classe F, E e H 
• Depois, calcular o produto das probabilidades f1, f2, 
…,f10 de cada palavra chave em cada classe
CLASSIFICADOR NAÏVE BAYES 
• Depois, calcular o produto das probabilidades f1, f2,…,f10 de cada 
palavra chave em cada classe 
• Dois problemas aqui: 
• produto de muitos números bem menores que zero tende a 0 
• se alguma das probabilidades for 0, o produto será 0 
• Solução: substituir o produto por uma soma de logaritmos!
ALGORITMO NAÏVE BAYES 
1. Calcule as probabilidades anteriores p(k), k=1, 2,…,K 
2. Calcule as probabilidades de cada uma das m palavras 
chaves em cada uma das k classes fk1, fk2,…, fkm 
3. Calcule o logarítimo de p(x|k), lp(x|k) = x1log(fk1) + 
x2log(fk2) + … + xmlog(fkm) 
4. Calcule as somas lp(k|x) = log(p(k)) + lp(x|k) e atribua x 
a classe k com lp(k|x) máximo
PROBABILIDADES DA 
PALAVRAS-CHAVE 
Artigo bebida igualdad 
e 
gasolina jogos popular preços crença talento imposto 
s 
mulher 
F1 1 2 0 1 2 0 0 0 0 2 
F2 0 0 0 1 0 1 0 2 0 2 
F3 0 2 0 0 0 0 0 1 0 2 
F4 2 1 0 0 0 2 0 2 0 1 
• Primeira questão: como tratar as palavras gasolina, crença 
e imposto ? 
• Segunda questão: que probabilidade atribuir a palavra 
mulher? Como considerar múltiplas ocorrência ?
PROBABILIDADES DA 
PALAVRAS-CHAVE 
Artigo bebida igualdad 
e 
gasolina jogos popular preços crença talento imposto 
s 
mulher 
F1 1 2 0 1 2 0 0 0 0 2 
F2 0 0 0 1 0 1 0 2 0 2 
F3 0 2 0 0 0 0 0 1 0 2 
F4 2 1 0 0 0 2 0 2 0 1 
• Modelo da sacola de palavras: por todas as palavras em um saco. 
• Somar as ocorrências de todas as palavras na classe 
(3+5+0+2+2+3+0+5+0+7 = 27) com o total de palavras (10) = 37 
• A probabilidade de uma palavra em uma é a sua quantidade de ocorrências 
+ 1 dividida pelo total de palavras da classe.
PROBABILIDADES DAS 
PALAVRAS-CHAVE 
Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher 
F 0.108 0.162 0.027 0.081 0.081 0.108 0.027 0.162 0.027 0.216 
E 0.095 0.071 0.095 0.167 0.167 0.071 0.095 0.143 0.048 0.048 
H 0.049 0.024 0.171 0.098 0.098 0.195 0.146 0.024 0.171 0.024 
• Por exemplo, fbebida,E=(3+1)/(32+10)=4/42 =0.095 
• Há 3 ocorrências da palavra bebida na classe E e 32 palavras em 
todos os artigos dessa classe, portanto, 42 é o tamanho da sacola 
de palavras para a classe E.
PROBABILIDADES DAS 
PALAVRAS-CHAVE 
Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher 
F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 
E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 
H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 
• Calculando o logaritmo natural das probabilidades 
(*100 para deixar tudo positivo)
PROBABILIDADES DAS 
PALAVRAS-CHAVE 
Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher 
F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 
E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 
H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 
X 1 1 2 1 1 0 0 1 0 0 
• Calcule o logaritmo da probabilidade de um documento pertencer a cada classe 
(C=log(100/3) = 3.5066 
• Considere o vetor x e calcule o produto interno dele com cada linha da tabela 
• Some C a cada resultado 
• X pertence a classe com o maior valor resultante
PROBABILIDADES DAS 
PALAVRAS-CHAVE 
Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher 
F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 
E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 
H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 
X 1 1 2 1 1 0 0 1 0 0 
• lp(F|x) =1*2.381+1*2.786+2*0.994+1*2.093+1*2.093+0*2.381+0*0.994+1*2.786+ 
0*0.994+0*3.074 + 3.5066 =17.633 
• lp(E|x)=1*2.254+1*1.966+2*2.254+1*2.813+1*2.813+0*1.966+0*2.254+1*2.659+ 
0*1.561+ 0*1.561 + 3.5066 = 20.520 
• lp(H|x)=1*1.585+1*0.892+2*2.838+1*2.278+1*2.278+0*2.971+0*2.683+1*0.892+ 
0*2.838+0*0.892 + 3.5066 = 17.105
ÁRVORE DE DECISÃO 
7 erros 6 erros
ÁRVORE DE DECISÃO 
• Árvore de classificação 
construída a partir de um 
conjunto de treinamento 
com particionamento alvo H 
• Objetivo: construir um 
particionamento G com 
similaridade máxima com H 
• Início: G composto por um 
único agrupamento, o 
conjunto de dados 
6 erros
ÁRVORE DE DECISÃO 
• Um particionamento é 
escolhido como o melhor 
dentre todos os 
particionamentos possíveis 
• Um função de score avalia a 
similaridade entre a partição 
alvo H e a partição G em 
construção 
6 erros
EXEMPLO DE CONSTRUÇÃO 
DE UMA ÁRVORE DE 
DECISÃO PARA A IRIS
AVALIANDO UM CLASSIFICADOR 
• Considere a seguinte tabela de resultados de um 
aparelho capaz de diagnosticar cancer de pulmão 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 94 7 101 
Não 1 98 99 
Total 95 105 200 
• Acurácia de 96%! 
• E daí?
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 2 2 4 
Não 1 195 196 
Total 3 197 200 
• Existem dois tipos de erros: 7 falsos positivos e 1 
falso negativo. 
• Ambos são igualmente graves ?
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 2 2 4 
Não 1 195 196 
Total 3 197 200 
• Podem haver diferenças entre os casos 
identificados corretamente quando a amostra é 
desbalanceada
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 2 2 4 
Não 1 195 196 
Total 3 197 200 
• Acurácia de 98.5%! 
• Porém, 1/3 dos pacientes com câncer foram 
diagnosticados incorretamente com câncer e 1/2 
dos pacientes com câncer não foram diagnosticados!
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim TP FP TP + FP 
Não FN TN FP + TN 
Total TP + FN FN + TN Tudo 
• Acurácia = (TP + TN)/Tudo 
• Precisão = TP / (TP+FP) - Classificador 
• Recall = TP / (TP+FN) - Classificação
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 2 2 4 
Não 1 195 196 
Total 3 197 200 
• Acurácia = (TP + TN)/Tudo = 98.5% 
• Precisão = TP / (TP+FP) = 2 / 4 = 50% 
• Recall = TP / (TP+FN) = 2 / 3 = 67% 
• Como combinar Precisão e Recall?
AVALIANDO UM CLASSIFICADOR 
Paciente realmente com 
Sim câncer Não Total 
Diagnóstico 
da máquina 
Sim 2 2 4 
Não 1 195 196 
Total 3 197 200 
• Acurácia = (TP + TN)/Tudo = 98.5% 
• Precisão = TP / (TP+FP) = 2 / 4 = 50% 
• Recall = TP / (TP+FN) = 2 / 3 = 67% 
• F = 2 /((1/Precisão) + (1/Recall)) = 2 / ( ( 1/0.5) + (1/0.67)) = 0.57
AVALIANDO UM CLASSIFICADOR 
EXEMPLO: AVALIANDO 
NOSSO CLASSIFICADOR DE 
IRIS

Mais conteúdo relacionado

Mais procurados

Problema da Mochila 0-1 (Knapsack problem)
Problema da Mochila 0-1 (Knapsack problem)Problema da Mochila 0-1 (Knapsack problem)
Problema da Mochila 0-1 (Knapsack problem)Marcos Castro
 
06 Modelagem de banco de dados: Modelo Lógico
06  Modelagem de banco de dados: Modelo Lógico06  Modelagem de banco de dados: Modelo Lógico
06 Modelagem de banco de dados: Modelo LógicoCentro Paula Souza
 
Banco de Dados II Aula Prática 1 (Conversão do modelo conceitual para modelo ...
Banco de Dados II Aula Prática 1 (Conversão do modelo conceitual para modelo ...Banco de Dados II Aula Prática 1 (Conversão do modelo conceitual para modelo ...
Banco de Dados II Aula Prática 1 (Conversão do modelo conceitual para modelo ...Leinylson Fontinele
 
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)Leinylson Fontinele
 
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)Leinylson Fontinele
 
Pesquisa Operacional Aula 02 - Programação Linear - Parte I
Pesquisa Operacional Aula 02 - Programação Linear - Parte IPesquisa Operacional Aula 02 - Programação Linear - Parte I
Pesquisa Operacional Aula 02 - Programação Linear - Parte ILeinylson Fontinele
 
Processamento de Imagens - Filtro Laplaciano
Processamento de Imagens - Filtro LaplacianoProcessamento de Imagens - Filtro Laplaciano
Processamento de Imagens - Filtro LaplacianoLucas Sabadini
 
Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)Leinylson Fontinele
 
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)Leinylson Fontinele
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Suhyun Cho
 
Programando em python funcoes
Programando em python   funcoesProgramando em python   funcoes
Programando em python funcoessamuelthiago
 
O caixeiro viajante é np completo
O caixeiro viajante é np completoO caixeiro viajante é np completo
O caixeiro viajante é np completoMarcelo Carvalho
 
Mer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoMer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoRademaker Siena
 

Mais procurados (20)

Problema da Mochila 0-1 (Knapsack problem)
Problema da Mochila 0-1 (Knapsack problem)Problema da Mochila 0-1 (Knapsack problem)
Problema da Mochila 0-1 (Knapsack problem)
 
Exerc anova 03 071
Exerc anova 03 071Exerc anova 03 071
Exerc anova 03 071
 
Aula 05 derivadas - conceitos iniciais
Aula 05   derivadas - conceitos iniciaisAula 05   derivadas - conceitos iniciais
Aula 05 derivadas - conceitos iniciais
 
06 Modelagem de banco de dados: Modelo Lógico
06  Modelagem de banco de dados: Modelo Lógico06  Modelagem de banco de dados: Modelo Lógico
06 Modelagem de banco de dados: Modelo Lógico
 
Curso estatistica descritiva no r
Curso   estatistica descritiva no rCurso   estatistica descritiva no r
Curso estatistica descritiva no r
 
IA Generativa
IA GenerativaIA Generativa
IA Generativa
 
Banco de Dados II Aula Prática 1 (Conversão do modelo conceitual para modelo ...
Banco de Dados II Aula Prática 1 (Conversão do modelo conceitual para modelo ...Banco de Dados II Aula Prática 1 (Conversão do modelo conceitual para modelo ...
Banco de Dados II Aula Prática 1 (Conversão do modelo conceitual para modelo ...
 
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)
Banco de Dados II Aula 03 - Modelagem de Dados (Modelo Lógico)
 
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)
Banco de Dados II Aula 04 - MODELAGEM DE DADOS (Generalização e Especialização)
 
Pesquisa Operacional Aula 02 - Programação Linear - Parte I
Pesquisa Operacional Aula 02 - Programação Linear - Parte IPesquisa Operacional Aula 02 - Programação Linear - Parte I
Pesquisa Operacional Aula 02 - Programação Linear - Parte I
 
econometria
 econometria econometria
econometria
 
Processamento de Imagens - Filtro Laplaciano
Processamento de Imagens - Filtro LaplacianoProcessamento de Imagens - Filtro Laplaciano
Processamento de Imagens - Filtro Laplaciano
 
Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)
Banco de Dados I - Aula 11 - Linguagem de Consulta SQL (Comandos DDL)
 
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
 
GP4US - Pesquisa operacional exercicios resolvidos - metodo simplex
GP4US - Pesquisa operacional   exercicios resolvidos - metodo simplexGP4US - Pesquisa operacional   exercicios resolvidos - metodo simplex
GP4US - Pesquisa operacional exercicios resolvidos - metodo simplex
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
 
Introdução ao R
Introdução ao RIntrodução ao R
Introdução ao R
 
Programando em python funcoes
Programando em python   funcoesProgramando em python   funcoes
Programando em python funcoes
 
O caixeiro viajante é np completo
O caixeiro viajante é np completoO caixeiro viajante é np completo
O caixeiro viajante é np completo
 
Mer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoMer - Modelo Entidade Relacionamento
Mer - Modelo Entidade Relacionamento
 

Destaque

Analise de agrupamentos uem
Analise de agrupamentos uemAnalise de agrupamentos uem
Analise de agrupamentos uemfalmeida856
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesCristiano Lemes da Silva
 
Introdução à Teoria dos Grafos
Introdução à Teoria dos GrafosIntrodução à Teoria dos Grafos
Introdução à Teoria dos GrafosBianca Dantas
 
Fundamentos do desenho técnico
Fundamentos do desenho técnicoFundamentos do desenho técnico
Fundamentos do desenho técnicoleobispo28
 

Destaque (8)

Analise de agrupamentos uem
Analise de agrupamentos uemAnalise de agrupamentos uem
Analise de agrupamentos uem
 
Modelo de Componentes de IHC
Modelo de Componentes de IHCModelo de Componentes de IHC
Modelo de Componentes de IHC
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no Genes
 
Aula programa Genes
Aula programa GenesAula programa Genes
Aula programa Genes
 
Introdução à Teoria dos Grafos
Introdução à Teoria dos GrafosIntrodução à Teoria dos Grafos
Introdução à Teoria dos Grafos
 
Grafos e Árvores
Grafos e ÁrvoresGrafos e Árvores
Grafos e Árvores
 
Fundamentos do desenho técnico
Fundamentos do desenho técnicoFundamentos do desenho técnico
Fundamentos do desenho técnico
 
Coleta de dados
Coleta de dadosColeta de dados
Coleta de dados
 

Semelhante a Correlação e Classificação

Trabalho individual objetos de aprendizagem
Trabalho individual objetos de aprendizagemTrabalho individual objetos de aprendizagem
Trabalho individual objetos de aprendizagemEdson Júnio
 
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.Projeto, execução. Desmistificando o ensino de Funções Quadráticas.
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.Adrienne Oliveira
 
Métodos Iterativos - Gauss-Seidel - @professorenan
Métodos Iterativos - Gauss-Seidel - @professorenanMétodos Iterativos - Gauss-Seidel - @professorenan
Métodos Iterativos - Gauss-Seidel - @professorenanRenan Gustavo
 
Apostila 2 matematica basica
Apostila 2 matematica basicaApostila 2 matematica basica
Apostila 2 matematica basicatrigono_metrico
 
Exercicios Resolvidos Equacao 2 Grau 0
Exercicios Resolvidos Equacao 2 Grau 0Exercicios Resolvidos Equacao 2 Grau 0
Exercicios Resolvidos Equacao 2 Grau 0Adriana Bonato
 
Estatistica regular 9
Estatistica regular 9Estatistica regular 9
Estatistica regular 9J M
 
Poscomp-Cadernodequestes ano2010
Poscomp-Cadernodequestes ano2010Poscomp-Cadernodequestes ano2010
Poscomp-Cadernodequestes ano2010Maellson Marques
 
Aula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfAula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfClioLima5
 
Matemática básica radiciação equações
Matemática básica radiciação equaçõesMatemática básica radiciação equações
Matemática básica radiciação equaçõesAlessandro Lisboa
 
Interdisciplinaridade e matemática2
Interdisciplinaridade e matemática2Interdisciplinaridade e matemática2
Interdisciplinaridade e matemática2Jose Bueno
 
ÁLGEBRA: polinómios e sistemas de equações até três incógnitas
ÁLGEBRA: polinómios e sistemas de equações até três incógnitasÁLGEBRA: polinómios e sistemas de equações até três incógnitas
ÁLGEBRA: polinómios e sistemas de equações até três incógnitaswilkerfilipel
 
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclobellaluna288
 
Estatistica regular 4
Estatistica regular 4Estatistica regular 4
Estatistica regular 4J M
 

Semelhante a Correlação e Classificação (20)

Trabalho individual objetos de aprendizagem
Trabalho individual objetos de aprendizagemTrabalho individual objetos de aprendizagem
Trabalho individual objetos de aprendizagem
 
Exercicios resolvidos
Exercicios resolvidosExercicios resolvidos
Exercicios resolvidos
 
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.Projeto, execução. Desmistificando o ensino de Funções Quadráticas.
Projeto, execução. Desmistificando o ensino de Funções Quadráticas.
 
Métodos Iterativos - Gauss-Seidel - @professorenan
Métodos Iterativos - Gauss-Seidel - @professorenanMétodos Iterativos - Gauss-Seidel - @professorenan
Métodos Iterativos - Gauss-Seidel - @professorenan
 
Apostila 2 matematica basica
Apostila 2 matematica basicaApostila 2 matematica basica
Apostila 2 matematica basica
 
Cursocalc1ead
Cursocalc1eadCursocalc1ead
Cursocalc1ead
 
1 cm mat
1 cm mat1 cm mat
1 cm mat
 
Equacao_Diferencial_Ordinaria.pdf
Equacao_Diferencial_Ordinaria.pdfEquacao_Diferencial_Ordinaria.pdf
Equacao_Diferencial_Ordinaria.pdf
 
Log 2016
Log 2016Log 2016
Log 2016
 
Exercicios Resolvidos Equacao 2 Grau 0
Exercicios Resolvidos Equacao 2 Grau 0Exercicios Resolvidos Equacao 2 Grau 0
Exercicios Resolvidos Equacao 2 Grau 0
 
Estatistica regular 9
Estatistica regular 9Estatistica regular 9
Estatistica regular 9
 
Poscomp-Cadernodequestes ano2010
Poscomp-Cadernodequestes ano2010Poscomp-Cadernodequestes ano2010
Poscomp-Cadernodequestes ano2010
 
Aula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdfAula 4 2023 CursoOnlineMMQ.pdf
Aula 4 2023 CursoOnlineMMQ.pdf
 
Matemática básica radiciação equações
Matemática básica radiciação equaçõesMatemática básica radiciação equações
Matemática básica radiciação equações
 
Interdisciplinaridade e matemática2
Interdisciplinaridade e matemática2Interdisciplinaridade e matemática2
Interdisciplinaridade e matemática2
 
Resumo Matemática 3º Ciclo
Resumo Matemática 3º CicloResumo Matemática 3º Ciclo
Resumo Matemática 3º Ciclo
 
ÁLGEBRA: polinómios e sistemas de equações até três incógnitas
ÁLGEBRA: polinómios e sistemas de equações até três incógnitasÁLGEBRA: polinómios e sistemas de equações até três incógnitas
ÁLGEBRA: polinómios e sistemas de equações até três incógnitas
 
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo
149865767 preparacao-para-prova-final-de-matematica-2âº-ciclo
 
Potencias raizes
Potencias raizesPotencias raizes
Potencias raizes
 
Estatistica regular 4
Estatistica regular 4Estatistica regular 4
Estatistica regular 4
 

Mais de Alexandre Duarte

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosAlexandre Duarte
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Alexandre Duarte
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaAlexandre Duarte
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1DAlexandre Duarte
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosAlexandre Duarte
 
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Alexandre Duarte
 

Mais de Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de Dados
 
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
 

Correlação e Classificação

  • 1. CORRELAÇÃO E CLASSIFICAÇÃO Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
  • 2. AGENDA • Estruturas de correlação • Classificador Naive Bayes • Árvores de Decisão • Avaliando um Classificador
  • 3. ESTRUTURAS DE CORRELAÇÃO • Tipicamente, dividimos as variáveis em duas partes para podermos analisar de diferentes formas os relacionamentos entre elas • Variável de entrada: X • Variável alvo: U • Procuramos encontrar uma regra F para estabelecer uma relação entre a variável de entrada e a variável alvo • U = F(X) • Isto nos permitiria prever U a partir de X.
  • 4. ESTRUTURAS DE CORRELAÇÃO • A regra U=F(X) pode ser utilizada para prever U a partir de X • Devido a sua grande importância prática, este problema tem recebido grande atenção de pesquisadores • O resultado são várias formas diferentes para encontrar estas regras
  • 5. MODELO OCULTO DE MARKOV • Considere dois amigos (Alice e Bob) que moram distantes um do outro e que se falam diariamente ao telefone sobre o que fizeram durante o dia • Bob só se interessa por três tipos de atividade: caminhadas, compras e limpeza do apartamento • A escolha sobre o que fazer é determinada exclusivamente pelo clima do dia • Alice não tem dados específicos sobre o clima da cidade onde Bob mora, mas tem uma noção sobre a tendência de chuva ou de sol. • Baseado no que Bob diz que fez, Alice ela tenta adivinhar como estava o clima na cidade de Bob
  • 7. MODELO OCULTO DE MARKOV • Usa estados observáveis para prever estados não-observáveis • As transições entre os estados não observáveis seguem um processo de Cadeia de Markov • Propriedade: Os estados anteriores são irrelevantes para a predição dos estados seguintes, desde que o estado atual seja conhecido
  • 8. REDES BAYESIANAS • Uma rede bayesiana é um modelo probabilístico que representa um conjunto de variáveis aleatórias e as dependências condicionais entre elas através de um grafo acíclico dirigido (DAG). • Os nós representam as variáveis aleatórias no sentido Bayesiano (quantidades observáveis, parâmetros desconhecidos ou hipóteses) • Os vértices representam dependências condicionais, nós não conectados representam variáveis condicionalmente independentes umas das outras • Por exemplo, uma rede bayesiana pode ser utilizada para representar os relacionamentos entre sintomas e doenças. • Dado um conjunto de sintomas, a rede poderia ser utilizada para calcular a probabilidade da presença de diferentes doenças
  • 9. REDES BAYESIANAS Irrigação Chuva Grama molhada
  • 10. REDES NEURAIS • Modelos computacionais inspirados pelo sistema nervoso central • Atualmente têm evoluído para uma abordagem mais prática, baseada em estatística e processamento de sinais • Utilizados para estimar ou aproximar funções que dependem de um grande número de entradas que são geralmente desconhecidas • Representadas por neurônios, capazes de computar valores a partir de entradas e conexões (sinapses) entre estes neurônios • Muito utilizadas para reconhecimento de padrões
  • 12. ÁRVORES DE DECISÃO • Uma árvore mostrando a chance de sobrevivência dos passageiros do Titanic • Folhas representam as probabilidades
  • 13. ESTRUTURAS DE CORRELAÇÃO • Entre as diferentes formas para as regras U = F(X), destacam-se • Modelo Oculto de Markov (Hidden Markov Model) • Redes Bayesianas • Redes Neurais • Árvores de Decisão
  • 14. CLASSIFICADOR NAÏVE BAYES Artigo bebida igualdad e gasolina jogos popular preços crença talento imposto s mulher F1 1 2 0 1 2 0 0 0 0 2 F2 0 0 0 1 0 1 0 2 0 2 F3 0 2 0 0 0 0 0 1 0 2 F4 2 1 0 0 0 2 0 2 0 1 E1 2 0 1 2 2 0 0 1 0 0 E2 0 1 0 3 2 1 2 0 0 0 E3 1 0 2 0 1 1 0 3 1 1 E4 0 1 0 1 1 0 1 1 0 0 H1 0 0 2 0 1 2 0 0 2 0 H2 1 0 2 2 0 2 2 0 0 0 H3 0 0 1 1 2 1 1 0 2 0 H4 0 0 1 0 0 2 2 0 2 0 X 1 1 2 1 1 0 0 1 0 0
  • 15. CLASSIFICADOR NAÏVE BAYES • Pensamento Bayesiano: considere a situação anterior, de acordo com os 12 artigos • Três classes F, E, e H, com probabilidades p(F) = 1/3, p(E) = 1/3 e p(H) = 1/3 • Cada classe é responsável por 4 dos 12 itens
  • 16. CLASSIFICADOR NAÏVE BAYES • p(F) = 1/3, p(E) = 1/3 e p(H) = 1/3 • Assuma que podemos derivar as probabilidades para o artigo x pertencer a cada uma dessas classes [p(x|F), p(x|E), p(x|H)] a partir dos dados da tabela • Sendo assim, as probabilidades posteriores das classes seriam proporcionais aos produtos (Teorema de Bayes): • p(F|x) = p(x|F)p(F) • p(E|x) = p(x|E)p(E) • p(H|x)=p(x|H)p(H)
  • 17. CLASSIFICADOR NAÏVE BAYES • x pertence a classe com a maior probabilidade a posterior • p(F|x) = p(x|F)p(F) • p(E|x) = p(x|E)p(E) • p(H|x)=p(x|H)p(H) • Problema: Como derivar as probabilidades de x pertencer a cada uma das categorias [p(x|F), p(x|E), p(x|H)] a partir da tabela ?
  • 18. CLASSIFICADOR NAÏVE BAYES • Problema: Como derivar as probabilidades de x pertencer a cada uma das categorias [p(x|F), p(x|E), p(x|H)] a partir da tabela ? • Principio Naïve Bayes: assuma que as variáveis são independentes em cada classe F, E e H • Depois, calcular o produto das probabilidades f1, f2, …,f10 de cada palavra chave em cada classe
  • 19. CLASSIFICADOR NAÏVE BAYES • Depois, calcular o produto das probabilidades f1, f2,…,f10 de cada palavra chave em cada classe • Dois problemas aqui: • produto de muitos números bem menores que zero tende a 0 • se alguma das probabilidades for 0, o produto será 0 • Solução: substituir o produto por uma soma de logaritmos!
  • 20. ALGORITMO NAÏVE BAYES 1. Calcule as probabilidades anteriores p(k), k=1, 2,…,K 2. Calcule as probabilidades de cada uma das m palavras chaves em cada uma das k classes fk1, fk2,…, fkm 3. Calcule o logarítimo de p(x|k), lp(x|k) = x1log(fk1) + x2log(fk2) + … + xmlog(fkm) 4. Calcule as somas lp(k|x) = log(p(k)) + lp(x|k) e atribua x a classe k com lp(k|x) máximo
  • 21. PROBABILIDADES DA PALAVRAS-CHAVE Artigo bebida igualdad e gasolina jogos popular preços crença talento imposto s mulher F1 1 2 0 1 2 0 0 0 0 2 F2 0 0 0 1 0 1 0 2 0 2 F3 0 2 0 0 0 0 0 1 0 2 F4 2 1 0 0 0 2 0 2 0 1 • Primeira questão: como tratar as palavras gasolina, crença e imposto ? • Segunda questão: que probabilidade atribuir a palavra mulher? Como considerar múltiplas ocorrência ?
  • 22. PROBABILIDADES DA PALAVRAS-CHAVE Artigo bebida igualdad e gasolina jogos popular preços crença talento imposto s mulher F1 1 2 0 1 2 0 0 0 0 2 F2 0 0 0 1 0 1 0 2 0 2 F3 0 2 0 0 0 0 0 1 0 2 F4 2 1 0 0 0 2 0 2 0 1 • Modelo da sacola de palavras: por todas as palavras em um saco. • Somar as ocorrências de todas as palavras na classe (3+5+0+2+2+3+0+5+0+7 = 27) com o total de palavras (10) = 37 • A probabilidade de uma palavra em uma é a sua quantidade de ocorrências + 1 dividida pelo total de palavras da classe.
  • 23. PROBABILIDADES DAS PALAVRAS-CHAVE Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher F 0.108 0.162 0.027 0.081 0.081 0.108 0.027 0.162 0.027 0.216 E 0.095 0.071 0.095 0.167 0.167 0.071 0.095 0.143 0.048 0.048 H 0.049 0.024 0.171 0.098 0.098 0.195 0.146 0.024 0.171 0.024 • Por exemplo, fbebida,E=(3+1)/(32+10)=4/42 =0.095 • Há 3 ocorrências da palavra bebida na classe E e 32 palavras em todos os artigos dessa classe, portanto, 42 é o tamanho da sacola de palavras para a classe E.
  • 24. PROBABILIDADES DAS PALAVRAS-CHAVE Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 • Calculando o logaritmo natural das probabilidades (*100 para deixar tudo positivo)
  • 25. PROBABILIDADES DAS PALAVRAS-CHAVE Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 X 1 1 2 1 1 0 0 1 0 0 • Calcule o logaritmo da probabilidade de um documento pertencer a cada classe (C=log(100/3) = 3.5066 • Considere o vetor x e calcule o produto interno dele com cada linha da tabela • Some C a cada resultado • X pertence a classe com o maior valor resultante
  • 26. PROBABILIDADES DAS PALAVRAS-CHAVE Artigo bebida igualdade gasolina jogos popular preços crença talento impostos mulher F 2.381 2.786 0.994 2.093 2.093 2.381 0.994 2.786 0.994 3.074 E 2.254 1.966 2.254 2.813 2.813 1.966 2.254 2.659 1.561 1.561 H 1.585 0.892 2.838 2.278 2.278 2.971 2.683 0.892 2.838 0.892 X 1 1 2 1 1 0 0 1 0 0 • lp(F|x) =1*2.381+1*2.786+2*0.994+1*2.093+1*2.093+0*2.381+0*0.994+1*2.786+ 0*0.994+0*3.074 + 3.5066 =17.633 • lp(E|x)=1*2.254+1*1.966+2*2.254+1*2.813+1*2.813+0*1.966+0*2.254+1*2.659+ 0*1.561+ 0*1.561 + 3.5066 = 20.520 • lp(H|x)=1*1.585+1*0.892+2*2.838+1*2.278+1*2.278+0*2.971+0*2.683+1*0.892+ 0*2.838+0*0.892 + 3.5066 = 17.105
  • 27. ÁRVORE DE DECISÃO 7 erros 6 erros
  • 28. ÁRVORE DE DECISÃO • Árvore de classificação construída a partir de um conjunto de treinamento com particionamento alvo H • Objetivo: construir um particionamento G com similaridade máxima com H • Início: G composto por um único agrupamento, o conjunto de dados 6 erros
  • 29. ÁRVORE DE DECISÃO • Um particionamento é escolhido como o melhor dentre todos os particionamentos possíveis • Um função de score avalia a similaridade entre a partição alvo H e a partição G em construção 6 erros
  • 30. EXEMPLO DE CONSTRUÇÃO DE UMA ÁRVORE DE DECISÃO PARA A IRIS
  • 31. AVALIANDO UM CLASSIFICADOR • Considere a seguinte tabela de resultados de um aparelho capaz de diagnosticar cancer de pulmão Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 94 7 101 Não 1 98 99 Total 95 105 200 • Acurácia de 96%! • E daí?
  • 32. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 2 2 4 Não 1 195 196 Total 3 197 200 • Existem dois tipos de erros: 7 falsos positivos e 1 falso negativo. • Ambos são igualmente graves ?
  • 33. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 2 2 4 Não 1 195 196 Total 3 197 200 • Podem haver diferenças entre os casos identificados corretamente quando a amostra é desbalanceada
  • 34. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 2 2 4 Não 1 195 196 Total 3 197 200 • Acurácia de 98.5%! • Porém, 1/3 dos pacientes com câncer foram diagnosticados incorretamente com câncer e 1/2 dos pacientes com câncer não foram diagnosticados!
  • 35. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim TP FP TP + FP Não FN TN FP + TN Total TP + FN FN + TN Tudo • Acurácia = (TP + TN)/Tudo • Precisão = TP / (TP+FP) - Classificador • Recall = TP / (TP+FN) - Classificação
  • 36. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 2 2 4 Não 1 195 196 Total 3 197 200 • Acurácia = (TP + TN)/Tudo = 98.5% • Precisão = TP / (TP+FP) = 2 / 4 = 50% • Recall = TP / (TP+FN) = 2 / 3 = 67% • Como combinar Precisão e Recall?
  • 37. AVALIANDO UM CLASSIFICADOR Paciente realmente com Sim câncer Não Total Diagnóstico da máquina Sim 2 2 4 Não 1 195 196 Total 3 197 200 • Acurácia = (TP + TN)/Tudo = 98.5% • Precisão = TP / (TP+FP) = 2 / 4 = 50% • Recall = TP / (TP+FN) = 2 / 3 = 67% • F = 2 /((1/Precisão) + (1/Recall)) = 2 / ( ( 1/0.5) + (1/0.67)) = 0.57
  • 38. AVALIANDO UM CLASSIFICADOR EXEMPLO: AVALIANDO NOSSO CLASSIFICADOR DE IRIS