As três frases são:
1) O documento discute árvores de decisão, que representam conhecimento através de exemplos para classificar registros.
2) Os algoritmos ID3 e C4.5 constroem árvores de decisão selecionando atributos que melhor dividem os exemplos usando métricas como entropia e ganho de informação.
3) Um exemplo calcula esses valores para atributos em uma tabela sobre o clima e decide se deve ou não jogar, ilustrando a construção da árvore de decisão.
O documento descreve os algoritmos ID3 e C4.5 para mineração de dados, que constroem árvores de decisão induzidas. O ID3 usa entropia para selecionar o melhor atributo divisor, enquanto o C4.5 lida com atributos contínuos e usa razão de ganho para gerar árvores menos complexas, além de permitir poda pós-construção.
Este documento discute árvores de decisão para mineração de dados. Ele introduz árvores de decisão, explica brevemente sua história e o algoritmo ID3, e mostra como árvores de decisão podem ser usadas para classificação e predição a partir de dados. O documento conclui que árvores de decisão são úteis para análise exploratória de dados e tomada de decisões com base em custos, probabilidades e consequências.
One of the biggest dilemmas faced by decision-making systems is to determine an efficient means to produce classifiers from data base regarding the processing time and the form of simple symbolic representation understandable that facilitates the analysis of the problem in question. In this brief report we will discuss a very popular tool in knowledge discovery in databases process and thus aid in making decisions: the Decision Trees.
O documento descreve os algoritmos ID3 e C.45 para mineração de dados, especificamente para classificação. O ID3 usa entropia e ganho de informação para construir árvores de decisão de forma recursiva, enquanto o C.45 lida com atributos contínuos e desconhecidos. Ambos os algoritmos geram regras if-then para classificação de dados.
1) O documento descreve vários métodos de aprendizagem automática, incluindo aprendizagem supervisionada como K-NN, árvores de decisão e aprendizagem não supervisionada como aprendizagem competitiva e mapas topológicos.
2) Nos métodos de aprendizagem supervisionada, ID3 usa entropia e ganho de informação para construir árvores de decisão, enquanto K-NN atribui novas instâncias à classe dos vizinhos mais próximos.
3) Nos métodos não supervisionados, a aprendizagem
O documento discute Big Data e técnicas de análise de dados. Aborda porque Big Data é importante, fatores-chave como infraestrutura e gestão de dados, e aplicações em empresas. Também explica conceitos como árvores de decisão, redes neurais e algoritmos genéticos.
1) O documento discute vários tópicos relacionados com aprendizagem automática, incluindo tipos de aprendizagem como aprendizagem supervisionada, não supervisionada e por reforço.
2) A aprendizagem supervisionada é discutida em maior detalhe, com exemplos de k-nearest neighbours, quantização vectorial e árvores de decisão.
3) São apresentados algoritmos como ID3 e C4.5 para construção de árvores de decisão a partir de conjuntos de dados, maximizando o ganho de informação em cada divisão.
O documento descreve um sistema de automação residencial inteligente chamado Sistema ABC+ que aprende regras de acordo com o comportamento dos habitantes da casa. O sistema coleta dados dos sensores da casa quando os atuadores são acionados pelos habitantes e usa um algoritmo de aprendizado de máquina para induzir regras que podem ser usadas para automatizar ações no futuro com base no comportamento passado.
O documento descreve os algoritmos ID3 e C4.5 para mineração de dados, que constroem árvores de decisão induzidas. O ID3 usa entropia para selecionar o melhor atributo divisor, enquanto o C4.5 lida com atributos contínuos e usa razão de ganho para gerar árvores menos complexas, além de permitir poda pós-construção.
Este documento discute árvores de decisão para mineração de dados. Ele introduz árvores de decisão, explica brevemente sua história e o algoritmo ID3, e mostra como árvores de decisão podem ser usadas para classificação e predição a partir de dados. O documento conclui que árvores de decisão são úteis para análise exploratória de dados e tomada de decisões com base em custos, probabilidades e consequências.
One of the biggest dilemmas faced by decision-making systems is to determine an efficient means to produce classifiers from data base regarding the processing time and the form of simple symbolic representation understandable that facilitates the analysis of the problem in question. In this brief report we will discuss a very popular tool in knowledge discovery in databases process and thus aid in making decisions: the Decision Trees.
O documento descreve os algoritmos ID3 e C.45 para mineração de dados, especificamente para classificação. O ID3 usa entropia e ganho de informação para construir árvores de decisão de forma recursiva, enquanto o C.45 lida com atributos contínuos e desconhecidos. Ambos os algoritmos geram regras if-then para classificação de dados.
1) O documento descreve vários métodos de aprendizagem automática, incluindo aprendizagem supervisionada como K-NN, árvores de decisão e aprendizagem não supervisionada como aprendizagem competitiva e mapas topológicos.
2) Nos métodos de aprendizagem supervisionada, ID3 usa entropia e ganho de informação para construir árvores de decisão, enquanto K-NN atribui novas instâncias à classe dos vizinhos mais próximos.
3) Nos métodos não supervisionados, a aprendizagem
O documento discute Big Data e técnicas de análise de dados. Aborda porque Big Data é importante, fatores-chave como infraestrutura e gestão de dados, e aplicações em empresas. Também explica conceitos como árvores de decisão, redes neurais e algoritmos genéticos.
1) O documento discute vários tópicos relacionados com aprendizagem automática, incluindo tipos de aprendizagem como aprendizagem supervisionada, não supervisionada e por reforço.
2) A aprendizagem supervisionada é discutida em maior detalhe, com exemplos de k-nearest neighbours, quantização vectorial e árvores de decisão.
3) São apresentados algoritmos como ID3 e C4.5 para construção de árvores de decisão a partir de conjuntos de dados, maximizando o ganho de informação em cada divisão.
O documento descreve um sistema de automação residencial inteligente chamado Sistema ABC+ que aprende regras de acordo com o comportamento dos habitantes da casa. O sistema coleta dados dos sensores da casa quando os atuadores são acionados pelos habitantes e usa um algoritmo de aprendizado de máquina para induzir regras que podem ser usadas para automatizar ações no futuro com base no comportamento passado.
O documento discute os conceitos de aprendizagem por reforço, incluindo como um agente pode aprender quais ações levam a maiores recompensas por tentativa e erro, e algoritmos como Q-learning e SARSA. Também aborda questões práticas como exploração versus exploração e aplicações da aprendizagem por reforço em problemas como um labirinto.
O documento descreve um curso introdutório de Java chamado Curso Java Starter. O curso ensina lógica de programação e Java básico para ajudar alunos a entrarem no mercado de trabalho. O material didático inclui módulos em PDF e vídeos e os alunos podem tirar dúvidas em uma lista de discussão online.
Introdução à análise orientada a objetos parte 1ariovaldodias
O documento apresenta os principais conceitos de análise orientada a objetos (AOO), incluindo classes, objetos, atributos, métodos, encapsulamento, herança e diagrama de classes. Também discute a evolução das classes ao longo do projeto e a importância do reuso em programação orientada a objetos.
Este documento discute aprendizagem automática, incluindo tipos de aprendizagem (supervisionada, não supervisionada, por reforço), aplicações (reconhecimento de padrões, previsão, aprendizagem de comportamentos) e uma breve história da IA e AA.
O documento discute vários tipos de aprendizagem não supervisionada, incluindo redução de dimensionalidade, agrupamento (clustering) e mapas topológicos. Ele explica algoritmos como análise de componentes principais (PCA), K-means, aprendizagem competitiva e teoria de ressonância adaptativa (ART) para agrupar padrões sem supervisão.
Esta apresentação é uma introdução aos modelos de núcleo e ao algoritmo de Máquinas de Vetor de Suporte para a Classificação de Documentos. São discutidos métodos de modelagem de dados e o demonstrado o uso da biblioteca LIBSVM.
1) O documento discute técnicas de aprendizagem automática supervisionada como regressão, classificação e redes neurais artificiais.
2) A retropropagação é descrita como um método para treinar redes neurais através da propagação de erros e atualização dos pesos para minimizar o erro.
3) Várias técnicas são discutidas para acelerar a convergência da retropropagação incluindo taxas de aprendizagem adaptativas e momento.
O documento descreve o conceito e aplicação de árvores de decisão. Resume os principais pontos sobre representação de árvores de decisão, cálculo de entropia e ganho de informação usando um exemplo de previsão de jogo de tênis. Explica como as árvores de decisão podem classificar situações com base em atributos e como o ganho de informação é usado para construir a árvore.
Data mining: Auxiliando as empresas na tomada de decisãoAntonioEE256
Monografia sobre os benefícios obtidos pelas empresas que se fazem uso das técnicas de data mining. O trabalho também contempla uma visão geral do sobre B.I
Academic work on data mining and its benefits to business
A internet das coisas, redes sociais, marketing online e offline estão cada vez mais correlacionados. Nesse cenário é importante que profissionais aprendam analisar com esses objetos se correlacionam e o gráfico 3D é um excelente instrumento de partida.
Este documento apresenta o plano de ensino para a disciplina de Estatística Aplicada. O curso abordará estatística descritiva, probabilidade, distribuições, intervalos, correlação e regressão, e testes de hipóteses ao longo de 20 semanas. As aulas serão expositivas e interativas com exercícios e estudos de caso.
1. O documento apresenta um resumo do conteúdo de um livro sobre estatística aplicada à gestão empresarial, incluindo estatística exploratória de dados, gráficos, medidas estatísticas e probabilidade.
2. Fornece dicas para professores sobre apresentação dos slides e sugere sites para adquirir os livros do autor.
3. Discutem conceitos básicos de estatística como variáveis, tabelas de frequência, medidas de tendência central e dispersão.
Uma loira sem emprego decide seqüestrar uma criança rica para obter dinheiro do resgate. Ela deixa um bilhete na jaqueta da criança para a mãe, mas quando vai buscar o dinheiro descobre que a mãe também é loira e a critica por ter feito isso com outra loira.
1. O documento discute os elementos essenciais de tabelas e gráficos estatísticos, incluindo séries históricas, geográficas e específicas.
2. Ele explica os componentes fundamentais de uma tabela como número, título, cabeçalho, colunas e células e fornece exemplos.
3. O documento também descreve diferentes tipos de gráficos estatísticos como barras, setores, dispersão, colunas e outros.
O documento discute a indução de árvores de decisão e classificação. Apresenta os componentes da aprendizagem de máquina para classificação e como árvores de decisão podem ser usadas para classificar instâncias em classes. Descreve também a formalização do problema de indução de árvores de decisão e o processo de busca gulosa usado para construir as árvores.
O documento descreve um exercício sobre teoria da decisão e utilidade envolvendo uma empresa de construção civil que precisa decidir em qual de duas obras concorrer para maximizar seu lucro esperado. São dados os custos de cada projeto, as probabilidades de ganhar cada obra e os lucros estimados.
Cap5 - Parte 4 - Intervalo Da ProporçãoRegis Andrade
O documento discute intervalos de confiança para proporções. Explica que uma proporção é a razão entre resultados que atendem uma condição e o total de resultados. Para avaliar uma proporção com precisão, é necessário uma amostra grande o suficiente para criar um intervalo de confiança usando a distribuição normal. O documento fornece a fórmula para calcular o intervalo de confiança de uma proporção e aplica a um exemplo sobre fatores que contribuem para o peso ao nascer de crianças.
O documento discute coeficientes de variabilidade e assimetria em estatística. Explica o coeficiente de variação de Pearson, coeficiente de variação de Thorndike e coeficiente quartílico de variação. Também define assimetria simétrica e assimétrica à esquerda ou à direita, e introduz o coeficiente de assimetria de Pearson. Fornece exemplos e referências bibliográficas.
O documento discute aprendizagem com árvores de decisão. Explica que a aprendizagem é essencial quando o projetista não conhece totalmente o ambiente e permite que o agente seja exposto à realidade. Descreve como as árvores de decisão podem representar funções dos atributos de entrada e como o algoritmo de aprendizagem constrói árvores recursivamente escolhendo o atributo mais significativo em cada nó, medido pelo ganho de informação.
1. O documento apresenta um resumo sobre estatística e análise exploratória de dados, incluindo a história, objetivos e métodos da estatística.
2. Inclui um guia sobre os principais tópicos abordados no livro, como variáveis, medidas estatísticas, amostragem e distribuições de probabilidade.
3. Fornece dicas para professores sobre como apresentar os conceitos de estatística usando slides.
O documento discute o uso da informática na agricultura e apresenta duas teses sobre o assunto. A primeira tese argumenta que a agricultura enfrenta limitações estruturais que dificultam sua industrialização completa. Já a segunda tese defende que o capitalismo está gradualmente superando essas limitações através da inovação tecnológica, possibilitando um "salto de etapas" para uma agricultura mais industrializada e flexível. O documento também analisa como a informática vem sendo utilizada pelas empresas citrícolas investigadas, mais
O documento discute os conceitos de aprendizagem por reforço, incluindo como um agente pode aprender quais ações levam a maiores recompensas por tentativa e erro, e algoritmos como Q-learning e SARSA. Também aborda questões práticas como exploração versus exploração e aplicações da aprendizagem por reforço em problemas como um labirinto.
O documento descreve um curso introdutório de Java chamado Curso Java Starter. O curso ensina lógica de programação e Java básico para ajudar alunos a entrarem no mercado de trabalho. O material didático inclui módulos em PDF e vídeos e os alunos podem tirar dúvidas em uma lista de discussão online.
Introdução à análise orientada a objetos parte 1ariovaldodias
O documento apresenta os principais conceitos de análise orientada a objetos (AOO), incluindo classes, objetos, atributos, métodos, encapsulamento, herança e diagrama de classes. Também discute a evolução das classes ao longo do projeto e a importância do reuso em programação orientada a objetos.
Este documento discute aprendizagem automática, incluindo tipos de aprendizagem (supervisionada, não supervisionada, por reforço), aplicações (reconhecimento de padrões, previsão, aprendizagem de comportamentos) e uma breve história da IA e AA.
O documento discute vários tipos de aprendizagem não supervisionada, incluindo redução de dimensionalidade, agrupamento (clustering) e mapas topológicos. Ele explica algoritmos como análise de componentes principais (PCA), K-means, aprendizagem competitiva e teoria de ressonância adaptativa (ART) para agrupar padrões sem supervisão.
Esta apresentação é uma introdução aos modelos de núcleo e ao algoritmo de Máquinas de Vetor de Suporte para a Classificação de Documentos. São discutidos métodos de modelagem de dados e o demonstrado o uso da biblioteca LIBSVM.
1) O documento discute técnicas de aprendizagem automática supervisionada como regressão, classificação e redes neurais artificiais.
2) A retropropagação é descrita como um método para treinar redes neurais através da propagação de erros e atualização dos pesos para minimizar o erro.
3) Várias técnicas são discutidas para acelerar a convergência da retropropagação incluindo taxas de aprendizagem adaptativas e momento.
O documento descreve o conceito e aplicação de árvores de decisão. Resume os principais pontos sobre representação de árvores de decisão, cálculo de entropia e ganho de informação usando um exemplo de previsão de jogo de tênis. Explica como as árvores de decisão podem classificar situações com base em atributos e como o ganho de informação é usado para construir a árvore.
Data mining: Auxiliando as empresas na tomada de decisãoAntonioEE256
Monografia sobre os benefícios obtidos pelas empresas que se fazem uso das técnicas de data mining. O trabalho também contempla uma visão geral do sobre B.I
Academic work on data mining and its benefits to business
A internet das coisas, redes sociais, marketing online e offline estão cada vez mais correlacionados. Nesse cenário é importante que profissionais aprendam analisar com esses objetos se correlacionam e o gráfico 3D é um excelente instrumento de partida.
Este documento apresenta o plano de ensino para a disciplina de Estatística Aplicada. O curso abordará estatística descritiva, probabilidade, distribuições, intervalos, correlação e regressão, e testes de hipóteses ao longo de 20 semanas. As aulas serão expositivas e interativas com exercícios e estudos de caso.
1. O documento apresenta um resumo do conteúdo de um livro sobre estatística aplicada à gestão empresarial, incluindo estatística exploratória de dados, gráficos, medidas estatísticas e probabilidade.
2. Fornece dicas para professores sobre apresentação dos slides e sugere sites para adquirir os livros do autor.
3. Discutem conceitos básicos de estatística como variáveis, tabelas de frequência, medidas de tendência central e dispersão.
Uma loira sem emprego decide seqüestrar uma criança rica para obter dinheiro do resgate. Ela deixa um bilhete na jaqueta da criança para a mãe, mas quando vai buscar o dinheiro descobre que a mãe também é loira e a critica por ter feito isso com outra loira.
1. O documento discute os elementos essenciais de tabelas e gráficos estatísticos, incluindo séries históricas, geográficas e específicas.
2. Ele explica os componentes fundamentais de uma tabela como número, título, cabeçalho, colunas e células e fornece exemplos.
3. O documento também descreve diferentes tipos de gráficos estatísticos como barras, setores, dispersão, colunas e outros.
O documento discute a indução de árvores de decisão e classificação. Apresenta os componentes da aprendizagem de máquina para classificação e como árvores de decisão podem ser usadas para classificar instâncias em classes. Descreve também a formalização do problema de indução de árvores de decisão e o processo de busca gulosa usado para construir as árvores.
O documento descreve um exercício sobre teoria da decisão e utilidade envolvendo uma empresa de construção civil que precisa decidir em qual de duas obras concorrer para maximizar seu lucro esperado. São dados os custos de cada projeto, as probabilidades de ganhar cada obra e os lucros estimados.
Cap5 - Parte 4 - Intervalo Da ProporçãoRegis Andrade
O documento discute intervalos de confiança para proporções. Explica que uma proporção é a razão entre resultados que atendem uma condição e o total de resultados. Para avaliar uma proporção com precisão, é necessário uma amostra grande o suficiente para criar um intervalo de confiança usando a distribuição normal. O documento fornece a fórmula para calcular o intervalo de confiança de uma proporção e aplica a um exemplo sobre fatores que contribuem para o peso ao nascer de crianças.
O documento discute coeficientes de variabilidade e assimetria em estatística. Explica o coeficiente de variação de Pearson, coeficiente de variação de Thorndike e coeficiente quartílico de variação. Também define assimetria simétrica e assimétrica à esquerda ou à direita, e introduz o coeficiente de assimetria de Pearson. Fornece exemplos e referências bibliográficas.
O documento discute aprendizagem com árvores de decisão. Explica que a aprendizagem é essencial quando o projetista não conhece totalmente o ambiente e permite que o agente seja exposto à realidade. Descreve como as árvores de decisão podem representar funções dos atributos de entrada e como o algoritmo de aprendizagem constrói árvores recursivamente escolhendo o atributo mais significativo em cada nó, medido pelo ganho de informação.
1. O documento apresenta um resumo sobre estatística e análise exploratória de dados, incluindo a história, objetivos e métodos da estatística.
2. Inclui um guia sobre os principais tópicos abordados no livro, como variáveis, medidas estatísticas, amostragem e distribuições de probabilidade.
3. Fornece dicas para professores sobre como apresentar os conceitos de estatística usando slides.
O documento discute o uso da informática na agricultura e apresenta duas teses sobre o assunto. A primeira tese argumenta que a agricultura enfrenta limitações estruturais que dificultam sua industrialização completa. Já a segunda tese defende que o capitalismo está gradualmente superando essas limitações através da inovação tecnológica, possibilitando um "salto de etapas" para uma agricultura mais industrializada e flexível. O documento também analisa como a informática vem sendo utilizada pelas empresas citrícolas investigadas, mais
Tomada de Decisão e Cenários - Módulo 5Dafne Morais
Este documento discute sistemas de informação e apoio à tomada de decisão. Ele define e classifica diferentes tipos de sistemas, incluindo sistemas de processamento de transações, sistemas de informação gerenciais, sistemas de apoio à decisão e sistemas de apoio a executivos. Também discute como esses sistemas integram-se e apoiam decisões em diferentes níveis organizacionais.
Este documento apresenta conceitos fundamentais de simulação de eventos discretos, incluindo regime transitório e permanente, simulação terminal e em regime, medidas de desempenho, réplicas e intervalos de confiança. Discutem-se métodos para calcular intervalos de confiança e o número de réplicas necessárias para atingir uma precisão desejada.
O documento descreve as principais fases do trabalho estatístico: 1) Definição do problema, onde se formula o problema a ser estudado; 2) Definição dos objetivos, onde se definem os objetivos do estudo de forma precisa; 3) Planejamento, onde se determina o procedimento para resolver o problema, quais dados coletar e como coletá-los.
1) O documento discute o histórico e conceitos fundamentais da estatística, incluindo suas origens, métodos e aplicações em administração.
2) É explicado que a estatística surgiu para compilar e analisar dados sobre aspectos de estados e países, evoluindo para um método científico de amostragem e inferência.
3) As fases do método estatístico incluem definição do problema, coleta e análise de dados para conclusões.
Este documento fornece uma introdução à estatística descritiva e indutiva. Abrange definições gerais de população, variáveis e amostragem, e descreve as principais medidas estatísticas como média, mediana, moda, dispersão e concentração. Também discute representações gráficas como histogramas e curvas de Lorenz.
O documento apresenta um resumo sobre estatística aplicada à segurança do trabalho, abordando conceitos fundamentais como população, amostragem, variáveis, características e fenômenos estatísticos. Também descreve as fases do trabalho estatístico como coleta, apresentação e análise de dados, além de normas para tabelas e representação gráfica. Por fim, expõe medidas estatísticas como média, moda, mediana, distribuição de frequências e histogramas.
Identifying the Root Cause of Failures in IT Changes: Novel Strategies and Tr...Ricardo Luis dos Santos
The document proposes strategies to identify the root causes of failures in IT changes through an interactive diagnosis process. It presents a conceptual architecture with a root cause analyzer that selects questions using different strategies, including only considering completed diagnostics, all diagnostics, the age of diagnostics, and questions' popularity. A case study demonstrates the diagnosis workflows generated for a failure occurring during a change involving installing new servers. The solution allows reusing operators' knowledge and flexibility in diagnostics generated.
Uma Solução para Identificação da Causa Raiz de Problemas no Gerenciamento de...Ricardo Luis dos Santos
The document proposes a solution for identifying the root cause of problems in IT change management. It involves developing an interactive root cause analysis tool that considers the infrastructure context and historical diagnosis data. The proposed approach includes a diagnosis process, information model, conceptual architecture and root cause analyzer. The tool would guide operators through iterative questioning to identify the most likely root cause, helping optimize the root cause identification process.
A Solution for Identifying the Root Cause of Problems in IT Change ManagementRicardo Luis dos Santos
The document proposes a solution for identifying the root cause of problems in IT change management. It involves developing an interactive root cause analysis method that considers information from previous diagnoses and the affected IT infrastructure. The proposed approach includes a diagnosis process, an information model, a conceptual architecture, and a root cause analyzer component. The root cause analyzer identifies potential root causes and questions based on weights and selects the question with the highest weight to iteratively diagnose the problem. The goal is to optimize root cause identification and enable knowledge reuse from past diagnoses.
Identificação Interativa da Causa Raiz de Problemas no Gerenciamento de Mudan...Ricardo Luis dos Santos
O documento apresenta uma solução proposta para identificar causas raízes de problemas em mudanças de TI de forma interativa. A solução inclui um processo de diagnóstico, uma arquitetura conceitual com um analisador de causas raízes e um modelo de informação para selecionar perguntas. O objetivo é otimizar o processo de identificação de causas raízes de falhas em mudanças e permitir que casos sejam adaptados a falhas similares.
O documento discute o gerenciamento de incidentes e problemas. Ele define incidentes e problemas, e descreve os processos de gerenciamento de incidentes e problemas, incluindo fluxos de trabalho, categorização, priorização e técnicas para determinar a causa raiz como Kepner-Tregoe e diagramas de Ishikawa.
- O documento discute as MIBs DISMAN, que permitem controlar e monitorar tarefas nos agentes SNMP de forma distribuída. As MIBs DISMAN incluem abordagens baseadas em MIBs, operações remotas e scripts.
O documento apresenta um resumo sobre o formalismo de STATECHARTS, descrevendo seus principais conceitos como estados, eventos, condições, clustering, refinamento, ortogonalidade e aplicações como um exemplo de chamada telefônica e relógio digital.
Este documento apresenta uma agenda sobre programabilidade em redes virtualizadas. Ele discute introdução à virtualização de redes e programabilidade de redes, propostas históricas como redes ativas e agentes móveis, e propostas atuais como IOS, JunOS, Click e OpenFlow. O status do projeto é descrito, com atividades concluídas, em desenvolvimento e próximas etapas.
2. Agenda
• Introdução
• Construção da Árvore de Decisão
• Algoritmo ID3 – C4.5
• Exemplo
Malia Project – HP Labs & Institute of Informatics – UFRGS
2
Wednesday, March 06, 2013
3. Introdução
• Uma forma simples de representar o conhecimento
• Largamente utilizada para mineração de dados
• Possui a habilidade de “aprender” através de
exemplos com o objetivo de classificar registros
• Os conceitos/regras/ações/decisões de um
problema são descritos através de exemplos
• As instâncias (casos) são representados por pares
do tipo atributo-valor, formando uma tabela
• Possibilita identificar uma ação/categoria através
de exemplos anteriores
Malia Project – HP Labs & Institute of Informatics – UFRGS
3
Wednesday, March 06, 2013
4. Construção da Árvore de Decisão
• A construção de uma Árvore de Decisão é guiada
pela redução na dificuldade de previsão da variável
objetivo
• Visando tal redução são especificados nós
(atributos) que auxiliam na identificação do caso
• Para reduzir a dificuldade de previsão é
selecionado o atributo que mais “auxilie” na
classificação
Malia Project – HP Labs & Institute of Informatics – UFRGS
4
Wednesday, March 06, 2013
5. Construção da Árvore de Decisão
• Existem duas métricas que auxiliam para identificar
tal atributo que são a:
• Entropia - indica a homogeneidade dos exemplos
contidos em um conjunto de dados. É utilizada para
estimar a aleatoriedade da variável a ser prevista
• Ganho de Informação - indica a redução da entropia
causada pela divisão dos exemplos de acordo com os
valores dos atributos
Malia Project – HP Labs & Institute of Informatics – UFRGS
5
Wednesday, March 06, 2013
6. Algoritmo ID3 – C4.5
• O algoritmo ID3 (inductive decision tree) é o mais
utilizado. Um melhoramento deste foi nomeado de
C4.5. Tal algoritmo segue os seguintes passos:
1. Começar com todos os exemplos de treino
2. Escolher o teste (atributo) que melhor divide os exemplos, ou
seja, o atributo que melhor agrupa exemplos da mesma classe
ou exemplos semelhantes
3. Para o atributo escolhido, criar um nó filho para cada valor
possível do atributo
4. Transportar os exemplos para cada filho tendo em conta o valor
do filho
5. Repetir o procedimento para cada filho não "puro"
Malia Project – HP Labs & Institute of Informatics – UFRGS
6
Wednesday, March 06, 2013
7. Exemplo
Tabela de Decisão ou de Conhecimento
Previsão Temperatura (°F) Umidade Vento Jogar
Ensolarado 85 85 Não Não Jogar
Ensolarado 80 90 Sim Não Jogar
Encoberto 83 78 Não Jogar
Chovendo 70 96 Não Jogar
Chovendo 68 80 Não Jogar
Chovendo 65 70 Sim Não Jogar
Encoberto 64 65 Sim Jogar
Ensolarado 72 95 Não Não Jogar
Ensolarado 69 70 Não Jogar
Chovendo 75 80 Não Jogar
Ensolarado 75 70 Sim Jogar
Encoberto 72 90 Sim Jogar
Encoberto 81 75 Não Jogar
Chovendo 71 80 Sim Não Jogar
Malia Project – HP Labs & Institute of Informatics – UFRGS
7
Wednesday, March 06, 2013
8. Exemplo
Fórmulas da Entropia
• Entropia para alternativas binárias
• Entropia para N alternativas
Malia Project – HP Labs & Institute of Informatics – UFRGS
8
Wednesday, March 06, 2013
9. Exemplo
Fórmula do Ganho de Informação
• Entropia calculada
• Ganho de Informação
Malia Project – HP Labs & Institute of Informatics – UFRGS
9
Wednesday, March 06, 2013
10. Exemplo
Valores calculados
• Ganhos de Informação calculadas
Atributo Ganho de Informação
Previsão 0,2467
Temperatura (°F) 0,0251
Umidade 0,0453
Vento 0,0481
Malia Project – HP Labs & Institute of Informatics – UFRGS
10
Wednesday, March 06, 2013
11. Exemplo
Árvore de Decisão formada a partir da entropia e do ganho de informação
Previsão
Ensolarado Encoberto Chovendo
Atributo Ganho Atributo Ganho Atributo Ganho
Temperatura 0,4200 Temperatura 0,0000 Temperatura 0,0000
Umidade 0,9710 Umidade 0,0000 Umidade 0,9710
Vento 0,0200 Vento 0,0000 Vento 0,9710
Entropia 0,9710 Entropia 0,0000 Entropia 0,9710
Malia Project – HP Labs & Institute of Informatics – UFRGS
11
Wednesday, March 06, 2013
12. Exemplo
Árvore de Decisão formada a partir da entropia e do ganho de informação
Previsão
Ensolarado Encoberto Chovendo
Umidade Jogar Vento
<= 75 > 75 Sim Não
Jogar Não Jogar Não Jogar Jogar
Malia Project – HP Labs & Institute of Informatics – UFRGS
12
Wednesday, March 06, 2013
14. Características
• Possibilidade de três utilizações, mas com o foco
do “ganho de informação” em diferentes escopos:
• De uma maneira geral, calculando tal métrica para cada
pergunta, substituindo a contagem total de identificações
de cada CR
• Utilização do foco de “ganho de informação” dentro da
CR mais vezes identificadas
• Utilização juntamente com a contagem total de
identificações de cada CR (por exemplo, Ganho x
Identificação)
Malia Project – HP Labs & Institute of Informatics – UFRGS
14
Wednesday, March 06, 2013
15. Características
• Possibilita a identificação de perguntas que melhor
dividem as alternativas
• CRs novas possuem um “peso” maior na seleção
de perguntas
• Análise das perguntas óbvias mais “inteligente”,
considerando respostas das perguntas anteriores
• Se utilizada isolada, não garante que perguntas
mais vezes selecionadas serão realizadas primeiro
Malia Project – HP Labs & Institute of Informatics – UFRGS
15
Wednesday, March 06, 2013