O documento discute mineração de dados, incluindo o que é mineração de dados, suas finalidades, os processos envolvidos e técnicas comuns como classificação, agrupamento e associação. É apresentado um exemplo de regras geradas por mineração de dados para prever a compra de computadores.
4. • Mineração de Dados consiste é um processo que
explora grandes quantidades de dados na busca
de padrões, ou relacionamentos sistemáticos
entre variáveis.
• Tem como entrada uma Base de Dados e como
saída um conhecimento.
10. 1. Conjunto de Treinamento (Training Set): conjunto
de registros usados;
2. Conjunto de Testes (Test Set): conjunto de
registros para testes;
3. Conjunto de Validação (Validation Set): conjunto de
registros usados para validação do modelo
construído;
12. • Descritivas: A tarefa de descrição é muito utilizada em conjunto com as técnicas de
análise exploratória de dados, para comprovar a influência de certas variáveis no resultado
obtido.
• Predição: Visa descobrir o valor futuro de um determinado atributo.
• Estimação: é usada quando o registro é identificado por um valor numérico e não um
categórico. Podendo estimar o valor de uma determinada variável analisando-se os
valores das demais.
• Classificação: Visa identificar a qual classe um determinado registro pertence.
13. • Associação: consiste em identificar quais atributos estão
relacionados. Apresentam a forma: SE atributo X ENTÃO atributo Y. É uma das tarefas
mais conhecidas devido aos bons resultados obtidos,
• Agrupamento: visa identificar e aproximar os registros
similares. Um agrupamento (ou cluster) é uma coleção de registros similares entre si,
porém diferentes dos outros registros nos demais agrupamentos.
15. Regra 1: SE idade == jovem E estudante == não ENTÃO comprar computador = não
Regra 2: SE idade == jovem E estudante == sim ENTÃO comprar computador = sim
Regra 3: SE idade == média ENTÃO comprar computador = sim
Regra 4: SE idade == adulto E avaliação de crédito == OK ENTÃO comprar computador = sim
Regra 5: SE idade == adulto E avaliação de crédito == ruim ENTÃO comprar computador = não
16.
17.
18. Ferramentas
Existem várias ferramentas tanto livres, quanto comerciais. Sendo elas:
• Weka
• KELL
• KNIME
• Neural Designer
• OpenNN
• Orange
• SAS
• R
• SPSS
19. Limitações
• As relações precisam ser muito bem definidas, caso contrário os resultados
podem ser mal interpretados;
• Permitir que o processo de treinamento execute por muito tempo, até que se
consiga obter indícios que possam levar à conclusões factíveis;
• Usar um grande número de variáveis;
• É necessário um elevado conhecimento do usuário;
20. • Técnicas para lidar com base de dados cada vez
maiores, chegando a casa dos Terabyte;
• Cada vez mais as tabelas possuem mais atributos,
aumentando o espaço de busca;
• Os modelos padrões quando são submetidos a novos
tipos dados, se comportam de maneira errônea;