O documento discute as técnicas de mineração de dados, incluindo clusterização, classificação, associações e análises de sequências. Também aborda os desafios de pré-processamento e pós-processamento de dados e fornece exemplos de aplicações dessas técnicas.
1. 1.0 Mineração de
Dados
8.0 Análise de 2.0 Prospecção
Resultados do Conhecimento
7.0 Inteligência 3.0 Técnicas de
Competitiva Data Mining
6.0 Aplicações de
4.0 Data Mining
Data Mining
5.0 SGBD e Data
Mining
1
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 17/5/2012 17:35
2. Alunos: Jaqueline Tonetta, Felix Winter Vier
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 2 17/5/2012 17:35
3. 3.0 Técnicas de Data Mining
O que é Data mining:
- Data mining (mineração de dados), é o processo de
extração de conhecimento de grandes bases de dados,
convencionais ou não.
- Utiliza técnicas de inteligência artificial que procuram
relações de similaridade ou discordância entre dados.
- Seu objetivo é encontrar, automaticamente, padrões,
anomalias e regras com o propósito de transformar
dados, aparentemente ocultos, em informações úteis para
a tomada de decisão e/ou avaliação de resultados.
3
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 17/5/2012 17:35
4. Requer pré/pós-processamentos dos dados,
necessários para assegurar o melhor
aproveitamento da aplicação e a consistência dos
resultados.
Atividades de pré-processamento incluem a
seleção apropriada de subconjuntos de dados, por
razões de desempenho, assim como complexas
transformações de dados que servem de ponte
para o chamado “gap representacional”, separação
entre os dados e seu significado real.
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 4 17/5/2012 17:35
5. Atividades de Pós-processamento envolve a sub
seleção de resultados volumosos e a aplicação de
técnicas de visualização para auxiliar o entendimento.
tais como:
o Alta suscetibilidade a dados “sujos”: as ferramentas
de Data Mining não possuem “parâmetros”, ou seja,
recebe todos os dados. Sendo assim, torna-se
necessário tomar precauções para assegurar que os
dados analisados são “limpos”
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 5 17/5/2012 17:35
6. o Inabilidade para “explicar” resultados em termos
humanos: o volume e formato da informação
encontrada podem ser inúteis sem um
processamento adicional.
o “Gap” representacional: a maior parte das fontes de
dados das aplicações de Data Mining atuais está
armazenada em grandes sistemas relacionais, e
seus dados estão em geral normalizados, com os
atributos espalhados em múltiplas tabelas.
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 6 17/5/2012 17:35
7. Cada classe de aplicação em Data Mining tem como
base um conjunto de algoritmos que serão usados na
extração de relações relevantes dentro de uma massa
de dados.
A proposta da clusterização é basicamente
endereçada a problemas de segmentação. Essa
segmentação é realizada automaticamente por
algoritmos que identificam características em
comum e particionam o espaço n-dimensional
definido pelos atributos.
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 7 17/5/2012 17:35
8. Classificação é uma técnica que consiste na
aplicação de um conjunto de exemplos pré-
classificados para desenvolver um modelo capaz de
classificar uma população maior de registros.
Detecção de fraudes e aplicações de risco são
exemplos de casos em que estes tipos de
análise são bastante apropriados.
Algoritmos de classificação incluem árvores de
decisão ou redes neurais, e começam com um
treinamento a partir de transações-exemplo.
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 8 17/5/2012 17:35
9. Associações
As associações visam determinar relacionamentos
entre conjuntos de itens.
As sequências visam determinar padrões de
ordenação entre dados, tais como ordenação
temporais, ou ordenação de classificação.
A classificação de séries de tempo visa definir grupos
com séries de tempo similares, ou seja, mesmo
padrão de comportamento numa dada fatia de
tempo
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 9 17/5/2012 17:35
10. Perguntas
1 - Quais os principais problemas de implementação de pré/pos -
processamento?
2 - O que são Associações, explique um exemplo.
3 - Em algumas vezes qual é uma das primeiras etapas do
processo de data mining.
4 - As aplicações de Data Mining tem como base um conjunto de
algoritmos que serão usados na extração de relações relevantes
dentro de uma massa de dados, cite três.
5 - Muitas das técnicas usadas em ferramentas atuais de Data
Mining se originaram na
pesquisa em inteligência artificial da década de 80 e princípio da
década de 90, mas somente agora estas técnicas vem sendo
utilizadas
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 10 17/5/2012 17:35
11. Respostas
1):Alta suscetibilidade de dados "sujos“ inabilidade de
explicar os resultados em termos humanos Gap
representacional - separação entre os dados e seu
significado real retiradas inconsistências.
2):Determina relacionamentos entre conjuntos de
itens, por exemplo: 40% dos clientes que compram
cerveja, tendem a comprar um acompanhamento
"salgado/amendoim" define o layout de prateleiras, e
a segmentação dos clientes segundo os padrões de
compra.
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 11 17/5/2012 17:35
12. Respostas
3):Clusterização, e usada como ponto de partida para
outras explorações, pois identifica grupos segmentados,
como por exemplo: em um grupo separado por região
demográfica, pode servir de base para as característica
para determinar um grupo social, como hábitos de compra,
classe social, etc.
4):análise de seqüências, clusterização, classificação,
estimativas e regras de associação.
lógica nebulosa (fuzzy logic), algoritmos genéticos e
transformadas por fractais.
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 12 17/5/2012 17:35
13. Respostas
R):A expansão e difusão de sistemas transacionais
volumosos - Houve um aumento no numero de
informações guardadas e um aumento significativo na
capacidade de processamento dos computadores.
Informação como vantagem competitiva -
necessidade de informações coesas para a tomada de
decisões importantes para a empresa. A difusão de
tecnologia de informação escalável - troca de
informações entre locais distintos e troca de
informações via internet.
Professor: Me. Jones Soares - Disciplina: Mineração de Dados 13 17/5/2012 17:35