SlideShare a Scribd company logo
Enviar pesquisa
Carregar
Data Warehouse e Data Mining
Denunciar
Compartilhar
Mauricio Cesar Santos da Purificação
Business Intelligence Consultant em MPurificação
Seguir
•
3 gostaram
•
1,724 visualizações
1
de
45
Data Warehouse e Data Mining
•
3 gostaram
•
1,724 visualizações
Denunciar
Compartilhar
Baixar agora
Baixar para ler offline
Tecnologia
Mauricio Cesar Santos da Purificação
Business Intelligence Consultant em MPurificação
Seguir
Recomendados
Data Mining e Data Warehouse por
Data Mining e Data Warehouse
JeorgeCarmona
7K visualizações
•
28 slides
Data Warehouse por
Data Warehouse
Thiago Oliveira
7.6K visualizações
•
49 slides
Data warehousing - Técnicas e procedimentos por
Data warehousing - Técnicas e procedimentos
Marcos Pessoa
1.8K visualizações
•
51 slides
Datawarehouse por
Datawarehouse
Alana Souza
2.9K visualizações
•
44 slides
Data Warehouse por
Data Warehouse
Menelik Soares
474 visualizações
•
18 slides
Introdução ao Data Warehouse por
Introdução ao Data Warehouse
Messias Batista
701 visualizações
•
41 slides
Mais conteúdo relacionado
Mais procurados
Business Intelligence - Data Warehouse por
Business Intelligence - Data Warehouse
Rudson Kiyoshi Souza Carvalho
1.6K visualizações
•
59 slides
Data warehouse & data mining por
Data warehouse & data mining
Jerônimo Medina Madruga
10.5K visualizações
•
73 slides
OLAP, BI, EIS por
OLAP, BI, EIS
Netalva - Joel Alvarenga
3.2K visualizações
•
44 slides
Apresentação de Business Intelligence por
Apresentação de Business Intelligence
Juliana Maria Lopes
912 visualizações
•
9 slides
OLAP por
OLAP
Eder E. Pereira
1K visualizações
•
27 slides
Data warehouse & Data mining por
Data warehouse & Data mining
Cassius Busemeyer
8.9K visualizações
•
31 slides
Mais procurados
(20)
Business Intelligence - Data Warehouse por Rudson Kiyoshi Souza Carvalho
Business Intelligence - Data Warehouse
Rudson Kiyoshi Souza Carvalho
•
1.6K visualizações
Data warehouse & data mining por Jerônimo Medina Madruga
Data warehouse & data mining
Jerônimo Medina Madruga
•
10.5K visualizações
OLAP, BI, EIS por Netalva - Joel Alvarenga
OLAP, BI, EIS
Netalva - Joel Alvarenga
•
3.2K visualizações
Apresentação de Business Intelligence por Juliana Maria Lopes
Apresentação de Business Intelligence
Juliana Maria Lopes
•
912 visualizações
OLAP por Eder E. Pereira
OLAP
Eder E. Pereira
•
1K visualizações
Data warehouse & Data mining por Cassius Busemeyer
Data warehouse & Data mining
Cassius Busemeyer
•
8.9K visualizações
Dawarehouse e OLAP por Universidade de São Paulo
Dawarehouse e OLAP
Universidade de São Paulo
•
762 visualizações
38664419 artigo-data warehouse por diochel
38664419 artigo-data warehouse
diochel
•
3K visualizações
Sistemas de Informação (SAD / OLAP) por m4rkSpinelli
Sistemas de Informação (SAD / OLAP)
m4rkSpinelli
•
10.4K visualizações
Kimball Vs Inmon por guest2308b5
Kimball Vs Inmon
guest2308b5
•
14.7K visualizações
Data warehousing por acistec
Data warehousing
acistec
•
2.5K visualizações
Tomada decisão por Ecoplas
Tomada decisão
Ecoplas
•
3.6K visualizações
Pg20235 rf20222vp20208 por rikardojsf
Pg20235 rf20222vp20208
rikardojsf
•
323 visualizações
Data Warehouse - Modelagem por Rudson Kiyoshi Souza Carvalho
Data Warehouse - Modelagem
Rudson Kiyoshi Souza Carvalho
•
9.6K visualizações
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p... por fabiolagrijo
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
fabiolagrijo
•
1.6K visualizações
datawarehouse2 por Hideraldo Luiz Almeida
datawarehouse2
Hideraldo Luiz Almeida
•
605 visualizações
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ... por Caio Moreno
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Caio Moreno
•
89K visualizações
Introdução ao BI por pichiliani
Introdução ao BI
pichiliani
•
2K visualizações
As 10 maiores tendências em business intelligence para 2014 por Tableau Software
As 10 maiores tendências em business intelligence para 2014
Tableau Software
•
4.7K visualizações
Data warehouse por RuiPedroGomes7
Data warehouse
RuiPedroGomes7
•
476 visualizações
Similar a Data Warehouse e Data Mining
Sistemas de Informação - Aula05 - cap5 bd e business intelligence por
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
CEULJI/ULBRA Centro Universitário Luterano de Ji-Paraná
1.3K visualizações
•
58 slides
Aula Data Mining por
Aula Data Mining
Mauricio Cesar Santos da Purificação
2K visualizações
•
98 slides
Business Intelligence por
Business Intelligence
Mauricio Uriona Maldonado PhD
1.6K visualizações
•
40 slides
Bancos de dados no sql – uma nova abordagem por
Bancos de dados no sql – uma nova abordagem
João Gabriel Lima
714 visualizações
•
30 slides
Carreira do profissional de dados por
Carreira do profissional de dados
Edvaldo Castro
764 visualizações
•
56 slides
Poc1 apresentacao parcial_henriquechevreux por
Poc1 apresentacao parcial_henriquechevreux
chevreux
344 visualizações
•
12 slides
Similar a Data Warehouse e Data Mining
(20)
Sistemas de Informação - Aula05 - cap5 bd e business intelligence por CEULJI/ULBRA Centro Universitário Luterano de Ji-Paraná
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
CEULJI/ULBRA Centro Universitário Luterano de Ji-Paraná
•
1.3K visualizações
Aula Data Mining por Mauricio Cesar Santos da Purificação
Aula Data Mining
Mauricio Cesar Santos da Purificação
•
2K visualizações
Business Intelligence por Mauricio Uriona Maldonado PhD
Business Intelligence
Mauricio Uriona Maldonado PhD
•
1.6K visualizações
Bancos de dados no sql – uma nova abordagem por João Gabriel Lima
Bancos de dados no sql – uma nova abordagem
João Gabriel Lima
•
714 visualizações
Carreira do profissional de dados por Edvaldo Castro
Carreira do profissional de dados
Edvaldo Castro
•
764 visualizações
Poc1 apresentacao parcial_henriquechevreux por chevreux
Poc1 apresentacao parcial_henriquechevreux
chevreux
•
344 visualizações
Data mesh-pt por IgorViana30
Data mesh-pt
IgorViana30
•
68 visualizações
Palestra garimpando com pentaho data mining latinoware por Marcos Vinicius Fidelis
Palestra garimpando com pentaho data mining latinoware
Marcos Vinicius Fidelis
•
544 visualizações
Conceitos DW por Stella Finamore
Conceitos DW
Stella Finamore
•
72 visualizações
Big Data x Data Mining - Hadoop por F.Davi Camilo Ribeiro
Big Data x Data Mining - Hadoop
F.Davi Camilo Ribeiro
•
575 visualizações
Banco de Dados - Conceitos por ssuser69006f
Banco de Dados - Conceitos
ssuser69006f
•
27 visualizações
Weka pentaho day2014-fidelis por Marcos Vinicius Fidelis
Weka pentaho day2014-fidelis
Marcos Vinicius Fidelis
•
1.2K visualizações
Big Data, NoSQL e In Memory Databases por Caio Louro
Big Data, NoSQL e In Memory Databases
Caio Louro
•
933 visualizações
Exploracao datawarehouse mineracao_de_dados_ou_olap por KlaytonAlves
Exploracao datawarehouse mineracao_de_dados_ou_olap
KlaytonAlves
•
421 visualizações
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para... por Denodo
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
Denodo
•
96 visualizações
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões por Rodolfo Mendes
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Rodolfo Mendes
•
139 visualizações
Sad01 elvis por Elvis Canteri Andrade
Sad01 elvis
Elvis Canteri Andrade
•
474 visualizações
Como Implementar a Análise de Dados em Tempo Real por Denodo
Como Implementar a Análise de Dados em Tempo Real
Denodo
•
51 visualizações
Business Analytics por Petronio Candido
Business Analytics
Petronio Candido
•
1.6K visualizações
Data Management: 5 tendências para alcançar a mudança por Denodo
Data Management: 5 tendências para alcançar a mudança
Denodo
•
127 visualizações
Mais de Mauricio Cesar Santos da Purificação
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport... por
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Mauricio Cesar Santos da Purificação
326 visualizações
•
48 slides
R para Iniciantes por
R para Iniciantes
Mauricio Cesar Santos da Purificação
929 visualizações
•
38 slides
Aprendendo R por
Aprendendo R
Mauricio Cesar Santos da Purificação
326 visualizações
•
41 slides
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro por
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Mauricio Cesar Santos da Purificação
149 visualizações
•
42 slides
Pitch AcheSeuEstúdio - Campus Party por
Pitch AcheSeuEstúdio - Campus Party
Mauricio Cesar Santos da Purificação
349 visualizações
•
9 slides
Pitch BestPoint - Campus Party por
Pitch BestPoint - Campus Party
Mauricio Cesar Santos da Purificação
289 visualizações
•
10 slides
Mais de Mauricio Cesar Santos da Purificação
(20)
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport... por Mauricio Cesar Santos da Purificação
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Mauricio Cesar Santos da Purificação
•
326 visualizações
R para Iniciantes por Mauricio Cesar Santos da Purificação
R para Iniciantes
Mauricio Cesar Santos da Purificação
•
929 visualizações
Aprendendo R por Mauricio Cesar Santos da Purificação
Aprendendo R
Mauricio Cesar Santos da Purificação
•
326 visualizações
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro por Mauricio Cesar Santos da Purificação
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Mauricio Cesar Santos da Purificação
•
149 visualizações
Pitch AcheSeuEstúdio - Campus Party por Mauricio Cesar Santos da Purificação
Pitch AcheSeuEstúdio - Campus Party
Mauricio Cesar Santos da Purificação
•
349 visualizações
Pitch BestPoint - Campus Party por Mauricio Cesar Santos da Purificação
Pitch BestPoint - Campus Party
Mauricio Cesar Santos da Purificação
•
289 visualizações
Big Data Analytics por Mauricio Cesar Santos da Purificação
Big Data Analytics
Mauricio Cesar Santos da Purificação
•
688 visualizações
Flyer BestPoint por Mauricio Cesar Santos da Purificação
Flyer BestPoint
Mauricio Cesar Santos da Purificação
•
265 visualizações
Pitch BestPoint por Mauricio Cesar Santos da Purificação
Pitch BestPoint
Mauricio Cesar Santos da Purificação
•
327 visualizações
Será Mesmo o Cientista de Dados a Profissão do Futuro? por Mauricio Cesar Santos da Purificação
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Mauricio Cesar Santos da Purificação
•
497 visualizações
OxenTI - Desenvolvimento de Soluções Inovadoras em TI por Mauricio Cesar Santos da Purificação
OxenTI - Desenvolvimento de Soluções Inovadoras em TI
Mauricio Cesar Santos da Purificação
•
457 visualizações
Pitch BestPoint - DemoDay StartupSummer 2015 por Mauricio Cesar Santos da Purificação
Pitch BestPoint - DemoDay StartupSummer 2015
Mauricio Cesar Santos da Purificação
•
336 visualizações
BestPoint por Mauricio Cesar Santos da Purificação
BestPoint
Mauricio Cesar Santos da Purificação
•
351 visualizações
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados? por Mauricio Cesar Santos da Purificação
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Mauricio Cesar Santos da Purificação
•
641 visualizações
Será Mesmo o Cientista de Dados a Profissão do Futuro? por Mauricio Cesar Santos da Purificação
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Mauricio Cesar Santos da Purificação
•
965 visualizações
QlikView In Action - Do BI ao Business Discovery!… por Mauricio Cesar Santos da Purificação
QlikView In Action - Do BI ao Business Discovery!…
Mauricio Cesar Santos da Purificação
•
826 visualizações
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics... por Mauricio Cesar Santos da Purificação
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Mauricio Cesar Santos da Purificação
•
957 visualizações
Adeus BI, Seja Bem Vindo a Era do Analytics? por Mauricio Cesar Santos da Purificação
Adeus BI, Seja Bem Vindo a Era do Analytics?
Mauricio Cesar Santos da Purificação
•
787 visualizações
Derivação de Modelos ER por Mauricio Cesar Santos da Purificação
Derivação de Modelos ER
Mauricio Cesar Santos da Purificação
•
1.5K visualizações
Business Intelligence - Prática e Experiências por Mauricio Cesar Santos da Purificação
Business Intelligence - Prática e Experiências
Mauricio Cesar Santos da Purificação
•
1.1K visualizações
Último
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023 por
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
AcademicaDlaUnicesum
6 visualizações
•
3 slides
Shift left DevOps Experience por
Shift left DevOps Experience
Walter Coan
5 visualizações
•
19 slides
DevFest2023-Pragmatismo da Internet das Coisas por
DevFest2023-Pragmatismo da Internet das Coisas
Walter Coan
36 visualizações
•
40 slides
VIRTUS 1.6 MSI.pdf por
VIRTUS 1.6 MSI.pdf
FbioVieira85
5 visualizações
•
13 slides
Conheça agora o UiPath Autopilot™ para o Studio.pdf por
Conheça agora o UiPath Autopilot™ para o Studio.pdf
BrunaCavalcanti29
14 visualizações
•
8 slides
TechConnection 2023 Floripa Azure Container Apps por
TechConnection 2023 Floripa Azure Container Apps
Walter Coan
6 visualizações
•
14 slides
Último
(8)
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023 por AcademicaDlaUnicesum
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
AcademicaDlaUnicesum
•
6 visualizações
Shift left DevOps Experience por Walter Coan
Shift left DevOps Experience
Walter Coan
•
5 visualizações
DevFest2023-Pragmatismo da Internet das Coisas por Walter Coan
DevFest2023-Pragmatismo da Internet das Coisas
Walter Coan
•
36 visualizações
VIRTUS 1.6 MSI.pdf por FbioVieira85
VIRTUS 1.6 MSI.pdf
FbioVieira85
•
5 visualizações
Conheça agora o UiPath Autopilot™ para o Studio.pdf por BrunaCavalcanti29
Conheça agora o UiPath Autopilot™ para o Studio.pdf
BrunaCavalcanti29
•
14 visualizações
TechConnection 2023 Floripa Azure Container Apps por Walter Coan
TechConnection 2023 Floripa Azure Container Apps
Walter Coan
•
6 visualizações
ProxySQL no MySQL: Apenas um load balancer? por Roberto Garcia de Bem
ProxySQL no MySQL: Apenas um load balancer?
Roberto Garcia de Bem
•
6 visualizações
certificado excel.pdf por juniorcarvalho136
certificado excel.pdf
juniorcarvalho136
•
5 visualizações
Data Warehouse e Data Mining
1.
16/9/2012
©2010 | MATA60 Banco de Dados 1 DATA WAREHOUSE E DATA MINING
2.
16/9/2012
©2010 | MATA60 Banco de Dados 2 DATA WAREHOUSE
3.
16/9/2012
©2010 | MATA60 Banco de Dados 3 Conceito • “Coleção de dados orientada a assunto, integrada, não- volátil e variante no tempo, utilizada para tomada de decisões”. W. H. Inmon • "a copy of transaction data specifically structured for query and analysis“ R. Kimball • “Repositório estruturado e corporativo de dados orientados a assunto, variantes no tempo e históricos, usados para recuperação de informações e suporte à decisão. O DW armazena atômicos e sumarizados”. Definição de DW da Oracle
4.
16/9/2012
©2010 | MATA60 Banco de Dados 4 Propriedades
5.
16/9/2012
©2010 | MATA60 Banco de Dados 5 Fluxo dos Dados
6.
16/9/2012
©2010 | MATA60 Banco de Dados 6 Modelagem dos Dados • Objetivos da Modelagem Dimensional • Fornecer uma imagem global da realidade do negócio • Exibir informações em níveis apropriados de detalhes (resumido ou detalhado) • Otimizar o processamento de consultas complexas (Modelo Estrela ou Flocos de Neve) • Integrar dados de diversas fontes em uma única BD para facilitar a geração de relatórios
7.
16/9/2012
©2010 | MATA60 Banco de Dados 7 Modelagem dos Dados • Modelo Relacional • Usado para identificar relacionamentos entre tipos de relações • Visa remover a redundância de dados • Processamento de Transações On-Line (OLTP) • Modelo Dimensional • Apresenta dados em uma estrutura intuitiva permitindo alta performance de acesso • Independe da representação física dos dados • Organiza dados em tabelas de fatos e dimensões • Processamento Analítico On-Line (OLAP)
8.
16/9/2012
©2010 | MATA60 Banco de Dados 8 Ambiente Operacional * Ambiente Analítico
9.
16/9/2012
©2010 | MATA60 Banco de Dados 9 Modelo Dimensional
10.
16/9/2012
©2010 | MATA60 Banco de Dados 10 Tabela de Fatos
11.
16/9/2012
©2010 | MATA60 Banco de Dados 11 Tabela de Dimensão
12.
16/9/2012
©2010 | MATA60 Banco de Dados 12 Star Scheme
13.
16/9/2012
©2010 | MATA60 Banco de Dados 13 Snowflake Schema
14.
16/9/2012
©2010 | MATA60 Banco de Dados 14 Data Mart • Definição • DM é um subconjunto de um DW • Subconjunto do DW que satisfaz os requisitos de um certo tema ou atividade de negócio • Projetado para um dado grupo de usuários • Específico a um assunto particular ou atividade de negócio • Pode ser visto como uma solução tática • Pode ser construído antes ou depois do DW • Antes ⇒ pode representar fragmentos de dados, mas reduz a complexidade de desenvolvimento • Depois ⇒ produz uma visão integrada dos dados, mas aumenta a complexidade de desenvolvimento • Abordagem atual consiste em construir primeiro os DM, mas garantindo a consistência dos dados!
15.
16/9/2012
©2010 | MATA60 Banco de Dados 15 DW * DM
16.
16/9/2012
©2010 | MATA60 Banco de Dados 16 Data Warehousing
17.
16/9/2012
©2010 | MATA60 Banco de Dados 17 ETL e ODS • Ferramentas de ETL • Responsáveis pela conversão dos dados do ambiente operacional para o de suporte à decisão • Realizam Acesso, Extração, Transformação, Validação e Carga dos dados • Operational Datastore (ODS) • Repositório de dados operacionais integrados • Benefícios • Otimiza a criação do DW • Possibilita a realização de consultas relacionais sobre dados históricos • Permite interações de tempo real (e.g. gerenciamento de relacionamentos de cliente)
18.
16/9/2012
©2010 | MATA60 Banco de Dados 18 Abordagem Top-Down
19.
16/9/2012
©2010 | MATA60 Banco de Dados 19 Abordagem Bottom-Up
20.
16/9/2012
©2010 | MATA60 Banco de Dados 20 OLAP • O que é OLAP (On-Line Analytical Processing)? • Conjunto de tecnologias projetadas para analisar e acessar dados típicos de suporte a decisão que estão no DW • Fornece dados em alto nível (totais,médias,min..) • Acessa vários registros • Tem alto desempenho e consultas fáceis e interativas • Lida com dados históricos (dimensão temporal) • Oferece visões multidimensionais (perspectivas)
21.
16/9/2012
©2010 | MATA60 Banco de Dados 21 OLAP • Cubo Multidimensional (Abstração do DW) • Metáfora de uma abordagem multidimensional para visualização e organização dos dados • Várias dimensões podem ser usadas simultaneamente • Dados são manipulados mais rapidamente e facilmente (agregação em níveis de hierarquia)
22.
16/9/2012
©2010 | MATA60 Banco de Dados 22 Operações OLAP • Drill Down e Roll Up (ou Drill Up)
23.
16/9/2012
©2010 | MATA60 Banco de Dados 23 Operações OLAP • Rotação • Técnica que gira o cubo, permitindo ter diferentes visões dos dados
24.
16/9/2012
©2010 | MATA60 Banco de Dados 24 Operações OLAP • Slice and Dice • Técnica que fatia o cubo, permitindo restringir a análise aos dados, sem inversão de eixos • “Semelhante” a cláusula WHERE de SQL
25.
16/9/2012
©2010 | MATA60 Banco de Dados 25 MDX
26.
16/9/2012
©2010 | MATA60 Banco de Dados 26 DATA MINING
27.
16/9/2012
©2010 | MATA60 Banco de Dados 27 Conceito • Mineração de dados é a busca de informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens [WI99]. • Mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados [BT99]. • Mineração de dados, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [HK01].
28.
©2010 | Mauricio
Cesar Santos da Purificação | Grupo 16/9/2012 DW-UFBA 28 Áreas de Aplicações Potenciais • Vendas e Marketing • Identificar padrões de comportamento de consumidores • Associar comportamentos à características demográficas de consumidores • Campanhas de marketing direto (mailing campaigns) • Identificar consumidores “leais” • Bancos • Identificar padrões de fraudes (cartões de crédito) • Identificar características de correntistas • Mercado Financeiro ($$$) • Médica • Comportamento de pacientes • Identificar terapias de sucessos para diferentes tratamentos • Fraudes em planos de saúdes • Comportamento de usuários de planos de saúde
29.
16/9/2012
©2010 | MATA60 Banco de Dados 29 Data Mining e KDD • KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. • Incorpora tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;
30.
16/9/2012
©2010 | MATA60 Banco de Dados 30 KDD - Contextualização
31.
16/9/2012
©2010 | MATA60 Banco de Dados 31 KDD e Data Warehouse
32.
16/9/2012
©2010 | MATA60 Banco de Dados 32 Pré-Processamento • Atributos com representação inadequada para tarefa e algoritmo. • Atributos cujos valores não tenham informações adequadas. • Excesso de atributos (podem ser redundantes ou desnecessários). • Atributos insuficientes. • Excesso de instancias (afetam tempo de processamento). • Instâncias insuficientes. • Instâncias incompletas (sem valores para alguns atributos). • Assim como a mineração de dados em si, requer conhecimento sobre os dados e algoritmo que será usado!
33.
16/9/2012
©2010 | MATA60 Banco de Dados 33 TAREFAS DE DATA MINING
34.
16/9/2012
©2010 | MATA60 Banco de Dados 34 Análise de Regras de Associação • Exemplo: • “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado. • Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais.
35.
16/9/2012
©2010 | MATA60 Banco de Dados 35 Análise de Padrões Sequenciais • Exemplo: • A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca- fitas de carro. • Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo.
36.
16/9/2012
©2010 | MATA60 Banco de Dados 36 Classificação e Predição • Exemplo: • Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador. • Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradores.
37.
16/9/2012
©2010 | MATA60 Banco de Dados 37 Classificação e Predição • Em algumas aplicações, o usuário está mais interessado em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos. • Neste caso, a tarefa de mineração é denominada Predição.
38.
16/9/2012
©2010 | MATA60 Banco de Dados 38 Análise de Clusters (Agrupamentos) • Exemplo: • Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes; • Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira;
39.
16/9/2012
©2010 | MATA60 Banco de Dados 39 Análise de Outliers • Um banco de dados pode conter dados que não apresentam o comportamento geral da maioria. Estes dados são denominados outliers(exceções). • Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado. • Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente.
40.
16/9/2012
©2010 | MATA60 Banco de Dados 40 TÉCNICAS DE DATA MINING
41.
16/9/2012
©2010 | MATA60 Banco de Dados 41 Árvores de Decisão • Representações simples do conhecimento • Utilização de regras condicionais • A partir de um conjunto de valores decide SIM ou NÃO • Mais rápida e mais compreensível que redes neurais • Exemplo: Sair ou não de acordo com o tempo Tempo Predicado objetivo: Sair ou Não Sair Nublado Ensolarado Chuvoso Umidade Sair Muito vento Alta Normal Sim Não Ñ Sair Sair Ñ Sair Sair
42.
16/9/2012
©2010 | MATA60 Banco de Dados 42 Árvores de Decisão Classificação de um indivíduo com risco de ter ou não crédito Renda > R$ 4.000,00 SIM NÃO Predicado objetivo: Crédito ou Não Dívida < 10% da renda ? Dívida = 0% SIM NÃO NÃO SIM Risco de ter crédito Risco de não ter crédito Risco de ter crédito Nesta árvore de decisões, regras são induzidas nos padrões dos dados e cria-se uma hierarquia de indicações “se-então”.
43.
16/9/2012
©2010 | MATA60 Banco de Dados 43 Redes Neurais • Redes Neurais: • Para construir um modelo neural, nós primeiramente "adestramos" a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições. • Problemas: • Não retorna informação a priori • Não pode ser treinada em uma grande base de dados • Entrada não pode ser dados alfanuméricos (mapear para numérico) • Nenhuma explanação dos dados é fornecida (caixa preta)
44.
16/9/2012
©2010 | MATA60 Banco de Dados 44 Técnicas • Redes Neurais: • Exemplo prático: risco de câncer Data mining - Clementine User Guide
45.
16/9/2012
©2010 | MATA60 Banco de Dados 45 Técnicas • Redes Neurais: - 2o Exemplo Nível RENDA DÉBITO IDADE REG. DE de PAGAMENTO entrada Nível oculto Risco Risco de de ter não ter crédito crédito Nível de As redes neurais usam seus dados de entrada. saída Atribui pesos nas conecções entre os atributos (neurônios). E obtém um resultado (risco de ter ou não crédito) no nível de