SlideShare uma empresa Scribd logo
1 de 30
UNIVERSIDADE FEDERAL DA PARAÍBA
 CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO
        CAMPUS IV – LITORAL NORTE

    DISCIPLINA: INTELIGÊNCIA ARTIFICIAL
       PROFESSOR: ANDREI FORMIGA


KNOWLEDGE DISCOVERY DATABASE (KDD) E DATA
              MINING (DM)
EQUIPE
• HERMANNY ALEXANDRE
  – hermannyfilho@hotmail.com
• GEORGE LIMA
  – george.lima@dce.ufpb.br
• THIAGO OLIVEIRA
  – thiago.oliveira@dce.ufpb.br
  – http://about.me/thiagooliveira
Agenda
• Introdução
• KDD
  – Visão Geral
  – Processo
  – Tarefas
• Data Mining
  –   Objetivos
  –   Como implementar
  –   Aplicações
  –   Processos
• Exemplos de Aplicações
• Conclusões
Introdução
KDD
                                   Visão Geral
•     Knowledge Discovery Database (Descoberta de Conhecimento em Base de Dados ) é o
      processo de transformação de dados em conhecimento.

       É empregado para descrever todo o processo de extração de conhecimentos dos
        dados, e possui varias etapas interligadas como: seleção, pré-processamento,
        transformação, Data-Mining e interpretação enquanto que data mining é
        empregado somente para o estagio de descoberta do processo de KDD.

    • O objetivo fundamental do KDD é descobrir conhecimento útil, válido, relevante
      e novo sobre uma determinada atividade através de algoritmos, tendo em conta
      as ordens de magnitude crescente nos dados .
KDD
                                   Visão Geral
•   A extração de conhecimento, além das informações empíricas, possui a capacidade de
    detectar e colher informação mais profundas e “escondidas” entre os bancos de dados. Na
    prática, se assemelha ao conceito do data-mining (mineração de dados).
Processo de KDD
1. Compreensão do Domínio de
               Aplicação


• Levantamento dos requisitos necessários;



• Geralmente trabalham o especialista do domínio e o
  analista juntos.
2. Seleção


• Seleção ou segmentação dos dados apropriados para
  a análise de acordo com algum critério;



• Exemplos: Todas as pessoas que possuem carro.
3. Pré-processamento

• Estágio de limpeza dos dados;

• Reconfiguração dos dados para assegurar
  formatos consistentes;
     • Ex: sexo = “F” ou “M”
           sexo = “M” ou “H”
4. Transformação

• Padronizar os dados para suprir limitações das
  técnicas de Mineração de dados;
     • Exemplos: atributos de data e hora.


• Disponibilizar os dados de maneira usável e
  navegável;
5. Mineração de Dados

• Aplica-se técnicas e algoritmos para descobrir
  novos conhecimentos;

  – Oriundas de diversas áreas: Aprendizado de
    Máquina, Estatística, Redes Neurais, Banco de
    Dados, etc.
6. Interpretação e Avaliação do
             Conhecimento

• Interpretar o conhecimento extraído através
  de ferramentas estatísticas e de visualização;

• Caso seja irrelevante, refazer as etapas
  anteriores.
KDD
                          Tarefas de KDD

• As tarefas são dependentes da aplicação e do interesse do
  usuário. Assim cada tarefa de KDD extrai um tipo diferente de
  conhecimento do BD e requer um algoritmo diferente para a
  extração de conhecimento.

• O KDD é dividido em 3 tarefas:


      • Regras de Associação
      • Classificação
      • Clustering.
Tarefas de KDD
                               Regras de Associaçao



• A transformação de uma tabela da base de dados para o formato binário é
  realizada substituindo um atributo de cardinalidade K por K atributos binários.


• Uma regra de associação é um relacionamento da forma X => Y, onde X e Y são
conjuntos de itens e a interseção deles, X ∩ Y, é o conjunto vazio.


• Cada regra é associada a um fator suporte superior (Fsup), e a um fator de confidência
  (Fconf).


• A definição desses fatores fornece uma medida capaz de distinguir associações
  interessantes, dado que as regras geradas em forma binária aumentam
  consideravelmente o espaço de busca de qualquer algoritmo minerador.
Tarefas de KDD
                               Classificação

• Na tarefa de classificação cada tupla ou registro pertence a uma classe dentre um
  conjunto pré-definido de classes. As tuplas compõe-se de atributos preditivos e
  um atributo objetivo, cujo valor definido pelo usuário indica a que classe essa tupla
  pertence.

• O atributo objetivo pode ter valores discretos como SIM ou NÃO, um valor pertencente
  a um intervalo de números inteiros, etc.


• O propósito da tarefa de classificação é descobrir algum tipo de relacionamento
  entre os atributos preditivos e o atributo objetivo que permita encontrar um
  conhecimento que possa ser utilizado para prever a classe de uma tupla ainda não
  classificada.
Tarefas de KDD
                                Classificação

• A análise de pequenos conjuntos de dados normalmente é realizada
  manualmente, mas para grandes conjuntos é mais eficiente realizar um processo
  automático de clustering por meio da tecnologia de mineração de dados.


• Na clusterização, classes são criadas através da produção de partições do banco de dados
em conjuntos de tuplas com valores de atributos semelhantes. Após a criação das classes,
emprega-se um algoritmo de classificação para produzir regras para cada uma delas.


• A qualidade da clusterização depende da medida utilizada para aferir a
  similaridade das tuplas. Um bom agrupamento possui similaridade intra-classe alta
  e inter-classe baixa.

      Mede-se também a qualidade do método pela sua habilidade para
       descobrir algum ou todos os padrões escondidos.
Data Mining


“É o processo de busca por dados, por
PADRÕES anteriormente desconhecidos e uso
frequente desses padrões para predizer
CONSEQUÊNCIAS futuras.”
                           • Jeff Jonas e Jim Harper
Data Mining


“É a concepção de modelos computacionais
capazes de identificar e revelar padrões
desconhecidos mas existentes entre dados
pertencentes a uma ou mais bases de dados”
Objetivos da DM
• Descobrir PADRÕES
  – Representar informações úteis para a empresa
  – Caso da Cerveja e da Fralda


• Descrever
  – Explicar resultados ou valores        obtidos   em
    determinados dados ou negócios


• Prever
  – Antecipar o comportamento ou valor futuro de algum
    fenômeno com base em conhecimento prévio.
Como implementar Data Mining
• Algoritmos baseados em redes neurais
   – Processamento de dados de maneira semelhante ao
     cérebro humano
   – Decisões baseadas na aprendizagem


• Algoritmos estatísticos
   – Utilizados na análise de dados, a fim de encontrar padrões
     e correlações entre eles


• Algoritmos de Aprendizado
   – Extrair padrões a partir da interação com o ambiente
Aplicações de Data Mining
• Cross-Selling
  – Identificar associação entre produtos


• Up-Selling
  – Identificar potenciais clientes para determinados
    produtos


• Fidelização
  – Descobrir fatores associados a perda de clientes
Processo de DM
     Entendimento                  Entendimento
      do Negócio                     dos Dados




                                                  Preparação dos
                                                      Dados
Aplicação

                            Data



                                              Modelagem
                Avaliação
Exemplos
 Áreas de aplicações potenciais
  – Médica
     • Comportamento de pacientes
     • Identificar terapias de sucessos para diferentes
       tratamentos
     • Fraudes em planos de saúdes
     • Comportamento de usuários de planos de saúde
Exemplo 1
• Fraldas e cervejas
  – O que as cervejas tem a ver com as fraldas ?
  – homens casados, entre 25 e 30 anos;
  – compravam fraldas e/ou cervejas às sextas-feiras à
    tarde no caminho do trabalho para casa;
  – Wal-Mart otimizou às gôndolas nos pontos de
    vendas, colocando as fraldas ao lado das cervejas;
  – Resultado: o consumo cresceu 30% .
Exemplo 2
• Lojas Brasileiras (Info 03/98)
  – Aplicou 1 milhão de dólares em técnicas de data
    mining
  – Reduziu de 51000 produtos para 14000 produtos
    oferecidos em suas lojas.
  – Exemplo de anomalias detectadas:
     – Roupas de inverno e guarda chuvas encalhadas no
       nordeste
     – Batedeiras 110v a venda em SC onde a corrente
       elétrica é 220v
Exemplo 3
 Bank of America (Info 03/98)
  – Selecionou entre seus 36 milhões de clientes
     • Aqueles com menor risco de dar calotes
     • Tinham filhos com idades entre 18 e 21 anos
     • Resultado em três anos o banco lucrou 30 milhões de
       dólares com a carteira de empréstimos.
Concluindo...
• Destaca-se Data Mining como parte de um
  processo maior, denominado KDD, e que se
  refere ao meio pelo qual padrões são extraídos e
  enumerados a partir dos dados;

• O uso dessas técnicas proporciona meios para
  encontrar informações que permitam detectar
  tendências e características até então
  desconhecidas, reagir rapidamente a um evento
  que ainda pode estar por vir, entre outras coisas.
Referências
• Conceitos e Aplicações de Data Mining – Universidade Metodista de
  Piracicaba – Heloisa & Angela;

• Fayyad et al. (1996). Advances in knowledge discovery and data mining,
  AAAI Press/MIT Press;

• http://www.infolink.com.br/~mpolito/mining/mining.html;

• http://www.lci.ufrj.br/~labbd/semins/grupo1;

• Redes Neurais – Uma ferramenta para KDD e Data Mining – Antonio
  Carlos.
KDD e Data Mining

Mais conteúdo relacionado

Mais procurados

Conceitos de Sistemas de Informação
Conceitos de Sistemas de InformaçãoConceitos de Sistemas de Informação
Conceitos de Sistemas de Informaçãoluanrjesus
 
Modelagem relacional e normalização de dados
Modelagem relacional e normalização de dadosModelagem relacional e normalização de dados
Modelagem relacional e normalização de dadosjulianaveregue
 
Aula 10 - Diagrama de Sequencia.pdf
Aula 10 - Diagrama de Sequencia.pdfAula 10 - Diagrama de Sequencia.pdf
Aula 10 - Diagrama de Sequencia.pdfIvanFontainha
 
Bancode dados modelagem conceitual
Bancode dados modelagem conceitualBancode dados modelagem conceitual
Bancode dados modelagem conceitualMario Sergio
 
Aula 4 - Diagrama Entidade Relacionamento (com exercício no final)
Aula 4  - Diagrama Entidade Relacionamento (com exercício no final)Aula 4  - Diagrama Entidade Relacionamento (com exercício no final)
Aula 4 - Diagrama Entidade Relacionamento (com exercício no final)Janynne Gomes
 
Gestão Da Informação
Gestão Da InformaçãoGestão Da Informação
Gestão Da InformaçãoFelipe Goulart
 
Aula 3 Sistemas de Informação - Tipos de SI
Aula 3 Sistemas de Informação - Tipos de SIAula 3 Sistemas de Informação - Tipos de SI
Aula 3 Sistemas de Informação - Tipos de SIDaniel Brandão
 
Aula 1 - Introdução ao Conteúdo de Banco de Dados
Aula 1 - Introdução ao Conteúdo de Banco de DadosAula 1 - Introdução ao Conteúdo de Banco de Dados
Aula 1 - Introdução ao Conteúdo de Banco de DadosHenrique Nunweiler
 
Aula1 e aula2 - Analise e Projeto de Sistemas
Aula1 e aula2 - Analise e Projeto de SistemasAula1 e aula2 - Analise e Projeto de Sistemas
Aula1 e aula2 - Analise e Projeto de SistemasGustavo Gonzalez
 
Gestão do conhecimento FIA - 2011
Gestão do conhecimento FIA - 2011Gestão do conhecimento FIA - 2011
Gestão do conhecimento FIA - 2011Jose Claudio Terra
 
Cadeia de suprimentos
Cadeia de suprimentosCadeia de suprimentos
Cadeia de suprimentosFelippi Perez
 
Aula 1 introdução a base de dados
Aula 1   introdução a base de dadosAula 1   introdução a base de dados
Aula 1 introdução a base de dadosHélio Martins
 
Ferramentas da qualidade_-_apostila_senai_sp
Ferramentas da qualidade_-_apostila_senai_spFerramentas da qualidade_-_apostila_senai_sp
Ferramentas da qualidade_-_apostila_senai_spSilvana Fontes
 

Mais procurados (20)

Conceitos de Sistemas de Informação
Conceitos de Sistemas de InformaçãoConceitos de Sistemas de Informação
Conceitos de Sistemas de Informação
 
Modelagem relacional e normalização de dados
Modelagem relacional e normalização de dadosModelagem relacional e normalização de dados
Modelagem relacional e normalização de dados
 
Aula 10 - Diagrama de Sequencia.pdf
Aula 10 - Diagrama de Sequencia.pdfAula 10 - Diagrama de Sequencia.pdf
Aula 10 - Diagrama de Sequencia.pdf
 
Aula 6 banco de dados
Aula 6   banco de dadosAula 6   banco de dados
Aula 6 banco de dados
 
Ciclo desenvolvimento de sistemas
Ciclo desenvolvimento de sistemasCiclo desenvolvimento de sistemas
Ciclo desenvolvimento de sistemas
 
Cadeia de Suprimentos
Cadeia de SuprimentosCadeia de Suprimentos
Cadeia de Suprimentos
 
Bancode dados modelagem conceitual
Bancode dados modelagem conceitualBancode dados modelagem conceitual
Bancode dados modelagem conceitual
 
Aula 4 - Diagrama Entidade Relacionamento (com exercício no final)
Aula 4  - Diagrama Entidade Relacionamento (com exercício no final)Aula 4  - Diagrama Entidade Relacionamento (com exercício no final)
Aula 4 - Diagrama Entidade Relacionamento (com exercício no final)
 
Gestão Da Informação
Gestão Da InformaçãoGestão Da Informação
Gestão Da Informação
 
Aula 3 Sistemas de Informação - Tipos de SI
Aula 3 Sistemas de Informação - Tipos de SIAula 3 Sistemas de Informação - Tipos de SI
Aula 3 Sistemas de Informação - Tipos de SI
 
Aula 1 - Introdução ao Conteúdo de Banco de Dados
Aula 1 - Introdução ao Conteúdo de Banco de DadosAula 1 - Introdução ao Conteúdo de Banco de Dados
Aula 1 - Introdução ao Conteúdo de Banco de Dados
 
Big Data
Big DataBig Data
Big Data
 
Aula1 e aula2 - Analise e Projeto de Sistemas
Aula1 e aula2 - Analise e Projeto de SistemasAula1 e aula2 - Analise e Projeto de Sistemas
Aula1 e aula2 - Analise e Projeto de Sistemas
 
Gestão do conhecimento FIA - 2011
Gestão do conhecimento FIA - 2011Gestão do conhecimento FIA - 2011
Gestão do conhecimento FIA - 2011
 
Cadeia de suprimentos
Cadeia de suprimentosCadeia de suprimentos
Cadeia de suprimentos
 
Modelagem de Sistema de Informação 02
Modelagem de Sistema de Informação 02Modelagem de Sistema de Informação 02
Modelagem de Sistema de Informação 02
 
Modelo E-R
Modelo E-RModelo E-R
Modelo E-R
 
Aula 7 banco de dados
Aula 7   banco de dadosAula 7   banco de dados
Aula 7 banco de dados
 
Aula 1 introdução a base de dados
Aula 1   introdução a base de dadosAula 1   introdução a base de dados
Aula 1 introdução a base de dados
 
Ferramentas da qualidade_-_apostila_senai_sp
Ferramentas da qualidade_-_apostila_senai_spFerramentas da qualidade_-_apostila_senai_sp
Ferramentas da qualidade_-_apostila_senai_sp
 

Destaque

Data mining and knowledge discovery
Data mining and knowledge discoveryData mining and knowledge discovery
Data mining and knowledge discoveryLuis Goldster
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 
Seminário paty aula 9 04-05-2011
Seminário paty aula 9 04-05-2011Seminário paty aula 9 04-05-2011
Seminário paty aula 9 04-05-2011Patricia Neubert
 
Boas práticas para aplicativos android
Boas práticas para aplicativos androidBoas práticas para aplicativos android
Boas práticas para aplicativos androidJuliana Akemi
 
Software de supply chain management: Definições, aplicações e implementação p...
Software de supply chain management: Definições, aplicações e implementação p...Software de supply chain management: Definições, aplicações e implementação p...
Software de supply chain management: Definições, aplicações e implementação p...Roberty Pires Teixeira
 
Ferramentas para Mineração de Dados
Ferramentas para Mineração de DadosFerramentas para Mineração de Dados
Ferramentas para Mineração de DadosManoel Amaro
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data WarehouseJeorgeCarmona
 
Introdução ao BI
Introdução ao BIIntrodução ao BI
Introdução ao BIpichiliani
 
Introdução aos conceitos de Business Intelligence
Introdução aos conceitos de Business IntelligenceIntrodução aos conceitos de Business Intelligence
Introdução aos conceitos de Business IntelligenceEmerson Henrique
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendaçãosaspi2
 
Weka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosWeka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosRubem Ventura Alves
 

Destaque (20)

Data Mining
Data Mining Data Mining
Data Mining
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Data mining and knowledge discovery
Data mining and knowledge discoveryData mining and knowledge discovery
Data mining and knowledge discovery
 
Data Mining
Data MiningData Mining
Data Mining
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
E gov
E govE gov
E gov
 
Seminário paty aula 9 04-05-2011
Seminário paty aula 9 04-05-2011Seminário paty aula 9 04-05-2011
Seminário paty aula 9 04-05-2011
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Boas práticas para aplicativos android
Boas práticas para aplicativos androidBoas práticas para aplicativos android
Boas práticas para aplicativos android
 
Software de supply chain management: Definições, aplicações e implementação p...
Software de supply chain management: Definições, aplicações e implementação p...Software de supply chain management: Definições, aplicações e implementação p...
Software de supply chain management: Definições, aplicações e implementação p...
 
Ferramentas para Mineração de Dados
Ferramentas para Mineração de DadosFerramentas para Mineração de Dados
Ferramentas para Mineração de Dados
 
OLAP, BI, EIS
OLAP, BI, EISOLAP, BI, EIS
OLAP, BI, EIS
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data Warehouse
 
Introdução ao BI
Introdução ao BIIntrodução ao BI
Introdução ao BI
 
Introdução aos conceitos de Business Intelligence
Introdução aos conceitos de Business IntelligenceIntrodução aos conceitos de Business Intelligence
Introdução aos conceitos de Business Intelligence
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
 
Weka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosWeka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de Dados
 

Semelhante a KDD e Data Mining

Mineração de dados
Mineração de dadosMineração de dados
Mineração de dadosTalita Lima
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de DadosRenata Nunes
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosCássio Alan Garcia
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesRodolfo Mendes
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
introdução a mineração de dados (noções )
introdução a mineração de dados (noções )introdução a mineração de dados (noções )
introdução a mineração de dados (noções )HelderPestana5
 
Artigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaArtigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaWosley Arruda
 

Semelhante a KDD e Data Mining (20)

Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
Data mining
Data miningData mining
Data mining
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Mineração
MineraçãoMineração
Mineração
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Clustering
ClusteringClustering
Clustering
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
introdução a mineração de dados (noções )
introdução a mineração de dados (noções )introdução a mineração de dados (noções )
introdução a mineração de dados (noções )
 
Artigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaArtigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolha
 

Mais de Thiago Oliveira

Mais de Thiago Oliveira (8)

Apresentação tcc
Apresentação   tccApresentação   tcc
Apresentação tcc
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Android - Activities and services
Android - Activities and servicesAndroid - Activities and services
Android - Activities and services
 
MPS-BR Nível A
MPS-BR Nível AMPS-BR Nível A
MPS-BR Nível A
 
Cmmi 5
Cmmi 5Cmmi 5
Cmmi 5
 
Neo4 jv2 english
Neo4 jv2 englishNeo4 jv2 english
Neo4 jv2 english
 
E business
E businessE business
E business
 
Grids computacionais
Grids computacionaisGrids computacionais
Grids computacionais
 

KDD e Data Mining

  • 1. UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO CAMPUS IV – LITORAL NORTE DISCIPLINA: INTELIGÊNCIA ARTIFICIAL PROFESSOR: ANDREI FORMIGA KNOWLEDGE DISCOVERY DATABASE (KDD) E DATA MINING (DM)
  • 2. EQUIPE • HERMANNY ALEXANDRE – hermannyfilho@hotmail.com • GEORGE LIMA – george.lima@dce.ufpb.br • THIAGO OLIVEIRA – thiago.oliveira@dce.ufpb.br – http://about.me/thiagooliveira
  • 3. Agenda • Introdução • KDD – Visão Geral – Processo – Tarefas • Data Mining – Objetivos – Como implementar – Aplicações – Processos • Exemplos de Aplicações • Conclusões
  • 5. KDD Visão Geral • Knowledge Discovery Database (Descoberta de Conhecimento em Base de Dados ) é o processo de transformação de dados em conhecimento.  É empregado para descrever todo o processo de extração de conhecimentos dos dados, e possui varias etapas interligadas como: seleção, pré-processamento, transformação, Data-Mining e interpretação enquanto que data mining é empregado somente para o estagio de descoberta do processo de KDD. • O objetivo fundamental do KDD é descobrir conhecimento útil, válido, relevante e novo sobre uma determinada atividade através de algoritmos, tendo em conta as ordens de magnitude crescente nos dados .
  • 6. KDD Visão Geral • A extração de conhecimento, além das informações empíricas, possui a capacidade de detectar e colher informação mais profundas e “escondidas” entre os bancos de dados. Na prática, se assemelha ao conceito do data-mining (mineração de dados).
  • 8. 1. Compreensão do Domínio de Aplicação • Levantamento dos requisitos necessários; • Geralmente trabalham o especialista do domínio e o analista juntos.
  • 9. 2. Seleção • Seleção ou segmentação dos dados apropriados para a análise de acordo com algum critério; • Exemplos: Todas as pessoas que possuem carro.
  • 10. 3. Pré-processamento • Estágio de limpeza dos dados; • Reconfiguração dos dados para assegurar formatos consistentes; • Ex: sexo = “F” ou “M” sexo = “M” ou “H”
  • 11. 4. Transformação • Padronizar os dados para suprir limitações das técnicas de Mineração de dados; • Exemplos: atributos de data e hora. • Disponibilizar os dados de maneira usável e navegável;
  • 12. 5. Mineração de Dados • Aplica-se técnicas e algoritmos para descobrir novos conhecimentos; – Oriundas de diversas áreas: Aprendizado de Máquina, Estatística, Redes Neurais, Banco de Dados, etc.
  • 13. 6. Interpretação e Avaliação do Conhecimento • Interpretar o conhecimento extraído através de ferramentas estatísticas e de visualização; • Caso seja irrelevante, refazer as etapas anteriores.
  • 14. KDD Tarefas de KDD • As tarefas são dependentes da aplicação e do interesse do usuário. Assim cada tarefa de KDD extrai um tipo diferente de conhecimento do BD e requer um algoritmo diferente para a extração de conhecimento. • O KDD é dividido em 3 tarefas: • Regras de Associação • Classificação • Clustering.
  • 15. Tarefas de KDD Regras de Associaçao • A transformação de uma tabela da base de dados para o formato binário é realizada substituindo um atributo de cardinalidade K por K atributos binários. • Uma regra de associação é um relacionamento da forma X => Y, onde X e Y são conjuntos de itens e a interseção deles, X ∩ Y, é o conjunto vazio. • Cada regra é associada a um fator suporte superior (Fsup), e a um fator de confidência (Fconf). • A definição desses fatores fornece uma medida capaz de distinguir associações interessantes, dado que as regras geradas em forma binária aumentam consideravelmente o espaço de busca de qualquer algoritmo minerador.
  • 16. Tarefas de KDD Classificação • Na tarefa de classificação cada tupla ou registro pertence a uma classe dentre um conjunto pré-definido de classes. As tuplas compõe-se de atributos preditivos e um atributo objetivo, cujo valor definido pelo usuário indica a que classe essa tupla pertence. • O atributo objetivo pode ter valores discretos como SIM ou NÃO, um valor pertencente a um intervalo de números inteiros, etc. • O propósito da tarefa de classificação é descobrir algum tipo de relacionamento entre os atributos preditivos e o atributo objetivo que permita encontrar um conhecimento que possa ser utilizado para prever a classe de uma tupla ainda não classificada.
  • 17. Tarefas de KDD Classificação • A análise de pequenos conjuntos de dados normalmente é realizada manualmente, mas para grandes conjuntos é mais eficiente realizar um processo automático de clustering por meio da tecnologia de mineração de dados. • Na clusterização, classes são criadas através da produção de partições do banco de dados em conjuntos de tuplas com valores de atributos semelhantes. Após a criação das classes, emprega-se um algoritmo de classificação para produzir regras para cada uma delas. • A qualidade da clusterização depende da medida utilizada para aferir a similaridade das tuplas. Um bom agrupamento possui similaridade intra-classe alta e inter-classe baixa.  Mede-se também a qualidade do método pela sua habilidade para descobrir algum ou todos os padrões escondidos.
  • 18. Data Mining “É o processo de busca por dados, por PADRÕES anteriormente desconhecidos e uso frequente desses padrões para predizer CONSEQUÊNCIAS futuras.” • Jeff Jonas e Jim Harper
  • 19. Data Mining “É a concepção de modelos computacionais capazes de identificar e revelar padrões desconhecidos mas existentes entre dados pertencentes a uma ou mais bases de dados”
  • 20. Objetivos da DM • Descobrir PADRÕES – Representar informações úteis para a empresa – Caso da Cerveja e da Fralda • Descrever – Explicar resultados ou valores obtidos em determinados dados ou negócios • Prever – Antecipar o comportamento ou valor futuro de algum fenômeno com base em conhecimento prévio.
  • 21. Como implementar Data Mining • Algoritmos baseados em redes neurais – Processamento de dados de maneira semelhante ao cérebro humano – Decisões baseadas na aprendizagem • Algoritmos estatísticos – Utilizados na análise de dados, a fim de encontrar padrões e correlações entre eles • Algoritmos de Aprendizado – Extrair padrões a partir da interação com o ambiente
  • 22. Aplicações de Data Mining • Cross-Selling – Identificar associação entre produtos • Up-Selling – Identificar potenciais clientes para determinados produtos • Fidelização – Descobrir fatores associados a perda de clientes
  • 23. Processo de DM Entendimento Entendimento do Negócio dos Dados Preparação dos Dados Aplicação Data Modelagem Avaliação
  • 24. Exemplos  Áreas de aplicações potenciais – Médica • Comportamento de pacientes • Identificar terapias de sucessos para diferentes tratamentos • Fraudes em planos de saúdes • Comportamento de usuários de planos de saúde
  • 25. Exemplo 1 • Fraldas e cervejas – O que as cervejas tem a ver com as fraldas ? – homens casados, entre 25 e 30 anos; – compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; – Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; – Resultado: o consumo cresceu 30% .
  • 26. Exemplo 2 • Lojas Brasileiras (Info 03/98) – Aplicou 1 milhão de dólares em técnicas de data mining – Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. – Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste – Batedeiras 110v a venda em SC onde a corrente elétrica é 220v
  • 27. Exemplo 3  Bank of America (Info 03/98) – Selecionou entre seus 36 milhões de clientes • Aqueles com menor risco de dar calotes • Tinham filhos com idades entre 18 e 21 anos • Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.
  • 28. Concluindo... • Destaca-se Data Mining como parte de um processo maior, denominado KDD, e que se refere ao meio pelo qual padrões são extraídos e enumerados a partir dos dados; • O uso dessas técnicas proporciona meios para encontrar informações que permitam detectar tendências e características até então desconhecidas, reagir rapidamente a um evento que ainda pode estar por vir, entre outras coisas.
  • 29. Referências • Conceitos e Aplicações de Data Mining – Universidade Metodista de Piracicaba – Heloisa & Angela; • Fayyad et al. (1996). Advances in knowledge discovery and data mining, AAAI Press/MIT Press; • http://www.infolink.com.br/~mpolito/mining/mining.html; • http://www.lci.ufrj.br/~labbd/semins/grupo1; • Redes Neurais – Uma ferramenta para KDD e Data Mining – Antonio Carlos.