SlideShare uma empresa Scribd logo
1 de 46
Data Mining Ângelo Vidal de Negreiros Eduardo de Lucena Falcão Eduardo Farias Silva
Introdução Visão Geral KDD, Data Mining, Data Warehouses Histórico Etapa para extrações das Informações Tarefas Técnicas Ferramentas Conclusão Sumário
Custo de armazenamento Poder de armazenamento Bancos de dados  Grande quantidade de dados brutos (>>Terabytes) Relações e associações entre dados Informações relevantes através de reconhecimento de padrões “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004].  Introdução
Visão Geral
KDD - Knowledge Discovery in Database processo não trivial de identificar em grandes conjuntos de dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyadet al. 1996]. Data Mining Mineração de Dados (ou Data Mining) é o passo dentro do KDD que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyadet al. 1996]. Visão Geral
Data Warehouses sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada Mineração de Dados – uma das formas de se extrair informação Qualidade da análise é dependente da qualidade dos dados Visão Geral
Histórico Visão Geral
Integrado Não volátil Variante no tempo Granularidade Etc. Características de um DW
Planejamento Levantamento de necessidades Modelagem Dimensional Projeto Físico dos BDs Projeto de ETC (*) Desenvolvimento de aplicações Validação e Teste Treinamento Implantação Projeto de um DW
Etapa para extrações das informações(KDD)
Limpeza dos dados:  Dados incompletos ou inconsistentes  Dados completos e consistentes Corrigir ou atenuar tais problemas.  Integração dos dados:  Unificação de todas as fontes de dados em uma única e consolidada fonte.  Etapa para extrações das informações
Seleção dos dados:  selecionar os dados que tem relevância para o negócio Transformação dos dados: os dados são transformados para facilitar a mineração Etapa para extrações das informações
Etapas 1 – 4:  Limpeza + integração + seleção + transformação Data WareHouse Os dados estão a ponto de bala Pronto para serem minerados Etapa para extrações das informações
Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc. Etapa para extrações das informações
Etapa para extrações das informações
Tarefas de Mineração
Tarefas de mineração
Análise de Amostragem Análise Descritiva Análise de Prognóstico Classificação das Tarefas
Utilização de medidas estatísticas como esperança e desvio padrão Encontrar dados fora do padrão Aumentam a confiabilidade Identificação de fraude Análise de Amostragem
Classificação – categorizar dados em classes Supermercado: frio, laticínios, higiene, etc Consumidores: região, sexo, etc Associação – identificar fatos que ocorrem em conjunto. Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto Análise Descritiva
Descrição textual de um conjunto de características frequentes para um evento Utilizada para traçar perfis comportamentais:  p. ex. fraudes de cartão de crédito Detecção de Sequências: estabelecimento de relações temporais entre os fatos Ex. clássico: Notebook + Mouse Análise Descritiva
Inferir comportamento futuro ou estimar valores desconhecidos Baseia-se nas informações colhidas na análise descritiva Padrão de despesas + idade -> salário + nº de filhos Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos Análise de Prognóstico
Técnicas para Mineração
Algoritmo escolher um atributo; estender a árvore adicionando um ramo para cada valor do atributo; passar os exemplos para as folhas (tendo em conta o valor do atributo escolhido); para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c). C4.5 (árvore de decisão)
C4.5 (árvore de decisão) Gera um classificador na forma de árvore de decisão
calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada  Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente Classificação Bayesiana
Apredizado de regras de associação Aproximação “bottom-up” Exige grande capacidade de processamento Hipertensão na Coréia do Sul: índice de massa corpórea, proteína urinária, taxa de glicose e colesterol. Apriori
Redes Neurais Metáfora do funcionamento docérebro humano Conjunto de dados iniciais para treinar a rede Predições sobre novos dados inseridos Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados
Ferramentas de Mineração de Dados
Ferramentas e aplicativos Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin Data Mining Software Ferramentas de Mineração de Dados
Exemplo Clássico
O weka lê os dados no formato .arff Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff): @relationweather%Nome do arquivo 	@attributeoutlook {sunny, overcast, rainy} 	@attributetemperaturereal%Atributo e tipo 	@attributehumidity real 	@attributewindy {TRUE, FALSE} 	@attribute play {yes, no} 	@data%Início dos dados sunny,85,85,FALSE,no overcast,83,86,FALSE,yes Weka
Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão  <=75  >75
Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão J48 prunedtree ------------------ outlook = sunny |   humidity <= 75: yes (2.0) |   humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy |   windy = TRUE: no (2.0) |   windy = FALSE: yes (3.0) NumberofLeaves  : 	5 Sizeofthetree : 	8
Algoritmo para minerar regras de associação. Weka + Apriori 	IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não  IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim	IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF ? THEN vento = não AND umidade = normal AND jogar = sim
Weka - Apriori Best rules found:  1.temperature=cool humidity=normal windy=FALSE     ==> play=yes 		conf:(1)  2. temperature=cool windy=FALSE play=yes   	  ==> humidity=normal     conf:(1)  3. outlook=overcast temperature=hot windy=FALSE  ==> play=yes     conf:(1)  4. temperature=cool windy=FALSE   	==> humidity=normal play=yes     conf:(1)  5. outlook=rainy temperature=mild windy=FALSE  ==> play=yes     conf:(1)
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência. Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO" Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Por exemplo, a letra 'A' poderia significar "aquisição de pão“ A letra 'B' poderia, por exemplo, significar "aquisição de leite“ A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado Exemplo prático 1
Sequência:  ABCVYABCVKABDKCABCVUABEWLABCVO Que padrão se observa? Na prática que exemplos podemos dar? Exemplo prático 2
Áreas de Aplicação
Mercado de Negócios Análise de crédito Retenção de clientes Análise de tendências Medicina Histórico de pacientes Análise de epidemias Outros
Conclusão
Obrigado Perguntas?

Mais conteúdo relacionado

Mais procurados

Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoDaniel Brandão
 
Conceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBDConceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBDVinicius Buffolo
 
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de DadosBanco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de DadosLeinylson Fontinele
 
Aula 6 - Design e Processo de Design de Interfaces de Usuário
Aula 6 - Design e Processo de Design de Interfaces de UsuárioAula 6 - Design e Processo de Design de Interfaces de Usuário
Aula 6 - Design e Processo de Design de Interfaces de UsuárioAndré Constantino da Silva
 
BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )Marco Garcia
 
Aula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdfAula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdfMarcelo Silva
 
Sistemas Transacionais, Gerenciais e Estratégicos
Sistemas Transacionais, Gerenciais e EstratégicosSistemas Transacionais, Gerenciais e Estratégicos
Sistemas Transacionais, Gerenciais e EstratégicosClaudio Barbosa
 
Capitulo 01 - Os sistemas de informação empresariais na sua carreira
Capitulo 01 - Os sistemas de informação empresariais na sua carreiraCapitulo 01 - Os sistemas de informação empresariais na sua carreira
Capitulo 01 - Os sistemas de informação empresariais na sua carreiraEverton Souza
 
Aula - Introdução a Engenharia de Software
Aula - Introdução a Engenharia de SoftwareAula - Introdução a Engenharia de Software
Aula - Introdução a Engenharia de SoftwareCloves da Rocha
 
Informação E Conhecimento - Conceitos Essenciais
Informação E Conhecimento - Conceitos EssenciaisInformação E Conhecimento - Conceitos Essenciais
Informação E Conhecimento - Conceitos EssenciaisLeonardo Moraes
 
Banco de Dados - MySQL Basico
Banco de Dados - MySQL BasicoBanco de Dados - MySQL Basico
Banco de Dados - MySQL BasicoRangel Javier
 
Arquitetura de projetos IoT
Arquitetura de projetos IoTArquitetura de projetos IoT
Arquitetura de projetos IoTFernando Veiga
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 
Navegação e Arquitetura de Informação
Navegação e Arquitetura de InformaçãoNavegação e Arquitetura de Informação
Navegação e Arquitetura de InformaçãoLuiz Agner
 
Conceitos de Sistemas de Informação
Conceitos de Sistemas de InformaçãoConceitos de Sistemas de Informação
Conceitos de Sistemas de Informaçãoluanrjesus
 

Mais procurados (20)

Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de Informação
 
Conceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBDConceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBD
 
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de DadosBanco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
Banco de Dados I - Aula 03 - Conceitos de Sistemas de Banco de Dados
 
Sistemas de Informação
Sistemas de InformaçãoSistemas de Informação
Sistemas de Informação
 
Aula 6 - Design e Processo de Design de Interfaces de Usuário
Aula 6 - Design e Processo de Design de Interfaces de UsuárioAula 6 - Design e Processo de Design de Interfaces de Usuário
Aula 6 - Design e Processo de Design de Interfaces de Usuário
 
BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )
 
Aula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdfAula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdf
 
Sistemas Transacionais, Gerenciais e Estratégicos
Sistemas Transacionais, Gerenciais e EstratégicosSistemas Transacionais, Gerenciais e Estratégicos
Sistemas Transacionais, Gerenciais e Estratégicos
 
Capitulo 01 - Os sistemas de informação empresariais na sua carreira
Capitulo 01 - Os sistemas de informação empresariais na sua carreiraCapitulo 01 - Os sistemas de informação empresariais na sua carreira
Capitulo 01 - Os sistemas de informação empresariais na sua carreira
 
Gestão Estratégica da TI - Apresentação
Gestão Estratégica da TI - ApresentaçãoGestão Estratégica da TI - Apresentação
Gestão Estratégica da TI - Apresentação
 
Aula - Introdução a Engenharia de Software
Aula - Introdução a Engenharia de SoftwareAula - Introdução a Engenharia de Software
Aula - Introdução a Engenharia de Software
 
Modelagem de dados
Modelagem de dadosModelagem de dados
Modelagem de dados
 
Informação E Conhecimento - Conceitos Essenciais
Informação E Conhecimento - Conceitos EssenciaisInformação E Conhecimento - Conceitos Essenciais
Informação E Conhecimento - Conceitos Essenciais
 
Banco de Dados - MySQL Basico
Banco de Dados - MySQL BasicoBanco de Dados - MySQL Basico
Banco de Dados - MySQL Basico
 
Arquitetura de projetos IoT
Arquitetura de projetos IoTArquitetura de projetos IoT
Arquitetura de projetos IoT
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Navegação e Arquitetura de Informação
Navegação e Arquitetura de InformaçãoNavegação e Arquitetura de Informação
Navegação e Arquitetura de Informação
 
Conceitos de Sistemas de Informação
Conceitos de Sistemas de InformaçãoConceitos de Sistemas de Informação
Conceitos de Sistemas de Informação
 
Modelagem de Sistema de Informação 02
Modelagem de Sistema de Informação 02Modelagem de Sistema de Informação 02
Modelagem de Sistema de Informação 02
 
Conceito Design Thinking
Conceito Design ThinkingConceito Design Thinking
Conceito Design Thinking
 

Semelhante a Data Mining: Visão Geral e Técnicas

Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)Jéssica Góis Scala
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
Regras de Produção: o Motor de Inferência JESS
Regras de Produção:o Motor de Inferência JESSRegras de Produção:o Motor de Inferência JESS
Regras de Produção: o Motor de Inferência JESSelliando dias
 
Data warehousing
Data warehousingData warehousing
Data warehousingacistec
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business IntelligenceDouglas Scheibler
 
Mini-Curso de MongoDB
Mini-Curso de MongoDBMini-Curso de MongoDB
Mini-Curso de MongoDBBrunno Gomes
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
 

Semelhante a Data Mining: Visão Geral e Técnicas (20)

Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Data mining
Data miningData mining
Data mining
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Data science
Data scienceData science
Data science
 
Regras de Produção: o Motor de Inferência JESS
Regras de Produção:o Motor de Inferência JESSRegras de Produção:o Motor de Inferência JESS
Regras de Produção: o Motor de Inferência JESS
 
Data warehousing
Data warehousingData warehousing
Data warehousing
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Mineração
MineraçãoMineração
Mineração
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
DP-900-BR-01.pptx
DP-900-BR-01.pptxDP-900-BR-01.pptx
DP-900-BR-01.pptx
 
Bi microsoft & pentaho
Bi microsoft & pentahoBi microsoft & pentaho
Bi microsoft & pentaho
 
Mongodb workshop cinlug
Mongodb workshop cinlugMongodb workshop cinlug
Mongodb workshop cinlug
 
DDD > Experiências
DDD > ExperiênciasDDD > Experiências
DDD > Experiências
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business Intelligence
 
Mini-Curso de MongoDB
Mini-Curso de MongoDBMini-Curso de MongoDB
Mini-Curso de MongoDB
 
Big data
Big dataBig data
Big data
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 

Mais de Eduardo de Lucena Falcão

Programando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataformaProgramando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataformaEduardo de Lucena Falcão
 
Aula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNSAula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNSEduardo de Lucena Falcão
 
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...Eduardo de Lucena Falcão
 
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud WatchAula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud WatchEduardo de Lucena Falcão
 
Aula 2 introdução a sistemas distribuídos
Aula 2   introdução a sistemas distribuídosAula 2   introdução a sistemas distribuídos
Aula 2 introdução a sistemas distribuídosEduardo de Lucena Falcão
 
Aula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvidoAula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvidoEduardo de Lucena Falcão
 
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...Eduardo de Lucena Falcão
 
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...Eduardo de Lucena Falcão
 
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Eduardo de Lucena Falcão
 
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de ComputadoresSEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de ComputadoresEduardo de Lucena Falcão
 
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRASProcesso de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRASEduardo de Lucena Falcão
 
Desafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústriaDesafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústriaEduardo de Lucena Falcão
 
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I Eduardo de Lucena Falcão
 

Mais de Eduardo de Lucena Falcão (20)

Dais 2015
Dais 2015Dais 2015
Dais 2015
 
Wcga 2015
Wcga 2015Wcga 2015
Wcga 2015
 
Programando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataformaProgramando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataforma
 
Minicurso sobre X3D
Minicurso sobre X3DMinicurso sobre X3D
Minicurso sobre X3D
 
Aula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNSAula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNS
 
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
 
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud WatchAula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
 
Introduction to Cloud Computing
Introduction to Cloud ComputingIntroduction to Cloud Computing
Introduction to Cloud Computing
 
Aula 4 - Introdução a aws
Aula 4 - Introdução a awsAula 4 - Introdução a aws
Aula 4 - Introdução a aws
 
Aula 3 - Introdução a cloud computing
Aula 3 - Introdução a cloud computingAula 3 - Introdução a cloud computing
Aula 3 - Introdução a cloud computing
 
Aula 2 introdução a sistemas distribuídos
Aula 2   introdução a sistemas distribuídosAula 2   introdução a sistemas distribuídos
Aula 2 introdução a sistemas distribuídos
 
Aula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvidoAula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvido
 
Apresentação do Curso
Apresentação do CursoApresentação do Curso
Apresentação do Curso
 
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
 
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
 
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
 
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de ComputadoresSEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
 
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRASProcesso de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
 
Desafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústriaDesafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústria
 
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
 

Data Mining: Visão Geral e Técnicas

  • 1. Data Mining Ângelo Vidal de Negreiros Eduardo de Lucena Falcão Eduardo Farias Silva
  • 2. Introdução Visão Geral KDD, Data Mining, Data Warehouses Histórico Etapa para extrações das Informações Tarefas Técnicas Ferramentas Conclusão Sumário
  • 3. Custo de armazenamento Poder de armazenamento Bancos de dados Grande quantidade de dados brutos (>>Terabytes) Relações e associações entre dados Informações relevantes através de reconhecimento de padrões “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004]. Introdução
  • 5. KDD - Knowledge Discovery in Database processo não trivial de identificar em grandes conjuntos de dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyadet al. 1996]. Data Mining Mineração de Dados (ou Data Mining) é o passo dentro do KDD que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyadet al. 1996]. Visão Geral
  • 6. Data Warehouses sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada Mineração de Dados – uma das formas de se extrair informação Qualidade da análise é dependente da qualidade dos dados Visão Geral
  • 8. Integrado Não volátil Variante no tempo Granularidade Etc. Características de um DW
  • 9. Planejamento Levantamento de necessidades Modelagem Dimensional Projeto Físico dos BDs Projeto de ETC (*) Desenvolvimento de aplicações Validação e Teste Treinamento Implantação Projeto de um DW
  • 10. Etapa para extrações das informações(KDD)
  • 11. Limpeza dos dados: Dados incompletos ou inconsistentes  Dados completos e consistentes Corrigir ou atenuar tais problemas. Integração dos dados: Unificação de todas as fontes de dados em uma única e consolidada fonte. Etapa para extrações das informações
  • 12. Seleção dos dados: selecionar os dados que tem relevância para o negócio Transformação dos dados: os dados são transformados para facilitar a mineração Etapa para extrações das informações
  • 13. Etapas 1 – 4: Limpeza + integração + seleção + transformação Data WareHouse Os dados estão a ponto de bala Pronto para serem minerados Etapa para extrações das informações
  • 14. Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc. Etapa para extrações das informações
  • 15. Etapa para extrações das informações
  • 18. Análise de Amostragem Análise Descritiva Análise de Prognóstico Classificação das Tarefas
  • 19. Utilização de medidas estatísticas como esperança e desvio padrão Encontrar dados fora do padrão Aumentam a confiabilidade Identificação de fraude Análise de Amostragem
  • 20. Classificação – categorizar dados em classes Supermercado: frio, laticínios, higiene, etc Consumidores: região, sexo, etc Associação – identificar fatos que ocorrem em conjunto. Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto Análise Descritiva
  • 21. Descrição textual de um conjunto de características frequentes para um evento Utilizada para traçar perfis comportamentais: p. ex. fraudes de cartão de crédito Detecção de Sequências: estabelecimento de relações temporais entre os fatos Ex. clássico: Notebook + Mouse Análise Descritiva
  • 22. Inferir comportamento futuro ou estimar valores desconhecidos Baseia-se nas informações colhidas na análise descritiva Padrão de despesas + idade -> salário + nº de filhos Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos Análise de Prognóstico
  • 24. Algoritmo escolher um atributo; estender a árvore adicionando um ramo para cada valor do atributo; passar os exemplos para as folhas (tendo em conta o valor do atributo escolhido); para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c). C4.5 (árvore de decisão)
  • 25.
  • 26. C4.5 (árvore de decisão) Gera um classificador na forma de árvore de decisão
  • 27. calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente Classificação Bayesiana
  • 28. Apredizado de regras de associação Aproximação “bottom-up” Exige grande capacidade de processamento Hipertensão na Coréia do Sul: índice de massa corpórea, proteína urinária, taxa de glicose e colesterol. Apriori
  • 29. Redes Neurais Metáfora do funcionamento docérebro humano Conjunto de dados iniciais para treinar a rede Predições sobre novos dados inseridos Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados
  • 31. Ferramentas e aplicativos Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin Data Mining Software Ferramentas de Mineração de Dados
  • 33. O weka lê os dados no formato .arff Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff): @relationweather%Nome do arquivo @attributeoutlook {sunny, overcast, rainy} @attributetemperaturereal%Atributo e tipo @attributehumidity real @attributewindy {TRUE, FALSE} @attribute play {yes, no} @data%Início dos dados sunny,85,85,FALSE,no overcast,83,86,FALSE,yes Weka
  • 34. Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão <=75 >75
  • 35. Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão J48 prunedtree ------------------ outlook = sunny | humidity <= 75: yes (2.0) | humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) NumberofLeaves : 5 Sizeofthetree : 8
  • 36. Algoritmo para minerar regras de associação. Weka + Apriori IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF ? THEN vento = não AND umidade = normal AND jogar = sim
  • 37. Weka - Apriori Best rules found: 1.temperature=cool humidity=normal windy=FALSE ==> play=yes conf:(1) 2. temperature=cool windy=FALSE play=yes ==> humidity=normal conf:(1) 3. outlook=overcast temperature=hot windy=FALSE ==> play=yes conf:(1) 4. temperature=cool windy=FALSE ==> humidity=normal play=yes conf:(1) 5. outlook=rainy temperature=mild windy=FALSE ==> play=yes conf:(1)
  • 38. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência. Exemplo prático 1
  • 39. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO" Exemplo prático 1
  • 40. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra Exemplo prático 1
  • 41. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Por exemplo, a letra 'A' poderia significar "aquisição de pão“ A letra 'B' poderia, por exemplo, significar "aquisição de leite“ A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado Exemplo prático 1
  • 42. Sequência:  ABCVYABCVKABDKCABCVUABEWLABCVO Que padrão se observa? Na prática que exemplos podemos dar? Exemplo prático 2
  • 44. Mercado de Negócios Análise de crédito Retenção de clientes Análise de tendências Medicina Histórico de pacientes Análise de epidemias Outros