SlideShare uma empresa Scribd logo
1 de 46
Baixar para ler offline
Conhecendo Mineração
de Dados
MSC. FHABIANA THIELI MACHADO
1
Dado,
informaçãoe
conhecimento
Dado – bruto
Informação – dado
processado
Conhecimento – relativo ao
domínio
Sistemas de informação :)
2
Introdução
Os dados podem assumir vários formatos como:
séries temporais, transações, grafos ou redes sociais, textos, páginas
web, imagens, vídeos e áudios.
Os eletrônicos ubíquos gravam para cada pessoa suas escolhas,
decisões, nível financeiro, seu trajeto pelo mundo, sendo que cada
escolha representa um registro no banco de dados.
3FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Introdução
“...rico em dados, pobre em informação”
“...salvam-se coisas que possivelmente seriam descartadas.”
Falta análise destes dados para que eles possam gerar o
conhecimento.
4FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Processo de descoberta
de conhecimento
(KDD)
Descoberta de conhecimento
5FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Então o que é isso?
Han et al. (2011) mineração de dados é o processo de descobrir
novas correlações significativas, padrões e tendências em grandes
quantidades de dados armazenados em repositórios
O Brien (2005) O uso da tecnologia da informação para descobrir
regras, identificar fatores e tendências-chave, descobrir padrões e
relacionamentos ocultos em grandes bancos de dados para auxiliar a
tomada de decisões sobre estratégia e vantagens competitivas.
6FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Mineração de dados
7FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Utiliza técnicas de
estatística,
recuperação de
informação,
inteligência artificial
Mineraçãode
dados
Algumas tarefas:
▪Estimação
▪Predições numéricas (regressão linear e
não linear)
▪Associação
▪Agrupamento (clustering)
▪Classificação
▪Ferramenta para teste
Uma tarefa de
mineração consiste na
especificação DO QUE
estamos querendo
buscar nos dados.
Os métodos são
COMO descobrir os
padrões que nos
interessam.
8
Associação
9FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Associação
A técnica de associação permite gerar regras do tipo
SE alguma coisa... ENTÃO consequente...
Junto com uma medida de suporte e confiança da regra criada. São
aplicadas a itens que “andam juntos”, como em carrinhos de compra.
Por exemplo:
“SE compra fraldas ENTÃO compra cerveja” com um suporte de 50/1000 =
5% e uma confiança de 50/200 = 25%.
10FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Associação
Tem maior aplicação na área comercial, em análise de cesta de
mercado, em sistemas de recomendação, design de catálogos, etc...
Pois a análise do comportamento de compras dos clientes que pode
levar ao aumento das vendas.
Exemplos de aplicações incluem: telemarketing, e-commerce,
pesquisas...
11FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Aplicações
12FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Vestibular PUC-RJ
Utilizando as técnicas da mineração de dados, um programa de obtenção de
conhecimento depois de examinar milhares de alunos forneceu a seguinte regra:
se o candidato é do sexo feminino, trabalha e teve aprovação com boas notas no
vestibular, então não efetivava a matrícula.
Estranho, ninguém havia pensado nisso. Mas uma reflexão justifica a regra
oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma
mulher em idade de vestibular, se trabalha é porque precisa, e neste caso deve
ter feito inscrição para ingressar na universidade pública gratuita. Se teve boas
notas provavelmente foi aprovada na universidade pública onde efetivará
matrícula.
Agrupamento
13FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Agrupamento (clustering)
A técnica de agrupamento tem como objetivo encontrar uma
estrutura de grupos nos dados e também pode ser tratada como
particionamento.
A ideia é separar em grupos para uma análise posterior, de acordo
com uma forma de agrupamento definida. Sendo que os elementos
do grupo são semelhantes.
14FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Agrupamento (clustering)
Devido ao tamanho de muitos bancos de dados muitas vezes é útil
aplicar agrupamento em primeiro lugar para reduzir o espaço de
procura.
Pode ser aplicado na recuperação de informação, como por exemplo,
uma pesquisa por determinada palavra as vezes pode retornar um
número muito grande de páginas relevantes para a pesquisa, devido
ao grande volume de páginas da web.
15FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Agrupamento (clustering)
Diferentes formas de agrupar os mesmo dados
16FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Agrupamento (clustering)
Um algoritmo de agrupamento procura segmentar o conjunto de
dados em subgrupos ou grupos relativamente homogêneos, onde a
semelhança entre os registros dentro do mesmo grupo é
maximizada, e à semelhança de registros fora deste é minimizado.
Algumas das formas são por métodos hierárquicos, agrupamento de
registros, observações em classes de objetos similares. Um dos
algoritmos famosos de clustering é o k-means.
17FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Agrupamento (clustering)
Métodos de partição
K-means - usa o conceito da centroide, seleciona aleatoriamente k
registros, cada um representando um agrupamento. Para cada registro
restante, é calculada a similaridade entre o registro analisado e o centro
de cada agrupamento. O objeto é inserido no agrupamento com a menor
distância, ou seja, maior similaridade. O centro do cluster é recalculado a
cada novo elemento inserido.
K-medoids - É uma variação do k-Means. Ao invés de calcular o centro do
agrupamento e usá-lo como referência, trabalha-se com o conceito do
objeto mais central do agrupamento.
18FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Aplicações
19FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ao contrário da classificação, a clusterização não conta com classes predefinidas
e exemplos de treinamento.
Classificação
20FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Classificação
A classificação é baseada em um processo com dois passos:
▪a primeira etapa é a de aprendizado, onde um modelo é construído
com base nos dados para treinamento,
▪e a segunda é o passo de classificação propriamente dito, quando o
modelo é usado para prever a classe de uma dada entrada.
Então o algoritmo olha para novos registros sobre o qual não há
informação e com base nas classificações anteriores atribui
conjuntos para os novos.
21FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Classificação
Alguns algoritmos para classificação...
▪ Árvore de decisão
▪ Redes neurais
22FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Classificação
Árvore de decisão
Uma árvore na computação é grafo acíclico direcionado em que cada
nó é um nó de divisão com sucessores ou um nó folha. Sua
representação é intuitiva e de fácil compreensão por humanos.
23FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Classificação
Árvore de decisão
Para esta técnica, Han et al. (2011) destaca que não é requerido
qualquer conhecimento de domínio, sendo assim apropriado para
exploração na descoberta de conhecimento, podendo também
trabalhar com dados multidimensionais.
Larose (2014) lembra que como esses algoritmos apresentam
aprendizado supervisionado é necessário ter atenção com o
conjunto de dados de treino.
24FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Classificação
Árvore de decisão
Este conjunto de treinamento deve ser rico e variado de maneira que
constem todos os tipos de registros para o qual sejam necessárias
classificações no futuro.
Árvores de decisão aprendem pelo exemplo, logo se este for falho ou
incompleto o resultado será problemático, sendo que os atributos
devem assumir valores discretos isto é, um número contável, para
que a variável-alvo deve assumir valores que determinem se ela
pertence a uma classe ou não.
25FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Classificação
Redes neurais
A inspiração para redes neurais vem do reconhecimento dos
sistemas de aprendizagem complexos como cérebros de animais.
26FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Classificação
Redes neurais
As entradas X são recolhidas a partir de neurônios a um montante
(conjunto de dados) combinados através de uma função, como um
somatório, este é então introduzido a uma função de ativação para
produzir uma resposta de saída Y que é então canalizada para junção
com os demais neurônios.
Larose (2014) aponta que são robustos em relação a dados ruidosos,
isto porque a rede contem vários nós (neurônios artificiais) com
pesos atribuídos a cada conexão e então a rede aprende trabalhar
com esses dados uniformes.
27FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Aplicações
28FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ferramenta para teste
29FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ferramenta para teste
Weka - Waikato Environment for Knowledge Analysis
É uma ferramenta que inclui métodos para os principais problemas
de mineração de dados padrão como regressão, classificação,
clustering...
30FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ferramenta para teste
Weka
Weka contém uma coleção de algoritmos do estado da arte em
aprendizado de máquina, mineração de dados e ferramentas para
pré-processamentos de dados.
Permite experimentar os métodos existentes em novos conjuntos de
dados de forma flexível, fornecendo suporte para basicamente todo
o processo de mineração de dados, ou seja, desde a preparação até
a visualização dos resultados.
31FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ferramenta para teste
Weka
32FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ferramenta para teste
Weka
Algumas formas de aplicar uma classificação na ferramenta Weka:
▪Utilizar o mesmo conjunto de treino (use training set) - treina com
determinado conjunto de dados, depois faz a previsão sobre o
mesmo conjunto e avalia se o quão semelhante resultado é dos
dados originais.
▪ Fornecer o conjunto de teste (supplied test set) - informa outro
arquivo (com dados diferentes do conjunto de treino) para que o
modelo faça a previsão.
33FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ferramenta para teste
Weka
▪Dividir por porcentagem (Percentage split) - uma porcentagem é
definida pelo usuário para separar os dados em conjunto de treino e
teste.
▪Validação cruzada (cross-validation) - é a que produz resultados mais
significativos. O conjunto de dados é dividido em partições (folds)
informadas pelo usuário, a cada iteração o algoritmo treina com uma
partição e testa com o conjunto separado para o teste, na próxima
iteração utiliza a próxima partição e testa com o mesmo conjunto de
testes, e assim sucessivamente.
34FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ferramenta para teste
Weka
▪Dividir por porcentagem (Percentage split) - uma porcentagem é
definida pelo usuário para separar os dados em conjunto de treino e
teste.
▪Validação cruzada (cross-validation) - é a que produz resultados mais
significativos. O conjunto de dados é dividido em partições (folds)
informadas pelo usuário, a cada iteração o algoritmo treina com uma
partição e testa com o conjunto separado para o teste, na próxima
iteração utiliza a próxima partição e testa com o mesmo conjunto de
testes, e assim sucessivamente.
35FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ferramenta para teste
Exemplo de árvore de classificação
Algoritmo: J48
Conjunto de dados: “wheather.simbolic” (condições do tempo com
atributos nominais como aparência, temperatura, umidade e vento)
36FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ferramenta para
teste
Exemplo com
associação
Conjunto de dados:
“weather.nominal”
que fornece dados do
tempo de modo
textual
37
38FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Descoberta de conhecimento
39FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Descoberta de conhecimento
40FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Descoberta de conhecimento
Fhabiana machado - Conhecendo mineração de dados 41
Para que a
informação se torne
em conhecimento,
não bastam
números...
O que não é mineração de dados
Executar uma query SQL em uma base de dados
42FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
SELECT cliente, SUM(case
when month(data)=01
then fretetotal
else 0 end) Jan,
FROM pedidos
WHERE year(data) = 2005
GROUP BY cliente
O que não é mineração de dados
Gerar cubos multidimensionais de uma tabela relacional
43FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
O que não é mineração de dados
Procurar por palavras chave no Google
44FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Indo além...
Dados abertos
Rio Grande do Sul - http://dados.rs.gov.br/
Portal brasileiro - http://dados.gov.br/dataset?tags=RS
Polícia rodoviária federal - https://www.prf.gov.br/portal/dados-
abertos
Saúde e segurança do trabalhador -
http://www.previdencia.gov.br/dados-abertos/dados-abertos-sst/
45FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Referências
O'brien, James A. (2005). Sistemas de Informação e as decisões gerenciais na era da internet 2º
ed. São Paulo: Saraiva. p. 143
Camilo, C. O. and Silva, J. C. d. (2009). Mineração de dados: Conceitos, tarefas, métodos e
ferramentas. http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-
INF00109:pdf:Acessoemnovembro2015.
Han, J., Kamber, M., and Pei, J. (2011). Data mining: conceptsand techniques. Elsevier, Waltham,
MA, USA, 3 edition.
Larose, D. T. (2014). Discoveringknowledge in data: an introduction to data mining. JohnWiley &
Sons, New Jersey,2 edition.
46FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS

Mais conteúdo relacionado

Mais procurados

88194121 puc-ihc-aula11-teorias-de-ihc-eng-cognitiva
88194121 puc-ihc-aula11-teorias-de-ihc-eng-cognitiva88194121 puc-ihc-aula11-teorias-de-ihc-eng-cognitiva
88194121 puc-ihc-aula11-teorias-de-ihc-eng-cognitivaJosimar Lima
 
Raciocinio Lógico
Raciocinio LógicoRaciocinio Lógico
Raciocinio LógicoLeocely
 
Sistema de Informação na Empresa
Sistema de Informação na EmpresaSistema de Informação na Empresa
Sistema de Informação na EmpresaAdeildo Telles
 
Design Thinking - Metodologia para Inovação
Design Thinking - Metodologia para InovaçãoDesign Thinking - Metodologia para Inovação
Design Thinking - Metodologia para InovaçãoPaulo Oliveira
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...Leandro de Castro
 
INTRODUÇÃO FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO
INTRODUÇÃO FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃOINTRODUÇÃO FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO
INTRODUÇÃO FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃOEdson Lima
 
Introdução à Sistemas de Informação
Introdução à Sistemas de InformaçãoIntrodução à Sistemas de Informação
Introdução à Sistemas de InformaçãoÁlvaro Farias Pinheiro
 
Sistemas Computacionais - Aula 02 - Definição de SI - Composição
Sistemas Computacionais - Aula 02 - Definição de SI - ComposiçãoSistemas Computacionais - Aula 02 - Definição de SI - Composição
Sistemas Computacionais - Aula 02 - Definição de SI - ComposiçãoLeinylson Fontinele
 
Banco de Dados II Aula 06 - Modelagem de Dados (Modelo Físico)
Banco de Dados II Aula 06 - Modelagem de Dados (Modelo Físico)Banco de Dados II Aula 06 - Modelagem de Dados (Modelo Físico)
Banco de Dados II Aula 06 - Modelagem de Dados (Modelo Físico)Leinylson Fontinele
 
2 Sistema Informação na Empresa Cap02
2 Sistema Informação na Empresa Cap022 Sistema Informação na Empresa Cap02
2 Sistema Informação na Empresa Cap02Robson Santos
 
Bddm recuperação de falhas em banco distribuido
Bddm   recuperação de falhas em banco distribuidoBddm   recuperação de falhas em banco distribuido
Bddm recuperação de falhas em banco distribuidoAntonio Ezequiel Mendonça
 
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)Leinylson Fontinele
 
Sistemas Distribuídos - Computação Distribuída e Paralela
Sistemas Distribuídos - Computação Distribuída e ParalelaSistemas Distribuídos - Computação Distribuída e Paralela
Sistemas Distribuídos - Computação Distribuída e ParalelaAdriano Teixeira de Souza
 
Arquitetura da Informação: Conceitos e Objetivos
Arquitetura da Informação: Conceitos e ObjetivosArquitetura da Informação: Conceitos e Objetivos
Arquitetura da Informação: Conceitos e Objetivosaiadufmg
 
Segurança da informação
Segurança da informaçãoSegurança da informação
Segurança da informaçãoEmerson Rocha
 
Sistemas Computacionais - Aula 01 - Apresentação
Sistemas Computacionais - Aula 01 - ApresentaçãoSistemas Computacionais - Aula 01 - Apresentação
Sistemas Computacionais - Aula 01 - ApresentaçãoLeinylson Fontinele
 

Mais procurados (20)

88194121 puc-ihc-aula11-teorias-de-ihc-eng-cognitiva
88194121 puc-ihc-aula11-teorias-de-ihc-eng-cognitiva88194121 puc-ihc-aula11-teorias-de-ihc-eng-cognitiva
88194121 puc-ihc-aula11-teorias-de-ihc-eng-cognitiva
 
Raciocinio Lógico
Raciocinio LógicoRaciocinio Lógico
Raciocinio Lógico
 
Estratégia de marketing para redes sociais nas empresas
Estratégia de marketing para redes sociais nas empresasEstratégia de marketing para redes sociais nas empresas
Estratégia de marketing para redes sociais nas empresas
 
Sistema de Informação na Empresa
Sistema de Informação na EmpresaSistema de Informação na Empresa
Sistema de Informação na Empresa
 
Design Thinking - Metodologia para Inovação
Design Thinking - Metodologia para InovaçãoDesign Thinking - Metodologia para Inovação
Design Thinking - Metodologia para Inovação
 
Estrutura de dados
Estrutura de dadosEstrutura de dados
Estrutura de dados
 
Inteligência artificial
Inteligência artificialInteligência artificial
Inteligência artificial
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
 
INTRODUÇÃO FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO
INTRODUÇÃO FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃOINTRODUÇÃO FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO
INTRODUÇÃO FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO
 
Introdução à Sistemas de Informação
Introdução à Sistemas de InformaçãoIntrodução à Sistemas de Informação
Introdução à Sistemas de Informação
 
Sistemas Computacionais - Aula 02 - Definição de SI - Composição
Sistemas Computacionais - Aula 02 - Definição de SI - ComposiçãoSistemas Computacionais - Aula 02 - Definição de SI - Composição
Sistemas Computacionais - Aula 02 - Definição de SI - Composição
 
Banco de Dados II Aula 06 - Modelagem de Dados (Modelo Físico)
Banco de Dados II Aula 06 - Modelagem de Dados (Modelo Físico)Banco de Dados II Aula 06 - Modelagem de Dados (Modelo Físico)
Banco de Dados II Aula 06 - Modelagem de Dados (Modelo Físico)
 
Sistemas de Informação
Sistemas de InformaçãoSistemas de Informação
Sistemas de Informação
 
2 Sistema Informação na Empresa Cap02
2 Sistema Informação na Empresa Cap022 Sistema Informação na Empresa Cap02
2 Sistema Informação na Empresa Cap02
 
Bddm recuperação de falhas em banco distribuido
Bddm   recuperação de falhas em banco distribuidoBddm   recuperação de falhas em banco distribuido
Bddm recuperação de falhas em banco distribuido
 
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)Banco de Dados II  Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
Banco de Dados II Aula 02 - Modelagem de Dados (Definição, Modelo conceitual)
 
Sistemas Distribuídos - Computação Distribuída e Paralela
Sistemas Distribuídos - Computação Distribuída e ParalelaSistemas Distribuídos - Computação Distribuída e Paralela
Sistemas Distribuídos - Computação Distribuída e Paralela
 
Arquitetura da Informação: Conceitos e Objetivos
Arquitetura da Informação: Conceitos e ObjetivosArquitetura da Informação: Conceitos e Objetivos
Arquitetura da Informação: Conceitos e Objetivos
 
Segurança da informação
Segurança da informaçãoSegurança da informação
Segurança da informação
 
Sistemas Computacionais - Aula 01 - Apresentação
Sistemas Computacionais - Aula 01 - ApresentaçãoSistemas Computacionais - Aula 01 - Apresentação
Sistemas Computacionais - Aula 01 - Apresentação
 

Semelhante a Conhecendo mineração de dados

Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapKlaytonAlves
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Cássio Alan Garcia
 
Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)
Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)
Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)Marcos Santos
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Machine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceMachine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceLuca Bastos
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de DadosRenata Nunes
 

Semelhante a Conhecendo mineração de dados (20)

Data mining
Data miningData mining
Data mining
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Data mining
Data miningData mining
Data mining
 
Mineração
MineraçãoMineração
Mineração
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Workshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big DataWorkshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big Data
 
Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)
Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)
Big, Open e Linked Data no caminho para a Web 3.0 (Web Semântica)
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Inteligência Artificial e Data Science
Inteligência Artificial e Data ScienceInteligência Artificial e Data Science
Inteligência Artificial e Data Science
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Machine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceMachine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ce
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 

Conhecendo mineração de dados

  • 1. Conhecendo Mineração de Dados MSC. FHABIANA THIELI MACHADO 1
  • 2. Dado, informaçãoe conhecimento Dado – bruto Informação – dado processado Conhecimento – relativo ao domínio Sistemas de informação :) 2
  • 3. Introdução Os dados podem assumir vários formatos como: séries temporais, transações, grafos ou redes sociais, textos, páginas web, imagens, vídeos e áudios. Os eletrônicos ubíquos gravam para cada pessoa suas escolhas, decisões, nível financeiro, seu trajeto pelo mundo, sendo que cada escolha representa um registro no banco de dados. 3FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 4. Introdução “...rico em dados, pobre em informação” “...salvam-se coisas que possivelmente seriam descartadas.” Falta análise destes dados para que eles possam gerar o conhecimento. 4FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS Processo de descoberta de conhecimento (KDD)
  • 5. Descoberta de conhecimento 5FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 6. Então o que é isso? Han et al. (2011) mineração de dados é o processo de descobrir novas correlações significativas, padrões e tendências em grandes quantidades de dados armazenados em repositórios O Brien (2005) O uso da tecnologia da informação para descobrir regras, identificar fatores e tendências-chave, descobrir padrões e relacionamentos ocultos em grandes bancos de dados para auxiliar a tomada de decisões sobre estratégia e vantagens competitivas. 6FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 7. Mineração de dados 7FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS Utiliza técnicas de estatística, recuperação de informação, inteligência artificial
  • 8. Mineraçãode dados Algumas tarefas: ▪Estimação ▪Predições numéricas (regressão linear e não linear) ▪Associação ▪Agrupamento (clustering) ▪Classificação ▪Ferramenta para teste Uma tarefa de mineração consiste na especificação DO QUE estamos querendo buscar nos dados. Os métodos são COMO descobrir os padrões que nos interessam. 8
  • 9. Associação 9FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 10. Associação A técnica de associação permite gerar regras do tipo SE alguma coisa... ENTÃO consequente... Junto com uma medida de suporte e confiança da regra criada. São aplicadas a itens que “andam juntos”, como em carrinhos de compra. Por exemplo: “SE compra fraldas ENTÃO compra cerveja” com um suporte de 50/1000 = 5% e uma confiança de 50/200 = 25%. 10FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 11. Associação Tem maior aplicação na área comercial, em análise de cesta de mercado, em sistemas de recomendação, design de catálogos, etc... Pois a análise do comportamento de compras dos clientes que pode levar ao aumento das vendas. Exemplos de aplicações incluem: telemarketing, e-commerce, pesquisas... 11FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 12. Aplicações 12FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS Vestibular PUC-RJ Utilizando as técnicas da mineração de dados, um programa de obtenção de conhecimento depois de examinar milhares de alunos forneceu a seguinte regra: se o candidato é do sexo feminino, trabalha e teve aprovação com boas notas no vestibular, então não efetivava a matrícula. Estranho, ninguém havia pensado nisso. Mas uma reflexão justifica a regra oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha é porque precisa, e neste caso deve ter feito inscrição para ingressar na universidade pública gratuita. Se teve boas notas provavelmente foi aprovada na universidade pública onde efetivará matrícula.
  • 13. Agrupamento 13FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 14. Agrupamento (clustering) A técnica de agrupamento tem como objetivo encontrar uma estrutura de grupos nos dados e também pode ser tratada como particionamento. A ideia é separar em grupos para uma análise posterior, de acordo com uma forma de agrupamento definida. Sendo que os elementos do grupo são semelhantes. 14FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 15. Agrupamento (clustering) Devido ao tamanho de muitos bancos de dados muitas vezes é útil aplicar agrupamento em primeiro lugar para reduzir o espaço de procura. Pode ser aplicado na recuperação de informação, como por exemplo, uma pesquisa por determinada palavra as vezes pode retornar um número muito grande de páginas relevantes para a pesquisa, devido ao grande volume de páginas da web. 15FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 16. Agrupamento (clustering) Diferentes formas de agrupar os mesmo dados 16FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 17. Agrupamento (clustering) Um algoritmo de agrupamento procura segmentar o conjunto de dados em subgrupos ou grupos relativamente homogêneos, onde a semelhança entre os registros dentro do mesmo grupo é maximizada, e à semelhança de registros fora deste é minimizado. Algumas das formas são por métodos hierárquicos, agrupamento de registros, observações em classes de objetos similares. Um dos algoritmos famosos de clustering é o k-means. 17FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 18. Agrupamento (clustering) Métodos de partição K-means - usa o conceito da centroide, seleciona aleatoriamente k registros, cada um representando um agrupamento. Para cada registro restante, é calculada a similaridade entre o registro analisado e o centro de cada agrupamento. O objeto é inserido no agrupamento com a menor distância, ou seja, maior similaridade. O centro do cluster é recalculado a cada novo elemento inserido. K-medoids - É uma variação do k-Means. Ao invés de calcular o centro do agrupamento e usá-lo como referência, trabalha-se com o conceito do objeto mais central do agrupamento. 18FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 19. Aplicações 19FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS Ao contrário da classificação, a clusterização não conta com classes predefinidas e exemplos de treinamento.
  • 20. Classificação 20FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 21. Classificação A classificação é baseada em um processo com dois passos: ▪a primeira etapa é a de aprendizado, onde um modelo é construído com base nos dados para treinamento, ▪e a segunda é o passo de classificação propriamente dito, quando o modelo é usado para prever a classe de uma dada entrada. Então o algoritmo olha para novos registros sobre o qual não há informação e com base nas classificações anteriores atribui conjuntos para os novos. 21FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 22. Classificação Alguns algoritmos para classificação... ▪ Árvore de decisão ▪ Redes neurais 22FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 23. Classificação Árvore de decisão Uma árvore na computação é grafo acíclico direcionado em que cada nó é um nó de divisão com sucessores ou um nó folha. Sua representação é intuitiva e de fácil compreensão por humanos. 23FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 24. Classificação Árvore de decisão Para esta técnica, Han et al. (2011) destaca que não é requerido qualquer conhecimento de domínio, sendo assim apropriado para exploração na descoberta de conhecimento, podendo também trabalhar com dados multidimensionais. Larose (2014) lembra que como esses algoritmos apresentam aprendizado supervisionado é necessário ter atenção com o conjunto de dados de treino. 24FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 25. Classificação Árvore de decisão Este conjunto de treinamento deve ser rico e variado de maneira que constem todos os tipos de registros para o qual sejam necessárias classificações no futuro. Árvores de decisão aprendem pelo exemplo, logo se este for falho ou incompleto o resultado será problemático, sendo que os atributos devem assumir valores discretos isto é, um número contável, para que a variável-alvo deve assumir valores que determinem se ela pertence a uma classe ou não. 25FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 26. Classificação Redes neurais A inspiração para redes neurais vem do reconhecimento dos sistemas de aprendizagem complexos como cérebros de animais. 26FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 27. Classificação Redes neurais As entradas X são recolhidas a partir de neurônios a um montante (conjunto de dados) combinados através de uma função, como um somatório, este é então introduzido a uma função de ativação para produzir uma resposta de saída Y que é então canalizada para junção com os demais neurônios. Larose (2014) aponta que são robustos em relação a dados ruidosos, isto porque a rede contem vários nós (neurônios artificiais) com pesos atribuídos a cada conexão e então a rede aprende trabalhar com esses dados uniformes. 27FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 28. Aplicações 28FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 29. Ferramenta para teste 29FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 30. Ferramenta para teste Weka - Waikato Environment for Knowledge Analysis É uma ferramenta que inclui métodos para os principais problemas de mineração de dados padrão como regressão, classificação, clustering... 30FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 31. Ferramenta para teste Weka Weka contém uma coleção de algoritmos do estado da arte em aprendizado de máquina, mineração de dados e ferramentas para pré-processamentos de dados. Permite experimentar os métodos existentes em novos conjuntos de dados de forma flexível, fornecendo suporte para basicamente todo o processo de mineração de dados, ou seja, desde a preparação até a visualização dos resultados. 31FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 32. Ferramenta para teste Weka 32FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 33. Ferramenta para teste Weka Algumas formas de aplicar uma classificação na ferramenta Weka: ▪Utilizar o mesmo conjunto de treino (use training set) - treina com determinado conjunto de dados, depois faz a previsão sobre o mesmo conjunto e avalia se o quão semelhante resultado é dos dados originais. ▪ Fornecer o conjunto de teste (supplied test set) - informa outro arquivo (com dados diferentes do conjunto de treino) para que o modelo faça a previsão. 33FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 34. Ferramenta para teste Weka ▪Dividir por porcentagem (Percentage split) - uma porcentagem é definida pelo usuário para separar os dados em conjunto de treino e teste. ▪Validação cruzada (cross-validation) - é a que produz resultados mais significativos. O conjunto de dados é dividido em partições (folds) informadas pelo usuário, a cada iteração o algoritmo treina com uma partição e testa com o conjunto separado para o teste, na próxima iteração utiliza a próxima partição e testa com o mesmo conjunto de testes, e assim sucessivamente. 34FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 35. Ferramenta para teste Weka ▪Dividir por porcentagem (Percentage split) - uma porcentagem é definida pelo usuário para separar os dados em conjunto de treino e teste. ▪Validação cruzada (cross-validation) - é a que produz resultados mais significativos. O conjunto de dados é dividido em partições (folds) informadas pelo usuário, a cada iteração o algoritmo treina com uma partição e testa com o conjunto separado para o teste, na próxima iteração utiliza a próxima partição e testa com o mesmo conjunto de testes, e assim sucessivamente. 35FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 36. Ferramenta para teste Exemplo de árvore de classificação Algoritmo: J48 Conjunto de dados: “wheather.simbolic” (condições do tempo com atributos nominais como aparência, temperatura, umidade e vento) 36FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 37. Ferramenta para teste Exemplo com associação Conjunto de dados: “weather.nominal” que fornece dados do tempo de modo textual 37
  • 38. 38FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS Descoberta de conhecimento
  • 39. 39FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS Descoberta de conhecimento
  • 40. 40FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS Descoberta de conhecimento
  • 41. Fhabiana machado - Conhecendo mineração de dados 41 Para que a informação se torne em conhecimento, não bastam números...
  • 42. O que não é mineração de dados Executar uma query SQL em uma base de dados 42FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS SELECT cliente, SUM(case when month(data)=01 then fretetotal else 0 end) Jan, FROM pedidos WHERE year(data) = 2005 GROUP BY cliente
  • 43. O que não é mineração de dados Gerar cubos multidimensionais de uma tabela relacional 43FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 44. O que não é mineração de dados Procurar por palavras chave no Google 44FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 45. Indo além... Dados abertos Rio Grande do Sul - http://dados.rs.gov.br/ Portal brasileiro - http://dados.gov.br/dataset?tags=RS Polícia rodoviária federal - https://www.prf.gov.br/portal/dados- abertos Saúde e segurança do trabalhador - http://www.previdencia.gov.br/dados-abertos/dados-abertos-sst/ 45FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
  • 46. Referências O'brien, James A. (2005). Sistemas de Informação e as decisões gerenciais na era da internet 2º ed. São Paulo: Saraiva. p. 143 Camilo, C. O. and Silva, J. C. d. (2009). Mineração de dados: Conceitos, tarefas, métodos e ferramentas. http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT- INF00109:pdf:Acessoemnovembro2015. Han, J., Kamber, M., and Pei, J. (2011). Data mining: conceptsand techniques. Elsevier, Waltham, MA, USA, 3 edition. Larose, D. T. (2014). Discoveringknowledge in data: an introduction to data mining. JohnWiley & Sons, New Jersey,2 edition. 46FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS