Este documento fornece uma introdução ao processo de construção de classificadores para mineração de dados. Discute conceitos como classificação, regressão, agrupamento e detecção de desvios. Apresenta ferramentas como Weka e Pentaho para desenvolvimento de modelos preditivos e avaliação de algoritmos de aprendizado de máquina.
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...Leandro de Castro
Conjunto de slides desenvolvido como material de apoio disponível para uso por professores e alunos da disciplina Mineração de Dados, assim como demais interessados no tema. Apresenta de forma sucinta o conteúdo do livro e os principais conceitos da área.
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...Leandro de Castro
Conjunto de slides desenvolvido como material de apoio disponível para uso por professores e alunos da disciplina Mineração de Dados, assim como demais interessados no tema. Apresenta de forma sucinta o conteúdo do livro e os principais conceitos da área.
Apresentação sobre Data warehouse e Data mining do curso de Gestão da Informação UFPR. Matéria Informática aplicada II (Business Intelligence).
Autores: Cassius Busemeyer, Cristiane Aparecida Luquetta, Rafael Slonik
Apresentação realizada a disciplina de Gestão da Informação. Buscou-se destacar as principais características, contexto histórico e um case de implantação de Data Warehouse.
Você sabe o que é ou o que faz um Banco de Dados? Veja essa apresentação e sua continuação (vou postar em breve) e conheça um pouquinho mais sobre tecnologia.
Apresentação que visa demonstrar resumidamente os conceitos básicos de um repositório de dados Data Warehouse. Assim explicando a estrutura e os resultados esperados de um Data Warehouse.
Apresentação sobre Data warehouse e Data mining do curso de Gestão da Informação UFPR. Matéria Informática aplicada II (Business Intelligence).
Autores: Cassius Busemeyer, Cristiane Aparecida Luquetta, Rafael Slonik
Apresentação realizada a disciplina de Gestão da Informação. Buscou-se destacar as principais características, contexto histórico e um case de implantação de Data Warehouse.
Você sabe o que é ou o que faz um Banco de Dados? Veja essa apresentação e sua continuação (vou postar em breve) e conheça um pouquinho mais sobre tecnologia.
Apresentação que visa demonstrar resumidamente os conceitos básicos de um repositório de dados Data Warehouse. Assim explicando a estrutura e os resultados esperados de um Data Warehouse.
Plano de pesquisa integrado para os anos de 2016 a 2016 com foco no estudo da dinâmica social de interação humana em rede utilizando novos enfoques a partir de métodos digitais - MediaLab - Laboratório de Políticas Públicas Participativas - Universidade Federal de Goiás
Apresentação do artigo "Ontologies, methodologies, and new uses of Big Data in the social and cultural sciences" em seminário do grupo de estudos de Métodos Digitais.
Curso Gratuito Online de Open Data (Dados Abertos) e BI Open SourceIT4biz IT Solutions
Slides do Curso Gratuito Online de Open Data (Dados Abertos) e BI Open Source.
Para saber mais:
http://www.it4biz.com.br/novosite/treinamentos/treinamentos/curso-gratuito-online-de-open-data-dados-abertos-e-bi-open-source/
A aula se propõe a fazer uma revisão das principais etapas dos métodos dedutivo e indutivo de análise de dados com foco quantitativo para pesquisas na área das ciências sociais aplicadas. Com isso em questão, será futuramente trabalho o que os métodos digitais mexem nessas etapas e suas novas possibilidades analíticas
BPA - Boletim de Produção Ambulatorial.
Aula sobre a importação automática da produção realizada em uma unidade de saúde.
Sem qualquer digitação, o operador do BPA magnético realizou o seu trabalho sem qualquer dificuldade... já no 1o. dia útil após o fechamento do mês.
O sistema MeuProntuário gerou o arquivo consolidado mensal de todos os profissionais, AUTOMATICAMENTE.
www.MeuProntuario.net.br
A aula apresenta os aspectos introdutórios da disciplina, dando ênfase na ementa, plano de aulas, avaliação e apresenta um cenário inicial como contexto social para o mundo de análise que vamos investigar. Ao final, a aula procura definir qual é a visão que temos sobre métodos digitais e quais são seus objetos de pesquisa.
Text Mining para BI e Finalização do Dashboard no TableauLeandro Guerra
Text Mining para BI e Finalização do Dashboard no Tableau.Text mining, ou mineração de textos, se refere ao processo de recuperar informações relevantes de um texto. Esta informação relevante é derivada de padrões e tendências que sejam relevantes ao negócio e encontradas nos textos.
Apresentação de trabalho para a disciplina de Inteligencia Computacional.
Instituto Federal de Educação, Ciência e Tecnologia do Ceará
IFCE - Curso de Engenharia da Computação.
A alguns anos comecei a estudar para me tornar um Cientista de Dados. Ainda Não estou totalmente lá, mas essa palestra traz algumas coisas que aprendi e recursos para aprender ainda mais.
Anotações de aula da disciplina Modelagem de Sistemas de Informação de Rede do curso de Gestão de Tecnologia da Informação - 3º semestre - UNIP Paulista.
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
1. 1 de 44
Construção de Classificadores
Marcos Vinicius Fidelis
Analista de Informática – Universidade Estadual de Ponta Grossa
Professor – Universidade Tecnológica Federal do Paraná
fidelis@utfpr.edu.br - mvfidelis@uepg.br
2. 2 de 44
Surgiu com a necessidade de
tratar a grande quantidade de
dados disponíveis!
3. 3 de 44
A internet em um minuto
http://techwelkin.com/in-one-minute-of-internet-infographic
4. 4 de 44
KDD - DM
● Extração de conhecimento (Knowledge Discovery in
Databases) é um processo de extração de informações de base
de dados, que cria relações de interesse que não são
observadas pelo especialista no assunto, bem como auxilia a
validação de conhecimento extraído.
● Mineração de Dados (Data Mining) é um passo no processo
de KDD que consiste na aplicação de análise de dados e
algoritmos de descobrimento que produzem uma enumeração
de padrões (ou modelos) particular sobre os dados.
6. 6 de 44
SAD e MD
● O produto esperado da extração de conhecimento é uma
informação relevante para ser utilizada pelos tomadores de
decisão. Alguns autores, porém, defendem o ponto de vista de
que o conhecimento descoberto não precisa necessariamente ser
incorporado a um sistema de apoio à decisão (SAD).
● Áreas envolvidas: aprendizado de máquinas; banco de dados
inteligente; computação de alto desempenho; estatística;
inteligência artificial; visualização de dados; reconhecimento de
padrões e sistemas especialistas.
7. 7 de 44
Data Warehouse
● Um data warehouse é um sistema de computação
utilizado para armazenar informações relativas às
atividades de uma organização em bancos de dados,
de forma consolidada. O desenho da base de dados
favorece os relatórios, a análise de grandes volumes
de dados e a obtenção de informações estratégicas
que podem facilitar a tomada de decisão.
8. 8 de 44
Business Intelligence
● O termo Business Intelligence (BI), pode ser
traduzido como Inteligência de negócios, refere-se
ao processo de coleta, organização, análise,
compartilhamento e monitoramento de informações
que oferecem suporte a gestão de negócios.
9. 9 de 44
Data Mining
● Mineração de dados é o processo de explorar
grandes quantidades de dados à procura de padrões
consistentes, como regras de associação ou
sequências temporais, para detectar relacionamentos
sistemáticos entre variáveis, detectando assim novos
subconjuntos de dados.
10. 10 de 44
A quem interessa Mineração de Dados?
● Empresa
– Identificar categorias de
consumidores
– Hábitos de consumo
associados a categorias
– Retenção de clientes
– Afinidades entre produtos
– CRM
– Marketing
– Identificação de
competências em currículos
● Saúde
– Auxiliar o processo de triagem de
pacientes
– Melhorar diagnósticos
● Outros
– Bioinformática
– Investimentos/Seguros
– Esportes
– Entretenimento
● Auditoria
– Detecção de fraudes
– Identificação de desvios
11. 11 de 44
Escândalo dos cartões corporativos
Caso 3:
Se {“Locação de automóvel sem condutor”,”R$1000-R$1500”} então {“Sec.Esp. De Políticas de Promoção da
Igualdade Racial”}
suporte = 1,15% e confiança = 86,67%
Ressalta-se que esse exemplo é exatamente o pivô das discussões sobre cartões, configurado no aluguel de
carros em viagens.
12. 12 de 44
Por que minerar dados?
Para ter informações que ajudem no
processo decisório
O que posso encontrar?
Padrões preditivos, associativos e de
agrupamento.
13. 13 de 44
Módulos Pentaho
A Suite Pentaho é composta pelo Pentaho BI Server, Pentaho Data Integration, Pentaho Analysis, Pentaho Reporting,
Pentaho Dasboards e Pentaho Data Mining.
– Pentaho Data Integration: Ta mbém conhecido como Kettle é uma solução robusta para integração de dados, recomendada para
processos de ETL (do inglês Extract, Transfomation and Load) responsáveis por popular um Data Warehouse, Migração de base de
dados e Integração entre Aplicações. Não deixa nada a desejar para os principais player’s do mercado.
– Pentaho Analysis: Também conhecido como Mondrian é um poderoso motor olap, baseado em uma arquitetura ROLAP, onde pode-se
utilizar os principais SGBD’s do mercado. Possui diversas funcionalidades, como, camada de metadados, linguagem MDX, cache
em memória, tabelas agregadas e muito mais.
– Pentaho Reporting: Este módulo da suite comtempla duas ferramentas, uma ferramenta de geração de relatórios, também conhecida
como JFreeReport e outra para geração de metadados, a qual permite a criação Ad-Hoc de relatórios via web browser.
– Pentaho Dashboards: Este módulo da suite permite a criação de paineis de controle, mais conhecidos como Dashboards e através
dele é possivel reunir em uma mesma tela, os principais indicadores de um departamento ou de toda a empresa.
– Pentaho Data Mining: Também conhecido como Weka é o módulo mais antigo da suite e possui poderosos recursos para mineração
de dados.
14. 14 de 44
Comunidade Pentaho Brasil
https://www.facebook.com/pentahobrasil
http://www.pentahobrasil.com.br
15. 15 de 44
Pentaho Data Mining (PDM)
● Explorer: testar
classificadores/filtros
● Experimenter:
Comparação de
desempenho
● KnowledgeFlow:
Interface gráfica
● SimpleCli: Interface de
linha de comando
16. 16 de 44
História
● 1992 – submissão do projeto ao governo de NZ (Ian
Witten)
● 1993 – aprovado pelo governo
● 1994 – Primeira versão (principalmente em C)
● 1996 – Primeira versão pública – WEKA 2.1
● 1997 – Convertido para Java
● 1998 – WEKA 3 (completamente Java)
● 2006 – O projeto foi incorporado ao Pentaho
17. 17 de 44
O que tenho disponível?
● 100+ algoritmos de classificação
● 75 para pré-processamento de dados
● 25 para apoiar o processo de Seleção de Atributos
● 20 para agrupamento, regras de associação, etc
18. 18 de 44
Tarefas de Mineração de Dados
• Classificação: aprendizado de uma função que mapeia um dado em
uma de várias classes conhecidas.
• Regressão (predição): aprendizado de uma função que mapeia um
dado em um valor real.
• Agrupamento (clustering): identificação de grupos de dados onde os
dados tem características semelhantes entre si e os grupos tem
características diferentes.
• Sumarização: descrição do que caracteriza um conjunto de dados (ex.
conjunto de regras).
• Detecção de desvios ou outliers: identificação de dados que deveriam
seguir um padrão mas não o fazem.
19. 19 de 44
Predição
● Classificação
● Regressão
● Missão: Dado um conjunto de exemplos pré-classificados,
construir um modelo (Classificador) para classificar novos
casos.
● Um classificador pode ser um conjunto de regras, uma
árvore de decisão, uma rede neural, etc.
20. 20 de 44
Todos os padrões são interessantes?
Um padrão é interessante se:
● Pode ser facilmente compreendido por humanos
● É válido em dados de teste com um certo grau de
certeza
● Potencialmente útil
● Novo
● valida uma hipótese do usuário
21. 21 de 44
Um exemplo de dataset
@relation tempo
@attribute aparencia {ensolarado, nublado, chuvoso}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {sim, nao}
@data
ensolarado,85,85,FALSE,nao
ensolarado,80,90,TRUE,nao
nublado,83,86,FALSE,sim
chuvoso,70,96,FALSE,sim
chuvoso,68,80,FALSE,sim
chuvoso,65,70,TRUE,nao
nublado,64,65,TRUE,sim
ensolarado,72,95,FALSE,nao
ensolarado,69,70,FALSE,sim
chuvoso,75,80,FALSE,sim
ensolarado,75,70,TRUE,sim
nublado,72,90,TRUE,sim
nublado,81,75,FALSE,sim
chuvoso,71,91,TRUE,nao
22. 22 de 44
Tipos de dados
● @attribute Nome string
● @attribute Salario numeric
● @attribute sexo {masculino, feminino}
● @atttribute dtCompra date "yyyy-MM-dd"
28. 28 de 44
Classificador ZeroR
O classificador ZeroR prevê a classe mais frequente para atributos categóricos e a média para
Atributos numéricos. Útil para servir de “baseline” para avaliação de outros classificadores.
30. 30 de 44
Classificador Bayes
● Oposto do OneR: utiliza todos os atributos e regras
Bayes para estimar a probabilidade de uma classe
para uma instância
● Naive Bayes tem um desempenho muito bom
● Pode ser prejudicado por muitos atributos
redundantes
31. 31 de 44
Classificador J48 (C4.5) – Árvore de Decisão
32. 32 de 44
Árvores de decisão
if X > 5 then blue
else if Y > 3 then blue
else if X > 2 then green
else blue
33. 33 de 44
Redes Neurais
Podem selecionar regiões mais complexas
Podem ser mais precisas
Podem se ajustar aos dados - encontrar padrões em dados com ruído
35. 35 de 44
Dividindo o dataset
● Conjunto de treinamento
– Utilizado para a construção do classificador
– Quanto maior, melhor o classificador gerado
● Conjunto de Teste (Validação)
– Utilizado para estimar o desempenho
36. 36 de 44
Outras abordagens para classificadores
● Rules
● Genetic Algorithms
● Ensemble
● E muitos outros
37. 37 de 44
Como avaliar um classificador?
● Taxa de erro = n° de erros / total
● Validação Cruzada: Dividir os dados em n partições
treino/teste e calcular o erro médio
● Matriz de Confusão: Separa os diversos tipos de
erro: Falso Positivo (o classificador prevê que é de
uma classe e não é) e Falso Negativo (o classificador
não detecta que é da classe)
Matriz de Conf. Classificado Sim Classificado Não
Realmente Sim TP FN
Realmente Não FP TN
Taxa de erro = (FP+FN)/n
Confiança positiva = TP/(TP+FP)
Confiança negativa = TN/(TN+FN)
Sensibilidade = TP/(TP+FN)
Precisão (acuracy) = (TP+TN)/n
38. 38 de 44
Seleção de Atributos
● Realizada no pré-processamento dos dados
● Usada para investigar quais atributos (subconjuntos
deles) são mais preditivos
● 2 etapas:
– Um método de busca
– Um método de avaliação
● Flexibilidade: (quase) qualquer combinação de
busca/avaliação
39. 39 de 44
Experimenter
● Determinar e o desvio padrão do desempenho de um algoritmo
de classificação em um dataset …
– Ou vários algoritmos em vários datasets
● Analisar se um algoritmo é melhor que outro em um dataset
particular? Esta diferença é estatisticamente significante?
● Testar configurações de parâmetros de um mesmo algoritmo.
● Os dados e resultados da análise podem ser armazenados em um
arquivo .ARFF
● O processamento pode levar dias ou semanas, e pode ser
distribuído em vários computadores.
40. 40 de 44
MD e privacidade
● MD busca PADRÕES e não PESSOAS.
● Soluções técnicas podem limitar a invasão de
privacidade
– Substituir informações sigilosas com um id anônimo
– Fornecer saídas aleatórias
– Utilizar rótulos em instâncias que escondam o real
significado.
41. 41 de 44
Minerando Big Data
● A partir da 3.7 - packages para MD distribuída
– DistributedWekaBase: Tarefas básicas de “map” e “reduce”
– DistributedWekaHadoop: fornece Hadoop-specific wrappers e jobs
para várias tarefas
● http://www.cs.waikato.ac.nz/ml/weka/bigdata.html
● Algoritmos tradicionais precisam de todos os dados em memória
– Incremental schemes
– Stream algorithms
– MOA (Massive Online Analysis) - http://moa.cs.waikato.ac.nz/
● http://markahall.blogspot.com.br/2013/03/learning-linear-models-
in-hadoop-with.html
42. 42 de 44
Referência
● Livro-texto
– Data Mining: Practical machine learning tools and
techniques, by Ian H. Witten, Eibe Frank and Mark A.
Hall. Morgan Kaufmann, 2011
● Download
– http://www.cs.waikato.ac.nz/ml/weka
– para Windows, Mac, Linux
43. 43 de 44
Onde conseguir mais informações?
● https://www.facebook.com/pentahobrasil
● http://www.pentahobrasil.com.br
● http://weka.pentaho.com/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com
Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● KDnuggets
– news, software, jobs, courses,…
– www.KDnuggets.com
● ACM SIGKDD – data mining association
– www.acm.org/sigkdd
44. 44 de 44
Contato
Obrigado a todos!
Marcos Vinicius Fidelis
mvfidelis@uepg.br - fidelis@utfpr.edu.br