O documento discute como consumir e minerar dados abertos usando software livre. Ele aborda: 1) o que são dados abertos e seus tipos; 2) a plataforma Pentaho para mineração de dados; e 3) uma demonstração prática usando a ferramenta WEKA para classificação de dados.
1. Como consumir e minerar dados
abertos com Software Livre
Marcos Vinicius Fidelis
2. Palestrante
Professor da UTFPR na graduação desde 1996, e Analista de Informática da UEPG desde
1991.
Pesquisador e usuário do WEKA (atual Pentaho Data Mining) desde 1999.
Entusiasta de Software Livre e Código Aberto desde 2007.
Na UEPG é Coordenador de Projetos na Área de Gestão Acadêmica, e em 2009 implantou os
Frameworks Grails e JasperReports utilizados no Sistema de Gestão Acadêmica.
Na UTFPR, entre outros softwares, adota o PostgreSQL e Pentaho.
Participou como palestrante nos seguintes eventos de Software Livre: FISL, Flisol, FTSL,
Latinoware e PentahoDay.
3. Roadmap
● Open Data
●
Internet of Things
● Data Mining
● Knowledge Database Discovery
● Classification
● Pentaho Data Mining – WEKA
● ARFF, Explorer, Experimenter
● Pentaho Data Integration – Kettle
● Hands on
● Conclusion
4. Uma revolução de dados para quem?
● A crescente disponibilidade de dados digitais e
de tecnologias de dados levou muitos grupos
da sociedade civil, governos e organizações
internacionais a falar de uma “revolução de
dados”. Mas que tipos de projetos políticos,
modelos de cidadania e formas de ação irá a
tal revolução de dados permitir? E a quem irá,
em última análise, servir?
5. Dados Abertos
Que são dados abertos?
“Dados abertos são
aqueles que podem ser
usados, reutilizados e
distribuídos livremente por
qualquer pessoa – no
máximo exigindo-se que a
fonte seja citada ou que os
dados sejam divulgados
com a mesma licença.”
6. Quais tipos de Dados Abertos?
●
Geográficos: dados utilizados na criação de mapas (desde a localização de estradas e
construções até topografia e limites)
●
Culturais: dados sobre obras culturais e artefatos (por exemplo títulos e autores –
geralmente coletados e mantidos por galerias, bibliotecas, arquivos e museus)
●
Científicos: dados produzidos como parte de pesquisas científicas, desde astronomia até
zoologia.
●
Financeiros: dados como contas governamentais (receitas e despesas) e informações
sobre mercados financeiros (títulos ações, etc).
● Estatísticos: dados produzidos por serviços de estatísticas, como censo e indicadores
socioeconômicos.
● Clima: os vários tipos de informações utilizadas para compreender e prever o clima e o
tempo.
●
Ambiente: Informações relacionadas ao meio ambiente, como presença e nível de
poluentes, a qualidade dos rios e oceanos.
●
Transporte: dados como horários, rotas e estatísticas pontuais.
11. O que é Mineração de Dados?
● é o processo de explorar grandes quantidades de dados à procura
de padrões consistentes, como regras de associação ou sequências
temporais, para detectar relacionamentos sistemáticos entre
variáveis, detectando assim novos subconjuntos de dados.
● É formada por um conjunto de ferramentas e técnicas que através
do uso de algoritmos de aprendizagem ou classificação baseados
em redes neurais e estatística, são capazes de explorar um conjunto
de dados, extraindo ou ajudando a evidenciar padrões nestes dados
e auxiliando na descoberta de conhecimento. Esse conhecimento
pode ser apresentado por essas ferramentas de diversas formas:
agrupamentos, hipóteses, regras, árvores de decisão, grafos, etc.
12. Fases do Processo de Descoberta de
Conhecimento (Knowledge Discovery in
Databases)
13. KDD – Knowledge Database Discovery
● KDD inclui atividades multidisciplinares (IA, BD, Estatística e
Visualização de Dados)
● Os padrões identificados nos dados devem ser válidos em dados
novos e possuir o mesmo grau de confiança. Estes padrões são
considerados conhecimento novo
● Um padrão para ser classificado como conhecimento deve ser
novo, útil e compreensível, permitindo melhorar o entendimento de
um problema ou um procedimento de tomada de decisão
● Torture os dados até confessarem!
14.
15.
16. WEKA - Histórico
● Existem três versões do Weka
– Weka 3.4 - ramo estável que foi criado em 2003 para corresponder com o que está descrito na segunda
edição do livro Witten e Frank Data Mining (publicado 2005) . Recebe apenas correções de bugs.
– Weka 3.6 - ramo estável que foi criado em meados de 2008 para corresponder com o que está descrito
na 3ª edição do Witten, Frank e Hall - livro Data Mining (publicado em janeiro de 2011) . Recebe apenas
correções de bugs.
– Weka 3.7 – versão de desenvolvimento . Esta é uma continuação da versão 3.6 Recebe correções de
bugs e novos recursos. (última 3.7.12 mai/2015)
● Anteriormente
– 1992 – submissão do projeto ao governo de NZ (Ian Witten)
– 1993 – aprovado pelo governo
– 1994 – Primeira versão (principalmente em C)
– 1996 – Primeira versão pública – WEKA 2.1
– 1997 – Convertido para Java
– 1998 – WEKA 3 (completamente Java)
– 2006 – O projeto foi incorporado ao Pentaho
17. Tarefas mais comuns de DM
• Classificação: aprendizado de uma função que mapeia um
dado em uma de várias classes conhecidas.
• Regressão (predição): aprendizado de uma função que mapeia
um dado em um valor real.
• Agrupamento (clustering): identificação de grupos de dados
onde os dados tem características semelhantes entre si e os
grupos tem características diferentes.
• Sumarização: descrição do que caracteriza um conjunto de
dados (ex. conjunto de regras).
• Detecção de desvios ou outliers: identificação de dados que
deveriam seguir um padrão mas não o fazem.
19. O que tenho disponível?
● 100+ algoritmos de classificação
● 75 para pré-processamento de dados
● 25 para apoiar o processo de Seleção de Atributos
● 20 para agrupamento, regras de associação, etc
● E muitas outras contribuições como AIS, AC e AG
24. Experimenter
● permite a comparação de diferentes estratégias de
aprendizagem.
● Para problemas de classificação e regressão
● Resultados escritos em um arquivo ou base de dados
● Opções de avaliação: cross-validation, curva de
aprendizagem, hold-out
● Pode ser executado com diferentes configurações de
parâmetros
● Teste de significância acoplado
28. Onde utilizar DM?
● Quanto mais direcionados os anúncios, mais
eficaz você pode ser
● Buscando padrões úteis em dados de vendas,
políticas públicas, medicina, seguros, esportes
e etc.
● Analisar os dados de sensores, internet das
coisas.
29. Mudando o jeito de gerenciar o negócio
● Uma fase é o BI utilizando ETL e ferramentas
analíticas para suporte a decisão
● Outra fase é utilizar o BI antes de acontecer os
problemas, prever problemas, e/ou utilizar os
sistemas de apoio a decisão baseados em
aprendizagem de máquina junto aos sistemas
transacionais.
30. Data Mining e privacidade
● Data Mining busca PADRÕES e não
PESSOAS.
● Soluções técnicas podem limitar a invasão de
privacidade
– Substituir informações sigilosas com um id anônimo
– Fornecer saídas aleatórias
– Utilizar rótulos em instâncias que escondam o real
significado.
31. Hands on with WEKA
Vamos ver na prática como funciona!
33. Aprendendo mais sobre Data Mining
● http://weka.pentaho.com/
● http://www.cs.waikato.ac.nz/ml/weka/
● Mineração de Dados - Conceitos, Aplicações e Experimentos com
Weka
– http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition
(The Morgan Kaufmann Series in Data Management Systems)
● KDnuggets
– news, software, jobs, courses,…
– www.KDnuggets.com
● ACM SIGKDD – data mining association
– www.acm.org/sigkdd